KR20040018008A

KR20040018008A - 품사 태깅 장치 및 태깅 방법

Info

Publication number: KR20040018008A
Application number: KR1020020050296A
Authority: KR
Inventors: 김정세
Original assignee: 한국전자통신연구원
Priority date: 2002-08-24
Filing date: 2002-08-24
Publication date: 2004-03-02

Abstract

본 발명은 자연어 처리장치에 관한 것으로, 구체적으로는 자연어의 처리과정에서 사용되는 품사 태깅 장치 및 그 방법에 관한 것이다. 본 발명의 복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보 및 품사의 트라이그램 값이 저장되어 있는 데이터 저장부; 입력받은 문장을 음절로 분리하고, 상기 분리한 음절과 상기 분리된 각각의 음절간의 조합이 상기 기본사전에 존재하는지를 확인한 후, 상기 품사 접속정보를 기초로 상기 분리한 음절과 상기 음절간의 조합에 대한 적어도 하나 이상의 품사를 가진 형태소들의 연결 리스트을 찾아 나열하는 형태소 해석부; 및 상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석부에서 얻은 해석 결과를 모두 사용하고, 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 하나 이상의 품사를 가진 형태소들의 연결 리스트 중에 하나를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 후보열 중에 하나를 결정하는 품사 태깅부를 구비한다. 본 발명에서 제공하는 품사 태깅 장치를 사용함으로써 빠른 속도로 수행되는 태깅 시스템을 구현할 수 있는 효과가 있다.

Description

품사 태깅 장치 및 태깅 방법 {Apparatus for tagging part of speech and method therefor}

본 발명은 자연어 처리장치에 관한 것으로, 구체적으로는 자연어의 처리과정에서 사용되는 품사 태깅 장치 및 그 방법에 관한 것이다.

자연어는 컴퓨터의 프로그래밍 언어와 같은 인공언어(artificial language)에 비해 문법의 제약이 심하지 않고, 사용되는 영역이 제한되어 있지 않다. 따라서 자연어는 문장을 구성하는 어절, 구문들이 문맥에 따라서 한가지 이상의 품사, 구문 구조 또는 의미로 해석되는 모호성(ambiguity)을 갖는다. 자연어의 모호성이란 어절, 문장 또는 구문 구조 등 자연어를 구성하는 요소에 대한 하나 이상의 해석이 가능한 현상을 의미한다. 자연어를 올바르게 분석하고 이해하기 위해서는 자연어에서 발생하는 모호성을 해결하는 과정이 반드시 요구된다.

자연어에서 발생하는 모호성은 어휘적 모호성(lexical ambiguity), 구문적 모호성(syntactic ambiguity) 그리고 의미적 모호성(semantic ambiguity)으로 구분된다.

어휘적 모호성은 문장에 사용된 단어 또는 어절이 하나 이상의 품사 또는 형태소 분석 결과를 가져올 수 있음을 의미한다. 예를 들면, 어절 '나는' 은 날/동사 + 는/관형형 전성어미, 나/동사 + 는/관형형전성어미, 나/보조용언 + 는/관형형전성어미, 나/명사 + 는/보조사, 나/대명사 + 는/보조사 와 같이 5가지의 형태소 분석이 가능하다. 여기서 형태소란, 일정한 음성에 일정한 뜻이 결합되어 있는 말의 가장 작은 단위, 즉, 최소의 유의적 단위를 의미한다.

구문적 모호성은 하나의 문법 구조가 두 가지 이상의 해석이 가능한 현상을 의미하며, 의미적 모호성은 단어 또는 어절의 의미가 두 가지 이상으로 해석 가능한 현상을 의미한다.

품사 태깅(part-of-speech tagging)이란 문장 내에서 단어가 사용된 문맥에 따라서 각 단어의 올바른 품사 정보를 할당하는 과정을 말한다. 품사 태깅은 상술한 어휘적 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정에서 사용되며, 정보 검색 시스템에서 높은 재현율 및 정확도를 갖는 색인어와 검색어 추출을 위해 사용될 수 있다. 또한 기계 번역, 언어 정보 획득 도구, 철자검사, 사전 구축 등 자연어 처리의 제반 분야에서 필수적인 과정으로 인식되고 있다.

품사 태깅에는 크게 통계 기반 접근 방법(Statistical Approach)과 규칙 기반 접근 방법(Rule-Based Approach), 그리고 통계 기반 접근방법과 규칙 기반 접근방법을 통합한 통합 접근 방법(Hybrid Approach)이 있다.

통계 기반 접근 방법(Statistical Approach)은 실세계의 자연어 용례들과 부속 정보를 포함하는 원시(raw) 또는 태깅된 코퍼스(corpus)를 분석하고 자연어에 대한 통계 정보를 추출하여 얻는 확률을 이용하여 자연어 처리의 중의성 문제를 확률적으로 해결하는 방법이다. 이것은 거의 모든 언어 현상에 적용할 수 있지만, 실세계 언어 현상을 충분히 대표할 수 있는 양과 질의 코퍼스가 존재하지 않아 데이터 부족 문제로 인해 정확도가 저하된다.

통계 기반 접근 방법은 크게 어휘 확률만을 이용하는 방법, 은닉 마르코프 모델(Hidden Markov Model, HMM)의 자율 학습을 이용하는 방법, N-gram의 문맥 확률과 어휘 확률을 이용하는 방법으로 분류할 수 있고, 이 밖에도 신경망(neural network)을 이용하는 방법, 퍼지망(fuzzy network)을 이용하는 방법 등이 있다.

규칙 기반 접근 방법(Rule-Based Approach)은 자연어에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 자연어 처리의 중의성 문제를 해결하는 방법으로 지식 기반 방법(Knowledge-Based Approach) 또는 제약 기반 접근 방법(Constraint-Based Approach)이라고도 한다. 이 방법은 일관성 있는 결정적 규칙을 얻기가 어렵고 많은 규칙들을 잘 제어하기가 쉽지 않아 일반적으로 견고하지 못하지만, 규칙이 적용될 수 있는 현상에 대해서는 높은 정확도를 보인다. 최근에는 사용 가능해진 대량의 원시 코퍼스 및 태깅된 코퍼스(corpus)의 구축과 컴퓨터 성능 향상에 힘입어 태깅 규칙을 자동으로 학습하고자 하는 연구가 활발히 진행되고 있다.

통합 접근 방법(Hybrid Approach)은 대량의 데이터에서 추출한 확률 및 통계 정보와 언어 지식을 모두 이용함으로써 통계 기반 접근 방법과 규칙 기반 접근 방법의 장단점을 상호 보완하고자 하는 방법이다.

대한민국 특허공개공보 제1999-0070636 호에는 형태소 분석의 방법 중에 통계 기반 분석 방법을 사용한 예가 개시되어 있다. 그러나, 이 통계기반 분석방법이 좀 더 정확한 태깅을 할 수는 있으나, 실제 사용을 위한 품사 태깅 속도는 느리다는 문제점이 있다.

대한민국 특허공개공보 제2000-19194 호에는 통계 기반 케이-베스트 품사 태깅 장치 및 방법이 개시되어 있다. 통계 기반 케이-베스트 품사 태깅 장치는, 원시 코퍼스로부터 형태소 분석된 문장에서 각 단어에 대해 소정의 상태 기반 품사 태깅법을 이용하여 품사 태깅을 수행하는 상태 기반 품사 태거, 형태소 분석된 입력 문장에서 각 단어에 대해 소정의 경로 기반 품사 태깅법을 이용하여 품사 태깅을 수행하는 경로 기반 품사 태거 및 상태 기반 품사 태깅된 결과와 경로 기반 품사 태깅된 결과를 병합하고, 병합된 결과에서 두 가지의 품사를 할당받은 특정 단어의 부적합 품사를 제거하거나 적합 품사를 할당하며, 한가지의 품사를 할당받더라도 오류된 태깅 결과를 정정하여 품사 태깅된 코퍼스를 얻는 후처리부를 구비하고 있다.

품사 태깅에 관련된 종래의 기술들은 어절별 완전 서치(Full search)를 적용하거나 비터비 서치(Viterbi search) 또는 비터비 빔 서치(Viterbi beam search)를 적용하고 있다. 그러나, 이러한 종래기술들은 수행속도가 느려서 음성 합성과 같은 빠른 응답이 필요한 곳에는 적용하기 어렵다는 문제점이 있다.

본 발명이 이루고자 하는 기술적 과제는, 음성 합성과 같은 빠른 응답이 필요한 곳에도 적용할 수 있으며, 빠른 속도의 품사 태깅 결과를 출력할 수 있는 품사 태깅 장치 및 태깅 방법을 제공하는데 있다.

도 1은 본 발명의 품사 태깅 장치의 블록도이다,

도 2는 상기 "과속을(gwasoG_L)" 에 대해서 태뷸러(Tabular) 파싱법을 적용하여 형태소 해석을 수행하기 위한 자모조합의 예를 나타낸 도면이다.

도 3은 상기 예에 대한 품사 리스트 결과를 나타낸 도면이다.

도 4는 변형된 태뷸러(tabular) 파싱법에 따라서 "과속을" 에 대한 형태소 해석 결과를 나타낸 도면이다.

도 5는 "과속을 한다" 에 대한 품사 태깅 결과를 나타낸 도면이다.

도 6은 태그와 품사를 나타낸 일실시예 도표이다.

도 7은 상기 품사 태깅 장치에서 제1저장부, 제2저장부, 제3저장부를 통합한 품사 태깅 장치의 블록도이다.

도 8은 본 발명의 품사 태깅 방법의 흐름도이다.

상기의 과제를 이루기 위하여 본 발명에 의한 품사태깅장치는, 복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보 및 품사의 트라이그램 값이 저장되어 있는 데이터 저장부; 입력받은 문장을 음절로 분리하고, 상기 분리한 음절과 상기 분리된 각각의 음절간의 조합이 상기 기본사전에 존재하는지를 확인한후, 상기 품사 접속정보를 기초로 상기 분리한 음절과 상기 음절간의 조합에 대한 적어도 하나 이상의 품사를 가진 형태소들의 연결 리스트를 찾아 나열하는 형태소 해석부; 및 상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석부에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대한 품사를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트 중에서 하나를 선택하는 품사 태깅부를 구비한다.

상기의 과제를 이루기 위하여 본 발명에 의한 품사태깅장치는, 품사 태깅을 수행할 문장을 입력받는 문장 입력부; 복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보 및 품사의 트라이그램 값이 저장되어 있는 데이터 저장부; 상기 문장 입력부를 통해 입력받은 문장을 음절로 분리하고, 상기 분리한 음절과 상기 분리된 각각의 음절간의 조합이 상기 기본사전에 존재하는지를 확인한 후, 상기 품사 접속정보를 기초로 상기 분리한 음절과 상기 음절간의 조합에 대한 적어도 하나 이상의 품사를 가진 형태소들의 연결 리스트를 찾아 나열하는 형태소 해석부; 상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석부에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대해 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트들 중에서 하나를 선택하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 형태소에 대한 연결 리스트를 선택하는 품사 태깅부; 및 상기 품사 태깅부에서의 품사 태깅 결과를 출력 장치로 출력하는 품사 태깅 결과 출력부를 구비한다.

상기의 과제를 이루기 위하여 본 발명에 의한 품사태깅장치는, 품사 태깅을 수행할 문장을 입력받는 문장 입력부; 복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전을 저장하고 있는 제1저장부; 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보를 저장하고 있는 제2저장부; 상기 형태소에 대한 품사의 트라이그램 값을 저장하고 있어 상기 품사 태깅부에서의 품사 태깅시에 상기 트라이그램 값을 활용할 수 있도록 하는 제3저장부; 상기 문장 입력부를 통해 입력받은 문장을 음절로 분리하고, 상기 분리한 음절과 상기 분리된 각각의 음절간의 조합이 상기 기본사전에 존재하는지를 확인한 후, 상기 품사 접속정보를 기초로 상기 분리한 음절과 상기 음절간의 조합에 대한 적어도 하나 이상의 품사를 가진 형태소들의 연결 리스트를 찾아 나열하는 형태소 해석부; 상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석부에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대해 상기 품사통계정보와 상기 트라이그램 값을 기초로 연결 리스트들 중에서 하나를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트들 중에서 하나를 결정하는 품사 태깅부; 및 상기 품사 태깅부에서의 품사 태깅 결과를 출력 장치로 출력하는 품사 태깅 결과 출력부를 구비한다.

상기의 과제를 이루기 위하여 본 발명에 의한 품사태깅방법은, 품사 태깅을 수행할 문장을 입력받는 단계; 상기 입력받은 문장에 대해서, 복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보가 저장되어 있는 데이터 저장부를 이용하여 형태소 해석을 수행하는 단계; 및 상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석 단계에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대해 상기 품사통계정보와 상기 트라이그램 값을 기초로 연결 리스트들 중에서 하나를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트들 중에서 하나를 결정하는 단계를 구비한다.

상기한 과제를 이루기 위하여 본 발명에서는, 품사 태깅을 수행할 문장을 입력받는 단계; 상기 입력받은 문장에 대해서, 복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보가 저장되어 있는 데이터 저장부를 이용하여 형태소 해석을 수행하는 단계; 및 상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석 단계에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대해 상기 품사통계정보와 상기 트라이그램 값을 기초로 연결 리스트들 중에서 하나를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트들 중에서 하나를 결정하는 단계를 구비하는 것을 특징으로 하는 품사 태깅 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 1은 본 발명의 품사 태깅 장치의 블록도이다.

본 발명의 품사 태깅 장치는 문장 입력부(110), 제1저장부(120), 제2저장부(130), 형태소 해석부(140), 제3저장부(150), 품사 태깅부(160) 및 품사 태깅 결과 출력부(170)를 구비한다.

문장 입력부(110)는 품사 태깅을 수행하기 위한 문장 등을 입력받는다. 문장 입력 방법은 다양한 형태로 구현될 수 있는데, 이미 만들어져 있는 텍스트 파일 형식으로 입력될 수도 있고 키보드를 통하여 사용자로부터 실제 문장을 입력받을 수도 있다.

제1저장부(120)는 기본 사전을 저장하고 있다. 기본 사전에는 형태소, 형태소의 범주 및 연결 형태에 대한 빈도 정보 등을 담고 있다.

제2저장부(130)는 품사 접속 정보를 저장하고 있다. 품사 접속 정보는 형태소 해석시 제1저장부(120)에서 추출된 형태소들 간의 접속이 가능한가를 확인하는데 사용되는 정보이다. 즉, 품사 접속 정보란 품사들 간의 연결 가능한 정보를 나열한 정보이다. 예를 들어, 명사 뒤에는 명사가 올 수 있고 어미나 조사가 올 수 있다. 그리고, 동사 뒤에는 어미가 오며, 형용사 뒤에는 어미가 오고, 어미 뒤에는 어미가 올 수 있다 등의 정보를 나열한 리스트이다.

형태소 해석부(140)는 문장 입력부(110)에서 입력한 문장에 대해서 제1저장부(120) 및 제2저장부(130)에 저장되어 있는 정보를 이용하여 형태소 해석을 수행한다. 여기서 형태소 해석은 헤드-테일(Head-tail) 구분법과 태뷸러(Tabular) 파싱법, 최장 일치법, 최단 일치법, 음절 단위 분석법 등이 적용될 수 있다.

헤드-테일(Head-tail) 구분법이란 단어로부터 형태소를 분리하는 방법으로단어를 변형되지 않는 부분(head)과 변형되는 부분(tail)으로 구분하고, 헤드(head)와 테일(tail) 간의 결합 관계를 품사 접속 정보표에 의해 검사함으로서 형태소 분석을 수행하는 방법이다.

최장 일치법이란 단어를 이루고 있는 부분 문자열 집합을 구할 때 그 단어를 이루고 있는 형태소들의 집합 중에서 가장 긴 형태소를 우선적으로 선택하여 검사는 것이고, 최단 일치법은 가장 짧은 형태소를 우선적으로 검사하는 방법이다.

음절 단위 분석법이란 통계적 음절 특성을 이용하는 것으로, 처리단위를 자소가 아닌 한글의 특성에 맞게 음절 단위로 하는 방법을 말한다.

이하에서는 음절 기반 음절기반 태뷸러(Tabular) 파싱법을 적용하여 형태소 해석을 수행하는 경우를 예로 들어 설명한다.

음절 기반 태뷸러(Tabular) 파싱법은 다음과 같다. 즉, 종성으로 올 수 있는 자모를 제외한 나머지에 대해서는 음절 단위로 형태소를 구성한 후, 구성된 집합이 제1저장부(120)의 형태소 사전에 있는가를 찾고, 제2저장부(130)의 품사 접속 정보를 활용하여 연결 가능한 형태소들만을 찾는 방법이다.

즉, 태뷸러(Tabular) 파싱법이란 버텀-업(bottom-up) 방식에 의한 형태소 분석 방법으로, 먼저 단어를 이루고 있는 모든 자모 단위의 부분 문자열에 대해서 사전을 검색하여 모든 가능한 어휘 형태소와 문법 형태소를 추출한 후 CYK(Cocke-Younger-Kasami) 알고리즘을 적용하여 단어를 이루는 형태소들을 찾는 방법이다. 다시 말하면, 추출된 형태소들은 삼각 테이블에 저장되고 여기에 형태소들의 접속관계를 검사하기 위해서 품사 접속 정보표를 사용하여 연결 가능한 모든 형태소들의 리스트를 찾는 방법이다. 미등록어를 추정할 때에는 버텀-업(bottom-up) 방법으로 해석 가능한 부분외의 나머지 부분에 대해서 추정한다.

도 2는 "과속을(gwasoG_L)" 에 대해서 태뷸러(Tabular) 파싱법을 적용하여 형태소 해석을 수행하기 위한 자모조합의 예를 나타낸 도면이다.

우선 모든 자모를 분리하고 도면에서 나타낸 바와 같이 그 자모들의 조합들을 추출한다. 그리고, 추출한 자모들의 조합이 제1저장부(120)에 저장되어 있는 형태소 사전에 존재하는가를 판단하고, 형태소 사전에 존재하면(예를 들어 '과'(210)), 형태소 사전에 있는 각각의 품사들을 리스트한다.

도 2에서 화살표가 가리키는 행(220, 221, 222, 223)이나 열(230, 231, 232, 233)들은 자모들의 조합을 추출하기는 했지만 실제 사용될 수 없는 것들로 자모들의 조합에서 필요 없는 부분이며, 한글이 존재하지 않는 부분(240)은 사용되지 않는 부분이다. 따라서, 이렇게 많은 조합들을 가지고 형태소 사전에서 검색을 수행하므로 메모리의 낭비가 심하게 된다.

도 3은 "과속을(gwasoG_L)" 에 대한 품사 리스트 결과를 나타낸 도면이다.

도 3에 도시된 바에 따르면, '과' 는 명사(310), 형용사(311), 동사(312)가 될 수 있고, '과속' 은 명사(313)가 될 수 있다. '속', '으', '을', 'ㄹ' 도 마찬가지로 형태소 사전에서 찾아서 추출한 것을 해당 열에 연결한다. 다음으로 '과/명사' 와 '속/명사' 가 연결되는지, 그리고 '과/명사'와 '속/동사' 가 연결되는지를 확인한다. 연결여부의 확인은 제2저장부(130)에 저장되어 있는 품사 접속 정보를 이용한다.

변형된 태뷸러(tabular) 파싱법에서는 도 2와 도 3을 참조하여 설명한 과정을 거치지 않고 먼저 "과속을"에 대해서 분리 가능한 음소(ㄴ, ㄹ, ㅁ, ㅂ, ㅆ)를 제외하고 나머지는 음절로 분리한다. 즉, 과(410), 속(420), 으(430), ㄹ(440)로 분리할 수 있다. 그리고 나서 이 음절이 형태소 사전에 존재하는지 그리고, 음절과 다른 음절과의 조합이 형태소 사전에 존재하는지 확인한다.

음절을 분리한 후 해석한 결과, '과'(410)는 '과/명사'(411)가 될 수도 있고 '과속/명사'(412)로 해석될 수도 있다. 마찬가지로 '속'(420)은 '속/명사'(421)가 되고, '으'(430)는 '으/어미'(431), '을/어미'(432), '을/조사'(433)로 해석되고, 'ㄹ'(440)은 'ㄹ/어미'(441), 'ㄹ/조사'(442)로 해석된다. 즉, 변형된 태뷸러(tabular) 파싱법은 삼각 테이블을 작성하는 것이 아니라 이와 유사한 자료구조를 가지는 링크트 리스트(linked list)를 작성하여 이것을 대신한다. 이것은 어절 내의 최소의 분리 가능한 형태소로 나누어 하나의 리스트를 만들고 그 리스트의 옆으로 형태소들을 조합해서 리스트를 만드는 것이다. 여기서 사전을 미리 검색하여 불필요하게 생성되는 형태소들을 미연에 방지할 수 있다. 이렇게 생성된 리스트들의 접속 관계를 따져서 어절의 끝까지 연결되는 것이 있으면 나머지들은 삭제하면 된다.

이렇게, 도 4에서 음절에 대해서 형태소 사전을 검색하고 음절의 조합하여 형태소 사전을 검색한 후 품사 접속 정보표를 이용하여 연결을 시킨다. 즉 과/명사+ 속/명사 + 을/조사, 과속/명사 + 을/조사 등과 같이 선으로 연결한다. 그리고 연결되지 않은 것은 삭제한다. 그러면 도 5와 같은 결과를 얻을 수 있다.

도 4에 도시되어 있는 결과 및 접속가능 정보를 이용하면 기존의 태뷸러(tabular) 파싱법에 비해 많은 양의 메모리를 줄일 수 있으면서도 동일한 결과를 얻을 수 있다.

제3저장부(150)는 품사의 트라이그램(trigram)을 저장하고 있어 품사 태깅시에 이 트라이그램(trigram) 값을 활용할 수 있도록 한다.

품사 태깅부(160)는 다음의 수학식을 이용하여 형태소 해석부(140)의 결과중에서 최적으로 판단되는 형태소 해석 결과를 하나 선택하는 기능을 수행한다. 형태소 태깅 방법에서는 은닉 마르코프 모델(HMM)을 사용하며 사용하는 수학식은 다음과 같다.

여기에서 P 는 최적의 품사열을 가리키고, W _i 는 j번째 단어, P _i 는 W_i의 태그를 나타낸다. 은닉 마르코프 모델(HMM) 접근법의 태깅 과정에서 비터비(Viterbi) 알고리즘을 적용하여 단어열의 길이에 대해 선형적인 시간내에 구할 수 있다. 그리고, 접속 가능 정보 값(2개의 품사 쌍)과 품사의 트라이그램(trigram)값(세개의 품사쌍에 빈도 포함)은 말뭉치로부터 추출된 통계자료를 이용하여 다음 수학식 2와 수학식 3에 의하여 계산될 수 있다.

여기에서 Freq 는 말뭉치(corpus)에서의 출현빈도를 나타낸다.

통계 기반 품사 태깅은 제3저장부(150)에 저장되어 있는 품사의 트라이그램(trigram) 정보를 활용한 비터비 서치(Viterbi search)나 비터비 빔 서치(Viterbi beam search)를 수행하여 속도를 줄이기는 하였지만, 그래도 상용화하기에는 속도가 너무 느리다. 따라서 본 발명에서는 한국어의 특성을 고려하여 어절 하나씩을 품사 태깅을 하더라도 상당히 정확하다는 점을 이용하여, 어절 내부에서는 완전 서치(full search)를 하고, 그 다음 어절은 이전 어절의 제일 높은 값을 가지는 후보열을 활용하는 방법을 사용한다. 즉, 어절 내부에서는 상기 형태소 해석부에서 얻은 해석 결과를 모두 사용하여 품사태깅을 하고, 그 다음 어절은 이전 어절에서 계산된 형태소 해석 결과값 중에서 가장 큰 값을 가지는 후보열(품사를 가진 형태소들의 연결 리스트)을 이용하여 품사 태깅을 수행한다. 이를 도 5를 참조하여 설명한다.

도 5를 참조하면, "과속을 한다" 에서 '과속을' 과 '한' 까지의 예를 든 것이다. 상기의 수학식을 적용했을 때 '과속을' 까지의 각각의 확률값이 상기 수학식에 의해 계산된다. '과속을' 까지 한 어절을 계산한 것 중 마지막 값(ㄹ/jcs, ㄹ/etm, 을/ncn, 을/pv, 을/etm)이 가장 큰 값을 가지는 하나의 라인을 선택해서(510) 그 결과를 출력하고 그 결과를 다음 '한다' 를 계산할 때 이용한다. 그러면 그 결과로 "과속/명사 + 을/조사 + 하/동사 + ㄴ다/종결어미" 와 같이 출력된다.

이때, 품사의 트라이그램(trigram) 정보는 하나의 단어는 이전 두 개의 단어에 영향을 받아서 발생한다는 트라이그램 모델(trigram model)에서 사용되는 값을 의미한다.

품사 태깅 결과 출력부(170)는 품사 태깅부(160)에서의 품사 태깅 결과를 모니터나 기타 출력 장치로 출력하는 기능을 수행한다.

태깅이 단어에 문법적인 주석범주를 붙이는 것이라고 할 수 있는데, 이 문법문법주석 범주를 태그셋이라 한다. 이는 언어와 기술하는 문법에 따라 다를 수 있는데, 일반적으로 활용이 다양한 언어에서는 대개 태그셋이 커지는 경향이 있으며, 시스템의 내적요인 그리고 다른 외적요인에 영향을 받으며, 목표에 따라 얼마나 세분된 태그셋이 설정되는가 하는 것은 차이가 있다.

도 6은 태그와 품사를 나타낸 일실시예 도표이다.

도 6에 도시되어 있는 도표는 1999년 한글 및 한국어 정보처리에서 행해진 한국어 형태소 및 품사태거 평가 워크숍에서 기준으로 제시된 태그와 품사를 나타낸 도표이다. 따라서 이와 비슷한 태그셋을 지닌 형태소 분석기 및 태거는 결과 도출이 빠를 수밖에 없고 그렇지 않은 것들은 다시 맵핑(mapping)과정이 필요하기 때문에 여분의 시간이 필요하다. 태그셋은 품사 태거의 목적에 따라 다르게 설정될 수 있다.

도 7은 도 1의 품사 태깅 장치에서 제1저장부, 제2저장부, 제3저장부를 통합한 품사 태깅 장치의 블록도이다.

도 7에 도시된 바와 같이 간략화 한 품사 태깅 장치는 문장 입력부(710), 데이터 저장부(720), 형태소 해석부(730), 품사 태깅부(740) 및 품사 태깅 결과 출력부(750)를 구비하고 있다.

데이터 저장부(720)는 형태소, 형태소의 범주 및 연결 형태에 대한 빈도 정보 등을 담고 있는 일반적인 기본 사전 정보와, 추출된 형태소들 간의 접속이 가능한 가를 체크하는데 사용되는 정보인 품사 접속 정보 및 품사의 트라이그램(trigram) 정보를 저장하고 있다.

나머지 구성요소는 도 1에 도시되어 있는 품사 태깅 장치의 대응되는 구성요소와 동일하다. 그리고 상기 도 7에서도 문장 입력부(710) 및 품사 태깅 결과 출력부(750)는 필수적인 구성요소가 아니므로 생략하여도 본 발명의 품사 태깅 장치를 구현할 수도 있다.

도 8은 본 발명의 품사 태깅 방법의 흐름도이다.

우선, 품사 태깅을 수행할 문장을 문장 입력부(710)를 통해서 입력받는다(S810). 문장의 입력 방법은 다양한 형태로 구현될 수 있는데, 이미 만들어져 있는 텍스트 파일 형식으로 입력될 수도 있고, 키보드를 통하여 사용자로부터 직접 입력될 수도 있다.

다음으로 형태소 해석부(730)는 입력받은 문장에 대해서, 복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보가 저장되어 있는 데이터 저장부(720)의 정보를 이용하여 형태소 해석을 수행한다(S820). 형태소의 해석은 음절기반 태뷸러(Tabular) 파싱법을 사용한다. 그리고, 헤드-테일(Head-tail) 구분법과 태뷸러(Tabular) 파싱법, 최장 일치법, 최단 일치법, 음절 단위 분석법 등도 사용될 수 있다.

이때, 하나의 저장장소에 상기 데이터가 저장되어 있을 수도 있고, 일반적인 기본 사전 정보는 제1저장부에, 품사 접속 정보는 제2저장부에, 그리고, 품사의 트라이그램(trigram) 정보는 3저장부에 각각 저장될 수도 있다.

그리고, 품사 태깅부(740)가 품사태깅을 수행한다(S830). 이때 입력받은 문장의 최초 어절 내부에서는 형태소 해석부(730)에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대한 품사를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 형태소에 대한 품사를 결정한다. 다시 말하면, 품사 태깅은 어절 내부에서는 완전 서치(full search)를 하고, 그 다음 어절은 이전 어절의 제일 높은 값을 가지는 품사 시퀀스(sequence) 정보를 활용하여 품사 태깅을 수행한다.

마지막으로 선택한 품사 태깅 결과를 품사태깅 결과 출력부(750)가 모니터나 기타 출력 장치로 출력한다(S840). 출력장치로 출력하는 단계(S840)는 필수적인 구성요소는 아니므로 생략하여도 본 발명의 방법에 의한 품사태깅방법이 구현될 수있다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

상술한 바와 같이 본 발명은, 품사 태깅의 수행 속도를 높이기 위하여 통계 기반 품사 태깅을 할 때 어절 내에서는 완전 서치(full search)를 하고 그 다음 어절은 이전 어절의 제일 큰 값을 가지는 품사 시퀀스(sequence) 정보를 활용함으로서 빠른 속도로 수행되는 태깅 시스템을 구현할 수 있는 효과가 있다. 따라서 음성합성이나 음성인식, 다국어 번역기와 같은 자연어 처리 시스템에서 효율적으로 사용될 수 있는 효과가 있다.

Claims

복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보 및 품사의 트라이그램 값이 저장되어 있는 데이터 저장부;

입력받은 문장을 음절로 분리하고, 상기 분리한 음절과 상기 분리된 각각의 음절간의 조합이 상기 기본사전에 존재하는지를 확인한 후, 상기 품사 접속정보를 기초로 상기 분리한 음절과 상기 음절간의 조합에 대한 적어도 하나 이상의 품사를 가진 형태소들의 연결 리스트를 찾아 나열하는 형태소 해석부; 및

상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석부에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대한 품사를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트 중에서 하나를 선택하는 품사 태깅부를 포함하는 것을 특징으로 하는 품사 태깅 장치.
제1항에 있어서,

품사 태깅을 수행할 상기 문장을 입력받는 문장 입력부를 더 포함하는 것을 특징으로 하는 품사 태깅 장치.
제1항에 있어서,

상기 품사 태깅부에서의 품사 태깅 결과를 출력 장치로 출력하는 품사 태깅 결과 출력부를 더 포함하는 것을 특징으로 하는 품사 태깅 장치.
품사 태깅을 수행할 문장을 입력받는 문장 입력부;

복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보 및 품사의 트라이그램 값이 저장되어 있는 데이터 저장부;

상기 문장 입력부를 통해 입력받은 문장을 음절로 분리하고, 상기 분리한 음절과 상기 분리된 각각의 음절간의 조합이 상기 기본사전에 존재하는지를 확인한 후, 상기 품사 접속정보를 기초로 상기 분리한 음절과 상기 음절간의 조합에 대한 적어도 하나 이상의 품사를 가진 형태소들의 연결 리스트를 찾아 나열하는 형태소 해석부;

상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석부에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대해 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트들 중에서 하나를 선택하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 형태소에 대한 연결 리스트를 선택하는 품사 태깅부; 및

상기 품사 태깅부에서의 품사 태깅 결과를 출력 장치로 출력하는 품사 태깅결과 출력부를 포함하는 것을 특징으로 하는 품사 태깅 장치.
제2항 또는 제4항에 있어서, 상기 문장 입력부는

텍스트 파일 형식의 문장을 입력받을 수도 있고, 키보드를 통하여 사용자로부터 직접 문장을 입력받을 수도 있는 것을 특징으로 하는 품사 태깅 장치.
제1항 또는 제4항에 있어서, 상기 형태소 해석부는

음절 기반의 변형된 태뷸러 파싱법을 사용하여 형태소를 해석하는 것을 특징으로 하는 품사 태깅 장치.
제6항에 있어서, 상기 변형된 태뷸러 파싱법은

종성으로 올 수 있는 자모를 제외한 나머지에 대해서는 음절 단위로 형태소를 구성한 후, 구성된 집합이 형태소 사전에 있는가를 찾고, 품사 접속 정보를 기초로 연결 가능한 형태소들만을 찾는 것을 특징으로 하는 품사 태깅 장치.
제7항에 있어서, 상기 종성으로 올 수 있는 자모는

ㄴ, ㄹ, ㅁ, ㅂ, ㅆ 인 것을 특징으로 하는 품사 태깅 장치.
제1항 또는 제4항에 있어서, 상기 품사 태깅부는

은닉 마르코프 모델을 사용하는 것을 특징으로 하는 품사 태깅 장치.
제1항 또는 제4항에 있어서, 상기 품사 태깅부는

다음의 수학식을 사용하여 상기 품사통계정보를 구하는 것을 특징으로 하는 품사 태깅 장치;

여기에서 P 는 최적의 품사열을 가리키고, W _i 는 j번째 단어, P _i 는 W_i의 태그를 나타낸다.
제10항에 있어서, 상기 Pr( P _i | P _i-2 P _i-1 )과 상기 Pr( W _i | P _i )는

근사적으로 다음의 수학식에 의하여 구할 수 있는 것을 특징으로 하는 품사태깅 장치;

여기에서 freq 는 말뭉치에서의 출현빈도를 나타낸다.
품사 태깅을 수행할 문장을 입력받는 문장 입력부;

복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전을 저장하고 있는 제1저장부;

상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보를 저장하고 있는 제2저장부;

상기 형태소에 대한 품사의 트라이그램 값을 저장하고 있어 상기 품사 태깅부에서의 품사 태깅시에 상기 트라이그램 값을 활용할 수 있도록 하는 제3저장부;

상기 문장 입력부를 통해 입력받은 문장을 음절로 분리하고, 상기 분리한 음절과 상기 분리된 각각의 음절간의 조합이 상기 기본사전에 존재하는지를 확인한 후, 상기 품사 접속정보를 기초로 상기 분리한 음절과 상기 음절간의 조합에 대한 적어도 하나 이상의 품사를 가진 형태소들의 연결 리스트를 찾아 나열하는 형태소 해석부;

상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석부에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대해 상기 품사통계정보와 상기 트라이그램 값을 기초로 연결 리스트들 중에서 하나를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트들 중에서 하나를 결정하는 품사 태깅부; 및

상기 품사 태깅부에서의 품사 태깅 결과를 출력 장치로 출력하는 품사 태깅 결과 출력부를 포함하는 것을 특징으로 하는 품사 태깅 장치.
제12항에 있어서, 상기 문장 입력부는

텍스트 파일 형식의 문장을 입력받을 수도 있고, 키보드를 통하여 사용자로부터 직접 문장을 입력받을 수도 있는 것을 특징으로 하는 품사 태깅 장치.
품사 태깅을 수행할 문장을 입력받는 단계;

상기 입력받은 문장에 대해서, 복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보가 저장되어 있는 데이터 저장부를 이용하여 형태소 해석을 수행하는 단계; 및

상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석 단계에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대해 상기 품사통계정보와 상기 트라이그램 값을 기초로 연결 리스트들 중에서 하나를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트들 중에서 하나를 결정하는 단계를 포함하는 것을 특징으로 하는 품사 태깅 방법.
제14항에 있어서,

상기 선택한 품사 태깅 결과를 출력 장치로 출력하는 단계를 더 포함하는 것을 특징으로 하는 품사 태깅 방법.
제14항에 있어서, 상기 입력 단계는

텍스트 파일 형식의 문장을 입력받을 수도 있고, 키보드를 통하여 사용자로부터 직접 문장을 입력받을 수도 있는 것을 특징으로 하는 품사 태깅 방법.
제14항에 있어서, 상기 형태소 해석을 수행하는 단계는

음절 기반의 변형된 태뷸러 파싱법을 사용하여 형태소를 해석하는 것을 특징으로 하는 품사 태깅 방법.
제14항에 있어서, 상기 형태소 해석을 수행하는 단계는

상기 문장 입력부를 통해 입력받은 문장을 음절로 분리하고, 상기 분리한 음절이 상기 기본사전에 존재하는지를 확인한 후, 상기 품사 접속 정보를 기초로 상기 분리된 각각의 음절간의 조합을 생성하고, 상기 생성한 조합이 상기 기본사전에 존재하는지 확인하여, 상기 분리한 음절과 상기 음절간의 조합에 대한 적어도 하나 이상의 품사를 가진 형태소들의 연결 리스트를 찾아 나열하는 것을 특징으로 하는 품사 태깅 방법.
제14항에 있어서, 상기 품사를 결정하는 단계는

은닉 마르코프 모델을 사용하는 것을 특징으로 하는 품사 태깅 방법.
품사 태깅을 수행할 문장을 입력받는 단계;

상기 입력받은 문장에 대해서, 복수개의 형태소 및 상기 복수개의 형태소의 종류 정보가 기록되어 있는 기본 사전, 상기 형태소들간의 접속가능 여부에 대한정보인 품사 접속 정보가 저장되어 있는 데이터 저장부를 이용하여 형태소 해석을 수행하는 단계; 및

상기 입력받은 문장의 최초 어절 내부에서는 상기 형태소 해석 단계에서 얻은 해석 결과를 모두 사용하여 분리한 형태소에 대해 상기 품사통계정보와 상기 트라이그램 값을 기초로 연결 리스트들 중에서 하나를 결정하고, 그 다음 어절은 이전 어절의 형태소에 대한 품사통계정보와 상기 트라이그램 값을 기초로 상기 연결 리스트들 중에서 하나를 결정하는 단계를 포함하는 것을 특징으로 하는 품사 태깅 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.