KR20100097354A

KR20100097354A - 형태소 합성 장치 및 방법

Info

Publication number: KR20100097354A
Application number: KR1020090016254A
Authority: KR
Inventors: 임해창; 박재현; 김민정; 한경수
Original assignee: 고려대학교 산학협력단
Priority date: 2009-02-26
Filing date: 2009-02-26
Publication date: 2010-09-03
Also published as: KR101117427B1

Abstract

본 발명은 형태소 합성 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 형태소가 결합되어 어절을 형성하는 과정에서 형태소의 어형 변화가 심한 한국어의 교착어적인 특성을 고려하여 형태소를 합성하고 어절을 생성함으로써 자연스러운 한국어 표현을 생성하는 형태소 합성 장치 및 그 방법에 관한 것이다.

또한, 한국어의 여러 유형의 높임말, 사투리, 통신체 및 연령대별 표현 등 자연어 시스템에서 필요로 할 수 있는 다양한 표현 양식의 한국어 표현을 생성할 수 있는 형태소 합성 장치 및 그 방법에 관한 것이다.

본 발명은 인공 지능의 자연어 처리(Natural Language Processing) 분야 중 자연어 생성(Natural Language Generation)에 따른 형태소 합성 기술에 관한 것이다.

자연어, 형태소, 합성, 전처리

Description

형태소 합성 장치 및 방법 {Morphological Composition Device And Method Thereof}

본 발명은 자연어 생성 기법 중 형태소 합성 및 그 방법에 관한 것으로, 더욱 상세하게는 교착어인 한국어에서 형태소가 결합되어 어절을 형성하는 과정에서 발생하는 형태소의 어형 변화를 고려하여 어절을 생성함으로써 한국어 사용자를 위해 자연스러운 한국어 표현을 생성하고, 현대 자연어 생성 시스템에서 요구되는 다양한 유형의 표현 양식을 어절을 생성할 수 있는 형태소 합성 장치 및 그 방법에 관한 것이다.

자연어 생성은 시스템이 인간에게 가장 자연스러운 정보 전달 수단인 자연어를 사용하여 데이터를 사용자에게 전달할 수 있도록 하기 위한 기술이다. 여기서 자연어란 기계를 위한 프로그램을 작성하는 데 사용되는 기계어에 대비되는 개념으로 사람이 사람을 대상(청취자, 독자 등)으로 글을 쓰거나 말을 하면서 정보 교환을 위해 사용하는 언어를 지칭한다.

핀란드어, 터키어 및 일본어와 함께 교착어에 속한 한국어에서는 의미 표현의 최소 단위인 형태소를 결합하여 문장 구성의 최소 단위인 어절을 생성해야 한다.

특히, 한국어에서는 형태소가 결합되어 어절을 형성하는 과정에서 심각한 형태소 어형의 변화가 일어난다. 한국어의 형태소 어형 변화는 영어와 같은 굴절어와 달리 형태소 간의 상호 작용에 의해서 나타나기 때문에 형태소의 변화가 심하고 다양한 조건하에서 발생한다.

여기서, 형태소의 어형 변화란 어절을 형성하는 과정에서 형태소를 구성하고 있는 자소가 바뀌게 되는 것을 의미한다. 예를 들어, "아름답+ㄴ"이라는 형태소 열이 어절 "아름다운"을 형성하는 과정에서 용언인 "아름답"이 "ㄴ"과 결합하면서 "아름다우"로 자소가 바뀌게 된다.

영어의 경우 시제나 인칭에 따라서 규칙적으로 단어의 어형을 수정하거나, 불규칙 동사의 목록이 담긴 사전을 사용하는 것 만으로 쉽게 자연스러운 표현을 생성할 수 있는 반면 한국어에서는 여러 형태소의 조합을 고려하여 형태소의 어형을 바꿔줄 수 있어야 하며, 불규칙 활용을 하는 용언(동사/형용사), 축약 현상, 조사 및 어미들의 음운론적 이형태 등 다양한 언어적인 특성을 고려해야만 사용자에게 자연스럽게 느껴지는 표현을 만들어 낼 수 있다.

이 같은 한국어의 교착어적인 특성으로 인해 한국어 자연어 처리, 세부적으로는 하위 분야인 자연어 이해(Natural language understanding)와 자연어 생성(Natural language generation) 분야에서 형태소의 어형 변화를 처리하기 위한 다양한 방법이 제안되어 왔다.

종래의 자연어 처리 시스템은 자연어 생성에 비해 사용자가 입력하는 무작위적인 입력을 처리해야 하는 자연어 이해에 관한 연구가 활발하게 이루어져 왔으며, 자연어 이해를 위한 형태소 분석을 위한 다양한 방법들이 제안되어 왔다.

형태소 단위 처리에 관한 연구 역시 자연어 이해를 위한 형태소 분석 방법에 관한 연구를 중심으로 이루어졌으며, 자연어 생성을 위한 형태소 합성 시스템은 기존의 형태소 분석 시스템의 입력과 출력을 반대로 사용한 방법으로 구현되어 왔다.

그러나, 형태소 합성에서 나타나는 중의성과 형태소 분석에서 나타나는 중의성은 서로 다른 양상을 보이며, 중의성 해결을 위한 해결책이 서로 다르다.

형태소 분석의 경우 어절을 구성하였을 것으로 예측되는 형태소의 의미 및 종류에 관한 정보가 없어서 발생하는 중의성이 나타난다. 다음은 형태소 분석의 중의성을 보여주는 대표적인 예이다.

나는 -> 나(대명사)+는 : I am

-> 나(동사)+는 : be generated or born

-> 날(동사)+는 : flying

형태소 분석의 경우 어절을 구성하고 있는 형태소의 품사가 무엇인지(예를 들어, 형태소가 대명사인가 동사인가에 따른 분석), 형태소가 가진 의미가 무엇인 지(예를 들어, 형태소가 동사일 경우 "fly"와 "be born" 중 어떤 의미를 가지고 있는지에 따른 분석)에 따라서 각기 다른 형태소 분석이 가능하다.

이처럼 형태소 분석에서 나타나는 중의성을 해결하기 위해서는 형태소 분석 대상인 어절 주위의 형태소들을 고려함으로써 중의성을 해결할 수 있다. 상기 예의 경우 하기와 같이 어절 외부의 형태소 또는 어절을 고려할 수 있다면 분석 과정에서 발생하는 중의성을 해결할 수 있다.

나는 학교에 .... -> 나(대명사)+는 : I am

... 밭에 나는 작물 .... -> 나(동사)+는 : be generated

... 비행기가 나는 동안 .... -> 날(동사)+는 : flying

반면, 자연어 생성을 위한 형태소 합성 과정에서는 주어진 형태소의 품사가 무엇인지, 형태소의 의미가 무엇인지는 형태소 합성의 입력으로 주어지는 데이터에는 어절을 구성하는 각 형태소 또는 품사까지 포함되어 있기 때문에 형태소 분석에서 발생하는 중의성 문제가 발생하지 않는다.

그러나, 형태소 합성 과정에서는 축약/ 음운론적 이형태/ 용언의 불규칙 활용 등 주어진 형태소에 대해서 적용해야 하는지 여부를 결정해야 하는 중의성의 문제가 발생하게 된다. 다음은 형태소 합성 과정에서 발생할 수 있는 중의성을 보여주는 예이다.

<축약>

이것+이 -> 이것이

이게

<음운론적 이형태>

학교+(목적격) -> 학교를

사랑+(목적격) -> 사랑을

<용언의 불규칙>

곱(beautiful)+은 -> 고운

곱(bented)+은 -> 곱은

형태소 분석의 경우 어절의 어형을 알고 있기 때문에 어절을 구성할 형태소 조합에 관한 중의성 문제가 해결되면 형태소의 어형 변화가 어떤 식으로 나타날 지를 인식할 수 있다.

그러나, 형태소 합성 과정에서는 주어진 형태소가 어절을 형성하는 과정 중에 나타날 수 있는 형태소의 다양한 어형 변화 중에서 적절한 어형의 변화를 선택할 수 있어야 한다.

만일, 형태소 결합 과정에서 발생할 수 있는 형태소의 어형 변화를 고려하여야 하는 형태소를 그대로 합성할 경우 다음과 같은 어색한 표현이 생성될 수 있다.

목적지+는/ 전주+이+어요? -> 목적지는 전주이어요? (부자연스러운 표현)

목적지는 전주에요? (자연스러운 표현)

이것+이/무엇+이야? -> 이것이 무엇이야? (부자연스러운 표현)

이게 뭐야? (자연스러운 표현)

또한, 형태소 합성 시스템을 사용하지 않을 경우 하기의 예와 같은 기계적인 표현이 생성되게 된다.

민정 + 주격 -> 민정+이(가)

정태 + 주격 -> 정태+이(가)

다음 메시지는 민정(이)에게 전달되었습니다.

또한, 종래의 자연어 생성 시스템은 한국어 표준어 표현만을 생성하였다. 예를 들어, 종래의 네비게이션 시스템의 경우 모든 표현이 높임말을 사용하고, 기계 번역 시스템의 경우 일반적으로 평서문을 사용하는 등의 표준어 표현만을 사용한다.

그러나 한국어는 지역, 연령, 발화자의 사회적 관계, 정보 교환이 이루어지고 있는 상황(예를 들어, 인터넷)에 따라서 달라지는 다양한 표현 양식이 존재하므로 종래의 획일적인 표현이 아닌 유저가 원하는 다양한 표현 양식을 생성할 수 있는 형태소 합성이 필요가 있다.

결국, 한국어에 적합할 뿐만 아니라 최신 자연어 생성 시스템의 요구를 만족시켜 줄 수 있는 한국어의 표현을 생성하기 위해서는 표준 한국어 문법에 따른 형태소의 어형 변화 뿐만 아니라, 여러 가지 표현 양식에 따라 형태소를 합성할 수 있는 기술이 필요하다.

상기와 같은 문제점을 해결하기 위해 안출된 것으로서 본 발명의 목적은 형태서 합성시 이전에 나타난 형태소의 어형 변화에 따라 순차적으로 나타나는 어형 변화와 이전에 나타난 형태소의 어형 변화와 상관없이 형태소의 원형에 따라서 병렬적으로 나타나는 어형 변화를 고려하여 자연스러운 형태의 어절을 합성할 수 있는 형태소 합성 장치 및 그 방법을 제공하는 데 있다.

그리고 본 발명의 또 다른 목적은 사용자가 원하는 시대와 지역에 따른 사투리, 말하는 이의 연령이나 사회적 관계, 인터넷 표현이나 유행어, 정보 교환이 이루어지고 있는 상황에 따라서 달라지는 다양한 표현 양식의 한국어 표현이 가능한 형태소 합성 장치 및 그 방법을 제공하는 데 있다.

상기와 같은 목적을 달성하기 위해 본 발명에 따른 형태소 합성 장치는 자연어 생성장치로부터 입력된 형태소 열을 합성하는 형태소 합성장치로서, 상기 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열 정보를 전송받아 분석하고 저장된 형태소 합성 규칙 중 적합한 형태소 합성 규칙을 선택하여 상기 형태소 합성 규칙에 따라 형태소를 합성하여 어절을 생성하는 것을 특징으로 한다.

여기서, 상기 형태소 합성장치는 상기 자연어 생성장치에서 전송된 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열 정보를 수신하는 통신부와 상기 수 신된 형태소 열에 대해 형태소 합성을 위한 전처리를 수행하고 형태소 합성에 적용될 합성 규칙을 선택하는 전처리부와 상기 수신된 형태소 열 또는 표현 양식 정보를 포함한 형태소 열에 대한 형태소 합성에 적용될 형태소 합성 규칙을 저장하는 메모리부와 상기 형태소 열에 대해 상기 전처리부에서 선택된 합성 규칙에 포함된 조건 중 상기 형태소 열의 조건을 모두 만족하는 합성 규칙을 추출하여, 상기 추출된 합성 규칙에 따라 수정 연산하여 형태소를 합성하는 형태소 합성부 및 상기 합성된 형태소에 대해 어절 및 자연어 문장을 생성하는 어절 합성부를 포함하는 것을 특징으로 한다.

그리고 상기 형태소 합성장치는 클라이언트가 직접 원하는 표현 양식을 설정할 수 있는 표현 양식 지정부를 더 포함하는 것을 특징으로 한다.

또한, 상기 형태소 합성 규칙은 각각 하기와 같은 데이터 구조로 형성된 것을 특징으로 한다.

여기서, 자소 조건은 형태소의 자소 및 품사들을 명세하기 위한 조건이고, 문법 조건은 형태소의 문법적인 속성들에 따라서 적용되는 문법에 대한 조건이고, 상기 시스템 조건은 3개 이상의 형태소들이 관련된 형태소 어형 변화를 고려한 조건이고, 상기 수정 연산은 상기 조건을 만족할 경우 적용될 형태소 수정 공식이다.

그리고 수신되거나 사용자로부터 지정된 표현 양식 정보를 더 포함하는 하기와 같은 데이터 구조로 형성된 것을 특징으로 한다.

여기서, 상기 표현 양식 조건은 사투리, 높임말, 문어체, 유행어, 인터넷 대화어(통신체) 등 각종 표현 양식을 규정하는 조건이다.

또한, 상기 형태소 합성부는 형태소 열 데이터에 표현 양식 정보가 포함되거나 특정 표현 양식이 지정된 경우 상기 표현 양식 조건을 제외한 다른 조건을 만족하는 합성 규칙에 의해 형태소 수정 연산을 수행한 후 상기 표현 양식 조건을 만족하는 합성 규칙에 의해 추가로 형태소 수정 연산을 수행하는 것을 특징으로 한다.

그리고 상기 전처리부는 수신된 형태소 열 중 형태소 합성 대상이 아닌 요소들을 필터링하고, 괄호 기호를 사용해 어절 사이에 삽입된 표현들을 필터링하고, 수신된 형태소 열 중 직접 형태소 합성이 불가능한 형태소의 형태를 형태소 합성에 적합한 형태로 수정하고, 형태소 합성에 적용될 형태소 합성 규칙들을 상기 메모리부로부터 추출하여 선택하는 것을 특징으로 한다.

그리고 상기 전처리부는 상기 괄호 기호의 양 단을 인식하고, 상기 괄호 기호의 양단 사이에 삽입된 어절 또는 문장을 추출하여 재귀 입력시키고, 상기 괄호 기호 전과 후의 형태소를 결합한 형태소 열을 형태소 합성부에 입력하고, 상기 형태소 합성부는 상기 재귀 입력된 괄호 기호 사이에 삽입된 어절 또는 문장과 상기 괄호 기호 전과 후의 형태소를 결합한 형태소 열을 순차적으로 합성하는 것을 특징으로 한다.

또한, 상기 형태소 합성부는 상기 형태소 열에 대하여 선택된 합성 규칙에 포함된 조건과 상기 형태소 열의 모든 조건을 만족하는 합성 규칙을 추출하는 형태소 합성 조건 모듈과 상기 추출된 합성 규칙에 포함된 수정 연산에 따라 형태소 합성 연산을 수행하는 형태소 합성 연산 모듈을 포함하는 것을 특징으로 한다.

여기서, 상기 형태소 합성 조건 모듈은 상기 선택된 합성 규칙들을 순차적으로 형태소 열과 비교하여 모든 조건을 만족하는지 여부를 반복적으로 검사하여 모든 조건을 만족하는 합성 규칙을 추출하는 것을 특징으로 한다.

그리고 상기 어절 합성부는 상기 통신부에 수신된 시점에서의 형태소 순서 정보에 따라 합성된 형태소를 재배열하여 어절을 생성하는 것을 특징으로 한다.

한편, 본 발명에 따른 형태소 합성 방법은 자연어 생성장치로부터 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열 정보를 전송받아 형태소를 합성하는 형태소 합성 방법으로서, 전처리부가 상기 전송된 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열을 분석하여 전처리를 수행하는 단계와 형태소 합성부가 상기 전처리된 형태소 열에 대해 선택된 합성 규칙 중 적합한 형태소 합성 규칙을 선택하여 형태소를 합성하는 단계와 어절 합성부가 상기 합성된 형태소에 대해 어절을 생성하는 단계를 포함하는 것을 특징으로 한다.

여기서, 상기 전처리를 수행하는 단계는 입력된 형태소 열 중 형태소 합성 대상이 아닌 요소들을 필터링하여 어절 생성부로 전송하는 단계와 괄호 기호를 사용해 어절 사이에 삽입된 표현들을 필터링하는 단계와 수신된 형태소 열 중 직접 형태소 합성이 불가능한 형태소의 형태를 형태소 합성에 적합한 형태로 수정하는 단계와 형태소 합성에 적용될 형태소 합성 규칙들을 상기 메모리부로부터 추출하여 선택하는 단계를 포함하는 것을 특징으로 한다.

그리고 상기 괄호 기호를 사용해 어절 사이에 삽입된 표현들을 필터링하는 단계는 상기 괄호 기호를 사용해 어절 사이에 삽입된 표현들은 추출하여 재귀 입력하고, 상기 괄호 기호 전 후의 형태소를 결합하여 형태소 합성부에 입력하는 것을 특징으로 한다.

또한, 상기 형태소를 합성하는 단계는 상기 선택된 합성 규칙들을 순차적으로 상기 입력된 형태소 열과 비교하여 모든 조건을 만족하는 합성 규칙을 추출하고, 추출된 합성 규칙에서 정의된 수정 연산에 형태소 합성 연산을 수행하고, 잔여 합성 규칙들이 있는 경우 다시 상기 입력된 형태소 열과 비교하여 모든 조건을 만족하는 합성 규칙을 추출하고, 추출된 합성 규칙에서 정의된 수정 연산에 형태소 합성 연산을 수행하는 과정을 반복하는 것을 특징으로 한다.

그리고 상기 모든 조건을 만족하는 합성 규칙을 추출하는 단계는 입력된 형태소 열의 조건과 상기 선택된 합성 규칙에 포함된 조건을 비교하되, 상기 선택된 합성 규칙에 포함된 형태소의 자소 및 품사들을 명세하기 위한 자소 조건과 형태소의 문법적인 속성들에 따라서 적용되는 문법조건과 3개 이상의 형태소들이 관련된 형태소 어형 변화를 고려한 시스템 조건을 모두 만족하는 합성 규칙을 추출하는 것을 특징으로 한다.

여기서, 입력된 형태소 열에 표현 양식 정보가 포함되거나 특정 표현 양식이 지정된 경우 표현 양식 조건을 제외한 나머지 조건을 만족하는 합성 규칙을 추출하여 형태소 수정 연산을 수행한 후 추가적으로 상기 표현 양식 조건을 만족하는 합 성 규칙을 추출하여 형태소 수정 연산을 수행하는 것을 특징으로 한다.

또한, 상기 어절을 생성하는 단계는 상기 어절 합성부가 상기 통신부에 수신된 시점에서의 형태소 순서 정보에 따라 합성된 형태소를 재배열하여 어절을 생성하는 것을 특징으로 한다.

상기에서 살펴본 바와 같이 본 발명에 따른 형태소 합성 장치 및 방법은 형태서 합성시 이전에 나타난 형태소의 어형 변화에 따라 순차적으로 나타나는 어형 변화와 이전에 나타난 형태소의 어형 변화와 상관없이 형태소의 원형에 따라서 병렬적으로 나타나는 어형 변화를 고려하여 자연스러운 형태의 어절을 합성할 수 있어 신뢰도 및 시스템 성능을 높일 수 있는 탁월한 효과가 발생한다.

그리고 시대와 지역에 따른 방언, 말하는 이의 연령이나 사회적 관계, 인터넷 표현이나 유행어, 정보 교환이 이루어지고 있는 상황에 따라서 달라지는 표현 양식에 따른 변화를 고려하여 형태소를 합성할 수 있는 탁월한 효과가 발생한다.

이하, 본 발명에 따른 구체적인 실시예에 대하여 도면을 참조하여 상세하게 설명하기로 한다.

도 1은 본 발명의 바람직한 실시예에 따른 자연어 생성 시스템의 시스템 구성도이고, 도 2는 도 1의 형태소 합성장치의 상세 블럭도이다.

도 1 및 2를 참조하면, 본 발명에 따른 자연어 생성 시스템은 자연어를 생성하는 자연어 생성장치(10)와 상기 자연어 생성장치로부터 전송된 형태소 정보와 표현 양식 정보를 분석하고 형태소 합성 규칙을 적용하여 어절 및 자연어 문장을 생성하는 형태소 합성 장치(20) 및 상기 형태소 합성 장치로부터 생성된 자연어 문장을 전송받는 클라이언트(30)을 포함하여 구성될 수 있다.

여기서, 상기 표현 양식 정보는 표준어, 사투리, 문어체, 구어체, 높임말, 낮춘말, 인터넷에서 활용되는 용어, 유행어 등 클라이언트 단말의 사용자와의 관계에서 적용될 양식에 관한 정보를 총칭하여 정의하기로 한다.

그리고 상기 표현 양식 정보는 상기 자연어 생성장치(10) 외부에서 입력되는 정보로서 외부에서 입력이 없는 경우에는 상기 자연어 생성장치(10)는 형태소 열 정보 만을 형태소 합성 장치(20)에 전송할 수 있다.

일반적으로 자연어 생성은 클라이언트를 통해 입력된 자연어 문장의 형태소 분석을 통해 의미를 파악한 후 대응되는 형태소 열을 생성하는 것으로 자연어 생성장치의 구성은 이미 공지된 구성으로 본 발명의 기술분야에서 통상의 지식을 가진 자에게 자명할 뿐만 아니라 본 발명의 핵심에서 벗어나는 부분이므로 구체적인 설명은 생략하고 생성된 자연어에 대한 형태소 합성에 따른 어절 생성 및 자연어 문장 생성에 대해서만 설명하기로 한다.

상기 형태소 합성 장치(20)는 상기 자연어 생성장치에서 전송된 형태소 열 정보 또는 표현 양식 정보를 포함하는 형태소 열 정보를 수신하는 통신부(210)와 상기 수신된 형태소 열에 대해 형태소 합성을 위한 전처리를 수행하고 형태소 합성 에 적용될 합성 규칙을 선택하는 전처리부(220)와 형태소 상기 수신된 형태소 열 정보, 합성에 적용될 형태소 합성 규칙을 저장하는 메모리부(230)와 상기 전처리부를 통해 선택된 합성 규칙의 조건을 만족하는지 여부를 판단하여 형태소를 합성하는 형태소 합성부(240) 및 상기 합성된 형태소에 대해 어절을 합성하는 어절 합성부(250)를 포함하여 구성될 수 있다.

그리고, 상기 형태소 합성 장치(20)는 클라이언트가 원하는 특정 표현 양식을 지정할 수 있는 표현 양식 지정부를 더 포함하여 구성될 수 있다.

상기 메모리부(230)에 저장되는 합성 규칙은 용언의 규칙 및 불규칙 활용, 음운론적 이형태와 전처리, 긍정지정사 '이', 사투리 등 한국어의 문법에 따라 나타나는 형태소 합성시 어형 변화를 처리할 수 있는 모든 규칙을 말한다.

상기 합성 규칙은 합성에 적용되기 위한 조건과 상기 조건을 만족할 경우 형태소 수정 공식을 정의하는 수정 연산을 포함할 수 있다.

상기 자소 조건은 결합 대상이 되는 형태소의 자소 및 품사들을 명세하기 위한 자소 조건과 그 외 형태소 합성 과정에서 발생할 수 있는 중의성을 해결하기 위한 상태 조건으로 구분될 수 있다.

그리고 상기 상태 조건은 사투리, 높임말, 문어체, 유행어, 인터넷 대화어(통신체) 등 각종 표현 양식을 규정하는 표현 양식 조건, 형태소 각각이 가지고 있는 형태소의 문법적인 속성들에 따라서 적용되는 문법 조건, 3개 이상의 형태소 들이 관련된 형태소 어형 변화를 고려한 시스템 조건으로 세분될 수 있다.

상기와 같은 조건과 수정 연산을 포함하는 합성 규칙은 하기와 같은 데이터 구조로 생성되어 메모리부에 저장될 수 있다.

상기 전처리부(220)는 수신된 형태소 중 기호 등 형태소 합성 대상이 아닌 요소(마침표, 물음표 등과 같은 한글 맞춤법의 문장부호)들을 걸러내어 어절 합성부(250)로 전송하고, 괄호를 사용해 어절 사이에 삽입된 표현들을 걸러내고, 기호, 단위, 숫자, 특수문자 등 수신된 형태소들의 형태를 형태소 합성에 적합한 형태(예를 들어, m -> 미터)로 수정하는 역할을 담당한다.

괄호 기호의 사용과 같이 어절의 중간에 기호 등을 사용해 추가적인 표현이 삽입되는 경우나, 문장 기호가 아니면서 어절을 형성하고 있는 단위(m, ℓ)나 숫자들이 삽입되는 경우 전처리가 필요하다.

예를 들어, '대만 일간 자유시보(自由時報)는' 과 같이 자유시보라는 명사와 조사 '는'은 서로 같은 어절 안이기는 하지만 괄호로 표시된 '(自由時報)'에 의해 분리되어 있다. 따라서 음운론적 이형태의 처리가 불가능하다. 상기와 같이 괄호와 같은 기호를 사용해 어절 내에 다른 단어/구/문장이 삽입되어 있는 문제는 한국어에 대해서만 국한된 문제가 아니다. 본 발명에서는 전처리부에서 전처리 과정을 통해 상기와 같은 현상을 처리한다.

기호의 필터링은 물음표, 쉼표, 마침표 등 일반적으로 문장을 작성할 때 사용되는 기호들을 걸러내는 작업으로 상기와 같은 기호에는 기호를 의미하는 'S'라는 품사가 부여되어 형태소 합성 규칙이 적용되지 않도록 할 수 있지만, 형태소 합 성 규칙을 적용하는 과정을 줄임으로써 시스템의 성능을 향상시키기 위해서 전처리부를 통해 기호 필터링 과정을 수행하는 것이 바람직하다.

어절 내에 삽입된 표현은 상기 예제처럼 단순히 원 외국어 표현을 표기할 때 뿐만 아니라, 새로운 문장이 삽입되는 경우도 있다.

따라서, 전처리부(220)는 괄호 등의 조건들을 사용하여 삽입된 표현들을 찾아내어 해당 어절을 생성하는 과정에 영향을 주지 않도록 하고, 찾아낸 삽입 표현은 다시 형태소 입력기를 사용해 적절한 문장을 만들어 내도록 할 수 있다.

예를 들어, .... 아름다운 가게(2000년부터 운용되어옴)에서는.... 와 같은 문장에서 괄호안에 포함된 '2000년부터 운용되어옴'은 다시 형태소 합성장치로 입력되어 독립적으로 처리된다.

여기서, 삽입된 표현을 처리하는 경우에 대해서는 후술할 실시예에서 상세하게 설명하기로 한다.

그리고 문장 기호가 아니면서 어절을 형성하고 있는 기호나 숫자들을 처리하기 위해 전처리부(220)가 사용될 수 있다.

예를 들어, 'Σ는'와 'λ은' 이라는 표현에서 Σ(시그마)와 λ(입실론)은 각각 기호이기 때문에 자소 비교를 통해 형태소 합성 규칙 적용 여부를 판단하기 어렵다. 따라서 전처리부는 각각의 기호에 대한 발음을 메모리부에 저장하고 기호들이 입력되었을 때 적절한 변환을 수행한 뒤 형태소 합성부로 전송한다.

또한 어절합성부에서 실제 어절을 생성하는 과정에서는 상기 기호들은 원래 기호 형태 그대로 처리되어야 하므로 상기 전처리부는 상기와 같은 정보를 어절합 성부에 전달함으로써 의도한 표현이 생성될 수 있도록 할 수 있다.

예를 들어, "Σ+은/는"의 경우 상기 전처리부(220)에서 "시그마+은/는"으로 형태소 합성이 가능한 형태로 변환하고, 형태소 합성부에서 "시그마+는"으로 합성한 후, 어절 합성부(250)에서 상기 "시그마"를 원 기호인 "∑"로 변환하여 "∑는"이라는 어절을 생성하게 된다.

그리고 숫자 역시 아라비아 숫자 기호로 표시되지만 실제로는 한국어 발음을 가지고 있기 때문에 전처리가 필요하고, 특히 숫자는 뒤에 붙는 단위 등에 따라서 발음이 달라지기 때문에 전처리부는 이를 고려하여 처리할 수 있다.

예를 들어, '1㎖'와 '1말'은 각각 '일밀리리터'와 '한말'로 다르게 발음되므로 전처리부에서 상황에 따라 적합한 발음에 매칭되도록 처리를 수행한다.

그리고 형태소 합성 규칙을 적용할 필요가 있는 형태소 열 정보 만을 형태소 합성부(240)로 전송하되 형태소 합성시 적용가능한 자소 규칙과 상태 조건을 포함하는 합성 규칙 리스트를 상기 메모리부(230)로부터 선택하는 역할을 담당한다. 표현 양식 정보가 함께 수신된 경우 형태소 합성에 적용될 표현 양식 조건도 선택한다.

상기 형태소 합성부(240)는 상기 전처리부에서 선택된 합성 규칙이 적용될 조건을 정의하고 조건에 만족하는지 여부를 판단하여 형태소 합성 연산을 수행하는 역할을 수행한다.

도 3은 도 2의 형태소 합성부에 대한 상세 블럭도이다.

도 3을 참조하면, 형태소 합성부(240)는 형태소 열과 선택된 합성 규칙 목록 중 자소 조건 및 상태조건을 검사하여 상기 조건을 모두 만족하는 합성 규칙을 추출하는 형태소 합성 조건 모듈과 상기 추출된 합성 규칙에 따라 형태소 합성 연산을 수행하는 형태소 합성 연산 모듈을 포함하여 구성될 수 있다.

상기 형태소 합성 조건 모듈은 형태소 열이 선택된 모든 합성 규칙 목록을 순차적으로 입력하여 상기 형태소 열의 조건(자소 조건 및 상태 조건)을 만족하는 규칙을 추출하고, 상기 형태소 합성 연산 모듈이 상기 조건을 만족하는 합성 규칙에 따라 형태소를 수정하는 연산을 수행하고 수정된 형태소를 결합하여 형태소를 합성하게 된다.

보다 구체적으로 형태소 합성 규칙은 용언의 규칙 및 불규칙 활용, 음운론적 이형태와 전처리, 긍정지정사 '이', 표현 양식 등으로 카테고리를 구분할 수 있으며 이에 대해 상세하게 살펴 보기로 한다.

1. 용언의 규칙 및 불규칙 활용

용언이란 형태소 중 형용사와 동사에 해당하는 형태소를 의미하고, 한국어에서는 용언이 어미와 결합되는 과정 중에 활용이라는 다양한 형태적 변화 현상이 나타난다. 특히 용언의 활용은 결합되는 용어의 철자와 어미의 철자에 따라서 반드시 나타나는 규칙 활용 뿐만 아니라, 용언에 따라서 나타나기도 하고 그렇지 않은 경우도 있는 불규칙 활용으로 나누어진다.

ⅰ) 규칙 활용의 경우, 용언의 말음이 'ㄹ'일 경우, 'ㄴ/ㅂ/ㅅ/ㅗ'로 시작하는 어미 앞에서 'ㄹ'이 탈락한다.

예를 들어, "살 + 다 -> 살다", "살 + 니 -> 사니", "살+ ㅂ니다 -> 삽니다" 등과 같이 형태소 합성 과정 중에 나타나는 변화는 형태소를 구성하고 있는 철자, 특히 결합이 이루어지는 경계 부분의 철자를 사용해 조건 지을 수 있다. 따라서 형태소 합성 규칙에서 형태소 합성부에서 결합 대상이 되는 형태소의 자소를 사용해 하기와 같은 조건을 명세한다.

상기 합성 규칙에서 형태소1은 앞쪽 형태소의 마지막 자소 조건을 표기하며, 형태소2는 뒤쪽 형태소의 앞쪽 자소 조건을 명세한다.

또한, 용언의 활용과 같이 대부분의 규칙이 특정 품사를 가진 형태소들 간의 결합에 대해서도 적용가능하기 때문에 조건으로 품사를 지정할 수 있도록 할 수 있다.

합성 규칙 적용을 위한 자소 조건을 형태소 열이 만족하면, 형태소 합성 연산 모듈은 두 형태소의 형태를 올바른 표현을 생성하기 위한 표현으로 수정해 주어야 한다.

예를 들어, 형태소1이 "살"이고, 형태소2가 "ㅂ니다"인 경우 앞쪽 형태소의 마지막 자소인 "ㄹ"을 삭제하고(수정1) 뒤쪽 형태소의 앞쪽 자소인 "ㅂ"을 상기 삭제된 앞쪽 형태소의 마지막 자소에 삽입(수정2)하는 연산을 수행하여 "삽니다"로 형태소를 합성하게 된다. 일반적인 문법에서 사용되는 치환의 개념 역시 삭제와 삽입 연산의 조합으로 구현이 가능하다.

다음은 'ㄹ' 탈락 활용을 위한 규칙에 대한 실시예이다.

(규칙 1) 'ㄹ' 탈락 규칙

ㄹ(V)/ㄴ(E) D/#

ㄹ(V)/ㅂ(E) D/#

ㄹ(V)/ㅅ(E) D/#

ㄹ(V)/ㅗ(E) D/#

상기 규칙에서 "D"는 앞쪽 형태소에서 마지막 자소 하나를 삭제하라는 연산을 의미하고, 뒤쪽의 #은 뒤쪽 형태소에서 변화가 없음을 의미한다. 삭제 연산에서 여러 개의 자소를 삭제해야 할 경우, 삭제할 자소의 개수만큼 D를 추가해주면 된다.

ⅱ) 상기와 같은 규칙활용과 달리 불규칙 활용에서는 주어진 용언과 어미가 같은 조건의 철자로 구성되어 있다고 하더라도 용언에 따라서 활용이 일어나기도 하고 그렇지 않기도 하는 활용 현상이다.

'ㅂ' 불규칙의 경우 어간의 말음이 'ㅂ'일 경우, '-어'로 시작하는 어미 또는 매개 모음을 요구하는 어미 앞에서 'ㅗ/ㅜ'로 변하는 현상으로 단음절어간 '돕다, 곱다'일 때만 '오'로 변하고 나머지는 '우'로 변한다.

예를 들어, "곱 + 다" -> "곱다" / "곱 + 니" -> "고우니" /

"곱 + 아서" -> "고와서" (예외, 등이 곱아서)

상기 예에서 볼 수 있는 것처럼 'ㅂ'으로 끝나는 용언은 특정 어미와 결합하는 과정에서 형태가 변하게 된다. 그러나 예외에서 볼 수 있는 것처럼 이런 변화 현상이 반드시 일어나는 것은 아니다. 아름답다라는 의미를 가진 '곱-'의 경우 활 용을 하는 용언이지만, 굽었다라는 의미를 가진 '곱-'의 경우 활용을 하지 않는다. 이런 경우 자연어 생성 장치는 상기 2개의 '곱-'이라는 용언 중 어떤 용언을 사용하려 하였는지에 대한 정보를 가지고 있으며, 본 발명에 따른 형태소 합성장치는 형태소 합성 규칙 상에서 각각의 형태소가 가진 추가적인 특징을 지정할 수 있도록 만들어주면 불규칙 활용과 같은 불규칙한 형태소의 변화 현상을 반영하여 어절을 생성할 수 있다.

상기 "CD"는 형태소의 문법적인 속성들에 따라 형태소 합성 규칙의 적용 여부를 결정하기 위한 문법 조건으로, "C"는 앞쪽 형태소의 문법 조건이고, "D"는 뒤쪽 형태소의 문법 조건이다. 실제 형태소 단위의 조건 값은 숫자가 아닌 비트(bit) 단위 데이터로 표현된다.

불규칙 그룹 1	불규칙 그룹 2	불규칙 그룹 3	불규칙 그룹 4	음운론적 이형태	축약 단계 1	축약 단계 2	축약 단계 3
Binary	Binary	Binary	Binary	Binary	Binary	Binary	Binary

상기 표와 같은 데이터 형식은 Bit Operation을 위해 최적화된 방식이며, 한 형태소에 대해 여러 조건을 명세할 수 있기만 하면 실제로 조건을 어떤 식으로 명세할 지는 개발 방식에 따라 달라질 수 있다.

상기 문법 조건은 용언의 불규칙 활용 및 축약이 가능한 형태소와 같이 하나의 형태소가 여러 가지 문법적인 특성을 가질 수 있다. 따라서, 각각의 형태소에 대해서 다수 개의 문법적인 속성을 지정하기 위한 비트 단위 데이터로 조건을 표현할 수 있다.

다음은 'ㅂ' 탈락 활용을 위한 규칙과 이에 대한 실시예이다

10/ ㅂ(V)/ ㅓ(E) D ㅝ / D 깁다: 깁 + ㅓ => 기워

10/ ㅂ(V)/ ㅏ(E) D ㅘ / D 곱다: 곱 + 아 => 고와

10/ ㅂ(V)/ ㄴ(E) D ㅜ/ 곱다: 곱 + ㄴ => 고운

10/ ㅂ(V)/ ㄹ(E) D ㅜ/ 맵다: 맵 + ㄹ => 매운

10/ ㅂ(V)/ 시(E) D ㅜ/ 곱다: 곱 + 시 + 다 => 고우시다

10/ ㅂ(V)/ ㅁ(E) D ㅜ/ 맵다: 맵 + ㅁ => 매움

10/ ㅂ(V)/ ㅡ(E) D ㅜ/ D 곱다: 곱 + 으니 => 고우니

ㅂ(V)/ ㅡ(E) # / # 곱다: 곱 + 으니 => 곱으니

상기 규칙에서 "10"은 앞쪽 형태소에는 불규칙 활용을 하는 용언임을 나타내는 표현양식 정보가 같이 입력되어야 함을 의미하며, 뒤쪽 형태소에는 아무런 조건도 필요하지 않다는 것을 나타낸다.

2. 음운론적 이형태

어절이 주격임을 나타내는 주격 조사는 '이/가' 두가지로 나누어진다. 앞의 명사에 마지막 음절의 받침이 있을 경우에는 '이'를 사용하고, 받침이 없는 경우에는 '가'라는 조사를 사용하게 된다. 영어에서 a/an 처럼 한국어에서는 앞 형태소의 마지막 음절의 음운에 따라서 자연스럽게 느껴지는 발음들이 있다. 이를 음운론적 이형태라고 한다.

음운론적 이형태는 주로 명사와 조사의 연결에서 나타나며, 그 유형 역시 명 사의 마지막 음절에 받침이 있느냐 없느냐로 나누어진다. 이와 같은 음운론적 이형태를 처리하기 위해서는 두가지 문제가 발생한다.

첫번째는 받침의 유무는 단순한 철자로 표현하기 힘들고, 두번째는 입력 형태소의 열의 구조상 명사와 조사가 떨어져서 입력되는 경우가 많이 발생할 수 있다.

상기 첫번째 문제점은 용언의 규칙 및 불규칙 활용과 같이 한글의 자소를 직접 표기하는 방식으로 조건을 명시할 수 있으나, 이것만으로 받침의 유무를 검사하는 것이 불가능하므로 본 발명에서는 형태소 조건 항목을 위해 하기와 같이 몇 가지 특수 문자들을 사용할 수 있으며, 이로 인해 음운론적 이형태에 대한 표현이 가능하다.

^ : 형태소의 시작

$ : 형태소의 마지막

! : 부정(negation)

@ : 자음

# : 모음

% : 초성

& : 중성

* : 종성

다음은 상기와 같은 특수문자를 사용한 음운론적 이형태에 대한 합성 규칙과 이에 대한 실시예이다.

00/&(N)/이(J) #/가DD 영희 + 이 => 영희가

= 00/*!(N)/이(J) #/가DD

00/*(N)/|(J) #/|DD 경숙 + 가 => 경숙이

= 00/&!(N)/|(J) #/|DD

이외에도 다른 특수 문자들을 사용한 규칙의 예를 살펴보기로 한다.

00/^푸(V)/ㅓ(E) Dㅓ/D 푸다: 푸 + 어 => 퍼

상기 규칙은 불규칙 활용의 하나인 'ㅜ' 불규칙 활용을 위한 규칙으로 'ㅜ' 불규칙의 경우 오직 '푸-'라는 용언 하나에 대해서만 나타나는 현상으로 '^푸'라는 것은 형태소의 마지막 음절이 '푸'이며 그 앞에 더 이상 음절이 없는 형태소의 맨 앞이어야 한다는 조건을 의미한다. 이처럼 'ㅜ' 불규칙 활용과 같은 특수한 불규칙 현상은 특수 문자만으로도 구현이 가능하고, '$'의 경우 자소의 검사 방향이 반대인 뒤쪽 형태소에 대해서 '^'와 같은 역할을 한다.

그리고 '!'의 경우 ! 다음에 있는 자소와 입력된 형태소의 자소가 일치하지 않아야 함을 의미한다.

3. 긍정지정사 '이'

한국어에는 긍정지정사 '-이-'라는 형태소가 있고, 일반적으로 선어말 어미와 같은 형태로 형태소 사이에 삽입되어 어절이 긍정의 의미를 가지도록 하는 형태소이다. 긍정지정사 '이'는 한국어에서 매우 빈번하게 사용될 뿐만 아니라, 다른 모음과 결합되기 쉬운 모음 'ㅣ'만으로 형성되어있기 때문에 변화의 형태가 매우 다양하다.

특히 하기의 예와 같이 형태소 합성 과정에서의 변화를 3개 이상의 형태소를 고려하여 어절을 생성해야 하는 경우가 발생하게 된다.

ⅰ) 사장 + 이/VCP + 라는 => 사장이라는

ⅱ) 여자 + 이/VCP + 라는 => 여자라는

ⅲ) 여자 + 이/VCP + 었다 => 여자였다

상기 예에서 ⅰ)의 경우 앞쪽 형태소에 받침이 있기 때문에 어절에 그대로 사용되고, ⅱ)의 경우 앞쪽 형태소에 받침이 없기 때문에 긍정지정사가 탈락된다. 마지막으로 ⅲ)의 경우 세번째 형태소가 모음 'ㅣ'와 결합 가능한 'ㅓ'로 시작하기 때문에 세번째 형태소에 축약되어 하나의 음절로 합쳐진다. 특히, ⅲ)의 경우 앞 두 형태소를 처리하는 과정에서 긍정지정사가 먼저 탈락되어버리기 때문에 그 다음 단계에서 '었다'가 결합되는 과정에서 긍정지정사의 존재를 고려하지 못하고 '여자었다'와 같은 부적절한 표현이 생성될 수 있다.

따라서, 상기와 같은 문제점을 해결하기 위해 본 발명에 따른 형태소 합성장치는 3개 이상의 형태소를 고려할 수 있도록 합성규칙을 정의할 수 있다.

다음은 상기와 같은 긍정지정사 '이'에 대한 합성 규칙과 이에 대한 실시예이다.

여기서, 가장 앞쪽에 있는 "B"는 긍정지정사 '이'에 대한 전역 상태를 위한 시스템 조건이고, 다음의 "CD"는 용언의 규칙 및 불규칙 활용에 대한 문법 조건이다.

<긍정지정사 '이'>

010/&(N)/|(VCP) #/D/1 여자 + 이 => 여자 (전역상태 0→1)

<어미 관련 규칙>

110/#/ㅓ(E) #/Dㅕ/0 여자+이+었다 => 여자였다 (전역상태1)

상기와 같이 "여자+이+었다"와 같이 3개 이상의 형태소 들이 관련된 형태소 어형 변화를 고려한 경우를 위해 시스템 조건이 삽입될 수 있으며, 앞의 두개의 형태소 결합에 따라 긍정 지정사 '이'가 결합되는 경우 전역상태가 0에서 1로 전환되고, 이에 따라 다음의 두개의 형태소 결합시 '었다'가 '였다'로 변경된다.

상기와 같이 형태소 합성을 위한 조건에 따라 연산을 수행하는 합성 규칙을 생성할 수 있을 뿐만 아니라, 탈락 등의 현상으로 사라진 형태소들에 대한 기록을 저장하여 사투리와 같은 다양한 표현을 생성할 때 필요한 정보를 제공할 수 있다.

시스템 조건은 문법 조건에서 설명하였던 것과 같은 Bit operation에 최적화된 비트 형식의 데이터로 구성되어 있으며, 긍정지정사 '이', 보조동사 '하', 대명사 '이것/저것/것' 등의 처리 목적으로 사용될 수 있다.

4. 표현 양식

상기에서 언급한 합성 규칙들은 모두 표준어를 생성하기 위한 목적으로 만들어진 부분이다. 그러나 한국어에는 지역적으로 나누어지는 사투리, 비교적 긴 시간 대에 따라 나타나는 고어적인 표현, 비교적 짧은 기간에 나타나는 유행어(예. 하삼/하오체), 그리고 화자의 연령, 성별, 화자들 간의 관계에 따라서 나타나는 여러가지 유형의 표현 방식들 등 매우 다양한 표현 방식이 존재한다.

따라서, 본 발명에 따른 형태소 합성장치는 이러한 다양한 방식의 표현 방식들을 쉽게 선택하여 생성할 수 있도록 하기 위해 표현 양식 조건을 지정할 수 있도록 구성된다.

이를 위해 먼저 기본적으로 입력된 모든 형태소들은 지금까지 설명한 규칙들을 통해 기본적인 표준어 표현을 생성하기에 적합한 형태로 변환된다. 그 후 지정된 표현 양식 정보에 따라서 적절한 형태로 변환하기 위한 규칙들이 적용된다.

여기서, 가장 앞쪽에 있는 "A"는 사투리 등의 표현 양식 조건이 들어가는 부분이다. 상기 조건 역시 Bit operation을 위한 비트 데이터 형태로 만들어져 있으며, 이를 통해 비트 데이터의 필드를 각기 유형의 표현 양식을 지정하기 위한 것으로 분할하고, 비트 조합을 사용해 다양한 유형의 표현들을 간단하게 선택할 수 있다.

예를 들어, 경상도+청장년+간략한 표현/ 전라도+예사높임+문어체/ 충청도 +청장년+연설체 표현 등등 표현 양식 조건을 설정될 수 있으며, 해당 조건에 따른 합성규칙이 적용되어 형태소를 합성할 수 있다.

다음은 경상도 사투리를 생성하기 위한 형태소 합성 규칙 및 그에 따른 실 시예이다.

1000/ㅆ(E)/ㅅ(E) D/ㅆ/#/0

1000/-ㅂ(E)/니다(E) DD/|ㅂ/#/0 갔+습+니다 => 가씹니다

1000/-ㅂ(E)/니까(E) DD/|ㄴ/DDDD는교/0 갔+습+니까 => 가씬는교

도 4는 본 발명의 바람직한 실시예에 따른 형태소 합성부의 처리를 개략적으로 도시한 순서도이다.

도 4를 참조하면, 전처리부(220)가 입력된 형태소 열 중 먼저 첫번째 어절을 입력받아 분석하여 형태소 합성에 적용될 합성 규칙들을 선택하고, 형태소 합성부가 상기 전처리부에서 선택된 합성 규칙에 따라 조건을 검사하고 형태소 합성 연산을 수행한다.

보다 구체적으로, 형태소 합성부의 형태소 합성 조건 모듈은 전처리부로부터 선택된 합성 규칙 목록 중 첫 번째 합성 규칙을 추출하여 첫번째 어절의 자소 조건과 상태 조건을 모두 만족하는지 여부를 검사한 후 만족하지 않을 경우 잔여 합성 규칙 중 두번째 합성 규칙을 추출하여 상기와 같은 조건 만족 여부를 검사하는 과정을 반복 수행하여 형태소 열의 모든 조건을 만족하는 합성 규칙이 추출될 때 까지 반복한다.

상기와 같은 과정을 통해 합성 규칙이 추출되면 형태소 합성 연산 모듈은 상기 추출된 합성 규칙에 정의된 수정 연산에 따라 형태소 수정을 통한 형태소 합성을 수행한다.

상기와 같이 첫번째 형태소 열에 대한 형태소 합성 연산이 적용되면 잔여 형 태소 열이 존재하는지 여부를 검사하고 잔여 형태소가 존재하는 경우 잔여 형태소에 대해 상기 첫번째 형태소에 적용된 과정을 잔여 형태소에 대한 모든 합성이 종료될 때까지 반복하여 수행한다.

도 5는 본 발명의 바람직한 실시예에 따른 형태소 합성 방법을 개략적으로 도시한 순서도이다.

도 5를 참조하면, 먼저 자연어 생성장치로부터 생성된 형태소 열 또는 표현 양식 정보를 포함한 형태소 열을 통신부를 통해 수신한다.

그리고, 전처리부가 상기 수신된 형태소 열에 대해 전처리를 수행하고, 메모리부에 저장된 합성 규칙 중 상기 형태소 열의 품사 및 자소 관계로부터 조건에 부합되는 합성규칙들을 선택한다.

여기서, 전처리는 수신된 형태소 중 기호 등 형태소 합성 대상이 아닌 요소들을 필터링하여 어절생성부로 전송하고, 괄호를 사용해 어절 사이에 삽입된 표현들을 필터링하고, 수신된 형태소들의 형태를 형태소 합성에 적합한 형태로 수정하여 형태소 합성부로 전송하는 과정을 의미한다.

이어서 형태소 합성부가 상기 선택된 합성 규칙을 적용하여 형태소 합성을 수행한다.

상기와 같은 과정을 통해 형태소 합성이 종료되면 어절 합성부는 전처리부에서 전송된 형태소와 형태소 합성부를 통해 합성된 형태소를 상기 통신부에 수신된 시점에서의 형태소 순서 정보에 따라 합성된 형태소를 재배열하여 어절을 생성하게 된다.

이하, 합성 규칙을 적용하여 형태소를 합성하는 과정에 대해 상기 도 4 및 5와 하기의 실시예를 참조하여 구체적으로 살펴보기로 한다.

실시예의 설명을 위해 형태소 합성 규칙 목록이 하기와 같다고 가정한다.

01: 0/0/1/0/ㅎ/V/ㅗ/E D/#/0 // 'ㅎ' 탈락 불규칙

02: 0/0/1/0/ㅎ/V/ㄹ/E D/#/0

03: 0/0/1/0/ㅎ/V/ㅁ/E D/#/0

04: 0/0/1/0/ㅎ/V/ㄴ/E D/#/0

05: 0/0/1/0/ㅎ/V/ㅂ/E D/#/0

06: 0/0/1/0/ㅂ/V/ㅓ/E Dㅝ/D/0 // 'ㅂ' 불규칙

07: 0/0/1/0/ㅂ/V/ㅏ/E Dㅘ/D/0

08: 0/0/1/0/ㅂ/V/ㄴ/E Dㅜ/D/0

09: 0/0/1/0/ㅂ/V/ㄹ/E Dㅜ/D/0

10: 0/0/1/0/ㅂ/V/ㅂ/E Dㅜ/D/0

11: 0/0/1/0/ㅂ/V/ㅗ/E Dㅜ/D/0

12: 0/0/1/0/ㅂ/V/시/E Dㅜ/D/0

13: 0/0/1/0/ㅂ/V/ㅁ/E Dㅜ/D/0

14: 0/0/1/0/ㅂ/V/ㅡ/E Dㅜ/D/0

15: 0/0/2/0/것/N/ㄴ$/J D/#/0 // 명사 '~것'/ '~엇'축약

16: 0/0/2/0/것/N/ㅣ$/J DD/Dㅔ/0

17: 0/0/2/0/것/N/ㅡㄹ$/J D/D/0

18: 0/0/2/0/것/N/를$/J D/DD/0

19: 0/0/2/0/$무엇/N/#/J DDDㅝ/DD/0

19: 0/0/2/0/#/N/이야/J #/D/0

20: 0/0/0/0/#/N/ㅣ$/VCP #/D/1 // 종성 없음+긍정지정사 '이'

21: 0/1/0/0/#/VCP/ㅓ/J #/ㅕ/0 // 탈락된 긍정지정사 '이'+ 조사

22: 0/1/0/0/#/VCP/ㅔ/J #/ㅖ/0

23: 0/1/0/0/#/VCP/기$/J #/이/0 // 탈락된 긍정지정사를 다시 삽입

24: 0/1/0/0/#/VCP/리라$/J #/이/0

24: 0/1/0/0/#/VCP/ㅁ/J #/임/0

25: 0/0/0/0/@/N/을|를/J #/DDDDDD을/0 // 음운론적 이형태 처리

26: 0/0/0/0/#/N/을|를/J #/DDDDDD를/0

27: 0/0/0/0/@/N/이|가/J #/DDDD이/0

28: 0/0/0/0/#/N/이|가/J #/DDDD가/0

29: 1/0/0/0/야/J// DD꼬/#/0

30: 2/0/0/0/게/J// Dㅣ/#/0

31: 2/0/0/0/야/J// DD여/#/0

32: 4/0/0/0/야/J// DD삼/#/0

예제 1 : 파란 색상이 더욱 고왔다.

입력 형태소 열 : 파랗(1)+ㄴ/ 색상+이/+더욱/ 곱(1)+았+다+.

먼저 전처리부가 첫번째 어절 "파랗(1)+ㄴ"을 입력받고, 형태소가 'ㅎ' 탈락 불규칙이 일어나는 형태소이고, 앞쪽 형태소가 동사(V)이므로 합성 규칙 DB에서 1~14번 합성 규칙을 선택하여 형태소 합성부에 전송한다.

상기 형태소 합성부는 상기 1번 합성 규칙의 조건과 입력된 형태소 '파랗(1)+ㄴ'을 비교하고, 1번 합성 규칙은 'ㅎ'탈락 불규칙이라는 문법 조건은 일치하지만 뒤쪽 형태소가 입력된 형태소는 'ㄴ'인데 반하여 상기 1번 합성규칙은 'ㅗ'이므로 자소 조건이 일치하지 않으므로 잔여 합성 규칙 중 2번 합성 규칙의 조건과 상기 입력된 형태소를 비교한다.

상기와 같은 과정 중 4번 합성 규칙은 'ㅎ'탈락 불규칙이라는 조건은 일치하지만 뒤쪽 형태소가 입력된 형태소가 'ㄴ'라는 자소 조건도 만족하므로 4번 합성 규칙에 따라 수정 연산을 수행한다.

상기 4번 합성 규칙에 정의된 수정 연산은 "D/#/0"로 앞쪽 형태소에서 자소 하나를 삭제하는 것이므로 자소 하나를 삭제하는 연산 후 형태소 열은 '파라(1)+ㄴ'가 된다.

상기와 같이 4번 합성 규칙을 형태소 열에 적용한 후, 나머지 5 ~ 14번 규칙들과 형태소 열을 비교하는 과정을 반복하여 조건 검사를 수행한 후 더이상 비교할 규칙이 존재하지 않으면 상기 4번 합성 규칙이 적용된 형태소 열을 어절 생성부로 전송하여 '파란'을 생성한다.

나머지 형태소 열인 "색상+이", "+더욱", "곱(1)+았+다+."에 대해서 상기와 같은 과정을 반복하여 어절을 생성한다.

예제 2 : ....친구였다.

입력 형태소 : 친구+이+었+다+.

먼저, 전처리 과정에서 마침표(.)는 어절 생성부로 직접 전달된다.

그리고, 나머지 4개의 형태소 중 '친구+이'와 명사를 위한 합성규칙인 15 ~ 20번 합성 규칙이 선택되어 형태소 합성부로 입력된다.

예제 1과 같은 15 ~ 20번 합성규칙에 대해 순차적인 조건 검사 과정을 통해 입력된 형태소 열의 조건을 만족하는 20번 합성 규칙이 형태소 열에 적용되어 '친구+#'으로 형태소 열이 변환되고 시스템 상태가 0에서 1로 변환된다.

'친구+이'가 '친구+#'으로 처리된 다음, '#+었'와 긍정 지정사(VCP)를 위한 합성 규칙인 21~24번 합성규칙과 25~28번 합성규칙이 형태소 합성부에 입력된다.

여기서, 상기 21~24번 합성규칙은 시스템의 상태(전역 상태)가 1일 때믄 적용 가능한 규칙으로 상기 과정을 통해 시스템 상태가 0에서 1로 바뀌었기 때문에 현재 입력된 형태소 열에 적용 가능하다. 따라서, 21~24번 합성규칙에 대해 순차적인 조건 검사 과정을 통해 '#+었'이 21번 합성 규칙의 모든 조건을 만족하므로 상기 21번 합성 규칙에 정의된 연산인 'ㅕ/0"에 따라 "#+었"을 "#+였"으로 수정한다.

그리고 탈락된 긍정지정사를 처리하였으므로 시스템의 상태를 다시 0으로 설정한다.

마지막으로 '였+다'에 관한 합성 과정을 거치고 나면, 최종 형태소 열은 '친구+#+였+다'가 되고, 어절 생성부는 이렇게 변환된 형태소 열과 전처리 과저에서 직접 전달된 마침표(.)를 결합하여 최종 어절인 '친구였다'를 생성한다.

예제 3 : 아름다운 가게(2000년부터 운영되어옴)가...

입력 형태소 : 아름답+은/가게+(+2000+년부터/운용+되어+ㅁ+)+이|가/....

전처리부가 첫번째 어절인 '아름답+은'을 입력받고, 형태소가 'ㅂ' 탈락 불규칙이 일어나는 형태소이고, 앞쪽 형태소가 동사(V)이므로 합성 규칙 DB에서 1~14번 합성 규칙을 선택하여 형태소 합성부에 전송하고, 형태소 합성부의 상기 선택된 합성 규칙의 비교 검사를 통해 조건을 만족하는 14번 합성 규칙에 정의된 수정 연산("Dㅜ/D/0")에 따라 '아름다운' 이라는 어절이 생성된다.

이어서, 전처리부는 '가게+(+2000+년부터'를 기호 '('로부터 복합 구조를 가진 어절로 인식해서 다음 어절의 형태소 열을 추가로 읽어 들인다.

추가로 읽혀진 '운용+되어+ㅁ+)+이|가'에서 ')'기호로 부터 삽입된 어절 또는 문장이 끝났음을 인식하고 상기 괄호 기호 안에 삽입된 '2000+년부터/운용+되어+ㅁ+'을 재귀적으로 형태소 합성부에 입력하여 먼저 '2000년부터 운용되어옴'이라는 어절을 생성한다.

그리고 '('와 ')'를 기준으로 양쪽에 있는 형태소 열인 '가게+이|가'를 형태소 합성부에 입력하고, 28번 합성규칙에 의해 '가게+가'라는 형태소 열을 생성한다.

어절 생성부는 형태소 합성부로부터 입력받은 '아름다운', '(2000년부터 운용되어옴)'과 '가계+가"를 원래 입력된 순서에 맞게 조합하여 '아름다운 가게(2000 년부터 운용되어옴)가'라는 어절을 생성한다.

예제 4 : 이게 뭐야?

입력 형태소 열 : 이것(2)+이/무엇(2)+이야+? [1]

이것(2)+이/무엇(2)+이야+? [2]

이것(2)+이/무엇(2)+이야+? [4]

본 예제는 축약과 표현 양식에 따른 표현의 변화를 보여주는 예제이며, 형태소 열 '이것(2)+이'에는 축약될 형태소라는 것을 의미하는 문법 속성 값 2가 첨부되어 있으며, 형태소 합성 과정 중 16번 합성규칙에 의해 '이ㄱ+ㅔ'로 수정된다.

이어서, '무엇(2)+이야' 역시 19번 합성규칙에 의해 '뭐+야"로 수정된다.

그리고, 입력 형태소 열에는 [1], [2],[4]표현 양식 정보가 추가로 입력되었으며, 표현 양식이 [1]일 경우 29~30번 합성 규칙이 적용되고, [2]일 경우 31번 규칙이 적용되고, [4]일 경우 32번 규칙이 추가로 적용된다.

따라서, 최종 생성 문장은 하기와 같이 입력된 문장의 표현 양식 정보에 따라서 각기 다른 표현으로 만들어지게 된다.

[1 : 경상도 사투리] 이기 뭐꼬?

[2 : 충청도 사투리] 이게 뭐여?

[4 : '하삼'체] 이게 뭐삼?

본 발명에 따른 형태소 합성장치의 우수성을 평가하기 위해 150만개 어절로 구성된 데이터를 사용한 실험을 수행하였다.

데이터에는 주어진 어절이 어떤 형태소로 만들어져 있고, 각각의 형태소가 어떤 품사인지에 관한 정보가 담겨있다. 본 실험에서는 30만개를 합성 규칙을 작성하는 과정에 사용하였고, 120만개를 성능평가에 사용하였다. 또한, 모든 불규칙 활용에 대해 규칙을 만들지 않고, 불규칙 용언 100개에 대해서만 규칙을 만들어 적용하였다.

객관적인 형태소 합성장치의 효과를 확인하기 위해 본 발명에 따른 합성 시스템을 사용하지 않고 형태소를 결합하여 어절을 생성한 결과(A)와 본 발명에 따른 형태소 합성 시스템에에 의해 형태소 합성 규칙을 사용해 형태소를 합성한 결과(B)를 비교하였고, 결과는 하기 <표 1>과 같다.

	A	B
오류 개수	105,870개	29,722개
정확도	91.17%	97.53%

상기 <표 1>을 통해 알 수 있듯이 본 발명에 따른 형태소 합성규칙을 적용한 경우(B) 입력된 형태소를 단순 조합한 경우(A)보다 약 6.9%의 성능이 향상된 것을 알 수 있다.

본 발명에 따른 형태소 합성 규칙을 적용한 경우 오류 개수는 29,722개로 문법적으로는 올바르지만 다른 표현으로 인한 오류, 데이터 자체 오류, 불규칙 정보의 부족으로 인한 오류, 형태소 합성 규칙 부족으로 인한 오류로 크게 구분된다.

여기서, 상기 오류 중 형태소 합성 규칙 부족으로 인한 오류를 제외한 나머지 오류는 형태소 합성장치의 성능과 상관없이 사용 가능한 표현이라는 점을 고려할 때, 실제 규칙 부족으로 인해 잘못 생성된 어절은 전체 오류에 18%에 불과하였다.

따라서, 실질적인 오류만을 고려했을 때의 정확도는 99.83%로 단순 조합에 비해 8.76%의 성능이 향상된 것이고, 오류율이 0.27%에 불과하고 이는 200어절 이상의 문장에서 하나 정도의 오류가 발생함을 의미하므로 본 발명에 따른 형태소 합성장치의 정확도가 매우 높음을 알 수 있다.

따라서, 충분한 형태소 합성 규칙이 적용된다면 문법 오류를 최소화할 수 있다.

이상에서 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 본 발명의 보호범위는 상기 실시예에 한정되는 것이 아니며, 해당 기술분야의 통상의 지식을 갖는 자라면 본 발명의 사상 및 기술영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

도 3은 도 2의 형태소 합성부에 대한 상세 블럭도이다.

도 4은 본 발명의 바람직한 실시예에 따른 형태소 합성부의 처리를 개략적으로 도시한 순서도이다.

*도면의 주요부분에 대한 부호의 설명*

10 : 자연어 생성장치 20 : 형태소 합성장치

210 : 통신부 220 : 전처리부

230 : 메모리부 240 : 형태소 합성부

250 : 어절 합성부 30 : 클라이언트 단말

Claims

자연어 생성장치로부터 입력된 형태소 열을 합성하는 형태소 합성장치로서,

상기 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열 정보를 전송받아 분석하고 저장된 형태소 합성 규칙 중 적합한 형태소 합성 규칙을 선택하여 상기 형태소 합성 규칙에 따라 형태소를 합성하여 어절을 생성하는 것을 특징으로 하는 형태소 합성장치.
제 1항에 있어서,

상기 형태소 합성장치는

상기 자연어 생성장치에서 전송된 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열 정보를 수신하는 통신부와;

상기 수신된 형태소 열에 대해 형태소 합성을 위한 전처리를 수행하고 형태소 합성에 적용될 합성 규칙을 선택하는 전처리부와;

상기 수신된 형태소 열 또는 표현 양식 정보를 포함한 형태소 열에 대한 형태소 합성에 적용될 형태소 합성 규칙을 저장하는 메모리부와;

상기 형태소 열에 대해 상기 전처리부에서 선택된 합성 규칙에 포함된 조건 중 상기 형태소 열의 조건을 모두 만족하는 합성 규칙을 추출하여, 상기 추출된 합성 규칙에 따라 수정 연산하여 형태소를 합성하는 형태소 합성부 및;

상기 합성된 형태소에 대해 어절 및 자연어 문장을 생성하는 어절 합성부를 포함하는 것을 특징으로 하는 형태소 합성 장치.
제 2항에 있어서,

클라이언트가 직접 원하는 표현 양식을 설정할 수 있는 표현 양식 지정부를 더 포함하는 것을 특징으로 하는 형태소 합성 장치.
제 2항에 있어서,

상기 형태소 합성 규칙은

각각 하기와 같은 데이터 구조로 형성된 것을 특징으로 하는 형태소 합성 장치.

여기서, 자소 조건은 형태소의 자소 및 품사들을 명세하기 위한 조건이고, 문법 조건은 형태소의 문법적인 속성들에 따라서 적용되는 문법에 대한 조건이고, 상기 시스템 조건은 3개 이상의 형태소들이 관련된 형태소 어형 변화를 고려한 조건이고, 상기 수정 연산은 상기 조건을 만족할 경우 적용될 형태소 수정 공식이다.
제 4항에 있어서,

상기 형태소 합성 규칙은

수신되거나 사용자로부터 지정된 표현 양식 정보를 더 포함하는 하기와 같은 데이터 구조로 형성된 것을 특징으로 하는 형태소 합성 장치.

여기서, 상기 표현 양식 조건은 사투리, 높임말, 문어체, 유행어, 인터넷 대화어(통신체) 등 각종 표현 양식을 규정하는 조건이다.
제 5항에 있어서,

상기 형태소 합성부는

형태소 열 데이터에 표현 양식 정보가 포함되거나 특정 표현 양식이 지정된 경우

상기 표현 양식 조건을 제외한 다른 조건을 만족하는 합성 규칙에 의해 형태소 수정 연산을 수행한 후 상기 표현 양식 조건을 만족하는 합성 규칙에 의해 추가로 형태소 수정 연산을 수행하는 것을 특징으로 하는 형태소 합성 장치.
제 2항에 있어서,

상기 전처리부는

수신된 형태소 열 중 형태소 합성 대상이 아닌 요소들을 필터링하고, 괄호 기호를 사용해 어절 사이에 삽입된 표현들을 필터링하고, 수신된 형태소 열 중 직접 형태소 합성이 불가능한 형태소의 형태를 형태소 합성에 적합한 형태로 수정하고, 형태소 합성에 적용될 형태소 합성 규칙들을 상기 메모리부로부터 추출하여 선택하는 것을 특징으로 하는 형태소 합성 장치.
제 7항에 있어서,

상기 전처리부는

상기 괄호 기호의 양 단을 인식하고, 상기 괄호 기호의 양단 사이에 삽입된 어절 또는 문장을 추출하여 재귀 입력시키고, 상기 괄호 기호 전과 후의 형태소를 결합한 형태소 열을 형태소 합성부에 입력하고,

상기 형태소 합성부는 상기 재귀 입력된 괄호 기호 사이에 삽입된 어절 또는 문장과 상기 괄호 기호 전과 후의 형태소를 결합한 형태소 열을 순차적으로 합성하는 것을 특징으로 하는 형태소 합성 장치.
제 2항에 있어서,

상기 형태소 합성부는

상기 형태소 열에 대하여 선택된 합성 규칙에 포함된 조건과 상기 형태소 열의 모든 조건을 만족하는 합성 규칙을 추출하는 형태소 합성 조건 모듈과;

상기 추출된 합성 규칙에 포함된 수정 연산에 따라 형태소 합성 연산을 수행하는 형태소 합성 연산 모듈을 포함하는 것을 특징으로 하는 형태소 합성 장치.
제 9항에 있어서,

상기 형태소 합성 조건 모듈은

상기 선택된 합성 규칙들을 순차적으로 형태소 열과 비교하여 모든 조건을 만족하는지 여부를 반복적으로 검사하여 모든 조건을 만족하는 합성 규칙을 추출하는 것을 특징으로 하는 형태소 합성 장치.
제 2항 또는 제 8항에 있어서,

상기 어절 합성부는

상기 통신부에 수신된 시점에서의 형태소 순서 정보에 따라 합성된 형태소를 재배열하여 어절을 생성하는 것을 특징으로 하는 형태소 합성 장치.
자연어 생성장치로부터 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열 정보를 전송받아 형태소를 합성하는 형태소 합성 방법으로서,

전처리부가 상기 전송된 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열을 분석하여 전처리를 수행하는 단계와;

형태소 합성부가 상기 전처리된 형태소 열에 대해 선택된 합성 규칙 중 적합한 형태소 합성 규칙을 선택하여 형태소를 합성하는 단계와;

어절 합성부가 상기 합성된 형태소에 대해 어절을 생성하는 단계를 포함하는 것을 특징으로 하는 형태소 합성 방법.
제 12항에 있어서,

상기 전처리를 수행하는 단계는

입력된 형태소 열 중 형태소 합성 대상이 아닌 요소들을 필터링하여 어절 생성부로 전송하는 단계와;

괄호 기호를 사용해 어절 사이에 삽입된 표현들을 필터링하는 단계와;

수신된 형태소 열 중 직접 형태소 합성이 불가능한 형태소의 형태를 형태소 합성에 적합한 형태로 수정하는 단계와;

형태소 합성에 적용될 형태소 합성 규칙들을 상기 메모리부로부터 추출하여 선택하는 단계를 포함하는 것을 특징으로 하는 형태소 합성 방법.
제 13항에 있어서,

상기 괄호 기호를 사용해 어절 사이에 삽입된 표현들을 필터링하는 단계는

상기 괄호 기호를 사용해 어절 사이에 삽입된 표현들은 추출하여 재귀 입력하고, 상기 괄호 기호 전 후의 형태소를 결합하여 형태소 합성부에 입력하는 것을 특징으로 하는 형태소 합성 방법.
제 12항에 있어서,

상기 형태소를 합성하는 단계는

상기 선택된 합성 규칙들을 순차적으로 상기 입력된 형태소 열과 비교하여 모든 조건을 만족하는 합성 규칙을 추출하고, 추출된 합성 규칙에서 정의된 수정 연산에 형태소 합성 연산을 수행하고;

잔여 합성 규칙들이 있는 경우 다시 상기 입력된 형태소 열과 비교하여 모든 조건을 만족하는 합성 규칙을 추출하고, 추출된 합성 규칙에서 정의된 수정 연산에 형태소 합성 연산을 수행하는 과정을 반복하는 것을 특징으로 하는 형태소 합성 방법.
제 15항에 있어서,

상기 모든 조건을 만족하는 합성 규칙을 추출하는 단계는

입력된 형태소 열의 조건과 상기 선택된 합성 규칙에 포함된 조건을 비교하되, 상기 선택된 합성 규칙에 포함된 형태소의 자소 및 품사들을 명세하기 위한 자소 조건과 형태소의 문법적인 속성들에 따라서 적용되는 문법조건과 3개 이상의 형태소들이 관련된 형태소 어형 변화를 고려한 시스템 조건을 모두 만족하는 합성 규칙을 추출하는 것을 특징으로 하는 형태소 합성 방법.
제 16항에 있어서,

입력된 형태소 열에 표현 양식 정보가 포함되거나 특정 표현 양식이 지정된 경우

표현 양식 조건을 제외한 나머지 조건을 만족하는 합성 규칙을 추출하여 형태소 수정 연산을 수행한 후 추가적으로 상기 표현 양식 조건을 만족하는 합성 규칙을 추출하여 형태소 수정 연산을 수행하는 것을 특징으로 하는 형태소 합성 방법.
제 12항에 있어서,

상기 어절을 생성하는 단계는

상기 어절 합성부가 상기 통신부에 수신된 시점에서의 형태소 순서 정보에 따라 합성된 형태소를 재배열하여 어절을 생성하는 것을 특징으로 하는 자연어 생성 방법.