KR20050006936A

KR20050006936A - 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적운율 구현 방법

Info

Publication number: KR20050006936A
Application number: KR1020030046926A
Authority: KR
Inventors: 오승신; 최미란; 이영직; 김상훈
Original assignee: 한국전자통신연구원
Priority date: 2003-07-10
Filing date: 2003-07-10
Publication date: 2005-01-17
Also published as: KR100554950B1

Abstract

본 발명은 한국어 대화체 음성합성시스템에서 화맥(speech context) 정보를 이용하여 특정 형태에 대해 선택적으로 운율을 구현하는 방법에 관한 것이다.

본 발명은 합성시스템의 입력 문장 가운데, 형태가 같으면서 선택적으로 운율이 구현될 필요가 있는 단어나 어미 등에 대해 문장의 화행(speech act) 정보나 문형 정보를 포함하는 화맥 정보를 이용하여 태깅을 해 주고, 음성 합성시에 태깅된 특정 형태에 맞는 음편(speech segment)이 마킹된 합성단위 DB에서 해당 음편을 선택적으로 추출하여 대화 맥락 또는 문장의 유형에 맞는 운율을 다양하게 구현하는 방법을 제공한다.

Description

한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적 운율 구현 방법{Method of selective prosody realization for specific forms in dialogical text for Korean TTS system}

본 발명은 한국어 음성합성시스템(Text-to-Speech system)에 입력되는 대화체 문장을 대화 맥락에 맞게 적절한 운율을 구현하여 합성음을 생성하도록 하는 방법에 관한 것으로, 보다 상세히는 화맥(speech context) 정보, 즉 문장의 화행 정보(speech act)나 문장 내의 형태 정보를 이용하여 한국어 대화체 문장 내의 특정 형태에 대하여 운율을 선택적으로 구현하는 방법에 관한 것이다.

종래의 한국어 음성합성시스템은 한국어 입력 문장을 인간이 들을 수 있는 음성으로 변환하여 출력하는 장치로서, 도 1에 도시된 바와 같이 전처리기(10)와 언어처리기(20), 운율처리기(30), 후보검색기(40), 및 합성음생성기(50)로 구성된다.

상기와 같이 구성되는 종래의 한국어 음성합성시스템은, 먼저 전처리기(10)가 입력 문장을 한글로 변환하면서 입력 문장에 포함된 한글 이외의 숫자, 약어, 기호 등을 숫자 사전 DB(11), 약어 사전 DB(12), 기호 사전 DB(13) 등을 이용하여한글로 변환하면 언어처리기(20)가 한글로 변환된 입력 문장을 형태소 사전 DB(21)를 이용하여 형태소 분석이나 구문 분석을 하고, 발음 변환을 한다.

이어서, 운율처리기(30)가 억양구를 찾아내어 억양구나 문장 전체에 억양을 부여하거나 끊어 읽기 강도를 할당하면 후보검색기(40)가 운율 처리된 입력 문장의 합성단위들을 합성단위 DB(41)로부터 검색하고, 최종적으로 합성음생성기(50)가 후보검색기(40)에 의해 검색된 합성단위들을 연결하여 합성음을 생성하고 출력한다.

그러나, 상기와 같이 작동하는 한국어 음성합성시스템은 주로 낭독체 문장을 대상으로 형태소 분석 및 구문분석을 하여 억양구를 찾아내고 억양구나 문장 전체에 억양을 부여하거나 끊어 읽기 기간을 부여하여 운율 구현을 하도록 되어 있기 때문에, 같은 형태가 대화 맥락, 즉 화맥에 따라서 다양한 운율로 발성되기도 하고, 그 다양한 운율이 의미를 변별하는 기능을 하기도 하는 대화체 문장에 대한 운율 구현 시에 자연스러운 합성음을 생성하지 못하는 단점이 있다.

실제로, 대화체 문장에 포함된 간투사의 예를 들면, 선행 발화에 대한 응답으로 쓰이는 '네'의 경우, 상대방의 질문에 대한 긍정의 대답이냐, 단지 선행 발화에 대한 인지의 표시냐에 따라 '네'의 발성은 다른 운율로 실현된다.

또한, 의문형 어미의 예를 들면, 의문사 의문문(wh-question)이냐 가부판정 의문문(yes-no question)이냐에 따라 문말의 억양곡선이 서로 다르게 나타난다.

그러므로, 이러한 대화체 문장에 포함되는 같은 형태의 특정 단어나 의문형 어미들에 대하여 대화 맥락에 맞게 적절한 운율이 구현되어야 대화의 내용과 흐름이 명확하게 표현될 수 있고 자연스러운 대화체 음성이 될 수 있으나, 종래의 한국어 음성합성시스템은 주로 낭독체 문장을 대상으로 운율 구현을 하도록 되어 있기 때문에 대화체 문장에 대한 자연스러운 합성음을 생성하지 못하는 단점이 있다.

따라서, 본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로서, 본 발명의 목적은 형태가 같으면서 대화 맥락이나 문장의 유형에 따라 선택적으로 운율이 구현될 필요가 있는 한국어 대화체 문장 내의 특정 형태에 대해 입력 대화체 문장 상에 나타난 문장의 화행(Speech act) 정보나 문형 정보를 포함하는 화맥 정보를 이용하여 태깅을 해 주고, 음성 합성시에 태깅된 특정 형태에 맞는 음편(speech segment)이 마킹된 합성단위 DB에서 해당 음편을 선택적으로 추출하여 대화 맥락 또는 문장의 유형에 맞는 운율을 다양하게 구현할 수 있는 방법을 제공하는 데 있다.

상기 본 발명의 목적을 달성하기 위한 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적 운율 구현 방법은, 전처리 완료된 한국어 대화체 문장이 입력되면 입력 문장에 대한 화행 태깅 작업을 수행하는 단계와; 상기 화행 태깅 작업이 완료된 입력 문장 중에 선택적으로 운율이 구현되어야 할 특정 요소가 포함되어 있는가를 판별하는 단계; 상기 특정 요소가 포함되어 있으면, 선행 문장과 특정 요소를 포함하는 후행 문장의 화행정보에 대응하도록 단어 코드가 설정되어 있는 단어태깅 테이블을 이용하여 특정 단어에 대한 태깅 작업을 수행하는 단계; 상기 화행 태깅된 입력 문장 중에 선택적으로 운율이 구현되어야 할 같은 형태의 특정 요소가 포함되어 있지 않으면, 입력 문장 중에 선택적으로 운율이 구현되어야 할 의문형 어미가 포함되어 있는가를 판별하는 단계; 상기 특정 요소에 대한 태깅 작업이 수행된 입력 문장 중에 선택적으로 운율이 구현되어야할 의문형 어미가 포함되어 있는지 판별하여, 의문형 어미가 포함되어 있으면, 의문문의 유형에 대응하도록 어미 코드가 설정되어 있는 의문형 어미 태깅 테이블을 이용하여 의문형 어미에 대한 태깅 작업을 수행하는 단계; 상기 특정 요소에 대해 태깅된 입력 문장 중에 운율이 구현되어야할 의문형 어미가 포함되어 있지 않으면, 특정 요소에 대해 태깅된 텍스트를 출력하는 단계; 상기 의문형 어미에 대한 태깅 작업과 특정 요소에 대한 태깅 텍스트가 출력되면 후보 검색기의 특정 요소와 의문형 어미에 맞는 음편이 마킹되어 있는 합성단위 DB에서 상기 태깅된 형태의 태그에 맞게 해당 음편을 추출하는 단계; 및 이 음편들과 다른 음편들을 연결하여 대화체 합성음을 생성하는 단계로 이루어진다.

도 1은 한국어 음성합성(TTS)시스템을 도시한 구성도.

도 2는 본 발명에 따른 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적 운율 구현 방법을 도시한 흐름도.

도 3은 대화체 문장 예문을 나타낸 도표.

도 4는 대화체 문장 화행코드를 나타낸 도표.

도 5는 대화체 문장 예문의 화행 태깅 결과를 나타낸 도표.

도 6은 선행 문장과 '네' 포함 문장의 화행코드의 관계에 따른 '네'의 단어코드를 나타낸 도표.

도 7은 의문문 유형에 따른 의문형 어미코드를 나타낸 도표.

도 8은 대화체 문장 예문의 단어/어미 태깅 결과를 나타낸 도표.

<도면의 주요부분에 대한 부호의 설명>

10: 전처리기 11: 숫자 사전 DB

12: 약어 사전 DB 13: 기호 사전 DB

20: 언어처리기 21: 형태소 사전 DB

30: 운율처리기 40: 후보검색기

41: 합성단위 DB 50: 합성음생성기

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.

도 2에 도시된 바와 같은 본 발명에 따른 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적 운율 구현 방법은, 도 1에 도시된 바와 같은 한국어 음성합성시스템에 의해 수행되며, 특히 본 발명을 설명함에 있어서 사용되는 '선택적'이란 단어의 의미는 조건에 따라 다른 운율을 선택한다는 것이다.

도 3에 도시된 대화체 문장 예문은 본 발명에 따른 한국어 대화체 문장 내의 특정 형태, 예컨대 간투사 '네'와 의문형 어미에 대한 선택적 운율 구현 방법을 설명하기 위한 예문으로서 호텔에서 손님과 직원간에 주고받는 대화를 나타내고 있다.

도 3에 도시된 대화 예문에는 그 의미 기능이 다른 간투사 '네'가 3회 반복된다. 여기서, 첫 번째의 '네'는 상대의 발화 내용을 인지했음을 나타내고, 두 번째의 '네'는 질문에 대한 긍정의 대답 의미를 가지며, 세 번째의 '네'는 상대의 요구에 대한 긍정의 대답 의미를 가지는데, 한국인의 언어 습관상 이 세 가지 '네'는 서로 다른 운율로 발성된다. 또한, 상기 예문에는 의문형 어미로 쓰이는 '-어요'가 3회 반복되는데, 첫 번째의 '-어요'와 두 번째나 세 번째의 '-어요'도 역시 그 운율이 달리 나타난다.

상기와 같은 대화체 문장들이 한국어 음성합성시스템으로 입력되면, 먼저 이들 대화체 문장은 전처리기에 의해 한글로 변환된 후 언어처리부로 전달되며(S10), 이에 따라서 언어처리부에서는 미리 설정된 화행코드로 입력 문장에 대한 화행 태깅 작업을 수행한다(S20).

도 4에 도시된 화행코드는 일상 대화에 주로 나타날 수 있는 화행을 분류한것으로 화자의 발화 의도에 기반을 두어 선정한 것이다. 화행 태깅 테이블은 대화 코퍼스(corpus)의 문장을 일단 수동으로 화행 태깅, 또는 분류한 후, 문장에서 각 화행을 결정해 주는 형태를 추출하여 작성한다. 화행을 결정하는 형태는 주로 종결어미로 구성되지만 때로는 보조 용언 및 본 용언이 포함될 수도 있다.

상기 예문에 대한 언어처리부의 화행 태깅 결과는 도 5에 도시된 바와 같다.

화행 태깅 작업이 완료된 후에는 입력 문장 중에 선택적으로 운율이 구현되어야 할 특정 요소(예컨대, '네', '아', '아니', '그러세요' 등의 간투사나 간투어들)가 포함되어 있는가를 판별한다(S30).

만약, 특정 요소가 포함되어 있다고 판별되면, 언어처리부는 선행 문장과 특정 단어를 포함하는 후행 문장의 화행정보를 바탕으로 하는 단어 태깅 테이블을 이용하여 미리 설정된 특정 단어에 대한 태깅 작업을 수행한다(S40).

이때, 상기 단어 태깅 테이블은 상기 입력 대화 텍스트의 화행 태깅에 대응하는 특정 요소의 운율유형을 분류하여 태그를 선정하고, 음성데이터를 바탕으로 상기 특정 요소가 포함된 문장과 선행하는 문장의 화행 유형과 빈도를 추출하여 태깅 작업을 수행하게 된다.

도 6은 대화체 문장의 화행 태그 정보를 바탕으로 간투사 '네'를 태깅하기 위해 사용하는 테이블의 일부를 나타낸다. 각각 다른 코드가 태깅된 '네'는 합성시에 각각 다른 운율로 구현되게 된다. 이렇게 여러 가지 유형의 '네(또는 예)'를 구분하여 태깅하기 위한 단어 태깅 테이블은 화행 태깅된 문장의 대화 코퍼스와 그에 해당하는 음성데이터로부터 추출할 수 있다. 이 경우, 우선 '네'의 운율 유형을 분류하여 코드를 선정하고, 이 분류에 따라 음성데이터를 바탕으로 대화 코퍼스에 나타난 간투사 '네(또는 예)'를 태깅하고, 그것이 포함된 문장과 그에 선행하는 문장의 화행 유형과 빈도를 추출하여 테이블을 작성한다.

도 6에 있어서 'none'이란 '네'라는 특정 단어 다음에 문장이 이어지지 않음을 뜻하며, 도 8의 예문에서 두 번째와 세 번째 '네'가 이에 해당한다.

상기 예문에 대한 특정 단어의 태깅 결과는 도 8에 도시된 바와 같다. 예컨대, 도 8에 표시된 첫 번째 '네'의 태깅 결과는 선행 문장의 화행 코드가 'give-information'이고 '네'가 포함된 후행 문장의 화행 코드가 'acknowledge'이므로 'ne6'이 되며, 세 번째 '네'의 태깅 결과는 선행 문장의 화행 코드가 'request-action'이고 '네' 다음에 후행 문장이 이어지지 않으므로 'ne5'가 된다.

상기와 같이 특정 형태에 대해 화행 정보를 이용한 태깅 작업이 완료되고 나면, 언어처리부는 다음으로 문형 정보를 이용한 태깅 작업을 수행하게 된다. 여기에는 의문형 어미가 포함된다. 우선 입력 문장 중에 선택적으로 운율이 구현되어야 할 의문형 어미(예컨대, '-지요?', '-어요?', '-나요?', '-은가요?', '-을까요?'와 같은 어미)가 포함되어 있는가를 판별한다(S50).

만약, 의문형 어미가 포함되어 있다고 판별되면, 언어처리부는 의문형 어미가 포함된 문장에 나타나는 정보, 즉 의문문의 유형과 대응되도록 설정된 어미 코드로 태깅하기 위한 어미 태깅 테이블을 이용하여 의문형 어미에 대한 태깅 작업을 수행한다(S60).

실제로, 도 3에 표시된 예문에 있어서 '어요'와 같은 의문형 어미는 해당 의문형 어미가 포함된 의문문이 의문사가 없는 가부판정 의문문(yes-no question)인지 의문사가 있는 의문사 의문문(wh-question)인지에 따라서 종결억양곡선(terminal intonation contour)이 달라지므로, 이 두 가지 운율이 적절하게 구현되도록 하기 위해서는 의문형 어미를 포함하는 대화체 문장이 의문사 의문문인지 가부판정 의문문인지를 구분하여 어미에 태깅을 해 주는 것이 필요하다.

도 7은 의문문의 유형에 대응하도록 설정된 의문형 어미들의 어미코드의 일부를 나타낸다. 의문형 어미들은 여기서 두 가지로 태깅되어 있으며 이들은 합성시에 각각 다른 운율로 구현되게 된다.

의문문의 유형은 문장 내에 의문사, 또는 의문사를 포함하는 형태가 있는지 없는지에 의해 결정된다.

상기와 같이 언어처리부에 의해 특정 단어에 대한 태깅 작업과 특정 어미에 대한 태깅 작업이 모두 완료되고 나면, 태깅된 텍스트는 운율처리기를 거쳐 후보검색기로 보내지고(S70), 후보검색기는 특정 단어나 의문형 어미의 음편을 하나의 합성단위로 마킹(marking)해 놓은 합성단위 DB에서 태깅된 형태에 대한 후보 검색을하고 태깅된 형태에 한해서는 태그에 맞게 해당 음편을 추출하면(S80), 이에 따라서 합성음생성기는 이 음편들을 다른 음편들과 연결하여 선택적으로 구현된 운율을 대화체의 합성음으로 출력하게 된다(S90).

상술한 바와 같이 본 발명에 따른 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적 운율 구현 방법은 한국어 음성합성시스템에서 입력 대화체 문장에 대하여 대화 맥락에 맞는 자연스럽고 다양한 대화체의 운율을 구현할 수 있는 장점이 있으며, 대화체 입력 문장을 읽어 주는 음성합성시스템뿐만이 아니라 음성인식과 합성을 겸한 대화(dialogue) 시스템에서도 활용할 수 있다.

특히, 본 발명에 따르면 대화체 언어에서 화자의 태도와 감정을 가장 잘 나타내는 부분에 해당하는 간투사와 같은 특정 단어 또는 의문형 어미들에 대해 선택적으로 다양하게 운율을 구현할 수 있기 때문에, 대화 흐름에 대한 시스템 사용자의 이해도를 높이고 대화체 합성음을 더욱 인간 음성에 가깝게 하는 자연성(naturalness)을 향상시킬 수 있으며, 그 결과로 낭독체 문장을 대상으로 운율을 구현하는 방법에 비해 좀 더 자연스럽게 대화 시스템과 인간의 대화가 이루어질 수 있다.

이상에서 설명한 것은 본 발명에 따른 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적 운율 구현 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

Claims

전처리 완료된 한국어 대화체 문장이 입력되면 입력 문장에 대한 화행 태깅 작업을 수행하는 단계와;

상기 화행 태깅 작업이 완료된 입력 문장 중에 선택적으로 운율이 구현되어야 할 특정 요소가 포함되어 있는가를 판별하는 단계;

상기 특정 요소가 포함되어 있으면, 선행 문장과 특정 요소를 포함하는 후행 문장의 화행정보에 대응하도록 단어 코드가 설정되어 있는 단어 태깅 테이블을 이용하여 특정 요소에 대한 태깅 작업을 수행하는 단계;

상기 화행 태깅된 입력 문장 중에 선택적으로 운율이 구현되어야 할 같은 형태의 특정 요소가 포함되어 있지 않으면, 입력 문장 중에 선택적으로 운율이 구현되어야 할 의문형 어미가 포함되어 있는가를 판별하는 단계;

상기 특정 요소에 대한 태깅 작업이 수행된 입력 문장 중에 선택적으로 운율이 구현되어야할 의문형 어미가 포함되어 있는지 판별하여, 의문형 어미가 포함되어 있으면, 의문문의 유형에 대응하도록 어미 코드가 설정되어 있는 의문형 어미 태깅 테이블을 이용하여 의문형 어미에 대한 태깅 작업을 수행하는 단계;

상기 특정 요소에 대해 태깅된 입력 문장 중에 운율이 구현되어야할 의문형 어미가 포함되어 있지 않으면, 특정 요소에 대해 태깅된 텍스트를 출력하는 단계;

상기 의문형 어미에 대한 태깅 작업과 특정 요소에 대한 태깅 텍스트가 출력되면 후보 검색기의 특정 요소와 의문형 어미에 맞는 음편이 마킹되어 있는 합성단위 DB에서 상기 태깅된 형태의 태그에 맞게 해당 음편을 추출하는 단계; 및

이 음편들과 다른 음편들을 연결하여 대화체 합성음을 생성하는 단계

로 이루어지는 것을 특징으로 하는 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적 운율 구현 방법.
제 1항에 있어서, 상기 화행 태깅 작업을 수행하는 단계는

기 설정된 화행 태깅 테이블에 의해 화행을 결정하는 형태를 추출하는 것을 특징으로 하는 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적 운율 구현 방법.
제 1항에 있어서, 상기 단어 태깅 테이블을 이용하여 특정 요소에 대한 태깅 작업을 수행하는 단계는

상기 입력 대화 텍스트의 화행 태깅에 대응하는 특정 요소의 운율유형을 분류하여 태그를 선정하고, 음성데이터를 바탕으로 대화 코퍼스에 나타난 특정 요소를 태깅하는 것을 특징으로 하는 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적 운율 구현 방법.