KR100644814B1

KR100644814B1 - 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법

Info

Publication number: KR100644814B1
Application number: KR1020050106584A
Authority: KR
Inventors: 오승신; 김상훈; 이영직
Original assignee: 한국전자통신연구원
Priority date: 2005-11-08
Filing date: 2005-11-08
Publication date: 2006-11-14
Also published as: US20070106514A1; US7792673B2

Abstract

본 발명은 음성합성 시스템에서 합성음의 친밀도를 조절하여 다양한 스타일의 합성음을 생성하는 장치 및 방법을 제공하기 위한 것으로서, 친밀도의 레벨을 정의하는 단계와, 상기 정의된 친밀도 레벨 각각에 상응하여 구성된 텍스트를 녹음한 음성들을 저장하는 단계와, 상기 저장된 각 음성 데이터에 대해 문말 억양(sentence final intonation contour)의 유형, 문장 내의 주요 억양구(intonation phrase) 경계의 억양 유형 및 문장의 피치(F₀) 평균값 중 적어도 하나 이상을 통계적으로 모델링하여 각 친밀도에 따른 운율적 특성을 추출하는 단계와, 상기 추출된 상기 운율적 특성을 기반으로 친밀도 레벨별 운율모델을 생성하는 단계를 포함하며, 이를 이용한 음성합성 방법 및 장치를 제공한다.

음성합성 시스템, 친밀도, 발화 스타일(speech style), 운율(prosody)

Description

발화 스타일 조절을 위한 운율모델 생성 방법 및 이를 이용한 대화체 음성합성 장치 및 방법{formation method of prosody model with speech style control and apparatus of synthesizing text-to-speech using the same and method for}

도 1 은 본 발명에 따른 발화스타일 조절을 위한 운율모델 생성 방법을 나타낸 흐름도.

도 2 는 본 발명에 따른 대화체 음성합성 방법에서 운율모델을 생성하기 위해 녹음되는 문장 및 추출된 운율 정보를 나타낸 실시예.

도 3 은 본 발명에 따른 친밀도 조절 대화체 음성합성 장치를 나타낸 도면.

도 4 는 본 발명에 따른 친밀도 조절 대화체 음성합성 방법을 나타낸 흐름도.

도 5 는 본 발명에 따른 대화체 음성합성 방법에서 마크업 언어를 사용한 입력문장의 실시예.

*도면의 주요부분에 대한 부호의 설명

10 : 운율모델 20 : 합성단위 DB

30 : 합성음 생성기

본 발명은 음성 시스템에 관한 것으로, 특히 음성합성 장치에서 출력되는 합성음의 친밀도를 조절하여 다양한 스타일의 합성음을 생성하는 장치 및 방법에 관한 것이다.

음성합성 장치는 입력된 텍스트로부터 기 저장되어 있는 음성을 단순히 합성하여 출력하는 장치로, 기 정의된 발성 스타일에 따른 음성만이 사용자에게 제공되게 된다.

최근 음성 시스템 분야의 점진적인 발전에 힘입어 지능형 로봇 서비스의 개발에 따른 에이전트와의 대화 및 개인통신매체를 통한 음성 메시지 등, 보다 부드러운 음성의 사용이 많이 필요해지고 있다. 즉, 같은 메시지를 전달함에 있어서도 대화 상황이나 대화 상대자에 대한 태도, 대화의 목적에 따라 듣는 이에 대한 친밀감의 정도가 달리 나타나게 되므로, 대화체 음성에서는 다양한 발성 스타일이 요구되고 있다.

그러나 현재 사용되고 있는 음성합성 장치는 하나의 발성 스타일을 통한 합성음만을 사용하고 있기 때문에 다양한 감정표현이 필요한 대화 문장에서는 이용에 어려움이 있다.

이와 같은 요구를 해소하기 위해 단순하게는 소정 화자의 다양한 스타일의 발성이 섞여 있는 음성정보를 데이터 베이스화하여 사용할 수 있으나, 다양한 발화 스타일에 따른 고려없이 데이터 베이스화된 음성정보만을 사용하게 되면, 음성 합성과정에서 일정하지 않은 스타일의 합성음이 무작위로 섞여서 합성음이 생성되게 되는 문제가 발생될 것이다.

따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 음성합성 시스템에서 합성음의 친밀도를 조절하여 다양한 스타일의 합성음을 생성하는 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적은 발성 스타일에 있어서 구분의 한 기준으로 친밀도라는 기준을 설정하여 합성음의 생성에서 친밀도의 조절을 가능하게 하는 음성합성 장치 및 방법을 제공하는데 있다.

본 발명의 또 다른 목적은 단일 화자의 음성정보를 갖는 데이터 베이스를 가지고 다양한 스타일의 음성을 자연스럽게 구현하는 음성합성 장치 및 방법을 제공하는데 있다.

본 발명의 또 다른 목적은 다양한 스타일의 음성을 구현함으로서, 답변음성을 보다 생동감 있고, 대화 내용이나 대화 상황에 맞게 표현하는 음성합성 장치 및 방법을 제공하는데 있다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 발화스타일 조절을 위한 운율모델 생성 방법의 특징은 친밀도의 레벨을 정의하는 단계와, 상기 정의된 친밀도 레벨 각각에 상응하여 구성된 텍스트를 녹음한 음성들을 저장하는 단계와, 상기 저장된 각 음성 데이터에 대해 문말 억양(sentence final intonation contour)의 유형, 문장 내의 주요 억양구(intonation phrase) 경계의 억양 유형 및 문장의 피 치(F₀) 평균값 중 적어도 하나 이상을 통계적으로 모델링하여 각 친밀도에 따른 운율적 특성을 추출하는 단계와, 상기 추출된 상기 운율적 특성을 기반으로 친밀도 레벨별 운율모델을 생성하는 단계를 포함하는 것을 특징으로 한다.

바람직하게 상기 운율모델은 화행 및 문장형식 정보와, 운율정보로 이루어지는 것을 특징으로 한다.

바람직하게 상기 화행 및 문장형식 정보는 '대화 시작(opening)', '정보요청(request-information)', '정보전달(give-information)', '행위요청(request-action)', '대화종료(closing)' 중 적어도 하나 이상으로 이루어지는 것을 특징으로 한다.

바람직하게 상기 ‘정보요청’은 문장 형식에 따라 의문사 의문문(wh-question)과 가부판정 의문문(yes-no question) 중 적어도 하나로 이루어지는 것을 특징으로 한다.

바람직하게 상기 운율정보는 상기 운율정보는 적어도 두 레벨 이상의 친밀도로 구분하여 상기 입력문장 각각에 대한 문장의 피치(F₀)값 및 문말 및 억양구의 억양 유형값으로 이루어지는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 발화스타일 조절을 위한 음성합성 방법의 특징은 친밀도 레벨이 마크업된 문장을 수신하는 단계와, 상기 문장의 친밀도 레벨에 기반하여 운율모델을 선택하는 단계와, 상기 선택된 운율모델에 기반하여 친밀도별 음성들로 기 저장된 합성단위 DB에서 필요한 음편을 검출하 고 요구된 친밀도 레벨을 갖는 합성음을 생성하는 단계를 포함하는데 있다.

바람직하게 상기 합성단위 DB는 정의된 친밀도 레벨별로 화행(speech act)이나 문형(sentence type), 종결어미(sentence final verbal-ending) 중 적어도 하나가 포함된 텍스트 데이터가 친밀도별 스타일로 발성된 것을 녹음하여 형성되는 것을 특징으로 한다.

바람직하게 상기 합성음을 생성하는 단계는 상기 생성된 운율모델에 기반한 문장의 텍스트 정보를 입력 파라미터로 이용하여 합성단위 DB에서 해당 친밀도의 운율이 구현된 해당 음편(speech segment)을 추출하는 단계와, 상기 추출된 해당 음편을 합성하는 단계를 포함하는 것을 특징으로 한다.

바람직하게 상기 합성단위 DB에서 해당 음편을 검출하는 단계는 전체 합성음 또는 특정 화행이나 특정 내용의 문장에 대해서 선택적인 친밀도를 갖는 음편을 검출하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 발화스타일 조절을 위한 음성합성 장치의 특징은 입력문장의 텍스트 정보 및 친밀도 레벨에 기반하여 운율적 특성별로 운율모델들이 저장된 운율모델과, 친밀도 레벨별 음성 스타일의 음편들을 저장하는 합성단위 DB와, 상기 운율모델에서 선택된 운율모델에 기반하여 상기 합성단위 DB에서 해당 음편(speech segment)을 검출하여 요구된 친밀도 레벨이 적용된 합성음을 생성하는 합성음 생성기를 포함하는 것을 특징으로 한다.

본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시 예들의 상세한 설명을 통해 명백해질 것이다.

본 발명에 따른 발화스타일 조절을 위한 운율모델 생성 방법 및 이를 이용한 대화체 음성합성 장치 및 방법의 바람직한 실시 예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.

도 1 은 본 발명에 따른 운율모델 생성 방법을 나타낸 흐름도이다.

도 1을 참조하여 설명하면, 먼저 나타낼 친밀도의 레벨을 정의한다(S10). 이때 상기 친밀도의 레벨은 개발자의 의도에 따라 정의되며, 가장 기본적으로는 두 레벨부터 시작하여 그 이상으로 나누는 것이 바람직하다.

이렇게 레벨별 친밀도로 나누어진 각 레벨에 대해 다양한 화행(speech act)과 문장형식(sentence type), 종결어미(sentence final verbal-ending)가 포함된 텍스트 데이터를 구성하여 이를 적어도 1명 이상의 성우들에게 정의된 다른 친밀도의 스타일로 발성하도록 하고 이를 녹음한다(S20).

이렇게 녹음된 각 데이터에 대해 화행이나 문장형식, 혹은 종결어미의 형태에 따라 문말 억양(sentence final intonation contour)의 유형과, 문장 내의 주요 억양구(intonation phrase) 경계의 억양 유형, 그리고 문장 시작 또는 문장전체의 피치(F₀) 평균값 등을 통계적으로 모델링하여 각 친밀도에 따른 운율적 특성을 추출한다(S30).

이렇게 추출된 상기 운율적 특성을 기반으로 레벨별 친밀도가 적용된 운율 모델들을 생성한다(S40).

도 2 는 본 발명에 따른 대화체 음성합성 방법에서 운율모델을 생성하기 위 해 녹음되는 문장 및 추출된 운율 정보를 나타낸 실시예로서, 화행 및 문장형식에 따른 분류와, 각 화행 및 문장형식에 해당하는 문장에 따른 분류와, 레벨별 친밀도 데이터에서 추출된 운율적 특성에 따른 분류로 구분되고 이를 통해 운율모델을 생성하게 된다.

도 2를 참조하여 상세히 설명하면, 상기 화행 및 문장형식에 따라 분류는 첫 번째 열에 구성된다.

이때, 상기 화행은 문장을 그 표면적 형식이 아닌 기능에 따라 분류하는 것으로 화자가 의도하는 바가 무엇인가 하는 것이 그 분류의 기준이다. 이 화행은 도 2에 보이듯이 '대화 시작(opening)', '정보요청(request-information)', '정보전달(give-information)', '행위요청(request-action)', '대화종료(closing)' 등으로 나눌 수 있다. 이중에서 ‘정보요청’은 다시 그 문장 형식에 따라 의문사 의문문(wh-question)과 가부판정 의문문(yes-no question), 그리고 기타 형식으로 구분된다.

다음으로 각 화행 및 문장형식에 해당하는 문장에 따른 분류는 두 번째 열에 구성된다. 이는 화행 및 문장형식에서 의도하는 질의 등에 따라 쓰일 수 있는 텍스트 형태의 문장들로 이루어진다.

그리고 레벨별 친밀도 데이터에서 추출된 운율적 특성에 따른 분류는 세 번째 열에 구성된다.

상기 운율적 특성에 따른 분류는 먼저, 친밀감이 나타난 스타일과 나타나지 않은 스타일로 나누어 두 레벨의 친밀도로 구분한다. 여기서 ‘+friendly'는 친밀 감 있는 음성데이터를 나타내고, '-friendly'는 친밀감이 나타나지 않은 음성데이터를 나타낸다. 그리고 각각에 데이터의 문장에 대해 문장 시작의 피치(F₀)값과 수동태깅된 문말 억양의 유형이 나타나 있다.

도 2에 보이듯이 ‘+friendly'의 데이터에서는 문장 시작의 음의 피치(F₀)값이 ‘-friendly'의 데이터보다 높게 나타났으며, 문말억양에는 ‘H'로 표시되는 상승조(rising tone)의 억양이 많이 나타난다. 이러한 운율 특성을 통계적으로 모델링하여 각 친밀도의 합성음을 위한 운율모델을 생성한다.

이와 같이 생성되는 운율모델을 이용한 대화체 음성합성 장치 및 방법의 바람직한 실시 예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.

도 3 은 본 발명에 따른 친밀도 조절 대화체 음성합성 장치를 나타낸 도면이다.

도 3을 참조하여 설명하면, 입력문장의 텍스트 정보 및 친밀도 레벨에 기반하여 운율적 특성별로 운율모델들이 저장된 운율모델(10)과, 모든 친밀도 레벨의 음성을 표현하는데 필요한 음편들을 저장하는 합성단위 DB(20)와, 상기 운율모델(10)에서 선택된 운율모델에 기반하여 상기 합성단위 DB(20)에서 해당 음편(speech segment)을 검출하여 요구된 친밀도 레벨이 적용된 합성음을 생성하는 합성음 생성기(30)로 구성된다.

이와 같이 구성된 본 발명에 따른 음성합성 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.

도 4 는 본 발명에 따른 대화체 음성합성 방법을 나타낸 흐름도이다.

도 4를 참조하여 설명하면, 먼저 마크업 언어(markup language)를 사용하여 친밀도 레벨이 마크업된 입력문장이 입력된다(S100).

본 발명에 따른 친밀도가 마크업된 텍스트 입력문장의 실시 예를 도 5에서 도시하고 있다. 이 실시 예에서는 화자가 상담원이냐, 고객이냐에 따라 친밀도를 달리하여 마크업되어 있다.

이때, 사용되는 마크업 언어는 기존에 문장정보를 나타내기 위해 기호로 표기하는 마크업 방법으로, 본 발명에서는 이 마크업을 친밀도에 따라 레벨별로 분류하는데 이용한다. 이때, 상기 마크업하는 방법은 기존과 동일한 방법이며, 본 발명에서 기술하고 있는 합성시스템과는 별개의 시스템에서 행해지는 기술로 이에 대한 상세한 설명은 생략한다.

이어, 이렇게 복수의 레벨별로 분류되어 마크업된 입력문장이 입력되면 상기 입력문장의 텍스트 정보 및 레벨별 친밀도에 기반하여 해당되는 운율모델을 선택한다(S200).

그리고 상기 생성된 운율모델에 기반하여 입력문장의 텍스트 정보 및 친밀도 정보를 입력 파라미터로 이용함으로서 합성단위 DB(20)에서 해당 음편(speech segment)을 추출한다. 이어, 선택된 음편을 이용하여 해당 친밀도의 운율이 구현된 합성음을 생성한다(S300).

이때, 상기 합성단위 DB(20)는 화행(speech act)이나 문형(sentence type), 종결어미(sentence final verbal-ending) 중 적어도 하나가 포함된 각각의 텍스트 데이터를 서로 다른 친밀도의 스타일로 녹음하여 형성된다. 그리고 자동 또는 수동태깅을 통해 문장의 억양유형을 태깅한다. 따라서, 친밀도 조절의 합성시스템을 위한 상기 합성단위 DB(20)에서는 각 음소의 피치나 지속시간, 에너지 등의 정보 외에 문말 혹은 억양구의 억양 유형 정보가 저장된다.

따라서, 상기 합성 단위 DB(20)에서 추출되는 음편은 상기 운율모델에 기반하여 해당 친밀도를 갖는 합성으로 연결된다.

이에 따라, 해당 친밀도의 구분을 통하여 일정한 스타일의 합성음이 입력 텍스트의 영역이나 합성기의 목적에 따라 상이한 친밀도로 구현되게 된다. 예컨대 지능형 로봇용 대화체 합성기의 경우에는 대화 상대자가 로봇의 주인이 되므로 좀더 친밀한 스타일의 합성음을 생성할 수 있다.

즉, 두 화자 이상의 대화 텍스트의 합성 시에는 각 화자의 음성을 해당 화자의 신분과 발화 내용에 적합한 친밀도로 표현할 수 있다.

또한, 전체 합성음에 대해 친밀도를 선택할 수도 있고, 특정 화행이나 특정 내용의 문장에 대해서 선택적으로 친밀도를 지정하여 합성음을 생성하도록 할 수도 있다.

실 예로 상담 대화의 경우 상담자의 음성은 고객인 피상담자의 음성보다 좀 더 친밀한 스타일로 발성하는 것이 자연스러운데, 친밀도 조절 합성시스템에서는 이러한 발성 스타일의 구분이 가능해진다.

이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시 예를 개시하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한 정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 이것은 한국어의 예에 한정되지 않고 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

이상에서 설명한 바와 같은 본 발명에 따른 음성합성 장치 및 방법은 단일 성우의 음성 DB를 가지고도 여러 가지 스타일의 음성을 구현함으로써 대화 음성을 보다 생동감 있고, 대화 내용이나 대화 상황에 맞게 표현하는 효과를 거둘 수 있다.

또한, 본 발명은 사용되는 언어에 있어서 한국어에 한정되지 않고 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 누구든지 언어의 종류 등에 있어 다양한 변경 실시가 가능하다.

Claims

친밀도의 레벨을 정의하는 단계와,

상기 정의된 친밀도 레벨 각각에 상응하여 구성된 텍스트를 녹음한 음성들을 저장하는 단계와,

상기 저장된 각 음성 데이터에 대해 문말 억양(sentence final intonation contour)의 유형, 문장 내의 주요 억양구(intonation phrase) 경계의 억양 유형 및 문장의 피치(F₀) 평균값 중 적어도 하나 이상을 통계적으로 모델링하여 각 친밀도에 따른 운율적 특성을 추출하는 단계와,

상기 추출된 상기 운율적 특성을 기반으로 친밀도 레벨별 운율모델을 생성하는 단계를 포함하는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
제 1 항에 있어서,

상기 운율모델은 화행 및 문장형식 정보와, 운율정보로 이루어지는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
제 2 항에 있어서,

상기 화행 및 문장형식 정보는 '대화 시작(opening)', '정보요청(request- information)', '정보전달(give-information)', '행위요청(request-action)', '대화종료(closing)' 중 적어도 하나 이상으로 이루어지는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
제 3 항에 있어서,

상기 ‘정보요청’은 문장 형식에 따라 의문사 의문문(wh-question)과 가부판정 의문문(yes-no question) 중 적어도 하나로 이루어지는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
제 2 항에 있어서,

상기 운율정보는 적어도 두 레벨 이상의 친밀도로 구분하여 상기 입력문장 각각에 대한 문장의 피치(F₀)값 및 문말 및 억양구의 억양 유형값으로 이루어지는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
친밀도 레벨이 마크업된 문장을 수신하는 단계와,

상기 문장의 친밀도 레벨에 기반하여 청구항 1의 단계로 운율모델을 선택하는 단계와,

상기 선택된 운율모델에 기반하여 친밀도별 음성들로 기 저장된 합성단위 DB에서 필요한 음편을 검출하고 요구된 친밀도 레벨을 갖는 합성음을 생성하는 단계 를 포함하는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 방법.
제 6 항에 있어서,

상기 합성단위 DB는 정의된 친밀도 레벨별로 화행(speech act)이나 문형(sentence type), 종결어미(sentence final verbal-ending) 중 적어도 하나가 포함된 텍스트 데이터가 친밀도별 스타일로 발성된 것을 녹음하여 형성되는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 방법.
제 6 항에 있어서, 상기 합성음을 생성하는 단계는

상기 생성된 운율모델에 기반한 문장의 텍스트 정보를 입력 파라미터로 이용하여 합성단위 DB에서 해당 친밀도의 운율이 구현된 해당 음편(speech segment)을 추출하는 단계와,

상기 추출된 해당 음편을 합성하는 단계를 포함하는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 방법.
제 6 항에 있어서,

상기 합성단위 DB에서 해당 음편을 검출하는 단계는 전체 합성음 또는 특정 화행이나 특정 내용의 문장에 대해서 선택적인 친밀도를 갖는 음편을 검출하는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 방법.
입력문장의 텍스트 정보 및 친밀도 레벨에 기반하여 운율적 특성별로 운율모델들이 저장된 운율모델과,

친밀도 레벨별 음성 스타일의 음편들을 저장하는 합성단위 DB와,

상기 운율모델에서 선택된 운율모델에 기반하여 상기 합성단위 DB에서 해당 음편(speech segment)을 검출하여 요구된 친밀도 레벨이 적용된 합성음을 생성하는 합성음 생성기를 포함하는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 장치.