KR20120044809A

KR20120044809A - 감성적 음성합성 장치 및 그 방법

Info

Publication number: KR20120044809A
Application number: KR1020100106317A
Authority: KR
Inventors: 박외진; 이세화; 김종희
Original assignee: (주)엠씨에스로직
Priority date: 2010-10-28
Filing date: 2010-10-28
Publication date: 2012-05-08
Also published as: WO2012057562A3; KR101160193B1; EP2634714A2; WO2012057562A2; EP2634714A4; US20130211838A1; JP2013544375A

Abstract

감성적 음성합성 장치 및 그 감성적 음성합성 방법이 개시된다. 본 발명의 실시예에 따른 감성적 음성합성 장치는, 감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장하는 단어사전 저장부; 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성을 분류하여 데이터베이스로 저장하는 음성 DB 저장부; 텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 감성 단어사전에 매칭되는 감성을 추론하는 감성 추론부; 및 추론된 감성에 따라 데이터베이스로부터 문서에 대응하는 음성을 선택하여 출력하는 음성 출력부를 포함하는 것을 특징으로 한다.

Description

감성적 음성합성 장치 및 그 방법{Affect and Voice Compounding Apparatus and Method therefor}

본 발명의 실시예는 감성적 음성합성 장치 및 그 방법에 관한 것이다. 보다 상세하게는, 확률모델 방법을 이용하여 사용자의 감성을 추론하고 추론된 결과에 따라 음성신호를 적응적으로 변화시켜 사용자의 감성이 합성된 음성신호를 출력할 수 있는 감성적 음성합성 장치 및 그 감성적 음성합성 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

최근, 인터넷의 보급은 무선 인터넷으로까지 널리 확장되어 보급되고 있으며, 그에 따라 사용자들은 유선 컴퓨터를 통해서뿐만 아니라, PDA(Personal Digital Assistant), 노트북, 휴대폰, 스마트폰 등과 같은 이동통신 단말기를 이용하여 이동하는 중에도 다른 유선 또는 무선 통신 단말기의 사용자와 통신이 가능하게 되었다. 이와 같은 유선 및 무선 통신은 단순히 음성 신호나 데이터 파일의 교환에 그치지 않고, 메신저를 이용하여 문자로 다른 사용자와 대화를 하거나 자신 또는 다른 통신 사용자의 블로그(Blog)를 방문하여 문자기록 작성, 이미지 또는 동영상 업로드 등의 활동을 통해 온라인상의 새로운 커뮤니티(Community)를 형성하기도 한다.

이와 같이 온라인상에 형성된 커뮤니티 내의 커뮤니케이션 활동 중에는 오프라인에서와 마찬가지로 자신의 감정상태를 다른 사용자에게 표현하거나 다른 사용자의 감정 상태를 추측할 필요가 종종 있다. 이를 위해 온라인상의 커뮤니티 서비스 제공업자들은 다양한 방법으로 사용자의 감정상태를 표현하거나 추측할 수 있도록 하고 있다. 예를 들어, 메신저를 이용한 커뮤니티 서비스 제공업자는 감정상태에 대응하는 다양한 이모티콘 선택메뉴를 제공하며, 사용자가 자신의 감정상태에 따라 이모티콘을 선택할 수 있도록 함으로써 대화창을 통해 사용자의 감정상태가 표시되도록 한다. 또한, 대화창 또는 게시판을 통해 사용자가 입력하는 문장 중에 특정 단어가 있는지를 검색하며 그 특정 단어가 검색되는 경우에는 그에 대응하는 아이콘이 표시되도록 함으로써 문장의 입력에 따른 감정표현이 자동으로 이루어지도록 하기도 한다.

그런데, 인간의 감정은 항상 고정되어 있는 것이 아니라, 상황이나 장소, 분위기 등에 따라 시시각각 변화되는 것이 일반적이며, 이와 같이 상황 또는 환경에 따라 변화되는 감정을 사용자가 매번 이모티콘을 선택하여 변경하기란 상당히 번거로운 일이다.

또한, 감정 또는 느낌은 다분히 개인적인 속성을 가지는데, 이러한 인간의 감정을 좌우하는 심리적인 요인은 크게 놀람, 공포, 혐오, 노여움, 기쁨, 행복, 슬픔 등으로 나누어질 수 있다. 그런데, 동일한 상황에 대해서도 개개인이 느끼는 심리적인 요인은 다를 수 있으며, 표출되는 감성의 강도도 개인에 따라 다양한 차이를 나타낼 수 있다. 그럼에도 불구하고, 사용자가 입력하는 문장에서 특정 단어를 검색하여 획일적으로 표현하는 것은 해당 개인의 현재의 감정상태에 대한 정확한 표현이 되지 못하는 문제점이 있다.

본 발명의 실시예는 전술한 문제점을 해결하기 위하여 창안된 것으로서, 확률모델 방법을 이용하여 사용자의 감성을 추론하고 추론된 결과에 따라 음성신호를 적응적으로 변화시켜 사용자의 감성이 합성된 음성신호를 출력할 수 있는 감성적 음성합성 장치 및 그 감성적 음성합성 방법을 제공하는 것을 목적으로 한다.

전술한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 감성적 음성합성 장치는, 감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장하는 단어사전 저장부; 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성을 분류하여 데이터베이스로 저장하는 음성 DB 저장부; 텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 감성 단어사전에 매칭되는 감성을 추론하는 감성 추론부; 및 추론된 감성에 따라 데이터베이스로부터 문서에 대응하는 음성을 선택하여 출력하는 음성 출력부를 포함하는 것을 특징으로 한다.

여기서, 음성 DB 저장부는, 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성의 운율을 분류하여 데이터베이스로 저장할 수 있다.

전술한 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 감성적 음성합성 장치는, 감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장하는 단어사전 저장부; 감성 단어의 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나에 대응하는 감성 TOBI(TOnes and Break Indices: 운율 전사 규약)를 데이터베이스로 저장하는 감성 TOBI 저장부; 텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 감성 단어사전에 매칭되는 감성을 추론하는 감성 추론부; 및 추론된 감성에 대응하는 감성 TOBI에 기초하여 문서를 음성신호로 변환하여 출력하는 음성 변환부를 포함하는 것을 특징으로 한다.

여기서, 음성 변환부는, HMM(Hidden Markov Models), CART(Classification and Regression Trees), SSL(Stacked Sequential Learning) 방법 중의 적어도 하나를 이용하여 운율 경계를 추정할 수 있다.

전술한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 감성적 음성합성 방법은, 감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장하는 단계; 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성을 분류하여 데이터베이스로 저장하는 단계; 텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 감성 단어사전에 매칭되는 감성을 추론하는 단계; 및 추론된 감성에 따라 데이터베이스로부터 문서에 대응하는 음성을 선택하여 출력하는 단계를 포함하는 것을 특징으로 한다.

여기서, 음성 데이터베이스 저장단계는, 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성의 운율을 분류하여 데이터베이스로 저장할 수 있다.

전술한 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 감성적 음성합성 방법은, 감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장하는 단계; 감성 단어의 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나에 대응하는 감성 TOBI(TOnes and Break Indices: 운율 전사 규약)를 데이터베이스로 저장하는 단계; 텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 감성 단어사전에 매칭되는 감성을 추론하는 단계; 및 추론된 감성에 대응하는 감성 TOBI에 기초하여 문서를 음성신호로 변환하여 출력하는 단계를 포함하는 것을 특징으로 한다.

여기서, 음성 변환단계는, HMM(Hidden Markov Models), CART(Classification and Regression Trees), SSL(Stacked Sequential Learning) 방법 중의 적어도 하나를 이용하여 운율 경계를 추정할 수 있다.

본 발명의 실시예에 따르면, 감성적 음성합성 장치 및 그 감성적 음성합성 방법은, 확률모델 방법을 이용하여 사용자의 감성을 추론하고 추론된 결과에 따라 음성신호를 적응적으로 변화시켜 사용자의 감성이 합성된 음성신호를 출력할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 감성적 음성합성 장치를 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 감성 단어사전의 예를 나타낸 도면이다.
도 3은 도 1의 감성 추론모듈의 구성의 예를 나타낸 도면이다.
도 4는 도 3의 감성로그 저장부에 의한 감성 로그정보의 예를 나타낸 도면이다.
도 5는 본 발명의 다른 실시예에 따른 감성적 음성합성 장치를 개략적으로 도시한 도면이다.
도 6은 본 발명의 실시예에 이용되는 TTS 시스템의 구성 예를 나타낸 도면이다.
도 7은 음소열-발음열 정렬의 예를 나타낸 도면이다.
도 8은 생성된 규칙 트리의 예를 나타낸 도면이다.
도 9는 운율 경계 추정에 사용된 자질들의 예를 나타낸 도면이다.
도 10은 톤 추정에 사용된 자질들의 예를 나타낸 도면이다.
도 11은 본 발명의 일 실시예에 따른 감성적 음성합성 방법을 나타낸 흐름도이다.
도 12는 본 발명의 다른 실시예에 따른 감성적 음성합성 방법을 나타낸 흐름도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 감성적 음성합성 장치를 개략적으로 도시한 도면이다. 도면을 참조하면, 본 발명의 일 실시예에 따른 감성적 음성합성 장치(100)는 단어사전 저장부(110), 음성 DB 저장부(120), 감성 추론부(130) 및 음성 출력부(140)를 포함한다. 여기서, 감성적 음성합성 장치(100)는 네트워크(도시하지 않음)를 통해 컴퓨터, 스마트 폰 등과 같은 사용자 통신 단말기(도시하지 않음)와 데이터를 송수신하며, 그에 따라 감성적 음성합성 서비스를 제공하는 서버로 구현될 수 있으며, 전술한 각각의 구성요소를 구비한 전자기기로 구현될 수도 있다. 또한, 감성적 음성합성 장치(100)가 서버의 형태로 구현되는 경우, 전술한 각각의 구성요소는 각각 독립적인 서버로 구현되어 상호작용을 수행하거나, 하나의 서버 내에 설치되어 상호작용을 수행할 수도 있다.

단어사전 저장부(110)는 감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장한다. 감성은 자극이나 자극의 변화를 느끼는 성질로서, 놀람, 공포, 혐오, 노여움, 기쁨, 행복, 슬픔 등과 같은 심리적인 요인에 의해 좌우된다. 그런데, 동일한 자극에 대해서도 개인마다 느끼는 감성이 다를 수 있으며, 감성의 강도 또한 다를 수 있다. 이와 같은 성질을 감안하여 단어사전 저장부(110)는 행복하다, 창피하다, 허탈하다 등과 같은 감성단어에 대하여 각각의 감성 클래스를 분류하며, 분류된 감성 클래스에 대한 유사성, 긍정 또는 부정도, 감성 강도 등을 분류하여 감성 단어사전으로 저장한다. 여기서, 감성 클래스는 만족, 그리움, 행복 등과 같은 인간의 내적 감정상태들을 분류한 것으로서 본 발명의 실시예에서는 전체 77개의 감성 클래스로 분류하고 그 중, 해당 단어가 속하는 감성 클래스를 매칭시킬 수 있다. 여기서, 감성 클래스의 개수는 분류 가능한 감성의 종류의 예시일 뿐이며, 이에 한정되는 것은 아니다. 유사성은 해당 단어와 감성 클래스 내의 항목 간의 유사도를 나타내는 것으로서 일정한 범위 내의 수치로 표현할 수 있다. 긍정 또는 부정도는 해당 단어의 속성이 긍정적인 감성인지 또는 부정적인 감성인지를 나타내는 정도로서 0을 기준으로 일정한 범위 내의 음의 수 또는 양의 수로 표현할 수 있다. 감성 강도는 해당 단어의 속성 중 감성에 대한 세기를 나타내며, 일정한 범위 내의 수치로 표현할 수 있다. 도 2는 본 발명의 실시예에 따른 감성 단어사전의 예를 나타낸 도면으로서, 여기서는 유사성은 0 내지 10의 범위 내의 수치로 표현하였으며, 긍정 또는 부정도는 0, 1 또는 -1로 표현하였고, 감성 강도는 0 내지 10의 수치로 표현하였다. 그러나, 이와 같은 수치는 도시한 범위에 한정되는 것이 아니며 다양한 변형이 가능하다. 예를 들어, 긍정 또는 부정도는 -1 내지 1의 범위 내에서 0.1 단위의 수치로 표현될 수 있으며, 유사성이나 감성 강도 또한 0 내지 1의 범위 내에서 0.1 단위의 수치로 표현될 수도 있다. 또한, 도 2의 간지럽다, 따뜻하다, 뭉클하다 등과 같이 감성단어 저장부(110)는 동일한 감성 단어에 대하여 복수의 감성 클래스를 분류할 수 있으며, 이 경우 분류된 각각의 감성 클래스에 대하여 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 분류하여 감성 단어사전으로 저장할 수 있다. 또한, 동일한 감성단어라고 하더라도 사용자별로 로그되는 문장의 입력시간, 장소, 날씨 중 적어도 하나를 포함하는 환경정보에 따라 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도가 달라지거나, 사용자별 성별, 나이, 성격, 직업을 포함하는 프로파일 정보에 따라 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도가 달라질 수 있는데, 사용자별 환경정보 및 프로파일 정보를 고려하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나가 다르게 추론되는 경우에는 사용자별 감성 로그정보에 기초하여 사용자별 감성 단어사전을 설정하여 저장할 수도 있다.

음성 DB 저장부(120)는 단어사전 저장부(110)에 저장된 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성을 분류하여 데이터베이스로 저장한다. 이때, 음성 DB 저장부(120)는 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성의 운율을 분류하여 데이터베이스로 저장할 수 있다. 즉, 음성 DB 저장부(120)는 동일한 감성 단어에 대해서도 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성의 운율을 다르게 분류하여 데이터베이스로 저장할 수 있다. 여기서 운율은 음성 중에서 발화(發話) 내용을 나타내는 음운 정보 이외의 억양(intonation)이나 강세(accent) 등을 말하며, 소리의 크기(에너지), 소리의 높이(주파수), 소리의 길이(지속 시간)에 의해 제어될 수 있다.

감성 추론부(130)는 텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 감성 단어사전에 매칭되는 감성을 추론한다. 즉, 감성 추론부(130)는 문서편집 프로그램으로 작성된 문서파일이나, 전자매체에 기록되어 서적처럼 이용할 수 있는 디지털 도서 내의 각 단어, 구문, 문장들로부터 감성 단어사전에 매칭되는 감성을 추론한다. 이와 같은 감성 추론부(130)는 도 3에 도시한 바와 같은 감성 추론모듈(300)에 의해 구현될 수도 있다.

도 3은 도 1의 감성 추론모듈의 구성을 개략적으로 도시한 도면이다. 이하에서는 감성 추론모듈(300)이 감성적 음성합성 장치(100)의 감성 추론부(130)로 사용된 경우를 가정하여 설명한다.

도 3을 참조하면, 감성 추론모듈(300)은 문장 변환부(310), 매칭 확인부(320), 감성 추론부(330), 감성로그 저장부(340) 및 로그정보 검색부(350)를 포함할 수 있다.

문장 변환부(310)는 텍스트, 이북(E-Book) 등과 같은 문서의 각 단어, 구문, 문장에 대하여 단어와 구문을 파악하여 기본형으로 변환한다. 즉, 문장 변환부(310)는 설정된 문서에 대하여 1차적으로 복수의 단어로 분절한 후 기본형으로 변환할 수 있으며, 분절된 단어들 중 관용적으로 사용되는 단어와 단어의 조합을 통해 구문을 파악한 후 기본형으로 변환할 수 있다.

매칭 확인부(320)는 문장 변환부(310)에 의해 변환된 각각의 단어 및 구문을 단어사전 저장서버(110)에 저장된 감성 단어사전과 비교하여 매칭되는 단어 또는 구문을 확인한다.

감성 추론부(330)는 변환된 단어 및 구문의 상호 존재(Co-occurrence)에 기초하여 확률 모델(Probabilistic model)을 적용하며, 적용된 확률 모델에 따라 감성을 추론할 수 있다. 예를 들어, 문장 변환부(310)에 의해 기본형으로 변환된 단어 중 '벅차다'라는 단어가 감성 단어사전의 '감동'의 감성 클래스와 매칭된다고 가정하면, 감성 추론부(330)는 '벅차다'라는 단어와 기본형으로 변환된 다른 단어 또는 구문의 조합에 기초하여 확률 모델을 적용하고, 적용된 확률 모델에 따라 감성을 추론할 수 있다. 여기서, 확률 모델은 전체 코퍼스(corpus)에서 특정 단어 또는 구문의 빈도수를 이용하여 특정 감성에 속할 확률을 계산하는 알고리즘으로서, 이를 바탕으로 새로운 단어가 특정 감성에 속할 확률을 계산할 수 있다. 예를 들어, 수학식 1에 나타낸 바와 같이 코퍼스 내에서 새로운 단어 W의 전체 빈도수에 대한 코퍼스 내의 문장에서 새로운 단어 W와 특정 감성 C가 조합으로 사용된 빈도수를 계산하여 새로운 단어에 대한 감성 유사도를 유추할 수 있다.

[수학식 1]

또한, 단어 유사도(Co-occurrence similarity)를 구하기 위하여 PMI(Pointwise Mutual Information)를 이용할 수 있다. 이때, PMI는 수학식 2와 같이 계산될 수 있다.

[수학식 2]

PMI와 유사한 식으로 Dice 계수 Dice(W,C)를 이용할 수도 있다.

[수학식 3]

감성 유사도를 유추하는 계산식은 제시된 식에 한정되는 것은 아니며, 다양한 변형이 가능하다.

감성 추론부(330)는 이와 같은 방식으로 < 단어 + 단어 >, < 단어 + 구문 > 및 < 구문 + 구문 >에 대한 감성을 추론한 후, 추론한 각각의 감성을 조합하여 문장 전체에 대한 감성을 추론할 수도 있다.

감성로그 저장부(340)는 매칭 확인부(320)에 의해 확인된 단어 또는 구문에 기초하여 단어 및 단어, 단어 및 구문, 구문 및 구문을 포함하는 형태의 감성 로그를 저장할 수 있다. 즉, 감성로그 저장부(340)는 새로운 단어에 대한 감성 유추를 위해 사용자에 의해 로그되는 문장들을 의미있는 단어 및 단어, 단어 및 구문, 구문 및 구문의 조합으로 저장할 수 있다. 예를 들어, 감성로그 저장부(110)는 매칭 확인부(320)에 의해 "사랑함"이라는 감성을 가지는 것으로 확인된 "사랑하다"라는 기본형의 단어를, 문장 내의 감성이 없는 단어인 "완소" 및 "친구"와 각각 결합하여 <완소-사랑하다>, <친구-사랑하다>의 2개의 감성 로그를 생성하여 저장할 수 있다. 이때, 감성 로그는 도 4에 도시한 바와 같이, 시간정보를 함께 저장할 수 있다. 이때, 감성 로그정보와 함께 저장되는 정보는 시간정보에 한정되지 않으며, 날씨 정보, 사용자의 위치정보 등이 함께 저장될 수도 있다.

로그정보 검색부(350)는 감성로그 저장부(340)에 저장된 로그정보에 대하여 설정된 값 이상이 되는 로그정보가 있는지 여부를 검색할 수 있다. 즉, 로그정보 검색부(350)는 감성로그 저장부(340)에 저장된 로그정보들의 횟수가 설정된 값 이상이 되었는지를 검색한다. 이때, 감성 추론부(330)는 로그정보 검색부(350)를 통해 특정 단어 또는 구문이 감성로그 저장부(340)에 설정된 횟수 이상으로 저장된 경우에만 해당 단어 또는 구문과 조합된 구문 또는 문장에 대해서 감성을 추론하도록 구현될 수 있다.

다시 도 1을 참조하면, 음성 출력부(140)는 추론된 감성에 따라 음성 DB 저장부(120)에 저장된 데이터베이스로부터 문서에 대응하는 음성을 선택하여 출력한다. 즉, 음성 출력부(140)는 음성 DB 저장부(120)에 저장된 데이터베이스로부터 감성 추론부(130)에 의해 추론된 감성과 일치하는 감성의 음성을 선택하여 추출한다.

이로써, 본 발명의 일 실시예에 따른 감성적 음성합성 장치(100)는 감성 단어에 대응하는 다양한 운율을 갖는 음성을 데이터베이스로 저장하고, 문서로부터 추론된 감성에 따라 데이터베이스로부터 대응하는 음성을 선택하여 출력함으로써 문서에 대응하는 음성에 감성을 합성하여 표현할 수 있게 된다.

도 5는 본 발명의 다른 실시예에 따른 감성적 음성합성 장치를 개략적으로 도시한 도면이다. 도 5를 참조하면, 본 발명의 다른 실시예에 따른 감성적 음성합성 장치(500)는 단어사전 저장부(510), 감성 TOBI(TOnes and Break Indices: 운율 전사 규약) 저장부(520), 감성 추론부(530) 및 음성 변환부(540)를 포함할 수 있다. 여기서, 단어사전 저장부(510) 및 감성 추론부(530)는 도 1의 단어사전 저장부(110) 및 감성 추론부(130)와 그 구성 및 기능이 동일하므로, 이하에서는 그 상세한 설명을 생략한다.

감성 TOBI 저장부(520)는 감성 단어의 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나에 대응하는 감성 TOBI를 데이터베이스로 저장한다.

일반적인 문서-음성 변환(TTS: Text-To-Speech) 시스템의 구성은 크게 자연어 처리부, 음소/운소 추출부, 신호 처리부로 나뉠 수 있다. 자연어 처리부에서는 형태소 분석, 구문 분석을 통해 음소/운소 추출부에서 사용할 기본적인 정보를 제공하는 부분이다. 음소/운소 추출부에서는 자연어 처리부의 기초적 정보를 바탕으로 입력문서를 발음형태와 음소/운소 추출부에서 사용할 정보를 생성하는 작업을 한다. 즉, 형태소 분석 및 구문분석 등을 통해 알파벳이나 숫자, 기호 등을 정확한 한글형태로 변환하고, 다양한 음운변화를 고려한 발음선택을 한다. 또한 운율경계를 추정하고, 신호 처리부의 입력으로 사용되는 다양한 파라미터를 추정하게 된다. 마지막으로 신호 처리부에서는 상위에서 추출된 파라미터를 이용하여 음성을 복원해내는 작업을 한다. 이 중에서 운율처리부는 신호 처리부에서 사용될 억양의 물리학적 신호인 FO 궤적(Fundamental Frequency Contour)이생성되는 부분으로 이 정보는 합성음의 자연성과 이해도를 향상시키는 중요한 역할을 한다. 음성에 있어서 운율이란 피치, 음성의 크기, 음절의 길이 등의 음성학적 변화 측면의 신호적인 특징을 의미한다.

여기서 화속(speech rate)이나 리듬(rhythm) 등과 같은 시간적인 특징을 포함시키기도 한다. 일반적으로 운율은 일련의 억양구의 연속으로 이루어져 있다고 생각하고, 운율처리의 출발은 이 억양구의 추출에서 시작된다. 추출된 억양구는 다양한 모델링 방법을 통해 물리적 신호인 FO 궤적으로 변화되게 된다.

한국어 TTS 시스템의 경우, 대량의 낭독체 말뭉치를 이용한 연결(concatenation) 기반의 방법론이 주를 이룬다. 낭독체 말뭉치의 특징인 일정하고 안정된 목소리는 합성 데이터베이스와 동일한 도메인에 해당하는 입력에 대해서 합성 음질의 우수함을 보장해 줄 뿐만 아니라, 도메인을 벗어난 사람이름이나 지명과 같은 고유명사의 합성에도 강건하다는 것이 특징이다. 하지만, 낭독체 합성음성을 대화체 음성이 필요한 로봇 등의 안내 시스템에 적용하기에는 부자연스러운 측면이 있다. 따라서, 합성 음성이 합성 DB의 성격을 잘 따르도록 하기 위해서는, 합성 DB 음성 파일의 발음 전사(transcription)를 훈련 대상으로 하는 음소열-발음열 변환 모델이 필수적이다.

대화체는 낭독체에 비해서 다양한 운율을 잘 표현할 수 있어야 한다. 이를 위해서는 충분히 많은 양의 음성 DB가 있거나, 제한된 음성 DB에서 만들어진 합성음의 높이, 세기, 길이 등에 수정을 가해야 한다.

도 6은 본 발명의 실시예에 이용되는 TTS 시스템의 구성 예를 나타낸 도면이다. 먼저 좌측의 발음 추정모델, 운율 추정모델, 합성단위 DB는 오프라인상에서 만들어진다. 발음 추정모델은 음성 DB의 발음 전사를 기반으로 훈련되며, 운율 추정모델은 수동으로 태깅된 TOBI로 훈련된다. 합성단위 DB는 음성 파일로부터 추출된 피치, 길이, 세기, MFCC(Mel Frequency Cepstral Coefficient) 13차 계수와 수동으로 태깅된 TOBI 및발음 전사 등의 정보를 담고 있다. 여기서 TOBI 레이블링 시스템은 영어에 기반한 운율 레이블링 시스템으로 1992년 소개 되었고, 이후 많은 언어권에서 TOBI 레이블링 시스템이 개발되었다.

K-TOBI 레이블링 시스템은 영어권의 TOBI와 일본어의 J-TOBI에 기반해서 개발되었으며, 4개의 층(tier)으로 구성되어 있다. 각 층인 이벤트가 발생한 시간과 기호로 이루어져 있으며, FO 궤적의 표현은 초기 톤(initial tone)과 강세 톤(accentual tone), 경계 톤(boundary tone)으로 구성되어 있다. K-TOBI의 모델링의 구조는 억양구와 강세구 두 개의 운율 단위로 이루어져 있으며, 억양구는 하나 이상의 강세구로 구성되고, 마지막의 톤 변화를 의미하는 'H%', 'L%' 등의 기호로 표현된다. 강세구의 시작부분에 'H-'가 올 수 있으며, 강세구의 마지막 부분은 'Lha'로 구성된다. 또한 끊어 읽는 정도에 따라 '0'부터 '3'까지의 브레이크 인덱스가 있다. '0'은 연음을 의미하고 '3'은 끊어 읽기가 가장 뚜렷한 곳을 나타내는 기호이다. 이 네 가지 인덱스 중에서 '2'는 강세구의 경계가 시작되고, '3'은 억양구의 경계를 의미한다. 나머지 두 개의 층은 어절의 경계를 표시하는 단어층(word tier)과 숨소리나 웃음 등 기타 다른 정보를 표시하는 기타층(miscellaneous tier)이다. 감성 TOBI 저장부(520)는 이와 같은 TOBI의 각각에 감성 단어의 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 대응시켜 저장할 수 있다.

도 6에서 우측은 합성과정을 순서대로 도시한 것이다 입력으로 들어온 문자열은 전처리기를 통해 시스템이 처리할 수 있는 형태의 내부 구조로 바뀐다. 앞서 만든 모델을 이용하여 발음과 운율을 추정하고, 추정된 결과를 바탕으로 가장 유사한 트라이폰(triphone) 합성단위를 선택하게 된다. 선택된 합성단위는 비용함수(cost function)에 근거한 비터비 탐색(Viterbi search)을 통해 최적의 음성을 합성하는데 사용된다.

전술한 바와 같이, 합성된 음성이 합성 DB의 특성을 따르기 위해서는 합성 DB의 발음 전사로부터 모델을 훈련시키는 것이 바람직하다. 본 발명의 실시예에서는 발음 및 운율을 추정하기 위하여 발음 추정모델을 훈련하기 위한 방법과 훈련된 모델로부터 발음열을 생성하는 방법을 이용할 수 있다.

한국어의 경우, 음절은 초정, 중성, 종성으로 이루어져 있다. 특히, 음소열의 종성이나 발음열의 초성, 종성의 경우 생략될 수 있기 때문에, 도 7과 같이 각 음소를 세 자소(초성, 중성, 종성)로 쪼개어 음소열과 발음열을 정렬할 수 있다. "_" 문자는 생략된 자소를 나타내기 위한 기호이다.

정렬된 음소열과 발음열을 이용하면 수학식 1과 같은 규칙을 생성할 수 있다.

여기서 규칙 r은 왼쪽 문맥 L과 오른쪽 문맥 R을 만족하는 음소열 집합 G가발음열 집합 P로 변환된다는 것을 의미한다. 이때, L과 R의 길이는 가변적이며, G와 P는 자소 또는 "_" 문자로 이루어진 집합이다.

규칙 r은 하나 이상의 후보 발음열 p∈P를 가질 수 있는데, 이는 다음의 수학식 2와 같이 실현확률로 계산되어 도 8의 규칙 트리에 저장된다. 도 8의 "*" 문자와 "+" 문자는 각각 문장 경계와 어절 경계를 의미한다.

발음열은 생성된 규칙 트리를 기반으로 후보 발음열 p 중에서 누적 점수가 가장 높은 후보를 선택함으로써 생성된다. 누적 점수는 다음의 수학식 3과 같이 계산된다.

여기서 W_CL은 좌우 문맥 L'과 R'의 길이에 따른 가중치이며, L'과 R'은 각각 L과 R에 포함되는 문맥이다. 즉, 규칙 L'(G)R' -> P는 규칙 L(G)R -> P의 부모 규칙이거나 자기 자신에 해당한다.

운율을 모델링하기 위해 운율 전사 규약인 한국어 TOBI를 사용할 수 있다. 한국어 TOBI에는 다양한 톤과 경계 색인이 있지만, 본 발명의 실시예에서는 이를 단순화하여 억양 구(Intonational Phrase)의 경계 톤 4가지(L%, H%, HL%, LH%), 악센트 구(Accentual Phrase)의 경계 톤 2가지(La, Ha)와 운율 경계 3가지(B₀-경계없음, B₂-소운율 경계, B₃-대운율 경계)만을 이용할 수 있다.

운율 경계는 문장의 운율 구조를 형성하기 때문에, 잘못 추정되었을 경우 본래 문장이 가지는 의미가 바뀔 수 있으므로 TTS 시스템에서 중요한 부분을 차지한다. 본 발명의 실시예에서는 운율 경계를 HMM(Hidden Markov Models), CART(Classification and Regression Trees), ME(Maximum Entropy)를 기본 학습 방법으로 하는 SSL(Stacked Sequential Learning) 기법 등을 추정에 사용할 수 있다. 추정에 사용된 자질들은 도 9에 나타낸 바와 같다.

낭독체 음성과 대화체 음성은 톤에서 가장 많은 차이를 보인다. 대화체에서는 같은 문장이라도 다양한 톤으로 발음될 수 있는데, 다양한 톤을 반영하기 위해 피치 곡선 전체를 추정하는 것은 어려운 일이다. 설사 피치 곡선을 잘 추정하였다고 하더라도 말뭉치 기반의 TTS 시스템에서는 추정된 피치에 해당하는 합성 단위가 부족하다는 한계가 있다. 본 발명의 실시예에서는 대화체의 다양한 톤 변화가 운율 경계의 마지막 음절에서 주로 일어난다는 점에 착안하여 추정된 운율 경계의 마지막 음절에 대해서만 톤을 추정할 수 있다. 톤의 추정은 CRF(Conditional Random Feilds)를 이용하였으며 사용된 자질은 도 10에 나타낸 바와 같다.

전술한 발음 및 운율 추정방법은 일 예시일 뿐이며, 본 발명의 실시예에서 사용 가능한 발음 및 운율 추정방법이 이에 한정되는 것을 의미하지는 않는다.

다시 도 5에서, 음성 변환부(540)는 추론된 감성에 대응하는 감성 TOBI에 기초하여 문서를 음성신호로 변환하여 출력한다. 즉, 음성 변환부(540)는 감성 추론부(530)에 의해 추론된 감성에 대응하여 감성 TOBI 저장부(520)에 저장된 감성 TOBI를 추출하며, 추출된 감성 TOBI에 따라 문서를 음성신호로 변환하여 출력한다.

이로써, 본 발명의 다른 실시예에 따른 감성적 음성합성 장치(500)는 감성 단어에 대응하는 다양한 감성 TOBI를 데이터베이스로 저장하고, 문서로부터 추론된 감성에 따라 데이터베이스로부터 감성 TOBI를 추출하며, 문서를 추출된 감성 TOBI에 기초하여 음성신호로 변환하여 출력함으로써 문서에 대응하는 음성에 감성을 합성하여 표현할 수 있게 된다.

도 11은 도 1의 감성적 음성합성 장치에 의한 감성적 음성합성 방법을 나타낸 흐름도이다.

도 1 및 도 11을 참조하면, 단어사전 저장부(110)는 감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장한다(S1101). 또한, 음성 DB 저장부(120)는 단어사전 저장부(110)에 저장된 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성을 분류하여 데이터베이스로 저장한다(S1103). 이때, 음성 DB 저장부(120)는 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성의 운율을 분류하여 데이터베이스로 저장할 수 있다. 즉, 음성 DB 저장부(120)는 동일한 감성 단어에 대해서도 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성의 운율을 다르게 분류하여 데이터베이스로 저장할 수 있다.

감성 추론부(130)는 텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 감성 단어사전에 매칭되는 감성을 추론한다(S1105). 즉, 감성 추론부(130)는 문서편집 프로그램으로 작성된 문서파일이나, 전자매체에 기록되어 서적처럼 이용할 수 있는 디지털 도서 내의 각 단어, 구문, 문장들로부터 감성 단어사전에 매칭되는 감성을 추론한다.

음성 출력부(140)는 추론된 감성에 따라 음성 DB 저장부(120)에 저장된 데이터베이스로부터 문서에 대응하는 음성을 선택하여 출력한다(S1107). 즉, 음성 출력부(140)는 음성 DB 저장부(120)에 저장된 데이터베이스로부터 감성 추론부(130)에 의해 추론된 감성과 일치하는 감성의 음성을 선택하여 추출한다.

도 12는 도 5의 감성적 음성합성 장치에 의한 감성적 음성합성 방법을 나타낸 흐름도이다.

도 5 및 도 12를 참조하면, 단어사전 저장부(110)는 감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장한다(S1201). 또한, 감성 TOBI 저장부(520)는 감성 단어의 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나에 대응하는 감성 TOBI를 데이터베이스로 저장한다(S1203).

감성 추론부(530)는 텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 감성 단어사전에 매칭되는 감성을 추론한다(S1205). 즉, 감성 추론부(530)는 문서편집 프로그램으로 작성된 문서파일이나, 전자매체에 기록되어 서적처럼 이용할 수 있는 디지털 도서 내의 각 단어, 구문, 문장들로부터 감성 단어사전에 매칭되는 감성을 추론한다.

음성 변환부(540)는 추론된 감성에 대응하는 감성 TOBI에 기초하여 문서를 음성신호로 변환하여 출력한다(S1207). 즉, 음성 변환부(540)는 감성 추론부(530)에 의해 추론된 감성에 대응하여 감성 TOBI 저장부(520)에 저장된 감성 TOBI를 추출하며, 추출된 감성 TOBI에 따라 문서를 음성신호로 변환하여 출력한다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100, 500: 감성적 음성합성 장치
110, 510: 단어사전 저장부
120: 음성 DB 저장부
130, 530: 감성 추론부
140: 음성 출력부
300: 감성 추론모듈
310: 문장 변환부
320: 매칭 확인부
330: 감성 추론부
340: 감성로그 저장부
350: 로그정보 검색부
520: 감성 TOBI 저장부
540: 음성 변환부

Claims

감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장하는 단어사전 저장부;
상기 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성을 분류하여 데이터베이스로 저장하는 음성 DB 저장부;
텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 상기 감성 단어사전에 매칭되는 감성을 추론하는 감성 추론부; 및
추론된 상기 감성에 따라 상기 데이터베이스로부터 상기 문서에 대응하는 음성을 선택하여 출력하는 음성 출력부
를 포함하는 것을 특징으로 하는 감성적 음성합성 장치.
제 1항에 있어서,
상기 음성 DB 저장부는,
상기 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성의 운율을 분류하여 데이터베이스로 저장하는 것을 특징으로 하는 감성적 음성합성 장치.
감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장하는 단어사전 저장부;
상기 감성 단어의 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나에 대응하는 감성 TOBI(TOnes and Break Indices: 운율 전사 규약)를 데이터베이스로 저장하는 감성 TOBI 저장부;
텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 상기 감성 단어사전에 매칭되는 감성을 추론하는 감성 추론부; 및
추론된 상기 감성에 대응하는 상기 감성 TOBI에 기초하여 상기 문서를 음성신호로 변환하여 출력하는 음성 변환부
를 포함하는 것을 특징으로 하는 감성적 음성합성 장치.
제 3항에 있어서,
상기 음성 변환부는,
HMM(Hidden Markov Models), CART(Classification and Regression Trees), SSL(Stacked Sequential Learning) 방법 중의 적어도 하나를 이용하여 운율 경계를 추정하는 것을 특징으로 하는 감성적 음성합성 장치.
감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장하는 단계;
상기 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성을 분류하여 데이터베이스로 저장하는 단계;
텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 상기 감성 단어사전에 매칭되는 감성을 추론하는 단계; 및
추론된 상기 감성에 따라 상기 데이터베이스로부터 상기 문서에 대응하는 음성을 선택하여 출력하는 단계
를 포함하는 것을 특징으로 하는 감성적 음성합성 방법.
제 5항에 있어서,
상기 음성 데이터베이스 저장단계는,
상기 감성 단어에 대응하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중의 적어도 하나에 따라 음성의 운율을 분류하여 데이터베이스로 저장하는 것을 특징으로 하는 감성적 음성합성 방법.
감성 단어에 대하여 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나를 포함하는 항목으로 분류하여 감성 단어사전으로 저장하는 단계;
상기 감성 단어의 감성 클래스, 유사성, 긍정 또는 부정도, 감성 강도 중 적어도 하나에 대응하는 감성 TOBI(TOnes and Break Indices: 운율 전사 규약)를 데이터베이스로 저장하는 단계;
텍스트, 이북(E-Book)을 포함하는 문서의 각 단어, 구문, 문장 중 적어도 하나에 대하여, 상기 감성 단어사전에 매칭되는 감성을 추론하는 단계; 및
추론된 상기 감성에 대응하는 상기 감성 TOBI에 기초하여 상기 문서를 음성신호로 변환하여 출력하는 단계
를 포함하는 것을 특징으로 하는 감성적 음성합성 방법.
제 7항에 있어서,
상기 음성 변환단계는,
HMM(Hidden Markov Models), CART(Classification and Regression Trees), SSL(Stacked Sequential Learning) 방법 중의 적어도 하나를 이용하여 운율 경계를 추정하는 것을 특징으로 하는 감성적 음성합성 방법.