KR100644814B1 - 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법 - Google Patents

발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법 Download PDF

Info

Publication number
KR100644814B1
KR100644814B1 KR1020050106584A KR20050106584A KR100644814B1 KR 100644814 B1 KR100644814 B1 KR 100644814B1 KR 1020050106584 A KR1020050106584 A KR 1020050106584A KR 20050106584 A KR20050106584 A KR 20050106584A KR 100644814 B1 KR100644814 B1 KR 100644814B1
Authority
KR
South Korea
Prior art keywords
sentence
intimacy
rhyme
speech
information
Prior art date
Application number
KR1020050106584A
Other languages
English (en)
Inventor
오승신
김상훈
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020050106584A priority Critical patent/KR100644814B1/ko
Priority to US11/593,852 priority patent/US7792673B2/en
Application granted granted Critical
Publication of KR100644814B1 publication Critical patent/KR100644814B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성합성 시스템에서 합성음의 친밀도를 조절하여 다양한 스타일의 합성음을 생성하는 장치 및 방법을 제공하기 위한 것으로서, 친밀도의 레벨을 정의하는 단계와, 상기 정의된 친밀도 레벨 각각에 상응하여 구성된 텍스트를 녹음한 음성들을 저장하는 단계와, 상기 저장된 각 음성 데이터에 대해 문말 억양(sentence final intonation contour)의 유형, 문장 내의 주요 억양구(intonation phrase) 경계의 억양 유형 및 문장의 피치(F0) 평균값 중 적어도 하나 이상을 통계적으로 모델링하여 각 친밀도에 따른 운율적 특성을 추출하는 단계와, 상기 추출된 상기 운율적 특성을 기반으로 친밀도 레벨별 운율모델을 생성하는 단계를 포함하며, 이를 이용한 음성합성 방법 및 장치를 제공한다.
음성합성 시스템, 친밀도, 발화 스타일(speech style), 운율(prosody)

Description

발화 스타일 조절을 위한 운율모델 생성 방법 및 이를 이용한 대화체 음성합성 장치 및 방법{formation method of prosody model with speech style control and apparatus of synthesizing text-to-speech using the same and method for}
도 1 은 본 발명에 따른 발화스타일 조절을 위한 운율모델 생성 방법을 나타낸 흐름도.
도 2 는 본 발명에 따른 대화체 음성합성 방법에서 운율모델을 생성하기 위해 녹음되는 문장 및 추출된 운율 정보를 나타낸 실시예.
도 3 은 본 발명에 따른 친밀도 조절 대화체 음성합성 장치를 나타낸 도면.
도 4 는 본 발명에 따른 친밀도 조절 대화체 음성합성 방법을 나타낸 흐름도.
도 5 는 본 발명에 따른 대화체 음성합성 방법에서 마크업 언어를 사용한 입력문장의 실시예.
*도면의 주요부분에 대한 부호의 설명
10 : 운율모델 20 : 합성단위 DB
30 : 합성음 생성기
본 발명은 음성 시스템에 관한 것으로, 특히 음성합성 장치에서 출력되는 합성음의 친밀도를 조절하여 다양한 스타일의 합성음을 생성하는 장치 및 방법에 관한 것이다.
음성합성 장치는 입력된 텍스트로부터 기 저장되어 있는 음성을 단순히 합성하여 출력하는 장치로, 기 정의된 발성 스타일에 따른 음성만이 사용자에게 제공되게 된다.
최근 음성 시스템 분야의 점진적인 발전에 힘입어 지능형 로봇 서비스의 개발에 따른 에이전트와의 대화 및 개인통신매체를 통한 음성 메시지 등, 보다 부드러운 음성의 사용이 많이 필요해지고 있다. 즉, 같은 메시지를 전달함에 있어서도 대화 상황이나 대화 상대자에 대한 태도, 대화의 목적에 따라 듣는 이에 대한 친밀감의 정도가 달리 나타나게 되므로, 대화체 음성에서는 다양한 발성 스타일이 요구되고 있다.
그러나 현재 사용되고 있는 음성합성 장치는 하나의 발성 스타일을 통한 합성음만을 사용하고 있기 때문에 다양한 감정표현이 필요한 대화 문장에서는 이용에 어려움이 있다.
이와 같은 요구를 해소하기 위해 단순하게는 소정 화자의 다양한 스타일의 발성이 섞여 있는 음성정보를 데이터 베이스화하여 사용할 수 있으나, 다양한 발화 스타일에 따른 고려없이 데이터 베이스화된 음성정보만을 사용하게 되면, 음성 합성과정에서 일정하지 않은 스타일의 합성음이 무작위로 섞여서 합성음이 생성되게 되는 문제가 발생될 것이다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 음성합성 시스템에서 합성음의 친밀도를 조절하여 다양한 스타일의 합성음을 생성하는 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 발성 스타일에 있어서 구분의 한 기준으로 친밀도라는 기준을 설정하여 합성음의 생성에서 친밀도의 조절을 가능하게 하는 음성합성 장치 및 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 단일 화자의 음성정보를 갖는 데이터 베이스를 가지고 다양한 스타일의 음성을 자연스럽게 구현하는 음성합성 장치 및 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 다양한 스타일의 음성을 구현함으로서, 답변음성을 보다 생동감 있고, 대화 내용이나 대화 상황에 맞게 표현하는 음성합성 장치 및 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 발화스타일 조절을 위한 운율모델 생성 방법의 특징은 친밀도의 레벨을 정의하는 단계와, 상기 정의된 친밀도 레벨 각각에 상응하여 구성된 텍스트를 녹음한 음성들을 저장하는 단계와, 상기 저장된 각 음성 데이터에 대해 문말 억양(sentence final intonation contour)의 유형, 문장 내의 주요 억양구(intonation phrase) 경계의 억양 유형 및 문장의 피 치(F0) 평균값 중 적어도 하나 이상을 통계적으로 모델링하여 각 친밀도에 따른 운율적 특성을 추출하는 단계와, 상기 추출된 상기 운율적 특성을 기반으로 친밀도 레벨별 운율모델을 생성하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 운율모델은 화행 및 문장형식 정보와, 운율정보로 이루어지는 것을 특징으로 한다.
바람직하게 상기 화행 및 문장형식 정보는 '대화 시작(opening)', '정보요청(request-information)', '정보전달(give-information)', '행위요청(request-action)', '대화종료(closing)' 중 적어도 하나 이상으로 이루어지는 것을 특징으로 한다.
바람직하게 상기 ‘정보요청’은 문장 형식에 따라 의문사 의문문(wh-question)과 가부판정 의문문(yes-no question) 중 적어도 하나로 이루어지는 것을 특징으로 한다.
바람직하게 상기 운율정보는 상기 운율정보는 적어도 두 레벨 이상의 친밀도로 구분하여 상기 입력문장 각각에 대한 문장의 피치(F0)값 및 문말 및 억양구의 억양 유형값으로 이루어지는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 발화스타일 조절을 위한 음성합성 방법의 특징은 친밀도 레벨이 마크업된 문장을 수신하는 단계와, 상기 문장의 친밀도 레벨에 기반하여 운율모델을 선택하는 단계와, 상기 선택된 운율모델에 기반하여 친밀도별 음성들로 기 저장된 합성단위 DB에서 필요한 음편을 검출하 고 요구된 친밀도 레벨을 갖는 합성음을 생성하는 단계를 포함하는데 있다.
바람직하게 상기 합성단위 DB는 정의된 친밀도 레벨별로 화행(speech act)이나 문형(sentence type), 종결어미(sentence final verbal-ending) 중 적어도 하나가 포함된 텍스트 데이터가 친밀도별 스타일로 발성된 것을 녹음하여 형성되는 것을 특징으로 한다.
바람직하게 상기 합성음을 생성하는 단계는 상기 생성된 운율모델에 기반한 문장의 텍스트 정보를 입력 파라미터로 이용하여 합성단위 DB에서 해당 친밀도의 운율이 구현된 해당 음편(speech segment)을 추출하는 단계와, 상기 추출된 해당 음편을 합성하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 합성단위 DB에서 해당 음편을 검출하는 단계는 전체 합성음 또는 특정 화행이나 특정 내용의 문장에 대해서 선택적인 친밀도를 갖는 음편을 검출하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 발화스타일 조절을 위한 음성합성 장치의 특징은 입력문장의 텍스트 정보 및 친밀도 레벨에 기반하여 운율적 특성별로 운율모델들이 저장된 운율모델과, 친밀도 레벨별 음성 스타일의 음편들을 저장하는 합성단위 DB와, 상기 운율모델에서 선택된 운율모델에 기반하여 상기 합성단위 DB에서 해당 음편(speech segment)을 검출하여 요구된 친밀도 레벨이 적용된 합성음을 생성하는 합성음 생성기를 포함하는 것을 특징으로 한다.
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시 예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 발화스타일 조절을 위한 운율모델 생성 방법 및 이를 이용한 대화체 음성합성 장치 및 방법의 바람직한 실시 예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.
도 1 은 본 발명에 따른 운율모델 생성 방법을 나타낸 흐름도이다.
도 1을 참조하여 설명하면, 먼저 나타낼 친밀도의 레벨을 정의한다(S10). 이때 상기 친밀도의 레벨은 개발자의 의도에 따라 정의되며, 가장 기본적으로는 두 레벨부터 시작하여 그 이상으로 나누는 것이 바람직하다.
이렇게 레벨별 친밀도로 나누어진 각 레벨에 대해 다양한 화행(speech act)과 문장형식(sentence type), 종결어미(sentence final verbal-ending)가 포함된 텍스트 데이터를 구성하여 이를 적어도 1명 이상의 성우들에게 정의된 다른 친밀도의 스타일로 발성하도록 하고 이를 녹음한다(S20).
이렇게 녹음된 각 데이터에 대해 화행이나 문장형식, 혹은 종결어미의 형태에 따라 문말 억양(sentence final intonation contour)의 유형과, 문장 내의 주요 억양구(intonation phrase) 경계의 억양 유형, 그리고 문장 시작 또는 문장전체의 피치(F0) 평균값 등을 통계적으로 모델링하여 각 친밀도에 따른 운율적 특성을 추출한다(S30).
이렇게 추출된 상기 운율적 특성을 기반으로 레벨별 친밀도가 적용된 운율 모델들을 생성한다(S40).
도 2 는 본 발명에 따른 대화체 음성합성 방법에서 운율모델을 생성하기 위 해 녹음되는 문장 및 추출된 운율 정보를 나타낸 실시예로서, 화행 및 문장형식에 따른 분류와, 각 화행 및 문장형식에 해당하는 문장에 따른 분류와, 레벨별 친밀도 데이터에서 추출된 운율적 특성에 따른 분류로 구분되고 이를 통해 운율모델을 생성하게 된다.
도 2를 참조하여 상세히 설명하면, 상기 화행 및 문장형식에 따라 분류는 첫 번째 열에 구성된다.
이때, 상기 화행은 문장을 그 표면적 형식이 아닌 기능에 따라 분류하는 것으로 화자가 의도하는 바가 무엇인가 하는 것이 그 분류의 기준이다. 이 화행은 도 2에 보이듯이 '대화 시작(opening)', '정보요청(request-information)', '정보전달(give-information)', '행위요청(request-action)', '대화종료(closing)' 등으로 나눌 수 있다. 이중에서 ‘정보요청’은 다시 그 문장 형식에 따라 의문사 의문문(wh-question)과 가부판정 의문문(yes-no question), 그리고 기타 형식으로 구분된다.
다음으로 각 화행 및 문장형식에 해당하는 문장에 따른 분류는 두 번째 열에 구성된다. 이는 화행 및 문장형식에서 의도하는 질의 등에 따라 쓰일 수 있는 텍스트 형태의 문장들로 이루어진다.
그리고 레벨별 친밀도 데이터에서 추출된 운율적 특성에 따른 분류는 세 번째 열에 구성된다.
상기 운율적 특성에 따른 분류는 먼저, 친밀감이 나타난 스타일과 나타나지 않은 스타일로 나누어 두 레벨의 친밀도로 구분한다. 여기서 ‘+friendly'는 친밀 감 있는 음성데이터를 나타내고, '-friendly'는 친밀감이 나타나지 않은 음성데이터를 나타낸다. 그리고 각각에 데이터의 문장에 대해 문장 시작의 피치(F0)값과 수동태깅된 문말 억양의 유형이 나타나 있다.
도 2에 보이듯이 ‘+friendly'의 데이터에서는 문장 시작의 음의 피치(F0)값이 ‘-friendly'의 데이터보다 높게 나타났으며, 문말억양에는 ‘H'로 표시되는 상승조(rising tone)의 억양이 많이 나타난다. 이러한 운율 특성을 통계적으로 모델링하여 각 친밀도의 합성음을 위한 운율모델을 생성한다.
이와 같이 생성되는 운율모델을 이용한 대화체 음성합성 장치 및 방법의 바람직한 실시 예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.
도 3 은 본 발명에 따른 친밀도 조절 대화체 음성합성 장치를 나타낸 도면이다.
도 3을 참조하여 설명하면, 입력문장의 텍스트 정보 및 친밀도 레벨에 기반하여 운율적 특성별로 운율모델들이 저장된 운율모델(10)과, 모든 친밀도 레벨의 음성을 표현하는데 필요한 음편들을 저장하는 합성단위 DB(20)와, 상기 운율모델(10)에서 선택된 운율모델에 기반하여 상기 합성단위 DB(20)에서 해당 음편(speech segment)을 검출하여 요구된 친밀도 레벨이 적용된 합성음을 생성하는 합성음 생성기(30)로 구성된다.
이와 같이 구성된 본 발명에 따른 음성합성 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
도 4 는 본 발명에 따른 대화체 음성합성 방법을 나타낸 흐름도이다.
도 4를 참조하여 설명하면, 먼저 마크업 언어(markup language)를 사용하여 친밀도 레벨이 마크업된 입력문장이 입력된다(S100).
본 발명에 따른 친밀도가 마크업된 텍스트 입력문장의 실시 예를 도 5에서 도시하고 있다. 이 실시 예에서는 화자가 상담원이냐, 고객이냐에 따라 친밀도를 달리하여 마크업되어 있다.
이때, 사용되는 마크업 언어는 기존에 문장정보를 나타내기 위해 기호로 표기하는 마크업 방법으로, 본 발명에서는 이 마크업을 친밀도에 따라 레벨별로 분류하는데 이용한다. 이때, 상기 마크업하는 방법은 기존과 동일한 방법이며, 본 발명에서 기술하고 있는 합성시스템과는 별개의 시스템에서 행해지는 기술로 이에 대한 상세한 설명은 생략한다.
이어, 이렇게 복수의 레벨별로 분류되어 마크업된 입력문장이 입력되면 상기 입력문장의 텍스트 정보 및 레벨별 친밀도에 기반하여 해당되는 운율모델을 선택한다(S200).
그리고 상기 생성된 운율모델에 기반하여 입력문장의 텍스트 정보 및 친밀도 정보를 입력 파라미터로 이용함으로서 합성단위 DB(20)에서 해당 음편(speech segment)을 추출한다. 이어, 선택된 음편을 이용하여 해당 친밀도의 운율이 구현된 합성음을 생성한다(S300).
이때, 상기 합성단위 DB(20)는 화행(speech act)이나 문형(sentence type), 종결어미(sentence final verbal-ending) 중 적어도 하나가 포함된 각각의 텍스트 데이터를 서로 다른 친밀도의 스타일로 녹음하여 형성된다. 그리고 자동 또는 수동태깅을 통해 문장의 억양유형을 태깅한다. 따라서, 친밀도 조절의 합성시스템을 위한 상기 합성단위 DB(20)에서는 각 음소의 피치나 지속시간, 에너지 등의 정보 외에 문말 혹은 억양구의 억양 유형 정보가 저장된다.
따라서, 상기 합성 단위 DB(20)에서 추출되는 음편은 상기 운율모델에 기반하여 해당 친밀도를 갖는 합성으로 연결된다.
이에 따라, 해당 친밀도의 구분을 통하여 일정한 스타일의 합성음이 입력 텍스트의 영역이나 합성기의 목적에 따라 상이한 친밀도로 구현되게 된다. 예컨대 지능형 로봇용 대화체 합성기의 경우에는 대화 상대자가 로봇의 주인이 되므로 좀더 친밀한 스타일의 합성음을 생성할 수 있다.
즉, 두 화자 이상의 대화 텍스트의 합성 시에는 각 화자의 음성을 해당 화자의 신분과 발화 내용에 적합한 친밀도로 표현할 수 있다.
또한, 전체 합성음에 대해 친밀도를 선택할 수도 있고, 특정 화행이나 특정 내용의 문장에 대해서 선택적으로 친밀도를 지정하여 합성음을 생성하도록 할 수도 있다.
실 예로 상담 대화의 경우 상담자의 음성은 고객인 피상담자의 음성보다 좀 더 친밀한 스타일로 발성하는 것이 자연스러운데, 친밀도 조절 합성시스템에서는 이러한 발성 스타일의 구분이 가능해진다.
이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시 예를 개시하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한 정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 이것은 한국어의 예에 한정되지 않고 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 음성합성 장치 및 방법은 단일 성우의 음성 DB를 가지고도 여러 가지 스타일의 음성을 구현함으로써 대화 음성을 보다 생동감 있고, 대화 내용이나 대화 상황에 맞게 표현하는 효과를 거둘 수 있다.
또한, 본 발명은 사용되는 언어에 있어서 한국어에 한정되지 않고 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 누구든지 언어의 종류 등에 있어 다양한 변경 실시가 가능하다.

Claims (10)

  1. 친밀도의 레벨을 정의하는 단계와,
    상기 정의된 친밀도 레벨 각각에 상응하여 구성된 텍스트를 녹음한 음성들을 저장하는 단계와,
    상기 저장된 각 음성 데이터에 대해 문말 억양(sentence final intonation contour)의 유형, 문장 내의 주요 억양구(intonation phrase) 경계의 억양 유형 및 문장의 피치(F0) 평균값 중 적어도 하나 이상을 통계적으로 모델링하여 각 친밀도에 따른 운율적 특성을 추출하는 단계와,
    상기 추출된 상기 운율적 특성을 기반으로 친밀도 레벨별 운율모델을 생성하는 단계를 포함하는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
  2. 제 1 항에 있어서,
    상기 운율모델은 화행 및 문장형식 정보와, 운율정보로 이루어지는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
  3. 제 2 항에 있어서,
    상기 화행 및 문장형식 정보는 '대화 시작(opening)', '정보요청(request- information)', '정보전달(give-information)', '행위요청(request-action)', '대화종료(closing)' 중 적어도 하나 이상으로 이루어지는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
  4. 제 3 항에 있어서,
    상기 ‘정보요청’은 문장 형식에 따라 의문사 의문문(wh-question)과 가부판정 의문문(yes-no question) 중 적어도 하나로 이루어지는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
  5. 제 2 항에 있어서,
    상기 운율정보는 적어도 두 레벨 이상의 친밀도로 구분하여 상기 입력문장 각각에 대한 문장의 피치(F0)값 및 문말 및 억양구의 억양 유형값으로 이루어지는 것을 특징으로 하는 발화 스타일 조절을 위한 운율모델 생성 방법.
  6. 친밀도 레벨이 마크업된 문장을 수신하는 단계와,
    상기 문장의 친밀도 레벨에 기반하여 청구항 1의 단계로 운율모델을 선택하는 단계와,
    상기 선택된 운율모델에 기반하여 친밀도별 음성들로 기 저장된 합성단위 DB에서 필요한 음편을 검출하고 요구된 친밀도 레벨을 갖는 합성음을 생성하는 단계 를 포함하는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 방법.
  7. 제 6 항에 있어서,
    상기 합성단위 DB는 정의된 친밀도 레벨별로 화행(speech act)이나 문형(sentence type), 종결어미(sentence final verbal-ending) 중 적어도 하나가 포함된 텍스트 데이터가 친밀도별 스타일로 발성된 것을 녹음하여 형성되는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 방법.
  8. 제 6 항에 있어서, 상기 합성음을 생성하는 단계는
    상기 생성된 운율모델에 기반한 문장의 텍스트 정보를 입력 파라미터로 이용하여 합성단위 DB에서 해당 친밀도의 운율이 구현된 해당 음편(speech segment)을 추출하는 단계와,
    상기 추출된 해당 음편을 합성하는 단계를 포함하는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 방법.
  9. 제 6 항에 있어서,
    상기 합성단위 DB에서 해당 음편을 검출하는 단계는 전체 합성음 또는 특정 화행이나 특정 내용의 문장에 대해서 선택적인 친밀도를 갖는 음편을 검출하는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 방법.
  10. 입력문장의 텍스트 정보 및 친밀도 레벨에 기반하여 운율적 특성별로 운율모델들이 저장된 운율모델과,
    친밀도 레벨별 음성 스타일의 음편들을 저장하는 합성단위 DB와,
    상기 운율모델에서 선택된 운율모델에 기반하여 상기 합성단위 DB에서 해당 음편(speech segment)을 검출하여 요구된 친밀도 레벨이 적용된 합성음을 생성하는 합성음 생성기를 포함하는 것을 특징으로 하는 발화 스타일 조절을 위한 음성합성 장치.
KR1020050106584A 2005-11-08 2005-11-08 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법 KR100644814B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050106584A KR100644814B1 (ko) 2005-11-08 2005-11-08 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법
US11/593,852 US7792673B2 (en) 2005-11-08 2006-11-07 Method of generating a prosodic model for adjusting speech style and apparatus and method of synthesizing conversational speech using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050106584A KR100644814B1 (ko) 2005-11-08 2005-11-08 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR100644814B1 true KR100644814B1 (ko) 2006-11-14

Family

ID=37654323

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050106584A KR100644814B1 (ko) 2005-11-08 2005-11-08 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법

Country Status (2)

Country Link
US (1) US7792673B2 (ko)
KR (1) KR100644814B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101221188B1 (ko) 2011-04-26 2013-01-10 한국과학기술원 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체
US10777193B2 (en) 2017-06-27 2020-09-15 Samsung Electronics Co., Ltd. System and device for selecting speech recognition model
WO2020246641A1 (ko) * 2019-06-07 2020-12-10 엘지전자 주식회사 복수의 화자 설정이 가능한 음성 합성 방법 및 음성 합성 장치

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
EP2883204B1 (en) 2012-08-10 2020-10-07 Nuance Communications, Inc. Virtual agent communication for electronic devices
US20170017501A1 (en) 2013-12-16 2017-01-19 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9804820B2 (en) * 2013-12-16 2017-10-31 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
JP6468274B2 (ja) * 2016-12-08 2019-02-13 カシオ計算機株式会社 ロボット制御装置、生徒ロボット、教師ロボット、学習支援システム、ロボット制御方法及びプログラム
KR102247902B1 (ko) 2018-10-16 2021-05-04 엘지전자 주식회사 단말기
CN110300001B (zh) * 2019-05-21 2022-03-15 深圳壹账通智能科技有限公司 会议音频控制方法、系统、设备及计算机可读存储介质
US20220172728A1 (en) * 2020-11-04 2022-06-02 Ian Perera Method for the Automated Analysis of Dialogue for Generating Team Metrics

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990079485A (ko) * 1998-04-06 1999-11-05 윤종용 음성 합성을 위한 발화구의 기본 주파수 궤적 생성 방법
JP2002149180A (ja) 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
KR20030033628A (ko) * 2001-10-24 2003-05-01 한국전자통신연구원 판별 및 회귀 트리를 이용한 끊어읽기 강도 자동 레이블링방법
KR20050006936A (ko) * 2003-07-10 2005-01-17 한국전자통신연구원 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적운율 구현 방법
KR20050111182A (ko) * 2004-05-21 2005-11-24 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282512B1 (en) 1998-02-05 2001-08-28 Texas Instruments Incorporated Enhancement of markup language pages to support spoken queries
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2001216295A (ja) 2000-01-31 2001-08-10 Nippon Telegr & Teleph Corp <Ntt> かな漢字変換方法、装置、かな漢字変換プログラムを記録した記録媒体
KR20010111127A (ko) 2000-06-08 2001-12-17 박규진 통신인터페이스를 이용한 상호대화가 가능한 인간형시계,데이터제공시스템 및 이를 이용한 인터넷 사업방법
JP2002366186A (ja) * 2001-06-11 2002-12-20 Hitachi Ltd 音声合成方法及びそれを実施する音声合成装置
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US7096183B2 (en) * 2002-02-27 2006-08-22 Matsushita Electric Industrial Co., Ltd. Customizing the speaking style of a speech synthesizer based on semantic analysis
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
JP2007041012A (ja) 2003-11-21 2007-02-15 Matsushita Electric Ind Co Ltd 声質変換装置および音声合成装置
US7415413B2 (en) * 2005-03-29 2008-08-19 International Business Machines Corporation Methods for conveying synthetic speech style from a text-to-speech system
US7584104B2 (en) * 2006-09-08 2009-09-01 At&T Intellectual Property Ii, L.P. Method and system for training a text-to-speech synthesis system using a domain-specific speech database

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990079485A (ko) * 1998-04-06 1999-11-05 윤종용 음성 합성을 위한 발화구의 기본 주파수 궤적 생성 방법
JP2002149180A (ja) 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
KR20030033628A (ko) * 2001-10-24 2003-05-01 한국전자통신연구원 판별 및 회귀 트리를 이용한 끊어읽기 강도 자동 레이블링방법
KR20050006936A (ko) * 2003-07-10 2005-01-17 한국전자통신연구원 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적운율 구현 방법
KR20050111182A (ko) * 2004-05-21 2005-11-24 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101221188B1 (ko) 2011-04-26 2013-01-10 한국과학기술원 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체
US10777193B2 (en) 2017-06-27 2020-09-15 Samsung Electronics Co., Ltd. System and device for selecting speech recognition model
WO2020246641A1 (ko) * 2019-06-07 2020-12-10 엘지전자 주식회사 복수의 화자 설정이 가능한 음성 합성 방법 및 음성 합성 장치

Also Published As

Publication number Publication date
US20070106514A1 (en) 2007-05-10
US7792673B2 (en) 2010-09-07

Similar Documents

Publication Publication Date Title
KR100644814B1 (ko) 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법
US8566098B2 (en) System and method for improving synthesized speech interactions of a spoken dialog system
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
Theune et al. Generating expressive speech for storytelling applications
US7096183B2 (en) Customizing the speaking style of a speech synthesizer based on semantic analysis
JP4125362B2 (ja) 音声合成装置
KR100811568B1 (ko) 대화형 음성 응답 시스템들에 의해 스피치 이해를 방지하기 위한 방법 및 장치
KR100590553B1 (ko) 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
US8352270B2 (en) Interactive TTS optimization tool
US7062440B2 (en) Monitoring text to speech output to effect control of barge-in
US20020184027A1 (en) Speech synthesis apparatus and selection method
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP2007140200A (ja) 語学学習装置およびプログラム
JP2000347681A (ja) テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP2003233388A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
Dall Statistical parametric speech synthesis using conversational data and phenomena
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
JP2001188788A (ja) 会話処理装置および方法、並びに記録媒体
EP1589524B1 (en) Method and device for speech synthesis
Suzić et al. Style-code method for multi-style parametric text-to-speech synthesis
JP4758931B2 (ja) 音声合成装置、方法、プログラム及びその記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee