KR20060027645A - 감정정보 음색변환 장치 및 그 방법 - Google Patents

감정정보 음색변환 장치 및 그 방법 Download PDF

Info

Publication number
KR20060027645A
KR20060027645A KR1020040076527A KR20040076527A KR20060027645A KR 20060027645 A KR20060027645 A KR 20060027645A KR 1020040076527 A KR1020040076527 A KR 1020040076527A KR 20040076527 A KR20040076527 A KR 20040076527A KR 20060027645 A KR20060027645 A KR 20060027645A
Authority
KR
South Korea
Prior art keywords
voice
information
emotion information
pitch
emotion
Prior art date
Application number
KR1020040076527A
Other languages
English (en)
Inventor
한민수
김상진
김광기
장경애
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020040076527A priority Critical patent/KR20060027645A/ko
Publication of KR20060027645A publication Critical patent/KR20060027645A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 감정정보 음색변환 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 감정별로 음성 데이터베이스를 수집하고, 이를 분석하여 보통 상태의 음성에 대하여 각 감정 상태의 음성과의 변환 함수를 구현하여 음성신호에 감정 정보를 가미함으로써, 음색변환시 음질의 열화없이 음색을 변화시킬 수 있는 감정 정보 음색변환 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 감정 정보 음색변환 장치에 있어서, 일 화자의 보통 상태의 음성 정보를 저장하고 있는 보통 음성 저장수단; 상기 일 화자의 감정 기복 변화에 따른 음성 정보를 저장하고 있는 감정 음성 저장수단; 상기 음성 저장수단을 음소단위로 레이블링하여, 레이블링 정보에 따라 음성의 감정 정보와 관련이 높은 음성의 특징 정보를 음소단위로 분석하기 위한 감정 정보 분석수단; 상기 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 감정 정보 음색변환 함수를 얻기 위한 감정 정보 변환함수 생성수단; 및 상기 감정 정보 음색변환 함수를 바탕으로, 실제 입력 음성의 신호를 시간 영역에서 음성의 파형을 조절하여 감정 정보가 부여된 음색으로 변환하기 위한 감정 정보 조절수단을 포함한다.
4. 발명의 중요한 용도
본 발명은 음성합성기 등에 이용됨.
감정, 감정 정보, 음색변환, TD-PSOLA, 감정별 음성 특징 분석

Description

감정정보 음색변환 장치 및 그 방법{Emotional voice color conversion apparatus and method}
도 1 은 본 발명에 따른 감정 정보 음색변환 장치의 일실시예 구성도,
도 2 는 본 발명에 따른 감정 정보 음색변환 방법에 대한 일실시예 흐름도,
도 3 은 본 발명에 따라 감정 정보 음색변환을 위한 종속적 변환 과정을 나타낸 일실시예 설명도,
도 4 는 본 발명에 따라 감정정보 음색변환을 위한 규칙기반 변환 과정을 나타낸 일실시예 설명도이다.
* 도면의 주요 부분에 대한 부호의 설명
11 : 보통 음성 데이터베이스 12 : 감정 음성 데이터베이스
13 : 감정 정보 변환함수 생성부 14 : 감정 정보 조절부
본 발명은 음성신호에 감정 정보를 가미하여 음색을 변화시키는 감정정보 음색변환 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 음성의 색깔을 나타내는 음색을 조절하여 감정 정보가 부여된 음색으로 변환하는 감정정보 음색변환 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
화자의 감정 정보를 음성신호로부터 추출하려는 시도가 있어 왔으나, 음성에 감정 정보를 싣는 음성신호에 대한 음색변환 연구는 대략 1980년대에 시작되어 1990년대부터 보다 활발하게 연구되어 왔다. 하지만, 이 연구들은 화자A의 음색을 화자A가 아닌 다른 사람의 음색처럼 느끼게 하거나, 즉 불특정 화자로의 음색변환이거나, 화자B의 음색으로 변환시키는, 즉 특정 화자로의 음색변환 연구들이 대부분이며, 화자의 감정이 실리는 음색변환 기술은 90년대 후반에 비로소 연구되기 시작되었고, 2000년도를 전후하여 "화남/두려움/즐거움/슬픔" 정도의 감정 표현이 가능한 음성합성 연구가 시도되어 왔다.
하지만, 종래의 감정 정보 음색변환 관련 연구는 기존의 화자간 음색변환 기술에 적용된 음성의 특징 분석 및 조절 방법과 크게 다르지 않다. 다만, 조절 대상이 다른 화자로의 변환이 아니고, 동일 화자 기반으로 감정 정보를 부가하는 변환이라는 점에서만 다를 뿐이다. 그리고, 음색변환에 사용되는 방법은 벡터양자화를 이용한 방법, 선형다변회귀모델을 이용한 방법 등이 있지만, 이들 모두 음색변환시 음질이 열화되는 문제점이 있었다.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 감정별로 음성 데이터베이스를 수집하고, 이를 분석하여 보통 상태의 음성에 대하여 각 감정 상태의 음성과의 변환 함수를 구현하여 음성신호에 감정 정보를 가미함으로써, 음색변환시 음질의 열화없이 음색을 변화시킬 수 있는 감정 정보 음색변환 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명은, 감정 정보 음색변환 장치에 있어서, 일 화자의 보통 상태의 음성 정보를 저장하고 있는 보통 음성 저장수단; 상기 일 화자의 감정 기복 변화에 따른 음성 정보를 저장하고 있는 감정 음성 저장수단; 상기 음성 저장수단을 음소단위로 레이블링하여, 레이블링 정보에 따라 음성의 감정 정보와 관련이 높은 음성의 특징 정보를 음소단위로 분석하기 위한 감정 정보 분석수단; 상기 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 감정 정보 음색변환 함수를 얻기 위한 감정 정보 변환함수 생성수단; 및 상기 감정 정보 음색변환 함수를 바탕으로, 실제 입력 음성의 신호를 시간 영역에서 음성의 파형을 조절하여 감정 정보가 부여된 음색으로 변환하기 위한 감정 정보 조절수단을 포함하여 이루어진 것을 특징으로 한다.
그리고, 본 발명은 감정 정보 음색변환 장치에 적용되는 감정 정보 음색변환 방법에 있어서, 일 화자의 보통 상태의 음성 정보와, 감정 기복 변화에 따른 음성 정보가 녹취된 음성 데이터베이스를 수집하는 음성 수집 단계; 상기 음성 데이터베이스를 음소단위로 레이블링하여, 레이블링 정보에 따라 음성의 감정 정보와 관련이 높은 음성의 특징 정보를 음소단위로 분석하는 감정 정보 분석 단계; 상기 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 감정 정보 음색변환 함수를 얻는 감정 정보 변환함수 생성 단계; 및 상기 감정 정보 음색변환 함수를 바탕으로, 실제 입력 음성의 신호를 시간 영역에서 음성의 파형을 조절하여 감정 정보가 부여된 음색으로 변환하는 감정 정보 조절 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은 음성신호의 음소 단위로 감정 정보를 조절하여 보통 음성에 감정 정보를 부가하기 위하여, 프로세서를 구비한 감정 정보 음색변환 장치에, 일 화자의 보통 상태의 음성 정보와, 감정 기복 변화에 따른 음성 정보가 녹취된 음성 데이터베이스를 수집하는 음성 수집 기능; 상기 음성 데이터베이스를 음소단위로 레이블링하여, 레이블링 정보에 따라 음성의 감정 정보와 관련이 높은 음성의 특징 정보를 음소단위로 분석하는 감정 정보 분석 기능; 상기 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 감정 정보 음색변환 함수를 얻는 감정 정보 변환함수 생성 기능; 및 상기 감정 정보 음색변환 함수를 바탕으로, 실제 입력 음성의 신호를 시간 영역에서 음성의 파형을 조절하여 감정 정보가 부여된 음색으로 변환하는 감정 정보 조절 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명은 음성신호에 감정 정보를 가미하여 음색을 변화시키는 것으로, 감정별로 음성 데이터베이스를 수집하고, 이를 분석하여 보통 상태의 음성에 대하여 각 감정 상태의 음성과의 변환 함수를 구현함으로써, 감정 정보가 가미된 음색변환을 실현시키고자 한다.
이를 위해, 본 발명은 보통 상태, 화난 상태, 슬픈 상태, 즐거운 상태 등 감정상태를 알 수 있도록, 이미 감정 정보가 부가되어 녹취된 소량의 음성 데이터베이스를 분석하고, 감정 정보가 실리지 않은 보통 상태의 음성으로부터 얻는 정보와의 통계적 관계를 이용하여 감정정보 음색변환 함수를 구현하고, 이를 보통 상태의 전체 음성 데이터베이스에 적용하여 음색변환함으로써, 감정 정보가 가미된 음성 데이터베이스를 얻는다.
이와 같이 본 발명은 음성신호에 감정 정보를 가미하여 보통 상태, 화난 상태, 슬픈 상태, 즐거운 상태 등 감정상태를 알 수 있는 음색변환에 관한 것으로, 이 결과는 합성기의 끝단에 결합되어 사용될 수도 있으며, 합성기에 사용되는 음성 데이터베이스에 오프라인으로 적용되어 데이터베이스를 확장할 수도 있다.
본 발명에 따르면, 이미 저장되어 있는 보통 음성 데이터베이스에 감정 정보를 부가하여 감정이 실린 음성 데이터베이스를 생성할 수 있다. 이 데이터베이스를 음성합성기에 사용하면 감정이 실린 음성을 합성할 수 있다. 또한, 감정이 실린 음성 데이터베이스 제작에 소요되는 비용을 절감할 수 있다. 뿐만 아니라, 음성 합성기의 출력부분에 연결하여 보통음성 출력에 감정 정보를 부가할 때 사용할 수도 있다. 즉, 동일 합성 데이터베이스를 이용하여 대화체 합성기술의 기반이 되며, 음성 채팅 사이트 등에서 음색변환 기술 탑재로 인한 다양한 멀티미디어 컨텐츠를 구성할 수 있고, 음색변환에 의한 화자음성의 암호화 및 변조, 어린이용 대화체 동화 낭독기에의 응용, 음성 합성기를 이용한 자동 더빙기술에의 응용 등 다양한 애플리케이션에 응용될 수 있다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 1 은 본 발명에 따른 감정 정보 음색변환 장치의 일실시예 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 감정 정보 음색변환 장치는, 일 화자의 보통 상태의 음성 정보를 저장하고 있는 보통 음성 데이터베이스(11)와, 일 화자의 감정 기복 변화에 따른 음성 정보를 저장하고 있는 감정 음성 데이터베이스(12)와, 보통 음성 데이터베이스(11) 및 감정 음성 데이터베이스(12)를 음소단위로 레이블링하여, 레이블링 정보에 따라 음성의 감정 정보와 관련이 높은 음성의 특징 정보를 음소단위로 분석하기 위한 감정 정보 분석부(13)와, 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 감정 정보 음색변환 함수를 얻기 위한 감정 정보 변환함수 생성부(14)와, 감정 정보 음색변환 함수를 바탕으로, 실제 입력 음성의 신호를 시간 영역에서 음성의 파형을 조절하여 감정 정보가 부여된 음색으로 변환하기 위한 감정 정보 조절부(15)를 포함한다.
상기와 같은 구성을 갖는 본 발명에 따른 감정 정보 음색변환 장치의 동작을 살펴보면 다음과 같다.
우선, 동일 화자의 보통 상태의 음성 정보를 보통 음성 데이터베이스(11)에 수집하고, 즐거움, 화남, 슬픔 등의 감정이 부가된 음성을 감정 음성 데이터베이스(12)에 수집한다.
그리고, 음성신호의 특징 중 감정 정보에 영향을 미치는 지속시간, 피치, 에너지 및 그 변동범위를 분석하기 위해, 감정 정보 분석부(13)에서 음성 데이터베이스(11,12)를 음소단위로 레이블링하여, 레이블 정보에 따라 음성의 특징 정보(지속시간, 피치, 에너지 및 그 변동범위)를 음소단위로 분석한다(201).
이후, 감정 정보 변환함수 생성부(14)를 통해 감정 정보 분석부(13)에서 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 감정 정보 음색변환 함수를 얻는다(202).
이상의 과정은, 동일 화자에 대해, 감정별로 음성 데이터베이스를 수집하고, 이를 분석하여 보통 상태의 음성에 대하여 각 감정 상태의 음성과의 변환함수를 구 현하는 것이다.
이제, 실제 음성이 입력되면(203), 감정 정보 조절부(15)에서 상기 감정 정보 음색변환 함수를 바탕으로 실제 입력 음성의 신호를 시간영역에서 음성의 파형을 조절하여(204) 감정 정보가 부여된 음색으로 변환한다(205).
보통의 음성을 감정이 실린 음성으로 변환하려면 감정 정보를 반영하는 특징 변수의 분석이 필요하다. 즉, 중성, 기쁨, 슬픔, 화남의 감정별로 예를 들면 20대 화자가 발성한 음성 데이터를 수집하고, 감정에 따른 몇 가지 특징 변수의 변화를 음소 단위로 분석한다.
본 발명의 감정 음색변환 방법에서는 두 가지 경우를 고려해 볼 수 있다.
첫 번째는 중성의 원래 음성과 감정을 지닌 목표 음성의 비교 분석을 통하여 원래 음성을 목표 음성으로 변환하는 종속적 변환 방식(도 3 참조)이다.
두 번째는 각각의 감정별 음성의 특징 분석을 통하여 변환 규칙을 만들고, 그 규칙을 이용하여 중성의 음성을 감정이 실린 음성으로 변환하는 규칙기반 변환 방식(도 4 참조)이다.
두 방식의 차이점은, 종속적 변환 방식의 경우 변환 전인 보통 음성과 변환 목적인 감정 음성이 동일한 문장으로 참조 음성이 필요하며, 규칙기반 변환 방식의 경우 작성된 규칙 기반으로 동작하기 때문에 참조 음성이 필요하지 않다.
도 3 및 도 4에서, 두 방식 모두 시간 영역에서 특징 변수를 조절한다. 이렇게 시간영역에서 음성의 파형을 직접 조절함으로써, 음질의 열화를 막을 수 있다. 그리고, 지속시간은 피치의 반복 및 삭제를 통하여, 음성의 크기는 변화율을 음소 별로 곱하여, 피치는 삼각창을 이용한 연결합성(TD-PSOLA) 방식을 이용해서 조절한다.
여기서, TD-PSOLA(Time Domain Pitch Synchronous Overlap and Add) 방식은 미리 녹음된 합성 단위를 부드럽게 연결 지속시간과 피치를 조절하여 원하는 합성음을 얻는 방식이다.
도 4의 규칙기반 변환 방식에는 각 감정별로 변환 규칙을 다양하게 작성하여 적용한 뒤, MOS 평가를 통해 가장 좋은 규칙을 선택한다.
기쁨, 화남, 슬픔, 행복함 등과 같은 순간적인 감정 상태는 음성의 운율에 많은 영향을 미치므로, 감정이 실린 음성은 음성의 지속시간, 평균 크기, 크기 변동범위, 평균 피치, 피치 변동범위와 같은 운율적 요소에 의해서 특징 지워진다. 따라서, 본 발명에서는 감정 음성의 특징 파라미터로서, 음성의 지속시간, 평균 크기, 크기 변동범위, 평균 피치, 피치 변동범위를 사용하며, 분석의 단위는 음소단위를 사용한다.
음성의 지속시간은 화자의 발화속도를 의미한다. 동일한 문장에서 음성의 지속시간은 화자의 의도, 감정, 분위기 등에 따라서 다르게 나타나며, 특히 화자의 감정이 음성의 지속시간에 가장 큰 영향을 미친다. 감정이 실린 음성의 지속시간은 화자의 감정 상태를 표현하는 일반적인 요소로서, 화자가 화난 상태일 경우에는 짧고, 슬픈 상태일 경우에는 길다는 일반적 특성을 지닌다. 이러한 특성을 이용하여 감정이 실린 음성을 생성하기 위해 음성의 지속시간을 조절한다.
한편, 음성의 평균크기는 음성의 강세, 세기와 연관이 있다. 화자의 감정 상 태의 변화에 따라 강세와 세기가 변화할 때, 음성의 크기는 다양한 값들을 갖는다. 일반적으로, 화난 음성의 평균 크기는 중성의 음성보다 큰 값을 가지며, 슬픈 음성의 경우에는 작은 값을 갖는다. 이외의 다른 감정이 실린 음성의 경우에도 중성의 음성과는 다른 평균크기 값을 갖는다.
다른 한편, 크기의 변동범위는 음성에서 크기의 변화율을 나타낸다. 평균크기가 전체 음성의 에너지를 나타내는 반면에, 크기 변동 범위는 음성에서 에너지의 변화율을 가리킨다. 음성에서의 크기는 대개 매우 큰 변화를 가지며, 하나의 음소만 고려했을 때에도 같은 특성을 보인다. 그러나, 슬픈 음성과 같은 몇몇의 경우에는 그 변화율이 작다. 이러한 특징을 갖는 크기 변동 범위를 이용해서 음성의 강세와 세기는 더욱 상세하게 조절될 수 있다. 크기 변동 범위는 음소단위로 구하며, 음소내에서 크기가 가장 큰 것과 작은 것의 범위로 구한다.
또 다른 한편, 음성의 피치는 모든 운율적 요소 중에서 가장 특징적인 파라미터이다. 피치는 음성의 주기성을 나타내며, 음성의 악센트와 억양과 연관이 있다. 즉, 높은 피치 주파수를 갖는 음성은 악센트와 억양 또한 높으며, 반면에 낮은 피치 주파수를 갖는 음성은 낮은 악센트와 억양을 갖는다. 이러한 특징을 이용하여 화자의 감정 상태에 따라서 다르게 나타나는 악센트와 억양을 조절할 수 있다
또 다른 한편, 피치의 변동범위는 음성에서의 피치의 변화율을 나타낸다. 즉, 악센트와 억양의 변화 정도를 의미한다. 피치의 변동범위는 다른 특징 파라미터처럼 감정에 따라서 크게 변화한다. 화난 음성의 경우에는 피치 주파수의 변화가 크며, 슬픈 음성의 경우에는 피치 주파수의 변화가 작고 거의 일정하다. 피치의 변 동 범위는 크기의 변동 범위와 같은 방법으로 구한다. 피치를 가지는 하나의 음소에서 피치의 최대값과 최소값의 범위가 피치의 변동범위이다.
정리해 보면, 본 발명은 감정별로 음성 데이터베이스를 수집하고, 이를 음소단위로 분석하여 보통 상태의 음성에 대하여 각 감정 상태의 음성과의 통계적 상관관계를 이용하여 변환함수를 구현함으로써 감정 정보가 가미된 음색변환을 실현할 수 있으며, 음질의 열화를 막기 위해서 시간영역에서 음성의 파형을 직접 조절한다.
이를 위해, 먼저 동일 화자로부터 보통 음성 및 감정이 부가된 음성 데이터베이스(11,12)를 수집하여야 하며, 이때 다루어진 감정은 즐거움, 화남, 슬픔 3가지다. 그리고, 음성신호의 특징 중 감정 정보에 영향을 미치는 지속시간, 피치, 에너지 및 그 변동 범위를 분석하기 위해서, 먼저 음성 데이터베이스(11,12)를 음소단위로 레이블링하며, 레이블 정보에 따라 앞서 언급한 특징들을 분석한다(감정 정보 분석). 또한, 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 변환 함수를 얻어(감정 정보 변환함수 생성), 이렇게 얻어진 변환 함수를 이용하여 실제 입력 음성의 신호를 조절한다(감정 정보 조절).
감정 정보 조절시에는 지속시간, 크기, 피치 순으로 조절한다. 하지만, 무성음의 경우엔 도 4에서와 같이 지속시간, 크기만 조절한다.
감정 정보의 분석으로 얻어진 감정 정보 변환 함수의 보통 음성에 대한 적용은 에너지 및 에너지 변동 범위의 경우 그 변환 비율을 곱하여 적용하며, 피치주기 및 피치 변동 범위는 TD-PSOLA 방법을 적용하며, 지속시간의 조절은 음소의 안정화 부분을 피치 단위로 반복 삽입이나 삭제로 늘이거나 줄이며, 피치 정보가 없는 묵음이나 무성음의 경우엔 적절한 구간을 반복 및 삽입한다.
먼저, 지속시간 조절 과정을 살펴보기로 한다.
지속시간은 피치 정보의 유/무, 즉 유성음과 무성음에 따라서 조절을 한다.
피치 정보를 가지는 음소의 경우에는 다음과 같은 과정을 따른다.
단계1 : 반복/삭제할 피치의 수를 구한다.
[조절할 피치의 수 = |지속시간 비율 - 1| * 음소의 피치수]
단계2 : 음소의 중앙에 위치한 피치의 위치를 찾는다.
단계3 : 음소의 중앙에 위치한 피치를 기준으로 좌우로 조절할 피치의 수만큼 반복/삭제한다.
단계4 : 조절된 음소의 길이와 피치 정보를 업데이트한다.
이 과정에서 음소의 피치수가 3보다 작고, 지속시간을 감소시키려고 하는 경우에는 음가의 손실을 방지하기 위해 지속시간의 조절을 하지 않도록 제한을 둔다.
한편, 피치정보가 없는 음소의 경우에는 피치정보를 갖는 음소의 조절 과정보다 간단한 과정을 통해 지속시간을 조절한다.
단계1 : 반복/삭제할 길이를 구한다.
[조절할 길이 = |지속시간 비율 - 1| * 음소의 길이]
단계2 : 음소의 중앙 위치를 찾는다.
단계3 : 음소의 중앙 위치를 기준으로 좌우로 조절할 길이의 50%만큼씩 반복/삭제한다.
단계4 : 조절된 음소의 길이를 업데이트한다.
이제, 크기 조절 과정을 살펴보기로 한다.
음성의 크기는 두가지 부분으로 나눠서 조절을 한다. 전체적인 크기를 조절하는 평균크기 조절과, 세부적인 크기를 조절하는 크기 변동범위 조절 두가지이다. 그러나, 이 두가지 조절은 평균크기와 변동 범위를 반영하는 크기 조절 비율을 이용하여 동시에 수행된다. 수행 과정은 다음과 같다.
단계1 : 크기 조절 비율을 계산한다.
[크기 조절 비율 = 평균크기 비율 + 변동 범위 비율]
단계2 : 크기 조절을 수행한다.
[조절된 음소 = 원래의 음소 * 크기 조절 비율]
이 과정에서 음성이 깨지는 현상을 방지하기 위해 크기 조절 비율은 3이하로 제한된다.
마지막으로, 피치 조절 과정을 살펴보기로 한다.
피치의 조절은 음성의 크기 조절에서와 마찬가지로 평균피치와 피치 변동범 위의 조절로 나눠서 수행한다. 평균피치와 변동범위를 모두 고려한 피치 조절 비율을 구하여 TD-PSOLA를 적용함으로써 피치를 조절한다. 여기서, PSOLA는 합성단위를 부드럽게 연결하고 피치를 조절함으로써 원하는 합성음을 얻는 방법이다. PSOLA에서 일반적으로 사용하는 해닝창은 합성음의 크기가 일정하지 않게 되는 단점이 발생하므로, 이를 방지하기 위해 본 발명에서는 삼각창을 이용한 PSOLA를 이용한다. 피치의 조절 과정은 다음과 같다.
단계1 : 피치 조절 비율을 계산한다.
[피치 조절 비율 = 평균피치 비율 + 변동 범위 비율]
단계2 : 피치 조절 비율을 이용하여 TD-PSOLA를 수행한다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은, 음성신호에 감정 정보를 가미하여 보통 상태, 화난 상태, 슬픈 상태, 즐거운 상태 등 감정상태가 가미된 음성 데이터베이스를 생성할 수 있고, 이 데이터베이스를 음성합성기에 사용하여 감정이 실린 음성을 합성할 수 있어, 감정이 실린 음성 데이터베이스 제작에 소요되는 비용을 절감할 수 있는 효과가 있다. 또한, 본 발명은 음성 합성기의 출력부분에 연결하여 보통음성 출력에 감정 정보를 부가할 때 사용할 수도 있다.
본 발명에 따르면, 동일 합성 데이터베이스를 이용하여 대화체 합성기술의 기반이 되며, 음성 채팅 사이트 등에서 음색변환 기술 탑재로 인한 다양한 멀티미디어 컨텐츠를 구성할 수 있고, 음색변환에 의한 화자음성의 암호화 및 변조, 어린이용 대화체 동화 낭독기에의 응용, 음성 합성기를 이용한 자동 더빙기술에의 응용 등 다양한 애플리케이션에 응용할 수 있는 효과가 있다.

Claims (15)

  1. 감정 정보 음색변환 장치에 있어서,
    일 화자의 보통 상태의 음성 정보를 저장하고 있는 보통 음성 저장수단;
    상기 일 화자의 감정 기복 변화에 따른 음성 정보를 저장하고 있는 감정 음성 저장수단;
    상기 음성 저장수단을 음소단위로 레이블링하여, 레이블링 정보에 따라 음성의 감정 정보와 관련이 높은 음성의 특징 정보를 음소단위로 분석하기 위한 감정 정보 분석수단;
    상기 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 감정 정보 음색변환 함수를 얻기 위한 감정 정보 변환함수 생성수단; 및
    상기 감정 정보 음색변환 함수를 바탕으로, 실제 입력 음성의 신호를 시간 영역에서 음성의 파형을 조절하여 감정 정보가 부여된 음색으로 변환하기 위한 감정 정보 조절수단
    을 포함하는 감정 정보 음색변환 장치.
  2. 제 1 항에 있어서,
    상기 음성의 감정 정보는,
    음성의 에너지, 에너지 변동범위, 피치주기, 피치 변동범위, 지속시간을 포 함하는 감정 음성의 특징 파라미터인 것을 특징으로 하는 감정 정보 음색변환 장치.
  3. 제 1 항에 있어서,
    상기 감정 정보 음색변환 함수의 보통 음성에 대한 적용시에,
    에너지 및 에너지 변동 범위의 경우 그 변환 비율을 곱하여 적용하며,
    피치주기 및 피치 변동 범위는 연결합성(TD-PSOLA) 방식을 적용하며,
    지속시간의 조절은 음소의 안정화 부분을 피치 단위로 반복 삽입이나 삭제로 늘이거나 줄이며,
    피치 정보가 없는 묵음이나 무성음의 경우엔 적절한 구간을 반복 및 삽입하는 것을 특징으로 하는 감정 정보 음색변환 장치.
  4. 제 3 항에 있어서,
    상기 연결합성(TD-PSOLA) 방식은,
    피치주기 및 피치 변동 범위의 조절시 사용되며, 일반적으로 사용되는 해닝창이 아닌 삼각창을 이용하여 합성음의 크기를 일정하게 유지시키는 것을 특징으로 하는 감정 정보 음색변환 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 감정 정보 조절수단에서의 지속시간 조절 과정은,
    지속시간을 피치 정보의 유무(유성음, 무성음)에 따라 조절하되, 피치 정보를 가지는 음소의 경우, 반복/삭제할 피치의 수를 구하고, 음소의 중앙에 위치한 피치의 위치를 찾아, 음소의 중앙에 위치한 피치를 기준으로 좌우로 조절할 피치의 수만큼 반복/삭제한 후, 조절된 음소의 길이와 피치 정보를 업데이트하는 것을 특징으로 하는 감정 정보 음색변환 장치.
  6. 제 5 항에 있어서,
    상기 지속시간 조절 과정에서,
    음소의 피치수가 3보다 작고, 지속시간을 감소시키려고 하는 경우에는 음가의 손실을 방지하기 위해 지속시간의 조절을 하지 않도록 제한을 두는 것을 특징으로 하는 감정 정보 음색변환 장치.
  7. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 감정 정보 조절수단에서의 지속시간 조절 과정은,
    지속시간을 피치 정보의 유무(유성음, 무성음)에 따라 조절하되, 피치 정보 를 갖지 않는 음소의 경우, 반복/삭제할 길이를 구하고, 음소의 중앙 위치를 찾아, 음소의 중앙 위치를 기준으로 좌우로 조절할 길이의 50%만큼씩 반복/삭제한 후, 조절된 음소의 길이를 업데이트하는 것을 특징으로 하는 감정 정보 음색변환 장치.
  8. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 감정 정보 조절수단에서의 음성 크기 조절 과정은,
    전체적인 크기를 조절하는 평균크기 조절과, 세부적인 크기를 조절하는 크기 변동범위 조절 과정으로 분류되고, 각각이 평균크기와 변동 범위를 반영하는 크기 조절 비율을 이용하여 동시에 수행되는 것을 특징으로 하는 감정 정보 음색변환 장치.
  9. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 감정 정보 조절수단에서의 피치 조절 과정은,
    평균피치와 피치 변동범위를 모두 고려한 피치 조절 비율을 구하여 TD-PSOLA를 적용함으로써 피치를 조절하는 것을 특징으로 하는 감정 정보 음색변환 장치.
  10. 감정 정보 음색변환 장치에 적용되는 감정 정보 음색변환 방법에 있어서,
    일 화자의 보통 상태의 음성 정보와, 감정 기복 변화에 따른 음성 정보가 녹취된 음성 데이터베이스를 수집하는 음성 수집 단계;
    상기 음성 데이터베이스를 음소단위로 레이블링하여, 레이블링 정보에 따라 음성의 감정 정보와 관련이 높은 음성의 특징 정보를 음소단위로 분석하는 감정 정보 분석 단계;
    상기 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 감정 정보 음색변환 함수를 얻는 감정 정보 변환함수 생성 단계; 및
    상기 감정 정보 음색변환 함수를 바탕으로, 실제 입력 음성의 신호를 시간 영역에서 음성의 파형을 조절하여 감정 정보가 부여된 음색으로 변환하는 감정 정보 조절 단계
    를 포함하는 감정 정보 음색변환 방법.
  11. 제 10 항에 있어서,
    상기 음성의 감정 정보는,
    음성의 에너지, 에너지 변동범위, 피치주기, 피치 변동범위, 지속시간을 포함하는 감정 음성의 특징 파라미터인 것을 특징으로 하는 감정 정보 음색변환 방법.
  12. 제 10 항에 있어서,
    상기 감정 정보 음색변환 함수의 보통 음성에 대한 적용시에,
    에너지 및 에너지 변동 범위의 경우 그 변환 비율을 곱하여 적용하며,
    피치주기 및 피치 변동 범위는 연결합성(TD-PSOLA) 방식을 적용하며,
    지속시간의 조절은 음소의 안정화 부분을 피치 단위로 반복 삽입이나 삭제로 늘이거나 줄이며,
    피치 정보가 없는 묵음이나 무성음의 경우엔 적절한 구간을 반복 및 삽입하는 것을 특징으로 하는 감정 정보 음색변환 방법.
  13. 제 12 항에 있어서,
    상기 연결합성(TD-PSOLA) 방식은,
    피치주기 및 피치 변동 범위의 조절시 사용되며, 일반적으로 사용되는 해닝창이 아닌 삼각창을 이용하여 합성음의 크기를 일정하게 유지시키는 것을 특징으로 하는 감정 정보 음색변환 방법.
  14. 제 10 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 감정 정보 조절 단계는,
    지속시간 조절시, 피치 정보의 유무(유성음, 무성음)에 따라 조절하고,
    음성 크기 조절시, 전체적인 크기를 조절하는 평균크기 조절과, 세부적인 크기를 조절하는 크기 변동범위 조절 과정으로 분류하고, 각각이 평균크기와 변동 범위를 반영하는 크기 조절 비율을 이용하여 동시에 수행되며,
    피치 조절시, 평균피치와 피치 변동범위를 모두 고려한 피치 조절 비율을 구하여 TD-PSOLA를 적용함으로써 피치를 조절하는 것을 특징으로 하는 감정 정보 음색변환 방법.
  15. 음성신호의 음소 단위로 감정 정보를 조절하여 보통 음성에 감정 정보를 부가하기 위하여, 프로세서를 구비한 감정 정보 음색변환 장치에,
    일 화자의 보통 상태의 음성 정보와, 감정 기복 변화에 따른 음성 정보가 녹취된 음성 데이터베이스를 수집하는 음성 수집 기능;
    상기 음성 데이터베이스를 음소단위로 레이블링하여, 레이블링 정보에 따라 음성의 감정 정보와 관련이 높은 음성의 특징 정보를 음소단위로 분석하는 감정 정보 분석 기능;
    상기 분석된 특징 정보들을 음소별로 모아서 통계적으로 그 상관관계를 구하여 감정 정보 음색변환 함수를 얻는 감정 정보 변환함수 생성 기능; 및
    상기 감정 정보 음색변환 함수를 바탕으로, 실제 입력 음성의 신호를 시간 영역에서 음성의 파형을 조절하여 감정 정보가 부여된 음색으로 변환하는 감정 정보 조절 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020040076527A 2004-09-23 2004-09-23 감정정보 음색변환 장치 및 그 방법 KR20060027645A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040076527A KR20060027645A (ko) 2004-09-23 2004-09-23 감정정보 음색변환 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040076527A KR20060027645A (ko) 2004-09-23 2004-09-23 감정정보 음색변환 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20060027645A true KR20060027645A (ko) 2006-03-28

Family

ID=37138622

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040076527A KR20060027645A (ko) 2004-09-23 2004-09-23 감정정보 음색변환 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20060027645A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711444A (zh) * 2024-02-05 2024-03-15 新励成教育科技股份有限公司 一种基于口才表达的互动方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711444A (zh) * 2024-02-05 2024-03-15 新励成教育科技股份有限公司 一种基于口才表达的互动方法、装置、设备及存储介质
CN117711444B (zh) * 2024-02-05 2024-04-23 新励成教育科技股份有限公司 一种基于口才表达的互动方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US8898062B2 (en) Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US8073696B2 (en) Voice synthesis device
US10176797B2 (en) Voice synthesis method, voice synthesis device, medium for storing voice synthesis program
JP2002023775A (ja) 音声合成における表現力の改善
WO2018084305A1 (ja) 音声合成方法
JP4265501B2 (ja) 音声合成装置およびプログラム
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
JP2006227589A (ja) 音声合成装置および音声合成方法
JP2002268658A (ja) 音声分析及び合成装置、方法、プログラム
JP4490818B2 (ja) 定常音響信号のための合成方法
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
KR20060027645A (ko) 감정정보 음색변환 장치 및 그 방법
JP3785892B2 (ja) 音声合成装置及び記録媒体
JP6834370B2 (ja) 音声合成方法
JP4353174B2 (ja) 音声合成装置
Bonada et al. Sample-based singing voice synthesizer using spectral models and source-filter decomposition
JPH09179576A (ja) 音声合成方法
JP3394281B2 (ja) 音声合成方式および規則合成装置
JP6191094B2 (ja) 音声素片切出装置
JP2018077280A (ja) 音声合成方法
JP6822075B2 (ja) 音声合成方法
Jayasinghe Machine Singing Generation Through Deep Learning
JP2005121869A (ja) 音声変換関数抽出装置およびそれを用いた声質変換装置
JP2001312300A (ja) 音声合成装置
Singh et al. Removal of spectral discontinuity in concatenated speech waveform

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination