KR20020076144A - 음성합성방법, 음성합성장치 및 기록매체 - Google Patents

음성합성방법, 음성합성장치 및 기록매체 Download PDF

Info

Publication number
KR20020076144A
KR20020076144A KR1020020016033A KR20020016033A KR20020076144A KR 20020076144 A KR20020076144 A KR 20020076144A KR 1020020016033 A KR1020020016033 A KR 1020020016033A KR 20020016033 A KR20020016033 A KR 20020016033A KR 20020076144 A KR20020076144 A KR 20020076144A
Authority
KR
South Korea
Prior art keywords
formant
pitch
window function
waveform
frequency
Prior art date
Application number
KR1020020016033A
Other languages
English (en)
Other versions
KR100457414B1 (ko
Inventor
가고시마다케히코
아카미네마사미
Original Assignee
가부시끼가이샤 도시바
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시끼가이샤 도시바 filed Critical 가부시끼가이샤 도시바
Publication of KR20020076144A publication Critical patent/KR20020076144A/ko
Application granted granted Critical
Publication of KR100457414B1 publication Critical patent/KR100457414B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

본 발명의 음성합성방법은, 피치패턴, 음운계속시간 길이 및 음운기호열에 따라 다수의 포르만트 파라미터(formant parameter)로부터 소정의 포르만트 파라미터를 선택하는 단계와, 선택된 포르만트 파라미터의 포르만트 주파수 및 포르만트 위상에 기초하여 복수의 정현파를 생성하는 단계, 복수의 포르만트 파형을 생성하기 위해 복수의 정현파를 선택된 포르만트 파라미터의 창함수(windowing function)에 각각 승산하는 단계, 복수의 피치파형을 생성하기 위해 포르만트 파형을 가산하는 단계 및, 음성신호를 생성하기 위해 피치주기에 따라 피치파형을 중첩하는 단계를 구비하고 있다.

Description

음성합성방법, 음성합성장치 및 기록매체 {SPEECH SYNTHESIS METHOD, SPEECH SYNTHESIZER AND RECORDING MEDIUM}
본 발명은 텍스트 음성합성에 관한 것으로, 특히 음운기호열, 피치(pitch), 음운계속시간 길이 등의 정보로부터 음성신호를 생성하는 음성합성에 관한 것이다.
임의의 문장으로부터 인공적으로 음성신호를 만들어 내는 것을 텍스트 음성합성이라 한다. 통상, 이 텍스트 음성합성 시스템은 언어처리부, 음운처리부, 음성신호 생성부의 3개의 단계로 구성된다.
입력되고 있는 텍스트는 우선 언어처리부에 있어서 형태소해석이나 구문해석 등이 행해지고, 다음에 음운처리부에 있어서 악센트나 억양(intonation)의 처리가 행해지며, 음운기호열, 피치패턴(소리의 높이의 변화패턴), 음운계속시간 길이 등의 정보가 출력된다. 최후로, 음성신호 생성부 즉 음성합성기는 음운기호열, 피치패턴, 음운계속시간 길이 등의 정보로부터 음성신호를 합성한다.
이러한 임의의 음운기호열을 합성할 수 있는 합성기는, 모음을 V, 자음을 C로 나타내면, CV, CVC, VCV 등의 기본으로 되는 작은 단위의 특징파라미터[음성소편(音聲素片)]를 기억하고, 피치나 계속시간길이를 제어하여 접속함으로써 음성을 합성한다.
이러한 음성합성기에 의해 음성소편의 정보로부터 소망하는 피치패턴이나 음성계속시간 길이의 음성신호를 생성하는 방법으로서, PSOLA(Pitch-Synchronous Overlap-add)법이 잘 알려져 있다. PSOLA법에 의한 합성음성은 피치주기의 변경의 정도가 작은 경우, 피치주기의 변경에 의한 음질열화가 작아 음질이 좋음이 알려져 있다. 그러나, PSOLA법은 피치주기의 변경이 커지면 음질이 열화된다고 하는 문제가 있다.
또, 음성소편의 접속부에서 스펙트럼의 불연속이 생긴 경우에, 평활화처리를 행함으로써 스펙트럼에 왜곡이 생겨 음질이 열화된다고 하는 문제가 있다. 더욱이, 파형 그 자신을 음성소편으로 하고 있기 때문에 성질(聲質: voice quality)을 변화시키는 것이 어려워 유연성이 떨어진다.
또, 음성합성기의 다른 방식으로서 포르만트(formant) 합성방식이 있다. 포르만트 합성방식은 인간의 발성기구를 모의하는 모델로, 성대로부터 발생하는 신호를 모델화한 음원신호에 의해 성도(聲道)의 특성을 모델화하는 필터를 구동함으로써 음성신호를 생성한다. 포르만트 합성방식에서는 포르만트 주파수와 대역폭의 조합에 의해, 합성음성의 음운(/a/, /i∠/u/ 등)이나 성질(남성, 여성 등)이 결정된다. 그 때문에, 음성소편의 정보는 파형이 아니라 포르만트 주파수와 대역폭의 값의 조합으로 이루어져 있다. 포르만트 합성방식은 음운이나 성질과 직접 관계하는 파라미터를 제어할 수 있다. 그 때문에, 성질을 변화시키는 등 유연한 제어가가능하다고 하는 이점을 갖는다. 그러나, 모델의 정도(精度)가 나쁘다고 하는 문제가 있다. 즉, 포르만트 주파수와 대역폭만으로는 실제의 음성신호의 스펙트럼의 미세한 구조를 표현할 수 없고, 음질이 나빠 육성감(인간같음)이 떨어진다.
본 발명은 음질이 좋음과 동시에 성질 등을 유연하게 변화시킬 수 있는 음성합성방법 및 음성합성장치를 제공하는 것을 목적으로 한다.
도 1은 본 발명의 제1실시형태에 따른 음성합성기의 블럭도,
도 2는 피치파형의 중첩에 의한 유성음성의 생성과정을 나타낸 도면,
도 3은 본 발명의 제1실시형태에 따른 피치파형 생성부의 블록도,
도 4는 포르만트 파라미터의 일례를 나타낸 도면,
도 5는 포르만트 파라미터의 다른 예를 나타낸 도면,
도 6은 정현파, 창함수, 포르만트 파형, 피치파형을 나타낸 도면,
도 7은 정현파, 창함수, 포르만트 파형, 피치파형의 전력스펙트럼을 나타낸 도면,
도 8은 본 발명의 제2실시형태에 따른 피치파형 생성부의 블록도,
도 9는 본 발명의 제3실시형태에 따른 피치파형 생성부의 블록도,
도 10은 포르만트 주파수의 제어함수를 나타낸 도면,
도 11은 포르만트 이득의 제어함수를 나타낸 도면,
도 12는 성질변환(聲質變換)을 위한 포르만트 주파수의 매핑함수를 나타낸 도면,
도 13은 본 발명의 제4실시형태에 따른 피치파형 생성부의 블록도,
도 14는 포르만트 주파수의 평활화를 설명하기 위한 도면,
도 15는 포르만트 주파수의 평활화를 설명하기 위한 도면,
도 16a 및 도 16b는 창함수 위치의 평활화를 나타낸 도면,
도 17a, 도 17b 및 도 17c는 본 발명의 음성합성기의 처리를 나타낸 플로우차트이다.
본 발명의 제1국면(局面)에 의하면, 다수의 포르만트 파라미터를 준비하는 단계와, 피치패턴, 음운계속시간 길이 및 음운기호열에 따라 다수의 포르만트 파라미터로부터 소정의 포르만트 파라미터를 선택하는 단계, 선택된 포르만트 파라미터의 포르만트 주파수 및 포르만트 위상에 기초하여 복수의 정현파를 생성하는 단계, 복수의 포르만트 파형을 생성하기 위해 복수의 정현파를 선택된 포르만트 파라미터의 창함수에 각각 승산하는 단계, 복수의 피치파형을 생성하기 위해 포르만트 파형을 가산하는 단계 및, 음성신호를 생성하기 위해 피치주기에 따라 피치파형을 중첩하는 단계를 구비하여 이루어진 것을 특징으로 하는 음성합성방법이 제공된다.
본 발명의 제2국면에 의하면, 피치패턴 및 음운계속시간 길이를 참조하여 피치마크를 생성하도록 구성된 피치마크 생성수단과, 피치패턴, 음운계속시간 길이 및 음운기호열을 참조하여 피치마크에 대응하는 피치파형을 생성하도록 구성된 피치파형 생성수단, 유성음성신호를 생성하기 위해 피치마크로 나타낸 위치에 피치파형을 중첩하도록 구성된 파형중첩장치, 무성음성을 생성하도록 구성된 무성음성 생성수단 및, 합성음성을 생성하기 위해 유성음성과 무성음성을 가산하도록 구성된 가산수단을 구비하여 구성되고, 상기 피치파형 생성수단이 복수의 포르만트 파라미터를 합성유닛의 단위로 기억하도록 구성된 기억수단과, 피치패턴, 음운계속시간 길이 및 음운기호열을 참조하여 기억수단으로부터 피치마크에 대응하는 1프레임의 포르만트 파라미터를 선택하도록 구성된 파라미터 선택수단, 독출한 포르만트 파라미터의 포르만트 주파수 및 포르만트 위상에 따라 복수의 정현파를 생성하도록 구성된 정현파 생성수단, 복수의 포르만트 파형을 생성하기 위해 복수의 정현파를 선택된 포르만트 파라미터의 창함수에 각각 승산하도록 구성된 승산수단 및, 복수의 피치파형을 생성하기 위해 포르만트 파형을 가산하도록 구성된 가산수단을 포함하고 있는 것을 특징으로 하는 음성합성장치가 제공된다.
(실시형태)
이하, 도면을 참조하여 본 발명의 실시형태를 설명한다.
도 1은 본 발명의 제1실시형태에 따른 음성합성방법을 실현하는 음성합성장치의 구성을 나타낸다. 음성합성장치는 피치패턴(306), 음운계속시간 길이(307) 및 음운기호열(308)을 받아 합성음성신호(305)를 출력한다. 상기 음성합성장치는 유성음 합성부(31)와 무성음 합성부(32)로 구성되고, 이들 합성부로부터 각각 출력하는 무성음성신호(304)와 유성음성신호(303)를 가산함으로써 합성음성신호(305)를 생성한다.
무성음 합성부(32)는 음소(音素)가 주로 무성자음이나 유성마찰음인 경우에 음운계속시간 길이(307)와 음운기호열(308)을 참조하여 무성음성신호(304)를 생성한다. 무성음 합성부(32)는 LPC 합성필터를 백색잡음으로 구동하는 방법 등의 공지의 기술에 의해 실현할 수 있다.
유성음 합성부(31)는 피치마크 생성부(33), 피치파형 생성부(34) 및 파형중첩부(35)로 구성된다. 피치마크 생성부(33)는 피치패턴(306)과 음운계속시간 길이(307)를 참조하여 도 2에 나타낸 바와 같은 피치마크(302)를 생성한다. 피치마크(302)는 피치파형(301)을 중첩하는 위치를 나타낸다. 피치마크의 간격이 피치주기에 대응한다. 피치파형 생성부는 피치패턴(306), 음운계속시간 길이(307) 및 음운기호열(308)을 참조하여 도 2에 나타낸 바와 같이 피치마크(302)의 각각에 대응하는 피치파형(301)을 생성한다. 파형중첩부(35)는 피치마크(302)로 나타낸 위치에 대응하는 피치파형(301)을 중첩함으로써 유성음성신호(303)를 생성한다.
다음으로, 도 1의 피치파형 생성부의 구성을 상세히 설명한다.
도 3에 나타낸 바와 같이, 피치파형 생성부(34)는 포르만트 파라미터 기억부(41), 파라미터 선택부(42), 정현파 생성부(43, 44, 45)로 구성된다. 포르만트 파라미터 기억부(41)에는 음성소편[합성유닛(synthesis unit)이라고도 한다]의 단위마다 포르만트 파라미터가 기억되어 있다.
도 4는 음운 /a/의 소편의 포르만트 파라미터(formant parameter)의 예를 나타내고 있다. 이 예에서는, /a/의 소편은 3프레임으로 구성되고, 각 프레임은 3개의 포르만트로 구성되어 있다. 각 포르만트의 특징을 나타내는 파라미터로서 포르만트 주파수, 포르만트 위상, 창함수(windowing function)가 포르만트 파라미터 기억부(41)에 기억되어 있다.
포르만트 파라미터 선택부(42)는 피치파형 생성부(34)로 입력되는 피치패턴(306), 음운계속시간 길이(307) 및 음운기호열(308)을 참조하여 피치마크(302)에 대응하는 1프레임분의 포르만트 파라미터(401)를 포르만트 파라미터 기억부(41)로부터 선택하여 독출한다.
포르만트 번호 1에 대응하는 파라미터가 포르만트 주파수(402), 포르만트 위상(403), 창함수(411)로서 포르만트 파라미터 기억부(41)로부터 출력된다. 마찬가지로, 포르만트 번호 2에 대응하는 파라미터가 포르만트 주파수(404), 포르만트 위상(405), 창함수(412)로서 포르만트 파라미터 기억부(41)로부터 출력된다. 더욱이, 포르만트 번호 3에 대응하는 파라미터가 포르만트 주파수(406), 포르만트 위상(407), 창함수(413)로서 포르만트 파라미터 기억부(41)로부터 출력된다.
정현파 생성부(43)는 포르만트 주파수(402)와 포르만트 위상(403)에 따라 정현파(408)를 출력한다. 정현파(408)는 창함수(411)에 의해 필터링처리되고, 포르만트 파형(414)이 생성된다. 포르만트 주파수(402)가 ω로서, 포르만트 위상(403)이 φ로서, 창함수(411)가 w(t)로서 표시되면, 포르만트 파형 y(t)는 다음 식으로 표시된다.
y(t) = w(t)*sin(ωt+φ)
정현파 생성부(44)는 포르만트 주파수(404)와 포르만트 위상(405)에 따라 정현파(409)를 출력하고, 이 정현파(409)가 창함수(412)에 의해 필터링되어 포르만트 파형(415)이 생성된다. 정현파 생성부(45)는 포르만트 주파수(406)와 포르만트 위상(407)에 따라 정현파(410)를 출력하고, 정현파(410)는 창함수(413)에 의해 필터링되어 포르만트 파형(416)을 생성한다.
피치파형(301)은 포르만트 파형(414, 415, 416)을 각각 가산함으로써 생성된다. 정현파, 창함수, 포르만트 파형, 피치파형의 예가 도 6에 나타내어져 있다. 이들 파형의 전력스펙트럼이 도 7에 나타내어져 있다. 도 6에서는 횡축이 시간을 나타내고, 종축이 진폭을 나타내고 있다. 도 7에서는 횡축이 주파수, 종축이 진폭을 나타내고 있다.
정현파는 뾰족한 피크를 갖는 선스펙트럼으로 되고, 창함수는 저역(低域)에 집중한 스펙트럼으로 된다. 시간영역에서의 필터링(승산)은 주파수영역에서는 컨볼루션(convolution: 포갬)에 상당한다. 이 때문에, 포르만트 파형의 스펙트럼은 창함수의 스펙트럼을 정현파의 주파수의 위치로 평행이동한 형상으로 되어 있다. 고로, 정현파의 주파수나 위상을 제어함으로써 피치파형의 포르만트의 중심주파수나 위상을 변화시킬 수 있다. 창함수의 형상을 제어함으로써 피치파형의 포르만트의 스펙트럼형상을 변화시킬 수 있다.
이와 같이, 포르만트마다 포르만트의 중심주파수나 위상이나 스펙트럼형상을 독립적으로 제어하는 것이 가능하므로 유연성이 높은 모델을 실현할 수 있다. 또, 창함수의 형상에 의해 스펙트럼의 미세한 구조를 실현하는 것이 가능하므로, 합성음성은 육성의 스펙트럼구조에 고정도로 근사할 수 있고, 육성감이 있는 음성을 합성하는 것이 가능하다.
본 발명의 제2실시형태의 피치파형 생성부(34)를 도 8을 참조하여 설명한다.
도 3과 서로 대응하는 부분에 동일의 참조부호를 붙이고 상위점을 설명한다.본 실시형태에서는 창함수가 기저함수(basis function)로부터 전개되어 있고, 포르만트 파라미터로서 창함수를 기억하는 대신에 가중계수(weighting factor)의 조(組)가 기억되어 있다. 창함수 생성부(56)는 가중계수의 조로부터 창함수를 생성한다.
포르만트 파라미터 기억부(51)에 기억되어 있는 포르만트 파라미터의 예가 도 5에 나타내어져 있다. 이 예에서는 3개의 기저함수의 가중합으로 창함수가 전개되어 있고, 창함수 가중계수의 세트로서 3개의 계수의 조가 기억되어 있다. 파라미터 선택부(42)는 선택되어 있는 포르만트 파라미터(501) 중에서 포르만트 주파수(402, 404, 406), 포르만트 위상(403, 405, 407)을 정현파 생성부(43, 44, 45)로 출력하고, 창함수 가중계수 세트(517, 518, 519)를 창함수 생성부(56)로 출력한다.
창함수 생성부(56)는 가중계수 세트(517, 518, 519)에 따라 창함수(511, 512, 513)를 각각 생성한다. 가중계수 세트를 각각 a1, a2, a3로 하고, 기저함수를 b1(t), b2(t), b3(t)로 하면, 창함수 w(t)는 다음 식으로 표시된다.
w(t) = a1·b1(t) + a2·b2(t) + a3·b3(t)
또한, 기저함수는 DCT 기저 등을 이용해도 좋고, 창함수를 KL전개함으로써 생성되는 기저함수를 이용해도 좋다. 본 실시형태에서는, 기저의 차수를 3으로 했지만, 차수는 몇이라도 좋다. 창함수를 기저함수로 전개함으로써, 포르만트 파라미터 기억부의 기억용량이 삭감된다.
본 발명의 제3실시형태의 피치파형 생성부(34)를 도 9를 참조하여 설명한다. 도 3과 서로 대응하는 부분에 동일의 참조부호를 붙이고 상위점을 중심으로 설명하면, 본 실시형태에서는 파라미터 변형부(67)가 새로 부가되어 있고, 피치패턴(306)에 따라 포르만트 파라미터가 변화되고 있다.
파라미터 변형부(67)는 포르만트 주파수(402), 포르만트 위상(403), 창함수(411), 포르만트 주파수(404), 포르만트 위상(405), 창함수(412), 포르만트 주파수(406), 포르만트 위상(407), 창함수(413)를 피치패턴(306)에 따라 변화시킴으로써 포르만트 주파수(720), 포르만트 위상(721), 창함수(717), 포르만트 주파수(722), 포르만트 위상(723), 창함수(718), 포르만트 주파수(724), 포르만트 위상(725), 창함수(719)를 각각 출력한다. 모든 파라미터를 변화시키도록 해도 좋고, 일부의 파라미터만을 변화시키도록 해도 좋다.
도 10은 피치주기에 따라 포르만트 주파수를 제어하는 경우의 제어함수의 예를 나타내고 있다. 이러한 제어함수는 음운마다 설정해도 좋고, 혹은 프레임마다, 포르만트 번호마다 설정해도 좋다. 이러한 제어함수를 파라미터 변형부(67)에 입력함으로써 피치주기에 따라 포르만트 주파수를 제어할 수 있다.
포르만트 주파수 그 자신이 아니라 입력 포르만트 주파수와 출력 포르만트 주파수의 차분치나 비의 값을 제어하는 제어함수가 이용되어도 좋다.
도 11은 피치주기에 따른 이득을 창함수에 승산함으로써 포르만트의 전력을 제어하기 위한 제어함수를 나타내고 있다.
이러한 제어함수를 파라미터 변형부(67)에 입력하고, 피치주기에 따라 파라미터를 변화시킴으로써 피치주기의 변화에 따른 음성의 스펙트럼의 변화를 모델화하는 것이 가능하게 된다. 그 결과, 소리의 높이에 따르지 않고 높은 음질의 합성음성을 생성할 수 있다.
또, 파라미터 변형부(67)에 음운기호열(308)을 입력함으로써, 선행 혹은 후속의 음운의 종류에 따라 포르만트 파라미터를 변화시키도록 해도 좋다. 그 결과, 음운환경에 따른 음성의 스펙트럼의 변화를 모델화하는 것이 가능하게 되고, 음질을 향상시킬 수 있다.
더욱이, 파라미터 변형부(67)에 외부로부터 입력되는 성질정보(309)에 따라 파라미터를 변화시켜도 좋다. 이에 따라, 여러 가지 성질의 합성음성을 생성하는 것이 가능하게 된다.
도 12는 포르만트 주파수를 변화시킴으로써 소리의 굵기를 바꾸는 제어함수의 예를 나타내고 있다. 제어함수 (a)를 이용하여 모든 포르만트 주파수를 변환하면, 포르만트가 고역으로 시프트하므로 가는 소리가 생성된다. 제어함수 (b)는 약간 가는 소리를 생성한다. 제어함수 (d)를 이용하면, 포르만트 주파수가 저역으로 시프트하므로, 굵은 소리가 생성된다. 제어함수 (c)는 약간 굵은 소리를 생성한다.
본 발명의 제4실시형태의 피치파형 생성부(34)를 도 13을 참조하여 설명한다. 도 3과 서로 대응하는 부분에 동일의 참조부호를 붙이고, 상위점을 중심으로 설명한다.
본 실시형태에서는 파라미터 평활화부(77)가 새로 부가되어 있고, 각 포르만트 파라미터의 시간적인 변화가 원활하게 되도록 파라미터를 평활화한다. 파라미터 평활화부(77)는 포르만트 주파수(402), 포르만트 위상(403), 창함수(411), 포르만트 주파수(404), 포르만트 위상(405), 창함수(412), 포르만트 주파수(406), 포르만트 위상(407), 창함수(413)를 각각 평활화함으로써 포르만트 주파수(820), 포르만트 위상(821), 창함수(817), 포르만트 주파수(822), 포르만트 위상(823), 창함수(818), 포르만트 주파수(824), 포르만트 위상(825), 창함수(819)를 각각 출력한다. 모든 파라미터가 평활화되어도 좋고, 일부의 파라미터만이 평활화되어도 좋다.
도 14는 포르만트의 평활화의 예를 나타내고 있다. ×가 평활화전의 포르만트 주파수(402, 404, 406)를 나타내고 있고, 선행 혹은 후속 프레임의 대응하는 포르만트 주파수와의 변화가 원활하게 되도록 평활화를 행함으로써 O으로 표시되는 평활화되어 있는 포르만트 주파수(820, 822, 824)가 각각 생성된다.
포르만트의 대응이 음성소편의 접속부에 있어서 취해지지 않는 경우에, 도 15a에 ×로 표시되도록 포르만트 주파수(404)에 대응하는 포르만트가 소멸해 버리는 일이 일어날 수 있다. 이 경우, 스펙트럼에 큰 불연속이 생겨 음질이 열화되므로, O으로 표시된 바와 같이 포르만트를 부가하여 포르만트 주파수(822)가 생성된다. 이 때, 도 15b에 나타낸 바와 같이 포르만트 주파수(822)에 대응하는 창함수(818)의 전력을 감쇠시킴으로써 포르만트의 전력의 불연속이 생기지 않도록 한다.
도 16은 창함수 위치의 평활화의 예를 나타내고 있다. 창함수(411)의 피크위치가 프레임간에서 원활하게 변화하도록 창함수 위치의 평활화를 행함으로써, 창함수(817)가 생성되고 있다. 이 외에도, 창함수의 형상이나, 창함수의 전력의 평활화를 행해도 좋다.
상술한 본 발명의 실시형태에서는 포르만트수 3의 경우에 대해 설명했지만, 포르만트수는 몇이어도 좋고, 프레임마다 포르만트수가 변화해도 좋다.
또, 본 발명의 실시형태의 정현파 생성부는 정현파를 출력하는 것으로서 설명했지만, 선스펙트럼에 가까운 전력스펙트럼을 갖는 파형이면 완전한 정현파가 아니라도 좋다.
예컨대, 계산량을 삭감하기 위해 정현파 생성부의 계산정도가 저하된다거나, 정현파 생성부가 테이블로 구성되는 경우는, 오차 때문에 완전한 정현파가 얻어지지 않는 경우가 있다.
또, 포르만트 파형의 스펙트럼은 반드시 음성신호의 산(山)의 부분을 표현하는 것으로는 한정되지 않고, 복수의 포르만트 파형의 합인 피치파형의 스펙트럼이 음성의 스펙트럼을 표현한다.
본 발명의 실시형태로서 텍스트 음성합성을 위한 합성기가 설명되어 있지만, 본 발명의 다른 실시형태로서 음성부호를 복호(復號)하는 복호화기가 있다. 즉, 부호화기는 음성신호로부터 포르만트 주파수, 포르만트 위상, 창함수 등의 포르만트 파라미터와 피치주기 등을 분석에 의해 구하고, 그들을 부호화하여 전송 혹은 축적한다. 복호화기는 포르만트 파라미터와 피치주기를 복호화하고, 상술한 합성기와 마찬가지로 음성신호를 재생한다.
상술한 음성합성은, 기록매체에 격납된 프로그램에 따라 컴퓨터를 프로그램 제어함으로써 행할 수 있다. 이 프로그램 제어를 도 17a∼도 17c를 참조하여 설명한다.
도 17a는 음성합성처리의 플로우차트를 나타내고 있고, 도 17b는 음성합성처리 중의 유성음성 생성처리의 플로우차트를 나타내고 있으며, 도 17c는 도 17b의 유성음성 생성처리의 피치파형 생성처리의 플로우차트를 나타내고 있다.
도 17a에서의 음성합성처리에 있어서는, 피치패턴(306), 음운계속시간 길이(307) 및 음운기호열(308)을 입력한다(S11). 피치패턴(306), 음운계속시간 길이(307) 및 음운기호열(308)에 기초하여 유성음성신호(303)를 생성한다(S12). 음운계속시간 길이(307) 및 음운기호열(308)을 참조하여 무성음성신호(304)를 생성한다(S13). 유성음성신호와 무성음성신호를 가산하여 합성음성신호(305)를 생성한다(S14).
도 17b에서의 유성음성 생성처리에서는, 피치패턴(306)과 음운계속시간 길이(307)를 참조하여 피치마크(302)를 생성한다(S21). 피치패턴(306), 음운계속시간 길이(307) 및 음운기호열(308)를 참조하여 피치마크(302)에 각각 대응하는 피치파형(301)을 생성한다(S22). 피치마크(302)로 나타낸 위치에 대응하는 피치파형(301)을 중첩하여 유성음성을 생성한다(S23).
도 17c에서의 피치파형 생성처리에 있어서는, 피치패턴(306), 음운계속시간 길이(307) 및 음운기호열(308)를 참조하여 피치마크(302)에 대응하는 1프레임분의 포르만트 파라미터(401)를 포르만트 파라미터 기억부(41)로부터 선택한다(S31). 선택한 포르만트 파라미터(401)의 포르만트 번호에 대응하는 포르만트 주파수와 포르만트 위상에 따라 복수의 정현파가 생성된다(S32). 복수의 정현파를 창함수에의해 필터링을 행해 포르만트 파형(414, 415, 416)을 생성한다(S33). 이들 포르만트 파형을 가산하여 피치파형을 생성한다(S34).
이상 설명한 바와 같이 본 발명에 의하면, 포르만트 주파수 및 포르만트 형상이 포르만트마다 독립적으로 제어되고 있으므로, 피치주기나 성질(聲質)의 상위에 따른 음성의 스펙트럼변화를 표현하는 것이 가능하게 되고, 음성합성에 있어서 높은 유연성을 실현할 수 있다. 창함수의 형상에 따라 포르만트의 스펙트럼의 미세한 구조를 표현할 수 있으므로, 육성감이 있는 높은 음질의 합성음성을 생성할 수 있다.
부가적인 이점 및 변형이 이 기술에 능통한 자에게 용이하게 일어날 수 있다. 본 발명은 여기에 나타내고 설명한 각종 실시형태에 한정되는 것이 아니다. 따라서, 본 발명은 그 요지를 이탈하지 않는 범위내에서 여러 가지로 변형하여 실시할 수 있다.

Claims (18)

  1. 포르만트 주파수, 포르만트 위상 및 창함수를 나타내는 다수의 포르만트 파라미터를 기억수단에 기억하는 단계와,
    피치패턴, 음운계속시간 길이 및 음운기호열에 따라 상기 포르만트 파라미터로부터 소정의 포르만트 파라미터를 선택하는 단계,
    선택된 포르만트 파라미터에 대응하는 포르만트 주파수 및 포르만트 위상에 기초하여 복수의 정현파를 생성하는 단계,
    복수의 포르만트 파형을 생성하기 위해 복수의 정현파를 선택된 포르만트 파라미터에 대응하는 창함수에 각각 승산하는 단계,
    복수의 피치파형을 생성하기 위해 포르만트 파형을 가산하는 단계 및,
    음성신호를 생성하기 위해 피치주기에 따라 피치파형을 중첩하는 단계를 구비하여 이루어진 것을 특징으로 하는 음성합성방법.
  2. 제1항에 있어서, 상기 포르만트 파형 y(t)가 다음 식에 의해 표시되는 것을 특징으로 하는 음성합성방법.
    y(t) = w(t)*sin(ωt+φ)
    (여기서, ω는 포르만트 주파수, φ는 포르만트 위상, w(t)는 창함수이다.)
  3. 제1항에 있어서, 창함수를 생성하기 위해 가중계수를 기억수단에 기억하는단계와 가중계수에 의해 가중된 기저함수를 가산하는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
  4. 제1항에 있어서, 피치주기에 따라 적어도 하나의 포르만트 파형의 전력, 적어도 하나의 창함수의 형상, 적어도 하나의 창함수의 위치 및 적어도 하나의 포르만트 주파수중의 적어도 하나를 변화시키는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
  5. 제4항에 있어서, 적어도 하나의 포르만트 파형의 전력, 적어도 하나의 창함수의 형상, 적어도 하나의 창함수의 위치 및 적어도 하나의 포르만트 주파수중의 적어도 하나가 음운마다, 프레임마다 또는 포르만트 번호마다 변화되는 것을 특징으로 하는 음성합성방법.
  6. 제1항에 있어서, 적어도 하나의 선행 또는 후속의 음운의 종류에 따라 적어도 하나의 포르만트 파형의 전력, 적어도 하나의 창함수의 형상, 적어도 하나의 창함수의 위치 및 적어도 하나의 포르만트 주파수중의 적어도 하나를 변화시키는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
  7. 제1항에 있어서, 주어진 성질(聲質)의 정보에 따라 적어도 하나의 포르만트 파형의 전력, 적어도 하나의 창함수의 형상, 적어도 하나의 창함수의 위치 및 적어도 하나의 포르만트 주파수중의 적어도 하나를 변화시키는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
  8. 제1항에 있어서, 적어도 하나의 선행의 피치파형 또는 후속의 피치파형의 대응하는 적어도 하나의 포르만트 파형의 전력, 적어도 하나의 포르만트 주파수, 적어도 하나의 창함수의 형상, 적어도 하나의 정현파의 위상 및 적어도 하나의 창함수의 위치중의 적어도 하나에 따라 적어도 하나의 포르만트 파형의 전력, 적어도 하나의 포르만트 주파수, 적어도 하나의 창함수의 형상, 적어도 하나의 정현파의 위상 및 적어도 하나의 창함수의 위치중의 적어도 하나를 변화시키는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
  9. 제1항에 있어서, 적어도 하나의 선행의 피치파형 또는 후속의 피치파형의 대응하는 포르만트의 존재(presence)에 따라 적어도 하나의 포르만트 파형의 전력, 적어도 하나의 포르만트 주파수, 적어도 하나의 창함수의 형상, 적어도 하나의 정현파의 위상 및 적어도 하나의 창함수의 위치중의 적어도 하나를 변화시키는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
  10. 제1항에 있어서, 포르만트 주파수, 포르만트 위상 및 창함수를 선택적으로 평활화하는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
  11. 피치패턴, 음운계속시간 길이 및 음운기호열을 공급받는 것으로,
    상기 피치패턴 및 음운계속시간 길이를 참조하여 피치마크를 생성하는 수단(33)과,
    상기 피치패턴, 음운계속시간 길이 및 음운기호열을 참조하여 상기 피치마크에 대응하는 피치파형을 생성하는 수단(34),
    유성음성신호를 생성하기 위해 피치마크로 나타낸 위치에 피치파형을 중첩하는 수단(35),
    무성음성을 생성하는 수단(32) 및,
    합성음성을 생성하기 위해 유성음성과 무성음성을 가산하는 수단을 구비하여 구성되고,
    상기 피치파형을 생성하는 수단이,
    복수의 포르만트 파라미터를 합성유닛의 단위로 기억하는 수단(41)과,
    상기 피치패턴, 음운계속시간 길이 및 음운기호열을 참조하여 상기 기억수단으로부터 피치마크에 대응하는 1프레임의 포르만트 파라미터를 선택하는 수단(42),
    독출한 포르만트 파라미터의 포르만트 주파수 및 포르만트 위상에 따라 복수의 정현파를 생성하는 수단(43∼45),
    복수의 포르만트 파형을 생성하기 위해 복수의 정현파를 선택된 포르만트 파라미터의 창함수에 각각 승산하는 수단 및,
    복수의 피치파형을 생성하기 위해 포르만트 파형을 가산하는 수단을 포함하고 있는 것을 특징으로 하는 음성합성장치.
  12. 제11항에 있어서, 상기 기억수단(41)이 창함수를 기억하는 것을 특징으로 하는 음성합성장치.
  13. 제11항에 있어서, 상기 기억수단(51)이 창함수의 가중계수를 기억하고,
    상기 가중계수에 의해 가중된 기저함수를 가산함으로써 창함수를 생성하는 수단(56)을 구비하는 것을 특징으로 하는 음성합성장치.
  14. 제11항에 있어서, 피치주기에 따라 선택된 포르만트 파라미터를 변형하는 수단(67)을 포함하는 것을 특징으로 하는 음성합성장치.
  15. 제14항에 있어서, 상기 변형수단(67)이 선택된 포르만트 파라미터를 음운마다, 프레임마다 또는 포르만트 번호마다 변형하는 것을 특징으로 하는 음성합성장치.
  16. 제11항에 있어서, 선행의 음운 또는 후속의 음운의 정보에 따라 선택된 포르만트 파라미터를 변형하는 수단(67)을 포함하는 것을 특징으로 하는 음성합성장치.
  17. 제11항에 있어서, 주어진 성질에 따라 선택된 포르만트 파라미터를 변형하는 수단(67)을 포함하는 것을 특징으로 하는 음성합성장치.
  18. 제11항에 있어서, 시간적으로 변화하는 선택된 포르만트 파라미터를 평활화하는 수단(77)을 포함하는 것을 특징으로 하는 음성합성장치.

KR10-2002-0016033A 2001-03-26 2002-03-25 음성합성방법, 음성합성장치 및 기록매체 KR100457414B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2001087041 2001-03-26
JPJP-P-2001-00087041 2001-03-26
JPJP-P-2002-00077096 2002-03-19
JP2002077096A JP3732793B2 (ja) 2001-03-26 2002-03-19 音声合成方法、音声合成装置及び記録媒体

Publications (2)

Publication Number Publication Date
KR20020076144A true KR20020076144A (ko) 2002-10-09
KR100457414B1 KR100457414B1 (ko) 2004-11-16

Family

ID=26612017

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0016033A KR100457414B1 (ko) 2001-03-26 2002-03-25 음성합성방법, 음성합성장치 및 기록매체

Country Status (5)

Country Link
EP (1) EP1246163B1 (ko)
JP (1) JP3732793B2 (ko)
KR (1) KR100457414B1 (ko)
CN (1) CN1185619C (ko)
DE (1) DE60205421T2 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003254398A1 (en) * 2002-09-10 2004-04-30 Leslie Doherty Phoneme to speech converter
JP2004294816A (ja) * 2003-03-27 2004-10-21 Yamaha Corp 携帯端末装置
JP4214842B2 (ja) 2003-06-13 2009-01-28 ソニー株式会社 音声合成装置及び音声合成方法
JP2005004105A (ja) * 2003-06-13 2005-01-06 Sony Corp 信号生成装置及び信号生成方法
JP2005234337A (ja) * 2004-02-20 2005-09-02 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP4469883B2 (ja) 2007-08-17 2010-06-02 株式会社東芝 音声合成方法及びその装置
JP5275102B2 (ja) 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
JP5631915B2 (ja) 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
JP6728843B2 (ja) * 2016-03-24 2020-07-22 カシオ計算機株式会社 電子楽器、楽音発生装置、楽音発生方法及びプログラム
CN108257613B (zh) * 2017-12-05 2021-12-10 北京小唱科技有限公司 修正音频内容音高偏差的方法及装置
CN108597527B (zh) * 2018-04-19 2020-01-24 北京微播视界科技有限公司 多声道音频处理方法、装置、计算机可读存储介质和终端
CN110189743B (zh) * 2019-05-06 2024-03-08 平安科技(深圳)有限公司 波形拼接中的拼接点平滑方法、装置及存储介质

Also Published As

Publication number Publication date
EP1246163A3 (en) 2003-08-13
DE60205421T2 (de) 2006-04-20
CN1378199A (zh) 2002-11-06
KR100457414B1 (ko) 2004-11-16
EP1246163B1 (en) 2005-08-10
JP3732793B2 (ja) 2006-01-11
EP1246163A2 (en) 2002-10-02
JP2002358090A (ja) 2002-12-13
CN1185619C (zh) 2005-01-19
DE60205421D1 (de) 2005-09-15

Similar Documents

Publication Publication Date Title
KR940002854B1 (ko) 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
JP3985814B2 (ja) 歌唱合成装置
US10008193B1 (en) Method and system for speech-to-singing voice conversion
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
EP1701336B1 (en) Sound processing apparatus and method, and program therefor
JP2009047837A (ja) 音声合成方法及びその装置
KR100457414B1 (ko) 음성합성방법, 음성합성장치 및 기록매체
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
US7251601B2 (en) Speech synthesis method and speech synthesizer
JP2018077283A (ja) 音声合成方法
US20090326951A1 (en) Speech synthesizing apparatus and method thereof
Agiomyrgiannakis et al. ARX-LF-based source-filter methods for voice modification and transformation
Meron et al. Synthesis of vibrato singing
JP6834370B2 (ja) 音声合成方法
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
JP3727885B2 (ja) 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置
JP2000010597A (ja) 音声変換装置及び音声変換方法
WO2003090205A1 (en) Method for synthesizing speech
JP3059751B2 (ja) 残差駆動型音声合成装置
JP2018077280A (ja) 音声合成方法
JP6822075B2 (ja) 音声合成方法
JPH0836397A (ja) 音声合成装置
JP2002244693A (ja) 音声合成装置および音声合成方法
JPH07152396A (ja) 音声合成装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110920

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20121023

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee