KR100385603B1 - 음성세그먼트작성방법,음성합성방법및그장치 - Google Patents

음성세그먼트작성방법,음성합성방법및그장치 Download PDF

Info

Publication number
KR100385603B1
KR100385603B1 KR1019950046901A KR19950046901A KR100385603B1 KR 100385603 B1 KR100385603 B1 KR 100385603B1 KR 1019950046901 A KR1019950046901 A KR 1019950046901A KR 19950046901 A KR19950046901 A KR 19950046901A KR 100385603 B1 KR100385603 B1 KR 100385603B1
Authority
KR
South Korea
Prior art keywords
waveform
speech
segment
voice
pitch
Prior art date
Application number
KR1019950046901A
Other languages
English (en)
Other versions
KR960025314A (ko
Inventor
가마이다카히로
마츠이겐지
하라노리요
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP6302471A external-priority patent/JPH08160991A/ja
Priority claimed from JP7220963A external-priority patent/JP2987089B2/ja
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR960025314A publication Critical patent/KR960025314A/ko
Application granted granted Critical
Publication of KR100385603B1 publication Critical patent/KR100385603B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

창인출후의 음성피치 세그먼트가 인접피치들간의 차를 취하는 형식으로 압축음성 세그먼트DB에 기억되고, 상태 보유부, 샘플 판독부 및 파형보유부의 세트가 복수개 설치되고, 압축음성 세그먼트DB에서 차분 파형을 판독하면서 원래 파형을 조합하여 이들을 가산 중첩부에서 중첩시킴으로써 원하는 피치주기를 갖는 음성 파형이 합성되고, 그밖에 자연음성 세그먼트 채널과 합성음성 세그먼트 채널을 설치함으로써, CV단위로 기록된 음성 세그먼트들이 자연음성 세그먼트 채널에 기억되는 한편, 제 1 및 제 2 포르만트 주파수의 각 축상에 그려진 F1-F2공간을 분할하는 각 영역에 대응하는 포르만트 합성파형들이 상기 합성음성 세그먼트 채널에 기억되고, 어느 한 채널에서 상기 음성 세그먼트가 각 피치주기에서의 창인출에 의해 인출되고, 자연음성 세그먼트 채널에서 세그먼트들이 원래 CV합성과 같이 접속되지만, 상호 세그먼트의 접속점에서 제 1 및 제 2 포르만트 주파수 상호의 변화궤적이 상기 합성음성 세그먼트들을 접속시킴으로써 합성된다.

Description

음성세그먼트 작성방법, 음성합성방법 및 그 장치
산업상의 이용분야
본 발명은 전화조회 서비스와 음성정보 안내시스템, 퍼스널 컴퓨터용 음성규칙 합성장치 등에 응용가능한 음성세그먼트 작성방법, 음성합성방법 및 그 장치에 관한 것이다.
종래의 기술
텍스트를 음성으로 변환하는 음성규칙 합성기술은 예를 들어 퍼스널 컴퓨터등으로 다른 일을 하면서 설명문이나 전자 우편을 열거나, 워드 프로세서로 작성한 원고를 귀로 들으면서 교정하는 데 이용할 수 있다. 또, 전자북 등의 기기에 음성합성을 이용한 인터페이스를 결합시킴으로써 플로피 디스크나 CD-ROM 등에 저장된 텍스트를 액정 디스플레이 등을 이용하지 않고 읽을 수 있다.
이와 같은 목적에 이용되는 음성합성장치는 소형이고 가격이 낮은 것이 바람직하다. 종래, 이와 같은 용도에는 파라미터 합성방법이나 압축녹음재생방식 등이 이용되어 왔으나, 종래의 음성합성방법에서는 DSP(디지털 시그널 프로세서) 등의 특수 하드웨어나 대용량의 메모리가 사용되므로, 이러한 용도의 응용은 거의 시도되지 않았다.
텍스트를 음성으로 변환하는 데는 음소체인의 규칙(a rule of a chain of phonemes)을 모델로 만들고 이 규칙에 의한 파라미터들을 목적 텍스트에 따라 변환시키면서 합성하는 방법과, 음성을 CV단위나 VCV단위(C는 자음, V는 모음을 나타낸다) 등의 작은 음소체인 단위로 해석하고, 세그먼트들로 저장된 실제음성에서 모든 필요한 음소체인들을 수집하고, 목적 테스트에 따라 이 세그먼트들을 접속시킴으로써 합성하는 방법이 있다. 여기서 전자는 파라미터 합성방식(parameter synthesizing method)이라 하고, 후자는 접속 합성방식(connection synthesizing method)이라 한다.
대표적인 파라미터 합성방식은 포르만트 합성방법(formant synthesizing method)이다. 이것은 음성형성과정을 성대진동의 음성소스모델과 발성관(vocal tract)의 전달함수모델로 분리하고, 두 모델들의 파라미터 시간변화로 소망음성을 합성하는 방법이다. 포르만트 합성방식에 이용되는 대표적인 파라미터는 포르만트(formant)라는 음성진동의 주파수축상의 퍼크 위치이다. 이 파라미터들은 음성 재료(phonetic findings)에 기초한 상기 규칙과, 파라미터들의 대표적 값들을 저장한 표를 이용하여 생성된다.
파라미터 합성방법은 발성관 전달함수의 계산과 같은 계산비용이 높고, DSP등은 실시간 합성에 필수적이다. 그러나, 파라미터 제어를 위해서 다수의 규칙이 관련되고, 음질개선이 어렵다. 한편, 상기 표와 규칙을 데이터량이 작으므로 적은 기억용량으로도 충분하다.
반면에 접속합성방법은 세그먼트의 기억형식에 따라 다음의 2가지 종류가 있다. 즉, 음성모델을 사용함으로써 세그먼트들을 PARCOR 계수나 LSP파라미터들로 변환하는 방법과, 음성모델을 사용하지 않고 직접 음성파형을 축적하는 파형접속 방법이 알려져 있다.
파라미터 접속방법에서 음성이 CV음절, CVC, VCV(C는 자음, V는 모음을 나타낸다) 등의 소단위로 구분되고, PARCOR계수 등의 파라미터들로 변환되어 메모리에축적되고, 필요에 따라 재생되며 여기서 메모리 형식은 음성파라미터이므로, 합성시에 피치나 시간길이를 용이하게 바꿀 수 있어 세그먼트들이 부드럽게 접속될 수 있다. 그밖에 필요한 메모리 용량이 비교적 적다. 그러나, 합성을 위한 계산처리량이 비교적 크다는 단점이 있다. 그래서, DSP 등의 전문 하드웨어가 필요하다. 그러나, 음성모델화가 불충분하므로, 파라미터들에서 재생된 음성의 음질에는 한계가 있다.
한편, 파형접속방법으로서 메모리에 직접 음성을 축적하는 방법과, 메모리에 축적될 음성을 압축하고 부호화한 뒤 필요시에 재생하는 방법이 알려져 있고, 압축부호화를 위해 μ-Law코딩이 ADPCM 등이 이용되고, 파라미터 접속방법보다 충실도가 더 높은 음성을 합성할 수 있다.
합성하는 음성의 내용이 소수로 제한되는 것이면, 문장단위나 문절단위, 단어단위로 녹음해 두고 적당히 편집하면 된다. 그러나, 임의의 텍스트를 합성하기 위해서는 파라미터 합성방식과 같이 더 자세한 음성세그먼트 형태로 축적해 두어야 한다. 또, 파라미터 합성과 달리 피치나 시간 길이의 변경이 곤란하기 때문에 고품질의 합성을 위해서는 다양한 피치나 시간길이를 갖는 세그먼트를 준비해야 한다.
그러므로, 각 세그먼트들의 기억용량을 파라미터 접속방법의 경우보다 수십배 이상이고, 고품질이 요구되는 경우 더 큰 기억용량이 필요하다. 기억용량을 증가시키는 인자들은 세그먼트에 사용된 음절체인단위의 복잡성과, 피치 및 시간길이의 변동을 고려한 세그먼트의 작성에 의해 지배된다.
상술한 바와 같은 음소체인단위로는 CV단위나 VCV단위를 고려할 수도 있다.CV단위는 일본어의 한음절에 상당하는 자음 및 모음의 쌍을 조합한 단위이다. 26개 자음과 5개 모음을 가정하면 CV단위는 130종류의 조합을 얻을 수 있다. CV접속에서 선행 모음에서 자음까지의 연속적인 파형변화는 표현될 수 없기 때문에 자연스러움이 없어진다. CV단위에 선행 모음을 포함하는 단위가 VCV단위이다. VCV단위는 CV단위보다 5배나 많은 650종류를 얻을 수 있다.
파라미터 접속방법과 달리 파형접속방법에서 피치와 시간길이는 일단 작성되면 바꾸기가 곤란하다. 따라서, 사전에 다양한 피치와 시간길이로 발음된 음성에서 변동을 포함한 세그먼트들이 작성되어야 하고, 이로써 기억용량이 증가된다.
그래서, 파형접속방법은 음성을 고품질로 합성하기 위해서는 큰 기억용량을 요구하고, 파라미터 합성방법의 수배에서 수십배의 큰 기억용량이 필요하다. 그러나, 원리적으로는 대용량의 기억장치를 이용함으로써 매우 품질이 높은 음성을 합성할 수 있다.
그러므로, 고품질의 음성합성방식에는 파형접속방식이 유리하지만, 음성세그먼트에 고유의 피치와 시간길이를 제어할 수 없는 것과, 대용량의 기억장치가 필요한 것이 문제이다.
이 문제를 해결하기 위해 음성파형을 피치에 동기하여 창함수로 인출하고, 합성시에 원하는 피치 주기가 되도록 겹쳐 행하는 PSOLA(Pitch Synchronous Overlap Add) 방법이 고안되어 있다(일본국 특개평 3-501896).
이 방법에서 인출하는 위치는 성문 폐쇄(closure of the glottis)에 의한 여진 펄스의 피크를 창함수의 중심으로 한다. 창함수의 형상은 양단에서 0까지 감쇠하는 것(예를 들어 Hanning창)을 이용한다. 창길이는 음성파형의 원피치 주기보다 합성 피치주기를 짧게 하는 경우는 합성피치주기의 2배이고, 반대로 합성피치 주기를 길게 하는 경우는 원피치 주기의 2배이다. 또, 인출한 피치파형의 주기를 줄이거나 반복함으로써 시간길이의 제어도 가능해진다.
상기 방법에 의하면, 하나의 음성세그먼트에서 임의의 피치와 시간길이의 파형을 합성할 수 있기 때문에, 고품질의 합성음을 적은 기억용량으로 얻을 수 있다.
그러나, 상기와 같은 방법에서는 음성합성시의 계산량이 많은 문제가 있다. 그것은 합성시에 피치파형을 창함수를 이용하여 인출할 필요가 있고, 삼각함수의 계산과 승산이 빈번하게 행해지기 때문이다.
예를 들어 파형샘플 하나를 합성하기 위해 필요한 계산은 이하와 같다. 피치 파형의 샘플 하나를 생성하기 위해서는 음성세그먼트를 판독하기 위한 메모리 판독이 1 회, Hanning 창함수의 계산에 필요한 삼각함수의 계산이 1회 및 가산이 1회(삼각함수에 직류 오프셋을 주기 위함), 삼각함수에 주는 각도의 계산을 위한 승산이 1회, 삼각함수의 값을 이용하여 음성파형에 창을 적용하기 위한 승산이 1회이다. 피치 파형이 2개 겹쳐 합성파형이 만들어지므로, 합성파형의 한 샘플당 메모리 액세스 2회, 삼각함수의 계산이 2회, 승산이 4회, 가산이 3회가 된다(제 19 도 참조).
부연하면, 음소체인단위의 증가를 막기위해, 하이브리드 방법이 제안되어 있다(일본국 특개평 6-050890). 이 방법에서 기본적으로는 세그먼트들이 CV단위로만 구성되어 있고, 모음에서 자음으로의 파형전환부분이 파라미터 합성방법에 의해 생성된다. 그러므로, 음소체인단위는 약 130종류이고, 파라미터 합성부분의 조작속도가 낮아질 수 있어, 계산경비가 순수 파라미터 합성방법에 비해 낮게 억제될 수 있다.
그러나, 하이브리드 방법에서는 파라미터 합성부분의 계산경비가 높다. 또한, 실시간 파라미터 합성이나 높은 파라미터 전환속도의 경우에 계산 정밀도 효과나 합성 전달함수(소위 필터)의 과도적 특성효과로 인하여 유해한 소음이 생길 수 있다. 따라서, 합성음의 중간에 퉁탕거리는 이상음이 생길 수 있어 음질이 열화된다.
발명의 개요
본 발명은 종래 음성합성에 의한 이와 같은 과제를 고려하여 음질열화가 적고 음성합성시의 계산량을 감소시킬 수 있는 음성세그먼트 작성방법, 음성합성방법 및 그 장치를 제공하는 것을 주목적으로 한다.
본 발명에 따르면, 음성파형의 소정구간내 피치주기마다 존재하는 각 피크에 대해 인접한 양피크에 도달하기 보다 짧은 길이의 창함수에 의해 피치 파형이 인출되고, 이 음성파형에 기초하여 모든 원하는 음성파형에 대한 음성 세그먼트 데이터가 작성되고, 그 음성 세그먼트 데이터가 저장되고, 원하는 음성 세그먼트 데이터의 원하는 피치파형이 상기 저장된 음성 세그먼트 데이터에서 판독되고, 원하는 피치주기 간격이 되도록 겹쳐 배치되고, 합산되어 하나의 음성 파형으로 생성된다.
본 발명은 또한 시간정보, 소정기능을 나타내는 기능정보, 및 이 소정기능에 대응하는 임의 개수의 파라미터들을 갖는 제어신호열로서 제어신호열을 생성하고,제어신호의 기능정보와 파라미터들을 사용함으로써 시간정보로 표현된 타이밍에 따라 상기 음성 세그먼트들을 제어하는 음성합성방법을 제시한다.
본 발명은 또한 시간정보, 소정기능을 표현하는 기능정보, 및 이 소정기능에 대응하는 임의 개수의 파라미터들을 갖는 제어신호열로서 제어신호열을 생성하고, 제어신호의 기능정보와 파라미터들을 사용함으로써 시간정보로 표현된 타이밍에 따라 상기 음성 세그먼트들을 제어하는 음성합성장치를 제시한다.
본 발명에서 이제까지 파라미터 합성에 의해 이루어지던 모음에서 자음까지의 파형전환부분이 소정 접속해석으로 대체된다. 그 수단으로서, 파형전환부분의 생성에 사용되는 세그먼트들이 미리 파라미터 합성에 의해 합성된다. 그 결과, 종래 파라미터 합성부분에 대응하는 자음에서 모음으로의 파형 전환부분에 드는 계산경비는 다른 접속합성부분들과 거의 동일하고, 종래 기술보다 더 낮은 계산용량으로 합성이 실현되고, 더욱이 계산속도의 변동을 흡수하는 버퍼 메모리의 용량이 감소될 수도 있다. 더욱이, 파형전환부분에 사용되던 세그먼트들은 고정 파라미터들의 예비적 사용에 의해 합성되므로 파라미터 전환도중에 합성상의 문제가 되는 이상음(unusual sound)이 이론상으로는 생기지 않는다.
이상의 설명에서 분명하듯이, 본 발명의 이점은 음성 합성시 계산량이 음질의 열화없이 감소될 수 있다는 것이다.
다른 이점은 피치 파형의 차분을 계산하여 음성 세그먼트들을 압축함으로써 원하는 메모리 용량이 감소될 수 있다는 것이다.
본 발명에 의하면, 종래 기술의 파라미터 합성부분에 대응하는 자음에서 모음으로의 파형변화 부분에서의 계산경비는 다른 접속합성부분과 유사하고, 그래서 전체 계산경비가 매우 낮게 억제될 수 있다.
또한, 계산속도의 변동을 흡수하는 데 지금까지 요구되는 버퍼 메모리의 용량이 감소될 수 있다.
또한, 파라미터 합성에 생성된 이상음 문제가 이론적으로 제거될 수 있다.
(실시예)
이하에, 본 발명을 그 실시예를 나타내는 도면에 기초하여 설명한다.
제 1 도는 본 발명에 관한 제 1 실시예의 음성합성장치의 구성도이다. 즉, 그 음성합성장치에는 제어수단인 제어부(1)가 설치되고, 그 출력은 관리수단인 관리부(2), 복수 설치된 상태 보유부(3) 및 진폭 제어부(4)에 접속되어 있다. 관리부(2)는 복수의 상태 보유부(3)에 접속되고, 이 복수의 상태 보유부(3)는 피치 파형 판독부인 복수의 샘플 판독부(5)에 1 : 1로 접속되어 있다. 그 복수의 샘플 판독부(5)의 출력은 가산 중첩부(6)의 입력에 접속되고, 가산 중첩부(6)의 출력은 진폭 제어부(4)에 접속되어 있다. 그 진폭 제어부(4)의 출력은 출력부(8)에 접속되고, 전기신호에서 음향진동으로 변환되어 음으로 출력된다. 또, 복수의 샘플 판독부(5)에는 하나의 음성세그먼트 데이터 기억수단인 음성세그먼트DB(7)이 접속되어 있다.
다음에 상기와 같이 구성된 음성합성장치의 동작에 대해 흐름도를 참조하면서 설명한다. 제 2 도는 제어부(1)를 중심으로 한 전체 처리의 흐름을 나타낸 흐름도이다.
제어부(1)는 우선 로마자 표기나 가타카나 등의 발음 기호에 액센트 및 구분 정보를 부가한 것을 입력 데이터로 받는다(스텝S1). 다음에 그들을 해석하고, 결과를 음절마다 버퍼에 저장한다(스텝S2). 제 3 도는 음절버퍼의 데이터 구조이다. 음절마다 음절ID, 문구길이, 액센트 레벨, 듀레이션, 개시 피치, 중앙 피치 등의 데이터 필드를 갖고, 한번에 입력되는 음절수(예를 들어 1행분량)를 저장할 수 있는 길이를 가진 배열을 이루고 있다.
제어부(1)는 입력 데이터를 해석하고, 음절ID, 문구길이, 액센트 레벨을 설정한다. 음절ID는 'ぁ'나 'か' 등의 음절을 특정하기 위한 번호이다. 문구길이는 입력 구분기호로 둘러싸인 범위내의 음절수를 나타내는 수치이고, 문구가 시작하는 음절의 필드에 그 수치가 설정된다. 액센트 레벨은 액센트 강도를 나타내고, 문구마다 0 또는 1의 액센트 레벨이 존재한다.
예를 들어 '音聲合成'이라고 하는 단어를 언어처리한 결과인 'オ()ソ(ŋ)セ(se)エ(e)/ ゴ(g) 1オ()セ(se)エ(e)' (/은 구분 기호, 1은 액센트 레벨)이라 하는 기호열을 입력했을 때 음절ID, 문구길이 및 액센트 레벨이 설정되는 모드를 제 4 도에 나타낸다. 문구길이는 문구의 맨앞 음절에 설정된다.
다음에 상기에서 설정된 문구길이와 액센트 레벨의 정보를 기본으로 운율(prosodics)을 설정한다(스텝S3). 운율의 설정은 듀레이션(여기서는 음절의 지속시간)의 설정과 피치의 설정으로 나누어진다. 듀레이션은 미리 결정해 둔 음성속도와, 음절의 전후관계 등을 고려한 규칙에 의해 결정된다. 또, 피치는 후지사키 모델(Fujisaki model) 등의 피치 생성방법으로 생성한 것을 음절의 개시부와 중앙부 2군데의 값으로 나타낸다. 앞의 'オソセエ / ゴ1 オセエ'의 입력 기호열에 운율이 설정되는 모드를 제 5 도에 나타낸다.
이렇게 하여 생성된 음절 버퍼를 순서대로 하나씩 판독하고, 이벤트 리스트(event list)를 생성한다(스텝S5). 만약, 음절버퍼의 나머지가 없으면(스텝S4) 처리를 종료한다. 이벤트 리스트는 음성파형 합성부에 대해 직접 지시를 주기 위한 기능정보인 이벤트라 부르는 정보의 배열이고, 제 6 도에 나타나는 구조로 되어 있다. 각 이벤트는 다음의 이벤트까지 간격인 '이벤트 간격'을 시각정보로 갖기 때문에, 이벤트 리스트는 시간축에 따른 제어정보로 기능한다.
이벤트의 종류에는 SC(Segment Change : 음성세그먼트 전환). TG(Trigger : 트리거)등이 있다. SC는 음성세그먼트를 음절ID가 나타내는 음절종류에 대응한 것으로 전환하는 지시이다.
또, 각각의 이벤트 종류에 따라 데이터가 부여된다. SC는 파라미터 음성세그먼트ID, TG는 피치ID를 데이터로 갖는다. 음성세그먼트ID는 각 음절에 대응한 음성세그먼트를 가리키는 번호, 피치ID는 각 음성세그먼트중의 피치 주기마다 전환된 파형(피치 파형)를 가리키는 번호이다.
음절버퍼를 하나 판독하면 음절ID를 참조하고, 대응하는 음성세그먼트ID를 데이터에 설정하고 SC 이벤트를 생성한다. 이벤트 간격은 0이 좋다.
다음에, TG이벤트를 생성한다. 그 전에 음성세그먼트DG(7)에 저장된 음성세그먼트의 데이터 구조에 대해 설명한다.
제 7 도는 음성세그먼트의 데이터 구조의 설명도이다. 음절세그먼트은 하나의 초기파형과 복수의 피치 파형으로 나누어져 있다. 예를 들어 'ヵ'라고 하는 음절의 첫머리에는 성대진동이 없고 피치를 갖지 않은 무성음 구간이 있다. 이 부분은 자음 'k'가 조음되어 있는 부분이다. 이와 같은 장소는 합성시에 피치를 제어할 필요가 없기 때문에, 그대로 파형을 보유해 둔다. 이것을 초기파형이라 부른다.
이와 같은 초기파형은 k, s, t등의 무성자음뿐 아니라, g, z, d 등의 유성자음에서도 사용된다. 예를 들어 z 등의 경우는 잡음성이 강하거나 다른 유성자음에서도 초기에 피치가 불안정하기 때문에 피치파형을 인출하기 어렵기 때문이다. 따라서, 첫머리의 짧은 구간을 초기 파형으로 인출해 둔다.
'k'의 구간이 종료하면 성대의 진동을 개시하고, 유성음 구간에 들어간다. 이와 같은 구간에는 피치 주기에 대응하는 파형의 피크를 중심으로 Hanning창으로 인출함으로써, 피치 주기마다 분리하여 보유해 둔다. 이것을 피치파형이라 한다.
각각의 음성세그먼트 데이터는 "초기파형 길이", "초기파형 포인트", "피치파형개수", 그리고 복수의 "피치파형"으로 이루어지는 구성이다. "피치파형"의 크기는 상술한 Hanning창의 창길이를 구하는 데 충분한 크기로 한다. 후술한 바와 같이 창길이는 피치 주기의 2배보다 작은 값이고, 그 크기의 결정방법은 정밀함이 요하지 않는다. 창길이는 모든 음성세그먼트의 모든 피치파형에 대해 균일해도 좋고, 음성 세그먼트마다 다른 값으로 설정해도 좋고, 각 피치파형마다 다른 값으로 설정해도 좋다. 어느 한 방법으로도 창길이의 변동은 작다. 따라서, 피치파형을 복수개 모은 2차원 배열은 기억영역을 유효하게 사용하게 한다.
이 구조체의 배열을 작성하고, 펄요한 모든 음성(음절)에 대한 음성세그먼트를 축적해 둔다. 또, 초기파형은 다른 영역에 따로 기억해 둔다. 초기파형은 음성세그먼트에 따라 길이가 불균일하기 때문에, 음성세그먼트의 구조체에 포함되면 메모리 용량이 소용없게 되므로, 1 차원 배열로 다른 연속한 영역에 저장하는 것이 좋다.
이와 같은 음성세그먼트를 준비하는 것을 전제로, 앞의 TG 이벤트 생성에 대한 설명으로 되돌아간다.
TG 이벤트 데이터에는, 피치ID를 설정한다. 최초의 TG이벤트의 데이터에는 초기 파형을 나타내는 0을 설정한다. 이벤트 간격은 "초기파형의 길이"에서 창길이의 1/2을 뺀 것이다.
다음에, 이어서 TG이벤트를 생성한다. 이 TG이벤트의 데이터에는 최초의 피치파형을 나타내는 1을 설정한다. 이벤트 간격은 그 피치 파형이 합성할 때 이용되는 위치의 피치주기이다. 피치 주기는 음절버퍼의 피치정보(개시 피치와 중앙 피치)에서 보간법으로 정한다.
마찬가지로 하여, TG이벤트를 1음절 분량 생성한다. 각 TG이벤트의 데이터인 피치ID는 피치파형내 원래 음성파형의 위치와 합성시 음절내의 위치가 가장 가까워지도록 선택한다. 즉, 원래의 음성파형 피치와 함성시의 피치가 같으면 피치 ID는 0, 1, 2,,,로 하나씩 증가하지만, 합성시의 피치 쪽이 높은 경우는 0, 1, 1, 2, 3, 3,,,과 같이 같은 번호를 몇번 반복한다. 반대로 합성시의 피치쪽이 낮은 경우는 0, 1, 3, 4, 6,,,과 같이 중간 번호를 건너뛴다. 이렇게 하는 경우에 합성시의 피치 제어에 의해 음성세그먼트의 시간길이가 변화하는 것을 막는다. 제 8 도에 음절'オ'에 대해 이벤트 리스트가 생성되는 모드를 나타낸다.
1음절 분량의 이벤트 리스트가 생성되면 다음 단계로 이동하고, 이벤트 판독 및 합성제어 처리를 행한다(스텝S7). 이 처리를 자세히 설명한 흐름도를 제 9 도에 나타낸다. 제 9 도에서 이벤트를 하나 추출하고(스텝S11), 그 이벤트 종류가 SC인지 아닌지를 판정하여(스텝S12), SC이면 음성세그먼트 전환처리를 실행하고(스텝S13), SC가 아니면 이벤트 종류가 TG인지 아닌지를 판정하고(스텝S14), TG이면 트리거 처리를 실행한다(스텝S15). 그 후, 다음의 이벤트를 판독하는 시기가 왔는지 어떤지를 판정하고(스텝S8), 그 시기가 올 때까지 음성파형합성 처리를 반복하여 행하고(스텝S9), 또한 이벤트 리스트가 종료할 때까지 이벤트 판독에서 음성파형합성까지 반복한다.
제 9 도중의 음성세그먼트 전환처리, 및 트리거 처리에 대해서는 후술한다. 이들의 처리는 각 이벤트가 갖는 이벤트 간격에 따라 행해지기 때문에, 피치의 제어등 시간정보에 기초한 처리가 행해진다. 즉, 어떤 이벤트를 판독할 때, 이벤트 간격이 20이라면, 다음 처리인 음성파형합성을 20회 실행한 후, 다음의 이벤트를 판독한다. 음성파형 합성처리에서는 1샘플의 음성파형을 합성한다. TG이벤트의 이벤트 간격은 피치 주기로 되어 있기 때문에 TG이벤트에 따라 피치 파형을 판독함으로써, 목적 피치 주기를 가진 음성파형이 합성된다. 목적 피치를 가진 음성이 합성되는 모드를 제 10 도에 나타낸다.
다음에 음성파형 합성처리를 자세히 설명한다. 관리부(2)는 음성세그먼트ID을 관리하는 동시에 복수 설치된 상태 보유부(3)과 샘플 판독부(5)의 조합(엘리먼트라한다)내, 어느 엘리먼트를 다음에 사용하는지를 나타내는 엘리먼트ID를 관리한다. 각 엘리먼트의 상태 보유부(3)는 현재의 피치ID, 피치 파형의 선두 어드레스 및 최종 어드레스, 현재 판독중의 어드레스를 나타내는 판독 어드레스를 보유하고 있다. 샘플 판독부(5)는 상태 보유부(3)에서 판독 어드레스를 추출하고, 그것이 최종 어드레스를 넘지 않으면 음성세그먼트DB(7)의 대응 어드레스에서 음성세그먼트를 1샘플 판독한다. 그후, 상태 보유부(3)의 판독 어드레스를 하나 가산한다. 가산 중첩부(6)은 모든 엘리먼트의 샘플 판독부(5)의 출력을 가산하여 출력한다. 이 출력은 진폭 제어부(4)에 의해 진폭 제어를 받고, 출력부(8)에 의해 음향진동으로 변환되어 음성으로 출력된다.
제 9 도 중의 음성세그먼트 전환처리에서 관리부(2)의 음성세그먼트ID은 주어진 음절ID에 대응하는 것으로 변경된다.
또, 트리거 처리에서는 관리부(2)의 엘리먼트ID를 순환하여 갱신한다. 즉, 제 11 도에 나타나는 바와 같이 우선 엘리먼트ID에 1을 가산하고(스텝S21), 그것이 엘리먼트의 개수에 이르렀는지를 판단하고(스텝S22), 이르렀으면 0으로 리셋트한다(스텝S23). 다음에, 이벤트 데이터에서 피치ID를 추출하고(스텝S24), 다시 관리부(2)에서 음성세그먼트ID를 추출하고(스텝S25), 대응하는 음성세그먼트의 대응하는 피치 파형의 선두 어드레스를 취득하여(스텝S26), 상태 보유부(3)의 선두 어드레스에 셋트한다. 또, 판독 어드레스를 피치파형 선두 어드레스로써 초기화하고(스텝S27), 다시 미리 결정된 피치파형의 길이를 이용하여 최종 어드레스를 설정한다(스텝S28).
제 12 도는 본 실시예의 음성세그먼트 작성방법을 나타낸 것이다. 제 12 도에서 다시 상단은 음성세그먼트의 기본이 되는 음성파형을 나타내고 있다. Ps는 개시 마크, P0, P1,,,은 피치에 대응하는 피크에 붙은 피치마크, W0, W1,,, 은 인출 창길이를 나타낸다. S0, S1,,, 은 인출된 파형이다. S1 이후는 1피치 주기마다 인출한 피치파형이지만, S0은 초기 파형이고, 개시마크에서 P0까지 그 이후 W0/2의 길이까지 인출한 파형이다. P0 이후는 Hanning 창의 후반, 그 이전은 구형창이다. 또, S1 이후의 세그먼트은 Hanning 창에 의해 인출된다.
Hanning창의 창길이인 Wn(n=0, 1, 2,,,)는 예를 들어 식 1과 같이 모든 음성파형에 대해 피치 주기의 대표값(예를 들어 평균값)을 이용하여 일률적으로 결정해도 좋고,
[ 1 ] Wn = Tall× R (Tall은 모든 음성 피치주기의 평균)이거나, 식 2와 같이 각 음성파형마다 피치 주기의 대표값(예를 들어 평균값)을 이용하여 결정해도 좋고,
[ 2 ] Wn = Tind× R (Tind는 각 음성의 피치주기의 평균)이거나, 식 3, 식 4와 같이 각 피치파형마다 그 근접 피치주기에서 개별로 결정해도 좋다.
[ 3 ] Wn=((Tn+Tn+1)/2) xR, for n ≥1
[ 4 ] W0 = T1× R
여기서, R은 피치 주기에 대한 창길이 비로 예를 들어 약 1.4를 이용한다. 그 처리에 대해 다음에 설명한다.
제 13 도는 어떤 음성의 시간 파형(상단)과, 그 FET스펙트럼 및 LPC스펙트럼 포락선(하단)이다. 샘플링 주파수 fs는 다음의 식 5와 같다.
[ 5 ] fs=10kHz
분석 창길이W는 식 6과 같다.
[ 6 ] W = 512
선형 예측차수M은 식 7과 같다.
[ 7 ] M = 12
창함수는 Hanning 창이다. 또, 이 음성의 피치 주기T는 식 8과 같고, 시간 파형의 점 2487에서 점 2990이 분석 대상구간이다.
[ 8 ] T = 108
FET스펙트럼은 고조파 때문에 빗모양의 주기적인 구조를 하고 있고, 이것이 피치로서 감지된다. 또, LPC스펙트럼 포락선은 FET스펙트럼의 피크를 연결하는 듯한 매끄러운 형상을 하고 있고, 이 형상에 의해 음소가 지각된다.
제 14 도는 같은 음성의 시간파형(상단)과, W=2T(창길이가 피치주기의 2배)일 때의 FET스펙트럼(하단)이다. 시간파형의 점 2438에서 점 2653이 분석대상 구간이다. 이 때의 FET스펙트럼은 빗모양의 구조를 잃고, 스펙트럼 포락선을 나타내고 있다. 이것은 Hanning창의 주파수 특성이 원래의 스펙트럼에 겹쳐 들어가기 때문이다.
즉, 제 13 도에 나타난 원 스펙트럼은 fs/T의 간격으로 빗모양의 주기적인 구조를 하고 있다. 한편, 창길이 W의 Hanning 창의 주파수 특성에서 메인로브(mainlobe)의 대역폭B는 식 9와 같다.
[ 9 ] B = 2fs / W
또, W=2T 일 때 B는 식 10으로 되고, 이것과 음성 스펙트럼을 겹쳐 넣음으로써 정확히 고주파 간격을 보충하는 효과가 있다.
[ 10 ] B = fs / T
이와 같은 이유에서 W=2T의 Hanning 창에서 인출한 피치파형은 원음성의 스펙트럼 포락에 가까운 스펙트럼을 갖는다. 이렇게 하여 인출된 파형을 새로운 피치 주기T'에서 재배치하고 중첩함으로써 원하는 피치 주기의 음성이 합성된다.
W< 2T일 때는 B> fs/T이기 때문에, 음성 스펙트럼과 겹쳐 넣었을 때, 스펙트럼 포락선에 변형이 생긴다. W>2T인 경우는 B<fs/T이고, 음성의 스펙트럼과 겹쳐 넣었을 때, 충분히 고주파 간격을 보충하는 효과가 없고, 그 스펙트럼은 원래 음성의 고주파 구조를 포함한 것이 된다. 이와 같은 경우는 목적 피치주기에서 재배치하고 중첩해도 원래의 음성파형을 갖는 피치의 정보가 잔존하고 있기 때문에 메아리와 비슷한 음이 발생한다.
선행기술(일본국 특개평 3-501896)은 상기의 성질을 이용하여 원음성의 피치 주기T와 목적 피치주기T'의 관계가 T<T'일 때는 W=2T, T>T'일 때는 W=2T로 하여 고품질의 피치 변경을 실현하고 있다. T>T'일 때, 즉 피치를 올릴 때 원음성의 피치 주기대신 합성 피치주기 2배의 창길이를 이용하는 것은 합성파형의 전력이 균일하게 유지되기 때문이다. 즉, 2개의 Hanning창 값의 합이 항상 1 이고 전력변화가 일어나지 않기 때문이다.
앞에서 W<2T일 때는 인출된 피치파형은 원래의 음성 스펙트럼에 대해 변형을 갖고 있다고 서술하였다. 그러나, 2T에 비해 W가 극히 작지 않은 경우는 변형을 허용할 수 있다. 만약, 고정 W에 모든 합성 피치의 범위가 포함될 수 있으면 선행 기술에서와 같이 합성시에 창의 인출을 할 필요없이 미리 창을 가진 음성의 세그먼트를 준비해 둠으로써, 합성시에 피치파형의 중첩 처리만이 필요하므로, 계산량을 줄일 수 있다.
고정W를 이용하면 합성피치의 변화에 따라 전력이 변한다. 즉, 합성파형의 전력은 합성피치 주파수에 비례한다. 다행히도 이러한 전력변화는 자연음성의 피치와 전력의 관계에 근사한다. 자연음성에 있어서 이러한 관계가 관찰된다. 즉, 피치가 높으면 전력이 크고, 피치가 낮으면 전력이 작다. 따라서, 고정W를 이용하여 자연속도에 더 가까운 성질의 합성음이 얻어진다.
따라서 W=2T라 하면, 인출된 피치파형의 스펙트럼은 고조파 구조체를 갖지않으며, 고품질의 피치변화가 기대된다.
제 14 도를 다시 보면, 고조파 구조체는 거의 제거되지만, 약간 남아있다. 그 이유는 식 10에서 Hanning창의 메인로브(main lobe) 대역폭이 근사할 뿐이고, 실제로는 더 작기 때문이다.
시간영역에서는 T간격으로 반복하는 파형이 창인출 후에 파형에 남아 있다는 사실에서 직관적으로 알 수 있다. W=2T에서 적용되는 파형중에 창인출 구간의 중앙부분이 아닌 다른 부분들에서의 파형은 구간 T에서의 상관도가 높으며, 이는 주파수 영역에 고조파 구조체를 남겨놓은 원인이 된다.
그러므로, W=2T의 창길이에서 원음성의 피치 효과가 합성음에서는 거의 일어나지 않고, 메아리형 음이 발생될 수도 있다.
그래서, 창길이W를 약간 더 작게 설정함으로써 이런 문제를 피할 수 있다. 그밖에, 모든 피치의 파형을 인출한 때 균일한 창길이가 사용되는 경우, 원음성의 피치 변동을 고려하면 W>2T가 되지 않도록 더 작은 W를 정의하는 것이 바람직할 수도 있다. 예컨대, 모든 파형의 평균 피치 주기가 Tavr이라 하면, W= 1. 6 Tavr에 설정된다고 생각된다.
국부적으로 이러한 창길이를 사용하면 예컨대 W=1. 4T와 같이 그 값은 매우 작을 수도 있다. 제 15도는 W=1. 4T에서 인출된 피치 파형의 스펙트럼을 보여준다. 제 13 도의 인스펙트럼 포락선을 충분히 나타내고 있고, 제 14 도의 W=2T인 경우와 비교해도 손색없는 스펙트럼 형상을 나타내고, 오히려 이 쪽이 스펙트럼 포락선으로는 더 뛰어나다.
이상과 같은 방법에 의해, 합성시의 계산은 사실상 가산계산만으로 이루어지고, 매우 적은 계산처리량으로 고품질의 음성을 합성할 수 있다.
합성파형을 1샘플 합성하기 위해 필요한 계산은 이하와 같다. 피치 파형을 1샘플 생성하기 위해서는 음성세그먼트를 판독하기 위한 메모리 판독이 1회만 필요하다. 엘리먼트 출력을 중첩하기 위한 가산회수는 엘리먼트수 -1이다. 따라서, 엘리먼트수를 n으로 하면 합성파형 1 샘플당 메모리 액세스 n회, 가산(n - 1)회이다. 가령 n=4로 하면 메모리 액세스 4회, 가산 3회이다.
다음에, 본 발명에 관한 제 2 실시예에 대해 설명한다. 제 16 도는 본 발명의 제 2 실시예의 음성합성장치의 구성도이다. 그 음성합성장치에는 제어부(1)가 설치되고, 그 출력은 관리부(2), 복수의 상태 보유부(3), 진폭 제어부(4)에 접속되어 있다. 관리부(2)는 복수 상태 보유부(3)에 접속되고, 그들의 상태 보유부(3)는 같은 수 설치된 샘플 판독부(5)에 1 : 1로 접속되어 있다. 또, 파형 보유부(9)가 샘플 판독부(5)와 같은 수만큼 설치되고, 샘플 판독부(5)와 1 : 1 로 접속되고, 그 복수의 샘플 판독부(5)의 출력은 하나로 정리되어 가산 중첩부(6)에 입력되어 있다.
그 가산 중첩부(6)의 출력은 진폭 제어부(4)에 입력되고, 그 출력은 출력부(8)에 입력되어 있다. 또, 압축 음성세그먼트DB(10)이 설치되고, 모든 샘플 판독부(5)에 접속되어 있다.
압축음성세그먼트DB(10)에는 제 17 도에 나타나는 바와 같은 형식으로 음성 세그먼트가 기억되어 있다. 즉, 초기파형의 길이와 초기파형의 포인터, 피치파형의 개수가 제 7 도와 마찬가지로 기억되어 있지만, 피치파형 대신에 제 1 피치파형과 복수의 차이량 파형이 기억되어 있다. 초기파형 기억영역에 관해서는 제 7 도와 같다.
차이량 파형은 제 7 도 이웃한 피치파형의 차를 취한 데이터이다. 모든 피치 파형은 피크를 중심으로 인출되어 있기 때문에 그들의 차이량은 인접 피치간의 파형변화를 나타내고 있다. 음성파형의 경우는 인접피치간의 상관이 강하기 때문에, 차이량 파형은 매우 진폭이 작은 것이 된다. 따라서, 기억영역에 할당되는 단어당 비트수를 수비트 줄일 수 있다. 또, 부호화 방법에 따라서는 2분의 1이나 4분의 1까지 줄일 수 있다.
이와 같은 형식으로 기억된 압축음성세그먼트DB(10)을 이용하여 실제로 파형을 판독하고 음성파형을 합성하는 순서에 대해 설명한다. 1샘플의 합성처리에 대해 모든 엘리먼트에서 순서대로 샘플 판독 처리가 행해진다.
우선, 음성세그먼트 전환처리 및 트리거 처리가 행해진 직후에 샘플 판독처리에 들어갔다고 가정한다. 제 18 도에서 초기파형인지 아닌지를 판정하고(스텝S101), 초기파형이 종료하면 제 1 피치파형의 처리로 이동하고(스텝S102, S103), 종료하지 않으면(스텝S102), 상태보유부(3)의 피치ID는 초기파형을 가리키고 있기 때문에 초기파형에서 1샘플 판독하고(스텝S104), 가산 중첩부(6)로 출력한다(스텝S105). 동시에 상태 보유부(3)의 판독 어드레스를 하나 가산하고(스텝S106) 처리를 끝낸다. 이후의 처리에서는 판독 어드레스가 최종 어드레스를 넘지 않으면 같은 처리를 행하고, 넘으면 아무것도 하지 않는다.
다음에, 그 이후의 TG이벤트에 계속해서 샘플 판독처리에 들어갔다고 한다. 상태 보유부(3)의 피치ID는 물론 초기파형 이외를 가리키고 있다. 최초는 제 1 피치 파형을 가리킨다(스텝S107), 따라서, 제 1 피치 파형에서 1샘플 판독한다(스텝S110). 만약 제 1 피치 파형이 종료하면, 차이량 파형의 처리로 이동한다(스텝S109). 어드레스의 갱신은 상기와 같지만, 판독한 값을 파형 보유부(9)에 일시 기억한다(스텝S111). 파형 보유부(9)는 피치파형 하나분량의 기억영역이고, 제 1 피치 파형의 맨앞부터 세어 n번째에서 판독된 값은 파형 보유부(9)의 맨앞부터 세어 n번째에 기억된다. 그리고, 같은 값을 가산 중첩부(6)에출력하고(스텝S112), 다음의 샘플 처리로 이동한다(스텝S113).
다음에, 피치ID가 차이 파형을 가리키고 있으면(스텝S114), 차이량 파형에서 1 샘플 판독한다(스텝S116). 여기서 만약 1개의 차이량 파형 종료의 경우는 다음 차이량 파형 처리로 이동한다(스텝S115). 어드레스의 갱신은 상기와 같다. 차이량 파형의 경우는 판독한 값과 파형 보유부(9)에 기억되어 있던 값을 가산한다(스텝 S117). 이렇게 하여 차이량 파형에서 원파형을 복원할 수 있다. 이 값을 파형 보유부(9)에 다시 기억해 두고(스텝S117), 가산 중첩부(6)에도 출력한다(스텝S118). 그리고 다음의 샘플 처리로 이동한다(스텝S119).
이상과 같이 피치 파형을 차이량 파형의 형태로 축적함으로써 기억용량을 크게 삭감할 수 있다. 또, 그 때문에 제 1 실시예에 비해 이 구조에 필요한 여분의 구성 요소와 계산은 1엘리먼트당 하나의 1피치파형분의 메모리와 샘플 판독처리 1회에 대해 가산, 메모리에서 1단어 판독하고, 메모리에 1단어 저장이 각 1회로 아주 약간이다.
합성파형을 1샘플 합성하기 위해 필요한 계산은 이하와 같다. 피치 파형을 1 샘플 생성하기 위해서는 차이량 파형을 판독하기 위한 메모리 판독이 1회, 그것을 파형 보유부(9)의 값과 가산하여 원파형을 복원하기 위한 메모리 판독과 가산이 각각 1회, 그 값을 다시 파형 보유부(9)에 기억하기 위한 메모리 기록이 1회이다. 엘리먼트수를 n으로 하면 합성파형 1샘플당, 메모리 액세스 3n회, 가산이 n + (n - 1)회 (n개의 엘리먼트 출력을 중첩하기 위한 가산계산은 n-1회)이다. 가령 n이 4면, 합성파형 1샘플당, 메모리액세스 12회, 가산 15회가 된다. 제 19 도에 종래 기술과 본 발명의 계산량 비교를 나타낸다.
또, 상기 실시예에서는 모두 창함수에 Hanning 창을 이용하였지만, 이에 제한되지 않고 다른 형상을 이용해도 상관없다.
또, 상기 실시예에서는 모두 이벤트 종류로는 SC(음성세그먼트 전환)와 TG(트리거)만을 이용하였지만, 이에 제한되지 않고 그외 예를 들어 진폭 제어정보나 다른 화자의 음성으로 작성한 음성세그먼트 셋트로의 전환정보 등을 사용할 수 있다.
또, 상기 실시예에서는 모두 가산 중첩에 의한 피치 변경은 음성세그먼트에 대해 이용하였지만, 이에 제한되지 않고 예를 들어 포르만트 합성에서 성대음원파형의 피치전환등에 이용해도 물론 상관없다.
이상과 같이, 음성세그먼트 작성시에 창인출을 끝내 둠으로써, 합성시의 계산량을 비약적으로 감소시킬 수 있고, 그 때문에 음질열화를 약간 억제할 수 있다. 또, 피치 파형간의 차이량을 계산함으로써 효과적으로 음성세그먼트를 압축할 수 있고, 종래의 기술보다 더 작은 기억용량으로 실시할 수 있다. 또, 음성세그먼트를 압축함으로써 합성시의 계산량이나 장치 규모의 증대는 매우 적다.
이처럼, 계산량이 매우 작고 장치 규모도 작기 때문에 소형 고품질 음성합성장치의 응용이 가능해진다.
작은 기억용량과 낮은 계산경비를 실현하기 위하여 본 발명의 종래 창인출 방법과 종래 하이브리드 방법(종래 창인출 하이브리드 방법)을 조합하는 것을 생각할 수도 있다. 그러나, 종래 창인출 하이브리드 방법의 특징이라면 접속 합성부분의 계산경비와 파라미터 합성부분의 계산경비간의 차이가 극히 크고 합성의 계산량이 주기적으로 변동한다. 이는 종래 창인출 하이브리드 방법이 실시간으로 적용될 경우 접속합성부분에 의해 파라미터 합성부분의 계산경비의 크기를 흡수하기에 충분한 계산용량과, 계산속도의 변동을 흡수하기에 충분한 버퍼 메모리를 요한다고 보인다. 이 문제를 해결하기 위해 본 발명의 제 3 실시예를 도면을 참조하면서 설명한다.
제 20 도는 본 발명의 제 3 실시예에 있는 음성합성장치를 보여주는 블록도이다. 이 음성합성장치에는 음소기호열 해석부(101)가 있고, 그 출력이 제어부(102)에 접속되어 있다. 개별정보DB(110)가 설치되어 제어부(102)에 상호접속된다. 더욱이, 자연음성 세그먼트 채널(112)과 합성음성 세그먼트 채널(111)이 설치되고, 자연음성 세그먼트 채널(112) 안쪽에 음성 세그먼트 판독부(105)가 설치된다. 또한, 합성음성 세그먼트 채널(111) 안쪽에 음성 세그먼트DB(104)와 음성 세그먼트 판독부(103)가 설치된다. 음성 세그먼트 판독부(105)가 음성 세그먼트DB(106)와 상호 접속된다. 음성 세그먼트 판독부(103) 및 음성 세그먼트 판독부(105)의 출력들이 혼합기(107)의 두 입력들에 접속되고, 혼합기(107)의 출력이 진폭 제어부(108)에 공급된다. 진폭 제어부(108)의 출력이 출력부(109)에 공급된다.
제어부(102)로부터, 자연음성 세그먼트 지수, 합성음성 세그먼트 지수, 혼합제어 정보, 및 진폭제어정보가 출력된다. 이와 같은 제어정보들 가운데, 자연음성 세그먼트 지수가 자연음성 세그먼트 채널(112)의 음성 세그먼트 판독부(105)에 공급되고, 합성음성 세그먼트 지수가 합성음성 세그먼트 채널(111)의 음성 세그먼트 판독부(103)에 공급된다. 혼합제어정보가 혼합기(107)에 공급되고, 진폭제어정보가 진폭 제어부(108)에 공급된다.
제 22 도는 음성 세그먼트DB(106)에 저장된 데이터 포맷을 보여준다. 예컨대, 세그먼트ID는 각 음소에 기록된 각 자연음성 세그먼트를 구별하는 값이다. 세그먼트ID마다 복수의 피치ID들이 있다. 피치ID는 자연음성 세그먼트의 모두에서 창인출함으로서 인출되는 피치파형들을 0부터 순차로 구분하는 값이다.
제 23 도는 창인출(windowing)로 피치파형을 인출하는 방식을 보여준다. 제 23 도의 맨위 그림은 인출되기 전의 원래 음성파형이다. 피치ID 가 0에 해당하는 파형은 제 23 도에 도시된 바와 같은 자음의 시작부분을 포함하므로, 이 시작 부분이 긴 비대칭창에서 인출된다. 피치ID가 1이 되고난 후, 그 순간에 피치 주기의 약 1.5∼2.0배가 되는 Hanning 창으로 인출된다. 이와 같이, 한 세그먼트ID 부분의 자연음성 세그먼트가 생성된다. 마찬가지로 이런식으로 복수의 파형들을 조작함으로써 음성 세그먼트DB(106)가 생성된다.
계속해서 제 24 도는 음성 세그먼트DB(104)에 저장된 데이터의 포맷을 보여준다. 피치파형은 도면에 도시된 바와 같이 축선상에 F1지수 및 F2지수를 그리는 평면상에 배열되어 있다.
F1지수와 F2지수는 각각 제 1 포르만트 음성 주파수와 제 2 포르만트 음성 주파수에 대응한다. F1지수가 0, 1, 2로 증가함에 따라 제 1 포르만트 주파수가 더 높아진다. F2지수의 경우도 마찬가지다. 즉, 음성 세그먼트DB(104)에 저장된 피치파형은 F1지수와 F2지수의 두 값으로 설정된다.
이와 같이 F1지수와 F2지수로 표현된 파형들은 미리 포르만트 합성에 의해 생성된다. 그러한 처리의 알고리즘은 제 25 도의 흐름도를 참조하면서 후술한다.
우선, 제 1 및 제 2 포르만트 주파수의 최대값과 최소값이 결정된다. 이 값들은 자연음성 세그먼트들이 기록된 때 화자의 개별 데이터로부터 결정된다. 이어서, F1지수 및 F2지수의 분류수가 결정된다. 이 값은 양 지수에 대해 20부근이 적절하다(스텝S6001까지).
스텝S6061에서 결정된 값으로부터, 제 1 포르만트 주파수와 제 2 포르만트 주파수의 스텝폭이 결정된다(스텝S6002). 그리고나서, F1지수와 F2지수가 0으로 초기화되고(스텝S6003 및 스텝S6004), 제 1 포르만트 주파수와 제 2 포르만트 주파수가 스텝S6005에서 공식에 따라 계산된다. 이렇게 얻어진 포르만트 파라미터를 사용하여 포르만트들이 스텝S6006에서 합성되고, 피치파형이 이 파형에서 인출된다.
결과적으로 F2지수에 1을 가산하고(스텝S6007), 스텝S6005 이후의 처리를 반복한다. F2지수가 분류수를 넘길 때(스텝S6008), 1이 F1지수에 가산된다(스텝S6009). 그 후에 스텝S6004후의 처리를 반복한다. F1지수가 분류수를 넘기면 처리가 끝난다.
따라서, 제 1 포르만트 주파수와 제 2 포르만트 주파수의 가능한 범위가 균등하게 분할되고, 이 두값의 모든 가능한 조합을 포함하는 파형들을 합성함으로써, 음성 세그먼트DB(104)가 조성된다.
스텝S6006의 처리는 다음과 같다. 우선, 제 1 포르만트 주파수와 제 2 포르만트 주파수가 자연음성 세그먼트 화자의 개별 데이터로부터 결정된다. 파라미터들은 제 1 포르만트 대역폭, 제 2 포르만트 대역폭, 제 3 ∼ 제 6 포르만트 주파수 및 대역폭, 및 피치 주파수 등을 포함한다.
화자의 평균이 파라미터로 사용될 수 있다. 특징적으로는 제 1 및 제 2 포르만트 주파수는 모음의 종류에 상당히 의존하여 변하고, 제 3 이상의 포르만트 주파수 변화가 더 작다. 제 1 및 제 2 대역폭이 모음에 따라 상당히 변화하고, 청감에 대한 영향은 포르만트 주파수만큼 크지는 않다. 즉, 제 1 및 제 2 포르만트 주파수가 빗나가면, 음운학적 성질(특정음절의 음성에 대한 청취 용이도)이 현저히 저하하지만, 제 1 및 제 2 포르만트 대역폭은 음운학적 성질을 그만큼 낮추지는 않는다. 그러므로, 제 1 및 제 2 포르만트 주파수가 아닌 다른 파라미터들이 고정된다.
스텝S6005에서 계산된 제 1 및 제 2 포르만트 주파수들과 상기 고정 파라미터들을 사용하여 몇번의 피치주기동안 음성파형을 합성한다. 제 23 도의 자연음성 세그먼트의 피치파형을 인출할 때와 동일한 방식으로 창함수(window function)를 사용함으로써, 상기 합성된 파형에서 피치 파형을 인출한다. 여기서 하나의 피치파형만을 인출한다. 스텝S6005에서 스템S6008까지의 루프가 한 번 실행될 때마다, F1지수 및 F2지수의 조합에 상응하는 합성된 음성 세그먼트 하나가 생성된다.
한편, 포르만트 합성에 사용된 음원 파형으로서 일반함수가 사용될 수 있지만, 자연음성 세그먼트들을 기록할 때 화자음성에서 발성관 반전필터(vocal tract reverse filter)로 추출한 파형을 사용하는 것이 좋다. 상기 발성관 반전필터는 종래 기술에서 언급한 발성관에 전달함수의 역함수를 사용함으로써 음성파형에서 전달특성을 제거한 결과 얻어진 파형이다. 이 파형은 성대의 진동파형을 나타낸다.
이 파형을 직접 포르만트 합성의 음원으로 사용함으로써 합성 파형은 아주 높은 충실도로 개별화자특성을 재생한다. 이런 식으로 음성 세그먼트DB(104)가 조성된다.
이와 같이 구성된 음성합성장치의 동작은 후술한다. 우선, 음소기호열이 음소 기호열 해석부(101)에 입력되고, 음소정보, 시간길이정보 및 입력에 대응하는 피치정보가 제어부(102)에 출력된다. 제 21 도는 음소기호열 해석부(101)에서 합성되고, 제어부(102)에 출력된 정보의 일례를 보여준다. 제 21 도에서 음소기호열은 입력문자열이다. 이 예에서는 가타카나를 나타낸다. 음소정보는 음소기호열에 대응하는 음소를 나타내는 값이다. 이 실시예에서는 가타카나의 각 문자에 대응하여 즉 음절단위로 값이 결정된다. 시간길이는 각 음절의 지속시간이다. 이 예에서는 밀리초로 표현된다. 이 값은 각 음소의 발음속도, 정적 데이터, 및 자연음성 세그먼트의 레이블 정보로 결정된다. 개시 피치와 중간 피치는 음절의 시작과 중간의 피치이고 이 예에서는 헤르쯔(Hz)로 표현된다.
제어부(102)는 자연음성 세그먼트 지수, 합성음성 세그먼트 지수, 혼합제어정보, 및 진폭제어정보 등 개별정보DB(110)에 저장된 개별정보와 복수정보에서 제어정보를 생성한다. 개별정보DB(110)에서는 각 자연음성 세그먼트중 모음의 제 1 및 제 2 포르만트 주파수, 개시부의 자음종류등이 저장된다. 자연음성 세그먼트 지수는 음소정보에 대응하는 적절한 자연음성 세그먼트를 나타내는 정보이다. 예컨대 제 21 도에서 제 1 음소정보 /α/에 대응하여 음 'ぁ'에 의해 생성된 자연음성 세그먼트를 나타내는 값이 출력된다.
동시에 자연음성 세그먼트 지수가 피치ID정보를 포함하고, 부드러운 피치변환이 개시피치와 중간피치를 보간함으로써 생성되고, 이 정보로부터 적절한 타이밍에 피치파형을 판독하는 정보가 음성 세그먼트 판독부(105)에 출력된다. 음성 세그먼트 판독부(105)는 이 정보에 따라 음성 세그먼트DB(106)에서 계속적으로 파형을 판독하고, 이 파형들을 중첩시켜 자연음성 세그먼트 채널(112)의 합성파형을 생성한다. 자연음성 세그먼트 지수의 예와, 따라서 자연음성 세그먼트를 판독하고 자연음성 세그먼트 채널(112)의 파형으로 합성하는 방식이 제 26 도에 도시된다.
합성음성 세그먼트 지수는 음소정보에 대응하는 적절한 합성음성 세그먼트를 나타내는 정보이다. 이 정보의 본질은 제 1 및 제 2 포르만트 주파수이다. 그것은 사실상 대응 포르만트 지수들로 변환된 포르만트 주파수 정보이다. 포르만트 지수들은 제 25 도에 사용된 것들이고 식 11 및 12로 표현된다. Flidx는 제 1 포르만트지수이고, F2idx는 제 2 포르만트 지수이다.
[ 11 ] Flidx = (F1- F1min) / (F1max-F1min)*nF1idx
[ 12 ] F2idx = (F2- F2min) / (F2max-F2min)*nF2idx
F1과 F2는 각각 제 1 포르만트 주파수와 제 2 포르만트 주파수이고, 이 때 합성된 자연음성 세그먼트중 모음의 제 1 및 제 2 포르만트 주파수와, 다음에 접속된 자음의 종류에 의해 정해진다. 이 정보들은 개별정보DB(110)을 참조하여 얻어진다. 더 자세히 말하자면, 모음에서 자음으로의 전이 지역에서 모음의 포르만트 주파수가 개별정보DB(110)에서 추출되고, 이 값에서 시작하여 자음으로 변하는 포르만트 주파수의 패턴이 규칙에 의해 생성되고, 따라서 포르만트 주파수의 궤적이 그려진다. 이 궤적과 피치정보에 의해 결정된 각 세그먼트의 타이밍에서 이 순간의 포르만트 주파수가 계산된다. 이와 같이 생성된 합성음성 세그먼트 지수 정보의 예와 합성음성 세그먼트 채널(111)의 파형을 합성하는 방식이 제 27 도에 도시되어 있다.
혼합제어정보가 제 28 도에 도시한 대로 생성된다. 즉, 혼합비는 각 음절의 개시에서 중간까지 자연음성 세그먼트 채널(112)에서 완전히 제어되고, 중간에서 끝으로 합성음성 세그먼트 채널(111)로 점차 이동된다. 끝에서 다음 음절의 시작까지 비교적 짧은 구간에 자연음성 세그먼트 채널(112)측으로 복귀한다. 따라서, 각 음절의 주요부분은 자연음성 세그먼트이고, 다음 음절로의 변환부는 합성음성 세그먼트에 의해 부드럽게 연결된다.
마지막으로 전체파형의 진폭이 진폭제어정보에 의해 제어되고, 음성파형이 출력부(109)에서 출력된다. 진폭제어정보는 예컨대 문장의 끝에서 진폭을 부드럽게 감소할 목적으로 사용된다.
여기서 설명한 대로 음절의 연결에 사용되는 합성음성 세그먼트 파형은 종래기술에서 실시간 합성되어야 하지만, 이 실시예에서는 피치마다 판독하면서 순간마다 변하는 파형을 접속함으로써 극히 낮은 경비로 생성될 수 있다. 다른 종래 기술에서 자연음성 세그먼트측에 이와 같은 절편부분이 포함되므로, 아주 큰 용량의 음성 세그먼트DB가 필요했지만, 이 실시예에서는 자연음성 세그먼트의 데이터가 기본적으로 CV단위로 구성되므로 요구용량이 작다. 이를 위하여 합성음성 세그먼트가보유되어야 하지만, 필요한 용량은 F1지수와 F2지수가 모두 20이라 가정할 때 이 실시예에서 400피치 파형을 보유하기에 충분하면 되므로, 필요한 기억용량은 극히 적다.
제 29 도는 제 4 실시예에서 합성음성 세그먼트 채널(111)의 일례를 나타낸다. 여기서, 제 1 음성 세그먼트 판독부(113)와 제 2 음성 세그먼트 판독부(115)가 설치된다. 제 1 음성 세그먼트DB(114)가 제 1 음성 세그먼트 판독부(113)에 접속되고, 제 2 음성 세그먼트DB(116)이 제 2 음성 세그먼트 판독부(115)에 접속된다. 혼합기(117)도 설치되고, 그 두 입력에는 제 1 음성 세그먼트 판독부(113)와 제 2 음성 세그먼트 판독부(115)의 출력들이 접속된다. 혼합기(117)의 출력이 합성음성 세그먼트 채널(111)의 출력이다.
제 1 음성 세그먼트DB(114)와 제 2 음성 세그먼트DB(116)에 저장된 합성음성 세그먼트들이 각각 동일한 F1지수와 F2지수로 구성되지만, 상이한 음원파형들을 이용함으로써 합성된다. 즉, 제 1 음성 세그먼트DB(114)에 사용된 음원이 보통 스타일로 발음된 음성에서 추출되는 한편, 제 2 음성 세그먼트DB(116)에 사용된 음원은 약하게 발음된 음성에서 추출된다.
이러한 음원의 차이는 주파수 스펙트럼의 일반적 경향이다. 강하게 발음되면 음원파형은 고주파의 더 높은 고조파를 많이 포함하고 스펙트럼 경사가 작다(거의 수평). 한편, 약하게 발음되면 음원 파형에는 더 높은 주파수가 적고, 스펙트럼 경사가 크다(더 높은 주파수쪽으로 강하).
실제 음성에서 음원의 스펙트럼 경사는 발음중에 순간마다 변하고, 이러한특성을 시뮬레이트하기 위해 두 음원 파형의 비를 가변시키면서 혼합시키는 것을 고려할 수 있다. 이 실시예에서 합성음성 세그먼트 채널이 미리 합성된 파형을 이용하므로 동일한 효과는 2개의 특성을 갖는 음원파형에 의해 합성된 합성파형을 나중에 혼합함으로써 얻어진다. 이와 같이 구성함으로써 문자의 시작에서 끝까지 또는 비음 등에 의해 스펙트럼 경사의 변화를 시뮬레이트할 수 있다.
제 3 및 제 4 실시예에서 포르만트 합성은 합성음 세그먼트의 생성에 사용되지만, 예컨대 LPC합성, PARCOR합성, 및 LSP합성과 같은 파라미터 합성에 속하는 합성방법일 수도 있다. 이 때, 발성관 반전필터를 사용하여 추출된 음원파형을 사용하지 않고 LPC잔류 파형이 사용될 수도 있다.
합성음성 세그먼트에서 세그먼트들은 F1지수 및 F2지수의 모든 조합에 대응하도록 설계되어 있어서 물리적으로 비유사한 조합이 제 1 포르만트 주파수와 제 2 포르만트 주파수 간에 존재할 수도 있고, 낮은 발생확률의 조합도 존재하고, 그러한 세그먼트들은 필요치 않다. 그 결과, 메모리용량이 더욱 감소될 수 있다. 더욱이 발생확률을 조사함으로써 제 1 포르만트 및 제 2 포르만트에 기초한 공간이 벡터 양자화 또는 다른 기술에 의해 불균일하게 분할될 수 있으므로 메모리를 더 효과적으로 이용할 수 있어 합성질이 향상될 수 있다.
제 3 실시예에서 합성음성 세그먼트의 파라미터축으로서 제 1 포르만트 주파수와 제 2 포르만트 주파수가 사용되고, 제 4 실시예에서 음성의 스펙트럼 경사가 사용되지만, 기억용량이 여분의 공간을 갖고 있으면 다른 파라미터들이 부가될 수도 있다. 예컨대, 제 1 포르만트 주파수 및 제 2포르만트 주파수 외에 제 3 포르만트 주파수를 부가함으로서 3차원 공간이 분할될 수 있고 합성음성 세그먼트가 형성될 수 있다. 또는, 스펙트럼 경사가 아닌 음성특성을 변환하도록 예컨대, 흉성음(chest voice) 및 가성(falsetto)을 바꾸기 위해 설계된 경우 별도의 합성음성 세그먼트가 상이한 음원으로 구성될 수 있고, 합성시에 혼합된다.
제 3 및 제 4 실시예에서 개별정보DB(110)를 설치하면, 음성 세그먼트DB(106)의 자연음성 세그먼트들의 포르만트 주파수를 이용하여 합성음성 세그먼트 지수를 생성하지만, 모음이 정해질 때, 포르만트 주파수가 결정되는 것이 보통이므로 각 모음에 대해 포르만트 주파수표를 제공함으로써 교체될 수도 있다.
제 1 도는 본 발명에 관한 제 1 실시예 음성합성장치의 구성도.
제 2 도는 제 1 실시예 제어부를 중심으로 한 전체 처리의 한 흐름도.
제 3 도는 제 1 실시예의 음절 버퍼 데이터 구조를 나타내는 도면.
제 4 도는 제 1 실시예의 음절 버퍼에 음절ID, 문구 길이, 액센트 레벨이 설정되는 모드를 설명하는 도면.
제 5 도는 제 1 실시예의 음절 버퍼에 운율 정보가 설정되는 모드를 설명하는 도면.
제 6 도는 제 1 실시예의 이벤트 리스트의 데이터 구조를 나타내는 도면.
제 7 도는 제 1 실시예의 음성세그먼트DB의 음성세그먼트 데이터 구조를 나타내는 도면.
제 8 도는 제 1 실시예의 음절 'オ'에 대해 이벤트 리스트가 생성되는 모드를 설명하는 도면.
제 9 도는 제 1 실시예의 이벤트 판독 및 합성제어의 부분 흐름도.
제 10 도는 제 1 실시예의 목적 피치를 가진 음성이 합성되는 모드를 설명하는 도면.
제 11 도는 제 1 실시예의 트리거 처리의 흐름도.
제 12 도는 제 1 실시예의 음성파형에서 음성세그먼트를 작성하는 모드를 설명하는 도면.
제 13 도는 원음성파형의 스펙트럼을 나타내는 도면.
제 14 도는 창길이가 피치 주기의 2배일 때 스펙트럼을 나타내는 도면.
제 15 도는 창길이가 피치 주기의 1.4배일 때 스펙트럼을 나타내는 도면.
제 16 도는 본 발명에 관한 제 2 실시예의 음성합성장치의 구성도.
제 17 도는 제 2 실시예의 압축음성세그먼트DB의 음성 세그먼트 데이터 구조를 나타내는 도면.
제 18 도는 제 2 실시예의 샘플 판독부의 처리를 나타내는 흐름도.
제 19 도는 계산량의 비교를 나타내는 도면.
제 20 도는 본 발명의 제 3 실시예에서 음성합성장치의 블록도.
제 21 도는 음소 기호열 해석부(101)에서 제 3 실시예의 제어부(102)로 출력된 정보의 블록도.
제 22 도는 제 3 실시예의 음성 세그먼트DB에 저장된 데이터포맷도.
제 23 도는 창인출에 의해 자연음성파형에서 피치파형을 인출하는 방식을 보여주는 파형도.
제 24 도는 제 3 실시예의 음성 세그먼트DB4에 저장된 데이터 포맷도.
제 25 도는 제 3 실시예의 음성 세그먼트DB4에 저장된 피치파형의 생성알고리즘을 보여주는 흐름도.
제 26 도는 자연음성 세그먼트 지수의 예와, 자연음성 세그먼트 채널 파형의모드를 보여주는 파형도.
제 27 도는 합성음성 세그먼트 지수의 예와, 합성음성 세그먼트 채널파형의 합성모드를 보여주는 파형도.
제 28 도는 제 3 실시예의 혼합제어정보의 일례의 그래프.
제 29 도는 본 발명의 제 4 실시예의 합성음성 세그먼트 채널의 예를 보여주는 블록도.
* 도면의 주요부분에 대한 부호의 설명 *
1 : 제어부 2 : 관리부
3 : 상태 보유부 4, 108 : 진폭 제어부
5 : 샘플 판독부 6 : 가산 중첩부
7 : 음성세그먼트DB 8, 109 : 출력부
9 : 파형 보유부 10 : 압축음성세그먼트DB
101 : 음소기호열 해석부 102 : 제어부
103, 105, 113, 115 : 음성 세그먼트 판독부
104, 106, 114, 116 : 음성 세그먼트DB
107, 117 : 혼합부 110 : 개별정보DB
111 : 합성음성 세그먼트 채널 112 : 자연음성 세그먼트 채널

Claims (44)

  1. 음성 파형의 소정 구간내의 피치 주기마다 존재하는 각각의 피크에 대해 상기 피크를 중심으로 하여 양단에서 0 근방에 수렴하는 창함수로 피치 파형을 인출하는 조작을 상기 소정 구간내의 모든 피크에 대해 행하고, 창함수의 길이가 음성파형에 기초하여 임의 피크에 대해서도 피크에 도달할 때보다 더 짧도록 원하는 모든 음성파형에 대해 음성세그먼트 데이터를 작성하고, 그 작성한 음성세그먼트 데이터를 기억해 두고, 그 기억하고 있는 음성세그먼트 데이터에서 원하는 음성세그먼트 데이터의 원하는 피치 파형을 판독하고, 원하는 피치 주기의 간격이 되도록 겹쳐 배치하고, 그들을 가산하여 하나의 음성파형으로 출력하는 것을 특징으로 하는 음성합성방법.
  2. 제 1 항에 있어서,
    상기 창함수의 길이는 모두 같은 길이인 것을 특징으로 하는 음성합성방법.
  3. 제 1 항에 있어서,
    상기 창함수의 길이는 음성파형의 그 시점에서 피치 주기 2배의 길이를 1보다 작은 소정의 정수로 승산한 길이인 것을 특징으로 하는 음성합성방법.
  4. 제 1 항에 있어서,
    상기 창함수의 길이는 각 음성파형에 대해 그 음성파형의 피치 주기를 나타내는 하나의 대표값을 2배한 것을 1보다 작은 소정의 정수로 승산한 길이인 것을 특징으로 하는 음성합성방법.
  5. 제 1 항 또는 제 4 항에 있어서,
    음성세그먼트 데이터의 상기 기억은 각 음성세그먼트 데이터의 최초 피치 파형에 대해 파형 그 자체를 기억하고, 2번째 이후의 피치 파형에 대해서는 하나 전의 피치 파형에서 그 피치 파형의 변화를 나타내는 차이량 피치 파형을 기억하는 것이고, 어떤 음성세그먼트 데이터를 판독하는 경우, 최초의 피치 파형은 기억되어 있는 파형을 그대로 판독하는 동시에, 다음 피치 파형을 판독할 때까지 그 값을 일시적으로 기억해 두고, 2번째 이후의 피치 파형은 판독한 차이량 파형값을 상기 기억된 하나 전의 피치 파형값에 가산하여 파형을 복원하는 동시에 상기 일시 기억된 값을 복원된 파형 값으로 교환하는 것을 특징으로 하는 음성합성방법.
  6. 음성파형의 소정 구간내의 피치주기마다 존재하는 각각의 피크에 대해 상기 피크를 중심으로 하여 양단의 0 근방에 수렴하는 창함수로 피치파형을 인출하는 조작을 상기 소정 구간내의 모든 피크에 대해 행하고, 창함수의 길이가 음성 파형에 기초하여 임의 피크에 대해서도 양단의 피크에 도달할 때보다 더 짧도록 작성된 원하는 모든 음성파형에 대해 음성 세그먼트 데이터를 기억하는 음성 세그먼트 데이터 기억수단과, 그 음성 세그먼트 데이터 기억수단에서 원하는 음성 세그먼트 데이터의 원하는 피치 파형을 판독하는 피치 파형 판독수단과, 그 판독된 피치 파형을 원하는 피치 주기의 간격이 되도록 겹쳐 배치하고, 그들을 가산하여 하나의 음성파형으로 출력하는 가산중첩부를 구비한 것을 특징으로 하는 음성합성장치.
  7. 제 6 항에 있어서,
    상기 창함수의 길이는 각 음성파형에 대해 그 음성파형의 피치 주기를 나타내는 하나의 대표값을 2배한 것을 1보다도 작은 소정의 정수로 승산한 길이인 것을 특징으로 하는 음성합성장치.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 음성세그먼트 데이터 기억수단은 각 음성세그먼트 데이터의 최초 피치 파형에 대해서는 파형 그 자체를 기억하고, 2번째 이후의 피치 파형에 대해서는 하나 전의 피치 파형과 그 피치 파형의 변화를 나타내는 차이량 피치 파형을 기억하는 것이고, 어떤 음성세그먼트 데이터를 판독하는 경우에 판독된 최초의 피치 파형을 다음 피치 파형을 판독할 때까지 그 값을 일시적으로 기억하는 피치 파형 일시 기억수단을 구비하고, 2번째 이후의 피치 파형은 판독한 차이량 파형값을 상기 피치 파형 일시기억수단에 기억된 하나전의 피치 파형값에 가산하여 파형을 복원하는 동시에, 상기 피치 파형 일시기억수단에 기억된 값을 복원된 파형의 값으로 교환하는 것을 특징으로 하는 음성합성장치.
  9. 시각 정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임의 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어신호의 기능정보와 파라미터를 이용하여 상기 시각정보가 나타내는 타이밍에 따라 음성세그먼트를 제어하는 것을 특징으로 하는 음성합성방법.
  10. 제 9 항에 있어서,
    상기 소정의 기능은 피치 주기단위로 인출된 음성세그먼트의 판독 타이밍 제어인 것을 특징으로 하는 음성합성방법.
  11. 제 9 항 또는 제 10 항에 있어서,
    상기 소정의 기능은 음소마다 준비된 음성세그먼트의 전환 제어이고, 파라미터는 목적 음소에 대응하는 음성세그먼트를 가리키는 정보인 것을 특징으로 하는 음성합성방법.
  12. 시각정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임의 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어신호의 기능정보와 파라미터를 이용하여, 상기 시각정보가 나타내는 타이밍에 따라 음성세그먼트를 제어하는 제어수단을 구비한 것을 특징으로 하는 음성합성장치.
  13. 제 12 항에 있어서,
    상기 소정의 기능은 피치 주기단위로 인출된 음성세그먼트의 판독 타이밍 제어인 것을 특징으로 하는 음성합성장치.
  14. 제 12 항 또는 제 13 항에 있어서,
    상기 소정의 기능은 음소마다 준비된 음성세그먼트의 전환 제어이고, 상기 파라미터는 목적 음소에 대응하는 음성세그먼트를 가리키는 정보인 것을 특징으로 하는 음성합성장치.
  15. 제 1 항 또는 제 4 항에 있어서,
    시각 정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임의 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어신호의 기능정보와 파라미터를 이용하여 상기 시각정보가 나타내는 타이밍에 따라 음성세그먼트를 제어하는 것을 특징으로 하는 음성합성방법.
  16. 제 5 항에 있어서,
    시각 정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임의 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어신호의 기능정보와 파라미터를 이용하여 상기 시각정보가 나타내는 타이밍에 따라 음성세그먼트를 제어하는 것을 특징으로 하는 음성합성방법.
  17. 제 15 항에 있어서,
    상기 소정의 기능은 피치 파형 판독개시 지시이고, 관리수단의 상기 피치 파형 판독개시지시에 의해 복수의 피치 파형 판독부중 가장 오랫동안 선택된 것을 선택하여 피치파형의 판독을 개시하고, 가산중첩부에 의해 모든 피치파형 판독부의 판독값을 가산하여 출력하는 것을 특징으로 하는 음성합성방법.
  18. 제 17 항에 있어서,
    상기 파라미터는 음성세그먼트 데이터 기억수단에 기억된 어느 하나의 음성 파형 또는 차이량 파형을 가리키는 피치파형 지정정보이고, 상기 관리수단은 상기 피치파형 지정정보가 가리키는 피치 파형의 판독을 개시하게 하는 것을 특징으로 하는 음성합성방법.
  19. 제 15 항에 있어서,
    상기 소정의 기능은 음성세그먼트 전환지시이고, 상기 파라미터는 음성세그먼트 데이터 기억수단에 기억된 어느 하나의 음성세그먼트를 가리키는 정보인 것을 특징으로 하는 음성합성방법.
  20. 제 16 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 소정의 기능은 음성세그먼트 전환지시이고, 상기 파라미터는 음성세그먼트 데이터 기억수단에 기억된 어느 하나의 음성세그먼트를 가리키는 정보인 것을특징으로 하는 음성합성방법.
  21. 제 6 항 또는 제 7 항에 있어서,
    시각정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임의 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어신호의 기능정보와 파라미터를 이용하여 시각정보가 나타내는 타이밍에 따라 음성세그먼트를 제어하는 제어수단을 구비한 것을 특징으로 하는 음성합성장치.
  22. 제 8 항에 있어서,
    시각정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임의 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어신호의 기능정보와 파라미터를 이용하여 시각정보가 나타내는 타이밍에 따라 음성세그먼트를 제어하는 제어수단을 구비한 것을 특징으로 하는 음성합성장치.
  23. 제 21 항에 있어서,
    하나의 관리수단을 구비하고, 상기 피치 파형 판독수단은 복수의 피치파형 판독부를 갖고, 상기 소정의 기능은 피치파형 판독개시지시이고, 상기 관리수단은 상기 피치파형 판독개시지시에 의해 상기 복수의 피치파형 판독부중 가장 오랫동안 선택된 것을 선택하여, 피치파형의 판독을 개시하게 하고, 상기 가산 중첩부는 모든 피치파형 판독부가 판독한 값을 가산하여 출력하는 것을 특징으로 하는 음성합성장치.
  24. 제 23 항에 있어서,
    상기 파라미터는 상기 음성세그먼트 데이터 기억수단에 기억된 어느 하나의 음성파형 또는 차이량 파형을 가리키는 파형지정정보이고, 상기 관리수단은 상기 피치파형 지정정보가 가리키는 피치파형의 판독을 개시하게 하는 것을 특징으로 음성합성장치.
  25. 제 21 항에 있어서,
    상기 소정의 기능은 음성세그먼트 전환지시이고, 상기 파라미터는 상기 음성 세그먼트 데이터 기억수단에 기억된 어느 하나와 음성세그먼트를 가리키는 정보인 것을 특징으로 하는 음성합성장치.
  26. 제 22 항 내지 제 24 항 중 어느 한 항에 있어서,
    상기 소정의 기능은 음성세그먼트 전환지시이고, 상기 파라미터는 상기 음성 세그먼트 데이터 기억수단에 기억된 어느 하나의 음성세그먼트를 가리키는 정보인 것을 특징으로 하는 음성합성장치.
  27. 파라미터들을 생성하는 파라미터 생성부, 이 파라미터 생성부가 생성한 상기 파라미터들에 따라 합성파형을 생성하는 음성합성부, 상기 합성된 파형을 기억하는파형기억부, 및 상기 합성파형에 대응하는 파라미터값들을 기억하는 파라미터 기억부를 이용하여 음성 세그먼트들을 작성하는 음성 세그먼트 작성 방법에 있어서,
    상기 파라미터 생성부는 N파라미터로 구성된 파라미터 벡터P로 조성된 N차원 공간S(N은 양의 정수)를 A0내지 AM-1(M은 양의 정수)의 M지역들로 분할하고, 0에서 M-1까지 변하는 모든 정수에 대해 영역Ai내의 원하는 위치에 대응하는 파라미터 벡터Pi를 생성하고,
    상기 음성합성부는 상기 파라미터 벡터Pi에 따라 합성파형을 생성하고,
    상기 파형기억부는 상기 합성파형을 기억하고,
    상기 파라미터 기억부는 상기 합성파형에 대응하는 상기 파라미터 벡터Pi를 기억하는 것을 특징으로 하는 음성 세그먼트 작성방법.
  28. 제 27 항에 있어서,
    상기 파라미터 생성부는 N파라미터로 구성된 파라미터 벡터P로 조성된 N차원 공간S(N은 양의 정수)을 P의 확률분포에 따라 A0내지 AM-1(M은 양의 정수)의 M 영역들로 분할하는 것을 특징으로 하는 음성 세그먼트 작성방법.
  29. 제 27 항 또는 제 28 항에 있어서,
    상기 음성 합성부는 상기 피치주기내 피크의 중심으로서 파라미터에 따라 합성된 파형의 적절한 위치에서 단일 피치주기의 파형과 함께 창함수로 인출된 피치파형을 생성하고,
    상기 파형기억부가 상기 피치파형을 기억하는 것을 특징으로 하는 음성 세그먼트 작성방법.
  30. 제 27 항 또는 제 28 항에 있어서,
    상기 파라미터 벡터P의 원소 파라미터는 하나 또는 복수의 음성 포르만트의 중심주파수와, 성대진동의 스펙트럼 경사각의 하나 또는 복수의 조합인 것을 특징으로 하는 음성 세그먼트 작성방법.
  31. 제 29 항에 있어서,
    상기 파라미터 벡터P의 원소 파라미터는 하나 또는 복수의 음성 포르만트의 중심주파수와, 성대진동의 스펙트럼 경사각의 하나 또는 복수의 조합인 것을 특징으로 하는 음성 세그먼트 작성방법.
  32. 제 27 항 또는 제 28 항에 있어서,
    상기 음성 합성부는 포르만트 합성법에 의한 것임을 특징으로 하는 음성 세그먼트 작성방법.
  33. 제 29 항에 있어서,
    상기 음성 합성부는 포르만트 합성법에 의한 것임을 특징으로 하는 음성 세그먼트 작성방법.
  34. 제 30 항에 있어서,
    상기 음성 합성부는 포르만트 합성법에 의한 것임을 특징으로 하는 음성 세그먼트 작성방법.
  35. 제 32 항에 있어서,
    상기 음성합성부는 자연음성파형에서 발성관 전달특성을 추출하고, 상기 발성관 전달 특성의 반전특성을 갖는 발성관 반전필터를 구비하고, 상기 발성관 반전필터에 의해 상기 자연음성 파형에서 상기 발성관 전달특성을 제거하고, 결과로서 얻어진 진동파형을 진동음원 파형으로 사용하는 것을 특징으로 하는 음성세그먼트 작성방법.
  36. 소정음절체인마다 미리 기록된 음성파형을 인출함으로써 작성된 자연음성 세그먼트들을 자연음성 세그먼트 기억부로 기억하고,
    제 27 항 내지 제 35 항 중 어느 한 항 기재의 음성 세그먼트 작성방법에 의해 작성된 음성 세그먼트들을 합성음성 세그먼트 기억부로 기억하고,
    접속합성부에 상기 자연음성 세그먼트와 합성음성 세그먼트들을 접속하면서 음성합성하는 것을 특징으로 하는 음성합성방법.
  37. 제 36 항에 있어서,
    상기 접속합성부는 상기 자연음성 세그먼트 기억부에 기억된 자연음성 세그먼트의 파라미터들을 기억하는 자연음성 세그먼트 파라미터 기억부와, 상기 합성음성 세그먼트 기억부에 기억된 합성음성 세그먼트의 파라미터를 기억하는 합성음성 세그먼트 파라미터 기억부를 이용함으로써 음성을 합성하고,
    상기 자연음성 세그먼트 파라미터 기억부와 합성음성 세그먼트 파라미터 기억부에 기억된 상기 파라미터들이 동일하거나 동일한 조합이고,
    상기 접속 합성부는 2개의 자연음성 세그먼트들을 서로 접속할 때 소정시간 구간에 걸친 접점에서 상호 파라미터의 차이를 보간하고, 상기 합성음성 세그먼트 기억부로부터의 타이밍마다 상기 보간된 파라미터들의 조합에 가장 가까운 파라미터에 의해 합성된 상기 합성음성 세그먼트를 판독하고, 판독된 상기 합성음성 세그먼트에 의해 상기 2개의 자연음성 세그먼트들을 접속시키는 것을 특징으로 하는 음성합성방법.
  38. 제 36 항 또는 제 37 항에 있어서,
    상기 합성음성 세그먼트 기억부는 제 35 항의 음성 세그먼트 작성방법으로 생성한 상기 합성음성 세그먼트를 기억하고,
    상기 자연음성 세그먼트 기억부에 기억된 상기 자연음성 세그먼트와 상기 음성합성부내의 여진음원파형이 동일화자에 의해 발성되는 것을 특징으로 하는 음성합성방법.
  39. 제 38 항에 있어서,
    상기 합성음성 세그먼트 파라미터 기억부는 제 35 항의 음성 세그먼트 작성 방법에 의해 작성된 합성음성 세그먼트의 파라미터들은 기억하는 것을 특징으로 하는 음성합성방법.
  40. 소정 음절체인마다 미리 녹음된 음성파형을 인출하여 작성한 자연음성 세그먼트들을 기억하는 합성음성 세그먼트 기억부와,
    제 27 항 내지 제 35 항 중 어느 한 항 기재의 음성 세그먼트 작성방법으로 작성한 음성 세그먼트들을 기억하는 자연음성 세그먼트 기억부와,
    상기 자연음성 세그먼트와 합성음성 세그먼트를 접속시키면서 음성을 합성하는 접속합성부를 구비하는 것을 특징으로 하는 음성합성장치.
  41. 제 40 항에 있어서,
    상기 자연음성 세그먼트 기억부에 기억된 상기 자연음성 세그먼트의 파라미터들을 기억하는 자연음성 세그먼트 파라미터 기억부와,
    상기 합성음성 세그먼트 기억부에 기억된 상기 합성음성 세그먼트의 파라미터들을 기억하는 합성음성 세그먼트 파라미터 기억부를 더 구비하고,
    상기 자연음성 세그먼트 파라미터 기억부와 합성음성 세그먼트 파라미터 기억부에 기억된 상기 파라미터들이 동일하거나 동일 조합이고,
    상기 접속합성부는 2개의 자연음성 세그먼트들을 서로 접속시키면서 소정 시간구간에 걸친 접속에서 상호 파라미터들의 차이를 보간하고, 상기 합성음성 세그먼트 기억부에서 타이밍마다 상기 보간된 파라미터들의 조합에 가장 근접한 파라미터로 합성된 상기 합성음성 세그먼트를 판독하고, 상기 판독된 합성 음성 세그먼트로 상기 2개의 자연음성 세그먼트들을 접속하는 것을 특징으로 하는 음성합성장치.
  42. 제 40 항 또는 제 41항에 있어서,
    상기 합성음성 세그먼트 기억부는 제 35 항 기재의 음성 세그먼트 작성방법으로 생성된 상기 합성음성 세그먼트들을 기억하고,
    상기 자연음성 세그먼트 기억부에 기억된 상기 자연음성 세그먼트와 상기 음성 합성부내의 여진음원파형이 동일화자에 의해 발성되는 것을 특징으로 하는 음성합성장치.
  43. 제 42 항에 있어서,
    상기 합성음성 세그먼트 파라미터 기억부는 제 35 항 기재의 음성 세그먼트 작성방법으로 작성된 합성음성 세그먼트의 파라미터들을 기억하는 것을 특징으로 하는 음성합성장치.
  44. 제 31 항에 있어서,
    상기 음성 합성부는 포르만트 합성법에 의한 것임을 특징으로 하는 음성 세그먼트 작성방법.
KR1019950046901A 1994-12-06 1995-12-05 음성세그먼트작성방법,음성합성방법및그장치 KR100385603B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP94-302471 1994-12-06
JP6302471A JPH08160991A (ja) 1994-12-06 1994-12-06 音声素片作成方法および音声合成方法、装置
JP95-220963 1995-08-30
JP7220963A JP2987089B2 (ja) 1995-08-30 1995-08-30 音声素片作成方法および音声合成方法とその装置

Publications (2)

Publication Number Publication Date
KR960025314A KR960025314A (ko) 1996-07-20
KR100385603B1 true KR100385603B1 (ko) 2003-08-21

Family

ID=26523998

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950046901A KR100385603B1 (ko) 1994-12-06 1995-12-05 음성세그먼트작성방법,음성합성방법및그장치

Country Status (3)

Country Link
US (1) US5864812A (ko)
KR (1) KR100385603B1 (ko)
CN (2) CN1146863C (ko)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
JP3349905B2 (ja) * 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
US6490562B1 (en) 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
JP3902860B2 (ja) * 1998-03-09 2007-04-11 キヤノン株式会社 音声合成制御装置及びその制御方法、コンピュータ可読メモリ
JP3430985B2 (ja) * 1999-08-05 2003-07-28 ヤマハ株式会社 合成音生成装置
JP3450237B2 (ja) * 1999-10-06 2003-09-22 株式会社アルカディア 音声合成装置および方法
GB9925297D0 (en) * 1999-10-27 1999-12-29 Ibm Voice processing system
JP2001265375A (ja) * 2000-03-17 2001-09-28 Oki Electric Ind Co Ltd 規則音声合成装置
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US6662162B2 (en) * 2000-08-28 2003-12-09 Maureen Casper Method of rating motor dysfunction by assessing speech prosody
US7251601B2 (en) * 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
DE60122296T2 (de) * 2001-05-28 2007-08-30 Texas Instruments Inc., Dallas Programmierbarer Melodienerzeuger
JP4170217B2 (ja) * 2001-08-31 2008-10-22 株式会社ケンウッド ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム
US6681208B2 (en) * 2001-09-25 2004-01-20 Motorola, Inc. Text-to-speech native coding in a communication system
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP2003295880A (ja) * 2002-03-28 2003-10-15 Fujitsu Ltd 録音音声と合成音声を接続する音声合成システム
GB2392592B (en) * 2002-08-27 2004-07-07 20 20 Speech Ltd Speech synthesis apparatus and method
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
EP1471499B1 (en) * 2003-04-25 2014-10-01 Alcatel Lucent Method of distributed speech synthesis
JP4130190B2 (ja) * 2003-04-28 2008-08-06 富士通株式会社 音声合成システム
WO2004109659A1 (ja) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
US7363221B2 (en) * 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
JP4483450B2 (ja) * 2004-07-22 2010-06-16 株式会社デンソー 音声案内装置、音声案内方法およびナビゲーション装置
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
CN101542593B (zh) * 2007-03-12 2013-04-17 富士通株式会社 语音波形内插装置及方法
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
US8255222B2 (en) * 2007-08-10 2012-08-28 Panasonic Corporation Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
WO2009031219A1 (ja) * 2007-09-06 2009-03-12 Fujitsu Limited 音信号生成方法、音信号生成装置及びコンピュータプログラム
US20090177473A1 (en) * 2008-01-07 2009-07-09 Aaron Andrew S Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US9053095B2 (en) * 2010-10-31 2015-06-09 Speech Morphing, Inc. Speech morphing communication system
WO2012160767A1 (ja) * 2011-05-25 2012-11-29 日本電気株式会社 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム
CN105895076B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 一种语音合成方法及系统
JP6728755B2 (ja) * 2015-03-25 2020-07-22 ヤマハ株式会社 歌唱音発音装置
JP6996095B2 (ja) * 2017-03-17 2022-01-17 株式会社リコー 情報表示装置、生体信号計測システムおよびプログラム
CN107799122B (zh) * 2017-09-08 2020-10-23 中国科学院深圳先进技术研究院 一种高生物拟真性语音处理滤波器与语音识别设备
JP7181173B2 (ja) * 2019-09-13 2022-11-30 株式会社スクウェア・エニックス プログラム、情報処理装置、情報処理システム及び方法
CN112786001B (zh) * 2019-11-11 2024-04-09 北京地平线机器人技术研发有限公司 语音合成模型训练方法、语音合成方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4685135A (en) * 1981-03-05 1987-08-04 Texas Instruments Incorporated Text-to-speech synthesis system
US4586193A (en) * 1982-12-08 1986-04-29 Harris Corporation Formant-based speech synthesizer
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
DE69333422T2 (de) * 1992-07-31 2004-12-16 International Business Machines Corp. Auffindung von Zeichenketten in einer Datenbank von Zeichenketten
CN1092195A (zh) * 1993-03-13 1994-09-14 北京联想计算机集团公司 Pc机合成语音音乐及发声的方法
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer

Also Published As

Publication number Publication date
CN1294555C (zh) 2007-01-10
CN1131785A (zh) 1996-09-25
US5864812A (en) 1999-01-26
CN1495703A (zh) 2004-05-12
CN1146863C (zh) 2004-04-21
KR960025314A (ko) 1996-07-20

Similar Documents

Publication Publication Date Title
KR100385603B1 (ko) 음성세그먼트작성방법,음성합성방법및그장치
KR940002854B1 (ko) 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US4912768A (en) Speech encoding process combining written and spoken message codes
EP0458859B1 (en) Text to speech synthesis system and method using context dependent vowell allophones
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US5682502A (en) Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters
JPH031200A (ja) 規則型音声合成装置
US20090177474A1 (en) Speech processing apparatus and program
JPH08254993A (ja) 音声合成装置
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
EP1543497B1 (en) Method of synthesis for a steady sound signal
JPH09319391A (ja) 音声合成方法
JP2002062890A (ja) 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
KR920008259B1 (ko) 포만트의 선형전이구간 분할에 의한 한국어 합성방법
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JPH08160991A (ja) 音声素片作成方法および音声合成方法、装置
JPH09179576A (ja) 音声合成方法
JP3081300B2 (ja) 残差駆動型音声合成装置
KR970003092B1 (ko) 음성 합성 단위를 구성하는 방법 및 이에 상응하는 문장 음성 합성 방법
JP2003066983A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JP2000099094A (ja) 時系列信号処理装置
JP2709198B2 (ja) 音声合成方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee