KR19980702608A - 음성 합성기 - Google Patents

음성 합성기 Download PDF

Info

Publication number
KR19980702608A
KR19980702608A KR1019970706013A KR19970706013A KR19980702608A KR 19980702608 A KR19980702608 A KR 19980702608A KR 1019970706013 A KR1019970706013 A KR 1019970706013A KR 19970706013 A KR19970706013 A KR 19970706013A KR 19980702608 A KR19980702608 A KR 19980702608A
Authority
KR
South Korea
Prior art keywords
unit
speech
waveform
spoken
vocal
Prior art date
Application number
KR1019970706013A
Other languages
English (en)
Inventor
로우리앤들류
브린앤드류
잭슨피터
Original Assignee
에버쉐드마이클
브리티쉬텔리커뮤니케이션즈퍼블릭리미티드캄퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에버쉐드마이클, 브리티쉬텔리커뮤니케이션즈퍼블릭리미티드캄퍼니 filed Critical 에버쉐드마이클
Publication of KR19980702608A publication Critical patent/KR19980702608A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Absorbent Articles And Supports Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 음성 합성기에 관한 것으로, 기록된 음성 파형 부분(예를들어 음소에 해당되는 부분)들이 합성 단어로 결합되고, 스무스한 전달을 제공하기 위해 파형 부분의 각 각의 발성 부분은 미리 결정된 기준 레벨에 맞는 진폭을 갖게 되고, 사용된 스케일링 요소는 그 부분들간 및 발성과 비발성 부분간에 전이 기간동안 점진적으로 변하는 것을 특징으로 한다.

Description

음성 합성기
음성합성의 한 방법으로 시간 영역에서 음성의 작은 단위의 연결을 포함하는 것이있다. 따라서 음성 파형의 표현이 기억되기도 하고, 단어보다 작은 단위인 음소, 이중음, 삼중음 등의 작은 단위가 합성 및 연결될 음성에 따라 선택된다. 연결에 있어서, 피치 및 신호 위상의 연속성을 보장하기 위하여 혼합 파형의 조정을 위해 알려진 기술이 사용되기도 한다. 그러나 합성된 음성의 질을 인식하는데 영향을 미치는 더 다른 요소는 이 단위들의 진폭인데; 이 문제를 해결하기 위해서, 기억된 데이터에서 뽑아낸 이 단위들의 길이가 변할 수 있기 때문에, 기억시키기 전에 진폭의 조정 등의 상기 파형의 사전처리를 알 수 없다.
본 발명에 따르면, 음성 파형의 표현을 포함하는 기억장치; 원하는 소리에 해당하는 단어의 부분을 표현하는 음성 파형의 기억 단위로부터 선택하기 위해 원하는 소리에 음소를 나타내는 입력 동작에 응답하는 선택 수단; 미리 결정된 기준 레벨에 관계된 최소한의 음성 부분의 진폭을 조정하는 수단에 의해 특정되는 음성 파형의 선택된 단위들을 연결하는 수단을 포함하는 음성 합성기를 제공한다.
지금부터 첨부한 도면을 참고로 예의 방법으로 본 발명의 예들을 설명하도록 하겠다.
도 1은 본 발명에 따른 음성 합성의 한 예의 블록 다이어그램;
도 2는 상기 음성 합성의 동작을 설명하는 흐름도; 및
도 3은 타이밍 다이어그램이다.
도 1의 음성 합성기에서, 기억장치(1)에는 원래는 가능한 여러 소리(또는 적어도 넓은 선택)를 포함하기 위해 선택된 패시지(passage)(대략 200 문장)을 읽는 사람에 의해 녹음된 디지트화된 음성의 패시지에서 발생한 음성 파형 섹션이 포함되어 있다. 각 섹션을 수반하는 것은 상기 원래의 기록중에 종래의 방법으로 발생한 신호내의 폐쇄음 지점을 나타내는 피치마크(pitchmarks)를 정의하는 기억된 데이터이다.
합성될 음성을 표현하는 입력 신호는 음소의 형태를 띄고 입력(2)으로 공급된다. 이 입력은 원한다면 종래의 방법(도시하지 않음)에 의해 텍스트 입력으로 발생하기도 한다. 이 입력은 상기 입력의 각 단위를 위해 상기 단위가 표현하는 소리에 해당하는 기억된 파형 섹션의 기억장치(1)내의 어드레스를 결정하는 선택 유닛(3)에 의해 알려진 방법으로 처리된다. 이 입력은 앞서 언급한 바와 같이, 음소, 이중음소, 삼중음소 또는 다른 부-단어 단위일 수 있고, 한 단위의 길이는 일반적으로 해당 파형 섹션의 파형 기억장치 내의 가능성에 따라 변화할 수 있다.
상기 단위들은, 일단 읽히고 나면, 4에서 연결되고, 연결된 이 파형은 원하는 모든 피치 조정되기 위해 5로 넘겨진다.
이 연결에 앞서, 각 단위는 동작이 더욱 세밀하게 묘사될 진폭 조정 유닛(6)에서 진폭 정규화 처리(amplitude normalization process)를 위해 각 각 넘겨진다. 기본 목적은 다른 어떠한 처리가 되기 전에 고정된 RMS 레벨로 상기 유닛의 음성 부분 각 각을 정규화 하는 것이다. 선택된 유닛을 나타내는 라벨은 기준 레벨 기억장치(8)가 상기 정규화 처리에 사용될 적절한 RMS 레벨을 결정하게 한다. 음성이 아닌 부분은 조정되지 않으나, 음성과 음성이 아닌 부분간의 전이는 급격한 불연속을 피하기 위해 스무스해지기도 한다. 이러한 접근을 하게 된 동기는 상기 유닛 선택 및 연결 절차의 동작에 놓여있다. 이 선택된 유닛들은 선택된 내용 내에서 길이가 변경 가능하다. 이것은 유닛들의 알고리즘의 결합에 영향을 미치는 길이, 내용 및 발성 조정 특성을 어렵게 만들게 되어 상기 결합에 진폭의 변동이 있게 된다. 이 정보는 각 유닛이 선택되는 작동시간에서만 알 수 있다. 상기 결합 이후의 사후 처리과정 또한 어렵다.
상기 진폭 조정 유닛의 제1 임무는 유닛의 발성 부분(필요한 경우)을 식별하는 것이다. 이것은 신호의 폐쇄음의 지점, 상기 신호의 기본 주파수를 결정하는 연속적인 마크들 간의 거리를 나타내는 피치 타이밍 마크를 사용하는 발성 검출기(7)의 도움으로 이루어진다. 상기 피치 마크의 타이밍을 나타내는 데이터(파형 기억장치(1)에서 얻은 데이터)는 가장 기대되지 않는 기본 주파수에 해당하는 최대 분리를 참고하여 상기 발성 검출기(7)에 의해 수신되고, 연속되는 피치 마크들이 이 최대값 이하로 분리되는 것으로 간주하여 상기 유닛의 발성부분을 식별하여 발성 부분을 구성한다. 발성 부분의 첫번째(또는 마지막) 피치마크는 상기 음성 유닛의 시작(또는 끝)의 이 최대값 내에 각 각 있고, 상기 유닛의 시작부분에서 시작하고 끝 부분에서 끝나는 것으로 여겨진다. 이 식별 단계가 도 2에 도시된 흐름도의 단계 10으로 나타나 있다.
그러면 상기 진폭 조정 유닛(6)은 도 3의 타이밍 다이어그램에 나타난 부분(B)의 예에서 처럼, 상기 발성 부분에 걸친 파형의 RMS 값을 계산하고(단계 11), 스케일 요소(S)는 이 RMS값에 의해 나누어진 고정된 참고값과 같다. 이 고정된 참고값은 모든 음성 부분과 같을 수도 있으며, 또는 하나 이상의 참고값이 음성 부분의 특정 서브셋으로 특정되는 데 사용되기도 한다. 예를들어, 다른 음소들이 다른 참고값으로 할당되기도 한다. 만일 상기 발성 부분이 두 개의 다른 서브셋간의 경계에 걸쳐 발생한다면, 스케일 요소(S)가 상기 RMS 값에 의해 나뉘어진 각 각의 고정된 참고값의 무게 합(weight sum)으로 계산될 수 있다. 적절한 무게들은 각 서브셋 내로 떨어진 상기 발성부분에 비례하여 계산된다. 상기 발성 부분내의 모든 샘플 값들에(도 2의 단계 12) 상기 스케일 요소(S)가 곱해진다. 발성/비발성 전이를 스무스하게 하기 위해, 상기 발성 부분 앞의 비발성 음성 샘플의 마지막 10ms에 이 기간동안 1 에서 S 로 선형적으로 변동하는 요소(S1)가 곱해진다(단계 13). 비슷하게, 상기 발성 부분 다음의 비발성 음성 샘플의 처음 10ms 에 S 에서 1 로 선형적으로 변화하는 요소(S2)가 곱해진다(단계 14). 이 단계들을 보증하는 흐름도의 검사(15,16)는 상기 발성 부분이 각 각 상기 유닛 경계에서 시작하거나 끝날 때 수행되지 않는다.
도 3은 비발성 부분에 의해 분리된 3 개의 발성 부분(A,B,C,D)이 있는 유닛의 스케일링 절차를 보여준다. A 부분은 상기 유닛의 시작에 있고, 세그먼트를 램프-인(ramp-in)하지는 않으나 램프-아웃(ramp-out) 한다. B 부분은 상기 유닛 내에서 시작하고 끝나며, 따라서 세그먼트를 램프-인 및 램프-아웃한다. C 부분은 상기 유닛 내에서 시작하기는 하지만 끝에서 계속되어 세그먼트를 램프-인 하긴 하지만 램프-아웃하지는 않는다.
이 스케일링 처리과정은 발성 부분이 하나 이상이 발견된다면 각 발성 부분에 교대로 적용될 것이라는 것을 알 수 있을 것이다.
비록 상기 진폭 조정 유닛이 전용 하드웨어에서 실현되기도 하지만, 도 2의 흐름도에 따라 동작하는 프로세서를 제어하는 기억된 프로그램에 의해 수행되는 것도 적합하다.

Claims (4)

  1. 음성 파형의 표현을 포함하는 기억장치;
    원하는 소리의 음소 표현 입력 동작에 응답하여 상기 원하는 소리에 해당하는 단어 부분을 나타내는 음성 파형의 기억 유닛으로부터 선택하는 선택수단;
    상기 선택된 유닛의 발성 부분을 식별하는 수단; 및
    음성 파형의 상기 선택된 유닛을 연결하는 수단을 구비하고,
    미리 설정된 기준 레벨에 관하여 상기 유닛의 발성 부분의 진폭을 조정하고 상기 유닛의 모든 비발성 부분의 적어도 변하지 않은 부분은 남겨두는 것을 특징으로 하는 음성 합성기.
  2. 제 1 항에 있어서,
    상기 조정 수단은, 각 각의 스케일링 요소에 의해 상기 또는 각 발성 부분을 스케일 하고 상기 스케일링 요소와 단일체간의 부분의 지속기간동안 단조롭게 변화하는 요소에 의해 모든 인접한 비발성 부분의 인접 부분을 스케일링하도록 배열된 것을 특징으로 하는 음성 합성기.
  3. 제 1 항 또는 제 2 항에 있어서,
    다수의 기준 레벨이 사용되고, 상기 조정 수단은 상기 부분으로 대표되는 소리에 따라 기준 레벨을 선택하기 위해 각 각의 발성 부분을 위해 배열된 것을 특징으로 하는 음성 합성기.
  4. 제 3 항에 있어서,
    각 각의 음소는 기준 레벨로 정열되고 하나 이상의 음소로부터 파형 세그먼트를 포함하고 있는 어떤 발성 부분은 상기 세그먼트의 상대적 지속기간에 따라 무게가 정해지는 그 내부에 포함된 음소에 할당된 레벨의 무게 합인 기준 레벨에 할당되는 것을 특징으로 하는 음성 합성기.
KR1019970706013A 1995-03-07 1996-03-07 음성 합성기 KR19980702608A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95301478.4 1995-03-07
EP95301478 1995-03-07

Publications (1)

Publication Number Publication Date
KR19980702608A true KR19980702608A (ko) 1998-08-05

Family

ID=8221114

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970706013A KR19980702608A (ko) 1995-03-07 1996-03-07 음성 합성기

Country Status (10)

Country Link
US (1) US5978764A (ko)
EP (1) EP0813733B1 (ko)
JP (1) JPH11501409A (ko)
KR (1) KR19980702608A (ko)
AU (1) AU699837B2 (ko)
CA (1) CA2213779C (ko)
DE (1) DE69631037T2 (ko)
NO (1) NO974100D0 (ko)
NZ (1) NZ303239A (ko)
WO (1) WO1996027870A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100363027B1 (ko) * 2000-07-12 2002-12-05 (주) 보이스웨어 음성 합성 또는 음색 변환을 이용한 노래 합성 방법

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1266943B1 (it) * 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
DE69631037T2 (de) * 1995-03-07 2004-08-19 British Telecommunications P.L.C. Sprachsynthese
DE69615832T2 (de) * 1995-04-12 2002-04-25 British Telecomm Sprachsynthese mit wellenformen
CA2259374A1 (en) * 1996-07-05 1998-01-15 The Victoria University Of Manchester Speech synthesis system
JP3912913B2 (ja) * 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
JP2001117576A (ja) * 1999-10-15 2001-04-27 Pioneer Electronic Corp 音声合成方法
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
DE602005026778D1 (de) * 2004-01-16 2011-04-21 Scansoft Inc Corpus-gestützte sprachsynthese auf der basis von segmentrekombination
US8027377B2 (en) * 2006-08-14 2011-09-27 Intersil Americas Inc. Differential driver with common-mode voltage tracking and method
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
TWI467566B (zh) * 2011-11-16 2015-01-01 Univ Nat Cheng Kung 多語言語音合成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4949241B1 (ko) * 1968-05-01 1974-12-26
JPS5972494A (ja) * 1982-10-19 1984-04-24 株式会社東芝 規則合成方式
JP2504171B2 (ja) * 1989-03-16 1996-06-05 日本電気株式会社 声門波形に基づく話者識別装置
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5469257A (en) * 1993-11-24 1995-11-21 Honeywell Inc. Fiber optic gyroscope output noise reducer
DE69631037T2 (de) * 1995-03-07 2004-08-19 British Telecommunications P.L.C. Sprachsynthese

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100363027B1 (ko) * 2000-07-12 2002-12-05 (주) 보이스웨어 음성 합성 또는 음색 변환을 이용한 노래 합성 방법

Also Published As

Publication number Publication date
DE69631037T2 (de) 2004-08-19
NZ303239A (en) 1999-01-28
AU699837B2 (en) 1998-12-17
US5978764A (en) 1999-11-02
CA2213779C (en) 2001-12-25
EP0813733B1 (en) 2003-12-10
EP0813733A1 (en) 1997-12-29
NO974100L (no) 1997-09-05
DE69631037D1 (de) 2004-01-22
AU4948896A (en) 1996-09-23
JPH11501409A (ja) 1999-02-02
CA2213779A1 (en) 1996-09-12
NO974100D0 (no) 1997-09-05
WO1996027870A1 (en) 1996-09-12
MX9706349A (es) 1997-11-29

Similar Documents

Publication Publication Date Title
US5828994A (en) Non-uniform time scale modification of recorded audio
US5524172A (en) Processing device for speech synthesis by addition of overlapping wave forms
US5796916A (en) Method and apparatus for prosody for synthetic speech prosody determination
EP1220195B1 (en) Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
KR19980702608A (ko) 음성 합성기
EP1643486A1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
JPH11503535A (ja) 波形言語合成
JPH031200A (ja) 規則型音声合成装置
JP3576840B2 (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
US5212731A (en) Apparatus for providing sentence-final accents in synthesized american english speech
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP2904279B2 (ja) 音声合成方法および装置
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
Janse Time-compressing natural and synthetic speech.
Wouters et al. Effects of prosodic factors on spectral dynamics. II. Synthesis
EP1589524B1 (en) Method and device for speech synthesis
CN113409762B (zh) 情感语音合成方法、装置、设备及存储介质
JP3771565B2 (ja) 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
EP1640968A1 (en) Method and device for speech synthesis
MXPA97006349A (en) Speech synthesis
JP3297221B2 (ja) 音韻継続時間長制御方式
Mannell Modelling of the segmental and prosodic aspects of speech intensity in synthetic speech
O'Shaughnessy Recent progress in automatic text-to-speech synthesis
JP3133347B2 (ja) 韻律制御装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application