KR19980702608A - 음성 합성기 - Google Patents
음성 합성기 Download PDFInfo
- Publication number
- KR19980702608A KR19980702608A KR1019970706013A KR19970706013A KR19980702608A KR 19980702608 A KR19980702608 A KR 19980702608A KR 1019970706013 A KR1019970706013 A KR 1019970706013A KR 19970706013 A KR19970706013 A KR 19970706013A KR 19980702608 A KR19980702608 A KR 19980702608A
- Authority
- KR
- South Korea
- Prior art keywords
- unit
- speech
- waveform
- spoken
- vocal
- Prior art date
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 2
- 238000007689 inspection Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Absorbent Articles And Supports Therefor (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
본 발명은 음성 합성기에 관한 것으로, 기록된 음성 파형 부분(예를들어 음소에 해당되는 부분)들이 합성 단어로 결합되고, 스무스한 전달을 제공하기 위해 파형 부분의 각 각의 발성 부분은 미리 결정된 기준 레벨에 맞는 진폭을 갖게 되고, 사용된 스케일링 요소는 그 부분들간 및 발성과 비발성 부분간에 전이 기간동안 점진적으로 변하는 것을 특징으로 한다.
Description
음성합성의 한 방법으로 시간 영역에서 음성의 작은 단위의 연결을 포함하는 것이있다. 따라서 음성 파형의 표현이 기억되기도 하고, 단어보다 작은 단위인 음소, 이중음, 삼중음 등의 작은 단위가 합성 및 연결될 음성에 따라 선택된다. 연결에 있어서, 피치 및 신호 위상의 연속성을 보장하기 위하여 혼합 파형의 조정을 위해 알려진 기술이 사용되기도 한다. 그러나 합성된 음성의 질을 인식하는데 영향을 미치는 더 다른 요소는 이 단위들의 진폭인데; 이 문제를 해결하기 위해서, 기억된 데이터에서 뽑아낸 이 단위들의 길이가 변할 수 있기 때문에, 기억시키기 전에 진폭의 조정 등의 상기 파형의 사전처리를 알 수 없다.
본 발명에 따르면, 음성 파형의 표현을 포함하는 기억장치; 원하는 소리에 해당하는 단어의 부분을 표현하는 음성 파형의 기억 단위로부터 선택하기 위해 원하는 소리에 음소를 나타내는 입력 동작에 응답하는 선택 수단; 미리 결정된 기준 레벨에 관계된 최소한의 음성 부분의 진폭을 조정하는 수단에 의해 특정되는 음성 파형의 선택된 단위들을 연결하는 수단을 포함하는 음성 합성기를 제공한다.
지금부터 첨부한 도면을 참고로 예의 방법으로 본 발명의 예들을 설명하도록 하겠다.
도 1은 본 발명에 따른 음성 합성의 한 예의 블록 다이어그램;
도 2는 상기 음성 합성의 동작을 설명하는 흐름도; 및
도 3은 타이밍 다이어그램이다.
도 1의 음성 합성기에서, 기억장치(1)에는 원래는 가능한 여러 소리(또는 적어도 넓은 선택)를 포함하기 위해 선택된 패시지(passage)(대략 200 문장)을 읽는 사람에 의해 녹음된 디지트화된 음성의 패시지에서 발생한 음성 파형 섹션이 포함되어 있다. 각 섹션을 수반하는 것은 상기 원래의 기록중에 종래의 방법으로 발생한 신호내의 폐쇄음 지점을 나타내는 피치마크(pitchmarks)를 정의하는 기억된 데이터이다.
합성될 음성을 표현하는 입력 신호는 음소의 형태를 띄고 입력(2)으로 공급된다. 이 입력은 원한다면 종래의 방법(도시하지 않음)에 의해 텍스트 입력으로 발생하기도 한다. 이 입력은 상기 입력의 각 단위를 위해 상기 단위가 표현하는 소리에 해당하는 기억된 파형 섹션의 기억장치(1)내의 어드레스를 결정하는 선택 유닛(3)에 의해 알려진 방법으로 처리된다. 이 입력은 앞서 언급한 바와 같이, 음소, 이중음소, 삼중음소 또는 다른 부-단어 단위일 수 있고, 한 단위의 길이는 일반적으로 해당 파형 섹션의 파형 기억장치 내의 가능성에 따라 변화할 수 있다.
상기 단위들은, 일단 읽히고 나면, 4에서 연결되고, 연결된 이 파형은 원하는 모든 피치 조정되기 위해 5로 넘겨진다.
이 연결에 앞서, 각 단위는 동작이 더욱 세밀하게 묘사될 진폭 조정 유닛(6)에서 진폭 정규화 처리(amplitude normalization process)를 위해 각 각 넘겨진다. 기본 목적은 다른 어떠한 처리가 되기 전에 고정된 RMS 레벨로 상기 유닛의 음성 부분 각 각을 정규화 하는 것이다. 선택된 유닛을 나타내는 라벨은 기준 레벨 기억장치(8)가 상기 정규화 처리에 사용될 적절한 RMS 레벨을 결정하게 한다. 음성이 아닌 부분은 조정되지 않으나, 음성과 음성이 아닌 부분간의 전이는 급격한 불연속을 피하기 위해 스무스해지기도 한다. 이러한 접근을 하게 된 동기는 상기 유닛 선택 및 연결 절차의 동작에 놓여있다. 이 선택된 유닛들은 선택된 내용 내에서 길이가 변경 가능하다. 이것은 유닛들의 알고리즘의 결합에 영향을 미치는 길이, 내용 및 발성 조정 특성을 어렵게 만들게 되어 상기 결합에 진폭의 변동이 있게 된다. 이 정보는 각 유닛이 선택되는 작동시간에서만 알 수 있다. 상기 결합 이후의 사후 처리과정 또한 어렵다.
상기 진폭 조정 유닛의 제1 임무는 유닛의 발성 부분(필요한 경우)을 식별하는 것이다. 이것은 신호의 폐쇄음의 지점, 상기 신호의 기본 주파수를 결정하는 연속적인 마크들 간의 거리를 나타내는 피치 타이밍 마크를 사용하는 발성 검출기(7)의 도움으로 이루어진다. 상기 피치 마크의 타이밍을 나타내는 데이터(파형 기억장치(1)에서 얻은 데이터)는 가장 기대되지 않는 기본 주파수에 해당하는 최대 분리를 참고하여 상기 발성 검출기(7)에 의해 수신되고, 연속되는 피치 마크들이 이 최대값 이하로 분리되는 것으로 간주하여 상기 유닛의 발성부분을 식별하여 발성 부분을 구성한다. 발성 부분의 첫번째(또는 마지막) 피치마크는 상기 음성 유닛의 시작(또는 끝)의 이 최대값 내에 각 각 있고, 상기 유닛의 시작부분에서 시작하고 끝 부분에서 끝나는 것으로 여겨진다. 이 식별 단계가 도 2에 도시된 흐름도의 단계 10으로 나타나 있다.
그러면 상기 진폭 조정 유닛(6)은 도 3의 타이밍 다이어그램에 나타난 부분(B)의 예에서 처럼, 상기 발성 부분에 걸친 파형의 RMS 값을 계산하고(단계 11), 스케일 요소(S)는 이 RMS값에 의해 나누어진 고정된 참고값과 같다. 이 고정된 참고값은 모든 음성 부분과 같을 수도 있으며, 또는 하나 이상의 참고값이 음성 부분의 특정 서브셋으로 특정되는 데 사용되기도 한다. 예를들어, 다른 음소들이 다른 참고값으로 할당되기도 한다. 만일 상기 발성 부분이 두 개의 다른 서브셋간의 경계에 걸쳐 발생한다면, 스케일 요소(S)가 상기 RMS 값에 의해 나뉘어진 각 각의 고정된 참고값의 무게 합(weight sum)으로 계산될 수 있다. 적절한 무게들은 각 서브셋 내로 떨어진 상기 발성부분에 비례하여 계산된다. 상기 발성 부분내의 모든 샘플 값들에(도 2의 단계 12) 상기 스케일 요소(S)가 곱해진다. 발성/비발성 전이를 스무스하게 하기 위해, 상기 발성 부분 앞의 비발성 음성 샘플의 마지막 10ms에 이 기간동안 1 에서 S 로 선형적으로 변동하는 요소(S1)가 곱해진다(단계 13). 비슷하게, 상기 발성 부분 다음의 비발성 음성 샘플의 처음 10ms 에 S 에서 1 로 선형적으로 변화하는 요소(S2)가 곱해진다(단계 14). 이 단계들을 보증하는 흐름도의 검사(15,16)는 상기 발성 부분이 각 각 상기 유닛 경계에서 시작하거나 끝날 때 수행되지 않는다.
도 3은 비발성 부분에 의해 분리된 3 개의 발성 부분(A,B,C,D)이 있는 유닛의 스케일링 절차를 보여준다. A 부분은 상기 유닛의 시작에 있고, 세그먼트를 램프-인(ramp-in)하지는 않으나 램프-아웃(ramp-out) 한다. B 부분은 상기 유닛 내에서 시작하고 끝나며, 따라서 세그먼트를 램프-인 및 램프-아웃한다. C 부분은 상기 유닛 내에서 시작하기는 하지만 끝에서 계속되어 세그먼트를 램프-인 하긴 하지만 램프-아웃하지는 않는다.
이 스케일링 처리과정은 발성 부분이 하나 이상이 발견된다면 각 발성 부분에 교대로 적용될 것이라는 것을 알 수 있을 것이다.
비록 상기 진폭 조정 유닛이 전용 하드웨어에서 실현되기도 하지만, 도 2의 흐름도에 따라 동작하는 프로세서를 제어하는 기억된 프로그램에 의해 수행되는 것도 적합하다.
Claims (4)
- 음성 파형의 표현을 포함하는 기억장치;원하는 소리의 음소 표현 입력 동작에 응답하여 상기 원하는 소리에 해당하는 단어 부분을 나타내는 음성 파형의 기억 유닛으로부터 선택하는 선택수단;상기 선택된 유닛의 발성 부분을 식별하는 수단; 및음성 파형의 상기 선택된 유닛을 연결하는 수단을 구비하고,미리 설정된 기준 레벨에 관하여 상기 유닛의 발성 부분의 진폭을 조정하고 상기 유닛의 모든 비발성 부분의 적어도 변하지 않은 부분은 남겨두는 것을 특징으로 하는 음성 합성기.
- 제 1 항에 있어서,상기 조정 수단은, 각 각의 스케일링 요소에 의해 상기 또는 각 발성 부분을 스케일 하고 상기 스케일링 요소와 단일체간의 부분의 지속기간동안 단조롭게 변화하는 요소에 의해 모든 인접한 비발성 부분의 인접 부분을 스케일링하도록 배열된 것을 특징으로 하는 음성 합성기.
- 제 1 항 또는 제 2 항에 있어서,다수의 기준 레벨이 사용되고, 상기 조정 수단은 상기 부분으로 대표되는 소리에 따라 기준 레벨을 선택하기 위해 각 각의 발성 부분을 위해 배열된 것을 특징으로 하는 음성 합성기.
- 제 3 항에 있어서,각 각의 음소는 기준 레벨로 정열되고 하나 이상의 음소로부터 파형 세그먼트를 포함하고 있는 어떤 발성 부분은 상기 세그먼트의 상대적 지속기간에 따라 무게가 정해지는 그 내부에 포함된 음소에 할당된 레벨의 무게 합인 기준 레벨에 할당되는 것을 특징으로 하는 음성 합성기.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP95301478.4 | 1995-03-07 | ||
EP95301478 | 1995-03-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR19980702608A true KR19980702608A (ko) | 1998-08-05 |
Family
ID=8221114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970706013A KR19980702608A (ko) | 1995-03-07 | 1996-03-07 | 음성 합성기 |
Country Status (10)
Country | Link |
---|---|
US (1) | US5978764A (ko) |
EP (1) | EP0813733B1 (ko) |
JP (1) | JPH11501409A (ko) |
KR (1) | KR19980702608A (ko) |
AU (1) | AU699837B2 (ko) |
CA (1) | CA2213779C (ko) |
DE (1) | DE69631037T2 (ko) |
NO (1) | NO974100D0 (ko) |
NZ (1) | NZ303239A (ko) |
WO (1) | WO1996027870A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100363027B1 (ko) * | 2000-07-12 | 2002-12-05 | (주) 보이스웨어 | 음성 합성 또는 음색 변환을 이용한 노래 합성 방법 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1266943B1 (it) * | 1994-09-29 | 1997-01-21 | Cselt Centro Studi Lab Telecom | Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda. |
DE69631037T2 (de) * | 1995-03-07 | 2004-08-19 | British Telecommunications P.L.C. | Sprachsynthese |
DE69615832T2 (de) * | 1995-04-12 | 2002-04-25 | British Telecomm | Sprachsynthese mit wellenformen |
CA2259374A1 (en) * | 1996-07-05 | 1998-01-15 | The Victoria University Of Manchester | Speech synthesis system |
JP3912913B2 (ja) * | 1998-08-31 | 2007-05-09 | キヤノン株式会社 | 音声合成方法及び装置 |
EP1138038B1 (en) * | 1998-11-13 | 2005-06-22 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
JP2001117576A (ja) * | 1999-10-15 | 2001-04-27 | Pioneer Electronic Corp | 音声合成方法 |
US6684187B1 (en) | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6738739B2 (en) * | 2001-02-15 | 2004-05-18 | Mindspeed Technologies, Inc. | Voiced speech preprocessing employing waveform interpolation or a harmonic model |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
US20040073428A1 (en) * | 2002-10-10 | 2004-04-15 | Igor Zlokarnik | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database |
KR100486734B1 (ko) * | 2003-02-25 | 2005-05-03 | 삼성전자주식회사 | 음성 합성 방법 및 장치 |
DE602005026778D1 (de) * | 2004-01-16 | 2011-04-21 | Scansoft Inc | Corpus-gestützte sprachsynthese auf der basis von segmentrekombination |
US8027377B2 (en) * | 2006-08-14 | 2011-09-27 | Intersil Americas Inc. | Differential driver with common-mode voltage tracking and method |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
TWI467566B (zh) * | 2011-11-16 | 2015-01-01 | Univ Nat Cheng Kung | 多語言語音合成方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4949241B1 (ko) * | 1968-05-01 | 1974-12-26 | ||
JPS5972494A (ja) * | 1982-10-19 | 1984-04-24 | 株式会社東芝 | 規則合成方式 |
JP2504171B2 (ja) * | 1989-03-16 | 1996-06-05 | 日本電気株式会社 | 声門波形に基づく話者識別装置 |
DE69028072T2 (de) * | 1989-11-06 | 1997-01-09 | Canon Kk | Verfahren und Einrichtung zur Sprachsynthese |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5469257A (en) * | 1993-11-24 | 1995-11-21 | Honeywell Inc. | Fiber optic gyroscope output noise reducer |
DE69631037T2 (de) * | 1995-03-07 | 2004-08-19 | British Telecommunications P.L.C. | Sprachsynthese |
-
1996
- 1996-03-07 DE DE69631037T patent/DE69631037T2/de not_active Expired - Lifetime
- 1996-03-07 EP EP96905926A patent/EP0813733B1/en not_active Expired - Lifetime
- 1996-03-07 KR KR1019970706013A patent/KR19980702608A/ko not_active Application Discontinuation
- 1996-03-07 JP JP8526713A patent/JPH11501409A/ja active Pending
- 1996-03-07 CA CA002213779A patent/CA2213779C/en not_active Expired - Fee Related
- 1996-03-07 WO PCT/GB1996/000529 patent/WO1996027870A1/en active IP Right Grant
- 1996-03-07 US US08/700,369 patent/US5978764A/en not_active Expired - Lifetime
- 1996-03-07 AU AU49488/96A patent/AU699837B2/en not_active Ceased
- 1996-03-07 NZ NZ303239A patent/NZ303239A/xx unknown
-
1997
- 1997-09-05 NO NO974100A patent/NO974100D0/no unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100363027B1 (ko) * | 2000-07-12 | 2002-12-05 | (주) 보이스웨어 | 음성 합성 또는 음색 변환을 이용한 노래 합성 방법 |
Also Published As
Publication number | Publication date |
---|---|
DE69631037T2 (de) | 2004-08-19 |
NZ303239A (en) | 1999-01-28 |
AU699837B2 (en) | 1998-12-17 |
US5978764A (en) | 1999-11-02 |
CA2213779C (en) | 2001-12-25 |
EP0813733B1 (en) | 2003-12-10 |
EP0813733A1 (en) | 1997-12-29 |
NO974100L (no) | 1997-09-05 |
DE69631037D1 (de) | 2004-01-22 |
AU4948896A (en) | 1996-09-23 |
JPH11501409A (ja) | 1999-02-02 |
CA2213779A1 (en) | 1996-09-12 |
NO974100D0 (no) | 1997-09-05 |
WO1996027870A1 (en) | 1996-09-12 |
MX9706349A (es) | 1997-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5828994A (en) | Non-uniform time scale modification of recorded audio | |
US5524172A (en) | Processing device for speech synthesis by addition of overlapping wave forms | |
US5796916A (en) | Method and apparatus for prosody for synthetic speech prosody determination | |
EP1220195B1 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method | |
EP0831460B1 (en) | Speech synthesis method utilizing auxiliary information | |
KR19980702608A (ko) | 음성 합성기 | |
EP1643486A1 (en) | Method and apparatus for preventing speech comprehension by interactive voice response systems | |
JPH11503535A (ja) | 波形言語合成 | |
JPH031200A (ja) | 規則型音声合成装置 | |
JP3576840B2 (ja) | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 | |
US5212731A (en) | Apparatus for providing sentence-final accents in synthesized american english speech | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
Janse | Time-compressing natural and synthetic speech. | |
Wouters et al. | Effects of prosodic factors on spectral dynamics. II. Synthesis | |
EP1589524B1 (en) | Method and device for speech synthesis | |
CN113409762B (zh) | 情感语音合成方法、装置、设备及存储介质 | |
JP3771565B2 (ja) | 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体 | |
EP1640968A1 (en) | Method and device for speech synthesis | |
MXPA97006349A (en) | Speech synthesis | |
JP3297221B2 (ja) | 音韻継続時間長制御方式 | |
Mannell | Modelling of the segmental and prosodic aspects of speech intensity in synthetic speech | |
O'Shaughnessy | Recent progress in automatic text-to-speech synthesis | |
JP3133347B2 (ja) | 韻律制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |