KR100624545B1 - 티티에스 시스템의 음성압축 및 합성방법 - Google Patents
티티에스 시스템의 음성압축 및 합성방법 Download PDFInfo
- Publication number
- KR100624545B1 KR100624545B1 KR1020040078231A KR20040078231A KR100624545B1 KR 100624545 B1 KR100624545 B1 KR 100624545B1 KR 1020040078231 A KR1020040078231 A KR 1020040078231A KR 20040078231 A KR20040078231 A KR 20040078231A KR 100624545 B1 KR100624545 B1 KR 100624545B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- codebook
- tts system
- speech
- synthesis method
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000007906 compression Methods 0.000 title claims abstract description 34
- 230000006835 compression Effects 0.000 title claims abstract description 34
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 34
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 29
- 230000001419 dependent effect Effects 0.000 claims abstract description 33
- 238000001308 synthesis method Methods 0.000 claims abstract description 22
- 238000013139 quantization Methods 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 8
- 230000002194 synthesizing effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Claims (9)
- TTS 시스템의 음성압축 및 합성 방법에 있어,양자화 테이블을 이용하여 양자화된 선형 예측 계수를 통해 얻어진 잔차 신호를 유성음 및 천이구간에서 추출한 후 신호 파형의 유사도를 측정하여 생성된 화자 종속적 코드북을 이용하고;상기 화자 종속적 코드북은 시간 축에서 잔차 신호 파형의 유사도를 비교함으로써 다양한 형태의 신호로 코드북을 훈련시켜 코드북을 생성하는;것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
- TTS 시스템의 음성압축 및 합성 방법에 있어,양자화 테이블을 이용하여 양자화된 선형 예측 계수를 통해 얻어진 잔차 신호를 유성음 및 천이구간에서 추출한 후 신호 파형의 유사도를 측정하여 생성된 화자 종속적 코드북을 이용하고;상기 화자 종속적 코드북은 학습 훈련 과정을 통해 얻어진 양자화 테이블을 선형 예측 계수의 분할 양자화에 사용하는;것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
- TTS 시스템의 음성압축 및 합성 방법에 있어,양자화 테이블을 이용하여 양자화된 선형 예측 계수를 통해 얻어진 잔차 신호를 유성음 및 천이구간에서 추출한 후 신호 파형의 유사도를 측정하여 생성된 화자 종속적 코드북을 이용하고;상기 화자 종속적 코드북은 한 화자의 유성음 및 천이구간에서의 신호 파형을 학습 훈련 과정을 통해 양자화 테이블로 구현하여 이를 합성 후 분석(Analysis-by-Synthesis) 방법에 적용하는;것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
- TTS 시스템의 음성압축 및 합성 방법에 있어,양자화 테이블을 이용하여 양자화된 선형 예측 계수를 통해 얻어진 잔차 신호를 유성음 및 천이구간에서 추출한 후 신호 파형의 유사도를 측정하여 생성된 화자 종속적 코드북을 이용하고;화자 종속적 코드북은 잔차 신호의 형태를 비교함에 있어 비슷한 형태를 지녔지만 위상이 다른 신호들에 대한 중복 등록을 방지하는;것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
- 제4항에 있어서,잔차 신호의 형태를 비교할 때 슬라이딩-비교방법(sliding-comparison method)을 사용하는 것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
- TTS 시스템의 음성압축 및 합성 방법에 있어,랜덤 엑세스를 가능하도록 하는 비예측 프레임 및 비트를 줄이기 위하여 상기 비예측 프레임의 나머지 부분에 할당되는 예측프레임을 혼용하고;TTS시스템의 코덱은 음소 단위의 압축과 합성을 지원하기 위해 과거 정보가 없는 음소의 시작 부분에서는 화자 종속적 잔차신호 코드북을 사용하고, 그 이후의 음성 신호에 대해선 예측 방식을 사용하는;것을 특징으로 하는 TTS 시스템의 음성압축 및 합성 방법.
- TTS 시스템의 음성압축 및 합성 방법에 있어,랜덤 엑세스를 가능하도록 하는 비예측 프레임 및 비트를 줄이기 위하여 상기 비예측 프레임의 나머지 부분에 할당되는 예측프레임을 혼용하고;상기 비예측 프레임과 예측프레임의 혼용은 TTS 시스템의 특징에 따라 음소별 혹은 합성 단위별로 가변적으로 다양하게 변형하여 사용하는;것을 특징으로 하는 TTS 시스템의 음성압축 및 합성 방법.
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040078231A KR100624545B1 (ko) | 2004-10-01 | 2004-10-01 | 티티에스 시스템의 음성압축 및 합성방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040078231A KR100624545B1 (ko) | 2004-10-01 | 2004-10-01 | 티티에스 시스템의 음성압축 및 합성방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060029330A KR20060029330A (ko) | 2006-04-06 |
KR100624545B1 true KR100624545B1 (ko) | 2006-09-18 |
Family
ID=37139687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040078231A KR100624545B1 (ko) | 2004-10-01 | 2004-10-01 | 티티에스 시스템의 음성압축 및 합성방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100624545B1 (ko) |
-
2004
- 2004-10-01 KR KR1020040078231A patent/KR100624545B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20060029330A (ko) | 2006-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3680380B2 (ja) | 音声符号化方法及び装置 | |
JP3180762B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JPH10187196A (ja) | 低ビットレートピッチ遅れコーダ | |
KR20010102004A (ko) | Celp 트랜스코딩 | |
JPH0869299A (ja) | 音声符号化方法、音声復号化方法及び音声符号化復号化方法 | |
JPH0990995A (ja) | 音声符号化装置 | |
JP3180786B2 (ja) | 音声符号化方法及び音声符号化装置 | |
US6611797B1 (en) | Speech coding/decoding method and apparatus | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
Bergstrom et al. | Code-book driven glottal pulse analysis | |
JPH07225599A (ja) | 音声の符号化方法 | |
KR100624545B1 (ko) | 티티에스 시스템의 음성압축 및 합성방법 | |
JP3916934B2 (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 | |
JP3878254B2 (ja) | 音声圧縮符号化方法および音声圧縮符号化装置 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP3153075B2 (ja) | 音声符号化装置 | |
Dong-jian | Two stage concatenation speech synthesis for embedded devices | |
JP2853170B2 (ja) | 音声符号化復号化方式 | |
JP3024467B2 (ja) | 音声符号化装置 | |
JP3063087B2 (ja) | 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置 | |
KR20100006491A (ko) | 무성음 부호화 및 복호화 방법 및 장치 | |
JPH09179593A (ja) | 音声符号化装置 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JPH08211895A (ja) | ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法 | |
JPH09146599A (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
N231 | Notification of change of applicant | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
N231 | Notification of change of applicant | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
B701 | Decision to grant | ||
N231 | Notification of change of applicant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120823 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20130822 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140821 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150831 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160824 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20170824 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20190816 Year of fee payment: 14 |