KR100624440B1 - 음소별 코드북 매핑에 의한 음색변환방법 - Google Patents
음소별 코드북 매핑에 의한 음색변환방법 Download PDFInfo
- Publication number
- KR100624440B1 KR100624440B1 KR1020040085098A KR20040085098A KR100624440B1 KR 100624440 B1 KR100624440 B1 KR 100624440B1 KR 1020040085098 A KR1020040085098 A KR 1020040085098A KR 20040085098 A KR20040085098 A KR 20040085098A KR 100624440 B1 KR100624440 B1 KR 100624440B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- index
- codebook
- fundamental frequency
- frame
- Prior art date
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 38
- 238000009826 distribution Methods 0.000 claims abstract description 28
- 238000005311 autocorrelation function Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 abstract description 4
- 238000003786 synthesis reaction Methods 0.000 abstract description 4
- 230000005284 excitation Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Human Computer Interaction (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Linguistics (AREA)
- Pure & Applied Mathematics (AREA)
- Signal Processing (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Claims (7)
- 프레임 단위로 추출된 원화자의 음성 프레임을 목적화자의 음성 프레임으로 음색변환된 합성음을 생성하는 방법에 있어서,(a) 음소의 종류별로, 목적화자 코드벡터의 인덱스 필드 및 그 매핑횟수 필드로 이루어진 필드블록이 다수 포함된 블록그룹이 원화자의 코드북에 포함된 코드벡터의 인덱스에 의해 액세스되도록 구성한 코드북 매핑 테이블을 생성하는 단계;(b)상기 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 각 음성 프레임에 대한 기본 주파수를 결정하는 단계;(c) 상기 기본 주파수에 기초하여 상기 원화자의 음성 프레임으로부터 음소의 종류를 판별하는 단계;(d) 상기 원화자의 음성 프레임을 LSP 계수로 변환하는 단계;(e) 상기 (c)단계에서 판별된 음소의 종류에 따른 원화자의 코드북을 탐색하여 상기 LSP 계수와 가장 유사한 코드벡터의 인덱스를 결정하는 단계;(f) 상기 (e) 단계에서 결정된 코드벡터의 인덱스에 의해 상기 코드북 매핑 테이블을 액세스하여 목적화자의 코드벡터로 변환하는 단계; 및(g) 상기 (f) 단계에서 변환된 목적화자의 코드벡터에 의해 음색변환된 합성음을 생성하는 단계를 포함함을 특징으로 하는 음소별 코드북 매핑에 의한 음색변환방법.
- 제 1 항에 있어서, 상기 (b) 단계는(b1)음성 신호의 프레임에 윈도우 신호(W(t))를 곱하여 윈도우된 신호에 대한 정규화 자기 상관 함수를 계산하고 상기 윈도우된 신호에 대한 정규화 자기 상관 함수의 피크 값으로부터 후보 기본 주파수들을 결정하는 단계;(b2)상기 결정된 후보 기본 주파수들에 대한 주기와 상기 주기의 주기성을 나타내는 주기 평가값을 보간하는 단계;(b3)제1 임계값(TH1) 이상의 상기 보간 주기 평가값을 가지는 각 프레임의 후보 기본 주파수들에 대한 가우시안 분포를 생성하는 단계;(b4)상기 가우시안 분포들 중에서 제2 임계값(TH2) 이하의 거리에 있는 가우시안 분포를 통합하여 통합 가우시안 분포를 생성하고, 상기 생성된 가우시안 분포들 중에서 제3 임계값(TH3)을 초과하는 가능도(likelihood)를 가지는 적어도 1개 이상의 통합 가우시안 분포를 선택하는 단계; 및(b5)상기 각 프레임의 후보 기본 주파수들과 상기 선택된 통합 가우시안 분포들에 기초하여, 상기 프레임들에 대해 동적 프로그램(dynamic programming)을 실행하여 상기 각 프레임의 기본 주파수를 결정하는 단계를 포함하는 것을 특징으로 하는 음소별 코드북 매핑에 의한 음색변환방법.
- 제 1 항에 있어서, 상기 (f)단계에서 변환된 목적화자의 코드벡터는수학식(여기에서, i는 원화자 코드벡터의 인덱스이고, cvAs(i)는 원화자의 i번째 코드벡터이고, j는 필드블록의 수이고, cvAt(i0),…,cvAt(ij-1)은 각각 cvAs(i)에 대응하는 목적화자의 코드벡터이고, i0,…,ij-1은 각각 목적화자의 코드벡터 인덱스이고, Freqcv(i0),…,Freqcv(ij-1)은 각각 cvAs(i)에 대응하는 목적화자의 코드벡터의 매핑횟수이고, Ft(i)는 Freqcv(i0),…,Freqcv(ij-1)를 합한 값이다)에 의해 구하는 것을 특징으로 하는 음소별 코드북 매핑에 의한 음색변환방법.
- 프레임 단위로 추출된 원화자의 음성 프레임을 목적화자의 음성 프레임으로 변환하기 위한 코드북 매핑 테이블 생성하는 방법에 있어서,(a) 인덱스 필드 및 매핑횟수 필드로 이루어진 필드블록이 다수 포함된 블록그룹이 원화자의 코드북에 포함된 코드벡터의 인덱스에 의해 액세스되도록 구성된 코드북 매핑 테이블을 초기화하는 단계;(b) 동일한 음소를 발음한 원화자와 목적화자의 각 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 각 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 동일한 음소에 대한 원화자와 목적화자의 각 음성 프레임에 대한 기본 주파수를 결정하는 단계;(c) 상기 원화자의 기본 주파수와 목적화자의 기본 주파수를 각각 선형예측분석하고, 각각 제1 LSP 계수 및 제2 LSP 계수로 변환하는 단계;(d) 상기 원화자의 코드북에서 상기 제1 LSP 계수와 가장 유사한 제1 코드벡터를 찾아 제1 코드벡터의 인덱스를 결정하고, 목적화자의 코드북에서 상기 제2 LSP 계수와 가장 유사한 제2 코드벡터를 찾아 제2 코드벡터의 인덱스를 결정하는 단계;(e) 상기 코드북 매핑 테이블에서 상기 제1 코드벡터의 인덱스에 대응하는 블록그룹 내에서 상기 제2 코드벡터의 인덱스에 대응하는 매핑횟수 필드의 값을 1 증가하는 단계; 및(f) 소정의 횟수동안 상기 (b) 단계 내지 상기 (e) 단계를 반복하는 단계를 포함함을 특징으로 하는 코드북 매핑 테이블 생성방법.
- 제 4 항에 있어서, 상기 (b) 단계에서 기본 주파수를 결정하는 단계는(b1) 상기 음성 프레임에 윈도우 신호(W(t))를 곱하여 윈도우된 신호(Sw(t))에 대한 정규화 자기 상관 함수(Ro(i))를 계산하고 상기 윈도우된 신호에 대한 정규화 자기 상관 함수의 피크 값으로부터 상기 음성 프레임에 대한 후보 기본 주파수들을 결정하는 단계;(b2)상기 결정된 후보 기본 주파수들에 대한 주기와 상기 주기의 주기성을 나타내는 주기 평가값을 보간하는 단계;(b3)제1 임계값(TH1) 이상의 상기 보간 주기 평가값을 가지는 후보 기본 주파수들에 대한 가우시안 분포를 생성하는 단계;(b4)상기 가우시안 분포들 중에서 제2 임계값(TH2) 이하의 거리에 있는 가우시안 분포를 통합하여 통합 가우시안 분포를 생성하고, 상기 생성된 가우시안 분포들 중에서 제3 임계값(TH3)을 초과하는 가능도(likelihood)를 가지는 적어도 1개 이상의 통합 가우시안 분포를 선택하는 단계; 및(b5)상기 각 프레임의 후보 기본 주파수들과 상기 선택된 통합 가우시안 분포들에 기초하여, 상기 프레임들에 대해 동적 프로그램(dynamic programming)을 실행하여 상기 각 프레임의 기본 주파수를 결정하는 단계를 포함하는 것을 특징으로 하는 코드북 매핑 테이블 생성방법.
- 제 4 항에 있어서, 상기 (e) 단계는(e1) 상기 코드북 매핑 테이블에서 상기 제1 코드벡터의 인덱스에 대응하는 블록그룹을 찾는 소단계; 및(e2) 상기 (e1) 단계에서 찾은 블록그룹 내에 상기 제2 코드벡터의 인덱스를 기입한 인덱스 필드가 존재하면 대응하는 매핑횟수 필드의 값을 1 증가하고, 존재하지 않으면 상기 (e1) 단계에서 찾은 블록그룹 내에서 값이 할당되지 않은 인덱스 필드에 상기 제2 코드벡터의 인덱스를 기입하고 대응하는 매핑횟수 필드의 값을 1로 두는 소단계를 포함하여 이루어짐을 특징으로 하는 코드북 매핑 테이블 생성방법.
- 제 4 항에 있어서,(g) 각 블록그룹별로 매핑횟수 필드에 기입된 값이 큰 순서대로 소정의 수의 필드블록만을 선택하고 다른 필드블록을 삭제하는 단계를 더 포함함을 특징으로 하는 코드북 매핑 테이블 생성방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040085098A KR100624440B1 (ko) | 2004-10-23 | 2004-10-23 | 음소별 코드북 매핑에 의한 음색변환방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040085098A KR100624440B1 (ko) | 2004-10-23 | 2004-10-23 | 음소별 코드북 매핑에 의한 음색변환방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060035998A KR20060035998A (ko) | 2006-04-27 |
KR100624440B1 true KR100624440B1 (ko) | 2006-09-15 |
Family
ID=37144344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040085098A KR100624440B1 (ko) | 2004-10-23 | 2004-10-23 | 음소별 코드북 매핑에 의한 음색변환방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100624440B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633662B2 (en) | 2012-09-13 | 2017-04-25 | Lg Electronics Inc. | Frame loss recovering method, and audio decoding method and device using same |
CN107240401B (zh) * | 2017-06-13 | 2020-05-15 | 厦门美图之家科技有限公司 | 一种音色转换方法及计算设备 |
CN114360491B (zh) * | 2021-12-29 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及计算机可读存储介质 |
-
2004
- 2004-10-23 KR KR1020040085098A patent/KR100624440B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20060035998A (ko) | 2006-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Giacobello et al. | Sparse linear prediction and its applications to speech processing | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
EP2179414B1 (en) | Synthesis by generation and concatenation of multi-form segments | |
JP2776050B2 (ja) | 音声符号化方式 | |
JP2003150187A (ja) | スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JPH0990995A (ja) | 音声符号化装置 | |
RU2427044C1 (ru) | Текстозависимый способ конверсии голоса | |
Lee et al. | Speech/audio signal classification using spectral flux pattern recognition | |
KR100624440B1 (ko) | 음소별 코드북 매핑에 의한 음색변환방법 | |
JPH08248994A (ja) | 声質変換音声合成装置 | |
RU61924U1 (ru) | Статистическая модель речи | |
JP3308764B2 (ja) | 音声符号化装置 | |
KR100275777B1 (ko) | 음소별 코드북 매핑에 의한 음색변환방법 | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP2009063700A (ja) | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP2020129099A (ja) | 推定装置、推定方法、及びプログラム | |
Salor et al. | Dynamic programming approach to voice transformation | |
JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
Airaksinen et al. | Effects of training data variety in generating glottal pulses from acoustic features with DNNs | |
JP3576792B2 (ja) | 音声情報処理方法 | |
JP3024467B2 (ja) | 音声符号化装置 | |
JPH08211895A (ja) | ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120830 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20130829 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140828 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160125 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170829 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20180827 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20190905 Year of fee payment: 14 |