KR100624440B1 - 음소별 코드북 매핑에 의한 음색변환방법 - Google Patents

음소별 코드북 매핑에 의한 음색변환방법 Download PDF

Info

Publication number
KR100624440B1
KR100624440B1 KR1020040085098A KR20040085098A KR100624440B1 KR 100624440 B1 KR100624440 B1 KR 100624440B1 KR 1020040085098 A KR1020040085098 A KR 1020040085098A KR 20040085098 A KR20040085098 A KR 20040085098A KR 100624440 B1 KR100624440 B1 KR 100624440B1
Authority
KR
South Korea
Prior art keywords
speaker
index
codebook
fundamental frequency
frame
Prior art date
Application number
KR1020040085098A
Other languages
English (en)
Other versions
KR20060035998A (ko
Inventor
김동관
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040085098A priority Critical patent/KR100624440B1/ko
Publication of KR20060035998A publication Critical patent/KR20060035998A/ko
Application granted granted Critical
Publication of KR100624440B1 publication Critical patent/KR100624440B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음소별 코드북 매핑에 의해 음색이 변환된 음성을 생성하는 방법에 관한 것으로서, 본 발명에 의한 프레임 단위로 추출된 원화자의 음성 프레임을 목적화자의 음성 프레임으로 음색변환된 합성음을 생성하는 방법은 음소의 종류별로, 목적화자 코드벡터의 인덱스 필드 및 그 매핑횟수 필드로 이루어진 필드블록이 다수 포함된 블록그룹이 원화자의 코드북에 포함된 코드벡터의 인덱스에 의해 액세스되도록 구성한 코드북 매핑 테이블을 생성하는 단계; (b)상기 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 각 음성 프레임에 대한 기본 주파수를 결정하는 단계; (c)상기 기본 주파수에 기초하여 상기 원화자의 음성 프레임으로부터 음소의 종류를 판별하는 단계; (d)상기 원화자의 음성 프레임을 LSP 계수로 변환하는 단계; (e)상기 (c)단계에서 판별된 음소의 종류에 따른 원화자의 코드북을 탐색하여 상기 LSP 계수와 가장 유사한 코드벡터의 인덱스를 결정하는 단계; (f)상기 (e) 단계에서 결정된 코드벡터의 인덱스에 의해 상기 코드북 매핑 테이블을 액세스하여 목적화자의 코드벡터로 변환하는 단계; 및(g)상기 (f)단계에서 변환된 목적화자의 코드벡터에 의해 음색변환된 합성음을 생성하는 단계를 포함함을 특징으로 한다.
본 발명에 의하면, 다양한 음색으로 합성음을 생성하기 위해 음성합성장치에 사용할 경우, 합성음의 목적에 따라 나이, 성별 등이 다른 음색으로 문장을 합성할 수 있다.

Description

음소별 코드북 매핑에 의한 음색변환방법{Method for converting timber of speech using phoneme codebook mapping}
도 1은 본 발명에 의해 사용되는 코드북 매핑 테이블의 구성을 도시한다.
도 2는 본 발명에 의한 코드북 매핑 테이블 및 변환함수가 생성되는 과정을 설명하기 위한 도면이다.
도 3은 본 발명에 의한 음소별 코드북 매핑에 의한 음색변환과정을 도시한 흐름도이다.
삭제
본 발명은 음성합성방법에 관한 것으로서, 특히 음소(音素)별 코드북 매핑에 의해 음색이 변환된 음성을 생성하는 방법에 관한 것이다.
최근의 음성합성시스템은 그 성능이 크게 향상되어 전자우편 독출기(Email reader), 기상자료 합성음 서비스, 인터넷 웹문서 읽기 등 각종 문서에 대한 합성음 생성에 응용되는 추세이다. 일반적으로, 합성음의 질(質)은 자연성 및 명료성이 라는 두가지 척도로 평가된다. 그런데, 현재까지 합성음의 자연성은 여전히 만족스럽지 못한 수준에 있다.
합성음의 자연성을 향상시키는 방법에는 크게 두가지가 있는데, 하나는 특정 화자(話者)의 발음 특성을 흉내내는 것이고, 다른 하나는 화자의 감정을 합성하는 것이다. 이에, 본 발명은 한사람의 음성을 다른 사람의 음성처럼 들리도록 원화자(原話者)의 발음특성을 변경하는 방법에 관한 것이다.
기존의 벡터 양자화(Vector Quantization : VQ) 코드북(codebook) 매핑에 의한 음색변환방법은 모든 음소에 공통된 코드북을 사용하였다. 그런데, 이러한 방법에서는 공통된 코드북이 음소마다 다른 화자의 음색을 반영하지 못하므로 음색변환 성능을 보장할 수 없다.
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 음소별 코드벡터를 사용함으로써 각 음소마다 세밀한 음색변경이 가능한 음소별 코드북 매핑에 의해 음색이 변환된 음성을 생성하는 방법을 제공함을 제1의 목적으로 한다.
그리고, 음색이 변환된 음성을 생성하기 위해 사용되는 코드북 매핑 테이블의 생성방법을 제공함을 제2의 목적으로 한다.
상기의 제1의 목적을 달성하기 위하여, 본 발명에 의한 프레임 단위로 추출된 원화자의 음성 프레임을 목적화자의 음성 프레임으로 음색변환된 합성음을 생성하는 방법은 (음소의 종류별로, 목적화자 코드벡터의 인덱스 필드 및 그 매핑횟수 필드로 이루어진 필드블록이 다수 포함된 블록그룹이 원화자의 코드북에 포함된 코드벡터의 인덱스에 의해 액세스되도록 구성한 코드북 매핑 테이블을 생성하는 단계; (b)상기 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 각 음성 프레임에 대한 기본 주파수를 결정하는 단계; (c)상기 기본 주파수에 기초하여 상기 원화자의 음성 프레임으로부터 음소의 종류를 판별하는 단계; (d)상기 원화자의 음성 프레임을 LSP 계수로 변환하는 단계; (e)상기 (c)단계에서 판별된 음소의 종류에 따른 원화자의 코드북을 탐색하여 상기 LSP 계수와 가장 유사한 코드벡터의 인덱스를 결정하는 단계; (f)상기 (e) 단계에서 결정된 코드벡터의 인덱스에 의해 상기 코드북 매핑 테이블을 액세스하여 목적화자의 코드벡터로 변환하는 단계; 및(g)상기 (f)단계에서 변환된 목적화자의 코드벡터에 의해 음색변환된 합성음을 생성하는 단계를 포함하는 것을 특징으로 한다.
상기의 제2의 목적을 달성하기 위하여, 본 발명에 의한 코드북 매핑 테이블의 생성방법은 (a) 인덱스 필드 및 매핑횟수 필드로 이루어진 필드블록이 다수 포함된 블록그룹이 원화자의 코드북에 포함된 코드벡터의 인덱스에 의해 액세스되도록 구성된 코드북 매핑 테이블을 초기화하는 단계; (b)동일한 음소를 발음한 원화자와 목적화자의 각 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 각 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 동일한 음소에 대한 원화자와 목적화자의 각 음성 프레임에 대한 기본 주파수를 결정하는 단계; (c)상기 원화자의 기본 주파수와 목적화자의 기본 주파수를 각각 선형예측분석하고, 각각 제1 LSP 계수 및 제2 LSP 계수로 변환하는 단계; (d)상기 원화자의 코드북에서 상기 제1 LSP 계수와 가장 유사한 제1 코드벡터를 찾아 제1 코드벡터의 인덱스를 결정하고, 목적화자의 코드북에서 상기 제2 LSP 계수와 가장 유사한 제2 코드벡터를 찾아 제2 코드벡터의 인덱스를 결정하는 단계; (e)상기 코드북 매핑 테이블에서 상기 제1 코드벡터의 인덱스에 대응하는 블록그룹 내에서 상기 제2 코드벡터의 인덱스에 대응하는 매핑횟수 필드의 값을 1 증가하는 단계; 및 (f)소정의 횟수동안 상기 (b)단계 내지 상기 (e)단계를 반복하는 단계를 포함하는 것을 특징으로 한다.
본 발명에는 매핑 단계를 통해 원화자와 목적화자의 코드북 매핑 테이블을 생성하는 단계와 코드북 매핑 테이블을 이용하여 원화자 음성의 음색을 변환하는 단계로 이루어진다.
코드북 매핑 테이블을 생성하는 단계는 음색변환 과정과는 별도로 오프라인(off-line)으로 실행된다. 한편, 실제 음색변환은 생성된 코드북 매핑 테이블을 이용하여 온라인(on-line)으로 수행된다.
코드북 매핑 테이블을 생성하는 과정을 도 1 및 도 2를 참조하여 설명한다.
(1) 먼저, 도 1에 도시된 바와 같은 코드북 매핑 테이블을 초기화한다. 코드북 매핑 테이블은 음소의 종류별로 구비되며, 목적화자 코드벡터의 인덱스 필드(10) 및 그 매핑횟수 필드(14)로 이루어진 필드블록(14)이 j개 포함된 블록그룹 (16)이 원화자의 코드북에 포함된 코드벡터의 인덱스(0,…,N-1)에 의해 액세스되도록 구성되어 있다.
(2) 도 2에 의하면, 동일한 음소(A)를 발음한 원화자와 목적화자의 각 음성 프레임에 대한 기본 주파수를 결정하고, 상기 동일한 음소에 대한 원화자와 목적화자의 기본 주파수를 각각 선형예측분석(linear predictive analysis)후 코드벡터와 같은 형태의 LSP(line spectral pair) 계수로 변경한다.
(3) 다음, 원화자의 음소 A에 대한 코드북(20)을 탐색하여 원화자의 음소(A)에서 추출한 LSP와 가장 유사한 제1 코드벡터 및 그 인덱스를 결정한다. 동시에 목적화자의 음소 A에 대한 코드북(22)을 탐색하여 목적화자의 같은 음소(A)에서 추출한 LSP계수와 가장 유사한 제2 코드벡터 및 그 인덱스를 결정한다.
(4) 다음, 코드북 매핑 테이블에서 제1 코드벡터의 인덱스에 대응하는 블록그룹을 찾는다. 찾은 블록그룹 내에 제2 코드벡터의 인덱스를 기입한 인덱스 필드가 존재하면 대응하는 매핑횟수 필드의 값을 1 증가시킨다. 그러나, 존재하지 않으면 찾은 블록그룹 내에서 값이 할당되지 않은 인덱스 필드에 제2 코드벡터의 인덱스를 기입하고 대응하는 매핑횟수 필드의 값을 1로 둔다.
(5) 대량의 음소별 LSP 계수를 구하여 (2)와 (4) 과정을 반복함으로써 코드북 매핑 테이블을 모두 채운다.
(6) 각 블록그룹별로 매핑횟수 필드에 기입된 값이 큰 순서대로 소정의 수(최소 3개)의 필드블록만을 선택하고 다른 필드블록을 삭제한다.
이와 같은 방법에 의해 생성한 코드북 매핑 테이블을 이용하여 다음과 같은 변환함수(24)를 구할 수 있다.
Figure 112004048508306-pat00001
(여기에서, i는 원화자 코드벡터의 인덱스이고, cvAs(i)는 원화자의 i번째 코드벡터이고, j는 필드블록의 수이고, cvAt(i0),…,cvAt(ij-1)은 각각 cvAs(i)에 대응하는 목적화자의 코드벡터이고, i0,…,ij-1은 각각 목적화자의 코드벡터 인덱스이고, Freqcv(i0),…,Freqcv(ij-1)은 각각 cvAs(i)에 대응하는 목적화자의 코드벡터의 매핑횟수이고, Ft(i)는 Freqcv(i0),…,Freqcv(ij-1)를 합한 값이다)
이하에서는 코드북 매핑 테이블을 이용하여 원화자 음성의 음색을 변환하는 과정을 도 3을 참조하여 설명한다.
입력된 음성을 20~30ms단위의 프레임(frame) 단위로 추출한다(300). 상기 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 각 음성 프레임에 대한 기본 주파수를 결정한다(단계 305).
다음, 상기 기본 주파수에 기초하여 상기 프레임에 대한 음소종류를 판별하고, LPC분석/엑사이테이션(Excitation) 계산/LSP변환한다(310 단계 내지 340 단계).
판별된 음소종류에 해당하는 원화자의 코드북을 탐색하여 340 단계에서 변환된 LSP 계수와 가장 유사한 코드벡터의 인덱스를 결정한다(350 단계).
상기 350 단계에서 결정된 코드벡터의 인덱스에 의해 코드북 매핑 테이블을 액세스하여, 상기한 변환함수(24)에 의해 목적화자의 코드벡터로 변환한다(360 단계).
상기 360 단계에서 변환된 목적화자의 LSP 코드벡터는 다시 LPC로 변환되고, 엑사이테이션도 변경한다(370 단계). 이와 같이 변경된 LPC와 엑사이테이션으로부터 음색변환된 합성음을 생성한다(380 단계).
기본 주파수를 결정하는 단계(305)를 보다 구체적으로 설명하면 다음과 같다.
제1 단계에서는, 음성 신호의 프레임에 소정의 윈도우 신호를 곱하여 윈도우된 신호에 대한 정규화 자기 상관 함수를 계산한다. 제2 단계에서는, 상기 윈도우된 신호에 대한 정규화 자기 상관 함수로부터 후보 기본 주파수를 결정한다. 상기 음성 신호에 대한 후보 기본 주파수들은 상기 윈도우된 신호에 대한 정규화 자기 상관 함수에서 소정의 제1 임계값(TH1)을 초과하는 피크 값으로부터 결정된다. 제3 단계에서는, 상기 결정된 후보 기본 주파수들에 대한 주기와 상기 주기의 주기성을 나타내는 주기 평가값(pr)을 보간(interpolate)한다. 상기 기본 주파수는 상기 윈도우된 신호에 대한 정규화 자기 상관 함수의 피크 값으로부터 평가된 후보 기본 주파수로부터 유도된다.
제4 단계에서는, 상기 보간된 주기의 주기 평가값(pr)에 기초하여, 제2 임계값(TH2) 이상의 보간 주기 평가값을 가지는 후보 기본 주파수들을 선택하고(이하에서 상기 제2 임계값 이상의 보간 주기 평가값을 가지는 후보 기본 주파수들을 앵커 기본 주파수라 한다), 상기 앵커 기본 주파수들에 대한 가우시안 분포(Gaussian distribution)를 생성한다. 제5 단계에서는, 상기 생성된 가우시안 분포들 중에서 제3 임계값(TH3) 이하의 거리에 있는 가우시안 분포를 통합(cluster)하여 통합 가우시안 분포를 생성하고, 상기 생성된 통합 가우시안 분포들 중에서 제4 임계값(TH4)을 초과하는 가능도(likelihood)를 가지는 적어도 1개 이상의 통합 가우시안 분포를 선택한다.
제6 단계에서는, 상기 윈도우된 신호에 대한 정규화 자기 상관 함수의 피크 값으로부터 결정된 후보 기본 주파수들과 상기 선택된 통합 가우시안 분포에 기초하여, 상기 음성 신호의 각 프레임에 대한 후보 기본 주파수들에 대해 동적 프로그램(dynamic programming)을 실행한다. 각 프레임에 대한 후보 기본 주파수들에 대해 동적 프로그램을 실행하는 동안, 각 프레임의 후보 기본 주파수에 대한 거리값이 저장되며, 마지막 프레임(N)까지 상기 동적 프로그램을 실행하여 가장 큰 거리값을 가지는 후보 기본 주파수가 상기 마지막 프레임에 대한 기본 주파수로 추적된다. 상기 가장 큰 거리값을 가지는 경로의 후보 기본 주파수들로부터 각 프레임에 대한 기본 주파수를 결정하게 된다.
본 발명에 의하면, 첫째, 다양한 음색으로 합성음을 생성하기 위해 음성합성장치에 사용할 경우, 합성음의 목적에 따라 나이, 성별 등이 다른 음색으로 문장을 합성할수 있다. 즉 정보전달특성을 강조하려면 젊은 여성의 목소리 음색을 이용할수 있고 친근감을 강조하려면 어린아이의 목소리 음색을 이용할수 있다.
둘째, 본 발명을 현재는 없는 유명인의 목소리 음색을 나타내는 방송매체에 사용할수 있다.
세째, 멀티미디어 채팅(chatting) 프로그램 등에서 문자 대신 다양한 목소리 음색을 이용하여 사용자의 욕구를 충족시킬수 있다.
넷째, 발음기관에 장애가 있는 사람들의 발음보조장치에 응용할수 있다.

Claims (7)

  1. 프레임 단위로 추출된 원화자의 음성 프레임을 목적화자의 음성 프레임으로 음색변환된 합성음을 생성하는 방법에 있어서,
    (a) 음소의 종류별로, 목적화자 코드벡터의 인덱스 필드 및 그 매핑횟수 필드로 이루어진 필드블록이 다수 포함된 블록그룹이 원화자의 코드북에 포함된 코드벡터의 인덱스에 의해 액세스되도록 구성한 코드북 매핑 테이블을 생성하는 단계;
    (b)상기 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 각 음성 프레임에 대한 기본 주파수를 결정하는 단계;
    (c) 상기 기본 주파수에 기초하여 상기 원화자의 음성 프레임으로부터 음소의 종류를 판별하는 단계;
    (d) 상기 원화자의 음성 프레임을 LSP 계수로 변환하는 단계;
    (e) 상기 (c)단계에서 판별된 음소의 종류에 따른 원화자의 코드북을 탐색하여 상기 LSP 계수와 가장 유사한 코드벡터의 인덱스를 결정하는 단계;
    (f) 상기 (e) 단계에서 결정된 코드벡터의 인덱스에 의해 상기 코드북 매핑 테이블을 액세스하여 목적화자의 코드벡터로 변환하는 단계; 및
    (g) 상기 (f) 단계에서 변환된 목적화자의 코드벡터에 의해 음색변환된 합성음을 생성하는 단계를 포함함을 특징으로 하는 음소별 코드북 매핑에 의한 음색변환방법.
  2. 제 1 항에 있어서, 상기 (b) 단계는
    (b1)음성 신호의 프레임에 윈도우 신호(W(t))를 곱하여 윈도우된 신호에 대한 정규화 자기 상관 함수를 계산하고 상기 윈도우된 신호에 대한 정규화 자기 상관 함수의 피크 값으로부터 후보 기본 주파수들을 결정하는 단계;
    (b2)상기 결정된 후보 기본 주파수들에 대한 주기와 상기 주기의 주기성을 나타내는 주기 평가값을 보간하는 단계;
    (b3)제1 임계값(TH1) 이상의 상기 보간 주기 평가값을 가지는 각 프레임의 후보 기본 주파수들에 대한 가우시안 분포를 생성하는 단계;
    (b4)상기 가우시안 분포들 중에서 제2 임계값(TH2) 이하의 거리에 있는 가우시안 분포를 통합하여 통합 가우시안 분포를 생성하고, 상기 생성된 가우시안 분포들 중에서 제3 임계값(TH3)을 초과하는 가능도(likelihood)를 가지는 적어도 1개 이상의 통합 가우시안 분포를 선택하는 단계; 및
    (b5)상기 각 프레임의 후보 기본 주파수들과 상기 선택된 통합 가우시안 분포들에 기초하여, 상기 프레임들에 대해 동적 프로그램(dynamic programming)을 실행하여 상기 각 프레임의 기본 주파수를 결정하는 단계를 포함하는 것을 특징으로 하는 음소별 코드북 매핑에 의한 음색변환방법.
  3. 제 1 항에 있어서, 상기 (f)단계에서 변환된 목적화자의 코드벡터는
    수학식
    Figure 112004048508306-pat00002
    (여기에서, i는 원화자 코드벡터의 인덱스이고, cvAs(i)는 원화자의 i번째 코드벡터이고, j는 필드블록의 수이고, cvAt(i0),…,cvAt(ij-1)은 각각 cvAs(i)에 대응하는 목적화자의 코드벡터이고, i0,…,ij-1은 각각 목적화자의 코드벡터 인덱스이고, Freqcv(i0),…,Freqcv(ij-1)은 각각 cvAs(i)에 대응하는 목적화자의 코드벡터의 매핑횟수이고, Ft(i)는 Freqcv(i0),…,Freqcv(ij-1)를 합한 값이다)에 의해 구하는 것을 특징으로 하는 음소별 코드북 매핑에 의한 음색변환방법.
  4. 프레임 단위로 추출된 원화자의 음성 프레임을 목적화자의 음성 프레임으로 변환하기 위한 코드북 매핑 테이블 생성하는 방법에 있어서,
    (a) 인덱스 필드 및 매핑횟수 필드로 이루어진 필드블록이 다수 포함된 블록그룹이 원화자의 코드북에 포함된 코드벡터의 인덱스에 의해 액세스되도록 구성된 코드북 매핑 테이블을 초기화하는 단계;
    (b) 동일한 음소를 발음한 원화자와 목적화자의 각 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 각 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 동일한 음소에 대한 원화자와 목적화자의 각 음성 프레임에 대한 기본 주파수를 결정하는 단계;
    (c) 상기 원화자의 기본 주파수와 목적화자의 기본 주파수를 각각 선형예측분석하고, 각각 제1 LSP 계수 및 제2 LSP 계수로 변환하는 단계;
    (d) 상기 원화자의 코드북에서 상기 제1 LSP 계수와 가장 유사한 제1 코드벡터를 찾아 제1 코드벡터의 인덱스를 결정하고, 목적화자의 코드북에서 상기 제2 LSP 계수와 가장 유사한 제2 코드벡터를 찾아 제2 코드벡터의 인덱스를 결정하는 단계;
    (e) 상기 코드북 매핑 테이블에서 상기 제1 코드벡터의 인덱스에 대응하는 블록그룹 내에서 상기 제2 코드벡터의 인덱스에 대응하는 매핑횟수 필드의 값을 1 증가하는 단계; 및
    (f) 소정의 횟수동안 상기 (b) 단계 내지 상기 (e) 단계를 반복하는 단계를 포함함을 특징으로 하는 코드북 매핑 테이블 생성방법.
  5. 제 4 항에 있어서, 상기 (b) 단계에서 기본 주파수를 결정하는 단계는
    (b1) 상기 음성 프레임에 윈도우 신호(W(t))를 곱하여 윈도우된 신호(Sw(t))에 대한 정규화 자기 상관 함수(Ro(i))를 계산하고 상기 윈도우된 신호에 대한 정규화 자기 상관 함수의 피크 값으로부터 상기 음성 프레임에 대한 후보 기본 주파수들을 결정하는 단계;
    (b2)상기 결정된 후보 기본 주파수들에 대한 주기와 상기 주기의 주기성을 나타내는 주기 평가값을 보간하는 단계;
    (b3)제1 임계값(TH1) 이상의 상기 보간 주기 평가값을 가지는 후보 기본 주파수들에 대한 가우시안 분포를 생성하는 단계;
    (b4)상기 가우시안 분포들 중에서 제2 임계값(TH2) 이하의 거리에 있는 가우시안 분포를 통합하여 통합 가우시안 분포를 생성하고, 상기 생성된 가우시안 분포들 중에서 제3 임계값(TH3)을 초과하는 가능도(likelihood)를 가지는 적어도 1개 이상의 통합 가우시안 분포를 선택하는 단계; 및
    (b5)상기 각 프레임의 후보 기본 주파수들과 상기 선택된 통합 가우시안 분포들에 기초하여, 상기 프레임들에 대해 동적 프로그램(dynamic programming)을 실행하여 상기 각 프레임의 기본 주파수를 결정하는 단계를 포함하는 것을 특징으로 하는 코드북 매핑 테이블 생성방법.
  6. 제 4 항에 있어서, 상기 (e) 단계는
    (e1) 상기 코드북 매핑 테이블에서 상기 제1 코드벡터의 인덱스에 대응하는 블록그룹을 찾는 소단계; 및
    (e2) 상기 (e1) 단계에서 찾은 블록그룹 내에 상기 제2 코드벡터의 인덱스를 기입한 인덱스 필드가 존재하면 대응하는 매핑횟수 필드의 값을 1 증가하고, 존재하지 않으면 상기 (e1) 단계에서 찾은 블록그룹 내에서 값이 할당되지 않은 인덱스 필드에 상기 제2 코드벡터의 인덱스를 기입하고 대응하는 매핑횟수 필드의 값을 1로 두는 소단계를 포함하여 이루어짐을 특징으로 하는 코드북 매핑 테이블 생성방법.
  7. 제 4 항에 있어서,
    (g) 각 블록그룹별로 매핑횟수 필드에 기입된 값이 큰 순서대로 소정의 수의 필드블록만을 선택하고 다른 필드블록을 삭제하는 단계를 더 포함함을 특징으로 하는 코드북 매핑 테이블 생성방법.
KR1020040085098A 2004-10-23 2004-10-23 음소별 코드북 매핑에 의한 음색변환방법 KR100624440B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040085098A KR100624440B1 (ko) 2004-10-23 2004-10-23 음소별 코드북 매핑에 의한 음색변환방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040085098A KR100624440B1 (ko) 2004-10-23 2004-10-23 음소별 코드북 매핑에 의한 음색변환방법

Publications (2)

Publication Number Publication Date
KR20060035998A KR20060035998A (ko) 2006-04-27
KR100624440B1 true KR100624440B1 (ko) 2006-09-15

Family

ID=37144344

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040085098A KR100624440B1 (ko) 2004-10-23 2004-10-23 음소별 코드북 매핑에 의한 음색변환방법

Country Status (1)

Country Link
KR (1) KR100624440B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633662B2 (en) 2012-09-13 2017-04-25 Lg Electronics Inc. Frame loss recovering method, and audio decoding method and device using same
CN107240401B (zh) * 2017-06-13 2020-05-15 厦门美图之家科技有限公司 一种音色转换方法及计算设备
CN114360491B (zh) * 2021-12-29 2024-02-09 腾讯科技(深圳)有限公司 语音合成方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
KR20060035998A (ko) 2006-04-27

Similar Documents

Publication Publication Date Title
Giacobello et al. Sparse linear prediction and its applications to speech processing
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
EP2179414B1 (en) Synthesis by generation and concatenation of multi-form segments
JP2776050B2 (ja) 音声符号化方式
JP2003150187A (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JPH0990995A (ja) 音声符号化装置
RU2427044C1 (ru) Текстозависимый способ конверсии голоса
Lee et al. Speech/audio signal classification using spectral flux pattern recognition
KR100624440B1 (ko) 음소별 코드북 매핑에 의한 음색변환방법
JPH08248994A (ja) 声質変換音声合成装置
RU61924U1 (ru) Статистическая модель речи
JP3308764B2 (ja) 音声符号化装置
KR100275777B1 (ko) 음소별 코드북 매핑에 의한 음색변환방법
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP3153075B2 (ja) 音声符号化装置
JP2009063700A (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP2020129099A (ja) 推定装置、推定方法、及びプログラム
Salor et al. Dynamic programming approach to voice transformation
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
Airaksinen et al. Effects of training data variety in generating glottal pulses from acoustic features with DNNs
JP3576792B2 (ja) 音声情報処理方法
JP3024467B2 (ja) 音声符号化装置
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120830

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130829

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140828

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160125

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170829

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180827

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20190905

Year of fee payment: 14