KR100624545B1

KR100624545B1 - 티티에스 시스템의 음성압축 및 합성방법

Info

Publication number: KR100624545B1
Application number: KR1020040078231A
Authority: KR
Inventors: 강홍구; 이창헌
Original assignee: 연세대학교 산학협력단; 주식회사 보이스웨어
Priority date: 2004-10-01
Filing date: 2004-10-01
Publication date: 2006-09-18
Also published as: KR20060029330A

Abstract

본 발명은 TTS(Text-To-Speech) 시스템에서 음성 합성에 사용되는 대용량 데이터베이스를 압축 및 합성하기 위한 것이다. 보다 상세히는 TTS 시스템의 음성압축 및 합성 방법에 있어, 화자 종속적 코드북을 이용하는 것인데, 상기 화자 종속적 코드북은 시간 축에서 잔차 신호 파형의 유사도를 비교함으로써 다양한 형태의 신호로 코드북을 훈련시켜 코드북을 생성하는 것을 특징으로 한다. 또한 본 발명의 TTS 시스템을 지원하기 위해 코덱은 과거 정보가 없는 음소의 시작 부분에서는 화자 종속적 잔차신호 코드북을 사용하고, 그 이후의 음성 신호에 대해선 예측 방식을 사용함으로써 상용 코덱 수준의 압축률을 가지면서도 음소 단위의 가변적이고 부분적인 음성 합성에 있어 우수한 음질을 제공하는 효과가 있다.

TTS, 음성합성, 화자종속, 코드북, 예측방식

Description

티티에스 시스템의 음성압축 및 합성방법{ Method for the speech compression and synthesis in TTS system }

도 1은 TTS(Text-To-Speech) 시스템의 음성 합성에 사용되는 대용량 데이터베이스 압축 방식에 관한 바람직한 실시 예의 개념도이다.

도 2는 도1의 제1단계인 스펙트럼 정보를 양자화하는 과정을 나타낸다.

도 3는 본 발명에 따른 화자 종속적 코드북을 생성하는 바람직한 실시 예의 순서도이다.

도4는 상기 최대 유사도 측정방법을 통해 화자 의존적 코드북을 생성하는 과정을 나타낸다.

도 5은 본 발명에 따른 화자 종속적 코드북을 이용한 잔차 신호 부호화 방법에 대한 바람직한 실시 예의 순서도이다.

도 6는 본 발명에 따른 비예측 방식에서의 잔차 신호 모델링 방법에 대한 바람직한 실시 예의 구성이다.

도 7는 본 발명에 따른 비예측과 예측 방식을 혼용하는 압축 및 합성 방식에 대한 바람직한 실시 예의 구성이다.

도 8은 본 발명에 따른 비예측과 예측 방식을 혼용하는 압축 및 합성 방식으 로 50msec 단위의 프레임에 대해 적용된 방식을 나타내는 실시 예이다.

본 발명은 음성합성(Text-To-Speech, TTS)에 관한 것으로서, 특히 TTS시스템에서 필요로 하는 대용량의 음성 데이터베이스를 효율적으로 압축하는 방법에 관한 것이다.

음성합성은 수집된 음성데이터를 가공한 언어자료 데이터베이스를 기반으로 하여 수행된다. 이를 단계별로 살펴보면, 음성합성을 위한 데이터베이스를 준비하는 과정으로는 원시 데이터로부터 음성합성을 위하여 가공된 최적 코퍼스(corpus)선택단계; 코퍼스 녹음단계(recording); 음소 분절(segmentation) 및 음소 정보 부여(labeling) 단계; 데이터를 압축하여 저장하기 위한 파형코딩(wavecoding)단계; 음성 데이터 베이스화 단계; 음소-음향 파라미터 추출단계; 음소별 정보를 데이터 베이스화하는 단계; 데이터 절삭(pruning)단계를 포함한다. 또한 입력된 문자를 준비된 데이터베이스를 이용하여 처리하는 음성을 만드는 과정으로는, 문자입력단계; 문자 전처리(preprocessing)단계; 품사분석 및 운율정보 생성단계; 철자 음소변환단계; 유닛 DB로부터 유닛을 선택하는 단계; 음율변환단계(prosody conversion); 접속 및 평활화 단계 및 음성출력단계로 이루어진다.

최근에는 음성합성이 적용되는 시스템마다 제각각의 DB의 용량에 따라 시스템 사양을 만족하는 음성합성을 구현하는데 관심이 모아지고 있다. 즉, 대용량의 음성합성 시스템일수록 저장된 DB의 용량이 커져서 음성데이터의 절삭없이도 음성합성이 가능하다. 그러나 모든 음성합성 시스템에서 대용량 DB를 적용할 수 있는 것은 아니며, 휴대폰, 개인 휴대 정보 단말기 등에는 소용량의 DB만을 적용할 수 있는 것이 현실이다. 따라서 휴대폰 등에서는 어떻게 하면 DB만으로도 양질의 음성합성을 구현할 수 있는지가 문제이다.

종래 TTS 시스템은 원 음성을 음소 단위로 데이터베이스로 구축한 후 합성하고자 하는 문장에 해당하는 음성 부분을 데이터베이스 내에서 각각 검색 및 추출한 후, 이를 연결하는 방식을 사용한다.

그러나 TTS 시스템은 데이터베이스 내에서 필요한 부분의 정보를 랜덤하게 가져와 음성을 합성하므로 데이터베이스를 압축하고자 하는 경우에는 기존 상용코덱에서 사용하는 순차적인 음성 신호 압축과 합성 방식은 TTS 시스템에 연결된 음성 합성기에는 적합하지 않다.

이에 이러한 문제점을 해결하기 위해 TTS 시스템을 위한 음성 압축 및 합성 방법으로 트랜스폼 코딩 방식(transform-based speech coding algorithms)을 이용할 수 있으나 이는 압축률 면에서 효율이 떨어지며 역변환으로 인해 디코딩하는 방법이 TTS시스템에 적용하기에는 다소 복잡하다는 단점이 있다.

따라서 본 발명이 이루고자 하는 기술적 과제는 TTS 시스템의 음성 합성을 위해 원 음성 신호로 구성된 데이터베이스를 종래의 트랜스폼 코딩 방식에 비해 높은 비율로 압축하는 방법을 제공하는데 있다.

본 발명이 이루고자 하는 또 다른 기술적 과제는 합성하고자 하는 문장에 해당하는 정보를 데이터베이스 내에서 추출한 후, 이를 이용해 음성 신호를 복원함에 있어 기존 상용 코덱 수준의 좋은 음질을 얻는 방법을 제공하는 것에 있다.

본 발명이 이루고자 하는 또 다른 기술적 과제는 압축된 파라미터들을 이용한 음성 신호 합성 시 발생할 수 있는 신호들 간 연결부에서의 불연속성이 존재하지 않도록 하는 방법을 제공하는데 있다.

상기한 기술적 과제를 이루기 위해, 본 발명에 따른 음성 신호의 압축과 합성 방식에서는, TTS 시스템에서 사용되는 모든 음성 신호는 한 화자에 의해 녹음된 것이고 음성 합성에 관련된 과거 정보를 사용할 수 없음을 감안하여, 이를 보완할 수 있는 새로운 화자 종속적 잔차신호 코드북 사용 방법을 제공한다.

본 발명에 있어 상기 화자 종속적 잔차신호 코드북은 동일 화자의 음성 신호에서 유성음 및 천이 구간의 신호 파형은 제한되어 있음을 감안하여 시간 영역에서 잔차신호의 유사성을 비교하여 독특한 특성을 지닌 신호 파형만 코드북에 추가함으로써 구성된다.

본 발명에 있어 화자 종속적 코드북은 학습 훈련 과정을 통해 얻어진 양자화 테이블을 선형 예측 계수의 분할 양자화에 사용하고, 또한 한 화자의 유성음 및 천이구간에서의 신호 파형을 학습 훈련 과정을 통해 양자화 테이블로 구현하여 이를 합성 후 분석(Analysis-by-Synthesis) 방법에 적용함으로써 이러한 방식에서 고정 코드북과 함께 사용되는 적응 코드북의 역할을 하는 방법을 제공한다. 뿐만 아니 라, 고정 코드북과 화자 종속적 코드북의 이득 또한 학습 과정을 통해 얻은 양자화 테이블을 이용하여 양자화 함으로써 예측 방식에서 이용되는 불필요한 과거 음성 신호의 합성 없이도 필요한 부분의 음성 신호만을 합성할 수 있는 방법을 제공한다.

상기한 또 다른 기술적 과제를 이루기 위해 본 발명에 따른 코덱은 음소 단위의 압축과 합성을 지원하기 위해 과거 정보가 없는 음소의 시작 부분에서는 화자 종속적 잔차신호 코드북을 사용하여 음질을 높이고 그 이후의 음성 신호에 대해선 예측 방식을 사용함으로써 전송률을 줄이는 방법을 사용한다.

본 발명은 비예측 합성 후 분석 알고리즘을 제공함으로써 TTS 시스템에 대해효율적인 코딩 알고리즘을 제공한다.

또한 종래 알고리즘에서 사용되는 피치 적용 코드북(codebook)을 대체하기 위해, 단일화자 음성의 다양한 피치-펄스 모형을 포함하는 화자 종속적 코드북이 생성된다.

또한 코딩효율을 향상시키기 위해 비예측타입구조와 예측타입구조를 결합한 새로운 코더(coder)가 제공된다.

이하, 본 발명에 의한 화자 종속적 코드북을 이용하고 비예측 프레임과 예측프레임을 혼용하여 음성압축 및 합성을 하는 방법을 첨부한 도면을 참조하여 다음과 같이 상세히 설명한다.

도 1은 예측 방식을 사용하지 않는 음성 압축을 위한 양자화 테이블을 얻는 학습 훈련 과정과 이를 이용해 음성 신호를 압축하는 전체적인 구조도를 나타낸다.

제1단계에서는 선형 예측 방법을 이용하여 음성의 스펙트럼 정보(Spectral Information)를 추출한다. 스펙트럼 정보는 과거 정보를 이용하지 않는 양자화 방법 예를 들면 분할 벡터 양자화(Split Vector Quantization), 다단계 벡터 양자화(Multi-stage Vector Quantization) 등을 이용한다. 도2는 상기 제1단계인 스펙트럼 정보를 양자화하는 과정을 나타낸다.

제2단계에서는 이러한 양자화 테이블을 이용하여 양자화된 선형 예측 계수를 통해 얻어진 잔차 신호를 유성음 및 천이구간에서만 추출한 후 신호 파형의 유사도를 측정하여 화자 종속적 코드북을 생성한다.

제3단계에서는 마지막으로 합성 후 분석 과정에 사용되는 화자 종속적 코드북과 고정 코드북의 이득 값들을 양자화하기 위한 테이블을 학습 과정을 통해 구현한다.

도 3은 상기 유성음 및 천이구간에서 한 화자의 잔차 신호를 추출하여 화자 종속적 코드북을 생성하는 과정을 나타낸다.

화자 종속적 코드북을 이용한 음성 압축 방식은 유성음 및 천이구간에서 한 화자가 가질 수 있는 일정 구간의 신호 파형은 제한된 형태를 가진다는 가정 하에 제안된 방법이다.

우선 처음으로 추출된 잔차 신호로 코드북을 초기화한다.

먼저 N개의 샘플을 프레임화하고 (S201), 분류한 다음(S202), 유성음 및 천이구간에서만 여기신호를 추출한다(S203). 여기서 우선 처음으로 추출된(i=0) 잔차 신호로 코드북을 초기화한다(S205, S207).

이후의 잔차 신호들에 대해서는 이미 코드북에 등록되어 있는 신호 파형과의 시간축에서의 유사도를 측정함으로써 코드북 등록 여부를 결정하게 된다. 이 때, 코드북 성분의 길이는 비교하는 잔차 신호의 길이보다 크게 하여 비교하는 잔차 신호를 한 샘플씩 이동하면서 유사도를 측정하게 되고 그 값들 중 최대인 것을 얻어낸다(S213). 이 후, 최대 유사도 측정치를 기준치(threshold)와 비교한다(S215).

여기서 기준치는 코드북의 크기에 영향을 미치는 것으로서, 만약 기준치가 1에 가까우면 작은 차이를 갖는 많은 피치-펄스를 등록시킴으로써 코드북은 큰 용량을 필요로 하게 된다. 그러나 기준치가 너무 작으면 코드북에 대표파형이 충분하게 등록되지 않은 문제점이 발생하게 된다. 따라서 데이터베이스의 특성과 크기에 따라 기준치가 결정되어야 한다.

상기 S215단계에서 유사도가 기준치보다 작으면 새로운

를 생성(S217)하여 코드북을 갱신한다(S211). 이러한 방법은 코드북 등록 여부를 결정하게 되는데 이는 비슷한 형태를 가지고 있으나 단지 위상 정보만 다른 신호들에 대한 중복 등록을 막아 코드북의 효율을 높이기 위해서이다. 아래 수학식1은 이러한 최대 유사도의 측정 방법을 나타낸다.

삭제

여기서

은 훈련을 위한 여기신호를 나타내며,

은 선등록된 i번째 코드워드(codeword)이다.

는 코드벡터에서 시작표시(starting index in the code vector)이며, M(〉N)는 코드워드 디멘젼이다. 도 4는 상기 최대 유사도 측정방법을 통해 화자 의존적 코드북을 생성하는 과정을 나타낸다.

k는 슬라이딩-비교방법(sliding-comparison method)을 위해 사용되는데, 유사한 파형이지만 다른 위상을 갖는 신호가 코드북에 등록되는 것을 방지한다. 따라서 본 발명에서 제안된 방법은 위상효과를 고려함으로써, 리던던시(redundancies)를 줄일 수 있고, 코드북을 보다 컴팩트화할 수 있게 한다.

도 5은 화자 종속적 코드북을 이용한 잔차 신호의 부호화 방법의 바람직한 실시 예이다. 본 발명에서 잔차신호는 합성 후 분석 방법으로 가장 유사한 코드워드를 사용함으로써 변형된다. 부호화하고자 하는 잔차 신호와 화자 종속적 코드북의 각 코드벡터와의 유사도를 아래 수학식2와 같이 측정함으로써 최대값을 갖는 코드북 인덱스와 코드벡터 내에서의 지연 값을 부호화 하게 된다.

삭제

이러한 방법을 통해서 과거 잔차 신호에 대한 정보 없이도 유성음 및 천이구간에서의 신호와 유사한 음성 신호를 예측할 수 있게 된다. 그 이후의 남는 잔차 신호에 대해서는 종래 상용 코덱에서 사용하는 고정 코드북을 이용하여 신호를 모델링하는 방식을 사용한다. 그러나 도 5와 같은 잔차 신호의 모델링 방식은 합성 후 분석 방식이 아닌 잔차 신호 영역에서의 개회로 추정 방식이므로 이에 따른 음질의 저하를 도 6와 같은 합성 후 분석 방식으로 보상할 수 있다.

도 6는 잔차 신호 영역에서의 화자 종속적 코드북 추정 방식이 아닌 합성 후 분석 방식의 적용을 나타내는 바람직한 실시 예이다. 화자 종속적 코드북 내에서 추정된 잔차 신호와 고정(화자 독립적) 코드북으로부터 얻어진 잔차 신호를 합성한 후, 지각적인 개념이 도입된 음성 신호와의 오차를 비교함으로써 오차를 최소화하는 방향으로 잔차 신호를 부호화 하게 된다. 이러한 방식은 합성 후 분석 방식을 사용하는 기존 상용 코덱에서 사용하는 방법과 동일하지만 신호에 대한 과거 정보 없이도 음성 신호에 대한 모델링이 가능한 점을 특징으로 한다.

도 7는 앞서 설명한 방식만으로 대용량의 데이터베이스를 압축할 때 필요로 하는 전송율을 줄이고 압축 효율을 높이기 위해 제안된 압축 및 합성 방식의 바람직한 실시 예이다. 도 7에서 NP는 비예측 방식의 부프레임을 P는 예측 방식을 사용하는 부프레임을 의미한다. 화자 종속적 코드북을 사용하는 비예측 부프레임에 대해서는 과거 정보 없이 최대한의 음질을 얻기 위해 많은 비트를 할당하고 반면 예측 방식의 부프레임에 대해서는 상대적으로 적은 비트를 할당함으로써 평균 전송율 측면에서 압축 효율을 높임과 동시에 음질 향상을 꾀하는 것을 특징으로 한다.

도 8는 TTS 시스템의 랜덤 액세스 인터발을 고려하면서 50msec 단위의 프레임에 대해 적용된 방식을 나타내는 실시 예이다. 도 8은 두개의 10ms 길이의 비예측 프레임과 3개의 10ms 길이의 예측 프레임 구조를 갖는 형태이다. 도8에 제시된 것처럼 음성 합성 과정은 합성될 음성세그먼트의 시작점을 포함하는 전체프레임 내의 두개 비예측프레임 중에서 첫 번째 비예측프레임부터 시작한다. 왜냐하면 예측프레임은 8kHz의 샘플링비율을 위한 약 20ms 길이의 음성신호와 연관된 이전정보를 필요로 하기 때문이다.

도 7 및 도8에서 합성을 시작해야 하는 부분을 랜덤액세스(random access) 포인트로 가정한다면, 실제 합성은 바로 이전 프레임의 비예측 부프레임부터 합성을 해오는 방식을 사용하는데 이는 현재 프레임의 첫 번째 비예측 부프레임을 합성할 때 필요한 정보를 얻기 위해서이다. 이로써 연산량 측면에서는 다소 손해를 보지만 음질과 전송율 면에서는 큰 장점을 가진다. 이러한 이유로 한 프레임의 구조는 처음과 마지막 부프레임은 비예측 방식으로 그 사이의 부프레임에 대해서는 예측 방식으로 이루어진다. 도 7의 구조는 하나의 예이고 실제 TTS 시스템 적용 시에 는 시스템 구성에 맞는 다양한 형태, 예컨대 혼합 형태로 변형할 수 있는 것 또한 본 발명의 제안된 압축 및 합성 방식의 특징으로 한다. 예를 들어 음성 데이터의 합성 구간이 이미 표시(indexing)되어 있어서 음성을 합성하는 단위를 알 수 있다면 합성 구간의 시작 부분에는 비예측 프레임 방법을, 그리고 나머지 구간에서는 예측 프레임 방법을 사용함으로써 압축 효율을 높일 수 있다.

이상에서 설명한 바와 같이 본 발명에 따른 TTS시스템의 음성 압축 및 합성방방법에 의하면, 한 화자의 음성 신호로 구성된 TTS시스템의 대용량 데이터베이스에 적용된 화자 종속적 코드북은 제한된 크기로도 화자의 유성음 및 천이구간에 대한 신호를 잘 모델링할 수 있다. 뿐만 아니라, 비예측 방식과 예측 방식을 혼용함으로써 평균 전송율 측면에서도 기존 상용 코덱 수준의 높은 압축률을 가짐과 동시에 음소 단위의 가변적이고 부분적인 음성 합성에 있어서도 상용 코덱 수준의 우수한 음질을 나타낸다.

Claims

TTS 시스템의 음성압축 및 합성 방법에 있어,

양자화 테이블을 이용하여 양자화된 선형 예측 계수를 통해 얻어진 잔차 신호를 유성음 및 천이구간에서 추출한 후 신호 파형의 유사도를 측정하여 생성된 화자 종속적 코드북을 이용하고;

상기 화자 종속적 코드북은 시간 축에서 잔차 신호 파형의 유사도를 비교함으로써 다양한 형태의 신호로 코드북을 훈련시켜 코드북을 생성하는;

것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
TTS 시스템의 음성압축 및 합성 방법에 있어,

양자화 테이블을 이용하여 양자화된 선형 예측 계수를 통해 얻어진 잔차 신호를 유성음 및 천이구간에서 추출한 후 신호 파형의 유사도를 측정하여 생성된 화자 종속적 코드북을 이용하고;

상기 화자 종속적 코드북은 학습 훈련 과정을 통해 얻어진 양자화 테이블을 선형 예측 계수의 분할 양자화에 사용하는;

것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
TTS 시스템의 음성압축 및 합성 방법에 있어,

양자화 테이블을 이용하여 양자화된 선형 예측 계수를 통해 얻어진 잔차 신호를 유성음 및 천이구간에서 추출한 후 신호 파형의 유사도를 측정하여 생성된 화자 종속적 코드북을 이용하고;

상기 화자 종속적 코드북은 한 화자의 유성음 및 천이구간에서의 신호 파형을 학습 훈련 과정을 통해 양자화 테이블로 구현하여 이를 합성 후 분석(Analysis-by-Synthesis) 방법에 적용하는;

것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
TTS 시스템의 음성압축 및 합성 방법에 있어,

양자화 테이블을 이용하여 양자화된 선형 예측 계수를 통해 얻어진 잔차 신호를 유성음 및 천이구간에서 추출한 후 신호 파형의 유사도를 측정하여 생성된 화자 종속적 코드북을 이용하고;

화자 종속적 코드북은 잔차 신호의 형태를 비교함에 있어 비슷한 형태를 지녔지만 위상이 다른 신호들에 대한 중복 등록을 방지하는;

것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
제4항에 있어서,

잔차 신호의 형태를 비교할 때 슬라이딩-비교방법(sliding-comparison method)을 사용하는 것을 특징으로 하는 TTS 시스템의 음성압축 및 합성방법.
TTS 시스템의 음성압축 및 합성 방법에 있어,

랜덤 엑세스를 가능하도록 하는 비예측 프레임 및 비트를 줄이기 위하여 상기 비예측 프레임의 나머지 부분에 할당되는 예측프레임을 혼용하고;

TTS시스템의 코덱은 음소 단위의 압축과 합성을 지원하기 위해 과거 정보가 없는 음소의 시작 부분에서는 화자 종속적 잔차신호 코드북을 사용하고, 그 이후의 음성 신호에 대해선 예측 방식을 사용하는;

것을 특징으로 하는 TTS 시스템의 음성압축 및 합성 방법.
TTS 시스템의 음성압축 및 합성 방법에 있어,

랜덤 엑세스를 가능하도록 하는 비예측 프레임 및 비트를 줄이기 위하여 상기 비예측 프레임의 나머지 부분에 할당되는 예측프레임을 혼용하고;

상기 비예측 프레임과 예측프레임의 혼용은 TTS 시스템의 특징에 따라 음소별 혹은 합성 단위별로 가변적으로 다양하게 변형하여 사용하는;

것을 특징으로 하는 TTS 시스템의 음성압축 및 합성 방법.
삭제
삭제