KR19980035870A

KR19980035870A - 음성 합성장치 및 그 방법

Info

Publication number: KR19980035870A
Application number: KR1019960054320A
Authority: KR
Inventors: 배성근
Original assignee: 김영환; 현대전자산업 주식회사
Priority date: 1996-11-15
Filing date: 1996-11-15
Publication date: 1998-08-05
Also published as: KR100310930B1

Abstract

본 발명은 디지털 통신 시스템의 음성신호 처리에 있어서, 음의 변화량을 비선형적으로 모델링하는 피치 동기방식에 의한 피치 매트릭싱방법과 선형 예측 방법을 이용한 이차원 비선형 인터폴레이션/데시메이션기술을 통하여 음성을 합성함으로써 자연성 및 명료성이 우수한 고음질의 음성데이터 서비스를 제공할 수 있으며, 간단한 구조의 하드웨어 및 소프트웨어의 구현이 가능한 음성 합성장치 및 그 방법에 관한 것으로, 입력되는 음성신호가 유성음인지 무성음인지를 검출하는 유/무성음 검출부와, 상기 유/무성음 검출부에서 검출된 입력음성이 유성음인 경우 음성신호의 피치를 검출하는 피치 검출부와, 상기 피치 검출부에서 검출된 피치를 단위별로 분리하여 피치집합군을 형성하는 피치집합군 형성부와, 상기 피치집합군 형성부에 의해 형성된 피치집합군의 상관관계 계수를 검출하는 상관관계계수 검출부와, 상기 상관관계계수 검출부에서 검출된 상관관계계수를 평균하여 예측 계수를 산출하는 선형 예측 적용부와, 상기 선형 예측 적용부에서 산출된 예측 계수를 통해 음성신호를 합성하는 예측 계수 합성부와, 상기 유/무성음 검출부에서 검출된 음성신호가 무성음인 경우 가우시안 잡음으로 대치하여 처리하는 가우시안 잡음 처리부로 구성되어, 음성신호가 단시간에는 느린변화를 하며 준주기적인 특성을 가진다는 것을 이용하여 불필요한 데이터를 줄일 수 있고, 2차원 피치행렬과 비선형적인 변화의 추적으로 음의 변화를 잘 추적하여 합성함으로써 자연성 및 명료성이 우수함은 물론 계산량이 적고 간단한 구조를 갖는 장점이 있다.

Description

음성 합성장치 및 그 방법

제1도는 본 발명에 의한 음성 합성장치의 블록 구성도.

제2도는 본 발명에 의한 음성 합성 제어흐름도.

제3도는 본 발명에 이용된 피치 동기에 의한 매트릭싱 기법의 원리를 나타낸 도면.

제4도 (가)는 한 프레임내의 음성신호 파형도,

(나)는 본 발명의 합성장치에 의해 합성된 음성신호 파형도.

*도면의 주요 부분에 대한 부호의 설명*

10:유/무성음 검출부20:피치주기 검출부

30:피치집합굼 형성부40:상관관계계수 검출부

50:선형 예측 적용부60:예측 계수 합성부

70:가우시안 잡음 처리부

본 발명은 디지털 통신 시스템의 음성신호 처리에 있어서, 음의 변화량을 비선형적으로 모델링하는 피치 동기방식에 의한 피치 매트릭싱(pitch matrixing)방법과 선형 예측 방법을 이용한 이차원 비선형 인터폴레이션/데시메이션기술을 통하여 음성을 합성함으로써 자연성(naturality) 및 명료성(intelligibility)이 우수한 고음질의 음성데이터 서비스를 제공할 수 있으며, 간단한 구조의 하드웨어 및 소프트웨어의 구현이 가능한 음성 합성장치 및 그 방법에 관한 것이다.

일반적으로 급속히 변화하는 산업사회에서 쏟아지는 많은 정보들은 영상이나 음성을 통해서 전달되게 되며, 특히 상기 음성을 사용한 정보전달방법은 통신 수단이나 대화수단으로서 가장 오랫동안 사용되어 온 통신 방법이다.

최근, 통신방식이 아날로그에서 디지털화 되어가는 시점에서 음성신호를 디지털화하여 송수신하는 디지털 통신의 음성신호 처리에 있어서, 많은 음성 합성 기술 및 부호화, 복호화기술이 대두되고 있다.

이러한 음성 합성 기술에 있어서, 그 합성 방법으로는 대역제한된 신호 표본화(sampling)와 양자화를 거쳐 반복적이고 불필요한 잉여성분을 제거한 후에 합성하는 시간영역 합성법(time domain method)과 음성 생성과정(speed production model)에 근거한 주파수별로 합성하여 각 독립된 필터를 사용하여 합성하는 주파수영역 합성법(frequency domain method) 및 상기 시간영역 합성법과 주파수영역 합성법의 장점을 이용하는 혼성 합성법(hybrid method)이 있다.

상기 시간영역 합성법은 잉여성분만을 제거하여 합성하므로 음질의 자연성 및 명료성이 매우 높으나, 많은 량의 정보가 필요하여 메모리의 효율성이 저하되는 단점이 있으며, 이러한 합성법으로는 PCM(pulse code modulation), DM(delta modulation), ADM(adaptive modulation), DPCM(differential pulse code modulation)등이 있다.

그리고, 음성 생성과정에 근거하여 음성은 음원(source)과 성도필터(vocal tract)에 의하여 생성되고 이를 모델링하여 인위적으로 합성하는 상기 주파수영역 합성법은 시간영역에서 주파수영역으로 변환하여 여기성분(excitation)과 포만트성분(formant)을 분리한 후 독립적으로 합성하는 것으로서, 이 방법에는 LPC(linear prediction coding), LSP(linear spectrum pair), PARCOR 등이 있으며, 특징 파라미터만으로 합성함에 따라 메모리 사용이 효율적인 장점이 있다.

그러나, 임의 전이, 음의 시작/끝, 유/무성음의 반복시에는 상기 특징 파라미터만으로는 모델링을 할 수 없기 때문에 음질의 열화가 발생하고, 특히 비음이나 마찰음을 모델링하는 데는 전극형모델(all-pole model)에서 극-영형모델(zero-pole model)이 요구되어 음의 자연성과 명료성이 떨어지는 결점이 있다.

또한, 상기 시간영역 합성법의 장점인 고음질과 주파수영역 합성법의 장점인 메모리 효율성을 취한 혼성 합성법은 반복적인 분석에 따른 합성(synthesis by analysis) 또는 규칙에 의한 합성(synthesis by rule)을 적용함에 따라 낮은 비트율로서 고음질을 보장받기 위해서는 반복적인 계산과정과 비교과정이 필요하게 되고, 이로 인하여 계산량이 방대해짐은 물론 구조가 복잡해지는 단점이 있다.

상기와 같은 시간영역 합성법, 주파수영역 합성법 및 혼성 합성법은 대부분 임의의 규칙에 따라 합성하여 출력하는 규칙에 의한 합성과 분석 후에 다시 합성하는 분석에 의한 합성에 의한 것으로서, 독립된 데이터를 데이터 베이스로 사용하기 때문에 음과 음의 연결이 부드럽지 않으며, 음의 자연스러운 변화를 추정하지 않고 합성함에 따라 음의 자연성이 떨어지게 된다.

특히, 음의 변화가 심하고 피치가 변화하는 구간, 강세와 억양의 변화가 심한 음에서는 자연성이 열화되어 반복해서 듣지 않으면 음을 확실히 구별할 수가 없게 되고, 고음질을 서비스하기 위해 혼성법을 사용하는 경우에는 복잡한 구조와 방대한 계산시간이 요구되게 되는 등 많은 문제점이 있었다.

따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 그 목적은 피치 동기 인터폴레이션(Pitch Synchronous Interpolation; PSI)을 이용한 피치단위 매트릭싱 기법과 자기상관관계를 이용한 비선형 인터폴레이션/데시메이션 기술을 통해 음의 상관관계에 의한 변화를 추정하여 합성함으로써 자연성 및 명료성을 향상시킴은 물론 고음질의 음성서비스를 제공할 수 있도록 한 음성 합성장치 및 그 방법을 제공함에 있다.

이러한 목적을 달성하기 위한 본 발명의 음성 합성장치는 입력되는 음성신호를 피치단위로 분리하여 피치주기 집합군을 형성하고, 이 형성된 피치집합군의 각 행에 대한 자기상관계수를 검출하는 선형 예측 방법을 통해 예측 계수를 생성한 후, 이 예측 계수에 의해 음성신호를 합성하도록 한다.

이하, 첨부된 도면을 참조하여 본 발명의 음성 합성장치 및 방법을 상세히 설명한다.

제1도는 본 발명에 의한 음성 합성장치의 블록 구성도로서 이에 도시된 바와 같이, 입력되는 음성신호가 유성음인지 무성음인지를 검출하는 유/무성음 검출부(10)와, 상기 유/무 검출부(10)에서 검출된 입력음성이 유성음인 경우 음성신호의 피치를 검출하는 피치 검출부(20)와, 상기 피치 검출부(20)에서 검출된 피치를 단위별로 분리하여 피치집합군을 형성하는 피치집합군 형성부(30)와, 상기 피치집합군 형성부(30)에 의해 형성된 피치집합군의 상관관계 계수를 검출하는 상관관계계수 검출부(40)와, 상기 상관관계계수 검출부(40)에서 검출된 상관관계계수를 평균하여 예측 계수를 산출하는 선형 예측 적용부(50)와, 상기 선형 예측 적용부(50)에서 산출된 예측 계수를 통해 음성신호를 합성하는 예측 계수 합성부(60)와, 상기 유/무성음 검출부(10)에서 검출된 음성신호가 무성음인 경우 음성신호를 가우시안 잡음으로 대치하여 처리하는 가우시안 잡음 처리부(70)로 구성된다.

상기와 같이 구성되는 음성 합성장치의 합성 방법은 제2도에 도시된 바와 같이, 우선 입력되는 음성신호가 유성음인지 무성음인지를 판단하여(S₁) 유성음인 경우에는 한 프래임내의 피치를 검출하고, 이 검출된 피치를 단위로하여 상기 음성신호를 분리하여 피치집합군을 형성한다(S₂).

상기 음성신호를 프래임내에서 피치단위로 분리하여 피치집합군을 구성하는 단계(S₂)는 이차원 벡터형성(two dimension vector)과정으로서 1차원 음성신호를 프래임내의 피치주기와 피치갯수인 2차원 신호로 변환하는 매트릭싱을 수행하는 것이다.

즉, 상기 피치단위 매트릭싱을 통한 피치군 형성과정을 제3도의 본 발명에 이용된 피치 동기에 의한 매트릭싱 기법의 원리를 나타낸 도면을 참조하여 설명하면, 제3도에 도시된 바와 같이 피치단위로 이차원 신호로 변환하여 백터를 형성하는 이차원 피치 매트릭싱 과정을 수행한다.

이때, 음성신호는 아날로그 입력에 대해서 디지털 변환을 하므로 한 프래임을 256샘플로 나눈 다음, 각 프레임은 피치단위로 매트릭싱을 작성하기 위하여 프래임별로 피치를 검출하도록 처리한다.

음성신호에 있어서 피치(pitch)는 두드러인 봉우리(peak)와 봉우리 혹은 골(valey)과 골 사이의 한주기(fundamental frequency)를 말하는데, 피치 검출부는 정확성이 높은 자기상관관계(autocorrelation method)를 사용하여 식-1과 같이 피치를 검출하게 된다.

[식-1]

여기서 s(.)는 입력 디지털 음성이고, k는 지연인자이다.

제3도에서 검출된 피치주기 단위로 2차원 매트릭싱 과정을 수행하게 되는데, i축은 프래임내의 피치주기(P_k)이고 j축은 피치주기 개수(K_p)로 식-2와 같은 행렬(P_ij)이 구성된다.

[식-2]

여기서, P는 피치주기이고, K는 피치갯수이다.

이어서, 상기 단계(S₂)의 피치 매트릭싱 과정이 수행된 이후로 상기 피치집합군에서 샘플 대 샘플에 대한 선형 예측 적용과정과 예측 계수에 의한 합성과정이 순차적으로 진행된다.

즉, 피치집합군의 각 행에 대한 상관관계 계수를 식-3을 통하여 구한다(S₃).

[식-3]

여기서, α는 상관관계계수이고, P는 피치집합군이다.

예를 들어, 한 프래임 내에 5개의 피치주기(50 samples)가 있다면 상관관계계수는 50*5개의 갯수를 가지게 된다.

그리고 각 행에 대한 상관관계계수의 평균치를 구하면 5개의 계수를 가지게 된다.

따라서, 선형 예측 방법을 적용하여 50샘플의 한 피치주기와 5개의 예측 계수를 산출(S₄)한 후 상기 피치주기와 계수를 이용하여 합성음을 비선형적으로 인터폴레이션하게 된다(S₅).

상기 합성과정에 있어서, 합성에 필요한 데이터가 피치갯수와 피치주기에 의존하기 때문에 주파수영역 합성법의 장점인 메모리 효율성을 가지며 음의 변화를 비선형적으로 추적하여 복원함에 따라 자연성과 명료성이 우수하게 된다.

한편, 음성신호가 무성음일때는 가우시안 잡음발생기로부터 잡음신호를 발생하여 일반적인 가우시안 잡음으로 대치하여 처리한다(S₆).

상기 선형 예측을 통한 예측 계수 검출과 예측 계수에 의한 합성과정은 음의 상관관계에 의한 변화를 추적하여 합성하기 때문에 음의 변화에 적응할 수 있고 음의 전이구간에서도 매우 용이하다.

제4도 (가)(나)에 도시된 바와 같이, (가)는 본 발명의 음성 합성장치를 사용하기 전의 한 프래임내의 음성신호 파형도이고, (나)는 본 발명의 음성 합성장치에 의해 합성된 음성신호의 파형도로서 자연성 및 명료성이 우수한 고음질을 출력하고 있다.

이상 설명에서와 같이, 본 발명은 음성신호가 단시간(short term)에는 느린변화를 하며 준주기적인 특성을 가진다는 것을 이용하여 불필요한 데이터를 줄일 수 있고, 2차원, 피치행렬과 비선형적인 변화에 추적으로 음의 변화를 잘 추적하여 합성함으로써 자연성 및 명료성이 우수함은 물론 계산량이 적고 간단한 구조를 갖는 장점이 있다.

Claims

입력되는 음성신호가 유성음인지 무성음인지를 검출하는 유/무성음 검출부(10)와, 상기 유/무성음 검출부(10)에서 검출된 입력음성이 유성음인 경우 음성신호의 피치를 검출하는 피치 검출부(20)와, 상기 피치 검출부(20)에서 검출된 피치를 단위별로 분리하여 피치집합군을 형성하는 피치집합군 형성부(30)와, 상기 피치집합군 형성부(30)에 의해 형성된 피치집합군의 상관관계 계수를 검출하는 상관관계계수 검출부(40)와, 상기 상관관계계수 검출부(40)에서 검출된 상관관계계수를 평균하여 예측 계수를 산출하는 선형 예측 적용부(50)와, 상기 선형예측 적용부(50)에서 산출된 예측 계수를 통해 음성신호를 합성하는 예측 계수합성부(60)와, 상기 유/무성음 검출부(10)에서 검출된 음성신호가 무성음인 경우 가우시안 잡음으로 대치하여 처리하는 가우시안 잡음 처리부(70)로 구성됨을 특징으로 하는 음성 합성장치.
입력되는 음성신호를 피치단위로 분리하여 피치주기 집합군을 형성하는 제1과정과, 상기 제1과정에서 형성된 각 피치집합군에 대한 자기상관관계수를 검출하여 선형 예측 방법을 통해 예측 계수를 생성하는 제2과정과, 상기 제2과정에서 생성된 예측 계수에 의해 음성신호를 합성하는 제3과정으로 이루어짐을 특징으로 하는 음성 합성방법.
제2항에 있어서,

상기 제1과정은 검출한 피치단위를 분리하여 1차원 음성신호를 피치주기와 피치갯수의 2차원 백터로 변환함을 특징으로 하는 음성 합성방법.
제2항에 있어서,

상기 제2과정은 상기 자기상관관계 평균계수를 이용하여 선형 예측에 적용함을 특징으로 하는 음성 합성방법.