KR100606676B1

KR100606676B1 - 이동 통신 시스템에서 음성 변환 방법 및 장치

Info

Publication number: KR100606676B1
Application number: KR1019990028458A
Authority: KR
Inventors: 여수진
Original assignee: 엘지전자 주식회사
Priority date: 1999-07-14
Filing date: 1999-07-14
Publication date: 2006-07-31
Also published as: KR20010009857A

Abstract

본 발명은 이동 통신 시스템의 음성 변환에 관한 것으로, 특히 가입자의 음성을 교환국에 이미 저장되어 있는 특정 화자의 음성으로 변환하는데 적당하도록 한 이동 통신 시스템에서 가입자의 음성 변환 방법 및 장치에 관한 것이다. 이와 같은 본 발명에 따른 이동 통신 시스템에서 음성 변환 방법은 가입자의 요청에 따라 상기 가입자와 특정 화자의 음성에 대한 제 1 특징 파라미터를 추출하는 단계와, 상기 추출된 제 1 특징 파라미터를 이용하여 상기 가입자와 특정 화자의 음성간을 매핑하여 제 2 특징 파라미터를 산출하는 단계와, 상기 추출된 제 1 특징 파라미터와 산출된 제 2 특징 파라미터를 이용하여 상기 가입자의 음성을 상기 특정 화자의 음성으로 변환하는 단계로 이루어지므로서 비정상적인 발음을 가지고 있는 가입자를 위한 통신 서비스를 제공할 수 있으며, 자신의 목소리를 이용한 합성음을 생성할 수 있는 효과가 있다.

이동 통신 시스템, 음성 변환

Description

이동 통신 시스템에서 음성 변환 방법 및 장치{Apparatus and method for voice conversion in mobile communication system}

도 1은 본 발명에 따른 음성 변환의 개념을 설명하기 위한 도면.

도 2는 본 발명에 따른 이동 통신 시스템에서 음성 변환 장치를 나타낸 블록 구성도.

도 3은 도 2에 보인 음성 분석기의 동작 과정을 설명하기 위한 도면.

도 4는 도 2에 보인 음성 변환기의 동작을 설명하기 위한 도면.

도 5는 도 2에 보인 음성 합성기의 동작 과정을 설명하기 위한 도면.

*도면의 주요 부분에 대한 부호의 설명*

201, 202 : 음성 분석기 203 : 음성 변환기

204 : 음성 합성기

본 발명은 이동 통신 시스템의 음성 변환에 관한 것으로, 특히 가입자의 음성을 교환국에 이미 저장되어 있는 특정 화자의 음성으로 변환하는데 적당하도록 한 이동 통신 시스템에서 가입자의 음성 변환 방법 및 장치에 관한 것이다.

일반적으로 가입자의 음성만으로 이동 단말기를 동작시킬 수 있도록 음성과 이동 단말기간에 인터페이스 하는 음성 인식 기술은 그 편리함으로 인하여 주목받고 있으며, 멀티미디어 통신 시대가 도래함에 따라 이동 단말기에서 제공하여야 할 필수 기능으로 간주되고 있다.

현재 상용화되고 있는 이동 단말기는 이러한 음성 인식 기술을 지원하므로 가입자는 음성 명령만으로도 이동 단말기를 작동시킬 수 있으나 간단한 다이얼링을 실시할 수 있는 정도에 그치고 있다. 또한, 이동 통신망 사업자들은 가입자들로부터 키(key)입력이 아닌 간단한 단어 정도의 음성을 인식하고 그에 따른 정보를 제공하고 있다.

그러나, 이와 같은 이동 단말기에서 가입자의 음성을 처리하는 기술은 음성 인식과 합성 기술 및 이에 따라 응용할 수 있는 음성의 개인성, 음성 코딩, 음색 제어 등 많은 분야의 연구가 행해지고 있으나 아직까지 이동 통신 시스템에서 가입자의 음성을 특정 화자의 음성으로 합성하여 변환하고, 변환된 음성을 착신측으로 전송하기 위한 음성 변환 방법은 제안된 바 없다.

따라서, 종래의 이동 단말기 및 이동 통신 시스템은 가입자에게 음성 변환 서비스를 제공하지 못하므로써 비정상적인 발음을 가진 가입자를 위한 보다 나은 통신 서비스를 제공하지 못하는 문제점이 있다.

따라서, 본 발명의 목적은 이상에서 언급한 종래 기술의 문제점을 감안하여 안출한 것으로서, 가입자의 음성을 교환국에 이미 저장된 특정 화자의 음성으로 변 환하는 이동 통신 시스템에서 음성 변환 방법 및 장치를 제공하기 위한 것이다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 특징에 따르면, 이동 통신 시스템에서 음성 변환 방법은 가입자의 요청에 따라 상기 가입자와 특정 화자의 음성에 대한 제 1 특징 파라미터를 추출하는 단계와, 상기 추출된 제 1 특징 파라미터를 이용하여 상기 가입자와 특정 화자의 음성간을 매핑하여 제 2 특징 파라미터를 산출하는 단계와, 상기 추출된 제 1 특징 파라미터와 산출된 제 2 특징 파라미터를 이용하여 상기 가입자의 음성을 상기 특정 화자의 음성으로 변환하는 단계로 이루어진다.

바람직하게, 상기 제 2 특징 파라미터는 상기 추출된 제 1 특징 파라미터를 이용하여 상기 가입자와 특정 화자의 음성에 대한 벡터 공간을 생성하는 단계와, 상기 추출된 제 1 특징 파라미터를 상기 생성된 벡터 공간에 표시하는 단계와, 상기 표시된 가입자의 음성에 대한 제 1 특징 파라미터를 선형 변환하고, 상기 선형 변환된 제 1 특징 파라미터와 상기 특정 화자의 음성에 대한 제 1 특징 파라미터간의 차를 제곱하여 최소가 되도록 하는 상기 제 2 특징 파라미터를 산출하는 단계를 포함하여 이루어지며 또한, 상기 제 1 특징 파라미터는 선형 예측 셉스트럼 계수이고, 상기 제 2 특징 파라미터는 변환된 선형 예측 셉스트럼 계수이다.

이하 본 발명의 바람직한 일 실시 예에 따른 구성 및 작용을 첨부된 도면을 참조하여 설명한다.

본 발명에서는 가입자의 음성을 교환국에 이미 저장된 특정 화자의 음성으로 합성하여 가입자의 음성을 변환할 수 있는 음성 변환 방법 및 장치를 제안한다. 이를 위해 교환국은 특정 화자에 해당하는 다른 사람들의 음성을 미리 저장한다. 특정 화자는 남자 또는 여자의 음성이 될 수 있으며 망 사업자의 선택에 따라 다양한 종류의 음성이 저장될 수 있다.

본 발명에 따른 음성 변환 방법 및 장치는 가입자(Source)의 음성과 특정 화자(Target)의 음성을 각각 분석하고 각 음성의 음향학적인 특징 파라미터를 추출한다. 그리고, 추출된 각 음성의 특징 파라미터들 간의 매핑(Mapping) 규칙을 만들어서 이에 따라 가입자의 음성과 특정 화자의 음성을 합성한다. 또한, 합성 시에는 합성음의 자연성을 증가시키기 위하여 특정 화자의 피치 정보를 포함하여 합성한다.

이때, 각 음성의 음향학적인 특징 파라미터로서 선형 예측 셉스트럼 계수(Linear Predictive Coding cepstral coefficient, 이하 LPC 셉스트럼 계수로 약칭함)를 사용하며, 매핑 규칙으로는 추출된 특징 파라미터로서 가입자와 특정 화자에 대한 벡터 공간을 생성하고 그에 따른 각 음성간의 매핑시 변환된 특징 파라미터를 산출하는 것으로 만들어진다. 여기서 변환된 특징 파라미터는 LPC 셉스트럼 계수로부터 산출된 변환된 LPC 셉스트럼 계수이다.

도 1은 본 발명에 따른 음성 변환의 개념을 설명하기 위한 도면이다.

도 1을 참조하면, 음성 변환은 가입자의 음성(Source signal)과 특정 화자(Target signal)의 음성을 서로 합성하는 것이다.

이러한 음성 변환에 있어서 가장 중요하게 고려해야 할 사항으로는 각 음성 간의 합성시 적용하는 최적의 매핑(Mapping) 규칙을 만드는 것과 각 음성의 개인성을 표현해 줄 수 있는 요인을 결정하는 것이다.

이를 위해 본 발명에서는 가입자와 특정 화자의 음성에 대한 각 특징 파라미터(100, 101)로서 LPC 셉스트럽 계수를 추출하고 추출된 LPC 셉스트럼 계수들 간의 최적의 매핑 규칙을 결정한다.

도 2는 본 발명에 따른 이동 통신 시스템에서 음성 변환 장치를 나타낸 블록 구성도이다.

도 2를 참조하면, 본 발명에 따른 음성 변환 장치는 가입자와 특정 화자의 음성을 분석하여 LPC 셉스트럽 계수를 추출하는 음성 분석기(201, 202)와, 음성 분석기(201, 202)에서 추출된 LPC 셉스트럼 계수로서 가입자와 특정 화자의 음성을 벡터 공간에 표시하고, 표시된 각 LPC 셉스트럽 계수를 매핑하여 변환된 LPC 셉스트럼 계수를 추출하는 음성 변환기(203)와, LPC 셉스트럼 계수와 변환된 LPC 셉스트럼 계수를 이용하여 가입자의 음성을 특정 화자의 음성으로 변환시키는 음성 합성기(204)로 구성된다.

이와 같이 구성되는 음성 변환 장치의 동작은 다음과 같다.

우선, 가입자가 자신의 음성을 특정 화자의 음성으로 변환하기 위해 교환국으로 요청하면, 교환국에서는 가입자의 음성 데이터를 수신한 후 특정 화자의 음성과 매핑할 수 있는 규칙을 만든다.

이를 위해 교환국에 구비되는 음성 변환 장치에서는 가입자의 음성과 특정 화자의 음성을 각각 음성 분석기(201, 202)로 전송하고, 음성 분석기(201, 202)는 가입자의 음성과 특정 화자의 음성을 분석하여 각 음성에 대한 음향학적 특징 파라미터를 추출한다. 이때, 추출된 특징 파라미터는 LPC 셉스트럼 계수이다.

이러한 LPC 셉스트럼 계수를 추출하는 이유에 대하여 다음에 상세히 설명한다.

일반적으로 사람의 음성은 음원 여기 신호가 성문과 성도를 지나서 구강을 통하여 발성된다. 즉, 성문의 개폐 주기와 성도에 따라 음성의 음색이 달라지는 것이다. 이때, 성문의 개폐 주기는 음성의 피치로서 알 수 있고, 성도에 해당하는 성도 필터는 LPC 계수로서 구할 수 있다. 따라서, 본 발명에서는 LPC 계수로 구해지는 LPC 셉스트럼 계수를 음성 변환시 매핑 규칙을 만들기 위한 파라미터로 사용하기 위해 음성 분석기(201, 202)에서 가입자와 특정 화자의 음성에 대한 LPC 셉스트럼 계수를 추출하는 것이다.

이어, 음성 변환기(203)는 음성 분석기(201, 202)를 통해 추출된 LPC 셉스트럼 계수의 차수에 따라 가입자와 특정 화자의 음성에 대한 유한 차수의 벡터 공간을 생성한다. 이어, 음성 분석기(201, 202)에서 추출된 각 음성에 대한 LPC 셉스트럼 계수를 생성된 벡터 공간에 표시하고, 가입자의 음성에 대한 LPC 셉스트럼 계수와 특정 화자의 음성에 대한 LPC 셉스트럼 계수간을 매핑시에 변환된 LPC 셉스트럼 계수를 구한다.

그러면, 음성 합성기(204)에서는 음성 분석기(201, 202)에서 추출한 LPC 셉스트럼 계수와 음성 변환기(203)에서 구한 변환된 LPC 셉스트럼 계수를 이용하여 가입자의 음성을 특정 화자의 음성과 합성하여 변환한다.

이와 같은 과정에 따라 음성 합성기(204)를 통해 출력되는 변환된 가입자의 음성은 착신측으로 전송된다.

도 3은 도 2에 보인 음성 분석기의 동작 과정을 설명하기 위한 도면이다.

도 3을 참조하면, 음성 분석기(201, 202)로 입력된 가입자와 특정 화자의 음성 S(n)은 8㎑로 샘플링되어 음성 데이터로 생성되고, 음성 데이터는 프리엠파시스 (301)를 통해 S'(n)으로 변형된다.

이어, 프리엠파시스(301)를 통해 출력되는 음성 데이터 S'(n)은 프레임 단위로 분할된다. 이때, S'(n)의 한 프레임은 N개(즉, 256개)의 음성 샘플을 갖고 M개씩(즉, 64개) 천이(Shift)되어 Xt(n)으로 변형되어 출력되고(302). 각 프레임에는 해밍 창(Hamming window)이 씌워져서 X't(n)으로 출력된다(303).

이어, X't(n)인 각 프레임당 자기 상관 분석 과정(304)과 LPC 분석 과정(305)을 거쳐 Sm(t)인 LPC 계수를 구하고, 이를 LPC 셉스트럼 계수로 다시 변환하여 Cm(t)로 출력한다(306).

이와 같이, 음성 분석기(201, 202)는 각 음성에 대한 분석을 실시하여 LPC 셉스트럼 계수를 출력한다.

이때, LPC 계수의 차수는 12차로 하고, LPC 셉스트럼 계수는 20차로 조정된다.

도 4는 도 2에 보인 음성 변환기의 동작을 설명하기 위한 도면이다.

도 4를 참조하면, 음성 변환기(203)에서는 변환된 LPC 셉스트럼 계수를 구하기 위해 먼저, 음성 분석기(201, 202)에서 추출한 LPC 셉스트럼 계수를 이용하여 가입자와 특정 화자의 음성에 대한 벡터 공간(402, 403)을 생성한다.

이때, 가입자의 음성에 대한 LPC 셉스트럼 계수 벡터를 Sn(400), 특정 화자의 음성에 대한 LPC 셉스트럼 계수 벡터를 Tm(401) 이라고 가정한다.

그러면, Sn(400)을 선형 변환하여 T'm 벡터를 생성한 후 상기 Tm(401)과 T'm과의 차의 제곱이 최소가 되는 T'm의 인자를 구한다.

이러한 과정에 따라 구한 T'm의 인자는 구하고자 하는 변환된 LPC 셉스트럼 계수이다.

도 5는 도 2에 보인 음성 합성기의 동작 과정을 설명하기 위한 도면이다.

도 5를 참조하면, 음성 합성기(204)는 음성 분석기(201, 202)에서 추출된 LPC 셉스트럼 계수와 음성 변환기에서 구한 변환된 LPC 셉스트럼 계수를 이용하여 가입자 음성을 특정 화자의 음성으로 변환시킨다.

즉, 사람의 음성은 성도를 통해 발성되므로 성도 필터를 이용하면 음원 여기 신호를 구할 수 있음을 이용하여 가입자의 음성(500)을 역 성도필터(501)에 통과시켜 음원 여기 신호(503)를 구한다. 이때, 역 성도필터(501)는 LPC 계수(502)를 이용하여 구현한다.

음원 여기 신호(503)는 변환된 LPC 계수(505)로서 구현되는 성도 필터(504)를 통해 1차 음성 변환된 신호(507)로 출력된다. 이때, 변환된 LPC 계수(505)는 변환된 LPC 셉스트럼 계수(506)로서 구한다.

한편, 본 발명에서는 합성음의 자연성을 향상시키기 위하여 1차 음성 변환된 신호(507)의 피치를 조절하는 과정을 추가한다. 이는 1차 음성 변환된 신호의 피치 주기를 특정 화자의 음성의 피치 주기로 조절하여 자연성을 향상시키는 것이다.

이러한 과정은 종래의 TD-PSOLA(Time Domain Pitch Synchronous Overlap Add) 방법을 이용하여 실시하는 것으로서 1차 음성 변환된 신호를 시간 축 상에서 오버랩 애드(Overlap Add)한다.

이상의 설명에서와 같이 본 발명은 가입자의 음성을 원하는 특정 화자의 음성으로 변환하여 전송할 수 있으므로 비정상적인 발음을 가지고 있는 가입자를 위한 통신 서비스를 제공할 수 있으며, 자신의 목소리를 이용한 합성음을 생성할 수 있는 효과가 있다.

또한, 본 발명의 음성 변환 방법을 700 번 서비스에 적용할 경우에는 특정 단어 또는 특정 화자에 제한되지 않고 사람과 기계간에 더 많은 정보를 쉽게 주고 받을 수 있는 효과가 있다.

Claims

2 이상의 음성 정보를 분석하여, 각각의 음성 정보에 상응하는 LPC(Linear Predictive Coding) 셉스트럼(cepstrum) 계수를 산출하는 단계; -> Analyzer

상기 셉스트럼 계수들에 상응하는 셉스트럼 벡터 상호간의 최소 자승 오차를 이용하여, 변환된 셉스트럼 계수를 산출하는 단계; 및 -> Transformer

상기 변환된 셉스트럼 계수를 적용하여, 상기 2 이상의 음성 정보를 합성하는 단계 -> Synthesizer

를 포함하여 이루어지는 음성정보 합성 방법.
제 1 항에 있어서,

상기 셉스트럼 계수를 산출하는 단계는,

상기 음성 정보에 대하여, 프리엠퍼시스(preemphasis)를 수행하는 단계;

프리앰퍼시스가 수행된 음성 정보에 대하여 프레임 블러킹(frame blocking)을 수행하는 단계;

프레임 블러킹된 음성 정보에 대하여 윈도윙(windowing)을 수행하는 단계;

윈도윙이 수행된 음성 정보에 대하여 자기상관 분석(autocorrelation analysis)를 수행하는 단계;

상기 자기상관 분석이 수행된 음성정보로부터 LPC 계수를 산출하는 단계; 및

상기 LPC 계수로부터 LPC 셉스트럼 계수를 산출하는 단계

를 포함하여 이루어지는 음성정보 합성 방법.
제 2 항에 있어서,

상기 음성 정보는, 8kHz 로 샘플링한 음성 정보이고,

상기 프레임 블러킹은,

상기 샘플링된 음성 정보를 하나의 프레임당 N 개의 음성 샘플로 추출하는 단계; 및

상기 추출된 샘플들을 M 개 구간만큼 쉬프트 하는 단계

를 포함하여 이루어지는 음성정보 합성 방법.
제 2 항에 있어서,

상기 LPC 계수의 차수는 12 이고, LPC 셉스트럼 계수는 20 차인 것을 특징으로 하는 음성정보 합성 방법.
제 2 항에 있어서,

상기 2 이상의 음성 정보를 합성하는 단계는,

상기 2 이상의 음성 정보에 대하여, 상기 음성 정보에 상응하는 상기 LPC 계수를 이용하여 역 성도 필터링을 수행하는 단계; 및

상기 역 성도 필터링을 통해 생성된 음원 여기 신호에 대하여, 상기 변환된 LPC 셉스트럼 계수를 이용하여 성도 필터링을 수행하는 단계

를 포함하여 이루어지는 음성정보 합성 방법.
제 1 항에 있어서,

상기 합성된 음성 정보에 대하여, 피치 주기를 조정하는 단계를 더 포함하여 이루어지는 음성정보 합성 방법.
제 6 항에 있어서,

상기 피치 주기 조정은, TD-PSOLA(Time Domain-Pitch Synchronous Overlap Add) 방식으로 수행되는 것을 특징으로 하는 음성정보 합성 방법.
2 이상의 기준 음성 정보들이 저장된 통신 모듈에서, 입력된 음성 정보와 상기 기준 음성 정보를 합성하는 방법에 있어서,

상기 기준 음성 정보들 중에서 선택된 음성 정보를 분석하여, 제 1 LDC 셉스트럼 계수를 산출하는 단계;

상기 입력된 음성 정보를 분석하여, 제 2 LDC 셉스트럼 계수를 산출하는 단계; 및

상기 셉스트럼 계수들로부터 유도된 벡터들의 관계를 이용하여 산출된 셉스트럼 계수를 이용하여, 상기 선택된 음성정보와 상기 입력된 음성 정보를 합성하는 단계

를 포함하여 이루어지는 음성 정보 합성 방법.
제 8 항에 있어서,

상기 합성된 음성 정보를 다른 전송 모듈로 전송하는 단계를 더 포함하여 이루어지는 음성 정보 합성 방법.
제 8 항에 있어서,

상기 기준 음성 정보들이 저장된 통신 모듈은, 교환국인 것을 특징으로 하는 음성 정보 합성 방법.
제 8 항에 있어서,

상기 벡터들의 관계는, 유도된 벡터들 사이의 최소자승오차인 것을 특징으로 하는 음성 정보 합성 방법.
제 8 항에 있어서,

상기 합성된 음성 정보에 대하여, 피치 주기를 조정하는 단계를 더 포함하여 이루어지는 음성정보 합성 방법.
2 이상의 음성 정보로부터 LDC 셉스트럼 계수를 산출하고, LDC 셉스트럼 계수 상호간의 특성에 따라, 변환된 LDC 셉스트럼 계수를 제공하는 음성 분석부; 및

상기 LDC 셉스트럼 계수 및 상기 변환된 LDC 셉스트럼 계수를 이용하여 역성도 필터링 및 성도 필터링을 수행하여 상기 2 이상의 음성 정보를 합성하는 음성 합성부

를 포함하여 이루어지는 음성정보 합성 방법.
제 13 항에 있어서,

상기 LDC 셉스트럼 계수 상호간의 특성은, 상기 LDC 셉스트럼 계수로부터 벡터 공간을 유도하는 경우, 상기 LDC 셉스트럼 계수에 상응하는 벡터 상호간의 최소자승오차인 것을 특징으로 하는 음성 정보 합성 방법.