KR20160128871A

KR20160128871A - 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치

Info

Publication number: KR20160128871A
Application number: KR1020150060946A
Authority: KR
Inventors: 김남수; 권기수; 배수현; 강우현
Original assignee: 서울대학교산학협력단
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2016-11-08
Also published as: KR101706123B1

Abstract

본 발명은 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치에 관한 것으로서, 보다 구체적으로는, 사용자 맞춤형 음성 보정 장치가, (1) 원시 음성 데이터를 입력받는 단계; (2) 상기 입력된 원시 음성 데이터로부터 피치, 특성 파형(CW), 파워 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터들을 추출하는 단계; (3) 상기 추출된 음성 파라미터들에 대해, 미리 설정된 복수의 특이 음성이 갖는 제1 특징들을 미리 설정된 정상 음성이 갖는 제2 특징들로 변경하는 단계; 및 (4) 상기 변경된 제2 특징을 갖는 음성 파라미터들에 기초하여, 보정된 음성 데이터를 합성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치에 따르면, 사용자 맞춤형 음성 보정 장치가, 원시 음성 데이터를 입력받고, 입력된 원시 음성 데이터로부터 피치, 특성 파형(CW), 파워 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터들을 추출하며, 추출된 음성 파라미터들에 대해, 미리 설정된 복수의 특이 음성이 갖는 제1 특징들을 미리 설정된 정상 음성이 갖는 제2 특징들로 변경하고, 변경된 제2 특징을 갖는 음성 파라미터들에 기초하여, 보정된 음성 데이터를 합성함으로써, 쉰(hoarse) 음성, 거친(rough) 음성, 숨찬(breathy) 음성 및 비음(nasal) 음성과 같은 특이 목소리를 분석 및 개선할 수 있고, 음색을 차가운 느낌 또는 따뜻한 느낌으로 변경할 수 있다.
또한, 음성 통화를 통해 식별되기 어려운 음성이나 화자가 갖고 있는 불만족스러운 음성을, 또렷하거나 원하는 음색의 음성으로 변경할 수 있게 하고, 화자가 갖는 발성 기관의 신체적 문제를 보조할 수 있으며, 사용자가 어필하고 싶은 음색의 음성을 생성하게 함으로써, 사용자의 욕구에 맞추어 다양하게 음성을 보정할 수 있다.

Description

파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치{USER-CUSTOMIZABLE VOICE REVISION METHOD OF CONVERTING VOICE BY PARAMETER MODIFICATION AND VOICE REVISION DEVICE IMPLEMENTING THE SAME}

본 발명은 음성 보정 방법 및 이를 구현하는 장치에 관한 것으로서, 보다 구체적으로는 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치에 관한 것이다.

음성 코덱(codec)이란, 음성 신호를 디지털 신호로 변환하는 코더/인코더(coder/encoder)와 그 반대로 변환시켜주는 디코더(decoder)를 합성한 용어로서, MP3, AC3, AAC, OGG, WMA 등과 같은 코덱 기술이 알려져 있다.

음성 코덱의 한 종류인 파형 보간(waveform interpolation, WI) 방법은, 도 1과 같이 음성의 파라미터를 추출하고 음성을 합성하는 과정을 거친다. 도 1은 종래기술에 의한 음성 코덱 중 파형 보간 방법의 실행 과정을 개념적으로 도시한 도면이다. 도 1에 도시된 바와 같이, 종래기술에 의한 파형 보간 방법은, 음성 통신을 위해 전송할 수 있는 대역폭이 제한적이므로, 원래의 파라미터를 양자화(quantization)시킴으로써 데이터량을 감소시키는 처리를 수행한다. 보다 구체적으로, 인코더 측에서 디지털화된 음성이 분석기에 입력되면(분석기-합성기 레이어), 입력된 음성의 파라미터들이 양자화된다(양자화 레이어). 양자화 이후에는, 파라미터들이 다시 역양자화(dequantization)되어(양자화 레이어), 합성기로 전달되고, 합성기로부터 디지털화된 음성이 출력된다.

이와 관련하여, 대한민국 등록특허공보 제10-0768090호(2007.10.17.)에서는 디코딩에서의 재정렬 파라미터의 계산량을 감소시키기 위한 파형 보간 방법 및 장치를 개시하고 있고, 대한민국 공개특허공보 제10-2001-0087391호(2001.09.15.)에서는 인코딩에 필요한 비트를 최소화시키는 음성 세그먼트를 위한 시간 동기식 파형 보간법을 개시하고 있다.

그러나 이러한 종래기술들에서는, 지터(jitter), 쉬머(shimmer), HNR(harmonic-to-noise ratio) 등과 같은 비정상 음성 요소(irregular component)의 수치들을 사용하여 음성 품질을 수량화하기 위한 연구가 주로 진행될 뿐, 사용자의 음성을 적절하게 보정하기 위한 기술은 개시되지 않은 한계가 있다. 또한, 사용자의 일반적인 목소리를 다각도에서 보정하기 위한 기술은 개시되지 않은 문제가 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 사용자 맞춤형 음성 보정 장치가, 원시 음성 데이터를 입력받고, 입력된 원시 음성 데이터로부터 피치, 특성 파형(CW), 파워 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터들을 추출하며, 추출된 음성 파라미터들에 대해, 미리 설정된 복수의 특이 음성이 갖는 제1 특징들을 미리 설정된 정상 음성이 갖는 제2 특징들로 변경하고, 변경된 제2 특징을 갖는 음성 파라미터들에 기초하여, 보정된 음성 데이터를 합성함으로써, 쉰(hoarse) 음성, 거친(rough) 음성, 숨찬(breathy) 음성 및 비음(nasal) 음성과 같은 특이 목소리를 분석 및 개선할 수 있고, 음색을 차가운 느낌 또는 따뜻한 느낌으로 변경할 수 있는, 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은, 음성 통화를 통해 식별되기 어려운 음성이나 화자가 갖고 있는 불만족스러운 음성을, 또렷하거나 원하는 음색의 음성으로 변경할 수 있게 하고, 화자가 갖는 발성 기관의 신체적 문제를 보조할 수 있으며, 사용자가 어필하고 싶은 음색의 음성을 생성하게 함으로써, 사용자의 욕구에 맞추어 다양하게 음성을 보정할 수 있는, 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치를 제공하는 것을 다른 목적으로 한다.

상기한 목적들을 달성하기 위한 본 발명의 특징에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법은,

사용자 맞춤형 음성 보정 장치가,

(1) 원시 음성 데이터를 입력받는 단계;

(2) 상기 입력된 원시 음성 데이터로부터 피치, 특성 파형(CW), 파워 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터들을 추출하는 단계;

(3) 상기 추출된 음성 파라미터들에 대해, 미리 설정된 복수의 특이 음성이 갖는 제1 특징들을 미리 설정된 정상 음성이 갖는 제2 특징들로 변경하는 단계; 및

(4) 상기 변경된 제2 특징을 갖는 음성 파라미터들에 기초하여, 보정된 음성 데이터를 합성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (3)에서,

상기 특이 음성은, 쉰(hoarse) 음성, 거친(rough) 음성, 숨찬(breathy) 음성 및 비음(nasal) 음성을 포함하는 군에서 선택된 적어도 하나를 포함하여 구성될 수 있다.

더욱 바람직하게는, 상기 단계 (3)에서,

상기 제1 특징들의 제2 특징들로의 변경은,

상기 특이 음성이 갖는 피치를 미리 설정된 범위 내에서 안정화(stabilize)시키는 것을 포함하여 구성될 수 있다.

더욱 바람직하게는, 상기 단계 (3)에서,

상기 제1 특징들의 제2 특징들로의 변경은,

상기 특이 음성이 갖는 선스펙트럼 쌍(LSP)을 보정하여 스펙트럼 포락선(spectral envelope)을 재구성하는 것을 포함하여 구성될 수 있다.

더욱 바람직하게는, 상기 단계 (3)에서,

상기 제1 특징들의 제2 특징들로의 변경은,

상기 특이 음성이 갖는 특성 파형을 SEW(smoothly evolving waveform) 성분 및 REW(rapidly evolving waveform) 성분으로 분리하고, 상기 분리된 SEW 성분 및 REW 성분을 미리 설정된 범위 내에서 조절하는 것을 포함하여 구성될 수 있다.

바람직하게는,

상기 단계 (1) 내지 단계 (4)의 사이에는,

상기 원시 음성 데이터를 양자화 시키는 단계가 포함되지 않도록 구성될 수 있다.

바람직하게는, 상기 단계 (3)에서는,

(3-1) 상기 추출된 음성 파라미터들에 대해, 미리 설정된 제1 음색 범위로부터 미리 설정된 제2 음색 범위로 변경하는 단계를 포함하고,

상기 제1 음색 범위 및 제2 음색 범위 중 어느 하나는 차가운 느낌의 음색 범위이고, 다른 하나는 따뜻한 느낌의 음색 범위인 것으로 구성될 수 있다.

본 발명에서 제안하고 있는 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치에 따르면, 사용자 맞춤형 음성 보정 장치가, 원시 음성 데이터를 입력받고, 입력된 원시 음성 데이터로부터 피치, 특성 파형(CW), 파워 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터들을 추출하며, 추출된 음성 파라미터들에 대해, 미리 설정된 복수의 특이 음성이 갖는 제1 특징들을 미리 설정된 정상 음성이 갖는 제2 특징들로 변경하고, 변경된 제2 특징을 갖는 음성 파라미터들에 기초하여, 보정된 음성 데이터를 합성함으로써, 쉰(hoarse) 음성, 거친(rough) 음성, 숨찬(breathy) 음성 및 비음(nasal) 음성과 같은 특이 목소리를 분석 및 개선할 수 있고, 음색을 차가운 느낌 또는 따뜻한 느낌으로 변경할 수 있다.

또한, 음성 통화를 통해 식별되기 어려운 음성이나 화자가 갖고 있는 불만족스러운 음성을, 또렷하거나 원하는 음색의 음성으로 변경할 수 있게 하고, 화자가 갖는 발성 기관의 신체적 문제를 보조할 수 있으며, 사용자가 어필하고 싶은 음색의 음성을 생성하게 함으로써, 사용자의 욕구에 맞추어 다양하게 음성을 보정할 수 있다.

도 1은 종래기술에 의한 음성 코덱 중 파형 보간 방법의 실행 과정을 개념적으로 도시한 도면.
도 2는 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법을 개념적으로 도시한 도면.
도 4는 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 중 WI 분석기에서 수행되는 과정을 블록 도시한 도면.
도 5는 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 중 WI 합성기에서 수행되는 과정을 블록 도시한 도면.

이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

본 발명은 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치에 관한 것으로서, 본 발명의 특징에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 장치는 음성 데이터가 저장되는 메모리와, 저장된 음성 데이터를 처리하는 마이크로프로세서를 포함하여 구성될 수 있다. 예를 들어, 이러한 음성 보정 장치는, 마이크로폰에 전기적으로 연결되는 휴대용 단말기, 통신 단말기, 개인용 컴퓨터, 노트북, PDA, 스마트폰, 태블릿 PC, MP3 플레이어 등을 포함할 수 있다. 음성 보정 장치에서 수행되는 음성 데이터의 처리는 후술하는 사용자 맞춤형 음성 보정 방법을 통해 상세히 설명하도록 한다.

도 2는 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법의 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법은, 원시 음성 데이터를 입력받는 단계(S510), 입력된 원시 음성 데이터로부터 피치, 특성 파형(CW), 파워 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터들을 추출하는 단계(S530), 추출된 음성 파라미터들에 대해, 미리 설정된 복수의 특이 음성이 갖는 제1 특징들을 미리 설정된 정상 음성이 갖는 제2 특징들로 변경하는 단계(S550), 및 변경된 제2 특징을 갖는 음성 파라미터들에 기초하여, 보정된 음성 데이터를 합성하는 단계(S570)를 포함하여 구성될 수 있다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법에서는, 도 1과 달리, 원시 음성 데이터를 양자화 시키고, 이를 다시 역양자화 시키는 단계가 포함되지 않는다. 이하에서는, 첨부된 도면을 참조하여 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법의 각각의 단계를 보다 상세히 설명하도록 한다.

도 3은 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법을 개념적으로 도시한 도면이다. 도 2 및 도 3에 도시된 바와 같이, 단계 S510에서는, 사용자 맞춤형 음성 보정 장치가 원시 음성 데이터를 입력받을 수 있다. 입력된 원시 음성 데이터에는 특이 음성으로 구분될 수 있는 특징이 포함될 수 있다. 예를 들어, 원시 음성 데이터는 쉰 소리, 숨소리, 거친 소리, 콧소리 등과 같은 특징이 포함될 수 있다. 이어서, 단계 S530에서는, 사용자 맞춤형 음성 보정 장치가, 입력된 원시 음성 데이터로부터 피치, 특성 파형(CW), 파워 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터들을 추출할 수 있다. 단계 S510 및 S530에서와 같이, 원시 음성 데이터로부터 음성 파라미터들을 추출하는 과정은 도 4를 참조하여 보다 상세히 설명하도록 한다.

도 4는 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 중 WI 분석기에서 수행되는 과정을 블록 도시한 도면이다. 도 4에 도시된 바와 같이, WI 분석기(100)에서는, 입력된 원시 음성 데이터에 대하여 LPC(linear predictive coding)를 분석하고(130), LSF(line spectral frequency)를 보간하며(120), 예컨대, 프레임당 8 세트로 LP(linear prediction) 분석 필터(110)에 제공될 수 있다. 이 과정에서, LSF는 프레임당 1 세트로 추출될 수 있다.

한편, LP 분석 필터(110)를 통과한 잔여(residual) 성분으로부터 피치(pitch)가 측정되고(140), 피치가 보간되며(150), 예컨대, 프레임당 8개의 피치로 특성 파형(characteristics waveform, CW)이 추출(160)될 수 있다. 이 과정에서, 피치는 프레임당 1의 비율로 추출될 수 있다.

이어서, 추출된 특성 파형(CW)으로부터 파형을 정렬하고(170), 파워(power)를 계산(180)하여 정규화(190)하며, 그에 따라, 예컨대, 프레임당 8의 비율로 파워(power)가 추출되고, 동일한 비율로 정규화된 특성 파형이 추출될 수 있다.

이러한 과정을 통해 음성의 피치(pitch), 특성 파형(CW), 파워(power) 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터가 추출될 수 있다.

단계 S550에서는, 사용자 맞춤형 음성 보정 장치가, 추출된 음성 파라미터들에 대해, 미리 설정된 복수의 특이 음성이 갖는 제1 특징들을 미리 설정된 정상 음성이 갖는 제2 특징들로 변경할 수 있다. 도 2 및 도 3에 도시된 바와 같이, 본 단계에서는, 단계 S530에서 추출된 음성 파라미터가 변경(300)될 수 있다. 예를 들어, 특이 음성이 갖는 피치를 미리 설정된 범위 내에서 안정화(stabilize)시킬 수 있다. 이 경우, 쉰 목소리, 거친 목소리 등이 갖는 불안정한 기본 주파수를 안정화시킴으로써 목소리를 보정할 수 있다.

또한, 예를 들어, 특이 음성이 갖는 선스펙트럼 쌍(line spectrum pairs, LSP)을 보정하여 스펙트럼 포락선(spectral envelope)을 재구성할 수 있다. 이 경우, 콧소리의 특이 음성을 보정할 수 있다. 즉, 콧소리는 음성의 스펙트럼 포먼트(spectral formant)에 영향을 미치는데, 비강(nasal cavity)으로 인해 새로운 포먼트(formant)인 비음형대(nasal formant)가 추가되거나, 특정 주파수 대역의 에너지가 흡수되면서 반포먼트(anti-formant)가 발생할 수 있다. 이러한 포먼트(formant)는, LSP를 보정하여 스펙트럼 포락선을 재구성함으로써 보정될 수 있다.

또한, 예를 들어, 특이 음성이 갖는 특성 파형을 SEW(smoothly evolving waveform) 성분 및 REW(rapidly evolving waveform) 성분으로 분리하고, 분리된 SEW 성분 및 REW 성분을 미리 설정된 범위 내에서 조절할 수 있다. 음성의 잔여(residual) 신호를 나타내는 특성 파형(CW)을, 유성음 특성을 가진 SEW 성분과 무성음 특징을 가진 REW 성분으로 구분하고, 각각의 SEW 성분 및 REW 성분을 변경시킴으로써, 특이 음성이 가진 유성음 및 무성음의 특징을 조절할 수 있고, 그에 따라 음색을 변화시킬 수 있다. 특성 파형(CW)을 SEW 성분과 REW 성분으로 분리하는 이유는, 유성음과 무성음으로 분리하여 음성을 파악할 수 있기 때문이다. 일반적으로, 유성음은 신호 파형이 주기적인 특성을 가지고 있고, 무성음은 어떠한 특징 없이 노이즈와 같은 형태를 나타낸다. 따라서, 특성 파형(CW)가 저대역 통과 필터를 거치면 SEW 성분이 추출되는데, 이는 음성의 유성음 성분을 나타낸다. 또한, 특성 파형(CW)에서 위의 SEW 성분을 제거하면 REW 성분이 나오는데, 이는 음성의 무성음 성분을 나타낸다. 이처럼, 특성 파형(CW)을 분리하여 유성음과 무성음 성분을 개별 조절할 수 있다. 이를 피치와 함께 고려하면, 피치는 음성 신호의 주기를 나타내는 것이므로, 유성음 구간에서만 나타나고 무성음 구간에서는 나타나지 않는다. 따라서 SEW 성분과 REW 성분은 유/무성음을 판단할 수 있는 기준이 될 수 있고 피치 안정화의 사전 판별 단계로 이용될 수 있다.

한편, 단계 S550은, 사용자 맞춤형 음성 보정 장치가, 추출된 음성 파라미터들에 대해, 미리 설정된 제1 음색 범위로부터 미리 설정된 제2 음색 범위로 변경하는 단계를 포함할 수 있다. 이 때, 제1 음색 범위 및 제2 음색 범위 중 어느 하나는 차가운 느낌의 음색 범위이고, 다른 하나는 따뜻한 느낌의 음색 범위일 수 있다. 이와 같이, 목소리가 가지는 파라미터를 미리 저장된 목소리 데이터베이스를 통해 분석하고, 청취 평가를 통해 분류된 차가운 느낌의 목소리나 따뜻한 느낌의 목소리가 가진 파라미터의 특징을 이용함으로써, 차가운 느낌의 원시 음성 데이터가 가진 음성 파라미터를 따뜻한 느낌의 파라미터로 변경하거나, 따뜻한 느낌의 원시 음성 데이터가 가진 음성 파라미터를 차가운 느낌의 파라미터로 변경할 수 있다.

단계 S570에서는, 변경된 제2 특징을 갖는 음성 파라미터들에 기초하여, 보정된 음성 데이터를 합성할 수 있다. 도 3에 도시된 바와 같이, 사용자의 설정에 맞추어 변경된 음성 파라미터들은 WI 합성기를 통해 합성되어, 보정된 음성으로 출력될 수 있다. 변경된 음성 파라미터들로부터 보정된 음성 데이터를 합성하는 과정은 도 5를 참조하여 보다 상세히 설명하도록 한다.

도 5는 본 발명의 일실시예에 따른 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 중 WI 합성기에서 수행되는 과정을 블록 도시한 도면이다. 도 5에 도시된 바와 같이, 예컨대, 프레임당 8의 비율로 제공되는 정규화된 특성 파형(CW) 및 파워(power)를 이용하여, 파워(power)가 역정규화되고(210), 프레임당 1의 비율로 제공되는 피치가 보간되며(240), 그로부터 서브프레임당 1의 비율로 파형이 재배열(220)된 후, 순간적인 피치 및 CW가 생성(230)될 수 있다. 이어서, 샘플당 1의 비율로 위상 트랙이 측정되며(250), 위상 트랙 값과 순간 CW에 기초하여 의해 2D-to-1D 변환(260)이 수행될 수 있다. 이렇게 변환된 잔여 신호는 예컨대, 프레임당 160의 비율로, LP 합성 필터(280)에 제공되며, LP 합성 필터에서는 변경된 LSF의 보간된 값(270)을 함께 이용하여, 보정된 음성을 재구성할 수 있다. 이와 같이, 본 발명의 실시예에 따른 음성 보정 방법에서는, WI 분석기와 WI 합성기 사이에 음성 파라미터가 양자화되지 않고 합성되므로, 음성의 열화 현상 또한 감소할 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

100: WI 분석기 110: LP 분석 필터
120: LSF 보간 130: LPC 분석
140: 피치 측정 150: 피치 보간
160: CW 추출 170: 파형 정렬
180: POWER 계산 190: POWER 정규화
200: WI 합성기 210: POWER 역정규화
220: 파형 재배열 230: 순간 피치 및 CW 생성
240: 피치 보간 250: 위상 트랙 측정
260: 2D-to-1D 변환 270: LSF 보간
280: LP 합성 필터 300: 파라미터 변경
S510: 원시 음성 데이터를 입력받는 단계
S530: 입력된 원시 음성 데이터로부터 피치, 특성 파형(CW), 파워 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터들을 추출하는 단계
S550: 추출된 음성 파라미터들에 대해, 미리 설정된 복수의 특이 음성이 갖는 제1 특징들을 미리 설정된 정상 음성이 갖는 제2 특징들로 변경하는 단계
S570: 변경된 제2 특징을 갖는 음성 파라미터들에 기초하여, 보정된 음성 데이터를 합성하는 단계

Claims

사용자 맞춤형 음성 보정 장치가,
(1) 원시 음성 데이터를 입력받는 단계;
(2) 상기 입력된 원시 음성 데이터로부터 피치, 특성 파형(CW), 파워 및 선스펙트럼 주파수(LSF)를 포함한 음성 파라미터들을 추출하는 단계;
(3) 상기 추출된 음성 파라미터들에 대해, 미리 설정된 복수의 특이 음성이 갖는 제1 특징들을 미리 설정된 정상 음성이 갖는 제2 특징들로 변경하는 단계; 및
(4) 상기 변경된 제2 특징을 갖는 음성 파라미터들에 기초하여, 보정된 음성 데이터를 합성하는 단계를 포함하는 것을 특징으로 하는, 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법.
제1항에 있어서, 상기 단계 (3)에서,
상기 특이 음성은, 쉰(hoarse) 음성, 거친(rough) 음성, 숨찬(breathy) 음성 및 비음(nasal) 음성을 포함하는 군에서 선택된 적어도 하나를 포함하는 것을 특징으로 하는, 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법.
제2항에 있어서, 상기 단계 (3)에서,
상기 제1 특징들의 제2 특징들로의 변경은,
상기 특이 음성이 갖는 피치를 미리 설정된 범위 내에서 안정화(stabilize)시키는 것을 포함하는 것을 특징으로 하는, 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법.
제2항에 있어서, 상기 단계 (3)에서,
상기 제1 특징들의 제2 특징들로의 변경은,
상기 특이 음성이 갖는 선스펙트럼 쌍(LSP)을 보정하여 스펙트럼 포락선(spectral envelope)을 재구성하는 것을 포함하는 것을 특징으로 하는, 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법.
제2항에 있어서, 상기 단계 (3)에서,
상기 제1 특징들의 제2 특징들로의 변경은,
상기 특이 음성이 갖는 특성 파형을 SEW(smoothly evolving waveform) 성분 및 REW(rapidly evolving waveform) 성분으로 분리하고, 상기 분리된 SEW 성분 및 REW 성분을 미리 설정된 범위 내에서 조절하는 것을 포함하는 것을 특징으로 하는, 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법.
제1항에 있어서,
상기 단계 (1) 내지 단계 (4)의 사이에는,
상기 원시 음성 데이터를 양자화 시키는 단계가 포함되지 않는 것을 특징으로 하는, 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법.
제1항에 있어서, 상기 단계 (3)에서는,
(3-1) 상기 추출된 음성 파라미터들에 대해, 미리 설정된 제1 음색 범위로부터 미리 설정된 제2 음색 범위로 변경하는 단계를 포함하고,
상기 제1 음색 범위 및 제2 음색 범위 중 어느 하나는 차가운 느낌의 음색 범위이고, 다른 하나는 따뜻한 느낌의 음색 범위인 것을 특징으로 하는, 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법.
제1항 내지 제7항 중 어느 한 항의 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법을 구현하기 위한 사용자 맞춤형 음성 보정 장치.