KR20070099372A

KR20070099372A - 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치

Info

Publication number: KR20070099372A
Application number: KR1020060030748A
Authority: KR
Inventors: 김현수
Original assignee: 삼성전자주식회사
Priority date: 2006-04-04
Filing date: 2006-04-04
Publication date: 2007-10-09
Also published as: KR100770839B1; US20070288232A1; US7912709B2

Abstract

본 발명은 일정한 주기로 존재하는 하모닉 피크의 특징을 이용하는 것으로, 입력되는 음성 또는 오디오 신호를 주파수 도메인으로 변환하여, 변환된 주파수 도메인 신호에서 첫 피치 주기 동안 최대의 피크를 찾아 첫 번째 하모닉 피크로 선택하고, 그 후 음성 신호의 각 피크 검색 범위에 존재하는 피크들 중 스펙트럼 값이 가장 큰 피크를 하모닉 피크로 선택하여 출력하고, 하모닉 피크들을 인터폴레이션하여, 하모닉 스펙트럼 포락선 정보를 추출하며, 비 하모닉 피크들을 인터폴레이션하여 비 하모닉 스펙트럼 포락선 정보를 추출하여 두 포락선 정보를 비교함으로써 유성음화 비율을 추출한다.

하모닉 피크, 스펙트럼 포락선, 유성음화 비율

Description

음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보, 유성음화 비율 추정 방법 및 장치{METHOD AND APPARATUS FOR ESTIMATING HARMONIC INFORMATION, SPECTRUM INFORMATION AND DEGREE OF VOICING INFORMATION OF AUDIO SIGNAL}

도1은 본 발명의 제1실시예에 따른 음성 신호의 피크 및 스펙트럼 정보 추정 장치의 블록 구성을 나타낸 도면,

도2는 본 발명의 제1실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 과정을 나타낸 도면,

도3은 본 발명의 실시예에 따른 피크 검색 범위를 나타낸 도면,

도4는 본 발명의 실시예에 따른 피크 검색 범위 설정 과정에 따른 예시도,

도5는 본 발명의 실시예에 따른 하이 오더 피크를 나타낸 도면,

도6은 본 발명의 실시예에 따라 검출된 하모닉 피크들을 인플레이션하여 생성되는 스펙트럼 포락선 정보를 나타내는 예시도,

도7은 본 발명의 제2실시예에 따른 음성 신호 피크 및 스펙트럼 정보 추정 장치의 블록 구성을 나타낸 도면,

도8은 본 발명의 제2실시예에 따른 음성 신호 피크 및 스펙트럼 정보 추정 과정을 나타낸 도면,

도9는 본 발명의 제2실시예에 따라 추출된 하모닉 피크 스펙트럼 포락선과 비하모닉 피크 스펙트럼 포락선의 에너지 비교를 나타낸 예시도.

본 발명은 음성 신호 처리에 관한 것으로, 특히 음성 신호에서 피크를 검출하고, 검출된 피크를 이용하여 하모닉 정보와 스펙트럼 정보 및 유성음화 비율(보이싱 정도) 정보를 검출하는 방법 및 장치에 관한 것이다.

모든 음성 신호를 사용하는 시스템은 주파수 도메인에서 음성 신호를 처리하면서, 스펙트럼 추정 정보를 사용한다. 그런데 여러 이유로 음성 신호의 스펙트럼 전체를 코딩, 전송할 수 없으므로, 스펙트럼에서 중요한 하모닉 요소들의 전체적인 정보인 스펙트럼 포락선(spectral envelope) 정보를 코딩하여 전송하고 이를 디코더에서 해석하여 사용하게 된다. 때문에 음성 신호에서 하모닉 정보 추출은 매우 중요하며, 이는 모든 음성 시스템의 성능에 큰 영향을 준다. 스펙트럼 추정은 음성 신호 처리에서 매우 중요한 정보이며, 특히 음성 코딩에서 합성된 음성의 음질은 스펙트럼 포락선이 추정되어 인코딩되는 스펙트럼 코딩의 성능에 의해 크게 좌우된다. 그리고 유성음, 무성음 정보 또한 음성 신호 분석에서 필수적이고 중요한 정보이다.

음성 신호의 하모닉 성분 분석 및 스펙트럼 추정을 위해 선형 예측 분석법(Linear prediction analysis)이 가장 많이 쓰이며, 이는 음성 신호가 가진 특성 을 파라미터만으로 표현함으로써 계산량을 줄일 수 있는 특징을 가진다. 음성 분석, 합성, 압축 등에 사용되는 이 방법은 소량의 파라미터로 음성 파형 및 스펙트럼 표현이 가능하고, 간단한 계산으로 파라미터 추출 가능하다는 장점이 있다. 현재의 샘플은 과거의 프리 샘플의 선형 조합으로 가정되어, 현재 값은 과거의 샘플 값으로부터 추정될 수 있다는 원리이다.

이러한 선형 예측 분석법은 선형 예측의 차수(order)에 따라 성능이 좌우되나 단지 차수를 높이는 방법으로는 계산량이 많을 뿐 아니라 성능에도 한계가 있다. 특히 선형 예측 분석법의 단점은 짧은 일정 시간 동안에는 신호가 안정적이라는 가정 하에서 동작한다는 점이다. 즉, 선형 예측 부호화(Linear predictive coding)는 성도 전달 함수(vocal tract transfer function)가 선형 전극 모델(linear all-pole model)에 의해 모델링 될 수 있다는 가정 하에서 동작하게 되므로, 이러한 방법은 특히 음성 신호의 전이 영역에서 급격하게 바뀌는 신호를 따라가지 못하게 된다. 특히 여성이나 어린이 화자의 경우에 나쁜 성능을 보이는 경향이 많다.

또한 선형 예측 분석법은 데이터 윈도우(data windowing) 적용시에도 문제점을 발생시킨다. 데이터 윈도우의 선택은 항상 시간과 주파수 축 레졸루션(resolution) 간의 교환 관계 속에 있게 된다. 예를 들어, 매우 높은 피치(pitch)의 음성의 경우, 선형 예측 분석법(대표적으로는 자기 상관( autocorrelation) 방법과 공분산(covariance) 방법 등이 있다.)에서는 하모닉들의 넓은 거리 때문에 스펙트럼의 포락선보다는 개별적인 하모닉들을 따라가게 되는 문 제점이 있다.

본 발명은 일반적으로 쓰이는 스펙트럼 추정 방법의 한계와 가정들을 극복하기 위하여, 음성 신호에 대한 아무런 가정을 하지 않고, 계산에 의한 예측 추정이 아닌 신호 자체의 구조를 분석하여 간단하고 정확하게 음성 신호 하모닉 정보와 음성 신호 스펙트럼 정보 및 보이싱 정보를 추정해내는 방법 및 장치를 제공하는 것이다.

그리고 본 발명은 잡음 보다 향상 높이 있는 하모닉 피크 정보를 이용함으로써, 잡음에 매우 견고한 성능을 가지는 음성 신호 피크와 음성 신호 스펙트럼 정보 및 보이싱 정보를 추정해내는 방법 및 장치를 제공하는 것이다.

또한 본 발명의 하모닉 피크 추출에 따른 포락선 검출은, 검출된 하모닉 스펙트럼 포락선과, 추출된 하모닉이 아닌 나머지 피크들로 이루어진 비 하모닉 스펙트럼 간의 비율을 이용하여 보이싱 정보를 검출하는 음성 신호 피크와 음성 신호 스펙트럼 정보를 추정해내는 방법 및 장치를 제공하는 것이다.

상기의 목적을 달성하기 위한 본 발명은, 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보 추정 방법에 있어서, 입력된 음성 신호를 주파수 도메인으로 변환하는 과정과, 상기 음성 신호의 피치 예측값을 계산하고, 상기 피치 예측값을 이 용하여 피크 검색 범위를 결정하는 과정과, 상기 음성 신호에 다수의 상기 피크 검색 구간을 설정하여, 상기 각각의 피크 검색 범위에 존재하는 피크들을 검출하고, 상기 검출된 피크들 중 가장 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 상기 음성 신호의 하모닉 정보로 출력하는 과정과, 상기 하모닉 피크들을 인터폴레이션(interpolation)하여 하모닉 스펙트럼 포락선을 생성하여 상기 음성 신호의 스펙트럼 포락선 정보로 출력하는 과정을 포함함을 특징으로 한다.

그리고 본 발명은 상기 각각의 피크 검색 범위에서 검출된 상기 피크들 중 상기 하모닉 피크로 결정된 피크를 제외한 피크들을 인터폴레이션(interpolation)하여 비 하모닉 스펙트럼 포락선을 생성하여 출력하는 과정과, 상기 하모닉 스펙트럼 포락선 에너지와 상기 비 하모닉 스펙트럼 포락선 에너지를 비교하여, 상기 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율을 검출하는 과정을 더 포함함을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다. 도면에서 동일한 구성요소들에 대해서는 비록 다른 도면에 표시되더라도 가능한 한 동일한 참조번호 및 부호로 나타내고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.

본 발명은 일정한 주기로 존재하는 하모닉 피크의 특징을 이용하는 것으로, 입력되는 음성 또는 오디오 신호를 주파수 도메인으로 변환하여, 변환된 주파수 도 메인 신호에서 첫 피치 주기 동안 최대의 피크를 찾아 첫 번째 하모닉 피크로 선택하고, 그 후 음성 신호의 각 피크 검색 범위에 존재하는 피크들 중 스펙트럼 값이 가장 큰 피크를 하모닉 피크로 선택한다. 그리고 이렇게 선택된 하모닉 피크를 인터폴레이션하하여, 포락선 정보를 추출한다. 상기 피크 검색 범위는 이전 하모닉 피크로 선택된 피크를 기준으로 설정되며, 상기 피크 검색 범위는 피치 예측 값(Coarse Pitch:CP) 정보를 이용해 결정된다. 그리고 피치 예측값을 이용하여 검색 범위를 결정하는 경우 피치 측정값(True Pitch:TP) 정보에 대한 신뢰 구간(confidence interval)을 고려한다.

상기한 본 발명의 제1실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보 추정 장치를 도1을 참조하여 설명한다. 도1은 본 발명의 제1실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보 추정 장치의 블록 구성을 나타낸 도면이다. 도1을 참조하여, 본 발명의 제1실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치는 음성 신호 입력부(10), 주파수 도메인 변환부(20), 하모닉 피크(harmonic peak) 검출부(30), 검색 범위 설정부(40), 하이 오더 피크(high order peak) 확인부(50), 스펙트럼 포락선 검출부(60), 음성 처리부(70)를 포함한다.

음성 신호 입력부(10)는 마이크(MIC:Microphone) 등으로 구성될 수 있으며 음성 신호를 입력받아 주파수 도메인 변환부(20)로 출력한다. 주파수 도메인 변환부(20)는 입력된 음성 신호를 FFT(Fast Fourier Transform) 등을 이용하여 시간 도메인 상의 음성 신호를 주파수 도메인 상의 음성 신호로 변환하여 하모닉 피크 검 출부(30)와 검색 범위 결정부로 출력한다. 이때, 주파수 도메인 변환부(20)는 주파수 도메인 상의 음성 신호의 STFT(Short-Time Fourier Transform) 절대값을 추출하여 출력한다.

하모닉 피크 검출부(30)는 검색 범위 결정부(40)로부터 입력되는 피크 검색 범위를 이용해 입력되는 음성 신호의 실질적인 피크 검색 범위를 설정하고, 설정된 피크 검색 범위 상에 존재하는 다수의 피크들과 각 피크에 대응하는 스펙트럼 값을 검출하며, 검출된 다수의 피크 값들 중에서 가장 큰 스펙트럼을 가지는 피크를 하모닉 피크로 결정한다. 피크 검색 범위에 존재하는 피크를 검출하는 방식은 종래의 여러 방식이 사용될 수 있다. 예를 들어, 임의의 한 점을 기준으로 앞, 뒤 값을 비교했을 때 증가하고, 감소하거나, 임의의 한 점을 기준으로 앞, 뒤 값 간의 기울기가 +에서 -로 바뀐 다면 임의의 한 점은 피크인 것이다. 하모닉 피크 검출부(30)는 입력되는 음성 신호에서 최초 하모닉 피크를 검출할 시에는 음성 신호 시작 지점부터 피크 검색 범위를 설정할 수 있고, 그 이외에는 가장 최근에 검출된 하모닉 피크를 시작점으로 하여 피크 검색 범위를 계속 설정하여, 음성 신호의 밴드 대역폭 끝까지 하모닉 피크를 검출해 낸다. 하모닉 피크 검출부(30)는 하모닉 피크로 결정된 피크를 음성 처리부(70)와 스펙트럼 포락선 검출부(60)로 출력하여, 상기 음성 신호의 하모닉 정보를 출력한다.

검색 범위 결정부(40)는 주파수 도메인 변환부(20)에서 출력되는 음성 신호들을 이용하여 피치 예측값을 계산하고, 계산된 피치 예측값(Coarse Pitch, 이하 "CP"라 함.)을 이용하여 피크 검색 범위를 결정하여, 하모닉 피크 검출부(30)로 출 력한다. 상기 피크 검색 범위는 음성 신호 중 하모닉 피크가 존재할 것으로 예상되는 구간으로서, 본 발명의 실시예에 따라 전체 구간과, 시프팅 구간과, 전체 구간에서 시프팅 구간을 제외한 구간인 실제 검색 구간으로 구성된다. 상기 시프팅 구간은 음성 신호상에서 하모닉 피크 검출부(30)에 의한 피크 검출이 이루어지지 않는 구간이고, 상기 실제 검색 구간은 음성 신호상에서 하모닉 피크 검출부(30)에 의해 실질적으로 피크들이 검출되는 구간이며, 상기 전체 구간과 시프팅 구간은 음성 신호의 상태에 따라 유동적으로 설정될 수 있다. 때문에, 상기 실제 검색 구간이 적게 설정될수록 하모닉 피크 검출부(30)의 연산량이 감소될 수 있다.

상기한 피크 검색 범위에 대한 예시도를 도3에 도시하였다. 도3은 본 발명의 실시예에 따른 피크 검색 범위를 나타낸 도면이다. 도3을 참조하여, 피크 검색 범위에서 전체 구간은 b가 되고, 시프팅 구간은 a가 되며, 실제 검색 구간은 b-a 구간이 된다.

도3의 그래프는 주파수 도메인을 나타내고 있으며, 가로축은 주파수를 나타내며, 세로축은 스펙트럼을 나타낸다. 이에 따라, 첫 번째 하모닉 피크로 선택된 피크의 스펙트럼 값과 주파수를 (W₁, A₁)이라고 가정하면, 다음 하모닉 피크들은 (W_k, A_k)라고 표현되며(k=2,3,...,), 각각의 하모닉 피크는 피크 검색 범위에 포함되는 (W_k-1+a, W_k-1+b) 사이의 구간에서 가장 큰 스펙트럼 값을 가지는 피크로 검출된다. 만약 피크 검색 범위에서 진정한 하모닉 피크가 찾아지지 않을 경우, 가장 큰 끝점의 스펙트럼이 사용되며, 빈 센터(bin center) Wk-1+피치 예측값(CP)부터 피크 검색 범위가 재설정될 수 있으며, 하모닉 피크 검출 과정이 반복된다.

상기 피크 검색 범위는 하모닉 피크가 존재할 것으로 예측되는 구간이기 때문에 최적으로 결정되어야 하며, 이에 따라 본 발명은 피크 검색 범위를 피치 예측값 CP를 이용하여 결정한다. 본 발명의 실시예에서는 피크 검색 범위의 시프팅 구간 a의 디폴트 값은 0.5CP, 전체 구간 b의 디폴트 값은 1.5CP로 설정하고, 음성 신호에 따라 피크 검색 범위의 시프팅 구간 a와 전체 구간 b는 CP를 이용해 설정할 수 있도록 구성할 수 있다. 이렇게 CP를 이용하여 검색 범위를 결정하는 경우 피치 측정값(True Pitch, 이하 "TP"라고 함.) 정보에 대한 신뢰 구간(confidence interval)을 고려한다. 왜냐하면, CP는 예측되어지는 피치 값이므로, TP와 일치하지 않을 수 있기 때문이다.

예를 들어, 도3을 참조하여, TP가 12.8이고, 피크 검색 범위의 전체 구간 b가 1.5CP 인 경우, 시프팅 구간 a와 CP를 변화 시키는 경우 시프팅 구간 a의 영향, 시프팅 구간 a의 선택에 따른 CP의 영향, 의미 있는 시프팅 구간 a의 선택 범위를 분석하면 다음과 같다.

CP가 13으로 예측되고, 시프팅 구간 a를 0≤ a ≤0.9CP로 설정하여 하모닉 피크를 검출하고, 검출된 하모닉 피크를 인터폴레이션하여 검출한 스펙트럼 포락선은 왜곡이 거의 발생하지 않는다. 하지만, 시프팅 구간 a가 a CP 보다 크게 설정된 경우 올바른 하모닉 피크를 검출할 수 없기 때문에 검출되는 하모닉 피크로 이루어진 스펙트럼 포락선은 많은 왜곡을 가지게 된다. 마찬가지로, CP가 16으로 예측된 경우, 시프팅 구간 a가 0.8CP 보다 크게 설정되어도 실제 하모닉피크가 실제 검색 범위에 속해지지 않으므로, 검출된 하모닉 피크와 관련된 스펙트럼 포락선 왜곡 정도가 매우 급격히 커지게 된다.

때문에, 첫 번째 하모닉 피크를 선택한 후 시프팅 구간 a는 TP 보다는 작아야 (i.e. a < TP) 다음 하모닉 피크를 정확히 선택할 수 있게 되는 것이다. 만약 시프팅 구간 a가 x·CP 이면, 시프팅 계수 x는 0 보다 크거나 같고, TP/CP 보다는 작아야한다. 그리고 CP가 크게 예측될수록, 시프팅 계수 x는 더 작아야 하는 것이다. 상기 예에서와 같이 TP가 12.8일 경우에 CP가 13또는 16으로 예측되면, 시프팅 계수 x는 각각 1 또는 0.8보다는 작아야 한다.

또한, 여러 가지 시프팅 구간 a 값에 대한 CP 값을 변화시켜 보면서, 각 경우에 대해 CP와, 스펙트럼 포락선의 왜곡과의 관계를 살펴 볼 수 있다. 시프팅 구간 a가 0일 경우, CP에 대한 민감도는 줄어드나, 계산량은 늘어나게 된다. a가 0보다 같거나 크고, 0.7 CP보다 작거나 같으면, 왜곡 정도의 증가는 방지하면서도 계산량을 일정한 정도 이하로 유지할 수 있게 된다. 이때, 실제 검색 구간이 TP 길이의 두 배 이상이 되지 않도록 유지하는 것이 매우 중요하다.

이러한 분석에 따라, 최적의 실제 검색 구간을 결정하기 위한 이론적 설명이 가능하다. 최소의 에러를 위하여 CP 범위에 대한 일정한 한계를 이론적으로 결정할 수 가 있는 것이다. 이를 위하여 TP, CP사이의 관계를 고려하여야 한다. 이 때, 본 발명의 실제 검색 구간에 대한 신뢰 구간(confidence interval)의 개념을 도입하는 것이 필요하다. 상기 신뢰 구간은 실제 검색 구간에 꼭 포함되어야하는 구간으로써, 도3과 도4를 참조하여 설명하면 다음과 같다. 도4는 본 발명의 실시예에 따른 피크 검색 범위 설정 과정에 따른 예시도이다.

도4를 참조하여, 신뢰 구간은 주파수 축의 (m·CP, M·CP)로 나타낼 수 있다. 도4에서 TP는 의미 있도록 정해져 있다 (e.g. with 99.9% confidence) 라고 가정한다. 이때, m과 M의 범위는 다음 수학식1과 같다.

0 < m < 1 < M

실제 m, M의 값들은 CP 측정자 (coarse pitch estimator)의 성질에 의해 결정되며, 정확한 CP 측정자는 m, M의 값을 1과 매우 가깝게 가질 것이다. 이 때, 실제적으로는 피크 검색에 있어서, 피크 검색 범위는 다음과 같은 조건을 만족해야한다. 첫 번째 조건은 실제 검색 구간에 최소한 다음 하모닉 피크가 존재해야한다는 것이고, 두 번째 조건은 실제 검색 구간에 다음 하모닉 피크를 유일하게 존재해야 한다는 것이다.

첫 번째 조건이 만족되지 않으면, 에러 발생률이 매우 커지게 되고, 두 번째 조건이 만족되지 않으면 잘 못된 피크 선택에 의한 에러가 생길 수 있다. 첫 번째 조건을 만족하기 위한 피크 검색 범위의 전체 구간 b는 TP 보다 크게 설정되고, 시프팅 구간 a는 TP 보다 작게 설정되어야 하며, 두 번째 조건을 만족하기 위해 전체 구간 b는 2TP보다 작게 결정되어야 한다. 이들은 동시에 표현하면 다음 수학식2와 같이 표현할 수 있다.

TP < b < 2TP and 0 < a < TP

여기서, 피치 검출 과정과 연결되는 중요한 분석으로 몇 가지 특수한 경우를 고려한다. CP 추정량에서 피치 분할이 가능하다면, CP는 TP, TP/2에 가까우며, 따라서 m, M, 시프팅 구간 a, 전체구간 b의 범위는 다음 수학식3과 같이 결정된다.

M >2,

m < 1 and M ≥ 2m,

b > 2CP,

a < CP

이와 같은 범위는 첫 번째 조건은 만족하고, 두 번째 조건은 만족하지 않는 것이다. 때문에, 가끔씩 잘못된 피크가 선택될 수 있고 그에 따라 분할 구간에서 매우 작은 스펙트럼 왜곡이 발생할 수 있다.

다른 예로, 피치 중복이 발생하면, CP는 TP나 2TP에 가까우며, 따라서 m, M, 시프팅 구간 a, 전체구간 b의 범위는 다음 수학식4와 같이 결정된다.

M >2,

M> 2m

m < 1/2,

b > CP,

a < CP/2

이 역시 첫 번째 조건은 만족하지만, 두 번째 조건은 만족하지 않는다.

만약 피치 분할과 중복이 모두 일어날 수 있으면, CP는 2TP, TP, TP/2 중 하나와 가깝게 되고, m, M, 시프팅 구간 a, 전체구간 b의 범위는 다음 수학식5와 같이 결정된다.

M >2,

M>2m,

m < 1/2,

b > 2CP,

a < CP/2.

이 역시 첫 번째 조건은 만족하나, 두 번째 조건은 만족하지 않는다.

따라서 상기한 첫 번째 조건과 두 번째 조건을 모두 만족하기 위해 최적의 m, M, 전체구간 b는 다음 수학식6과 같이 정해져야 한다.

M = 2m,

b= M·CP = 2m·CP

여기서 시프팅 구간 a의 상한선은 m에 의해 결정된다. CP가 매우 정확하고 잡음이 없는 경우가 아니라면 0.7CP 이하여야 한다. 피치 더블링을 고려하려면, 안전하게 시프팅 구간 a는 1/2CP 보다 작거나, 또는 0.2CP에서 0.4CP 보다 작게 선택되어져야한다. 그리고 시프팅 구간 a의 하한선은 계산량을 고려하여 결정되어야 한다.

피치 분할이 없는 경우, 전체 구간 b의 최적값은 M·CP, 즉, 1.33CP에서 1.5CP 값으로 설정되는 것이 바람직하다. 피치 분할이 가능한 경우에는 2.3CP에서 2.5CP 정도가 설정되는 것이 바람직하다. 이러한 설정값은 실제로 실험을 통해서 설정될 수 있다.

따라서, 첫 번째 조건과 두 번째 조건을 만족하는 m, M, 시프팅 구간 a, 전체구간 b의 범위는 다음과 같이 구할 수 있다.

첫 번째 조건을 만족하기 위해서는 전체 구간 b는 M·CP보다 크고, 시프팅 구간 a는 m·CP보다 작아야한다. 즉, 실제 검색 구간이 TP를 위한 신뢰 구간(confidence interval)을 포함해야 한다. 두 번째 조건을 이루기 위해서는 전체 구간 b는 2m·CP보다 작아야하며, 두 조건을 모두 만족하기 위해 전체 구간 b는 M·CP 보다 크고 2m·CP보다 작아야하며, 시프팅 구간 a는 0보다 크고 m·CP보다 작아야 한다. 이때, M은 2m보다 작아야한다. 이를, 수학식 7과 같이 나타낼 수 있다.

M·CP<b< 2m·CP,

0<a<m·CP,

단, M<2m, 0 < m < 1 < M

시프팅 구간 a의 하한선 설정은 계산량 이 외는 영향을 미치지 않으나, 0.7m·CP 정도가 계산량을 최적화 한다. 검색 범위 설정부(40)에 의한 CP 계산이 매우 정확하거나, 잡음이 없는 경우가 아닌 경우에는 0.7m·CP를 a의 하한선의 디폴트 값으로 사용하는 것이 좋다.

검색 범위 설정부(40)에 의한 CP 계산이 매우 정확하여, m(< 1)과 M(> 1)이 1에 가깝고, 피치 분할과 피치 더블링이 잘 일어나지 않으면 실제 검색 구간은 크게 줄어들 수 있다. 즉, 전체 구간 b를 M·CP의 근사치로 결정하고, 시프팅 구간 a를 m·CP와 근사치로 결정한다. 이렇게 전체 구간 b의 최대 하한선과, 시프팅 구간 a의 최대 상한선을 사용하여, 피크 검색 범위를 설정하면 전체 계산량이 크게 감소한다. 그러나 잡음이 있을 때는 실제 검색 구간을 더 크게 결정해야 한다.

검색 범위 결정부(40)는 상기한 경우들을 고려하여 입력되는 음성 신호에 따라 피크 검색 범위를 결정한다. 이때, 검색 범위 결정부(40)는 하모닉 피크 검출부(30)가 입력된 신호에 대해 최초 하모닉 피크를 검출해야하는 경우에는 CP를 전체 구간 b로 설정하고, 시프팅 구간 a를 0으로 설정하여, 실제 검색 구간이 CP가 되도록 피크 검색 범위를 결정하여 하모닉 피크 검출부(30)로 출력하고, 그 이외의 경우에는 상기한 조건들을 고려하여 CP를 이용한 시프팅 구간과 검색 구간이 결정되는 피크 검색 범위를 결정하여 하모닉 피크 검출부(30)로 출력한다.

하이 오더 피크 확인부(50)는 하모닉 피크 검출부(30)에서 출력되는 하모닉 피크가 2차 이상의 하이 오더 피크인지 확인하여, 하모닉 피크 검출부(30)와 음성 처리부(70)로 통지한다. 실제 하모닉 피크는 최소 2차 이상의 하이 오더 피크로 이루어지고, 상기 피크 검색 범위 설정시 에러가 발생할 수도 있기 때문에, 하모닉 피크 검출부(30)에 의해 하모닉 피크로 선택된 피크가 2차 이상의 하이 오더 피크인지 확인해줄 필요가 있고 이에 따라 하이 오더 피크 확인부(50)가 구비된다. 하지만, 본 발명에 따라 하모닉 피크 검출부(30)에서 하모닉 피크로 출력되는 피크는 피크 검색 범위 내에 존재하는 모든 피크 중에서 가장 높은 스펙트럼을 가지는 피크이기 때문에, 기본적으로 2차 이상의 하이 오더 피크이다. 따라서 상기 하이 오더 피크 확인부(50)는 본 발명의 실시예에 따라 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치에 선택적으로 포함될 수 있다.

본 발명에서 상기 하이 오더 피크란 일반적인 개념의 피크를 1차 오더 피크라고 했을 때, 1차 오더 피크로 구성된 신호에서 찾아낸 새로운 피크들을 의미하는 것이다. 즉, 1차 오더 피크들의 피크를 2차 오더 피크라고 정의하고, 마찬가지로 3차 오더 피크는 2차 오더 피크로 이루어진 신호들의 피크인 것이다. 이러한 개념으로 하이 오더 피크를 정의하게 된다. 따라서 2차 오더 피크를 찾기 위해서는 단순히 1차 오더 피크들을 새로운 타임 시리즈(time series)로 보고 그 타임 시리즈들의 피크를 찾아내면 되는 것이다. 이를 도5에 도시하였다. 도5는 본 발명에 따른 하이 오더 피크를 나타낸 도면이다. 도5의 (a)는 1차 오더 피크에 대한 도면이다. 하모닉 피크 검출부(30)가 실제 검색 구간에서 검출하는 최초 피크들은 도5의 (a)에 도시된 바와 같이 1차 오더 피크 P1이다. 그리고 도5의 (b)에 도시된 바와 같이 각 1차 오더 피크 P1들을 연결했을 때 피크가 되는 피크를 도5의 (c)에 도시된 바와 같이 2차 오더 피크 P2로 정의한다. 본 발명에서 하모닉 피크 검출부(30)가 하모닉 피크로 선택하는 피크들은 이러한 2차 오더 피크 이상의 피크들이다. 도5에서는 2차 오더 피크까지만 정의하는 경우를 도시하였지만, 2차 오더 피크 사이의 피크가 3차 오더 피크로 정의될 수 있으며, 이러한 원리에 따라 임의의 N(N은 자연수)차 오더 피크까지 정의 가능하다.

이러한 하이 오더 피크들은 음성, 오디오 신호의 특징 추출에서 매우 효과적인 통계값을 보이게 된다. 본 발명에서 제시하는 하이 오더 피크의 특성으로는 낮은 차수의 피크들 보다 평균적으로 높은 레벨(level)을 가지고, 차수가 높을 수 록 적은 횟수로 나타나게 된다. 예를 들어, 2차 오더 피크는 1차 오더 피크 보다 개수가 적다. 각 차수 피크들의 출현 비율은 음성, 오디오 신호 특징 추출에 매우 유용하게 쓰일 수 있는데, 특히 2차 오더 피크와 3차 오더 피크들은 피치 추출 정보를 가지고 있게 된다. 또한 2차 오더 피크와 3차 오더 피크들 사이의 시간이나 샘플링 포인트(sampling point) 개수가 음성, 오디오 신호 특징 추출에 대한 많은 정보를 가지고 있다.

상기한 하이 오더 피크들은 다음과 같은 법칙을 가진다.

1. 연속적인 피크(밸리(valley))들 사이에는 단하나의 밸리(피크)만이 존재할 수 있다.

2. 상기 법칙 1은 각 차수의 피크(밸리)에 적용된다.

3. 하이 오더 피크(밸리)는 더 낮은 차수의 피크(밸리) 보다는 적게 존재하며, 하이 오더 피크(밸리)는 더 낮은 차수의 피크(밸리)의 사이(subset)에 존재한다.

4. 어떠한 두개의 연속적인 하이 오더 피크(밸리)사이에도 항상 하나 이상의 더 낮은 차수의 피크(밸리)가 존재한다.

5. 하이 오더 피크(밸리)는 더 낮은 차수의 피크(밸리) 보다는 평균적으로 더 높은(낮은) 레벨(level)을 가진다.

6. 특정 기간의 신호 동안(예컨대 한 프레임 동안), 단 하나의 피크와 밸 리가 존재하는(예컨대 한 프레임 내의 최대, 최소값) 오더가 존재한다.

이러한 하이 오더 피크 또는 밸리들은 음성, 오디오 신호의 특징 추출에서 매우 효과적인 통계값으로 이용될 수 있으며, 특히 각 오더 피크들 중 2차 오더 피크들과 3차 오더 피크들은 음성, 오디오 신호의 피치(pitch) 정보를 가지고 있다. 또한 2차 오더 피크와 3차 오더 피크들 사이의 시간이나 샘플링 포인트 개수가 음성, 신호 특징 추출에 대한 많은 정보를 가지고 있다.

도1로 돌아가, 본 발명의 제1실시예에 따라 하모닉 피크 검출부(20)는 상기한 바와 같이 피크 검색 범위의 실제 검색 구간에서 검출되는 피크들 중 가장 큰 스펙트럼 값을 가지는 피크, 즉 2차 이상의 하이 오더 피크를 하모닉 피크로 선택하여 스펙트럼 포락선 검출부(60)와, 음성 처리부(70)로 출력한다.

그리고 스펙트럼 포락선 검출부(60)는 본 발명에 따라 하모닉 피크 검출부(20)에서 입력된 하모닉 피크들을 인터폴레이션하여 도6에 도시된 것과 같은 스펙트럼 포락선을 생성하여, 스펙트럼 포락선 정보를 추출하여 음성 처리부(70)로 출력한다. 도6은 본 발명의 실시예에 따라 검출된 하모닉 피크들을 인플레이션하여 생성되는 스펙트럼 포락선 정보를 나타내는 예시도이다.

때문에, 상기 하이오더 피크 확인부(50)는 하모닉 피크 검출부(20)에서 하모닉 피크로 선택되어 출력된 피크들 중 2차 이상의 하이 오더 피크가 아닌 피크들이 포함되지 않도록 하모닉 피크 검출부(20)를 제어한다. 즉, 스펙트럼 포락선 검출부(60)가 인터폴레이션을 수행하기 전에 하모닉 피크 검출부(20)가 선택한 피크 중 2차 이상의 하이 오더 피크들만 선택하여 실제 하모닉 피크(true harmonic peak)들만을 검출하도록 하이오더 피크 확인부(50)는 실제 하모닉 피크들을 검출하고, 잘못된 작은 노이즈 피크들은 제거하는 동작을 수행함으로써, 스펙트럼 포락선 검출부(60)에 의해 검출되는 스펙트럼 포락선 정보의 디스토션을 방지하는 것이다.

음성 처리부(70)는 하모닉 피크 검출부(20)와 스펙트럼 포락선 검출부(60)로부터 입력되는 하모닉 피크들과, 하모닉 정보와, 스펙트럼 포락선 정보를 이용하여 음성 코딩, 인식, 합성, 강화 등의 오디오 처리 과정을 수행한다.

상기와 같이 구성되는 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치는 도2에 도시된 과정에 따라 음성 신호의 하모닉 피크와 스펙트럼 포락선 정보를 추정한다. 도2는 본 발명의 실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 과정을 나타낸 도면이다. 도2를 참조하여, 201단계에서 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치의 음성 신호 입력부(10)는 음성 신호가 입력되면 이를 주파수 도메인 변환부(20)로 출력한다. 주파수 도메인 변환부(20)는 203단계에서 입력된 음성 신호를 주파수 도메인으로 변경하여, 검색 범위 결정부(40)와 하모닉 피크 검출부(30)로 출력한다. 205단계에서 검색 범위 결정부(40)는 입력된 음성 신호의 피치를 계산하여 CP(피치 예측값)를 생성하고, 실제 검색 구간이 CP로 이루어지도록 피크 검색 범위를 설정하여 하모닉 피크 검출부(30)로 출력한다. 하모닉 피크 검출부(30)는 입력된 피크 검색 범위에 따라 음성 신호 처음부터 CP에 해당하는 구간에 존재하는 모든 피크들을 검출하고, 검출된 피크 중에서 스펙트럼 값이 제일 큰 피크를 첫 번째 하모닉 피크로 추출한다. 이후 207단계에서 검색 범위 설정부(40)는 상기 계산된 CP를 이용하여 적정 전체 구간과 시프팅 구간을 가지는 피크 검색 범위를 설정하여 하모닉 피크 검출부(30)로 출력한다. 하모닉 피크 검출부(30)는 209단계에서 최근 추출된 하모닉 피크를 기준으로 피크 검색 범위를 설정하고, 해당 피크 검색 범위 내에 존재하는 모든 피크를 검출한다. 그리고 하모닉 피크 검출부(30)는 검출된 피크들 중에서 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 출력함으로써, 음성 신호에 존재하는 하모닉 정보를 출력한다. 이때 하이 오더 피크 확인부(50)는 하모닉 피크 검출부(30)가 2차 이상의 하이 오더 피크를 하모닉 피크로 검출하도록 하모닉 피크 검출부(30)를 제어한다. 즉, 하모닉 피크 검출부(30)가 하모닉 피크로 결정한 피크가 2차 이상의 하이 오더 피크인지 확인하여, 2차 이상의 하이 오더 피크이면 해당 피크를 하모닉 피크로 출력하도록 하모닉 피크 검출부(30)를 제어한다. 하모닉 피크 검출부(30)는 211단계에서 포락선 정보를 검출하는 경우에는 하모닉 피크로 결정한 피크를 스펙트럼 포락선 검출부(60)로 출력하고, 하모닉 피크 정보를 이용해야하는 경우에는 215단계에서 하모닉 피크로 결정한 피크를 음성 처리부(70)로 출력한다. 213단계에서 스펙트럼 포락선 검출부(60)는 검출된 하모닉 피크들을 인터폴레이션하여 스펙트럼 포락선을 검출하여, 스펙트럼 포락선 정보를 음성 처리부(70)로 출력한다. 음성 처리부(70)는 하모닉 피크 검출부(20)와 스펙트럼 포락선 검출부(60)로부터 입력되는 하모닉 피크들과 스펙트럼 포락선 정보를 이용하여 음성 코딩, 인식, 합성, 강화 등의 오디오 처리 과정을 수행한다.

상기한 바와 같이 본 발명의 제1실시예에 따라 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치는 음성 신호에서 하모닉 피크가 존재할 가능성이 있는 피크 검색 범위를 설정하여, 설정된 검색 범위에 존재하는 피크들을 검출하고, 검출된 피크 중에서 가장 큰 값을 가지는 피크를 하모닉 피크로 검출함으로써, 하모닉 피크를 적은 연산으로 정확하게 검출하고, 검출된 하모닉 피크를 인터폴레이션하여 간단한 과정으로 스펙트럼 포락선 정보를 검출할 수 있다.

한편, 본 발명의 제2실시예에 따라 상기와 같은 과정으로 하모닉 피크와 하모닉 피크를 제외한 비 하모닉 피크를 검출하고, 각각의 스펙트럼 포락선 정보를 검출, 비교하여 유성음화 비율을 검출하는 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치를 구성할 수도 있다. 다시 말해, 본 발명의 제2실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치는 하모닉 피크와, 하모닉 스펙트럼 포락선 정보와, 비 하모닉 스펙트럼 포락선 정보와, 유성음화 비율을 검출하여, 오디오 처리를 할 수 있다.

상기한 본 발명의 제2실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치의 구성을 도7에 도시하였다. 도7은 본 발명의 제2실시예에 따른 음성 신호 피크 및 스펙트럼 정보 추정 장치의 블록 구성을 나타낸 도면이다.

도7을 참조하여, 본 발명의 제2실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보 추정 장치는 음성 신호 입력부(10), 주파수 도메인 변환부(20), 하모닉 피크 검출부(120), 검색 범위 설정부(40), 하이 오더 피크 확인부(50), 비 하모닉 스펙트럼 포락선 검출부(80), 하모닉 스펙트럼 포락선 검출 부(90), 유성음화 비율 검출부(100), 음성 처리부(110)를 포함한다.

상기 음성 신호 입력부(10), 주파수 도메인 변환부(20), 검색 범위 설정부(40), 하이 오더 피크(high order peak) 확인부(50)의 구성과 동작 과정은 상기 도1에 도시된 각 대응 구성 요소와 동작 과정과 유사하다.

하모닉 피크 검출부(120)는 검색 범위 결정부(40)에 의해 설정된 피크 검색 범위의 실제 검색 구간에 존재하는 모든 피크를 검출한다. 그리고 검출된 피크들 중 최대 크기의 스펙트럼을 가지는 피크를 하모닉 피크로 결정하여 출력함으로써, 음성 신호의 하모닉 정보를 음성 처리부(110)와 음성 처리부(110)로 출력하고, 상기 검출된 피크들 중 하모닉 피크로 결정한 피크가 아닌 다른 피크들은 비 하모닉 피크로 결정하여 비 하모닉 스펙트럼 포락선 검출부(80)로 출력한다.

비 하모닉 스펙트럼 포락선 검출부(80)는 입력된 비 하모닉 피크를 인터폴레이션하여 비 하모닉 스펙트럼 포락선을 검출하고, 검출된 비 하모닉 스펙트럼 포락선 정보를 유성음화 비율 검출부(100)로 출력한다.

하모닉 스펙트럼 포락선 검출부(90)는 입력된 하모닉 피크를 인터폴레이션하여 하모닉 스펙트럼 포락선을 검출하고, 검출된 하모닉 스펙트럼 포락선 정보를 유성음화 비율 검출부(100)와 음성 처리부(110)로 출력한다.

유성음화 비율 검출부(100)는 입력되는 비 하모닉 스펙트럼 포락선과 하모닉 스펙트럼의 에너지 차이를 비교하여 유성음화 비율(degree of voicing)을 검출한다. 상기 유성음화 비율은 음성신호가 유성음에 얼마나 가까운지를 나타내는 비율로서, 유성음화 비율이 높을 수 록 유성음에 가까운 것이다.

일반적으로 무성음 또는 잡음을 구성하는 피크들은 스펙트럼 값이 큰 차이를 가지지 않는 것에 반하여, 유성음을 구성하는 하모닉 피크들의 스펙트럼 값과 비 하모닉 피크들의 스펙트럼 값은 확연한 차이를 가지며 하모닉 피크의 스펙트럼 값이 비 하모닉 피크의 스펙트럼 값에 비해 큰 값을 가진다. 이는 어떤 음성 신호를 구성하는 하모닉 피크들의 스펙트럼 값이 비 하모닉 피크들의 스펙트럼 값보다 클수록 유성음일 가능성이 많다는 것을 의미한다. 본 발명에 따른 유성음화 비율 검출부(100)는 이러한 무성음과 유성음의 특징을 이용하여 음성 신호의 유성음 정도를 검출하는 것이다. 즉, 유성음화 비율 검출부(100)는 음성 신호를 구성하는 피크들 중 하모닉 피크로 선택된 피크들을 인터폴레이션하여 생성한 스펙트럼 포락선의 에너지와, 동일 음성 신호를 구성하는 피크들 중 하모닉 피크로 선택되지 않은 다른 피크들, 즉 비 하모닉 피크들을 인터폴레이션하여 생성한 스펙트럼 포락선의 에너지를 비교하여, 두 에너지 간의 차이가 크면 높은 유성음화 비율을 출력하고, 두 에너지 간의 차이가 작으면 낮은 유성음화 비율을 출력하여, 해당 음성 신호의 유성음화 정도를 나타낸다. 본 발명의 실시예에 따라 비 하모닉 스펙트럼 포락선을 Wn이라 하고, 하모닉 스펙트럼 포락선을 Sn이라고 할 때, 유성음화 비율 D는 다음과 같은 수학식8과 같이 계산되어 출력된다.

상기 수학식8에 의해 계산된 유성음화 비율 D (>1) 와 (환경에 따라 적응적 으로 결정되는) 유무성음 구분 문턱값 (threshold)의 비교에 따라 더 크면 유성음, 더 작으면 무성음 또는 잡음으로 결정된다. 이 때 문턱값은 사용되는 특정 시스템과 환경에 따라 (히스토 그램 분석 등의 방법에 의해) 적응적으로 결정될 수 있다.

이러한 문턱값 설정에 의한, 유무성음 구분은 필수적인 사항이 아니며, 시스템의 요구 사항에 따라 사용 여부가 결정된다. 일반적인 응용에서는 문턱값의 사용 없이, D 값이(1에 가까운) 작은 값이면 무성음이나 잡음에 가깝고, D값이 큰 값일수록 유성음에 가깝다고 할 수 있으며, 본 발명에서는 이러한 유성음화 정도(degree of voicing) 정보 추출을 효율적으로 제공할 수 있는 방법을 제시하고 있다.

본 발명의 제2실시예에 따라 생성된 임의의 음성신호의 비 하모닉 스펙트럼 포락선과 하모닉 스펙트럼 포락선을 도9에 도시하였다. 도9는 본 발명의 제2실시예에 따라 추출된 하모닉 피크 스펙트럼 포락선과 비하모닉 피크 스펙트럼 포락선의 에너지 비교를 나타낸 예시도이다. 도9를 참조하여, 스펙트럼 포락선 Sn은 본 발명의 실시예에 따라 하모닉 피크 검출부(120)에서 검출된 음성 신호의 하모닉 피크들을 하모닉 스펙트럼 포락선 검출부(90)가 인터폴레이션하여 생성한 하모닉 스펙트럼 포락선을 나타낸다. 스펙트럼 포락선 Wn은 본 발명의 실시예에 따라 하모닉 피크 검출부(120)에서 검출된, 음성 신호의 비 하모닉 피크들을 비 하모닉 스펙트럼 포락선 검출부(80)가 인터폴레이션하여 생성한 비 하모닉 스펙트럼 포락선을 나타낸다. 도9에 도시된 바와 같이, 두 포락선의 에너지는 차이를 가지며, 유성음화 비율 검출부(100)는 이러한 에너지 차이에 따라 유성음화 비율을 검출하여 음성 처리 부(110)로 출력한다.

음성 처리부(110)는 하모닉 피크 검출부(120)와, 하모닉 스펙트럼 포락선 검출부(90)와, 유성음화 비율 검출부(110)로부터 입력되는 하모닉 피크들과, 하모닉 스펙트럼 포락선 정보와, 유성음화 정도 비율을 이용하여 음성 코딩, 인식, 합성, 강화 등의 오디오 처리 과정을 수행한다.

상기와 같이 구성되는 본 발명의 제2실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치는 도8에 도시된 과정에 따라 음성 신호의 하모닉 피크와 스펙트럼 포락선 정보를 추정한다. 도8은 본 발명의 제2실시예에 따른 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 과정을 나타낸 도면이다. 도8을 참조하여, 301단계에서 음성 신호의 하모닉 정보 및 포락선 스펙트럼 정보정보 추정 장치의 음성 신호 입력부(10)는 음성 신호가 입력되면 이를 주파수 도메인 변환부(20)로 출력한다. 주파수 도메인 변환부(20)는 303단계에서 입력된 음성 신호를 주파수 도메인으로 변경하여, 검색 범위 결정부(40)와 하모닉 피크 검출부(120)로 출력한다. 305단계에서 검색 범위 결정부(40)는 입력된 음성 신호의 피치를 계산하여 CP(피치 예측값)를 생성하여 실제 검색 구간이 CP로 이루어지도록 피크 검색 범위를 설정하여 하모닉 피크 검출부(120)로 출력한다. 하모닉 피크 검출부(120)는 입력된 피크 검색 범위에 따라 음성 신호 처음부터 CP에 해당하는 구간에 존재하는 모든 피크들을 검출하고, 검출된 피크 중에서 스펙트럼 값이 제일 큰 피크를 첫 번째 하모닉 피크로 추출한다. 이후 307단계에서 검색 범위 설정부(40)는 상기 계산된 CP를 이용하여 적정 전체 구간과 시프팅 구간을 가지는 피크 검색 범위를 설정하여 하모닉 피크 검출부(120)로 출력한다. 하모닉 피크 검출부(120)는 309단계에서 최근 추출된 하모닉 피크를 기준으로 피크 검색 범위를 설정하고, 해당 피크 검색 범위 내에 존재하는 모든 피크를 검출한다. 그리고 하모닉 피크 검출부(120)는 검출된 피크들 중에서 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 출력함으로써, 음성 신호에 존재하는 다수의 하모닉 피크를 출력한다. 이때 하이 오더 피크 확인부(50)는 하모닉 피크 검출부(120)가 2차 이상의 하이 오더 피크를 하모닉 피크로 검출하도록 하모닉 피크 검출부(120)를 제어한다. 즉, 하모닉 피크 검출부(120)가 하모닉 피크로 결정한 피크가 2차 이상의 하이 오더 피크인지 확인하여, 2차 이상의 하이 오더 피크이면 해당 피크를 하모닉 피크로 출력하도록 하모닉 피크 검출부(120)를 제어한다. 하모닉 피크 검출부(120)는 311단계에서 하모닉 피크 정보를 이용해야하는 경우에는 317단계에서 하모닉 피크로 결정한 피크를 음성 처리부(110)로 출력한다. 그리고 하모닉 피크 검출부(120)는 포락선 정보를 검출하는 경우에는 313단계로 진행하여 하모닉 피크로 결정한 피크를 하모닉 스펙트럼 포락선 검출부(90)로 출력하고, 하모닉 피크로 결정된 피크를 제외한 나머지 피크를 비 하모닉 스펙트럼 포락선 검출부(80)로 출력한다. 313단계에서 하모닉 스펙트럼 포락선 검출부(90)는 입력된 하모닉 피크들을 인터플레이션하여 하모닉 스펙트럼 포락선을 생성하여 유성음화 비율 검출부(100)로 출력하고, 비 하모닉 스펙트럼 포락선 검출부(80)는 입력된 피크들을 인터플레이션하여 비 하모닉 스펙트럼 포락선을 생성하여 유성음화 비율 검출부(100)로 출력한다. 315단계에서 유성음화 비율 검출부(100)는 하모닉 스펙트럼 포락선과 비 하모닉 스펙트럼 포락선의 에너지 비교에 따른 유성음화 비율을 음성 처리부(110)로 출력하고, 하모닉 스펙트럼 포락선 검출부(90)는 하모닉 스펙트럼 포락선을 음성 처리부(110)로 출력한다. 음성 처리부(110)는 하모닉 피크 검출부(120)와 하모닉 스펙트럼 포락선 검출부(90)와 유성음화 비율 검출부(100)로부터 입력되는 하모닉 피크들과 스펙트럼 포락선 정보와 유성음화 비율을 이용하여 음성 코딩, 인식, 합성, 강화 등의 오디오 처리 과정을 수행한다.

상기한 바와 같이 본 발명은 일정한 주기로 존재하는 하모닉 피크의 특징을 이용하는 것으로, 입력되는 음성 또는 오디오 신호를 주파수 도메인으로 변환하여, 변환된 주파수 도메인 신호에서 첫 피치 주기 동안 최대의 피크를 찾아 첫 번째 하모닉 피크로 선택하고, 그 후 음성 신호의 각 피크 검색 범위에 존재하는 피크들 중 스펙트럼 값이 가장 큰 피크를 하모닉 피크로 선택하여 출력하고, 하모닉 피크들을 인터폴레이션하여, 하모닉 스펙트럼 포락선 정보를 추출하며, 비 하모닉 피크들을 인터폴레이션하여 비 하모닉 스펙트럼 포락선 정보를 추출하여 두 포락선 정보를 비교함으로써 유성음화 비율을 추출한다.

이에 따라 본 발명은 노이즈 보다 항상 큰 스펙트럼 값을 가지는 하모닉 피크 만을 추출하여 사용함으로써 잡음에 아주 견고하다. 그리고 음성 신호상 임의의 지점을 기준으로 앞뒤의 값을 비교하여 간단히 피크정보만을 검출하기 때문에 계산량이 거의 없으며, 매우 빠르고 정확하며 실용적이다. 또한 새로운 하이 오더 피크의 개념으로 인터폴레이션 이전에 실제 하모닉 피크들만을 선택해 줌으로써, 피치 정보 에러로 인해 너무 작은 피크 검색 구간 결정으로 발생할 수 있는 스펙트럼 디 스토션의 가능성을 방지하여 그 성능을 개선할 수 있다. 또한 본 발명의 지능적 하모닉 피크 추출에 의한 스펙트럼과 나머지 비하모닉 피크들의 스펙트럼의 비율에 의한 에너지 비 계산으로 매우 효율적인 유성음화 비율 정보를 추출하여 실제 코딩, 인식, 강화, 합성 등에 모두 사용할 수 있다. 특히 적은 계산량과 정확한 하모닉 구간 검출에 따른 하모닉 정보 추출로 핸드폰 단말, 텔레매틱스, PDA, mp3 등 이동성이 강하고 계산, 저장 용량의 제한이 있거나 빠른 처리가 요구되는 어플리케이션에 있어서 효과적이다.

상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 예를 들어, 본 발명의 제2실시예에서 유성음화 비율 검출부(100)는 본 발명의 과정에 따라 검출된 하모닉 스펙트럼 포락선의 에너지와 비 하모닉 스펙트럼 포락선의 에너지를 비교하여 유성음화 비율을 검출하도록 구성되어 있다. 하지만 유성음화 비율 검출부(100)는 본 발명의 과정에 의해 검출되는 하모닉 스펙트럼 포락선과 비 하모닉 스펙트럼 포락선이 아니더라도, 해당 음성 신호의 하모닉 스펙트럼 포락선과 비 하모닉 스펙트럼 포락선을 파악할 수 있다면, 유성음화 비율을 검출하도록 구성할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다.

상술한 바와 같이 본 발명은 본 발명은 일정한 주기로 존재하는 하모닉 피크 의 특징을 이용하는 것으로, 입력되는 음성 또는 오디오 신호를 주파수 도메인으로 변환하여, 변환된 주파수 도메인 신호에서 첫 피치 주기 동안 최대의 피크를 찾아 첫 번째 하모닉 피크로 선택하고, 그 후 음성 신호의 각 피크 검색 범위에 존재하는 피크들 중 스펙트럼 값이 가장 큰 피크를 하모닉 피크로 선택하여 출력하고, 하모닉 피크들을 인터폴레이션하여, 하모닉 스펙트럼 포락선 정보를 추출하며, 비 하모닉 피크들을 인터폴레이션하여 비 하모닉 스펙트럼 포락선 정보를 추출하여 두 포락선 정보를 비교함으로써 유성음화 비율을 추출한다.

이에 따라 본 발명은 노이즈 보다 항상 큰 스펙트럼 값을 가지는 하모닉 피크 만을 추출하여 사용함으로써 잡음에 아주 견고하다. 그리고 음성 신호상 임의의 지점을 기준으로 앞뒤의 값을 비교하여 간단히 피크정보만을 검출하기 때문에 계산량이 거의 없으며, 매우 빠르고 정확하며 실용적이다. 또한 새로운 하이 오더 피크의 개념으로 인터폴레이션 이전에 실제 하모닉 피크들만을 선택해 줌으로써, 피치 정보 에러로 인해 너무 작은 피크 검색 구간 결정으로 발생할 수 있는 스펙트럼 디스토션의 가능성을 방지하여 그 성능을 개선할 수 있다. 또한 본 발명의 지능적 하모닉 피크 추출에 의한 스펙트럼과 나머지 비하모닉 피크들의 스펙트럼의 비율에 의한 에너지 비 계산으로 매우 효율적인 유성음화 비율 정보를 추출하여 실제 코딩, 인식, 강화, 합성 등에 모두 사용할 수 있다. 특히 적은 계산량과 정확한 하모닉 구간 검출에 따른 하모닉 정보 추출로 핸드폰 단말, 텔레매틱스, PDA, mp3 등 이동성이 강하고 계산, 저장 용량의 제한이 있거나 빠른 처리가 요구되는 어플리케이션에 있어서 효과적이다.

Claims

음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보 추정 방법에 있어서,

입력된 음성 신호를 주파수 도메인으로 변환하는 과정과,

상기 음성 신호의 피치 예측값을 계산하고, 상기 피치 예측값을 이용하여 피크 검색 범위를 결정하는 과정과,

상기 음성 신호에 다수의 상기 피크 검색 구간을 설정하여, 상기 각각의 피크 검색 범위에 존재하는 피크들을 검출하고, 상기 검출된 피크들 중 가장 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 상기 음성 신호의 하모닉 정보로 출력하는 과정과,

상기 하모닉 피크들을 인터폴레이션(interpolation)하여 하모닉 스펙트럼 포락선을 생성하여 상기 음성 신호의 스펙트럼 포락선 정보로 출력하는 과정을 포함함을 특징으로 하는 추정 방법.
제1항에 있어서, 상기 피크 검색 범위는 전체 구간과, 피크 검출이 이루어지지 않는 시프팅 구간과, 실제 피크 검출이 이루어지는 실제 검색 구간을 포함함을 특징으로 하는 추정 방법.
제2항에 있어서, 상기 실제 검색 구간은 상기 전체 구간에서 상기 시프팅 구간을 제외한 구간임을 특징으로 하는 추정 방법.
제3항에 있어서, 상기 전체 구간은 상기 피치 예측값 보다 크고, 상기 시프팅 구간은 피치 예측값 보다 작게 결정됨을 특징으로 하는 추정 방법.
제4항에 있어서, 상기 피크 검색 범위는 피치 예측값이 CP이고, 전체 구간이 b이고, 시프팅 구간이 a일 때 다음 수학식9와 같은 범위로 설정됨을 특징으로 하는 추정 방법.

M·CP<b< 2m·CP,

0<a<m·CP,

단, M<2m, 0 < m < 1 < M
제5항에 있어서, 상기 음성 신호의 최초 하모닉 피크 검출시 상기 전체 구간은 상기 피치 예측값으로 설정하고, 상기 시프팅 구간은 0으로 설정함을 특징으로 하는 추정 방법.
제6항에 있어서, 상기 하모닉 피크로 결정하여 출력하는 과정에서 상기 피크 검색 범위는 상기 음성 신호에서 가장 최근 검출된 하모닉 피크를 기준으로 설정됨을 특징으로 하는 추정 방법.
제7항에 있어서, 상기 하모닉 피크로 결정하여 출력하는 과정은 상기 가장 최대 스펙트럼 값을 가지는 피크가 2차 이상의 하이 오더 피크임을 확인하면 하모닉 피크로 결정하여 출력하는 과정임을 특징으로 하는 추정 방법.
제8항에 있어서, 상기 각각의 피크 검색 범위에서 검출된 상기 피크들 중 상기 하모닉 피크로 결정된 피크를 제외한 피크들을 인터폴레이션(interpolation)하여 비 하모닉 스펙트럼 포락선을 생성하여 출력하는 과정과,

상기 하모닉 스펙트럼 포락선 에너지와 상기 비 하모닉 스펙트럼 포락선 에너지를 비교하여, 상기 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율을 검출하는 과정을 더 포함함을 특징으로 하는 추정 방법.
제9항에 있어서, 상기 하모닉 정보와, 상기 하모닉 스펙트럼 포락선 정보와 상기 유성음화 비율 정보를 이용하여 오디오 코딩, 인식, 합성을 수행하는 과정을 더 포함함을 특징으로 하는 추정 방법.
음성 신호의 하모닉 정보 추정 방법에 있어서,

입력된 음성 신호를 주파수 도메인으로 변환하는 과정과,

상기 음성 신호의 피치 예측값을 계산하고, 상기 피치 예측값을 이용하여 피크 검색 범위를 결정하는 과정과,

상기 음성 신호에 다수의 상기 피크 검색 구간을 설정하여, 상기 각각의 피크 검색 범위에 존재하는 피크들을 검출하고, 상기 검출된 피크들 중 가장 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 출력하여, 상기 음성 신호의 하모닉 정보를 출력하는 과정을 포함함을 특징으로 하는 추정 방법.
음성 신호의 스펙트럼 포락선 정보를 이용하여 상기 음성 신호에 포함된 유성음 비율 정보를 추정하는 방법에 있어서,

상기 음성 신호의 하모닉 피크를 포함하는 하모닉 스펙트럼 포락선 정보를 검출하는 과정과,

상기 음성 신호의 피크 중 상기 하모닉 피크를 제외한 피크를 포함하는 비 하모닉 스펙트럼 포락선 정보를 검출하는 과정과,

상기 하모닉 스펙트럼 포락선 에너지와 상기 비 하모닉 스펙트럼 포락선 에너지를 비교하여, 상기 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율을 검출하는 과정을 포함함을 특징으로 하는 추정 방법.
제12항에 있어서, 상기 음성 신호의 하모닉 피크를 포함하는 하모닉 스펙트럼 포락선 정보를 검출하는 과정은

입력된 음성 신호를 주파수 도메인으로 변환하는 단계와,

상기 음성 신호의 피치 예측값을 계산하고, 상기 피치 예측값을 이용하여 피크 검색 범위를 결정하는 단계와,

상기 음성 신호에 다수의 상기 피크 검색 구간을 설정하여, 상기 각각의 피크 검색 범위에 존재하는 피크들을 검출하고, 상기 검출된 피크들 중 가장 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 출력하는 단계와,

상기 하모닉 피크들을 인터폴레이션(interpolation)하여 하모닉 스펙트럼 포락선을 생성하여 상기 음성 신호의 스펙트럼 포락선 정보로 출력하는 단계를 포함하고,

상기 음성 신호의 피크 중 상기 하모닉 피크를 제외한 피크를 포함하는 비 하모닉 스펙트럼 포락선 정보를 검출하는 과정은 상기 각각의 피크 검색 범위에서 검출된 상기 피크들 중 상기 하모닉 피크로 결정된 피크를 제외한 피크들을 인터폴레이션(interpolation)하여 비 하모닉 스펙트럼 포락선을 생성하여 출력하는 과정 임을 특징으로 하는 추정 방법.
음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보 추정 장치에 있어서,

입력되는 음성 신호를 주파수 도메인으로 변환하여 출력하는 주파수 도메인 변환부와,

상기 주파수 도메인 변환부에서 출력되는 음성 신호에서 상기 음성 신호의 피치 예측값을 계산하고, 상기 피치 예측값을 이용하여 피크 검색 범위를 결정하는 검색 범위 결정부와,

상기 주파수 도메인 변환부에서 출력되는 음성 신호에 다수의 상기 피크 검색 구간을 설정하여, 상기 각각의 피크 검색 범위에 존재하는 피크들을 검출하고, 상기 검출된 피크들 중 가장 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 상기 음성 신호의 하모닉 정보로 출력하는 하모닉 피크 검출부와,

상기 하모닉 피크들을 인터폴레이션(interpolation)하여 하모닉 스펙트럼 포락선을 생성하여 상기 음성 신호의 스펙트럼 포락선 정보로 출력하는 하모닉 스펙트럼 포락선 검출부를 포함함을 특징으로 하는 추정 장치.
제14항에 있어서, 상기 피크 검색 범위는 전체 구간과, 피크 검출이 이루어지지 않는 시프팅 구간과, 실제 피크 검출이 이루어지는 실제 검색 구간을 포함함 을 특징으로 하는 추정 장치.
제15항에 있어서, 상기 실제 검색 구간은 상기 전체 구간에서 상기 시프팅 구간을 제외한 구간임을 특징으로 하는 추정 장치.
제16항에 있어서, 상기 전체 구간은 상기 피치 예측값 보다 크고, 상기 시프팅 구간은 피치 예측값 보다 작게 결정됨을 특징으로 하는 추정 장치.
제17항에 있어서, 상기 피크 검색 범위는 피치 예측값이 CP이고, 전체 구간이 b이고, 시프팅 구간이 a일 때 다음 수학식10과 같은 범위로 설정됨을 특징으로 하는 추정 장치.

M·CP<b< 2m·CP,

0<a<m·CP,

단, M<2m, 0 < m < 1 < M
제17항에 있어서, 상기 검색 범위 결정부는 상기 음성 신호의 최초 하모닉 피크 검출시 상기 전체 구간은 상기 피치 예측값으로 설정하고, 상기 시프팅 구간은 0으로 설정함을 특징으로 하는 추정 장치.
제19항에 있어서, 상기 하모닉 피크 검출부는 상기 피크 검색 범위를 상기 음성 신호에서 가장 최근 검출된 하모닉 피크를 기준으로 설정함을 특징으로 하는 추정 장치.
제20항에 있어서, 상기 하모닉 피크 검출부는 상기 가장 최대 스펙트럼 값을 가지는 피크가 2차 이상의 하이 오더 피크임을 확인하면 하모닉 피크로 결정하여 출력함을 특징으로 하는 추정 장치.
제20항에 있어서, 상기 각각의 피크 검색 범위에서 검출된 상기 피크들 중 상기 하모닉 피크로 결정된 피크를 제외한 피크들을 인터폴레이션(interpolation)하여 비 하모닉 스펙트럼 포락선을 생성하여 출력하는 비 하모닉 스펙트럼 포락선 검출부와,

상기 하모닉 스펙트럼 포락선 에너지와 상기 비 하모닉 스펙트럼 포락선 에 너지를 비교하여, 상기 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율을 검출하는 유성음화 비율 검출부를 더 포함함을 특징으로 하는 추정 장치.
제22항에 있어서, 상기 하모닉 정보와, 상기 하모닉 스펙트럼 포락선 정보와 상기 유성음화 비율 정보를 이용하여 오디오 코딩, 인식, 합성을 수행하는 음성 처리부를 더 포함함을 특징으로 하는 추정 장치.
제23항에 있어서, 상기 유서음화 비율 검출부는 상기 유성음화 비율을 D라하고, 상기 하모닉 스펙트럼 포락선을 Sn이라하고, 상기 비 하모닉 스펙트럼 포락선을 Wn이라 할 때, 상기 유성음화 비율 D를 다음 수학식 11과 같이 계산하여 검출함을 특징으로 하는 추정 장치.
음성 신호의 하모닉 정보 추정 장치에 있어서,

입력되는 음성 신호를 주파수 도메인으로 변환하여 출력하는 주파수 도메인 변환부와,

상기 주파수 도메인 변환부에서 출력되는 음성 신호에서 상기 음성 신호의 피치 예측값을 계산하고, 상기 피치 예측값을 이용하여 피크 검색 범위를 결정하는 검색 범위 결정부와,

상기 주파수 도메인 변환부에서 출력되는 음성 신호에 다수의 상기 피크 검색 구간을 설정하여, 상기 각각의 피크 검색 범위에 존재하는 피크들을 검출하고, 상기 검출된 피크들 중 가장 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 상기 음성 신호의 하모닉 정보로 출력하는 하모닉 피크 검출부를 포함함을 특징으로 하는 추정 장치.