KR101276049B1

KR101276049B1 - 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법

Info

Publication number: KR101276049B1
Application number: KR1020120007371A
Authority: KR
Inventors: 김무영; 정원진
Original assignee: 세종대학교산학협력단
Priority date: 2012-01-25
Filing date: 2012-01-25
Publication date: 2013-06-20

Abstract

본 발명은 음성 압축 장치 및 그 방법에 관한 것으로, 본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치는 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부와, 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 조건부확률 평균값 연산부와, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함한다.
이에 따라, 기 입력된 이전 프레임의 전체 차원과 현재 프레임 간의 상관관계를 제거함으로써 압축 효율을 증가시킬 수 있다.

Description

조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법{APPARATUS AND METHOD FOR VOICE COMPRESSING USING CONDITIONAL SPLIT VECTOR QUANTIZATION}

본 발명은 음성 압축 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 기술이 개시된다.

일반적으로 데이터 압축 기술은 코드북 학습을 위해서 GLA(Generalized Lloyd Algorithm)을 사용한다. 이 알고리즘은 초기값을 임의로 분포시키고, 입력 데이터에 대해서 초기값들과의 왜곡을 비교하여 왜곡이 가장 적은 초기값으로 데이터를 분류한다. 분류된 보로노이 영역내의 데이터들의 평균을 구하여 평균점으로 초기점들을 이동시킨다. 위 과정을 반복하여 최적의 코드벡터를 찾는 알고리즘이 GLA이다. GLA에서는 초기값을 임의로 분포시키는데 비해, 초기값을 전체 데이터 평균이 되는 지점에 하나를 선언하고, 초기값을 2의 자승으로 분할하면서 증가시키는 Linde-Buzo-Gray (LBG) 알고리즘도 널리 이용되고 있다.

한편, VQ(Vector Quantization)는 차원이 높아질수록 계산량이 매우 증가하기 때문에 10차원 LSF(Line Spectral Frequency) 데이터를 VQ하여 압축할 경우 엄청난 계산량을 초래하게 된다. 따라서 적절하게 차원을 나눠서 각각에 대하여 VQ를 하게 되는데 그 방법을 SVQ(Split Vector Quantization)라 한다. SVQ를 사용하면 VQ 보다 계산량은 줄어들지만, 나눠진 차원간의 상관관계를 고려하지 않으므로 차원 전체를 VQ 하는 방법보다 성능이 떨어지게 된다. 이렇게 차원을 나눠서 VQ 할 때 발생한 손실을 split loss라 한다. 이러한 손실이 있어도 계산량과 메모리 요구량의 한계 때문에 전체를 양자화하는 VQ 방법보다는 차원을 나눠서 계산하는 SVQ가 널리 이용되고 있다.

종래의 SVQ 방법으로 PSVQ가 제안되었다. PSVQ(Predictive Split Vector Quantization)는 현재 프레임에서 측정된 값에 바로 이전 프레임에서 측정된 값을 제거하고 남은 잔차를 압축하는 방식이다. 과거값을 보기 때문에 채널에 영향을 받지 않는 TTS(Text to Speech), 전화응답장치(TAD; Telephone Answering Device), 음성녹음기, 응급콜백시스템 등에 응용되면 보다 높은 성능을 얻을 수 있다. 그러므로 이 방법은 각 프레임 간의 상관관계를 고려하기 때문에 프레임 간 상관관계가 매우 높은 10차 LSF에 대한 압축율을 높일 수 있게 된다.

그러나, 종래의 PSVQ는 이전 프레임의 상관관계를 이용할 때, 현재 프레임에서 해당되는 차원의 상관관계만 이용하게 된다. 따라서, 데이터 압축시 사용되는 LSF는 차원 간의 상관 관계뿐만 아니라 전체 차원 간의 상관 관계에서 존재하기 때문에 기존에 사용하는 방법은 LSF 데이터의 상관 관계를 전부 이용하지 못하는 문제점이 있다.

본 발명의 배경이 되는 기술은 대한민국 공개특허공보 제10-2004-0078760호(2004. 09. 31)에 기재되어 있다.

본 발명이 이루고자 하는 기술적인 과제는 인터 프레임 방식으로 음성 신호를 압축함에 있어서, 입력된 이전 프레임과 입력되는 현재 프레임 간의 상관관계를 제거하여 압축 효율을 증가시키도록 하기 위함이다.

본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치는, 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부와, 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 조건부확률 평균값 연산부와, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함한다.

또한, 상기 조건부확률 평균값 연산부는, 상기 이전 프레임과 상기 현재 프레임이 서로 독립적인 관계인 경우에 대한 상기 프레임들의 평균 또는 공분산을 계산하고, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수를 이용하여 상기 조건부확률 평균값을 계산할 수 있다.

또한, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 상기 조건부확률 평균값은 상기 이전 프레임에 대한 정보가 반영되어 계산된 값일 수 있다.

또한, 상기 조건부확률 평균값 연산부는 상기 이전 프레임의 차원 전체에 대한 조건부확률 평균값을 계산하고, 상기 벡터 양자화부는 상기 현재 프레임의 차원에서 상기 조건부확률 평균값을 제거하여 벡터 양자화할 수 있다.

또한, 상기 벡터 양자화부는, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화부와, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 복호화부를 포함할 수 있다.

또한, 상기 부호화부는 기 학습된 음성 신호에 대한 코드북을 이용하여 상기 제거 프레임을 부호화하고, 상기 복호화부는 상기 코드북을 이용하여 상기 현재 프레임을 복원할 수 있다.

본 발명의 또 다른 실시예에 따른 음성 압축 장치의 음성 압축 방법은, 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 단계와, 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 단계와, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화 단계를 포함한다.

이와 같이, 본 발명에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법은 인터 프레임 방식으로 음성 신호를 압축함에 있어서, 기 입력된 이전 프레임의 전체 차원과 현재 프레임 간의 상관관계를 제거함으로써 압축 효율을 증가시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치의 구성도,
도 2는 도 1에 따른 음성 압축 장치에서 구현되는 음성 압축 방법의 흐름도,
도 3은 도 2에 따른 음성 압축 방법을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도,
도 4는 도 2에 따른 음성 압축 방법을 이용한 경우의 압축 성능을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치의 구성도이고, 도 2는 도 1에 따른 음성 압축 장치에서 구현되는 음성 압축 방법의 흐름도이다.

도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 압축 장치(100)는 주파수 변환부(110), 조건부확률 평균값 연산부(120), 음성신호 DB(125), 벡터 양자화부(130)를 포함한다. 주파수 변환부(110)는 입력된 음성신호의 각 프레임을 선형 스펙트럼 주파수로 변환한다(S210). 음성신호의 압축에는 파라미터들은 LPC(Linear Prediction Coding) 계수가 이용된다. LPC 계수를 양자화하는데 필요한 비트 레이트(bit rate)는 전체 비트 레이트에서 매우 높은 비율을 차지한다. 예를 들어 G.729 코더에서 전체 비트 레이트 중 LPC 계수의 비트 레이트 비율은 22.5%로 상대적으로 높은 비율을 가지기 때문에 이 파라미터는 음성 압축에 중요한 값임을 알 수 있다.

LPC 필터의 계수를 직접 양자화할 경우, 필터의 특성이 계수의 양자화 오차에 매우 민감하고 계수 양자화 후의 LPC 필터의 안정성이 보장되지 않는 문제점이 있으므로, LPC 계수를 양자화 성질이 좋은 다른 파라미터로 변환하여 양자화하여야 한다. 따라서, 본 발명에서는 LPC 계수를 선형 스펙트럼 주파수(Line Spectrum Frequency, LSF) 로 변환하여 사용한다.

다음으로, 조건부확률 평균값 연산부(120)는 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산한다(S220). 주파수 변환부(110)에는 프레임 단위로 음성신호가 입력되며, 조건부확률 평균값 연산부(120)는 기 입력된 음성신호인 이전 프레임에 대해 조건부확률 평균값을 계산하여 음성신호 DB(125)에 저장한다. 조건부확률 평균값은 이전 프레임과 현재 프레임 간의 상관관계를 제거하기 위해 계산되는 값으로, 이전 프레임과 현재 프레임이 서로 독립적일 때의 확률값으로 계산된다. 즉, 조건부확률 평균값 연산부(120)는 이전 프레임과 현재 프레임이 서로 독립적인 관계인 경우, 프레임들의 평균 또는 공분산을 계산하고, 평균 또는 공분산에 대한 가우시안 확률밀도함수(Gaussian PDF)를 이용하여 조건부확률 평균값을 계산한다.

예를 들어, 서로 상관관계가 있는 임의의 이전 프레임(x⁽¹⁾)과 현재 프레임(x⁽²⁾)에 대해 상관관계를 제거한 경우, 상관관계가 제거된 이전 프레임(y⁽¹⁾)과 현재 프레임(y⁽²⁾) 사이에는 다음의 수학식 1과 같이 표현할 수 있다.

수학식 1에서, B는 이전 프레임과 현재 프레임 간의 중복값을 나타낸다. 따라서, 상관관계가 제거된 이전 프레임(y⁽¹⁾)은 상관관계가 존재하는 이전 프레임(x⁽¹⁾)에 상관관계가 존재하는 현재 프레임(x⁽²⁾)에 중복값을 곱한 값(B*x⁽²⁾)을 더하여 구할 수 있다. 이 경우, 중복값(B)는 음수이기 때문에 실질적으로는 중복성분을 제거하는 것과 같다. 수학식 1에서, B 값을 구하기 위해서 상관관계가 제거된 이전 프레임(y⁽¹⁾)과 현재 프레임(y⁽²⁾)의 공분산(covariance)이 0이라는 관계를 이용할 수 있다. 이는 다음의 수학식 2와 같이 표현될 수 있다.

수학식 2에서, E[a]는 a에 대한 예측값을 나타내며, 공분산을 ∑로 표현하는 경우, ∑_aa는 E[(X^(a)-E[X^(a)])(X^(a)-E[X^(a)])^T]와 같이 표현될 수 있다. 이 경우, 수학식 2는 0=∑₁₂+ B*∑₂₂와 같이 표현될 수 있다. 중복값(B)은 -∑₁₂∑₂₂ ^-1이 됨을 알 수 있다. 따라서, 상관관계가 제거된 프레임(Y)에 대한 평균값(mean)은 다음의 수학식 3을 이용하여 구할 수 있다.

수학식 3에서, E[x^(a)]은 μ^(a)으로 대체된다.

한편, 상관관계가 제거된 프레임(Y)에 대한 공분산(covariance)은 다음의 수학식 4를 이용하여 구할 수 있다.

수학식 4에서, v(a)는 y(a)와 같은 개념이며, 앞서 설명한 바와 같이 상관관계가 제거된 프레임(Y)의 공분산의 경우 서로 독립적이므로, 공분산의 행렬의 대각선의 값은 0이 된다. 따라서, E[y⁽¹⁾-v⁽¹⁾][y⁽¹⁾-v⁽¹⁾]^T는 ∑₁₁-∑₁₂∑₂₂ ^-1∑₂₁이며, E[y⁽²⁾-v⁽²⁾][y⁽²⁾-v⁽²⁾]^T는 ∑₂₂이 된다.

이상과 같이, 상관관계가 제거된 프레임(Y)에 평균값과 공분산값을 구하면, 이를 이용하여 조건부 확률밀도함수를 계산할 수 있다. 이 경우, 학습 데이터인 기 입력된 이전 프레임을 이용해 계산된 평균값과 공분산값은 이후의 과정에서 다시 계산하지 않고, 고정적으로 이용할 수 있다. 조건부 확률밀도함수에서 상관관계가 제거된 프레임에 대해서는 f(y⁽¹⁾|y⁽²⁾)=f(y⁽¹⁾,y⁽²⁾)/f(y⁽²⁾)와 같은 베이스의 법칙(Bayes' rule)이 적용되므로, f(y⁽¹⁾|y⁽²⁾)=f(y⁽¹⁾)·f(y⁽²⁾)/f(y⁽²⁾)이 된다. 즉, f(y⁽¹⁾|y⁽²⁾)=f(y⁽¹⁾)이 된다. 따라서, 상관관계가 제거된 프레임(Y)에 대한 조건부 확률밀도함수, f(y⁽¹⁾|y⁽²⁾)는 다음의 수학식 5와 같이 나타낼 수 있다.

수학식 5를 통해, 조건부확률 평균값(conditional mean), μ_y(1)|y(2)= μ⁽¹⁾+∑₁₂∑₂₂ ^-1(y⁽²⁾-μ⁽²⁾)이고, 조건부확률 공분산값(conditional covariance), ∑_y(1)|y(2) = ∑₁₁-∑₁₂∑₂₂ ^-1∑₂₁이 됨을 알 수 있다. 이 경우, 조건부확률 평균값에는 과거 프레임 성분인 y⁽²⁾을 포함하고 있으나, 조건부확률 공분산값에는 과거 프레임 성분이 없음을 알 수 있다. 이와 같이, 이전 프레임에 대한 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 조건부확률 평균값은 이전 프레임에 대한 정보가 반영되어 계산된 값이 된다. 이는 종래의 PSVQ 방식보다 조건부 확률 평균값을 계산하는 계산량이 상대적으로 적다.

다음으로, 벡터 양자화부(130)는 현재 프레임에서 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 벡터 양자화된 제거 프레임의 차원을 재결합하고 조건부확률 평균값을 추가하여 현재 프레임을 복원한다(S230). 벡터 양자화부(130)는 조건부 확률 평균값 연산부(120)에서 계산된 조건부 확률 평균값을 고정하여 사용한다. 보다 구체적으로, 벡터 양자화부(130)는 부호화부(131), 복호화부(132), 코드북 DB(135)를 포함한다. 부호화부(131)는 현재 프레임에서 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화한다. 하나의 프레임을 복수의 차원으로 나누어서 양자화하는 기술을 스플릿 벡터 양자화(Split Vector Quantization, SVQ)라 한다.

한편, 복호화부(132)는 벡터 양자화된 제거 프레임의 차원을 재결합하고, 재결합된 제거 프레임에 조건부확률 평균값을 추가하여 현재 프레임을 복원한다. 이 경우, 부호화부(131)는 코드북 DB(135)에 저장된 기 학습된 음성 신호에 대한 코드북을 이용하여 제거 프레임을 부호화하고, 복호화부(132)는 다시 코드북을 이용하여 현재 프레임을 복원한다. 따라서, 음성신호를 압축하는데 있어서 상관관계가 제거된 프레임을 압축함으로써 압축 효율이 증가된다.

이와 같이, 각 프레임을 양자화하는 경우, 부호화부(131), 복호화부(132)에서는 미리 설정된 평균값과 공분산값을 이용하여 계산된 조건부 확률 평균값을 제거하여 양자화하기 때문에 기존의 벡터 양자화 방법에 비해 조건부 확률 평균값을 계산하는 계산량을 상대적으로 줄일 수 있다.

도 3은 도 2에 따른 음성 압축 방법을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.

도 3을 참조하면, 종래의 음성 압축 방법 중 과거 프레임과의 상관관계를 이용하는 방식 중, 예측 스플릿 벡터 양자화(Predictive Split Vector Quantization) 방법은 이전 프레임(M)과 현재 프레임(M+1)의 상관관계를 이용하되, 프레임 간에 대응되는 차원(dimension) 간에만 상관관계를 제거하게 된다. 이 경우, 현재 프레임의 각 차원은 이전 프레임의 대응되는 차원 외에 나머지 차원에도 영향을 받기 때문에 상관관계를 완전히 제거하지 못하므로, 압축 효율이 상대적으로 낮았다. 그러나, 본 발명의 조건부 스플릿 벡터 양자화(Conditional Split Vector Quantization, CSVQ) 방식의 경우, 이전 프레임에 포함되는 차원 전체와 현재 프레임의 각 차원 간의 상관관계가 제거됨으로써 음성 압축에 있어서 압축 효율이 PSVQ 보다 향상될 수 있다.

도 4는 도 2에 따른 음성 압축 방법을 이용한 경우의 압축 성능을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.

도 4를 참조하면, 각각의 표는 SVQ, PSVQ, CSVQ 방식에 따라 음성 압축을 하는 경우의 성능을 나타낸 것이다. 이는 120만 개의 음성 샘플을 이용하여 각 화자가 10 개 정도의 문장을 말한 데이터를 주파수 변환하여, 각 프레임에 따라 3개, 3개, 4개의 차원으로 나눠서 성능을 테스트한 결과이다. 여기서, 스펙트럼의 왜곡 평균(Average of Spectral Distortion)은 SVQ, PSVQ, CSVQ 순으로 나타났다. 따라서, 같은 스플릿 벡터 양자화 방법을 사용하더라도, 이전 프레임과의 상관관계를 고려함에 있어서, 본 발명의 CSVQ 방식이 더욱 효율적으로 음성을 압축할 수 있다는 것을 확인할 수 있다.

한편, 본 발명의 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.

100 : 음성 압축 장치
110 : 주파수 변환부
120 : 조건부확률 평균값 연산부
125 : 음성신호 DB
130 : 벡터 양자화부
131 : 부호화부
132 : 복호화부
135 : 코드북 DB

Claims

입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부;
기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 조건부확률 평균값 연산부; 및
상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
제1항에 있어서,
상기 조건부확률 평균값 연산부는,
상기 이전 프레임과 상기 현재 프레임이 서로 독립적인 관계인 경우에 대한 상기 프레임들의 평균 또는 공분산을 계산하고, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수를 이용하여 상기 조건부확률 평균값을 계산하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
제2항에 있어서,
상기 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 상기 조건부확률 평균값은 상기 이전 프레임에 대한 정보가 반영되어 계산된 값인 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
제1항에 있어서,
상기 조건부확률 평균값 연산부는 상기 이전 프레임의 차원 전체에 대한 조건부확률 평균값을 계산하고,
상기 벡터 양자화부는 상기 현재 프레임의 차원에서 상기 조건부확률 평균값을 제거하여 벡터 양자화하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
제1항에 있어서,
상기 벡터 양자화부는,
상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화부; 및
상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 복호화부를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
제5항에 있어서,
상기 부호화부는 기 학습된 음성 신호에 대한 코드북을 이용하여 상기 제거 프레임을 부호화하고,
상기 복호화부는 상기 코드북을 이용하여 상기 현재 프레임을 복원하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
음성 압축 장치의 음성 압축 방법에 있어서,
입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 단계;
기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 단계; 및
상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화 단계를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
제7항에 있어서,
상기 조건부확률 평균값을 계산하는 단계는,
상기 이전 프레임과 상기 현재 프레임이 서로 독립적인 관계인 경우에 대한 상기 프레임들의 평균 또는 공분산을 계산하고, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수를 이용하여 상기 조건부확률 평균값을 계산하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
제8항에 있어서,
상기 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 상기 조건부확률 평균값은 상기 이전 프레임에 대한 정보가 반영되어 계산된 값인 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
제7항에 있어서,
상기 조건부확률 평균값을 계산하는 단계는 상기 이전 프레임의 차원 전체에 대한 조건부확률 평균값을 계산하고,
상기 벡터 양자화 단계는 상기 현재 프레임의 차원에서 상기 조건부확률 평균값을 제거하여 벡터 양자화하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
제7항에 있어서,
상기 벡터 양자화 단계는,
상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화 단계; 및
상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 복호화 단계를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
제11항에 있어서,
상기 부호화 단계는 기 학습된 음성 신호에 대한 코드북을 이용하여 상기 제거 프레임을 부호화하고,
상기 복호화 단계는 상기 코드북을 이용하여 상기 현재 프레임을 복원하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.