KR101276049B1 - 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 - Google Patents
조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 Download PDFInfo
- Publication number
- KR101276049B1 KR101276049B1 KR1020120007371A KR20120007371A KR101276049B1 KR 101276049 B1 KR101276049 B1 KR 101276049B1 KR 1020120007371 A KR1020120007371 A KR 1020120007371A KR 20120007371 A KR20120007371 A KR 20120007371A KR 101276049 B1 KR101276049 B1 KR 101276049B1
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- conditional probability
- conditional
- average value
- vector quantization
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013139 quantization Methods 0.000 title claims abstract description 43
- 238000007906 compression Methods 0.000 claims abstract description 47
- 230000006835 compression Effects 0.000 claims abstract description 47
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000006243 chemical reaction Methods 0.000 abstract 2
- 238000001228 spectrum Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 음성 압축 장치 및 그 방법에 관한 것으로, 본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치는 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부와, 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 조건부확률 평균값 연산부와, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함한다.
이에 따라, 기 입력된 이전 프레임의 전체 차원과 현재 프레임 간의 상관관계를 제거함으로써 압축 효율을 증가시킬 수 있다.
이에 따라, 기 입력된 이전 프레임의 전체 차원과 현재 프레임 간의 상관관계를 제거함으로써 압축 효율을 증가시킬 수 있다.
Description
본 발명은 음성 압축 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 기술이 개시된다.
일반적으로 데이터 압축 기술은 코드북 학습을 위해서 GLA(Generalized Lloyd Algorithm)을 사용한다. 이 알고리즘은 초기값을 임의로 분포시키고, 입력 데이터에 대해서 초기값들과의 왜곡을 비교하여 왜곡이 가장 적은 초기값으로 데이터를 분류한다. 분류된 보로노이 영역내의 데이터들의 평균을 구하여 평균점으로 초기점들을 이동시킨다. 위 과정을 반복하여 최적의 코드벡터를 찾는 알고리즘이 GLA이다. GLA에서는 초기값을 임의로 분포시키는데 비해, 초기값을 전체 데이터 평균이 되는 지점에 하나를 선언하고, 초기값을 2의 자승으로 분할하면서 증가시키는 Linde-Buzo-Gray (LBG) 알고리즘도 널리 이용되고 있다.
한편, VQ(Vector Quantization)는 차원이 높아질수록 계산량이 매우 증가하기 때문에 10차원 LSF(Line Spectral Frequency) 데이터를 VQ하여 압축할 경우 엄청난 계산량을 초래하게 된다. 따라서 적절하게 차원을 나눠서 각각에 대하여 VQ를 하게 되는데 그 방법을 SVQ(Split Vector Quantization)라 한다. SVQ를 사용하면 VQ 보다 계산량은 줄어들지만, 나눠진 차원간의 상관관계를 고려하지 않으므로 차원 전체를 VQ 하는 방법보다 성능이 떨어지게 된다. 이렇게 차원을 나눠서 VQ 할 때 발생한 손실을 split loss라 한다. 이러한 손실이 있어도 계산량과 메모리 요구량의 한계 때문에 전체를 양자화하는 VQ 방법보다는 차원을 나눠서 계산하는 SVQ가 널리 이용되고 있다.
종래의 SVQ 방법으로 PSVQ가 제안되었다. PSVQ(Predictive Split Vector Quantization)는 현재 프레임에서 측정된 값에 바로 이전 프레임에서 측정된 값을 제거하고 남은 잔차를 압축하는 방식이다. 과거값을 보기 때문에 채널에 영향을 받지 않는 TTS(Text to Speech), 전화응답장치(TAD; Telephone Answering Device), 음성녹음기, 응급콜백시스템 등에 응용되면 보다 높은 성능을 얻을 수 있다. 그러므로 이 방법은 각 프레임 간의 상관관계를 고려하기 때문에 프레임 간 상관관계가 매우 높은 10차 LSF에 대한 압축율을 높일 수 있게 된다.
그러나, 종래의 PSVQ는 이전 프레임의 상관관계를 이용할 때, 현재 프레임에서 해당되는 차원의 상관관계만 이용하게 된다. 따라서, 데이터 압축시 사용되는 LSF는 차원 간의 상관 관계뿐만 아니라 전체 차원 간의 상관 관계에서 존재하기 때문에 기존에 사용하는 방법은 LSF 데이터의 상관 관계를 전부 이용하지 못하는 문제점이 있다.
본 발명의 배경이 되는 기술은 대한민국 공개특허공보 제10-2004-0078760호(2004. 09. 31)에 기재되어 있다.
본 발명이 이루고자 하는 기술적인 과제는 인터 프레임 방식으로 음성 신호를 압축함에 있어서, 입력된 이전 프레임과 입력되는 현재 프레임 간의 상관관계를 제거하여 압축 효율을 증가시키도록 하기 위함이다.
본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치는, 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부와, 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 조건부확률 평균값 연산부와, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함한다.
또한, 상기 조건부확률 평균값 연산부는, 상기 이전 프레임과 상기 현재 프레임이 서로 독립적인 관계인 경우에 대한 상기 프레임들의 평균 또는 공분산을 계산하고, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수를 이용하여 상기 조건부확률 평균값을 계산할 수 있다.
또한, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 상기 조건부확률 평균값은 상기 이전 프레임에 대한 정보가 반영되어 계산된 값일 수 있다.
또한, 상기 조건부확률 평균값 연산부는 상기 이전 프레임의 차원 전체에 대한 조건부확률 평균값을 계산하고, 상기 벡터 양자화부는 상기 현재 프레임의 차원에서 상기 조건부확률 평균값을 제거하여 벡터 양자화할 수 있다.
또한, 상기 벡터 양자화부는, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화부와, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 복호화부를 포함할 수 있다.
또한, 상기 부호화부는 기 학습된 음성 신호에 대한 코드북을 이용하여 상기 제거 프레임을 부호화하고, 상기 복호화부는 상기 코드북을 이용하여 상기 현재 프레임을 복원할 수 있다.
본 발명의 또 다른 실시예에 따른 음성 압축 장치의 음성 압축 방법은, 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 단계와, 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 단계와, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화 단계를 포함한다.
이와 같이, 본 발명에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법은 인터 프레임 방식으로 음성 신호를 압축함에 있어서, 기 입력된 이전 프레임의 전체 차원과 현재 프레임 간의 상관관계를 제거함으로써 압축 효율을 증가시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치의 구성도,
도 2는 도 1에 따른 음성 압축 장치에서 구현되는 음성 압축 방법의 흐름도,
도 3은 도 2에 따른 음성 압축 방법을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도,
도 4는 도 2에 따른 음성 압축 방법을 이용한 경우의 압축 성능을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.
도 2는 도 1에 따른 음성 압축 장치에서 구현되는 음성 압축 방법의 흐름도,
도 3은 도 2에 따른 음성 압축 방법을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도,
도 4는 도 2에 따른 음성 압축 방법을 이용한 경우의 압축 성능을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치의 구성도이고, 도 2는 도 1에 따른 음성 압축 장치에서 구현되는 음성 압축 방법의 흐름도이다.
도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 압축 장치(100)는 주파수 변환부(110), 조건부확률 평균값 연산부(120), 음성신호 DB(125), 벡터 양자화부(130)를 포함한다. 주파수 변환부(110)는 입력된 음성신호의 각 프레임을 선형 스펙트럼 주파수로 변환한다(S210). 음성신호의 압축에는 파라미터들은 LPC(Linear Prediction Coding) 계수가 이용된다. LPC 계수를 양자화하는데 필요한 비트 레이트(bit rate)는 전체 비트 레이트에서 매우 높은 비율을 차지한다. 예를 들어 G.729 코더에서 전체 비트 레이트 중 LPC 계수의 비트 레이트 비율은 22.5%로 상대적으로 높은 비율을 가지기 때문에 이 파라미터는 음성 압축에 중요한 값임을 알 수 있다.
LPC 필터의 계수를 직접 양자화할 경우, 필터의 특성이 계수의 양자화 오차에 매우 민감하고 계수 양자화 후의 LPC 필터의 안정성이 보장되지 않는 문제점이 있으므로, LPC 계수를 양자화 성질이 좋은 다른 파라미터로 변환하여 양자화하여야 한다. 따라서, 본 발명에서는 LPC 계수를 선형 스펙트럼 주파수(Line Spectrum Frequency, LSF) 로 변환하여 사용한다.
다음으로, 조건부확률 평균값 연산부(120)는 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산한다(S220). 주파수 변환부(110)에는 프레임 단위로 음성신호가 입력되며, 조건부확률 평균값 연산부(120)는 기 입력된 음성신호인 이전 프레임에 대해 조건부확률 평균값을 계산하여 음성신호 DB(125)에 저장한다. 조건부확률 평균값은 이전 프레임과 현재 프레임 간의 상관관계를 제거하기 위해 계산되는 값으로, 이전 프레임과 현재 프레임이 서로 독립적일 때의 확률값으로 계산된다. 즉, 조건부확률 평균값 연산부(120)는 이전 프레임과 현재 프레임이 서로 독립적인 관계인 경우, 프레임들의 평균 또는 공분산을 계산하고, 평균 또는 공분산에 대한 가우시안 확률밀도함수(Gaussian PDF)를 이용하여 조건부확률 평균값을 계산한다.
예를 들어, 서로 상관관계가 있는 임의의 이전 프레임(x(1))과 현재 프레임(x(2))에 대해 상관관계를 제거한 경우, 상관관계가 제거된 이전 프레임(y(1))과 현재 프레임(y(2)) 사이에는 다음의 수학식 1과 같이 표현할 수 있다.
수학식 1에서, B는 이전 프레임과 현재 프레임 간의 중복값을 나타낸다. 따라서, 상관관계가 제거된 이전 프레임(y(1))은 상관관계가 존재하는 이전 프레임(x(1))에 상관관계가 존재하는 현재 프레임(x(2))에 중복값을 곱한 값(B*x(2))을 더하여 구할 수 있다. 이 경우, 중복값(B)는 음수이기 때문에 실질적으로는 중복성분을 제거하는 것과 같다. 수학식 1에서, B 값을 구하기 위해서 상관관계가 제거된 이전 프레임(y(1))과 현재 프레임(y(2))의 공분산(covariance)이 0이라는 관계를 이용할 수 있다. 이는 다음의 수학식 2와 같이 표현될 수 있다.
수학식 2에서, E[a]는 a에 대한 예측값을 나타내며, 공분산을 ∑로 표현하는 경우, ∑aa는 E[(X(a)-E[X(a)])(X(a)-E[X(a)])T]와 같이 표현될 수 있다. 이 경우, 수학식 2는 0=∑12 + B*∑22와 같이 표현될 수 있다. 중복값(B)은 -∑12 ∑22 -1이 됨을 알 수 있다. 따라서, 상관관계가 제거된 프레임(Y)에 대한 평균값(mean)은 다음의 수학식 3을 이용하여 구할 수 있다.
수학식 3에서, E[x(a)]은 μ(a)으로 대체된다.
한편, 상관관계가 제거된 프레임(Y)에 대한 공분산(covariance)은 다음의 수학식 4를 이용하여 구할 수 있다.
수학식 4에서, v(a)는 y(a)와 같은 개념이며, 앞서 설명한 바와 같이 상관관계가 제거된 프레임(Y)의 공분산의 경우 서로 독립적이므로, 공분산의 행렬의 대각선의 값은 0이 된다. 따라서, E[y(1)-v(1)][y(1)-v(1)]T는 ∑11-∑12 ∑22 -1∑21이며, E[y(2)-v(2)][y(2)-v(2)]T는 ∑22이 된다.
이상과 같이, 상관관계가 제거된 프레임(Y)에 평균값과 공분산값을 구하면, 이를 이용하여 조건부 확률밀도함수를 계산할 수 있다. 이 경우, 학습 데이터인 기 입력된 이전 프레임을 이용해 계산된 평균값과 공분산값은 이후의 과정에서 다시 계산하지 않고, 고정적으로 이용할 수 있다. 조건부 확률밀도함수에서 상관관계가 제거된 프레임에 대해서는 f(y(1)|y(2))=f(y(1), y(2))/f(y(2))와 같은 베이스의 법칙(Bayes' rule)이 적용되므로, f(y(1)|y(2))=f(y(1))·f(y(2))/f(y(2))이 된다. 즉, f(y(1)|y(2))=f(y(1))이 된다. 따라서, 상관관계가 제거된 프레임(Y)에 대한 조건부 확률밀도함수, f(y(1)|y(2))는 다음의 수학식 5와 같이 나타낼 수 있다.
수학식 5를 통해, 조건부확률 평균값(conditional mean), μy(1)|y(2) = μ(1)+∑12 ∑22 -1( y(2)-μ(2))이고, 조건부확률 공분산값(conditional covariance), ∑y(1)|y(2) = ∑11-∑12 ∑22 -1∑21이 됨을 알 수 있다. 이 경우, 조건부확률 평균값에는 과거 프레임 성분인 y(2)을 포함하고 있으나, 조건부확률 공분산값에는 과거 프레임 성분이 없음을 알 수 있다. 이와 같이, 이전 프레임에 대한 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 조건부확률 평균값은 이전 프레임에 대한 정보가 반영되어 계산된 값이 된다. 이는 종래의 PSVQ 방식보다 조건부 확률 평균값을 계산하는 계산량이 상대적으로 적다.
다음으로, 벡터 양자화부(130)는 현재 프레임에서 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 벡터 양자화된 제거 프레임의 차원을 재결합하고 조건부확률 평균값을 추가하여 현재 프레임을 복원한다(S230). 벡터 양자화부(130)는 조건부 확률 평균값 연산부(120)에서 계산된 조건부 확률 평균값을 고정하여 사용한다. 보다 구체적으로, 벡터 양자화부(130)는 부호화부(131), 복호화부(132), 코드북 DB(135)를 포함한다. 부호화부(131)는 현재 프레임에서 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화한다. 하나의 프레임을 복수의 차원으로 나누어서 양자화하는 기술을 스플릿 벡터 양자화(Split Vector Quantization, SVQ)라 한다.
한편, 복호화부(132)는 벡터 양자화된 제거 프레임의 차원을 재결합하고, 재결합된 제거 프레임에 조건부확률 평균값을 추가하여 현재 프레임을 복원한다. 이 경우, 부호화부(131)는 코드북 DB(135)에 저장된 기 학습된 음성 신호에 대한 코드북을 이용하여 제거 프레임을 부호화하고, 복호화부(132)는 다시 코드북을 이용하여 현재 프레임을 복원한다. 따라서, 음성신호를 압축하는데 있어서 상관관계가 제거된 프레임을 압축함으로써 압축 효율이 증가된다.
이와 같이, 각 프레임을 양자화하는 경우, 부호화부(131), 복호화부(132)에서는 미리 설정된 평균값과 공분산값을 이용하여 계산된 조건부 확률 평균값을 제거하여 양자화하기 때문에 기존의 벡터 양자화 방법에 비해 조건부 확률 평균값을 계산하는 계산량을 상대적으로 줄일 수 있다.
도 3은 도 2에 따른 음성 압축 방법을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.
도 3을 참조하면, 종래의 음성 압축 방법 중 과거 프레임과의 상관관계를 이용하는 방식 중, 예측 스플릿 벡터 양자화(Predictive Split Vector Quantization) 방법은 이전 프레임(M)과 현재 프레임(M+1)의 상관관계를 이용하되, 프레임 간에 대응되는 차원(dimension) 간에만 상관관계를 제거하게 된다. 이 경우, 현재 프레임의 각 차원은 이전 프레임의 대응되는 차원 외에 나머지 차원에도 영향을 받기 때문에 상관관계를 완전히 제거하지 못하므로, 압축 효율이 상대적으로 낮았다. 그러나, 본 발명의 조건부 스플릿 벡터 양자화(Conditional Split Vector Quantization, CSVQ) 방식의 경우, 이전 프레임에 포함되는 차원 전체와 현재 프레임의 각 차원 간의 상관관계가 제거됨으로써 음성 압축에 있어서 압축 효율이 PSVQ 보다 향상될 수 있다.
도 4는 도 2에 따른 음성 압축 방법을 이용한 경우의 압축 성능을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.
도 4를 참조하면, 각각의 표는 SVQ, PSVQ, CSVQ 방식에 따라 음성 압축을 하는 경우의 성능을 나타낸 것이다. 이는 120만 개의 음성 샘플을 이용하여 각 화자가 10 개 정도의 문장을 말한 데이터를 주파수 변환하여, 각 프레임에 따라 3개, 3개, 4개의 차원으로 나눠서 성능을 테스트한 결과이다. 여기서, 스펙트럼의 왜곡 평균(Average of Spectral Distortion)은 SVQ, PSVQ, CSVQ 순으로 나타났다. 따라서, 같은 스플릿 벡터 양자화 방법을 사용하더라도, 이전 프레임과의 상관관계를 고려함에 있어서, 본 발명의 CSVQ 방식이 더욱 효율적으로 음성을 압축할 수 있다는 것을 확인할 수 있다.
이와 같이, 본 발명에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법은 인터 프레임 방식으로 음성 신호를 압축함에 있어서, 기 입력된 이전 프레임의 전체 차원과 현재 프레임 간의 상관관계를 제거함으로써 압축 효율을 증가시킬 수 있다.
한편, 본 발명의 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.
100 : 음성 압축 장치
110 : 주파수 변환부
120 : 조건부확률 평균값 연산부
125 : 음성신호 DB
130 : 벡터 양자화부
131 : 부호화부
132 : 복호화부
135 : 코드북 DB
110 : 주파수 변환부
120 : 조건부확률 평균값 연산부
125 : 음성신호 DB
130 : 벡터 양자화부
131 : 부호화부
132 : 복호화부
135 : 코드북 DB
Claims (12)
- 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부;
기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 조건부확률 평균값 연산부; 및
상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치. - 제1항에 있어서,
상기 조건부확률 평균값 연산부는,
상기 이전 프레임과 상기 현재 프레임이 서로 독립적인 관계인 경우에 대한 상기 프레임들의 평균 또는 공분산을 계산하고, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수를 이용하여 상기 조건부확률 평균값을 계산하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치. - 제2항에 있어서,
상기 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 상기 조건부확률 평균값은 상기 이전 프레임에 대한 정보가 반영되어 계산된 값인 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치. - 제1항에 있어서,
상기 조건부확률 평균값 연산부는 상기 이전 프레임의 차원 전체에 대한 조건부확률 평균값을 계산하고,
상기 벡터 양자화부는 상기 현재 프레임의 차원에서 상기 조건부확률 평균값을 제거하여 벡터 양자화하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치. - 제1항에 있어서,
상기 벡터 양자화부는,
상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화부; 및
상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 복호화부를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치. - 제5항에 있어서,
상기 부호화부는 기 학습된 음성 신호에 대한 코드북을 이용하여 상기 제거 프레임을 부호화하고,
상기 복호화부는 상기 코드북을 이용하여 상기 현재 프레임을 복원하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치. - 음성 압축 장치의 음성 압축 방법에 있어서,
입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 단계;
기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 단계; 및
상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화 단계를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법. - 제7항에 있어서,
상기 조건부확률 평균값을 계산하는 단계는,
상기 이전 프레임과 상기 현재 프레임이 서로 독립적인 관계인 경우에 대한 상기 프레임들의 평균 또는 공분산을 계산하고, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수를 이용하여 상기 조건부확률 평균값을 계산하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법. - 제8항에 있어서,
상기 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 상기 조건부확률 평균값은 상기 이전 프레임에 대한 정보가 반영되어 계산된 값인 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법. - 제7항에 있어서,
상기 조건부확률 평균값을 계산하는 단계는 상기 이전 프레임의 차원 전체에 대한 조건부확률 평균값을 계산하고,
상기 벡터 양자화 단계는 상기 현재 프레임의 차원에서 상기 조건부확률 평균값을 제거하여 벡터 양자화하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법. - 제7항에 있어서,
상기 벡터 양자화 단계는,
상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화 단계; 및
상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 복호화 단계를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법. - 제11항에 있어서,
상기 부호화 단계는 기 학습된 음성 신호에 대한 코드북을 이용하여 상기 제거 프레임을 부호화하고,
상기 복호화 단계는 상기 코드북을 이용하여 상기 현재 프레임을 복원하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120007371A KR101276049B1 (ko) | 2012-01-25 | 2012-01-25 | 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120007371A KR101276049B1 (ko) | 2012-01-25 | 2012-01-25 | 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101276049B1 true KR101276049B1 (ko) | 2013-06-20 |
Family
ID=48867212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120007371A KR101276049B1 (ko) | 2012-01-25 | 2012-01-25 | 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101276049B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10247099A (ja) * | 1997-03-05 | 1998-09-14 | Dainippon Printing Co Ltd | 音声信号の符号化方法および音声の記録再生装置 |
JPH1173200A (ja) * | 1997-08-29 | 1999-03-16 | Dainippon Printing Co Ltd | 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体 |
KR20080039462A (ko) * | 2005-08-31 | 2008-05-07 | 마츠시타 덴끼 산교 가부시키가이샤 | 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법 |
KR20080093994A (ko) * | 2006-01-20 | 2008-10-22 | 마이크로소프트 코포레이션 | 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체 |
-
2012
- 2012-01-25 KR KR1020120007371A patent/KR101276049B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10247099A (ja) * | 1997-03-05 | 1998-09-14 | Dainippon Printing Co Ltd | 音声信号の符号化方法および音声の記録再生装置 |
JPH1173200A (ja) * | 1997-08-29 | 1999-03-16 | Dainippon Printing Co Ltd | 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体 |
KR20080039462A (ko) * | 2005-08-31 | 2008-05-07 | 마츠시타 덴끼 산교 가부시키가이샤 | 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법 |
KR20080093994A (ko) * | 2006-01-20 | 2008-10-22 | 마이크로소프트 코포레이션 | 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100712056B1 (ko) | 가변 비트율 음성 부호화에서의 선형 예측 매개변수들의견실한 예측 벡터 양자화를 위한 방법 및 장치 | |
JP5922684B2 (ja) | マルチチャネルの復号化装置 | |
EP2301022B1 (en) | Multi-reference lpc filter quantization device and method | |
US8909521B2 (en) | Coding method, coding apparatus, coding program, and recording medium therefor | |
US20110029304A1 (en) | Hybrid instantaneous/differential pitch period coding | |
US20060277040A1 (en) | Apparatus and method for coding and decoding residual signal | |
EP3696813B1 (en) | Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band | |
US20100191534A1 (en) | Method and apparatus for compression or decompression of digital signals | |
US9240192B2 (en) | Device and method for efficiently encoding quantization parameters of spectral coefficient coding | |
EP3624347B1 (en) | Split gain shape vector coding | |
US8326641B2 (en) | Apparatus and method for encoding and decoding using bandwidth extension in portable terminal | |
US8380495B2 (en) | Transcoding method, transcoding device and communication apparatus used between discontinuous transmission | |
US11621011B2 (en) | Methods and apparatus for rate quality scalable coding with generative models | |
US9425820B2 (en) | Vector quantization with non-uniform distributions | |
US20080255860A1 (en) | Audio decoding apparatus and decoding method | |
US20130268268A1 (en) | Encoding of an improvement stage in a hierarchical encoder | |
KR101276049B1 (ko) | 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 | |
US20080162150A1 (en) | System and Method for a High Performance Audio Codec | |
KR101341188B1 (ko) | Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법 | |
KR101348888B1 (ko) | Klt 기반 도메인 스위치 스플릿 벡터 양자화 방법 및 장치 | |
Kohata et al. | Bit rate reduction of the MELP coder using Lempel-Ziv segment quantization | |
KR101421256B1 (ko) | 휴대용 단말기의 대역 확장 기법을 이용한 부호화 장치 및방법 | |
Bouzid et al. | Channel optimized switched split vector quantization for wideband speech LSF parameters | |
Kamamoto et al. | Low-complexity PARCOR coefficient quantizer and prediction order estimator for G. 711.0 (Lossless Speech Coding) | |
Tan et al. | Quantization of speech features: source coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160525 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |