KR101276049B1 - 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 - Google Patents

조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 Download PDF

Info

Publication number
KR101276049B1
KR101276049B1 KR1020120007371A KR20120007371A KR101276049B1 KR 101276049 B1 KR101276049 B1 KR 101276049B1 KR 1020120007371 A KR1020120007371 A KR 1020120007371A KR 20120007371 A KR20120007371 A KR 20120007371A KR 101276049 B1 KR101276049 B1 KR 101276049B1
Authority
KR
South Korea
Prior art keywords
frame
conditional probability
conditional
average value
vector quantization
Prior art date
Application number
KR1020120007371A
Other languages
English (en)
Inventor
김무영
정원진
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020120007371A priority Critical patent/KR101276049B1/ko
Application granted granted Critical
Publication of KR101276049B1 publication Critical patent/KR101276049B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성 압축 장치 및 그 방법에 관한 것으로, 본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치는 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부와, 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 조건부확률 평균값 연산부와, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함한다.
이에 따라, 기 입력된 이전 프레임의 전체 차원과 현재 프레임 간의 상관관계를 제거함으로써 압축 효율을 증가시킬 수 있다.

Description

조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법{APPARATUS AND METHOD FOR VOICE COMPRESSING USING CONDITIONAL SPLIT VECTOR QUANTIZATION}
본 발명은 음성 압축 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 기술이 개시된다.
일반적으로 데이터 압축 기술은 코드북 학습을 위해서 GLA(Generalized Lloyd Algorithm)을 사용한다. 이 알고리즘은 초기값을 임의로 분포시키고, 입력 데이터에 대해서 초기값들과의 왜곡을 비교하여 왜곡이 가장 적은 초기값으로 데이터를 분류한다. 분류된 보로노이 영역내의 데이터들의 평균을 구하여 평균점으로 초기점들을 이동시킨다. 위 과정을 반복하여 최적의 코드벡터를 찾는 알고리즘이 GLA이다. GLA에서는 초기값을 임의로 분포시키는데 비해, 초기값을 전체 데이터 평균이 되는 지점에 하나를 선언하고, 초기값을 2의 자승으로 분할하면서 증가시키는 Linde-Buzo-Gray (LBG) 알고리즘도 널리 이용되고 있다.
한편, VQ(Vector Quantization)는 차원이 높아질수록 계산량이 매우 증가하기 때문에 10차원 LSF(Line Spectral Frequency) 데이터를 VQ하여 압축할 경우 엄청난 계산량을 초래하게 된다. 따라서 적절하게 차원을 나눠서 각각에 대하여 VQ를 하게 되는데 그 방법을 SVQ(Split Vector Quantization)라 한다. SVQ를 사용하면 VQ 보다 계산량은 줄어들지만, 나눠진 차원간의 상관관계를 고려하지 않으므로 차원 전체를 VQ 하는 방법보다 성능이 떨어지게 된다. 이렇게 차원을 나눠서 VQ 할 때 발생한 손실을 split loss라 한다. 이러한 손실이 있어도 계산량과 메모리 요구량의 한계 때문에 전체를 양자화하는 VQ 방법보다는 차원을 나눠서 계산하는 SVQ가 널리 이용되고 있다.
종래의 SVQ 방법으로 PSVQ가 제안되었다. PSVQ(Predictive Split Vector Quantization)는 현재 프레임에서 측정된 값에 바로 이전 프레임에서 측정된 값을 제거하고 남은 잔차를 압축하는 방식이다. 과거값을 보기 때문에 채널에 영향을 받지 않는 TTS(Text to Speech), 전화응답장치(TAD; Telephone Answering Device), 음성녹음기, 응급콜백시스템 등에 응용되면 보다 높은 성능을 얻을 수 있다. 그러므로 이 방법은 각 프레임 간의 상관관계를 고려하기 때문에 프레임 간 상관관계가 매우 높은 10차 LSF에 대한 압축율을 높일 수 있게 된다.
그러나, 종래의 PSVQ는 이전 프레임의 상관관계를 이용할 때, 현재 프레임에서 해당되는 차원의 상관관계만 이용하게 된다. 따라서, 데이터 압축시 사용되는 LSF는 차원 간의 상관 관계뿐만 아니라 전체 차원 간의 상관 관계에서 존재하기 때문에 기존에 사용하는 방법은 LSF 데이터의 상관 관계를 전부 이용하지 못하는 문제점이 있다.
본 발명의 배경이 되는 기술은 대한민국 공개특허공보 제10-2004-0078760호(2004. 09. 31)에 기재되어 있다.
본 발명이 이루고자 하는 기술적인 과제는 인터 프레임 방식으로 음성 신호를 압축함에 있어서, 입력된 이전 프레임과 입력되는 현재 프레임 간의 상관관계를 제거하여 압축 효율을 증가시키도록 하기 위함이다.
본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치는, 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부와, 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 조건부확률 평균값 연산부와, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함한다.
또한, 상기 조건부확률 평균값 연산부는, 상기 이전 프레임과 상기 현재 프레임이 서로 독립적인 관계인 경우에 대한 상기 프레임들의 평균 또는 공분산을 계산하고, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수를 이용하여 상기 조건부확률 평균값을 계산할 수 있다.
또한, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 상기 조건부확률 평균값은 상기 이전 프레임에 대한 정보가 반영되어 계산된 값일 수 있다.
또한, 상기 조건부확률 평균값 연산부는 상기 이전 프레임의 차원 전체에 대한 조건부확률 평균값을 계산하고, 상기 벡터 양자화부는 상기 현재 프레임의 차원에서 상기 조건부확률 평균값을 제거하여 벡터 양자화할 수 있다.
또한, 상기 벡터 양자화부는, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화부와, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 복호화부를 포함할 수 있다.
또한, 상기 부호화부는 기 학습된 음성 신호에 대한 코드북을 이용하여 상기 제거 프레임을 부호화하고, 상기 복호화부는 상기 코드북을 이용하여 상기 현재 프레임을 복원할 수 있다.
본 발명의 또 다른 실시예에 따른 음성 압축 장치의 음성 압축 방법은, 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 단계와, 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 단계와, 상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화 단계를 포함한다.
이와 같이, 본 발명에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법은 인터 프레임 방식으로 음성 신호를 압축함에 있어서, 기 입력된 이전 프레임의 전체 차원과 현재 프레임 간의 상관관계를 제거함으로써 압축 효율을 증가시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치의 구성도,
도 2는 도 1에 따른 음성 압축 장치에서 구현되는 음성 압축 방법의 흐름도,
도 3은 도 2에 따른 음성 압축 방법을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도,
도 4는 도 2에 따른 음성 압축 방법을 이용한 경우의 압축 성능을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치의 구성도이고, 도 2는 도 1에 따른 음성 압축 장치에서 구현되는 음성 압축 방법의 흐름도이다.
도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 압축 장치(100)는 주파수 변환부(110), 조건부확률 평균값 연산부(120), 음성신호 DB(125), 벡터 양자화부(130)를 포함한다. 주파수 변환부(110)는 입력된 음성신호의 각 프레임을 선형 스펙트럼 주파수로 변환한다(S210). 음성신호의 압축에는 파라미터들은 LPC(Linear Prediction Coding) 계수가 이용된다. LPC 계수를 양자화하는데 필요한 비트 레이트(bit rate)는 전체 비트 레이트에서 매우 높은 비율을 차지한다. 예를 들어 G.729 코더에서 전체 비트 레이트 중 LPC 계수의 비트 레이트 비율은 22.5%로 상대적으로 높은 비율을 가지기 때문에 이 파라미터는 음성 압축에 중요한 값임을 알 수 있다.
LPC 필터의 계수를 직접 양자화할 경우, 필터의 특성이 계수의 양자화 오차에 매우 민감하고 계수 양자화 후의 LPC 필터의 안정성이 보장되지 않는 문제점이 있으므로, LPC 계수를 양자화 성질이 좋은 다른 파라미터로 변환하여 양자화하여야 한다. 따라서, 본 발명에서는 LPC 계수를 선형 스펙트럼 주파수(Line Spectrum Frequency, LSF) 로 변환하여 사용한다.
다음으로, 조건부확률 평균값 연산부(120)는 기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산한다(S220). 주파수 변환부(110)에는 프레임 단위로 음성신호가 입력되며, 조건부확률 평균값 연산부(120)는 기 입력된 음성신호인 이전 프레임에 대해 조건부확률 평균값을 계산하여 음성신호 DB(125)에 저장한다. 조건부확률 평균값은 이전 프레임과 현재 프레임 간의 상관관계를 제거하기 위해 계산되는 값으로, 이전 프레임과 현재 프레임이 서로 독립적일 때의 확률값으로 계산된다. 즉, 조건부확률 평균값 연산부(120)는 이전 프레임과 현재 프레임이 서로 독립적인 관계인 경우, 프레임들의 평균 또는 공분산을 계산하고, 평균 또는 공분산에 대한 가우시안 확률밀도함수(Gaussian PDF)를 이용하여 조건부확률 평균값을 계산한다.
예를 들어, 서로 상관관계가 있는 임의의 이전 프레임(x(1))과 현재 프레임(x(2))에 대해 상관관계를 제거한 경우, 상관관계가 제거된 이전 프레임(y(1))과 현재 프레임(y(2)) 사이에는 다음의 수학식 1과 같이 표현할 수 있다.
Figure 112012006141515-pat00001
수학식 1에서, B는 이전 프레임과 현재 프레임 간의 중복값을 나타낸다. 따라서, 상관관계가 제거된 이전 프레임(y(1))은 상관관계가 존재하는 이전 프레임(x(1))에 상관관계가 존재하는 현재 프레임(x(2))에 중복값을 곱한 값(B*x(2))을 더하여 구할 수 있다. 이 경우, 중복값(B)는 음수이기 때문에 실질적으로는 중복성분을 제거하는 것과 같다. 수학식 1에서, B 값을 구하기 위해서 상관관계가 제거된 이전 프레임(y(1))과 현재 프레임(y(2))의 공분산(covariance)이 0이라는 관계를 이용할 수 있다. 이는 다음의 수학식 2와 같이 표현될 수 있다.
Figure 112012006141515-pat00002
수학식 2에서, E[a]는 a에 대한 예측값을 나타내며, 공분산을 ∑로 표현하는 경우, ∑aa는 E[(X(a)-E[X(a)])(X(a)-E[X(a)])T]와 같이 표현될 수 있다. 이 경우, 수학식 2는 0=∑12 + B*∑22와 같이 표현될 수 있다. 중복값(B)은 -∑12 22 -1이 됨을 알 수 있다. 따라서, 상관관계가 제거된 프레임(Y)에 대한 평균값(mean)은 다음의 수학식 3을 이용하여 구할 수 있다.
Figure 112012006141515-pat00003
수학식 3에서, E[x(a)]은 μ(a)으로 대체된다.
한편, 상관관계가 제거된 프레임(Y)에 대한 공분산(covariance)은 다음의 수학식 4를 이용하여 구할 수 있다.
Figure 112012006141515-pat00004
수학식 4에서, v(a)는 y(a)와 같은 개념이며, 앞서 설명한 바와 같이 상관관계가 제거된 프레임(Y)의 공분산의 경우 서로 독립적이므로, 공분산의 행렬의 대각선의 값은 0이 된다. 따라서, E[y(1)-v(1)][y(1)-v(1)]T는 ∑11-∑12 22 -121이며, E[y(2)-v(2)][y(2)-v(2)]T는 ∑22이 된다.
이상과 같이, 상관관계가 제거된 프레임(Y)에 평균값과 공분산값을 구하면, 이를 이용하여 조건부 확률밀도함수를 계산할 수 있다. 이 경우, 학습 데이터인 기 입력된 이전 프레임을 이용해 계산된 평균값과 공분산값은 이후의 과정에서 다시 계산하지 않고, 고정적으로 이용할 수 있다. 조건부 확률밀도함수에서 상관관계가 제거된 프레임에 대해서는 f(y(1)|y(2))=f(y(1), y(2))/f(y(2))와 같은 베이스의 법칙(Bayes' rule)이 적용되므로, f(y(1)|y(2))=f(y(1))·f(y(2))/f(y(2))이 된다. 즉, f(y(1)|y(2))=f(y(1))이 된다. 따라서, 상관관계가 제거된 프레임(Y)에 대한 조건부 확률밀도함수, f(y(1)|y(2))는 다음의 수학식 5와 같이 나타낼 수 있다.
Figure 112012006141515-pat00005
수학식 5를 통해, 조건부확률 평균값(conditional mean), μy(1)|y(2) = μ(1)+∑12 22 -1( y(2)(2))이고, 조건부확률 공분산값(conditional covariance), ∑y(1)|y(2) = ∑11-∑12 22 -121이 됨을 알 수 있다. 이 경우, 조건부확률 평균값에는 과거 프레임 성분인 y(2)을 포함하고 있으나, 조건부확률 공분산값에는 과거 프레임 성분이 없음을 알 수 있다. 이와 같이, 이전 프레임에 대한 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 조건부확률 평균값은 이전 프레임에 대한 정보가 반영되어 계산된 값이 된다. 이는 종래의 PSVQ 방식보다 조건부 확률 평균값을 계산하는 계산량이 상대적으로 적다.
다음으로, 벡터 양자화부(130)는 현재 프레임에서 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 벡터 양자화된 제거 프레임의 차원을 재결합하고 조건부확률 평균값을 추가하여 현재 프레임을 복원한다(S230). 벡터 양자화부(130)는 조건부 확률 평균값 연산부(120)에서 계산된 조건부 확률 평균값을 고정하여 사용한다. 보다 구체적으로, 벡터 양자화부(130)는 부호화부(131), 복호화부(132), 코드북 DB(135)를 포함한다. 부호화부(131)는 현재 프레임에서 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화한다. 하나의 프레임을 복수의 차원으로 나누어서 양자화하는 기술을 스플릿 벡터 양자화(Split Vector Quantization, SVQ)라 한다.
한편, 복호화부(132)는 벡터 양자화된 제거 프레임의 차원을 재결합하고, 재결합된 제거 프레임에 조건부확률 평균값을 추가하여 현재 프레임을 복원한다. 이 경우, 부호화부(131)는 코드북 DB(135)에 저장된 기 학습된 음성 신호에 대한 코드북을 이용하여 제거 프레임을 부호화하고, 복호화부(132)는 다시 코드북을 이용하여 현재 프레임을 복원한다. 따라서, 음성신호를 압축하는데 있어서 상관관계가 제거된 프레임을 압축함으로써 압축 효율이 증가된다.
이와 같이, 각 프레임을 양자화하는 경우, 부호화부(131), 복호화부(132)에서는 미리 설정된 평균값과 공분산값을 이용하여 계산된 조건부 확률 평균값을 제거하여 양자화하기 때문에 기존의 벡터 양자화 방법에 비해 조건부 확률 평균값을 계산하는 계산량을 상대적으로 줄일 수 있다.
도 3은 도 2에 따른 음성 압축 방법을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.
도 3을 참조하면, 종래의 음성 압축 방법 중 과거 프레임과의 상관관계를 이용하는 방식 중, 예측 스플릿 벡터 양자화(Predictive Split Vector Quantization) 방법은 이전 프레임(M)과 현재 프레임(M+1)의 상관관계를 이용하되, 프레임 간에 대응되는 차원(dimension) 간에만 상관관계를 제거하게 된다. 이 경우, 현재 프레임의 각 차원은 이전 프레임의 대응되는 차원 외에 나머지 차원에도 영향을 받기 때문에 상관관계를 완전히 제거하지 못하므로, 압축 효율이 상대적으로 낮았다. 그러나, 본 발명의 조건부 스플릿 벡터 양자화(Conditional Split Vector Quantization, CSVQ) 방식의 경우, 이전 프레임에 포함되는 차원 전체와 현재 프레임의 각 차원 간의 상관관계가 제거됨으로써 음성 압축에 있어서 압축 효율이 PSVQ 보다 향상될 수 있다.
도 4는 도 2에 따른 음성 압축 방법을 이용한 경우의 압축 성능을 종래의 음성 압축 방법과 비교 설명하기 위한 예시도이다.
도 4를 참조하면, 각각의 표는 SVQ, PSVQ, CSVQ 방식에 따라 음성 압축을 하는 경우의 성능을 나타낸 것이다. 이는 120만 개의 음성 샘플을 이용하여 각 화자가 10 개 정도의 문장을 말한 데이터를 주파수 변환하여, 각 프레임에 따라 3개, 3개, 4개의 차원으로 나눠서 성능을 테스트한 결과이다. 여기서, 스펙트럼의 왜곡 평균(Average of Spectral Distortion)은 SVQ, PSVQ, CSVQ 순으로 나타났다. 따라서, 같은 스플릿 벡터 양자화 방법을 사용하더라도, 이전 프레임과의 상관관계를 고려함에 있어서, 본 발명의 CSVQ 방식이 더욱 효율적으로 음성을 압축할 수 있다는 것을 확인할 수 있다.
이와 같이, 본 발명에 따른 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법은 인터 프레임 방식으로 음성 신호를 압축함에 있어서, 기 입력된 이전 프레임의 전체 차원과 현재 프레임 간의 상관관계를 제거함으로써 압축 효율을 증가시킬 수 있다.
한편, 본 발명의 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.
100 : 음성 압축 장치
110 : 주파수 변환부
120 : 조건부확률 평균값 연산부
125 : 음성신호 DB
130 : 벡터 양자화부
131 : 부호화부
132 : 복호화부
135 : 코드북 DB

Claims (12)

  1. 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부;
    기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 조건부확률 평균값 연산부; 및
    상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
  2. 제1항에 있어서,
    상기 조건부확률 평균값 연산부는,
    상기 이전 프레임과 상기 현재 프레임이 서로 독립적인 관계인 경우에 대한 상기 프레임들의 평균 또는 공분산을 계산하고, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수를 이용하여 상기 조건부확률 평균값을 계산하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
  3. 제2항에 있어서,
    상기 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 상기 조건부확률 평균값은 상기 이전 프레임에 대한 정보가 반영되어 계산된 값인 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
  4. 제1항에 있어서,
    상기 조건부확률 평균값 연산부는 상기 이전 프레임의 차원 전체에 대한 조건부확률 평균값을 계산하고,
    상기 벡터 양자화부는 상기 현재 프레임의 차원에서 상기 조건부확률 평균값을 제거하여 벡터 양자화하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
  5. 제1항에 있어서,
    상기 벡터 양자화부는,
    상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화부; 및
    상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 복호화부를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
  6. 제5항에 있어서,
    상기 부호화부는 기 학습된 음성 신호에 대한 코드북을 이용하여 상기 제거 프레임을 부호화하고,
    상기 복호화부는 상기 코드북을 이용하여 상기 현재 프레임을 복원하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치.
  7. 음성 압축 장치의 음성 압축 방법에 있어서,
    입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 단계;
    기 입력된 이전 프레임을 이용하여 현재 프레임과의 상관관계에 대한 조건부확률 평균값을 계산하는 단계; 및
    상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화 단계를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
  8. 제7항에 있어서,
    상기 조건부확률 평균값을 계산하는 단계는,
    상기 이전 프레임과 상기 현재 프레임이 서로 독립적인 관계인 경우에 대한 상기 프레임들의 평균 또는 공분산을 계산하고, 상기 평균 또는 공분산에 대한 가우시안 확률밀도함수를 이용하여 상기 조건부확률 평균값을 계산하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
  9. 제8항에 있어서,
    상기 평균 또는 공분산에 대한 가우시안 확률밀도함수는 조건부확률 평균값 또는 조건부확률 공분산값을 포함하며, 상기 조건부확률 평균값은 상기 이전 프레임에 대한 정보가 반영되어 계산된 값인 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
  10. 제7항에 있어서,
    상기 조건부확률 평균값을 계산하는 단계는 상기 이전 프레임의 차원 전체에 대한 조건부확률 평균값을 계산하고,
    상기 벡터 양자화 단계는 상기 현재 프레임의 차원에서 상기 조건부확률 평균값을 제거하여 벡터 양자화하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
  11. 제7항에 있어서,
    상기 벡터 양자화 단계는,
    상기 현재 프레임에서 상기 조건부확률 평균값을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화 단계; 및
    상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 조건부확률 평균값을 추가하여 상기 현재 프레임을 복원하는 복호화 단계를 포함하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
  12. 제11항에 있어서,
    상기 부호화 단계는 기 학습된 음성 신호에 대한 코드북을 이용하여 상기 제거 프레임을 부호화하고,
    상기 복호화 단계는 상기 코드북을 이용하여 상기 현재 프레임을 복원하는 조건부 스플릿 벡터 양자화를 이용한 음성 압축 방법.
KR1020120007371A 2012-01-25 2012-01-25 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 KR101276049B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120007371A KR101276049B1 (ko) 2012-01-25 2012-01-25 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120007371A KR101276049B1 (ko) 2012-01-25 2012-01-25 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR101276049B1 true KR101276049B1 (ko) 2013-06-20

Family

ID=48867212

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120007371A KR101276049B1 (ko) 2012-01-25 2012-01-25 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101276049B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10247099A (ja) * 1997-03-05 1998-09-14 Dainippon Printing Co Ltd 音声信号の符号化方法および音声の記録再生装置
JPH1173200A (ja) * 1997-08-29 1999-03-16 Dainippon Printing Co Ltd 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体
KR20080039462A (ko) * 2005-08-31 2008-05-07 마츠시타 덴끼 산교 가부시키가이샤 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법
KR20080093994A (ko) * 2006-01-20 2008-10-22 마이크로소프트 코포레이션 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10247099A (ja) * 1997-03-05 1998-09-14 Dainippon Printing Co Ltd 音声信号の符号化方法および音声の記録再生装置
JPH1173200A (ja) * 1997-08-29 1999-03-16 Dainippon Printing Co Ltd 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体
KR20080039462A (ko) * 2005-08-31 2008-05-07 마츠시타 덴끼 산교 가부시키가이샤 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법
KR20080093994A (ko) * 2006-01-20 2008-10-22 마이크로소프트 코포레이션 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체

Similar Documents

Publication Publication Date Title
KR100712056B1 (ko) 가변 비트율 음성 부호화에서의 선형 예측 매개변수들의견실한 예측 벡터 양자화를 위한 방법 및 장치
JP5922684B2 (ja) マルチチャネルの復号化装置
EP2301022B1 (en) Multi-reference lpc filter quantization device and method
US8909521B2 (en) Coding method, coding apparatus, coding program, and recording medium therefor
US20110029304A1 (en) Hybrid instantaneous/differential pitch period coding
US20060277040A1 (en) Apparatus and method for coding and decoding residual signal
EP3696813B1 (en) Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
US20100191534A1 (en) Method and apparatus for compression or decompression of digital signals
US9240192B2 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
EP3624347B1 (en) Split gain shape vector coding
US8326641B2 (en) Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
US8380495B2 (en) Transcoding method, transcoding device and communication apparatus used between discontinuous transmission
US11621011B2 (en) Methods and apparatus for rate quality scalable coding with generative models
US9425820B2 (en) Vector quantization with non-uniform distributions
US20080255860A1 (en) Audio decoding apparatus and decoding method
US20130268268A1 (en) Encoding of an improvement stage in a hierarchical encoder
KR101276049B1 (ko) 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법
US20080162150A1 (en) System and Method for a High Performance Audio Codec
KR101341188B1 (ko) Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법
KR101348888B1 (ko) Klt 기반 도메인 스위치 스플릿 벡터 양자화 방법 및 장치
Kohata et al. Bit rate reduction of the MELP coder using Lempel-Ziv segment quantization
KR101421256B1 (ko) 휴대용 단말기의 대역 확장 기법을 이용한 부호화 장치 및방법
Bouzid et al. Channel optimized switched split vector quantization for wideband speech LSF parameters
Kamamoto et al. Low-complexity PARCOR coefficient quantizer and prediction order estimator for G. 711.0 (Lossless Speech Coding)
Tan et al. Quantization of speech features: source coding

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160525

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee