KR100463577B1 - 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치 - Google Patents

음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치 Download PDF

Info

Publication number
KR100463577B1
KR100463577B1 KR10-2002-0070752A KR20020070752A KR100463577B1 KR 100463577 B1 KR100463577 B1 KR 100463577B1 KR 20020070752 A KR20020070752 A KR 20020070752A KR 100463577 B1 KR100463577 B1 KR 100463577B1
Authority
KR
South Korea
Prior art keywords
vector
lsf
speech
quantization
quantizer
Prior art date
Application number
KR10-2002-0070752A
Other languages
English (en)
Other versions
KR20040040265A (ko
Inventor
지덕구
최송인
김대식
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20040040265A publication Critical patent/KR20040040265A/ko
Application granted granted Critical
Publication of KR100463577B1 publication Critical patent/KR100463577B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 음성 부호화기용 LSF 벡터 양자화 장치에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 음성 부호화기의 LSP 계수 양자화시 메모리에 대한 요구가 없고 계산량이 적은 격자 구조를 사용하고, 음성/비음성 프레임에 따른 설계 및 가중치 적용으로 양자화 성능을 향상시키기 위한 음성 부호화기용 선스펙트럼주파수(LSF) 벡터 양자화 장치를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 음성 부호화기용 선스펙트럼주파수(LSF) 벡터 양자화 장치에 있어서, 현재 프레임의 음성/비음성 정보에 따라, 선스펙트럼주파수(LSF) 벡터의 양자화 방식을 결정하기 위한 선택수단; 상기 선택수단에 의해 선택되어, 음성 프레임의 LSF 벡터에 LSF 계수의 차수에 따른 가중치를 적용하여 양자화하기 위한 음성 프레임용 양자화수단; 상기 선택수단에 의해 선택되어, 비음성 프레임의 LSF 벡터에 LSF 계수의 차수에 따른 가중치를 적용하여 양자화하기 위한 비음성 프레임용 양자화수단; 및 상기 음성/비음성 프레임용 양자화수단에 의해 양자화된 LSF 벡터를 선택 출력하기 위한 출력수단을 포함함.
4. 발명의 중요한 용도
본 발명은 음성 부호화기 등에 이용됨.

Description

음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치{LSF quantization apparatus for voice decoder}
본 발명은 음성 부호화기용 선스펙트럼주파수(LSF : Line Spectral Frequency) 벡터 양자화 장치에 관한 것으로서, 특히 음성 부호화기(codec)의 선스펙트럼쌍(LSP : Line Spectrum Pairs) 계수 양자화시 계산량이 많은 코드북 탐색과정에서 요구되는 많은 메모리와 계산량을 줄일 수 있는 격자 구조 양자화기의 성능 개선 방안에 관한 것이다.
LSP라고도 하는 LSF는 선형예측계수(LPC : Linear Predictive Coefficient)와 수학적으로 등가이면서, 음성의 포만트 영역을 잘 드러내는 특성을 가지고 있다. 또한, 순서 성질(ordering property)을 지니면서 동적 영역(dynamic range)도 (0,π)로 제한되어 있으므로 양자화 특성과 보간 특성이 우수하다. 따라서, 합성음의 품질의 저하를 최소화할 수 있어 전송측면에서 효율적인 양호한 특징벡터이다.
그런데, 음성 부호화기에서 고음질의 음성 부호화를 위해서는, 음성신호의 단구간 상관도를 나타내는 LSF 계수를 효율적으로 양자화하는 것이 매우 중요하다. LPC 필터의 최적 선형예측계수값은 입력 음성신호를 프레임 단위로 나누어 각 프레임별로 예측 오차의 에너지를 최소화시키는 개념으로 구해진다. 일반적으로, LPC 필터의 계수를 직접 양자화할 경우, 필터의 특성이 계수의 양자화 오차에 매우 민감하고 계수 양자화후의 LPC 필터의 안정성이 보장되지 않는 문제점이 있다. 따라서, LPC 계수는 양자화 성질이 좋은 반사계수(reflection coefficient) 또는 LSF로 변환하여 양자화한다. 특히, LSF 값은 음성의 주파수 특성과 밀접하게 연관되는 성질이 있어 최근의 음성 압축기들은 대부분 LSF 양자화 방법을 사용한다.
일반적인 벡터 양자화기는 저장된 코드북의 벡터와 입력 벡터 사이의 유클리디안 거리(euclidean distance)를 계산하여 가장 짧은 거리를 갖는 벡터를 탐색해야 하므로 LPC 계수의 차수와 코드북 길이의 증가에 따라 많은 메모리량과 코드북 탐색 계산량을 필요로 한다. 반면에, 격자 벡터 양자화기는 단지 코드북의 인덱스만 저장하고, 부호화시에도 코드북 탐색의 과정없이 손쉽게 출력 벡터를 계산해 낼 수 있다.
일반적으로, 격자는 하기의 [수학식 1]과 같이 정의되는 n-차원 벡터들의 집합이다.
격자 벡터 양자화기는 크게 균일 격자 벡터 양자화기와 의사 균일 격자 벡터양자화기로 나누어지고, 코드북의 형태에 따라 구형 격자 벡터 양자화기와 피라미드형 격자 벡터 양자화기가 있는데, 구형 격자 벡터 양자화기는 가우시안(gaussian) 분포를 갖는 소스에 적합하며, 피라미드형 격자 벡터 양자화기는 라플라시안(laplacian) 분포를 갖는 소스에 적합하다.
LSF 계수는 프레임간 큰 상관 관계를 갖는다. 이러한 상관 관계를 이용하여 과거 프레임의 LSF 계수 정보로부터 현재 프레임의 LSF 계수를 예측하여 예측 오차를 계산한다. LSF 예측 오차는 라플라시안 분포를 가지므로 피라미드 벡터 양자화방법에 적합하다.
예측 방법은 AR(Auto-Regressive) 필터와 MA(Moving Average) 필터를 사용하는 방법이 있는데, AR 필터는 예측 성능이 우수한 반면, 계수 전달 오류의 영향이 수신측에서 프레임의 진행에 따라 계속 전파되는 단점이 있다. 반면에, MA 필터는 AR 필터에 비하여 예측 성능은 떨어지지만, 전달 오류의 영향이 시간적으로 제한되는 장점이 있다. 따라서, 전달 오류가 많이 발생하는 무선통신 환경에서 사용되는 AMR, CS-ACELP, EVRC 등의 음성 부호화기는 MA 필터를 이용한 예측이 사용되고 있다. AR 예측기를 사용한 예측 피라미드 벡터 양자화기(PPVC : Predictive Pyramid Vector Quantization)는 이러한 문제를 해결하기 위한 방법으로, 메모리 기반 예측 피라미드 벡터 양자화기(PPVQ)의 양자화 벡터와 비메모리 기반 피라미드 벡터 양자화기(memoryless PVQ : memoryless Pyramid Vector Quantization)의 양자화 벡터 중에서 입력 LSF 계수 벡터와의 유클리디안 거리(euclidean distance)가 작은 양자화 벡터를 선택하여 출력하는 safety-net 피라미드 벡터 양자화 방법이 있다. 즉, 기존의 Safety-net 피라미드 벡터 양자화기는 LSF 계수 양자화시 DC 성분이 제거된 LSF 계수벡터를 입력받아 양자화하는 비메모리 기반 파라미드 벡터 양자화기(memoryless PVQ)와 DC 성분이 제거된 LSF 계수 벡터와 예측기로 예측된 벡터간의 차인 예측 에러 신호를 입력받아 피라미드 벡터 양자화하는 예측 피라미드 벡터 양자화기(PPVQ)기에서 각각 양자화된 양자화 출력 벡터 중에서 입력 LSF 계수 벡터와의 유클리디안 거리(euclidean distance)가 적은 벡터를 최종 출력 벡터로 선택하는 방법이다.
그런데, 피라미드 벡터 양자화기(PVQ)는 입력 벡터의 차수가 20이상일 때 n의 값에 상관없이이 상수값에 가까운 값을 갖게 된다. 그러나, 벡터 차수가 20이하일 때에는의 분산값이 커져서 상수값으로 볼 수 없는 단점이 있다. 일반적으로, 협대역 음성 부호화기에서는 10차의 LPC 계수를 사용하며, 3GPP IMT-2000 시스템용 광대역 음성 부호화기로 표준화된 AMR_WB(Adaptive Multi-Rate_Wideband) 음성 부호화기에서는 16차의 LPC 계수를 사용한다. 그렇기 때문에, 단일 피라미드를 사용하여 음성 부호화기의 LPC 계수를 양자화할 때 많은 오차가 발생하게 된다. 이러한 단점을 보완하기 위하여 적산 코드 PVQ(Product Code PVQ)가 제안되었는데, 이 적산 코드 PVQ(PCPVQ : Product Code PVQ)는 양자화기 입력 벡터를 정규화(normalization)한 후 단일 피라미드를 사용하여 양자화하고, 정규화 요소값을 사용하여 양자화된 피라미드를 인덱싱(indexing)하는 방식이다. 여기서, Q(ㆍ)는 스칼라 양자화기를 의미한다. 만약,이 PVQ의 출력 벡터이고,이 스칼라 양자화기의 출력값이라면, 적산 코드 PVQ의 출력 벡터은 하기의 [수학식 2]와 같이 구할 수 있다.
이렇게 함으로써, 스칼라 양자화기의 양자화 레벨수 만큼의 피라미드를 사용하는 효과를 얻을 수 있다. PVQ의 평균 벡터 차수당 비트율을 Rp, 스칼라 양자화기에 할당된 비트를 Rr이라 하면 전체 비트율 R은 하기의 [수학식 3]을 만족한다.
일반적인 벡터 양자화에서 전체 벡터를 한꺼번에 양자화하는 것은 벡터 테이블의 크기가 너무 커지고 검색 시간이 많이 소요되므로 전체 벡터를 여러 개의 부벡터로 나누어 각각을 독립적으로 벡터 양자화하는 분할 벡터 양자화(split vector quantization) 방법이 사용된다. 음성 부호화기의 LPC 필터는 주로 all-pole 필터로 구성되며, 낮은 차수의 LPC 계수의 양자화 오차에 의한 영향이 높은 차수의 LPC 계수의 양자화 오차에 의한 영향보다 크다. 따라서, 분할 벡터 양자화에서는 낮은 차수의 분할 벡터에 더 많은 비트를 할당하고 있다. 그러나, 격자 벡터 양자화 방법은 입력 벡터를 full 벡터의 형태로 양자화하므로 특정 차수의 LPC 계수에 많은 비트를 할당하는 것이 불가능하다.
따라서, 현재의 기술분야에서는 음성 부호화기의 LSP 계수 양자화시 많은 메모리와 계산량이 필요한 일반 코드북 대신, 코드북 탐색 과정에서 요구되는 계산량이 적고 코드북을 위한 메모리를 필요치 않는 격자 구조 양자화기의 성능 개선이절실히 요구되며, 이를 통해 LSP 계수 양자화시 코드북 및 코드북 탐색 알고리즘이 필요 없으므로 메모리 및 계산량의 감소를 실현하고자 한다.
본 발명은, 상기한 바와 같은 요구에 부응하기 위하여 제안된 것으로, 음성 부호화기의 LSP 계수 양자화시 메모리에 대한 요구가 없고 계산량이 적은 격자 구조를 사용하고, 음성/비음성 프레임에 따른 설계 및 가중치 적용으로 양자화 성능을 향상시키기 위한 음성 부호화기용 선스펙트럼주파수(LSF) 벡터 양자화 장치를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 음성 부호화기용 LSF 벡터 양자화 장치의 일실시예 전체 구성도.
도 2 는 본 발명에 따른 상기 도 1의 피라미드 벡터 양자화기(PVQ)의 일실시예 상세 구성도.
도 3 은 본 발명에 따른 상기 도 2의 메모리 기반 예측 피라미드 벡터 양자화기(PPVQ)의 일실시예 상세 구성도.
* 도면의 주요 부분에 대한 부호의 설명
11,14 : 스위치
12 : 음성 프레임용 피라미드 벡터 양자화기(PVQ)
13 : 비음성 프레임용 피라미드 벡터 양자화기(PVQ)
상기 목적을 달성하기 위한 본 발명은, 음성 부호화기용 선스펙트럼주파수(LSF) 벡터 양자화 장치에 있어서, 현재 프레임의 음성/비음성 정보에 따라, 선스펙트럼주파수(LSF) 벡터의 양자화 방식을 결정하기 위한 선택수단; 상기 선택수단에 의해 선택되어, 음성 프레임의 LSF 벡터에 LSF 계수의 차수에 따른 가중치를 적용하여 양자화하기 위한 음성 프레임용 양자화수단; 상기 선택수단에 의해 선택되어, 비음성 프레임의 LSF 벡터에 LSF 계수의 차수에 따른 가중치를 적용하여 양자화하기 위한 비음성 프레임용 양자화수단; 및 상기 음성/비음성 프레임용 양자화수단에 의해 양자화된 LSF 벡터를 선택 출력하기 위한 출력수단을 포함하여 이루어진 것을 특징으로 한다.
본 발명은 음성 부호화기의 LSF VQ 계산량 감소를 위한 격자 구조 양자화기의 성능 개선 방안에 관한 것으로, 음성의 불활성화(speech inactivity)를 고려하여 음성 프레임 구간과 비음성 프레임 구간에 따라 설계된 피라미드 벡터 양자화기(PVQ)를 적용함으로써 양자화의 효율을 더욱 증대시키고자 한다.
이를 위해, 본 발명은 음성 부호화기의 LSP 계수 양자화시 많은 메모리와 계산량이 필요한 일반 코드북 대신, LSP 계수 양자화시 메모리에 대한 요구가 없고 계산량이 적은 격자 구조를 사용하고, 음성/비음성 프레임에 따라 각각 설계된 격자 구조 양자화기와 LSP 계수의 차수에 따른 가중치를 적용함으로써, LSP 계수 양자화시 코드북 및 코드북 탐색 알고리즘이 필요없으므로 메모리 및 계산량의 감소를 실현할 수 있다. 즉, 본 발명은 PVQ의 입력 신호를 음성 프레임 구간과 비음성 프레임 구간으로 구분하여 양자화기를 설계하고, LSP 계수의 차수에 따라 가중치를 적용하여 양자화함으로써, 기존의 PVQ보다 oulier를 줄이며 향상된 성능을 구현할 수 있다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 음성 부호화기용 LSF 벡터 양자화 장치의 일실시예 전체 구성도이며, 도 2 는 도 1의 피라미드 벡터 양자화기(PVQ)의 일실시예 상세 구성도이고, 도 3 은 도 2의 메모리 기반 예측 피라미드 벡터 양자화기(PPVQ)의 일실시예 상세 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 음성 부호화기용 선스펙트럼주파수(LSF) 벡터 양자화 장치는, 현재 프레임의 음성/비음성 정보에 따라, 선스펙트럼주파수(LSF) 벡터의 양자화 방식을 결정하기 위한 스위치(11)와, 스위치(11)에 의해 선택되어, 음성 프레임의 LSF 벡터에 LSF 계수의 차수에 따른 가중치를 적용하여 양자화하기 위한 음성 프레임용 피라미드 벡터 양자화기(PVQ)(12)와, 스위치(11)에 의해 선택되어, 비음성 프레임의 LSF 벡터에 LSF 계수의 차수에 따른 가중치를 적용하여 양자화하기 위한 비음성 프레임용 피라미드 벡터 양자화기(PVQ)(13)와, 음성/비음성 프레임용 피라미드 벡터 양자화기(PVQ)(11,12)에 의해 양자화된 LSF 벡터를 선택 출력하기 위한 스위치(14)를 포함한다.
스위치(11)는 음성 프레임/비음성 프레임 정보에 따라 음성 프레임용 safety-net PVQ(12)와 비음성 프레임용 safety-net PVQ(13)를 선택한다. 따라서, 음성 부호화기(codec)의 VAD(Voice Activity Detection)에서 제공되는 음성/비음성 프레임 정보를 이용하여, 각각의 음성/비음성 프레임에 대하여 설계된 safety-net 피라미드 벡터 양자화기(12,13)를 적용한다. 즉, 음성 프레임의 LSF 입력 벡터에 대해서는 음성 프레임에 맞게 설계된 비메모리 기반 피라미드 벡터 양자화기(memoryless PVQ) 및 메모리 기반 예측 피라미드 벡터 양자화기(PPVQ)로 구성된 음성 프레임용 Safety-net 피라미드 벡터 양자화기(PVQ)(12)를 적용한다. 그리고, 비음성 프레임의 LSF 입력 벡터에 대해서는 비음성 프레임에 맞게 설계된 비메모리 기반 피라미드 벡터 양자화기(memoryless PVQ)와 메모리 기반 예측 피라미드 벡터 양자화기(PPVQ)로 구성된 비음성 프레임용 Safety-net 피라미드 벡터 양자화기(PVQ)(13)를 적용한다.
도 2에 도시된 바와 같이, 음성/비음성 프레임용 피라미드 벡터 양자화기(PVQ)(20)는 디씨(DC) 성분이 제거된 LSF 입력 벡터를 정규화한 후 양자화하기 위한 비메모리 기반의 적산 코드(Product Code) 피라미드 벡터 양자화기(memoryless PVQ)(22)와, 입력 예측 에러 벡터에 LSF 벡터의 차수에 따른 가중치를 곱하고, 출력 벡터를 가중치로 나누는 메모리 기반의 적산 코드 예측 피라미드 벡터 양자화기(PPVQ)(21)와, 비메모리 기반의 적산 코드 피라미드 벡터 양자화기(memoryless PVQ)(22) 및 메모리 기반의 적산 코드 예측 피라미드 벡터 양자화기(PPVQ)(21)에서 양자화된 두 후보 벡터 중 원래 입력 벡터와의 유클리디안 거리를 최소화하는 후보 벡터를 최종적인 양자화 벡터로 선택하기 위한 선택기(23)를 포함한다.
특히, 메모리 기반의 적산 코드 예측 피라미드 벡터 양자화기(PPVQ)(21)는 도 3에 도시된 바와 같이 음성 및 비음성 프레임용 피라미드 벡터 양자화기(PVQ)(12,13)의 입력 예측 에러 벡터에 LSF 벡터의 차수에 따른 가중치를 곱하는 곱셈기(34)와, 음성 및 비음성 프레임용 피라미드 벡터 양자화기(PVQ)(12,13) 각각의 출력 벡터를 가중치로 나누는 나눗셈기(36)를 포함한다.
이를 구체적으로 살펴보면, 메모리 기반의 적산 코드 예측 피라미드 벡터 양자화기(PPVQ)(21)는 LSF 계수 벡터를 입력받아, 디씨(DC) 성분을 제거하기 위한 제1 감산기(31)와, DC 성분이 제거된 LSF 계수 벡터를 입력받아, 예측 계수에 따라예측하기 위한 예측기(40)와, 제1 감산기(31)에 의해 DC 성분이 제거된 LSF 입력 벡터와 예측기(40)에 의해 DC 성분이 제거된 예측 벡터와의 예측 에러 벡터를 구하기 위한 제2 감산기(32)와, 제2 감산기(32)의 예측 에러 벡터를 분산값을 사용하여 정규화하기 위한 정규화기(33)와, 정규화기(33)에 의해 정규화된 예측 에러 벡터에 가중치를 곱하기 위한 제1 곱셈기(34)와, 제1 곱셈기(34)의 출력 벡터를 양자화하기 위한 피라미드 벡터 양자화기(PVQ)(35)와, 피라미드 벡터 양자화기(PVQ)(35)의 출력 벡터를 가중치로 나누기 위한 나눗셈기(36)와, 나눗셈기(36)의 출력 벡터를 역 정규화하기 위한 역 정규화기(37)와, 정규화기(33)의 출력 벡터를 입력으로 하여 정규화 요소값을 구하기 위한 스칼라 양자화기(41)와, 역 정규화기(37)에 의해 역 정규화된 벡터에 스칼라 양자화기(41)에 의해 구해진 정규화 요소값을 곱하기 위한 제2 곱셈기(38)와, 제2 곱셈기(38)의 출력 벡터에 예측기(40)의 예측 벡터를 더하기 위한 제1 가산기(42)와, 제1 가산기(42)의 출력 벡터에 DC 성분을 더하기 위한 제2 가산기(43)를 포함한다.
상기와 같은 구성을 갖는 본 발명에 따른 음성 부호화기용 LSF 벡터 양자화 장치의 동작을 구체적으로 살펴보면 다음과 같다.
우선, 음성 부호화기(codec)의 VAD로부터 현재 프레임의 음성/비음성 정보에 따라 입력 LSF 벡터를 음성 프레임용 safety-net PVQ(12)로 양자화 할것인지 비음성 프레임용 safety-net PVQ(13)로 양자화할 것인지를 결정한다.
이후, 결정된 safety-net PVQ(12,13)(20) 중, 정교한 양자화를 위해 설계된 메모리 기반의 양자화기인 예측 피라미드 벡터 양자화기(PPVQ)(21)에서는, 제1 감산기(31)가 LSF 계수 벡터를 입력받아 디씨(DC) 성분을 제거하고, AR 예측기(40)를 사용하여 예측한 벡터와의 예측 에러 벡터를 구한다. 이후에, 예측 에러 벡터를 정규화기(33)에서 정규화한 후 LSF 계수의 차수에 따른 가중치(weighting)를 곱한 후, 피라미드 벡터 양자화기(PVQ)(35)의 입력으로 사용한다. 그리고, 피라미드 벡터 양자화기(PVQ)(35)의 출력 벡터는 나눗셈기(36)에서 가중치(weighting) 값으로 나눈 후 역 정규화기(37)에서 역 정규화된다. 한편, 스칼라 양자화기(41)는 정규화기(33)에서 정규화된 벡터의 정규화 요소값을 구한다. 마지막으로, 역 정규화기(37)에 의해 역 정규화된 벡터에 스칼라 양자화기(41)에 의해 구해진 정규화 요소값을 곱한 후, 제1 및 제2 가산기(42,43)에서 각각 LSF 예측 벡터와 DC 성분을 더하여 양자화된 LSF 벡터를 얻는다.
한편, Outlier 감소를 위해 설계된 비메모리 기반 피라미드 벡터 양자화기(memoryless PVQ)(22)에서는 DC 성분이 제거된 LSF 입력 벡터를 정규화한 후 PVQ 및 스칼라 양자화기를 사용하여 양자화한다.
마지막으로, 선택기(23)에서는 각각의 양자화기(21,22)에서 양자화된 두 후보벡터 중 원래 입력 벡터와의 유클리디안 거리(Euclidean distance)를 최소화하는 후보벡터를 최종적인 양자화 벡터로 선택한다.
위와 같이 LSF 계수를 음성 프레임/비음성 프레임으로 구분하여 적용함으로써 예측기의 성능이 좋아지고, 스칼라 양자화기는 기존 방법에 대하여 2배의 양자화 레벨수를 갖는 효과를 가지므로 정규화 요소값의 양자화 오차를 줄일 수 있다. 또한, 예측 피라미드 벡터 양자화기(PPVQ)에서 입력 벡터에 대한 가중치의 적용은낮은 차수 벡터의 양자화 에러가 감소되어 전체 LPC 필터의 주파수 왜곡(SD : Spectral Distortion)이 감소되는 장점이 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 예측 피라미드 벡터 양자화기(PPVQ)의 입력 벡터에 LSF 벡터의 차수에 따른 가중치를 적용하여 사용함으로써 PPVQ의 성능이 향상되고, 음성/비음성 프레임에 따라 각각 설계된 safety-net PVQ를 사용하여 전체적인 양자화 성능을 향상시킬 수 있는 효과가 있다.
실험적으로, 이러한 구조를 갖는 양자화기를 16차의 LPC 계수를 사용하는 광대역 음성 부호화기에 적용하여 1dB의 SD 성능을 얻기 위해 사용되는 총 비트수가 40bits로써, 이러한 방법을 적용하지 않은 safety-net 피라미드 벡터 양자화(PVQ) 방법에 비하여 약 3bits를 절약할 수 있는 효과가 있다.

Claims (5)

  1. 음성 부호화기용 선스펙트럼주파수(LSF) 벡터 양자화 장치에 있어서,
    현재 프레임의 음성/비음성 정보에 따라, 선스펙트럼주파수(LSF) 벡터의 양자화 방식을 결정하기 위한 선택수단;
    상기 선택수단에 의해 선택되어, 음성 프레임의 LSF 벡터에 LSF 계수의 차수에 따른 가중치를 적용하여 양자화하기 위한 음성 프레임용 양자화수단;
    상기 선택수단에 의해 선택되어, 비음성 프레임의 LSF 벡터에 LSF 계수의 차수에 따른 가중치를 적용하여 양자화하기 위한 비음성 프레임용 양자화수단; 및
    상기 음성/비음성 프레임용 양자화수단에 의해 양자화된 LSF 벡터를 선택 출력하기 위한 출력수단
    을 포함하는 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치.
  2. 제 1 항에 있어서,
    상기 음성 및 비음성 프레임용 양자화 수단은 각각,
    디씨(DC) 성분이 제거된 LSF 입력 벡터를 정규화한 후 양자화하기 위한 비메모리 기반의 적산 코드 피라미드 벡터 양자화기(memoryless PVQ);
    입력 예측 에러 벡터에 LSF 벡터의 차수에 따른 가중치를 곱하고, 출력 벡터를 가중치로 나누는 메모리 기반의 적산 코드 예측 피라미드 벡터 양자화기(PPVQ);및
    상기 비메모리 기반의 적산 코드 피라미드 벡터 양자화기(memoryless PVQ) 및 상기 메모리 기반의 적산 코드 예측 피라미드 벡터 양자화기(PPVQ)에서 양자화된 두 후보 벡터 중 원래 입력 벡터와의 유클리디안 거리를 최소화하는 후보 벡터를 최종적인 양자화 벡터로 선택하기 위한 선택기
    를 포함하는 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치.
  3. 제 2 항에 있어서,
    상기 메모리 기반 적산 코드 예측 피라미드 벡터 양자화기(PPVQ)는,
    상기 음성 및 비음성 프레임용 양자화 수단 각각의 입력 예측 에러 벡터에 LSF 벡터의 차수에 따른 가중치를 곱하는 곱셈기; 및
    상기 음성 및 비음성 프레임용 양자화 수단 각각의 출력 벡터를 가중치로 나누는 나눗셈기
    를 포함하는 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치.
  4. 제 2 항에 있어서,
    상기 메모리 기반 적산 코드 예측 피라미드 벡터 양자화기(PPVQ)는,
    DC 성분이 제거된 LSF 입력 벡터를 입력받아, 예측한 벡터와의 예측 에러 벡터를 구하여 정규화한 후, LSF 계수의 차수에 따른 가중치를 곱하여 피라미드 벡터 양자화하고, 피라미드 벡터 양자화된 출력 벡터를 가중치로 나눠 역 정규화하며, 스칼라 양자화를 통해 상기 정규화된 벡터의 정규화 요소값을 구하여, 상기 역 정규화된 벡터에 상기 정규화 요소값을 곱한후 LSF 예측 벡터와 DC 성분을 더하여 양자화된 LSF 벡터를 얻는 것을 특징으로 하는 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치.
  5. 제 2 항에 있어서,
    상기 메모리 기반 적산 코드 예측 피라미드 벡터 양자화기(PPVQ)는,
    LSF 계수 벡터를 입력받아, 디씨(DC) 성분을 제거하기 위한 제1 감산기;
    DC 성분이 제거된 LSF 계수 벡터를 입력받아, 예측 계수에 따라 예측하기 위한 예측기;
    상기 제1 감산기에 의해 DC 성분이 제거된 LSF 입력 벡터와 상기 예측기에 의해 DC 성분이 제거된 예측 벡터와의 예측 에러 벡터를 구하기 위한 제2 감산기;
    상기 예측 에러 벡터를 분산값을 사용하여 정규화하기 위한 정규화기;
    상기 정규화된 예측 에러 벡터에 가중치를 곱하기 위한 제1 곱셈기;
    상기 제1 곱셈기의 출력 벡터를 양자화하기 위한 피라미드 벡터 양자화기(PVQ);
    상기 피라미드 벡터 양자화기(PVQ)의 출력 벡터를 가중치로 나누기 위한 나눗셈기;
    상기 나눗셈기의 출력 벡터를 역 정규화하기 위한 역 정규화기;
    상기 정규화기의 출력 벡터를 입력으로 하여 정규화 요소값을 구하기 위한 스칼라 양자화기;
    상기 역 정규화기에 의해 역 정규화된 벡터에 상기 스칼라 양자화기에 의해 구해진 정규화 요소값을 곱하기 위한 제2 곱셈기;
    상기 제2 곱셈기의 출력 벡터에 상기 예측기의 예측 벡터를 더하기 위한 제1 가산기; 및
    상기 제1 가산기의 출력 벡터에 DC 성분을 더하기 위한 제2 가산기
    를 포함하는 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치.
KR10-2002-0070752A 2002-11-01 2002-11-14 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치 KR100463577B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20020067581 2002-11-01
KR1020020067581 2002-11-01

Publications (2)

Publication Number Publication Date
KR20040040265A KR20040040265A (ko) 2004-05-12
KR100463577B1 true KR100463577B1 (ko) 2004-12-29

Family

ID=37337746

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0070752A KR100463577B1 (ko) 2002-11-01 2002-11-14 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치

Country Status (1)

Country Link
KR (1) KR100463577B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100486732B1 (ko) * 2003-02-19 2005-05-03 삼성전자주식회사 블럭제한된 트렐리스 부호화 양자화방법과 음성부호화시스템에있어서 이를 채용한 라인스펙트럼주파수 계수양자화방법 및 장치
KR100728056B1 (ko) * 2006-04-04 2007-06-13 삼성전자주식회사 다중 경로 트랠리스 부호화 양자화 방법 및 이를 이용한다중 경로 트랠리스 부호화 양자화 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651026A (en) * 1992-06-01 1997-07-22 Hughes Electronics Robust vector quantization of line spectral frequencies
KR19980034878A (ko) * 1996-11-09 1998-08-05 김광호 가중치를 가진 벡터 양자화 장치 및 방법
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651026A (en) * 1992-06-01 1997-07-22 Hughes Electronics Robust vector quantization of line spectral frequencies
KR19980034878A (ko) * 1996-11-09 1998-08-05 김광호 가중치를 가진 벡터 양자화 장치 및 방법
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기

Also Published As

Publication number Publication date
KR20040040265A (ko) 2004-05-12

Similar Documents

Publication Publication Date Title
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
JP4394578B2 (ja) 可変ビットレート通話符号化における線形予測パラメータの強力な予測ベクトル量子化方法と装置
CN101548316B (zh) 编码装置、解码装置以及其方法
US11848020B2 (en) Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
US11922960B2 (en) Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same
KR20130133777A (ko) 혼합형 시간-영역/주파수-영역 코딩 장치, 인코더, 디코더, 혼합형 시간-영역/주파수-영역 코딩 방법, 인코딩 방법 및 디코딩 방법
JP2011509426A (ja) オーディオエンコーダおよびデコーダ
JPH08263099A (ja) 符号化装置
JP2017501430A (ja) オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法
CA2232446C (en) Coding and decoding system for speech and musical sound
US20030135367A1 (en) Efficient excitation quantization in noise feedback coding with general noise shaping
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
JP2000132194A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
KR100463577B1 (ko) 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치
JPH11143498A (ja) Lpc係数のベクトル量子化方法
US20030083869A1 (en) Efficient excitation quantization in a noise feedback coding system using correlation techniques
JP3024467B2 (ja) 音声符号化装置
CA2511516C (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
WO2022147615A1 (en) Method and device for unified time-domain / frequency domain coding of a sound signal
KR100318335B1 (ko) 잔차신호의 에너지 레벨 정규화를 통한 음성신호처리복호화기에서의 피치 포스트필터 성능 향상 방법
Sinha et al. Voice Coders
Hayashi et al. Efficient two-stage vector quantization speech coder using wavelet coefficients of excitation signals
Salavedra Molí Wideband-speech APVQ coding from 16 to 32 KBPS

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081202

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee