KR100467326B1 - 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기 - Google Patents

추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기 Download PDF

Info

Publication number
KR100467326B1
KR100467326B1 KR10-2002-0077996A KR20020077996A KR100467326B1 KR 100467326 B1 KR100467326 B1 KR 100467326B1 KR 20020077996 A KR20020077996 A KR 20020077996A KR 100467326 B1 KR100467326 B1 KR 100467326B1
Authority
KR
South Korea
Prior art keywords
speech
error
encoder
lsp
excitation signal
Prior art date
Application number
KR10-2002-0077996A
Other languages
English (en)
Other versions
KR20040050811A (ko
Inventor
성호상
황대환
윤대희
강홍구
박영철
이기승
정성교
김경태
Original Assignee
학교법인연세대학교
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인연세대학교, 한국전자통신연구원 filed Critical 학교법인연세대학교
Priority to KR10-2002-0077996A priority Critical patent/KR100467326B1/ko
Priority to US10/606,540 priority patent/US7346503B2/en
Publication of KR20040050811A publication Critical patent/KR20040050811A/ko
Application granted granted Critical
Publication of KR100467326B1 publication Critical patent/KR100467326B1/ko
Priority to US12/071,587 priority patent/US7860711B2/en
Priority to US12/915,656 priority patent/US8055499B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 고품질 음성처리 시스템에서 음성 부호화기의 성능 향상을 위해 추가 비트를 할당 기법을 이용한 음성 부호화기 및 음성 복호화기에 관한 것으로, 상기 추가 비트 할당 기법은 음성 저장 혹은 전송 시스템에서 사용되는 기존의 저대역 음성부호화 표준안과 비트-호환을 유지하면서 그 성능을 향상시키는 방법이다. 기존의 음성부호화기의 구조에 품질향상부를 삽입하고 적당한 추가 비트를 할당하여 기존의 부호화기의 비트-호환을 유지하면서 음성 품질의 향상이 가능하다.
대부분의 음성부호화기는 음성 발성 모델에 기반하여 음성의 스펙트럼에 해당하는 성도(vocal tract)의 전달 함수와 여기 신호로 나누어 양자화하므로, 본 발명은 추가 비트를 음성 도메인이 아닌 파라미터 도메인에서 스펙트럼 정보와 여기 신호 모델링 과정에 할당하는 것을 특징으로 한다. 스펙트럼 정보를 보다 정확하게 모델링하기 위해 LSP(line spectrum pairs) 양자화 과정에 직렬 양자화(cascaded quantization) 기법을 사용하거나 LSP의 보간 과정에서 Frame-fill 기법을 적용하여 보간 함수 정보에 비트를 할당한다.
본 발명에 따르면 기존의 음성부호화기와 비트-호환이 가능하므로 음성 저장 시스템뿐만 아니라 통신 시스템에서도 사용가능하며, 채널 혹은 미디어의 상황에 따라 전송률의 가변적 사용이 가능하므로 채널 상황에 따라 유연하게 대처하여 효율적인 음성 서비스를 제공할 수 있는 효과가 있다.

Description

추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송수신기{TRANSMITTER AND RECEIVER HAVING FOR SPEECH CODING AND DECODING USING ADDITIONAL BIT ALLOCATION METHOD}
본 발명은 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송수신기에 관한 것으로서, 더욱 상세하게는 기존의 음성부호화기의 성능을 향상시키기 위해 비트-호환을 유지하면서 추가 비트를 할당하는 기법을 이용하는 음성 부호화 및 복호화를 위한 송수신기에 관한 것이다. 본 발명에 따른 음성 부호화기 및 복호화기는 현재 각광받고 있는 VoIP(voice over Internet protocol) 통신 시스템에서 기존에 사용 중인 방식과 호환을 이루면서 성능을 더욱 향상시킬 수 있다.
종래에 음성신호를 디지털화하여 처리하는 방식에는 다양한 부호화 방식이 제안되어 있다. 가장 널리 사용되는 방법은 펄스부호변조(PCM : pulse code modulation)과 같은 파형 부호화 기법과, ITU-T(International Telecommunication Union-Telecommunication Standardization Sector)의 표준안에서 주류를 이루고 있는 CELP(Code-Excited Linear Prediction)과 같은 파형 부호화와 파라미터 부호화(parameter coding)가 결합된 혼성 부호화(hybrid coding) 기법이 있다. 대부분의 혼성 부호화 기법에서는 음성신호의 효율적인 압축을 위해 음성 발성 모델(speech production model)에 기반을 하여, 음성 신호를 성도(vocal tract) 전달함수를 나타내는 스펙트럼 정보와 여기 신호 성분으로 구분하고 각각을 적절한 기법으로 모델링하여 이를 양자화한 후에 수신단으로 전송한다. 대표적인 혼성 부호화 기술로는 ITU-T의 G.723.1과 G.729, 그리고 IMT-2000에 사용될 예정인 적응다중전송률(AMR : Adaptive Multi-Rate) 부호화 기법 등이 있다.
여기서 ITU-T G.723.1에 대하여 살펴보면, 상기 G.723.1은 멀티미디어 신호를 적은 비트를 사용하여 압축하기 위해 표준화된 알고리즘이다. 상기 G.723.1은 입력 음성을 5.3 kbit/s와 6.3 kbit/s의 두 가지 전송률로 압축, 복원하는 알고리즘이며 유선망 수준의 음성품질(toll quality)을 제공한다. 그리고 ITU-T G.729는 입력 음성을 8 kbit/s의 속도로 압축, 복원하는 알고리즘이며, 유선망 수준의 음성품질을 제공한다. 상기 G.729는 상기 G.723.1과 더불어 VoIP 응용 분야에 널리 사용되고 있다. 또한, 많은 계산량을 요구하는 G.729의 효율적인 구현을 위해 G.729와 비트-호환이 가능하며 복잡도가 감소된 버전인 G.729A도 널리 사용되는 부호화기이다. 이 외에도 차세대 음성통신을 위한 적응다중전송률 부호화기가 있다. 상기 적응다중전송률 부호화기는 전화대역 음성을 처리하는 협대역 적응다중전송률(AMR-NB : AMR narrowband) 부호화기와 광대역 신호를 처리하는 광대역 적응다중전송률(AMR wideband: AMR-WB) 부호화기로 나누어진다.
위에서 살펴본 음성 부호화기는 유/무선 음성통신 시스템에서 널리 사용되거나 사용예정인 음성 부호화기이며, 음성 발성 모델에 기반한 CELP 알고리듬을 사용하여 음성의 스펙트럼 정보와 여기 신호 정보를 양자화한다. 그러나, 상기 부호화기들은 제한된 전송률을 사용하므로 천이구간 혹은 음악과 같은 음성 이외의 신호에는 성능저하가 발생하는 문제점을 가지고 있다. 특히, G.729와 같이 파라미터의 분석을 위한 프레임의 크기가 10 ms로 다른 부호화기에 비해 작아 급속히 변화하는 여기신호의 모델링에는 적합한 반면, 스펙트럼 정보를 표현하는 선형예측계수(LPC : Linear Prediction Coefficients)를 양자화에 할당되는 비트가 상대적으로 적어양자화 오차가 큰 문제점이 있다.
반면, G.723.1의 경우에는 프레임 크기가 30 ms로 크지만, 충분한 비트를 할당하여 양자화하는 반면, 부프레임 간격으로 선형 보간하여 사용하므로 부프레임에서는 스펙트럼 정보의 왜곡이 커지는 현상이 발생한다. 그리고 두 부호화기의 비주기적인 여기 신호 성분을 표현하기 위한 고정코드북(fixed codebook) 검색 과정에서 몇 개의 펄스로만 구성된 대수 코드북(algebraic codebook)을 사용하므로 천이구간과 같이 적응코드북(adaptive codebook)의 성능이 저하되는 구간에서는 여기 신호를 표현하는 펄스 수가 부족하여 음성의 품질이 저하되는 문제점이 발생한다.
본 발명이 이루고자 하는 기술적 과제는 이미 국제 표준화된 음성 부호화 시스템과 호환을 유지하면서 추가 비트를 사용하는 음질향상 부호화부를 통해 성능을 향상시킨 음성 부호화기를 제공하는 데에 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 음성발성모델에 기반한 음성부호화기의 성능 향상을 위해 추가 비트를 음성 도메인에 할당하는 것이 아니라, 파라미터 도메인인 LSP 양자화 혹은 LSP 보간 과정과, 여기 신호의 양자화 과정에 할당하여 적은 비트만을 사용하여 효율적으로 성능을 향상시키고자 하는데 있다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 종래의 음성부호화기와 호환이 가능하면서 추가 비트 할당을 통해 고음질의 음성신호를 서비스할 수 있는 품질향상 부호화부와 품질향상 복호화부를 갖는 음성 부호화 및 복호화를 위한 송수신기를 제공하는데 있다.
도 1은 본 발명에 따른 음성 부호화 및 복호화가 적용된 송수신기의 전체 구조를 도시한 도면.
도 2는 상기 도 1의 품질향상 부호화부를 보다 상세하게 도시한 도면.
도 3은 본 발명에 적용되는 벡터 양자화 방법을 설명하기 위한 그래프를 도시한 도면.
도 4는 상기 도 1의 품질향상 부호화부와 품질향상 복호화부에 대한 다른 실시예를 도시한 도면.
도 5는 상기 도 1의 수신기를 보다 상세하게 도시한 도면.
(도면의 주요 부분에 대한 부호의 설명)
101 : 송신기 102 : 표준 음성 부호화부
103 : 품질향상 부호화부 104 : 다중화부
105 : 수신기 106 : 역다중화부
107 : 표준 음성 복호화부 108 : 품질향상 복호화부
상기 목적을 달성하기 위한 본 발명에 따른 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송신기는,
입력된 음성 신호를 성도 전달함수를 나타내는 스펙트럼 정보와 여기 신호 성분으로 구분하며, 이들 각각을 모델링하고 양자화하여 표준 부호화를 수행함으로써 표준 부호화된 비트열을 생성하는 표준음성 부호화부;
상기 스펙트럼 정보와 여기 신호 성분 각각에 대해 양자화되지 않은 신호와 상기 표준음성 부호화부에 의해 양자화된 신호 사이의 오차를 각각 구하고, 상기 구해진 각 오차에 대해 추가적인 양자화를 수행하여 부호화된 비트열을 생성하는 품질향상 부호화부; 및
상기 각 부호화부에서 얻어진 비트열을 다중화시켜서 전송하는 다중화부를 포함한다.
또한, 상기 목적을 달성하기 위한 본 발명에 따른 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 수신기는,
전송된 음성 신호의 비트열을 입력받아 역다중화시키는 역다중화부;
상기 역다중화부로부터 역다중화된 음성 신호의 비트열을 입력받아, 스펙트럼 정보와 여기신호 성분을 구분하여 역양자화 과정을 수행하고, 상기 역양자화된 스펙트럼 정보와 여기신호 성분 각각에 대응하는 오차성분을 결합하여 합성된 음성을 생성하는 표준음성 복호화부; 및
스펙트럼 정보의 오차 인덱스와 여기신호 오차 인덱스를 각가 입력받아 상기각 오차 인덱스에 대해 역양자화를 수행하여 스펙트럼 정보와 여기신호 성분에 대한 오차성분을 생성하는 품질향상 복호화부를 포함한다.
이하에서는 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 가장 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 1에는 본 발명에 따른 음성 부호화 및 복호화가 적용된 송수신기의 전체 구조가 도시되어 있다. 상기 도 1에 도시된 송수신기는 기존의 표준 음성 부호화부(102)와 비트 호환을 유지하면서 품질향상 부호화부(103)에 의해 비트 확장을 수행하는 과정을 나타내고 있으며, 전체적으로 송신부(101)와 수신부(105)로 이루어진다. 입력 음성은 표준 음성 부호화부(102)에 입력되며, 상기 표준 음성 부호화부(102)에 의해 기존의 표준안에 따른 부호화 과정이 수행되며, 품질향상 부호화부(103)에서는 추가 비트를 이용하여 오차를 양자화하는 다단계 양자화(multi-stage quantization) 기법으로 양자화 과정이 수행된다. 상기 각 부호화부(102, 103)에서 출력된 비트열은 기존의 표준부호화와 비트 호환을 유지하도록 설정된 다중화부(104)에 의해 다중화된 후, 수신부(105)로 전송된다. 상기 수신부(105)에서는 상기 송신부(101)에서 보내진 비트열을 입력받아 역다중화부(106)에 의해 역다중화된 후, 대응하는 비트열이 분리되어 표준 음성 복호화부(107)와 품질향상 복호화부(108)에 입력된다. 상기 표준 음성 복호화부(107)와 품질향상 복호화부(108)에서는 입력된 비트열에 대해 복호화 과정이 수행되어 최종적으로 복원된 음성이 출력된다.
도 2에는 상기 도 1의 품질향상 부호화부(103)가 보다 상세하게 도시되어 있다. 도 2에 도시되어 있듯이, 상기 품질향상 부호화부(103)는 음성의 성도(vocal tract)를 더욱 자세히 표현하기 위한 LSP 오차 양자화부(201)와 여기 신호를 추가로 모델링하기 위한 여기신호 오차 양자화부(202)로 구성된다. 상기 품질향상 부호화부(103)를 통해 생성된 추가 비트열은 도 1의 다중화부(104)로 보내진다.
상기 LSP 오차 양자화부(201)에 대한 자세한 설명은 다음과 같다. 상기 LSP 오차 양자화부(201)의 입력 신호로는 상기 표준 음성 부호화부(102)에서 얻은 선형예측계수(LPC) 정보를 양자화하기 위한 LSP 파라미터(l(m))와 양자화를 거친 후의 LSP 파라미터()가 있다. 상기 품질향상 부호화부(103)의 LSP 오차 양자화부(201)에서는 상기 표준 음성 부호화부(102)에서 얻어진 양자화되지 않은 LSP(l(m))와 양자화된 LSP()의 오차 신호에 대해 추가 양자화 과정을 수행하여 양자화된 비트열을 다중화부(104)로 출력한다. 상기 추가 양자화 과정에서는 스칼라 양자화(scalar quantization)와 벡터 양자화(vector quantization) 방법이 사용될 수 있다. 보통의 경우, 적은 비트로도 우수한 성능을 얻을 수 있는 벡터 양자화 방법을 사용하는 것이 효과적이다. 또한, 모든 LSP 계수를 벡터 양자화하는 것 보다 표준부호화기에서 일차로 구한 양자화기의 성능을 각 계수별로 비교한 후 성능이 우수한 계수에 대해서는 추가 양자화를 하지 않고, 성능 저하가 심한 계수들만을 모아서 벡터 양자화함으로써 더욱 향상된 성능을 얻을 수 있다. 실험에 의하면, 낮은 차수의 LSP 계수들은 표준 음성 부호화부(102)만을 사용하더라도 비교적그 성능이 우수하므로 상기 품질향상 부호화부(103)에서는 양자화 과정을 생략할 수 있다. 도 3은 상기 LSP 오차 양자화부(201)에서의 양자화 과정을 설명하기 위한 도면이다. 상기 도 3에서, 점선으로 표시된 사각형은 상기 품질향상 부호화부(103)에서 추가적으로 벡터 양자화 과정이 이루어지는 부분을 나타내고 있다.
다음으로, 상기 품질향상 부호화부(103)를 구성하고 있는 또 다른 구성요소인 여기신호 오차 양자화부(202)에 대해 설명한다. 상기 여기신호 오차 양자화부(202)의 입력 신호는 상기 표준 음성 부호화부(102)에서 여기신호를 양자화하기 위해 입력된 타겟(target) 신호(t(n))와, 상기 표준 음성 부호화부(102)에서 얻어진 양자화된 여기신호를 합성해서 얻은 표준합성신호()이다. 상기 여기신호 오차 양자화부(202)에서는 두 신호의 오차를 구한 후 다단계 양자화 과정을 수행함으로써 합성 음성의 음질을 향상시킨다. 상기 다단계 양자화 과정은 기존에 사용된 모든 고정 코드북(fixed-codebook) 방법을 사용할 수 있다. 그러나, 시스템의 복잡도를 줄이고, 프로그램, 데이터 및 메모리 크기를 줄이기 위해 표준 음성 부호화부(102)에서 사용하고 있는 방법을 응용해서 사용하는 것이 효과적이다. 따라서, G.729A의 경우에는 표준화되어 사용되고 있는 대수 코드북(algebraic codebook)을 사용하는 것이 바람직하다. 또한, 추가적인 대수 코드북을 사용할 경우에, 상기 표준 음성 부호화부(102)에서 사용하고 있는 대수 코드북 구조와의 상호 연관성을 고려하여 대수 코드북을 설계하면, 음성 부호화기의 성능을 더욱 향상시킬 수 있다. 상기 여기신호 오차 양자화부(202)에서 얻어지는 양자화된 여기신호의 비트열은 다중화부(104)에 출력된다.
도 4에는 상기 도 1의 품질향상 부호화부와 품질향상 복호화부에 대한 다른 실시예가 도시되어 있다.
G.723.1과 같이 한 프레임의 길이가 긴 음성 부호화기에서는 연속되는 프레임의 시간 차이가 크기 때문에 음성 스펙트럼의 변화가 심하게 발생한다. 일반적인 음성부호화기의 경우 저전송률 구현을 위해, 매 서브프레임마다 LSP 파라미터를 전송하지 않고 마지막 서브프레임의 LSP 정보를 프레임 단위로 전송하고 나머지 서브프레임에서는 이전 LSP 정보와 전송된 LSP 정보를 선형보간하여 얻은 LSP 정보를 사용한다. 즉, 각 서브프레임에서는 프레임 단위로 전송받은 양자화된 LSP 파라미터를 선형보간하여 사용하게 되므로 원 음성과 비교하여 스펙트럼 왜곡이 발생하는 문제점이 발생하게 된다. 따라서, 이 경우에는 도 2의 LSP 오차 양자화부(201)에서 설명했던 직렬양자화를 사용하여 양자화 성능을 향상시킨다고 하더라도 보간 과정에서 발생하는 왜곡으로 인해 그 성능 향상 정도가 크기 않다. 이 경우, 기존의 표준 음성 부호화부와 비트-호환을 유지하면서 성능 향상을 하려면 보간(interpolation) 정보에 추가비트를 사용하는 것이 바람직하다.
상기 도 4에 도시되어 있듯이, 품질향상 부호화부(103)는 LSP 양자화부(401)와 LSP 보간정보 양자화부(402)로 이루어지고, 품질향상 복호화부(108)는 LSP 역양자화부(403), LSP 보간부(404) 및 LSP 보간정보 역양자화부(405)로 이루어진다.
상기 LSP 양자화부(401)의 입력 신호는 표준 음성 부호화부(102)에서 얻어진 선형예측계수(LPC) 정보를 양자화하기 위한 LSP 파라미터(l(m))이고 출력은 양자화를 거친 후의 LSP 파라미터()이다. 본 발명에서는 LSP 보간 정보 양자화부(402)를 추가하여 수신단에서의 LSP 보간 과정의 성능을 향상시키고자 한다. 상기 LSP 보간 정보 양자화부(402)에서는 표준 음성 부호화부(102)에서 구한 각 서브프레임마다 구한 LSP 파라미터()와 양자화 과정과 보간 과정을 통행 얻은 LSP 파라미터()의 오차가 최소가 되도록 추가 비트를 사용한다.
상기 추가 양자화 방법으로는 첫째, 오차 신호()에 대해 다시 스칼라 양자화나 벡터 양자화를 수행하는 방법, 둘째, 최적의 보간 함수를 찾아 그 값을 직접 양자화하는 방법, 셋째, 가능한 보간 함수의 경우의 수를 미리 설정한 후 그 중에서 최적의 보간 함수를 찾아 그 인덱스(index)만을 양자화하여 전송하는 방법 등이 있다. 성능 면에서는 첫 번째 혹은 두 번째 방법이 우수하지만 낮은 전송률에서는 세 번째 방법이 가장 적합하다.
상기 LSP 역양자화부(403)에서는 전송된 LSP 인덱스를 이용하여 역양자화 과정을 통해 양자화된 LSP 파라미터를 얻게 된다. 상기 LSP 보간부(404)에서는 LSP 보간정보 역양자화부(405)에서 얻은 LSP 보간 정보를 사용하여 매 서브프레임마다 보간된 LSP 파라미터를 얻게 된다.
다음으로, 도 5를 참조하여 수신기에서의 동작에 대해 설명한다. 도 5에는 상기 도 1의 표준 음성 복호화부(107)와 품질향상 복호화부(108)가 상세하게 도시되어 있다.
상기 품질향상 복호화부(108)는 표준 음성 복호화부(107)와 결합되어 여기신호와 LSP 파라미터 정보를 역양자화 과정을 통해 음성 신호를 합성하여 최종적으로 품질 향상된 합성음을 출력한다. 우선, LSP 인덱스를 전송받아 LSP 역양자화부(505)를 통해 LSP 파라미터로 복원되고, LSP 오차 인덱스를 가지고 LSP 오차 역양자화부(503)를 거쳐 LSP 파라미터의 양자화 오차 성분을 복원하게 되며, 두 값을 결합하여 얻은 LSP 파라미터를 음성 합성부(502)에서 성도를 표현하는 파라미터로 사용하게 된다. 한편, 표준 음성 복호화부(107)의 여기신호 역양자화부(501)를 통해 여기신호 인덱스를 역양자화하여 얻은 여기 신호와, 여기신호 오차 인덱스를 전송받아 여기신호 오차 역양자화부(504)를 통해 얻은 여기신호의 오차 성분을 결합하고, 이 결합된 신호가 음성 합성부(502)에서 처리되어 품질향상된 여기신호가 얻어진다. 즉, 음성합성부(502)에서는 품질향상된 여기신호와 품질향상된 LSP 파라미터를 사용하여 향상된 품질의 음성 신호를 복원하게 된다.
위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 위와 같은 변화 예나 변경 예 또는 조절 예를 모두 포함하는 것으로 해석되어야 할 것이다.
이상에서와 같이, 본 발명에 따르면, 기존의 음성처리 시스템에서 사용되고 있는 음성 부호화기를 그대로 사용하고 시스템에서 허용되는 추가 비트만을 할당하여 고음질의 음성 서비스를 구현할 수 있는 장점이 있다. 또한, 추가 비트를 음성도메인이 아니라 파라미터 도메인에서 다단계 양자화 기법을 적용하여 할당하므로 기존 표준 음성 부호화기의 구조를 변경하지 않고 추가적인 양자화부를 삽입하여 구현이 가능한 장점이 있다.

Claims (10)

  1. 입력된 음성 신호를 성도 전달함수를 나타내는 스펙트럼 정보와 여기 신호 성분으로 구분하며, 이들 각각을 모델링하고 양자화하여 표준 부호화를 수행함으로써 표준 부호화된 비트열을 생성하는 표준음성 부호화부;
    상기 스펙트럼 정보와 여기 신호 성분 각각에 대해 양자화되지 않은 신호와 상기 표준음성 부호화부에 의해 양자화된 신호 사이의 오차를 각각 구하고, 상기 구해진 각 오차에 대해 추가적인 양자화를 수행하여 부호화된 비트열을 생성하는 품질향상 부호화부; 및
    상기 각 부호화부에서 얻어진 비트열을 다중화시켜서 전송하는 다중화부를 포함하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송신기.
  2. 제1항에 있어서,
    상기 품질향상 부호화부는 추가 비트를 이용하여 상기 각 오차를 양자화하는 다단계 양자화를 수행하는 것을 특징으로 하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송신기.
  3. 제1항에 있어서,
    상기 품질향상 부호화부는 추가적인 양자화를 위해 벡터 양자화 방법을 이용하는 것을 특징으로 하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송신기.
  4. 제1항에 있어서,
    상기 스펙트럼 정보는 LSP 파라미터인 것을 특징으로 하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송신기.
  5. 제1항에 있어서,
    상기 품질향상 부호화부는 상기 표준음성 부호화부에서의 양자화 성능에 따라 일부의 스펙트럼 정보에 대해서만 추가적으로 양자화를 수행하는 것을 특징으로 하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송신기.
  6. 제1항에 있어서,
    상기 품질향상 부호화부는
    상기 표준음성 부호화부로부터 양자화되지 않은 LSP 파라미터와 양자화된 LSP 파라미터를 입력받아 상기 두 파라미터의 오차성분에 대한 양자화를 수행하는 LSP 오차 양자화부; 및
    상기 표준음성 부호화부로부터 양자화되지 않은 여기신호와 양자화된 여기신호를 입력받아 상기 두 여기신호의 오차성분에 대한 양자화를 수행하는 여기신호오차 양자화부로 구성되는 것을 특징으로 하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송신기.
  7. 제1항에 있어서,
    상기 품질향상 부호화부는
    상기 표준음성 부호화부에서 얻어지는 각 서브 프레임마다의 LSP 파라미터와 양자화 과정 및 보간 과정에서 얻어지는 LSP 파라미터 사이의 오차를 추가 비트를 이용하여 최소화시키는 LSP 보간정보 양자화부를 포함하는 것을 특징으로 하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 송신기.
  8. 전송된 음성 신호의 비트열을 입력받아 역다중화시키는 역다중화부;
    상기 역다중화부로부터 역다중화된 음성 신호의 비트열을 입력받아, 스펙트럼 정보와 여기신호 성분을 구분하여 역양자화 과정을 수행하고, 상기 역양자화된 스펙트럼 정보와 여기신호 성분 각각에 대응하는 오차성분을 결합하여 합성된 음성을 생성하는 표준음성 복호화부; 및
    스펙트럼 정보의 오차 인덱스와 여기신호 오차 인덱스를 각가 입력받아 상기 각 오차 인덱스에 대해 역양자화를 수행하여 스펙트럼 정보와 여기신호 성분에 대한 오차성분을 생성하는 품질향상 복호화부를 포함하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 수신기.
  9. 제8항에 있어서,
    상기 표준음성 복호화부는
    상기 역다중화된 음성신호의 비트열로부터 LSP 인덱스를 입력받아 이를 역양자화하여 LSP 파라미터를 복원하는 LSP 역양자화부;
    상기 역다중화된 음성신호의 비트열로부터 여기신호 인덱스를 입력받아 이를 역양자화하여 여기신호를 복원하는 여기신호 역양자화부; 및
    상기 복원된 LSP 파라미터와 여기신호에 LSP 파라미터의 오차성분과 여기신호의 오차성분을 각각 합성하고, 상기 두 합성신호를 처리하여 음성 신호를 복원하는 음성합성부를 포함하는 것을 특징으로 하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 수신기.
  10. 제8항에 있어서,
    상기 품질향상 복호화부는
    LSP 오차 인덱스를 입력받아 LSP 파라미터의 오차 성분을 복원하는 LSP 오차 역양자화부; 및
    여기신호 오차 인덱스를 입력받아 여기신호의 오차 성분을 복원하는 여기신호 오차 역양자화부를 포함하는 것을 특징으로 하는
    추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를 위한 수신기.
KR10-2002-0077996A 2002-12-09 2002-12-09 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기 KR100467326B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR10-2002-0077996A KR100467326B1 (ko) 2002-12-09 2002-12-09 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기
US10/606,540 US7346503B2 (en) 2002-12-09 2003-06-26 Transmitter and receiver for speech coding and decoding by using additional bit allocation method
US12/071,587 US7860711B2 (en) 2002-12-09 2008-02-22 Transmitter and receiver for speech coding and decoding by using additional bit allocation method
US12/915,656 US8055499B2 (en) 2002-12-09 2010-10-29 Transmitter and receiver for speech coding and decoding by using additional bit allocation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0077996A KR100467326B1 (ko) 2002-12-09 2002-12-09 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기

Publications (2)

Publication Number Publication Date
KR20040050811A KR20040050811A (ko) 2004-06-17
KR100467326B1 true KR100467326B1 (ko) 2005-01-24

Family

ID=31987548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0077996A KR100467326B1 (ko) 2002-12-09 2002-12-09 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기

Country Status (2)

Country Link
US (3) US7346503B2 (ko)
KR (1) KR100467326B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621852A (en) 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
KR100465318B1 (ko) * 2002-12-20 2005-01-13 학교법인연세대학교 광대역 음성신호의 송수신 장치 및 그 송수신 방법
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
US8054969B2 (en) * 2007-02-15 2011-11-08 Avaya Inc. Transmission of a digital message interspersed throughout a compressed information signal
KR100912826B1 (ko) 2007-08-16 2009-08-18 한국전자통신연구원 G.711 코덱의 음질 향상을 위한 향상 계층 부호화 및복호화 장치와 그 방법
KR101336891B1 (ko) 2008-12-19 2013-12-04 한국전자통신연구원 G.711 코덱의 음질 향상을 위한 부호화 장치 및 복호화 장치
AT509439B1 (de) 2008-12-19 2013-05-15 Siemens Entpr Communications Verfahren und mittel zur skalierbaren verbesserung der qualität eines signalcodierverfahrens
US9406305B2 (en) * 2012-12-21 2016-08-02 Digimarc Corpororation Messaging by writing an image into a spectrogram

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940010542A (ko) * 1992-10-31 1994-05-26 윤종용 가변비트할당 방식의 부호화시스템
KR950024448A (ko) * 1994-01-28 1995-08-21 김광호 채널간의 마스킹 특성을 고려한 비트할당장치 및 그 방법과 복호화장치
JPH07327014A (ja) * 1994-06-01 1995-12-12 Matsushita Electric Ind Co Ltd オーディオ信号高能率符号化装置
JPH07336229A (ja) * 1994-06-09 1995-12-22 Matsushita Electric Ind Co Ltd 高能率符号化装置
KR950034203A (ko) * 1994-05-31 1995-12-26 김광호 다채널 디지탈 오디오의 비트할당방법 및 회로
KR19980034878A (ko) * 1996-11-09 1998-08-05 김광호 가중치를 가진 벡터 양자화 장치 및 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3092653B2 (ja) * 1996-06-21 2000-09-25 日本電気株式会社 広帯域音声符号化装置及び音声復号装置並びに音声符号化復号装置
EP2154679B1 (en) * 1997-12-24 2016-09-14 BlackBerry Limited Method and apparatus for speech coding
JP4218134B2 (ja) * 1999-06-17 2009-02-04 ソニー株式会社 復号装置及び方法、並びにプログラム提供媒体
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
JP3467469B2 (ja) * 2000-10-31 2003-11-17 Necエレクトロニクス株式会社 音声復号装置および音声復号プログラムを記録した記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940010542A (ko) * 1992-10-31 1994-05-26 윤종용 가변비트할당 방식의 부호화시스템
KR950024448A (ko) * 1994-01-28 1995-08-21 김광호 채널간의 마스킹 특성을 고려한 비트할당장치 및 그 방법과 복호화장치
KR950034203A (ko) * 1994-05-31 1995-12-26 김광호 다채널 디지탈 오디오의 비트할당방법 및 회로
JPH07327014A (ja) * 1994-06-01 1995-12-12 Matsushita Electric Ind Co Ltd オーディオ信号高能率符号化装置
JPH07336229A (ja) * 1994-06-09 1995-12-22 Matsushita Electric Ind Co Ltd 高能率符号化装置
KR19980034878A (ko) * 1996-11-09 1998-08-05 김광호 가중치를 가진 벡터 양자화 장치 및 방법

Also Published As

Publication number Publication date
KR20040050811A (ko) 2004-06-17
US20110040557A1 (en) 2011-02-17
US8055499B2 (en) 2011-11-08
US20080162124A1 (en) 2008-07-03
US7860711B2 (en) 2010-12-28
US20040054529A1 (en) 2004-03-18
US7346503B2 (en) 2008-03-18

Similar Documents

Publication Publication Date Title
US8391373B2 (en) Concealment of transmission error in a digital audio signal in a hierarchical decoding structure
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
KR101238583B1 (ko) 비트 스트림 처리 방법
KR100732659B1 (ko) 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
US7792679B2 (en) Optimized multiple coding method
KR20070038041A (ko) 전기 통신을 위한 멀티-레이트 음성 부호화기에 있어서음성 트랜스-레이팅을 위한 방법 및 장치
US8055499B2 (en) Transmitter and receiver for speech coding and decoding by using additional bit allocation method
KR20080093450A (ko) 오디오 인코딩/디코딩에서의 인지 가중 장치
KR20080032160A (ko) 계층적 코딩/디코딩 장치
JPH10187196A (ja) 低ビットレートピッチ遅れコーダ
KR20050092107A (ko) 가변 레이트로 오디오를 인코딩 및 디코딩하는 방법
US7634402B2 (en) Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof
JP2001519552A (ja) ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置
JP5226851B2 (ja) 向上階層の符号化装置並びに復号化装置及びその方法
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
EP2187387B1 (en) Method for encoding and decoding an enhancement layer
JPH05165498A (ja) 音声符号化方法
JPH11249696A (ja) 音声符号化/復号化方法

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121206

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20131209

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee