KR101336879B1 - 통신 시스템에서 신호 부호화 장치 및 방법 - Google Patents

통신 시스템에서 신호 부호화 장치 및 방법 Download PDF

Info

Publication number
KR101336879B1
KR101336879B1 KR1020100091025A KR20100091025A KR101336879B1 KR 101336879 B1 KR101336879 B1 KR 101336879B1 KR 1020100091025 A KR1020100091025 A KR 1020100091025A KR 20100091025 A KR20100091025 A KR 20100091025A KR 101336879 B1 KR101336879 B1 KR 101336879B1
Authority
KR
South Korea
Prior art keywords
gain
signal
subband
speech
audio signals
Prior art date
Application number
KR1020100091025A
Other languages
English (en)
Other versions
KR20110125157A (ko
Inventor
이미숙
김홍국
이영한
Original Assignee
광주과학기술원
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원, 한국전자통신연구원 filed Critical 광주과학기술원
Priority to US13/106,649 priority Critical patent/US8751225B2/en
Publication of KR20110125157A publication Critical patent/KR20110125157A/ko
Application granted granted Critical
Publication of KR101336879B1 publication Critical patent/KR101336879B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은, 통신 시스템에서 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform) 기반의 코덱(codec)을 광대역(wideband) 및 슈퍼광대역(super-wideband)으로 확장하여 음성 및 오디오 신호를 부호화하는 장치 및 방법에 관한 것으로, 사용자들에게 제공하고자 하는 서비스에 해당하는 시간 영역의 음성 및 오디오 신호를 MDCT 기반으로 주파수 영역의 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호로 변환하고, 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역의 이득을 산출하고, 상기 산출한 이득을 양자화하여 양자화된 이득을 산출하고, 상기 양자화된 이득을 통해 상기 각 서브대역의 주파수 계수를 표본화하여 표본화된 주파수 계수를 산출하고, 상기 표본화된 주파수 계수를 이용하여 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역의 패치 정보를 산출하며, 상기 양자화된 이득과 상기 패치 정보를 패킷화하여, 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역의 이득 정보를 부호화한다.

Description

통신 시스템에서 신호 부호화 장치 및 방법{Apparatus and method for coding signal in a communication system}
본 발명은 통신 시스템에 관한 것으로서, 특히 통신 시스템에서 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform, 이하 'MDCT'라 칭하기로 함) 기반의 코덱(codec)을 광대역(wideband) 및 슈퍼광대역(super-wideband)으로 확장하여 음성 및 오디오 신호를 부호화하는 장치 및 방법에 관한 것이다.
통신 시스템에서는 고속의 전송 속도를 가지는 다양한 서비스 품질(QoS: Quality of Service, 이하 'QoS'라 칭하기로 함)의 서비스들을 사용자들에게 제공하기 위한 활발한 연구가 진행되고 있다. 이러한 통신 시스템은, 다양한 형태의 QoS를 가지는 데이터를 한정된 자원을 통해 빠르게 전송하기 위한 방안들이 제안되고 있으며, 최근 네트워크의 발달과 고품질 서비스에 대한 사용자 요구가 증가함에 따라 협대역(narrowband)에서 광대역 및 슈퍼광대역을 통해 고품질의 서비스를 사용자에게 제공하기 위한 방안들이 제안되고 있다.
또한, 통신 기술의 발달에 힘입어 네트워크에서 음성 및 오디오를 전송할 수 있는 대역폭이 증가함에 따라 음악 스트리밍 서비스 등 고대역의 음성 및 오디오를 통한 고품질 서비스에 대한 사용자 요구가 증대하고 있으며, 이러한 사용자 요구를 만족시키기 위해 효율적으로 고품질 음성 및 오디오 신호를 압축하고 전송하기 위한 방안들이 제안되고 있다.
한편, 통신 시스템에서는, 광대역 및 슈퍼광대역으로 사용자에게 다양한 QoS의 서비스를 제공하도록 해당 데이터를 부호화하기 위한 다양한 방안들이 제안되고 있으며, 특히 고속으로 안정적인 데이터 처리 및 전송을 위한 다양한 부호화 방식의 코덱들이 제안되고 있다. 이러한 코덱을 통해 부호화를 수행하는 부호화기는, 계층(layer) 별로 구분하여 부호화를 수행하며, 각 계층은 주파수 대역 별로 분리된다.
여기서, 상기 부화화기는, 각 대역의 각 계층 별로 부호화를 수행하며, 상기 부호화기가 음성 또는 오디오 신호를 부호화할 경우, 각 계층 별로 각 대역의 신호, 예컨대 저대역 신호 및 고대역 신호는 각각 독립적으로 부호화한다. 특히, 전술한 바와 같이 음성 및 오디오 서비스 등에 대한 고품질 서비스를 사용자들에게 제공하도록 효율적으로 고품질 음성 및 오디오 신호를 압축하고 전송하기 위해 부호화기는, 광대역 및 슈퍼광대역을 다중의 서브대역(subband)으로 분할하여 독립적으로 부호화한다.
이렇게 독립적으로 부호화된 고대역 신호는 저대역의 신호와 유사한 비트율을 가지며, 이러한 부호화된 신호를 수신한 수신기는 저대역 신호를 복원한 후, 복원된 저대역의 신호를 이용하여 고대역 신호를 복원한다. 이때, 복원된 저대역 신호 및 고대역 신호, 특히 복원된 고대역 신호는 원신호(original signal)와의 이득 보상을 통해 복원되며, 이렇게 수신기에서의 신호 복원 시 이득 보상을 위해 송신기는 저대역 신호 및 고대역 신호의 이득 정보를 부호화하여 상기 수신기로 송신한다. 그리고, 상기 수신기는, 송신기에서 부호화되어 송신된 이득 정보를 이용하여 부호화된 저대역 신호와 고대역 신호의 복원 시 이득 보상을 수행한다. 그러므로, 상기 송신기의 부호화기는, 음성 및 오디오 신호를 각 대역의 각 계층 별로 독립적으로 부호화하며, 상기 각 대역의 각 계층 별로 독립적으로 부호화되는 음성 및 오디오 신호의 이득 정보를 대역폭 확장(BWE: BandWidth Extension, 이하 'BWE'라 칭하기로 함) 계층에서 부호화하고, 이렇게 부호화된 음성 및 오디오 신호와 이득 정보는 수신기로 송신된다.
하지만, 상기 부호화기가 고품질의 음성 및 오디오 서비스를 제공하기 위해 광대역 및 슈퍼광대역을 다중의 서브대역으로 분할하여 독립적으로 부호화하여 송신할 경우, BWE 계층에서 부호화된 이득 정보를 이용한 부호화된 음성 및 오디오 신호의 복원에는 문제점이 있다. 다시 말해, 상기 수신기가 복원된 저대역 신호를 이용하여 고대역 신호를 복원한 후, 상기 BWE 계층에서 부호화된 이득 정보를 이용한 상기 복원된 고대역 신호의 이득 보상에는 문제점이 있다. 여기서, 전술한 바와 같이 수신기가 복원된 저대역 신호를 이용하여 고대역 신호를 복원하고, 상기 복원된 고대역 신호의 이득 보상을 위해 상기 BWE 계층에서 부호화된 이득 정보를 이용할 경우, 상기 BWE 계층에서 부호화된 이득 정보가 실제 각 대역의 이득, 특히 실제 고대역의 이득을 지시하지 못함으로 이득 보상된 신호에는 오차가 발생하며, 이러한 오차에 의해 음질이 저하되는 문제점이 있다.
또한, 상기 부호화기가 고품질의 음성 및 오디오 서비스를 제공하기 위해 광대역 및 슈퍼광대역을 다중의 서브대역으로 분할하여 독립적으로 부호화함에 따라, 부호화된 신호의 복원 시에 이득 보상을 수행할 경우, 상기 분할된 서브대역 별로 상기 BWE 계층에서 부호화된 이득 정보를 이용하여 이득 보상을 수행함에 따라 상기 분할된 서브대역의 대역 경계에서 이득 불일치가 발생하며, 이러한 이득 불일치에 따른 오차에 의해 음질이 저하된다.
따라서, 통신 시스템에서 고품질의 음성 및 오디오 서비스를 광대역 및 슈퍼광대역을 통해 고속으로 제공하기 위해 광대역 및 슈퍼광대역으로 확장하여 음성 및 오디오 신호를 부호화하는 방안이 필요하다.
따라서, 본 발명의 목적은 통신 시스템에서 신호를 부호화하는 장치 및 방법을 제공함에 있다.
또한, 본 발명의 다른 목적은, 통신 시스템에서 광대역 및 슈퍼광대역으로 확장하여 신호를 부호화하는 장치 및 방법을 제공함에 있다.
그리고, 본 발명의 다른 목적은, 통신 시스템에서 이득 보상을 위한 이득 정보를 저대역 및 고대역을 포함하는 모든 광대역 및 슈퍼광대역에서 공유하도록 신호를 부호화하는 장치 및 방법을 제공함에 있다.
아울러, 본 발명의 또 다른 목적은, 통신 시스템에서 모든 광대역 및 슈퍼광대역의 계층에서 이득 정보를 공유하여 오차를 최소화한 이득 보상을 수행하도록 하여 고품질의 음성 및 오디오 서비스를 제공하는 신호 부호화 장치 및 방법을 제공함에 있다.
상기한 목적들을 달성하기 위한 본 발명의 장치는, 통신 시스템에서 신호 부호화 장치에 있어서, 사용자들에게 제공하고자 하는 서비스에 해당하는 시간 영역의 신호를 주파수 영역의 신호로 변환하는 변환부; 상기 변환된 주파수 영역의 신호에서 각 서브대역의 이득을 산출하여 양자화하고, 상기 각 서브대역의 주파수 계수를 표본화하는 표본화부; 상기 표본화된 주파수 계수를 이용하여 상기 변환된 주파수 영역의 신호에서 각 서브대역의 패치 정보를 탐색하는 탐색부; 및 상기 양자화된 이득과 상기 탐색된 패치 정보를 패킷화하여 상기 주파수 영역의 신호에서 각 서브대역의 이득 정보를 부호화하는 패킷화부;를 포함한다.
상기한 목적들을 달성하기 위한 본 발명의 방법은, 통신 시스템에서 신호 부호화 방법에 있어서, 사용자들에게 제공하고자 하는 서비스에 해당하는 시간 영역의 음성 및 오디오 신호를 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform) 기반으로 주파수 영역의 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호로 변환하는 단계; 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역의 이득을 산출하는 단계; 상기 산출한 이득을 양자화하여 양자화된 이득을 산출하는 단계; 상기 양자화된 이득을 통해 상기 각 서브대역의 주파수 계수를 표본화하여 표본화된 주파수 계수를 산출하는 단계; 상기 표본화된 주파수 계수를 이용하여 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역의 패치 정보를 산출하는 단계; 및 상기 양자화된 이득과 상기 패치 정보를 패킷화하여, 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역의 이득 정보를 부호화하는 단계;를 포함한다.
본 발명은, 통신 시스템에서 변형 이산코사인 변환 기반의 코덱을 슈퍼광대역으로 확장하여 음성 및 오디오 신호를 부호화함으로써, 이득 보상을 위한 이득 정보를 저대역 및 고대역을 포함하는 모든 광대역 및 슈퍼광대역에서 공유할 수 있도록 하며, 그에 따라 모든 광대역 및 슈퍼광대역의 계층에서 이득 정보를 공유하여 오차를 최소화한 이득 보상을 수행하도록 한다. 즉, 본 발명은, 통신 시스템에서 통신 환경에서 낮은 비트율로 오차를 최소화한 이득 보상을 통해 고품질의 음성 및 오디오 서비스를 제공할 수 있다.
도 1은 본 발명의 실시 예에 따른 통신 시스템에서 부호화기 구조를 개략적으로 도시한 도면.
도 2는 본 발명의 다른 실시 예에 따른 통신 시스템에서 부호화기 구조를 개략적으로 도시한 도면.
도 3은 본 발명의 실시 예에 따른 통신 시스템에서 신호 부호화 과정을 개략적으로 도시한 도면.
이하, 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기의 설명에서는 본 발명에 따른 동작을 이해하는데 필요한 부분만이 설명되며 그 이외 부분의 설명은 본 발명의 요지를 흩뜨리지 않도록 생략될 것이라는 것을 유의하여야 한다.
본 발명은, 통신 시스템에서 신호 부호화 장치 및 방법을 제안한다. 여기서, 본 발명의 실시 예에서는, 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform, 이하 'MDCT'라 칭하기로 함) 기반의 코덱(codec)을 광대역(wideband) 및 슈퍼광대역(super-wideband)으로 확장하여 음성 및 오디오 신호를 부호화하는 장치 및 방법을 제안한다. 다시 말해, 본 발명의 실시 예에서는, 다양한 서비스 품질(QoS: Quality of Service, 이하 'QoS'라 칭하기로 함)의 서비스들, 예컨대 고품질의 음성 및 오디오 서비스를 제공받고자 하는 사용자들의 요구에 상응하여, 고품질의 음성 및 오디오 서비스를 고속으로 제공하기 위해 음성 및 오디오 신호를 광대역 및 슈퍼광대역으로 확장하여 부호화한다.
또한, 본 발명의 실시 예에서는, 저대역 및 고대역을 포함하는 모든 광대역 및 슈퍼광대역 계층(layer)에서의 이득 보상(gain compensation)을 위한 이득 정보를 공유하도록 하여 오차를 최소화한 이득 보상을 통해 고품질의 음성 및 오디오 서비스를 제공하도록 음성 및 오디오 신호를 부호화한다. 여기서, 본 발명의 실시 예에 따른 부호화 장치, 예컨대 스케일러블(scalable) 부호화기는, 기본 계층(base layer)과 향상 계층(enhanced layer)으로 구분하여 신호를 부호화하며, 특히 광대역 및 슈퍼광대역을 다중의 서브대역(subband)으로 분할한 후, 각 서브대역 및 각 계층 별로 독립적으로 신호를 부호화한다. 그리고, 상기 향상 계층은, 저대역 향상(LBE: LowBand Enhancement, 이하 'LBE'라 칭하기로 함) 계층, 대역폭 확장(BWE: BandWidth Extension, 이하 'BWE'라 칭하기로 함) 계층, 및 고대역 향상(HBE: HighBand Enhancement, 이하 'HBE'라 칭하기로 함) 계층으로 나누어진다.
여기서, 상기 스케일러블 부호화기가 음성 또는 오디오 신호를 부호화할 경우, 상기 LBE 계층에서는 저대역에서의 음성 또는 오디오의 품질을 향상시키기 위해 원신호(original signal)보다 작은 진폭(amplitude)의 잔류 신호(residual signal)를 추가적으로 부호화하며, 고대역 신호는 저대역 신호와 독립적으로 부호화된다. 즉, 상기 스케일러블 부호화기는, 전술한 바와 같이 광대역 및 슈퍼광대역을 다중의 서브대역으로 분할하여 독립적으로 부호화하며, 이렇게 부호화된 고대역 신호는 저대역의 신호와 유사한 비트율을 갖는다.
예컨대, 상기 슈퍼광대역에서의 부호화 시, 상기 스케일러블 부호화기는, 저대역 주파수 계수를 4개의 서브대역으로 분할하여 고대역 주파수 계수로 이용하며, 이렇게 부호화된 고대역 신호의 복원 시 복원된 저대역 신호, 즉 저대역 주파수 계수를 이용하여 상기 부호화된 고대역 신호를 복원하며, 또한 부호화된 고대역 신호의 복원 시 원신호와의 이득 보상을 통해 복원한다. 다시 말해, 음성 및 오디오 서비스 등에 대한 고품질 서비스를 사용자들에게 제공하도록 효율적으로 고품질 음성 및 오디오 신호를 압축하고 전송하기 위해 스케일러블 부호화기는, 광대역 및 슈퍼광대역을 다중의 서브대역으로 분할하여 독립적으로 부호화한다.
이렇게 독립적으로 부호화된 고대역 신호는 저대역의 신호와 유사한 비트율을 가지며, 이러한 부호화된 신호를 수신한 수신기는 저대역 신호를 복원한 후, 복원된 저대역의 신호를 이용하여 고대역 신호를 복원한다. 이때, 복원된 저대역 신호 및 고대역 신호, 특히 복원된 고대역 신호는 원신호와의 이득 보상을 통해 복원되며, 수신기에서의 신호 복원 시 이득 보상을 위해 상기 스케일러블 부호화기는, 저대역 신호 및 고대역 신호의 이득 정보를 부호화하며, 상기 부호화된 이득 정보는 상기 수신기로 송신된다. 그리고, 상기 수신기는, 부호화되어 송신된 이득 정보를 이용하여 부호화된 저대역 신호와 고대역 신호의 복원 시 이득 보상을 수행한다.
그러므로, 본 발명의 실시 예에 따른 부호화기, 예컨대 상기 스케일러블 부호화기는, 모든 광대역 및 슈퍼광대역의 각 계층에서 독립적으로 음성 및 오디오 신호를 부호화하며, 이렇게 부호화된 음성 및 오디오 신호의 복원 시에 이득 보상을 위해 이용하는 이득 정보를 모든 광대역 및 슈퍼광대역의 각 계층에서 공유하도록 상기 이득 정보를 부호화한다. 여기서, 상기 부호화기는, MDCT 기반의 코덱을 광대역 및 슈퍼광대역으로 확장하여 음성 및 오디오 신호, 뿐만 아니라 부호화된 음성 및 오디오 신호에 대한 이득 정보도 부호화한다.
다시 말해, 본 발명의 실시 예에 따른 부호화기는, MDCT 기반의 음성 및 오디오 코덱을 광대역 및 슈퍼광대역으로 확장하여 부호화하며, 상기 부호화기는, 주파수 대역에서 대역 확장을 위해 음성 및 오디오 신호를 MDCT 기반으로 변환한 후, MDCT 기반으로 변환된 신호에서 이득 정보로 양자화된 이득을 획득하며, 표본화된 주파수 계수를 이용하여 패치 정보로 패치 인덱스를 획득한다. 그에 따라, 상기 부호화기는, LBE 계층 및 BWE 계층뿐만 아니라 HBE 계층, 즉 모든 광대역 및 슈퍼광대역의 계층에서 이득 정보를 공유하도록 하며, 분할된 각 서브대역에서의 이득 정보 부호화 시 각 서브대역 간의 상대적 이득 비율을 양자화하여 낮은 비트율로 서비스 품질을 향상시킨다. 이때, 상기 부호화기는, 상기 광대역 및 슈퍼광대역을 다중의 서브대역들로 분할하여 독립적으로 부호화함에 따라 낮은 비트율로 서비스 품질을 향상시키기 위해 이득 정보를 추출하는 각 서브대역의 개수와 패치 정보를 추출하는 각 서브대역의 개수를 상이하게 설정하여 이득 정보를 부호화하며, 그에 따라 상기 이득 정보는 전술한 바와 같이 각 서브대역 간 상대적 이득 비율의 양자화로 부호화된다. 상기 이득 정보는 BWE 계층에서 부호화되며, 사익 BWE 계층에서 부호화된 이득 정보는 모든 광대역 및 슈퍼광대역의 계층에서 공유된다.
그리고, 본 발명의 실시 예에서는, MDCT 기반의 음성 및 오디오 코덱을 광대역 및 슈퍼광대역으로 확장하여 부호화하기 위해, MDCT 기반으로 변환된 신호에서 저대역과 고대역의 상호 상관도 기반의 패치 인덱스를 산출하기 전에 이득 정보로 이득 파라미터를 양자화한 후, 주파수 계수를 표본화하여 상기 패치 인덱스를 산출하며, 모든 광대역 및 슈퍼 광대역의 계층에서 이득 정보를 공유, 특히 HBE 계층과 이득 정보인 이득 파라미터를 공유하도록 한다. 또한, 전술한 바와 같이, 상기 부호화기는, 분할된 서브대역 간 상대적 이득 비율 정보를 이득 정보로 부호화하여 비트율을 감소시키며, 상기 이득 정보를 추출하는 서브대역과 패치 정보를 추출하는 서브대역을 각각 분할하여 설정, 즉 서로 다른 서브대역 개수로 설정함으로써, 낮은 비트율로 고품질의 서비스를 제공하도록 한다. 여기서, 상기 부호화기는, 서브대역에서의 패치 정보 추출 시 발생하는 에러를 최소화하기 위해 최소평균자승오류(MMSE: Minimum Mean Square Error, 이하 'MMSE'라 칭하기로 함) 방식으로 상기 패치 정보를 추출, 패치 정보로 MMSE 기반의 패치 인덱스를 산출한다.
상기 부호화기는, 서브대역 간의 이득 불일치, 다시 말해 에너지 오차 발생을 최소화하여 고품질의 서비스, 예컨대 음성 및 오디오 서비스의 음질을 향상시키며, 부호화시 각 서브대역에서 이득 정보를 우선적으로 추출함에 따라 각 서브대역의 실질적인 이득 정보, 즉 에너지 정보가 추출된 후, 부호화되어 수신기로 전송되며, 그에 따라 부호화된 상위 계층의 고대역 신호 복원 시 이득 정보를 공유, 즉 상대적 이득 비율로 양자화된 이득 파라미터를 상위 계층, 특히 HBE 계층에서 재사용함으로써 이득 보상의 오차를 최소화하여 음질을 향상시킨다. 그러면 여기서, 도 1을 참조하여 본 발명의 실시 예에 따른 통신 시스템에서 부호화기 구조를 보다 구체적으로 설명하기로 한다.
도 1은 본 발명의 실시 예에 따른 통신 시스템에서 부호화기 구조를 개략적으로 도시한 도면이다. 여기서, 도 1은 MDCT 기반의 코덱을 광대역 및 슈퍼광대역으로 확장하여 신호를 부호화하는 부호화기 구조를 나타낸 도면이다.
도 1을 참조하면, 상기 부호화기는, 사용자들에게 제공하고자 하는 서비스, 예컨대 음성 및 오디오 서비스에 해당하는 신호, 예컨대 음성 및 오디오 신호를 MDCT 기반으로 변환하는 변환부들, 예컨대 변환부1(105) 및 변환부2(110), 상기 변환부들(105,110)에서 MDCT 기반으로 변환된 신호의 각 서브대역에서 패치 정보를 탐색(search)하는 탐색부1(115), 상기 탐색부1(115)에서 탐색된 패치 정보을 이용하여 MDCT 기반으로 변환된 신호의 각 서브대역 간 이득 불일치를 보상하기 위한 이득 정보를 산출하는 보상부(120), 및 상기 탐색부1(115)에서 탐색된 패치 정보와 상기 보상부(120)에서 산출한 이득 정보를 패킷화(packetization)하는 패킷화부1(125)를 포함한다.
여기서, 상기 부호화기는, 고품질의 서비스를 고속으로 사용자에게 제공하기 위해 서비스에 해당하는 신호가 전송되는 광대역 및 슈퍼광대역을 다중의 서브대역으로 분할한 후, 각 서브대역 및 각 계층 별로 독립적으로 신호를 부호화하며, 상기 탐색부1(115)과 보상부(120)는 상기 분할된 서브대역에서 패치 정보 및 이득 정보를 산출한다. 그리고, 상기 각 서브대역 및 각 계층 별로 독립적으로 부호화된 고대역 신호는, 전술한 바와 같이 복원된 저대역 신호를 이용하여 복원된다.
또한, 상기 부호화기는, 부호화 시 입력된 시간 영역(time domain)의 신호를 MDCT 기반으로 변환하여 전술한 바와 같은 동작을 수행, 다시 말해 시간 영역의 음성 및 오디오 신호를 MDCT 기반으로 변환하여 각 서브대역에서 패치 정보와 이득 정보를 산출한 후 패킷화함에 따라, MDCT 영역(MDCT domain)에서 부호화 동작을 수행하며, 포괄적 모드(generic mode) 및 사인파 모드(sinusoidal mode)로 동작, 특히 포괄적 모드로 동작한다. 상기 포괄적 모드에서 상기 부호화기는, 전술한 바와 같이 음성 및 오디오 신호를 분할된 각 서브대역에서 상관도 기반의 패치 인덱스, 즉 패치 정보를 탐색하고 또한 이득 불일치 보상을 위한 이득 파라미터, 즉 이득 정보를 산출한다. 그리고, 상기 사인파 모드는, 악기나 톤 신호와 같이 강한 주기성의 음성 및 오디오 신호, 즉 사인파 신호일 경우에 동작하는 모드로, 상기 부호화기는, 사인파 신호에 대한 크기, 주파수 계수상 위치 및 신호의 부호 정보를 추출한 후 패킷화하며, 상기 부호화기는, 사인파 모드로 독립적으로 동작하거나, 포괄적 모드와 동시에 동작할 수 있다.
상기 변환부들(105,110)은, 시간 영역의 음성 및 오디오 신호(x(n))를 MDCT 기반으로 변환, 즉 MDCT 영역의 신호(X(k))로 변환한다. 여기서, 상기 변환부1(105)은, 사용자들에게 제공하고자 하는 서비스에 해당하는 시간 영역의 고대역 신호, 예컨대 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00001
)가 입력되면, 상기 입력된 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00002
)를 MDCT 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00003
)로 변환한다. 그리고, 상기 변환부2(110)는, 사용자들에게 제공하고자 하는 서비스에 해당하는 시간 영역의 저대역 신호, 예컨대 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00004
)가 입력되면, 상기 입력된 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00005
)를 MDCT 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00006
)로 변환한다.
여기서, 상기 변환부들(105,110)이 MDCT 기반으로 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00007
,
Figure 112010060350706-pat00008
)를 변환함에 따라, 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00009
,
Figure 112010060350706-pat00010
)는 주파수 영역(frequency domain)의 음성 및 오디오 신호로 변환, 즉 변환된 MDCT 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00011
,
Figure 112010060350706-pat00012
)는 주파수 영역의 음성 및 오디오 신호가 된다.
그리고, 상기 변환부들(105,110)로 입력되는 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00013
,
Figure 112010060350706-pat00014
)는, 상기 부호화기가 사용자들에게 제공하고자 하는 음성 및 오디오 서비스에 해당하는 음성 및 오디오 신호를 부호화하는 시간 영역의 신호를 의미하며, 상기 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00015
,
Figure 112010060350706-pat00016
)는 이득 정보의 부호화를 위해 변환부들(105,110)로 입력된다. 즉, 상기 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00017
)는, 상기 부호화기가 기본 계층에서 부호화하는 음성 및 오디오 신호이며, 상기 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00018
)는, 광대역 및 슈퍼광대역에서 이득 정보의 공유를 위한 상기 이득 정보의 부호화를 위해 상기 변환부2(110)로 입력된다. 또한, 상기 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00019
)는, 상기 부호화기가 향상 계층에서 부호화하는 음성 및 오디오 신호이며, 상기 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00020
)는, 광대역 및 슈퍼광대역에서 이득 정보의 공유를 위한 상기 이득 정보의 부호화를 위해 상기 변환부1(105)로 입력된다.
아울러, 상기 변환부들(105,110)에서 MDCT 기반으로 변환된 MDCT 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00021
,
Figure 112010060350706-pat00022
)는, 이득 정보의 부호화를 위해 각 서브대역에서 음성 및 오디오의 MDCT 계수를 의미한다. 예컨대,
Figure 112010060350706-pat00023
는 임의의 j번째 서브대역에 해당하는 MDCT 영역의 음성 및 오디오 신호, 즉 주파수 영역의 고대역 음성 및 오디오 신호에서 해당하는 k번째 고대역 MDCT 계수이며, 상기 고대역 MDCT 계수는, 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00024
)가 MDCT 기반으로 변환됨에 따라, 상기 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00025
)에서 임의의 서브대역에 해당하는 고대역 MDCT 계수를 의미한다. 그리고,
Figure 112010060350706-pat00026
는, 전술한 바와 같이 저대역 음성 및 오디오 신호를 이용하여 고대역 음성 및 오디오 신호가 처리됨에 따라, 임의의 j번째 서브대역에 해당하는 MDCT 영역의 음성 및 오디오 신호, 즉 주파수 영역의 저대역 음성 및 오디오 신호에서 j번째 서브대역에 해당하는 k번째 저대역 MDCT 계수이며, 상기 저대역 MDCT 계수는, 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00027
)가 MDCT 기반으로 변환됨에 따라, 상기 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00028
)에서 임의의 서브대역에 해당하는 저대역 MDCT 계수를 의미한다.
상기 탐색부1(115)은, 상기 변환부들(105,110)에서 MDCT 기반으로 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00029
,
Figure 112010060350706-pat00030
)의 각 서브대역에서 패치 정보를 탐색한다. 여기서, 상기 탐색부1(115)은, 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00031
,
Figure 112010060350706-pat00032
)의 각 서브대역에서 상관도 기반 패치 인덱스(correlation-based fetch index)를 탐색한다. 그리고, 상기 탐색부1(115)은, 저대역 신호를 이용하여 고대역 신호의 각 서브대역에서 패치 인덱스를 탐색하며, 특히 저대역 주파수 계수로부터 고대역 주파수 계수를 탐색한다.
보다 구체적으로 설명하면, 상기 탐색부1(115)은, 상기 변환된 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00033
)의 각 서브대역에 해당하는 주파수 계수, 즉 저대역 주파수 계수로부터 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00034
)의 각 서브대역에서 임의의 서브대역, 예컨대 j번째 서브대역에 해당하는 주파수 계수, 즉 고대역 주파수 계수를 탐색하며, 상기 탐색한 저대역 주파수 계수, 즉 저대역 MDCT 계수 및 고대역 주파수 계수, 즉 고대역 MDCT 계수를 이용하여 각 서브대역에서 상기 변환된 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00035
)와 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00036
) 간의 상호 상관도(cross-correlation)로 상관 계수를 산출한다. 여기서, 상기 각 서브대역에서 상기 변환된 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00037
)와 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00038
) 간의 상호 상관 계수는 수학식 1과 같이 나타낼 수 있다.
Figure 112010060350706-pat00039
수학식 1에서,
Figure 112010060350706-pat00040
는 j번째 서브대역에 해당하는 MDCT 계수를 의미하고,
Figure 112010060350706-pat00041
는 상기 변환된 고대역 음성 및 오디오 신호에서 j번째 서브대역에 해당하는 k번째 고대역 MDCT 계수를 의미하고,
Figure 112010060350706-pat00042
는 상기 변환된 저대역 음성 및 오디오 신호에서 k번째 저대역 MDCT 계수를 의미하고,
Figure 112010060350706-pat00043
는 j번째 서브대역에서 상호 상관 계수를 의미하며,
Figure 112010060350706-pat00044
는 j번째 서브대역에서 상관 계수의 인덱스를 의미한다.
그리고, 상기 탐색부1(115)은, 상기 산출한 상호 상관 계수에서 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00045
)를 산출하며, 상기 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00046
)는 수학식 2와 같이 나타낼 수 있다.
Figure 112010060350706-pat00047
수학식 2에서,
Figure 112010060350706-pat00048
는, 수학식 1을 통해 산출한 상호 상관 계수에서 최대 상관 계수에 해당하는 인덱스를 의미하고, 상기 j는 0, 1,…, (M-1)을 가지며, 이때 M은 상기 패치 정보를 추출하는 서브대역의 총 개수, 즉 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00049
,
Figure 112010060350706-pat00050
)의 분할된 서브대역에서 상기 상호 상관 계수(
Figure 112010060350706-pat00051
)를 산출하는 서브대역의 총 개수를 의미하며,
Figure 112010060350706-pat00052
Figure 112010060350706-pat00053
는 각각 j번째 서브대역의 경계를 의미한다.
이렇게 상기 탐색부1(115)은, 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00054
,
Figure 112010060350706-pat00055
)의 분할된 서브대역에서 상호 상관 계수를 산출한 후, 상기 산출한 상호 상관 계수에서 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00056
)를 산출하며, 상기 산출된 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00057
)는 상기 보상부(120)와 패킷화부1(125)로 전송된다.
상기 보상부(120)는, 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00058
,
Figure 112010060350706-pat00059
)의 이득 보상 시 이득 불일치를 보상하기 위한 이득 파라미터, 즉 이득 정보를 산출한다. 여기서, 상기 보상부(120)는, 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00060
)와 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00061
) 간의 이득 불일치를 보상하기 위한 이득 파라미터를 산출하며, 상기 이득 파라미터는, 상기 산출된 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00062
)를 고려하여 산출된다. 즉, 상기 보상부(120)는, 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00063
)에서 j번째 서브대역에 해당하는 k번째 고대역 MDCT 계수, 즉
Figure 112010060350706-pat00064
와, 상기 변환된 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00065
)에서 j번째 서브대역에 해당하는 k번째 저대역 MDCT 계수에 상기 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00066
)를 고려한 j번째 서브대역에 해당하는 k번째 저대역 MDCT 계수, 즉
Figure 112010060350706-pat00067
간 에너지 불일치를 보상하기 위한 이득 파라미터를 산출한다.
다시 말해, 상기 보상부(120)는, 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00068
)의 MDCT 계수와 상기 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00069
)를 고려한 변환된 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00070
)의 MDCT 계수 간의 이득 파라미터를 산출하며, 이때 상기 이득 파라미터로 선형적 스팩트럼 영역(linear spectral domain)에서의 선형적 스케일링 팩터(linear scaling factor)(
Figure 112010060350706-pat00071
)와, 로그 스펙트럼 영역(log spectral domain)에서의 로그 스케일링 팩터(log scaling factor)(
Figure 112010060350706-pat00072
)를 각각 산출한다. 여기서, 상기 선형적 스케일링 팩터(
Figure 112010060350706-pat00073
)는 수학식 3과 같이 나타낼 수 있고, 상기 로그 스케일링 팩터(
Figure 112010060350706-pat00074
)는 수학식 4와 같이 나타낼 수 있다.
Figure 112010060350706-pat00075
Figure 112010060350706-pat00076
수학식 3 및 수학식 4에서,
Figure 112010060350706-pat00077
는 j번째 서브대역에서 선형적 스케일링 팩터를 의미하고,
Figure 112010060350706-pat00078
는 j번째 서브대역에서 로그 스케일링 팩터를 의미하며,
Figure 112010060350706-pat00079
를 나타내고,
Figure 112010060350706-pat00080
를 나타내며,
Figure 112010060350706-pat00081
를 나타낸다.
여기서, 상기 보상부(120)는, 상기 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00082
)를 고려하여 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00083
,
Figure 112010060350706-pat00084
)의 이득 보상 시 이득 불일치를 보상하기 위한 이득 파라미터, 즉 상기 선형적 스케일링 팩터(
Figure 112010060350706-pat00085
)와 상기 로그 스케일링 팩터(
Figure 112010060350706-pat00086
)를 산출하며, 이렇게 산출한 스케일링 팩터(
Figure 112010060350706-pat00087
,
Figure 112010060350706-pat00088
)를 통해 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00089
,
Figure 112010060350706-pat00090
) 간 이득 보상을 위한 이득 정보를 산출하여 양자화, 즉 이득 보상 및 양자화(gain compensation/quantization)된 이득 파라미터로 스케일링 팩터(
Figure 112010060350706-pat00091
,
Figure 112010060350706-pat00092
)를 패킷화부1(125)로 전송한다.
상기 패킷화부1(125)은, 상기 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00093
)와, 상기 이득 정보로 이득 파라미터, 즉 상기 선형적 스케일링 팩터(
Figure 112010060350706-pat00094
)와 상기 로그 스케일링 팩터(
Figure 112010060350706-pat00095
)를 입력받고, 상기 입력된 정보를 패킷화한다. 즉, 상기 패킷화부1(125)은, 상기 변환부들(105,110)로 입력되는 음성 및 오디오 신호(
Figure 112010060350706-pat00096
,
Figure 112010060350706-pat00097
)의 이득 정보를 패킷화하여 출력한다. 여기서, 상기 패킷화된 이득 정보는, 모든 광대역 및 슈퍼광대역의 계층, 특히 HBE 계층에서 공유하도록 BWE 계층에서 부호화된 이득 정보로서, 부호화된 이득 정보는 수신기로 송신된다.
이렇게 상기 부호화기는, 상기 변환부들(105,110)에 의해, 이득 정보의 부호화를 위해 입력되는 상기 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00098
,
Figure 112010060350706-pat00099
)를 MDCT 기반으로 변환하여 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00100
,
Figure 112010060350706-pat00101
)로 변환한 후, 상기 탐색부1(115)에 의해, 상기 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00102
,
Figure 112010060350706-pat00103
)에서 각 서브대역에 해당하는 주파수 계수로 MDCT 계수를 탐색하며, 상기 탐색한 MDCT 계수를 이용하여 상기 각 서브대역에서 상기 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00104
,
Figure 112010060350706-pat00105
) 간의 상호 상관 계수를 산출한 후, 상기 산출한 상호 상관 계수(
Figure 112010060350706-pat00106
)에서 최대 상관 계수의 인덱스(
Figure 112010060350706-pat00107
)를 산출한다. 즉, 상기 탐색부1(115)은 주파수 계수로 MDCT 계수를 탐색하여 상호 상관 계수 및 최대 상관 계수의 인덱스를 산출하며, 상기 패치 정보인 패치 인덱스로 최대 상관 계수의 인덱스를 출력한다. 또한, 상기 부호화기는, 상기 보상부(120)에 의해, 상기 패치 인덱스인 최대 상관 계수의 인덱스를 고려하여 상기 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00108
,
Figure 112010060350706-pat00109
) 간 보상 불일치를 보상하기 위한 보상 정보인 이득 파라미터를 산출, 즉 상기 선형적 스케일링 팩터(
Figure 112010060350706-pat00110
)와 상기 로그 스케일링 팩터(
Figure 112010060350706-pat00111
)를 산출하며, 상기 패킷화부1(125)에 의해, 상기 이득 정보를 부호화된 후, 수신기로 송신된다. 그러면 여기서, 도 2를 참조하여 본 발명의 다른 실시 예에 따른 통신 시스템에서 부호화기 구조를 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 다른 실시 예에 따른 통신 시스템에서 부호화기 구조를 개략적으로 도시한 도면이다. 여기서, 도 2는 MDCT 기반의 코덱을 광대역 및 슈퍼광대역으로 확장하여 신호를 부호화하는 부호화기 구조를 나타낸 도면이다.
도 2를 참조하면, 상기 부호화기는, 사용자들에게 제공하고자 하는 서비스, 예컨대 음성 및 오디오 서비스에 해당하는 신호, 예컨대 음성 및 오디오 신호를 MDCT 기반으로 변환하는 변환부들, 예컨대 변환부3(205) 및 변환부4(210), 상기 변환부들(205,210)에서 MDCT 기반으로 변환된 신호의 각 서브대역에서 이득 정보로 실제 이득을 양자화한 후 주파수 계수, 예컨대 MDCT 계수를 표본화(normalization)하는 표본화부(215), 상기 표본화부(215)에서 표본화된 MDCT 계수를 이용하여 상기 MDCT 기반으로 변환된 신호의 각 서브대역에서 패치 정보를 탐색하는 탐색부2(220), 및 상기 표본화부(215)에서 양자화된 이득 정보와 상기 탐색부2(220)에서 탐색된 탐색 정보를 패킷화하는 패킷화부2(225)를 포함한다.
여기서, 상기 부호화기는, 고품질의 서비스를 고속으로 사용자에게 제공하기 위해 서비스에 해당하는 신호가 전송되는 광대역 및 슈퍼광대역을 다중의 서브대역으로 분할한 후, 각 서브대역 및 각 계층 별로 독립적으로 신호를 부호화한다. 상기 표본화부(215)와 탐색부2(220)는 상기 분할된 서브대역에서 이득 정보 및 패치 정보를 산출한다. 그리고, 상기 각 서브대역 및 각 계층 별로 독립적으로 부호화된 고대역 신호는, 전술한 바와 같이 복원된 저대역 신호를 이용하여 복원된다.
또한, 상기 부호화기는, 부호화 시 입력된 시간 영역의 신호를 MDCT 기반으로 변환하여 전술한 바와 같은 동작을 수행, 다시 말해 시간 영역의 음성 및 오디오 신호를 MDCT 기반으로 변환하여 각 서브대역에서 이득 정보를 산출한 후 패치 정보를 산출하여 패킷화함에 따라, MDCT 영역에서 부호화 동작을 수행하며, 포괄적 모드 및 사인파 모드로 동작, 특히 포괄적 모드로 동작한다. 상기 포괄적 모드에서 상기 부호화기는, 전술한 바와 같이 일반적인 음성 및 오디오 신호를 분할된 각 서브대역에서 실제 이득을 양자화하여 이득 정보를 산출한 후, 상기 각 서브대역에서 MMSE 기반의 패치 인덱스, 즉 패치 정보를 탐색하여 산출한다. 여기서, 상기 입력된 시간 영역의 신호, 다시 말해 상기 시간 영역의 음성 및 오디오 신호는, 광대역 및 슈퍼광대역으로 확장된 MDCT 기반의 코덱을 통해 부호화되며, 상기 부호화기는, 이렇게 부호화된 음성 및 오디오 신호의 이득 보상 시 모든 광대역 및 슈퍼광대역 계층에서 공유하도록 이득 정보를 부호화한다.
상기 변환부들(205,210)은, 시간 영역의 음성 및 오디오 신호(x(n))를 MDCT 기반으로 변환, 즉 MDCT 영역의 신호(X(k))로 변환한다. 여기서, 상기 변환부3(205)은, 사용자들에게 제공하고자 하는 서비스에 해당하는 시간 영역의 고대역 신호, 예컨대 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00112
)가 입력되면, 상기 입력된 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00113
)를 MDCT 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00114
)로 변환한다. 그리고, 상기 변환부4(210)는, 사용자들에게 제공하고자 하는 서비스에 해당하는 시간 영역의 저대역 신호, 예컨대 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00115
)가 입력되면, 상기 입력된 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00116
)를 MDCT 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00117
)로 변환한다.
여기서, 상기 변환부들(205,210)이 MDCT 기반으로 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00118
,
Figure 112010060350706-pat00119
)를 변환함에 따라, 상기 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00120
,
Figure 112010060350706-pat00121
)는 주파수 영역의 음성 및 오디오 신호로 변환, 즉 변환된 MDCT 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00122
,
Figure 112010060350706-pat00123
)는 주파수 영역의 음성 및 오디오 신호가 된다.
그리고, 상기 변환부들(205,210)로 입력되는 음성 및 오디오 신호(
Figure 112010060350706-pat00124
,
Figure 112010060350706-pat00125
)는, 사용자들에게 제공하고자 하는 음성 및 오디오 서비스에 해당하는 음성 및 오디오 신호를 광대역 및 슈퍼광대역으로 확장된 MDCT 기반의 음성 및 오디오 코덱을 통해 부호화하는 시간 영역의 신호를 의미하며, 상기 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00126
,
Figure 112010060350706-pat00127
)는 이득 정보의 부호화를 위해 변환부들(105,110)로 입력된다. 즉, 상기 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00128
)는, 상기 부호화기가 기본 계층에서 상기 확장된 MDCT 기반의 음성 및 오디오 코덱을 통해 부호화하는 음성 및 오디오 신호이며, 상기 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00129
)는, 광대역 및 슈퍼광대역에서 이득 정보의 공유를 위한 상기 이득 정보의 부호화를 위해 상기 변환부4(210)로 입력된다. 또한, 상기 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00130
)는, 상기 부호화기가 향상 계층에서 상기 확장된 MDCT 기반의 음성 및 오디오 코덱을 통해 부호화하는 음성 및 오디오 신호이며, 상기 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00131
)는, 광대역 및 슈퍼광대역에서 이득 정보의 공유를 위한 상기 이득 정보의 부호화를 위해 상기 변환부3(205)으로 입력된다.
아울러, 상기 변환부들(205,210)에서 MDCT 기반으로 변환된 MDCT 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00132
,
Figure 112010060350706-pat00133
)는, 이득 정보의 부호화를 위해 각 서브대역에서 음성 및 오디오의 MDCT 계수를 의미한다. 예컨대,
Figure 112010060350706-pat00134
는 임의의 j번째 서브대역에 해당하는 MDCT 영역의 음성 및 오디오 신호, 즉 주파수 영역의 고대역 음성 및 오디오 신호에서 j번째 서브대역에 해당하는 k번째 고대역 MDCT 계수이며, 상기 고대역 MDCT 계수는, 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00135
)가 MDCT 기반으로 변환됨에 따라, 상기 시간 영역의 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00136
)에서 임의의 서브대역에 해당하는 고대역 MDCT 계수를 의미한다. 그리고,
Figure 112010060350706-pat00137
는, 전술한 바와 같이 저대역 음성 및 오디오 신호를 이용하여 고대역 음성 및 오디오 신호가 처리됨에 따라, 임의의 j번째 서브대역에 해당하는 MDCT 영역의 음성 및 오디오 신호, 즉 주파수 영역의 저대역 음성 및 오디오 신호에서 j번째 서브대역에 해당하는 k번째 저대역 MDCT 계수이며, 상기 저대역 MDCT 계수는, 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00138
)가 MDCT 기반으로 변환됨에 따라, 상기 시간 영역의 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00139
)에서 임의의 서브대역에 해당하는 저대역 MDCT 계수를 의미한다.
상기 표본화부(215)는, 상기 변환부들(105,110)에서 MDCT 기반으로 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00140
,
Figure 112010060350706-pat00141
)의 각 서브대역에서 실제 이득, 특히 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00142
)의 각 서브대역에서 이득(
Figure 112010060350706-pat00143
)을 산출하며, 상기 각 서브대역에서 이득(
Figure 112010060350706-pat00144
)은 수학식 5와 같이 나타낼 수 있다.
Figure 112010060350706-pat00145
수학식 5에서,
Figure 112010060350706-pat00146
는 상기 MDCT 기반으로 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00147
,
Figure 112010060350706-pat00148
)의 각 서브대역에서 실제 이득, 특히 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00149
)의 j번째 서브대역에서 실제 이득을 의미하며,
Figure 112010060350706-pat00150
로 나타낼 수 있으며,
Figure 112010060350706-pat00151
는 상기 이득 정보를 추출하는 서브대역의 총 개수, 즉 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00152
,
Figure 112010060350706-pat00153
)의 분할된 서브대역에서 상기 실제 이득(
Figure 112010060350706-pat00154
)를 산출하는 서브대역의 총 개수를 의미한다. 그리고, 수학식 5에서,
Figure 112010060350706-pat00155
는 j번째 서브대역의 이득에 해당하는 MDCT 계수를 의미하고,
Figure 112010060350706-pat00156
는 수학식 1에서 설명한 바와 같이, 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00157
)에서 j번째 서브대역에 해당하는 k번째 고대역 MDCT 계수를 의미한다. 즉, 상기 표본화부(215)는, 상기 MDCT 기반으로 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00158
,
Figure 112010060350706-pat00159
)의 각 서브대역에서 주파수 계수, 예컨대 MDCT 계수를 이용하여 실제 이득(
Figure 112010060350706-pat00160
)을 산출한다.
또한, 상기 표본화부(215)는, 전술한 바와 같이 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00161
,
Figure 112010060350706-pat00162
)의 각 서브대역에서 실제 이득, 특히 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00163
)의 각 서브대역에서 이득(
Figure 112010060350706-pat00164
)을 산출한 후, 상기 산출한 각 서브대역에서의 이득을 양자화한다. 여기서, 상기 표본화부(215)는, 상기 각 서브대역에서 이득(
Figure 112010060350706-pat00165
)을 이득 비율로 양자화, 즉 인접한 서브대역 간의 상대적 이득 비율로 양자화한다. 다시 말해, 상기 각 서브대역에서 이득(
Figure 112010060350706-pat00166
)은 이득 비율 정보로 양자화되며, 상기 이득 비율 정보에서 상기 인접한 서브대역 간의 상대적 이득 비율은, 실제 산출한 이득, 즉 수학식 5에 나타낸 바와 같이 산출한 상기 각 서브대역에서 이득(
Figure 112010060350706-pat00167
)의 동적 범위(dynamic range)보다 작으므로, 상기 부호화기에서의 이득 정보 부호화 동작 및 수신기에서의 이득 정보의 처리 동작의 오버로드(overload)를 감소시킬 수 있다.
즉, 상기 표본화부(215)는, 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00168
,
Figure 112010060350706-pat00169
)의 각 서브대역에서 실제 이득(
Figure 112010060350706-pat00170
)을 양자화하며, 상기 양자화된 각 서브대역에서의 이득(
Figure 112010060350706-pat00171
)은 수학식 6과 같이 나타낼 수 있다.
Figure 112010060350706-pat00172
수학식 6에서,
Figure 112010060350706-pat00173
은, 상기 각 서브대역에서 실제 이득(
Figure 112010060350706-pat00174
)의 양자화된 이득을 의미하고,
Figure 112010060350706-pat00175
는 j=0일 경우의 양자화된 이득(
Figure 112010060350706-pat00176
)을 의미하고,
Figure 112010060350706-pat00177
는 x의 n-비트 스칼라 양자화를 의미하며,
Figure 112010060350706-pat00178
Figure 112010060350706-pat00179
일 경우의 양자화된 이득(
Figure 112010060350706-pat00180
)을 의미한다.
그리고, 상기 표본화부(215)는, 상기 각 서브대역에서의 양자화된 이득(
Figure 112010060350706-pat00181
)을 이용하여 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00182
,
Figure 112010060350706-pat00183
)의 각 서브대역에서 주파수 계수, 예컨대 MDCT 계수를 표본화하며, 상기 표본화된 MDCT 계수는 수학식 7과 같이 나타낼 수 있다.
Figure 112010060350706-pat00184
수학식 7에서,
Figure 112010060350706-pat00185
는 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00186
,
Figure 112010060350706-pat00187
)의 각 서브대역에서 실제 이득, 특히 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00188
)의 각 서브대역에서 표본화된 MDCT 계수로, j번째 서브대역에 해당하는 k번째 표본화된 고대역 MDCT 계수를 의미한다.
이렇게 상기 표본화부(215)는, 상기 변환된 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00189
,
Figure 112010060350706-pat00190
)의 각 서브대역에서 이득(
Figure 112010060350706-pat00191
)을 산출한 후, 상기 산출한 이득(
Figure 112010060350706-pat00192
)을 양자화하고, 양자화된 이득(
Figure 112010060350706-pat00193
)을 통해 표본화된 MDCT 계수(
Figure 112010060350706-pat00194
)를 탐색부2(220)로 전송하고, 이득 정보로 상기 양자화된 이득(
Figure 112010060350706-pat00195
)을 패킷화부2(225)로 전송한다. 즉, 상기 표본화부(215)는, 이득 양자화 및 표본화(gain quantization/normalization)을 수행하여 상기 변환된 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00196
,
Figure 112010060350706-pat00197
)의 각 서브대역에서 양자화된 이득(
Figure 112010060350706-pat00198
) 및 표본화된 MDCT 계수(
Figure 112010060350706-pat00199
)를 산출한다.
상기 탐색부2(220)는, 상기 표본화부(215)에서 표본화된 MDCT 계수(
Figure 112010060350706-pat00200
)를 이용하여 상기 MDCT 기반으로 변환된 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00201
,
Figure 112010060350706-pat00202
)의 각 서브대역에서 MMSE 기반의 패치 인덱스, 즉 패치 정보를 탐색하여 산출한다. 보다 구체적으로 설명하면, 상기 탐색부2(220)는, 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00203
,
Figure 112010060350706-pat00204
), 특히 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00205
)의 각 서브대역에서 패치 정보인 패치 인덱스(
Figure 112010060350706-pat00206
)를 산출하며, 상기 패치 인덱스(
Figure 112010060350706-pat00207
)는 MMSE를 기반으로 산출된다. 여기서, 상기 패치 인덱스(
Figure 112010060350706-pat00208
)는 수학식 8과 같이 나타낼 수 있다.
Figure 112010060350706-pat00209
또한, 수학식 8에서,
Figure 112010060350706-pat00210
은 수학식 9와 같이 나타낼 수 있다.
Figure 112010060350706-pat00211
수학식 8 및 수학식 9에서,
Figure 112010060350706-pat00212
은 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00213
,
Figure 112010060350706-pat00214
), 특히 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00215
)의 각 서브대역에서 패치 인덱스로, l번째 서브대역의 패치 인덱스를 의미하며,
Figure 112010060350706-pat00216
은 l번째 서브대역에서 상관 계수의 인덱스를 의미한다. 여기서,
Figure 112010060350706-pat00217
은 MMSE를 기반으로 산출됨에 따라
Figure 112010060350706-pat00218
의 최소 평균값을 의미, 즉 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00219
,
Figure 112010060350706-pat00220
)의 각 서브대역에서 표본화된 MDCT 계수를 고려한 고대역 음성 및 오디오 신호와 저대역 음성 및 오디오 신호 간 에너지 이득 오차의 최소 평균을 의미한다. 즉,
Figure 112010060350706-pat00221
은 최소 평균, 다시 말해 MMSE 기반의 패치 인덱스를 의미한다. 그리고, 전술한 바와 같이 이득 정보, 즉 상기 표본화부(215)에서 상기 이득 양자화 및 표본화를 통해 표본화된 MDCT 계수(
Figure 112010060350706-pat00222
)를 산출하기 위한 서브대역의 개수와 상기 탐색부2(220)에서 MMSE를 기반의 패치 인덱스(
Figure 112010060350706-pat00223
)를 산출하기 위한 서브대역의 개수를 상이하게 설정된다.
또한, 수학식 8 및 수학식 9에서,
Figure 112010060350706-pat00224
은 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00225
,
Figure 112010060350706-pat00226
)의 각 서브대역에서 표본화된 MDCT 계수를 고려한 고대역 음성 및 오디오 신호와 저대역 음성 및 오디오 신호 간 에너지 이득 오차를 의미하고,
Figure 112010060350706-pat00227
는 상기 변환된 고대역 음성 및 오디오 신호(
Figure 112010060350706-pat00228
)의 표본화된 MDCT 계수,
Figure 112010060350706-pat00229
은 상관도를 고려한 상기 변환된 저대역 음성 및 오디오 신호(
Figure 112010060350706-pat00230
)의 표본화도니 MDCT 계수를 의미한다. 여기서,
Figure 112010060350706-pat00231
로 나타낼 수 있으며,
Figure 112010060350706-pat00232
은 l번째 서브대역에 해당하는 MDCT 계수의 총 개수를 의미하며,
Figure 112010060350706-pat00233
Figure 112010060350706-pat00234
은 각각 l번째 서브대역의 경계를 의미한다.
이렇게 상기 탐색부2(220)는, 상기 표본화된 MDCT 계수(
Figure 112010060350706-pat00235
)를 이용하여 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00236
,
Figure 112010060350706-pat00237
)의 분할된 서브대역에서 패치 인덱스(
Figure 112010060350706-pat00238
)를 MMSE 기반으로 산출하며, 상기 산출한 MMSE 기반의 패치 인덱스(
Figure 112010060350706-pat00239
)는 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00240
,
Figure 112010060350706-pat00241
)의 각 서브대역에서 패치 정보로 패킷화부2(225)로 전송된다.
상기 패킷화부2(225)는, 상기 이득 정보로 상기 변환된 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00242
,
Figure 112010060350706-pat00243
)의 각 서브대역에서 양자화된 이득(
Figure 112010060350706-pat00244
)을 상기 표본화부(215)로부터 입력받고, 상기 패치 정보로 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00245
,
Figure 112010060350706-pat00246
)의 분할된 서브대역에서 MMSE 기반의 패치 인덱스(
Figure 112010060350706-pat00247
)를 상기 탐색부2(220)로부터 입력받으며, 상기 입력된 정보를 패킷화한다. 즉, 상기 패킷화부2(225)는, 상기 변환부들(205,210)로 입력되는 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00248
,
Figure 112010060350706-pat00249
)에 대한 이득 정보를 패킷화하며, 상기 변환된 음성 및 오디오 신호(
Figure 112010060350706-pat00250
,
Figure 112010060350706-pat00251
)에서 각 서브대역의 이득 정보가 부호되어 출력된다. 여기서, 상기 패킷화된 이득 정보는, 모든 광대역 및 슈퍼광대역의 계층, 특히 HBE 계층에서 공유하도록 BWE 계층에서 부호화된 이득 정보로서, 상기 부호화된 이득 정보는 수신기로 송신된다. 그리고, 상기 부호화된 이득 정보는, 상기 MDCT 기반의 변환에 의해 변환된 주파수 영역의 음성 및 오디오 신호에 대한 이득 보상 시 모든 광대역 및 슈퍼광대역의 계층에서 공유된다.
이렇게 상기 부호화기는, 상기 변환부들(205,210)에 의해, 이득 정보의 부호화를 위해 입력되는 상기 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00252
,
Figure 112010060350706-pat00253
)를 MDCT 기반으로 변환하여 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00254
,
Figure 112010060350706-pat00255
)로 변환한 후, 상기 표본화부(215)에 의해, 상기 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00256
,
Figure 112010060350706-pat00257
)에서 각 서브대역의 실제 이득(
Figure 112010060350706-pat00258
)을 산출하고, 상기 산출한 이득(
Figure 112010060350706-pat00259
)을 양자화, 즉 양자화된 이득(
Figure 112010060350706-pat00260
)을 산출한 후 상기 양자화된 이득을 이용하여 MDCT 계수를 표본화, 즉 표본화된 MDCT 계수(
Figure 112010060350706-pat00261
)를 산출한다. 즉, 상기 표본화부(215)는, 상기 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00262
,
Figure 112010060350706-pat00263
)의 각 서브대역에서 양자화된 이득(
Figure 112010060350706-pat00264
)과 표본화된 MDCT 계수(
Figure 112010060350706-pat00265
)를 산출한 후, 상기 양자화된 이득(
Figure 112010060350706-pat00266
)을 상기 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00267
,
Figure 112010060350706-pat00268
)의 각 서브대역에서 이득 정보로 출력한다.
또한, 상기 부호화기는, 상기 탐색부2(220)에 의해, 상기 표본화된 MDCT 계수(
Figure 112010060350706-pat00269
)를 이용하여 패치 정보로 MMSE 기반의 패치 인덱스(
Figure 112010060350706-pat00270
)를 산출하며, 상기 산출한 MMSE 기반의 패치 인덱스(
Figure 112010060350706-pat00271
)를 패치 정보로 출력한다. 그리고, 상기 부호화기는, 상기 패킷화부2(225)에 의해, 이득 정보인 양자화된 이득(
Figure 112010060350706-pat00272
)과 패치 정보인 MMSE 기반의 패치 인덱스(
Figure 112010060350706-pat00273
)를 패킷화하며, 그에 따라 상기 시간 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00274
,
Figure 112010060350706-pat00275
)에 대한 이득 정보를 부호화한 후, 상기 부호화된 이득 정보를 수신기로 전송한다. 여기서, 상기 부호화된 이득 정보는, 상기 주파수 영역의 음성 및 오디오 신호(
Figure 112010060350706-pat00276
,
Figure 112010060350706-pat00277
)에서 각 서브대역의 이득 정보가 된다. 그리고, 상기 부호화된 이득 정보는, 모든 광대역 및 슈퍼광대역의 계층, 특히 HBE 계층에서 공유되며, 전술한 바와 같이 상대적 이득 비율로 실제 이득이 양자화됨에 따라 낮은 비트율로 서비스 품질을 향상시킨다. 그러면 여기서, 도 3을 참조하여 본 발명의 실시 예에 따른 통신 시스템에서 부호화기가 신호를 부호화하는 동작을 보다 구체적으로 설명하기로 한다.
도 3은 본 발명의 실시 예에 따른 통신 시스템에서 신호 부호화 과정을 개략적으로 도시한 도면이다.
도 3을 참조하면, 310단계에서, 상기 부호화기는, 사용자들에게 제공하고자 하는 서비스, 예컨대 음성 및 오디오 서비스에 해당하는 신호, 예컨대 음성 및 오디오 신호를 해당 계층에서 광대역 및 슈퍼광대역으로 확장된 MDCT 기반의 코덱을 통해 부호화한 후, 상기 부호화된 음성 및 오디오 신호가 광대역 및 슈퍼광대역을 통해 수신기로 송신될 경우, 상기 광대역 및 슈퍼광대역에서 상기 부호화된 음성 및 오디오 신호의 이득 정보를 공유하도록 상기 부호화된 음성 및 오디오 신호의 이득 정보를 부호화하기 위해, 시간 영역의 부호화된 음성 및 오디오 신호를 MDCT 기반으로 변환한다. 여기서, 상기 MDCT 기반으로 변환된 음성 및 오디오 신호는, 시간 영역의 신호에서 주파수 영역의 신호로 변환된다. 다시 말해, 상기 부호화된 음성 및 오디오 신호가 광대역 및 슈퍼광대역을 통해 수신기로 송신됨에 따라, 상기 시간 영역의 부호화된 음성 및 오디오 신호는, 고대역 음성 및 오디오 신호와 저대역 음성 및 오디오 신호가 되며, 상기 MDCT 기반의 변환에 의해 고대역 음성 및 오디오 신호와 저대역 음성 및 오디오 신호는 시간 영역의 신호에서 주파수 영역의 신호로 변환된다. 즉, 상기 부호화기는, 시간 영역의 부호화된 음성 및 오디오 신호를 주파수 영역의 부호화된 음성 및 오디오 신호로 변환한다.
그런 다음, 320단계에서, 상기 부호화기는, 상기 주파수 영역의 신호로 변환된 음성 및 오디오 신호에서 각 서브대역의 실제 이득을 산출한 후, 상기 산출한 변환된 음성 및 오디오 신호에서 각 서브대역의 이득을 상대적 이득 비율로 양자화하여 양자화된 이득을 산출하며, 상기 산출한 양자화된 이득을 이용하여 상기 주파수 영역의 신호로 변환된 음성 및 오디오 신호에서 각 서브대역의 주파수 계수, 예컨대 MDCT 계수를 표본화하여 표본화된 MDCT 계수를 산출한다. 여기서, 상기 양자화된 이득은, 상기 주파수 영역의 신호로 변환된 음성 및 오디오 신호에서 각 서브대역의 이득 정보가 되며, 상기 주파수 영역의 신호로 변환된 음성 및 오디오 신호에서 각 서브대역의 실제 이득, 양자화된 이득, 및 표본화된 MDCT 계수 산출에 대해서는 앞서 구체적으로 설명하였음으로 여기서는 그에 관한 구체적인 설명을 생략하기로 한다.
다음으로, 330단계에서, 상기 부호화기는, 상기 표본화된 MDCT 계수를 이용하여 상기 주파수 영역의 신호로 변환된 음성 및 오디오 신호에서 각 서브대역의 패치 정보로 패치 인덱스를 산출한다. 여기서, 상기 패치 인덱스는, 상기 표본화된 MDCT 계수를 이용하여 MMSE를 기반으로 산출, 즉 MMSE 기반의 패치 인덱스가 되며, 상기 주파수 영역의 신호로 변환된 음성 및 오디오 신호에서 각 서브대역의 패치 인덱스 산출에 대해서는 앞서 구체적으로 설명하였음으로 여기서는 그에 관한 구체적인 설명을 생략하기로 한다.
그리고, 340단계에서, 상기 부호화기는, 상기 산출한 양자화된 이득과 MMSE 기반의 패치 인덱스를 패킷화하여, 상기 시간 영역의 음성 및 오디오 신호에 대한 이득 정보를 부호화, 즉 상기 주파수 영역의 음성 및 오디오 신호에서 각 서브대역의 이득 정보를 부호화하고, 상기 부호화된 이득 정보는 수신기로 송신된다. 여기서, 상기 부호화된 이득 정보는, 상기 주파수 영역의 음성 및 오디오 신호에 대한 모든 광대역 및 슈퍼광대역의 계층, 특히 HBE 계층에서의 이득 보상 시 공유되며, 낮은 비트율로 고품질의 음성 및 오디오 서비스를 제공하도록 한다.
한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (16)

  1. 통신 시스템에서 신호 부호화 장치에 있어서,
    사용자들에게 제공하고자 하는 서비스에 해당하는 시간 영역의 신호를 주파수 영역의 신호로 변환하는 변환부;
    상기 변환된 주파수 영역의 신호에서 각 서브대역의 이득을 산출하여 양자화하고, 상기 각 서브대역의 주파수 계수를 표본화하는 표본화부;
    상기 표본화된 주파수 계수를 이용하여 상기 변환된 주파수 영역의 신호에서 각 서브대역의 패치 정보를 탐색하는 탐색부; 및
    상기 양자화된 이득과 상기 탐색된 패치 정보를 패킷화하여 상기 주파수 영역의 신호에서 각 서브대역의 이득 정보를 부호화하는 패킷화부;를 포함하는 것을 특징으로 하는 신호 부호화 장치.
  2. 제1항에 있어서,
    상기 변환부는, 상기 시간 영역의 신호를 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform) 기반으로 주파수 영역의 고대역 신호와 저대역 신호로 변환하는 것을 특징으로 하는 신호 부호화 장치.

  3. 제2항에 있어서,
    상기 표본화부는, 상기 주파수 계수로 상기 각 서브대역의 변형 이산코사인 변환 계수를 표본화하는 것을 특징으로 하는 신호 부호화 장치.
  4. 제1항에 있어서,
    상기 표본화부는, 상기 각 서브대역의 주파수 계수를 이용하여 상기 각 서브대역의 이득을 산출하고, 상기 산출한 이득을 상기 각 서브대역 간 상대적 이득 비율로 양자화하여 상기 양자화된 이득을 산출하는 것을 특징으로 하는 신호 부호화 장치.
  5. 제4항에 있어서,
    상기 표본화부는, 상기 양자화된 이득을 이용하여 상기 변환된 주파수 영역의 신호에서 각 서브대역의 주파수 계수를 표본화하는 것을 특징으로 하는 신호 부호화 장치.
  6. 제1항에 있어서,
    상기 탐색부는, 상기 표본화된 주파수 계수를 이용하여 최소평균자승오류(MMSE: Minimum Mean Square Error) 기반으로 상기 각 서브대역의 패치 인덱스를 산출하는 것을 특징으로 하는 신호 부호화 장치.
  7. 제6항에 있어서,
    상기 패킷화부는, 상기 양자화된 이득과 상기 패치 인덱스를 패킷화하여, 대역폭 확장(BWE: BandWidth Extension) 계층(layer)에서 상기 이득 정보를 부호화하는 것을 특징으로 하는 신호 부호화 장치.
  8. 제7항에 있어서,
    상기 부호화된 이득 정보는, 상기 주파수 영역의 신호에 대한 모든 광대역(wideband) 및 슈퍼광대역(super-wideband) 계층에서의 상기 이득 보상 시 공유되는 것을 특징으로 하는 신호 부호화 장치.
  9. 제1항에 있어서,
    상기 시간 영역의 신호는, 광대역(wideband) 및 슈퍼광대역(super-wideband)으로 확장된 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform) 기반의 음성 및 오디오 코덱(codec)을 통해 부호화되는 것을 특징으로 하는 신호 부호화 장치.
  10. 통신 시스템에서 신호 부호화 방법에 있어서,
    사용자들에게 제공하고자 하는 서비스에 해당하는 시간 영역의 음성 및 오디오 신호를 주파수 영역의 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호로 변환하는 단계;
    상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역의 이득을 산출하는 단계;
    상기 산출한 이득을 양자화하여 양자화된 이득을 산출하는 단계;
    상기 양자화된 이득을 통해 상기 각 서브대역의 주파수 계수를 표본화하여 표본화된 주파수 계수를 산출하는 단계;
    상기 표본화된 주파수 계수를 이용하여 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역의 패치 정보를 산출하는 단계; 및
    상기 양자화된 이득과 상기 패치 정보를 패킷화하여, 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역의 이득 정보를 부호화하는 단계;를 포함하는 것을 특징으로 하는 신호 부호화 방법.

  11. 제10항에 있어서,
    상기 변환하는 단계는, 상기 시간 영역의 음성 및 오디오 신호를 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform) 기반으로 상기 주파수 영역의 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호로 변환하는 것을 특징으로 하는 신호 부호화 방법.
  12. 제11항에 있어서,
    상기 주파수 계수는, 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호의 변형 이산코사인 변환 계수인 것을 특징으로 하는 신호 부호화 방법.
  13. 제10항에 있어서,
    상기 양자화된 이득을 산출하는 단계는, 상기 산출한 이득을 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에서 각 서브대역 간 상대적 이득 비율로 양자화하여 상기 양자화된 이득을 산출하는 것을 특징으로 하는 신호 부호화 방법.

  14. 제10항에 있어서,
    상기 패치 정보를 산출하는 단계는, 상기 표본화된 주파수 계수를 이용하여 최소평균자승오류(MMSE: Minimum Mean Square Error) 기반으로 상기 각 서브대역에서 패치 정보를 산출하는 것을 특징으로 하는 신호 부호화 방법.
  15. 제10항에 있어서,
    상기 부호화하는 단계는, 상기 저대역 음성 및 오디오 신호와 고대역 음성 및 오디오 신호에 대한 모든 광대역(wideband) 및 슈퍼광대역(super-wideband) 계층(layer)에서의 이득 보상 시 공유되도록 대역폭 확장(BWE: BandWidth Extension) 계층에서 상기 이득 정보를 부호화하는 것을 특징으로 하는 신호 부호화 방법.
  16. 제10항에 있어서,
    상기 시간 영역의 음성 및 오디오 신호는, 광대역(wideband) 및 슈퍼광대역(super-wideband)으로 확장된 변형 이산코사인 변환(MDCT: Modified Discrete Cosine Transform) 기반의 음성 및 오디오 코덱(codec)을 통해 부호화되는 것을 특징으로 하는 신호 부호화 방법.
KR1020100091025A 2010-05-12 2010-09-16 통신 시스템에서 신호 부호화 장치 및 방법 KR101336879B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/106,649 US8751225B2 (en) 2010-05-12 2011-05-12 Apparatus and method for coding signal in a communication system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20100044591 2010-05-12
KR1020100044591 2010-05-12

Publications (2)

Publication Number Publication Date
KR20110125157A KR20110125157A (ko) 2011-11-18
KR101336879B1 true KR101336879B1 (ko) 2013-12-04

Family

ID=45394730

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100091025A KR101336879B1 (ko) 2010-05-12 2010-09-16 통신 시스템에서 신호 부호화 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101336879B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100765747B1 (ko) 2005-01-22 2007-10-15 삼성전자주식회사 트리 구조 벡터 양자화를 이용한 스케일러블 음성 부호화장치
KR100848324B1 (ko) 2006-12-08 2008-07-24 한국전자통신연구원 음성 부호화 장치 및 그 방법
KR20090087920A (ko) * 2006-12-13 2009-08-18 파나소닉 주식회사 부호화 장치, 복호 장치 및 이들의 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100765747B1 (ko) 2005-01-22 2007-10-15 삼성전자주식회사 트리 구조 벡터 양자화를 이용한 스케일러블 음성 부호화장치
KR100848324B1 (ko) 2006-12-08 2008-07-24 한국전자통신연구원 음성 부호화 장치 및 그 방법
KR20090087920A (ko) * 2006-12-13 2009-08-18 파나소닉 주식회사 부호화 장치, 복호 장치 및 이들의 방법

Also Published As

Publication number Publication date
KR20110125157A (ko) 2011-11-18

Similar Documents

Publication Publication Date Title
RU2437172C1 (ru) Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках
KR101220621B1 (ko) 부호화 장치 및 부호화 방법
US8751225B2 (en) Apparatus and method for coding signal in a communication system
CN102511062B (zh) 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配
US8099275B2 (en) Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
JP5863765B2 (ja) 符号化方法および装置、そして、復号化方法および装置
JP2019191594A (ja) 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
KR100848324B1 (ko) 음성 부호화 장치 및 그 방법
JP2009515212A (ja) オーディオ圧縮
JP6763849B2 (ja) スペクトル符号化方法
JP2017142542A (ja) 音声符号化装置および方法
JPWO2006046587A1 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
WO2013061531A1 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
KR20090039016A (ko) 광대역 오디오 신호 부호화 복호화 장치 및 그 방법
KR102625143B1 (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
JPWO2008053970A1 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
US20130103394A1 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
KR100789368B1 (ko) 잔차 신호 부호화 및 복호화 장치와 그 방법
US7783488B2 (en) Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
KR101336879B1 (ko) 통신 시스템에서 신호 부호화 장치 및 방법
WO2011118977A2 (ko) 오디오 신호 처리 방법 및 장치
WO2018225412A1 (ja) 符号化装置、復号装置、平滑化装置、逆平滑化装置、それらの方法、およびプログラム
KR20160098597A (ko) 통신 시스템에서 신호 코덱 장치 및 방법
Jia et al. An embedded speech and audio coding method based on bit-plane coding and SQVH

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee