KR20080053131A - 음성 부호화 장치 및 그 방법 - Google Patents

음성 부호화 장치 및 그 방법 Download PDF

Info

Publication number
KR20080053131A
KR20080053131A KR1020060125139A KR20060125139A KR20080053131A KR 20080053131 A KR20080053131 A KR 20080053131A KR 1020060125139 A KR1020060125139 A KR 1020060125139A KR 20060125139 A KR20060125139 A KR 20060125139A KR 20080053131 A KR20080053131 A KR 20080053131A
Authority
KR
South Korea
Prior art keywords
quantization
subband
subbands
gain
shape
Prior art date
Application number
KR1020060125139A
Other languages
English (en)
Other versions
KR100848324B1 (ko
Inventor
김현우
김도영
정해원
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060125139A priority Critical patent/KR100848324B1/ko
Priority to US11/929,922 priority patent/US20080140393A1/en
Publication of KR20080053131A publication Critical patent/KR20080053131A/ko
Application granted granted Critical
Publication of KR100848324B1 publication Critical patent/KR100848324B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

음성 부호화 장치 및 그 방법이 개시된다. 대역분할부는 입력 신호를 고대역 신호 및 저대역 신호로 분리하고, 협대역 부호화부는, 저대역 신호를 CELP 기반의 협대역 음성 코덱을 이용하여 부호화하고, 주파수 특성 수집부는 고대역 신호를 주파수 영역으로 변환하고 MDCT 계수를 구하고, 서브밴드 결정부는 MDCT 계수를 기초로 형상 양자화를 위한 서브밴드를 결정하고, 형상 양자화를 위한 서브밴드를 기초로 이득 양자화를 위한 서브밴드를 결정하고, 이득 양자화부는 이득 양자화를 위한 서브밴드에 대하여 이득 양자화를 수행하고, 비트 할당부는 이득 양자화의 크기에 따라 이득 양자화를 위한 서브밴드에 비트를 할당하고, 형상 양자화부는 대수적 방법으로 형상 양자화를 위한 서브밴드에 대하여 형상 양자화를 수행한다. 이로써, 음성 코덱에서 적은 비트로 대역폭을 확장하여 알고리즘의 일관성과 계산량을 감소할 수 있다.

Description

음성 부호화 장치 및 그 방법{An apparatus and method for speech condig}
도 1은 본 발명에 따른 음성 부호화 장치의 일 실시예의 구성을 도시한 도면,
도 2는 본 발명에 따른 음성 부호화 방법의 일 실시예의 흐름을 도시한 흐름도, 그리고,
도 3은 본 발명에 따른 형상 양자화 과정의 일 실시예의 흐름을 도시한 흐름도이다.
본 발명은 음성 복/부호화에 관한 것으로, 보다 상세하게는 음성 코덱에서 적은 비트로 대역폭을 확장하는 음성 부호화 방법에 관한 것이다.
최근 아날로그 신호에 비해 전송과 조작이 용이한 디지털 신호 처리 기술이 발달하고 있다. 아날로그 신호를 표본화(sampling)한 후 양자화(quantization)를 수행하면 PCM(Pulse Code Modulation) 신호를 얻는데, 이 신호를 직접 처리하는 것은 용량이 너무 커서 저장, 전송 및 재생에 큰 문제가 있다. 따라서 PCM 신호를 압축 및 복원하기 위한 많은 코덱들이 개발되었다.
음성 코덱의 경우 음성 발생과정을 모델링하는 CELP(Code Excited Linear Prediction) 기술에 기반을 두어 높은 압축률을 이룬다. 대표적인 코덱으로 G.729A, G.723.1 AMR(Adaptive Multi-Rate) 등이 있다. 또 오디오 코덱의 경우 인지 심리 음향 모델을 사용하여 PCM 신호를 복/부호화 한다. MPEG 계열, Dolby 코덱들이 여기에 해당된다. 일반적으로 음성 신호에 대해서는 CELP 기반 기술을 적용하고, 음악과 같은 오디오 신호에 대해서는 인지 심리 음향 모델을 적용하는 것이 효율적이다. 최근에는 이러한 기술을 혼합하여 사용하려는 시도가 있다.
네트워크 및 단말기에 사용되는 코덱의 조건은 상이하다. 대역폭이 넓은 IP 망에서는 전송률은 높지만 고품질을 보여줄 수 있는 코덱을 사용할 수 있다. 그러나 이동통신과 같은 무선 통신 환경에서는 음질 손해를 감소하고 전송률이 낮은 코덱을 사용한다. 동일한 네트워크라 하더라도 트래픽에 따라 대역폭 변동이 심해지고 이용 가능한 전송률 변화도 심해진다.
PC 환경의 소프트폰은 고품질 코덱을 처리하기에 충분한 계산량을 제공할 수 있지만, 별도의 DSP(Digital Signal Processor)를 사용하는 단말기는 많은 계산량을 처리하기 위해서 더 많은 비용이 소요된다. 이처럼 다양한 응용 분야에서 호환되는 코덱을 적용하기 위해서는 임베디드 형태의 비트열 구조로 비트열 확장성을 제공할 필요가 있다. 최근 ITU에서 표준화한 G.729.1은 이러한 구조를 가지고 있다.
임베디드 형태의 코덱은 보통 협대역 음성(300~3400Hz), 광대역 음성(50~7000Hz)으로 대역폭 확장성을 제공하는데, 비트율 확장성이 세밀하게 이루어 진다면 적은 비트를 사용하여 대역폭 확장성을 이루어야 하는 경우가 발생한다. 예컨대, G.729.1의 경우 12kbps에서는 협대역 신호를 제공하고 14kbps 에서는 광대역 신호를 제공해야 하는데 이를 2kbps로 표현해야 한다. 이를 위하여 대역폭 확장성이 이루어지는 비트율에서는 bandwidth extension, spectral band replication등 다양한 기술을 도입하고, 더 큰 비트율에서는 주파수 계수 양자화 방법으로 압축을 하는 방식을 취한다. 그러나 이 경우 많은 계산량이 필요하다.
본 발명이 이루고자 하는 기술적 과제는, 음성 코덱에서 적은 비트로 대역폭 확장하여 알고리즘 일관성과 계산량 감소를 가능하게 하는 음성 부호화 방법 및 그 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 음성 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 음성 부호화 장치의 일 실시예는, 입력 신호를 고대역 신호 및 저대역 신호로 분리하는 대역 분할부; 상기 저대역 신호를 CELP 기반의 협대역 음성 코덱을 이용하여 부호화하는 협대역 부호화부; 상기 고대역 신호를 주파수 영역으로 변환하고 MDCT 계수를 구하는 주파수 특성 수집부; 상기 MDCT 계수를 기초로 형상 양자화를 위한 서브밴드를 결정하고, 상기 결정된 형상 양자화를 위한 서브밴드를 기초로 이득 양자화를 위한 서브 밴드를 결정하는 서브밴드 결정부; 상기 이득 양자화를 위한 서브밴드에 대하여 이득 양자화를 수행하는 이득 양자화부; 상기 이득 양자화의 크기에 따라 이득 양자화를 위한 서브밴드에 비트를 할당하는 비트 할당부; 및 대수적 방법으로 상기 형상 양자화를 위한 서브밴드에 대하여 형상 양자화를 수행하는 형상 양자화부;를 포함한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 음성 부호화 방법의 일 실시예는, 입력 신호를 고대역 신호 및 저대역 신호로 분리하는 단계; 상기 저대역 신호를 CELP 기반의 협대역 음성 코덱을 이용하여 부호화하는 단계; 상기 고대역 신호를 주파수 영역으로 변환하고 MDCT 계수를 구하는 단계; 상기 MDCT 계수를 기초로 형상 양자화를 위한 서브밴드를 결정하고, 상기 결정된 형상 양자화를 위한 서브밴드를 기초로 이득 양자화를 위한 서브밴드를 결정하는 단계; 상기 이득 양자화를 위한 서브밴드에 대하여 이득 양자화를 수행하는 단계; 상기 이득 양자화의 크기에 따라 이득 양자화를 위한 서브밴드에 비트를 할당하는 단계; 및 대수적 방법으로 상기 형상 양자화를 위한 서브밴드에 대하여 형상 양자화를 수행하는 단계;를 포함한다.
이로써, 음성 코덱에서 적은 비트로 대역폭을 확장하여 알고리즘의 일관성과 계산량을 감소할 수 있다.
이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 음성 부호화 장치 및 그 방법에 대해 상세히 설명한다.
도 1은 본 발명에 따른 음성 부호화 장치의 일 실시예의 구성을 도시한 도면 이다.
도 1을 참조하면, 음성 부호화 장치는 대역 분할부(100), 협대역 부호화부(105), 주파수 특성 수집부(110), 제1 및 제2 서브밴드 결정부(115,120), 이득 양자화부(125), 비트 할당부(130), 형상 양자화부(135), 추가분할 결정부(140) 및 MUX(145)를 포함한다.
대역 분할부(100)는 QMF(Quadrature Mirror Filter)와 같은 필터 뱅크를 이용하여 입력 신호를 고대역 신호와 저대역 신호로 분리한다. 대역 분할부(100)는 필요한 경우 고대역 신호 및/또는 저대역 신호를 데시메이션(decimation)한다. 예를 들어, 대역 분할부(100)는 저대역 신호를 2만큼 데시메이션하고, 고대역 신호를 2만큼 데시메이션하여 주파수 대칭을 시킨다.
협대역 부호화부(105)는 CELP 기술에 기반을 둔 종래의 협대역 음성 코덱을 이용하여 저대역 신호를 부호화한다.
주파수 특성 수집부(110)는 고대역 신호를 전처리하고 주파수 변화를 수행하여 MDCT(Modified Discrete Cosine Transform) 계수를 구한다. 구체적으로 주파수 특성 수집부(110)는 전처리부(112) 및 주파수 변환부(114)로 구성된다. 전처리부(112)는 저대역 통과 필터를 이용하여 3000Hz 이상 성분을 제거하는 전처리 과정을 수행하고, 주파수 변환부(113)는 전처리 된 신호를 MDCT를 이용하여 주파수 영역으로 변환한다.
제1 서브밴드 결정부(115)는 MDCT 계수를 기초로 형상 양자화를 위한 서브밴드 개수를 결정한다. 구체적으로 제1 서브밴드 결정부(115)는 임계 대역(critical band)을 사용하여 형상 양자화를 위한 서브밴드 개수를 결정하거나, 2의 거듭제곱 수로 서브밴드 개수를 결정하고 MDCT 계수를 선형적으로 할당한다. 예를 들어, MDCT 계수가 240개가 있다고 한다면, 제1 서브밴드 결정부(115)는 형상 양자화를 위한 서브밴드를 16개로 결정한다. 즉 15개의 계수가 하나의 서브밴드로 구성된다.
제2 서브밴드 결정부(120)는 제1 서브밴드 결정부(115)에서 결정된 형상 양자화를 위한 서브밴드를 단위로 초기 이득 양자화를 위한 서브밴드를 결정한다. 즉, 제2 서브밴드 결정부(120)는 형상 양자화를 위한 서브밴드를 여러 개 묶어서 초기 이득 양자화를 위한 서브밴드로 결정한다. 예를 들어, 이득 양자화 서브밴드가 8개로 결정되면, 형상 양자화 서브밴드를 두 개씩 묶는다. 또한 제2 서브밴드 결정부(120)는 초기 이후 이득 양자화를 위한 서브밴드를 구하기 위하여 이전 단계에서 구한 이득 양자화 서브밴드를 2개로 분리한다.
이득 양자화부(125)는 이득 양자화를 위한 서브밴드에 대해 이득 양자화를 수행한다. 이득 양자화부(125)는 초기에 서브밴드의 에너지를 서브밴드 차원 수만큼 나눈 후 로그를 취하고, 그 후 반복 수행시에는 분할한 서브밴드 중에서 더 큰 이득에 대해 양자화를 수행한다. 즉, 이득 양자화부(125)는 이득 양자화를 위한 각각의 서브밴드에 대해서 이득 양자화를 수행하고, 허프만 코드로 부호화한다.
비트 할당부(130)는 이득 크기에 따라 이득 서브밴드에 비트를 할당한다. 모든 서브밴드 비트수의 합은 전송이 가능한 최대 비트수에 가까워야 한다. 비트 할당부(130)는 초기에 최대 비트율을 고려하여 이득과 서브밴드의 차원에 따라 비트를 할당하고, 초기 이후에는 분할한 서브밴드의 대역의 이득 비율에 따라 이전에 할당된 서브밴드 비트를 분할한다.
형상 양자화부(135)는 대수적 방법으로 형상 양자화를 수행한다. 구체적으로 형상 양자화부(135)는 초기에 또는 형상 양자화 서브밴드의 수가 이득 양자화 서브밴드의 수보다 많으면 모든 서브밴드의 대역에 대해 형상 양자화를 한 번씩 수행하고, 형상 양자화 서브밴드의 수가 이득 양자화 서브밴드의 수와 같다면 비트가 가장 많은 서브밴드에 할당된 모든 비트를 사용하여 형상 양자화를 수행한다.
이러한 과정을 처음 수행하면 코덱의 고대역 신호를 생성하는 첫 비트율에 해당하는 비트열이 생성된다. 초기 이후 다음 비트율에 해당하는 비트열을 생성하기 위하여 위 양자화 과정을 반복한다.
반복 수행시, 추가분할 결정부(140)는 이득 양자화를 위한 서브밴드의 추가 분할 여부를 결정한다. 추가분할 결정부(140)는 추가 분할이 필요하다면 이득 서브밴드를 결정하는 단계부터 반복적으로 수행하고, 필요 없다면 형상 양자화 단계부터 반복적으로 수행한다.
구체적으로, 추가분할 결정부(140)는 이득 양자화 서브밴드 수가 형상 양자화 서브밴드 수보다 작다면 추가 분할하기로 결정한다. 추가 분할할 경우 이득 양자화부(125)는 분할한 서브밴드 중에서 더 큰 이득 값을 구하고, 비트 할당부(130)는 이득 비율에 따라 이전 루프에서 할당된 서브밴드 비트를 분할한다. 예를 들어, 이전 루프에서 이득을 위한 서브밴드에 36비트가 할당되어 있고 현재 루프에서 두 개의 서브밴드 이득 비율이 2:1이라 하면, 비트 할당부(130)는 각각 24비트, 12비트를 할당한다. 그리고 형상 양자화부(135)는 각 서브밴드에 대해서 대수적 방법으 로 형상 양자화를 수행한다. 만약 추가 분할할 필요가 없다면 많은 비트를 할당한 서브밴드부터 모든 비트를 소모할 때까지 형상 양자화를 수행한다. 두 번째 루프부터는 전송 비트율에 해당하는 비트수를 모두 채우면 전송한다.
MUX(145)는 저대역 신호 및 고대역 신호를 다중화한 비트열을 전송한다.
도 2는 본 발명에 따른 음성 부호화 방법의 일 실시예의 흐름을 도시한 흐름도이다.
도 2를 참조하면, 본 발명에 따른 음성 부호화 장치는 입력신호를 고대역 신호 및 저대역 신호로 분리한다(S200). 분리된 저대역 신호는 CELP 기반의 협대역 음성 코덱을 사용하여 부호화된다(S210).
음성 부호화 장치는 분리된 고대역 신호를 전저리하여 주파수 영역으로 변환한 후 MDCT 계수를 구한다(S205). 음성 부호화 장치는 MDCT 계수를 기초로 형상 양자화를 위한 서브 밴드 및 이득 양자화를 위한 서브 밴드를 결정하고(S215, S220), 결정된 이득 양자화를 위한 서브밴드로 이득 양자화를 수행한다(S225). 음성 부호화 장치는 이득 양자화와 서브밴드 차원에 의해 각 서브밴드에 비트를 할당하고(S230), 형상 양자화를 수행한다(S235). 초기 이후 반복수행시 추가 분할의 필요성을 검토하여(S240), 추가분할이 필요한 경우는 형상 양자화를 위한 서브밴드 결정 단계(S215)부터 수행하고 추가분할이 필요없는 경우는 형상 양자화 단계(S23)부터 수행한다. 부호화된 저대역 신호 및 고대역 신호를 다중화하여 전송한다(S245).
도 3은 본 발명에 따른 형상 양자화 과정의 일 실시예의 흐름을 도시한 흐름도이다.
도 2를 참조하면, 초기 형상 양자화는 모든 대역에 대해 한 번씩 수행한다(S300). 또한 형상 양자화 서브밴드 수가 이득 양자화 서브밴드 수보다 많다면 모든 서브밴드 대역에 대해 한번씩 형상 양자화를 수행한다(S300). 형상 양자화는 대수적 방법으로, 먼저 MDCT 계수 절대값을 구하고(S310) 가장 큰 값에 해당하는 위치와 계수의 부호를 부호화한다(S320). 형상 양자화 서브밴드 수가 이득 양자화 서브밴드 수와 같다면(S300), 할당된 비트가 가장 많은 서브밴드를 결정하고(S330), 결정된 서브밴드의 MDCT의 절대값을 계산한다(S340). 그리고, 절대값이 가장 큰 위치와 부호를 부호화한 후(S350), 할당된 비트수가 양자화된 비트수보다 많으면 MDCT 절대값 계산 단계부터 다시 반복한다(S360).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 따르면, 세밀한 비트율 확장성을 필요로 하는 코덱에서 협대역에서 광대역 또는 오디오 대역으로 확장하기 위해 다른 방법을 시도할 필요가 없으므로, 알고리즘 일관성과 계산량 감소를 가져오는 효과가 있다

Claims (18)

  1. 입력 신호를 고대역 신호 및 저대역 신호로 분리하는 대역 분할부;
    상기 저대역 신호를 CELP 기반의 협대역 음성 코덱을 이용하여 부호화하는 협대역 부호화부;
    상기 고대역 신호를 주파수 영역으로 변환하고 MDCT 계수를 구하는 주파수 특성 수집부;
    상기 MDCT 계수를 기초로 형상 양자화를 위한 서브밴드를 결정하고, 상기 결정된 형상 양자화를 위한 서브밴드를 기초로 이득 양자화를 위한 서브밴드를 결정하는 서브밴드 결정부;
    상기 이득 양자화를 위한 서브밴드에 대하여 이득 양자화를 수행하는 이득 양자화부;
    상기 이득 양자화의 크기에 따라 이득 양자화를 위한 서브밴드에 비트를 할당하는 비트 할당부; 및
    대수적 방법으로 상기 형상 양자화를 위한 서브밴드에 대하여 형상 양자화를 수행하는 형상 양자화부;를 포함하는 것을 특징으로 하는 음성 부호화 장치.
  2. 제 1항에 있어서,
    이득 양자화 서브밴드 수 및 형상 양자화 서브밴드 수를 기초로 추가 분할 여부를 결정하는 추가 분할 결정부;를 더 포함하는 것을 특징으로 하는 음성 부호 화 장치.
  3. 제 1항에 있어서, 상기 주파수 특성 수집부는,
    저대역 통과 필터를 이용하여 소정 주파수 이상 성분을 제거하는 전처리부; 및
    상기 전처리된 신호를 MDCT를 이용하여 주파수 영역으로 변환하여 상기 MDCT 계수를 구하는 주파수 변환부;를 포함하는 것을 특징으로 하는 음성 부호화 장치.
  4. 제 1항에 있어서, 상기 서브밴드 결정부는,
    임계 대역(critical band)을 사용하여 형상 양자화를 위한 서브밴드 개수를 결정하거나, 2의 거듭제곱 수로 서브밴드 개수를 결정하고 MDCT 계수를 선형적으로 할당하는 제1 서브밴드 결정부; 및
    상기 제1 서브밴드 결정부(115)에서 결정된 형상 양자화를 위한 서브밴드를 단위로 초기 이득 양자화를 위한 서브밴드를 결정하는 제2 서브밴드 결정부;를 포함하는 것을 특징으로 하는 음성 부호화 장치.
  5. 제 4항에 있어서, 상기 제2 서브밴드 결정부는,
    초기 이후 이득 양자화를 위한 서브밴드를 구하기 위하여 이전 단계에서 구한 이득 양자화 서브밴드를 2개로 분리하는 것을 특징으로 하는 음성 부호화 장치.
  6. 제 1항에 있어서, 상기 이득 양자화부는
    초기에 서브밴드의 에너지를 서브밴드 차원 수만큼 나눈 후 로그를 취하고, 그 후 반복 수행시에는 분할한 서브밴드 중에서 더 큰 이득에 대해 양자화를 수행하는 것을 특징으로 하는 음성 부호화 장치.
  7. 제 1항에 있어서, 상기 비트 할당부는,
    초기에 최대 비트율을 고려하여 이득과 서브밴드의 차원에 따라 비트를 할당하고, 초기 이후에는 분할한 서브밴드의 대역의 이득 비율에 따라 이전에 할당된 서브밴드 비트를 분할하는 것을 특징으로 하는 음성 부호화 장치.
  8. 제 1항에 있어서, 상기 형상 양자화부는,
    초기에 또는 형상 양자화 서브밴드의 수가 이득 양자화 서브밴드의 수보다 많으면 모든 서브밴드의 대역에 대해 형상 양자화를 한 번씩 수행하고, 형상 양자화 서브밴드의 수가 이득 양자화 서브밴드의 수와 같다면 비트가 가장 많은 서브밴드에 할당된 모든 비트를 사용하여 형상 양자화를 수행하는 것을 특징으로 하는 음성 부호화 장치.
  9. 입력 신호를 고대역 신호 및 저대역 신호로 분리하는 단계;
    상기 저대역 신호를 CELP 기반의 협대역 음성 코덱을 이용하여 부호화하는 단계;
    상기 고대역 신호를 주파수 영역으로 변환하고 MDCT 계수를 구하는 단계;
    상기 MDCT 계수를 기초로 형상 양자화를 위한 서브밴드를 결정하고, 상기 결정된 형상 양자화를 위한 서브밴드를 기초로 이득 양자화를 위한 서브밴드를 결정하는 단계;
    상기 이득 양자화를 위한 서브밴드에 대하여 이득 양자화를 수행하는 단계;
    상기 이득 양자화의 크기에 따라 이득 양자화를 위한 서브밴드에 비트를 할당하는 단계; 및
    대수적 방법으로 상기 형상 양자화를 위한 서브밴드에 대하여 형상 양자화를 수행하는 단계;를 포함하는 것을 특징으로 하는 음성 부호화 방법.
  10. 제 9항에 있어서,
    이득 양자화 서브밴드 수 및 형상 양자화 서브밴드 수를 기초로 추가 분할 여부를 결정하는 단계;를 더 포함하는 것을 특징으로 하는 음성 부호화 방법.
  11. 제 10항에 있어서, 상기 추가분할 여부 결정 단계는,
    이득 양자화 서브밴드 수가 형상 양자화 서브밴드 수보다 작다면 추가 분할하기로 결정하고, 추가 분할의 경우 상기 이득 서브밴드를 결정하는 단계부터 반복적으로 수행하고, 추가 분할이 필요 없는 경우 상기 형상 양자화 단계부터 반복적으로 수행하는 단계;를 포함하는 것을 특징으로 하는 음성 부호화 방법.
  12. 제 9항에 있어서, 상기 MDCT 계수를 구하는 단계는,
    저대역 통과 필터를 이용하여 소정 주파수 이상 성분을 제거하는 단계; 및
    상기 전처리된 신호를 MDCT를 이용하여 주파수 영역으로 변환하여 상기 MDCT 계수를 구하는 단계;를 포함하는 것을 특징으로 하는 음성 부호화 방법.
  13. 제 9항에 있어서, 상기 서브밴드 결정 단계는,
    임계 대역(critical band)을 사용하여 형상 양자화를 위한 서브밴드 개수를 결정하거나, 2의 거듭제곱 수로 서브밴드 개수를 결정하고 MDCT 계수를 선형적으로 할당하는 단계; 및
    상기 결정된 형상 양자화를 위한 서브밴드를 단위로 초기 이득 양자화를 위한 서브밴드를 결정하는 단계;를 포함하는 것을 특징으로 하는 음성 부호화 방법.
  14. 제 13항에 있어서, 상기 제 이득 양자화를 위한 서브밴드 결정 단계는,
    초기 이후 이득 양자화를 위한 서브밴드를 구하기 위하여 이전 단계에서 구한 이득 양자화 서브밴드를 2개로 분리하는 단계를 포함하는 것을 특징으로 하는 음성 부호화 방법.
  15. 제 9항에 있어서, 상기 이득 양자화 단계는,
    초기에 서브밴드의 에너지를 서브밴드 차원 수만큼 나눈 후 로그를 취하고, 그 후 반복 수행시에는 분할한 서브밴드 중에서 더 큰 이득에 대해 양자화를 수행 하는 단계;를 포함하는 것을 특징으로 하는 음성 부호화 방법.
  16. 제 9항에 있어서, 상기 비트 할당 단계는,
    초기에 최대 비트율을 고려하여 이득과 서브밴드의 차원에 따라 비트를 할당하고, 초기 이후에는 분할한 서브밴드의 대역의 이득 비율에 따라 이전에 할당된 서브밴드 비트를 분할하는 단계;를 포함하는 것을 특징으로 하는 음성 부호화 방법.
  17. 제 9항에 있어서, 상기 형상 양자화 단계는,
    초기에 또는 형상 양자화 서브밴드의 수가 이득 양자화 서브밴드의 수보다 많으면 모든 서브밴드의 대역에 대해 형상 양자화를 한 번씩 수행하고, 형상 양자화 서브밴드의 수가 이득 양자화 서브밴드의 수와 같다면 비트가 가장 많은 서브밴드에 할당된 모든 비트를 사용하여 형상 양자화를 수행하는 단계;를 포함하는 것을 특징으로 하는 음성 부호화 방법.
  18. 제 9항 내지 제17항 중 어느 한 항에 기재된 음성 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020060125139A 2006-12-08 2006-12-08 음성 부호화 장치 및 그 방법 KR100848324B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060125139A KR100848324B1 (ko) 2006-12-08 2006-12-08 음성 부호화 장치 및 그 방법
US11/929,922 US20080140393A1 (en) 2006-12-08 2007-10-30 Speech coding apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060125139A KR100848324B1 (ko) 2006-12-08 2006-12-08 음성 부호화 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20080053131A true KR20080053131A (ko) 2008-06-12
KR100848324B1 KR100848324B1 (ko) 2008-07-24

Family

ID=39499315

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060125139A KR100848324B1 (ko) 2006-12-08 2006-12-08 음성 부호화 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20080140393A1 (ko)
KR (1) KR100848324B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8914280B2 (en) 2008-10-31 2014-12-16 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding speech signal

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392726B (zh) 2010-03-31 2018-01-02 韩国电子通信研究院 编码设备和解码设备
KR101336879B1 (ko) 2010-05-12 2013-12-04 광주과학기술원 통신 시스템에서 신호 부호화 장치 및 방법
US8751225B2 (en) 2010-05-12 2014-06-10 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
US9009036B2 (en) * 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
US9015042B2 (en) 2011-03-07 2015-04-21 Xiph.org Foundation Methods and systems for avoiding partial collapse in multi-block audio coding
WO2012141635A1 (en) 2011-04-15 2012-10-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive gain-shape rate sharing
US9070361B2 (en) 2011-06-10 2015-06-30 Google Technology Holdings LLC Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component
WO2013048171A2 (ko) * 2011-09-28 2013-04-04 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
KR101978291B1 (ko) 2012-09-17 2019-05-14 에스케이플래닛 주식회사 네트워크 접속 제어 시스템 및 그 음성 데이터 코딩방법
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
PT3696813T (pt) 2016-04-12 2022-12-23 Fraunhofer Ges Forschung Codificador de áudio para codificar um sinal de áudio, método para codificar um sinal de áudio e programa de computador sob consideração de uma região espectral de pico detetada numa banda de frequência superior

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08190764A (ja) * 1995-01-05 1996-07-23 Sony Corp ディジタル信号処理方法、ディジタル信号処理装置及び記録媒体
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
US7650277B2 (en) * 2003-01-23 2010-01-19 Ittiam Systems (P) Ltd. System, method, and apparatus for fast quantization in perceptual audio coders
KR100513729B1 (ko) * 2003-07-03 2005-09-08 삼성전자주식회사 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법
US7386445B2 (en) 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8914280B2 (en) 2008-10-31 2014-12-16 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding speech signal

Also Published As

Publication number Publication date
KR100848324B1 (ko) 2008-07-24
US20080140393A1 (en) 2008-06-12

Similar Documents

Publication Publication Date Title
KR100848324B1 (ko) 음성 부호화 장치 및 그 방법
JP5175028B2 (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
KR101425944B1 (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
JP4950210B2 (ja) オーディオ圧縮
JP4922296B2 (ja) 低ビット率オーディオ信号の符号化/復号化方法及び装置
KR100851970B1 (ko) 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
CN107025909B (zh) 能量无损编码方法和设备以及能量无损解码方法和设备
KR101703810B1 (ko) 디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당
US20060122828A1 (en) Highband speech coding apparatus and method for wideband speech coding system
CN111179946B (zh) 无损编码方法和无损解码方法
KR101698371B1 (ko) 디지털 오디오 신호들의 개선된 코딩/디코딩
KR101346358B1 (ko) 대역폭 확장 기법을 이용한 오디오 신호의 부호화/복호화방법 및 장치
KR20080027129A (ko) 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
EP1873753A1 (en) Enhanced audio encoding/decoding device and method
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
US20050254586A1 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
RU2409874C9 (ru) Сжатие звуковых сигналов
KR100928966B1 (ko) 저비트율 부호화/복호화방법 및 장치
KR20070050035A (ko) 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
KR100940532B1 (ko) 저비트율 복호화방법 및 장치
KR20210133554A (ko) 선형 예측 코딩을 이용한 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
JP2006235253A (ja) 符号化装置、符号化方法、復号化装置及び復号化方法
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee