KR20070037771A - 오디오 부호화 시스템 - Google Patents

오디오 부호화 시스템 Download PDF

Info

Publication number
KR20070037771A
KR20070037771A KR1020050092762A KR20050092762A KR20070037771A KR 20070037771 A KR20070037771 A KR 20070037771A KR 1020050092762 A KR1020050092762 A KR 1020050092762A KR 20050092762 A KR20050092762 A KR 20050092762A KR 20070037771 A KR20070037771 A KR 20070037771A
Authority
KR
South Korea
Prior art keywords
window
time
frequency
encoding
long
Prior art date
Application number
KR1020050092762A
Other languages
English (en)
Inventor
이창준
박영철
윤대희
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020050092762A priority Critical patent/KR20070037771A/ko
Publication of KR20070037771A publication Critical patent/KR20070037771A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 신호의 부호화에서 심리음향(psychoacoustics) 모델을 고려하여 오디오 부호화를 수행할 때 적응적인 신호변환 윈도우를 토대로 함으로써 양자화 잡음 발생을 억제할 수 있도록 한 오디오 부호화 시스템에 관한 것이다.
본 발명은 입력 오디오 신호의 시간 축 정보를 이용하여 심리음향 모델링을 위한 제1 시간/주파수 변환 윈도우와 압축 부호화를 위한 제2 시간/주파수 변환 윈도우를 동일한 형태로 생성하는 윈도우 변환수단; 상기 동일 형태의 윈도우를 적용하여 심리음향 모델링을 위한 시간/주파수 변환을 수행하는 제1 시간/주파수 변환수단; 상기 동일 형태의 윈도우를 적용하여 압축 부호화를 위한 시간/주파수 변환을 수행하는 제2 시간/주파수 변환수단; 상기 제1 시간/주파수 변환수단의 출력을 토대로 심리음향 모델링을 수행하는 수단; 상기 심리음향 모델링 결과와 제2 시간/주파수 변환수단의 출력을 토대로 양자화 및 압축 부호화를 수행하여 비트 열을 생성하는 수단; 을 포함하여 이루어 진다.
오디오, 부호화, FFT, MDCT

Description

오디오 부호화 시스템{AUDIO CODING SYSTEM}
도1은 종래의 오디오 부호화 부호화 시스템 구조를 나타낸 도면
도2는 정규화된 입력신호와 윈도우 간의 관계를 나타낸 도면
도3은 본 발명에 따른 오디오 부호화 시스템 구조를 나타낸 도면
도4는 본 발명에 따른 오디오 부호화 방법의 흐름을 나타낸 플로우차트
<도면의 주요 부분에 대한 부호의 설명>
210: MDCT부 220: FFT부
230: 심리음향 모델부 240: 윈도우 변환부
250: 양자화부 260: 부호화부
270: 비트열 구성부
본 발명은 오디오 부호화 시스템에 관한 것으로서, 특히 디지털 오디오 신호의 부호화에서 심리음향(psychoacoustics) 모델을 고려하여 오디오 부호화를 수행할 때 적응적인 신호변환 윈도우를 토대로 함으로써 양자화 잡음 발생을 억제할 수 있도록 한 오디오 부호화 시스템에 관한 것이다.
MPEG 오디오 부호화 알고리즘은 오디오 신호의 저장과 전송에 필요한 막대한 채널 용량을 줄이기 위해 주관적인 음질의 손실없이 오디오 신호를 압축하는 것을 목적으로 한다. 이를 위하여 인간의 감각 특성에 기반한 지각 부호화(Perceptual Coding) 방법을 사용한다. 지각 부호화란 청각으로 감지할 수 있는 최소 레벨인 최소 가청한계와, 특정 음에 의해서 다른 음이 잘 들리지 않게 되는 마스킹(Masking) 현상을 이용하는 방법이다. 최소 가청한계는 음의 주파수(고저)에 따라 달라지고, 마스킹 현상은 마스킹하는 음(Masker)과 마스킹되어 들리지 않게 되는 음(Maskee)의 주파수에 따라 달라진다. 특히, 마스킹 효과가 일어나는 주파수 폭을 임계대역(Critical Band)이라고 하는데, 이 임계대역 내에서의 지각 가능한 신호대 잡음비(S/N비)는 매우 낮은 특성이 있다. 따라서, MPEG 오디오 부호화에서는 상기와 같은 지각 부호화에 기반한 압축 부호화를 수행함으로써, 디지털 오디오 신호 양자화 잡음을 임계대역 내에 혼합하여 그 양자화 잡음이 표현되지 않도록 하는 것이다.
이와 같이 MPEG 오디오는 오디오 신호의 압축을 위해 통계적인 무손실 압축 방법과 함께 손실 압축 방법을 사용하는데, 이는 심리음향 이론 중 마스킹 현상을 이용하여 손실되는 부분이 사람의 귀로 지각되지 않도록 하는 것이다. 따라서 부호화 과정을 수행할 때 심리음향 모델이라는 복잡한 과정을 통해서 각 주파수 별로 최대 허용 가능한 잡음의 양을 구하게 된다. 이러한 점이 고려되어야 하기 때문에 고음질의 오디오 출력 신호를 얻기 위해서 심리음향 모델의 역할이 매우 중요하다.
도1은 종래의 심리음향 모델을 고려한 MPEG 오디오 압축 시스템 구조를 보여주고 있다. 그 구성을 살펴보면 MDCT부(Modified Discrete Cosine Transform)(110), 입력 오디오 신호의 FFT(Fast Fourier Transform)부(120), 심리음향 모델부(130), 윈도우 변환부(140), 양자화부(150), 부호화부(160), 비트열 구성부(170)를 포함하고 있다.
상기 양자화부(150)는 양자화 및 비트 할당부(151)와 허프만 코딩부(152)를 포함하며, 상기 부호화부(160)는 TNS부(Temporal Noise Shaping), 세기/결합부(Insensity/Coupling)(162), 예측부(Prediction)(163), M/S부(Middle/Side)(164)를 포함한다.
도1에 나타낸 바와 같이 입력 오디오 신호는 부호화를 위해서 MDCT 분석 필터를 통해서 주파수 축 신호로 바뀌게 되며, 이후 다양한 방법을 통해 부호화된다. 그리고 이와 동시에 심리음향 모델부(130)은 입력 신호의 지각적 특성을 분석하여 비트 할당 과정에 필요한 각 주파수 별 최대 허용 양자화 잡음의 양을 결정하게 된다. 비트 할당 과정은 주어진 비트율에서 양자화 과정에서 발생하는 양자화 잡음이 심리음향 모델로부터 얻은 최대 허용 잡음의 양보다 가능한 적어지도록 최적화한다.
심리음향 모델은 주파수 축에서 입력 신호의 지각적 특성을 분석하기 때문에 입력 신호의 주파수 변환 과정을 필요로 한다. 도1에서 볼 수 있듯이 부호화 과정에서는 이미 MDCT 분석 필터(110)를 통해서 주파수 변환을 수행하고 있지만, 심리음향 이론의 실험 결과들은 대부분 DFT(Discrete Fourier Transform) 축 상에서 이루어져 있으므로 MPEG 표준안은 심리음향 모델을 위한 별도의 FFT(Fast Fourier Transform) 변환이 필요하다고 권고하고 있다.
MPEG 표준안은 구간(block) 변환 결정을 심리음향 모델의 결과 값 중의 하나인 PE(Perceptual Entropy)값을 통해서 결정하도록 하고 있다. 이를 위해서 FFT 연산에서는 장구간 윈도우(Long Window)와 단구간 윈도우(Short Window) 두가지 형태의 윈도우를 사용하고 있다. 이에 반해 MDCT 분석필터(110)에서는 장구간 윈도우, 단구간 윈도우 외에 장구간 시작 윈도우(Long Start Window)와 장구간 마무리 윈도우(Long Stop Window)를 더 사용하고 있다.
심리음향 모델을 통해서 다음 번 구간이 단구간(Short Block)으로 결정되어, 장구간에서 단구간으로 구간 전환(Block Switching)이 일어나야 될 경우 MDCT 분석필터에서는 현재 구간에 대해서 장구간 시작 윈도우를 사용하게 되며, 단구간에서 장구간으로 전환되어야 할 경우에는 장구간 마무리 윈도우를 사용하게 된다.
도2는 장구간 시작 윈도우가 사용될 때의 정규화된 입력과, FFT 연산과 MDCT 분석필터에서 사용되는 윈도우를 각각 겹쳐서 나타낸 도면이다. 도2의 (a)는 정규화된 입력신호와 장구간 핸 윈도우(Long Hann Window), 도2의 (b)는 정규화된 입력신호와 장구간 시작 사인 윈도우(Long Start Sine Window)를 보여준다.
그런데, FFT 연산의 경우 장구간 윈도우 형태를 갖는 반면에 MDCT 분석필터에서는 장구간 시작 윈도우 형태를 갖기 때문에, 최대 허용 양자화 잡음의 양을 결정하기 위한 심리음향 모델의 입력과 이를 적용할 MDCT 필터의 입력이 크게 상이한 경우가 발생한다. 즉, MDCT 분석필터에서는 1600번째 이후의 입력 값은 모두 '0'인데 비하여, 심리음향 모델에서는 MDCT 분석필터에서는 사용하지 않는 1600번째 이후에 나타나는 천이(transient) 성분까지 포함하여 최대 허용 양자화 잡음의 양을 결정하게 되는 문제점을 갖게 된다. 이로 인하여 최대 허용 양자화 잡음의 결과 값이 부정확해지게 되고, 이를 적용하여 양자화한 신호에서 양자화 잡음이 인지될 수 있다.
정리하면, 장구간과 단구간의 변환이 빈번한 오디오 및 스피치 신호의 경우, FFT 연산과 MDCT 분석필터 간의 윈도우 형태의 차이로 인해 입력 신호의 차이가 발생하게 된다. 이러한 차이는 심리음향 모델을 이용하여 최대 허용 양자화 잡음의 양을 결정하는데 사용된 입력과, 이를 적용하는데 사용될 입력의 차이가 된다. 이로 인해 최대 허용 양자화 잡음의 결과 값이 부정확해지게 되고, 이를 적용하여 양자화한 신호에서의 양자화 잡음이 인지될 수 있다.
본 발명의 목적은 심리음향 모델을 고려한 디지털 오디오 부호화 시스템에서, 심리음향 모델 이전에 MDCT 분석필터 뱅크 및 FFT 연산에 사용되는 윈도우 형태를 결정함으로써 FFT 연산과 MDCT 분석필터에 동일한 형태의 윈도우를 적용할 수 있도록 한 오디오 부호화 시스템을 제공하는데 있다.
본 발명의 또 다른 목적은 심리음향 모델을 고려한 디지털 오디오 부호화 시스템에서, 심리음향 모델에서의 FFT 연산과 MDCT 분석 필터에 대하여 동일한 형태의 윈도우를 적용함으로써 최대 허용 양자화 잡음의 결과값의 신뢰도를 보장하고 이를 적용하여 양자화한 신호에서의 양자화 잡음 발생을 배척시킬 수 있도록 한 오디오 부호화 시스템을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 오디오 부호화 방법은 오디오 신호의 압축 부호화시에 심리음향 모델을 적용하여 시간/주파수 변환을 토대로 양자화 및 압축 부호화를 수행하는 방법으로서,
입력 오디오 신호의 시간 축 정보를 이용하여 심리음향 모델링을 위한 제1 시간/주파수 변환 윈도우와 압축 부호화를 위한 제2 시간/주파수 변환 윈도우를 동일한 형태로 생성하는 단계; 및, 상기 동일 형태의 윈도우를 적용하여 심리음향 모델링을 위한 제1 시간/주파수 변환, 압축 부호화를 위한 제2 시간/주파수 변환을 수행하는 단계; 를 포함하는 것을 특징으로 한다.
또한 상기 목적을 달성하기 위한 본 발명의 오디오 부호화 장치는 오디오 신호의 압축 부호화시에 심리음향 모델을 적용하여 시간/주파수 변환을 토대로 양자화 및 압축 부호화를 수행하는 장치로서,
입력 오디오 신호의 시간 축 정보를 이용하여 심리음향 모델링을 위한 제1 시간/주파수 변환 윈도우와 압축 부호화를 위한 제2 시간/주파수 변환 윈도우를 동일한 형태로 생성하는 윈도우 변환수단; 상기 동일 형태의 윈도우를 적용하여 심리음향 모델링을 위한 시간/주파수 변환을 수행하는 제1 시간/주파수 변환수단; 상기 동일 형태의 윈도우를 적용하여 압축 부호화를 위한 시간/주파수 변환을 수행하는 제2 시간/주파수 변환수단; 상기 제1 시간/주파수 변환수단의 출력을 토대로 심리음향 모델링을 수행하는 수단; 상기 심리음향 모델링 결과와 제2 시간/주파수 변환수단의 출력을 토대로 양자화 및 압축 부호화를 수행하여 비트 열을 생성하는 수단; 을 포함하여 이루어지는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 오디오 부호화 시스템의 실시예를 설명한다.
도3은 본 발명의 심리음향 모델을 고려한 MPEG 오디오 압축 시스템 구조를 보여주고 있다. 그 구성을 살펴보면 입력 오디오 신호를 주파수 축 신호로 변환하기 위한 MDCT부(Modified Discrete Cosine Transform)(210), 입력 오디오 신호의 FFT(Fast Fourier Transform)부(220), 상기 FFT부(220)의 변환신호를 입력받아 인간의 청각 특성을 모델링하기 위한 심리음향 모델부(230), 상기 입력 오디오 신호에 대하여 시간축 정보를 이용한 윈도우 변환을 수행하고 변환된 윈도우 정보를 상기 FFT 연산 및 MDCT부에 전달하는 윈도우 변환부(240), 상기 심리음향 모델의 출력값을 고려하여 양자화를 수행하기 위한 양자화부(250), 상기 MDCT부(210)의 출력값에 따라 오디오 데이터를 압축 부호화하는 부호화부(260), 상기 압축 부호화된 오디오 신호의 비트열을 구성하여 출력하는 비트열 구성부(270)를 포함하고 있다.
상기 양자화부(250)는 양자화 및 비트 할당부(251)와 허프만 코딩부(252)를 포함하며, 상기 부호화부(260)는 TNS부(Temporal Noise Shaping), 세기/결합부(Insensity/Coupling)(262), 예측부(Prediction)(163), M/S부(Middle/Side)(264)를 포함한다.
MDCT부(210)는 MDCT 분석필터로서, 입력된 오디오 신호를 이산 코사인 변환(DCT) 처리하여 입력 오디오 신호를 주파수 축으로 변환한다. FFT부(220)는 앞서 설명한 바와 같이 심리음향 모델링을 위하여 입력 오디오 신호를 주파수 축으로 변환한다. 여기서, MDCT 분석 필터의 입력과 FFT 연산의 윈도우 형태는 전단의 윈도 우 변환부(240)에서 시간축 정보를 이용하여 변환된 동일 윈도우 형태를 갖게 된다. 즉, 심리음향 모델의 FFT 연산에 MDCT 분석필터에서 사용되는 것과 같은 형태의 장구간 시작 윈도우와 장구간 마무리 윈도우를 사용하게 되며, 이러한 윈도우의 형태에 대해서는 다음에 설명할 것이다.
시간/주파수 변환-FFT,MDCT를 위한 윈도우 형태에 대해서 살펴본다.
다음의 수학식 1은 핸 윈도우(Hann Window)이다. n은 시간 단위이며 장구간 윈도우일 경우 N=2048 이고, 단구간 윈도우일 경우 N=256 값을 갖는다.
Figure 112005055917455-PAT00001
다음의 수학식 2는 상기 FFT와 MDCT를 위하여 제공될 전체 4가지 형태의 윈도우 중에서 장구간 핸 윈도우를 나타낸다.
Figure 112005055917455-PAT00002
다음의 수학식 3은 전체 4가지 형태의 윈도우 중에서 장구간 시작 핸 윈도우를 나타낸다.
Figure 112005055917455-PAT00003
다음의 수학식 4는 전체 4가지 형태의 윈도우 중에서 단구간 핸 윈도우를 나타낸다.
Figure 112005055917455-PAT00004
다음의 수학식 5는 전체 4가지 형태의 윈도우 중에서 장구간 마무리 핸 윈도우를 나타낸다.
Figure 112005055917455-PAT00005
앞서 설명한 바와 같이 FFT와 MDCT는 시간/주파수 변환으로서, 일반적으로 시간 영역의 신호보다 주파수 영역의 신호를 부호화하기 용이한 특성을 이용하기 위하여, 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 부분이 며, 이 때 변환 윈도우의 길이는 주파수 해상도와 밀접한 관련이 있기 때문에 적절하게 선택되는데 이는 시간 축 정보를 이용한 윈도우 변환부(240)로부터 제공받게 된다.
심리음향 모델부(230)는 다채널 오디오의 지각 부호화를 위해 인간의 청각 특성을 모델링하는데, 입력 오디오의 특성을 추출하고 대역별로 인간의 청각에 감지되지 않는 양자화 잡음의 정도를 계산하여 부호화에 필요한 비트의 할당 시 이를 반영하여 최적의 부호화를 달성하도록 한다. 심리음향 모델링의 기법과 구현은 기존의 심리음향 모델링 기반 오디오 부호화 알고리즘에 사용되는 것과 동일하게 적용된다.
양자화부(250)는 부호화부(260)에 의해서 압축된 주파수 스펙트럼을 심리음향 모델부(230)를 이용하여 주어진 비트율에 대해서 최적의 양자화 레벨을 할당하는 방법을 토대로 오디오 신호 양자화를 실행한다. 이는 양자화 및 비트 할당부(251)에 의해서 수행되며, 또한 양자화된 주파수 스펙트럼들은 할당된 비트에 의해서 표현되는 값들로 구성되는데, 이들을 보다 적은 비트 수로 표현하기 위해서 디코더에서 원래의 값들을 복원할 수 있는 상태로 부호화하는 방법으로, 예를 들면 허프만 코딩부(252)에 의해서 허프만 부호화를 사용하여 보다 감소된 비트 수로 부호화하는 기법을 사용한다.
부호화부(260)는 오디오 신호의 압축 부호화를 위해서 상기 시간/주파수 변환부-MDCT부(210)에서 제공되는 주파수 스펙트럼의 진폭을 줄이거나 예측할 수 있는 방법들을 사용해서 오디오 신호의 압축 부호화를 수행한다. 이를 위하여 TNS부 (261), 세기/결합부(262), 예측부(263), M/S부(264)를 사용한다.
TNS부(261)는 양자화 과정에서 발생하는 잡음을 주파수 영역에서 예측 코딩함으로써 양자화 잡음을 최소화 해주는 역할을 한다. 채널 간의 관계에 의한 압축 방법으로 좌,우 채널로서 구분되는 각 채널 쌍에 대해서 하나의 채널에 대해서 다른 채널의 레벨 차이 만을 전송함으로써 실제 전송되는 데이터의 양을 줄이는 기법을 위하여 세기/결합부(Intensity/Coupling)(262)를 이용한 부호화를 수행한다. 또한, 시간 영역에서의 데이터 압축 방법으로서 이전 오디오 프레임의 스펙트럼으로부터 현재 프레임의 스펙트럼을 예측하는 프레임간 예측을 위하여 예측부(Prediction)(263)를 사용하며, 이는 예측 파라미터와 예측 오차만을 전송함으로써 전송 데이터의 양을 감소시킬 수 있는 기반을 제공한다. 그리고, 좌,우 채널의 신호를 M(Middle)/S(Side) 채널로 변환하여 데이터를 줄이는 M/S부(264)를 사용하여 부호화가 이루어지도록 하였다. TNS, Intensity/Coupling, Prediction, M/S 과정은 부호화의 효율을 높이기 위해 사용하는 선택적으로 사용되는 부호화 과정들이고, 허프만 코딩은 양자화된 스펙트럼 정보를 부호화하는데 사용되는 무손실 부호화 과정이다.
비트열 구성부(270)는 상기 압축 부호화된 오디오 데이터의 비트 열(bit stream)을 생성한다. 즉, 비트 열의 헤더정보, 스펙트럼 데이터를 비롯하여 부가 정보를 비트 열로 구성하는데, 여기서는 외부 제어나 사용자 제어에 따라 오디오 ES(Element Stream)을 패킷화된 비트 열인 PES(Packetized Element Stream)으로 변환하는 경우도 포함할 수 있다.
지금까지 설명한 바와 같이 본 발명은 MPEG 심리음향 모델의 정확성을 증대시키기 위하여. 심리음향 모델의 FFT 연산에 MDCT 분석필터에서 사용되는 것과 같은 형태의 장구간 시작 윈도우와, 장구간 마무리 윈도우를 사용하였다.
즉, 심리음향 모델에서의 FFT 연산과 MDCT 분석필터에 대하여 동일한 형태의 윈도우를 적용하기 위해서 구간 변환(Block Switching)을 위한 구간 결정이 심리음향 모델 이전 단에서 이루어지도록 한 것이다. 이를 위해서 시간축 구간 변환 결정 알고리즘을 사용하였다. 이러한 방법을 사용하여 심리음향 모델 이전에 윈도우 형태가 결정되면, FFT 연산과 MDCT 분석필터에 동일한 형태의 윈도우를 적용할 수 있다.
본 발명에 따르면 장구간에서 단구간으로, 또는 단구간에서 장구간으로 구간이 전환될 경우에 FFT 연산에서 장구간 핸 윈도우 대신에 각각 장구간 시작 윈도우와 장구간 마무리 윈도우를 사용한다.
도4는 본 발명에 따른 오디오 부호화 방법의 흐름을 나타낸 플로우차트이다.
제 1 단계(S41)는 오디오 신호를 입력받는 단계로서, 예를 들면 PCM 오디오 데이터를 입력받는다.
제 2 단계(S42)는 시간축 정보를 이용해서 윈도우 변환을 수행하는 단계로서, 앞서 설명한 바와 같이 FFT 연산과 MDCT 분석 필터의 입력 윈도우 형태를 동일하게 하기 위하여, 심리음향 모델링 이전 단계에서 윈도우 형태를 같아지게 변환하여 주는 것이다.
제 3 단계(S43)는 시간/주파수 변환단계로서, 이는 입력 오디오 신호에 대하 여 상기 변환된 윈도우를 적용하여 MDCT 분석을 수행함과 함께, 심리음향 모델링을 위한 FFT 변환을 수행하는 과정이다.
제 4 단계(S44)는 심리음향 모델링을 수행하는 과정으로서, 앞서 설명한 바와 같이 지각 특성에 기반한 오디오 신호의 모델링과 이를 통한 양자화 비트 수 할당의 결정 및 제어를 위한 과정에 해당한다.
제 5 단계(S45) 및 제 6 단계(S46)는 압축 부호화 및 양자화를 수행하는 과정으로서, 앞서 설명한 바와 같이 MDCT부(210)의 출력을 토대로 오디오 신호의 압축 부호화를 수행하고, 또한 심리음향 모델링 결과를 토대로 양자화 비트 수의 할당 및 허프만 코딩을 적용하여 오디오 신호의 양자화를 수행하는 과정이다.
제 7 단계(S47)는 압축 부호화된 오디오 데이터의 비트 열을 구성하여 출력하는 과정이다.
본 발명의 오디오 부호화 시스템에 따르면, FFT 연산과 MDCT 분석필터 간의 입력 값이 상이해지는 것을 방지하여 장구간 시작 프레임과 마무리 프레임에서 정확한 허용 양자화 잡음을 구할 수 있고, 따라서 기존 방법에서 발생되는 인지 가능한 양자화 잡음의 발생을 막을 수 있게 되며, 오디오 신호의 음질 향상 기반을 제공할 수 있는 효과가 있다.

Claims (7)

  1. 오디오 신호의 압축 부호화시에 심리음향 모델을 적용하여 시간/주파수 변환을 토대로 양자화 및 압축 부호화를 수행하는 방법으로서,
    입력 오디오 신호의 시간 축 정보를 이용하여 심리음향 모델링을 위한 제1 시간/주파수 변환 윈도우와 압축 부호화를 위한 제2 시간/주파수 변환 윈도우를 동일한 형태로 생성하는 단계; 및, 상기 동일 형태의 윈도우를 적용하여 심리음향 모델링을 위한 제1 시간/주파수 변환, 압축 부호화를 위한 제2 시간/주파수 변환을 수행하는 단계; 를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
  2. 제 1 항에 있어서, 상기 윈도우는 장구간 핸 윈도우(Long Hann Window), 장구간 시작 핸 윈도우(Long Start Hann Window), 단구간 핸 윈도우(Short Hann Window), 장구간 마무리 핸 윈도우(Long Stop Hann Window) 인 것을 특징으로 하는 오디오 부호화 방법.
  3. 제 1 항에 있어서, 장구간에서 단구간으로의 구간 전환이나, 단구간에서 장구간으로의 구간 전환일 경우에 상기 심리음향 모델링을 위한 제1 시간/주파수 변환에서는, 장구간 핸 윈도우 대신 각각 장구간 시작 윈도우와 장구간 마무리 윈도우를 사용하는 것을 특징으로 하는 오디오 부호화 방법.
  4. 오디오 신호의 압축 부호화시에 심리음향 모델을 적용하여 시간/주파수 변환을 토대로 양자화 및 압축 부호화를 수행하는 장치로서,
    입력 오디오 신호의 시간 축 정보를 이용하여 심리음향 모델링을 위한 제1 시간/주파수 변환 윈도우와 압축 부호화를 위한 제2 시간/주파수 변환 윈도우를 동일한 형태로 생성하는 윈도우 변환수단; 상기 동일 형태의 윈도우를 적용하여 심리음향 모델링을 위한 시간/주파수 변환을 수행하는 제1 시간/주파수 변환수단; 상기 동일 형태의 윈도우를 적용하여 압축 부호화를 위한 시간/주파수 변환을 수행하는 제2 시간/주파수 변환수단; 상기 제1 시간/주파수 변환수단의 출력을 토대로 심리음향 모델링을 수행하는 수단; 상기 심리음향 모델링 결과와 제2 시간/주파수 변환수단의 출력을 토대로 양자화 및 압축 부호화를 수행하여 비트 열을 생성하는 수단; 을 포함하여 이루어지는 것을 특징으로 하는 오디오 부호화 장치.
  5. 제 4 항에 있어서, 상기 제1 시간/주파수 변환은 FFT임을 특징으로 하는 오디오 부호화 장치.
  6. 제 4 항에 있어서, 상기 제2 시간/주파수 변환은 MDCT임을 특징으로 하는 오디오 부호화 장치.
  7. 제 4 항에 있어서, 상기 윈도우는 장구간 핸 윈도우(Long Hann Window), 장구간 시작 핸 윈도우(Long Start Hann Window), 단구간 핸 윈도우(Short Hann Window), 장구간 마무리 핸 윈도우(Long Stop Hann Window) 인 것을 특징으로 하는 오디오 부호화 장치.
KR1020050092762A 2005-10-04 2005-10-04 오디오 부호화 시스템 KR20070037771A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050092762A KR20070037771A (ko) 2005-10-04 2005-10-04 오디오 부호화 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050092762A KR20070037771A (ko) 2005-10-04 2005-10-04 오디오 부호화 시스템

Publications (1)

Publication Number Publication Date
KR20070037771A true KR20070037771A (ko) 2007-04-09

Family

ID=38159356

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050092762A KR20070037771A (ko) 2005-10-04 2005-10-04 오디오 부호화 시스템

Country Status (1)

Country Link
KR (1) KR20070037771A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101449432B1 (ko) * 2007-06-27 2014-10-14 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
CN112037804A (zh) * 2013-07-22 2020-12-04 弗朗霍夫应用科学研究促进协会 使用噪声填充的音频编码器、解码器、编码及解码方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101449432B1 (ko) * 2007-06-27 2014-10-14 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
CN112037804A (zh) * 2013-07-22 2020-12-04 弗朗霍夫应用科学研究促进协会 使用噪声填充的音频编码器、解码器、编码及解码方法
US11887611B2 (en) 2013-07-22 2024-01-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in multichannel audio coding

Similar Documents

Publication Publication Date Title
JP4212591B2 (ja) オーディオ符号化装置
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
KR100551862B1 (ko) 고주파 복원 방법을 이용하는 코딩 시스템의 성능 향상방법 및 시스템
KR100814673B1 (ko) 오디오 부호화
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
US6502069B1 (en) Method and a device for coding audio signals and a method and a device for decoding a bit stream
JP5277350B2 (ja) 圧縮符号化および復号の方法、符号器、復号器、ならびに符号化装置
JP4810335B2 (ja) 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
JP5175028B2 (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
JP5404412B2 (ja) 符号化装置、復号装置およびこれらの方法
KR20090007427A (ko) 정보 신호 인코딩
KR19990041072A (ko) 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
US20080140393A1 (en) Speech coding apparatus and method
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
JP2005049889A (ja) オーディオ信号コーディング中にノイズ置換を信号で知らせる方法
KR100813193B1 (ko) 정보 신호의 양자화 방법 및 장치
KR102215991B1 (ko) 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법
JPH0856163A (ja) 適応的デジタルオーディオ符号化システム
US10762912B2 (en) Estimating noise in an audio signal in the LOG2-domain
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
US7613609B2 (en) Apparatus and method for encoding a multi-channel signal and a program pertaining thereto
KR20030068716A (ko) 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR20060114002A (ko) 오디오 부호화
KR100952065B1 (ko) 부호화 방법 및 장치, 및 복호 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application