KR20080008897A - 오디오 부호화 방법 - Google Patents

오디오 부호화 방법 Download PDF

Info

Publication number
KR20080008897A
KR20080008897A KR1020060068733A KR20060068733A KR20080008897A KR 20080008897 A KR20080008897 A KR 20080008897A KR 1020060068733 A KR1020060068733 A KR 1020060068733A KR 20060068733 A KR20060068733 A KR 20060068733A KR 20080008897 A KR20080008897 A KR 20080008897A
Authority
KR
South Korea
Prior art keywords
value
perceptual entropy
masking threshold
bit allocation
obtaining
Prior art date
Application number
KR1020060068733A
Other languages
English (en)
Other versions
KR100827458B1 (ko
Inventor
이창준
박영철
윤대희
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020060068733A priority Critical patent/KR100827458B1/ko
Publication of KR20080008897A publication Critical patent/KR20080008897A/ko
Application granted granted Critical
Publication of KR100827458B1 publication Critical patent/KR100827458B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 부호화 방법에 관한 것이다. 본 발명의 오디오 부호화 방법은 오디오 신호의 압축 부호화시에 심리음향 모델을 적용하여 시간/주파수 변환을 토대로 양자화 및 압축 부호화를 수행하는 방법으로서, 입력 오디오 신호의 대역별 마스킹 임계치를 구하는 단계; 프리에코 조절(pre-echo control)을 수행하는 단계; 구간 전환(block switching or window switching)을 위한 PE(Perceptual Entropy) 값을 구하는 단계; 구간별 비트 할당을 위한 PE(Perceptual Entropy) 값을 구하는 단계; 를 포함하는 것을 특징으로 한다.
오디오, 부호화, 심리음향 모델

Description

오디오 부호화 방법{METHOD FOR AUDIO SIGNAL CODING}
도1은 본 발명이 적용되는 오디오 부호화기의 구조를 나타낸 도면
도2는 본 발명의 실시예에 따른 오디오 부호화 방법에서 프리에코 조절 및 마스킹 임계치 계산 과정을 나타낸 플로우차트
<도면의 주요 부분에 대한 부호의 설명>
210: MDCT부 220: FFT부
230: 심리음향 모델부 240: 윈도우 변환부
250: 양자화부 260: 부호화부
270: 비트열 구성부
본 발명은 오디오 부호화 방법에 관한 것이다.
MPEG 오디오 부호화 알고리즘은 오디오 신호의 저장과 전송에 필요한 막대한 채널 용량을 줄이기 위해 주관적인 음질의 손실없이 오디오 신호를 압축하는 것을 목적으로 한다. 이를 위하여 인간의 감각 특성에 기반한 지각 부호화(Perceptual Coding) 방법을 사용한다. 지각 부호화란 청각으로 감지할 수 있는 최소 레벨인 최 소 가청한계와, 특정 음에 의해서 다른 음이 잘 들리지 않게 되는 마스킹(Masking) 현상을 이용하는 방법이다. 최소 가청한계는 음의 주파수(고저)에 따라 달라지고, 마스킹 현상은 마스킹하는 음(Masker)과 마스킹되어 들리지 않게 되는 음(Maskee)의 주파수에 따라 달라진다. 특히, 마스킹 효과가 일어나는 주파수 폭을 임계대역(Critical Band)이라고 하는데, 이 임계대역 내에서의 지각 가능한 신호대 잡음비(S/N비)는 매우 낮은 특성이 있다. 따라서, MPEG 오디오 부호화에서는 상기와 같은 지각 부호화에 기반한 압축 부호화를 수행함으로써, 디지털 오디오 신호 양자화 잡음을 임계대역 내에 혼합하여 그 양자화 잡음이 표현되지 않도록 하는 것이다.
이와 같이 MPEG 오디오는 오디오 신호의 압축을 위해 통계적인 무손실 압축 방법과 함께 손실 압축 방법을 사용하는데, 이는 심리음향 이론 중 마스킹 현상을 이용하여 손실되는 부분이 사람의 귀로 지각되지 않도록 하는 것이다. 따라서 부호화 과정을 수행할 때 심리음향 모델이라는 복잡한 과정을 통해서 각 주파수 별로 최대 허용 가능한 잡음의 양을 구하게 된다. 이러한 점이 고려되어야 하기 때문에 고음질의 오디오 출력 신호를 얻기 위해서 심리음향 모델의 역할이 매우 중요하다.
본 발명의 목적은 오디오 부호화기에서 부호화 프로세스의 효율을 높이고, 부호화를 위한 비트 할당이 효과적으로 이루어질 수 있도록 한 오디오 부호화 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명에 따른 오디오 부호화 방법은, 오디오 신호의 압축 부호화시에 심리음향 모델을 적용하여 시간/주파수 변환을 토대로 양자화 및 압축 부호화를 수행하는 방법으로서, 구간 전환(block switching or window switching)을 위한 PE(Perceptual Entropy)값을 구하는 단계; 상기 PE(Perceptual Entropy)값에 따라 구간 전환 여부를 결정하는 단계; 상기 구간 전환 결정 결과에 따라 각 구간에서의 비트 할당을 위한 PE(Perceptual Entropy)값을 각각 구하는 단계; 를 포함하는 것을 특징으로 한다.
또한 상기 목적을 달성하기 위한 본 발명에 따른 오디오 부호화 방법은, 오디오 신호의 압축 부호화시에 심리음향 모델을 적용하여 시간/주파수 변환을 토대로 양자화 및 압축 부호화를 수행하는 방법으로서, 입력 오디오 신호의 대역별 마스킹 임계치를 구하는 단계; 프리에코 조절(pre-echo control)을 수행하는 단계; 구간 전환(block switching or window switching)을 위한 PE(Perceptual Entropy) 값을 구하는 단계; 구간별 비트 할당을 위한 PE(Perceptual Entropy) 값을 구하는 단계; 를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.
본 발명은 MPEG 심리음향 모델-Ⅱ를 이용한 오디오 부호화기의 비트 할당 과정의 효율성을 높이기 위한 것으로, 심리음향 모델에서 마스킹 임계치(masking threshold)를 구하는 마지막 단계에서의 프리에코 조절(pre-echo control) 과정을 장구간(long block)과 단구간(short block)으로 나누어서 수행하는 방법이다.
도1은 본 발명의 오디오 부호화 방법이 적용되는 오디오 부호화기 구조의 실시예를 보여주고 있다. 도1에 나타낸 오디오 부호화기는 MPEG 기반 오디오 부호화 기이다. 그 구성을 살펴보면, MDCT부(Modified Discrete Cosine Transform)(110), 입력 오디오 신호의 FFT(Fast Fourier Transform)부(120), 심리음향 모델부(130), 윈도우 변환부(140), 양자화부(150), 부호화부(160), 비트열 구성부(170)를 포함하고 있다. 상기 양자화부(150)는 양자화 및 비트 할당부(151)와 허프만 코딩부(152)를 포함하며, 상기 부호화부(160)는 TNS부(Temporal Noise Shaping), 세기/결합부(Insensity/Coupling)(162), 예측부(Prediction)(163), M/S부(Middle/Side)(164)를 포함한다.
도1에 나타낸 바와 같이 입력 오디오 신호는 부호화를 위해서 MDCT 분석 필터(110)를 통해서 주파수 축 신호로 바뀌게 되며, 이후 다양한 방법을 통해 부호화된다. 그리고 이와 동시에 심리음향 모델부(130)은 입력 신호의 지각적 특성을 분석하여 비트 할당 과정에 필요한 각 주파수 별 최대 허용 양자화 잡음의 양을 결정하게 된다. 비트 할당 과정은 주어진 비트율에서 양자화 과정에서 발생하는 양자화 잡음이 심리음향 모델로부터 얻은 최대 허용 잡음의 양보다 가능한 적어지도록 최적화한다.
심리음향 모델은 주파수 축에서 입력 신호의 지각적 특성을 분석하기 때문에 입력 신호의 주파수 변환 과정을 필요로 한다. 도1에서 볼 수 있듯이 부호화 과정에서는 이미 MDCT 분석 필터(110)를 통해서 주파수 변환을 수행하고 있지만, 심리음향 이론의 실험 결과들은 대부분 DFT(Discrete Fourier Transform) 축 상에서 이루어져 있으므로 MPEG 표준안은 심리음향 모델을 위한 별도의 FFT(Fast Fourier Transform) 변환이 필요하다고 권고하고 있다.
MPEG 심리음향 모델Ⅱ는 프리에코(pre-echo)가 발생하는 것을 막기 위해서 단구간 윈도우들을 이용해서 부호화하는 방법과 함께 현재 프레임의 대역별 마스킹 임계치를 이전 두 프레임의 임계치들과 비교하여 더 작은 값을 현재 프레임의 마스킹 임계치로 적용하는 프리에코 조절(pre-echo control) 방법을 권고하고 있다.
MPEG 표준안은 구간(block) 전환 결정을 심리음향 모델의 결과 값 중의 하나인 PE(Perceptual Entropy)값을 통해서 결정하도록 하고 있다. 이를 위해서 FFT 연산에서는 장구간 윈도우(Long Window)와 단구간 윈도우(Short Window) 두가지 형태의 윈도우를 사용하고 있다. 이에 반해 MDCT 분석필터(110)에서는 장구간 윈도우, 단구간 윈도우 외에 장구간 시작 윈도우(Long Start Window)와 장구간 마무리 윈도우(Long Stop Window)를 더 사용하고 있다.
심리음향 모델을 통해서 다음 번 구간이 단구간(Short Block)으로 결정되어, 장구간에서 단구간으로 구간 전환(Block Switching)이 일어나야 될 경우 MDCT 분석필터에서는 현재 구간에 대해서 장구간 시작 윈도우를 사용하게 되며, 단구간에서 장구간으로 전환되어야 할 경우에는 장구간 마무리 윈도우를 사용하게 된다.
도1을 참조하여 오디오 부호화기 동작을 살펴보자. MDCT부(110)는 MDCT 분석필터로서, 입력된 오디오 신호를 이산 코사인 변환(DCT) 처리하여 입력 오디오 신호를 주파수 축으로 변환한다. FFT부(120)는 앞서 설명한 바와 같이 심리음향 모델링을 위하여 입력 오디오 신호를 주파수 축으로 변환한다. 여기서, MDCT 분석 필터의 입력과 FFT 연산의 윈도우 형태는 전단의 윈도우 변환부(140)에서 시간축 정보를 이용하여 변환된 동일 윈도우 형태를 갖게 된다. 즉, 심리음향 모델의 FFT 연산 에 MDCT 분석필터에서 사용되는 것과 같은 형태의 장구간 시작 윈도우와 장구간 마무리 윈도우를 사용하게 된다.
앞서 설명한 바와 같이 FFT와 MDCT는 시간/주파수 변환으로서, 일반적으로 시간 영역의 신호보다 주파수 영역의 신호를 부호화하기 용이한 특성을 이용하기 위하여, 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 부분이며, 이 때 변환 윈도우의 길이는 주파수 해상도와 밀접한 관련이 있기 때문에 적절하게 선택되는데 이는 시간 축 정보를 이용한 윈도우 변환부(140)로부터 제공받게 된다.
심리음향 모델부(130)는 다채널 오디오의 지각 부호화를 위해 인간의 청각 특성을 모델링하는데, 입력 오디오의 특성을 추출하고 대역별로 인간의 청각에 감지되지 않는 양자화 잡음의 정도를 계산하여 부호화에 필요한 비트의 할당 시 이를 반영하여 최적의 부호화를 달성하도록 한다. 심리음향 모델링의 기법과 구현은 기존의 심리음향 모델링 기반 오디오 부호화 알고리즘에 사용되는 것과 동일하게 적용된다.
양자화부(150)는 부호화부(160)에 의해서 압축된 주파수 스펙트럼을 심리음향 모델부(130)를 이용하여 주어진 비트율에 대해서 최적의 양자화 레벨을 할당하는 방법을 토대로 오디오 신호 양자화를 실행한다. 이는 양자화 및 비트 할당부(151)에 의해서 수행되며, 또한 양자화된 주파수 스펙트럼들은 할당된 비트에 의해서 표현되는 값들로 구성되는데, 이들을 보다 적은 비트 수로 표현하기 위해서 디코더에서 원래의 값들을 복원할 수 있는 상태로 부호화하는 방법으로, 예를 들면 허프만 코딩부(152)에 의해서 허프만 부호화를 사용하여 보다 감소된 비트 수로 부호화하는 기법을 사용한다.
부호화부(160)는 오디오 신호의 압축 부호화를 위해서 상기 시간/주파수 변환부-MDCT부(110)에서 제공되는 주파수 스펙트럼의 진폭을 줄이거나 예측할 수 있는 방법들을 사용해서 오디오 신호의 압축 부호화를 수행한다. 이를 위하여 TNS부(161), 세기/결합부(162), 예측부(163), M/S부(164)를 사용한다.
TNS부(161)는 양자화 과정에서 발생하는 잡음을 주파수 영역에서 예측 코딩함으로써 양자화 잡음을 최소화 해주는 역할을 한다. 채널 간의 관계에 의한 압축 방법으로 좌,우 채널로서 구분되는 각 채널 쌍에 대해서 하나의 채널에 대해서 다른 채널의 레벨 차이 만을 전송함으로써 실제 전송되는 데이터의 양을 줄이는 기법을 위하여 세기/결합부(Intensity/Coupling)(162)를 이용한 부호화를 수행한다. 또한, 시간 영역에서의 데이터 압축 방법으로서 이전 오디오 프레임의 스펙트럼으로부터 현재 프레임의 스펙트럼을 예측하는 프레임간 예측을 위하여 예측부(Prediction)(163)를 사용하며, 이는 예측 파라미터와 예측 오차만을 전송함으로써 전송 데이터의 양을 감소시킬 수 있는 기반을 제공한다. 그리고, 좌,우 채널의 신호를 M(Middle)/S(Side) 채널로 변환하여 데이터를 줄이는 M/S부(164)를 사용하여 부호화가 이루어지도록 하였다. TNS, Intensity/Coupling, Prediction, M/S 과정은 부호화의 효율을 높이기 위해 사용하는 선택적으로 사용되는 부호화 과정들이고, 허프만 코딩은 양자화된 스펙트럼 정보를 부호화하는데 사용되는 무손실 부호화 과정이다.
비트열 구성부(170)는 상기 압축 부호화된 오디오 데이터의 비트 열(bit stream)을 생성한다. 즉, 비트 열의 헤더정보, 스펙트럼 데이터를 비롯하여 부가 정보를 비트 열로 구성하는데, 여기서는 외부 제어나 사용자 제어에 따라 오디오 ES(Element Stream)을 패킷화된 비트 열인 PES(Packetized Element Stream)으로 변환하는 경우도 포함할 수 있다.
앞서 언급한 바와 같이, MPEG 표준안은 구간 전환(block switching or window switching) 결정을 심리음향 모델의 결과 값 중의 하나인 PE(Perceptual Entropy) 값을 통해 결정하도록 하고 있다. PE값은 각 대역별 SMR(Signal-to-Mask Ratio, 신호 대 마스킹 임계치의 비율)의 합으로 나타낼 수 있다. 시간축에서 신호의 갑작스런 증가가 발생할 때 주파수축에서는 전대역에 걸쳐서 에너지가 증가하게 된다. 또한 이로 인해 전대역에서의 마스킹 임계치가 함께 증가하게 된다. 이렇게 증가한 마스킹 임계치를 프리에코 조절 과정에서 이전 프레임에서의 마스킹 임계치와 비교하여 더 작은 값을 현재 프레임의 마스킹 임계치로 사용하게 되면 현재 프레임의 각 대역에서의 SMR이 크게 증가하기 때문에 PE값 또한 증가하게 된다. PE값이 미리 정의된 임계치를 넘으면 장구간에서 단구간으로 전환되어 부호화를 하게 된다.
그러나 이러한 구간 전환(block switching)을 위한 PE값은 장구간에서의 에너지와 마스킹 임계치를 이용하여 계산되는 반면, 프리에코 현상은 단구간에서 발생하게 된다. 따라서 현재 프레임이 장구간으로 결정되었을 때에도 프리에코 조절방법을 이용하여 마스킹 임계치를 실제 예측된 값보다 더 떨어뜨림으로써 비트 할 당 시에 이러한 대역들에 실제 필요한 비트보다 더 많은 비트들을 할당하게 된다. 따라서 상대적으로 다른 대역들에서 사용할 비트가 줄어든다. 그러므로 낮은 비트율에서 이러한 대역들에서의 양자화 잡음이 증가할 수 있다.
즉, 프리에코를 방지하기 위해서 장구간을 단구간으로 나누어서 부호화하는 방법이 사용되는 경우, 장구간에서는 프리에코가 발생하지 않음에도 불구하고 장구간에서의 마스킹 임계치를 이전 프레임의 값들과 비교한다면 실제 계산된 값보다 더 작은 마스킹 임계치를 이용하여 장구간을 부호화하게 된다. 이러한 방법은 장구간에서의 대역들의 마스킹 임계치를 떨어뜨림으로써 실제 필요한 비트보다 더 많은 비트를 사용하게 한다. 이렇게 되면 낮은 비트율에서 상대적으로 다른 대역들에서 사용할 비트가 줄어든다. 그러므로 양자화 잡음이 증가하게 된다.
본 발명은 MPEG 심리음향 모델Ⅱ에서 장구간에서의 효과적인 비트 할당을 위한 방법을 제공한다. 이를 위해서 심리음향 모델Ⅱ에서의 구간전환을 위한 PE값과 비트 할당을 위한 PE값을 분리하여 계산한다. 수학식1은 PE값을 구하는 식이다.
Figure 112006052276990-PAT00001
여기서, b는 대역단위이며, (w_high[b]-w_low[b])는 한 대역에서의 FFT(Fast Fourier Transform) 계수의 개수이다. thr[b]와 e[b]는 각각 대역별 마스킹 임계치와 에너지를 뜻한다. 수학식1에 따르면, PE값은 입력 오디오 신호에 대해서 FFT를 수행한 결과로부터 얻는 FFT 계수의 개수(w_high[b]-w_low[b])와, 대역별 마스킹 임계치(thr[b]), 그리고 대역별 에너지(e[b])의 합으로부터 구할 수 있음을 알 수 있다.
이와 같이 PE값을 구하기 위한 대역별 마스킹 임계치 thr[b]는 장구간 및 단구간에 대해서 구해진다. 대역별 마스킹 임계치 thr[b]는 절대 가청 한계값과 이전 프레임 및 그 이전 프레임의 마스킹 임계치, 그리고 미리 정의된 가중치를 이용해서 구한다. 다음의 수학식2는 구간전환을 위한 PE값 계산에 사용되어질 마스킹 임계치를 구하는 식이다.
Figure 112006052276990-PAT00002
여기서, absthr[b], nb_l[b], nb_ll[b]는 각각 절대 가청 한계값과 이전 프레임과 그 이전 프레임의 마스킹 임계치를 뜻하며, rpelev, rpelev2는 미리 정의된 가중치이다. nb[b]는 프리에코 조절과정 이전까지 현재 프레임에서 계산되어진 마스킹 임계치이며, thr[b]를 이용하여 구간전환을 위한 PE값을 계산한다.
앞서 설명한 바와 같이 본 발명의 오디오 부호화 방법에서는 구간 전환용 PE값과 비트 할당용 PE값을 분리하여 계산하고 있다. 장구간에서 비트 할당을 위한 PE값 계산에 사용될 임계치는 다음의 수학식3과 같이 구한다.
Figure 112006052276990-PAT00003
여기서, 대역별 마스킹 임계치 thr[b]는 절대 가청 한계값 absthr[b]와 프리 에코 조절과정 이전까지 현재 프레임에서 계산되어진 마스킹 임계치 nb[b]를 이용하여 구할 수 있으며, 이 임계치 thr[b]를 이용해서 장구간에서 비트 할당을 위한 PE값을 계산함을 알 수 있다. 즉, 이전 프레임과의 마스킹 임계치 비교 과정없이 절대 가청 한계 결과값만 비교하여 장구간에서의 마스킹 임계치를 구한다.
한편, 단구간에서의 마스킹 임계치는 프리에코 발생을 막기 위하여 수학식2를 사용한다. 따라서, 구간 전환을 위한 PE값 계산을 위한 마스킹 임계치와 단구간에서의 마스킹 임계치는 모두 수학식2를 이용하여 계산된다.
본 발명의 실시예에 따른 오디오 부호화 과정은 도1에 의하는 바와 같이, 오디오 데이터를 입력받고, 윈도우를 적용하여 MDCT 분석을 수행함과 함께, 심리음향 모델링을 위한 FFT 변환을 수행하고, 지각 특성에 기반한 오디오 신호의 모델링과 이를 통한 양자화 비트 수 할당의 결정 및 제어를 수행하며, MDCT부의 출력을 토대로 오디오 신호의 압축 부호화를 수행하고, 또한 심리음향 모델링 결과를 토대로 양자화 비트 수의 할당 및 허프만 코딩을 적용하여 오디오 신호의 양자화를 수행하고, 압축 부호화된 오디오 데이터의 비트 열을 구성하여 출력한다.
도2는 이러한 오디오 부호화 과정에서 MPEG 심리음향 모델 Ⅱ의 프리에코 조절 및 마스킹 임계치를 계산하는 과정을 나타낸 플로우차트이다.
제 1 단계(S10)는 각 대역(band)별로, 장구간 및 단구간에 대해서 마스킹 임계치 thr[b]를 계산하는 단계이다. 이 단계에서 구한 마스킹 임계치 thr[b]는 프리에코 조절과정을 거치지 않은 마스킹 임계치이며, 장구간에서 비트 할당을 위한 PE값 계산 단계(S51)에서 사용된다.
제 2 단계(S20)는 이전 프레임들과의 마스킹 임계치 비교를 기반으로, 장구간 및 단구간에 대해서 프리에코 조절을 수행하는 단계이다. 이 단계의 수행에 의해서 프리에코 조절 과정을 거친 마스킹 임계치 thr[b]가 단구간에서 비트 할당을 위한 PE값 계산 단계(S61)에서 사용된다.
제 3 단계(S30)는 장구간에서 구간전환(장구간=>단구간)을 위한 PE값을 계산하는 단계이다. 여기서 PE값을 구하는 계산은 수학식1에 따르며, 구간 전환을 위한 PE값을 계산하는데 사용할 마스킹 임계치는 수학식2에 따라 계산된다.
제 4 단계(S40)는 계산된 PE값을 구간 전환을 위해서 미리 정의된 값 SWITCH_PE와 비교하는 단계이다. 계산된 PE값이 미리 정의된 SWITCH_PE 값을 넘지 않으면 제 5 단계(S51)로 이행하여 장구간에서의 부호화를 수행하고, 계산된 PE값이 미리 정의된 SWITCH_PE 값을 넘으면 제 8 단계(S61)로 이행하여 장구간에서 단구간으로 전환되어 부호화를 수행한다.
제 5 단계(S51)는 프리에코 조절과정을 거치지 않은 마스킹 임계치를 사용해서 장구간에서 비트할당을 위한 PE값을 계산하는 단계이다. 여기서 PE값을 구하는 계산은 수학식1에 따르며, 장구간에서 비트 할당을 위한 PE값을 계산하는데 사용할 마스킹 임계치는 수학식3에 따라 계산된다.
다음의 제 6 단계(S52)는 장구간에서의 스케일 팩터 대역별 마스킹 임계치를 구하는 단계이며, 다음의 제 7 단계(S53)는 장구간에서의 스케일 팩터 대역별 SMR(신호 대 마스킹 임계치의 비)을 계산하는 단계이다.
제 8 단계(S61)는 구간전환에 따라, 프리에코 조절과정을 거친 마스킹 임계 치를 사용해서 단구간에서 비트할당을 위한 PE값을 계산하는 단계이다. 여기서 PE값을 구하는 계산은 수학식1에 따르며, 단구간에서 비트 할당을 위한 PE값을 계산하는데 사용할 마스킹 임계치는 수학식2에 따라 계산된다.
다음의 제 9 단계(S62)는 단구간에서의 스케일 팩터 대역별 마스킹 임계치를 구하는 단계이며, 다음의 제 10 단계(S63)는 단구간에서의 스케일 팩터 대역별 SMR(신호 대 마스킹 임계치의 비)을 계산하는 단계이다.
위와 같이, 심리음향 모델Ⅱ에서 비트할당과 구간전환을 위한 PE값을 각각 구하기 위해서 장구간에서의 마스킹 임계치를 프리에코 조절 이전의 값과 이후의 값을 각각 사용하고 있다. 이를 위해서 장구간에 대해서는 프리에코 조절 과정 전후의 값을 분리해서 사용할 수 있도록 하였다. 구간전환을 위해서 PE값을 이용하는 방법 이외에 다른 방법이 사용되어질 경우에는 구간 전환 부분은 이러한 다른 방법들로 대체될 수 있다.
본 발명의 오디오 부호화 방법을 사용하면, 프리에코 조절과정을 단구간에서만 사용함으로써 단구간에서의 프리에코의 발생을 줄이는 것은 물론, 장구간에서 현재 프레임에서 예측된 마스킹 임계치를 그대로 사용함으로써 장구간에서의 비트 할당이 효과적으로 이루어질 수 있다.

Claims (9)

  1. 오디오 신호의 압축 부호화시에 심리음향 모델을 적용하여 시간/주파수 변환을 토대로 양자화 및 압축 부호화를 수행하는 방법으로서,
    구간 전환(block switching or window switching)을 위한 PE(Perceptual Entropy)값을 구하는 단계;
    상기 PE(Perceptual Entropy)값에 따라 구간 전환 여부를 결정하는 단계;
    상기 구간 전환 결정 결과에 따라 각 구간에서의 비트 할당을 위한 PE(Perceptual Entropy)값을 각각 구하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
  2. 제 1 항에 있어서, 상기 PE(Perceptual Entropy) 값은 한 대역에서의 FFT 계수, 대역별 마스킹 임계치, 에너지 값을 이용해서 구하는 것을 특징으로 하는 오디오 부호화 방법.
  3. 오디오 신호의 압축 부호화시에 심리음향 모델을 적용하여 시간/주파수 변환을 토대로 양자화 및 압축 부호화를 수행하는 방법으로서,
    입력 오디오 신호의 대역별 마스킹 임계치를 구하는 단계;
    프리에코 조절(pre-echo control)을 수행하는 단계;
    구간 전환(block switching or window switching)을 위한 PE(Perceptual Entropy) 값을 구하는 단계;
    구간별 비트 할당을 위한 PE(Perceptual Entropy) 값을 구하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
  4. 제 3 항에 있어서, 상기 PE(Perceptual Entropy) 값은 한 대역에서의 FFT 계수의 개수, 대역별 마스킹 임계치 및 에너지를 이용하여 구하는 것을 특징으로 하는 오디오 부호화 방법.
  5. 제 3 항에 있어서, 상기 구간 전환을 위한 PE(Perceptual Entropy) 값과 상기 비트 할당을 위한 PE(Perceptual Entropy) 값은 각각 다른 마스킹 임계치에 근거하여 구하는 것을 특징으로 하는 오디오 부호화 방법.
  6. 제 3 항에 있어서, 상기 비트 할당을 위한 PE(Perceptual Entropy) 값은 구간별로 각각 구하는 것을 특징으로 하는 오디오 부호화 방법.
  7. 제 3 항에 있어서, 상기 비트 할당을 위한 PE(Perceptual Entropy) 값을 구하기 위한 마스킹 임계치는 구간에 따라 상기 프리에코 조절 이전의 값과 이후의 값을 각각 사용하는 것을 특징으로 하는 오디오 부호화 방법.
  8. 제 3 항에 있어서, 상기 비트 할당을 위한 PE(Perceptual Entropy) 값을 구 하기 위한 마스킹 임계치는, 장구간의 경우 프리에코 조절 이전의 값을 사용는 것을 특징으로 하는 오디오 부호화 방법.
  9. 상기 비트 할당을 위한 PE(Perceptual Entropy) 값을 구하기 위한 마스킹 임계치는, 단구간의 경우 프리에코 조절 이후의 값을 사용하는 것을 특징으로 하는 오디오 부호화 방법.
KR1020060068733A 2006-07-21 2006-07-21 오디오 부호화 방법 KR100827458B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060068733A KR100827458B1 (ko) 2006-07-21 2006-07-21 오디오 부호화 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060068733A KR100827458B1 (ko) 2006-07-21 2006-07-21 오디오 부호화 방법

Publications (2)

Publication Number Publication Date
KR20080008897A true KR20080008897A (ko) 2008-01-24
KR100827458B1 KR100827458B1 (ko) 2008-05-06

Family

ID=39221637

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060068733A KR100827458B1 (ko) 2006-07-21 2006-07-21 오디오 부호화 방법

Country Status (1)

Country Link
KR (1) KR100827458B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120032025A (ko) * 2009-07-07 2012-04-04 프랑스 텔레콤 디지털 오디오 신호들의 개선된 코딩/디코딩
KR101581748B1 (ko) * 2015-03-20 2015-12-31 (주)진명아이앤씨 디에스피(dsp)를 이용한 스마트 다이나믹 제어 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
KR100528327B1 (ko) * 2003-01-02 2005-11-15 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
KR100736607B1 (ko) * 2005-03-31 2007-07-09 엘지전자 주식회사 오디오 부호화 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120032025A (ko) * 2009-07-07 2012-04-04 프랑스 텔레콤 디지털 오디오 신호들의 개선된 코딩/디코딩
KR101581748B1 (ko) * 2015-03-20 2015-12-31 (주)진명아이앤씨 디에스피(dsp)를 이용한 스마트 다이나믹 제어 장치

Also Published As

Publication number Publication date
KR100827458B1 (ko) 2008-05-06

Similar Documents

Publication Publication Date Title
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP4212591B2 (ja) オーディオ符号化装置
US8041563B2 (en) Apparatus for coding a wideband audio signal and a method for coding a wideband audio signal
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
KR100814673B1 (ko) 오디오 부호화
RU2585990C2 (ru) Устройство и способ для выполнения кодирования методом хаффмана
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
KR100695125B1 (ko) 디지털 신호 부호화/복호화 방법 및 장치
KR100813193B1 (ko) 정보 신호의 양자화 방법 및 장치
JPH0856163A (ja) 適応的デジタルオーディオ符号化システム
US8589155B2 (en) Adaptive tuning of the perceptual model
KR100848370B1 (ko) 오디오 부호화
KR101907808B1 (ko) 오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템
KR20030068716A (ko) 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
JP2004309921A (ja) 符号化装置、符号化方法及びプログラム
KR100827458B1 (ko) 오디오 부호화 방법
CN105957533A (zh) 语音压缩方法、语音解压方法及音频编码器、音频解码器
KR101078378B1 (ko) 오디오 부호화기의 양자화 방법 및 장치
JP2008129250A (ja) Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法
KR20070037771A (ko) 오디오 부호화 시스템
WO2010102537A1 (zh) 降低多描述编解码冗余度的方法和装置
JP4273062B2 (ja) 符号化方法、符号化装置、復号化方法及び復号化装置
KR100640833B1 (ko) 디지털 오디오의 부호화 방법
JP3863706B2 (ja) 音声符号化方法
KR970006825B1 (ko) 오디오신호 부호화장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110328

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee