KR100477701B1 - Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치 - Google Patents

Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치 Download PDF

Info

Publication number
KR100477701B1
KR100477701B1 KR10-2003-0004097A KR20030004097A KR100477701B1 KR 100477701 B1 KR100477701 B1 KR 100477701B1 KR 20030004097 A KR20030004097 A KR 20030004097A KR 100477701 B1 KR100477701 B1 KR 100477701B1
Authority
KR
South Korea
Prior art keywords
band
parameter
masking
size
sum
Prior art date
Application number
KR10-2003-0004097A
Other languages
English (en)
Other versions
KR20040040993A (ko
Inventor
하호진
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP03810714A priority Critical patent/EP1559101A4/en
Priority to US10/702,737 priority patent/US20040098268A1/en
Priority to PCT/KR2003/002379 priority patent/WO2004042722A1/en
Priority to AU2003276754A priority patent/AU2003276754A1/en
Publication of KR20040040993A publication Critical patent/KR20040040993A/ko
Application granted granted Critical
Publication of KR100477701B1 publication Critical patent/KR100477701B1/ko
Priority to US12/104,971 priority patent/US20080212671A1/en

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Abstract

본 발명에 따라 엠펙 오디오 인코딩 방법, 엠펙 오디오 인코딩시 윈도우 형태 결정 방법, 엠펙 오디오 인코딩시 심리음향 모델링방법, 엠펙 오디오 인코딩 장치, 엠펙 오디오 인코딩시 윈도우 형태 결정 장치 및 엠펙 오디오 인코딩시스템에서 심리음향 모델링 장치가 개시된다. 본 발명에 따른 엠펙 오디오 인코딩 방법은, 시간 도메인 상의 입력 오디오 신호를 MDCT 수행하는 단계와, 상기 MDCT 수행된 MDCT 계수를 입력으로 심리음향모델을 수행하는 단계와, 상기 심리음향모델 수행 결과를 이용하여 양자화를 수행하고, 비트 스트림 팩킹을 하는 단계를 포함한다. 이와 같은 본 발명에 의하면 계산의 복잡도를 감소시키고, 비트의 낭비를 방지할 수 있다.

Description

MPEG 오디오 인코딩 방법 및 MPEG 오디오 인코딩 장치{An MPEG audio encoding method and an MPEG audio encoding device}
본 발명은 디지털 오디오 압축에 관한 것으로, 좀더 구체적으로는 , MPEG 오디오 인코딩 방법 및 MPEG 오디오 인코딩 장치에 관한 것이다.
MPEG 오디오는 고품질, 고능률 스테레오 부호화를 위한 ISO/IEC의 표준방식이다. 즉, ISO/IEC SC 29/WG11에 설치된 MPEG(Moving Picture Experts Group)내에서 동영상부호화와 병행하여 표준화되었다. 압축에는 32밴드에 기초한 서브밴드코딩(대역분할부호화)과 MDCT(Modified Discrete Cosine Transform:변형이산여현변환)를 사용하는데, 청각심리적(Psychoacoustic)특성을 이용해서 고능률의 압축이 실현되고 있다. 이 새로운 기술에 의해 MPEG 오디오는 종래의 압축부호화방식에 비해 뛰어난 음질을 실현하게 되었다.
MPEG 오디오는 오디오 신호를 고능률로 압축하기 위해 신호를 받아들이는 인간의 감각특성을 이용해서 감도가 낮은 세부의 정보를 생략하여 부호량을 절감하는 "지각부호화(Perceptual Coding)" 압축방법을 이용한다.
또한, MPEG 오디오에서 청각심리 특성을 이용한 지각부호화는 주로 고요할 때의 최소가청한계와 마스킹 특성이 이용되고 있다. 고요할 때의 "최소가청한계"란 청각이 감지할 수 있는 음의 최소 레벨로서, 고요할 때 청각이 감지할 수 있는 잡음의 한계와 관계가 있다. 고요할 때의 최소가청한계는 음의 주파수에 따라 다르다. 어떤 주파수에서 고요할 때의 최소가청한계보다 큰 음은 들을 수 있지만, 고요할 때의 최소가청한계보다 작은 음은 들을 수 없다. 또한, 특정음의 감지한계는 함께 들리는 다른 음에 의해 크게 변하는데, 이를 "마스킹 효과"라고 한다. 그리고, 마스킹 효과가 일어나는 주파수 폭을 "크리티컬 밴드(Critical Band:임계대역)"라고 부른다. 이와 같은 크리티컬 밴드 등의 청각심리를 효율적으로 이용하기 위해서는 우선 신호를 주파수 성분으로 나누는 것이 중요한데 이때문에 대역을 32개의 밴드로 세분하여 서브밴드 부호화를 행한다. 또한, 이 때 MPEG 오디오에서는 32밴드의 엘리어싱 잡음을 소거시키기위해 "폴리페이즈 필터 뱅크"라고 불리는 필터를 사용한다.
MPEG 오디오는 이와 같이 필터 뱅크와 심리음향모델을 이용한 비트 할당과 양자화로 구성되어 있다. MDCT의 결과로 생성된 계수를 심리음향모델2를 이용하여, 최적의 양자화 비트를 할당하면서 압축을 하게 된다. 최적의 비트를 할당하기 위한 심리음향모델2는 FFT를 기초로 하고, 스프레딩 함수를 이용하여 마스킹 효과를 계산하기 때문에 상당히 많은 양의 복잡도가 요구된다.
도 1은 종래기술에 따라 MPEG-1 레이어3 에서의 인코딩 과정을 나타낸다.
먼저, 1152 샘플로 이루어진 입력 PCM 신호를 수신하면(110), 이러한 신호들은 필터 뱅크를 통과하여(120) MDCT 단계로 입력된다.
또한 상기 입력 신호들을 입력하여 심리음향모델2을 수행하는데(130), 즉, SNR을 계산하고(140), 프리에코 제어를 수행하고(150), 각 서브밴드당 SMR을 계산한다(160).
이와 같이 계산된 SMR 값을 이용하여 상기 필터 뱅크를 통과한 신호들에 대해 MDCT를 수행한다(170).
다음, MDCT 계수에 대해 양자화를 수행하고(180), 양자화된 결과를 이용하여 엠펙-1 레이어 3 비트 스트림 팩킹을 수행한다(190).
상기 도 1에 도시된 심리음향모델2의 구체적인 과정이 도 2에 도시되어 있다.
먼저, 입력버퍼로부터 576 샘플 신호를 수신하면, SNR을 계산한다.
먼저, 수신된 신호들에 대해 FFT를 수행하고(141), 수행된 FFT 크기 r(w)에 대해서 다음과 같은 수학식에 의해 에너지 eb(b)와 비예측도(unpredictability) Cw를 계산한다(142).
여기서, r(w)는 FFT의 크기이고, f(w)는 FFT 위상이고, rp(w)는 예측된 크기이고, fp(w)는 예측된 위상을 말한다.
그리고, 다음과 같은 수학식에 의해 각 밴드당 에너지 e(b)와 비예측도 c(b)를 계산한다(143).
다음, 스프레딩 함수를 이용하여 다음과 같은 수학식에 의해 각 밴드당 에너지 ec(b)와 비예측도의 임계치 ct(b)를 계산한다(144).
그리고나서, 다음과 같은 수학식에 의해 토널리티 인덱스(tonality index)를 계산한다.
다음, 다음과 같은 수학식에 의해 SNR을 계산한다(145).
여기서, minval은 각 밴드에서 최소한의 SNR값을 말하고, TMN(Tonal Masking Noise)은 토널 마스킹 노이즈, NMT(Noise Masking Tone)는 노이즈 마스킹 톤, SNR(Signal to Noise Ratio)은 시그널 대 노이즈 비를 말한다.
다음, 지각 엔트로피(Perceptual Energy)를 계산한다(146).
그리고, 상기 계산된 지각 엔트로피가 소정의 임계치를 초과하는지를 판단한다(151).
판단결과, 지각 엔트로피가 소정의 임계치를 초과하는 경우에는 쇼트 블록으로 결정하고(153), 초과하지 않는 경우에는 롱 블록으로 결정한다(152).
다음, 롱 블록으로 결정된 경우에는 63개의 각 밴드에 대해서 다음과 같이 ratio_l을 계산한다(161).
ratio_l=ct(b)/eb(b)
그리고, 쇼트 블록으로 결정된 경우에는 43개의 각 밴드에 대해서 3개의 부분으로 나누어 다음과 같이 ratio_s을 계산한다(162).
ratio_s=ct(b)/eb(b)
상기와 같이 종래 기술은 입력 샘플에 대해서 FFT를 수행하고, 주파수 도메인에서 에너지와 비예측도 그리고 각 밴드별로 스프레딩 함수를 적용함으로써 많은 계산량을 요구하고 있다.
심리음향 모델은 인간의 청각적인 특성을 이용하여 오디오 신호를 압축하도록 하는 오디오 압축의 핵심적인 역할을 하는 부분이다. 하지만 구현에 있어서 많은 계산량을 요구하고 있다. 특히, FFT, unpredictability와 스프레딩 함수를 이용한 심리음향모델의 계산은 많은 계산량을 요구하고 있다.
도 3a는 MP3에서 FFT 계산 결과를 도시한 그래프이고, 도 3b는 MP3에서 롱윈도우 MDCT 수행 결과를 도시한 그래프이다.
도 3a 와 도 3b에서 보이는 바와 같이, FFT 도메인과 MDCT 도메인은 서로 다른 경향을 보임에도 불구하고, 종래기술에서는 FFT 도메인에서 계산된 결과를 MDCT에 적용함으로써 비트의 낭비를 가져오고 있음을 알 수 있다.
본 발명은 상기와 같은 문제점을 해결하여 계산의 복잡도를 감소시키고, 비트의 낭비를 방지할 수 있는 엠펙 오디오 인코딩 방법, 엠펙 오디오 인코딩시 윈도우 형태 결정 방법, 엠펙 오디오 인코딩시 심리음향 모델링방법, 엠펙 오디오 인코딩 장치, 엠펙 오디오 인코딩시 윈도우 형태 결정 장치 및 엠펙 오디오 인코딩시스템에서 심리음향 모델링 장치를 제공하는 것을 목적으로 한다.
이상과 같은 과제를 해결하기 위한 본 발명의 하나의 특징은, MPEG 오디오 인코딩 방법에 있어서, a) 시간 도메인 상의 입력 오디오 신호를 MDCT 수행하는 단계와, b) 상기 MDCT 수행된 MDCT 계수를 입력으로 심리음향모델을 수행하는 단계와, c) 상기 심리음향모델 수행 결과를 이용하여 양자화를 수행하고, 비트 스트림 팩킹을 하는 단계를 포함하는 것이다.
본 발명의 다른 특징은, MPEG 오디오 인코딩 방법에 있어서, a) 시간 도메인 상의 입력 오디오 신호를 대상으로 프레임내의 신호들의 에너지 차이 및 프레임간의 신호들의 에너지 차이를 이용하여 프레임의 윈도우 타입을 결정하는 단계와, b) 시간 도메인 상의 입력 오디오 신호를 MDCT 수행한 MDCT 계수에 대하여 상기 결정된 윈도우 타입에 따라 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 고려한 파라미터 기반 심리음향모델을 수행하는 단계와, c) 상기 심리음향모델 수행 결과를 이용하여 양자화를 수행하고, 비트 스트림 팩킹을 하는 단계를 포함하는 것이다.
본 발명의 또다른 특징은, MPEG 오디오 인코딩시 윈도우 형태 결정 방법에 있어서, a) 시간 도메인상의 입력 오디오 신호를 수신하여 절대값으로 변환하는 단계와, b) 상기 절대값으로 변환된 신호들을 소정 개수의 밴드로 나누어 각 밴드마다 그 밴드에 속한 신호들의 합인 밴드합을 계산하는 단계와, c) 상기 밴드들간의 밴드합 차이를 이용하여 제1윈도우 형태결정을 수행하는 단계와, d) 상기 절대값으로 변환된 전체 신호들의 합인 프레임합을 계산하고 이전 프레임합과 현재 프레임합간의 차이를 이용하여 제2윈도우 형태결정을 수행하는 단계와, e) 상기 제1윈도우 형태결정 수행결과 및 상기 제2윈도우 형태결정 수행결과를 통합하여 윈도우 형태를 결정하는 단계를 포함하는 것이다.
본 발명의 또다른 특징은, MPEG 오디오 인코딩시 파라미터 기반 심리음향 모델링방법에 있어서, a) 입력 오디오 신호를 MDCT 수행한 MDCT 계수를 수신하여 절대값으로 변환하는 단계와, b) 상기 변환된 절대값 신호를 이용하여 메인 마스킹을 위한 메인 마스킹 파라미터를 계산하는 단계와, c) 상기 절대값 변환 신호를 이용하여 각 신호들의 밴드별 크기를 계산하고, 상기 절대값 변환 신호 및 상기 메인 마스킹 파라미터를 이용하여 메인 마스킹 크기를 계산하는 단계와, d) 상기 밴드별 크기에 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 적용한 밴드별 크기와, 상기 메인 마스킹 크기에 상기 프리마스킹 파라미터와 상기 포스트마스킹 파라미터를 적용한 메인 마스킹 임계치를 계산하는 단계와, e) 상기 계산된 밴드별 크기와 메인 마스킹 임계치의 비를 계산하는 단계를 포함하는 것이다.
본 발명의 또다른 특징은, MPEG 오디오 인코딩 장치에 있어서, 시간 도메인 상의 입력 오디오 신호를 MDCT 수행하는 MDCT부와, 상기 MDCT부에 의해 수행된 MDCT 계수를 입력으로 심리음향모델을 수행하는 심리음향모델 수행부와, 상기 심리음향모델부의 수행 결과를 이용하여 양자화를 수행하는 양자화부와, 상기 양자화부의 양자화 결과를 비트 스트림 팩킹을 하는 팩킹부를 포함하는 것이다.
본 발명의 또다른 특징은, MPEG 오디오 인코딩 장치에 있어서, 시간 도메인 상의 입력 오디오 신호를 대상으로 프레임내의 신호들의 에너지 차이 및 프레임간의 신호들의 에너지 차이를 이용하여 프레임의 윈도우 타입을 결정하는 윈도우 타입결정부와, 시간 도메인 상의 입력 오디오 신호를 MDCT 수행한 MDCT 계수에 대하여 상기 결정된 윈도우 타입에 따라 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 고려한 파라미터 기반 심리음향모델을 수행하는 심리음향모델 수행부와, 상기 심리음향모델부의 수행 결과를 이용하여 양자화를 수행하는 양자화부와, 상기 양자화부의 양자화 결과를 비트 스트림 팩킹을 하는 팩킹부를 포함하는 것이다.
본 발명의 또다른 특징은, MPEG 오디오 인코딩 시스템에서 윈도우 형태 결정 장치에 있어서, 시간 도메인상의 입력 오디오 신호를 수신하여 절대값으로 변환하는 절대값 변환부와, 상기 절대값으로 변환된 신호들을 소정 개수의 밴드로 나누어 각 밴드마다 밴드에 속한 신호들의 합인 밴드합을 계산하는 밴드합 계산부와, 상기 밴드들간의 밴드합의 차이를 이용하여 제1윈도우 형태결정을 수행하는 제1윈도우형태결정부와, 상기 절대값으로 변환된 전체 신호들의 합인 프레임합을 계산하고 이전 프레임합과 현재 프레임합간의 차이를 이용하여 제2윈도우 형태결정을 수행하는 제2윈도우형태결정부와, 상기 제1윈도우 형태결정 수행결과 및 상기 제2윈도우 형태결정 수행결과를 통합하여 윈도우 형태를 결정하는 곱연산부를 포함하는 것이다.
본 발명의 또다른 특징은, MPEG 오디오 인코딩 시스템에서 심리음향 모델링 장치에 있어서, 입력 오디오 신호를 MDCT 수행한 MDCT 계수를 수신하여 절대값으로 변환하는 절대값 변환부와, 상기 변환된 절대값 신호를 이용하여 메인 마스킹을 위한 메인 마스킹 파라미터를 계산하는 메인 마스킹 계산부와, 상기 변환된 절대값 신호를 이용하여 각 신호들의 밴드별 크기를 계산하고, 상기 절대값 변환 신호 및 상기 메인 마스킹 파라미터를 이용하여 메인 마스킹 크기를 계산하는 e(b),c(b) 계산부와, 상기 밴드별 크기에 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 적용한 밴드별 크기와, 상기 메인 마스킹 크기에 프리마스킹 파라미터와 포스트마스킹 파라미터를 적용한 메인 마스킹 임계치를 계산하는 ec(b),ct(b) 계산부와, 상기 계산된 밴드별 크기와 메인 마스킹 임계치의 비를 계산하는 ratio 계산부를 포함하는 것이다.
MPEG 오디오 인코딩시의 비트 낭비를 감소시키고, 계산량을 낮추기 위해서 본 발명이 착안한 것은, FFT 도메인상에서의 심리음향모델 계산결과를 MDCT에 이용하는 것이 아니라, MDCT 계수를 이용하여 심리음향모델을 적용하여 FFT 도메인과 MDCT 도메인이 맞지 않음으로써 발생하는 비트의 낭비를 감소시키고, 스프레딩 함수를 2개의 파라미터인 포스트 마스킹, 프리 마스킹으로 간략화하여 복잡도를 줄이면서 같은 성능을 가지도록 하자는 것이다.
이제, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 4는 본 발명에 따른 MPEG-1 레이어 3에서의 인코딩 과정(400)의 일 예를 나타낸다.
먼저, 1152 샘플로 이루어진 입력 PCM 신호를 수신한다(410).
엠펙 인코딩에 이용되는 입력 신호의 구성이 도 5에 도시되어 있다. 입력신호는 채널 0과 채널 1의 두개의 채널로 이루어지며, 각 채널은 1152개의 샘플로 이루어진다. 그리고, 실제 인코딩에서 처리 단위는 그래뉼이라고 불리우는 576개의 샘플로 이루어진 단위이다. 이하에서는, 576개의 샘플로 이루어진 입력신호의 단위를 프레임으로 부르기로 한다.
다음, 수신된 원 신호의 프레임 단위 마다 윈도우 타입을 결정한다(420). 원 신호에 대해 FFT를 수행한 결과로 윈도우 타입을 결정하는 종래기술과 달리 본 발명에서는 시간 도메인에서의 원 신호를 대상으로 윈도우 타입을 결정한다. 이와 같이 FFT 수행과정 없이 원 신호를 이용하여 윈도우 타입을 결정하므로, 본 발명에서는 종래기술에 비해 상당한 계산량을 감소시킬 수 있다.
또한, 수신된 원 신호를 대상으로 필터 뱅크를 통과하고(430) 필터 뱅크 통과된 신호에 대해서 MDCT를 수행한다(440).
그리고나서, 이와 같이 MDCT 수행된 MDCT 계수와 상기 윈도우 타입 결정된 결과에 따라 파라미터 기반 심리음향모델 과정을 수행한다(450). 심리음향모델 2를 수행한 결과 데이터에 대해 MDCT를 수행하는 종래기술과 달리, 본 발명에서는 MDCT를 먼저 수행하고, 변환된 MDCT 계수 값에 대해 변형된 심리음향모델을 수행한다. 앞서 설명한 바와 같이, FFT 도메인과 MDCT 도메인은 차이가 있으므로, 본 발명에서와 같이 FFT 도메인을 사용하지 않고, MDCT 도메인에서 심리음향모델을 적용함으로써 비트의 낭비 없이 인코딩을 더욱 완전하게 할 수 있게 된다.
다음, 심리음향모델 수행된 결과를 이용하여 양자화를 수행하고(460), 양자화된 값을 엠펙-1 레이어 3 비트 스트림 팩킹을 한다(470).
도 6은 도 4에 도시된 윈도우 타입 결정 과정의 구체적인 흐름을 도시한다.
먼저, 원 입력신호를 수신하면(S610) 이 각 원 신호를 절대값으로 변환한다(S620).
절대값으로 변환된 원 신호가 도 7a에 도시되어 있다. 도 7a에는 2개의 프레임이 도시되어 있으며, 한 프레임은 576 샘플로 이루어진다.
다음, 시간적으로 나열된 신호들을 밴드로 나누어 밴드에 속한 신호들의 합을 계산한다(S630).
예를 들어, 도 7a에 도시된 것처럼 한 프레임을 9개의 밴드로 나누고, 도 7b에 도시된 바와 같이 각 밴드마다 각 밴드에 들어있는 신호들을 모두 합한다.
다음, 상기 밴드 신호를 이용하여 윈도우 형태 결정 1을 수행한다(S640).
(이전 밴드 > 현재 밴드 * factor) 또는 (현재 밴드 > 이전 밴드 * factor)인지를 판단한다. 이는 프레임 내의 밴드 단위로 윈도우 타입을 결정하는 것으로, 밴드 간에 차이가 크면 쇼트 윈도우 타입으로 결정하고 밴드간에 차이가 크지 않으면 롱 윈도우 타입으로 결정하는 것이다.
판단결과 상기 조건을 만족하지 않는 경우에 윈도우 타입은 롱 윈도우로 결정하고(S680), 판단결과 상기 조건을 만족하는 경우에는 프레임 입력신호의 전체 합을 계산한다(S650). 예를 들어, 도 7c에 도시된 바와 같이 한 프레임 내의 밴드 값들을 모두 더하여 프레임 합 신호를 계산한다.
다음, 상기 프레임 합 신호를 이용하여 윈도우 형태결정 2를 수행한다(S660).
즉, (이전 프레임 합 > 현재 프레임 합 * 0.5) 인지를 판단한다. 이는 프레임 단위로 윈도우 타입을 결정하는 것으로, 상기 밴드 간의 차이가 크더라도 프레임 간의 차이가 크면 이것은 롱 윈도우 타입으로 결정하게 하기 위한 것이다.
판단결과, 상기 조건을 만족하는 경우에는 윈도우 타입을 롱 윈도우로 결정하고, 상기 조건을 만족하지 않는 경우에는 윈도우 타입을 쇼트 윈도우로 결정한다(S670).
상기와 같은 방법에 의해 윈도우 타입을 결정하게 되면, 1차적으로 프레임 내에서의 신호크기의 변화 정도를 고려하고, 2차적으로 프레임간의 신호크기의 변화 정도를 고려하므로, 좀더 정밀하게 윈도우 타입 결정을 수행할 수 있게 된다. 도 8은 도 4에 도시된 MDCT와 파라미터 기반 심리음향 모델 과정의 구체적인 흐름을 도시한다.
먼저, 도 9a에 도시된 바와 같은 MDCT 계수를 입력신호로 수신하여(S810) 절대값으로 변환한다(S820). 절대값으로 변환된 MDCT 계수가 도 9b에 도시되어 있다.
다음, 상기 절대값으로 변환된 MDCT 계수를 이용하여 메인 마스킹 계수를 계산한다(S830). 메인 마스킹 계수란 마스킹 임계치를 계산하기 위해 기준이 되는 값을 말한다.
다음, 절대값으로 변환된 MDCT 계수와 메인 마스킹 계수를 이용하여 각 밴드별 크기 e(b)와 메인 마스킹 c(b)를 계산한다(S840).
밴드의 크기 e(b)는 각 밴드에 속하는 절대값으로 변환된 MDCT 계수의 합으로, 이는 원 신호의 크기를 나타내는 값으로 이해될 수 있다. 예를 들어, 도 9b에 도시된 바와 같이, 밴드 1에 대한 e(b)는 bandlow(1)부터 bandhigh(1)까지 단순 합한 값이다. 메인 마스킹 c(b)는 각 밴드에 속하는 절대값으로 변환된 각 MDCT 계수에 상기 각 메인 마스킹 계수를 가중하여(즉, 곱하여) 생성된 값들의 합으로 메인 마스킹의 크기를 나타내는 것으로 이해될 수 있다.
예를 들어, 도 9c에서, 밴드 1에 대한 밴드의 크기 e(b)는 901로 표시된 부분이고, 메인 마스킹 c(b)는 902로 표시된 부분이다.
다음, 상기 계산된 밴드의 크기 e(b)와 메인 마스킹 c(b)에 프리마스킹과 포스트 마스킹을 적용한 밴드별 크기 ec(b)와 메인 마스킹 ct(b)를 계산한다(S850).
스프레딩 함수를 이용하는 종래기술과 달리, 본 발명에서는 프리마스킹 파라미터 및 포스트 마스킹 파라미터를 이용하여 계산한다. 프리마스킹 파라미터는 전방마스킹을 위한 대푯값이고, 포스트마스킹 파라미터는 후방마스킹을 위한 대푯값이다. 예를 들어, 도 9c에서 밴드의 크기 e(b)의 포스트마스킹은 903으로 도시되고 프리마스킹은 904로 도시되며, 메인 마스킹 c(b)의 포스트마스킹은 905로 도시되고 프리마스킹은 906으로 도시된다.
프리마스킹이나 포스트마스킹은 하나의 값으로 표현된 신호의 양 옆부분까지 고려한다는 개념으로, ec(b)는 포스트 마스킹(903) + e(b)(901) + 프리마스킹(904) 으로 표현되는 값이고, ct(b)는 포스트 마스킹(905) + c(b)(902) + 프리마스킹(906) 으로 표현되는 값이다.
다음, 상기 계산된 ec(b)와 ct(b)를 계산하여 ratio_l 를 계산한다(S860). ratio_l는 상기 ec(b)와 ct(b)의 비율이다.
상기 도 4에 도시된 과정은 방법적인 측면에서 흐름도로 도시되었지만, 도 4에 도시된 각 단계는 그대로 그 단계를 수행하는 장치로 구현될 수 있는 것이므로, 도 4에 도시된 인코딩 과정은 또한 인코딩 장치로서 구현될 수 있다. 따라서, 인코딩 장치의 구성은 별도로 도시하지 않으며, 도 4에 도시된 각 단계를 인코딩 장치의 각 구성요소로 간주할 수 있다.
도 10은 도 6에 도시된 윈도우 타입 결정과정을 수행하는 윈도우 타입 결정부의 구체적인 구성을 도시한다.
상기 윈도우 타입 결정부(1000)는 수신된 원 신호를 전처리하는 신호전처리부(1010)와, 상기 신호전처리부(1010)로부터 출력된 결과를 이용하여 윈도우 형태 결정 1을 수행하는 제1윈도우형태 결정부(1020)와, 상기 신호전처리부(1010)로부터 출력된 결과를 이용하여 윈도우 형태 결정 2를 수행하는 제2윈도우형태 결정부(1030)와, 상기 제1윈도우형태결정부(1020)의 결과와 상기 제2윈도우형태결정부(1030)의 결과를 곱하여 출력하는 곱연산부(1040)를 포함한다.
상기 신호전처리부(1010)의 구체적인 구성이 도 11에 도시되어 있다.
상기 신호전처리부(1010)는 절대값 변환부(1011)와, 밴드합 계산부(1012)와, 프레임합 계산부(1013)를 포함한다.
절대값변환부(1011)는 576개의 샘플로 이루어진 한 프레임의 원 신호 S(w)를 수신하여 절대값으로 변환시키고, 변환된 절대값 신호인 abs(S(w))를 밴드합 계산부(1012)와 프레임합 계산부(1013)로 출력한다.
절대값 신호를 수신한 밴드합 계산부(1012)는 576개의 샘플로 이루어진 신호를 9개의 밴드로 나누고, 각 밴드마다 각 밴드에 속하는 절대값 신호의 합 밴드(0), 밴드(1), ..밴드(8)를 계산하여 제1윈도우형태결정부(1020)로 출력한다.
절대값 신호를 수신한 프레임합 계산부(1013)는 576개의 샘플로 이루어진 신호를 모두 단순 합하여 프레임 합을 계산하고 이를 제2윈도우형태결정부(1030)로 출력한다.
제1윈도우형태결정부(1020)는 이와 같이 수신된 밴드합 신호를 이용하여 윈도우형태결정1을 수행하여 결정된 윈도우 타입 신호를 곱연산부(1040)로 출력한다.
윈도우형태결정 1이라는 것은, 프레임 내의 신호들 간에 어느 정도의 에너지 차이가 있는지를 보는 것으로, 각 밴드사이의 신호 차이가 큰 것이 있으면 쇼트 윈도우 타입으로 결정하고, 각 밴드사이의 신호 차이가 큰 것이 없으면 롱 윈도우 타입으로 1차적으로 결정하는 것이다.
즉, 아래와 같은 판단에 의해 윈도우 타입이 결정되는데, 한 프레임내에는 9개의 밴드가 존재하므로, 각 밴드마다 판단이 이루어질 것이고, 그중 어느 하나라도 아래 수학식을 만족하는 밴드가 있으면 그 밴드가 속하는 프레임 즉 현재 프레임은 쇼트 윈도우 타입이라고 결정한다.
if (before_band > current_band*factor) window_type = short or if (current_band > before_band*factor) window_type = short
제2윈도우형태결정부(1030)는 수신된 프레임 합 신호를 이용하여 윈도우형태결정2를 수행하여, 결정된 윈도우 타입 신호를 곱연산부(1040)로 출력한다.
윈도우형태결정 2라는 것은, 프레임 간의 신호들에서 어느 정도의 에너지 차이가 있는지를 보는 것으로, 이전 프레임 신호의 합과 현재 프레임 신호의 합 사이에 에너지 차이가 소정 값을 넘으면 롱 윈도우 타입으로 결정하고, 소정 값을 넘지 못하면 쇼트윈도우 타입으로 결정하는 것이다. 이것은 윈도우 타입을 2차적으로 결정하는 것이다.
즉, 아래와 같은 판단에 의해 윈도우 타입이 결정된다.
if (before_tot_abs > current_tot_abs * factor(0.5)) window_type = long
그리고, 곱연산부(1040)는 제1윈도우형태결정부(1020)로부터의 출력신호 및 제2윈도우형태결정부(1030)로부터의 출력신호를 수신하여 모두 1인 경우에만 1로 출력하는 AND 연산기로 구현된다. 즉, 제1윈도우형태결정부(1020)로부터 출력된 윈도우 타입 및 제2윈도우 타입결정부(1030)로부터 출력된 윈도우 타입 모두가 쇼트 윈도우 타입인 경우에만, 최종 윈도우 타입을 쇼트 윈도우 타입으로 출력하고, 나머지 경우에는 모두 롱 윈도우 타입으로 결정하는 것으로 구현될 수 있다.
상기와 같이 구현함으로써, 프레임 내의 신호들의 에너지 차이는 변화가 많더라도 프레임 간의 신호들의 에너지 차이가 별로 없는 경우에는 전체적으로 에너지 차이가 많지 않은 것으로 생각할 수 있으므로, 프레임 내에서의 신호의 에너지 차이를 1차적으로 고려하고, 프레임간의 신호의 에너지 차이를 2차적으로 고려함으로써 윈도우 타입 결정을 좀더 세밀하게 할 수 있게 된다.
도 12는 도 4에 도시된 MDCT와 파라미터 기반 심리음향 모델과정을 수행하는 심리음향 모델 수행부(1200)의 구체적인 구성을 도시한다. 먼저, 롱윈도우 타입으로 결정된 경우를 설명한다.
상기 심리음향모델 수행부(1200)는 MDCT 계수를 수신하여 전처리하고 전처리된 신호결과를 e(b)및c(b) 계산부(1220)로 출력하는 신호전처리부(1210)와, 각 밴드의 에너지 크기 e(b)와 메인 마스킹 c(b)를 계산하는 e(b)및c(b) 계산부(1220)와, 프리마스킹과 포스트마스킹 파라미터를 저장하고 있는 프리마스킹/포스트마스킹 테이블(1230)과, 상기 e(b)및c(b) 계산부에 의해 계산된 각 밴드의 크기와 메인 마스킹에 상기 프리마스킹/포스트마스킹 테이블(1230)에 저장된 프리마스킹과 포스트마스킹 파라미터를 고려한 밴드의 크기 ec(b)와 메인 마스킹 ct(b)를 계산하는 ec(b)및ct(b) 계산부(1240)와, 상기 계산된 ec(b), ct(b) 값을 이용하여 비를 계산하는 ratio 계산부(1250)를 포함한다.
상기 신호전처리부(1210)의 구체적인 구성이 도 13에 도시되어 있다.
상기 신호전처리부(1210)는 절대값 변환부(1211)와, 메인 마스킹 계산부(1212)를 포함한다.
상기 절대값 변환부(1211)는 MDCT 계수 r(w)를 수신하여 다음과 같은 수학식에 의해 절대값으로 변환한다.
그리고, 절대값으로 변환된 신호값을 e(b)및c(b) 계산부(1220) 및 메인 마스킹 계산부(1212)로 출력한다.
메인 마스킹 계산부(1212)는 절대값 변환부(1211)로부터 출력된 절대값으로 변환된 MDCT 계수를 수신하여 0부터 206 샘플에 대해서는 다음과 같은 수학식에 따라 메인 마스킹을 계산한다.
그리고, 207부터 512 샘플에 대해서는 예를 들어, 메인 마스킹 값을 0.4로 설정하고, 나머지 513 샘플부터 575 샘플까지는 메인 마스킹을 계산하지 않는데, 이는 프레임에서 의미있는 신호들이 앞부분에 집중해 있고 뒤부분으로 갈수록 유효한 신호들이 줄어든다는 특성에 의해 이와 같이 메인 마스킹 값을 사용하여도 성능에는 별 영향을 미치기 않기 때문이다..
메인 마스킹 계산부(1212)는 이와 같이 계산된 메인 마스킹 값을 e(b)및c(b) 계산부(1220)로 출력한다.
e(b)및c(b) 계산부(1220)는 상기 신호전처리부(1210)에 의해 출력된 절대값으로 변환된 MDCT 계수 r(w)와 메인 마스킹 MCw를 수신하여 다음과 같은 수학식에 의해 각 밴드의 에너지 크기 e(b)와 메인 마스킹 c(b)를 계산하여 계산된 값을 ec(b)및ct(b) 계산부(1240)로 출력한다.
밴드의 에너지 크기 e(b)는 각 밴드에 들어있는 절대값으로 변환된 MDCT 계수의 단순 합이고, 메인 마스킹 c(b)는 각 밴드에 들어있는 절대값으로 변환된 MDCT 계수에 상기 수신된 메인 마스킹 MCw를 곱한 값들의 합이라는 것을 알 수 있다. 여기서, 각 밴드의 크기는 가변적인데, 상기 bandlow와 bandhigh를 정하는 밴드 구간은 표준문서에 공개된 테이블 값을 이용한다. 실제로는, 신호구간의 앞부분에 유효한 정보를 담고 있기 때문에, 신호구간의 앞부분에 있는 밴드의 길이는 짧게 하여 신호값을 정밀하게 분석하고, 뒷부분에 있는 밴드의 길이는 길게 하여 계산량을 감소시킨다.
ec(b)및ct(b) 계산부(1240)는 상기 e(b)및c(b) 계산부(1220)로부터 출력된 각 밴드의 크기와 메인 마스킹에 상기 프리마스킹/포스트마스킹 테이블(1230)에 저장된 프리마스킹과 포스트마스킹 파라미터를 고려한 밴드의 크기 ec(b)와 메인 마스킹 ct(b)를 다음과 같은 수학식에 의해 계산하고, 계산된 값을 ratio 계산부(1250)로 출력한다.
파라미터를 고려한 밴드의 크기 ec(b)는 이전 밴드의 크기에 포스트 마스킹 값을 곱한 결과와, 자기 자신 밴드의 크기와, 이후 밴드의 크기에 프리 마스킹 값을 곱한 결과를 모두 더한 값이다.
그리고, 파라미터를 고려한 메인 마스킹 ct(b)는 이전 메인 마스킹에 포스트 마스킹 값을 곱한 결과와, 자기 자신 메인 마스킹의 크기와, 이후 메인 마스킹에 프리 마스킹 값을 곱한 결과를 모두 더한 값이다.
여기서, 포스트 마스킹 값과 프리 마스킹 값은 도 12에 도시된 프리마스킹/포스트마스킹 테이블(1230)로부터 전송된 값으로, 상기 프리마스킹/포스트마스킹 테이블이 도 14a와 도 14b에 도시되어 있다.
롱 윈도우 타입에 적용되는 테이블은 도 14b에 도시되어 있으며, 예를 들어, 밴드 1에 대한 포스트 마스킹 값은 0.376761이고, 프리 마스킹 값은 0.051339 임을 알 수 있다.
ratio 계산부(1250)는 ec(b)및ct(b) 계산부(1240)로부터 출력된 ec(b)와 ct(b)를 수신하여, 다음과 같은 수학식에 의해 ratio를 계산한다.
쇼트 윈도우 타입은 롱 윈도우 타입과 모두 동일하고 다만 각 밴드내에서 서브 밴드로 나누어 각 서브 밴드 단위로 모든 계산이 이루어진다는 점만이 다르다.
이하에서는 쇼트 윈도우 타입일 경우에 롱 윈도우 타입과 차이가 있는 부분을 중심으로 설명한다.
상기 절대값 변환부(1211)는 MDCT 계수 r(w)를 수신하여 다음과 같은 수학식에 의해 절대값으로 변환한다.
여기서, i는 0부터 129까지이고, sub_band는 0에서 2까지이다.
그리고, 절대값으로 변환된 신호값을 e(b)및c(b) 계산부(1220) 및 메인 마스킹 계산부(1212)로 출력한다.
메인 마스킹 계산부(1212)는 절대값 변환부(1211)로부터 출력된 절대값으로 변환된 MDCT 계수를 수신하여 0부터 55 샘플에 대해서는 다음과 같은 수학식에 따라 메인 마스킹 파라미터를 계산한다.
그리고, 56부터 128 샘플에 대해서는 예를 들어, 메인 마스킹 값을 0.4로 설정하고, 나머지 129 샘플부터 575 샘플까지는 메인 마스킹을 계산하지 않는데, 이는 프레임에서 의미있는 신호들이 앞부분에 집중해 있고 뒤부분으로 갈수록 유효한 신호들이 줄어든다는 특성에 의해 이와 같이 메인 마스킹 값을 사용하여도 성능에는 별 영향을 미치기 않기 때문이다.
메인 마스킹 계산부(1212)는 이와 같이 계산된 메인 마스킹 값을 e(b)및c(b) 계산부(1220)로 출력한다.
e(b)및c(b) 계산부(1220)는 상기 신호전처리부(1210)에 의해 출력된 절대값으로 변환된 MDCT 계수 r(w)와 메인 마스킹 MCw를 수신하여 다음과 같은 수학식에 의해 각 밴드의 에너지 크기 e(b)와 메인 마스킹 c(b)를 계산하여 계산된 값을 ec(b)및ct(b) 계산부(1240)로 출력한다.
밴드의 에너지 크기 e(b)는 각 밴드에 들어있는 절대값으로 변환된 MDCT 계수의 단순 합이고, 메인 마스킹 c(b)는 각 밴드에 들어있는 절대값으로 변환된 MDCT 계수에 상기 수신된 메인 마스킹 MCw를 곱한 값들의 합이라는 것을 알 수 있다. 여기서, 각 밴드의 크기는 가변적인데, 상기 bandlow와 bandhigh를 정하는 밴드 구간은 표준문서에 공개된 테이블 값을 이용한다. 실제로는, 신호구간의 앞부분에 유효한 정보를 담고 있기 때문에, 신호구간의 앞부분에 있는 밴드의 길이는 짧게 하여 신호값을 정밀하게 분석하고, 뒷부분에 있는 밴드의 길이는 길게 하여 계산량을 감소시킨다.
ec(b)및ct(b) 계산부(1240)는 상기 e(b)및c(b) 계산부(1220)로부터 출력된 각 밴드의 크기와 메인 마스킹에 상기 프리마스킹/포스트마스킹 테이블(1230)에 저장된 프리마스킹과 포스트마스킹 파라미터를 고려한 밴드의 크기 ec(b)와 메인 마스킹 ct(b)를 다음과 같은 수학식에 의해 계산하고, 계산된 값을 ratio 계산부(1250)로 출력한다.
파라미터를 고려한 밴드의 크기 ec(b)는 이전 밴드의 크기에 포스트 마스킹 값을 곱한 결과와, 자기 자신 밴드의 크기와, 이후 밴드의 크기에 프리 마스킹 값을 곱한 결과를 모두 더한 값이다.
그리고, 파라미터를 고려한 메인 마스킹 ct(b)는 이전 메인 마스킹에 포스트 마스킹 값을 곱한 결과와, 자기 자신 메인 마스킹의 크기와, 이후 메인 마스킹에 프리 마스킹 값을 곱한 결과를 모두 더한 값이다.
여기서, 포스트 마스킹 값과 프리 마스킹 값은 도 8에 도시된 프리마스킹/포스트마스킹 테이블로부터 전송된 값으로, 상기 프리마스킹/포스트마스킹 테이블이 도 14a와 도 14b에 도시되어 있다.
쇼트 윈도우 타입에 적용되는 테이블은 도 14a에 도시되어 있으며, 예를 들어, 밴드 1에 대한 포스트 마스킹 값은 0.376761이고, 프리 마스킹 값은 0.051339임을 알 수 있다.
ratio 계산부(1250)는 ec(b)및ct(b) 계산부(1240)로부터 출력된 ec(b)와 ct(b)를 수신하여, 다음과 같은 수학식에 의해 ratio를 계산한다.
이상과 같은 본 발명에 의하면 종래의 심리음향모델을 같은 성능을 내면서 복잡도를 줄이는 형태로 변형을 하였다. 즉, 종래의 심리음향모델에서는 FFT 베이스를 기초로 한 계산을 MDCT 베이스로 바꿈으로써 불필요한 계산을 막았고, 스프레딩 함수와 같은 계산을 2개의 파라미터인 포스트 마스킹과 프리 마스킹으로 바꿈으로서 계산량의 감소를 얻을 수 있었다. 즉, 테스트 파일을 PCM 파일(13초)로 하고, 사용된 MP3 인코더는 bladencoder 0.92 version 으로 실험한 결과, 종래의 MP3에서 사용되는 FFT 베이스를 기초로 한 MP3 알고리즘은 20초가 걸렸고, 본 발명에 따른 알고리즘은 12초가 걸림으로써 종래기술과 비교하여 발명에 따른 방법은 40%의 계산량의 감소를 가져왔다.
또한, 성능에 있어서도 같은 기능을 발휘하게 함으로써 성능의 차이를 거의 없었다.
도 1은 종래기술에 따라 MPEG-1 레이어3 에서의 인코딩 과정을 나타내는 흐름도,
도 2는 도 1에 도시된 심리음향모델2의 구체적인 과정을 나타내는 흐름도,
도 3a는 MP3에서 FFT 계산 결과를 도시한 그래프,
도 3b는 MP3에서 롱윈도우 MDCT 수행 결과를 도시한 그래프,
도 4는 본 발명에 따른 MPEG-1 레이어 3에서의 인코딩 과정의 일 예를 나타내는 흐름도,
도 5는 본 발명에 따른 인코딩 과정에 입력되는 신호의 구성을 도시하는 도면,
도 6은 도 4에 도시된 윈도우 타입 결정 과정의 구체적인 흐름도,
도 7a는 윈도우 타입 결정에 사용되는 원신호의 구성을 도시하는 도면,
도 7b는 도 7a에 도시된 원신호에서 각 밴드별로 합한 값을 보여주는 도면,
도 7c는 도 7b에 도시된 각 밴드값을 프레임별로 합한 값을 보여주는 도면,
도 8은 도 4에 도시된 MDCT와 파라미터 기반 심리음향 모델 과정의 구체적인 흐름도,
도 9a는 심리음향모델 수행 과정에 사용되는 MDCT 계수 값의 구성을 도시하는 도면,
도 9b는 도 9a에 도시된 값들을 절대값으로 변환한 결과를 보여주는 도면,
도 9c는 각 밴드별 적용되는 프리마스킹과 포스트마스킹을 설명하기 위한 도면,
도 10은 도 6에 도시된 윈도우 타입 결정과정을 수행하는 윈도우 타입 결정부의 구체적인 구성을 도시하는 블럭도,
도 11은 도 10에 도시된 신호전처리부의 구체적인 구성을 도시하는 도면,
도 12는 도 8에 도시된 MDCT와 파라미터 기반 심리음향 모델과정을 수행하는 심리음향 모델 수행부의 구체적인 구성을 도시하는 도면,
도 13은 도 12에 도시된 신호전처리부의 구체적인 구성을 도시하는 도면,
도 14a는 도 12에 도시된 프리마스킹/포스트마스킹 테이블에서 쇼트 윈도우 마스킹 테이블을 도시한 도면,
도 14b는 도 12에 도시된 프리마스킹/포스트마스킹 테이블에서 롱 윈도우 마스킹 테이블을 도시한 도면.

Claims (28)

  1. MPEG 오디오 인코딩 방법에 있어서,
    a) 시간 도메인 상의 입력 오디오 신호를 MDCT 수행하는 단계와,
    b) 상기 MDCT 수행된 MDCT 계수를 입력으로 심리음향모델을 수행하는 단계와,
    c) 상기 심리음향모델 수행 결과를 이용하여 양자화를 수행하고, 비트 스트림 팩킹을 하는 단계를 포함하는 것을 특징으로 하는 MPEG 오디오 인코딩 방법.
  2. 제1항에 있어서,
    상기 b) 단계는, 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 기반으로 수행되는 것을 특징으로 하는 MPEG 오디오 인코딩 방법.
  3. MPEG 오디오 인코딩 방법에 있어서,
    a) 시간 도메인 상의 입력 오디오 신호를 대상으로 프레임내의 신호들의 에너지 차이 및 프레임간의 신호들의 에너지 차이를 이용하여 프레임의 윈도우 타입을 결정하는 단계와,
    b) 시간 도메인 상의 입력 오디오 신호를 MDCT 수행한 MDCT 계수에 대하여 상기 결정된 윈도우 타입에 따라 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 고려한 파라미터 기반 심리음향모델을 수행하는 단계와,
    c) 상기 심리음향모델 수행 결과를 이용하여 양자화를 수행하고, 비트 스트림 팩킹을 하는 단계를 포함하는 것을 특징으로 하는 MPEG 오디오 인코딩 방법.
  4. 제3항에 있어서,
    상기 a) 단계는,
    상기 프레임내의 신호들의 에너지 차이가 소정 임계값을 넘고, 상기 프레임간의 신호들의 에너지 차이가 소정 임계값을 넘는 경우에만 상기 프레임을 쇼트 윈도우 타입으로 결정하고, 그 외의 경우에는 롱 윈도우 타입으로 결정하는 것을 특징으로 하는 MPEG 오디오 인코딩 방법.
  5. 제4항에 있어서,
    상기 b) 단계는,
    상기 결정된 윈도우 타입이 롱 윈도우 타입인 경우에는 신호들의 밴드 단위로 상기 프리마스킹 파라미터와 상기 포스트마스킹 파라미터를 고려한 파라미터 기반 심리음향모델을 수행하고, 상기 결정된 윈도우 타입이 쇼트 윈도우 타입인 경우에는 밴드내의 서브밴드 단위로 상기 프리마스킹 파라미터와 상기 포스트마스킹 파라미터를 고려한 파라미터 기반 심리음향 모델을 수행하는 것을 특징으로 하는 MPEG 오디오 인코딩 방법.
  6. 제4항에 있어서,
    상기 b) 단계는,
    b1) 프리마스킹 파라미터와 포스트마스킹 파라미터를 고려한 밴드의 크기와 마스킹 임계치는 다음과 같은 식,
    밴드의 크기=이전 밴드의 크기*포스트마스킹 파라미터 + 현재 밴드의 크기 + 다음 밴드의 크기*프리마스킹 파라미터,
    마스킹 임계치 = 이전 밴드의 메인 마스킹의 크기*포스트마스킹 파라미터 + 현재 밴드의 메인 마스킹의 크기 + 다음 밴드의 메인 마스킹의 크기* 프리마스킹 파라미터,
    에 의해 각각 구하는 단계와,
    b2) 상기 구해진 밴드의 크기와 마스킹 임계치의 비를 계산하는 단계를 포함하는 것을 특징으로 하는 MPEG 오디오 인코딩 방법.
  7. MPEG 오디오 인코딩시 윈도우 형태 결정 방법에 있어서,
    a) 시간 도메인상의 입력 오디오 신호를 수신하여 절대값으로 변환하는 단계와,
    b) 상기 절대값으로 변환된 신호들을 소정 개수의 밴드로 나누어 각 밴드마다 그 밴드에 속한 신호들의 합인 밴드합을 계산하는 단계와,
    c) 상기 밴드들간의 밴드합 차이를 이용하여 제1윈도우 형태결정을 수행하는 단계와,
    d) 상기 절대값으로 변환된 전체 신호들의 합인 프레임합을 계산하고 이전 프레임합과 현재 프레임합간의 차이를 이용하여 제2윈도우 형태결정을 수행하는 단계와,
    e) 상기 제1윈도우 형태결정 수행결과 및 상기 제2윈도우 형태결정 수행결과를 통합하여 윈도우 형태를 결정하는 단계를 포함하는 것을 특징으로 하는 윈도우 형태 결정 방법.
  8. 제7항에 있어서,
    상기 c) 단계는,
    프레임내에 있어서 현재 밴드합이 이전 밴드합의 소정 배수보다 크거나 이전 밴드합이 현재 밴드합의 소정 배수보다 큰 경우에 쇼트 윈도우 타입으로 결정하는 단계와,
    그렇지 않은 경우에 롱 윈도우 타입으로 결정하는 단계를 포함하는 것을 특징으로 하는 윈도우 형태 결정 방법.
  9. 제7항에 있어서,
    상기 d) 단계는,
    프레임간에 있어서 이전 프레임합이 현재 프레임합의 소정 배수 보다 큰 경우에 롱 윈도우 타입으로 결정하는 단계와,
    그렇지 않은 경우에 쇼트 윈도우 타입으로 결정하는 단계를 포함하는 것을 특징으로 하는 윈도우 형태 결정 방법.
  10. 제7항에 있어서,
    상기 e) 단계는,
    상기 c) 단계와 상기 d) 단계의 결정이 모두 쇼트 윈도우 타입으로 결정된 경우에만 최종적으로 쇼트 윈도우 타입으로 결정하고, 그외의 경우에는 롱 윈도우 타입으로 결정하는 것을 특징으로 하는 윈도우 형태 결정 방법.
  11. 엠펙 오디오 인코딩시 파라미터 기반 심리음향 모델링방법에 있어서,
    a) 입력 오디오 신호를 MDCT 수행한 MDCT 계수를 수신하여 절대값으로 변환하는 단계와,
    b) 상기 변환된 절대값 신호를 이용하여 메인 마스킹을 위한 메인 마스킹 파라미터를 계산하는 단계와,
    c) 상기 절대값 변환 신호를 이용하여 각 신호들의 밴드별 크기를 계산하고, 상기 절대값 변환 신호 및 상기 메인 마스킹 파라미터를 이용하여 메인 마스킹 크기를 계산하는 단계와,
    d) 상기 밴드별 크기에 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 적용한 밴드별 크기와, 상기 메인 마스킹 크기에 상기 프리마스킹 파라미터와 상기 포스트마스킹 파라미터를 적용한 메인 마스킹 임계치를 계산하는 단계와,
    e) 상기 계산된 밴드별 크기와 메인 마스킹 임계치의 비를 계산하는 단계를 포함하는 것을 특징으로 하는 파라미터 기반 심리음향 모델링 방법.
  12. 제11항에 있어서,
    상기 b) 단계에서,
    상기 메인 마스킹 파라미터는 다음과 같은 수학식,
    에 의해 계산되는 것을 특징으로 하는 파라미터 기반 심리음향 모델링 방법.
  13. 제12항에 있어서,
    상기 c) 단계에서,
    상기 밴드별 크기 e(b) 및 상기 메인 마스킹의 크기 c(b)는 다음과 같은 수학식,
    에 의해 각각 계산되는 것을 특징으로 하는 파라미터 기반 심리음향 모델링 방법.
  14. 제13항에 있어서,
    상기 d) 단계에서,
    상기 밴드별 크기 ec(b) 및 상기 메인 마스킹 임계치 ct(b)는 다음과 같은 식,
    ,
    에 의해 각각 계산되는 것을 특징으로 하는 파라미터 기반 심리음향 모델링 방법.
  15. MPEG 오디오 인코딩 장치에 있어서,
    시간 도메인 상의 입력 오디오 신호를 MDCT 수행하는 MDCT부와,
    상기 MDCT부에 의해 수행된 MDCT 계수를 입력으로 심리음향모델을 수행하는 심리음향모델 수행부와,
    상기 심리음향모델부의 수행 결과를 이용하여 양자화를 수행하는 양자화부와,
    상기 양자화부의 양자화 결과를 비트 스트림 팩킹을 하는 팩킹부를 포함하는 것을 특징으로 하는 MPEG 오디오 인코딩 장치.
  16. 제15항에 있어서,
    상기 심리음향모델 수행부는, 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 기반으로 수행하는 것을 특징으로 하는 MPEG 오디오 인코딩 장치.
  17. MPEG 오디오 인코딩 장치에 있어서,
    시간 도메인 상의 입력 오디오 신호를 대상으로 프레임내의 신호들의 에너지 차이 및 프레임간의 신호들의 에너지 차이를 이용하여 프레임의 윈도우 타입을 결정하는 윈도우 타입결정부와,
    시간 도메인 상의 입력 오디오 신호를 MDCT 수행한 MDCT 계수에 대하여 상기 결정된 윈도우 타입에 따라 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 고려한 파라미터 기반 심리음향모델을 수행하는 심리음향모델 수행부와,
    상기 심리음향모델부의 수행 결과를 이용하여 양자화를 수행하는 양자화부와,
    상기 양자화부의 양자화 결과를 비트 스트림 팩킹을 하는 팩킹부를 포함하는 것을 특징으로 하는 MPEG 오디오 인코딩 장치.
  18. 제17항에 있어서,
    상기 윈도우 타입결정부는,
    상기 프레임내의 신호들의 에너지 차이가 소정 임계값을 넘고, 상기 프레임간의 신호들의 에너지 차이가 소정 임계값을 넘는 경우에만 상기 프레임을 쇼트 윈도우 타입으로 결정하고, 그외의 경우에는 롱 윈도우 타입으로 결정하는 것을 특징으로 하는 MPEG 오디오 인코딩 장치.
  19. 제18항에 있어서,
    상기 심리음향모델수행부는,
    상기 결정된 윈도우 타입이 롱 윈도우 타입인 경우에는 신호들의 밴드 단위로 상기 프리마스킹 파라미터와 상기 포스트마스킹 파라미터를 고려한 파라미터 기반 심리음향모델을 수행하고, 상기 결정된 윈도우 타입이 쇼트 윈도우 타입인 경우에는 밴드내의 서브밴드 단위로 상기 프리마스킹 파라미터와 상기 포스트마스킹 파라미터를 고려한 파라미터 기반 심리음향 모델을 수행하는 것을 특징으로 하는 MPEG 오디오 인코딩 장치.
  20. 제18항에 있어서,
    상기 심리음향모델수행부는,
    프리마스킹 파라미터와 포스트마스킹 파라미터를 고려한 밴드의 크기와 마스킹 임계치는 다음과 같은 식,
    밴드의 크기=이전 밴드의 크기*포스트마스킹 파라미터 + 현재 밴드의 크기 + 다음 밴드의 크기*프리마스킹 파라미터,
    마스킹 임계치 = 이전 밴드의 메인 마스킹의 크기*포스트마스킹 파라미터 + 현재 밴드의 메인 마스킹의 크기 + 다음 밴드의 메인 마스킹의 크기* 프리마스킹 파라미터,
    에 의해 각각 구하고, 상기 구해진 밴드의 크기와 마스킹 임계치의 비를 계산하는 것을 특징으로 하는 MPEG 오디오 인코딩 장치.
  21. 엠펙 오디오 인코딩 시스템에서 윈도우 형태 결정 장치에 있어서,
    시간 도메인상의 입력 오디오 신호를 수신하여 절대값으로 변환하는 절대값 변환부와,
    상기 절대값으로 변환된 신호들을 소정 개수의 밴드로 나누어 각 밴드마다 밴드에 속한 신호들의 합인 밴드합을 계산하는 밴드합 계산부와,
    상기 밴드들간의 밴드합의 차이를 이용하여 제1윈도우 형태결정을 수행하는 제1윈도우형태결정부와,
    상기 절대값으로 변환된 전체 신호들의 합인 프레임합을 계산하고 이전 프레임합과 현재 프레임합간의 차이를 이용하여 제2윈도우 형태결정을 수행하는 제2윈도우형태결정부와,
    상기 제1윈도우 형태결정 수행결과 및 상기 제2윈도우 형태결정 수행결과를 통합하여 윈도우 형태를 결정하는 곱연산부를 포함하는 것을 특징으로 하는 윈도우 형태 결정 장치.
  22. 제21항에 있어서,
    상기 제1윈도우형태결정부는,
    이전 밴드합이 현재 밴드합의 소정 배수 보다 크거나 현재 밴드합이 이전 밴드합의 소정 배수 보다 큰 경우에 쇼트 윈도우 타입으로 결정하고, 그렇지 않은 경우에 롱 윈도우 타입으로 결정하는 것을 특징으로 하는 윈도우 형태 결정 장치.
  23. 제22항에 있어서,
    상기 제2윈도우형태결정부는,
    이전 프레임합이 현재 프레임합의 소정 배수 보다 큰 경우에 롱 윈도우 타입으로 결정하고, 그렇지 않은 경우에 쇼트 윈도우 타입으로 결정하는 것을 특징으로 하는 윈도우 형태 결정 장치.
  24. 제23항에 있어서,
    상기 곱연산부는,
    상기 제1윈도우형태결정부와 상기 제2윈도우형태결정부의 결정이 모두 쇼트 윈도우 타입으로 결정된 경우에만 최종적으로 쇼트 윈도우 타입으로 결정하고, 그외의 경우에는 롱 윈도우타입으로 결정하는 것을 특징으로 하는 윈도우 형태 결정 장치.
  25. 엠펙 오디오 인코딩 시스템에서 심리음향 모델링 장치에 있어서,
    입력 오디오 신호를 MDCT 수행한 MDCT 계수를 수신하여 절대값으로 변환하는 절대값 변환부와,
    상기 변환된 절대값 신호를 이용하여 메인 마스킹을 위한 메인 마스킹 파라미터를 계산하는 메인 마스킹 계산부와,
    상기 변환된 절대값 신호를 이용하여 각 신호들의 밴드별 크기를 계산하고, 상기 절대값 변환 신호 및 상기 메인 마스킹 파라미터를 이용하여 메인 마스킹 크기를 계산하는 e(b)및c(b) 계산부와,
    상기 밴드별 크기에 전방마스킹을 위한 대푯값인 프리마스킹 파라미터와 후방마스킹을 위한 대푯값인 포스트마스킹 파라미터를 적용한 밴드별 크기와, 상기 메인 마스킹 크기에 프리마스킹 파라미터와 포스트마스킹 파라미터를 적용한 메인 마스킹 임계치를 계산하는 ec(b)및ct(b) 계산부와,
    상기 계산된 밴드별 크기와 메인 마스킹 임계치의 비를 계산하는 ratio 계산부를 포함하는 것을 특징으로 하는 심리음향 모델링 장치.
  26. 제25항에 있어서,
    상기 메인 마스킹 파라미터 계산부는,
    상기 메인 마스킹 파라미터를 다음과 같은 수학식,
    에 의해 계산하는 것을 특징으로 하는 심리음향 모델링 장치.
  27. 제26항에 있어서,
    상기 e(b)및c(b) 계산부는,
    상기 밴드별 크기 e(b) 및 상기 메인 마스킹의 크기 c(b)를 다음과 같은 수학식,
    에 의해 각각 계산하는 것을 특징으로 하는 심리음향 모델링 장치.
  28. 제27항에 있어서,
    상기 ec(b)및ct(b) 계산부는,
    상기 밴드별 크기 ec(b) 및 상기 메인 마스킹 임계치 ct(b)를 다음과 같은 식,
    ,
    에 의해 각각 계산하는 것을 특징으로 하는 심리음향 모델링 장치.
KR10-2003-0004097A 2002-11-07 2003-01-21 Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치 KR100477701B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP03810714A EP1559101A4 (en) 2002-11-07 2003-11-07 METHOD AND APPARATUS FOR MPEG AUDIO CODING
US10/702,737 US20040098268A1 (en) 2002-11-07 2003-11-07 MPEG audio encoding method and apparatus
PCT/KR2003/002379 WO2004042722A1 (en) 2002-11-07 2003-11-07 Mpeg audio encoding method and apparatus
AU2003276754A AU2003276754A1 (en) 2002-11-07 2003-11-07 Mpeg audio encoding method and apparatus
US12/104,971 US20080212671A1 (en) 2002-11-07 2008-04-17 Mpeg audio encoding method and apparatus using modified discrete cosine transform

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US42434402P 2002-11-07 2002-11-07
US60/424,344 2002-11-07

Publications (2)

Publication Number Publication Date
KR20040040993A KR20040040993A (ko) 2004-05-13
KR100477701B1 true KR100477701B1 (ko) 2005-03-18

Family

ID=35964273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0004097A KR100477701B1 (ko) 2002-11-07 2003-01-21 Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치

Country Status (3)

Country Link
US (1) US20040098268A1 (ko)
KR (1) KR100477701B1 (ko)
CN (2) CN1732530A (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7725313B2 (en) * 2004-09-13 2010-05-25 Ittiam Systems (P) Ltd. Method, system and apparatus for allocating bits in perceptual audio coders
JP2008541573A (ja) * 2005-05-04 2008-11-20 トムソン ライセンシング 周波数を変換する装置及び方法
US20070076804A1 (en) * 2005-09-30 2007-04-05 Texas Instruments Inc. Image-rejecting channel estimator, method of image-rejection channel estimating and an OFDM receiver employing the same
GB2454208A (en) * 2007-10-31 2009-05-06 Cambridge Silicon Radio Ltd Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data
JP5262171B2 (ja) * 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
CN101562015A (zh) * 2008-04-18 2009-10-21 华为技术有限公司 音频处理方法及装置
JP2010060989A (ja) * 2008-09-05 2010-03-18 Sony Corp 演算装置および方法、量子化装置および方法、オーディオ符号化装置および方法、並びにプログラム
CN102930871B (zh) * 2009-03-11 2014-07-16 华为技术有限公司 一种线性预测分析方法、装置及系统
CN102067211B (zh) * 2009-03-11 2013-04-17 华为技术有限公司 一种线性预测分析方法、装置及系统
CN101894557B (zh) * 2010-06-12 2011-12-07 北京航空航天大学 一种用于aac编码的窗型判别方法
JP5799707B2 (ja) * 2011-09-26 2015-10-28 ソニー株式会社 オーディオ符号化装置およびオーディオ符号化方法、オーディオ復号装置およびオーディオ復号方法、並びにプログラム
US11705136B2 (en) * 2019-02-21 2023-07-18 Telefonaktiebolaget Lm Ericsson Methods for phase ECU F0 interpolation split and related controller

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3082625B2 (ja) * 1995-07-15 2000-08-28 日本電気株式会社 音声信号処理回路
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
US6430529B1 (en) * 1999-02-26 2002-08-06 Sony Corporation System and method for efficient time-domain aliasing cancellation
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US7062429B2 (en) * 2001-09-07 2006-06-13 Agere Systems Inc. Distortion-based method and apparatus for buffer control in a communication system
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US20030233228A1 (en) * 2002-06-03 2003-12-18 Dahl John Michael Audio coding system and method
US7089176B2 (en) * 2003-03-27 2006-08-08 Motorola, Inc. Method and system for increasing audio perceptual tone alerts

Also Published As

Publication number Publication date
CN1732530A (zh) 2006-02-08
CN101329871A (zh) 2008-12-24
KR20040040993A (ko) 2004-05-13
US20040098268A1 (en) 2004-05-20

Similar Documents

Publication Publication Date Title
US7613603B2 (en) Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
US9305558B2 (en) Multi-channel audio encoding/decoding with parametric compression/decompression and weight factors
JP3153933B2 (ja) データ符号化装置及び方法並びにデータ復号化装置及び方法
JP3762579B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP4000261B2 (ja) ステレオ音響信号の処理方法と装置
KR100477701B1 (ko) Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치
WO2010037427A1 (en) Apparatus for binaural audio coding
JP2005534947A (ja) 心理音響ベースで圧縮する際に形成されるノイズの許容可能な歪みに基づくスケールファクタのフィードフォワード予測
JP2001343997A (ja) デジタル音響信号符号化装置、方法及び記録媒体
JPH0816195A (ja) ディジタルオーディオ符号化方法及び装置
JPH0748698B2 (ja) 可聴音信号符号化方法
JPH08223052A (ja) 音声高能率符号化装置
JP2008129250A (ja) Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法
JP4635400B2 (ja) オーディオ信号符号化方法
US20080212671A1 (en) Mpeg audio encoding method and apparatus using modified discrete cosine transform
JPH1093441A (ja) ディジタル化されたオーディオ信号の符号化方法及び装置
KR100590340B1 (ko) 디지털 오디오 부호화 방법 및 장치
JP2000137497A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JPH08167247A (ja) 高能率符号化方法及び装置、並びに伝送媒体
JP2003195896A (ja) オーディオ復号装置及びその復号方法並びに記憶媒体
JP2005010337A (ja) 音声信号圧縮方法及び音声信号圧縮装置
Absar et al. AC-3 Encoder Implementation on the D950 DSP-Core
Bayer Mixing perceptual coded audio streams
Jean et al. Near-transparent audio coding at low bit-rate based on minimum noise loudness criterion

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110225

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee