KR20020077959A

KR20020077959A - 디지탈 오디오 부호화기 및 복호화 방법

Info

Publication number: KR20020077959A
Application number: KR1020010017687A
Authority: KR
Inventors: 김기수; 임수일
Original assignee: 엘지전자 주식회사
Priority date: 2001-04-03
Filing date: 2001-04-03
Publication date: 2002-10-18
Also published as: KR100378796B1

Abstract

본 발명은 디지탈 오디오의 재생기술에 관한 것으로, 디지탈 오디오의 고음을 효과적으로 재생할 수 있도록 한 것이다. 이를 위하여 본 발명은 오디오신호를 주파수 영역의 스펙트럼으로 변환하는 FFT부와; 상기 FFT부에서 출력되는 스펙트럼을 이용하여 마스킹 임계값을 구하는 심리음향부와; 상기 심리음향부의 마스킹 임계값에 따라, 롱 트랜스폼 또는 쇼트 트랜스폼을 가지는 주파수 대역 샘플을 선택하는 MDCT와; 상기 심리음향부의 마스킹 임계값에 따라, 상기 주파수 대역 샘플을 내부 및 외부 반복루프를 통해 양자화 연산을 수행하는 양자화부와; 상기 FFT에서 출력되는 스펙트럼을 입력받아 그 스펙트럼에서 선형예측계수를 추출하는 선형예측계수추출부와; 상기 양자화 연산시에 사용된 부가정보를 출력하는 부가정보출력부와; 각 서브밴드에서 양자화된 신호를 허프만 부호화하여 출력하는 허프만 인코딩부와; 상기 부가정보 및 허프만 부호화된 신호에 선형 예측계수를 이용한 엔벌로프를 부가하여 엠펙 오디오 프레임을 출력하는 코딩 오디오 출력부를 포함하여 구성한다.

Description

디지탈 오디오 부호화기 및 복호화 방법{DIGITAL AUDIO ENCODER AND DECODING METHOD}

본 발명은 디지탈 오디오의 재생기술에 관한 것으로, 특히 디지탈 오디오의 고음을 효과적으로 재생할 수 있도록 한 디지탈 오디오 부호화기 및 복호화방법에 관한 것이다.

일반적으로, 디지탈 엠펙(MPEG:Moving Picture Experts Group) 오디오로 통칭되고 있는 디지탈 오디오는 고품질,고능률 스테레오 부호화를 위한 국제 표준화기구(ISO/IEC)의 표준방식이다.

상기 엠펙 오디오는 엠펙 비디오와 조합됨으로써 고능률의 멀티미디어 정보압축을 실현 가능하게 하며, 최근에는 디지탈 티브이(DTV),디브이디(DVD),디지탈 음악방송(DAB:Digital Audio Broadcasting) 및 엠피-3 플레이어등 다양한 응용 제품이 등장하고 있는 상황이다.

MP3오디오는 최근 널리 사용되고 있는 .mp3 확장자를 갖는 방식으로, 엠펙-1 오디오 계층 3의 방식으로 인코딩된 것을 의미한다.

또한, 엠펙 오디오의 압축원리는 인간의 감각특성을 이용해서 감도가 낮은 세부의 정보를 생략하여 부호량을 절감시키는 "지각부호화(Perceptual Coding)" 방법을 이용한다.

여기서, 지각부호화란 고요할 때 청각이 감지할 수 있는 음의 최소 레벨인 최소가청한계와, 특정음에 의해 다른 음이 잘 들리지 않게 되는 마스킹현상을 이용하는 방법이다.

이때, 상기 최소 가청한계는 음의 주파수(음의 고저)에 따라 달라지고, 마스킹현상은 마스킹하는 음(Masker)과 마스킹되어 들리지 않는 음(Maskee)의 주파수에 따라 달라진다.

특히, 마스킹 효과가 일어나는 주파수 폭을 "크리티컬 밴드(Critical Band)"라고 하는데, 이 크리티컬 밴드 내에서의 지각 가능한 신호대 잡음비(S/N)는 매우 낮다.

따라서, 엠펙 오디오에서는 상기와 같은 성질을 이용하여 디지탈화에 따라 발생하는 양자화 잡음을 크리티컬 밴드내에 혼합하여 그 양자화 잡음이 들리지 않도록 하는 것이다.

이하, 디지탈 오디오의 재생기술을 첨부한 도면을 참조하여 설명한다.

도1은 일반적인 디지탈 오디오 부호화기의 구성을 보인 블록도로서, 이에 도시된 바와같이 오디오신호를 32개의 서브밴드로 세분하는 필터뱅크(1)와; 상기 서브밴드를 보다 세밀한 주파수 대역으로 분할하는 MDCT(Modified Discrete Cosine Transform:변형이산 여현변환)부(2)와; 상기 오디오신호를 주파수 영역의 스펙트럼으로 변환하는 FFT(Fast Fourier Transform:고속 푸리에 변환)부(3)와; 상기 FFT부(3)에서 출력된 주파수 스펙트럼을 이용해 마스킹 커브를 산출하는 심리음향(Psycho Acoustic)부(4)와; 상기 MDCT부(2)에서 출력된 DCT계수와 심리음향부(4)에서 출력된 마스킹커브를 입력받아 내부 루프(5b) 및 외부 루프(5a)를 통해 양자화 연산을 수행하는 양자화부(5)와; 상기 양자화 연산시에 사용된 부가정보를 출력하는 부가정보출력부(6)와; 상기 각 서브밴드에서 양자화된 신호를 허프만 부호화하여 출력하는 허프만 인코딩부(7)와; 상기 부가정보 및 허프만 부호화된 신호에 오류체크비트등을 부가하여 엠펙 오디오 프레임을 출력하는 코딩 오디오 출력부(8)로 구성되며, 이와같이 구성된 장치의 동작을 설명한다.

먼저, 필터뱅크(1)는 오디오신호를 입력받아 이를 32개의 서브밴드로 세분하여 출력하고, FFT부(3)는 상기 오디오신호를 주파수영역의 스펙트럼으로 변환하여 출력한다.

이때, 심리음향부(4)는 원음과 최소가청한계의 곡선으로부터 실제로 원음을 들으면서 감지할 수 있는 한계인 마스킹 커브를 구하고, 상기 MDCT부(2)는 상기 필터뱅크(1)에서 출력되는 서브밴드를 보다 세밀한 주파수 대역으로 분할한다.

이후, 양자화부(5)는 각 서브밴드마다, 즉 주파수 대역마다 스케일 펙터와 양자화 스텝 사이즈를 조정하여 양자화 잡음을 마스킹커브 이하가 되도록 부호화한다.

즉, 스케일 팩터는 각 밴드의 양자화 잡음 정도에 맞추어 결정하고, 각 서브밴드마다 양자화에 의해 발생하는 양자화잡음이 마스킹커브보다 작은 레벨이 되도록 각 서브밴드의 양자화 스텝 사이즈를 조정한다.

여기서, 상기 양자화 스텝 사이즈는 크게하면 할수록 압축률은 높아지지만 양자화 잡음레벨이 커지고, 스텝사이즈를 작게하면 양자화 잡음 레벨이 작아지는 대신 압축률도 작아진다.

따라서, 청각감도가 높고 마스킹이 별로 작용하지 않는 부분에서는 양자화스텝을 작게 하여 양자화 잡음을 낮추고, 마스킹의 영향을 많이 받는 부분에서는 양자화 스텝을 크게 한다.

특히, 상기 양자화부(5)는 고정된 비트율에서 양자화 잡음을 최소화하기 위해 외부 루프(5a)와 내부 루프(5b)로 이루어지는 두개의 반복 루프를 사용한다.

여기서, 상기 외부 루프(5a)는 주파수영역에서 얻어진 잡음의 레벨이 마스킹커브 보다 큰 밴드에 대해서 스케일 팩터를 크게하여 잡음 레벨을 낮게 조정하고, 내부 루프(5b)는 허프만 코딩된 데이터의 비트율(bit rate)이 일정하지 않기 때문에, 사용 가능한 비트보다 크면 양자화 스텝 사이즈를 늘려 조정하는 역활을 한다.

이때, 양자화 스텝 사이즈를 늘리게 되면 잡음도 함께 늘어나기 때문에 다시 외부 루프(5a)를 도는 과정을 반복하여 그 값을 만족할 때까지 반복하게 된다.

상기 반복 과정을 거쳐 얻어진 결과를 허프만 인코딩부(7)에서 허프만 부호화한후 이를 코딩오디오출력부(8)에서 부가정보출력부(6)의 부가정보와 결합하여 엠피3 비트 스트림을 얻게 된다.

그러나, 상기 엠피3 알고리듬에서 사용하는 심리음량모델은 각 개인의 청각 능력의 평균적인 값을 기반으로 얻어진 것으로, 모든 사람에게 만족할 만한 복원음을 제공하지 못하는데, 특히 15Khz 이상의 고음은 심리음향 모델에서 사용되는 절대 가청한계가 약 60dB 이상의 값을 갖게 되므로 대부분의 오디오 신호에서 복원이 힘들고 10~15Khz의 대역에서도 충분한 재생이 어려운 문제점이 있다.

본 발명은 상기와 같은 문제점을 감안하여 창안한 것으로, 디지탈 오디오의고음을 작은 비트로 부호화하여 재생함으로써 복원음의 음감을 향상시키도록 한 디지탈 오디오 부호화기 및 복호화방법을 제공함에 그 목적이 있다.

도1은 종래 디지탈 오디오 부호화기의 구성을 보인 블록도.

도2는 본 발명 디지탈 오디오 부호화기의 구성을 보인 블록도.

도3은 본 발명 디지탈 오디오 복호화방법에 대한 동작흐름도.

도4는 허프만 부호화 주파수 영역분할을 보인도.

*****도면의 주요부분에 대한 부호의 설명*****

1:필터뱅크2:MDCT부

3:FFT부4:심리음향부

5:양자화부6:부가정보출력부

7:허프만 인코딩부8:코딩오디오출력부

100:선형예측계수추출부

상기와 같은 목적을 달성하기 위한 본 발명은 오디오신호를 주파수 영역의 스펙트럼으로 변환하는 FFT부와; 상기 FFT부에서 출력되는 스펙트럼을 이용하여 마스킹 임계값을 구하는 심리음향부와; 상기 심리음향부의 마스킹 임계값에 따라, 롱 트랜스폼 또는 쇼트 트랜스폼을 가지는 주파수 대역 샘플을 선택하는 MDCT와; 상기 심리음향부의 마스킹 임계값에 따라, 상기 주파수 대역 샘플을 내부 및 외부 반복루프를 통해 양자화 연산을 수행하는 양자화부와; 상기 FFT에서 출력되는 스펙트럼을 입력받아 그 스펙트럼에서 선형예측계수를 추출하는 선형예측계수추출부와; 상기 양자화 연산시에 사용된 부가정보를 출력하는 부가정보출력부와; 각 서브밴드에서 양자화된 신호를 허프만 부호화하여 출력하는 허프만 인코딩부와; 상기 부가정보 및 허프만 부호화된 신호에 선형 예측계수를 이용한 엔벌로프를 부가하여 엠펙 오디오 프레임을 출력하는 코딩 오디오 출력부를 포함하여 구성한 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명은 엠피3 비트스트림이 입력되면 헤더 정보 및 부가정보를 복호화하는 제1 과정과; 상기 엠피3 비트스트림에 선형예측계수가 존재하면, 그 선형예측계수를 고주파 대역의 오디오신호를 복원하는 제2 과정과; 스케일 팩터 및 허프만 데이터를 복호한한후, 그 복호한 데이터를 역양자화 시키는 제3 과정과; 분할 주파수 대역을 서브 밴드로 통합한후, 이 통합된 서브밴드를 합성필터로 통과시켜 엠피3 복원음을 구하는 제4 과정과; 상기 엠피3 복원음을 상기 고주파 대역의 오디오신호와 가산하여 고음이 재생된 복원신호를 구하는 제5 과정으로 수행함을 특징으로 한다.

이하, 본 발명에 의한 디지탈 오디오 부호화기 및 복호화방법에 대한 작용과 효과를 첨부한 도면을 참조하여 상세히 설명한다.

도2는 본 발명 디지탈 오디오 부호화기의 구성을 보인 블록도로서,이에 도시한 바와같이 오디오신호를 32개의 서브밴드로 세분하는 필터뱅크(1)와; 오디오신호를 주파수 영역의 스펙트럼으로 변환하는 FFT부(3)와; 상기 FFT부(3)에서 출력되는 스펙트럼을 이용하여 마스킹 임계값을 구하는 심리음향부(4)와; 상기 심리음향부 (4)의 마스킹 임계값에 따라, 롱 트랜스폼(Long Transform) 또는 쇼트 트랜스폼 (Short Transform)을 가지는 주파수 대역 샘플을 선택하는 MDCT부(2)와; 상기 심리음향부(4)의 마스킹 임계값에 따라, 상기 주파수 대역 샘플을 내부루프(5b) 및 외부 루프(5a)를 통해 양자화 연산을 수행하는 양자화부(5)와; 상기 FFT부(3)에서 출력되는 스펙트럼을 입력받아 그 스펙트럼에서 선형예측계수를 추출하는 선형예측계수추출부(100)와; 상기 양자화 연산시에 사용된 부가정보를 출력하는 부가정보출력부(6)와; 각 서브밴드에서 양자화된 신호를 허프만 부호화하여 출력하는 허프만 인코딩부(7)와; 상기 부가정보 및 허프만 부호화된 신호에 선형 예측계수를 이용한 엔벌로프를 부가하여 엠펙 오디오 프레임을 출력하는 코딩 오디오 출력부(8)로 구성한다.

도3은 본 발명 디지탈 오디오 복호화방법에 대한 동작흐름도로서, 이에 도시한 바와같이 엠피3 비트스트림이 입력되면 헤더 정보 및 부가정보를 복호화하는 제1 과정(S1,S2)과; 상기 엠피3 비트 스트림에 선형예측계수가 존재하면, 그 선형예측계수를 고주파 대역의 오디오신호를 복원하는 제2 과정(S9~S11)과; 스케일팩터 및 허프만 데이터를 복호한한후, 그 복호한 데이터를 역양자화 시키는 제3 과정(S3~S5)과; 분할 주파수 대역을 서브 밴드로 통합한후, 이 통합된 서브밴드를 합성필터로 통과시켜 엠피3 복원음을 구하는 제4 과정(S6,S7)과; 상기 엠피3 복원음을 상기 고주파 대역의 오디오신호와 가산하여 고음이 재생된 복원신호를 구하는 제5 과정(S8)으로 이루어지며, 이와같은 본 발명의 동작을 설명한다.

먼저, 필터뱅크(1)는 오디오신호를 32개의 서브밴드로 세분하고, FFT부(3)는 오디오신호를 주파수 영역의 스펙트럼으로 변환하여 출력한다.

이때, 심리음향부(4)는 상기 FFT부(3)에서 출력되는 스펙트럼을 이용하여 마스킹 임계값을 구하는데, 즉 상기 FFT부(3)에서 출력되는 스펙트럼을 각 임계 대역별 마스킹 특성을 모델링한 스프레딩 함수와 컨벌루션(Convolution)한후, 그 컨벌루션 값에 오프셋(Offset)을 가하여 마스킹 임계값을 구한다.

그리고, MDCT부(2)는 상기 심리음향부(4)의 마스킹 임계값에 따라, 주파수 해상도를 향상시키기 위해, 롱 트랜스폼(Long Transform) 또는 쇼트 트랜스폼 (Short Transform)을 가지는 주파수 대역 샘플을 선택하여 이를 양자화부(5)에 인가한다.

이에 따라, 상기 양자화부(5)는 상기 MDCT부(2)에서 출력되는 576개의 주파수 영역 샘플들을 입력받아 이를 양자화한후 각 서브밴드에서 양자화된 신호를 허프만 인코딩부(7)에서 허프만 부호화하여 출력하고, 부가정보출력부(6)는 상기 양자화 연산시 사용된 부가정보를 출력한다.

이때, 상기 양자화부(5)는 두가지 제한조건에 따라 내부 루프(5b) 또는 외부 루프(5a)를 수행한다.

상기 내부루프(5b)는 프레임 내에서 사용 가능한 비트율을 넘지 않도록 스케일 인자를 조정하여 비트율을 조정하는데, 허프만 부호화 후 정해진 비트율을 초과하게 되면 스케일 인자를 조정하여 비트율을 만족시킨다.

상기 외부 루프(5a)는 각 임계 대역에서 양자화 잡음을 마스킹 임계값 아래로 변형시켜 그 잡음이 귀에 들리지 않도록 한다.

이때, 상기 마스킹 임계값이 고주파 대역일 경우, 약 60dB 이상의 값을 갖게 되므로, 대부분의 오디오 신호에서 부호화되지 않고, 10~15KHz 대역 신호에서도 충분한 재생이 어렵다.

이에 따라, 본 발명은 적은 비트만으로 고주파 대역을 부호화하기 위해, 선형예측계수를 사용하는데, 이를 설명한다.

우선, 선형예측계수추출부(100)는 상기 FFT부(3)에서 출력되는 스펙트럼을 입력받아 그 스펙트럼에서 선형예측계수를 추출하는데, 이외에도 고주파 대역 필터를 통과한 시간 영역의 오디오신호로부터 구할 수 있고, 그 선형예측계수는 4차 미만으로도 충분한 효과를 얻는다.

이후, 코딩오디오출력부(8)는 상기 부가정보 및 허프만 부호화된 신호에 선형 예측계수를 이용한 엔벌로프를 부가하여 엠펙 오디오 프레임을 출력한다.

여기서, 도4는 허프만 부호화 주파수 영역분할을 보인도로서, 주파수영역을 3부분으로 나누게 되는데, 고주파 영역의 경우 '0'값으로 치환되고, 복호화기에는 그 '0'값의 갯수만을 알 수 있으므로 고주파 대역의 오디오신호를 복원할 수 없게 된다.

따라서, 고주파 대역의 오디오신호를 복호화하기 위하여, 상기 선형예측계수를 이용하여 스펙트럼 엔벌로프를 모델링한후 그 값을 백색잡음과 컨벌루션하면 제거된 대역의 오디오신호를 복원하게 된다.

보다,상세하게 도3을 참조하여 디지탈 오디오 복호화 방법을 설명한다.

우선, 엠피3 비트스트림이 입력되면 표본화 주파수,비트율,계층등의 정보가 있는 헤더 정보 및 부가정보를 복호화한다(S1,S2)

그 다음, 상기 엠피3 비트스트림에 선형예측계수가 존재하면, 그 선형예측계수를 고주파 대역의 오디오신호를 복원한다(S9~S11).

즉, 선형예측계수를 복호화하여(S9) 스펙트럼 엔벌로프신호를 모델링한후, 상기 스펙트럼 엔벌로프신호를 백색잡음과 컨벌루션하여 고주파 대역의 오디오신호를 복원한다(S10),(S11).

여기서, 상기 고주파 대역의 오디오신호는 프레임간의 급격한 레벨 변화를 방지하기 위해, 스무딩 필터를 통과시킨다.

한편, 상기 부가정보가 복호화된 오디오신호에서, 내부에 포함된 스케일팩터 및 허프만 데이터를 복호한한후(S3,S4), 그 복호한 데이터를 역양자화 시키고(S5), 분할 주파수 대역을 서브 밴드로 통합한후(S6), 이 통합된 서브밴드를 합성필터로통과시켜 엠피3 복원음을 구한다(S7).

이후, 상기 엠피3 복원음을 상기 고주파 대역의 오디오신호와 가산하여 고음이 재생된 복원신호를 구하게 된다(S8).

이상에서 상세히 설명한 바와같이 본 발명은 엠피3 비트 스트림의 부가 비트 정보에 선형 예측계수를 이용한 스펙트럼의 엔벌로프신호를 전송하여 복호화기에서 고음부를 재생함으로써 엠피3 오디오 압축의 복원음질을 향상시키는 효과가 있다.

Claims

오디오신호를 주파수 영역의 스펙트럼으로 변환하는 FFT부와; 상기 FFT부에서 출력되는 스펙트럼을 이용하여 마스킹 임계값을 구하는 심리음향부와; 상기 심리음향부의 마스킹 임계값에 따라, 롱 트랜스폼 또는 쇼트 트랜스폼을 가지는 주파수 대역 샘플을 선택하는 MDCT와; 상기 심리음향부의 마스킹 임계값에 따라, 상기 주파수 대역 샘플을 내부 및 외부 반복루프를 통해 양자화 연산을 수행하는 양자화부와; 상기 FFT에서 출력되는 스펙트럼을 입력받아 그 스펙트럼에서 선형예측계수를 추출하는 선형예측계수추출부와; 상기 양자화 연산시에 사용된 부가정보를 출력하는 부가정보출력부와; 각 서브밴드에서 양자화된 신호를 허프만 부호화하여 출력하는 허프만 인코딩부와; 상기 부가정보 및 허프만 부호화된 신호에 선형 예측계수를 이용한 엔벌로프를 부가하여 엠펙 오디오 프레임을 출력하는 코딩 오디오 출력부를 포함하여 구성한 것을 특징으로 하는 디지탈 오디오 부호화기.
제1 항에 있어서, 심리음향부는 FFT부에서 출력되는 스펙트럼을 각 임계 대역별 마스킹 특성을 모델링한 스프레딩 함수와 컨벌루션한후, 그 컨벌루션 값에 오프셋을 가하여 마스킹 임계값을 구하는 것을 특징으로 하는 디지탈 오디오 부호화기.
제1 항에 있어서, 내부루프는 프레임 내에서 사용가능한 비트율을 넘지 않도록 스케일 인자를 조정하여 비트율을 조정하는 것을 특징으로 하는 디지탈 오디오 부호화기.
제1 항에 있어서, 외부 루프는 각 임계대역에서 양자화 잡음을 마스킹 임계값 아래로 변형시키는 것을 특징으로 하는 디지탈 오디오 부호화기.
제1 항에 있어서, 선형예측계수추출부는 고주파 대역 필터를 통과한 시간영역의 오디오신호를 이용하여 선형예측계수를 추출하는 것을 특징으로 하는 디지탈 오디오 부호화기.
엠피3 비트스트림이 입력되면 헤더 정보 및 부가정보를 복호화하는 제1 과정과;

상기 엠피3 비트스트림에 선형예측계수가 존재하면, 그 선형예측계수를 고주파 대역의 오디오신호를 복원하는 제2 과정과;

스케일팩터 및 허프만 데이터를 복호한한후, 그 복호한 데이터를 역양자화 시키는 제3 과정과;

분할 주파수 대역을 서브 밴드로 통합한후, 이 통합된 서브밴드를 합성필터로 통과시켜 엠피3 복원음을 구하는 제4 과정과;

상기 엠피3 복원음을 상기 고주파 대역의 오디오신호와 가산하여 고음이 재생된 복원신호를 구하는 제5 과정으로 수행함을 특징으로 하는 디지탈 오디오 복호화 방법.
제6 항에 있어서, 제2 과정은 선형예측계수를 복호화하여 스펙트럼 엔벌로프신호를 모델링하는 단계와;

상기 단계의 스펙트럼 엔벌로프신호를 백색잡음과 컨벌루션하여 고주파 대역의 오디오신호를 복원하는 단계로 수행함을 특징으로 하는 디지탈 오디오 복호화방법.
제6 항 또는 제7 항에 있어서, 고주파 대역의 오디오신호는, 프레임간의 급격한 레벨 변화를 방지하기 위해, 스무딩 필터를 통과하는 것을 특징으로 하는 디지탈 오디오 복호화방법.
제6 항에 있어서, 헤더정보는 표본화 주파수,비트율,계층정보가 포함되는 것을 특징으로 하는 디지탈 오디오 복호화방법.