KR960012474B1

KR960012474B1 - 인간의 청각 특성에 적응적인 스테레오 디지탈 오디오 부호화장치

Info

Publication number: KR960012474B1
Application number: KR1019940000743A
Authority: KR
Inventors: 김종일
Original assignee: 대우전자 주식회사; 배순훈
Priority date: 1994-01-18
Filing date: 1994-01-18
Publication date: 1996-09-20
Also published as: KR950024442A

Abstract

요약없음

Description

인간의 청각 특성에 적응적인 스테레오 디지탈 오디오 부호화장치

제1도는 본 발명에 따른 인간의 청각 특성에 적응적인 스테레오 디지탈 오디오 부호화 장치를 도시한 블럭도,

제2도는 도면 1에 도시된 2개(L, R)의 채널을 갖는 본 발명의 인간의 청각 특성에 적응적인 스테레오 디지탈 오디오 부호화 장치의 1 프레임군(GOF)부를 나타내는 구성도,

제3도는 본 발명의 인지정보량(PE₁)대 프레임 비트 할당 상태(Index)를 도시한 프래프.

* 도면의 주요부분에 대한 부호의 설명

210 : L채널 GOF부220 : R채널 GOF부

230 : 인지 정보량 계산부

240 : 적응적 채널 및 프레임 비트 할당부

250,260 : 부호기270 : MUX

본 발명은 디지탈 오디오 부호기(Digital Audio Coder)에 관한 것으로, 특히, 좌측(L) 및 우측(R) 채널로 입력되는 디지탈 오디오 신호를 인간의 청각 특성에 의한 인지 정보량(Perceptual Entropy : PE)에 따라 좌측(L) 및 우측(R) 채널과 각 채널의 프레임마다 적응적으로 비트를 할당하여 부호화하므로써 부호화 효율을 증대시키고 음질을 향상시키는 스테레오 디지탈 오디오 부호화 장치를 비트 할당 장치에 관한 것이다.

현재 실용화되어 있는 컴팩트 디스크(Compact Disk : CD) 및 디지탈 오디오 테이프 레코더(Digital Audio Tape Recoder : DAT)등과같은 음질 수준의 신호 재생을 목표로 개발중에 있는 고화질 텔레비젼(HDTV) 정보 전송 시스템에서는 비교적 좁은 약 6MHz의 전송 선로를 통하여 영상 및 오디오 신호를 전송하여야 하기 때문에 영상 신호에서와 마찬가지로 오디오 신호에 대해서도 효율적인 신호 압축기법이 요구되어 왔다.

이를 위하여 인간의 청각 특성을 반영하는 적응적 변환 부호화(Adaptive Transform Coding) 기법을 이용하여 낮은 전송률에서 비교적 간단한 수신기로도 전술한 디지탈 오디오 기기 수준의 음질을 재생할 수 있는 HDTV용 고음질 디지탈 오디오 기술의 알고리즘 및 하드웨어 구현을 위해 활발히 연구되고 있다.

전술한 적응적 변환 부호화 기법으로서, 각 채널에 비트를 할당하는 방법으로는 각 채널을 독립적으로 부호화하는 방식, 매트릭스(Matrix) 방식을 이용하여 부호화하는 MS(Middle Side) 스테레오 부호화 방식, MPEG(Motion Picture Expert Group)에서 제안한 방식으로 크기 정보(scale factor)를 각 채널에 공유하여 부호화하는 인텐시티 스테레오(intensity stereo) 부호화 방식이 있다. 그러나 이러한 부호화 방식들은 각 채널의 신호 특성, 즉 인간의 청각특성을 전혀 고려치 않고 예를 들어 좌측 채널(L)과 우측 채널(R)에 동일하게 비트를 할당하여 부호화할 뿐만아니라 다수개의 프레임들로 구성된 1프레임군(GOF)내의 각 프레임에 동일하게 비트를 할당하여 부호화함으로서, 부호화 효율이 떨어지는 문제점이 있었고 고음질을 실현하는데 다수의 문제점이 있었다.

따라서, 본 발명의 주 목적은 부호화 효율을 증대시키고, 음질을 보다 향상시키기 위해 좌측 및 우측 채널과 각 채널의 프레임에 대한 인간의 청각 특성을 고려하여 측정한 인지정보량에 응답하여 좌측 및 우측 채널과 각 채널의 프레임에 적응적으로 비트를 할당하여 부호화하므로써 압축 효율을 증대시킨 인간의 청각 특성에 적응적인 스테레오 디지탈 오디오 부호화 장치를 제공하는데 있다.

전술한 목적을 달성하기 위해 본 발명은 좌측(L), 우측(R) 채널로 입력되는 다수개의 프레임을 가진 프레임군(Group Of Frmae : GOF)으로 이루어진 디지탈 오디오 신호에 대한 인간의 인지정보량에 응답하여 상기 좌측 및 우측 채널과 각 채널의 프레임에 대해 적응적으로 비트를 할당하여 부호화하는 것으로, 상기 좌측 및 우측 채널로 입력되는 다수개의 프레임을 가진 프레임군에 대한 디지탈 오디오 신호에 대해 제1전력 밀도 스펙트럼(Power Density Spectrum)을 구하고, 제1전력 밀도 스펙트럼을 이용하여 좌측 및 우측 채널과 각 채널의 프레임에 대해 인간의 청각 특성을 고려하여 인지 정보량(Perceptual Entropy)을 산출하는 인지 정보량 계산부와 ; 상기 인지 정보량 계산부에서 얻은 좌측 및 우측 채널과, 상기 좌측 및 우측 채널의 각 프레임에 대한 인지 정보량에 응답하여 상기 좌측 및 우측 채널과, 각 채널(좌측 및 우측 채널)의 프레임에 적응적으로 비트를 할당하는 적응적 채널 및 프레임 비트 할당(Adaptive Frame And Channel Bit Allocation)부와 ; 상기 좌측 및 우측 채널로 입력되는 다수개의 프레임으로 이루어진 디지탈 오디오 신호를 싱기 좌측 및 우측 채널의 가 프레임에 할당된 비트를 적용하여 상기 좌측 및 우측 채널과, 상기 좌측 및 우츠 채널의 프레임을 부호화하는 부호기를 포함하는 인간의 청각 특성에 적응적인 스테레오 디지탈 오디오 부호화장치를 제공한다.

본 발명은 좌측 및 우측 채널에 대한 인지 정보량은 통상적으로 각 채널마다 그 크기가 서로 상이하고 또 동일한 채널내의 각 프레임간에도 그 크기가 서로 상이함에 의거하는데, 예를 들어, 인지정보량이 큰 경우에는 인간의 귀로서 가청 레벨에 대한 오차를 느낄 수 있는 확률이 크므로 보다 많은 비트를 할당하여 부호화하며, 인지정보량이 작은 경우에는 비트를 적게 할당하여 부호화한다는 개념에 근거한다. 만일, 전체 2채널 오디오 신호의 평균 정보 전송률은 B라하고 2채널 스테레오 오디오 신호에 대하여 각 채널이 N개의 샘플로 구성되는 M개의 프레임으로 구성된다고 할때, 총 2M개의 프레임으로 구성된 1프레임군에 대한 비트 할당량(F_B)은 각 채널에 대한 샘플링 주파수가 f_S라고 때 따음과 같은 [수식 1]에 의해 계산된다.

[수식 1]

이때, 각 채널을 동일한 비트로 부호화한다고 가정하면 각 채널의 프레임에 할당되는 비트량은 F_B/3값을 갖게 될 것이다.

오디오 신호의 인지정보량이 좌측 및 우측 채널과 각 채널의 프레임에 따라 서로 상이하다는 특성을 이용하여 전술한 [수식 1]을 통한 F_B값을 각 채널에 적합하게 분리하여 할당한다.

후술하는 바와 같이, 본 발명을 실행하는 순서는 먼저, IGOF의 2M 개의 각 프레임에 대한 인지 정보량을 구한후, 다음 이 인지 정보량의 평균(Averge) 및 분산값(Variance Value)을 구하며, 그 다음 이 평균 및 분산값을 이용하여 각 채널의 인지 정보량에 다른 가중치를 부여하여 비트를 할당하여, 또한 동일 채널내의 각 프레임간에도 인지정보량에 따라 가중치를 부여하여 비트를 할당하는 식으로 이루어진다.

이하에서는 도면을 참조하여 본 발명의 바람직한 실시예가 상세하게 설명된다.

도면 1은 본 발명에 따른 좌측 및 우측 채널과 각 채널내의 다수의 프레임에 적응적으로 비트 할당하여 부호화하는 스테레오 디지탈 오디오 부호화 장치를 도시한 블럭도로서, 이러한 부호화 장치는 L 및 R 채널 GOF부(210,220), 인지 정보량 계산부(230), 적응적 채널 및 프레임 비트 할당부(240), 좌측(L) 및 우측(R) 채널에 대해 통상적인 부호화 동작을 수행하는 부호기(250, 260) 및 멀티플렉서(MUX)(270)를 포함한다. 이러한 블럭들을 포함하는 스테레오 디지탈 오디오 부호화 장치에서는, 입력되는 좌측(L) 및 우측(R) 채널과, 각 채널(L, R채널)에 대해 다수개의 프레임을 갖는 2M개 프레임군의 디지탈 오디오신호를 좌측(L) 및 우측(R) 채널과 좌측(L) 및 우측(R) 채널의 각 프레임에 대한 인지 정보량에 의해 좌측(L) 및 우측(R) 채널과 상기 채널(L, R채널)의 프레임마다 비트를 적응적으로 할당하여 부호화하므로써 부호화 효율을 증대시키고, 음질을 향상시킬 수가 있게 된다.

L 및 R 채널 GOF부(210,220)는 좌측(L) 및 우측(R) 채널로 각기 입력되는 디지탈 오디오 신호를 각 채널 및 각 채널내의 프레임에 대한 인지 정보량을 산출하기 위해 복수개(예를 들면, 각 채널당 M개, 여기서, M은 각 채널의 1 프레임군내의 프레임 갯수를 나타냄)의 프레임을 가진 프레임군 단위로 데이타를 분류하여 각 부호기(250,260)와 인지 정보량 계산부(230)로 각각 제공한다.

도면 2를 참조하면, 도면 2는 전술한 좌측(L) 및 (R) 채널의 1GOF 구성을 나타낸 것이다. 도시된 바와 같이, 한 프레임은 N개(여기서, N은 양의 정수)의 샘플(Sample)로 이루어지며, 통상 10msc 내지 약 40msec 단위로 이루어진다. 또한, 도시된 바와 같이 좌측(L) 및 우측(R) 채널을 갖는 1개의 GOF는 2M개의 프레임으로 이루어지므로 한개의 GOF는 N×2M개의 샘플로 구성된다. 여기서, N값은 오디오 신호의 정상과정(stationary process)시간과 관계되며 10msec-40msec 사이의 시간 구간으로 정할 수 있고, M값은 비디오 카메라(Camera)(도시안됨)로부터 입력되는 영상신호의 부호화 및 부호화 과정에서 필연적으로 발생되는 지연(Delay) 시간에 의해 결정된다.

도면 1을 다시 참조하면, 인지 정보량 계산부(230)는 영상신호의 부호화 및 부호화 과정의 지연 시간 동안 오디오 신호를 분석하여 인간의 청각 특성에 부합되는 인지 정보량을 산출하므로써, 후술하는 적응적 채널 및 프레임 비트 할당부(240)에서 좌측(L) 및 우측(R) 채널과, 좌측(L) 및 우측(R) 채널의 프레임마다 비트 할당량을 달리하므로써 부호화 효율을 증가시키며 음질을 향상시킬 수 있다. 이러한 인지 정보량 계산부(230)는 전술한 좌측(L) 및 우측(R) 채널 GOF부(210,220)로부터 각기 제공되는 N개의 샘플들로 이루어진 한 프레임의 유한 디지탈 오디오 신호원, 즉, x(n)의 전력 밀도 스펙트럼(Sxx(w))에 의해 인간의 청각 특성을 이용하여 마스킹 문턱치(Masking Threshold)(M(w))를 구하고, 그 다음, 다음과 같은 식에 의해 인지 정보량을 얻을 수가 있다. 예컨데, 먼저, 한 프레임의 유한 디지탈 오디오 신호원 x(n)에 대한 근사적인 전력 밀도 스펙트럼(Sxx(w))은 [수식 2]에 의해 구한다.

[수식 2]

또한, 전술한 M(w)는 Sxx(w)의 전력 밀도 스펙트럼을 갖는 신호에 대하여 소정의 주파수 성분에서 인간의 귀로서는 감지할 수 없는 영역의 전력 값에 해당하므로, 소정의 주파수 성분에 대하여 M(w) 이하의 오차값으로 신호를 재생하면 귀로서는 그 영역을 감지할 수 없게 되므로, 그 영역, 즉, 오차 신호의 전력밀도스펙트럼(See(w))을 구하기 위해, 부호기의 입력 신호를 x(n), 출력신호를 y(n)이라 하고, 먼저, 오차 신호 e(n)을 [수식 3]에 의해 구한다.

[수식 3]

즉, e(n)=x(m)-Y(n)

그 다음, N개의 유한 신호원에 대한 See(w)를 M(w)로 대치하여 인간의 귀로서 오차를 감지할 수 없도록 신호 x(n)을 전송하기 위한 인지 정보량(R_PE)은 [수식 4]에 의해 구할 수 있다.

[수식 4]

한편 , 마스킹 문턱치 M(w)가 매프레임마다 동일하고 무한개의 주파수 대역을 갖는 대역 분할 부호기를 이용하는 경우, 이론적으로 실현가능한 최소 비트 전송률은 전술한 [수식 4]에 의해 얻어진 값이다.

그러나, 실제의 오디오 데이타에 대하여 부호기를 구성하는 경우, N개의 샘플을 가진 한 프레임 시간 영역 신호마다 각각의 청각 파라메터를 분석한 후 이에 맞도록 대역 분할된 각 주파수 구간마다 양자화 수준을 달리 이용하여, N개의 샘플마다 변화하는 청각 파라메터를 전송해야 하므로, 실질적으로 필요한 비트 전송률은 전술한 식(4)에 의해 산출된 인지 정보량 보다 크게 될 것이다.

예컨대, 입력 신호 x(n)을 L개(여기서, L은 양의 정수)의 균일한 대역폭을 갖는 주파수 대역으로 분할하여 부호화하는 경우, i번째 주파수 대역의 전력 밀도 스펙트럼 Sxx(i) 및 마스킹 문턱치 M(i)는 다음 같은 [수식 5 및 6]에 의해 근사적으로 구할 수 있다.

[수식 5]

여기서,

Ri는 i번째 분할 대역에 해당하는 주파수 영역이고, Sxx(Wj)는 N포인트 이산 퓨리어 변환(Discrete Fourier Transform : DFT)에 있어서 j번째 주파수 성분의 전력 밀도 스펙트럼에 해당하는 값이다.

[수식 6]

여기서, M(i)는 i번째 분할 대역에 속하는 마스킹 문턱치값을 나타낸다.

예를 들어, 1024 포인트 DFT(즉, L=1024)를 이용하여 전력 밀도 스펙트럼을 구한 후, 32개의 주파수 대역(즉, L=32)으로 분할하는 경우, 인지 정보량 R_PE는 다음과 같은 [수식 7]에 의해 구할 수 있다.

[수식 7]

여기서,

다음으로, 좌측(L) 및 우측(R) 채널이 가지는 전체 프레임 즉, 1GOF의 정보량을 계산하기 위한 개념을 설명한다. N개의 샘플로 구성된 i(여기서, i는 0보다 크고 프레임 수 보다는 작은 양의 정수)번째 프레임의 오디오 데이타에 대하여 전력 밀도 스펙트럼 및 마스킹 문턱치를 이용하여 전술한 [수식 7]에 의해 인지 정보량 PE₁를 구하고, 그 다음 좌측(L) 및 우측(R) 채널에 대한 전체 2M 개의 프레임을 갖는 1프레임군에 대한 평균 인지 정보량 PEm 및 전술한 각 PEm에 대한 PE₁의 변화량을 나타내는 표준 편차 PEstd를 (수식 8 및 9]에 의해 구한다.

[수식 8]

[수식 9]

그리고, 적응적 채널 및 프레임 비트 할당부(250)는 인지 정보량 계순부(240)에서 구한 좌측(L) 및 우측(R) 채널에 대한 1GOF내의 각 프레임에 대한 인지 정보량을 제공받아 후술하는 기법에 의해 좌측(L) 및 우측(R) 채널과, 각 채널의 프레임에 대해 동시에 적응적으로 비트량을 할당하여 좌측(L) 및 우측(R) 채널에 대한 부호기(250,260)로 각각 제공한다.

이하에서는 인지 정보량 계산부(240)에서 얻은 좌측(L) 및 (R) 채널 및 각 채널의 프레임에 대한 인지 정보량에 의해 가변적으로 비트를 할당하는 방법에 대해 상세하게 설명된다.

도면3을 참조하면, 도면 3은 전술한 바와 같이 좌측(L) 및 우측(R) 채널에 대해 총 2M개의 프레임으로 구성된 1GOF내의 i(여기서 i=1,2,...,2M)번째 좌측(L) 채널의 프레임에 대한 인지 정보량을 PE₁라 하고, 우측(R) 채널의 각 프레임에 대한 인지 정보량을 PE₁(여기서 i=1,2,...2M)라고 하며, 1GOF의 평균 인지 정보량을 PEm이라 할때, 좌측(L) 및 우측(R) 채널과 각 채널의 프레임에 대한 인지 정보량(PE₁)에 따른 프레임 비트 할당 상태(Index)를 나타낸 그라프이다. 동도면에서, 수직(Y)축의 Index는 -q와 +q 구간의 정수값을 가지는 비트할당 상태를 나타내고, 수평축의 D₁는 다음식(10)에 의해 결정되는 좌측(L) 및 우측(R) 채널과, 각 채널의 1프레임이 가질 수 있는 소정의 인지 정보량을 나타낸다. 여기서 δ한 프레임군(GOF)에서 식 8,9에 의하여 구한 PEm 및 PEstd값의 분포에 따라 결정되는 가중치이다.

그러므로, 예를 들어 M=8인 경우에 적용된 가중치(δ)는 전술한 식 (8,9)을 통해 구한 PEm 및 PEstd에 대해 실험 결과에 의하여 다음[표 1]과 같이 얻을 수 있다.

[표 1]

즉, PEm이 0~0.315이고, PEstd가 0~0.625인 경우에는 δ는 1000이며, 그외 따른 값들에서도 PEm 및 PEstd값을 아는 경우, 상기 [표 1]에 의해 동일 방법으로 δ값을 얻을 수 있을 것이다.

그리고, 전술한 (표 1]에 근거하여 구한 가중치(δ)와 D₁관계를 나타내는 [수식 10]에 의해 D₁를 구할 수 있다.

[수식 10]

여기서, i와 -q 및 q간에 -qiq 관계가 있으며, 다음과 가은 조건을 가정한다.

sign(i)=1if(i＞0)

sign(i)=-1if(i＜0)

sign(i)=0if(i=0)

또한, δ값은 1GOF에 대한 좌측(L) 및 우측(R) 채널에 대한 2M개의 PE₁의 값을 전술한 [수식 8, 9]에 의해 구한 PEm 및 PEstd값에 따라 결정되는 가중치이다. 본 발명의 일예로서, q값이 8인 경우, 즉 전술한 [수식 10]을 통해 구한 소정의 인지정보량(D₁)에 대응하는 각각의 Index에 따른 프레임 비트수는 전술한 식들에 의거하면 다음 [표 2]와 같이 얻을 수 있다.

[표 2]

(단위, Frame Bit : Bit/Frame, Bit Rate : K Bit/sec)

즉, [표 2]를 참조하면, 예를 들어 Index가 0인 경우, 프레임 즉, 1152 샘플로 구성되는 프레임 단위로 초당 128kbps의 정보전송률로 부호화되는 경우, 1프레임에 할당하는 비트수는 3072로서, MPEG의 오디오 섹션에서 제안하는 비트수가 할당되고, Index가 증가할수록, 프레임 비트수는 평균치를 훨씬 초과하는 반면에, Index가 감소할수록 프레임 비트수는 평균치보다 훨씬 적게 할당됨을 알 수 있을 것이다.

도면 1을 다시 참조하면, 부호획(250,250)는 좌측(L) 및 우측(R) 채널 GOF부(210,220)에서 각기 제공되는 각 채널의 샘플링 데이타를 인지 정보량에 의해 좌측(L) 및 우측(R) 채널과 각 채널의 프레임에 할당된 비트에 의해 통상적인 부호화 방식으로 부호화하는 것으로, 그의 출력들은 MUX(270)에 접속된다. MUX(270)는 전술한 부호기(250, 260)에서 제공되는 부호화된 데이타와 적응적 프레임 및 채널 비트 할당부(240)에서 제공되는 좌측(L) 및 우측(R) 채널과 각 채널의 프레임에 대해 할당된 비트 정보를 다중화하여 채널(Channel) 특성에 적합하도록 비트 스트림으로 변환하여 출력한다.

이상에서 설명한 본 발명에 따른 좌측(L) 및 우측(R) 채널과 각 채널의 프레임에 적응적으로 비트 할당하여 부호화하는 스테레오 디지탈 오디오 부호화 장치에 의하면, 좌측(L) 및 우측(R) 채널과 각 채널의 프레임에 대한 인지 정보량의 평균 및 분산값(또는 표준 편차)에 응답하여 좌측(L) 및 우측(R) 채널과 각 채널의 프레임에 적응적으로 비트를 할당하여 부호화하므로써, 부호화 효율을 증대시키고 음질을 향상시키는 커다란 장점이 있다.

Claims

좌측 (L) 및 우측(R) 채널로 입력되는 다수개의 프레임을 가진 프레임군(Group Of Frame : GOF)으로 이루어진 디지탈 오디오 신호에 대한 인간의 인지정보량에 응답하여 상기 좌측(L) 및 우측(R) 채널과, 상기 좌측 및 우측 채널의 프레임에 대해 적응적으로 비트를 할당하여 부호화하는 것로 : 상기 좌측(L) 및 우측(R) 채널로 입력되는 다수개의 프레임을 가진 프레임군(GOF)을 입력하여 상기 좌측(L) 및 우측(R) 채널과, 좌측(L) 및 우측(R) 채널의 프레임에 대한 인지 정보량(Perceptual Entropy)을 산출하는 인지 정보량 계산부(230)와 ; 상기 인지 정보량 계산부(240)에서 얻은 좌측(L) 및 우측(R) 채널과, 상기 좌측(L) 및 우측(R) 채널의 프레임에 대한 인지 정보량에 응답하여 상기 좌측(L) 및 우측(R) 채널과, 상기 좌측(L) 및 우측(R) 채널의 프레임에 적응적으로 비트를 할당하는 적응적 채널 및 프레임 비트 할당(Adaptive Frame And Channel Bit Allocation)부(240)와 ; 상기 좌측(L) 및 우측(R) 채널로 입력되는 다수개의 프레임으로 이루어진 디지탈 오디오 신호를 상기 좌측(L) 및 우측(R) 채널과, 상기 좌측(L) 및 우측(R) 채널의 프레임에 할당된 비트를 적용하여 상기 좌측(L) 및 우측(R) 채널과, 상기 좌측(L) 및 우측(R)채널의 프레임을 부호화하는 제1 및 제2부호기(250), (260)를 포함하는 인간의 청각 특성에 적응적인 스테레오 디지탈 오디오 부호화장치.