KR20080032240A - 오디오 부호화 장치 및 오디오 부호화 방법 - Google Patents

오디오 부호화 장치 및 오디오 부호화 방법 Download PDF

Info

Publication number
KR20080032240A
KR20080032240A KR1020087004552A KR20087004552A KR20080032240A KR 20080032240 A KR20080032240 A KR 20080032240A KR 1020087004552 A KR1020087004552 A KR 1020087004552A KR 20087004552 A KR20087004552 A KR 20087004552A KR 20080032240 A KR20080032240 A KR 20080032240A
Authority
KR
South Korea
Prior art keywords
bits
frame
audio signal
block length
divisions
Prior art date
Application number
KR1020087004552A
Other languages
English (en)
Other versions
KR100979624B1 (ko
Inventor
요시떼루 쯔찌나가
마사나오 스즈끼
미유끼 시라까와
다까시 마끼우찌
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Publication of KR20080032240A publication Critical patent/KR20080032240A/ko
Application granted granted Critical
Publication of KR100979624B1 publication Critical patent/KR100979624B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

프리에코 및 비트 부족으로부터 생기는 음질 열화를 개선한다. 음향 분석부(11)는, 오디오 신호를 분석하여, 양자화하는 데에 필요한 비트수를 나타내는 파라미터인 지각 엔트로피를 구한다. 부호화 비트수 감시부(12)는, 오디오 신호를 부호화했을 때의 부호화 비트수를 감시하여, 현 프레임에서 사용 가능한 비트수인 잉여 비트수를 구한다. 프레임 분할수 결정부(13)는, 지각 엔트로피와 잉여 비트수와의 조합에 기초하여, 오디오 신호의 1 프레임을, 1부터 N까지 N 분할하기 위한 분할수를 결정한다. 직교 변환부(14)는, 결정한 분할수에 의해 1 프레임을 분할하고, 분할된 블록 길이 단위로 오디오 신호의 직교 변환을 행하여 직교 변환 계수를 구한다. 양자화부(15)는, 블록 길이 단위로 직교 변환 계수의 양자화를 행한다.
Figure P1020087004552
음향 분석부, 직교 변환부, 양자화부, 비트 스트림 생성부, 지각 엔트로피

Description

오디오 부호화 장치 및 오디오 부호화 방법{AUDIO ENCODING DEVICE AND AUDIO ENCODING METHOD}
본 발명은, 오디오 부호화 장치 및 오디오 부호화 방법에 관한 것으로, 특히 휴대 전화나 인터넷 등의 정보 통신 분야, 텔레비전 등의 디지털 방송 분야, 나아가서는 MD·DVD와 같은 AV 기기에 의한 오디오 신호의 축적·기록 분야에서 사용되는, 오디오 신호의 부호화를 행하는 오디오 부호화 장치 및 오디오 부호화 방법에 관한 것이다.
최근, 인터넷이나 디지털 지상파 방송 등의 통신 분야, 또는 DVD나 실리콘 오디오 등의 AV 기기의 급속한 보급에 수반하여, 오디오 신호를 효율적으로 압축하는 오디오 부호화 기술에 대한 수요가 높아지고 있다.
오디오 부호화 방식으로서는, 적응 변환 부호화가 주로 이용되고 있다. 적응 변환 부호화는, 인간의 청각 특성을 이용하여, 용장도가 높은 정보나 청감 상 문제가 없는 음의 데이터를 삭감하여, 정보량을 압축하는 부호화 방식의 것이다.
적응 변환 부호화 방식의 기본적인 부호화 처리는 이하의 흐름으로 행해진다.
·시간 영역의 오디오 신호를 주파수 영역으로 변환한다.
·주파수축 상의 신호를 인간의 청각의 주파수 분해능에 대응하는 주파수 대역에서 구획한다.
·인간의 청각 특성을 이용하여, 각 주파수 대역에서 부호화에 필요한 최적의 정보량을 계산한다.
·각 주파수 대역에 할당된 정보량에 따라, 주파수축 상의 신호를 양자화한다.
한편, 적응 변환 부호화 방식 중에서도, MPEG2 AAC(Moving Pictures Experts Group-2 Advanced Audio Coding)는, 지상파 디지털 방송에도 채용되고 있고, 최근 주목을 받고 있는 부호화 방식이다. 또한, MPEG2 AAC(이하, 간단히 AAC)는, ISO/IEC(International Standardization Organization/International Electro technical Commission: 국제 표준화 기구/국제 전기 표준 회의)에서 표준화된 부호화 방식이며, 상세한 것은 ISO/IEC 13818-7의 Part7, Advanced Audio Coding(AAC)에 기재되어 있다.
AAC 인코더에서는, 시간 영역의 아날로그의 오디오 신호를 샘플링하여 디지털 값으로 변환하고, 디지털 값을 소정의 샘플링수로 분할하여 프레임을 생성한다.
또한, 1개의 프레임은, LONG 블록(1024 샘플) 또는 SHORT 블록(128 샘플)의 2종류의 블록 길이가 할당되며, 오디오 신호의 성질에 따라서, LONG 또는 SHORT의 블록을 적응적으로 절환하여, 블록마다 부호화가 행해진다.
도 8은 LONG 블록과 SHORT 블록의 관계를 도시하는 도면이다. 1 프레임은, 1024개의 샘플링 값으로 구성된다. LONG 블록은, 1 프레임의 구간 그대로이며, SHORT 블록은, 1 프레임을 8개로 분할한 128개의 샘플링값으로 이루어지는 구간이다.
따라서, 프레임을 부호화하는 경우, LONG 블록을 선택한 경우에는, 1 프레임 단위로 부호화 처리를 행하게 되고, SHORT 블록을 선택한 경우에는, 1 프레임의 1/8 단위로 부호화 처리를 행하게 된다.
도 9는 종래의 AAC 인코더의 개략 구성을 도시하는 도면이다. AAC 인코더(100)는, 음향 분석부(101), 블록 길이 선택부(102), 부호화부(103)로 구성된다.
음향 분석부(101)는, 입력 신호를 FFT(Fast Fourier Transform) 분석에 의해 FFT 스펙트럼을 구하고, FFT 스펙트럼으로부터 지각 엔트로피를 구하고, 블록 길이 선택부(102)에 송신한다. 지각 엔트로피란, 양자화하는 데에 필요한 비트수를 나타내는 파라미터이다.
블록 길이 선택부(102)는, 수신한 지각 엔트로피가 미리 설정한 임계값(상수)을 초과하면 SHORT 블록을 선택하고, 지각 엔트로피가 임계값을 초과하지 않으면 LONG 블록을 선택한다.
부호화부(103)는, 블록 길이 선택부(102)에서 선택된 블록 길이가 LONG 블록이면, 입력 신호의 해당 프레임을 LONG 블록 단위로 부호화하고, 선택된 블록 길이가 SHORT 블록이면, 입력 신호의 해당 프레임을 SHORT 블록 단위로 부호화한다.
부호화 처리에서는, 1 프레임을 LONG 블록 단위 또는 SHORT 블록 단위로 직교 변환을 행하여 직교 변환 계수를 구하고, 직교 변환 계수를 허용된 비트수의 범위 내에서 주파수 밴드마다 양자화하고, 양자화값으로부터 비트 스트림을 생성하여 송신한다.
여기서, 입력 신호의 1 프레임이, 진폭이나 주파수가 거의 변화하지 않는 정상적인 신호(파형으로서는 정현파에 가까운 것)의 경우에는, 신호 변화량이 작고 정보량도 크지는 않으므로, 1 프레임 통합하여, 즉 LONG 블록 단위로 부호화하는 것이 바람직하다(진폭이나 주파수에 큰 변화가 없는 구간이 계속되고 있는 경우에는, 그 구간을 통합하여 부호화한 쪽이 효율이 좋다).
또한, 정상 구간에서는, 부호화 시의 양자화 비트수가 크지 않으므로, 정상 신호가 차지하는 비율이 큰 프레임의 지각 엔트로피(양자화에 필요한 비트수를 나타내는 파라미터)는, 임계값을 하회하게 되어, LONG 블록이 선택되게 된다.
이에 대하여, 프레임 내에 진폭 또는 주파수가 급격하게 변화되는 신호(이하, 어택음이라고도 부름)가 존재하는 경우에, 그 프레임을 LONG 블록에서 부호화하면, 원래의 입력 신호에는 없었던 프리에코(pre-echo)라고 불리는 잡음이 발생하여, 음질 열화의 원인으로 된다.
이하, 도 10∼도 12를 이용하여 프리에코에 대하여 설명한다. 또한, 도 10∼도 12에서는, 횡축을 시간, 종축을 진폭이라고 한다. 도 10은 어택음을 포함하는 부호화 전의 입력 신호를 도시하는 도면이다. 입력 신호의 프레임 f1에는, 어택음과, 정상 신호가 포함되어 있다.
도 11은 프리에코를 도시하는 도면이다. 프레임 f1을 LONG 블록에서 부호화했을 때의 복호음(프레임 f1a)을 나타내고 있다. 프레임 f1은, 어택음과 정상 신호가 존재하고, 성분이 크게 서로 다른 신호가 포함되어 있다. 이러한 프레임 f1 을 LONG 블록에서 부호화하고, 주파수축 상에서 양자화하면, 도 11에 도시한 바와 같이, 어택음으로부터 생긴 오차량이 큰 양자화 오차(도면 중의 미세한 왜곡)가, 프레임 f1 전체에 실리게(중첩하게) 된다.
이 경우, 어택음의 바로 앞에 중첩한 양자화 오차는, 프리에코라고 불리는 잡음 신호로 되어, 유저에게 있어서 귀에 거슬린 것으로 되어, 음질 열화를 야기한다. 또한, 어택음 그 자체에 중첩한 양자화 오차는, 어택음 자신에 파묻히게 되기 때문에, 청각 상 영향을 주는 것은 거의 없다.
또한, 어택음의 후단에도 양자화 오차는 중첩하므로, 이것도 잡음 신호(포스트에코(post-echo)라고 불림)로 되지만, 큰 음의 직후에 약간의 길이의 잡음 신호가 생겨도 인간의 청각에는 느낄 수 없으므로, 통상은 포스트에코도 문제 시되는 일은 없다.
따라서, 주관적으로 청각에 영향을 주어, 음질 열화를 야기하는 문제로 되는 것은 프리에코이며, 오디오 부호화 처리에서는, 이 프리에코를 억제하는 것이 중요하게 된다.
도 12는 SHORT 블록에서 부호화했을 때의 복호음을 도시하는 도면이다. 프리에코를 억제하기 위해서는, 프레임 f1을 SHORT 블록에서 부호화하면 된다. SHORT 블록에서 부호화하면, 어택음이 포함되는 블록 b에서 생긴 양자화 오차는, 블록 b 내에서 닫힌 것으로 되어, 다른 블록에 영향을 주지 않기 때문이다.
따라서, 어택음과 같은 급준한 신호가 프레임 내에 존재하는 경우에는, SHORT 블록을 선택하고(어택음에서는, 부호화 시의 양자화 비트수가 크므로, 어택 음이 포함되는 프레임의 지각 엔트로피는, 임계값을 상회하게 되어, SHORT 블록이 선택됨), SHORT 블록 단위로 부호화를 행함으로써 프리에코를 억제하고 있다.
종래 기술로서, 프리에코를 억제한 비트 스트림을 작성하는 오디오 부호화 기술이 제안되어 있다(예를 들면, 특허 문헌1).
[특허 문헌1] 일본 특개 2005-3835호 공보(단락번호 [0028]∼[0045], 도 1)
<발명의 개시>
<발명이 해결하고자 하는 과제>
AAC 인코더와 같은 오디오 부호화 장치에서는, 통상적으로, 양자화 비트의 증감
을 흡수하여, 의사적인 가변 비트레이트 제어를 행하는 비트 리저버 기능이 설정되어 있다.
도 13은 비트 리저버의 동작 개념을 도시하는 도면이다. 도면 중의 그래프 G1은, 횡축이 프레임, 종축이 양자화 비트수이며, 각 프레임에서 사용한 양자화 비트수를 나타내고 있다. 또한, 그래프 G2는, 횡축이 프레임, 종축이 리저브 비트수이며, 각 프레임이 양자화되었을 때에, 그 때 비트 리저버에 존재하는 잉여 비트수를 나타내고 있다.
여기서, 평균 양자화 비트수가 100비트라고 한다. 평균 양자화 비트수는, 잉여 비트수를 결정하는 지표로서, 전송 비트레이트에 따라서 산출되는 것이다.
프레임의 양자화 시에, 필요한 양자화 비트수가 평균 양자화 비트수를 하회하는 경우에는, 하회한 분의 비트수는 잉여 비트수로서 축적된다. 또한, 필요한 양자화 비트수가 평균 양자화 비트수를 상회하는 경우, 상회한 분의 비트수에 대해서는, 축적해 둔 잉여 비트수가 사용된다.
도면에서는 예를 들면, 프레임 1의 양자화 비트수는 100이므로, 평균 양자화 비트수와 동등하기 때문에, 잉여 비트수는 0이다. 프레임 2의 양자화 비트수는 80이며, 평균 양자화 비트수에 대하여 20 하회하므로, 이 때의 잉여 비트수는 20(=100-80)으로 된다.
프레임 3의 양자화 비트수는 70이며, 이 때의 잉여 비트수는, 프레임 2에서 이미 축적되어 있는 잉여분도 포함시켜서 50(=100-70+20)으로 된다.
프레임 4의 양자화 비트수는 120이며, 평균 양자화 비트수를 20 상회한다. 이러한 경우, 초과된 20은 프레임 3일 때에 축적되어 있었던 잉여 비트수 50부터 사용된다. 따라서, 이 때의 잉여 비트수는 30(=50-20)으로 된다. 이 후 마찬가지로 하여, 프레임에 할당되는 비트수의 증감의 흡수를 행하여 가변 비트레이트 제어가 행해진다.
또한, 프레임 2, 3이 LONG 블록에서 부호화되는 프레임이며, 프레임 4가 SHORT 블록에서 부호화되는 프레임이라고 하면, LONG 블록은, 양자화에 요하는 비트수가 작으므로, 잉여 비트수가 축적된다.
한편, SHORT 블록과 같이, 양자화에 요하는 비트수가 큰 경우에는, LONG 블록일 때에 축적되어 있는 잉여 비트수가 SHORT 블록의 양자화 시에 돌려져서 사용되게 된다.
여기서, 압축율이 낮고, 양자화 비트수를 많이 할당하는 것이 가능한 고비트레이트 조건에서는, 프레임 내에 어택음과 같은 변화가 큰 신호가 존재하여, 지각 엔트로피가 높은 값을 나타내는 경우, SHORT 블록을 선택하여 부호화하면 프리에코가 억제되고, 또한, 비트 리저버의 평균 양자화 비트수의 값도 크므로, 비트 리저버의 비트 부족도 생기는 일은 없다.
그러나, 압축율을 높여서, 양자화 비트수를 많이 할당할 수 없는 저비트레이트 조건에서는, 비트 리저버의 평균 양자화 비트수의 값이 작으므로(사용할 수 있는 비트수가 원래 적다고 하는 것), 지각 엔트로피가 큰 값일 때에 SHORT 블록을 선택하면, 곧 잉여 비트수가 소비되어 비트 부족 상태를 생기게 하여, 현저한 음질 열화가 생긴다고 하는 문제가 있었다.
따라서, 어택음과 같은 변화가 큰 신호가 존재하는 프레임에서, 프리에코를 억제하기 위해 SHORT 블록을 선택하여 부호화하고 있음에도 불구하고, 부호화에 필요한 비트가 부족하기 때문에, 프리에코보다도 심한 음질 열화가 생기게 된다(비트 부족에서 생기는 음질 열화는, 프리에코보다도 강한 음질 열화라고 느껴진다).
한편, 최근에는, 48㎑ 샘플링 스테레오 신호를 96kbps 이하(압축율 1/16 이상)에서 부호화하도록 하는 저비트레이트 조건의 방송 등이 개시되어 있다(예를 들면, 휴대 전화기용의 지상파 디지털 방송(1세그먼트 방송) 등임).
또한, 48㎑ 샘플링 스테레오 신호를 아무런 압축도 하지 않고 전송하려고 하면, 48㎑ 샘플링 스테레오 신호는, 1초간에 48000 샘플로서, 1샘플을 16bit로 표현하고, 2ch로 전송하면, 48000×16×2=1536kbps로 된다. 1536kbps의 1/16이 96kbps이다(일반적으로 MP3(MPEG Audio Layer3) 형식의 플레이어 기기에서는, CD의 44.1㎑의 신호를 약 128kbps까지 압축하여 CD의 음질을 재현하고 있지만, 상기한 바와 같은 휴대 전화기용의 지상파 디지털 방송에서는, 48㎑를 128kbps보다도 더 낮은 96kbps 이하까지 압축하고 있으므로, 압축율은 매우 높아, 음질 열화를 억제하기에는 어려운 영역에서 부호화하고 있는 것을 알 수 있음).
이러한 저비트레이트 조건에서의 방송·통신 서비스에서는, 사용할 수 있는 비트수가 적기 때문에, 어택음과 같은 변화가 큰 신호가 존재하거나, 또는 변화가 큰 신호가 연속하여 계속되는 경우에는, 비트 리저버에 축적되는 잉여 비트수의 소비량이 증가하여, 급격한 비트 부족이 발생한다.
특히 많은 비트수를 필요로 하는 SHORT 블록에서의 비트 부족은, 부호화 성능을 대폭 저하시켜, 프리에코가 발생하고 있을 때보다도 현저하게 음질을 열화시키게 된다.
이에 의해, 저비트레이트 조건에서 서비스를 행하는 지상파 디지털 방송 등의 분야에서, 종래의 AAC 인코더에 의한 오디오 신호의 부호화 처리를 행하면, 입력 신호에 따라서 정확하게 SHORT 블록을 선택하여 부호화하고 있음에도 불구하고, 큰 음질 열화가 생기게 된다고 하는 문제가 있었다.
한편, 상기의 종래 기술(일본 특개 2005-3835호 공보)에서는, 비트 리저버에 의해 제어되어 있는 잉여 비트수에 따라서 LONG 블록 또는 SHORT 블록을 선택할 때의 청각 엔트로피 임계값을 결정하고, 이에 의해, 잉여 비트수가 부족한 경우는, 어택음이 존재하는 프레임이어도, SHORT 블록을 선택하지 않고, LONG 블록을 선택하도록 하여 음질 열화의 방지를 행하고 있다.
그러나, 이 종래 기술은, 프리에코보다도 음질이 나빠지는 비트 부족 상태에서의 SHORT 블록의 선택을 그만두고, 단순하게 LONG 블록으로 절환하는 기술이므로, 결국, LONG 블록 부호화 시에 발생하는 프리에코에 의한 음질 열화에 대한 문제는 다시 표면화하게 되어, 음질 열화 억제를 위한 최적의 해결 방법이라고는 할 수 없다.
본 발명은 이러한 점을 감안하여 이루어진 것으로, 최적의 블록 길이를 결정하여 부호화를 행하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 개선한 오디오 부호화 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명의 다른 목적은, 최적의 블록 길이를 결정하여 부호화를 행하고, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 개선한 오디오 부호화 방법을 제공하는 것이다.
<과제를 해결하기 위한 수단>
본 발명에서는 상기 과제를 해결하기 위해, 도 1에 도시한 바와 같은, 오디오 신호의 부호화를 행하는 오디오 부호화 장치(10)에서, 오디오 신호를 분석하여, 양자화하는 데에 필요한 비트수를 나타내는 파라미터인 지각 엔트로피를 구하는 음향 분석부(11)와, 오디오 신호를 부호화했을 때의 부호화 비트수를 감시하여, 현 프레임에서 사용 가능한 비트수인 잉여 비트수를 구하는 부호화 비트수 감시부(12)와, 지각 엔트로피와 잉여 비트수와의 조합에 기초하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되도록, 오디오 신호의 1 프레임을, 1부터 N까지 N 분할하기 위한 분할수를 결정하는 프레임 분할수 결정부(13)와, 결정된 분할수에 의해 1 프레임을 분할하고, 분할된 블록 길이 단위로 오디오 신호의 직교 변환을 행하여 직교 변환 계수를 구하는 직교 변환부(14)와, 블록 길이 단위로 직교 변환 계수의 양자화를 행하는 양자화부(15)를 갖는 것을 특징으로 하는 오디오 부호화 장치(10)가 제공된다.
여기서, 음향 분석부(11)는, 오디오 신호를 분석하여, 양자화하는 데에 필요한 비트수를 나타내는 파라미터인 지각 엔트로피를 구한다. 부호화 비트수 감시부(12)는, 오디오 신호를 부호화했을 때의 부호화 비트수를 감시하여, 현 프레임에서 사용 가능한 비트수인 잉여 비트수를 구한다. 프레임 분할수 결정부(13)는, 지각 엔트로피와 잉여 비트수와의 조합에 기초하여, 오디오 신호의 1 프레임을, 1부터 N까지 N 분할하기 위한 분할수를 결정한다. 직교 변환부(14)는, 결정된 분할수에 의해 1 프레임을 분할하고, 분할된 블록 길이 단위로 오디오 신호의 직교 변환을 행하여 직교 변환 계수를 구한다. 양자화부(15)는, 블록 길이 단위로 직교 변환 계수의 양자화를 행한다.
<발명의 효과>
본 발명의 오디오 부호화 장치는, 지각 엔트로피와 잉여 비트수와의 조합에 기초하여, 오디오 신호의 1 프레임을, 1부터 N까지 N 분할하기 위한 분할수를 구하고, 구한 분할수에 의해 1 프레임을 분할하고, 분할된 블록 길이 단위로 오디오 신호의 직교 변환을 행하여 직교 변환 계수를 구하고, 블록 길이 단위로 직교 변환 계수의 양자화를 행하는 구성으로 했다. 이에 의해, 최적의 블록 길이를 결정하여 부호화를 행할 수 있어, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 개선하여, 오디오 신호 부호화 품질의 향상을 도모하는 것이 가능하게 된다.
본 발명의 상기 및 다른 목적, 특징 및 이점은 본 발명의 예로서 바람직한 실시 형태를 나타내는 첨부의 도면과 관련된 이하의 설명에 의해 명백해질 것이다.
도 1은 오디오 부호화 장치의 원리도.
도 2는 변환 맵을 도시하는 도면.
도 3은 프레임 분할 예를 도시하는 도면.
도 4는 오디오 부호화 장치의 원리도.
도 5는 그룹화의 일례를 도시하는 도면.
도 6은 그룹화의 일례를 도시하는 도면.
도 7은 부호화 음성의 처리 파형을 도시하는 도면으로서, (A)는 입력 신호 파형, (B)는 비트 부족 상태일 때에 SHORT 블록에서 부호화한 파형, (C)는 본 발명에 따른 부호화 파형을 도시하는 도면.
도 8은 LONG 블록과 SHORT 블록의 관계를 도시하는 도면.
도 9는 종래의 AAC 인코더의 개략 구성을 도시하는 도면.
도 10은 어택음을 포함하는 부호화 전의 입력 신호를 도시하는 도면.
도 11은 프리에코를 도시하는 도면.
도 12는 SHORT 블록에서 부호화했을 때의 복호음을 도시하는 도면.
도 13은 비트 리저버의 동작 개념을 도시하는 도면.
<발명을 실시하기 위한 최량의 형태>
이하, 본 발명의 실시 형태를 도면을 참조하여 설명한다. 도 1은 오디오 부호화 장치의 원리도이다. 제1 실시 형태의 오디오 부호화 장치(10)는, 음향 분석부(11), 부호화 비트수 감시부(12), 프레임 분할수 결정부(13), 직교 변환부(14), 양자화부(15), 비트 스트림 생성부(16)로 구성되고, 오디오 신호의 부호화를 행하는 장치이다.
음향 분석부(11)는, 입력된 오디오 신호를 FFT(Fast Fourier Transform) 분석하여 FFT 스펙트럼을 구하고, FFT 스펙트럼으로부터 음향 파라미터의 하나인 지각 엔트로피 PE(PE는 Perceptual Entropy의 약기)를 구한다.
지각 엔트로피 PE란, 양자화하는 데에 필요한 비트수를 나타내는 파라미터이다(리스너가 잡음을 지각하는 일이 없도록, 그 프레임을 양자화하는 데에 필요한 총 비트수이다).
또한, 지각 엔트로피 PE는, 전술한 바와 같이, 어택음과 같이 신호 레벨이 급격하게 증대한 곳에서는 큰 값을 취한다고 하는 특성이 있다. 또한, 음향 파라미터로서는, 마스킹 임계값 등의 파라미터도 실제로는 구하지만, 본 발명과는 직접 관계가 없으므로 설명은 생략한다.
부호화 비트수 감시부(12)는, 부호화 시에 미리 설정되는 평균 양자화 비트수(도 13에서 전술)에 대한 양자화 후의 부호화 비트수의 과부족(부호화 비트수의 소비량)을 프레임마다 구하고, 현 프레임에서 사용 가능한 비트수를 잉여 비트수로서 구한다.
프레임 분할수 결정부(13)는, 지각 엔트로피 PE와 잉여 비트수와의 조합에 기초하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되도록, 오디오 신호의 1 프레임을, 1부터 N까지 N 분할하기 위한 분할수를 결정한다.
예를 들면, N=1이라면, 1개의 블록 길이는 LONG 블록으로 되고, N=8이라면, 1개의 블록 길이는 SHORT 블록으로 되지만, LONG/SHORT 블록의 분할수에 한하지 않고, 오디오 부호화 장치(10)에서는, N은 임의의 수이며, 1 프레임을 임의의 블록 길이로 분할한다.
직교 변환부(14)는, 결정된 분할수에 의해 1 프레임을 분할하고, 분할된 블록 길이 단위로 오디오 신호의 직교 변환을 행하여 직교 변환 계수(주파수 스펙트럼)를 구한다. 직교 변환으로서는, 구체적으로는 MDCT(Modified Discrete Cosine Transform)를 행하고, 직교 변환 계수로서 MDCT 계수를 구한다.
직교 변환부(14)의 동작예로서, LONG 블록의 경우와 SHORT 블록의 경우에 대해 설명하면, LONG 블록이 선택된 경우에는, 1024점의 MDCT에 의해 MDCT 계수를 구한다. 또한, SHORT 블록이 선택된 경우에는, 128점의 MDCT에 의해 MDCT 계수를 구한다. 또한, SHORT 블록에서는, 1 프레임 중 SHORT 블록은 8 블록이므로, MDCT 계수는 8조 구하는 것으로 된다. 그리고, 이들 MDCT 계수(주파수 스펙트럼)는, 후단의 양자화부(15)에 송신된다.
양자화부(15)는, 분할된 블록 길이 단위로 구해진 MDCT 계수의 양자화를 행한다. 이 때, 최종적으로 출력되는 총 비트수가, 현 블록에서 허용되는 사용 비트 수를 초과하지 않도록, 비트수를 조정하여 최적화한 양자화를 실현한다. 비트 스트림 생성부(16)는, 양자화부(15)에서 구해진 양자화값을 송신 포맷에 실어, 비트 스트림을 생성하고, 전송로를 통하여 송신한다.
다음으로 프레임 분할수 결정부(13)에서의, 오디오 신호 1 프레임을 분할할 때의 분할수의 결정 방법에 대하여 설명한다. 프레임 분할수 결정부(13)에서는, 음향 분석부(11)로부터 입력된 지각 엔트로피 PE와, 부호화 비트수 감시부(12)로부터 입력된 잉여 비트수와의 값에 따라서 프레임의 분할수 N을 구하고, 직교 변환부(14)에 출력한다.
여기서, 지각 엔트로피 PE와 잉여 비트수에 대한 프레임의 분할수 N의 관계는, 지각 엔트로피 PE에 대해서는, 지각 엔트로피 PE가 작은 값이면, 해당 프레임은, 정상 신호가 대부분을 차지하고 있고, 지각 엔트로피 PE가 큰 값이면 해당 프레임에는, 어택음과 같은 변화가 큰 신호가 포함되어 있으며, 이 때 부호화 블록 길이를 길게 하면, 프리에코에 의해 음질 열화가 생긴다.
따라서, 지각 엔트로피 PE가 큰 경우에는, 프리에코에 의한 음질 열화를 억제하기 위해, 부호화 블록 길이는 짧게(프레임의 분할수 N을 많게) 하는 것이 필요하다.
한편, 잉여 비트수에 대해서는, 부호화 블록 길이가 짧으면, 양자화 시의 비트수를 많이 요하고, 이 때 사용 가능한 잉여 비트수가 적으면, 비트 부족 상태로 되어 음질 열화가 생긴다.
따라서, 잉여 비트수가 적은 경우에는, 비트 부족에 의한 음질 열화를 억제 하기 위해, 부호화 블록 길이를 길게(프레임의 분할수 N을 적게) 하는 것이 필요하다.
상기의 지각 엔트로피 PE와 잉여 비트수와의 관계를 고려하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되도록, 프레임 분할수 결정부(13)에서는, 지각 엔트로피 PE와 잉여 비트수와의 조합에 따라서 분할수 N을 구하기 위한 변환 맵을 갖고 있다.
도 2는 변환 맵을 도시하는 도면이다. 변환 맵 M1의 종축은 지각 엔트로피, 횡축은 잉여 비트수이다. 또한, 1 프레임의 최대 분할수를 Nmax로 하면, 분할수 N을 결정하는 경계 라인 1∼Nmax-1이 설정되어 있다.
변환 맵 M1을 이용함으로써, 잉여 비트수가 a, 지각 엔트로피 PE의 값이 b인 경우의 조합에 의한 C=(a, b)의 위치에 따라서, 분할수 N을 결정할 수 있다(도면에서는 분할수=5가 구해져 있음).
또한, 변환 맵 M1이 분할하는 블록의 경계는, 등간격으로 한정하는 것은 아니고, 또한 다른 방법으로서 입력 신호에서의 변화점의 위치에 따라서 경계를 결정할 수도 있다. 또한, 분할수를 Block_Num, 잉여 비트수를 Available_bit, 지각 엔트로피를 PE로 하여, Block_Num=F(Available_bit, PE)와 같은 함수 F로서 표현할 수도 있다.
한편, 직교 변환부(14)는, 블록 분할수 N에 따라서, 1 프레임의 입력 신호를 N개의 블록으로 분할하고, 각각의 블록에 대하여 MDCT에 의해 주파수 스펙트럼을 구한다. 또한, 양자화부(15)에서는, 블록 단위의 MDCT 계수를 양자화한다.
도 3은 프레임 분할예를 도시하는 도면이다. 프레임 분할수 결정부(13)에서 결정된 분할수가 4인 경우를 나타내고 있다. 종래에서는, LONG 블록과, 8분할한 SHORT 블록 중 어느 한쪽의 블록 길이를 MDCT하여 양자화하고 있었지만, 오디오 부호화 장치(10)에서는, 지각 엔트로피 PE와 잉여 비트수에 따라서, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되는 분할수에 의해, 1 프레임을 임의의 수로 분할할 수 있다. 그리고, 분할한 블록 길이 단위로 MDCT, 양자화를 행한다.
도면에서는, 1 프레임이 1024샘플이면, 분할수=4이므로, 1블록 길이는 256샘플이며, 이 블록 길이 단위로 MDCT, 양자화가 행해지게 된다.
이상 설명한 바와 같이, 오디오 부호화 장치(10)에서는, 지각 엔트로피 PE와 잉여 비트수와의 조합에 기초하여, 오디오 신호의 1 프레임을, 1부터 N까지 N 분할하기 위한 분할수를 구하고, 구한 분할수에 의해 1 프레임을 분할하고, 분할된 블록 길이 단위로 오디오 신호의 MDCT를 행하여 MDCT 계수를 구하고, 분할된 블록 길이 단위로 MDCT 계수의 양자화를 행하는 구성으로 하였다.
종래 기술(예를 들면, 일본 특개 2005-3835호 공보)에서는, 어택음과 같은 변화가 큰 신호가 존재하는 프레임에서는, 프리에코를 억제하기 위해 SHORT 블록을 선택하여 부호화하면, 부호화에 필요한 비트가 부족하여, 프리에코보다도 심한 음질 열화가 생기게 되므로, 비트 부족 상태에서는 LONG 블록을 선택하여 부호화를 행하고 있었다.
따라서, 종래 기술에서는, 단순히 SHORT 블록(1 프레임을 8 블록으로 분할) 과 LONG 블록(분할하지 않음)의 절환만을 행하고 있는 것뿐이므로, 변화가 큰 신호가 존재하는 프레임의 부호화 시에, 비트 부족 상태이기 때문이라고 해서 LONG 블록을 선택한 경우에는, 비트 부족에 의해 음질 열화는 회피할 수 있어도, 프리에코에 의한 음질 열화가 생기게 되어, 적절한 음질 열화 억제가 행해지지 않고 있었다.
한편, 오디오 부호화 장치(10)에서는, 지각 엔트로피 PE와 잉여 비트수와의 조합에 기초하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되는 분할수 N을 구하고, 임의의 수에 의해 분할된 블록 길이를 생성하고(SHORT 블록이나 LONG 블록뿐만 아니라, 임의의 분할수에 의한 임의의 블록 길이를 생성함), 그 블록 길이 단위로 MDCT 및 양자화를 행하므로, 압축율이 높아, 저비트레이트 조건 하에서의 오디오 부호화 시라도, 음질 열화를 대폭 개선하는 것이 가능하게 된다.
다음으로 제2 실시 형태의 오디오 부호화 장치에 대하여 설명한다. 도 4는 오디오 부호화 장치의 원리도이다. 오디오 부호화 장치(20)는, 음향 분석부(21), 부호화 비트수 감시부(22), 프레임 분할수 결정부(23), 직교 변환부(24), 양자화부(25), 비트 스트림 생성부(26)로 구성되며, 오디오 신호의 부호화를 행하는 장치다.
음향 분석부(21)는, 입력된 오디오 신호(Input_sig(n))를 FFT 분석하여 FFT 스펙트럼을 구하고, FFT 스펙트럼으로부터 음향 파라미터의 하나인 지각 엔트로피 PE를 구한다.
부호화 비트수 감시부(22)는, 부호화 시에 미리 설정되는 평균 양자화 비트수에 대한 양자화 후의 부호화 비트수의 과부족(부호화 비트수의 소비량)을 프레임마다 구하고, 현 프레임에서 사용 가능한 비트수를 잉여 비트수(Available_bit)로서 구한다.
프레임 분할수 결정부(23)는, 지각 엔트로피 PE와 잉여 비트수와의 조합에 기초하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되도록, 오디오 신호의 1 프레임을 분할하는 분할수를 결정한다.
또한, 이 후에는 오디오 부호화 장치(20)의 기능을 AAC 인코더에 적용한 것으로서, 최대 분할수=8이라고 한다(최소 블록 길이=SHORT 블록). 그리고, 결정한 분할수(Block_Num)는, 직교 변환부(24)에 출력된다.
직교 변환부(24)는, 분할수를 N으로 했을 때에, N=1의 경우에는, 1 프레임 단위로 직교 변환(MDCT)을 행하여 제1 직교 변환 계수를 구한다. 또한, 최대 분할수를 Nmax로 했을 때에, N=Nmax의 경우에는, 최대 분할수에 의해 1 프레임을 분할하고, 최대 분할된 블록 길이 단위로 오디오 신호의 직교 변환을 행하여 제2 직교 변환 계수를 구한다. 또한, 1<N<Nmax의 경우에는, 최대 분할수에 의해 1 프레임을 분할하여 제2 직교 변환 계수를 구하고, 분할수 N에 의해 제2 직교 변환 계수를 그룹화한다.
양자화부(25)는, N=1의 경우에는, 제1 직교 변환 계수를 1 프레임 단위로 양자화하고, N=Nmax의 경우에는, 제2 직교 변환 계수를 최대 분할된 블록 길이 단위로 양자화한다. 또한, 1<N<Nmax의 경우에는, 제2 직교 변환 계수를 그룹화 단위로 양자화한다.
다음으로 오디오 부호화 장치(20)의 상세 동작에 대하여 설명한다. 도 4에서, 1024 샘플의 입력 신호 Input_sig(n)(n=0…1023)이, 1 프레임으로서 직교 변환부(24)와 음향 분석부(21)에 입력된다.
[음향 분석부(21)]
음향 분석부(21)에서는, 인간의 청각 특성에 기초하여, 지각 엔트로피 PE를 구하고, 프레임 분할수 결정부(23)에 출력한다.
[부호화 비트수 감시부(22)]
부호화 비트수 감시부(22)는, 현 프레임에서 사용 가능한 잉여 비트수Available_bit를 구하고, 프레임 분할수 결정부(23)에 출력한다. Available_bit는 이하의 수학식 1을 이용하여 구해진다.
Figure 112008014009882-PCT00001
average_bit는, 부호화 시에 미리 설정되는 평균 양자화 비트수이며, Reserve_bit는, 비트 리저버에 축적되어 있는 비트수로서, 다음식에 의해 구해진다.
Figure 112008014009882-PCT00002
quant_bit는, 전 프레임에서의 양자화 후의 부호화 비트수, Prev_Reserve_bit는, 전 프레임에서의 Reserve_bit이며, Reserve_bit는 평균 비트수에 대한 양자화 비트수의 현 프레임에서의 과부족분으로 표현된다.
또한, average_bit는, 수학식 3에 의해 구해진다.
Figure 112008014009882-PCT00003
bitrate는, 부호화 비트레이트[bps], frame_length는 프레임 길이[1024 샘플], freq는 입력 신호의 샘플링 주파수[㎐]이다.
[프레임 분할수 결정부(23)]
프레임 분할수 결정부(23)는, 음향 분석부(21)에서 구한 지각 엔트로피 PE와, 부호화 비트수 감시부(22)에서 구한 Available_bit에 따라서, 분할수 N(Block_Num)을 결정하고, 직교 변환부(24)에 출력한다.
분할수는, 전술한 도 2에 도시한 변환 맵 M1을 사용하여 구한다. 즉, 변환 맵 M1에는, 미리 경계선 1로부터 경계선 7이 설정되어 있고(경계선의 간격 및 개수는 임의로 설정 가능), 지각 엔트로피 PE와 잉여 비트수 Available_bit의 조합에 의한 맵 상의 위치 C=(Available_bit, PE)에 따라서 분할수 N을 결정한다.
[직교 변환부(24)]
직교 변환부(24)는, Block_Num=1의 경우에는 LONG 블록으로서 입력 신호 1024점의 MDCT 변환에 의해, MDCT 계수 (MDCT_LONG)을 구한다(제1 직교 변환 계수=(MDCT_LONG)).
Block_Num=8의 경우에는(Nmax=8), 입력 신호를 SHORT 블록 단위의 128점마다 MDCT 변환하고, MDCT 계수 (MDCT_SHORT)를 8조 생성한다(제2 직교 변환 계수=(MDCT_SHORT)).
1<Block_Num<8의 경우에는, 일단, (MDCT_SHORT)를 구한다. 즉, Block_Num=8 일 때와 마찬가지로, 입력 신호를 SHORT 블록 단위의 128점마다 MDCT 변환하고, MDCT 계수 (MDCT_SHORT)를 8조 생성한다.
그리고, 이 8조의 MDCT 계수를, 미리 정해둔 패턴으로 그룹화하고, Block_Num조의 MDCT 계수를 생성한다. 예를 들면, Block_Num=5이었다면, 8조의 MDCT 계수를 조합해서 5조로 그룹화한다.
도 5는 그룹화의 일례를 도시하는 도면이다. 1 프레임을 SHORT 블록 단위로 8분할하고, 8분할된 1개의 최소 블록 길이가, 분할수 2∼7에 의해 그룹화되어 있는 모습을 나타내고 있다.
예를 들면, 분할수가 5인 경우, 블록 길이는 도면에 도시한 바와 같은 5조로 그룹화되고, 그룹 g1∼g5의 그룹화 단위로 MDCT 계수는, 후단의 양자화부(25)에 출력되어서, 그룹 g1의 MDCT 계수의 양자화, 그룹 g2의 MDCT 계수의 양자화라고 하는 바와 같이, 그룹화 단위에서의 양자화가 행해진다.
도 6은 그룹화의 일례를 도시하는 도면이다. 도면에 도시한 바와 같이, 신호 변화점의 근방의 블록 길이가 가능한 한 짧아지도록, 그룹화의 경계를 설정할 수도 있다.
도면에서는 예를 들면, 최소 블록 길이 #6의 근방에, 어택음과 같은 변화가 큰 신호가 포함되는 경우에는, 최소 블록 길이 #6 근방의 블록 길이가 가능한 한 짧아지도록, 그룹화의 경계를 설정하고 있다. 이와 같이, 신호 변화점의 근방의 블록 길이가 가능한 한 짧아지도록, 그룹화의 경계를 설정함으로써, 프리에코의 저감화를 더욱 도모하는 것이 가능하게 된다.
[양자화부(2)]
양자화부(25)는, Block_Num=1의 경우에는, MDCT 계수 (MDCT_LONG)을 양자화한다. 즉, 1 프레임 단위의 MDCT 계수를 양자화하여 양자화값을 구한다.
Block_Num=8의 경우에는, MDCT 계수 (MDCT_SHORT)를 양자화한다. 즉, 최대 분할수 단위(8조)의 MDCT 계수를 양자화하여 양자화값을 구한다.
1<Block_Num<8의 경우에는, 그룹화된 각 SHORT 블록 MDCT 계수 (MDCT_SHORT)를, 그룹화 단위로 양자화하여 양자화값을 구한다.
또한, 양자화부(25)에서는, 상기의 어느 하나의 경우 분류에서도, 주파수 밴드마다 MDCT 계수를 양자화한다. 즉, LONG 블록의 경우라면 1024개의 MDCT 계수를 주파수 대역마다 양자화하고, SHORT 블록의 경우라면 128개의 MDCT 계수를 주파수 대역마다 양자화한다. 또한, 그룹화되어 있는 경우, 예를 들면, 도 5의 그룹 g1의 경우라면, 256(=128×2)개의 MDCT 계수를 주파수 밴드마다 양자화한다.
또한, 이 때 최종적으로 출력되는 총 비트수가, 현 블록에서 허용되는 사용 비트수를 하회하도록, 양자화 오차와 비트수를 조정하여 최적의 양자화를 행한다. 그리고, 스펙트럼 양자화값을 비트 스트림 생성부(26)에 출력한다.
[비트 스트림 생성부(26)]
비트 스트림 생성부(26)는, 양자화부(15)에서 구해진 양자화값을 송신 포맷 에 실어, 비트 스트림을 생성하고, 전송로를 통하여 송신한다.
다음으로 오디오 부호화 장치(20)의 효과에 대하여 설명한다. 도 7은 부호화 음성의 처리 파형을 도시하는 도면이다. 본 발명에서 실측한 부호화 음성의 처리 파형을 나타내고 있으며, (A)는 입력 신호 파형, (B)는 비트 부족 상태일 때에 SHORT 블록에서 부호화한 파형, (C)는 본 발명에 따른 부호화 파형이다.
(A)의 입력 신호에는, 어택음이 포함되어 있다. 이러한 입력 신호를 비트 부족 상태임에도 불구하고, SHORT 블록을 선택한 경우에는, (B)에 도시한 바와 같이, 어택음의 파형이 현저하게 왜곡되어 있어, 큰 음질 열화가 생기고 있다.
한편, 본 발명과 같이 적절한 블록 길이로 분할하여 부호화한 경우, (C)에 도시한 바와 같이, 어택음부의 파형 개선이 얻어지고 있는 것을 알 수 있다. 또한, 어택음부의 전후에서 프리에코(도면 중의 미세한 왜곡)가 발생하지만, 이 프리에코는 근소한 잡음이며 주관적으로 느껴지는 것은 아니다.
이와 같이, 프리에코 및 비트 부족으로부터 생기는 양방의 음질 열화를 억제 할 수 있어, 리스너가 느끼는 주관적인 음질 열화를 대폭 개선할 수 있다.
다음으로 오디오 부호화 장치(10, 20)의 적용 분야에 대하여 설명한다. 오디오 부호화 장치(10, 20)는, 예를 들면, 원 세그 디지털 라디오 방송 시스템이나 악음 다운로드 서비스 시스템 등에 적용 가능하다.
원 세그 방송에서는, 종래의 지상파 디지털 텔레비젼 방송에 비해 전송 대역이 좁기(=전송 레이트가 낮기) 때문에, 종래보다도 정보량의 압축이 필요하다. 또한 모바일 단말기에서는, 무선으로 전파를 전송할 때에 생기는 에러(정보 누락)를 억제하기 위해서, 부호화 정보에 용장성을 갖게 하여 전송을 행한다. 따라서, 용장성을 갖게 하는 만큼, 더욱 높은 정보량의 압축이 요구되고 있다.
한편, 휴대 단말기에의 악음 다운로드 서비스 등에서는, 휴대 단말기에 탑재되어 있는 기억 매체의 메모리 용량이나 데이터 통신량에 수반하는 과금 등의 유저에 있어서의 제약이 있기 때문에, 보다 압축율이 높고, 또한 음질이 좋은 정보량의 압축이 요구되고 있다.
오디오 부호화 장치(10, 20)에서는, 지각 엔트로피 PE와 잉여 비트수에 따라서, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되도록 프레임을 적응적으로 분할하여 부호화를 행하므로, 상기한 바와 같은, 압축율이 높아, 저비트레이트의 엄격한 조건 하에서 사용하여도, 음질 열화를 대폭 개선할 수 있어, 고품질의 오디오 부호화를 행하는 것이 가능하게 된다.
이상 설명한 바와 같이, 본 발명에 따르면, 음향 분석에 의해 얻어진 지각 엔트로피(입력 신호의 변화의 정도)와 그 시점에서 사용 가능한 비트수를 감시함으로써, 비트 부족에 의한 음질 열화를 사전에 예측하고, 입력 신호에 대하여, 사용 가능한 비트수를 고려한 최적의 블록 길이(블록 분할수)를 결정할 수 있다. 이에 의해, 비트 부족 상태에서의 SHORT 블록 선택에 의한 현저한 음질 열화를 회피하는 것이 가능하게 된다.
또한, 최대 분할수 Nmax에 의해 직교 변환했을 때의 주파수 스펙트럼을 그룹화함으로써, 부호화 방식의 규격에 의해 분할수가 한정되는 경우라도(예를 들면, AAC 인코더에서는, 1 프레임을 SHORT 블록으로 하기 위해서는, 최대 분할수=8), 의 사적으로 N 분할의 부호화를 실행하는 것이 가능하게 된다.
또한, 입력 신호에서의 변화점의 위치에 따라서, 블록 경계를 결정함으로써, 분할수 N이 적은 경우라도 변화점에서 생기는 프리에코를 저감화하는 것이 가능하게 된다.
상기에 대해서는 간단히 본 발명의 원리를 나타내는 것이다. 또한, 다수의 변형, 변경이 당업자에게 있어서 가능하며, 본 발명은 상기에 나타내고, 설명한 정확한 구성 및 응용예에 한정되는 것은 아니고, 대응하는 모든 변형예 및 균등물은, 첨부의 청구항 및 그 균등물에 의한 본 발명의 범위라고 간주된다.
<부호의 설명>
10 : 오디오 부호화 장치
11 : 음향 분석부
12 : 부호화 비트수 감시부
13 : 프레임 분할수 결정부
14 : 직교 변환부
15 : 양자화부
16 : 비트 스트림 생성부
PE : 지각 엔트로피

Claims (10)

  1. 오디오 신호의 부호화를 행하는 오디오 부호화 장치에 있어서,
    상기 오디오 신호를 분석하여, 양자화하는 데에 필요한 비트수를 나타내는 파라미터인 지각 엔트로피를 구하는 음향 분석부와,
    상기 오디오 신호를 부호화했을 때의 부호화 비트수를 감시하여, 현 프레임에서 사용가능한 비트수인 잉여 비트수를 구하는 부호화 비트수 감시부와,
    상기 지각 엔트로피와 상기 잉여 비트수와의 조합에 기초하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되도록, 상기 오디오 신호의 1 프레임을, 1부터 N까지 N 분할하기 위한 분할수를 결정하는 프레임 분할수 결정부와,
    결정된 상기 분할수에 의해 1 프레임을 분할하고, 분할된 블록 길이 단위로 상기 오디오 신호의 직교 변환을 행하여 직교 변환 계수를 구하는 직교 변환부와,
    상기 블록 길이 단위로 상기 직교 변환 계수의 양자화를 행하는 양자화부
    를 갖는 것을 특징으로 하는 오디오 부호화 장치.
  2. 제1항에 있어서,
    상기 프레임 분할수 결정부는, 상기 지각 엔트로피가 큰 값을 취하는 경우에는, 프리에코에 의한 음질 열화를 억제하기 위해 상기 분할수를 많게 하여 블록 길이가 작아지도록, 상기 잉여 비트수가 적은 경우에는, 비트 부족으로부터 생기는 음질 열화를 억제하기 위해 상기 분할수를 적게 하여 블록 길이가 커지도록, 상기 지각 엔트로피와 상기 잉여 비트수에 대한 상기 분할수의 관계를 정한 변환 맵을 갖는 것을 특징으로 하는 오디오 부호화 장치.
  3. 오디오 신호의 부호화를 행하는 오디오 부호화 장치에 있어서,
    상기 오디오 신호를 분석하여, 양자화하는 데에 필요한 비트수를 나타내는 파라미터인 지각 엔트로피를 구하는 음향 분석부와,
    상기 오디오 신호를 부호화했을 때의 부호화 비트수를 감시하여, 현 프레임에서 사용 가능한 비트수인 잉여 비트수를 구하는 부호화 비트수 감시부와,
    상기 지각 엔트로피와 상기 잉여 비트수와의 조합에 기초하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되도록, 상기 오디오 신호의 1 프레임을 분할하는 분할수를 결정하는 프레임 분할수 결정부와,
    상기 분할수를 N으로 했을 때에, N=1의 경우에는, 1 프레임 단위로 직교 변환을 행하여 제1 직교 변환 계수를 구하고, 최대 분할수를 Nmax로 했을 때에, N=Nmax의 경우에는, 상기 최대 분할수에 의해 1 프레임을 분할하고, 최대 분할된 블록 길이 단위로 상기 오디오 신호의 직교 변환을 행하여 제2 직교 변환 계수를 구하고, 1<N<Nmax의 경우에는, 상기 최대 분할수에 의해 1 프레임을 분할하여 상기 제2 직교 변환 계수를 구하고, 분할수 N에 의해 상기 제2 직교 변환 계수를 그룹화하는 직교 변환부와,
    N=1의 경우에는, 상기 제1 직교 변환 계수를 1 프레임 단위로 양자화하고, N=Nmax의 경우에는, 상기 제2 직교 변환 계수를 최대 분할된 블록 길이 단위로 양자화하고, 1<N<Nmax의 경우에는, 상기 제2 직교 변환 계수를 그룹화 단위로 양자화하는 양자화부
    를 갖는 것을 특징으로 하는 오디오 부호화 장치.
  4. 제3항에 있어서,
    상기 프레임 분할수 결정부는, 상기 지각 엔트로피가 큰 값을 취하는 경우에는, 프리에코에 의한 음질 열화를 억제하기 위해 상기 분할수를 많게 하여 블록 길이가 작아지도록, 상기 잉여 비트수가 적은 경우에는, 비트 부족으로부터 생기는 음질 열화를 억제하기 위해 상기 분할수를 적게 하여 블록 길이가 크게 되도록, 상기 지각 엔트로피와 상기 잉여 비트수에 대한 상기 분할수의 관계를 정한 변환 맵을 갖는 것을 특징으로 하는 오디오 부호화 장치.
  5. 제3항에 있어서,
    상기 직교 변환부는, 상기 오디오 신호의 변화점 근방의 블록 길이가 짧아지도록 그룹화의 경계를 설정하는 것을 특징으로 하는 오디오 부호화 장치.
  6. 오디오 신호의 부호화를 행하는 오디오 부호화 방법에 있어서,
    상기 오디오 신호를 분석하여, 양자화하는 데에 필요한 비트수를 나타내는 파라미터인 지각 엔트로피를 구하고,
    상기 오디오 신호를 부호화했을 때의 부호화 비트수를 감시하여, 현 프레임에서 사용 가능한 비트수인 잉여 비트수를 구하고,
    상기 지각 엔트로피와 상기 잉여 비트수와의 조합에 기초하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되도록, 상기 오디오 신호의 1 프레임을, 1부터 N까지 N 분할하기 위한 분할수를 결정하고,
    결정된 상기 분할수에 의해 1 프레임을 분할하고, 분할된 블록 길이 단위로 상기 오디오 신호의 직교 변환을 행하여 직교 변환 계수를 구하고,
    상기 블록 길이 단위로 상기 직교 변환 계수의 양자화를 행하는 것을 특징으로 하는 오디오 부호화 방법.
  7. 제6항에 있어서,
    상기 지각 엔트로피가 큰 값을 취하는 경우에는, 프리에코에 의한 음질 열화를 억제하기 위해 상기 분할수를 많게 하여 블록 길이가 작아지도록, 상기 잉여 비트수가 적은 경우에는, 비트 부족으로부터 생기는 음질 열화를 억제하기 위해 상기 분할수를 적게 하여 블록 길이가 크게 되도록, 상기 지각 엔트로피와 상기 잉여 비트수에 대한 상기 분할수의 관계를 정한 변환 맵을 갖는 것을 특징으로 하는 오디오 부호화 방법.
  8. 오디오 신호의 부호화를 행하는 오디오 부호화 방법에 있어서,
    상기 오디오 신호를 분석하여, 양자화하는 데에 필요한 비트수를 나타내는 파라미터인 지각 엔트로피를 구하고,
    상기 오디오 신호를 부호화했을 때의 부호화 비트수를 감시하여, 현 프레임에서 사용가능한 비트수인 잉여 비트수를 구하고,
    상기 지각 엔트로피와 상기 잉여 비트수와의 조합에 기초하여, 프리에코 및 비트 부족으로부터 생기는 음질 열화를 억제하는 부호화 블록 길이로 되도록, 상기 오디오 신호의 1 프레임을 분할하는 분할수를 결정하고,
    상기 분할수를 N으로 했을 때에, N=1의 경우에는, 1 프레임 단위로 직교 변환을 행하여 제1 직교 변환 계수를 구하고,
    최대 분할수를 Nmax로 했을 때에, N=Nmax의 경우에는, 상기 최대 분할수에 의해 1 프레임을 분할하고, 최대 분할된 블록 길이 단위로 상기 오디오 신호의 직교 변환을 행하여 제2 직교 변환 계수를 구하고,
    1<N<Nmax의 경우에는, 상기 최대 분할수에 의해 1 프레임을 분할하여 상기 제2 직교 변환 계수를 구하고, 분할수 N에 의해 상기 제2 직교 변환 계수를 그룹화하고,
    N=1의 경우에는, 상기 제1 직교 변환 계수를 1 프레임 단위로 양자화하고,
    N=Nmax의 경우에는, 상기 제2 직교 변환 계수를 최대 분할된 블록 길이 단위로 양자화하고,
    1<N<Nmax의 경우에는, 상기 제2 직교 변환 계수를 그룹화 단위로 양자화하는 것을 특징으로 하는 오디오 부호화 방법.
  9. 제8항에 있어서,
    상기 지각 엔트로피가 큰 값을 취하는 경우에는, 프리에코에 의한 음질 열화를 억제하기 위해 상기 분할수를 많게 하여 블록 길이가 작아지도록, 상기 잉여 비트수가 적은 경우에는, 비트 부족으로부터 생기는 음질 열화를 억제하기 위해 상기 분할수를 적게 하여 블록 길이가 크게 되도록, 상기 지각 엔트로피와 상기 잉여 비트수에 대한 상기 분할수의 관계를 정한 변환 맵을 갖는 것을 특징으로 하는 오디오 부호화 방법.
  10. 제8항에 있어서,
    상기 오디오 신호의 변화점 근방의 블록 길이가 짧아지도록 그룹화의 경계를 설정하는 것을 특징으로 하는 오디오 부호화 방법.
KR1020087004552A 2005-09-05 2005-09-05 오디오 부호화 장치 및 오디오 부호화 방법 KR100979624B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/016271 WO2007029304A1 (ja) 2005-09-05 2005-09-05 オーディオ符号化装置及びオーディオ符号化方法

Publications (2)

Publication Number Publication Date
KR20080032240A true KR20080032240A (ko) 2008-04-14
KR100979624B1 KR100979624B1 (ko) 2010-09-01

Family

ID=37835441

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087004552A KR100979624B1 (ko) 2005-09-05 2005-09-05 오디오 부호화 장치 및 오디오 부호화 방법

Country Status (5)

Country Link
US (1) US7930185B2 (ko)
EP (1) EP1933305B1 (ko)
JP (1) JP4454664B2 (ko)
KR (1) KR100979624B1 (ko)
WO (1) WO2007029304A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5182792B2 (ja) * 2007-10-07 2013-04-17 アルパイン株式会社 マルチコアプロセッサ制御方法及び装置
US20090144054A1 (en) * 2007-11-30 2009-06-04 Kabushiki Kaisha Toshiba Embedded system to perform frame switching
US9245529B2 (en) * 2009-06-18 2016-01-26 Texas Instruments Incorporated Adaptive encoding of a digital signal with one or more missing values
JP5287546B2 (ja) * 2009-06-29 2013-09-11 富士通株式会社 情報処理装置およびプログラム
US9672840B2 (en) 2011-10-27 2017-06-06 Lg Electronics Inc. Method for encoding voice signal, method for decoding voice signal, and apparatus using same
CN103325373A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 用于传送和接收音频信号的方法和设备
JP5738480B2 (ja) * 2012-04-02 2015-06-24 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置及びプログラム
JP5734519B2 (ja) * 2012-06-15 2015-06-17 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
US10210854B2 (en) * 2015-09-15 2019-02-19 Casio Computer Co., Ltd. Waveform data structure, waveform data storage device, waveform data storing method, waveform data extracting device, waveform data extracting method and electronic musical instrument
JP6146686B2 (ja) * 2015-09-15 2017-06-14 カシオ計算機株式会社 データ構造、データ格納装置、データ取り出し装置および電子楽器
CN117746872A (zh) * 2022-09-15 2024-03-22 抖音视界有限公司 音频编码方法、装置、设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62139089A (ja) * 1985-12-13 1987-06-22 Nippon Telegr & Teleph Corp <Ntt> ベクトル量子化方式
JP3010637B2 (ja) * 1989-07-29 2000-02-21 ソニー株式会社 量子化装置及び量子化方法
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
JP3252005B2 (ja) 1993-03-08 2002-01-28 パイオニア株式会社 適応ブロック長変換符号化のブロック長選択装置
JPH09232964A (ja) * 1996-02-20 1997-09-05 Nippon Steel Corp ブロック長可変型変換符号化装置および過渡状態検出装置
JP4499197B2 (ja) 1997-07-03 2010-07-07 ソニー株式会社 ディジタル信号符号化装置及び方法、復号化装置及び方法、並びに伝送方法
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US7930170B2 (en) * 2001-01-11 2011-04-19 Sasken Communication Technologies Limited Computationally efficient audio coder
JP4062971B2 (ja) * 2002-05-27 2008-03-19 松下電器産業株式会社 オーディオ信号符号化方法
JP2005003835A (ja) 2003-06-11 2005-01-06 Canon Inc オーディオ信号符号化装置、オーディオ信号符号化方法、及びプログラム
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
SG120118A1 (en) * 2003-09-15 2006-03-28 St Microelectronics Asia A device and process for encoding audio data
JP2005165056A (ja) * 2003-12-03 2005-06-23 Canon Inc オーディオ信号符号化装置及び方法
US7627481B1 (en) * 2005-04-19 2009-12-01 Apple Inc. Adapting masking thresholds for encoding a low frequency transient signal in audio data

Also Published As

Publication number Publication date
US7930185B2 (en) 2011-04-19
KR100979624B1 (ko) 2010-09-01
US20080154589A1 (en) 2008-06-26
EP1933305A1 (en) 2008-06-18
EP1933305B1 (en) 2011-12-21
JPWO2007029304A1 (ja) 2009-03-12
JP4454664B2 (ja) 2010-04-21
EP1933305A4 (en) 2009-08-26
WO2007029304A1 (ja) 2007-03-15

Similar Documents

Publication Publication Date Title
KR100979624B1 (ko) 오디오 부호화 장치 및 오디오 부호화 방법
JP6592148B2 (ja) 高周波数の再構成方法を使用するコーディング・システムの性能拡大方法
US7613603B2 (en) Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
US7460993B2 (en) Adaptive window-size selection in transform coding
FI84538B (fi) Foerfarande foer transmission av digitaliska audiosignaler.
EP1483759B1 (en) Scalable audio coding
US6122618A (en) Scalable audio coding/decoding method and apparatus
KR100871999B1 (ko) 오디오 코딩
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
US20080312759A1 (en) Flexible frequency and time partitioning in perceptual transform coding of audio
US20140257824A1 (en) Apparatus and a method for encoding an input signal
EP2202724B1 (en) Audio encoding apparatus and method
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
EP1187101B1 (en) Method and apparatus for preclassification of audio material in digital audio compression applications
JP2008158301A (ja) 信号処理装置、信号処理方法、再生装置、再生方法、電子機器
JP2000151413A (ja) オーディオ符号化における適応ダイナミック可変ビット割り当て方法
KR960012477B1 (ko) 인지 정보량을 이용한 적응적 스테레오 디지탈 오디오 부호화 및 복호화장치
KR20050040441A (ko) 스케일러블 오디오 복/부호화 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130801

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140808

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150730

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160727

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170804

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180730

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190729

Year of fee payment: 10