KR100348368B1 - 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 - Google Patents

디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 Download PDF

Info

Publication number
KR100348368B1
KR100348368B1 KR1020000045308A KR20000045308A KR100348368B1 KR 100348368 B1 KR100348368 B1 KR 100348368B1 KR 1020000045308 A KR1020000045308 A KR 1020000045308A KR 20000045308 A KR20000045308 A KR 20000045308A KR 100348368 B1 KR100348368 B1 KR 100348368B1
Authority
KR
South Korea
Prior art keywords
block
sound signal
short
perceptual entropy
frame
Prior art date
Application number
KR1020000045308A
Other languages
English (en)
Other versions
KR20010021226A (ko
Inventor
아라키타다시
Original Assignee
가부시키가이샤 리코
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 리코 filed Critical 가부시키가이샤 리코
Publication of KR20010021226A publication Critical patent/KR20010021226A/ko
Application granted granted Critical
Publication of KR100348368B1 publication Critical patent/KR100348368B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Abstract

본 발명은 입력 음향 신호의 샘플링 주파수 차이에도 대응하여 음성 품질이 악화되지 않도록 적절히 쇼트(short) 블록을 그룹으로 나누고, 동시에 롱/쇼트의 구별을 판별할 수 있는 디지털 음향 신호 부호화 방법을 제공하는 것을 목적으로 한다.
각각의 짧은 변환 블록 별로 산출한 입력 음향 신호의 지각(知覺) 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피 프레임 내의 총합을 구하는 지각 엔트로피 총합 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내 각 총합 차의 절대값과 미리 정한 임계값을 비교하는 비교 수단과, 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는 가를 판정하는 롱/쇼트 블록 판정 수단을 구비한다.

Description

디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화 방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체{A DIGITAL ACOUSTIC SIGNAL CODING APPARATUS, A METHOD OF CODING A DIGITAL ACOUSTIC SIGNAL, AND A RECORDING MEDIUM FOR RECORDING A PROGRAM OF CODING THE DIGITAL ACOUSTIC SIGNAL}
본 발명은 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화 방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체에 관한 것으로서, 특히 예컨대 DVD및 디지털 방송 등에 이용하는 디지털 음향 신호의 압축·부호화에 관한 것이다.
최근, 디지털 오디오 분야에서는 MP3가 상당히 보급되고 있다. MP3는 MPEG-1Audio LayerⅢ이라는 음향 압축 부호화 방식의 약칭인데, 이것을 이용하면 CD 등 디지털 오디오 데이터를 음질을 거의 손상주지 않고 1/11 정도로 압축할 수 있다. 큰 음향 데이터를 소형으로 압축하여 단시간에 전송할 수 있다는 점으로부터 MP3는 우선 인터넷의 분야에서 유행하기 시작하여 현재는 MP3의 재생 기구가 음악 전송 비즈니스에도 이용되기 시작했다.
한편, 방송 분야에도 디지털화와 함께 음향 압축 기술의 채용이 진척되어 현재 통신 위성(Communication Satellite: CS) 방송에서는 MPEG - 2Audio BC라는 방식이 사용되고 있다. 나아가 2000년 이후에 개시 예정인 방송 위성(Broadcasting Satellite: BS)이나 지상파의 디지털 방송에서는 현재 부호화 효율이 가장 좋다고 인정되어 있고 ISO/IEC 13818-7에 표준화되어 있는 MPEG-2Audio AAC(Advanced Audio Coding)라는 방식이 사용될 예정이다.
이상은 모두 MPEG Audio라는 음향 압축의 국제 표준에 속하는 기술인데, MPEG Audio 이외에도, 예컨대 DVD에는 Dolby Digital(AC-3), MD에는 ATRAC라는 음향 압축 방식이 각각 사용되고 있다.
이하, 이와 같은 디지털 오디오 압축 부호화 기술에서 주로 MPEG Audio를 중심으로 음향 압축 방식의 기본 기술에 대해 상세히 설명한다.
우선, 음향 압축 부호화에 이용되는 기본적인 기술에 관하여 서술한다. 음향 압축 부호화에서는 대상으로 되는 음향 신호를 크게 [음성]으로 분류한다. 여기서 [음성]은 인간의 소리를 가리키고, [악음]은 인간의 소리 뿐만 아니라 음악이나 생활음, 자연음 등을 포함한 음향 신호 일반을 가리킨다. 이와 같은 분류 방식을 하는 것은 각각의 부호화 목적이나 사용 기술이 상이하기 때문이다.
[음성] 부호화는 8∼16 KHz정도의 저샘플링 비율(rate)인 인간의 음성 신호를 전화 회선과 같은 저비트 비율 용도용으로 압축하는 방식이다. 이것에 대해, [악음] 부호화는 32∼96 KHz의 고샘플링 비율의 음향 신호를 가능한 고음질로 압축하는 것이 목적이다. 전자에서는 원음에 비하여 음질의 열화는 피하지 못하지만, 후자에서는 기본적으로 열화가 없는 압축을 목표로 하고 있다.
상기 MP3, AAC는 모두 후자의 악음 부호화에 포함된다. 여기서 주로 악음 부호화의 기술에 관하여 서술한다.
그런데, 음향 신호에 관계없이, 디지털 정보를 압축하는 방식에는 [가역 압축]과 [비가역 압축]의 두가지 방법이 있다. 전자는 복호할 때, 원신호가 충실하게 재현되지만, 후자는 일반적으로 신호의 변형이 발생한다. 음향 압축 부호화에서는 이 양자를 적당히 조합시키고 있는데, 우선 가역 압축 방식으로부터 설명한다.
여기서는 대표적인 가역 압축 방식으로 MPEG Audio에도 이용되고 있는 [허프만 부호]를 설명한다.
허프만 부호는 원신호 값의 출현 빈도에 따라 빈도가 큰 값에는 짧은 부호를, 작은 값에는 긴 부호를 각각 할당하여 전체 부호량이 될수록 적어지도록 압축하는 방식이다. 이와 같이 부호의 길이가 일정하지 않는 부호를 가변길이 부호라고 하고, 반대로 어떤 값에 대해서도 길이가 동일한 부호를 고정길이 부호라고 한다. 음향 압축의 원신호는 각 디지털 샘플값을 일정한 비트수(CD의 경우는 16 비트)로 나타낸 고정길이 부호라고 할 수 있다.
도 9에 고정길이 부호와 허프만 부호의 예를, 도 10에 이것을 이용하여 실제 수치 열에 부호를 할당한 예를 각각 나타내고 있다.
도 9와 같이 6 종류의 서로 다른 원신호 값을 고정길이 부호로 식별하는 데는 각 값에 최저로 3 비트의 부호를 할당할 필요가 있다.
한편, 도 10(a)의 수치열(전부 20 개 값의 열)을 보면, [2]의 출현 빈도가 가장 커서 7회 등장하고 있지만, [1]이나 [5]는 각각 1회씩 밖에 나타나지 않는다. 그래서 도 10의 허프만 부호에서는 [2]에는 2 비트의 부호를, [1]과 [5]에는 4 비트의 부호를 각각 할당하고 있다. 나머지 값에 관해서도 각자의 발생 빈도에 따른 길이의 부호를 할당하고 있다.
허프만 부호의 중요한 성질에는 원신호 열을 일의로 복호할 수 있다는 것이 있다. 도 9의 예로부터 [00110]이라는 허프만 부호 열의 원신호 열은 [20]이라는 것을 알 수 있는데, 허프만 부호가 [가역](可逆)인 것은 복호의 일의성이 보증되어 있기 때문이다.
참고로, 일의로 복호가 불가능한 부호의 열도 도 9에 나타내고 있다. 이 예에서는 [000001]이라는 부호 열을 받은 경우, 원신호 열이 [25]인지 [13]인지[223]인지 구별할 수 없다. 또 일의로 복호 가능한 부호의 구성법은 이미 알려져 있는데 여기서는 생략한다.
그런데, 도 10(a)의 수치 열에 도 9의 고정길이 부호를 할당하면, 도 10(b)와 같은 부호열로 되고, 전체 부호량은 3 × 20 = 60 비트로 된다. 한편, 허프만 부호를 할당한 경우는 도 10(c)의 부호 열로 되어 전체 부호량이 46 비트로 된다.
이와 같이, 허프만 부호를 이용하면, 고정길이 부호에 비하여 적은 부호량으로 원신호 값을 충실하게 재현시킬 수 있다. 그러나 그 압축율에는 한계가 있어(상기 예에서는 77 %), 1/11이라는 고압축율은 바라볼 수 없다. 그래서 반드시 비가역 압축 기술이 필요하게 되는데, 그 가장 기본으로 되는 [양자화] 기술을 아래에 설명한다.
[양자화]란, 원신호 값을 복수의 구간으로 레벨 분류하고 각 레벨을 대표하는 값을 복원값으로 하여 대응시키는 방법이다. 도 11의 예를 이용하여 설명한다.
여기서는 원신호값이 0 이상 59 이하의 정수(整數)로서 분포하고 있다고 가정한다. 이것을 그 대로 2 진수로 고정길이 부호화를 하면, 각 값을 6 비트로 표현할 필요가 있다. 이 예에서는 원신호 값을 6 레벨로 양자화하고 각각에 도면에 나타낸 바와 같은 복원값을 대응시키고 있다.
부호화할 때, 원신호 값을 10으로 나누어 소수 부분을 잘라 버린다(이 10을 [기준화 인수]라고 한다). 그러면 정수 부분은 0으로부터 5까지의 6 종류의 값에 한정된다. 이것을 [양자화]라고 하는데, 도면에 나타낸 바와 같이 이것을 나타내는 데는 3 비트의 고정길이 부호면 충분하고, 이것만으로 50 %의 압축율로 된다. 나아가 이 양자화 값을 각각의 출현 빈도에 따라 허프만 부호화 하면, 압축율을 더욱 향상시킬 수 있다. 도 11에서는 일례로서 도 9의 허프만 부호를 할당한 경우를 나타내고 있다.
복호화할 때는 우선, 허프만 부호로부터 양자화 값을 복원하는데, 이것은 상술한 바와 같이 일의로 행할 수 있다. 그 후는 양자화 값에 상기 기준화 인수인 10을 곱하고 10의 절반을 더하여 값을 복원한다. 그러나 일반적으로는 원신호값과 복원값은 일치하지 않고 오차가 생긴다. 이 오차를 [양자화 오차]라고 하는데 그 구체적인 수치 열을 도 12에 나타낸다.
이와 같이, 양자화를 이용하면 원신호 값은 완전히는 복원되지 않아 그 뜻에서는 [비가역]이지만, 그 만큼 압축율을 높일 수 있다, 또 압축 정도는 양자화의 레벨 수에 대응한다. 레벨수가 적을 수록 크게 압축될 수 있지만 평균적인 양자화 오차는 증대한다.
이상 서술한 허프만 부호나 양자화는 음향뿐만 아니라 정지 화상이나 동화상의 압축에도 널리 사용되고 있는 가장 기본적인 기술이다.
다음, 음향 압축에 대해 상세히 설명한다.
상술한 [양자화 오차]는 음향 압축에 있어서는 [음질의 열화]를 초래한다. 한편, 악음의 부호화에서는 열화를 느끼지 않을 정도로 음향 데이터를 압축할 것이 요구된다. 따라서 최적한 양자화의 레벨 수를 정하기 위하여 [마스킹 효과]라는 인간의 청각 성질을 잘 이용한다. [마스킹 효과]는 큰 음이 그 주변의 작은 음을 감추는 현상으로, 조금 더 정확히 말하면, [어떤 주파수의 강한 음이 그 부근의 주파수의 약한 음을 감춘다]는 것으로 된다. 도 13을 이용하여 이것을 설명한다.
도 13에서는 횡축에 주파수, 종축에 음량을 나타내고 있다. 그리고 굵은 실선은 어떤 입력 음향 데이터의 음량 분포를 나타내고 있다. 여기서는 예컨대, 도 13의 입력 음에서 (b), (c)의 음은 강한 (a)의 음에 감춰져 들리지 않는다. 이것이 마스킹 효과인데, 그 마스킹 효과에 의한 [들림/들리지 않음]의 경계를 나타낸 것이 굵은 점선으로 나타낸 [마스킹 임계값]이다.
또한, 인간에게는 도면의 가는 실선으로 나타낸 바와 같은 특성도 있는데 이것을 절대 가청(可聽) 임계값이라고 하며, 정숙한 환경하에서 인간이 소리를 들을 수 있는 최소 한도의 소리를 나타낸다. 도면에 나타낸 바와 같이 인간의 귀에는 2 KHz∼ 5 KHz 부근, 특히 4 KHz의 소리에 대해 가장 감도가 좋고, 그 이하 및 이상의 주파수로 되면 점차 들리기 어렵게 된다.
여기서 마스킹 임계값은 입력 음향 데이터에 의존하여 변화하지만, 절대 가청 임계값은 변화하지 않는다. 결국, 입력음 중 귀에 들리는 것은 마스킹 임계값과 절대 가청 임계값보다도 강한 부분 뿐이고, 그 이외의 들리지 않는 부분의 정보를 없애도 청각 상에서는 원래 입력 음과 마찬가지로 들리는 것이다.
이것은 음향 신호의 부호화에 있어서는, 도 14의 사선으로 나타낸 부분만에 부호화 비트를 할당하는 것과 같다. 단, 여기서의 비트 할당은 음향 신호의 전체 영역을 복수의 소대역으로 분할하고 그 분할 대역(D)의 단위로 행하고 있다. 각 사선의 영역의 횡폭은 그 분할 대역의 폭에 상당하다.
각 분할 대역에서 사선 영역의 하한 강도 이하의 음은 귀에 들리지 않는다. 따라서 원음과 부호/복화화 음의 강도 오차가 이 하한을 넘지 않으면 양자의 차를 감지할 수 없다. 그 뜻에서 이 하한의 강도를 허용 오차 강도라고 한다. 음향 신호를 양자화하여 압축할 때, 원음에 대한 부호/복호화 음의 양자화 오차 강도가 허용 오차 강도 이하로 되도록 양자화하면, 원음의 음질을 손상주지 않고 음향 신호를 압축시킬 수 있다. 따라서 도 14의 사선 영역에만 부호화 비트를 할당하는 것은 각 분할 대역에서의 양자화 허용 강도가 마침 허용 오차 강도로 되도록 양자화하는 것과 같다.
또, 음향 압축에서는 이 성질을 이용하여 입력 음향 데이터 중에서 마스킹 임계값과 절대 가청 임계값보다 강한 부분만 부호화함으로써 데이터량을 대폭 삭감하는 것이다. 그리고 실제로 상기 두 개의 임계값이 상술한 양자화 오차의 허용 상한에 대응한다. 즉, 입력 음향 데이터를 양자화할 때, 양자화 오차가 상기 두 개의 임계값이 큰 부분을 우회하지 않도록 하면, 청각 상으로는 음질의 열화를 느끼지 않는다는 것이다. 임계값이 작은 부분에서는 양자화의 레벨 수를 적게하면 열화를 귀로 느낄 수 있지만, 임계값이 큰 부분에서는 다소 레벨 수를 줄여도 된다.
입력 음향 데이터는 일반적으로 시간 방향의 디지털 샘플 값 열로서 나타나지만, 그대로는 상기 마스킹 효과를 잘 적용할 수 없다. 그래서 이것을 보다 처리하기 쉬운 형으로 변환할 필요가 있다.
그 중 하나가 시간 영역의 데이터 열을 일정한 샘플수마다 블록화하고 동일 샘플수의 주파수 영역의 데이터 열로 변환하는 방법이다. 도 15a에 시간 영역에서의 1024 샘플의 음향 파형을, 도 15b에 이것을 1024 샘플의 주파수 영역의 파형으로 변환한 열을 각각 나타내고 있다.
일반적으로 음향 신호를 주파수 영역으로 변환하면, 주파수에 의해 음향(에너지)의 편향이 생긴다. 예컨대, 도 15a, 15b에서, 시간 영역에서는 신호값이 균등하게 분포하고 있지만, 주파수 영역에서는 저주파수 측으로 에너지가 치우치고 있다. 부호화할 때는 에너지가 집중하여 있는 부분에 중점적으로 비트를 배분함으로써 압축 효율을 향상시킬 수 있다.
또 시간으로부터 주파수로 변환하는 데는, DFT(Digital Fourier Transform:이산 프리에 변환)나 DCT(Discrete Cosine Transform: 이산 코싸인 변환)등의 방법이 있는데, 화상이나 음향의 압축에서는 DCT 및 그 변형인 MDCT가 통상 사용된다. MDCT에 대해서는 후술한다.
입력 음향 데이터의 변환에는 이 외에 서브 밴드 분할이 있다. 서브 밴드 분할에서는 입력 파형을 복수의 주파수 대역으로 분할하는데, 분할한 파형 각각은 시간 영역 그대로인 점이 상기 주파수 영역으로 변환하는 것과 상이하다. 또 m개 샘플수로부터 이루어지는 입력 데이터를 n개 서브 밴드로 분할하면, 각 서브 밴드는 m/n개 샘플수로 된다. 도 16에 입력 파형을 2 개의 서브 밴드로 분할한 단순한 예를 나타낸다.
이상 설명한 바와 같이, 음향 부호화에서 이용되는 가장 기본적인 기술을 설명했는데, 여기서 이들을 조합한 음향 압축 부호화의 기본적인 처리의 흐름을 도 17에 나타낸다.
우선, 입력 음향 데이터를 주파수 영역으로 변환, 혹은 서브 밴드로 분할한다. 다음에 변환후의 각 샘플 값을 양자화한다. 이 때, 이와 병행하여 음향 데이터의 마스킹 임계값을 계산하고, 이 마스킹 임계값과 절대 가청 임계값을 조합하여 각 주파수에 있어서의 양자화 오차 상한을 구해 둔다(이것을 행하는 것이 도 17의 [청각 심리 모델부]이다). 양자화는 오차가 그 상한을 넘지 않도록 행해진다. 최후로 각 양자화 값의 출현 빈도에 따라 허프만 부호를 할당하여 최종적인 부호화 데이터를 생성한다.
또, 상술한 것은 음향 압축 부호화의 가장 기본적인 처리를 나타낸 것으로, MP3나 AAC 등 실제 부호화 방식에서는 상기 처리 이외의 여러 가지 처리를 고안하여 행함으로써 나아가 압축율의 향상을 꾀하고 있다.
다음, MP3에 관해서는 AAC(후술함)와 주로 상이한 점을 설명한다. 여기서도 기본적인 처리의 흐름은 [주파수 영역으로 변환→양자화→허프만 부호]이다.
도 18에 서브 밴드 분할과 MDCT 처리를 중심으로 MP3의 부호화 처리의 흐름을 나타낸다. AAC와의 큰 상이점은 MDCT 앞에 서브 밴드 분할 처리가 있는 것이다. 서브 밴드 분할은 입력 데이터를 복수의 주파수 영역으로 분할함으로써 각 분할 대역에서 데이터는 시간축 상에 늘어져 있다.
MP3에서는 입력 데이터를 32 대역으로 분할하고, 분할 대역마다 MDCT를 행한다. AAC와 마찬가지로 롱/쇼트의 2 종류의 윈도 함수를 구분하여 사용하는데, 롱은 36 샘플, 쇼트는 12 샘플의 길이이다. 단, AAC와 달리 롱/쇼트를 혼합시킬 수 있다. 도 18에서는 고주파 대역은 쇼트를, 저주파 대역은 롱을 각각 이용한 경우를 나타내고 있다. 물론, 전부 롱이든가 전부 쇼트라도 관계없다.
또, AAC에서는 롱 윈도는 2048 샘플이지만, MP3에서는 상기 36 샘플을 서브 밴드 분할 전의 길이로 환산하면, 36×32 = 1152 샘플로 된다.
도 19는 AAC 부호화의 기본적인 구성을 나타내는 블록도이다. 이 도면에 있어서, 청각 심리 모델부(101)는 시간축에 따라 블록화된 입력 음향 신호의 각 분할 대역 마다 허용 오차 강도를 산출한다. 한편, 마찬가지로 블록화된 입력 신호에 대해 게인 컨트롤(102) 및 필터 뱅크(103)에서는 MDCT(Modified Discrete Cosine Transform)에 의해 주파수 영역으로 변환하고, TNS(Temporal Noise Shaping)(104), 예측기(106)에서는 예측 부호화, 그리고 강도/결합(Intensity/Coupling)(105) 및 스테레오 (Middle Side Stereo)(이하 M/S라고 한다)(107)는 스테레오 상관 부호화 처리를 각각 한다. 그 후, 정규화 계수(108)를 결정하고 양자화기(109)에서는 그 정규화 계수(108)에 근거하여 음향 신호를 양자화한다. 이 정규화 계수는 도 14의 허용 오차 강도에 대응하는 것으로, 각 분할 대역마다 정해진다. 양자화한 후, 노이즈리스 코딩(Noiseless coding)(110)에서는 미리 정해진 허프만 부호(Huffman code)표에 근거하여 정규화 계수와 양자화값에 각각 허프만 부호를 부여하여 노이즈리스 코딩을 행하고 최후로 멀티플렉서(multiplexer)(111)로 비트 스트림(bit stream)을 형성한다.
그런데, 상술한 필터 뱅크(103)에 있어서의 MDCT란, 도 20에 나타낸 바와 같이 시간축에 따라 변환 영역을 50 %씩 컨벌루션(overlap)시키면서 DCT(Discrete Cosine Transform: 이산 코싸인 변환)를 행하는 것이다. 또한 생성되는 MDCT 계수의 수는 변환 영역의 샘플 수의 절반이다. AAC에서는 입력 음향 신호 블록에 대해 2048 샘플의 긴 변환 영역(롱 블록), 또는 각 256 샘플의 8 개의 짧은 변환 영역(쇼트 블록)의 어느 하나를 적용한다. 따라서 MDCT 계수의 수는 긴 경우에는 1024, 짧은 경우에는 128로 된다. 쇼트 블록은 항상 8 블록을 연속하여 적용함으로써 롱 블록을 이용한 경우와 MDCT 계수의 수를 합하도록 되어 있다.
일반적으로 도 21과 같이 신호 파형의 변화가 적은 정상적인 부분에는 롱 블록을, 도 22와 같이 변화가 심한 어택(attact)부에는 쇼트 블록을 이용한다. 이 양자를 적절하게 분간하는 것은 중요하므로 만약 도 22와 같은 신호에 롱 블록을 적용하면 본래의 어택 앞에 프리에코(pre-echo)로 불리우는 노이즈가 발생한다. 또한 도 21과 같은 신호에 쇼트 블록을 적용하면, 주파수 영역에서의 해상도 부족으로부터 적절한 비트 할당이 되지 않아 부호화 효율이 저하하여 역시 노이즈가 발생하고 특히 저주파수의 음에 대해서는 현저하다.
쇼트 블록에 관해서는 나아가 그룹을 나누는 문제가 있다. 그룹 나눔이란, 상기 8 개의 쇼트 블록을 정규화 계수의 동일한 연속하는 블록마다 묶어서 그룹화하는 것이다. 그룹 내에서 정규화 계수를 공통화함으로써 정보량의 삭감 효과가 높아진다. 구체적으로는 도 19의 노이즈리스 코딩(110)에서 정규화 계수에 허프만 부호를 할당할 때, 각 쇼트 블록 단위가 아니고 그룹 단위로 할당하는 것이다. 도 23에 그룹 나눔의 일례를 나타낸다. 여기서는 그룹수가 3으로, 각 그룹 내의 블록수는 최초의 제0 그룹에서는 5 개, 다음의 제1 그룹에서는 1 개, 최후의 제2 그룹에서는 2 개로 되어 있다. 그룹 나눔을 적절하게 하지 않으면, 부호량의 증가나 음질의 저하를 초래한다. 그룹의 분할 수가 너무 많으면, 본래 공통화할 수 있는 정규화 계수를 중복하여 부호화함으로써 부호화 효율이 저하한다. 반대로, 그룹수가 너무 적으면, 음향 신호의 변화가 격렬함에도 불구하고 공통의 정규화 계수로 양자화하는 것으로 되므로 음질이 저하한다. 또, ISO/IEC 13818 - 7에서는 그룹 나눔에 관하여 부호의 구문법(syntax) 규정은 있어도 구체적인 그룹 나눔의 기준이나 수법에 관해서는 고려되어 있지 않다.
상술한 바와 같이 부호화에 있어서는 입력 음향 신호 블록에 관하여 적절히 롱 블록과 쇼트 블록을 구별하여 적용하지 않으면 안된다. 이 롱/쇼트의 판정을 하는 것은 도 19의 청각 심리 모델부(101)이다. ISO/IEC 13818 - 7에서는 청각 심리 모델부(101)에 있어서의 각 목표(target) 블록에 대한 롱/쇼트 판정 방법의 일례를 나타내고 있다. 그 판정 처리의 개요를 아래에 설명한다.
스텝 1: 음향 신호의 재구축
롱 블록용으로 1024 샘플(쇼트 블록용으로는 128 샘플)을 새롭게 판독하고 앞 블록에서 이미 판독한 1024 샘플(128 샘플)과 합해서 2048 샘플(256 샘플)의 신호 계열을 재구축한다.
스텝 2: 핸 윈도(Hann window) 씌움과 FFT
스텝 1에서 구축한 2048 샘플(256 샘플)의 음향 신호에 핸 윈도를 씌우고, 나아가 FFT(Fast Fourier Transform)를 행하여 1024 개(128 개)의 FFT 계수를 산출한다.
스텝 3: FFT 계수의 예측값의 계산
선행하는 2 그룹의 FFT 계수의 실수부와 허수부로부터 현재 목표로하고 있는 블록의 FFT 계수의 실수부와 허수부를 예측하고, 각각 1024 개(128 개)의 예측값을 산출한다.
스텝 4: 비 예측가능성값의 계산
스텝 2에서 산출한 각 FFT 계수의 실수부와 허수부와, 스텝 3에서 산출한 각 FFT 계수의 실수부와 허수부의 예측값으로부터 각각 비 예측가능성값을 산출한다. 여기서 비 예측가능성값은 0으로부터 1 사이의 값을 취하고, 0에 가까울 수록 음향 신호의 순음성(純音性)이 높고, 1에 가까울수록 잡음성이 높은 것을 가리키는데, 바꾸어 말하면 순음성이 낮은 것을 나타낸다.
스텝 5: 각 분할 대역에서의 음향 신호 강도와 비 예측가능성값의 계산
여기서의 분할 대역은 도 14에서 나타낸 것에 상당하다. 각 분할 대역마다 스텝 2에서 산출한 각 FFT 계수에 의해 음향 신호의 강도를 산출한다. 나아가 스텝 4에서 산출한 비 예측가능성값을 강도로 가중하여 각 분할 대역마다의 비 예측가능성값을 산출한다.
스텝 6: 전개(spreading) 함수를 이용한 강도와 비 예측가능성값의 컨벌루션(convolution)
각 분할 대역에 있어서의 다른 분할 대역의 음향 신호 강도 및 비 예측가능성값의 영향을 전개 함수로 구하고 각각을 컨벌루션하여 정규화한다.
스텝 7: 순음성 지표(index)의 계산
각 분할 대역 b에 있어서, 스텝 6에서 산출한 컨벌루션 비 예측가능성값[cb(b)]에 근거하여 순음성 지표 tb(b)[= -0.299-0.43loge(cb(b))]를 산출한다. 나아가 순음성 지표를 0으로부터 1 사이에 제한한다. 여기서 지표가 1에 가까울수록 음향 신호의 순음성이 높고, 0에 가까울 수록 잡음성이 높다는 것을 나타낸다.
스텝 8: S/N비의 계산
각 분할 대역에 있어서, 스텝 7에서 산출한 순음성 지표에 근거하여 S/N비를 산출한다. 여기서 일반적으로 잡음 성분이 순음 성분보다도 마스킹 효과가 크다는 성질을 이용한다.
스텝 9: 강도 비의 계산
각 분할 대역에 있어서, 스텝 8에서 산출한 S/N비에 근거하여 컨벌루션 음향 신호 강도와 마스킹 임계값의 비를 산출한다.
스텝 10: 허용 오차 강도의 계산
각 분할 대역에 있어서, 스텝 6에서 산출한 컨벌루션 음향 신호 강도와, 스텝 9에서 산출한 음향 신호 강도와 마스킹 임계값의 비에 근거하여 마스킹 임계값을 산출한다.
스텝 11: 프리에코 조절과 절대 가청 임계값의 고려
각 분할 대역에 있어서, 스텝 10에서 산출한 마스킹 임계값을 앞 블록에서의 허용 오차 강도를 이용하여 프리에코 조정을 한다. 나아가 이 조정값과 절대 가청 임계값이 큰 쪽의 값을 현재 블록에서의 허용 오차 강도라고 한다.
스텝 12: 지각 엔트로피의 계산
롱 블록용과 쇼트 블록용 각각에 관하여, 수학식 1에서 정의되는 지각 엔트로피[Perceptual Entropy(PE)]를 산출한다.
단, w(b)는 분할 대역 b의 폭, nb(b)는 스텝 11에서 산출한 분할 대역 b의 허용 오차 강도, e(b)는 스텝 5에서 산출한 분할 대역 b의 음향 신호 강도를 각각 나타내고 있다. 여기서 PE는 도 14에 있어서 비트 할당 영역(사선 영역)의 면적 총합에 대응한다고 생각할 수 있다.
스텝 13: 롱/쇼트 블록의 판정(도 24에 나타낸 롱/쇼트 블록 판정 동작 흐름을 참조)
스텝 12에서 산출한 롱 블록용의 PE 값(스텝 S10)이 미리 정해진 정수(switch_pe)보다 큰 경우는 목표(target) 블록을 쇼트 블록이라고 판정하고(스텝 S11, S12), 작은 경우는 롱 블록이라고 판정한다(스텝 S11, S13). 여기서 switch_pe는 애플리케이션에 의존하여 정해진 값이다.
이상이 ISO/IEC 13818 - 7에 기재된 롱/쇼트의 판정 방법이다. 그런데 상술한 ISO/IEC 13818 - 7에서 기재된 롱/쇼트 블록의 판정 방법으로 반드시 적절한 판정이 행해지는 것은 아니다. 즉, 본래 쇼트 블록이라고 판정해야 할 부분을 롱 블록이라고 판정하여(혹은 그 반대로), 음질의 열화를 초래하는 경우가 있다.
한편, 일본 특허 공개 공보 평9 - 232964호에서는 입력 신호를 소정 구간마다 2 승 합계를 각각 구하고 각 구간마다 2승 합계된 신호 중 적어도 2 이상의 구간에 걸치는 변화도에 의해 상기 신호의 과도 상태를 검출하도록 과도 상태 검출 회로(2)를 구성하고 직교 변환 처리나 필터 처리를 하지 않고 시간축 상의 입력 신호의 2 승 합계를 계산하는 것만으로 과도 상태 즉, 롱/쇼트가 변화하는 부분을 검출할 수 있도록 하고 있다. 이 방법에서는 입력 신호의 2 승 합계만을 이용하여 지각 엔트로피를 고려하지 않으므로 반드시 청각 상의 특성에 맞는 판정을 할 수 있다고 할 수 없어 음질이 열화되는 우려가 있다.
그래서 동일 그룹 내의 각 쇼트 블록에 관한 지각 엔트로피의 최대값과 최소값의 차가 미리 정해진 임계값보다 작게 되도록 입력 음향 신호 블록을 그룹으로 나누고 그 결과, 그룹 수가 1인 경우, 또는 이것과 다른 조건을 만족시키는 경우는 입력 음향 신호 블록을 1 개의 롱 블록으로 주파수 영역으로 변환하고 그 외의 경우는 복수의 쇼트 블록으로 변환하는 방법이 있다. 이 방법에 관해서 동작 흐름을 나타낸 도 26의 음향 데이터를 이용하고, 도 26에서는 연속하는 8 개의 각 쇼트 블록에 대응하는 일련의 번호를 부여하고 있다.
우선, 입력된 음향 신호는 연속하는 8 개의 쇼트 블록으로 분할된다. 그리고 이 8 개의 쇼트 블록의 지각 엔트로피를 각각 계산하고 이들을 순서적으로 PE(i)(0≤i≤7)로 한다(스텝 S20). 이 계산은 상술한 ISO/IEC13818-7에서 각 목표 블록에 대한 롱/쇼트 블록의 판정 방법의 스텝 1 내지 스텝 12로 설명한 방법을 각 쇼트 블록에 대해 행함으로써 실현한다. 다음에 group_len [0] = 1, group_len [gnum] = 1, (0≤ gnum ≤7)로 초기화한다(스텝 S21). 여기서 gnum은 그룹 분(分)에 있어서 그룹의 일련의 번호, group_len [gnum]은 제 gnum그룹 내에 포함되는 쇼트 블록 수를 각각 나타낸다. 그리고 gnum = 0, min = PE(0), max = PE(0)로 각각 초기화한다(스텝 S22). 이 min, max는 PE(i)의 최소값, 최대값을 각각 나타낸다. 도 18에 의해 여기서는 min = 110, max = 110로 된다. 나아가 지표 i를 i = 1로 초기화한다(스텝 S23). 이 지표는 쇼트 블록의 일련의 번호에 대응한다.
다음으로 PE(i)에 의해 min 또는 max를 갱신한다. 즉, PE(i) < min이면, min = PE(i), PE(i) > max이면 max = PE(i)로 한다(스텝 S24). 도 27의 예에서는 PE(1) = 96이므로 min = 96, max = 110로 된다. 그리고 그룹 나눔의 판단을 한다(스텝 S25). 즉, 구한 max-min를 미리 정해진 임계값 th과 비교하여 이 임계값 th 이상의 경우는 쇼트 블록 i-1과 i의 사이에서 그룹을 나누기 위하여 스텝 S26로 진행하고, 임계값 th보다 작은 경우는 쇼트 블록 i-1과 i가 동일 그륩에 포함된다고 판정하여 스텝 S27로 진행한다. 이 예에서는 th = 50으로 해 둔다. 즉, 동일 그룹에 포함되는 각 쇼트 블록의 PE(i)의 최대값과 최소값의 차가 50보다 작게 되도록, 그룹을 나누는 것이다. i = 1일 때는 max - min = 110 - 96 = 14 < 50 = th이므로 쇼트 블록 0과 1은 동일 그룹에 포함된다고 판단되어 스텝 S27로 진행한다. 또, 여기서는 gnum = 0이므로 쇼트 블록 0과 1은 제0 그룹에 포함된다. 그리고 group_len [gnum]의 값이 1만 증가한다(스텝 S28). 이것은 제 gnum그룹에 포함되는 쇼트 블록의 수가 1 개만 증가한다는 것이다. 이 예에서는 스텝 S21, S22에서 gnum = 0, 동시에 group_len [0] = 1로 초기화되어 있으므로 스텝 S27에서는 group_len [0] = 2로 된다. 이것은 제0 그룹에 포함되는 쇼트 블록으로서 블록 0, 1의 2 개 블록이 이미 확정되어 있는 것에 대응한다.
다음으로 지표 i가 1만 증가하고(스텝 S28), i가 7보다 작은 경우는 스텝 S24로 복귀한다(스텝 S29). 이 예에서는 i = 2 <7이므로 스텝 S24로 복귀한다.
그후, 상기 설명한 것과 마찬가지 동작이 i = 4까지 계속된다. i = 4일 때는 도 27로부터 도 25a의 스텝 S24로 min = 96, max = 137로 되므로, 스텝 S25에서는 max-min = 41 < 50 = th로 판정되고, 또한 이 상태로 스텝 S25로부터 스텝 S27로 진행한다. 그리고 스텝 S27에서 group_len [0] = 5로 된다. 이것은 즉, 제0 그룹에 포함되는 쇼트 블록으로서 블록 0, 1, 2, 3, 4의 5 개 블록이 확정된 것에 대응한다. 그리고 스텝 S28에서 i = 5로 된 후, 스텝 S29를 거쳐 재차 스텝S24로 복귀하면 이번은 PE(5) = 152이므로 min = 96, max = 152로 된다. 그러면, 스텝 S25에서는 max-min = 56 > 50 = th로 판정되므로 스텝 S26로 진행한다. 이것은 쇼트 블록 4와 5의 사이에서 그룹을 나누는 것을 의미한다. 스텝 S26에서는 Gnum의 값이 1만 증가하고, 동시에 min, max를 각각 최신 PE(i)로 바꿔놓는다. 여기서는Gnum = 1, min = 152, max = 152로 된다. Gnum = 1은 쇼트 블록 5가 포함되는 그룹이 제1 그룹인 것에 대응한다.
다음으로 스텝 S27에서 group_len [1]이 1만 증가한다. group_len [1]은 스텝 S21에서 0으로 초기화되었으므로 여기서 새롭게 group_len [1] = 1로 된다. 이것은 제1 그룹에 포함되는 쇼트 블록으로서 블록 5의 1 개 블록이 확정된 것에 대응한다.
이하 마찬가지로, 도 25b의 스텝 S28에서 i = 6으로 되고, 스텝 S29로부터 또 스텝 S24로 복귀하면, 이번은 도 27로부터 PE(6) = 269이므로 min = 152, max = 269로 되므로 스텝 S25에서는 max-min = 117 > 50 으로 판정되어 스텝 S26으로 진행한다. 즉, 쇼트 블록 5와 6의 사이에도 그룹이 나누어지는 것이다. 그리고 스텝 S26에서 Gnum = 2, min = 269, max = 269로 되고, 나아가 스텝 S27에서 group_len [2] = 1로 된다. 그리고 스텝 S28에서 i = 7로 한 후 지금까지와 마찬가지로 스텝 S24에서 PE(7) = 231이므로 min = 231, max = 269로 되며, 스텝 S25에서 max-min = 38 < 50 으로 판정되어 스텝 S27로 진행한다. 즉, 쇼트 블록 6과 7은 모두 제2 그룹에 포함된다. 이것에 대응하여 스텝 S27에서 group_len [2] = 2로 된다. 그런데, 다음의 스텝 S28에서 i = 8로 되면 스텝 S29의 판정에 의해 스텝 S30으로 진행한다. 이것으로 8 개의 쇼트 블록 전부에 관한 그룹 나눔이 끝난 것으로 된다.
이 예에서는 결국, Gnum = 2, group_len [0] = 5, group_len [1] = 1, group_len [2] = 2로 된다. 즉, 그룹 수는 3으로, 각 그룹에 포함되는 쇼트 블록 수는 제0 그룹이 5, 제1 그룹이 1, 제2 그룹이 2라는 결과이다. 이것은 도 23에 나타낸 그룹 나눔의 예와 마찬가지인 것이다.
그러나, 이 방법에서는 적절한 롱/쇼트의 판정을 할 수 없는 경우가 존재한다. 그것은 저주파 성분에 순음성이 높은 성분을 포함한 음향 데이터를 부호화하는 경우이다. 쇼트 블록에 의한 변환은 시간 영역에서의 해상도가 증가하는 반면, 주파수 영역에서의 해상도는 저하한다. 한편, 인간의 귀는 저주파수 영역에서 높은 해상도의 마스킹 특성을 구비하고, 특히 순음성이 높은 음향 데이터에 대해서는 아주 좁은 주파수 대역만이 마스킹된다.
그런데, 저주파 성분에 순음성이 높은 성분을 포함하는 음향 데이터를 쇼트 블록으로 변환하면, 쇼트 블록에 기인하는 주파수 영역에서의 해상도 부족에 의해 원래의 음향 데이터 에너지가 주변의 주파수 대역으로 분산되고, 그것이 인간의 귀의 저주파 성분에 있어서의 마스킹 폭을 초과하여 넓어짐으로써 결과적으로 음질의 열화를 느끼게 된다. 이 것은 단순히 쇼트 블록에 관한 지각 엔트로피만에 의거하여 롱/쇼트의 판정을 하는 것은 불충분하며, 나아가 음향 데이터의 순음성과 마스킹 특성의 주파수 의존성을 조합하여 고려할 필요가 있다는 것을 나타낸다.
그래서 본 출원인은 다음에, 입력 음향 신호 프레임을 복수의 쇼트 블록으로 분할하고 각각의 쇼트 블록에 관하여 미리 정한 1 개 또는 복수의 분할 대역에 포함되는 음향 성분의 순음성 지표가 분할 대역마다 미리 정한 임계값보다 큰지 어떤지를 판정하고, 상기 미리 정한 1 개 또는 복수의 분할 대역 전부에 있어서, 순음성 지표가 상기 미리 정한 임계값보다 큰 쇼트 블록이 적어도 1 개 존재하는 경우는 입력 음향 신호 프레임을 1 개의 롱 블록으로 주파수 영역으로 변환한다고 판정하는 방법을 출원하였다. 이 방법의 구체적인 실시예를 흐름도로 나타낸 것이 도 28a, 28b이다.
도 28a, 28b는 디지털 음향 신호 부호화 장치의 동작을 나타낸 흐름도이다. 이하, 2 개의 도면을 이용하여 본 실시예의 구체적인 동작을 설명한다. 여기서, 입력 음향 신호의 예로서, 도 26의 음향 데이터를 이용하는데, 도 26에서는 연속하는 8 개의 각 쇼트 블록에 대응하는 일련 번호를 부여하고 있다.
우선, 입력된 음향 신호는 연속하는 8 개의 쇼트 블록i((0≤i≤7)에 관하여 각 분할 대역 sfb에서의 순음성 지표를 각각 계산하고, 이들을 tb [i] [sfb]로 한다(스텝 S40). 여기서 sfb는 도 26에 나타낸 바와 같이 각 분할 대역을 식별하기 위한 일련 번호이다. 또, 이 순음성 지표의 계산은 상술한 ISO/IEC13818-7에서의 각 목표 블록에 대한 롱/쇼트의 판정 스텝 중 스텝 7로 설명한 방법에 의한다. 다음에, tonal_flag = 0으로 초기화한다(스텝 S41). 나아가 쇼트 블록의 일련 번호 i를 i = 0으로 초기화한다(스텝 S42). 그리고 미리 정한 1 개 또는 복수의 분할 대역에 있어서 각 순음성 지표가 각각의 분할 대역에 관하여 미리 정한 임계값보다 큰지 어떤지를 조사한다(스텝 S43). 도 28a, 28b의 예에서는 sfb = 7, 8, 9인 분할 영역에 관하여 조사되어 있고, 각각 순음성 지표의 임계값을 th7, th8, th9로 하고 있다.
그런데, 이 예에서는 각각의 쇼트 블록 i에 관하여 sfb = 7, 8, 9에 있어서 순음성 지표 값이 도 29에 나타낸 바와 같은 것으로 한다. 또한 th7 = 0.6, th8 = 0.9, th9 = 0.8로 정해져 있는 것으로 한다. 그러면, 최초의i = 0일 때는 tb [0] [7] = 0.12 < 0.6 = th7, tb [0] [8] = 0.08 < 0.9 = th8, tb [0] [9] = 0.15 < 0.8 = th9이므로 스텝 S43에서의 판정은 '아니오'로 되어 다음의 스텝 S45로 진행한다. 그리고 i의 값이 1 개만 증가되어 i = 1로 되고 스텝 S46의 판정을 거쳐 재차 스텝 S43로 복귀한다.
그후, 상기 설명한 동작과 마찬가지로 동작이 i = 5까지 계속된다. i = 6으로 된 후(스텝 S45), 스텝 S46을 거쳐 재차 스텝 S43으로 복귀한다. 이 후에 tb [6] [7] = 0.67 > 0.6 = th7, tb [6] [8] = 0.95 > 0.9 = th8, tb [6] [9] = 0.89 > 0.8 = th9이므로 스텝 S43에서의 판정은 '예'로 되어 다음의 스텝 S44로 진행한다. 그리고, tonal_flag = 1로 된다(스텝 S44). 다음에 i = 7로 되고(스텝 S45), 스텝 S46을 거쳐 다시 스텝 S43으로 복귀한다. i = 7에서는 tb [7] [7] = 0.42 < 0.6 = th7, tb [7] [8] = 0.84 < 0.9 = th8, tb [7] [9] = 0.81 > 0.8 = th9이므로 스텝 S43의 판정은 '아니오'로 되어 스텝 S45로 진행한다. 한편, tonal_flag = 1인 상태로 변하지 않는다. 그리고 i = 8로 된 후(스텝 S45), 스텝 S46의 판정을 거쳐 이번에는 스텝 S47로 진행한다. 그리고 tonal_flag의 값을 조사한다(스텝 S47). 이 예에서는 tonal_flag = 1이므로 판정은 '예'로 되어 스텝 S48로 진행한다. 따라서 입력된 음향 블록을 1 개의 롱 블록에 의해 MDCT 변환하는 것으로 판정된다.
그러나 상기 방법으로도 적절한 롱/쇼트의 판정이 되지 않는 경우가 있다. 그것은 본래 쇼트 블록으로 변환하는 것이 보통임에도 불구하고 상기 종래예의 그룹 나눔의 결과가 제1 그룹으로 되기 때문에 롱 블록이라고 판정되는 것과 같은 경우가 있다. 또한, 도 14에 의하면, 4 KHz이상의 영역에서 입력 음향 신호의 샘플링 주파수가 작아질수록 절대 가청 임계값의 기여도(寄與度)는 저하되므로 비트 할당 영역(도 14에서의 사선 영역)의 면적은 상대적으로 증대한다. 그 결과, 상술한 ISO/IEC 13818-7에서 기재된 롱/쇼트 블록의 판정 방법에 있어서의 스텝 12로 계산한 지각 엔트로피의 합계 값 차에 관한 임계값이 샘플링 주파수에 의하지 않고 공통값이면, 어떤 샘플링 주파수에서는 적절한 롱/쇼트의 판정을 할 수 있어도 다른 주파수의 경우는 적절한 판정을 할 수 없다는 문제점이 생긴다.
본 발명은 이와 같은 문제점을 해결하기 위한 것으로, 입력 음향 신호의 샘플링 주파수의 차이에도 대응하고 음질이 열화하지 않도록 적절히 쇼트 블록을 그룹으로 나누고, 동시에 롱/쇼트의 구별을 판별할 수 있는 디지털 음향 신호 장치. 디지털 음향 신호 부호화 방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체를 제공하는 것을 목적으로 한다.
도 1은 본 발명에 따른 디지털 음향 신호 부호화 장치의 구성을 나타낸 블록도.
도 2는 본 발명의 제1 실시예에 따른 디지털 음향 신호 부호화 방법의 동작을 나타낸 흐름도.
도 3은 제1 실시예에 있어 음향 신호 일례의 신호 파형을 나타낸 도면.
도 4는 쇼트 블록 별의 시간적으로 연속한 2 개 프레임 내의 지각 엔트로피 값 관계를 나타낸 도면.
도 5는 본 발명의 제2 실시예에 따른 디지털 음향 신호 부호화 방법의 동작을 나타낸 흐름도.
도 6은 제2 실시예에 있어 그룹 구분의 일례를 나타낸 도면.
도 7은 샘플링 주파수마다의 임계값 일례를 나타낸 도면.
도 8은 본 발명의 시스템 구성을 나타낸 블록도.
도 9는 고정 길이 부호와 허프만 부호의 예를 나타낸 도면.
도 10은 실제 수치열에 부호를 할당한 예를 나타낸 도면.
도 11은 도 9의 허프만 부호를 할당한 경우를 나타낸 도면.
도 12는 양자화 오차의 구체적인 수치 열을 나타낸 도면.
도 13은 마스킹 효과를 이용한 음향 신호의 압축을 나타낸 도면.
도 14는 음향 신호와 마스킹 임계값 및 절대 가청(可聽) 임계값의 강도 분포를 나타낸 도면.
도 15a, 15b는 시간 영역에서의 파형을 주파수 영역에서의 파형으로 변환한 예를 나타낸 도면.
도 16은 주파수 영역에서의 신호를 2 개 대역으로 분할한 예를 나타낸 도면.
도 17은 음향 신호의 부호화의 기본적인 처리를 나타낸 흐름도.
도 18은 서브 밴드 분할과 MDCT(Modified Discrete Cosine Transform) 처리를 중심으로 MP3의 부호화 처리를 나타낸 흐름도.
도 19는 AAC(Advanced Audio Coding)의 부호화의 기본적인 구성을 나타낸 블록.
도 20은 MDCT의 변환 영역을 나타낸 도면.
도 21은 변화가 적은 신호 파형인 경우의 MDCT의 변환 영역을 나타낸 도면.
도 22는 변화가 심한 신호 파형인 경우의 MDCT의 변환 영역을 나타낸 도면.
도 23은 그룹 나눔의 일례를 나타낸 도면.
도 24는 ISO/IEC 13818-7에 있어서 롱/쇼트 블록 판정 동작을 나타낸 흐름도.
도 25a, 25b는 종래 디지털 음향 신호 부호화 방법의 동작을 나타낸 흐름도.
도 26은 음향 신호의 일례인 신호 파형을 나타낸 도면.
도 27은 쇼트 블록에 대한 지각 엔트로피와의 관계를 나타낸 도면.
도 28a, 28b는 다른 종래 디지털 음향 신호 부호화 방법의 동작을 나타낸 흐름도.
도 29는 각 쇼트 블록에 관하여 순음성(純音性) 지표의 값을 나타낸 도면.
<도면의 주요 부분에 대한 부호의 설명>
11 : 블록 분할 수단
12 : 지각(知覺) 엔트로피(entropy) 산출 수단
13 : 지각 엔트로피 총합 산출 수단
14 : 비교 수단
15 : 롱(long)/쇼트(short) 블록 판정 수단
81 : I/F
82 : CPU
83 : ROM
84 : RAM
85 : 표시 장치
86 : 하드 디스크
87 : 키보드
88 : CD-ROM 드라이브
89 : CD-ROM
본 발명은 상기 문제점을 해결하기 위하여, 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 이 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피의 프레임 내의 총합을 구하는 지각 엔트로피 총합 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내에서의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 이 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는 가를 판정하는 롱 블록 또는 쇼트 블록 판정 수단을 구비하는 특징이 있다. 또한 롱/쇼트 블록 판정 수단은 비교 수단에 의한 비교 결과로 절대값이 임계값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정한다. 따라서 입력 음향 신호의 특성에 따라 롱/쇼트 블록의 판정을 할 수 있는 디지털 음향 신호 부호화 장치를 제공할 수 있다.
또한 나아가 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피 프레임 내의 총합을 구하는 지각 엔트로피 총합 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 비교 수단에 의한 비교 결과로 절대값이 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 절대값이 임계값보다 작은 경우에 판정 불가능이라고 판정하는 판정 수단을 구비하는 특징이 있다. 따라서 입력 음향 신호의 특성을 보다 더 잘 반영한 블록 변환의 판정을 할 수 있는 디지털 음향 신호 부호화 장치를 제공할 수 있다.
또한, 임계값을 입력 음향 신호의 샘플링 주파수마다 정함으로써 입력 음향 신호의 샘플링 주파수의 차이에 따른 적절한 롱/쇼트의 판정을 할 수 있다.
또한, 나아가 디지털 음향 신호 부호화 방법은 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고, 산출된 지각 엔트로피 프레임 내의 총합을 구하며, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하고, 이 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는 가를 판정한다. 또한 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중의 어느 것으로 변환하는 상기 판정은 절대값이 임계값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간 적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 절대값이 임계값보다 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정한다. 따라서 입력 음향 신호의 특성에 따른 롱/쇼트의 판정을 할 수 있는 디지털 음향 신호 부호화 방법을 제공할 수 있다.
또한, 다른 디지털 음향 신호 부호화 방법은 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고, 산출된 지각 엔트로피 프레임 내의 총합을 구하며, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하고, 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 상기 절대값이 상기 임계값보다 작은 경우에 판정 불가능이라고 판정한다. 따라서 입력 음향 신호의 특성을 보다 더 잘 반영한 블록 변환 판정을 할 수 있는 디지털 음향 신호 부호화 방법을 제공할 수 있다.
나아가 본 발명의 디지털 음향 신호 부호화 방법을 실행하는 프로그램이 기록된 매체를 이용함으로써 기존의 시스템을 바꾸지 않고, 부호화 시스템을 구축하는 장치를 범용적으로 사용할 수 있다.
이하, 본 발명의 실시예를 도면에 근거하여 설명한다.
본 발명의 실시 형태는 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피의 프레임 내의 총합을 구하는 지각 엔트로피 총합 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는 가를 판정하는 롱/쇼트 블록 판정 수단을 구비한다.
도 1은 본 발명의 일 실시예에 따른 디지털 음향 신호 부호화 장치의 구성을 나타낸 블록이다. 이 도면에 나타낸 본 실시예의 디지털 음향 신호 부호화 장치는 입력된 음향 신호를 소정의 수, 이하 설명에서는 8 개의 연속하는 블록으로 분할하는 블록 분할 수단(11), 분할된 각 블록의 지각 엔트로피(PE)를 상술한 산출식에 따라 계산하는 지각 엔트로피 산출 수단(12)과, 산출된 지각 엔트로피의 프레임 내에서의 총합을 구하는 지각 엔트로피 총합 산출 수단(13)과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내에서의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단(14) 및 비교 결과에 따라 롱 블록 또는 쇼트 블록 중 어느 것인가를 판정하는 롱/쇼트 블록 판정 수단(15)을 포함하여 구성되어 있다.
여기서, 도 2는 본 발명의 제1 실시예에 따른 디지털 음향 신호 부호화 장치의 동작을 나타낸 흐름도이다. 이하, 양 도면을 이용하여 본 실시예의 구체적인 동작을 설명한다. 이 때, 입력 음향 신호의 예로서 도 3의 음향 데이터를 이용한다. 여기서는, 시간적으로 연속하는 2 프레임에 포함되는 합계 16의 쇼트 블록을 나타내고 있다. 프레임은 시간 순서로 프레임 f-1, 프레임 f로 하고, 현재 목표로하고 있는 프레임은 후자의 프레임 f쪽이다. 나아가 각각의 프레임에 있어서 각 쇼트 블록에 대응하는 일련 번호를 부여하고 있다.
우선, 블록 분할 수단(11)에 의해 프레임 f 내의 연속하는 8 개의 쇼트 블록i(0 ≤ i ≤ 7)의 각각에 관하여 지각 엔트로피 산출 수단(12)에 의해 지각 엔트로피 PE [f] [i]를 계산한다(스텝 S101). 이 지각 엔트로피의 계산은 상술한 ISO/IEC13818-7에서 기재된 롱/쇼트 블록 판정 방법에 있어서 스텝 12로 설명한 방법에 의한다. 다음에 지각 엔트로피 총합 산출 수단(13)에 의해 아래 수학식에서 정의되는 바와 같이 PE [f] [i] 의 0 ≤ i ≤ 7에 관하는 합계 값spe [f]를 구한다(스텝 S102).
그리고 비교 수단(14)에 의해 앞 프레임 f-1에서 상기와 마찬가지 방법으로 이미 구한 SPE [f-1]과 SPE [f]의 차의 절대값을 구하고, 이 절대값과 미리 정해진 임계값 switch_pe_s의 크기를 비교한다(스텝 S103). 롱/쇼트 블록 판정 수단(15)에서는 switch_pe_s보다 큰 경우는 스텝 S104로 진행하고, 프레임 f를 1 개의 롱 블록으로 변환한다고 판정한다.
도 4는 도 3의 각 쇼트 블록에 대응하는 PE [f] [i] 를 나타낸 도면이다. 이 도면에 나타낸 예에서는 SPE [f-1] = 1390, SPE [f] = 1030이므로 switch_pe_s = 500인 경우는 |SPE [f-1] - SPE [f] | = 360 < switch_pe_s = 500으로 되므로 프레임 f에 관해서는 1 개의 롱 블록으로 변환한다고 판정된다.
다음으로 본 발명의 제2 실시예에 따른 디지털 음향 신호 부호화 장치의 동작을 도 5에 나타낸 흐름도에 따라 설명한다. 또 스텝 S201로부터 스텝 S204까지는 도 2의 스텝 S101 내지 스텝 S104와 각각 마찬가지 처리를 하는 것으로 하고 상이한 동작에 관해서 설명한다. 스텝 S203으로 앞 프레임 f-1에서 상기와 마찬가지 방법으로 이미 구한 SPE [f-1] 와 SPE [f]의 차의 절대값을 구하고, 이 절대값과 미리 정해진 임계값 switch_pe_s의 크기를 비교한다. switch_pe_s보다 큰 경우는 스텝 S204로 진행하고, 프레임 f를 복수의 쇼트 블록으로 변환한다고 판정한다. 한편, switch_pe_s보다 작은 경우는 스텝 S205로 진행하고, 프레임 내 각 쇼트 블록의 지각 엔트로피 합계 값 차의 정보만으로는 판정 불가능으로 하여 다른 수단에 의한 롱/쇼트 블록의 판정을 한다. 그 일례로서 동일 그룹 내 각 쇼트 블록에 관한 지각 엔트로피 최대값과 최소값의 차가 미리 정해진 임계값보다 작게 되도록 프레임 f를 그룹으로 나누고 그 결과, 그룹 수가 1인 경우는 스텝 S206으로 나아가 프레임 f를 1 개의 롱 블록으로 주파수 영역으로 변환하고, 그 이외의 경우는 스텝 S204로 나아가 복수의 쇼트 블록으로 변환한다고 판정한다. 또 그룹으로 나누는 상세한 설명은 도 25a, 25b의 흐름도에 나타낸 바와 같다.
구체적인 예로서, 도 3 및 도 4에 더하여 프레임 f의 그룹 나눔의 결과를 나타낸 도 6을 포함한 예를 생각한다. 여기서도 switch_pe_s = 500으로 한다. 상술한 바와 같이, 도 3 및 도 4에 나타낸 예에서는 |SPE [f-1] - SPE [f] | = 360 < switch_pe_s = 500이므로 최종적으로 그룹 나눔의 결과에 의한 판정에 맡길 수 있다. 도 6에서는 프레임 f는 3그룹으로 나뉘어진다(쇼트 블록 i = 0, 1, 2, 3, 4가 제0 그룹, i = 5가 제1 그룹, i = 6, 7이 제2 그룹)이므로 복수의 쇼트 블록으로 변환한다고 판정한다. 또 스텝 S205에서 이용되는 롱/쇼트 블록의 판정 방법은 여기서 이용한 그룹 나눔의 결과에 의거하는 방법에 한하지 않고 다른 판정 방법을 이용해도 관계없다. 또한, 도 2 및 도 5에 있어서, switch_pe_s를 1 개 정했지만 샘플링 주파수마다의 switch_pe_s값의 일례를 나타낸 도 7과 같이 입력 음향 신호의 샘플링 주파수마다 정해두고, 실제로 입력되는 음향 신호의 샘플링 주파수에 따라 도 7을 참조하여 switch_pe_s의 값을 설정해도 좋다.
다음, 도 8은 본 발명의 시스템 구성을 나타낸 블록도이다. 즉, 이 도면은 상기 실시예의 디지털 음향 신호 부호화 방법에 의한 소프트웨어를 실행하는 마이크로프로세서 등으로 구축하는 하드웨어를 나타낸 것이다. 이 도면에서 디지털 음향 신호 부호와 시스템은 인터페이스(이하 I/F라 한다)(81), CPU(82), ROM(83), RAM(84), 표시 장치(85), 하드디스크(86), 키보드(87) 및 CD-ROM 드리이브(88)를 포함하여 구성되어 있다. 또한, 범용의 처리 장치를 이용하고 CD-ROM(89)등 판독 가능한 기록 매체에는 본 발명의 디지털 음향 신호 부호화 방법을 실행하는 프로그램이 기록되어 있다. 나아가, I/F(81)를 통하여 외부 장치로부터 제어 신호가 입력되고 키보드(87)에 의해 조작자에 의한 명령 또는 자동적으로 본 발명의 프로그램이 구동된다. 그리고 CPU(82)는 이 프로그램에 따라 상술한 디지털 음향 신호 부호화 방법에 따른 부호화 제어 처리를 하고, 그 처리 결과를 RAM(84)이나 하드 디스크(86) 등의 기억 장치에 저장하며 필요에 따라 표시 장치(85) 등으로 출력한다. 이상과 같이 본 발명의 디지털 음향 신호 부호화 방법을 실행하는 프로그램이 기록된 매체를 이용함으로써 기존의 시스템을 바꾸지 않고, 부호화 시스템을 구축하는 장치를 범용적으로 사용할 수 있다.
또, 본 발명은 상기 실시예에 한정되는 것은 아니고, 특허 청구 범위 내에서 다종의 변형이나 치환이 가능하다는 것은 물론이다.
이상 설명한 바와 같이 본 발명은, 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피의 프레임 내의 총합을 구하는 지각 엔트로피 총합 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내에서의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 이 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는 가를 판정하는 롱 블록 또는 쇼트 블록 판정 수단을 구비하는 것을 특징으로 하고 있다. 또한, 롱/쇼트 블록 판정 수단은 비교 수단에 의한 비교 결과로 절대값이 임계값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정한다. 따라서 입력 음향 신호의 특성에 따라 롱/쇼트 블록의 판정을 할 수 있는 디지털 음향 신호 부호화 장치를 제공할 수 있다.
또한, 나아가 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피 프레임 내의 총합을 구하는 지각 엔트로피 총합 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 비교 수단에 의한 비교 결과로 절대값이 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 절대값이 임계값보다 작은 경우에 판정 불가능이라고 판정하는 판정 수단을 구비하는 특징이 있다. 따라서 입력 음향 신호의 특성을 보다 더 잘 반영한 블록 변환의 판정을 할 수 있는 디지털 음향 신호 부호화 장치를 제공할 수 있다.
또한, 임계값을 입력 음향 신호의 샘플링 주파수마다 정함으로써 입력 음향 신호의 샘플링 주파수의 차이에 따른 적절한 롱/쇼트의 판정을 할 수 있다.
또한, 나아가 디지털 음향 신호 부호화 방법은 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고, 산출된 지각 엔트로피 프레임 내의 총합을 구하며, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하고, 이 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는 가를 판정한다. 또한 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는 상기 판정은 절대값이 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 절대값이 임계값보다 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정한다. 따라서 입력 음향 신호의 특성에 따른 롱/쇼트의 판정을 할 수 있는 디지털 음향 신호 부호화 방법을 제공할 수 있다.
또한, 다른 디지털 음향 신호 부호화 방법은 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고, 산출된 지각 엔트로피 프레임 내의 총합을 구하며, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하고, 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 상기 절대값이 상기 임계값보다 작은 경우에 판정 불가능이라고 판정한다. 따라서 입력 음향 신호의 특성을 보다 더 잘 반영한 블록 변환 판정을 할 수 있는 디지털 음향 신호 부호화 방법을 제공할 수 있다.
나아가 본 발명의 디지털 음향 신호 부호화 방법을 실행하는 프로그램이 기록된 매체를 이용함으로써 기존의 시스템을 바꾸지 않고, 부호화 시스템을 구축하는 장치를 범용적으로 사용할 수 있다.

Claims (10)

  1. 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등의 처리를 하고, 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하고 할당한 부호화 비트수에 따라 정규화 계수를 구하며, 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 장치로서, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하는 디지털 음향 신호 부호화 장치에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과,
    이 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피의 프레임 내의 총합을 구하는 지각 엔트로피 총합 산출 수단과,
    시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과,
    이 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 것으로 변환하는 가를 판정하는 롱/쇼트 블록 판정 수단
    을 구비하는 것을 특징으로 하는 디지털 음향 신호 부호화 장치.
  2. 제1항에 있어서,
    상기 롱/쇼트 블록 판정 수단은 상기 비교 수단에 의한 비교 결과로 상기 절대값이 상기 임계값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 상기 절대값이 상기 임계값보다 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정하는 것을 특징으로 하는 디지털 음향 신호 부호화 장치.
  3. 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등의 처리를 하고, 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하고 할당한 부호화 비트수에 따라 정규화 계수를 구하며, 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 장치로서, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하는 디지털 음향 신호 부호화 장치에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과,
    이 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피 프레임 내의 총합을 구하는 지각 엔트로피 총합 산출 수단과,
    시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과,
    이 비교 수단에 의한 비교 결과로 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 상기 절대값이 상기 임계값보다 작은 경우에 판정 불가능이라고 판정하는 판정수단
    을 구비하는 것을 특징으로 하는 디지털 음향 신호 부호화 장치.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 임계값은 입력 음향 신호의 샘플링 주파수마다 정해진 값인 것을 특징으로 하는 디지털 음향 신호 부호화 장치.
  5. 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등의 처리를 하고, 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하고 할당한 부호화 비트수에 따라 정규화 계수를 구하며, 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 방법으로서, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하는 디지털 음향 신호 부호화 방법에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고, 산출된 지각 엔트로피 프레임 내의 총합을 구하며, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하고, 이 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는 가를 판정함을 특징으로 하는 디지털 음향 신호 부호화 방법.
  6. 제5항에 있어서,
    입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는 상기 판정은 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 상기 절대값이 상기 임계값보다 작은 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정하는 것을 특징으로 하는 디지털 음향 신호 부호화 방법.
  7. 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등의 처리를 하고, 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하고 할당한 부호화 비트수에 따라 정규화 계수를 구하며, 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 방법으로서, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하는 디지털 음향 신호 부호화 방법에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고, 산출된 지각 엔트로피 프레임 내의 총합을 구하며, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하고, 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 상기 절대값이 상기 임계값보다 작은 경우 판정 불가능이라고 판정하는 것을 특징으로 하는 디지털 음향 신호 부호화 방법.
  8. 제5항 내지 제7항 중 어느 한 항에 있어서, 상기 임계값은 입력 음향 신호의 샘플링 주파수마다 정해진 값인 것을 특징으로 하는 음향 신호 부호화 방법.
  9. 컴퓨터에 의해 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등의 처리를 하고, 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하고 할당한 부호화 비트수에 따라 정규화 계수를 구하며, 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 방법으로서, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하도록 실행하는 디지털 음향 신호 부호화 프로그램을 기록한 매체에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고, 산출된 지각 엔트로피 프레임 내의 총합을 구하며, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하고, 이 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는 가를 판정하는 기능을 구비하는 디지털 음향 신호 부호화 프로그램을 기록한 매체.
  10. 컴퓨터에 의해 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등의 처리를 하고, 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하고 할당한 부호화 비트수에 따라 정규화 계수를 구하며, 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 방법으로서, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하도록 실행하는 디지털 음향 신호 부호화 프로그램을 기록한 매체에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고, 산출된 지각 엔트로피 프레임 내의 총합을 구하며, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총합 차의 절대값과 미리 정해진 임계값을 비교하고, 상기 절대값이 상기 임계값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 상기 절대값이 상기 임계값보다 작은 경우에 판정 불가능이라고 판정하는 기능을 구비하는 디지털 음향 신호 부호화 프로그램을 기록한 매체.
KR1020000045308A 1999-08-05 2000-08-04 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 KR100348368B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP22205499A JP3762579B2 (ja) 1999-08-05 1999-08-05 デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP99-222054 1999-08-05

Publications (2)

Publication Number Publication Date
KR20010021226A KR20010021226A (ko) 2001-03-15
KR100348368B1 true KR100348368B1 (ko) 2002-08-10

Family

ID=16776386

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000045308A KR100348368B1 (ko) 1999-08-05 2000-08-04 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체

Country Status (6)

Country Link
US (1) US6799164B1 (ko)
EP (1) EP1074976B1 (ko)
JP (1) JP3762579B2 (ko)
KR (1) KR100348368B1 (ko)
DE (1) DE60015030T2 (ko)
ES (1) ES2231090T3 (ko)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006555B1 (en) 1998-07-16 2006-02-28 Nielsen Media Research, Inc. Spectral audio encoding
US7035873B2 (en) 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US7532943B2 (en) * 2001-08-21 2009-05-12 Microsoft Corporation System and methods for providing automatic classification of media entities according to sonic properties
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
JP4141235B2 (ja) * 2002-02-08 2008-08-27 株式会社リコー 画像補正装置及びプログラム
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7325023B2 (en) 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
US7436969B2 (en) * 2004-09-02 2008-10-14 Hewlett-Packard Development Company, L.P. Method and system for optimizing denoising parameters using compressibility
US7627481B1 (en) * 2005-04-19 2009-12-01 Apple Inc. Adapting masking thresholds for encoding a low frequency transient signal in audio data
EP1899960A2 (en) 2005-05-26 2008-03-19 LG Electronics Inc. Method of encoding and decoding an audio signal
WO2007004833A2 (en) 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
US8108219B2 (en) 2005-07-11 2012-01-31 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
US7565018B2 (en) * 2005-08-12 2009-07-21 Microsoft Corporation Adaptive coding and decoding of wide-range coefficients
WO2007055464A1 (en) 2005-08-30 2007-05-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US7646319B2 (en) 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
WO2007040349A1 (en) 2005-10-05 2007-04-12 Lg Electronics Inc. Method and apparatus for signal processing
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US8068569B2 (en) 2005-10-05 2011-11-29 Lg Electronics, Inc. Method and apparatus for signal processing and encoding and decoding
KR100857121B1 (ko) 2005-10-05 2008-09-05 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7672379B2 (en) 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7761289B2 (en) 2005-10-24 2010-07-20 Lg Electronics Inc. Removing time delays in signal paths
JP2007183528A (ja) * 2005-12-06 2007-07-19 Fujitsu Ltd 符号化装置、符号化方法、および符号化プログラム
US20090144054A1 (en) * 2007-11-30 2009-06-04 Kabushiki Kaisha Toshiba Embedded system to perform frame switching
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
US10986399B2 (en) 2012-02-21 2021-04-20 Gracenote, Inc. Media content identification on mobile devices
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US9943253B2 (en) 2015-03-20 2018-04-17 Innovo IP, LLC System and method for improved audio perception
EP3649640A1 (en) 2017-07-03 2020-05-13 Dolby International AB Low complexity dense transient events detection and coding
WO2019007969A1 (en) * 2017-07-03 2019-01-10 Dolby International Ab DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS
US10922139B2 (en) 2018-10-11 2021-02-16 Visa International Service Association System, method, and computer program product for processing large data sets by balancing entropy between distributed data segments

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5537510A (en) * 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
EP0721257B1 (en) * 1995-01-09 2005-03-30 Daewoo Electronics Corporation Bit allocation for multichannel audio coder based on perceptual entropy
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
GB9819920D0 (en) 1998-09-11 1998-11-04 Nds Ltd Audio encoding system

Also Published As

Publication number Publication date
US6799164B1 (en) 2004-09-28
JP3762579B2 (ja) 2006-04-05
DE60015030T2 (de) 2005-11-10
EP1074976A2 (en) 2001-02-07
EP1074976B1 (en) 2004-10-20
JP2001053617A (ja) 2001-02-23
ES2231090T3 (es) 2005-05-16
DE60015030D1 (de) 2004-11-25
EP1074976A3 (en) 2001-06-27
KR20010021226A (ko) 2001-03-15

Similar Documents

Publication Publication Date Title
KR100348368B1 (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
US6456963B1 (en) Block length decision based on tonality index
JP3131542B2 (ja) 符号化復号化装置
US7899677B2 (en) Adapting masking thresholds for encoding a low frequency transient signal in audio data
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
JPH05304479A (ja) オーディオ信号の高能率符号化装置
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
US6772111B2 (en) Digital audio coding apparatus, method and computer readable medium
US8149927B2 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
KR20040103889A (ko) 부호화 방법 및 장치 및 복호 방법 및 장치
KR100750115B1 (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
JP3353868B2 (ja) 音響信号変換符号化方法および復号化方法
KR100378796B1 (ko) 디지탈 오디오 부호화기 및 복호화 방법
US6128593A (en) System and method for implementing a refined psycho-acoustic modeler
JP3813025B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
KR100396749B1 (ko) 디지털 오디오 부호화 방법
JPH09135173A (ja) 符号化装置および符号化方法、復号化装置および復号化方法、伝送装置および伝送方法、並びに記録媒体
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
KR100640833B1 (ko) 디지털 오디오의 부호화 방법
JP2993324B2 (ja) 音声高能率符号化装置
JPH09232964A (ja) ブロック長可変型変換符号化装置および過渡状態検出装置
JP2001109497A (ja) オーディオ信号符号化装置およびオーディオ信号符号化方法
JP3389849B2 (ja) 量子化装置
JP2000206990A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
Absar et al. AC-3 Encoder Implementation on the D950 DSP-Core

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110727

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee