KR100584282B1 - 오디오 신호 코딩장치 및 코딩방법 - Google Patents
오디오 신호 코딩장치 및 코딩방법 Download PDFInfo
- Publication number
- KR100584282B1 KR100584282B1 KR1020030090266A KR20030090266A KR100584282B1 KR 100584282 B1 KR100584282 B1 KR 100584282B1 KR 1020030090266 A KR1020030090266 A KR 1020030090266A KR 20030090266 A KR20030090266 A KR 20030090266A KR 100584282 B1 KR100584282 B1 KR 100584282B1
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- signal
- frequency
- sampling frequency
- information
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title claims description 45
- 238000005070 sampling Methods 0.000 claims abstract description 96
- 238000013139 quantization Methods 0.000 claims abstract description 41
- 238000001228 spectrum Methods 0.000 claims abstract description 17
- 238000012856 packing Methods 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims abstract description 3
- 238000009833 condensation Methods 0.000 claims description 5
- 230000005494 condensation Effects 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00007—Time or data compression or expansion
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/22—Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing distortions
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명에 따른 오디오 신호 코딩장치는, 입력되는 오디오 신호의 세기 스펙트럼(magnitude spectrum) 특성을 분석하여, 분석된 오디오 신호의 세기 스펙트럼 특성에 설정하고자 하는 표본화 주파수 대역이상에서 사람의 절대 가청 한계값(Absolute Hearing Trheshold:AHT)보다 큰 신호 세기가 존재하는지 여부에 따라 간축할 표본화 주파수를 가변적으로 결정하는 표본 주파수/대역 결정부와; 입력된 오디오 신호의 고주파 대역 특성 정보를 추출하는 LP 계수 추출부와; 표본 주파수/대역 결정부에서 결정된 간축할 표본화 주파수에 의하여, 입력된 오디오 신호에 대한 간축을 수행하는 간축부와; 간축부에서 간축된 오디오 신호에 대하여 주파수 영역 신호로의 변환을 처리하는 주파수 영역 변환부와; 주파수 영역 변환부에서 처리된 주파수 영역 신호에 대하여 양자화를 수행하는 양자화 처리부와; 양자화 처리부에서 양자화 처리된 신호에 대하여 부호화를 수행하는 부호화부; 및 부호화부에서 부호화된 오디오 신호 비트열 및 LP 계수 추출부에서 추출된 오디오 신호의 고주파 대역 특성 정보를 묶어 오디오 비트 스트림을 생성하고 전송하는 프레임 팩킹부; 를 포함한다.
여기서 본 발명에 의하면, 표본 주파수/대역 결정부에서 결정된 표본화 주파수 정보를 참조하여, 각 주파수 성분에 사용될 비트를 결정하고, 그 결정된 비트 정보를 양자화 처리부에 제공하는 심리음향(Psycho-Acoustic) 모델부를 더 구비한다.
Description
도 1은 본 발명에 따른 오디오 신호 코딩장치에 있어서 부호화기(encoder)의 블록도를 나타낸 도면.
도 2는 본 발명에 따른 오디오 신호 코딩장치에 있어서 복호화기(decoder)의 블록도를 나타낸 도면.
도 3은 본 발명에 따른 오디오 신호 코딩장치에 있어서, 표본화 주파수를 결정하는 과정을 나타낸 순서도.
<도면의 주요 부분에 대한 부호의 설명>
101... 간축부 102... 표본 주파수/대역 결정부
103... 주파수 영역 변환부 104... 심리음향 모델부
105... 양자화 처리부 106... 부호화부
107... 부가정보 부호화부 108... LP 계수 추출부
109... 프레임 팩킹부 201... 프레임 언팩킹부
202... 복호화부 203... 부가정보 복호화부
204... 역양자화 처리부 205... 역변환부
206... 보간 처리부 207... 고주파 영역 재구성부
208... 합성부
본 발명은 오디오 신호 코딩장치 및 코딩방법에 관한 것이다.
최근 들어 디지털 오디오 신호에 대한 다양한 코딩 기술이 발표되고 있고 실제 많은 제품에도 적용되고 있다. 이러한 디지털 오디오 신호 압축 방식에는 사실상의 표준으로 사용되는 MP3(MPEG-1 Audio Layer 3)를 비롯 AAC(Advanced Audio Coding), WMA(Window Media Audio), AC-3(Dolby Audio Compression), Ogg Vorbis 등이 있다,
위와 같이 심리음향을 적용한 오디오 신호 압축 기술은 원음과 거의 주관적으로 동일한 음질을 유지하면서 10 : 1 이상의 압축 율을 얻을 수 있어 제한된 채널이나 메모리를 이용하여 고 음질의 오디오 신호를 전송할 수 있는 장점을 갖고 있다. 즉, 심리음향의 연구 결과를 이용하여 디지털 오디오 신호의 압축기술을 구현하고 발전 시키고 있다. 이는, 사람이 어떻게 소리를 인식하는 지를 알고 소리신호에서 불필요한 부분은 신호처리를 하지 않음으로써, 보다 효율적으로 처리할 수 있기 때문이다. 가장 대표적인 예로는 사람의 최대 가청 주파수가 20,000 Hz라는 결과를 이용하여 샘플링을 수행하는 것을 들 수 있다.
그러나 각각의 방법들은 특정 비트율을 목표로 최적화되어 그 보다 낮은 비트 율에서는 음질이 급격히 떨어지거나, 입력 신호에 따라서는 필요없는 부가 정보 가 많아지는 단점을 가지고 있다.
예를 들어 음성 신호의 경우 약 4 KHz 이내에 거의 모든 신호가 분포하고 있고 음악 신호의 경우에도 15 KHz 이상의 스펙트럼이 분포하는 경우는 매우 드물다. 그러나 입력 신호의 표본화 주파수가 정해지면 그 표본화 주파수 하에서 압축 알고리듬을 적용하므로, 특히 비트 율이 낮은 응용 분야에서는 최적화된 복원 음을 얻기 힘들다는 단점이 있다.
한편, 인간의 청각은 절대 가청 한계 이하의 소리에도 어느 정도 반응하는 특성을 갖고 있다. 이러한 부분은 상당히 주관적인 것으로 CD(Compact Disc) 음질이 LP(Long Playing record)에 비해 답답하다고 지적하는 전문가들도 있다.
따라서 이전부터 이러한 디지털 오디오 신호의 특성을 보상하기 위해 백색 잡음 성분을 이용한 디더링(dithering)과 같은 방법이 사용되기도 하였으며, 이를 보상하기 위한 방안에 대한 연구가 다양하게 진행되고 있다.
본 발명은, 낮은 비트 율의 응용 분야에서도 최적화된 부호화 및 복호화를 구현하여 양질의 복원 음을 획득할 수 있으며, 원음에 포함되어 있는 고주파 대역 정보를 적은 비트의 부가 정보만을 이용하여 전송함으로써, 효율적으로 복원 음을 재생할 수 있는 오디오 신호 코딩장치 및 코딩방법을 제공함에 그 목적이 있다.
상기의 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 코딩장치는, 입력되는 오디오 신호의 세기 스펙트럼(magnitude spectrum) 특성을 분석하여, 분석된 오디오 신호의 세기 스펙트럼 특성에 설정하고자 하는 표본화 주파수 대역이상에서 사람의 절대 가청 한계값(Absolute Hearing Trheshold:AHT)보다 큰 신호 세기가 존재하는지 여부에 따라 간축할 표본화 주파수를 가변적으로 결정하는 표본 주파수/대역 결정부와; 상기 입력된 오디오 신호의 고주파 대역 특성 정보를 추출하는 LP 계수 추출부와; 상기 표본 주파수/대역 결정부에서 결정된 간축할 표본화 주파수에 의하여, 상기 입력된 오디오 신호에 대한 간축을 수행하는 간축부와; 상기 간축부에서 간축된 오디오 신호에 대하여 주파수 영역 신호로의 변환을 처리하는 주파수 영역 변환부와; 상기 주파수 영역 변환부에서 처리된 주파수 영역 신호에 대하여 양자화를 수행하는 양자화 처리부와; 상기 양자화 처리부에서 양자화 처리된 신호에 대하여 부호화를 수행하는 부호화부; 및 상기 부호화부에서 부호화된 오디오 신호 비트열 및 상기 LP 계수 추출부에서 추출된 오디오 신호의 고주파 대역 특성 정보를 묶어 오디오 비트 스트림을 생성하고 전송하는 프레임 팩킹부; 를 포함하는 점에 그 특징이 있다.
여기서 본 발명에 의하면, 상기 표본 주파수/대역 결정부에서 결정된 표본화 주파수 정보를 참조하여, 각 주파수 성분에 사용될 비트를 결정하고, 그 결정된 비트 정보를 상기 양자화 처리부에 제공하는 심리음향(Psycho-Acoustic) 모델부를 더 구비하는 점에 그 특징이 있다.
또한 본 발명에 의하면, 상기 표본 주파수/대역 결정부에서 결정된 표본화 주파수 정보를 부가 정보로 부호화하여 상기 프레임 팩킹부에 전달하는 부가정보 부호화부를 더 구비하는 점에 그 특징이 있다.
삭제
또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 코딩장치는, 입력된 오디오 비트 스트림을 풀고, 부호화부에서 부호화시 사용된 가변적 표본화 주파수의 부호화된 정보 및 부호화된 오디오 신호의 고주파 대역 특성 정보를 획득하는 프레임 언팩킹부와; 상기 프레임 언팩킹부에서 입력되는 양자화된 신호에 대하여 복호화를 수행하는 복호화부와; 상기 복호화부에서 복호화된 신호를 받아 역양자화를 수행하는 역양자화 처리부와; 상기 역양자화 처리부에서 역양자화 처리된 주파수 영역 신호를 시간 영역 신호로 역변환하는 역변환부와; 상기 역변환부에서 변환된 시간 영역 신호에 대하여, 부호화시 사용된 표본화 주파수 정보를 참조하여 오디오 신호를 복원하는 보간 처리부와; 상기 프레임 언팩킹부에서 획득된 오디오 신호의 고주파 대역 특성 정보를 참조하여, 전송된 오디오 신호의 고주파 대역 특성이 반영된 고주파 오디오 신호를 생성하는 고주파 영역 재구성부; 및 상기 보간 처리부에서 복원된 저주파의 오디오 신호와, 상기 고주파 영역 재구성부에서 생성된 고주파 대역 특성 오디오 신호를 합성하여 복원 음을 생성하는 합성부; 를 포함하는 점에 그 특징이 있다.
여기서 본 발명에 의하면, 상기 표본화 주파수의 부호화된 정보를 복호화하여 부호화시 이용된 표본화 주파수 정보를 획득하고, 그 획득된 표본화 주파수 정보를 상기 역양자화 처리부에 제공하는 부가정보 복호화부를 더 구비하는 점에 그 특징이 있다.
또한 본 발명에 의하면, 상기 보간 처리부에서 처리된 오디오 신호를 입력받고, 앨리어싱(aliasing) 왜곡 성분을 제거하여 출력시키는 저주파 대역 필터부를 더 구비하는 점에 그 특징이 있다.
또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 코딩방법은, 입력되는 오디오 신호의 세기 스펙트럼(magnitude spectrum) 특성을 분석하여, 분석된 오디오 신호의 세기 스펙트럼 특성에 설정하고자 하는 표본화 주파수 대역이상에서 사람의 절대 가청 한계값(Absolute Hearing Trheshold:AHT)보다 큰 신호 세기가 존재하는지 여부에 따라 간축할 표본화 주파수(sampling frequency)를 가변적으로 결정하며, 입력된 오디오 신호의 고주파 대역 특성 정보를 획득하는 단계와; 상기 결정된 표본화 주파수에 의하여, 상기 입력된 오디오 신호에 대한 간축(decimation)을 수행하는 단계와; 상기 간축된 오디오 신호에 대하여 주파수 영역 신호로의 변환을 처리하는 단계와; 상기 처리된 주파수 영역 신호에 대하여 양자화를 수행하는 단계와; 상기 양자화 처리된 신호에 대하여 부호화를 수행하는 단계; 및 상기 부호화된 오디오 신호 비트열과, 상기 획득된 오디오 신호의 고주파 대역 특성 정보를 묶어 오디오 비트 스트림을 생성하고 출력하는 단계; 를 포함하는 점에 그 특징이 있다.
또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 코딩방법은, 입력되는 오디오 비트 스트림을 풀고, 입력된 오디오 신호의 양자화된 부호화 신호, 부호화시 사용된 가변적 표본화 주파수의 부호화된 신호 및 전송된 오디오 신호의 고주파 대역 특성 정보를 검출하는 단계와; 상기 입력된 오디오 신호의 양자화된 부호화 신호에 대하여 복호화를 수행하는 단계와; 상기 검출된 가변적 표본화 주파수의 부호화된 신호를 복호화하여 부호화시 사용된 표본화 주파수 정보를 획득하고, 그 획득된 표본화 주파수 정보를 참조하여 상기 양자화된 복호화 신호에 대하여 역양자화를 수행하는 단계와; 상기 역양자화 처리된 주파수 영역 신호를 시간 영역 신호로 역변환 처리하는 단계와; 상기 시간 영역 신호에 대하여, 부호화시 사용된 표본화 주파수 정보를 참조하여 보간 처리하는 단계; 및 상기 보간 처리된 저주파의 오디오 신호와, 상기 검출된 고주파 대역 특성 정보를 참조하여 생성된 고주파의 오디오 신호를 합성하여 복원 음을 생성하는 단계; 를 포함하는 점에 그 특징이 있다.
삭제
여기서 본 발명에 의하면, 상기 복원된 오디오 신호에 대하여 저주파 대역 필터를 사용하여 앨리어싱(aliasing) 왜곡 성분을 제거하여 출력시키는 단계를 더 구비하는 점에 그 특징이 있다.
이와 같은 본 발명에 의하면, 입력되는 오디오 신호를 사전 분석하여 신호 특성에 맞도록 표본화 주파수를 가변적으로 변환한 후 부호화를 수행하며, 원음에 포함되어 있는 고주파 대역 정보를 적은 비트의 부가 정보만을 이용하여 전송함으로써, 필요 없는 부가 정보를 줄일 수 있으며, 그에 따라 양자화 에러를 최소화시 키고 효율적으로 오디오 신호를 복원할 수 있는 장점이 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세히 설명한다.
도 1은 본 발명에 따른 오디오 신호 코딩장치에 있어서 부호화기(encoder)의 블록도를 나타낸 도면이다.
본 발명에 따른 오디오 신호 코딩장치는, 도 1에 나타낸 바와 같이, 입력되는 오디오 신호의 세기 스펙트럼(magnitude spectrum) 특성을 분석하고, 입력된 오디오 신호의 세기 스펙트럼 특성에 따라 간축할 표본화 주파수를 가변적으로 결정하는 표본 주파수/대역 결정부(102)를 포함하여 구성된다.
여기서, 상기 표본 주파수/대역 결정부(102)는 표본화 주파수를 결정함에 있어, 입력되는 오디오 신호의 세기 스펙트럼 특성을 분석하여, 설정하고자 하는 표본화 주파수 대역 이상에서 사람의 절대 가청 한계값(Absolute Hearing Threshold:AHT)보다 큰 신호 세기가 존재하는지 여부에 따라서 표본화 주파수를 결정하고 간축비를 선택한다. 이에 대한 상세 결정 과정에 대해서는 뒤에서 부연하여 설명하기로 한다.
그리고, 본 발명에 따른 오디오 신호 코딩장치는, 상기 표본 주파수/대역 결정부(102)에서 결정된 간축할 표본화 주파수에 의하여, 상기 입력된 오디오 신호에 대한 간축을 수행하는 간축부(101)와, 상기 간축부(101)에서 간축된 오디오 신호에 대하여 주파수 영역 신호로의 변환을 처리하는 주파수 영역 변환부(103)와, 상기 주파수 영역 변환부(103)에서 처리된 주파수 영역 신호에 대하여 양자화를 수행하는 양자화 처리부(105) 및 상기 양자화 처리부(105)에서 양자화 처리된 신호에 대 하여 부호화를 수행하는 부호화부(106)를 포함하여 구성된다. 여기서, 상기 부호화부(106)로는 허프만 부호화부(Huffman encoder)가 이용될 수 있다.
또한, 본 발명에 따른 오디오 신호 코딩장치는, 상기 표본 주파수/대역 결정부(102)에서 결정된 표본화 주파수 정보를 참조하여, 각 주파수 성분에 사용될 비트를 결정하고, 그 결정된 비트 정보를 상기 양자화 처리부에 제공하는 심리음향 모델부(104)를 더 구비하여 구성된다.
또한, 본 발명에 따른 오디오 신호 코딩장치는, 상기 표본 주파수/대역 결정부(102)에서 결정된 표본화 주파수 정보를 부가 정보로 부호화하는 부가정보 부호화부(107)와, 상기 입력된 오디오 신호의 고주파 대역 특성 정보를 추출하는 LP 계수 추출부(108)를 더 구비하여 구성된다.
또한, 본 발명에 따른 오디오 신호 코딩장치는, 상기 부호화부(107)에서 부호화된 오디오 신호 비트열과, 상기 부가정보 부호화부(107)에서 부호화된 표본화 주파수 정보 및 상기 LP 계수 추출부(108)에서 추출된 오디오 신호의 고주파 대역 특성 정보를 묶어 오디오 비트 스트림을 생성하고 전송하는 프레임 팩킹부(109)를 더 구비하여 구성된다.
한편, 도 2는 본 발명에 따른 오디오 신호 코딩장치에 있어서 복호화기(decoder)의 블록도를 나타낸 도면이다.
본 발명에 따른 오디오 신호 코딩장치는, 도 2에 나타낸 바와 같이, 입력된 오디오 비트 스트림을 풀고, 부호화부에서 부호화시 사용된 가변적 표본화 주파수의 부호화된 정보 및 부호화된 오디오 신호의 고주파 대역 특성 정보를 획득하는 프레임 언팩킹부(201)와, 상기 프레임 언팩킹부(201)에서 입력되는 양자화된 신호에 대하여 복호화를 수행하는 복호화부(202) 및 상기 복호화부(202)에서 복호화된 신호를 받아 역양자화를 수행하는 역양자화 처리부(204)를 포함하여 구성된다. 여기서, 상기 복호화부(202)로는 허프만 복호화부(Huffman decoder)가 이용될 수 있다.
또한, 본 발명에 따른 오디오 신호 코딩장치는, 상기 역양자화 처리부(204)에서 역양자화 처리된 주파수 영역 신호를 시간 영역 신호로 역변환하는 역변환부(205) 및 상기 역변환부(205)에서 변환된 시간 영역 신호에 대하여, 부호화시 사용된 표본화 주파수 정보를 참조하여 오디오 신호를 복원하는 보간 처리부(206)를 포함하는 구성된다.
그리고, 본 발명에 따른 오디오 신호 코딩장치는, 상기 표본화 주파수의 부호화된 정보를 복호화하여 부호화시 이용된 표본화 주파수 정보를 획득하고, 그 획득된 표본화 주파수 정보를 상기 역양자화 처리부(204)에 제공하는 부가정보 복호화부(203)를 더 구비하여 구성된다.
또한, 본 발명에 따른 오디오 신호 코딩장치는, 상기 프레임 언팩킹부(201)에서 획득된 오디오 신호의 고주파 대역 특성 정보를 참조하여, 전송된 오디오 신호의 고주파 대역 특성이 반영된 고주파 오디오 신호를 생성하는 고주파 영역 재구성부(207) 및 상기 보간 처리부(206)에서 복원된 저주파의 오디오 신호와, 상기 고주파 영역 재구성부(207)에서 생성된 고주파 대역 특성 오디오 신호를 합성하여 복원 음을 생성하는 합성부(208)를 더 구비하여 구성된다.
또한, 도면에는 나타내지 아니 하였으나, 상기 보간 처리부(206)에서 처리된 오디오 신호를 입력받고, 앨리어싱(aliasing) 왜곡 성분을 제거하여 상기 합성부(208)에 출력시키는 저주파 대역 필터부를 더 구비하여 구성될 수도 있다.
그러면, 이와 같은 구성을 갖는 오디오 신호 코딩장치에 있어서, 오디오 신호에 대한 부호화 과정과 복호화 과정에 대하여 살펴 보기로 한다.
본 발명에서는 입력되는 오디오 신호의 특성에 따른 가변 표본화 주파수 (Variable Sampling Frequency)를 적용하여 부호화를 수행하는 방안을 제시하고자 한다. 즉 본 발명에서는, 입력되는 오디오 신호를 사전 분석하여 신호 특성에 맞는 표본화 주파수로 가변적으로 변환한 후 부호화를 수행하며, 원음에 포함되어 있는 고주파 대역 정보를 적은 비트의 부가 정보만을 이용하여 전송함으로써, 필요 없는 부가 정보를 줄이고 복원 음의 양자화 에러를 최소화할 수 있는 방안을 제시하고자 한다.
먼저, 본 발명에 따른 오디오 신호 코딩장치에 있어서, 오디오 신호에 대한 부호화 과정을 설명하면 다음과 같다.
입력되는 오디오 신호의 세기 스펙트럼(magnitude spectrum) 특성을 분석하고, 입력된 오디오 신호의 세기 스펙트럼 특성에 따라 간축할 표본화 주파수(sampling frequency)를 가변적으로 결정한다. 이 과정에 대하여 도 3을 참조하여 좀 더 살펴보기로 한다. 도 3은 본 발명에 따른 오디오 신호 코딩장치에 있어서, 표본화 주파수를 결정하는 과정을 나타낸 순서도이다.
도 3에 나타낸 바와 같이, 오디오 신호가 입력되면 'hamming window'를 취하 고(단계 301), FFT(Fast Fourier Transform)를 통해 주파수 영역으로 변환한다(단계 302). 그리고, 인간의 청각은 위상(Phase)보다 세기(Magnitude)에 크게 의존하므로 세기 스펙트럼(Magnitude spectrum)으로 변환한다(단계 303).
그리고, 단계 304에서, 입력되는 오디오 신호의 세기 스펙트럼(magnitude spectrum) 특성을 분석하고, 설정하고자 하는 표본화 주파수 대역 이상에서 사람의 절대 가청 한계값(Absolute Hearing Threshold:AHT)보다 큰 신호 세기가 존재하는지 여부에 따라서 표본화 주파수를 결정하고 간축비를 선택한다.
보다 구체적으로 설명하면, 상기 표본화 주파수를 결정하고 간축비를 선택함에 있어, 나이퀴스트 주파수(Nyquist frequency) Fn 보다 작고 Fn/2 보다 큰 표본화 주파수 대역에서, 사람의 절대 가청 한계값(AHT)보다 더 큰 신호 세기(magnitude)가 존재하는 지 여부를 판단한다(단계 304).
여기서는 나이퀴스트 주파수를 판단 기준으로 사용하는데, 알려진 바와 같이 샘플링 주파수가 너무 낮으면 앨리어싱(aliasing) 왜곡이 발생된다. 샘플링 주파수는 소리 신호 최대 주파수의 2배 이상이 되어야만 한다. 예를 들면 우리가 들을 수 있는 최대 주파수는 20 KHz이다. 따라서, 앨리어싱 왜곡을 피하기 위해서는 샘플링 주파수는 최소한 40 KHz이상이 되어야만 한다. 이를 샘플링 이론이라고 하기도 하고, 최초 발견자의 이름을 따서 나이퀴스트(Nyquist) 이론 이라고도 한다.
이때, 상기 단계 304에서의 판단 결과, 해당 영역에서 더 큰 신호 세기가 존재하는 경우에는 간축을 수행하지 않고(단계 305), 더 큰 신호 세기가 존재하지 않는 경우에는 다시 단계 306에서의 판단 과정을 거치게 된다.
그리고, 단계 306에서는, Fn/2 보다 작고 Fn/4 보다 큰 표본화 주파수 대역에서 사람의 절대 가청 한계값(AHT)보다 더 큰 신호 세기가 존재하는 지 여부를 판단한다.
이때, 상기 단계 306에서의 판단 결과, 해당 영역에서 더 큰 신호 세기가 존재하지 않는 경우에는 2 : 1 간축을 수행하고(단계 307), 해당 영역에서 더 큰 신호 세기가 존재하지 않는 경우에는 4 : 1 간축을 수행한다(단계 308).
즉, 본 발명에서는 상기 가변적으로 결정된 표본화 주파수에 의하여, 상기 입력된 오디오 신호에 대한 간축을 수행하고, 상기 간축된 오디오 신호에 대하여 주파수 영역 신호로의 변환을 처리한다.
이후, 상기 처리된 주파수 영역 신호에 대하여 양자화를 수행하고, 상기 양자화 처리된 신호에 대하여 부호화를 수행하고 오디오 신호 비트열을 생성한다. 여기서, 상기 처리된 주파수 영역 신호에 대하여 양자화를 수행하는 단계에 있어, 상기 결정된 표본화 주파수 정보를 참조하여, 각 주파수 성분에 대하여 결정된 비트 정보를 이용하여 양자화를 수행한다.
그리고, 입력 오디오 신호에 대한 이와 같은 부호화 과정과 더불어, 입력되는 오디오 신호의 고주파 대역 특성 정보(LP 계수)를 추출하는 과정이 진행된다. 이후, 상기 부호화된 오디오 신호 비트열과, 상기 추출된 오디오 신호의 고주파 대역 특성 정보를 묶어 오디오 비트 스트림을 생성하고 출력한다.
한편, 본 발명에 따른 오디오 신호 코딩장치에 있어서, 오디오 신호에 대한 복호화 과정을 간략하게 설명하면 다음과 같다.
입력되는 오디오 비트 스트림을 풀고, 입력된 오디오 신호의 양자화된 부호화 신호, 부호화시 사용된 가변적 표본화 주파수의 부호화된 신호 및 전송된 오디오 신호의 고주파 대역 특성 정보를 검출한다.
이와 같은 과정은, 입력 비트 열의 싱크(sync)를 찾아 헤더 정보를 복원하고, 이 정보를 바탕으로 부가 정보를 찾을 수 있게 된다. 그리고, 이와 같은 부가 정보에서 LP 계수는 향후 복원 과정에서 고주파 대역 신호의 복원에 사용된다. 또한, LP 계수를 이용하여 고주파 대역의 신호를 복원함에 있어서 'Excitation' 신호로는 백색 잡음을 이용할 수 있다.
이후, 상기 입력된 오디오 신호의 양자화된 부호화 신호에 대하여 복호화를 수행한다. 그리고, 상기 검출된 가변적 표본화 주파수의 부호화된 신호를 복호화하여 부호화시 사용된 표본화 주파수 정보를 획득하고, 그 획득된 표본화 주파수 정보를 참조하여 상기 복호화된 신호에 대하여 역양자화를 수행한다.
이후, 상기 역양자화 처리된 주파수 영역 신호를 시간 영역 신호로 역변환 처리하고, 상기 시간 영역 신호에 대하여, 부호화시 사용된 표본화 주파수 정보를 참조하여 보간 처리하고 오디오 신호를 복원시킨다.
그리고, 상기 복원된 오디오 신호에 대하여, 저주파 대역 필터를 사용하여 앨리어싱(aliasing) 왜곡 성분을 제거하여 출력시킴으로써, 입력된 오디오 신호를 효율적으로 복원시킬 수 있게 된다.
이어서, 본 발명에서는 상기 보간 처리된 저주파의 오디오 신호와, 상기 검출된 고주파 대역 특성 정보를 참조하여 생성된 고주파의 오디오 신호를 합성하여 보다 원음에 가까운 복원 음을 생성시킬 수 있게 된다. 이에 따라, 본 발명에 의하면 오디오 신호 부호화에 신호의 주파수 특성에 따라 가변 표본화 주파수를 적용하고, 그에 따른 고주파 대역 손실이 보상된 복원 음을 생성할 수 있게 된다.
본 발명에서는 디지털 오디오 신호의 부호화 방안에 있어서, 복원음의 음질을 향상시킬 수 있는 가변 표본화 주파수 부호화 방법을 제시하였다. 이 방법은 전처리 과정에서 사용될 수 있는 방법으로 MP3 뿐 만 아니라 AAC, AC-3 등 다양한 부호화 방식에 적용될 수 있고, 특히 입력 신호가 대역이 낮고 사용 가능한 비트가 적은 경우 큰 효과를 볼 수 있다. 또한 가변 비트율(Variable Bit Rate) 부호화 방법을 사용하면 더욱 큰 압축 율을 얻을 수 있는 장점이 있다.
이상의 설명에서와 같이 본 발명에 따른 오디오 신호 코딩장치 및 코딩방법에 의하면, 입력되는 오디오 신호를 사전 분석하여 신호 특성에 맞도록 표본화 주파수를 가변적으로 변환한 후 부호화를 수행하며, 원음에 포함되어 있는 고주파 대역 정보를 적은 비트의 부가 정보만을 이용하여 전송함으로써, 필요 없는 부가 정보를 줄일 수 있으며, 그에 따라 양자화 에러를 최소화시키고 효율적으로 오디오 신호를 복원할 수 있는 장점이 있다.
Claims (17)
- 입력되는 오디오 신호의 세기 스펙트럼(magnitude spectrum) 특성을 분석하여, 분석된 오디오 신호의 세기 스펙트럼 특성에 설정하고자 하는 표본화 주파수 대역이상에서 사람의 절대 가청 한계값(Absolute Hearing Trheshold:AHT)보다 큰 신호 세기가 존재하는지 여부에 따라 간축할 표본화 주파수를 가변적으로 결정하는 표본 주파수/대역 결정부와;상기 입력된 오디오 신호의 고주파 대역 특성 정보를 추출하는 LP 계수 추출부와;상기 표본 주파수/대역 결정부에서 결정된 간축할 표본화 주파수에 의하여, 상기 입력된 오디오 신호에 대한 간축을 수행하는 간축부와;상기 간축부에서 간축된 오디오 신호에 대하여 주파수 영역 신호로의 변환을 처리하는 주파수 영역 변환부와;상기 주파수 영역 변환부에서 처리된 주파수 영역 신호에 대하여 양자화를 수행하는 양자화 처리부와;상기 양자화 처리부에서 양자화 처리된 신호에 대하여 부호화를 수행하는 부호화부; 및상기 부호화부에서 부호화된 오디오 신호 비트열 및 상기 LP 계수 추출부에서 추출된 오디오 신호의 고주파 대역 특성 정보를 묶어 오디오 비트 스트림을 생성하고 전송하는 프레임 팩킹부; 를 포함하는 것을 특징으로 하는 오디오 신호 코딩장치.
- 제 1항에 있어서,상기 부호화부는 허프만 부호화부(Huffman encoder)인 것을 특징으로 하는 오디오 신호 코딩장치.
- 제 1항에 있어서,상기 표본 주파수/대역 결정부에서 결정된 표본화 주파수 정보를 참조하여, 각 주파수 성분에 사용될 비트를 결정하고, 그 결정된 비트 정보를 상기 양자화 처리부에 제공하는 심리음향(Psycho-Acoustic) 모델부를 더 구비하는 것을 특징으로 하는 오디오 신호 코딩장치.
- 제 1항에 있어서,상기 표본 주파수/대역 결정부에서 결정된 표본화 주파수 정보를 부가 정보로 부호화하여 상기 프레임 팩킹부에 전달하는 부가정보 부호화부를 더 구비하는 것을 특징으로 하는 오디오 신호 코딩장치.
- 삭제
- 입력된 오디오 비트 스트림을 풀고, 부호화부에서 부호화시 사용된 가변적 표본화 주파수의 부호화된 정보 및 부호화된 오디오 신호의 고주파 대역 특성 정보를 획득하는 프레임 언팩킹부와;상기 프레임 언팩킹부에서 입력되는 양자화된 신호에 대하여 복호화를 수행하는 복호화부와;상기 복호화부에서 복호화된 신호를 받아 역양자화를 수행하는 역양자화 처리부와;상기 역양자화 처리부에서 역양자화 처리된 주파수 영역 신호를 시간 영역 신호로 역변환하는 역변환부와;상기 역변환부에서 변환된 시간 영역 신호에 대하여, 부호화시 사용된 표본화 주파수 정보를 참조하여 오디오 신호를 복원하는 보간 처리부와;상기 프레임 언팩킹부에서 획득된 오디오 신호의 고주파 대역 특성 정보를 참조하여, 전송된 오디오 신호의 고주파 대역 특성이 반영된 고주파 오디오 신호를 생성하는 고주파 영역 재구성부; 및상기 보간 처리부에서 복원된 저주파의 오디오 신호와, 상기 고주파 영역 재구성부에서 생성된 고주파 대역 특성 오디오 신호를 합성하여 복원 음을 생성하는 합성부; 를 포함하는 것을 특징으로 하는 오디오 신호 코딩장치.
- 제 6항에 있어서,상기 표본화 주파수의 부호화된 정보를 복호화하여 부호화시 이용된 표본화 주파수 정보를 획득하고, 그 획득된 표본화 주파수 정보를 상기 역양자화 처리부에 제공하는 부가정보 복호화부를 더 구비하는 것을 특징으로 하는 오디오 신호 코딩장치.
- 제 6항에 있어서,상기 보간 처리부에서 처리된 오디오 신호를 입력받고, 앨리어싱(aliasing) 왜곡 성분을 제거하여 출력시키는 저주파 대역 필터부를 더 구비하는 것을 특징으로 하는 오디오 신호 코딩장치.
- 제 6항에 있어서,상기 복호화부는 허프만 복호화부(Huffman decoder)인 것을 특징으로 하는 오디오 신호 코딩장치.
- 입력되는 오디오 신호의 세기 스펙트럼(magnitude spectrum) 특성을 분석하여, 분석된 오디오 신호의 세기 스펙트럼 특성에 설정하고자 하는 표본화 주파수 대역이상에서 사람의 절대 가청 한계값(Absolute Hearing Trheshold:AHT)보다 큰 신호 세기가 존재하는지 여부에 따라 간축할 표본화 주파수(sampling frequency)를 가변적으로 결정하며, 입력된 오디오 신호의 고주파 대역 특성 정보를 획득하는 단계와;상기 결정된 표본화 주파수에 의하여, 상기 입력된 오디오 신호에 대한 간축(decimation)을 수행하는 단계와;상기 간축된 오디오 신호에 대하여 주파수 영역 신호로의 변환을 처리하는 단계와;상기 처리된 주파수 영역 신호에 대하여 양자화를 수행하는 단계와;상기 양자화 처리된 신호에 대하여 부호화를 수행하는 단계; 및상기 부호화된 오디오 신호 비트열과, 상기 획득된 오디오 신호의 고주파 대역 특성 정보를 묶어 오디오 비트 스트림을 생성하고 출력하는 단계; 를 포함하는 것을 특징으로 하는 오디오 신호 코딩방법.
- 삭제
- 제 11항에 있어서,상기 표본화 주파수를 결정하고 간축비를 선택함에 있어, 나이퀴스트 주파수(Nyquist frequency) Fn 보다 작고 Fn/2 보다 큰 표본화 주파수 대역에서, 사람의 절대 가청 한계값(AHT)보다 큰 신호 세기가 존재하는 경우에는 간축을 수행 하지 않는 것을 특징으로 하는 오디오 신호 코딩방법.
- 제 11항에 있어서,상기 표본화 주파수를 결정하고 간축비를 선택함에 있어, Fn/2 보다 작고 Fn/4 보다 큰 표본화 주파수 대역(여기서, Fn은 나이퀴스트 주파수)에서 사람의 절대 가청 한계값(AHT)보다 큰 신호 세기가 존재하는 경우에는 2 : 1 간축을 수행하는 것을 특징으로 하는 오디오 신호 코딩방법.
- 제 11항에 있어서,상기 표본화 주파수를 결정하고 간축비를 선택함에 있어, Fn/2 보다 작고 Fn/4 보다 큰 표본화 주파수 대역(여기서, Fn은 나이퀴스트 주파수)에서 사람의 절대 가청 한계값(AHT)보다 큰 신호 세기가 존재하지 않는 경우에는 4 : 1 간축을 수행하는 것을 특징으로 하는 오디오 신호 코딩방법.
- 제 10항에 있어서,상기 처리된 주파수 영역 신호에 대하여 양자화를 수행하는 단계에 있어, 상기 결정된 표본화 주파수 정보를 참조하여, 각 주파수 성분에 대하여 결정된 비트 정보를 이용하여 양자화를 수행하는 것을 특징으로 하는 오디오 신호 코딩방법.
- 입력되는 오디오 비트 스트림을 풀고, 입력된 오디오 신호의 양자화된 부호 화 신호, 부호화시 사용된 가변적 표본화 주파수의 부호화된 신호 및 전송된 오디오 신호의 고주파 대역 특성 정보를 검출하는 단계와;상기 입력된 오디오 신호의 양자화된 부호화 신호에 대하여 복호화를 수행하는 단계와;상기 검출된 가변적 표본화 주파수의 부호화된 신호를 복호화하여 부호화시 사용된 표본화 주파수 정보를 획득하고, 그 획득된 표본화 주파수 정보를 참조하여 상기 양자화된 복호화 신호에 대하여 역양자화를 수행하는 단계와;상기 역양자화 처리된 주파수 영역 신호를 시간 영역 신호로 역변환 처리하는 단계와;상기 시간 영역 신호에 대하여, 부호화시 사용된 표본화 주파수 정보를 참조하여 보간 처리하는 단계; 및상기 보간 처리된 저주파의 오디오 신호와, 상기 검출된 고주파 대역 특성 정보를 참조하여 생성된 고주파의 오디오 신호를 합성하여 복원 음을 생성하는 단계; 를 포함하는 것을 특징으로 하는 오디오 신호 코딩방법.
- 제 16항에 있어서,상기 복원된 오디오 신호에 대하여, 저주파 대역 필터를 사용하여 앨리어싱(aliasing) 왜곡 성분을 제거하여 출력시키는 단계를 더 구비하는 것을 특징으로 하는 오디오 신호 코딩방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030090266A KR100584282B1 (ko) | 2003-12-11 | 2003-12-11 | 오디오 신호 코딩장치 및 코딩방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030090266A KR100584282B1 (ko) | 2003-12-11 | 2003-12-11 | 오디오 신호 코딩장치 및 코딩방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050058024A KR20050058024A (ko) | 2005-06-16 |
KR100584282B1 true KR100584282B1 (ko) | 2006-05-26 |
Family
ID=37251719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030090266A KR100584282B1 (ko) | 2003-12-11 | 2003-12-11 | 오디오 신호 코딩장치 및 코딩방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100584282B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100878248B1 (ko) | 2006-12-27 | 2009-01-12 | (주)위더스비젼 | 디지털 오디오 디코더 |
-
2003
- 2003-12-11 KR KR1020030090266A patent/KR100584282B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100878248B1 (ko) | 2006-12-27 | 2009-01-12 | (주)위더스비젼 | 디지털 오디오 디코더 |
Also Published As
Publication number | Publication date |
---|---|
KR20050058024A (ko) | 2005-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11238876B2 (en) | Methods for improving high frequency reconstruction | |
JP4567238B2 (ja) | 符号化方法、復号化方法、符号化器、及び復号化器 | |
KR101373004B1 (ko) | 고주파수 신호 부호화 및 복호화 장치 및 방법 | |
EP1334484B1 (en) | Enhancing the performance of coding systems that use high frequency reconstruction methods | |
KR100608062B1 (ko) | 오디오 데이터의 고주파수 복원 방법 및 그 장치 | |
TWI479480B (zh) | A sound coding apparatus, a voice decoding apparatus, a speech coding method, a speech decoding method, a recording medium recording a sound coding program and a voice decoding program | |
KR101221918B1 (ko) | 신호 처리 방법 및 장치 | |
KR101413968B1 (ko) | 오디오 신호의 부호화, 복호화 방법 및 장치 | |
JP3483958B2 (ja) | 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法 | |
WO2003007480A1 (fr) | Dispositif de decodage de signaux audio et dispositif de codage de signaux audio | |
JP4489960B2 (ja) | 音声の無声セグメントの低ビットレート符号化 | |
JP2006011456A (ja) | 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体 | |
JP2011528135A (ja) | オーディオ/音声信号の符号化及び復号化方法とその装置 | |
WO2003063135A1 (en) | Audio coding method and apparatus using harmonic extraction | |
KR100378796B1 (ko) | 디지탈 오디오 부호화기 및 복호화 방법 | |
KR100584282B1 (ko) | 오디오 신호 코딩장치 및 코딩방법 | |
JP2000132193A (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
KR100433984B1 (ko) | 디지털 오디오 부호화/복호화 장치 및 방법 | |
KR101413969B1 (ko) | 오디오 신호의 복호화 방법 및 장치 | |
KR100587613B1 (ko) | 오디오 신호 코딩장치 및 코딩방법 | |
JP2007178529A (ja) | 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法 | |
JP2006023658A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 | |
JP2000132195A (ja) | 信号符号化装置及び方法 | |
JPH0437999B2 (ko) | ||
KR20000045610A (ko) | 오디오의 에러 프레임 추정 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20100331 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |