KR100736607B1 - 오디오 부호화 방법 및 장치 - Google Patents
오디오 부호화 방법 및 장치 Download PDFInfo
- Publication number
- KR100736607B1 KR100736607B1 KR1020050027029A KR20050027029A KR100736607B1 KR 100736607 B1 KR100736607 B1 KR 100736607B1 KR 1020050027029 A KR1020050027029 A KR 1020050027029A KR 20050027029 A KR20050027029 A KR 20050027029A KR 100736607 B1 KR100736607 B1 KR 100736607B1
- Authority
- KR
- South Korea
- Prior art keywords
- result
- fft
- mdct
- filtering
- audio signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000005236 sound signal Effects 0.000 claims abstract description 46
- 238000001914 filtration Methods 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000013139 quantization Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000007792 addition Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01B—MEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
- G01B13/00—Measuring arrangements characterised by the use of fluids
- G01B13/02—Measuring arrangements characterised by the use of fluids for measuring length, width or thickness
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01B—MEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
- G01B3/00—Measuring instruments characterised by the use of mechanical techniques
- G01B3/18—Micrometers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 오디오 부호화 방법 및 장치에 있어서, 특히 MPEG-4 AAC(Moving Picture Expert Group-4 Advanced Audio Coding)의 처리 효율을 향상하는데 적당한 오디오 부호화 방법 및 장치에 관한 것으로, 오디오 부호화의 처리 효율을 향상하기 위해 오디오 부호화 알고리즘의 연산량을 줄이는데 적당한 오디오 부호화 방법 및 장치에 관한 발명이며, 보다 상세하게는 오디오 부호화를 위한 MPEG-4 AAC 알고리즘에서 심리음향 모델 과정에서의 연산량을 줄여주는 오디오 부호화 방법 및 장치에 관한 발명이다.
MPEG-4 AAC, 심리음향모델, FFT, MDCT, MDST, FIR 필터
Description
도 1은 종래 기술에 따른 오디오 부호화를 위한 장치 구성을 나타낸 블록도.
도 2는 본 발명의 일 실시 예에 따른 오디오 부호화를 위한 장치 구성을 나타낸 블록도.
도 3은 본 발명에 따른 오디오 부호화를 위한 심리음량 모델 과정을 나타낸 도면.
본 발명은 오디오 부호화 방법 및 장치에 관한 것으로, 특히 MPEG-4 AAC(Moving Picture Expert Group-4 Advanced Audio Coding)의 처리 효율을 향상하는데 적당한 오디오 부호화 방법 및 장치에 관한 것이다.
Moving Picture Expert Group (이하, MPEG) 오디오 표준은 디지털 오디오 브로드캐스팅(DAB : Digital Audio Broadcasting), 인터넷 전화(Internet phone)나 주문형 오디오(AOD : Audio On Demand) 등의 멀티미디어 서비스를 제공하는 시스템에서 오디오 신호의 저장과 전송에 대해 중요한 역할을 한다.
그리고 MPEG 오디오 표준에 따른 MPEG 오디오 부호화 알고리즘은 오디오 신호의 저장과 전송을 위해 요구되는 막대한 채널 용량을 줄이기 위해 주관적인 음질 손실 없이 오디오 신호를 압축하는 것을 그의 목적으로 한다.
특히 MPEG 오디오 부호화 알고리즘들 중에서도 MPEG-4 AAC(Moving Picture Expert Group-4 Advanced Audio Coding)는 가장 최근에 체계화된 부호화 방식으로써 가장 높은 압축율과 좋은 음질을 지원한다.
상기한 MPEG을 중심으로 오디오 압축 기술은 급격히 발전했는데, 이러한 발전에는 인간의 청각 특성을 이용하여 잡음을 효율적으로 제거시키는 심리음향(Psychoacoustics) 이론이 크게 기여하였다.
한편 오디오 부호화 과정 시에는 심리음향 모델이라는 복잡한 과정을 통해 각 주파수 별로 최대 허용 가능한 잡음의 양을 구한다.
도 1은 종래 기술에 따른 오디오 부호화를 위한 장치 구성을 나타낸 블록도로써, MPEG-4 AAC 관련 기술의 표준안인 ISO/IEC 14496-3에 권고된 장치 구성이다.
도 1을 참조하면, 종래 기술에 따른 오디오 부호화를 위한 장치는 엠디씨티(Modified Discrete Cosine Transform ; 이하, MDCT) 분석 필터(1), 고속 퓨리에 변환(Fast Fourier Transform ; 이하, FFT) 블록(2), 심리음향 모델 블록(3), 부호화 효율 향상 블록(4), 양자화(quantization) 및 비트할당 블록(5) 그리고 허프만 코딩(Huffman coding) 블록(6)을 포함하여 구성된다.
MDCT 분석 필터(1)는 오디오 신호가 입력됨에 따라, 부호화를 위해 그 입력된 시간영역의 오디오신호를 주파수영역의 신호로 변환한다.
FFT 블록(2)은 오디오 신호가 입력됨에 따라, 그 입력된 오디오 신호에 대해 FFT를 실시한다. 그리고 변환에 따른 계수들(Coefficients)을 출력한다.
심리음향 모델 블록(3)은 오디오 신호의 지각적 특성을 분석하여 각 주파수별로 최대로 허용할 수 있는 양자화 잡음의 양(최대 허용치를 나타내는 양자화 잡음의 임계치(masked threshold)와 신호의 비율)을 결정한다. 이 때 심리음향 모델 블록(3)은 FFT 블록(2)에서 출력된 계수들을 사용한다.
부호화 효율 향상 블록(4)은 시간영역 잡음 형상화(TNS : temporal noise shaping), 조인트 스테레오(Joint stereo), 주기적 신호에 대한 압축 성능을 개선하는 롱 텀 프리딕션(LTP : long term prediction) 및 잡음 성분에 대한 압축 효율을 개선하는 지각 잡음 억제(PNS : Perceptual Noise Suppression) 등을 통해 신호 특성에 따른 부호화(압축) 효율을 향상한다. 상기 부호화 효율 향상 블록(4)을 구성하는 요소들은 모두 MPEG-4 AAC 표준에 정의되는 것을 사용한다.
양자화(quantization) 및 비트할당 블록(5)은 양자화와 비트할당을 실시한다. 먼저 양자화는 부호화 효율 향상 블록(4)에서 출력되는 신호에 대한 잡음 성분 비율과 심리음향 모델 블록(3)의 출력 값을 고려하여 인간이 느끼는 잡음의 양이 최소가 되도록 한다. 또한 비트할당은 부호화 효율 향상 블록(4)에서 출력되는 신호에 대한 잡음 성분 비율 값이 심리음향 모델 블록(3)의 출력 값인 최대 허용가능한 양자화 잡음의 양보다 작아지도록 최적화한다. 상기한 양자화 및 비트할당 블록(5)을 구성하는 요소들도 모두 MPEG-4 AAC 표준에 정의되는 것을 사용한다.
허프만 코딩(Huffman coding) 블록(6)은 양자화(quantization) 및 비트할당 블록(5)의 출력에 대해 무손실 부호화를 실시하는 것으로, 통상적으로 잘 알려진 부호화 방식이다.
한편 심리음향 모델 블록(3)은 주파수영역 신호로 변환된 오디오 신호의 지각적 특성을 분석하기 때문에, 심리음향 모델은 입력 오디오 신호의 주파수 변환 과정을 필요로 한다.
특히 현재 MPEG 표준안에서는 심리음향 모델을 위한 별도의 FFT이 필요하다고 권고하고 있어서, 도 1에 도시된 바와 같이 종래 기술에 따른 오디오 부호화를 위한 장치는 FFT 블록(2)을 필히 구비해야 한다.
그런데 상기한 종래 기술에 따른 도 1의 장치를 구성하는 블록들의 연산량을 보면, 보다 상세하게 MPEG-4 AAC 알고리즘에 따른 각 블록별 연산량을 분석하면, 심리음향 모델 과정이 차지하는 비율이 거의 반정도를 차지한 정도로 많으며, 특히 심리음향 모델 과정을 위한 FFT이 상대적으로 보다 많은 연산량을 차지한다.
결국 속도가 느린 프로세서를 사용할 경우에는 상기한 종래 기술에 따른 MPEG-4 AAC 알고리즘을 실시간으로 구동할 수 없다. 그에 대비하여, 보다 높은 연산 성능을 갖는 프로세서를 사용하면, MPEG-4 AAC 알고리즘의 실시간 구동은 가능하지만 전력 소모 측면에서 불리하다.
따라서 종래 기술에서는 MPEG-4 AAC 알고리즘을 구동하는데 있어서 연산량을 줄일 수 있는 방안이 요구되고 있는 실정이다.
본 발명의 목적은 상기한 점을 감안하여 안출한 것으로, 오디오 부호화의 처리 효율을 향상하기 위해 오디오 부호화 알고리즘의 연산량을 줄이는데 적당한 오디오 부호화 방법 및 장치를 제공하는 것이다.
본 발명의 또다른 목적은, 오디오 부호화를 위한 MPEG-4 AAC 알고리즘에서 심리음향 모델 과정에서의 연산량을 줄이는데 적당한 오디오 부호화 방법 및 장치를 제공하는 것이다.
상기한 목적들을 달성하기 위한 본 발명에 따른 오디오 부호화 방법의 특징은, MDCT(Modified Discrete Cosine Transform)를 이용하여 입력된 시간영역의 오디오 신호를 주파수영역의 신호로 변환하는 단계, MDST(Modified Discrete Sine Transform)을 이용하여 상기 입력된 시간영역의 오디오 신호를 변환하는 단계, 상기 MDCT에 의한 변환 결과와 상기 MDST에 의한 변환 결과의 조합을 소정 값만큼 쉬프트시키는 단계, 상기 쉬프트된 결과에 대해 1차의 유한 임펄스 응답 (FIR : Finite Impulse Response) 필터링을 수행하는 단계, 그리고 상기 필터링 결과를 심리음향 모델에 사용하여 각 주파수별로 최대로 허용할 수 있는 양자화 잡음의 양을 결정하는 단계를 포함하여 이루어지는 것이다.
보다 바람직하게, 상기 필터링 결과는 상기 입력된 오디오 신호에 대해 FFT한 결과의 첫 번째 계수와 두 번째 계수에 상응한다.
상기한 목적들을 달성하기 위한 본 발명에 따른 오디오 부호화 장치의 특징은, 입력된 시간영역의 오디오 신호를 주파수영역의 신호로 변환하는 MDCT(Modified Discrete Cosine Transform) 분석 필터, 상기 MDCT 분석 필터에 의한 변환 결과를 사용하여 각 주파수별로 최대로 허용할 수 있는 양자화 잡음의 양을 결정하는 심리음향 모델 블록를 포함하여 구성되는 것이다.
보다 바람직하게, 상기 입력된 시간영역의 오디오 신호에 대해 MDST(Modified Discrete Sine Transform)을 실시하는 MDST 블록과, 상기 MDCT 분석 필터와 상기 MDST 블록에 의한 변환 결과들의 조합에 대해 소정 값만큼 쉬프트시키는 쉬프팅 블록과, 상기 쉬프팅 블록의 출력에 대해 1차의 유한 임펄스 응답 (FIR : Finite Impulse Response) 필터링을 수행하고, 그 필터링 결과를 상기 심리음향 모델 블록에 제공하는 FIR 필터를 더 구비한다. 여기서, 상기 필터링 결과는 상기 입력된 오디오 신호에 대해 FFT한 결과의 첫 번째 계수와 두 번째 계수에 상응한다.
본 발명의 다른 목적, 특징 및 이점들은 첨부한 도면을 참조한 실시 예들의 상세한 설명을 통해 명백해질 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시 예의 구성과 그 작용을 설명하며, 도면에 도시되고 또 이것에 의해서 설명되는 본 발명의 구성과 작용은 적어도 하나의 실시 예로서 설명되는 것이며, 이것에 의해서 상기한 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.
본 발명의 핵심은 오디오 부호화를 위한 MPEG-4 AAC 알고리즘에서 심리음향 모델 과정을 수행하기 위해 필수적인 FFT 과정의 연산량을 줄이는 것이다.
도 2는 본 발명의 일 실시 예에 따른 오디오 부호화를 위한 장치 구성을 나 타낸 블록도이다.
도 2를 참조하면, 본 발명에 따른 오디오 부호화를 위한 장치는 MDCT 분석 필터(10), 엠디에스티(Modified Discrete Sine Transform ; 이하, MDST) 블록(11), 유한 임펄스 응답 (Finite Impulse Response ; 이하, FIR) 필터(12), 심리음향 모델 블록(13), 부호화 효율 향상 블록(14), 양자화 및 비트할당 블록(15) 그리고 허프만 코딩(Huffman coding) 블록(16)을 포함하여 구성된다.
MDCT 분석 필터(10)는 오디오 신호가 입력됨에 따라, 부호화를 위해 그 입력된 시간영역의 오디오신호를 주파수영역의 신호로 변환한다.
MDST 블록(11)은 상기 입력된 시간영역의 오디오신호에 대해 MDST를 실시한다.
FIR 필터(12)는 1차 FIR 필터링을 수행하고, 그에 따른 결과를 심리음향 모델 블록(13)에 제공한다.
심리음향 모델 블록(13)은 오디오 신호의 지각적 특성을 분석하여 각 주파수별로 최대로 허용할 수 있는 양자화 잡음의 양(최대 허용치를 나타내는 양자화 잡음의 임계치(masked threshold)와 신호의 비율)을 결정한다.
본 발명에 따른 심리음향 모델 블록(13)은 MDCT 분석 필터(10)에 의한 변환 결과를 사용한다. 보다 정확하게, 본 발명에 따른 심리음향 모델 블륵(13)은 MDCT 분석 필터(10)의 변환 결과와 MDST 블록(11)에 의한 변환 결과와 FIR 필터(12)에 의한 필터링 결과를 사용한다.
한편 심리음향 모델 블록(13)은 FFT의 결과에 따른 계수들을 사용하면 되기 때문에, 하기한 수학식 1과 같이 MDCT 분석 필터(10)와 MDST 블록(11)에 의한 변환 결과의 조합에 대해 FIR 필터(12)가 1차 필터링을 수행한 결과가 상기 입력된 오디오 신호에 대한 FFT 결과에 상응하면 부호화 성능에 전혀 영향을 주지 않는다.
추가로, 본 발명에서는 MDCT 분석 필터(10)와 MDST 블록(11)에 의한 변환 결과의 조합에 대해 소정 값만큼 쉬프트시키는 쉬프팅 블록(미도시)을 더 구비한다. 상기 쉬프팅 블록은 no 쉬프팅을 실시한다. 결국 FIR 필터(12)는 쉬프팅 블록의 출력에 대해 1차의 FIR 필터링을 수행하여, 그 필터링 결과를 심리음향 모델 블록(13)에 제공한다.
상기한 수학식 1에서 x(n)은 입력 오디오 신호이고, FFT{x(n)}은 입력 오디오 신호에 대한 FFT 결과를 나타낸 것이다. 한편 Xc(k)는 MDCT 분석 필터(10)의 출력이고, Xs(k)는 MDST 블록(11)의 출력이다. 그리고 n0와 k0는 MDCT에서 사용되는 상수들이다. *는 순환 컨벌루션(circular convolution)을 나타낸다. 그리고 n은 입력 오디오 신호의 샘플(sample) 인덱스이며, k는 주파수 인덱스(frequency index)이며, N은 변환 윈도우의 윈도우(window) 길이이며, 는 n0 쉬프팅한 것을 나타낸다.
결국 본 발명에서는 상기한 FFT 결과를 얻기 위해, 전술된 MDST 블록(11)과 FIR 필터(12)를 구비하며, 전술했듯이 도 2에 도시되지는 않았지만 추가로 n0 쉬프팅을 수행하는 블록(미도시)을 더 구비한다.
상기한 수학식 1에서와 같이 입력 오디오 신호에 대한 MDCT와 MDST 결과들을 조합하여 구하며, 그에 덧붙여 순환 컨벌루션(circular convolution)을 계산함으로서 얻어진다. 그런데 순환 컨벌루션이 연산량에 가장 큰 영향을 주기 때문에, 본 발명에서는 상기한 수학식 1에서 순환 컨벌루션의 연산 회수를 줄이고자 FIR 필터(12)를 사용한 1차의 FIR 필터링으로 근사화 작업을 수행한다. 즉 다수의 순환 컨벌루션 연산을 FIR 필터(12)에 의한 1차의 FIR 필터링으로 근사화한다.
한편 FFT와 MDCT에서는 입력 오디오 신호에 적용하는 윈도우가 각각 다르다. 이러한 점을 고려하여 상기한 수학식 1을 하기한 수학식 2와 같이 변경하여 사용한다. 수학식 2는 수학식 1에 대해 헨 윈도우(Hann window)를 적용한 것으로, FFT와 MDCT에서 입력 오디오 신호에 적용하는 윈도우가 각각 다른 것을 보상하기 위한 식이다.
상기한 수학식 2에서 hs(n)은 MDCT에서 사용되는 사인 윈도우(Sine window)이며, hH(n)은 심리음향 모델의 입력에 주로 사용되는 헨 윈도우(Hann window)를 나타낸다.
결국 본 발명에서는 상기한 수학식 2에서 순환 컨벌루션의 연산을 줄이기 위해 1차의 FIR 필터링으로 근사화시키는 것이 바람직하다.
별도의 예로써, 본 발명에서는 수학식 2의 순환 컨벌루션의 오른쪽 항이 주파수 인덱스 k에 대해 상수 값을 가지므로, 그 값들을 테이블로 구현한다.
상기한 FIR 필터링의 결과 즉, FIR 필터(12)을 출력(1차의 FIR 필터링 결과)은 다음의 수학식 3이다.
부호화 효율 향상 블록(14)은 MPEG-4 AAC 표준에 정의되는 요소들로 구성되어 신호 특성에 따른 부호화(압축) 효율을 향상하며, 그들은 TNS(temporal noise shaping), 조인트 스테레오(Joint stereo), LTP(long term prediction) 및 PNS(Perceptual Noise Suppression) 등이다.
양자화(quantization) 및 비트할당 블록(15)은 MPEG-4 AAC 표준에 정의되는 것으로, 양자화와 비트할당을 실시한다. 먼저 양자화는 부호화 효율 향상 블록(14)에서 출력되는 신호에 대한 잡음 성분 비율과 심리음향 모델 블록(13)의 출력 값을 고려하여 인간이 느끼는 잡음의 양이 최소가 되도록 한다. 또한 비트할당은 부호화 효율 향상 블록(14)에서 출력되는 신호에 대한 잡음 성분 비율 값이 심리음향 모델 블록(13)의 출력 값인 최대 허용가능한 양자화 잡음의 양보다 작아지도록 최적화한다.
허프만 코딩(Huffman coding) 블록(16)은 양자화(quantization) 및 비트할당 블록(15)의 출력에 대해 무손실 부호화를 실시한다.
도 3은 본 발명에 따른 오디오 부호화를 위한 심리음량 모델 과정을 나타낸 도면이다.
도 3을 참조하면, 시간영역의 오디오 신호가 입력된다(S10). 여기서 입력된 오디오 신호가 2048 샘플이라고 가정한다.
본 발명에서는 입력된 오디오 신호에 대해 MDST를 이용하여 입력된 오디오 신호를 변환한다(S11). 이 때, 본 발명에서는 입력된 오디오 신호에 대해 먼저 MDCT를 이용하여 그 입력된 오디오 신호를 주파수영역의 신호로 변환한 결과를 상기 MDST의 변환 결과와 조합한다. 그 조합의 결과는 이다.
이어 상기한 수학식 1과 같이 그 조합의 결과에 를 곱한다. 즉 두 변환 결과의 조합을 n0 쉬프트시킨다(S12). 이러한 n0 쉬프트에 의해 스펙트럼이 시간 축에서 n0만큼 이동한다.
그리고 상기 n0 쉬프트 결과에 대해 1차의 FIR 필터링을 수행한다(S13). 이 때 FIR 필터링의 결과는 입력된 오디오 신호에 대해 FFT한 결과에 근사화시킨 것이다. 본 발명에서는 FFT의 결과로부터 산출되는 다수의 계수들을 사용하는 것이 아니라 FFT한 결과의 첫 번째와 두 번째 계수만을 심리음향 모델에 사용한다.
다시 말하자면 상기한 1차의 FIR 필터링 결과는 FFT의 근사치이다. 심리음향 모델 블록(13)은 그 근사치를 사용한다(S14).
한편 본 발명에서는 근사화에 의해 FFT 결과를 대신하는 것이여서 어느 정도의 오차가 발생하기는 하지만, 그 오차는 오디오 부호화를 수행하는데 큰 영향을 미치지 않는 정도이다.
또한 전술된 본 발명에서는 N개의 샘플에 대한 고속 MDST를 계산하기 위해 N*(log2N+1)/4 번의 실수 곱셈과 N*(log2N-1)/4 번의 실수 덧셈이 필요하다. 또한 no 쉬프팅에 필요한 곱셈과 덧셈 회수는 각각 3N/2 번이며, FIR 필터링에 필요한 곱셈과 덧셈 회수는 각각 3N과 7N/2 번이다. 따라서 본 발명에 따른 심리음향 모델을 위한 곱셈과 덧셈의 전체 연산량은 N*log2N+19N/2 이다.
이상 설명한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하 는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다.
따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의해 정하여져야만 할 것이다.
이상에서 설명된 본 발명에 따른 심리음향 모델을 위한 곱셈과 덧셈의 전체 연산량은 N*log2N+19N/2 이다. 그에 비해 일반적인 FFT에 필요한 연산량은 4N*(log2N-1)+8 이다.
그러므로, 2048 샘플의 입력 오디오 신호에 대한 FFT를 가정하면, 본 발명에서 FIR 필터링을 사용함에 따른 연산량은 FFT를 사용할 때의 연산량의 약 51% 정도여서 오디오 부호화를 위한 전체 연산량을 현저히 줄일 수 있다.
Claims (13)
- 입력된 시간영역의 오디오 신호를 주파수영역의 신호로 변환하는 엠디씨티 (MDCT : Modified Discrete Cosine Transform) 분석 필터;상기 입력된 시간영역의 오디오 신호에 대해 엠디에스티 (MDST : Modified Discrete Sine Transform)을 실시하는 엠디에스티(MDST) 블록;상기 엠디씨티 분석 필터와 상기 엠디에스티 블록에 의한 변환 결과들의 조합에 대해 1차의 유한 임펄스 응답 (FIR : Finite Impulse Response) 필터링을 수행하고, 그 필터링 결과를 출력하는 유한 임펄스 응답 필터; 그리고상기 유한 임펄스 응답 필터에 의한 필터링 결과를 사용하여 각 주파수별로 최대로 허용할 수 있는 양자화 잡음의 양을 결정하는 심리음향 모델 블록를 포함하여 구성되는 것을 특징으로 하는 오디오 부호화 장치.
- 제 1 항에 있어서,상기 엠디씨티(MDCT) 분석 필터와 상기 엠디에스티(MDST) 블록에 의한 변환 결과들의 조합에 대해 소정 값만큼 쉬프트시킨 후에 상기 유한 임펄스 응답 필터로 출력하는 쉬프팅 블록을 더 구비하는 것을 특징으로 하는 오디오 부호화 장치.
- 제 2 항에 있어서, 상기 필터링 결과는 상기 입력된 오디오 신호에 대해 고속 퓨리에 변환(FFT : Fast Fourier Transform)한 결과의 첫 번째 계수와 두 번째 계수에 상응하는 것을 특징으로 하는 오디오 부호화 장치.
- 제 3 항에 있어서, 상기 고속 퓨리에 변환(FFT)의 결과를 상기 엠디씨티(MDCT) 분석 필터와 상기 엠디에스티(MDST) 블록에 의한 변환 결과들로 나타내는 수학식에서, 상기 순환 컨벌루션(* : circular convolution)에 필요한 연산으로 상기 유한 임펄스 응답(FIR) 필터에 의한 1차의 유한 임펄스 응답(FIR) 필터링을 사용하며, 상기 x(n)은 입력 오디오 신호, 상기 FFT{x(n)}은 입력 오디오 신호에 대한 상기 고속 퓨리에 변환(FFT)의 결과, 상기 Xc(k)는 상기 엠디씨티(MDCT) 분석 필터의 변환 결과, 상기 Xs(k)는 상기 엠디에스티(MDST) 블록의 변환 결과, 상기 n0와 k0는 상기 엠디씨티(MDCT) 분석 필터에서 사용되는 상수들, 상기 n은 상기 입력 오디오 신호의 샘플(sample) 인덱스, 상기 k는 주파수 인덱스(frequency index), 상기 N은 변환 윈도우의 윈도우(window) 길이, 상기 는 상기 쉬프팅 블록에 의한 쉬프트 결과인 것을 특징으로 하는 오디오 부호화 장치.
- 제 4 항에 있어서, 상기 고속 퓨리에 변환(FFT)에서 사용되는 윈도우(Window)와 상기 엠디씨티(MDCT) 분석 필터에서 사용되는 윈도우가 서로 다른 것을 고려하여, 상기 고속 퓨리에 변환(FFT)의 결과를 나타내는 상기 수학식에 헨 윈도우(Hann window)를 적용하는 것을 특징으로 하는 오디오 부호화 장치.
- 엠디씨티 (MDCT : Modified Discrete Cosine Transform)를 이용하여 입력된 시간영역의 오디오 신호를 주파수영역의 신호로 변환하는 단계;엠디에스티 (MDST : Modified Discrete Sine Transform)을 이용하여 상기 입력된 시간영역의 오디오 신호를 변환하는 단계;상기 엠디씨티(MDCT)에 의한 변환 결과와 상기 엠디에스티(MDST)에 의한 변환 결과의 조합을 소정 값만큼 쉬프트시키는 단계;상기 쉬프트된 결과에 대해 1차의 유한 임펄스 응답 (FIR : Finite Impulse Response) 필터링을 수행하는 단계; 그리고상기 필터링 결과를 심리음향 모델에 사용하여 각 주파수별로 최대로 허용할 수 있는 양자화 잡음의 양을 결정하는 단계를 포함하여 이루어지는 것을 특징으로 하는 오디오 부호화 방법.
- 제 8 항에 있어서, 상기 필터링 결과는 상기 입력된 오디오 신호에 대해 고속 퓨리에 변환(FFT : Fast Fourier Transform)한 결과의 첫 번째 계수와 두 번째 계수에 상응하는 것을 특징으로 하는 오디오 부호화 방법.
- 제 9 항에 있어서, 상기 고속 퓨리에 변환(FFT)의 결과를 상기 엠디씨티(MDCT)에 의한 변환 결과와 상기 엠디에스티(MDST)에 의한 변환 결과로 나타내는 수학식에서, 상기 순환 컨벌루션(* : circular convolution)에 필요한 연산으로 1차의 상기 유한 임펄스 응답(FIR) 필터링을 사용하며, 상기 x(n)은 입력 오디오 신호, 상기 FFT{x(n)}은 입력 오디오 신호에 대한 상기 고속 퓨리에 변환(FFT)의 결과, 상기 Xc(k)는 상기 엠디씨티(MDCT)에 의한 변환 결과, 상기 Xs(k)는 상기 엠디에스티(MDST)에 의한 변환 결과, 상기 n0와 k0는 상기 엠디씨티(MDCT)에서 사용되는 상수들, 상기 n은 상기 입력 오디오 신호의 샘플(sample) 인덱스, 상기 k는 주파수 인덱스(frequency index), 상기 N은 변환 윈도우의 윈도우(window) 길이, 상기 는 상기 쉬프트 결과인 것을 특징으로 하는 오디오 부호화 방법.
- 제 10 항에 있어서, 상기 고속 퓨리에 변환(FFT)에서 사용되는 윈도우(Window)와 상기 엠디씨티(MDCT)에서 사용되는 윈도우가 서로 다른 것을 고려하여, 상기 고속 퓨리에 변환(FFT)의 결과를 나타내는 상기 수학식에 헨 윈도우(Hann window)를 적용하는 것을 특징으로 하는 오디오 부호화 방법.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050027029A KR100736607B1 (ko) | 2005-03-31 | 2005-03-31 | 오디오 부호화 방법 및 장치 |
EP06006581A EP1708173B1 (en) | 2005-03-31 | 2006-03-29 | Method and apparatus for coding audio signal |
JP2006090767A JP4416752B2 (ja) | 2005-03-31 | 2006-03-29 | オーディオ符号化方法及びその装置 |
AT06006581T ATE408218T1 (de) | 2005-03-31 | 2006-03-29 | Verfahren und vorrichtung zur kodierung von tonsignalen |
DE602006002633T DE602006002633D1 (de) | 2005-03-31 | 2006-03-29 | Verfahren und Vorrichtung zur Kodierung von Tonsignalen |
US11/395,838 US20060253276A1 (en) | 2005-03-31 | 2006-03-31 | Method and apparatus for coding audio signal |
CNB2006100737085A CN100546199C (zh) | 2005-03-31 | 2006-03-31 | 对音频信号进行编码的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050027029A KR100736607B1 (ko) | 2005-03-31 | 2005-03-31 | 오디오 부호화 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060104684A KR20060104684A (ko) | 2006-10-09 |
KR100736607B1 true KR100736607B1 (ko) | 2007-07-09 |
Family
ID=36539268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050027029A KR100736607B1 (ko) | 2005-03-31 | 2005-03-31 | 오디오 부호화 방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20060253276A1 (ko) |
EP (1) | EP1708173B1 (ko) |
JP (1) | JP4416752B2 (ko) |
KR (1) | KR100736607B1 (ko) |
CN (1) | CN100546199C (ko) |
AT (1) | ATE408218T1 (ko) |
DE (1) | DE602006002633D1 (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100827458B1 (ko) * | 2006-07-21 | 2008-05-06 | 엘지전자 주식회사 | 오디오 부호화 방법 |
CN101308659B (zh) * | 2007-05-16 | 2011-11-30 | 中兴通讯股份有限公司 | 一种基于先进音频编码器的心理声学模型的处理方法 |
US9313359B1 (en) * | 2011-04-26 | 2016-04-12 | Gracenote, Inc. | Media content identification on mobile devices |
JP5813094B2 (ja) | 2010-04-09 | 2015-11-17 | ドルビー・インターナショナル・アーベー | Mdctベース複素予測ステレオ符号化 |
US20190379931A1 (en) | 2012-02-21 | 2019-12-12 | Gracenote, Inc. | Media Content Identification on Mobile Devices |
TWI575962B (zh) | 2012-02-24 | 2017-03-21 | 杜比國際公司 | 部份複數處理之重疊濾波器組中的低延遲實數至複數轉換 |
CN103023849B (zh) * | 2012-11-28 | 2015-05-13 | 中国传媒大学 | 基于心理声学模型的iboc系统的数据发送方法 |
CN102970269B (zh) * | 2012-11-28 | 2015-05-13 | 中国传媒大学 | 基于人耳感知的iboc系统的动态数据发送方法 |
PL3660843T3 (pl) * | 2013-09-13 | 2023-01-16 | Samsung Electronics Co., Ltd. | Sposób kodowania bezstratnego |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040073862A (ko) * | 2003-02-15 | 2004-08-21 | 삼성전자주식회사 | 오디오 데이터 인코딩 장치 및 방법 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5297236A (en) * | 1989-01-27 | 1994-03-22 | Dolby Laboratories Licensing Corporation | Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder |
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US5451954A (en) * | 1993-08-04 | 1995-09-19 | Dolby Laboratories Licensing Corporation | Quantization noise suppression for encoder/decoder system |
US6668029B1 (en) * | 1998-12-11 | 2003-12-23 | Hitachi America, Ltd. | Methods and apparatus for implementing digital resampling circuits |
US7302396B1 (en) * | 1999-04-27 | 2007-11-27 | Realnetworks, Inc. | System and method for cross-fading between audio streams |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US7136418B2 (en) * | 2001-05-03 | 2006-11-14 | University Of Washington | Scalable and perceptually ranked signal coding and decoding |
US7328151B2 (en) * | 2002-03-22 | 2008-02-05 | Sound Id | Audio decoder with dynamic adjustment of signal modification |
US7099908B2 (en) * | 2002-06-19 | 2006-08-29 | The Aerospace Corporation | Merge and split generalized block transform method |
DE10234130B3 (de) * | 2002-07-26 | 2004-02-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals |
KR100467617B1 (ko) * | 2002-10-30 | 2005-01-24 | 삼성전자주식회사 | 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치 |
GB2403634B (en) * | 2003-06-30 | 2006-11-29 | Nokia Corp | An audio encoder |
-
2005
- 2005-03-31 KR KR1020050027029A patent/KR100736607B1/ko not_active IP Right Cessation
-
2006
- 2006-03-29 JP JP2006090767A patent/JP4416752B2/ja not_active Expired - Fee Related
- 2006-03-29 EP EP06006581A patent/EP1708173B1/en not_active Not-in-force
- 2006-03-29 AT AT06006581T patent/ATE408218T1/de not_active IP Right Cessation
- 2006-03-29 DE DE602006002633T patent/DE602006002633D1/de active Active
- 2006-03-31 CN CNB2006100737085A patent/CN100546199C/zh not_active Expired - Fee Related
- 2006-03-31 US US11/395,838 patent/US20060253276A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040073862A (ko) * | 2003-02-15 | 2004-08-21 | 삼성전자주식회사 | 오디오 데이터 인코딩 장치 및 방법 |
Non-Patent Citations (1)
Title |
---|
1020040073862 |
Also Published As
Publication number | Publication date |
---|---|
EP1708173B1 (en) | 2008-09-10 |
CN1841938A (zh) | 2006-10-04 |
DE602006002633D1 (de) | 2008-10-23 |
EP1708173A1 (en) | 2006-10-04 |
CN100546199C (zh) | 2009-09-30 |
KR20060104684A (ko) | 2006-10-09 |
JP4416752B2 (ja) | 2010-02-17 |
US20060253276A1 (en) | 2006-11-09 |
ATE408218T1 (de) | 2008-09-15 |
JP2006285245A (ja) | 2006-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
USRE49717E1 (en) | Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction | |
KR100736607B1 (ko) | 오디오 부호화 방법 및 장치 | |
US7337118B2 (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
TWI463790B (zh) | 用於信號分析與合成之適應性混成變換技術(一) | |
EP2054882B1 (en) | Arbitrary shaping of temporal noise envelope without side-information | |
KR100814673B1 (ko) | 오디오 부호화 | |
US20080140405A1 (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
JP2004264811A (ja) | オーディオの量子化および逆量子化 | |
KR100848370B1 (ko) | 오디오 부호화 | |
US8825494B2 (en) | Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program | |
US7426462B2 (en) | Fast codebook selection method in audio encoding | |
JPH09162745A (ja) | 高速分析フィルタ及び合成フィルタを備えるオーディオ符号化器及び復号化器 | |
JP2008026372A (ja) | 符号化データの符号化則変換方法および装置 | |
Herre | Audio Coding Based on Integer Transforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
B701 | Decision to grant | ||
GRNT | Written decision to grant | ||
G170 | Re-publication after modification of scope of protection [patent] | ||
FPAY | Annual fee payment |
Payment date: 20130624 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140624 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150624 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |