KR102231756B1 - 오디오 신호의 부호화, 복호화 방법 및 장치 - Google Patents
오디오 신호의 부호화, 복호화 방법 및 장치 Download PDFInfo
- Publication number
- KR102231756B1 KR102231756B1 KR1020137030157A KR20137030157A KR102231756B1 KR 102231756 B1 KR102231756 B1 KR 102231756B1 KR 1020137030157 A KR1020137030157 A KR 1020137030157A KR 20137030157 A KR20137030157 A KR 20137030157A KR 102231756 B1 KR102231756 B1 KR 102231756B1
- Authority
- KR
- South Korea
- Prior art keywords
- window
- masking threshold
- audio signal
- determining
- frame length
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 178
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000000873 masking effect Effects 0.000 claims abstract description 211
- 238000013139 quantization Methods 0.000 claims description 37
- 238000005070 sampling Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 12
- 230000001131 transforming effect Effects 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
심리 음향 모델에 따른 마스킹 임계치를 결정함에 있어서, 짧은 윈도우 기반의 오디오 신호에 대해서도 긴 윈도우 기반의 오디오 신호를 이용하는 경우와 마찬가지로 정확한 결과를 도출할 수 있는 오디오 신호 부호화 방법 및 장치가 제공된다. 본 발명에 따른 오디오 신호 부호화 장치는 오디오 신호가 분할된 제 1 윈도우의 프레임 길이에 기초하여, 제 1 윈도우와 프레임 길이가 상이한 제 2 윈도우에 대한 마스킹 임계치를 결정하는 마스킹 임계치 결정부를 포함한다.
Description
본 발명은 오디오 신호를 부호화 또는 복호화하는 방법 및 장치에 관한 것으로서, 보다 상세하게는, 마스킹 임계치를 이용하여 오디오 신호를 양자화하는 오디오 신호 부호화하는 방법 및 장치에 관한 것이다.
마스킹(masking) 효과란, 심리 음향 이론에 의한 것으로, 크기가 큰 신호에 인접한 작은 신호들은 큰 신호에 의해서 가려지기 때문에 인간의 청각 구조가 이를 잘 인지하지 못한다는 특성을 이용하는 것이다. 오디오 신호를 양자화할 때 양자화 에러가 발생되는데, 이 양자화 에러가 마스킹 임계치 (masking threshold) 이하가 되도록 한다면, 청자에게 양자화 잡음이 들리지 않게 된다.
한편, 오디오 신호를 부호화 하는데 있어서, 짧은 지연 시간 (latency time) 을 확보하기 위해서는 부호화의 기본 단위인 프레임의 길이가 짧아야 하고, 높은 음질을 확보하기 위해서는 충분한 주파수 분해능이 필요하기 때문에 프레임의 길이가 길어야 한다. 따라서 짧은 지연 시간과 높은 음질은 동시에 만족시키기 어렵다.
특히, 심리 음향 이론을 이용하는데 있어서 프레임의 길이가 짧은 경우, 즉, 짧은 윈도우 (short window) 를 이용해서 마스킹 임계치를 계산하는 경우, 긴 윈도우 (long window) 를 이용해서 마스킹 임계치를 계산하는 경우에 비해, 마스킹 임계치가 더 높게 계산될 수 있다. 따라서, 짧은 윈도우 기반으로 계산한 마스킹 임계치를 이용하여 오디오 신호를 부호화할 경우, 보다 많은 양자화 노이즈가 유입됨으로써 결과적으로 음질이 저하될 가능성이 높아진다.
본 발명의 일 실시예는 프레임의 길이에 기초하여 에러가 보정된 마스킹 임계치를 결정할 수 있는 오디오 신호 부호화 방법 및 장치를 제공한다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법은, 오디오 신호가 분할된 제1 윈도우를 주파수 변환하는 단계; 상기 제 1 윈도우의 프레임 길이에 기초하여, 상기 제 1 윈도우와 프레임 길이가 상이한 제 2 윈도우에 대한 마스킹 임계치를 결정하는 단계; 및 상기 결정된 마스킹 임계치를 이용하여 상기 변환된 제 1 윈도우의 변환 계수들을 양자화하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 마스킹 임계치를 결정하는 단계는, 제 1 윈도우의 프레임 길이가 소정값보다 짧으면, 프레임 길이가 상기 소정값보다 긴 상기 제 2 윈도우에 대한 상기 마스킹 임계치를 결정하는 단계를 포함할 수 있다.
이 때, 본 발명의 일 실시예에 따른 마스킹 임계치를 결정하는 단계는, 상기 제 1 윈도우의 프레임 길이가 소정값보다 짧으면, 상기 제 1 윈도우를 이용하여 샘플링된 오디오 신호를 시간 왜곡 필터 (time warping filter) 를 이용하여 재샘플링하는 단계; 및 상기 재샘플링된 신호를 이용하여 상기 제 2 윈도우에 대한 상기 마스킹 임계치를 결정하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 시간 왜곡 필터에서 사용되는 왜곡 변수 (warping parameter) 는, 오디오 신호의 샘플링 레이트에 따라 미리 결정된 값일 수 있다. 예를 들어, 왜곡 변수는, 시간 왜곡 필터의 출력이 바크 스케일 (Bark Scale) 에 대응되는 주파수 분해능 (spectral resolution) 을 갖도록 미리 결정된 값일 수 있다.
본 발명의 일 실시예에 따른 마스킹 임계치를 결정하는 단계는, 제 1 윈도우의 프레임 길이가 소정값보다 짧으면, 프레임 길이가 상기 소정값보다 긴 제 2 윈도우에 대한 제 2 마스킹 임계치를 결정하는 단계; 및 상기 제 1 윈도우에 대해 결정된 제 1 마스킹 임계치를 상기 제 2 마스킹 임계치로 변경하는 단계를 포함할 수 있다.
이 때, 본 발명의 일 실시예에 따른 제 2 마스킹 임계치를 결정하는 단계는, 상기 변환된 제 1 윈도우의 변환 계수 대역 (scale factor band) 별로 마스킹 임계치에 대한 보정 계수를 포함하는 룩업 테이블을 이용함으로써, 상기 제 1 마스킹 임계치로부터 상기 제 2 마스킹 임계치를 결정하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 마스킹 임계치를 결정하는 단계는, 오디오 신호가 음성 신호의 특성이 강하면, 상기 제 1 윈도우의 프레임 길이가 짧은 것으로 판단하는 단계; 및 상기 제 1 윈도우의 프레임 길이가 짧은 것으로 판단되면, 상기 제 1 윈도우와 프레임 길이가 상이한 제 2 윈도우에 대한 마스킹 임계치를 결정하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법에 있어서, 소정값은 1024 샘플 (sample) 일 수 있다. 본 발명의 일 실시예에 따른 마스킹 임계치를 결정하는 단계는, 심리 음향 모델 (psycho-acoustic model) 에 따른 마스킹 임계치를 결정하는 단계를 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치는, 오디오 신호가 분할된 제1 윈도우를 주파수 변환하는 주파수 변환부; 상기 제 1 윈도우의 프레임 길이에 기초하여, 상기 제 1 윈도우와 프레임 길이가 상이한 제 2 윈도우에 대한 마스킹 임계치를 결정하는 마스킹 임계치 결정부; 및 상기 결정된 마스킹 임계치를 이용하여 상기 변환된 제 1 윈도우의 변환 계수들을 양자화하는 양자화부를 포함할 수 있다.
본 발명의 일 실시예에 따른 마스킹 임계치 결정부는, 상기 제 1 윈도우의 프레임 길이가 소정값보다 짧으면, 프레임 길이가 상기 소정값보다 긴 상기 제 2 윈도우에 대한 상기 마스킹 임계치를 결정할 수 있다.
본 발명의 일 실시예에 따른 마스킹 임계치 결정부는, 상기 제 1 윈도우의 프레임 길이가 소정값보다 짧으면, 상기 제 1 윈도우를 이용하여 샘플링된 오디오 신호를 재샘플링하는 시간 왜곡 필터부; 및 상기 재샘플링된 신호를 이용하여 상기 제 2 윈도우에 대한 상기 마스킹 임계치를 결정하는 결정부를 포함할 수 있다.
본 발명의 일 실시예에 따른 시간 왜곡 필터에서 사용되는 왜곡 변수는, 상기 시간 왜곡 필터의 출력이 바크 스케일 (Bark Scale) 에 대응되는 주파수 분해능 (spectral resolution) 를 갖도록 미리 결정된 값일 수 있다.
본 발명의 일 실시예에 따른 마스킹 임계치 결정부는, 상기 제 1 윈도우의 프레임 길이가 소정값보다 짧으면, 프레임 길이가 상기 소정값보다 긴 상기 제 2 윈도우에 대한 제 2 마스킹 임계치를 결정하고, 상기 제 1 윈도우에 대해 결정된 제 1 마스킹 임계치를 상기 제 2 마스킹 임계치로 변경할 수 있다.
본 발명의 일 실시예에 따른 마스킹 임계치 결정부는, 상기 변환된 제 1 윈도우의 변환 계수 대역 (scale factor band) 별로 마스킹 임계치에 대한 보정 계수를 포함하는 룩업 테이블을 이용함으로써, 상기 제 1 마스킹 임계치로부터 상기 제 2 마스킹 임계치를 결정할 수 있다.
본 발명의 일 실시예에 따른 마스킹 임계치 결정부는, 상기 오디오 신호가 음성 신호의 특성이 강하면, 상기 제 1 윈도우의 프레임 길이가 짧은 것으로 판단하고, 상기 제 1 윈도우의 프레임 길이가 짧은 것으로 판단되면, 상기 제 1 윈도우와 프레임 길이가 상이한 제 2 윈도우에 대한 마스킹 임계치를 결정할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 소정값은 1024 샘플 (sample) 일 수 있다. 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에 있어서, 마스킹 임계치 결정부는, 심리 음향 모델 (psycho-acoustic model) 에 따른 상기 마스킹 임계치를 결정할 수 있다.
한편, 본 발명의 일 실시예에 따른 오디오 신호 복호화 방법은, 부호화된 오디오 신호의 제 1 윈도우를 수신하는 단계; 부호화 장치로부터 전송된 양자화 정보를 이용하여 상기 수신된 제 1 윈도우를 역양자화하는 단계; 및 상기 역양자화된 제 1 윈도우의 변환 계수들을 역변환하는 단계를 포함하고, 상기 수신된 제 1 윈도우는, 마스킹 임계치를 이용하여 생성된 것이고, 상기 마스킹 임계치는, 상기 제 1 윈도우의 프레임 길이에 기초하여, 상기 제 1 윈도우의 프레임 길이가 상이한 제 2 윈도우에 대해 결정된 것일 수 있다.
한편, 본 발명의 일 실시예에 따른 오디오 신호 복호화 장치는, 부호화된 오디오 신호의 제 1 윈도우를 수신하고, 부호화 장치로부터 전송된 양자화 정보를 이용하여 상기 수신된 제 1 윈도우를 역양자화하는 역양자화부; 및 상기 역양자화된 제 1 윈도우의 변환 계수들을 역변환하는 역변환부를 포함하고, 상기 수신된 제 1 윈도우는, 마스킹 임계치를 이용하여 생성된 것이고, 상기 마스킹 임계치는, 상기 제 1 윈도우의 프레임 길이에 기초하여, 상기 제 1 윈도우의 프레임 길이가 상이한 제 2 윈도우에 대해 결정되는 것일 수 있다.
한편, 본 발명의 일 실시예에 따른 컴퓨터로 읽을 수 있는 기록 매체는 상술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법 및 장치에 의하면, 짧은 윈도우를 이용함으로써 과대 추정된 마스킹 임계치가 보정된 결과가 출력된다. 따라서, 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법 및 장치는, 짧은 윈도우를 이용하여 짧은 지연 시간을 확보함과 동시에, 정확한 마스킹 임계치를 결정함으로써 부호화된 오디오 신호의 음질을 높일 수 있다.
도 1a 및 도 1b 는 긴 윈도우 기반의 마스킹 임계치를 설명하기 위한 도면이다.
도 2a 및 도 2b 는 짧은 윈도우 기반의 마스킹 임계치를 설명하기 위한 도면이다.
도 3 은 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 4 는 본 발명의 일 실시예에 따라 시간 왜곡 필터부를 포함하는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 5a 및 도 5b 는 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에서 결정된 마스킹 임계치를 설명하기 위한 도면이다.
도 6 은 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법을 설명하기 위한 흐름도이다.
도 7 은 본 발명의 구체적인 일 실시예에 따라 윈도윙 (windowing) 부를 포함하는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 8 은 본 발명의 구체적인 일 실시예에 따라 윈도윙부 및 피치 필터 (pitch filter) 를 포함하는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 9 는 본 발명의 일 실시예에 따른 오디오 신호 복호화 장치를 설명하기 위한 블록도이다.
도 10 은 본 발명의 일 실시예에 따른 오디오 신호 복호화 방법을 설명하기 위한 흐름도이다.
도 2a 및 도 2b 는 짧은 윈도우 기반의 마스킹 임계치를 설명하기 위한 도면이다.
도 3 은 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 4 는 본 발명의 일 실시예에 따라 시간 왜곡 필터부를 포함하는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 5a 및 도 5b 는 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에서 결정된 마스킹 임계치를 설명하기 위한 도면이다.
도 6 은 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법을 설명하기 위한 흐름도이다.
도 7 은 본 발명의 구체적인 일 실시예에 따라 윈도윙 (windowing) 부를 포함하는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 8 은 본 발명의 구체적인 일 실시예에 따라 윈도윙부 및 피치 필터 (pitch filter) 를 포함하는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 9 는 본 발명의 일 실시예에 따른 오디오 신호 복호화 장치를 설명하기 위한 블록도이다.
도 10 은 본 발명의 일 실시예에 따른 오디오 신호 복호화 방법을 설명하기 위한 흐름도이다.
발명의 실시를 위한 최선의 형태
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법은, 오디오 신호가 분할된 제1 윈도우를 주파수 변환하는 단계; 상기 제 1 윈도우의 프레임 길이에 기초하여, 상기 제 1 윈도우와 프레임 길이가 상이한 제 2 윈도우에 대한 마스킹 임계치를 결정하는 단계; 및 상기 결정된 마스킹 임계치를 이용하여 상기 변환된 제 1 윈도우의 변환 계수들을 양자화하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 복호화 장치는, 부호화된 오디오 신호의 제 1 윈도우를 수신하고, 부호화 장치로부터 전송된 양자화 정보를 이용하여 상기 수신된 제 1 윈도우를 역양자화하는 역양자화부; 및 상기 역양자화된 제 1 윈도우의 변환 계수들을 역변환하는 역변환부를 포함하고, 상기 수신된 제 1 윈도우는, 마스킹 임계치를 이용하여 생성된 것이고, 상기 마스킹 임계치는, 상기 제 1 윈도우의 프레임 길이에 기초하여, 상기 제 1 윈도우의 프레임 길이가 상이한 제 2 윈도우에 대해 결정되는 것일 수 있다.
한편, 본 발명의 일 실시예에 따른 컴퓨터로 읽을 수 있는 기록 매체는 상술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록할 수 있다.
발명의 실시를 위한 형태
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
또한, 본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 정보 (information) 는 값 (value), 파라미터 (parameter), 계수 (coefficients), 성분 (elements) 등을 모두 포함하는 용어로서, 경우에 따라 의미는 달리 해석될 수 있으며, 본 발명은 이에 한정되지 아니한다.
한편, 오디오 신호(audio signal)란, 광의로는, 비디오 신호와 구분되는 개념으로서, 재생 시 청각으로 식별할 수 있는 신호를 의미할 수 있다. 오디오 신호는, 협의로는, 음성(speech) 신호와 구분되는 개념으로서, 음성 특성이 없거나 적은 신호를 의미한다. 본 발명에서의 오디오 신호는 광의로 해석되어야 하며 음성 신호와 구분되어 사용될 때 협의의 오디오 신호로 이해될 수 있다.
한편, 프레임이란, 오디오 신호를 부호화 또는 복호화하기 위한 데이터 단위를 일컫는 것으로서, 특정 샘플 수나 특정 시간에 한정되지 아니한다.
본 발명에 따른 오디오 신호 부호화/복호화 방법 및 장치는, 오디오 신호의 주파수 변환 계수의 부호화/복호화 장치 및 방법이 될 수도 있고, 나아가 이 장치 및 방법이 적용된 오디오 신호 처리 장치 및 방법이 될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1 및 2 는 마스킹 임계치를 설명하기 위하여 도시한 도면이다.
심리 음향 모델은 입력된 오디오 신호에 대해 마스킹 효과를 적용하여 마스킹 임계치(masking threshold)를 생성한다.
마스킹(masking) 효과란, 심리 음향 이론에 의한 것으로, 크기가 큰 신호에 인접한 작은 신호들은 큰 신호에 의해서 가려지기 때문에 인간의 청각 구조가 이를 잘 인지하지 못한다는 특성을 이용하는 것이다. 예를 들어, 시끄러운 버스가 지나가는 버스 정류장에서와 같이 소음이 심한 공간에서는, 조용한 공간에서 들릴 수 있는 대화 소리가 들리지 않게 된다.
마스킹 임계치란, 청자가 들을 수 있는 한계값을 의미할 수 있다. 마스킹 효과에 의하면, 마스킹 임계치 아래에 위치한 오디오 신호는 청자가 들을 수 없다.
심리 음향 모델을 적용함에 있어서, 오디오 신호가 분할된 하나의 윈도우에 포함되는 복수의 주파수 변환 계수 대역 (frequency scale factor band) 에는 에너지가 가장 큰 신호가 중간에 존재하고, 이 신호보다 훨씬 작은 크기의 신호가 주변에 몇 개 존재할 수 있다. 여기서 가장 큰 신호가 마스커 (masker) 가 되고, 이 마스커를 기준으로 마스킹 커브 (masking curve) 가 그려진다. 이 마스킹 커브에 의해서 가려지는 작은 신호는 마스킹된 신호 (masked signal) 또는 마스키 (maskee) 가 될 수 있다. 이 마스킹된 신호를 제외하고 나머지 신호만을 유효한 신호로 남겨두는 것을 마스킹(masking)이라 한다.
심리 음향 모델은 소정의 알고리즘을 이용하여 인간의 청각 시스템을 모델링한다. 다양한 심리 음향 모델 알고리즘이 알려져 있으며 본 발명의 실시예와 함께 이용될 수 있다. 그러나, 다음의 이론적인 기반은 대부분의 알고리즘들에 대해 동일하다.
- 주파수 변환된 오디오 신호를 임계 대역들로 그룹화한다.
- 임계 대역 (critical band) 들 내에서 음조(tonal) 및 비음조(잡음 성분)를 결정한다.
- 에너지 레벨, 조성(tonality) 및 주파수 위치들을 사용함으로써 임계 대역 성분들의 각각에 대해 개별적인 마스킹 임계치를 계산한다.
- 계산된 마스킹 임계치들로부터 마스킹 커브를 계산한다.
한편, 상술한 바와 같이 심리 음향 모델에 따른 마스킹 임계치를 결정함에 있어서, 도 1 은 긴 윈도우를 이용해서 마스킹 임계치를 계산한 결과이고, 도 2 는 짧은 윈도우를 이용해서 마스킹 임계치를 계산한 결과이다.
도 1 에 도시된 마스킹 임계치는 프레임 길이 (Frame-size) 가 1024 샘플인 긴 윈도우로 분할된 오디오 신호에 대해 계산된 결과이다. 도 2 에 도시된 마스킹 임계치는 프레임 길이가 128 샘플인 짧은 윈도우로 분할된 오디오 신호에 대해 계산된 결과이다.
도 1 및 도 2 에는 동일한 주파수 영역에 대해 계산된 마스킹 임계치가 화살표로 표시된다. 도 1 및 도 2 에 도시된 화살표에 의해 나타나는 바와 같이, 동일한 오디오 신호에 대해서 동일한 프레임에 대한 마스킹 임계치를 계산하였음에도 불구하고, 이용된 윈도우의 프레임 길이에 따라서 마스킹 임계치들 간에 차이가 있을 수 있다.
도 2 에 도시된 바와 같이, 상대적으로 프레임 길이가 짧은 윈도우를 이용해서 마스킹 임계치를 계산한 경우, 긴 윈도우를 이용해서 마스킹 임계치를 계산한 경우에 비해서 마스킹 임계치가 최대 50dB 만큼 과대 추정 (over-estimation) 되고 있음을 알 수 있다.
즉, 오디오 신호의 짧은 지연 시간을 위해서 짧은 윈도우를 이용해서 마스킹 임계치를 계산하게 되면, 긴 윈도우 또는 일반 윈도우 (normal window) 를 이용해서 계산되는 마스킹 임계치에 비해서 부정확한 값이 예측될 수 있다. 이 때, 과대 추정된 마스킹 임계치를 이용하여 오디오 신호를 양자화할 경우, 실제 허용되는 양자화 노이즈 레벨보다 더 높은 수준의 양자화 노이즈 레벨을 허용하게 된다.
따라서, 짧은 윈도우를 이용하여 부정확하게 계산된 마스킹 임계치를 기초로 오디오 신호를 부호화 할 경우, 보다 많은 양자화 노이즈가 유입될 가능성이 높아지고 결과적으로 음질이 저하된다는 문제점이 있을 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 방법 및 장치에 의하면, 짧은 윈도우 기반의 심리 음향 모델에서 과대 추정된 마스킹 임계치를 보정함으로써 부호화시 과도한 양자화 노이즈가 유입되는 것을 억제할 수 있다.
도 3 은 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 3 을 참조하면, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (300) 는 주파수 변환부 (310), 마스킹 임계치 결정부 (320), 및 양자화부 (330) 를 포함할 수 있다.
주파수 변환부 (310) 는, 오디오 신호가 분할된 제 1 윈도우를 주파수 변환할 수 있다.
주파수 변환부 (310) 는 입력되는 오디오 신호에 대해 주파수 변환 (또는, 시간-주파수 매핑(time to frequency mapping)이라 함)을 수행하여, 주파수 스펙트럼을 생성할 수 있다. 입력되는 오디오 신호는 윈도우 단위로 분할되어 입력될 수 있다.
주파수 변환부 (310) 는 오디오 신호가 분할된 제 1 윈도우를 주파수 변환함으로써 변환 계수들을 생성할 수 있다. 이 때, 제 1 윈도우의 주파수 변환은 QMF (Quadrature Mirror Filterbank), MDCT(Modified Discrete Fourier Transform), FFT (Fast Fourier Transform) 또는 이와 유사한 방식으로 수행될 수 있지만 본 발명은 이에 한정되지 아니한다.
마스킹 임계치 결정부 (320) 는, 오디오 신호가 분할된 제 1 윈도우의 프레임 길이에 기초하여, 제 1 윈도우와 프레임 길이가 상이한 제 2 윈도우에 대한 마스킹 임계치를 결정할 수 있다.
마스킹 임계치 결정부 (320) 가 마스킹 임계치를 계산하기 위해서는 상술한 심리 음향 모델 및 그와 유사한 기술들이 이용될 수 있다. 다만 앞서 언급한 바와 같이, 프레임 길이가 상대적으로 짧은 윈도우를 이용해서 계산된 마스킹 임계치는, 프레임 길이가 상대적으로 긴 윈도우를 이용해서 계산되는 마스킹 임계치에 비해서 부정확할 수 있다.
따라서, 짧은 윈도우 기반의 마스킹 임계치의 에러가 보정된 정확한 마스킹 임계치를 결정하는 마스킹 임계치 결정부 (320) 를 포함함으로써, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (300) 는 부호화되는 오디오 신호의 음질을 높일 수 있다.
마스킹 임계치 결정부 (320) 는 짧은 윈도우인 제 1 윈도우를 이용하여 오디오 신호가 분할된 경우, 제 1 윈도우보다 프레임 길이가 긴 제 2 윈도우에 대한 마스킹 임계치를 결정할 수 있다. 즉, 마스킹 임계치 결정부 (320) 는 제 1 윈도우를 이용하여 계산된 마스킹 임계치의 에러를 보정함으로써 제 2 윈도우를 이용하여 계산된 마스킹 임계치와 같이 정확한 마스킹 임계치를 결정할 수 있다.
마스킹 임계치 결정부 (320)는, 입력된 오디오 신호가 짧은 윈도우를 이용하여 분할된 신호인지 여부를 판단하기 위해서는, 입력된 오디오 신호의 윈도우의 프레임 길이를 소정값과 비교하거나, 오디오 신호 부호화 장치 (300) 에 사용되는 어플리케이션이 짧은 윈도우 기반의 신호에 적용되는지 여부를 판단하거나, 입력된 오디오 신호를 분석함으로써 판단할 수 있다.
소정값은 오디오 신호 부호화 장치 (300) 의 어플리케이션에 따라 미리 결정된 값일 수 있고, 오디오 신호 부호화 장치 (300) 의 사용자에 의해 미리 결정되어 저장된 값일 수 있다. 예를 들어, 제 1 윈도우의 프레임 길이가 1024 샘플보다 짧은 경우, 짧은 윈도우를 이용하여 오디오 신호가 분할된 것으로 판단할 수 있다. 이 때, 소정값은 1024 샘플일 수 있다.
또한, 마스킹 임계치 결정부 (320) 는, 입력된 오디오 신호가 음성 신호의 특성이 강하면, 제 1 윈도우의 프레임 길이가 짧은 것으로 판단하고, 제 1 윈도우와 프레임 길이가 상이한 제 2 윈도우에 대한 마스킹 임계치를 결정할 수 있다.
일 예로서, 마스킹 임계치 결정부 (320) 는, 제 2 윈도우에 대한 마스킹 임계치를 결정하기 위해서, 제 1 윈도우를 이용하여 샘플링된 오디오 신호를 시간 왜곡 필터 (time warping filter) 를 이용하여 재샘플링하고, 재샘플링된 신호를 이용하여 제 2 윈도우에 대한 마스킹 임계치를 결정할 수 있다.
시간 왜곡 필터를 이용하여 보정된 마스킹 임계치를 결정하는 오디오 신호 부호화 장치에 대해서는 이하 도 4 를 참조하여 보다 구체적으로 살펴보도록 한다.
다른 예로서, 마스킹 임계치 결정부 (320) 는, 제 1 윈도우의 프레임 길이가 소정값보다 짧으면, 프레임 길이가 소정값보다 긴 제 2 윈도우에 대한 제 2 마스킹 임계치를 결정하고, 제 1 윈도우에 대해 결정된 제 1 마스킹 임계치를 제 2 마스킹 임계치로 변경할 수 있다.
오디오 신호 부호화 장치 (300) 구현의 조건이 매우 제약적인 경우, 예를 들어 추가적인 부호화 지연 시간을 허용 할 수 없거나 시간 왜곡 필터를 동작하기 위한 추가적인 자원 (예를 들어, 전력, 메모리 등)을 허용할 수 없는 경우, 마스킹 임계치 결정부 (320) 는 통계적인 값을 바탕으로 작성된 룩업 테이블을 이용하여 마스킹 임계치를 결정할 수 있다.
마스킹 임계치 결정부 (320) 는, 제 1 윈도우의 변환 계수 대역 (scale factor band) 별로 마스킹 임계치에 대한 보정 계수를 포함하는 룩업 테이블을 이용함으로써 제 1 마스킹 임계치로부터 제 2 마스킹 임계치를 도출할 수 있다.
또한, 마스킹 임계치 결정부 (320) 는, 오디오 신호가 분할된 제 1 윈도우가 짧은 윈도우가 아니라고 판단되는 경우, 제 1 윈도우의 프레임 길이에 대한 마스킹 임계치를 결정할 수 있다. 마스킹 임계치 결정부 (320) 는, 오디오 신호가 분할된 제 1 윈도우의 프레임 길이에 기초하여, 적응적으로 짧은 윈도우 기반의 마스킹 임계치의 에러가 보정된 정확한 마스킹 임계치를 결정하고, 양자화부 (330) 로 출력할 수 있다.
양자화부 (330) 는, 마스킹 임계치 결정부 (320) 에서 결정된 마스킹 임계치를 이용하여, 주파수 변환부 (310) 에서 변환된 제 1 윈도우의 변환 계수들을 양자화할 수 있다.
양자화부 (330) 가 제 1 윈도우의 변환 계수들을 양자화하는 과정에서 노이즈가 발생할 수 있는데, 양자화부 (330) 는 발생하는 양자화 노이즈가 마스킹 임계치보다 작도록 변환 계수들을 양자화할 수 있다. 양자화 노이즈가 마스킹 임계치보다 작다는 것은, 양자화에 따른 노이즈의 에너지가 마스킹 효과로 인해 가려진다는 것을 의미한다. 다시 말해서, 마스킹 임계치보다 작은 양자화 노이즈는 청취자가 듣지 못한다.
양자화부 (330) 에서 양자화된 오디오 신호는 무잡음 부호화 (Noiseless coding) 및 비트스트림 패킹 (Bitstream Packing) 등의 과정을 거쳐 부호화된 비트스트림의 형태로 출력될 수 있다.
본 명세서에서는 설명의 편의상 하나의 제 1 윈도우에 대한 동작들을 기술하였지만, 본 발명에 따른 오디오 신호 부호화 장치 (300) 는, 오디오 신호가 분할된 복수의 제 1 윈도우들마다 본 명세서에 기술한 동작들을 반복할 수 있다.
도 4 는 본 발명의 일 실시예에 따라 시간 왜곡 필터부를 포함하는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 4 에 도시된 바와 같이, 오디오 신호 부호화 장치 (300) 는 마스킹 임계치 결정부 (320) 내에 시간 왜곡 필터부 (422), 및 결정부 (424) 를 포함할 수 있다.
시간 왜곡 필터부 (422) 는 제 1 윈도우의 프레임 길이가 소정값보다 짧으면, 제 1 윈도우를 이용하여 샘플링된 오디오 신호를 재샘플링할 수 있다. 시간 왜곡 필터부 (422) 를 포함하는 오디오 신호 부호화 장치 (300) 는, 짧은 윈도우로 분할된 오디오 신호 내에 포함되는 샘플들을 이용하여 마치 긴 윈도우를 이용해서 분석하는 것과 유사한 효과를 볼 수 있도록 도와 준다. 예를 들어, 초당 10회의 샘플링 레이트 (sampling rate) 로 샘플링된 오디오 신호를 초당 100회의 샘플링 레이트로 재샘플링함으로써 마치 10배 긴 윈도우를 이용하여 마스킹 임계치를 계산하는 효과를 도출할 수 있다.
시간 왜곡 필터부 (422) 는 [수학식 1] 에 따라 입력된 오디오 신호를 재샘플링할 수 있다.
상기 [수학식 1] 에서 a 는 왜곡의 정도를 제어하는 왜곡 변수 (warping parameter) 이다. 왜곡 변수는 오디오 신호의 샘플링 레이트에 따라 미리 결정된 값일 수 있다. 예를 들어, 시간 왜곡 필터에서, 바크 스케일 (Bark frequency scale) 에 해당하는 주파수 분해능 (spectral resolution) 을 확보하기 위해서, 왜곡 변수는 48kHz 샘플링 레이트에서 0.5756의 값으로 결정될 수 있다.
그러나 왜곡 변수는 이에 한정되지 않으며, 오디오 신호를 처리하는 시스템 전체의 지연 시간 및 복잡도를 고려하여 더 작거나 더 큰 값이 사용될 수 있다. 도 5 에는 시간 왜곡 필터를 이용하여 계산된 마스킹 임계치가 도시된다.
도 5 는 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치에서 결정된 마스킹 임계치를 설명하기 위하여 도시한 도면이다.
도 5 는 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (300) 가 프레임 길이 (Framesize) 가 128 샘플인 짧은 윈도우로 분할된 오디오 신호를 기초로 마스킹 임계치를 계산한 결과이다.
도 5 에는, 도 1 및 도 2 에 도시된 화살표가 가리키는 주파수 영역과 동일한 주파수 영역에 대한 마스킹 임계치가 화살표로 표시된다.
도 2 와 동일한 짧은 윈도우 기반의 오디오 신호에 대해서 동일한 프레임에 대한 마스킹 임계치를 계산하였음에도 불구하고, 도 5 에서 화살표로 표시된 주파수 영역에 대한 마스킹 임계치는 도 2 에서 화살표로 표시된 주파수 영역에 대한 마스킹 임계치와 상이함을 알 수 있다. 반면에 도 5 에서 화살표로 표시된 주파수 영역에 대한 마스킹 임계치는 도 1 에서 화살표로 표시된 주파수 영역에 대해서 계산된 마스킹 임계치와 유사함을 알 수 있다.
즉, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (300) 는 짧은 윈도우를 이용하여 과대 추정된 마스킹 임계치가 보정된 결과를 출력할 수 있다. 따라서 짧은 윈도우를 이용하는 경우에도 긴 윈도우 기반의 오디오 신호에 대해서 마스킹 임계치를 계산한 것과 같이 정확한 마스킹 임계치를 결정할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (300) 에 의하면, 짧은 윈도우를 이용하여 짧은 지연 시간을 확보함과 동시에, 정확한 마스킹 임계치를 결정함으로써 부호화된 오디오 신호의 음질을 높일 수 있다.
도 6 은 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법을 설명하기 위한 흐름도이다.
도 6 을 참조하면, 본 발명의 일 실시예에 따른 오디오 신호 부호화 방법은 도 3 또는 도 4 에 도시된 오디오 신호 부호화 장치 (300) 에서 처리되는 단계들로 구성된다. 따라서, 이하에 생략된 내용이라 하더라도 도 3 또는 도 4 에 도시된 오디오 신호 부호화 장치 (300) 에 관하여 상술된 내용은 도 6 의 오디오 신호 부호화 방법에도 적용됨을 알 수 있다.
단계 S610 에서, 오디오 신호 부호화 장치 (300) 는, 오디오 신호가 분할된 제1 윈도우를 주파수 변환할 수 있다.
단계 S620 에서, 오디오 신호 부호화 장치 (300) 는, 제 1 윈도우의 프레임 길이에 기초하여, 제 1 윈도우와 프레임 길이가 상이한 제 2 윈도우에 대한 마스킹 임계치를 결정할 수 있다.
이 때, 오디오 신호 부호화 장치 (300) 는 제 2 윈도우에 대한 마스킹 임계치를 결정하기 위해서 시간 왜곡 필터를 이용하거나 마스킹 임계치의 보정 계수가 포함된 룩업 테이블을 이용할 수 있다.
단계 S630 에서, 오디오 신호 부호화 장치 (300) 는, 단계 S620 에서 결정된 마스킹 임계치를 이용하여 단계 S610 에서 변환된 제 1 윈도우의 변환 계수들을 양자화할 수 있다.
실시예
도 7 은 본 발명의 구체적인 일 실시예에 따라 윈도윙부를 포함하는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
도 7 에 도시된 바와 같이, 오디오 신호 부호화 장치 (300) 는 윈도윙부 (windowing unit) (740), 엔트로피 부호화부 (entropy coding unit) (750), 및 비트스트림 형성부 (bitstream forming unit) (760) 를 포함할 수 있다. 또한, 오디오 신호 부호화 장치 (300) 는 마스킹 임계치 결정부 (320) 내에 보정부 (adjusting unit) (722) 및 심리 음향 모델 (724) 을 포함할 수 있다.
윈도윙부 (740) 는 입력된 오디오 신호를 윈도우 단위로 분할할 수 있다. 윈도우의 프레임 길이는 오디오 신호 부호화 장치 (300) 에 적용되는 어플리케이션에 따라 변경될 수 있다.
마스킹 임계치 결정부 (320) 는 윈도윙부 (740) 로부터 제 1 윈도우의 프레임 길이를 획득하고, 제 1 윈도우의 프레임 길이가 소정값보다 짧은 경우, 프레임 길이가 소정값보다 긴 제 2 윈도우에 대한 마스킹 임계치를 결정하여 출력할 수 있다.
보다 구체적으로, 보정부 (722) 는, 제 1 윈도우의 프레임 길이가 소정값보다 짧은 경우 시간 왜곡 필터를 이용하여 재샘플링된 오디오 신호를 심리 음향 모델 (724) 로 출력할 수 있다. 재샘플링된 오디오 신호에 기초하여 심리 음향 모델 (724) 은 프레임 길이가 상대적으로 긴 제 2 윈도우에 대한 마스킹 임계치를 결정하여 출력할 수 있다.
또는 보정부 (722) 는 룩업 테이블에 포함된 보정 계수를 심리 음향 모델 (724) 로 출력할 수 있다. 보정 계수에 기초하여 심리 음향 모델 (724) 은 제 1 윈도우에 대한 마스킹 임계치를 보정함으로써, 프레임 길이가 상대적으로 긴 제 2 윈도우에 대한 마스킹 임계치를 결정하여 출력할 수 있다.
도 7 의 보정부 (722) 및 심리 음향 모델부 (724) 는 각각 도 4 의 시간 왜곡 필터부 (422) 및 결정부 (424) 에 대응될 수 있다.
엔트로피 부호화부 (750) 는 양자화된 오디오 신호에 대하여 엔트로피 부호화를 수행할 수 있다. 엔트로피 부호화부 (750) 는 예를 들어, 허프만 부호화 (Huffman coding), 범위 부호화 (range encoding), 산술 부호화 (arithmetic coding), 및 이와 유사한 방식을 이용하여 양자화된 오디오 신호를 부호화할 수 있지만 이에 한정되지 않는다.
비트스트림 형성부 (bitstream forming unit) (760) 는 엔트로피 부호화부 (750) 로부터 출력된 부호화된 오디오 신호로부터 하나 또는 그 이상의 비트스트림을 생성하여 출력할 수 있다.
도 7 에 도시된 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (300) 는 보정부 (722) 를 포함하는 마스킹 임계치 결정부 (320) 를 포함함으로써, 짧은 윈도우 기반의 오디오 신호에 대해서 과대 추정된 마스킹 임계치를 보정한 후 양자화부 (330) 에서 양자화를 수행할 수 있다.
도 7 에 도시된 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (300) 는 오디오 신호를 부호화함에 있어서, 짧은 윈도우를 이용하여 짧은 지연 시간을 확보함과 동시에, 정확한 마스킹 임계치를 결정함으로써 부호화된 오디오 신호의 음질을 높일 수 있다.
도 8 은 본 발명의 구체적인 일 실시예에 따라 윈도윙부 및 피치 필터를 포함하는 오디오 신호 부호화 장치를 설명하기 위한 블록도이다.
피치 필터 (870) 는, 짧은 지연시간을 위해 짧은 윈도우를 이용하는 오디오 신호 부호화 시스템에 있어서, 주기적인 음악 및 음성 신호에 대해서 두드러지게 발생되는 부호화 왜곡 (coding distortion) 을 감소시키기 위해 사용될 수 있다.
피치 필터 (870) 를 사용하는 오디오 부호화기의 경우에도 짧은 윈도우 기반의 오디오 신호에 대해서는 마스킹 임계치가 과대 추정되는 문제점이 있었다. 따라서, 이러한 문제를 해결하기 위해서, 피치 필터 (870) 를 포함하는 경우, 본 발명의 일 실시예에 따른 오디오 신호 부호화 장치 (300) 는 도 8 에 도시된 바와 같이 구현될 수 있다. 도 7 과 중복된 설명은 생략한다.
도 9 는 본 발명의 일 실시예에 따른 오디오 신호 복호화 장치를 설명하기 위한 블록도이다.
도 9 를 참조하면, 본 발명의 일 실시예에 따른 오디오 신호 복호화 장치 (900) 는 역양자화부 (910), 및 역변환부 (920) 를 포함할 수 있다.
역양자화부 (910) 는, 부호화된 오디오 신호의 제 1 윈도우를 수신할 수 있다. 역양자화부 (910) 는, 오디오 신호 부호화 장치 (300) 로부터 전송된 양자화 정보를 이용하여 수신된 제 1 윈도우를 역양자화할 수 있다.
부호화된 오디오 신호의 제 1 윈도우는 엔트로피 복호화에 의해 생성된 신호일 수 있다. 또한, 부호화된 오디오 신호의 제 1 윈도우는, 마스킹 임계치를 이용하여 생성된 것일 수 있다. 마스킹 임계치는, 제 1 윈도우의 프레임 길이에 기초하여, 제 1 윈도우의 프레임 길이가 상이한 제 2 윈도우에 대해 결정되는 것일 수 있다. 또한, 오디오 신호 부호화 장치 (300) 로부터 전송된 양자화 정보는, 오디오 신호의 부호화시 사용된 샘플링 주파수 정보를 포함할 수 있다.
역양자화부 (910) 는 수신된 제 1 윈도우를 역양자화함으로써 제 1 윈도우의 변환 계수들을 생성할 수 있다.
역변환부 (920) 는 주파수-시간 변환 (또는, 주파수-시간 매핑(frequency to time mapping)이라 함)을 수행함으로써, 역양자화부 (910) 에서 역양자화된 제 1 윈도우의 변환 계수들을 역변환할 수 있다. 주파수-시간 변환은 IQMF (Inverse Quadrature Mirror Filterbank), IMDCT(Inverse Modified Discrete Fourier Transform), IFFT (Inverse Fast Fourier Transform) 또는 이와 유사한 방식으로 수행될 수 있지만 본 발명은 이에 한정되지 아니한다.
한편, 도 8 에 도시된 피치 필터 (870) 를 포함하는 오디오 부호화 장치 (300) 로부터 수신되는 오디오 신호는, 역변환부 (920) 에서 역변환되고, 저 지연율 합성 윈도윙 (low delay synthesis windowing) 및 피치 포스트 필터링 (pitch post-filtering) 이 적용되어 복원될 수 있다.
본 명세서에서는 설명의 편의상 하나의 제 1 윈도우에 대한 동작들을 기술하였지만, 본 발명에 따른 오디오 신호 복호화 장치 (900) 는, 오디오 신호가 분할된 복수의 제 1 윈도우들마다 본 명세서에 기술한 동작들을 반복할 수 있다.
도 10 은 본 발명의 일 실시예에 따른 오디오 신호 복호화 방법을 설명하기 위한 흐름도이다.
도 10 을 참조하면, 본 발명의 일 실시예에 따른 오디오 신호 복호화 방법은 도 9 에 도시된 오디오 신호 복호화 장치 (900) 에서 처리되는 단계들로 구성된다. 따라서, 이하에 생략된 내용이라 하더라도 도 9 에 도시된 오디오 신호 복호화 장치 (900) 에 관하여 상술된 내용은 도 10 의 오디오 신호 복호화 방법에도 적용됨을 알 수 있다.
단계 S1010 에서, 오디오 신호 복호화 장치 (300) 는, 부호화된 오디오 신호의 제 1 윈도우를 수신할 수 있다.
오디오 신호 복호화 장치 (300) 는 비트스트림을 수신하여, 수신된 비트스트림으로부터 엔트로피 부호화된 오디오 신호를 추출할 수 있다. 오디오 신호 복호화 장치 (300) 는 엔트로피 부호화된 오디오 신호에 대해 엔트로피 복호화를 수행할 수 있다. 단계 S1010 에서 수신되는 제 1 윈도우는 엔트로피 복호화된 오디오 신호일 수 있다.
단계 S1010 에서 수신된 제 1 윈도우는, 마스킹 임계치를 이용하여 생성된 것일 수 있다. 이 때, 마스킹 임계치는, 제 1 윈도우의 프레임 길이에 기초하여, 제 1 윈도우의 프레임 길이가 상이한 제 2 윈도우에 대해 결정되는 것일 수 있다.
단계 S1020 에서, 오디오 신호 복호화 장치 (900) 는, 부호화 장치로부터 전송된 양자화 정보를 이용하여 단계 S1010 에서 수신된 제 1 윈도우를 역양자화할 수 있다. 오디오 신호 복호화 장치 (900) 는 수신된 제 1 윈도우를 역양자화함으로써 제 1 윈도우에 대한 변환 계수들을 생성할 수 있다.
단계 S1030 에서, 오디오 신호 복호화 장치 (900) 는, 제 1 윈도우의 변환 계수들을 역변환함으로써 오디오 신호를 복원할 수 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
Claims (23)
- 제 1 윈도우를 이용하여 오디오 신호가 분할된 프레임을 주파수 변환하는 단계;
상기 프레임에 대한 마스킹 임계치를 결정하는 단계; 및
상기 결정된 마스킹 임계치를 이용하여 상기 주파수 변환된 상기 프레임의 변환 계수들을 양자화하는 단계를 포함하고,
상기 마스킹 임계치를 결정하는 단계는,
상기 제 1 윈도우의 프레임 길이가 소정값 이상이면, 상기 제 1 윈도우의 프레임 길이에 대응하는 제 1 마스킹 임계치를 상기 마스킹 임계치로서 결정하는 단계; 및
상기 제 1 윈도우의 프레임 길이가 상기 소정값 미만이면, 상기 제 1 윈도우보다 긴 제 2 윈도우에 대응하는 제 2 마스킹 임계치를 상기 마스킹 임계치로서 결정하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법. - 삭제
- 제 1 항에 있어서,
상기 제 2 마스킹 임계치를 상기 마스킹 임계치로서 결정하는 단계는,
상기 제 1 윈도우를 이용하여 샘플링된 상기 프레임을 시간 왜곡 필터(time warping filter)를 이용하여 재샘플링하는 단계; 및
상기 재샘플링된 프레임을 이용하여 상기 제 2 윈도우에 대응하는 상기 제 2 마스킹 임계치를 상기 마스킹 임계치로서 결정하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법. - 제 3 항에 있어서,
상기 시간 왜곡 필터는,
상기 제 1 윈도우를 이용하여 샘플링된 상기 프레임을 소정 샘플링 레이트로 재샘플링하는 것을 특징으로 하는 오디오 신호 부호화 방법. - 제 4 항에 있어서,
상기 시간 왜곡 필터는,
상기 시간 왜곡 필터의 출력이 바크 스케일 (Bark Scale) 에 대응되는 주파수 분해능 (spectral resolution) 을 갖도록 상기 소정 샘플링 레이트에 따라 미리 결정된 왜곡 변수가 적용되는 것을 특징으로 하는 오디오 신호 부호화 방법. - 삭제
- 제 1 항에 있어서,
상기 제 2 마스킹 임계치를 상기 마스킹 임계치로서 결정하는 단계는,
상기 주파수 변환된 상기 프레임의 변환 계수 대역 (scale factor band) 별로 마스킹 임계치에 대한 보정 계수를 포함하는 룩업 테이블을 이용함으로써, 상기 제 1 마스킹 임계치로부터 상기 제 2 마스킹 임계치를 결정하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법. - 제 1 항에 있어서,
상기 마스킹 임계치를 결정하는 단계는,
상기 오디오 신호가 음성 신호의 특성이 강하면, 상기 제 1 윈도우의 프레임 길이가 상기 소정값 미만이라고 판단하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법. - 제 1 항에 있어서,
상기 소정값은 1024 샘플 (sample) 인 것을 특징으로 하는 오디오 신호 부호화 방법. - 제 1 항에 있어서,
상기 마스킹 임계치를 결정하는 단계는,
심리 음향 모델 (psycho-acoustic model) 에 따라 상기 제 1 마스킹 임계치를 결정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법. - 제 1 윈도우를 이용하여 오디오 신호가 분할된 프레임을 주파수 변환하는 주파수 변환부;
상기 프레임에 대한 마스킹 임계치를 결정하는 마스킹 임계치 결정부; 및
상기 결정된 마스킹 임계치를 이용하여 상기 주파수 변환된 상기 프레임의 변환 계수들을 양자화하는 양자화부를 포함하고,
상기 마스킹 임계치 결정부는,
상기 제 1 윈도우의 프레임 길이가 소정값 이상이면, 상기 제 1 윈도우의 프레임 길이에 대응하는 제 1 마스킹 임계치를 상기 마스킹 임계치로서 결정하고,
상기 제 1 윈도우의 프레임 길이가 상기 소정값 미만이면, 상기 제 1 윈도우보다 긴 제 2 윈도우에 대응하는 제 2 마스킹 임계치를 상기 마스킹 임계치로서 결정하는 것을 특징으로 하는 오디오 신호 부호화 장치. - 삭제
- 제 11 항에 있어서,
상기 마스킹 임계치 결정부는,
상기 제 1 윈도우를 이용하여 샘플링된 상기 프레임을 시간 왜곡 필터를 이용하여 재샘플링하고,
상기 재샘플링된 프레임을 이용하여 상기 제 2 윈도우에 대응하는 상기 제 2 마스킹 임계치를 상기 마스킹 임계치로서 결정하는 것을 특징으로 하는 오디오 신호 부호화 장치. - 제 13 항에 있어서,
상기 시간 왜곡 필터는, 상기 제 1 윈도우를 이용하여 샘플링된 상기 프레임을 소정 샘플링 레이트로 재샘플링하는 것을 특징으로 하는 오디오 신호 부호화 장치. - 제 14 항에 있어서,
상기 시간 왜곡 필터는,
상기 시간 왜곡 필터의 출력이 바크 스케일 (Bark Scale) 에 대응되는 주파수 분해능 (spectral resolution) 를 갖도록 상기 소정 샘플링 레이트에 따라 미리 결정된 왜곡 변수가 적용되는 것을 특징으로 하는 오디오 신호 부호화 장치. - 삭제
- 제 11 항에 있어서,
상기 마스킹 임계치 결정부는,
상기 주파수 변환된 상기 프레임의 변환 계수 대역 (scale factor band) 별로 마스킹 임계치에 대한 보정 계수를 포함하는 룩업 테이블을 이용함으로써, 상기 제 1 마스킹 임계치로부터 상기 제 2 마스킹 임계치를 결정하는 것을 특징으로 하는 오디오 신호 부호화 장치. - 제 11 항에 있어서,
상기 마스킹 임계치 결정부는,
상기 오디오 신호가 음성 신호의 특성이 강하면, 상기 제 1 윈도우의 프레임 길이가 상기 소정값 미만이라고 판단하는 것을 특징으로 하는 오디오 신호 부호화 장치. - 제 11 항에 있어서,
상기 소정값은 1024 샘플 (sample) 인 것을 특징으로 하는 오디오 신호 부호화 장치. - 제 11 항에 있어서,
상기 마스킹 임계치 결정부는,
심리 음향 모델 (psycho-acoustic model) 에 따라 상기 제 1 마스킹 임계치를 결정하는 것을 특징으로 하는 오디오 신호 부호화 장치. - 부호화된 오디오 신호의 제 1 윈도우를 수신하는 단계;
부호화 장치로부터 전송된 양자화 정보를 이용하여 상기 수신된 제 1 윈도우를 역양자화하는 단계; 및
상기 역양자화된 제 1 윈도우의 변환 계수들을 역변환하는 단계를 포함하고,
상기 수신된 제 1 윈도우는, 마스킹 임계치를 이용하여 생성된 것이고,
상기 마스킹 임계치는, 상기 제 1 윈도우의 프레임 길이가 소정값 이상이면 상기 제 1 윈도우의 프레임 길이에 대응하는 제 1 마스킹 임계치로 결정되고, 상기 제 1 윈도우의 프레임 길이가 상기 소정값 미만이면 상기 제 1 윈도우보다 긴 제 2 윈도우에 대응하는 제 2 마스킹 임계치로 결정되는 것을 특징으로 하는 오디오 신호 복호화 방법. - 부호화된 오디오 신호의 제 1 윈도우를 수신하고, 부호화 장치로부터 전송된 양자화 정보를 이용하여 상기 수신된 제 1 윈도우를 역양자화하는 역양자화부; 및
상기 역양자화된 제 1 윈도우의 변환 계수들을 역변환하는 역변환부를 포함하고,
상기 수신된 제 1 윈도우는, 마스킹 임계치를 이용하여 생성된 것이고,
상기 마스킹 임계치는, 상기 제 1 윈도우의 프레임 길이가 소정값 이상이면 상기 제 1 윈도우의 프레임 길이에 대응하는 제 1 마스킹 임계치로 결정되고, 상기 제 1 윈도우의 프레임 길이가 상기 소정값 미만이면 상기 제 1 윈도우보다 긴 제 2 윈도우에 대응하는 제 2 마스킹 임계치로 결정되는 것을 특징으로 하는 오디오 신호 복호화 장치. - 제 1 항 또는 제 21 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2013/008040 WO2015034115A1 (ko) | 2013-09-05 | 2013-09-05 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160050097A KR20160050097A (ko) | 2016-05-11 |
KR102231756B1 true KR102231756B1 (ko) | 2021-03-30 |
Family
ID=52628568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137030157A KR102231756B1 (ko) | 2013-09-05 | 2013-09-05 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10332527B2 (ko) |
KR (1) | KR102231756B1 (ko) |
WO (1) | WO2015034115A1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11031023B2 (en) * | 2017-07-03 | 2021-06-08 | Pioneer Corporation | Signal processing device, control method, program and storage medium |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5341457A (en) | 1988-12-30 | 1994-08-23 | At&T Bell Laboratories | Perceptual coding of audio signals |
ATE149766T1 (de) | 1993-07-16 | 1997-03-15 | Dolby Lab Licensing Corp | Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und einrichtung mit toleranz für dekoderspektralverzerrungen |
JP3854313B2 (ja) | 1996-04-10 | 2006-12-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複数の情報信号のエンコーディング |
KR100668319B1 (ko) * | 2004-12-07 | 2007-01-12 | 삼성전자주식회사 | 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치 |
KR101490246B1 (ko) * | 2007-07-02 | 2015-02-05 | 엘지전자 주식회사 | 방송 수신기 및 방송신호 처리방법 |
KR101435411B1 (ko) | 2007-09-28 | 2014-08-28 | 삼성전자주식회사 | 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치 |
WO2009084918A1 (en) | 2007-12-31 | 2009-07-09 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
KR20090122142A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
EP2372705A1 (en) * | 2010-03-24 | 2011-10-05 | Thomson Licensing | Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined |
KR20150032614A (ko) | 2012-06-04 | 2015-03-27 | 삼성전자주식회사 | 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기 |
-
2013
- 2013-09-05 US US14/916,808 patent/US10332527B2/en not_active Expired - Fee Related
- 2013-09-05 WO PCT/KR2013/008040 patent/WO2015034115A1/ko active Application Filing
- 2013-09-05 KR KR1020137030157A patent/KR102231756B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
US10332527B2 (en) | 2019-06-25 |
US20160196826A1 (en) | 2016-07-07 |
KR20160050097A (ko) | 2016-05-11 |
WO2015034115A1 (ko) | 2015-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Valin et al. | Definition of the opus audio codec | |
US8255211B2 (en) | Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering | |
USRE45294E1 (en) | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system | |
JP5165559B2 (ja) | オーディオコーデックポストフィルタ | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
EP3457402B1 (en) | Noise-adaptive voice signal processing method and terminal device employing said method | |
US20080312916A1 (en) | Receiver Intelligibility Enhancement System | |
JP2011013560A (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 | |
CN106030704B (zh) | 用于对音频信号进行编码/解码的方法和设备 | |
JP5295372B2 (ja) | デジタルオーディオ信号におけるプリエコーの減衰 | |
JP2009512895A (ja) | スペクトル・ダイナミックスに基づく信号コーディング及びデコーディング | |
JP6714741B2 (ja) | バーストフレーム誤り処理 | |
KR102231756B1 (ko) | 오디오 신호의 부호화, 복호화 방법 및 장치 | |
KR102243217B1 (ko) | 오디오 신호 부호화 방법 및 장치 | |
CN104078048B (zh) | 一种声音解码装置及其方法 | |
US20230154479A1 (en) | Low cost adaptation of bass post-filter | |
KR101259120B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
AU2012205170B2 (en) | Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering | |
EP3252763A1 (en) | Low-delay audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |