KR20180100294A - 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 - Google Patents
고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 Download PDFInfo
- Publication number
- KR20180100294A KR20180100294A KR1020180104852A KR20180104852A KR20180100294A KR 20180100294 A KR20180100294 A KR 20180100294A KR 1020180104852 A KR1020180104852 A KR 1020180104852A KR 20180104852 A KR20180104852 A KR 20180104852A KR 20180100294 A KR20180100294 A KR 20180100294A
- Authority
- KR
- South Korea
- Prior art keywords
- energy
- unit
- signal
- input signal
- encoding
- Prior art date
Links
- 238000000034 method Methods 0.000 title abstract description 85
- 238000001228 spectrum Methods 0.000 claims description 39
- 238000000695 excitation spectrum Methods 0.000 claims 2
- 238000005070 sampling Methods 0.000 abstract description 13
- 238000013139 quantization Methods 0.000 description 108
- 238000010586 diagram Methods 0.000 description 43
- 239000013598 vector Substances 0.000 description 38
- 230000002087 whitening effect Effects 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000001052 transient effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법이 개시된다. 부호화 장치는 입력 신호를 다운 샘플링하고, 다운 샘플링된 입력 신호를 코어 부호화를 수행하며, 입력 신호를 주파수 변환하고, 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행할 수 있다.
Description
본 발명은 음성 신호 또는 음악 신호와 같은 오디오 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것으로, 보다 상세하게는 오디오 신호 가운데 고주파수 영역에 해당하는 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것이다.
고주파수 영역에 해당하는 신호는 저주파수 영역에 해당하는 신호에 비하여 주파수의 미세 구조에 덜 민감하다. 그러므로 오디오 신호를 부호화할 때 가용할 수 있는 비트의 제약을 극복하기 위해 코딩의 효율을 높여야 할 경우, 저주파수 영역에 대응하는 신호에 많은 비트를 할당하여 부호화하는 반면 고주파수 영역에 대응하는 신호에 상대적으로 적은 비트를 할당하여 부호화한다.
이러한 방식이 적용된 기술이 SBR(Spectral Band Replication)이다. SBR 기술은 고대역 성분 신호를 포락선으로 표현하고 이를 복호화 단계에서 합성하는 방식으로 부호화 효율을 향상시키는 방식이다. 이는 인간의 청각 특성이 고대역 신호에 상대적으로 낮은 해상력을 가진다는 사실에 기반한 것이다.
이러한 SBR 기술에 있어, 고주파수 영역의 대역폭을 확장하기 위한 개선된 방법이 요구된다.
음성 신호 또는 음악 신호와 같은 오디오 신호 가운데 고주파수 영역에 해당하는 신호를 부호화하거나 복호화하는 방법 및 장치를 제공하는데 있다.
본 발명의 일실시예에 따른 부호화 장치는 입력 신호를 다운 샘플링하는 다운 샘플링부; 다운 샘플링된 입력 신호를 코어 부호화를 수행하는 코어 부호화부; 상기 입력 신호를 주파수 변환하는 주파수 변환부; 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 확장 부호화부를 포함할 수 있다.
본 발명의 다른 일실시예에 따른 부호화 장치는 입력 신호를 다운 샘플링하는 다운 샘플링부; 다운 샘플링된 입력 신호를 코어 부호화를 수행하는 코어 부호화부; 상기 입력 신호를 주파수 변환하는 주파수 변환부; 및 상기 입력 신호의 특성 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 확장 부호화부를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 부호화 장치는 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 대역폭 확장 부호화의 부호화 모드를 선택하는 부호화 모드 선택부; 및 상기 주파수 영역의 입력 신호와 상기 부호화 모드를 이용하여 대역폭 확장 부호화를 수행하는 확장 부호화부를 포함할 수 있다.
본 발명의 일실시예에 따른 부호화 장치의 상기 확장 부호화부는, 상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성하는 기본 신호 생성부; 상기 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정하는 요소 추정부; 상기 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부; 상기 에너지 제어 요소를 이용하여 상기 추출된 에너지를 제어하는 에너지 제어부; 및 상기 제어된 에너지를 양자화하는 에너지 양자화부를 포함할 수 있다.
본 발명의 다른 실시예에 따른 부호화 장치의 상기 확장 부호화부는 상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성하는 기본 신호 생성부; 상기 입력 신호의 특성 및 상기 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정하는 요소 추정부; 상기 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부; 상기 에너지 제어 요소를 이용하여 상기 추출된 에너지를 제어하는 에너지 제어부; 및 상기 제어된 에너지를 양자화하는 에너지 양자화부를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 부호화 장치의 확장 부호화부는, 상기 부호화 모드에 기초하여 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부; 상기 부호화 모드에 기초하여 에너지를 제어하는 에너지 제어부; 및 상기 부호화 모드에 기초하여 상기 에너지를 양자화하는 에너지 양자화부를 포함할 수 있다.
본 발명의 일실시예에 따른 부호화 장치의 상기 기본 신호 생성부는, 상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성하는 인공 신호 생성부; 윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 포락선 추정부; 및 상기 추정된 포락선을 인공 신호에 적용하는 포락선 적용부를 포함할 수 있다.
본 발명의 일실시예에 따른 부호화 장치의 상기 요소 추정부는, 상기 주파수 영역의 입력 신호의 고주파수 영역의 토널리티를 계산하는 제1 토널리티 계산부; 상기 기본 신호의 토널리티를 계산하는 제2 토널리티 계산부; 및 상기 입력 신호의 고주파수 영역의 토널리티와 상기 기본 신호의 토널리티를 이용하여 상기 에너지 제어 요소를 계산하는 요소 계산부를 포함할 수 있다.
본 발명의 일실시예에 따른 복호화 장치는 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화하는 코어 복호화부; 상기 코어 복호화된 입력 신호를 업샘플링하는 업샘플링부; 상기 업샘플링된 입력 신호를 주파수 변환하는 주파수 변환부; 및 상기 비트스트림에 포함된 상기 입력 신호의 에너지와 상기 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행하는 확장 복호화부를 포함할 수 있다.
본 발명의 일실시예에 따른 복호화 장치의 상기 확장 복호화부는, 상기 입력 신호의 에너지를 역양자화하는 역양자화부; 상기 주파수 영역의 입력 신호를 이용하여 기본 신호를 생성하는 기본 신호 생성부; 상기 역양자화된 에너지와 상기 기본 신호의 에너지를 이용하여 상기 기본 신호에 적용될 게인을 계산하는 게인 계산부; 및 상기 계산된 게인을 주파수 밴드별로 적용하는 게인 적용부를 포함할 수 있다.
본 발명의 일실시예에 따른 복호화 장치의 상기 기본 신호 생성부는, 상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호를 생성하는 인공 신호 생성부; 상기 비트스트림에 포함된 윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 포락선 추정부; 및 상기 추정된 포락선을 인공 신호에 적용하는 포락선 적용부를 포함할 수 있다.
본 발명의 일실시예에 따른 부호화 방법은 입력 신호를 다운 샘플링하는 단계; 다운 샘플링된 입력 신호를 코어 부호화를 수행하는 단계; 상기 입력 신호를 주파수 변환하는 단계; 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 단계를 포함할 수 있다.
본 발명의 다른 실시예에 따른 부호화 방법은 입력 신호를 다운 샘플링하는 단계; 다운 샘플링된 입력 신호를 코어 부호화를 수행하는 단계; 상기 입력 신호를 주파수 변환하는 단계; 및 상기 입력 신호의 특성 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 단계를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 부호화 방법은 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 대역폭 확장 부호화의 부호화 모드를 선택하는 단계; 및 상기 주파수 영역의 입력 신호와 상기 부호화 모드를 이용하여 대역폭 확장 부호화를 수행하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 복호화 방법은 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화하는 단계; 상기 코어 복호화된 입력 신호를 업샘플링하는 단계; 상기 업샘플링된 입력 신호를 주파수 변환하는 단계; 및 상기 비트스트림에 포함된 상기 입력 신호의 에너지와 상기 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따르면, 입력 신호의 기본 신호를 추출한 후 입력 신호의 고주파수 영역의 토널리티와 기본 신호의 토널리티를 이용하여 입력 신호의 에너지를 제어함으로써 고주파수 영역의 대역폭을 효율적으로 확장할 수 있다.
도 1은 본 발명의 일실시예에 따른 부호화 장치 및 복호화 장치를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따른 코어 부호화부를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 5는 본 발명의 다른 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 확장 부호화부의 기본 신호 생성부를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 확장 부호화부의 요소 추정부를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 에너지 양자화부의 동작을 설명하기 위한 도면이다.
도 9는 본 발명의 일실시예에 따라 에너지를 양자화하는 과정을 나타낸 도면이다.
도 10은 본 발명의 일실시예에 따른 인공 신호를 생성하는 과정을 도시한 도면이다.
도 11은 본 발명의 일실시예에 따른 포락선 추정을 위한 윈도우를 도시한 도면이다.
도 12는 본 발명의 일실시예에 따른 복호화 장치를 도시한 블록 다이어그램이다.
도 13은 본 발명의 일실시예에 따른 복호화 장치의 확장 복호화부를 도시한 도면이다.
도 14는 본 발명의 일실시예에 따른 확장 복호화부의 역양자화부의 동작을 도시한 도면이다.
도 15는 본 발명의 일실시예에 따른 부호화 방법을 도시한 플로우차트이다.
도 16은 본 발명의 일실시예에 따른 복호화 방법을 도시한 플로우차트이다.
도 17은 본 발명의 또 다른 실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 18은 본 발명의 또 다른 실시예에 따른 부호화 장치의 에너지 양자화부가 수행하는 동작을 도시한 도면이다.
도 19는 본 발명의 일실시예에 따라 불균형 비트 할당 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
도 20은 본 발명의 일실시예에 따라 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
도 21은 본 발명의 일실시예에 따라 주파수 가중 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
도 22는 본 발명의 일실시예에 따라 멀티 스테이지 스플릿의 벡터 양자화와 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
도 23은 본 발명의 일실시예에 따라 복호화 장치의 역양자화부가 수행하는 동작을 도시한 도면이다.
도 24는 본 발명의 일실시예에 따른 부호화 장치의 다른 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따른 코어 부호화부를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 5는 본 발명의 다른 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 확장 부호화부의 기본 신호 생성부를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 확장 부호화부의 요소 추정부를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 에너지 양자화부의 동작을 설명하기 위한 도면이다.
도 9는 본 발명의 일실시예에 따라 에너지를 양자화하는 과정을 나타낸 도면이다.
도 10은 본 발명의 일실시예에 따른 인공 신호를 생성하는 과정을 도시한 도면이다.
도 11은 본 발명의 일실시예에 따른 포락선 추정을 위한 윈도우를 도시한 도면이다.
도 12는 본 발명의 일실시예에 따른 복호화 장치를 도시한 블록 다이어그램이다.
도 13은 본 발명의 일실시예에 따른 복호화 장치의 확장 복호화부를 도시한 도면이다.
도 14는 본 발명의 일실시예에 따른 확장 복호화부의 역양자화부의 동작을 도시한 도면이다.
도 15는 본 발명의 일실시예에 따른 부호화 방법을 도시한 플로우차트이다.
도 16은 본 발명의 일실시예에 따른 복호화 방법을 도시한 플로우차트이다.
도 17은 본 발명의 또 다른 실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 18은 본 발명의 또 다른 실시예에 따른 부호화 장치의 에너지 양자화부가 수행하는 동작을 도시한 도면이다.
도 19는 본 발명의 일실시예에 따라 불균형 비트 할당 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
도 20은 본 발명의 일실시예에 따라 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
도 21은 본 발명의 일실시예에 따라 주파수 가중 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
도 22는 본 발명의 일실시예에 따라 멀티 스테이지 스플릿의 벡터 양자화와 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
도 23은 본 발명의 일실시예에 따라 복호화 장치의 역양자화부가 수행하는 동작을 도시한 도면이다.
도 24는 본 발명의 일실시예에 따른 부호화 장치의 다른 구조를 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 부호화 장치 및 복호화 장치를 도시한 도면이다.
부호화 장치(101)는 입력 신호의 기본 신호(Base Signal)를 생성하여 복호화 장치(102)에 전송할 수 있다. 기본 신호는 저주파 신호를 기반으로 생성되며, 저주파 신호의 포락선 정보가 제거(whitening)된 신호이기 때문에 고주파 대역폭 확장을 위한 여기신호(excitation signal)일 수 있다. 그러면, 복호화 장치(102)는 기본 신호로부터 입력 신호를 복원할 수 있다. 즉, 부호화 장치(101)와 복호화 장치(102)는 SWB BWE(Super Wide Band Bandwidth Extension)을 수행한다. 구체적으로, SWB BWE는 저주파수 영역인 0~6.4KHz의 디코딩된 WB(wide band) 신호를 기반으로 SWB에 대응하는 고주파수 영역인 6.4~16KHz 신호를 생성할 수 있다. 이 때, 16KHz는 상황에 따라 변동될 수 있다. 그리고, 디코딩된 WB 신호는 LPD(Linear Prediction Domain) 기반의 CELP(Code Excited Linear Prediction) 에 따라 Speech Codec을 통해 생성된 신호이거나 또는 주파수 도메인에서 양자화를 수행하는 방식에 의해 생성된 신호일 수 있다. 주파수 도메인에서 양자화하는 방식은 MDCT(Modified Discrete Cosine Transform) 기반에서 수행하는 AAC(Advanced Audio Coding)을 들 수 있다.
이하에서는 부호화 장치(101)와 복호화 장치(102)의 세부 동작을 구체적으로 설명하기로 한다.
도 2는 본 발명의 일실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 2를 참고하면, 부호화 장치(101)는 다운 샘플링부(201), 코어 부호화부(202), 주파수 변환부(203) 및 확장 부호화부(204)를 포함할 수 있다.
다운 샘플링부(201)는 WB(wide band) 코딩을 위해 입력 신호를 다운 샘플링할 수 있다. 입력 신호인 SWB(Super wide Band) 신호는 일반적으로 32KHz 샘플링 레이트를 가지는 신호이므로, WB 코딩에 적합한 샘플링 레이트로 변환하는 것이 필요하다. 일례로, 다운 샘플링부(201)는 32KHz 샘플링 레이트를 나타내는 입력 신호를 12.8KHz로 다운 샘플링할 수 있다.
코어 부호화부(202)는 다운 샘플링된 입력 신호를 코어 부호화할 수 있다. 즉, 코어 부호화부(202)는 WB 코딩을 수행할 수 있다. 일례로, 코어 부호화부(202)는 CELP 방식의 WB 코딩을 수행할 수 있다.
주파수 변환부(203)는 입력 신호를 주파수 변환할 수 있다. 일례로, 주파수 변환부(203)는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosing Transform) 중 어느 하나를 이용하여 입력 신호를 주파수 변환할 수 있다. 이하에서는 MDCT를 적용한 것으로 가정하여 설명하기로 한다.
확장 부호화부(204)는 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행할 수 있다. 즉, 확장 부호화부(204)는 주파수 영역의 입력 신호를 기반으로 SWB BWE 부호화를 수행할 수 있다. 이 경우, 확장 부호화부(204)는 도 4에서 부호화 정보를 입력으로 받지 않는다.
또한, 확장 부호화부(204)는 주파수 영역의 입력 신호의 기본 신호와 입력 신호의 특성을 이용하여 대역폭 확장 부호화를 수행할 수 있다. 이 경우, 입력 신호의 특성의 출처에 따라 확장 부호화부(204)는 도 4와 도 5와 같은 블록 다이어그램으로 구체화될 수 있다.
확장 부호화부(204)의 동작에 대해서는 도 4 및 도 5에서 구체적으로 설명하기로 한다.
결국, 도 2에서 상단 path는 코어 부호화 과정을 나타내고, 하단 Path는 대역폭 확장 부호화 과정을 나타낸다. 특히, SWB BWE 부호화 과정을 통해 입력 신호의 에너지 정보가 복호화 장치(102)에 전달될 수 있다.
도 3은 본 발명의 일실시예에 따른 코어 부호화부를 도시한 도면이다.
도 3을 참고하면, 코어 부호화부(202)는 신호 분류부(301) 및 부호화부(302)를 포함할 수 있다.
신호 분류부(301)는 다운샘플링된 입력 신호(12.8KHz)의 특성을 분류할 수 있다. 즉, 신호 분류부(301)는 입력 신호의 특성에 따라 입력 신호를 다양한 부호화 모드로 분류할 수 있다. 예를 들어, ITU-T G.718 코덱에서 신호 분류부(301)는 음성 신호를 유성음 부호화 모드(Voiced coding mode), 무성음 부호화 모드(unvoiced coding mode), 전이신호 부호화 모드(transition coding mode), 그리고 일반적인 신호 부호화 모드(generic coding mode)로 분류할 수 있다. 여기서, 무성음 부호화 모드는 무성음 프레임과 대부분의 inactive frame을 부호화하기 위해 설계되었다.
부호화부(302)는 신호 분류부(301)에서 분류된 입력 신호의 특성에 따라 최적화된 코딩을 수행할 수 있다.
도 4는 본 발명의 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 4을 참고하면, 확장 부호화부(204)는 기본 신호 생성부(401), 요소 추정부(402), 에너지 추출부(403), 에너지 제어부(404) 및 에너지 양자화부(405)를 포함할 수 있다. 일례로, 확장 부호화부(204)는 부호화 모드를 입력받지 않고 에너지 제어 요소를 추정할 수 있다. 다른 일례로, 확장 부호화부(204)는 부호화 모드를 이용하여 에너지 제어 요소를 추정할 수 있다. 이 때, 부호화 모드는 코어 부호화부(202)로부터 입력될 수 있다.
기본 신호 생성부(401)는 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 입력 신호의 기본 신호(basic signal)를 생성할 수 있다. 기본 신호는 WB 신호를 기반으로 SWB BWE를 수행하기 위한 신호를 의미한다. 다시 말해서, 기본 신호는 저주파 영역의 Fine Structure를 구성하는 신호를 의미한다. 기본 신호를 생성하는 과정은 도 6에서 보다 구체적으로 설명하기로 한다.
일례로, 요소 추정부(402)는 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정할 수 있다. 즉, 부호화 장치(101)는 복호화 장치(102)에서 SWB 영역의 신호를 생성하기 위해 입력 신호의 에너지 정보를 전송한다. 이 때, 요소 추정부(402)는 에너지 정보를 지각적인 관점에서 제어하기 위해 에너지를 제어하기 위한 파라미터인 에너지 제어 요소를 추정할 수 있다. 에너지 제어 요소를 추정하는 과정은 도 7에서 구체적으로 설명하기로 한다.
다른 일례로, 요소 추정부(402)는 기본 신호와 입력 신호의 특성을 이용하여 에너지 제어 요소를 추정할 수 있다. 이 때, 입력 신호의 특성은 코어 부호화부(202)로부터 입력될 수 있다.
에너지 추출부(403)는 주파수 영역의 입력 신호로부터 에너지를 추출할 수 있다. 추출된 에너지는 복호화 장치(102)에 전송된다. 에너지는 주파수 밴드별로 추출될 수 있다.
에너지 제어부(404)는 에너지 제어 요소를 이용하여 입력 신호로부터 추출된 에너지를 제어할 수 있다. 즉, 에너지 제어부(404)는 주파수 밴드별로 추출된 에너지에 에너지 제어 요소를 적용함으로써 에너지를 제어할 수 있다.
에너지 양자화부(405)는 제어된 에너지를 양자화(quantization)할 수 있다. 에너지는 dB scale로 변환되어 양자화가 수행될 수 있다. 구체적으로, 에너지 양자화부(405)는 전체 에너지인 글로벌(global) 에너지를 구하고, 글로벌 에너지 및 주파수 밴드별 에너지와 글로벌 에너지 간의 차이를 스칼라 양자화할 수 있다. 또는 첫번째 밴드는 에너지를 직접 양자화하고, 두번 째 이후의 밴드는 이전 밴드와의 차이를 양자화 할 수 있다. 또한, 에너지 양자화부(405)는 주파수 밴드의 차이값을 이용하지 않고, 주파수 밴드별로 에너지를 직접 양자화할 수도 있다. 주파수 밴드별로 에너지를 직접 양자화하는 경우, 스칼라 또는 벡터 양자화가 이용될 수 있다. 에너지 양자화부(405)에 대해서는 도 8 및 도 9에서 구체적으로 설명하기로 한다.
도 5는 본 발명의 다른 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 5의 확장 부호화부(204)는 도 4와 달리 신호 분류부(501)를 더 포함할 수 있다. 일례로, 요소 추정부(402)는 기본 신호와 입력 신호의 특성을 이용하여 에너지 제어 요소를 추정할 수 있다. 이 때, 입력 신호의 특성은 코어 부호화부(202)에서 입력되는 것이 아니라, 신호 분류부(501)에서 입력될 수 있다.
*신호 분류부(501)는 입력 신호(32 KHz, MDCT Spectrum)를 이용하여 입력 신호를 특성에 따라 분류할 수 있다. 구체적으로, 신호 분류부(501)는 입력 신호를 특성에 따라 다양한 부호화 모드로 분류할 수 있다.
입력 신호의 특성이 분류됨에 따라 에너지 제어 요소 추정과정이 적합한 신호에 대해서만 에너지 제어 요소가 추정되고, 또한 에너지가 제어될 수 있다. 예를 들어, 노이즈 신호나 무성음 신호처럼 토널한 성분을 포함하지 않는 신호는 에너지 제어 요소 추정과정이 적합하지 않을 수 있다. 이 때, 확장 부호화부(204)는 입력 신호가 무성음 부호화 모드로 분류된 경우, 확장 부호화부(204)는 에너지 제어 요소를 추정하지 않고 대역폭 확장 부호화를 수행할 수 있다.
도 5에서, 기본 신호 생성부(401), 요소 추정부(402), 에너지 추출부(403), 에너지 제어부(404) 및 에너지 양자화부(405)에 대한 설명은 도 4를 참조할 수 있다.
도 6은 본 발명의 일실시예에 따른 확장 부호화부의 기본 신호 생성부를 도시한 도면이다.
도 6를 참고하면, 기본 신호 생성부(401)는 인공 신호 생성부(601), 포락선 적용부(602) 및 포락선 추정부(603)를 포함할 수 있다.
인공 신호 생성부(601)는 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성할 수 있다. 즉, 인공 신호 생성부(601)는 주파수 영역의 입력 신호의 저주파수 스펙트럼을 복사하여 SWB 영역의 인공 신호를 생성할 수 있다. 인공 신호를 생성하는 구체적인 과정은 도 6에서 설명하기로 한다.
포락선 추정부(602)는 윈도우를 이용하여 기본 신호의 포락선을 추정할 수 있다. 기본 신호의 포락선은 SWB 영역의 인공 신호의 주파수 스펙트럼에 포함되어 있는 저주파수 영역의 포락선 정보를 제거하기 위해 사용될 수 있다. 특정 주파수 인덱스의 포락선은 특정 주파수 이전과 이후의 주파수 스펙트럼을 사용하여 결정될 수 있다. 그리고, 움직임 평균(Moving Average)를 통해 포락선이 추정될 수 있다. 일례로, 주파수 변환시에 MDCT가 사용되었다면, MDCT 변환된 주파수 스펙트럼의 절대값을 통해 기본 신호의 포락선이 추정될 수 있다.
이 때, 포락선 추정부(602)는 Whitening 밴드를 구성한 후 Whitening 밴드 별로 주파수 Magnitude의 평균을 Whitening 밴드 내에 속한 주파수의 포락선으로 추정할 수 있다. 상기 Whitening 밴드에 속하는 주파수 스펙트럼의 개수는 에너지를 추출하는 밴드보다 더 적게 설정될 수 있다.
화이트닝(Whitening) 밴드 별로 주파수 크기(magnitude)의 평균을 화이트닝 밴드 내에 속한 주파수의 포락선으로 추정하는 경우, 포락선 추정부(602)는 화이트닝 밴드 내에 속한 스펙트럼의 개수가 많은지 또는 적은지의 여부를 정보로 전송하여 기본 신호의 평탄화 정도를 조절할 수 있다. 예를 들어, 포락선 추정부(602)는 8개의 스펙트럼으로 구성된 경우와 3개의 스펙트럼으로 구성된 경우의 2가지 방식에 근거하여 정보를 전송할 수 있다. 이 때 3개의 스펙트럼으로 구성된 경우, 8개의 스펙트럼으로 구성된 경우보다 더 평탄화 된 기본 신호가 생성될 수 있다.
또한, 포락선 추정부(602)는 화이트닝 밴드 내에 속한 스펙트럼의 개수가 많은지 또는 적은지의 여부에 대한 정보를 전송하지 않고, 코어 부호화부(202)에 사용된 부호화 모드에 따라서 결정할 수 있다. 코어 부호화부(202)는 입력 신호의 특성에 따라 입력 신호를 유성음 부호화, 무성음 부호화 모드, Transient 부호화 모드 및, Generic 부호화 모드로 구분하여 입력 신호를 부호화 할 수 있다.
이 때, 포락선 추정부(602)는 입력 신호의 특성에 따른 부호화 모드에 기초하여 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시킬 수 있다. 일례로, 입력 신호가 유성음 부호화 모드에 따라 부호화된 경우, 포락선 추정부(602)는 화이트닝(Whitening) 밴드에 3개의 주파수 스펙트럼으로 구성하여 포락선을 추정할 수 있다. 그리고, 입력 신호가 유성음 부호화 모드 이외의 부호화 모드에 따라 부호화된 경우, 포락선 추정부(602)는 화이트닝(Whitening) 밴드에 3개의 주파수 스펙트럼으로 구성하여 포락선을 추정할 수 있다.
포락선 적용부(603)는 추정된 포락선을 인공 신호에 적용할 수 있다. 이러한 과정을 whitening이라고 하며, 인공 신호가 포락선에 의해 평탄화될 수 있다. 포락선 적용부(603)는 인공 신호를 주파수 인덱스 각각의 포락선으로 나누어서 기본 신호를 생성할 수 있다.
도 7은 본 발명의 일실시예에 따른 확장 부호화부의 요소 추정부를 도시한 도면이다.
도 7을 참고하면, 요소 추정부(402)는 제1 토널리티(Tonality) 계산부(701), 제2 토널리티 계산부(702) 및 요소 계산부(703)를 포함할 수 있다.
제1 토널리티 계산부(701)는 주파수 영역의 입력 신호의 고주파수 영역의 토널리티(tonality)을 계산할 수 있다. 즉, 제1 토널리티 계산부(701)는 입력 신호의 고주파수 영역인 SWB 영역의 토널리티를 계산할 수 있다.
제2 토널리티 계산부(702)는 기본 신호의 토널리티를 계산할 수 있다.
토널리티는 spectral flatness를 측정함으로써 계산될 수 있다. 구체적으로, 하기 수학식 1에 따라 토널리티가계산될 수 있다. spectral flatness는 주파수 스펙트럼의 기하 평균과 산술 평균의 관계를 통해 측정될 수 있다.
요소 계산부(703)는 입력 신호의 고주파수 영역의 토널리티와 기본 신호의 토널리티를 이용하여 에너지 제어 요소를 계산할 수 있다. 이 때, 에너지 제어 요소는 하기 수학식 2에 따라 계산될 수 있다.
여기서, α는 에너지 제어 요소를 나타내며, To는 입력 신호의 토널리티, Tb는 기본 신호의 토널리티를 나타낸다. Nb는 노이지니스 팩터(Noisiness factor)이며, 신호에 노이즈 성분이 포함된 정도를 나타낸다.
에너지 제어 요소는 하기 수학식 3에 따라 계산될 수도 있다.
요소 계산부(703)는 각각의 주파수 밴드별로 에너지 제어 요소를 계산할 수 있다. 계산된 에너지 제어 요소는 입력 신호의 에너지에 적용될 수 있다. 이 때, 에너지 제어 요소는 에너지 제어 요소가 미리 설정한 임계 에너지 제어 요소보다 작은 경우에 입력 신호의 에너지에 적용될 수 있다.
도 8은 본 발명의 일실시예에 따른 에너지 양자화부의 동작을 설명하기 위한 도면이다.
단계(S801)에서, 에너지 양자화부(405)는 에너지 제어 요소로 인해 에너지의 벡터를 전처리하고, 전처리된 에너지 벡터의 서브 벡터를 선택할 수 있다. 일례로, 에너지 양자화부(405)는 에너지 벡터 각각에 대해 평균값을 빼거나 또는 에너지 벡터 각각의 중요도에 대한 가중치를 계산할 수 있다. 이 때, 중요도에 대한 가중치는 합성음의 음질을 최대화하는 방향으로 계산될 수 있다.
그리고, 에너지 양자화부(405)는 부호화 효율을 고려하여 에너지 벡터의 서브 벡터를 적절하게 선택할 수 있다. 그리고 보간 효과를 향상시키기 위해 에너지 양자화부(405)는 동일한 간격으로 서브 벡터를 선택할 수 있다.
일례로, 에너지 양자화부(405)는 하기 수학식 4에 따라 서브 벡터를 선택할 수 있다.
이 경우 k=2가 되면 짝수만이 선택된다.
단계(S802)에서, 에너지 양자화부(405)는 선택된 서브 벡터를 양자화 및 역양자화한다. 에너지 양자화부(405)는 수학식 5에 따라 계산된 MSE를 최소화하는 양자화 인덱스를 선택하여 서브 벡터를 양자화할 수 있다.
에너지 양자화부(405)는 스칼라 양자화, 벡터양자화, TCQ(Trellis coded quantization), 및 LVQ(lattice VQ) 중 어느 하나에 따라 서브 벡터를 양자화할 수 있다. 이 때, 벡터 양자화는 multi-stage VQ 또는 split VQ 등이 가능하며, split VQ와 multi-stage VQ가 동시에 사용하는 것도 가능하다. 양자화 인덱스는 복호화 장치(102)로 전송된다.
그리고, 전처리 과정에서 중요도에 대한 가중치가 계산된 경우, 에너지 양자화부(405)는 가중치가 적용된 WMSE(weighted MSE)를 이용하여 최적화된 양자화 인덱스를 구할 수 있다. 이 때, weighted MSE는 수학식 6에 따라 계산될 수 있다.
단계(S803)에서, 에너지 양자화부(405)는 양자화된 서브 벡터를 보간하여 선택되지 않은 나머지 서브 벡터의 값을 계산할 수 있다.
단계(S804)에서, 에너지 양자화부(405)는 보간된 나머지 서브 벡터와 원래 에너지 벡터에 매칭된 나머지 서브 벡터 간의 차이인 보간 에러를 계산할 수 있다.
단계(S805)에서, 에너지 양자화부(405)는 보간 에러를 양자화 및 역양자화할 수 있다. 이 때, 에너지 양자화부(405)는 MSE를 최소화하는 양자화 인덱스를 이용하여 보간 에러를 양자화할 수 있다. 에너지 양자화부(405)는 스칼라 양자화, 벡터양자화, TCQ(Trellis coded quantization), 및 LVQ(lattice VQ) 중 어느 하나에 따라 보간 에러를 양자화할 수 있다. 이 때, 벡터 양자화는 multi-stage VQ 또는 split VQ 등이 가능하며, split VQ와 multi-stage VQ가 동시에 사용하는 것도 가능하다. 그리고, 전처리 과정에서 중요도에 대한 가중치가 계산된 경우, 에너지 양자화부(405)는 가중치가 적용된 WMSE(weighted MSE)를 이용하여 최적화된 양자화 인덱스를 구할 수 있다.
단계(S806)에서, 에너지 양자화부(405)는 선택된 서브 벡터의 양자화된 벡터를 보간하여 선택되지 않은 나머지 서브 벡터를 계산하고, 단계(S805)에서 계산된 양자화된 보간 에러를 더하여 최종적으로 양자화된 에너지를 계산할 수 있다. 그리고, 에너지 양자화부(405)는 후처리 과정을 통해 전처리 과정에서 뺀 평균값을 다시 더하여 최종적으로 양자화된 에너지를 계산할 수 있다.
Multi-stage VQ에서, 에너지 양자화부(405)는 동일한 코드북으로 양자화 성능을 향상시키기 위해 K개의 서브 벡터의 후보(candidate)를 이용하여 양자화를 한다. K가 2이상인 경우, 에너지 양자화부(405)는 distortion measure을 수행하여 최적 서브 벡터의 후보를 결정할 수 있다. 이 때, distortion measure는 두 가지 방식에 따라 결정될 수 있다.
첫째, 에너지 양자화부(405)는 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 인덱스 셋트를 생성한 후, 모든 스테이지의 MSE 또는 WMSE의 합이 가장 작은 서브 벡터의 후보를 선택할 수 있다. 이 경우, 계산량이 낮은 장점이 있다.
둘째, 에너지 양자화부(405)는 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 최소화하는 인덱스 셋트를 생성한 후, 역양자화과정을 거쳐 에너지 벡터를 복원한 후, 복원된 에너지벡터와 원래의 에너지 벡터 간의 MSE 또는 WMSE를 최소화하는 서브 벡터의 후보를 선택할 수 있다. 이 경우, 복원을 위한 계산량이 추가되지만 실제 양자화된 값을 이용하여 MSE를 구하므로 성능이 우수한 장점이 있다.
도 9는 본 발명의 일실시예에 따라 에너지를 양자화하는 과정을 나타낸 도면이다.
도 9를 참고하면, 에너지 벡터는 14 dimension를 나타낸다. 1st stage에서, 에너지 양자화부(405)는 에너지 벡터에서 짝수만을 선택하여 7 dimension인 서브 벡터를 선택하였다. 1st stage에서, 성능향상을 위해서 에너지 양자화부(405)는 2개로 split된 2nd stage 벡터 양자화를 이용한다.
에너지 양자화부(405)는 2nd stage에서 1st stage의 에러 신호를 이용하여 양자화를 수행한다. 에너지 양자화부(405)는 선택된 서브벡터의 역양자화 과정을 거쳐 보간 에러를 구하고, 보간 에러는 2개로 split된 3rd stage 벡터양자화를 이용하여 양자화된다.
도 10은 본 발명의 일실시예에 따른 인공 신호를 생성하는 과정을 도시한 도면이다.
도 10을 참고하면, 인공 신호 생성부(601)는 전체 주파수 밴드에서 저주파수 영역인 fL~6.4KHz에 대응하는 주파수 스펙트럼(1001)을 복사할 수 있다. 복사된 주파수 스펙트럼(1001)은 6.4~12.8-fLKHz 주파수 영역까지 쉬프팅된다. 그리고, 12.8-fL~16KHz 주파수 영역에 대응하는 주파수 스펙트럼은 6.4~12.8-fLKHz 주파수 영역의 주파수 스펙트럼이 폴딩되어 생성될 수 있다. 즉, 고주파수 영역인 SWB에 대응하는 인공 신호는 6.4~16KHz까지 생성된다.
이 때 주파수 스펙트럼을 생성할 때 사용된 변환이 MDCT인 경우, fL과 6.4kHz 간에 상관 관계가 존재한다. 구체적으로, 6.4kHz에 해당되는 MDCT의 주파수 인덱스가 짝수인 경우에는 fL의 주파수 인덱스도 짝수여야 한다. 반대로, .4kHz에 해당되는 MDCT의 주파수 인덱스가 홀수인 경우, fL의 주파수 인덱스도 홀수여야 한다.
예를 들어, 원래의 입력 신호에 대해 640개의 스펙트럼을 추출하는 MDCT를 적용한 경우, 6.4kHz에 대응하는 인덱스는 256번째 인덱스가 되어(6400/16000*640) 짝수가 된다. 이 경우, fL은 반드시 짝수로 선택이 되어야 한다. 즉, fL은 2(50Hz), 4(100Hz) 등이 사용될 수 있다. 이 과정은 복호화 과정에서도 동일하게 적용된다.
도 11은 본 발명의 일실시예에 따른 포락선 추정을 위한 윈도우를 도시한 도면이다.
도 11을 참고하면, 윈도우(1101)와 윈도우(1102)의 peak 위치가 현재 포락선을 추정하고자 하는 주파수 인덱스를 의미한다. 기본 신호에 대한 포락선 추정은 하기 수학식 7에 따라 수행될 수 있다.
도 11에서 윈도우(1101)와 윈도우(1102)는 항상 고정으로 사용될 수 있으며, 이 경우에는 추가적으로 전송될 비트가 필요없다. 또는, 윈도우(1101)와 윈도우(1102)가 선택적으로 사용되는 경우에는 포락선 추정을 위해 어떠한 윈도우가 사용되었는지 여부를 나타내는 정보를 비트로 표현하여 추가적으로 복호화 장치(102)에 전달될 필요가 있다. 이러한 비트는 주파수 밴드별로 전송되거나 또는 한 프레임에 한번 전송될 수 있다.
윈도우(1101)와 윈도우(1102)를 비교하면, 윈도우(1102)는 윈도우(1101)보다 현재 주파수 인덱스에 대응하는 주파수 스펙트럼에 가중치를 더 부가하여 포락선을 추정한다. 따라서, 윈도우(1102)에 의해 생성된 기본 신호는 윈도우(1101)에 의해 생성된 기본 신호보다 평탄하게 생성된다. 윈도우의 종류는 윈도우(1101)와 윈도우(1102)에 의해 생성된 각각의 기본 신호와 입력 신호의 주파수 스펙트럼을 비교함으로써 선택될 수 있다. 또한, 고주파수 영역의 토널리티(tonality)의 비교를 통해 비슷한 토널리티를 가지도록 하는 윈도우가 선택될 수 있다. 그리고, 고주파수 영역의 상관도(correlation)의 비교를 통해 상관도가 높은 윈도우가 선택될 수 있다.
도 12는 본 발명의 일실시예에 따른 복호화 장치를 도시한 블록 다이어그램이다.
도 12의 과정은 도 2의 과정의 역 과정으로 이루어진다. 도 12를 참고하면, 복호화 장치(102)는 코어 복호화부(1201), 업 샘플링부(1202), 주파수 변환부(1204), 확장 복호화부(1204) 및 주파수 역변환부(1205)를 포함할 수 있다.
코어 복호화부(1201)는 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화할 수 있다. 코어 복호화 과정을 통해 12.8KHz 샘플링 레이트를 가지는 신호가 추출될 수 있다.
업 샘플링부(1202)는 코어 복호화된 입력 신호를 업샘플링할 수 있다. 업샘플링을 통해 32KHz 샘플링 레이트를 가지는 신호가 추출될 수 있다.
주파수 변환부(1204)는 업샘플링된 입력 신호를 주파수 변환할 수 있다. 주파수 변환은 부호화기에서 사용한 주파수 변환 방식과 동일한 방법을 사용할 수 있으며, 예를 들어 MDCT를 사용할 수 있다.
확장 복호화부(1204)는 비트스트림에 포함된 상기 입력 신호의 에너지와 상기 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행할 수 있다. 확장 복호화부(1204)의 동작에 대해서는 도 9에서 구체적으로 설명하기로 한다.
주파수 역변환부(1205)는 대역폭 확장 복호화가 수행된 결과에 대해 주파수 역변환을 수행할 수 있다. 주파수 변환부(1204)에서 사용한 주파수 변환 방식의 역변환을 수행하는 것으로, 예를들어 IMDCT(Inverse Modified Discrete Cosine Transform)을 수행할 수 있다.
도 13은 본 발명의 일실시예에 따른 복호화 장치의 확장 복호화부를 도시한 도면이다.
도 13을 참고하면, 확장 복호화부(1204)는 역양자화부(1301), 게인 계산부(1302), 게인 적용부(1303), 인공 신호 생성부(1304), 포락선 추정부(1305) 및 포락선 적용부(1306)를 포함할 수 있다.
역양자화부(1301)는 입력 신호의 에너지를 역양자화할 수 있다. 에너지를 역양자화하는 과정에 대해서는 도 14에서 구체적으로 설명하기로 한다.
게인 계산부(1302)는 역양자화된 에너지와 기본 신호의 에너지를 이용하여 기본 신호에 적용될 게인을 계산할 수 있다. 구체적으로, 게인은 역양자화된 에너지와 기본 신호의 에너지의 비율을 통해 결정될 수 있다. 통상적으로 에너지는 주파수 스펙트럼의 amplitude의 제곱의 합을 사용해서 결정되기 때문에, 에너지 비율의 root 값을 사용하게 된다.
게인 적용부(1303)는 계산된 게인을 주파수 밴드별로 적용할 수 있다. 그러면, 최종적으로 SWB의 주파수 스펙트럼이 결정될 수 있다.
일례로, 게인 계산 및 게인 적용은 상기 설명한 바와 같이 밴드를 에너지를 전송한 밴드와 일치시켜서 수행할 수 있다. 다른 실시 예로 급격한 에너지의 변화를 방지하기 위해서 전체 주파수 밴드를 서브밴드로 나누어서 수행할 수도 있다. 이러한 경우에 있어서, 주변 밴드의 역양자화된 에너지를 보간(Interpolation)에 의해서 밴드 경계 부분에서의 에너지를 스무딩(smoothing) 시킬 수 있다. 예를 들어, 각각의 밴드는 3개의 서브밴드로 분리하고, 각각 밴드의 3개 서브밴드 중 중간의 서브밴드는 현재 밴드의 역양자화된 에너지를 할당하고, 첫번째 및 세번째 서브밴드는 이전 밴드 혹은 이후 밴드의 중간 밴드에 할당된 에너지와 보간을 통해서 새롭게 스무딩된 에너지를 사용하여 게인 계산 및 적용을 수행할 수 있다. 즉, 게인 계산 및 적용하는 단위를 서브밴드로 설정하여 적용하게 된다.
이러한 에너지 스무딩 방식은 항상 고정된 방식으로 적용할 수 있다. 또한 확장 부호화부(204)에서 에너지 스무딩이 필요하다는 정보를 전송하여 필요한 프레임에서만 적용할 수 있다. 이 때 스무딩이 필요한 프레임이라는 정보는 스무딩을 수행한 경우가 스무딩을 안 한 경우에 비해서 전체 에너지의 양자화 에러가 적게 되는 경우에 선택할 수 있다.
한편, 주파수 영역의 입력 신호를 이용하여 기본 신호를 생성할 수 있다. 기본 신호를 생성하는 과정은 다음과 같은 구성 요소를 통해 수행될 수 있다.
인공 신호 생성부(1304)는 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호를 생성할 수 있다. 이 때, 주파수 영역의 입력 신호는 32KHz 샘플링 레이트를 가지는 WB 복호화된 신호일 수 있다.
포락선 추정부(1305)는 비트스트림에 포함된 윈도우를 이용하여 기본 신호의 포락선을 추정할 수 있다. 윈도우는 부호화 장치(101)에서 포락선 추정을 위해 사용되었던 것이며, 윈도우 종류는 비트 형태로 비트스트림에 포함되어 복호화 장치(102)에 전송될 수 있다.
포락선 적용부(1306)는 추정된 포락선을 인공 신호에 적용함으로써, 기본 신호를 생성할 수 있다.
부호화 장치의 포락선 추정부(602)에서 화이트닝 밴드 별로 주파수 크기(magnitude)의 평균을 화이트닝(Whitening) 밴드 내에 속한 주파수의 포락선으로 추정하는 경우에 있어서 화이트닝 밴드 내에 속한 스펙트럼의 개수가 많은지 적은지의 여부와 관련된 정보를 복호화 장치에 전송한 경우, 복호화 장치의 포락선 추정부(1305)가 전송된 방식에 근거하여 포락선을 추정한 후 포락선 적용부(1306)에서 포락선을 적용할 수 있다. 또한 정보 전송 없이 WB 코어 복호화부에 사용된 코어 부호화 모드에 따라서 결정할 수 있다.
코어 복호화부(1201)는 신호의 특성에 따라 유성음 부호화, 무성음 부호화, Transient 부호화, Generic 부호화부로 구분하여 복호화할 수 있다. 이 때, 포락선 추정부(602)는 입력 신호의 특성에 따른 복호화 모드에 기초하여 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시킬 수 있다. 일례로, 입력 신호가 유성음 복호화 모드에 따라 복호화된 경우, 포락선 추정부(1305)는 화이트닝(Whitening) 밴드에 3개의 주파수 스펙트럼으로 구성하여 포락선을 추정할 수 있다. 그리고, 입력 신호가 유성음 복호화 모드 이외의 복호화 모드에 따라 부호화된 경우, 포락선 추정부(1306)는 화이트닝(Whitening) 밴드에 3개의 주파수 스펙트럼으로 구성하여 포락선을 추정할 수 있다.
도 14는 본 발명의 일실시예에 따른 확장 복호화부의 역양자화부의 동작을 도시한 도면이다.
단계(S1401)에서, 역양자화부(1301)는 부호화 장치(101)로부터 전송된 인덱스를 이용하여 에너지 벡터의 선택된 서브 벡터를 역양자화할 수 있다.
단계(S1402)에서, 역양자화부(1301)는 부호화 장치(101)로부터 전송된 인덱스를 이용하여 선택되지 않은 나머지 서브 벡터에 대응하는 보간 에러를 역양자화할 수 있다.
단계(S1403)에서, 역양자화부(1301)는 역양자화된 서브 벡터를 보간하여 선택되지 않은 나머지 서브 벡터를 계산할 수 있다. 그리고, 역양자화부(1301)는 나머지 서브 벡터에 역양자화된 보간 에러값를 더할 수 있다. 또한, 역양자화부(1301)는 후처리 과정을 통해 전처리 과정에서 뺀 평균값을 더하여 최종적인 역양자화된 에너지를 계산할 수 있다.
도 15는 본 발명의 일실시예에 따른 부호화 방법을 도시한 플로우차트이다.
부호화 장치(101)는 입력 신호를 다운 샘플링할 수 있다(S1501).
부호화 장치(101)는 다운 샘플링된 입력 신호에 대해 코어 부호화할 수 있다(S1502).
부호화 장치(101)는 입력 신호를 주파수 변환할 수 있다(S1503).
부호화 장치(101)는 주파수 영역의 입력 신호에 대해 대역폭 확장 부호화를 수행할 수 있다(S1504). 일례로, 부호화 장치(101)는 코어 부호화를 통해 결정된 부호화 정보를 이용하여 대역폭 확장 부호화를 수행할 수 있다. 이 때, 부호화 정보는 코어 부호화시 입력 신호의 특성에 따라 분류된 부호화 모드를 포함할 수 있다.
일례로, 부호화 장치(101)는 대역폭 확장 부호화를 다음과 같은 과정을 통해 수행할 수 있다.
부호화 장치(101)는 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성할 수 있다. 다른 일례로, 부호화 장치는 입력 신호의 특성 및 입력 신호의 주파수 스펙트럼을 이용하여 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성할 수 있다. 이 때, 입력 신호의 특성은 코어 부호화를 통해 도출되거나 또는 별도의 신호 분류 과정을 통해 도출될 수 있다. 그리고, 부호화 장치(101)는 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정할 수 있다. 이 후, 부호화 장치(101)는 주파수 영역의 입력 신호로부터 에너지를 추출할 수 있다. 그러면, 부호화 장치(101)는 에너지 제어 요소를 이용하여 추출된 에너지를 제어할 수 있다. 부호화 장치(101)는 제어된 에너지를 양자화할 수 있다.
이 때, 기본 신호를 생성하는 과정은 다음과 같은 방법을 통해 수행될 수 있다.
부호화 장치(101)는 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성할 수 있다. 그리고, 부호화 장치(101)는 윈도우를 이용하여 기본 신호의 포락선을 추정할 수 있다. 이 때, 부호화 장치(101)는 토널리티(tonality) 또는 상관도(correlation) 중 어느 하나의 비교 결과에 따라 윈도우를 선택하여 기본 신호의 포락선을 추정할 수 있다. 일례로, 부호화 장치(101)는 화이트닝(Whitening) 밴드 각각의 주파수 크기(Magnitude)의 평균을 화이트닝 밴드 내에 속한 주파수의 포락선으로 추정할 수 있다. 구체적으로, 부호화 장치(101)는 코어 부호화 모드에 따라서 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시켜 상기 기본 신호의 포락선을 추정할 수 있다.
그런 후, 부호화 장치(101)는 추정된 포락선을 인공 신호에 적용함으로써 기본 신호를 생성할 수 있다.
그리고, 에너지 제어 요소를 추정하는 과정은 다음과 같은 방법을 통해 수행될 수 있다.
부호화 장치(101)는 주파수 영역의 입력 신호의 고주파수 영역의 토널리티를 계산할 수 있다. 그리고, 부호화 장치(101)는 기본 신호의 토널리티를 계산할 수 있다. 그런 후, 부호화 장치(101)는 입력 신호의 고주파수 영역의 토널리티와기본 신호의 토널리티를 이용하여 에너지 제어 요소를 계산할 수 있다.
또한, 에너지를 양자화하는 과정은 다음과 같은 방법을 통해 수행될 수 있다.
부호화 장치(101)는 서브벡터를 선택하여 양자화를 한 후, 보간 에러를 이용하여 나머지(remained) 서브벡터를 양자화할 수 있다. 이 때, 부호화 장치(101)는 동일한 간격으로 서브 벡터를 선택할 수 있다.
일례로, 부호화 장치(101)는 서브 벡터의 후보(candidate)를 선택하여 2개 이상 사용하는 멀티 스테이지(multi-stage) 벡터 양자화를 수행할 수 있다. 이 때, 부호화 장치(101)는 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 인덱스 셋트를 생성한 후, 모든 스테이지의 MSE 또는 WMSE의 합이 가장 작은 서브 벡터의 후보를 선택할 수 있다. 또는, 부호화 장치(101)는 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 최소화하는 인덱스 셋트를 생성한 후, 역양자화과정을 거쳐 에너지 벡터를 복원한 후, 복원된 에너지벡터와 원래의 에너지 벡터 간의 MSE 또는 WMSE를 최소화하는 서브 벡터의 후보를 선택할 수 있다.
도 16은 본 발명의 일실시예에 따른 복호화 방법을 도시한 플로우차트이다.
복호화 장치(102)는 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화할 수 있다(S1601).
복호화 장치(102)는 코어 복호화된 입력 신호를 업샘플링할 수 있다(S1602).
복호화 장치(102)는 업샘플링된 입력 신호를 주파수 변환할 수 있다(S1603).
복호화 장치(102)는 비트스트림에 포함된 입력 신호의 에너지와 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행할 수 있다(S1604).
구체적으로, 대역폭 확장을 수행하는 과정은 다음과 같이 이루어질 수 있다.
복호화 장치(102)는 입력 신호의 에너지를 역양자화할 수 있다. 이 때, 복호화 장치(101)는 서브 벡터를 선택하여 역양자화하고, 역양자화된 서브 벡터를 보간하며, 보간된 서브 벡터에 보간 에러값을 더하여 최종적으로 에너지를 역양자화할 수 있다.
그리고, 복호화 장치(102)는 주파수 영역의 입력 신호를 이용하여 기본 신호를 생성할 수 있다. 그런 후, 복호화 장치(102)는 역양자화된 에너지와 기본 신호의 에너지를 이용하여 기본 신호에 적용될 게인을 계산할 수 있다. 최종적으로, 복호화 장치(102)는 계산된 게인을 주파수 밴드별로 적용할 수 있다.
구체적으로, 기본 신호를 생성하는 과정은 다음과 같이 이루어질 수 있다.
복호화 장치(102)는 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호를 생성할 수 있다. 그리고, 복호화 장치(102)는 비트스트림에 포함된 윈도우를 이용하여 기본 신호의 포락선을 추정할 수 있다. 이 때 윈도우 정보를 항상 동일하게 사용하도록 설정된 경우에는 비트스트림에 포함이 되지 않는다. 이후, 복호화 장치(102)는 추정된 포락선을 인공 신호에 적용할 수 있다.
도 15 및 도 16에서 설명되지 않은 사항은 도 1 내지 도 14의 설명을 참고할 수 있다.
도 17은 본 발명의 또 다른 실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 17을 참고하면, 부호화 장치(100)는 부호화 모드 선택부(1701) 및 확장 부호화부(1702)를 포함할 수 있다.
부호화 모드 선택부(1701)는 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 대역폭 확장 부호화의 부호화 모드를 선택할 수 있다.
구체적으로, 부호화 모드 선택부(1701)는 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 주파수 영역의 입력 신호를 분류하고, 분류된 정보에 따라 대역폭 확장 부호화의 부호화 모드 및 부호화 모드에 기초한 주파수 밴드의 개수를 결정할 수 있다. 여기서, 부호화 모드는 확장 부호화부(1702)의 성능 향상을 위해 코어 부호화시 결정된 부호화 모드와 다른 새로운 부호화 모드의 셋트로 설정될 수 있다.
일례로, 부호화 모드는 노말 모드(normal), 하모닉 모드(harmonic), 트랜젼트 모드(transient), 노이즈 모드(noise)로 분류될 수 있다. 먼저 부호화 모드 선택부(1701)는 시간 영역의 입력 신호의 장구간 에너지와 현재 프레임의 고대역 에너지의 비율을 이용하여 현재 프레임이 transient한 프레임인지 결정한다. Transient한 신호 구간은 시간 영역에서 급격한 에너지 변화가 나타나는 구간이므로 고대역의 에너지가 급격히 변화하는 구간이라고 할 수 있다.
나머지 3개의 부호화 모드를 결정하는 과정은 다음과 같다. 먼저 부호화 모드 선택부(1701)는 이전 프레임과 현재 프레임의 주파수 영역의 global 에너지를 구한 후, 이들간의 비율과 주파수 영역의 입력 신호를 사전에 정의된 주파수 대역으로 나눈 후 각 주파수 대역의 평균 에너지와 peak 에너지를 이용하여 나머지 3개의 모드를 결정한다. Harmonic은 일반적으로 주파수 영역 신호에서 평균에너지와 peak 에너지간의 차이가 가장 큰 신호라고 할 수 있다. 그리고 Noise 모드는 전체적으로 에너지 변화가 적은 신호라고 할 수 있다. 이러한 두 가지 신호를 제외한 나머지 신호는 모두 Normal 모드로 결정된다.
그리고 일실시예로, Normal과 Harmonic 모드에서 주파수 밴드의 개수는 16개로 결정되고, transient 모드에서 주파수 밴드의 개수는 5개가 결정되며, Noise 모드에서 주파수 밴드의 개수는 12개로 결정될 수 있다.
확장 부호화부(1702)는 주파수 영역의 입력 신호와 상기 부호화 모드를 이용하여 대역폭 확장 부호화를 수행할 수 있다. 도 17을 참고하면, 확장 부호화부(1702)는 기본 신호 생성부(1703), 요소 추정부(1704), 에너지 추출부(1705), 에너지 제어부(1706) 및 에너지 양자화부(1707)를 포함할 수 있다. 기본 신호 생성부(1703)와 요소 추정부(1704)에 대해서는 도 5의 설명을 참고할 수 있다.
에너지 추출부(1705)는 부호화 모드에 기초하여 결정된 주파수 밴드의 개수에 따라 각 주파수 밴드에 해당하는 에너지를 추출할 수 있다. 에너지 제어부(1706)는 부호화 모드에 기초하여 주파수 밴드에 대응하는 에너지를 제어할 수 있다.
기본신호 생성부(1703), 요소 추정부(1704) 및 에너지 제어부(1706)는 부호화 모드에 따라서 사용되거나 또는 사용되지 않을 수 있다. 예를 들어 Normal과 Harmonic 모드는 위 3개 구성 요소가 사용되고, Transient와 noise모드는 위 3개 구성 요소가 사용되지 않을 수 있다. 위 3개의 구성 요소에 대한 세부적인 설명은 도 5에서 설명한 부분을 참고할 수 있다. 에너지 양자화부(1707)는 부호호 모드에 기초하여 제어된 에너지를 양자화할 수 있다. 즉, 에너지 제어 과정을 거친 밴드 에너지는 에너지 양자화부(1707)에서 양자화될 수 있다.
도 18은 본 발명의 또 다른 실시예에 따른 부호화 장치의 에너지 양자화부가 수행하는 동작을 도시한 도면이다.
에너지 양자화부(1707)는 부호화 모드에 따라 주파수 영역의 입력 신호로부터 추출된 에너지를 양자화할 수 있다. 이 때, 에너지 양자화부(1707)는 부호화 모드에 따라 입력 신호의 지각적인 특성 및 주파수 밴드의 개수를 고려하여 각 입력 신호에 최적인 방식으로 밴드 에너지를 양자화할 수 있다.
예를 들어, 부호화 모드가 transient 모드인 경우, 에너지 양자화부(1707)는 5개 밴드 에너지에 대해서 지각적 특성에 기초한 주파수 가중 방법(frequency weighting method)을 이용하여 밴드 에너지를 양자화할 수 있다. 그리고 부호화 모드가 Normal 모드 또는 harmonic 모드인 경우, 에너지 양자화부(1707)는 16개 밴드 에너지에 대해서 지각적 특성에 기초한 불균형 비트 할당 방법(unequal bit allocation method)을 이용하여 밴드 에너지를 양자화할 수 있다. 만약, 입력 신호의 특성이 명확하지 않은 경우, 에너지 양자화부(1707)는 지각적 특성을 고려하지 않고 일반적인 양자화를 수행할 수도 있다.
도 19는 본 발명의 일실시예에 따라 불균형 비트 할당 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
불균형 비트 할당 방법(unequal bit allocation method)은 확장 부호화의 대상이 된 입력 신호의 지각적 특성을 고려한 것으로, 지각적으로 중요도가 높은 상대적으로 더 낮은 주파수 대역에 대응하는 밴드 에너지를 좀더 정확히 양자화할 수 있는 방법이다. 이를 위해서, 에너지 양자화부(1707)는 낮은 주파수 대역에 대응하는 밴드 에너지에 같거나 더 많은 비트를 할당하여 지각적인 중요도를 구분할 수 있다.
일례로, 에너지 양자화부(1707)는 상대적으로 낮은 대역인 0~5번 주파수 대역에 더 많은 비트 할당을 하며, 0~5번 주파수 대역에 모두 동일한 비트 할당을 한다. 그리고 주파수 대역이 높아질수록 에너지 양자화부(1707)는 더 적은 비트 를 할당한다. 이와 같은 비트 할당에 의해서 주파수 대역 0~13은 도 19와 동일한 방식으로 양자화될 수 있다. 그리고 주파수 대역 14와 15는 도 20과 같이 양자화될 수 있다.
도 20은 본 발명의 일실시예에 따라 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
에너지 양자화부(1707)는 2개 이상의 요소(element)를 갖는 양자화 대상 벡터의 대표값을 예측한 후, 상기 예측된 대표값과 상기 양자화 대상 벡터의 각 요소 간의 에러 신호를 벡터 양자화할 수 있다.
도 20은 이와 같은 인트라 프레임 예측(Intra frame prediction)을 나타내며, 양자화 대상 벡터의 대표값을 예측하고, 에러 신호를 도출하는 방법은 수학식 8과 같다.
여기서 Env(n)은 양자화되지 않은 band 에너지를 의미하며, QEnv(n)은 양자화된 band 에너지를 의미한다. 그리고 p는 양자화 대상 벡터의 예측된 대표값을 의미하며 e(n)은 에러 에너지를 의미한다. 여기서 e(14)와 e(15)는 벡터 양자화된다.
도 21은 본 발명의 일실시예에 따라 주파수 가중 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
주파수 가중 방법(Frequency weighting method)은 확장 부호화 대상인 입력 신호의 지각적 특성으로 고려하여 불균형 비트 할당 방법(unequal bit allocation method)과 동일하게 지각적으로 중요도가 높은 상대적으로 더 낮은 주파수 대역에 대응하는 밴드 에너지를 더 정확히 양자화를 하는 방법이다. 이를 위해서 낮은 주파수 대역에 대응하는 밴드 에너지에 같거나 더 높은 가중치를 부여하여 지각적인 중요도를 구분한다.
일례로, 에너지 양자화부(1707)는 도 21과 같이 상대적으로 낮은 주파수 대역인 0~3번 주파수 대역에 대응하는 밴드 에너지에 더 높은 가중치인 1.0을 부여하며, 높은 주파수 대역인 15번 주파수 대역에 대응하는 밴드 에너지에 더 낮은 가중치인 0.7을 부여하여 양자화할 수 있다. 부여된 가중치를 사용하기 위해, 에너지 양자화부(1707)는 WMSE(Weighted Mean Square Error)값을 이용하여 최적 인덱스를 구할 수 있다.
도 22는 본 발명의 일실시예에 따라 멀티 스테이지 스플릿의 벡터 양자화와 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
에너지 양자화부(1707)는 밴드 에너지의 개수가 16개인 Normal mode에 대해 도 22와 같이 벡터 양자화를 수행할 수 있다. 여기서 에너지 양자화부(1707)는 불균형 비트 할당 방법(unequal bit allocation method), 인트라 프레임 예측(intra frame prediction), 그리고 Multi-stage split VQ with energy interpolation 기술을 이용하여 벡터 양자화를 수행할 수 있다.
도 23은 본 발명의 일실시예에 따라 복호화 장치의 역양자화부가 수행하는 동작을 도시한 도면이다.
도 23은 도 18의 동작을 역으로 수행할 수 있다. 도 17과 같이 확장 부호화 시에 부호화 모드가 사용된 경우, 복호화 장치의 역양자화부(1301)는 부호화 모드를 복호화 할 수 있다.
역양자화부(1301)는 먼저 전송된 인덱스를 이용하여 부호화 모드를 복호화한다. 그리고, 역양자화부(1301)는 복호화된 부호화 모드에 따라 정해진 방식으로 역양자화를 한다. 도 23의 부호화 모드에 따라 각 역양자화 대상인 블록은 양자화의 역순으로 역양자화된다.
여기서 사용된 Multi-stage split VQ with energy interpolation 방식으로 양자화된 부분은 도 14와 동일한 방식으로 역양자화될 수 있다. 이 중에서 역양자화부(1301)는 인트라 프레임 예측을 이용하여 아래 수학식 9에 따라 역양자화할 수 있다.
여기서 Env(n)은 양자화되지 않은 band 에너지를 의미하며, QEnv(n)은 양자화된 band 에너지를 의미한다. 그리고 p는 양자화 대상 벡터의 예측된 대표값을 의미하며 e^(n)은 양자화된 에러 에너지를 의미한다.
도 24는 본 발명의 일실시예에 따른 부호화 장치의 다른 구조를 도시한 도면이다.
도 24에 도시된 부호화 장치(101)의 각 구성 요소의 기본적인 동작은 도 2와 같다. 다만, 확장 부호화부(2404)는 코어 부호화부(2404)의 정보 전송이 없으며 시간 영역의 입력신호가 직접 입력될 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
101: 부호화 장치
102: 복호화 장치
Claims (1)
- 현재 프레임의 입력 스펙트럼에 근거하여, 소정 주파수보다 높은 대역을 위한 기본 여기 스펙트럼(base excitation spectrum)을 생성하는 단계;
상기 현재 프레임을 구성하고 있는 밴드의 에너지를 얻는 단계;
상기 기본 여기 스펙트럼의 토널러티와 상기 입력 스펙트럼의 토널러티간 비율에 근거하여, 상기 현재 프레임을 구성하고 있는 밴드에 대한 에너지 제어요소를 얻는 단계;
상기 현재 프레임을 구성하고 있는 밴드의 에너지를 상기 에너지 제어 요소를 사용하여 제어하는 단계; 및
상기 제어된 에너지를 양자화하는 단계를 구비하는 부호화방법.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100090582 | 2010-09-15 | ||
KR20100090582 | 2010-09-15 | ||
KR1020100103636 | 2010-10-22 | ||
KR20100103636 | 2010-10-22 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180012375A Division KR101896504B1 (ko) | 2010-09-15 | 2018-01-31 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180100294A true KR20180100294A (ko) | 2018-09-10 |
KR102013242B1 KR102013242B1 (ko) | 2019-08-22 |
Family
ID=46133534
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100138045A KR101826331B1 (ko) | 2010-09-15 | 2010-12-29 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
KR1020180012375A KR101896504B1 (ko) | 2010-09-15 | 2018-01-31 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
KR1020180104852A KR102013242B1 (ko) | 2010-09-15 | 2018-09-03 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100138045A KR101826331B1 (ko) | 2010-09-15 | 2010-12-29 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
KR1020180012375A KR101896504B1 (ko) | 2010-09-15 | 2018-01-31 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
Country Status (9)
Country | Link |
---|---|
US (4) | US9183847B2 (ko) |
EP (3) | EP3745398A1 (ko) |
JP (3) | JP6111196B2 (ko) |
KR (3) | KR101826331B1 (ko) |
CN (3) | CN105719655B (ko) |
MX (1) | MX354288B (ko) |
MY (1) | MY167013A (ko) |
RU (1) | RU2639694C1 (ko) |
WO (1) | WO2012036487A2 (ko) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101983403B (zh) * | 2008-07-29 | 2013-05-22 | 雅马哈株式会社 | 演奏相关信息输出装置、具有演奏相关信息输出装置的系统、以及电子乐器 |
EP2268057B1 (en) * | 2008-07-30 | 2017-09-06 | Yamaha Corporation | Audio signal processing device, audio signal processing system, and audio signal processing method |
JP5782677B2 (ja) | 2010-03-31 | 2015-09-24 | ヤマハ株式会社 | コンテンツ再生装置および音声処理システム |
KR101826331B1 (ko) | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
JP5648123B2 (ja) * | 2011-04-20 | 2015-01-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声音響符号化装置、音声音響復号装置、およびこれらの方法 |
EP2728577A4 (en) | 2011-06-30 | 2016-07-27 | Samsung Electronics Co Ltd | APPARATUS AND METHOD FOR GENERATING A BANDWIDTH EXTENSION SIGNAL |
EP2573761B1 (en) | 2011-09-25 | 2018-02-14 | Yamaha Corporation | Displaying content in relation to music reproduction by means of information processing apparatus independent of music reproduction apparatus |
US8909539B2 (en) * | 2011-12-07 | 2014-12-09 | Gwangju Institute Of Science And Technology | Method and device for extending bandwidth of speech signal |
JP5494677B2 (ja) | 2012-01-06 | 2014-05-21 | ヤマハ株式会社 | 演奏装置及び演奏プログラム |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
CN106847297B (zh) | 2013-01-29 | 2020-07-07 | 华为技术有限公司 | 高频带信号的预测方法、编/解码设备 |
CN110827841B (zh) * | 2013-01-29 | 2023-11-28 | 弗劳恩霍夫应用研究促进协会 | 音频解码器 |
FR3003682A1 (fr) * | 2013-03-25 | 2014-09-26 | France Telecom | Mixage partiel optimise de flux audio codes selon un codage par sous-bandes |
FR3003683A1 (fr) * | 2013-03-25 | 2014-09-26 | France Telecom | Mixage optimise de flux audio codes selon un codage par sous-bandes |
MX343673B (es) * | 2013-04-05 | 2016-11-16 | Dolby Int Ab | Codificador y decodificador de audio. |
PT3011560T (pt) | 2013-06-21 | 2018-11-09 | Fraunhofer Ges Forschung | Descodificador de áudio contendo um módulo de extensão de largura de banda com um módulo de ajustamento de energia |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
US9666202B2 (en) | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
EP3614381A1 (en) | 2013-09-16 | 2020-02-26 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
US10388293B2 (en) * | 2013-09-16 | 2019-08-20 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
CN104517610B (zh) | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
RU2636697C1 (ru) | 2013-12-02 | 2017-11-27 | Хуавэй Текнолоджиз Ко., Лтд. | Устройство и способ кодирования |
EP2881943A1 (en) * | 2013-12-09 | 2015-06-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal with low computational resources |
US20150170655A1 (en) * | 2013-12-15 | 2015-06-18 | Qualcomm Incorporated | Systems and methods of blind bandwidth extension |
FR3017484A1 (fr) * | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
BR112016020988B1 (pt) * | 2014-03-14 | 2022-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Método e codificador para codificação de um sinal de áudio, e, dispositivo de comunicação |
KR20240010550A (ko) | 2014-03-28 | 2024-01-23 | 삼성전자주식회사 | 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치 |
US9685164B2 (en) * | 2014-03-31 | 2017-06-20 | Qualcomm Incorporated | Systems and methods of switching coding technologies at a device |
CN111710342B (zh) * | 2014-03-31 | 2024-04-16 | 弗朗霍弗应用研究促进协会 | 编码装置、解码装置、编码方法、解码方法及程序 |
CN105096957B (zh) * | 2014-04-29 | 2016-09-14 | 华为技术有限公司 | 处理信号的方法及设备 |
US9697843B2 (en) | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
CN111968656B (zh) * | 2014-07-28 | 2023-11-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US10061554B2 (en) * | 2015-03-10 | 2018-08-28 | GM Global Technology Operations LLC | Adjusting audio sampling used with wideband audio |
EP3274992B1 (en) | 2015-03-27 | 2020-11-04 | Dolby Laboratories Licensing Corporation | Adaptive audio filtering |
WO2016199596A1 (ja) * | 2015-06-10 | 2016-12-15 | ソニー株式会社 | 信号処理装置、信号処理方法、およびプログラム |
US10134412B2 (en) * | 2015-09-03 | 2018-11-20 | Shure Acquisition Holdings, Inc. | Multiresolution coding and modulation system |
BR112017024480A2 (pt) * | 2016-02-17 | 2018-07-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | pós-processador, pré-processador, codificador de áudio, decodificador de áudio e métodos relacionados para aprimoramento do processamento transiente |
EP3723085B1 (en) * | 2016-03-21 | 2022-11-16 | Huawei Technologies Co., Ltd. | Adaptive quantization of weighted matrix coefficients |
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
EP3701523B1 (en) | 2017-10-27 | 2021-10-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise attenuation at a decoder |
JP6693551B1 (ja) * | 2018-11-30 | 2020-05-13 | 株式会社ソシオネクスト | 信号処理装置および信号処理方法 |
US11380343B2 (en) * | 2019-09-12 | 2022-07-05 | Immersion Networks, Inc. | Systems and methods for processing high frequency audio signal |
US10978083B1 (en) | 2019-11-13 | 2021-04-13 | Shure Acquisition Holdings, Inc. | Time domain spectral bandwidth replication |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070115637A (ko) * | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
WO2010003564A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Low bitrate audio encoding/decoding scheme having cascaded switches |
Family Cites Families (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE501305C2 (sv) * | 1993-05-26 | 1995-01-09 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
JP3317470B2 (ja) | 1995-03-28 | 2002-08-26 | 日本電信電話株式会社 | 音響信号符号化方法、音響信号復号化方法 |
JP3707116B2 (ja) * | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
US6377915B1 (en) | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
US7117149B1 (en) | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
JP2002202799A (ja) | 2000-10-30 | 2002-07-19 | Fujitsu Ltd | 音声符号変換装置 |
EP1701340B1 (en) | 2001-11-14 | 2012-08-29 | Panasonic Corporation | Decoding device, method and program |
US7218251B2 (en) | 2002-03-12 | 2007-05-15 | Sony Corporation | Signal reproducing method and device, signal recording method and device, and code sequence generating method and device |
JP2003304238A (ja) | 2002-04-09 | 2003-10-24 | Sony Corp | 信号再生方法及び装置、信号記録方法及び装置、並びに符号列生成方法及び装置 |
US7555434B2 (en) * | 2002-07-19 | 2009-06-30 | Nec Corporation | Audio decoding device, decoding method, and program |
WO2004034379A2 (en) * | 2002-10-11 | 2004-04-22 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7519530B2 (en) * | 2003-01-09 | 2009-04-14 | Nokia Corporation | Audio signal processing |
US20040230423A1 (en) * | 2003-05-16 | 2004-11-18 | Divio, Inc. | Multiple channel mode decisions and encoding |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
US7619995B1 (en) * | 2003-07-18 | 2009-11-17 | Nortel Networks Limited | Transcoders and mixers for voice-over-IP conferencing |
JP5129480B2 (ja) | 2003-09-25 | 2013-01-30 | パイエオン インコーポレイテッド | 管状臓器の3次元再構成を行うシステム及び血管撮像装置の作動方法 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
JP4741476B2 (ja) * | 2004-04-23 | 2011-08-03 | パナソニック株式会社 | 符号化装置 |
CN101686363A (zh) | 2004-04-28 | 2010-03-31 | 松下电器产业株式会社 | 流产生装置,流产生方法,编码装置,编码方法,记录介质及其程序 |
EP1939862B1 (en) * | 2004-05-19 | 2016-10-05 | Panasonic Intellectual Property Corporation of America | Encoding device, decoding device, and method thereof |
US8712768B2 (en) * | 2004-05-25 | 2014-04-29 | Nokia Corporation | System and method for enhanced artificial bandwidth expansion |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
JP4939424B2 (ja) | 2004-11-02 | 2012-05-23 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複素値のフィルタ・バンクを用いたオーディオ信号の符号化及び復号化 |
KR100707174B1 (ko) * | 2004-12-31 | 2007-04-13 | 삼성전자주식회사 | 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법 |
US7805314B2 (en) * | 2005-07-13 | 2010-09-28 | Samsung Electronics Co., Ltd. | Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data |
US7587314B2 (en) | 2005-08-29 | 2009-09-08 | Nokia Corporation | Single-codebook vector quantization for multiple-rate applications |
KR20070026939A (ko) | 2005-08-29 | 2007-03-09 | 주식회사 아이캐시 | 한 개의 카드번호를 이용한 마일리지 포인트, 전자화폐,전자상품권, 선불카드, 직불카드 및 타 신용카드의통합결제 시스템 및 방법 |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
KR100795727B1 (ko) * | 2005-12-08 | 2008-01-21 | 한국전자통신연구원 | Celp기반의 음성 코더에서 고정 코드북 검색 장치 및방법 |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
CN101089951B (zh) * | 2006-06-16 | 2011-08-31 | 北京天籁传音数字技术有限公司 | 频带扩展编码方法及装置和解码方法及装置 |
US9159333B2 (en) | 2006-06-21 | 2015-10-13 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
US8010352B2 (en) * | 2006-06-21 | 2011-08-30 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
KR101390188B1 (ko) | 2006-06-21 | 2014-04-30 | 삼성전자주식회사 | 적응적 고주파수영역 부호화 및 복호화 방법 및 장치 |
KR101393298B1 (ko) | 2006-07-08 | 2014-05-12 | 삼성전자주식회사 | 적응적 부호화/복호화 방법 및 장치 |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US7873514B2 (en) | 2006-08-11 | 2011-01-18 | Ntt Docomo, Inc. | Method for quantizing speech and audio through an efficient perceptually relevant search of multiple quantization patterns |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
US8214202B2 (en) | 2006-09-13 | 2012-07-03 | Telefonaktiebolaget L M Ericsson (Publ) | Methods and arrangements for a speech/audio sender and receiver |
KR101346358B1 (ko) | 2006-09-18 | 2013-12-31 | 삼성전자주식회사 | 대역폭 확장 기법을 이용한 오디오 신호의 부호화/복호화방법 및 장치 |
US20080071550A1 (en) | 2006-09-18 | 2008-03-20 | Samsung Electronics Co., Ltd. | Method and apparatus to encode and decode audio signal by using bandwidth extension technique |
JP2008096567A (ja) | 2006-10-10 | 2008-04-24 | Matsushita Electric Ind Co Ltd | オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム |
US8639500B2 (en) | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
KR101565919B1 (ko) | 2006-11-17 | 2015-11-05 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 방법 및 장치 |
KR101375582B1 (ko) | 2006-11-17 | 2014-03-20 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
ATE547898T1 (de) | 2006-12-12 | 2012-03-15 | Fraunhofer Ges Forschung | Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms |
KR101379263B1 (ko) | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
CN101231850B (zh) * | 2007-01-23 | 2012-02-29 | 华为技术有限公司 | 编解码方法及装置 |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
US8060363B2 (en) * | 2007-02-13 | 2011-11-15 | Nokia Corporation | Audio signal encoding |
US8032359B2 (en) * | 2007-02-14 | 2011-10-04 | Mindspeed Technologies, Inc. | Embedded silence and background noise compression |
JP4871894B2 (ja) * | 2007-03-02 | 2012-02-08 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
KR101355376B1 (ko) | 2007-04-30 | 2014-01-23 | 삼성전자주식회사 | 고주파수 영역 부호화 및 복호화 방법 및 장치 |
KR101373004B1 (ko) * | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
CN101430880A (zh) | 2007-11-07 | 2009-05-13 | 华为技术有限公司 | 一种背景噪声的编解码方法和装置 |
WO2009066959A1 (en) | 2007-11-21 | 2009-05-28 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
CN101458930B (zh) * | 2007-12-12 | 2011-09-14 | 华为技术有限公司 | 带宽扩展中激励信号的生成及信号重建方法和装置 |
US8422569B2 (en) | 2008-01-25 | 2013-04-16 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
CA2717584C (en) * | 2008-03-04 | 2015-05-12 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
CN101527138B (zh) * | 2008-03-05 | 2011-12-28 | 华为技术有限公司 | 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统 |
US8407046B2 (en) * | 2008-09-06 | 2013-03-26 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
JP2010066158A (ja) * | 2008-09-11 | 2010-03-25 | Shimadzu Corp | シリンジ、及びこのシリンジを用いたインフュージョン試料導入装置 |
WO2010036061A2 (en) * | 2008-09-25 | 2010-04-01 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
US20100114568A1 (en) * | 2008-10-24 | 2010-05-06 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
CN101751926B (zh) * | 2008-12-10 | 2012-07-04 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码系统 |
CN101763856B (zh) * | 2008-12-23 | 2011-11-02 | 华为技术有限公司 | 信号分类处理方法、分类处理装置及编码系统 |
PL3246919T3 (pl) * | 2009-01-28 | 2021-03-08 | Dolby International Ab | Ulepszona transpozycja harmonicznych |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
JP4892021B2 (ja) | 2009-02-26 | 2012-03-07 | 株式会社東芝 | 信号帯域拡張装置 |
CN101521014B (zh) * | 2009-04-08 | 2011-09-14 | 武汉大学 | 音频带宽扩展编解码装置 |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
ES2400661T3 (es) * | 2009-06-29 | 2013-04-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de extensión de ancho de banda |
US8311843B2 (en) * | 2009-08-24 | 2012-11-13 | Sling Media Pvt. Ltd. | Frequency band scale factor determination in audio encoding based upon frequency band signal energy |
PL2489041T3 (pl) * | 2009-10-15 | 2020-11-02 | Voiceage Corporation | Jednoczesne kształtowanie szumu w dziedzinie czasu i w dziedzinie częstotliwości dla przekształcenia tdac |
BR112012009490B1 (pt) * | 2009-10-20 | 2020-12-01 | Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. | ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
US9443534B2 (en) * | 2010-04-14 | 2016-09-13 | Huawei Technologies Co., Ltd. | Bandwidth extension system and approach |
KR101826331B1 (ko) | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
CN102436820B (zh) * | 2010-09-29 | 2013-08-28 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
US8965756B2 (en) * | 2011-03-14 | 2015-02-24 | Adobe Systems Incorporated | Automatic equalization of coloration in speech recordings |
-
2010
- 2010-12-29 KR KR1020100138045A patent/KR101826331B1/ko active IP Right Grant
-
2011
- 2011-09-12 US US13/137,779 patent/US9183847B2/en active Active
- 2011-09-15 JP JP2013529063A patent/JP6111196B2/ja active Active
- 2011-09-15 EP EP20185468.4A patent/EP3745398A1/en not_active Ceased
- 2011-09-15 CN CN201610086624.9A patent/CN105719655B/zh active Active
- 2011-09-15 EP EP16172268.1A patent/EP3113182A1/en not_active Ceased
- 2011-09-15 WO PCT/KR2011/006819 patent/WO2012036487A2/en active Application Filing
- 2011-09-15 EP EP11825447.3A patent/EP2617033B1/en active Active
- 2011-09-15 CN CN201610086035.0A patent/CN105654958B/zh active Active
- 2011-09-15 CN CN201180054965.3A patent/CN103210443B/zh active Active
- 2011-12-28 MY MYPI2013002326A patent/MY167013A/en unknown
- 2011-12-28 US US13/977,906 patent/US10152983B2/en active Active
- 2011-12-28 MX MX2015015946A patent/MX354288B/es unknown
- 2011-12-28 RU RU2015156885A patent/RU2639694C1/ru active
-
2015
- 2015-11-06 US US14/934,969 patent/US9837090B2/en active Active
-
2016
- 2016-11-28 JP JP2016230346A patent/JP6306676B2/ja active Active
-
2017
- 2017-12-04 US US15/830,501 patent/US10418043B2/en active Active
-
2018
- 2018-01-31 KR KR1020180012375A patent/KR101896504B1/ko active IP Right Grant
- 2018-03-08 JP JP2018042309A patent/JP6787941B2/ja active Active
- 2018-09-03 KR KR1020180104852A patent/KR102013242B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070115637A (ko) * | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
WO2010003564A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Low bitrate audio encoding/decoding scheme having cascaded switches |
Non-Patent Citations (1)
Title |
---|
Masahiro Oshikiri et al., ‘Efficient spectrum coding for super-wideband speech and its application to 7/10/15 KHz bandwidth scalable coders’, ICASSP 2004, pp.481~484, 2004.* * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101896504B1 (ko) | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 | |
KR102109938B1 (ko) | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 | |
AU2015202393A1 (en) | Apparatus and method for encoding/decoding for high-frequency bandwidth extension | |
AU2016222488A1 (en) | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |