KR100956878B1 - 이득 계수 감쇠를 위한 시스템, 방법, 및 장치 - Google Patents
이득 계수 감쇠를 위한 시스템, 방법, 및 장치 Download PDFInfo
- Publication number
- KR100956878B1 KR100956878B1 KR1020077027098A KR20077027098A KR100956878B1 KR 100956878 B1 KR100956878 B1 KR 100956878B1 KR 1020077027098 A KR1020077027098 A KR 1020077027098A KR 20077027098 A KR20077027098 A KR 20077027098A KR 100956878 B1 KR100956878 B1 KR 100956878B1
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- gain
- gain coefficient
- highband
- coefficient values
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000003672 processing method Methods 0.000 claims abstract description 13
- 230000036962 time dependent Effects 0.000 claims abstract description 5
- 230000005284 excitation Effects 0.000 claims description 226
- 230000003595 spectral effect Effects 0.000 claims description 97
- 238000013139 quantization Methods 0.000 claims description 55
- 238000009499 grossing Methods 0.000 claims description 53
- 238000003786 synthesis reaction Methods 0.000 claims description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 12
- 238000013500 data storage Methods 0.000 claims description 7
- 230000002238 attenuated effect Effects 0.000 claims description 5
- 230000001413 cellular effect Effects 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims 4
- 238000010586 diagram Methods 0.000 description 86
- 230000006870 function Effects 0.000 description 65
- 239000013598 vector Substances 0.000 description 51
- 238000001228 spectrum Methods 0.000 description 36
- 238000004458 analytical method Methods 0.000 description 32
- 238000005070 sampling Methods 0.000 description 23
- 230000003044 adaptive effect Effects 0.000 description 21
- 230000004044 response Effects 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 16
- 230000007774 longterm Effects 0.000 description 14
- 230000007704 transition Effects 0.000 description 14
- 238000013507 mapping Methods 0.000 description 13
- 230000002829 reductive effect Effects 0.000 description 13
- 230000002087 whitening effect Effects 0.000 description 13
- 238000010606 normalization Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 5
- 238000007493 shaping process Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 239000004606 Fillers/Extenders Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 101100230233 Arabidopsis thaliana GT20 gene Proteins 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Control Of Amplification And Gain Control (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
일 실시예에 다른 신호 처리 방법은 스피치 신호(speech signal)의 저주파 대역에 기초하는 제 1 신호의 엔벌로프를 계산하는 단계, 상기 스피치 신호의 고주파 대역에 기초하는 제 2 신호의 엔벌로프를 계산하는 단계; 및 상기 제 1 및 제 2 신호의 엔벌로프들 간의 시변적인 관계에 따라서 복수의 이득 계수 값들을 계산하는 단계를 포함한다. 본 방법은, 상기 제 1 및 제 2 신호들의 엔벌로프들 간의 관계의 시간에 따른 편차에 기초하여, 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 단계를 포함한다. 일례로, 상기 엔벌로프들 간의 관계의 시간에 다른 편차는 상기 복수의 이득 계수 값들 간의 적어도 하나의 간격(distance)에 의해 지시된다.
Description
본 발명은 신호 처리에 관한 것이다.
공중전화 교환망(PSTN)을 통한 음성 통신은 종래에 대역폭에 있어서 300-3400 kHz의 주파수 범위로 제한되어 왔다. 셀룰러 전화 및 VoIP(인터넷 프로토콜, voice over IP)과 같은 음성 통신용의 새로운 네트워크들은 동일한 대역폭 제한들을 갖지 않을 수 있으며, 그러한 네트워크들을 통해 광대역 주파수 범위를 포함하는 음성 통신들을 전송 및 수신하는 것이 바람직할 수 있다. 예를 들어, 아래로 50 Hz 까지 및/또는 위로 7 또는 8 kHz까지 확장되는 오디오 주파수 범위를 지원하는 것이 바람직할 수 있다. 또한, 고-품질 오디오 또는 오디오/비디오 회의와 같이, 종래의 PSTN 한계들 밖의 범위 내의 스피치 내용(speech content)을 가질 수 있는 다른 애플리케이션들을 지원하는 것이 바람직할 수 있다.
스피치 코더(speech coder)에 의해 더 높은 주파수들로 지원되는 상기 범위의 확장은 명료도(intelligibility)를 개선할 수 있다. 예를 들어, 's' 및 'f'와 같은 마찰음들을 구분하는 정보는 주로 높은 주파수들에 존재한다. 또한 고대역(highband) 확장은 현장감(presence)과 같은, 스피치의 다른 품질들을 개선할 수 있다. 예를 들어, 유성 모음(voiced vowel)은 상기 PSTN 한계보다 상당히 높은 스펙트럼 에너지(spectral energy)를 가질 수 있다.
광대역 스피치 코딩(wideband speech coding)에 대한 한가지 방식은 협대역(narrowband) 스피치 코딩 기술(예컨대, 0-4 kHz 범위를 인코딩하도록 구성된 것)을 스케일링하여 광대역 스펙트럼을 커버(cover)하는 것을 수반한다. 예를 들어, 스피치 신호는 더 높은 레이트(rate)로 샘플링(sample)되어 고 주파수들의 성분(component)들을 포함할 수 있으며, 협대역 코딩 기술은 더 많은 필터 계수(filter coefficient)들을 이용하여 이러한 광대역 신호들을 표현(represent)하도록 재구성될 수 있다. 그러나, CELP(codebook excited linear prediction)와 같은 협대역 코딩 기술들은 계산 집약적(intensive)이며, 광대역 CELP 코더는 많은 이동 및 다른 내장 애플리케이션들에 실용적인 처리 사이클(processing cycle)들을 너무 많이 소모할 수 있다. 또한 그러한 기술을 이용하여 요구되는 품질로 광대역 신호의 전체 스펙트럼을 인코딩하는 것은 대역폭에 있어서 용인불가할 정도로 큰 증가를 초래할 수 있다. 게다가, 그러한 인코딩된 신호의 트랜스코딩(transcoding)이 협대역 부분이 협대역 코딩만을 지원하는 시스템으로 송신 및/또는 협대역 코딩만을 지원하는 시스템에 의해 디코딩될 수 있기 전에 요구될 것이다.
광대역 스피치 코딩에 대한 다른 방법은 상기 인코딩된 협대역 스펙트럼 엔벌로프(spectral envelope)로부터 상기 고대역 스펙트럼 엔벌로프를 외삽(extrapolate)하는 것을 수반한다. 그러한 방법이 대역폭의 증가 없이 그리고 트랜스코딩에 대한 필요없이 구현될 수 있는 반면, 스피치 신호의 고대역 부분의 개략적인(coarse) 스펙트럼 엔벌로프 또는 포먼트(formant) 구조는 일반적으로 상기 협대역 부분의 스펙트럼 엔벌로프로부터 정확하게 예측될 수 없다.
인코딩된 신호의 적어도 협대역 부분이 트랜스코딩 또는 다른 현저한 변경없이 협대역 채널(PSTN 채널과 같은)을 통해 전송될 수 있도록 광대역 스피치 코딩을 구현하는 것이 바람직할 것이다. 또한 광대역 코딩 확장의 효율성은, 예를 들어, 무선 셀룰러 전화 및 유무선 채널들을 통한 방송과 같은 애플리케이션들을 서비스받을 수 있는 사용자들의 수에 있어서 현저한 감소를 회피하는 것이 바람직할 수 있다.
일 실시예로, 신호 처리 방법은 스피치 신호의 저주파(low-frequency) 대역에 기초하는 제 1 신호의 엔벌로프(envelope)를 계산하는 단계, 상기 스피치 신호의 고주파(high-frequency) 대역에 기초하는 제 2 신호의 엔벌로프를 계산하는 단계, 및 상기 제 1 및 제 2 신호의 엔벌로프들 간의 시변적인(time-varying) 관계에 따라서 복수의 이득 계수(gain factor) 값들을 계산하는 단계를 포함한다. 상기 방법은, 상기 제 1 및 제 2 신호들의 엔벌로프들 간의 시간에 따른 편차(variation)에 기초하여, 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 단계를 포함한다.
다른 실시예로, 장치는 스피치 신호의 저주파 대역에 기초하는 제 1 신호의 엔벌로프를 계산하도록 구성되고 배치되는 제 1 엔벌로프 계산기 및 상기 스피치 신호의 고주파 대역에 기초하는 제 2 신호의 엔벌로프를 계산하도록 구성되고 배치되는 제 2 엔벌로프 계산기를 포함한다. 상기 장치는 상기 제 1 및 제 2 신호들의 엔벌로프들 간의 시변적인 관계에 따라서 복수의 이득 계수 값들을 계산하도록 구성되고 배치되는 계수 계산기(factor calculator), 및 상기 제 1 및 제 2 신호들 간의 관계의 시간에 따른 편차(variation)에 기초하여 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키도록 구성되고 배치되는 이득 계수 감쇠기(attenuator)를 포함한다.
다른 실시예로, 신호 처리 방법은 고대역 여기 신호(highband excitation signal)를 발생시키는 단계를 포함한다. 본 방법에서, 고대역 여기 신호를 발생시키는 단계는 저대역 여기 신호(lowband excitation signal)에 기초하여 신호를 스펙트럼 확장(spectrally extend)시키는 단계를 포함한다. 상기 방법은, 상기 고대역 여기 신호에 기초하여, 고대역 스피치 신호를 합성(synthesize)하는 단계를 포함한다. 상기 방법은 제 1 복수의 이득 계수(gain factor) 값들 간의 적어도 하나의 간격(distance)에 따라서 상기 제 1 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 단계 및, 상기 감쇠로부터 산출되는 제 2 복수의 이득 계수 값들에 기초하여, 상기 저대역 여기 신호에 기초하는 신호의 시간-영역(time-domain) 엔벌로프를 수정(modify)하는 단계를 포함한다.
다른 실시예로, 장치는 저대역 여기 신호에 기초하여 고대역 여기 신호를 발생시키도록 구성되는 고대역 여기 발생기(highband excitation generator), 상기 고대역 여기 신호에 기초하여 합성된 고대역 스피치 신호를 생성하도록 구성 및 배치되는 합성 필터(synthesis filter), 및 제 1 복수의 이득 계수 값들 간의 적어도 하나의 간격(distance)에 따라서 상기 제 1 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키도록 구성되고 배치되는 이득 계수 감쇠기(gain factor attenuator)를 포함한다. 상기 장치는, 적어도 하나의 감쇠된 이득 계수 값을 포함하는 제 2 복수의 이득 계수 값들에 기초하여, 상기 저대역 여기 신호에 기초하는 신호의 시간-영역 엔벌로프를 수정하도록 구성되고 배치되는 이득 제어 엘리먼트(gain control element)를 포함한다.
도 1a는 일 실시예에 따른 광대역 스피치 인코더(A100)의 블록도를 나타낸다.
도 1b는 광대역 스피치 인코더(A100)의 일 구현(A102)인 블록도를 나타낸다.
도 2a는 일 실시예에 따른 광대역 스피치 디코더(B100)의 블록도를 나타낸다.
도 2b는 광대역 스피치 인코더(B100)의 일 구현(B102)의 블록도를 나타낸다.
도 3a는 필터 뱅크(A110)의 일 구현(A112)의 블록도를 나타낸다.
도 3b는 필터 뱅크(B120)의 일 구현(B122)의 블록도를 나타낸다.
도 4a는 필터 뱅크(A110)의 다른 예에 대한 저대역 및 고대역의 대역폭 커버리지를 나타낸다.
도 4b는 필터 뱅크(A110)의 다른 예에 대한 저대역 및 고대역의 대역폭 커버리지를 나타낸다.
도 4c는 필터 뱅크(A112)의 일 구현(A114)의 블록도를 나타낸다.
도 4d는 필터 뱅크(B122)의 일 구현(B124)의 블록도를 나타낸다.
도 5a는 스피치 신호에 대한 주파수-대-로그 진폭(log amplitude)의 플롯(plot)의 일례를 나타낸다.
도 5b는 기본 선형 예측 코딩 시스템(basic linear prediction coding system)의 블록도를 나타낸다.
도 6은 협대역 인코더(narrowband encoder)(A120)의 일 구현(A122)의 블록도를 나타낸다.
도 7은 협대역 디코더(B110)의 일 구현(B112)의 블록도를 나타낸다.
도 8a는 유성음 스피치(voiced speech)에 대한 잔여 신호(residual signal)에 관한 주파수-대-로그 진폭의 플롯의 일례를 나타낸다.
도 8b는 유성음 스피치에 대한 잔여 신호에 관한 시간-대-로그 진폭의 플롯의 일례를 나타낸다.
도 9는 장기(long-term) 예측도 수행하는 기본 선형 예측 코딩 시스템의 블록도를 나타낸다.
도 10은 고대역 인코더(A200)의 일 구현(A202)의 블록도를 나타낸다.
도 11은 고대역 여기 발생기(highband excitation generator)(A300)의 일 구현(A302)의 블록도를 나타낸다.
도 12는 스펙트럼 확장기(spectrum extender)(A400)의 일 구현(A402)의 블록도를 나타낸다.
도 12a는 스펙트럼 확장 동작(spectral extension operation)의 일례에 있어서 다양한 점들에 있는 신호 스펙트럼들의 플롯들을 나타낸다.
도 12b는 스펙트럼 확장 동작의 다른 예에서 다양한 점들에 있는 신호 스펙트럼들의 플롯들을 나타낸다.
도 13은 고대역 여기 발생기(A302)의 일 구현의 블록도를 나타낸다.
도 14는 고대역 여기 발생기(A302)의 일 구현(A306)의 블록도를 나타낸다.
도 15는 엔벌로프 계산 태스크(task)(T100)에 대한 순서도를 나타낸다.
도 16은 결합기(combiner)(490)의 일 구현(492)의 블록도를 나타낸다.
도 17은 고대역 신호(S30)의 주기성(periodicity)의 측정을 계산하는 방법을 도시한다.
도 18은 고대역 여기 발생기(A302)의 일 구현(A312)의 블록도를 나타낸다.
도 19는 고대역 여기 발생기(A302)의 일 구현(A314)의 블록도를 나타낸다.
도 20은 고대역 여기 발생기(A302)의 일 구현(A316)의 블록도를 나타낸다.
도 21은 이득 계산 태스크(T200)에 대한 순서도를 나타낸다.
도 22는 이득 계산 태스크(T200)의 이 구현(T210)에 관한 순서도를 나타낸다.
도 23a는 윈도윙 함수(windowing function)의 다이어그램을 나타낸다.
도 23b는 스피치 신호의 서브프레임(subframe)들에 대한 도 23a에 도시된 바와 같은 윈도윙 함수의 적용을 나타낸다.
도 24는 고대역 디코더(B200)의 일 구현(B202)에 대한 블록도를 나타낸다.
도 25는 광대역 스피치 인코더(A100)의 일 구현(AD10)의 블록도를 나타낸다.
도 26a는 지연 라인(delay line)(D120)의 일 구현(D122)의 개략도를 나타낸다.
도 26b는 지연 라인(D120)의 일 구현(D124)의 개략도를 나타낸다.
도 27은 지연 라인(D120)의 일 구현(D130)의 개략도를 나타낸다.
도 28은 광대역 스피치 인코더(AD10)의 일 구현(AD12)의 블록도를 나타낸다.
도 29는 일 실시예에 따른 신호 처리 방법(MD10)의 순서도를 나타낸다.
도 30은 일 실시예에 따른 방법(M100)에 대한 순서도를 나타낸다.
도 31a는 일 실시예에 따른 방법(M200)에 대한 순서도를 나타낸다.
도 31b는 방법(M200)의 일 구현(M210)에 대한 순서도를 나타낸다.
도 32는 일 실시예에 따른 방법(M300)에 대한 순서도를 나타낸다.
도 33a는 고대역 이득 계수 계산기(A230)의 일 구현(A232)의 블록도를 나타낸다.
도 33b는 고대역 이득 계수 계산기(A232)를 포함하는 배치(arrangement)의 블록도를 나타낸다.
도 34는 고대역 인코더(A202)의 일 구현(A203)의 블록도를 나타낸다.
도 35는 고대역 이득 계수 계산기(A232) 및 이득 계수 감쇠기(attenuator)(G30)의 일 구현(G32)을 포함하는 배치의 블록도를 나타낸다.
도 36a 및 36b는 계산된 편차(variation) 값으로부터 감쇠 계수 값으로의 매핑(mapping)들의 예들인 플롯들을 나타낸다.
도 37은 고대역 이득 계수 계산기(A232) 및 이득 계수 감쇠기(G30)의 일 구현(G34)을 포함하는 배치의 블록도를 나타낸다.
도 38은 고대역 디코더(B202)의 일 구현(B204)의 블록도를 나타낸다.
도 39는 일 실시예에 따른 방법(GM10)의 순서도를 나타낸다.
도 40은 고대역 인코더(A202)의 일 구현의 블록도를 나타낸다.
도 41은 이득 계수 평활화기(G80)의 일 구현(G82)의 블록도를 나타낸다.
도 42는 이득 계수 평활화기(G80)의 일 구현(G84)의 블록도를 나타낸다.
도 43a 및 43b는 계산된 편차 값의 진폭들로부터 평활화 계수값으로의 매핑들의 예들인 플롯들을 나타낸다.
도 44는 고대역 인코더(A202)의 일 구현(A206)의 블록도를 나타낸다.
도 45는 고대역 인코더(A200)의 일 구현(A207)의 블록도를 나타낸다.
도 46은 고대역 이득 계수 계산기(A235)의 블록도를 나타낸다.
도 47은 일 실시예에 따른 방법(FM10)의 순서도를 나타낸다.
도 48은 스칼라 양자화기(scalar quantizer)에 의해 일반적으로 수행되는 일-차원(one-dimensional) 매핑의 일례를 나타낸다.
도 49는 벡터 양자화기(vector quantizer)에 의해 수행되는 것과 같은 다차원(multidimensional) 매핑의 간략한 일례를 나타낸다.
도 50a는 일-차원 신호의 일례를 나타내고, 도 50b는 양자화 후의 본 신호의 버전(version)을 나타낸다.
도 50c는 도 52에 도시된 바와 같은 양자화기(435a)에 의해 양자화되는 것과 같은 상기 도 50a의 신호의 일례를 나타낸다.
도 50d는 도 53에 도시된 바와 같은 양자화기(435b)에 의해 양자화되는 것과 같은 상기 도 50a의 신호의 일례를 나타낸다.
도 51은 고대역 인코더(A202)의 일 구현(A208)의 블록도를 나타낸다.
도 52는 양자화기(435)의 일 구현(435a)의 블록도를 나타낸다.
도 53은 양자화기(435)의 일 구현(435b)의 블록도를 나타낸다.
도 54는 양자화기(435a) 및 양자화기(435b)의 추가적인 구현들에 포함되는 스케일 계수 계산 로직(scale factor calculation logic)의 일례인 블록도를 나타낸다.
도 55a는 일 실시예에 따른 방법(QM10)의 순서도를 나타낸다.
도 55b는 일 실시예에 따른 방법(QM20)의 순서도를 나타낸다.
도면들과 첨부된 실시예에서, 동일한 참조 부호들은 동일하거나 유사한 구성요소들 또는 신호들을 나타낸다.
여기 기술되는 실시예들은 협대역 스피치 코더에 확장(extension)을 제공하여 대략 단지 800 내지 1000 bps(초당 비트 수)의 대역폭 증가에서 광대역 스피치 신호들의 전송 및/또는 저장을 지원하도록 구성될 수 있는 시스템들, 방법들, 및 장치를 포함한다. 그러한 구현들의 잠재적 이점들은 협대역 시스템들과의 호환성을 지원하기 위한 내장형 코딩(embedded coding), 협대역 및 고대역(highband) 코딩 채널들 사이의 비트(bit)들의 용이한 할당 및 재할당, 계산 집약적인 광대역 합성 동작(wideband synthesis operation)의 회피, 및 계산 집약적인 파형 코딩 루틴(waveform coding routine)들에 의해 처리되는 신호들에 대한 낮은 샘플링 레이트를 유지하는 것을 포함한다.
문맥에 의해 명백히 한정되지 않는다면, 용어 "계산(calculating)"은 여기서, 계산, 발생(generating), 및 값들의 목록으로부터의 선택과 같은, 임의의 통상적인 의미들을 지시하는 것으로 이용된다. 본 실시예 및 청구의 범위에서 이용되는 어구 "포함하는"은, 다른 구성요소들 및 동작들을 배제하는 것이 아니다. 어구 "A는 B에 기초한다"는, (i) "A는 B와 동등하다" 및 (ii) "A는 적어도 B에 기초한다"의 경우를 포함하여, 통상의 의미들 중 임의의 것을 지시하는 것으로서 이용된다. 용어 "인터넷 프로토콜"은, IETF(Internet Engineering Task Force) RFC(Request for Comments) 791에 기술되는 것과 같은, 버전 4 및 버전 6과 같은 이후의 버전들을 포함한다.
도 1a는 일 실시예에 따른 광대역 스피치 인코더(A100)의 블록도를 나타낸다. 필터 뱅크(A110)는 광대역 스피치 신호(wideband speech signal)(S10)를 필터링하여 협대역(narrowband) 신호(S20) 및 고대역(highband) 신호(S30)를 생성하도록 구성된다. 협대역 인코더(A120)는 협대역 신호(S20)를 인코딩하여 협대역(NB) 필터 파라미터들(S40) 및 협대역 잔여(residual) 신호(S50)를 생성하도록 구성된다. 여기서 더 상세히 기술되는 바와 같이, 협대역 인코더(A120)는 일반적으로 협대역 필터 파라미터들(S40) 및 인코딩된 협대역 여기 신호(encoded narrowband excitation signal)(S50)를 코드북 인덱스들(codebook indices)로서 또는 다른 양 자화된 형태로 생성하도록 구성된다. 고대역 인코더(A200)는 인코딩된 협대역 여기 신호(S50) 내의 정보에 따라서 고대역 신호(S30)를 인코딩하여 고대역 코딩 파라미터들(S60)을 생성하도록 구성된다. 여기서 더 상세히 기술되는 바와 같이, 고대역 인코더(A200)는 일반적으로 고대역 코딩 파라미터들(S60)을 코드북 인덱스들로서 또는 다른 양자화된 형태로 생성하도록 구성된다. 광대역 스피치 인코더(A100)의 한가지 특정예는 약 8.55 kbps(초당 킬로비트)의 레이트로 광대역 스피치 신호(S10)를 인코딩하도록 구성되며, 약 7.55 kbps가 협대역 필터 파라미터들(S40) 및 인코딩된 협대역 여기 신호(S50)에 이용되고, 약 1 kbps가 고대역 코딩 파라미터들(S60)에 이용된다.
상기 인코딩된 협대역 및 고대역 신호들을 단일 비트스트림(bitstream)으로 결합하는 것이 요망될 수 있다. 예를 들어, 전송(예컨대, 유선, 광, 또는 무선 전송 채널을 통한) 또는 저장을 위해, 인코딩된 광대역 스피치 신호로서, 상기 인코딩된 신호들을 함께 다중화(multiplex)하는 것이 바람직할 수 있다. 도 1b는 협대역 필터 파라미터들(S40), 인코딩된 협대역 여기 신호(S50), 및 고대역 필터 파라미터들(S60)을 다중화된 신호(S70)로 결합하도록 구성되는 다중화기(multiplexer)(A130)를 포함하는 광대역 스피치 인코더(A100)의 일 구현(A102)의 블록도를 나타낸다.
인코더(A102)를 포함하는 장치는 다중화된 신호(S70)를 유선, 광, 또는 무선 채널과 같은 전송 채널들로 전송하도록 구성되는 회로를 포함할 수도 있다. 또한 그러한 장치는 에러 정정 인코딩(error correction encoding)(예컨대, 레이트-호환 컨벌루션 인코딩(rate-compatible convolutional encoding)) 및/또는 에러 검출 인코딩(예컨대 순환 중복 인코딩(cyclic redundancy encoding)), 및/또는 하나 이상의 네트워크 프로토콜 계층들 인코딩(예컨대, 이더넷, TCP/IP, cdma2000)과 같은, 하나 이상의 채널 인코딩 동작들을 상기 신호에 수행하도록 구성될 수도 있다.
다중화기(A130)가 상기 인코딩된 협대역 신호(협대역 필터 파라미터들(S40) 및 인코딩된 협대역 여기 신호(S50)를 포함)를 다중화된 신호(S70)의 분리가능한 서브스트림(substream)으로서 내장(embed)하도록 구성되어, 상기 인코딩된 협대역 신호가 고대역 및/또는 저대역(lowband) 신호와 같은 다중화된 신호(S70)의 다른 부분과 독립적으로 복구되고 디코딩될 수 있도록 하는 것이 바람직할 수 있다. 예를 들어, 다중화된 신호(S70)는 상기 인코딩된 협대역 신호가 상기 고대역 필터 파라미터들(S60)을 제거함으로써(strip away) 복구될 수 있도록 정렬될 수 있다. 그러한 특징의 한가지 잠재적 이점은 상기 협대역 신호의 디코딩을 지원하지만 상기 고대역 부분의 디코딩을 지원하지 않는 시스템에 인코딩된 광대역 신호를 전달하기 전에 그 광대역 신호를 트랜스코딩(transcode)할 필요성을 회피하는 것이다.
도 2a는 일 실시예에 따른 광대역 스피치 디코더(B100)의 블록도이다. 협대역 디코더(B110)는 협대역 필터 파라미터들(S40) 및 인코딩된 협대역 여기 신호(S50)를 디코딩하여 협대역 신호(S90)를 생성하도록 구성된다. 고대역 디코더(B200)는, 인코딩된 협대역 여기 신호(S50)에 기초하여, 협대역 여기 신호(S80)에 따라서 고대역 코딩 파라미터들(S60)을 디코딩하여 고대역 신호(S100)를 생성하도록 구성된다. 본 예시에서, 협대역 디코더(B100)는 협대역 여기 신호(S80)를 고 대역 디코더(B200)에 제공하도록 구성된다. 필터 뱅크(B120)는 협대역 신호(S90) 및 고대역 신호(S100)를 결합하여 광대역 스피치 신호(S110)를 생성하도록 구성된다.
도 2b는 다중화된 신호(S70)로부터 인코딩된 신호들(S40, S50, 및 S60)을 생성하도록 구성되는 역다중화기(demultiplexer)(B130)를 포함하는 광대역 스피치 디코더(B100)의 일 구현(B102)의 블록도이다. 디코더(B102)를 포함하는 장치는 유선, 광, 또는 무선 채널과 같은 전송 채널로부터 다중화된 신호(S70)를 수신하도록 구성되는 회로를 포함할 수 있다. 또한 그러한 장치는, 에러 정정 디코딩(error correction decoding)(예컨대, 레이트-호환 컨벌루션 디코딩) 및/또는 에러 검출 디코딩(예컨대, 순환 중복 디코딩), 및/또는 하나 이상의 네트워크 프로토콜 계층들 디코딩(예컨대, 이더넷, TCP/IP, cdma2000)과 같은, 하나 이상의 채널 디코딩 동작들을 상기 신호에 수행하도록 구성될 수도 있다.
필터 뱅크(A110)는 분할-대역(split-band) 방식에 따라서 입력 신호를 필터링하여 저주파 부대역(subband) 및 고주파 부대역을 생성하도록 구성된다. 특정 애플리케이션에 대한 설계 기준에 따라서, 출력 부대역들은 같거나 다른 대역폭들을 가질 수 있으며 겹치거나 겹치지 않을 수 있다. 또한 세 개 이상의 부대역들을 생성하는 필터 뱅크(A110)의 구성도 가능하다. 예를 들어, 그러한 필터 뱅크는 협대역 신호(S20)의 범위(50-300 Hz의 범위와 같은) 이하인 주파수 범위 내의 성분(component)들을 포함하는 하나 이상의 저대역 신호들을 생성하도록 구성될 수 있다. 또한 그러한 필터 뱅크가 고대역 신호(S30)의 성분(14-20, 16-20, 또는 16032 kHz와 같은) 이상의 주파수 범위의 성분들을 포함하는 하나 이상의 추가적인 고대역 신호들을 생성하도록 구성되는 것도 가능하다. 그러한 경우에는, 광대역 스피치 인코더(A100)는 이러한 신호 또는 신호들을 따로 인코딩하도록 구현될 수 있으며, 다중화기(A130)는 다중화된 신호(S70) 내의 추가적인 인코딩된 신호 또는 신호들을 포함하도록 구성될 수 있다(예컨대, 분리가능한 부분으로서).
도 3a는 감소된 샘플링 레이트(sampling rate)들을 갖는 두 개의 부대역 신호들을 생성하도록 구성되는 필터 뱅크(A110)의 일 구현(A112)의 블록도를 나타낸다. 필터 뱅크(A110)는 고주파(또는 고대역) 대역 및 저주파(또는 저대역) 부분을 갖는 광대역 스피치 신호(S10)를 수신하도록 배치된다. 필터 뱅크(A112)는 광대역 스피치 신호(S10)를 수신하고 협대역 스피치 신호(S20)를 생성하도록 구성되는 저대역 처리 경로(lowband processing path), 그리고 광대역 스피치 신호(S10)를 수신하고 고대역 스피치 신호(S30)를 생성하도록 구성되는 고대역 처리 경로(highband processing path)를 포함한다. 저역통과 필터(lowpass filter)(110)는 광대역 스피치 신호(S10)를 필터링하여 선택된 저주파 부대역을 통과시키며, 고역통과 필터(highpass filter)(130)는 광대역 스피치 신호(S10)를 필터링하여 선택된 고주파 부대역을 통과시킨다. 두 개의 부대역 신호들 모두가 광대역 스피치 신호(S10) 보다 더 많은 협 대역폭(narrow bandwidth)들을 갖기 때문에, 그 샘플링 레이트들은 정보의 손실 없이 어느 정도까지 감소될 수 있다. 다운샘플러(downsampler)(120)는 요구되는 데시메이션 계수(decimation factor)에 따라서 상기 저역통과 신호의 샘플링 레이트를 감소시키며(예컨대, 상기 신호의 샘플들을 제거 및/또는 샘플들을 평균 값들로 대체함으로써), 다운샘플러(140)는 마찬가지로 다른 요구되는 데시메이션 계수에 따라서 상기 고역통과 신호의 샘플링 레이트를 감소시킨다.
도 3b는 필터 뱅크(B120)의 대응하는 구현(B122)의 블록도를 나타낸다. 업샘플러(upsampler)(150)는 협대역 신호(S90)의 샘플링 레이트를 증가시키고(예컨대, 영-채우기(zero-stuffing) 및/또는 샘플들을 복제함으로써), 저역통과 필터(160)는 상기 업샘플링된 신호를 필터링하여 저대역 부분만을(예컨대, 앨리어싱(aliasing)을 방지하기 위해) 통과시킨다. 마찬가지로, 업샘플러(170)는 고대역 신호(S100)의 샘플링 레이트를 증가시키며 고역통과 필터(180)는 상기 업샘플링된 신호를 필터링하여 고대역 부분만을 통과시킨다. 그리고 나서 상기 두 개의 통과대역(passband) 신호들이 더해져서 광대역 스피치 신호(S110)를 형성한다. 디코더(B100)의 일부 구현들에서, 필터 뱅크(B120)는 고대역 디코더(B20)에 의해 수신 및/또는 계산되는 하나 이상의 가중치(weight)들에 따라 상기 두 개의 통과대역 신호들의 가중합(weighted sum)을 생성하도록 구성된다. 셋 이상의 통과대역 신호들을 결합하는 필터 뱅크(B120)의 구성도 고려된다.
상기 필터들(110, 130, 160, 180) 각각은 유한-임펄스-응답(FIR) 필터 또는 무한-임펄스-응답(IIR) 필터로서 구현될 수 있다. 인코더 필터들(110 및 130)의 주파수 응답들은 저지대역(stopband)과 통과대역 간에 대칭적인 또는 비유사하게 형성된 전이 영역(transition region)들을 가질 수 있다. 유사하게, 디코더 필터들(160 및 180)의 주파수 응답들은 저지대역 및 통과대역 간에 대칭적인 또는 비유사하게 형성된 전이 영역들을 가질 수 있다. 반드시 필요한 것은 아니지만, 저역통과 필터(110)가 저역통과 필터(160)와 동일한 응답을 갖고, 고역통과 필터(130)가 고역통과 필터(180)와 동일한 응답을 갖는 것이 바람직할 수 있다. 일례로, 상기 두 개의 필터 쌍들(110, 130 및 160, 180)은 직각 대칭 필터(quadrature mirror filter, QMF) 뱅크들이며, 필터 쌍(110, 130)은 필터 쌍(160, 180)과 동일한 계수(coefficient)들을 갖는다.
전형적인 예로, 저역통과 필터(110)는 300-3400 Hz의 제한된 PSTN 범위(예컨대, 0 내지 4 kHz의 대역)를 포함하는 통과대역을 갖는다. 도 4a 및 4b는 두 개의 상이한 구현 예들에서 광대역 스피치 신호(S10), 협대역 신호(S20), 및 고대역 신호(S30)의 상대적인 대역폭들을 나타낸다. 이러한 특정 예들 모두에 있어서, 광대역 스피치 신호(S10)는 16 kHz의 샘플링 레이트(0 내지 8 kHz의 범위 내의 주파수 성분들을 나타냄)를 가지며, 협대역 신호(S20)는 8 kHz의 샘플링 레이트(0 내지 4 kHz 범위 내의 주파수 성분들을 나타냄)를 갖는다.
도 4a의 예에서, 상기 두 개의 부대역들 간에 현저한 중첩(overlap)은 없다. 본 예시에 도시된 바와 같이 고대역 신호(S30)는 4-8 kHz의 통과대역을 갖는 고역통과 필터(130)를 이용하여 얻어진다. 그러한 경우에, 상기 필터링된 신호를 계수(factor) 2로 다운샘플링함으로써 상기 샘플링 레이트를 감소시키는 것이 바람직할 수 있다. 그러한 동작은, 상기 신호에 대한 추가적인 처리 동작들의 계산상의 복잡도를 현저하게 감소시킬 것으로 예상될 수 있으며, 상기 통과대역 에너지를 정보 손실 없이 0 내지 4 kHz의 범위로 낮추어 이동시킬 것이다.
도 4b의 대안적인 예시에서, 상부 및 하부 부대역들은 상당한 중첩을 가져서, 3.5 내지 4 kHz의 영역이 두 부대역 신호들 모두에 의해 나타난다. 본 예시에 있어서와 같이 고대역 신호(S30)는 3.5-7 kHz의 통과대역을 갖는 고역통과 필터(130)를 이용하여 얻어질 수 있다. 그러한 경우에, 상기 필터링된 신호를 계수 16/7로 다운샘플링함으로써 상기 샘플링 레이트를 7 kHz로 감소시키는 것이 바람직할 수 있다. 그러한 동작은, 상기 신호에 대한 추후의 처리 동작들의 계산 복잡도를 현저하게 감소시킬 것으로 예견될 수 있으며, 정보 손실 없이 상기 통과대역 에너지를 0 내지 3.5 kHz의 범위로 낮추어 이동시킬 것이다.
전화 통신용 일반적인 핸드셋에서, 하나 이상의 변환기(transducer)들(즉, 마이크로폰 및 이어피스 또는 확성기)은 7-8 kHz의 주파수 범위에 대해 감지가능한 응답이 결여된다. 도 4b의 예시에서, 7 및 8 kHz 사이의 광대역 스피치 신호(S10) 부분은 상기 인코딩된 신호에 포함되지 않는다. 고역통과 필터(130)의 다른 특정 예시들은 3.5-7.5 kHz 및 3.5-8 kHz의 통과대역들을 갖는다.
일부 구현에서, 도 4b의 예시들에서와 같이 부대역들 간의 중첩을 제공하는 것은 중첩된 영역에 대해 평활한 롤오프(rolloff)를 갖는 저역통과 및/또는 고역통과 필터를 이용하는 것을 가능하게 한다. 그러한 필터들은 일반적으로 설계하기에 더 용이하고, 계산상으로 덜 복잡하며, 그리고/또는 더 첨예(sharp)하거나 "브릭-월(brick-wall)" 응답들을 갖는 필터들보다 더 적은 지연을 초래한다. 첨예한 전이 영역들을 갖는 필터들은 평활한 롤오프들을 갖는 유사한 차수(order)의 필터들보다 더 높은 사이도로브(sidelobe)들(앨리어싱을 야기할 수 있음)을 갖는 경향이 있다. 또한 첨예한 전이 영역들을 갖는 필터들은 공명 아티팩트(ringing artifact)를 야기할 수 있는 긴 임펄스 응답들을 가질 수 있다. 하나 이상의 IIR 필터들을 갖는 필터 뱅크 구현들에 대해서, 상기 중첩된 영역에 대한 평활한 롤오프를 허용하는 것은 극(pole)들이 단위 원(unit circle)로부터 더 멀리 떨어진 필터 또는 필터들의 이용을 가능하게 하여주며, 이는 안정적인 고정-점(fixed-point) 구현을 보장하는데 중요할 수 있다.
부대역들의 중첩은 더 적은 가청 아티팩트들, 감소된 앨리어싱, 및/또는 하나의 대역으로부터 다른 대역으로의 더 적은 현저한 전이를 가져올 수 있는 저대역 및 고대역의 평활한 혼합(blending)을 가능하게 한다. 게다가, 협대역 인코더(A120)(예를 들어, 파형 코더)의 코딩 효율성은 주파수 증가에 따라 떨어질 수 있다. 예를 들어, 상기 협대역 코더의 코딩 품질은, 특히 배경 잡음의 존재 시, 낮은 비트율(bit rate)들로 감소될 수 있다. 그러한 경우들에 있어서, 상기 부대역들의 중첩을 제공하는 것은 상기 중첩된 영역들 내의 재생된 주파수 성분들의 품질을 증가시킬 수 있다.
게다가, 부대역들의 중첩은 더 적은 가청 아티팩트들, 감소된 앨리어싱, 및/또는 하나의 대역으로부터 다른 대역으로의 더 적은 현저한 전이를 가져올 수 있는 저대역 및 고대역의 평활한 혼합(blending)을 가능하게 한다. 그러한 특징은 협대역 인코더(A120) 및 고대역 인코더(A200)가 상이한 코딩 방법론들에 따라서 동작하는 구현에 대해서 특히 바람직할 수 있다. 예를 들어, 상이한 코딩 기술들은 상당히 달리 들리는 신호들을 생성할 수 있다. 코드북 인덱스들의 형태로 스펙트럼 엔벌로프를 인코딩하는 코더는 진폭 스펙트럼을 대신 인코딩하는 코더와 다른 음향(sound)을 갖는 신호를 생성할 수 있다. 시간-영역 코더(예컨대, 펄스-코드-변조, 즉 PCM 코더)는 주파수-영역 코더와 다른 음향을 갖는 신호를 생성할 수 있다. 상기 스펙트럼 엔벌로프의 상(representation)을 갖는 신호 및 대응하는 잔여 신호를 인코딩하는 코더는 스펙트럼 엔벌로프의 상만을 갖는 신호를 인코딩하는 코더와 다른 음향을 갖는 신호를 생성할 수 있다. 파형의 상(representation)으로서 신호를 인코딩하는 코더는 정현(sinusoidal) 코더로부터의 출력과는 다른 음향을 갖는 출력을 생성할 수 있다. 그러한 경우들에 있어서, 첨예한 전이 영역들을 갖는 필터들을 이용하여 비중첩 부대역들을 한정하는 것은 합성된 광대역 신호 내의 부대역들 간에 갑작스럽고 현저하게 지각할 수 있는 전이를 초래할 수 있다.
상보적인 중첩 주파수 응답들을 갖는 QMF 필터 뱅크들이 종종 부대역 기술들에 이용될지라도, 그러한 필터들은 여기 기술되는 적어도 일부의 광대역 코딩 구현들에는 부적합하다. 상기 인코더의 QMF 필터 뱅크는 상기 디코더의 대응하는 QMF 필터 뱅크에서 소거(cancel)되는 상당한 정도의 앨리어싱을 생성하도록 구성된다. 그러한 배치는 신호가 상기 필터 뱅크들 간에 상당한 양의 왜곡을 초래하는 애플리케이션에는 적절하지 않을 수 있는데, 이는 상기 왜곡이 앨리어스 소거 특성의 효율성을 감소시킬 수 있기 때문이다. 예를 들어, 여기 기술되는 애플리케이션들은 매우 낮은 비트율들로 동작하도록 구성되는 코딩 구현들을 포함한다. 상기 매우 낮은 비트율의 결과로, 디코딩된 신호는 본래 신호와 비교하여 현저히 왜곡되어 보일 것이며, 그리하여 QMF 필터 뱅크들을 이용하는 것은 소거되지 않은 앨리어싱을 초래할 수 있다. QMF 필터 뱅크들을 이용하는 애플리케이션들은 일반적으로 더 높은 비트율들(예컨대, AMR에 대해 12 kbps 이상, 및 G.722에 대해 64 kbps 이상)을 갖는다.
추가적으로, 코더는 상기 본래 신호와 유사하게 인식되지만 실제로는 상기 본래 신호와 현저히 다른 합성된 신호를 생성하도록 구성될 수 있다. 예를 들어, 여기 기술된 바와 같이 상기 협대역 잔여(residual)로부터 상기 고대역 여기를 유도하는 코더는 그러한 신호를 생성할 수 있는데, 이는 상기 실제 고대역 잔여가 상기 디코딩된 신호로부터 완전히 결여될 수 있기 때문이다. 그러한 애플리케이션들에서 QMF 필터 뱅크들을 이용하는 것은 소거되지 않은 앨리어싱에 의해 야기되는 상당한 정도의 왜곡을 초래할 수 있다.
QMF 앨리어싱에 의해 초래되는 왜곡의 양은 영향받은 부대역이 협소하다면 감소될 수 있는데, 이는 상기 앨리어싱의 효과가 상기 부대역의 폭과 동일한 대역폭으로 제한되기 때문이다. 그러나, 여기 기술되는 바와 같이 각각의 부대역이 상기 광대역 대역폭의 약 절반을 포함하는 예시들의 경우, 소거되지 않은 앨리어싱에 의해 초래되는 왜곡은 상기 신호의 상당 부분에 영향을 미칠 수 있다. 또한 상기 신호의 품질은 상기 소거되지 않은 앨리어싱이 발생하는 주파수 대역의 위치에 의해 영향받을 수도 있다. 예를 들어, 광대역 스피치 신호의 중심 근처에 생성되는 왜곡(예컨대, 3과 4 kHz 사이)은 상기 신호의 가장자리 근처(예컨대, 6 kHz 이상)에서 발생하는 왜곡보다 훨씬 더 거부감이 있을 수 있다.
QMF 필터 뱅크의 필터들의 응답들이 서로 엄밀히 관련되는 반면, 필터 뱅크 들(A110 및 B120)의 저대역 및 고대역 경로들은 상기 두 개의 부대역들의 중첩을 벗어나 완전히 관련되지 않은 스펙트럼들을 갖도록 구성될 수 있다. 우리는 상기 두 개의 부대역들의 중첩을 상기 고대역 필터의 주파수 응답이 -20 dB까지 떨어지는 포인트로부터 상기 저대역 필터의 주파수 응답이 -20 dB까지 떨어지는 포인트까지의 간격(distance)으로서 정의한다. 필터 뱅크들(A110 및/또는 B120)의 다양한 예시들에서, 본 중첩은 약 200 Hz 내지 약 1 kHz의 범위이다. 약 400 내지 약 600 Hz의 범위가 코딩 효율성 및 지각가능한(perceptual) 평활도(smoothness) 간의 바람직한 트레이드오프(tradeoff)를 나타낼 수 있다. 상기 언급한 한 가지 특정 예시에서, 상기 중첩은 약 500 Hz이다.
수개의 스테이지(stage)들에서 도 4a 및 4b에 도시된 바와 같은 동작들을 수행하는 필터 뱅크(A112 및/또는 B122)를 구현하는 것이 바람직할 수 있다. 예를 들어, 도 4c는 일련의 내삽(interpolation), 리샘플링(resampling), 데시메이션(decimation), 및 다른 동작들을 이용하여 고역통과 필터링 및 다운샘플링 동작들과 기능적으로 동등한 것을 수행하는 필터 뱅크(A112)의 일 구현(A114)의 블록도를 나타낸다. 그러한 구현이 설계에 더 용이할 수 있으며 그리고/또는 로직 및/또는 코드의 기능 블록들의 재사용을 허용할 수 있다. 예를 들어, 동일한 기능 블록이 도 4c에 도시된 14 kHz로의 데시메이션 및 7 kHz로의 데시메이션 동작들을 수행하는데 이용될 수 있다. 스펙트럼 반전(spectral reversal) 동작은 상기 신호를, +1 과 -1 간에 그 값들이 교번하는 함수 ejnπ 또는 시퀀스 (-1)n와 곱함으로써 구현될 수 있다. 스펙트럼 쉐이핑(spectral shaping) 동작은 상기 신호를 쉐이핑하여 요구되는 전체 필터 응답을 획득하도록 구성되는 저역통과 필터로서 구현될 수 있다.
상기 스펙트럼 반전 동작의 결과로서, 고대역 신호(S30)의 스펙트럼이 반전된다는 점에 유의하여야 한다. 상기 인코더 및 대응하는 디코더에서의 이후의 동작들은 그에 따라 구성될 수 있다. 예를 들어, 여기서 기술되는 바와 같은 고대역 여기 발생기(A300)는 또한 스펙트럼상 반전된 형태를 갖는 고대역 여기 신호(S120)를 생성하도록 구성될 수 있다.
도 4d는 일련의 내삽, 리샘플링, 및 다른 동작들을 이용하여 업샘플링 및 고역통과 필터링 동작과 기능상 동등한 것을 수행하는 필터 뱅크(B122)의 구현(B124)의 블록도를 나타낸다. 필터 뱅크(B124)는, 예를 들어, 필터 뱅크(A114)와 같은 인코더의 필터 뱅크 내에서 수행되는 바와 같은 유사한 동작을 반전(reverse)시키는 상기 고대역에서의 스펙트럼 반전 동작을 포함한다. 본 특정한 예시에서, 필터 뱅크(B124)는, 그러한 필터들이 선택적이며 포함될 필요가 없을지라도, 7100 Hz에서 상기 신호의 성분을 감쇠시키는 상기 저대역 및 고대역의 노치 필터(notch filter)를 포함할 수도 있다. 2006년 4월 3일에 특허 출원된 "스피치 신호 필터링을 위한 시스템, 방법, 및 장치(SYSTEMS, METHODS, AND APPARATUS FOR SPEECH SIGNAL FILTERING)"(대리인 관리 번호: 050551)는 필터 뱅크들(A110 및 B120)의 특정 구현들의 구성요소들의 응답들에 관련된 추가적인 기술내용 및 도면들을 포함하며, 본 문헌은 여기서 참조로써 통합된다.
협대역 인코더(A120)는 상기 입력 스피치 신호를 (A) 필터를 기술하는 한 세트의 파라미터들 및 (B) 상기 기술된 필터로 하여금 상기 입력 스피치 신호의 합성 재생(synthesized reproduction)을 생성하게 하는 여기 신호(excitation signal)로서 인코딩하는 소스-필터(source-filter) 모델에 따라서 구현된다. 도 5a는 스피치 신호의 스펙트럼 엔벌로프의 예를 나타낸다. 본 스펙트럼 엔벌로프를 특징짓는 피크(peak)들은 성도(聲道, vocal tract)의 공명(resonance)을 나타내며 포먼트(formant)들로써 불린다. 대부분의 스피치 코더들은 적어도 이러한 개략적인(coarse) 스펙트럼 구조를 필터 계수(filter coefficient)들과 같은 한 세트의 파라미터들로서 인코딩한다.
도 5b는 협대역 신호(S20)의 스펙트럼 엔벌로프의 코딩에 적용되는 것과 같은 기본 소스-필터 배치의 예를 나타낸다. 분석 모듈은 시간 주기(일반적으로 20 msec)에 걸친 스피치 음향에 대응하는 필터를 특징짓는 한 세트의 파라미터들을 계산한다. 그러한 필터 파라미터들에 따라서 구성되는 백색화 필터(whitening filter)(또한 분석 또는 예측 오차(error) 필터로도 지칭됨)는 상기 스펙트럼 엔벌로프를 제거하여 상기 신호를 스펙트럼상 평탄하게 한다. 결과적인 백색화된 신호(또한 잔여(residual) 신호로도 지칭됨)는 더 적은 에너지와 그에 따라 더 적은 편차(variance)를 가지며 본래의 스피치 신호에 비해 인코딩하기 용이하다. 또한 상기 잔여 신호의 코딩으로부터 초래되는 오차들은 상기 스펙트럼에 걸쳐 더 고르게 확산될 수도 있다. 상기 필터 파라미터들 및 잔여(residual)들은 일반적으로 상기 채널에 대한 효율적인 전송을 위해 양자화된다. 디코더에서, 상기 필터 파라미터들에 따라 구성되는 합성 필터(synthesis filter)는 상기 잔여 신호에 기초하는 신호에 의해 여기되어 상기 본래 스피치 음향의 합성 버전을 생성한다. 일반적으로 상기 합성 필터는 상기 백색화 필터의 전달 함수의 역(inverse) 전달함수를 갖도록 구성된다.
도 6은 협대역 인코더(A120)의 기본 구현(A122)의 블록도를 나타낸다. 본 예시에서, 선형 예측 코딩(linear prediction coding, LPC) 분석 모듈(210)은 협대역 신호(S20)의 스펙트럼 엔벌로프를 선형 예측(linear prediction, LP) 계수들(예컨대, 올-폴(all-pole) 필터 1/A(z)의 계수들)의 세트로서 인코딩한다. 일반적으로 상기 분석 모듈은 상기 입력 신호를, 각각의 프레임에 대해 계산되는 계수들의 새로운 세트를 갖는 비중첩 프레임들의 시리즈(series)로서 처리한다. 상기 프레임 주기는 일반적으로 상기 신호가 국부적으로 고정되는(stationary) 것으로 예상될 수 있는 주기이다; 한 가지 흔한 예는 20 밀리초(millisecond)(8 kHz인 샘플링 레이트에서 160개의 샘플들에 상당함)이다. 일례로, LPC 분석 모듈(210)은 열 개의 LP 필터 계수들의 세트를 계산하여 각각의 20-밀리초 프레임의 포먼트(formant) 구조를 특성화하도록 구성된다. 또한 상기 입력 신호를 일련의 중첩 프레임들로서 처리하는 분석 모듈을 구현하는 것도 가능하다.
상기 분석 모듈은 각 프레임의 샘플들을 직접적으로 분석하도록 구성될 수 있거나, 또는 상기 샘플들은 윈도윙 함수(windowing function)(예를 들어, 해밍(Hamming) 윈도우)에 따라서 먼저 가중(weight)될 수 있다. 또한 상기 분석은, 30-msec 윈도우와 같이, 상기 프레임보다 더 큰 윈도우에 걸쳐 수행될 수도 있다. 이러한 윈도우는 대칭(예컨대, 5-20-5로, 그리하여 상기 20-밀리초 프레임 전후에 즉시 5 밀리초를 포함하도록) 또는 비대칭(예컨대, 10-20으로, 그리하여 선행 프레임의 최종 10 밀리초를 포함하도록)일 수 있다. LPC 분석 모듈은 일반적으로 레빈슨-더빈 회귀(Levinson-Durbin recursion) 또는 르루-게겐(Leroux-Gueguen) 알고리듬을 이용하여 상기 LP 필터 계수들을 계산하도록 구성된다. 다른 구현에서, 상기 분석 모듈은 LP 필터 계수들의 세트 대신 각 프레임에 대해 켑스트럼 계수(cepstral coefficient)들의 세트를 계산하도록 구성될 수 있다.
인코더(A120)의 출력 레이트는, 상기 필터 파라미터들을 양자화함으로써, 재생(reproduction) 품질에 상대적으로 거의 영향을 미치지 않고, 현저하게 감소될 수 있다. 선형 예측 필터 계수들은 효율적으로 양자화하기 어려우며, 통상 양자화 및/또는 엔트로피 인코딩(entropy encoding)을 위해, 선 스펙트럼 쌍(line spectral pair, LSP)들 또는 선 스펙트럼 주파수(line spectral frequency, LSF)들과 같은 다른 상(representation)으로 매핑된다. 도 6의 예시에서, LP 필터 계수-LSF 변환(LP filter coefficient-to-LSF transform)(220)은 LP 필터 계수들의 세트를 LSF들의 대응하는 세트로 변환한다. 다른 LP 필터 계수들의 일-대-일 상(representation)들은 파코(parcor) 계수들; 로그-영역-비(log-area-ratio) 값들; 이미턴스 스펙트럼 쌍(immittance spectral pair, ISP)들; 및 이미턴스 스펙트럼 주파수(immittance spectral frequency, ISF)들을 포함하며, 이는 GSM(Global System for Mobile Communications) AWR-WB(Adaptive Multirate-Wideband) 코덱에서 이용된다. 일반적으로 LP 필터 계수들의 세트와 LSF들의 대응하는 세트 간의 변환은 가역적(reversible)이지만, 실시예들은 상기 변환이 오류없이 가역적이지 않은 인코더(A120)의 구현들을 포함할 수도 있다.
양자화기(230)는 협대역 LSF들(또는 다른 계수 상들)의 세트를 양자화하도록 구성되며, 협대역 인코더(A122)는 이러한 양자화의 결과를 협대역 필터 파라미터들(S40)로서 출력하도록 구성된다. 그러한 양자화기는 일반적으로 상기 입력 벡터를 테이블 또는 코드북 내의 대응하는 벡터 엔트리(entry)에 대한 인덱스로서 인코딩하는 벡터 양자화기를 포함한다.
도 6에 도시된 바와 같이, 또한 협대역 인코더(A122)는 협대역 신호(S20)를 필터 계수들의 세트에 따라 구성되는 백색화 필터(260)(또한 분석 또는 예측 오차 필터로도 지칭됨)를 통과시킴으로써 잔여 신호를 발생시킨다. 본 특정 예시에서, IIR 구현들도 이용될 수 있을지라도, 백색화 필터(260)는 FIR 필터로서 구현된다. 이러한 잔여 신호는 일반적으로, 협대역 필터 파라미터들(S40)에서 표현되지 않는, 피치(pitch)에 관련된 장기(long-term) 구조와 같은, 스피치 프레임의 지각적으로(perceptually) 중요한 정보를 포함할 것이다. 양자화기(270)는 출력에 대한 이러한 잔여 신호의 양자화된 상(representation)을 인코딩된 협대역 여기 신호(S50)로서 계산하도록 구성된다. 그러한 양자화기는 일반적으로 상기 입력 벡터를 테이블 또는 코드북 내의 대응하는 벡터 엔트리에 대한 인덱스로서 인코딩하는 벡터 양자화기를 포함한다. 대안적으로, 그러한 양자화기는, 희소(sparse) 코드북 방법내에서와 같이 스토리지로부터 검색되기보다는, 상기 벡터가 상기 디코더에서 동적으로 발생될 수 있는 하나 이상의 파라미터들을 전송하도록 구성될 수 있다. 그러한 방법은 대수(algebraic) CELP(codebook excitation linear prediction)와 같은 코딩 방식들 및 3GPP2(Third Generation Partnership 2) EVRC(Enhanced Variable Rate Code)와 같은 코덱들에서 이용된다.
협대역 인코더(A120)가 대응하는 협대역 디코더에 이용가능할 동일한 필터 파라미터 값들에 따라 인코딩된 협대역 여기 신호를 발생시키는 것이 바람직하다. 이러한 방식으로, 결과적인 인코딩된 협대역 여기 신호는 이미 양자화 오차와 같은, 그러한 파라미터 값들에 있어서의 비이상성(nonideality)들을 어느 정도 설명할 수 있다. 따라서, 상기 디코더에서 이용가능할 동일한 계수 값들을 이용하여 상기 백색화 필터를 구성하는 것이 바람직하다. 도 6에 도시된 바와 같은 인코더(A122)의 기본 예시에서, 역 양자화기(inverse quantizer)(240)는 협대역 코딩 파라미터들(S40)을 역양자화(dequantize)하고, LSF-LP 필터 계수 변환(LSF-to-LP filter coefficient transform)(250)은 상기 결과적인 값들을 다시 LP 필터 계수들의 대응하는 세트로 매핑하며, 계수들의 이러한 세트는 양자화기(270)에 의해 양자화되는 상기 잔여 신호를 발생시키는 백색화 필터(260)를 구성하는데 이용된다.
협대역 인코더(A120)의 일부 구현들은 상기 잔여 신호와 가장 잘 정합(match)되는 코드북 벡터들의 세트 중에서 하나를 식별함으로써 인코딩된 협대역 여기 신호(S50)를 계산하도록 구성된다. 그러나, 협대역 인코더(A120)가 실제로 상기 잔여 신호를 발생시키지 않고 상기 잔여 신호의 양자화된 상(representation)을 계산하도록 구현될 수도 있음에 유의하여야 한다. 예를 들어, 협대역 인코더(A120)는 다수의 코드북 벡터들을 이용하여 대응하는 합성된 신호들을 발생시키고(예컨대, 필터 파라미터들의 현재 세트에 따라서), 지각적으로 가중된 영역(perceptually weighted domain) 내의 본래의 협대역 신호(S20)와 가장 잘 정합(match)되는 발생된 신호와 관련된 코드북 벡터를 선택하도록 구성될 수 있다.
도 7은 협대역 디코더(B110)의 구현(B112)의 블록도를 나타낸다. 역 양자화기(inverse quantizer)(310)는 협대역 필터 파라미터들(S40)을 역양자화(dequantize)(이 경우에는, LSF들의 세트로)하며, LSF-LP 필터 계수 변환(320)은 상기 LSF들을 필터 계수들의 세트로(예를 들어, 역 양자화기(240) 및 협대역 인코더(A122)의 변환(250)을 참조로 상기 기술된 바와 같이) 변환한다. 역 양자화기(340)는 협대역 잔여 신호(S40)를 역양자화하여 협대역 여기 신호(S80)를 생성한다. 상기 필터 계수들 및 협대역 여기 신호(S80)에 기초하여, 협대역 합성 필터(narrowband synthesis filter)(330)는 협대역 신호(S90)를 합성한다. 달리 말하면, 협대역 합성 필터(330)는 상기 역양자화된 필터 계수들에 따라서 협대역 여기 신호(S80)를 스펙트럼상에서 쉐이핑(shape)하여 협대역 신호(S90)를 생성하도록 구성된다. 또한 협대역 디코더(B112)는 협대역 여기 신호(S80)를 고대역 인코더(A200)에 제공하며, 이는 협대역 여기 신호를 이용하여 여기 기술되는 바와 같이 상기 고대역 여기 신호(S120)를 유도한다. 이하에 기술되는 바와 같은 일부 구현들에서, 협대역 디코더(B110)는, 스펙트럼 틸트(spectral tilt), 피치 이득 및 래그(pitch gain and lag), 및 스피치 모드와 같은, 협대역 신호에 관련되는 추가적인 정보를 고대역 디코더(B200)에 제공하도록 구성될 수 있다.
협대역 인코더(A122) 및 협대역 디코더(B112)의 시스템은 분석/합성(analysis-by-synthesis) 스피치 코덱의 기본 예시이다. 코드북 여기 선형 예측(CELP) 코딩은 분석/합성 코딩(analysis-by-synthesis coding)의 한가지 인기있는 일족(family)이며, 그러한 코더들의 구현들은, 고정 및 적응형(adaptive) 코드북들로부터의 엔트리들의 선택으로서 그러한 동작들, 오류 최소화 동작들, 및/또는 지각적인 가중(perceptual weighting) 동작들을 포함하여, 상기 잔여의 파형 인코딩을 수행할 수 있다. 분석/합성 코딩의 다른 구현들은 혼합 여기 선형 예측(mixed excitation linear prediction, MELP), 대수 CELP(algebraic CELP, ACELP), 완화 CELP(relaxation CELP, RCELP), 정규 펄스 여기(regular pulse excitation, RPE), 다중-펄스 CELP(multi-pulse CELP, MPE), 및 벡터-합 여기 선형 예측(vector-sum excited linear prediction, VSELP) 코딩을 포함한다. 관련된 코딩 방법들은 다중-대역 여기(multi-band excitation, MBE) 및 원형 파형 내삽(prototype waveform interpolation, PWI) 코딩을 포함한다. 표준화된 분석/합성 스피치 코덱들의 예들은 ETSI(European Telecommunications Standards Institute)-GSM 풀 레이트 코덱(full rate codec)(GSM 06.10)을 포함하며, 이는 잔여 여기 선형 예측(residual excited linear prediction, RELP); GSM 개선 풀 레이트 코덱(GSM enhanced full rate codec)(ETSI-GSM 06.60); ITU(국제 전기통신 연합) 표준 11.8 kb/s G.729 부록(Annex) E 코더; IS-136(시-분할 다중 접속 방식)용 IS(잠정 표준(Interim Standard))-641 코덱들; GSM 적응형 다중레이트(GSM-AMR) 코덱들; 및 4GVTM(Fourth-Generation VocoderTM) 코덱(콸콤 인코포레이티드, 샌 디에고, 캘리포니아)를 이용한다. 협대역 인코더(A120) 및 대응하는 디코더(B110)는 이러한 기술들 중 임의의 것에 따라서 구현될 수 있거나, 또는 스피치 신호를 (A) 피터를 기술하는 파라미터들의 세트 및 (B) 상기 기술된 필터를 유도하여 상기 스피치 신호를 재생하는데 이용되는 여기 신호로서 나타내는 임의의 다른 스피치 코딩 기술(공지되거나 아니면 개발되어야 할 것이거나)에 따라서 구현될 수 있다.
상기 백색화 필터가 상기 개략적인(coarse) 스펙트럼 엔벌로프를 협대역 신호(S20)로부터 제거한 후에라도, 상당한 양의 정밀한 고조파(harmonic) 구조가, 특히 유성 스피치(voiced speech)에 대해, 남아 있을 수 있다. 도 8a는 모음과 같은 유성음 신호(voiced signal)에 대해, 백색화 필터에 의해 생성될 수 있는 것과 같은, 잔여 신호의 일례의 스펙트럼 플롯을 나타낸다. 본 예시에서 보여지는 주기적 구조는 피치(pitch)에 관련되며, 동일한 화자(speaker)에 의해 발화되는 상이한 유성 음향들은 상이한 포먼트 구조들을 갖지만 유사한 피치 구조들을 가질 수 있다. 도 8b는 시간상으로 피치 펄스들의 시퀀스를 나타내는 그러한 잔여 신호의 예시의 시간-영역 플롯을 나타낸다.
코딩 효율성 및/또는 스피치 품질은 상기 피치 구조의 특성들을 인코딩하는 하나 이상의 파라미터 값들을 이용함으로써 증가될 수 있다. 상기 피치 구조의 한가지 중요한 특징은 제 1 고조파의 주파수(또한 기본 주파수(fundamental frequency)라고도 칭함)이며, 이는 일반적으로 60 내지 400 Hz의 범위에 있다. 이 특징은 일반적으로 상기 기본 주파수의 역(inverse)으로서 코딩되며, 또한 피치 래그(pitch lag)로 칭해진다. 상기 피치 래그는 하나의 피치 주기 내의 샘플들의 개수를 지시하며 하나 이상의 코드북 인덱스들로서 인코딩될 수 있다. 남성 화자로부터의 스피치 신호들은 여성 화자들의 스피치 신호들보다 더 큰 피치 래그들을 갖는 경향이 있다.
상기 피치 구조에 관련된 다른 신호 특성은 주기성(periodicity)이며, 이는 상기 고조파 구조의 강도 또는, 달리 말하면, 상기 신호가 고조파 또는 비고조파인 정도를 지시한다. 주기성의 두 가지 일반적인 척도들은 영점 교차(zero crossing)들 및 정규화된 자기상관 함수(normalized autocorrelation function, NACF)들이다. 또한 주기성은 피치 이득(pitch gain)에 의해 지시될 수 있으며, 이는 흔히 코드북 이득(예컨대, 양자화된 적응형 코드북 이득)으로서 인코딩된다.
협대역 인코더(A120)는 협대역 신호(S20)의 장기(long-term) 고조파 구조를 인코딩하도록 구성되는 하나 이상의 모듈들을 포함할 수 있다. 도 9에 도시된 바와 같이, 이용될 수 있는 한 가지 전형적인 CELP 패러다임은 개-루프(open-loop) LPC 분석 모듈을 포함하며, 이는 상기 단기 특성들 또는 개략적인 스펙트럼 엔벌로프를 인코딩하며, 폐-루프 장기 예측 분석 스테이지가 이어지고, 이는 정밀(fine) 피치 또는 고조파 구조를 인코딩한다. 상기 단기 특징들은 필터 계수들로서 인코딩되며, 상기 장기 특징들은 피치 래그 및 피치 이득과 같은 파라미터들에 대한 값들로서 인코딩된다. 예를 들어, 협대역 인코더(A120)는 하나 이상의 코드북 인덱스들(예컨대, 고정 코드북 인덱스 및 적응형 코드북 인덱스) 및 대응하는 이득 값들을 포함하는 형태로 인코딩된 협대역 여기 신호(S50)를 출력하도록 구성될 수 있다. 상기 협대역 잔여 신호의(예컨대, 양자화기(270)에 의한) 이러한 양자화된 상(representation)의 계산은 그러한 인덱스들을 선택하는 것과 그러한 값들을 계산하는 것을 포함할 수 있다. 또한 상기 피치 구조의 인코딩은 피치 원형 파형의 내삽(interpolation)을 포함할 수 있으며, 이 동작은 연속적인 피치 펄스들 간의 차이를 계산하는 것을 포함할 수 있다. 장기 구조의 모델링은 무성(unvoiced) 스피치에 대응하는 프레임들에 대해서는 불능화(disable)될 수 있으며, 이는 일반적으로 노이즈-형 및 비구조적(unstructured) 이다.
도 9에 도시된 바와 같은 패러다임에 따른 협대역 디코더(B110)의 구현은 상기 장기 구조(피치 또는 고조파 구조)가 복구된 후에 협대역 여기 신호(S80)를 고대역 디코더(B20)로 출력하도록 구성될 수 있다. 예를 들어, 그러한 디코더는 협대역 여기 신호(S80)를 인코딩된 협대역 여기 신호(S50)의 역양자화된 버전으로서 출력하도록 구성될 수 있다. 물론, 고대역 디코더(B200)가 인코딩된 협대역 여기 신호(S50)의 역양자화를 수행하여 협대역 여기 신호(S80)를 얻도록 협대역 디코더(B110)를 구현하는 것도 가능하다.
도 9에 도시된 바와 같은 패러다임에 따른 광대역 스피치 인코더(A100)의 구현에 있어서, 고대역 인코더(A200)는 상기 단기 분석 또는 백색화 필터에 의해 생성된 것과 같은 협대역 여기 신호를 수신하도록 구성될 수 있다. 달리 말하면, 협대역 인코더(A120)는 상기 장기 구조를 인코딩하기 전에 상기 협대역 여기 신호를 고대역 인코더(A200)로 출력하도록 구성될 수 있다. 그러나, 고대역 인코더(A200)가 협대역 채널로부터 고대역 디코더(B200)에 의해 수신될 것과 동일한 코딩 정보를 수신하는 것이, 고대역 인코더(A200)에 의해 생성된 코딩 파라미터들이 이미 상기 정보 내의 비이상성(nonideality)들을 어느 정도 설명할 수 있게 되어 바람직하다. 따라서 고대역 인코더(A200)가 광대역 스피치 인코더(A100)에 의해 출력되는 동일한 파라미터화 및/또는 양자화된 인코딩된 협대역 여기 신호(S50)로부터 협대역 여기 신호(S80)를 재구성하는 것이 바람직할 수 있다. 이러한 방식의 한 가지 잠재적 이점은 이하에 기술되는 고대역 이득 계수(highband gain factor)들(S60b)의 더 정확한 계산이다.
협대역 신호(S20)의 단기 및/또는 장기 구조를 특징짓는 파라미터들에 추가하여, 협대역 인코더(A120)는 협대역 신호(S20)의 다른 특징들에 관련되는 파라미터 값들을 생성할 수 있다. 이러한 값들은, 광대역 스피치 인코더(A100)에 의한 출력을 위해 적절히 양자화될 수 있으며, 상기 협대역 필터 파라미터들(S50) 사이에 포함되거나 별도로 출력될 수 있다. 또한 고대역 인코더(A200)는 하나 이상의 이러한 추가적 파라미터들(예컨대, 역양자화 이후)에 따라서 고대역 코딩 파라미터들(S60)을 계산하도록 구성될 수 있다. 광대역 스피치 디코더(B100)에서, 고대역 디코더(B200)는 협대역 디코더(B110)를 통해 상기 파라미터를 수신하도록 구성될 수 있다(예컨대 역양자화 이후에). 대안적으로, 고대역 디코더(B200)는 상기 파라미터 값들을 직접 수신(그리고 가능하게는 역양자화)하도록 구성될 수 있다.
추가적인 협대역 코딩 파라미터들의 일례로, 협대역 인코더(A120)는 스펙트럼 틸트(spectral tilt)에 대한 값들 및 각 프레임에 대한 스피치 모드 파라미터들 을 생성한다. 스펙트럼 틸트는 통과대역에 대한 스펙트럼 엔벌로프의 형태(shape)에 관련되며 일반적으로 양자화된 제 1 반사 계수(quantized first reflection coefficient)에 의해 표현된다. 대부분의 유성 음향들에 대해, 스펙트럼 에너지는 주파수가 증가할수록 감소하여, 상기 제 1 반사 계수는 음수이며 -1에 접근할 수 있다. 대부분의 무성 음향들은 평평(flat)한 스펙트럼을 가져서, 상기 제 1 반사 계수가 영(0)에 근접하거나, 또는 높은 주파수들에서 더 많은 에너지를 가져서, 상기 제 1 반사 계수가 양수이며 +1에 접근할 수 있다.
스피치 모드(speech mode)(또한 발성 모드(voicing mode)로도 칭함)는 현재 프레임이 유성 또는 무성 스피치인지를 지시한다. 본 파라미터는, 측정치(measure) 및 임계치(threshold value)간의 관계와 같은, 상기 프레임에 대한 주기성 및/또는 음성 활성도(voice activity)의 하나 이상의 측정치(measure)들(예컨대, 영점 교차(zero crossing), NACF들, 피치 이득)에 기초하는 이진 값을 가질 수 있다. 다른 구현들로, 상기 스피치 모드 파라미터는 침묵(silence) 또는 배경 잡음(background noise)과 같은 모드들, 또는 침묵과 유성 스피치 간의 전이와 같은 모드들을 지시하는 하나 이상의 다른 상태들을 갖는다.
고대역 인코더(A200)는 소스-필터(source-filter) 모델에 따라서 고대역 신호(S30)를, 인코딩된 협대역 여기 신호에 기초하는 이러한 필터에 대한 여기로서 인코딩하도록 구성된다. 도 10은 고대역 필터 파라미터들(S60a) 및 고대역 이득 계수들(S60b)을 포함하는 고대역 코딩 파라미터들(S60)의 스트림(stream)을 생성하도록 구성되는 고대역 인코더(A200)의 일 구현(A202)의 블록도를 나타낸다. 고대역 여기 발생기(A300)는 인코딩된 협대역 여기 신호(S50)로부터 고대역 여기 신호(S120)를 유도한다. 분석 모듈(A210)은 고대역 신호(S30)의 스펙트럼 엔벌로프를 특징짓는 파라미터의 세트를 생성한다. 본 특정 예시에서, 분석 모듈(A210)은 LPC 분석을 수행하여 고대역 신호(S30)의 각 프레임에 대해 한 세트의 LP 필터 계수들을 생성하도록 구성된다. 선형 예측 필터 계수-LSF 변환(linear prediction filter coefficient-to-LSF transform)(410)은 상기 LP 필터 계수들의 세트를 LSF들의 대응하는 세트로 변환한다. 분석 모듈(210) 및 변환(220)을 참조로 상기 지적한 바와 같이, 분석 모듈(A210) 및/또는 변환(410)은 다른 계수 세트들(예컨대 켑스트럼 계수들(cepstral coefficient)) 및/또는 계수 상(coefficient representation)들(예컨대, ISP들)을 이용하도록 구성될 수 있다.
양자화기(420)는 고대역 LSF들(또는, ISP들과 같은, 다른 계수 상)의 세트를 양자화하도록 구성되며, 고대역 인코더(A202)는 본 양자화의 결과를 고대역 필터 파라미터들(S60a)로서 출력하도록 구성된다. 그러한 양자화기는 일반적으로 입력 벡터를 테이블 또는 코드북 내의 대응하는 벡터 엔트리에 대한 인덱스로서 인코딩하는 벡터 양자화기(vector quantizer)를 포함한다.
또한 고대역 인코더(A202)는 고대역 여기 신호(S120) 및 분석 모듈(A210)에 의해 생성된 상기 인코딩된 스펙트럼 엔벌로프(예컨대, LP 필터 계수들의 세트)에 따라서 합성된 고대역 신호(S130)를 생성하도록 구성되는 합성 필터(synthesis filter)(A220)를 포함한다. FIR 구현들이 이용될 수 있을지라도, 합성 필터(A220)는 일반적으로 IIR 필터로서 구현된다. 특정 예시로, 합성 필터(A220)는 6-차 선 형 자기회귀 필터(sixth-order linear autoregressive filter)로서 구현된다.
고대역 이득 계수 계산기(A230)는 본래의 고대역 신호(S30) 및 합성된 고대역 신호(S130) 간의 하나 이상의 차이들을 계산하여 상기 프레임에 대한 이득 엔벌로프를 상술한다. 입력 벡터를 테이블 또는 코드북 내의 대응하는 벡터 엔트리에 대한 인덱스로서 인코딩하는 벡터 양자화기로서 구현될 수 있는, 양자화기(430)는 이득 엔벌로프를 특정(specify)하는 값 또는 값들을 양자화하며, 고대역 인코더(A202)는 이러한 양자화의 결과를 고대역 이득 계수들(S60b)로서 출력하도록 구성된다.
도 10에 도시된 바와 같은 구현에서, 합성 필터(A220)는 분석 모듈(A210)로부터의 필터 계수들을 수신하도록 배치된다. 고대역 인코더(A202)의 대안적인 구현은 상기 필터 계수들을 고대역 필터 파라미터들(S60a)로부터 디코딩하도록 구성되는 역 양자화기 및 역 변환을 포함하며, 이 경우 합성 필터(A220)는 상기 디코딩된 필터 계수들을 대신 수신하도록 배치된다. 그러한 대안적인 배치는 고대역 이득 계산기(A230)에 의한 이득 엔벌로프의 더 정확한 계산을 지원할 수 있다.
하나의 특정 예시로, 분석 모듈(A210) 및 고대역 이득 계산기(A230)는 프레임 당 여섯 개의 LSF들의 세트 및 다섯 개의 이득 값들의 세트를 각각 출력하여, 상기 협대역 신호(S20)의 광대역 확장이 프레임 당 단 11 개의 추가적인 값들만으로 이뤄질 수 있다. 청각은 고 주파수들인 주파수 오차들에 덜 민감하여, 낮은 LPC 차수에서의 고대역 코딩이 높은 LPC 차수에서의 협대역 코딩에 대해 필적하는 지각(perceptual) 품질을 갖는 신호를 생성할 수 있다. 고대역 인코더(A220)의 일반적 구현은 스펙트럼 엔벌로프의 고-품질 재구성을 위해 프레임 당 8 내지 12 비트들 및 시간 엔벌로프의 고-품질 재구성을 위해 프레임 당 다른 8 내지 12 비트들을 출력하도록 구성될 수 있다. 다른 특정 예시로, 분석 모듈(A210)은 프레임 당 8 개의 LSF들의 세트를 출력한다.
고대역 인코더(A200)의 일부 구현들은 고대역 주파수 성분들을 포함하는 랜덤 잡음 신호(random noise signal)를 발생시키고 협대역 신호(S20), 협대역 여기 신호(S80), 또는 고대역 신호(S30)의 시간-영역 엔벌로프에 따라서 잡음 신호를 진폭-변조시킴으로써 고대역 여기 신호(S120)를 생성하도록 구성된다. 그러나, 그러한 잡음-기반 방법(noise-based method)이 무성 음향들에 대해 적절한 결과들을 산출할 수 있는 반면, 그 잔여(residual) 신호들이 통상 고조파이며 결과적으로 일부 주기적 구조를 갖는 유성 음향들에 대해서는 바람직하지 않을 수 있다.
고대역 여기 발생기(highband excitation generator)(A300)는 협대역 여기 신호(S80)의 스펙트럼을 고대역 주파수 범위로 확장함으로써 고대역 여기 신호(S120)를 발생시키도록 구성된다. 도 11은 고대역 여기 발생기(A300)의 일 구현(A302)의 블록도를 나타낸다. 역 양자화기(450)는 인코딩된 협대역 여기 신호(S50)를 역양자화하여 협대역 여기 신호(S80)를 생성하도록 구성된다. 스펙트럼 확장기(spectrum extender)(A400)는 협대역 여기 신호(S80)에 기초하여 고조파적으로 확장된 신호(harmonically extended signal)(S160)를 생성하도록 구성된다. 결합기(combiner)(470)는 변조된 잡음 신호(S170)를 생성하기 위해 잡음 발생기(480)에 의해 발생된 랜덤 잡음 신호(random noise signal)(S80)와 엔벌로프 계산기(envelope calculator)(460)에 의해 계산되는 시간-영역 엔벌로프를 결합하도록 구성된다. 결합기(490)는 고조파적으로 확장된 신호(S60)와 변조된 잡음 신호(S170)를 혼합하여 고대역 여기 신호(S120)를 생성하도록 구성된다.
일례로, 스펙트럼 확장기(A400)는 협대역 여기 신호(S80) 상에 스펙트럼 접힘(spectral folding) 동작(또한 미러링(mirroring)으로도 호칭됨)을 수행하여 고조파적으로 확장된 신호(S160)를 생성하도록 구성된다. 스펙트럼 접힘(spectral folding)은 여기 신호(S80)를 제로-스터핑(zero-stuffing)하고서 고역통과 필터를 적용하여 앨리어스를 유지함으로써 수행될 수 있다. 다른 예로, 스펙트럼 확장기(A400)는 협대역 여기 신호(S80)를 고대역으로 스펙트럼상 전이(spectrally translate) 시킴으로써 고조파적으로 확장된 신호(S160)를 생성하도록 구성된다.
스펙트럼 접힘 및 전이 방법들은 그 고조파 구조가 위상 및/또는 주파수에 있어서 협대역 여기 신호(S80)의 본래의 고조파 구조와 불연속적인, 스펙트럼 확장된 신호들을 생성할 수 있다. 예를 들어, 그러한 방법들은 일반적으로 기본 주파수의 배수(multiple)들에 위치하지 않는 피크(peak)들을 갖는 신호들을 생성할 수 있으며, 이는 재구성된 스피치 신호에서 울림이 없이 소리나는(tinny-sounding) 아티팩트(artifact)들을 야기할 수 있다. 또한 이러한 방법들은 부자연스럽게 강한 음색 특성들을 갖는 고주파 고조파들을 생성하는 경향이 있다. 게다가, PSTN 신호는 8 kHz로 샘플링되지만 3400 Hz 이하로 대역폭이 제한될 수 있기 때문에, 협대역 여기 신호(S80)의 상위 스펙트럼은 에너지를 거의 또는 아예 포함하지 않을 수 있어서, 스펙트럼 접힘 또는 스펙트럼 전이 동작에 따라서 생성된 확장 신호는 3400 Hz 위에서 스펙트럼 틈을 가질 수 있다.
고조파적으로 확장된 신호(S160)를 발생시키는 다른 방법들은 하나 이상의 협대역 여기 신호(S80)의 기본 주파수들을 식별하는 단계 및 상기 정보에 따라서 고조파 톤들을 발생시키는 단계를 포함한다. 예를 들어, 여기 신호의 고조파 구조는 진폭 및 위상 정보와 함께 상기 기본 주파수에 의해 특징지워 질 수 있다. 고대역 여기 발생기(A300)의 다른 구현은 상기 기본 주파수 및 진폭(예를 들어, 피치 래그 및 피치 이득에 의해 지시되는 바와 같이)에 기초하여 고조파적으로 확장된 신호(S160)를 발생시킨다. 그러나, 상기 고조파적으로 확장된 신호가 협대역 여기 신호(S80)와 위상-코히어런트(phase-coherent)하지 않으면, 결과적인 디코딩된 스피치의 품질은 허용불가능할 수 있다.
비선형 함수를 이용하여 상기 협대역 여기와 위상-코히어런트한 고대역 여기 신호를 생성하고 위상 불연속(phase discontinuity) 없이 고조파 구조를 보존할 수 있다. 또한 비선형 함수는 고주파 고조파들 간의 증가된 잡음 레벨을 제공할 수 있으며, 이는 스펙트럼 접힘 및 스펙트럼 전이와 같은 방법들에 의해 생성된 음의 고주파 고조파들보다 더 자연스럽게 들리는 경향이 있다. 스펙트럼 확장기(A400)의 다양한 구현들에 의해 적용될 수 있는 일반적인 메모리리스(memoryless) 비선형 함수들은 절대 값 함수(absolute value function)(또한 전파 정류(fullwave rectification)라고 호칭됨), 반파 정류, 스퀘어링(squaring), 큐빙(cubing), 및 클리핑(clipping)을 포함한다. 스펙트럼 확장기(A400)의 다른 구현들은 메모리(memory)를 갖는 비선형 함수를 적용하도록 구성될 수 있다.
도 12는 비선형 함수를 적용하여 협대역 여기 신호(S80)의 스펙트럼을 확장하도록 구성되는 스펙트럼 확장기(A400)의 일 구현(A402)의 블록도이다. 업샘플러(510)는 협대역 여기 신호(S80)를 업샘플링하도록 구성된다. 상기 신호를 충분히 업샘플링하여 상기 비선형 함수의 적용시 앨리어싱을 최소화하는 것이 바람직할 수 있다. 특정한 일례로, 업샘플러(510)는 상기 신호를 계수(factor) 8로 업샘플링한다. 업샘플러(510)는 상기 입력 신호를 제로-스터핑하고 그 결과를 저역통과 필터링함으로써 상기 업샘플링 동작을 수행하도록 구성될 수 있다. 비선형 함수 계산기(520)는 비선형 함수를 상기 업샘플링된 신호에 적용하도록 구성된다. 스퀘어링과 같은, 스펙트럼 확장을 위한 다른 비선형 함수들에 비해 절대 값 함수의 한가지 잠재적 이점은, 에너지 정규화(energy normalization)가 불필요하다는 것이다. 일부 구현들에서, 상기 절대 값 함수는 각 샘플의 부호 비트(sign bit)를 스트리핑(strip) 또는 클리어링(clear)함으로써 효율적으로 적용될 수 있다. 또한 비선형 함수 계산기(520)는 상기 업샘플링되거나 스펙트럼적으로 확장된 신호의 진폭 왜곡(amplitude warping)을 수행하도록 구성될 수 있다.
다운샘플러(530)는 상기 비선형 함수를 적용한 상기 스펙트럼 확장 결과를 다운샘플링하도록 구성된다. 다운샘플러(530)가 상기 샘플링 레이트를 감소시키기 전에(예를 들어, 원치않는 이미지에 의한 앨리어싱 또는 변조(corruption)를 감소 또는 회피하기 위해) 대역통과 필터링 동작을 수행하여 상기 스펙트럼 확장 신호의 요구되는 주파수 대역을 선택하는 것이 바람직할 수 있다. 또한 다운샘플러(530)가 둘 이상의 스테이지에서 상기 샘플링 레이트를 감소시키는 것이 바람직할 수도 있다.
도 12a는 스펙트럼 확장 동작의 일례에서 다양한 포인트들에서의 신호 스펙트럼들을 도시하는 다이어그램이며, 여기서 상기 주파수 스케일은 다양한 플롯들에 걸쳐 동일하다. 플롯(a)은 협대역 여기 신호(S80)의 일례의 스펙트럼을 나타낸다. 플롯(b)은 신호(S80)가 계수 8로 업샘플링된 후의 스펙트럼을 나타낸다. 플롯(c)은 비선형 함수 적용 후의 확장된 스펙트럼의 예를 도시한다. 플롯(d)은 저역통과 필터링 후의 스펙트럼을 도시한다. 본 예시에서, 통과대역은 고대역 신호(S30)의 상한 주파수 한계로 확장된다(예컨대, 7 kHz 또는 8 kHz).
플롯(e)은 다운샘플링의 제 1 스테이지 이후의 스펙트럼을 도시하며, 여기서 샘플링 레이트는 계수 4로써 감소되어 광대역 신호를 획득한다. 플롯(f)은 상기 확장된 신호의 고대역 부분을 선택하기 위한 고역통과 필터링 동작 후의 스펙트럼을 나타내며, 플롯(g)은 다운샘플링의 제 2 스테이지 후의 스펙트럼을 나타내고, 여기서 샘플링 레이트는 계수 2로써 감소된다. 특정한 일례로, 다운샘플러(530)는 광대역 신호를 고역통과 필터(130) 및 필터 뱅크(A112)를 통과시켜 고대역 신호(S30)의 샘플링 레이트 및 주파수 범위를 갖는 스펙트럼 확장 신호를 생성함으로써 상기 고역통과 필터링 및 다운샘플링의 제 2 스테이지를 수행한다.
플롯(g)에서 알 수 있는 바와 같이, 플롯(f)에 도시된 고역통과 신호의 다운샘플링은 그 스펙트럼의 반전을 일으킨다. 본 예시에서, 다운샘플러(530)는 또한 상기 신호에 스펙트럼 플리핑(flipping) 동작을 수행하도록 구성된다. 플롯(h)은 상기 스펙트럼 플리핑 동작을 적용한 결과를 나타내며, 이는 상기 신호를 그 값들이 +1 과 -1 간에 교번하는 함수 ejnπ 또는 시퀀스(-1)n 와 곱함으로써 수행될 수 있다. 그러한 동작은 주파수 영역 내의 상기 신호의 디지털 스펙트럼을 간격(distance) π만큼 시프트(shift)하는 것과 동일하다. 또한 다른 순서로 상기 다운샘플링 및 스펙트럼 플리핑 동작들을 적용함으로써 동일한 결과가 얻어질 수 있다는 점을 유의하여야 한다. 또한 업샘플링 및/또는 다운샘플링 동작들은 고대역 신호(S30)의 샘플링 레이트(예컨대, 7 kHz)를 갖는 스펙트럼 확장 신호를 획득하기 위한 리샘플링(resampling)을 포함하도록 구성될 수도 있다.
상기 지적한 바와 같이, 필터 뱅크들(A110 및 B120)은 상기 협대역 및 고대역 신호들(S20, S30) 중 하나 또는 모두가 필터 뱅크(A110)의 출력에서 스펙트럼 반전 형태(spectrally reversed form)를 가지고, 상기 스펙트럼 반전된 형태로 인코딩 및 디코딩되며, 광대역 스피치 신호(S110)로 출력되기 전에 필터 뱅크(B120)에서 다시 스펙트럼 반전되도록 구현될 수 있다. 그러한 경우에, 물론, 도 12a에 도시된 바와 같은 스펙트럼 플리핑 동작은 필수적이 아닐 것이며, 이는 고대역 여기 신호(S120)도 마찬가지로 스펙트럼 반전된 형태를 갖는 것이 바람직할 것이기 때문이다.
스펙트럼 확장기(A402)에 의해 수행되는 바와 같은 스펙트럼 확장 동작의 업샘플링 및 다운샘플링의 다양한 태스크들은 많은 다른 방법들로 구성되고 배치될 수 있다. 예를 들어, 도 12b는 스펙트럼 확장 동작의 다른 예에 있어서 다양한 포인트들에서의 신호 스펙트럼들을 나타내는 다이어그램이며, 여기서 상기 주파수 스케일은 다양한 플롯들에 걸쳐서 동일하다. 플롯(a)은 협대역 여기 신호(S80)의 일례인 스펙트럼을 도시한다. 플롯(b)은 신호(S80)가 계수 2로써 업샘플링된 후의 스펙트럼을 도시한다. 플롯(c)은 비선형 함수의 적용 후의 확장된 스펙트럼의 예를 도시한다. 이 경우, 더 높은 주파수들에서 발생할 수 있는 앨리어싱이 용인된다.
플롯(d)은 스펙트럼 반전 동작 후의 스펙트럼을 나타낸다. 플롯(e)은 단일 스테이지의 다운샘플링 후의 스펙트럼을 도시하며, 여기서 샘플링 레이트는 계수 2로써 감소되어 요구되는 스펙트럼 확장 신호를 얻는다. 본 예시에서, 상기 신호는 스펙트럼 반전 형태이며 그러한 형태로 고대역 신호(S30)를 처리한 고대역 인코더(A200)의 구현에 이용될 수 있다.
비선형 함수 계산기(520)에 의해 생성된 상기 스펙트럼 확장 신호는 주파수가 증가함에 따라 진폭에 있어서 뚜렷한 감소를 가질 것이다. 스펙트럼 확장기(A402)는 상기 다운샘플링된 신호에 백색화 동작(whitening operation)을 수행하도록 구성되는 스펙트럼 평탄화기(spectral flattener)(540)를 포함한다. 스펙트럼 평탄화기(540)는 고정(fixed) 백색화 동작을 수행하거나 또는 적응형(adaptive) 백색화 동작을 수행하도록 구성될 수 있다. 적응형 백색화의 특정 예시로, 스펙트럼 평탄화기(540)는 상기 다운샘플링된 신호로부터 4개의 필터 계수들의 세트를 계산하도록 구성되는 LPC 분석 모듈 및 그러한 계수들에 따라서 상기 신호를 백색화하도록 구성되는 4-차 분석 필터(fourth-order analysis filter)를 포함한다. 스펙트럼 확장기(A400)의 다른 구현들은 스펙트럼 평탄화기(540)가 다운샘플러(530) 에 앞서 상기 스펙트럼 확장 신호에 작용하는 구성들을 포함한다.
고대역 여기 발생기(A300)는 고조파적으로 확장된 신호(S160)를 고대역 여기 신호(S120)로서 출력하도록 구성된다. 그러나, 일부의 경우에, 고조파적으로 확장된 신호만을 상기 고대역 여기 신호로서 이용하는 것은 가청 아티팩트(audible artifact)들을 초래할 수 있다. 일반적으로 스피치의 고조파 구조는 저대역에서보다 고대역에서 덜 뚜렷하며, 고대역 여기 신호에서 너무 많은 고조파 구조를 이용하는 것은 윙윙거리는 소리(buzzy sound)를 초래할 수 있다. 이러한 아티팩트는 여성 화자들의 스피치 신호들에서 특히 두드러질 수 있다.
실시예들은 고조파적으로 확장된 신호(S160)를 잡음 신호와 혼합하는 고대역 여기 발생기(A300)의 구현들을 포함한다. 도 11에 도시된 바와 같이, 고대역 여기 발생기(A302)는 랜덤 잡음(random noise) 신호를 생성하도록 구성되는 잡음 발생기(480)를 포함한다. 일 예시로, 다른 구현들에서 잡음 신호가 백색(white) 신호일 필요가 없으며 주파수에 따라 변하는 전력 밀도(power density)를 가질 수 있을지라도, 잡음 발생기(480)는 단위-분산 백색 의사랜덤 잡음 신호(unit-variance white pseudorandom noise signal)를 생성하도록 구성된다. 잡음 발생기(480)는 상기 잡음 신호를 결정적 함수(deterministic function)로서 출력하여 그 상태가 디코더에서 중복(duplicate)될 수 있도록 구성되는 것이 바람직할 수 있다. 예를 들어, 잡음 발생기(480)는 상기 잡음 신호를, 협대역 필터 파라미터들(S40) 및/또는 인코딩된 협대역 여기 신호(S50)와 같은, 동일한 프레임 내에서 먼저 코딩된 정보의 결정적 함수로서 출력하도록 구성될 수 있다.
고조파적으로 확장된 신호(S160)와 혼합되기 전에, 잡음 발생기(480)에 의 해 생성된 상기 랜덤 잡음 신호는 진폭-변조되어 협대역 신호(S20), 고대역 신호(S30), 협대역 여기 신호(S80), 또는 고조파적으로 확장된 신호(S160)의 시간에 대한 에너지 분포를 근사(approximate)하는 시간-영역 엔벌로프를 가질 수 있다. 도 11에 도시된 바와 같이, 고대역 여기 발생기(A302)는 엔벌로프 계산기(460)에 의해 계산된 시간-영역 엔벌로프에 따라서 잡음 발생기(480)에 의해 생성된 잡음 신호를 진폭-변조하도록 구성되는 결합기(470)를 포함한다. 예를 들어, 결합기(470)는 엔벌로프 계산기(460)에 의해 계산되는 상기 시간-영역 엔벌로프에 따라서 잡음 발생기(480)의 출력을 스케일링(scale)하여 변조된 잡음 신호(S170)를 생성하도록 배치되는 곱셈기(multiplier)로서 구현될 수 있다.
도 13의 블록도에 도시된 바와 같이, 고대역 여기 발생기(A302)의 구현(A304)으로서, 엔벌로프 계산기(460)는 고조파적으로 확장된 신호(S160)의 엔벌로프를 계산하도록 배치된다. 도 14의 블록도에 도시된 바와 같이, 고대역 여기 발생기(A302)의 구현(A306)으로서, 엔벌로프 계산기(460)는 협대역 여기 신호(S80)의 엔벌로프를 계산하도록 배치된다. 다른 방법으로 고대역 여기 발생기(A302)의 추가적인 구현들은 협대역 피치 펄스(narrowband pitch pulse)의 시간 위치들에 따라서 고조파적으로 확장된 신호(S160)에 잡음을 부가하도록 구성될 수 있다.
엔벌로프 계산기(460)는 엔벌로프 계산을 일련의 서브태스크들을 포함하는 태스크로서 수행하도록 구성될 수 있다. 도 15는 그러한 태스크의 일례(T100)의 순서도를 나타낸다. 서브태스크(T110)는 엔벌로프가 모델링될 신호(예를 들어, 협 대역 여기 신호(S80) 또는 고조파적으로 확장된 신호(S160))의 프레임의 각 샘플의 제곱(square)을 계산하여 제곱 값들의 시퀀스를 생성한다. 서브태스크(T120)는 제곱 값들의 시퀀스에 평활화 동작을 수행한다. 일례로, 서브태스크(T120)는 1-차 IIR 저역통과 필터를 다음의 표현에 따라 상기 시퀀스에 적용하며
y(n)=ax(n)+(1-a)y(n-1), (1)
여기서 x는 필터 입력이고, y는 필터 출력이고, n은 시간-영역 인덱스이며, a는 0.5와 1 사이의 값을 갖는 평활화 계수(smoothing coefficient)이다. 상기 평활화 계수 a의 값은 고정적일 수 있거나 또는, 대안적 구현으로, a가 잡음이 없을 때 1에 가깝고 잡음이 있을 때는 0.5에 가깝도록, 상기 입력 신호 내의 잡음 지시에 따라서 적응적일 수 있다. 서브태스크(T130)는 제곱근(square root) 함수를 상기 평활화된 시퀀스의 각 샘플에 적용하여 시간-영역 엔벌로프를 생성한다.
그러한 엔벌로프 계산기(460)의 구현은 직렬 및/또는 병렬 방식으로 태스크(T100)의 다양한 서브태스크들을 수행하도록 구성될 수 있다. 태스크(T100)의 추가적인 구현들로, 서브태스크(T100)에 앞서, 3-4 kHz의 범위와 같이, 엔벌로프가 모델링될 신호의 요구되는 주파수 부분을 선택하도록 구성되는 대역통과 동작이 먼저 일어날 수 있다.
결합기(490)는 고조파적으로 확장된 신호(S160) 및 변조된 잡음 신호(S170)를 혼합하여 고대역 여기 신호(S120)를 생성하도록 구성된다. 결합기(490)의 구현들은, 예를 들어, 고대역 여기 신호(S120)를 고조파적으로 확장된 신호(S160) 및 변조된 잡음 신호(S170)의 합으로서 계산하도록 구성될 수 있다. 결합기(490)의 그러한 구현은 상기 합산 전에 가중 계수(weighting factor)를 고조파적으로 확장된 신호(S160) 및/또는 변조된 잡음 신호(S170)에 적용함으로써 고대역 여기 신호(S120)를 가중합(weighted sum)으로서 계산하도록 구성될 수 있다. 그러한 각각의 가중 계수는 하나 이상의 기준에 따라서 계산될 수 있으며 고정 값 또는, 대안적으로, 프레임마다 또는 서브프레임마다 계산되는 적응 값일 수 있다.
도 16은 고대역 여기 신호(S120)를 고조파적으로 확장된 신호(S160) 및 변조된 잡음 신호(S170)의 가중합으로서 계산하도록 구성되는 결합기(490)의 구현(492)의 블록도를 나타낸다. 결합기(492)는 고조파 가중 계수(harmonic weighting factor)(S180)에 따라서 고조파적으로 확장된 신호(S160)를 가중하고, 잡음 가중 계수(noise weighting factor)(S190)에 따라서 변조된 잡음 신호(S170)를 가중하고, 그리고 고대역 여기 신호(S120)를 상기 가중된 신호들의 합으로서 출력하도록 구성된다. 본 예시에서, 결합기(492)는 고조파 가중 계수(S180) 및 잡음 가중 계수(S190)를 계산하도록 구성되는 가중 계수 계산기(weighting factor calculator)(550)를 포함한다.
가중 계수 계산기(550)는 고대역 여기 신호(S120) 내의 고조파 성분-대-잡음 성분의 요구되는 비율에 따라서 가중 계수들(S180 및 S190)을 계산하도록 구성될 수 있다. 예를 들어, 결합기(492)가 고대역 신호(S30)와 유사한 고조파 에너지-대-잡음 에너지의 비율을 갖는 고대역 여기 신호(S120)를 생성하는 것이 바람직할 수 있다. 가중 계수 계산기(550)의 일부 구현들로, 가중 계수들(S180, S190)은, 피치 이득 및/또는 스피치 모드와 같은, 협대역 신호(S20) 또는 협대역 잔여 신호의 주기성에 관련되는 하나 이상의 파라미터들에 따라서 계산된다. 그러한 가중 계수 계산기(550)의 구현은 상기 피치 이득에 비례하는 고조파 가중 계수(S180)에 값을 할당하거나, 예를 들어, 그리고/또는 유성 스피치 신호들에 대해서보다는 무성 스피치 신호들에 대한 잡음 가중 계수(S190)에 더 높은 값을 할당하도록 구성될 수 있다.
다른 구현들로, 가중 계수 계산기(550)는 고대역 신호(S30)의 주기성 측정치에 따라서 고조파 가중 계수(S180) 및/또는 잡음 가중 계수(S190)에 대한 값들을 계산하도록 구성된다. 한 가지 그러한 예시로, 가중 계수 계산기(550)는 고조파 가중 계수(S180)를 현재의 프레임 또는 서브프레임에 대한 고대역 신호(S30)의 자기상관(autocorrelation) 계수의 최대값으로서 계산하며, 여기서 자기상관은 1 피치 래그(one pitch lag)를 포함하고 제로 샘플(zero sample)들의 지연을 포함하지 않는 탐색 범위(search range)에 걸쳐 수행된다. 도 17은 1 피치 래그의 지연 근처에 중심이 있으며 1 피치 래그보다 크지 않은 폭을 갖는 길이 n 샘플들의 탐색 범위와 같은 예시들을 나타낸다.
또한 도 17은 가중 계수 계산기(550)가 수개의 스테이지들에서 고대역 신호(S30)의 주기성의 측정치를 계산하는 다른 방식의 예시를 나타낸다. 제 1 스테이지에서, 현재 프레임은 다수의 서브프레임들로 분할되며, 상기 자기상관 계수가 최대인 지연은 각각의 서브프레임에 대해 별도로 식별된다. 전술한 바와 같이, 자기상관은 1 피치 래그의 지연을 포함하고 제로 샘플들의 지연을 포함하지 않는 탐색 범위에 걸쳐 수행된다.
제 2 스테이지에서, 지연된 프레임은 상기 대응하는 식별된 지연을 각각의 서브프레임에 적용하고, 그 결과적인 서브프레임들을 연관시켜 최적으로 지연된 프레임을 구성하며, 고조파 가중 계수(S180)를 본래의 프레임과 상기 최적으로 지연된 프레임 간의 상관 계수(correlation coefficient)로서 계산함으로써 구성된다. 다른 대안으로, 가중 계수 계산기(550)는 고조파 가중 계수(s180)를 각 프레임에 대해 상기 제 1 스테이지에서 획득된 최대 자기상관 계수들의 평균으로서 계산한다. 또한 가중 계수 계산기(550)의 구현들은 상기 상관 계수를 스케일링하거나(scale), 및/또는 이를 다른 값과 결합하여 고조파 가중 계수(180)에 대한 상기 값을 계산하도록 구성될 수도 있다.
상기 프레임 내의 주기성의 존재가 달리 지시되는 경우들에 있어서 고대역 신호(S30)의 주기성의 측정치를 가중 계수 계산기(550)가 계산하는 것이 바람직할 수 있다. 예를 들어, 가중 계수 계산기(550)는 피치 이득과 같은, 현재 프레임의 주기성의 다른 지시자(indicator)와 임계치(threshold value) 간의 관계에 따라서 고대역 신호(S30)의 주기성 측정치를 계산하도록 구성될 수 있다. 일례로, 가중 계수 계산기(550)는 상기 프레임의 피치 이득(예컨대 협대역 잔여(residual)의 적응형 코드북 이득(adaptive codebook gain))이 0.5보다 큰(대안적으로, 적어도 0.5인) 값을 갖는 경우에만 고대역 신호(S30)에 자기상관 동작을 수행하도록 구성된다. 다른 예시로, 가중 계수 계산기(550)는 스피치 모드의 특정한 상태(state)들을 갖는 프레임들에 대해서만(예컨대 유성 신호들에 대해서만) 고대역 신호(S30)에 자기상관 동작을 수행하도록 구성된다. 그러한 경우들에 있어서, 가중 계수 계산 기(550)는 스피치 모드의 다른 상태들 및/또는 더 낮은 피치 이득 값들을 갖는 프레임들에 대해서 디폴트(default) 가중 계수를 할당하도록 구성될 수 있다.
실시예들은 주기성 외의 또는 주기성에 추가적인 특징들에 따라서 가중 계수들을 계산하도록 구성되는 가중 계수 계산기(550)의 추가적인 구현들을 포함한다. 예를 들어, 그러한 구현은 작은 피치 래그를 갖는 스피치 신호들보다 큰 피치 래그를 갖는 스피치 신호들에 대해서 더 높은 값을 잡음 이득 계수(S190)에 할당하도록 구성될 수 있다. 그러한 가중 계수 계산기(550)의 다른 구현은, 다른 주파수 성분들의 신호의 에너지에 대한 기본 주파수의 배수들인 신호의 에너지의 측정치에 따라서, 광대역 스피치 신호(S10) 또는 고대역 신호(S30)의 조화도(harmonicity)의 측정치를 결정하도록 구성된다.
광대역 스피치 인코더(A100)의 일부 구현들은 상기 피치 이득 및/또는 여기 기술되는 바와 같은 주기성이나 조화도(harmonicity)의 다른 측정치에 기초하여 주기성 또는 조화도(harmonicity)의 지시(예컨대, 상기 프레임이 고조파 또는 비고조파임을 지시하는 1-비트 플래그)를 출력하도록 구성된다. 일례로, 대응하는 광대역 스피치 디코더(B100)는 이러한 지시를 이용하여 가중 계수 계산과 같은 동작을 구성한다. 다른 예로, 그러한 지시는 스피치 모드 파라미터에 대한 값을 계산하는데 있어서 인코더 및/또는 디코더에서 이용된다.
고대역 여기 발생기(A302)는 여기 신호의 에너지가 가중 계수들(S180 및 S190)의 특정 값들에 의해 실질적으로 영향받지 않도록 고대역 여기 신호(S120)를 발생시키는 것이 바람직할 수 있다. 그러한 경우에, 가중 계수 계산기(550)는 고 조파 가중 계수(harmonic weighting factor)(S180) 또는 잡음 가중 계수(S190)에 대한 값을 계산(또는 스토리지나 고대역 인코더(A200)의 다른 구성요소로부터 그러한 값을 수신)하고 다음과 같은 표현에 따라서 다른 가중 계수에 대한 값을 유도하도록 구성될 수 있다
(W harmonic )2+(W noise )2 = 1, (2)
여기서 Wharmonic 은 고조파 가중 계수(S180)를 나타내고 Wnoise 는 잡음 가중 계수(S190)를 나타낸다. 대안적으로, 가중 계수 계산기(550)는, 현재 프레임 또는 서브프레임에 대한 주기성 측정치의 값에 따라서, 가중 계수들(S180, S190)의 복수의 쌍들 중에서 대응하는 하나를 선택하도록 구성될 수 있으며, 여기서 상기 쌍들은 표현(2)과 같은 상수-에너지 비율을 만족시키도록 미리 계산된다. 표현(2)이 유지되는 가중 계수 계산기(550)의 구현을 위해, 고조파 가중 계수(S190)의 일반적인 값들은 약 0.1 내지 약 0.7 까지의 범위이다. 가중 계수 계산기(550)의 다른 구현들은 고조파적으로 확장된 신호(S160)와 변조된 잡음 신호(S170) 사이의 요구되는 기준 가중(baseline weighting)에 따라서 수정되는 표현(2)의 버전에 따라서 동작하도록 구성될 수 있다.
희소 코드북(엔트리들이 대부분 제로 값들인 것)이 이용되어 상기 잔여(residual)들의 양자화된 상(representation)을 계산할 때 합성된 스피치 신호에 아티팩트들이 일어날 수 있다. 코드북 희소(sparseness)는 특히 협대역 신호가 낮은 비트 레이트로 인코딩될 때 발생한다. 코드북 희소에 의해 야기되는 아티팩트 들은 통상 시간적으로 의사-주기적(quasi-periodic)이며 대부분 3 kHz 이상에서 발생한다. 인간의 귀가 더 높은 주파수들에서 더 나은 시간 분해능(resolution)을 갖기 때문에, 이러한 아티팩트들은 고대역에서 더 두드러질 수 있다.
실시예들은 반-희소(anti-sparseness) 필터링을 수행하도록 구성되는 고대역 여기 발생기(A30)의 구현들을 포함한다. 도 18은 역 양자화기(450)에 의해 생성되는 역양자화된 협대역 여기 신호를 필터링하도록 배치되는 반-희소 필터(600)를 포함하는 고대역 여기 발생기(A302)의 일 구현(A312)의 블록도를 나타낸다. 도 19는 스펙트럼 확장기(A400)에 의해 생성된 스펙트럼 확장 신호를 필터링하도록 배치되는 반-희소 필터(600)를 포함하는 고대역 여기 발생기(A302)의 일 구현(A314)의 블록도를 나타낸다. 도 20은 고대역 여기 신호(S120)를 생성하는 결합기(490)의 출력을 필터링하도록 배치되는 반-희소 필터(600)를 포함하는 고대역 여기 발생기(A302)의 일 구현(A316)의 블록도를 나타낸다. 물론, 임의의 구현들(A304 및 A306)의 특징들과 임의의 구현들(A312, A314, 및 A316)의 특징들을 조합한 고대역 여기 발생기(A300)의 구현들이 고려되어 그 결과로 명시적으로 개시된다. 또한 반-희소 필터(600)가 스펙트럼 확장기(A400) 내부에 배치될 수도 있다: 예를 들어, 스펙트럼 확장기(A402) 내의 임의의 구성요소들(510, 520, 530, 및 540) 뒤에서, 반-희소 필터(600)는 스펙트럼 접힘(spectral folding), 스펙트럼 전이(spectral translation), 또는 고조파 확장(harmonic extension)을 수행하는 스펙트럼 확장기(A400)의 구현들과 함께 이용될 수도 있다.
반-희소 필터(600)는 입력 신호의 위상을 변경하도록 구성될 수 있다. 예를 들어, 반-희소 필터(600)는, 고대역 여기 신호(S120)의 위상이 랜덤화(randomize)되거나, 아니면 시간에 따라, 더 균일하게 분포되도록 구성 및 배치되는 것이 바람직할 수 있다. 또한 필터링된 신호의 크기 스펙트럼이 감지할 수 있을 정도로 변경되지 않도록, 반-희소 필터(600)의 응답이 스펙트럼상으로 평평(flat)한 것이 바람직할 수도 있다. 일례로, 반-희소 필터(600)는 다음의 표현에 따른 전달 함수를 갖는 전역-통과(all-pass) 필터로서 구현된다:
그러한 필터의 한가지 효과는 입력 신호의 에너지를 퍼지게 하여 더 이상 단 몇개의 샘플들에 집중되지 않게 할 수 있다는 점이다.
코드북 희소(sparseness)에 의해 야기되는 아티팩트들은 통상적으로 잡음-유형의 신호들(여기서 잔여(residual)는 피치 정보를 덜 포함함)과, 또한 배경 잡음이 있는 스피치에 대해 더 현저하다. 일반적으로 희소는 여기(excitation)가 장기(long-term) 구조를 갖는 경우들의 아티팩트들을 덜 야기하며, 사실상 위상 변경(phase modification)은 유성 신호들 내의 잡음(noisiness)을 야기할 수 있다. 따라서 반-희소 필터(600)가 무성 신호들을 필터링하고 변경 없이 적어도 유성 신호들을 통과시키는 것이 바람직할 수 있다. 무성 신호들은 낮은 피치 이득(예컨대, 양자화된 협대역 적응형 코드북 이득) 및 영(zero) 또는 양수(positive)에 가까운 스펙트럼 틸트(spectral tilt)(예컨대, 양자화된 제 1 반사 계수(first reflection coefficient)에 의해 특징 지워지며, 이는 평평하거나 주파수가 증가함에 따라 위로 기울어지는 스펙트럼 엔벌로프를 나타낸다. 반-희소 필터의 일반적인 구현들은 무성 음향(예컨대, 스펙트럼 틸트의 값에 의해 지시되는 바와 같은)들을 필터링하고, 피치 이득이 임계치보다 낮을 때(대안적으로, 상기 임계치보다 크지 않을 때) 유성 음향들을 필터링하며, 그렇지 않으면 변경없이 신호를 통과시키도록 구성된다.
반-희소 필터(600)의 추가적 구현들은 상이한 최대 위상 변경 각들(예컨대 최대 180도 까지의)을 갖도록 구성되는 둘 이상의 필터들을 포함한다. 그러한 경우에, 반-희소 필터(600)는 피치 이득(예컨대, 양자화된 적응형 코드북 또는 LTP 이득)의 값에 따라서 이러한 컴포넌트 필터들 중에서 선택하도록 구성될 수 있어서, 더 큰 최대 위상 변경 각들이 더 낮은 피치 이득 값들을 갖는 프레임들에 이용된다. 또한 반-희소 필터(600)의 구현은 다소의 주파수 스펙트럼에 걸쳐 위상을 변경하도록 구성되는 상이한 컴포넌트 필터들을 포함할 수 있어서, 입력 신호의 더 넓은 범위의 주파수에 걸쳐 위상을 변경하도록 구성되는 필터가 더 낮은 피치 이득 값들을 갖는 프레임들에 이용된다.
인코딩된 스피치 신호의 정확한 재생을 위해, 합성된 광대역 스피치 신호(S100)의 고대역 및 저대역 부분들의 레벨들이 본래의 광대역 스피치 신호(S10)와 유사하게 되는 것이 바람직할 수 있다. 고대역 코딩 파라미터들(S60a)에 의해 표현되는 바와 같은 스펙트럼 엔벌로프에 추가하여, 고대역 인코더(A200)는 시간 또는 이득 엔벌로프를 특정함으로써 고대역 신호(S30)를 특징짓도록 구성될 수 있다. 도 10에 도시된 바와 같이, 고대역 인코더(A202)는, 프레임 또는 그 일부분에 대한 두 개의 신호들의 에너지 간의 차이 또는 비율과 같이, 고대역 신호(S30) 및 합성된 고대역 신호(S130) 간의 관계에 따라서 하나 이상의 이득 계수들을 계산하도록 구성 및 배치되는 고대역 이득 계수 계산기(A230)를 포함한다. 고대역 인코더(A202)의 다른 구현들로, 고대역 이득 계산기(A230)는 유사하게 구성되지만 대신 고대역 신호(S30) 및 협대역 여기 신호(S80) 또는 고대역 여기 신호(S120) 간의 그러한 시변적인 관계에 따라 이득 엔벌로프를 계산하도록 배치될 수 있다.
협대역 여기 신호(S80) 및 고대역 신호(S30)의 시간 엔벌로프들은 아마도 유사하다. 그러므로, 고대역 신호(S30) 및 협대역 여기 신호(S80)(또는 고대역 여기 신호(S120)나 합성된 고대역 신호(S130)와 같이, 이들로부터 유도되는 신호)간의 관계에 기초하는 이득 엔벌로프를 인코딩하는 것이 일반적으로 고대역 신호(S30) 만에 기초한 이득 엔벌로프를 인코딩하는 것보다 더 효율적일 것이다. 일반적인 구현에서, 고대역 인코더(A202)는 각 프레임에 대한 5개의 이득 계수들을 특정하는 8 내지 12개의 비트들의 양자화된 인덱스를 출력하도록 구성된다.
고대역 이득 계수 계산기(A230)는 이득 계수 계산을 하나 이상의 일련의 서브태스크들을 포함하는 태스크로서 수행하도록 구성될 수 있다. 도 21은 고대역 신호(S30) 및 합성된 고대역 신호(S130)의 상대적 에너지들에 따라 대응하는 서브프레임에 대한 이득 값을 계산하는 그러한 태스크의 예시(T200)의 순서도를 나타낸다. 태스크들(220a 및 220b)은 각각의 신호들의 대응하는 서브프레임들의 에너지들을 계산한다. 예를 들어, 태스크들(220a 및 220b)은 상기 에너지를 각각의 서브프레임의 샘플들의 제곱들의 합으로서 계산하도록 구성될 수 있다. 태스크(T230)는 상기 서브프레임에 대한 이득 계수를 그러한 에너지들의 비율의 제곱근으로서 계산한다. 본 예시에서, 태스크(T230)는 이득 계수를 상기 서브프레임에 걸친 고대역 신호(S30)의 에너지-대-합성된 고대역 신호(S130)의 에너지의 비의 제곱근으로서 계산한다.
고대역 이득 계수 계산기(A230)가 윈도윙 함수(windowing function)에 따라서 서브프레임 에너지들을 계산하도록 구성되는 것이 바람직할 수 있다. 도 22는 이득 계수 계산 태스크(t200)의 그러한 구현(T210)의 순서도를 나타낸다. 태스크(T215a)는 윈도윙 함수를 고대역 신호(S30)에 적용하고, 태스크(T215b)는 동일한 윈도윙 함수를 합성된 고대역 신호(S130)에 적용한다. 태스크들(220a 및 220b)의 구현들(222a 및 222b)은 상기 각각의 윈도우들의 에너지를 계산하며, 태스크(T230)는 상기 서브프레임에 대한 이득 계수를 상기 에너지들의 비의 제곱근으로서 계산한다.
인접 서브프레임들과 중첩하는 윈도윙 함수를 적용하는 것이 바람직할 수 있다. 예를 들어, 중첩-가산(overlap-add) 방식으로 적용될 수 있는 이득 계수들을 생성하는 윈도윙 함수는 서브프레임들 간의 불연속을 감소 또는 회피하는데 도움이 될 수 있다. 일례로, 고대역 이득 계수 계산기(A230)는 도 23a에 도시된 바와 같은 사다리꼴 윈도윙 함수를 적용하도록 구성되며, 여기서 상기 윈도우는 1 밀리초씩 두 개의 인접 서브프레임들 각각에 중첩한다. 도 23b는 20-밀리초 프레임인 5개의 서브프레임들 각각에 이러한 윈도윙 함수를 적용하는 것을 나타낸다. 고대역 이득 계수 계산기(A230)의 다른 구현들은 다른 중첩 주기들 및/또는 대칭 또는 비대칭일 수 있는 다른 윈도우 형태(shape)들(예컨대, 직사각형, 해밍(Hamming))을 갖는 윈도윙 함수들을 적용하도록 구성될 수 있다. 또한 고대역 이득 계수 계산기(A230)의 구현이 프레임 내의 상이한 서브프레임들에 상이한 윈도윙 함수들을 적용하도록 구성되거나 그리고/또는 프레임이 상이한 길이들을 갖는 서브프레임들을 포함하는 것도 가능하다.
제한없이, 이하의 값들은 특정 구현들에 대한 예시들로서 제시된다. 임의의 다른 듀레이션(duration)이 이용될 수 있을지라도, 20-msec 프레임이 이러한 경우들에 대해 가정된다. 7 kHz로 샘플링된 고대역 신호에 대해, 각각의 서브프레임은 140개의 샘플들을 갖는다. 그러한 프레임이 동일한 길이의 5개의 서브프레임들로 분할된다면, 각 서브프레임은 28개의 샘플들을 가질 것이며, 도 23a에 도시되는 윈도우는 42개의 샘플 폭(wide)일 것이다. 8 kHz로 샘플링된 고대역 신호에 대해, 각 프레임은 160 개의 샘플들을 포함한다. 그러한 프레임이 동일한 길이의 5개의 서브프레임들로 분할된다면, 각 서브프레임은 32개의 샘플들을 가질 것이며, 도 23a에 도시되는 윈도우는 48개의 샘플 폭일 것이다. 다른 구현들로, 임의의 폭의 서브프레임들이 이용될 수 있으며, 고대역 이득 계산기(A230)가 프레임의 각 샘플에 대해 상이한 이득 계수를 생성하도록 구성되는 것조차 가능하다.
도 24는 고대역 디코더(B200)의 구현(B202)의 블록도를 나타낸다. 고대역 디코더(B202)는 협대역 여기 신호(S80)에 기초하여 고대역 여기 신호(S120)를 생성하도록 구성되는 고대역 여기 발생기(B300)를 포함한다. 특정한 시스템 설계 선택들에 따라서, 고대역 여기 발생기(B30)는 여기 기술되는 바와 같은 고대역 여기 발생기(A30)의 임의의 구현들에 따라서 구현될 수 있다. 일반적으로 특정 코딩 시스템의 고대역 인코더의 고대역 여기 발생기와 동일한 응답을 갖는 고대역 여기 발생기(B300)를 구현하는 것이 바람직하다. 그러나, 협대역 디코더(B110)가 일반적으로 협대역 여기 신호(S50)의 역양자화를 수행할 것이기 때문에, 대부분의 경우에 고대역 여기 발생기(B30)는 협대역 디코더(B110)로부터 협대역 여기 신호(S80)를 수신하도록 구현될 수 있으며 인코딩된 협대역 여기 신호(S50)를 역양자화하도록 구성되는 역 양자화기를 포함할 필요가 없다. 또한 협대역 디코더(B110)는 필터(330)와 같은 협대역 합성 필터에 대한 입력에 앞서 상기 역양자화된 협대역 여기 신호를 필터링하도록 배치되는 반-희소 필터(600)의 경우를 포함하도록 구현되는 것도 가능하다.
역 양자화기(560)는 고대역 필터 파라미터들(S60a)(본 예시에서, LSF들의 세트로)을 역양자화하도록 구성되고, LSF-LP 필터 계수 변환(570)은 상기 LSF들을 필터 계수들의 세트로(예를 들어, 협대역 인코더(A122)의 변환(250) 및 역 양자화기(240)를 참조로 상기 기술된 바와 같이) 변환하도록 구성된다. 다른 구현들로, 상기 기술된 바와 같이, 상이한 계수 세트들(예컨대, 켑스트럴 계수(cepstral coefficient)들) 및/또는 계수 상(representation)들(예컨대, ISP들)이 이용될 수 있다. 고대역 합성 필터(B200)는 고대역 여기 신호(S120) 및 필터 계수들의 세트에 따라 합성된 고대역 신호를 생성하도록 구성된다. 상기 고대역 인코더가 합성 필터(예컨대, 상기 기술된 인코더(A202)의 예시와 같이)를 포함하는 시스템에 대해, 상기 합성 필터와 동일한 응답(예컨대, 동일한 전달 함수)을 갖는 고대역 합성 필터(B20)를 구현하는 것이 바람직할 수 있다.
또한 고대역 디코더(B202)는 고대역 이득 계수들(S60b)을 역양자화하도록 구성되는 역 양자화기(580), 및 역양자화된 이득 계수들을 합성된 고대역 신호에 적용하여 고대역 신호(S100)를 생성하도록 구성 및 배치되는 이득 제어 엘리먼트(gain control element)(590)(예컨대, 곱셈기 또는 증폭기)를 포함한다. 프레임의 이득 엔벌로프가 둘 이상의 이득 계수에 의해 특정되는 경우에 있어서, 이득 제어 엘리먼트(590)는, 가능하게는 대응하는 고대역 인코더의 이득 계산기(예컨대, 고대역 이득 계산기(A230))에 의해 적용되는 것과 동일하거나 상이한 윈도윙 함수일 수 있는 윈도윙 함수에 따라서, 상기 이득 계수들을 각각의 서브프레임들에 적용하도록 구성되는 로직을 포함할 수 있다. 고대역 디코더(B202)의 다른 구현들로, 이득 제어 엘리먼트(590)는 유사하게 구성되지만 대신 상기 역양자화된 이득 계수들을 협대역 여기 신호(S80) 또는 고대역 여기 신호(S120)에 적용하도록 배치된다.
전술한 바와 같이, 고대역 인코더 및 고대역 디코더에서 동일한 상태(state)를 획득하는 것이 바람직할 수 있다(예컨대, 인코딩 동안 역양자화된 값들을 이용함으로써). 따라서 그러한 구현에 따르는 코딩 시스템에서 고대역 여기 발생기들(A300 및 B300) 내의 대응하는 잡음 발생기들에 대해 동일한 상태를 보장하는 것이 바람직할 수 있다. 예를 들어, 그러한 구현의 고대역 여기 발생기들(A300 및 B300)은 상기 잡음 발생기의 상태가 동일한 프레임 내에서 이미 코딩된 정보(예컨대, 협대역 필터 파라미터들(S40) 또는 그 부분 및/또는 인코딩된 협대역 여기 신호(S50) 또는 그 부분)의 결정적 함수가 되도록 구성될 수 있다.
여기 기술된 엘리먼트들의 하나 이상의 양자화기들(예컨대, 양자화기(230, 420, 또는 430))은 분류된(classified) 벡터 양자화를 수행하도록 구성될 수 있다. 예를 들어, 그러한 양자화기는 협대역 채널 및/또는 고대역 채널 내의 동일 프레임 내에서 이미 코딩된 정보에 기초하여 코드북들의 세트 중 하나를 선택하도록 구성될 수 있다. 그러한 기술은 일반적으로 추가적인 코드북 스토리지를 희생하여 증가된 코딩 효율성을 제공한다.
예컨대, 도 8 및 도 9를 참조하여 전술한 바와 같이, 상당량의 주기적 구조가 협대역 스피치 신호(S20)로부터의 개략적인(coarse) 스펙트럼 엔벌로프 제거 후에 상기 잔여 신호에 잔존할 수 있다. 예를 들어, 상기 잔여 신호는 시간에 대해 대략적으로 주기적인 펄스들 또는 스파이크(spike)들의 시퀀스를 포함할 수 있다. 일반적으로 피치에 관련되는, 그러한 구조는 특히 유성 스피치 신호들에서 발생할 것이다. 협대역 잔여 신호의 양자화된 상의 계산은, 예를 들어, 하나 이상의 코드북들에 의해 표현되는 바와 같은 장기적 주기성의 모델에 따라서 이러한 피치 구조의 인코딩을 포함할 수 있다.
실제 잔여 신호의 피치 구조는 상기 주기성 모델과 정확히 정합하지 않을 수 있다. 예를 들어, 상기 잔여 신호는 상기 피치 펄스들의 위치들의 규칙성을 갖는 작은 지터(jitter)들을 포함하여, 프레임 내의 연속적인 피치 펄스들 간의 간격들이 정확히 같지 않고 그 구조가 그다지 정규적이지(regular) 않을 수 있다. 이러한 불규칙성들은 코딩 효율성을 감소시키는 경향이 있다.
협대역 인코더(A120)의 일부 구현들은 양자화 전 또는 양자화 동안 상기 잔여에 적응형 시간 왜곡(adaptive time warping)을 적용하거나, 또는 그렇지 않으면 인코딩된 여기 신호 내에 적응형 시간 왜곡을 포함함으로써 상기 피치 구조의 정규화(regularization)를 수행하도록 구성된다. 예를 들어, 그러한 인코더는 시간의 왜곡 정도를 선택하거나 그렇지 않으면 계산하도록 구성되어(예컨대, 하나 이상의 인지가능한 가중(weighting) 및/또는 오류 최소화 기준들(error minimization criteria)에 따라), 그 결과적인 여기 신호가 장기적 주기성 모델에 최적으로 일치하게 할 수 있다. 피치 구조의 정규화(regularization)는 릴렉세이션 코드 여기 선형 예측(Relaxation Code Excited Linear Prediction, RCELP) 인코더들의 서브셋에 의해 수행된다.
RCELP 인코더는 일반적으로 시간 왜곡(time warping)을 적응형 시간 시프트(adaptive time shift)로서 수행하도록 구성된다. 이러한 시간 시프트는 마이너스(negative) 수 밀리초로부터 플러스(positive) 수 밀리초 사이의 범위인 지연일 수 있으며, 통상적으로 가청 불연속들을 회피하기 위해 원활하게 변화한다. 일부 구현들에서, 그러한 인코더는 구분적인 방식으로 상기 정규화를 적용하도록 구성되며, 여기서 각 프레임 또는 서브프레임은 대응하는 고정 시간 시프트에 의해 왜곡(warp)된다. 다른 구현들로, 상기 인코더는 연속적인 왜곡(warping) 함수로서 상기 정규화를 적용하도록 구성되어, 프레임 또는 서브프레임이 피치 윤곽(contour)(또한 피치 궤도(pitch trajectory)로도 지칭됨)에 따라서 왜곡(warp) 된다. 일부의 경우(예컨대, 미국 특허 출원 공개 2004/0098255에 기술된 바와 같이), 상기 인코더는 상기 시프트를 인코딩된 여기 신호를 계산하는데 이용되는 지각가능하게 가중된 입력 신호에 적용함으로써 상기 인코딩된 여기 신호 내의 시간 왜곡을 포함하도록 구성된다.
상기 인코더는 정규화(regularize)되고 양자화되는 인코딩된 여기 신호를 계산하며, 상기 디코더는 상기 인코딩된 여기 신호를 역양자화하여 상기 디코딩된 스피치 신호를 합성하는데 이용되는 여기 신호를 획득한다. 따라서 디코딩된 출력 신호는 상기 정규화에 의해 상기 인코딩된 여기 신호에 포함되었던 동일한 가변 지연을 나타낸다. 일반적으로, 정규화 양(amount)들을 특정하는 정보는 상기 디코더에 전송되지 않는다.
정규화(regularization)는 상기 잔여 신호를 인코딩하기에 더 용이하게 하는 경향이 있어서, 일반적으로 아티팩트들을 발생시키지 않고, 장기 예측기(long-term predictor)로부터의 코딩 이득을 개선하며 따라서 전체적인 코딩 효율을 증가시킨다. 유성 프레임들에만 정규화를 수행하는 것이 바람직할 수 있다. 예를 들어, 협대역 인코더(A124)는 유성 신호들과 같은, 장기(long-term) 구조를 갖는 프레임들 또는 서브프레임들만 시프트하도록 구성될 수 있다. 나아가 피치 펄스 에너지를 포함하는 서브프레임들에만 정규화를 수행하는 것이 바람직할 수 있다. RCELP 코딩의 다양한 구현들이 미국 특허 번호. 5,704,003(Kleijn 등.) 및 6,879,955(Rao)와 미국 특허 출원 공개. 2004/0098255(Kovesi 등.)에 기술되어 있다. RCELP 코더들의 현존하는 구현들은, 미국 통신 산업 협회(Telecommunications Industry Association, TIA) IS-127에 기술된 바와 같은, Enhanced Variable Rate Codec(EVRC), 그리고 3세대 파트너십 프로젝트 2(3GPP2) Selectable Mode Vocoder(SMV)를 포함한다.
불행히도, 정규화는 고대역 여기가 인코딩된 협대역 여기 신호로부터 유도되는 광대역 스피치 코더에 대한 문제점들을 야기할 수 있다(광대역 스피치 인코더(A100) 및 광대역 스피치 디코더(B100)를 포함하는 시스템과 같이). 시간-왜곡 신호로부터의 유도 때문에, 상기 고대역 여기 신호는 일반적으로 본래의 고대역 스피치 신호와는 다른 시간 프로파일(time profile)을 가질 것이다. 달리 말하면, 상기 고대역 여기 신호는 더 이상 본래의 고대역 스피치 신호와 동기(synchronous) 되지 않을 것이다.
상기 왜곡된 고대역 여기 신호와 상기 본래의 고대역 스피치 신호 간의 시간 부정합(misalignment)은 몇가지 문제점들을 야기할 수 있다. 예를 들어, 상기 왜곡된 고대역 여기 신호는 더 이상 본래의 고대역 스피치 신호로부터 추출된 필터 파라미터들에 따르도록 구성되는 합성 필터에 대한 적합한 소스(source) 여기를 제공하지 않을 수 있다. 결과적으로, 상기 합성된 고대역 신호는 상기 디코딩된 광대역 스피치 신호의 감지되는 품질을 감소시키는 가청 아티팩트들을 포함할 수 있다.
또한 시간 부정합은 이득 엔벌로프 인코딩에 있어서 비효율성들을 초래할 수 있다. 전술한 바와 같이, 상관이 협대역 여기 신호(S80) 및 고대역 신호(S30)의 시간 엔벌로프들 사이에 존재할 것이다. 이러한 두 개의 시간 엔벌로프들 간의 관 계에 따라서 고대역 신호의 이득 엔벌로프를 인코딩함으로써, 코딩 효율성 증가가 이득 엔벌로프를 직접 인코딩하는 것에 비하여 실현될 수 있다. 상기 인코딩된 협대역 여기 신호가 정규화(regularize)될 때, 이러한 상관은 약화될 수 있다. 협대역 여기 신호(S80) 및 고대역 신호(S30) 간의 시간 부정합은 고대역 이득 계수들(S60b)에 나타나는 파동(fluctuation)들을 초래할 수 있으며, 코딩 효율이 떨어질 수 있다.
실시예들은 대응하는 인코딩된 협대역 여기 신호에 포함되는 시간 왜곡(time warping)에 따라서 고대역 스피치 신호의 시간 왜곡을 수행하는 광대역 스피치 인코딩 방법을 포함한다. 그러한 방법들의 잠재적 이점들은 디코딩된 광대역 스피치 신호의 품질을 개선하는 것 그리고/또는 고대역 이득 엔벌로프의 코딩 효율성을 개선하는 것을 포함한다.
도 25는 광대역 스피치 인코더(A100)의 구현(AD10)의 블록도를 나타낸다. 인코더(AD10)는 인코딩된 협대역 여기 신호(S50)의 계산 동안 정규화를 수행하도록 구성되는 협대역 인코더(A120)의 구현(A124)을 포함한다. 예를 들어, 협대역 인코더(A124)는 상기 기술된 하나 이상의 RCELP 구현들에 따르도록 구성될 수 있다.
또한 협대역 인코더(A124)는 적용되는 시간 왜곡(time warping)의 정도를 특정하는 정규화(regularization) 데이터 신호(SD10)를 출력하도록 구성된다. 협대역 인코더(A124)가 고정된 시간 시프트를 각각의 프레임 또는 서브프레임에 적용하도록 구성되는 다양한 경우들에 대해서, 정규화 데이터 신호(SD10)는 각각의 시간 시프트 양(amount)을 샘플들, 밀리초, 또는 다른 어떠한 시간 증분(increment)으로 환산하여 정수 또는 비-정수 값으로서 지시하는 일련의 값들을 포함할 수 있다. 협대역 인코더(A124)가 프레임의 시간 스케일 또는 샘플들의 다른 시퀀스를 달리 수정하도록 구성되는 경우에 대해서(예컨대, 일부분을 압축하고 다른 부분을 확장함으로써), 정규화 정보 신호(SD10)는, 함수 파라미터들의 세트와 같은, 상기 수정의 대응하는 기술(description)을 포함할 수 있다. 특정한 일례로, 정규화 데이터 신호(SD10)가 상기 인코딩된 협대역 신호의 각각의 정규화된 프레임에 대해 3개의 시간 시프트 양들을 지시하도록, 협대역 인코더(A124)는 프레임을 3개의 서브프레임들로 분할하고 각각의 서브프레임에 대한 고정된 시간 시프트를 계산하도록 구성된다.
광대역 스피치 인코더(AD10)는, 입력 신호에 의해 지시되는 지연량에 따라서, 고대역 스피치 신호(S30)의 부분들을 전진(advance) 또는 지체(retard)시켜서 시간-왜곡된 고대역 스피치 신호(S30a)를 생성하도록 구성되는 지연 라인(delay line)(D120)을 포함한다. 도 25에 도시된 예시에서, 지연 라인(D120)은 정규화 데이터 신호(SD10)에 의해 지시되는 왜곡(warping)에 따라서 고대역 스피치 신호(S30)를 시간 왜곡(time warp)하도록 구성된다. 그러한 방식으로, 또한 인코딩된 협대역 여기 신호(S50)에 포함되었던 것과 동일한 양의 시간 왜곡이 분석 전에 고대역 스피치 신호(S30)의 대응하는 부분에 적용된다. 본 예시가 지연 라인(D120)을 고대역 인코더(A200)와 별개의 구성요소로서 도시할지라도, 다른 구현들에서 지연 라인(D120)은 상기 고대역 인코더의 일부로서 배치된다.
고대역 인코더(A200)의 추가적인 구현들은 왜곡되지 않은(unwarped) 고대역 스피치 신호(S30)의 스펙트럼 분석(예컨대, LPC 분석)을 수행하고 고대역 이득 파라미터들(S60b)의 계산 전에 고대역 스피치 신호(S30)의 시간 왜곡을 수행하도록 구성될 수 있다. 그러한 인코더는, 예를 들어, 상기 시간 왜곡을 수행하도록 배치되는 지연 라인(D120)의 구현을 포함할 수 있다. 그러나, 그러한 경우들에 있어서, 상향(upward) 신호(S30)의 분석에 기초하는 고대역 필터 파라미터들(S60a)은 고대역 여기 신호(S120)와 시간적으로 부정합한 스펙트럼 엔벌로프를 기술할 수 있다.
지연 라인(D120)은 요망되는 시간 왜곡 동작들을 고대역 스피치 신호(S30)에 적용하는데 적합한 로직 엘리먼트들 및 스토리지 엘리먼트들의 임의의 조합에 따라서 구성될 수 있다. 예를 들어, 지연 라인(D120)은 요구되는 시간 시프트들에 따라서 버퍼로부터 고대역 스피치 신호(S30)를 읽도록 구성될 수 있다. 도 26a는 시프트 레지스터(SR1)를 포함하는 지연 라인(D120)의 그러한 구현(D122)의 개략도를 나타낸다. 시프트 레지스터(SR1)는 고대역 스피치 신호(S30)의 m개의 최근 샘플들을 수신 및 저장하도록 구성되는 임의의 길이 m의 버퍼이다. 상기 값 m은 지원되는 최대 양(또는 "전진(advance)") 및 음(또는 "지체(retard)")의 시간 시프트들의 합과 적어도 동일하다. 상기 값 m이 고대역 신호(S30)의 프레임 또는 서브프레임의 길이와 동일한 것이 편리할 수 있다.
지연 라인(D122)은 시프트 레지스터(SR1)의 오프셋 위치(offset location)(OL)로부터 시간-왜곡된(time-warped) 고대역 신호(S30a)를 출력하도록 구성된다. 상기 오프셋 위치(OL)의 포지션은, 예를 들어, 정규화 데이터 신호(SD10)에 의해 지시되는 바와 같이 상기 현재 시간 시프트에 따라 기준 위치(reference position)(영(zero) 시간 시프트)에 대해 변화한다. 지연 라인(D122)은 동일한 전진(advance) 및 지체(retard) 한계(limit)들 또는, 대안적으로 다른 것보다 더 큰 한계를 지원하도록 구성될 수 있어서 더 큰 시프트가 다른 방향보다 한 방향으로 수행될 수 있다. 도 26a는 음의 시간 시프트(negative time shift) 보다 더 큰 양의 시간 시프트를 지원하는 특정한 예시를 나타낸다. 지연 라인(D122)은 동시에 하나 이상의 샘플들을 출력하도록 구성될 수 있다(예를 들어, 출력 버스 폭(bus width)에 따라서).
수 밀리초를 초과하는 크기를 갖는 정규화 시간 시프트는 디코딩된 신호에서 가청 아티팩트들을 야기할 수 있다. 정규화 데이터 신호(SD10)가 지시하는 상기 시간 시프트들이 제한되도록, 일반적으로 협대역 인코더(A124)에 의해 수행되는 바와 같은 정규화 시간 시프트의 크기는 수 밀리초를 초과하지 않을 것이다. 그러나, 그러한 경우들에 있어서 지연 라인(D120)이 양 및/또는 음의 방향의 시간 시프트들에 최대 한계를 부과하도록 구성되는 것이 바람직할 수 있다(예를 들어, 상기 협대역 인코더에 의해 부과되는 것보다 더 엄격한 한계를 준수하기 위해).
도 26b는 시프트 윈도우(SW)를 포함하는 지연 라인(D122)의 일 구현(D124)의 개략도를 나타낸다. 본 예시에서, 오프셋 장소(OL)의 위치는 상기 시프트 윈도우(SW)에 의해 제한된다. 도 26b가 버퍼 길이 m이 시프트 윈도우(SW)의 폭보다 더 큰 경우를 도시하였을지라도, 지연 라인(D124)은 시프트 윈도우(SW)의 폭이 m과 동일하도록 구현될 수도 있다.
다른 구현들에서, 지연 라인(D120)은 요구되는 시간 시프트들에 따라서 고대역 스피치 신호(S30)를 버퍼에 기록하도록 구성된다. 도 27은 고대역 스피치 신호(S30)를 수신 및 저장하도록 구성되는 두 개의 시프트 레지스터들(SR2 및 SR3)을 포함하는 지연 라인(D120)의 구현(D130)의 개략도를 도시한다. 지연 라인(D130)은 예를 들어, 정규화 데이터 신호(SD10)에 의해 지시되는 바와 같은 시간 시프트에 따라서 시프트 레지스터(SR2)로부터 시프트 레지스터(SR3)로 프레임 또는 서브프레임을 기록하도록 구성된다. 시프트 레지스터(SR3)는 시간-왜곡된 고대역 신호(S30)를 출력하도록 배치되는 FIFO 버퍼로서 구성된다.
도 27에 도시된 특정 예시에서, 시프트 레지스터(SR2)는 프레임 버퍼 부분(FB1) 및 지연 버퍼 부분(DB)을 포함하며, 시프트 레지스터(SR3)는 프레임 버퍼 부분(FB2), 전진 버퍼(advance buffer) 부분(AB), 및 지체 버퍼(retard buffer) 부분(RB)을 포함한다. 전진 버퍼(AB) 및 지체 버퍼(RB)의 길이들은 같을 수 있으며, 하나가 다른 하나보다 더 클 수 있어서, 다른 방향에 비해서 한 방향으로의 더 큰 시프트가 지원된다. 지연 버퍼(DB) 및 지체 버퍼 부분(RB)은 동일한 길이를 갖도록 구성될 수 있다. 대안적으로, 지연 버퍼(DB)는 지체 버퍼(RB)보다 짧아서 프레임 버퍼(FB1)로부터 시프트 레지스터(SR3)로 샘플들을 전달하는데 요구되는 시간 인터벌을 고려(account for)할 수 있으며, 이는 시프트 레지스터(SR3)로의 저장 전에 상기 샘플들의 왜곡과 같은 다른 처리 동작들을 포함할 수 있다.
도 27의 예시에서, 프레임 버퍼(FB1)는 고대역 신호(S30)의 하나의 프레임과 동일한 길이를 갖도록 구성된다. 다른 예로, 프레임 버퍼(FB1)는 고대역 신호(S30)의 하나의 서브프레임과 동일한 길이를 갖도록 구성된다. 그러한 경우에, 지연 라인(D130)은 동일한(예컨대, 평균) 지연을 시프트될 프레임의 모든 서브프레임들에 적용하는 로직을 포함하도록 구성될 수 있다. 또한 지연 라인(D130)은 프레임 버퍼(FB1)로부터의 값들을 지체 버퍼(RB) 또는 전진 버퍼(AB)에 겹쳐쓰기(overwrite)되는 값들로써 평균화하는 로직을 포함할 수도 있다. 추가적인 예로, 시프트 레지스터(SR3)는 프레임 버퍼(FB1)만을 통해 고대역 신호(S30)의 값들을 수신하도록 구성될 수 있으며, 그러한 경우 지연 라인(D130)은 시프트 레지스터(SR3)에 기록된 연속적인 프레임들 또는 서브프레임들 간의 갭(gap)들에 걸쳐 내삽(interpolate)하는 로직을 포함할 수 있다. 다른 구현들로, 지연 라인(D130)은 시프트 레지스터(SR3)에 기록하기 전에 프레임 버퍼(FB1)로부터의 샘플들에 왜곡 동작을 수행하도록 구성될 수 있다(예컨대, 정규화 데이터 신호(SD10)에 의해 기술되는 함수에 따라서).
지연 라인(D120)이 정규화 데이터 신호(SD10)에 의해 특정되는 왜곡(warping)에 기초하는(그러나 동일하지는 않음) 시간 왜곡을 적용하는 것이 바람직할 수 있다. 도 28은 지연 값 매퍼(delay value mapper)(D110)를 포함하는 광대역 스피치 인코더(AD10)의 구현(AD12)의 블록도를 나타낸다. 지연 값 매퍼(D110)는 정규화 데이터 신호(SD10)에 의해 지시되는 상기 왜곡(warping)을 매핑된 지연 값들(SD10a)에 매핑하도록 구성된다. 지연 라인(D120)은 매핑된 지연 값들(SD10a)에 의해 지시되는 왜곡에 따라서 시간-왜곡된 고대역 스피치 신호(S30a)를 생성하도록 배치된다.
협대역 인코더에 의해 적용되는 시간 시프트는 시간에 따라 평활하게 전개될 것으로 예상할 수 있다. 그러므로, 일반적으로 스피치의 프레임 동안 서브프레임들에 적용되는 평균 협대역 시간 시프트를 계산하고, 이러한 평균에 따라서 고대역 스피치 신호(S30)의 대응 프레임을 시프트하는 것이 충분하다. 그러한 일례로, 지연 값 매퍼(D10)는 각 프레임에 대한 서브프레임 지연 값들의 평균을 계산하도록 구성되며, 지연 라인(D120)은 상기 계산된 평균을 고대역 신호(S30)의 대응 프레임에 적용하도록 구성된다. 다른 예시들로, 더 짧은 주기(두 개의 서브프레임들, 또는 프레임의 절반과 같이) 또는 더 긴 주기(두 개의 프레임들과 같은)에 걸친 평균이 계산되고 적용될 수 있다. 상기 평균이 샘플들의 비-정수 값인 경우에, 지연 값 매퍼(D110)는 지연 라인(D120)으로 출력하기 전에 상기 값을 샘플들의 정수 값으로 반올림(round)하도록 구성될 수 있다.
협대역 인코더(A124)는 상기 인코딩된 협대역 여기 신호 내의 샘플들의 비-정수 개수인 정규화 시간 시프트를 포함하도록 구성될 수 있다. 그러한 경우에, 지연 값 매퍼(D110)는 상기 협대역 시간 시프트를 샘플들의 정수 개수로 반올림하고 지연 라인(D120)은 상기 반올림된 시간 시프트를 고대역 스피치 신호(S30)에 적용하도록 구성되는 것이 바람직할 수 있다.
광대역 스피치 인코더(AD10)의 일부 구현들에서, 협대역 스피치 신호(S20) 및 고대역 스피치 신호(S30)의 샘플링 레이트들이 상이할 수 있다. 그러한 경우들에 있어서, 지연 값 매퍼(D110)는 정규화 데이터 신호(SD10)에 의해 지시되는 시간 시프트 양들을 조정하여 협대역 스피치 신호(S20)(또는 협대역 여기 신호(S80)) 및 고대역 스피치 신호(S30)의 샘플링 레이트들 간의 차이를 고려(account for)하는 것이 바람직할 수 있다. 예를 들어, 지연 값 매퍼(D110)는 샘플링 레이트들이 비에 따라 상기 시간 시프트 양들을 스케일링(scale)하도록 구성될 수 있다. 전술한 바와 같은 한가지 특정 예시로, 협대역 스피치 신호(S20)는 8 kHz로 샘플링되고, 고대역 스피치 신호(S30)는 7 kHz로 샘플링된다. 이 경우, 지연 값 매퍼(D110)는 각각의 시프트 양을 7/8로 곱하도록 구성된다. 또한 지연 값 매퍼(D110)의 구현들은 여기 기술되는 바와 같은 정수-반올림(integer-rounding) 및/또는 시간 시프트 평균화(time shift averaging) 동작과 함께 그러한 스케일링 동작을 수행하도록 구성될 수도 있다.
추가적인 구현들로, 지연 라인(D120)은 프레임의 시간 스케일 또는 샘플들의 다른 시퀀스를 달리 수정하도록 구성된다(예컨대, 한 부분을 압축하고 다른 부분을 확장함으로써). 예를 들어, 협대역 인코더(A124)는 피치 윤곽 또는 궤도와 같은 함수에 따라서 상기 정규화(regularization)를 수행하도록 구성될 수 있다. 그러한 경우에, 정규화 데이터 신호(SD10)는, 파라미터들의 세트와 같은, 상기 함수의 대응하는 기술(description)을 포함할 수 있으며, 지연 라인(D120)은 상기 함수에 따라서 고대역 스피치 신호(S30)의 프레임들 또는 서브프레임들을 왜곡(warp)시키도록 구성되는 로직을 포함할 수 있다. 다른 구현들로, 지연 값 매퍼(D110)는 지연 라인(D120)에 의해 고대역 스피치 신호(S30)에 적용되기 전에 상기 함수를 평균화(average), 스케일링(scale), 및/또는 반올림(round)하도록 구성된다. 예를 들어, 지연 값 매퍼(D110)는 상기 함수에 다른 하나 이상의 지연 값들을 계산하도록 구성될 수 있으며(각 지연 값은 샘플들의 개수를 지시함), 그리고 나서 이는 지연 라인(D120)에 의해 고대역 스피치 신호(S30)의 대응하는 하나 이상의 프레임들 또는 서브프레임들을 시간 왜곡(time warp)하는데 적용된다.
도 29는 대응하는 인코딩된 협대역 여기 신호에 포함된 시간 왜곡(time warping)에 따라서 고대역 스피치 신호를 시간 왜곡하는 방법(MD100)에 대한 순서도를 나타낸다. 태스크(TD100)는 광대역 스피치 신호를 처리하여 협대역 스피치 신호 및 고대역 스피치 신호를 획득한다. 예를 들어, 태스크(TD100)는, 필터 뱅크(A110)의 구현처럼, 저역통과 및 고역통과 필터들을 포함하는 필터 뱅크를 이용하여 상기 광대역 스피치 신호를 필터링하도록 구성될 수 있다. 태스크(TD200)는 상기 협대역 스피치 신호를 적어도 인코딩된 협대역 여기 신호 및 복수의 협대역 필터 파라미터들로 인코딩한다. 상기 인코딩된 협대역 여기 신호 및/또는 필터 파라미터들은 양자화될 수 있으며, 또한 상기 인코딩된 협대역 스피치 신호는 스피치 모드 파라미터와 같은 다른 파라미터들을 포함할 수 있다. 또한 태스크(TD200)는 상기 인코딩된 협대역 여기 신호 내의 시간 왜곡을 포함한다.
태스크(TD300)는 협대역 여기 신호에 기초하여 고대역 여기 신호를 발생시킨다. 이 경우, 상기 협대역 여기 신호는 상기 인코딩된 협대역 여기 신호에 기초한다. 적어도 고대역 여기 신호에 따라, 태스크(TD400)는 상기 고대역 스피치 신호를 적어도 복수의 고대역 필터 파라미터들로 인코딩한다. 예를 들어, 태스크(TD400)는 상기 고대역 스피치 신호를 복수의 양자화된 LSF들로 인코딩하도록 구성될 수 있다. 태스크(TD500)는 시간 시프트를 상기 인코딩된 협대역 여기 신호 내에 포함된 시간 왜곡(time warping)에 관련된 정보에 기초하는 상기 고대역 스피치 신호에 적용한다.
태스크(TD400)는 상기 고대역 스피치 신호에 스펙트럼 분석(LPC 분석과 같은)을 수행하고, 그리고/또는 상기 고대역 스피치 신호의 이득 엔벌로프를 계산하도록 구성될 수 있다. 그러한 경우들에 있어서, 태스크(TD500)는 상기 시간 시프트를 상기 분석 및/또는 이득 엔벌로프 계산에 앞서 상기 고대역 스피치 신호에 적용하도록 구성될 수 있다.
광대역 스피치 인코더(A100)의 다른 구현들은 상기 인코딩된 협대역 여기 신호에 포함된 시간 왜곡에 의해 야기되는 고대역 여기 신호(S120)의 시간 왜곡을 반전(reverse)시키도록 구성된다. 예를 들어, 고대역 여기 발생기(A300)는 정규화 데이터 신호(SD10) 또는 매핑된 지연 값들(SD10a)을 수신하고, 대응하는 반전 시간 시프트를 협대역 여기 신호(S80), 및/또는 고조파적으로 확장된 신호(S160) 또는 고대역 여기 신호(S120)와 같이 이에 기초하는 이후의 신호에 적용하도록 구성되는 지연 라인(D120)의 구현을 포함하도록 구현될 수 있다.
추가적인 광대역 스피치 인코더 구현들은, 상기 고대역 스피치 신호(S30)가 고대역 스펙트럼 엔벌로프 및 고대역 여기 신호의 상(representation)으로서 인코딩되도록, 협대역 스피치 신호(S20) 및 고대역 스피치 신호(S30)를 서로 독립적으로 인코딩하도록 구성될 수 있다. 그러한 구현은, 인코딩된 협대역 여기 신호에 포함된 시간 왜곡에 관련된 정보에 따라서, 고대역 잔여 신호의 시간 왜곡을 수행하거나, 또는 그렇지 않으면 인코딩된 고대역 여기 신호 내에 시간 왜곡을 포함하 도록 구성될 수 있다. 예를 들어, 상기 고대역 인코더는 시간 왜곡을 상기 고대역 잔여 신호에 적용하도록 구성되는 여기 기술된 바와 같은 지연 값 매퍼(D110) 및/또는 지연 라인(D120)의 구현을 포함할 수 있다. 그러한 동작의 잠재적 이점들은 고대역 잔여 신호의 더 효율적인 인코딩 및 합성된 협대역 및 고대역 스피치 신호들 간의 더 나은 정합(match)을 포함한다.
전술한 바와 같이, 고대역 인코더(A202)는 고대역 신호(S30) 및 협대역 신호(S20)에 기초하는 신호(협대역 여기 신호(S80), 고대역 여기 신호(S120), 또는 합성된 고대역 신호(S130)와 같은) 간의 시변적인 관계에 따라서 일련의 이득 계수들을 계산하도록 구성되는 고대역 이득 계수 계산기(A230)를 포함할 수 있다.
도 33a는 고대역 이득 계수 계산기(A230)의 구현(A232)의 블록도를 도시한다. 고대역 이득 계수 계산기(A232)는 제 1 신호의 엔벌로프를 계산하도록 배치되는 엔벌로프 계산기(G10)의 구현(G10a), 및 제 2 신호의 엔벌로프를 계산하도록 배치되는 엔벌로프 계산기(G10)의 구현(G10b)을 포함한다. 엔벌로프 계산기들(G10a 및 G10b)은 엔벌로프 계산기(G10)의 상이한 구현들과 동일하거나 엔벌로프 계산기(G10)의 상이한 구현들의 예(instance)들일 수 있다. 일부의 경우, 엔벌로프 계산기들(G10a 및 G10b)은 상이한 시간들에서 상이한 신호들을 처리하도록 구성되는 동일한 구조로서 구현될 수 있다.
엔벌로프 계산기들(G10a 및 G10b)은 진폭 엔벌로프(예컨대, 절대값 함수에 따라서) 또는 에너지 엔벌로프(예컨대, 제곱 함수(squaring function)에 따라서)를 계산하도록 각각 구성될 수 있다. 일반적으로, 각각의 엔벌로프 계산기(G10a, G10b)는 입력 신호에 대해서 서브샘플링(subsample) 된 엔벌로프(예컨대, 상기 입력 신호의 각 프레임 또는 서브프레임에 대해 하나의 값을 갖는 엔벌로프)를 계산하도록 구성된다. 예컨대, 도 21-23b를 참조로 상기 기술된 바와 같이, 엔벌로프 계산기(G10a 및/또는 G10b)는 인접 서브프레임들에 중첩하도록 배치될 수 있는, 윈도윙 함수에 따라서 상기 엔벌로프를 계산하도록 구성될 수 있다.
계수 계산기(G20)는 시간에 따른 두 개의 엔벌로프들 간의 시변적인 관계에 따라서 일련의 이득 계수들을 계산하도록 구성된다. 상기 기술된 바와 같은 일례로, 계수 계산기(G20)는 각각의 이득 계수를 대응하는 서브프레임에 대한 엔벌로프들의 비의 제곱근으로서 계산한다. 대안적으로, 계수 계산기(G20)는, 대응하는 서브프레임 동안의 엔벌로프들 간의 차이 또는 부호를 가진(signed) 제곱 차이(squared difference)와 같은, 상기 엔벌로프들 간의 간격(distance)에 기초하여 각각의 이득 계수를 계산하도록 구성될 수 있다. 계수 계산기(G20)를 데시벨(decibel) 또는 다른 대수적으로(logarithmically) 스케일링된 형태의 이득 계수들의 계산된 값을 출력하도록 구성되는 것이 바람직할 수 있다.
도 33b는 엔벌로프 계산기(G10a)가 협대역 신호(S20)에 기초하여 신호의 엔벌로프를 계산하고, 엔벌로프 계산기(G10b)가 고대역 신호(S30)의 엔벌로프를 계산하며, 계수 계산기(G20)가 고대역 이득 계수들(S60b)을(예컨대, 양자화기로) 출력하도록 구성되는 고대역 이득 계수 계산기(A232)를 포함하는 일반화된 배치(arrangement)의 블록도를 나타낸다. 본 예시에서, 엔벌로프 계산기(G10a)는 중간 처리(P1)로부터 수신되는 신호의 엔벌로프를 계산하도록 배치되며, 이는 협대역 여기 신호(S80)의 계산, 고대역 여기 신호(S120)의 발생, 및/또는 고대역 신호(S130)의 합성을 수행하도록 구성되는 여기 기술된 바와 같은 구조들을 포함할 수 있다. 엔벌로프 계산기(G10a)가 협대역 여기 신호(S80) 또는 고대역 여기 신호(S120)의 엔벌로프를 계산하도록 배치되는 구현들이 대신 명백하게 고려되고 이에 따라 개시될지라도, 편의를 위해, 이하의 기술내용은 엔벌로프 계산기(G10a)가 합성된 고대역 신호(S130)의 엔벌로프를 계산하도록 배치되는 것으로 가정한다.
고대역 신호(S30) 및 합성된 고대역 신호(S130) 간의 유사한 정도는 상기 디코딩된 고대역 신호(S100)가 얼마나 고대역 신호(S30)와 유사한지를 나타낼 수 있다. 특정하게는, 고대역 신호(S30) 및 합성된 고대역 신호(S130)의 시간 엔벌로프 간의 유사도(similarity)가 디코딩된 고대역 신호(S100)가 양호한 음향 품질을 가지며 고대역 신호(S30)와 지각적으로(perceptually) 유사할 것으로 예상할 수 있음을 나타낼 수 있다.
협대역 여기 신호(S80) 및 고대역 신호(S30)의 엔벌로프들의 쉐이프(shape)들은 시간에 따라 유사할 것이며, 결과적으로는, 상대적으로 적은 편차(variation)가 고대역 이득 계수들(S60b) 간에 발생할 것이라는 점을 예상할 수 있다. 사실, 상기 엔벌로프들 간의 관계에 있어 시간에 따른 큰 변동(예컨대, 상기 엔벌로프들 간의 비율 또는 간격(distance)의 큰 편차), 또는 상기 엔벌로프들에 기초한 이득 계수들 간의 시간에 따른 큰 편차는, 합성된 고대역 신호(S130)가 고대역 신호(S30)와 매우 상이할 것이라는 지시로 간주될 수 있다. 예를 들어, 그러한 편차는 고대역 여기 신호(S120)가 상기 시간 주기에 걸쳐 실제 고대역 잔여 신호에 대해 불량한 정합(match)임을 지시할 수 있다. 어느 경우이던, 상기 엔벌로프들 간의 또는 상기 이득 계수들 간의 관계에 있어서 시간에 따른 큰 편차는 디코딩된 고대역 신호(S10)가 고대역 신호(S30)와 허용불가할 정도로 상이하게 들릴 것임을 나타낼 수 있다.
합성된 고대역 신호(S130)의 시간 엔벌로프와 고대역 신호(S30)의 시간 엔벌로프 간의 관계(상기 엔벌로프들 간의 비율 또는 간격과 같은)에 있어서 시간에 따른 현저한 변화를 검출하고 이에 따라 상기 주기에 대응하는 고대역 이득 계수들(S60b)의 레벨을 감소시키는 것이 바람직할 수 있다. 고대역 인코더(A202)의 추가적인 구현들은 상기 엔벌로프들 간의 시간에 따른 편차 및/또는 시간에 따른 상기 이득 계수들 간의 편차에 따라서 상기 고대역 이득 계수들(S60b)을 감쇠시키도록 구성된다. 도 34는 양자화 전에 고대역 이득 계수들(S60b)을 적응적으로 감쇠시키도록 구성되는 이득 계수 감쇠기(gain factor attenuator)(G30)를 포함하는 고대역 인코더(A202)의 구현(A203)의 블록도를 나타낸다.
도 35는 고대역 이득 계수 계산기(A232)를 포함하는 배치(arrangement) 및 이득 계수 감쇠기(G30)의 구현(G32)의 블록도를 나타낸다. 이득 계수 감쇠기(G32)는, 엔벌로프들 간의 비율 또는 간격에 있어서 시간에 다른 편차와 같은, 고대역 신호(S30)의 엔벌로프와 합성된 고대역 신호(S130)의 엔벌로프 간의 관계에 있어서 시간에 따른 편차에 따라 고대역 이득 계수들(S60-1)을 감쇠시키도록 구성된다. 이득 계수 감쇠기(G32)는 요구되는 시간 인터벌에 걸친 상기 관계(예컨대, 연속적인 이득 계수들 간의, 또는 현재 프레임에 걸친)의 변화를 평가하도록 구성되는 편차 계산기(variation calculator)(G40)를 포함한다. 예를 들어, 편차 계산기(G40)는 현재 프레임에 걸친 엔벌로프들 간의 연속적인 간격들의 제곱 차이(squared difference)들의 합을 계산하도록 구성될 수 있다.
이득 계수 감쇠기(G32)는 계산된 편차들에 따라서 감쇠 계수 값들을 선택하거나 아니면 계산하도록 구성되는 계수 계산기(G50)를 포함한다. 또한 이득 계수 감쇠기(G32)는, 곱셈기(multiplier) 또는 가산기(adder)와 같이, 상기 감쇠 계수들을 고대역 이득 계수들(S60-1)에 적용하여 고대역 이득 계수들(S60-2)을 얻도록 구성되는 결합기를 포함하며, 이들은 이후에 저장 또는 전송을 위해 양자화될 수 있다. 편차 계산기(variation calculator)(G40)가 엔벌로프 값들의 각 쌍에 대한 계산된 편차(예컨대, 상기 엔벌로프들과 이전 또는 이후의 현재의 간격(distance) 간의 제곱 차이(squared difference)와 같은)의 각각의 값을 생성하도록 구성되는 경우에 대해서, 이득 제어 엘리먼트는 각각의 감쇠 계수(attenuation factor)를 각각의 이득 계수에 적용하도록 구성될 수 있다. 편차 계산기(G40)가 엔벌로프 값들의 쌍들의 각 세트에 대해 계산된 편차의 하나의 값(예컨대, 현재 프레임의 엔벌로프 값들의 쌍들에 대한 하나의 계산된 편차)을 생성하도록 구성되는 경우에 대해, 상기 이득 제어 엘리먼트는 동일한 감쇠 계수를, 대응하는 프레임의 각각의 이득 계수에 대해서와 같이, 둘 이상의 대응하는 이득 계수에 적용하도록 구성될 수 있다. 전형적인 예로, 임의의 다른 요구되는 범위가 이용될 수 있을지라도, 상기 감쇠 계수들의 값들은 최소 크기인 영(zero) dB에서부터 최대 크기인 6 dB까지(또는 대안적으로, 1의 계수로부터 0.25의 계수까지)의 범위일 수 있다. dB 형태로 표현되는 감쇠 계수 값들이, 감쇠 동작이 각각의 이득 계수로부터 상기 감쇠 계수를 차감하는 것을 포함하도록, 양의 값들을 갖거나, 또는 감쇠 동작이 상기 감쇠 계수를 각각의 이득 계수에 더하는 것을 포함할 수 있도록, 음의 값들을 가질 수 있음에 유의하여야 한다.
계수 계산기(G50)는 이산 감쇠 계수 값들의 세트 중에서 하나를 선택하도록 구성될 수 있다. 예를 들어, 계수 계산기(G50)는 상기 계산된 편차 및 하나 이상의 임계 값들 간의 관계에 따라서 대응하는 감쇠 계수 값을 선택하도록 구성될 수 있다. 도 36a는 계산된 편차 값들의 영역(domain)이 임계 값들(T1 내지 T3)에 따라서 이산 감쇠 계수 값들(V0 내지 V3)의 세트로 매핑되는 그러한 예의 플롯을 나타낸다.
대안적으로, 계수 계산기(G50)는 상기 감쇠 계수 값을 상기 계산된 편차의 함수로서 계산하도록 구성될 수 있다. 도 36b는 계산된 편차로부터 영역(L1 내지 L2)에 대해 선형인 감쇠 계수 값으로의 그러한 매핑의 예시의 플롯을 나타내며, 여기서 L0는 상기 계산된 편차의 최소값이고, L3는 상기 계산된 편차의 최대값이며, L0<=L1<=L2<=L3 이다. 본 예시에서, L1보다 작은(대안적으로, 크지 않은) 계산된 편차 값들은 최소 감쇠 계수 값(V0)(예컨대, 0dB)으로 매핑되며, L3보다 큰(대안적으로, 작지 않은) 계산된 편차 값들은 최대 감쇠 계수 값(V1)(예컨대, 6dB)으로 매핑된다. L1과 L2 간의 계산된 편차 값들의 영역은 V0와 V1 간의 감쇠 계수 값들의 범위에 선형적으로 매핑된다. 다른 구현들로, 계수 계산기(G50)는 상기 영역(L1 내지 L2) 중 적어도 일부에 대해 비선형 매핑(예컨대, 시그모이드(sigmoid), 다 항(polynomial), 또는 지수(exponential) 함수)을 적용하도록 구성된다.
결과적인 이득 엔벌로프 내의 불연속성(discontinuity)을 제한하는 방식으로 이득 계수 감쇠기를 구현하는 것이 바람직할 수 있다. 일부 구현들로, 계수 계산기(G50)는 상기 감쇠 계수 값이 한 번에 변화(예컨대, 한 프레임 또는 서브프레임으로부터 다음 프레임 또는 서브프레임까지)할 수 있는 정도를 제한하도록 구성된다. 도 36a에 도시된 바와 같은 증분 매핑(incremental mapping)에 대해, 예를 들어, 계수 계산기(G50)는 상기 감쇠 계수 값을 하나의 감쇠 계수 값으로부터 다음 값으로 단지 증분들의 최대 회(예컨대, 1 또는 2) 변경하도록 구성될 수 있다. 도 36b에 도시된 바와 같은 비-증분(non-incremental) 매핑에 대해, 계수 계산기(G50)는 상기 감쇠 계수 값을 하나의 감쇠 계수 값으로부터 다음 값으로 단지 최대 양(예컨대, 3 dB) 변경하도록 구성될 수 있다. 추가적인 예로, 계수 계산기(G50)는 감쇠 계수 값에 있어서 감소보다 더 신속한 증가를 허용하도록 구성될 수 있다. 그러한 특징은 고대역 이득 계수들의 신속한 감쇠로 하여금 엔벌로프 부정합(mismatch)을 마스크(mask)하게 하고 더 느린 복구(recovery)로 하여금 불연속성을 감소시키게 하여 줄 수 있다.
또한 고대역 신호(S30)의 엔벌로프와 합성된 고대역 신호(S130)의 엔벌로프 간의 관계에 있어서 시간에 따른 편차의 정도는 고대역 이득 계수들(S60b)의 값들 간의 변동(fluctuation)으로써 나타낼 수 있다. 시간에 따른 이득 계수들간의 변동 부재는 상기 신호들이, 시간에 따른 레벨의 유사한 변동들과 함께, 유사한 엔벌로프들을 갖는다는 것을 지시할 수 있다. 시간에 따른 상기 이득 계수들 간의 큰 편차는 상기 두 개의 신호들의 엔벌로프들 간의 현저한 차이와, 그에 따라, 대응하 는 디코딩된 고대역 신호(S100)의 열악한 예상 품질을 지시할 수 있다. 고대역 인코더(A202)의 추가적 구현들은 상기 이득 계수들 간의 변동 정도에 따라서 고대역 이득 계수들(S60b)을 감쇠시키도록 구성된다.
도 37은 고대역 이득 계수 계산기(A232)의 배치 및 이득 계수 감쇠기(G30)의 구현(G34)의 블록도를 나타낸다. 이득 계수 감쇠기(G34)는 상기 고대역 이득 계수들 간의 시간에 따른 편차에 따라서 고대역 이득 계수들(S60-1)을 감쇠시키도록 구성된다. 이득 계수 감쇠기(G34)는 현재 서브프레임 또는 프레임에 대한 이득 계수들 간의 변동을 평가하도록 구성되는 편차 계산기(G60)를 포함한다. 예를 들어, 편차 계산기(G60)는 현재 프레임에 대한 연속적인 고대역 이득 계수들(60b-1) 간의 제곱 차이(squared difference)들의 합을 계산하도록 구성될 수 있다.
도 23a 및 23b에 도시된 바와 같은 특정한 일례로, 고대역 이득 계수(S60b)는 프레임 당 5개의 서브프레임들 각각에 대해 계산된다. 이 경우, 편차 계산기(G60)는 상기 이득 계수들 간의 편차를 상기 프레임의 연속적인 이득 계수들 간의 4개의 차이들의 제곱들의 합으로서 계산하도록 구성될 수 있다. 대안적으로, 상기 합은 상기 프레임의 제 1 이득 계수와 이전 프레임의 최종 이득 계수 간의 차이의 제곱, 및/또는 상기 프레임의 최종 이득 계수와 다음 프레임의 제 1 이득 계수 간의 차이의 제곱을 포함할 수도 있다. 다른 구현으로(예컨대, 상기 이득 계수들이 대수적으로 스케일링되지 않는), 편차 계산기(G60)는 차이(difference)들 보다는 연속적인 이득 계수들의 비율(ratio)들에 기초하여 상기 편차를 계산하도록 구성될 수 있다.
이득 계수 감쇠기(G34)는 상기 계산된 편차들에 따라서 감쇠 계수들을 선택하거나 아니면 계산하도록 구성되는 상기 기술된 바와 같은 계수 계산기(G50)의 예를 포함한다. 일례로, 계수 계산기(G50)는 다음과 같은 표현에 따라서 감쇠 계수 값 fa 를 계산하도록 구성된다:
f a = 0.8 + 0.5v,
여기서 v는 편차 계산기(G60)에 의해 생성된 계산된 편차이다. 본 예시에서, f a 의 값이 1(unity)을 초과하지 않도록, v의 값을 스케일링하거나 그렇지 않으면 0.4보다 크지 않도록 제한하는 것이 바람직할 수 있다. 또한 상기 f a 의 값을 대수적으로 스케일링하는 것이 바람직할 수 있다(예컨대, dB로 표현되는 값을 얻기 위하여).
또한 이득 계수 감쇠기(G34)는, 곱셈기 또는 가산기와 같이, 상기 감쇠 계수들을 고대역 이득 계수들(S60-1)에 적용하여 고대역 이득 계수들(S60-2)을 얻도록 구성되는 결합기를 포함하며, 이는 이후에 저장 또는 전송을 위해 양자화될 수 있다. 편차 계산기(G60)가 각각의 이득 계수에 대한 계산된 편차의 개별 값을 생성하도록 구성되는 경우에(예컨대, 상기 이득 계수 및 이전 또는 이후의 이득 계수 간의 제곱 차이에 기초하여), 이득 제어 엘리먼트는 각각의 감쇠 계수를 각각의 이득 계수에 적용하도록 구성될 수 있다. 편차 계산기(G60)가 이득 계수들의 각각의 세트에 대해 계산된 편차(예컨대, 현재 프레임에 대한 하나의 계산된 편차)의 하나의 값을 생성하도록 구성되는 경우에, 상기 이득 제어 엘리먼트는 동일한 감쇠 계수를, 대응하는 프레임의 각각의 이득 계수에 대해서와 같이, 둘 이상의 대응하는 이득 계수에 적용하도록 구성될 수 있다. 일반적인 예로, 다른 임의의 요구되는 범위가 이용될 수 있을지라도, 상기 감쇠 계수들의 값들은 최소 크기 영(zero) dB에서부터 최대 크기 6 dB까지(또는 대안적으로, 계수 1로부터 계수 0.25까지, 또는 계수 1로부터 계수 0까지)의 범위일 수 있다. dB 형태로 표현된 감쇠 계수 값들은, 감쇠 동작이 각각의 이득 계수로부터 감쇠 계수 값을 공제하도록, 양의 값들을 가지거나, 또는 감쇠 동작이 각각의 이득 계수에 상기 감쇠 계수를 더하도록, 음의 값들을 가질 수 있다.
전술한 내용은 엔벌로프 계산기(G10)가 합성된 고대역 신호(S130)의 엔벌로프를 계산하도록 구성된다고 가정하는 반면, 엔벌로프 계산기(G10a)가 협대역 여기 신호(S80) 또는 고대역 여기 신호(S120)의 엔벌로프를 대신 계산하도록 구성되는 배치(arrangement)들이 명백히 고려되고 개시된다는 점에 다시금 유의하여야 한다.
다른 구현들로, 상기 고대역 이득 계수들(S60b)의 감쇠(예컨대, 역양자화 이후)는 디코더에서 계산된 바와 같은 이득 계수들 간의 편차에 따라서 고대역 디코더(B200)의 구현에 의해 수행된다. 예를 들어, 도 38은 전술한 바와 같이 이득 계수 감쇠기(G34)의 예시를 포함하는 고대역 디코더(B202)의 구현(B204)의 블록도를 나타낸다. 추가적인 구현들로, 상기 역양자화 및 감쇠된 이득 계수들이 대신 협대역 여기 신호(S80) 또는 고대역 여기 신호(S120)에 적용될 수 있다.
도 39는 일 실시예에 따른 신호 처리 방법(GM10)의 순서도를 나타낸다. 태스크(GT10)는 (A) 스피치 신호의 저주파 부분에 기초하는 엔벌로프와 (B) 상기 스피치 신호의 고주파 부분에 기초하는 엔벌로프 간의 관계의 시간에 따른 편차를 계산한다. 태스크(GT20)는 상기 엔벌로프들의 시변적인 관계에 따른 복수의 이득 계수들을 계산한다. 태스크(GT30)는 상기 계산된 편차에 따라서 상기 이득 계수들 중 적어도 하나를 감쇠시킨다. 일례로, 상기 계산된 편차는 연속적인 상기 복수의 이득 계수들 간의 제곱 차이(squared difference)들의 합이다.
전술한 바와 같이, 상기 이득 계수들의 상대적으로 큰 편차들은 협대역 및 고대역 잔여 신호들 간의 부정합(mismatch)을 지시할 수 있다. 그러나, 편차들은 다른 이유들에 의해서도 상기 이득 계수들 간에 발생할 수 있다. 예를 들어, 이득 계수 값들의 계산은 샘플마다 보다는, 서브프레임마다 수행될 수 있다. 중첩 윈도윙 함수(overlapping windowing function)가 이용되는 경우조차, 이득 엔벌로프의 감소된 샘플링 레이트가 인접한 서브프레임들 간의 레벨에 있어서 지각적으로 두드러진 변동(fluctuation)을 초래할 수 있다. 또한 상기 이득 계수들을 추정하는데 있어서 다른 부정확성들은 디코딩된 고대역 신호(S100)에서의 과도한 레벨의 변동들에 기여할 수도 있다. 그러한 이득 계수 편차들이 전술된 바와 같이 이득 계수 감쇠를 유발(trigger)하는 편차보다 크기에 있어서 더 작을 수 있을지라도, 그럼에도 이들은 디코딩된 신호에서 불쾌한 잡음과 왜곡된 품질을 야기할 수 있다.
고대역 이득 계수들(S60b)의 평활화(smoothing)를 수행하는 것이 바람직할 수 있다. 도 40은 양자화 이전에 고대역 이득 계수들(S60b)의 평활화를 수행하도록 배치되는 이득 계수 평활화기(smoother)(G80)를 포함하는 고대역 인코더(A202)의 구현(A205)의 블록도를 나타낸다. 시간에 따른 상기 이득 계수들 간의 변동들을 감소시킴으로써, 이득 계수 평활화 동작은 디코딩된 신호의 더 높은 지 각(perceive) 품질 및/또는 이득 계수들의 더 효율적인 양자화에 보탬이 될 수 있다.
도 41은 지연 엘리먼트(F20), 두 개의 가산기들, 및 하나의 곱셈기를 포함하는 이득 계수 평활화기(G80)의 구현(G82)의 블록도를 나타낸다. 이득 계수 평활화기(G82)는 다음과 같은 최소 지연 등식에 따라서 고대역 이득 계수들을 필터링하도록 구성된다:
y(n) = βy(n-1)+(1-β)x(n), (4)
여기서 x는 입력 값을 지시하고, y는 출력 값을 지시하고, n은 시간 인덱스를 지시하고, β는 평활화 계수(F10)를 지시한다. 평활화 계수 β의 값이 영(zero)이라면, 평활화가 발생하지 않는다. 상기 평활화 계수 β의 값이 최대라면, 최대 정도의 평활화가 일어난다. 이득 계수 평활화기(G82)는, 최대로 평활화된 값이 현재 및 이전의 평활화된 값들로부터의 동일한 기여(contribution)들을 포함하도록, 0과 0.5 사이의 값을 대신 이용하는 것이 바람직할 수 있을지라도, 0과 1 사이인 평활화 계수(F10)의 임의의 요망되는 값을 이용하도록 구성될 수 있다.
표현(4)은 다음과 같이 표현되고 동등하게 구현될 수 있음에 유의하여야 한다
y(n) = (1-λ)y(n-1)+λx(n), (4b)
여기서 평활화 계수 λ의 값이 1이면, 평활화가 발생하지 않는 반면, 상기 평활화 계수 λ의 값이 최소이면, 최대 정도의 평활화가 발생한다. 본 원리는, 이득 계수 평활화기(G80)의 다른 IIR 및/또는 FIR 구현들에 대해서 뿐 아니라, 전술한 바와 같은 이득 계수 평활화기(G82)의 다른 구현들에도 적용된다는 점이 고려되며 이에 의해 개시된다.
이득 계수 평활화기(G82)는 고정 값을 갖는 평활화 계수(F10)를 적용하도록 구성될 수 있다. 대안적으로, 고정 평활화(fixed smoothing) 보다는 상기 이득 계수들의 적응적(adaptive) 평활화를 수행하는 것이 바람직할 수 있다. 예를 들어, 상기 이득 계수들 간의 더 큰 편차들을 보존하는 것이 바람직할 수 있으며, 이는 이득 엔벌로프의 지각적으로(perceptually) 현저한 특징(feature)을 나타낼 수 있다. 그러한 편차들의 평활화는 자체적으로 상기 이득 엔벌로프의 훼손(smearing)과 같은 디코딩된 신호 내의 아티팩트(artifact)들을 초래할 수 있다.
추가적인 구현으로, 이득 계수 평활화기(G80)는 이득 계수들 간의 계산된 편차의 크기에 따라 적응적인 평활화 동작을 수행하도록 구성된다. 예를 들어, 이득 계수 평활화기(G80)의 그러한 구현은 현재 및 이전의 추정 이득 계수들 간의 간격(distance)이 상대적으로 클 때 평활화를 덜 수행(예컨대, 더 낮은 평활화 계수 값을 이용하여)하도록 구성될 수 있다.
도 42는 지연 엘리먼트(F30) 및 이득 계수들 간의 편차의 크기에 따라서 평활화 계수(F10)의 가변(variable) 구현(F12)을 계산하도록 구성되는 계수 계산기(F40)를 포함하는 이득 계수 평활화기(G82)의 구현(G84)의 블록도를 도시한다. 본 예시에서, 계수 계산기(F40)는 현재 및 이전 이득 계수들 간의 차이의 크기에 따라서 평활화 계수(F12)를 선택하거나 아니면 계산하도록 구성된다. 이득 계수 평활화기(G82)의 다른 구현들로, 계수 계산기(F40)는 현재 및 이전 이득 계수들 간 의 차이 간격(difference distance)의 크기, 또는 비율에 따라서 평활화 계수(F12)를 선택하거나 아니면 계산하도록 구성될 수 있다.
계수 계산기(F40)는 이산 평활화 계수 값들의 세트 중에서 하나를 선택하도록 구성될 수 있다. 예를 들어, 계수 계산기(F40)는 상기 계산된 편차의 크기와 하나 이상의 임계 값들 간의 관계에 따라서 대응하는 평활화 계수 값을 선택하도록 구성될 수 있다. 도 43a는 계산된 편차 값들의 영역이 임계 값들(T1 내지 T3)에 따라서 이산 감쇠 계수 값들(V0 내지 V3)의 세트로 매핑되는 그러한 예시의 플롯을 나타낸다.
대안적으로, 계수 계산기(F40)는 상기 평활화 계수 값을 상기 계산된 편차의 크기 함수로서 계산하도록 구성될 수 있다. 도 43b는 계산된 편차로부터 영역(L1 내지 L2)에 걸쳐 선형인 평활화 계수 값으로의 매핑의 예의 플롯을 나타내며, 여기서 L0는 상기 계산된 편차 크기의 최소 값이고, L3는 계산된 편차 크기의 최대 값이며, L0<=L1<=L2<=L3 이다. 본 예시에서, L1보다 작은(대안적으로, 크지 않은) 계산된 편차 크기들은 최소 평활화 계수 값(V0)(예컨대, 0dB)으로 매핑되며, L3보다 큰(대안적으로, 작지 않은) 계산된 편차 크기들은 최대 평활화 계수 값(V1)(예컨대, 6 dB)으로 매핑된다. L1과 L2 간의 계산된 편차 크기들의 영역은 V0와 V1 사이의 평활화 계수 값들의 범위에 선형적으로 매핑된다. 다른 구현들로, 계수 계산기(F40)는 영역 L1 내지 L2의 적어도 일부에 대해 비선형 매핑(예컨대, 시그모이드(sigmoid), 다항(polynomial), 또는 지수 함수)를 적용하도록 구성된다. 일례로, 0과 0.5 사이 또는 0과 1 사이의 다른 임의의 요구되는 범위가 이용될 수 있을 지라도, 상기 평활화 계수의 값들은 최소 0에서 최대 0.5까지의 범위이다.
일례로, 계수 계산기(F40)는 다음과 같은 표현에 따라서 평활화 계수(F12)의 값 v s 를 계산하도록 구성된다:
여기서 d a 의 값은 현재 및 이전 이득 계수 값들 간의 차이의 크기에 기초한다. 예를 들어, d a 의 값은 현재 및 이전 이득 계수 값들의 절대값, 또는 제곱으로서 계산될 수 있다.
추가적인 구현으로, d a 의 값은 상기 기술된 바와 같이 감쇠기(G30)로의 입력 전에 이득 계수 값들로부터 계산되며, 결과적인 평활화 계수는 감쇠기(G30)로의 입력 후에 상기 이득 계수들에 적용된다. 그러한 경우에, 예를 들어, 프레임에 대한 v s 의 값들의 평균 또는 합에 기초하는 값이 이득 계수 감쇠기(G34) 내의 계수 계산기(G50)에 대한 입력으로서 이용될 수 있으며, 편차 계산기(G60)는 생략될 수 있다. 추가적인 배치로, 상기 d a 의 값은 이득 계수 감쇠기(G34)에 대한 입력 전에 프레임에 대한 인접 이득 계수 값들(가능하게는 선행 및/또는 이후의 이득 계수 값을 포함함) 간의 차이들의 절대값 또는 제곱들의 평균 또는 합으로서 계산되어, 상기 v s 의 값이 프레임마다 한 번 갱신되고 또한 계수 계산기(G50)에 대한 입력으로서 제공된다. 적어도 후자의 예시에서, 계수 계산기(G50)에 대한 입력의 값은 0.4보다 크지 않도록 제한된다.
이득 계수 평활화기(G80)의 다른 구현들은 추가적인 이전의 평활화된 이득 계수 값들에 기초하는 평활화 동작들을 수행하도록 구성될 수 있다. 그러한 구현들은 둘 이상의 평활화 계수(예컨대, 필터 계수)를 가질 수 있으며, 이는 함께 및/또는 독립적으로 적응적으로 변할 수 있다. 이득 계수 평활화기(G80)는, 그러한 구현들이 추가적인 지연(latency)을 초래할 수 있을지라도, 역시 향후의 이득 계수 값들에 기초하는 평활화 동작들을 수행하도록 구현될 수도 있다.
이득 계수 감쇠 및 이득 계수 평활화 동작들 모두를 포함하는 구현에 대해, 상기 평활화 동작이 감쇠 기준(criteria)의 결정과 충돌하지 않게 하기 위해, 상기 감쇠를 먼저 수행하는 것이 바람직할 수 있다. 도 44는 여기 기술되는 임의의 상기 구현들에 따라서 이득 계수 감쇠기(G30) 및 이득 계수 평활화기(G80)의 예들을 포함하는 고대역 인코더(A202)의 그러한 구현(A206)의 블록도를 나타낸다.
또한 여기 기술된 바와 같은 적응적 평활화 동작은 이득 계수 계산의 다른 스테이지들에도 적용될 수 있다. 예를 들어, 고대역 인코더(A200)의 추가적인 구현들은 하나 이상의 엔벌로프들의 적응적 평활화, 및/또는 서브프레임 또는 프레임-당 계산되는 감쇠 계수들의 적응적 평활화를 포함한다.
이득 평활화는 다른 배치들에서도 이점들을 가질 수 있다. 예를 들어, 도 56는 고대역 신호(S30)와 협대역 여기 신호(S80)에 기초하는 신호 간의 관계보다는 합성된 고대역 신호(S130)에 기초하여 이득 계수들을 계산하도록 구성되는 고대역 이득 계수 계산기(A235)를 포함하는 고대역 인코더(A200)의 구현(A207)을 나타내는 블록도이다. 도 46은 고대역 이득 계수 계산기(A235)의 블록도를 나타내며, 이는 여기 기술된 바와 같은 엔벌로프 계산기(G10)와 계수 계산기(G20)의 예들을 포함한다. 고대역 인코더(A207)는 또한 여기 기술된 임의의 상기 구현들에 따라서 상기 이득 계수들에 평활화 동작을 수행하도록 구성되는 이득 계수 평활화기(G80)의 예를 포함한다.
도 47은 일 실시예에 따른 신호 처리 방법(FM10)의 순서도를 나타낸다. 태스크(FT10)는 복수의 이득 계수들 간의 시간에 따른 편차를 계산한다. 태스크(FT20)는 상기 계산된 편차에 기초하여 평활화 계수를 계산한다. 태스크(FT30)는 상기 평활화 계수에 따라서 상기 이득 계수들 중 적어도 하나를 평활화한다. 일례로, 상기 계산된 편차는 상기 복수의 이득 계수들 중 인접한 것들 사이의 차이이다.
상기 이득 계수들의 양자화는 통상적으로 한 프레임으로부터 다음 프레임까지 상관되지 않는 랜덤한 오차(random error)를 초래한다. 이 오차는 상기 양자화된 이득 계수들이 양자화되지 않은 이득 계수들보다 덜 평활(smooth)하게 할 수 있으며 디코딩된 신호의 지각적인 품질을 감소시킬 수 있다. 이득 계수들(또는 이득 계수 벡터들)의 독립적 양자화는 일반적으로 비양자화된 이득 계수들(또는 이득 계수 벡터들)과 비교하여 프레임에서 프레임까지의 스펙트럼 변동량을 증가시키며, 이러한 이득 변동들은 상기 디코딩된 신호가 부자연스럽게 들리게 할 수 있다.
양자화기는 일반적으로 입력 값을 한 세트의 이산 출력 값들 중 하나에 매핑하도록 구성된다. 입력 값들의 범위가 단일 출력 값에 매핑되도록, 제한된 수의 출력 값들이 이용가능하다. 양자화는 코딩 효율성을 증가시키는데 이는 대응하는 출력 값을 지시하는 인덱스가 본래의 입력 값에 비해서 더 적은 비트들로써 전송될 수 있기 때문이다. 도 48은 스칼라(scalar) 양자화기에 의해 일반적으로 수행되는 1-차원(one-dimensional) 매핑의 예를 도시한다.
그와 동시에 상기 양자화기는 벡터 양자화기일 수도 있으며, 이득 계수들은 일반적으로 벡터 양자화기를 이용하여 양자화된다. 도 49는 벡터 양자화기에 의해 수행되는 바와 같은 다차원 매핑의 간단한 일례를 도시한다. 본 예시에서, 입력 공간(input space)은 다수의 Voronoi 영역들로 분할된다(예컨대, 최근접-이웃 기준(nearest-neighbor criterion)에 따라서). 상기 양자화는 각각의 입력 값을, 여기서 점(point)로서 도시되는, 대응하는 Voronoi 영역(일반적으로, 도심(centroid))을 나타내는 값으로 매핑한다. 본 예시에서, 상기 입력 공간은 여섯 개의 영역들로 분할되어, 임의의 입력 값이 단 6개의 상이한 상태(state)들만을 갖는 인덱스에 의해 표현될 수 있다.
입력 신호가 매우 평활하다면, 상기 양자화의 출력 공간 내의 값들 간의 최소 스텝(step)에 따라서, 때때로 상기 양자화된 출력이 훨씬 덜 평활한 일이 발생할 수 있다. 도 50a는 단지 1 양자화 레벨(단지 하나의 그러한 레벨이 여기 도시됨) 내에서 변화하는 평활한 1-차원 신호의 일례를 나타내며, 도 50b는 양자화 후의 이러한 신호의 예를 나타낸다. 도 50a의 상기 입력이 단지 매우 작은 범위에 걸쳐 변화할지라도, 도 50b의 결과적인 출력은 더 급격한 전이(transition)들을 포함하며 훨씬 덜 평활하다. 그러한 효과는 가청 아티팩트들을 초래할 수 있으며, 이득 계수들에 대해 이러한 효과를 감소시키는 것이 바람직할 수 있다. 예를 들어, 이득 계수 양자화 성능은 시간 잡음 쉐이핑(temporal noise shaping)을 삽입(incorporate)함으로써 개선될 수 있다.
일 실시예에 따른 방법으로, 이득 계수들의 시리즈가 인코더 내에서 스피치의 각 프레임(또는 다른 블록)에 대해 계산되며, 상기 시리즈는 디코더로의 효율적 전송을 위해 벡터 양자화된다. 양자화 후에, 양자화 오차(양자화된 것과 양자화되지 않은 파라미터 벡터 간의 차이로서 정의됨)가 저장된다. 프레임 N의 파라미터 벡터를 양자화하기 전에, 프레임 N-1의 양자화 오차는 가중 계수(weighting factor)에 의해 감소되며 프레임 N의 양자화 벡터에 추가된다. 현재 및 이전의 추정된 이득 엔벌로프들 간의 차이가 상대적으로 클 때 상기 가중 계수의 값이 더 작은 것이 바람직할 수 있다.
일 실시예에 따른 방법으로, 이득 계수 양자화 오차 벡터는 각 프레임에 대해 계산되고 1.0보다 작은 값을 갖는 가중 계수 b가 곱해진다. 양자화 전에, 이전 프레임에 대한 스케일링된 양자화 오차가 이득 계수 벡터에 가산된다(입력 값(V10)). 그러한 방법의 양자화 동작은 다음과 같은 표현에 의해 기술될 수 있다:
y(n)=Q(s(n)+b[y(n-1)-s(n-1)],
여기서 s(n)은 프레임 n에 관한 평활화된 이득 계수 벡터이고, y(n)은 프레임 n에 대한 양자화된 이득 계수 벡터이고, Q(·)는 최근접-이웃(nearest-neighbor) 양자화 동작이며, b는 가중 계수이다.
양자화기(430)의 구현(435)은 입력 값(V10)(예컨대, 이득 계수 벡터)의 평활화된 값(V20)의 양자화된 출력 값(V30)을 생성하도록 구성되며, 여기서 상기 평활화된 값(V20)은 가중 계수 b(V40) 및 이전 출력 값(V30a)의 양자화 오차에 기초한다. 그러한 양자화기는 추가적인 지연 없이 이득 변동들을 감소시키는데 적용될 수 있다. 도 51은 양자화기(435)를 포함하는 고대역 인코더(A202)의 구현(A208)을 나타내는 블록도이다. 그러한 인코더는 이득 계수 감쇠기(G30) 및 이득 계수 평활화기(G80) 중 하나 또는 모두를 포함하지 않고 구현될 수도 있음에 유의하여야 한다. 또한 양자화기(435)의 구현은 고대역 인코더(A204)(도 38) 또는 고대역 인코더(A207)(도 47) 내의 양자화기(430)에 이용될 수 있음에 유의하여야 하며, 이는 이득 계수 감쇠기(G30) 및 이득 계수 평활화기(G80) 중 하나 또는 양자를 갖거나 갖지 않고 구현될 수 있다.
도 52는 양자화기(430)의 일 구현(435a)을 나타내는 블록도이며, 본 구현에 특정할 수 있는 값들이 인덱스 a에 의해 지시될 수 있다. 본 예시에서, 양자화 오차는 역 양자화기(Q20)에 의해 역양자화된 바와 같은 현재의 출력 값(V30a)으로부터 평활화된 값(V20a)의 현재 값을 감산함으로써 계산된다. 상기 오차는 지연 엘리먼트(DE10)에 저장된다. 평활화된 값(V20a) 자체는 현재 입력 값(V10)과 스케일 계수(scale factor)(V40)에 의해 가중된(예컨대, 곱해진) 것과 같은 이전 프레임의 양자화 오차의 합이다. 또한 양자화기(435a)는 대신에 상기 가중 계수(V40)가 지연 엘리먼트(D10)에 양자화 오차를 저장하기 전에 적용되도록 구현될 수도 있다.
도 50c는 도 50a의 입력 신호에 응답하여 양자화기(435a)에 의해 생성된 바 와 같은 출력 값들(V30a)의 (역양자화된) 시퀀스의 예시를 나타낸다. 본 예시에서, b의 값은 0.5로 고정된다. 도 50c의 신호가 도 50a의 변동하는 신호보다 더 평활함을 알 수 있다.
재귀 함수(recursive function)를 이용하여 피드백 양을 계산하는 것이 바람직할 수 있다. 예를 들어, 상기 양자화 오차는 현재의 평활화된 값에 대해서 보다는 현재의 입력 값에 대하여 계산될 수 있다. 그러한 방법은 다음과 같은 표현으로써 기술될 수 있다:
y(n)=Q[s(n)], s(n)=x(n)+b[y(n-1)-s(n-1)],
여기서 x(n)은 프레임 n에 대한 입력 이득 계수 벡터이다.
도 53은 양자화기(430)의 구현(435b)을 나타내는 블록도이며, 여기서 본 구현에 특정할 수 있는 값들은 인덱스 b에 의해 지시된다. 본 예시에서, 양자화 오차는 역 양자화기(Q20)에 의해 역양자화된 바와 같은 현재 출력 값(V30b)으로부터 현재 입력 값(V10)을 감산함으로써 계산된다. 상기 오차는 지연 엘리먼트(DE10)에 저장된다. 평활화된 값(V20b)은 현재 입력 값(V10)과 스케일 계수(V40)에 의해 가중된(예컨대, 곱해진) 것과 같은 이전 프레임의 양자화 오차의 합이다. 또한 양자화기(230b)는 대신 가중 계수(V40)가 지연 엘리먼트(DE10)에 상기 양자화 오차의 저장 전에 적용되도록 구현될 수도 있다. 또한 구현(435b)과 반대로 구현(435a)에서 가중 계수(V40)의 상이한 값들을 이용하는 것이 가능하다.
도 50d는 도 50a의 입력 신호에 응답하여 양자화기(435b)에 의해 생성된 바와 같은 출력 값들(V30b)의 (역양자화된) 시퀀스의 예시를 나타낸다. 본 예시에 서, 가중 계수(b)의 값은 0.5로 고정된다. 도 50d의 신호가 도 50a의 변동하는 신호보다 더 평활함을 알 수 있다.
여기 도시되는 실시예들은 도 52 또는 53에 도시된 바와 같은 배치에 따라서 기존의 양자화기(Q10)를 대체하거나 증가시킴으로써 구현될 수 있음에 유의하여야 한다. 예를 들어, 양자화기(Q10)는 예측 벡터 양자화기(predictive vector quantizer), 다중-스테이지(multi-stage) 양자화기, 분할(split) 벡터 양자화기로서, 또는 이득 계수 양자화를 위한 임의의 다른 방식에 따라서 구현될 수 있다.
일례로, 가중 계수 b의 값은 0과 1 사이의 요구되는 값으로 고정된다. 대안적으로, 가중 계수 b의 값을 동적으로 조정하도록 양자화기(435)를 구성하는 것이 바람직할 수 있다. 예를 들어, 양자화기(435)는 양자화되지 않은 이득 계수들 또는 이득 계수 벡터들에 이미 존재하는 변동 정도에 따라서 상기 가중 계수 b의 값을 조정하도록 구성되는 것이 바람직할 수 있다. 현재 및 이전 이득 계수들 또는 이득 계수 벡터들 간의 차이가 클 때, 가중 계수 b의 값은 영(0)에 가까우며 잡음 쉐이핑이 거의 생기지 않는다. 현재 이득 계수 또는 벡터가 이전의 것과 거의 다르지 않을 때, 가중 계수 b의 값은 1.0에 가깝다. 그러한 방식으로, 시간에 따른 이득 엔벌로프 내의 전이(transition)들은(예컨대, 이득 계수 감소기(G30)의 구현에 의해 적용되는 감쇠들), 상기 이득 엔벌로프가 변화할 때 스미어링(smearing)을 최소화하면서 유지될 수 있는 한편, 상기 이득 엔벌로프가 하나의 프레임 또는 서브프레임에서 다음 프레임 또는 서브프레임까지 비교적 일정할 때 변동들이 감소될 수 있다.
도 54에 도시된 바와 같이, 양자화기(435a) 및 양자화기(435b)의 추가적인 구현들은 스케일 계수(V40)의 가변(variable) 구현(V42)을 계산하도록 배치되는 전술한 바와 같은 지연 엘리먼트(F30) 및 계수 계산기(F40)의 예를 포함한다. 예를 들어, 그러한 계수 계산기(F40)의 예는 인접 입력 값들(V10) 간의 차이의 크기에 기초하고 도 45a 및 45b에 도시된 바와 같은 매핑에 따라서 스케일 계수(V42)를 계산하도록 구성될 수 있다.
가중 계수 b의 값은 연속적인 이득 계수들 또는 이득 계수 벡터들 간의 간격(distance)에 비례하도록 만들어질 수 있으며, 임의의 다양한 간격들이 이용될 수 있다. 유클리드 놈(Euclidean norm)이 일반적으로 이용되지만, 이용될 수 있는 다른 것들로 맨해튼 간격(Manhattan distance)(1-놈), 체비셰프 간격(Chebyshev distance)(무한 놈), 마하라노비스 간격(Mahalanobis distance), 및 해밍(Hamming) 간격을 포함한다.
프레임마다, 여기 기술된 바와 같은 시간 잡음 쉐이핑(temporal noise shaping) 방법이 양자화 오류를 증가시킬 수 있음을 도 50a-50d로부터 알 수 있다. 그러나, 상기 양자화 동작의 절대 제곱 오차(absolute squared error)가 증가할 수 있을지라도, 상기 양자화 오차가 스펙트럼의 다른 부분으로 이동될 수 있다는 것이 잠재적인 이점이다. 예를 들어, 상기 양자화 오차는 더 낮은 주파수들로 이동될 수 있어서, 더 평활해지게 된다. 또한 입력 신호가 평활함에 따라, 더 평활한 출력 신호가 상기 입력 신호 및 평활화된 양자화 오차의 합으로서 얻어질 수 있다.
도 55a는 일 실시예에 따른 신호 처리 방법(QM10)의 순서도를 도시한다. 태스크(QT10)는 제 1 및 제 2 이득 계수 벡터들을 계산하며, 이는 스피치 신호의 인 접 프레임들에 대응할 수 있다. 태스크(QT20)는 상기 제 1 벡터의 적어도 일부에 기초하는 제 3 벡터를 양자화함으로써 제 1 양자화된 벡터를 발생시킨다. 태스크(QT30)는 상기 제 1 양자화된 벡터의 양자화 오차를 계산한다. 예를 들어, 태스크(QT30)는 상기 제 1 양자화된 벡터 및 제 3 벡터 간의 차이를 계산하도록 구성될 수 있다. 태스크(QT40)는 상기 양자화 오차에 기초하여 제 4 벡터를 계산한다. 예를 들어, 태스크(QT40)는 상기 제 4 벡터를 상기 양자화 오차의 스케일링된 버전과 상기 제 2 벡터의 적어도 일부분의 합으로서 계산하도록 구성될 수 있다. 태스크(QT50)는 상기 제 4 벡터를 양자화한다.
도 55b는 일 실시예에 따른 신호 처리 방법(QM20)의 순서도를 도시한다. 태스크(QT10)는 제 1 및 제 2 이득 계수들을 계산하며, 이는 스피치 신호의 인접 프레임들 또는 서브프레임들에 대응할 수 있다. 태스크(QT20)는 상기 제 1 이득 벡터에 기초하여 제 3 값을 양자화함으로써 제 1 양자화된 이득 계수를 발생시킨다. 태스크(QT30)는 상기 제 1 양자화된 이득 계수의 양자화 오차를 계산한다. 예를 들어, 태스크(QT30)는 상기 제 1 양자화된 이득 계수와 상기 제 3 값 간의 차이를 계산하도록 구성될 수 있다. 태스크(QT40)는 상기 양자화 오차에 기초하여 필터링된 이득 계수를 계산한다. 예를 들어, 태스크(QT40)는 상기 필터링된 이득 계수를 상기 양자화 오차의 스케일링된 버전과 상기 제 2 이득 계수의 합으로서 계산하도록 구성될 수 있다. 태스크(QT50)는 상기 필터링된 이득 계수를 양자화한다.
전술한 바와 같이, 여기 기술되는 실시예들은 협대역 시스템들과의 호환성을 지원하고 트랜스코딩(transcoding)에 대한 요구를 회피하는, 내장형 코딩(embedded coding)을 수행하는데 이용될 수 있는 구현들을 포함한다. 또한 고대역 코딩에 대한 지원은 칩(chip)들, 칩셋들, 장치들, 및/또는 백워드 호환성(backward compatibility)으로써 광대역 지원을 갖는 네트워크들과, 협대역 지원만을 갖는 것들 사이의 비용면에서 구별되도록 기능할 수도 있다. 또한 여기 기술된 바와 같은 고대역 코딩에 대한 지원은 저대역 코딩을 지원하기 위한 기술과 함께 이용될 수 있으며, 그러한 실시예에 따른 시스템, 방법, 또는 장치는 예를 들어, 약 50 또는 100 Hz 내지 최대 약 7 또는 8 kHz로부터의 주파수 성분들의 코딩을 지원할 수 있다.
전술한 바와 같이, 스피치 코더에 고대역 지원을 추가하는 것은, 특히 마찰음들의 구분에 관해서, 명료도(intelligibility)를 개선할 수 있다. 그러한 구분이 통상적으로 특정한 환경으로부터 인간 청취자에 의해 유래될 수 있을지라도, 고대역 지원은, 자동화 음성 메뉴 탐색 및/또는 자동 호 처리(call processing)용 시스템처럼, 음성 인식 기능과 다른 기계 번역 애플리케이션들을 가능하게 하는 것으로서 기능할 수 있다.
실시예에 따른 장치는 셀룰러 전화 또는 개인 휴대 정보 단말(PDA)과 같은 무선 통신용 휴대용 장치에 내장될 수 있다. 대안적으로, 그러한 장치는 VoIP 핸드셋, VoIP 통신을 지원하도록 구성되는 개인용 컴퓨터, 또는 전화나 VoIP 통신을 라우팅(route)하도록 구성되는 네트워크 장치와 같은 다른 통신 장치들에 포함될 수 있다. 예를 들어, 실시예에 따른 장치는 통신 장치용 칩 또는 칩셋 내에 구현될 수 있다. 특정 애플리케이션에 따라, 그러한 장치는 그러한 기능들을 스피치 신호의 아날로그-디지털 및/또는 디지털-아날로그 변환, 스피치 신호에 증폭 및/또는 다른 신호 처리 동작들을 수행하는 회로, 및/또는 코딩된 스피치 신호의 전송 및/또는 수신을 위한 무선-주파수 회로로서 포함할 수도 있다.
실시예들이 미국 가특허 출원 번호. 60/673,965 및/또는 미국 특허 출원 번호. 11/XXX,XXX(대리인 관리 번호: 050551)에 개시되는 하나 이상의 임의의 다른 특징들을 포함하거나 그리고/또는 함께 이용될 수 있음이 명백히 고려되며 개시되고, 본 출원은 그것을 우선권으로 청구한다. 또한 실시예들이 미국 가특허 출원 번호. 60/667,901 및/또는 임의의 상기 관련된 특허 출원들에 개시되는 임의의 하나 이상의 다른 특징들을 포함하거나 그리고/또는 함께 이용될 수 있음이 명백히 고려되며 개시된다. 그러한 특징들은 고대역에서 발생하며 협대역에는 실질적으로 존재하지 않는 짧은 듀레이션(duration)의 고-에너지 버스트(high-energy burst)들의 제거를 포함한다. 그러한 특징들은 저대역 및/또는 고대역 LSF들과 같은 계수 표현(coefficient representation)들의 고정 또는 적응적 평활화(예를 들어, 시간에 따른 LSF들의 시리즈 중 하나 이상, 가능하게는 모두의 엘리먼트들 각각을 평활화하기 위해 도 43 또는 44에 도시되고 여기 기술된 바와 같은 구조를 이용함으로써)를 포함한다. 그러한 특징들은 LSF들과 같은 계수 표현들의 양자화와 관련된 잡음의 고정 또는 적응적 쉐이핑을 포함한다.
상기 기술된 실시예들이 전술 사항은 임의의 당업자로 하여금 본 발명을 실시 또는 이용할 수 있도록 제시된다. 이러한 실시예들에 대해 다양한 변경들이 가능하며, 여기 제시되는 일반 원리들은 다른 실시예들에도 적용될 수 있다. 예를 들어, 실시예는 배선-접속 회로로서, 주문형 반도체(application-specific integrated circuit)에 조립된 회로 구성으로서, 또는 비-휘발성 스토리지에 로드(load) 되는 펌웨어 프로그램 또는 기계-판독가능 코드(마이크로프로세서 또는 다른 디지털 신호 처리 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들임)로서 데이터 저장 매체로부터 또는 데이터 저장 매체에 로드(load)되는 소프트웨어 프로그램으로서 부분 또는 전체적으로 구현될 수 있다. 상기 데이터 저장 매체는 반도체 메모리(동적 또는 정적 RAM(random-access memory), ROM(read-only memory), 및/또는 플래시 RAM을 포함할 수 있으나 이들로 제한되지는 않음), 또는 강유전성, 자기저항식, 오보닉(ovonic), 중합체, 또는 상-변화(phase-change) 메모리와 같은 스토리지 엘리먼트의 어레이; 또는 자기 또는 광 디스크와 같은 디스크 매체일 수 있다. 용어 "소프트웨어"는 소스 코드, 어셈블리 언어 코드, 기계어 코드, 이진 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 그러한 예들의 임의의 조합을 포함하는 것으로 보아야 한다.
고대역 여기 발생기들(A300 및 B300), 고대역 인코더(A100), 고대역 디코더(B200), 광대역 스피치 인코더(A100), 및 광대역 스피치 디코더(B100)의 구현들의 다양한 구성요소들은, 예를 들어, 동일한 칩 또는 칩셋 내의 둘 이상의 칩들 중에 탑재되는 전자 및/또는 광학 장치들로서 구현될 수 있다(그러나 비제한적으로 다른 배치들도 고려될 수 있음). 그러한 장치의 하나 이상의 구성요소들은 마이크로프로세서들, 내장형 프로세서들, IP 코어들, 디지털 신호 처리기들, FPGA들(field-programmable gate arrays), ASSP들(application-specific standard products), 및 ASIC들(application-specific integrated circuits)과 같은 로직 엘리먼트들(예컨대, 트랜지스터들, 게이트들)의 하나 이상의 고정 또는 프로그램가능한 어레이들로 구현될 수 있다. 또한 하나 이상의 그러한 구성요소들이 공통된 구조를 갖는 것도 가능하다(예컨대, 다른 시간에 다른 구성요소들에 대응하는 코드의 부분들을 실행하는데 이용되는 처리기, 다른 시간에 다른 구성요소들에 대응하는 태스크들을 수행하도록 실행되는 명령들의 세트, 또는 다른 시간에 다른 구성요소들에 대한 동작들을 수행하는 전자 및/또는 광학 장치들의 배치). 게다가, 하나 이상의 그러한 구성요소들이, 상기 장치가 내장되는 장치나 시스템의 다른 동작에 관련되는 태스크와 같이, 상기 장치의 동작에 직접적으로 관련되지 않은 명령들의 다른 세트들 또는 태스크들을 수행하는데 이용되는 것도 가능하다.
도 30은, 일 실시예에 따라, 협대역 부분 및 고대역 부분을 포함하는 스피치 신호의 고대역 부분을 인코딩하는 방법(M100)의 순서도를 나타낸다. 태스크(X100)는 상기 고대역 부분의 스펙트럼 엔벌로프를 특징짓는 필터 파라미터들의 세트를 계산한다. 태스크(X200)는 비선형 함수를 상기 협대역 부분으로부터 얻어낸 신호에 적용함으로써 스펙트럼 확장 신호를 계산한다. 태스크(X300)는 (A) 필터 파라미터들의 세트 및 (B) 상기 스펙트럼 확장 신호에 기초하는 고대역 여기 신호에 따라서 합성된 고대역 신호를 발생시킨다. 태스크(X400)는 (C) 상기 고대역 부분의 에너지와 (D) 상기 협대역 부분으로부터 얻어진 신호의 에너지 간의 관계에 기초하여 이득 엔벌로프를 계산한다.
도 31a는 실시예에 따라 고대역 여기 신호를 발생시키는 방법(M200)의 순서도를 나타낸다. 태스크(Y100)는 비선형 함수를 스피치 신호의 협대역 부분으로부터 유도된 협대역 여기 신호에 적용함으로써 고조파적으로 확장된 신호를 계산한다. 태스크(Y200)는 상기 고조파적으로 확장된 신호와 변조된 잡음 신호를 혼합(mix)하여 고대역 여기 신호를 발생시킨다. 도 31b는 태스크들(Y300 및 Y400)을 포함하는 다른 실시예에 따라 고대역 여기 신호를 발생시키는 방법(M210)의 순서도를 나타낸다. 태스크(Y300)는 상기 협대역 여기 신호 및 상기 고조파적으로 확장된 신호 중 하나의 시간에 따른 에너지에 따라 시간-영역 엔벌로프를 계산한다. 태스크(Y400)는 상기 시간-영역 엔벌로프에 따라 잡음 신호를 변조하여 상기 변조된 잡음 신호를 생성한다.
도 32는 협대역 부분 및 고대역 부분을 갖는 스피치 신호의 고대역 부분을 디코딩하는, 일 실시예에 따른 방법(M300)의 순서도를 도시한다. 태스크(Z100)는 상기 고대역 부분의 스펙트럼 엔벌로프를 특징짓는 필터 파라미터들의 세트와 상기 고대역 부분의 시간 엔벌로프를 특징짓는 이득 계수들의 세트를 수신한다. 태스크(Z200)는 비선형 함수를 상기 협대역 부분으로부터 유도되는 신호에 적용함으로써 스펙트럼적으로 확장된 신호를 계산한다. 태스크(Z300)는 (A) 필터 파라미터들의 세트 및 (B) 상기 스펙트럼 확장 신호에 기초하는 고대역 여기 신호에 따라서 합성된 고대역 신호를 발생시킨다. 태스크(Z400)는 이득 계수들의 세트에 기초하여 상기 합성된 고대역 신호의 이득 엔벌로프를 변조한다. 예를 들어, 태스크(Z400)는 상기 이득 계수들의 세트를 상기 협대역 부분으로부터 유도되는 여기 신호, 상기 스펙트럼 확장 신호, 상기 고대역 여기 신호, 또는 상기 합성된 고대역 신호에 적용함으로써 상기 합성된 고대역 신호의 이득 엔벌로프를 변조하도록 구성될 수 있다.
또한 실시예들은, 여기에 명시적으로 개시된 바와 같이 스피치 코딩, 인코딩, 및 디코딩의 추가적인 방법들을(예컨대, 그러한 방법들을 수행하도록 구성되는 구조적인 실시예들의 설명들로써) 포함한다. 또한 이러한 방법들 각각은 로직 엘리먼트들의 어레이를 포함하는 기계(예컨대, 처리기, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 기계(finite state machine))에 의해 판독 및/또는 실행가능한 명령들의 하나 이상의 세트들로서 유형적으로 구체화될 수 있다(예를 들어, 상기 열거된 하나 이상의 데이터 저장 매체로). 따라서, 본 발명은 상기 제시된 실시예들에 제한되지 않으며, 오히려 본 발명의 일부를 형성하는 출원된 바와 같은 첨부된 청구항들을 포함하여, 여기서 임의의 방식으로 개시되는 신규한 특징들과 원리들에 따라 가장 광범위한 것으로 보아야 한다.
Claims (41)
- 신호를 처리하는 방법으로서,스피치 신호(speech signal)의 저주파(low-frequency portion) 대역에 기초하는 제 1 신호의 엔벌로프(envelope)를 계산하는 단계;상기 스피치 신호의 고주파(high-frequency) 대역에 기초하는 제 2 신호의 엔벌로프를 계산하는 단계;상기 제 1 및 제 2 신호들의 엔벌로프들 간의 시변적인(time-varying) 관계에 따라서 복수의 이득 계수(gain factor) 값들을 계산하는 단계; 및상기 제 1 및 제 2 신호들의 엔벌로프들 간의 관계의 시간에 따른 편차(variation)에 기초하여, 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠(attenuate)시키는 단계를 포함하는, 신호 처리 방법.
- 제 1 항에 있어서,스피치 신호의 저주파 대역에 기초하는 제 1 신호의 엔벌로프를 계산하는 상기 단계는 상기 저주파 대역으로부터 유도(derive)되는 여기 신호(excitation signal)에 기초하는 신호의 엔벌로프를 계산하는 단계를 포함하는, 신호 처리 방법.
- 제 2 항에 있어서,스피치 신호의 저주파 대역에 기초하는 제 1 신호의 엔벌로프를 계산하는 상기 단계는 상기 여기 신호의 스펙트럼 확장(spectral extension)에 기초하는 신호의 시간-영역 엔벌로프를 계산하는 단계를 포함하는, 신호 처리 방법.
- 제 2 항에 있어서,상기 방법은 상기 고주파 대역에 따라서 복수의 필터 파라미터들을 계산하는 단계를 포함하며,스피치 신호의 저주파 대역에 기초하는 제 1 신호의 엔벌로프를 계산하는 상기 단계는 상기 여기 신호 및 상기 복수의 필터 파라미터들에 기초하는 신호의 엔벌로프를 계산하는 단계를 포함하는, 신호 처리 방법.
- 제 4 항에 있어서,스피치 신호의 저주파 대역에 기초하는 제 1 신호의 엔벌로프를 계산하는 상기 단계는 상기 복수의 필터 파라미터들 및 상기 여기 신호의 스펙트럼 확장에 기초하는 신호의 시간-영역 엔벌로프를 계산하는 단계를 포함하는, 신호 처리 방법.
- 제 1 항에 있어서,시변적인 관계에 따라서 복수의 이득 계수 값들을 계산하는 상기 단계는 상기 제 1 및 제 2 신호들의 엔벌로프들 간의 비율(ratio)에 따라서 상기 복수의 이득 계수 값들을 계산하는 단계를 포함하는, 신호 처리 방법.
- 제 1 항에 있어서,상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계는 상기 시변적인 관계에 기초하는, 신호 처리 방법.
- 제 1 항에 있어서,상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계는 상기 복수의 이득 계수 값들 간의 적어도 하나의 간격(distance)에 기초하는, 신호 처리 방법.
- 제 1 항에 있어서,상기 복수의 이득 계수 값들 각각은 상이한 시간 인터벌(time interval)에 대응하며,상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계는 연속적인 시간 인터벌들에 대응하는 이득 계수 값들 간의 복수의 간격(distance)들에 기초하는, 신호 처리 방법.
- 제 1 항에 있어서,상기 복수의 이득 계수 값들 각각은 상이한 시간 인터벌에 대응하며,상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계는 연속적인 시간 인터벌들에 대응하는 이득 계수 값들 간의 제곱 차이(squared difference)들의 합(sum)에 기초하는, 신호 처리 방법.
- 제 1 항에 있어서, 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계는,상기 제 1 및 제 2 신호들의 엔벌로프들 간의 관계의 시간에 따른 편차(variation)에 기초하여 감쇠 계수 값(attenuation factor value)을 계산하는 단계; 및(A) 상기 복수의 이득 계수 값들 중 적어도 하나에 상기 감쇠 계수 값을 곱하는 단계와 (B) 상기 감쇠 계수 값을 상기 복수의 이득 계수 값들 중 적어도 하나에 가산(add)하는 단계 중 적어도 하나를 포함하는, 신호 처리 방법.
- 제 1 항에 있어서,상기 복수의 이득 계수 값들 각각은 상이한 시간 인터벌에 대응하며,상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계는,연속적인 시간 인터벌들에 대응하는 이득 계수 값들 간의 복수의 간격(distance)들에 기초하여 감쇠 계수 값을 계산하는 단계; 및(A) 상기 복수의 이득 계수 값들 중 적어도 하나에 상기 감쇠 계수 값을 곱하는 단계와 (B) 상기 감쇠 계수 값을 상기 복수의 이득 계수 값들 중 적어도 하나에 가산하는 단계 중 적어도 하나를 포함하는, 신호 처리 방법.
- 제 1 항에 있어서,상기 방법은 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계로부터 산출되는 제 2 복수의 이득 계수 값들을 평활화(smooth)하는 단계를 포함하며,상기 평활화 단계는 상기 제 2 복수의 이득 계수 값들 중 적어도 두 개에 기초하여 평활화된(smoothed) 이득 계수 값을 계산하는 단계를 포함하는, 신호 처리 방법.
- 제 1 항에 있어서,상기 방법은 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계로부터 산출되는 제 2 복수의 이득 계수 값들을 양자화하는 단계를 포함하며,상기 양자화 단계는:양자화 오차(quantization error)를 계산하는 단계; 및상기 양자화 오차를 양자화될 값에 가산하는 단계를 포함하는, 신호 처리 방법.
- 데이터 저장 매체로서,제 1 항에 따른 상기 방법을 나타내는 기계-실행가능(machine-executable) 명령들을 포함하는, 데이터 저장 매체.
- 스피치 신호의 저주파 대역에 기초하는 제 1 신호의 엔벌로프를 계산하도록 구성되고 배치되는 제 1 엔벌로프 계산기;상기 스피치 신호의 고주파 대역에 기초하는 제 2 신호의 엔벌로프를 계산하도록 구성되고 배치되는 제 2 엔벌로프 계산기;상기 제 1 및 제 2 신호들의 엔벌로프들 간의 시변적인 관계에 따라서 복수의 이득 계수 값들을 계산하도록 구성되고 배치되는 계수 계산기; 및상기 제 1 및 제 2 신호들의 엔벌로프들 간의 관계의 시간에 따른 편차에 기초하여 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키도록 구성되고 배치되는 이득 계수 감쇠기를 포함하는, 장치.
- 제 16 항에 있어서,상기 제 1 엔벌로프 계산기는 상기 저주파 대역으로부터 유도되는 여기 신호의 스펙트럼 확장에 기초하는 신호의 시간-영역 엔벌로프를 계산하도록 배치되는, 장치.
- 제 16 항에 있어서,상기 계수 계산기는 상기 제 1 및 제 2 신호들의 엔벌로프들 간의 비율에 따라서 상기 복수의 이득 계수 값들을 계산하도록 구성되는, 장치.
- 제 16 항에 있어서,상기 이득 계수 감쇠기는 상기 복수의 이득 계수 값들 간의 적어도 하나의 간격(distance)에 기초하여 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시 키도록 구성되고 배치되는, 장치.
- 제 16 항에 있어서,상기 복수의 이득 계수 값들 각각은 상이한 시간 인터벌에 대응하며,상기 이득 계수 감쇠기는 연속적인 시간 인터벌들에 대응하는 이득 계수 값들 간의 복수의 간격(distance)들에 기초하여 상기 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키도록 배치되는, 장치.
- 제 16 항에 있어서, 상기 이득 계수 감쇠기는,상기 복수의 이득 계수 값들 간의 복수의 차이(difference)들을 계산하도록 구성되고 배치되는 편차 계산기(variation calculator); 및상기 복수의 차이들에 기초하여 적어도 하나의 감쇠 계수 값을 계산하도록 구성되고 배치되는 계수 계산기(factor calculator)를 포함하는, 장치.
- 제 16 항에 있어서,상기 이득 계수 감쇠기는 상기 복수의 이득 계수 값들 간의 복수의 간격(distance)들에 기초하여 감쇠 계수 값을 계산하도록 구성되며,상기 이득 계수 감쇠기는 (A) 상기 복수의 이득 계수 값들 중 적어도 하나에 상기 감쇠 계수 값을 곱하는 것과 (B) 상기 감쇠 계수 값을 상기 복수의 이득 계수 값들 중 적어도 하나에 가산하는 것 중 적어도 하나를 수행하도록 구성되는 결합기(combiner)를 포함하는, 장치.
- 제 16 항에 있어서,상기 장치는 상기 이득 계수 감쇠기의 출력을 평활화하도록 구성되는 평활화기(smoother)를 포함하며, 상기 출력은 복수의 이득 계수 값들을 포함하는, 장치.
- 제 16 항에 있어서,상기 장치는 적어도 하나의 감쇠된 이득 계수 값을 포함하는 신호를 전송하도록 구성되는 셀룰러 전화기를 포함하는, 장치.
- 신호를 처리하는 방법으로서,고대역 여기 신호를 발생시키는 단계 - 상기 발생 단계는 저대역 여기 신호에 기초하여 신호를 스펙트럼 확장(spectrally extend)시키는 단계를 포함함 -;상기 고대역 여기 신호에 기초하여, 고대역 스피치 신호를 합성하는 단계;제 1 복수의 이득 계수 값들 간의 적어도 하나의 간격(distance)에 따라서 상기 제 1 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 단계; 및상기 감쇠 단계로부터 산출되는 제 2 복수의 이득 계수 값들에 기초하여, 상기 저대역 여기 신호에 기초하는 신호의 시간-영역 엔벌로프를 수정(modify)하는 단계를 포함하는, 신호 처리 방법.
- 제 25 항에 있어서,상기 저대역 여기 신호에 기초하는 신호의 시간-영역 엔벌로프를 수정하는 상기 단계는, 상기 합성 단계 전에, 상기 고대역 여기 신호에 기초하는 신호의 시간-영역 엔벌로프를 수정하는 단계를 포함하는, 신호 처리 방법.
- 제 25 항에 있어서,상기 저대역 여기 신호에 기초하는 신호의 시간-영역 엔벌로프를 수정하는 상기 단계는 합성된 고대역 스피치 신호의 시간-영역 엔벌로프를 수정하는 단계를 포함하는, 신호 처리 방법.
- 제 25 항에 있어서,고대역 스피치 신호를 합성하는 상기 단계는 복수의 필터 파라미터들에 기초하는, 신호 처리 방법.
- 제 28 항에 있어서,상기 복수의 필터 파라미터들은 복수의 선형 예측 필터 계수(linear prediction filter coefficient)들을 포함하는, 신호 처리 방법.
- 제 25 항에 있어서,상기 제 1 복수의 이득 계수 값들 각각은 상이한 시간 인터벌에 대응하며,상기 제 1 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계는 연속적인 시간 인터벌들에 대응하는 이득 계수 값들 간의 복수의 간격(distance)들에 기초하는, 신호 처리 방법.
- 제 25 항에 있어서,상기 제 1 복수의 이득 계수 값들 각각은 상이한 시간 인터벌에 대응하며,상기 제 1 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계는 연속적인 시간 인터벌들에 대응하는 이득 계수 값들 간의 제곱 차이(squared difference)들의 합(sum)에 기초하는, 신호 처리 방법.
- 제 25 항에 있어서, 상기 제 1 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키는 상기 단계는,상기 제 1 복수의 이득 계수 값들 간의 복수의 간격(distance)들에 기초하여 감쇠 계수 값을 계산하는 단계; 및(A) 상기 제 1 복수의 이득 계수 값들 중 적어도 하나에 상기 감쇠 계수 값을 곱하는 단계와 (B) 상기 감쇠 계수 값을 상기 제 1 복수의 이득 계수 값들 중 적어도 하나에 가산하는 단계 중 적어도 하나를 포함하는, 신호 처리 방법.
- 데이터 저장 매체로서,제 25 항에 따른 상기 방법을 나타내는 기계-실행가능 명령들을 포함하는, 데이터 저장 매체.
- 저대역 여기 신호에 기초하여 고대역 여기 신호를 발생시키도록 구성되는 고대역 여기 발생기;상기 고대역 여기 신호에 기초하여, 합성된 고대역 스피치 신호를 생성하도록 구성되고 배치되는 합성 필터;제 1 복수의 이득 계수 값들 간의 적어도 하나의 간격(distance)에 따라서 상기 제 1 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키도록 구성되고 배치되는 이득 계수 감쇠기; 및적어도 하나의 감쇠된 이득 계수 값을 포함하는 제 2 복수의 이득 계수 값들에 기초하여, 상기 저대역 여기 신호에 기초하는 신호의 시간-영역 엔벌로프를 수정하도록 구성되고 배치되는 이득 제어 엘리먼트(gain control element)를 포함하는, 장치.
- 제 34 항에 있어서,상기 이득 제어 엘리먼트는 상기 고대역 여기 신호에 기초하는 신호의 시간-영역 엔벌로프를 수정하도록 구성되는, 장치.
- 제 34 항에 있어서,상기 이득 제어 엘리먼트는 상기 합성된 고대역 스피치 신호의 시간-영역 엔벌로프를 수정하도록 구성되는, 장치.
- 제 34 항에 있어서,상기 합성 필터는 복수의 선형 예측 필터 계수들에 기초하여 상기 합성된 고대역 스피치 신호를 생성하도록 구성되는, 장치.
- 제 34 항에 있어서,상기 제 1 복수의 이득 계수 값들 각각은 상이한 시간 인터벌에 대응하며,상기 이득 계수 감쇠기는 연속적인 시간 인터벌들에 대응하는 이득 계수 값들 간의 복수의 간격(distance)들에 기초하여 상기 제 1 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키도록 구성되는, 장치.
- 제 34 항에 있어서,상기 제 1 복수의 이득 계수 값들 각각은 상이한 시간 인터벌에 대응하며,상기 이득 계수 감쇠기는 연속적인 시간 인터벌들에 대응하는 이득 계수 값들 간의 제곱 차이(squared difference)들의 합(sum)에 기초하여 상기 제 1 복수의 이득 계수 값들 중 적어도 하나를 감쇠시키도록 구성되는, 장치.
- 제 34 항에 있어서,상기 이득 계수 감쇠기는 상기 제 1 복수의 이득 계수 값들 간의 복수의 간격(distance)들에 기초하여 감쇠 계수 값을 계산하도록 구성되며,상기 이득 계수 감쇠기는 (A) 상기 제 1 복수의 이득 계수 값들 중 적어도 하나에 상기 감쇠 계수 값을 곱하는 것과 (B) 상기 감쇠 계수 값을 상기 제 1 복수의 이득 계수 값들 중 적어도 하나에 가산하는 것 중 적어도 하나를 수행하도록 구성되는 결합기(combiner)를 포함하는, 장치.
- 제 34 항에 있어서,상기 장치는 상기 적어도 하나의 감쇠된 이득 계수 값을 포함하고 상기 저대역 여기 신호를 나타내는(describe) 신호를 수신하도록 구성된 셀룰러 전화기를 포함하는, 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67396505P | 2005-04-22 | 2005-04-22 | |
US60/673,965 | 2005-04-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080003912A KR20080003912A (ko) | 2008-01-08 |
KR100956878B1 true KR100956878B1 (ko) | 2010-05-11 |
Family
ID=36741298
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077027098A KR100956878B1 (ko) | 2005-04-22 | 2006-04-21 | 이득 계수 감쇠를 위한 시스템, 방법, 및 장치 |
KR1020077027097A KR100947421B1 (ko) | 2005-04-22 | 2006-04-21 | 이득 계수 평활화를 위한 시스템, 방법, 및 장치 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077027097A KR100947421B1 (ko) | 2005-04-22 | 2006-04-21 | 이득 계수 평활화를 위한 시스템, 방법, 및 장치 |
Country Status (14)
Country | Link |
---|---|
US (2) | US9043214B2 (ko) |
EP (2) | EP1875464B9 (ko) |
KR (2) | KR100956878B1 (ko) |
CN (3) | CN101199003B (ko) |
DK (1) | DK1875463T3 (ko) |
ES (1) | ES2705589T3 (ko) |
HU (1) | HUE040628T2 (ko) |
NO (1) | NO20075509L (ko) |
PL (1) | PL1875463T3 (ko) |
PT (1) | PT1875463T (ko) |
SI (1) | SI1875463T1 (ko) |
TR (1) | TR201821299T4 (ko) |
TW (2) | TWI317933B (ko) |
WO (2) | WO2006116025A1 (ko) |
Families Citing this family (109)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006062202A1 (ja) * | 2004-12-10 | 2006-06-15 | Matsushita Electric Industrial Co., Ltd. | 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法 |
JP5129117B2 (ja) | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
WO2006116025A1 (en) * | 2005-04-22 | 2006-11-02 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor smoothing |
US20070050441A1 (en) * | 2005-08-26 | 2007-03-01 | Step Communications Corporation,A Nevada Corporati | Method and apparatus for improving noise discrimination using attenuation factor |
US7619563B2 (en) | 2005-08-26 | 2009-11-17 | Step Communications Corporation | Beam former using phase difference enhancement |
US7472041B2 (en) * | 2005-08-26 | 2008-12-30 | Step Communications Corporation | Method and apparatus for accommodating device and/or signal mismatch in a sensor array |
US7436188B2 (en) * | 2005-08-26 | 2008-10-14 | Step Communications Corporation | System and method for improving time domain processed sensor signals |
US7415372B2 (en) * | 2005-08-26 | 2008-08-19 | Step Communications Corporation | Method and apparatus for improving noise discrimination in multiple sensor pairs |
US20070047742A1 (en) * | 2005-08-26 | 2007-03-01 | Step Communications Corporation, A Nevada Corporation | Method and system for enhancing regional sensitivity noise discrimination |
US20070047743A1 (en) * | 2005-08-26 | 2007-03-01 | Step Communications Corporation, A Nevada Corporation | Method and apparatus for improving noise discrimination using enhanced phase difference value |
RU2474972C2 (ru) * | 2006-01-17 | 2013-02-10 | Конинклейке Филипс Электроникс Н.В. | Обнаружение присутствия телевизионных сигналов, погруженных в шум, с использованием набора инструментальных средств циклостационарности |
US8260609B2 (en) | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
US8725499B2 (en) * | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
US8532984B2 (en) * | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
US8639500B2 (en) * | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
KR100788706B1 (ko) * | 2006-11-28 | 2007-12-26 | 삼성전자주식회사 | 광대역 음성 신호의 부호화/복호화 방법 |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
DE602008001787D1 (de) * | 2007-02-12 | 2010-08-26 | Dolby Lab Licensing Corp | Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer |
JP5530720B2 (ja) | 2007-02-26 | 2014-06-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
KR101411900B1 (ko) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
WO2009001874A1 (ja) * | 2007-06-27 | 2008-12-31 | Nec Corporation | オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム |
US20100250260A1 (en) * | 2007-11-06 | 2010-09-30 | Lasse Laaksonen | Encoder |
CN101896967A (zh) | 2007-11-06 | 2010-11-24 | 诺基亚公司 | 编码器 |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
KR101413967B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치 |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US8326641B2 (en) * | 2008-03-20 | 2012-12-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding using bandwidth extension in portable terminal |
KR101228165B1 (ko) * | 2008-06-13 | 2013-01-30 | 노키아 코포레이션 | 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체 |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
CA2836871C (en) | 2008-07-11 | 2017-07-18 | Stefan Bayer | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
US8463412B2 (en) * | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
GB2466201B (en) | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
GB0822537D0 (en) | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
US9947340B2 (en) | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
CN101604525B (zh) * | 2008-12-31 | 2011-04-06 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
GB2466670B (en) * | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
CN102257567B (zh) | 2009-10-21 | 2014-05-07 | 松下电器产业株式会社 | 音响信号处理装置、音响编码装置及音响解码装置 |
US20110096942A1 (en) * | 2009-10-23 | 2011-04-28 | Broadcom Corporation | Noise suppression system and method |
US10115386B2 (en) * | 2009-11-18 | 2018-10-30 | Qualcomm Incorporated | Delay techniques in active noise cancellation circuits or other circuits that perform filtering of decimated coefficients |
EP2502231B1 (en) * | 2009-11-19 | 2014-06-04 | Telefonaktiebolaget L M Ericsson (PUBL) | Bandwidth extension of a low band audio signal |
GB2476043B (en) * | 2009-12-08 | 2016-10-26 | Skype | Decoding speech signals |
US8447617B2 (en) * | 2009-12-21 | 2013-05-21 | Mindspeed Technologies, Inc. | Method and system for speech bandwidth extension |
EP2357649B1 (en) | 2010-01-21 | 2012-12-19 | Electronics and Telecommunications Research Institute | Method and apparatus for decoding audio signal |
US9525569B2 (en) * | 2010-03-03 | 2016-12-20 | Skype | Enhanced circuit-switched calls |
CN102844810B (zh) * | 2010-04-14 | 2017-05-03 | 沃伊斯亚吉公司 | 用于在码激励线性预测编码器和解码器中使用的灵活和可缩放的组合式创新代码本 |
US8600737B2 (en) | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
JP4923161B1 (ja) * | 2010-09-29 | 2012-04-25 | シャープ株式会社 | 移動通信システム、移動局装置、基地局装置、通信方法および集積回路 |
CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
US9059786B2 (en) * | 2011-07-07 | 2015-06-16 | Vecima Networks Inc. | Ingress suppression for communication systems |
ITTO20110890A1 (it) * | 2011-10-05 | 2013-04-06 | Inst Rundfunktechnik Gmbh | Interpolationsschaltung zum interpolieren eines ersten und zweiten mikrofonsignals. |
CN103035248B (zh) | 2011-10-08 | 2015-01-21 | 华为技术有限公司 | 音频信号编码方法和装置 |
US9444452B2 (en) | 2012-02-24 | 2016-09-13 | Parade Technologies, Ltd. | Frequency hopping algorithm for capacitance sensing devices |
US10448161B2 (en) | 2012-04-02 | 2019-10-15 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field |
JP5998603B2 (ja) * | 2012-04-18 | 2016-09-28 | ソニー株式会社 | 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
US20140006017A1 (en) * | 2012-06-29 | 2014-01-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for generating obfuscated speech signal |
CN103928031B (zh) | 2013-01-15 | 2016-03-30 | 华为技术有限公司 | 编码方法、解码方法、编码装置和解码装置 |
WO2014118156A1 (en) * | 2013-01-29 | 2014-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program |
EP2951822B1 (en) | 2013-01-29 | 2019-11-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension |
US9741350B2 (en) | 2013-02-08 | 2017-08-22 | Qualcomm Incorporated | Systems and methods of performing gain control |
WO2014136629A1 (ja) | 2013-03-05 | 2014-09-12 | 日本電気株式会社 | 信号処理装置、信号処理方法および信号処理プログラム |
US9570087B2 (en) | 2013-03-15 | 2017-02-14 | Broadcom Corporation | Single channel suppression of interfering sources |
JP6153661B2 (ja) | 2013-06-21 | 2017-06-28 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法 |
BR112015031181A2 (pt) * | 2013-06-21 | 2017-07-25 | Fraunhofer Ges Forschung | aparelho e método que realizam conceitos aperfeiçoados para tcx ltp |
CN104282312B (zh) | 2013-07-01 | 2018-02-23 | 华为技术有限公司 | 信号编码和解码方法以及设备 |
FR3008533A1 (fr) | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
CN107818789B (zh) * | 2013-07-16 | 2020-11-17 | 华为技术有限公司 | 解码方法和解码装置 |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
CN105493182B (zh) * | 2013-08-28 | 2020-01-21 | 杜比实验室特许公司 | 混合波形编码和参数编码语音增强 |
TWI557726B (zh) * | 2013-08-29 | 2016-11-11 | 杜比國際公司 | 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法 |
CN104517610B (zh) | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
CN104517611B (zh) | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
US9620134B2 (en) * | 2013-10-10 | 2017-04-11 | Qualcomm Incorporated | Gain shape estimation for improved tracking of high-band temporal characteristics |
US9564141B2 (en) * | 2014-02-13 | 2017-02-07 | Qualcomm Incorporated | Harmonic bandwidth extension of audio signals |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
CN106409304B (zh) | 2014-06-12 | 2020-08-25 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
CN105336338B (zh) | 2014-06-24 | 2017-04-12 | 华为技术有限公司 | 音频编码方法和装置 |
CN106683681B (zh) | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
US9984699B2 (en) * | 2014-06-26 | 2018-05-29 | Qualcomm Incorporated | High-band signal coding using mismatched frequency ranges |
US9583115B2 (en) * | 2014-06-26 | 2017-02-28 | Qualcomm Incorporated | Temporal gain adjustment based on high-band signal characteristic |
CN106486129B (zh) * | 2014-06-27 | 2019-10-25 | 华为技术有限公司 | 一种音频编码方法和装置 |
KR101591597B1 (ko) * | 2014-07-02 | 2016-02-19 | 한양대학교 산학협력단 | G.722 코덱 패킷손실은닉 및 최급강하법을 이용한 적응형 뮤팅 시스템 및 방법 |
JP6668372B2 (ja) * | 2015-02-26 | 2020-03-18 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法 |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US9837089B2 (en) * | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
US9613628B2 (en) | 2015-07-01 | 2017-04-04 | Gopro, Inc. | Audio decoder for wind and microphone noise reduction in a microphone array system |
EP3182411A1 (en) | 2015-12-14 | 2017-06-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an encoded audio signal |
EP3242295B1 (en) * | 2016-05-06 | 2019-10-23 | Nxp B.V. | A signal processor |
TWI594231B (zh) * | 2016-12-23 | 2017-08-01 | 瑞軒科技股份有限公司 | 分頻壓縮電路,音訊處理方法以及音訊處理系統 |
CN106856623B (zh) * | 2017-02-20 | 2020-02-11 | 鲁睿 | 基带语音信号通讯噪声抑制方法及系统 |
US10553222B2 (en) * | 2017-03-09 | 2020-02-04 | Qualcomm Incorporated | Inter-channel bandwidth extension spectral mapping and adjustment |
US10200727B2 (en) | 2017-03-29 | 2019-02-05 | International Business Machines Corporation | Video encoding and transcoding for multiple simultaneous qualities of service |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
CN115334444A (zh) * | 2018-04-11 | 2022-11-11 | 杜比国际公司 | 用于音频渲染的预渲染信号的方法、设备和系统 |
US10847172B2 (en) * | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
US10957331B2 (en) | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
BR112023006291A2 (pt) * | 2020-10-09 | 2023-05-09 | Fraunhofer Ges Forschung | Dispositivo, método ou programa de computador para processar uma cena de áudio codificada usando uma conversão de parâmetro |
AU2021357364B2 (en) * | 2020-10-09 | 2024-06-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5455888A (en) | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
WO2003044777A1 (en) | 2001-11-23 | 2003-05-30 | Koninklijke Philips Electronics N.V. | Audio signal bandwidth extension |
Family Cites Families (129)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3158693A (en) * | 1962-08-07 | 1964-11-24 | Bell Telephone Labor Inc | Speech interpolation communication system |
US3855416A (en) | 1972-12-01 | 1974-12-17 | F Fuller | Method and apparatus for phonation analysis leading to valid truth/lie decisions by fundamental speech-energy weighted vibratto component assessment |
US3855414A (en) | 1973-04-24 | 1974-12-17 | Anaconda Co | Cable armor clamp |
JPS59139099A (ja) | 1983-01-31 | 1984-08-09 | 株式会社東芝 | 音声区間検出装置 |
US4616659A (en) | 1985-05-06 | 1986-10-14 | At&T Bell Laboratories | Heart rate detection utilizing autoregressive analysis |
US4630305A (en) | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US4747143A (en) | 1985-07-12 | 1988-05-24 | Westinghouse Electric Corp. | Speech enhancement system having dynamic gain control |
US4862168A (en) | 1987-03-19 | 1989-08-29 | Beard Terry D | Audio digital/analog encoding and decoding |
US4805193A (en) | 1987-06-04 | 1989-02-14 | Motorola, Inc. | Protection of energy information in sub-band coding |
US4852179A (en) | 1987-10-05 | 1989-07-25 | Motorola, Inc. | Variable frame rate, fixed bit rate vocoding method |
JP2707564B2 (ja) | 1987-12-14 | 1998-01-28 | 株式会社日立製作所 | 音声符号化方式 |
US5285520A (en) | 1988-03-02 | 1994-02-08 | Kokusai Denshin Denwa Kabushiki Kaisha | Predictive coding apparatus |
JPH0639229B2 (ja) * | 1988-08-29 | 1994-05-25 | 株式会社大井製作所 | パワーシートスライド装置 |
US5077798A (en) | 1988-09-28 | 1991-12-31 | Hitachi, Ltd. | Method and system for voice coding based on vector quantization |
US5086475A (en) | 1988-11-19 | 1992-02-04 | Sony Corporation | Apparatus for generating, recording or reproducing sound source data |
BR9105987A (pt) | 1990-09-19 | 1993-02-02 | Philips Nv | Portador de registro no qual foram registrados um arquivo de dados principais e um arquivo de controle,processo e dispositivo para registrar um arquivo de dados principais e um arquivo de controle num portador de registro,e dispositivo para ter um portador de registro |
JP2779886B2 (ja) | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JP3191457B2 (ja) | 1992-10-31 | 2001-07-23 | ソニー株式会社 | 高能率符号化装置、ノイズスペクトル変更装置及び方法 |
RU2131169C1 (ru) | 1993-06-30 | 1999-05-27 | Сони Корпорейшн | Устройство кодирования сигнала, устройство декодирования сигнала, носитель записи и способ кодирования и декодирования |
AU7960994A (en) | 1993-10-08 | 1995-05-04 | Comsat Corporation | Improved low bit rate vocoders and methods of operation therefor |
US5684920A (en) | 1994-03-17 | 1997-11-04 | Nippon Telegraph And Telephone | Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein |
US5487087A (en) | 1994-05-17 | 1996-01-23 | Texas Instruments Incorporated | Signal quantizer with reduced output fluctuation |
US5797118A (en) | 1994-08-09 | 1998-08-18 | Yamaha Corporation | Learning vector quantization and a temporary memory such that the codebook contents are renewed when a first speaker returns |
JP2770137B2 (ja) | 1994-09-22 | 1998-06-25 | 日本プレシジョン・サーキッツ株式会社 | 波形データ圧縮装置 |
US5699477A (en) | 1994-11-09 | 1997-12-16 | Texas Instruments Incorporated | Mixed excitation linear prediction with fractional pitch |
FI97182C (fi) | 1994-12-05 | 1996-10-25 | Nokia Telecommunications Oy | Menetelmä vastaanotettujen huonojen puhekehysten korvaamiseksi digitaalisessa vastaanottimessa sekä digitaalisen tietoliikennejärjestelmän vastaanotin |
JP3365113B2 (ja) | 1994-12-22 | 2003-01-08 | ソニー株式会社 | 音声レベル制御装置 |
EP0732687B2 (en) | 1995-03-13 | 2005-10-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding speech bandwidth |
US5706395A (en) | 1995-04-19 | 1998-01-06 | Texas Instruments Incorporated | Adaptive weiner filtering using a dynamic suppression factor |
US6263307B1 (en) | 1995-04-19 | 2001-07-17 | Texas Instruments Incorporated | Adaptive weiner filtering using line spectral frequencies |
JP3334419B2 (ja) | 1995-04-20 | 2002-10-15 | ソニー株式会社 | ノイズ低減方法及びノイズ低減装置 |
US5699485A (en) | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
US5704003A (en) | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
US6097824A (en) | 1997-06-06 | 2000-08-01 | Audiologic, Incorporated | Continuous frequency dynamic range audio compressor |
JP3707116B2 (ja) | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
US5737716A (en) | 1995-12-26 | 1998-04-07 | Motorola | Method and apparatus for encoding speech using neural network technology for speech classification |
US5689615A (en) | 1996-01-22 | 1997-11-18 | Rockwell International Corporation | Usage of voice activity detection for efficient coding of speech |
TW307960B (en) | 1996-02-15 | 1997-06-11 | Philips Electronics Nv | Reduced complexity signal transmission system |
EP0814458B1 (en) * | 1996-06-19 | 2004-09-22 | Texas Instruments Incorporated | Improvements in or relating to speech coding |
JP3246715B2 (ja) | 1996-07-01 | 2002-01-15 | 松下電器産業株式会社 | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 |
EP1071081B1 (en) | 1996-11-07 | 2002-05-08 | Matsushita Electric Industrial Co., Ltd. | Vector quantization codebook generation method |
US6009395A (en) * | 1997-01-02 | 1999-12-28 | Texas Instruments Incorporated | Synthesizer and method using scaled excitation signal |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
US6041297A (en) | 1997-03-10 | 2000-03-21 | At&T Corp | Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations |
US5890126A (en) | 1997-03-10 | 1999-03-30 | Euphonics, Incorporated | Audio data decompression and interpolation apparatus and method |
US6385235B1 (en) | 1997-04-22 | 2002-05-07 | Silicon Laboratories, Inc. | Direct digital access arrangement circuitry and method for connecting to phone lines |
EP0878790A1 (en) | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US6889185B1 (en) | 1997-08-28 | 2005-05-03 | Texas Instruments Incorporated | Quantization of linear prediction coefficients using perceptual weighting |
US6122384A (en) | 1997-09-02 | 2000-09-19 | Qualcomm Inc. | Noise suppression system and method |
US6029125A (en) | 1997-09-02 | 2000-02-22 | Telefonaktiebolaget L M Ericsson, (Publ) | Reducing sparseness in coded speech signals |
AU4661497A (en) | 1997-09-30 | 1999-03-22 | Qualcomm Incorporated | Channel gain modification system and method for noise reduction in voice communication |
JPH11205166A (ja) | 1998-01-19 | 1999-07-30 | Mitsubishi Electric Corp | ノイズ検出装置 |
US6301556B1 (en) | 1998-03-04 | 2001-10-09 | Telefonaktiebolaget L M. Ericsson (Publ) | Reducing sparseness in coded speech signals |
WO1999065017A1 (en) * | 1998-06-09 | 1999-12-16 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus and speech decoding apparatus |
US6449590B1 (en) * | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
US6385573B1 (en) | 1998-08-24 | 2002-05-07 | Conexant Systems, Inc. | Adaptive tilt compensation for synthesized speech residual |
JP4170458B2 (ja) | 1998-08-27 | 2008-10-22 | ローランド株式会社 | 波形信号の時間軸圧縮伸長装置 |
US6353808B1 (en) | 1998-10-22 | 2002-03-05 | Sony Corporation | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal |
KR20000047944A (ko) | 1998-12-11 | 2000-07-25 | 이데이 노부유끼 | 수신장치 및 방법과 통신장치 및 방법 |
JP4354561B2 (ja) | 1999-01-08 | 2009-10-28 | パナソニック株式会社 | オーディオ信号符号化装置及び復号化装置 |
US6223151B1 (en) | 1999-02-10 | 2001-04-24 | Telefon Aktie Bolaget Lm Ericsson | Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders |
JP3696091B2 (ja) | 1999-05-14 | 2005-09-14 | 松下電器産業株式会社 | オーディオ信号の帯域を拡張するための方法及び装置 |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
JP4792613B2 (ja) | 1999-09-29 | 2011-10-12 | ソニー株式会社 | 情報処理装置および方法、並びに記録媒体 |
US6715125B1 (en) | 1999-10-18 | 2004-03-30 | Agere Systems Inc. | Source coding and transmission with time diversity |
DE60019268T2 (de) | 1999-11-16 | 2006-02-02 | Koninklijke Philips Electronics N.V. | Breitbandiges audio-übertragungssystem |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US7260523B2 (en) | 1999-12-21 | 2007-08-21 | Texas Instruments Incorporated | Sub-band speech coding system |
AU2547201A (en) * | 2000-01-11 | 2001-07-24 | Matsushita Electric Industrial Co., Ltd. | Multi-mode voice encoding device and decoding device |
US6757395B1 (en) | 2000-01-12 | 2004-06-29 | Sonic Innovations, Inc. | Noise reduction apparatus and method |
US6704711B2 (en) | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
US6732070B1 (en) * | 2000-02-16 | 2004-05-04 | Nokia Mobile Phones, Ltd. | Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching |
JP3681105B2 (ja) | 2000-02-24 | 2005-08-10 | アルパイン株式会社 | データ処理方式 |
US6523003B1 (en) * | 2000-03-28 | 2003-02-18 | Tellabs Operations, Inc. | Spectrally interdependent gain adjustment techniques |
US6757654B1 (en) | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
US7136810B2 (en) * | 2000-05-22 | 2006-11-14 | Texas Instruments Incorporated | Wideband speech coding system and method |
DE60118627T2 (de) | 2000-05-22 | 2007-01-11 | Texas Instruments Inc., Dallas | Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen |
US7330814B2 (en) | 2000-05-22 | 2008-02-12 | Texas Instruments Incorporated | Wideband speech coding with modulated noise highband excitation system and method |
JP2002055699A (ja) | 2000-08-10 | 2002-02-20 | Mitsubishi Electric Corp | 音声符号化装置および音声符号化方法 |
JP2004507191A (ja) | 2000-08-25 | 2004-03-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | デジタル入力信号のワード長を低減する方法及び装置並びにデジタル入力信号を回復させる方法及び装置 |
US7386444B2 (en) | 2000-09-22 | 2008-06-10 | Texas Instruments Incorporated | Hybrid speech coding and system |
US6947888B1 (en) | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
JP2002202799A (ja) | 2000-10-30 | 2002-07-19 | Fujitsu Ltd | 音声符号変換装置 |
JP3558031B2 (ja) * | 2000-11-06 | 2004-08-25 | 日本電気株式会社 | 音声復号化装置 |
CN1216368C (zh) * | 2000-11-09 | 2005-08-24 | 皇家菲利浦电子有限公司 | 用于扩展语音信号的频率范围的方法和系统 |
SE0004163D0 (sv) | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
US7230931B2 (en) | 2001-01-19 | 2007-06-12 | Raze Technologies, Inc. | Wireless access system using selectively adaptable beam forming in TDD frames and method of operation |
SE0004187D0 (sv) | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
CA2429832C (en) | 2000-11-30 | 2011-05-17 | Matsushita Electric Industrial Co., Ltd. | Lpc vector quantization apparatus |
GB0031461D0 (en) | 2000-12-22 | 2001-02-07 | Thales Defence Ltd | Communication sets |
US20040204935A1 (en) * | 2001-02-21 | 2004-10-14 | Krishnasamy Anandakumar | Adaptive voice playout in VOP |
JP2002268698A (ja) | 2001-03-08 | 2002-09-20 | Nec Corp | 音声認識装置と標準パターン作成装置及び方法並びにプログラム |
US20030028386A1 (en) | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
SE522553C2 (sv) * | 2001-04-23 | 2004-02-17 | Ericsson Telefon Ab L M | Bandbreddsutsträckning av akustiska signaler |
DE50104998D1 (de) | 2001-05-11 | 2005-02-03 | Siemens Ag | Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals |
CN1235192C (zh) | 2001-06-28 | 2006-01-04 | 皇家菲利浦电子有限公司 | 传输系统以及用于接收窄带音频信号的接收机和方法 |
US6879955B2 (en) | 2001-06-29 | 2005-04-12 | Microsoft Corporation | Signal modification based on continuous time warping for low bit rate CELP coding |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
JP2003036097A (ja) | 2001-07-25 | 2003-02-07 | Sony Corp | 情報検出装置及び方法、並びに情報検索装置及び方法 |
TW525147B (en) | 2001-09-28 | 2003-03-21 | Inventec Besta Co Ltd | Method of obtaining and decoding basic cycle of voice |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US6988066B2 (en) | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
TW526468B (en) | 2001-10-19 | 2003-04-01 | Chunghwa Telecom Co Ltd | System and method for eliminating background noise of voice signal |
JP4245288B2 (ja) | 2001-11-13 | 2009-03-25 | パナソニック株式会社 | 音声符号化装置および音声復号化装置 |
US20030108108A1 (en) * | 2001-11-15 | 2003-06-12 | Takashi Katayama | Decoder, decoding method, and program distribution medium therefor |
CA2365203A1 (en) | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US6751587B2 (en) | 2002-01-04 | 2004-06-15 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
JP4290917B2 (ja) | 2002-02-08 | 2009-07-08 | 株式会社エヌ・ティ・ティ・ドコモ | 復号装置、符号化装置、復号方法、及び、符号化方法 |
JP3826813B2 (ja) | 2002-02-18 | 2006-09-27 | ソニー株式会社 | ディジタル信号処理装置及びディジタル信号処理方法 |
EP1543307B1 (en) * | 2002-09-19 | 2006-02-22 | Matsushita Electric Industrial Co., Ltd. | Audio decoding apparatus and method |
JP3756864B2 (ja) | 2002-09-30 | 2006-03-15 | 株式会社東芝 | 音声合成方法と装置及び音声合成プログラム |
KR100841096B1 (ko) | 2002-10-14 | 2008-06-25 | 리얼네트웍스아시아퍼시픽 주식회사 | 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법 |
US20040098255A1 (en) * | 2002-11-14 | 2004-05-20 | France Telecom | Generalized analysis-by-synthesis speech coding method, and coder implementing such method |
US7242763B2 (en) * | 2002-11-26 | 2007-07-10 | Lucent Technologies Inc. | Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems |
CA2415105A1 (en) | 2002-12-24 | 2004-06-24 | Voiceage Corporation | A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding |
KR100480341B1 (ko) * | 2003-03-13 | 2005-03-31 | 한국전자통신연구원 | 광대역 저전송률 음성 신호의 부호화기 |
RU2316059C2 (ru) | 2003-05-01 | 2008-01-27 | Нокиа Корпорейшн | Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи |
WO2005004113A1 (ja) | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
FI118550B (fi) | 2003-07-14 | 2007-12-14 | Nokia Corp | Parannettu eksitaatio ylemmän kaistan koodaukselle koodekissa, joka käyttää kaistojen jakoon perustuvia koodausmenetelmiä |
US7428490B2 (en) | 2003-09-30 | 2008-09-23 | Intel Corporation | Method for spectral subtraction in speech enhancement |
KR100587953B1 (ko) | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
CA2454296A1 (en) | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
JP4259401B2 (ja) | 2004-06-02 | 2009-04-30 | カシオ計算機株式会社 | 音声処理装置及び音声符号化方法 |
US8000967B2 (en) | 2005-03-09 | 2011-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Low-complexity code excited linear prediction encoding |
US8155965B2 (en) * | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
JP5129117B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
WO2006116025A1 (en) | 2005-04-22 | 2006-11-02 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor smoothing |
-
2006
- 2006-04-21 WO PCT/US2006/014993 patent/WO2006116025A1/en active Application Filing
- 2006-04-21 US US11/408,511 patent/US9043214B2/en active Active
- 2006-04-21 KR KR1020077027098A patent/KR100956878B1/ko active IP Right Grant
- 2006-04-21 HU HUE06750901A patent/HUE040628T2/hu unknown
- 2006-04-21 TW TW095114440A patent/TWI317933B/zh active
- 2006-04-21 EP EP06758453.2A patent/EP1875464B9/en active Active
- 2006-04-21 CN CN2006800215134A patent/CN101199003B/zh active Active
- 2006-04-21 DK DK06750901.8T patent/DK1875463T3/en active
- 2006-04-21 EP EP06750901.8A patent/EP1875463B1/en active Active
- 2006-04-21 CN CN2006800216673A patent/CN101199004B/zh active Active
- 2006-04-21 PT PT06750901T patent/PT1875463T/pt unknown
- 2006-04-21 PL PL06750901T patent/PL1875463T3/pl unknown
- 2006-04-21 SI SI200632309T patent/SI1875463T1/sl unknown
- 2006-04-21 CN CN2010105744132A patent/CN102110440B/zh active Active
- 2006-04-21 TR TR2018/21299T patent/TR201821299T4/tr unknown
- 2006-04-21 WO PCT/US2006/014992 patent/WO2006116024A2/en active Application Filing
- 2006-04-21 TW TW095114443A patent/TWI324336B/zh active
- 2006-04-21 US US11/408,390 patent/US8892448B2/en active Active
- 2006-04-21 KR KR1020077027097A patent/KR100947421B1/ko active IP Right Grant
- 2006-04-21 ES ES06750901T patent/ES2705589T3/es active Active
-
2007
- 2007-10-31 NO NO20075509A patent/NO20075509L/no not_active Application Discontinuation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5455888A (en) | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
WO2003044777A1 (en) | 2001-11-23 | 2003-05-30 | Koninklijke Philips Electronics N.V. | Audio signal bandwidth extension |
Also Published As
Publication number | Publication date |
---|---|
EP1875464B9 (en) | 2020-10-28 |
TW200710824A (en) | 2007-03-16 |
PL1875463T3 (pl) | 2019-03-29 |
DK1875463T3 (en) | 2019-01-28 |
CN101199004A (zh) | 2008-06-11 |
WO2006116025A1 (en) | 2006-11-02 |
US20060282262A1 (en) | 2006-12-14 |
KR20080003912A (ko) | 2008-01-08 |
SI1875463T1 (sl) | 2019-02-28 |
KR20080002996A (ko) | 2008-01-04 |
NO20075509L (no) | 2007-12-27 |
TWI324336B (en) | 2010-05-01 |
KR100947421B1 (ko) | 2010-03-12 |
WO2006116024A2 (en) | 2006-11-02 |
PT1875463T (pt) | 2019-01-24 |
EP1875464B1 (en) | 2012-12-05 |
CN101199003B (zh) | 2012-01-11 |
EP1875464A2 (en) | 2008-01-09 |
ES2705589T3 (es) | 2019-03-26 |
US9043214B2 (en) | 2015-05-26 |
CN101199003A (zh) | 2008-06-11 |
CN101199004B (zh) | 2011-11-09 |
TWI317933B (en) | 2009-12-01 |
HUE040628T2 (hu) | 2019-03-28 |
EP1875463A1 (en) | 2008-01-09 |
WO2006116024A3 (en) | 2007-03-22 |
CN102110440B (zh) | 2012-09-26 |
EP1875463B1 (en) | 2018-10-17 |
TW200707410A (en) | 2007-02-16 |
TR201821299T4 (tr) | 2019-01-21 |
US20060277039A1 (en) | 2006-12-07 |
CN102110440A (zh) | 2011-06-29 |
US8892448B2 (en) | 2014-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100956878B1 (ko) | 이득 계수 감쇠를 위한 시스템, 방법, 및 장치 | |
CA2603255C (en) | Systems, methods, and apparatus for wideband speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130329 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160330 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20170330 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20180329 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20190327 Year of fee payment: 10 |