KR20140090214A - 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선 - Google Patents
낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선 Download PDFInfo
- Publication number
- KR20140090214A KR20140090214A KR1020147013465A KR20147013465A KR20140090214A KR 20140090214 A KR20140090214 A KR 20140090214A KR 1020147013465 A KR1020147013465 A KR 1020147013465A KR 20147013465 A KR20147013465 A KR 20147013465A KR 20140090214 A KR20140090214 A KR 20140090214A
- Authority
- KR
- South Korea
- Prior art keywords
- frequency
- domain excitation
- normalized
- frequency band
- excitation
- Prior art date
Links
- 230000005284 excitation Effects 0.000 claims abstract description 190
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 66
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000004048 modification Effects 0.000 claims description 19
- 238000012986 modification Methods 0.000 claims description 19
- 239000003607 modifier Substances 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 230000002238 attenuated effect Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000003321 amplification Effects 0.000 claims 4
- 230000003595 spectral effect Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000000695 excitation spectrum Methods 0.000 description 8
- 230000007774 longterm Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 235000021251 pulses Nutrition 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000287531 Psittacidae Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
시간 영역 디코더에 의해 디코딩된 시간 영역 여기의 합성을 수정하는 방법 및 디바이스로서, 디코딩된 시간 영역 여기의 합성은 다수의 카테고리들 중 하나의 카테고리로 분류된다. 디코딩된 시간 영역 여기는 주파수 영역 여기로 변환되고, 주파수 영역 여기는, 디코딩된 시간 영역 여기가 분류된 카테고리의 함수로서 수정된다. 수정된 주파수 영역 여기는 수정된 시간 영역 여기로 변환되고, 합성 필터는 수정된 시간 영역 여기를 공급받아 디코딩된 시간 영역 여기의 수정된 합성을 생성한다.
Description
본 개시는 시간 영역 디코더에 의해 디코딩된 시간 영역 여기(time domain excitation)의 합성(synthesis)을 수정하는 디바이스 및 방법에 관한 것이다.
최근의 대화형 코덱(convensational codec)은 대략 8kbps의 비트 레이트로 깨끗한 음성(clean speech)을 아주 양호한 품질로 나타내고 16kbps의 비트 레이트에서 거의 투명(transparency)하게 된다. 낮은 비트 레이트에서도 이러한 높은 음성 품질을 유지하기 위하여, 멀티 모달 코딩 기법(multi modal coding scheme)이 이용될 수 있다. 통상적으로, 입력 사운드 신호는 그의 특성을 반영하는 서로 다른 카테고리들로 나뉘어진다. 예를 들어, 서로 다른 카테고리들은 유성음(voiced), 무성음(unvoiced) 및 온셋(onset)을 포함할 수 있다. 그 코덱은 이들 모든 카테고리에 대해 최적화된 서로 다른 코딩 모드를 이용한다.
그러나, 일부 이용중인 음성 코덱은 이러한 멀티 모달 방식을 이용하지 않아서, 깨끗한 음성과는 다르게 사운드 신호에 대해 특히 낮은 비트 레이트에서 차선 품질(suboptimal quality)을 달성한다. 코덱이 이용되면, 비트스트림이 표준화되고 비트스트림에 대한 임의 수정이 코덱의 연동성(interoperability)을 깨트린다는 사실 때문에 인코더를 수정하기 어렵다. 그러나 디코더에 대한 수정은 수신기측에서 인지하는 품질을 개선하도록 구현될 수 있다.
제 1 측면에 따르면, 본 개시는 시간 영역 디코더에 의해 디코딩된 시간 영역 여기의 합성을 수정하는 디바이스에 관한 것으로, 그 디바이스는, 다수의 카테고리들 중 하나의 카테고리로의 디코딩된 시간 영역 여기 합성의 분류기; 주파수 영역 여기로의 디코딩된 시간 영역 여기의 변환기; 디코딩된 시간 영역 여기의 합성이 분류기에 의해 분류된 카테고리의 함수로서의 주파수 영역(frequency domain) 여기의 수정기; 수정된 시간 영역 여기로의 수정된 주파수 영역 여기의 변환기; 및 수정된 시간 영역 여기를 공급받아 디코딩된 시간 영역 여기의 수정된 합성을 생성하는 합성기를 구비한다.
다른 측면에 따르면, 본 개시는 인코딩 파라메타에 의해 인코딩된 사운드 신호를 디코딩하는 디바이스에 관한 것으로, 그 디바이스는, 사운드 신호 인코딩 파라메타에 응답하는 시간 영역 여기의 디코더; 디코딩된 시간 영역 여기에 응답하여 시간 영역 여기의 합성을 생성하는 합성 필터; 및 시간 영역 여기의 합성을 수정하는 상술한 디바이스를 구비한다.
제 3 측면에 따르면, 본 개시는 시간 영역 디코더에 의해 디코딩된 시간 영역 여기의 합성을 수정하는 방법에 관한 것으로, 그 방법은 다수의 카테고리들 중 하나의 카테고리로 디코딩된 시간 영역 여기의 합성을 분류하는 단계; 주파수 영역 여기로 디코딩된 시간 영역 여기를 변환하는 단계; 디코딩된 시간 영역 여기의 합성이 분류된 카테고리의 함수로서 주파수 영역(frequency domain) 여기를 수정하는 단계; 수정된 시간 영역 여기로 수정된 주파수 영역 여기를 변환하는 단계; 및 수정된 시간 영역 여기를 합성하여 디코딩된 시간 영역 여기의 수정된 합성을 생성하는 단계를 구비한다.
추가 측면에 따르면, 본 개시는 인코딩 파라메타에 의해 인코딩된 사운드 신호를 디코딩하는 방법에 관한 것으로, 그 방법은, 사운드 신호 인코딩 파라메타에 응답하여 시간 영역 여기를 디코딩하는 단계; 디코딩된 시간 영역 여기를 합성하여 시간 영역 여기의 합성을 생성하는 단계; 및 시간 영역 여기의 합성을 수정하는 상술한 방법을 구비한다.
시간 영역 여기의 합성을 수정하는 디바이스 및 방법의 상술한 및 다른 특징은, 첨부된 도면을 참조하여 비 제한적 예시에 의해 주어진, 이하의 비 제한적 설명을 읽으면 보다 명백해질 것이다.
첨부 도면에 있어서,
도 1은 불활성 및 활성 무성음 프레임 개선을 위한 CELP 디코더의 수정을 보여주는 간단한 도면,
도 2는 불활성 및 활성 무성음 프레임 개선을 위한 CELP 디코더 수정을 보여주는 상세한 도면,
도 3은 일반 오디오(generic audio) 프레임 개선을 위한 CELP 디코더의 수정을 보여주는 간단한 도면,
도 4는 일반 오디오 프레임 개선을 위한 CELP 디코더의 수정을 보여주는 상세한 도면이다.
도 1은 불활성 및 활성 무성음 프레임 개선을 위한 CELP 디코더의 수정을 보여주는 간단한 도면,
도 2는 불활성 및 활성 무성음 프레임 개선을 위한 CELP 디코더 수정을 보여주는 상세한 도면,
도 3은 일반 오디오(generic audio) 프레임 개선을 위한 CELP 디코더의 수정을 보여주는 간단한 도면,
도 4는 일반 오디오 프레임 개선을 위한 CELP 디코더의 수정을 보여주는 상세한 도면이다.
본 개시는 연동성이 유지되고 인지 품질이 증가되도록 멀티 모달 디코딩(multimodal decoding)을 디코더측상에 구현하기 위한 방식에 관한 것이다. 본 개시에 있어서, 본문 내용이 본 명세서에서 참고로서 인용되는 참고 문헌 [3GPP TS 26.190, "Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions]에 설명된 AMR-WB가 예시적으로 이용되지만, 이 방식이 다른 유형의 낮은 비트 레이트 음성 디코더에 또한 적용될 수 있음을 알아야 한다.
도 1을 참조하면, 이러한 멀티 모달 디코딩을 달성하기 위하여, 우선 시간 영역 여기 디코더(102)는 수신된 비트 스트림(101), 예를 들어, AMR-WB 비트스트림을 전체적으로 디코딩하여, 완전한 시간 영역 CELP(Code-Excited Liner Prediction) 디코딩된 여기를 취득한다. 디코딩된 시간 영역 여기는 LP(Linear Prediction) 합성 필터(103)를 통해 처리되어, 디코더의 내부 샘플링 주파수로 음성/사운드 신호 시간 영역 합성이 획득된다. AMR-WB의 경우, 이러한 내부 샘플링 주파수는 12.8 kHz이지만, 다른 코덱의 경우에는 다를 수 있다.
LP 합성 필터(103)으로부터의 현재 프레임의 시간 영역 합성은 비트스트림으로부터 VAD(Voice Activity Detection) 정보(109)를 제공받은 분류기(104-105-106-301; 도 1, 2 및 3)를 통해 처리된다. 분류기(104-105-106-301)는 시간 영역 합성을 분석하여 불활성 음성, 활성 유성음, 활성 무성음 또는 일반 오디오로서 카테고리화한다. (1051에서 검출된) 불활성 음성은 음성 버스트들간의 모든 배경 잡음을 포함하고, (1061에서 검출된) 활성 유성음은 유성음 특성을 가진 활성 음성 버스트동안의 프레임을 나타내고, (1062에서 검출된) 활성 무성음은 무성음 특성을 가진 음성 버스트동안의 프레임을 나타내며, (3010에서 검출된) 일반 오디오는 음악 또는 반향 음성(reverberant speech)을 나타낸다. 개시된 방식은 배타적인 것은 아니지만 특히 불활성 음성, 활성 무성음 및 일반 오디오의 인지 품질의 개선을 도모한다.
시간 영역 합성의 카테고리가 결정되면, 변환기/수정기(107)는 비 중첩 주파수 변환(non-overlap frequency transform)을 이용하여 시간 영역 여기 디코더(102)로부터의 디코딩된 여기를 주파수 영역으로 변환한다. 중첩 변환이 또한 이용될 수 있지만, 그것은 대부분의 경우에 바람직하지 않은 종단간 지연(end-to-end delay)의 증가를 시사한다. 여기의 주파수 표현은 변환기/수정기(107)에서 서로 다른 주파수 대역들로 분할된다. 주파수 대역은 고정된 크기를 가지거나, 임계 대역[J.D. Johnston, "Transform coding of audio signal using perceptual noise cirteria," IEEE J.Select. Aras Commun., vol. 6, pp. 314-323, Feb. 1988; 그의 전체는 본 명세서에서 참고로서 인용됨]에 의존하거나, 또는 임의의 다른 조합일 수 있다. 재 성형 프로세스(reshaping process) 이후 사용하기 위해 대역당 에너지를 계산하여 메모리에 보관함으로써, 수정이 글로벌 프레임 에너지 레벨(global frame energy level)을 변경시키지 않도록 보장한다.
변환기/수정기(107)에 의해 실행된 주파수 영역에서의 여기의 수정은 합성의 분류와 다를 수 있다. 불활성 음성 및 활성 무성음의 경우, 재 성형은 잡음의 추가 및 고주파 콘텐츠를 잡음만으로 교체하는 것과 함께 저주파수들의 정규화로 구성된다. 디코딩된 시간 영역 합성의 컷-오프(cuff-off) 주파수인 저 주파수와 고 주파수간의 한도는 약 1 내지 1.2kHz의 값으로 고정될 수 있다. 수정되지 않은 프레임과 수정된 프레임간의 스위칭시의 아티팩트를 방지하기 위해 디코딩된 시간 영역 합성의 일부 저 주파수 콘텐츠가 유지된다. 또한, 시간 영역 여기 디코더(102)로부터 디코딩된 피치(pitch)의 함수로서 주파수 빈(frequency bin)을 선택함에 의해 컷 오프 주파수가 프레임마다 가변되게 할 수 있다. 수정 프로세스는 낮은 비트 레이트 음성 코덱과 연관된 이 같은 전기적 잡음을 제거하는 효과를 가진다. 수정 프로세스 이후, 6kHz 초과의 주파수에 대한 에너지를 약간 증가시켜 주파수 대역당 초기 에너지 레벨을 회복시킴으로써 이들 주파수에서의 LP 필터 이득 드롭(gain drop)을 보상하도록 주파수 대역당 이득 매칭이 적용된다.
일반 오디오로서 카테고리화된 프레임의 경우, 변환기/수정기(107)에서의 프로세싱은 다르다. 먼저, 모든 대역에 대해 주파수 대역마다 정규화가 실행된다. 정규화 동작에 있어서, 그 대역내의 최대 주파수 값의 몇 분의 일 미만인 주파수 대역 내의 모든 빈이 0으로 설정된다. 보다 높은 주파수 대역의 경우, 보다 많은 빈이 대역마다 0으로 된다. 이것은, 높은 비트 버짓을 갖되, 보다 낮은 주파수에 보다 많은 주파수가 할당되는 주파수 정량화 기법을 모사(simulate)한 것이다. 정규화 프로세스 이후, 0으로 된 빈을 랜덤 잡음으로 대체하기 위해 잡음 필(noise fill)이 적용될 수 있지만, 비트 레이트에 의거하여 잡음 필이 항상 이용되는 것은 아니다. 수정 프로세스 이후, 주파수 대역당 초기 에너지 레벨을 회복하기 위해 주파수 대역당 이득 매칭이 적용되고, 일반 오디오 입력의 경우에 LP 필터의 시스템적 과소 추정(systematic under estimation)을 보상하기 위해 비트 레이트에 의거한 틸트 정정(tilt correction)이 주파수 대역을 따라 적용된다. 일반 오디오 경로에 대한 다른 차별성은, 이득 매칭이 모든 주파수 빈에 걸쳐 적용되는 것이 아니라는 사실에 기인한다. 일반 오디오의 스펙트럼이 통상적으로 음성보다 더 피키(peaky)하기 때문에, 스펙트럼 펄스를 식별하고 그것을 얼마간 엠파시스(emphasis)할 수 있으면 인지 품질이 개선된다. 그렇게 하기 위해, 틸트 정정과 함께 전체 이득 매칭이 주파수 대역내의 가장 높은 에너지 빈에게만 적용된다. 가장 낮은 에너지 빈의 경우, 단지 이득 매칭의 일부만이 이들 빈에 적용된다. 이에 따라 스펙트럼 다이나믹(spectral dynamic)이 증가하게 된다.
여기 주파수 재 성형 및 이득 매칭 이후, 변환기/수정기(107)는 수정된 시간 영역 여기를 획득하기 위해 역 주파수 변환(inverse frequency transform)을 적용한다. 이러한 수정된 여기가 LP 합성 필터(108)를 통해 처리되어 수정된 시간 영역 합성이 획득된다. 오버라이터(overwriter)(110)는, 디-엠파시스 필터 및 재샘플러(de-emphasizing filter ad resampler; 112)에서의 (예를 들어, AMR-WB의 경우) 16kHz에 대한 최종 디-엠파시스 및 재샘플링전에, 시간 영역 디코딩된 합성의 분류에 의거하여 LP 합성 필터(108)로부터의 수정된 시간 영역 합성으로 LP 합성 필터(103)으로부터의 시간 영역 디코딩된 합성을 간단히 오버라이트한다.
불활성 음성의 경우, 활성 무성음 수정과 대비되는 단순한 차이는 LP 합성 필터(108)를 부드럽게(smooth)하는 스무더(smoother; 111)를 이용하여 보다 부드러운 잡음 변동을 준다는 것이다. 나머지 수정은 활성 무성음 경로에 대한 것과 동일하다. 이하에서는, 개시된 방식의 구현에 대한 보다 상세한 예시가 도 2를 참조하여 설명된다.
1) 신호 분류
도 2를 참조하면, 분류기(104-105-106-301)는 수정이 적용되는 비트 레이트에 대해 디코더에서 상술한 음성/사운드 신호의 시간 영역 합성(1021)의 분류를 실행한다. 도면의 단순화를 위해, 도 2에서 LP 합성 필터(103)가 도시 생략된다. 디코더에서의 분류는 일반 오디오 검출에 얼마간 맞게 조정하면 참고 문헌 [Milan Jelinek and Philippe Gournay; PCT Patent application WO03102921A1, "A method and device for efficient frame erasure concealment in linear predictive based speech doces"] 및 [T. Vaillancourt et al., PCT Patent application WO2007073604A1, "Method and device for efficient frame erasure concealment in speech codecs"]에 설명된 것과 유사하며, 그 참고문헌들의 전체 내용은 본 명세서에서 참고로서 인용된다. 이하의 파라메타, 즉, 정규화 상관(normalized correlation) rx, 스펙트럼 틸트 측정(spectral tilt measure) et, 피치 안정성 카운터(pitch stability counter) pc, 현재 프레임의 종단에서의 사운드 신호의 상대적 프레임 에너지 Es 및 영-교차 카운터(zero-crossing counter) zc는 디코더에서의 프레임 분류에 이용된다. 신호를 분류하는데 이용되는 이들 파라메타들의 계산은 이하에서 설명된다.
정규화 상관 rx은 음성/사운드 신호 시간 영역 합성 sout(n)에 기초하여 프레임의 끝에서 계산된다. 시간 영역 여기 디코더(102)로부터의 최종 서브 프레임의 피치 지연이 이용된다. 보다 구체적으로, 정규화 상관 rx는 아래와 같이 동시에 피치 계산(computed pitch)된다.
여기에서, x(n) = sout(n)이고, T는 최종 서브 프레임의 피치 지연이며, t = L-T이고, L은 프레임 크기이다. 최종 서브 프레임의 피치 지연이 3N/2(N은 서브 프레임 크기)보다 크면, T는 최종 2개의 서브 프레임의 평균 피치 지연으로 설정된다.
그러므로, 정규화 상관 rx는 음성/사운드 신호 시간 영역 합성 sout(n)을 이용하여 계산된다. 서브 프레임 크기(64 샘플)보다 낮은 피치 지연의 경우, 시점 t = L-T 및 t = L-2T에서 정규화 상관이 2회 계산되며, 정규화 상관 rx은 이들 2회의 계산의 평균으로서 주어진다.
스펙트럼 틸트 파라메타 et는 에너지의 주파수 분포에 대한 정보를 포함한다. 비 제한적 예시로서, 디코더에서의 스펙트럼 틸트는 시간 영역 합성의 제 1 정규화 자기 상관 계수로서 추정된다. 그것은, 아래와 같이 최종 3개의 서브 프레임에 기초하여 계산된다.
여기에서, x(n) = sout(n)은 시간 영역 합성 신호이고, N은 서브 프레임 크기이고, L은 프레임 크기이다(AMR-WB의 예시에서는 N=64 및 L=256).
피치 안정성 카운터 pc는 피치 주기의 변동을 평가한다. 그것은 디코더에서 아래와 같이 계산된다.
값 P0, P1, P2 및 P3는 (AMR-WB의 예시에서) 현재 프레임의 4개의 서브 프레임들로부터의 폐쇄 루프 피치 지연에 대응한다.
상대적 프레임 에너지 Es는 dB 단위의 현재 프레임 에너지 Ef와 그의 장기 평균(long-term average) Eit간의 차로서 계산된다.
여기에서, 현재 프레임 에너지 Ef는 아래와 같이 프레임의 단부에서 동시에 피치 계산된 dB 단위의 시간 영역 합성 sout(n)의 에너지이다.
여기에서, L=256(AMR-WB의 예시에서)은 프레임 길이이고, T는 최종 2개의 서브 프레임의 평균 피치 지연이다. T가 서브 프레임 크기보다 적으면, T는 2T로 설정된다(그 에너지는 짧은 피치 지연에 대해 2개의 피치 주기를 이용하여 계산됨).
아래의 수학식을 이용하여 활성 음성 프레임에 대해 장기 평균 에너지가 갱신된다.
마지막 파라메타는 시간 영역 합성 sout(n)의 한 프레임에 대해 계산된 영-교차 카운터 zc이다. 비 제한적 예시로서, 영-교차 카운터 zc는 그 간격 동안에 시간 영역 합성의 부호가 포지티브에서 네거티브로 변환하는 횟수를 카운트한다.
분류를 보다 강력하게 하기 위해, 메리트(merit)의 함수 fm을 형성하는 분류 파라메타가 함께 고려된다. 이를 위해, 선형 함수를 이용하여 분류 파라메타가 우선 스케일링된다. 파라메타 px를 고려하면, 아래 수학식을 이용하여 그의 스케일링된 버전이 획득된다.
스케일링된 피치 안정성 카운터 pc는 0과 1 사이에 클립(clip)된다. 함수 계수 kp 및 cp는 각 파라메타마다 실험적으로 발견되었다. 이러한 구현 예시에서 이용된 값들은 테이블 1에 요약된다.
테이블 1: 디코더에서의 프레임 분류 파라메타 및 그들 각자의 스케일링 함수의 계수
메리트의 함수는 아래와 같이 정의된다.
여기에서, 아래 첨자는 파라메타들의 스케일링된 버전을 나타낸다.
그 다음, 메리트의 함수 fm을 이용하고 테이블 2에 요약된 규칙을 따라 프레임의 분류가 이루어진다.
테이블 2
이러한 분류에 추가하여, AMR-WB의 예시를 가진 경우임에 따라, 인코더에 의한 VAD(Voice Activity Detection)에 대한 정보(109)가 비트스트림(101)으로 전송될 수 있다(도 1). 따라서, 인코더가 현재 프레임을 활성 콘텐츠(VAD = 1)로 간주하는지 또는 불활성 콘텐츠(배경 잡음, VAD = 0)로 간주하는지를 특정하기 위해 하나의 비트가 비트스트림(101)에 전송된다. 콘텐츠가 불활성임을 VAD 정보가 나타내면, 분류기부(104,105,106,301)는 분류를 무성음으로서 오버라이트한다.
그 분류 기법은 일반 오디오 검출을 포함한다(도 3의 분류기부(301) 참조). 일반 오디오 카테고리는 음악, 반향 음성을 포함하며, 또한 배경 음악을 포함할 수 있다. 분류의 제 2 단계는 분류기(104-105-106-301)가 양호한 신뢰성으로 현재 프레임이 일반 오디오로서 카테고리화될 수 있음을 결정할 수 있게 한다. 이러한 제 2 분류 단계를 실현하기 위해 2개의 파라메타가 이용된다. 그 파라메타 중 하나는 수학식 (5)에 나타낸 전체 프레임 에너지 Ef이다.
추가적으로, 제 1 단계 분류는, 수학식 (5)에 나타낸 프레임 에너지 Ef가 -12dB보다 높으면, 무성음 NUV으로서 분류된 2개의 프레임들간의 간격을 평가하는데 이용된다. 프레임이 무성음으로서 분류되고, 프레임 에너지 Ef가 -9dB보다 커서 신호가 무성음이되 묵음(silence)은 아님을 의미하면, 수학식 (6)에 나타낸 장기 활성 음성 에너지 가 40dB 미만일 경우, 무성음 간격 카운터는 16으로 설정되고, 그렇지 않을 경우 무성음 간격 카운터 NUV는 8로 감소된다. 카운터 NUV는 활성 음성신호에 대해 0 내지 300 사이로 제한되고, 불활성 음성 신호에 대해 0 내지 125 사이로 제한된다. 설명된 예시에 있어서, 활성 음성 신호와 불활성 음성 신호간의 차이는 비트스트림(101)에 포함된 보이스 활성 검출 VAD 정보로부터 추론될 수 있음을 상기하라.
활성 음성 신호에 대해 장기 평균은 아래와 같이 이러한 무성음 프레임 카운터로부터 도출된다.
또한, 불활성 음성 신호에 대해서는 아래와 같다.
무성음으로서 분류된 프레임들간의 프레임 개수의 장기 평균에 대한 이러한 파라메타는 분류기(104-105-106-301)에 의해, 그 프레임이 일반 오디오로서 간주되어야 하는지 여부를 결정하는데 이용된다. 시간적으로 무성음 프레임이 더 근접해 있으면, 음성 특성을 가질 가능성이 커진다(일반 오디오일 가능성이 낮아짐). 설명된 예시에 있어서, 프레임이 일반 오디오 GA로서 간주되는지를 결정하기 위한 임계는 아래와 같이 정의된다.
여기에 대해 실행되는 수정은 프레임의 분류에 의존하며, 일부 유형의 프레임의 경우에는 수정이 전혀 이루어지지 않는다. 다음 테이블 3은 수정이 실행될 수 있거나 그렇지 않은 경우를 요약한 것이다.
테이블 3: 여기 수정에 대한 신호 카테고리
* 일반 오디오 카테고리는 구현에 의거하여 수정되거나 그렇지 않을 수 있다. 예를 들어, 일반 오디오는 불활성 시에만 수정되거나, 일반 오디오는 활성 시에만 수정될 수 있거나, 또는 항상 수정되거나 전혀 수정되지 않을 수 있다.
2) 주파수 변환
주파수 영역 수정 단계동안, 여기는 변환 영역으로 표시될 필요가 있다. 예를 들어, 25Hz의 주파수 분해능을 제공하는 유형∥ DCT(Discrete Cosine Transform)를 이용하여 변환기/수정기(107)의 시간-주파수 영역 변환기(201)에 의해 시간-주파수 변환이 달성되지만, 임의 다른 적당한 변환이 이용될 수도 있다. 다른 변환이 이용되는 경우, (상기에서 정의된) 주파수 분해능, 주파수 대역의 개수 및 대역당 주파수 빈의 개수(이하에서 추가 정의됨)가 그에 따라 교정될 필요가 있다. 시간-주파수 영역 변환기(201)에서 계산된 시간 영역 CELP 여기의 주파수 표시 fe는 아래와 같다.
102와 같은 시간 영역 CELP 디코더에 있어서, 시간 영역 여기 신호는 아래에 의해 주어진다.
여기에서, v(n)은 적응적 코드북 기여이고, b는 적응적 코드북 이득이고, c(n)은 고정 코드북 기여이고, g는 고정 코드북 이득이다.
3) 대역당 에너지 분석
시간 영역 여기에 대한 임의의 수정전에, 변환기/수정기(107)는 주파수 영역 여기의 대역당 에너지 Eb를 계산하기 위해 서브 계산기(209)를 자체적으로 포함하는 이득 계산기(208-209-210)를 구비하며, 여기 스펙트럼 재 성형후 에너지 조정을 위해 메모리에 계산된 대역당 에너지 Eb를 보관한다. 12.8kHz 샘플링 주파수의 경우, 아래와 같이 서브-계산기(209)에 의해 에너지가 계산될 수 있다.
여기에서, 아래에 정의된 바와 같이, CBb는 대역당 누적 주파수 빈이고, Bb는 주파수 대역당 빈의 개수이다.
저주파수 대역은 그의 내용이 본 명세서에서 참조로서 인용되는 [Milan Jelinek and Philippe Gournay. PCT Patent application WO03102921A1, "A method and device for efficient frame erasure concealment in linear predictive based speech codecs"]에 설명된 임계 오디오 대역에 대응하지만, 3700Hz 초과의 주파수 대역은 이들 대역에 있어서의 가능한 스펙트럼 에너지 변동을 보다 더 잘 매칭시키기 위해 약간 짧게 될 수 있다. 스펙트럼 대역의 임의 다른 구성이 가능하다.
4) 불활성 및 활성 무성음 프레임에 대한 여기 수정
a) 시간 영역 기여의 컷 오프 주파수 대비 잡음 필(noise fill)
불활성 프레임 및 활성 무성음 프레임에 대한 수정되지 않은 여기와 수정된 여기간의 투명 스위칭을 달성하기 위해, 적어도 시간 영역 여기 기여의 저 주파수들이 유지된다. 변환기/수정기(107)는 이용을 위해 시간 영역 기여가 종료되는 주파수를 결정하기 위해 컷 오프 주파수 계산기(203)를 구비하며, 컷 오프 주파수 fc는 1.2kHz의 최소값을 가진다. 이것이 의미하는 것은, 디코딩된 여기의 첫번째 1.2kHz가 항상 유지되며, 시간 영역 여기 디코더(102)로부터의 디코딩된 피치값에 의거하여, 이러한 컷 오프 주파수가 더 높아질 수 있다는 것이다. 모든 서브 프레임의 가장 낮은 피치로부터 8차 고조파가 계산되며, 시간 영역 기여는 최대 8차 고조파까지 유지된다. 8차 고조파의 추정은 아래와 같이 계산된다.
여기에서, Fs = 12800Hz이고, Nsub는 서브 프레임의 개수이고, T는 디코딩된 서브 프레임 피치이다. 모든 i<Nb에 대해(Nb는 주파수 영역 Lf내에 포함된 최대 주파수 대역임), 아래의 부등식이 검증되는 가장 높은 대역을 검색함에 의해 8차 고조파가 배치되는 대역을 발견하기 위한 검증이 이루어진다.
여기에서, Lf는 아래와 같이 정의된다.
Lf에 있어서의 그 주파수 대역의 인덱스를 라 할 것인데, 그것은 8차 고조파가 배치되어 있을 것 같은 주파수 대역을 나타낸다. 컷 오프 주파수 계산기(203)는, 이하의 수학식을 이용하여, 8차 고조파가 아마도 배치되어 있을 것 같은 주파수 대역 의 마지막 주파수와 1.2kHz 중 보다 높은 주파수로서 최종 컷 오프 주파수 를 계산한다.
b) 정규화 및 잡음 필
변환기/수정기(107)는 컷 오프 주파수 fc보다 높은 주파수 대역의 주파수 빈을 0으로 만드는 제로화기(204)를 구비한다.
불활성 프레임 및 활성 무성음 프레임의 경우, 변환기/수정기(107)의 정규화기(205)는 이하의 수학식을 이용하여 [0,4]사이의 시간 영역 CELP 여기의 주파수 표현 의 주파수 대역들 중 fc 미만의 주파수 빈을 정규화한다.
그 다음, 변환기/수정기(107)는 랜덤 잡음을 생성하기 위한 랜덤 잡음 생성기(206)를 구비하며, 모든 주파수 빈에 걸쳐 일정 레벨로 잡음을 추가하기 위한 가산기(207)를 통해 간단한 잡음 필이 실행된다. 잡음 추가를 설명하는 함수는 아래와 같이 정의된다.
j = 0 : L-1의 경우
여기에서, rand는 -1 내지 1 사이로 제한된 랜덤 수 생성기이다.
c) 수정된 여기 스펙트럼의 대역당 에너지 분석
d) 에너지 매칭
불활성 프레임 및 활성 무성음 프레임의 경우, 여기 스펙트럼 수정 이후 대역당 에너지를 그의 초기값으로 조정하는데만 에너지 매칭이 이루어진다. 이득 계산기(208-209-210)의 서브 계산기(210)는, 각 대역 i마다, 아래와 같이 에너지를 매칭시키기 위한 주파수 대역에 있어서 모든 빈에 적용하기 위한 매칭 이득 Gb를 결정한다.
여기에서, 는 상술한 섹션 3의 방법을 이용하여 서브 계산기(209)에서 결정된 여기 스펙트럼 수정 전 대역당 에너지이고, 는 서브 계산기(208)에서 계산된 여기 스펙트럼 수정 후 대역당 에너지이다. 특정 대역 i의 경우, 서브 계산기(201)에서 결정된, 수정된(정규화되지 않은) 주파수 영역 여기는 아래와 같다.
여기에서, CBb 및 Bb는 상술한 섹션 3에 정의되어 있다.
5) 일반 오디오 프레임에 대한 여기 수정
a) 정규화 및 잡음 필
도 3을 참조한다. 분류기부(301)에 의해 결정된 일반 오디오 프레임의 경우, 정규화는 약간 다르며, 정규화기(302)에 의해 실행된다. 먼저, 대역마다 정규화 계수 가 변경되는데, 이 변경은 저주파수 대역에 대해 높은 값을 이용하고 고주파수 대역에 대해 낮은 값을 이용하여 이루어진다. 이러한 개념은 펄스의 위치가 보다 정확한 낮은 주파수 대역에서는 보다 높은 진폭을 감안하기 위한 것이고, 펄스 위치가 덜 정확한 높은 주파수 대역에서는 낮은 진폭을 감안하기 위한 것이다. 이러한 예시에 있어서, 주파수 대역에 의한 가변 정규화 계수 는 아래와 같이 정의된다.
여기에서, Zf는 다음과 같이 나타낼 수 있다.
b) 수정된 여기 스펙트럼의 대역당 에너지 분석
c) 에너지 매칭
도 3에는 이득 계산기(303-304-306)가 도시되며, 도 4에는 이러한 이득 계산기의 계산기부(306)가 보다 상세하게 도시된다.
일반 오디오 프레임의 경우, 에너지 매칭이 보다 까다로운데, 그 이유는 그것이 또한 스펙트럼 다이나믹의 증가를 목표로 하고 있기 때문이다. 각 주파수 대역 i 마다, 이득 계산기(303-304-306)의 계산기부(306)의 서브 계산기(413)는 수학식 (22)에서와 유사하게 정의된 추정 이득을 계산한다.
여기에서, 는 상술한 섹션 3에서 설명한 방법을 이용하여 계산기부(304)에서 결정된 여기 스펙트럼 수정 전 대역당 에너지이고, 는 계산기부(303)에서 계산된 여기 스펙트럼 수정 후 대역당 에너지이다.
계산기부(306)의 서브 계산기(414)는 이하의 수학식을 이용하여, 수정된(정규화되지 않은) 주파수 영역 여기 를 제공하기 위하여 정규화기(302)와 스펙트럼 스플리터(splitter; 401-420)로부터의 정규화된 주파수 영역 여기 의 첫번째 400Hz(또는 첫번 째 4 대역들)에 이득 을 적용한다.
정규화된 주파수 영역 여기의 400Hz와 2KHz 사이에 구성된 주파수 대역들(대역 4 내지 12)의 경우(모듈 420 및 450 참조), 주파수 빈에 있어서의 정규화된 주파수 영역 여기가 이면(모듈 451 참조), 증폭기(402)는 수학식 28의 상부 라인에 보여진대로 서브 계산기(431)로부터의 이득 을 계수 1.1만큼 증폭한다. 서브 계산기(403)는 수정된(정규화되지 않은) 주파수 영역 여기 를 획득하기 위해 수학식 28의 첫번째 라인에 따라 주파수 빈에 있어서의 정규화된 스펙트럼 여기 에 증폭기(402)로부터의 증폭된 이득을 적용한다.
다시, 정규화된 주파수 영역 여기로 구성된 400Hz와 2KHz 사이의 주파수 대역들(대역 4 내지 12)의 경우(모듈 420 및 450 참조), 주파수 빈에 있어서의 정규화된 주파수 영역 여기가 이면(모듈 451 참조), 감쇄기(405)는 수학식 28의 하부 라인에 보여진대로 서브 계산기(431)로부터의 이득 을 계수 0.86만큼 감쇄시킨다. 서브 계산기(406)는 수정된(정규화되지 않은) 주파수 영역 여기 를 획득하기 위해 수학식 28의 하부 라인에 따라 주파수 빈에 있어서의 정규화된 스펙트럼 여기 에 감쇄기(405)로부터의 감쇄된 이득을 적용한다.
마지막으로, 스펙트럼의 보다 높은 부분에 대해, 본 예시에서는, 정규화된 주파수 영역 여기의 2kHz보다 높은 주파수 대역(대역>12)(모듈 420 및 450 참조)에 대해, 주파수 빈에 있어서의 정규화된 주파수 영역 여기가 이면(모듈 452 참조), 주파수 대역 i의 함수이면서 비트 레이트의 함수일 수 있는 틸트가 이득 에 추가되어, LPC 필터의 너무 낮은 에너지 추정을 보상한다. 주파수 대역당 틸트의 값 은 아래와 같다.
틸트는 틸트 계산기(407-408)에 의해 계산되며, 서브 계산기(409)에 의해 수학식 30의 상부 라인에 따른 주파수 빈 만큼 정규화된 주파수 영역 여기 에 적용됨으로써, 수정된(정규화되지 않은) 주파수 영역 여기 가 획득된다.
다시, 스펙트럼의 보다 높은 부분에 대해, 본 예시에서는, 정규화된 주파수 영역 여기의 2kHz보다 높은 주파수 대역(대역>12)(모듈 420 및 450 참조)의 경우, 주파수 빈에 있어서의 정규화된 주파수 영역 여기가 이면(모듈 452 참조), 감쇄기(410)는 감쇄 이득 을 계산하고, 그 감쇄 이득은, 서브 계산기(411)에 의해 수학식 30의 하부 라인에 따른 주파수 빈 만큼 정규화된 스펙트럼 여기 에 적용됨으로써, 수정된(정규화되지 않은) 주파수 영역 여기 가 획득된다.
여기에서, a 및 b는 상기에 설명되어 있다. LPC의 에너지 매칭이 최악인 가장 최근의 대역에 적용된 이득을 추가로 증가시킬 수 있다.
6) 역 주파수 변환
조합기(453)는 서브 계산기(414,403,406,409 및 411)로부터의 수정된(정규화되지 않은) 주파수 영역 여기 에 그 기여를 조합함으로써, 완전한 수정된(정규화되지 않은) 주파수 영역 여기 를 형성한다.
주파수 영역 프로세싱이 완료된 후, 조합기(453)로부터의 수정된(정규화되지 않은) 주파수 영역 여기 에 역 주파수-시간 변환(202)이 적용되어, 시간 영역 수정된 여기를 발견한다. 이러한 예시적인 실시 예에서, 주파수-시간 변환은 25Hz의 분해능을 제공하는 시간-주파수 변환에 대해 이용된 것과 동일한 유형∥ DCT의 역에 의해 달성된다. 임의의 다른 변환이 이용될 수 있다. 수정된 시간 영역 여기 는 아래와 같이 획득된다.
여기에서, 는 수정된 여기의 주파수 표현이고, L은 프레임 길이이다. 이러한 예시에 있어서, 프레임 길이는 12.8kHz의 대응하는 내부 샘플링 주파수에 대해 256 샘플이다(AMR-WB).
7) 합성 필터링 및 현재 CELP 합성의 오버라이팅
여기 수정이 완료되면, 합성 필터(108)를 통해 수정된 여기가 처리됨으로써 현재 프레임에 대한 수정된 합성이 획득된다. 오버라이터(110)는 디코딩된 합성을 오버라이트하여 인지 품질(perceptual quality)을 증가시키기 위해 이러한 수정된 합성을 이용한다.
16 kHz에 대한 최종적인 디-엠파시스 및 재 샘플링이 디-앰파시스 필터 및 재샘플러(112)에서 실행될 수 있다.
Claims (32)
- 시간 영역 디코더에 의해 디코딩된 시간 영역 여기의 합성을 수정하는 디바이스로서,
디코딩된 시간 영역 여기의 합성을 다수의 카테고리 중 하나의 카테고리로 분류하는 분류기;
디코딩된 시간 영역 여기를 주파수 영역 여기로 변환하는 변환기;
분류기에 의해 디코딩된 시간 영역 여기의 합성이 분류된 카테고리의 함수로서 주파수 영역 여기를 수정하는 수정기;
수정된 주파수 영역 여기를 수정된 시간 영역 여기로 변환하는 변환기; 및
수정된 시간 영역 여기를 공급받아 디코딩된 시간 영역 여기의 수정된 합성을 생성하는 합성 필터를 포함하는
디바이스.
- 제 1 항에 있어서,
상기 수정기는,
이용을 위해 시간 영역 여기 기여가 종료되는 컷 오프 주파수를 계산하는 계산기를 포함하는
디바이스.
- 제 2 항에 있어서,
상기 수정기는,
컷 오프 주파수보다 높은 주파수 영역 여기를 0으로 만드는 제로화기; 및
정규화된 주파수 영역 여기를 생성하기 위해, 컷 오프 주파수보다 낮은 주파수 영역 여기를 정규화하는 정규화기를 포함하는
디바이스.
- 제 3 항에 있어서,
상기 수정기는, 랜덤 잡음 생성기 및 정규화된 주파수 영역 여기에 랜덤 잡음을 추가하는 가산기를 포함하는
디바이스.
- 제 3 항 또는 제 4 항에 있어서,
상기 수정기는, 수정 전후에 주파수 영역 여기의 에너지를 이용하여 매칭 이득을 계산하는 계산기를 더 포함하고, 상기 계산기는 정규화된 주파수 영역 여기에 매칭 이득을 적용하여, 수정된 주파수 영역 여기를 생성하는
디바이스.
- 제 2 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 분류기는 디코딩된 시간 영역 여기의 합성을 불활성 또는 활성 무성음으로 분류하는
디바이스.
- 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
디코딩된 시간 영역 여기의 합성이 분류기에 의해 카테고리들 중 주어진 카테고리로 분류되면 합성 필터를 부드럽게(smooth)하는 스무더(smoother)를 포함하는
디바이스.
- 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
주파수 영역 여기는 각각이 주파수 빈들로 분할되는 주파수 대역으로 분할되고, 상기 수정기는,
정규화된 주파수 영역 여기를 생성하기 위해 주파수 대역 가변 정규화 계수를 이용하여 주파수 영역 여기를 정규화하는 정규화기를 포함하는
디바이스.
- 제 8 항에 있어서,
상기 정규화기는 주파수 빈들을 포함하는 주파수 대역내의 정규화된 주파수 영역 여기의 최대값의 몇 분의 일보다 작은 주파수 빈들을 0으로 만드는 제로화기를 포함하는
디바이스.
- 제 8 항 또는 제 9 항에 있어서,
상기 수정기는,
수정 전후에 주파수 영역 여기의 에너지를 이용하여 주파수 대역당 매칭 이득을 계산하는 계산기를 포함하는
디바이스.
- 제 10 항에 있어서,
상기 수정기는, 제 1 주파수보다 낮은 주파수 대역에 대해, 정규화된 주파수 대역 여기에 매칭 이득을 적용하여 수정된 주파수 영역 여기를 생성하는 계산기를 포함하는
디바이스.
- 제 10 항에 있어서,
제 1 저주파수와 제 2 고주파수 사이의 주파수 대역에 대해,
정규화된 주파수 영역 여기의 주파수 대역당 최대값을 발견하는 파인더(finder);
주파수 빈에 있어서의 정규화된 주파수 영역 여기가 주파수 대역의 상기 최대값에 비례하는 값 이상일 경우에 주파수 빈당 증폭 계수만큼 매칭 이득을 증폭시키는 증폭기; 및
주파수 빈에 있어서의 정규화된 주파수 영역 여기에 증폭된 매칭 이득을 적용하여 상기 주파수 빈에 있어서 수정된 주파수 영역 여기를 생성하는 계산기를 포함하는
디바이스.
- 제 10 항에 있어서,
제 1 저주파수와 제 2 고주파수 사이의 주파수 대역에 대해,
정규화된 주파수 영역 여기의 주파수 대역당 최대값을 발견하는 파인더(finder);
주파수 빈에 있어서의 정규화된 주파수 영역 여기가 주파수 대역의 상기 최대값에 비례하는 값 미만일 경우에 주파수 대역의 주파수 빈당 감쇄 계수만큼 매칭 이득을 감쇄시키는 감쇄기; 및
주파수 빈에 있어서 정규화된 주파수 영역 여기에 감쇄된 매칭 이득을 적용하여 상기 주파수 빈에 있어서 수정된 주파수 영역 여기를 생성하는 계산기를 포함하는
디바이스.
- 제 10 항에 있어서,
주어진 주파수보다 높은 주파수 대역에 대해,
정규화된 주파수 영역 여기의 주파수 대역당 최대값을 발견하는 파인더(finder);
주파수 빈에 있어서의 정규화된 주파수 영역 여기가 주파수 대역의 상기 최대값에 비례하는 값보다 높을 경우에 매칭 이득에 대한 틸트를 계산하여, 계산된 틸트를 매칭 이득에 적용하는 계산기; 및
상기 계산된 틸트가 적용되었던 매칭 이득을 주파수 빈에 있어서의 정규화된 주파수 영역 여기에 적용하여, 상기 주파수 빈에 있어서 수정된 주파수 영역 여기를 생성하는 계산기를 포함하는
디바이스.
- 제 10 항에 있어서,
주어진 주파수보다 높은 주파수 대역에 대해,
정규화된 주파수 영역 여기의 주파수 대역당 최대값을 발견하는 파인더(finder);
주파수 빈에 있어서의 정규화된 주파수 영역 여기가 주파수 대역의 상기 최대값에 비례하는 값 미만일 경우에 주파수 대역의 주파수 빈당 증폭 계수만큼 매칭 이득을 감쇄시키는 감쇄기; 및
주파수 빈에 있어서 정규화된 주파수 영역 여기에 감쇄된 매칭 이득을 적용하여 상기 주파수 빈에 있어서 수정된 주파수 영역 여기를 생성하는 계산기를 포함하는
디바이스.
- 인코딩 파라메타에 의해 인코딩된 사운드 신호를 디코딩하는 디바이스로서,
사운드 신호 인코딩 파라메타에 응답하여 시간 영역 여기를 디코딩하는 디코더;
디코딩된 시간 영역 여기에 응답하여 상기 시간 영역 여기의 합성을 생성하는 합성 필터; 및
시간 영역 여기의 합성을 수정하는, 청구항 제 1 항 내지 제 15 항 중 어느 한 항에 따른 디바이스를 포함하는
디코딩 디바이스.
- 시간 영역 디코더에 의해 디코딩된 시간 영역 여기의 합성을 수정하는 방법으로서,
디코딩된 시간 영역 여기의 합성을 다수의 카테고리 중 하나의 카테고리로 분류하는 단계;
디코딩된 시간 영역 여기를 주파수 영역 여기로 변환하는 단계;
디코딩된 시간 영역 여기의 합성이 분류된 카테고리의 함수로서 주파수 영역 여기를 수정하는 단계;
수정된 주파수 영역 여기를 수정된 시간 영역 여기로 변환하는 단계; 및
디코딩된 시간 영역 여기의 수정된 합성을 생성하기 위해 수정된 시간 영역 여기를 합성하는 단계를 포함하는
방법.
- 제 17 항에 있어서,
상기 주파수 영역 여기를 수정하는 단계는,
이용을 위해 시간 영역 여기 기여가 종료되는 컷 오프 주파수를 계산하는 단계를 포함하는
방법.
- 제 18 항에 있어서,
상기 주파수 영역 여기를 수정하는 단계는,
컷 오프 주파수보다 높은 주파수 영역 여기를 0으로 만드는 단계; 및
정규화된 주파수 영역 여기를 생성하기 위해, 컷 오프 주파수보다 낮은 주파수 영역 여기를 정규화하는 단계를 포함하는
방법.
- 제 19 항에 있어서,
상기 주파수 영역 여기를 수정하는 단계는, 랜덤 잡음을 생성하는 단계 및 정규화된 주파수 영역 여기에 랜덤 잡음을 추가하는 단계를 포함하는
방법.
- 제 19 항에 있어서,
상기 주파수 영역 여기를 수정하는 단계는, 수정 전후에 주파수 영역 여기의 에너지를 이용하여 매칭 이득을 계산하는 단계와, 정규화된 주파수 영역 여기에 매칭 이득을 적용하여, 수정된 주파수 영역 여기를 생성하는 단계를 포함하는
방법.
- 제 18 항 내지 제 21 항 중 어느 한 항에 있어서,
상기 디코딩된 시간 영역 여기의 합성은 불활성 또는 활성 무성음으로 분류되는
방법.
- 제 17 항 내지 제 22 항 중 어느 한 항에 있어서,
디코딩된 시간 영역 여기의 합성이 분류기에 의해 카테고리들 중 주어진 카테고리로 분류되면 수정된 시간 영역 여기의 합성을 실행하는 합성 필터를 부드럽게(smooth)하는 단계를 포함하는
방법.
- 제 17 항 내지 제 23 항 중 어느 한 항에 있어서,
주파수 영역 여기는 각각이 주파수 빈들로 분할되는 주파수 대역으로 분할되고, 상기 주파수 영역 여기를 수정하는 단계는,
정규화된 주파수 영역 여기를 생성하기 위해 주파수 대역 가변 정규화 계수를 이용하여 주파수 영역 여기를 정규화하는 단계를 포함하는
방법.
- 제 24 항에 있어서,
상기 주파수 영역 여기를 수정하는 단계는, 주파수 빈들을 포함하는 주파수 대역내의 정규화된 주파수 영역 여기의 최대값의 몇 분의 일보다 작은 주파수 빈들을 0으로 만드는 단계를 포함하는
방법.
- 제 24 항 또는 제 25 항에 있어서,
상기 주파수 영역 여기를 수정하는 단계는,
수정 전후에 주파수 영역 여기의 에너지를 이용하여 주파수 대역당 매칭 이득을 계산하는 단계를 포함하는
방법.
- 제 26 항에 있어서,
상기 주파수 영역 여기를 수정하는 단계는, 제 1 주파수보다 낮은 주파수 대역에 대해, 정규화된 주파수 대역 여기에 매칭 이득을 적용하여 수정된 주파수 영역 여기를 생성하는 단계를 포함하는
방법.
- 제 26 항에 있어서,
제 1 저주파수와 제 2 고주파수 사이의 주파수 대역에 대해,
정규화된 주파수 영역 여기의 주파수 대역당 최대값을 발견하는 단계;
주파수 빈에 있어서의 정규화된 주파수 영역 여기가 주파수 대역의 상기 최대값에 비례하는 값 이상일 경우에 주파수 빈당 증폭 계수만큼 매칭 이득을 증폭시키는 단계; 및
주파수 빈에 있어서의 정규화된 주파수 영역 여기에 증폭된 매칭 이득을 적용하여 상기 주파수 빈에 있어서 수정된 주파수 영역 여기를 생성하는 단계를 포함하는
방법.
- 제 26 항에 있어서,
제 1 저주파수와 제 2 고주파수 사이의 주파수 대역에 대해,
정규화된 주파수 영역 여기의 주파수 대역당 최대값을 발견하는 단계;
주파수 빈에 있어서의 정규화된 주파수 영역 여기가 주파수 대역의 상기 최대값에 비례하는 값 미만일 경우에 주파수 대역의 주파수 빈당 감쇄 계수만큼 매칭 이득을 감쇄시키는 단계; 및
주파수 빈에 있어서 정규화된 주파수 영역 여기에 감쇄된 매칭 이득을 적용하여 상기 주파수 빈에 있어서 수정된 주파수 영역 여기를 생성하는 단계를 포함하는
방법.
- 제 26 항에 있어서,
주어진 주파수보다 높은 주파수 대역에 대해,
정규화된 주파수 영역 여기의 주파수 대역당 최대값을 발견하는 단계;
주파수 빈에 있어서의 정규화된 주파수 영역 여기가 주파수 대역의 상기 최대값에 비례하는 값보다 높을 경우에 매칭 이득에 대한 틸트를 계산하여, 계산된 틸트를 매칭 이득에 적용하는 단계; 및
상기 계산된 틸트가 적용되었던 매칭 이득을 주파수 빈에 있어서의 정규화된 주파수 영역 여기에 적용하여, 상기 주파수 빈에 있어서 수정된 주파수 영역 여기를 생성하는 단계를 포함하는
방법.
- 제 26 항에 있어서,
주어진 주파수보다 높은 주파수 대역에 대해,
정규화된 주파수 영역 여기의 주파수 대역당 최대값을 발견하는 단계;
주파수 빈에 있어서의 정규화된 주파수 영역 여기가 주파수 대역의 상기 최대값에 비례하는 값 미만일 경우에 주파수 대역의 주파수 빈당 증폭 계수만큼 매칭 이득을 감쇄시키는 단계; 및
주파수 빈에 있어서 정규화된 주파수 영역 여기에 감쇄된 매칭 이득을 적용하여 상기 주파수 빈에 있어서 수정된 주파수 영역 여기를 생성하는 단계를 포함하는
방법.
- 인코딩 파라메타에 의해 인코딩된 사운드 신호를 디코딩하는 방법으로서,
사운드 신호 인코딩 파라메타에 응답하여 시간 영역 여기를 디코딩하는 단계;
디코딩된 시간 영역 여기를 합성하여 상기 시간 영역 여기의 합성을 생성하는 단계; 및
시간 영역 여기의 합성을 수정하는, 청구항 제 17 항 내지 제 31 항 중 어느 한 항에 따른 방법을 포함하는
디코딩 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161555246P | 2011-11-03 | 2011-11-03 | |
US61/555,246 | 2011-11-03 | ||
PCT/CA2012/001011 WO2013063688A1 (en) | 2011-11-03 | 2012-11-01 | Improving non-speech content for low rate celp decoder |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140090214A true KR20140090214A (ko) | 2014-07-16 |
KR102105044B1 KR102105044B1 (ko) | 2020-04-27 |
Family
ID=48191141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020147013465A KR102105044B1 (ko) | 2011-11-03 | 2012-11-01 | 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선 |
Country Status (15)
Country | Link |
---|---|
US (1) | US9252728B2 (ko) |
EP (2) | EP2774145B1 (ko) |
JP (5) | JP6239521B2 (ko) |
KR (1) | KR102105044B1 (ko) |
CN (3) | CN104040624B (ko) |
CA (1) | CA2851370C (ko) |
DK (1) | DK2774145T3 (ko) |
ES (1) | ES2805308T3 (ko) |
HK (1) | HK1198265A1 (ko) |
HR (1) | HRP20201070T1 (ko) |
HU (1) | HUE050600T2 (ko) |
IN (1) | IN2014DN03022A (ko) |
LT (1) | LT2774145T (ko) |
SI (1) | SI2774145T1 (ko) |
WO (1) | WO2013063688A1 (ko) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104040624B (zh) * | 2011-11-03 | 2017-03-01 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
EP3848929B1 (en) | 2013-03-04 | 2023-07-12 | VoiceAge EVS LLC | Device and method for reducing quantization noise in a time-domain decoder |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
CN111312277B (zh) * | 2014-03-03 | 2023-08-15 | 三星电子株式会社 | 用于带宽扩展的高频解码的方法及设备 |
CN110097892B (zh) * | 2014-06-03 | 2022-05-10 | 华为技术有限公司 | 一种语音频信号的处理方法和装置 |
JP6401521B2 (ja) * | 2014-07-04 | 2018-10-10 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
US9972334B2 (en) * | 2015-09-10 | 2018-05-15 | Qualcomm Incorporated | Decoder audio classification |
US10373608B2 (en) | 2015-10-22 | 2019-08-06 | Texas Instruments Incorporated | Time-based frequency tuning of analog-to-information feature extraction |
WO2019056108A1 (en) | 2017-09-20 | 2019-03-28 | Voiceage Corporation | METHOD AND DEVICE FOR EFFICIENT DISTRIBUTION OF A BINARY BUDGET IN A CELP CODEC |
TWI790705B (zh) * | 2021-08-06 | 2023-01-21 | 宏正自動科技股份有限公司 | 語速調整方法及其系統 |
CN115857614B (zh) * | 2022-11-17 | 2023-12-29 | 弘正储能(上海)能源科技有限公司 | 多路光伏mppt交错式boost控制方法及其系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
JP2009508146A (ja) * | 2005-05-31 | 2009-02-26 | マイクロソフト コーポレーション | オーディオコーデックポストフィルタ |
WO2015117720A1 (de) * | 2014-02-06 | 2015-08-13 | Sartorius Lab Instruments Gmbh & Co.Kg | Verfahren zur funktionsprüfung eines messgerätes |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58220199A (ja) * | 1982-06-17 | 1983-12-21 | 日本電気株式会社 | 帯域分割型ボコ−ダ |
JP3088121B2 (ja) * | 1991-04-12 | 2000-09-18 | 沖電気工業株式会社 | 統計励振コードベクトルの最適化方法 |
JP2606006B2 (ja) * | 1991-05-24 | 1997-04-30 | ヤマハ株式会社 | ノイズ音発生装置 |
JP3328080B2 (ja) * | 1994-11-22 | 2002-09-24 | 沖電気工業株式会社 | コード励振線形予測復号器 |
JP3451998B2 (ja) * | 1999-05-31 | 2003-09-29 | 日本電気株式会社 | 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体 |
US7272553B1 (en) * | 1999-09-08 | 2007-09-18 | 8X8, Inc. | Varying pulse amplitude multi-pulse analysis speech processor and method |
US7139700B1 (en) * | 1999-09-22 | 2006-11-21 | Texas Instruments Incorporated | Hybrid speech coding and system |
JP3478209B2 (ja) * | 1999-11-01 | 2003-12-15 | 日本電気株式会社 | 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体 |
US6704711B2 (en) * | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
JP3462464B2 (ja) * | 2000-10-20 | 2003-11-05 | 株式会社東芝 | 音声符号化方法、音声復号化方法及び電子装置 |
JP2003110429A (ja) * | 2001-09-28 | 2003-04-11 | Sony Corp | 符号化方法及び装置、復号方法及び装置、伝送方法及び装置、並びに記録媒体 |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP3861770B2 (ja) * | 2002-08-21 | 2006-12-20 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
WO2004084182A1 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Decomposition of voiced speech for celp speech coding |
WO2004090870A1 (ja) * | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | 広帯域音声を符号化または復号化するための方法及び装置 |
CN101185127B (zh) * | 2005-04-01 | 2014-04-23 | 高通股份有限公司 | 用于编码和解码语音信号的高频带部分的方法和设备 |
US7630882B2 (en) * | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
KR20080047443A (ko) * | 2005-10-14 | 2008-05-28 | 마츠시타 덴끼 산교 가부시키가이샤 | 변환 부호화 장치 및 변환 부호화 방법 |
US7490036B2 (en) * | 2005-10-20 | 2009-02-10 | Motorola, Inc. | Adaptive equalizer for a coded speech signal |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US20090281812A1 (en) * | 2006-01-18 | 2009-11-12 | Lg Electronics Inc. | Apparatus and Method for Encoding and Decoding Signal |
US8271277B2 (en) * | 2006-03-03 | 2012-09-18 | Nippon Telegraph And Telephone Corporation | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
CN101086845B (zh) * | 2006-06-08 | 2011-06-01 | 北京天籁传音数字技术有限公司 | 声音编码装置及方法以及声音解码装置及方法 |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
CN101025918B (zh) * | 2007-01-19 | 2011-06-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
PT2945158T (pt) * | 2007-03-05 | 2020-02-18 | Ericsson Telefon Ab L M | Método e arquitetura para alisamento de ruído de fundo estacionário |
CN101388214B (zh) * | 2007-09-14 | 2012-07-04 | 向为 | 一种变速率的声码器及其编码方法 |
CN100585699C (zh) * | 2007-11-02 | 2010-01-27 | 华为技术有限公司 | 一种音频解码的方法和装置 |
WO2009110738A2 (ko) * | 2008-03-03 | 2009-09-11 | 엘지전자(주) | 오디오 신호 처리 방법 및 장치 |
EP2259254B1 (en) * | 2008-03-04 | 2014-04-30 | LG Electronics Inc. | Method and apparatus for processing an audio signal |
CN101620854B (zh) * | 2008-06-30 | 2012-04-04 | 华为技术有限公司 | 频带扩展的方法、系统和设备 |
CN102105930B (zh) * | 2008-07-11 | 2012-10-03 | 弗朗霍夫应用科学研究促进协会 | 用于编码采样音频信号的帧的音频编码器和解码器 |
EP2144229A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Efficient use of phase information in audio encoding and decoding |
PL2146344T3 (pl) * | 2008-07-17 | 2017-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście |
EP3640941A1 (en) * | 2008-10-08 | 2020-04-22 | Fraunhofer Gesellschaft zur Förderung der Angewand | Multi-resolution switched audio encoding/decoding scheme |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
EP2471061B1 (en) * | 2009-10-08 | 2013-10-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
US8892428B2 (en) * | 2010-01-14 | 2014-11-18 | Panasonic Intellectual Property Corporation Of America | Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude |
US8958572B1 (en) * | 2010-04-19 | 2015-02-17 | Audience, Inc. | Adaptive noise cancellation for multi-microphone systems |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
CN102074245B (zh) * | 2011-01-05 | 2012-10-10 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
CN104040624B (zh) * | 2011-11-03 | 2017-03-01 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
-
2012
- 2012-11-01 CN CN201280065936.1A patent/CN104040624B/zh active Active
- 2012-11-01 KR KR1020147013465A patent/KR102105044B1/ko active IP Right Grant
- 2012-11-01 JP JP2014539195A patent/JP6239521B2/ja active Active
- 2012-11-01 CN CN201710020311.8A patent/CN106910509B/zh active Active
- 2012-11-01 DK DK12844916.2T patent/DK2774145T3/da active
- 2012-11-01 WO PCT/CA2012/001011 patent/WO2013063688A1/en active Application Filing
- 2012-11-01 IN IN3022DEN2014 patent/IN2014DN03022A/en unknown
- 2012-11-01 SI SI201231800T patent/SI2774145T1/sl unknown
- 2012-11-01 CN CN201710019918.4A patent/CN107068158B/zh active Active
- 2012-11-01 EP EP12844916.2A patent/EP2774145B1/en active Active
- 2012-11-01 LT LTEP12844916.2T patent/LT2774145T/lt unknown
- 2012-11-01 EP EP20172813.6A patent/EP3709298A1/en active Pending
- 2012-11-01 ES ES12844916T patent/ES2805308T3/es active Active
- 2012-11-01 HU HUE12844916A patent/HUE050600T2/hu unknown
- 2012-11-01 CA CA2851370A patent/CA2851370C/en active Active
- 2012-11-02 US US13/667,921 patent/US9252728B2/en active Active
-
2014
- 2014-11-21 HK HK14111781.4A patent/HK1198265A1/xx unknown
-
2017
- 2017-11-01 JP JP2017211617A patent/JP6513769B2/ja active Active
- 2017-11-01 JP JP2017211618A patent/JP6532926B2/ja active Active
-
2019
- 2019-05-22 JP JP2019096082A patent/JP2019152878A/ja active Pending
-
2020
- 2020-07-08 HR HRP20201070TT patent/HRP20201070T1/hr unknown
-
2021
- 2021-11-18 JP JP2021188032A patent/JP7237127B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
JP2009508146A (ja) * | 2005-05-31 | 2009-02-26 | マイクロソフト コーポレーション | オーディオコーデックポストフィルタ |
WO2015117720A1 (de) * | 2014-02-06 | 2015-08-13 | Sartorius Lab Instruments Gmbh & Co.Kg | Verfahren zur funktionsprüfung eines messgerätes |
Non-Patent Citations (1)
Title |
---|
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20. * |
Also Published As
Publication number | Publication date |
---|---|
EP3709298A1 (en) | 2020-09-16 |
HUE050600T2 (hu) | 2021-01-28 |
KR102105044B1 (ko) | 2020-04-27 |
CN107068158B (zh) | 2020-08-21 |
JP7237127B2 (ja) | 2023-03-10 |
JP2018045243A (ja) | 2018-03-22 |
WO2013063688A1 (en) | 2013-05-10 |
JP2018045244A (ja) | 2018-03-22 |
JP6532926B2 (ja) | 2019-06-19 |
JP2015501452A (ja) | 2015-01-15 |
HK1198265A1 (en) | 2015-03-20 |
JP6513769B2 (ja) | 2019-05-15 |
US9252728B2 (en) | 2016-02-02 |
US20130121508A1 (en) | 2013-05-16 |
ES2805308T3 (es) | 2021-02-11 |
JP2019152878A (ja) | 2019-09-12 |
DK2774145T3 (da) | 2020-07-20 |
EP2774145A4 (en) | 2015-10-21 |
JP2022022247A (ja) | 2022-02-03 |
EP2774145B1 (en) | 2020-06-17 |
JP6239521B2 (ja) | 2017-11-29 |
CN104040624B (zh) | 2017-03-01 |
LT2774145T (lt) | 2020-09-25 |
CN106910509A (zh) | 2017-06-30 |
HRP20201070T1 (hr) | 2020-10-30 |
CN106910509B (zh) | 2020-08-18 |
SI2774145T1 (sl) | 2020-10-30 |
CN107068158A (zh) | 2017-08-18 |
IN2014DN03022A (ko) | 2015-05-08 |
CA2851370C (en) | 2019-12-03 |
CA2851370A1 (en) | 2013-05-10 |
CN104040624A (zh) | 2014-09-10 |
EP2774145A1 (en) | 2014-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7237127B2 (ja) | 時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法および装置 | |
JP7179812B2 (ja) | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 | |
RU2483364C2 (ru) | Схема аудиокодирования/декодирования с переключением байпас | |
US7693710B2 (en) | Method and device for efficient frame erasure concealment in linear predictive based speech codecs | |
US8265940B2 (en) | Method and device for the artificial extension of the bandwidth of speech signals | |
CN101496101B (zh) | 用于增益因子限制的系统、方法及设备 | |
KR102007972B1 (ko) | 스피치 처리를 위한 무성음/유성음 결정 | |
TW201248618A (en) | Noise-robust speech coding mode classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |