KR102447846B1 - 잡음 변조 및 이득 조정을 수행하는 시스템들 및 방법들 - Google Patents
잡음 변조 및 이득 조정을 수행하는 시스템들 및 방법들 Download PDFInfo
- Publication number
- KR102447846B1 KR102447846B1 KR1020217008112A KR20217008112A KR102447846B1 KR 102447846 B1 KR102447846 B1 KR 102447846B1 KR 1020217008112 A KR1020217008112 A KR 1020217008112A KR 20217008112 A KR20217008112 A KR 20217008112A KR 102447846 B1 KR102447846 B1 KR 102447846B1
- Authority
- KR
- South Korea
- Prior art keywords
- gain
- band
- values
- audio signal
- spectral
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000003595 spectral effect Effects 0.000 claims abstract description 156
- 238000002156 mixing Methods 0.000 claims abstract description 137
- 230000005236 sound signal Effects 0.000 claims abstract description 95
- 230000005284 excitation Effects 0.000 claims abstract description 93
- 238000013507 mapping Methods 0.000 claims description 28
- 230000007423 decrease Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000010295 mobile communication Methods 0.000 claims 4
- 230000000875 corresponding effect Effects 0.000 description 47
- 238000013459 approach Methods 0.000 description 22
- 238000009499 grossing Methods 0.000 description 18
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000013139 quantization Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
- H03G3/301—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers the gain being continuously variable
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3089—Control of digital or coded signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0003—Backward prediction of gain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuits Of Receivers In General (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Radar Systems Or Details Thereof (AREA)
- Amplifiers (AREA)
- Noise Elimination (AREA)
Abstract
방법은 혼합 인자의 제 1 값을 수신하는 단계를 포함한다. 제 1 값은 오디오 인코더에서 수신된 오디오 신호의 제 1 부분에 대응한다. 그 방법은 그 혼합 인자의 제 2 값을 수신하는 단계를 포함한다. 제 2 값은 오디오 신호의 제 2 부분에 대응한다. 그 방법은, 혼합 인자의 제 1 값 및 제 2 값에 적어도 부분적으로 기초하여 제 3 값을 생성하는 단계와 제 3 값에 기초하여 여기 신호와 변조된 잡음을 혼합하는 단계를 또한 포함한다. 다른 방법은 오디오 신호에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하는 단계와 스펙트럼 주파수 값들의 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 결정하는 단계를 포함한다. 오디오 신호의 적어도 부분에 대응하는 이득 값은 제 1 세트와 제 2 세트 간의 차이에 기초하여 조정된다.
Description
관련 출원들에 대한 상호참조
본 출원은 공동 소유의 2013년 2월 8일자로 출원된 미국 특허 가출원 제61/762,810호와, 2013년 8월 28일자로 출원된 미국 특허 출원 제14/012,749호를 우선권 주장하며, 그것들의 내용은 전부가 참조에 의해 본원에 명시적으로 통합된다.
분야
본 개시물은 대체로 신호 프로세싱에 관한 것이다.
관련 기술의 설명
기술에서의 진보가 컴퓨팅 디바이스들이 더 작고 더 강력해지게 하였다. 예를 들어, 작으며, 경량이고, 및 사용자들이 쉽게 운반하는 무선 컴퓨팅 디바이스들, 이를테면 휴대용 무선 전화기들, 개인 정보 단말기들 (PDA들), 및 페이징 디바이스들을 포함한 다양한 휴대용 개인 컴퓨팅 디바이스들이 현재 존재한다. 더 구체적으로는, 휴대용 무선 전화기들, 이를테면 셀룰러 전화기들 및 인터넷 프로토콜 (IP) 전화기들이 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 게다가, 많은 이러한 무선 전화기들은 그 속에 통합되는 다른 유형들의 디바이스들을 포함한다. 예를 들어, 무선 전화기가 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어를 또한 포함할 수 있다.
전통적인 전화기 시스템들 (예컨대, 공중전화 교환망(PSTN)들) 에서, 신호 대역폭이 300 헤르츠 (Hz) 내지 3.4 킬로헤르츠 (kHz) 의 주파수 범위로 제한된다. 광대역 (WB) 애플리케이션들, 이를테면 셀룰러 전화 및 VoIP (voice over internet protocol) 에서, 신호 대역폭이 50 Hz부터 7 kHz까지의 주파수 범위에 걸쳐 있을 수도 있다. 초광대역 (SWB) 코딩 기법들이 대략 16 kHz까지 연장하는 대역폭을 지원한다. 3.4 kHz의 협대역 전화로부터 16 kHz의 SWB 전화까지의 확장 신호 대역폭이 신호 복원의 품질, 명료도, 및 자연스러움을 개선할 수도 있다.
SWB 코딩 기법들은 신호의 더 낮은 주파수 부분 (예컨대, 50 Hz 내지 7 kHz, 또한 "저대역 (low-band)"이라 지칭됨) 의 인코딩 및 송신을 통상 수반한다. 예를 들어, 저대역은 필터 파라미터들 및/또는 저대역 여기 신호를 사용하여 표현될 수도 있다. 그러나, 코딩 효율을 개선하기 위하여, 신호의 높은 주파수 부분 (예컨대, 7 kHz 내지 16 kHz, 또한 "고대역 (high-band)"이라 지칭됨) 은 완전히 인코딩되고 송신되지 못할 수도 있다. 대신, 수신기가 고대역을 예측하기 위해 신호 모델링을 이용할 수도 있다. 일부 구현예들에서, 고대역에 연관된 데이터가 예측을 돕기 위해 수신기에 제공될 수도 있다. 이러한 데이터는 "사이드 정보"라고 지칭될 수도 있고 이득 정보, 라인 스펙트럼 주파수들 (LSF들, 라인 스펙트럼 쌍 (LSP) 들이라고 지칭될 수도 있음) 등을 포함할 수도 있다. 신호 모델을 사용하는 고대역 예측은 저대역 신호가 고대역 신호에 충분히 상관되는 경우 만족스럽게 정확할 수도 있다. 그러나, 잡음의 존재시, 저대역 및 고대역 간의 상관은 약할 수도 있고, 신호 모델은 고대역을 정확히 표현하는 것이 더 이상 가능하지 않을 수도 있다. 이는 수신기에서 아티팩트들 (예컨대, 왜곡된 스피치) 을 초래할 수도 있다.
잡음 변조와 이득 조정을 수행하는 시스템들 및 방법들이 개시된다. 예를 들어, 고대역 인코딩이 저대역 분석 (예컨대, 저대역 선형 예측 (LP) 분석) 을 사용하여 생성된 저대역 여기 신호에 기초하여 고대역 여기 신호를 생성하는 것을 수반할 수도 있다. 고대역 여기 신호는 변환된 저대역 여기 신호와 변조된 잡음 (예컨대, 백색 잡음) 을 혼합함으로써 생성될 수도 있다. 변환된 저대역 여기 신호와 변조된 잡음이 혼합되는 비율이 신호 복원 품질에 영향을 줄 수도 있다. 저대역과 고대역 사이의 상관을 감소시키는 잡음의 존재시, 변환된 저대역 여기 신호는 고대역 합성에 부적당할 수도 있다. 예를 들어, 합성된 고대역 여기 신호는 가청 아티팩트들을 도입할 수도 있다. 설명된 기법들에 따라, 잡음 변조 및/또는 이득 조정이 이러한 아티팩트들을 감소시키도록 수행될 수도 있다. 잡음 변조를 수행하는 것은 저대역 여기 대 고대역 합성을 위해 사용되는 변조된 잡음의 비율을 적응적으로 평활화하는 것을 포함할 수도 있다. 이득 조정을 수행하는 것은 양자화 왜곡에 기초하여 고대역 사이드 정보에 포함시킬 이득 파라미터(들)를 결정하는 것을 포함할 수도 있다.
특정 실시형태에서, 방법이 혼합 인자의 제 1 값을 수신하는 단계를 포함한다. 제 1 값은 오디오 인코더에서 수신된 오디오 신호의 제 1 부분에 대응한다. 그 방법은 그 혼합 인자의 제 2 값을 수신하는 단계를 포함한다. 제 2 값은 오디오 신호의 제 2 부분에 대응한다. 그 방법은 제 1 값 및 제 2 값에 적어도 부분적으로 기초하여 혼합 인자의 제 3 값을 생성하는 단계를 포함한다. 그 방법은 혼합 인자의 제 3 값에 기초하여 여기 신호와 변조된 잡음을 혼합하는 단계를 또한 포함한다.
다른 특정 실시형태에서, 그 방법은 오디오 신호에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하는 단계와 스펙트럼 주파수 값들의 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 결정하는 단계를 포함한다. 그 방법은 제 1 세트와 제 2 세트 간의 차이에 기초하여 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하는 단계를 또한 포함한다.
다른 특정 실시형태에서, 장치가 혼합 인자의 제 1 값 및 혼합 인자의 제 2 값에 적어도 부분적으로 기초하여 혼합 인자의 제 3 값을 생성하도록 구성된 필터를 포함한다. 제 1 값은 오디오 신호의 제 1 부분에 대응하고 제 2 값은 오디오 신호의 제 2 부분에 대응한다. 그 장치는, 제 3 값을 수신하도록 구성된 그리고 변조된 잡음을 생성하고 변조된 잡음과 저대역 여기 신호의 변환된 버전을 결합함으로써 오디오 신호의 고대역 부분에 대응하는 고대역 여기 신호를 생성하도록 구성된 믹서를 또한 포함한다. 저대역 여기 신호는 오디오 신호의 저대역 부분에 해당한다. 믹서는 제 3 값에 기초하여 변조된 잡음과 저대역 여기 신호의 변환된 버전을 결합하도록 구성된다.
다른 특정 실시형태에서, 장치가 오디오 신호에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하도록 구성된 분석 필터를 포함한다. 그 장치는 스펙트럼 주파수 값들의 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 생성하도록 구성된 양자화기를 포함한다. 그 장치는 제 1 세트와 제 2 세트 간의 차이에 기초하여 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하도록 구성된 이득 회로를 또한 포함한다.
다른 특정 실시형태에서, 그 장치는 혼합 인자의 제 1 값 및 혼합 인자의 제 2 값에 적어도 부분적으로 기초하여 혼합 인자의 제 3 값을 생성하는 수단을 포함한다. 제 1 값은 오디오 인코더에서 수신된 오디오 신호의 제 1 부분에 대응하고 제 2 값은 그 오디오 신호의 제 2 부분에 대응한다. 그 장치는 변조된 잡음과 저대역 여기 신호의 변환된 버전을 결합시킴으로써 오디오 신호의 고대역 부분에 대응하는 고대역 여기 신호를 생성하는 수단을 포함한다. 저대역 여기 신호는 오디오 신호의 저대역 부분에 해당한다. 생성하는 수단은 제 3 값에 기초하여 변조된 잡음과 저대역 여기 신호의 변환된 버전을 결합하도록 구성된다.
다른 특정 실시형태에서, 장치는 오디오 신호에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하는 수단을 포함한다. 그 장치는 스펙트럼 주파수 값들의 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 생성하는 수단을 또한 포함한다. 그 장치는 제 1 세트 및 제 2 세트 간의 차이에 기초하여 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하는 수단을 또한 포함한다.
다른 특정 실시형태에서, 비일시적 컴퓨터 판독가능 매체는, 컴퓨터에 의해 실행되는 경우, 컴퓨터로 하여금 혼합 인자의 제 1 값을 수신하게 하는 명령들을 포함한다. 제 1 값은 오디오 인코더에서 수신된 오디오 신호의 제 1 부분에 대응한다. 컴퓨터로 하여금 혼합 인자의 제 2 값을 수신하게 하는 명령들이 또한 실행가능하다. 제 2 값은 오디오 신호의 제 2 부분에 대응한다. 컴퓨터로 하여금 제 1 값 및 제 2 값에 적어도 부분적으로 기초하여 혼합 인자의 제 3 값을 생성하게 하는 명령들이 또한 실행가능하다. 컴퓨터로 하여금 혼합 인자의 제 3 값에 기초하여 여기 신호와 변조된 잡음을 혼합하게 하는 명령들이 또한 실행가능하다.
다른 특정 실시형태에서, 비일시적 컴퓨터 판독가능 매체는, 컴퓨터에 의해 실행되는 경우, 컴퓨터로 하여금, 오디오 신호에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하게 하는 명령들을 포함한다. 스펙트럼 주파수 값들의 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 결정하는 명령들이 또한 실행가능하다. 제 1 세트와 제 2 세트 간의 차이에 기초하여 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하는 명령들이 또한 실행가능하다.
개시된 실시형태들 중 적어도 하나에 의해 제공된 특정 장점들은 잡음 조건들을 보상하기 위해 잡음 변조 및/또는 이득 조정을 수행하는 능력을 포함한다. 예를 들어, 잡음 변조는 고대역 합성 동안 사용되는 혼합 파라미터에서 큰 변동 (fluctuation) 을 없앨 수도 있다. 다른 예로서, 이득 조정은 양자화 에러로 인한 스펙트럼 왜곡을 보상할 수도 있다. 본 개시물의 다른 양태들, 장점들, 및 특징들은 다음의 섹션들: 도면의 간단한 설명, 상세한 설명, 및 특허 청구범위를 포함한 전체 출원의 검토 후에 명확하게 될 것이다.
도 1은 잡음 변조 및 이득 조정을 수행하도록 동작가능한 시스템의 특정 실시형태를 예시하는 도면이다;
도 2는 도 1의 시스템에서 컴포넌트들의 특정 실시형태를 예시하는 도면이다;
도 3은 이득 인자와 스펙트럼 왜곡 간의 매핑의 특정 실시형태를 예시하는 그래프이다;
도 4는 도 1의 고대역 여기 생성기의 특정 실시형태를 예시하는 도면이다;
도 5는 잡음 변조를 수행하는 방법의 특정 실시형태를 예시하는 순서도이다;
도 6은 이득 조정을 수행하는 방법의 특정 실시형태를 예시하는 순서도이다; 그리고
도 7은 도 1 내지 도 6의 시스템들 및 방법들에 따라 신호 프로세싱 동작을 수행하도록 동작가능한 무선 디바이스의 블록도이다.
도 2는 도 1의 시스템에서 컴포넌트들의 특정 실시형태를 예시하는 도면이다;
도 3은 이득 인자와 스펙트럼 왜곡 간의 매핑의 특정 실시형태를 예시하는 그래프이다;
도 4는 도 1의 고대역 여기 생성기의 특정 실시형태를 예시하는 도면이다;
도 5는 잡음 변조를 수행하는 방법의 특정 실시형태를 예시하는 순서도이다;
도 6은 이득 조정을 수행하는 방법의 특정 실시형태를 예시하는 순서도이다; 그리고
도 7은 도 1 내지 도 6의 시스템들 및 방법들에 따라 신호 프로세싱 동작을 수행하도록 동작가능한 무선 디바이스의 블록도이다.
도 1을 참조하면, 잡음 변조 및 이득 조정을 수행하도록 동작가능한 시스템의 특정 실시형태가 도시되고 전체가 100으로 지정되어 있다. 특정 실시형태에서, 시스템 (100) 은 인코딩 시스템 또는 장치 속에 (예컨대, 무선 전화기 또는 코더/디코더 (코덱) 에) 통합될 수도 있다.
다음의 설명에서, 도 1의 시스템 (100) 에 의해 수행되는 다양한 기능들이 특정한 컴포넌트들 또는 모듈들에 의해 수행되고 있는 것으로서 설명된다는 것에 주의해야 한다. 그러나, 컴포넌트들 및 모듈들의 이 구분은 예시만을 위한 것이다. 대체 실시형태에서, 특정 컴포넌트 또는 모듈에 의해 수행되는 기능이 대신에 다수의 컴포넌트들 또는 모듈들 중에서 분할될 수도 있다. 더구나, 대체 실시형태에서, 도 1의 둘 이상의 컴포넌트들 또는 모듈들이 단일 컴포넌트 또는 모듈 속에 통합될 수도 있다. 도 1에서 예시된 각각의 컴포넌트 또는 모듈이 하드웨어 (예컨대, 필드프로그램가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC), 디지털 신호 프로세서 (DSP), 제어기 등), 소프트웨어 (예컨대, 프로세서에 의해 실행가능한 명령들), 또는 그것들의 임의의 조합을 사용하여 구현될 수도 있다.
시스템 (100) 은 입력 오디오 신호 (102) 를 수신하도록 구성된 분석 필터 뱅크 (110) 를 포함한다. 예를 들어, 입력 오디오 신호 (102) 는 마이크로폰 또는 다른 입력 디바이스에 의해 제공될 수도 있다. 특정 실시형태에서, 입력 오디오 신호 (102) 는 스피치를 포함할 수도 있다. 입력 오디오 신호는 대략 50 헤르츠 (Hz) 부터 대략 16 킬로헤르츠 (kHz) 까지의 주파수 범위의 데이터를 포함하는 초광대역 (SWB) 신호일 수도 있다. 분석 필터 뱅크 (110) 는 주파수에 기초하여 입력 오디오 신호 (102) 를 다수의 부분들로 필터링할 수도 있다. 예를 들어, 분석 필터 뱅크 (110) 는 저대역 신호 (122) 와 고대역 신호 (124) 를 생성할 수도 있다. 저대역 신호 (122) 와 고대역 신호 (124) 는 동일한 또는 동일하지 않은 대역폭들을 가질 수도 있고, 중첩 또는 비중첩일 수도 있다. 대체 실시형태에서, 분석 필터 뱅크 (110) 는 2 개를 초과하는 출력들을 생성할 수도 있다.
도 1의 예에서, 저대역 신호 (122) 와 고대역 신호 (124) 는 비중첩 주파수 대역들을 점유한다. 예를 들어, 저대역 신호 (122) 와 고대역 신호 (124) 는 50 Hz 내지 7 kHz와 7 kHz 내지 16 kHz의 비중첩 주파수 대역들을 점유할 수도 있다. 대체 실시형태에서, 저대역 신호 (122) 와 고대역 신호 (124) 는 50 Hz 내지 8 kHz와 8 kHz 내지 16 kHz의 비중첩 주파수 대역들을 점유할 수도 있다. 다른 대체 실시형태에서 저대역 신호 (122) 와 고대역 신호 (124) 는 (예컨대, 50 Hz 내지 8 kHz와 7 kHz 내지 16 kHz) 에서 중첩하는데, 이는 분석 필터 뱅크 (110) 의 저역 통과 필터 및 고역 통과 필터가 원활한 롤오프 (rolloff) 를 갖는 것을 가능하게 할 수도 있으며, 이는 설계를 단순화시키고 저역 통과 필터 및 고역 통과 필터의 단가를 낮출 수도 있다. 저대역 신호 (122) 와 고대역 신호 (124) 의 중첩은 수신기에서 저대역 및 고대역 신호들의 원활한 블렌딩을 또한 가능하게 할 수도 있는데, 이는 더 적은 가청 아티팩트들이 생기게 할 수도 있다.
비록 도 1의 예가 SWB 신호의 프로세싱을 예시하지만, 이는 단지 예시를 위한 것임에 주의해야 한다. 대체 실시형태에서, 입력 오디오 신호 (102) 는 대략 50 Hz 내지 대략 8 kHz의 주파수 범위를 갖는 광대역 (WB) 신호일 수도 있다. 이러한 실시형태에서, 저대역 신호 (122) 는 대략 50 Hz 내지 대략 6.4 kHz의 주파수 범위에 대응할 수도 있고 고대역 신호 (124) 는 대략 6.4 kHz 내지 대략 8 kHz의 주파수 범위에 대응할 수도 있다. 본원의 다양한 시스템들 및 방법들이 고대역 잡음을 검출하고 고대역 잡음에 응답하여 다양한 동작들을 수행하는 것으로서 설명된다는 점에 또한 주의해야 한다. 그러나, 이는 단지 예를 위한 것이다. 도 1 내지 도 7을 참조하여 예시된 기법들은 저대역 잡음의 맥락에서 또한 수행될 수도 있다.
시스템 (100) 은 저대역 신호 (122) 를 수신하도록 구성된 저대역 분석 모듈 (130) 을 구비할 수도 있다. 특정 실시형태에서, 저대역 분석 모듈 (130) 은 코드 여기 선형 예측 (CELP) 인코더의 일 실시형태를 나타낼 수도 있다. 저대역 분석 모듈 (130) 은 선형 예측 (LP) 분석 및 코딩 모듈 (132), 선형 예측 계수 (LPC) 대 라인 스펙트럼 쌍 (LSP) 변환 모듈 (134), 및 양자화기 (136) 를 구비할 수도 있다. LSP들은 라인 스펙트럼 주파수들 (LSF들) 이라고 또한 지칭될 수도 있고, 2 개의 용어들은 본원에서 교환적으로 사용될 수도 있다. LP 분석 및 코딩 모듈 (132) 은 저대역 신호 (122) 의 스펙트럼 엔벨로프를 LPC들의 세트로서 인코딩할 수도 있다. LPC들은 오디오의 각각의 프레임 (예컨대, 20 밀리초 (ms) 의 오디오, 16 kHz의 샘플링 레이트에서의 320 개 샘플들에 해당함), 오디오의 각각의 서브프레임 (예컨대, 5 ms의 오디오), 또는 그것들의 임의의 조합에 대해 생성될 수도 있다. 각각의 프레임 또는 서브프레임에 대해 생성된 LPC들의 수는 수행되는 LP 분석의 "차수"에 의해 결정될 수도 있다. 특정 실시형태에서, LP 분석 및 코딩 모듈 (132) 은 10차 LP 분석에 대응하는 11 개 LPC들의 세트를 생성할 수도 있다.
LPC 대 LSP 변환 모듈 (134) 은 LP 분석 및 코딩 모듈 (132) 에 의해 생성된 LPC들의 세트를 LSP들의 대응하는 세트로 (예컨대, 일 대 일 변환을 사용하여) 변환할 수도 있다. 대안으로, LPC들의 세트는 대응하는 세트의 파코어 (parcor) 계수들, 로그-영역-비율 값들, 이미턴스 스펙트럼 쌍들 (ISP들), 또는 이미턴스 스펙트럼 주파수들 (ISF들) 로 일 대 일 변환될 수도 있다. LPC들의 세트 및 LSP들의 세트 간의 변환은 에러 없이 역으로 할 수도 있다.
양자화기 (136) 는 변환 모듈 (134) 에 의해 생성된 LSP들의 세트를 양자화할 수도 있다. 예를 들어, 양자화기 (136) 는 다수의 엔트리들 (예컨대, 벡터들) 을 포함하는 다수의 코드북들을 포함하거나 또는 상기 다수의 코드북들에 커플링될 수도 있다. LSP들의 세트를 양자화하기 위해, 양자화기 (136) 는 (예컨대, 최소 제곱 또는 평균 제곱 에러 (mean square error) 와 같은 왜곡 측정값에 기초하여) LSP들의 세트"에 가장 가까운" 코드북들의 엔트리들을 식별할 수도 있다. 양자화기 (136) 는 코드북에서의 식별된 엔트리들의 로케이션에 대응하는 인덱스 값 또는 일련의 인덱스 값들을 출력할 수도 있다. 양자화기 (136) 의 출력은 따라서 저대역 비트 스트림 (142) 에 포함되는 저대역 필터 파라미터들을 나타낼 수도 있다.
저대역 분석 모듈 (130) 은 저대역 여기 신호 (144) 를 또한 생성할 수도 있다. 예를 들어, 저대역 여기 신호 (144) 는 저대역 분석 모듈 (130) 에 의해 수행된 LP 프로세스 동안 생성되는 LP 잔차 신호를 양자화함으로써 생성되는 인코딩된 신호일 수도 있다. LP 잔차 신호는 예측 에러를 나타낼 수도 있다.
시스템 (100) 은 분석 필터 뱅크 (110) 로부터의 고대역 신호 (124) 와 저대역 분석 모듈 (130) 로부터의 저대역 여기 신호 (144) 를 수신하도록 구성된 고대역 분석 모듈 (150) 을 더 포함할 수도 있다. 고대역 분석 모듈 (150) 은 고대역 신호 (124) 와 저대역 여기 신호 (144) 에 기초하여 고대역 사이드 정보 (172) 를 생성할 수도 있다. 예를 들어, 고대역 사이드 정보 (172) 는, 본원에서 더 설명되는 바와 같이, (예컨대, 고대역 에너지 대 저대역 에너지의 적어도 비율에 기초하여) 고대역 LSP들 및/또는 이득 정보를 포함할 수도 있다.
고대역 분석 모듈 (150) 은 고대역 여기 생성기 (160) 를 포함할 수도 있다. 고대역 여기 생성기 (160) 는 저대역 여기 신호 (144) 의 스펙트럼을 고대역 주파수 범위 (예컨대, 7 kHz 내지 16 kHz) 로 확장함으로써 고대역 여기 신호 (161) 를 생성할 수도 있다. 예시를 위해, 고대역 여기 생성기 (160) 는 저대역 여기 신호에 변환 (예컨대, 절대값 또는 제곱 연산과 같은 비 선형 변환) 을 적용할 수도 있고, 변환된 저대역 여기 신호와 잡음 신호 (예컨대, 저대역 신호 (122) 의 느리게 가변하는 시간적 특성들을 모방하는 저대역 여기 신호 (144) 에 대응하는 엔벨로프에 따라 변조된 백색 잡음) 를 혼합하여 고대역 여기 신호 (161) 를 생성할 수도 있다. 예를 들어, 그 혼합은 다음의 수식에 따라 수행될 수도 있다:
고대역 여기 = (α * 변환된 저대역 여기) + ((1-α) * 변조된 잡음)
변환된 저대역 여기 신호와 변조된 잡음이 혼합되는 비율은 수신기에서 고대역 복원 품질에 영향을 줄 수도 있다. 유성음 스피치 신호들의 경우, 혼합은 변환된 저대역 여기를 향해 바이어싱될 수도 있다 (예컨대, 혼합 인자 α는 0.5 내지 1.0의 범위에 있을 수도 있다). 무성음 신호들의 경우, 혼합은 변조된 잡음을 향해 바이어싱될 수도 있다 (예컨대, 혼합 인자 α는 0.0 내지 0.5의 범위에 있을 수도 있다). 고대역 여기 생성기 (160) 의 예시적 실시형태가 도 4를 참조하여 더 상세히 설명된다.
고대역 여기 신호 (161) 는 고대역 사이드 정보 (172) 에 포함되는 하나 이상의 고대역 이득 파라미터들을 결정하는데 사용될 수도 있다. 예시된 바와 같이, 고대역 분석 모듈 (150) 은 LP 분석 및 코딩 모듈 (152), LPC 대 LSP 변환 모듈 (154), 및 양자화기 (156) 를 또한 포함할 수도 있다. LP 분석 및 코딩 모듈 (152), 변환 모듈 (154), 및 양자화기 (156) 의 각각은 저대역 분석 모듈 (130) 의 대응 컴포넌트들을 참조하여 위에서 설명된 바와 같지만, 비교적 감소된 분해능에서 (예컨대, 각각의 계수, LSP 등에 대해 더 적은 비트들을 사용하여) 기능할 수도 있다. LP 분석 및 코딩 모듈 (152) 은, 변환 모듈 (154) 에 의해 LSP들로 변환되고 코드북 (163) 에 기초하여 양자화기 (156) 에 의해 양자화되는 LPC들의 세트를 생성할 수도 있다. 예를 들어, LP 분석 및 코딩 모듈 (152), 변환 모듈 (154), 및 양자화기 (156) 는 고대역 사이드 정보 (172) 에 포함되는 고대역 필터 정보 (예컨대, 고대역 LSP들) 를 결정하기 위해 고대역 신호 (124) 를 사용할 수도 있다. 특정 실시형태에서, 고대역 사이드 정보 (172) 는 고대역 LSP들뿐만 아니라 고대역 이득 파라미터들을 포함할 수도 있다. 특정한 유형들의 잡음의 존재시, 고대역 이득 파라미터들은, 본원에서 더 설명되는 바와 같이, 이득 조정 모듈 (162) 에 의해 수행된 이득 조정의 결과로서 생성될 수도 있다.
저대역 비트 스트림 (142) 과 고대역 사이드 정보 (172) 는 출력 비트 스트림 (192) 을 생성하기 위해 멀티플렉서 (MUX) (180) 에 의해 다중화될 수도 있다. 출력 비트 스트림 (192) 은 입력 오디오 신호 (102) 에 대응하는 인코딩된 오디오 신호를 나타낼 수도 있다. 예를 들어, 출력 비트 스트림 (192) 은 (예컨대, 유선, 무선, 또는 광학적 채널을 통해) 송신 및/또는 저장될 수도 있다. 수신기에서, 오디오 신호 (예컨대, 스피커 또는 다른 출력 디바이스에 제공되는 입력 오디오 신호 (102) 의 복원된 버전) 를 생성하기 위해 디멀티플렉서 (DEMUX), 저대역 디코더, 고대역 디코더, 및 필터 뱅크에 의해 역 동작들이 수행될 수도 있다. 저대역 비트 스트림 (142) 을 나타내는데 사용된 비트들의 수는 고대역 사이드 정보 (172) 를 나타내는데 사용된 비트들의 수보다 실질적으로 더 많을 수도 있다. 따라서, 출력 비트 스트림 (192) 에서의 비트들의 대부분은 저대역 데이터를 나타낼 수도 있다. 고대역 사이드 정보 (172) 는 신호 모델에 따라 저대역 데이터로부터 고대역 여기 신호를 재생성하기 위해 수신기에서 사용될 수도 있다. 예를 들어, 신호 모델은 저대역 데이터 (예컨대, 저대역 신호 (122)) 및 고대역 데이터 (예컨대, 고대역 신호 (124)) 간의 관계들 또는 상관들의 예상된 세트를 나타낼 수도 있다. 따라서, 상이한 신호 모델들이 오디오 데이터의 상이한 종류들 (예컨대, 스피치, 음악 등) 에 대해 사용될 수도 있고, 사용중인 특정 신호 모델은 인코딩된 오디오 데이터의 통신 전에 송신기 및 수신기에 의해 협상될 (또는 업계 표준에 의해 정의될) 수도 있다. 신호 모델을 사용하여, 송신기에서의 고대역 분석 모듈 (150) 은, 수신기에서의 대응하는 고대역 분석 모듈이 신호 모델을 사용하여 출력 비트 스트림 (192) 으로부터 고대역 신호 (124) 를 복원할 수 있도록 고대역 사이드 정보 (172) 를 생성할 수도 있다.
변환된 저대역 여기는 잡음성 고대역 신호 (124) 와 잡음성 저대역 신호 (122) 간의 불충분한 상관으로 인해 고대역 합성에서의 사용에 부적당할 수도 있다. 예를 들어, 입력 오디오 신호 (102) 가 스피치를 포함하는 경우, 고대역 신호 (124) 는 20 밀리초 (ms) 프레임들에서 프로세싱될 수도 있고, LSF와 이득 파라미터들은 매 프레임 기반으로 추정 및 양자화될 수도 있다. 4 개의 시간적 이득 기울기 파라미터들이 매 서브프레임 기반으로 (예컨대, 5 ms마다) 추정될 수도 있고 LSF와 전체 이득 파라미터들과 함께 송신될 수도 있다. 따라서, 고대역 여기는 각각의 서브프레임에 대해 추정될 (예컨대, 생성될) 수도 있다. 보통, 혼합 파라미터 α는 저대역 유성음 파라미터들에 기초하여 결정될 수도 있다. 그러나, 잡음의 존재시, 이러한 방식으로 혼합 파라미터 α를 결정하는 것은 서브프레임 당 넓은 변동들을 초래할 수도 있다. 예를 들어, 잡음으로 인해, 4 개의 연속적인 서브프레임들에 대한 혼합 파라미터 α는 0.9, 0.25, 0.8, 및 0.15가 되어, 윙윙거림 (buzzy) 또는 변조 아티팩트들을 초래할 수도 있다. 더구나, 다량의 양자화 왜곡이 존재할 수도 있다.
LP 분석 및 코딩 모듈 (152) 은 변환 모듈 (154) 에 의해 LSP들로 변환되고 코드북 (163) 에 기초하여 양자화기 (156) 에 의해 양자화되는 LPC들의 세트를 생성할 수도 있다. 잡음의 존재시, 고대역 LSP들에서의 양자화 왜곡은 클 수도 있다.
예를 들어, 양자화기 (156) 는 변환 모듈 (154) 에 의해 제공된 LSP들과 같은 스펙트럼 주파수 값들의 세트를 양자화하도록 구성될 수도 있다. 다른 실시형태들에서, 양자화기 (156) 는, LSF들 또는 LSP들에 더하여, 또는 그것들 대신, 스펙트럼 주파수 값들의 하나 이상의 다른 유형들의 세트들을 수신하고 양자화할 수도 있다. 예를 들어, 양자화기 (156) 는 LP 분석 및 코딩 모듈 (152) 에 의해 생성된 선형 예측 계수들 (LPC들) 의 세트를 수신 및 양자화할 수도 있다. 다른 예들은 양자화기 (156) 에서 수신 및 양자화될 수도 있는 세트들의 파코어 계수들, 로그-영역-비율 값들, 및 이미턴스 스펙트럼 주파수들 (ISF들) 을 포함한다. 양자화기 (156) 는 테이블 또는 코드북, 이를테면 코드북 (163) 에서 대응하는 엔트리에 대한 인덱스로서 입력 벡터 (예컨대, 벡터 포맷에서의 스펙트럼 주파수 값들의 세트) 를 인코딩하는 벡터 양자화기를 포함할 수도 있다. 다른 예로서, 양자화기 (156) 는, 스토리지로부터 취출된 것이 아니라, 희박한 (sparse) 코드북 실시형태에서처럼, 입력 벡터가 디코더에서 동적으로 생성될 수도 있게 하는 하나 이상의 파라미터들을 결정하도록 구성될 수도 있다. 예시를 위해, 희박한 코드북 예들이 CELP와 같은 코딩 체계들과 3GPP2 (Third Generation Partnership 2) EVRC (Enhanced Variable Rate 코덱) 와 같은 코덱들에 적용될 수도 있다. 다른 실시형태에서, 고대역 분석 모듈 (150) 은 양자화기 (156) 를 구비할 수도 있고, 합성된 신호들을 (예컨대, 필터 파라미터들의 세트에 따라) 생성하기 위해 그리고 인지적으로 가중된 (perceptually weighted) 도메인에서처럼 고대역 신호 (124) 에 최상으로 매칭되는, 합성된 신호에 연관된 코드북 벡터들 중 하나를 선택하기 위해 다수의 코드북 벡터들을 사용하도록 구성될 수도 있다.
고대역 양자화 아웃라이어 (outlier) 들이 고대역 합성 및 시간적 이득 추정에 악영향을 줄 수도 있다. 예를 들어, 시간적 및 이득 파라미터들의 과도 추정은 아티팩트들을 초래할 수도 있다. 이러한 아티팩트들을 줄이기 위해, 고대역 분석 모듈 (150) 은 이득 조정기 (162) 를 포함할 수도 있다.
이득 조정기 (162) 는 스펙트럼 값들의 제 1 세트 (예컨대, 변환 모듈 (154) 에 의해 생성된 비양자화된 LSF들) 와 스펙트럼 값들의 제 2 세트 (예컨대, 양자화기 (156) 에 의해 생성된 양자화된 LSF들) 간의 스펙트럼 왜곡을 추정할 수도 있다. 이득 조정기 (162) 는 이득 인자 대 스펙트럼 왜곡의 매핑에 기초하여 이득 인자를 추정할 수도 있다. 도 3은 이득 인자를 스펙트럼 왜곡에 매핑하는 그래프 (300) 의 일 예를 도시한다. 도 3에서, "SD1"과 "SD2"는 확률 분포 함수로부터 계산될 수도 있는 8% 및 2% 아웃라이어들을 각각 나타낸다. 예를 들어, 코드북 (163) 의 훈련 동안, 다량의 스피치 데이터 (예컨대, 10시간의 스피치 데이터) 가 프로세싱될 수도 있다. 그 프로세싱 동안, 스펙트럼 왜곡의 확률 분포가 생성될 수도 있고, SD1과 SD2는 결정될 수도 있다.
SD1과 SD2는 이득 인자의 값들을 결정하는데 사용될 수도 있다. 도 3의 예의 매핑 (300) 에서, 스펙트럼 왜곡이 SD1 미만인 것 (예컨대, 8% 아웃라이어 미만의 왜곡) 으로 결정되는 경우, 이득 조정은 수행되지 않는다 (예컨대, 이득 인자는 1로 설정된다). 스펙트럼 왜곡이 SD2보다 더 큰 것 (예컨대, 2% 아웃라이어를 초과하는 왜곡) 으로 결정되는 경우, 이득 인자를 1 미만의 값 G2로, 이를테면 G2 = 0.5로 설정함으로써 감쇠가 수행될 수도 있다. 스펙트럼 왜곡이 SD1부터 SD2까지의 범위에 있는 경우, 선형 관계가 이득 인자를 결정하는데 사용될 수도 있다. 예를 들어, (G2-1)/(SD2-SD1) 의 기울기와 K의 절편을 갖는 라인이, 에 따른 이득 인자에 스펙트럼 왜곡 값 (SD) 을 매핑하는데 사용될 수도 있다.
예시적인 실시형태에서, 이득 조정기 (162) 는 다음의 의사코드에 따라 (예컨대, 고대역 사이드 정보 (172) 에 포함될 이득 프레임을 조정하기 위해) 이득 인자를 결정할 수도 있다.
/* 원래의 비양자화된 LSF, 즉, lsp_shb_orig와 양자화된 LSF들, 즉, lsp_shb 간의 스펙트럼 왜곡 측정값들을 초기화 */
/* 비양자화된 및 양자화된 LSF들 간의 스펙트럼 왜곡을 추정 */
/* 도 3의 매핑을 사용하여 이득 인자를 추정 */
/* 이득 인자는 G2 와 1.0 사이로 제한된다. */
/* 프레임 이득 조정 */
위의 의사코드에서 예시된 바와 같이, 도 3의 매핑을 사용함으로써, 이득 조정기 (162) 는 이득 인자를 결정하는 경우 스펙트럼 왜곡 (예컨대, LSF 아웃라이어들) 으로 인한 아티팩트들을 제한할 수도 있다.
위의 의사코드에서, 스펙트럼 왜곡은 양자화로 인한 에러들의 제곱들의 합으로서 결정된다. 양자화로 인한 에러들은, 스펙트럼 주파수 값들의 세트의 각각의 스펙트럼 주파수 값에 대해, 스펙트럼 주파수 값의 양자화된 버전 및 스펙트럼 주파수 값의 비양자화된 버전 사이의 차이로서 식별된다. 각각의 에러 (예컨대, 양자화된 및 비양자화된 값들 간의 각각의 차이) 는 제곱되고, 스펙트럼 왜곡이 제곱된 에러들의 합으로서 추정된다. 다른 실시형태들에서, 스펙트럼 왜곡 추정값들은 하나 이상의 다른 기법들에 따라 결정될 수도 있다. 예를 들어, 스펙트럼 왜곡은 평균 제곱 에러 (MSE) 기법에 따라 결정될 수도 있다. 다른 예로서, 스펙트럼 왜곡은 비양자화된 스펙트럼 주파수 값들의 제 1 세트 및 양자화된 스펙트럼 주파수 값들의 제 2 세트의 값들 간의 차이들의 절대 값들 (예컨대, 크기들) 을 사용하여 결정될 수도 있다.
비록 위의 의사코드와 도 3의 매핑이 스펙트럼 왜곡 추정치들 대 이득 인자 값들의 구분적 (piece-wise) 선형 매핑에 따라 이득 인자의 값을 결정하지만, 다른 실시형태들에서 다른 매핑들이 사용될 수도 있다. 예를 들어, 다른 매핑들은 양자화 에러의 양에 따라 감소된 감쇠에 대해 비교적 더 낮은 스펙트럼 왜곡 추정값들을 더 큰 이득 인자들 (예컨대, 1) 에 매핑할 수도 있고 증가된 감쇠에 대해 상대적으로 더 큰 스펙트럼 왜곡 추정값들을 더 작은 이득 인자들에 매핑할 수도 있다. 비록 일부 실시형태들에서 SD1과 SD2는 각각 8% 및 2% 아웃라이어 값들에 따라 결정될 수도 있지만, 다른 실시형태들에서 SD1 및/또는 SD2는 하나 이상의 다른 아웃라이어 값들에 기초하여 결정될 수도 있거나 또는 아웃라이어 값들과는 독립적으로 결정될 수도 있다.
도 2는 스펙트럼 왜곡에 기초하여 프레임 이득을 조정하도록 그리고 또 잡음 변조를 조정하도록 구성된 도 1의 시스템 (100) 의 컴포넌트들의 특정 실시형태를 예시한다. LP 분석 및 코딩 모듈 (152) 은 도 1의 고대역 신호 (124) 를 수신하도록 그리고 스펙트럼 주파수 값들, 이를테면 LSP 정보를 생성하도록 구성된다. 양자화기 (156) 는 스펙트럼 주파수 값들을 수신하도록 그리고 양자화된 스펙트럼 주파수 값들, 이를테면 양자화된 LSP 정보 (LSP_Q) 를 생성하도록 구성된다.
스펙트럼 왜곡 계산기 (201) 가 스펙트럼 주파수 값들의 세트와 양자화된 스펙트럼 주파수 값들의 세트를 수신하도록 그리고 스펙트럼 왜곡 (202) 을 결정하도록 구성된다. 예를 들어, 스펙트럼 왜곡 계산기 (201) 는 도 1의 이득 조정기 (162) 에 관해 설명된 바와 유사한 방식으로 스펙트럼 왜곡 (202) 을 추정하도록 구성될 수도 있다. 결정된 스펙트럼 왜곡 (202) 은 매핑 모듈 (206) 에 제공될 수도 있다.
매핑 모듈 (206) 은 스펙트럼 왜곡 (202) 을 수신하도록 그리고 스펙트럼 왜곡 값들 대 이득 인자 값들의 매핑에 기초하여 이득 인자 (g, 204) 를 결정하도록 구성될 수도 있다. 예를 들어, 매핑 모듈 (206) 은 도 1의 이득 조정기 (162) 에 관해 설명된 바와 유사한 방식으로 이득 인자 (204) 를 결정하도록 구성될 수도 있다. 예시를 위하여, 매핑 모듈 (206) 은 스펙트럼 왜곡 (202) 의 수신된 값에 기초하여 이득 인자 (204) 의 값을 결정하기 위해 도 3의 매핑 (300) 을 적용할 수도 있다. 이득 인자 (204) 는 이득 조정기 (162) 에 제공될 수도 있다.
고대역 합성 모듈 (207) 이 합성된 고대역 신호를 생성하기 위해 양자화된 스펙트럼 주파수 값들을 수신하도록 그리고 고대역 여기 생성기 (160) 로부터 고대역 여기 신호 (161) 를 수신하도록 구성될 수도 있다. 예를 들어, 고대역 합성 모듈 (207) 은 LSP 값들 대 LPC 값들의 변환을 적용하도록 구성될 수도 있고 고대역 LP 합성 필터를 구성하기 위해 LPC 값들을 사용하는 것일 수도 있다. 고대역 합성 모듈 (207) 은 합성된 고대역 신호를 생성하기 위해 고대역 여기 신호 (161) 를 합성 필터에 적용할 수도 있다.
특정 실시형태에서, 고대역 여기 생성기 (160) 는, 변환된 저대역 여기 (408), 변조된 잡음 (420), 및 출력 혼합 인자들 (410) 을 수신하도록, 그리고 출력 혼합 인자들 (410) 을 적용하여 변환된 저대역 여기 (408) 와 변조된 잡음 (420) 의 가중된 합을 계산함으로써 고대역 여기 신호 (161) 를 생성하도록 구성되는 혼합 모듈 (411) 을 포함한다. 도 4를 참조하여 더 상세히 설명되는 바와 같이, 출력 혼합 인자들 (410) 은 서브프레임들에 대해 컴퓨팅되는 혼합 인자들의 가중된 합들에 기초하여 도 1의 오디오 신호 (102) 의 연속하는 서브프레임들 간의 혼합 인자들의 평활화를 나타낼 수도 있다.
프레임 이득 계산기 (208) 가 도 1의 고대역 신호 (124) 및 합성된 고대역 모듈 (207) 에 의해 생성되는 합성된 고대역 신호에 기초하여 프레임 이득을 결정하도록 구성될 수도 있다. 예를 들어, 프레임 이득 계산기 (208) 는 고대역 신호 (124) 대 합성된 고대역 신호의 비교에 기초하여 오디오 신호의 특정 프레임에 대한 프레임 이득 값을 결정할 수도 있다. 프레임 이득 값은 조정된 프레임 이득을 생성하기 위해 이득 인자 (204) 에 기초하여 이득 조정기 (162) 에 의해 조정될 수도 있다.
고대역 여기 생성기 (160) 의 일 예가 도 4를 참조하여 더 설명된다. 고대역 여기 생성기 (160) 는 엔벨로프 계산기 (402) 에 그리고 백색 잡음 생성기 (404) 에 커플링된 입력들을 갖는 결합기 (406) 를 포함한다. 혼합 모듈 (411) 이 결합기 (406) 의 출력에 그리고 비선형 변환 모듈 (407) 의 출력에 커플링된다. 혼합 인자 조정기 (409) 가 혼합 인자 생성기 (412) 에 커플링되고 혼합 모듈 (411) 에 또한 커플링된다. 혼합 인자 조정기 (409) 는 수신된 혼합 인자들 (413) 에 기초하여 출력 혼합 인자들 (410) 을 생성하도록 구성된다. 출력 혼합 인자들 (410) 은 혼합 평활화를 가능하게 하기 위해 혼합 모듈 (411) 에 의해 적용된다.
엔벨로프 계산기 (402) 는 저대역 여기 신호 (144) 를 수신할 수도 있고 저대역 여기 신호 (144) 에 대응하는 저대역 시간 도메인 엔벨로프 (403) 를 계산할 수도 있다. 예를 들어, 엔벨로프 계산기 (402) 는 저대역 여기 신호 (144) 의 프레임 (또는 저대역 여기 신호 (144) 의 필터링된 버전) 의 각각의 샘플의 제곱을 계산하여 제곱된 값들의 시퀀스를 생성하도록 구성될 수도 있다. 엔벨로프 계산기 (402) 는, 이를테면 1차 IIR 저역 통과 필터를 제곱된 값들의 시퀀스에 적용함으로써 제곱된 값들의 시퀀스에 대해 평활화 동작을 수행하도록 구성될 수도 있다. 엔벨로프 계산기 (402) 는 저대역 시간 도메인 엔벨로프 (403) 를 생성하기 위해 제곱근 함수를 평활화된 시퀀스의 각각의 샘플에 적용하도록 구성될 수도 있다.
결합기 (406) 는 저대역 시간 도메인 엔벨로프 (403) 와 백색 잡음 생성기 (404) 에 의해 생성된 백색 잡음 (405) 을 결합하여 변조된 잡음 신호 (420) 를 생성하도록 구성될 수도 있다. 예를 들어, 결합기 (406) 는 저대역 시간 도메인 엔벨로프 (403) 에 따라 백색 잡음 (405) 을 진폭 변조하도록 구성될 수도 있다. 예를 들어, 결합기 (406) 는 혼합 모듈 (411) 에 제공되는 변조된 잡음 신호 (420) 를 생성하기 위해 엔벨로프 계산기 (402) 에 의해 계산된 시간 도메인 엔벨로프에 따라 잡음 생성기 (404) 의 출력을 스케일링하도록 구성되는 곱셈기로서 구현될 수도 있다.
혼합 모듈 (411) 은 결합기 (406) 로부터의 변조된 잡음 신호 (420) 와 변환된 저대역 여기 신호 (408) 를 혼합하도록 구성될 수도 있다. 예를 들어, 변환된 저대역 여기 신호 (408) 는 저대역 여기 신호 (144) 에 기초하여 비 선형 변환 모듈 (407) 에 의해 생성될 수도 있다. 특정 실시형태에서, 비선형 변환은 절대 값 ("|x|") 변환 또는 x-제곱 ("x2") 변환일 수도 있다.
혼합 모듈 (411) 은 혼합 인자 조정기 (409) 로부터 수신된 혼합 인자 α (410) 의 값에 기초하여 결합기 (406) 로부터의 변조된 잡음 신호 (420) 와 변환된 저대역 여기 신호 (408) 를 혼합함으로써 고대역 여기 신호 (161) 를 생성하도록 구성될 수도 있다. 예를 들어, 혼합 모듈 (411) 은 가중된 변환된 저대역 여기 신호 (408) 와 가중된 변조된 잡음을 합산하기 전에 혼합 인자 α (410) 를 변환된 저대역 여기 신호 (408) 에 적용함으로써 그리고 (1-α) 의 계수를 결합기 (406) 로부터 수신된 변조된 잡음 (420) 에 적용함으로써 가중된 합으로서 고대역 여기 신호 (161) 를 계산하도록 구성될 수도 있다.
혼합 인자 생성기 (412) 는 오디오 신호의 각각의 프레임에 대한 다수의 혼합 인자들로서 혼합 인자들 (413) 을 생성하도록 구성될 수도 있다. 예를 들어, 4 개의 혼합 인자들 (α1, α2, α3, α4) 이 오디오 신호의 프레임에 대해 생성될 수도 있고, 각각의 혼합 인자는 프레임의 개별 서브프레임에 대응할 수도 있다. 예를 들어, 혼합 인자 생성기 (412) 는 도 1의 저대역 신호 (122) 의 또는 저대역 여기 신호 (144) 의 주기성에 관련한 하나 이상의 파라미터들, 이를테면 피치 이득 및/또는 스피치 모드 (예컨대, 유성음 또는 무성음) 에 따라 혼합 인자들을 계산하도록 구성될 수도 있다. 다른 예로서, 혼합 인자 생성기 (412) 는 도 1의 고대역 신호 (124) 의 주기성의 측정값에 따른 혼합 인자들, 이를테면 오디오 신호의 프레임 또는 서브프레임에 대한 고대역 신호 (124) 의 자기상관 계수의 최대의 결정된 값을 계산하도록 구성될 수도 있다.
혼합 인자 조정기 (409) 는 출력 혼합 인자들 (410), 이를테면 4 개의 출력 혼합 인자들 (α1s, α2s, α3s, α4s) 을 생성할 수도 있다. 각각의 혼합 인자는 오디오 신호의 프레임의 개별 서브프레임에 대응할 수도 있다. 혼합 인자 조정기 (409) 는 출력 혼합 인자들 (410) 의 변동들의 발생 및/또는 한도를 감소시키기 위해 단일 프레임 내에서 또는 다수의 프레임들에 걸쳐 혼합 인자들을 적응적으로 평활화하는 다양한 방도들로 출력 혼합 인자들 (410) 을 생성할 수도 있다. 예시를 위해, 혼합 인자 조정기 (409) 는 특정 프레임의 제 1 서브프레임에 대응하는 혼합 인자 α의 제 1 값 (예컨대, α1) 을 수신하도록 그리고 특정 프레임의 제 2 서브프레임에 대응하는 혼합 인자 α의 제 2 값 (예컨대, α2) 을 수신하도록 구성된 필터를 포함할 수도 있다. 혼합 인자 조정기 (409) 는 혼합 인자 α의 제 1 값 (예컨대, α1) 및 혼합 인자의 제 2 값 (예컨대, α2s) 에 적어도 부분적으로 기초하여 혼합 인자의 제 3 값 (예컨대, α2s) 을 생성하도록 구성될 수도 있다.
예를 들어, 제 1 접근법이 단일 프레임의 부분들 (예컨대, 서브프레임들) 에 대응하는 혼합 인자 값들에 기초하여 혼합 인자 α의 값을 생성하는 것을 포함할 수도 있다. 다음의 의사코드는 제 1 접근법에 해당한다.
/* 접근법 1: 프레임 내의 값들에 기초한 혼합 인자 */
제 1 접근법을 위한 위의 의사코드에서, mix_factor[i]는 특정 프레임에 대해 혼합 인자 생성기 (412) 에 의해 생성된 i번째 혼합 인자 (413) 에 해당하고 (예컨대, mix_factor[0]는 α1에 해당할 수도 있고), mix_factor_new[i]는 i번째 출력 혼합 인자 (410) 에 해당한다 (예컨대, mix_factor_new[0]는 α1s에 해당할 수도 있다). K1은 서브프레임들 간의 평활화의 양을 결정하고 0.8의 값을 갖는 것으로서 예시되어 있다. 그러나, 다른 실시형태들에서, K1은 적용될 평활화의 양에 따라 다른 값들로 설정될 수도 있다. 예를 들어, K1 = 1인 경우 평활화가 적용되지 않고 평활화는 K1의 값을 감소시킴에 따라 증가한다.
코딩 유형 (예컨대, 프레임이 유성음 프레임에 대응하는지 또는 무성음 프레임에 대응하는지) 과 같은 다른 인자들이 혼합 인자들의 평활화된 값들을 생성할지의 여부를 결정하는데 또한 사용될 수도 있다. 예를 들어, 혼합 인자 조정기 (409) 는 혼합 인자들을 생성하기 위해 코딩 유형 (coder_type) (422) 의 표시에 응답할 수도 있다. 예시를 위해, 혼합 인자 평활화는 코딩 유형의 표시가 유성음 프레임에 대응하는 경우 가능하게 될 수도 있고 코딩 유형의 표시가 무성음 프레임에 대응하는 경우 가능하지 않게 될 수도 있다. 다른 예로서, 혼합 인자 조정기 (409) 는 혼합 인자들을 가변시키기 위해 도 2의 스펙트럼 왜곡 정보 (SD) (202) 에 응답할 수도 있다. 일 예로서, 스펙트럼 왜곡이 비교적 높은 (이를테면 도 3의 스펙트럼 왜곡에 관해 설명된 바와 같이 8% 아웃라이어 또는 2% 아웃라이어에 따라, 예컨대, 임계량보다 더 많은) 경우, 혼합 인자 α의 값은 변조된 잡음을 향해 더 많은 바이어스를 갖는 0 내지 0.5의 범위로 제약될 수도 있다. 한편, 스펙트럼 왜곡 (202) 이 상대적으로 낮은 (예컨대, 도 3의 SD1에 관해 설명된 바와 같이 8% 아웃라이어에 대응하는 임계량 미만) 인 경우, 혼합은 변환된 저대역 여기를 향해 바이어싱될 수도 있다.
제 2 접근법이 상이한 프레임들의 부분들 (예컨대, 서브프레임들) 에 대응하는 혼합 인자 값들에 기초하여 혼합 인자 α의 값을 생성하는 것을 포함할 수도 있다. 다음의 의사코드는 제 2 접근법에 해당한다.
/* 접근법 2: 프레임들에 걸친 값들에 기초한 혼합 인자 */
제 2 접근법을 위한 위의 의사코드에서, mix_factor[i]는 특정 프레임에 대해 혼합 인자 생성기 (412) 에 의해 생성된 i번째 혼합 인자 (413) 에 해당하고 (예컨대, mix_factor[0]는 α1에 해당할 수도 있고), mix_factor_new[i]는 특정 프레임에 대한 i번째 출력 혼합 인자 (410) 에 해당한다 (예컨대, mix_factor_new[0]는 α1s에 해당할 수도 있다). 평활화는 프레임들에 걸쳐 mix_factor_old를 통해 수행되는데, mix_factor_old는 이전 프레임의 마지막 서브프레임에 대해 결정된 혼합 인자에 기초하여 현재 프레임의 제 1 서브프레임에 대한 평활화를 가능하게 한다.
제 3 접근법이 적응 값을 사용하여 혼합 인자 α를 생성하는 것을 포함할 수도 있다. 다음의 의사코드는 제 3 접근법에 해당한다.
/* 접근법 3: 적응적 K1을 사용한 혼합 인자 생성 */
/* 현재 고대역 에너지를 추정; 빠르게 가변하면 더 느린 평활화 계수를 사용 */
제 3 접근법을 위한 위의 의사코드에서, 평활화는 제 2 접근법과 유사한 방식으로 프레임들에 걸쳐 가능하게 된다. 덧붙여서, K1의 값이 오디오 신호의 고대역 에너지 변동에 기초하여 결정된다. 예를 들어, 제 1 값에 적용되는 제 1 가중치 (예컨대, K1) 와 제 2 값에 적용되는 제 2 가중치 (예컨대, 1 - K1) 는 도 1의 고대역 신호 (124) 의 에너지 변동에 기초하여 결정된다. 제 1 고대역 에너지 값 (hb_energy_prev) 이 오디오 신호의 제 1 부분 (예컨대, 이전 프레임) 중의 고대역 신호의 에너지에 해당하고, 제 2 고대역 에너지 값 (hb_energy_curr) 이 오디오 신호의 제 2 부분 (예컨대, 현재 프레임) 중의 고대역 신호의 에너지에 해당한다.
프레임들 간의 고대역 에너지에서의 변동이 비교적 큰 것으로 결정되는 경우, 제 1 가중치 (예컨대, K1) 와 제 2 가중치 (예컨대, 1 - K1) 는 연속하는 서브프레임들의 혼합 인자들 간에 더 큰 레이트의 변경 및 적은 평활화를 허용하는 값들을 갖도록 결정된다. 예를 들어, 제 3 접근법을 위한 의사코드에서, 제 1 가중치 (예컨대, K1 = 0.8) 는 제 1 고대역 에너지가 제 1 임계값을 초과하는 것에 응답하여 (예컨대, hb_energy_prev가 2 * hb_energy_curr보다 더 큰 경우) 또는 제 2 고대역 에너지 값이 제 2 임계값을 초과하는 것에 응답하여 (예컨대, hb_energy_curr가 2 * hb_energy_prev보다 더 큰 경우) 제 2 가중치 (예컨대, (1 - K1) = 0.2) 보다 더 크도록 선택된다. 제 1 임계값은 스케일링 인자 (예컨대, 위의 의사코드에서 2) 에 의해 스케일링된 제 2 고대역 에너지 값 (hb_energy_curr) 에 해당한다. 제 2 임계값은 스케일링 인자에 의해 스케일링된 제 1 고대역 에너지 값 (hb_energy_prev) 에 해당한다.
프레임들 간의 고대역 에너지에서의 변동이 비교적 작은 것으로 결정되는 경우, 제 1 가중치 (예컨대, K1) 와 제 2 가중치 (예컨대, 1 - K1) 는 연속하는 서브프레임들의 혼합 인자들 간에 더 작은 레이트의 변경 및 더 큰 평활화를 허용하는 값들을 갖도록 결정된다. 예를 들어, 제 3 접근법을 위한 의사코드에서, 제 1 가중치 (예컨대, K1 = 0.3) 는 제 1 고대역 에너지 값이 제 1 임계값을 초과하지 않는 것에 응답하여 (예컨대, hb_energy_prev가 2 * hb_energy_curr 이하인 경우) 또는 제 2 고대역 에너지 값이 제 2 임계값을 초과하지 않는 것에 응답하여 (예컨대, hb_energy_curr가 2 * hb_energy_prev이하인 경우) 제 2 가중치 (예컨대, (1 - K1) = 0.7) 보다 더 작도록 선택된다.
비록 제 3 접근법을 위한 의사코드가 고대역 에너지 변동에 기초하여 제 1 및 제 2 가중치들을 결정하는 구체적인 예를 제공하지만, 다른 실시형태들에서, 다수의 프레임들 중의 고대역 에너지 값들의 대체 및/또는 부가적인 비교들이 제 1 및 제 2 가중치들의 값들을 결정하기 위해 그리고 혼합 인자의 평활화를 제어하기 위해 이루어질 수도 있다.
따라서, 도 4에 도시된 바와 같이, 고대역 여기 생성기 (160) 는 평활화된 혼합 인자들 (410) 을 생성할 수도 있고, 프레임에서 프레임으로의 고대역 에너지 변동의 양에 기초하여 하나 이상의 평활화 파라미터들 (예컨대, K1) 을 적응적으로 결정할 수도 있다.
도 5를 참조하면, 이득 제어를 수행하는 방법의 특정 실시형태의 순서도가 도시되고 전체가 500으로 지정된다. 예시적인 실시형태에서, 방법 (500) 은 도 1의 시스템 (100) 에 의해, 이를테면 고대역 여기 생성기 (160) 에 의해 수행될 수도 있다.
502에서, 혼합 인자의 제 1 값이 수신된다. 제 1 값은 오디오 인코더에서 수신된 오디오 신호의 제 1 부분에 대응한다. 504에서, 혼합 인자의 제 2 값이 수신된다. 제 2 값은 오디오 신호의 제 2 부분에 대응한다. 제 1 값은 오디오 신호의 제 1 서브프레임의 저대역 부분에 기초하여 생성될 수도 있고 제 2 값은 오디오 신호의 제 2 서브프레임의 저대역 부분에 기초하여 생성될 수도 있다. 예를 들어, 도 4의 혼합 인자 조정기 (409) 는 혼합 인자 생성기 (412) 로부터 혼합 인자들 (413) 의 값들을 수신한다. 예시를 위하여, 제 1 값은 α1, α2, α3, 또는 α4 중 하나에 해당할 수도 있고, 제 2 값은 α1, α2, α3, 또는 α4 중 다른 하나에 해당할 수도 있다.
506에서, 혼합 인자의 제 3 값이 제 1 값과 제 2 값에 적어도 부분적으로 기초하여 생성된다. 예를 들어, 혼합 인자 조정기 (409) 는 혼합 인자들 (413) 의 다수의 수신된 값들의 가중된 합들에 기초하여 출력 혼합 인자들 (410) 의 값들을 생성한다.
제 3 값을 생성하는 것은 제 1 값 및 제 2 값의 가중된 합을 결정하는 것을 포함할 수도 있다. 예를 들어, 도 4의 혼합 인자 조정기 (409) 에 관해 설명된 제 3 접근법에서, 제 1 값 (예컨대, K1) 에 적용된 제 1 가중치와 제 2 값 (예컨대, 1 - K1) 에 적용된 제 2 가중치는 오디오 신호의 고대역 에너지 변동에 기초하여 결정될 수도 있다. 제 1 가중치와 제 2 가중치는 (예컨대, 각각 hb_energy_prev 및 hb_energy_curr와 같은 제 3 접근법에 대응하는 의사코드에서 설명된 바와 같이) 제 1 부분에 대응하는 제 1 고대역 에너지 값에 기초하여 그리고 추가로는 제 2 부분에 대응하는 제 2 고대역 에너지 값에 기초하여 결정될 수도 있다. 제 1 가중치는 제 1 고대역 에너지 값이 제 1 임계값을 초과하는 것 (예컨대, hb_energy_prev > 제 1 임계값) 에 응답하여 또는 제 2 고대역 에너지 값이 제 2 임계값을 초과하는 것 (예컨대, hb_energy_curr > 제 2 임계값) 에 응답하여 제 2 가중치보다 더 큰 것으로 설정될 수도 있다. 제 1 임계값은 스케일링 인자에 의해 스케일링된 제 2 고대역 에너지 값에 해당할 수도 있고 (예컨대, 제 1 임계값 = 2 * hb_energy_curr), 제 2 임계값은 스케일링 인자에 의해 스케일링된 제 1 고대역 에너지 값에 해당할 수도 있다 (예컨대, 제 2 임계값 = 2 * hb_energy_prev).
제 1 부분은 오디오 신호의 제 1 서브프레임을 포함할 수도 있고, 제 2 부분은 오디오 신호의 제 2 서브프레임을 포함할 수도 있다. 예를 들어, 제 1 서브프레임과 제 2 서브프레임은 오디오 신호의 단일 프레임 내에 있을 수도 있다. 예시를 위해, 도 4의 혼합 인자 조정기 (409) 에 관해 설명된 제 1 접근법, 제 2 접근법, 및 제 3 접근법의 각각은 특정 프레임의 하나의 서브프레임에 대응하는 혼합 인자의 제 1 값과 그 특정 프레임의 다른 서브프레임에 대응하는 혼합 인자의 제 2 값에 기초하여 혼합 인자의 제 3 값을 생성할 수도 있다.
다른 예로서, 제 1 서브프레임과 제 2 서브프레임들은 오디오 신호의 상이한 프레임들 내에 있을 수도 있다. 예를 들어, 도 4의 혼합 인자 조정기 (409) 에 관해 설명된 제 2 접근법과 제 3 접근법은 이전 프레임의 마지막 서브프레임에 대응하는 혼합 인자의 제 1 값에 기초하여 그리고 특정 프레임의 제 1 서브프레임에 대응하는 혼합 인자의 제 2 값에 기초하여 (예컨대, 특정 프레임의 제 1 서브프레임에 대해) 혼합 인자의 제 3 값을 생성할 수도 있다.
508에서, 여기 신호가 혼합 인자의 제 3 값에 기초하여 변조된 잡음과 혼합된다. 예를 들어, 오디오 신호의 고대역 부분에 대응하는 고대역 여기 신호가 생성될 수도 있다. 고대역 여기 신호는 변조된 잡음과 여기 신호의 결합에 기초하여 생성될 수도 있는데, 여기 신호는 저대역 여기 신호의 변환된 버전에 해당한다. 예를 들어, 도 4의 혼합 모듈 (411) 은 결합기 (406) 로부터의 변조된 잡음 (420) 과 저대역 여기 신호 (144) 의 변환된 버전 (도 1의 오디오 신호 (102) 의 저대역 부분에 해당함) 의 결합에 기초하여 고대역 여기 신호 (161) 를 생성할 수도 있다. 혼합 인자는 변조된 잡음 대 저대역 여기 신호의 변환된 버전의 비율을 나타낼 수도 있다. 예를 들어, 고대역 여기 신호는 변조된 잡음과 저대역 여기 신호의 변환된 버전의 가중된 합으로서 생성될 수도 있다.
특정 실시형태들에서, 도 5의 방법 (500) 은 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 컨트롤러와 같은 프로세싱 유닛의 하드웨어 (예컨대, 필드프로그램가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 그것들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 5의 방법 (500) 은, 도 7에 관해 설명되는 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수 있다.
도 6을 참조하면, 이득 제어를 수행하는 방법의 특정 실시형태의 순서도가 도시되고 전체가 600으로 지정된다. 예시적인 실시형태에서, 방법 (600) 은 도 1의 시스템 (100) 에 의해, 이를테면 고대역 분석 모듈 (160) 에 의해 수행될 수도 있다.
602에서, 오디오 신호에 대응하는 스펙트럼 주파수 값들의 제 1 세트가 결정된다. 예를 들어, 스펙트럼 주파수 값들의 제 1 세트는 도 1의 LP 분석 및 코딩 모듈 (152) 에 의해 생성될 수도 있다. 예시를 위해, 스펙트럼 주파수 값들의 제 1 세트는 오디오 신호의 고대역 부분의 각각의 프레임에 대한 LP 필터 계수들의 세트를 생성하기 위해 LPC 분석을 수행하도록 결정될 수도 있고 LP 필터 계수들의 변환을 포함할 수도 있다.
604에서, 스펙트럼 주파수 값들의 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트가 결정된다. 예를 들어, 스펙트럼 값들의 제 2 세트는 도 1의 양자화기 (156) 에 의해 생성될 수도 있다. 스펙트럼 주파수 값들의 제 2 세트는 스펙트럼 주파수 값들의 제 1 세트에 기초하여 도 1의 코드북 (163) 과 같은 코드북을 검색함으로써 결정될 수도 있다. 특정 실시형태에서, 스펙트럼 주파수 값들의 제 1 세트는 라인 스펙트럼 주파수 (LSF) 값들을 포함하고 스펙트럼 주파수 값들의 제 2 세트는 양자화된 LSF 값들을 포함한다. 다른 실시형태들에서, 스펙트럼 주파수 값들의 제 1 세트는 LSF 값들과는 다른 값들일 수도 있다. 예를 들어, 스펙트럼 주파수 값들의 제 1 세트는 선형 예측 계수 (LPC) 값들을 포함할 수도 있고, 스펙트럼 주파수 값들의 제 2 세트는 양자화된 LPC 값들을 포함할 수도 있다.
606에서, 오디오 신호의 적어도 부분에 대응하는 이득 값이 제 1 세트 및 제 2 세트 간의 차이에 기초하여 조정된다. 이득 값은 오디오 신호의 프레임의 프레임 이득에 해당할 수도 있다. 예를 들어, 프레임 이득 값은 도 1의 오디오 신호 (102) 의 고대역 부분과, 고대역 여기 신호 (161) 를 도 2의 합성 필터 (207) 와 같은 합성 필터에 적용함으로써 생성된 합성된 고대역 신호에 기초하여 생성될 수도 있다. 특정 실시형태에서, 합성 필터는 스펙트럼 주파수 값들의 제 1 세트에 따라 또는 (비양자화된 값들을 생성하기 위해 스펙트럼 주파수 값들의 제 2 세트를 변환한 후) 스펙트럼 주파수 값들의 제 2 세트에 따라 구성될 수도 있다.
608에서, 이득 값을 조정하는 것은 스펙트럼 주파수 값들의 제 1 세트와 스펙트럼 주파수 값들의 제 2 세트 사이의 스펙트럼 왜곡을 결정하는 것을 포함할 수도 있다. 예를 들어, 스펙트럼 왜곡은 도 2의 스펙트럼 왜곡 모듈 (201) 에 의해 생성된 SD (202) 일 수도 있다. 제 1 세트 및 제 2 세트 사이의 차이에 대응하는 스펙트럼 왜곡이 다양한 기법들에 따라 추정될 수도 있다. 예를 들어, 스펙트럼 왜곡은 스펙트럼 주파수 값들의 제 1 세트에서의 값들과 비교하여 스펙트럼 주파수 값들의 제 2 세트에서의 값들의 평균 제곱 에러에 따라 결정될 수도 있다. 다른 예로서, 스펙트럼 왜곡은 스펙트럼 주파수 값들의 제 1 세트에서의 값들과 비교하여 스펙트럼 주파수 값들의 제 2 세트에서의 값들 간의 절대차에 따라 결정될 수도 있다.
610에서, 이득 값을 조정하는 것은 스펙트럼 왜곡에 기초하여 이득 인자를 결정하는 것을 또한 포함할 수도 있다. 이득 인자는 도 3의 매핑 (300) 에 따라 도 2의 매핑 모듈 (206) 에 의해 생성된 이득 인자 (204) 에 관해 설명된 바와 같은 스펙트럼 왜곡 값들 대 이득 인자 값들의 매핑에 따라 결정될 수도 있다. 예시를 위해, SD1와 SD2 간의 매핑 (300) 의 경사진 부분에 의해 예시된 바와 같이, 매핑의 부분이, 스펙트럼 왜곡에서의 증가가 이득 인자 값에서의 감소에 대응한다는 것을 정의할 수도 있다. 매핑은, 도 3의 SD1 및 SD2에 관해 설명된 바와 같이, 확률 분포 함수의 아웃라이어들에 대응하는 스펙트럼 왜곡 값들에 적어도 부분적으로 기초할 수도 있다.
612에서, 이득 값을 조정하는 것은 이득 인자를 프레임 이득에 적용함으로써 프레임 이득을 조정하는 것을 또한 포함할 수도 있다. 예시를 위해, 이득 값은 양자화 에러의 양에 기초하여 고대역 신호의 부분들을 감쇠시키기 위해 이득 인자에 의해 곱해질 수도 있다. 비록 방법 (600) 이 도 1 및 도 4의 고대역 컴포넌트들에 관해 설명되지만, 방법 (600) 은 도 1의 저대역 신호 (122) 에 또는 인코더에서 수신된 오디오 신호 (102) 의 임의의 다른 부분에 관해 적용될 수도 있다.
특정 실시형태들에서, 도 6의 방법 (600) 은 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 컨트롤러와 같은 프로세싱 유닛의 하드웨어 (예컨대, 필드프로그램가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 그것들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 6의 방법 (600) 은, 도 7에 관해 설명되는 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수 있다.
도 1 내지 도 6은 따라서, 추정된 스펙트럼 왜곡에 기초하여 이득 조정을 수행하는 및/또는 잡음으로 인한 아티팩트들을 감소시키기 위해 혼합 인자 평활화를 수행하는 시스템들 및 방법들을 포함하는 예들을 도시한다.
도 7을 참조하면, 무선 통신 디바이스의 특정 예시적인 실시형태의 블록도가 묘사되어 있고 전체가 700으로 지정된다. 디바이스 (700) 는 메모리 (732) 에 커플링된 프로세서 (710) (예컨대, 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP) 등) 를 포함한다. 메모리 (732) 는, 도 5와 도 6의 방법들과 같이, 본원에서 개시된 방법들 및 프로세스들을 수행하기 위해 프로세서 (710) 및/또는 코더/디코더 (코덱; 734) 에 의해 실행가능한 명령들 (760) 을 포함할 수도 있다.
코덱 (734) 은 잡음 변조 시스템 (776) 을 구비할 수도 있다. 특정 실시형태에서, 잡음 변조 시스템 (776) 은 도 4의 시스템 (400) 의 하나 이상의 컴포넌트들을 포함한다. 잡음 변조 시스템 (776) 은 하나 이상의 태스크들, 또는 그것들의 조합을 수행하기 위한 명령들을 실행하는 프로세서에 의해 전용 하드웨어 (예컨대, 회로) 를 통해 구현될 수도 있다. 일 예로서, 메모리 (732) 또는 코덱 (734) 에서의 메모리가, RAM (random-access memory), MRAM (magnetoresistive random access memory), STT-MRAM (spin-torque transfer MRAM), 플래시 메모리, ROM (read-only memory), 프로그래밍가능 ROM (PROM), 소거가능 프로그래밍가능 ROM (EPROM), 전기적 소거가능 프로그래밍가능 ROM (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, CD-ROM (compact disc read-only memory) 과 같은 메모리 디바이스일 수도 있다. 메모리 디바이스는, 컴퓨터 (예컨대, 코덱 (734) 에서의 프로세서 및/또는 프로세서 (710)) 에 의해 실행될 때, 컴퓨터로 하여금, 오디오 신호의 제 1 부분에 대응하는 혼합 인자의 제 1 값을 수신하게, 오디오 신호의 제 2 부분에 대응하는 혼합 인자의 제 2 값을 수신하게, 그리고 제 1 값 및 제 2 값에 적어도 부분적으로 기초하여 혼합 인자의 제 3 값을 생성하게 할 수도 있는 명령들 (예컨대, 명령들 (760)) 을 포함할 수도 있다. 일 예로서, 메모리 (732) 또는 코덱 (734) 에서의 메모리는, 컴퓨터 (예컨대, 코덱 (734) 에서의 프로세서 및/또는 프로세서 (710)) 에 의해 실행될 때, 컴퓨터로 하여금, 도 5의 방법 (500) 의 적어도 부분을 수행하게 하는 명령들 (예컨대, 명령들 (760)) 을 포함하는 비일시적 컴퓨터 판독가능 매체일 수도 있다.
코덱 (734) 은 이득 조정 시스템 (778) 을 구비할 수도 있다. 특정 실시형태에서, 이득 조정 시스템 (778) 이 도 1의 이득 조정기 (162) 를 구비할 수도 있다. 이득 조정 시스템 (778) 은 하나 이상의 태스크들, 또는 그것들의 조합을 수행하기 위한 명령들을 실행하는 프로세서에 의해 전용 하드웨어 (예컨대, 회로) 를 통해 구현될 수도 있다. 일 예로서, 메모리 (732) 는, 컴퓨터 (예컨대, 코덱 (734) 에서의 프로세서 및/또는 프로세서 (710)) 에 의해 실행될 때, 컴퓨터로 하여금, 오디오 신호에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하게, 스펙트럼 주파수 값들의 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 결정하게, 그리고 제 1 세트 및 제 2 세트 간의 차이에 기초하여 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하게 하는 명령들 (예컨대, 명령들 (760)) 을 포함하는 메모리 디바이스일 수도 있다. 일 예로서, 메모리 (732) 또는 코덱 (734) 에서의 메모리가, 컴퓨터 (예컨대, 코덱 (734) 에서의 프로세서 및/또는 프로세서 (710)) 에 의해 실행될 때, 컴퓨터로 하여금, 도 6의 방법 (600) 의 적어도 부분을 수행하게 할 수도 있는 명령들 (예컨대, 명령들 (760)) 을 포함하는 비일시적 컴퓨터 판독가능 매체일 수도 있다.
도 7은 프로세서 (710) 에 및 디스플레이 (728) 에 커플링되는 디스플레이 제어기 (726) 를 또한 도시한다. 코덱 (734) 은, 도시된 바와 같이, 프로세서 (710) 에 커플링될 수도 있다. 스피커 (736) 와 마이크로폰 (738) 이 코덱 (734) 에 커플링될 수 있다. 예를 들어, 마이크로폰 (738) 은 도 1의 입력 오디오 신호 (102) 를 생성할 수도 있고, 코덱 (734) 은 입력 오디오 신호 (102) 에 기초하여 수신기로의 송신을 위한 출력 비트 스트림 (192) 을 생성할 수도 있다. 다른 예로서, 스피커 (736) 는 도 1의 출력 비트 스트림 (192) 으로부터 코덱 (734) 에 의해 복원된 신호를 출력하는데 사용될 수도 있는데, 출력 비트 스트림 (192) 은 송신기로부터 수신된다. 도 7은 무선 제어기 (740) 가 프로세서 (710) 에 그리고 무선 안테나 (742) 에 커플링될 수 있음을 또한 나타낸다.
특정 실시형태에서, 프로세서 (710), 디스플레이 제어기 (726), 메모리 (732), 코덱 (734), 및 무선 제어기 (740) 는 시스템-인-패키지 (system-in-package) 또는 시스템-온-칩 디바이스 (예컨대, 모바일 스테이션 모뎀 (mobile station modem, MSM), 722) 내에 구비된다. 특정 실시형태에서, 입력 디바이스 (730), 이를테면 터치스크린 및/또는 키패드와, 전력 공급부 (744) 가 시스템-온-칩 디바이스 (722) 에 커플링된다. 더구나, 특정 실시형태에서, 도 7에 예시된 바와 같이, 디스플레이 (728), 입력 디바이스 (730), 스피커 (736), 마이크로폰 (738), 무선 안테나 (742), 및 전력 공급부 (744) 는 시스템-온-칩 디바이스 (722) 외부에 있다. 그러나, 디스플레이 (728), 입력 디바이스 (730), 스피커 (736), 마이크로폰 (738), 무선 안테나 (742), 및 전력 공급부 (744) 의 각각은 시스템-온-칩 디바이스 (722) 의 컴포넌트, 이를테면 인터페이스 또는 제어기에 커플링될 수 있다.
설명된 실시형태들에 연계하여, 혼합 인자의 제 1 값 및 혼합 인자의 제 2 값에 적어도 부분적으로 기초하여 혼합 인자의 제 3 값을 생성하는 수단을 구비한 장치가 개시되는데, 제 1 값은 오디오 인코더에서 수신된 오디오 신호의 제 1 부분에 대응하고 제 2 값은 그 오디오 신호의 제 2 부분에 대응한다. 예를 들어, 생성하는 수단은 도 1의 고대역 여기 생성기 (160), 도 4의 혼합 인자 조정기 (409), 도 7의 잡음 변조 시스템 (776) 또는 그 컴포넌트, 제 1 값 및 제 2 값에 기초하여 제 3 값을 생성하도록 구성된 필터와 같은 하나 이상의 디바이스들 (예컨대, 비일시적 컴퓨터 판독가능 저장 매체에서의 명령들을 실행하는 프로세서), 또는 그것들의 임의의 조합을 포함할 수도 있다.
그 장치는 변조된 잡음과 저대역 여기 신호의 변환된 버전을 결합시킴으로써 오디오 신호의 고대역 부분에 대응하는 고대역 여기 신호를 생성하는 수단을 또한 포함할 수도 있다. 저대역 여기 신호는 오디오 신호의 저대역 부분에 해당한다. 생성하는 수단은 제 3 값에 기초하여 변조된 잡음과 저대역 여기 신호의 변환된 버전을 결합하도록 구성될 수도 있다. 예를 들어, 고대역 여기 신호를 생성하는 수단은 도 1의 고대역 여기 생성기 (160), 도 4의 믹서 (411), 도 7의 잡음 변조 시스템 (776) 또는 그 컴포넌트, 여기 신호를 생성하도록 구성된 하나 이상의 디바이스들 (예컨대, 비일시적 컴퓨터 판독가능 저장 매체에서의 명령들을 실행하는 프로세서), 또는 그것들의 임의의 조합을 포함할 수도 있다.
설명된 실시형태들에 연계하여, 오디오 신호에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하는 수단을 포함하는 장치가 개시된다. 예를 들어, 제 1 세트를 결정하는 수단은 도 1의 LP 분석 및 코딩 모듈 (152), 도 7의 이득 조정 시스템 (778) 또는 그 컴포넌트, 오디오 신호에 대응하는 스펙트럼 주파수 값들을 생성하도록 구성된 하나 이상의 디바이스들 (예컨대, 비일시적 컴퓨터 판독가능 저장 매체에서의 명령들을 실행하는 프로세서), 또는 그것들의 임의의 조합을 포함할 수도 있다.
그 장치는 스펙트럼 주파수 값들의 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 생성하는 수단을 또한 포함할 수도 있다. 예를 들어, 제 2 세트를 생성하는 수단은 도 1의 양자화기 (156), 도 7의 이득 조정 시스템 (778) 또는 그 컴포넌트, 스펙트럼 주파수 값들의 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 생성하도록 구성된 하나 이상의 디바이스들 (예컨대, 비일시적 컴퓨터 판독가능 저장 매체에서의 명령들을 실행하는 프로세서), 또는 그것들의 임의의 조합을 포함할 수도 있다.
그 장치는 제 1 세트 및 제 2 세트 간의 차이에 기초하여 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하는 수단을 또한 포함할 수도 있다. 예를 들어, 조정하는 수단은 도 1의 이득 조정기 (162), 도 7의 이득 조정 시스템 (778) 또는 그 컴포넌트, 이득 값을 조정하도록 구성된 하나 이상의 디바이스들 (예컨대, 비일시적 컴퓨터 판독가능 저장 매체에서의 명령들을 실행하는 프로세서), 또는 그것들의 임의의 조합을 포함할 수도 있다.
당업자들은 본원에서 개시된 실시형태들에 관련하여 설명되는 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 하드웨어 프로세서와 같은 프로세싱 디바이스에 의해 실행되는 컴퓨터 소프트웨어, 또는 양쪽 모두의 조합들로서 구현될 수도 있다는 것을 더 이해할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 일반적으로 그것들의 기능성의 측면에서 위에서 설명되었다. 이러한 기능성이 하드웨어 또는 실행가능 소프트웨어 중 어느 것으로서 구현되는지는 전체 시스템에 부과되는 특정 애플리케이션 및 설계 제약들에 달려있다. 당업자들은 설명된 기능성을 각 특정 애플리케이션에 대하여 다양한 방식들로 구현할 수도 있지만, 이러한 구현 결정들은 본 개시물의 범위로부터의 일탈을 야기하는 것으로서 해석되지 않아야 한다.
본원에 개시된 실시형태들에 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들 두 가지의 조합으로 직접 실시될 수도 있다. 소프트웨어 모듈이, RAM (random-access memory), MRAM (magnetoresistive random access memory), STT-MRAM (spin-torque transfer MRAM), 플래시 메모리, ROM (read-only memory), 프로그래밍가능 ROM (PROM), 소거가능 프로그래밍가능 ROM (EPROM), 전기적 소거가능 프로그래밍가능 ROM (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, CD-ROM (compact disc read-only memory) 과 같은 메모리 디바이스 내에 존재할 수도 있다. 예시적인 메모리 디바이스가 프로세서에 커플링되어서 그 프로세서는 메모리 디바이스로부터 정보를 읽을 수 있고 그 메모리 디바이스에 정보를 쓸 수 있다. 대체예에서, 메모리 디바이스는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 주문형 집적회로 (ASIC) 내에 존재할 수도 있다. ASIC은 컴퓨팅 디바이스 또는 사용자 단말 내에 존재할 수도 있다. 대체예에서, 프로세서와 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말에 개별 컴포넌트들로서 존재할 수도 있다.
개시된 실시형태들의 이전의 설명은 당업자가 개시된 실시형태들을 제작하고 사용하는 것을 가능하게 하기 위해 제공된다. 이들 실시형태들에 대한 다양한 변형예들은 당업자들에게 쉽사리 명확하게 될 것이고, 본원에서 정의된 원리들은 본 개시물의 범위로부터 벗어남 없이 다른 실시형태들에 적용될 수도 있다. 따라서, 본 개시물은 본원에서 보인 실시형태들로 한정될 의도는 없으며 다음의 청구항들에 의해 정의된 원리들 및 신규한 특징들과 일치하는 가능한 가장 넓은 범위에 일치하는 것이다.
Claims (30)
- 전자 디바이스에서 이득 조정을 수행하는 방법으로서,
상기 전자 디바이스에서 수신된 오디오 신호의 고대역 부분에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하는 단계;
상기 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 결정하는 단계;
상기 제 1 세트와 상기 제 2 세트간의 차이에 대응하는 스펙트럼 왜곡을 추정하는 단계;
상기 스펙트럼 왜곡에 기초하여, 상기 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하는 단계; 및
상기 제 2 세트와 조정된 상기 이득 값에 대응하는 정보를 포함하는 인코딩된 비트 스트림을 송신하는 단계를 포함하는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 오디오 신호의 상기 적어도 부분은 상기 오디오 신호의 프레임에 대응하고, 그리고
상기 이득 값은 스펙트럼 왜곡 값들 대 이득 인자 값들의 매핑에 기초하여 결정된 이득 인자에 기초하여 조정되는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 이득 값은 상기 스펙트럼 왜곡에 기초하여 결정된 이득 인자에 기초하여 조정되고, 상기 이득 인자는 상기 오디오 신호의 상기 고대역 부분에 기초하고 합성된 고대역 신호에 기초하여 결정된 프레임 이득에 적용되는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
조정된 상기 이득 값에 기초하여 고대역 이득 파라미터를 결정하는 단계로서, 조정된 상기 이득 값은 이득 인자에 기초하고 프레임 이득에 기초하는, 상기 고대역 이득 파라미터를 결정하는 단계; 및
상기 고대역 이득 파라미터를 포함하는 고대역 사이드 정보를 생성하는 단계를 더 포함하는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 오디오 신호의 상기 적어도 부분은 상기 오디오 신호의 프레임에 대응하고, 그리고
상기 이득 값을 조정하는 것은 프레임 이득을 감쇠시키기 위해 이득 인자를 상기 프레임 이득에 적용하는 것에 대응하며, 상기 이득 인자는 상기 스펙트럼 왜곡에 기초하여 결정되는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 제 2 세트는 양자화된 스펙트럼 주파수 값들을 포함하고, 그리고
상기 스펙트럼 왜곡은 상기 제 1 세트에서의 값들과 비교하여 상기 제 2 세트에서의 값들 간의 절대차에 기초하여 추정되는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 제 1 세트는 상기 전자 디바이스의 고대역 분석 모듈에 의해 생성된 라인 스펙트럼 주파수 (LSF) 값들을 포함하고, 그리고
상기 제 2 세트는 상기 고대역 분석 모듈에서 코드북의 다수의 엔트리들에 어세스 (acceess) 하도록 구성된 양자화기에 의해 생성된 양자화된 LSF 값들을 포함하는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 스펙트럼 왜곡은 상기 제 1 세트에서의 값들과 비교하여 상기 제 2 세트에서의 값들의 평균 제곱 에러에 따라 결정되는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 이득 값은 이득 인자에 기초하여 조정되고,
상기 이득 인자는 스펙트럼 왜곡 값들 대 이득 인자 값들의 매핑에 기초하여 결정되며, 그리고
상기 매핑은 확률 분포 함수의 아웃라이어들에 대응하는 스펙트럼 왜곡 값들에 적어도 부분적으로 기초하는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 전자 디바이스는 인코더 또는 디코더 중 적어도 하나를 포함하고, 그리고
상기 스펙트럼 왜곡은 상기 제 1 세트의 라인 스펙트럼 주파수 (LSF) 값들과 상기 제 2 세트의 근사화된 (approximated) LSF 값들간의 차이에 기초하여 상기 전자 디바이스에서 추정되는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 이득 값은 프레임 이득에 기초하고, 상기 스펙트럼 왜곡에 기초하여 조정되며,
상기 프레임 이득은 합성된 고대역 신호에 기초하고 상기 오디오 신호의 상기 고대역 부분에 기초하여 계산되며, 그리고
합성된 상기 고대역 신호는 변환된 저대역 여기 신호를 변조된 잡음과 혼합하는 것에 기초하여 결정되는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 이득 값은 합성된 고대역 신호와 상기 오디오 신호의 고대역 부분의 비교에 기초하여 결정되며, 합성된 상기 고대역 신호는 혼합 인자, 변조된 잡음, 및 저대역 여기 신호의 버전에 기초하여 생성되는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 오디오 신호의 상기 적어도 부분은 상기 오디오 신호의 프레임을 포함하고,
상기 이득 값은 고대역 여기 신호에 기초하여 결정되며, 그리고
상기 고대역 여기 신호는 상기 오디오 신호의 고대역 부분에 대응하는, 이득 조정을 수행하는 방법. - 제 1 항에 있어서,
상기 전자 디바이스는 모바일 통신 디바이스를 포함하고, 그리고
상기 제 1 세트를 결정하는 단계, 상기 제 2 세트를 결정하는 단계, 상기 추정하는 단계, 및 상기 조정하는 단계는 상기 모바일 통신 디바이스 내에서 수행되는, 이득 조정을 수행하는 방법. - 삭제
- 이득 조정을 수행하는 장치로서,
수신된 오디오 신호의 고대역 부분에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하도록 구성된 분석 필터;
상기 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 생성하도록 구성된 양자화기;
상기 제 1 세트와 상기 제 2 세트간의 차이에 대응하는 스펙트럼 왜곡을 추정하도록 구성된 스펙트럼 왜곡 계산기;
상기 스펙트럼 왜곡에 기초하여, 수신된 상기 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하도록 구성된 이득 회로; 및
상기 제 2 세트와 조정된 상기 이득 값에 대응하는 정보를 포함하는 인코딩된 비트 스트림을 송신하도록 구성된 송신기를 포함하는, 이득 조정을 수행하는 장치. - 제 16 항에 있어서,
합성된 고대역 신호에 기초하고 수신된 상기 오디오 신호의 상기 고대역 부분에 기초하여 프레임 이득을 계산하도록 구성된 프레임 이득 계산기를 더 포함하고,
상기 이득 회로는 상기 프레임 이득 계산기에 의해 계산된 상기 프레임 이득에 기초하여 상기 이득 값을 조정하도록 구성되며, 그리고
합성된 상기 고대역 신호는 혼합 인자, 변조된 잡음, 및 변환된 저대역 여기 신호에 기초하여 생성되는, 이득 조정을 수행하는 장치. - 제 16 항에 있어서,
상기 스펙트럼 왜곡을 수신하고, 스펙트럼 왜곡 값들 대 이득 인자 값들의 매핑을 적용하고, 그리고 이득 인자를 생성하도록 구성된 매핑 모듈을 더 포함하고,
상기 이득 회로는 상기 이득 인자에 기초하여 상기 이득 값을 감쇠시키도록 구성되며, 그리고
상기 매핑의 부분은 스펙트럼 왜곡 값에서의 증가가 이득 인자 값에서의 감소에 대응한다는 것을 정의하는, 이득 조정을 수행하는 장치. - 제 16 항에 있어서,
상기 제 2 세트는 양자화된 스펙트럼 주파수 값들을 포함하고,
상기 스펙트럼 왜곡 계산기는 상기 제 1 세트에서의 값들과 비교하여 상기 제 2 세트에서의 값들 간의 절대차에 따르거나 또는 상기 제 1 세트에서의 값들과 비교하여 상기 제 2 세트에서의 값들의 평균 제곱 에러에 따라 상기 스펙트럼 왜곡을 결정하도록 구성되는, 이득 조정을 수행하는 장치. - 제 16 항에 있어서,
마이크로폰 또는 안테나를 포함하는 입력 디바이스; 및
수신된 상기 오디오 신호에 대응하는 신호를 상기 입력 디바이스로부터 수신하도록 구성된 수신기를 더 포함하는, 이득 조정을 수행하는 장치. - 제 20 항에 있어서,
상기 수신기, 상기 양자화기, 상기 스펙트럼 왜곡 계산기, 및 상기 이득 회로는 모바일 통신 디바이스 속에 통합되는, 이득 조정을 수행하는 장치. - 삭제
- 명령들을 저장하는 비일시적 컴퓨터 판독가능 매체로서,
상기 명령들은, 이득 조정을 수행하도록 구성된 전자 디바이스에 있는 컴퓨터에 의해 실행되는 경우, 상기 컴퓨터로 하여금,
상기 전자 디바이스에서 수신된 오디오 신호의 고대역 부분에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하는 것;
상기 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 결정하는 것;
상기 제 1 세트와 상기 제 2 세트간의 차이에 대응하는 스펙트럼 왜곡을 추정하는 것;
상기 스펙트럼 왜곡에 기초하여, 상기 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하는 것; 및
상기 제 2 세트와 조정된 상기 이득 값에 대응하는 정보를 포함하는 인코딩된 비트 스트림을 송신하는 것을 포함하는 작동들을 개시하도록 하는, 비일시적 컴퓨터 판독가능 매체. - 제 23 항에 있어서,
상기 이득 값은 상기 오디오 신호의 프레임의 프레임 이득에 대응하고, 그리고
상기 이득 값을 조정하는 것은:
상기 스펙트럼왜곡에 기초하여 이득 인자를 결정하는 것; 및
상기 이득 인자를 상기 프레임 이득에 적용함으로써 상기 프레임 이득을 감쇠시키는 것을 포함하는, 비일시적 컴퓨터 판독가능 매체. - 이득 조정을 수행하는 장치로서,
수신된 오디오 신호의 고대역 부분에 대응하는 스펙트럼 주파수 값들의 제 1 세트를 결정하는 수단;
상기 제 1 세트와 근사한 스펙트럼 주파수 값들의 제 2 세트를 생성하는 수단;
상기 제 1 세트와 상기 제 2 세트간의 차이에 대응하는 스펙트럼 왜곡을 추정하는 수단;
상기 스펙트럼 왜곡에 기초하여, 수신된 상기 오디오 신호의 적어도 부분에 대응하는 이득 값을 조정하는 수단; 및
상기 제 2 세트와 조정된 상기 이득 값에 대응하는 정보를 포함하는 인코딩된 비트 스트림을 송신하는 수단을 포함하는, 이득 조정을 수행하는 장치. - 제 25 항에 있어서,
상기 제 1 세트는 라인 스펙트럼 주파수 (LSF) 값들을 포함하고, 그리고
상기 제 2 세트는 양자화된 LSF 값들을 포함하는, 이득 조정을 수행하는 장치. - 제 25 항에 있어서,
상기 제 1 세트는 선형 예측 계수 (LPC) 값들을 포함하고, 그리고
상기 제 2 세트는 양자화된 LPC 값들을 포함하는, 이득 조정을 수행하는 장치. - 제 25 항에 있어서,
상기 제 1 세트에 기초하여 코드북을 검색함으로써 상기 제 2 세트를 결정하는 수단을 더 포함하고,
상기 조정하는 수단은 이득 인자에 기초하여 상기 이득 값을 감쇠시키도록 구성되며, 그리고
상기 이득 인자는 스펙트럼 왜곡 값들 대 이득 인자 값들의 매핑에 기초하여 결정되는, 이득 조정을 수행하는 장치. - 제 25 항에 있어서,
상기 결정하는 수단, 상기 생성하는 수단, 상기 추정하는 수단, 및 상기 조정하는 수단은 모바일 통신 디바이스 속에 통합되는, 이득 조정을 수행하는 장치. - 삭제
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361762810P | 2013-02-08 | 2013-02-08 | |
US61/762,810 | 2013-02-08 | ||
US14/012,749 US9601125B2 (en) | 2013-02-08 | 2013-08-28 | Systems and methods of performing noise modulation and gain adjustment |
US14/012,749 | 2013-08-28 | ||
KR1020157023466A KR102232095B1 (ko) | 2013-02-08 | 2013-08-29 | 잡음 변조 및 이득 조정을 수행하는 시스템들 및 방법들 |
PCT/US2013/057368 WO2014123585A1 (en) | 2013-02-08 | 2013-08-29 | Systems and methods of performing noise modulation and gain adjustment |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157023466A Division KR102232095B1 (ko) | 2013-02-08 | 2013-08-29 | 잡음 변조 및 이득 조정을 수행하는 시스템들 및 방법들 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210034103A KR20210034103A (ko) | 2021-03-29 |
KR102447846B1 true KR102447846B1 (ko) | 2022-09-26 |
Family
ID=51298067
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217008112A KR102447846B1 (ko) | 2013-02-08 | 2013-08-29 | 잡음 변조 및 이득 조정을 수행하는 시스템들 및 방법들 |
KR1020157023466A KR102232095B1 (ko) | 2013-02-08 | 2013-08-29 | 잡음 변조 및 이득 조정을 수행하는 시스템들 및 방법들 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157023466A KR102232095B1 (ko) | 2013-02-08 | 2013-08-29 | 잡음 변조 및 이득 조정을 수행하는 시스템들 및 방법들 |
Country Status (23)
Country | Link |
---|---|
US (2) | US9601125B2 (ko) |
EP (2) | EP3174051B1 (ko) |
JP (3) | JP2016507783A (ko) |
KR (2) | KR102447846B1 (ko) |
CN (2) | CN104956438B (ko) |
AU (1) | AU2013377891B2 (ko) |
BR (1) | BR112015019042B1 (ko) |
CA (2) | CA2896965C (ko) |
DK (2) | DK3174051T3 (ko) |
ES (2) | ES2715476T3 (ko) |
HK (1) | HK1211374A1 (ko) |
HU (2) | HUE041373T2 (ko) |
IL (1) | IL239749A (ko) |
MX (1) | MX2015010225A (ko) |
MY (1) | MY170595A (ko) |
PH (1) | PH12015501671B1 (ko) |
PL (1) | PL3174051T3 (ko) |
PT (1) | PT3174051T (ko) |
RU (1) | RU2647666C2 (ko) |
SG (1) | SG11201505147PA (ko) |
SI (1) | SI3174051T1 (ko) |
UA (2) | UA123364C2 (ko) |
WO (1) | WO2014123585A1 (ko) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9601125B2 (en) * | 2013-02-08 | 2017-03-21 | Qualcomm Incorporated | Systems and methods of performing noise modulation and gain adjustment |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
US10083708B2 (en) * | 2013-10-11 | 2018-09-25 | Qualcomm Incorporated | Estimation of mixing factors to generate high-band excitation signal |
US10210871B2 (en) * | 2016-03-18 | 2019-02-19 | Qualcomm Incorporated | Audio processing for temporally mismatched signals |
EP3382703A1 (en) | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and methods for processing an audio signal |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
JP2024511636A (ja) * | 2021-03-31 | 2024-03-14 | ヒョンダイ モーター カンパニー | インター予測にディープラーニングベースのインループフィルタを用いるビデオコーディング方法及び装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3457293B2 (ja) | 2001-06-06 | 2003-10-14 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
US7146313B2 (en) | 2001-12-14 | 2006-12-05 | Microsoft Corporation | Techniques for measurement of perceptual audio quality |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
ES2249985B1 (es) | 2004-06-25 | 2007-06-16 | Universidad De Sevilla | Molienda mecanica de polvos activada por radiacion ultravioleta. |
JP4977472B2 (ja) | 2004-11-05 | 2012-07-18 | パナソニック株式会社 | スケーラブル復号化装置 |
JP2006197391A (ja) | 2005-01-14 | 2006-07-27 | Toshiba Corp | 音声ミクシング処理装置及び音声ミクシング処理方法 |
CN101180676B (zh) * | 2005-04-01 | 2011-12-14 | 高通股份有限公司 | 用于谱包络表示的向量量化的方法和设备 |
JP5129117B2 (ja) | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
KR20070115637A (ko) | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
US9454974B2 (en) | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
US9009032B2 (en) | 2006-11-09 | 2015-04-14 | Broadcom Corporation | Method and system for performing sample rate conversion |
US8005671B2 (en) * | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
JP5266341B2 (ja) * | 2008-03-03 | 2013-08-21 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
CN102802112B (zh) | 2011-05-24 | 2014-08-13 | 鸿富锦精密工业(深圳)有限公司 | 具有音频文件格式转换功能的电子装置 |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
US9601125B2 (en) | 2013-02-08 | 2017-03-21 | Qualcomm Incorporated | Systems and methods of performing noise modulation and gain adjustment |
-
2013
- 2013-08-28 US US14/012,749 patent/US9601125B2/en active Active
- 2013-08-29 KR KR1020217008112A patent/KR102447846B1/ko active IP Right Grant
- 2013-08-29 JP JP2015556931A patent/JP2016507783A/ja not_active Withdrawn
- 2013-08-29 UA UAA201806870A patent/UA123364C2/uk unknown
- 2013-08-29 SI SI201331363T patent/SI3174051T1/sl unknown
- 2013-08-29 UA UAA201508653A patent/UA117745C2/uk unknown
- 2013-08-29 DK DK17150969.8T patent/DK3174051T3/en active
- 2013-08-29 EP EP17150969.8A patent/EP3174051B1/en active Active
- 2013-08-29 HU HUE17150969A patent/HUE041373T2/hu unknown
- 2013-08-29 EP EP13766166.6A patent/EP2954525B1/en active Active
- 2013-08-29 MY MYPI2015702275A patent/MY170595A/en unknown
- 2013-08-29 HU HUE13766166A patent/HUE031761T2/en unknown
- 2013-08-29 ES ES17150969T patent/ES2715476T3/es active Active
- 2013-08-29 PL PL17150969T patent/PL3174051T3/pl unknown
- 2013-08-29 DK DK13766166.6T patent/DK2954525T3/en active
- 2013-08-29 PT PT17150969T patent/PT3174051T/pt unknown
- 2013-08-29 MX MX2015010225A patent/MX2015010225A/es unknown
- 2013-08-29 RU RU2015138115A patent/RU2647666C2/ru active
- 2013-08-29 WO PCT/US2013/057368 patent/WO2014123585A1/en active Application Filing
- 2013-08-29 SG SG11201505147PA patent/SG11201505147PA/en unknown
- 2013-08-29 CN CN201380071698.XA patent/CN104956438B/zh active Active
- 2013-08-29 AU AU2013377891A patent/AU2013377891B2/en active Active
- 2013-08-29 CN CN201910418587.0A patent/CN110136742B/zh active Active
- 2013-08-29 KR KR1020157023466A patent/KR102232095B1/ko active IP Right Grant
- 2013-08-29 CA CA2896965A patent/CA2896965C/en active Active
- 2013-08-29 BR BR112015019042-1A patent/BR112015019042B1/pt active IP Right Grant
- 2013-08-29 ES ES13766166.6T patent/ES2625042T3/es active Active
- 2013-08-29 CA CA3058998A patent/CA3058998C/en active Active
-
2015
- 2015-07-01 IL IL239749A patent/IL239749A/en active IP Right Grant
- 2015-07-28 PH PH12015501671A patent/PH12015501671B1/en unknown
- 2015-12-07 HK HK15112032.8A patent/HK1211374A1/xx unknown
-
2017
- 2017-02-02 US US15/422,856 patent/US9899032B2/en active Active
-
2018
- 2018-01-17 JP JP2018005516A patent/JP6538209B2/ja active Active
-
2019
- 2019-06-05 JP JP2019105468A patent/JP6752936B2/ja active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102447846B1 (ko) | 잡음 변조 및 이득 조정을 수행하는 시스템들 및 방법들 | |
AU2019203827B2 (en) | Estimation of mixing factors to generate high-band excitation signal | |
US9620134B2 (en) | Gain shape estimation for improved tracking of high-band temporal characteristics | |
AU2014331903A1 (en) | Gain shape estimation for improved tracking of high-band temporal characteristics | |
US20150149157A1 (en) | Frequency domain gain shape estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |