KR20160097232A - 블라인드 대역폭 확장의 시스템들 및 방법들 - Google Patents
블라인드 대역폭 확장의 시스템들 및 방법들 Download PDFInfo
- Publication number
- KR20160097232A KR20160097232A KR1020167016860A KR20167016860A KR20160097232A KR 20160097232 A KR20160097232 A KR 20160097232A KR 1020167016860 A KR1020167016860 A KR 1020167016860A KR 20167016860 A KR20167016860 A KR 20167016860A KR 20160097232 A KR20160097232 A KR 20160097232A
- Authority
- KR
- South Korea
- Prior art keywords
- parameters
- highband
- lowband
- energy value
- state
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 164
- 230000005236 sound signal Effects 0.000 claims abstract description 98
- 230000007704 transition Effects 0.000 claims description 62
- 239000011159 matrix material Substances 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 29
- 239000013598 vector Substances 0.000 description 238
- 238000013139 quantization Methods 0.000 description 196
- 238000001514 detection method Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
블라인드 대역폭 확장을 수행하는 시스템들 및 방법들이 개시된다. 일 실시형태에서, 방법은, 오디오 신호의 저대역 파라미터들의 세트에 기초하여, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트를 결정하는 단계를 포함한다. 방법은, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트의 가중된 조합에 기초하여 예측된 고대역 파라미터들의 세트를 생성하는 단계를 더 포함한다.
Description
우선권의 주장
본 출원은 2014년 7월 18일자로 출원된 미국 출원 제14/334,921호, 그리고 2013년 12월 15일자로 출원된 미국 가출원 제61/916,264호, 그리고 2014년 2월 12일자로 출원된 미국 가출원 제61/939,148호로부터의 우선권을 주장하고, 이들 모두는 "SYSTEMS AND METHODS OF BLIND BANDWIDTH EXTENSION" 이라는 명칭을 가지며, 그 내용은 참조로 그 전체가 포함된다.
분야
본 개시물은 일반적으로 블라인드 대역폭 확장 (blind bandwidth extension) 에 관한 것이다.
기술의 진보는 보다 소형이고 보다 강력한 컴퓨팅 디바이스들을 발생시켰다. 예를 들어, 소형이고, 경량이며, 사용자들에 의해 쉽게 운반되는 휴대용 무선 전화기들, 개인 휴대 정보 단말기 (personal digital assistant; PDA) 들, 및 페이징 디바이스들과 같은, 무선 컴퓨팅 디바이스들을 포함하는, 다양한 휴대용 퍼스널 컴퓨팅 디바이스들이 현재 존재한다. 더 구체적으로는, 셀룰러 전화기들 및 인터넷 프로토콜 (Internet Protocol; IP) 전화기들과 같은 휴대용 무선 전화기들은 무선 네트워크들을 통해 보이스 및 데이터 패킷들을 통신할 수 있다. 게다가, 많은 이러한 무선 전화기들은 내부에 포함되는 다른 타입들의 디바이스들을 포함한다. 예를 들어, 무선 전화기는 또한 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어를 포함할 수 있다.
전통적인 전화 시스템들 (예를 들어, 공중 교환 전화 네트워크 (public switched telephone network; PSTN) 들) 에서는, 보이스 및 다른 신호들이 약 8 킬로헤르츠 (kHz) 에서 샘플링되어, 표현된 신호의 신호 주파수들을 4 kHz 미만으로 제한한다. 셀룰러 텔레포니 (telephony) 및 VoIP (voice over internet protocol) 와 같은 광대역 (wideband; WB) 애플리케이션들에서, 보이스 및 다른 신호들은 약 16 kHz 에서 샘플링될 수도 있다. WB 애플리케이션들은 최대 8 kHz 까지의 주파수들로의 신호들의 표현을 가능하게 한다. 4 kHz 로 제한된 협대역 (narrowband; NB) 텔레포니로부터의 신호 대역폭을 8 kHz 의 WB 텔레포니로 확장시키는 것은 음성 명료도 (speech intelligibility) 및 자연성을 개선시킬 수도 있다.
WB 코딩 기법들은 통상적으로 신호의 저주파 부분 (예를 들어, 0 Hz 내지 4 kHz, 또한 "저대역" 이라고도 지칭됨) 을 인코딩하고 송신하는 것을 수반한다. 예를 들어, 저대역은 필터 파라미터들 및/또는 저대역 여기 (excitation) 신호를 이용하여 표현될 수도 있다. 그러나, 코딩 효율을 개선시키기 위해, 신호의 고주파 부분 (예를 들어, 4 kHz 내지 8 kHz, 또한 "고대역" 이라고도 지칭됨) 은 저대역 정보와 함께 송신되는 파라미터들의 보다 작은 세트를 생성하도록 인코딩될 수도 있다. 고대역 정보의 양이 감소됨에 따라, 대역폭 송신이 더 효율적으로 이용되지만, 수신기에서의 고대역의 정확한 재구성은 신뢰성을 감소시킬 수도 있다.
블라인드 대역폭 확장을 수행하는 시스템들 및 방법들이 개시된다. 특정 실시형태에서, (오디오 신호의 저대역 부분을 나타내는) 저대역 입력 신호가 수신된다. 고대역 파라미터들 (예를 들어, 선 스펙트럼 주파수들 (line spectral frequencies; LSF), 이득 형상 정보, 이득 프레임 정보, 및/또는 고대역 오디오 신호를 설명하는 다른 정보) 은 소프트 벡터 양자화 (soft-vector quantization) 에 기초한 상태들에 따라 오디오 신호의 저대역 부분을 이용하여 예측될 수도 있다. 예를 들어, 특정 상태는 (예를 들어, 저대역 프레임 또는 서브-프레임에 대응하는) 특정 저대역 이득 프레임 파라미터들에 대응할 수도 있다. 예측된 상태 천이 (transition) 정보를 이용하여, 오디오 신호의 고대역 부분과 연관된 이득 프레임 정보는 오디오 신호의 저대역 부분으로부터 추출된 저대역 이득 프레임 정보에 기초하여 예측될 수도 있다. 특정 이득 프레임 파라미터들에 대응하는 알려진 또는 예측된 상태가 이용되어, 부가적인 프레임들/서브-프레임들에 대응하는 부가적인 이득 프레임 파라미터들을 예측할 수도 있다. 예측된 고대역 파라미터들은 (오디오 신호의 저대역 부분에 대응하는 저대역 잔차 (residual) 신호와 함께) 고대역 모델에 적용되어 오디오 신호의 고대역 부분을 생성할 수도 있다. 오디오 신호의 고대역 부분은 오디오 신호의 저대역 부분과 조합되어 광대역 출력을 생성할 수도 있다.
특정 실시형태에서, 방법은, 오디오 신호의 저대역 파라미터들의 세트에 기초하여, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트를 결정하는 단계를 포함한다. 방법은, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트의 가중된 조합 (weighted combination) 에 기초하여 예측된 고대역 파라미터들의 세트를 생성하는 단계를 더 포함한다.
다른 특정 실시형태에서, 방법은, 오디오 신호의 프레임에 대응하는 저대역 파라미터들의 세트를 수신하는 단계를 포함한다. 방법은, 저대역 파라미터들의 세트에 기초하여, 복수의 양자화 벡터들로부터 제 1 양자화 벡터를 그리고 복수의 양자화 벡터들로부터 제 2 양자화 벡터를 선택하는 단계를 더 포함한다. 제 1 양자화 벡터는 고대역 파라미터들의 제 1 세트와 연관되고 제 2 양자화 벡터는 고대역 파라미터들의 제 2 세트와 연관된다. 방법은 또한, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트의 가중된 조합에 기초하여 고대역 파라미터들의 세트를 예측하는 단계를 포함한다.
다른 특정 실시형태에서, 방법은, 오디오 신호의 프레임에 대응하는 저대역 파라미터들의 세트를 수신하는 단계를 포함한다. 방법은, 저대역 파라미터들의 세트에 기초하여 비선형 도메인 고대역 파라미터들의 세트를 예측하는 단계를 더 포함한다. 방법은 또한, 선형 도메인 고대역 파라미터들의 세트를 획득하기 위해 비선형 도메인 고대역 파라미터들의 세트를 비선형 도메인으로부터 선형 도메인으로 컨버팅하는 단계를 포함한다.
다른 특정 실시형태에서, 방법은, 오디오 신호의 프레임에 대응하는 저대역 파라미터들의 세트를 수신하는 단계를 포함한다. 방법은, 저대역 파라미터들의 세트에 기초하여, 복수의 양자화 벡터들로부터 제 1 양자화 벡터를 그리고 복수의 양자화 벡터들로부터 제 2 양자화 벡터를 선택하는 단계를 더 포함한다. 제 1 양자화 벡터는 고대역 파라미터들의 제 1 세트와 연관되고 제 2 양자화 벡터는 고대역 파라미터들의 제 2 세트와 연관된다. 방법은 또한, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트의 가중된 조합에 기초하여 고대역 파라미터들의 세트를 예측하는 단계를 포함한다.
다른 특정 실시형태에서, 방법은 복수의 양자화 벡터들 중 제 1 양자화 벡터를 선택하는 단계를 포함한다. 제 1 양자화 벡터는 오디오 신호의 제 1 프레임에 대응하는 저대역 파라미터들의 제 1 세트에 대응한다. 방법은, 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하는 단계를 더 포함한다. 방법은 또한, 천이 확률 매트릭스에서의 엔트리들에 기초하여, 제 1 프레임에 대응하는 제 1 양자화 벡터로부터 제 2 프레임에 대응하는 후보 양자화 벡터들로의 천이들과 연관된 바이어스 (bias) 값들을 결정하는 단계를 포함한다. 방법은, 바이어스 값들에 기초하여 후보 양자화 벡터들과 저대역 파라미터들의 제 2 세트 사이의 가중된 차이들을 결정하는 단계를 포함한다. 방법은, 가중된 차이들에 기초하여 제 2 프레임에 대응하는 제 2 양자화 벡터를 선택하는 단계를 더 포함한다.
다른 특정 실시형태에서, 방법은, 오디오 신호의 프레임에 대응하는 저대역 파라미터들의 세트를 수신하는 단계를 포함한다. 방법은, 저대역 파라미터들의 세트를 유성음 또는 무성음으로서 분류하는 단계를 더 포함한다. 방법은 또한 양자화 벡터를 선택하는 단계를 포함한다. 저대역 파라미터들의 세트가 유성음 저대역 파라미터들로서 분류될 때 양자화 벡터는 유성음 저대역 파라미터들과 연관된 복수의 제 1 양자화 벡터들에 대응한다. 저대역 파라미터들의 세트가 무성음 저대역 파라미터들로서 분류될 때 양자화 벡터는 무성음 저대역 파라미터들과 연관된 복수의 제 2 양자화 벡터들에 대응한다. 방법은, 선택된 양자화 벡터에 기초하여 고대역 파라미터들의 세트를 예측하는 단계를 포함한다.
다른 특정 실시형태에서, 방법은, 오디오 신호의 제 1 프레임에 대응하는 저대역 파라미터들의 제 1 세트를 수신하는 단계를 포함한다. 방법은, 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하는 단계를 더 포함한다. 제 2 프레임은 오디오 신호 내의 제 1 프레임에 후속한다. 방법은 또한, 저대역 파라미터들의 제 1 세트를 유성음 또는 무성음으로서 분류하고 저대역 파라미터들의 제 2 세트를 유성음 또는 무성음으로서 분류하는 단계를 포함한다. 방법은, 저대역 파라미터들의 제 1 세트의 분류, 저대역 파라미터들의 제 2 세트의 분류, 및 저대역 파라미터들의 제 2 세트에 대응하는 에너지 값에 적어도 부분적으로 기초하여, 이득 파라미터를 선택적으로 조정하는 단계를 포함한다.
다른 특정 실시형태에서, 방법은, 음성 보코더의 디코더에서, 저대역 파라미터들의 세트를 협대역 비트스트림의 부분으로서 수신하는 단계를 포함한다. 저대역 파라미터들의 세트는 음성 보코더의 인코더로부터 수신된다. 방법은 또한, 저대역 파라미터들의 세트에 기초하여 고대역 파라미터들의 세트를 예측하는 단계를 포함한다.
다른 특정 실시형태에서, 장치는, 음성 보코더, 및 동작들을 수행하기 위해 음성 보코더에 의해 실행가능한 명령들을 저장하는 메모리를 포함한다. 동작들은, 음성 보코더의 디코더에서, 저대역 파라미터들의 세트를 협대역 비트스트림의 부분으로서 수신하는 것을 포함한다. 저대역 파라미터들의 세트는 음성 보코더의 인코더로부터 수신된다. 동작들은 또한, 저대역 파라미터들의 세트에 기초하여 고대역 파라미터들의 세트를 예측하는 것을 포함한다.
다른 특정 실시형태에서, 비일시적 컴퓨터 판독가능 매체는, 음성 보코더에 의해 실행될 때, 음성 보코더로 하여금, 음성 보코더의 디코더에서, 저대역 파라미터들의 세트를 협대역 비트스트림의 부분으로서 수신하게 하는 명령들을 포함한다. 저대역 파라미터들의 세트는 음성 보코더의 인코더로부터 수신된다. 명령들은 또한, 음성 보코더로 하여금, 저대역 파라미터들의 세트에 기초하여 고대역 파라미터들의 세트를 예측하게 하도록 실행가능하다.
다른 특정 실시형태에서, 장치는, 저대역 파라미터들의 세트를 협대역 비트스트림의 부분으로서 수신하는 수단을 포함한다. 저대역 파라미터들의 세트는 음성 보코더의 인코더로부터 수신된다. 장치는 또한, 저대역 파라미터들의 세트에 기초하여 고대역 파라미터들의 세트를 예측하는 수단을 포함한다.
개시된 실시형태들 중 적어도 하나에 의해 제공된 특정 이점들은, 고대역 사이드 정보 (side information) 의 이용 없이 저대역 신호 파라미터들로부터 고대역 신호 파라미터들을 생성하여, 그에 의해 송신되는 데이터의 양을 감소시키는 것을 포함한다. 예를 들어, 오디오 신호의 고대역 부분에 대응하는 고대역 파라미터들은 오디오 신호의 저대역 부분에 대응하는 저대역 파라미터들에 기초하여 예측될 수도 있다. 소프트 벡터 양자화를 이용하면, 하드 벡터 양자화 (hard vector quantization) 를 이용하는 고대역 예측 시스템들에 비해 그리고 상태들 사이의 천이들로 인해 가청 효과들을 감소시킬 수도 있다. 예측된 상태 천이 정보를 이용하면, 예측된 상태 천이 정보를 이용하지 않는 고대역 예측 시스템들에 비해, 예측된 고대역 파라미터들의 정확도를 증가시킬 수도 있다. 본 개시물의 다른 양태들, 이점들 및 피처 (feature) 들은 다음 섹션들: 도면의 간단한 설명, 상세한 설명, 및 청구항들을 포함하는 전체 출원의 검토 후에 명백해질 것이다.
도 1 은 소프트 벡터 양자화를 이용하여 블라인드 대역폭 확장을 수행하도록 동작가능한 시스템의 특정 실시형태를 예시하기 위한 블록 다이어그램이다;
도 2 는 블라인드 대역폭 확장을 수행하는 방법의 특정 실시형태를 예시하기 위한 플로우차트이다;
도 3 은 소프트 벡터 양자화를 이용하여 블라인드 대역폭 확장을 수행하도록 동작가능한 시스템의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 4 는 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 5 는 도 3 의 소프트 벡터 양자화 모듈의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 6 은 소프트 벡터 양자화 방법들을 이용하여 예측된 고대역 파라미터들의 세트를 예시하기 위한 다이어그램이다;
도 7 은 소프트 벡터 양자화 방법들을 이용하여 예측된 고대역 이득 파라미터들을, 하드 벡터 양자화 방법들을 이용하여 예측된 고대역 이득 파라미터들과 비교하는 일련의 그래픽들이다;
도 8 은 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 9 는 도 3 의 확률 바이어스된 상태 천이 매트릭스의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 10 은 도 3 의 확률 바이어스된 상태 천이 매트릭스의 다른 특정 실시형태를 예시하기 위한 다이어그램이다;
도 11 은 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 12 는 도 3 의 유성음 무성음 예측 모델 스위칭 모듈의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 13 은 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 14 는 도 3 의 다단 (multistage) 고대역 에러 검출 모듈의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 15 는 다중-상태 고대역 에러 검출의 특정 실시형태를 예시하기 위한 플로우차트이다;
도 16 은 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 17 은 블라인드 대역폭 확장을 수행하도록 동작가능한 시스템의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 18 은 블라인드 대역폭 확장을 수행하는 방법의 특정 실시형태를 예시하기 위한 플로우차트이다; 그리고
도 19 는 도 1 내지 도 18 의 시스템들 및 방법들에 따라 블라인드 대역폭 확장 동작들을 수행하도록 동작가능한 무선 디바이스의 블록 다이어그램이다.
도 2 는 블라인드 대역폭 확장을 수행하는 방법의 특정 실시형태를 예시하기 위한 플로우차트이다;
도 3 은 소프트 벡터 양자화를 이용하여 블라인드 대역폭 확장을 수행하도록 동작가능한 시스템의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 4 는 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 5 는 도 3 의 소프트 벡터 양자화 모듈의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 6 은 소프트 벡터 양자화 방법들을 이용하여 예측된 고대역 파라미터들의 세트를 예시하기 위한 다이어그램이다;
도 7 은 소프트 벡터 양자화 방법들을 이용하여 예측된 고대역 이득 파라미터들을, 하드 벡터 양자화 방법들을 이용하여 예측된 고대역 이득 파라미터들과 비교하는 일련의 그래픽들이다;
도 8 은 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 9 는 도 3 의 확률 바이어스된 상태 천이 매트릭스의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 10 은 도 3 의 확률 바이어스된 상태 천이 매트릭스의 다른 특정 실시형태를 예시하기 위한 다이어그램이다;
도 11 은 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 12 는 도 3 의 유성음 무성음 예측 모델 스위칭 모듈의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 13 은 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 14 는 도 3 의 다단 (multistage) 고대역 에러 검출 모듈의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 15 는 다중-상태 고대역 에러 검출의 특정 실시형태를 예시하기 위한 플로우차트이다;
도 16 은 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트이다;
도 17 은 블라인드 대역폭 확장을 수행하도록 동작가능한 시스템의 특정 실시형태를 예시하기 위한 다이어그램이다;
도 18 은 블라인드 대역폭 확장을 수행하는 방법의 특정 실시형태를 예시하기 위한 플로우차트이다; 그리고
도 19 는 도 1 내지 도 18 의 시스템들 및 방법들에 따라 블라인드 대역폭 확장 동작들을 수행하도록 동작가능한 무선 디바이스의 블록 다이어그램이다.
도 1 을 참조하면, 소프트 벡터 양자화 (soft vector quantization) 를 이용하여 블라인드 대역폭 확장 (blind bandwidth extension) 을 수행하도록 동작가능한 시스템의 특정 실시형태가 서술되고 일반적으로 100 으로 지정된다. 시스템 (100) 은 협대역 디코더 (110), 고대역 파라미터 예측 모듈 (120), 고대역 모델 모듈 (130), 및 합성 필터 뱅크 모듈 (140) 을 포함한다. 고대역 파라미터 예측 모듈 (120) 은 협대역 신호로부터 추출된 저대역 파라미터들에 기초하여 고대역 파라미터들을 예측하도록 시스템 (100) 을 인에이블시킬 수도 있다. 특정 실시형태에서, 시스템 (100) 은 (예를 들어, 무선 전화기 또는 코더/디코더 (코덱 (CODEC)) 에서) 인코딩 시스템 또는 장치 내에 통합될 수도 있다.
후속 설명에서, 도 1 의 시스템 (100) 에 의해 수행되는 다양한 기능들은 소정 컴포넌트들 또는 모듈들에 의해 수행되는 것으로 설명된다. 그러나, 컴포넌트들 및 모듈들의 이러한 분할은 단지 예시를 위한 것이다. 대안적인 실시형태에서, 특정 컴포넌트 또는 모듈에 의해 수행되는 기능이 그 대신에 다수의 컴포넌트들 또는 모듈들 중에서 분할될 수도 있다. 더욱이, 대안적인 실시형태에서, 도 1 의 2 개 이상의 컴포넌트들 또는 모듈들이 단일 컴포넌트 또는 모듈로 통합될 수도 있다. 도 1 에 예시된 각각의 컴포넌트 또는 모듈은 하드웨어 (예를 들어, 주문형 집적 회로 (ASIC), 디지털 신호 프로세서 (DSP), 제어기, 필드-프로그램가능 게이트 어레이 (FPGA) 디바이스 등), 소프트웨어 (예를 들어, 프로세서에 의해 실행가능한 명령들), 또는 이들의 임의의 조합을 이용하여 구현될 수도 있다.
도 1 내지 도 16 의 개시된 시스템들 및 방법들이 오디오 신호의 송신물을 수신하는 것에 관하여 설명되지만, 시스템들 및 방법들은 또한 어떤 경우의 대역폭 확장에서도 구현될 수도 있다. 예를 들어, 개시된 시스템 및 방법들의 전부 또는 일부는 송신 디바이스에서 수행되거나 및/또는 송신 디바이스에 포함될 수도 있다. 예시하기 위해, 개시된 시스템들 및 방법들은 오디오 신호를 디코딩함에 있어서의 이용을 위한 "사이드 정보 (side information)" 를 생성하기 위해 오디오 신호의 인코딩 동안 적용될 수도 있다.
협대역 디코더 (110) 는 협대역 비트스트림 (102) (예를 들어, 적응적 멀티-레이트 (adaptive multi-rate; AMR) 비트스트림) 을 수신하도록 구성될 수도 있다. 협대역 디코더 (110) 는 협대역 비트스트림 (102) 에 대응하는 저대역 오디오 신호 (134) 를 복구하기 위해 협대역 비트스트림 (102) 을 디코딩하도록 구성될 수도 있다. 특정 실시형태에서, 저대역 오디오 신호 (134) 는 음성 (speech) 을 표현할 수도 있다. 일 예로서, 저대역 오디오 신호 (134) 의 주파수는 대략 0 헤르츠 (Hz) 로부터 대략 4 킬로헤르츠 (kHz) 까지의 범위에 있을 수도 있다. 협대역 디코더 (110) 는 또한, 협대역 비트스트림 (102) 에 기초하여 저대역 파라미터들 (104) 을 생성하도록 구성될 수도 있다. 저대역 파라미터들 (104) 은 선형 예측 계수들 (linear prediction coefficients; LPC), 선 스펙트럼 주파수들 (line spectral frequencies; LSF), 이득 형상 정보, 이득 프레임 정보, 및/또는 저대역 오디오 신호 (134) 를 설명하는 다른 정보를 포함할 수도 있다. 특정 실시형태에서, 저대역 파라미터들 (104) 은 협대역 비트스트림 (102) 에 대응하는 AMR 파라미터들을 포함한다. 협대역 디코더 (110) 는 또한, 저대역 잔차 (residual) 정보 (108) 를 생성하도록 구성될 수도 있다. 저대역 잔차 정보 (108) 는 저대역 오디오 신호 (134) 의 필터링된 부분에 대응할 수도 있다. 도 1 이 협대역 비트스트림을 수신한다는 관점에서 설명되지만, 다른 형태들의 협대역 신호들 (예를 들어, 협대역 연속 위상 변조 신호 (CPM)) 이 협대역 디코더 (110) 에 의해 이용되어 저대역 오디오 신호 (134), 저대역 파라미터들 (104), 및 저대역 잔차 정보 (108) 를 복구할 수도 있다.
고대역 파라미터 예측 모듈 (120) 은 협대역 디코더 (110) 로부터 저대역 파라미터들 (104) 을 수신하도록 구성될 수도 있다. 저대역 파라미터들 (104) 에 기초하여, 고대역 파라미터 예측 모듈 (120) 은 예측된 고대역 파라미터들 (106) 을 생성할 수도 있다. 고대역 파라미터 예측 모듈 (120) 은, 예컨대 도 3 내지 도 16 을 참조하여 설명되는 실시형태들 중 하나 이상에 따라, 소프트 벡터 양자화를 이용하여 예측된 고대역 파라미터들 (106) 을 생성할 수도 있다. 소프트 벡터 양자화를 이용하는 것에 의해, 다른 고대역 예측 방법들에 비해 고대역 파라미터들의 더 정확한 예측이 가능하게 될 수도 있다. 게다가, 소프트 벡터 양자화는 시간이 지남에 따라 고대역 파라미터들을 변화시키는 것 사이의 스무드한 천이 (smooth transition) 를 가능하게 한다.
고대역 모델 모듈 (130) 은 예측된 고대역 파라미터들 (106) 및 저대역 잔차 정보 (108) 를 이용하여 고대역 신호 (132) 를 생성할 수도 있다. 일 예로서, 고대역 신호 (132) 의 주파수는 대략 4 kHz 로부터 대략 8 kHz 까지의 범위에 있을 수도 있다. 합성 필터 뱅크 (140) 는 고대역 신호 (132) 및 저대역 신호 (134) 를 수신하여 광대역 출력 (136) 을 생성하도록 구성될 수도 있다. 광대역 출력 (136) 은 디코딩된 저대역 오디오 신호 (134) 및 예측된 고대역 오디오 신호 (132) 를 포함하는 광대역 음성 출력을 포함할 수도 있다. 예시적인 예로서, 광대역 출력 (136) 의 주파수는 대략 0 Hz 로부터 대략 8 kHz 까지의 범위에 있을 수도 있다. 광대역 출력 (136) 은 조합된 저대역 및 고대역 신호들을 재구성하기 위해 (예를 들어, 대략 16 kHz 에서) 샘플링될 수도 있다. 소프트 벡터 양자화를 이용하면, 부정확하게 예측된 고대역 파라미터들로 인한 광대역 출력 (136) 에서의 부정확도들을 감소시켜서 그에 의해 광대역 출력 (136) 에서의 가청 아티팩트 (audible artifact) 들을 감소시킬 수도 있다.
도 1 의 설명이 협대역 비트스트림으로부터 취출된 저대역 파라미터들에 기초하여 고대역 파라미터들을 예측하는 것에 관한 것이지만, 시스템 (100) 은 오디오 신호의 임의의 대역의 파라미터들을 예측하는 것에 의한 대역폭 확장을 위해 이용될 수도 있다. 예를 들어, 대안적인 실시형태에서, 고대역 파라미터 예측 모듈 (120) 은 본 명세서에서 설명되는 방법들을 이용하여 고대역 파라미터들에 기초하여 초고대역 (super high-band; SHB) 파라미터들을 예측하여, 대략 8 kHz 로부터 대략 16 kHz 까지의 범위에 있는 주파수를 갖는 초고대역 오디오 신호를 생성할 수도 있다.
도 2 를 참조하면, 블라인드 대역폭 확장을 수행하는 방법 (200) 의 특정 실시형태는, 202 에서, 오디오 신호에 대응하는 저대역 파라미터들을 포함하는 협대역 비트스트림과 같은 입력 신호를 수신하는 단계를 포함한다. 예를 들어, 협대역 디코더 (110) 는 협대역 비트스트림 (102) 을 수신할 수도 있다.
방법 (200) 은, 204 에서, 저대역 오디오 신호 (예를 들어, 도 1 의 저대역 신호 (134)) 를 생성하기 위해 협대역 비트스트림을 디코딩하는 단계를 더 포함할 수도 있다. 방법 (200) 은 또한, 206 에서, 소프트 벡터 양자화를 이용하여 저대역 파라미터들에 기초하여 고대역 파라미터들의 세트를 예측하는 단계를 포함한다. 예를 들어, 고대역 파라미터 예측 모듈 (120) 은 소프트 벡터 양자화를 이용하여 저대역 파라미터들 (104) 에 기초하여 고대역 파라미터들 (106) 을 예측할 수도 있다.
방법 (200) 은, 208 에서, 고대역 오디오 신호를 생성하기 위해 고대역 파라미터들을 고대역 모델에 적용하는 단계를 포함한다. 예를 들어, 고대역 파라미터들 (106) 은 협대역 디코더 (110) 로부터 수신된 저대역 잔차 (108) 와 함께 고대역 모델 (130) 에 적용될 수도 있다. 방법 (200) 은, 210 에서, 광대역 오디오 출력을 생성하기 위해 고대역 오디오 신호 및 저대역 오디오 신호를 (예를 들어, 도 1 의 합성 필터 뱅크 (140) 에서) 조합하는 단계를 더 포함한다.
방법 (200) 에 따라 소프트 벡터 양자화를 이용하면, 부정확하게 예측된 고대역 파라미터들로 인한 광대역 출력에서의 부정확도들을 감소시킬 수도 있어서 그에 따라 광대역 출력에서의 가청 아티팩트들을 감소시킬 수도 있다.
도 3 을 참조하면, 소프트 벡터 양자화를 이용하여 블라인드 대역폭 확장을 수행하도록 동작가능한 시스템의 특정 실시형태가 서술되고 일반적으로 300 으로 지정된다. 시스템 (300) 은 고대역 파라미터 예측 모듈 (310) 을 포함하고 고대역 파라미터들 (308) 을 생성하도록 구성된다. 고대역 파라미터 예측 모듈 (310) 은 도 1 의 고대역 파라미터 예측 모듈 (120) 에 대응할 수도 있다. 시스템 (300) 은 비선형 도메인 고대역 파라미터들 (306) 을 생성하도록 구성될 수도 있고 비선형-선형 컨버전 모듈 (non-linear to linear conversion module; 320) 을 포함할 수도 있다. 비선형 도메인에서 생성된 고대역 파라미터들은 인간 청각 시스템 응답에 더 가깝게 따르고, 그에 의해 더 정확한 광대역 보이스 신호를 생성할 수도 있고, 비선형 도메인 고대역 파라미터들로부터, 상대적으로 적은 연산 복잡도를 갖는 선형 도메인 고대역 파라미터들로 변환될 수도 있다. 고대역 파라미터 예측 모듈 (310) 은 저대역 오디오 신호에 대응하는 저대역 파라미터들 (302) 을 수신하도록 구성될 수도 있다. 저대역 오디오 신호는 프레임들로 증분하여 분할될 수도 있다. 예를 들어, 저대역 파라미터들은 오디오 신호의 프레임 (304) 에 대응하는 파라미터들의 세트를 포함할 수도 있다. 오디오 신호의 프레임 (304) 에 대응하는 저대역 파라미터들의 세트는 AMR 파라미터들 (예를 들어, LPC들, LSF들, 이득 형상 파라미터들, 이득 프레임 파라미터들 등) 을 포함할 수도 있다. 고대역 파라미터 예측 모듈 (310) 은 또한, 저대역 파라미터들 (302) 에 기초하여 예측된 비선형 도메인 고대역 파라미터들 (306) 을 생성하도록 구성될 수도 있다. 특정 비제한 실시형태에서, 시스템 (300) 은 고대역 n-제곱근 도메인 (예를 들어, 세제곱근 도메인, 4제곱근 도메인 등) 고대역 파라미터들을 생성하도록 구성될 수도 있고, 비선형-선형 컨버전 모듈 (320) 은 n-제곱근 도메인 파라미터들을 선형 도메인으로 컨버팅하도록 구성될 수도 있다.
고대역 파라미터 예측 모듈 (310) 은 소프트 벡터 양자화 모듈 (312), 확률 바이어스된 (biased) 상태 천이 매트릭스 (314), 유성음/무성음 예측 모델 스위치 모듈 (316), 및/또는 다단 (multi-stage) 고대역 에러 검출 모듈 (318) 을 포함할 수도 있다.
소프트 벡터 양자화 모듈 (312) 은 수신된 저대역 파라미터들의 세트에 대해 매칭하는 저대역 대 고대역 양자화 벡터들의 세트를 결정하도록 구성될 수도 있다. 예를 들어, 프레임 (304) 에 대응하는 저대역 파라미터들의 세트는 소프트 벡터 양자화 모듈 (312) 에서 수신될 수도 있다. 소프트 벡터 양자화 모듈은, 도 5 를 참조하여 더욱 상세히 설명되는 것과 같은, 저대역 파라미터들의 세트와 최상으로 매칭하는 다수의 양자화 벡터들을 벡터 양자화 테이블 (예를 들어, 코드북) 로부터 선택할 수도 있다. 벡터 양자화 테이블은 트레이닝 데이터에 기초하여 생성될 수도 있다. 소프트 벡터 양자화 모듈은 다수의 양자화 벡터들에 기초하여 고대역 파라미터들의 세트를 예측할 수도 있다. 예를 들어, 다수의 양자화 벡터들은 양자화된 저대역 파라미터들의 세트들을 양자화된 고대역 파라미터들의 세트들에 맵핑시킬 수도 있다. 양자화된 고대역 파라미터들의 세트들로부터 고대역 파라미터들의 세트를 결정하기 위해 가중된 합 (weighted sum) 이 구현될 수도 있다. 도 3 의 실시형태에서, 고대역 파라미터들의 세트는 비선형 도메인 내에서 결정된다.
저대역 파라미터들의 세트와 최상으로 매칭하는 벡터들을 벡터 양자화 테이블로부터 선택함에 있어서, 각 양자화 벡터의 양자화된 저대역 파라미터들과 저대역 파라미터들의 세트 사이의 차이들이 계산될 수도 있다. 계산된 차이들은 저대역 파라미터들의 상태 (예를 들어, 가장 가깝게 매칭하는 양자화된 세트) 의 결정에 기초하여, 스케일링되거나, 또는 가중될 수도 있다. 확률 바이어스된 상태 천이 매트릭스 (314) 는 계산된 차이들을 가중시키기 위해 복수의 가중치들을 결정하는데 이용될 수도 있다. 양자화된 저대역 파라미터들의 현재 세트로부터 (예를 들어, 오디오 신호의 다음에 수신된 프레임에 대응하는) 벡터 양자화 테이블의 양자화된 저대역 파라미터들의 다음 세트로의 천이의 확률들에 대응하는 바이어스 값들에 기초하여 복수의 가중치들이 계산될 수도 있다. 소프트 벡터 양자화 모듈 (312) 에 의해 선택된 다수의 양자화 벡터들은 가중된 차이들에 기초하여 선택될 수도 있다. 리소스들을 절약하기 위해, 확률 바이어스된 상태 천이 매트릭스 (314) 가 압축될 수도 있다. 도 3 에서 이용될 수도 있는 확률 바이어스된 상태 천이 매트릭스들의 예들이 도 9 및 도 10 을 참조하여 추가로 설명된다.
유성음/무성음 예측 모델 스위치 모듈 (316) 은, 도 12 를 참조하여 추가로 설명되는 바와 같이, 수신된 저대역 파라미터들의 세트가 유성음 오디오 신호에 대응할 때에는 소프트 벡터 양자화 모듈 (312) 에 의한 이용을 위해 제 1 코드북을 제공할 수도 있고, 수신된 저대역 파라미터들의 세트가 무성음 오디오 신호에 대응할 때에는 제 2 코드북을 제공할 수도 있다.
다단 고대역 에러 검출 모듈 (318) 은 소프트 벡터 양자화 모듈 (312), 확률 바이어스된 상태 천이 매트릭스 (314), 및 유성음/무성음 예측 모델 스위치 (316) 에 의해 생성된 비선형 도메인 고대역 파라미터들을 분석하여, 고대역 파라미터 (예를 들어, 이득 프레임 파라미터) 가 (예를 들어, 이전 프레임의 에너지 값보다 불균형적으로 더 높은 에너지 값에 대응하여) 불안정할 수도 있는지 및/또는 생성된 광대역 오디오 신호에서 현저한 아티팩트들을 초래할 수도 있는지 여부를 결정할 수도 있다. 고대역 예측 에러가 발생하였다는 결정에 응답하여, 다단 고대역 에러 검출 모듈 (318) 은 비선형 도메인 고대역 파라미터들을 감쇠시키거나 또는 그렇지 않으면 정정할 수도 있다. 다단 고대역 에러 검출의 예들이 도 14 및 도 15 를 참조하여 추가로 설명된다.
비선형 도메인 고대역 파라미터들 (306) 의 세트가 고대역 파라미터 예측 모듈 (310) 에 의해 생성된 후에, 비선형-선형 컨버전 모듈 (320) 은 비선형 도메인 고대역 파라미터들을 선형 도메인으로 컨버팅하여, 그에 의해 고대역 파라미터들 (308) 을 생성할 수도 있다. 선형 도메인 또는 로그 도메인과는 대조적으로, 비선형 도메인에서 고대역 파라미터 예측을 수행하는 것은, 고대역 파라미터들이 인간 청각 응답을 더 가깝게 모델링하는 것을 가능하게 할 수도 있다. 게다가, 특정 상태 (예를 들어, 양자화 벡터) 와 분명히 매칭하지 않는 소프트 벡터 양자화 모듈 (312) 의 가중된 합 출력을 비선형 도메인 모델이 감쇠시키도록, 비선형 도메인 모델이 오목부 (concavity) 를 갖도록 선택될 수도 있다. 오목부의 예는 다음 속성을 만족시키는 함수들을 포함할 수도 있다:
오목 함수들의 예들로는 로그 타입 함수들, n-제곱근 함수들, 하나 이상의 다른 오목 함수들, 또는 하나 이상의 오목 컴포넌트들을 포함하고 비-오목 컴포넌트를 더 포함할 수도 있는 표현들을 포함할 수도 있다. 예를 들어, 소프트 벡터 양자화 모듈 (312) 내의 2 개의 양자화 벡터들로부터 등거리에 있는 저대역 파라미터들의 세트는, 저대역 파라미터들의 세트가 양자화 벡터들 중 어느 한쪽과 동일한 경우보다 더 적은 에너지 값을 갖는 고대역 파라미터들을 발생시킨다. 저대역 파라미터들과 양자화된 저대역 파라미터들 사이의 덜 정확한 매치들의 감쇠는, 보다 적은 확실성으로 예측되는 고대역 파라미터들이 보다 적은 에너지를 가질 수 있게 하여, 그에 의해 잘못된 고대역 파라미터들이 출력 광대역 오디오 신호 내에서 가청가능하게 되는 것으로부터의 기회를 감소시킨다.
도 3 이 소프트 벡터 양자화 모듈 (312) 을 예시하지만, 다른 실시형태들은 소프트 벡터 양자화 모듈 (312) 을 포함하지 않을 수도 있다. 도 3 이 확률 바이어스된 상태 천이 매트릭스 (314) 를 예시하지만, 다른 실시형태들은 확률 바이어스된 상태 천이 매트릭스 (314) 를 포함하지 않을 수도 있고 그 대신에 상태들 사이의 천이 확률들과는 독립적으로 상태들을 선택할 수도 있다. 도 3 이 유성음 무성음 예측 모델 스위치 모듈 (316) 을 예시하지만, 다른 실시형태들은 유성음/무성음 예측 모델 스위치 모듈 (316) 을 포함하지 않을 수도 있고 그 대신에 유성음 및 무성음 분류들에 기초하여 구별되지 않는 코드북들의 조합 또는 단일 코드북을 이용할 수도 있다. 도 3 이 다단 고대역 에러 검출 모듈 (318) 을 예시하지만, 다른 실시형태들은 다단 고대역 에러 검출 모듈 (318) 을 포함하지 않을 수도 있고 그 대신에 일단 (single stage) 에러 검출을 포함할 수도 있거나 또는 에러 검출을 생략할 수도 있다.
도 4 를 참조하면, 블라인드 대역폭 확장을 수행하는 방법 (400) 의 특정 실시형태는, 402 에서, 오디오 신호의 프레임에 대응하는 저대역 파라미터들의 세트를 수신하는 단계를 포함한다. 예를 들어, 고대역 파라미터 예측 모듈 (310) 은 저대역 파라미터들 (304) 의 세트를 수신할 수도 있다.
방법 (400) 은, 404 에서, 저대역 파라미터들의 세트에 기초하여 비선형 도메인 고대역 파라미터들의 세트를 예측하는 단계를 더 포함한다. 예를 들어, 고대역 파라미터 예측 모듈 (310) 은 비선형 도메인에서 소프트 벡터 양자화를 이용하여 비선형 도메인 고대역 파라미터들을 생성할 수도 있다.
방법 (400) 은 또한, 406 에서, 선형 도메인 고대역 파라미터들의 세트를 획득하기 위해 비선형 도메인 고대역 파라미터들의 세트를 비선형 도메인으로부터 선형 도메인으로 컨버팅하는 단계를 포함한다. 예를 들어, 비선형-선형 컨버전 모듈 (320) 은 비선형 고대역 파라미터들을 선형 도메인 고대역 파라미터들로 컨버팅하기 위한 곱셈 연산을 수행할 수도 있다. 예시하기 위해, 값 A 에 적용된 세제곱 연산은 A3 으로서 표시될 수도 있고 A*A*A 에 대응할 수도 있다. 이 예에서, A 는 A3 의 세제곱근 (예를 들어, 3-제곱근) 도메인 값이다.
비선형 도메인에서 고대역 파라미터 예측을 수행하는 것은 인간 청각 시스템과 더 가깝게 매칭시킬 수도 있고, 잘못된 고대역 파라미터들이 출력 광대역 오디오 신호 내에서 가청 아티팩트들을 발생시킬 가능성을 감소시킬 수도 있다.
도 5 를 참조하면, 도 3 의 소프트 벡터 양자화 모듈 (312) 과 같은 소프트 벡터 양자화 모듈의 특정 실시형태가 서술되고 일반적으로 500 으로 지정된다. 소프트 벡터 양자화 모듈 (500) 은 벡터 양자화 테이블 (520) 을 포함할 수도 있다. 소프트 벡터 양자화는 벡터 양자화 테이블 (520) 로부터 다수의 양자화 벡터들을 선택하는 것, 및 하나의 양자화 벡터를 선택하는 것을 포함하는 하드 벡터 양자화 (hard vector quantization) 와는 대조적으로, 선택된 다수의 양자화 벡터들에 기초하여 가중된 합 출력을 생성하는 것을 포함할 수도 있다. 소프트 벡터 양자화의 가중된 합 출력은 하드 벡터 양자화의 양자화된 출력보다 더 정확할 수도 있다.
예시하기 위해, 벡터 양자화 테이블 (520) 은 양자화된 저대역 파라미터들 "X" (예를 들어, 저대역 파라미터들 X0 내지 Xn 의 세트들의 어레이) 를 고대역 파라미터들 "Y" (예를 들어, 고대역 파라미터들 Y0 내지 Yn 의 세트들의 어레이) 에 맵핑시키는 코드북을 포함할 수도 있다. 일 실시형태에서, 저대역 파라미터들은 오디오 신호의 프레임에 대응하는 10 개의 저대역 LSF들을 포함할 수도 있고, 고대역 파라미터들은 오디오 신호의 프레임에 대응하는 6 개의 고대역 LSF들을 포함할 수도 있다.
벡터 양자화 테이블 (520) 은 트레이닝 데이터에 기초하여 생성될 수도 있다. 예를 들어, 광대역 음성 샘플들을 포함하는 데이터베이스는 저대역 LSF들 및 대응하는 고대역 LSF들을 추출하기 위해 프로세싱될 수도 있다. 광대역 음성 샘플들로부터, 유사한 저대역 LSF들 및 대응하는 고대역 LSF들은 다수의 상태들 (예를 들어, 64 개의 상태들, 256 개의 상태들 등) 로 분류될 수도 있다. 각각의 상태에서 저대역 파라미터들의 분포에 대응하는 중심 (centroid) (또는 평균 또는 다른 측정) 은 저대역 파라미터들 X 의 어레이 내의 양자화된 저대역 파라미터들 X0 내지 Xn 에 대응할 수도 있고 각각의 상태에서 고대역 파라미터들의 분포에 대응하는 중심들은 고대역 파라미터들 Y 의 어레이 내의 양자화된 고대역 파라미터들 Y0 내지 Yn 에 대응할 수도 있다. 양자화된 저대역 파라미터들의 각각의 세트는 고대역 파라미터들의 대응하는 세트에 맵핑되어 양자화 벡터 (예를 들어, 벡터 양자화 테이블 (520) 의 로우 (row)) 를 형성할 수도 있다.
소프트 벡터 양자화에서, 저대역 오디오 신호에 대응하는 저대역 파라미터들 (502) 은 소프트 벡터 양자화 모듈 (예를 들어, 도 3 의 소프트 벡터 양자화 모듈 (312)) 에 의해 수신될 수도 있다. 저대역 오디오 신호는 복수의 프레임들로 분할될 수도 있다. 저대역 파라미터들의 세트 (504) 는 협대역 오디오 신호의 프레임에 대응할 수도 있다. 예를 들어, 저대역 파라미터들의 세트는 저대역 오디오 신호의 프레임으로부터 추출된 LSF들의 세트 (예를 들어, 10 개) 를 포함할 수도 있다. 저대역 파라미터들의 세트는 벡터 양자화 테이블 (520) 의 양자화된 저대역 파라미터들 X0 내지 Xn 에 비교될 수도 있다. 예를 들어, 저대역 파라미터들의 세트와 양자화된 저대역 파라미터들 X0 내지 Xn 사이의 거리는 다음 식에 따라 결정될 수도 있다:
여기서 는 저대역 파라미터들의 세트와 양자화된 저대역 파라미터들의 i 번째 세트 사이의 거리이고, 는 저대역 파라미터들의 세트의 각각의 저대역 파라미터와 연관된 가중치이고, 는 저대역 파라미터들의 세트의 인덱스 j 를 갖는 저대역 파라미터이며, 는 양자화된 저대역 파라미터들의 i 번째 세트의 인덱스 j 를 갖는 양자화된 저대역 파라미터이다.
다수의 양자화된 저대역 파라미터들 (510) 은 저대역 파라미터들의 세트 (504) 와 양자화된 저대역 파라미터들 사이의 거리에 기초하여 저대역 파라미터들의 세트 (504) 와 매칭될 수도 있다. 예를 들어, 가장 가까운 양자화된 저대역 파라미터들 (예를 들어, xi 는 가장 작은 를 발생시킴) 이 선택될 수도 있다. 일 실시형태에서, 3 개의 양자화된 저대역 파라미터들이 선택될 수도 있다. 다른 실시형태들에서, 다수의 양자화된 저대역 파라미터들 (510) 중 임의의 수의 양자화된 저대역 파라미터가 선택될 수도 있다. 게다가, 다수의 양자화된 저대역 파라미터들 (510) 의 수는 프레임 간에서 적응적으로 변화할 수도 있다. 예를 들어, 양자화된 저대역 파라미터들 (510) 의 제 1 수는 오디오 신호의 제 1 프레임에 대해 선택될 수도 있고 더 많거나 더 적은 양자화된 저대역 파라미터들을 포함하는 제 2 수는 오디오 신호의 제 2 프레임에 대해 선택될 수도 있다.
선택된 다수의 양자화된 저대역 파라미터들 (510) 에 기초하여, 다수의 대응하는 양자화된 고대역 파라미터들 (530) 이 결정될 수도 있다. 다수의 양자화된 고대역 파라미터들 (530) 에 대해 가중된 합과 같은 조합 (combination) 이 수행되어, 예측된 고대역 파라미터들의 세트 (508) 를 획득할 수도 있다. 예를 들어, 예측된 고대역 파라미터들의 세트 (508) 는 저대역 오디오 신호의 프레임에 대응하는 6 개의 고대역 LSF들을 포함할 수도 있다. 저대역 오디오 신호에 대응하는 고대역 파라미터들 (506) 은 예측된 고대역 파라미터들의 다수의 세트들에 기초하여 생성될 수도 있고, 오디오 신호의 다수의 순차적 프레임들에 대응할 수도 있다.
다수의 고대역 파라미터들 (530) 은 가중된 합으로서 조합될 수도 있고, 여기서 각각의 선택된 양자화된 고대역 파라미터는, 대응하는 양자화된 저대역 파라미터와 수신된 저대역 파라미터 사이의 역 거리 에 기초하여 가중될 수도 있다. 예시하기 위해, 도 5 에 예시된 바와 같이, 3 개의 양자화된 고대역 파라미터들이 선택될 때, 선택된 양자화된 고대역 파라미터들 (530) 각각은 다음 값에 따라 가중될 수도 있다:
여기서 은 가중될 양자화된 고대역 파라미터들에 대응하는 저대역 파라미터들의 제 1, 제 2, 또는 제 3 의 선택된 양자화된 세트와 저대역 파라미터들의 세트 사이의 역 거리이고, 은 양자화된 고대역 파라미터들 각각에 대응하는 저대역 파라미터들의 선택된 양자화된 세트들 각각과 저대역 파라미터들의 세트 사이의 역 거리들 각각의 합에 대응한다. 이에 따라, 출력된 고대역 파라미터들의 세트 (508) 는 다음 식에 의해 표현될 수도 있다:
여기서 , , 및 은 선택된 다수의 양자화된 고대역 파라미터들이다. 양자화된 고대역 파라미터들의 예측된 세트를 결정하기 위해 다수의 양자화된 고대역 파라미터들을 가중시키는 것에 의해, 저대역 파라미터들의 세트 (504) 에 대응하는 더 정확한 출력된 고대역 파라미터들의 세트 (508) 가 예측될 수도 있다. 게다가, 저대역 파라미터들 (502) 이 다수의 프레임들 동안 점진적으로 변화함에 따라, 예측된 고대역 파라미터들 (506) 도 또한, 도 6 및 도 7 을 참조하여 설명되는 바와 같이, 점진적으로 변화할 수도 있다.
도 6 을 참조하면, 도 5 를 참조하여 설명된 것과 같은 소프트 벡터 양자화 방법들을 이용하여 양자화 벡터들과 저대역 파라미터들의 입력 세트 사이의 관계를 도시한 그래프가 서술되고 일반적으로 600 으로 지정된다. 예시의 용이를 위해, 그래프 (600) 는 보다 높은 차원 (예를 들어, 저대역 SLF 계수들을 위한 10 차원들) 의 그래프보다는 오히려 (예를 들어, 2 개의 저대역 LSF들에 대응하는) 2 차원 그래프로서 예시된다. 그래프 (600) 의 영역은 소프트 벡터 양자화 모듈에 입력되고 소프트 벡터 양자화 모듈로부터 출력되는 저대역 파라미터들의 잠재적 세트들에 대응한다. 저대역 파라미터들의 잠재적 세트들은 그래프 (600) 의 구역들로서 예시된 (예를 들어, 벡터 양자화 테이블의 트레이닝 및 생성 동안의) 다수의 상태들로 분류될 수도 있고, 저대역 파라미터들의 각각의 세트 (예를 들어, 그래프 (600) 상의 각각의 포인트) 가 특정 구역과 연관된다. 그래프 (600) 의 구역들은 도 5 의 벡터 양자화 테이블 (520) 에서 저대역 파라미터들의 어레이의 로우들에 대응할 수도 있다. 그래프 (600) 의 각각의 구역은 (예를 들어, 구역의 중심에 대응하는) 저대역 파라미터들의 세트를 고대역 파라미터들의 세트에 맵핑시키는 벡터에 대응할 수도 있다. 예를 들어, 제 1 구역은 벡터 (X1, Y1) 에 맵핑될 수도 있고, 제 2 구역은 벡터 (X2, Y2) 에 맵핑될 수도 있으며, 제 3 구역은 벡터 (X3, Y3) 에 맵핑될 수도 있다. 값들 X1, X2, 및 X3 은 대응하는 구역들의 중심들에 대응할 수도 있다. 각각의 부가적인 구역은 부가적인 벡터들에 맵핑될 수도 있다. 벡터들 (X1, Y1), (X2, Y2), (X3, Y3) 은 도 5 의 벡터 양자화 테이블 (520) 에서의 벡터들에 대응할 수도 있다.
소프트 벡터 양자화에서, 입력 저대역 파라미터를 포함하는 세그먼트에 대응하는 하나의 벡터 (예를 들어, 벡터들 (X1, Y1)) 에 기초하여 입력 저대역 파라미터를 모델링하는 하드 벡터 양자화와는 대조적으로, 입력 저대역 파라미터 X 는 입력 저대역 파라미터 X 와 벡터들 (X1, Y1), (X2, Y2), (X3, Y3) 사이의 거리들 (예를 들어, d1, d2, 및 d3) 에 기초하여 모델링될 수도 있다. 예시하기 위해, 소프트 벡터 양자화에서, 모델링된 입력 X 는 다음 식에 의해 개념적으로 결정될 수도 있다:
여기서 X 는 모델링될 입력 저대역 파라미터이고, Y1, Y2, 및 Y3 은 (예를 들어, 도 5 의 양자화된 고대역 파라미터들 Y0 내지 Yn 의 어레이에 대응하는) 각각의 상태의 중심들이고, d1, d2, 및 d3 은 입력 저대역 파라미터 X 와 각각의 중심 Y1, Y2, 및 Y3 사이의 거리들이다. 입력 파라미터들의 스케일링이 정규화 팩터를 포함하는 것에 의해 방지될 수도 있다는 것이 이해되어야 한다. 예를 들어, 각각의 계수 (예를 들어, ) 는 도 5 를 참조하여 설명된 바와 같이 정규화될 수도 있다. 도 6 에 도시된 바와 같이, X 는 하드 벡터 양자화를 이용하는 것에 의한 것보다는 소프트 벡터 양자화를 이용하는 것에 의해 더 정확히 표현될 수도 있다. 더 나아가, X 의 소프트 벡터 양자화 표현에 기초하여 예측된 고대역 파라미터들의 세트는 또한, 하드 벡터 양자화에 기초하여 예측된 고대역 파라미터들의 세트들보다 더 정확할 수도 있다.
오디오 신호와 연관된 프레임들의 스트림이 고대역 예측 모듈에 의해 수신됨에 따라, 각각의 프레임과 연관된 저대역 파라미터들 및 대응하는 예측된 고대역 파라미터들의 증가된 정확도는 프레임 간의 예측된 고대역 파라미터들의 스무드한 천이를 발생시킬 수도 있다. 도 7 은 (예를 들어, 라인들 704, 724, 734, 및 744 에 의해 표현된) 소프트 벡터 양자화 방법들을 이용하여 예측된 고대역 이득 파라미터들 (수직 축) 을, (라인들 702, 722, 732, 및 742 에 의해 표현된) 하드 벡터 양자화 방법들을 이용하여 예측된 고대역 이득 파라미터들과 비교하는 일련의 그래프들 (700, 720, 730, 및 740) 을 도시한다. 도 7 에 서술된 바와 같이, 소프트 벡터 양자화를 이용하여 예측된 고대역 이득 파라미터들은 프레임들 (수평 축) 사이에서 훨씬 더 스무드한 천이들을 포함한다.
도 8 을 참조하면, 블라인드 대역폭 확장을 수행하는 방법 (800) 의 특정 실시형태는, 802 에서, 오디오 신호의 프레임에 대응하는 저대역 파라미터들의 세트를 수신하는 단계를 포함할 수도 있다. 방법 (800) 은, 804 에서, 저대역 파라미터들의 세트에 기초하여, 복수의 양자화 벡터들로부터 제 1 양자화 벡터를 그리고 복수의 양자화 벡터들로부터 제 2 양자화 벡터를 선택하는 단계를 더 포함할 수도 있다. 제 1 양자화 벡터는 고대역 파라미터들의 제 1 세트와 연관될 수도 있고 제 2 양자화 벡터는 고대역 파라미터들의 제 2 세트와 연관될 수도 있다. 예를 들어, 제 1 양자화 벡터는 도 5 의 양자화 벡터 테이블 (520) 의 Y1 에 대응할 수도 있고 제 2 양자화 벡터는 양자화 벡터 테이블 (520) 의 Y2 에 대응할 수도 있다. 특정 실시형태는 제 3 양자화 벡터 (예를 들어, Y3) 를 선택하는 것을 포함할 수도 있다. 다른 실시형태들은 더 많은 양자화 벡터들을 선택하는 것을 포함할 수도 있다.
방법 (800) 은 또한, 806 에서, 제 1 양자화 벡터에 대응하고 제 1 차이에 기초하는 제 1 가중치를 결정하고, 제 2 양자화 벡터에 대응하고 제 2 차이에 기초하는 제 2 가중치를 결정하는 단계를 포함할 수도 있다. 방법 (800) 은, 808 에서, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트의 가중된 조합에 기초하여 고대역 파라미터들의 세트를 예측하는 단계를 포함할 수도 있다. 예를 들어, 도 5 의 고대역 파라미터들 (506) 은 선택된 양자화 벡터들 Y1, Y2, 및 Y3 의 가중된 합을 이용하여 예측될 수도 있다.
방법 (800) 에서처럼 다수의 양자화 벡터들 (예를 들어, 소프트 벡터 양자화) 에 기초하여 예측된 고대역 파라미터들의 세트는 하드 벡터 양자화에 기초한 예측보다 더 정확할 수도 있고, 오디오 신호의 상이한 프레임들 사이의 고대역 파라미터들의 더 스무드한 천이들을 유발할 수도 있다.
도 9 를 참조하면, 확률 바이어스된 상태 천이 매트릭스를 갖는 소프트 벡터 양자화를 이용하여 블라인드 대역폭 확장을 수행하도록 동작가능한 시스템의 특정 실시형태가 서술되고 일반적으로 900 으로 지정된다. 시스템 (900) 은 벡터 양자화 테이블 (920), 천이 확률 매트릭스 (930), 및 변환 모듈 (940) 을 포함한다. 천이 확률 매트릭스 (930) 는 선행하는 프레임들에 대응하는 선택된 양자화 벡터들에 기초하여 벡터 양자화 테이블 (920) 로부터의 양자화 벡터들의 선택을 바이어스하는데 이용될 수도 있다. 바이어스된 선택들은 양자화 벡터들의 더 정확한 선택을 가능하게 할 수도 있다.
벡터 양자화 테이블 (920) 은 도 5 의 벡터 양자화 테이블 (520) 에 대응할 수도 있다. 예를 들어, 벡터 양자화 테이블 (920) 의 양자화 벡터들 V0 내지 Vn 은 도 5 의 양자화된 고대역 파라미터들 Y0 내지 Yn 에의 양자화된 저대역 파라미터들 X0 내지 Xn 의 맵핑들에 대응할 수도 있다. 시스템 (900) 은 저대역 오디오 신호에 대응하는 저대역 파라미터들 (902) 의 스트림을 수신하도록 구성될 수도 있다. 저대역 파라미터들 (902) 의 스트림은 저대역 파라미터들의 제 1 세트에 대응하는 제 1 프레임 (904) 및 저대역 파라미터들의 제 2 세트에 대응하는 제 2 프레임 (906) 을 포함할 수도 있다. 시스템 (900) 은 도 5 내지 도 8 을 참조하여 설명된 바와 같이 저대역 파라미터들 (902) 의 스트림과 연관된 고대역 파라미터들 (914) 을 결정하기 위해 벡터 양자화 테이블 (920) 을 이용할 수도 있다.
천이 확률 매트릭스 (930) 는 다수의 로우들 및 다수의 컬럼 (column) 들로 조직화된 다수의 엔트리들을 포함할 수도 있다. 천이 확률 매트릭스 (930) 의 각각의 로우 (예를 들어, 로우들 1 내지 N) 는 저대역 파라미터들의 제 1 세트 (904) 와 매칭될 수도 있는 벡터 양자화 테이블 (920) 의 벡터에 대응할 수도 있다. 천이 확률 매트릭스의 각각의 컬럼 (예를 들어, 컬럼들 1 내지 N) 은 저대역 파라미터들의 제 2 세트 (906) 와 매칭될 수도 있는 벡터 양자화 테이블 (920) 의 벡터에 대응할 수도 있다. 천이 확률 매트릭스 (930) 의 엔트리는 저대역 파라미터들의 제 1 세트 (904) 가 (엔트리의 로우에 의해 나타낸) 벡터와 매칭된다고 주어진다면 저대역 파라미터들의 제 2 세트 (906) 가 (엔트리의 컬럼에 의해 나타낸) 벡터와 매칭될 확률에 대응할 수도 있다. 다시 말해, 천이 확률 매트릭스는 오디오 신호의 프레임들 (902) 사이의 벡터 양자화 테이블 (920) 의 각 벡터 간에서 천이할 확률을 나타낼 수도 있다.
예시하기 위해, 양자화 벡터들 V0 내지 Vn 과 저대역 파라미터들의 제 1 세트 (904) 사이의 (di(X, Vi) 로서 도 9 에 표현된) 거리들 (916) 은, 도 5 를 참조하여 설명된 바와 같이, 다수의 매칭하는 양자화 벡터들 V1, V2, 및 V3 을 선택하는데 이용될 수도 있다. 적어도 하나의 매칭된 벡터 (908) (예를 들어, V2) 는 천이 확률 매트릭스 (930) 의 로우 (예를 들어, b) 를 결정하는데 이용될 수도 있다. 결정된 로우에 기초하여, 천이 확률들 (910) 의 세트가 생성될 수도 있다. 천이 확률들의 세트는, 저대역 파라미터들의 제 2 세트 (906) 가 각각의 양자화 벡터와 매칭할 확률들 (예를 들어, 각각의 양자화 벡터에 대응함) 을 나타낼 수도 있다.
천이 확률 매트릭스 (930) 는 트레이닝 데이터에 기초하여 생성될 수도 있다. 예를 들어, 오디오 신호의 일련의 프레임들에 대응하는 저대역 LSF들의 다수의 세트들을 추출하기 위해 광대역 음성 샘플들을 포함하는 데이터베이스가 프로세싱될 수도 있다. 벡터 양자화 테이블 (920) 의 특정 벡터에 대응하는 저대역 LSF들의 다수의 세트들에 기초하여, 후속 프레임이 각각의 부가적인 벡터에 대응할 확률이, 후속 프레임이 동일한 벡터에 대응할 확률과 함께 결정될 수도 있다. 각각의 벡터와 연관된 확률에 기초하여, 천이 확률 매트릭스 (930) 가 구성될 수도 있다.
매칭된 벡터 (908) 에 대응하는 천이 확률들 (910) 이 결정된 후에, 변환 모듈 (940) 은 확률들을 바이어스 값들로 변환할 수도 있다. 예를 들어, 특정 실시형태에서, 확률들은 다음 식에 따라 변환될 수도 있다:
여기서 D 는 벡터 양자화 테이블 (920) 의 벡터들 V0 내지 Vn 각각과 제 1 프레임에 대응하는 저대역 값들의 제 1 세트 (904) 사이의 거리 (916) 를 바이어스하기 위한 바이어스 값이고, Pi,j 는 제 1 프레임 동안 벡터 Vi 에 대응하는 저대역 파라미터들의 제 1 세트가 제 2 프레임 동안 벡터 Vj 에 대응하는 저대역 파라미터들의 제 2 세트로 천이할 확률 (예를 들어, 천이 확률 매트릭스 (930) 의 i 번째 로우, j 번째 컬럼에서의 값) 이다.
도 3 의 소프트 벡터 양자화 모듈 (312) 과 같은 소프트 벡터 양자화 모듈은, 각각의 벡터 V1 내지 Vn 과 저대역 파라미터들의 제 2 세트 사이의 바이어스된 거리들에 기초하여 저대역 파라미터들의 제 2 세트 (906) 에 대응하는 다수의 벡터들 (V1, V2, 및 V3) 을 선택하는데 이용될 수도 있다. 예를 들어, 거리들 (916) 의 각각의 거리는 바이어스 값들 (912) 중 대응하는 바이어스 값으로 곱해질 수도 있다. 바이어스된 거리들에 기초하여, 매칭하는 벡터들 V1, V2, 및 V3 이 선택될 수도 있다 (예를 들어, 3 개의 가장 가까운 매치들). 매칭하는 벡터들 V1, V2, 및 V3 은 저대역 파라미터들의 세트 (906) 에 대응하는 고대역 파라미터들의 세트를 결정하는데 이용될 수도 있다.
천이 확률 매트릭스 (930) 를 이용하여 오디오 프레임들 사이에서 벡터로부터 다른 벡터로 천이할 확률들을 결정하는 것 및 확률들을 이용하여 후속 프레임들에 대응하는 매칭하는 벡터들의 선택을 바이어스하는 것은, 벡터 양자화 테이블 (920) 로부터의 벡터들을 후속 프레임들과 매칭시킴에 있어서의 에러들을 방지할 수도 있다. 이에 따라, 천이 확률 매트릭스 (930) 는 더 정확한 벡터 양자화를 가능하게 한다.
도 10 을 참조하면, 도 9 의 천이 확률 매트릭스 (930) 는 압축된 천이 확률 매트릭스 (1020) 로 압축될 수도 있다. 압축된 천이 확률 매트릭스 (1020) 는 인덱스 (1022) 및 값들 (1024) 을 포함할 수도 있다. 인덱스 (1022) 와 값들 (1024) 양쪽은 도 9 의 벡터 양자화 테이블 (920) 에서의 벡터들의 수와 동일한 수 (N) 의 로우들을 포함할 수도 있다. 그러나, 제 1 벡터로부터 제 2 벡터로 천이할 확률들의 (예를 들어, 가장 높은 확률들을 표현하는) 서브세트만이 값들 (1024) 및 인덱스 (1022) 의 컬럼들에서 표현될 수도 있다. 예를 들어, 확률들의 수 (M) 는 압축된 천이 확률 매트릭스 (1020) 에서 표현되지 않을 수도 있다. 특정 예시적 실시형태에서, 표현되지 않은 확률들은 제로인 것으로 결정된다. 인덱스 (1022) 는 확률들이 벡터 양자화 테이블 (920) 의 어떤 벡터들에 대응하는지를 결정하는데 이용될 수도 있고, 값들 (1024) 은 확률들의 값을 결정하는데 이용될 수도 있다.
도 10 에 따라 천이 확률 매트릭스를 압축하는 것에 의해, (예를 들어, 물리적 메모리 및/또는 하드웨어에서의) 공간이 절약될 수도 있다. 예를 들어, 압축된 천이 매트릭스 (1020) 대 압축되지 않은 천이 확률 매트릭스 (930) 의 사이즈 비율은 다음 식에 의해 표현될 수도 있다:
여기서 N 은 벡터 양자화 테이블 (920) 의 벡터들의 수이고, M 은 압축된 천이 확률 매트릭스 (1020) 에 포함되지 않은 각각의 로우에 대한 벡터들의 수이다.
도 11 을 참조하면, 블라인드 대역폭 확장을 수행하는 방법 (1100) 의 특정 실시형태는, 1102 에서, 복수의 양자화 벡터들 중 제 1 양자화 벡터를 선택하는 단계를 포함할 수도 있다. 제 1 양자화 벡터는 오디오 신호의 제 1 프레임에 대응하는 저대역 파라미터들의 제 1 세트에 대응할 수도 있다. 예를 들어, 벡터 양자화 테이블 (920) 의 제 1 양자화 벡터 V2 는 선택될 수도 있고 도 9 의 저대역 파라미터들의 제 1 세트 (904) 에 대응할 수도 있다.
방법 (1100) 은, 1104 에서, 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하는 단계를 더 포함할 수도 있다. 예를 들어, 도 9 의 저대역 파라미터들의 제 2 세트 (906) 가 수신될 수도 있다.
방법 (1100) 은, 1106 에서, 천이 확률 매트릭스에서의 엔트리들에 기초하여, 제 1 프레임에 대응하는 제 1 양자화 벡터로부터 제 2 프레임에 대응하는 후보 양자화 벡터들로의 천이들과 연관된 바이어스 값들을 결정하는 단계를 더 포함할 수도 있다. 예를 들어, 바이어스 값들 (912) 은 도 9 의 천이 확률 매트릭스 (930) 로부터 확률들의 로우 (b) 를 선택하는 것에 의해 생성될 수도 있다. 천이 확률 매트릭스 (930) 의 각각의 컬럼은 후보 양자화 벡터 (예를 들어, 제 2 프레임에 대한 가능한 양자화 벡터) 에 대응할 수도 있다. 다른 예로서, 도 10 의 압축된 천이 확률 매트릭스 (1020) 는, 제 1 프레임에 대응하는 로우에 대한 인덱스 (1022) 에 포함된 후보 양자화 벡터들을 한정할 수도 있다.
방법 (1100) 은 또한, 바이어스 값들에 기초하여 후보 양자화 벡터들과 저대역 파라미터들의 제 2 세트 사이의 가중된 차이들을 결정하는 단계를 포함할 수도 있다. 예를 들어, 벡터 양자화 테이블 (920) 의 벡터들 V0 내지 Vn 과 저대역 파라미터들의 제 2 세트 (906) 사이의 거리들 (916) 은 도 9 의 바이어스 값들 (912) 에 따라 바이어스될 수도 있다. 방법 (1100) 은, 1110 에서, 가중된 차이들에 기초하여 제 2 프레임에 대응하는 제 2 양자화 벡터를 선택하는 단계를 포함할 수도 있다.
바이어스 값들을 이용하여 저대역 파라미터들의 세트들을 벡터 양자화 테이블의 벡터들과 매칭시키는 것은, 벡터 양자화 테이블로부터의 벡터들을 프레임들과 매칭시킴에 있어서의 에러들을 방지할 수도 있고 잘못된 고대역 파라미터들이 생성되는 것을 방지할 수도 있다.
도 12 를 참조하면, 유성음/무성음 예측 모델 스위칭 모듈의 특정 실시형태를 예시하기 위한 다이어그램이 개시되고 일반적으로 1200 으로 지정된다. 특정 실시형태에서, 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은 도 3 의 유성음/무성음 예측 모델 스위치 모듈 (316) 에 대응할 수도 있다.
유성음/무성음 예측 모델 스위칭 모듈 (1200) 은 디코더 유성음/무성음 분류기 (1220) 및 벡터 양자화 코드북 인덱스 모듈 (1230) 을 포함한다. 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은 유성음 코드북 (1240) 및 무성음 코드북 (1250) 을 포함할 수도 있다. 특정 실시형태에서, 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은 예시된 모듈들보다 더 적거나 더 많이 포함할 수도 있다.
동작 동안, 디코더 유성음/무성음 분류기 (1220) 는 수신된 저대역 파라미터들의 세트가 유성음 오디오 신호에 대응할 때 유성음 코드북 (1240) 을 그리고 수신된 저대역 파라미터들의 세트가 무성음 오디오 신호에 대응할 때 무성음 코드북 (1250) 을 선택 또는 제공하도록 구성될 수도 있다. 예를 들어, 디코더 유성음/무성음 분류기 (1220) 및 벡터 양자화 코드북 인덱스 모듈 (1230) 은 저대역 오디오 신호에 대응하는 저대역 파라미터들 (1202) 을 수신할 수도 있다. 특정 실시형태에서, 저대역 파라미터들 (1202) 은 도 3 의 저대역 파라미터들 (302) 에 대응할 수도 있다. 저대역 오디오 신호는 프레임들로 증분하여 분할될 수도 있다. 예를 들어, 저대역 파라미터들 (1202) 은 프레임 (1204) 에 대응하는 파라미터들의 세트를 포함할 수도 있다. 특정 실시형태에서, 프레임 (1204) 은 도 3 의 프레임 (304) 에 대응할 수도 있다.
디코더 유성음/무성음 분류기 (1220) 는 프레임 (1204) 에 대응하는 파라미터들의 세트를 유성음 또는 무성음으로서 분류할 수도 있다. 예를 들어, 유성음 음성은 높은 정도의 주기성을 나타낼 수도 있다. 무성음 음성은 거의 없거나 전혀 없는 주기성을 나타낼 수도 있다. 디코더 유성음/무성음 분류기 (1220) 는 파라미터들의 세트에 의해 나타낸 주기성의 하나 이상의 측정치들 (예를 들어, 제로 크로싱 (zero crossing) 들, 정규화된 자기상관 함수 (normalized autocorrelation function; NACF) 들, 또는 피치 이득) 에 기초하여 파라미터들의 세트를 분류할 수도 있다. 예시하기 위해, 디코더 유성음/무성음 분류기 (1220) 는 측정치 (예를 들어, 제로 크로싱들, NACF들, 피치 이득, 및/또는 보이스 활성도) 가 제 1 임계치를 만족하는지 여부를 결정할 수도 있다.
측정치가 제 1 임계치를 만족한다는 결정에 응답하여, 디코더 유성음/무성음 분류기 (1220) 는 프레임 (1204) 의 파라미터들의 세트를 유성음으로서 분류할 수도 있다. 예를 들어, 파라미터들의 세트에 의해 나타낸 NACF 가 제 1 유성음 NACF 임계치 (예를 들어, 0.6) 를 만족 (예를 들어, 초과) 한다는 결정에 응답하여, 디코더 유성음/무성음 분류기 (1220) 는 프레임 (1204) 의 파라미터들의 세트를 유성음으로서 분류할 수도 있다. 다른 예로서, 파라미터들의 세트에 의해 나타낸 제로 크로싱들의 수가 제로 크로싱 임계치 (예를 들어, 50) 를 만족 (예를 들어, 하회) 한다는 결정에 응답하여, 디코더 유성음/무성음 분류기 (1220) 는 프레임 (1204) 의 파라미터들의 세트를 유성음으로서 분류할 수도 있다.
측정치가 제 1 임계치를 만족하지 않는다는 결정에 응답하여, 디코더 유성음/무성음 분류기 (1220) 는 프레임 (1204) 의 파라미터들의 세트를 무성음으로서 분류할 수도 있다. 예를 들어, 파라미터들의 세트에 의해 나타낸 NACF 가 제 2 무성음 NACF 임계치 (예를 들어, 0.4) 를 만족하지 않는다는 (예를 들어, 하회한다는) 결정에 응답하여, 디코더 유성음/무성음 분류기 (1220) 는 프레임 (1204) 의 파라미터들의 세트를 무성음으로서 분류할 수도 있다. 다른 예로서, 파라미터들의 세트에 의해 나타낸 제로 크로싱들의 수가 제로 크로싱 임계치 (예를 들어, 50) 를 만족하지 않는다는 (예를 들어, 초과한다는) 결정에 응답하여, 디코더 유성음/무성음 분류기 (1220) 는 프레임 (1204) 의 파라미터들의 세트를 무성음으로서 분류할 수도 있다.
벡터 양자화 코드북 인덱스 모듈 (1230) 은 하나 이상의 매칭된 양자화된 벡터들 (1206) 에 대응하는 하나 이상의 양자화 벡터 인덱스들을 선택할 수도 있다. 예를 들어, 벡터 양자화 코드북 인덱스 모듈 (1230) 은 도 5 에 대해 설명된 것과 같은 거리에 기초하여, 또는 도 9 에 대해 설명된 것과 같은 천이 확률에 의해 가중된 거리에 기초하여, 하나 이상의 양자화 벡터들의 인덱스들을 선택할 수도 있다. 특정 실시형태에서, 벡터 양자화 코드북 인덱스 모듈 (1230) 은, 도 5 및 도 9 를 참조하여 설명된 바와 같이, 특정 코드북 (예를 들어, 유성음 코드북 (1240) 또는 무성음 코드북 (1250)) 에 대응하는 다수의 인덱스들을 선택할 수도 있다.
디코더 유성음/무성음 분류기 (1220) 가 프레임 (1204) 의 파라미터들의 세트를 유성음으로서 분류한 것에 응답하여, 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은 유성음 코드북 (1240) 의 특정 양자화 벡터 인덱스에 대응하는 매칭된 양자화된 벡터들 (1206) 중 특정 양자화 벡터를 선택할 수도 있다. 예를 들어, 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은 유성음 코드북 (1240) 의 다수의 양자화 벡터 인덱스들에 대응하는 매칭된 양자화 벡터들 (1206) 중 다수의 양자화 벡터들을 선택할 수도 있다.
디코더 유성음/무성음 분류기 (1220) 가 프레임 (1204) 의 파라미터들의 세트를 무성음으로서 분류한 것에 응답하여, 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은 무성음 코드북 (1250) 의 특정 양자화 벡터 인덱스에 대응하는 매칭된 양자화된 벡터들 (1206) 중 특정 양자화 벡터를 선택할 수도 있다. 예를 들어, 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은 무성음 코드북 (1250) 의 다수의 양자화 벡터 인덱스들에 대응하는 매칭된 양자화 벡터들 (1206) 중 다수의 양자화 벡터들을 선택할 수도 있다.
고대역 파라미터들 (1208) 의 세트는 선택된 양자화 벡터(들) 에 기초하여 예측될 수도 있다. 예를 들어, 디코더 유성음/무성음 분류기 (1220) 가 프레임 (1204) 의 저대역 파라미터들의 세트를 유성음으로서 분류한 경우, 고대역 파라미터들 (1208) 의 세트가 유성음 코드북 (1240) 의 매칭된 양자화 벡터들에 기초하여 예측될 수도 있다. 다른 예로서, 디코더 유성음/무성음 분류기 (1220) 가 프레임 (1204) 의 저대역 파라미터들의 세트를 무성음으로서 분류한 경우, 고대역 파라미터들 (1208) 의 세트가 유성음 코드북 (1250) 의 매칭된 양자화 벡터들에 기초하여 예측될 수도 있다.
유성음/무성음 예측 모델 스위칭 모듈 (1200) 은 프레임 (1204) 에 더 양호하게 대응하는 코드북 (예를 들어, 유성음 코드북 (1240) 또는 무성음 코드북 (1250)) 을 이용하여 고대역 파라미터들 (1208) 을 예측하여, 유성음 및 무성음 프레임들에 대해 단일 코드북을 이용하는 것에 비해 증가된 정확도의 예측된 고대역 파라미터들 (1208) 을 발생시킬 수도 있다. 예를 들어, 프레임 (1204) 이 유성음 오디오에 대응하는 경우, 유성음 코드북 (1240) 은 고대역 파라미터들 (1208) 을 예측하는데 이용될 수도 있다. 다른 예로서, 프레임 (1204) 이 무성음 오디오에 대응하는 경우, 무성음 코드북 (1250) 은 고대역 파라미터들 (1208) 을 예측하는데 이용될 수도 있다.
도 13 을 참조하면, 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트가 개시되고 일반적으로 1300 으로 지정된다. 특정 실시형태에서, 방법 (1300) 은 도 1 의 시스템 (100), 도 12 의 유성음/무성음 예측 모델 스위칭 모듈 (1200), 또는 이들 양쪽에 의해 수행될 수도 있다.
방법 (1300) 은, 1302 에서, 오디오 신호의 프레임에 대응하는 저대역 파라미터들의 세트를 수신하는 단계를 포함한다. 예를 들어, 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은, 도 12 를 참조하여 설명된 바와 같이, 프레임 (1204) 에 대응하는 저대역 파라미터들의 세트를 수신할 수도 있다.
방법 (1300) 은 또한, 1304 에서, 저대역 파라미터들의 세트를 유성음 또는 무성음으로서 분류하는 단계를 포함한다. 예를 들어, 디코더 유성음/무성음 분류기 (1220) 는, 도 12 를 참조하여 설명된 바와 같이, 저대역 파라미터들의 세트를 유성음 또는 무성음으로서 분류할 수도 있다.
방법 (1300) 은, 1306 에서, 양자화 벡터를 선택하는 단계를 더 포함하고, 여기서 양자화 벡터는 저대역 파라미터들의 세트가 유성음 저대역 파라미터들로서 분류될 때 유성음 저대역 파라미터들과 연관된 복수의 제 1 양자화 벡터들에 대응하고, 여기서 양자화 벡터는 저대역 파라미터들의 세트가 무성음 저대역 파라미터들로서 분류될 때 무성음 저대역 파라미터들과 연관된 복수의 제 2 양자화 벡터들에 대응한다. 예를 들어, 도 12 의 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은, 도 12 를 참조하여 추가로 설명되는 바와 같이, 저대역 파라미터들의 세트가 유성음으로서 분류될 때 유성음 코드북 (1240) 의 하나 이상의 매칭된 양자화 벡터들을 선택할 수도 있다.
방법 (1300) 은, 1310 에서, 선택된 양자화 벡터에 기초하여 고대역 파라미터들의 세트를 예측하는 단계를 더 포함한다. 예를 들어, 도 12 의 유성음/무성음 예측 모델 스위칭 모듈 (1200) 은, 도 5 및 도 9 에 대해 설명된 것과 같은, 다수의 선택된 양자화 벡터들의 조합에 기초하여 또는 선택된 양자화 벡터에 기초하여 고대역 파라미터들 (1208) 을 예측할 수도 있다.
특정 실시형태들에서, 도 13 의 방법 (1300) 은 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 제어기의 하드웨어 (예를 들어, 필드-프로그램가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 또는 이들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 13 의 방법 (1300) 은, 도 19 에 대해 설명되는 바와 같이, 명령들을 수행하는 프로세서에 의해 수행될 수 있다.
도 14 를 참조하면, 다단 고대역 에러 검출 모듈의 특정 실시형태를 예시하기 위한 다이어그램이 개시되고 일반적으로 1400 으로 지정된다. 특정 실시형태에서, 다단 고대역 에러 검출 모듈 (1400) 은 도 3 의 다단 고대역 에러 검출 모듈 (318) 에 대응할 수도 있다.
다단 고대역 에러 검출 모듈 (1400) 은 발성 분류 모듈 (1420) 에 커플링된 버퍼 (1416) 를 포함한다. 발성 분류 모듈 (1420) 은 이득 컨디션 테스터 (1430) 및 이득 프레임 수정 모듈 (1440) 에 커플링된다. 특정 실시형태에서, 다단 고대역 에러 검출 모듈 (1400) 은 예시된 모듈들보다 더 적거나 더 많이 포함할 수도 있다.
동작 동안, 버퍼 (1416) 및 발성 분류 모듈 (1420) 은 저대역 오디오 신호에 대응하는 저대역 파라미터들 (1402) 을 수신할 수도 있다. 특정 실시형태에서, 저대역 파라미터들 (1402) 은 도 3 의 저대역 파라미터들 (302) 에 대응할 수도 있다. 저대역 오디오 신호는 프레임들로 증분하여 분할될 수도 있다. 예를 들어, 저대역 파라미터들 (1402) 은 제 1 프레임 (1404) 에 대응하는 저대역 파라미터들의 제 1 세트를 포함할 수도 있고 제 2 프레임 (1406) 에 대응하는 저대역 파라미터들의 제 2 세트를 포함할 수도 있다.
버퍼 (1416) 는 저대역 파라미터들의 제 1 세트를 수신하고 저장할 수도 있다. 이에 후속하여, 발성 분류 모듈 (1420) 은 저대역 파라미터들의 제 2 세트를 수신할 수도 있고 (예를 들어, 버퍼 (1416) 로부터) 저장된 저대역 파라미터들의 제 1 세트를 수신할 수도 있다. 발성 분류 모듈 (1420) 은, 도 12 를 참조하여 설명된 것과 같은, 저대역 파라미터의 제 1 세트를 유성음 또는 무성음으로서 분류할 수도 있다. 특정 실시형태에서, 발성 분류 모듈 (1420) 은 도 12 의 디코더 유성음/무성음 분류기 (1220) 에 대응할 수도 있다. 발성 분류 모듈 (1420) 은 또한 저대역 파라미터들의 제 2 세트를 유성음 또는 무성음으로서 분류할 수도 있다.
이득 컨디션 테스터 (1430) 는 제 2 프레임 (1406) 에 대응하는 이득 프레임 파라미터 (1412) (예를 들어, 예측된 고대역 이득 프레임) 를 수신할 수도 있다. 특정 실시형태에서, 이득 컨디션 테스터 (1430) 는 도 3 의 소프트 벡터 양자화 모듈 (312) 및/또는 유성음/무성음 예측 모델 스위치 (316) 로부터 이득 프레임 파라미터 (1412) 를 수신할 수도 있다.
이득 컨디션 테스터 (1430) 는 발성 분류 모듈 (1420) 에 의한 저대역 파라미터들의 제 1 세트와 저대역 파라미터들의 제 2 세트의 분류 (예를 들어, 유성음 또는 무성음) 에 적어도 부분적으로 기초하여 그리고 저대역 파라미터들의 제 2 세트에 대응하는 에너지 값에 기초하여 이득 프레임 파라미터 (1412) 가 조정되어야 하는지 여부를 결정할 수도 있다. 예를 들어, 이득 컨디션 테스터 (1430) 는, 저대역 파라미터들의 제 1 세트와 저대역 파라미터들의 제 2 세트의 분류에 기초하여, 저대역 파라미터들이 제 2 세트에 대응하는 에너지 값을, 임계 에너지 값, 저대역 파라미터들의 제 1 세트에 대응하는 에너지 값, 또는 이들 양쪽과 비교할 수도 있다. 이득 컨디션 테스터 (1430) 는, 도 15 를 참조하여 추가로 설명되는 바와 같이, 비교에 기초하여, 이득 프레임 파라미터 (1412) 가 임계 이득을 만족 (예를 들어, 하회) 하는지 여부를 결정하는 것에 기초하여, 또는 이들 양쪽에 기초하여, 이득 프레임 파라미터 (1412) 가 조정되어야 하는지 여부를 결정할 수도 있다. 특정 실시형태에서, 임계 이득은 디폴트 값에 대응할 수도 있다. 특정 실시형태에서, 임계 이득은 실험적 결과들에 기초하여 결정될 수도 있다.
이득 프레임 수정 모듈 (1440) 은 이득 프레임 파라미터 (1412) 가 조정되어야 한다고 이득 컨디션 테스터 (1430) 가 결정한 것에 응답하여 이득 프레임 파라미터 (1412) 를 수정할 수도 있다. 예를 들어, 이득 프레임 수정 모듈 (1440) 은 임계 이득을 만족시키도록 이득 프레임 파라미터 (1412) 를 수정할 수도 있다.
다단 고대역 에러 검출 모듈 (1400) 은 이득 프레임 파라미터 (1412) 가 불안정한지 (예를 들어, 인접한 프레임들 또는 서브-프레임들의 에너지들보다 불균형적으로 더 높은 에너지 값에 대응하는지) 및/또는 생성된 광대역 오디오 신호에서 현저한 아티팩트들을 초래할 수도 있는지 여부를 검출할 수도 있다. 이득 컨디션 테스터 (1430) 가 고대역 예측 에러가 발생했을 수도 있다고 결정한 것에 응답하여, 다단 고대역 에러 검출 모듈 (1400) 은, 도 15 에 대해 추가로 설명되는 바와 같이, 이득 프레임 파라미터 (1412) 를 조정하여 조정된 이득 프레임 파라미터 (1414) 를 생성할 수도 있다.
도 15 를 참조하면, 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트가 개시되고 일반적으로 1500 으로 지정된다. 특정 실시형태에서, 방법 (1500) 은 도 1 의 시스템 (100), 도 14 의 다단 고대역 에러 검출 모듈 (1400), 또는 이들 양쪽에 의해 수행될 수도 있다.
방법 (1500) 은, 1502 에서, 저대역 파라미터들의 제 1 세트 및 저대역 파라미터들의 제 2 세트가 양쪽 모두 유성음으로서 분류되는지 여부를 결정하는 단계를 포함한다. 예를 들어, 도 14 의 이득 컨디션 테스터 (1430) 는, 도 14 를 참조하여 설명되는 바와 같이, 제 1 프레임 (1404) 에 대응하는 저대역 파라미터들의 제 1 세트 및 제 2 프레임 (1406) 에 대응하는 저대역 파라미터들의 제 2 세트가 양쪽 모두 발성 분류 모듈 (1420) 에 의해 유성음으로서 분류되는지 여부를 결정할 수도 있다.
방법 (1500) 은 또한, 1502 에서, 저대역 파라미터들의 제 1 세트 또는 저대역 파라미터들의 제 2 세트 중 적어도 하나가 유성음으로서 분류되지 않는다는 결정에 응답하여, 1504 에서, 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되고 저대역 파라미터들의 제 2 세트가 유성음으로서 분류되는지 여부를 결정하는 단계를 포함한다. 예를 들어, 도 14 의 이득 컨디션 테스터 (1430) 는, 저대역 파라미터들의 제 1 세트 또는 저대역 파라미터들의 제 2 세트 중 어느 하나가 무성음으로서 분류된다는 결정에 응답하여, 발성 분류 모듈 (1420) 에 의해 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되고 저대역 파라미터들의 제 2 세트가 유성음으로서 분류되는지 여부를 결정할 수도 있다.
방법 (1500) 은, 1504 에서, 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되지 않거나 또는 저대역 파라미터들의 제 2 세트가 유성음으로서 분류되지 않는다는 결정에 응답하여, 1506 에서, 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되고 저대역 파라미터들의 제 2 세트가 무성음으로서 분류되는지 여부를 결정하는 단계를 더 포함한다. 예를 들어, 도 14 의 이득 컨디션 테스터 (1430) 는, 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되거나 또는 저대역 파라미터들의 제 2 세트가 무성음으로서 분류된다는 결정에 응답하여, 발성 분류 모듈 (1420) 에 의해 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되고 저대역 파라미터들의 제 2 세트가 무성음으로서 분류되는지 여부를 결정할 수도 있다.
방법 (1500) 은 또한, 1506 에서, 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되지 않거나 또는 저대역 파라미터들의 제 2 세트가 무성음으로서 분류되지 않는다는 결정에 응답하여, 1508 에서, 저대역 파라미터들의 제 1 세트 및 저대역 파라미터들의 제 2 세트가 양쪽 모두 무성음으로서 분류되는지 여부를 결정하는 단계를 포함한다. 예를 들어, 도 14 의 이득 컨디션 테스터 (1430) 는, 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되거나 또는 저대역 파라미터들의 제 2 세트가 유성음으로서 분류된다는 결정에 응답하여, 발성 분류 모듈 (1420) 에 의해 저대역 파라미터들의 제 1 세트 및 저대역 파라미터들의 제 2 세트가 양쪽 모두 무성음으로서 분류되는지 여부를 결정할 수도 있다.
방법 (1500) 은, 1502 에서, 저대역 파라미터들의 제 1 세트 및 저대역 파라미터들의 제 2 세트가 양쪽 모두 유성음으로서 분류된다는 결정에 응답하여, 1522 에서, 제 1 에너지 값 및 제 2 에너지 값이 제 1 에너지 임계 값을 만족 (예를 들어, 초과) 하는지 여부를 결정하는 단계를 더 포함한다. 예를 들어, 도 14 의 이득 컨디션 테스터 (1430) 는, 저대역 파라미터들의 제 1 세트 및 저대역 파라미터들의 제 2 세트가 양쪽 모두 유성음으로서 분류된다는 결정에 응답하여, 제 1 프레임 (1404) 에 대응하는 제 1 에너지 값 ELB(n-1) (예를 들어, 제 1 저대역 파라미터들에 의해 나타냄) 이 제 1 에너지 임계 값 E0 을 만족 (예를 들어, 초과) 하는지 여부 그리고 제 2 프레임 (1406) 에 대응하는 제 2 에너지 값 ELB(n) (예를 들어, 제 2 저대역 파라미터들에 의해 나타냄) 이 제 1 에너지 임계치를 만족하는지 여부를 결정할 수도 있다. 특정 실시형태에서, 제 1 에너지 임계치는 디폴트 값에 대응할 수도 있다. 제 1 에너지 임계 값은, 예시된 예들로서, 실험적 결과들에 기초하여 결정되거나 또는 청지각 (auditory perception) 모델에 기초하여 연산될 수도 있다.
방법 (1500) 은 또한, 1504 에서, 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되고 저대역 파라미터들의 제 2 세트가 유성음으로서 분류된다는 결정에 응답하여, 1524 에서, 제 2 에너지 값 ELB(n) 이 제 1 에너지 임계 값 E0 을 만족하는지 여부 그리고 제 2 에너지 값이 제 1 에너지 값 ELB(n-1) 의 제 1 배수 (예를 들어, 4) 보다 더 큰지 여부를 결정하는 단계를 포함한다. 예를 들어, 도 14 의 이득 컨디션 테스터 (1430) 는, 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되고 저대역 파라미터들의 제 2 세트가 유성음으로서 분류된다는 결정에 응답하여, 제 2 에너지 값이 제 1 에너지 임계 값을 만족하는지 여부 그리고 제 2 에너지 값이 제 1 에너지 값의 제 1 배수 (예를 들어, 4) 보다 더 큰지 여부를 결정할 수도 있다.
방법 (1500) 은, 1506 에서, 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되고 저대역 파라미터들의 제 2 세트가 무성음으로서 분류된다는 결정에 응답하여, 1526 에서, 제 2 에너지 값 ELB(n) 이 제 1 에너지 임계 값 E0 을 만족하는지 여부 그리고 제 2 에너지 값이 제 1 에너지 값 ELB(n-1) 의 제 2 배수 (예를 들어, 2) 보다 더 큰지 여부를 결정하는 단계를 더 포함한다. 예를 들어, 도 14 의 이득 컨디션 테스터 (1430) 는, 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되고 저대역 파라미터들의 제 2 세트가 무성음으로서 분류된다는 결정에 응답하여, 제 2 에너지 값이 제 1 에너지 임계 값을 만족하는지 여부 그리고 제 2 에너지 값이 제 1 에너지 값의 제 2 배수 (예를 들어, 2) 보다 더 큰지 여부를 결정할 수도 있다.
방법 (1500) 은 또한, 1508 에서, 저대역 파라미터들의 제 1 세트 및 저대역 파라미터들의 제 2 세트가 양쪽 모두 무성음으로서 분류된다는 결정에 응답하여, 1528 에서, 제 2 에너지 값 ELB(n) 이 제 1 에너지 값 ELB(n-1) 의 제 3 배수 (예를 들어, 100) 보다 더 큰지 여부를 결정하는 단계를 포함한다. 예를 들어, 도 14 의 이득 컨디션 테스터 (1430) 는, 저대역 파라미터들의 제 1 세트 및 저대역 파라미터들의 제 2 세트가 양쪽 모두 무성음으로서 분류된다는 결정에 응답하여, 제 2 에너지 값이 제 1 에너지 값의 제 3 배수 (예를 들어, 100) 보다 더 큰지 여부를 결정할 수도 있다.
방법 (1500) 은, 1528 에서, 제 2 에너지 값이 제 1 에너지 값의 제 3 배수 (예를 들어, 100) 이하라는 결정에 응답하여, 1530 에서, 제 2 에너지 값 ELB(n) 이 제 1 에너지 임계치 E0 을 만족하는지 여부를 결정하는 단계를 더 포함한다. 예를 들어, 도 14 의 이득 컨디션 테스터 (1430) 는, 제 2 에너지 값이 제 1 에너지 값의 제 3 배수 (예를 들어, 100) 이하라는 결정에 응답하여, 제 2 에너지 값이 제 1 에너지 임계치를 만족하는지 여부를 결정할 수도 있다.
방법 (1500) 은 또한, 1522 에서, 제 1 에너지 값 및 제 2 에너지 값이 제 1 에너지 임계치를 만족하거나, 1524 에서, 제 2 에너지 값이 제 1 에너지 임계치를 만족하고 제 2 에너지 값이 제 1 에너지 값의 제 1 배수보다 더 크거나, 1526 에서, 제 2 에너지 값이 제 1 에너지 임계치를 만족하고 제 2 에너지 값이 제 1 에너지 값의 제 2 배수보다 더 크거나, 또는, 1530 에서, 제 2 에너지 값이 제 1 에너지 임계치를 만족한다는 결정에 응답하여, 1540 에서, 이득 프레임 파라미터가 임계 이득을 만족하는지 여부를 결정하는 단계를 포함한다. 방법 (1500) 은, 1540 에서, 이득 프레임 파라미터가 임계 이득을 만족하지 않거나, 또는, 1528 에서, 제 2 에너지 값이 제 1 에너지 값의 제 3 배수보다 더 크다는 결정에 응답하여, 1550 에서, 이득 프레임 파라미터를 조정하는 단계를 더 포함한다. 예를 들어, 이득 프레임 수정 모듈 (1440) 은, 도 14 를 참조하여 추가로 설명되는 바와 같이, 이득 프레임 파라미터 (1412) 가 임계 이득을 만족하지 않는다는 결정에 응답하여 또는 제 2 에너지 값이 제 1 에너지 값의 제 3 배수보다 더 크다는 결정에 응답하여, 이득 프레임 파라미터 (1412) 를 조정할 수도 있다.
특정 실시형태들에서, 도 15 의 방법 (1500) 은 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 제어기의 하드웨어 (예를 들어, 필드-프로그램가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 또는 이들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 15 의 방법 (1500) 은, 도 19 에 대해 설명되는 바와 같이, 명령들을 수행하는 프로세서에 의해 수행될 수 있다.
도 16 을 참조하면, 블라인드 대역폭 확장을 수행하는 방법의 다른 특정 실시형태를 예시하기 위한 플로우차트가 개시되고 일반적으로 1600 으로 지정된다. 특정 실시형태에서, 방법 (1600) 은 도 1 의 시스템 (100), 도 14 의 다단 고대역 에러 검출 모듈 (1400), 또는 이들 양쪽에 의해 수행될 수도 있다.
방법 (1600) 은, 1602 에서, 오디오 신호의 제 1 프레임에 대응하는 저대역 파라미터들의 제 1 세트를 수신하는 단계를 포함한다. 예를 들어, 도 14 의 버퍼 (1416) 는, 도 14 를 참조하여 추가로 설명되는 바와 같이, 제 1 프레임 (1404) 에 대응하는 저대역 파라미터들의 제 1 세트를 수신할 수도 있다.
방법 (1600) 은 또한, 1604 에서, 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하는 단계를 포함한다. 제 2 프레임은 오디오 신호 내의 제 1 프레임에 후속할 수도 있다. 예를 들어, 도 14 의 발성 분류 모듈 (1420) 은, 도 14 를 참조하여 추가로 설명되는 바와 같이, 제 2 프레임 (1406) 에 대응하는 저대역 파라미터들의 제 2 세트를 수신할 수도 있다.
방법 (1600) 은, 1606 에서, 저대역 파라미터들의 제 1 세트를 유성음 또는 무성음으로서 분류하고 저대역 파라미터들의 제 2 세트를 유성음 또는 무성음으로서 분류하는 단계를 더 포함한다. 예를 들어, 도 14 의 발성 분류 모듈 (1420) 은, 도 14 를 참조하여 추가로 설명되는 바와 같이, 저대역 파라미터들의 제 1 세트를 유성음 또는 무성음으로서 분류하고 저대역 파라미터들의 제 2 세트를 유성음 또는 무성음으로서 분류할 수도 있다.
방법 (1600) 은 또한, 1608 에서, 저대역 파라미터들의 제 1 세트의 분류, 저대역 파라미터들의 제 2 세트의 분류, 및 저대역 파라미터들의 제 2 세트에 대응하는 에너지 값에 기초하여, 이득 파라미터를 선택적으로 조정하는 단계를 포함한다. 예를 들어, 이득 프레임 수정 모듈 (1440) 은, 도 14 및 도 15 를 참조하여 추가로 설명되는 바와 같이, 저대역 파라미터들의 제 1 세트의 분류, 저대역 파라미터들의 제 2 세트의 분류, 및 저대역 파라미터들의 제 2 세트에 대응하는 에너지 값 (예를 들어, 제 2 에너지 값 ELB(n)) 에 기초하여, 이득 프레임 파라미터 (1412) 를 조정할 수도 있다.
특정 실시형태들에서, 도 16 의 방법 (1600) 은 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 제어기의 하드웨어 (예를 들어, 필드-프로그램가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 또는 이들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 16 의 방법 (1600) 은, 도 19 에 대해 설명되는 바와 같이, 명령들을 수행하는 프로세서에 의해 수행될 수 있다.
도 17 을 참조하면, 블라인드 대역폭 확장을 수행하도록 동작가능한 시스템의 특정 실시형태가 서술되고 일반적으로 1700 으로 지정된다. 시스템 (1700) 은 협대역 디코더 (1710), 고대역 파라미터 예측 모듈 (1720), 고대역 모델 모듈 (1730), 및 합성 필터 뱅크 모듈 (1740) 을 포함한다. 고대역 파라미터 예측 모듈 (1720) 은 협대역 비트스트림 (1702) 으로부터 추출된 저대역 파라미터들 (1704) 에 기초하여 고대역 파라미터들을 예측하도록 시스템 (1700) 을 인에이블시킬 수도 있다. 특정 실시형태에서, 시스템 (1700) 은 (예를 들어, 무선 전화기 또는 코더/디코더 (코덱) 에서) 장치 또는 음성 보코더의 디코딩 시스템 (예를 들어, 디코더) 내에 통합된 블라인드 대역폭 확장 (blind bandwidth extension; BBE) 시스템일 수도 있다.
후속 설명에서, 도 17 의 시스템 (1700) 에 의해 수행되는 다양한 기능들은 소정 컴포넌트들 또는 모듈들에 의해 수행되는 것으로 설명된다. 그러나, 컴포넌트들 및 모듈들의 이러한 분할은 단지 예시를 위한 것이다. 대안적인 실시형태에서, 특정 컴포넌트 또는 모듈에 의해 수행되는 기능이 그 대신에 다수의 컴포넌트들 또는 모듈들 중에서 분할될 수도 있다. 더욱이, 대안적인 실시형태에서, 도 17 의 2 개 이상의 컴포넌트들 또는 모듈들이 단일 컴포넌트 또는 모듈로 통합될 수도 있다. 도 17 에 예시된 각각의 컴포넌트 또는 모듈은 하드웨어 (예를 들어, 주문형 집적 회로 (ASIC), 디지털 신호 프로세서 (DSP), 제어기, 필드-프로그램가능 게이트 어레이 (FPGA) 디바이스 등), 소프트웨어 (예를 들어, 프로세서에 의해 실행가능한 명령들), 또는 이들의 임의의 조합을 이용하여 구현될 수도 있다.
협대역 디코더 (1710) 는 협대역 비트스트림 (1702) (예를 들어, 적응적 멀티-레이트 (AMR) 비트스트림, 향상된 풀 레이트 (enhanced full rate; EFR) 비트스트림, 또는 EVRC-B 와 같은, EVRC 와 연관된 향상된 가변 레이트 코덱 (enhanced variable rate CODEC; EVRC) 비트스트림) 을 수신하도록 구성될 수도 있다. 협대역 디코더 (1710) 는 협대역 비트스트림 (1702) 에 대응하는 저대역 오디오 신호 (1734) 를 복구하기 위해 협대역 비트스트림 (1702) 을 디코딩하도록 구성될 수도 있다. 특정 실시형태에서, 저대역 오디오 신호 (1734) 는 음성을 표현할 수도 있다. 일 예로서, 저대역 오디오 신호 (1734) 의 주파수는 대략 0 헤르츠 (Hz) 로부터 대략 4 킬로헤르츠 (kHz) 까지의 범위에 있을 수도 있다. 저대역 오디오 신호 (1734) 는 펄스-코드 변조 (PCM) 샘플들의 형태로 있을 수도 있다. 저대역 오디오 신호 (1734) 는 합성 필터 뱅크 (1740) 에 제공될 수도 있다.
고대역 파라미터 예측 모듈 (1720) 은 협대역 비트스트림 (1702) 으로부터 저대역 파라미터들 (1704) (예를 들어, AMR 파라미터들, EFR 파라미터들, 또는 EVRC 파라미터들) 을 수신하도록 구성될 수도 있다. 저대역 파라미터들 (1704) 은 선형 예측 계수들 (LPC), 선 스펙트럼 주파수들 (LSF), 이득 형상 정보, 이득 프레임 정보, 및/또는 저대역 오디오 신호 (1734) 를 설명하는 다른 정보를 포함할 수도 있다. 특정 실시형태에서, 저대역 파라미터들 (1704) 은 협대역 비트스트림 (1702) 에 대응하는 AMR 파라미터들, EFR 파라미터들, 또는 EVRC 파라미터들을 포함한다.
시스템 (1700) 이 음성 보코더의 디코딩 시스템 (예를 들어, 디코더) 내에 통합되기 때문에, (예를 들어, 음성 보코더의 인코더로부터의) 인코더의 분석으로부터의 저대역 파라미터들 (1704) 은, 노이즈 및 예측된 고대역의 품질을 감소시키는 다른 에러들을 도입하는 "탠더밍 (tandeming)" 프로세스의 이용 없이, 고대역 파라미터 예측 모듈 (1720) 에 액세스가능할 수도 있다. 예를 들어, 종래의 BBE 시스템들 (예를 들어, 포스트-프로세싱 (post-processing) 시스템들) 은 협대역 디코더 (예를 들어, 협대역 디코더 (1710)) 에서 합성 분석을 수행하여, PCM 샘플들의 형태로 저대역 신호 (예를 들어, 저대역 신호 (1734)) 를 생성하고, 부가적으로 저대역 신호에 대한 신호 분석 (예를 들어, 음성 분석) 을 수행하여 저대역 파라미터들을 생성할 수도 있다. 이 탠더밍 프로세스 (예를 들어, 합성 분석 및 후속 신호 분석) 는 노이즈 및 예측된 고대역의 품질을 감소시키는 다른 에러들을 도입한다. 협대역 비트스트림 (1702) 으로부터의 저대역 파라미터들 (1704) 에 액세스하는 것에 의해, 시스템 (1700) 은 탠더밍 프로세스에 선행하여 개선된 정확도로 고대역을 예측할 수도 있다.
예를 들어, 저대역 파라미터들 (1704) 에 기초하여, 고대역 파라미터 예측 모듈 (1720) 은 예측된 고대역 파라미터들 (1706) 을 생성할 수도 있다. 고대역 파라미터 예측 모듈 (1720) 은, 예컨대 도 3 내지 도 16 을 참조하여 설명되는 실시형태들 중 하나 이상에 따라, 소프트 벡터 양자화를 이용하여 예측된 고대역 파라미터들 (1706) 을 생성할 수도 있다. 소프트 벡터 양자화를 이용하는 것에 의해, 다른 고대역 예측 방법들에 비해 고대역 파라미터들의 더 정확한 예측이 가능하게 될 수도 있다. 게다가, 소프트 벡터 양자화는 시간이 지남에 따라 고대역 파라미터들을 변화시키는 것 사이의 스무드한 천이를 가능하게 한다.
고대역 모델 모듈 (1730) 은 예측된 고대역 파라미터들 (1706) 를 이용하여 고대역 신호 (1732) 를 생성할 수도 있다. 일 예로서, 고대역 신호 (1732) 의 주파수는 대략 4 kHz 로부터 대략 8 kHz 까지의 범위에 있을 수도 있다. 특정 실시형태에서, 고대역 모델 모듈 (1730) 은, 도 1 에 대해 설명된 것과 유사한 방식으로, 협대역 디코더 (1710) 로부터 생성된 저대역 잔차 정보 (미도시) 및 예측된 고대역 파라미터들 (1706) 을 이용하여 고대역 신호 (1732) 를 생성할 수도 있다.
합성 필터 뱅크 (1740) 는 고대역 신호 (1732) 및 저대역 신호 (1734) 를 수신하여 광대역 출력 (1736) 을 생성하도록 구성될 수도 있다. 광대역 출력 (1736) 은 디코딩된 저대역 오디오 신호 (1734) 및 예측된 고대역 오디오 신호 (1732) 를 포함하는 광대역 음성 출력을 포함할 수도 있다. 예시적인 예로서, 광대역 출력 (1736) 의 주파수는 대략 0 Hz 로부터 대략 8 kHz 까지의 범위에 있을 수도 있다. 광대역 출력 (1736) 은 조합된 저대역 및 고대역 신호들을 재구성하기 위해 (예를 들어, 대략 16 kHz 에서) 샘플링될 수도 있다.
도 17 의 시스템 (1700) 은 종래의 BBE 시스템들에 의해 이용되는 탠더밍 프로세스에 선행하여 고대역 신호 (132) 의 정확도를 개선시킬 수도 있다. 예를 들어, 시스템 (1700) 이 음성 보코더의 디코더 내에 구현된 BBE 시스템이기 때문에 저대역 파라미터들 (1704) 은 고대역 파라미터 예측 모듈 (1720) 에 액세스가능할 수도 있다.
음성 보코더의 디코더 내의 시스템 (1700) 의 통합은, 음성 보코더의 보충 피처 (supplemental feature) 들인 음성 보코더의 다른 통합된 기능들을 지원할 수도 있다. 비제한 예들로서, 호밍 시퀀스 (homing sequence) 들, 네트워크 피처들/제어들의 대역내 시그널링, 및 대역내 데이터 모뎀들이 시스템 (1700) 에 의해 지원될 수도 있다. 예를 들어, 시스템 (1700) (예를 들어, BBE 시스템) 을 디코더와 통합시키는 것에 의해, 광대역 보코더의 호밍 시퀀스 출력이 합성될 수도 있어서, 호밍 시퀀스가 네트워크에서의 협대역 접합부 (juncture) 들 (또는 광대역 접합부들) (예를 들어, 상호동작 시나리오들) 에 걸쳐 통과될 수도 있다. 대역내 시그널링 또는 대역내 모뎀들의 경우, 시스템 (1700) 은 디코더로 하여금 대역내 신호들 (또는 데이터) 을 제거하게 할 수도 있고, 시스템 (1700) 은 대역내 신호들 (또는 데이터) 이 탠더밍을 통해 유실되는 종래의 BBE 시스템과는 대조적으로 신호들 (또는 데이터) 을 포함하는 광대역 비트스트림을 합성할 수도 있다.
도 17 의 시스템 (1700) 이 음성 보코더의 디코더에 통합되는 (예를 들어, 액세스가능한) 것으로 설명되지만, 다른 실시형태들에서, 시스템 (1700) 은 레거시 협대역 네트워크와 광대역 네트워크 사이의 접합부에 포지셔닝된 "인터워킹 펑션 (interworking function)" 의 부분으로서 이용될 수도 있다. 예를 들어, 인터워킹 펑션은 시스템 (1700) 을 이용하여 협대역 입력 (예를 들어, 협대역 비트스트림 (1702)) 으로부터 광대역을 합성하고 합성된 광대역을 광대역 보코더로 인코딩할 수도 있다. 따라서, 인터워킹 펑션은 PCM 의 형태로 광대역 출력 (예를 들어, 광대역 출력 (1736)) 을 합성할 수도 있고, 이 광대역 출력은 그 후에 광대역 보코더에 의해 재인코딩된다.
대안적으로, 인터워킹 펑션은 협대역 파라미터들로부터 (예를 들어, 협대역 PCM 을 이용하는 일 없이) 고대역을 예측하고, 광대역 PCM 을 이용하는 일 없이 광대역 보코더 비트스트림을 인코딩할 수도 있다. 다수의 협대역 입력들로부터 광대역 출력 (예를 들어, 광대역 출력 음성 (1736)) 을 합성하기 위해 컨퍼런스 브리지 (conference bridge) 들에서 유사한 접근법이 이용될 수도 있다.
도 18 을 참조하면, 블라인드 대역폭 확장을 수행하는 방법의 특정 실시형태를 예시하기 위한 플로우차트가 개시되고 일반적으로 1800 으로 지정된다. 특정 실시형태에서, 방법 (1800) 은 도 1 의 시스템 (1700) 에 의해 수행될 수도 있다.
방법 (1800) 은, 1802 에서, 음성 보코더의 디코더에서, 저대역 파라미터들의 세트를 협대역 비트스트림의 부분으로서 수신하는 단계를 포함한다. 예를 들어, 도 17 을 참조하면, 고대역 파라미터 예측 모듈 (1720) 은 협대역 비트스트림 (1702) 으로부터 저대역 파라미터들 (1704) (예를 들어, AMR 파라미터들, EFR 파라미터들, 또는 EVRC 파라미터들) 을 수신할 수도 있다. 저대역 파라미터들 (1704) 은 음성 보코더의 인코더로부터 수신될 수도 있다. 예를 들어, 저대역 파라미터들 (1704) 은 도 1 의 시스템 (100) 으로부터 수신될 수도 있다.
1804 에서, 저대역 파라미터들의 세트에 기초하여 고대역 파라미터들의 세트가 예측될 수도 있다. 예를 들어, 도 17 을 참조하면, 고대역 파라미터 예측 모듈 (1720) 은 저대역 파라미터들 (1704) 에 기초하여 고대역 파라미터들 (1706) 을 예측할 수도 있다.
도 18 의 방법 (1800) 은 음성 보코더의 인코더로부터 저대역 파라미터들 (1704) 을 수신하는 것에 의해 노이즈 (및 예측된 고대역의 품질을 감소시키는 다른 에러들) 를 감소시킬 수도 있다. 예를 들어, 저대역 파라미터들 (1704) 은, 노이즈 및 예측된 고대역의 품질을 감소시키는 다른 에러들을 도입하는 "탠더밍" 프로세스의 이용 없이, 고대역 파라미터 예측 모듈 (1720) 에 액세스가능할 수도 있다. 예를 들어, 종래의 BBE 시스템들 (예를 들어, 포스트-프로세싱 시스템들) 은 협대역 디코더 (예를 들어, 협대역 디코더 (1710)) 에서 합성 분석을 수행하여, PCM 샘플들의 형태로 저대역 신호 (예를 들어, 저대역 신호 (1734)) 를 생성하고, 부가적으로 저대역 신호에 대한 신호 분석 (예를 들어, 음성 분석) 을 수행하여 저대역 파라미터들을 생성할 수도 있다. 이 탠더밍 프로세스 (예를 들어, 합성 분석 및 후속 신호 분석) 는 노이즈 및 예측된 고대역의 품질을 감소시키는 다른 에러들을 도입한다. 협대역 비트스트림 (1702) 으로부터의 저대역 파라미터들 (1704) 에 액세스하는 것에 의해, 시스템 (1700) 은 탠더밍 프로세스에 선행하여 개선된 정확도로 고대역을 예측할 수도 있다.
도 19 를 참조하면, 디바이스 (예를 들어, 무선 통신 디바이스) 의 특정 예시적 실시형태의 블록 다이어그램이 서술되고 일반적으로 1900 으로 지정된다. 디바이스 (1900) 는 메모리 (1932) 에 커플링된 프로세서 (1910) (예를 들어, 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP) 등) 를 포함한다. 메모리 (1932) 는, 도 2 의 방법 (200), 도 4 의 방법 (400), 도 8 의 방법 (800), 도 11 의 방법 (1100), 도 13 의 방법 (1300), 도 15 의 방법 (1500), 도 16 의 방법 (1600), 도 18 의 방법 (1800), 또는 이들의 조합과 같은, 본 명세서에 개시된 방법들 및 프로세스들을 수행하기 위해 프로세서 (1910) 및/또는 코더/디코더 (코덱) (1934) 에 의해 실행가능한 명령들 (1960) 을 포함할 수도 있다. 코덱 (1934) 은 고대역 파라미터 예측 모듈 (1972) 을 포함할 수도 있다. 특정 실시형태에서, 고대역 파라미터 예측 모듈 (1972) 은 도 1 의 고대역 파라미터 예측 모듈 (120) 에 대응할 수도 있다.
시스템 (1900) 의 하나 이상의 컴포넌트들은 전용 하드웨어 (예를 들어, 회로부) 를 통해, 하나 이상의 태스크들을 수행하기 위해 명령들을 실행하는 프로세서에 의해, 또는 이들의 조합으로 구현될 수도 있다. 일 예로서, 메모리 (1932) 또는 고대역 파라미터 예측 모듈 (1972) 의 하나 이상의 컴포넌트들은 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 전송 MRAM (STT-MRAM), 플래시 메모리, 판독-전용 메모리 (ROM), 프로그램가능 판독-전용 메모리 (PROM), 소거가능 프로그램가능 판독-전용 메모리 (EPROM), 전기적 소거가능 프로그램가능 판독-전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 또는 콤팩트 디스크 판독-전용 메모리 (CD-ROM) 와 같은 메모리 디바이스일 수도 있다. 메모리 디바이스는, 컴퓨터 (예를 들어, 코덱 (1934) 에서의 프로세서 및/또는 프로세서 (1910)) 에 의해 실행될 때, 컴퓨터로 하여금, 도 2 의 방법 (200), 도 4 의 방법 (400), 도 8 의 방법 (800), 도 11 의 방법 (1100), 도 13 의 방법 (1300), 도 15 의 방법 (1500), 도 16 의 방법 (1600), 도 18 의 방법 (1800), 또는 이들의 조합 중 하나에 대한 적어도 일부를 수행하게 할 수도 있는 명령들 (예를 들어, 명령들 (1960)) 을 포함할 수도 있다. 일 예로서, 메모리 (1932) 또는 코덱 (1934) 의 하나 이상의 컴포넌트들은, 컴퓨터 (예를 들어, 코덱 (1934) 에서의 프로세서 및/또는 프로세서 (1910)) 에 의해 실행될 때, 컴퓨터로 하여금, 도 2 의 방법 (200), 도 4 의 방법 (400), 도 8 의 방법 (800), 도 11 의 방법 (1100), 도 13 의 방법 (1300), 도 15 의 방법 (1500), 도 16 의 방법 (1600), 도 18 의 방법 (1800), 또는 이들의 조합 중 적어도 일부를 수행하게 하는 명령들 (예를 들어, 명령들 (1960)) 을 포함하는 비일시적 컴퓨터 판독가능 매체일 수도 있다.
도 19 는 또한, 프로세서 (1910) 및 디스플레이 (1928) 에 커플링되는 디스플레이 제어기 (1926) 를 도시한다. 코덱 (1934) 은, 도시된 바와 같이, 프로세서 (1910) 에 커플링될 수도 있다. 스피커 (1936) 및 마이크로폰 (1938) 은 코덱 (1934) 에 커플링될 수 있다. 특정 실시형태에서, 프로세서 (1910), 디스플레이 제어기 (1926), 메모리 (1932), 코덱 (1934), 및 무선 제어기 (1940) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (예를 들어, 이동국 모뎀 (MSM)) (1922) 에 포함된다. 특정 실시형태에서, 터치스크린 및/또는 키패드와 같은 입력 디바이스 (1930), 및 파워 서플라이 (1944) 는 시스템-온-칩 디바이스 (1922) 에 커플링된다. 더욱이, 특정 실시형태에서, 도 19 에 예시된 바와 같이, 디스플레이 (1928), 입력 디바이스 (1930), 스피커 (1936), 마이크로폰 (1938), 안테나 (1942), 및 파워 서플라이 (1944) 는 시스템-온-칩 디바이스 (1922) 의 외부에 있다. 그러나, 디스플레이 (1928), 입력 디바이스 (1930), 스피커 (1936), 마이크로폰 (1938), 안테나 (1942), 및 파워 서플라이 (1944) 각각은, 인터페이스 또는 제어기와 같은, 시스템-온-칩 디바이스 (1922) 의 컴포넌트에 커플링될 수 있다.
당업자들은, 본 명세서에 개시된 실시형태들과 관련되어 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 하드웨어 프로세서와 같은 프로세싱 디바이스에 의해 실행되는 컴퓨터 소프트웨어, 또는 이들 양쪽의 조합들로서 구현될 수도 있다는 것을 추가로 인식할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 이들의 기능성의 관점에서 일반적으로 상술되었다. 이러한 기능성이 하드웨어로서 또는 실행가능한 소프트웨어로서 구현되는지 여부는 전체 시스템에 부과되는 설계 제약들 및 특정 애플리케이션에 의존한다. 당업자들은 각각의 특정 애플리케이션에 대한 다양한 방법들로 설명된 기능성을 구현할 수도 있지만, 이러한 구현 판정들은 본 개시물의 범위로부터의 벗어남을 야기시키는 것으로 해석되어서는 안된다.
본 명세서에 개시된 실시형태들과 관련되어 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들 둘의 조합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 전송 MRAM (STT-MRAM), 플래시 메모리, 판독-전용 메모리 (ROM), 프로그램가능 판독-전용 메모리 (PROM), 소거가능 프로그램가능 판독-전용 메모리 (EPROM), 전기적 소거가능 프로그램가능 판독-전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 또는 콤팩트 디스크 판독-전용 메모리 (CD-ROM) 와 같은 메모리 디바이스에 상주할 수도 있다. 예시적인 메모리 디바이스는, 프로세서가 메모리 디바이스로부터 정보를 판독할 수 있고 정보를 메모리 디바이스에 기입할 수 있도록 프로세서에 커플링된다. 대안적으로, 메모리 디바이스는 프로세서와 일체적일 수도 있다. 프로세서 및 저장 매체는 주문형 집적 회로 (ASIC) 에 상주할 수도 있다. ASIC 는 컴퓨팅 디바이스 또는 사용자 단말기에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에 개별 컴포넌트들로서 상주할 수도 있다.
개시된 실시형태들의 이전 설명은 당업자가 개시된 실시형태들을 제조하거나 이용하는 것을 가능하게 하도록 제공된다. 이들 실시형태들에 대한 다양한 수정들은 당업자들에게 쉽게 명백할 것이며, 본 명세서에 정의된 원리들은 본 개시물의 범위로부터 벗어남이 없이 다른 실시형태들에 적용될 수도 있다. 따라서, 본 개시물은 본 명세서에 도시된 실시형태들로 제한되도록 의도된 것이 아니라, 다음의 청구항들에 의해 정의된 바와 같은 원리들 및 신규한 피처들과 일치하는 가능한 가장 넓은 범위를 따르도록 하기 위한 것이다.
Claims (30)
- 오디오 신호의 저대역 파라미터들의 세트에 기초하여, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트를 결정하는 단계; 및
상기 고대역 파라미터들의 제 1 세트 및 상기 고대역 파라미터들의 제 2 세트의 가중된 조합 (weighted combination) 에 기초하여 고대역 파라미터들의 세트를 예측하는 단계
를 포함하는, 방법. - 제 1 항에 있어서,
선형 도메인 고대역 파라미터들의 세트를 획득하기 위해 예측된 상기 고대역 파라미터들의 세트를 비선형 도메인으로부터 선형 도메인으로 컨버팅하는 단계를 더 포함하는, 방법. - 제 1 항에 있어서,
상기 저대역 파라미터들의 세트는, 상기 오디오 신호의 제 1 프레임에 대응하는 저대역 파라미터들의 제 1 세트인, 방법. - 제 3 항에 있어서,
상기 고대역 파라미터들의 제 1 세트 및 상기 고대역 파라미터들의 제 2 세트를 결정하는 단계는,
상기 저대역 파라미터들의 제 1 세트에 기초하여 벡터화 테이블의 복수의 상태들로부터 제 1 상태를 선택하는 단계; 및
상기 저대역 파라미터들의 제 1 세트에 기초하여 상기 벡터화 테이블의 복수의 상태들로부터 제 2 상태를 선택하는 단계
를 포함하고,
상기 제 1 상태는 상기 고대역 파라미터들의 제 1 세트와 연관되고 상기 제 2 상태는 상기 고대역 파라미터들의 제 2 세트와 연관되는, 방법. - 제 4 항에 있어서,
상기 제 1 상태와 상기 제 2 상태 중 특정 상태를 선택하는 단계;
상기 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하는 단계;
천이 확률 매트릭스에서의 엔트리들에 기초하여, 상기 특정 상태로부터 후보 상태들로의 천이들과 연관된 바이어스 (bias) 값들을 결정하는 단계;
상기 바이어스 값들에 기초하여 상기 저대역 파라미터들의 제 2 세트와 상기 후보 상태들 사이의 차이들을 결정하는 단계; 및
상기 차이들에 기초하여 상기 제 2 프레임에 대응하는 상태를 선택하는 단계
를 더 포함하는, 방법. - 제 3 항에 있어서,
상기 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하는 단계;
상기 저대역 파라미터들의 제 1 세트를 유성음 또는 무성음으로서 분류하는 단계;
상기 저대역 파라미터들의 제 2 세트를 유성음 또는 무성음으로서 분류하는 단계; 및
상기 저대역 파라미터들의 제 1 세트의 제 1 분류, 상기 저대역 파라미터들의 제 2 세트의 제 2 분류, 상기 저대역 파라미터들의 제 1 세트에 대응하는 제 1 에너지 값, 및 상기 저대역 파라미터들의 제 2 세트에 대응하는 제 2 에너지 값에 기초하여, 상기 제 2 프레임의 이득 파라미터를 선택적으로 조정하는 단계
를 더 포함하는, 방법. - 제 6 항에 있어서,
상기 이득 파라미터를 선택적으로 조정하는 단계는, 상기 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되고 상기 저대역 파라미터들의 제 2 세트가 유성음으로서 분류될 때,
상기 제 1 에너지 값이 임계 에너지 값을 초과할 때 그리고 상기 제 2 에너지 값이 상기 임계 에너지 값을 초과할 때에는, 상기 이득 파라미터가 임계 이득을 초과한 것에 응답하여 상기 이득 파라미터를 조정하는 단계
를 포함하는, 방법. - 제 6 항에 있어서,
상기 이득 파라미터를 선택적으로 조정하는 단계는, 상기 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되고 상기 저대역 파라미터들의 제 2 세트가 유성음으로서 분류될 때,
상기 제 2 에너지 값이 임계 에너지 값을 초과할 때 그리고 상기 제 2 에너지 값이 상기 제 1 에너지 값의 제 1 배수를 초과할 때에는, 상기 이득 파라미터가 임계 이득을 초과한 것에 응답하여 상기 이득 파라미터를 조정하는 단계
를 포함하는, 방법. - 제 6 항에 있어서,
상기 이득 파라미터를 선택적으로 조정하는 단계는, 상기 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되고 상기 저대역 파라미터들의 제 2 세트가 무성음으로서 분류될 때,
상기 제 2 에너지 값이 임계 에너지 값을 초과할 때 그리고 상기 제 2 에너지 값이 상기 제 1 에너지 값의 제 2 배수를 초과할 때에는, 상기 이득 파라미터가 임계 이득을 초과한 것에 응답하여 상기 이득 파라미터를 조정하는 단계
를 포함하는, 방법. - 제 6 항에 있어서,
상기 이득 파라미터를 선택적으로 조정하는 단계는, 상기 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되고 상기 저대역 파라미터들의 제 2 세트가 무성음으로서 분류될 때,
상기 제 2 에너지 값이 상기 제 1 에너지 값의 제 3 배수를 초과할 때 그리고 상기 제 2 에너지 값이 임계 에너지 값을 초과할 때에는, 상기 이득 파라미터가 임계 이득을 초과한 것에 응답하여 상기 이득 파라미터를 조정하는 단계
를 포함하는, 방법. - 장치로서,
프로세서; 및
동작들을 수행하기 위해 상기 프로세서에 의해 실행가능한 명령들을 저장하는 메모리
를 포함하고,
상기 동작들은,
오디오 신호의 저대역 파라미터들의 세트에 기초하여, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트를 결정하는 것; 및
상기 고대역 파라미터들의 제 1 세트 및 상기 고대역 파라미터들의 제 2 세트의 가중된 조합에 기초하여 고대역 파라미터들의 세트를 예측하는 것
을 포함하는, 장치. - 제 11 항에 있어서,
상기 동작들은, 선형 도메인 고대역 파라미터들의 세트를 획득하기 위해 예측된 상기 고대역 파라미터들의 세트를 비선형 도메인으로부터 선형 도메인으로 컨버팅하는 것을 더 포함하는, 장치. - 제 11 항에 있어서,
상기 저대역 파라미터들의 세트는, 상기 오디오 신호의 제 1 프레임에 대응하는 저대역 파라미터들의 제 1 세트인, 장치. - 제 13 항에 있어서,
상기 고대역 파라미터들의 제 1 세트 및 상기 고대역 파라미터들의 제 2 세트를 결정하는 것은,
상기 저대역 파라미터들의 제 1 세트에 기초하여 벡터화 테이블의 복수의 상태들로부터 제 1 상태를 선택하는 것; 및
상기 저대역 파라미터들의 제 1 세트에 기초하여 상기 벡터화 테이블의 복수의 상태들로부터 제 2 상태를 선택하는 것
을 포함하고,
상기 제 1 상태는 상기 고대역 파라미터들의 제 1 세트와 연관되고 상기 제 2 상태는 상기 고대역 파라미터들의 제 2 세트와 연관되는, 장치. - 제 14 항에 있어서,
상기 동작들은,
상기 제 1 상태와 상기 제 2 상태 중 특정 상태를 선택하는 것;
상기 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하는 것;
천이 확률 매트릭스에서의 엔트리들에 기초하여, 상기 특정 상태로부터 후보 상태들로의 천이들과 연관된 바이어스 값들을 결정하는 것;
상기 바이어스 값들에 기초하여 상기 저대역 파라미터들의 제 2 세트와 상기 후보 상태들 사이의 차이들을 결정하는 것; 및
상기 차이들에 기초하여 상기 제 2 프레임에 대응하는 상태를 선택하는 것
을 더 포함하는, 장치. - 제 13 항에 있어서,
상기 동작들은,
상기 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하는 것;
상기 저대역 파라미터들의 제 1 세트를 유성음 또는 무성음으로서 분류하는 것;
상기 저대역 파라미터들의 제 2 세트를 유성음 또는 무성음으로서 분류하는 것; 및
상기 저대역 파라미터들의 제 1 세트의 제 1 분류, 상기 저대역 파라미터들의 제 2 세트의 제 2 분류, 상기 저대역 파라미터들의 제 1 세트에 대응하는 제 1 에너지 값, 및 상기 저대역 파라미터들의 제 2 세트에 대응하는 제 2 에너지 값에 기초하여, 상기 제 2 프레임의 이득 파라미터를 선택적으로 조정하는 것
을 더 포함하는, 장치. - 제 16 항에 있어서,
상기 이득 파라미터를 선택적으로 조정하는 것은, 상기 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되고 상기 저대역 파라미터들의 제 2 세트가 유성음으로서 분류될 때,
상기 제 1 에너지 값이 임계 에너지 값을 초과할 때 그리고 상기 제 2 에너지 값이 상기 임계 에너지 값을 초과할 때에는, 상기 이득 파라미터가 임계 이득을 초과한 것에 응답하여 상기 이득 파라미터를 조정하는 것
을 포함하는, 장치. - 제 16 항에 있어서,
상기 이득 파라미터를 선택적으로 조정하는 것은, 상기 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되고 상기 저대역 파라미터들의 제 2 세트가 유성음으로서 분류될 때,
상기 제 2 에너지 값이 임계 에너지 값을 초과할 때 그리고 상기 제 2 에너지 값이 상기 제 1 에너지 값의 제 1 배수를 초과할 때에는, 상기 이득 파라미터가 임계 이득을 초과한 것에 응답하여 상기 이득 파라미터를 조정하는 것
을 포함하는, 장치. - 제 16 항에 있어서,
상기 이득 파라미터를 선택적으로 조정하는 것은, 상기 저대역 파라미터들의 제 1 세트가 유성음으로서 분류되고 상기 저대역 파라미터들의 제 2 세트가 무성음으로서 분류될 때,
상기 제 2 에너지 값이 임계 에너지 값을 초과할 때 그리고 상기 제 2 에너지 값이 상기 제 1 에너지 값의 제 2 배수를 초과할 때에는, 상기 이득 파라미터가 임계 이득을 초과한 것에 응답하여 상기 이득 파라미터를 조정하는 것
을 포함하는, 장치. - 제 16 항에 있어서,
상기 이득 파라미터를 선택적으로 조정하는 것은, 상기 저대역 파라미터들의 제 1 세트가 무성음으로서 분류되고 상기 저대역 파라미터들의 제 2 세트가 무성음으로서 분류될 때,
상기 제 2 에너지 값이 상기 제 1 에너지 값의 제 3 배수를 초과할 때 그리고 상기 제 2 에너지 값이 임계 에너지 값을 초과할 때에는, 상기 이득 파라미터가 임계 이득을 초과한 것에 응답하여 상기 이득 파라미터를 조정하는 것
을 포함하는, 장치. - 명령들을 포함하는 비일시적 컴퓨터 판독가능 매체로서,
상기 명령들은, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
오디오 신호의 저대역 파라미터들의 세트에 기초하여, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트를 결정하게 하고;
상기 고대역 파라미터들의 제 1 세트 및 상기 고대역 파라미터들의 제 2 세트의 가중된 조합에 기초하여 고대역 파라미터들의 세트를 예측하게 하는, 비일시적 컴퓨터 판독가능 매체. - 제 21 항에 있어서,
상기 명령들은 또한, 상기 프로세서로 하여금, 선형 도메인 고대역 파라미터들의 세트를 획득하기 위해 예측된 상기 고대역 파라미터들의 세트를 비선형 도메인으로부터 선형 도메인으로 컨버팅하게 하도록 실행가능한, 비일시적 컴퓨터 판독가능 매체. - 제 22 항에 있어서,
상기 저대역 파라미터들의 세트는, 상기 오디오 신호의 제 1 프레임에 대응하는 저대역 파라미터들의 제 1 세트인, 비일시적 컴퓨터 판독가능 매체. - 제 23 항에 있어서,
상기 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트를 결정하는 것은,
상기 저대역 파라미터들의 제 1 세트에 기초하여 벡터화 테이블의 복수의 상태들로부터 제 1 상태를 선택하는 것; 및
상기 저대역 파라미터들의 제 1 세트에 기초하여 상기 벡터화 테이블의 복수의 상태들로부터 제 2 상태를 선택하는 것
을 포함하고,
상기 제 1 상태는 상기 고대역 파라미터들의 제 1 세트와 연관되고 상기 제 2 상태는 상기 고대역 파라미터들의 제 2 세트와 연관되는, 비일시적 컴퓨터 판독가능 매체. - 제 24 항에 있어서,
상기 명령들은 또한, 상기 프로세서로 하여금,
상기 제 1 상태와 상기 제 2 상태 중 특정 상태를 선택하게 하고;
상기 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하게 하고;
천이 확률 매트릭스에서의 엔트리들에 기초하여, 상기 특정 상태로부터 후보 상태들로의 천이들과 연관된 바이어스 값들을 결정하게 하고;
상기 바이어스 값들에 기초하여 상기 저대역 파라미터들의 제 2 세트와 상기 후보 상태들 사이의 차이들을 결정하게 하며; 그리고
상기 차이들에 기초하여 상기 제 2 프레임에 대응하는 상태를 선택하게 하도록
실행가능한, 비일시적 컴퓨터 판독가능 매체. - 제 23 항에 있어서,
상기 명령들은 또한, 상기 프로세서로 하여금,
상기 오디오 신호의 제 2 프레임에 대응하는 저대역 파라미터들의 제 2 세트를 수신하게 하고;
상기 저대역 파라미터들의 제 1 세트를 유성음 또는 무성음으로서 분류하게 하고;
상기 저대역 파라미터들의 제 2 세트를 유성음 또는 무성음으로서 분류하게 하며;
상기 저대역 파라미터들의 제 1 세트의 제 1 분류, 상기 저대역 파라미터들의 제 2 세트의 제 2 분류, 상기 저대역 파라미터들의 제 1 세트에 대응하는 제 1 에너지 값, 및 상기 저대역 파라미터들의 제 2 세트에 대응하는 제 2 에너지 값에 기초하여, 상기 제 2 프레임의 이득 파라미터를 선택적으로 조정하게 하도록
실행가능한, 비일시적 컴퓨터 판독가능 매체. - 오디오 신호의 저대역 파라미터들의 세트에 기초하여, 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트를 결정하는 수단; 및
상기 고대역 파라미터들의 제 1 세트 및 상기 고대역 파라미터들의 제 2 세트의 가중된 조합에 기초하여 고대역 파라미터들의 세트를 예측하는 수단
을 포함하는, 장치. - 제 27 항에 있어서,
선형 도메인 고대역 파라미터들의 세트를 획득하기 위해 예측된 상기 고대역 파라미터들의 세트를 비선형 도메인으로부터 선형 도메인으로 컨버팅하는 수단을 더 포함하는, 장치. - 제 27 항에 있어서,
상기 저대역 파라미터들의 세트는, 상기 오디오 신호의 제 1 프레임에 대응하는 저대역 파라미터들의 제 1 세트인, 장치. - 제 29 항에 있어서,
상기 고대역 파라미터들의 제 1 세트 및 고대역 파라미터들의 제 2 세트를 결정하는 수단은,
상기 저대역 파라미터들의 제 1 세트에 기초하여 벡터화 테이블의 복수의 상태들로부터 제 1 상태를 선택하는 수단; 및
상기 저대역 파라미터들의 제 1 세트에 기초하여 상기 벡터화 테이블의 복수의 상태들로부터 제 2 상태를 선택하는 수단
을 포함하고,
상기 제 1 상태는 상기 고대역 파라미터들의 제 1 세트와 연관되고 상기 제 2 상태는 상기 고대역 파라미터들의 제 2 세트와 연관되는, 장치.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361916264P | 2013-12-15 | 2013-12-15 | |
US61/916,264 | 2013-12-15 | ||
US201461939148P | 2014-02-12 | 2014-02-12 | |
US61/939,148 | 2014-02-12 | ||
US14/334,921 US9524720B2 (en) | 2013-12-15 | 2014-07-18 | Systems and methods of blind bandwidth extension |
US14/334,921 | 2014-07-18 | ||
PCT/US2014/069045 WO2015088957A1 (en) | 2013-12-15 | 2014-12-08 | Systems and methods of blind bandwidth extension |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20160097232A true KR20160097232A (ko) | 2016-08-17 |
Family
ID=53369245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167016860A KR20160097232A (ko) | 2013-12-15 | 2014-12-08 | 블라인드 대역폭 확장의 시스템들 및 방법들 |
Country Status (6)
Country | Link |
---|---|
US (2) | US20150170655A1 (ko) |
EP (1) | EP3080808A1 (ko) |
JP (1) | JP6174266B2 (ko) |
KR (1) | KR20160097232A (ko) |
CN (1) | CN105814631A (ko) |
WO (2) | WO2015088957A1 (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
US20150170655A1 (en) | 2013-12-15 | 2015-06-18 | Qualcomm Incorporated | Systems and methods of blind bandwidth extension |
US9729215B2 (en) * | 2014-06-23 | 2017-08-08 | Samsung Electronics Co., Ltd. | OFDM signal compression |
CN106683681B (zh) | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
CN105554332A (zh) * | 2016-01-22 | 2016-05-04 | 深圳市中兴物联科技股份有限公司 | 一种基于voip的语音连接方法和装置 |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
JP6996185B2 (ja) * | 2017-09-15 | 2022-01-17 | 富士通株式会社 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
CN110322891B (zh) * | 2019-07-03 | 2021-12-10 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
CN113113030B (zh) * | 2021-03-22 | 2022-03-22 | 浙江大学 | 一种基于降噪自编码器的高维受损数据无线传输方法 |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4521646A (en) * | 1980-06-26 | 1985-06-04 | Callaghan Edward P | Methods and apparatus for bandwidth reduction |
WO1986003873A1 (en) * | 1984-12-20 | 1986-07-03 | Gte Laboratories Incorporated | Method and apparatus for encoding speech |
JP3194481B2 (ja) * | 1991-10-22 | 2001-07-30 | 日本電信電話株式会社 | 音声符号化法 |
JP2779886B2 (ja) | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
US5657423A (en) * | 1993-02-22 | 1997-08-12 | Texas Instruments Incorporated | Hardware filter circuit and address circuitry for MPEG encoded data |
US5715372A (en) | 1995-01-10 | 1998-02-03 | Lucent Technologies Inc. | Method and apparatus for characterizing an input signal |
FI102445B1 (fi) | 1996-02-08 | 1998-11-30 | Nokia Telecommunications Oy | Transmissiolaitteisto keskusten väliselle yhteydelle |
FI106082B (fi) | 1996-12-05 | 2000-11-15 | Nokia Networks Oy | Menetelmä puhekanavan takaisinkytkemisen havaitsemiseksi sekä puheenkäsittelylaite |
US6014623A (en) | 1997-06-12 | 2000-01-11 | United Microelectronics Corp. | Method of encoding synthetic speech |
US6044268A (en) * | 1997-07-16 | 2000-03-28 | Telefonaktiebolaget Lm Ericsson Ab | System and method for providing intercom and multiple voice channels in a private telephone system |
DE19804581C2 (de) * | 1998-02-05 | 2000-08-17 | Siemens Ag | Verfahren und Funk-Kommunikationssystem zur Übertragung von Sprachinformation |
US6445686B1 (en) * | 1998-09-03 | 2002-09-03 | Lucent Technologies Inc. | Method and apparatus for improving the quality of speech signals transmitted over wireless communication facilities |
US6539355B1 (en) | 1998-10-15 | 2003-03-25 | Sony Corporation | Signal band expanding method and apparatus and signal synthesis method and apparatus |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
KR20010101422A (ko) | 1999-11-10 | 2001-11-14 | 요트.게.아. 롤페즈 | 매핑 매트릭스에 의한 광대역 음성 합성 |
US7088704B1 (en) * | 1999-12-10 | 2006-08-08 | Lucent Technologies Inc. | Transporting voice telephony and data via a single ATM transport link |
US6704711B2 (en) * | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
JP2001282246A (ja) * | 2000-03-31 | 2001-10-12 | Kawai Musical Instr Mfg Co Ltd | 波形データ時間伸張圧縮装置 |
US7330814B2 (en) | 2000-05-22 | 2008-02-12 | Texas Instruments Incorporated | Wideband speech coding with modulated noise highband excitation system and method |
FI109393B (fi) * | 2000-07-14 | 2002-07-15 | Nokia Corp | Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite |
US6842733B1 (en) | 2000-09-15 | 2005-01-11 | Mindspeed Technologies, Inc. | Signal processing system for filtering spectral content of a signal for speech coding |
US7289461B2 (en) * | 2001-03-15 | 2007-10-30 | Qualcomm Incorporated | Communications using wideband terminals |
EP1400139B1 (en) | 2001-06-26 | 2006-06-07 | Nokia Corporation | Method for transcoding audio signals, network element, wireless communications network and communications system |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
EP1423847B1 (en) * | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
US20040138876A1 (en) * | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
FR2852172A1 (fr) * | 2003-03-04 | 2004-09-10 | France Telecom | Procede et dispositif de reconstruction spectrale d'un signal audio |
KR100636145B1 (ko) * | 2004-06-04 | 2006-10-18 | 삼성전자주식회사 | 확장된 고해상도 오디오 신호 부호화 및 복호화 장치 |
JPWO2006025313A1 (ja) | 2004-08-31 | 2008-05-08 | 松下電器産業株式会社 | 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法 |
JP4871501B2 (ja) * | 2004-11-04 | 2012-02-08 | パナソニック株式会社 | ベクトル変換装置及びベクトル変換方法 |
WO2006062202A1 (ja) * | 2004-12-10 | 2006-06-15 | Matsushita Electric Industrial Co., Ltd. | 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法 |
CN101180676B (zh) * | 2005-04-01 | 2011-12-14 | 高通股份有限公司 | 用于谱包络表示的向量量化的方法和设备 |
US7953604B2 (en) | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US8295507B2 (en) | 2006-11-09 | 2012-10-23 | Sony Corporation | Frequency band extending apparatus, frequency band extending method, player apparatus, playing method, program and recording medium |
KR101412255B1 (ko) | 2006-12-13 | 2014-08-14 | 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 | 부호화 장치, 복호 장치 및 이들의 방법 |
US8229106B2 (en) * | 2007-01-22 | 2012-07-24 | D.S.P. Group, Ltd. | Apparatus and methods for enhancement of speech |
US8392198B1 (en) | 2007-04-03 | 2013-03-05 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Split-band speech compression based on loudness estimation |
US8532983B2 (en) | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction for encoding or decoding an audio signal |
EP2234103B1 (en) * | 2009-03-26 | 2011-09-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Device and method for manipulating an audio signal |
EP2502230B1 (en) | 2009-11-19 | 2014-05-21 | Telefonaktiebolaget L M Ericsson (PUBL) | Improved excitation signal bandwidth extension |
CN101964189B (zh) * | 2010-04-28 | 2012-08-08 | 华为技术有限公司 | 语音频信号切换方法及装置 |
WO2011148230A1 (en) | 2010-05-25 | 2011-12-01 | Nokia Corporation | A bandwidth extender |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
JP5707842B2 (ja) * | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
CN105469805B (zh) * | 2012-03-01 | 2018-01-12 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
US20150170655A1 (en) | 2013-12-15 | 2015-06-18 | Qualcomm Incorporated | Systems and methods of blind bandwidth extension |
-
2014
- 2014-07-18 US US14/334,988 patent/US20150170655A1/en not_active Abandoned
- 2014-07-18 US US14/334,921 patent/US9524720B2/en active Active
- 2014-12-08 EP EP14827897.1A patent/EP3080808A1/en not_active Withdrawn
- 2014-12-08 JP JP2016539147A patent/JP6174266B2/ja not_active Expired - Fee Related
- 2014-12-08 CN CN201480065995.8A patent/CN105814631A/zh active Pending
- 2014-12-08 WO PCT/US2014/069045 patent/WO2015088957A1/en active Application Filing
- 2014-12-08 KR KR1020167016860A patent/KR20160097232A/ko active IP Right Grant
- 2014-12-09 WO PCT/US2014/069336 patent/WO2015089066A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US9524720B2 (en) | 2016-12-20 |
US20150170654A1 (en) | 2015-06-18 |
US20150170655A1 (en) | 2015-06-18 |
EP3080808A1 (en) | 2016-10-19 |
WO2015088957A1 (en) | 2015-06-18 |
WO2015089066A1 (en) | 2015-06-18 |
JP6174266B2 (ja) | 2017-08-02 |
CN105814631A (zh) | 2016-07-27 |
JP2016540255A (ja) | 2016-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9524720B2 (en) | Systems and methods of blind bandwidth extension | |
TWI672691B (zh) | 解碼方法 | |
Kondoz | Digital speech: coding for low bit rate communication systems | |
CN101180676B (zh) | 用于谱包络表示的向量量化的方法和设备 | |
US11721349B2 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
JP4390803B2 (ja) | 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置 | |
CN105825860B (zh) | 确定加权函数的设备和方法以及量化设备和方法 | |
US7469209B2 (en) | Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications | |
US9626983B2 (en) | Temporal gain adjustment based on high-band signal characteristic | |
US9697843B2 (en) | High band excitation signal generation | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
BR122021000241B1 (pt) | Aparelho de quantização de coeficientes de codificação preditiva linear | |
CN106463134A (zh) | 用于对线性预测系数进行量化的方法和装置及用于反量化的方法和装置 | |
CN106104682B (zh) | 用于对线性预测编码系数进行量化的加权函数确定装置和方法 | |
KR20110086919A (ko) | 에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치 | |
BR112016030381B1 (pt) | Método e aparelho para codificar um sinal de áudio e memória legível por computador |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |