KR102612134B1

KR102612134B1 - 고대역 타겟 신호 제어

Info

Publication number: KR102612134B1
Application number: KR1020187004516A
Authority: KR
Inventors: 벤카트라만 아티; 벤카타 수브라마니암 찬드라 세카르 체비얌
Original assignee: 퀄컴 인코포레이티드
Priority date: 2015-08-17
Filing date: 2016-07-15
Publication date: 2023-12-08
Also published as: TWI642052B; CA2993004C; BR112018002979A2; KR20180041131A; CA2993004A1; JP2018528464A; BR112018002979B1; ES2842175T3; CN107851441A; CN107851441B; EP3338282B1; US20170053658A1; TW201713061A; JP6779280B2; US9830921B2; EP3338282A1; WO2017030705A1

Abstract

고대역 타겟 신호를 생성하기 위한 방법은, 인코더에서, 저대역 부분 및 고대역 부분을 갖는 입력 신호를 수신하는 단계를 포함한다. 방법은 또한, 입력 신호의 제 1 자기상관 값을 입력 신호의 제 2 자기상관 값과 비교하는 단계를 포함한다. 방법은 스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 입력 신호를 스케일링하는 단계를 더 포함한다. 스케일링 팩터는 비교의 결과에 기초하여 결정된다. 방법은 또한, 입력 신호에 기초하여 저대역 신호를 생성하는 단계 및 스케일링된 입력 신호에 기초하여 고대역 타겟 신호를 생성하는 단계를 포함한다.

Description

고대역 타겟 신호 제어

우선권의 주장

본 출원은, 명칭이 모두 “HIGH-BAND TARGET SIGNAL CONTROL”인, 2015 년 8 월 17 일 출원된 U.S. 가특허 출원 제 62/206,197 호 및 2016 년 5 월 31 일 출원된 U.S. 특허 출원 제 15/169,633 호로부터 우선권을 주장하며, 이 출원들은 그 전부가 참조로서 통합된다.

분야

본 개시물은 일반적으로 신호 프로세싱에 관련된다.

기술에서의 진보들은 보다 작고 보다 강력한 컴퓨팅 디바이스들을 야기하고 있다. 예를 들어, 작고, 가볍고, 사용자들이 가지고 다니기 쉬운 휴대용 무선 전화기들, 개인용 디지털 보조기들 (PDA들) 및 페이징 디바이스들과 같은 무선 컴퓨팅 디바이스들을 포함한, 다양한 휴대용 개인 컴퓨팅 디바이스들이 현재 존재한다. 좀더 구체적으로, 셀룰러 전화기들 및 인터넷 프로토콜 (IP) 전화기들과 같은 휴대용 무선 전화기들은 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 또한, 많은 그러한 무선 전화기들은 이에 통합되는 다른 타입의 디바이스들을 포함한다. 예를 들어, 무선 전화기는 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더 및 오디오 파일 플레이어를 또한 포함할 수 있다.

디지털 기법들에 의한 음성 송신은 특히 장거리 및 디지털 라디오 전화기 어플리케이션들에 있어서 널리 퍼져 있다. 재구성된 스피치의 인지된 품질을 유지하면서 채널을 통하여 전송될 수 있는 최소 정보량을 결정하는데 관심이 있을 수도 있다. 샘플링 및 디지털화에 의해 스피치가 송신되면, 64 kbps (kilobits per second) 정도의 데이터 레이트가 아날로그 전화기의 스피치 품질을 달성하는데 이용될 수도 있다. 스피치 분석의 이용과, 이에 후속하는 코딩, 송신 및 수신기에서의 재-합성을 통하여, 데이터 레이트의 현저한 감소가 달성될 수도 있다.

스피치를 압축하기 위한 디바이스들은 많은 텔레통신 분야들에 이용되는 것을 알 수도 있다. 예시적인 분야가 무선 통신이다. 무선 통신의 분야는 예를 들어, 코드리스 전화기들, 페이징, 무선 로컬 루프들, 무선 텔레포니, 예컨대 셀룰러 및 개인 통신 서비스 (PCS) 전화 시스템들, 모바일 IP 텔레포니 및 위성 통신 시스템들을 포함한 많은 어플리케이션들을 갖는다. 특정 어플리케이션은 모바일 가입자들을 위한 무선 텔레포니이다.

다양한 오버-디-에어 (over-the-air) 인터페이스들은, 예를 들어 주파수 분할 다중 액세스 (FDMA), 시간 분할 다중 액세스 (TDMA), 코드 분할 다중 액세스 (CDMA) 및 시간 분할 동기식 CDMA (TD-SCDMA) 을 포함한 무선 통신 시스템들을 위해 개발되고 있다. 이와 연계하여, 예를 들어, 어드밴스드 모바일 폰 서비스 (AMPS), 모바일 통신들을 위한 글로벌 시스템 (GSM) 및 IS-95 (Interim Standard 95) 을 포함한 다양한 국내 및 국제 표준들이 확립되었다. 예시적인 무선 텔레포니 통신 시스템은 코드 분할 다중 액세스 (CDMA) 시스템이다. IS-95 표준 및 그 파생안들, IS-95A, ANSI J-STD-008, 및 IS-95B (여기에서는 총괄적으로 IS-95 로서 지칭됨) 은 셀룰러 또는 PCS 텔레포니 통신 시스템들을 위한 CDMA 오버-디-에어 인터페이스의 사용을 구체화하기 위해 텔레통신 산업 협회 (TIA) 및 다른 잘 알려진 표준 단체들에 의해 공표되어 있다.

IS-95 표준은 후속하여 보다 많은 용량 및 고속 패킷 데이터 서비스들을 제공하는 cdma2000 및 WCDMA 와 같은 "3G" 시스템들로 진화되었다. cdma2000 의 2 가지 변형들은, TIA 에 의해 발행되는, 문헌들 IS-2000 (cdma2000 1xRTT) 및 IS-856 (cdma2000 1xEV-DO) 에 의해 제시된다. cdma2000 1xRTT 통신 시스템은 153 kbps 의 피크 데이터 레이트를 제공하는 반면, cdma2000 1xEV-DO 통신 시스템은 38.4 kbps 부터 2.4 Mbps 까지 범위의 데이터 레이트들의 세트를 정의한다. WCDMA 표준은 제 3 세대 파트너쉽 프로젝트 "3GPP", 문헌 번호 3G TS 25.211, 3G TS 25.212, 3G TS 25.213 및 3G TS 25.214 에 수록되어 있다. 국제 모바일 텔레통신 어드밴스드 (IMT-Advanced) 사양은 "4G" 표준들을 기술한다. IMT-어드밴스드 사양은 (예를 들어, 기차와 자동차들로부터) 높은 이동성 통신을 위하여 초당 100 메가비트들 (Mbit/s) 에서 그리고 (예를 들어, 보행자들 및 정지 사용자들로부터) 낮은 이동성 통신을 위하여 초당 1 기가비트 (Gbit/s) 에서 4G 서비스에 대한 피크 데이터 레이트를 설정한다.

인간의 스피치 생성의 모델에 관련한 파라미터들을 추출함으로써 스피치를 압축하는 기술들을 채용하는 디바이스들은 스피치 코더들이라 지칭된다. 스피치 코더들은 인코더 및 디코더를 포함할 수도 있다. 인코더는 착신 (incoming) 스피치 신호를 시간 블록들 또는 분석 프레임들로 분할한다. 시간의 각각의 세그먼트 (또는 "프레임") 의 지속 기간은 신호의 스펙트럼 포락선 (envelope) 이 상대적으로 정지된 상태를 유지하는 것으로 예상될 수도 있기에 충분히 짧도록 선택될 수도 있다. 예를 들어, 하나의 프레임 길이는, 특정 어플리케이션에 대해 적절한 것으로 여겨지는 임의의 프레임 길이 또는 샘플링 레이트가 이용될 수도 있더라도, 8 킬로헤르츠 (kHz) 의 샘플링 레이트에서 160 개의 샘플들에 대응하는 20 밀리초이다.

인코더는 착신 스피치 프레임을 분석하여 소정의 관련 파라미터들을 추출하고, 그 후 파라미터들을 이진 표현으로, 예를 들어, 비트들의 세트 또는 이진 데이터 패킷으로 양자화한다. 데이터 패킷들은 통신 채널 (즉, 유선 및/또는 무선 네트워크 접속) 을 통해 수신기 및 디코더로 송신된다. 디코더는 데이터 패킷들을 프로세싱하고, 프로세싱된 데이터 패킷들을 역 양자화하여 파라미터들을 생성하며, 그리고 역 양자화된 파라미터들을 이용하여 스피치 프레임들을 재합성한다.

스피치 코더의 기능은 스피치에 내재된 자연 리던던시들 (natural redundancies) 을 제거함으로써 디지털화된 스피치 신호를 저-비트-레이트 신호로 압축하는 것이다. 디지털 압축은 비트들의 세트로 파라미터들을 표현하기 위해 파라미터들의 세트로 입력 스피치 프레임을 표현하고 양자화를 채용함으로써 달성될 수도 있다. 입력 스피치 프레임이 N_i 비트들의 수를 갖고, 스피치 코더에 의해 생성된 데이터 패킷이 N_o 비트들의 수를 가지면, 스피치 코더에 의해 달성되는 압축 팩터는 C_r = N_i/N_o 이다. 과제는 타겟 압축 팩터를 달성하면서 디코딩된 스피치의 높은 음성 품질을 보유하는 것이다. 스피치 코더의 성능은 (1) 위에 설명된 분석 및 합성 프로세스의 조합 또는 스피치 모델이 얼마나 잘 수행하는지, 및 (2) 프레임 당 N_o 비트들의 타겟 비트 레이트에서 파라미터 양자화 프로세스가 얼마나 잘 수행되는지에 의존한다. 따라서, 스피치 모델의 목표는 각각의 프레임에 대한 파라미터들의 작은 세트로 타겟 음성 품질 또는 스피치 신호의 본질을 캡처하는 것이다.

스피치 코더들은 일반적으로 스피치 신호를 기술하기 위해 파라미터들의 세트 (벡터들을 포함) 를 활용한다. 파라미터들의 양호한 세트는 이상적으로는 지각적으로 정확한 스피치 신호의 재구성을 위한 낮은 시스템 대역폭을 제공한다. 피치, 신호 파워, 스펙트럼의 포락선 (또는 포먼트(formant)들), 진폭 및 위상 스펙트럼은 스피치 코딩 파라미터들의 예들이다.

스피치 코더들은 시간-도메인 코더들로서 구현될 수도 있으며, 이는 한 번에 스피치의 작은 세그먼트들 (예를 들어, 5 밀리초 (ms) 서브-프레임들) 을 인코딩하기 위해 높은 시간-분해능 프로세싱을 채용함으로써 시간-도메인 스피치 파형을 캡처하려 시도한다. 각각의 서브-프레임에 대해, 코드북 스페이스로부터 나타내는 고-정밀도가 탐색 알고리즘에 의해 구해진다. 대안적으로, 스피치 코더들은, 파라미터들의 세트로 입력 스피치 프레임의 단기 스피치 스펙트럼을 캡처하고 (분석) 스펙트럼 파라미터들로부터 스피치 파형을 재생성하도록 대응 합성 프로세스를 채용하려 시도하는, 주파수-도메인 코더들로 구현될 수도 있다. 파라미터 양자화기는 알려진 양자화 기술들에 따라 코드 벡터들의 저장된 표현들로 이들 파라미터들을 표현함으로써 파라미터들을 보존한다.

하나의 시간-도메인 스피치 코더는 코드 여기 선형 예측 (Code Excited Linear Predictive; CELP) 코더이다. CELP 코더에서, 스피치 신호에서의 단기 상관성들, 또는 리던던시들은 단기 포먼트 필터의 계수들을 구하는 선형 예측 (linear prediction; LP) 분석에 의해 제거된다. 단기 예측 필터를 착신 스피치 프레임에 적용하는 것은 LP 잔차 신호를 생성하며, 이 신호는 추가로 장기 예측 필터 파라미터들 및 후속하는 확률적 코드북으로 모델링 및 양자화된다. 따라서, CELP 코딩은 시간-도메인 스피치 파형을 인코딩하는 작업 (task) 을 LP 단기 필터 계수들을 인코딩하고 LP 잔차를 인코딩하는 별도의 작업들로 분할한다. 시간-도메인 코딩은, 고정된 레이트에서 (즉, 각각의 프레임에 대해 비트들의 동일한 수 (N_o) 를 이용하여) 또는 (상이한 비트 레이트들이 프레임 컨텐츠들의 상이한 타입들에 대하여 이용되는) 가변 레이트에서 수행될 수 있다. 가변-레이트 코더들은 타겟 품질을 얻는데 적합한 레벨로 코덱 파라미터들을 인코딩하는데 필요한 비트들의 양을 이용하려 시도한다.

CELP 코더와 같은 시간-도메인 코더들은 시간-도메인 스피치 파형의 정확도를 보존하기 위해 프레임 당 높은 수의 비트들 (N₀) 에 의존할 수도 있다. 이러한 코더들은 프레임 당 비트들의 수 (N₀) 가 비교적 크다고 (예를 들어, 8 kbps 이상) 가정하면 우수한 음성 품질을 전달할 수도 있다. 낮은 비트 레이트들 (예를 들어, 4 kbps 이하) 에서, 시간-도메인 코더들은 이용가능한 비트들의 제한된 수로 인하여 높은 품질 및 강인한 성능을 유지하짐 못할 수도 있다. 낮은 비트 레이트들에서, 제한된 코드북 스페이스는 더 높은-레이트의 상업적 어플리케이션들에서 전개되는, 시간-도메인 코더들의 파형-매칭 능력을 감소시킨다. 따라서, 시간에 걸친 개선들에도 불구하고, 낮은 비트 레이트들에서 동작하는 많은 CELP 코딩 시스템들은 노이즈로서 특징화되는 인지가능한 현저한 왜곡을 겪는다.

낮은 비트 레이트들에서의 CELP 코더들에 대한 대안은 CELP 코더와 유사한 원리들 하에서 동작하는 "노이즈 여기 선형 예측" (NELP) 코더이다. NELP 코더들은 코드북보다는, 스피치를 모델링하기 위해 필터링된 의사-랜덤 (pseudo-random) 노이즈 신호를 이용한다. NELP 가 코딩된 스피치에 대해 보다 간략한 모델을 이용하기 때문에, NELP 는 CELP 보다 더 낮은 비트 레이트를 달성한다. NELP 는 무성음 스피치 또는 묵음을 압축 또는 표현하는데 이용될 수도 있다.

2.4 kbps 정도의 레이트들에서 동작하는 코딩 시스템들은 일반적으로 본래 파라메트릭 (parametric) 이다. 즉, 이러한 코딩 시스템들은 규칙적인 간격들로 스피치 신호의 스펙트럼 포락선 (또는 포먼트들) 및 피치-주기를 기술하는 파라미터들을 송신함으로써 동작한다. 이러한 이른바 파라메트릭 코더들의 예시가 LP 보코더 시스템이다.

LP 보코더들은 유성 스피치 신호를 피치 주기 당 단일 펄스로 모델링한다. 이 기본 기술은 다른 무엇보다도, 스펙트럼의 포락선에 대한 송신 정보를 포함하도록 보강될 수도 있다. LP 보코더들은 일반적으로 합리적인 성능을 제공하지만, 이들은 버즈 (buzz) 로서 특징화되는 인지가능한 현저한 왜곡을 도입할 수도 있다.

최근에, 파형 코더들 및 파라메트릭 코더들 양자의 하이브리들인 코더들이 출현되었다. 이러한 이른바 하이브리드 코더들의 예시는 프로토타입-파형 보간 (prototype-waveform interpolation; PWI) 스피치 코딩 시스템이다. PWI 코딩 시스템은 또한 프로토타입 피치 기간 (prototype pitch period; PPP) 스피치 코더로서 알려져 있을 수도 있다. PWI 코딩 시스템은 유성 스피치를 코딩하기 위한 효율적인 방법을 제공한다. PWI 의 기본 개념은 고정된 간격들에서 대표적인 피치 사이클 (프로토타입 파형) 을 추출하고, 그 디스크립션을 송신하고, 그리고 프로토타입 파형들 사이를 보간함으로써 스피치 신호를 재구성하는 것이다. PWI 방법은 LP 잔차 신호 또는 스피치 신호 중 어느 것에서 동작할 수도 있다.

스피치 신호 (예를 들어, 코딩된 스피치 신호, 재구성된 스피치 신호 또는 양자) 의 오디오 품질을 개선하는데 연구적 관심 또는 상업적 관심이 있을 수도 있다. 예를 들어, 통신 디바이스는 최적의 음성 품질보다 낮은 스피치 신호를 수신할 수도 있다. 예시를 위해, 통신 디바이스는 음성 호출 동안 다른 통신 디바이스로부터 스피치 신호를 수신할 수도 있다. 음성 호출 품질은 환경적 노이즈 (예를 들어, 바람, 거리 노이즈), 통신 디바이스들의 인터페이스들의 제한들, 통신 디바이스들에 의한 신호 프로세싱, 패킷 손실, 대역폭 제한들, 비트-레이트 제한들 등과 같은 다양한 이유들로 인해 타격을 입을 수도 있다.

전형적인 전화 시스템들 (예를 들어, 공중 교환형 전화기 네트워크 (PSTN) 들) 에서, 신호 대역폭은 300 헤르쯔 (Hz) 내지 3.4 kHz 의 주파수 범위로 제한된다. 광대역 (WB) 어플리케이션들, 예컨대 셀룰러 텔레포니 및 VoIP (voice over internet protocol) 에서, 신호 대역폭은 대략 0 kHz 부터 8 kHz 까지의 범위에 걸쳐 있을 수도 있다. 초광대역 (SWB) 코딩 기법들은 약 16 kHz 까지 확장하는 대역폭을 지원한다. 3.4 kHz 의 협대역 텔레포니로부터 16 kHz 의 SWB 텔레포니로 신호 대역폭을 확장하는 것은 신호 재구성의 품질, 양해도 (intelligibility) 및 자연스러움을 개선할 수도 있다.

WB 코딩 기술들은 통상적으로, (예를 들어, 또한 "저대역" 이라 지칭되는 0 Hz 내지 6 kHz) 입력 신호의 하위 주파수 부분을 인코딩 및 송신하는 것을 수반한다. 예를 들어, 저대역은 필터 파라미터들 및/또는 저대역 추출 신호를 이용하여 표현될 수도 있다. 그러나, 코딩 효율을 향상시키기 위하여, (예를 들어, 또한 "고대역" 이라 지칭되는 6 kHz 내지 8 kHz) 입력 신호의 상위 주파수 부분은 완전히 인코되고 송신되지 않을 수도 있다. 대신에, 수신기는 고대역을 예측하기 위해 신호 모델링을 활용할 수도 있다. 일부 구현들에서, 고대역에 연관된 데이터가 예측을 돕기 위해 수신기에 제공될 수도 있다. 이러한 데이터는 "부가 정보 (side information) " 로 지칭될 수도 있고, 이득 정보, 라인 스펙트럼 주파수들 (LSF들, 또한 라인 스펙트럼 쌍 (LSP) 들로 지칭됨) 등을 포함할 수도 있다.

신호 모델링을 사용하여 고대역을 예측하는 것은 인코더에서 고대역 타겟 신호를 생성하는 것을 포함할 수도 있다. 고대역 타겟 신호는 LP 스펙트럼 포락선을 추정하고 고대역의 시간 이득 파라미터들을 추정하는데 사용될 수도 있다. 고대역 타겟 신호를 생성하기 위해서, 입력 신호는 스펙트럼으로 플립핑된 신호를 생성하도록 "스펙트럼 플립 (spectral flip)" 동작을 겪을 수도 있어서 입력 신호의 8 kHz 주파수 컴포넌트가 스펙트럼으로 플립핑된 신호의 0 kHz 주파수에 위치되고, 그리고 입력 신호의 0 kHz 주파수 컴포넌트가 스펙트럼으로 플립핑된 신호의 8 kHz 주파수에 위치된다. 스펙트럼으로 플립핑된 신호는 고대역 타겟 신호를 생성하도록 데시메이션 동작 (decimation operation)(예를 들어, "데시메이션 바이 4 (decimation-by-four) 동작) 을 겪을 수도 있다.

입력 신호는 데시메이션 후 저대역 및 고대역의 정밀도가 보존되도록 스케일링될 수도 있다. 하지만, 고정된 스케일링 팩터가 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨보다 수배 더 클 때 전체 입력 신호에 적용되는 경우, 고대역은 스펙트럼 플립 동작 및 데시메이션 동작 후 정밀도를 잃을 수도 있다. 이어서, 추정되는 고대역 이득 파라미터들은 조악하게 양자화되고 아티팩트 (artifact) 들을 초래할 수도 있다.

본 개시물의 일 구현에 따라, 고대역 타겟 신호를 생성하기 위한 방법은, 인코더에서, 저대역 부분 및 고대역 부분을 갖는 입력 신호를 수신하는 단계를 포함한다. 방법은 또한, 입력 신호의 제 1 자기상관 값을 입력 신호의 제 2 자기상관 값과 비교하는 단계를 포함한다. 방법은 스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 입력 신호를 스케일링하는 단계를 더 포함한다. 스케일링 팩터는 비교의 결과에 기초하여 결정된다. 대안으로, 미리 결정된 스케일링 팩터의 값이 비교의 결과에 기초하여 수정된다. 방법은 또한, 입력 신호에 기초하여 저대역 신호를 생성하는 단계 및 스케일링된 입력 신호에 기초하여 고대역 타겟 신호를 생성하는 단계를 포함한다. 저대역 신호는 스케일링된 입력 신호에 관계 없이 생성된다.

본 개시물의 또 다른 구현에 따라, 장치는 인코더 및 동작들을 수행하도록 인코더 내에서 프로세서에 의해 실행가능한 명령들을 저장하는 메모리를 포함한다. 동작들은 입력 신호의 제 1 자기상관 값을 입력 신호의 제 2 자기상관 값과 비교하는 것을 포함한다. 입력 신호는 저대역 부분 및 고대역 부분을 갖는다. 동작들은 스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 입력 신호를 스케일링하는 것을 더 포함한다. 스케일링 팩터는 비교의 결과에 기초하여 결정된다. 대안으로, 미리 결정된 스케일링 팩터의 값이 비교의 결과에 기초하여 수정된다. 동작들은 또한, 입력 신호에 기초하여 저대역 신호를 생성하는 것 및 스케일링된 입력 신호에 기초하여 고대역 타겟 신호를 생성하는 것을 포함한다. 저대역은 스케일링된 입력 신호에 관계 없이 생성된다.

본 개시물의 또 다른 양태에 따라, 비일시적 컴퓨터 판독가능 매체는 고대역 타겟 신호를 생성하기 위한 명령들을 포함한다. 명령들은, 인코더 내에서 프로세서에 의해 실행될 때, 프로세서로 하여금, 동작들을 수행하게 한다. 동작들은 입력 신호의 제 1 자기상관 값을 입력 신호의 제 2 자기상관 값과 비교하는 것을 포함한다. 입력 신호는 저대역 부분 및 고대역 부분을 갖는다. 동작들은 스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 입력 신호를 스케일링하는 것을 포함한다. 스케일링 팩터는 비교의 결과에 기초하여 결정된다. 대안으로, 미리 결정된 스케일링 팩터의 값이 비교의 결과에 기초하여 수정된다. 동작들은 또한, 입력 신호에 기초하여 저대역 신호를 생성하는 것 및 스케일링된 입력 신호에 기초하여 고대역 타겟 신호를 생성하는 것을 포함한다. 저대역 신호는 스케일링된 입력 신호에 관계 없이 생성된다.

본 개시물의 또 다른 구현에 따라, 장치는 저대역 부분 및 고대역 부분을 갖는 입력 신호를 수신하는 수단을 포함한다. 장치는 또한, 입력 신호의 제 1 자기상관 값을 입력 신호의 제 2 자기상관 값과 비교하는 수단을 포함한다. 장치는 스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 입력 신호를 스케일링하는 수단을 더 포함한다. 스케일링 팩터는 비교의 결과에 기초하여 결정된다. 대안으로, 미리 결정된 스케일링 팩터의 값은 비교의 결과에 기초하여 수정된다. 장치는 또한, 입력 신호에 기초하여 저대역 신호를 생성하는 수단 및 스케일링된 입력 신호에 기초하여 고대역 타겟 신호를 생성하는 수단을 포함한다. 저대역 신호는 스케일링된 입력 신호에 관계 없이 생성된다.

도 1 은 고대역 타겟 신호의 정밀도를 제어하도록 동작가능한 시스템을 도시하는 다이어그램이다.
도 2a 는 참조 시간 이득들과 비교하여 도 1 의 기법들에 따라 고대역 타겟 신호를 사용하지 않으면서 추정된 고대역 시간 이득들의 플롯이다.
도 2b 는 참조 시간 이득들과 비교하여 도 1 의 기법들에 따라 고대역 타겟 신호를 사용하여 추정된 고대역 시간 이득들의 플롯이다.
도 3a 는 참조 광대역 타겟 신호와 비교하여 도 1 의 정밀도 기법들을 사용하지 않는 광대역 타겟 신호의 시간 도메인 플롯이다.
도 3b 는 참조 광대역 타겟 신호와 비교하여 도 1 의 정밀도 제어 기법들을 사용한 광대역 타겟 신호의 시간 도메인 플롯이다.
도 4a 는 고대역 타겟 신호를 생성하는 방법의 플로우챠트이다.
도 4b 는 고대역 타겟 신호를 생성하는 방법의 또 다른 플로우챠트이다.
도 5 는 고대역 타겟 신호의 정밀도를 제어하도록 동작가능한 무선 디바이스의 블록 다이어그램이다.
도 6 은 고대역 타겟 신호의 정밀도를 제어하도록 동작가능한 기지국의 블록 다이어그램이다.

고대역 타겟 신호 정밀도를 제어하기 위한 기법들이 개시된다. 인코더는 대략 0 kHz 내지 6 kHz 범위의 저대역을 가지며 대략 6 kHz 내지 8 kHz 범위의 고대역을 갖는 입력 신호를 수신할 수도 있다. 저대역은 제 1 에너지 레벨을 가질 수도 있고 고대역은 제 2 에너지 레벨을 가질 수도 있다. 인코더는 고대역의 LP 스펙트럼 포락선을 추정하고 고대역의 시간 이득 파라미터들을 추정하는데 사용되는 고대역 타겟 신호를 생성할 수도 있다. LP 스펙트럼 포락선 및 시간 이득 파라미터들은 인코딩되고 디코더에 송신되어 고대역을 재구성할 수도 있다. 고대역 타겟 신호는 입력 신호에 기초하여 생성될 수도 있다. 예시를 위해, 인코더는 입력 신호의 스케일링된 버전 상에서 스펙트럼 플립 동작을 수행하여 스펙트럼으로 플립핑된 신호를 생성할 수도 있고, 스펙트럼으로 플립핑된 신호는 데시메이션 처리되어 고대역 타겟 신호를 생성할 수도 있다.

통상적으로, 입력 신호는 데시메이션 동안 부가 동작들이 수행되는 경우 고대역 타겟 신호의 포화도의 가능도를 실질적으로 감소시키는 헤드룸 (headroom) 을 포함하기 위해 (전체 주파수 대역을 고려한 신호의 피크 절대값에 기초하여) 스케일링된다. 예를 들어, 워드-16 입력 신호는 -32768 부터 32767 까지의 고정된 포인트 범위를 포함할 수도 있다. 인코더는 고대역 타겟 신호의 포화도를 감소시키기 위한 목적으로 3 비트의 헤드룸을 포함하도록 입력 신호를 스케일링할 수도 있다. 3 비트의 헤드룸을 포함하도록 입력 신호를 스케일링하면 -4096 부터 4095 까지 고정된 포인트 범위를 효과적으로 감소시킬 수도 있다.

고대역의 제 2 에너지 레벨이 저대역의 제 1 에너지 레벨보다 현저히 낮은 경우, 고대역 타겟 신호는 매우 낮은 에너지 또는 "낮은 정밀도" 을 가질 수도 있고, 추가로 원래 입력 신호의 전체 주파수에 기초하여 계산된 헤드룸을 포함하도록 입력 신호를 스케일링하는 것은 아티팩트들을 초래할 수도 있다. 무시할 수 있는 에너지를 갖는 고대역 타겟 신호를 생성하는 것을 회피하기 위해, 인코더는 입력 신호의 스펙트럼 틸트를 결정할 수도 있다. 스펙트럼 틸트는 전체 주파수 대역에 대한 고대역의 에너지 분포를 나타낼 수도 있다. 예를 들어, 스펙트럼 틸트는 전체 주파수 대역의 에너지를 나타내는 래그 (lag) 인덱스 0 에서의 자기상관 (R_O) 에 기초하고 그리고 래그 인덱스 1 에서의 자기상관 (R₁) 에 기초할 수도 있다. 스펙트럼 틸트가 임계를 만족하지 못하는 경우 (즉, 제 1 에너지 레벨이 제 2 에너지 레벨보다 현저히 큰 경우), 인코더는 고대역 타겟 신호에 대해 더 큰 범위를 제공하기 위해 입력 신호의 스케일링 동안 헤드룸의 양을 감소시킬 수도 있다. 고대역 타겟 신호에 대해 더 큰 범위를 제공하면, 저에너지 고대역에 대해 더 정밀한 에너지 추정들을 가능하게 할 수도 있으며, 이는 결국 아티팩트들을 감소시킬 수도 있다. 스펙트럼 틸트가 임계를 만족하는 경우 (예를 들어, 제 1 에너지 레벨이 제 2 에너지 레벨 보다 현저히 크지 않은 경우, 인코더는 고대역 타겟 신호의 포화도의 가능도를 감소시키기 위해 입력 신호의 스케일링 동안 헤드룸의 양을 증가시킬 수도 있다.

개시된 구현들 중 적어도 하나에 의해 제공된 특정 이점들은 아티팩트들을 감소시키도록 고대역 타겟 신호 정밀도를 증가시키는 것을 포함한다. 예를 들어, 입력 신호의 스케일링 동안 사용된 헤드룸의 양은 입력 신호의 스펙트럼 틸트에 기초하여 동적으로 조정될 수도 있다. 입력 신호의 높은 주파수 부분의 에너지 레벨이 입력 신호의 낮은 주파수 대역의 에너지 레벨보다 현저히 적을 때 헤드룸을 감소시키면, 고대역 타겟 신호에 대해 더 큰 범위를 야기할 수도 있다. 더 큰 범위는 고대역에 대해 더 정확한 에너지 추정들을 가능하게 할 수도 있으며, 이는 결국 아티팩트들을 감소시킬 수도 있다. 본 개시물의 다른 구현들, 이점들 및 특징들은 전체 출원의 검토 후 더 명백해질 것이다.

도 1 을 참조하면, 고대역 타겟 신호의 정밀도를 제어하도록 동작가능한 시스템이 나타나 있으며 일반적으로 100 으로 지정된다. 특정 구현에 있어서, 시스템 (100) 은 인코딩 시스템 또는 장치에 (예를 들어, 무선 전화기의 코더/디코더 (코덱) 에서) 통합될 수도 있다. 다른 구현들에서, 시스템 (100) 은 예시적인 비제한적 예들로서, 셋톱 박스, 뮤직 플레이어, 비디오 플레이어, 엔터테인먼트 유닛, 내비게이션 디바이스, 통신 디바이스, PDA, 고정된 위치 데이터 유닛, 또는 컴퓨터에 통합될 수도 있다. 특정 구현에 있어서, 시스템 (100) 은 보코더에 대응하거나 보코더에 포함될 수도 있다.

다음의 설명에서 도 1 의 시스템 (100) 에 의해 수행되는 다양한 기능들은 소정의 컴포넌트들 또는 모듈들에 의해 수행되는 것으로 설명된다는 것에 유의해야 한다. 그러나, 이러한 컴포넌트들 및 모듈들의 분할은 단지 예시를 위해서이다. 대안의 구현에 있어서, 특정 컴포넌트 또는 모듈에 의해 수행되는 기능은 그 대신에 다수의 컴포넌트들 또는 모듈들 사이에서 분할될 수도 있다. 더욱이, 대안의 구현에서, 도 1 의 2 이상의 컴포넌트들 또는 모듈들은 단일 컴포넌트 또는 모듈로 통합될 수도 있다. 도 1 에서 도시되는 각각의 컴포넌트 또는 모듈은 하드웨어 (예를 들어, 필드-프로그램가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC), 디지털 신호 프로세서 (DSP), 제어기 등), 소프트웨어 (예를 들어, 프로세서에 의해 실행가능한 명령들) 또는 그 임의의 조합을 이용하여 구현될 수도 있다.

시스템 (100) 은 입력 오디오 신호 (102) 를 수신하도록 구성되는 분석 필터 뱅크 (110) 를 포함할 수도 있다. 예를 들어, 입력 오디오 신호 (102) 는 마이크로폰 또는 다른 입력 디바이스에 의해 제공될 수도 있다. 특정 구현에서, 입력 오디오 신호 (102) 는 스피치를 포함할 수도 있다. 입력 오디오 신호 (102) 는 대략 0 Hz 부터 대략 8 kHz 까지의 주파수 범위에서의 스피치 콘텐츠를 포함할 수도 있다. 본 명세서에서 사용된 바와 같이, "대략" 은 기재된 주파수의 특정 범위 내의 주파수를 포함할 수도 있다. 예를 들어, 대략은 기재된 주파수의 10 퍼센트, 기재된 주파수의 5 퍼센트, 기재된 주파수의 1 퍼센트 등 내의 주파수를 포함할 수도 있다. 예시적인 비제한적 예로서, "대략 8 kHz" 는 7.6 kHz (예를 들어, 8 kHz - 8 kHz * 0.05) 부터 8.4 kHz (예를 들어, 8 kHz + 8 kHz * 0.05) 까지의 주파수를 포함할 수도 있다. 입력 오디오 신호 (102) 는 대략 0 Hz 부터 6 kHz 까지 걸치는 저대역 부분 및 대략 6 kHz 부터 8 kHz 까지 걸치는 고대역 부분을 포함할 수도 있다. 입력 오디오 신호 (102) 가 광대역 신호 (예를 들어, 0 Hz 와 8 kHz 사이의 주파수 범위를 갖는 신호) 로서 도시되어 있지만, 본 개시물에 관하여 기재된 기법들은 또한 초 광대역 신호들 (예를 들어, 0 Hz 와 16 Hz 사이의 주파수 범위를 갖는 신호) 및 전대역 신호들 (예를 들어, 0 Hz 와 20 kHz 사이의 주파수 범위를 갖는 신호) 에 적용가능할 수도 있음을 이해해야 한다.

분석 필터 뱅크 (110) 는 리샘플러 (103), 스펙트럼 틸트 분석 모듈 (105), 스케일링 팩터 선택 모듈 (107), 스케일링 모듈 (109), 및 고대역 타겟 신호 생성 모듈 (113) 을 포함한다. 입력 오디오 신호 (102) 는 리샘플러 (103), 스펙트럼 틸트 분석 모듈 (105), 및 스케일링 모듈 (109) 에 제공될 수도 있다. 리샘플러 (103) 는 저대역 신호 (122) 를 생성하기 위해 입력 오디오 신호 (102) 의 고대역 주파수 컴포넌트들을 필터링해내도록 구성될 수도 있다. 예를 들어, 리샘플러 (103) 는 대략 0 Hz 부터 대략 6.4 kHz 까지 확장하는 대역폭을 갖는 저대역 신호 (122) 를 생성하도록 대략 6.4 kHz 의 컷오프 주파수를 가질 수도 있다.

스펙트럼 틸트 분석 모듈 (105), 스케일링 팩터 선택 모듈 (107), 스케일링 모듈 (109), 및 고대역 타겟 신호 생성 모듈 (113) 은 입력 오디오 신호 (102) 의 고대역의 LP 스펙트럼 포락선을 추정하는데 사용되고 입력 오디오 신호 (102) 의 고대역의 시간 이득 파라미터들을 추정하는데 사용되는 고대역 타겟 신호 (126) 를 생성하도록 협력하여 동작할 수도 있다. 예시를 위해, 스펙트럼 틸트 분석 모듈 (105) 은 입력 오디오 신호 (102) 와 연관된 스펙트럼 틸트를 결정할 수도 있다. 스펙트럼 틸트는 입력 오디오 신호 (102) 의 에너지 분포에 기초할 수도 있다. 예를 들어, 시간 도메인에서의 입력 오디오 신호 (102) 의 전체 주파수 대역의 에너지를 나타내는 래그 인덱스 0 에서의 자기상관 (R₀) 과 시간 도메인에서의 에너지를 나타내는 래그 인덱스 1 에서의 자기상관 (R₁) 사이의 비율에 기초할 수도 있다. 일 구현에 따라, 래그 인덱스 1 에서의 자기상관 (R₁) 은 인접 샘플들의 곱의 총합에 기초하여 계산될 수도 있다. 하기에 기재된 의사코드에서, 래그 인덱스 0 에서의 자기상관 (R₀) 은 "temp1" 로 지정되고, 래그 인덱스 1 에서의 자기상관 (R₁) 은 "temp2" 로 지정된다. 일 구현에 따라, 스펙트럼 틸트는 자기상관 (R₁) 및 자기상관 (R₀) 으로부터 야기되는 몫 (예를 들어, R₁/R₀ 또는 temp2/temp1) 으로서 표현될 수도 있다. 스펙트럼 틸트 분석 모듈 (105) 은 스펙트럼 틸트를 표시하는 신호 (106) 를 생성할 수도 있고 그 신호 (106) 를 스케일링 팩터 선택 모듈 (107) 에 제공할 수도 있다.

스케일링 팩터 선택 모듈 (107) 은 입력 오디오 신호 (102) 를 스케일링하는데 사용될 스케일링 팩터 (예를 들어, "정밀도 제어 팩터" 또는 "규범 팩터") 를 선택할 수도 있다. 스케일링 팩터는 신호 (106) 에 의해 표시된 스펙트럼 틸트에 기초할 수도 있다. 예를 들어, 스케일링 팩터 선택 모듈 (107) 은 스케일링 팩터를 결정하기 위해 스펙트럼 틸트를 임계와 비교할 수도 있다. 비제한적 예로서, 스케일링 팩터 선택 모듈 (107) 은 스펙트럼 틸트를 95 퍼센트의 임계 (예를 들어, 0.95) 와 비교할 수도 있다.

스펙트럼 틸트가 임계를 만족하지 못하면 (예를 들어, 임계 보다 적지 않으면, 즉 R1/R1 >= 0.95), 스케일링 팩터 선택 모듈 (107) 은 제 1 스케일링 팩터를 선택할 수도 있다. 제 1 스케일링 팩터를 선택하는 것은, 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨보다 현저히 더 큰 시나리오를 표시할 수도 있다. 예를 들어, 입력 오디오 신호 (102) 의 에너지 분포는, 스펙트럼 틸트가 임계를 만족하지 못할 때 상대적으로 가파를 수도 있다. 스펙트럼 틸트가 임계를 만족하면 (예를 들어, 임계 미만이면), 스케일링 팩터 모듈 (107) 은 제 2 스케일링 팩터를 선택할 수도 있다. 제 2 스케일링 팩터를 선택하는 것은 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨보다 현저히 크지 않은 시나리오를 표시할 수도 있다. 예를 들어, 입력 오디오 신호 (102) 의 에너지 분포는, 스펙트럼 틸트가 임계 기준 (즉, R1/R0 < 0.95) 를 만족할 때 저대역 및 고대역에 걸쳐 상대적으로 고르게 될 수도 있다. 일 예로서, 제 1 스케일링 팩터는 3 비트의 헤드룸을 남기도록 입력 신호를 정규화 (즉, 16 비트 타입 신호에 대해 -4096 내지 4095 로 입력 신호를 제한) 하도록 추정될 수도 있고 제 2 스케일링 팩터는 헤드룸을 남기지 않도록 입력 신호를 정규화 (즉, 16 비트 타입 신호에 대해 -32768 내지 32767 로 입력 신호를 제한) 하도록 추정될 수도 있다.

스케일링 팩터 선택 모듈 (107) 은 선택된 스케일링 팩터를 표시하는 신호 (108) 를 생성할 수도 있고 그 신호 (108) 를 스케일링 모듈 (109) 에 제공할 수도 있다. 예를 들어, 제 1 스케일링 팩터가 선택되는 경우, 신호 (108) 는 스케일링 팩터 선택 모듈 (107) 에 의해 제 1 스케일링 팩터가 선택되었다는 것을 표시하는 제 1 값을 가질 수도 있다. 제 2 스케일링 팩터가 선택되는 경우, 신호 (108) 는 스케일링 팩터 선택 모듈 (107) 에 의해 제 2 스케일링 팩터가 선택되었다는 것을 표시하는 제 2 값을 가질 수도 있다. 일 예로서, 신호 (108) 는 선택된 스케일 팩터 값 그 자체일 수도 있다.

스케일링 모듈 (109) 은 스케일링된 입력 오디오 신호 (112) 를 생성하기 위해 선택된 스케일링 팩터에 의해 입력 오디오 신호 (102) 를 스케일링하도록 구성될 수도 있다. 예시를 위해, 제 2 스케일링 팩터가 선택되는 경우, 스케일링 모듈 (109) 은 스케일링된 입력 오디오 신호 (112) 를 생성하기 위해 입력 오디오 신호 (102) 의 스케일링 동안 헤드룸의 양을 증가시킬 수도 있다. 일 구현에 따라, 스케일링 모듈 (109) 은 입력 오디오 신호 (102) 에 할당된 헤드룸을 3 비트의 헤드룸으로 증가시킬 수도 있다 (또는 유지할 수도 있다). 하기에 기재된 바와 같이, 입력 오디오 신호 (102) 의 스케일링 동안 헤드룸의 양을 증가시키면, 고대역 타겟 신호 (126) 의 생성 동안 포화도의 가능도를 감소시킬 수도 있다. 제 1 스케일링 팩터가 선택되는 경우, 스케이링 모듈 (109) 은 스케일링된 입력 오디오 신호 (112) 를 생성하기 위해 입력 오디오 신호 (102) 의 스케일링 동안 헤드룸의 양을 감소시킬 수도 있다. 일 구현에 따라, 스케일링 모듈 (109) 은 입력 오디오 신호 (102) 에 할당된 헤드룸을 0 비트의 헤드룸으로 감소시킬 수도 있다. 하기에 기재된 바와 같이, 입력 오디오 신호 (102) 의 스케일링 동안 헤드룸의 양을 감소시키면, 저에너지 고대역에 대해 더 정밀한 에너지 추정들을 가능하게 할 수도 있으며, 이는 결국 아티팩트들을 감소시킬 수도 있다.

고대역 타겟 신호 생성 모듈 (113) 은 스케일링된 입력 오디오 신호 (112) 를 수신할 수도 있고 스케일링된 입력 오디오 신호 (112) 에 기초하여 고대역 타겟 신호 (126) 를 생성하도록 구성될 수도 있다. 예시를 위해, 고대역 타겟 신호 생성 모듈 (113) 은 스펙트럼으로 플립핑된 신호를 생성하기 위해 스케일링된 입력 오디오 신호 (112) 상에서 스펙트럼 플립 동작을 수행할 수도 있다. 예를 들어, 스케일링된 입력 오디오 신호 (112) 의 상부 주파수 컴포넌트들은 스펙트럼으로 플립핑된 신호의 하부 주파수에 위치될 수도 있고, 스케일링된 오디오 신호 (112) 의 낮은 주파수 컴포넌트들은 스펙트럼으로 플립핑된 신호의 상부 주파수에 위치될 수도 있다. 이와 같이, 스케일링된 입력 오디오 신호 (112) 가 0 Hz 부터 8 kHz 까지 걸치는 8 kHz 대역폭을 갖는 경우, 스케일링된 입력 오디오 신호 (112) 의 8 kHz 주파수 컴포넌트는 스펙트럼으로 플립핑된 신호의 0 kHz 주파수에 위치될 수도 있고, 스케일링된 입력 오디오 신호 (112) 의 0 kHz 주파수 컴포넌트는 스펙트럼으로 플립핑된 신호의 8 kHz 주파수에 위치될 수도 있다.

고대역 타겟 신호 생성 모듈 (113) 은 고대역 타겟 신호 (126) 를 생성하기 위해 스펙트럼으로 플립핑된 신호 상에서 데시메이션 동작을 수행하도록 구성될 수도 있다. 예를 들어, 고대역 타겟 신호 생성 모듈 (113) 은 고대역 타겟 신호 (126) 을 생성하기 위해 4 의 팩터에 의해 스펙트럼으로 플립핑된 신호를 데시메이션할 수도 있다. 고대역 타겟 신호 (126) 는 0 Hz 부터 2 kHz 까지 걸치는 기저대역 신호일 수도 있고 입력 오디오 신호 (102) 의 고대역을 나타낼 수도 있다.

고대역 타겟 신호 (126) 는 스케일링 팩터 선택 모듈 (107) 에 의해 선택된 동적 스케일링 팩터에 기초하여 증가된 정밀도를 가질 수도 있다. 예를 들어, 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨 보다 현저히 큰 시나리오에서, 입력 오디오 신호 (102) 는 헤드룸의 양을 감소시키도록 스케일링될 수도 있다. 헤드룸의 양을 감소시키면, 고대역의 에너지가 더 정확히 캡처될 수도 있도록 고대역 타겟 신호 (126) 를 생성하도록 더 큰 범위를 제공할 수도 있다. 고대역 타겟 신호에 의해 고대역의 에너지를 정확히 캡처하면, 고대역 이득 파라미터들 (예를 들어, 고대역 부가 정보 (172)) 의 추정 개선 및 아티팩트들 감소를 야기할 수도 있다. 예를 들어, 도 2b 를 참조하면, 참조 시간 이득들과 비교하여 고대역 타겟 신호 (126) 를 사용하여 추정된 고대역 시간 이득들의 플롯이 나타나 있다. 고대역 타겟 신호 (126) 를 사용하여 추정된 시간 이득들은 추정된 시간 이득들이 참조 시간 이득들로부터 상당히 벗어나는 도 2a 와 비교할 때 참조 시간 이득들을 근접하게 모방한다. 따라서, 감소된 아티팩트들 (예를 들어, 노이즈) 이 신호 재구성 동안 야기될 수도 있다.

저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨 보다 현저히 더 크지 않은 시나리오들에서, 입력 오디오 신호 (102) 는 헤드룸의 양을 증가시키도록 스케일링될 수도 있다. 양을 증가시키면 고대역 타겟 신호 (126) 의 생성 동안 포화도의 가능도를 감소시킬 수도 있다. 예를 들어, 데시메이션 동안, 고대역 타겟 신호 생성 모듈 (113) 은 헤드룸이 충분하지 않은 경우 포화도를 야기할 수도 있는 부가 동작들을 수행할 수도 있다. 헤드룸의 양을 증가시키면 (또는 헤드룸의 미리 정의된 양을 유지하면) 고대역 타겟 신호 (126) 의 포화도를 실질적으로 감소시킬 수도 있다. 예를 들어, 도 3b 를 참조하면, 참조 광대역 타겟 신호와 비교한 고대역 타겟 신호 (126) 의 시간 도메인 플롯이 나타나 있다. 고대역 타겟 신호 (126) 의 에너지 레벨은, 에너지 레벨이 참조 광대역 타겟 신호의 에너지 레벨로부터 현저히 벗어나는 도 3a 와 비교할 때 참조 광대역 타겟 신호의 에너지 레벨을 근접하여 모방한다. 따라서, 감소된 포화도가 달성될 수도 있다.

분석 필터 뱅크 (110) 가 다수의 모듈들 (105, 107, 109, 113) 을 포함하지만, 다른 구현들에서, 모듈들 (105, 107, 109, 113) 의 하나 이상의 기능들이 조합될 수도 있다. 일 구현에 따라, 모듈들 (105, 107, 109, 113) 의 하나 이상이 다음의 의사코드에 기초하여 고대역 타겟 신호 (126) 의 정밀도를 생성하고 제어하도록 동작할 수도 있다.

의사코드에 의하면, “max_wb” 는 입력 오디오 신호 (102) 의 최대 샘플값에 대응하고, “new_inp_resamp16k[i]”는 입력 오디오 신호 (102) 에 대응한다. 예를 들어, new_inp_resamp16k[i] 는 0 Hz 부터 8 kHz 까지 걸치는 주파수를 가질 수도 있고 16 kHz 의 나이퀴스트 (Nyquist) 샘플링 레이트로 샘플링될 수도 있다. 각각의 샘플에 대하여, 입력 오디오 신호 (102)(max_wb) 는 입력 오디오 신호 (102)(new_inp_resamp16k[i]) 의 최대 절대값으로 설정될 수도 있다. 파라미터 (“Q_wb_sp”) 는 입력 오디오 신호 (102)(new_inp_resamp16k[i]) 가 그 신호 (new_inp_resamp16k[i]) 의 전체 범위를 커버하면서 남겨지도록 시프트될 수도 있는 다수의 비트들을 표시할 수도 있다. 의사 코드에 의하면, 파라미터 (Q_wb_sp) 는 max_wb 의 규범과 동일할 수도 있다.

의사코드에 의하면, 스펙트럼 틸트는 입력 오디오 신호 (102) 의 래그 인덱스 1 (“temp2”) 에서의 자기상관 (R₁) 과 래그 인덱스 0 (“temp1”) 에서의 자기상관 (R₀) 사이의 비율에 기초할 수도 있다. 래그 인덱스 1 에서의 자기상관 (R₁) 은 인접 샘플들의 곱의 총합에 기초하여 계산될 수도 있다.

자기상관 (R₁) 이 자기상관 (R₀) 에 의해 승산된 임계 (0.95) 미만인 경우, 파라미터 (Q_wb_sp) 는 고대역 타겟 신호 (126) 의 생성 동안 포화도의 가능도를 감소시키기 위해 스케일링 동안 3 비트 이상의 부가 헤드룸을 유지할 수도 있다. 자기상관 (R₁) 이 자기상관 (R₀) 에 의해 승산된 임계 (0.95) 보다 작지 않은 경우, (Q_wb_sp) 는 고대역의 에너지가 더 정확히 캡처될 수도 있도록 고대역 타겟 신호 (126) 를 생성하기 위해 더 큰 범위를 제공하도록 스케일링 동안 헤드룸을 0 비트로 감소시킬 수도 있다. 의사코드에 의하면, 입력 신호가 Q_wb_sp 비트들의 수만큼 좌측으로 시프트되며, 이는 스케일링 팩터 선택 모듈 (107) 에 의해 선택된 최종 스케일링 팩터가 2^Q_ ^wb ^_ ^sp 에 대응하게 되는 것을 의미한다. 고대역 타겟 신호에 의해 고대역의 에너지를 정확히 캡처하면 고대역 이득 파라미터들 (예를 들어, 고대역 부가 정보 (172)) 의 추정을 개선하고 아티팩트들을 감소시킬 수도 있다. 일부 예시의 실시형태들에서, 고대역 타겟 신호 (126) 는 원래의 입력 레벨로 (예를 들어, Q-팩터들: Q₀ 또는 Q_-1 에서) 다시 재스케일링될 수도 있어서, 메모리는 고대역 파라미터 추정을 업데이트하고, 플레임들에 걸친 고대역 합성은 고정된 시간 스케일 팩터 조정을 유지한다.

위의 예시는 WB 코딩 (예를 들어, 대략 0 Hz 부터 8 kHz 까지의 코딩) 에 대해 필터링하는 것을 예시한다. 다른 예들에서, 분석 필터 뱅크 (110) 는 SWB 코딩 (예를 들어, 대략 0 Hz 부터 16 kHz 까지의 코딩) 및 전대역 (FB) 코딩 (예를 들어, 대략 0 Hz 부터 20 kHz 까지의 코딩) 에 대해 입력 오디오 신호를 필터링할 수도 있다. 예를 위해서, 예시를 용이하게 하기 위해, 달리 언급되지 않으면, 다음의 기재는 일반적으로 WB 코딩에 관하여 기재된다. 하지만, 유사한 기법들이 SWB 코딩 및 FV 코딩을 수행하는데 적용될 수도 있다.

시스템 (100) 은 저대역 신호 (122) 를 수신하도록 구성된 저대역 분석 모듈 (130) 을 포함할 수도 있다. 특정 구현에서, 저대역 분석 모듈 (130) 은 CELP 인코더를 나타낼 수도 있다. 저대역 분석 모듈 (130) 은 LP 분석 및 코딩 모듈 (132), 선형 예측 계수 (LPC) 대 LSP 변환 모듈 (134) 및 양자화기 (136) 를 포함할 수도 있다. LSP들은 또한 LSF들로서 지칭될 수도 있고, 본 명세서에서 2 개의 용어들 (LSP 및 LSF) 은 상호 교환가능하게 이용될 수도 있다. LP 분석 및 코딩 모듈 (132) 은 LPC들의 세트로서 저대역 신호 (122) 의 스펙트럼 포락선을 인코딩할 수도 있다. LPC들은 오디오의 각각의 프레임 (예를 들어, 16 kHz 의 샘플링 레이트에서 320 개의 샘플들에 대응하는, 오디오의 20 ms) 에 대해, 오디오의 각각의 서브-프레임 (예를 들어, 오디오의 5 ms) 또는 이의 임의의 조합에 대해 생성될 수도 있다. 각각의 프레임 또는 서브-프레임에 대해 생성되는 LPC들의 수는 수행된 LP 분석의 "차수 (order)" 에 의해 결정될 수도 있다. 특정 구현에서, LP 분석 및 코딩 모듈 (132) 은 10-차 LP 분석에 대응하는 11 개의 LPC들의 세트를 생성할 수도 있다.

LPC 대 LSP 변환 모듈 (134) 은 (예를 들어, 일-대-일 변환을 이용하여) LP 분석 및 코딩 모듈 (132) 에 의해 생성된 LPC들의 세트를 LSP들의 대응 세트로 변환할 수도 있다. 대안으로, LPC들의 세트는 파코어 (parcor) 계수들, 로그-면적비 값들, 이미턴스 스펙트럼 쌍 (immittance spectral pairs; ISP) 들 또는 이미턴스 스펙트럼의 주파수 (ISF) 들의 대응 세트로 일-대-일 변환될 수도 있다. LPC들의 세트와 LSP들의 세트 사이의 변환은 에러 없이 가역가능할 수도 있다.

양자화기 (136) 는 변환 모듈 (134) 에 의해 생성되는 LSP들의 세트를 양자화할 수도 있다. 예를 들어, 양자화기 (136) 는 다수의 엔트리들 (예를 들어, 벡터들) 을 포함하는 다수의 코드북들을 포함하거나 그에 커플링될 수도 있다. LSP들의 세트를 양자화하기 위해, 양자화기 (136) 는 LSP들의 세트에 (예를 들어, 최소 제곱 또는 평균 제곱 에러와 같은 왜곡 측정에 기초하여) "가장 근접한" 코드북들의 엔트리들을 식별할 수도 있다. 양자화기 (136) 는 코드북에서 식별된 엔트리들의 위치에 대응하는 인덱스 값 또는 인덱스 값들의 시리즈들을 출력할 수도 있다. 이에 따라 양자화기 (136) 의 출력은 저대역 비트 스트림 (142) 에 포함되는 저대역 필터 파라미터들을 나타낼 수도 있다.

저대역 분석 모듈 (130) 은 또한 저대역 여기 신호 (144) 를 생성할 수도 있다. 예를 들어, 저대역 여기 신호 (144) 는 저대역 분석 모듈 (130) 에 의해 수행되는 LP 프로세스 동안에 생성되는 LP 잔차 신호를 양자화함으로써 생성되는 인코딩된 신호일 수도 있다. LP 잔차 신호는 저대역 여기 신호 (144) 의 예측 에러를 나타낼 수도 있다.

시스템 (100) 은 분석 필터 뱅크 (110) 로부터 고대역 타겟 신호 (126) 를 수신하고 그리고 저대역 분석 모듈 (130) 로부터 저대역 여기 신호 (144) 를 수신하도록 구성된 고대역 분석 모듈 (150) 을 더 포함할 수도 있다. 고대역 분석 모듈 (150) 은 고대역 타겟 신호 (126) 에 기초하고 그리고 저대역 여기 신호 (144) 에 기초하여 고대역 부가 정보 (172) 를 생성할 수도 있다. 예를 들어, 고대역 부가 정보 (172) 는 고대역 LSP들, 이득 정보 및/또는 위상 정보를 포함할 수도 있다.

도시된 바와 같이, 고대역 분석 모듈 (150) 은 LP 분석 및 코딩 모듈 (152), LPC 대 LSP 변환 모듈 (154) 및 양자화기 (156) 를 포함할 수도 있다. 각각의 LP 분석 및 코딩 모듈 (152), LPC 대 LSP 변환 모듈 (154), 및 양자화기 (156) 는 저대역 분석 모듈 (130) 의 대응 컴포넌트들을 참조하여 위에 기재된 바와 같이, 그러나 비교적 감소된 분해능으로 (예를 들어, 각각의 계수, LSP 등에 대해 더 적은 비트들을 이용하여), 기능할 수도 있다. LP 분석 및 코딩 모듈 (152) 은, 변환 모듈 (154) 에 의해 LSP들의 세트로 변환되고 코드북 (163) 에 기초하여 양자화기 (156) 에 의해 양자화되는, 고대역 타겟 신호 (126) 에 대한 LPC들의 세트를 생성할 수도 있다.

LP 분석 및 코딩 모듈 (152), 변환 모듈 (154) 및 양자화기 (156) 는 고대역 부가 정보 (172) 에 포함되는 고대역 필터 정보 (예를 들어, 고대역 LSP들) 을 결정하기 위해 고대역 타겟 신호 (126) 를 이용할 수도 있다. 예를 들어, LP 분석 및 코딩 모듈 (152), 변환 모듈 (154), 및 양자화기 (156) 는 고대역 부가 정보 (172) 를 결정하기 위해 고대역 여기 신호 (162) 및 고대역 타겟 신호 (126) 를 사용할 수도 있다.

양자화기 (156) 는 변환 모듈 (154) 에 의해 제공된 LSP들과 같은, 스펙트럼 주파수 값들의 세트를 양자화하도록 구성될 수도 있다. 다른 구현들에서, 양자화기 (156) 는 LSF들 또는 LSP들에 부가하여 또는 이들 대신, 스펙트럼 주파수 값들의 하나 이상의 다른 타입들의 세트를 수신하고 양자화할 수도 있다, 예를 들어, 양자화기 (156) 는 LP 분석 및 코딩 모듈 (152) 에 의해 생성된 LPC들의 세트를 수신하고 양자화할 수도 있다. 다른 예들은 양자화기 (156) 에서 수신되고 양자화될 수도 있는 ISF들, 로그-면적비 값들, 및 파코어 계수들의 세트를 포함할 수도 있다. 양자화기 (156) 는 코드북 (163) 과 같은, 코드북 또는 테이블에서의 대응 엔트리로 인덱스로서의 입력 벡터 (예를 들어, 벡터 포맷에서의 스펙트럼 주파수 값들의 세트) 를 인코딩하는 벡터 양자화기를 포함할 수도 있다. 다른 예로서, 양자화기 (156) 는, 입력 벡터가 스토리지로부터 취출되기 보다, 희소 (sparse) 코드북 구현에서와 같은, 디코더에서 동적으로 생성될 수도 있는 하나 이상의 파라미터들을 결정하도록 구성될 수도 있다. 예시를 위해, 희소 코드북 예들은 3GPP2 (제 3 세대 파트너쉽 2) EVRC (강화된 가변 레이트 코덱) 과 같은 산업 표준들에 따른 코덱들 및 CELP 와 같은 코딩 스킴에 적용될 수도 있다. 다른 구현에서, 고대역 분석 모듈 (150) 은 양자화기 (156) 를 포함할 수도 있고 다수의 코드북 벡터들을 사용하여 (예를 들어, 필터 파라미터들의 세트에 따라) 합성된 신호들을 생성하고 지각적 가중화 도메인 (perceptually weighted domain) 에서와 같은, 고대역 타겟 신호 (126) 와 최상으로 매칭하는 합성된 신호와 연관된 코드북 벡터들 중 하나를 선택하도록 구성될 수도 있다.

고대역 분석 모듈 (150) 은 고대역 여기 생성기 (160) 를 또한 포함할 수도 있다. 고대역 여기 생성기 (160) 는 저대역 분석 모듈 (130) 로부터의 저대역 여기 신호 (144) 에 기초하여 고대역 여기 신호 (162)(예를 들어, 조화적 확장 신호 (harmonically extended signal)) 를 생성할 수도 있다. 고대역 분석 모듈 (150) 은 또한 LP 합성 모듈 (166) 을 포함할 수도 있다. LP 합성 모듈 (166) 은 고대역 타겟 신호 (126) 의 합성된 버전을 생성하기 위해 양자화기 (156) 에 의해 생성된 LPC 정보를 사용한다. 고대역 여기 생성기 (160) 및 LP 합성 모듈 (166) 은 수신기에서 디코더 디바이스의 성능을 에뮬레이트하는 로컬 디코더에 포함될 수도 있다. LP 합성 모듈 (166) 의 출력은 고대역 타겟 신호 (126) 에 대한 비교를 위해 사용될 수도 있고 파라미터들 (예를 들어, 이득 파라미터들) 은 그 비교에 기초하여 조정될 수도 있다.

저대역 비트 스트림 (142) 및 고대역 부가 정보 (172) 는 멀티플렉서 (170) 에 의해 멀티플렉싱되어 출력 비트 스트림 (199) 을 생성할 수도 있다. 출력 비트 스트림 (199) 은 입력 오디오 신호 (102) 에 대응하는 인코딩된 오디오 신호를 나타낼 수도 있다. 출력 비트 스트림 (199) 은 송신기 (198) 에 의해 (예를 들어, 유선, 무선, 또는 광학 채널을 통해) 송신되고 및/또는 저장될 수도 있다. 수신기에서, 디멀티플렉서 (DEMUX), 저대역 디코더, 고대역 디코더 및 필터 뱅크에 의해 역 동작들이 수행되어 오디오 신호 (예를 들어, 스피커 또는 다른 출력 디바이스에 제공되는 입력 오디오 신호 (102) 의 재구성된 버전) 를 생성할 수도 있다. 저대역 비트 스트림 (142) 을 나타내기 위해 이용되는 비트들의 수는 실질적으로 고대역 부가 정보 (172) 를 나타내는데 이용되는 비트들의 수보다 클 수도 있다. 따라서, 출력 비트 스트림 (199) 에서의 비트들의 대부분은 저대역 데이터를 나타낼 수도 있다. 고대역 부가 정보 (172) 는 신호 모델에 따라 저대역 데이터로부터 고대역 여기 신호 (162, 164) 를 재생성하기 위하여 수신기에서 이용될 수도 있다. 예를 들어, 신호 모델은 저대역 데이터 (예를 들어,저대역 신호 (122)) 와 고대역 데이터 (예를 들어, 고대역 타겟 신호 (126)) 사이의 관계들 또는 상관들의 예상된 세트를 나타낼 수도 있다. 따라서, 상이한 종류의 오디오 데이터 (예를 들어, 스피치, 뮤직 등) 에 대하여 상이한 신호 모델들이 이용될 수도 있고, 이용 중에 있는 특정 신호 모델은 인코딩된 오디오 데이터의 통신 전에 송신기 및 수신기에 의해 협상될 수도 있다 (또는 산업 표준에 의해 정의될 수도 있다). 신호 모델을 이용하여, 송신기에서의 고대역 분석 모듈 (150) 은, 수신기에서의 대응 고대역 분석 모듈이 출력 비트 스트림 (199) 으로부터 고대역 타겟 신호 (126) 를 재구성하기 위해 신호 모델을 이용하는 것이 가능하도록 고대역 부가 정보 (172) 를 생성하는 것이 가능할 수도 있다.

도 1 의 시스템 (100) 은 스케일링 팩터 선택 모듈 (107) 에 의해 선택된 동적 스케일링 팩터에 기초하여 고대역 타겟 신호 (126) 의 정밀도를 제어할 수도 있다. 예를 들어, 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨보다 현저히 큰 시나리오들에서, 입력 오디오 신호 (102) 는 헤드룸의 양을 감소시키도록 스케일링될 수도 있다. 헤드룸의 양을 감소시키면 고대역의 에너지가 더 정확히 캡처될 수도 있도록 고대역 타겟 신호 (126) 를 생성하는데 더 큰 범위를 제공할 수도 있다. 고대역 타겟 신호에 의해 고대역의 에너지를 정확히 캡처하면 고대역 이득 파라미터들 (예를 들어, 고대역 부가 정보 (172)) 의 추정 개선 및 아티팩트 감소를 야기할 수도 있다. 저대역의 제 1 에너지가 고대역의 제 2 에너지보다 현저히 크지 않은 시나리오들에서, 입력 오디오 신호 (102) 는 헤드룸의 양을 증가시키도록 스케일링될 수도 있다. 양을 증가시키면 고대역 신호 (126) 의 생성 동안 포화도의 가능도를 감소시킬 수도 있다. 예를 들어, 데시메이션 동안 고대역 타겟 신호 생성 모듈 (113) 은 충분한 헤드룸이 없는 경우 포화도를 야기할 수도 있는 부가 동작들을 수행할 수도 있다. 헤드룸의 양을 증가시키면 (또는 헤드룸의 미리 정의된 양을 유지하면) 고대역 타겟 신호 (126) 의 포화도를 실질적으로 감소시킬 수도 있다.

도 4a 를 참조하면, 고대역 타겟 신호를 생성하는 방법 (400) 의 플로우챠트가 나타나 있다. 방법은 도 1 의 시스템 (100) 에 의해 수행될 수도 있다.

방법 (400) 은, 402 에서, 저대역 부분 및 고대역 부분을 갖는 입력 신호를 인코더에서 수신하는 것을 포함한다. 예를 들어, 도 1 을 참조하면, 분석 필터 대역 (110) 은 입력 오디오 신호 (102) 를 수신할 수도 있다. 특히, 리샘플러 (103), 스펙트럼 틸트 분석 모듈 (105), 및 스케일링 모듈 (109) 은 입력 오디오 신호 (102) 를 수신할 수도 있다. 입력 오디오 신호 (102) 는 0 Hz 와 6 kHz 사이의 주파수 범위를 갖는 저대역 부분을 가질 수도 있다. 입력 오디오 신호 (102) 는 또한 6 kHz 와 8 kHz 사이의 주파수 범위를 갖는 고대역 부분을 가질 수도 있다.

404 에서, 입력 신호와 연관된 스펙트럼 틸트가 결정될 수도 있다. 스펙트럼 틸트는 입력 신호의 에너지 분포에 기초할 수도 있다. 일 구현에 따라, 입력 신호의 에너지 분포는 저대역의 제 1 에너지 레벨 및 고대역의 제 2 에너지 레벨에 적어도 부분적으로 기초할 수도 있다. 도 1 을 참조하면, 스펙트럼 틸트 분석 모듈 (105) 은 입력 오디오 신호 (102) 와 연관된 스펙트럼 틸트를 결정할 수도 있다. 스펙트럼 틸트는 입력 오디오 신호 (102) 의 에너지 분포에 기초할 수도 있다. 예를 들어, 스펙트럼 틸트는 시간 도메인에서의 입력 오디오 신호 (102) 의 전체 주파수 대역의 에너지를 나타내는 래그 인덱스 0 에서의 자기상관 (R₀) 과 시간 도메인에서의 고대역의 에너지를 나타내는 래그 인덱스 1 에서의 자기상관 (R₁) 사이의 비율에 기초할 수도 있다. 일 구현에 따라, 래그 인덱스 1 에서의 자기상관 (R₁) 은 인접 샘플들의 곱의 총합에 기초하여 계산될 수도 있다. 스펙트럼 틸트는 자기상관 (R₁) 및 자기상관 (R₀) 으로부터 야기되는 몫 (예를 들어, R₁/R₀) 으로서 표현될 수도 있다. 스펙트럼 틸트 분석 모듈 (105) 은 스펙트럼 틸트를 표시하는 신호 (106) 를 생성할 수도 있고 그 신호를 스펙트럼 선택 모듈 (107) 에 제공할 수도 있다.

406 에서, 스케일링 팩터는 스펙트럼 틸트에 기초하여 선택될 수도 있다. 예를 들어, 도 1 을 참조하면, 스케일링 팩터 선택 모듈 (107) 은 입력 오디오 신호 (102) 를 스케일링하는데 사용되도록 스케일링 팩터를 선택할 수도 있다. 스케일링 팩터는 신호 (106) 에 의해 표시된 스펙트럼 틸트에 기초할 수도 있다. 예를 들어, 스케일링 팩터 선택 모듈 (107) 은 스펙트럼 틸트를 임계와 비교하여 스케일링 팩터를 결정할 수도 있다. 스펙트럼 틸트가 임계를 만족하지 못하면 (예를 들어, 임계보다 작지 않거나 R1/R0 >=0.95 이면), 스케일링 팩터 선택 모듈 (107) 은 제 1 스케일링 팩터를 선택할 수도 있다. 제 1 스케일링 팩터를 선택하는 것은 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨 보다 현저히 큰 시나리오를 나타낼 수도 있다. 예를 들어, 입력 오디오 신호 (102) 의 에너지 분포는 스펙트럼 틸트가 임계를 만족하지 않을 때 상대적으로 가파를 수도 있다. 스펙트럼 틸트가 임계를 만족하면 (예를 들어, 임계 미만이면), 스케일링 팩터 모듈 (107) 은 제 2 스케일링 팩터를 선택할 수도 있다. 제 2 스케일링 팩터를 선택하는 것은 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨보다 현저히 크지 않은 시나리오를 나타낼 수도 있다. 예를 들어, 입력 오디오 신호 (102) 의 에너지 분포는 스펙트럼 틸트가 임계 기준을 만족할 때 (즉, R1/R0 < 0.95) 저대역 및 고대역에 걸쳐 상대적으로 고르게 될 수도 있다.

408 에서, 입력 신호는 스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 스케일링될 수도 있다. 예를 들어, 도 1 을 참조하면, 스케일링 모듈 (109) 은 선택된 스케일링 팩터에 의해 입력 오디오 신호 (102) 를 스케일링하여 스케일링된 입력 오디오 신호 (112) 를 생성할 수도 있다. 예시를 위해, 제 2 스케일링 팩터가 선택되는 경우, 스케일링 모듈 (109) 은 결과의 스케일링된 입력 오디오 신호 (112) 가 제 1 양의 헤드룸을 갖도록 입력 오디오 신호 (102) 를 스케일링할 수도 있다. 제 1 스케일링 팩터가 선택되는 경우, 스케일링 모듈 (109) 은 결과의 스케일링된 입력 오디오 신호 (112) 가 제 1 양의 헤드룸보다 적은 제 2 양의 헤드룸을 갖도록 입력 오디오 신호 (102) 를 스케일링할 수도 있다. 일 구현에 따라, 제 1 양의 헤드룸은 3 비트의 헤드룸과 동일할 수도 있고, 제 2 양의 헤드룸은 0 비트의 헤드룸과 동일할 수도 있다. 제 1 양의 헤드룸을 갖는 스케일링된 입력 오디오 신호 (112) 를 생성하면 고대역 타겟 신호 (126) 의 생성 동안 포화도의 가능도를 감소시킬 수도 있다. 제 2 양의 헤드룸을 갖는 스케일링된 입력 오디오 신호 (112) 를 생성하면 저에너지 고대역에 대해 더 정밀한 에너지 추정을 가능하게 할 수도 있으며, 이는 결국 아티팩트들을 감소시킬 수도 있다.

410 에서, 고대역 타겟 신호는 스케일링된 입력 신호에 기초하여 생성될 수도 있다. 예를 들어, 도 1 을 참조하면, 스펙트럼 플립 동작이 스케일링된 입력 오디오 신호 (112) 에 기초하여 수행되어 스펙트럼으로 플립핑된 신호를 생성할 수도 있다. 부가적으로, 데시메이션 동작은 고대역 타겟 신호 (126) 를 생성하도록 스펙트럼으로 플립핑된 신호 상에서 수행될 수도 있다. 일 구현에 따라, 데시메이션 동작은 4 의 팩터로 스펙트럼에 의해 플립핑된 신호를 데시메이션할 수도 있다. 방법 (400) 은 또한 고대역 타겟 신호에 기초하여, 선형 예측 포락선, 시간 이득 파라미터들, 또는 그 조합을 생성하는 것을 포함할 수도 있다.

도 4a 의 방법 (400) 은 스케일링 팩터 선택 모듈 (107) 에 의해 선택된 동적 스케일링 팩터에 기초하여 고대역 타겟 신호 (126) 의 정밀도를 제어할 수도 있다. 예를 들어, 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨보다 현저히 큰 시나리오들에서, 입력 오디오 신호 (102) 는 헤드룸의 양을 감소시키도록 스케일링될 수도 있다. 헤드룸의 양을 감소시키면 고대역의 에너지가 더 정확히 캡처될 수도 있도록 고대역 타겟 신호 (126) 를 생성하기 위해 더 큰 범위를 제공할 수도 있다. 고대역 타겟 신호에 의해 고대역의 에너지를 정확히 캡처하면 고대역 이득 파라미터들 (예를 들어, 고대역 부가 정보 (172)) 의 추정 개선 및 아티팩트들 감소를 야기할 수도 있다. 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨보다 현저히 크지 않은 시나리오들에서, 입력 오디오 신호 (102) 는 헤드룸의 양을 증가시키도록 스케일링될 수도 있다. 양을 증가시키면 고대역 타겟 신호 (126) 의 생성 동안 포화도의 가능도를 감소시킬 수도 있다. 예를 들어, 데시메이션 동안 고대역 타겟 신호 생성 모듈 (113) 은 충분한 헤드룸이 없는 경우 포화도를 야기할 수도 있는 부가 동작들을 수행할 수도 있다. 헤드룸의 양을 증가시키면 (또는 헤드룸의 미리 정의된 양을 유지하면) 고대역 타겟 신호 (126) 의 포화도를 실질적으로 감소시킬 수도 있다.

도 4b 를 참조하면, 고대역 타겟 신호를 생성하는 방법 (420) 의 또 다른 플로우챠트가 나타나 있다. 방법 (420) 은 도 1 의 시스템 (100) 에 의해 수행될 수도 있다.

방법 (420) 은 422 에서, 저대역 부분 및 고대역 부분을 갖는 입력 신호를 인코더에서 수신하는 것을 포함한다. 예를 들어, 분석 필터 대역 (110) 은 입력 오디오 신호 (102) 를 수신할 수도 있다. 특히, 리샘플러 (103), 스펙트럼 틸트 분석 모듈 (105), 및 스케일링 모듈 (109) 은 입력 오디오 신호 (102) 를 수신할 수도 있다. 입력 오디오 신호 (102) 는 0 Hz 와 6 kHz 사이의 주파수 범위를 갖는 저대역 부분을 가질 수도 있다. 입력 오디오 신호 (102) 는 또한 6 kHz 와 8 kHz 사이의 주파수 범위를 갖는 고대역 부분을 포함할 수도 있다.

입력 신호의 제 1 상관값은 424 에서, 입력 신호의 제 2 자기상관 값과 비교될 수도 있다. 예를 들어, 위에 기재된 의사코드에 따라, 분석 필터 뱅크 (110) 는 입력 오디오 신호 (102) 의 래그 인덱스 1 (“temp2”) 에서의 자기상관 (R₁) 및 래그 인덱스 0 (“temp1”) 에서의 자기상관 (R₀) 를 사용하여 비교 동작을 수행할 수도 있다. 예시를 위해, 분석 필터 뱅크 (110) 는, 제 2 자기상관 값 (예를 들어, 래그 인덱스 1 에서의 자기상관 (R₁)) 이 제 1 자기상관 값 (예를 들어, 래그 인덱스 0 에서의 자기상관 (R₀)) 과 임계 (예를 들어, 95 퍼센트 임계) 와의 곱보다 작은지 여부를 결정할 수도 있다. 래그 인덱스 1 에서의 자기상관 (R₁) 은 인접 샘플들의 곱의 총합에 기초하여 계산될 수도 있다.

426 에서, 입력 신호는 스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 스케일링될 수도 있다. 스케일링 팩터는 비교의 결과에 기초하여 결정될 수도 있다. 예를 들어, 도 1 을 참조하면, 스케일링 팩터 선택 모듈 (107) 은, 제 2 자기상관 값 (R₁) 이 제 1 자기상관 값 (R₀) 과 임계 (예를 들어, 0.95) 와의 곱보다 작지 않은 경우, 스케일링 팩터로서 제 1 스케일링 팩터를 선택할 수도 있다. 스케일링 팩터 선택 모듈 (107) 은, 제 2 자기상관 값 (R₁) 이 제 1 자기상관 값 (R₀) 과 임계 (예를 들어, 0.95) 와의 곱보다 작은 경우, 스케일링 팩터로서 제 2 스케일링 팩터를 선택할 수도 있다. 스케일링 모듈 (109) 은 스케일링된 입력 오디오 신호 (112) 를 생성하도록 선택된 스케일링 팩터에 의해 입력 오디오 신호 (102) 를 스케일링할 수도 있다. 예시를 위해, 제 2 스케일링 팩터가 선택되는 경우, 스케일링 모듈 (109) 은 결과의 스케일링된 입력 오디오 신호 (112) 가 제 1 양의 헤드룸을 갖도록 입력 오디오 신호 (102) 를 스케일링할 수도 있다. 제 1 스케일링 팩터가 선택되는 경우, 스케일링 모듈 (109) 은 결과의 스케일링된 입력 오디오 신호 (112) 가 제 1 양의 헤드룸보다 적은 제 2 양의 헤드룸을 갖도록 입력 오디오 신호 (102) 를 스케일링할 수도 있다. 일 구현에 따라, 제 1 양의 헤드룸은 3 비트의 헤드룸과 동일할 수도 있고, 제 2 양의 헤드룸은 0 비트의 헤드룸과 동일할 수도 있다. 제 1 양의 헤드룸을 갖는 스케일링된 입력 오디오 신호 (112) 를 생성하면 고대역 타겟 신호 (126) 의 생성 동안 포화도의 가능도를 감소시킬 수도 있다. 제 2 양의 헤드룸을 갖는 스케일링된 입력 오디오 신호 (112) 를 생성하면 저에너지 고대역에 대해 더 정확한 에너지 추정들을 가능하게 할 수도 있으며, 이는 결국 아티팩트들을 감소시킬 수도 있다. 다른 대안의 예시적인 구현들에서, 스케일링 팩터 선택 모듈 (107) 은 제 1 및 제 2 자기상관 값들 사이에서 수행된 비교의 다수의 임계들에 기초하여 다수의 스케일링 팩터들 (예를 들어, 2 보다 큼) 중에서 선택할 수도 있다. 대안으로, 스케일링 팩터 선택 모듈 (107) 은 제 1 및 제 2 자기상관 값들을 출력 스케일링 팩터에 매핑할 수도 있다.

대안의 구현에서, 스케일링 팩터 선택 모듈 (107) 은 스케일링 팩터로서 제 1 스케일링 팩터를 선택할 수도 있다. 스케일링 팩터 선택 모듈 (107) 은, 제 2 자기상관 값 (R₁) 이 제 1 자기상관 값 (R₀) 과 임계 (예를 들어, 0.95) 와의 곱보다 작은 경우 스케일링 팩터의 값을 제 2 스케일링 팩터로 수정할 수도 있다. 스케일링 모듈 (109) 은 스케일링된 입력 오디오 신호 (112) 를 생성하도록 선택된 스케일링 팩터에 의해 입력 오디오 신호 (102) 를 스케일링할 수도 있다. 예시를 위해, 제 1 스케일링 팩터가 선택되고 스케일링 팩터의 값이 제 2 스케일링 팩터로 수정되지 않은 경우, 스케일링 모듈 (109) 은 결과의 스케일링된 입력 오디오 신호 (112) 가 제 1 양의 헤드룸을 갖도록 입력 오디오 신호 (102) 를 스케일링 할 수도 있다. 스케일링 팩터의 값이 제 1 및 제 2 자기상관 값들의 비교에 기초하여 제 1 스케일링 팩터로부터 제 2 스케일링 팩터로 수정되는 경우, 스케일링 모듈 (109) 은 결과의 스케일링된 입력 오디오 신호 (112) 가 제 1 양의 헤드룸보다 적은 제 2 양의 헤드룸을 갖도록 입력 오디오 신호 (102) 를 스케일링할 수도 있다. 일 구현에 따라, 제 1 양의 헤드룸은 3 비트의 헤드룸과 동일할 수도 있고, 제 2 양의 헤드룸은 0 비트의 헤드룸과 동일할 수도 있다.

428 에서, 저대역 신호는 입력 신호에 기초하여 생성될 수도 있고 고대역 타겟 신호는 스케일링된 입력 신호에 기초하여 생성될 수도 있다. 저대역 신호는 스케일링된 입력 신호에 관계없이 생성될 수도 있다. 예를 들어, 도 1 을 참조하면, 스펙트럼 플립 동작은 스펙트럼으로 플립핑된 신호를 생성하도록 스케일링된 입력 오디오 신호 (112) 에 기초하여 수행될 수도 있다. 부가적으로, 데시메이션 동작이 스펙트럼으로 플립핑된 신호 상에서 수행되어 고대역 타겟 신호 (126) 를 생성할 수도 있다. 부가적으로, 리샘플러 (103) 는 저대역 신호 (122) 를 생성하기 위해 입력 오디오 신호 (102) 의 고주파수 컴포넌트를 필터링해낼 수도 있다.

방법 (420) 에 의하면, 제 2 자기상관 값 (R₁) 이 제 1 자기상관 값 (R₀) 으로 승산된 임계 (0.95) 보다 작은 경우, 파라미터 (Q_wb_sp) 는 고대역 타겟 신호 (126) 의 생성 동안 포화도의 가능도를 감소시키기 위해 스케일링 동안 3 비트보다 많은 부가 헤드룸을 유지할 수도 있다. 제 2 자기상관 값 (R₁) 이 제 1 자기상관 값 (R₀) 에 의해 승산된 임계 (0.95) 보다 작지 않은 경우, (Q_wb_sp) 는 고대역의 에너지가 더 정확히 캡처될 수도 있도록 고대역 타겟 신호 (126) 를 생성하기 위해 더 큰 범위를 제공하도록 스케일링 동안 부가 헤드룸을 0 비트로 감소시킬 수도 있다. 의사코드에 따라, 입력 신호는 Q_wb_sp 수의 비트만큼 좌측으로 시프트되며, 이는 107 로 선택된 최종 스케일링 팩터가 2^Q_ ^wb ^_ ^sp 에 대응하게 되는 것을 의미한다. 고대역 타겟 신호에 의해 고대역의 에너지를 정확히 캡처하면 고대역 이득 파라미터들 (예를 들어, 고대역 부가 정보 (172)) 의 추정 개선 및 아티택트 감소를 야기할 수도 있다. 일부 예시의 실시형태들에서, 고대역 타겟 신호 (126) 는 원래 입력 레벨 (예를 들어, Q-팩터들: Q₀ 또는 Q_-1 에서) 로 다시 재스케일링 될 수도 있어서, 메모리는 고대역 파라미터 추정을 업데이트하고, 프레임들에 걸친 고대역 합성은 고정된 시간 스케일 팩터 조정을 유지할 수도 있다.

도 4b 의 방법 (420) 은 스케일링 팩터 선택 모듈 (107) 에 의해 선택된 동적 스케일링 팩터에 기초하여 고대역 타겟 신호 (126) 의 정밀도를 제어할 수도 있다. 예를 들어, 저대역의 제 1 에너지 레벨이 고대역의 제 2 에너지 레벨보다 현저히 큰 시나리오들에서, 입력 오디오 신호 (102) 는 헤드룸의 양을 감소시키도록 스케일링될 수도 있다. 헤드룸의 양을 감소시키면 고대역의 에너지가 더 정확히 캡처될 수도 있도록 고대역 타겟 신호 (126) 를 생성하는데 더 큰 범위를 제공할 수도 있다.

특정 구현들에서, 도 4a 및 도 4b 의 방법들 (400, 420) 은 중앙 프로세싱 유닛 (CPU), DSP 또는 제어기와 같은, 프로세싱 유닛의 하드웨어 (예를 들어, FPGA 디바이스, ASIC 등) 을 통해, 펌웨어 디바이스, 또는 그 임의의 조합을 통해 구현될 수도 있다. 일 예로서, 도 4a 및 도 4b 의 방법들 (400, 420) 은 도 5 에 관하여 기재된 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.

도 5 를 참조하면, 디바이스의 블록 다이어그램이 도시되며 일반적으로 500 으로 지정된다. 특정 구현에서, 디바이스 (500) 는 프로세서 (506)(예를 들어, CPU) 를 포함한다. 디바이스 (500) 는 하나 이상의 부가 프로세서들 (510)(예를 들어, 하나 이상의 DSP들) 을 포함할 수도 있다. 프로세서들 (510) 은 스피치 및 뮤직 코덱 (508) 을 포함할 수도 있다. 스피치 및 뮤직 코덱 (508) 은 보코더 인코더 (592), 보코더 디코더 (미도시), 또는 양자 모두를 포함할 수도 있다. 특정 구현에서, 보코더 인코더 (592) 는 도 1 의 시스템 (100) 과 같은, 인코딩 시스템을 포함할 수도 있다.

디바이스 (500) 는 안테나 (542) 에 커플링된 무선 제어기 (540) 및 메모리 (532) 를 포함할 수도 있다. 디바이스 (500) 는 디스플레이 제어기 (526) 에 커플링된 디스플레이 (528) 를 포함할 수도 있다. 스피커 (548), 마이크로폰 (546) 또는 양자는 코덱 (534) 에 커플링될 수도 있다. 코덱 (534) 은 디지털-아날로그 컨버터 (digital-to-analog converter; DAC)(502) 및 아날로그-디지털 컨버터 (analog-to-digital converter; ADC)(504) 를 포함할 수도 있다.

일 구현에서, 코덱 (534) 은 마이크로폰 (546) 로부터 아날로그 신호들을 수신하고, ADC (504) 를 이용하여 아날로그 신호들을 디지털 신호들로 컨버팅하고 그리고 디지털 신호들을 예컨대 펄스 코드 변조 (PCM) 포맷으로 스피치 및 뮤직 코덱 (508) 에 제공할 수도 있다. 스피치 및 뮤직 코덱 (508) 은 디지털 신호들을 프로세싱할 수도 있다. 특정 구현에서, 스피치 및 뮤직 코덱 (508) 은 디지털 신호들을 코덱 (534) 에 제공할 수도 있다. 코덱 (534) 은 DAC (502) 를 이용하여 디지털 신호들을 아날로그 신호들로 컨버팅할 수도 있고, 아날로그 신호들을 스피커 (548) 에 제공할 수도 있다.

메모리 (532) 는 도 4a 및 도 4b 의 방법들 (400, 420) 과 같은 본 명세서에서 개시된 방법들 및 프로세스들을 수행하기 위해, 프로세서 (506), 프로세서들 (510), 코덱 (534), 디바이스 (500) 의 다른 프로세싱 유닛 또는 이들의 조합에 의하여 실행될 수 있는 명령들 (556) 을 포함할 수도 있다. 도 1 의 시스템 (100) 의 하나 이상의 컴포넌트들은 전용 하드웨어 (예를 들어, 회로) 를 통해, 하나 이상의 작업들을 수행하기 위한 명령들 (예를 들어, 명령들 (560)) 을 실행시키는 프로세서에 의해, 또는 이들의 조합으로 구현될 수도 있다. 예로서, 프로세서 (506) 의 하나 이상의 컴포넌트들 또는 메모리 (532), 프로세서들 (510) 및/또는 코덱 (534) 은 메모리 디바이스, 예컨대, 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 전송 MRAM (spin-torque transfer MRAM; STT-MRAM), 플래시 메모리, 리드 온니 메모리 (ROM), 프로그램가능한 리드 온니 메모리 (PROM), 소거가능한 프로그램가능 리드 온니 메모리 (EPROM), 전기적으로 소거가능한 프로그램가능 리드 온니 메모리 (EEPROM), 레지스터들, 하드 디스크, 탈착가능한 디스크 또는 컴팩트 디스크 리드 온니 메모리 (CD-ROM) 일 수도 있다. 메모리 디바이스는, 컴퓨터 (예를 들어, 코덱 (534) 에서의 프로세서, 프로세서 (506) 및/또는 프로세서들(510)) 에 의해 실행되는 경우, 컴퓨터로 하여금, 도 4a 및 도 4b 의 방법들 (400, 420) 을 수행하게 하는 명령들 (예를 들어, 명령들 (556)) 을 포함할 수도 있다. 예로서, 프로세서 (506) 의 하나 이상의 컴포넌트들 또는 메모리 (532), 프로세서들 (510), 코덱 (534) 은 컴퓨터 (예를 들어, 코덱 (534) 에서의 프로세서, 프로세서 (506) 및/또는 프로세서들(510)) 에 의해 실행되는 경우, 컴퓨터로 하여금 도 4a 및 도 4b 의 방법들의 적어도 일부를 수행하게 하는 명령들 (예를 들어, 명령들 (556)) 을 포함하는 비-일시적 컴퓨터-판독가능한 매체일 수도 있다.

특정 구현에서, 디바이스 (500) 는 이동국 모뎀 (MSM) 과 같은 시스템-인-패키지 또는 시스템-온-칩 디바이스 디바이스 (522) 에 포함될 수도 있다. 특정 구현에서, 프로세서 (506), 프로세서들 (510), 디스플레이 제어기 (526), 메모리 (532), 코덱 (534), 및 무선 제어기 (540) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (522) 에 포함된다. 특정 구현에서, 터치스크린 및/또는 키패드와 같은 입력 디바이스 (530) 및 및 전력 공급부 (544) 는 시스템-온-칩 디바이스 (522) 에 커플링된다. 더욱이, 특정 구현에서, 도 5 에 도시된 바와 같이, 디스플레이 (528), 입력 디바이스 (530), 스피커 (548), 마이크로폰 (546), 안테나 (542) 및 전력 공급부 (544) 는 시스템-온-칩 디바이스 (522) 의 외부에 있다. 그러나, 디스플레이 (528), 입력 디바이스 (530), 스피커 (548), 마이크로폰 (546), 안테나 (542) 및 전력 공급부 (544) 의 각각은 인터페이스 또는 제어기와 같은 시스템-온-칩 디바이스 (522) 의 컴포넌트에 커플링될 수 있다. 예시적인 예에서, 디바이스 (500) 는 모바일 통신 디바이스, 스마트폰, 셀룰러폰, 랩탑 컴퓨터, 컴퓨터, 태블릿 컴퓨터, 개인용 디지털 보조기, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 뮤직 플레이어, 라디오, 디지털 비디오 플레이어, 광학 디스크 플레이어, 튜너 (tuner), 카메라, 내비게이션 디바이스, 디코더 시스템, 인코더 시스템 또는 이들의 임의의 조합에 대응한다.

기재된 구현들과 협력하여, 장치는 저대역 부분 및 고대역 부분을 갖는 입력 신호를 수신하기 위한 수단을 포함한다. 예를 들어, 입력 신호를 수신하기 위한 수단은 도 1 의 분석 필터 뱅크 (110), 도 1 의 리샘플러 (103), 도 1 의 스펙트럼 틸트 분석 모듈 (105), 도 1 의 스케일링 모듈 (109), 도 5 의 스피치 및 뮤직 코덱 (508), 도 5 의 보코더 인코더 (592), 입력 신호를 수신하도록 구성된 하나 이상의 디바이스들 (예를 들어, 비일시적 컴퓨터 판독가능 저장 매체에서 명령들을 실행하는 프로세서) 또는 그 조합을 포함할 수도 있다.

장치는 또한, 입력 신호의 제 1 자기상관 값을 입력 신호의 제 2 자기상관 값과 비교하기 위한 수단을 포함할 수도 있다. 예를 들어, 비교하기 위한 수단은 도 1 의 분석 필터 뱅크 (110), 도 5 의 스피치 및 뮤직 코덱 (508), 도 5 의 보코더 인코더 (592), 제 1 자기상관 값을 제 2 자기상관 값과 비교하도록 구성된 하나 이상의 디바이스들 (예를 들어, 비일시적 컴퓨터 판독가능 저장 매체에서 명령들을 실행하는 프로세서) 또는 그 조합을 포함할 수도 있다.

장치는 또한, 스케일링된 입력 신호를 생성하기 위해 스케일링 팩터에 의해 입력 신호를 스케일링하기 위한 수단을 포함할 수도 있다. 스케일링 팩터는 비교의 결과에 기초하여 결정될 수도 있다. 예를 들어, 입력 신호를 스케일링하기 위한 수단은, 도 1 의 분석 필터 뱅크 (110), 도 1 의 스케일링 모듈 (109), 도 5 의 스피치 및 뮤직 코덱 (508), 도 5 의 보코더 인코더 (592), 입력 신호를 스케일링하도록 구성된 하나 이상의 디바이스들 (예를 들어, 비일시적 컴퓨터 판독가능 매체에서 명령들을 실행하는 프로세서), 또는 그 조합을 포함할 수도 있다.

장치는 또한, 입력 신호에 기초하여 저대역 신호를 생성하기 위한 수단을 포함할 수도 있다. 저대역 신호는 스케일링된 입력 신호에 관계없이 생성될 수도 있다. 예를 들어, 저대역 신호를 생성하기 위한 수단은, 도 1 의 분석 필터 뱅크 (110), 도 1 의 리샘플러 (103), 도 5 의 스피치 및 뮤직 코덱 (508), 도 5 의 보코더 인코더 (592), 고대역 타겟 신호를 생성하도록 구성된 하나 이상의 디바이스들 (예를 들어, 비일시적 컴퓨터 판독가능 매체에서 명령들을 실행하는 프로세서), 또는 그 조합을 포함할 수도 있다.

장치는 또한, 스케일링된 입력 신호에 기초하여 고대역 타겟 신호를 생성하기 위한 수단을 포함할 수도 있다. 예를 들어, 고대역 타겟 신호를 생성하기 위한 수단은, 도 1 의 분석 필터 뱅크 (110), 도 1 의 고대역 타겟 신호 생성 모듈 (113), 도 5 의 스피치 및 뮤직 코덱 (508), 도 5 의 보코더 인코더 (592), 저대역 신호를 생성하도록 구성된 하나 이상의 디바이스들 (예를 들어, 비일시적 컴퓨터 판독가능 저장 매체에서 명령들을 실행하는 프로세서), 또는 그 조합을 포함할 수도 있다.

도 6 을 참조하면, 기지국 (600) 의 특정 예시적인 예의 블록 다이어그램이 도시된다. 다양한 구현들에서, 기지국 (600) 은 도 6 에 도시된 것 보다 더 많은 컴포넌트들 또는 더 적은 컴포넌트들을 가질 수도 있다. 예시적인 예에서, 기지국 (600) 은 도 1 의 시스템 (100) 을 포함할 수도 있다. 예시적인 예에서, 기지국 (600) 은 도 4a 의 방법 (400), 도 4b 의 방법 (420), 또는 그 조합에 따라 동작할 수도 있다.

기지국 (600) 은 무선 통신 시스템의 부분일 수도 있다. 무선 통신 시스템은 다중 기지국들 및 다중 무선 디바이스들을 포함할 수도 있다. 무선 통신 시스템은 롱텀 에볼루션 (LTE) 시스템, 코드 분할 다중 액세스 (CDAM) 시스템, 모바일 통신들을 위한 글로벌 시스템 (GSM) 시스템, 무선 로컬 영역 네트워크 (WLAN) 시스템, 또는 일부 다른 무선 시스템일 수도 있다. CDMA 시스템은 광대역 CDMA (WCDMA), CDMA 1X, 에볼루션-데이터 최적화 (Evolution-Data Optimized; EVDO), 시간 분할 동기식 CDMA (TD-SCDMA) 또는 CDMA 의 일부 다른 버전을 구현할 수도 있다.

무선 디바이스들은 또한, 사용자 장비 (UE), 이동국, 단말기, 액세스 단말기, 가입자 유닛, 스테이션 등으로 지칭될 수도 있다. 무선 디바이스들은 셀룰러 폰, 스마트폰, 태블릿, 무선 모뎀, 개인용 디지털 보조기 (PDA), 핸드헬드 디바이스, 랩탑 컴퓨터, 스마트북, 넷북, 태블릿, 코드리스 폰, 무선 로컬 영역 (WLL) 스테이션, 블루투스 디바이스 등을 포함할 수도 있다. 무선 디바이스들은 도 5 의 디바이스 (500) 를 포함하거나 이에 대응할 수도 있다.

다양한 기능들은 메시지들 및 데이터 (예를 들어, 오디오 데이터) 를 전송하고 수신하는 것과 같은, 기지국 (600) 의 하나 이상의 컴포넌트들에 의해 (및/또는 도시되지 않은 다른 컴포넌트들에서) 수행될 수도 있다. 특정 예에서, 기지국 (600) 은 프로세서 (606)(예를 들어, CPU) 를 포함한다. 기지국 (600) 은 트랜스코더 (610) 를 포함할 수도 있다. 트랜스코더 (610) 는 오디오 (608) 코덱을 포함할 수도 있다. 예를 들어, 트랜스코더 (610) 는 오디오 코덱 (608) 의 동작들을 수행하도록 구성된 하나 이상의 컴포넌트들 (예를 들어, 회로부) 를 포함할 수도 있다. 다른 예로서, 트랜스코더 (610) 는 오디오 코덱 (608) 의 동작들을 수행하기 위해 하나 이상의 컴퓨터 판독가능 명령들을 실행하도록 구성될 수도 있다. 오디오 코덱 (608) 이 트랜스코더 (610) 의 컴포넌트로서 도시되어 있지만, 다른 예들에서 오디오 코덱 (608) 의 하나 이상의 컴포넌트들은 프로세서 (606), 또 다른 프로세싱 컴포넌트, 또는 그 조합에 포함될 수도 있다. 예를 들어, 보코더 디코더 (638) 은 수신기 데이터 프로세서 (664) 에 포함될 수도 있다. 또 다른 예로서, 보코더 인코더 (636) 는 송신 데이터 프로세서 (667) 에 포함될 수도 있다.

트랜스코더 (610) 는 2 이상의 네트워크들 사이에서 메시지들 및 데이터를 트랜스코딩하도록 기능할 수도 있다. 트랜스코더 (610) 는 제 1 포맷 (예를 들어, 디지털 포맷) 에서 제 2 포맷으로 메시지 및 오디오 데이터를 컨버팅하도록 구성될 수도 있다. 예시를 위해, 보코더 디코더 (638) 는 제 1 포맷을 갖는 인코딩된 신호들을 디코딩할 수도 있고 보코더 인코더 (636) 는 제 2 포맷을 갖는 인코딩된 신호들로 디코딩된 신호들을 인코딩할 수도 있다. 부가적으로 또는 대안으로, 트랜스코더 (610) 는 데이터 레이트 적응을 수행하도록 구성될 수도 있다. 예를 들어, 트랜스코더 (610) 는 포맷 오디오 데이터 포맷을 변화시키지 않으면서 데이터 레이트를 다운컨버팅하거나 데이터 레이트를 업컨버팅할 수도 있다. 예시를 위해, 트랜스코더 (610) 는 64 kbit/s 신호들을 16 kbit/s 신호들로 다운컨버팅할 수도 있다.

오디오 코덱 (608) 은 보코더 인코더 (636) 및 보코더 디코더 (638) 을 포함할 수도 있다. 보코더 인코더 (636) 는 도 5 를 참조하여 기재된 바와 같이, 인코드 선택기, 스피치 인코더, 및 뮤직 인코더를 포함할 수도 있다. 보코더 디코더 (638) 는 디코더 선택기, 스피치 디코더, 및 뮤직 디코더를 포함할 수도 있다.

기지국 (600) 은 메모리 (632) 를 포함할 수도 있다. 메모리 (632), 예컨대 컴퓨터 판독가능 저장 디바이스는 명령들을 포함할 수도 있다. 명령들은 도 4a 의 방법 (400), 도 4b 의 방법 (420), 또는 그 조합을 수행하기 위해, 프로세서 (606), 트랜스코더 (610), 또는 그 조합에 의해 실행가능한 하나 이상의 명령들을 포함할 수도 있다. 기지국 (600) 은 안테나들의 어레이에 커플링된, 제 1 트랜시버 (652) 및 제 2 트랜시버 (654) 와 같은, 다중 송신기들 및 수신기들 (예를 들어, 트랜시버들) 을 포함할 수도 있다. 안테나들의 어레이는 제 1 안테나 (642) 및 제 2 안테나 (644) 를 포함할 수도 있다. 안테나들의 어레이는 도 5 의 디바이스 (500) 와 같은 하나 이상의 무선 디바이스들과 무선으로 통신하도록 구성될 수도 있다. 예를 들어, 제 2 안테나 (644) 는 무선 디바이스로부터 데이터 스트림 (614)(예를 들어, 비트 스트림) 을 수신할 수도 있다. 데이터 스트림 (614) 은 메시지, 데이터 (예를 들어, 인코딩된 스피치 데이터), 또는 그 조합을 포함할 수도 있다.

기지국 (600) 은 백홀 접속과 같은 네트워크 접속 (660) 을 포함할 수도 있다. 네트워크 접속 (660) 은 무선 통신 네트워크의 하나 이상의 기지국들 또는 코어 네트워크와 통신하도록 구성될 수도 있다. 예를 들어, 기지국 (600) 은 네트워크 접속 (660) 을 통해 코어 네트워크로부터 제 2 데이터 스트림 (예를 들어, 메시지 또는 오디오 데이터) 를 수신할 수도 있다. 기지국 (600) 은 제 2 데이터 스트림을 프로세싱하여 메시지들 또는 오디오 데이터를 생성하고 메시지들 또는 오디오 데이터를 안테나들의 어레이의 하나 이상의 안테나들을 통해 하나 이상의 무선 디바이스에 또는 네트워크 접속 (660) 을 통해 또 다른 기지국에 제공할 수도 있다. 특정 구현에서, 네트워크 접속 (660) 은 예시적인 비제한적 예로서, 광대역 네트워크 (WAN) 접속들일 수도 있다. 일부 구현들에서, 코어 네트워크는 공중 교환형 전화기 네트워크 (PSTN), 패킷 백본 네트워크, 또는 양자 모두를 포함하거나 이들에 대응할 수도 있다.

기지국 (600) 은 네트워크 접속 (660) 및 프로세서 (606) 에 커플링되는 미디어 게이트웨이 (670) 를 포함할 수도 있다. 미디어 게이트웨이 (670) 는 상이한 텔레통신 기술들의 미디어 스트림들 사이에서 컨버팅하도록 구성될 수도 있다. 예를 들어, 미디어 게이트웨이 (670) 는 상이한 송신 프로토콜들, 상이한 코딩 스킴들, 또는 이들 양자 모두 사이에서 컨버팅할 수도 있다. 예시를 위해, 미디어 게이트웨이 (670) 는 예시적인 비제한적 예로서, PCM 신호들을 실시간 전송 프로토콜 (RTP) 신호들로 컨버팅할 수도 있다. 미디어 게이트웨이 (670) 는 패킷 교환형 네트워크들 (예를 들어, VoIP 네트워크 (예를 들어, IP 멀티미디어 서브시스템 (IMS), 제 4 세대 (4G) 무선 네트워크, 예컨대 LTE, WiMax, 및 UMB 등), 회로 교환형 네트워크들 (예를 들어, PSDN), 및 하이브리드 네트워크들 (예를 들어, 제 2 세대 (2G) 무선 네트워크, 예컨대 GSM, GPRS, 및 EDGE, 제 3 세대 (3G) 무선 네트워크, 예컨대 WCDMA, EV-DO, 및 HSPA 등) 사이에서 데이터를 컨버팅할 수도 있다.

부가적으로, 미디어 게이트웨이 (670) 는 트랜스코더, 예컨대 트랜스코더 (610) 를 포함할 수도 있고, 코덱들이 양립할 수 없을 때 데이터를 트랜스코딩하도록 구성될 수도 있다. 예를 들어, 미디어 게이트웨이 (670) 는 예시적인 비제한적 예로서, 적응적 멀티 레이트 (AMR) 코덱과 G.711 코덱 사이에서 트랜스코딩할 수도 있다. 미디어 게이트웨이 (670) 는 라우터 및 복수의 물리 인터페이스들을 포함할 수도 있다. 일부 구현들에서, 미디어 게이트웨이 (670) 는 제어기 (미도시) 를 또한 포함할 수도 있다. 특정 구현에서, 미디어 게이트웨이 제어기는 게이트웨이 (670) 외부에, 기지국 (600) 외부에, 또는 이들 양자 모두 외부에 있을 수도 있다. 미디어 게이트웨이 제어기는 다중 미디어 게이트웨이들의 동작들을 제어하고 조정할 수도 있다. 미디어 게이트웨이 (670) 는 미디어 게이트웨이 제어기로부터 제어 신호들을 수신할 수도 있고 상이한 송신 기술들 사이를 가교하도록 기능할 수도 있으며 엔드 사용자 능력들 및 접속들에 서비스를 부가할 수도 있다.

기지국 (600) 은 트랜시버들 (652, 654) 에 커플링되는 복조기 (662), 수신기 데이터 프로세서 (664) 및 프로세서 (606) 를 포함할 수도 있고, 수신기 데이터 프로세서 (664) 는 프로세서 (606) 에 커플링될 수도 있다. 복조기 (662) 는 트랜시버들 (652, 654) 로부터 수신된 변조된 신호들을 복조하고, 복조된 데이터를 수신기 데이터 프로세서 (664) 에 제공하도록 구성될 수도 있다. 수신기 데이터 프로세서 (664) 는 복조된 데이터로부터 메시지 또는 오디오 데이터를 추출하고 그 메시지 또는 오디오 데이터를 프로세서 (606) 에 전송하도록 구성될 수도 있다.

기지국 (600) 은 송신 데이터 프로세서 (667) 및 송신 다중 입력 다중 출력 (MIMO) 프로세서 (668) 을 포함할 수도 있다. 송신 데이터 프로세서 (667) 는 프로세서 (606) 및 송신 MIMO 프로세서 (668) 에 커플링될 수도 있다. 송신 MIMO 프로세서 (668) 는 트랜시버들 (652, 654) 및 프로세서 (606) 에 커플링될 수도 있다. 일부 구현들에서, 송신 MIMO 프로세서 (668) 는 미디어 게이트웨이 (670) 에 커플링될 수도 있다. 송신 데이터 프로세서 (667) 는 예시적인 비제한적 예들로서, 프로세서 (606) 로부터 메시지들 또는 오디오 데이터를 수신하고 그 메시지들 또는 오디오 데이터를 코딩 스킴, 예컨대 CDMA 또는 직교 주파수 분할 멀티플렉싱 (OFDM) 에 기초하여 코딩하도록 구성될 수도 있다. 송신 데이터 프로세서 (667) 는 코딩된 데이터를 송신 MIMO 프로세서 (668) 에 제공할 수도 있다.

코딩된 데이터는 멀티플렉싱된 데이터를 생성하기 위해 CDMA 또는 OFDMA 기법들을 사용하여, 파일럿 데이트와 같은 다른 데이터로 멀티플렉싱될 수도 있다. 멀티플렉싱된 데이터는 그 후 특정 변조 스킴 (예를 들어, “BPSK”(Binary phase-shift keying), “QSPK”(Quadrature phase-shift keying), “M-PSK”(M-ary phase-shift keying), “M-QAM”(M-ary Quadrature amplitude modulation) 등) 에 기초하여 송신 데이터 프로세서 (667) 에 의해 변조되어 변조 심볼들을 생성할 수도 있다. 특정 구현에서, 코딩된 데이터 및 다른 데이터는 상이한 변조 스킴들을 사용하여 변조될 수도 있다. 각각의 데이터 스트림에 대한 데이터 레이트, 코딩 및 변조는 프로세서 (606) 에 의해 실행된 명령들에 의해 결정될 수도 있다.

송신 MIMO 프로세서 (668) 는 송신 데이터 프로세서 (667) 로부터 변조 심볼들을 수신하도록 구성될 수도 있고, 추가로 변조 심볼들을 프로세싱할 수도 있으며 데이터 상에서 빔포밍을 수행할 수도 있다. 예를 들어, 송신 MIMO 프로세서 (668) 는 빔포밍 가중치들을 변조 심볼들에 적용할 수도 있다. 빔포밍 가중치들은 변조 심볼들이 송신되는 안테나들의 어레이의 하나 이상의 안테나들에 대응할 수도 있다.

동작 동안, 기지국 (600) 의 제 2 안테나 (644) 는 데이터 스트림 (614) 을 수신할 수도 있다. 제 2 트랜시버 (654) 는 제 2 안테나 (644) 로부터 데이터 스트림 (614) 을 수신할 수도 있고 복조기 (662) 에 데이터 스트림 (614) 을 제공할 수도 있다. 복조기 (662) 는 데이터 스트림 (614) 의 변조된 신호들을 복조하고 복조된 데이터를 수신기 데이터 프로세서 (664) 에 제공할 수도 있다. 수신기 데이터 프로세서 (664) 는 복조된 데이터로부터 오디오 데이터를 추출하고 추출된 오디오 데이터를 프로세서 (606) 에 제공할 수도 있다.

프로세서 (606) 는 트랜스코딩을 위해 트랜스코더 (610) 에 오디오 데이터를 제공할 수도 있다. 트랜스코더 (610) 의 보코더 디코더 (638) 는 제 1 포맷으로부터의 오디오 데이터를 디코딩된 오디오 데이터로 디코딩할 수도 있고 보코더 인코더 (636) 는 디코딩된 오디오 데이터를 제 2 포맷으로 인코딩할 수도 있다. 일부 구현들에서, 보코더 인코더 (636) 는 무선 디바이스로부터 수신된 것보다 더 높은 데이터 레이트 (예를 들어, 업컨버팅) 또는 더 낮은 데이터 레이트 (예를 들어, 다운컨버팅) 를 사용하여 오디오 데이터를 인코딩할 수도 있다. 다른 구현들에서, 오디오 데이터는 트랜스코딩될 없을 수도 있다. 트랜스코딩 (예를 들어, 디코딩 및 인코딩) 이 트랜스코더 (610) 에 의해 수행되는 것으로 도시되지만, 트랜스코딩 동작들 (예를 들어, 디코딩 및 인코딩) 은 기지국 (600) 의 다수의 컴포넌트들에 의해 수행될 수도 있다. 예를 들어, 디코딩은 수신기 데이터 프로세서 (664) 에 의해 수행될 수도 있고 인코딩은 송신 데이터 프로세서 (667) 에 의해 수행될 수도 있다. 다른 구현들에서, 프로세서 (606) 는 또 다른 송신 프로토콜, 코딩 스킴, 또는 양자 모두에 대한 컨버전을 위해 미디어 게이트웨이 (670) 에 오디오 데이터를 제공할 수도 있다. 미디어 게이트웨이 (670) 는 네트워크 접속 (660) 을 통해 또 다른 기지국 또는 코어 네트워크에 컨버팅된 데이터를 제공할 수도 있다.

보코더 디코더 (638), 보코더 인코더 (636), 또는 양자 모두는 파라미터 데이터를 수신할 수도 있고 프레임 마다에 기초하여 파라미터 데이터를 식별할 수도 있다. 보코더 디코더 (638), 보코더 인코더 (636), 또는 양자 모두는 파라미터 데이터에 기초한 합성된 신호를 프레임 마다에 기초하여, 분류할 수도 있다. 합성된 신호는 스피치 신호, 비스피치 신호, 뮤직 신호, 노이즈 스피치 신호, 배경 노이즈 신호, 또는 그 조합으로서 분류될 수도 있다. 보코더 디코더 (638), 보코더 인코더 (636), 또는 양자 모두는 분류에 기초하여 특정 디코더, 인코더, 또는 양자 모두를 선택할 수도 있다. 트랜스코딩된 데이터와 같은, 보코더 인코더 (636) 에서 생성된 인코딩된 오디오 데이터는, 프로세서 (606) 를 통해 송신 데이터 프로세서 (667) 또는 네트워크 접속 (660) 에 제공될 수도 있다.

트랜스코더 (610) 로부터 트랜스코딩된 오디오 데이터는 변조 심볼들을 생성하기 위해, OFDM 과 같은 변조 스킴에 따라 코딩을 위해 송신 데이터 프로세서 (667) 에 제공될 수도 있다. 송신 데이터 프로세서 (667) 는 추가 프로세싱 및 빔포밍을 위해 변조 심볼들을 송신 MIMO 프로세서 (668) 에 제공할 수도 있다. 송신 MIMO 프로세서 (668) 는 빔포밍 가중치들을 제공할 수도 있고 변조 심볼들을 제 1 트랜시버 (652) 를 통해 제 1 안테나 (642) 와 같은 안테나들의 어레이의 하나 이상의 안테나들에 제공할 수도 있다. 따라서, 기지국 (600) 은 또 다른 무선 디바이스에, 무선 디바이스로부터 수신된 데이터 스트림 (614) 에 대응하는, 트랜스코딩된 데이터 스트림 (616) 을 제공할 수도 있다. 트랜스코딩된 데이터 스트림 (616) 은 데이터 스트림 (614) 과 상이한 인코딩 포맷, 데이터 레이트, 또는 양자 모두를 가질 수도 있다. 다른 구현들에서, 트랜스코딩된 데이터 스트림 (616) 은 또 다른 기지국 또는 코어 네트워크로의 송신을 위해 네트워크 접속 (660) 에 제공될 수도 있다.

이에 따라, 기지국 (600) 은 프로세서 (예를 들어, 프로세서 (606) 또는 트랜스코더 (610)) 에 의해 실행될 때, 프로세서로 하여금 합성된 신호를 생성하기 위해 인코딩된 오디오 신호를 디코딩하는 것을 포함한 동작들을 수행하게 하는, 명령들을 저장하는 컴퓨터 판독가능 저장 디바이스 (예를 들어, 메모리 (632)) 를 포함할 수도 있다. 동작들은 또한, 인코딩된 오디오 신호로부터 결정된 적어도 하나의 파라미터에 기초하여 합성된 신호를 분류하는 것을 포함할 수도 있다.

당업자는 본 명세서에 개시된 구현들과 연계하여 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 하드웨어 프로세서와 같은 프로세싱 디바이스에 의해 실행되는 컴퓨터 소프트웨어 또는 양자의 조합으로서 구현될 수도 있음을 더 알 수 있을 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들 및 단계들은 그 기능의 면에서 일반적으로 위에서 설명되었다. 그러한 기능성이 하드웨어 또는 실행가능한 소프트웨어로 구현되는지 여부는 특정 어플리케이션 및 전체 시스템에 부과되는 설계 제약들에 따라 달라진다. 당업자들은 각각의 특정 어플리케이션에 대하여 다양한 방식들로 설명된 기능성을 구현할 수도 있으나, 그러한 구현 결정들이 본 개시물의 범위로부터의 벗어남을 야기하는 것으로 해석되어서는 안된다.

본 명세서에 개시된 구현들과 연계하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로 또는 이 둘의 조합으로 직접적으로 구현될 수도 있다. 소프트웨어 모듈은 저장 디바이스, 예컨대 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 전송 MRAM (STT-MRAM), 플래시 메모리, 리드 온니 메모리 (ROM), 프로그램가능 리드 온니 메모리 (PROM), 소거가능 프로그램가능 리드 온니 메모리 (EPROM), 전기적 소거가능 프로그램가능 리드 온니 메모리 (EEPROM), 레지스터들, 하드 디스크, 탈착가능 디스크 또는 컴팩트 디스크 리드 온니 메모리 (CD-ROM) 에 상주할 수도 있다. 예시적인 메모리 디바이스는 프로세서에 커플링되어, 프로세서가 메모리 디바이스로부터 정보를 판독하고 메모리 디바이스에 정보를 기록할 수 있다. 대안에서, 메모리 디바이스는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC 내에 상주할 수도 있다. ASIC 는 컴퓨팅 디바이스 또는 사용자 단말기 내에 상주할 수도 있다. 대안으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에서 개별 컴포넌트들로서 상주할 수도 있다.

개시된 구현들에 대한 전술한 설명은 당업자가 개시된 구현들을 실시하거나 이용하는 것을 가능하게 하기 위해 제공된다. 이러한 구현들에 대한 다양한 변형들이 당업자에게 자명할 것이고, 본 명세서에서 정의된 원리들은 본 개시물의 범위를 벗어나지 않으면서 다른 구현들에 적용될 수도 있다. 따라서, 본 개시물은 본 명세서에서 나타낸 구현들로 제한되도록 의도되는 것이 아니며, 다음의 청구항들에 의해 정의된 원리들 및 신규한 특징들과 부합하는 최광 범위를 따르고자 한다.

Claims

입력 오디오 신호를 인코딩하기 위한 방법으로서,
인코더에서, 제 1 에너지 레벨을 갖는 저대역 부분 및 제 2 에너지 레벨을 갖는 고대역 부분을 갖는 입력 오디오 신호를 수신하는 단계;
상기 입력 오디오 신호의 제 1 자기상관 값을 상기 입력 오디오 신호의 제 2 자기상관 값과 비교함으로써, 상기 입력 오디오 신호의 에너지 분포를 나타내는 스펙트럼 틸트를 결정하는 단계;
스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 상기 입력 오디오 신호를 스케일링하는 단계로서, 상기 스케일링 팩터는 상기 입력 오디오 신호의 상기 스펙트럼 틸트에 기초하여 결정되는, 상기 입력 오디오 신호를 스케일링하는 단계;
상기 입력 신호에 기초하여 저대역 여기 신호를 생성하는 단계;
상기 스케일링된 입력 신호로부터 고대역 타겟 신호를 생성하는 단계;
상기 고대역 타겟 신호 및 상기 저대역 여기 신호로부터, 디코더가 상기 고대역 타겟 신호를 재구성할 수 있는 고대역 부가 정보를 생성하는 단계; 및
상기 입력 오디오 신호를 표현하는 비트스트림의 일부로서 상기 고대역 부가 정보를 인코딩하는 단계를 포함하는, 입력 오디오 신호를 인코딩하기 위한 방법.
제 1 항에 있어서,
상기 제 1 자기상관 값을 상기 제 2 자기상관 값과 비교하는 단계는, 상기 제 2 자기상관 값을, 상기 제 1 자기상관 값과 임계와의 곱과 비교하는 단계를 포함하고, 상기 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 단계는,
상기 비교가 제 1 결과를 생성하는 경우 제 1 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 단계; 또는
상기 비교가 제 2 결과를 생성하는 경우 제 2 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 단계를 포함하는, 입력 오디오 신호를 인코딩하기 위한 방법.
제 2 항에 있어서,
상기 스케일링된 입력 신호는 상기 제 1 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것에 응답하여 제 1 양의 헤드룸을 갖고, 상기 스케일링된 입력 신호는 상기 제 2 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것에 응답하여 제 2 양의 헤드룸을 가지며; 그리고 상기 제 2 양의 헤드룸이 상기 제 1 양의 헤드룸보다 더 큰, 입력 오디오 신호를 인코딩하기 위한 방법.
제 3 항에 있어서,
상기 제 1 양의 헤드룸은 0 비트의 헤드룸과 동일하고, 상기 제 2 양의 헤드룸은 3 비트의 헤드룸과 동일한, 입력 오디오 신호를 인코딩하기 위한 방법.
제 1 항에 있어서,
상기 고대역 타겟 신호를 생성하는 단계는,
스펙트럼으로 플립핑된 신호를 생성하도록 상기 스케일링된 입력 신호 상에서 스펙트럼 플립 동작을 수행하는 단계; 및
상기 고대역 타겟 신호를 생성하도록 상기 스펙트럼으로 플립핑된 신호 상에서 데시메이션 (decimation) 동작을 수행하는 단계를 포함하는, 입력 오디오 신호를 인코딩하기 위한 방법.
제 5 항에 있어서,
상기 데시메이션 동작은 4 의 팩터에 의해 상기 스펙트럼으로 플립핑된 신호를 데시메이션하는, 입력 오디오 신호를 인코딩하기 위한 방법.
제 1 항에 있어서,
상기 저대역 부분은 0 헤르쯔 (Hz) 와 6 킬로헤르쯔 (kHz) 사이의 주파수 범위를 갖는, 입력 오디오 신호를 인코딩하기 위한 방법.
제 1 항에 있어서,
상기 고대역 부분은 6 킬로헤르쯔 (kHz) 와 8 kHz 사이의 주파수 범위를 갖는, 입력 오디오 신호를 인코딩하기 위한 방법.
제 1 항에 있어서,
상기 고대역 타겟 신호로부터 선형 예측 스펙트럼 포락선 (envelope), 시간 이득 파라미터들, 또는 그 조합을 생성하는 단계를 더 포함하는, 입력 오디오 신호를 인코딩하기 위한 방법.
삭제
제 1 항에 있어서,
상기 제 1 자기상관 값을 상기 제 2 자기상관 값과 비교하는 단계 및 상기 입력 신호를 스케일링하는 단계는 모바일 통신 디바이스를 포함하는 디바이스에서 수행되는, 입력 오디오 신호를 인코딩하기 위한 방법.
제 1 항에 있어서,
상기 제 1 자기상관 값을 상기 제 2 자기상관 값과 비교하는 단계 및 상기 입력 신호를 스케일링하는 단계는 기지국을 포함하는 디바이스에서 수행되는, 입력 오디오 신호를 인코딩하기 위한 방법.
인코더; 및
메모리를 포함하고,
상기 메모리는,
입력 오디오 신호의 제 1 자기상관 값을 상기 입력 오디오 신호의 제 2 자기상관 값과 비교함으로써, 상기 입력 오디오 신호의 에너지 분포를 나타내는 스펙트럼 틸트를 결정하는 것으로서, 상기 입력 오디오 신호는 제 1 에너지 레벨을 갖는 저대역 부분 및 제 2 에너지 레벨을 갖는 고대역 부분을 갖는, 상기 결정하는 것;
스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 상기 입력 오디오 신호를 스케일링하는 것으로서, 상기 스케일링 팩터는 상기 입력 오디오 신호의 상기 스펙트럼 틸트에 기초하여 결정되는, 상기 입력 오디오 신호를 스케일링하는 것;
상기 입력 신호에 기초하여 저대역 여기 신호를 생성하는 것;
상기 스케일링된 입력 신호로부터 고대역 타겟 신호를 생성하는 것;
상기 고대역 타겟 신호 및 상기 저대역 여기 신호로부터, 디코더가 상기 고대역 타겟 신호를 재구성할 수 있는 고대역 부가 정보를 생성하는 것; 및
상기 입력 오디오 신호를 표현하는 비트스트림의 일부로서 상기 고대역 부가 정보를 인코딩하는 것을 포함하는
동작들을 수행하도록 상기 인코더 내에서 프로세서에 의해 실행가능한 명령들을 저장하는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 13 항에 있어서,
상기 제 1 자기상관 값을 상기 제 2 자기상관 값과 비교하는 것은, 상기 제 2 자기상관 값을, 상기 제 1 자기상관 값과 임계와의 곱과 비교하는 것을 포함하고, 상기 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것은,
상기 비교가 제 1 결과를 생성하는 경우 제 1 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것; 또는
상기 비교가 제 2 결과를 생성하는 경우 제 2 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것을 포함하는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 14 항에 있어서,
상기 스케일링된 입력 신호는 상기 제 1 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것에 응답하여 제 1 양의 헤드룸을 갖고, 상기 스케일링된 입력 신호는 상기 제 2 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것에 응답하여 제 2 양의 헤드룸을 가지며, 그리고 상기 제 2 양의 헤드룸이 상기 제 1 양의 헤드룸보다 더 큰, 입력 오디오 신호를 인코딩하기 위한 장치.
제 15 항에 있어서,
상기 제 1 양의 헤드룸은 0 비트의 헤드룸과 동일하고, 상기 제 2 양의 헤드룸은 3 비트의 헤드룸과 동일한, 입력 오디오 신호를 인코딩하기 위한 장치.
제 13 항에 있어서,
상기 고대역 타겟 신호를 생성하는 것은,
스펙트럼으로 플립핑된 신호를 생성하도록 상기 스케일링된 입력 신호 상에서 스펙트럼 플립 동작을 수행하는 것; 및
상기 고대역 타겟 신호를 생성하도록 상기 스펙트럼으로 플립핑된 신호 상에서 데시메이션 동작을 수행하는 것을 포함하는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 17 항에 있어서,
상기 데시메이션 동작은 4 의 팩터에 의해 상기 스펙트럼으로 플립핑된 신호를 데시메이션하는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 13 항에 있어서,
상기 저대역 부분은 0 헤르쯔 (Hz) 와 6 킬로헤르쯔 (kHz) 사이의 주파수 범위를 갖는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 13 항에 있어서,
상기 고대역 부분은 6 킬로헤르쯔 (kHz) 와 8 kHz 사이의 주파수 범위를 갖는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 13 항에 있어서,
상기 동작들은,
상기 고대역 타겟 신호로부터 선형 예측 스펙트럼 포락선, 시간 이득 파라미터들, 또는 그 조합을 생성하는 것을 더 포함하는, 입력 오디오 신호를 인코딩하기 위한 장치.
삭제
제 13 항에 있어서,
안테나; 및
상기 안테나에 커플링되고 인코딩된 오디오 신호를 송신하도록 구성된 송신기를 더 포함하는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 23 항에 있어서,
상기 인코더, 상기 메모리, 및 상기 송신기는 모바일 통신 디바이스에 통합되는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 23 항에 있어서,
상기 인코더, 상기 메모리, 및 상기 송신기는 기지국에 통합되는, 입력 오디오 신호를 인코딩하기 위한 장치.
입력 오디오 신호를 인코딩하기 위한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 인코더 내에서 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
입력 오디오 신호의 제 1 자기상관 값을 상기 입력 오디오 신호의 제 2 자기상관 값과 비교함으로써, 상기 입력 오디오 신호의 에너지 분포를 나타내는 스펙트럼 틸트를 결정하는 것으로서, 상기 입력 오디오 신호는 제 1 에너지 레벨을 갖는 저대역 부분 및 제 2 에너지 레벨을 갖는 고대역 부분을 갖는, 상기 결정하는 것;
스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 상기 입력 오디오 신호를 스케일링하는 것으로서, 상기 스케일링 팩터는 상기 입력 오디오 신호의 상기 스펙트럼 틸트에 기초하여 결정되는, 상기 입력 오디오 신호를 스케일링하는 것;
상기 입력 신호에 기초하여 저대역 여기 신호를 생성하는 것;
상기 스케일링된 입력 신호로부터 고대역 타겟 신호를 생성하는 것;
상기 고대역 타겟 신호 및 상기 저대역 여기 신호로부터, 디코더가 상기 고대역 타겟 신호를 재구성할 수 있는 고대역 부가 정보를 생성하는 것; 및
상기 입력 오디오 신호를 표현하는 비트스트림의 일부로서 상기 고대역 부가 정보를 인코딩하는 것을 포함하는 동작들을 수행하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 26 항에 있어서,
상기 제 1 자기상관 값을 상기 제 2 자기상관 값과 비교하는 것은, 상기 제 2 자기상관 값을, 상기 제 1 자기상관 값과 임계와의 곱과 비교하는 것을 포함하고, 상기 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것은,
상기 비교가 제 1 결과를 생성하는 경우 제 1 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것; 또는
상기 비교가 제 2 결과를 생성하는 경우 제 2 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 27 항에 있어서,
상기 스케일링된 입력 신호는 상기 제 1 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것에 응답하여 제 1 양의 헤드룸을 갖고, 상기 스케일링된 입력 신호는 상기 제 2 스케일링 팩터에 의해 상기 입력 신호를 스케일링하는 것에 응답하여 제 2 양의 헤드룸을 가지며, 그리고 상기 제 2 양의 헤드룸이 상기 제 1 양의 헤드룸보다 더 큰, 비일시적 컴퓨터 판독가능 저장 매체.
제 28 항에 있어서,
상기 제 1 양의 헤드룸은 0 비트의 헤드룸과 동일하고, 상기 제 2 양의 헤드룸은 3 비트의 헤드룸과 동일한, 비일시적 컴퓨터 판독가능 저장 매체.
제 26 항에 있어서,
상기 고대역 타겟 신호를 생성하는 것은,
스펙트럼으로 플립핑된 신호를 생성하도록 상기 스케일링된 입력 신호 상에서 스펙트럼 플립 동작을 수행하는 것; 및
상기 고대역 타겟 신호를 생성하도록 상기 스펙트럼으로 플립핑된 신호 상에서 데시메이션 동작을 수행하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 30 항에 있어서,
상기 데시메이션 동작은 4 의 팩터에 의해 상기 스펙트럼으로 플립핑된 신호를 데시메이션하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 26 항에 있어서,
상기 저대역 부분은 0 헤르쯔 (Hz) 와 6 킬로헤르쯔 (kHz) 사이의 주파수 범위를 갖는, 비일시적 컴퓨터 판독가능 저장 매체.
제 1 에너지 레벨을 갖는 저대역 부분 및 제 2 에너지 레벨을 갖는 고대역 부분을 갖는 입력 오디오 신호를 수신하는 수단;
상기 입력 오디오 신호의 제 1 자기상관 값을 상기 입력 오디오 신호의 제 2 자기상관 값과 비교함으로써, 상기 입력 오디오 신호의 에너지 분포를 나타내는 스펙트럼 틸트를 결정하는 수단;
스케일링된 입력 신호를 생성하도록 스케일링 팩터에 의해 상기 입력 오디오 신호를 스케일링하는 수단으로서, 상기 스케일링 팩터는 상기 입력 오디오 신호의 상기 스펙트럼 틸트에 기초하여 결정되는, 상기 입력 오디오 신호를 스케일링하는 수단;
상기 입력 신호에 기초하여 저대역 여기 신호를 생성하는 수단;
상기 스케일링된 입력 신호로부터 고대역 타겟 신호를 생성하는 수단;
상기 고대역 타겟 신호 및 상기 저대역 여기 신호로부터, 디코더가 상기 고대역 타겟 신호를 재구성할 수 있는 고대역 부가 정보를 생성하는 수단; 및
상기 입력 오디오 신호를 표현하는 비트스트림의 일부로서 상기 고대역 부가 정보를 인코딩하는 수단을 포함하는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 33 항에 있어서,
상기 고대역 타겟 신호를 생성하는 수단은,
스펙트럼으로 플립핑된 신호를 생성하도록 상기 스케일링된 입력 신호 상에서 스펙트럼 플립 동작을 수행하는 수단; 및
상기 고대역 타겟 신호를 생성하도록 상기 스펙트럼으로 플립핑된 신호 상에서 데시메이션 동작을 수행하는 수단을 포함하는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 33 항에 있어서,
상기 고대역 타겟 신호로부터 선형 예측 스펙트럼 포락선, 시간 이득 파라미터들, 또는 그 조합을 생성하는 수단을 더 포함하는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 33 항에 있어서,
상기 입력 신호를 수신하는 수단 및 상기 고대역 타겟 신호를 생성하는 수단은 모바일 통신 디바이스에 통합되는, 입력 오디오 신호를 인코딩하기 위한 장치.
제 33 항에 있어서,
상기 입력 신호를 수신하는 수단 및 상기 고대역 타겟 신호를 생성하는 수단은 기지국에 통합되는, 입력 오디오 신호를 인코딩하기 위한 장치.