KR101019398B1

KR101019398B1 - 오디오 코딩 및 디코딩에서의 여기의 프로세싱

Info

Publication number: KR101019398B1
Application number: KR1020087027512A
Authority: KR
Inventors: 해리나스 가루대드리; 나빈 스리니바사무르티
Original assignee: 퀄컴 인코포레이티드
Priority date: 2006-04-10
Filing date: 2007-04-09
Publication date: 2011-03-07
Also published as: EP2005423A1; CN101421780B; ATE547787T1; WO2007121140A1; CN101421780A; TW200816168A; EP2005423B1; US8392176B2; KR20080110892A; TWI332193B; JP2009533716A; US20070239440A1

Abstract

장치 및 방법에서, 시변 신호가 FDLP (frequency domain linear prediction) 방식을 통해서 프로세싱되고 인코딩되어 올-폴 모델에 도달한다. 이 방식으로부터 도출된 나머지 신호는 시간 도메인 신호로 추정 및 변환된다. 이 프로세스 및 헤테로다이닝을 통해서, 시간 도메인 신호는 다운-시프트된 캐리어 신호로서 기저대역 레벨을 향하여 주파수 시프트된다. 다운-시프트된 캐리어 신호의 주파수 변환 및 올-폴 모델의 양자화된 값은 송신 또는 저장을 위해 적절하게 코딩된 신호로서 패킷화된다. 시변 신호를 복원하기 위해, 인코딩된 신호가 디코딩된다. 기본적으로, 디코딩 프로세스는 인코딩 프로세스의 반전이다.

시변 신호, 인코딩, 디코딩, 인벨롭 부분, 캐리어 부분, 기저대역 주파수

Description

오디오 코딩 및 디코딩에서의 여기의 프로세싱{PROCESSING OF EXCITATION IN AUDIO CODING AND DECODING}

35 U.S.C.§119 에 따른 우선권 주장

본 특허출원은 "서브-밴드의 스펙트럼 다이나믹스에 기초한 오디오 코딩에서의 여기의 프로세싱 (Processing of Excitation in Audio Coding Based on Spectral Dynamics in Sub-Bands)" 의 명칭으로 2006년 4월 10일자로 출원된 미국 가출원 제60/791,042호를 우선권 주장하며, 이 출원은 본원의 양수인에게 양도되어 있고 본 명세서에 참조로 명백히 포함된다.

배경

I. 기술분야

본 발명은 일반적으로 신호 프로세싱에 관한 것이고, 더욱 상세하게는, 저장 및 취득 (retrieval) 을 위한 또는 통신을 위한 신호의 코딩 및 디코딩에 관한 것이다.

II . 배경기술

디지털 전기 통신에서, 신호는 송신을 위해 코딩되고 수신을 위해 디코딩될 필요가 있다. 신호의 코딩은, 원 신호를 송신 매체를 통해서 전파하기에 적합한 포맷으로 컨버팅하는 것과 관련이 있다. 그 목적은, 매체의 대역폭의 낮은 소비로 원 신호의 품질을 보존하는 것에 있다. 신호의 디코딩은 코딩 프로세스의 반전을 수반한다.

공지된 코딩 방식은, 펄스-코드 변조 (PCM; pulse-code modulation) 의 기술을 이용한다. 예를 들어, 음성 신호 (speech signal) 의 세그먼트일 수 있는 시변 신호 x(t) 를 나타내는 도 1 을 참조한다. y-축과 x-축은 각각 진폭 및 시간을 나타낸다. 아날로그 신호 x(t) 는 복수의 펄스 (20) 에 의해 샘플링된다. 각각의 펄스 (20) 는 특정 시점에서 신호 x(t) 를 나타내는 진폭을 갖는다. 이하, 펄스 (20) 각각의 진폭은, 예를 들어, 후속 송신을 위해 디지털값으로 코딩될 수 있다.

대역폭을 절약하기 위해, 송신 이전에 대수 압신 프로세스 (logarithmic companding process) 를 이용하여 PCM 펄스 (20) 의 디지털값이 압축될 수 있다. 수신단에서, 수신기는 단지 전술된 코딩 프로세스의 반전을 수행하여 원 시변 신호 x(t) 의 근사 버전을 복구한다. 전술한 방식을 채용하는 장치는 통상 α-법칙 코덱 또는 μ-법칙 코덱으로 지칭된다.

사용자의 수가 증가함에 따라, 대역폭 절약에 대한 실질적인 요구가 더 존재한다. 예를 들어, 무선 통신 시스템에서, 다수의 사용자는 유한의 주파수 스펙트럼을 공유할 수 있다. 각각의 사용자는 통상적으로 다른 사용자들 사이에서 제한된 대역폭을 할당 받는다.

지난 10 년 정도에, 음성 코더 (speech coder) 의 개발에 있어서 상당한 진보를 이루어 왔다. 통상적으로 채택된 기술은 부호 여기 선형 예측 (CELP; code excited linear prediction) 의 방법을 채용한다. CELP 방법의 세부적인 사항은, Rabiner 와 Schafer 에 의한 "음성 신호의 디지털 프로세싱 (Digital Processing of Speech Signals)" (Prentice Hall, ISBN: 0132136031, 1978 년 9 월) 이란 제목의 출판물, 및 Deller, Proakis 및 Hansen 에 의한 "음성 신호의 이산-시간 프로세싱 (Discrete-Time Processing of Speech Signals)" (Wiley-IEEE Press, ISBN: 0780353862, 1999 년 9 월) 이란 제목의 출판물에서 찾을 수 있다. CELP 방법에 따른 근본적인 원리가 이하 간략하게 설명된다.

이하, 도 1 을 다시 참조한다. CELP 방법을 이용하여, 개별적으로 각각의 PCM 샘플 (20) 을 디지털 코딩하여 송신하는 대신에, PCM 샘플 (20) 은 그룹으로 코딩되어 송신된다. 예를 들어, 도 1 의 시변 신호 x(t) 의 PCM 펄스 (20) 는 먼저 복수의 프레임 (22) 으로 파티셔닝된다. 각각의 프레임 (22) 은 고정된 시간 지속기간, 예를 들어, 20ms 이다. 각각의 프레임 (22) 내의 PCM 샘플 (20) 은 CELP 방식을 통해서 집합적으로 코딩되고, 그후 송신된다. 샘플링된 펄스의 예시적인 프레임들은 도 1 에 도시된 PCM 펄스 그룹 (22A 내지 22C) 이다.

간략화를 위해, 예를 들어, 3 개의 PCM 펄스 그룹 (22A 내지 22C) 만을 고려한다. 송신 이전의 인코딩 중에, PCM 펄스 그룹 (22A 내지 22C) 의 디지털값은 선형 예측기 (LP; linear predictor) 모듈에 연속적으로 공급된다. 그 결과인 출력은 주파수 값의 세트이고, 또한, 이는, 기본적으로 펄스 그룹 (22A 내지 22C) 의 스펙트럼 콘텐츠를 나타내는 "LP 필터" 또는 간단하게 "필터" 로서 지칭된다. 그후, LP 필터는 양자화된다.

LP 모듈은 PCM 펄스 그룹 (22A 내지 22C) 의 스펙트럼 표현의 근사값을 발생시킨다. 이와 같이, 예측 프로세스 동안, 에러 값 또는 나머지 (residual) 값이 도입된다. 이 나머지 값은, PCM 펄스 그룹 (22A 내지 22C) 의 코딩된 디지털 값의 근접 매칭을 위해 이용가능한 다양한 조합의 엔트리를 유지하는 코드북으로 매핑된다. 코드북에서 가장 적합한 값이 매핑된다. 이 매핑된 값은 송신될 값이다. 이러한 전반적인 프로세스는 TDLP (time-domain linear prediction) 로 지칭된다.

따라서, 전기 통신에서 CELP 방법을 이용하여, 인코더 (미도시) 는 오직 LP 필터 및 매핑된 코드북 값만을 발생시켜야만 한다. 송신기는, 전술한 α-법칙 인코더 및 μ-법칙 인코더에서와 같이 개별적으로 코딩된 PCM 펄스 값 대신에, LP 필터 및 매핑된 코드북 값만을 송신할 필요가 있다. 결과적으로, 상당량의 통신 채널 대역폭이 절감될 수 있다.

또한, 수신기단에서, 송신기의 코드북과 유사한 코드북을 갖는다. 동일한 코드북에 의존하는 수신기에서의 디코더 (미도시) 는, 전술한 바와 같이 코딩 프로세스를 반전시켜야만 한다. 수신된 LP 필터와 함께, 시변 신호 x(t) 가 복구될 수 있다.

지금까지, 전술한 CELP 방식과 같은 수많은 공지된 음성 코딩 방식은, 코딩되는 신호가 단시간 불변이라는 (short-time stationary) 가정에 기초한다. 즉, 이 방식은, 코딩된 프레임의 주파수 콘텐츠가 고정적이고, 필터를 여기시키는데 있어서 단순 (올-폴; all-pole) 필터 및 몇몇 입력 표현에 의해 근사될 수 있다는 전제에 기초한다. 전술한 바와 같이 코드북에 도달하는데 있어서 다양한 TDLP 알고리즘은 이러한 모델에 기초한다. 그럼에도 불구하고, 개인들 사이의 음성 패턴은 매우 상이할 수 있다. 또한, 다양한 악기들로부터 발생되는 사운드와 같은 인간 이외의 (non-human) 오디오 신호는 인간의 사운드와는 구별가능하게 상이하다. 또한, 전술한 바와 같은 CELP 프로세스에서, 실시간 신호 프로세싱을 촉진하기 위해, 단시간 프레임이 통상적으로 선택된다. 더욱 상세하게는, 도 1 에 도시된 바와 같이, 코드북에서 벡터들의 대응 엔트리에 대한 22A 내지 22C 와 같은 PCM 펄스 그룹의 값의 매핑에서 알고리즘 지연을 감소시키기 위해서는, 예를 들어, 도 1 에 도시된 바와 같이, 20ms 와 같은 단시간 윈도우 (22) 가 정의된다. 그러나, 각각의 프레임으로부터 도출된 스펙트럼 또는 포먼트 정보 (formant information) 는 대부분 공통이고 다른 프레임들 사이에서 공유될 수 있다. 그 결과, 포먼트 정보는 대역폭 절약을 위해 가장 좋은 방법이 아닌 방법으로, 통신 채널을 통해서 다소 반복적으로 전송된다.

따라서, 인간의 음성뿐만 아니라 다양한 다른 사운드에도 적용가능하고, 더 나아가 채널 리소스의 효과적인 활용을 위한, 신호 품질의 보존을 개선한 코딩 및 디코딩 방식을 제공하는 것이 필요하다.

본 출원과 동일한 양수인에게 양도된 함께 계류중인 미국 특허 출원 제11/583,537호는, 먼저 시변 신호를 주파수-도메인 신호로 변환하는 FDLP (frequency domain linear prediction) 방식을 이용함으로써 전술한 요구에 필요성을 처리한다. 다음으로, 주파수-도메인 신호의 인벨롭 부분 및 캐리어 부분이 식별된다. 그후, 주파수-도메인 신호는 복수의 서브-밴드로 정렬된다. 인벨롭 부분은 올-폴 모델로서 FDLP 방식에 의해 근사된다. 올-폴 모델의 나머지 도 나타내는 캐리어 부분은 대략적으로 추정된다. 올-폴 모델 신호 인벨롭의 결과 데이터 및 추정 캐리어는, 송신 또는 저장에 적합한 인코딩된 신호로서 패킷화된다. 시변 신호를 복원하기 위해, 인코딩된 신호가 디코딩된다. 기본적으로, 디코딩 프로세스는 인코딩 프로세스의 반대이다.

개선된 신호 품질을 위해, 신호 캐리어는, 실질적으로 부가적인 대역폭의 어떠한 추가 소모 없이, 패킷화 및 인코딩 이전에 더욱 정확하게 결정될 수 있다.

개요

일 장치 및 방법에서, 시변 신호는 서브-밴드로 파티셔닝된다. 각각의 서브-밴드는, 주파수 도메인 선형 예측 (FDLP) 을 통해서 프로세싱되고 인코딩되어, 올-폴 모델에 도달한다. 각각의 서브-밴드에서 이 방식으로부터 기인한 나머지 신호가 추정된다. 올-폴 모델 및 나머지 신호는, 각각의 서브-밴드에서 각각 힐버트 인벨롭 (Hilbert envelope) 및 힐버트 캐리어 (Hilbert carrier) 를 나타낸다. 헤테로다이닝 프로세스를 통해서, 시간-도메인 나머지 신호는 다운-시프트된 (downshifted) 캐리어 신호로서 기저대역 레벨을 향하여 주파수 시프트된다. 다운-시프트된 캐리어 신호와 올-폴 모델의 양자화된 값은 송신 또는 저장에 적합한 인코딩된 신호로서 패킷화된다. 시변 신호를 복원하기 위해, 인코딩된 신호는 디코딩된다. 디코딩 프로세스는 기본적으로 인코딩 프로세스의 반전이다.

파티셔닝된 프레임은, 지속기간으로 비교적 길게 선택될 수 있고, 신호 소스의 포맷 또는 공통 스펙트럼 정보의 보다 효율적인 이용을 야기한다. 전술한 바와 같이 구현된 장치 및 방법은, 단지 보컬릭 음성 (vocalic voice) 에만 사용되지 않고, 다양한 악기, 또는 그 조합으로부터 발생된 사운드와 같은 다른 사운드에 사용하기에도 적합하다.

이러한 특징과 이점 및 다른 특징과 이점은, 동일한 참조 부호가 동일한 부분을 지칭하는 첨부 도면과 함께 취해진, 이하의 상세한 설명으로부터 당업자에게 명백하다.

도면의 간단한 설명

도 1 은 이산 신호로 샘플링된 시변-신호의 그래픽 표현을 나타낸다.

도 2 는 본 발명의 예시적인 실시형태의 하드웨어 구현을 나타내는 일반적인 개략도이다.

도 3 은 예시적인 실시형태의 인코딩 프로세스에 수반된 단계들을 도시하는 흐름도이다.

도 4 는 복수의 프레임으로 파티셔닝된 시변 신호의 그래픽 표현이다.

도 5 는 도 4 의 시변 신호의 세그먼트의 그래픽 표현이다.

도 6 은 도 5 에 도시된 신호의 주파수-변환이다.

도 7 은 도 5 에 도시된 시변 신호의 서브-밴드 신호의 그래픽 표현이고, 여기에, 서브-밴드 신호의 인벨롭 부분도 도시된다.

도 8 은 도 7 의 서브-밴드 신호의 캐리어 부분의 그래픽 표현이다.

도 9 는 도 7 의 서브-밴드의 주파수-도메인 변환의 그래픽 표현이고, 여기서, 주파수-도메인 변환의 추정된 올-폴 모델도 도시된다.

도 10 은 도 8 의 다운-시프트된 주파수-도메인 변환의 그래픽 표현이다.

도 11 은 복수의 서브-밴드에 대해 변환된 데이터를 정렬하기 위한 복수의 중첩 가우시안 윈도우의 그래픽 표현이다.

도 12 는 주파수-도메인 선형 예측 프로세스를 나타내는 그래픽 표현이다.

도 13 은 도 10 의 주파수-도메인 변환의 복원된 버전의 그래픽 표현이다.

도 14 는 도 8 의 캐리어 부분 신호의 복원된 버전의 그래픽 표현이다.

도 15 는 예시적인 실시형태의 디코딩 프로세스에 수반된 단계들을 도시하는 흐름도이다.

도 16 은 예시적인 실시형태에 따른 인코더의 회로의 일부에 대한 개략적인 도면이다.

도 17 은 예시적인 실시형태에 따른 디코더의 회로의 일부에 대한 개략적인 도면이다.

상세한 설명

이하의 설명은, 당업자로 하여금 본 발명을 개발하고 이용하도록 하기 위해 제공된다. 설명의 목적을 위해 이하의 세부 사항이 상세하게 설명된다. 당업계에서 통상적인 기술 중 하나는, 본 발명이 이들의 특정 세부사항을 이용하지 않고 실행될 수도 있다는 것을 파악하게 된다는 것이다. 예를 들어, 공지된 구조 및 프로세스는 불필요한 세부사항을 통해서 본 발명의 설명을 방해하지 않기 위해 설명되지 않는다. 따라서, 본 발명은 도시된 실시형태들에 의해 제한되도록 의도되지 않지만, 본 명세서에 개시된 원리 및 특징과 피팅하는 넓은 범위에 따른 다.

도 2 는 본 발명의 예시적인 실시형태를 구현하기 위한 하드웨어의 일반적인 개략도이다. 전반적으로 이 시스템은 참조 부호 30 으로 나타난다. 이 시스템 (30) 은 인코딩 섹션 (32) 및 디코딩 섹션 (34) 으로 대략 분할될 수 있다. 이들 섹션들 (32 및 34) 사이에 데이터 핸들러 (36) 가 배치되어 있다. 데이터 핸들러 (36) 의 예는 데이터 저장 디바이스 또는 통신 채널일 수 있다.

인코딩 섹션 (32) 에서는, 인코더 (38) 가 데이터 패킷화기 (40) 에 접속되어 있다. 인코더 (38) 와 데이터 패킷화기 (40) 를 통과한 후, 시변 입력 신호 x(t) 는 데이터 핸들러 (36) 로 전달된다.

약간 유사한 방식이지만 반대의 순서로, 디코딩 섹션 (34) 에서는, 디코더 (42) 가 데이터 역패킷화기 (44) 에 접속되어 있다. 데이터 핸들러 (36) 로부터의 데이터는, 데이터 역패킷화기 (44) 에 공급되고, 이는 다음에 원 시변 신호 x(t) 의 복원을 위해 역패킷화된 데이터를 디코더 (42) 로 전송한다.

도 3 은 도 2 에 도시된 시스템 (30) 의 인코딩 섹션 (32) 에 수반된 프로세싱 단계를 도시하는 흐름도이다. 이하의 설명에서, 도 3 은 도 4 내지 도 14 와 함께 참조된다.

도 3 의 단계 S1 에서, 예를 들어, 펄스-코드 변조 (PCM) 의 프로세스를 통해서, 먼저 시변 신호 x(t) 가 샘플링된다. 신호 x(t) 의 이산 버전은 x(n) 으로 표현된다. 도 4 에서는, 단지 연속적인 신호 x(t) 만이 도시된다. 도 4 를 모호하지 않게 하며 명확화를 위해, x(n) 의 다수의 이산 펄스들은 도시되지 않 는다.

본 상세한 설명 및 첨부된 청구범위에서는, 적절한 곳은 어디라도, 상세하게 특정되지 않는 한, 용어 "신호" 는 광범위하게 해석된다. 따라서, 용어 "신호"는 연속 신호 및 이산 신호를 포함하고, 더 나아가 주파수-도메인 신호 및 시간-도메인 신호를 더 포함한다. 또한, 이하, 소문자 심볼은 시간-도메인 신호를 나타내고, 대문자 심볼은 주파수-변환된 신호를 나타낸다. 나머지 표기는 후속의 설명에 소개될 것이다.

단계 S2 로 진행하여, 샘플링된 신호 x(n) 은 복수의 프레임으로 파티셔닝된다. 일 이러한 프레임은 도 4 에 도시된 바와 같이 참조 부호 46 으로 나타난다. 예시적인 실시형태에서, 프레임 (46) 에 대한 시간 지속기간은 1 초로 선택된다.

선택된 프레임 (46) 내의 시변 신호는 도 4 에서 s(t) 로 라벨링된다. 연속 신호 s(t) 는 도 5 에서 강조되고 복제된다. 도 5 에 도시된 신호 세그먼트 s(t) 는 도 4 에 도시된 것과 동일한 신호 세그먼트 s(t) 와 비교하여 훨씬 연장된 시간 스케일을 갖는다는 것이 주목되어야 한다. 즉, 도 5 의 x-축의 시간 스케일은 도 4 의 대응 x-축 스케일과 비교하여 한쪽으로 상당히 연장된다. 그 반대가 y-축에 대해서 유지된다.

신호 s(t) 의 이산 버전은 s(n) 으로 표현되고, 여기서 n 은 샘플수를 나타내는 정수이다. 또한, 도면을 모호하게 하지 않고 명확화를 위해, 단지 x(n) 의 샘플만이 도 5 에 도시된다. 시간-연속 신호 s(t) 는 이하의 대수식에 의해 이산 신호 s(n) 과 관련되고:

s(t) = s(nτ)

여기서, τ 는 도 5 에 도시된 바와 같은 샘플링 주기이다.

도 3 의 단계 S3 로 진행하여, 샘플링된 신호 s(n) 는 주파수 변환을 겪는다. 이 실시형태에서, 이산 코사인 변환 (DCT; discrete cosine transform) 이 사용된다. 그러나, 당업계에 잘 알려진, 다양한 유형의 직교, 비-직교 및 신호-의존 변환과 같은 다른 유형의 변환이 이용될 수 있다. 이하, 상세한 설명 및 첨부된 청구범위에서, 용어 "주파수 변환" 및 "주파수-도메인 변환" 이 교환가능하게 이용된다. 또한, 용어 "시간 변환" 및 "시간-도메인 변환" 도 교환가능하게 이용된다. 수학적으로, DCT 프로세스를 통한 시간 도메인으로부터의 주파수 도메인으로의 이산 신호 s(n) 의 변환이 이하와 같이 표현될 수 있고:

여기서, s(n) 은 상기 정의된 바와 같고, f 는 0≤f≤N 인 이산 주파수이고, T 는 s(n) 의 N 개의 펄스의 N 개의 변환된 값들의 선형 어레이이고, 계수 c 는

(여기서,

) 로 주어진다.

s(n) 의 시간-도메인 파라미터의 DCT 이후에, 그 결과물인 주파수-도메인 파라미터 T(f) 가 도 6 에 도표로 도시되고, 참조 부호 51 로 지정된다. 이 실시 형태에서 주파수-도메인 변환 T(f) 의 N 개의 펄스 샘플은 DCT 계수로 지칭된다. 여기에서도, 단지 약간의 DCT 계수만이 도 6 에 도시된다.

도 3 의 단계 S4 로 진행하여, DCT 변환 T(f) 의 N 개의 DCT 계수들은 그룹화된 후 복수의 주파수 서브-밴드 윈도우에 피팅된다. 서브-밴드 윈도우의 상대적 배열은 도 11 에 도시된다. 서브-밴드 윈도우 (50) 와 같은 각각의 서브-밴드 윈도우는 가변-사이즈 윈도우로서 나타난다. 예시적인 실시형태에서, 서브-밴드를 나타내기 위해 가우시안 분포가 이용된다. 도시된 바와 같이, 서브-밴드 윈도우들의 중심들은 선형적으로 분리되어 있지 않다. 오히려, 이 윈도우들은 바크 스케일 (Bark scale), 즉, 인간의 지각의 일정한 알려진 특성에 따라서 구현되는 스케일에 따라서 이격된다. 구체적으로, 서브-밴드 윈도우는 고주파단에서보다 저주파단에서 더 좁다. 이러한 배열은, 포유류의 청각 시스템의 감각 생리학이 오디오 주파수 스펙트럼의 상위단의 더 넓은 주파수 범위보다 하위단의 더 좁은 주파수 범위에 대해 더욱 많이 동조되어 있다는 사실에 기초한다. 서브-밴드의 그루핑의 다른 접근방식도 실용적일 수 있다는 것을 명심해야만 한다. 예를 들어, 서브-밴드는, 이 예시적인 실시형태에 설명된 바와 같이 바크 스케일에 따라서 그루핑되는 대신에, 동일한 대역폭의 서브밴드이며 균등하게 이격될 수 있다.

서브-밴드들의 수 M 을 선택하는데 있어서, 복잡성과 신호 품질 사이에 균형이 이루어져야 한다. 즉, 더욱 높은 품질의 인코딩된 신호가 요구되는 경우, 더 많이 패킷화된 데이터 비트 및 더 나아가 나머지 신호의 더욱 복잡한 처리를 희생하여, 많은 서브-밴드들이 선택될 수 있고, 이들은 후술된다. 한편, 간략함을 위해 더 적은 서브-밴드의 수가 선택될 수도 있지만, 상대적으로 낮은 품질을 가지는 인코딩된 신호를 초래할 수도 있다. 또한, 서브-밴드들의 수는 샘플링 주파수에 의존하여 선택될 수 있다. 예를 들어, 샘플링 주파수가 16,000Hz 인 경우, M 은 15 로 선택될 수 있다. 예시적인 실시형태에서, 샘플링 주파수는 8,000Hz 로 선택되고, 여기서, M 은 13 (즉, M=13) 으로 설정된다.

N 개의 DCT 계수가 분리되고 M 개의 중첩 가우시안 윈도우들의 형태로 M 개의 서브-밴드에 피팅된 후, 도 11 에 도시된 바와 같이, 그리고 전술한 바와 같이, 각각의 서브-밴드에서 분리된 DCT 계수들은 더 프로세싱될 필요가 있다. 이하, 인코딩 프로세스는 도 3 의 단계 S5 내지 S16 으로 진행한다. 이 실시형태에서, 단계 S5 내지 S16 의 각각은 병렬로 서브-단계의 M 개의 세트들의 프로세싱을을 포함한다. 즉, 서브-단계들의 M 개의 세트의 프로세싱은 얼마간 동시에 수행된다. 이하, 명백함과 간결성을 위해, k번째 서브-밴드에 대해 처리하는 서브-단계 S5k 내지 S16k 를 수반하는 세트만이 설명된다. 다른 서브-밴드 세트의 프로세싱은 실질적으로 유사하다는 것을 주목해야 한다.

본 실시형태의 이하의 설명에서, M=13 이고, 1≤k≤M 인데, 여기서 k 는 정수이다. 또한, k 번째 서브-밴드에서 정렬된 DCT 계수는 주파수-도메인 항인 T_k(f) 로 나타난다. k 번째 서브-밴드에서의 DCT 계수 T_k(f) 는, s_k(n) 으로 표현된 시간-도메인 카운터파트를 갖는다.

여기서, 이는 다양한 주파수-도메인 항 및 시간-도메인 항을 정의하고 구별하기 위해 본론에서 벗어나는 것을 돕는다.

k 번째 서브-밴드에서의 시간-도메인 신호 s_k(n) 는 그 대응 주파수 카운터파트 T_k(f) 의 역이산 코사인 변환 (IDCT) 에 의해 획득될 수 있다. 수학적으로, 이는 이하와 같이 표현되고:

여기서, s_k(n) 및 T_k(f) 는 상기 정의된 바와 같다. 여기에서도, f 는 0≤f≤N 내의 이산 주파수이고, 계수 c 는

(여기서,

) 로 주어진다.

주파수 도메인에서 시간 도메인으로 주제를 바꿔서, k 번째 서브-밴드에서의 시간-도메인 신호 s_k(n) 은 본질적으로 2 개의 부분, 즉, 시간 도메인 힐버트 인벨롭

및 힐버트 캐리어

으로 구성된다. 시간-도메인 힐버트 인벨롭

은 도 7 에 도식적으로 도시된다. 그러나, 역시 명백함을 위해, 힐버트 인벨롭

의 이산 성분은 도시되지 않고, 오히려, 신호 인벨롭이 도 7 의 참조 부호 52 로 나타난 바와 같이 라벨링된다. 대충 설명하면, 힐버트 인벨롭

의 하부에는 종종 여기 (excitation) 로 지칭되는 캐리어 신호가 있다. 힐버트 인벨롭

으로부터 제거한, 캐리어 신호, 또는 힐버트 캐리어

이 도 8 에 도시된다. 다른 방식으로, 도 7 에 도시된 바와 같은 힐버트 인벨롭

으로 도 8 에 도시된 바와 같은 힐버트 캐리어

을 변조하는 것은 도 7 에 도시된 바와 같은 k 번째 서브-밴드에서의 시간-도메인 신호 s_k(n) 를 도출할 것이다. 대수적으로, 이는 이하와 같이 표현된다.

따라서, 식 (4) 로부터, 시간-도메인 힐버트 인벨롭

및 힐버트 캐리어

이 알려진 경우, k 번째 서브-밴드에서의 시간-도메인 신호 s_k(n) 가 복원될 수 있다. 복원된 신호는 무손실 복원의 신호에 근사한다.

또한, 시간-도메인 신호 s_k(n) 과 그 주파수-도메인 카운터파트 T_k(f) 사이의 도식적인 관계가 도 7 및 도 9 로부터 확인될 수 있다. 도 7 에서, 시간-도메인 신호 s_k(n) 이 도시되고, 이는 또한 참조 부호 54 로 나타난다. 도 9 는 도 7 의 시간-도메인 신호 s_k(n) 의 주파수-도메인 변환 T_k(f) 을 도시한다. 또한, 파라미터 T_k(f) 는 참조 부호 28 로 지정된다. 전술한 바와 같이, 주파수-도메인 변환 T_k(f) 은, 예를 들어, DCT 를 통해서 시간-도메인 신호 s_k(n) 로부터 발생될 수 있다.

도 3 으로 돌아와서, 기본적으로, 서브-단계 S5k 및 S6k 는 서브-밴드 k 에서의 힐버트 인벨롭

및 힐버트 캐리어

을 결정하는 것에 관련된다. 구체적으로, 서브-단계 S5k 및 S6k 는 힐버트 인벨롭

을 평가하는 것을 다루고, 서브-단계 S7k 내지 S16k 는 힐버트 캐리어

을 계산하는 것에 관련된다. 전술한 바와 같이, 일단 2 개의 파라미터

및

가 알려지면, k 번째 서브-밴드에서의 시간-도메인 신호 s_k(n) 는 식 (4) 에 따라서 복원될 수 있다.

또한, 전술한 바와 같이, k 번째 서브-밴드에서 시간-도메인 항 힐버트 인벨롭

은 대응 주파수-도메인 파라미터 T_k(f) 로부터 도출될 수 있다. 그러나, 서브-단계 S5k 에서, 파라미터 T_k(f) 의 정확한 변환을 위해 IDCT 프로세스를 이용하는 것 대신에, 예시적인 실시형태에 파라미터 T_k(f) 의 주파수 도메인 선형 예측 (FDLP) 의 프로세스가 이용된다. FDLP 프로세스로부터 기인한 데이터는 더욱 능률화될 (streamlined) 수 있어서, 그 결과, 송신 또는 저장에 더욱 적합하게 될 수 있다.

이하의 단락에서, FDLP 프로세스가 간략하게 설명된 다음에, 보다 상세한 설명이 이루어진다.

간략하게, FDLP 프로세스에서, 힐버트 인벨롭

의 주파수-도메인 카운터파트가 추정되고, 이 추정된 카운터파트는

로서 대수적으로 표현되고, 도 9 에 도시되며 56 으로 라벨링된다. 파라미터

가 본래 임의의 캐리어 정보를 빼앗긴 힐버트 인벨롭

의 주파수 변환이기 때문에, 파라미터

는 그 기저대역을 향하여 주파수-시프트된다는 것을 주목해야 한다. 그러나, 인코딩되도록 의도된 신호는 캐리어 정보를 갖는 s_k(n) 이다. 파라미터 s_k(n) 의 정확한 (즉, 추정되지 않은) 주파수-도메인 카운터파트는 도 9 에 도시된 T_k(f) 이고, 이는 28 로 라벨링된다. 도 9 에 도시되고 이하에 더 상술하는 바와 같이, 파라미터

가 근사값이기 때문에, 근사값

과 실제값 T_k(f) 사이의 차 (difference) 가 또한 결정될 수 있고, 이 차는 C_k(f) 로 표현된다. 파라미터 C_k(f) 는 주파수-도메인 힐버트 캐리어로 지칭되고, 또한 종종 나머지 값으로 지칭된다.

이하, 파라미터 C_k(f) 의 추정 및 FDLP 프로세스의 세부사항이 더 설명된다.

FDLP 프로세스에서, Levinson-Durbin 알고리즘이 채용된다. 수학적으로, Levinson-Durbin 알고리즘에 의해 추정되는 파라미터들은 이하와 같이 표현되고,

여기서, H(z) 는 z-도메인에서의 전달 함수이고; z 는 z-도메인에서 복소 변 수이고; a(i) 는 힐버트 인벨롭

의 주파수-도메인 카운터파트

에 근사하는 올-폴 모델의 i 번째 계수이며; i=0,...,K-1 이다.

z-도메인에서 Z-변환의 기초는, 제목이 "이산-시간 신호 프로세싱 (Discrete-Time Signal Processing)" 의 제 2 판이고, Alan V. Oppenheim, Ronald W. Schafer, John R. Buck, Prentice Hall, ISBN: 0137549202 에 의한 간행물에서 발견될 수 있고, 이는 본 명세서에 더욱 상세하게 부연되지는 않는다.

식 (5) 에서, K 값은 프레임 (46) (도 4 참조) 의 길이에 기초하여 선택될 수 있다. 예시적인 실시형태에서, K 는, 1 초로 설정된 프레임 (46) 의 시간 지속기간을 갖는 20 으로 선택된다.

본질적으로, 식 (5) 에 의해 예시된 바와 같은 FDLP 프로세스에서, k 번째 서브-밴드에서 주파수-도메인 변환의 DCT 계수 T_k(f) 는 Levinson-Durbin 알고리즘을 통해서 프로세싱되어, 계수의 세트 a(i) 가 도출되는데, 여기서 0≤i≤K-1 이다. 계수의 세트 a(i) 는 시간-도메인 힐버트 인벨롭

(도 7 참조) 의 주파수 카운터파트

(도 9 참조) 를 나타낸다. 도식적으로, FLDP 프로세스가 도 12 에 도시된다.

Levinson-Durbin 알고리즘은 당업계에 잘 알려져 있고, 본 명세서에는 설명되지 않는다. 이 알고리즘의 원리는, Rabiner 및 Schafer 에 의한 "음성 신호의 디지털 프로세싱 (Digital Processing of Speech Signals)" (Prentice Hall, ISBN: 0132136031, 1978 년 9월) 이란 제목의 출판물에서 발견될 수 있다.

도 3 의 서브-단계 S6k 로 진행하여, 그 결과물인 계수 a(i) 가 양자화된다. 즉, 각각의 값 a(i) 에 대해, 코드북 (미도시) 으로부터 근접 피트 (close fit) 가 식별되어, 근사값에 도달한다. 이 프로세스는 손실성 근사 (lossy approximation) 로 지칭된다. 양자화 중에, a(i) (여기서, i=0 내지 K-1) 의 전체 벡터가 양자화될 수 있고, 또는 그 대신에, 전체 벡터가 분리되어 분할 및 양자화될 수 있다. 또한, 코드북 매핑을 통한 양자화 프로세스도 잘 알려져 있고, 추가적으로 부연될 필요는 없다.

FDLP 프로세스의 결과는 파라미터

이고, 이는, 전술한 바와 같이, 주파수-도메인 항으로 표현된 힐버트 인벨롭

이다. 파라미터

는 도 9 에서 참조 부호 56 으로 식별된다. 또한, 파라미터

의 양자화된 계수 a(i) 는 도 9 에 그래픽적으로 디스플레이될 수 있고, 여기서, 61 과 63 으로 라벨링된 2 개는 파라미터

(56) 의 인벨롭에 걸친다.

파라미터

의 양자화된 계수 a(i) (여기서, i=0 내지 K-1 임) 는 데이터 핸들러 (36) (도 2 참조) 에 전송될 인코딩된 정보의 일부일 것이다.

본 명세서에서 반복 및 전술한 바와 같이, 파라미터

는 원 파라미터 T_k(f) 의 손실성 근사이기 때문에, 2 개의 파라미터들 사이의 차는 나머지 값으로서 캡쳐 및 표현될 수 있으며, 여기서, 나머지 값은 C_k(f) 로서 대수적으로 표현된다. 이와 다르게, 올-폴 모델에 도달하도록 전술한 것과 같은 Levinson-Durbin 알고 리즘을 통한 서브-단계 S5k 및 S6k 에서의 피팅 프로세스에서, 원 신호에 대한 몇몇 정보는 캡쳐될 수 없다. 고품질의 신호 인코딩이 의도되는 경우, 즉, 무손실 인코딩이 요구되는 경우, 나머지 값 C_k(f) 이 추정될 필요가 있다. 기본적으로, 나머지 값 C_k(f) 는 신호 s_k(n) 의 캐리어 주파수

의 주파수 성분에 대응하고, 이는, 이하 더 설명될 것이다.

도 3 의 서브-단계 S7k 로 진행하여, 이 서브-단계는, 힐버트 인벨롭

에 도달하는 것과 관련하는데, 그 주파수 카운터파트

의 시간-도메인 변환을 수행함으로써 간단하게 획득될 수 있다.

C_k(f) 로 표현된 주파수-도메인 또는

으로 표현된 시간-도메인 중 어느 한 쪽에서의 나머지 값의 추정이 도 3 의 서브-단계 S8k 에서 수행된다. 이 실시형태에서, 시간-도메인 나머지 값

은 힐버트 인벨롭

로 원 시간-도메인 서브-밴드 신호 s_k(n) 를 직접 제산함으로써 간단하게 도출된다. 수학적으로, 이는, 이하와 같이 표현되고:

여기서, 모든 파라미터는 상기 정의된 바와 같다.

식 (6) 은 나머지 값을 추정하는 간단한 방식으로 나타난다는 것을 주목해야 한다. 또한, 추정을 위해 다른 접근방법이 사용될 수 있다. 예를 들어, 주파수-도메인 나머지 값 C_k(f) 는 파라미터 T_k(f) 와

사이의 차에서 발생될 수 있다. 이하, 시간-도메인 나머지 값

은 값 C_k(f) 의 직접 시간-도메인 변환에 의해 획득될 수 있다.

도 3 에서, 서브-단계 S9k 내지 S11k 는 기저대역 주파수를 향하여 힐버트 캐리어

를 다운-시프트하는 것을 다룬다. 특히, 서브-단계 S9k 및 S10k 는 분석 신호 z_k(t) 를 발생시키는 것에 관련한다. 주파수 다운-시프트는 서브-단계 S11k 에서 헤테로다이닝의 프로세스를 통해서 수행된다. 서브-단계 S12k 및 S13k 는 다운-시프트된 캐리어

의 값을 선택적으로 선택하는 방법을 도시한다.

이하, 도 3 의 서브-단계 S9k 를 참조한다. 당업계에 잘 알려진 바와 같이, 시간-도메인 신호를 복소 분석 신호로 컨버팅하면, 푸리에 변환에서 음의 주파수 성분을 제거한다. 결과적으로, 그 이후에 수행되는 신호 계산 및 신호 분석은 실질적으로 간략화될 수 있다. 이러한 경우에서와 같이, 동일한 처리가 시간-도메인 나머지 값

에 적용된다.

도 3 의 단계 S9k 에 도시된 바와 같이, 시간-도메인 신호

의 분석 신호 z_k(n) 를 발생시키기 위해, 신호

의 힐버트 변환이 수행될 필요가 있다. 신호

의 힐버트 변환은 심볼

로 나타나고, 이하의 대수식으로부터 발 생될 수 있는데:

여기서, 모든 파라미터는 상기 정의된 바와 같다. 식 (7) 은 기본적으로 시간-도메인에서 통상적으로 공지된 힐버트 변환식이다.

도 3 의 단계 S10k 에서 도시된 바와 같이, 힐버트 변환 이후에, 분석 신호 z_k(n) 는 간단하게 힐버트 변환 신호

의 허수부와 시간-도메인 신호 c_k(t) 의 합계이다. 수학적으로, 이는 이하와 같이 표현되고:

여기서, j 는 허수이다.

도 3 의 서브-단계 S11k 에 도시된 바와 같이, 분석 신호의 도출 이후에, 헤테로다이닝 프로세스가 수행된다. 본질적으로, 헤테로다이닝은 2 개의 파라미터, 즉, 분석 신호 z_k(n) 와 힐버트 캐리어

의 스칼라 곱이다. 그 결과물인 신호는 종종 다운-샘플링된 힐버트 캐리어 d_k(n) 으로 지칭된다. 대안으로서, 신호 d_k(n) 는 복조되는, 다운-샘플링된 힐버트 캐리어로서 지칭될 수 있고, 이 는, 기본적으로, 0 (zero) 값 또는 기저대역 주파수를 향하여 원 힐버트 캐리어

의 주파수 시프트되며 다운-샘플링된 신호이다. 파라미터 d_k(n) 에 대한 다른 용어도 또한 적용가능하다는 것을 주목해야 한다. 이러한 용어는, 복조되는, 다운-시프트된 힐버트 캐리어, 또는 간단하게, 복조된 힐버트 캐리어, 다운-시프트된 힐버트 캐리어, 또는 다운-샘플링된 힐버트 캐리어를 포함한다. 또한, 용어 "힐버트" 는 종종 생략될 수 있고, 이는, 용어 "힐버트 캐리어" 대신에 이용될 수 있으며, 이는, 간단하게 "캐리어" 로 지칭된다. 이 상세한 설명 및 첨부된 청구범위에서, 전술된 모든 용어는 교환가능하게 이용된다.

수학적으로, 복조된 신호인, 다운-샘플링된 힐버트 캐리어 d_k(n) 는 이하의 식으로부터 도출되고:

여기서, 모드 항은 상기 정의된 바와 같고, R 은 다운-샘플링 레이트이다.

파라미터 d_k(n) 에 도달하도록 파라미터

의 주파수를 다운-시프트함으로써, 후술하는 필터링 및 임계화 (thresholding) 와 같은, 각각의 서브-밴드에서의 힐버트 캐리어의 프로세싱이, 실질적으로 더욱 용이하게 이루어질 수 있다. 구체적으로, 각각의 서브-밴드에서의 힐버트 캐리어의 오프셋 주파수는 사전에 결정되거나 또는 공지될 필요가 없다. 예를 들어, 필터 알고리즘의 구현에서, 모 든 서브-밴드들은 하나의 오프셋 주파수, 즉, 기저대역 주파수를 사용할 수 있다.

도 3 의 서브-단계 S12k 에 도시된 바와 같이, 주파수 다운-시프트의 프로세스 이후에, 다운-샘플링된 힐버트 캐리어 d_k(n) 는 저역-통과 필터를 통과한다.

복조된 캐리어 d_k(n) 는 복소이며, 분석적이라는 것을 주목해야 한다. 이와 같이, 파라미터 d_k(n) 의 푸리에 변환은 켤레-대칭이 아니다. 상이하게 표현하면, 분석 신호 z_k(n) 를 헤테로다이닝하는 프로세스는, 음의 주파수에서의 켤레-대칭 항 없이, 기저대역 주파수를 향하여 d_k(n) 로서 힐버트 캐리어

의 주파수를 본질적으로 시프트한다. 도 10 에서 다운-시프트된 캐리어 d_k(n) 의 주파수-도메인 변환 D_k(f) 으로부터 확인할 수 있는 바와 같이, 파라미터 D_k(f) 는 참조 부호 60 으로 표현된 원점에 근접하게 시프트된다. 다운-시프트된 캐리어 d_k(n) 를 주파수 도메인 카운터파트 D_k(f) 로 주파수 변환하는 프로세스는 도 3 의 단계 S13k 에 도시된다.

도 3 의 단계 S14k 로 진행하여, 복조된 힐버트 캐리어 d_k(n) 의 주파수-도메인 변환 D_k(f) 은 임계 필터링을 겪는다. 참조 부호 62 로 나타난 예시적인 임계 라인은 도 10 에 도시된 것과 같다.

이 예시적인 실시형태에서, 임계값이 동적으로 적용된다. 즉, 각각의 서브-밴드에 대해, 파라미터 D_k(f) 의 샘플의 평균 크기 및 최대 크기와 같은 다른 파 라미터들, 및/또는 파라미터 D_k(f) 의 이웃 서브-밴드들의 동일한 파라미터들에 기초하여 조정가능하게 임계값 (62) 이 이루어진다. 또한, 이 파라미터들은 파라미터 D_k(f) 의 샘플의 평균 크기 및 최대 크기 및/또는 파라미터 D_k(f) 의 인접 시간-프레임의 동일한 파라미터를 포함할 수 있다. 또한, 임계값은 선택된 계수들의 수에 기초하여 동적으로 적응될 수 있다. 예시적인 실시형태에서, 임계 라인 (62) 상부의 주파수-도메인 변환 D_k(f) 의 값들만이 선택된다.

이후, 임계값보다 큰 파라미터 D_k(f) 의 선택된 성분들이 양자화된다. 이 예에서, 각각의 선택된 성분은 크기 값 b_m(i)및 위상 값 b_p(i) 을 포함하는데, 여기서, 0≤i≤L-1 이다. 도 3 에서 서브-단계 S15k 에서 도시된 바와 같이, 양자화된 값 b_m(i)및 b_p(i) 은 양자화된 값으로서 표시된다.

임계-필터링된 파라미터 D_k(f) 의 양자화된 값 b_m(i)및 b_p(i) (여기서, i=0 내지 L-1 임) 은, 데이터 핸들러 (36) (도 2 참조) 에 전송될 전술한 바와 같은, 양자화된 계수 a(i) (여기서, i = 0 내지 K-1) 와 함께 인코딩된 정보의 다른 부분일 것이다.

이하, 도 3 에 대한 참조로 다시 복귀한다. 힐버트 인벨롭

정보 및 힐버트 캐리어

정보가 전술한 바와 같은 계수 a(i), b_m(i)및 b_p(i) 로서 표현된 k 번째 서브-밴드로부터 획득된 이후에, 이 획득된 정보는 단계 S16k 에서 도시된 바와 같이 엔트로피 코딩 방식을 통해서 코딩된다.

이하, 도 3 의 단계 S17 에 도시된 바와 같이, M 개의 서브-밴드들의 각각으로부터의 모든 데이터가 연결되고 패킷화된다. 필요에 따라, 데이터 압축 및 암호화를 포함하는, 당업계에 공지된 다양한 알고리즘은 패킷화 프로세스에서 구현될 수 있다. 그후, 패킷화된 데이터는 도 3 의 단계 S18 에 도시된 바와 같이 데이터 핸들러 (36) (도 2 참조) 로 전송될 수 있다.

디코딩 및 복원을 위해 데이터 핸들러 (36) 로부터 데이터가 취득될 수 있다. 도 2 를 참조하여, 디코딩 동안, 데이터 핸들러 (36) 로부터의 패킷화된 데이터가 역패킷화기 (44) 로 전송되고, 그후, 디코더 (42) 에 의해 디코딩 프로세스를 경험한다. 디코딩 프로세스는, 실질적으로, 전술한 바와 같은 인코딩 프로세스의 반전이다. 명백함을 위해, 디코딩 프로세스는 부연되지 않지만, 도 15 의 흐름도에서 요약된다.

송신 동안, M 개의 주파수 서브-밴드 중 몇몇에서의 데이터가 손상된 경우, 복원된 신호의 품질은 많이 영향을 받지 않아야만 한다. 이는, 상대적으로 긴 프레임 (46) (도 4 참조) 이 중요하지 않은 데이터 결함을 보상하기에 충분한 스펙트럼 정보를 캡쳐할 수 있다.

복조된 힐버트 캐리어 d_k(t) 의 예시적인 복원된 주파수-도메인 변환 D_k(f) 은 도 13 및 도 14 에 각각 도시된다.

도 16 및 도 17 은, 도 2 의 인코딩 섹션 (32) 과 디코딩 섹션 (34) 의 예시 적인 하드웨어 구현을 도시하는 개략적인 도면이다.

먼저, 도 16 의 인코딩 섹션 (32) 에 대한 참조가 설명된다. 몇몇으로만 지칭되는, 컴퓨터, 뮤직 플레이어, PDA (personal digital assistant), 무선 전화기와 같은 다양한 형태로, 인코딩 섹션 (32) 이 구성 또는 통합될 수 있다.

인코딩 섹션 (32) 은 몇몇 회로를 함께 연결하는 중심 데이터 버스 (70) 를 포함한다. 이들 회로는, CPU (central processing unit) 또는 컨트롤러 (72), 입력 버퍼 (74), 및 메모리 유닛 (78) 을 포함한다. 이 실시형태에서, 송신 회로 (76) 도 또한 포함된다.

인코딩 섹션 (32) 이 무선 디바이스의 일부인 경우, 송신 회로 (76) 는 무선 주파수 (RF) 회로에 접속될 수 있지만, 도면에 도시되지는 않는다. 송신 회로 (76) 는, 데이터를 인코딩 섹션 (32) 외부로 전송하기 전에 데이터 버스 (70) 로부터의 데이터를 프로세싱하고 버퍼링한다. CPU/컨트롤러 (72) 는 데이터 버스 (70) 의 데이터 관리 기능을 수행하고, 더 나아가, 메모리 유닛 (78) 의 명령 콘텐츠의 실행을 포함하여 일반적인 데이터 프로세싱 기능을 수행한다.

도 16 에 도시된 바와 같이 분리 배치되는 대신에, 대안으로서, 송신 회로 (76) 가 CPU/컨트롤러 (72) 의 일부가 될 수 있다.

입력 버퍼 (74) 는 리코더의 출력부 또는 마이크로폰과 같은 다른 디바이스 (미도시) 에 결합될 수 있다.

메모리 유닛 (78) 은, 일반적으로 참조 부호 77 로 나타난 컴퓨터-판독가능 명령의 세트를 포함한다. 이 상세한 설명 및 첨부된 청구범위에서, 용어 "컴퓨 터-판독가능 명령" 및 "컴퓨터-판독가능 프로그램 코드" 는 교환가능하게 사용된다. 이 실시형태에서, 명령은, 특히, DCT 기능 (80), 윈도우잉 기능 (84), FDLP 기능 (86), 헤테로다이닝 기능 (88), 힐버트 변환 기능 (90), 필터링 기능 (92), 다운-샘플링 기능 (94), 동적 임계화 기능 (96), 양자화기 기능 (98), 엔트로피 코딩 기능 (100) 및 패킷화기 기능 (102) 과 같은 부분을 포함한다.

예를 들어, 도 3 에 도시된 인코딩 프로세스의 설명에서, 다양한 기능들이 상술되었지만, 더 반복되지는 않는다.

이제, 도 17 의 디코딩 섹션 (34) 에 대한 참조가 이루어진다. 역시, 디코딩 섹션 (34) 은 전술한 인코딩 섹션 (32) 과 같이 다양한 형태로 구성 또는 통합될 수 있다.

또한, 디코딩 섹션 (34) 은, CPU/컨트롤러 (192), 출력 버퍼 (196), 및 메모리 유닛 (197) 과 같은 다양한 회로에 함께 접속된 중심 버스 (190) 를 갖는다. 또한, 수신 회로 (194) 가 포함될 수 있다. 다시, 디코딩 섹션 (34) 이 무선 디바이스의 일부인 경우, 수신 회로 (194) 는 RF 회로 (미도시) 에 접속될 수 있다. 수신 회로 (194) 는, 데이터를 디코딩 섹션 (34) 으로 전송하기 전에 데이터 버스 (190) 로부터의 데이터를 프로세싱하고 버퍼링한다. 대안으로서, 수신 회로 (194) 는 도시된 바와 같이 분리 배치되기 보다는 CPU/컨트롤러 (192) 의 일부가 될 수 있다. CPU/컨트롤러 (192) 는 데이터 버스 (190) 의 데이터 관리의 기능을 수행하고, 더 나아가, 메모리 유닛 (197) 의 명령 콘텐츠를 실행하는 것을 포함하여, 일반적인 데이터 프로세싱의 기능을 더 수행한다.

출력 버퍼 (196) 는 증폭기의 입력부 또는 확성기와 같은 다른 디바이스 (미도시) 에 결합될 수 있다.

메모리 유닛 (197) 은, 일반적으로 참조 부호 199 로 나타난 명령의 세트를 포함한다. 이 실시형태에서, 명령은, 특히, 역패킷화기 기능 (198), 엔트로피 디코더 기능 (200), 역양자화기 기능 (202), 상향-샘플링 기능 (204), 힐버트 역변환 기능 (206), 역헤테로다이닝 기능 (208), DCT 기능 (210), 합성 기능 (212), 및 IDCT 기능 (214) 와 같은 부분을 포함한다.

예를 들어, 도 15 에 도시된 디코딩 프로세스의 설명에서, 다양한 기능이 설명되고, 더 반복될 필요는 없다.

인코딩 섹션 (32) 및 디코딩 섹션 (34) 은 도 16 및 도 17 각각에 개별적으로 도시된다는 것을 주목해야 한다. 몇몇 애플리케이션에서, 2 개의 섹션 (32 및 34) 은 매우 종종 함께 구현된다. 예를 들어, 전화기와 같은 통신 디바이스에서, 인코딩 섹션 (32) 과 디코딩 섹션 (34) 이 설치될 필요가 있다. 이와 같이, 특정 회로 또는 특정 유닛이 이들 섹션 사이에서 공통으로 공유될 수 있다. 예를 들어, 도 16 의 인코딩 섹션 (32) 에서의 CPU/컨트롤러 (72) 는 도 17 의 디코딩 섹션 (34) 에서의 CPU/컨트롤러 (192) 와 동일할 수 있다. 마찬가지로, 도 16 에서의 중앙 데이터 버스 (70) 가 접속될 수 있고, 도 17 에서의 중앙 데이터 버스 (190) 와 동일할 수 있다. 또한, 모든 인코딩 섹션 (32) 및 디코딩 섹션 (34) 의 기능에 대한 모든 명령 (77 및 199) 각각은, 도 16 의 메모리 유닛 (78) 또는 도 17 의 메모리 유닛 (197) 과 유사한 하나의 메모리 유닛에서 함께 풀 링 (pooling) 될 수 있고, 배치될 수 있다.

이 실시형태에서, 메모리 유닛 (78 또는 197) 은 RAM (Random Access Memory) 회로이다. 예시적인 명령 부분 (80, 84, 86, 88, 90, 92, 94, 96, 98, 100, 102, 197, 198, 200, 202, 204, 206, 208, 210, 212 및 214) 은 소프트웨어 루틴 또는 모듈이다. 메모리 유닛 (78 또는 197) 은 휘발성 또는 비휘발성 유형의 둘 중 하나일 수 있는 다른 메모리 회로 (미도시) 에 결합될 수 있다. 대안으로서, 메모리 유닛 (78 또는 197) 은, 다른 회로 유형, 예를 들어, EEPROM (Electrically Erasable Programmable Read Only Memory), EPROM (Electrical Programmable Read Only Memory), ROM (Read Only Memory), 자기 디스크, 광 디스크, 및 당업계에 알려진 다른 디바이스로 이루어질 수 있다.

또한, 메모리 유닛 (78 또는 197) 은 ASIC (application specific integrated circuit) 일 수 있다. 즉, 기능에 대한 명령 및 코드 (77 및 199) 는 하드-와이어드될 수 있거나, 또는 하드웨어, 또는 그 조합에 의해 구현될 수 있다. 또한, 함수에 대한 명령 (77 및 199) 은 하드웨어 또는 소프트웨어 구현되는 바와 같이 명확하게 구별될 필요는 없다. 확실히, 명령 (77 및 199) 은 소프트웨어와 하드웨어 모두의 조합으로서 일 디바이스에서 구현될 수 있다.

도 3 및 도 15 에 설명되고 도시된 인코딩 프로세스 및 디코딩 프로세스는 당업계에 공지된 임의의 컴퓨터-판독가능 매체상에서 유지된 컴퓨터-판독가능 명령 또는 프로그램 코드로서 코딩될 수 있다. 이 상세한 설명 및 첨부된 청구범위에서, 용어 "컴퓨터-판독가능 매체" 는, 실행을 위해, 도 16 또는 도 17 에 각각 도시되고 설명된 CPU/컨트롤러 (72 또는 192) 와 같은 임의의 프로세서에 명령을 제공하는데 관여하는 임의의 매체를 지칭한다. 이와 같은 매체는 스토리지 유형 매체일 수 있고, 예를 들어, 도 16 및 도 17 의 각각 메모리 유닛 (78 및 197) 의 설명에서 사전에 설명된 바와 같이 휘발성 또는 비-휘발성 저장 매체의 형태를 취할 수도 있다. 이와 같은 매체는 송신 유형 매체일 수 있고, 동축 케이블, 구리 배선, 광 케이블, 및 머신 또는 컴퓨터에 의해 판독가능한 신호를 반송할 수 있는 음파, 전자파 또는 광파를 반송할 수 있는 무선 인터페이스를 포함할 수도 있다. 이 상세한 설명 및 첨부된 청구범위에서, 특별하게 식별되지는 않는 한, 신호 반송파는 광파, 전자파, 및 음파를 포함하는 매체 파를 총체적으로 지칭한다.

마지막으로, 다른 변화가 본 발명의 범위 내에서 가능하다. 전술한 바와 같은 예시적인 실시형태에서, 오디오 신호의 프로세싱만이 설명된다. 그러나, 본 발명은 이와 같이 제한되지 않는다는 것을 주목해야 한다. 또한, 초음파 신호와 같은 신호의 다른 유형의 프로세싱도 가능하다. 본 발명은 브로드케스트 세팅에 이용될 수 있는데, 즉, 일 인코더로부터의 신호는 복수의 디코더로 전송될 수 있다는 것을 주목해야 한다. 또한, 전술한 바와 같은 예시적인 실시형태는 무선 애플리케이션에서 이용되는데 한정될 필요는 없다. 예를 들어, 종래의 유선 전화에는 전술한 예시적인 인코더 및 디코더가 설치될 수 있다. 또한, 실시형태를 설명하는데 있어서, Levinson-Durbin 알고리즘이 이용되고, 예측 필터 파라미터들을 추정하기 위해 당업계에 알려진 다른 알고리즘이 또한 채용될 수 있다. 또한, 실시형태와 관련되어 설명된 임의의 논리 블록, 회로, 및 알고리즘 단계는 하드웨어, 소프트웨어, 펌웨어, 또는 그 조합으로 구현될 수 있다. 형태 및 세부사항에서의 이러한 변화 및 다른 변화는 본 발명의 범위 및 사상을 벗어나지 않고 본 명세서에서 이루어질 수도 있다는 것이 이해될 것이다.

Claims

시변 신호를 인코딩하는 방법으로서,

상기 시변 신호를 복수의 서브-밴드 신호들로 파티셔닝하는 단계;

상기 서브-밴드 신호들 각각의 인벨롭 부분 및 캐리어 부분을 결정하는 단계;

다운-시프트된 캐리어 신호로서, 상기 시변 신호의 기저대역 주파수를 향해서 상기 캐리어 부분을 주파수-시프트하는 단계;

상기 다운-시프트된 캐리어 신호의 값들을 선택적으로 선택하는 단계; 및

상기 시변 신호의 인코딩된 데이터로서, 상기 선택된 값들을 포함시키는 단계를 포함하는, 시변 신호를 인코딩하는 방법.
제 1 항에 있어서,

인코딩 이전에, 상기 시변 신호를 이산 신호로서 컨버팅하는 단계를 더 포함하는, 시변 신호를 인코딩하는 방법.
제 1 항에 있어서,

상기 시변 신호를 주파수-도메인 변환으로 변환하는 단계를 더 포함하고,

상기 복수의 서브-밴드 신호들은, 상기 시변 신호의 상기 주파수-도메인 변환으로부터 선택되는, 시변 신호를 인코딩하는 방법.
제 3 항에 있어서,

상기 인벨롭 부분 및 상기 캐리어 부분은 주파수-도메인 신호들이고,

상기 시변 신호를 인코딩하는 방법은,

상기 기저대역 주파수를 향해서 상기 캐리어 부분을 주파수-시프트하는 단계 전에, 상기 주파수-도메인 신호들의 상기 캐리어 부분을 시간-도메인 변환으로 변환하는 단계를 더 포함하는, 시변 신호를 인코딩하는 방법.
시변 신호를 디코딩하는 방법으로서,

상기 시변 신호의 복수의 서브-밴드들에 대응하는 복수의 값들의 세트들을 제공하는 단계로서, 상기 값들의 세트들은 상기 시변 신호의 인벨롭 정보 및 캐리어 정보를 포함하는, 상기 제공하는 단계;

상기 복수의 서브-밴드들에 대응하는 복수의 캐리어 신호들로서, 상기 복수의 값들의 세트들로부터 상기 캐리어 정보를 식별하는 단계;

업-시프트된 캐리어 신호로서, 상기 시변 신호의 기저대역 주파수로부터 떨어져 상기 복수의 캐리어 신호들 각각을 주파수-시프트하는 단계; 및

상기 시변 신호의 디코딩된 데이터로서, 상기 업-시프트된 캐리어 신호를 포함시키는 단계를 포함하는, 시변 신호를 디코딩하는 방법.
제 5 항에 있어서,

업-시프트된 캐리어 신호로서 상기 복수의 캐리어 신호들 각각을 역-헤테로다이닝 (inverse-heterodyning) 하는 단계를 더 포함하는, 시변 신호를 디코딩하는 방법.
제 6 항에 있어서,

상기 복수의 서브-밴드들에 대응하는 복수의 인벨롭 신호들로서 상기 복수의 값들의 세트들로부터의 상기 인벨롭 정보를 식별하고, 그 이후에,

상기 시변 신호의 복원된 버전으로서 상기 복수의 인벨롭 신호들에 의해 상기 복수의 캐리어 신호들을 변조하는 단계를 더 포함하는, 시변 신호를 디코딩하는 방법.
시변 신호를 인코딩하는 장치로서,

상기 시변 신호를 복수의 서브-밴드 신호들로 파티셔닝하는 수단;

상기 서브-밴드 신호들 각각의 인벨롭 부분 및 캐리어 부분을 결정하는 수단;

다운-시프트된 캐리어 신호로서, 상기 시변 신호의 기저대역 주파수를 향해서 상기 캐리어 부분을 주파수-시프트하는 수단;

상기 다운-시프트된 캐리어 신호의 값들을 선택적으로 선택하는 수단; 및

상기 시변 신호의 인코딩된 데이터로서, 상기 선택된 값들을 포함시키는 수단을 포함하는, 시변 신호를 인코딩하는 장치.
제 8 항에 있어서,

인코딩 이전에, 이산 신호로서 상기 시변 신호를 컨버팅하는 수단을 더 포함하는, 시변 신호를 인코딩하는 장치.
제 8 항에 있어서,

상기 시변 신호를 주파수-도메인 변환으로 변환하는 수단을 더 포함하고,

상기 복수의 서브-밴드 신호들은, 상기 시변 신호의 상기 주파수-도메인 변환으로부터 선택되는, 시변 신호를 인코딩하는 장치.
제 10 항에 있어서,

상기 인벨롭 부분 및 상기 캐리어 부분은 주파수-도메인 신호들이고,

상기 시변 신호를 인코딩하는 장치는,

상기 기저대역 주파수를 향해서 상기 캐리어 부분을 주파수-시프트하기 전에, 상기 주파수-도메인 신호들의 상기 캐리어 부분을 시간-도메인 변환으로 변환하는 수단을 더 포함하는, 시변 신호를 인코딩하는 장치.
시변 신호를 디코딩하는 장치로서,

상기 시변 신호의 복수의 서브-밴드들에 대응하는 복수의 값들의 세트들을 제공하는 수단으로서, 상기 값들의 세트들은 상기 시변 신호의 인벨롭 정보 및 캐 리어 정보를 포함하는, 상기 제공하는 수단;

상기 복수의 서브-밴드들에 대응하는 복수의 캐리어 신호들로서 상기 복수의 값들의 세트들로부터 상기 캐리어 정보를 식별하는 수단;

업-시프트된 캐리어 신호로서 상기 시변 신호의 기저대역 주파수로부터 떨어져 상기 복수의 캐리어 신호들 각각을 주파수-시프트하는 수단; 및

상기 시변 신호의 디코딩된 데이터로서, 상기 업-시프트된 캐리어 신호를 포함시키는 수단을 포함하는, 시변 신호를 디코딩하는 장치.
제 12 항에 있어서,

업-시프트된 캐리어 신호로서 상기 복수의 캐리어 신호들 각각을 역-헤테로다이닝하는 수단을 더 포함하는, 시변 신호를 디코딩하는 장치.
제 12 항에 있어서,

상기 복수의 서브-밴드들에 대응하는 복수의 인벨롭 신호들로서 상기 복수의 값들의 세트들로부터 상기 인벨롭 정보를 식별하는 수단, 및

상기 시변 신호의 복원된 버전으로서 상기 복수의 인벨롭 신호들에 의해 상기 복수의 캐리어 신호들을 변조하는 수단을 더 포함하는, 시변 신호를 디코딩하는 장치.
시변 신호를 인코딩하는 장치로서,

상기 시변 신호를 복수의 서브-밴드 신호들로 파티셔닝하고, 상기 서브-밴드 신호들의 각각의 인벨롭 부분 및 캐리어 부분을 결정하고, 다운-시프트된 캐리어 신호로서 상기 시변 신호의 기저대역 주파수를 향해서 상기 캐리어 부분을 주파수-시프트하고, 상기 다운-시프트된 캐리어 신호의 값들을 선택적으로 선택하도록 구성된 인코더; 및

상기 인코더에 접속되어, 상기 시변 신호의 인코딩된 데이터의 일부로서 상기 선택된 값들을 패킷화하는 데이터 패킷화기를 포함하는, 시변 신호를 인코딩하는 장치.
제 15 항에 있어서,

상기 데이터 패킷화기에 접속되어 상기 인코딩된 데이터를 통신 채널을 통해서 전송하는 송신 회로를 더 포함하는, 시변 신호를 인코딩하는 장치.
시변 신호를 디코딩하는 장치로서,

상기 시변 신호의 복수의 서브-밴드들에 대응하며 상기 시변 신호의 인벨롭 정보 및 캐리어 정보를 포함하는 복수의 값들의 세트들을 제공하고, 또한, 상기 복수의 서브-밴드들에 대응하는 복수의 인벨롭 신호 및 복수의 캐리어 신호로서 상기 복수의 값들의 세트들로부터 상기 인벨롭 정보 및 상기 캐리어 정보를 식별하고, 업-시프트된 캐리어 신호로서 상기 시변 신호의 기저대역 주파수로부터 떨어져 상기 복수의 캐리어 신호들의 각각을 주파수-시프트하도록 구성된 데이터 역패킷화 기, 및

상기 데이터 역패킷화기에 접속되어, 상기 값들의 세트들을 시간-도메인 값들로 변환하도록 구성된 디코더를 포함하는, 시변 신호를 디코딩하는 장치.
시변 신호를 복수의 서브-밴드 신호들로 파티셔닝하고;

상기 서브-밴드 신호들의 각각의 인벨롭 부분 및 캐리어 부분을 결정하고;

다운-시프트된 캐리어 신호로서 상기 시변 신호의 기저대역 주파수를 향해서 상기 캐리어 부분을 주파수-시프트하고;

상기 다운-시프트된 캐리어 신호의 값들을 선택적으로 선택하고; 그리고

상기 시변 신호의 인코딩된 데이터로서, 상기 선택된 값들을 포함시키기 위한 컴퓨터-판독가능 프로그램 코드가 물리적으로 포함된, 컴퓨터 판독가능 기록 매체.
제 18 항에 있어서,

인코딩 이전에, 상기 시변 신호를 이산 신호로서 컨버팅하기 위한 컴퓨터-판독가능 프로그램 코드를 더 포함하는, 컴퓨터 판독가능 기록 매체.
제 18 항에 있어서,

상기 시변 신호를 주파수-도메인 변환으로 변환하기 위한 컴퓨터-판독가능 프로그램 코드를 더 포함하고,

상기 복수의 서브-밴드 신호들은, 상기 시변 신호의 상기 주파수-도메인 변환으로부터 선택되는, 컴퓨터 판독가능 기록 매체.
제 20 항에 있어서,

상기 기저대역 주파수를 향해서 상기 캐리어 부분을 주파수-시프트하기 전에, 주파수-도메인 신호들의 상기 캐리어 부분을 시간-도메인 변환으로 변환하기 위한 컴퓨터-판독가능 프로그램 코드를 더 포함하는, 컴퓨터 판독가능 기록 매체.
시변 신호의 복수의 서브-밴드들에 대응하며 상기 시변 신호의 인벨롭 정보 및 캐리어 정보를 포함하는, 복수의 값들의 세트들을 제공하고;

상기 복수의 서브-밴드들에 대응하는 복수의 캐리어 신호들로서 상기 복수의 값들의 세트들로부터 상기 캐리어 정보를 식별하고;

업-시프트된 캐리어 신호로서 상기 시변 신호의 기저대역 주파수로부터 떨어져 상기 복수의 캐리어 신호들 각각을 주파수-시프트하고;

상기 시변 신호의 디코딩된 데이터로서 상기 업-시프트된 캐리어 신호를 포함시키기 위한 컴퓨터-판독가능 프로그램 코드가 물리적으로 포함된, 컴퓨터 판독가능 기록 매체.
제 22 항에 있어서,

업-시프트된 캐리어 신호로서 상기 복수의 캐리어 신호들 각각을 역-헤테로다이닝하기 위한 컴퓨터-판독가능 프로그램 코드를 더 포함하는, 컴퓨터 판독가능 기록 매체.
제 22 항에 있어서,

상기 복수의 서브-밴드들에 대응하는 복수의 인벨롭 신호들로서 상기 복수의 값들의 세트들로부터 상기 인벨롭 정보를 식별한 후, 상기 시변 신호의 복원된 버전으로서 상기 복수의 인벨롭 신호들에 의해 상기 복수의 캐리어 신호들을 변조하기 위한 컴퓨터-판독가능 프로그램 코드를 더 포함하는, 컴퓨터 판독가능 기록 매체.