KR20170117207A

KR20170117207A - 적응적 대역폭 확장 및 그것을 위한 장치

Info

Publication number: KR20170117207A
Application number: KR1020177027672A
Authority: KR
Inventors: 양 가오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2013-09-10
Filing date: 2014-09-09
Publication date: 2017-10-20
Also published as: RU2641224C2; EP3039676A1; RU2016113288A; PL3301674T3; MX2016003074A; EP4258261A3; KR101871644B1; CN105637583B; KR101785885B1; CN105637583A; CN107393552A; EP3301674B1; US20170221498A1; EP3039676B1; EP3039676A4; BR112016005111A2; CN107393552B; KR20160050071A; AU2014320881B2; US10249313B2

Abstract

인코딩된 오디오 비트스트림을 디코딩하고 주파수 대역폭 확장을 생성하는 방법은, 오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하는 단계를 포함한다. 디코딩된 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 지시하는 파라미터를 이용하여 저주파수 대역 내로부터 서브대역 영역이 선택된다. 선택된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을, 고주파수 대역에 대응하는 높은 서브대역 영역에 카피함으로써, 고주파수 대역에 대한 고대역 여기 스펙트럼이 생성된다. 생성된 고대역 여기 스펙트럼을 이용하여, 고대역 스펙트럼 포락선을 적용함으로써 확장된 고대역 오디오 신호가 생성된다. 확장된 고대역 오디오 신호는 디코딩된 저대역 오디오 신호에 부가되어 확장된 주파수 대역폭을 갖는 오디오 출력 신호를 생성한다.

Description

적응적 대역폭 확장 및 그것을 위한 장치{ADAPTIVE BANDWIDTH EXTENSION AND APPARATUS FOR THE SAME}

본 발명은 일반적으로 스피치 처리의 분야에 관한 것이고, 특히 적응적 대역폭 확장 및 그것을 위한 장치에 관한 것이다.

현대 오디오/스피치 디지털 신호 통신 시스템에서, 디지털 신호는 인코더에서 압축된다; 압축된 정보(비트스트림)는 패킷화될 수 있고 프레임 단위로 통신 채널 프레임을 통해 디코더에 전송된다. 인코더와 디코더의 시스템은 함께 코덱이라고 불린다. 스피치/오디오 압축은 스피치/오디오 신호를 나타내는 비트 수를 감소시키기기 위해 이용될 수 있음으로써, 송신에 필요한 비트 레이트를 감소시킨다. 스피치/오디오 압축 기술은 일반적으로 시간 도메인 코딩과 주파수 도메인 코딩으로 분류될 수 있다. 시간 도메인 코딩은 일반적으로 낮은 비트 레이트들에서의 스피치 신호를 코딩하기 위해 또는 오디오 신호를 코딩하기 위해 이용된다. 주파수 도메인 코딩은 일반적으로 높은 비트 레이트들에서의 오디오 신호를 코딩하기 위해 또는 스피치 신호를 코딩하기 위해 이용된다. 대역폭 확장(BWE)은 매우 낮은 비트 레이트에서 또는 제로 비트 레이트에서 고대역 신호를 생성하기 위한 시간 도메인 코딩 또는 주파수 도메인 코딩의 일부분일 수 있다.

그러나, 스피치 코더들은 손실이 많은 코더들이며, 즉, 디코딩된 신호는 원래의 것과는 상이하다. 그러므로, 스피치 코딩의 목적들 중 하나는 소정의 비트 레이트에서 왜곡(또는 인지 가능한 손실)을 최소화하거나, 소정의 왜곡에 도달하기 위해 비트 레이트를 최소화하는 것이다.

스피치 코딩은 스피치가 대부분의 다른 오디오 신호들보다 훨씬 더 간단한 신호이고, 스피치의 속성들에 관해 훨씬 더 많은 통계적 정보가 이용 가능하다는 점에서 오디오 코딩의 다른 형태들과는 상이하다. 그 결과, 오디오 코딩에 적절한 일부 청각 정보가 스피치 코딩 정황에서는 불필요할 수 있다. 스피치 코딩에서, 가장 중요한 기준은 송신되는 데이터의 제약된 양과 함께, 스피치의 이해가능성과 "유쾌도"의 보존이다.

스피치의 이해가능성은 실제 말 그대로의 내용 외에도, 또한 스피커 아이덴티티, 감정들, 억양, 음색 기타 등등을 포함하며, 이들 모두는 완전한 이해가능성을 위해 중요하다. 열화된 스피치가 완전히 이해가능하지만, 주관적으로 청취자에게 불쾌한 것이 가능하기 때문에, 열화된 스피치의 유쾌도의 더 추상적 개념은 이해가능성과는 상이한 속성이다.

유성 및 무성 스피치 신호들과 같은, 스피치 신호의 여러 상이한 타입들에 대하여 스피치 파형들의 형태들의 중복성이 고려될 수 있다. 유성 음들 예를 들어, 'a', 'b'는 성대의 진동들에 본질적으로 기인하고, 진동한다. 그러므로, 짧은 시간 기간들에 걸쳐, 그들은 사인파들과 같은 주기적인 신호들의 합계들에 의해 양호하게 모델링된다. 다시 말하면, 유성 스피치에 대해, 스피치 신호는 본질적으로 주기적이다. 그러나, 이 주기성은 스피치 세그먼트의 지속시간에 걸쳐 가변적일 수 있고, 주기적인 파의 형태는 일반적으로 세그먼트마다 점차로 변화한다. 그러한 주기성을 연구함에 의해 낮은 비트 레이트 스피치 코딩은 많은 혜택을 얻을 수 있었다. 유성 스피치 주기는 또한 피치라고 불리고, 피치 예측은 종종 장기 예측(LTP)이라고 명명된다. 대조적으로,'s','sh'와 같은 무성 음들은 더 많이 잡음과 유사하다. 이것은 무성 스피치 신호가 랜덤 잡음과 더욱 유사하고, 소량의 예측성을 가지기 때문이다.

전통적으로, 시간 도메인 코딩과 같은 모든 파라메트릭 스피치 코딩 방법들은 전송되어야 하는 정보량을 감소시키기 위해 그리고 짧은 인터벌들에서 신호의 스피치 샘플들의 파라미터들을 추정하기 위해 스피치 신호의 고유의 중복성을 이용한다. 이 중복성은 주로 준-주기 레이트에서의 스피치 파형들의 반복 및 스피치 신호의 느리게 변화하는 스펙트럼 포락선으로부터 주로 비롯된다.

스피치 파형들의 중복성은 유성 및 무성과 같은, 스피치 신호의 여러 상이한 타입들에 대하여 고려될 수 있다. 유성 스피치에 대해 스피치 신호가 본질적으로 주기적이더라도, 이 주기성은 스피치 세그먼트의 지속시간에 걸쳐 가변적일 수 있고, 주기적인 파의 형태는 일반적으로 세그먼트마다 점차로 변화한다. 그러한 주기성을 연구함에 의해 낮은 비트 레이트 스피치 코딩은 많은 혜택을 얻을 수 있었다. 유성 스피치 주기는 또한 피치라고 불리고, 피치 예측은 종종 장기 예측(LTP)이라고 명명된다. 무성 스피치에 대해, 신호는 랜덤 잡음과 더욱 유사하고, 소량의 예측성을 갖는다.

각각의 경우에, 파라메트릭 코딩은 스펙트럼 포락선 성분으로부터 스피치 신호의 여기 성분을 분리함으로써 스피치 세그먼트들의 중복성을 줄이는 데 사용될 수 있다. 느리게 변화하는 스펙트럼 포락선은 단기 예측(STP)이라고도 불리는 선형 예측 코딩(LPC)에 의해 표현될 수 있다. 그러한 단기 예측을 연구함에 의해 낮은 비트 레이트 스피치 코딩은 또한 많은 혜택을 얻을 수 있었다. 코딩 장점은 파라미터들이 변화하는 느린 레이트로부터 비롯된다. 그러나, 파라미터들이 몇 밀리초 내에 유지된 값들과 상당히 상이하게 되는 것은 드물다. 따라서, 8kHz, 12.8kHz, 또는 16kHz의 샘플링 레이트에서, 스피치 코딩 알고리즘은 공칭 프레임 지속기간이 10 내지 30 밀리초의 범위 내에 있도록 한다. 20 밀리초의 프레임 지속기간이 가장 통상적인 선택이다.

필터 뱅크 기술에 기초한 오디오 코딩이 예를 들어, 주파수 도메인 코딩에서 널리 이용된다. 신호 처리에서, 필터 뱅크는 입력 신호를 여러 성분들로 분리하는 대역 통과 필터들의 어레이이며, 그 각각의 성분은 원래 신호의 단일 주파수 서브대역을 운반한다. 필터 뱅크에 의해 수행되는 분해의 프로세스는 분석이라고 불리고, 필터 뱅크 분석의 출력은, 필터 뱅크 내에 필터들이 존재하는 만큼 많은 서브대역들을 가진 서브대역 신호로서 지칭된다. 복원 프로세스는 필터 뱅크 합성으로서 불린다. 디지털 신호 처리에서, 용어 필터 뱅크는 또한 통상적으로 수신기들의 뱅크에 적용된다. 차이는, 수신기들은 또한 서브대역들을, 감소된 레이트에서 재샘플링될 수 있는 낮은 중심 주파수로 다운 컨버트한다는 것이다. 대역통과 서브대역들을 언더샘플링함으로써 가끔 동일한 결과가 달성될 수 있다. 필터 뱅크 분석의 출력은 복소수 계수들의 형태로 될 수 있을 것이다. 각각의 복소수 계수는 필터 뱅크의 각각의 서브대역에 대해 코사인 항과 사인 항을 각각 나타내는 실수 요소와 허수 요소를 포함한다.

G.723.1, G.729, G.718, 향상된 전체 레이트(EFR), 선택가능 모드 보코더(SMV), 적응성 다중-레이트(AMR), 가변-레이트 멀티모드 광대역(VMR-WB), 또는 적응적 다중-레이트 광대역(AMR-WB)과 같은 더 최근의 주지된 표준들에서, 코드 여기 선형 예측 기술("CELP")이 채택되었다. CELP는 통상적으로 코딩된 여기, 장기 예측, 및 단기 예측의 기술적 결합으로서 이해된다. CELP는 특정 인간 음성 특성들 또는 인간 보컬 음성 생성 모델로부터 혜택을 얻음으로써, 스피치 신호를 인코드하는 데 주로 사용된다. 상이한 코덱들에 대해 CELP의 상세 사항들이 현저하게 상이할 수 있을 것이지만, CELP 스피치 코딩은 스피치 압축 영역에서 매우 인기 있는 알고리즘 원리이다. 그것의 인기 때문에, CELP 알고리즘은 다양한 ITU-T, MPEG, 3GPP, 및 3GPP2 표준들에 이용되었다. CELP의 변형들은 대수학적 CELP를 포함하고, 릴렉스된 CELP, 저-지연 CELP, 및 벡터 합 여기 선형 예측, 및 다른 것들을 포함한다. CELP는 알고리즘들의 클래스에 대한 일반 용어이며 특별한 코덱에 대한 것은 아니다.

CELP 알고리즘은 네 개의 주요 아이디어들에 기초한다. 첫째, 선형 예측(LP)을 통해 스피치 생성의 소스 필터 모델이 이용된다. 스피치 생성의 소스 필터 모델은 스피치를 성대와 같은 음원과, 선형 음향 필터, 성도(및 방사 특성)의 결합으로서 모델링한다. 스피치 생성의 소스 필터 모델의 구현에서, 음원, 또는 여기 신호는 유성 스피치에 대한 주기적인 임펄스 트레인, 또는 무성 스피치에 대한 백색 잡음으로서 종종 모델링된다. 둘째, 적응적 및 고정된 코드북이 LP 모델의 입력(여기)으로서 이용된다. 셋째, 검색은 "인지적으로 가중화된 도메인"에서 폐쇄-루프에서 수행된다. 넷째, 벡터 양자화(VQ)가 적용된다.

본 발명의 실시예는 디코더에서, 인코딩된 오디오 비트스트림을 디코딩하고 주파수 대역폭 확장을 생성하는 방법을 설명한다. 방법은 오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하는 단계를 포함한다. 디코딩된 상기 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 지시하는 파라미터를 이용하여 저주파수 대역 내로부터 서브대역 영역이 선택된다. 상기 선택된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을, 고주파수 대역에 대응하는 높은 서브대역 영역에 카피함으로써, 고주파수 대역에 대한 고대역 여기 스펙트럼이 생성된다. 생성된 상기 고대역 여기 스펙트럼을 이용하여, 고대역 스펙트럼 포락선을 적용함으로써 확장된 고대역 오디오 신호가 생성된다. 상기 확장된 고대역 오디오 신호가 상기 디코딩된 저대역 오디오 신호에 부가되어, 확장된 주파수 대역폭을 갖는 오디오 출력 신호를 생성한다.

본 발명의 대안적인 실시예에 따르면, 인코딩된 오디오 비트스트림을 디코딩하고 주파수 대역폭을 생성하는 디코더는, 오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하도록 구성된 저대역 디코딩 유닛을 포함한다. 디코더는 상기 저대역 디코딩 유닛에 연결된 대역 폭 확장 유닛을 더 포함한다. 상기 대역 폭 확장 유닛은 서브대역 선택 유닛 및 카피 유닛을 포함한다. 상기 서브대역 선택 유닛은 디코딩된 상기 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 지시하는 파라미터를 이용하여 저주파수 대역 내로부터 서브대역 영역을 선택하도록 구성된다. 상기 카피 유닛은 상기 선택된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을, 고주파수 대역에 대응하는 높은 서브대역 영역에 카피함으로써, 고주파수 대역에 대한 고대역 여기 스펙트럼을 생성하도록 구성된다.

본 발명의 대안적인 실시예에 따르면, 스피치 처리를 위한 디코더는 프로세서; 및 상기 프로세서에 의해 실행되기 위한 프로그래밍을 저장하는 컴퓨터 판독 가능 저장 매체를 포함한다. 상기 프로그래밍은 오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하는 명령어들을 포함한다. 상기 프로그래밍은 디코딩된 상기 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 지시하는 파라미터를 이용하여 저주파수 대역 내로부터 서브대역 영역을 선택하고, 상기 선택된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을, 고주파수 대역에 대응하는 높은 서브대역 영역에 카피함으로써, 고주파수 대역에 대한 고대역 여기 스펙트럼을 생성하는 명령어들을 포함한다. 상기 프로그래밍은 생성된 상기 고대역 여기 스펙트럼을 이용하여, 고대역 스펙트럼 포락선을 적용함으로써 확장된 고대역 오디오 신호를 생성하고, 상기 확장된 고대역 오디오 신호를 상기 디코딩된 저대역 오디오 신호에 부가하여 확장된 주파수 대역폭을 갖는 오디오 출력 신호를 생성하는 명령어들을 더 포함한다.

본 발명의 대안적인 실시예는 디코더에서, 인코딩된 오디오 비트스트림을 디코딩하고 주파수 대역폭 확장을 생성하는 방법을 설명한다. 상기 방법은 오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 스펙트럼을 생성하는 단계, 및 디코딩된 상기 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 지시하는 파라미터를 이용하여 저주파수 대역 내로부터 서브대역 영역을 선택하는 단계를 포함한다. 상기 방법은 상기 선택된 서브대역 영역으로부터의 서브대역 스펙트럼을 높은 서브대역 영역에 카피함으로써, 고대역 스펙트럼을 생성하는 단계, 및 생성된 상기 고대역 스펙트럼을 이용하여, 고대역 스펙트럼 포락선 에너지를 적용함으로써 확장된 고대역 오디오 신호를 생성하는 단계를 더 포함한다. 상기 방법은 상기 확장된 고대역 오디오 신호를 상기 디코딩된 저대역 오디오 신호에 부가하여, 확장된 주파수 대역폭을 갖는 오디오 출력 신호를 생성하는 단계를 더 포함한다.

본 발명 및 그 장점들의 더욱 완벽한 이해를 위해, 첨부 도면과 함께 취해지는 후속하는 기재들에 대한 참조가 이제 이루어진다.
도 1은 종래의 CELP 인코더를 이용하여 원래 스피치의 인코딩 동안 수행되는 동작들을 도해한다.
도 2는 아래에 더 기술되는 바와 같이 본 발명의 실시예들의 구현 시에 CELP 디코더를 이용하여 원래 스피치의 디코딩 동안 수행되는 동작들을 도해한다.
도 3은 종래의 CELP 인코더에서 원래 스피치의 인코딩 동안 수행되는 동작들을 도해한다.
도 4는 아래에 기술되는 바와 같이 본 발명의 실시예들의 구현 시에 도 5의 인코더에 대응하는 기본 CELP 디코더를 도해한다.
도 5a와 도 5b는 대역 폭 확장(BWE)을 이용하는 인코딩/디코딩의 예를 도해하며, 도 5a는 BWE 사이드 정보를 이용하는 인코더에서의 동작들을 도해하는 반면에, 도 5b는 BWE를 이용하는 디코더에서의 동작들을 도해한다.
도 6a와 도 6b는 사이드 정보를 전송하지 않고 BWE를 이용하는 인코딩/디코딩의 다른 예를 도해하며, 도 6a는 인코더에서 동안의 동작들을 도해하는 반면에, 도 6b는 디코더에서의 동작들을 도해한다.
도 7은 CELP 타입의 코덱이 이용될 때 유성 스피치 또는 고조파 음악에 대한 이상적인 여기 스펙트럼의 예를 도해한다.
도 8은 CELP 타입의 코덱이 이용될 때 유성 스피치 또는 고조파 음악에 대한 디코딩된 여기 스펙트럼의 종래의 대역폭 확장의 예를 도해한다.
도 9는 CELP 타입의 코덱이 이용될 때 유성 스피치 또는 고조파 음악에 대한 디코딩된 여기 스펙트럼에 본 발명의 실시예의 대역폭 확장이 적용되는 예를 도해한다.
도 10은 BWE를 위해 서브대역 시프팅 또는 카피를 구현하는 본 발명의 실시예들에 따른 디코더에서의 동작들을 도해한다.
도 11은 BWE를 위해 서브대역 시프팅 또는 카피를 구현하는 디코더의 대안적인 실시예를 도해한다.
도 12는 본 발명의 실시예들에 따른 디코더에서 수행되는 동작들을 도해한다.
도 13a와 도 13b는 본 발명의 실시예들에 따른 대역 폭 확장을 구현하는 디코더를 도해한다.
도 14는 본 발명의 실시예에 따른 통신 시스템을 도해한다.
도 15는 본 명세서에 개시된 디바이스들 및 방법들을 구현하기 위해 이용될 수 있는 처리 시스템의 블록도를 도해한다.

현대 오디오/스피치 디지털 신호 통신 시스템에서, 디지털 신호는 인코더에서 압축되고, 압축된 정보 또는 비트-스트림은 패킷화될 수 있고, 통신 채널을 통해 프레임마다 디코더 프레임으로 전송될 수 있다. 디코더는 압축된 정보를 수신하고 디코딩하여 오디오/스피치 디지털 신호를 획득한다.

본 발명은 일반적으로 스피치/오디오 신호 코딩 및 스피치/오디오 신호 대역폭 확장과 관련된다. 특히, 본 발명의 실시예들은 대역폭 확장의 분야에서 ITU-T AMR-WB 스피치 코더의 표준을 향상시키는 데 사용될 수 있다.

일부 주파수들은 다른 것들보다 더 중요하다. 중요한 주파수들은 정밀한 해상도로 코딩될 수 있다. 이러한 주파수들에서의 작은 차이들은 상당하고 이러한 차이들을 보존하는 코딩 방식이 필요하다. 반면에, 덜 중요한 주파수들은 정확할 필요가 없다. 더 정밀한 상세들의 일부가 코딩에서 상실될 것이더라도, 더 성긴 코딩 스킴이 이용될 수 있다. 전형적인 더 성긴 코딩 스킴은 대역 폭 확장(BWE)의 개념에 기초한다. 이 기술 개념은 또한 고대역 확장(HBE), 서브대역 복제(SBR) 또는 스펙트럼 대역 반복(SBR)이라고도 불린다. 명칭이 상이할 수 있더라도, 그들은 모두 비트 레이트의 작은 예산(심지어 비트 레이트의 제로 예산) 또는 통상적인 인코딩/디코딩 접근법보다 현저하게 낮은 비트 레이트로 일부 주파수 서브대역들(보통 고대역들)을 인코딩/디코딩하는 유사한 의미를 갖는다.

SBR 기술에서, 고주파수 대역의 스펙트럼 미세 구조는 저주파수 대역으로부터 카피되고 일부 랜덤 잡음이 부가될 수 있다. 그 후, 인코더로부터 디코더로 전송된 사이드 정보를 이용하여 고주파수 대역의 스펙트럼 포락선이 형성된다. 저대역으로부터 고대역으로 주파수 대역 시프팅 및 카피는 통상적으로 BWE 기술을 위한 제1 단계이다.

스펙트럼 포락선의 에너지 레벨에 기초하여 시프팅 대역을 선택하기 위해 적응적 프로세스를 이용함으로써 BWE 기술을 향상시키는 본 발명의 실시예들이 기술될 것이다.

도 1은 종래의 CELP 인코더를 이용하여 원래 스피치의 인코딩 동안 수행되는 동작들을 도해한다.

도 1은 종래의 초기 CELP 인코더를 도해하고, 여기서 합성된 스피치(102)와 원래 스피치(101) 사이의 가중화된 에러(109)가 종종 분석-합성 접근법을 이용하여 최소화되는데, 이것은 디코딩된(합성) 신호를 폐루프에서 인지적으로 최적화함으로써 인코딩(분석)이 수행됨을 의미한다.

모든 스피치 코더들이 이용하는 기본 원리는 스피치 신호들이 대단히 상관된 파형들이라는 사실이다. 예로서, 스피치는 아래의 수학식 (11).에서와 같이 자기회귀적(autoregressive, AR) 모델을 이용하여 나타내어질 수 있다.

(11)

수학식 11에서, 각각의 샘플은 이전의 L 개의 샘플들 플러스 백색 잡음의 선형 결합으로서 나타내어진다. 가중 계수들 a₁, a₂,... a_L은 선형 예측 계수들(LPCs)이라고 불린다. 각각의 프레임에 대해, 가중 계수들 a₁, a₂,... a_L은 상기의 모델을 이용하여 생성된 {X₁, X₂,..., X_N}의 스펙트럼이 입력 스피치 프레임의 스펙트럼과 근사하게 일치하도록 선택된다.

대안적으로, 스피치 신호들은 또한 고조파 모델과 잡음 모델의 결합에 의해 나타내어질 수 있다. 모델의 고조파 부분은 효과적으로 신호의 주기적 성분의 푸리에 급수 표현이다. 일반적으로, 유성 신호들에 대해, 스피치의 고조파 플러스 잡음 모델은 고조파와 잡음 양쪽의 혼합으로 구성된다. 유성 스피치 내의 고조파와 잡음의 비율은 화자 특성들(예를 들어, 어느 정도로 화자의 음성이 정상적인지 또는 기식음인지); 스피치 세그먼트 특성(예를 들어, 어느 정도로 스피치 세그먼트가 주기적인지)을 포함한 다수의 팩터들 및 주파수에 의존한다. 유성 스피치의 주파수가 높을수록 잡음-유사 성분들의 더 높은 비율을 갖는다.

선형 예측 모델과 고조파 잡음 모델은 스피치 신호들의 모델링 및 코딩을 위한 두 개의 주요 방법들이다. 선형 예측 모델은 특히 스피치의 스펙트럼 포락선을 모델링하는 데 양호한 반면에, 고조파 잡음 모델은 스피치의 미세 구조를 모델링하는 데 양호하다. 두 개의 방법들은 그들의 상대적인 강점들을 이용하기 위해 결합될 수 있다.

앞서 나타낸 바와 같이, CELP 코딩 전에, 핸드셋의 마이크로폰에의 입력 신호는 필터링되고 예를 들어, 초당 8000개 샘플들의 레이트로 샘플링된다. 그 후 각각의 샘플은 예를 들어, 샘플당 13개 비트들로 양자화된다. 샘플링된 스피치는 20ms의 세그먼트들 또는 프레임들로 세그먼트된다(예를 들어, 이 경우에 160개 샘플들).

스피치 신호가 분석되고, 그것의 LP 모델, 여기 신호들, 및 피치가 추출된다. LP 모델은 스피치의 스펙트럼 포락선을 나타낸다. 그것은 라인 스펙트럼 주파수들(LSF) 계수들의 세트로 변환되는데, 이것은 LSF 계수들이 양호한 양자화 속성을 갖기 때문에, 선형 예측 파라미터들의 대안적인 표현이다. LSF 계수들은 스칼라 양자화될 수 있거나, 또는 더 효율적으로 그들은 이전에 훈련된 LSF 벡터 코드북들을 이용하여 벡터 양자화될 수 있다.

코드-여기는 코드 백터들을 포함하는 코드북을 포함하며, 코드 백터들은, 각각의 코드 백터가 대략 '백색' 스펙트럼을 가질 수 있도록, 모두 독립적으로 선택되는 성분들을 갖는다. 입력 스피치의 각각의 서브프레임에 대해, 각각의 코드 백터들은 단기 선형 예측 필터(103)와 장기 예측 필터(105)를 통해 필터링되고, 출력은 스피치 샘플들과 비교된다. 각각의 서브프레임에서, 출력이 입력 스피치와 가장 잘 일치하는(최소화된 에러) 코드 백터가 그 서브프레임을 나타내기 위해 선택된다.

코딩된 여기(108)는 통상적으로 펄스-유사 신호 또는 잡음-유사 신호를 포함하고, 이들은 수학적으로 구축되거나 코드북에 저장된다. 코드북은 인코더와 수신하는 디코더의 양쪽에서 이용 가능하다. 확률론적인 또는 고정된 코드북일 수 있는 코딩된 여기(108)는 (내재적으로 또는 명시적으로) 코덱 내에 하드코딩되는 벡터 양자화 사전일 수 있다. 그러한 고정된 코드북은 대수학적 코드-여기된 선형 예측일 수 있거나 또는 명시적으로 저장될 수 있다.

코드북으로부터의 코드 백터는 에너지를 입력 스피치의 에너지와 동일하게 하기 위한 적절한 게인에 의해 스케일링된다. 따라서, 코딩된 여기(108)의 출력은 선형 필터들을 통과하기 전에 게인 G_c(107)에 의해 스케일링된다.

단기 선형 예측 필터(103)는 코드 백터의 '백색' 스펙트럼을 입력 스피치의 스펙트럼과 닮도록 성형한다. 동등하게, 시간-도메인에서, 단기 선형 예측 필터(103)는 백색 시퀀스에 단기 상관들(이전 샘플들과의 상관)을 통합시킨다. 여기를 성형하는 필터는 1/A(z)(단기 선형 예측 필터(103)) 형태의 모든-폴 모델을 가지며, 여기서 A(z)는 예측 필터라고 불리고, 선형 예측(예를 들어, Levinson-Durbin 알고리즘)을 이용하여 획득될 수 있다. 하나 이상의 실시예들에서, 모든-폴 필터가, 그것이 인간 성도의 양호한 표현이기 때문에 그리고 계산하기 용이하기 때문에, 이용될 수 있다.

단기 선형 예측 필터(103)는 원래 신호(101)를 분석함으로써 획득되고 계수들의 세트에 의해 나타내어진다:

(12)

전술한 바와 같이, 유성 스피치의 영역들은 장기 주기성을 나타낸다. 피치로서 알려진 이 주기는 피치 필터 1/(B(z))에 의해 합성된 스펙트럼에 도입된다. 장기 예측 필터(105)의 출력은 피치와 피치 게인에 의존한다. 하나 이상의 실시예들에서, 피치는 원래 신호, 잔차 신호, 또는 가중화된 원래 신호로부터 추정될 수 있다. 일 실시예에서, 장기 예측 함수(B(z))는 다음과 같이 수학식 (13)을 이용하여 표현될 수 있다.

(13)

가중화 필터(110)는 상기의 단기 예측 필터와 관련된다. 전형적인 가중화 필터들 중 하나는 수학식 (14)에서 기술되는 바와 같이 나타내어질 수 있다.

(14)

여기서,

이다.

다른 실시예에서, 가중화 필터 W(z)는 일 실시예에서 예시되는 바와 같이 아래의 수학식 (15)의 대역폭 확장을 이용하여 LPC 필터로부터 유도될 수 있다.

(15)

수학식 (15)에서, γ1 > γ2이며, 이들 팩터들에 의해 폴들이 원점을 향하여 이동된다.

따라서, 스피치의 모든 프레임에 대해, LPC들과 피치가 계산되고 필터들이 갱신된다. 스피치의 모든 서브프레임에 대해, '가장 양호한' 필터링된 출력을 생성하는 코드 백터가 서브프레임을 나타내기 위해 선택된다. 대응하는 게인의 양자화 값이 적절한 디코딩을 위해 디코더에 전송되어야 한다. LPC들과 피치 값들은 또한 양자화되어야 하고, 디코더에서 필터들을 재구축하기 위해 매 프레임마다 전송되어야 한다. 따라서, 코딩된 여기 인덱스, 양자화된 게인 인덱스, 양자화된 장기 예측 파라미터 인덱스, 및 양자화된 단기 예측 파라미터 인덱스가 디코더에 전송된다.

도 2는 아래 설명되는 바와 같이 본 발명의 실시예들을 구현 시에 CELP 디코더를 이용하여 원래 스피치의 디코딩 동안 수행되는 동작들을 도해한다.

수신된 코드 백터들을 대응하는 필터들에 통과시킴으로써 디코더에서 스피치 신호가 재구성된다. 따라서, 후-처리를 제외한 모든 블록은 도 1의 인코더에서 설명된 바와 같은 동일한 정의를 갖는다.

코드화된 CELP 비트스트림이 수신 디바이스에서 수신되고 언팩된다(80). 수신된 각각의 서브프레임에 대해, 수신된 코딩된 여기 인덱스, 양자화된 게인 인덱스, 양자화된 장기 예측 파라미터 인덱스, 및 양자화된 단기 예측 파라미터 인덱스는 대응하는 디코더들 예를 들어, 게인 디코더(81), 장기 예측 디코더(82), 및 단기 예측 디코더(83)를 이용하여 대응하는 파라미터들을 찾기 위해 이용된다. 예를 들어, 수신되는 코딩된 여기 인덱스로부터 여기 펄스들의 위치들과 진폭 사인들과 코드-여기(402)의 대수학적인 코드 벡터가 결정될 수 있다.

도 2를 참조하면, 디코더는 코딩된 여기(201), 장기 예측(203), 단기 예측(205)을 포함하는 여러 블록들의 결합이다. 초기 디코더는 합성된 스피치(206) 후에 후-처리 블록(207)을 더 포함한다. 후-처리는 단기간 후-처리와 장기 후-처리를 더 포함할 수 있다.

도 3은 종래의 CELP 인코더를 도해한다.

도 3은 장기 선형 예측을 향상시키기 위해 부가적인 적응적 코드북을 이용하는 기본 CELP 인코더를 도해한다. 여기는 적응적 코드북(307)과 코드 여기(308)로부터의 기여들을 합산함으로써 생성되고, 이것은 전술한 바와 같이, 확률론적인 또는 고정된 코드북일 수 있다. 적응적 코드북의 엔트리들은 여기의 지연된 버전들을 포함한다. 이것은 유성음들과 같은 주기적인 신호들을 효율적으로 코딩하는 것을 가능하게 한다.

도 3을 참조하면, 적응적 코드북(307)은 과거 합성된 여기(304) 또는 피치 주기로 반복하는 과거 여기 피치 사이클을 포함한다. 피치 래그는, 그것이 크거나 길 때, 정수 값으로 인코딩될 수 있다. 피치 래그는, 그것이 작거나 짧을 때, 더 정확한 소수 값으로 종종 인코딩된다. 피치의 주기적인 정보는 여기의 적응적 성분을 생성하기 위해 채택된다. 그 후 이 여기 게인 G_p(305)에 의해 스케일링된다(또한 피치 게인이라고 불림).

장기 예측은, 유성 스피치가 강한 주기성을 가지기 때문에, 유성 스피치 코딩에 매우 중요한 역할을 한다. 유성 스피치의 인접한 피치 사이클들은 서로 유사하고, 이것은 아래의 여기 식의 피치 게인 G_p가 높거나 또는 1에 근사함을 수학적으로 의미한다. 결과적인 여기는 개별 여기들의 결합으로서 수학식 (16)에서와 같이 표현될 수 있다.

(16)

여기서, e _p (n)는 피드백 루프(도 3)를 통해 과거 여기(304)를 포함하는 적응적 코드북(307)으로부터 유래하는, n에 의해 인덱스되는 샘플 시리즈들의 하나의 서브프레임이다. e _p (n)는, 저주파수 영역이 종종 고주파수 영역보다 더 주기적이거나 또는 더 고조파적이기 때문에, 적응적으로 로우-패스 필터링될 수 있다. e _c (n)는 코딩된 여기 코드북(308)(또한 고정된 코드북이라고 불림)으로부터 유래하고, 이것은 현재 여기 기여이다. 또한, e _c (n)는 예컨대 하이-패스 필터링 증강, 피치 증강, 확산 증강, 포먼트 증강(formant enhancement), 및 다른 것들을 이용하여 증강될 수 있다.

유성 스피치에 대해, 적응적 코드북(307)으로부터의 e _p (n)의 기여가 지배적이고, 피치 게인 G_p(305)는 대략 1의 값이다. 여기는 일반적으로 각각의 서브프레임에 대해 갱신된다. 전형적인 프레임 크기는 20 밀리초이고 전형적인 서브프레임 사이즈는 5 밀리초이다.

도 1에 기재된 바와 같이, 고정된 코딩된 여기(308)는 선형 필터들을 통과하기 전에 게인 G_c(306)에 의해 스케일링된다. 고정된 코딩된 여기(108)와 적응적 코드북(307)으로부터의 두 개의 스케일링된 여기 성분들은 단기 선형 예측 필터(303)를 통과하기 전에 함께 가산된다. 두 개의 게인들(G_p와 G_c)은 양자화되고 디코더에 전송된다. 따라서, 코딩된 여기 인덱스, 적응적 코드북 인덱스, 양자화된 게인 인덱스들, 및 양자화된 단기 예측 파라미터 인덱스가 수신하는 오디오 디바이스에 전송된다.

도 3에 도시된 디바이스를 이용하여 코딩된 CELP 비트스트림은 수신 디바이스에서 수신된다. 도 4는 수신 디바이스의 대응하는 디코더를 도해한다.

도 4는 도 3의 인코더에 대응하는 기본 CELP 디코더를 도해한다. 도 4는 메인 디코더로부터 합성된 스피치(407)를 수신하는 후-처리 블록(408)을 포함한다. 이 디코더는 적응적 코드북(307)을 제외하고는 도 3과 유사하다.

수신된 각각의 서브프레임에 대해, 수신된 코딩된 여기 인덱스, 양자화된 코딩된 여기 게인 인덱스들, 양자화된 피치 인덱스, 양자화된 적응적 코드북 게인 인덱스, 및 양자화된 단기 예측 파라미터 인덱스는 대응하는 디코더들 예를 들어, 게인 디코더(81), 피치 디코더(84), 적응적 코드북 게인 디코더(85), 및 단기 예측 디코더(83)를 이용하여 대응하는 파라미터들을 찾기 위해 이용된다.

다양한 실시예들에서, CELP 디코더는 여러 블록들의 결합이고, 코딩된 여기(402), 적응적 코드북(401), 단기 예측(406), 후-처리(408)를 포함한다. 후-처리를 제외한 모든 블록은 도 3의 인코더에서 기재된 바와 같이 동일한 정의를 갖는다. 후-처리는 단기 후-처리와 장기 후-처리를 더 포함할 수 있다.

이미 언급한 바와 같이, CELP는 특정 인간 음성 특성들 또는 인간 보컬 음성 생성 모델로부터 혜택을 얻음으로써 스피치 신호를 인코딩하는 데 주로 이용된다. 더 효율적으로 스피치 신호를 인코딩하기 위해, 스피치 신호는 상이한 클래스들로 분류될 수 있고, 각각의 클래스는 상이한 방식으로 인코딩된다. 유성/무성 분류 또는 무성 결정은 상이한 클래스들의 모든 분류들 중에서 중요하고 기본적인 분류일 수 있다. 각각의 클래스에 대해, LPC 또는 STP 필터는 스펙트럼 포락선을 나타내기 위해 항상 이용된다. 그러나 LPC 필터에 대해 여기는 상이할 수 있다. 무성 신호들은 잡음-유사 여기(noise-like excitation)에 의해 코딩될 수 있다. 반면에, 유성 신호들은 펄스-유사 여기(pulse-like excitation)에 의해 코딩될 수 있다.

코드-여기 블록(도 3의 라벨(308)과 도 4의 402를 참조)은 일반적인 CELP 코딩에 대한 고정된 코드북(FCB)의 위치를 도해한다. FCB로부터 선택된 코드 벡터는 종종 G_c(306)로서 표기된 게인에 의해 스케일링된다.

도 5a와 도 5b는 대역 폭 확장(BWE)을 이용하는 인코딩/디코딩의 예를 도해한다. 도 5a는 BWE 사이드 정보를 이용하는 인코더에서의 동작들을 도해하는 반면에, 도 5b는 BWE를 이용하는 디코더에서의 동작들을 도해한다.

저대역 신호(501)는 저대역 파라미터들(502)을 이용하여 인코딩된다. 저대역 파라미터들(502)은 양자화되고, 생성된 양자화 인덱스는 비트스트림 채널(503)을 통해 전송될 수 있다. 오디오/스피치 신호(504)로부터 추출된 고대역 신호는 고대역 사이드 파라미터들(505)을 이용하여 소량의 비트 양으로 인코딩된다. 양자화된 고대역 사이드 파라미터들(사이드 정보 인덱스)은 비트스트림 채널(506)을 통해 전송된다.

도 5b를 참조하면, 디코더에서, 저대역 비트스트림(507)은 디코딩된 저대역 신호(508)를 생성하는 데 사용된다. 고대역 사이드 비트스트림(510)은 고대역 사이드 파라미터들(511)을 디코딩하는 데 사용된다. 고대역 신호(512)가 고대역 사이드 파라미터들(511)로부터의 도움으로 저대역 신호(508)로부터 생성된다. 최종 오디오/스피치 신호(509)는 저대역 신호(508)와 고대역 신호(512)를 결합함으로써 생성된다.

도 6a와 도 6b는 사이드 정보를 전송하지 않고 BWE를 이용하는 인코딩/디코딩의 다른 예를 도해한다. 도 6a는 인코더에서 동안의 동작들을 도해하는 반면에, 도 6b는 디코더에서의 동작들을 도해한다.

도 6a을 참조하면, 저대역 신호(601)는 저대역 파라미터들(602)을 이용하여 인코딩된다. 저대역 파라미터들(602)은 양자화 인덱스를 생성하기 위해 양자화되며, 이것은 비트스트림 채널(603)을 통해 전송될 수 있다.

도 6b를 참조하면, 디코더에서, 저대역 비트스트림(604)은 디코딩된 저대역 신호(605)를 생성하는 데 사용된다. 고대역 신호(607)는 사이드 정보를 전송하는 것으로부터의 도움없이 저대역 신호(605)로부터 생성된다. 최종 오디오/스피치 신호(606)는 저대역 신호(605)와 고대역 신호(607)을 결합함으로써 생성된다.

도 7은 CELP 타입의 코덱이 이용될 때 유성 스피치 또는 고조파 음악에 대한 이상적인 여기 스펙트럼의 예를 도해한다.

이상적인 여기 스펙트럼(702)은 LPC 스펙트럼 포락선(704)을 제거한 후 거의 편평하게 된다. 이상적인 저대역 여기 스펙트럼(701)은 저대역 여기 인코딩을 위한 참조로서 이용될 수 있다. 이상적인 고대역 여기 스펙트럼(703)은 디코더에서 이용 가능하지 않다. 이론적으로, 이상적이거나 양자화되지 않은 고대역 여기 스펙트럼은 저대역 여기 스펙트럼과 거의 동일한 에너지 레벨을 가질 수 있을 것이다.

실제로, 합성되거나 디코딩된 여기 스펙트럼은 도 7에 도시되는 이상적 여기 스펙트럼만큼 그렇게 양호하게 보이지 않는다.

도 8은 CELP 타입의 코덱이 이용될 때 유성 스피치 또는 고조파 음악에 대한 디코딩된 여기 스펙트럼의 예를 도해한다.

디코딩된 여기 스펙트럼(802)은 LPC 스펙트럼 포락선(804)을 제거한 후 거의 편평하게 된다. 디코딩된 저대역 여기 스펙트럼(801)은 디코더에서 이용 가능하다. 디코딩된 저대역 여기 스펙트럼(801)의 품질은 특히 포락선 에너지가 낮은 영역에서 더 악화되거나 더 많이 왜곡된다. 이것은 다음의 이유들로 인해 유발된다. 예를 들어, 두 개의 주요 이유들은, 폐쇄-루프 CELP 코딩은 저에너지 영역보다 고에너지 영역에서 더 강조화한다는 것과, 고주파수 신호의 더 빠른 변화로 인해, 저주파수 신호에 대한 파형 매칭이 고주파수 신호보다 더 용이하다는 것이다. AMR-WB와 같은 낮은 비트 레이트 CELP 코딩에 대해, 고대역은 통상적으로 인코딩되지 않지만 BWE 기술에 의해 디코더에서 생성된다. 이 경우에, 고대역 여기 스펙트럼(803)은 간단히 저대역 여기 스펙트럼(801)으로부터 카피될 수 있고, 고대역 스펙트럼 에너지 포락선은 저대역 스펙트럼 에너지 포락선으로부터 예측 또는 추정될 수 있다. 전통적인 방식을 따르면, 6400Hz 후에 생성된 고대역 여기 스펙트럼(803)은 6400Hz 직전의 서브대역으로부터 카피된다. 이것은, 스펙트럼 품질이 0Hz으로부터 6400Hz까지 동등하다면, 양호할 수 있다. 그러나, 낮은 비트 레이트 CELP 코덱에 대해, 스펙트럼 품질은 0Hz로부터 6400Hz까지 많이 변화할 수 있다. 6400Hz 직전의 저주파수 대역의 단부 영역으로부터 복제된 서브대역은 불량한 품질을 가질 수 있고, 이것은 그 후 6400Hz로부터 8000Hz까지 고대역 영역에 추가의 잡음 사운드를 도입한다.

확장된 고주파수 대역의 대역폭은 코딩된 저주파수 대역의 그것보다 통상적으로 훨씬 작다. 그러므로, 다양한 실시예들에서, 저대역으로부터의 가장 양호한 서브대역이 선택되어 고대역 영역으로 카피된다.

전체 저주파수 대역 내의 임의의 위치에 고품질 서브대역이 아마도 존재한다. 고품질 서브대역의 그 가장 가능한 위치는 높은 스펙트럼 에너지 영역에 대응하는 영역 - 스펙트럼 포먼트 영역 - 내에 있다.

도 9는 CELP 타입의 코덱이 이용될 때 유성 스피치 또는 고조파 음악에 대한 디코딩된 여기 스펙트럼의 예를 도해한다.

디코딩된 여기 스펙트럼(902)은 LPC 스펙트럼 포락선(904)을 제거한 후 거의 편평하게 된다. 디코딩된 저대역 여기 스펙트럼(901)은 디코더에서 이용 가능하지만, 고대역(903)은 이용 가능하지 않다. 디코딩된 저대역 여기 스펙트럼(901)의 품질은 특히 스펙트럼 포락선(904)의 에너지가 낮은 영역에서, 더 악화되거나 더 많이 왜곡된다.

일 실시예에서, 도 9에 도시된 경우에, 고품질 서브대역은 대략 제1 스피치 포먼트 영역(예를 들어, 이 예시적 실시예에서는 약 2000Hz)에 위치된다. 다양한 실시예들에서, 고품질 서브대역은 0과 6400Hz 사이에 임의의 위치에 위치될 수 있다.

가장 양호한 서브대역의 위치를 결정한 후, 그것은 도 9에 더 도시된 바와 같이, 저대역 내로부터 고대역 내로 카피된다. 따라서 고대역 여기 스펙트럼(903)은 선택되는 서브대역으로부터의 카피에 의해 생성된다. 도 9의 고대역(903)의 인지적인 품질은, 향상된 여기 스펙트럼 때문에, 도 8의 고대역(803)보다 훨씬 양호하게 강건하다.

하나 이상의 실시예들에서, 디코더에서 저대역 스펙트럼 포락선이 주파수 도메인에서 이용 가능하다면, 가장 양호한 서브대역은, 모든 서브대역들 후보들로부터 가장 높은 서브대역 에너지를 검색함으로써 결정될 수 있다.

대안적으로, 하나 이상의 실시예들에서, 주파수 도메인 스펙트럼 포락선이 이용 가능하지 않다면, 스펙트럼 에너지 포락선 또는 스펙트럼 포먼트 피크를 반영할 수 있는 임의의 파라미터들로부터 고에너지 위치가 또한 결정될 수 있다. BWE를 위한 가장 양호한 서브대역 위치는 가장 높은 스펙트럼 피크 위치에 대응한다.

가장 양호한 서브대역 시작 포인트의 검색 범위는 코덱 비트 레이트에 의존할 수 있다. 예를 들어, 매우 낮은 비트 레이트 코덱에 대해, 고대역의 대역폭이 1600Hz라고 가정하면, 검색 범위는 0부터 6400-1600=4800Hz(2000Hz 내지 4800Hz)까지일 수 있다. 다른 예에서, 중앙 비트 레이트 코덱에 대해, 고대역의 대역폭이 1600Hz라고 가정하면, 검색 범위는 2000Hz로부터 6400-1600=4800Hz(2000Hz 내지 4800Hz)까지일 수 있다.

스펙트럼 포락선이 하나의 프레임으로부터 다음 프레임으로 천천히 변화하기 때문에, 가장 높은 스펙트럼 포먼트 에너지에 대응하는 가장 양호한 서브대역 시작 포인트는 통상적으로 천천히 변화된다. 하나의 프레임으로부터 다른 프레임으로 가장 양호한 서브대역 시작 포인트의 변동 또는 빈번한 변화를 회피하기 위해, 하나의 프레임으로부터 다음 프레임으로 스펙트럼 피크 에너지가 극적으로 변화되지 않거나, 또는 새로운 유성 영역이 나오지 않는 한, 시간 도메인에서 동일 유성 영역 동안 어떤 평활화(smoothing)가 적용될 수 있다.

도 10은 BWE를 위해 서브대역 시프팅 또는 카피를 구현하는 본 발명의 실시예들에 따른 디코더에서의 동작들을 도해한다.

시간 도메인 저대역 신호(1002)는 수신된 비트스트림(1001)을 이용하여 디코딩된다. 저대역 시간 도메인 여기(1003)는 통상적으로 디코더에서 이용 가능하다. 가끔, 저대역 주파수 도메인 여기가 또한 이용 가능하다. 이용 가능하지 않다면, 저대역 시간 도메인 여기(1003)는 저대역 주파수 도메인 여기를 얻기 위해 주파수 도메인으로 변환될 수 있다.

유성 스피치 또는 음악 신호의 스펙트럼 포락선은 종종 LPC 파라미터들에 의해 나타내어진다. 가끔, 직접 주파수 도메인 스펙트럼 포락선이 디코더에서 이용 가능하다. 여하튼, 에너지 분포 정보(1004)가 LPC 파라미터들로부터 또는 직접 주파수 도메인 스펙트럼 포락선 또는 DFT 도메인 또는 FFT 도메인과 같은 임의의 파라미터들로부터 추출될 수 있다. 저대역 에너지 분포 정보(1004)를 이용하여, 상대적으로 높은 에너지 피크를 검색함으로써 저대역으로부터 가장 양호한 서브대역이 선택된다. 선택된 서브대역은 그 후 저대역으로부터 고대역 영역에 카피된다. 그 후 예측되거나 추정되는 고대역 스펙트럼 포락선이 고대역 영역에 적용되거나, 또는 시간 도메인 고대역 여기(1005)가 고대역 스펙트럼 포락선을 나타내는 예측되거나 추정되는 고대역 필터를 통과한다. 고대역 필터의 출력은 고대역 신호(1006)이다. 최종 스피치/오디오 출력 신호(1007)는 저대역 신호(1002)와 고대역 신호(1006)를 코밍(combing)함으로써 획득된다.

도 11은 BWE를 위해 서브대역 시프팅 또는 카피를 구현하는 디코더의 대안적인 실시예를 도해한다.

도 10과는 달리, 도 11은 주파수 도메인 저대역 스펙트럼이 이용 가능하다고 가정한다. 저주파수 대역에서 가장 양호한 서브대역이 간단히 주파수 도메인에서 상대적으로 높은 에너지 피크를 검색함으로써 선택된다. 그 후, 선택된 서브대역은 저대역으로부터 고대역에 카피된다. 추정되는 고대역 스펙트럼 포락선을 적용한 후, 고대역 스펙트럼(1103)이 형성된다. 최종 주파수 도메인 스피치/오디오 스펙트럼은 저대역 스펙트럼(1102)과 고대역 스펙트럼(1103)을 코밍함으로써 획득된다. 최종 시간 도메인 스피치/오디오 신호 출력은 주파수 도메인 스피치/오디오 스펙트럼을 시간 도메인으로 변환함으로써 생성된다.

필터 뱅크 분석과 합성이 원하는 스펙트럼 범위를 커버하는 디코더에서 이용 가능할 때, SBR 알고리즘은 선택된 저대역에 대응하는 출력의 저주파수 대역 계수들을 고주파수 대역 영역에 카피함으로써, 주파수 대역 시프팅을 실현할 수 있다.

도 12는 본 발명의 실시예들에 따른 디코더에서 수행되는 동작들을 도해한다.

도 12를 참조하면, 디코더에서, 인코딩된 오디오 비트스트림을 디코딩하는 방법은 코딩된 오디오 비트스트림을 수신하는 것을 포함한다. 하나 이상의 실시예들에서, 수신된 오디오 비트스트림은 CELP 코딩되었다. 특히, 저주파수 대역만 CELP에 의해 코딩된다. CELP는 낮은 스펙트럼 에너지 영역보다 높은 스펙트럼 에너지 영역에서 상대적으로 더 높은 스펙트럼 품질을 생성한다. 따라서, 본 발명의 실시예들은 디코딩된 저대역 오디오 신호와, 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하기 위해 오디오 비트스트림을 디코딩하는 것을 포함한다(박스 1210). 디코딩된 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 이용하여 저주파수 대역 내로부터 서브대역 영역이 선택된다(박스 1220). 선택된 서브대역 영역으로부터 서브대역 여기 스펙트럼을 고주파수 대역에 대응하는 높은 서브대역 영역에 카피함으로써, 고주파수 대역에 대한 고대역 여기 스펙트럼이 생성된다(박스 1230). 오디오 출력 신호는 고대역 여기 스펙트럼을 이용하여 생성된다(박스 1240). 특히, 생성된 고대역 여기 스펙트럼을 이용하여, 고대역 스펙트럼 포락선을 적용함으로써 확장된 고대역 오디오 신호가 생성된다. 확장된 고대역 오디오 신호는 디코딩된 저대역 오디오 신호에 부가되어, 확장된 주파수 대역폭을 갖는 오디오 출력 신호를 생성한다.

도 10 및 도 11을 이용하여 전술한 바와 같이, 본 발명의 실시예들은 주파수 도메인 스펙트럼 포락선이 이용 가능한지에 따라 다르게 적용될 수 있다. 예를 들어, 주파수 도메인 스펙트럼 포락선이 이용 가능하다면, 가장 높은 서브대역 에너지를 가진 서브대역이 선택될 수 있다. 반면에, 주파수 도메인 스펙트럼 포락선이 이용 가능하지 않다면, 스펙트럼 포락선의 에너지 분포가 선형 예측 코딩(LPC) 파라미터들, 이산 푸리에 변환(DFT) 도메인, 또는 고속 푸리에 변환(FFT) 도메인 파라미터들로부터 식별될 수 있다. 유사하게, 스펙트럼 포먼트 피크 정보가, 이용 가능하다면(또는 계산 가능하다면), 어떤 실시예에서 이용될 수 있다. 저대역 시간 도메인 여기만이 이용 가능하다면, 저대역 주파수 도메인 여기는, 저대역 시간 도메인 여기를 주파수 도메인으로 변환함으로써 계산될 수 있다.

다양한 실시예들에서, 스펙트럼 포락선은 통상의 기술자에게 알려졌을 임의의 알려진 방법을 이용하여 계산될 수 있다. 예를 들어, 주파수 도메인에서, 스펙트럼 포락선은 단순히 서브대역들의 세트의 에너지들을 나타내는 에너지들의 세트일 수 있다. 유사하게, 다른 예에서는, 시간 도메인에서, 스펙트럼 포락선이 LPC 파라미터들에 의해 나타내어질 수 있다. 다양한 실시예들에서 LPC 파라미터들은 반사 계수들, LPC 계수들, LSP 계수들, LSF 계수들과 같은 많은 형태들을 가질 수 있다.

도 13a와 도 13b는 본 발명의 실시예들에 따른 대역 폭 확장을 구현하는 디코더를 도해한다.

도 13a을 참조하면, 인코딩된 오디오 비트스트림을 디코딩하는 디코더는 오디오 비트스트림을 디코딩하여 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하도록 구성된 저대역 디코딩 유닛(1310)을 포함한다.

디코더는 또한, 저대역 디코딩 유닛(1310)에 연결되고 서브대역 선택 유닛(1330)과 카피 유닛(1340)을 포함하는 대역 폭 확장 유닛(1320)을 포함한다. 서브대역 선택 유닛(1330)은 디코딩된 오디오 비트스트림의 스펙트럼 포락선의 에너지 정보를 이용하여 저주파수 대역 내로부터 서브대역 영역을 선택하도록 구성된다. 카피 유닛(1340)은 선택된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을 고주파수 대역에 대응한 높은 서브대역 영역에 카피함으로써 고주파수 대역에 대한 고대역 여기 스펙트럼을 생성하도록 구성된다.

고대역 신호 생성기(1350)는 카피 유닛(1340)에 연결된다. 고대역 신호 생성기(1350)는 예측된 고대역 스펙트럼 포락선을 적용하여 고대역 시간 도메인 신호를 생성하도록 구성된다. 출력 생성기는 고대역 신호 생성기(1350)와 저대역 디코딩 유닛(1310)에 연결된다. 출력 생성기(1360)는 오디오 비트스트림을 디코딩함으로써 획득된 저대역 시간 도메인 신호와 고대역 시간 도메인 신호를 결합함으로써 오디오 출력 신호를 생성하도록 구성된다.

도 13b는 대역 폭 확장을 구현하는 디코더의 대안적인 실시예를 도해한다.

도 13a과 유사하게, 도 13b의 디코더는 또한 저대역 디코딩 유닛(1310)과 대역 폭 확장 유닛(1320)을 포함하고, 대역 폭 확장 유닛은 저대역 디코딩 유닛(1310)에 연결되고, 서브대역 선택 유닛(1330)과 카피 유닛(1340)을 포함한다.

도 13b를 참조하면, 디코더는 카피 유닛(1340)에 연결된 고대역 스펙트럼 생성기(1355)를 더 포함한다. 고대역 신호 생성기(1355)는 고대역 스펙트럼 포락선 에너지를 적용하여, 고대역 여기 스펙트럼을 이용하여 고주파수 대역에 대한 고대역 스펙트럼을 생성하도록 구성된다.

출력 스펙트럼 생성기(1365)는 고대역 스펙트럼 생성기(1355)와 저대역 디코딩 유닛(1310)에 연결된다. 출력 스펙트럼 생성기는 저대역 디코딩 유닛(1310)으로부터 오디오 비트스트림을 디코딩함으로써 획득된 저대역 스펙트럼과 고대역 스펙트럼 생성기(1355)로부터의 고대역 스펙트럼을 결합함으로써 주파수 도메인 오디오 스펙트럼을 생성하도록 구성된다.

역변환 신호 생성기(1370)는 주파수 도메인 오디오 스펙트럼을 시간 도메인으로 역변환함으로써 시간 도메인 오디오 신호를 생성하도록 구성된다.

도 13a 및 도 13b에 기재된 다양한 컴포넌트들은 하나 이상의 실시예들에서 하드웨어로 구현될 수 있다. 어떤 실시예들에서, 그들은 소프트웨어로 구현될 수 있고, 신호 프로세서에서 작동하기 위해 설계될 수 있다.

따라서, 본 발명의 실시예들은 CELP 코딩된 오디오 비트스트림을 디코딩하는 디코더에서 대역폭 확장을 향상시키는 데 사용될 수 있다.

도 14는 본 발명의 실시예에 따른 통신 시스템(10)을 도해한다.

통신 시스템(10)은 통신 링크들(38, 40)을 통해 네트워크(36)에 연결되는 오디오 액세스 디바이스(7, 8)를 갖는다. 일 실시예에서, 오디오 액세스 디바이스(7, 8)는 보이스 오버 인터넷 프로토콜(VOIP) 디바이스들이고 네트워크(36)는 광역 네트워크(WAN), 공중 교환 전화 네트워크(PSTN) 및/또는 인터넷이다. 다른 실시예에서, 통신 링크들(38, 40)은 유선 및/또는 무선 광대역 접속들이다. 대안적인 실시예에서, 오디오 액세스 디바이스들(7, 8)은 셀룰러 또는 모바일 전화기들이고, 링크들(38, 40)은 무선 모바일 전화 채널들이고, 네트워크(36)는 모바일 전화 네트워크를 나타낸다.

오디오 액세스 디바이스(7)는 음악 또는 사람의 음성과 같은 사운드를 아날로그 오디오 입력 신호(28)로 변환하기 위해 마이크로폰(12)을 이용한다. 마이크로폰 인터페이스(16)는 아날로그 오디오 입력 신호(28)를 코덱(20)의 인코더(22)에의 입력을 위한 디지털 오디오 신호(33)로 변환한다. 인코더(22)는 본 발명의 실시예들에 따라 네트워크 인터페이스(26)를 통해 네트워크(26)에 송신하기 위한 인코딩된 오디오 신호(TX)를 생성한다. 코덱(20) 내에 디코더(24)는 네트워크 인터페이스(26)를 통해 네트워크(36)로부터 인코딩된 오디오 신호(RX)를 수신하고, 인코딩된 오디오 신호(RX)를 디지털 오디오 신호(34)로 변환한다. 스피커 인터페이스(18)는 디지털 오디오 신호(34)를 라우드스피커(14)를 구동하기에 적합한 오디오 신호(30)로 변환한다.

본 발명의 실시예들에서, 오디오 액세스 디바이스(7)가 VOIP 디바이스인 경우, 오디오 액세스 디바이스(7) 내의 컴포넌트들의 일부 또는 전부가 핸드셋 내에 구현된다. 그러나, 어떤 실시예들에서, 마이크로폰(12)과 라우드스피커(14)는 분리된 유닛들이고, 마이크로폰 인터페이스(16), 스피커 인터페이스(18), 코덱(20), 및 네트워크 인터페이스(26)는 퍼스널 컴퓨터 내에 구현된다. 코덱(20)은 컴퓨터 또는 전용 프로세서 상에서 실행하는 소프트웨어로 구현될 수 있거나, 또는 예를 들어, 주문형 집적 회로(ASIC) 상에서 전용 하드웨어에 의해 구현될 수 있다. 마이크로폰 인터페이스(16)는 아날로그-대-디지털(A/D) 변환기뿐만 아니라, 핸드셋 내에 그리고/또는 컴퓨터 내에 위치한 다른 인터페이스 회로에 의해 구현된다. 마찬가지로, 스피커 인터페이스(18)는 디지털-대-아날로그 변환기뿐만 아니라, 핸드셋 내에 그리고/또는 컴퓨터 내에 위치한 다른 인터페이스 회로에 의해 구현된다. 추가적인 실시예들에서, 오디오 액세스 디바이스(7)는 이 기술 분야에 알려져 있는 다른 방식들로 구현될 수 있고 파티션될 수 있다.

본 발명의 실시예들에서, 오디오 액세스 디바이스(7)가 셀룰러 또는 모바일 전화기인 경우, 오디오 액세스 디바이스(7) 내의 요소들은 셀룰러 핸드셋 내에 구현된다. 코덱(20)은 핸드셋 내의 프로세서 상에서 실행하는 소프트웨어에 의해 또는 전용 하드웨어에 의해 구현된다. 본 발명의 추가적인 실시예들에서, 오디오 액세스 디바이스는 인터컴들 및 무선 핸드셋들과 같은, 피어-투-피어 유선 및 무선 디지털 통신 시스템들 등의 다른 디바이스들 내에 구현될 수 있다. 소비자 오디오 디바이스들과 같은 애플리케이션들에서, 오디오 액세스 디바이스는 예를 들어, 디지털 마이크로폰 시스템 또는 음악 재생 디바이스에서 단지 인코더(22) 또는 디코더(24)만을 가진 코덱을 포함할 수 있다. 본 발명의 다른 실시예들에서, 코덱(20)은 예를 들어, PTSN에 액세스하는 셀룰러 기지국들에서 마이크로폰(12)과 스피커(14) 없이 이용될 수 있다.

본 발명의 다양한 실시예들에 기술되는 무성/유성 분류를 향상시키기 위한 스피치 처리가 예를 들어, 인코더(22) 또는 디코더(24) 내에 구현될 수 있다. 무성/유성 분류를 향상시키기 위한 스피치 처리는 다양한 실시예들에서 하드웨어 또는 소프트웨어로 구현될 수 있다. 예를 들어, 인코더(22) 또는 디코더(24)는 디지털 신호 처리(DSP) 칩의 일부일 수 있다.

도 15는 본 명세서에 개시된 디바이스들과 방법들을 구현하기 위해 이용될 수 있는 처리 시스템의 블록도를 도해한다. 특정 디바이스들은 도시된 컴포넌트들 모두, 또는 그 컴포넌트들의 서브세트만을 활용할 수 있고, 통합의 레벨들은 디바이스마다 다를 수 있다. 또한, 디바이스는 여러 처리 유닛들, 프로세서들, 메모리들, 송신기들, 수신기들, 기타 등등을 포함할 수 있다. 처리 시스템은 스피커, 마이크로폰, 마우스, 터치스크린, 키패드, 키보드, 프린터, 및 디스플레이 등과 같은, 하나 이상의 입력/출력 디바이스들을 구비한 처리 유닛을 포함할 수도 있다. 처리 유닛은 버스에 접속되는 중앙 처리 유닛(CPU), 메모리, 대용량 저장 디바이스, 비디오 어댑터, 및 I/O 인터페이스를 포함할 수 있다.

버스는 메모리 버스 또는 메모리 제어기, 주변장치 버스, 또는 비디오 버스 등을 포함하는 임의의 타입의 수개의 버스 아키텍처들 중 하나 이상일 수 있다. CPU는 임의의 타입의 전자 데이터 프로세서를 포함할 수 있다. 메모리는 정적 랜덤 액세스 메모리(SRAM), 동적 랜덤 액세스 메모리(DRAM), 동기 DRAM(SDRAM), 판독-전용 메모리(ROM), 또는 이들의 조합 등과 같은, 임의의 타입의 시스템 메모리를 포함할 수도 있다. 실시예에서, 메모리는 기동시에 사용하기 위한 ROM, 및 프로그램들을 실행하는 동안 사용하기 위한 프로그램 및 데이터 저장을 위한 DRAM을 포함할 수도 있다.

대용량 저장 디바이스는 데이터, 프로그램들, 및 다른 정보를 저장하고, 데이터, 프로그램들, 및 다른 정보를 버스를 통해 액세스 가능하게 만들도록 구성되는 임의의 타입의 저장 디바이스를 포함할 수도 있다. 대용량 저장 디바이스는 예를 들어, 고체 상태 드라이브, 하드 디스크 드라이브, 자기 디스크 드라이브, 또는 광학 디스크 드라이브 등 중 하나 이상을 포함할 수도 있다.

비디오 어댑터 및 I/O 인터페이스는 외부 입력 및 출력 디바이스들을 처리 유닛에 연결하기 위한 인터페이스들을 제공한다. 예시되는 바와 같이, 입력 및 출력 디바이스들의 예들은 비디오 어댑터에 연결되는 디스플레이 및 I/O 인터페이스에 연결되는 마우스/키보드/프린터를 포함한다. 다른 디바이스들이 처리 유닛에 연결될 수 있고, 추가적인, 또는 더 적은 인터페이스 카드들이 활용될 수 있다. 예를 들어, 프린터에 대한 인터페이스를 제공하기 위해 유니버셜 시리얼 버스(Universal Serial Bus, USB)(도시 생략)와 같은 직렬 인터페이스가 사용될 수도 있다.

처리 유닛은 또한 하나 이상의 네트워크 인터페이스들을 포함하는데, 네트워크 인터페이스들은 노드들 또는 상이한 네트워크들에 액세스하기 위한 무선 링크들, 및/또는 이더넷(Ethernet) 케이블 등과 같은 유선 링크들을 포함할 수 있다. 네트워크 인터페이스는 처리 유닛이 네트워크들을 통해 원격 유닛들과 통신하도록 해준다. 예를 들어, 네트워크 인터페이스는 하나 이상의 송신기들/송신 안테나들 및 하나 이상의 수신기들/수신 안테나들을 통해 무선 통신을 제공할 수 있다. 실시예에서, 처리 유닛은 다른 처리 유닛들, 인터넷, 또는 원격 저장 설비들 등과 같은 원격 디바이스들과의 통신 및 데이터 처리를 위해 근거리 네트워크 또는 광역 네트워크에 연결된다.

이 발명이 예시적인 실시예들을 참조하여 설명되었지만, 이 설명은 제한적인 의미로 해석되도록 의도되지는 않는다. 예시적인 실시예들의 다양한 수정들과 조합들뿐만 아니라, 본 발명의 다른 실시예들이 설명을 참조 시에 통상의 기술자에게 명백해질 것이다. 예를 들어, 전술한 다양한 실시예들이 서로 결합될 수 있다.

본 발명 및 그것의 이점들이 상세하게 설명되었지만, 첨부된 청구항들에 정의되는 본 발명의 사상 및 범위를 벗어나지 않고서 다양한 변형, 대체, 및 변경이 이루어질 수 있음을 이해할 것이다. 예를 들어, 전술한 많은 특징들과 기능들은 소프트웨어, 하드웨어, 또는 펌웨어, 또는 그들의 조합으로 구현될 수 있다. 더욱이, 본 출원의 범위는 본 명세서에 설명되는 프로세스, 머신, 제조물, 물질의 조성(composition of matter), 수단, 방법들, 및 단계들의 특정 실시예들로 한정되도록 의도되지 않는다. 통상의 기술자는 본 발명의 개시로부터 본 명세서에 설명되는 해당 실시예들과 실질적으로 동일한 기능을 수행하거나 실질적으로 동일한 결과를 달성하는, 현재 존재하거나 추후에 개발될 프로세스들, 머신들, 제조물, 물질의 조성들, 수단, 방법들, 또는 단계들이 본 발명에 따라 활용될 수 있음을 쉽게 이해할 것이다. 따라서, 첨부된 청구항들은 그들의 범위 내에 이러한 프로세스들, 머신들, 제조물들, 물질의 조성들, 수단, 방법들, 또는 단계들을 포함하는 것으로 의도된다.

Claims

인코딩된 오디오 비트스트림을 디코딩하는 방법으로서:
상기 오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하는 단계;
상기 디코딩된 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 나타내는 파라미터를 이용하여 상기 저주파수 대역 내로부터 서브대역 영역을 결정하는 단계 - 선택된 서브대역 영역의 시작 포인트는 검색 범위 내의 상기 스펙트럼 포락선의 에너지 피크에 대응하고, 상기 검색 범위는 상기 저주파수 대역 내의 주파수 범위임 -; 및
상기 선택된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을, 고주파수 대역 내의 고 서브대역 영역에 복사함으로써(copying), 고대역 여기 스펙트럼을 생성하는 단계
를 포함하는 방법.
제1항에 있어서, 상기 결정된 서브대역 영역은 상기 검색 범위 내의 가장 높은 스펙트럼 포락선 에너지에 대응하는 방법.
제1항에 있어서, 상기 스펙트럼 포락선의 에너지 정보를 나타내는 상기 파라미터는 상기 스펙트럼 포락선의 가장 높은 에너지 또는 스펙트럼 포먼트 피크를 반영하는 파라미터를 포함하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 검색 범위는 코덱 비트 레이트에 의존하는 방법.
제4항에 있어서,
확장된 고대역 오디오 신호를 획득하기 위해서 고대역 스펙트럼 포락선을 나타내는 고대역 필터를 사용하여 상기 고대역 여기 스펙트럼을 필터링하는 단계
를 더 포함하는 방법.
제5항에 있어서,
상기 확장된 고대역 오디오 신호를 상기 디코딩된 저대역 오디오 신호에 부가하여 확장된 주파수 대역폭을 갖는 오디오 출력 신호를 생성하는 단계
를 더 포함하는 방법.
인코딩된 오디오 비트스트림을 디코딩하는 방법으로서:
상기 오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하는 단계;
상기 디코딩된 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 나타내는 파라미터를 이용하여 상기 저주파수 대역 내의 주파수 범위 내의 서브대역 영역을 결정하는 단계 - 상기 서브대역 영역은 상기 주파수 범위 내의 상기 스펙트럼 포락선의 가장 높은 스펙트럼 피크 부근에 위치함 -; 및
상기 결정된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을 고주파수 대역에 복사함으로써, 상기 고주파수 대역에 대한 고대역 여기 스펙트럼을 생성하는 단계
를 포함하는 방법.
제7항에 있어서, 상기 서브대역 영역은 상기 주파수 범위 내의 상기 스펙트럼 포락선의 최고 에너지 포인트를 검색함으로써 결정되는 방법.
제7항에 있어서, 상기 파라미터는 상기 스펙트럼 포락선의 가장 높은 에너지 또는 포먼트를 반영하는 방법.
제7항 내지 제9항 중 어느 한 항에 있어서, 상기 주파수 범위는 코덱 비트 레이트에 의존하는 방법.
제10항에 있어서,
확장된 고대역 오디오 신호를 획득하기 위해서 고대역 스펙트럼 포락선을 나타내는 고대역 필터를 사용하여 상기 고대역 여기 스펙트럼을 필터링하는 단계
를 더 포함하는 방법.
스피치 처리를 위한 장치로서:
프로세서; 및
명령어들을 저장하는 컴퓨터 판독 가능 저장 매체
를 포함하고,
상기 명령어들은 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금:
오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하게 하고;
상기 디코딩된 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 나타내는 파라미터를 이용하여 상기 저주파수 대역 내로부터 서브대역 영역을 결정하게 하고 - 선택된 서브대역 영역의 시작 포인트는 검색 범위 내의 상기 스펙트럼 포락선의 에너지 피크에 대응하고, 상기 검색 범위는 상기 저주파수 대역 내의 주파수 범위임 -;
상기 선택된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을, 고주파수 대역 내의 고 서브대역 영역에 복사함으로써, 고대역 여기 스펙트럼을 생성하게 하는
장치.
제12항에 있어서, 상기 선택된 서브대역 영역은 상기 검색 범위 내의 가장 높은 스펙트럼 포락선 에너지에 대응하는 장치.
제12항에 있어서, 상기 스펙트럼 포락선의 에너지 정보를 나타내는 상기 파라미터는 상기 스펙트럼 포락선의 가장 높은 에너지 또는 스펙트럼 포먼트 피크를 반영하는 파라미터를 포함하는 장치.
제12항 내지 제14항 중 어느 한 항에 있어서, 상기 검색 범위는 코덱 비트 레이트에 의존하는 장치.
제15항에 있어서,
상기 프로세서는 또한, 확장된 고대역 오디오 신호를 획득하기 위해서 고대역 스펙트럼 포락선을 나타내는 고대역 필터를 사용하여 상기 고대역 여기 스펙트럼을 필터링하도록 구성되는 장치.
제16항에 있어서,
상기 프로세서는 또한, 상기 확장된 고대역 오디오 신호를 상기 디코딩된 저대역 오디오 신호에 부가하여 확장된 주파수 대역폭을 갖는 오디오 출력 신호를 생성하도록 구성되는 장치.
스피치 처리를 위한 장치로서:
프로세서; 및
명령어들을 저장하는 컴퓨터 판독 가능 저장 매체
를 포함하고,
상기 명령어들은 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금:
오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하게 하고;
상기 디코딩된 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 나타내는 파라미터를 이용하여 상기 저주파수 대역 내의 주파수 범위 내의 서브대역 영역을 결정하게 하고 - 상기 서브대역 영역은 상기 주파수 범위 내의 상기 스펙트럼 포락선의 가장 높은 스펙트럼 피크 부근에 위치함 -;
상기 결정된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을 고주파수 대역에 복사함으로써, 상기 고주파수 대역에 대한 고대역 여기 스펙트럼을 생성하게 하는
장치.
제18항에 있어서, 상기 파라미터는 상기 스펙트럼 포락선의 가장 높은 에너지 또는 포먼트를 반영하는 장치.
제18항 또는 제19항에 있어서, 상기 주파수 범위는 코덱 비트 레이트에 의존하는 장치.
제20항에 있어서,
상기 프로세서는 또한, 확장된 고대역 오디오 신호를 획득하기 위해서 고대역 스펙트럼 포락선을 나타내는 고대역 필터를 사용하여 상기 고대역 여기 스펙트럼을 필터링하도록 구성되는 장치.
적어도 하나의 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하는 동작;
상기 디코딩된 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 나타내는 파라미터를 이용하여 상기 저주파수 대역 내로부터 서브대역 영역을 결정하는 동작 - 선택된 서브대역 영역의 시작 포인트는 검색 범위 내의 상기 스펙트럼 포락선의 에너지 피크에 대응하고, 상기 검색 범위는 상기 저주파수 대역 내의 주파수 범위임 -; 및
상기 선택된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을, 고주파수 대역 내의 고 서브대역 영역에 복사함으로써(copying), 고대역 여기 스펙트럼을 생성하는 동작
을 수행하게 하는 명령어들이 저장된 비일시적 저장 매체.
제22항에 있어서, 상기 검색 범위는 코덱 비트 레이트에 의존하는 비일시적 저장 매체.
적어도 하나의 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
오디오 비트스트림을 디코딩하여, 디코딩된 저대역 오디오 신호를 생성하고 저주파수 대역에 대응하는 저대역 여기 스펙트럼을 생성하는 동작;
상기 디코딩된 저대역 오디오 신호의 스펙트럼 포락선의 에너지 정보를 나타내는 파라미터를 이용하여 상기 저주파수 대역 내의 주파수 범위 내의 서브대역 영역을 결정하는 동작 - 상기 서브대역 영역은 상기 주파수 범위 내의 상기 스펙트럼 포락선의 가장 높은 스펙트럼 피크 부근에 위치함 -; 및
상기 결정된 서브대역 영역으로부터의 서브대역 여기 스펙트럼을 고주파수 대역에 복사함으로써, 상기 고주파수 대역에 대한 고대역 여기 스펙트럼을 생성하는 동작
을 수행하게 하는 명령어들이 저장된 비일시적 저장 매체.