KR20130090413A

KR20130090413A - Celp 기반 음성 코더에서의 오디오 신호 대역폭 확장

Info

Publication number: KR20130090413A
Application number: KR1020137009388A
Authority: KR
Inventors: 조나단 에이 깁스; 제임스 피. 애슐리; 우다르 미탈
Original assignee: 모토로라 모빌리티 엘엘씨
Priority date: 2010-10-15
Filing date: 2011-10-05
Publication date: 2013-08-13
Also published as: KR101452666B1; EP2628155B1; CN103155035B; US8868432B2; EP2628155A1; WO2012051012A1; US20120095757A1; CN103155035A

Abstract

CELP 기반 디코더 엘리먼트를 포함하는 오디오 디코더에서 CELP 여기 신호의 대역폭을 초과하는 대역폭을 갖는 오디오 신호를 디코딩하는 방법. 방법은 CELP 여기 신호의 오디오 대역폭을 초과하는 오디오 대역폭을 갖는 제2 여기 신호를 얻는 단계, 대역 통과 필터의 세트로 제2 여기 신호를 필터링함으로써 신호의 세트를 얻는 단계, 에너지 기반 파라미터의 세트를 이용하여 신호의 세트를 스케일링하는 단계, 및 스케일링된 신호의 세트를 CELP 기반 디코더 엘리먼트에 의해 디코딩된 오디오 신호에 기초한 신호와 결합함으로써 복합 출력 신호를 얻는 단계를 포함한다.

Description

CELP 기반 음성 코더에서의 오디오 신호 대역폭 확장{AUDIO SIGNAL BANDWIDTH EXTENSION IN CELP-BASED SPEECH CODER}

관련 출원의 상호 참조

본 출원은 2011년 9월 28일에 제출된 공동 계류 중이고 공통 양도된 미국 출원 13/247140 (모토롤라 대리인 도켓 넘버 CS37811AUD)에 관한 것이며, 그 전체 내용은 참조에 의해 여기에 포함된다.

본 개시물은 일반적으로 오디오 신호 처리에 관한 것으로, 특히, CELP(code excited linear prediction) 기반 음성 코더에서의 오디오 신호 대역폭 확장 및 해당 방법에 관한 것이다.

ITU-T G.718 및 G.729.1 순응 음성 코더 등의 일부 매립형 음성 코더는 입출력 오디오 대역폭보다 낮은 대역폭에서 동작하는 코어 CELP 음성 코덱을 갖는다. 예를 들어, G.718 순응 코더는 12.8kHz의 샘플 레이트에서 동작하는 AMR-WB(adaptive multi-rate wideband) 아키텍쳐에 기초한 코어 CELP 코덱을 이용한다. 이것은 6.4kHz의 공칭 CELP 코딩 대역폭을 초래한다. 그러므로, 광대역 신호에 대한 6.4kHz 내지 7kHz의 대역폭 및 초광대역 신호에 대한 6.4kHz 내지 14kHz의 대역폭의 코딩은 개별적으로 처리되어야 한다.

CELP 코어 차단(cut-off) 주파수를 넘어 확장되는 대역의 코딩을 처리하기 위한 하나의 방법은 본래의 신호의 스펙트럼과 CELP 코어의 스펙트럼 간의 차를 계산하고 이 차 신호를 일반적으로 MDCT(Modified Discrete Cosine Transform)을 채용하여 스펙트럼 도메인에서 코딩하는 것이다. 본 방법은, ITU-T 권고 G.729.1, 보정 6 및 ITU-T 권고 G.718 메인 바디 및 보정 2에 더 충분히 기재된 바와 같이, CELP 인코딩 신호가 차 신호를 도출하기 위하여 인코더에서 디코딩되고, 윈도우되고 분석되어야 한다는 것이다. 그러나, 이것은 CELP 인코딩 지연이 MDCT 분석 지연과 순차적이기 때문에 종종 긴 알고리즘 지연을 유발한다. 예에서, 알고리즘 지연은 CELP 부분에 대한 대략 26 내지 30ms와 스펙트럼 MDCT 부분에 대한 대략 10 내지 20ms의 합이다. 도 1a는 종래의 인코더를 나타내고 도 1b는 종래의 디코더를 나타내며, 이들은 MDCT 코어 및 CELP 코어와 연관된 대응 지연을 갖는다. 따라서, 일반적으로 알고리즘 지연을 감소시키기 위하여 코어 CELP 코덱의 대역폭을 넘어 확장되는 오디오 신호 대역을 코딩하는 다른 방법이 필요하다.

모토롤라에 양도된 미국 특허 5,127,054는 기지의 음성 대역을 비선형적으로 처리하고 처리된 신호를 대역 통과 필터링하여 원하는 신호를 도출함으로써 부대역(subband) 코딩된 음성 신호의 손실 대역을 재생성하는 것을 기재한다. 모토롤라 특허는 음성 신호를 처리하고 따라서 순차적인 필터링 및 처리를 필요로 한다. 모토롤라 특허는 또한 모든 부대역에 대한 공통 코딩 방법을 채용한다.

스펙트럼 도메인에서 코딩 영역으로부터 컴포넌트를 트랜스포즈(transpose)하고 변환(translate)함으로써 손실 대역의 미세 구조를 코딩하고 재생하는 것은 일반적으로 알려져 있으며 때때로 SBR(Spectral Band Replication)이라 한다. 음성 코덱이 입출력 오디오 대역폭 이외의 대역폭에서 동작하는 SBR 처리를 채용하기 위하여, ITU-T 권고 G.729.1, 보정 6 및 ITU-T 권고 G.718 메인 바디 및 보정 2에 따라 디코딩된 음성의 분석이 필요할 것이고, 비교적 긴 알고리즘 지연을 초래한다.

본 발명의 다양한 형태, 특징 및 이점은 첨부된 도면을 참조하여 다음의 상세한 설명에 의해 당업자에게 명백해질 것이다. 도면은 명료화를 위하여 간략화되었으며 반드시 일정한 비율로 그려진 것이 아니다.

도 1a는 종래의 광대역 오디오 신호 인코더의 개략 블록도.
도 1b는 종래의 광대역 오디오 신호 디코더의 개략 블록도.
도 2는 오디오 신호를 디코딩하는 처리도.
도 3은 오디오 신호 디코더의 개략 블록도.
도 4는 디코더 내의 대역 통과 필터 뱅크의 개략 블록도.
도 5는 인코더 내의 대역 통과 필터 뱅크의 개략 블록도.
도 6은 상보 필터 뱅크의 개략 블록도.
도 7은 대안적인 상보 필터 뱅크의 개략 블록도.
도 8a는 제1 스펙트럼 정형 프로세스의 개략 블록도.
도 8b는 도 8a의 프로세스와 동등한 제2 스펙트럼 정형 프로세스의 개략 블록도.

본 개시물의 일 양태에 따르면, CELP(code excited linear prediction) 여기 신호의 오디오 대역폭을 넘어 확장되는 오디오 대역폭을 갖는 오디오 신호가 CELP 기반 디코더 엘리먼트를 포함하는 오디오 디코더에서 디코딩된다. 이러한 디코더는 협대역 또는 광대역 음성 신호의 광대역 또는 초광대역 대역폭 확장이 있는 애플리케이션에서 사용될 수 있다. 더 일반적으로, 이러한 디코더는 처리될 신호의 대역폭이 근본적인 디코더 엘리먼트의 대역폭보다 큰 임의의 애플리케이션에 이용될 수 있다.

프로세스는 도 2의 다이어그램(200)에 일반적으로 도시된다. 210에서, CELP 여기 신호의 오디오 대역폭을 초과하는 오디오 대역폭을 갖는 제2 여기 신호가 얻어지거나 생성된다. 여기서, CELP 여기 신호는 제1 여기 신호로 간주되고, "제1" 및 "제2" 수식어는 상이한 여기 신호 사이를 식별하는 라벨이다.

더 특정한 구현예에서, 제2 여기 신호는 후술하는 바와 같이 CELP 여기 신호, 즉, 제1 여기 신호에 기초한 업샘플링된 CELP 여기 신호로부터 얻어진다. 도 3의 개략 블록도(300)에서, 업샘플링된 고정 코드북 신호(c'(n))는 업샘플링 엔티티(304)로 고정 코드북 컴포넌트, 예를 들어, 고정 코드북 벡터를 고정 코드북(302)으로부터 더 높은 샘플 레이트로 업샘플링함으로써 얻어진다. 업샘플링 인자는 샘플링 승수 또는 인자(L)로 표시된다. 위에서 참조된 업샘플링된 CELP 여기 신호는 도 3에서 업샘플링된 고정 코드북 신호(c'(n))에 대응한다.

일반적으로, 업샘플링된 여기 신호는 업샘플링된 고정 코드북 신호 및 업샘플링된 피치 주기 값에 기초한다. 일 구현예에서, 업샘플링된 피치 주기 값은 업샘플링된 적응 코드북 출력의 특성이다. 이 구현예에 따르면, 도 3에서, 업샘플링된 여기 신호(u'(n))는 업샘플링된 레이트에서 동작하는 제2 적응 코드북(305)으로부터의 출력(v'(n)) 및 업샘플링된 고정 코드북 신호(c'(n))에 기초하여 얻어진다. 도 3에서, "업샘플링된 적응 코드북"(305)은 제2 적응 코드북에 대응한다. 적응 코드북 출력 신호(v'(n))는 적응 코드북의 메모리를 구성하는 업샘플링된 여기 신호(u'(n))의 이전 값들 및 업샘플링된 피치 주기(T_u)에 기초하여 얻어진다. 따라서, 업샘플링된 피치 주기(T_u) 및 업샘플링된 여기 신호(u'(n))는 업샘플링된 적응 코드북(305)에 입력된다. CELP 기반 디코더 엘리먼트로부터 직접 취한 2개의 이득 파라미터(g_c 및 g_p)가 스케일링에 이용된다. 파라미터(g_c)는 고정 코드북 신호(c'(n))를 스케일링하고 이는 고정 코드북 이득으로서 알려져 있다. 파라미터(g_p)는 적응 코드북 신호(v'(n))를 스케일링하고 이는 피치 이득이라 한다.

일 실시예에서, 업샘플링된 피치 주기(T_u)는 도 3에 도시된 바와 같이 샘플링 승수(L) 및 CELP 기반 디코더 엘리먼트의 피치 주기(T)의 곱에 기초한다. CELP 기반 코더는 일반적으로 1/4, 1/3 또는 1/2 샘플 해상도를 갖는 피치 주기 값의 소수 표시를 사용하는 것이 일반적이다. 샘플링 승수(L) 및 해상도가 수치적으로 관련되지 않는 경우, 예를 들어, 1/4 샘플 해상도 및 L=5인 경우, 업샘플링된 적응 코드북에 대한 개별 피치 값은 L에 의한 승산 후 비정수 값을 가질 것이다. CELP 기반 디코더 엘리먼트의 적응 코드북 및 업샘플링된 적응 코드북이 서로 동기된 것을 유지하도록 하기 위하여 업샘플링된 적응 코드북은 또한 소수 샘플 해상도로 구현될 수 있다. 그러나, 이것은 정수 샘플 해상도의 사용에 비해 적응 코드북의 구현에 추가의 복잡도를 필요로 한다. 업샘플링된 적응 코드북 내의 정수 샘플 해상도를 이용하기 위하여, 이전의 업샘플링된 피치 주기 값으로부터 근사화 에러를 누적하고 다음의 업샘플링된 피치 주기 값을 설정할 때 그것을 정정함으로써 정렬 에러가 최소화될 수 있다.

도 3에서, 업샘플링된 여기 신호(u'(n))는 g_c에 의해 스케일링된 업샘플링된 고정 코드북 신호(c'(n))를 g_p에 의해 스케일링된 업샘플링된 적응 코드북 신호(v'(n))와 결합함으로써 얻어진다. 이 업샘플링된 여기 신호(u'(n))는 또한 상술한 바와 같이 미래의 서브프레임에 사용되기 위하여 업샘플링된 적응 코드북(305)에 피드백된다.

대안적인 구현예에서, 업샘플링된 피치 주기 값은 업샘플링된 장기(long-term) 예측기 필터의 특성이다. 이 대안적인 구현예에 따르면, 업샘플링된 여기 신호(u'(n))는 업샘플링된 고정 코드북 신호(c'(n))를 업샘플링된 장기 예측기 필터에 통과시킴으로써 얻어진다. 업샘플링된 고정 코드북 신호(c'(n))는 업샘플링된 장기 예측기 필터에 적용되기 전에 스케일링되거나 스케일링이 업샘플링된 장기 예측기 필터의 출력에 적용될 수 있다. 업샘플링된 장기 예측기 필터(L_u(z))는 업샘플링된 피치 주기(T_u) 및 g_p와 다를 수 있는 이득 파라미터(G)에 의해 특징화되고, 형태에 있어서 다음의 수학식과 유사한 z 도메인 전달 함수를 갖는다.

일반적으로, 제2 여기 신호의 오디오 대역폭은, 비선형 오퍼레이션을 제2 여기 신호 또는 제2 여기 신호의 프리커서(precursor)에 적용함으로써 CELP 기반 디코더 엘리먼트의 오디오 대역폭을 넘어 확장된다. 도 3에서, 업샘플링된 여기 신호(u'(n))의 오디오 대역폭은, 비선형 연산자(306)를 업샘플링된 여기 신호(u'(n))에 적용함으로써 CELP 기반 디코더 엘리먼트의 오디오 대역폭을 넘어 확장된다. 대안으로, 업샘플링된 고정 코드북 신호(c'(n))의 오디오 대역폭은, 업샘플링된 여기 신호(u'(n))의 생성 전에 비선형 연산자를 업샘플링된 고정 코드북 신호(c'(n))에 적용함으로써 CELP 기반 디코더 엘리먼트의 오디오 대역폭을 넘어 확장된다. 비선형 연산된 도 3의 업샘플링된 여기 신호(u'(n))는 상술한 바와 같이 도 2의 블록(210)에서 얻어진 제2 여기 신호에 대응한다.

무성 음성(unvoiced speech)을 처리하도록 특별히 설계된 일부의 실시예에서, 제2 여기 신호는 필터링 전에 스케일링되고, 스케일링된 광대역 가우스 신호와 결합될 수 있다. 혼합 프로세스를 제어하기 위하여 디코딩 음성 신호의 보이스 레벨(V)의 추정치와 관련된 혼합 파라미터가 사용된다. V의 값은 에너지 기반 파라미터에 의해 기재된 바와 같이 저주파수 영역(CELP 출력 신호) 내의 신호 에너지 대 고주파수 영역 내의 신호 에너지의 비로부터 추정된다. 높은 무성 신호는 낮은 주파수에서 높은 에너지를 갖고 높은 주파수에서 낮은 에너지를 갖는 것으로 특징화되어, 1(unity)에 접근하는 V값을 산출한다. 반면에, 높은 보이스 신호는 높은 주파수에서 높은 에너지를 갖고 낮은 주파수에서 낮은 에너지를 갖는 것으로 특징화되어 제로에 근접하는 V 값을 산출한다. 이 절차는 더 부드러운 사운딩 무성 음성 신호를 초래하고 에릭슨 텔레폰 아베(Ericsson Telefon AB)에 양도된 미국 특허 6,301,556에 기재된 것과 유사한 결과를 달성한다.

제2 여기 신호가 상술한 바와 같이 스케일링되고 스케일링된 광대역 가우스 신호와 결합되든 되지 않든 간에 제2 여기 신호는 대역 통과 필터링 프로세싱된다. 특히, 신호의 세트는 제2 여기 신호를 대역 통과 필터의 세트로 필터링함으로써 얻어지거나 생성된다. 일반적으로, 오디오 디코더에서 수행된 대역 통과 필터링 프로세스는 인코더에서 입력 오디오 신호에 적용된 동등한 필터링 프로세스에 대응한다. 도 3에서, 310에서, 신호의 세트는 업샘플링된 여기 신호(u'(n))를 대역 통과 필터의 세트로 필터림함으로써 생성된다. 오디오 디코더에서 대역 통과 필터의 세트에 의해 수행되는 필터링은 도 5를 참조하여 후술하는 바와 같이 에너지 기반 파라미터 또는 스케일링 파라미터의 세트를 도출하는데 사용되는 인코더에서 입력 오디오 신호의 부대역에 적용되는 동등한 프로세스에 대응한다. 인코더에서의 대응하는 동등한 필터링 프로세스는 정상적으로 유사한 필터 및 구조물을 포함하는 것으로 기대된다. 그러나, 디코더에서의 필터링 프로세스는 신호 재구성을 위해 시간 도메인에서 수행되지만, 인코더 필터링은 주로 대역 에너지를 얻기 위하여 필요하다. 그러므로, 대안적인 실시예에서, 이들 에너지는 동등 주파수 도메인 필터링 어프로치를 이용하여 얻어질 수 있고, 필터링은 푸리에 변환 도메인에서의 승산으로서 구현되고 대역 에너지는 주파수 도메인에서 먼저 계산된 후에 예를 들어 파시발(Parseval) 관계를 이용하여 시간 도메인에서 에너지로 변환된다.

도 4는 초광대역 신호를 위해 디코더에서 수행되는 필터링 및 스펙트럼 정형(spectral shaping)을 나타낸다. 저주파수 컴포넌트는 비(rational ratio) M/L(이 경우 5/2)에 의해 보간 스테이지를 통해 코어 CELP 코덱에 의해 생성되지만, 고주파수 컴포넌트는 6.4kHz보다 높고 15kHz보다 낮은 나머지 주파수로 동조된 제1 대역 통과 프리필터(pre-filter)를 갖는 대역 통과 필터 장치로 대역폭 확장된 제2 여기 신호를 필터링함으로써 생성된다. 6.4kHz 내지 15kHz의 주파수 범위는 추가로 종종 "임계 대역(critical band)"라 불리우는 사람의 청력과 가장 연관된 대역을 근사화하는 대역폭의 4개의 대역 통과 필터로 세분된다. 이들 필터의 각각으로부터의 에너지는, 인코더에 의해 양자화되고 송신된 에너지 기반 파라미터를 이용하여 인코더에서 측정된 것과 매칭된다.

도 5는 초광대역 신호를 위해 인코더에서 수행되는 필터링을 나타낸다. 32kHz에서의 입력 신호는 2개의 신호 경로로 분리된다. 저주파수 컴포넌트는 비 L/M(이 경우 2/5)에 의해 데시메이션(decimation) 스테이지를 통해 코어 CELP 코덱으로 향하지만, 고주파수 컴포넌트는 6.4kHz보다 크고 15kHz보다 낮은 나머지 주파수로 동조된 대역 통과 필터로 필터링(filtered out)된다. 6.4kHz 내지 15kHz의 주파수 범위는 사람의 청력과 가장 연관된 대역을 근사화하는 대역폭의 4개의 대역 통과 필터(BPF #1 내지 #4)로 세분된다. 이들 필터의 각각으로부터의 에너지가 측정되고 에너지와 관련된 파라미터는 디코더로의 송신을 위해 양자화된다. 인코더 및 디코더에서 동일한 필터링을 이용하는 것은 2개의 프로세스가 동등하게 되는 것을 보장한다. 그러나, 인코더 및 디코더 필터링 프로세스가 유사한 동등 대역폭 및 대역 통과 코너 주파수를 이용하면 동등성은 또한 유지될 수 있다. 상이한 필터 구조물 간의 이득 차는 설계 및 특성화 도중에 보상되어 신호 스케일링 절차에 포함될 수 있다.

일 구현예에서, 디코더에서의 대역 통과 필터링 프로세스는 상보적인 전역 통과 필터의 세트의 출력을 결합하는 것을 포함한다. 상보적인 전역 통과 필터의 각각은 비균일 위상 응답과 결합된 전 주파수 범위에 걸쳐 동일한 고정 1 이득을 제공한다. 위상 응답은 각각의 전-통과 필터가 차단 주파수보다 작은 일정한 시간 지연(선형 위상) 및 차단 주파수보다 높은 일정한 시간 지연 +

위상 시프트를 갖는 것으로서 특징화될 수 있다. 하나의 전-통과 필터가 일정한 시간 지연(z^-d)을 포함하는 전-통과 필터에 부가되면, 출력은 차단 주파수보다 낮은 주파수에서 같은 위상으로 저역 통과 특성을 가져 서로 강화하고, 반면에 차단 주파수보다 높으면 컴포넌트가 다른 위상이어서 서로 제거한다. 2개의 필터로부터 출력을 감산하는 것은 강화 영역과 제거 영역이 교환됨에 따라 고역 통과 응답을 산출한다. 2개의 전-통과 필터의 출력이 서로 감산되면, 2개의 필터의 동상 컴포넌트는 서로 제거하지만 상이한 위상의 컴포넌트는 강화하여 대역 통과 응답을 산출한다. 이것은 도 6에 도시된 전-통과 원리를 이용하여 초광대역 신호에 대한 필터링 프로세스의 바람직한 실시예를 나타내는 도 6에 도시된다.

도 7은 상보적인 전역 통과 필터로 6.4kHz 내지 15kHz의 주파수 범위를 4개의 대역으로 대역 분할하는 특정한 구현예를 나타낸다. 7.7kHz, 9.5kHz 및 12.0kHz의 교차 주파수를 갖는 3개의 전-통과 필터가 채용되어 6.4kHz 내지 15kHz 대역으로 동조된 상술한 제1 대역 통과 프리필터와 결합될 때 4개의 대역 통과 응답을 제공한다.

다른 구현예에서, 디코더에서 수행되는 필터링 프로세스는 대역 통과 프리필터없이 단일 대역 통과 필터링 스테이지에서 수행된다.

일부의 구현예에서, 대역 통과 필터링으로부터 출력된 신호의 세트는 먼저 결합 전에 에너지 기반 파라미터의 세트를 이용하여 스케일링된다. 에너지 기반 파라미터는 상술한 바와 같이 인코더로부터 얻어진다. 스케일링 프로세스는 도 2의 250에 도시된다. 도 3에서, 필터링에 의해 생성된 신호의 세트는 316에서 스펙트럼 정형 및 스케일링된다.

도 8a는 4개의 대역을 갖는 6.4kHz 내지 15kHz의 초광대역 신호에 대한 스케일링 동작을 나타낸다. 4개의 이산 대역 통과 필터의 각각에 대하여, 스케일 인자(S₁, S₂, S₃, S₄)는 해당 대역 통과 필터의 출력에서의 승수로서 사용되어, 확장된 대역폭의 스펙트럼을 정형한다. 도 8b는 도 8a에 도시된 것에 대한 동등 스케일링 동작을 나타낸다. 도 8b에서, 컴플렉스 진폭 응답을 갖는 단일 필터는 도 8a에 도시된 이산 대역 통과 필터 모델과 유사한 스펙트럼 특성을 제공한다.

일 실시예에서, 에너지 기반 파라미터의 세트는 일반적으로 인코더에서의 입력 오디오 신호를 나타낸다. 다른 실시예에서, 디코더에서 사용된 에너지 기반 파라미터의 세트는 인코더에서 입력 오디오 신호를 대역 통과 필터링하는 프로세스를 나타내고, 인코더에서 수행되는 대역 통과 필터링 프로세스는 디코더에서의 제2 여기 신호의 대역 통과 필터링과 동등하다. 인코더 및 디코더에서 동등 또는 심지어 동일한 필터를 채용하고 디코더 필터의 출력에서의 에너지를 인코더에서의 에너지와 매칭함으로써, 인코더 신호는 가능한한 정확히 재생될 것이라는 점은 분명할 것이다.

일 구현예에서, 신호의 세트는 오디오 디코더에서의 대역 통과 필터의 세트의 출력에서의 에너지에 기초하여 스케일링된다. 오디오 디코더에서의 대역 통과 필터의 세트의 출력에서의 에너지는 CELP 기반 디코더 엘리먼트의 피치 주기에 기초한 에너지 측정 간격에 의해 결정된다. 에너지 측정 간격(I_e)은 CELP 기반 디코더 엘리먼트의 피치 주기(T)와 관련되고, 다음의 식에 의해 디코더에서의 보이스 추정 레벨(V)에 의존한다.

여기서, S는 음성 합성 간격에 대응하는 고정된 수의 샘플이고, L은 업샘플링 승수이다. 음성 합성 간격은 통상 CELP 기반 디코더 엘리먼트의 서브프레임 길이와 동일하다.

도 2에서, 230에서, 제2 여기 신호 및 신호의 세트가 얻어지는 동안 오디오 신호는 CELP 기반 디코더 엘리먼트에 의해 디코딩된다. 240에서, 복합 출력 신호는 신호의 세트를 CELP 기반 디코더 엘리먼트에 의해 디코딩된 오디오 신호에 기초한 신호와 결합함으로써 얻어지거나 생성된다. 복합 출력 신호는 CELP 여기 신호의 대역폭을 초과하는 대역폭 부분을 포함한다.

도 3에서, 일반적으로, 복합 출력 신호는 필터링 및 스케릴링 후의 업샘플링된 여기 신호(u'(n)) 및 CELP 기반 디코더 엘리먼트의 출력 신호에 기초하여 얻어지고, 복합 출력 신호는 CELP 기반 디코더 엘리먼트의 오디오 대역폭을 넘어 확장되는 오디오 대역폭 부분을 포함한다. 복합 출력 신호는 CELP 기반 디코더 엘리먼트로의 대역폭 확장된 신호를 CELP 기반 디코더 엘리먼트의 출력 신호와 결합함으로써 얻어진다. 일 실시예에서, 신호의 결합은 공통 샘플링 레이트에서 다양한 신호의 간단한 샘플별 부가(sample-by-sample addition)를 이용하여 달성될 수 있다.

본 개시물 및 그 최상의 모드는, 소유를 확립하고 당업자가 동일물을 만들고 사용하도록 하는 방식으로 기재되지만, 여기에 개시된 예시적인 실시예와의 동등물이 존재하고 예시적인 실시예에 의해 제한되지 않고 청구범위에 의해 제한되는 본 발명의 범위 및 사상을 벗어나지 않고 그 변형이 가능하다는 것이 이해되고 인식될 것이다.

Claims

CELP 기반 디코더 엘리먼트를 포함하는 오디오 디코더에서 CELP 여기 신호(excitation signal)의 오디오 대역폭을 넘어 확장되는 오디오 대역폭을 갖는 오디오 신호를 디코딩하는 방법으로서,
상기 CELP 여기 신호의 오디오 대역폭을 넘어 확장되는 오디오 대역폭을 갖는 제2 여기 신호를 얻는 단계;
상기 제2 여기 신호를 대역 통과 필터의 세트로 필터링함으로써 신호들의 세트를 얻는 단계;
상기 신호들의 세트를 에너지 기반 파라미터들의 세트를 이용하여 스케일링(scaling)하는 단계; 및
상기 스케일링된 신호들의 세트를 상기 CELP 기반 디코더 엘리먼트에 의해 디코딩된 오디오 신호에 기초한 신호와 결합함으로써 복합 출력 신호를 얻는 단계
를 포함하는 방법.
제1항에 있어서, 상기 제2 여기 신호를 얻으면서, 그리고 상기 신호들의 세트를 얻으면서 상기 CELP 기반 디코더 엘리먼트로 상기 오디오 신호를 디코딩하는 단계를 더 포함하는 방법.
제2항에 있어서, 상기 복합 출력 신호는 CELP 여기 신호의 대역폭을 넘어 확장되는 대역폭 부분을 포함하는 방법.
제1항에 있어서,
상기 CELP 여기 신호에 기초하여 업샘플링된 CELP 여기 신호를 얻는 단계; 및
상기 업샘플링된 CELP 여기 신호로부터 상기 제2 여기 신호를 얻는 단계
를 포함하는 방법.
제1항에 있어서, 상기 오디오 디코더에서 대역 통과 필터의 세트에 의해 수행되는 필터링은 상보적인 전역 통과 필터(complementary all-pass filter)들의 세트의 출력들을 결합하는 것을 포함하는 방법.
제1항에 있어서, 상기 대역 통과 필터들의 세트에 의해 수행되는 필터링은 광대역 통과 필터에 의한 필터링을 포함하는 방법.
제4항에 있어서, 상기 대역 통과 필터들의 세트에 의해 수행되는 필터링은 상보적인 전역 통과 필터들의 세트에 의한 필터링을 포함하는 방법.
제1항에 있어서, 상기 오디오 디코더에서 대역 통과 필터들의 세트에 의해 수행되는 필터링은 상기 인코더에서 입력 오디오 신호의 부대역에 적용되는 동등한 프로세스에 대응하는 방법.
제1항에 있어서, 상기 오디오 디코더에서 대역 통과 필터들의 세트에 의해 수행되는 필터링은 상기 인코더에서 입력 오디오 신호에 적용되는 등가의 대역 통과 필터링 프로세스에 대응하는 방법.
제1항에 있어서, 상기 디코더에서 사용되는 에너지 기반 파라미터들의 세트는 상기 인코더에서 입력 오디오 신호를 대역 통과 필터링하는 프로세스를 나타내고, 상기 인코더에서 수행되는 상기 대역 통과 필터링 프로세스는 상기 디코더에서의 상기 제2 여기 신호의 대역 통과 필터링과 동등한 방법.
제1항에 있어서, 상기 에너지 기반 파라미터들의 세트는 인코더에서의 입력 오디오 신호를 나타내는 방법.
제1항에 있어서, 상기 오디오 디코더에서 상기 대역 통과 필터들의 세트의 출력에서의 에너지에 기초하여 상기 신호들의 세트를 스케일링하고,
상기 오디오 디코더에서 상기 대역 통과 필터들의 세트의 출력에서의 에너지는 CELP 기반 디코더 엘리먼트의 피치 주기(T)에 기초하여 에너지 측정 간격에 의해 결정되는 방법.
제12항에 있어서, 에너지 측정 간격(I_e)은 CELP 기반 디코더 엘리먼트의 피치 주기(T)와 관련되고, 또한 이하의 수식

에 의해 상기 디코더에서 추정되는 보이스 레벨(V)에 의존하고,
여기서, S는 음성 합성 간격에 대응하는 고정된 샘플 수이고, L은 업샘플링 인자인 방법.
제1항에 있어서, 상기 제2 여기 신호의 프리커서(precursor)에 비선형 연산을 적용함으로써 CELP 여기 신호의 오디오 대역폭을 넘어 확장되도록 상기 제2 여기 신호의 오디오 대역폭을 확장하는 방법.