KR20200083565A

KR20200083565A - 피치 지연 선택

Info

Publication number: KR20200083565A
Application number: KR1020207015835A
Authority: KR
Inventors: 엠마뉘엘 라벨리; 마틴 디에츠; 미카엘 슈나벨; 아서 트리타르트; 알렉산데르 쳬칼린스키즈
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2017-11-10
Filing date: 2018-11-05
Publication date: 2020-07-08
Also published as: CA3082175A1; JP2021502596A; JP7079325B2; RU2742739C1; KR102426050B1; CN111566733B; SG11202004203WA; ES2900058T3; PT3707718T; TW201923755A; TWI728277B; US20200273475A1; WO2019091922A1; AU2018363670A1; CA3082175C; US11380341B2; CN111566733A; BR112020009114A2; MX2020004786A; PL3707718T3

Abstract

피치 지연을 선택하기 위한 기술(예를 들어, 장치, 방법, 프로그램)이 제안된다. 복수의 프레임들을 포함하는 정보 신호를 인코딩하기 위한 장치(10, 60a, 110). 장치는 제1 추정치(14, T₁)를 획득하도록 구성된 제1 추정기(11)를 포함할 수 있으며, 제1 추정치는 현재 프레임(13)에 대한 피치 지연의 추정치이다. 장치는 제2 추정치(16, T₂)을 획득하도록 구성된 제2 추정기(12)를 포함할 수 있으며, 제2 추정치는 현재 프레임(13)에 대한 피치 지연의 또 다른 추정치이다. 선택기(17)는 제1 상관 측정치 및 제2 상관 측정치(23, 25)에 기초하여 제1 추정치(14, T₁)와 제2 추정치(16, T₂) 사이에서 선택을 수행함으로써 선택된 값(19, T_best)을 택하도록(S103) 구성될 수 있다. 제2 추정기(12)는 현재 프레임(13)에 대한 제2 추정치(16, T₂)를 획득하기 위해 상기 이전 프레임에서 선택된 피치 지연(51, 19"에 의해 조절될 수 있다. 선택기(17)는 현재 프레임(13)과 관련되고 제1 추정치(14, T₁)에 대응하는 지연에서 획득된 제1 상관 측정치(23)의 다운스케일링된 버전(24);과 현재 프레임(13)과 관련되고 제2 추정치(16, T₂)에 대응하는 지연에서 획득된 제2 상관 측정치(25) 사이에서 비교를 수행하도록 구성될 수 있다. 따라서, 제2 상관 측정치(25)이 제1 상관 측정치(23)의 다운스케일링된 버전보다 작은 경우 제1 추정(14, T₁)을 선택하고/허가나, 제2 상관 측정치(25)가 제1 상관 측정치의 다운스케일링된 버전보다 큰 경우 제2 추정(16, T₂)을 선택하는 것이 가능하다. 제1 상관 측정치 및 제2 상관 측정치(23, 25) 중 적어도 하나는 자기 상관 측정치 및/또는 정규화된 자기 상관 측정치일 수 있다.

Description

피치 지연 선택

예를 들어, 장기 사후 필터링(long term postfiltering, LTPF) 인코딩을 위해 낮은 복잡도 피치 검출 절차를 수행할 수 있는 방법 및 장치의 예가 제공된다.

예를 들어, 예는 예를 들어 LTPF를 수행하기 위해 예를 들어 정보 신호, 예컨대 오디오 신호에 대한 피치 지연(pitch lag)을 선택할 수 있다.

1.1. Background

변환 기반 오디오 코덱은 일반적으로 고조파 오디오 신호를 처리할 때 특히 낮은 딜레이(delay)와 낮은 비트레이트에서 고조파 노이즈를 발생시킨다. 이 상호 고조파 노이즈는 일반적으로 매우 성가신 인공물로 인식되어 고음질 오디오 자료에서 주관적으로 평가할 때 변환 기반 오디오 코덱의 성능을 크게 저하시킨다.

장기 사후 필터링(Long Term Post Filtering, LTPF)은 이러한 상호 고조파 노이즈를 줄이는 데 도움이 되는 변환 기반 오디오 코딩 도구이다. 변환 디코딩 후 시간 도메인 신호에 적용되는 사후 필터에 의존한다. 이 사후 필터는 본질적으로 피치 지연과 이득이라는 두 가지 파라미터에 의해 제어되는 빗 모양의 주파수 응답을 갖는 무한 임펄스 응답(infinite impulse response, IIR) 필터이다.

견고성을 높이기 위해 사후 필터 파라미터(피치 지연 및/또는 프레임당 이득)가 인코더 측에서 추정되고 이득이 0이 아닌 경우 비트스트림으로 인코딩된다. 제로 이득의 경우 1 비트로 시그널링하며 신호에 고조파 부분이 포함되어 있지 않을 때 사용되는 비활성 사후 필터에 해당한다.

LTPF는 3GPP EVS 표준 [1]에 처음 도입된 후 MPEG-H 3D 오디오 표준 [2]에 통합되었다. 해당하는 특허는 [3]과 [4]이다.

피치 검출 알고리즘은 프레임당 하나의 피치 지연을 추정한다. 복잡도를 줄이기 위해 일반적으로 낮은 샘플링 레이트(예를 들어, 6.4kHz)로 수행된다. 이상적으로 정확하고 안정적이며 지속적인 추정을 제공해야 한다.

LTPF 인코딩에 사용될 때 연속 피치 윤곽을 갖는 것이 가장 중요하며, 그렇지 않으면 LTPF 필터링된 출력 신호에서 일부 불안정한 인공물이 들릴 수 있다. 실제 기본 주파수 F0을 갖지 않는 경우(예를 들어 여러 개를 가짐) 심각한 인공물을 초래하지 않고 대신 LTPF 성능이 약간 저하되기 때문에 덜 중요하다.

피치 검출 알고리즘의 또 다른 중요한 특징은 계산 복잡도이다. 저전력 디바이스 또는 초 저전력 디바이스를 대상으로 하는 오디오 코덱으로 구현할 경우 계산 복잡도는 가능한 낮아야 한다.

1.2. 종래 기술

공개 도메인에서 찾을 수 있는 LTPF 인코더의 예가 있다. 이는 3GPP EVS 표준 [1]에 설명되어 있다. 이 구현은 표준 사양의 섹션 5.1.10에 설명된 피치 검출 알고리즘을 사용한다. 이 피치 검출 알고리즘은 성능이 우수하고 LTPF에서 매우 안정적이며 연속적인 피치 윤곽을 제공하므로 훌륭하게 작동한다. 그러나, 주요 단점은 비교적 높은 복잡도이다.

LTPF 인코딩에는 사용되지 않았지만 이론적으로 기존의 다른 피치 검출 알고리즘을 LTPF에 사용할 수 있다. 한 예는 음정 검출 알고리즘인 YIN [6]이며, 가장 정확한 것으로 인식된다. 그러나, YIN은 [1]보다 훨씬 더 복잡하다.

언급할 가치가 있는 또 다른 예는 3GPP AMR-WB 표준 [7]에 사용된 피치 검출 알고리즘으로, [1]보다 복잡도가 낮지만 성능이 저하되며, 특히 덜 안정적이고 연속적인 피치 윤곽을 제공한다.

종래 기술은 다음의 개시물을 포함한다:

[1] 3GPP TS 26.445; Codec for Enhanced Voice Services(EVS); Detailed algorithmic description.

[2] ISO/IEC 23008-3:2015; Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Part 3: 3D audio.

[3] Ravelli et al. "Apparatus and method for processing an audio signal using a harmonic post-filter." U.S. Patent Application No. 2017/0140769 A1. 18 May. 2017.

[4] Markovic et al. "Harmonicity-dependent controlling of a harmonic filter tool." U.S. Patent Application No. 2017/0133029 A1. 11 May. 2017.

[5] ITU-T G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s.

[6] De Cheveigne, Alain, and Hideki Kawahara. "YIN, a fundamental frequency estimator for speech and music." The Journal of the Acoustical Society of America 111.4(2002): 1917-1930.

[7] 3GPP TS 26.190; Speech codec speech processing functions; Adaptive Multi-Rate - Wideband(AMR-WB) speech codec; Transcoding functions.

그러나, 피치 지연 추정이 개선되어야 하는 경우가 있다.

현재의 저 복잡도 피치 검출 알고리즘([7]과 같은)은 LTPF, 특히 대위 음악과 같은 복잡한 신호에 대해 만족스럽지 않은 성능을 가지고 있다. 고정 톤에서도 피치 윤곽이 매우 불안정할 수 있다. 이것은 가중 자기 상관 함수의 극대값 사이에서 점프하기 때문이다.

따라서, 종래 기술과 동일하거나 더 낮은 복잡도로, 복잡한 신호에 더 잘 적응하는 피치 지연 추정치의 획득이 필요하다.

예에 따르면, 복수의 프레임들을 포함하는 정보 신호를 인코딩하기 위한 장치가 제공되며, 그 장치는 다음을 포함한다:

제1 추정치를 획득하도록 구성된 제1 추정기 - 제1 추정치는 현재 프레임에 대한 피치 지연의 추정치임 -;

제2 추정치를 획득하도록 구성된 제2 추정기 - 제2 추정치는 현재 프레임에 대한 피치 지연의 또 다른 추정치임 -;

제1 및 제2 상관 측정치들에 기초하여 제1 추정치와 제2 추정치 사이에서 선택을 수행함으로써 선택된 값을 선택하도록 구성된 선택기,

여기서 제2 추정기는 현재 프레임에 대한 제2 추정치를 획득하기 위해 이전 프레임에서 선택된 피치 지연에 의해 조절되고(conditioned),

선택기는:

현재 프레임과 관련되고 제1 추정치에 대응하는 지연에서 획득된 제1 상관 측정치의 다운스케일링된 버전;과

현재 프레임과 관련되고 제2 추정치에 대응하는 지연에서 획득된 제2 상관 측정치 사이에서 비교를 수행하여,

제2 상관 측정치가 제1 상관 측정치의 다운스케일링된 버전보다 작은 경우 제1 추정치를 선택하고/하거나,

제2 상관 측정치가 제1 상관 측정치의 다운스케일링된 버전보다 큰 경우 제2 추정치를 선택하도록 구성되는 것을 특징으로 하며,

여기서 제1 및 제2 상관 측정치 중 적어도 하나는 자기 상관 측정치 및/또는 정규화된 자기 상관 측정치이다.

예에 따르면, 정보 신호를 복수의 프레임들을 포함하는 비트스트림(63)으로 인코딩하기 위한 장치가 제공되며, 그 장치(60a)는 다음을 포함한다:

검출 유닛 - 검출 유닛은 다음을 포함함 -:

제2 추정치를 획득하도록 구성된 제2 추정기 - 제2 추정치는 현재 프레임에 대한 피치 지연의 또 다른 추정치이며, 여기서 제2 추정기는 현재 프레임에 대한 제2 추정치를 획득하기 위해 이전 프레임에서 선택된 피치 지연에 의해 조절됨 -;

적어도 하나의 상관 측정치에 기초하여 제1 추정치와 제2 추정치 사이에서 선택을 수행함으로써 선택된 값을 선택하도록 구성된 선택기 - 여기서 선택기는

현재 프레임과 관련되고 제2 추정치에 대응하는 지연에서 획득된 제2 상관 측정치;와

피치 지연 선택 임계치 사이에 비교를 수행하여,

제2 상관 측정치가 피치 지연 선택 임계치보다 큰 경우 제2 추정치를 선택하고/하거나;

제2 상관 측정치가 피치 지연 선택 임계치보다 낮을 때 제1 추정치를 선택하도록 구성됨 -;

디코더에서 LTPF를 수행하는 데 유용한 데이터를 인코딩하도록 구성된 장기 사후 필터링(LTPF) 도구 - LTPF 수행에 유용한 데이터는 선택된 값을 포함함 -.

적어도 하나의 상관 측정치에 기초하여 제1 추정치와 제2 추정치 사이에서 선택을 수행함으로써 선택된 값을 선택하도록 구성된 선택기,

여기서 제2 추정기는 현재 프레임에 대한 제2 추정치를 획득하기 위해 이전 프레임에서 선택된 피치 지연에 의해 조절된다.

예에 따르면, 선택기는

피치 지연 선택 임계치 사이에 비교를 수행하여,

제2 상관 측정치가 피치 지연 선택 임계치보다 낮을 때 제1 추정치를 선택하도록; 구성된다.

예에 따르면, 선택기는

현재 프레임과 관련되고 제1 추정치에 대응하는 지연에서 획득된 제1 상관 측정치;와

제1 상관 측정치가 적어도 제2 상관 측정치보다 큰 경우 제1 추정치를 선택하고/하거나,

제1 상관 측정치가 적어도 제2 상관 측정치보다 낮은 경우 제2 추정치를 선택하도록 구성된다.

예에 따르면, 선택기는

제2 상관 측정치가 제1 상관 측정치의 다운스케일링된 버전보다 큰 경우 제2 추정치를 선택하도록 구성된다.

예에 따르면, 제1 및 제2 상관 측정치 중 적어도 하나는 자기 상관 측정치 및/또는 정규화된 자기 상관 측정치이다.

정보 신호 또는 그 처리된 버전의 표현을 생성하는 변환 코더가 구현될 수 있다.

예에 따르면, 제2 추정기는 이전 프레임에 대해 선택된 피치 지연을 포함하는 제2 부분 구간(subinterval)에서 제2 상관 함수를 최대화하는 지연을 검색함으로써 제2 추정치를 획득하도록 구성된다.

예에 따르면, 제2 부분 구간은 이전 프레임에 대해 선택된 피치 지연으로부터 미리 정의된 지연 수 임계치보다 작은 거리 내에 지연을 포함한다.

예에 따르면, 제2 추정기는 제2 상관 함수 값들 중 최대 값을 검색하여 제2 추정치를 제2 상관 함수 값들 중 최대 값과 관련된 지연에 관련시키도록 구성된다.

예에 따르면, 제1 추정기는 현재 프레임과 관련된 제1 상관 함수를 최대화하는 지연으로서 제1 추정치를 획득하도록 구성된다.

예에 따르면, 제1 상관 함수는 제1 부분 구간에서 지연으로 제한된다.

예에 따르면, 제1 부분 구간은 제2 부분 구간보다 많은 지연을 포함하고/하거나 제2 부분 구간에서 적어도 일부의 지연은 제1 부분 구간에 포함된다.

예에 따르면, 제1 추정기는 제1 상관 함수를 최대화하는 지연을 검색하기 전에 단조 감소하는 가중치 함수를 사용하여 제1 상관 함수의 상관 측정치 값을 가중시키도록 구성된다.

예에 따르면, 제2 및 제1 상관 함수 중 적어도 하나는 자기 상관 함수 및/또는 정규화된 자기 상관 함수이다.

예에 따르면, 제1 추정기는 다음 동작 중 적어도 일부를 수행함으로써 제1 추정치 T₁을 획득하도록 구성된다:

w(k)는 가중치 함수이고, k_min 및 k_max는 최소 지연 및 최대 지연과 관련이 있고, R은 정보 신호 또는 그 처리된 버전에 기초하여 추정된 자기 상관 측정치 값이고, N은 프레임 길이이다.

예에 따르면, 제2 추정기는 다음을 수행함으로써 제2 추정치 T₂를 획득하도록 구성된다:

여기서

이고,

이며, T_prev은 이전 프레임에서 선택된 추정치이고, δ는 Tprev로부터의 거리이며, k_min 및 k_max는 최소 지연 및 최대 지연과 관련된다.

예에 따르면, 선택기는 다음과 관련하여 피치 지연 추정치 T_curr의 선택을 수행하도록 구성된다:

T₁은 제1 추정치이고, T₂는 제2 추정치이며, x는 정보 신호의 값 또는 그것의 처리된 버전이고, normcorr(x,N,T)는 지연 T에서 길이 N의 신호 x의 정규화된 상관 측정치이고, α는 다운스케일링 계수이다.

예에 따르면, 선택기의 다운스트림에는 디코더 장치에서 장기 사후 필터를 제어하기 위한 장기 사후 필터링(LTPF) 도구가 제공된다.

예에 따르면, 정보 신호는 오디오 신호이다.

예에 따르면, 장치는 현재 프레임의 고조파의 측정으로서 제1 상관 측정치 및 이전 프레임에 대해 정의된 부분 구간으로 제한된 현재 프레임의 고조파 측정치로서 제2 상관 측정치를 획득하도록 구성된다.

예에 따르면, 장치는 가중 함수까지 동일한 상관 함수를 사용하여 제1 및 제2 상관 측정치를 획득하도록 구성된다.

예에 따르면, 장치는 가중 함수까지의 제1 추정치의 정규화된 버전으로서 제1 상관 측정치를 획득하도록 구성된다.

예에 따르면, 장치는 제2 추정치의 정규화된 버전으로서 제2 상관 측정치를 획득하도록 구성된다.

예에 따르면, 인코더 측 및 디코더 측을 포함하는 시스템이 제공되며,인코더 측은 상기와 같고, 디코더 측은 선택기에 의해 선택된 피치 지연 추정치에 기초하여 제어되는 장기 사후 필터링 도구를 포함한다.

예에 따르면, 프레임으로 분할된 신호에 대한 피치 지연을 결정하는 방법이 제공되며,

방법은:

현재 프레임에 대한 제1 추정을 수행하는 단계;

현재 프레임에 대한 제2 추정을 수행하는 단계; 및

적어도 하나의 상관 측정치에 기초하여 제1 추정에서 획득된 제1 추정치와 제2 추정에서 획득된 제2 추정치 중에서 선택하는 단계;를 포함하며,

여기서 제2 추정을 수행하는 단계는 이전 프레임에서 수행된 선택 단계의 결과에 기초하여 획득된다.

예에 따르면, 방법은 장기 사후 필터링(LTPF)을 위해 선택된 지연을 사용하는 단계를 포함할 수 있다.

예에 따르면, 방법은 패킷 손실 은닉(packet lost concealment, PLC)에 대해 선택된 지연을 사용하는 단계를 포함할 수 있다.

방법은:

현재 프레임에 대한 제1 추정을 수행하는 단계;

현재 프레임에 대한 제2 추정을 수행하는 단계; 및

상관 측정치에 기초하여 제1 추정에서 획득된 제1 추정치와 제2 추정에서 획득된 제2 추정치 중에서 선택하는 단계;를 포함하며,

여기서 상기 제2 추정을 수행하는 단계는 이전 프레임에서 수행된 선택 단계의 결과에 기초하여 획득되고,

상기 선택하는 단계는

현재 프레임과 관련되고 제2 추정치에 대응하는 지연에서 획득된 제2 상관 측정치; 사이에서 비교하여,

제2 상관 측정치가 상기 제1 상관 측정치의 다운스케일링된 버전보다 작은 경우 제1 추정치를 선택하고/하거나, 제2 상관 측정치가 제1 상관 측정치의 다운스케일링된 버전보다 큰 경우 상기 제2 추정을 선택하는 단계를 포함하며,

예에 따르면, 프레임들로 분할된 신호에 대한 비트스트림을 인코딩하는 방법이 제공되며,

방법은:

현재 프레임에 대한 제1 추정을 수행하는 단계;

현재 프레임에 대한 제2 추정을 수행하는 단계; 및

선택하는 단계는

피치 지연 선택 임계치 사이에 비교를 수행하여,

제2 상관 측정치가 피치 지연 선택 임계치보다 큰 경우 제2 추정치를 선택하고/하거나, 제2 상관 측정치가 피치 지연 선택 임계치보다 낮을 때 제1 추정치를 선택하는 단계;를 포함하며,

방법은 선택된 값을 디코더에서 LTPF를 수행하는데 유용한 데이터를 인코딩하는 단계를 더 포함한다.

예에 따르면, 프로세서에 의해 실행될 때 프로세서로 하여금 위 또는 아래의 임의의 방법을 수행하게 하는 명령어를 포함하는 프로그램이 제공된다.

도 1a 및 도 2는 예에 따른 장치를 도시한다.
도 1b는 일 예에 따른 방법을 도시한다.
도 3 및 도 4는 예에 따른 방법을 도시한다.
도 5와 5a-5d는 상관 함수의 다이어그램을 도시한다.
도 6은 본 발명에 따른 시스템을 도시한다.
도 7 및 도 8은 본 발명에 따른 장치를 도시한다.
도 9는 디코더에서의 동작의 예를 도시한다.

5. 선택 및 추정의 예

예를 들어, LTPF 인코딩 및/또는 디코딩을 위한 저 복잡도 피치 검출 절차, 시스템 및 장치의 예가 개시된다.

정보 신호는 상이한 이산 시간 순간(n)에서 획득된 연속 샘플들(예를 들어, x(n))로서 시간 도메인(time domain, TD)에서 기술될 수 있다. TD 표현은 각각 복수의 샘플과 관련된 복수의 프레임을 포함할 수 있다. 프레임들은 순서대로 순차적으로 보여질 수 있어, 현재 프레임은 후속 프레임 이전에 시간적으로 이전 프레임 이후에 시간적으로 뒤따른다. 이전 프레임에서 수행된 동작이 현재 프레임에 대해 반복되도록 반복적으로 동작하는 것이 가능하다.

현재 프레임과 관련된 반복 동안, 이전 프레임과 관련된 이전 반복에서 수행된 선택에 의해 조절되는 적어도 일부 동작들(예를 들어, 제2 추정치)에 대해 적어도 수행하는 것이 가능하다. 그러므로, 이전 프레임에서의 신호의 이력은, 예를 들어, 장기간 후 필터링(LTPF)을 수행하기 위해 디코더에 의해 사용될 피치 지연을 선택하기 위해 고려된다.

5.1 예에 따른 일반적인 구조 및 기능

도 1a는 정보 신호를 인코딩하기 위한 장치(10)의 일부를 도시한다. 장치(10)는 현재 프레임(13)에 대한 제1 추정치(14, T₁)를 획득하기 위해 제1 추정 프로세스를 수행하도록 구성된 제1 추정기(11)를 포함할 수 있다. 장치(10)는 현재 프레임(13)에 대한 제2 추정치(16, T₂)를 획득하기 위해 제2 추정 프로세스를 수행하도록 구성된 제2 추정기(12)를 포함할 수 있다. 장치(10)는 적어도 하나의 상관 측정치에 기초하여 제1 추정치(14)와 제2 추정치(16) 사이에서 선택(18)을 수행하도록 구성된 선택기(17)를 포함할 수 있다(스위치(17a)에 의해 표현된 요소는 요소(17)에 의해 제어된다). 출력(최종) 추정치(19, T_best)는 제1 추정치(14)와 제2 추정치(16) 사이에서 선택되며, 예를 들어 LTPF를 수행하기 위해 디코더에 제공될 수 있다. 출력(최종) 추정치(19)는 LTPF의 피치 지연으로 사용될 것이다.

최종 추정치(선택된 값)(19)는 또한 레지스터(19')에 입력될 수 있고, 후속 프레임에서 반복을 수행할 때, 이전에 동작된 선택에 관한 제2 추정기(12)에 대한 입력(19", T_prev)으로서 사용될 수 있다. 각각의 프레임(13)에 대해, 제2 추정기(12)는 이전 프레임에 대한 이전 최종 추정치(19")에 기초하여 제2 추정치(16)를 획득한다.

도 1b는 프레임으로 분할된 신호에 대한 방법(100)(예를 들어, LPTF에 사용될 최종 피치 지연을 결정하기 위한)을 도시한다. 방법은 단계 S101에서 현재 프레임에 대한 제1 추정(피치 지연 추정)을 수행하는 단계를 포함한다. 방법은 단계 S102에서 현재 프레임에 대한 제2 추정을 수행하는 단계를 포함하며, 제2 추정은 이전 프레임에서 동작된 선택(예를 들어, 이전 프레임에서 LTPF에 대해 선택된 최종 피치 지연)에 기초한다. 방법은 단계 S103에서 적어도 하나의 상관 측정치에 기초하여 제1 추정치(14)와 제2 추정치(16) 사이에서 선택하는 단계를 포함한다.

후속하여, 단계 S104에서, 프레임이 업데이트된다:"현재 프레임"인 프레임은"이전 프레임"이 되고, 새로운(후속) 프레임은 새로운"현재 프레임"이 된다. 업데이트 후, 방법은 반복될 수 있다.

도 2는 정보 신호를 인코딩하기 위한 장치(10)의 일부(도 1a와 동일할 수 있음)를 도시한다. 선택기(17)에서, 제1 측정기(21)는 현재 프레임(13)과 관련된 제1 상관(예를 들어, 정규화된 상관)(23)(예를 들어, 제1 추정치(T1)의 정규화된 자기 상관)을 측정할 수 있다. 제2 측정기(22)는 현재 프레임(13)과 관련된 제2 상관(예를 들어, 정규화된 상관)(25)(예를 들어, 제2 추정치 T2의 정규화된 자기 상관)을 측정할 수 있다. 제1 정규화된 상관 관계(23)는 스케일러(26)에서 예를 들어 0.8과 0.9 사이,보다 특히 0.84와 0.86 사이의 값일 수 있고, 0.85일 수 있는 미리 결정된 값 α에 의해 다운스케일링될 수 있다. 현재 프레임(13)과 관련된 제2 상관 관계(예를 들어, 정규화된 상관 관계)(25)는 예를 들어 스케일링된 제1 상관 관계(24)와 비교 될 수 있다(예에서, 스케일러(26)는 선택적이며 제1 상관은 스케일링되지 않음). 제1 추정치(14, T₁)와 제2 추정치(16, T₂) 사이의 선택(18)은 비교기(27)에서 수행된 비교에 기초한다. 제2 상관(25)이 스케일링된 제1 상관(24)보다 큰 경우, 제2 추정(16)은 (예를 들어, LTPF의 피치 지연으로 사용될) 디코더에 제공될 선택된 출력 추정(19, T_best = T₂)으로서 피치 지연 정보로서 선택된다. 제2 상관(25)이 스케일링된 제1 상관(24)보다 낮은 경우, 제1 추정치(14, T₁)는 디코더에 제공될 피치 지연 정보(19, T_best = T₁)로서 선택된다.

5.2 제1 추정

예를 들어, 현재 프레임(13)에 기초하여 제1 추정치(14)를 제공하기 위해 사용될 수 있는 제1 추정기(11)의 동작이 여기서 논의된다. 방법(30)이 도 3에 도시되어 있다.

1 단계. 리샘플링 제1 스테이지(단계 S31)

샘플링 레이트 F에서의 입력 신호 x(n)은 더 낮은 샘플링 레이트 F₁(예를 들어, F₁ = 12.8kHz)로 리샘플링된다. 리샘플링은 예를 들어 고전적인 업샘플링 + 저역 통과 + 다운샘플링 방식을 사용하여 구현될 수 있다. 본 단계는 일부 예에서 선택적이다.

2 단계. 고역 통과 필터링(단계 S21)

리샘플링된 신호는 그러면 예를 들어 50Hz에서 3dB 차단 기능이 있는 2차 IIR 필터를 사용하여 고역 통과 필터링된다. 결과 신호는 x₁(n)로 표시된다. 본 단계는 일부 예에서 선택적이다.

3 단계. 리샘플링 제2 스테이지(단계 S31)

신호 x_1(n)은 예를 들어 데시메이터가 뒤따르는 4차 FIR 저역 통과 필터를 사용하여 2의 팩터만큼 추가로 다운샘플링된다. 샘플링 레이트 F₂ = F₁/2(예: F₂ = 6.4kHz)에서의 결과 신호는 x₂(n)로 표시된다. 본 단계는 일부 예에서 선택적이다.

4 단계. 자기 상관 계산(단계 S34)

자기 상관 프로세스가 수행될 수 있다. 예를 들어, 자기 상관은 x₂(n)에서 다음에 의해 처리될 수 있다:

여기서 N은 프레임 크기이다. T_min 및 T_max는 피치 지연을 취출하기 위한 최소 및 최대 값이다(예를 들어, T_min = 32 및 T_max = 228). 따라서, T_min 및 T_max는 제1 추정치(현재 프레임의 피치 지연)가 발견될 제1 구간의 극단을 구성할 수 있다.

5 단계. 자기 상관 가중(단계 S35)

낮은 피치 지연을 강조하기 위해 자기 상관이 가중될 수 있다:

w(T)는 예를 들어 다음에 의해 주어진 감소 함수(예를 들어, 단조 감소 함수)이다.

6 단계. 제1 추정(단계 S36)

제1 추정치 T₁은 가중 자기 상관을 최대화하는 값이다:

제1 추정치 T₁은 제1 추정기(11)의 출력(14)으로서 제공될 수 있다. 이것은 현재 프레임에 대한 피치 지연의 추정치일 수 있다.

R(T)(또는 그 가중된 버전 R_w(T))는 최대 값이 제1 피치 지연 추정치(14, T₁)와 관련된 제1 상관 함수의 예이다.

5.3 제2 추정

예를 들어, 현재 프레임(13) 및 이전에 선택된(출력) 추정치(19")에 기초하여 제2 추정치(16)를 제공하기 위해 사용될 수 있는 제2 추정기(12)(및/또는 단계 S102)의 동작 이전 프레임)에 대해 설명한다. 방법(40)이 도 4에 도시되어 있다. 제2 추정치(16)는 제1 추정치(14)와 상이할 수 있다. 또한, 추정된 피치 지연은 일부 예들에서 이전에 추정된 피치 지연과 상이할 수 있다.

도 5를 참조하면, 예에 따르면, 단계 S41에서, 검색은 특정 제2 부분 구간(52) 내에 있는 제한된 지연 그룹으로 제한된다. 검색은 (이전) 선택된 값(19"에 대응하는 지연(51)에 기초한다. 검색은 값 δ내에 있는 제2 부분 구간(52)에서 지연으로 제한된다(예를 들어, 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 다른 양의 자연수 중에서 선택 될 수 있다; 일부 예에서 δ는 프레임 길이의 백분율일 수 있어, 프레임이 N개의 샘플을 갖는 경우, δ는 N의 1% 내지 30%, 특히 15% 내지 25%의 백분율이다). δ는 미리 정의된 지연 수 임계치 또는 미리 정의된 백분율일 수 있다.

예에 따르면, 단계 S42에서, 부분 구간(52) 내의 자기 상관 값은 예를 들어 제2 측정기(22)에 의해 산출된다.

예에 따르면, 단계 S42에서, 자기 상관 결과 중 최대 값이 취출된다. 제2 추정치(T_2)은 예를 들어 이전에 선택된 값(19")에 중심을 둔 제2 부분 구간 내의 지연들 중 현재 프레임의 피치 지연 부근에서의 자기 상관을 최대화하는 값이며, 예를 들어 다음과 같다:

여기서 T_prev는(선택기(17)에 의해) 이전에 선택된 최종 피치 지연(51, 19")이고, δ는 부분 구간(52)을 정의하는 상수(예를 들어, δ= 4)이다. 값 T₂는 제2 추정기(12)의 출력(16)으로서 제공될 수 있다.

특히, 제1 추정치(14)와 제2 추정치(16)는 서로 상당히 상이할 수 있다.

R(T)(여기서 도메인은 T_prev-δ와 T_prev+δ사이에서 제한됨)는 최대 값이 제2 피치 지연 추정치(16, T₂)과 관련된 제2 상관 함수의 예이다.

5.4 제1 및 제2 상관 측정

제1 측정기(21) 및/또는 제2 측정기(22)는 상관 측정을 수행할 수 있다. 제1 측정기(21) 및/또는 제2 측정기(22)는 자기 상관 측정을 수행할 수 있다. 상관 및/또는 자기 상관 측정치가 정규화될 수 있다. 여기에 예가 제공된다.

normcorr(T)는 피치 지연 T에서 신호 x의 정규화된 상관일 수 있다:

따라서, 제1 상관 측정치(23)는 normcorr(T₁)일 수 있으며 - 여기서 T₁은 제1 추정치(14)이다 -, 제2 상관 측정치(25)는 normcorr(T₂)일 수 있다 - 여기서 T₂는 제2 추정치(16)이다 -.

특히, 제1 상관 측정치(23)는 R(T₁)(또는 R_w(T₁))의 정규화된 값인 반면, 제2 상관 측정치(25)는 R(T₂)의 정규화된 값이다.

5.5 임계치와의 비교

이제 선택을 수행하기 위한 상관 관계를 비교하는 방법의 예를 제공할 수 있다. 예를 들어 다음 공식으로 제공된다:

αnormcorr(T₁)는 피치 지연 선택 임계치(24)로 볼 수 있다: normcorr(T₂) ≤αnormcorr(T₁)이면 선택기는 T₁을 선택하고, 그렇지 않으면 선택기는 T₂를 선택한다. 따라서, 값 T_best(또는 이와 관련된 정보)는 선택된 출력 값(19)(T₁ 또는 T₂로서) 일 수 있고 디코더(예를 들어, LTPF의 경우)에 제공되고 제2 추정치(16)를 획득하기 위해 제2 추정기에 의해 19"로서 사용될 것이다.

5.6 방법(40)

방법(30)과 관련된 방법(40)은 방법(30)에 기초한 기술에 대해서만 성능을 증가시킨다.

약간의 추가 복잡도로 인해 피치 윤곽을 보다 안정적이고 연속적으로 만들어 성능을 크게 향상시킬 수 있다.

방법(40)은 자기 상관 함수에 대한 제2 최대치를 찾는다. 방법(30)에서와 같이 전체 최대 값이 아니라 이전 프레임의 피치 지연 부근에서 지역 최대치이다. 이 제2 피치 지연(선택한 경우)는 부드럽고 연속적인 피치 윤곽을 생성한다. 그러나, 모든 경우에 이 제2 피치 지연을 선택하지는 않는다. 예를 들어 기본 주파수에 예상되는 변화가 있는 경우 전역 최대치를 유지하는 것이 좋다.

최종 선택은 방법 30으로 발견된 제1 피치 지연(T₁, 14) 또는 방법 40으로 발견된 제2 피치 지연(T₂, 16)를 선택할지의 여부이다. 이 결정은 주기성 측정에 기초한다. 주기성 측정으로 정규화된 상관을 선택한다. 신호가 완벽하게 주기적인 경우 1이고 비주기적인 경우 0이다. 제2 피치 지연 T₂는 대응하는 정규화된 상관이 파라미터 α에 의해 스케일링된 제1 피치 지연 T₁의 정규화된 상관보다 높은 경우에 선택된다. 이 파라미터 α < 1은 정규화된 상관 관계가 제1 피치 지연(T₁,14)의 정규화된 상관보다 약간 낮은 경우에도 T₂(16)을 선택함으로써 결정을 더욱 순조롭게 한다.

5.7 기술에 대한 고려 사항

도 5a-5d를 참조한다.

제1 추정의 예는 도 5a에 도시되어 있다: 자동 상관 함수의 최대치에 해당하는 피치지연이 선택된다.

(일정한 피치로) 고조파 신호의 자동 상관은 피치 지연 위치와 이 피치 지연의 모든 배수에서 피크를 포함한다는 사실에 근거한다.

피치 지연의 배수에 해당하는 피크를 선택하는 것을 피하기 위해, 자동 상관 함수는 도 5b와 같이 가중되어 높은 피치 지연에 덜 중점을 둔다. 이것은 예를 들어 [7]에서 사용된다.

가중 자기 상관의 전역 최대치는 신호의 피치 지연에 해당한다고 가정한다.

일반적으로 제1 추정만으로도 만족스럽게 작동한다: 대부분의 프레임에서 정확한 피치를 제공한다.

제1 추정은 또한 자기 상관 함수의 지연(제1 부분 구간)의 수가 작으면 비교적 낮은 복잡도의 이점을 갖는다.

도 5a는 입력 신호의 (가중되지 않은) 자기 상관을 도시한다.

5개의 피크가 있다: 제1 피크(53)는 피치 지연에 대응하고, 다른 피크는 이 피치 지연의 배수(53')에 대응한다.

(가중되지 않은) 자기 상관의 전역 최대치를 취하면 이 경우 잘못된 피치 지연이 발생하는데, 이 경우 다중 피치를 선택한다(이 경우 올바른 피치 지연의 4배).

그러나, 가중된 자기 상관의 전역 최대치(도 5b)는 올바른 피치 지연이다.

제1 추정은 여러 경우에 적용된다. 그러나, 불안정한 추정치를 생성하는 경우가 있다.

이 경우 중 하나는 피치가 다른 여러 톤의 믹스를 포함하는 다성(polyphonic) 음악 신호이다. 이 경우, 다중 피치 신호로부터 단일 피치를 추출하는 것이 어렵다. 이 경우, 제1 추정기(11)는 하나의 프레임에서 하나의 톤(또는 어쩌면 그것의 배수)의 피치를 추정할 수 있고, 다음 프레임에서는 가능하면 다른 톤(또는 그 배수)의 피치를 추정할 수 있다. 따라서, 신호가 안정적이더라도(다른 톤의 피치는 한 프레임에서 다음 프레임으로 변경되지 않음), 제1 추정에 의해 검출된 피치가 불안정할 수 있다(피치가 한 프레임에서 다음 프레임으로 크게 변경됨).

이 불안정한 거동은 LTPF의 주요 문제이다. 피치가 LTPF에 사용될 때 연속 피치 윤곽을 갖는 것이 가장 중요하며, 그렇지 않으면 LTPF 필터링된 출력 신호에서 일부 인공물이 들릴 수 있다.

도 5c 및 도 5d는 이 문제를 도시한다.

도 5c는 가중 자기 상관과 안정적인 다중 피치 신호의 프레임에서 최대치를 도시한다. 피크 지연(19)는 피크(54)에 대응하여 "20"에서 정확하게 취출된다.

도 5d는 다음 프레임에서 동일하게 표시된다.

이 경우, 처음 3개의 피크(54', 54", 및 54'")는 매우 가까운 진폭을 갖는다. 따라서 두 연속 프레임 사이의 아주 작은 변화는 전역 최대치와 예상 피치 지연을 크게 변경할 수 있다.

본 발명에서 채택된 해결책은 이러한 불안정성 문제를 해결한다.

본 해결책은 프레임의 피크와 관련된 피치 지연 외에 이전 프레임의 피치 지연에 가까운 피치 지연을 선택한다.

예를 들어, 도 5c는 이전 프레임에 해당하고, 도 5d는 현재 프레임에 해당한다. 우리는 현재 프레임에서 제1 추정기(11)에 의해 주어진 바와 같이 40의 피치 지연이 아닌 20의 피치 지연(즉, 이전 프레임의 피치 지연(19"또는 T_prev))을 선택하는 것이 바람직한지 검증하고자 한다.

그렇게 하기 위해, 제2 추정은 이전 프레임의 피치 지연(T_prev - δ, T_prev + δ주위의 부분 구간(52) 주위의 자기 상관 함수를 최대화하는 제2 피치 지연(T₂)를 추정함으로써(예를 들어, 제2 추정기(12)에 의해) 수행된다. 도 5d의 경우,이 제2 피치 지연 T₂는 20일 것이다(제1 피치 지연은 40임). (심지어 T₂ = T_prev인 경우에도, 생성 규칙이 아니다. 일반적으로 T_prev - δ≤ T₂ ≤ T_prev + δ이다). 특히, 예에서, T₂를 추정하기 위해 자기 상관은 가중되지 않는다.

그러나 모든 경우에 이 제2 피치 지연 T₂를 선택하고 싶지는 않다. 일부 기준에 따라 제1 피치 지연 T₁ 또는 제2 피치 지연 T₂를 선택하려고 한다. 이 기준은 예를 들어 선택기(17)에 의해 측정된 정규화된 상관(NC)에 기초하며, 이는 일반적으로 어떤 특정 피치 지연에서 신호가 얼마나 주기적인지에 대한 양호한 측정으로 간주된다(0의 NC는 전혀 주기적이 아니며, 1의 NC는 완벽하게 주기적임을 의미한다).

그러면, 몇 가지 경우가 있다:

- 제2 추정치 T₂의 NC가 제1 추정치 T₁의 NC보다 높으면: 제2 추정치 T₂가 제1 추정치 T₁보다 낫다는 것을 확신할 수 있는데, 제2 추정치 T₂는 더 나은 NC를 가지며 안정적인 결정(이전 프레임의 피치와 현재 프레임의 피치가 매우 근접 함)을 생성하므로 안전하게 선택할 수 있기 때문이다.

- 제2 추정치 T₂의 NC가 제1 추정치의 NC보다 훨씬 낮으면: 이것은 이전 프레임의 피치(19")가 현재 프레임의 주기성과 일치하지 않고 신호가 불안정하고 피치가 변경되었음을 나타내므로, 이전 프레임의 피치(19")를 유지하고 안정적인 결정을 내리는 것은 의미가 없다. 이 경우, 제2 추정치 T₂는 무시되고 제1 추정치 T₁이 선택된다.

- 제2 추정치 T₂의 NC가 제1 추정치 T₁의 NC보다 약간 낮으면: 두 추정치 T₁과 T₂의 NC는 가깝고, 이 경우 NC가 약간 더 나빠도 안정적인 결정을 내리는 추정치(즉, 제2 추정치 T₂)를 선택하는 것이 좋다. 이 경우 파라미터 α(α < 1)가 사용된다: NC가 약간 더 낮더라도 제2 추정치 T₂를 선택할 수 있다. 이 파라미터 α의 튜닝은 선택을 제1 추정치 T₁ 또는 제2 추정치 T₂로 편향시킬 수 있게 한다: 값이 작을수록 두 번째 추정치가 더 자주 선택됨을 의미한다(= 결정이 더 안정적임). 0.85(또는 0.8과 0.9 사이의 값)는 좋은 트레이드 오프(trade-off)이다: 결정이 LTPF에 대해 충분히 안정적이도록 종종 제2 추정치 T₂를 충분히 선택한다.

제1 추정(제2 추정 및 선택)의 위에 제공된 추가 단계는 매우 낮은 복잡도를 갖는다. 따라서, 제안 발명은 복잡도가 낮다.

6. 인코딩/디코딩 시스템의 예

도 6은 인코딩/디코딩을 위한 동작과 관련된 블록 구성을 도시한다. 이 방식은 인코더(60a)(장치(10)를 포함할 수 있음) 및 디코더(60b)를 포함하는 시스템(60)을 도시한다. 인코더(60a)는 입력 정보 신호(61)(오디오 신호일 수 있고 및/또는 현재 프레임(13) 및 이전 프레임과 같은 프레임들 간에 분할될 수 있음)를 획득하고 비트스트림(63)을 준비한다. 디코더(60b)는 출력 신호(68)(예를 들어, 오디오 신호)를 생성하기 위해 비트스트림(63)(예를 들어, 무선으로, 예를 들어, 블루투스를 사용하여)을 획득한다.

인코더(60a)는 변환 코더(62)를 사용하여 정보 신호(61)의 주파수 도메인 표현(63a)(또는 그 처리된 버전)을 생성하여 이를 비트스트림(63)에서 디코더(60b)에 제공할 수 있다. 디코더(60b)는 출력 신호(64a)를 획득하기 위한 변환 디코더를 포함할 수 있다.

인코더(60a)는 검출 유닛(65)을 사용하여 디코더(60b)에서 LTPF를 수행하는 데 유용한 데이터를 생성할 수 있다. 이들 데이터는 피치 지연 추정치(예를 들어, 19) 및/또는 이득 정보를 포함할 수 있다. 이들 데이터는 제어 필드에서의 데이터(63b)로서 비트스트림(63)에서 인코딩될 수 있다. (피치 지연의 최종 추정치(19)를 포함할 수 있는) 데이터(63b)는 LTPF 코더(66)(일부 예에서, 데이터(63b)의 인코딩 여부를 결정할 수 있음)에 의해 준비될 수 있다. 이들 데이터는 출력 신호(68)를 획득하기 위해 변환 디코더(64)로부터의 출력 신호(64a)에 적용할 수 있는 LTPF 디코더(67)에 의해 사용될 수 있다.

7. 예를 들어 LTPF의 예

7.1 인코더에서의 파라미터(예를 들어, LTPF 파라미터)

LTPF 파라미터(또는 다른 유형의 파라미터) 산출의 예가 여기에 제공된다.

LTPF에 대한 정보를 준비하는 예는 다음 하위 섹션에서 제공된다.

7.2.1. 리샘플링

(선택적) 리샘플링 기술의 예가 여기에서 논의된다(다른 기술이 사용될 수 있다).

샘플링 레이트 f_s에서의 입력 신호는 12.8kHz의 고정 샘플링 레이트로 리샘플링될 수 있다. 리샘플링은 다음과 같이 공식화될 수 있는 업샘플링 + 저역 통과 필터링 + 다운샘플링 방식을 사용하여 수행된다:

트럭된(trucked) 값을 나타내면(아래 정수로 반올림), x(n)은 입력 신호이고, x_12.8(n)은 12.8kHz에서 리샘플링된 신호이고,

는 업샘플링 팩터이고, h_6.4는 다음에 의해 주어진 FIR 저역 통과 필터의 임펄스 응답이다:

tab_resamp_filter의 예는 다음 표에 제공된다:

7.2.2. 고역 통과 필터링

(선택적) 고역 통과 필터 기술의 예가 여기에서 논의된다(다른 기술이 사용될 수 있다).

리샘플링된 신호는 다음에 의해 전달 함수가 제공될 수 있는 2차 IIR 필터를 사용하여 고역 통과 필터링될 수 있다:

7.2.3. 피치 검출

피치 검출 기술의 예가 여기에서 논의된다(다른 기술이 사용될 수 있다).

신호 x_12.8(n)은 다음을 사용하여(선택적으로) 2의 팩터만큼 다운샘플링될 수 있다:

여기서

이다.

x_6.4(n)의 자기 상관은 다음과 같이 계산될 수 있다:

여기서 k_min = 17 및 k_max = 114는 제1 부분 구간을 정의하는 최소 및 최대 지연이다(k_min 및 k_max에 대한 다른 값이 제공될 수 있다).

자기 상관은 다음을 사용하여 가중될 수 있다:

여기서 w(k)는 다음과 같이 정의된다:

피치 지연 T₁의 제1 추정치(14)는 가중 자기 상관을 최대화하는 지연일 수 있다:

피치 지연 T₂의 제2 추정치(16)는 이전 프레임에서 추정된 피치 지연(19") 부근에서 가중되지 않은 자기 상관을 최대화하는 지연일 수 있다:

여기서

이고,

이고, T_prev는 이전 프레임에서 추정된 최종 피치 지연이다(따라서 선택은 이전에 선택된 피치 지연에 의해 조절된다).

현재 프레임(13)에서 피치 지연의 최종 추정치(19)는 다음에 의해 제공될 수 있다:

여기서 normcorr(x,L,T)는 지연 T에서 길이 L의 신호 x의 정규화된 상관이다:

각각의 정규화된 상관(23 또는 25)은 신호 제1 또는 제2 측정기(21 또는 22)에 의해 획득된 측정치들 중 적어도 하나일 수 있다.

7.2.4. LTPF 비트스트림

일부 예들에서, LTPF 비트스트림의 제1 비트는 비트스트림에서 피치 지연 파라미터의 존재를 시그널링한다. 이는 다음에 의해 획득된다:

(0.6 대신에, 예를 들어 0.4 내지 0.8, 또는 0.5 내지 0.7, 또는 0.55 내지 0.65와 같은 다른 임계치가 사용될 수 있다.)

pitch_present가 0이면, 더 이상 비트가 인코딩되지 않으므로 1 비트의 LTPF 비트스트림이 발생한다.

pitch_present가 1이면, 2개의 파라미터가 더 인코딩되고, 하나의 피치 지연 파라미터는 9 비트로 인코딩되고, 1 비트는 LTPF의 활성화를 시그널링한다. 이 경우, LTPF 비트스트림은 11 비트로 구성된다.

7.2.5. LTPF 피치 지연 파라미터

LTPF 피치 지연 파라미터를 획득하기 위한 예가 여기에서 논의된다(다른 기술이 사용될 수 있다).

LTPF 피치 지연 파라미터의 정수 부분은 다음에 의해 주어질 수 있다:

여기서

이고,

이며,

이다.

LTPF 피치 지연의 분수 부분은 다음에 의해 주어질 수 있다:

여기서

이고, h₄는 다음에 의해 주어진 FIR 저역 통과 필터의 임펄스 응답이다:

tab_ltpf_interp_R은 예를 들어 다음과 같을 수 있다:

pitch_fr < 0이면, pitch_int 및 pitch_fr은 다음에 따라 수정된다:

마지막으로, 피치 지연 파라미터 인덱스는 다음에 의해 주어진다:

7.2.6 LTPF 활성화 비트

정규화된 상관 관계는 먼저 다음과 같이 계산된다:

여기서

이고, h_i는 다음에 의해 주어진 FIR 저역 통과 필터의 임펄스 응답이다:

여기서 tab_ltpf_interp_x12k8은 다음과 같이 주어진다:

LTPF 활성화 비트는 다음에 따라 설정된다:

여기서 mem_ltpf_active는 이전 프레임에서 ltpf_active의 값이다(이전 프레임에서 pitch_present = 0이면 0임), mem_nc는 이전 프레임에서 nc의 값이고(이전 프레임에서 pitch_present = 0이면 0임), pitch = pitch_int + pitch_fr/4 및 mem_pitch는 이전 프레임의 피치 값이다(이전 프레임에서 pitch_present = 0이면 0임).

7.3 디코더에서의 LTPF

예를 들어, 수정 이산 코사인 변환(Modified Discrete Cosine Transformation, MDCT) 합성, 수정 이산 사인 변환(Modified Discrete Sine Transformation, MDST) 합성, 또는 다른 변환에 기반한 합성 후의 주파수 도메인(FD)의 디코딩된 신호는 파라미터는 LTPF 비트스트림 데이터 "pitch_index" 및 "ltpf_active"에 의존할 수 있는 IIR 필터를 사용하여 시간 도메인에서 사후 필터링될 수 있다. 파라미터가 한 프레임에서 다음 프레임으로 변경될 때 불연속을 피하기 위해, 현재 프레임의 1/4에 전이 메커니즘이 적용될 수 있다.

예에서, LTPF IIR 필터는 다음을 사용하여 구현될 수 있다:

여기서

은 필터 입력 신호(즉, MDCT 합성 후 디코딩된 신호)이고,

은 필터 출력 신호이다.

LTPF 피치 지연의 정수 부분 p_int 및 분수 부분 p_fr은 다음과 같이 계산될 수 있다: 먼저, 다음을 사용하여 12.8kHz의 피치 지연을 복구한다:

그 후, 피치 지연은 출력 샘플링 레이트 f_s로 스케일링되고 다음을 사용하여 정수 및 분수 부분으로 컨버팅될 수 있다:

여기서 f_s는 샘플링 레이트이다.

필터 계수 c_num(k) 및 c_den(k,p_fr)은 다음과 같이 계산될 수 있다:

여기서

이고, gain_ltpf 및 gain_ind는 다음에 따라 획득될 수 있다:

그리고 tab_ltpf_num_fs [gain_ind][k] 및 tab_ltpf_den_fs"[p_fr][k] 테이블이 미리 결정되어 있다.

tab_ltpf_num_fs [gain_ind"[k]의 예가 여기에 제공된다("fs"대신 샘플링 레이트가 표시된다):

tab_ltpf_den_fs[p_fr][k]의 예가 여기에 제공된다("fs"대신 샘플링 레이트가 표시된다):

전이 처리와 관련하여, 5가지 경우가 고려된다.

제1 경우: ltpf_active = 0이고, mem_ltpf_active = 0

제2 경우: ltpf_active = 1이고, mem_ ltpf_active = 0

제3 경우: ltpf_active = 0이고, mem_ ltpf_active = 1

여기서

, 및

은 이전 프레임에서 계산된 필터 파라미터이다.

제4 경우: ltpf_active = 1이고, mem_ltpf_active = 1이고,

이고,

제5 경우: ltpf_active = 1이고, mem_ltpf_active = 1이고,

여기서 N_f는 한 프레임의 샘플 수이다.

7.4 다른 이점

이해될 수 있는 바와 같이, 상기 예에 따른 해결책은 디코더에 투명하다. 예를 들어, 제1 추정치 또는 제2 추정치가 선택되었음을 디코더에 시그널링할 필요가 없다.

따라서, 비트스트림(63)에는 증가된 페이로드가 없다.

또한, 인코더에서 수행된 새로운 처리에 적응하기 위해 디코더를 수정할 필요가 없다. 디코더는 본 발명이 구현되었음을 알 필요는 없다. 따라서, 본 발명은 레거시 시스템과의 호환성을 증가시킬 수 있다.

8. 패킷 손실 은닉

상기 장치(10, 60a, 또는 110)에 의해 획득된 피치 지연(T_best, 19)는 패킷 손실 은닉(packet loss concealment, PLC)(오류 은닉으로도 알려짐)을 구현하기 위해 디코더(예를 들어, 60b)에서 사용될 수 있다. PLC은 인코더에서 디코더로 전송하는 동안 손실되거나 손상된 패킷을 은닉하기 위해 오디오 코덱에서 사용된다. 종래 기술에서, PLC는 디코더 측에서 수행될 수 있고 변환 도메인 또는 시간 도메인에서 디코딩된 신호를 외삽할 수 있다.

피치 지연은 피치 기반 PLC에서 사용되는 주요 파라미터일 수 있다. 이 파라미터는 인코더 측에서 추정될 수 있고 비트스트림으로 인코딩될 수 있다. 이 경우, 마지막 양호한 프레임의 피치 지연은 현재 손실 프레임을 은닉하기 위해 사용된다.

손상된 프레임은 올바른 가청 출력을 제공하지 않으므로 폐기해야 한다.

디코더에서 각각의 디코딩된 프레임에 대해, 그 유효성이 검증될 수 있다. 예를 들어, 각각의 프레임은 미리 결정된 알고리즘에 의해 제공된 미리 결정된 동작들을 수행함으로써 검증되는 순환 중복 코드(cyclical redundancy code, CRC)를 운반하는 필드를 가질 수 있다. 산출된 결과가 CRC 필드의 값에 대응하는지를 검증하기 위해 절차가 반복될 수 있다. 프레임이 제대로 디코딩되지 않은 경우(예를 들어, 전송 간섭을 고려하여), 일부 오류가 프레임에 영향을 미친 것으로 가정한다. 따라서, 검증이 부정확한 디코딩의 결과를 제공하는 경우, 프레임은 적절하게 디코딩되지 않은 (유효하지 않은, 손상된) 상태로 유지된다.

프레임이 제대로 디코딩되지 않은 것으로 인식되면 은닉 전략을 사용하여 가청 출력을 제공할 수 있다: 그렇지 않으면 성가신 가청 홀과 같은 것이 들릴 수 있다. 따라서, 적절하게 디코딩되지 않은 프레임에 의해 개방된 "갭을 채우는" 어떤 형태의 프레임을 찾아야 한다. 프레임 손실 은닉 절차의 목적은 디코딩을 위해 이용 불가능하거나 손상된 프레임의 효과를 은닉하는 것이다.

8.1 은닉 전략

프레임 손실 은닉 절차는 다양한 신호 유형에 대한 은닉 방법을 포함할 수 있다. 가장 적합한 방법을 선택하면 프레임 손실이 발생하기 쉬운 오류 발생시 최상의 코덱 성능을 획득할 수 있다. 패킷 손실 은닉 방법 중 하나는 예를 들어 TCX 시간 도메인 은닉일 수 있다.

8.2 TCX 시간 도메인 은닉

TCX 시간 도메인 은닉 방법은 시간 도메인에서 동작하는 피치 기반 PLC 기술이다. 지배적인 고조파 구조의 신호에 가장 적합하다. 절차의 예는 다음과 같다: 마지막 디코딩된 프레임의 합성된 신호는 섹션 8.2.1에 설명된 바와 같이 LP 필터로 역 필터링되어 섹션 8.2.2에 설명된 바와 같은 주기적 신호를 획득한다. 랜덤 신호는 섹션 8.2.3에서 대략 균일한 분포를 갖는 랜덤 생성기에 의해 생성된다. 섹션 8.2.4에 설명된 감쇠 계수로 적응적으로 페이드 아웃되고 최종적으로 LP 필터로 필터링되어 합성된 은닉된 시간 신호를 획득하기 위해, 섹션 8.2.4에 설명된 바와 같이 2개의 여기 신호가 합산되어 전체 여기 신호를 형성한다. LTPF가 마지막 양호한 프레임에서 사용된 경우, LTPF는섹션 8.3에 설명된대로 합성된 은닉된 시간 신호에도 적용될 수 있다. 프레임 손실 후 첫 번째 양호한 프레임과 적절히 중첩하려면 시간 도메인 앨리어스 제거(alias cancelation) 신호가 섹션 8.2.5에서 생성된다.

8.2.1 LPC 파라미터 산출

TCX 시간 도메인 은닉 방법이 여기 도메인(excitation domain)에서 동작하고 있다. 자기 상관 함수는 80개의 등거리 주파수 도메인 대역들에서 산출될 수 있다. 고정된 사전 강조 계수 μ로 에너지가 사전 강조된다.

자기 상관 함수는 역 균일하게 누적된 DFT를 사용하여 시간 도메인으로 변환되기 전에 다음의 윈도우를 사용하여 지연 윈도윙된다:

마지막으로 레빈슨 더빈(Levinson Durbin) 연산을 사용하여 은닉된 프레임에 대한 LP 필터 a_c(k)를 획득할 수 있다. 아래에 예가 제공된다:

LP 필터는 양호한 프레임 이후의 제1 손실 프레임에서만 산출될 수 있고 후속하여 손실 프레임에 남아 있다.

8.2.2 여기의 주기적 부분의 구성

마지막

디코딩된 시간 샘플은 신호 x_pre(k)를 획득하기 위해 - 여기서 T_c는 pitch_fr> 0 인 경우 피치 지연 값 pitch_int 또는 pitch_int + 1이다 - 먼저 다음 필터를 사용하여 섹션 8.2.1의 사전 강조 요소로 사전 강조된다:

pitch_int 및 pitch_fr 값은 비트스트림에서 전송되는 피치 지연 값이다.

사전 강조된 신호 x_pre(k)는 산출된 역 LP 필터로 추가로 필터링되어 이전 여기 신호

를 획득한다. 현재 손실된 프레임에 대한 여기 신호

를 구성하기 위해

는 다음과 같이 T_c를 사용하여 반복적으로 복사된다:

여기서 E는

의 마지막 샘플에 해당한다. 안정성 계수 θ가 1보다 낮으면,

의 제1 피치 사이클은 아래 표에 설명된 11-탭 선형 위상 FIR(finite impulse response, 유한 임펄스 응답) 필터로 먼저 저역 통과 필터링된다.

피치 이득

는 다음과 같이 산출될 수 있다:

pitch_fr = 0이면,

이다. 그렇지 않으면, 피치의 제2 이득

는 다음과 같이 산출될 수 있다:

그리고

이다.

이면, 추가 처리를 위해 T_c가 1씩 줄어든다.

마지막으로 g_p는 0≤g_p≤1에 의해 경계가 정해진다.

형성된 주기 여기 exc_p(k)는 1부터 시작하여 감쇠 계수 α로 끝나는 프레임 전체에 걸쳐 샘플마다 감쇠되어

를 획득한다. 피치 이득은 양호한 프레임 이후 첫 번째 손실된 프레임에서만 산출되며 추가 연속 프레임 손실을 위해 α로 설정된다.

8.2.3 여기의 랜덤 부분의 구성

여기의 랜덤 부분은 다음과 같이 대략 균일한 분포를 갖는 랜덤 생성기로 생성될 수 있다:

여기서

은 이 방법으로 은닉된 제1 프레임에 대해 24607로 초기화되고 extract()는 값의 16 LSB를 추출한다. 추가 프레임들에 대해,

는 저장되고 다음

로 사용된다.

노이즈를 더 높은 주파수로 이동시키기 위해, 여기 신호는 아래 표에 설명된 11-탭 선형 위상 FIR 필터로 고역 통과 필터링되어

를 획득한다.

감쇠 계수 α에 따라 페이딩 속도로 노이즈가 전체 대역 노이즈로 페이드되도록 하기 위해, 여기의 랜덤 부분

전체 대역

와 고역 통과 필터링된 버전

사이의 선형 보간을 통해 다음과 같이 구성된다:

여기서 양호한 프레임 후 첫 번째 손실된 프레임의 경우 β=1이고, 제2 및 추가 연속 프레임 손실의 경우

이며, 여기서 β_-1은 이전의 은닉된 프레임의 β이다.

노이즈 레벨을 조정하기 위해 노이즈 이득

는 다음과 같이 산출된다:

섹션 8.2.2 이후에 T_c = pitch_int이면,

이다. 그렇지 않으면, 제2 노이즈 이득

는 위의 방정식과 같이 산출되지만, T_c는 pitch_int이다. 다음으로, g_n =

이다.

추가 처리를 위해 g_n을 먼저 정규화한 다음

를 곱하여

을 획득한다.

형성된 랜덤 여기

는

로 시작하고

로 끝나는 프레임 전체에 걸쳐 첫 번째 샘플에서 샘플 5까지

로 균일하게 감쇠되고 샘플에 따라 샘플별로 추출되어

를 획득한다. 노이즈 이득 g_n은 양호한 프레임 이후 첫 번째 손실된 프레임에서만 계산되며 추가 연속 프레임 손실을 위해

로 설정된다.

8.2.4 전체 여기, 합성, 및 사후 처리의 구성

랜덤 여기

는 주기 여기

에 더해 총 여기 신호 exc_t(k)를 형성한다. 은닉된 프레임에 대한 최종 합성 신호는 섹션 8.2.1의 LP 필터로 전체 여기를 필터링하고 강조해제 필터로 사후 처리하여 획득한다.

8.2.5 시간 도메인 앨리어스 제거

다음 프레임이 양호한 프레임인 경우에 적절한 중첩-가산을 획득하기 위해 시간 도메인 앨리어스 제거 부분

가 생성될 수 있다. 이를 위해, k = 0…2N-Z에 대한 신호 x(k)를 획득하기 위해 전술한 바와 동일하게 N-Z 추가 샘플이 생성된다. 여기에서 시간 도메인 앨리어스 제거 부분은 다음 단계에 의해 생성된다:

합성된 시간 도메인 버퍼

를 제로 파일링하는 단계

를 MDCT 윈도우

로 윈도윙하는 단계

2N부터 N까지 재성형하는 단계

N부터 2N까지 재성형하는 단계

를 필립된 MDCT(수정 이산 코사인 변환)(또는 다른 예에서, MDST(수정 이산 사인 변환) 윈도우

로 윈도윙하는 단계

8.2.6 다수의 프레임 손실의 처리

구성된 신호는 0으로 페이드 아웃된다(fade out). 페이드 아웃 속도는 이전의 감쇠 계수 α_-1, 마지막으로 정확하게 수신된 프레임, 연속적으로 지워진 프레임 수, nbLostCmpt 및 안정성 θ에서 산출된 피치 이득 g_p에 의존하는 감쇠 계수 α에 의해 제어된다. 감쇠 계수 α를 계산하는 데 다음 절차를 사용할 수 있다:

계수 θ(마지막 2 개의 인접한 스케일 팩터 벡터

및

의 안정성)는 예를 들어 다음과 같이 획득할 수 있다:

여기서

및

는 마지막 두 인접 프레임의 스케일 팩터 벡터이다. 계수 θ는 0≤θ≤1에 의해 제한되며, 여기서 더 큰 θ값은 더 안정적인 신호에 해당한다. 이것은 에너지 및 스펙트럼 포락선 변동을 제한한다. 2개의 인접한 스케일 팩터 벡터가 존재하지 않으면 ,팩터 θ는 0.8로 설정된다.

빠른 고 에너지 증가를 방지하기 위해 스펙트럼은 저역 통과 필터링되며, 여기서 X_s(0)= X_s(0)0.2이고 X_s(1)=X_s(1)0.5이다.

9. 피치 지연 정보가 동일한 LTPF 및 PLC

도 9는 디코더(60b)를 동작시키기 위해 사용될 수 있는 방법(100')의 일반적인 예를 도시한다. 단계 S101'에서, 인코딩된 버전의 신호가 디코딩될 수 있다. 예를 들어, 프레임은 (예를 들어, 블루투스 연결을 통해) 수신되고/되거나 저장 유닛으로부터 획득될 수 있다. 피치 지연 T_best(상기 논의된 바와 같이 T1과 T2 사이에서 선택됨)는 PLC와 LTPF 모두에 사용될 수 있다.

단계 S102'에서, 프레임의 유효성이 검사된다(예를 들어 CRC, 패리티 등). 프레임의 무효가 확인되면 은닉이 수행된다(아래 참조).

그렇지 않으면, 프레임이 유효하게 유지되면, 단계 S103'에서 피치 정보가 프레임에 인코딩되는지 여부가 검사된다. 일부 예들에서, 피치 정보는 고조파가 특정 임계치(예를 들어, LTPF 및/또는 PLC를 수행하기에 충분히 높은 고조파를 나타낼 수 있음)을 초과하는 것으로 인지된 경우에만 인코딩된다.

S103'에서 피치 정보가 실제로 인코딩된 것으로 확인되면, 피치 정보는 단계 S104'에서 디코딩되어 저장된다. 그렇지 않으면, 사이클이 종료되고 S101'에서 새로운 프레임이 디코딩될 수 있다.

후속하여, 단계 S105'에서 LTPF가 활성화되어 있는지 검사된다. LTPF가 가능하다는 것이 확인되면, 단계 S106에서 LTPF가 수행된다. 그렇지 않으면, LTPF를 건너 뛰고; 사이클은 끝나고; 새로운 프레임은 S101'에서 디코딩될 수 있다.

은닉과 관련하여, 후자는 단계들로 세분될 수 있다. 단계 S107'에서, 이전 프레임의 피치 정보(또는 이전 프레임들 중 하나의 피치 정보)가 메모리에 저장되어 있는지(즉, 폐기 중인지) 확인된다.

검색된 피치 정보가 저장된 것으로 확인되면, 단계 S108에서 에러 은닉이 수행될 수 있다. 신호 스크램블링 및/또는 TCX 시간 도메인 은닉 및/또는 위상 ECU를 이용한 MDCT(또는 MDST) 프레임 해상도 반복이 수행될 수 있다.

그렇지 않으면, S107'에서 새로운 피치 정보가 저장되지 않은 것으로 확인되면(예를 들어, 디코더가 피치 지연을 전송하지 않았기 때문에), 단계(S109')에서 인코더에 의해 제공된 피치 정보의 사용을 암시하지 않고 공지된 다른 은닉 기술이 사용될 수 있다. 이들 기술 중 일부는 디코더에서 피치 정보 및/또는 다른 고조파 정보를 추정하는 것에 기초할 수 있다. 일부 예에서, 이 경우 은닉 기술이 수행되지 않을 수 있다. 은닉을 수행한 후, 사이클이 종료되고 S101'에서 새로운 프레임이 디코딩 될 수 있다.

PLC에 의해 사용된 피치 지연은 위에서 논의된 바와 같이 추정 T₁ 및 T₂ 사이의 선택에 기초하여 장치(10 및/또는 60b)에 의해 준비된 값(19, t_best)이다.

10. 다른 예

도 7은 장치(10 및/또는 60a)가 상기 방법의 적어도 일부 단계를 수행하도록 구현할 수 있는 장치(110)를 도시한다. 장치(110)는 프로세서(111), 및 프로세서(111)에 의해 실행될 때 프로세서(111)가 (예를 들어, 제1 추정기(11)를 구현하는 것과 같은) 제1 추정(112a), (예를 들어, 제2 추정기(12)를 구현하는 것과 같은) 제2 추정(112b), 및/또는(예컨대, 선택기(18)를 구현하는 것과 같은) 선택(112c)을 수행하도록(예를 들어, 구현하는 것과 같은) 명령(예를 들어, 프로그램)을 저장하는 비 일시적 메모리 유닛(112)을 포함할 수 있다. 장치(110)는 입력 정보 신호(예를 들어, 오디오 신호)를 획득할 수 있는 입력 유닛(116)을 포함할 수 있다. 장치는 예를 들어 저장 공간(128)에 비트스트림을 저장할 수 있다.

도 8은 예를 들어 디코더(60b)를 구현 및/또는 LTPF 필터링을 수행할 수 있는 장치(120)를 도시한다. 장치(120)는 프로세서(121) 및 프로세서(121)에 의해 실행될 때 프로세서(121)가 예를 들어, 인코더로부터 획득된 파라미터에 기초하여 특히 LTPF 필터링 동작을 수행하게 할 수 있는 명령어(122a)(예를 들어, 프로그램)를 저장하는 비 일시적 메모리 유닛(122)을 포함할 수 있다. 장치(120)는 정보 신호(예를 들어, 오디오 신호)의 디코딩된 표현을 획득할 수 있는 입력 유닛(126)을 포함할 수 있다. 따라서, 프로세서(121)는 정보 신호의 디코딩된 표현을 획득하기 위한 프로세스를 수행할 수 있다. 이 디코딩된 표현은 출력 유닛(127)을 사용하여 외부 유닛에 제공될 수 있다. 출력 유닛(127)은 예를 들어(예를 들어, 블루투스와 같은 무선 통신을 사용하여) 외부 장치와 통신하기 위한 통신 유닛 및/또는 외부 저장 공간을 포함할 수 있다. 프로세서(121)는 오디오 신호의 디코딩된 표현을 로컬 저장 공간(128)에 저장할 수 있다.

예에서, 시스템(110 및 120)은 동일한 디바이스일 수 있다.

특정 구현 요구 사항에 따라 예는 하드웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, 디지털 다기능 디스크(Digital Versatile Disc, DVD), 블루 레이, 컴팩트 디스크(Compact Disc, CD), 읽기 전용 메모리(Read-only Memory, ROM), 프로그래밍 가능한 읽기 전용 메모리(Programmable Read-only Memory, PROM), 소거 가능하고 프로그래밍 가능한 읽기 전용 메모리(Erasable and Programmable Read-only Memory, EPROM), 전기적으로 소거 가능하고 프로그래밍 가능한 읽기 전용 메모리(Electrically Erasable Programmable Read-Only Memory, EEPROM), 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.

일반적으로, 예는 프로그램 명령어가 있는 컴퓨터 프로그램 제품으로 구현될 수 있으며, 프로그램 명령어는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법 중 하나를 수행하기 위해 동작한다. 프로그램 명령어는 예를 들어 기계 판독 가능 매체에 저장될 수 있다.

다른 예는 기계 판독 가능 캐리어 상에 저장된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다. 다시 말해, 방법의 예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우, 본원에 설명된 방법 중 하나를 수행하기 위한 프로그램 명령을 갖는 컴퓨터 프로그램이다.

따라서, 방법의 다른 예는 그 위에 기록된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어 매체, 디지털 저장 매체, 또는 기록 매체는 무형의 및 일시적인 신호보다는 유형의 및/또는 비일시적이다.

다른 예는 처리 유닛, 예를 들어 컴퓨터, 또는 본 명세서에 설명된 방법 중 하나를 수행하는 프로그램 가능 논리 디바이스를 포함한다.

다른 예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

다른 예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하는 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.

일부 예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본원에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 예에서, 필드 프로그램 가능 게이트 어레이는 본원에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 임의의 적절한 하드웨어 장치에 의해 수행될 수 있다.

전술한 예는 전술한 원리를 설명하기 위한 것이다. 본 명세서에 설명된 배열 및 세부 사항의 수정 및 변형이 명백할 것으로 이해된다. 따라서, 곧 있을 청구범위의 범위에 의해서 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.

Claims

복수의 프레임들을 포함하는 정보 신호를 인코딩하기 위한 장치(10, 60a, 110)에 있어서,
제1 추정치(14, T₁)를 획득하도록 구성된 제1 추정기(11) - 상기 제1 추정치는 현재 프레임(13)에 대한 피치 지연의 추정치임 -;
제2 추정치(16, T₂)을 획득하도록 구성된 제2 추정기(12) - 상기 제2 추정치는 상기 현재 프레임(13)에 대한 피치 지연의 또 다른 추정치임 -; 및
제1 상관 측정치 및 제2 상관 측정치(23, 25)에 기초하여 상기 제1 추정치(14, T₁)와 상기 제2 추정치(16, T₂) 사이에서 선택을 수행함으로써 선택된 값(19, T_best)을 선택하도록(S103) 구성된 선택기(17);를 포함하고,
상기 제2 추정기(12)는 상기 현재 프레임(13)에 대한 상기 제2 추정치(16, T₂)를 획득하기 위해 이전 프레임에서 선택된 피치 지연(51, 19")에 의해 조절되고,
상기 선택기(17)는
상기 현재 프레임(13)과 관련되고 상기 제1 추정치(14, T₁)에 대응하는 지연에서 획득된 제1 상관 측정치(23)의 다운스케일링된 버전(24)과
상기 현재 프레임(13)과 관련되고 상기 제2 추정치(16, T₂)에 대응하는 지연에서 획득된 제2 상관 측정치(25) 사이에 비교를 수행하여,
상기 제2 상관 측정치(25)가 상기 제1 상관 측정치(23)의 다운스케일링된 버전(24)보다 작은 경우 상기 제1 추정치(14, T₁)를 선택하고/하거나,
상기 제2 상관 측정치(25)가 상기 제1 상관 측정치(23)의 다운스케일링된 버전(24)보다 클 경우 상기 제2 추정치(16, T₂)를 선택하도록 구성되고,
상기 제1 상관 측정치 및 상기 제2 상관 측정치(23, 25) 중 적어도 하나는 자기 상관 측정치 및/또는 정규화된 자기 상관 측정치인 것을 특징으로 하는 복수의 프레임들을 포함하는 정보 신호를 인코딩하기 위한 장치.
정보 신호를 복수의 프레임들을 포함하는 비트스트림(63)으로 인코딩하기 위한 장치(60a)에 있어서,
검출 유닛(10, 65) - 상기 검출 유닛은
제1 추정치(14, T₁)를 획득하도록 구성된 제1 추정기(11) - 상기 제1 추정치는 현재 프레임(13)에 대한 피치 지연의 추정치임 -;
제2 추정치(16, T₂)를 획득하도록 구성된 제2 추정기(12) - 상기 제2 추정치는 상기 현재 프레임(13)에 대한 피치 지연의 또 다른 추정치이고, 상기 제2 추정기(12)는 상기 현재 프레임(13)에 대한 상기 제2 추정치(16, T₂)를 획득하기 위해 이전 프레임에서 선택된 피치 지연(51, 19")에 의해 조절됨 -; 및
적어도 하나의 상관 측정치(23, 25)에 기초하여 상기 제1 추정치(14, T₁)와 상기 제2 추정치(16, T₂) 사이에서 선택을 수행함으로써 선택된 값(19, T_best)을 택하도록(S103) 구성된 선택기(17) - 상기 선택기는
상기 현재 프레임(13)과 관련되고 상기 제2 추정치(16, T₂)에 대응하는 지연에서 획득된 제2 상관 측정치(25)와
피치 지연 선택 임계치(24) 사이에 비교를 수행하여,
상기 제2 상관 측정치(25)가 상기 피치 지연 선택 임계치(24)보다 클 경우 상기 제2 추정치(16, T₂)를 선택하고/하거나(S103);
상기 제2 상관 측정치(25)가 상기 피치 지연 선택 임계치(24)보다 낮은 경우 상기 제1 추정치(14, T₁)를 선택하도록(S103) 구성됨 -;를 포함함 -; 및
디코더(60b)에서 LTPF를 수행하는 데 유용한 데이터를 인코딩하도록 구성된 장기 사후 필터링(long-term post filtering, LTPF) 도구(66) - 상기 LTPF를 수행하는데 유용한 데이터는 상기 선택된 값(19, T_best)을 포함함 -;을 포함하는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제2항에 있어서,
상기 비교는
상기 피치 지연 선택 임계치(24)를 나타내는, 상기 현재 프레임(13)과 관련되고 상기 제1 추정치(14, T₁)에 대응하는 지연에서 획득된 제1 상관 측정치(23);와
상기 제2 상관 측정치(25); 사이에서 이루어지는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제2항 또는 제3항에 있어서,
상기 비교는
상기 피치 지연 선택 임계치(24)를 나타내는, 상기 현재 프레임(13)과 관련되고 상기 제1 추정치(14, T₁)에 대응하는 지연에서 획득된 제1 상관 측정치(23)의 다운스케일링된 버전(24);과
상기 제2 상관 측정치(25); 사이에서 이루어지는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제2항 내지 제4항 중 어느 한 항에 있어서,
상기 제1 상관 측정치 및 상기 제2 상관 측정치(23, 25) 중 적어도 하나는 자기 상관 측정치 및/또는 정규화된 자기 상관 측정치인 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제2항 내지 제5항 중 어느 한 항에 있어서,
상기 선택된 값(19, T_best)이 미리 결정된 임계치 미만인 경우에 상기 선택된 값(19, T_best)을 인코딩하는 것을 피하기 위해, 상기 선택된 값(19, T_best)을 미리 결정된 LTPF 임계치와 비교하도록 구성되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 제2 추정기(12)는 상기 이전 프레임에 대해 선택된 피치 지연(51, 19")을 포함하는 제2 부분 구간(52)에서 제2 상관 함수를 최대화하는 지연을 검색함으로써 상기 제2 추정치(16)를 획득하도록 구성되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제7항에 있어서,
상기 제2 부분 구간(52)은 상기 이전 프레임에 대해 선택된 피치 지연(51, 19")으로부터 미리 정의된 지연 수 임계치보다 작은 거리 내의 지연(T)을 포함하는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제7항 또는 제8항에 있어서,
상기 제2 추정기(12)는 제2 상관 함수 값들 중 최대 값을 검색하여 상기 제2 추정치(16)를 상기 제2 상관 함수 값들 중 최대 값과 관련된 지연(T₂)에 관련시키도록 구성되는 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 제1 추정기(12)는 상기 현재 프레임(13)과 관련된 제1 상관 함수를 최대화하는 지연(T₁)으로서 상기 제1 추정치(14)를 획득하도록 구성되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제10항에 있어서,
상기 제1 상관 함수는 제1 부분 구간에서의 지연들로 제한되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제11항에 있어서,
상기 제1 부분 구간은 상기 제2 부분 구간(52)보다 많은 수의 지연들을 포함하고/하거나, 상기 제2 부분 구간(52)에서의 지연들 중 적어도 일부는 상기 제1 부분 구간에 포함되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 제1 추정기(11)는 상기 제1 상관 함수를 최대화하는 지연(T₁)을 검색하기 전에 단조 감소하는 가중치 함수를 사용하여 제1 상관 함수의 상관 측정치 값들을 가중시키도록 구성되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제7 내지 제13항 중 어느 한 항에 있어서,
상기 제2 상관 함수 및 상기 제1 상관 함수 중 적어도 하나는 자기 상관 함수 및/또는 정규화된 자기 상관 함수인 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제14항 중 어느 한 항에 있어서,
상기 제1 추정기(11)는 다음의 연산들 중 적어도 일부를 수행함으로써 상기 제1 추정치(T₁)를 획득하도록 구성되며:

w(k)는 가중 함수이고, k_min 및 k_max는 최소 지연 및 최대 지연과 관련되고, R은 상기 정보 신호 또는 그것의 처리된 버전에 기초하여 추정된 자기 상관 측정치 값이고, N은 프레임 길이인 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제15항 중 어느 한 항에 있어서,
상기 제2 추정기(12)는

을 수행함으로써 상기 제2 추정치(T₂)를 획득하도록 구성되며,

이고,
이며, T_prev은 상기 이전 프레임에서 선택된 추정치이고, δ는 T_prev로부터의 거리이며, k_min 및 k_max는 최소 지연 및 최대 지연과 관련되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제16항 중 어느 한 항에 있어서,
상기 선택기(17)는

의 면에서 피치 지연 추정치 T_curr의 선택을 수행하도록 구성되며,
T₁은 상기 제1 추정치이고, T₂는 상기 제2 추정치이며, x는 상기 정보 신호의 값 또는 그것의 처리된 버전이고, normcorr(x,N,T)는 지연 T에서 길이 N의 신호 x의 정규화된 상관 측정치이고, α는 다운스케일링 계수인 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제17항 중 어느 한 항에 있어서,
상기 선택기(17)의 다운스트림에서, 디코더 장치(60b)에서 장기 사후 필터(67)를 제어하기 위한 장기 사후 필터링(long term postfiltering, LTPF) 도구(66)를 더 포함하는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제18항 중 어느 한 항에 있어서,
상기 정보 신호는 오디오 신호인 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제19항 중 어느 한 항에 있어서,
가중 함수까지 동일한 상관 함수를 사용하여 상기 제1 상관 측정치 및 상기 제2 상관 측정치를 획득하도록 구성되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제20항 중 어느 한 항에 있어서,
가중 함수까지의 상기 제1 추정치의 정규화된 버전으로서 상기 제1 상관 측정치를 획득하도록 구성되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제21항 중 어느 한 항에 있어서,
상기 제2 추정치의 정규화된 버전으로서 상기 제2 상관 측정치를 획득하도록 구성되는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
제1항 내지 제22항 중 어느 한 항에 있어서,
상기 정보 신호(61) 또는 그것의 처리된 버전의 표현(63a)을 생성하도록 구성된 변환 코더(62)를 더 포함하는 것을 특징으로 하는 정보 신호를 복수의 프레임들을 포함하는 비트스트림으로 인코딩하기 위한 장치.
인코더 측(10, 60a) 및 디코더 측(60b)을 포함하는 시스템(60)에 있어서,
상기 인코더 측은 제1항 내지 제23항 중 어느 한 항에 따른 장치를 포함하고, 상기 디코더 측은 선택기(17)에 의해 선택된 피치 지연 추정치에 기초하여 제어되는 장기 사후 필터링 도구(67)를 포함하는 것을 특징으로 하는 인코더 측 및 디코더 측을 포함하는 시스템.
프레임들로 분할된 신호에 대한 피치 지연을 결정하는 방법(100)에 있어서,
현재 프레임에 대한 제1 추정을 수행하는 단계(S101);
상기 현재 프레임에 대한 제2 추정을 수행하는 단계(S102); 및
상관 측정치들에 기초하여 상기 제1 추정에서 획득된 제1 추정치(14, T₁)와 상기 제2 추정에서 획득된 제2 추정치(16, T₂) 사이에서 선택하는 단계(S103);를 포함하고,
상기 제2 추정을 수행하는 단계는 이전 프레임에서 수행된 선택하는 단계의 결과에 기초하여 획득되고,
상기 선택하는 것은
상기 현재 프레임(13)과 관련되고 상기 제1 추정치(14, T₁)에 대응하는 지연에서 획득된 제1 상관 측정치(23)의 다운스케일링된 버전(24)과
상기 현재 프레임(13)과 관련되고 상기 제2 추정치(16, T₂)에 대응하는 지연에서 획득된 제2 상관 측정치(25) 사이에 비교를 수행하여,
상기 제2 상관 측정치(25)가 상기 제1 상관 측정치(23)의 다운스케일링된 버전보다 작은 경우 상기 제1 추정치(14, T₁)를 선택하고/하거나, 상기 제2 상관 측정치(25)가 상기 제1 상관 측정치(23)의 다운스케일링된 버전보다 큰 경우 상기 제2 추정치(16, T₂)를 선택하는 것을 포함하고,
상기 제1 상관 측정치 및 상기 제2 상관 측정치(23, 25) 중 적어도 하나는 자기 상관 측정치 및/또는 정규화된 자기 상관 측정치인 것을 특징으로 하는 프레임들로 분할된 신호에 대한 피치 지연을 결정하는 방법.
제25항에 있어서,
장기 사후 필터링(long term postfiltering, LTPF)을 위해 선택된 지연을 사용하는 단계를 더 포함하는 것을 특징으로 하는 프레임들로 분할된 신호에 대한 피치 지연을 결정하는 방법.
프레임들로 분할된 신호에 대한 비트스트림을 인코딩하는 방법(100)에 있어서,
현재 프레임에 대한 제1 추정을 수행하는 단계(S101);
상기 현재 프레임에 대한 제2 추정을 수행하는 단계(S102); 및
적어도 하나의 상관 측정치에 기초하여 상기 제1 추정에서 획득된 제1 추정치(14, T₁)와 상기 제2 추정에서 획득된 제2 추정치(16, T₂) 사이에서 선택하는 단계(S103);를 포함하며,
상기 제2 추정을 수행하는 단계는 이전 프레임에서 수행된 선택하는 단계의 결과에 기초하여 획득되고,
상기 선택하는 것은
상기 현재 프레임(13)과 관련되고 상기 제2 추정치(16, T₂)에 대응하는 지연에서 획득된 제2 상관 측정치(25)와
피치 지연 선택 임계치(24) 사이에 비교(27)를 수행하여,
상기 제2 상관 측정치(25)가 상기 피치 지연 선택 임계치(24)보다 큰 경우 상기 제2 추정치(16, T₂)를 선택하고/하거나(S103), 상기 제2 상관 측정치(25)가 상기 피치 지연 선택 임계치(24)보다 낮은 경우 상기 제1 추정치(14, T₁)를 선택하는(S103) 것을 포함하고,
상기 방법은 선택된 값(19, T_best)을 디코더(60b)에서 LTPF를 수행하는데 유용한 데이터를 인코딩하는 단계를 더 포함하는 것을 특징으로 하는 프레임들로 분할된 신호에 대한 비트스트림을 인코딩하는 방법.
제25항 내지 제27항 중 어느 한 항에 있어서,
패킷 손실 은닉(packet lost concealment, PLC)에 대해 선택된 지연을 사용하는 단계를 더 포함하는 것을 특징으로 하는 프레임들로 분할된 신호에 대한 비트스트림을 인코딩하는 방법.
프로세서(111)에 의해 실행될 때, 상기 프로세서로 하여금 제25항 내지 제28항 중 어느 한 항에 따른 방법을 수행하게 하는 명령어들을 포함하는 프로그램.