KR20200081467A

KR20200081467A - 인코딩 및 디코딩 오디오 신호들

Info

Publication number: KR20200081467A
Application number: KR1020207016224A
Authority: KR
Inventors: 엠마뉘엘 라벨리; 아드리안 토마세크; 만프레드 루츠키; 콘라드 벤도르프
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2017-11-10
Filing date: 2018-11-06
Publication date: 2020-07-07
Also published as: ES2968821T3; EP3707714A1; SG11202004228VA; ZA202002524B; MX2020004776A; TWI698859B; EP3707714C0; EP3707714B1; US11217261B2; WO2019091980A1; AU2018363701A1; EP3483883A1; BR112020009184A2; CN111566731B; JP7004474B2; RU2741518C1; CA3082274C; US20200265855A1; AR113481A1; AU2018363701B2

Abstract

오디오 신호 정보를 인코딩 / 디코딩하기 위한 방법 및 장치 및 비 일시적 메모리 유닛이 제공된다. 인코더 측은 신호 프레임이 LTPF (long term post filtering) 및 / 또는 PLC (packet lost concealment)에 유용한 지 여부를 결정하고 그 결정 결과에 따라 정보를 인코딩 할 수 있다. 디코더 측은 인코더로부터 획득 된 정보에 따라 LTPF 및 / 또는 PLC를 적용 할 수있다.

Description

인코딩 및 디코딩 오디오 신호들

1. 기술분야

예시들은 오디오 신호 정보를 인코딩 / 디코딩하기 위한 방법 및 장치에 관련된다.

2. 종래 기술

종래 기술은 다음 공개들을 포함한다:

[1] 3GPP TS 26.445; Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.

[2] ISO/IEC 23008-3:2015; Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Part 3: 3D audio.

[3] Ravelli et al. "Apparatus and method for processing an audio signal using a harmonic post-filter." U.S. Patent Application No. 2017/0140769 A1. 18 May. 2017.

[4] Markovic et al. "Harmonicity-dependent controlling of a harmonic filter tool." U.S. Patent Application No. 2017/0133029 A1. 11 May. 2017.

[5] ITU-T G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s.

[6] ITU-T G.711 Appendix I: A high quality low-complexity algorithm for packet loss concealment with G.711.

[7] 3GPP TS 26.447; Codec for Enhanced Voice Services (EVS); Error concealment of lost packets.

변환 기반 오디오 코덱은 일반적으로 고조파 오디오 신호를 처리 할 때 특히 낮은 지연과 낮은 비트 전송률에서 상호-고조파(inter-harmonic) 노이즈를 발생시킨다. 이 상호 고조파 잡음은 일반적으로 매우 성가신 인공물로 인식되어 고음질 오디오 자료에서 주관적으로 평가할 때 변환 기반 오디오 코덱의 성능을 크게 저하시킨다.

LTPF (Long Term Post Filtering)는 이러한 상호 고조파 노이즈를 줄이는 데 도움이되는 변환 기반 오디오 코딩 도구이다. 그것은 변환 디코딩 후 시간 도메인(시간 영역) 신호에 적용되는 포스트 필터에 의존한다. 이 포스트 필터는 본질적으로 피치 정보 (예를 들어, 피치 지연(피치 래그, pitch lag)와 같은 파라미터에 의해 제어되는 콤형(comb-like) 주파수 응답을 갖는 무한 임펄스 응답 (IIR) 필터이다.

견고성(양호성, robustness)을 높이기 위해, 예를 들어, 이득이 0이 아닌 경우에, 포스트 필터 매개 변수 (피치 지연 및 일부 예에서 프레임 당 이득(gain, 게인))가 인코더 측에서 추정되고 비트 스트림에서 인코딩된다. 예에서, 이득이 0 인 경우에는 1 비트(one bit)로 신호를 보내며 신호에 고조파 부분이 포함되어 있지 않을 때 사용되는 비활성 포스트 필터에 해당한다.

LTPF는 3GPP EVS 표준 [1]에 처음 도입 된 후 MPEG-H 3D-오디오 표준 [2]에 통합되었다. 해당 특허는 [3]과 [4]이다.

종래 기술에서, 디코더에서의 다른 기능들은 피치 정보를 이용할 수 있다. 예시는 패킷 손실 은닉 (PLC) 또는 오류 은닉(에러 은닉, error concealment)이다. PLC는 오디오 코덱에서 인코더에서 디코더로 전송하는 동안 손실되거나 손상된 패킷을 은닉하는 데 사용된다. 종래 기술에서, PLC는 디코더 측에서 수행 될 수 있고 변환 도메인 또는 시간 도메인에서 디코딩 된 신호를 외삽(extrapolate) 할 수 있다. 이상적으로는, 은닉 된 신호는 인공물이 없어야하며 손실(missing) 결측 신호와 동일한 스펙트럼 특성을 가져야 한다. 은폐하기 위한 신호가 고조파 구조를 포함 할 때 이 목표를 달성하기가 특히 어렵다.

이 경우, 피치 기반 PLC 기술(테크닉)은 허용 가능한 결과를 생성 할 수 있다. 이들 접근법은 신호가 국부적으로 정지하고(locally stationary) 외삽 피치주기를 사용하여 주기적 신호를 합성함으로써 손실 된 신호를 복구한다고 가정한다. 이러한 기술은 CELP 기반 음성 코딩에 사용될 수 있다 (예 : ITU-T G.718 [5] 참조). 그것들은 또한 PCM 코딩에도 사용될 수 있다 (ITU-T G.711 [6]). 그리고 더 최근에는 MDCT 기반 오디오 코딩에 적용되었으며, 가장 좋은 예는 3GPP EVS 표준에서 TCX 시간 도메인 은닉 (TCX TD-PLC)이다 [7].

피치 정보 (피치 지연 일 수 있음)는 피치 기반 PLC에 사용되는 주요 매개 변수(파라미터)이다. 이 파라미터는 인코더 측에서 추정 될 수 있고 비트 스트림으로 인코딩 될 수 있다. 이 경우, 마지막 양호 프레임의 피치 지연은 (예를 들어 [5] 및 [7]과 같이) 현재 손실 된 프레임을 감추기 위해 사용된다. 비트 스트림에 피치 지연이 없으면, 디코딩 된 신호에 대해 피치 검출 알고리즘을 실행함으로써 (예를 들어 [6]과 같이) 디코더 측에서 추정 될 수 있다.

3GPP EVS 표준 ([1] 및 [7] 참조)에서, LTPF 및 피치 기반 PLC는 모두 동일한 MDCT 기반 TCX 오디오 코덱에 사용된다. 두 툴(tools) 모두 동일한 피치 지연 매개 변수를 공유한다. LTPF 인코더는 피치 지연 파라미터(pitch lag parameter)를 추정하고 인코딩한다. 이 피치 지연은 이득이 0이 아닌 경우(non-zero) 비트 스트림에 존재한다. 디코더 측에서, 디코더는 이 정보를 사용하여 디코딩 된 신호를 필터링한다. 패킷 손실의 경우, 마지막 양호 프레임의 LTPF 이득이 특정 임계치를 초과하고 다른 조건이 충족 될 때 피치 기반 PLC가 사용된다. (자세한 내용은 [7] 참조). 이 경우 피치 지연은 비트 스트림에 존재하며 PLC 모듈에서 직접 사용할 수 있다.

종래 기술의 비트스트림 구문은 아래에 의해 주어진다.

Syntax(구문)	No. of bits (비트수)	Mnemonic (연상기호)
ltpf_data()
{
ltpf_active;	1	uimsbf
if ( ltpf_active ) {
ltpf_pitch_lag;	9	uimsbf
ltpf_gain;	2	uimsbf
}
}

그러나, 몇몇 문제들이 발생할 수 있다.피치 지연 파라미터는 모든 프레임에 대해 비트 스트림으로 인코딩되지 않는다. 프레임에서 이득이 0이면 (LTPF 비활성) 비트 스트림에 피치 지연 정보가 없다. 이것은 신호의 고조파 성분이 충분히 지배적 및/또는 안정적이지 않을 때 발생할 수 있다.

따라서, 이득에 기초하여 피치 지연의 인코딩을 식별함으로써, 다른 기능들 (예를 들어, PLC)에 의해 피치 지연이 획득되지 않을 수있다.

예를 들어, LTPF에는 충분하지 않지만 피치 기반 PLC를 사용하기에 충분한, 신호가 약간 고조파인 프레임들이 있다. 이 경우, 비트 스트림에 존재하지 않는 경우에도 디코더 측에서 피치-지연 파라미터가 요구 될 것이다.

하나의 해결책은 디코더 측에 제 2 피치 검출기(pitch detector)를 추가하는 것이지만, 이는 상당한 양의 복잡성을 추가 할 것이며, 이는 저전력 장치를 목표로하는 오디오 코덱에 문제가 된다.

3. 본 발명

예에 따르면, 일련의 프레임으로 분할 된 오디오 신호와 관련된 오디오 신호 정보를 디코딩하기 위한 장치가 제공되며 :

제 1 프레임 및 제 2 프레임에 대한 오디오 신호의 인코딩 된 표현;

상기 제 1 프레임에 대한 제 1 피치 정보 및 제 1 값을 갖는 제 1 제어 데이터 항목(데이터 아이템); 및

상기 제 2 프레임에 대한 제 2 피치 정보 및 상기 제 1 값과 다른 제 2 값을 갖는 제 2 제어 데이터 항목;을 갖는,

인코딩 된 오디오 신호 정보를 판독하도록 구성된 비트 스트림 판독기; 및

제 2 제어 데이터 항목이 제 2 값을 가질 때 제 2 피치 정보를 사용하여 제 2 프레임에서 오디오 신호의 디코딩 된 표현을 필터링하고;

첫 번째 제어 데이터 항목이 제 1 값을 가지면 제 1 프레임에 대한 LTPF를 비활성화;하도록,

장기 포스트 필터(LTPF)를 제어하도록 구성된 컨트롤러;를 포함한다.

따라서, 장치는 LTPF가 적합하지 않더라도 오류 은닉을 위해 프레임들을 사용하면서, LTPF에 적합한 프레임과 LTPF에 적합하지 않은 프레임을 구별 할 수 있다. 예를 들어, 고조파가 높은 경우, 장치는 LTPF에 대한 피치 정보 (예를 들어, 피치 지연)를 이용할 수 있다. 고조파가 낮은 경우, 장치는 LTPF에 대한 피치 정보의 사용을 피할 수 있지만 다른 기능 (예를 들어, 은닉)에 대한 피치 정보를 이용할 수 있다.

예에 따르면, 비트 스트림 판독기는 제 1 피치 정보 및 / 또는 제 2 피치 정보의 존재 또는 부재를 나타내는 제어 데이터 항목을 갖는 제 3 프레임을 판독하도록 구성된다.

예에 따르면, 제 3 프레임은 제 1 피치 정보, 제 1 제어 데이터 항목, 제 2 피치 정보 및 제 2 제어 데이터 항목이 부족한 포맷을 갖는다.

예에 따르면, 제 3 제어 데이터 항목은 제 3 프레임과 제 1 및 제 2 프레임을 구별하는 값을 갖는 하나의 단일 비트로 인코딩된다.

예에 따르면, 인코딩 된 오디오 신호 정보에서, 제 1 프레임에 대해, 하나의 단일 비트가 제 1 제어 데이터 항목에 대해 예약되고 고정 데이터 필드가 제 1 피치 정보에 대해 예약된다.

예에 따르면, 인코딩 된 오디오 신호 정보에서, 제 2 프레임에 대해, 하나의 단일 비트는 제 2 제어 데이터 항목을 위해 예약되고 고정 데이터 필드는 제 2 피치 정보를 위해 예약된다.

예에 따르면, 제 1 제어 데이터 항목 및 제 2 제어 데이터 항목은 인코딩 된 오디오 신호 정보의 동일한 부분 또는 데이터 필드에서 인코딩된다.

예에 따르면, 인코딩 된 오디오 신호 정보는 제 3 제어 데이터 항목을 인코딩하는 하나의 제 1 시그널링 비트; 그리고, 제 1 피치 정보 (16b) 및/또는 제 2 피치 정보 (17b)의 존재를 나타내는 제 3 제어 데이터 항목 (18e)의 값의 경우, 제 1 제어 데이터 항목 (16c) 및 제 2 제어 데이터 항목 (17c)을 인코딩하는 제 2 시그널링 비트를 포함한다.

예에 따르면, 장치는 후속하는 비-적절하게(non-properly) 디코딩 된 오디오 프레임을 은닉하기 위해 제 1 및/또는 제 2 피치 정보를 사용하도록 구성된 은닉 유닛을 더 포함 할 수있다.

예시에 따르면, 저장된 피치 정보를 이용하여 획득된 프레임으로 비유효하게 디코딩 된 프레임을 은닉하기 위해, 은닉 유닛은 비유효 프레임(무효 프레임, invalid frame)의 디코딩을 결정하는 경우, 이전에 정확하게 디코딩 된 프레임에 관한 피치 정보가 저장되는지를 검사하도록 구성될 수 있다.

따라서, 오디오 신호가 LTPF를 준수 할 때 뿐만 아니라, 오디오 신호가 은닉을 준수 할 때마다 양호한 은닉을 얻을 수 있다. 피치 정보가 획득 될 때, 피치 지연을 추정 할 필요가 없으므로, 복잡성을 감소시킨다.

예에 따르면, 오디오 신호를 인코딩하기위한 장치가 제공되며, 상기 장치는 다음을 포함하며:

오디오 신호의 피치와 관련된 피치 정보를 획득하도록 구성된 피치 추정기;

오디오 신호의 고조파와 관련된 고조파 정보를 획득하도록 구성된 신호 분석기; 및

제 1 프레임, 제 2 프레임 및 제 3 프레임에 대한 오디오 신호의 인코딩 된 표현;

상기 제 1 프레임에 대한 제 1 피치 정보 및 제 1 값을 갖는 제 1 제어 데이터 항목;

상기 제 2 프레임에 대한 제 2 피치 정보 및 상기 제 1 값과 다른 제 2 값을 갖는 제 2 제어 데이터 항목; 및

제 1, 제 2 및 제 3 프레임에 대한 제 3 제어 데이터 항목;을

비트 스트림에 포함하도록 프레임들을 인코딩하는 인코딩 된 오디오 신호 정보를 준비하도록 구성된 비트 스트림 형성기;

상기 제 1 값 및 상기 제 2 값은 상기 고조파 정보와 관련된 제 2 기준에 의존하고,

제 1 값은 제 1 프레임에서 오디오 신호의 고조파에 대한 제 2 기준의 비-충족(non-fulfilment)을 나타내고,

제 2 값은 제 2 프레임에서 오디오 신호의 고조파에 대한 제 2 기준의 충족(fulfilment)을 나타내고,

상기 제 2 기준은 적어도 하나의 제 2 고조파 측정치가 적어도 하나의 제 2 임계치보다 클 때 충족되는 적어도 하나의 조건을 포함하고,

상기 제 3 제어 데이터 항목은 상기 제 3 프레임을 상기 제 1 및 제 2 프레임과 구별하는 값을 갖는 하나의 단일 비트로 인코딩되고, 상기 제 3 프레임은 상기 제 1 기준이 충족되지 않은 경우 인코딩되고 제 1 기준이 충족된 경우 상기 제 1 및 제 2 프레임이 인코딩되며, 제 1 기준은 적어도 하나의 제 1 고조파 측정치가 적어도 하나의 제 1 임계치보다 클 때 충족되는 적어도 하나의 조건을 포함하고,

비트 스트림에서, 제 1 프레임에 대해, 하나의 단일 비트는 제 1 제어 데이터 항목에 대해 예약되고 고정 데이터 필드는 제 1 피치 정보에 대해 예약되며,

비트 스트림에서, 제 2 프레임에 대해, 하나의 단일 비트가 제 2 제어 데이터 항목에 대해 예약되고 고정 데이터 필드가 제 2 피치 정보에 대해 예약되고,

비트 스트림에서, 제 3 프레임에 대해, 고정 데이터 필드 및/또는 제 1 및 제 2 제어 항목을 위해 비트가 예약되지 않는다.

따라서, 디코더에 대해 LTPF에 유용한 프레임, PLC에만 유용한 프레임 및 LTPF와 PLC 모두에 쓸모없는 프레임을 구별 할 수 있다.

예에 따르면, 제 2 기준은 이전 프레임의 적어도 하나의 고조파 측정치가 적어도 하나의 제 2 임계치보다 클 때 충족되는 추가 조건을 포함한다.

예에 따르면, 신호 분석기는 제 2 기준에 대한 조건으로서 신호가 두 개의 연속 프레임들 사이에서 안정적인지 여부를 결정하도록 구성된다.

따라서, 디코더가 예를 들어 안정 신호(stable signal)와 비-안정 신호(non-stable signal, 불안정 신호)를 구별할 수 있다. 불안정 신호의 경우, 디코더는 LTPF에 대한 피치 정보의 사용을 피할 수 있지만 다른 기능 (예를 들어, 은닉)에 대한 피치 정보를 이용할 수있다.

예에 따르면, 제 1 및 제 2 고조파 측정치는 상이한 샘플링 레이트에서 획득된다.

예에 따르면, 피치 정보는 피치 지연 정보 또는 이의 처리 된 버전을 포함한다.

예에 따르면, 고조파 정보는 자기 상관 값(autocorrelation value) 및/또는 정규화 된 자기 상관 값(normalized autocorrelation value) 및/또는 그의 처리 된 버전 중 적어도 하나를 포함한다.

예에 따르면, 다음을 포함하는, 일련의 프레임으로 분할 된 오디오 신호와 관련된 오디오 신호 정보를 디코딩하는 방법이 제공된다:

인코딩 된 오디오 신호 정보를 판독하는 단계는:

상기 제 1 프레임에 대한 제 1 피치 정보 및 제 1 값을 갖는 제 1 제어 데이터 아이템 (16c);

장기 포스트 필터(long term post filter), LTPF,에 대한 제 1 피치 정보를 사용하여, 제 1 제어 데이터 항목이 제 1 값을 갖는 것의 결정에서,

LTPF를 비활성화시키면서, 제 2 제어 데이터 항목 (17c)의 제 2 값의 결정에서,

상기 제 2 프레임에 대한 제 2 피치 정보 및 상기 제 1 값과 다른 제 2 값을 갖는 제 2 제어 데이터 항목;을 포함한다.

예에 따르면, 방법은 오류 은닉 기능을 위해 제 1 또는 제 2 피치 정보를 사용하여, 제 1 또는 제 2 제어 데이터 항목이 제 1 또는 제 2 값을 갖는 것으로 결정될 때를 더 포함한다.

예에 따르면, 프레임으로 분할 된 신호와 관련된 오디오 신호 정보를 인코딩하는 방법이 제공되며 다음을 포함한다:

오디오 신호로부터 측정치를 얻는 단계;

제 2 기준의 충족을 검증하는 단계 - 상기 제 2 기준은 상기 측정치에 기초하고 적어도 하나의 제 2 고조파 측정치가 제 2 임계치보다 클 때 충족되는 적어도 하나의 조건을 포함함 -;

제 1 프레임 및 제 2 프레임 및 제 3 프레임에 대한 오디오 신호의 인코딩 된 표현;

제 3 제어 데이터 항목 및 제 1 값을 갖는 제 1 제어 데이터 항목 및 상기 제 1 프레임에 대한 제 1 피치 정보;

제 3 제어 데이터 항목 및 상기 제 1 값과 다른 제 2 값을 갖는 제 2 제어 데이터 항목 및 상기 제 2 프레임에 대한 제 2 피치 정보;을 포함하는,

프레임들을 갖는 인코딩 된 오디오 신호 정보를 형성하는 단계;

상기 제 1 값 및 상기 제 2 값은 상기 제 2 기준에 의존하고, 상기 제 1 값은 상기 제 1 프레임의 오디오 신호의 고조파에 기초하여 제 2 기준의 비-충족을 나타내고, 상기 제 2 값은 상기 제 2 프레임의 오디오 신호의 고조파에 기초하여 제 2 기준의 충족을 나타내며,

적어도 하나의 고조파 측정치가 적어도 하나의 제 1 임계치보다 높을 때 충족되는 적어도 하나의 조건에 기초하여, 제 3 제어 데이터 항목이 제 1 기준의 비-충족을 나타낼 때 제 3 프레임을 식별하기 위해, 제 3 제어 데이터 항목은 제 1 기준의 충족과 관련하여 제 1 및 제 2 프레임으로부터 제 3 프레임을 구별하는 값을 갖는 하나의 단일 비트이고,

인코딩 된 오디오 신호 정보는, 제 1 프레임에 대해, 하나의 단일 비트가 제 1 피치 정보에 대한 고정 데이터 필드 및 제 1 제어 데이터 항목에 대해 예약되고,

인코딩 된 오디오 신호 정보는, 제 2 프레임에 대해, 하나의 단일 비트가 제 2 피치 정보에 대한 고정 데이터 필드 및 제 2 제어 데이터 항목에 대해 예약되고,

인코딩 된 오디오 신호 정보는, 제 3 프레임에 대해, 고정 데이터 필드에 대해 비트가 예약되지 않고 제 1 제어 데이터 항목 및 제 2 제어 데이터 항목에 대해 비트가 예약되지 않도록 형성된다.

예에 따라서, 다음을 포함하는 방법이 제공된다:

오디오 신호를 인코딩하는 단계;

인코딩 된 오디오 신호 정보를 디코더로 전송하거나 인코딩 된 오디오 신호 정보를 저장하는 단계;

오디오 신호 정보를 디코딩하는 단계;

예에 따르면, 오디오 신호를 인코딩 / 디코딩하는 방법이 제공되며,

인코더에서, 오디오 신호를 인코딩하고 고조파 정보 및/또는 피치 정보를 도출하는 단계;

인코더에서, 고조파 정보 및/또는 피치 정보가 적어도 LTPF 및/또는 오류 은닉 기능에 적합한 지 여부를 결정하는 단계;

상기 디코더로부터 인코더로 전송하고 및/또는 상기 오디오 신호의 디지털 표현 및 고조파와 관련된 정보를 포함하는 비트 스트림을 메모리에 저장하고 및/또는 상기 피치 정보가 LTPF 및/또는 오류 은닉에 적응되는지(적합한 지) 여부를 시그널링하는 단계;를 포함하고,

디코더에서, 오디오 신호의 디지털 표현을 디코딩하고 인코더로부터의 시그널링에 따라 LTPF 및/또는 오류 은닉에 대한 피치 정보를 사용한다.

예에서, 인코더는 위 또는 아래의 예 중 어느 하나에 따르고, 및/또는 디코더는 위 또는 아래의 예 중 어느 하나에 따르고, 및/또는 인코딩은 위 또는 아래 예에 따르고 및/또는 디코딩은 위 또는 아래의 예에 따른다.

예에 따르면, 프로세서에 의해 실행될 때, 상기 또는 하기와 같은 방법을 수행하는 명령을 저장하는 비-일시적 메모리 유닛이 제공된다.

따라서, 인코더는 신호 프레임이 LTPF (long term post filtering) 및/또는 PLC (packet lost concealment)에 유용한 지 여부를 결정할 수 있고 그 결정 결과에 따라 정보를 인코딩 할 수 있다. 디코더는 인코더로부터 획득 된 정보에 따라 LTPF 및/또는 PLC를 적용 할 수 있다.

4. 도면의 설명
도 1 및 도 2는 오디오 신호 정보를 인코딩하기 위한 장치를 도시한다.
도 3-5는 도 1 및 도 2의 장치에 의해 인코딩 될 수 있는 인코딩 된 신호 정보의 포맷들을 도시한다.
도 6a 및 6b는 오디오 신호 정보를 인코딩하는 방법을 도시한다.
도 7은 오디오 신호 정보를 디코딩하기 위한 장치를 도시한다.
도 8a 및 8b는 인코딩 된 오디오 신호 정보의 포맷들을 도시한다.
도 9는 오디오 신호 정보를 디코딩하기 위한 장치를 도시한다.
도 10은 오디오 신호 정보를 디코딩하는 방법을 도시한다.
도 11 및 12는 오디오 신호 정보를 인코딩/디코딩하기 위한 시스템을 도시한다.
도 13은 인코딩/디코딩 방법을 도시한다.

5. 인코더 측면

도 1은 장치 (10)를 도시한다. 장치 (10)는 신호 (인코더)를 인코딩하기 위한 것일 수 있다. 예를 들어, 장치 (10)는 인코딩 된 오디오 신호 정보 (예를 들어, 아래에서 사용되는 용어로 정보 12, 12', 12")를 생성하기 위해 오디오 신호 (11)를 인코딩 할 수 있다.

장치 (10)는 (예를 들어, 원래의 오디오 신호를 샘플링함으로써) 오디오 신호의 디지털 표현을 획득하여 디지털 형태로 처리하기 위한 (도시되지 않은) 컴포넌트를 포함 할 수 있다. 오디오 신호는 프레임들 (예를 들어, 시간 간격들의 시퀀스에 대응하는) 또는 서브 프레임 (프레임들의 세분화(subdivisions)일 수도 있음)으로 분할 될 수 있다. 예를 들어, 각각의 간격은 20ms 길이 일 수 있다 (서브 프레임은 10ms 길이 일 수 있다). 각각의 프레임은 시간 도메인 (TD)에서 유한 수의 샘플 (예를 들어, 20ms 프레임에 대한 1024 또는 2048 샘플)을 포함 할 수 있다. 예를 들어, 프레임 또는 그 사본(카피) 또는 그 처리 된 버전은 (부분적으로 또는 완전히) 주파수 도메인 (FD) 표현으로 변환 될 수 있다. 인코딩 된 오디오 신호 정보는 예를 들어 코드 여기 선형 예측 (CELP), 또는 대수 CELP (ACELP) 유형 및 / 또는 TCX 유형일 수있다. 예들에서, 장치 (10)는 프레임 당 샘플들의 수를 감소시키기 위해 (도시되지 않은) 다운 샘플러를 포함 할 수 있다. 예에서, 장치 (10)는 리샘플러 (업 샘플러, 저역 통과 필터 및 업 샘플러 타입 일 수 있음)를 포함 할 수 있다.

예를 들어, 장치 (10)는 인코딩 된 오디오 신호 정보를 통신 유닛에 제공 할 수 있다. 통신 유닛은 다른 장치와 통신하기 위해 (예를 들어, 인코딩 된 오디오 신호 정보를 다른 장치로 전송하기 위해) (예를 들어, 적어도 안테나를 갖는) 하드웨어를 포함 할 수 있다. 통신부는 특정 프로토콜에 따라 통신을 수행 할 수 있다. 통신은 무선 일 수 있다. 블루투스 표준에 따른 전송이 수행 될 수 있다. 예에서, 장치 (10)는 저장 장치를 포함 (또는 인코딩 된 오디오 신호 정보를 저장) 할 수 있다.

장치 (10)는 (예를 들어, 시간 간격 동안) 프레임에서 오디오 신호 (11)에 대한 출력 피치 정보 (13a)를 추정하여 제공 할 수있는 피치 추정기 (13)를 포함 할 수 있다. 피치 정보 (13a)는 피치 지연 또는 그 처리 된 버전을 포함 할 수 있다. 피치 정보 (13a)는 예를 들어 오디오 신호 (11)의 자기 상관(autocorrelation)을 계산함으로써 획득 될 수 있다. 피치 정보 (13a)는 이진 데이터 필드 (여기서는 "ltpf_pitch_lag"로 표시됨)로 표현 될 수 있으며, 이는 예를 들어, 7과 11 사이에 포함 된 다수의 비트 (예를 들어, 9 비트)로 표현될 수 있다.

장치 (10)는 (예를 들어, 시간 간격 동안) 프레임에 대한 오디오 신호 (11)를 분석 할 수 있는 신호 분석기 (14)를 포함 할 수 있다. 신호 분석기 (14)는 예를 들어 오디오 신호 (11)와 관련된 고조파 정보 (14a)를 획득 할 수 있다. 고조파 정보(Harmonicity information)는, 예를 들어 상관 정보 (예를 들어, 자기 상관 정보), 이득 정보 (예를 들어, 포스트 필터 이득 정보), 주기성 정보, 예측성 정보 등 중 적어도 하나 또는 그 조합을 포함하거나 그에 기초 할 수 있다. 이들 값 중 적어도 하나는 예를 들어 정규화되거나 처리 될 수 있다.

예에서, 고조파 정보 (14a)는 1 비트 (여기서는 "ltpf_active"로 표시됨)로 인코딩 될 수 있는 정보를 포함 할 수 있다. 고조파 정보 (14a)는 신호의 고조파 정보를 전달할 수 있다. 고조파 정보 (14a)는 신호에 의한 기준 ("제 2 기준")의 충족(이행, 달성, fulfilment)에 기초 할 수있다. 고조파 정보 (14a)는, 예를 들어, (더 높은 주기성 및 / 또는 더 높은 예측성 및 / 또는 신호의 안정성과 관련 될 수 있는) 제 2 기준의 충족과 (낮은 고조파 및 / 또는 낮은 예측성 및 / 또는 신호 불안정성과 관련 될 수 있는) 제 2 기준의 비-충족(non-fulfilment) 사이를 구별할 수 있다. 낮은 고조파는 일반적으로 노이즈와 관련이 있다. 고조파 정보 (14a)의 데이터 중 적어도 하나는 제 2 기준의 검증 및 / 또는 제 2 기준에 의해 설정된 조건(들) 중 적어도 하나의 검증(verification)에 기초 할 수 있다. 예를 들어, 제 2 기준은 적어도 하나의 고조파 관련 측정치 (예를 들어, 정규화 및 / 또는 처리 될 수 있는 자기 상관, 고조파, 이득, 예측 가능성, 주기성 등의 하나 또는 조합)의 비교, 또는 하나 이상의 임계치를 갖는, 그것의 처리 된 버전을 포함 수 있다. 예를 들어, 임계치는 "제 2 임계치"일 수있다 (하나 이상의 임계치가 가능하다). 일부 예에서, 제 2 기준은 이전 프레임 (예를 들어, 현재 프레임 바로 앞의 프레임)에 대한 조건의 검증을 포함한다. 일부 예에서, 고조파 정보 (14a)는 1 비트로 인코딩 될 수 있다. 일부 다른 예에서, 비트들의 시퀀스 (예를 들어, 이득 정보 또는 다른 고조파 정보를 인코딩하기 위한, 예를 들어, "ltpf_active"에 대한 하나의 비트 및 일부 다른 비트들).

선택기 (26)에 의해 표시된 바와 같이, 출력 고조파 정보 (21a)는 피치 정보 (13a)의 실제 인코딩을 제어 할 수 있다. 예를 들어, 고조파가 매우 낮은 경우, 피치 정보 (13a)가 비트 스트림으로 인코딩되는 것이 방지 될 수 있다.

선택기 (25)에 의해 표시되는 바와 같이, 출력 고조파 정보 (21a)의 값 ("ltpf_pitch_lag_present")은 고조파 정보 (14a)의 실제 인코딩을 제어 할 수 있다. 따라서, (예를 들어, 제 2 기준과 다른 기준에 기초하여) 매우 낮은 고조파를 검출하는 경우, 고조파 정보 (14a)가 비트 스트림으로 인코딩되는 것이 방지 될 수 있다.

장치 (10)는 비트 스트림 형성기 (bitstream former) (15)를 포함 할 수 있다. 비트 스트림 형성기 (15)는 (예를 들어, 시간 간격으로) 오디오 신호 (11)의 인코딩 된 오디오 신호 정보 (12, 12' 또는 12"로 표시됨)를 제공 할 수 있다. 비트 스트림 형성기 (15)는 적어도 오디오 신호 (11)의 디지털 버전, 피치 정보 (13a) (예를 들어, "ltpf_pitch_lag") 및 고조파 정보 (14a) (예를 들어, "ltpf_active")를 포함하는 비트 스트림을 형성 할 수 있다. 인코딩 된 오디오 신호 정보는, 예를 들어, 수신기로 저장 및 / 또는 전송 될 수 있는 비트 스트림 일 수 있다 (이는 장치 (10)에 의해 인코딩 된 오디오 정보를 디코딩 할 수 있다).

인코딩 된 오디오 신호 정보의 피치 정보 (13a)는 디코더 측에서 LTPF (long term post filter)를 위해 사용될 수 있다. LTPF는 TD에서 동작 할 수 있다. 예를 들어, 고조파 정보 (14a)가 더 높은 고조파를 나타내는 경우, LTPF는 디코더 측에서 (예컨대, 피치 정보 (13a)를 사용하여) 활성화 될 것이다. 고조파 정보 (14a)가 낮은 (중간) 고조파 (또는 어쨌든 LTPF에 부적합한 고조파)를 나타내는 경우, LTPF는 디코더 측에서 비활성화되거나 감쇠 될 것이다 (예를 들어, 피치 정보가 여전히 비트 스트림으로 인코딩 되더라도, 피치 정보 (13a)를 사용하지 않고). 고조파 정보 (14a)가 (1 비트로 인코딩 될 수 있는) 필드 "ltpf_active"를 포함 할 때, ltpf_active = 0은 "디코더에서 LTPF를 사용하지 않음"을 의미 할 수 있는 반면, ltpf_active = 1은 "디코더에서 LTPF 사용"을 의미 할 수 있다. 예를 들어, ltpf_active = 0은 예를 들어, 고조파 측정치를 제 2 임계치와 비교 한 후 ltpf_active = 1과 관련된 고조파보다 낮은 고조파와 관련 될 수 있다. 이 문서의 규칙에 따르면, ltpf_active = 0은 ltpf_active = 1과 관련된 고조파보다 낮은 고조파를 지칭하지만, 다른 규칙 (예를 들어, 이진 값의 상이한 의미에 기초하여)이 제공 될 수 있다. ltpf_active의 값을 결정하기 위해 추가적이거나 대안적인 기준 및 / 또는 조건이 사용될 수있다. 예를 들어, ltpf_active = 1을 상태로 하기 위해, 신호가 안정적인지 여부를 검사 할 수도 있다 (예를 들어, 이전 프레임과 관련된 고조파 측정치를 확인함으로써).

LTPF 기능에 더하여, 피치 정보 (13a)는 예를 들어 디코더에서 패킷 손실 은닉 (PLC) 동작을 수행하기 위해 사용될 수 있다. 예에서, 고조파 정보 (14a)에 관계없이 (예를 들어, ltpf_active = 0 인 경우에도), PLC는 그럼에도 불구하고 수행될 것이다. 따라서, 예에서, 피치 정보 (13a)는 항상 디코더의 PLC 기능에 의해 사용될 것이지만, 동일한 피치 정보 (13a)는 고조파 정보 (14a)에 의해 설정된 조건 하에서만 디코더에서 LTPF 기능에 의해서만 사용될 것이다.

예를 들어, 고조파 정보 (13a)의 전송이 디코더에 대한 가치있는 정보인지를 결정하기 위해 (제 2 기준과 상이 할 수 있는) "제 1 기준"의 충족 또는 비-충족을 검증하는 것이 또한 가능하다.

예를 들어, 신호 분석기 (14)가 고조파 (예를 들어, 특히 고조파의 측정치)가 제 1 기준 (제 1 기준이 충족되는 고조파의 조건에서, 특히 예를 들어, 특정 "제 1 임계치"보다 높은 고조파인, 고조파의 측정치에서)을 충족시키지 않으면, 피치 정보가 없는 인코딩 (13a)의 선택은 장치 (10)에 의해 취해질 수 있다. 예를 들어, 디코더는 LTPF 기능(함수, function)이나 PLC 기능에는 인코딩된 프레임의 데이터를 사용하지 않을 것이다 (적어도, 일부 예에서, 디코더는 피치 정보를 기반으로 하지 않고 디코더 기반 추정, FD 은폐 기법 또는 다른 기법과 같은 다른 은닉 기술을 사용하는 은닉 전략을 이용할 것이다).

위에서 논의한 첫 번째 및 두 번째 임계값은 일부 예에서 다음과 같이 선택할 수 있다.

- 제 1 임계값 및/또는 제 1 기준은 PLC에 적합한 오디오 신호와 PLC에 적합하지 않은 오디오 신호를 구별하고; 그리고

- 제 2 임계값 및/또는 제 2 기준은 LTPF에 적합한 오디오 신호와 LTPF에 적합하지 않은 오디오 신호를 구별한다.

예들에서, 제 1 및 제 2 임계치는 제 1 및 제 2 임계치와 비교되는 고조파 측정치가 0과 1 사이의 값 (여기서 0은 고조파 신호가 아님을 의미하고, 1은 완전 고조파를 의미 함)을 가정하여 선택 될 수 있고, 제 1 임계치의 값은 제 2 임계치의 값보다 낮다 (예를 들어, 제 1 임계치와 관련된 고조파는 제 2 임계치와 관련된 고조파보다 낮다).

제 2 기준에 대해 제시된 조건들 중에서, 오디오 신호 (11)의 시간적 진화가 LTPF에 대한 신호를 사용할 수 있는 것인지를 검사하는 것도 가능하다. 예를 들어, 이전 프레임에 대해 유사한 (또는 동일한) 임계치에 도달했는지 여부를 확인할 수 있다. 예에서, 고조파 측정치 (또는 이의 처리 된 버전)의 조합 (또는 가중 조합)은 하나 이상의 임계치와 비교 될 수 있다. 상이한 고조파 측정치 (예를 들어, 상이한 샘플링 레이트에서 얻어진)이 사용될 수 있다.

도 5는 장치 (10)에 의해 준비 될 수있는 인코딩 된 오디오 신호 정보의 프레임 (12") (또는 프레임의 일부)의 예를 도시한다. 프레임 (12")은 제 1 프레임 (16"), 제 2 프레임 (17") 및 제 3 프레임 (18") 사이에서 구별 될 수있다. 오디오 신호 (11)의 시간적 진화에서, 제 1 프레임 (16")은 예를 들어 특정 시간 간격에서 오디오 신호의 특징 (예를 들어, 고조파)에 따라 제 2 프레임 (17") 및 / 또는 제 3 프레임으로 대체 될 수 있으며, 그 역도 마찬가지이다. (예를 들어, 제 1 및 / 또는 제 2 기준을 충족 시키거나 비-충족하는 신호 및 / 또는 고조파가 제 1 임계치 및 / 또는 제 2 임계치보다 크거나 작은 신호에 기초)

제 1 프레임 (16")은 PLC에는 적합하지만 LTPF에는 반드시 필요한 것은 아닌 고조파와 관련된 프레임 일 수 있다 (제 1 기준은 충족되고 제 2 기준은 충족되지 않음). 예를 들어, 고조파 측정치는 제 2 임계치보다 낮을 수 있고 다른 조건이 충족되지 않는다. (예를 들어, 신호가 이전 프레임과 현재 프레임 사이에서 안정적이지 않았다). 제 1 프레임 (16")은 오디오 신호 (11)의 인코딩 된 표현 (16a)을 포함 할 수 있다. 제 1 프레임 (16")은 제 1 피치 정보 (16b) (예를 들어, "ltpf_pitch_lag")를 포함 할 수 있다. 제 1 피치 정보 (16b)는 예를 들어, 피치 추정기 (13)에 의해 획득 된 피치 정보 (13a)를 인코딩하거나 기초로 할 수 있다. 제 1 프레임 (16)은 제 1 제어 데이터 항목 (16c) (예를 들어, 본 규칙에 따라 "0"을 갖는 "ltpf_active")을 포함 할 수 있고, 이는 예를 들어, 신호 분석기 (14)에 의해 획득 된 고조파 정보 (14a)를 포함하거나 그에 기초 할 수 있다. 이 제 1 프레임 (16")은, 디코더 측에서, 오디오 신호를 디코딩하기 위해, 그리고 더 나아가, 필요에 따라 PLC에 대한 (16b로 인코딩 된) 피치 정보 (13a)를 이용하기 위해, 충분한 정보를 (필드 16a에서) 포함할 수 있다. 예에서, 디코더는 제 2 기준을 만족하지 않는 고조파 (예를 들어, 신호의 낮은 고조파 측정치 및 / 또는 두 개의 연속 프레임 사이의 비-안정적인 신호)로 인해 LTPF에 대해 피치 정보 (13a)를 사용하지 않을 것이다.

제 2 프레임 (17")은 LTPF에 대해 충분히 유지되는 고조파와 관련된 프레임 일 수 있다 (예를 들어, 측정치에 따라, 고조파가 제 2 임계치보다 높고 및 / 또는 이전 프레임이 적어도 특정 임계값보다 높은, 제 2 기준을 충족한다) 제 2 프레임 (17")은 오디오 신호 (11)의 인코딩 된 표현 (17a)을 포함 할 수 있다. 제 2 프레임 (17")은 제 2 피치 정보 (17b) (예를 들어, "ltpf_pitch_lag")를 포함 할 수 있다. 제 2 피치 정보 (17b)는 예를 들어 피치 추정기 (13)에 의해 획득 된 피치 정보 (13a)를 인코딩하거나 기초로 할 수 있다. 제 2 프레임 (17")은 제 2 제어 데이터 항목 (17c) (예를 들어, 본 규칙에 따라 "1"의 값을 갖는 "ltpf_active")을 포함 할 수 있고, 이는 예를 들어, 신호 분석기 (14)에 의해 획득 된 고조파 정보 (14a)를 포함하거나 그에 기초 할 수 있다. 이 제 2 프레임 (17")은 디코더 측에서 오디오 신호가 디코딩되도록, 또한, 필요시, (피치 추정기의 출력(13a)으로부터) 피치 정보(17b)가 PLC에 대해 이용될 수 있도록, 충분한 정보를 포함 할 수 있다. 또한, 디코더는 특히 신호의 높은 고조파에 기초하여 (본 규칙에 따라 ltpf_active = 1로 표시됨), 제 2 기준의 충족으로 인해 LTPF에 대한 피치 정보 17b (13a)를 사용할 것이다.

예에서, 제 1 프레임 (16") 및 제 2 프레임 (17")은 제어 데이터 항목 (16c 및 17c)의 값에 의해 (예를 들어, "ltpf_active"의 이진 값에 의해) 식별된다.

예에서, 비트 스트림으로 인코딩 될 때, 제 1 및 제 2 프레임은 제 1 및 제 2 피치 정보 (16b, 17b) 및 제 1 및 제 2 제어 데이터 항목 (16c, 17c)에 대해 다음과 같은 형식을 나타낸다 :

-제 1 및 제 2 제어 데이터 항목들 (16c 및 17c)을 인코딩하기 위해 하나의 단일 비트가 예약되고; 및

-고정 된 데이터 필드는 제 1 및 제 2 피치 정보 (16b 및 17b) 각각에 대해 예약된다.

따라서, 하나의 단일 제 1 데이터 항목 (16c)은 프레임의 특정 (예를 들어, 고정 된) 부분의 비트 값에 의해 하나의 단일 제 2 데이터 항목 (17c)과 구별 될 수 있다. 또한, 제 1 및 제 2 피치 정보는 예약 된 위치 (예를 들어, 고정 된 위치)에서 하나의 고정 된 비트 수에 삽입 될 수 있다.

예 (예를 들어, 도 4 및 / 또는 5에 도시 됨)에서, 고조파 정보 (14a)는 단순히 제 2 기준의 충족과 비-충족을 구별하지 않고, 예를 들어 단순히 높은 고조파와 낮은 고조파 사이를 구별하지 않는다. 일부 경우에, 고조파 정보는 이득 정보 (예를 들어, 포스트 필터 이득) 및 / 또는 상관 정보 (자기 상관, 정규화 된 상관), 및 / 또는 그의 처리 된 버전과 같은 추가적인 고조파 정보를 포함 할 수 있다. 몇몇 경우에, 여기서는 이득 또는 다른 고조파 정보가 1 내지 4 비트 (예를 들어, 2 비트)로 인코딩 될 수 있고 신호 분석기 (14)에 의해 획득 될 때 포스트 필터 이득(the post filter gain)에 관련될 수 있다.

추가 고조파 정보가 인코딩되는 예에서, 디코더는, ltpf_active = 1 (예를 들어, 제 2 프레임 17' 또는 17")을 인식함으로써, 제 2 프레임 17'또는 17"의 후속 필드가 추가 고조파 정보 (17d)를 인코딩한다는 것을 이해할 수 있다. 반대로, ltpf_active = 0 (예를 들어, 제 1 프레임 16' 또는 16")을 식별함으로써, 디코더는 추가 고조파 정보 필드 (17d)가 프레임 17'또는 17"에 인코딩되지 않음을 이해할 수 있다.

예 (예를 들어, 도 5)에서, 제 3 프레임 (18")은 비트 스트림으로 인코딩 될 수 있다. 제 3 프레임 (18")은 피치 정보 및 고조파 정보가 없는(부족한) 포맷을 갖도록 정의 될 수 있다. 그것의 데이터 구조는 데이터 16b, 16c, 17b, 17c를 인코딩하기 위한 비트를 제공하지 않는다. 그러나, 제 3 프레임 (18")은 오디오 신호 및 / 또는 인코더에 유용한 다른 제어 데이터의 인코딩 된 표현 (18a)을 여전히 포함 할 수 있다.

예에서, 제 3 프레임 (18")은, 제 1 및 제 2 프레임 (16" 및 17")의 값과 다른 제 3 프레임의 값을 가질 수 있는, 제 3 제어 데이터 (18e) ("ltpf_pitch_lag_present")에 의해 제 1 및 제 2 프레임과 구별된다. 예를 들어, 제 3 제어 데이터 항목 (18e)은 제 1 및 제 2 프레임 (16" 및 17")을 식별하기 위한 1 및 제 3 프레임 (18")을 식별하기 위한 "0"일 수 있다.

예에서, 제 3 프레임 (18")은 정보 신호가 LTPF 및 PLC에 유용하지 않을 때 (예를 들어, 예를 들어, 잡음이 우세한 경우와 같이 매우 낮은 고조파에 의해) 인코딩 될 수 있다. 이와 같이, 제어 데이터 항목 (18e) ("ltpf_pitch_lag_present")은 디코더에 대한 신호에 대해 "0"일 수 있고, 피치 지연에 가치있는 정보가 없을 것이므로, 이를 인코딩하는 것은 의미가 없다. 이는 첫 번째 기준에 기초한 검증 프로세스의 결과 일 수 있다.

본 규칙에 따르면, 제 3 제어 데이터 항목 (18e)이 "0"일 때, 고조파 측정치는 낮은 고조파와 관련된 제 1 임계치보다 낮을 수 있다 (이것은 제 1 기준의 충족을 검증하는 하나의 기술 일 수 있다).

도 3 및 4는 제 3 제어 항목 (18e)이 제공되지 않은 제 1 프레임 (16, 16') 및 제 2 프레임 (17, 17')의 예를 도시한다 (제 2 프레임 (17')은 부가적인 고조파 정보를 인코딩하며, 이는 일부 예에서 선택적 일 수 있다) . 일부 예에서, 이러한 프레임은 사용되지 않는다. 그러나, 일부 예에서, 제 3 제어 항목 (18e)의 부재와는 별도로, 프레임 (16, 16', 17, 17')은 도 5의 프레임 16" 및 17"의 동일한 필드를 갖는다.

도 2는 장치 (10)의 특정 구현 일 수 있는 장치 (10')의 예를 도시한다. 따라서 장치 (10)의 특성 (신호, 코드, 전송 / 저장 특징, 블루투스 구현 등의 특징)은 여기에서 반복되지 않는다. 장치 (10')는 오디오 신호 (11)의 인코딩 된 오디오 신호 정보 (예를 들어, 프레임 12, 12', 12")를 준비 할 수 있다. 장치 (10')는 피치 추정기 (13), 신호 분석기 (14) 및 비트 스트림 형성기 (15)를 포함 할 수 있고, 이는 장치(10)로서 (또는 매우 유사한 것들) 일 수 있다. 또한, 장치 (10')는 샘플링, 리샘플링 및 필터링을 위한 컴포넌트를 포함 할 수 있다.

피치 추정기 (13)는 피치 정보 (13a) (예를 들어, "ltpf_pitch_lag"와 같은 피치 지연)를 출력 할 수 있다.

신호 분석기 (14)는 고조파 정보 24c (14a)를 출력 할 수 있으며, 일부 예에서는 복수의 값 (예를 들어, 복수의 값으로 구성된 벡터)에 의해 형성 될 수 있다. 신호 분석기 (14)는 고조파 측정치 (24a)를 출력 할 수있는 고조파 측정기 (24)를 포함 할 수 있다. 고조파 측정치 (24a)는 정규화 된 또는 비정규 화 된 상관 / 자기 상관 정보, 이득 (예를 들어, 필터 후 이득) 정보, 주기성 정보, 예측 성 정보, 신호의 안정성 및 / 또는 진화에 관한 정보, 그 처리 된 버전 등을 포함 할 수 있다. 참조 부호 (24a)는 복수의 값을 지칭 할 수 있지만, 이들 중 적어도 일부 (또는 모두)는 동일하거나 상이 할 수 있고, 및 / 또는 동일한 값의 처리 된 버전, 및 / 또는 상이한 샘플링 레이트(샘플링 속도)에서 획득될 수 있다.

예를 들어, 고조파 측정치 (24a)는 제 1 고조파 측정치 (24a') (제 1 샘플링 속도, 예를 들어 6.4 KHz로 측정 될 수 있음) 및 제 2 고조파 측정치 (24a") (예를 들어, 제 2 샘플링 속도에서 측정 될 수 있음)를 포함 할 수 있다. 12.8 KHz). 다른 예에서, 동일한 측정이 사용될 수있다.

블록 21에서, 고조파 측정치 (24a) (예를 들어, 제 1 고조파 측정치 (24a'))가 제 1 기준을 충족하는지, 예를 들어, 그것들이 메모리 요소(23)에 저장 될 수 있는 제 1 임계치를 초과하는지 검증된다.

예를 들어, 적어도 하나의 고조파 측정치 (24a) (예를 들어, 제 1 고조파 측정치 (24a'))가 제 1 임계치와 비교 될 수 있다. 제 1 임계치는 예를 들어 메모리 요소 (23) (예를 들어, 비-일시적 메모리 요소)에 저장 될 수 있다. 블록 (21) (제 1 임계치와 제 1 고조파 측정치 (24a')의 비교자(comparer)로 볼 수 있음)은 오디오 신호 (11)의 고조파가 제 1 임계치를 초과하는지 여부 (특히, 제 1 고조파 측정치(24a')가 제 1 임계치를 초과하는지 여부)를 나타내는 고조파 정보 (21a)를 출력 할 수 있다.

예에서, ltpf_pitch_present는 예를 들어,

이고, 여기서

는 6.4 kHz의 샘플링 속도에서의 오디오 신호이고,

는 현재 프레임의 길이이며,

는 현재 프레임에 대해 피치 추정기에 의해 획득되는 피치-지연이고 normcorr(x,L,T)는 지연 T에서 길이 L의 신호 x의 정규화 된 상관(normalized correlation)이다

일부 예들에서, 다른 샘플링 레이트들 또는 다른 상관들이 사용될 수 있다. 예에서, 제 1 임계치는 0.6 일 수 있다. 실제로 0.6 이상의 고조파 측정치의 경우 PLC가 안정적으로 수행 될 수 있다. 그러나 0.6보다 약간 큰 값이라도 LTPF를 안정적으로 수행 할 수 있다고 항상 보장되는 것은 아니다.

따라서, 블록 (21)으로부터의 출력 (21a)은 고조파가 제 1 임계치를 초과하는 경우 (예를 들어, 제 1 고조파 측정치 (24a')가 제 1 임계치를 초과하는 경우) "1"일 수 있는 이진 값 (예를 들어, "ltpf_pitch_lag_present") 일 수 있고, 고조파가 제 1 임계치 미만인 경우 "0"일 수 있다. 고조파 정보 (21a) (예를 들어, "ltpf_pitch_lag_present")는 출력 (13a)의 실제 인코딩을 제어 할 수 있다. 기준이 충족되지 않으면, 피치 정보 (13a)는 인코딩되지 않으며; 고조파가 제 1 임계치 (ltpf_pitch_lag_present = 1)을 초과하거나 제 1 기준이 충족되면, 피치 정보가 실제로 인코딩된다. 출력 (21a) ( "ltpf_pitch_lag_present")은 인코딩 될 수 있다. 따라서, 출력 (21a)은 제 3 제어 항목 (18e)으로서 인코딩 될 수 있다 (예를 들어, 출력 (21a)가 "0"일 때 제 3 프레임 (18")을 인코딩하고 출력 (21a)가 "1"일 때 제 2 또는 제 3 프레임을 인코딩하기 위해).

고조파 측정기 (24)는 비트 스트림 형성기 (15)에 의해 인코딩 된 오디오 신호 정보 (12, 12', 12")로 인코딩 될 수 있는 이득 정보 (예를 들어, "ltpf_gain") 일 수 있는 고조파 측정치 (24b)를 선택적으로 출력 할 수 있다. 다른 파라미터가 제공 될 수도 있다. 다른 고조파 정보 (24b)는 일부 예에서 디코더 측의 LTPF에 사용될 수 있다.

블록 (22)에 의해 지시 된 바와 같이, 제 2 기준의 충족의 검증은 적어도 하나의 고조파 측정치 (24a) (예를 들어, 제 2 고조파 측정치 (24a"))에 기초하여 수행 될 수 있다.

제 2 기준이 기초로 하는 하나의 조건은 적어도 하나의 고조파 측정치 (24a) (예를 들어, 제 2 고조파 측정치 (24a"))를 제 2 임계치와 비교하는 것일 수 있다. 제 2 임계치는 예를 들어 메모리 요소 (23)에 저장 될 수 있다 (예를 들어, 제 1 임계치를 저장하는 것과 다른 메모리 위치에).

제 2 기준은 또한 다른 조건 (예를 들어, 2 개의 상이한 조건의 동시 충족에 기초)에 기초 할 수 있다. 하나의 추가 조건은 예를 들어 이전 프레임에 기초 할 수 있다. 예를 들어, 적어도 하나의 고조파 측정치 (24a) (예를 들어, 제 2 고조파 측정치 (24a"))를 임계치와 비교할 수 있다.

따라서, 블록 (22)은 적어도 하나의 조건 또는 복수의 조건 (예를 들어, 현재 프레임상의 하나의 조건 및 이전 프레임상의 하나의 조건)에 기초 할 수 있는 고조파 정보 (22a)를 출력 할 수 있다.

블록 (22)은 (예를 들어, 제 2 기준의 검증 프로세스의 결과로서) 오디오 신호 (11)의 (현재 프레임 및 / 또는 이전 프레임에 대한) 고조파가 제 2 임계치를 초과 하는지를 나타내는 고조파 정보 (22a)를 출력 할 수 있다 (예를 들어, 제 2 고조파 측정치(24a")가 제 2 임계치를 초과하는지의 여부). 고조파 정보 (22a)는 이진 값 (예를 들어, "ltpf_active") 일 수 있으며, 이 고조파가 제 2 임계치를 초과하면 (예를 들어, 제 2 고조파 측정치 (24a")가 제 2 임계치 위에 있는 경우) "1"일 수 있고, (현재 프레임 및 / 또는 이전 프레임의) 고조파가 제 2 임계치 아래에 있는 경우 (예를 들어, 제 2 고조파 측정치 (24a")가 제 2 임계치 아래인 경우)에 "0"일 수 있다.

(값 24b가 실제로 제공되는 예에서) 고조파 정보 (22a) (예를 들어, "ltpf_active")는 (제공되는 곳에서) 값 (24b)의 실제 인코딩을 제어할 수 있다: 고조파 (예를 들어, 제 2 고조파 측정치 (24a"))가 제 2 기준을 충족시키지 못하고 (예를 들어, 고조파가 제 2 임계치 미만이고 ltpf_active = 0 인 경우), 추가 고조파 정보 (24b) (예를 들어, 추가 고조파 정보가 없음)가 인코딩 되지 않고; 고조파 (예를 들어, 제 2 고조파 측정치 (24a"))가 제 2 기준을 충족하는 경우 (예를 들어, 제 2 임계치를 초과하고 ltpf_active = 1), 추가 고조파 정보 (24b)가 실제로 인코딩된다.

특히, 제 2 기준은 상이한 및 / 또는 추가 조건에 기초 할 수 있다. 예를 들어, 신호가 시간상 안정적인지 (예를 들어, 정규화 된 상관이 2 개의 연속 프레임에서 유사한 거동을 갖는지)를 검증 할 수 있다.

제 2 임계치(들)은 제 1 임계치와 관련된 고조파 성분 위에 있는 고조파 성분과 연관되도록 정의 될 수 있다. 예에서, 제 1 및 제 2 임계치와 비교되는 고조파 측정치가 0과 1 사이의 값 (여기서 0은 고조파 신호가 아님을 의미하고; 1은 완전 고조파 신호를 의미함)을 가정하면, 제 1 및 제 2 임계치가 선택 될 수 있고, 제 1 임계치는 제 2 임계치보다 낮다 (예를 들어, 제 1 임계치와 관련된 고조파는 제 2 임계치와 관련된 고조파보다 낮다).

값 (22a) (예를 들어, "ltpf_active")은 예를 들어 제 1 또는 제 2 제어 데이터 항목 (16c 또는 17c)이 되도록 인코딩 될 수있다 (도 4). 값 (22a)의 실제 인코딩은 값 (21a)에 의해 제어 될 수 있다 (예를 들어, 선택기 (25)를 사용하여) : 예를 들어, "ltpf_active"는 ltpf_pitch_lag_present = 1 인 경우에만 인코딩 될 수 있지만, (제 3 프레임 (18")을 인코딩하기 위해) ltpf_pitch_lag_present = 0 일 때 "ltpf_active"는 비트 스트림 형성기 (15)에 제공되지 않는다. 이 경우, 디코더에 피치 정보를 제공 할 필요가 없다 : 고조파가 너무 낮아서, 디코더는 PLC 및 LTPF에 대해 피치 정보를 사용하지 않을 것이다. 또한, "ltpf_active"와 같은 고조파 정보는 그 경우에 쓸모가 없을 수 있다 : 피치 정보가 디코더에 제공되지 않기 때문에, 디코더가 LTPF를 수행하려고 시도 할 가능성이 없다.

ltpf_active 값 (16c, 17c, 22a)을 얻기위한 예가 여기에 제공된다. 다른 대안적인 전략이 수행 될 수 있다.

정규화 된 상관 관계는 먼저 다음과 같이 계산 될 수 있다

"pitch_int"는 피치 지연의 정수 부분(integer part)이고 "pitch_fr"은 피치 지연의 소수 부분(fractional part)이며,

은 (예를 들어) 12.8kHz에서 리샘플링 된 입력 신호이고

는 다음에 의해 주어지는 FIR 저역 통과 필터의 임펄스 응답이고,

tab_ltpf_interp_x12k8 은, 예를 들어, 다음 값들로부터 선택된다:

double tab_ltpf_interp_x12k8[15] = {
+6.698858366939680e-03, +3.967114782344967e-02, +1.069991860896389e-01
+2.098804630681809e-01, +3.356906254147840e-01, +4.592209296082350e-01
+5.500750019177116e-01, +5.835275754221211e-01, +5.500750019177116e-01
+4.592209296082350e-01, +3.356906254147840e-01, +2.098804630681809e-01
+1.069991860896389e-01, +3.967114782344967e-02, +6.698858366939680e-03};

LTPF 활성화 비트 ("ltpf_active")는 다음 절차에 따라 획득 될 수 있다:

if (
(mem_ltpf_active==0 && mem_nc>0.94 && nc>0.94) ||
(mem_ltpf_active==1 && nc>0.9) ||
(mem_ltpf_active==1 && abs(pit-mem_pit)<2 && (nc-mem_nc)>-0.1 && nc>0.84)
)
{
ltpf_active = 1;
}
else
{
ltpf_active = 0;
}

여기서 mem_ltpf_active는 이전 프레임의 ltpf_active 값 (이전 프레임에서 ltpf_pitch_present = 0이면 0 임), mem_nc는 이전 프레임의 nc 값 (이전 프레임에서 ltpf_pitch_present = 0이면 0 임), pit=pitch_int+pitch_fr/4 및 mem_pit은 이전 프레임에서 pit의 값이다 (이전 프레임에서 ltpf_pitch_present = 0이면 0임). 이 절차는, 예를 들어, 도 6b에 도시되어 있다 (이하 참조).그림 2의 설계(스키마타이제이션, schematization)는 순전히 표시적라는 점에 유의해야 한다. 블록 (21, 22) 및 선택기 대신에, 상이한 하드웨어 및 / 또는 소프트웨어 유닛이 사용될 수 있다. 예에서, 블록 (21 및 22), 피치 추정기, 신호 분석기 및 / 또는 고조파 측정기 및 / 또는 비트 스트림 형성기와 같은 구성 요소 중 적어도 2 개의 구성 요소는 하나의 단일 요소로 구현 될 수 있다.

수행 된 측정을 기반으로 다음 사이를 구분할 수 있다.

-세 번째 상태 :

o 첫 번째 기준이 충족되지 않음;

o 블록 (21) 및 블록 (22)의 출력 (21a 및 22a)은 모두 "0"임;

o 출력들 13a ( "예를 들어,"ltpf_pitch_lag"), 24b (예를 들어, 추가 고조파 정보, 선택적) 및 22a (예를 들어,"ltpf_active")가 인코딩되지 않음;

o 출력 (21a)의 값 "0"(예를 들어, "ltpf_pitch_lag_present")만이 인코딩됨;

o 제 3 프레임 (18")은 제 3 제어 항목 "0"(예를 들어,"ltpf_pitch_lag_present"로부터) 및 오디오 신호의 신호 표현으로 인코딩되지만, 어떠한 비트 인코딩 피치 정보 및 / 또는 제 1 및 제 2 제어 항목은 없음;

o 따라서, 디코더는 LTPF 및 PLC에 대해 피치 정보 및 고조파 정보가 사용될 수 없다는 것을 이해할 것이다 (예를 들어, 매우 낮은 고조파로 인해);

-첫 번째 상태 :

o 첫 번째 기준이 충족되고 두 번째 기준이 충족되지 않음;

o 블록 (21)의 출력 (21a)은 "1"이고 (예를 들어, 제 1 기준의 충족, 예를 들어, 제 1 측정치 (24a')가 제 1 임계치보다 큼), 블록(22)의 출력 (22a)는 "0"임 (예를 들어, 제 2 측정치 (24a")가 제 2 임계치 아래에 의해, 예를 들어, 현재 또는 이전 프레임에 대한, 제 2 기준의 비-충족);

o 출력 (21a)의 값 "1"(예를 들어, "ltpf_pitch_lag_present")은 18e로 인코딩됨;

o 출력 (13a) (예를 들어, "ltpf_pitch_lag")은 16b로 인코딩됨;

o 출력 (22a)의 값 "0"(예를 들어, "ltpf_active")은 16c로 인코딩됨;

o 선택적인 출력 (24b) (예를 들어, 추가 고조파 정보)은 인코딩되지 않음;

o 제 1 프레임 (16")은 "1"과 동일한 제 3 제어 데이터 항목 (예를 들어,"ltpf_pitch_lag_present "(18e)으로부터)과 함께, "0"과 같은 제 1 제어 데이터 항목을 인코딩하는 하나의 단일 비트 (예를 들어,"ltpf_active "로부터 (16c)), 및 (예를 들어, "ltpf_pitch_lag"로부터 취한) 제 1 피치 정보 (16b)를 인코딩하기 위한 (예를 들어, 고정 된 위치에서) 고정 된 양의 비트(a fixed amount of bits)와 함께 인코딩;

o 따라서, 디코더는 단지 PLC에 대해서만 피치 정보 (13a) (예를 들어, 16b로 인코딩 된 피치 지연)를 사용할 것이고, LTPF에 대해서는 피치 정보 또는 고조파 정보가 사용되지 않을 것이라는 것을 이해할 것이다;

-두 번째 상태 :

o 첫 번째 및 두 번째 기준이 충족됨;

o 블록 (21) 및 블록 (22)의 출력 (21a 및 22a)은 모두 "1" (예를 들어, 제 1 기준의 충족, 예를 들어, 제 1 측정치 (24a')가 제 2 임계치보다 크고, 예를 들어, 제 2 기준을 충족하는 제 2 측정치 (24a"), 예를 들어, 제 2 측정치 (24a")는 현재 프레임 또는 이전 프레임에서 제 2 임계치보다 더 크다);

o 출력 (21a)의 값 "1"(예를 들어, "ltpf_pitch_lag_present")이 인코딩됨;

o 출력 (13a) (예를 들어, "ltpf_pitch_lag")이 인코딩됨;

o 출력 (22a)의 값 "1"(예를 들어, "ltpf_active")이 인코딩됨;

o 제 2 프레임 (17")은 1과 동일한 제 3 제어 데이터 항목 (예를 들어, 18e의 "ltpf_pitch_lag_present "로부터), "1"과 같은 제 2 제어 데이터 항목을 인코딩하는 하나의 단일 비트 (예를 들어, 17c에서 "ltpf_active"), 17b에서 (예를 들어, "ltpf_pitch_lag"로부터 취해지는) 제 2 피치 정보를 인코딩하기 위한 (예를 들어, 고정 된 위치에서) 고정 된 양의 비트, 및, 선택적으로, 17d에서의 추가 정보 (예를 들어, 추가 고조파 정보)와 함께 인코딩됨;

o 따라서, 디코더는 PLC에 대해 피치 정보 (13a) (예를 들어, 피치 지연)를 사용하고, (경우에 따라) (예를 들어, 고조파가 LTPF와 PLC 모두에 충분하다고 가정 할 때) LTPF에 대한 추가 고조파 정보 및 피치 정보를 사용할 것이다.

따라서, 도 5를 참조하면, 예를 들어 장치 (10')에서 비트 스트림 형성기 (15)에 의해 제공 될 수 있는 프레임 (12")이 도시되어 있다. 특히 다음과 같이 인코딩 될 수 있다:

-세 번째 상태 인 경우, 필드와 함께 세 번째 프레임 18" :

o 값이 "0"인 제 3 제어 데이터 항목 (18e) (예를 들어, 21a로부터 획득 된, "ltpf_pitch_lag_present"); 과

o 오디오 신호 (11)의 인코딩 된 표현 (18a);

-첫 번째 상태 인 경우, 필드와 함께 첫 번째 프레임 16" :

o 값이 "1"인 제 3 제어 데이터 항목 (18e) (예를 들어, 21a로부터 획득 된 "ltpf_pitch_lag_present");

o 오디오 신호 (11)의 인코딩 된 표현 (16a);

o 제 1 프레임 (16")의 고정 데이터 필드에서 제 1 피치 정보 (16b) (예를 들어, 13a로부터 획득 된 "ltpf_pitch_lag"); 과

o 값이 "0"인 제 1 제어 데이터 항목 (16c) (예를 들어, 22a로부터 획득 된 "ltpf_active"); 및

-두 번째 상태 인 경우, 필드와 함께 두 번째 프레임 17" :

o 값이 "1"을 갖는 제 3 제어 데이터 항목 (18e) (예를 들어, 21a로부터 획득 된 "ltpf_pitch_lag_present");

o 오디오 신호 (11)의 인코딩 된 표현 (17a);

o 제 2 피치 정보 (17b) (예를 들어, 13a로부터 획득 된 "ltpf_pitch_lag") 제 2 프레임 (17");

o 값이 "1"을 갖는 제 2 제어 데이터 항목 (17c) (예를 들어, 22a로부터 획득 된 "ltpf_active"); 과

o 제공되는 경우, (선택적) 고조파 정보 (17d) (예를 들어, 24b로부터 획득).

예에서, 제 3 프레임 (18")은 제 1 또는 제 2 피치 정보에 대한 고정 데이터 필드를 나타내지 않으며, 제 1 제어 데이터 항목 및 제 2 제어 데이터 항목을 인코딩하는 임의의 비트를 나타내지 않는다.

제 3 제어 데이터 항목 (18e) 및 제 1 및 제 2 제어 데이터 항목 (16c 및 17c)으로부터, 디코더는 다음을 이해할 것이다 :

-디코더는 세 번째 상태의 경우 피치 정보 및 고조파 정보를 사용하여 LTPF 및 PLC를 구현하지 않는다.

-디코더는 LTPF를 구현하지 않고 첫 번째 상태의 경우에만 피치 정보로 PLC를 구현한다.

-디코더는 두 번째 상태 인 경우 피치 정보를 사용하여 PLC와 피치 정보 모두를 사용하여 PLC를 수행한다.

도 5에서 알 수있는 바와 같이, 일부 예에서 :

-제 3 프레임 (18)은 제 1 피치 정보 (16b), 제 1 제어 데이터 항목 (16c), 제 2 피치 정보 (17b) 및 제 2 제어 데이터 항목 (17c)이 없는(부족한) 포맷을 가질 수 있고;

-제 3 제어 데이터 항목 (18e)은 제 1 및 제 2 프레임 (16", 17")으로부터 제 3 프레임 (18")을 구별하는 값을 갖는 하나의 단일 비트로 인코딩 될 수 있으며; 및 / 또는

-인코딩 된 오디오 신호 정보에서, 제 1 프레임 (16")에 대해, 하나의 단일 비트가 제 1 제어 데이터 항목 (16c)에 대해 예약 될 수 있고 고정 데이터 필드 (16b)가 제 1 피치 정보에 대해 예약 될 수 있고; 및 / 또는

-인코딩 된 오디오 신호 정보에서, 제 2 프레임 (17")에 대해, 하나의 단일 비트가 제 2 제어 데이터 항목 (17c)에 대해 예약 될 수 있고 고정 데이터 필드 (17b)가 제 2 피치 정보에 대해 예약 될 수 있고; 및 / 또는

-제 1 제어 데이터 항목 (16c) 및 제 2 제어 데이터 항목 (17c)은 인코딩 된 오디오 신호 정보의 데이터 필드 또는 동일한 부분에서 인코딩 될 수 있으며; 및 / 또는

인코딩 된 오디오 신호 정보는 제 3 제어 데이터 항목 (18e)을 인코딩하는 하나의 제 1 시그널링 비트를 포함 할 수 있고; 및 / 또는 제 1 피치 정보 및 / 또는 제 2 피치 정보의 존재를 나타내는 제 3 제어 데이터 항목의 값의 경우, 제 1 제어 데이터 항목 및 제 2 제어 데이터 항목을 인코딩하는 제 2 시그널링 비트를 포함할 수 있다.

도 6a는 실시 예에 따른 방법 (60)을 도시한다. 방법은 예를 들어 장치 (10 또는 10')을 사용하여 작동 될 수 있다. 상기 방법은 예를 들어 상기 설명 된 바와 같이 프레임 16", 17", 18" 을 인코딩 할 수있다.

방법 (60)은 예를 들어 신호 분석기 (14) 및 특히 고조파 측정기 (24)를 사용하여 오디오 신호 (11)로부터 (특정 시간 간격으로) 고조파 측정치 (예를 들어, 24a)를 얻는 단계 (S60)를 포함 할 수 있다. 고조파 측정치 (고조파 정보)는, 오디오 신호 (11)에 (예를 들어, 시간 간격 동안) 적용되는, 예를 들어 상관 정보 (예를 들어, 자기 상관 정보), 이득 정보 (예를 들어, 필터 후(포스트 필터) 이득 정보), 주기성 정보, 예측성 정보 중 적어도 하나 또는 그 조합을 포함하거나 이를 기초로 할 수 있다. 예를 들어, 제 1 고조파 측정치 (24a')가 얻어 질 수 있고 (예를 들어, 6.4 KHz에서) 제 2 고조파 측정치 (24a")가 얻어 질 수 있다 (예를 들어, 12.8 KHz에서). 다른 예에서, 동일한 고조파 측정이 사용될 수 있다.

이 방법은 예를 들어 블록 (21)을 사용하여 제 1 기준의 충족을 검증하는 단계를 포함 할 수 있다. 예를 들어, 고조파 측정치(들)과 제 1 임계치의 비교가 수행 될 수 있다. S61에서 제 1 기준이 충족되지 않으면 (예를 들어, 고조파가 제 1 임계치 미만, 예를 들어, 제 1 측정치 (24a')가 제 1 임계치 미만인 경우), S62에서 제 3 프레임 (18")이 인코딩 될 수 있고, 제 3 프레임 (18)은, 예를 들어, 피치 정보 및 부가적인 고조파 정보와 같은 값을 인코딩하기 위해 임의의 비트를 예약하지 않고, 제 3 제어 데이터 항목 (18e)에서 (예를 들어, "ltpf_pitch_lag_present") "0" 값을 표시한다. 따라서, 디코더는 인코더에 의해 제공된 피치 정보 및 고조파 정보에 기초하여 LTPF도 PLC도 수행하지 않을 것이다.

S61에서, 제 1 기준이 충족되는 것으로 판정되면 (예를 들어, 고조파가 제 1 임계치보다 크고 따라서 고조파의 낮은 레벨에 있지 않음), 단계 S63 및 S65에서, 제 2 기준이 충족되는지가 검사된다. 제 2 기준은, 예를 들어, 현재 프레임에 대한 고조파 측정치와 적어도 하나의 임계치의 비교를 포함 할 수 있다.

예를 들어, 단계 (S63)에서 고조파 (예를 들어, 제 2 고조파 측정치 (24a"))는 제 2 임계치와 비교된다 (일부 예에서, 예를 들어, 고조파 측정치가 완전 고조파 신호와 관련된, 1 값 및, 완전하게 비-고조파 신호와 관련된 0 값 사이라는 가정 하에, 제 2 임계치는 그와 관련된 고조파 성분이 제 1 임계치와 연관된 고조파 성분보다 더 크도록 설정된다).

S63에서 고조파가 제 2 임계치보다 크지 않다고 결정되면 (예를 들어, 일부 경우 중간 레벨의 고조파와 관련 될 수 있음), S64에서 제 1 프레임 (16, 16', 16")이 인코딩된다. (중간 고조파를 나타내는) 제 1 프레임은 "1"일 수 있는 제 3 제어 데이터 항목 (18e) (예를 들어, "ltpf_pitch_lag_present"), "0"일 수 있는, 제 1 제어 데이터 항목 (16b) (예를 들어, "ltpf_active"), 및 피치 지연 ("ltpf_pitch_lag")와 같은 제 1 피치 정보 (16b)의 값을 포함하도록 인코딩 될 수 있다. 따라서, 제 1 프레임 (16, 16', 16")을 수신하면, 디코더는 PLC를 위해 제 1 피치 정보 (16b)를 사용하지만, LTPF를 위해 제 1 피치 정보 (16b)를 사용하지 않을 것이다.

특히, S61 및 S62에서 수행 된 비교는 상이한 고조파 측정치에 기초 할 수 있으며, 예를 들어 상이한 샘플링 속도에서 획득 될 수있다.

S63에서 고조파가 제 2 임계치보다 큰 것으로 판정되면 (예를 들어, 제 2 고조파 측정치가 제 2 임계치를 초과하는 경우), 단계 S65에서, 오디오 신호가 과도 신호인지 (transient signal), 예를 들어, 오디오 신호(11)의 시간적 구조가 변화되었는지 (또는 이전 프레임상의 다른 조건이 충족되는 경우인지)가 확인될 수 있다. 예를 들어, 이전 프레임 또한 제 2 임계치를 초과하는 조건을 충족시키는 지 확인할 수 있다. 이전 프레임의 상태가 유지되면 (과도 없음), 신호가 안정된 것으로 간주되고 단계 S66을 트리거 할 수 있다. 그렇지 않으면, 방법은 단계 S64로 계속하여 제 1 프레임 16, 16' 또는 16" 을 인코딩한다 (상기 참조).

단계 S66에서, 제 2 프레임 (17, 17', 17")이 인코딩 될 수 있다. 제 2 프레임 (17")은 값이 "1"인 제 3 제어 데이터 항목 (18e) (예를 들어,"ltpf_pitch_lag_present") 및 "1"일 수 있는 제 2 제어 데이터 항목 (17c) (예를 들어,"ltpf_active")을 포함 할 수 있다. 따라서, (예를 들어, "pitch_lag" 및 선택적으로 추가 고조파 정보 (17d)와 같은) 피치 정보 (17b)가 인코딩 될 수 있다. 디코더는 피치 정보를 갖는 PLC 및 피치 정보를 갖는 LTPF (및 선택적으로 고조파 정보도)가 사용될 수 있음을 이해할 것이다.

S67에서, 인코딩 된 프레임은 디코더 (예를 들어, 블루투스 연결을 통해)로 전송되거나 메모리에 저장되거나 다른 방식으로 사용될 수 있다.

단계 S63 및 S64에서, 정규화 된 상관 측정 nc (제 2 측정치 24a")는 12.8KHz에서 획득 된 정규화 된 상관 측정 nc 일 수 있다 (위 및 아래 참조). 단계 S61에서, 정규화 된 상관 관계 (제 1 측정치 (24a'))는 6.4 KHz에서의 정규화 된 상관 관계 일 수 있다 (또한 위 및 아래 참조).

도 6b는 또한 사용될 수 있는 방법 (60b)을 도시한다. 도 6b는 ltpf_active의 값을 결정하기 위해 사용될 수 있는 제 2 기준 (600)의 예를 명시적으로 도시한다.

보여지는 바와 같이, 단계 S60, S61 및 S62는 방법 (60)에서와 같으므로 반복되지 않는다.

단계 S610에서, 다음의 경우인지 검사 될 수있다 :

-이전 프레임에 대해, ltpf_active = 0 (mem_ltpf_active = 0으로 표시)을 얻었는지 여부; 및

-이전 프레임에 대해, 정규화 된 상관 측정 nc (24a")가 제 3 임계치 (예를 들어, 0.92와 0.96 사이의 값, 예를 들어 0.94)보다 큰지 여부; 및

-현재 프레임에 대해, 정규화 된 상관 측정 nc (24a")가 제 3 임계치 (예를 들어, 0.92와 0.96 사이의 값, 예컨대 0.94)보다 큰지 여부.

결과가 긍정(positive)인 경우, S614에서 ltpf_active가 1로 설정되고 단계 S66 (제 2 프레임 17, 17', 17"을 인코딩 함) 및 S67 (인코딩 된 프레임을 전송 또는 저장함)이 트리거된다.

단계 S610에서 설정된 조건이 검증되지 않으면, 단계 S611에서 점검 될 수 있다 :

-이전 프레임에 대해, (mem_ltpf_active = 1로 표시되는) ltpf_active = 1 을 얻었는지 여부;

-현재 프레임에 대해, 정규화 된 상관 측정 nc (24a")가 제 4 임계치보다 큰지 여부 (예를 들어, 0.85와 0.95 사이의 값, 예를 들어 0.9).

결과가 긍정인 경우, S614에서 ltpf_active가 1로 설정되고 단계 S66 (제 2 프레임 17, 17', 17"을 인코딩 함) 및 S67 (인코딩 된 프레임을 전송 또는 저장함)이 트리거된다.

단계 S611에서 설정된 조건이 검증되지 않으면, 다음의 경우가 단계 S612에서 점검 될 수 있다 :

-이전 프레임에 대해, (mem_ltpf_active = 0으로 표시되는) ltpf_active = 0 을 얻었는지 여부;

-현재 프레임에 대해, 현재 피치와 이전 피치 사이의 거리는 제 5 임계치보다 작은지 여부 (예를 들어, 1.8과 2.2 사이의 값, 예를 들어 2); 및

-현재 프레임의 정규화 된 상관 측정 nc (24a")와 이전 프레임의 정규화 된 상관 측정 mem_nc의 차이가 제 6 임계치보다 큰지 여부 (예를 들어, -0.15와 -0.05 사이의 값, 예를 들어 -0.1) ; 및

-현재 프레임에 대해, 정규화 된 상관 측정 nc (24a")는 제 7 임계치 (예를 들어, 0.82와 0.86 사이의 값, 예컨대 0.84)보다 큰지 여부.

(단계 S610-S612의 일부 예에서, 일부 조건은 유지되는 동안 일부 조건은 회피될 수도 있음)

S612에서의 검사 결과가 긍정적이면, ltpf_active는 S614에서 1로 설정되고 단계 S66 (제 2 프레임 (17, 17', 17")을 인코딩 함) 및 S67 (인코딩 된 프레임을 전송 또는 저장함)이 트리거된다.

그렇지 않으면, S610-S612에서 검사가 확인되지 않으면, S613에서 ltpf_active가 현재 프레임에 대해 0으로 설정되고 단계 S64가 트리거되어 제 1 프레임(첫 번째 프레임) 16, 16', 16"을 인코딩한다.

단계 S610-S612에서, 정규화 된 상관 측정 nc (제 2 측정치 (24a"))는 12.8KHz에서 획득 된 정규화 된 상관 측정 일 수있다 (상기 참조). 단계 S61에서, 정규화 된 상관 관계 (제 1 측정치 (24a'))는 6.4 KHz에서의 정규화 된 상관 관계 일 수 있다 (상기 참조).

알 수 있는 바와 같이, 현재 프레임 및 / 또는 이전 프레임과 관련된 몇 가지 메트릭스(metrics)가 고려 될 수 있다. 그러므로, 제 2 기준의 충족은 몇몇 측정치 (예를 들어, 현재 및 / 또는 이전 프레임과 관련됨)가, 각각, 몇몇 임계치 이상인지, 또는 그 아래인지 여부를 확인함으로써 검증 될 수 있다 (예를 들어, 단계 S610-S612의 제 3 내지 제 7 임계치 중 적어도 일부).

인코더 측에서 LTPF에 대한 파라미터를 얻는 방법에 대한 몇 가지 예가 여기에 제공된다.

리샘플링 기술의 예가 여기에서 논의된다 (다른 기술도 사용될 수 있다).

샘플링 속도

의 입력 신호는 12.8kHz의 고정 샘플링 속도로 리샘플링된다. 리샘플링은 다음과 같이 공식화 될 수있는 업샘플링 + 로우-패스-필터링 + 다운샘플링 방식(upsampling+low-pass-filtering+downsampling approach)을 사용하여 수행된다

x(n)은 입력 신호이고,

은 12.8kHz에서 리샘플링 된 신호이고,

는 업샘플링 계수이고

는 다음에 의해 주어지는 FIR 저역-통과 필터의 임펄스 응답이다.

"tab_resamp_filter"의 예는 다음과 같다:

double tab_resamp_filter[239] = {
-2.043055832879108e-05, -4.463458936757081e-05, -7.163663994481459e-05,
-1.001011132655914e-04, -1.283728480660395e-04, -1.545438297704662e-04,
-1.765445671257668e-04, -1.922569599584802e-04, -1.996438192500382e-04,
-1.968886856400547e-04, -1.825383318834690e-04, -1.556394266046803e-04,
-1.158603651792638e-04, -6.358930335348977e-05, +2.810064795067786e-19,
+7.292180213001337e-05, +1.523970757644272e-04, +2.349207769898906e-04,
+3.163786496265269e-04, +3.922117380894736e-04, +4.576238491064392e-04,
+5.078242936704864e-04, +5.382955231045915e-04, +5.450729176175875e-04,
+5.250221548270982e-04, +4.760984242947349e-04, +3.975713799264791e-04,
+2.902002172907180e-04, +1.563446669975615e-04, -5.818801416923580e-19,
-1.732527127898052e-04, -3.563859653300760e-04, -5.411552308801147e-04,
-7.184140229675020e-04, -8.785052315963854e-04, -1.011714513697282e-03,
-1.108767055632304e-03, -1.161345220483996e-03, -1.162601694464620e-03,
-1.107640974148221e-03, -9.939415631563015e-04, -8.216921898513225e-04,
-5.940177657925908e-04, -3.170746535382728e-04, +9.746950818779534e-19,
+3.452937604228947e-04, +7.044808705458705e-04, +1.061334465662964e-03,
+1.398374734488549e-03, +1.697630799350524e-03, +1.941486748731660e-03,
+2.113575906669355e-03, +2.199682452179964e-03, +2.188606246517629e-03,
+2.072945458973295e-03, +1.849752491313908e-03, +1.521021876908738e-03,
+1.093974255016849e-03, +5.811080624426164e-04, -1.422482656398999e-18,
-6.271537303228204e-04, -1.274251404913447e-03, -1.912238389850182e-03,
-2.510269249380764e-03, -3.037038298629825e-03, -3.462226871101535e-03,
-3.758006719596473e-03, -3.900532466948409e-03, -3.871352309895838e-03,
-3.658665583679722e-03, -3.258358512646846e-03, -2.674755551508349e-03,
-1.921033054368456e-03, -1.019254326838640e-03, +1.869623690895593e-18,
+1.098415446732263e-03, +2.231131973532823e-03, +3.348309272768835e-03,
+4.397022774386510e-03, +5.323426722644900e-03, +6.075105310368700e-03,
+6.603520247552113e-03, +6.866453987193027e-03, +6.830342695906946e-03,
+6.472392343549424e-03, +5.782375213956374e-03, +4.764012726389739e-03,
+3.435863514113467e-03, +1.831652835406657e-03, -2.251898372838663e-18,
-1.996476188279370e-03, -4.082668858919100e-03, -6.173080374929424e-03,
-8.174448945974208e-03, -9.988823864332691e-03, -1.151698705819990e-02,
-1.266210056063963e-02, -1.333344579518481e-02, -1.345011199343934e-02,
-1.294448809639154e-02, -1.176541543002924e-02, -9.880867320401294e-03,
-7.280036402392082e-03, -3.974730209151807e-03, +2.509617777250391e-18,
+4.586044219717467e-03, +9.703248998383679e-03, +1.525124770818010e-02,
+2.111205854013017e-02, +2.715337236094137e-02, +3.323242450843114e-02,
+3.920032029020130e-02, +4.490666443426786e-02, +5.020433088017846e-02,
+5.495420172681558e-02, +5.902970324375908e-02, +6.232097270672976e-02,
+6.473850225260731e-02, +6.621612450840858e-02, +6.671322871619612e-02,
+6.621612450840858e-02, +6.473850225260731e-02, +6.232097270672976e-02,
+5.902970324375908e-02, +5.495420172681558e-02, +5.020433088017846e-02,
+4.490666443426786e-02, +3.920032029020130e-02, +3.323242450843114e-02,
+2.715337236094137e-02, +2.111205854013017e-02, +1.525124770818010e-02,
+9.703248998383679e-03, +4.586044219717467e-03, +2.509617777250391e-18,
-3.974730209151807e-03, -7.280036402392082e-03, -9.880867320401294e-03,
-1.176541543002924e-02, -1.294448809639154e-02, -1.345011199343934e-02,
-1.333344579518481e-02, -1.266210056063963e-02, -1.151698705819990e-02,
-9.988823864332691e-03, -8.174448945974208e-03, -6.173080374929424e-03,
-4.082668858919100e-03, -1.996476188279370e-03, -2.251898372838663e-18,
+1.831652835406657e-03, +3.435863514113467e-03, +4.764012726389739e-03,
+5.782375213956374e-03, +6.472392343549424e-03, +6.830342695906946e-03,
+6.866453987193027e-03, +6.603520247552113e-03, +6.075105310368700e-03,
+5.323426722644900e-03, +4.397022774386510e-03, +3.348309272768835e-03,
+2.231131973532823e-03, +1.098415446732263e-03, +1.869623690895593e-18,
-1.019254326838640e-03, -1.921033054368456e-03, -2.674755551508349e-03,
-3.258358512646846e-03, -3.658665583679722e-03, -3.871352309895838e-03,
-3.900532466948409e-03, -3.758006719596473e-03, -3.462226871101535e-03,
-3.037038298629825e-03, -2.510269249380764e-03, -1.912238389850182e-03,
-1.274251404913447e-03, -6.271537303228204e-04, -1.422482656398999e-18,
+5.811080624426164e-04, +1.093974255016849e-03, +1.521021876908738e-03,
+1.849752491313908e-03, +2.072945458973295e-03, +2.188606246517629e-03,
+2.199682452179964e-03, +2.113575906669355e-03, +1.941486748731660e-03,
+1.697630799350524e-03, +1.398374734488549e-03, +1.061334465662964e-03,
+7.044808705458705e-04, +3.452937604228947e-04, +9.746950818779534e-19,
-3.170746535382728e-04, -5.940177657925908e-04, -8.216921898513225e-04,
-9.939415631563015e-04, -1.107640974148221e-03, -1.162601694464620e-03,
-1.161345220483996e-03, -1.108767055632304e-03, -1.011714513697282e-03,
-8.785052315963854e-04, -7.184140229675020e-04, -5.411552308801147e-04,
-3.563859653300760e-04, -1.732527127898052e-04, -5.818801416923580e-19,
+1.563446669975615e-04, +2.902002172907180e-04, +3.975713799264791e-04,
+4.760984242947349e-04, +5.250221548270982e-04, +5.450729176175875e-04,
+5.382955231045915e-04, +5.078242936704864e-04, +4.576238491064392e-04,
+3.922117380894736e-04, +3.163786496265269e-04, +2.349207769898906e-04,
+1.523970757644272e-04, +7.292180213001337e-05, +2.810064795067786e-19,
-6.358930335348977e-05, -1.158603651792638e-04, -1.556394266046803e-04,
-1.825383318834690e-04, -1.968886856400547e-04, -1.996438192500382e-04,
-1.922569599584802e-04, -1.765445671257668e-04, -1.545438297704662e-04,
-1.283728480660395e-04, -1.001011132655914e-04, -7.163663994481459e-05,
-4.463458936757081e-05, -2.043055832879108e-05};

고역 통과 필터 기술의 예가 여기에서 논의된다 (다른 기술이 사용될 수 있다).

리샘플링 된 신호는 전달 함수가 다음과 같이 주어질 수 있는 2-차 IIR 필터(2-order IIR filter)를 사용하여 고역 통과 필터링 될 수 있다.

피치 검출 기술의 예가 여기에서 논의된다 (다른 기술이 사용될 수도 있다).

신호

은 다음을 사용하여 인자 2 (factor of 2)만큼 다운샘플링 될 수 있고

이와 함께

= {0.1236796411180537, 0.2353512128364889, 0.2819382920909148, 0.2353512128364889, 0.1236796411180537}이다.

의 자기 상관은 다음과 같이 계산 될 수 있고

이와 함께

및

는 최소 및 최대 지연(minimum and maximum lags)이다.

자기상관은 다음을 이용하여 가중될 수 있고

이와 함께 w(k)는 다음에 따라 정의된다

피치 지연

의 제 1 추정은 가중된 자기 상관을 최대화하는 지연일 수 있다

피치 지연

의 제 2 추정치는 이전 프레임에서 추정된 피치 지연의 부근에서 비-가중 자기 상관(non-weighted autocorrelation)을 최대화하는 지연 일 수 있고

이와 함께

,

및

는 이전 프레임에서 추정된 최종 피치 지연이다.

현재 프레임의 피치 지연의 최종 추정치는 다음에 의해 주어질 수 있고

이와 함께 normcorr(x, L, T)는 지연 T에서 길이 L의 신호 x의 정규화 된 상관 관계이다

정규화 된 상관은 신호 분석기 (14) 및 / 또는 고조파 측정기 (24)에 의해 획득 된 고조파 측정치 중 적어도 하나 일 수 있다. 이것은 예를 들어 제 1 임계치와의 비교를 위해 사용될 수 있는 고조파 측정치 중 하나이다.

LTPF 비트 스트림 기술을 얻기 위한 예가 여기에서 논의된다 (다른 기술이 사용될 수 있다).

LTPF 비트 스트림의 첫 번째 비트는 비트 스트림에서 피치 지연 파라미터의 존재를 시그널링한다. 그것은 다음에 의해 얻어진다

ltpf_pitch_present가 0이면, 더 이상 비트가 인코딩되지 않고, 단지 하나의 비트의 LTPF 비트 스트림을 초래한다 (제 3 프레임 18" 참조).

ltpf_pitch_present가 1이면, 2 이상의 파라미터가 인코딩되고, 하나의 피치 지연 파라미터 (예를 들어, 9 비트로 인코딩 됨), 및 LTPF의 활성화를 시그널링하기 위한 하나의 비트 (프레임 16" 및 17" 참조). 이 경우, LTPF 비트 스트림 (프레임)은 11 비트로 구성 될 수있다.

피치 지연 파라미터 및 활성화 비트는 다음 섹션에서 설명 된 바와 같이 얻어진다.

이들 데이터는 위에서 논의 된 양식에 따라 프레임 (12, 12', 12")으로 인코딩 될 수 있다.

LTPF 피치 지연 파라미터를 얻기위한 예가 여기에서 논의된다 (다른 기술들이 사용될 수 있다).

LTPF 피치 지연 파라미터의 정수 부분은 다음에 의해 주어질 수 있고

이와 함께

및

,

이다.

LTPF 피치 지연의 소수 부분은 이후 다음에 의해 주어질 수 있고

이와 함께

이고

는 다음에 의해 주어지는 FIR 로우-패스 필터의 임펄스 응답이다

tab_ltpf_interp_R의 값은 예를 들어 다음과 같다:

double tab_ltpf_interp_R[31] = {
-2.874561161519444e-03, -3.001251025861499e-03, +2.745471654059321e-03
+1.535727698935322e-02, +2.868234046665657e-02, +2.950385026557377e-02
+4.598334491135473e-03, -4.729632459043440e-02, -1.058359163062837e-01
-1.303050213607112e-01, -7.544046357555201e-02, +8.357885725250529e-02
+3.301825710764459e-01, +6.032970076366158e-01, +8.174886856243178e-01
+8.986382851273982e-01, +8.174886856243178e-01, +6.032970076366158e-01
+3.301825710764459e-01, +8.357885725250529e-02, -7.544046357555201e-02
-1.303050213607112e-01, -1.058359163062837e-01, -4.729632459043440e-02
+4.598334491135473e-03, +2.950385026557377e-02, +2.868234046665657e-02
+1.535727698935322e-02, +2.745471654059321e-03, -3.001251025861499e-03
-2.874561161519444e-03};

pitch_fr<0 인 경우 pitch_int 및 pitch_fr은 다음에 따라 수정된다

마지막으로, 피치 지연 파라미터 인덱스는 다음에 의해 주어진다

정규화 된 상관 관계는 먼저 다음과 같이 계산 될 수 있고

이와 함께

이고

는 다음에 의해 주어진 FIR 저역-통과 필터의 임펄스 응답이며

이와 함께, 예를 들어, 다음 값들에서 tab_ltpf_interp_x12k8가 선택된다:

LTPF 활성화 비트 ("ltpf_active")는 다음에 따라 설정 될 수 있고

여기서 mem_ltpf_active는 이전 프레임의 ltpf_active 값 (이전 프레임의 pitch_present = 0이면 0임), mem_nc는 이전 프레임의 nc 값 (이전 프레임의 pitch_present = 0이면 0임), pit = pitch_int + pitch_fr / 4 및 mem_pit은 이전 프레임에서 pit의 값이다. (이전 프레임에서 pitch_present = 0이면 0임).

6. 디코더 측면

도 7은 장치 (70)를 도시한다. 장치 (70)는 디코더 일 수 있다. 장치 (70)는 인코딩 된 오디오 신호 정보 (12, 12', 12")와 같은 데이터를 획득 할 수 있다. 장치 (70)는 위의 및 / 또는 아래에서 설명된 동작을 수행 할 수 있다. 인코딩 된 오디오 신호 정보 (12, 12', 12")는 예를 들어 장치 (10 또는 10')와 같은 인코더에 의해 또는 방법 (60)을 구현함으로써 생성 될 수 있다. 예를 들어, 인코딩 된 오디오 신호 정보 (12, 12', 12")는, 방법 (60)을 실행하지 않는 또는 장치 (10 또는 10')과 다른 인코더에 의해, 생성될 수도 있다. 예를 들어, 장치 (70)는 필터링되고 디코딩 된 오디오 신호 정보 (76)를 생성 할 수 있다.

장치 (70)는 인코딩 된 오디오 신호 정보를 획득하기 위해 (예를 들어, 안테나를 사용하여) 통신 유닛을 포함할 수 있다 (또는 그로부터 데이터를 수신할 수 있다). 블루투스 통신이 수행 될 수도 있다. 장치 (70)는 인코딩 된 오디오 신호 정보를 획득하기 위한 저장 유닛을 (예를 들어, 메모리를 사용하여) 포함할 수 있다 (또는 그로부터 데이터를 수신할 수 있다) 장치 (70)는 TD 및 / 또는 FD 에서 동작하는 장비를 포함 할 수 있다.

장치 (70)는 인코딩 된 오디오 신호 정보 (12, 12', 12")를 디코딩 할 수 있는 비트 스트림 판독기 (71) (또는 "비트 스트림 분석기", 또는 "비트 스트림 디포매터(deformatter)" 또는 "비트 스트림 파서(parser)")를 포함 할 수 있다. 비트 스트림 판독기 (71)는 예를 들어 비트 스트림 형태로 획득 된 데이터를 해석하기 위한 상태 머신(state machine)을 포함 할 수 있다. 비트 스트림 판독기 (71)는 오디오 신호 (11)의 디코딩 된 표현 (71a)을 출력 할 수 있다.

디코딩 된 표현 (71a)은 비트 스트림 판독기의 다운스트림(하류, downstream)에 하나 이상의 처리 기술이 적용될 수 있다 (단순성을 위해 여기에서 도시되지 않음).

장치 (70)는 필터링 된 디코딩 된 오디오 신호 정보 (73')를 차례로 제공 할 수 있는 LTPF (73)를 포함 할 수있다.

장치 (70)는 LTPF (73)를 제어 할 수있는 필터 제어기 (72)를 포함 할 수 있다.

특히, LTPF (73)는 비트 스트림 판독기 (71)에 의해 제공 될 때 (특히, 필드 17d, "ltpf_gain", 프레임 17' 또는 17"에 있을 때) 추가 고조파 정보 (예를 들어, 이득 정보)에 의해 제어 될 수 있다.

추가로 또는 대안으로, LTPF (73)는 피치 정보 (예를 들어, 피치 지연)에 의해 제어 될 수 있다. 피치 정보는 프레임 16, 16', 16", 17, 17', 17" 의 필드 16b 또는 17b에 존재할 수 있다. 그러나, 선택기 (78)에 의해 지시 된 바와 같이, 피치 정보는 항상 LTPF를 제어하는데 사용되는 것은 아니다 : 제어 데이터 항목 16c ("ltpf_active")가 "0"일 때, 피치 정보는 LTPF에 의해 사용되지 않는다 (LTPF에 대해 고조파가 너무 낮기 때문에).

장치 (70)는 오디오 정보 (76)를 제공하기 위해 PLC 기능을 수행하기 위한 은닉 유닛 (75)을 포함 할 수 있다. 디코딩 된 프레임에 존재할 때, 피치 정보는 PLC에 사용될 수 있다.

장치 (70)에서의 LTPF의 예는 다음 구절에서 논의된다.

도 8a 및 8b는 사용될 수 있는 프레임에 대한 구문의 예를 도시한다. 다른 필드도 표시된다.

도 8a에 도시 된 바와 같이, 비트 스트림 판독기 (71)는 인코딩되고 있는 프레임의 특정 위치 (필드)에서 제 1 값을 검색 할 수 있다 (프레임이 도 5의 프레임 16", 17" 및 18" 중 하나라는 가설 하에서). 특정 위치는 예를 들어 프레임 (18")에서 제 3 제어 항목 (18e)과 연관된 위치로 해석 될 수 있다 (예를 들어,"ltpf_pitch_lag_present").

"ltpf_pitch_lag_present"(18e)의 값이 "0"이면, 비트 스트림 판독기 (71)는 LTPF 및 PLC에 대한 다른 정보가 없다는 것을 이해한다 (예를 들어, "ltpf_active", "ltpf_pitch_lag", "ltpf_gain").

"ltpf_pitch_lag_present"(18e)의 값이 "1"이면, 판독기 (71)는, 고조파 정보를 나타내는 (예를 들어, 14a, 22a), 제어 데이터 (16c 또는 17c) (예를 들어, "ltpf_active")를 포함하는 필드 (예를 들어, 1 비트 필드)를 검색 할 수 있다. 예를 들어, "ltpf_active"가 "0"인 경우, 프레임은 LTPF에 가치가 없지만 PLC에 사용될 수 있는 고조파를 나타내는, 제 1 프레임 (16") 인 것으로 이해된다. "ltpf_active"가 "1"인 경우, 프레임은 제 2 프레임 (17")이며, LTPF 및 PLC 모두에 대한 귀중한 정보를 전달할 수 있는 것으로 이해된다.

판독기 (71)는 또한 피치 정보 (16b 또는 17b) (예를 들어, "ltpf_pitch_lag")를 포함하는 필드 (예를 들어, 9 비트 필드) 를 검색한다. 이 피치 정보는 은닉 유닛 (75)에 제공 될 수 있다 (PLC에 대해). 이 피치 정보는 선택기 (78)에 의해 도 7에 도시 된 바와 같이, "ltpf_active"가 "1"(예를 들어, 더 높은 고조파) 인 경우에만, 필터 제어기 (72 / LTPF 73)에 제공 될 수 있다.

도 8b의 예에서 유사한 동작이 수행되며, 추가적으로 이득 (17d)은 선택적으로 인코딩 될 수 있다.

7. 디코더 측에서 LTPF의 예

MDCT (Modified Discrete Cosine Transformation) 합성, MDST (Modified Discrete Sine Transformation) 합성 또는 다른 변환에 기반한 합성 후 디코딩 된 신호는, 파라미터가 LTPF 비트 스트림 데이터 "pitch_index"및 "ltpf_active"에 의존 할 수있는 IIR 필터를 사용하여 시간 영역에서 포스트 필터링 될 수 있다. 파라미터가 한 프레임에서 다음 프레임으로 변경 될 때 불연속을 피하기 위해, 현재 프레임의 제 1 쿼터(first quarter)에 전이 메커니즘(transition mechanism)이 적용될 수 있다.

예를 들어, LTPF IIR 필터는 다음을 사용하여 구현될 수 있고

는 필터 입력 신호 (즉, MDCT 합성 후 디코딩 된 신호)이고

는 필터 출력 신호이다.

LTPF 피치 지연의 정수 부분

및 소수 부분

은 다음과 같이 계산 될 수 있다. 먼저 12.8kHz의 피치 지연이 다음을 사용하여 회복된다(recovered)

그 후, 피치 지연은 출력 샘플링 레이트

로 스케일링되고 다음을 사용하여 정수 및 소수 부분으로 변환 될 수 있다

여기서

는 샘플링 속도이다.

필터 계수

및

은 다음과 같이 계산 될 수 있다.

이와 함께,

이며 gain_ltpf 및 gain_ind는 다음에 따라 얻을 수 있고

fs_idx = min(4,(f _s /8000-1));
if (nbits < 320 + fs_idx*80)
{
gain_ltpf = 0.4;
gain_ind = 0;
}
else if (nbits < 400 + fs_idx*80)
{
gain_ltpf = 0.35;
gain_ind = 1;
}
else if (nbits < 480 + fs_idx*80)
{
gain_ltpf = 0.3;
gain_ind = 2;
}
else if (nbits < 560 + fs_idx*80)
{
gain_ltpf = 0.25;
gain_ind = 3;
}
else
{
gain_ltpf = 0;
}

테이블 "tab_ltpf_num_fs [gain_ind]"[k] 및 "tab_ltpf_den_fs"[p_fr][k] 이 미리 결정되어 있다."tab_ltpf_num_fs [gain_ind]"[k]의 예가 여기에 제공된다 ("fs" 대신, 샘플링 속도가 표시됨).

double tab_ltpf_num_8000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_16000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_24000[4][5] = {
{3.989695588963494e-01,5.142508607708275e-01,1.004382966157454e-01,-1.278893956818042e-02,-1.572280075461383e-03},
{3.948634911286333e-01,5.123819208048688e-01,1.043194926386267e-01,-1.091999960222166e-02,-1.347408330627317e-03},
{3.909844475885914e-01,5.106053522688359e-01,1.079832524685944e-01,-9.143431066188848e-03,-1.132124620551895e-03},
{3.873093888199928e-01,5.089122083363975e-01,1.114517380217371e-01,-7.450287133750717e-03,-9.255514050963111e-04}};

double_tab_ltpf_num_32000[4][7] = {
{2.982379446702096e-01,4.652809203721290e-01,2.105997428614279e-01,3.766780380806063e-02,-1.015696155796564e-02,-2.535880996101096e-03,-3.182946168719958e-04},
{2.943834154510240e-01,4.619294002718798e-01,2.129465770091844e-01,4.066175002688857e-02,-8.693272297010050e-03,-2.178307114679820e-03,-2.742888063983188e-04},
{2.907439213122688e-01,4.587461910960279e-01,2.151456974108970e-01,4.350104772529774e-02,-7.295495347716925e-03,-1.834395637237086e-03,-2.316920186482416e-04},
{2.872975852589158e-01,4.557148886861379e-01,2.172126950911401e-01,4.620088878229615e-02,-5.957463802125952e-03,-1.502934284345198e-03,-1.903851911308866e-04}};

double tab_ltpf_num_48000[4][11] = {
{1.981363739883217e-01,3.524494903964904e-01,2.513695269649414e-01,1.424146237314458e-01,5.704731023952599e-02,9.293366241586384e-03,-7.226025368953745e-03,-3.172679890356356e-03,-1.121835963567014e-03,-2.902957238400140e-04,-4.270815593769240e-05},
{1.950709426598375e-01,3.484660408341632e-01,2.509988459466574e-01,1.441167412482088e-01,5.928947317677285e-02,1.108923827452231e-02,-6.192908108653504e-03,-2.726705509251737e-03,-9.667125826217151e-04,-2.508100923165204e-04,-3.699938766131869e-05},
{1.921810055196015e-01,3.446945561091513e-01,2.506220094626024e-01,1.457102447664837e-01,6.141132133664525e-02,1.279941396562798e-02,-5.203721087886321e-03,-2.297324511109085e-03,-8.165608133217555e-04,-2.123855748277408e-04,-3.141271330981649e-05},
{1.894485314175868e-01,3.411139251108252e-01,2.502406876894361e-01,1.472065631098081e-01,6.342477229539051e-02,1.443203434150312e-02,-4.254449144657098e-03,-1.883081472613493e-03,-6.709619060722140e-04,-1.749363341966872e-04,-2.593864735284285e-05}};

"tab_ltpf_den_fs"[p_fr][k]의 예가 여기에 제공된다 ("fs" 대신, 샘플링 속도가 표시됨).

double_tab_ltpf_den_8000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_16000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_24000[4][7] = {
{0.000000000000000e+00, 6.322231627323796e-02, 2.507309606013235e-01, 3.713909428901578e-01, 2.507309606013235e-01, 6.322231627323796e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 3.459272174099855e-02, 1.986515602645028e-01, 3.626411726581452e-01, 2.986750548992179e-01, 1.013092873505928e-01, 4.263543712369752e-03},
{0.000000000000000e+00, 1.535746784963907e-02, 1.474344878058222e-01, 3.374259553990717e-01, 3.374259553990717e-01, 1.474344878058222e-01, 1.535746784963907e-02},
{0.000000000000000e+00, 4.263543712369752e-03, 1.013092873505928e-01, 2.986750548992179e-01, 3.626411726581452e-01, 1.986515602645028e-01, 3.459272174099855e-02}};

double_tab_ltpf_den_32000[4][9] = {
{0.000000000000000e+00, 2.900401878228730e-02, 1.129857420560927e-01, 2.212024028097570e-01, 2.723909472446145e-01, 2.212024028097570e-01, 1.129857420560927e-01, 2.900401878228730e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 1.703153418385261e-02, 8.722503785537784e-02, 1.961407762232199e-01, 2.689237982237257e-01, 2.424999102756389e-01, 1.405773364650031e-01, 4.474877169485788e-02, 3.127030243100724e-03},
{0.000000000000000e+00, 8.563673748488349e-03, 6.426222944493845e-02, 1.687676705918012e-01, 2.587445937795505e-01, 2.587445937795505e-01, 1.687676705918012e-01, 6.426222944493845e-02, 8.563673748488349e-03},
{0.000000000000000e+00, 3.127030243100724e-03, 4.474877169485788e-02, 1.405773364650031e-01, 2.424999102756389e-01, 2.689237982237257e-01, 1.961407762232199e-01, 8.722503785537784e-02, 1.703153418385261e-02}};

double_tab_ltpf_den_48000[4][13] = {
{0.000000000000000e+00, 1.082359386659387e-02, 3.608969221303979e-02, 7.676401468099964e-02, 1.241530577501703e-01, 1.627596438300696e-01, 1.776771417779109e-01, 1.627596438300696e-01, 1.241530577501703e-01, 7.676401468099964e-02, 3.608969221303979e-02, 1.082359386659387e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 7.041404930459358e-03, 2.819702319820420e-02, 6.547044935127551e-02, 1.124647986743299e-01, 1.548418956489015e-01, 1.767122381341857e-01, 1.691507213057663e-01, 1.352901577989766e-01, 8.851425011427483e-02, 4.499353848562444e-02, 1.557613714732002e-02, 2.039721956502016e-03},
{0.000000000000000e+00, 4.146998467444788e-03, 2.135757310741917e-02, 5.482735584552816e-02, 1.004971444643720e-01, 1.456060342830002e-01, 1.738439838565869e-01, 1.738439838565869e-01, 1.456060342830002e-01, 1.004971444643720e-01, 5.482735584552816e-02, 2.135757310741917e-02, 4.146998467444788e-03},
{0.000000000000000e+00, 2.039721956502016e-03, 1.557613714732002e-02, 4.499353848562444e-02, 8.851425011427483e-02, 1.352901577989766e-01, 1.691507213057663e-01, 1.767122381341857e-01, 1.548418956489015e-01, 1.124647986743299e-01, 6.547044935127551e-02, 2.819702319820420e-02, 7.041404930459358e-03}}

전이(transition) 처리와 관련하여, 상이한 5 가지 경우가 고려된다.

제 1 케이스 : ltpf_active = 0 및 mem_ltpf_active = 0

제 2 케이스 : ltpf_active = 1 및 mem_ ltpf_active = 0

제 3 케이스 : ltpf_active = 0 및 mem_ ltpf_active = 1

이와 함께

,

및

는 이전 프레임에서 계산된 필터 파라미터들이다.

제 4 케이스 : ltpf_active = 1 및 mem_ltpf_active = 1 및

및

제 5 케이스 : ltpf_active = 1 및 mem_ltpf_active = 1 및 (

또는

)

8. 패킷 손실 은닉

패킷 손실 은닉 (PLC) 또는 오류 은닉의 예가 여기에 제공된다.

8.1 일반 정보

손상된 프레임은 올바른 가청 출력을 제공하지 않으므로 폐기해야 한다.

각각의 디코딩 된 프레임에 대해, 그 유효성이 검증 될 수 있다. 예를 들어, 각각의 프레임은 미리 결정된 알고리즘에 의해 제공된 미리 결정된 동작들을 수행함으로써 검증되는 순환 중복 코드 (CRC)를 운반하는 필드를 가질 수 있다.

판독기 (71) (또는 은닉 유닛 (75)과 같은, 또다른 로직 구성 요소)는 알고리즘을 반복하고 계산 된 결과가 CRC 필드상의 값에 대응 하는지를 검증 할 수 있다. 프레임이 제대로 디코딩되지 않은 경우, 일부 오류가 영향을 받는 것으로 간주된다. 따라서, 검증이 부정확 한 디코딩의 결과를 제공하는 경우, 프레임은 적절하게 디코딩되지 않은 채로 (유효하지 않게, 손상되어(invalid, corrupted)) 유지된다.

프레임이 적절하게 디코딩되지 않은 것으로 결정될 때, 은닉 전략은 가청 출력을 제공하기 위해 사용될 수 있다 : 그렇지 않으면, 성가신 가청 홀(annoying audible hole)과 같은 것이 들릴 수 있다. 따라서, 적절하게 디코딩되지 않은 프레임에 의해 개방 된 "갭을 채우는"어떤 형태의 프레임을 찾아야 한다. 프레임 손실 은닉 절차의 목적은 디코딩을 위해 이용 불가능하거나 손상된 프레임의 효과를 숨기는 것이다.

프레임 손실 은닉 절차는 다양한 신호 유형에 대한 은닉 방법을 포함 할 수 있다. 가장 적합한 방법을 선택하여 프레임 손실을 갖는 오류-취약 상황에서 가능한 최상의 코덱 성능을 얻을 수 있다. 패킷 손실 은닉 방법 중 하나는 예를 들어, TCX 시간 도메인 은닉 일 수 있다.

8.2 TCX 시간 영역 은닉

TCX 시간 도메인 은닉 방법은 시간 도메인에서 작동하는 피치 기반 PLC 기술이다. 지배적인 고조파 구조의 신호에 가장 적합하다. 절차의 예는 다음과 같다 : 마지막 디코딩 된 프레임의 합성 된 신호는 섹션 8.2.1에 기술 된 LP 필터로 역 필터링되어 섹션 8.2.2에 기술 된 주기적인 신호를 얻게된다. 랜덤 신호는 섹션 8.2.3 에서 대략 균일 한 분포를 갖는 랜덤 생성기에 의해 생성된다. 섹션 8.2.4에 기술 된 총 여기 신호(the total excitation signal)를 형성하기 위해 2 개의 여기 신호가 합산되며, 이는 섹션 8.2.6 에 설명 된 감쇠 계수로 적응적으로 페이딩되고(faded) 최종적으로 LP 필터로 필터링되어 합성되고 은닉된 시간 신호를 얻는다. LTPF가 마지막 양호 프레임에서 활성화 된 경우, LTPF는 섹션 8.3 에 설명된대로 합성되고 은닉된 시간 신호에도 적용된다. 프레임 손실 후 제 1 양호 프레임(첫 번째 양호 프레임)과 적절한 오버랩을 얻으려면, 시간 도메인 에일리어스 취소 신호(time domain alias cancelation signal)가 섹션 8.2.5에서 생성된다.

8.2.1 LPC 파라미터 계산

TCX 시간 도메인 은닉 방법이 여기 도메인에서 작동하고 있다. 자기 상관 함수는 80 등거리 주파수 도메인 대역에서 계산 될 수 있다. 고정된 프리-엠퍼시스 계수 μ로 에너지가 프리-엠퍼시스(사전-강조)된다.


8000	0.62
16000	0.72
24000	0.82
32000	0.92
48000	0.92

역 균일하게 누적된 DFT (inverse evenly stacked DFT)를 사용하여 시간 도메인으로 변환되기 전에, 자기 상관 함수는 다음 윈도우를 사용하여 지연 윈도우된다(lag windowed).

마지막으로 은닉 된 프레임에 대한 LP 필터

를 얻기 위해 레빈슨 더빈 (Levinson Durbin) 연산이 사용될 수 있다. 예는 다음과 같다:

LP 필터는 양호한 프레임 이후 첫 번째 손실 프레임(제 1 손실 프레임)에서만 계산되며 이후에 손실 된 프레임에 남아 있다.

8.2.2 여기의 주기 부분의 구성 (Construction of the periodic part of the excitation)

신호

를 구하기 위해, 마지막

디코딩 된 시간 샘플은 필터

를 사용하여 섹션 8.2.1의 사전 강조 인자로 먼저 사전 강조되고, 여기서 pitch_fr> 0 이면 T_c 는 피치 지연 값 pitch_int 또는 pitch_int + 1이다. pitch_int및 pitch_fr값은 비트 스트림에서 전송되는 피치 지연 값이다.

사전 강조된 신호,

,는 계산된 역 LP 필터로 더 필터링되어 이전 여기 신호

를 얻는다. 현재 손실 된 프레임에 대한, 여기 신호

를 구성하기 위해

는 다음과 같이

를 사용하여 반복적으로 복사되고

여기서 E는

의 마지막 샘플에 해당한다. 안정성 계수 θ가 1보다 낮으면

의 첫 번째 피치 사이클은 아래 표에 설명 된 11-탭(tap) 선형 위상 FIR 필터로 먼저 저역 통과 필터링된다

	저역 통과 FIR 필터 계수 ( )
8000 - 16000	{0.0053, 0.0000, -0.0440, 0.0000, 0.2637, 0.5500, 0.2637, 0.0000, -0.0440, 0.0000, 0.0053}
24000 - 48000	{-0.0053, -0.0037, -0.0140, 0.0180, 0.2668, 0.4991, 0.2668, 0.0180, -0.0140, -0.0037, -0.0053}

피치 이득

는 다음과 같이 계산된다

이면

이다. 그렇지 않으면, 제 2 피치 이득,

,은 다음과 같이 계산되고

이다. 만약

이면

는 추가 처리를 위해 1 만큼 감소된다.

최종적으로,

는

에 의해 제한된다.

형성된 주기 여기(periodic excitation),

,는 1부터 시작하여 감쇠 계수 α로 끝나는 프레임 전체에 걸쳐 샘플마다 감쇠되어

를 얻는다. 피치 이득은 양호한 프레임 이후 첫 번째 손실 프레임에서만 계산되며 추가 연속 프레임 손실에 대해 α로 설정된다.

8.2.3 여기의 임의 부분의 구성 (Construction of the random part of the excitation)

여기의 랜덤 부분은 다음과 같이 대략 균일한 분포를 갖는 랜덤 생성기로 생성 될 수 있다

여기서

은 이 방법으로 숨겨진 제 1 프레임에 대해 24607로 초기화되고

는 값의 16 LSB를 추출한다. 추가 프레임들에 대해,

가 저장되고 다음

로 사용된다.

잡음을 더 높은 주파수로 이동시키기 위해, 여기 신호는 아래 표에 설명 된 11-탭 선형 위상 FIR 필터로 고역 통과 필터링되어

를 얻는다.

	고역 통과 FIR 필터 계수 ( )
8000 - 16000	{0, -0.0205, -0.0651, -0.1256, -0.1792, 0.8028, -0.1792, -0.1256, -0.0651, -0.0205, 0}
24000 - 48000	{-0.0517, -0.0587, -0.0820, -0.1024, -0.1164, 0.8786, -0.1164, -0.1024, -0.0820, -0.0587, -0.0517}

감쇠 계수 α에 따라 페이딩 속도(fading speed)로 노이즈가 풀 밴드 노이즈로 페이드 될 수 있도록, 여기(excitation)의 임의 부분

는 풀 밴드

및 고역 통과 필터링된 버젼

사이의 선형 보간을 통해 다음처럼 구성되고,

여기서 양호 프레임 후의 제 1 손실 프레임에 대해

이고

제 2 및 추가 연속 프레임 손실들에 대해서는

이고, 여기서

는 이전 은닉 프레임의

이다.

노이즈 레벨을 조정하기 위해, 노이즈 이득

은 다음과 같이 계산된다.

섹션 8.2.2 이후에

이면

이다. 그렇지 않으면, 두 번째 잡음 이득인

는 위의 식과 같이 계산되지만,

는 pitch_int 이다. 다음으로

이다.

추가 처리를 위해

을 먼저 정규화 한 다음 (1.1 - 0.75g_p)를 곱하여

을 얻는다.

를 얻기 위해, 형성된 랜덤 여기

는

로 시작하고

로 끝나는 프레임 전체에서 제 1 샘플에서 샘플 5까지의 샘플

로 균일하게 감쇠된다. 노이즈 이득

은 양호한 프레임 이후 첫 번째 손실 된 프레임에서만 계산되며 추가 연속 프레임 손실에 대해

로 설정된다.

8.2.4 전체 여기, 합성 및 후-처리 구성 (Construction of the total excitation, synthesis and post-processing)

랜덤 여기

는 주기 여기

에 더해 총 여기 신호

를 형성한다. 은닉된 프레임에 대한 최종 합성 신호는 섹션 8.2.1의 LP 필터로 전체 여기를 필터링하고 디-엠퍼시스 필터(de-emphasis filter)로 후-처리하여 얻어진다.

8.2.5 시간 도메인 앨리어스 취소 (Time Domain alias cancelation)

다음 프레임이 양호한 프레임인 경우에 적절한 오버랩-애드(overlap-add)를 얻기 위해, 시간 도메인 앨리어스 취소 부분,

가 생성 될 수 있다. 이를 위해, k = 0… 2N-Z에 대한 신호 x(k)를 얻기 위해 전술 한 바와 동일하게 N-Z 추가 샘플이 생성된다. 여기에서, 시간 도메인 앨리어스 취소 파트는 다음 단계에 의해 생성된다:

합성 된 시간 도메인 버퍼 x(k)를 제로 충전(Zero filling)

MDCT 윈도우

로

윈도우잉

2N부터 N까지 재성형

N부터 2N까지 재성형

플리핑된(flipped) MDCT 윈도우

로

윈도우잉

8.2.6 다중 프레임 손실 처리

구성된 신호는 0으로 사라진다. 페이드 아웃 속도는 이전의 감쇠 계수

, 마지막으로 정확하게 수신 된 프레임에서 계산된 피치 이득

, 연속 소거된 프레임 수 nbLostCmpt, 및 안정성 θ에 의존하는 감쇠 계수 α에 의해 제어된다. 감쇠 계수 α를 계산하는 데 다음 절차를 사용할 수 있다.

예를 들어, 다음과 같이, 인자 θ(마지막 2 개의 인접한 스케일 인자 벡터

및

)가 얻어질 수 있고:

여기서

및

는 마지막 두 인접 프레임의 스케일 인자 벡터이다. 더 안정적인 신호에 대응하는 더 큰 θ 값과 함께, 계수 θ는 0≤θ≤1에 의해 제한된다. 이로 인해 에너지 및 스펙트럼 엔벨로프(포락선, envelope) 변동이 제한된다. 두 개의 인접 스케일 인자 벡터가 존재하지 않으면 인자 θ는 0.8로 설정된다.

빠른 고 에너지 증가를 방지하기 위해, 스펙트럼은

및

로 저역 필터링된다.

8.3 LTPF 에 관련된 은닉 동작 (Concealment operation related to LTPF)

은닉 된 프레임에서 mem_ltpf_active = 1 인 경우, 은닉 방법이 부호 스크램블링 또는 TCX 시간 도메인 은닉을 갖는 MDCT 프레임 반복 인 경우라면 ltpf_active는 1로 설정된다. 따라서 장기 포스트 필터는 섹션 5에서 설명한대로 합성 된 시간 도메인 신호에 적용되지만, 다음과 함께이며

여기서 gain_ltpf_past 는 이전 프레임의 LTPF 이득이며 α는 감쇠 인자이다. LTPF에 대해 재사용되는 피치 값 pitch_int 및 pitch_fr은 마지막 프레임으로부터 재사용된다.

9. 도 9의 디코더

도 9는 (예를 들어, 장치 (70)의 구현 일 수 있는) 예에 따른 오디오 디코더 (300)의 개략적인 블록도를 도시한다.

오디오 디코더 (300)는 인코딩 된 오디오 신호 정보 (310) (예를 들어, 인코딩 된 오디오 신호 정보 (12, 12', 12") 일 수 있음)를 수신하고 그에 기초하여 디코딩 된 오디오 정보 (312)를 제공하도록 구성 될 수 있다.

오디오 디코더 (300)는 비트 스트림 판독기 (71)에 대응할 수 있는 비트 스트림 분석기 (320) ("비트 스트림 디포매터" 또는 "비트 스트림 파서"로도 지칭 될 수 있음)를 포함 할 수 있다. 비트 스트림 분석기 (320)는 인코딩 된 오디오 신호 정보 (310)를 수신 할 수 있고, 그에 기초하여, 주파수 도메인 표현 (322) 및 제어 정보 (324)를 제공할 수 있다.

제어 정보 (324)는 피치 정보 (16b, 17b) (예를 들어, "ltpf_pitch_lag"), 및 추가 고조파 정보 또는 이득 정보 (예를 들어, "ltpf_gain")와 같은 추가 고조파 정보뿐만 아니라 디코더에서의 오디오 신호 (11)의 고조파에 연관된 16c, 17c, 18c 같은 제어 데이터 항목들도 포함할 수 있다.

제어 정보 (324)는 또한 데이터 제어 항목 (예를 들어, 16c, 17c)을 포함 할 수 있다. 선택기 (325) (예를 들어,도 7의 선택기 (78)에 대응)는 피치 정보가 제어 항목의 제어하에 LTPF 컴포넌트 (376)에 제공됨을 보여준다 (이는 인코더에서 얻어진 고조파 정보에 의해 제어 됨). 인코딩 된 오디오 신호 정보 (310)의 고조파가 너무 낮으면 (예를 들어, 위에서 논의 된 제 2 임계치 아래에서), LTPF 컴포넌트 (376)는 피치 정보를 수신하지 않는다.

주파수 도메인 표현 (322)은 예를 들어 인코딩 된 스펙트럼 값 (326), 인코딩 된 스케일 인자 (328), 및 선택적으로, 예를 들어, 잡음 충전, 중간 처리 또는 사후 처리와 같은 특정 처리 단계를 제어 할 수 있는 부가적인 부가 정보 (330)를 포함 할 수 있다. 오디오 디코더 (300)는 또한 인코딩 된 스펙트럼 값 (326)을 수신하고 그에 기초하여 디코딩 된 스펙트럼 값 (342)의 세트(set)를 제공하도록 구성 될 수 있는 스펙트럼 값 디코딩 컴포넌트 (340)를 포함 할 수 있다. 오디오 디코더 (300)는 또한 인코딩 된 스케일 인자들 (328)을 수신하고 그에 기초하여 디코딩 된 스케일 인자들 (352)의 세트를 제공하도록 구성 될 수 있는, 스케일 인자 디코딩 컴포넌트 (350)를 포함할 수도 있다.

스케일 인자 디코딩에 대안적으로, 예를 들어, 인코딩 된 오디오 정보가 스케일 인자 정보가 아니라 인코딩 된 LPC 정보를 포함하는 경우, LPC-to-스케일 인자 변환 컴포넌트 (354)가 사용될 수 있다. 그러나, 일부 코딩 모드에서 (예를 들어, USAC 오디오 디코더의 TCX 디코딩 모드 또는 EVS 오디오 디코더에서) LPC 계수 세트는 오디오 디코더 측에서 스케일 인자의 세트를 도출하기 위해 사용될 수 있다. 이 기능은 LPC-to-스케일 인자 변환 컴포넌트 (354)에 의해 도달 될 수 있다.

오디오 디코더 (300)는 또한 디코딩 된 스펙트럼 값 (342)에 적용될 수 있는, 선택적인 신호 처리 (예를 들어, 잡음-충전; 및 / 또는 시간적 잡음 형성; TNS 등)를 수행하기 위한 선택적 처리 블록 (366)을 포함 할 수 있다. 디코딩 된 스펙트럼 값들 (342)의 프로세싱 된 버전 (366')은 프로세싱 블록 (366)에 의해 출력 될 수 있다.

오디오 디코더 (300)는 스케일러 인자 (360)를 포함 할 수 있으며, 스케일러 인자 세트 (352)를 스펙트럼 값 세트 (342) (또는 이들의 처리 된 버전 (366'))에 적용하여 스케일링 된 값 세트 (362)를 획득하도록 구성 될 수있다. 예를 들어, 다수의 디코딩 된 스펙트럼 값 (342) (또는 그들의 처리 된 버전 (366'))을 포함하는 제 1 주파수 대역은 제 1 스케일 인자를 사용하여 스케일링 될 수 있고, 다수의 디코딩 된 스펙트럼 값 (342)을 포함하는 제 2 주파수 대역은 제 2 스케일 인자를 사용하여 스케일링 될 수 있다. 따라서, 스케일링 된 값들의 세트 (362)가 획득된다.

오디오 디코더 (300)는 또한 스케일링 된 값들 (362)을 수신하고 스케일링 된 값들의 세트 (362)와 연관된 시간 도메인 표현 (372)을 제공하도록 구성 될 수있는 주파수-도메인-to-시간-도메인 변환 (370)을 포함 할 수 있다. 주파수-도메인-to-시간-도메인 변환 (370)은 오디오 컨텐츠의 프레임 또는 서브 프레임과 연관된 시간 도메인 표현 (372)을 제공 할 수 있다. 예를 들어, 주파수-도메인-to-시간-도메인 변환은 MDCT (또는 MDST) 계수들의 세트 (스케일링되고 디코딩 된 스펙트럼 값으로 간주 될 수 있음)를 수신 할 수 있고, 이를 기초로, 시간 도메인 표현 (372)을 형성 할 수 있는, 시간 도메인 샘플의 블록을 제공 할 수 있다.

오디오 디코더 (300)는 또한 필터 제어기 (72) 및 LTPF (73)에 대응할 수 있는 LTPF 컴포넌트 (376)를 포함한다. LTPF 컴포넌트 (376)는 시간 도메인 표현 (372)을 수신하고 시간 도메인 표현 (372)을 약간 수정하여 시간 도메인 표현 (372)의 사후-처리된 버젼 (378)을 획득할 수 있다.

오디오 디코더 (300)는 예를 들어 (PLC 기능을 수행하기 위해) 은닉 유닛 (75)에 대응할 수있는 오류 은닉 컴포넌트 (380)를 포함 할 수 있다. 오류 은닉 컴포넌트 (380)는 예를 들어 주파수-도메인-to-시간-도메인 변환 (370)으로부터 시간 도메인 표현 (372)을 수신 할 수 있고, 예를 들어 하나 이상의 손실 된 오디오 프레임에 대한 오류 은닉 오디오 정보 (382)를 제공 할 수 있다. 다시 말해서, 예를 들어, 상기 오디오 프레임 (또는 오디오 서브 프레임)에 대해 인코딩 된 스펙트럼 값들 (326)이 이용 가능하지 않도록 오디오 프레임이 손실되면, 오류 은닉 컴포넌트 (380)는 손실 된 오디오 프레임에 선행하는 하나 이상의 오디오 프레임과 관련된 시간 도메인 표현 (372)에 기초하여 오류 은닉 오디오 정보를 제공 할 수 있다. 오류 은닉 오디오 정보는 일반적으로 오디오 컨텐츠의 시간 도메인 표현 일 수 있다.

오류 은닉과 관련하여, 오류 은닉은 프레임 디코딩과 동시에 발생하지 않음에 유의해야 한다. 예를 들어 프레임 n이 양호하면 일반 디코딩을 수행하고, 마지막에 다음 프레임을 은닉해야 하는 데 도움이 되는 변수를 저장 한 다음, n + 1이 손실되면 은닉 함수를 호출하여 이전의 양호한 프레임으로부터 오는 변수를 제공한다. 또한 다음 프레임 손실 또는 다음 양호한 프레임으로 복구를 도울 수 있도록 일부 변수를 업데이트한다.

따라서, 오류 은닉 컴포넌트 (380)는 값들 (16b, 17b, 17d)이 나중에 사용하기 위해 실시간으로 저장되는 스토리지 컴포넌트 (327)에 연결될 수 있다. 그것들은 후속 프레임이 불완전하게 디코딩 된 것으로 인식 될 경우에만 사용된다. 그렇지 않으면, 스토리지 컴포넌트 (327)에 저장된 값은 새로운 값 (16b, 17b, 17d)으로 실시간 업데이트 될 것이다.

예들에서, 오류 은닉 컴포넌트 (380)는 신호 스크램블링 및 / 또는 TCX 시간 도메인 은닉 및 / 또는 위상 ECU와 함께 MDCT (또는 MDST) 프레임 해상도 반복을 수행 할 수 있다. 예를 들어, 선호되는 기술을 즉각 인식하여 사용할 수 있다.

오디오 디코더 (300)는 또한 필터링 된 (후-처리 된) 시간 도메인 표현 (378)을 수신하도록 구성 될 수 있는, 신호 조합 구성 요소 (390)를 포함 할 수 있다. 신호 조합 (390)은 손실 된 오디오 프레임에 제공된 오류 은닉 오디오 신호의 도메인 표현일 수도 있는, 오류 은닉 오디오 정보 (382)를 수신 할 수 있다. 신호 조합 (390)은 예를 들어 후속 오디오 프레임과 관련된 시간 도메인 표현을 결합 할 수 있다. 후속하는 적절하게 디코딩 된 오디오 프레임이 있는 경우, 신호 조합 (390)은 이들 후속하는 적절하게 디코딩 된 오디오 프레임과 관련된 시간 도메인 표현을 결합 할 수 있다 (예를 들어, 중첩(오버랩) 및 가산). 그러나, 오디오 프레임이 손실되면, 손실 된 오디오 프레임 및 적절하게 수신 된 오디오 프레임 사이의 매끄러운 전이를 갖도록, 손실된 오디오 프레임과 관련된 오류 은닉 오디오 정보 및 손실 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임과 연관된 시간 도메인 표현을 결합할 수 있다 (예를 들어, 중첩 및 가산) 유사하게, 신호 조합 (390)은 손실 된 오디오 프레임과 관련된 오류 은닉 오디오 정보와 손실 된 오디오 프레임을 따르는 또다른 적절히 디코딩 된 오디오 프레임과 관련된 시간 도메인 표현을 결합 (예를 들어, 중첩 및 가산)하도록 구성 될 수 있다 (또는 다수의 연속적인 오디오 프레임이 손실되는 경우 다른 손실 된 오디오 프레임과 관련된 또다른 오류 은닉 오디오 정보).

따라서, 신호 조합 (390)은 디코딩된 오디오 정보 (312)를 제공할 수 있고, 시간 도메인 표현 (372) 또는 그 후-처리 버전 (378)이 적절히 디코딩 된 오디오 프레임들에 대해 제공되며, 오류 은닉 오디오 정보 (382)가 손실 오디오 프레임들에 대해 제공되고, 여기서 오버랩-및-가산 동작(an overlap-and-add operation)이 (주파수-도메인-to-시간-도메인 변환 (370)에 의해 제공되는지 또는 오류 은닉 컴포넌트 (380)에 의해 제공되는지에 관계없이) 후속 오디오 프레임들의 오디오 정보 사이에서 수행될 수 있다. 일부 코덱은 오버랩에서 앨리어싱이 있고 취소해야 할 부분이 추가되므로, 선택적으로 오버랩 가산을 수행하기 위해 만든 프레임의 절반에 인공 앨리어싱을 만들 수 있다.

특히, 은닉 컴포넌트 (380)는 후자가 LTPF 컴포넌트에 제공되지 않더라도 피치 정보 및 / 또는 이득 정보 (16b, 17b, 17d)를 입력으로 수신 할 수 있다 : 이는 은닉 컴포넌트 (380)가 LTPF 컴포넌트 (370)가 동작하는 고조파보다 낮은 고조파로 동작 할 수 있기 때문이다. 상술 한 바와 같이, 고조파가 제 1 임계치를 넘지만 제 2 임계치 아래인 경우, LTPF 기능이 비활성화되거나 감소 되더라도 은닉 기능이 활성화 될 수 있다.

특히, 다른 구현들이 선택 될 수 있다. 특히, 컴포넌트 (340, 350, 354, 360 및 370)와 상이한 컴포넌트가 사용될 수 있다.

특히, 제 3 프레임 (18")이 획득 될 때, 제 3 프레임 (18")이 사용될 수 있는 (예를 들어, 필드 (16b, 17b, 16c, 17c)없이) 제 3 프레임 (18")이 제공되는 예에서, LTPF 구성 요소 (376) 및 오류 은닉 구성 요소 (380)에 사용되는 제 3 프레임(18")으로부터의 정보는 없다.

10. Method of Fig. 10

10. 도 10의 방법

방법 (100)이 도 10에 도시되어 있다. 단계 S101에서, 프레임 (12, 12', 12")은 판독기 (71, 320)에 의해 디코딩 될 수 있다. 예를 들어, 프레임은 (예를 들어, 블루투스 연결을 통해) 수신되고/되거나 저장 유닛으로부터 획득 될 수 있다.

단계 S102에서, 프레임의 유효성이 검사된다 (예를 들어 CRC, 패리티 등으로). 프레임의 무효가 확인되면 은폐가 수행된다 (아래 참조).

그렇지 않고, 만약 프레임이 유효하게 유지되면, 단계 S103에서 피치 정보가 프레임에 인코딩되는지 여부가 검사된다. 예를 들어, 프레임 (12)의 필드 (18e)의 값 ("ltpf_pitch_lag_present")이 검사된다. 예에서, 피치 정보는 고조파가 (예를 들어, 블록 21에 의해 및 / 또는 단계 S61에서) 제 1 임계치를 넘는 것으로 확인 된 경우에만 인코딩된다. 그러나 디코더는 비교를 수행하지 않는다.

S103에서, 피치 정보가 실제로 인코딩된다는 것이 확인되면 (예를 들어, 본 규칙에 따라 ltpf_pitch_lag_present = 1), 피치 정보가 (예컨대, 피치 정보 16b 또는 17b를 인코딩하는 필드로부터, "ltpf_pitch_lag") 디코딩되고 단계 S104에서 저장된다. 그렇지 않으면, 사이클이 종료되고 S101에서 새로운 프레임이 디코딩 될 수 있다.

이어서, 단계 S105에서, LTPF가 인에이블되었는지(enabled), 즉 LTPF에 대한 피치 정보를 사용할 수 있는지가 검사된다. 이 검증은 각각의 제어 항목 (예를 들어, 16c, 17c, "ltpf_active")을 점검함으로써 수행 될 수 있다. 이것은 고조파가 (예를 들어, 블록 (22)에 의해 및 / 또는 단계 S63에서 인식 된 바와 같이) 제 2 임계치를 초과하고/하거나 시간적 진화(temporal evolution)가 극히 복잡하지 않다는 것을 의미 할 수 있다 (신호는 시간 간격에서 충분히 평탄하다). 그러나, 비교는 디코더에 의해 수행되지 않는다.

LTPF가 활성(active)인 것으로 확인되면, 단계 S106에서 LTPF가 수행된다. 그렇지 않으면 LTPF는 건너 뛰게 된다. 사이클이 끝난다. S101에서 새로운 프레임이 디코딩 될 수 있다.

은닉와 관련하여, 후자는 단계들로 세분 될 수 있다. 단계 S107에서, 이전 프레임의 피치 정보 (또는 이전 프레임 중 하나의 피치 정보)가 메모리에 저장되어 있는지 (즉, 이용가능한지(disposal)) 확인된다.

검색된 피치 정보가 저장되어 있는 것으로 확인되면, 단계 S108에서 (예를 들어, 컴포넌트 (75 또는 380)에 의해) 오류 은닉이 수행 될 수 있다. 신호 스크램블링 및 / 또는 TCX 시간 도메인 은닉 및 / 또는 위상 ECU를 이용한 MDCT (또는 MDST) 프레임 해상도 반복이 수행 될 수 있다.

그렇지 않으면, S107에서 새로운 피치 정보가 저장되지 않았음을 확인하면 (이전 프레임이 매우 낮은 고조파 또는 매우 높은 신호 변동과 관련되어 있다는 결론에 따라) 알려져 있고 인코더에 의해 제공되는 피치 정보의 사용을 암시하지 않는, 상이한 은닉 기술이, 단계 S109에서 사용될 수 있다. 이들 기술 중 일부는 디코더에서 피치 정보 및 / 또는 다른 고조파 정보를 추정하는 것에 기초 할 수 있다. 일부 예에서, 이 경우 은닉 기술이 수행되지 않을 수 있다.

은닉을 수행 한 후, 사이클이 종료되고 새로운 프레임이 S101에서 디코딩 될 수 있다.

11. 솔루션(solution)에 대한 토론

제안 된 솔루션은 인코더 측에 하나의 피치 검출기만 유지하고 LTPF 또는 PLC가 이 정보를 필요로 할 때마다 피치 지연 파라미터를 전송하는 것으로 볼 수 있다. 피치 정보가 비트 스트림에 존재하는지의 여부를 시그널링하기 위해 하나의 비트가 사용된다. 하나의 추가 비트는 LTPF의 활성화 여부를 알리는 데 사용된다.

하나 대신에 2 개의 시그널링 비트를 사용함으로써, 제안 된 솔루션은 피치 기반 PLC가 활성이지만 LTPF가 아닌 경우에도 추가적인 복잡성없이 두 모듈에 피치 지연 정보를 직접 제공 할 수있다.

따라서, LTPF와 피치 기반 PLC의 저-복잡성 조합이 얻어 질 수있다.

11.1 인코더

a. 프레임 당 하나의 피치-지연은 피치-검출 알고리즘을 사용하여 추정된다. 복잡성을 줄이고 정확도를 높이기 위해 3 단계로 수행 할 수 있다. 제 1 피치-지연은 감소 된 샘플링 레이트에서 "개방-루프 피치 분석"을 사용하여 대략적으로 추정된다 (예를 들어 [1] 또는 [5] 참조). 피치-지연의 정수 부분은 더 높은 샘플링 레이트에서 상관 함수를 최대화함으로써 개선된다. 세 번째 단계는, 예를 들어, 보간 된 상관 함수를 최대화하여, 피치 지연의 소수 부분을 추정하는 것이다.

b. 비트 스트림에서 피치-지연을 인코딩할지 여부를 결정한다. 신호의 고조파의 측정치는 예를 들어 정규화 된 상관 관계와 같이 이용될 수 있다. 신호 고조파가 임계치 이상이면 비트 ltpf_pitch_lag_present가 1로 설정되고 그렇지 않으면 0으로 설정된다. ltpf_pitch_lag_present가 1 인 경우 피치 지연 ltpf_pitch_lag는 비트 스트림으로 인코딩된다.

c. ltpf_pitch_lag_present가 1 인 경우, 현재 프레임에서 LTPF 툴을 활성화 시키거는지 아닌지에 대한 두 번째 결정이 내려진다. 이 결정은, 안정된 결정을 제공하기 위해 더 높은 임계치 및 추가적으로 히스테리시스 메커니즘과 함께, 예를 들어 정규화 된 상관 관계와 같이 신호 고조파에 기초할 수 있다. 이 결정은 비트 ltpf_active를 설정한다.

d. (선택 사항) ltpf_active가 1 인 경우, LTPF 이득이 추정되고 비트 스트림으로 인코딩된다. LTPF 이득은 상관 기반 함수를 사용하여 추정되고 균일 양자화(uniform quantization)를 사용하여 양자화 될 수 있다.

11.2 비트스트림

실시예에 따라, 비트 스트림 구문은 도 8a 및 8b에 도시되어 있다.

11.3 디코더

디코더가 손상되지 않은 프레임(non-corrupted frame)을 올바르게 수신하는 경우 :

a. LTPF 데이터는 비트 스트림에서 디코딩된다.

b. ltpf_pitch_lag_present가 0이거나 ltpf_active가 0이면, LTPF 디코더는 0의 LTPF 이득과 함께 호출된다. (이 경우 피치 지연이 없다).

c. ltpf_pitch_lag_present가 1이고 ltpf_active가 1이면, 디코딩 된 피치-지연 및 디코딩 된 이득과 함께 LTPF 디코더가 호출된다.

디코더가 손상된 프레임을 수신하거나 프레임이 손실 된 경우 :

a. 손실 / 손상된 프레임을 은닉하기 위해 피치 기반 PLC를 사용할지 여부가 결정된다. 이 결정은 마지막 양호 프레임의 LTPF 데이터와 가능한 다른 정보를 기반으로 한다.

b. 마지막 양호 프레임의 ltpf_pitch_lag_present가 0이면, 피치 기반 PLC는 사용되지 않는다. 이 경우 다른 PLC 방법이 사용된다 (예 : 부호 스크램블링을 이용한 프레임 반복 ([7] 참조).

c. 마지막 양호 프레임의 ltpf_pitch_lag_present가 1이고 다른 조건이 충족되면, 피치 기반 PLC가 손실 / 손상된 프레임을 은닉하기 위해 사용된다. PLC 모듈은 마지막 양호 프레임의 비트 스트림으로부터 디코딩 된 피치 지연 ltpf_pitch_lag를 사용한다.

12. 추가 예들

도 11은 인코딩 장치 (10 또는 10')를 구현하고 및 / 또는 방법 (60)을 수행 할 수있는 시스템 (110)을 도시한다. 시스템 (110)은, 프로세서 (111) 및 프로세서에 의해 실행될 때 프로세서 (111)가 피치 추정 (113) (예를 들어, 피치 추정기 (13)를 구현하기 위해), 신호 분석 (114) (예를 들어, 신호 분석기 (14) 및 / 또는 고조파 측정기 (24)를 구현하기 위해) 및 비트 스트림 형성 (115) 을 (예를 들어, 비트 스트림 형성기 (15) 및 / 또는 단계 S62, S64 및 / 또는 S66을 구현하기 위해) 수행하게 할 수 있는 명령을 저장하는 비-일시적 메모리 유닛 (112)을 포함 할 수 있다. 시스템 (110)은 오디오 신호 (예를 들어, 오디오 신호 (11))를 획득 할 수 있는 입력 유닛 (116)을 포함 할 수 있다. 따라서, 프로세서 (111)는 오디오 신호의 인코딩 된 표현 (예를 들어, 프레임 (12, 12', 12"의 형식))을 얻기 위한 프로세스를 수행 할 수 있다. 이 인코딩 된 표현은 출력 유닛 (117)을 사용하여 외부 유닛에 제공 될 수 있다. 출력 유닛 (117)은 예를 들어 (예를 들어, 블루투스와 같은 무선 통신을 사용하여) 외부 장치 및 / 또는 외부 저장 공간과 통신하기 위한 통신 유닛을 포함 할 수 있다. 프로세서 (111)는 오디오 신호의 인코딩 된 표현을 로컬 저장 공간 (118)에 저장할 수 있다.

도 12는 디코딩 장치 (70 또는 300)를 구현 및 / 또는 방법 (100)을 수행 할 수 있는 시스템 (120)을 도시한다. 시스템 (120)은 프로세서 (121) 및 프로세서 (121)에 의해 실행될 때, 프로세서 (121)가 비트 스트림 판독 (123) (예컨대, 피치 판독기 71 및 / 또는 320 및 / 또는 단계 S101 유닛 75 또는 380 및 / 또는 단계 S107-S109), 필터 제어 (124) (예를 들어, LTPF 73 또는 376 및 / 또는 단계 S106), 및 은닉 (125)(예를 들어, 구현)을 수행할 수 있도록 하는 명령을 저장하는 비 일시적 메모리 유닛 (122)을 포함 할 수 있다. 시스템 (120)은 (예를 들어, 프레임 (12, 12', 12") 형태의) 오디오 신호의 디코딩 된 표현을 획득 할 수 있는 입력 유닛 (126)을 포함 할 수 있다. 따라서 프로세서 (121)는 오디오 신호의 디코딩 된 표현을 획득하기 위한 프로세스를 수행 할 수 있다. 이 디코딩 된 표현은 출력 유닛 (127)을 사용하여 외부 유닛에 제공 될 수 있다. 출력 유닛 (127)은 예를 들어 (예를 들어, 블루투스와 같은 무선 통신을 사용하여) 외부 장치 및 / 또는 외부 저장 공간과 통신하기 위한 통신 유닛을 포함 할 수 있다. 프로세서 (121)는 오디오 신호의 디코딩 된 표현을 로컬 저장 공간 (128)에 저장할 수 있다.

예에서, 시스템 (110 및 120)은 동일한 장치 일 수 있다.

도 13은 일 예에 따른 방법 (1300)을 도시한다. 인코더 측에서, 단계 S130에서, 방법은 오디오 신호를 인코딩하고 (예를 들어, 상기 방법 중 임의의 방법에 따라 또는 상기 논의 된 장치 중 적어도 일부를 사용하여) 고조파 정보 및 / 또는 피치 정보를 도출하는 것을 제공 할 수 있다.

인코더 측에서, 단계 S131에서, 방법은 (예를 들어, 고조파 측정치와 같은 고조파 정보에 기초하여) 피치 정보가 디코더에서 동작하는 적어도 하나의 LTPF 및 / 또는 오류 은닉 기능에 적합한지를 결정하는 단계를 제공 할 수 있다.

인코더 측에서, 단계 S132에서,이 방법은 인코더로부터 (예를 들어, 블루투스를 이용하여, 무선으로) 전송 및 / 또는 오디오 신호의 디지털 표현 및 고조파와 관련된 정보를 포함하는 비트 스트림을 메모리에 저장하는 것을 제공 할 수 있다. 단계는 또한 피치 정보가 LTPF 및 / 또는 오류 은닉에 적응되는지 여부를 디코더에 시그널링하는 것을 제공 할 수 있다. 예를 들어, 제 3 제어 항목 (18e) ("ltpf_pitch_lag_present")은 (비트 스트림으로 인코딩 된) 피치 정보가 제 3 제어 항목 (18e)에 인코딩 된 값에 따라 적어도 오류 은닉에 적응되거나 비-적응됨을 시그널링 할 수 있다. 예를 들어, 제 1 제어 항목 (16a) (ltpf_active = 0)은 피치 정보 ("ltpf_pitch_lag"로 비트스트림에 인코딩 된) 피치 정보가 오류 은닉에 적합하지만 LTPF (예를 들어, 중간 고조파에 의해)에 적합하지 않다는 신호를 보낼 수있다. 예를 들어, 제 2 제어 항목 (17a) (ltpf_active = 1)은 피치 정보 ("ltpf_pitch_lag"로 비트스트림에 인코딩 된)에 피치 정보가 오류 은닉 및 LTPF 둘 다 (예를 들어, 더 높은 고조파에 의해)에 적합하다는 신호를 보낼 수 있다.

디코더 측에서, 방법은, 단계 S134에서, 오디오 신호의 디지털 표현을 디코딩하고 인코더 시그널링 형태에 따라 피치 정보 (LTPF) 및 / 또는 오류 은닉을 사용하여 제공 할 수 있다.

특정 구현 요구 사항에 따라 예는 하드웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, 디지털 다기능 디스크(Digital Versatile Disc, DVD), 블루 레이, 컴팩트 디스크(Compact Disc, CD), 읽기 전용 메모리(Read-only Memory, ROM), 프로그래밍 가능한 읽기 전용 메모리(Programmable Read-only Memory, PROM), 소거 가능하고 프로그래밍 가능한 읽기 전용 메모리(Erasable and Programmable Read-only Memory, EPROM), 전기적으로 소거 가능하고 프로그래밍 가능한 읽기 전용 메모리(Electrically Erasable Programmable Read-Only Memory, EEPROM), 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.

일반적으로, 예는 프로그램 명령이 있는 컴퓨터 프로그램 제품으로 구현될 수 있으며, 프로그램 명령은 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법 중 하나를 수행하기 위해 동작한다. 프로그램 명령은 예를 들어 기계 판독 가능 매체에 저장될 수 있다.

다른 예는 기계 판독 가능 캐리어 상에 저장된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다. 다시 말해, 방법의 예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우, 본원에 설명된 방법 중 하나를 수행하기 위한 프로그램 명령을 갖는 컴퓨터 프로그램이다.

따라서, 방법의 다른 예는 그 위에 기록된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어 (또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어 매체, 디지털 저장 매체, 또는 기록 매체는 무형 및 일시적인 신호보다는 유형 및/또는 비일시적이다.

다른 예는 처리 유닛, 예를 들어 컴퓨터, 또는 본 명세서에 설명된 방법 중 하나를 수행하는 프로그램 가능 논리 디바이스를 포함한다.

다른 예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

다른 예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하는 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.

일부 예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본원에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 예에서, 필드 프로그램 가능 게이트 어레이는 본원에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 임의의 적절한 하드웨어 장치에 의해 수행될 수 있다.

전술한 예는 전술한 원리를 설명하기 위한 것이다. 본 명세서에 설명된 배열 및 세부 사항의 수정 및 변형이 명백할 것으로 이해된다. 따라서, 곧 있을 청구범위의 범위에 의해서 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.

Claims

일련의 프레임으로 분할 된 오디오 신호와 관련된 오디오 신호 정보 (12, 12', 12")를 디코딩하기 위한 장치 (70, 300)에 있어서,

제 1 프레임 (16, 16', 16") 및 제 2 프레임 (17, 17', 17")에 대한 오디오 신호 (11)의 인코딩 된 표현 (16a, 17a, 18a, 310);
상기 제 1 프레임 (16, 16', 16")에 대한 제 1 피치 정보 (16b) 및 제 1 값을 갖는 제 1 제어 데이터 항목 (16c); 및
상기 제 2 프레임 (17, 17', 17")에 대한 제 2 피치 정보 (17b) 및 상기 제 1 값과 다른 제 2 값을 갖는 제 2 제어 데이터 항목 (17c);를 갖는,
인코딩 된 오디오 신호 정보 (12, 12', 12", 310)를 판독하도록 구성된 비트 스트림 판독기 (71, 320); 및

제 2 제어 데이터 항목 (17c)이 제 2 값을 가질 때 제 2 피치 정보 (17b)를 사용하여 제 2 프레임 (17, 17', 17")에서 오디오 신호의 디코딩 된 표현 (71a, 372)을 필터링; 및
제 1 제어 데이터 항목 (16c)이 제 1 값을 가질 때 제 1 프레임 (16, 16', 16")에 대한 LTPF (73, 376)를 비활성화;하도록,
장기 포스트 필터(long term post filter), LTPF (73, 376)를 제어하도록 구성된 제어기 (72);를 포함하는, 디코딩하기 위한 장치.
제 1 항에 있어서,
비트 스트림 판독기 (71, 320)는 제 3 프레임 (18")을 판독하도록 구성되고, 제 3 프레임 (18")은 제 1 피치 정보 (16b) 및/또는 제 2 피치 정보 (17b)의 존재 또는 부재를 나타내는 제어 데이터 항목 (18e)을 갖는, 디코딩하기 위한 장치.
제 2 항에 있어서,
제 3 프레임 (18")은 제 1 피치 정보 (16b), 제 1 제어 데이터 항목 (16c), 제 2 피치 정보 (17b) 및 제 2 제어 데이터 항목 (17c)이 부족한 포맷을 갖는, 디코딩하기 위한 장치.
제 2 항 또는 제 3 항에 있어서,
제 3 제어 데이터 항목 (18e)은 제 1 및 제 2 프레임 (16", 17")으로부터 제 3 프레임 (18")을 구별하는 값을 갖는 하나의 단일 비트로 인코딩되는, 디코딩하기 위한 장치.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
인코딩 된 오디오 신호 정보에서, 제 1 프레임 (16")에 대해, 하나의 단일 비트는 제 1 제어 데이터 항목 (16c)에 대해 예약되고 고정 데이터 필드 (16b)는 제 1 피치 정보에 대해 예약되는, 디코딩하기 위한 장치.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
인코딩 된 오디오 신호 정보에서, 제 2 프레임 (17")에 대해, 하나의 단일 비트는 제 2 제어 데이터 항목 (17c)에 대해 예약되고 고정 데이터 필드 (17b)는 제 2 피치 정보에 대해 예약되는, 디코딩하기 위한 장치.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
제 1 제어 데이터 항목 (16c) 및 제 2 제어 데이터 항목 (17c)은 인코딩 된 오디오 신호 정보의 데이터 필드 또는 동일한 부분에서 인코딩되는, 디코딩하기 위한 장치.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
인코딩 된 오디오 신호 정보는 제 3 제어 데이터 항목 (18e)을 인코딩하는 하나의 제 1 시그널링 비트; 및
제 3 제어 데이터 항목 (18e)의 값이 제 1 피치 정보 (16b) 및/또는 제 2 피치 정보 (17b)의 존재를 나타내는 경우, 제 2 제어 데이터 항목 (17c) 및 제 1 제어 데이터 항목 (16c)을 인코딩하는 제 2 시그널링 비트;를 포함하는, 디코딩하기 위한 장치.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
후속 비-적절하게(non-properly) 디코딩 된 오디오 프레임을 은닉하기 위해 제 1 및/또는 제 2 피치 정보 (16b, 17b)를 사용하도록 구성된 은닉 유닛 (75, 380);을 더 포함하는, 디코딩하기 위한 장치.
제 9 항에 있어서,
상기 은닉 유닛 (75, 380)은:
유효하지 않은 프레임의 디코딩이 결정된 경우 (S102), 이전에 올바르게 디코딩 된 프레임에 관한 피치 정보가 저장되어 있는지 확인하고 (S107),
저장된 피치 정보를 이용하여 획득 된 프레임으로 유효하지 않게 디코딩 된 프레임을 감추도록 (S108) 구성된, 디코딩하기 위한 장치.
오디오 신호 (11)를 인코딩하기 위한 장치 (10, 10')에 있어서,
오디오 신호 (11)의 피치와 관련된 피치 정보 (13a)를 획득하도록 구성된 피치 추정기 (13);
오디오 신호 (11)의 고조파와 관련된 고조파 정보 (14a, 24a, 24c)를 획득하도록 구성된 신호 분석기 (14); 및

제 1 프레임 (16"), 제 2 프레임 (17") 및 제 3 프레임 (18")에 대한 오디오 신호 (11)의 인코딩 된 표현 (16a, 17a, 18a);
상기 제 1 프레임 (16")에 대한 제 1 피치 정보 (16b) 및 제 1 값을 갖는 제 1 제어 데이터 항목 (16c);
상기 제 2 프레임 (17")에 대한 제 2 피치 정보 (17b) 및 상기 제 1 값과 다른 제 2 값을 갖는 제 2 제어 데이터 항목 (17c); 및
제 1, 제 2 및 제 3 프레임에 대한 제 3 제어 데이터 항목 (18e);을
비트 스트림에 포함하기 위해 프레임들 (16", 17", 18")을 인코딩하는 인코딩 된 오디오 신호 정보 (12")를 준비하도록 구성된 비트 스트림 형성기 (15);를 포함하며,

상기 제 1 값 (16c) 및 제 2 값 (17c)은 고조파 정보 (14a, 24a, 24c)와 관련된 제 2 기준 (600)에 의존하고,
제 1 값 (16c)은 제 1 프레임 (16")에서 오디오 신호 (11)의 고조파에 대한 제 2 기준 (600)의 비-충족을 나타내고,
제 2 값 (17c)은 제 2 프레임 (17")에서 오디오 신호 (11)의 고조파에 대한 제 2 기준 (600)의 충족을 나타내고,
제 2 기준 (600)은 적어도 하나의 제 2 고조파 측정치 (24a")가 적어도 하나의 제 2 임계치보다 클 때 충족되는 적어도 하나의 조건 (S63)을 포함하고,
제 3 제어 데이터 항목 (18e)은 제 1 및 제 2 프레임 (16", 17")으로부터 제 3 프레임 (18")을 구별하는 값을 갖는 하나의 단일 비트로 인코딩되고, 제 3 프레임 (18")은 제 1 기준 (S61)의 비-충족의 경우에 인코딩되고 제 1 및 제 2 프레임 (16", 17")은 제 1 기준 (S61)의 충족의 경우에 인코딩되며, 제 1 기준 (S61)은 적어도 적어도 하나의 제 1 고조파 측정치 (24a')가 적어도 하나의 제 1 임계치보다 클 때 충족되는 적어도 하나의 조건을 포함하고,
비트 스트림에서, 제 1 프레임 (16")에 대해, 하나의 단일 비트는 제 1 제어 데이터 항목 (16c)에 대해 예약되고 고정 데이터 필드 (16b)는 제 1 피치 정보에 대해 예약되며,
비트 스트림에서, 제 2 프레임 (17")에 대해, 하나의 단일 비트가 제 2 제어 데이터 항목 (17c)에 대해 예약되고 고정 데이터 필드 (17b)가 제 2 피치 정보에 대해 예약되고,
비트 스트림에서, 제 3 프레임 (18")에 대해, 고정 데이터 필드 및/또는 제 1 및 제 2 제어 항목을 위해 비트가 예약되지 않는, 인코딩하기 위한 장치.
제 11 항에 있어서,
상기 제 2 기준 (600)은 이전 프레임의 적어도 하나의 고조파 측정치가 적어도 하나의 추가 임계치보다 클 때 충족되는 적어도 하나의 추가 조건을 포함하는, 인코딩하기 위한 장치.
제 11 항 또는 제 12 항에 있어서,
상기 제 1 및 제 2 고조파 측정치는 상이한 샘플링 레이트에서 획득되는, 인코딩하기 위한 장치.
제 11 항 내지 제 13 항 중 어느 한 항에 있어서,
피치 정보 (13a)는 피치 지연 정보 또는 그것의 처리 된 버전을 포함하는, 인코딩하기 위한 장치.
제 11 항 내지 제 14 항 중 어느 한 항에 있어서,
고조파 정보 (14a, 24a, 24a', 24a", 24c)는 자기 상관 값 및/또는 정규화 된 자기 상관 값 및/또는 그것의 처리 된 버전 중 적어도 하나를 포함하는, 인코딩하기 위한 장치.
일련의 프레임으로 분할 된 오디오 신호와 관련된 오디오 신호 정보를 디코딩하는 방법 (100)에 있어서,
제 1 프레임 (16") 및 제 2 프레임 (17")에 대한 오디오 신호 (11)의 인코딩 된 표현 (16a, 17a);
상기 제 1 프레임 (16")에 대한 제 1 피치 정보 (16b) 및 제 1 값을 갖는 제 1 제어 데이터 항목 (16c);
상기 제 2 프레임 (17")에 대한 제 2 피치 정보 (17b) 및 상기 제 1 값과 다른 제 2 값을 갖는 제 2 제어 데이터 항목 (17c);을 포함하는,
인코딩 된 오디오 신호 정보 (12")를 판독하는 단계 (S101);

제 1 제어 데이터 항목 (16c)이 제 1 값을 갖는 것으로 결정될 때, 장기 포스트 필터 (LTPF)에 대한 제 1 피치 정보 (16b)를 이용하는 단계; 및
제 2 제어 데이터 항목 (17c)의 제 2 값이 결정될 때, LTPF를 비활성화시키는 단계;를 포함하는, 디코딩하는 방법.
제 16 항에 있어서,
제 1 또는 제 2 제어 데이터 항목 (16c, 17c)이 제 1 또는 제 2 값을 갖는 것으로 결정될 때, 오류 은닉 기능을 위해 제 1 또는 제 2 피치 정보 (16c, 17b)를 사용하는 단계;를 더 포함하는, 디코딩하는 방법.
프레임으로 분할 된 신호와 관련된 오디오 신호 정보를 인코딩하는 방법 (60)에 있어서,
오디오 신호로부터 측정치들 (24a, 24a', 24a")을 획득하는 단계 (S60);
제 2 기준 (600)의 충족을 검증하는 단계 (S63, S610-S612) - 제 2 기준 (600)은 측정치들 (24a, 24a', 24a")에 기초하고 적어도 하나의 제 2 고조파 측정치 (24a')가 제 2 임계치보다 클 때 충족되는 적어도 하나의 조건을 포함함 -;

제 1 프레임 (16") 및 제 2 프레임 (17") 및 제 3 프레임 (18")에 대한 오디오 신호 (11)의 인코딩 된 표현 (16a, 17a);
제 3 제어 데이터 항목 (18e) 및 제 1 값을 갖는 제 1 제어 데이터 항목 (16c) 및 상기 제 1 프레임 (16")에 대한 제 1 피치 정보 (16b);
제 3 제어 데이터 항목 (18e) 및 상기 제 1 값과 다른 제 2 값을 갖는 제 2 제어 데이터 항목 (17c) 및 상기 제 2 프레임 (17")에 대한 제 2 피치 정보 (17b);을 포함하는,
프레임들 (16", 17", 18")을 갖는 인코딩 된 오디오 신호 정보 (12, 12', 12")를 형성하는 단계 (S64);

상기 제 1 값 (16c) 및 상기 제 2 값 (17c)은 상기 제 2 기준 (600)에 의존하고, 상기 제 1 값 (16c)은 상기 제 1 프레임 (16")의 오디오 신호(11)의 고조파에 기초하여 제 2 기준 (600)의 비-충족을 나타내고, 상기 제 2 값 (17c)은 상기 제 2 프레임 (17")의 오디오 신호(11)의 고조파에 기초하여 제 2 기준 (600)의 충족을 나타내며,

적어도 하나의 고조파 측정치 (24a')가 적어도 하나의 제 1 임계치보다 높을 때 충족되는 적어도 하나의 조건에 기초하여, 제 3 제어 데이터 항목 (18e)이 제 1 기준 (S61)의 비-충족을 나타낼 때 제 3 프레임 (18")을 식별하기 위해, 제 3 제어 데이터 항목 (18e)은 제 1 기준 (S61)의 충족과 관련하여 제 1 및 제 2 프레임 (16", 17")으로부터 제 3 프레임 (18")을 구별하는 값을 갖는 하나의 단일 비트이고,

인코딩 된 오디오 신호 정보는, 제 1 프레임 (16")에 대해, 하나의 단일 비트가 제 1 피치 정보 (16b)에 대한 고정 데이터 필드 및 제 1 제어 데이터 항목 (16c)에 대해 예약되고,

인코딩 된 오디오 신호 정보는, 제 2 프레임 (17")에 대해, 하나의 단일 비트가 제 2 피치 정보 (17b)에 대한 고정 데이터 필드 및 제 2 제어 데이터 항목 (17c)에 대해 예약되고,

인코딩 된 오디오 신호 정보는, 제 3 프레임 (18")에 대해, 고정 데이터 필드에 대해 비트가 예약되지 않고 제 1 제어 데이터 항목 (16c) 및 제 2 제어 데이터 항목 (17c)에 대해 비트가 예약되지 않도록 형성되는, 인코딩하는 방법.
방법에 있어서:
제 16 항 또는 제 17 항에 따른 오디오 신호 (11)를 인코딩하는 단계;
인코딩 된 오디오 신호 정보 (12, 12', 12")를 디코더로 전송하거나 인코딩 된 오디오 신호 정보를 저장하는 단계;
제 18 항에 따른 오디오 신호 정보 (12, 12', 12")를 디코딩하는 단계;를 포함하는, 방법.
프로세서에 의해 실행될 때, 제 16 항 내지 제 19 항 중 어느 한 항에 따른 방법을 수행하는 명령을 저장하는 비-일시적 메모리 유닛.