KR20180123664A

KR20180123664A - 오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법

Info

Publication number: KR20180123664A
Application number: KR1020187023876A
Authority: KR
Inventors: 아드리안 토마세크; 제레미 르콩트
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2016-01-29
Filing date: 2017-01-26
Publication date: 2018-11-19
Also published as: BR112018015479A2; CA3012547A1; RU2714238C1; CN108885875B; EP3408852A1; US10762907B2; JP2019510999A; CN108885875A; US20190122672A1; KR102230089B1; ES2843851T3; WO2017129270A1; CA3012547C; EP3408852B1; MX2018009145A; JP6789304B2

Abstract

오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10)가 제공된다. 장치(10)는 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 오디오 신호의 디코딩된 오디오 신호 부분을 생성하도록 구성되는 프로세서(11)를 포함하며, 여기서 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분에 의존하고, 여기서 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분에 의존한다. 또한, 장치(10)는 디코딩된 오디오 신호 부분을 출력하기 위한 출력 인터페이스(12)를 포함한다. 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하며, 여기서 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 여기서 복수의 샘플 위치는, 복수의 샘플 위치 중 제 1 샘플 위치 및 제 1 샘플 위치와 상이한, 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 제 1 샘플 위치가 제 2 샘플 위치의 후속자 또는 선행자 중 어느 일방이도록 순서화된다. 프로세서(11)는 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되며, 제 1 서브 부분이 제 1 오디오 신호 부분보다 적은 샘플을 포함한다. 프로세서(11)는 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분 또는 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성되며, 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이하다.

Description

오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법

본 발명은 오디오 신호 처리 및 디코딩에 관한 것으로, 특히 오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법에 관한 것이다.

에러가 발생하기 쉬운 네트워크의 경우에, 모든 코덱은 이러한 손실로 인한 아티팩트를 완화하려고 한다. 최첨단 기술은 단순한 음소거 또는 노이즈 대체에서 과거의 양호한 프레임에 기초한 예측과 같은 고급 방법에 이르기까지 상이한 방법을 통해 손실된 정보를 은닉하는 데 중점을 둔다. 패킷 손실로 인한 아티팩트에 대한 한 가지 명확하게 간과하고 있는 큰 원천은 복구에 있다(손실 후 몇몇 양호한 프레임).

음성 코덱의 경우 종종 사용되는 장기 예측 때문에, 복구 아티팩트는 매우 심각할 수 있으며 에러 전파는 다수의 뒤따르는 양호한 프레임에 영향을 줄 수 있다. 일부 종래 기술은 그 문제를 완화하려고 시도한다(예를 들어, [1] 및 [2] 참조).

일반 또는 오디오 코덱(변환 도메인에서 작동하는 임의의 코덱)의 경우에, [3]에서와 같이 프레임 손실의 은닉에 대한 많은 문헌을 찾을 수 있다. 그러나, 이용 가능한 종래 기술은 프레임의 복구에는 초점을 두지 않는다. 변환 도메인 코덱의 특성으로 인해 오버랩 및 추가가 전이 아티팩트를 매끄럽게 할 것이라고 가정한다. 하나의 좋은 예는 IP 네트워크에서의 통신을 위해 Facetime에서 사용되는 AAC-ELD(AAC-ELD = Advanced Audio Coding - Enhanced low delay; [4] 참조)이다.

프레임 손실 후 처음 몇 프레임이 "복구 프레임"이라고 지칭된다. 종래 기술의 변환 도메인 코덱은 하나 이상의 복구 프레임에 관한 특별한 처리를 제공하지 않는 것처럼 보인다. 때로는, 짜증스러운 아티팩트가 발생한다. 복구를 행할 때 일어날 수 있는 문제의 예는 오버랩 및 가산 부분에서 은닉된 신호와 양호한 웨이브 신호의 중첩이며, 이는 때때로 짜증스러운 에너지 부스트를 야기한다.

다른 문제는 프레임 경계에서의 갑작스런 피치 변화이다. 음성 신호의 경우에 대한 예는 원래 신호의 피치가 변하고 프레임 손실이 발생할 경우, 은닉 방법은 프레임의 끝에서 피치를 약간 잘못 예측할 수 있다는 것이다. 이 약간 잘못된 예측은 피치가 다음 양호한 프레임으로 점프하게 할 수 있다. 알려진 은닉 방법의 대부분은 심지어 예측을 사용하지 않고, 마지막 유효한 피치에 기초한 고정 피치만을 사용하며, 이는 첫 번째로 양호한 프레임과의 더 큰 불일치를 초래할 수 있다. 일부 다른 방법은 드리프트를 감소시키기 위해 고급 예측을 사용한다(예를 들어, EVS(EVS = Enhanced Voice Services)에서의 TD-TCX PLC(TD = Time domain; TCX = Transform Coded Excitation; PLC = Packet Loss Concealment) 참조)([5] 참조).

TD-PSOLA(TD-PSOLA = Time Domain-Pitch Synchronous Overlap-Add)와 같은 음성 신호에서 피치를 수정하기 위한 최첨단 방법([6] 및 [7] 참조)은 지속 시간 확장/축소(시간 스트레칭으로 알려져 있음)와 같은 음성 신호에 운율 수정을 행하거나 기본 주파수(피치) 변화를 행한다. 이것은 음성 신호를 단기 및 피치 동기 분석 신호로 분해하여 시간 축 상에서 재배치하고 점진적으로 병치시킴으로써 행해진다. 그러나, 복구 프레임의 신호는 은닉된 프레임의 피치와 원래 신호의 피치가 다를 경우 오버랩 메커니즘 후에 훼손된다. TD-PSOLA 메커니즘은 단지 시간 축 상에서 아티팩트를 재배치할 것이며, 이는 복구에 적합하지 않다.

본 발명의 목적은 오디오 신호 처리 및 디코딩에 대한 개선된 개념을 제공하는 것이다.

본 발명의 목적은 청구항 1에 따른 장치, 청구항 35에 따른 방법, 및 청구항 36에 따른 컴퓨터 프로그램에 의해 해결된다.

오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치가 제공된다.

장치는 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 오디오 신호의 디코딩된 오디오 신호 부분을 생성하도록 구성되는 프로세서를 포함하며, 여기서 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분에 의존하고, 여기서 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분에 의존한다.

또한, 장치는 디코딩된 오디오 신호 부분을 출력하기 위한 출력 인터페이스를 포함한다.

제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하며, 여기서 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 여기서 복수의 샘플 위치는, 복수의 샘플 위치 중 제 1 샘플 위치 및 제 1 샘플 위치와 상이한, 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 제 1 샘플 위치가 제 2 샘플 위치의 후속자(successor)또는 선행자(predecessor) 중 어느 일방이도록 순서화된다.

프로세서는 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되며, 제 1 서브 부분이 제 1 오디오 신호 부분보다 적은 샘플을 포함한다.

프로세서는 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분 또는 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성되며, 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이하다.

또한, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하는 방법이 제공된다. 방법은:

- 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 오디오 신호의 디코딩된 오디오 신호 부분을 생성하는 단계 - 여기서 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분에 의존하고, 여기서 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분에 의존함 -; 및

- 디코딩된 오디오 신호 부분을 출력하는 단계를 포함한다.

제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하며, 여기서 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 여기서 복수의 샘플 위치는, 복수의 샘플 위치 중 제 1 샘플 위치 및 제 1 샘플 위치와 상이한, 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 제 1 샘플 위치가 제 2 샘플 위치의 후속자 또는 선행자 중 어느 일방이도록 순서화된다.

디코딩된 오디오 신호 부분을 생성하는 단계는 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하는 단계를 포함하며, 제 1 서브 부분이 제 1 오디오 신호 부분보다 적은 샘플을 포함한다.

또한 디코딩된 오디오 신호 부분을 생성하는 단계는 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분 또는 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 행해지며, 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이하다.

또한, 컴퓨터 또는 신호 프로세서 상에서 실행되는 경우 전술한 방법을 구현하도록 구성된 컴퓨터 프로그램이 제공된다.

일부 실시예는 복구 필터, (예를 들어, 블록 기반의) 오디오 코덱에서 손실 필터로부터 손실된 프레임으로부터 첫 번째로 양호한 프레임까지의 전이를 매끄럽게 하고 리페어링하는 도구를 제공한다. 실시예에 따르면, 복구 필터는 음성 신호의 첫 번째로 양호한 프레임에서 은닉된 프레임 동안 피치 변화를 고정시키는 데뿐만 아니라, 노이즈가 있는 신호의 전이를 매끄럽게 하는 데 사용될 수 있다.

특히, 일부 실시예는 은닉된 프레임에서 재생된 마지막 샘플로부터 시작하여 첫 번째로 양호한 프레임의 마지막 샘플까지의, 신호 수정을 위한 길이가 제한된다는 발견에 기초한다. 길이는 첫 번째로 양호한 프레임에서 마지막 샘플보다 증가될 수 있지만, 그러면 이는 이후에는 향후 프레임에서 처리하기 어려운 에러 전파의 위험이 있을 것이다. 따라서, 빠른 복구가 요구된다. 손실된 프레임과 복구된 프레임 사이의 불일치의 경우에 음성 특징을 리페어링하기 위해, 복구 프레임의 신호의 피치는 신호 수정 길이의 제한이 유지되어야 하는 동안 은닉된 프레임의 피치로부터 복구 프레임의 피치까지 느리게 변화되어야 한다. TD-PSOLA 알고리즘으로는, 피치가 정수 값의 배수로 변화되는 경우에만 가능할 것이다. 이것은 매우 드문 경우이므로, TD-PSOLA는 이러한 상황에 적용될 수 없다.

다음에서, 본 발명의 실시예가 도면을 참조하여보다 상세히 설명되며, 여기서:
도 1a는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치를 도시한다.
도 1b는 피치 적응 오버랩 개념을 구현하는 다른 실시예에 따른, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치를 도시한다.
도 1c는 여기 오버랩 개념을 구현하는 다른 실시예에 따른, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치를 도시한다.
도 1d는 에너지 감쇠를 구현하는 다른 실시예에 따른, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치를 도시한다.
도 1e는 다른 실시예에 따른 장치를 도시하며, 여기서 장치는 은닉 유닛을 더 포함한다.
도 1f는 또 다른 실시예에 따른 장치를 도시하며, 여기서 장치는 은닉 유닛을 활성화시키기 위한 활성화 유닛을 더 포함한다.
도 1g는 다른 실시예에 따른 장치를 도시하며, 여기서 활성화 유닛은 프로세서를 활성화시키도록 추가로 구성된다.
도 2는 일 실시예에 따른 해밍(Hamming) 코사인 윈도우를 도시한다.
도 3은 그러한 실시예에 따른 은닉된 프레임 및 양호한 프레임을 도시한다.
도 4는 일 실시예에 따른 피치 적응 오버랩을 구현하는 2개의 프로토타입의 생성을 도시한다.
도 5는 일 실시예에 따른 여기 오버랩을 도시한다.
도 6은 그러한 실시예에 따른 은닉된 프레임 및 양호한 프레임을 도시한다.
도 7a는 일 실시예에 따른 시스템을 도시한다.
도 7b는 또 다른 실시예에 따른 시스템을 도시한다.
도 7c는 다른 실시예에 따른 시스템을 도시한다.
도 7d는 또 다른 실시예에 따른 시스템을 도시한다. 및
도 7e는 또 다른 실시예에 따른 시스템을 도시한다.

도 1a는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10)를 도시한다.

장치(10)는 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 오디오 신호의 디코딩된 오디오 신호 부분을 생성하도록 구성되는 프로세서(11)를 포함하며, 여기서 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분에 의존하고, 여기서 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분에 의존한다.

일부 실시예에서, 제 1 오디오 신호 부분은 예를 들어 은닉된 오디오 신호 부분으로부터 도출 될 수 있지만 예를 들어 은닉된 오디오 신호 부분과 상이할 수 있고/있거나, 제 2 오디오 신호 부분은 예를 들어 후속하는 오디오 신호 부분으로부터 도출될 수 있지만 예를 들어 후속하는 오디오 신호 부분과 상이할 수 있다.

다른 실시예에서, 제 1 오디오 신호 부분은 예를 들어 은닉된 오디오 신호 부분일 수 있고(은닉된 오디오 신호 부분과 동일할 수 있고), 제 2 오디오 신호 부분은 예를 들어 후속하는 오디오 신호 부분일 수 있다.

또한, 장치(10)는 디코딩된 오디오 신호 부분을 출력하기 위한 출력 인터페이스(12)를 포함한다.

예를 들어, 샘플은 샘플 위치 및 샘플 값에 의해 정의된다. 예를 들어, 2차원 좌표계에서, 샘플 위치는 샘플의 x 축 값(횡좌표 축 값)을 정의할 수 있고, 샘플 값은 동일한 샘플의 y 축 값(종좌표 축 값)을 정의할 수 있다. 따라서, 특정 샘플을 고려하면, 2차원 좌표계 내의 특정 샘플의 왼쪽에 위치하는 모든 샘플은 특정 샘플의 선행자이다(샘플 위치가 특정 샘플의 샘플 위치보다 작기 때문임). 2차원 좌표계에서 특정 샘플의 오른쪽에 위치하는 모든 샘플은 특정 샘플의 후속이다(샘플 위치가 특정 샘플의 샘플 위치보다 크기 때문임).

프로세서(11)는 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되며, 제 1 서브 부분이 제 1 오디오 신호 부분보다 적은 샘플을 포함한다.

프로세서(11)는 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분 또는 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성되며, 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이하다.

따라서, 일부 실시예에서, 프로세서(11)는 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성된다.

다른 실시예에서, 프로세서(11)는 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성된다. 제 2 서브 부분은 제 2 오디오 신호 부분보다 적은 샘플을 포함할 수 있다.

실시예는 아니라 단지 은닉된 오디오 신호의 샘플만을 조정하는 것이 아니라 후속하는 오디오 신호 부분의 샘플을 수정함으로써 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하는 것이 유익하다는 발견에 기초한다. 정확하게 수신된 프레임의 샘플을 또한 수정함으로써, (예를 들어, 은닉된 오디오 신호 프레임의) 은닉된 오디오 신호 부분으로부터 (예를 들어, 후속하는 오디오 신호 프레임의) 후속하는 오디오 신호 부분까지의 전이가 개선될 수 있다.

따라서, 디코딩된 오디오 신호 부분은 제 1 및 제 2 오디오 신호 부분을 사용하여 생성되나, 디코딩된 오디오 신호 부분(적어도 2개 이상)은 샘플 값이 상이한 (후속하는 오디오 신호 부분에 의존하는) 제 2 오디오 신호 부분의 샘플로서 샘플 위치에 할당된 샘플을 포함한다. 이는 이들 샘플에 대해, 대응하는 샘플의 샘플 값은 그대로 취해지지 않고, 대신에 수정되어, 디코딩된 오디오 신호 부분의 대응하는 샘플을 획득한다는 것을 의미한다.

제 1 오디오 신호 부분 및 제 2 오디오 신호 부분과 관련하여, 프로세서(11)는 예를 들어 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분을 수신할 수 있다.

또는, 또 다른 예에서, 예를 들어, 프로세서(11)는 예를 들어 은닉된 오디오 신호 부분을 수신할 수 있고 은닉된 오디오 신호 부분으로부터 제 1 오디오 신호 부분을 결정할 수 있으며, 프로세서(11)는 예를 들어 후속하는 오디오 신호 부분을 수신할 수 있고 후속하는 오디오 신호 부분으로부터 제 2 오디오 신호 부분을 결정할 수 있다.

또는, 다른 실시예에서, 예를 들어, 프로세서(11)는 예를 들어 오디오 신호 프레임을 수신할 수 있고; 프로세서(11)는 예를 들어 제 1 프레임이 손실되었거나 제 1 프레임이 손상되었다고 결정할 수 있다. 그 다음에, 프로세서(11)는 은닉을 행할 수 있고, 예를 들어 최첨단 개념에 따라 은닉된 오디오 신호 부분을 생성할 수 있다. 또한, 프로세서(11)는 예를 들어 제 2 오디오 신호 프레임을 수신할 수 있고, 제 2 오디오 신호 프레임으로부터 후속하는 오디오 신호 부분을 획득할 수 있다. 도 1e가 이러한 실시예를 도시한다.

일부 실시예에서, 제 1 오디오 신호 부분은 예를 들어 은닉된 오디오 신호 부분에 대한 잔차 신호인 제 1 잔차 신호의 잔차 신호 부분 일 수 있다. 제 2 오디오 신호 부분은 예를 들어 일부 실시예에서 후속하는 오디오 신호 부분에 대한 잔차 신호인 제 2 잔차 신호의 잔차 신호 부분일 수 있다.

도 1e에서, 장치(10)는 에러가 있거나 손실된 현재 프레임에 대한 은닉을 행하여 은닉된 오디오 신호 부분을 획득하도록 구성되는 은닉 유닛(8)을 더 포함한다.

도 1e의 실시예에 따르면, 장치는 은닉 유닛(8)을 더 포함한다. 은닉 유닛(8)은 예를 들어 프레임이 손실되거나 손상되었다면, 최첨단 기술에 따라 은닉을 행하도록 구성될 수 있다. 그 다음에, 은닉 유닛(8)은 은닉된 오디오 신호 부분을 프로세서(11)에 전달한다. 그러한 실시예에서, 은닉된 오디오 신호 부분은 예를 들어 은닉이 행해진 에러가 있는 또는 손실된 프레임에 대한 은닉된 오디오 신호 부분일 수 있다. 후속하는 오디오 신호 부분은 예를 들어 은닉이 행해지지 않은 (후속) 오디오 신호 프레임의 후속하는 오디오 신호 부분일 수 있다. 후속하는 오디오 신호 프레임은 예를 들어 시간상 에러가 있는 또는 손실된 프레임을 후속할 수 있다.

도 1f는 장치(10)가 예를 들어 현재 프레임이 손실되었거나 에러가 있는지 여부를 검출하도록 구성될 수 있는 활성화 유닛(6)을 더 포함하는 실시예를 도시한다. 예를 들어, 활성화 유닛(6)은 예를 들어 마지막으로 수신된 프레임 후에 미리 정의된 시간 제한 내에 도착하지 않으면, 현재 프레임이 손실되었다고 결론을 내릴 수 있다. 또는, 예를 들어 활성화 유닛은 예를 들어 현재 프레임보다 더 큰 프레임 번호를 갖는 다른 프레임, 예컨대 후속하는 프레임이 도착하면, 현재 프레임이 손실되었다고 결론을 내릴 수 있다. 활성화 유닛(6)은 예를 들어 수신된 체크섬 또는 수신된 체크 비트가 활성화 유닛에 의해 계산되어진, 계산된 체크섬 또는 계산된 체크 비트와 동일하지 않으면, 예를 들어 프레임이 에러가 있다고 결론을 내릴 수 있다.

도 1f의 활성화 유닛(6)은 예를 들어 현재 프레임이 손실되거나 에러가 있으면, 현재 프레임에 대한 은닉을 행하도록 은닉 유닛(8)을 활성화시키도록 구성될 수 있다.

도 1g는 현재 프레임이 손실되었거나 에러가 있으면, 활성화 유닛(6)이 에러가 없는 후속하는 프레임이 도착하는지 여부를 검출하도록 구성될 수 있는 실시예를 도시한다. 도 1g의 실시예에서, 활성화 유닛(6)은 예를 들어 현재 프레임이 손실되었거나 에러가 있으면, 그리고 에러가 있는 후속하는 프레임이 도착하면, 디코딩된 오디오 신호 부분을 생성하기 위해 프로세서(8)를 활성화시키도록 구성될 수 있다.

도 1b는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100)를 도시한다. 도 1b의 장치는 피치 적응 오버랩 개념을 구현한다.

도 1b의 장치(100)는 도 1a의 장치(10)의 특정 실시예이다. 도 1b의 프로세서(110)는 도 1a의 프로세서(11)의 특정 실시예이다. 도 1b의 출력 인터페이스(120)는 도 1a의 출력 인터페이스(12)의 특정 실시예이다.

도 1b의 실시예에서, 프로세서(110)는 예를 들어 제 2 오디오 신호 부분의 제 2 서브 부분인 제 2 프로토타입 신호 부분을 결정하도록 구성될 수 있으며, 제 2 서브 부분은 제 2 오디오 신호 부분보다 적은 샘플을 포함한다.

프로세서(110)는 예를 들어 제 1 서브 부분인 제 1 프로토타입 신호 부분과 제 2 프로토타입 신호를 결합하여, 하나 이상의 중간 프로토타입 신호 부분 각각을 결정함으로써 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성될 수 있다.

도 1b에서, 프로세서(110)는 예를 들어 제 1 프로토타입 신호 부분을 사용하여, 그리고 하나 이상의 중간 프로토타입 신호 부분을 사용하여, 그리고 제 2 프로토타입 신호 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.

일 실시예에 따르면, 프로세서(110)는 예를 들어 제 1 프로토타입 신호 부분 및 하나 이상의 중간 프로토타입 신호 부분 및 제 2 프로토타입 신호 부분을 결합함으로써 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.

일 실시예에서, 프로세서(110)는 복수의 3개 이상의 마커 샘플 위치를 결정하도록 구성되며, 여기서 3개 이상의 마커 샘플 위치 각각은 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 중 적어도 하나의 샘플 위치이다. 또한, 프로세서(110)는 제 2 오디오 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 후속자인 제 2 오디오 신호 부분의 샘플의 샘플 위치를 3개 이상의 마커 샘플 위치 중 종료 샘플 위치로서 택하도록 구성된다. 또한, 프로세서(110)는 제 1 오디오 신호 부분의 제 1 서브 부분과 제 2 오디오 신호 부분의 제 2 서브 부분 사이의 상관에 따라 제 1 오디오 신호 부분으로부터 샘플 위치를 선택함으로써 3개 이상의 마커 샘플 위치 중 시작 샘플 위치를 결정하도록 구성된다. 또한, 프로세서(110)는 3개 이상의 마커 샘플 위치 중 시작 샘플 위치 및 3개 이상의 마커 샘플 위치 중 종료 샘플 위치에 따라 3개 이상의 마커 샘플 위치 중 하나 이상의 중간 샘플 위치를 결정하도록 구성된다. 또한, 프로세서(110)는 상기 중간 샘플 위치에 따라 제 1 프로토타입 신호와 제 2 프로토타입 신호 부분을 결합하여, 하나 이상의 중간 프로토타입 신호 부분의 중간 프로토타입 신호 부분을 결정함으로써 상기 하나 이상의 중간 샘플 위치 각각에 대해 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성된다.

일 실시예에 따르면, 프로세서(110)는

sig_i = (1 - α)·sig_first + α·sig_last

에 따라 제 1 프로토타입 신호 부분과 제 2 프로토타입 신호 부분을 결합하여, 상기 하나 이상의 중간 프로토타입 신호 부분 각각에 대해 하나 이상의 중간 프로토타입 신호 부분의 중간 프로토타입 신호 부분을 결정함으로써 상기 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성되며,

여기서

이고

여기서 i는 i ≥ 1인 정수이고, 여기서 nrOfMarkers는 3개 이상의 마커 샘플 위치에서 1을 뺀 수이고, 여기서 sig_i는 하나 이상의 중간 프로토타입 신호 부분의 i번째 중간 프로토타입 신호 부분이고, 여기서 sig_first는 제 1 프로토타입 신호 부분이고, 여기서 sig_last는 제 2 프로토타입 신호 부분이다.

일 실시예에서, 프로세서(110)는

또는

에 따라 3개 이상의 마커 샘플 위치 중 하나 이상의 중간 샘플 위치를 결정하도록 구성되며,

여기서

이고,

여기서

이고,

여기서

이고,

여기서 i는 i≥1인 정수이고, nr0fMarkers는 3개 이상의 마커 샘플 위치에서 1을 뺀 수이고, mark_i는 3개 이상의 마커 샘플 위치 중 i번째 중간 샘플 위치이고, 여기서 mark_i _-1은 3개 이상의 마커 샘플 위치 중 i-1번째 중간 샘플 위치이고, 여기서 mark_i ₊₁은 3개 이상의 마커 샘플 위치 중 i+1번째 중간 샘플 위치이고, 여기서 x₀은 3개 이상의 마커 샘플 위치 중 시작 샘플 위치이고, 여기서 x₁은 3개 이상의 마커 샘플 위치 중 종료 샘플 위치이고, 여기서 T_c는 피치 래그를 나타낸다.

일 실시예에 따르면, 프로세서(110)는 은닉된 오디오 신호 부분 및 복수의 제 3 필터 계수에 따라 제 1 오디오 신호 부분을 결정하도록 구성되며, 여기서 복수의 제 3 필터 계수는 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 의존하고, 여기서 프로세서(110)는 후속하는 오디오 신호 부분 및 복수의 제 3 필터 계수에 따라 제 2 오디오 신호 부분을 결정하도록 구성된다.

일 실시예에서, 프로세서(110)는 예를 들어 필터를 포함할 수 있으며, 여기서 프로세서(110)는 은닉된 오디오 신호 부분에 제 3 필터 계수를 갖는 필터를 적용하여 제 1 오디오 신호 부분을 획득하도록 구성되고, 여기서 프로세서(110)는 후속하는 오디오 신호 부분에 제 3 필터 계수를 갖는 필터를 적용하여 제 2 오디오 신호 부분을 획득하도록 구성된다.

일 실시예에 따르면, 프로세서(110)는 은닉된 오디오 신호 부분에 따라 복수의 제 1 필터 계수를 결정하도록 구성되며, 여기서 프로세서(110)는 후속하는 오디오 신호 부분에 따라 복수의 제 2 필터 계수를 결정하도록 구성되고, 여기서 프로세서(110)는 제 1 필터 계수 중 하나 이상 및 제 2 필터 계수 중 하나 이상의 조합에 따라 제 3 필터 계수의 각각을 결정하도록 구성된다.

일 실시예에서, 복수의 제 1 필터 계수 및 복수의 제 2 필터 계수 및 복수의 제 3 필터 계수의 필터 계수는 선형 예측 필터의 선형 예측 코딩 파라미터이다.

일 실시예에 따르면, 프로세서(110)는 공식

A = 0.5·A_conc + 0.5·A_good

에 따라 제 3 필터 계수의 각각의 필터 계수를 결정하도록 구성되며,

여기서 A는 상기 필터 계수의 필터 계수 값을 나타내고, 여기서 A_conc는 복수의 제 1 필터 계수의 필터 계수의 계수 값을 나타내고, A_good은 복수의 제 2 필터 계수의 필터 계수의 계수 값을 나타낸다.

일 실시예에서, 프로세서(110)는 은닉된 오디오 신호 부분에

에 의해 정의된 코사인 윈도우를 적용하여 은닉되고 윈도윙된 신호 부분을 획득하도록 구성되며,

여기서 프로세서(110)는 후속하는 오디오 신호 부분에 상기 코사인 윈도우를 적용하여 후속하는 윈도윙된 신호 부분을 획득하도록 구성되며, 여기서 프로세서(110)는 은닉되고 윈도윙된 신호 부분에 따라 복수의 제 1 필터 계수를 결정하도록 구성되고, 여기서 프로세서(110)는 후속하는 윈도윙된 신호 부분에 따라 복수의 제 2 필터 계수를 결정하도록 구성되고, 여기서 x 및 x₁ 및 x₂ 각각은 복수의 샘플 위치의 샘플 위치이다.

일 실시예에 따르면, 프로세서(110)는 예를 들어 상기 제 1 프로토타입 신호 부분으로서, 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분의 제 2 서브 부분의 복수의 서브 부분 후보의 각각의 서브의 복수의 상관에 따라 제 1 오디오 신호 부분의 복수의 서브 부분 후보 중 서브 부분을 선택하도록 구성될 수 있다. 프로세서(110)는 예를 들어 3개 이상의 마커 샘플 위치 중 시작 샘플 위치로서, 상기 제 1 프로토타입 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 선행자인 상기 제 1 프로토타입 신호 부분의 복수의 샘플의 샘플 위치를 선택하도록 구성될 수 있다.

일 실시예에서, 프로세서(110)는 예를 들어 상기 제 1 프로토타입 신호 부분으로서 상기 서브 부분 후보의 서브 부분을 선택하도록 구성될 수 있으며, 상기 제 2 서브 부분과의 상관은 상기 복수의 상관 중에서 가장 높은 상관 값을 갖는다.

일 실시예에 따르면, 프로세서(110)는 복수의 상관의 각각의 상관에 대해 공식

에 따른 상관 값을 결정하도록 구성되며,

여기서 L_frame은 제 1 오디오 신호 부분의 샘플의 수와 동일한 제 2 오디오 신호 부분의 샘플의 수를 나타내고, 여기서 r(2 L_frame-i)는 샘플 위치 2 L_frame-i에서의 제 2 오디오 신호 부분의 샘플의 샘플 값을 나타내고, 여기서 r(L_frame-i-Δ는 샘플 위치 L_frame-1-Δ에서의 제 1 오디오 신호 부분의 샘플의 샘플 값을 나타내고, 여기서 복수의 서브 부분 후보의 서브 부분 후보와 제 2 서브 부분의 복수의 상관 각각에 있어서, Δ는 수를 나타내며 상기 서브 부분 후보에 의존한다.

피치 적응 오버랩은 프레임 손실 후 첫 번째로 양호한 디코딩된 프레임의 시작의 피치와 TD PLC로 은닉된 프레임 끝에서의 피치 사이에 나타날 수 있는 피치 차이를 보상하는 데 사용된다. 신호는 LPC 합성 필터로 알고리즘의 끝에서 구성된 신호를 매끄럽게 하기 위해 LPC 도메인에서 동작한다. LPC 도메인에서, 가장 높은 유사성을 갖는 인스턴트는 아래에 설명된 바와 같이 상호 상관에 의해 발견되고, 갑작스런 피치 변경을 피하기 위해 신호의 피치가 마지막 피치 래그에서 새로운 피치 래그로 천천히 진전된다.

다음에서, 특정 실시예에 따른 피치 적응 오버랩이 설명된다.

이러한 실시예에 따른 장치 또는 방법은 예를 들어 다음과 같이 실현될 수 있다:

각각 해밍 코사인 윈도우, 예를 들어 다음의 형태의

의 해밍 코사인 윈도우로 사전 강조된 은닉된 신호

및 첫 번째로 양호한 프레임

각각에 대해 16차 LPC 파라미터 A_conc 및 A_good을 계산하며,

여기서 480 샘플의 프레임 길이에 있어서,

이고

이다.

도 2는 일 실시예에 따른 그러한 해밍 코사인 윈도우를 도시한다. 윈도우의 형상은 예를 들어 신호 부분의 마지막 신호 샘플이 분석에서 가장 큰 영향을 미치는 방식으로 설계될 수 있다.

LSP 도메인에서 보간을 해서

을 얻는다.

은닉된 프레임

및 첫 번째로 양호한 프레임

에서 A로 LPC 잔차 신호를 계산한다.

은닉된 프레임의 끝과 양호한 프레임 x₁의 끝 사이의 최대 유사성이

인 인스턴트 x_o를 찾는다.

도 3은 그러한 실시예에 따른 은닉된 프레임 및 양호한 프레임을 도시한다.

x₀은 정규화된 상호 상관

을 최대화함으로써 얻게 된다.

보통, 정규화는 상관의 끝에서 행해진다: 예를 들어 피치 검색에서, 정규화는 피치 값이 이미 발견된 경우 상관 후에 행해진다.

여기서 정규화는 상관 중에 행해져 신호 간의 에너지 변동에 강하다. 복잡성 이유로, 정규화 항은 업데이트 체계(scheme)에서 계산된다.

인 초기 값

에 대해서만, 전체 도트 산물이 예를 들어 계산될 수 있다. 예를 들어 Δ의 다음 증분에 있어서, 항은 예를 들어 다음과 같이 업데이트될 수 있다:

마지막 하나의 T_c(x₀)으로부터 새로운 하나의 T_g(x₁)까지 피치 래그를 천천히 진전시키도록, 그 사이의 인스턴트 mark가 설정되어야 하며, 여기서

이다.

이 1보다 작거나 12보다 크면, 알고리즘이 에너지 감쇠(damping)로 스위칭된다. 그렇지 않고,

이고

이거나,

이고

이면,

이고,

이고, 마커는 다음과 같이 왼쪽으로부터 오른쪽으로 계산된다:

그렇지 않으면, 마커는 오른쪽으로부터 외쪽으로 구축된다:

nrOfMarkers는 모든 마커에서 1을 뺀 수임에 유의해야 한다. 또는 다른 방식으로 표현하면, nrOfMarkers는 모든 마커 샘플 위치에서 1을 뺀 수인데, x₀ = mark₀ 및 x₁ = mark_nrOfMarkers가 또한 마커/마커 샘플 위치이기 때문이다. 예를 들어, nrOfMarkers = 4이면, 5개의 마커/5개의 마커 샘플 위치, 즉 mark₀, mark₁, mark₂, mark₃, 및 mark₄가 있다.

합성된 신호의 경우, 잘라내는 입력 세그먼트는 윈도윙되고 인스턴트 mark 주위에 설정된다. (세그먼트는 인스턴트 마크에서 중앙에 위치하도록 시간상 시프트한다). 은닉된 신호 형상으로부터 오버랩이 없는 양호 신호로 천천히 매끄럽게 하기 위해, 세그먼트는 은닉된 프레임의 끝과 양호한 프레임의 끝인 오버랩하지 않은 두 파트의 선형 조합일 것이다. 이하, 프로토타입 sig_first 및 프로토타입 sig_last라고 지칭된다.

프로토타입의 길이 len은 가장 작은 마커 거리에서 1을 뺀 것의 두 배가 되어, 오버랩 및 합산 동작에서 있을 수 있는 에너지 증가를 방지한다. 두 마커 사이의 거리가 T_c와 T_g 사이에 있지 않으면, 이는 경계에서 문제를 야기할 것이다. (따라서, 특정 실시예에서, 알고리즘은 예를 들어 이러한 경우에 중단될 수 있고, 예를 들어, 에너지 감쇠로 스위칭할 수 있다. 에너지 감쇠는 아래에서 설명될 것이다.)

프로토타입은 x₀ 및 x₁은 sig_first와 sig_last의 중간점에 설정되는 방식으로, 길이 T_c 및 T_g를 갖는 여기 신호 r(x)로부터 잘라내어진다(도 4의 단계 1참조). 그 다음에, 길이 len에 도달하도록 순환적으로 확장된다(도 4의 단계 2 참조). 그 후에, 오버랩 영역에서 아티팩트를 피하기 위해 hann 윈도우로 윈도윙된다(도 4의 단계 3 참조).

마커에 대한 프로토타입은 다음과 같이 계산된다(도 4의 단계 4 참조):

sig_i = (1 - α)·sig_first + α·sig_last

여기서

이다.

그 다음에, 프로토타입은 대응하는 마커 위치에서 중간점으로 설정되고 추가된다(도 4의 단계 5 참조).

마지막으로, 구성된 신호는 먼저 필터 변수 A를 갖는 LPC 합성 필터로 필터링되고, 그 다음에 강조해제 필터로 필터링되어 원래의 신호 도메인으로 되돌아간다.

신호는 원래의 디코딩된 신호와 크로스 페이딩되어, 프레임 경계상에서의 아티팩트를 방지한다.

도 4는 이러한 실시예에 따른 2개의 프로토타입의 생성을 도시한다.

안전상의 이유로, 예를 들어 후술하는 바와 같은 에너지 감쇠가 크로스 페이딩된 신호에 적용되어 복구 프레임에서 에너지가 크게 증가하는 위험을 제거해야 한다.

전술한 x₀ 및 x₁에 대한 프로토타입을 잘라내는 것과 관련하여, x₀ 및 x₁은 두 잔차 신호가 가장 높은 유사성을 갖는 시점이다. x0 및 x1에 대한 프로토타입인 sig_first 및 sig_last는 len = "2 x 가장 작은 마커 거리 - 1"을 갖는다. 따라서, 길이는 항상 홀수이며, 이는 sig_first와 sig_last가 하나의 중간점을 갖도록 한다. (은닉된 프레임의) 길이 T_c 및 (양호한 프레임의) 길이 T_g를 갖는 잔차 신호는 이제 x가 sig_first의 중간점에 위치되고, x₁이 sig_last의 중간점에 위치되도록 배치된다. 그 후에, 그것들은 1부터 sig_first와 sig_last까지의 모든 샘플을 채우기 위해 순환적으로 확장될 수 있다.

이하에서는, 실시예에 따른 여기 오버랩이 설명된다.

도 1c는 또 다른 실시예에 따른, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200)를 도시한다. 도 1c의 장치는 여기 오버랩 개념을 구현한다.

도 1c의 장치(200)는 도 1a의 장치(10)의 특정 실시예이다. 도 1c의 프로세서(210)는 도 1a의 프로세서(11)의 특정 실시예이다. 도 1c의 출력 인터페이스(220)는 도 1a의 출력 인터페이스(12)의 특정 실시예이다.

도 1c에서, 프로세서(210)는 예를 들어, 제 1 확장된 신호 부분이 제 1 오디오 신호 부분과 상이하고, 제 1 확장된 신호 부분이 제 1 서브 부분보다 많은 샘플을 갖도록, 제 1 서브 부분에 따라 제 1 확장된 신호 부분을 생성하도록 구성될 수 있다.

또한, 도 1c의 프로세서(210)는 예를 들어 제 1 확장된 신호 부분을 사용하여 그리고 제 2 오디오 신호 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.

일 실시예에 따르면, 프로세서(210)는 크로스 페이딩된 신호 부분을 획득하기 위해 제 1 오디오 신호 부분과 제 1 확장된 신호 부분의 크로스 페이딩을 행함으로써 디코딩된 오디오 신호 부분을 생성하도록 구성된다.

일 실시예에서, 프로세서(210)는 예를 들어 제 1 서브 부분의 길이가 제 1 오디오 신호 부분의 피치 래그(Tc)와 동일하도록 제 1 오디오 신호 부분으로부터 제 1 서브 부분을 생성하도록 구성될 수 있다.

일 실시예에 따르면, 프로세서(210)는 예를 들어 제 1 확장된 신호 부분의 샘플의 수가 상기 제 1 오디오 신호 부분의 피치 래그의 샘플의 수에 제 2 오디오 신호 부분의 샘플의 수를 더한 것과 동일하도록(T_c + 제 2 오디오 신호 부분의 샘플의 수) 제 1 확장된 신호 부분을 생성하도록 구성될 수 있다.

일 실시예에서, 프로세서(210)는 예를 들어 은닉된 오디오 신호 부분 및 복수의 필터 계수에 따라 제 1 오디오 신호 부분을 결정하도록 구성될 수 있으며, 여기서 복수의 필터 계수는 은닉된 오디오 신호 부분에 의존한다. 또한, 프로세서(210)는 예를 들어 후속하는 오디오 신호 부분 및 복수의 필터 계수에 따라 제 2 오디오 신호 부분을 결정하도록 구성될 수 있다.

일 실시예에 따르면, 프로세서(210)는 예를 들어 필터를 포함할 수 있다. 또한, 프로세서(210)는 예를 들어 은닉된 오디오 신호 부분에 필터 계수를 갖는 필터를 적용하여 제 1 오디오 신호 부분을 획득하도록 구성될 수 있다. 또한, 프로세서(210)는 예를 들어 후속하는 오디오 신호 부분에 필터 계수를 갖는 필터를 적용하여 제 2 오디오 신호 부분을 획득하도록 구성될 수 있다.

일 실시예에서, 복수의 필터 계수의 필터 계수는 예를 들어 선형 예측 필터의 선형 예측 코딩 파라미터일 수 있다.

일 실시예에 따르면, 프로세서(210)는 예를 들어 은닉된 오디오 신호 부분에

에 의해 정의된 코사인 윈도우를 적용하여 은닉되고 윈도윙된 신호 부분을 획득하도록 구성될 수 있다. 프로세서(210)는 예를 들어 은닉되고 윈도윙된 신호 부분에 따라 복수의 필터 계수를 결정하도록 구성될 수 있으며, 여기서 x 및 x₁ 및 x₂ 각각은 복수의 샘플 위치의 샘플 위치이다.

도 5는 이러한 실시예에 따른 여기 오버랩을 도시한다.

여기 오버랩을 구현하는 장치는 디코딩된 신호와 은닉된 프레임의 순방향 반복 사이에서 여기 도메인에서 크로스 페이딩을 행하여 2개의 신호 사이를 천천히 매끄럽게 한다.

먼저, 16차 LPC 분석은 피치 적응 오버랩 방법에서 행해진 것과 동일한 해밍 코사인 윈도우로 이전 프레임의 사전 강조된 끝에서 행해진다(도 5의 단계 1 참조).

LPC 필터가 적용되어 은닉된 프레임 및 첫 번째로 양호한 프레임에서 여기 신호를 얻는다(도 5의 단계 2 참조)

복구 프레임을 구축하기 위해, 은닉된 프레임의 여기의 마지막 T_c 샘플은 순방향으로 반복되어 전체 프레임 길이를 생성한다(도 5의 단계 3 참조). 이것은 첫 번째로 양호한 프레임과 오버랩하기 위해 사용될 것이다.

확장된 여기는 첫 번째로 양호한 프레임에서 여기와 크로스 페이딩된다(도 5의 단계 4 참조).

그 후에, LPC 합성이 메모리가 은닉된 프레임의 마지막 사전 강조된 샘플인 크로스 페이딩된 신호에 적용되어(도 5의 단계 5 참조), 은닉된 프레임과 첫 번째로 양호한 프레임 사이의 전이를 매끄럽게 한다.

마지막으로, 강조해제 필터가 합성된 신호에 적용되어(도 5의 단계 6 참조) 원래 도메인에서 신호를 다시 얻는다.

새롭게 구성된 신호는 원래의 디코딩된 신호(도 5의 단계 7 참조)와 크로스 페이딩되어 프레임 경계에서 아티팩트를 방지한다.

다음에서, 실시예에 따른 에너지 감쇠가 설명된다.

도 1d는 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분이고, 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분인 실시예를 도시한다.

도 1d의 장치(300)는 도 1a의 장치(10)의 특정 실시예이다. 도 1d의 프로세서(310)는 도 1a의 프로세서(11)의 특정 실시예이다. 도 1d의 출력 인터페이스(320)는 도 1a의 출력 인터페이스(12)의 특정 실시예이다.

도 1d의 프로세서(310)는 예를 들어 제 1 오디오 신호 부분의 제 1 서브 부분인 은닉된 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성될 수 있으며, 제 1 서브 부분은 은닉된 오디오 신호 부분의 샘플 중 하나 이상을 포함하나, 은닉된 오디오 신호 부분보다 적은 샘플을 포함하고, 제 1 서브 부분의 샘플의 각각의 샘플 위치는 제 1 서브 부분에 포함되지 않는 은닉된 오디오 신호 부분의 임의의 샘플의 임의의 샘플 위치의 후속자이다.

또한, 도 1d의 프로세서(310)는 예를 들어 후속하는 오디오 신호 부분의 제 3 서브 부분을 결정하도록 구성될 수 있으며, 제 3 서브 부분은 후속하는 오디오 신호 부분의 샘플 중 하나 이상을 포함하나 후속하는 오디오 신호 부분보다 적은 샘플을 포함하고, 제 3 서브 부분의 각각의 샘플의 각각의 샘플 위치는 제 3 서브 부분에 포함되지 않는 후속하는 오디오 신호 부분의 임의의 샘플의 임의의 샘플 위치의 후속자이다.

또한, 도 1d의 프로세서(310)는 예를 들어 제 2 오디오 신호 부분의 제 2 서브 부분인 후속하는 오디오 신호 부분의 제 2 서브 부분을 결정하도록 구성될 수 있으며, 제 3 서브 부분에 포함되지 않는 후속하는 오디오 신호 부분의 임의의 샘플은 후속하는 오디오 신호 부분의 제 2 서브 부분에 포함된다.

도 1d에 따른 실시예에서, 프로세서(310)는 예를 들어 은닉된 오디오 신호 부분의 제 1 서브 부분의 샘플로부터 제 1 피크 샘플을 결정하도록 구성될 수 있으며, 제 1 피크 샘플의 샘플 값은 은닉된 오디오 신호 부분의 제 1 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이다. 도 1d의 프로세서(310)는 예를 들어 후속하는 오디오 신호 부분의 제 2 서브 부분의 샘플로부터 제 2 피크 샘플을 결정하도록 구성될 수 있으며, 제 2 피크 샘플의 샘플 값은 후속하는 오디오 신호 부분의 제 2 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이다. 또한, 도 1d의 프로세서(310)는 예를 들어 후속하는 오디오 신호 부분의 제 3 서브 부분의 샘플로부터 제 3 피크 샘플을 결정하도록 구성될 수 있으며, 제 3 피크 샘플의 샘플 값은 후속하는 오디오 신호 부분의 제 3 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이다.

조건이 충족되면, 그리고 오직 조건이 충족되는 경우에만, 도 1d의 프로세서(310)는 예를 들어 제 2 피크 샘플의 선행자인 후속하는 오디오 신호 부분의 각각의 샘플의 각각의 샘플 값을 수정하여, 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.

조건은 예를 들어 제 2 피크 샘플의 샘플 값이 제 1 피크 샘플의 샘플 값보다 크고, 제 2 피크 샘플의 샘플 값이 제 3 피크 샘플의 샘플 값보다 큰 것일 수 있다.

또는, 조건은 예를 들어 제 2 피크 샘플의 샘플 값과 제 1 피크 샘플의 샘플 값 사이의 제 1 비율이 제 1 임계 값보다 크고, 제 2 피크 샘플의 샘플 값과 제 3 피크 샘플의 샘플 값 사이의 제 2 비율이 제 2 임계 값보다 큰 것일 수 있다.

일 실시예에 따르면, 조건은 예를 들어 제 2 피크 샘플의 샘플 값이 제 1 피크 샘플의 샘플 값보다 크고, 제 2 피크 샘플의 샘플 값이 제 3 피크 샘플의 샘플 값보다 큰 것일 수 있다.

일 실시예에서, 조건은 예를 들어 제 1 비율이 제 1 임계 값보다 크고, 제 2 비율이 제 2 임계 값보다 큰 것일 수 있다.

일 실시예에 따르면, 제 1 임계 값은 예를 들어 1.1보다 클 수 있고, 제 2 임계 값은 예를 들어 1.1보다 클 수 있다.

일 실시예에서, 제 1 임계 값은 예를 들어 제 2 임계 값과 동일할 수 있다.

일 실시예에 따르면, 조건이 충족되면 그리고 조건이 충족되는 경우에만, 프로세서(310)는 예를 들어

s_{modified(Lframe+i)} = s(Lframe+i)·α

따라 제 2 피크 샘플의 선행자인 후속하는 오디오 신호 부분의 각각의 샘플의 각각의 샘플 값을 수정하도록 구성될 수 있으며,

Lframe은 상기 후속하는 오디오 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 선행자인 상기 후속하는 오디오 신호 부분의 샘플의 샘플 위치를 나타내고,

여기서 Lframe+i는 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 위치를 나타내는 정수이고,

여기서 0 ≤ i ≤ Imax-1이고, 여기서 I_max-1은 제 2 피크 샘플의 샘플 위치를 나타내고,

여기서 s(Lframe+i)는 프로세서(310)에 의해 수정되기 전의 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 값이고,

여기서 smodified(Lframe+i)는 프로세서(310)에 의해 수정된 후의 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 값이고,

여기서 0 < α_i < 1이다.

일 실시예에서,

이며, 여기서 E_cmax는 제 1 피크 샘플의 샘플 값이고, 여기서 E_max는 제 2 피크 샘플의 샘플 값이고, 여기서 E_gmax는 제 3 피크 샘플의 샘플 값이다.

일 실시예에 따르면, 조건이 충족되면 그리고 조건이 충족되는 경우에만, 프로세서(310)는

s_modified(Imax+k) = s(Imax+k)·α_i

에 따라 제 2 피크 샘플의 후속자인 후속하는 오디오 신호 부분의 복수의 샘플의 2개 이상의 샘플의 각각의 샘플의 샘플 값을 수정하여 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있으며,

여기서 Imax+k는 후속하는 오디오 신호 부분의 Imax+k+1번째 샘플의 샘플 위치를 나타내는 정수이다.

도 6은 일 실시예에 따른 은닉된 프레임 및 양호한 프레임의 다른 도면이다. 특히, 도 6은 은닉된 오디오 신호 부분, 후속하는 오디오 신호 부분, 제 1 서브 부분, 제 2 서브 부분, 및 제 3 서브 부분을 도시한다.

에너지 감쇠가 사용되어 마지막 은닉된 프레임과 첫 번째로 양호한 프레임 사이에서 신호의 오버랩하는 부분에서 높은 에너지 증가를 제거한다. 이는 신호 영역을 피크 진폭 값으로 천천히 감쇠시킴으로써 행해진다.

일 실시예에 따른 접근법은 예를 들어 다음과 같이 구현될 수 있다:

다음에서

o 이전 은닉된 프레임의 마지막 T_c 샘플 : E_cmax

o 첫 번째로 양호한 프레임에서의 마지막 T_g 샘플 : E_gmax

o 그리고 이들 영역 사이에서 최대 진폭 값: E_max를 찾는다.

E_cmax는 제 1 피크 샘플이고, E_max는 제 2 피크 샘플이고, E_gmax는 제 3 피크 샘플이다.

이면, 첫 번째로 양호한 프레임의 디코딩된 신호가 감쇠될 것이다.

다른 실시예에서, (

이고

)이면,

첫 번째로 양호한 프레임이 감소될 것이다.

예를 들어,

이고

이다.

디코딩된 신호의 제 1 부분은 다음과 같이 감쇠될 것이다:

여기서 I_max는 E_max의 인덱스이고

이다.

제 2 부분은 다음과 같이 감소될 것이다:

여기서

이다.

바람직한 실시예에서, 안전상의 이유로, 에너지 감쇠는 예를 들어 크로스 페이딩된 신호에 적용되어, 복구 프레임에서 에너지가 크게 증가하는 위험을 제거할 수 있다.

이제, 실시예에 따른 상이한 개선된 전이 개념의 조합이 제공된다.

도 7a는 일 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.

시스템은 스위칭 모듈(701), 도 1d를 참조하여 전술한 바와 같이 에너지 감쇠를 구현하기 위한 장치(300), 및 도 1b를 참조하여 전술한 바와 같은 피치 적응 오버랩을 구현하는 장치(100)를 포함한다.

스위칭 모듈(701)은 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 에너지 감쇠를 구현하기 위한 장치(300) 및 피치 적응 오버랩을 구현하기 위한 장치(100) 중 하나를 택하도록 구성된다.

도 7b는 또 다른 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.

시스템은 스위칭 모듈(702), 도 1d를 참조하여 전술한 바와 같이 에너지 감쇠를 구현하기 위한 장치(300), 및 도 1c를 참조하여 전술한 바와 같은 여기 오버랩을 구현하는 장치(200)를 포함한다.

스위칭 모듈(702)은 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 에너지 감쇠를 구현하기 위한 장치(300) 및 여기 오버랩을 구현하기 위한 장치(100) 중 하나를 택하도록 구성된다.

도 7c는 다른 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.

시스템은 스위칭 모듈(703), 도 1b를 참조하여 전술한 바와 같이 피치 적응 오버랩을 구현하기 위한 장치(100), 및 도 1c를 참조하여 전술한 바와 같은 여기 오버랩을 구현하는 장치(200)를 포함한다.

스위칭 모듈(703)은 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 피치 적응 오버랩을 구현하기 위한 장치(100) 및 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성된다.

도 7d는 또 다른 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.

시스템은 스위칭 모듈(701), 도 1d를 참조하여 전술한 바와 같이 에너지 감쇠를 구현하기 위한 장치(300), 도 1b를 참조하여 전술한 바와 같이 피치 적응 오버랩을 구현하기 위한 장치(100), 및 도 1c를 참조하여 전술한 바와 같은 여기 오버랩을 구현하는 장치(200)를 포함한다.

스위칭 모듈(701)은 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 에너지 감쇠를 구현하기 위한 장치(300), 및 피치 적응 오버랩을 구현하기 위한 장치(100), 및 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성된다.

실시예에 따르면, 스위칭 모듈(704)은 예를 들어 은닉된 오디오 신호 프레임 및 후속하는 오디오 신호 프레임 중 적어도 하나가 음성을 포함하는지 여부를 결정하도록 구성될 수 있다. 또한, 스위칭 모듈(704)은 예를 들어 은닉된 오디오 신호 프레임 및 후속하는 오디오 신호 프레임이 음성을 포함하지 않는다면, 디코딩된 오디오 신호 부분을 생성하기 위해 에너지 감쇠을 구현하기 위한 장치(300)를 택하도록 구성될 수 있다.

실시예에서, 스위칭 모듈(704)은 예를 들어 후속하는 오디오 신호 프레임의 프레임 길이에 따라 그리고 은닉된 오디오 신호 부분의 피치 또는 후속하는 오디오 신호 부분의 피치 중 적어도 하나에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 피치 적응 오버랩을 구현하기 위한 장치(100) 및 여기 오버랩을 구현하기 위한 장치(200) 및 에너지 감쇠를 구현하기 위한 장치(300) 중 상기 하나를 택하도록 구성될 수 있으며, 여기서 후속하는 오디오 신호 부분은 후속하는 오디오 신호 프레임의 오디오 신호 부분이다.

도 7e는 다른 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.

도 7c에서와 같이, 도 7e의 시스템은 스위칭 모듈(703), 도 1b를 참조하여 전술한 바와 같이 피치 적응 오버랩을 구현하기 위한 장치(100), 및 도 1c를 참조하여 전술한 바와 같은 여기 오버랩을 구현하는 장치(200)를 포함한다.

또한, 도 7e의 시스템은 도 1d를 참조하여 전술한 바와 같이 에너지 감쇠를 구현하기 위한 장치(300)를 더 포함한다.

도 7e의 스위칭 모듈(703)은 예를 들어 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 중간 오디오 신호 부분을 생성하기 위해, 피치 적응 오버랩을 구현하기 위한 장치(100) 및 여기 오버랩을 구현하기 위한 장치(200) 중 상기 하나를 택하도록 구성될 수 있다.

도 7e의 실시예에서, 에너지 감쇠를 구현하기 위한 장치(300)는 예를 들어 중간 오디오 신호 부분을 처리하여 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.

이제, 특정 실시예가 설명된다. 특히, 스위칭 모듈들(701, 702, 703, 및 704)의 특정 구현에 대한 개념이 제공된다.

예를 들어, 상이한 개선된 전이 개념의 조합을 제공하는 제 1 실시예는 예를 들어 임의의 변환 도메인 코덱에 이용될 수 있다:

제 1 단계는 신호가 두드러진 피치와 같은 음성(그 예는 깨끗한 음성 항목, 배경 노이즈를 갖는 음성, 또는 음악이 있는 음성임)인지 여부를 검출하는 것이다.

신호가 음성이면

o 마지막 은닉된 프레임에서 피치 T_c를 찾는다

o 첫 번째로 양호한 프레임에서 피치 T_g를 찾는다

o 마지막 은닉된 프레임과 오버랩하는 부분에서 에너지가 증가하면

■ 양호한 프레임의 피치가 은닉된 피치와 3개를 초과하는 샘플만큼 다르다면

-> 복구 필터를 행한다

■ 그렇지 않으면

-> 에너지 감쇠를 행한다

그렇지 않으면

-> 에너지 감쇠를 행한다

위에서 복구 필터가 택해지면

은닉된 피치 T_c 또는 양호한 피치 T_g가 프레임 길이 L_frame보다 높으면

-> 에너지 감쇠를 행한다

그렇지 않고, 은닉된 피치 또는 양호한 피치가 프레임 길이 절반보다 높고 정규화된 상호 상관 값 xCorr이 임계치보다 작으면

-> 여기 오버랩을 행한다

그렇지 않고, 은닉된 피치 또는 양호한 피치가 프레임 길이 절반보다 낮으면

-> 피치 적응 오버랩을 적용한다

예를 들어, 처음에, 음성의 존재에 대해 은닉된 프레임이 테스트된다(음성이 존재하는지 여부는 예를 들어 은닉 기술로부터 알 수 있다). 나중에, 양호한 프레임은 예를 들어 정규화된 상호 상관 값 xCorr을 사용하여 예를 들어 음성의 존재에 대해 또한 테스트될 수 있다.

예를 들어 전술한 오버랩 부분은 예를 들어 도 6에 도시된 제 2 서브 부분 일 수 있는데, 이는 오버랩 부분이 제 1 샘플부터 "프레임 길이 - T_g" 샘플까지의 양호한 프레임이라는 것을 의미한다.

이제, 상이한 개선된 전이 개념의 조합을 제공하는 제 2 실시예가 제공된다. 이러한 제 2 실시예는 예를 들어 2개의 프레임 에러 은닉 방법이 시간 도메인 방법 및 주파수 도메인 방법인 AAC-ELD 코덱에 이용될 수 있다.

시간 도메인 방법은 피치 외삽 접근법으로 손실된 프레임을 합성하며, 이는 TD PLC라고 불린다([8] 참조).

주파수 도메인 방법은 이전 양호한 프레임의 부호 스크램블된 복사본을 사용하는 노이즈 대체(Noise Substitution, NS) 라 불리는 AAC-ELD 코덱에 대한 최첨단 은닉 방법이다.

제 2 실시예에서, 제 1 부는 최종 은닉 방법에 따라 이루어진다:

마지막 프레임이 TD PLC로 은닉되었으면:

o 첫 번째로 양호한 프레임에서 피치를 찾는다

-> 복구 필터를 행한다

■ 그렇지 않으면

-> 에너지 감쇠를 행한다

마지막 프레임이 NS로 은닉되었으면:

-> 에너지 감쇠를 행한다

또한, 제 2 실시예에서, 제 2 부는 다음과 같이 회복 필터에서 이루어진다:

은닉된 피치(은닉된 마지막 프레임의 피치) 또는 양호한 피치 T_g(첫 번째로 양호한 프레임의 피치)가 프레임 길이 L_frame보다 높으면

-> 에너지 감쇠를 행한다

은닉된 피치 또는 양호한 피치가 프레임 길이 절반보다 높고 정규화된 상호 상관 값 xCorr이 임계치보다 작으면

-> 여기 오버랩을 행한다

은닉된 피치 또는 양호한 피치가 프레임 길이 절반보다 낮으면

-> 피치 적응 오버랩을 적용한다

복수의 실시예가 제공되었다.

실시예에 따르면, 변환 도메인 코딩된 신호의 은닉된 손실된 프레임과 은닉된 손실된 프레임에 후속하는 변환 도메인 코딩된 하나 이상의 프레임 사이의 전이를 개선하기 위한 필터가 제공된다.

실시예에서, 필터는 예를 들어 상기 설명에 따라 추가로 구성될 수 있다.

실시예에 따르면, 전술된 실시예 중 하나에 따른 필터를 포함하는 변환 도메인 디코더가 제공된다.

또한, 전술한 바와 같은 변환 도메인 디코더에 의해 수행되는 방법이 제공된다.

또한, 전술한 바와 같은 방법을 수행하기 위한 컴퓨터 프로그램이 제공된다.

일부 양태가 장치의 맥락에서 설명되었지만, 이들 양태가 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 및 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양태는 또한 대응하는 블록 또는 품목 또는 대응하는 장치의 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어 마이크로프로세서, 프로그램 가능 컴퓨터, 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.

특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로, 또는 적어도 부분적으로는 하드웨어로, 또는 적어도 부분적으로는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루 레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.

발명에 따른 일부 실시예는 본 명세서에 설명된 방법 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호를 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어 머신 판독 가능 캐리어에 저장될 수 있다.

다른 실시예는 기계 판독 가능 캐리어 상에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 구동되는 경우, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체, 또는 기록 매체는 통상적으로 유형 및/또는 비일시적이다.

따라서, 본 발명의 방법의 다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.

다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.

일부 실시예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본 명세서에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본 명세서에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.

본 명세서에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.

본 명세서에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.

위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본 명세서에 설명된 구성 및 세부사항의 수정 및 변형은 본 기술분야의 통상의 기술자에게 명백할 것으로 이해된다. 따라서, 곧 나올 청구범위의 범위에 의해서만 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.

참조문헌

[1] Philippe Gournay: "Improved Frame Loss Recovery Using Closed-Loop Estimation of Very Low Bit Rate Side Information", Interspeech 2008, Brisbane, Australia, 22-26 September, 2008.

[2] Mohamed Chibani, Roch Lefebvre, Philippe Gournay: "Resynchronization of the Adaptive Codebook in a Constrained CELP Codec after a frame erasure", 2006 International Conference on Acoustics, Speech and Signal Processing(ICASSP'2006), Toulouse, FRANCE March 14-19, 2006.

[3] S.- U.Ryu, E. Choy, and K. Rose, "Encoder assisted frame loss concealment for MPEG-AAC decoder", ICASSP IEEE Int. Conf. Acoust. Speech Signal Process Proc., vol.5, pp.169-172, May 2006.

[4] ISO/IEC 14496-3:2005/Amd 9:2008: Enhanced low delay AAC, available at:http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=46457

[5] J. Lecomte, et al, "Enhanced time domain packet loss concealment in switched speech/audio codec", submitted to IEEE ICASSP, Brisbane, Australia, Apr.2015.

[6] E. Moulines and J. Laroche, "Non-parametric techniques for pitch-scale and time-scale modification of speech", Speech Communication, vol. 16, pp. 175-205, 1995.

[7] European Patent EP 363233 B1: "Method and apparatus for speech synthesis by wave form overlapping and adding".

[8] International Patent Application WO 2015063045 A1: "Audio Decoder and Method for Providing a Decoded Audio Information using an Error Concealment Modifying a Time Domain Excitation Signal".

[9] Schnell, M.; Schmidt, M.; Jander, M.; Albert, T.; Geiger, R.; Ruoppila, V.; Ekstrand, P.; Grill, B., "MPEG-4 enhanced low delay AAC - a new standard for high quality communication", Audio Engineering Society: 125th Audio Engineering Society Convention 2008; October 2-5, 2008, San Francisco, USA.

Claims

오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300)에 있어서,
제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 상기 오디오 신호의 디코딩된 오디오 신호 부분을 생성하도록 구성되는 프로세서(11; 110; 210; 310) - 상기 제 1 오디오 신호 부분은 상기 은닉된 오디오 신호 부분에 의존하고, 상기 제 2 오디오 신호 부분은 상기 후속하는 오디오 신호 부분에 의존함 -; 및
상기 디코딩된 오디오 신호 부분을 출력하기 위한 출력 인터페이스(12; 120; 220; 320);를 포함하고,
상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 및 상기 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하고, 상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 및 상기 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 상기 복수의 샘플 위치는, 상기 복수의 샘플 위치 중 제 1 샘플 위치 및 상기 제 1 샘플 위치와 상이한, 상기 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 상기 제 1 샘플 위치가 상기 제 2 샘플 위치의 후속자 또는 선행자 중 어느 일방이도록 순서화되고,
상기 프로세서(11; 110; 210; 310)는 상기 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되고, 상기 제 1 서브 부분은 상기 제 1 오디오 신호 부분보다 적은 샘플을 포함하고,
상기 프로세서(11; 110; 210; 310)는 상기 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 상기 제 2 오디오 신호 부분 또는 상기 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이한 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300).
제1항에 있어서,
상기 프로세서(110)는 상기 제 2 오디오 신호 부분의 제 2 서브 부분인 상기 제 2 오디오 신호 부분의 제 2 프로토타입 신호 부분을 결정하도록 구성되고, 상기 제 2 서브 부분은 상기 제2 오디오 신호 부분보다 적은 샘플을 포함하고,
상기 프로세서(110)는 상기 제 1 서브 부분인 상기 제 1 프로토타입 신호 부분과 상기 제 2 프로토타입 신호 부분을 결합하여, 하나 이상의 중간 프로토타입 신호 부분 각각을 결정함으로써 상기 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성되고,
상기 프로세서(110)는 상기 제 1 프로토타입 신호 부분을 사용하여 그리고 상기 하나 이상의 중간 프로토타입 신호 부분을 사용하여 그리고 제 2 프로토타입 신호 부분을 사용하여, 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제2항에 있어서,
상기 프로세서(110)는 상기 제 1 프로토타입 신호 부분 및 상기 하나 이상의 중간 프로토타입 신호 부분 및 상기 제 2 프로토타입 신호 부분을 결합함으로써 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제2항 또는 제3항에 있어서,
상기 프로세서(110)는 복수의 3개 이상의 마커 샘플 위치를 결정하도록 구성되고, 상기 3개 이상의 마커 샘플 위치 각각은 상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 중 적어도 하나의 샘플 위치이고,
상기 프로세서(110)는 상기 제 2 오디오 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 후속자인 상기 제 2 오디오 신호 부분의 샘플의 샘플 위치를 상기 3개 이상의 마커 샘플 위치 중 종료 샘플 위치로서 택하도록 구성되고,
상기 프로세서(110)는 상기 제 1 오디오 신호 부분의 제 1 서브 부분과 상기 제 2 오디오 신호 부분의 제 2 서브 부분 사이의 상관에 따라 상기 제 1 오디오 신호 부분으로부터 샘플 위치를 선택함으로써 상기 3개 이상의 마커 샘플 위치 중 시작 샘플 위치를 결정하도록 구성되고,
상기 프로세서(110)는 상기 3개 이상의 마커 샘플 위치 중 시작 샘플 위치 및 상기 3개 이상의 마커 샘플 위치 중 종료 샘플 위치에 따라 상기 3개 이상의 마커 샘플 위치 중 하나 이상의 중간 샘플 위치를 결정하도록 구성되고,
상기 프로세서(110)는 상기 중간 샘플 위치에 따라 상기 제 1 프로토타입 신호 부분과 상기 제 2 프로토타입 신호 부분을 결합하여, 상기 하나 이상의 중간 프로토타입 신호 부분 각각에 대해 상기 하나 이상의 중간 프로토타입 신호 부분의 중간 프로토타입 신호 부분을 결정함으로써 상기 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제4항에 있어서,
상기 프로세서(110)는
sig_i = (1-α)·sig_first+ α·sig_last
에 따라 상기 제 1 프로토타입 신호 부분과 상기 제 2 프로토타입 신호 부분을 결합하여, 상기 하나 이상의 중간 샘플 위치 각각에 대해 상기 하나 이상의 중간 프로토타입 신호 부분의 중간 프로토타입 신호 부분을 결정함으로써 상기 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성되며,

이고,
i는 i ≥ 1인 정수이고,
nrOfMarkers는 상기 3개 이상의 마커 샘플 위치에서 1을 뺀 수이고,
sig_i는 상기 하나 이상의 중간 프로토타입 신호 부분의 i번째 중간 프로토타입 신호 부분이고,
sig_first는 상기 제 1 프로토타입 신호 부분이고,
sig_last는 상기 제 2 프로토타입 신호 부분인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제4항 또는 제5항에 있어서,
상기 프로세서(110)는

또는

에 따라 상기 3개 이상의 마커 샘플 위치 중 하나 이상의 중간 샘플 위치를 결정하도록 구성되며,

이고,

이고,

이고,
i는 i ≥ 1인 정수이고,
nrOfMarkers는 상기 3개 이상의 마커 샘플 위치에서 1을 뺀 수이고,
mark_i는 상기 3개 이상의 마커 샘플 위치 중 i번째 중간 샘플 위치이고,
mark_i-1는 상기 3개 이상의 마커 샘플 위치 중 i-1번째 중간 샘플 위치이고,
mark_i+1는 상기 3개 이상의 마커 샘플 위치 중 i+1번째 중간 샘플 위치이고,
x₀는 상기 3개 이상의 마커 샘플 위치 중 시작 샘플 위치이고,
x₁은 상기 3개 이상의 마커 샘플 위치 중 종료 샘플 위치이고,
T_c는 피치 래그를 나타내는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제4항 내지 제6항 중 어느 한 항에 있어서,
상기 프로세서(110)는 상기 제 1 프로토타입 신호 부분으로서, 상기 제 1 오디오 신호 부분의 복수의 서브 부분 후보의 각각의 서브 부분과 상기 제 2 오디오 신호 부분의 제 2 서브 부분의 복수의 상관에 따라 상기 제 1 오디오 신호 부분의 복수의 서브 부분 후보 중 서브 부분을 선택하도록 구성되고,
상기 프로세서(110)는 상기 3개 이상의 마커 샘플 위치 중 시작 샘플 위치로서, 상기 제 1 프로토타입 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 선행자인 상기 제 1 프로토타입 신호 부분의 복수의 샘플의 샘플 위치를 선택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제7항에 있어서,
상기 프로세서(110)는 상기 제 1 프로토타입 신호 부분으로서, 상기 제 2 서브 부분과의 상관이 상기 복수의 상관 중에서 가장 높은 상관 값을 갖는, 상기 서브 부분 후보 중의 서브 부분을 선택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제7항 또는 제8항에 있어서,
상기 프로세서(110)는 상기 복수의 상관의 각각의 상관에 대해 공식

에 따라 상관 값을 결정하도록 구성되며,
L_frame은 상기 제 1 오디오 신호 부분의 샘플의 수와 동일한 상기 제 2 오디오 신호 부분의 샘플의 수를 나타내고,
r(2L_frame-i)은 샘플 위치 2L_Frame-i에서 상기 제 2 오디오 신호 부분의 샘플의 샘플 값을 나타내고,
r(L_frame-i-Δ)는 샘플 위치 L_frame-i-Δ에서 상기 제 1 오디오 신호 부분의 샘플의 샘플 값을 나타내고,
상기 복수의 서브 부분 후보 중의 서브 부분 후보와 상기 제 2 서브 부분의 상기 복수의 상관 각각에 있어서, Δ는 수를 나타내며 상기 서브 부분 후보에 의존하는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제4항 내지 제9항 중 어느 한 항에 있어서,
상기 프로세서(110)는 상기 은닉된 오디오 신호 부분 및 복수의 제 3 필터 계수에 따라 상기 제 1 오디오 신호 부분을 결정하도록 구성되며, 상기 복수의 제 3 필터 계수는 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 의존하고,
상기 프로세서(110)는 상기 후속하는 오디오 신호 부분 및 상기 복수의 필터 계수에 따라 상기 제 2 오디오 신호 부분을 결정하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제10항에 있어서,
상기 프로세서(110)는 필터를 포함하고,
상기 프로세서(210)는 상기 은닉된 오디오 신호 부분에 상기 제 3 필터 계수를 갖는 필터를 적용하여 상기 제 1 오디오 신호 부분을 획득하도록 구성되고,
상기 프로세서(110)는 상기 후속하는 오디오 신호 부분에 상기 제 3 필터 계수를 갖는 필터를 적용하여 상기 제 2 오디오 신호 부분을 획득하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제10항 또는 제11항에 있어서,
상기 프로세서(110)는 상기 은닉된 오디오 신호 부분에 따라 복수의 제 1 필터 계수를 결정하도록 구성되고,
상기 프로세서(110)는 상기 후속하는 오디오 신호 부분에 따라 복수의 제 2 필터 계수를 결정하도록 구성되고,
상기 프로세서(110)는 상기 제 1 필터 계수 중 하나 이상 및 상기 제 2 필터 계수 중 하나 이상의 조합에 따라 상기 제 3 필터 계수 각각을 결정하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제12항에 있어서,
상기 복수의 제 1 필터 계수 및 상기 복수의 제 2 필터 계수 및 상기 복수의 제 3 필터 계수의 필터 계수는 선형 예측 필터의 선형 예측 코딩 파라미터인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제12항 또는 제13항에 있어서,
상기 프로세서(110)는 공식
A = 0.5·A_conc + 0.5·A_good
에 따라 상기 제 3 필터 계수의 각각의 필터 계수를 결정하도록 구성되며,
A는 상기 필터 계수의 필터 계수 값을 나타내고,
A_conc는 상기 복수의 제 1 필터 계수의 필터 계수의 계수 값을 나타내고,
A_good은 상기 복수의 제 2 필터 계수의 필터 계수의 계수 값을 나타내는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제12항 내지 제14항 중 어느 한 항에 있어서,
상기 프로세서(110)는 상기 은닉된 오디오 신호 부분에

에 의해 정의된 코사인 윈도우를 적용하여 은닉되고 윈도윙된 신호 부분을 획득하도록 구성되며,
상기 프로세서(110)는 상기 후속하는 오디오 신호 부분에 상기 코사인 윈도우를 적용하여 후속하는 윈도윙된 신호 부분을 획득하도록 구성되고,
상기 프로세서(110)는 상기 은닉되고 윈도윙된 신호 부분에 따라 상기 복수의 제 1 필터 계수를 결정하도록 구성되고,
상기 프로세서(110)는 상기 후속하는 오디오 신호 부분에 따라 상기 복수의 제 2 필터 계수를 결정하도록 구성되고,
x 및 x₁ 및 x₂ 각각은 상기 복수의 샘플 위치의 샘플 위치인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
제1항에 있어서,
상기 프로세서(210)는 제 1 확장된 신호 부분이 상기 제 1 오디오 신호 부분과 상이하고, 상기 제 1 확장된 신호 부분이 상기 제 1 서브 부분보다 많은 샘플을 갖도록, 상기 제 1 서브 부분에 따라 상기 제 1 확장된 신호 부분을 생성하도록 구성되고,
상기 프로세서(210)는 상기 제 1 확장된 신호 부분 및 상기 제 2 오디오 신호 부분을 사용하여 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
제16항에 있어서,
상기 프로세서(210)는 크로스 페이딩된 신호 부분을 획득하기 위해 상기 제 2 오디오 신호 부분과 상기 제 1 확장된 신호 부분의 크로스 페이딩을 행함으로써 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
제16항 또는 제17항에 있어서,
상기 프로세서(210)는 상기 제 1 서브 부분의 길이가 상기 제 1 오디오 신호 부분의 피치 래그와 동일하도록 상기 제 1 오디오 신호 부분으로부터 상기 제 1 서브 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
제18항에 있어서,
상기 프로세서(210)는 상기 제 1 확장된 신호 부분의 샘플의 수가 상기 제 1 오디오 신호 부분의 피치 래그의 샘플의 수에 상기 제 2 오디오 신호 부분의 샘플의 수를 더한 것과 동일하도록 상기 제 1 확장된 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
제16항 내지 제19항 중 어느 한 항에 있어서,
상기 프로세서(210)는 상기 은닉된 오디오 신호 부분 및 복수의 필터 계수에 따라 상기 1 오디오 신호 부분을 결정하도록 구성되며, 상기 복수의 필터 계수는 상기 은닉된 오디오 신호 부분에 의존하고,
상기 프로세서(210)는 상기 후속하는 오디오 신호 부분 및 상기 복수의 필터 계수에 따라 상기 제 2 오디오 신호 부분을 결정하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
제20항에 있어서,
상기 프로세서(210)는 필터를 포함하고,
상기 프로세서(210)는 상기 은닉된 오디오 신호 부분에 상기 필터 계수를 갖는 필터를 적용하여 상기 제 1 오디오 신호 부분을 획득하도록 구성되고,
상기 프로세서(210)는 상기 후속하는 오디오 신호 부분에 상기 필터 계수를 갖는 필터를 적용하여 상기 제 2 오디오 신호 부분을 획득하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
제21항에 있어서,
상기 복수의 필터 계수의 필터 계수는 선형 예측 필터의 선형 예측 코딩 파라미터인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
제20항 내지 제22항 중 어느 한 항에 있어서,
상기 프로세서(210)는 상기 은닉된 오디오 신호 부분에

에 의해 정의된 코사인 윈도우를 적용하여 은닉되고 윈도윙된 신호 부분을 획득하도록 구성되며,
상기 프로세서(210)는 상기 은닉되고 윈도윙된 오디오 신호 부분에 따라 상기 복수의 필터 계수를 결정하도록 구성되고,
x 및 x₁ 및 x₂ 각각은 상기 복수의 샘플 위치의 샘플 위치인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
제1항에 있어서,
상기 제 1 오디오 신호 부분은 상기 은닉된 오디오 신호 부분이고, 상기 제 2 오디오 신호 부분은 상기 후속하는 오디오 신호 부분이고,
상기 프로세서(310)는 상기 제 1 오디오 신호 부분의 제 1 서브 부분인, 상기 은닉된 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되며, 상기 제 1 서브 부분은 상기 은닉된 오디오 신호 부분의 샘플 중 하나 이상을 포함하나 상기 은닉된 오디오 신호 부분보다 적은 샘플을 포함하고, 상기 제 1 서브 부분의 샘플의 각각의 샘플 위치는 상기 제 1 서브 부분에 포함되지 않는 상기 은닉된 오디오 신호 부분의 임의의 샘플의 임의의 샘플 위치의 후속자이고,
상기 프로세서(310)는 상기 후속하는 오디오 신호 부분의 제 3 서브 부분을 결정하도록 구성되며, 상기 제 3 서브 부분은 상기 후속하는 오디오 신호 부분의 샘플 중 하나 이상을 포함하나 상기 후속하는 오디오 신호 부분보다 적은 샘플을 포함하고, 상기 제 3 서브 부분 각각의 샘플의 각각의 샘플 위치는 상기 제 3 서브 부분에 포함되지 않는 상기 후속하는 오디오 신호 부분의 임의의 샘플의 임의의 샘플 위치의 후속자이고,
상기 프로세서(310)는 상기 제 2 오디오 신호 부분의 제 2 서브 부분인, 상기 후속하는 오디오 신호 부분의 제 2 서브 부분을 결정하도록 구성되며, 상기 제 3 서브 부분에 포함되지 않는 상기 후속하는 오디오 신호 부분의 임의의 샘플은 상기 후속하는 오디오 신호 부분의 제 2 서브 부분에 포함되고,
상기 프로세서(310)는 상기 은닉된 오디오 신호 부분의 제 1 서브 부분의 샘플로부터 제 1 피크 샘플을 결정하도록 구성되며, 상기 제 1 피크 샘플의 샘플 값은 상기 은닉된 오디오 신호 부분의 제 1 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이고, 상기 프로세서(310)는 상기 후속하는 오디오 신호 부분의 제 2 서브 부분의 샘플로부터 제 2 피크 샘플을 결정하도록 구성되며, 상기 제 2 피크 샘플의 샘플 값은 상기 후속하는 오디오 신호 부분의 제 2 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이고, 상기 프로세서(310)는 상기 후속하는 오디오 신호 부분의 제 3 서브 부분의 샘플로부터 제 3 피크 샘플을 결정하도록 구성되며, 상기 제 3 피크 샘플의 샘플 값은 상기 후속하는 오디오 신호 부분의 제 3 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이고,
조건이 충족되면 그리고 오직 조건이 충족되는 경우에만, 상기 프로세서(310)는 상기 제 2 피크 샘플의 선행자인 상기 후속하는 오디오 신호 부분의 각각의 샘플의 각각의 샘플 값을 수정하여, 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되고,
상기 조건은 상기 제 2 피크 샘플의 샘플 값이 상기 제 1 피크 샘플의 샘플 값보다 크고, 상기 제 2 피크 샘플의 샘플 값이 상기 제 3 피크 샘플의 샘플 값보다 큰 것이거나,
상기 조건은 상기 제 2 피크 샘플의 샘플 값과 상기 제 1 피크 샘플의 샘플 값 사이의 제 1 비율이 제 1 임계 값보다 크고, 상기 제 2 피크 샘플의 샘플 값과 상기 제 3 피크 샘플의 샘플 값 사이의 제 2 비율이 제 2 임계 값보다 큰 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
제24항에 있어서,
상기 조건은 상기 제 2 피크 샘플의 샘플 값이 상기 제 1 피크 샘플의 샘플 값보다 크고, 상기 제 2 피크 샘플의 샘플 값이 상기 제 3 피크 샘플의 샘플 값보다 큰 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
제24항에 있어서,
상기 조건은 상기 제 1 비율이 상기 제 1 임계 값보다 크고, 상기 제 2 비율이 상기 제 2 임계 값보다 큰 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
제26항에 있어서,
상기 제 1 임계 값은 1.1보다 크고, 상기 제 2 임계 값은 1.1보다 큰 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
제26항 또는 제27항에 있어서,
상기 제 1 임계 값은 상기 제 2 임계 값과 동일한 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
제24항 내지 제28항 중 어느 한 항에 있어서,
상기 조건이 충족되면 그리고 상기 조건이 충족되는 경우에만, 상기 프로세서(310)는
s_modified(Lframe+i) = s(Lframe+i)·α_i
에 따라 상기 제 2 피크 샘플의 선행자인 상기 후속하는 오디오 신호 부분의 각각의 샘플의 각각의 샘플 값을 수정하도록 구성되며,
Lframe은 상기 후속하는 오디오 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 선행자인 상기 후속하는 오디오 신호 부분의 샘플의 샘플 위치를 나타내고,
Lframe+i는 상기 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 위치를 나타내는 정수이고,
0 ≤ i ≤ Imax-1이고, Imax-1은 상기 제 2 피크 샘플의 샘플 위치를 나타내고,
s(Lframe+i)는 상기 프로세서(310)에 의해 수정되기 전의 상기 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 값이고,
s_modified(Lframe+i)는 상기 프로세서(310)에 의해 수정된 후의 상기 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 값이고,
0 < α_i < 1인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
제29항에 있어서,

이며,
E_cmax는 상기 제 1 피크 샘플의 샘플 값이고,
E_max는 상기 제 2 피크 샘플의 샘플 값이고,
E_gmax는 상기 제 3 피크 샘플의 샘플 값인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
제29항 또는 제30항에 있어서,
상기 조건이 충족되면 그리고 상기 조건이 충족되는 경우에만, 상기 프로세서(310)는
s_modified(Imax+k) = s(Imax+k)·α_i
에 따라 상기 제 2 피크 샘플의 후속자인 상기 후속하는 오디오 신호 부분의 복수의 샘플의 2개 이상의 샘플의 각각의 샘플의 샘플 값을 수정하여 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되며,
Imax+k는 상기 후속하는 오디오 신호 부분의 Imax+k+1번째 샘플의 샘플 위치를 나타내는 정수인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
제1항 내지 제31항 중 어느 한 항에 있어서,
상기 장치(10; 100; 200; 300)는 에러가 있거나 손실된 현재 프레임에 대한 은닉을 행하여 상기 은닉된 오디오 신호 부분을 획득하도록 구성되는 은닉 유닛(8)을 더 포함하는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300).
제32항에 있어서,
상기 장치(10; 100; 200; 300)는 상기 현재 프레임이 손실되었거나 에러가 있는지 여부를 검출하도록 구성되는 활성화 유닛(6)을 더 포함하며, 상기 활성화 유닛(6)은 상기 현재 프레임이 손실되었거나 에러가 있으면, 상기 현재 프레임에 대한 은닉을 행하기 위해 상기 은닉 유닛(8)을 활성화시키도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300).
제33항에 있어서,
상기 활성화 유닛(6)은 상기 현재 프레임이 손실되었거나 에러가 있으면, 에러가 없는 후속하는 프레임이 도착하는지 여부를 검출하도록 구성되고,
상기 활성화 유닛(6)은 상기 현재 프레임이 손실되었거나 에러가 있으면, 그리고 상기 에러가 없는 후속하는 프레임이 도착하면, 상기 디코딩된 오디오 신호 부분을 생성하기 위해 프로세서(8)를 활성화시키도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300).
오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하는 방법에 있어서,
제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 상기 오디오 신호의 디코딩된 오디오 신호 부분을 생성하는 단계 - 상기 제 1 오디오 신호 부분은 상기 은닉된 오디오 신호 부분에 의존하고, 상기 제 2 오디오 신호 부분은 상기 후속하는 오디오 신호 부분에 의존함 -; 및
상기 디코딩된 오디오 신호 부분을 출력하는 단계;를 포함하고,
상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 및 상기 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하고, 상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 및 상기 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 상기 복수의 샘플 위치는, 상기 복수의 샘플 위치 중 제 1 샘플 위치 및 상기 제 1 샘플 위치와 상이한, 상기 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 상기 제 1 샘플 위치가 상기 제 2 샘플 위치의 후속자 또는 선행자 중 어느 일방이도록 순서화되고,
상기 디코딩된 오디오 신호 부분을 생성하는 단계는 상기 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하는 단계를 포함하며, 상기 제 1 서브 부분은 상기 제 1 오디오 신호 부분보다 적은 샘플을 포함하고,
상기 디코딩된 오디오 신호 부분을 생성하는 단계는 상기 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 상기 제 2 오디오 신호 부분 또는 상기 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 행해지며, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이한 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하는 방법.
컴퓨터 또는 신호 프로세서 상에서 실행되는 경우 제35항의 방법을 구현하기 위한 컴퓨터 프로그램.
오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템에 있어서,
스위칭 모듈(701);
에너지 감쇠를 구현하기 위한 장치(300)인 제24항 내지 제31항 중 어느 한 항에 따른 장치(300); 및
피치 적응 오버랩을 위한 장치(100)인 제2항 내지 제15항 중 어느 한 항에 따른 장치(100);를 포함하고,
상기 스위칭 모듈(701)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 에너지 감쇠를 구현하기 위한 장치(300) 및 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 중 하나를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템에 있어서,
스위칭 모듈(702);
에너지 감쇠를 구현하기 위한 장치(300)인 제24항 내지 제31항 중 어느 한 항에 따른 장치(300); 및
여기 오버랩을 구현하기 위한 장치(200)인 제16항 내지 제23항 중 어느 한 항에 따른 장치(200);를 포함하고,
상기 스위칭 모듈(702)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 에너지 감쇠를 구현하기 위한 장치(300) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템에 있어서,
스위칭 모듈(703);
피치 적응 오버랩을 구현하기 위한 장치(100)인 제2항 내지 제15항 중 어느 한 항에 따른 장치(100); 및
여기 오버랩을 구현하기 위한 장치(200)인 제16항 내지 제23항 중 어느 한 항에 따른 장치(200);를 포함하고,
상기 스위칭 모듈(703)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템에 있어서,
스위칭 모듈(704);
피치 적응 오버랩을 구현하기 위한 장치(100)인 제2항 내지 제15항 중 어느 한 항에 따른 장치(100);
여기 오버랩을 구현하기 위한 장치(200)인 제16항 내지 제23항 중 어느 한 항에 따른 장치(200); 및
에너지 감쇠를 구현하기 위한 장치(300)인 제24항 내지 제31항 중 어느 한 항에 따른 장치(300);를 포함하고,
상기 스위칭 모듈(704)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 및 상기 에너지 감쇠를 구현하기 위한 장치(300) 중 하나를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
제40항에 있어서,
상기 스위칭 모듈(704)은 은닉된 오디오 신호 프레임 및 후속하는 오디오 신호 프레임 중 적어도 하나가 음성을 포함하는지 여부를 결정하도록 구성되고,
상기 스위칭 모듈(704)은 상기 은닉된 오디오 신호 프레임 및 상기 후속하는 오디오 신호 프레임이 음성을 포함하지 않는다면, 상기 디코딩된 오디오 신호 부분을 생성하기 위해 상기 에너지 감쇠을 구현하기 위한 장치(300)를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
제40항 또는 제41항에 있어서,
상기 스위칭 모듈(704)은 후속하는 오디오 신호 프레임의 프레임 길이에 따라 그리고 상기 은닉된 오디오 신호 부분의 피치 또는 상기 후속하는 오디오 신호 부분의 피치 중 적어도 하나에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 및 상기 에너지 감쇠를 구현하기 위한 장치(300) 중 상기 하나를 택하도록 구성되며, 상기 후속하는 오디오 신호 부분은 상기 후속하는 오디오 신호 프레임의 오디오 신호 부분인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
제39항에 있어서,
상기 시스템은 에너지 감쇠를 구현하기 위한 장치(300)인 제24항 내지 제31항 중 어느 한 항에 따른 장치(300)를 더 포함하고,
상기 스위칭 모듈(703)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 중간 오디오 신호 부분을 생성하기 위해, 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성되고,
상기 에너지 감쇠를 구현하기 위한 장치(300)는 상기 중간 오디오 신호 부분을 처리하여 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.