KR20110076936A

KR20110076936A - 디지털 오디오 신호에서의 프리-에코 감쇠

Info

Publication number: KR20110076936A
Application number: KR1020117008793A
Authority: KR
Inventors: 발라즈스 코베시; 슈테판 라고트
Original assignee: 프랑스 텔레콤
Priority date: 2008-09-17
Filing date: 2009-09-15
Publication date: 2011-07-06
Also published as: CN102160114A; WO2010031951A1; JP5295372B2; JP2012503214A; ES2400987T3; RU2481650C2; US20110178617A1; EP2347411B1; RU2011115003A; US8676365B2; KR101655913B1; CN102160114B; EP2347411A1

Abstract

본 발명은 변환 인코딩으로부터 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법에 관한 것이고, 상기 방법은, 디코딩 시에 그리고 상기 디지털 오디오 신호의 현재 프레임에 대해, 적어도 현재 프레임의 재구성된 신호로부터 연접된 신호를 규정하는 단계(CONC), 미리 결정된 길이를 갖는 샘플들의 서브유닛들로 상기 연접된 신호를 분할하는 단계(DIV, 301), 연접된 신호의 시간적 엔벨로프를 계산하는 단계(ENV, 302), 고-에너지 영역을 향한 시간적 엔벨로프의 전이를 검출하는 단계(DETECT, 304), 전이가 검출된 서브유닛에 선행하는 저-에너지 서브-유닛들을 결정하는 단계(DETECT, 304), 및 상기 결정된 서브유닛들에서의 감쇠 단계(ATT)를 포함한다. 상기 방법은 상기 감쇠가 연접된 신호의 시간적 엔벨로프에 기초하여 각각의 상기 결정된 서브유닛에 대해 계산된 감쇠 인자에 따라 수행되도록 한다. 본 발명은 또한 상기 방법을 구현하기 위한 디바이스, 및 이러한 장치를 포함하는 디코더에 관한 것이다.

Description

디지털 오디오 신호에서의 프리-에코 감쇠{PRE-ECHO ATTENUATION IN A DIGITAL AUDIO SIGNAL}

본 발명은 디지털 오디오 신호의 디코딩 동안 프리-에코들을 감쇠시키기 위한 방법 및 디바이스에 관한 것이다.

예를 들어 고정된 네트워크 또는 이동가능한 네트워크인, 송신 네트워크들을 통한 디지털 오디오 신호들의 전달을 위해, 또는 신호들의 저장을 위해, 변환-기반 주파수 코딩 또는 시간적 코딩 유형의 코딩 시스템들을 구현하는 압축 프로세스들(또는 소스 코딩)이 이용된다.

따라서 본 발명의 주제인 상기 방법 및 상기 디바이스는 적용 분야로서 소리 신호들, 특히 주파수 변환에 의해 코딩된 디지털 오디오 신호들의 압축을 포함한다.

도 1은 예로서 선행기술에 따른 가산/중첩 분석-합성을 포함하는 변환에 의해 디지털 오디오 신호의 코딩 및 디코딩의 기본적 다이어그램을 나타낸다.

타격음들과 같은 몇몇 음악 시퀀스들 및 파열음들(/k/, /t/, ...)과 같은 몇몇 연설 부분들은 고도로 갑작스런 어택(attack)들에 의해 특징화되고 이는 결과적으로 몇몇 샘플들의 공간에서 신호의 동적 스윙에 매우 빠른 전이들 및 매우 강한 변화들을 유발한다. 예시적인 전이(transition)는 샘플(410)에 기초하여 도 1에서 제공된다.

코딩/디코딩 프로세싱을 위해서, 입력 신호는 길이 L의 샘플들의 블록들로 슬라이스(slice)된다(여기서는 수직한 점선들에 의해 표시됨). 입력 신호는 x(n)으로 표시된다. 연속된 블록들로 슬라이스되면 결과적으로 블록들

을 규정하게 되고, 여기서 N은 프레임 인덱스이고 L은 프레임 길이이다. 도 1에서 우리는 L=160 개의 샘플들을 가진다. 수정된 코사인 변조 변환 MDCT("수정된 이산 코사인 변환(Modified Discrete Cosine Transform)"의 약자)의 경우, 2개의 블록들 x_N(n) 및 x_N+1(n)은 함께 분석되어 인덱스 N의 프레임과 연관되는 변환된 계수들의 블록을 제공한다.

변환 코딩에 의해 수행되는, 프레임들이라고도 지칭되는 블록들로의 분할은 소리 신호에 전적으로 독립적이며 이러한 전환들은 따라서 분석 윈도우의 임의의 포인트에서 나타난다. 이제, 변환 디코딩 이후, 재구성된 신호는 양자화 (Q)-역 양자화(Q^-1) 연산에 의해 생성된 "잡음"(또는 왜곡)에 의해 손싱된다. 이러한 코딩 잡음은 변환된 블록의 시간적 서포트 전체를 통해, 즉 샘플들의 길이 2L의 윈도우의 길이 전체를 통해(L 개의 샘플들의 중첩을 가지고) 비교적 균일한 방식으로 시간적으로 분산된다. 코딩 잡음의 에너지는 일반적으로 블록의 에너지에 비례하고 디코딩 레이트에 의존한다.

어택을 포함하는 블록(예를 들어, 도 1의 블록(320-340))에 대해, 신호의 에너지는 높고, 따라서 잡음 또한 높은 레벨을 가진다.

변환 코딩에서, 코딩 잡음의 레벨은 전이에 바로 뒤따르는 고 에너지의 샘플들에 대한 신호의 레벨보다 낮지만, 이러한 레벨은 특히 전이에 선행하는 부분을 통해(도 1의 샘플들(160-410)) 보다 낮은 에너지의 샘플들에 대한 신호의 레벨보다 높다. 상기 부분에 대해, 신호-대-잡음 비는 음수이고 결과적인 열화(degradation)는 청취 동안 매우 성가시게 나타날 수 있다. 전이 이전의 코딩 잡음은 프리-에코라고 지칭되고 전이 이후의 잡음은 포스트-에코라고 지칭된다.

프리-에코가 전이가 발생하는 프레임뿐만 아니라 전이에 선행하는 프레임에도 영향을 미친다는 점을 도 1에서 관찰할 수 있다.

음향-심리학적 실험들은 인간의 귀가 수 밀리초 정도의, 소리들의 상당히 제한된 시간적 프리-마스킹(pre-masking)을 수행함을 보여주었다. 어택에 선행하는 잡음, 또는 프리-에코는 프리-에코의 지속 시간이 프리-마스킹의 지속 시간보다 길 때 청취가능하다.

인간의 귀는 또한 고-에너지 시퀀스들로부터 저-에너지 시퀀스들로 스위칭할 때 5 내지 60 밀리초의 보다 긴 지속 시간의 포스트-마스킹을 수행한다. 그러므로 포스트-에코들에 대한 성가심의 수락가능한 정도 또는 레벨은 프리-에코들에 대한 것보다 더 크다.

프리-에코들의 보다 중요한 현상은 샘플들의 수의 관점에서 블록들의 길이가 길어질수록 더욱더 성가시게 된다는 점이다. 이제, 변환 코딩에서, 최상위(most significant) 주파수 영역들의 신뢰할만한 분해능을 가질 필요가 있다. 고정된 샘플링 주파수 및 고정된 레이트로, 윈도우의 포인트들의 수가 증가하는 경우, 보다 많은 비트들이 음향 심리학적 모델에 의해 유용하다고 간주되는 주파수 스펙트럼 선들을 코딩하기 위해 이용가능할 것이고, 따라서 이는 긴 길이의 블록들을 이용하는 장점이다. 예를 들어, MPEG AAC 코딩(어드밴스트 오디오 코딩)은 고정된 수의 샘플들을 포함하는 긴 길이의 윈도우를 이용한다.(2048, 즉 32 kHZ의 샘플링 주파수로 64ms의 지속 시간을 통해) 기존 응용들을 위해 이용되는 변환 코더들은 때때로 16 kHz에서 지속 시간 40 ms의 윈도우 및 20 ms의 프레임 갱신 지속 시간을 이용한다.

프리-에코들의 현상의 상기 성가신 효과를 줄이기 위한 목적으로 지금까지 다양한 해결책들이 제안되었다.

첫 번째 해결책은 적응적 필터링을 적용하는데 있다. 어택에 기인하는 송신에 선행하는 영역에서, 재구성된 신호는 실제로 원 신호(original signal) 및 신호에 중첩된 양자화 잡음으로 이루어진다.

대응하는 필터링 기술은 1994년 11월, Y. Mahieux 및 J.P.Petit에 의해 발행되고, IEEE Trans. On Communication 볼륨 42, 제 11 호, High Quality Audio Transform Coding at 64 kbits라 명명된 논문에 기술된다.

이러한 필터링의 구현은 잡음성 샘플들을 기초로 파라미터들 중 몇몇이 디코더에서 추정되는 파라미터들에 대한 인식을 요구한다. 한편, 원 신호의 에너지와 같은 정보는 코더에서만 알려질 수 있고 결과적으로 송신되어야 한다. 수신된 블록이 동적 스윙의 갑작스런 변화를 포함할 때, 필터링 프로세싱이 그에 적용된다.

상기 필터링 프로세스는 원 신호의 복원(retrieve)을 가능하게 하지는 못하지만, 프리-에코들에 있어서 큰 감소를 제공한다. 그러나 이는 추가적인 보조 파라미터들이 디코더로 송신될 것을 요구한다.

보조 파라미터들의 송신을 요구하지 않는 기술은 프랑스 특허 출원 FR 06 01466에 기술되어 있다. 기술된 방식은 프리-에코를 생성하는 변환 코딩, 및 어떠한 프리-에코들도 생성하지 않는 시간적 코딩에 기초하여, 프리-에코들의 존재를 구별하고 계층적 코딩(다중층 2진 열(binary train)을 생성함)에 의해 생성된 디지털 오디오 신호의 프리-에코들을 감쇠시키는 것을 가능하게 한다.

본 특허 출원은 디코더에서 고 에너지 영역으로의 전이에 선행하는 저 에너지 영역의 검출, 검출된 저 에너지 영역에서의 프리-에코들의 감쇠 및 고 에너지 영역에서의 프리-에코들의 감쇠의 방지를 보다 정확하게 기술한다. 프리-에코들의 감쇠를 가능하게 하는 프로세싱은 변환 디코딩(프리-에코들을 생성함)으로부터 발생하는 신호와 시간적 디코딩(에코들을 생성하지 않음)으로부터 발생하는 신호 간의 비교에 기초한다.

이러한 기술은 코더로부터 유래하는 특정 보조 정보의 송신을 요구하지 않고 시간적 디코딩으로부터 발생하는 기준 신호의 존재를 요구한다.

시간적 디코딩으로부터 발생하는 기준 신호는 변환 디코딩을 이용하는 모든 디코더들에 반드시 이용가능한 것은 아니다. 또한 이러한 기준 신호가 디코더에 이용가능한 경우, 이것이 프리-에코들의 감쇠를 계산하는데 항상 적합한 것은 아니다.

스테레오 스케일러블 코더, 예를 들어 표준(norm) UIT-T G.729.1의 스테레오 확장이 이제부터 기술되는 방식으로 동작할 수 있다.

코더는 스테레오 신호의 2개의 채널들(좌측 및 우측)의 평균을 계산하고, 그 후 이러한 평균을 G.729.1 코더를 이용하여 코딩하며, 마지막으로 추가적인 스테레오 확장 파라미터들을 송신한다. 그러므로 디코더로 송신된 2진 열은 추가적인 스테레오 확장 층들을 가진 G.729.1 층을 포함한다. 예를 들어, 제 1 추가 층은 스테레오 신호의 2개의 채널들 간에 서브-대역(변형된 도메인에서)에 대한 에너지 차이를 반영하는 파라미터들을 포함한다. 제 2 층은 예를 들어 레지듀얼 신호의 변환된 계수들을 포함하고, 이러한 레지듀얼 신호는 원 신호와 G.729.1 2진 열 및 상기 제 1 층에 기초하여 디코딩된 신호 간의 차이로서 규정된다.

확장 모드에서 G.729.1 디코더는 우선 모노 신호를 디코딩하고 양쪽 채널들(좌측 및 우측)의 변환된 계수들을 송신된 파라미터들의 함수로써 복원한다.

G.729.1 유형의 디코더에 의한 모노 신호의 디코딩은 2개의 채널들의 평균에 기초하여 기준 신호를 생성한다. 2개의 채널들 간의 레벨들 차이가 큰 경우, 모노 신호의 시간적 엔벨로프(temporal envelope)는 보다 높은 레벨의 채널의 역 변환 출력에 비해 낮고, 보다 낮은 레벨의 채널의 역 변환 출력에 비해 높다.

그러므로 프리-에코들을 감쇠시키기 위한 G.729.1 디코더의 출력과 같은 기준의 이용은 스테레오 디코딩을 위해 효율적이지 않을 것이다: 보다 높은 레벨의 채널에서, 너무 많은 프리-에코가 부정확하게 검출될 것이고 따라서 유용한 신호가 제거될 것이고, 한편 보다 낮은 레벨의 채널에서, 모든 프리-에코들이 검출 또는 제거되지는 않을 것이다.

그러므로 시간적 디코딩으로부터 발생하는 신호가 이용가능하지 않거나 효과적이지 않은 경우 및 어떠한 보조 정보도 코더에 의해 송신되지 않는 경우, 디코딩 시에 프리-에코들을 정확하게 감쇠시키기 위한 기술에 대한 요구가 존재한다. 더욱이 이러한 기술은 모노 및 스테레오 코딩을 위해 동작할 수 있어야 한다.

이러한 목적을 위해, 본 발명은 변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법을 관련시키고, 디코딩 시에, 이러한 디지털 오디오 신호의 현재 프레임에 대해, 상기 방법은:

적어도 상기 현재 프레임의 재구성된 신호에 기초하여, 연접된 신호를 규정하는 단계;

상기 연접된 신호를 결정된 길이의 샘플들의 서브-블록들로 분할하는 단계;

상기 연접된 신호의 시간적 엔벨로프를 계산하는 단계;

고-에너지 영역으로의 상기 시간적 엔벨로프의 전이를 검출하는 단계;

전이가 검출된 서브-블록에 선행하는 저 에너지의 서브-블록들을 결정하는 단계; 및

상기 결정된 서브-블록들에서의 감쇠 단계

를 포함하고, 상기 감쇠는 상기 연접된 신호의 시간적 엔벨로프의 함수로써, 각각의 상기 결정된 서브-블록들에 대해 계산된 감쇠 인자에 따라 수행된다.

따라서, 감쇠 인자는 코더들로부터 어떠한 정보 송신을 요구하지도 않고 에코들을 생성하지 않는 디코딩으로부터 발생하는 어떠한 신호도 요구하지 않는 디코딩된 신호에 특정적인 특성들에 기초하여 규정된다.

현재 프레임의 각 서브-블록에 적합하고 재구성된 신호에 기초하여 계산된 인자는 프리-에코 감쇠 프로세싱의 품질을 개선하는 것을 가능하게 한다.

연접된 신호는, 도 2에 관하여 이후 규정되는 것처럼, 현재 프레임의 재구성된 신호 및 현재 프레임의 제 2 부분에 기초하여 규정될 수 있다. 이러한 경우, 상기 방식은 어떠한 시간적 지연도 도입하지 않는다.

시간적 지연이 허용되는 경우, 연접된 신호는 현재 프레임 및 다음 프레임의 재구성된 신호로서 규정된다.

연접된 신호는 다양한 장소들에서 서브-블록들로서 물리적으로 저장될 수 있다.

이제부터 언급되는 다양한 특정 실시예들은 상기-규정된 방법의 단계들에, 독립적으로 또는 서로 조합하여 부가될 수 있다.

따라서, 특정 실시예에서, 이전 프레임의 재구성된 신호의 시간적 엔벨로프의 함수로써 인자의 감쇠 값에 대한 최솟값이 고정된다.

이는 특히 백그라운드 잡음 레벨 상에서 프레임 간의 감쇠에 있어서 지나치게 큰 차이를 피하고 따라서 청취가능한 인공 산물들(artifact)을 피할 수 있게 한다.

이전 프레임의 재구성된 신호의 시간적 엔벨로프는 예를 들어 서브-블록마다 최솟값의 계산 등에 의해 또는 평균 에너지의 계산 또는 임의의 다른 계산에 의해 결정된다.

본 발명의 특정 실시예에서, 감쇠 인자는 상기 서브-블록의 시간적 엔벨로프, 이전 프레임의 재구성된 신호의 시간적 엔벨로프 및 상기 전이를 포함하는 서브-블록의 시간적 엔벨로프의 최댓값의 함수로써 결정된다.

예시적인 실시예에서, 시간적 엔벨로프는 서브-블록 에너지 계산에 의해 결정된다.

유리하게도, 상기 방법은 상기 결정된 서브-블록들에서의 감쇠 단계 이후 현재 프레임의 시간적 엔벨로프를 계산 및 저장하는 단계를 더 포함한다.

그러므로 이러한 시간적 엔벨로프 계산은 다음 프레임을 처리하는데 이용될 것이다. 이러한 계산은 신호가 더 이상 프리-에코들에 의해 분산되지 않기 때문에 정확하다.

유리하게도, 값 1의 감쇠 인자가 상기 전이를 포함하는 상기 서브-블록의 샘플들 및 현재 프레임에서의 다음 서브-블록들의 샘플들에 할당된다.

그러므로 상기 감쇠는 어떠한 프리-에코들도 포함하지 않는 이러한 서브-블록들에서 방지된다.

특정 실시예에서, 상기 감쇠 인자는 다음의 단계들에 따라 결정된 서브-블록마다 결정된다:

- 현재 서브-블록의 에너지에 대한 전이를 포함하는 서브-블록에서 결정된 최대 에너지의 비율을 계산하는 단계;

- 상기 비율을 제 1 임계값과 비교하는 단계;

- 상기 비율이 상기 제 1 임계값보다 작거나 같은 경우, 상기 감쇠 인자에 상기 감쇠를 방지하는 값을 할당하는 단계;

- 상기 비율이 상기 제 1 임계값보다 큰 경우:

·상기 비율을 제 2 임계값과 비교하는 단계;

·상기 비율이 상기 제 2 임계값보다 작거나 같은 경우, 상기 감쇠 인자에 낮은 감쇠 값을 할당하는 단계;

·상기 비율이 상기 제 2 임계값보다 큰 경우, 상기 감쇠 인자에 높은 감쇠 값을 할당하는 단계.

이러한 특정 실시예는 특히 효율적이고 구현하기에 단순한 것임이 밝혀졌다.

유리하게도, 상기 방법은 샘플 별로(sample by sample) 계산된 인자들 사이에서 평활화 함수의 결정을 제공한다.

이는 또한 감쇠 값들의 지나치게 갑작스런 변화 동안 청취가능한 인공 산물들을 피할 수 있게 한다.

구현 변형에서, 전이를 포함하는 서브-블록에 선행하는 서브-블록의 미리 결정된 수의 샘플들에 적용된 상기 감쇠 인자에, 상기 감쇠를 방지하는 감쇠 값을 적용함으로써, 인자 보정이 전이를 포함하는 서브-블록에 선행하는 서브-블록에 대해 수행된다.

그러므로 이는 감쇠 값들에 대해 규정된 평활화 함수에 의해 어택의 진폭을 줄이지 않을 수 있게 한다.

본 발명은 또한 변환 코더에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 디바이스를 지향하고, 디코더와 연관되고 디지털 오디오 신호의 현재 프레임을 처리하기 위한 상기 디바이스는:

적어도 상기 현재 프레임의 재구성된 신호에 기초하여, 연접된 신호를 규정하기 위한 모듈;

상기 연접된 신호를 결정된 길이의 샘플들의 서브-블록들로 분할하기 위한 모듈;

상기 연접된 신호의 시간적 엔벨로프를 계산하기 위한 모듈;

고-에너지 구역으로의 상기 시간적 엔벨로프의 전이를 검출하기 위한 모듈;

전이가 검출된 서브-블록에 선행하는 저 에너지의 서브-블록들을 결정하기 위한 모듈; 및

상기 결정된 서브-블록들에서의 감쇠를 위한 모듈

을 포함한다.

상기 디바이스는, 상기 감쇠 모듈이 상기 연접된 신호의 시간적 엔벨로프의 함수로써, 각각의 상기 결정된 서브-블록들에 대해 계산된 감쇠 인자에 따라 상기 감쇠를 수행하도록 한다.

본 발명은 상기 기술된 것과 같은 디바이스를 포함하는 디지털 오디오 신호의 디코더를 지향한다.

이러한 디코더는 예를 들어 UIT-T, 커미션 16의 문제 23에서 연구된, G.729.1-SWB/스테레오 유형의 디코더일 수 있다.

본 발명은 스테레오 모드 또는 SWB("초 광 대역(Super Wide Band)") 모드에서 이러한 디코더에 통합될 수 있다.

마지막으로, 본 발명은 코드 명령들이 프로세서에 의해 실행될 때 위에서 기술된 것과 같은 감쇠 방법의 단계들을 구현하기 위한 코드 명령들을 포함하는 컴퓨터 프로그램을 지향한다.

본 발명의 다른 특성들 및 장점들은, 단지 비제한적인 예로서 그리고 첨부된 도면들을 참조하여 제공되는, 다음의 설명을 판독할 때 보다 분명하게 명백해질 것이고, 도면에서:
이전에 기술된 도 1은 종래 기술에 따른 변환 코딩-디코딩 시스템을 도시한다.
도 2는 신호의 현재 프레임에 대한 재구성된 신호의 구성을 도시한다.
도 3은 디지털 오디오 신호 디코더에서 프리-에코들을 감쇠시키기 위한 디바이스를 도시한다.
도 4a는 전이가 현재 프레임의 제 2 부분에 있는 경우 연접된 신호를 나타낸다.
도 4b는 전이가 현재 프레임의 재구성된 신호에 있는 경우 연접된 신호를 나타낸다.
도 5는 본 발명에 따른 감쇠 인자의 계산 단계들의 일반적인 실시예를 나타내는 흐름도를 도시한다.
도 6은 본 발명의 실시예에 따른 감쇠 방법의 구현에 대한 상세한 흐름도를 도시한다.
도 7은 본 발명에 따른 감쇠 인자의 계산의 특정 실시예를 도시한다.
도 8a는 실시예에 따라 본 발명이 구현되는 예시적인 디지털 오디오 신호를 도시한다.
도 8b는 변형 실시예에 따라 본 발명이 구현되는 동일한 디지털 오디오 신호를 도시한다.
도 9는 현재 프레임의 제 2 부분의 제 2 서브-블록에 어택이 위치되는 경우 연접된 신호를 도시한다.
도 10은 현재 프레임의 제 2 부분의 제 3 서브-블록에 어택이 위치되는 경우 연접된 신호를 도시한다.
도 11은 현재 프레임의 제 2 부분의 제 1 서브-블록에 어택이 위치되는 경우 연접된 신호를 도시한다.
도 12는 현재 프레임의 제 2 부분의 제 4 서브-블록에 어택이 위치되는 경우 연접된 신호를 도시한다.
도 13a 및 13b는 각각 G.729.1 SWB/스테레오 유형의 코더 및 디코더를 도시하고, 상기 디코더는 본 발명에 따른 감쇠 디바이스를 포함한다.
도 14a 및 도 14b는 각각 G.729.1 SWB 유형의 코더 및 디코더를 도시하고, 상기 디코더는 본 발명에 따른 감쇠 디바이스를 포함한다.
도 15는 본 발명에 따른 감쇠 디바이스의 예를 도시한다.

도 2는 디코딩된 신호의 프레임 및 도 1을 참조하여 기술되는 것과 같은 가산 중첩에 의해 재구성된 신호의 구성을 나타낸다. 이제부터, 다음의 표기법이 도 2 및 다음의 식에 관하여 이용된다:

여기서 N은 프레임의 인덱스이고, L은 프레임 길이이며, x_rec _,N은 프레임 N의 재구성된 신호이고, x_tr _,N은 프레임 N의 MDCT 역 변환으로부터 발생되는 길이 2L의 신호이다. MDCT 및 MDCT 역 변환의 세부사항들로 들어가지 않고, 프레임 N에 대한 길이 2L의 중간 신호 x_tr _,N은 다음과 같이 규정된다:

여기서 y_r(n) 및 y_i(n)은 본원에서 상술되지 않는 중간 신호들이다.

그 다음 프레임 N의 재구성된 신호 x_rec _,N은 다음에 의해 주어짐을 알 수 있다:

따라서 재구성은 가산-중첩에 의해 수행된다.

중간 신호는 반대칭(antisymmetric) 부분 및 대칭 부분을 포함하는 점에 주목해야 한다. 프레임 N의 디코딩 동안, x_tr _,N을 찾아내는 것을 가능하게 하는 2진 열이 수신된다. 그러므로 x_rec _,N(n)(n=1...L-1)을 재구성할 수 있다. 한편, 단지 정보의 "절반"만이 인덱스 N+1의 장래 프레임 상에서 이용가능하고, 다시 말해서 인덱스 N+1의 장래 프레임 상에서 x_tr _,N(n=L...2L-1)만이 이용가능하다. MDCT(및 이의 역변환)의 변형 실시예들 모두에 대해 위에서 규정된 형태의 중간 신호 x_tr _,N을 규정하는 것이 항상 가능함에 주목해야 한다. 그러나 몇몇 구현들에서 신호 x_tr _,N는 이처럼 명시적이지 않으며, 단지 "시간적 에일리어싱(temporal aliasing)"을 포함하는 중간 신호들 y_r(n) 및 y_i(n)만이 이용가능하다.

따라서 변형 디코더에서, 현재 프레임의 재구성된 신호(x_rec _,N(n), n=0 내지 L-1)가 이전 프레임의 MDCT 계수들의 역변환의 출력의 제 2 부분(x_tr _,N-1(n), n=L 내지 2L-1)과 현재 프레임의 MDCT 계수들의 역변환의 출력의 제 1 부분(x_tr _,N(n), n=0 내지 L-1)의 가중된 가산에 의해 획득된다. 현재 프레임의 MDCT 계수들의 역변환의 출력의 제 2 부분(x_tr _,N(n), n=L 내지 2L-1)은 메모리에 보유될 것이고 다음 프레임의 재구성된 신호를 획득하는데 이용되도록 x_tr _,N-1(n)(n=L 내지 2L-1)이 될 것이다. 단순화를 위해, 이제부터 용어들 "현재 프레임의 제 1 부분," "현재 프레임의 제 2 부분," "현재 프레임의 재구성된 신호"가 사용될 것이다. 그러므로 다음 프레임에서 현재 프레임의 제 2 부분은 이전 프레임의 제 2 부분이 된다.

도면들을 추가적으로 단순화하기 위해서, 스케일업(scale up)된, 즉 MDCT 변환 합성 윈도우의 최댓값이 곱해진, 현재 프레임의 제 2 부분에 대해 다음의 표기법 또한 도입된다:

특히, 현재 프레임에 배치된 어택들에 대해, 제 1 부분 또는 제 2 부분에서, 본 발명의 실시예에 따른 프리-에코들을 감쇠시키기 위한 방법은 현재 프레임의 재구성된 신호 x_rec _,N(n) 및 스케일업된 현재 프레임의 제 2 부분의 신호 x_cur2h _,N(n)에 기초하여 연접된 신호 [x_rec _,N(0) ... x_rec _,N(L-1) x_cur2h _,N(0) ... x_cur2h _,N(L-1)]를 생성한다.

이러한 연접된 신호는 결정된 길이(여기서는 짝수)의 샘플들의 서브-블록들로 분할된다.

상기 방법은 프리-에코들의 감쇠를 요구하는 현재 블록의 서브-블록들을 결정한다.

상기 감쇠 방법은 또한 결정된 서브-블록들에 적용될 감쇠 인자를 계산하는 단계를 포함한다. 상기 계산은 연접된 신호의 시간적 엔벨로프의 함수로써 서브-블록들 각각에 대해 수행된다.

이러한 계산은 또한 추가적으로 이전 프레임의 재구성된 신호의 시간적 엔벨로프의 함수로써 수행될 수 있다.

따라서 도 3을 참조하면, 감쇠 디바이스(100)는 연접된 신호를 규정하기 위한 모듈(101), 상기 연접된 신호를 서브-블록들로 분할하기 위한 모듈(102), 상기 연접된 신호의 시간적 엔벨로프를 계산하기 위한 모듈(103), 고-에너지 구역으로의 상기 시간적 엔벨로프의 전이를 검출하고 전이가 검출된 서브-블록에 선행하는 저 에너지의 서브-블록들을 결정하기 위한 모듈(104) 및 상기 결정된 서브-블록들에서의 감쇠를 위한 모듈(105)을 포함한다. 상기 감쇠 모듈은 모듈(104)에 의해 결정된 서브-블록들에 감쇠 인자를 적용할 수 있고, 상기 감쇠 인자는 연접된 신호의 시간적 엔벨로프의 함수로써 감쇠 모듈에 의해 결정된다.

도 3을 참조하면, 감쇠 디바이스는 역 양자화(Q^-1)를 위한 모듈(110), 역 변환(MDCT^-1)을 위한 모듈(120), 도 1에 관해 기술된 것처럼 가산/중첩(add/ovl)에 의해 신호를 재구성하고 본 발명에 따른 감쇠 디바이스에 재구성된 신호를 전달하기 위한 모듈(130)을 포함하는 디코더에 포함된다.

도 4a 및 도 4b는 신호에 전이들 또는 어택들을 포함하는 신호들의 예들을 도시한다. MDCT 윈도우 내의 신호의 일부의 에너지가 다른 부분들의 에너지보다 현저하게 클 때(어택) 프리-에코 현상이 존재한다. 그 다음 프리-에코는 이러한 어택 이전의 저-에너지 부분들에서 관찰된다. 그러므로 이러한 부분에서 프리-에코들을 감쇠시키는 것이 필요하다.

두 가지 경우들이 가능하다: 도 2에 나타낸 것처럼, 신호의 어택 또는 전이는 현재 프레임(첫 번째 L개의 샘플들) 또는 현재 프레임의 제 2 부분에 대응하는 다음 프레임(뒤따르는 L개의 샘플들)에 놓여 있다.

도 4a는 현재 프레임의 제 2 부분에서 신호의 어택과 연접된 신호를 나타낸다. 이 도면에서 길이 N₂ 샘플들의 K₂ 서브-블록들 k로 슬라이스 하는 것을 볼 수 있다(N₂=L/K₂, K₂=4). 첫 번째 L개의 샘플들은 현재 프레임의 재구성된 신호x_rec,N(n)(n=0, ..., L-1)를 나타낸다. 다음의 L개의 샘플들(L 내지 2L-1)은 현재 프레임의 제 2 부분 x_cur2h _,N(n)(n=0, ..., L-1)을 나타낸다. 다음 프레임에서, 이러한 제 2 부분은 이전 프레임의 제 1 부분이 된다.

현재 프레임의 제 2 부분은 MDCT 역변환의 특성에 의해 대칭적임에 주목해야 한다. 실제로 본 발명에 따라 프리-에코들은 변환 디코딩에 추가적인 지연을 도입하지 않고 프리-에코들이 감쇠된다. 현재 프레임의 디코딩 동안, 디코더는 샘플들 x_tr,N(n)(n=0, ..., 2L-1)을 합성하지만, x_rec _,N(n)(n=0, ..., L-1)을 재구성하는데 단지 샘플들 x_tr _,N(n)(n=0, ..., L-1)을 이용할 수 있다.

어택 또는 전이는 다음 프레임에 놓여 있고(그러나 그것의 위치를 추가적으로 부여할 수 없음), 따라서 재구성된 신호의 현재 프레임의 첫 번째 L개의 샘플들에 대한 프리-에코를 감쇠시키는 것이 필요함을 알 수 있다.

도 4b는 이후 프레임에서 동일한 신호를 표현하고, 이번에는 어택이 제 3 서브-블록에서, 재구성된 신호의 현재 프레임에 놓여 있다(k=2). 그러므로 첫 번째 2개의 서브-블록들에서 프리-에코를 감쇠시키는 것이 필요하다.

본 발명에 따른 프리-에코들을 감쇠시키기 위한 방법은 프레임의 각 샘플에 대해 프리-에코 감쇠 인자들을 전달한다. 이러한 방법은 도 5 및 도 6을 참조하여 이제 기술될 것이다.

도 5에 도시된 흐름도는 현재 프레임에 대한 본 발명에 따른 감쇠 인자를 계산하는 다양한 단계들을 도시한다.

단계(201)에서, 현재 프레임의 재구성된 신호의 시간적 엔벨로프가 계산되고, 단계(202)에서, 스케일업된 현재 프레임의 제 2 부분의 시간적 엔벨로프가 계산된다.

이러한 시간적 엔벨로프는 예를 들어 도 6을 참조하여 기술되는 것처럼 서브-블록들에 기초하여 에너지를 계산함으로써 획득된다. 다른 방식들에 의해서, 예를 들어 서브-블록들에 기초하여 신호의 절댓값들, 또는 각 서브-블록의 최댓값 또는 중앙값의 평균을 계산함으로써 획득될 수 있다. 이러한 엔벨로프는 또한 예를 들어 저역-통과 필터링이 뒤따르는 Teager-Kaiser 유형의 연산자(operator)로서 획득될 수 있다. 모든 경우들에서, 일반성을 잃지 않고, 본원에서 시간적 엔벨로프는 서브-블록에 대한 값의 시간 분해능을 이용하여 규정되고, 이러한 서브-블록들의 크기는 가변이라고 가정된다.

단계(203)에서, 감쇠 인자 함수는 단계들(201 및 202)에서 규정된 현재 프레임의 엔벨로프들에 기초하여 그리고 이전 프레임의 재구성된 신호의 엔벨로프(T_env(x_rec _,N-1(n)))에 기초하여 규정된다.

단계(204)는, 선택적으로, 처리된 신호에서 드러날 수 있는 불연속들을 피하기 위해 감쇠 인자에 대해 획득된 값들에 대해 평활화 함수를 규정한다.

도 6을 참조하면, 본 발명의 세부사항인 실시예에 있어서 감쇠 방법이 이제 기술될 것이다.

따라서 단계(301)에서, 도 4a 또는 도 4b에 도시된 것처럼, 신호는 길이 N₂=L/K₂의 서브-블록들로 슬라이스된다. 이처럼 2 K₂ 서브-블록들을 획득한다.

단계(302)에서, 재구성된 신호 x_rec _,N(n)의 K₂ 서브-블록들의 에너지 En(k)가 계산된다.

단계(303)에서, 스케일업된 현재 프레임의 제 2 부분 x_cur2h _,N(n)의 각 서브-블록의 에너지가 계산된다. 도 4a에 도시된 것처럼 신호의 이러한 부분의 대칭성에 기인하여 단지 K₂/2 값들만이 상이하다.

신호 서브-블록들 x_rec _,N(n) 및 x_cur2h(n)의 에너지들의 최댓값은 단계(304)에서 K₂+K₂/2=3K₂/2 블록들을 통해 계산되고 그것의 인덱스는 ind1에 저장된다.

따라서 최대 에너지 값 max_en 또한 저장된다.

단계(305)에서 루프 카운터가 초기화된다. 단계들(306 내지 309)의 루프에서, 감쇠 인자 g(k)는 307에서, 인덱스 ind1의 서브-블록에 선행하는 각 서브-블록에 대하여, 그것의 에너지 En(k), 이전 프레임의 재구성된 신호 x_rec _,N-1의 평균 에너지 및 최대 에너지 max_en의 의 함수로써 결정되고 이러한 인자는 308에서 서브-블록의 모든 샘플들에 할당된다.

단계(310)에서, 최대 에너지에서 서브-블록의 제 1 샘플의 인덱스가 계산된다. 단계(311)에서, 이것이 프레임의 길이보다 작은지 여부를 확인하기 위해 체크가 수행된다. 그러한 경우, 최대 에너지의 서브-블록이 현재 프레임에 있고 인자 1, 즉 감쇠를 방지하는 값이 단계들(311-312-313)의 루프에서 서브-블록의 시작부터 프레임의 끝까지의 모든 샘플들에 할당된다.

단계(314)에서 재구성된 현재 프레임, 즉 재구성된 신호 x_rec _,N(n)의 첫 번째 K₂ 블록들의 평균 에너지가 계산되고 저장된다. 이것은 새로운 인자들의 계산을 위해 다음 프레임에서 이용될 것이다. 변형에서, 이러한 단계의 식은 프리-에코들의 감쇠도 고려하는 다른 식으로, 예를 들어 다음 식을 통해, 대체될 수 있다:

따라서, 프리-에코들에 의해 더 이상 방해받지 않는 처리된 신호가 고려된다.

단계들(315 및 316)에서, 인자들을 평활화하기 위한 함수가 결정되고 인자의 지나치게 급작스런 변화들을 피하기 위해 샘플별로 적용된다.

이러한 평활화 함수는 예를 들어 다음의 식들에 의해 규정된다:

여기서 이전 샘플에 대해 규정된 인자 및 현재 샘플의 인자는 평활화된 인자를 획득하기 위해 가중된다.

현재 프레임의, 감쇠될 마지막 서브-블록에 대해 획득된 마지막 감쇠 인자는 단계(315)에서 다음 프레임에서 이용되기 위해 저장된다.

다른 평활화 함수들이 가능하고, 예를 들어 일정한 기울기를 갖거나(예를 들어 0.05의 증분들로) 또는 고정된 길이(예를 들어 16개가 넘는 샘플들)를 갖는, 인자의 두 가지 값들 사이에서의 선형 전이 등이다.

일단 이런식으로 인자들이 계산되면, 프리-에코 감쇠는 각 샘플에 대응하는 인자를 곱함으로써 현재 프레임의 재구성된 신호에 대해 수행된다:

서브-블록에 대한 감쇠 인자를 계산하는 단계(307)가 이제 도 7을 참조하여 본 발명의 특정 실시예에서 상술된다.

이러한 실시예에서, 처리된 서브-블록의 에너지에 대한 단계(304)에서 결정된 최대 에너지의 비율 max_en/En(k)이 우선 단계(401)에서 계산된다.

실제로, 이러한 비율은 인버팅될 수 있고 임계값들은 이에 따라 적응된다.

단계(402)는 이러한 비율이 제 1 임계값 S1보다 작거나 같은지를 테스트한다. 상기 예에서 S1의 값은 16에서 고정되고, 이러한 값은 실험적으로 최적화된다.

만약 그러한 경우, 최대 에너지에 대한 에너지의 변화는 성가신 프리-에코를 생성할만큼 낮고, 어떠한 감쇠도 필요하지 않다. 그 다음 이러한 인자는 단계(403)에서, 감쇠를 방지하는 감쇠 값, 즉 1에서 고정된다.

그렇지 않은 경우, 단계(404)는 비율 r이 제 2 임계값 S2보다 작거나 같은지를 테스트한다. 상기 예에서 S2의 값은 32에서 고정되고, 이러한 값은 실험적으로 최적화된다.

그러한 경우 이는, 단계(405)에서 인자를 낮은 감쇠 값, 예를 들어 0.5에서 고정시킴으로써 약간 감쇠되어야 하는 작은 성가신 프리-에코를 가질 수 있음을 의미한다. 이러한 비율이 이러한 제 2 임계값보다 큰 경우, 프리-에코의 위험은 최대이고 단계(406)에서 높은 감쇠 값, 예를 들어 0.1이 인자에 적용된다.

대부분의 경우들에서, 특히 프리-에코가 성가신 경우, 프리-에코 프레임에 선행하는 프레임은 이러한 순간에 백그라운드 잡음의 에너지에 대응하는 균일한(homogeneous) 에너지를 가진다. 경험에 따라 신호의 에너지가 프리-에코 처리 이후 이전 프레임의 평균 에너지보다 작게 되는 것은 유용하지도 바람직하지도 않다.

그러므로 단계(407)에서 인자의 한계 값 lim_r이 계산되고, 이를 이용하여 이전 프레임의 평균 에너지와 정확히 동일한 에너지가 주어진 서브-블록에 대해 획득된다. 다음으로 단계(408)에서, 여기서는 감쇠 값들에 관심이 있기 때문에 이러한 값은 최댓값 1로 제한된다.

이런식으로 획득된 값 lim_g는 단계(409)에서의 감쇠 인자의 최종 계산에서 하한(lower limit)으로 작용한다.

감쇠 인자의 계산에 대한 변형 실시예에서, 송신된 신호의 레이트 특성이 고려될 수 있다. 실제로, 낮은-레이트 송신에서, 일반적으로 양자화 잡음은 상당하고, 이에 의해 성가신 프리-에코의 위험을 증가시킨다. 역으로, 매우 높은 레이트에서, 코딩 품질은 매우 양호할 수 있고 어떠한 프리-에코 감쇠도 필요하지 않다.

그러므로 멀티-레이트 코딩/디코딩의 경우, 레이트 정보는 감쇠 인자를 결정하기 위해 고려될 수 있다.

도 8a 및 도 8b는 전형적인 예에서 본 발명의 감쇠 방법의 구현을 도시한다.

이러한 예에서 신호는 8kHz로 샘플링되고, 프레임의 길이는 160개의 샘플들이고 각 프레임은 40개의 샘플들의 4개의 서브-블록들로 분할된다.

도 8a의 a.) 부분에서, 16kHz로 샘플링된 스테레오 신호의 좌측 채널의 협-대역 부분(0-4000Hz)에 대응하는 원 신호의 3개의 프레임들이 표현된다. 신호에 있어서 어택 또는 전이는 인덱스 360에서 시작되는 서브-블록에 위치된다. 이러한 신호는 예를 들어 G.729.1 코더의 스테레오 확장에 의해 코딩되었다.

도 8a의 b.) 부분에서, 프리-에코 처리 없는 디코딩의 결과(좌측 채널만)가 도시된다. 샘플 160의 전방의 프리-에코를 관찰할 수 있다(어택을 갖는 프레임에 선행하는 프레임의 시작).

c.) 부분은 본 발명에 따른 방법을 구현함으로써 획득된 프리-에코 감쇠 인자의 진전(evolution)(연속적인 선)을 도시한다. 점선은 평활화 이전의 인자를 나타낸다.

d.) 부분은 프리-에코 처리의 적용 이후 디코딩의 결과를 도시한다(신호 b.) 와 신호 c.)의 곱). 프리-에코가 실제로 제거되었음을 알 수 있다.

도 8b는 본 발명에 따른 감쇠 방법의 변형 실시예의 구현이 수행되는 동일한 전형적인 예를 도시한다.

도 8a를 밀접하게 관찰하면, 평활화된 인자가 어택의 순간에 다시 1로 상승하지 않음이 인식되고, 따라서 어택의 진폭의 감소를 의미한다. 이러한 감소의 인식가능한 영향은 매우 낮지만 그럼에도 불구하고 피할 수 있다.

이러한 목적을 위해, 예를 들어, 평활화 이전에 어택이 위치되는 서브-블록에 선행하는 서브-블록의 마지막 몇몇 샘플들에 인자 값 1을 할당하는 것이 가능하다. 도 8b의 c.) 부분은 이러한 보정의 예를 제공한다. 이러한 예에서 인자 값 1은 인덱스 344에 기초하여, 어택을 가진 서브-블록에 선행하는 서브-블록의 마지막 16개의 샘플들에 할당된다.

따라서 평활화 함수는 어택의 순간에 1에 가까운 값을 갖도록 인자를 점진적으로 증가시킨다. 그 다음 어택의 진폭은 유지된다.

이러한 방식의 어려움은, 어택을 포함하는 프레임에 선행하는 프레임에서, 어택이 제 1 서브-블록에 위치되어 있는지 여부를 인지하는 것이다.

어택이 제 1 서브-블록에 위치되어 있는 경우, 인자 값 1이 프레임의 마지막 프레임들에 할당되어야 한다. 문제는 연접된 신호에 대해 어택의 위치를 확실하게 결정하는 것이 불가능하다는 점인데, 이는 실제로 MDCT 변환의 "시간적 에일리어싱"의 공지된 특성을 반영하는 연접된 신호의 이러한 부분의 대칭성 때문이다.

도 9 및 도 10은 도 8a 및 도 8b의 제 2 프레임에 대응하는 연접된 신호를 도시한다.

실제로 어택은 연접된 신호의 서브-블록 k=5에 있음을 알 수 있다. 그러므로 이러한 어택은 다음 프레임의 재구성된 신호의 제 2 또는 제 3 서브-블록에 있을 것이다. 그러므로 그것은 다음 프레임의 제 1 서브-블록에 있지 않을 것이다. 그 다음 현재 프레임의 마지막 샘플들에 인자 값 1을 할당할 필요가 없다. 신호가 실제로 다음 프레임의 제 2 서브-블록에 어택을 가지든지(도 9의 경우) 또는 제 3 서브-블록에 어택을 가지든지(도 10의 경우) 이는 유효하다.

한편, 도 11 또는 도 12에 도시된 것처럼, 어택이 다음 프레임의 제 1 또는 제 4 서브-블록에 있을 때, 연접된 신호 중 이러한 부분의 대칭성 때문에 연접된 신호의 서브-블록 k=4에서 어택이 검출된다.

이제, 어택이 제 1 서브-블록에 있는 경우, 인자 값 1이 프레임의 마지막 샘플들에 할당되어야 하지만, 어택이 제 4 서브-블록에 있는 경우 이럴 필요는 없다.

하나의 해결책은 어택이 연접된 신호의 제 4 서브-블록에서 검출되는 경우 프레임의 마지막 샘플들에 인자 값 1을 항상 할당하는 것이다. 다음 프레임에서, 어택이 제 1 서브-블록에 있는 경우(도 11의 경우), 동작은 최적이다. 한편 어택이 제 4 서브-블록에 있는 경우(도 12의 경우), 감쇠는 준-최적(sub-optimal)인데 이는 프레임의 끝 주변에서 프리-에코 감쇠 인자가 몇몇 샘플들에 대해 1을 향해 증가하고 그 후 다음 프레임의 시작에서 정확한 감쇠 레벨로 다시 떨어지기 때문이다. 이러한 준-최적의 주관적 영향은 약하고 이는 어택이 다음 프레임의 제 4 서브-블록에 놓여 있을 때 그것의 진폭이 분석 윈도우에 의해 많이 감소되기 때문이다. 이러한 어택에 의해 유발된 프리-에코는 약하다.

도 9 내지 도 12는 프레임에서 어택의 위치를 이동시키기 위해 서브-블록의 길이만큼 시프트시킴으로써, 동일한 입력 신호를 이용하여 획득된다. 예를 들어 도 11 및 도 12를 비교함으로써, 어택의 위치의 함수로써 프리-에코 레벨의 차이를 관찰하는 것이 가능하다: 어택이 제 4 서브-블록에 놓여 있을 때 프리-에코는 현저하게 더 약하다.

본 발명의 주제인 상기 방법은 어택의 시작을 계산하기 위해 특정 예를 이용하지만(서브-블록당 에너지의 최댓값을 탐색) 어택의 시작을 결정하기 위한 임의의 다른 방식과 함께 동작할 수 있다.

상기 발명의 주제인 상기 방법은 MDCT 필터 뱅크 또는 실수-값이든 또는 허수-값이든, 완벽한 재구성을 가진 필터들의 임의의 뱅크, 또는 거의 완벽한 재구성을 갖는 필터들의 뱅크들 및 푸리에 변환 또는 웨이블릿(wavelet) 변환을 이용하는 필터들의 뱅크들을 이용하는 변환 코더에서 프리-에코들의 감쇠에 적용된다.

프레임의 지연이 디코더에서 허용가능한 경우, 연접된 신호의 제 2 부분에서 과도 (어택)의 위치를 찾는 문제들을 피할 수 있음에 주목해야 한다. 프리-에코들을 감소시키기 위한 방법이 그 후 재구성된 신호에 직접 적용되고, 시간적 에일리어싱을 갖는 재구성된 신호/중간 신호 사이의 하이브리드인 연접된 신호에 더 이상 적용되지 않는다. 이전에 기술된 전이를 검출하고 감쇠 인자를 계산하며 프리-에코들을 감소시키기 위한 수단이 적용된다.

또한 연접된 신호가 명시적으로 규정되지 않는 경우, 이전에 기술된 동작들을 수행하기 위해 역 MDCT의 중간 신호 및 현재 프레임에서 재구성된 신호를 이용하는 것이 가능하다.

본 발명을 적용하는 예들이 이제부터 제공된다.

예시적인 스테레오 신호 코더는 도 13a를 참조하여 기술된다. 본 발명에 따른 감쇠 디바이스를 포함하는 적합한 디코더가 도 13b를 참조하여 기술된다.

도 13a는 스테레오 정보가 주파수 대역당 송신되고 주파수 영역에서 디코딩되는 예시적인 코더를 도시한다.

모노 신호 M은 매트릭스 수단(500)에 의해 좌측 L 및 우측 R 경로의 입력 신호들에 기초하여 계산된다.

코더는 또한 변환, 예를 들어 이산 푸리에 변환 또는 DFT, DMCT 변환("Modified Discrete Cosine Transform"), MCLT 변환("Modulated Complex Lapped Transform")을 수행할 수 있는 시간-주파수 변환(502, 503 및 504)의 수단을 통합한다.

따라서 좌측 L 및 우측 R, 및 모노 M 주파수 신호들의 값들은 좌측 및 우측, 및 모노 시간적 신호들에 대응하는 값들 L, R 및 M에 기초하여 획득된다. 도 13 및 도 14를 설명하기 위해, 이탤릭체의 문자들은 주파수 영역에서의 신호들의 용도로 사용될 것이다.

모노 신호 M 또한 양자화되고 수단(501)에 의해 예를 들어 UIT-T로 표준화된 G.729.1 코더에 의해 코딩된다. 이러한 모듈은 코어 2진 열 bst₁을 전달하고 또한 주파수 영역으로 변환된 디코딩된 모노 신호

을 전달한다.

모듈(505)은 디코딩된 신호

의 주파수 신호들 L, R 및 M을 기초로 스테레오 파라메트릭 코딩을 수행한다. 이는 2개의 층들 bst₁ 및 bst₂를 디코딩함으로써 획득된 디코딩된 스테레오 신호

및

의 2개의 채널들 및 2진 열 bst₂에 대한 제 1 선택적 확장 층을 전달한다.

주파수 영역에서의 스테레오 레지듀얼 신호는 수단(506 및 507)에 의해 계산되고 코딩 수단(508)에 의해 인코딩되며 2진 열 bst₃에 대한 제 2 선택적 확장 층이 획득된다.

인코딩된 코어 신호 bst₁ 및 선택적 확장 층들 bst₂ 및 bst₃는 디코더로 전송된다.

도 13b는 인코딩된 코어 신호 bst₁ 및 선택적 확장 층들 bst₂ 및 bst₃를 수신할 수 있는 예시적인 디코더를 도시한다.

디코딩 수단(600)은 코어 2진 열 bst₁를 디코딩하고 모노 디코딩된 신호

을 획득하는 것을 가능하게 한다. 제 1 선택적 확장 층 bst₂가 이용가능한 경우, 이는 모노 디코딩된 신호

에 기초하여 디코딩된 스테레오 신호

및

을 구성하기 위해 파라메트릭 스테레오 디코딩 수단(601)에 의해 디코딩될 수 있다. 그렇지 않으면,

및

은

과 동일할 것이다.

제 2 선택적 확장 층 bst₃가 또한 이용가능한 경우, 이는 주파수 영역에서 스테레오 레지듀얼 신호를 획득하기 위해 디코딩 수단(602)에 의해 디코딩된다. 이는 신호의 주파수 표현의 정확도를 높이기 위해 디코딩된 스테레오 신호

및

에 부가된다. 그렇지 않고 이러한 제 2 확장 층이 이용가능하지 않은 경우

및

은 변화되지 않은 채 남아 있는다.

이러한 2개의 신호들은 모듈들(605 및 606)에 의한 주파수-시간 역 변환, 각각의 모듈들(607 및 608)에 의해 가산/중첩에 의한 재구성을 겪는다. 그 후 본 발명에 따른 프리-에코들의 감소는, 디코딩된 시간적 스테레오 신호의 2개의 채널들

및

을 획득하기 위해, 도 3을 참조하여 기술된 것과 같은 감쇠 모듈들(609 및 610)에 의해 수행된다.

본 발명에 따른 디바이스를 포함하는 또 다른 예시적인 디코더는 이제 도 14a 및 도 14b를 참조하여 기술된다.

도 14a는 G.729.1 유형의 광대역 코더의 초 광-대역 확장의 예시적인 코더를 도시한다. 초 광-대역 입력 신호 S₃₂는 광-대역 신호 S₁₆을 획득하기 위해 서브-샘플링 수단(700)에 의해 서브-샘플링된다. 이러한 신호는 양자화되고 수단(701)에 의해, 예를 들어 ITU G.729.1 코더에 의해 코딩된다. 이러한 모듈은 코어 2진 열 bst₁을 전달하고 또한 주파수 영역에서 디코딩된 광-대역 신호

를 전달한다.

초 광-대역 입력 신호 S₃₂는 변환 수단(704)에 의해 주파수 영역으로 변환된다. 광-대역 부분에서 코딩되지 않는 높은 대역의 주파수들(대역 7000-14000Hz)은 코딩 수단(704)에 의해 인코딩될 것이다. 이러한 코딩은 디코딩된 광-대역 신호

의 스펙트럼에 기초한다. 코딩된 파라미터들은 2진 열의 제 1 선택적 확장 bst₂를 구성한다.

코딩 수단(705)에 의해 제공된 2진 열의 제 2 선택적 층 bst₃는 광-대역(50-7000Hz)의 품질을 개선시키기 위한 파라미터들을 포함한다.

도 14b의 디코더는 도 14a의 인코더에 대응하는 초 광-대역 디코더(50-14000Hz)를 나타낸다. 코어 2진 열 bst₁은 G.729.1 유형의 광-대역 코더(모듈(800))에 의해 디코딩된다. 그러므로 광-대역 디코딩된 신호의 스펙트럼은 획득된다. 이러한 스펙트럼은 801에서 제 2 선택적 확장 층 bst₃의 디코딩에 의해 선택적으로 개선된다. 모듈(801)은 또한 광-대역 신호의 주파수-시간 변환을 포함한다. 본 발명은 프리-에코들을 감소시키기 위한 이러한 주파수-시간 변환에 개입하지 않는데, 이는 여기서 에코-없는 시간적 신호들(G.729.1 코더의 CELP 및 TDBWE 컴포넌트들)이 이용가능하여 프랑스 특허 출원 FR 06 01466에서 제시된 기술이 적용될 수 있기 때문이다. 디코딩된 광-대역 신호는 이후 오버-샘플링 수단(802)에서 인자 2만큼 오버-샘플링된다.

제 1 선택적 확장 층 bst₂가 디코더에 이용가능한 경우, 이는 디코딩 수단(803)에 의해 디코딩된다.

이러한 디코딩은 디코딩된 광-대역 신호

의 스펙트럼에 기초한다. 이렇게 획득된 스펙트럼은 광-대역 부분에 의해 코딩되지 않는 주파수 구역 7000-14000Hz에서만 비-제로 값들을 포함한다. 그러므로 이러한 구성에서, 7000 내지 14000Hz에서, 프리-에코 없는 어떠한 기준 신호들도 이용가능하지 않다. 그러므로 본 발명에 따른 감쇠 디바이스가 구현된다.

시간적 신호는 모듈(504)에 의한 주파수-시간 역 변환에 의해 획득된다. 가산/중첩 재구성 모듈은 재구성된 신호를 제공한다. 본 발명에 따른 프리-에코들의 감소는 도 3을 참조하여 기술된 것과 같은 감쇠 모듈(807)에 의해 수행된다.

이러한 응용에 대해, MDCT 역 변환 이후의 신호는 단지 7000Hz가 넘는 주파수들만을 포함함에 주목해야 한다. 따라서 이러한 신호의 시간적 엔벨로프는 매우 높은 정확도로 결정될 수 있고, 이에 의해 본 발명의 감쇠 방법에 의해 프리-에코들의 감쇠의 효율성을 증가시킨다.

본 발명에 따른 감쇠 디바이스의 예시적인 실시예가 이제 도 15를 참조하여 기술된다.

하드웨어의 측면에서, 본 발명의 의미 내의 이러한 디바이스(100)는 전형적으로, 저장 및/또는 작업 메모리를 포함하는 메모리 블록 BM과 협동하는 프로세서 μP, 및 예를 들어 현재 프레임의 시간적 엔벨로프, 현재 프레임의 마지막 샘플에 대해 계산된 감쇠 인자, 현재 프레임의 서브-블록들의 에너지 또는 도 5 내지 도 7에 관하여 기술된 것과 같은 감쇠 방법의 구현을 위해 요구되는 임의의 다른 데이터를 저장하기 위한 수단의 형태로 위에서 언급된 버퍼 메모리 MEM를 포함한다. 이러한 디바이스는 입력으로서 디지털 신호 Se의 연속된 프레임들을 수신하고 적절하다면 프리-에코들의 감쇠를 이용하여 재구성된 신호 Sa를 전달한다.

메모리 블록 BM은 디바이스의 프로세서 μP에 의해 코드 명령들이 실행될 때 본 발명에 따른 방법의 단계들, 특히 적어도 현재 프레임의 재구성된 신호에 기초하여 연접된 신호를 규정하는 단계, 결정된 길이의 샘플들의 서브-블록들로 상기 연접된 신호를 분할하는 단계, 연접된 신호의 시간적 엔벨로프를 계산하는 단계, 고-에너지 구역으로의 시간적 엔벨로프의 전이를 검출하는 단계, 전이가 검출된 서브-블록에 선행하는 저 에너지의 서브-블록들을 결정하는 단계 및 결정된 서브-블록들에서의 감쇠 단계의 구현을 위한 코드 명령들을 포함하는 컴퓨터 프로그램을 포함할 수 있다.

상기 감쇠는 연접된 신호의 시간적 엔벨로프의 함수로써, 결정된 서브-블록들 각각에 대해 계산된 감쇠 인자에 따라 수행된다.

도 5 내지 도 7은 이러한 컴퓨터 프로그램의 알고리즘을 예시할 수 있다.

본 발명에 따른 이러한 감쇠 디바이스는 독립적이거나 또는 디지털 신호 디코더로 통합될 수 있다.

Claims

변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코(pre-echo)들을 감쇠시키기 위한 방법으로서, 디코딩 시에, 이러한 디지털 오디오 신호의 현재 프레임에 대해:
적어도 상기 현재 프레임의 재구성된 신호에 기초하여, 연접된 신호를 규정하는 단계(CONC);
상기 연접된 신호를 결정된 길이의 샘플들의 서브-블록들로 분할하는 단계(DIV, 301);
상기 연접된 신호의 시간적 엔벨로프(temporal envelope)를 계산하는 단계(ENV, 302);
고-에너지 영역으로의 상기 시간적 엔벨로프의 전이를 검출하는 단계(DETECT, 304);
전이가 검출된 서브-블록에 선행하는 저 에너지의 서브-블록들을 결정하는 단계(DETECT, 304); 및
상기 결정된 서브-블록들에서의 감쇠 단계(ATT)
를 포함하고, 상기 감쇠는 상기 연접된 신호의 시간적 엔벨로프의 함수로써, 각각의 상기 결정된 서브-블록들에 대해 계산된 감쇠 인자에 따라 수행되는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법.
제 1 항에 있어서,
이전 프레임의 재구성된 신호의 시간적 엔벨로프의 함수로써 상기 인자의 감쇠 값에 대한 최솟값이 고정되는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법.
제 1 항에 있어서,
상기 감쇠 인자는 상기 서브-블록의 시간적 엔벨로프, 이전 프레임의 재구성된 신호의 시간적 엔벨로프 및 상기 전이를 포함하는 상기 서브-블록의 시간적 엔벨로프의 최댓값의 함수로써 결정되는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 시간적 엔벨로프는 서브-블록 에너지 계산에 의해 결정되는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법.
제 1 항에 있어서,
상기 방법은 상기 결정된 서브-블록들에서의 감쇠 단계 이후 상기 현재 프레임의 상기 시간적 엔벨로프를 계산 및 저장하는 단계를 더 포함하는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법.
제 1 항에 있어서,
값 1의 감쇠 인자가 상기 전이를 포함하는 상기 서브-블록의 샘플들 및 상기 현재 프레임에서의 다음 서브-블록들의 샘플들에 할당되는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법.
제 4 항에 있어서,
상기 감쇠 인자는:
현재 서브-블록의 에너지에 대한 전이를 포함하는 서브-블록에서 결정된 최대 에너지의 비율을 계산하는 단계;
상기 비율을 제 1 임계값과 비교하는 단계;
상기 비율이 상기 제 1 임계값보다 작거나 같은 경우, 상기 감쇠 인자에 상기 감쇠를 방지하는 값을 할당하는 단계;
상기 비율이 상기 제 1 임계값보다 큰 경우:
상기 비율을 제 2 임계값과 비교하는 단계;
상기 비율이 상기 제 2 임계값보다 작거나 같은 경우, 상기 감쇠 인자에 낮은 감쇠 값을 할당하는 단계;
상기 비율이 상기 제 2 임계값보다 큰 경우, 상기 감쇠 인자에 높은 감쇠 값을 할당하는 단계
에 따라 결정된 서브-블록마다 결정되는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법.
제 1 항에 있어서,
평활화 함수는 샘플 별로(sample by sample) 계산된 인자들 사이에서 결정되는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법.
제 1 항에 있어서,
전이를 포함하는 서브-블록에 선행하는 서브-블록의 미리결정된 수의 샘플들에 적용된 상기 감쇠 인자에, 상기 감쇠를 방지하는 감쇠 값을 적용함으로써, 인자 보정이 전이를 포함하는 서브-블록에 선행하는 서브-블록에 대해 수행되는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 방법.
변환 코더에 기초하여 생성된 디지털 오디오 신호에서 프리-에코(pre-echo)들을 감쇠시키기 위한 디바이스로서, 디코더와 연관되고 이러한 디지털 오디오 신호의 현재 프레임을 처리하기 위한 상기 디바이스는:
적어도 상기 현재 프레임의 재구성된 신호에 기초하여, 연접된 신호를 규정하기 위한 모듈(101);
상기 연접된 신호를 결정된 길이의 샘플들의 서브-블록들로 분할하기 위한 모듈(102);
상기 연접된 신호의 시간적 엔벨로프를 계산하기 위한 모듈(103);
고-에너지 구역으로의 상기 시간적 엔벨로프의 전이를 검출하기 위한 모듈(104);
전이가 검출된 서브-블록에 선행하는 저 에너지의 서브-블록들을 결정하기 위한 모듈(104); 및
상기 결정된 서브-블록들에서의 감쇠를 위한 모듈(105)
을 포함하고, 상기 감쇠 모듈은 상기 연접된 신호의 시간적 엔벨로프의 함수로써, 각각의 상기 결정된 서브-블록들에 대해 계산된 감쇠 인자에 따라 상기 감쇠를 수행하는,
변환 코딩에 기초하여 생성된 디지털 오디오 신호에서 프리-에코들을 감쇠시키기 위한 디바이스.
디지털 오디오 신호의 디코더로서,
제 10 항의 디바이스를 포함하는,
디지털 오디오 신호의 디코더.
컴퓨터 프로그램으로서,
코드 명령들이 프로세서에 의해 실행될 때 제 1 항 내지 제 9 항 중 어느 한 항의 방법의 단계들을 구현하기 위한 코드 명령들을 포함하는,
컴퓨터 프로그램.