KR20070001185A

KR20070001185A - 오디오 코딩

Info

Publication number: KR20070001185A
Application number: KR1020067018758A
Authority: KR
Inventors: 안드레아스 제이. 제리츠; 앨버터스 씨. 덴 브링커
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2004-03-17
Filing date: 2005-03-08
Publication date: 2007-01-03
Also published as: WO2005091275A1; CN1934619A; EP1728243A1; CN1934619B; JP2007529779A; US7587313B2; JP4355745B2; US20070185707A1

Abstract

본 발명은 복수의 순차적 시간 세그먼트에 걸쳐서 연결된 사인 곡선 성분의 트랙을 포함하는 오디오 스트림을 생성한다. 각 트랙에서의 세그먼트는 정상 윈도우(W1, W2, W3)를 가지고 가중화되고, 연속적인 세그먼트는 그 트레일링 에지와 리딩 에지의 중첩(O)의 정상적인 기간을 갖는다. 트랜지언트의 성분이 결정되는 세그먼트는 수정된 트레일링 에지를 갖는 제1 수정된 윈도우(W1m)를 가지고 가중화되고, 트랙에서 후속하는 세그먼트는 수정된 리딩 에지를 갖는 제2 수정된 윈도우(W2m)를 가지고 가중화되어, 그 결과 수정된 트레일링 에지와 수정된 리딩 에지는 트랜지언트 성분을 포함하고, 중첩(O)의 정상 기간보다 짧은 중첩의 수정된 기간(Om)을 가지며, 여기서 오디오 스트림은 주파수와 트랜지언트를 나타내는 사인 곡선 코드를 포함한다. 본 발명에 따라, 중첩의 수정된 기간(Om)은 주파수 값(f)에 종속한다.

Description

오디오 코딩{AUDIO CODING}

본 발명은 광대역 신호의 인코딩과 디코딩과 관련이 있으며, 특히 오디오 신호와 관련이 있다.

예를 들면, 음성과 같은 오디오 신호와 같은 광대역 신호를 전송할 때, 압축 또는 인코딩 기술이 신호의 대역폭과 비트 속도를 감소시키기 위해 사용된다.

WO 01/69593은 파라매트릭 인코딩 방식, 특히 사인 곡선 인코더를 개시하는데, 여기서 입력 오디오 신호는 일반적으로 각각 20 ms 기간의 여러 개의 (아마도 중첩된) 시간 세그먼트 또는 프레임으로 분리된다. 각 세그먼트는 트랜지언트(transient), 사인 곡선 및 무작위 성분으로 분해된다. 고조(harmonic) 복합체와 같은 입력 오디오 신호의 다른 성분을 유도하는 것이 또한 가능하지만, 이 신호는 본 발명의 목적을 위해서는 관련되지 않는다.

인코더에서, 순차 분석이 수행된다. 먼저, 트랜지언트가 검출되고, 합성된다. 합성된 트랜지언트는 오디오 신호로부터 차감된다. 잔여 신호에서, 사인 곡선 분석이 수행되고, 합성된 신호는 제2 잔여 신호를 생성하면서, 잔여 신호로부터 차감된다. 그후 이 제2 잔여 신호는 잡음 모듈과 같은 인코더에서의 다른 모듈로의 입력 신호로서 사용될 수 있다. 제2 잔여 신호를 생성하기 위해, 트랜지언트 위치 에서 수정된 윈도우잉(windowing)이 사인 곡선 분석에서 사용된다.

일단 세그먼트를 위한 사인 곡선 정보가 추정되면, 추적 알고리즘이 시작된다. 이 알고리즘은 소위 트랙을 얻기 위해 세그먼트-세그먼트 기반으로 다른 세크먼트에서의 사인 곡선을 서로 연결하기 위해 비용 함수를 사용한다. 따라서, 추적 알고리즘은 특정한 시간에 시작하고, 복수의 시간 세그먼트 상에서 시간의 일정한 기간 동안 전개되고, 그리고 나서 정지하는 사인 곡선 트랙을 포함하는 사인 곡선 코드를 초래한다.

이러한 사인 곡선 인코딩에서, 인코더에서 형성된 트랙에 대한 주파수 정보를 전송하는 것이 통상적이다. 이것은 간단한 방식으로 상대적으로 낮은 비용으로 수행될 수 있는데, 그 이유는 트랙이 단지 낮게 변하는 주파수만을 가지기 때문이다. 그러므로, 주파수 정보는 시간 차분 인코딩에 의해 효율적으로 전송될 수 있다. 일반적으로, 진폭은 또한 시간 상에서 차분적으로 인코딩될 수 있다.

사인 곡선 오디오 인코더에서, 오디오 신호가 분석되고, 여러 성분, 특히 사인 곡선이 식별되고 분리된다. 사인 곡선은 중첩 추가 절차에 의해 합성된다. 일반으로, 연속적인 프레임은 50%의 중첩 기간을 갖는다. 만약 트랜지언트가 프레임에 존재한다면, 중첩 기간이 사전-에코를 피하기 위해 감소된다. 이것은 수정된 윈도우잉이라고 한다. 전통적으로, 이 (작은) 중첩은 모든 사인 곡선에 대해 동일하다. 낮은 주파수를 위해, 이것은 가청의 아티팩트(audible artefact)를 야기할 수 있다.

SSC(Sinusoidal audio and Speech Coder: 사인 곡선 오디오 및 음성 코더) 사인곡선 오디오 인코더[1]에서, 입력 신호는 여러 개의 파라매트릭 성분으로 분해된다. 성분들중의 하나는 일시 성분이다. 만약 시간에서 매우 국한적인 이벤트가 발생한다면, 오디오 신호의 일부는 트랜지언트라고 분류된다. 음악에서의 예들은 캐스터네츠(castanets) 또는 하이해트(high-hat)의 어택(attack)이다.

일시적인 모델은 [1]에서 상세히 설명된다. 요약이 여기서 주어질 것이다. SSC 인코더에서 두 타입의 트랜지언트: 즉, 스텝 트랜지언트와 마이흐너(Meixner) 트랜지언트가 식별되며, 문헌 [1]의 3쪽이 참조된다. 트랜지언트 추정 절차는 다음의 세 개의 단계로 이루어진다:

1. 오디오 신호에서 트랜지언트의 위치가 결정되는 트랜지언트 위치의 추정. 또한 트랜지언트 타입(스텝 또는 마이흐너)가 결정된다.

2. 트랜지언트 엔벨로프의 추정: 마이흐너 트랜지언트의 경우에서, 트랜지언트의 시간 엔벨로프를 설명하면서 마이흐너 윈도우가 추정된다.

3. 트랜지언트를 설명하기 위해, 추정된 마이흐너 윈도우를 사용하는 사인 곡선의 수가 추정되는 사인 곡선 내용의 추정. 사인 곡선은 주파수, 위상 및 진폭에 의해 나타낸다.

스텝 트랜지언트는 신호 전력 레벨에서의 갑작스런 변화, 즉, 빠른 어택이 존재하나 가상적으로 아무런 감쇠가 존재하지 않는 것에 의해 특징이 지어진다. 트랜지언트 단계의 특징은 그 위치, 즉, 그 발생 시간이고, 그것만으로는 시간에서 위치가 그 자체적으로 신호를 설명하지 않으나, 그 위치는 사인 곡선 객체의 성분이 합성되는 그 방식을 제어하기 위해 사용된다. 위치 파라미터에 기초하여, 동일 하거나 유사한 절차는 스텝 트랜지언트 또는 마이흐너 트랜지언트 양쪽 모두에 적용된다.

다른 타입의 성분은 사인 곡선이다. 사인 곡선 모델링에서, 모델은 일반적으로:

의 형태인데, 여기서,

는 기저 사인 곡선 또는 사인 곡선 같은 신호이고, n은 세그먼트 번호이다.

예를 들면,

는:

에 의해 한정될 수 있고, 여기서

,

및

는 사인 곡선의 진폭, 주파수 및 위상이다. 비트 속도를 감소시키기 위해, 이 파라미터는 세그먼트 이내에서 바람직하게 일정하게 유지되지만, 지시되는 것처럼, 이것은 시간 변화할 수 있다.

연속적인 세그먼트 S_n 는 서로 중첩한다. 그러므로, 세그먼트는 윈도우 기능{예, 하닝(Hanning) 윈도우}에 의해 승산된다. 윈도우는 진폭 보상이 되도록, 즉, 연속적인 윈도우의 합은 특히 중첩 기간에서 항상 1이다. 이것은 도 1에서 설명된다. U는 사인 파라미터의 갱신 기간을 표시하고, O는 연속적인 윈도우(W1과 W2) 사 이에서와, 연속적인 윈도우(W2와 W3) 사이에서의 중첩 기간을 표시한다. U의 일반적인 값은 약 8 ms(또는 44.1 kHz의 샘플링 주파수를 갖는 360 샘플들)이다.

도 2에서, 트랜지언트가 세그먼트에서 존재하고, 윈도우는 사전-에코(pre-echo)의 효과를 감소시키기 위해 변경된다. 트랜지언트 위치는 T에 의해 표시된다. 두 개의 윈도우(W1m과 W2m)는 도 1과 비교해서 수정되었다. 윈도우의 점선 부분은 도 1에서 수정되지 않은 윈도우(W1과 W2)에 대응한다. 트랜지언트 위치(T)를 포함하는 윈도우(W1m)는 도 1에서 수정되지 않은 윈도우에 대한 것보다 급경사인 트레일링 에지를 가진 트랜지언트 위치에서 윈도우를 "닫는" 것에 의해 수정되며, 수정된 윈도우의 지속 기간은 대응되게 짧아진다. 후속 윈도우는 도 1에서 수정되지 않은 윈도우를 위한 것보다 급경사인 리딩 에지를 가진 트랜지언트 위치에서 윈도우를 "여는" 것에 의해 대응되게 수정되고, 수정된 윈도우의 지속 기간은 대응되게 확장된다. 윈도우의 보다 급경사의 닫고 여는 에지 때문에, 연속적인 수정된 윈도우(W1m과 W2m) 사이의 수정된 중첩 기간(Om)이 대응되게 짧아진다.

실제상, 이것은 트랜지언트의 위치에서 중첩의 기간을 (예를 들면 10개의 샘플들로) 감소시키는 것에 의해 수행된다. 양쪽 모든 윈도우의 비중첩 부분은 1, 즉, 최대값으로 설정된다. 사인 곡선 합성을 위한 이러한 윈도우잉은 마이흐너 트랜지언트뿐만 아니라 스텝 트랜지언트의 경우에서, 그리고 인코더와 디코더 양쪽 모두에서 사용된다.

도 3은 이것을 설명하는데, 여기서 신호는 그 진폭에서 단계적 증가의 형태에서 트랜지언트를 포함한다. 대시(dash)로 표시된 수직선은 트랜지언트의 위치를 표시한다. 상단 트레이스는 360개의 샘플의 중첩을 가지고 합성된 사인 곡선의 파형을 보여주고, 하단 트레이스는 10개의 샘플의 감소된 중첩을 가진 합성된 사인 곡선의 파형을 보여준다. 상단 트레이스는 사전-에코를 명백히 가지고 있으며, 이것에 의해 시간적 구조가 손실되고, 반면에, 하단 트레이스에서, 시간적 구조가 수정된 윈도우의 사용에 기인하여 여전히 본래대로 유지될 것이다. 트랜지언트 위치에서 이러한 알려진 수정된 윈도우잉은 트랜지언트에서 사전-에코를 회피하기 위한 해결책을 제공한다.

하지만, 상기 설명된 알려진 방법은 어떠한 단점을 지니고 있다. 트랜지언트의 경우에서, 사인 곡선의 합성을 위한 수정된 윈도우잉은, 감소된 중첩 기간 때문에 트랜지언트 영역에서 시간적 구조를 실제적으로 보존한다. 하지만 저주파수를 가진 사인 곡선에 대해 가청 아티팩트를 야기할 수 있다. 도 4에서, 100 Hz와 70 Hz의 낮은 주파수들을 가진 두 개의 사인 곡선이 중첩의 작은 기간을 가지고 합성되는 것이 도시된다. 트랜지언트 위치에서, 두 개의 사인 곡선 간의 큰 비연속성이 존재한다. 이 급작스런 변화는 고주파수 내용을 가지며, 클릭이라고 간주된다. 만약 중첩 기간이 확장되면, 파형에서의 비연속성은 사라질 것이지만, 트랜지언트 주위의 시간적 구조는 사전-에코를 발생시키면서, 또한 소멸될 것이다. 본 발명은 이런 문제점을 해결한다.

보다 높은 주파수에서 보다 짧은 중첩 기간은 파형에서 가청 아티팩트를 도입하지 않는다는 것이 관찰되었다. 이것은 고주파수 사인 곡선의 보다 짧은 기간 때문이다. 반면에, 저주파수를 가진 사인 곡선에 대해서, 중첩의 보다 긴 기간이 고주파수를 갖는 사인 곡선에 대해서 보다 더 허용 가능(tolerable)하다. 고주파수 영역에서, 시간적 구조는 저주파수 영역에 대해서보다 중요하다. 그러므로, 본 방법에 따라, 트랜지언트 주위의 중첩 기간의 크기는 주파수 종속적이 된다. 저주파수에 대해, 중첩의 기간은 클릭을 방지하기 위해 보다 길다. 중첩의 보다 짧은 기간은 보다 높은 주파수에 대해 선택된다. 저주파수에서, 인간의 귀의 시간적 분해능(temporal resolution)은 고주파수에서 보다 작다. 그러므로, 윈도우 간의 보다 긴 중첩 기간은 뷰(view)의 지각 지점으로부터 허용된다.

본 발명의 상기 목적과 특징은 도면을 참조해서 바람직한 실시예의 다음에 나오는 설명으로부터 보다 명백하게 될 것이다.

도 1은 정상 윈도우잉을 사용해서 사인 곡선을 합성하기 위한 중첩-추가 절차를 설명하는 도면.

도 2는 수정된 원도우잉을 사용해서 사인 곡선을 합성하기 위한 중첩-추가 절차를 설명하는 도면.

도 3은 합성된 사인 곡선의 파형의 트레이스를 도시하는 도면.

도 4는 낮은 주파수를 갖는 두 개의 합성된 사인 곡선의 파형의 트레이스를 도시하는 도면.

도면에서, 동일부는 동일 참조 부호가 제공된다.

본 발명은 인코딩과 디코딩 양쪽 모두에서 트랜지언트 위치를 포함하는 연속적인 세그먼트의 윈도우 사이에 중첩의 기간을 수정하는 상기 설명된 알려진 방법을 포함한다. 본 발명의 방법은 연속적인 세그먼트의 윈도우 사이에 중첩의 기간을 사인 곡선의 주파수에 따르도록 하여 알려진 방법을 향상시킨다. 특히, 중첩 기간은 고주파수에서 보다 저주파수에 대해 보다 길다.

이론상, 트랜지언트 주위의 중첩의 기간의 크기는 사인 곡선의 주파수로부터 직접적으로 계산될 수 있다. 예를 들면, 중첩 기간에서 샘플의 수로 측정되는 주파수에 종속되는 중첩 기간 O(f)는 예를 들면, 다음과 같이 주파수의 감소하는 함수로서 한정될 수 있다:

여기서,

는 예를 들면, 44.1 kHz와 같은 Hz 단위에서의 샘플링 주파수이고, a, b와 c는 특히 고주파수에서 사전-에코와 저주파수에서 클릭을 회피하면서, 양호한 인지되는 음향 품질을 제공하기 위해 실험적으로 결정되는 상수이다. 바람직한 실시예에서, a = 100, b = 96과 c = 7인데, 이 값들은 주파수 당 중첩의 느리게 변하는 기간을 초래한다. 다른 함수가 정의될 수 있다.

모든 사인 곡선에 대해, 새로운 윈도우는 중첩을 수행하기 위해 구성될 수 있다. 이것은 단지 트랜지언트 위치에서만 사인 곡선 합성의 계산상의 복잡성을 상당히 증가시킨다.

상기 설명된 방법의 간략화는 지속적인 변이 대신에 소수의 이산값을 사용하는 것이다. 본 발명의 가장 간단한 실시예에서, 400 Hz 이하의 주파수를 가진 사인 곡선에 대해, 중첩 기간은 100개의 샘플로 설정되고, 반면에 400 Hz 이상의 주파수를 가진 사인 곡선에 대해, 10개의 샘플의 중첩 기간이 사용될 수 있다. 그러면, 단지 두 타입의 윈도우만이 필요하다. 자연적으로, 임의의 적절한 수의 주파수 간격과 이에 대응하는 중첩 기간이 선택될 수 있다.

[1] E. G. P. Schuijers, A. C. den Brinker와 A. W. J. Oomen. 고품질 오디오를 위한 파라매트릭 코딩(Parametric Coding for High-Quality Audio), Preprint 5554, 11th AES Convention, Munich, 10-13 May 2002.

본 발명은 광대역 신호, 특히 오디오 신호의 인코딩과 디코딩에 이용 가능하다.

Claims

인코딩된 데이터로부터 사인 곡선(sinusoid)을 포함하는 신호를 합성하는 방법으로서,

상기 인코딩된 데이터는, 복수의 연속적인 시간 세그먼트의 각각에 대해, 사인 곡선을 나타내는 하나 이상의 주파수 값(f)과, 가능한 트랜지언트(transient)의 발생 시간을 식별하는 데이터를 포함하며,

상기 방법은 하나 이상의 주파수 값(f)의 각각을 가지고 사인 곡선을 생성하는 단계와, 복수의 연속적인 세그먼트에 걸쳐서 사인 곡선을 연결하는 단계을 포함하며, 여기서 아무런 트랜지언트를 갖지 않는 세그먼트는 정상 리딩 에지와 정상 트레일링 에지를 갖는 정상 윈도우(W1, W2 , W3)를 가지고 가중화되고, 연속적인 세그먼트는 제각기 그 트레일링 에지와 리딩 에지의 중첩(O)의 정상 기간을 가지며, 트랜지언트의 발생 시간이 식별되는 세그먼트는 수정된 트레일링 에지를 갖는 제1 수정된 윈도우(W1m)을 가지고 가중화되고, 그 후속 세그먼트는 수정된 리딩 에지를 갖는 제2 수정된 윈도우(W2m)를 가지고 가중화되고, 그 결과 상기 수정된 트레일링 에지와 상기 수정된 리딩 에지는 수정된 중첩의 기간(Om)을 가지며, 상기 수정된 중첩 기간(Om)은 상기 트랜지언트의 발생 시간을 포함하고, 상기 정상 중첩기간(O) 보다 짧으며, 상기 수정된 중첩 기간(Om)은 상기 주파수 값(f)에 종속되는, 신호를 합성하는 방법.
제1항에 있어서, 상기 수정된 중첩 기간(Om)은 주파수 값(f)이 증가함에 따라 감소하는, 신호를 합성하는 방법.
제1항 또는 제2항에 있어서, 상기 수정된 중첩 기간(Om)은 실질적으로
인 상기 주파수값(f)에 종속되는, 신호를 합성하는 방법.
제1항 또는 제2항에 있어서, 상기 수정된 중첩 기간(Om)의 두 개 이상의 고정 값은 대응하는 주파수 간격을 위해 사용되는, 신호를 합성하는 방법.
인코딩된 데이터로부터의 사인곡선을 포함하는 신호를 합성하기 위한 오디오 디코더로서, 상기 인코딩된 데이터는,

복수의 연속적인 시간 세그먼트의 각각에 대해, 사인곡선을 나타내는 하나 이상의 주파수 값(f) 및 가능한 트랜지언트의 발생 시간을 식별하는 데이터를 포함하며, 상기 오디오 디코더는 제6항 내지 제9항 중의 어느 한 항에 따른 방법을 사용하기 위해 적응되는, 오디오 디코더.
제1항 내지 제4항 중의 어느 한 항에 따른 방법을 사용하기 위해 적응된 신호를 인코딩하기 위한 오디오 인코더.