KR100959701B1

KR100959701B1 - 오디오 신호의 시간 워핑된 변형 변환 코딩

Info

Publication number: KR100959701B1
Application number: KR1020087010642A
Authority: KR
Inventors: 라르스 빌레뫼스
Original assignee: 돌비 스웨덴 에이비
Priority date: 2005-11-03
Filing date: 2006-10-24
Publication date: 2010-05-24
Also published as: CN101351840B; EP4290512A2; JP6125324B2; EP4290513A3; ES2967257T3; TW200719319A; MY141264A; PL1807825T3; JP4927088B2; EP3319086A1; HK1254427A1; ES2307287T3; KR20080066760A; US20100204998A1; US7720677B2; EP2306455A1; EP3319086B1; ES2646814T3; EP1807825B1; HK1105159A1

Abstract

어느 2개의 이웃하는 프레임들에 대한 공동의 시간 워핑이, 다음 블록 변환이 워핑 정보를 추가적으로 이용하도록 추정될 때, 연속하는 오디오 프레임들을 가지는 오디오 신호의 스펙트럼 표현이 보다 더 효율적으로 도출될 수 있다. 따라서, 복원 동안에 오버랩 및 가산 과정을 성공적으로 적용하는데 필요한 윈도우 함수들이 도출되어 적용될 수 있으며, 이 윈도우 함수들은 이미 시간 워핑으로 인해 신호의 리-샘플링을 알고 있는 것이다. 따라서, 가청 불연속성을 도입하지 않고서도 시간-워핑된 신호들의 블록-기반 변환 코딩 향상된 효율을 가지고 이용될 수 있다.

워핑, 워핑 추정기, 오버랩 및 가산

Description

오디오 신호의 시간 워핑된 변형 변환 코딩{Time Warped Modified Transform Coding of Audio Signals}

본 발명은 오디오 소스 코딩 시스템에 관한 것으로서, 특히 블록 기반 변환(block-based transform)을 이용하는 오디오 코딩 기술에 관한 것이다.

오디오 및 비디오 콘텐트(content)의 인코딩에 대한 여러 가지 방식이 이 분야에 알려져 있다. 일반적으로 그 목적은 물론 신호의 복원 품질을 저하시키지 않으면서 비트-세이빙(bit-saving) 방식으로 콘텐트를 인코딩하는 것이다.

최근에, 오디오 및 비디오 콘텐트의 인코딩에 대한 새로운 접근방식들이 개발되었으며, 그 중 변환-기반 지각 오디오 코딩이 정상 신호(stationary signal)에 대한 가장 큰 이득을 얻으며, 큰 변환 사이즈일 때 적용될 수 있다. (예를 들어, T. Painter 및 A. Spanias의 "Perceptual coding of digital audio", Proceedings of the IEEE, Vol. 88, No. 4, 2000년 4월, 451-513 페이지 참조). 오디오의 정상 부분들은 종종 고정된 유한 수를 가지는 정상 시누소이드(sinusoid)에 의해 잘 모델링된다. 일단 변환 사이즈가 이 성분들을 분해하기에 충분하도록 크면, 주어진 왜곡 타깃을 위해 고정된 수의 비트가 요구된다. 이 변환 사이즈를 더 증가시킴으로써, 점점 더 큰 오디오 신호의 세그먼트들이 비트 수요를 증가시키지 않고 설명될 것이다. 그러나 비정상 신호(non-stationary signal)들에 대해서는, 변환 사이즈의 축소가 필요하게 되고 그럼으로써 코딩 이득이 급격하게 감소할 것이다. 이 문제를 극복하기 위하여, 급격한 변화 및 과도 이벤트 동안, 평균 코딩 비용을 크게 증가시키지 않으면서 변환 사이즈 스위칭이 적용될 수 있다. 즉, 과도 이벤트가 감지될 경우에, 함께 인코딩될 샘플들의 블록 사이즈(프레임 사이즈)가 감소된다. 보다 더 지속적인 과도 신호들에 대해서는, 물론 비트 레이트가 극적으로 증가될 것이다.

지속적인 과도 거동에 대하여 특히 흥미로운 예는 국부적인 고조(harmonic) 신호의 피치 변화이며, 이는 주로 말이나 노래의 음성 부분에서 일어나지만, 또한 몇몇 음악 악기의 비브라토(vibrato) 및 글리산도(glissando)로부터 발생될 수 있다. 조화 신호를 갖게 되면, 즉, 신호가 시간 축을 따라 동일한 간격으로 분포된 신호 피크들을 갖게 되면, 피치라는 용어는 신호의 인접하는 피크들 간의 시간의 반전(inverse)을 나타낸다. 따라서 이러한 신호는, 상기 피크와 동일한 베이스 주파수와 높은 차수의 고조파로 이루어진, 완벽한 고조파 스펙트럼을 가진다. 보다 더 일반적으로 설명하면, 피치는 국부적인 고조 신호 내에서 2개의 이웃하는 대응 신호 부분들 간의 시간의 반전으로 정의될 수 있다. 그러나, 만일 피치 및 그에 따른 베이스 주파수가 시간과 더불어 변한다면, 그것이 유성음일 때, 스펙트럼이 점점 더 복잡해지고, 그에 따라 인코딩은 비효율적이 된다.

신호의 피치와 밀접한 관계를 가지는 파라미터는 신호의 워핑(warp)이다. 시간 t 에서의 신호가 p(t)와 동일한 피치를 갖고, 이 피치 값이 시간에 대하여 부드럽게 변한다면, 시간 t에서의 신호에 대한 워핑은 다음의 로그 도함수(logarithmic derivative)에 의해 정의된다.

고조 신호의 경우에, 이러한 워핑의 정의는, 피치의 배수 또는 분수의 관점에서, 고조 성분 및 시스템적인 에러의 특정한 선택에 영향을 받지 않는다. 워핑은 로그 도메인에서 주파수 변화를 나타낸다. 워핑에 대한 자연 단위는 헤르츠 [Hz]이지만, 음악 용어에 있어서 상수 워핑

을 가지는 신호는 초당 옥타브의

[oct/s]의 스위프 속도를 갖는 스위프(sweep)이다. 음성 신호들은 10 oct/s까지의 워핑들과, 2 oct/s 부근의 평균 워핑을 나타낸다.

변환 코더들의 전형적인 프레임 길이(블록 길이)가 너무 커서 상대적인 피치 변화가 상기 프레임 내에서 상당하기 때문에, 그러한 사이즈의 워핑 또는 피치 변화는 이들 코더의 주파수 분석에 대한 혼화(scrambling)를 야기하게 된다. 일정 비트 레이트가 요구되는 경우에, 이것이 양자화의 조도(coarseness)를 증가시킴으로써만 극복될 수 있기 때문에, 이러한 효과가 양자화 노이즈의 도입을 유발하고, 이는 종종 잔향으로 인지되게 된다.

이 문제를 극복할 수 있는 하나의 기술은 시간 워핑이다. 시간-워핑된 코딩 에 대한 개념은 가변 속도를 가지는 테이프 레코더를 예로 들어 가장 잘 설명된다. 오디오 신호를 레코딩할 때, 모든 음성 세그먼트에 걸쳐서 일정한 피치를 갖도록 속도가 동적으로 조정된다. 얻어진 국부적 정상 오디오 신호가, 적용된 테이프 속도 변화와 함께 인코딩된다. 이어 디코더 측에서, 반대 속도 변화로 재생이 행해진다. 그러나, 상술한 바와 같은 단순한 시간 워핑을 적용하는 것은 몇 가지 심각한 단점을 갖는다. 무엇보다도, 절대 테이프 속도가 결국 제어 불가능하게 되어, 전체 인코딩된 신호의 지속 시간 및 대역폭 제한을 위반하게 된다. 복원을 위해서는, 특히 저 비트-레이트에서 실질적인 비트-레이트 오버헤드를 도입하도록, 테이프 속도에 관한(또는 균등적으로 신호 피치에 관한) 부수 정보(side information)가 전송되어야 한다.

시간-워핑된 신호의 지속 시간을 제어할 수 없는 문제를 극복하기 위한, 종래 기술의 통상적인 접근 방식은, 각 세그먼트의 지속 시간이 보존되도록, 시간 워핑에 의해, 신호의 연속적인 비-오버래핑(non-overlapping) 세그먼트들, 즉 개별 프레임들을 독립적으로 처리하는 것이다. 이러한 접근은 예를 들어 Yang등에 의한 "Pitch synchronous modulated lapped transform of the linear prediction residual of speech", Proceedings of ICSP '98, 591-594 페이지에 개시되어 있다. 이러한 방식의 중요한 단점은, 처리된 신호가 세그먼트들 내에서 정상이더라도, 피치가 각 세그먼트 경계에서 점프(jump)를 나타낼 것이라는 것이다. 이들 점프는 필연적으로 후속 오디오 코더의 코딩 효율 손실을 야기하며, 디코딩된 신호에 가청 불연속성이 도입된다.

시간 워핑은 또한 여러 가지 다른 코딩 기술에서 구현된다. 예를 들어, 미국특허출원 제2002/0120445호는 신호 세그먼트들이 블록-기반 변환 코딩 이전에 지속 시간에서 약간 수정되는 기술을 개시한다. 이는 블록들의 경계에서 큰 신호 성분들을 회피하여, 단일 세그먼트들의 지속 시간에 약간의 변화를 수용한다.

시간 워핑을 이용하는 다른 기술이 미국특허 제6,169,970호에 개시되었으며, 여기서는 시간 워핑이 음성 인코더의 장기(long-term) 예측기의 성능을 높이기 위해 적용된다. 같은 맥락으로, 미국특허출원 제2005/0131681호에서, 음성 신호의 CELP 코딩을 위한 예비-처리(pre-processing) 유닛이 개시되었으며, 이는 각기 하나의 백화(whitened) 피치 펄스를 포함하는, 비-오버래핑 간격들 사이에, 조각별(piecewise) 선형 워핑을 적용한다. 마지막으로, 음성 프레임에 2차 시간 워핑 함수를 적용함으로써 음성 피치 추정을 개선하는 방법이 (R.J. Sluijter and A.J.E.M. Janssen, "A time warper for speech signals" IEEE workshop on Speech Coding'99, June 1999, 150-152페이지)에 개시되어 있다.

요약하면, 종래기술의 워핑 기술들은 공히 프레임 경계들에 불연속성을 도입하는 문제와, 신호의 피치 변화를 나타내는 파라미터를 전송하는데 상당한 양의 추가적인 비트 레이트가 요구되는 문제를 가진다.

본 발명의 목적은 시간 워핑을 이용하여 오디오 신호에 대한 보다 효율적인 코딩을 제공하는 것이다.

본 발명의 제1 측면에 따르면, 상기 목적은 제1 프레임, 상기 제1 프레임을 뒤따르는 제2 플레임, 및 상기 제2 프레임을 뒤따르는 제3프레임을 가지는 오디오 신호의 표현을 도출하는 인코더에 의해 달성되며, 상기 인코더는: 상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보를 추정하고 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 워핑 추정기로서, 상기 워핑 정보들은 상기 오디오 신호의 피치를 나타내는 것인, 워핑 추정기; 상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 스펙트럼 분석기; 및 상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 인터페이스를 포함한다.

본 발명의 제2 측면에 따르면, 이 목적은 제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 디코더로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수인, 디코더에 의해 달성되며, 상기 디코더는: 상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결합된 프레임을 도출하는 스펙트럼 값 프로세서로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 스펙트럼 값 프로세서; 및 상기 제1 결합된 프레임과 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 합성기를 포함한다.

본 발명의 제3 측면에 따르면, 이 목적은 제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현을 도출하는 방법에 의해 달성되며, 상기 방법은: 상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보와 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 추정 단계로서, 상기 워핑 정보는 상기 오디오 신호의 피치를 나타내는 것인, 추정 단계; 상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 도출 단계; 및 상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 단계를 포함한다.

본 발명의 제4 측면에 따르면, 이 목적은 제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 방법으로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수인, 복원하는 방법에 의해 달성되며, 상기 방법은: 상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결합된 프레임을 도출하는 도출 단계로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 도출 단계; 및 상기 제1 결합된 프레임 및 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 복원 단계를 포함한다.

본 발명의 제5 측면에 따르면, 이 목적은 제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현에 의해 달성되며, 상기 표현은: 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들로서 상기 제1 및 상기 제2 프레임의 워핑된 표현의 스펙트럼 조성을 나타내는 제1 스펙트럼 계수들; 및 상기 제2 및 상기 제3 프레임의 워핑 표현의 스펙트럼 조성을 나타내는 제2 스펙트럼 계수들을 포함한다.

본 발명의 제6 측면에 따르면, 이는 컴퓨터에서 구동될 때 상기의 방법들 중 어느 방법을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램에 의해 달성된다.

본 발명은 어느 2개의 이웃하는 프레임에 대하여 공동의 시간 워핑이, 다음 블록 변환이 워핑 정보를 추가적으로 이용할 수 있도록 추정될 때, 연속하는 오디오 프레임들을 가지는 오디오 신호의 스펙트럼 표현이 보다 더 효율적으로 도출 될 수 있다는 연구결과에 기반을 두고 있다.

따라서, 복원 동안에 오버랩 및 가산 과정을 성공적으로 적용하는데 필요한 윈도우 함수들이 도출되어 적용될 수 있으며, 이 윈도우 함수들은 이미 시간 워핑으로 인해 신호의 리-샘플링을 알고 있는 것이다. 따라서, 가청 불연속성을 도입하지 않고서도 시간-워핑된 신호들의 블록-기반 변환 코딩 향상된 효율을 가지고 이용될 수 있다.

본 발명은 따라서 종래 기술의 문제점들에 대한 매력적인 해답을 제공한다. 한편, 오디오 신호의 세그먼트화에 관한 문제가 특별한 오버랩 및 가산 기술에 의해 극복되며, 이는 시간-워핑된 연산들을 윈도우 연산과 통합하고 블록 변환의 시간 오프셋을 도입하는 것이다. 얻어진 연속 시간 변환들은 완벽한 복원 능력을 가지며, 그들의 이산 시간 대상들은 복원 동안 디코더에서 적용된 리샘플링 기술의 품질에 의해서만 제한된다. 이러한 특징은 얻어진 오디오 코딩 구성의 고 비트 레이트 수렴을 제공한다. 신호의 무손실 전송은 전송 비트 레이트를 높임으로써 발생되는 양자화의 조도(coarseness)를 감소시킴으로써 원칙적으로 달성될 수 있다. 이는 예를 들어 순수한 파라메트릭 코딩 방법들에 의해서는 달성될 수 없다.

본 발명의 다른 이점은 시간 워핑을 반전시키기 위하여 전송에 필요한 추가적인 정보에 대한 비트 레이트 수요의 강력한 감소이다. 이는 피치 부수 정보가 아닌 워핑 파라미터 부수 정보를 전송함으로써 달성된다. 이는 많은 피치-파라미터 기반 오디오 코딩 방법들의 경우에 정확한 피치 검출에 대해 심각한 의존성을 갖는데 반하여, 본 발명은 낮은 정도의 파라미터 의존성을 갖는다는 다른 이점을 갖는다. 이는 피치 파라미터 전송이 국부적인 고조(harmonic) 신호 기본 주파수의 검출을 요구하기 때문이며, 이는 항상 용이하게 달성될 수 있는 것이 아니다. 따라서 본 발명의 구성은, 상술한 워핑 파라미터의 정의가 주어지면, 명백하게 높은 고조파의 검출이 전송되는 워핑 파라미터를 왜곡하지 않기 때문에, 높은 견고성을 가진다.

본 발명의 하나의 실시예에서, 인코딩 구성이 연속적인 프레임들, 특히 서로를 뒤따르는 제1, 제2, 및 제3 프레임으로 배치된 오디오 신호를 인코딩하는데 적용된다. 제2 프레임의 신호에 관한 모든 정보가, 제1과 제2 프레임의 결합의 스펙트럼 표현 그리고 제1 및 제2 프레임에 대한 워핑 파라미터 시퀀스에 의해서 뿐만 아니라 제2와 제3 프레임의 결합의 스펙트럼 표현 그리고 제2와 제3 프레임에 대한 워핑 파라미터 시퀀스에 의해서 제공된다. 본 발명의 개념의 시간 워핑을 이용하면, 프레임 경계들에서 신속한 피치 변화를 도입할 필요 없고 그리고 도입의 결과로서 추가적인 가청 불연속성이 없이, 오버랩 및 가산 복원이 가능해진다.

본 발명의 다른 실시예에서, 워핑 파라미터 시퀀스가 기지의 피치-트랙킹(tracking) 알고리즘들을 이용하여 도출되며, 이는 이들 기지의 알고리즘들의 이용을 가능하게 하고 그럼으로써 기존의 코딩 구성으로 본 발명이 용이하게 구현될 수 있게 한다.

본 발명의 다른 실시예에서, 워핑은 오디오 신호가 워핑 파라미터들에 의한 지시에 따라 시간-워핑될 경우에 프레임들 내에 있는 오디오 신호의 피치가 가능한한 일정하도록 구현된다.

본 발명의 다른 실시예에서, 워핑 파라미터 시퀀스가 스펙트럼 계수들의 인코딩된 표현이 최소화되도록 선택되는 경우에 인코딩 동안 높은 계산 복잡성을 감수하여 비트 레이트가 훨씬 더 감소된다.

본 발명의 다른 실시예에서, 본 발명의 인코딩 및 디코딩이 윈도우 함수(윈도잉), 리샘플링, 및 블록 변환의 적용으로 분해된다. 이러한 분해는, 특히 변환에 대하여, 기존의 소프트웨어 및 하드웨어의 구현예들이 본 발명의 코딩 개념을 효율적으로 구현하는데 이용될 수 있다는 큰 장점을 가진다. 디코더 측에서는, 오버래핑과 가산의 다른 독립적인 단계가 신호를 복원하기 위해 도입된다.

본 발명의 대안적인 실시예에서, 추가적인 스펙트럼 가중(weighting)이 시간 도메인으로의 변환 이전에 신호의 스펙트럼 계수들에 적용된다. 그렇게 함으로써 디코더 측에서의 계산 복잡성이 더 감소되는 이점을 가지며, 이는 그럼으로써 신호 리샘플링에 대한 계산 복잡성이 더 감소될 수 있기 때문이다.

용어 "피치(pitch)"는 일반적인 의미로 해석된다. 이 용어는 또한 워핑 정보와 관계있는 장소들과 관련하여 피치 변화를 커버한다. 워핑 정보가 절대 피치에 대한 접근을 제공하고 않지만 상대적 또는 표준화된 피치 정보를 제공하는 상황이 있을 수 있다. 따라서 y-축 상의 값들이 없이 정확한 피치 곡선 형상을 얻을 경우에, 워핑 정보가 주어지면, 신호의 피치에 관한 설명을 얻을 수 있다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예들을 설명한다.

도 1은 본 발명의 워핑 맵의 예를 나타내는 도면.

도 2, 2a 및 2b는 본 발명의 워핑-의존 윈도우의 적용을 나타내는 도면.

도 3a 및 3b는 본 발명의 리샘플링에 대한 예를 나타내는 도면.

도 4a 및 4b는 디코더 측에서 본 발명의 신호 합성을 나타내는 도면.

도 5a 및 5b는 디코더 측에서 본 발명의 윈도잉(windowing)에 대한 예를 나타내는 도면.

도 6a 및 6b는 디코더 측에서 본 발명의 시간 워핑에 대한 예를 나타낸 도면.

도 7은 디코더 측에서 본 발명의 오버랩 및 가산 과정에 대한 예를 나타내는 도면.

도 8은 본 발명에 따른 오디오 인코더에 대한 예를 나타내는 도면.

도 9는 본 발명에 따른 오디오 디코더에 대한 예를 나타내는 도면.

도 10은 본 발명에 따른 디코더의 다른 예를 나타내는 도면.

도 11은 본 발명의 개념에 대한 역방향-호환의 구현예를 나타내는 도면.

도 12는 본 발명의 인코딩 구현에 대한 블록도.

도 13은 본 발명의 디코딩의 예에 대한 블록도.

도 14는 본 발명의 디코딩의 다른 예에 대한 블록도.

도 15a 및 15b는 본 발명의 개념을 효율적으로 구현하는 실현가능한 코딩을 나타내는 도면.

하기의 실시예들은 단지 오디오 신호의 시간 워핑된 변환 코딩을 위한 본 발명의 원리들을 설명하기 위한 것이다. 여기에 설명된 배치 및 세부사항의 수정물들 및 변경물들이 당해 기술 분야의 다른 이들에게 자명하다는 것을 이해하여야 한다. 따라서 본 발명은, 실시예에 대한 예시와 설명을 위해 여기에 주어진 특정 세부사항 들에 의해서가 아니라, 청구 범위에 의해서만 한정되는 것을 의도하고 있다.

다음에서는 본 발명의 개념에 대한 이해를 돕기 위해 워핑 및 블록 변환의 기본 아이디어 및 개념들을 간단하게 살펴볼 것이며, 이들은 첨부된 도면을 참조하여 하기에서 상세하게 설명될 것이다.

일반적으로, 시간-워핑된 변환의 특징들은 연속-시간 신호들의 도메인에서 가장 잘 도출된다. 다음 단락들은 일반 이론을 설명하고 나서 이산-시간 신호들에 대한 본 발명의 응용으로 특화되고 전환될 것이다. 이러한 전환에서의 주요 단계는 평균 샘플 밀도가 보존되도록, 즉 오디오 신호의 지속 시간이 변경되지 않도록, 연속-시간 신호들에서 수행된 좌표의 변경을 이산-시간 신호들의 비균일 리샘플링으로 대체하는 것이다.

t-축 간격 I를 s-축 간격 J로 맵핑하는 연속 미분가능한 순 증가 함수 Ψ로 나타낸 시간 좌표의 변경을

으로 나타낸다.

따라서 Ψ(t)는 시간-의존 량의 시간-축을 변환하는데 이용될 수 있는 함수이며, 이는 시간 이산의 경우에서 리샘플링과 균등하다. 하기의 논의에서, t-축 간 격 I는 통상의 시간-도메인에서의 간격이고 x-축 간격 J는 워핑된 시간 도메인에서의 간격이라는 것을 유념한다.

간격 J에 있는 유한 에너지의 신호들에 대한 직교정규(orthonormal) 베이시스

가 주어지면, 아래 규칙에 의해 간격 I에 있는 유한 에너지의 신호들에 대한 직교정규 베이시스

를 구한다.

(1)

무한 시간 간격 I가 주어지면, I를 세그멘팅하고 나서 표준화된 워핑 맵의 리스케일링된 조각들을 함께 접합하여 Ψ를 구함으로써, 시간 워핑의 국부적인 세부사항이 얻어질 수 있다.

표준화된 워핑 맵은 단위 간격(unit interval) [0,1]을 그 자체로 맵핑하는 연속 미분가능 및 순 증가 함수이다. 세그먼트화 점들

(여기서는,

임)의 시퀀스, 및 표준화된 워핑 맵

의 대응 시퀀스로부터 시작하여 다음 식을 구한다.

(2)

여기서

이고, 시퀀스

는

이 연속 미분가능하게 되도록 조정된다. 이는 표준화된 워핑 맵들

의 시퀀스로부터 타입

의 스 케일의 아핀(affine) 변경까지의

를 정의한다.

세그먼트화

에 적합한,

를 간격 J에 있는 유한 에너지의 신호들에 대한 직교정규 베이시스라고 하면, 오버랩 팩터가 정수 K라는 점에서, 만일

또는

일 경우에

이다.

본 발명은 K = 1 의 경우가 오버랩이 없는 종래 기술에 해당하기 때문에, K ≥ 2의 경우에 주목한다. 많지 않은 구성들이 현재 K ≥ 3에 대해 공지되어 있다는 것을 유념한다. 본 발명의 개념에 대한 특정 예가, 변형 이산 코사인 변환(MDCT) 및 다른 이산 시간 겹쳐진 변환(discrete time lapped transform)에도 이용되는 국부적 3차 베이시스를 포함하는 K = 2에 대하여 전개될 것이다.

세그먼트화로부터의

의 구성이 국부적이라고 하면, 정수 P일 경우에,

는

에 대하여

에 의존하지 않는다. 마지막으로, 구성은

으로의 세그먼트화의 아핀 변경이

으로의 베이시스 변경이 되도록 이루어진다. 그러면, 아래식

(3)

이 간격 I에 있는 유한 에너지의 신호들에 대한 시간-워핑된 직교정규이며, 이는, 식(2)의 파라미터 시퀀스들

및

의 초기화에 독립적인, 세그먼트 포인트들

과 표준화된 워핑 맵들

의 시퀀스로부터 잘 정의된다. 이것은

또 는

일 경우에

라는 점에서 주어진 세그먼트화에 알맞고,

이,

또는

에 대한

과

또는

에 대한 표준화된 워핑 맵들

에 의존하지 않는다는 점에서 국부적으로 정의된다.

합성 파형 (3)은, 야코비안(Jacobian) 팩터

로 인해, 연속적이지만 반드시 미분가능한 것은 아니다. 이 때문에, 그리고, 이산-시간 경우에서의 계산 부하의 감소로 인해, 유도된 배직교(biorthogonal) 시스템이 또한 구성될 수 있다. 상수

이 있고, 시퀀스

에 대해 아래식 (4)라고 하면,

(4)

(5)

식 (5)은 간격 I에 있는 유한 에너지를 갖는 신호들의 공간에 대하여 리에스(Riesz) 베이스의 배직교 쌍을 정의한다.

따라서,

뿐만 아니라

이 분석에 이용될 수 있지만,

을 합성 파형으로서 이용하고,

를 분석 파형으로서 이용하는 것이 특히 바람직하다.

상술한 일반적인 고려사항에 근거하여, s-축 상의 얻어진 세그먼트화에 적합 한 국부적 코사인 베이시스를 이용함으로써, 균일한 세그먼트

및 오버랩 팩터

의 경우를 위한 본 발명의 개념의 예가 다음 단락들에서 도출될 것이다.

비-균일 세그먼트화를 처리하는데 필요한 변형예들은 자명하며, 따라서 본 발명의 개념이 또한 비-균일 세그먼트화에 적용가능하다는 것을 유념하여야 한다. 예를 들어, M.W. Wickerhauser에 의해 제안된 예, "Adapted wavelet analysis from theory to software", A. K. Peters, 1994, Chapter 4와 같이, 국부적 코사인 베이시스의 구축을 위한 출발점은 라이징 컷오프(rising cutoff) 함수

이며,

에 대하여

,

에 대하여

, 그리고 액티브 영역

에서

이다.

세그먼트화

가 주어지면, 각 간격

에 있는 윈도우는 식(6)에 따라 구성될 수 있으며,

, (6)

이는 컷오프 중간점들

및 컷오프 반지름들

을 가진다. 이는 위커하우저(Wickerhauser)의 중간 점 구성에 대응한다.

의 경우에, 직교정규 베이시스는 식(7)로부터 얻 어지며,

, (7)

여기서 주파수 인덱스

이다. 이 구성이 상술한

및 아핀 불변성을 가지는 국부성 조건을 따른다는 것을 증명하는 것은 쉽다. t-축 상의 얻어진 워핑된 베이시스 (3)은 이 경우에

에 대하여 다음 형태로 다시 나타낼 수 있다.

(8)

여기서

는 그 자체 상에 간격 [0,2]의 연속 미분가능한 맵핑을 형성하도록

과

을 함께 접합함으로써 정의된다.

(9)

이는 다음 식 (10)에 적용하여 얻어진다.

(10)

의 구성이 도 1에 도시되었으며, x-축 상의 표준화된 시간과 y-축 상의 워핑된 시간을 보여준다. 도 1은 특히 k = 0인 경우에 대하여 논의될 것이며, 이는

를 구축하여 표준화된 시간 0에서 표준화된 시간 1까지 지속하는 제1 프레임(10) 및 표준화된 시간 1에서 표준화된 시간 2까지 지속하는 제2 프레임(12)에 대한 워핑 함수를 유도하기 위한 것이다. 나아가, 제1 프레임(10)은 워핑 함수(14)를 가지고 제2 프레임(12)은 워핑 함수(16)를 가진다고 가정하며, 이는 시간 축이 워핑 함수(14 및 16)들에 의해 나타낸 바와 같이 변환될 경우에 개별 프레임들 내에서 동일한 피치를 얻도록 도출된 것이다. 워핑 함수(14)는

에 대응하고 워핑 함수(16)는

에 대응한다는 것을 유념하여야 한다. 식 (9)에 따라, 결합된 워핑 함수

(18)은 워핑 함수(14 및 16)들을 함께 접합하여 간격 [0,2]의 연속 미분가능한 맵을 그 자체 상으로 형성함으로써 구성된다. 그 결과, 점(1,1)이 (1,a)로 변환되며, 여기서 a는 식(9)의

에 대응한다.

본 발명의 개념이 오버랩 및 가산 시나리오에서의 시간 워핑의 적용에 관한 것이기 때문에, 프레임(12)과 다음 프레임(20)에 대한 다음 결합된 워핑 함수를 구축하는 예가 또한 도 1에 도시된다. 오버랩 및 가산 원리에 따라, 프레임(12)의 전체 복원을 위해서는, 워핑 함수(18 및 22)들에 대한 지식이 필요하다는 것을 유념하여야 한다.

또한 독립적으로 도출된 2개의 워핑 함수를 함께 접합하는 것이 반드시 적합한 결합된 워핑 함수 φ(18, 22)를 도출하는 유일한 방식이 아니라는 것을 유념하여야 하며, φ가 또한 적합한 워핑 함수를, 2개의 연속하는 프레임에 직접 적용함 으로써 도출될 수 있기 때문이다. 그들의 정의 도메인들의 오버랩 상에서, 2개의 워핑 함수의 아핀 일관성을 가지는 것이 바람직하다.

식(6)에 따르면, 식(8)의 윈도우 함수는 다음 식 (11)에 의해 정의되며,

(11)

이는 간격

에서 제로로부터 1로 증가하고, 간격

에서 1로부터 제로로 감소한다.

상수

가 있고, 모든 k에 대하여,

이라면,

식(8)의 배직교 버전이 또한 도출될 수 있다. 식(4)에서

을 선택하면 식(5)의 특화(specialization)가 얻어진다.

(12)

따라서, 연속 시간의 경우에 대하여, 결합된 워핑 함수에 의존하는 합성 및 분석 함수(식(12))가 도출된다. 이러한 의존성은 오리지널 신호에 관한 정보의 손실 없이 오버랩 및 가산 시나리오 내에서 시간 워핑을 가능하게, 즉 신호의 완벽한 복원을 가능하게 한다.

구현 목적으로, 식(12) 내에서 수행된 연산들이, 일련의 연속하는 개별 처리 단계들로 분해될 수 있다는 것을 유념한다. 그렇게 하는 것 중에서 특히 매력적인 방식은 먼저 신호의 윈도잉을 수행하고, 이어 윈도잉된 신호의 리샘플링을 수행하고, 마지막으로 변환을 수행하는 것이다.

통상적인 것과 마찬가지로, 오디오 신호들이, 주어진 샘플 주파수로 샘플링된 이산 샘플 값으로서, 디지털적으로 저장되고 전송되며, 다음에서는 본 발명의 개념의 구현을 위해 주어진 상기 예가 이산의 경우에서 적용되는 되는 것을 설명한다.

분석 적분 및 합성 파형을 이산화(discretizing)함으로써, 시간-워핑된 변형 이산 코사인 변환(TWMDCT)이 시간-워핑된 코사인 베이시스로부터 얻어질 수 있다. 다음 설명은 배직교 베이시스(식(12) 참조)에 근거한다. 직교의 경우(8)를 처리하는데 필요한 변경들은 야코비안 팩터

에 의한 추가적인 시간 도메인 가중(weighting)으로 이루어진다. 워핑이 적용되지 않는 특별한 경우에는, 양자 구성이 모두 보통의 MDCT로 변형된다. L이 변형 사이즈라고 가정하고, 분석되는 신호

가 어떤

에 대한

(rad/s)에 의해 제한된 대역이라고 가정한다. 이는 신호가 샘플링 주기 1/L마다 샘플들에 의해 표시될 수 있도록 한다.

분석 계수들은 다음 식에 의해 주어진다.

(13)

윈도잉된 신호 부분

을 정의하고, 적분(13)에서

과

의 교체를 수행하면 다음식이 얻어진다.

(14)

본 발명이 교시하는 이러한 적분을 이산화하는데 특히 매력적인 방식은 샘플 점들

를 선택하는 것이며, 여기서

는 정수 값이다. 부드러운 워핑과 상술한 대역 제한을 가정하면, 이는 다음의 근사치를 제공하며,

(15)

여기서,

(16).

식(15)의 합계 적분은

에 의해 정의된다. 이것은

을 포함하고, 각 끝에서 이 간격을 넘어서 연장되고 그럼으로써 점(point)의 총 수는 2L이다. 윈도잉으로 인해, 상기 결과는 어떤 정수

에 대하여

일 경우에 발생할 수 있는 에지 처리의 경우들에 영향을 받지 않는다.

합계(식(15))가 타입 IV의 DCT가 뒤따르는 기본적은 폴딩 연산들에 의해 계 산될 수 있다는 것이 잘 알려져 있기 때문에, 식(15)의 연산들을 일련의 연속 연산들 및 변환들로 분해하여 기존의 효율적인 하드웨어 및 소프트웨어 구현들, 특히 DCT(이산 코사인 변환)을 이용하는 것이 적합할 수 있다. 이산화된 적분에 따르면, 주어진 이산 시간 신호는 x(t)의 샘플링 주기 1/L로 등거리인 샘플들로서 번역될 수 있다. 따라서, 윈도잉의 첫 번째 단계는

에 대한 다음식이 될 것이다:

(17)

(

에 따라 추가적인 오프셋을 도입하는)식(15)에 의해 설명된 블록 변환 이전에, 다음식의 맵핑인 리샘플링이 요구된다.

(18)

리샘플링 연산은 비-등거리 리샘플링에 대한 모든 적합한 방법에 의해 수행될 수 있다.

요약하면, 본 발명의 시간-워핑된 MDCD는 윈도잉 연산, 리샘플링 및 블록-변환으로 분해될 수 있다.

개별적인 단계들이 다음에서 도 2 내지 3b를 참조하여 간략하게 설명될 것이다. 도 2 내지 3b는 합성적으로 발생된 피치 신호의 단지 2개의 윙도잉된 신호 블록만을 고려하는 시간 워핑 MDCT 인코딩의 단계를 보여준다. 각 개별 프레임은 1024 샘플을 포함하고, 따라서 2개의 고려된 결합 프레임(24 및 26)(오리지널 프레임(30과 32) 및 오리지널 프레임(32와 34)의 각각은 2048 샘플로 이루어지며, 또한 2개의 윈도잉된 결합 프레임은 1024 샘플의 오버랩을 가진다. 도 2 내지 2b는 x-축에서 처리될 3개 프레임의 표준화된 시간을 보여준다. 시간 축 상에 있어서, 제1 프레임(30)은 0에서부터 1까지 이르고, 제2 프레임(32)은 1에서부터 2까지 이르고, 제3 프레임은 2에서부터 3에 이른다. 따라서, 표준화된 시간 도메인에서, 각 시간 단위는 1024 신호 샘플을 갖는 하나의 완전한 프레임에 해당한다. 표준화된 분석 윈도우들은 표준화된 시간 간격 [0,2]와 [1,3]을 스팬(span)한다. 다음의 고려사항의 목적은 신호의 중간 프레임(32)을 복구하는 것이다. 외측 신호 프레임(32, 34)의 복원이 인접하는 윈도잉된 신호 세그먼트들로부터의 데이터를 요구하기 때문에, 이 복원은 여기에서 고려되지 않는다. 도 1에 도시된 결합된 워핑 맵들은 도 2의 신호로부터 유도된 워핑 맵들이며, 이는 본 발명에 따른 3개의 연속하는 표준화된 워핑 맵(점선 곡선)을 2개의 오버래핑하는 워핑 맵들(실선 곡선)로의 결합을 나타내는 것이다. 상술한 바와 같이, 본 발명의 결합된 워핑 맵(18 및 22)들은 신호 분석을 위해 유도된다. 나아가, 워핑의 아핀 불변성으로 인해, 이 곡선은 오리지널 2개의 세그먼트에서와 같이 동일한 워핑을 가지는 워핑 맵을 나타낸다.

도 2는 실선 그래프에 의해 나타낸 오리지널 신호를 보여준다. 그것의 규격화된 펄스-열(pulse-train)은 시간과 더불어 선형적으로 성장하는 피치를 가지며, 따라서 워핑이 피치의 로그 도함수로 정의되는 것을 고려하면 그것은 포지티브 및 감소하는 워핑을 가진다. 도 2에서, 식(17)을 이용하여 유도된 바와 같은 본 발명 의 분석 윈도우들이 점선 곡선으로서 슈퍼임포즈된다. (예를 들어 MDCT에서와 같이)표준 대칭 윈도우로부터의 편차는 상기 워핑이 가장 큰 곳, 즉 제1 세그먼트 [0,1]에서 가장 크다는 것을 유념하여야 한다. 윈도우들 단독의 수학적 정의는 식(11)의 윈도우들을 리샘플링함으로서 주어지며, 리샘플링은 식(17) 우측의 제2 팩터에 의해 표현된 바와 같이 구현된다.

도 2a 및 2b는 도 2의 윈도우들을 개별 신호 세그먼트들에 적용하는 본 발명의 윈도잉의 결과를 나타낸다.

도 3a 및 3b는 도 2a 및 2b의 윈도잉된 신호 블록들의 워핑 파라미터 의존 리샘플링의 결과를 나타내며, 이 리샘플링은 도 1의 실선 곡선에 의해 주어진 워핑 맵들에 의해 나타낸 바와 같이 수행된다. 표준화된 시간 간격 [0,1]은 워핑 시간 간격 [0,a]에 맵핑되어, 윈도잉된 신호 블록의 좌측 절반의 압축과 균등하게 된다. 결과적으로, 상기 윈도잉된 신호 블록의 우측 절반의 확장이 수행되어, 간격 [1,2]를 [a,2]로 맵핑한다. 상기 워핑 맵은 일정한 피치를 가지는 워핑된 신호를 유도할 목적으로 상기 신호로부터 도출되기 때문에, 상기 워핑(식(18)에 따른 리샘플링)의 결과는 일정한 피치를 가지는 윈도잉된 신호 블록이다. 상기 워핑 맵과 상기 신호 간의 불일치가 지금 시점에서는 여전히 가변적인 신호 블록을 가져오며, 이는 최종 복원을 방해하지 않는다는 것을 유념하여야 한다.

다음 블록 변환의 오프-셋은, 간격 [m, m+1]이 식(15)에서 L = 1024를 가지는 이산 샘플들

= 1,0,...L-1에 대응하도록, 원들에 의해 표시된다. 이는 블록 변환의 변조 파형들이 m의 짝수 대칭의 점과 m+1의 홀수 대칭의 점을 공유한다는 것과 균등한 의미이다. 나아가, a가 2m과 동일하고 그럼으로써 m이 0과 a 사이의 중간점이고 m+1이 a와 2의 중간점이 된다는 것이 중요하다. 요약하면, 도 3a 및 3b는 식(18)에 의해 설명된 본 발명의 리샘플링 이후의 상황을 나타내며, 식(18)은 물론 워핑 파라미터들에 의존하는 것이다.

도 3a 및 3b에 있는 신호들의 시간-워핑된 변환 도메인 샘플들은 이어서 양자화 및 코딩되고, 표준화된 워핑 맵들

를 나타내는 워핑 부수 정보와 더불어 디코더로 전송될 수 있다. 양자화가 통상적인 공지 기술이기 때문에, 특별한 양자화 규칙을 이용하는 양자화는 다음 도면들에서 도시하지 않고, 디코더 측에서의 신호의 복원에 초점을 맞추고 있다.

본 발명의 하나의 실시예에서, 디코더는 디코딩된 시간-워핑된 변환 도메인 샘플들

과 더불어 워핑 맵 시퀀스를 수신하며, 여기서 상기 가정한 신호의 대역 제한으로 인해 n ≥ L에 대해

= 0이라고 가정할 수 있다. 인코더 측에서와 같이, 이산 시간 합성을 달성하기 위한 시작점은 식(12)의 합성 파-형들을 이용하는 연속 시간 복원을 고려하는 것일 것이다:

(19)

여기서,

(20)

그리고,

(21)

식(19)은 통상의 윈도잉된 변환 합성의 오버랩 및 가산(ad) 과정이다. 분석 단계에서와 같이, 점들

에서 식(21)을 샘플링하는 것이 바람직하며, 그에 따라 다음 식을 제공되며,

(22)

이는 다음 단계들에 의해 용이하게 계산된다: 처음에, 규칙

에 따른 오프셋 파라미터

에 따라, 2L에서의 확장이 뒤따르는, 샘플들로의 타입 IV의 DCT. 다음에, 윈도우

를 이용한 윈도잉이 수행된다.

가 구해지면, 다음 식의 리샘플링이

(23)

등거리 샘플 점들

에 있는 신호 세그먼트

를 제공하며, 이는 식(19)에서 설명된 오버랩 및 가산 연산을 위해 준비되는 것이다.

리샘플링 방법이 아주 자유롭게 다시 선택되며 이는 인코더에서와 동일할 필요는 없다. 본 발명의 하나의 실시예에서, 스플라인(spline) 보간 기반 방법이 이용되며, 여기서 스플라인 함수들의 차수는, 계산 복잡성과 복원 품질 간의 절충을 위해, 대역 제한 파라미터 q의 함수로서 조정될 수 있다. 파라미터 q의 통상 값은 q = 1/3이며, 종종 2차 스플라인이 충분한 경우이다.

이하에서는 도 3a 및 3b에 도시된 신호에 대한 디코딩이 도 4a 내지 7에 의해 설명될 것이다. 여기서는 블록 변환 및 변환 파라미터의 전송에 대해서는 설명되지 않음을 다시 한 번 강조하는 바이며, 이는 그것들이 통상적으로 알려진 기술이기 때문이다. 디코딩 과정을 위한 시작으로서, 도 4a 및 4b는 역(reverse) 블록 변환이 이미 수행되어 도 4a 및 4b에 도시된 신호들이 얻어진 구성을 보여준다. 역 블록 변환의 한 가지 중요한 특징은 도 3a 및 3b의 오리지널 신호에는 있지 않은 신호 성분들의 가산이며, 이는 이미 설명한 바와 같이 합성 함수들의 대칭 특성에 기인한다. 특히, 합성 함수는 m에 관하여는 짝수 대칭을, m+1에 관하여는 홀수 대칭을 가진다. 따라서, 간격 [0,a]에서는, 포지티브 신호 성분들이 역 블록 변환에 가산되고 반면 간격 [a,2]에서는 네거티브 신호 성분들이 가산된다. 그에 더해, 합성 윈도잉 연산에 이용된 본 발명의 윈도우 함수는 도 4a 및 4b에서 점선 곡선으로 나타낸 바와 같이 슈퍼임포즈된다.

워핑 시간 도메인에서의 합성 윈도의 수학적 정의가 식(11)의 의해 주어진다. 도 5a 및 5b는 본 발명의 윈도잉의 적용 이후에, 여전히 워핑 시간 도메인에 있는 신호를 보여준다.

도 6a 및 6b는 마지막으로 도 5a 및 5b의 신호들에 대한 워핑 파라미터-의존 리샘플링의 결과를 보여준다.

마지막으로, 도 7은 신호의 합성의 마지막 단계인, 오버랩-가산(overlap- and-add) 연산의 결과를 보여준다. (식(19) 참조). 오버랩-가산 연산은 도 6a 및 6b의 파형들의 중첩(superposition)이다. 상술한 바와 같이, 완전히 복원되는 유일한 프레임은 중간 프레임(32)이며, 도 2의 오리지널 상태와의 비교는 상기 중간 프레임(32)이 높은 충실도를 갖도록 복원되었음을 보여준다. 역 블록 변환 중에 도입된, 방해가 되는 추가 신호 성분들의 정확한 소거는 오직 도 1의 상기 2개의 결합된 워핑 맵(14 및 22)들이 오버래핑된 표준화 시간 간격 [1,2] 내의 아핀 맵만이 다르다는 것이 본 발명의 중요한 특징이기 때문에 가능하다. 이것의 결과는 신호 부분들과 워핑 시간 세그먼트들 [a,2]와 [1,b]의 윈도우들 간에 일치가 있다는 것이다. 도 4a와 4b를 고려하면, 세그먼트 [1,b]를 [a,2]로의 선형 스트레칭이 신호 그래프들과 윈도우 절반들이 표준 MDCT의 공지의 시간 도메인 알리아스(aliasing) 소거 원리를 보여주도록 한다. 이미 알리아스가 소거된 신호는 이어 통상의 역 워핑 맵에 의해 표준화된 시간 간격 [1,2]로 간단히 맵핑될 수 있다.

본 발명의 다른 실시예에 따르면, 계산 복잡성의 추가적인 감소가 주파수 도메인에서의 사전-필터링(pre-filtering) 단계의 적용에 의해 달성될 수 있다는 점을 유념한다. 이는 단순한 전송된 샘플 값들 dkn의 사전-가중(pre-weighting)에 의해 구현될 수 있다. 이러한 사전-필터링은 예를 들어, M. Unser, A. Aldroubi, and M. Eden의 "B-spline signal processing part II-efficient design and applications"에 개시되어 있다. 구현을 위해서는 윈도잉 연산 이전에 역 블록 변환의 출력에 적용되는 B-스플라인 리샘플링이 필요하다. 이 실시예 내에서, 상기 리샘플링이 변형된

를 갖는 식(22)에 의해 유도된 바와 같은 신호에 관해 행해진다. 윈도우 함수

의 적용은 또한 수행되지 않는다. 따라서 상기 리샘플링은, 신호 세그먼트의 각 단부에서, 블록 변환의 선택에 의해 유도되는 주기성 및 대칭성의 관점에서 에지 상태에 주의하여야 한다. 이어서 윈도우

를 이용한 리샘플링 이후에 필요한 윈도잉이 수행된다.

요약하면, 본 발명의 디코더의 제1 실시예에 따르면, 역 시간-워핑된 MDCT는, 개별 단계로 분해될 경우에, 다음 단계들을 포함한다:

· 역 변환

· 윈도잉

· 리샘플링

· 오버랩 및 가산

본 발명의 제2 실시예에 따르면, 역 시간-워핑된 MDCT는 다음을 포함한다:

· 스펙트럼 가중(Spectral weighting)

· 역 변환

· 리샘플링

· 윈도잉

· 오버랩 및 가산

전체 표준화된 워핑 맵들이 자명한 (

)인 워핑이 적용되지 않은 경우에, 상술한 본 발명의 실시예는 통상적인 MDCT와 정확하게 일치한다는 것을 유념한다.

이하 상술한 특징들을 포함하는 본 발명의 다른 실시예들이 도 8 내지 15를 참조하여 상세하게 설명된다.

도 8은 본 발명의 오디오 인코더의 예를 도시한 도면으로서, 오디오 인코더는 입력으로서 디지털 오디오 신호(100)를 수신하고 본 발명의 시간-워핑된 변환 코딩 개념을 포함하는 디코더로 전송될 비트 스트림을 발생한다. 디지털 오디오 입력 신호(100)는 내추럴 오디오 신호 또는 사전 처리된 오디오 신호일 수 있으며, 여기서 예를 들어 상기 사전 처리는 입력 신호의 스펙트럼을 백화하는 백화 연산일 수 있다. 본 발명의 인코더는 워핑 파라미터 추출기(101) 워핑 변환기(102), 지각 모델 계산기(103), 워핑 코더(104), 인코더(105), 및 멀티플렉서(106)를 포함한다. 워핑 파라미터 추출기(101)는, 워핑 변환기(102)와 워핑 코더(104)로 입력되는 워핑 파라미터 시퀀스를 추정한다. 워핑 변환기(102)는 디지털 오디오 입력 신호(100)의 시간 워핑된 스펙트럼 표현을 도출한다. 시간 워핑된 스펙트럼 표현은 양자화 및 예를 들어 미분 코딩과 같은 가능한 다른 코딩을 위해 인코더(105)로 입력된다. 인코더(105)는 추가적으로 지각 모델 계산기(103)에 의해 제어된다. 예를 들어, 상기 양자화의 조도는 주로 다른 신호 성분들에 의해 마스킹된 신호 성분들 이 인코딩될 때 증가될 수 있다. 워핑 코더(104)는 워핑 파라미터 시퀀스를 인코딩하여 상기 비트 스트림 내에서의 전송 동안 그 사이즈를 줄인다. 이는 예를 들어 상기 파라미터들의 양자화, 또는 예를 들어 미분 코딩 또는 엔트로피-코딩 기술 및 산술 코딩(arithmetic coding) 기술을 포함할 수 있다.

멀티플렉서(106)는 워핑 코더(104)로부터의 인코딩된 워핑 파라미터 시퀀스와 디지털 오디오 입력 신호(100)의 인코딩된 시간-워핑된 스펙트럼 표현을 수신하여 양 데이터 모두를 인코더에 의해 출력된 비트 스트림으로 멀티플렉싱한다.

도 9는 호환성 비트 스트림(200)을 수신하여 출력으로서 복원된 오디오 신호를 도출하는 시간-워핑된 디코더의 예를 나타낸다. 상기 디코더는 디-멀티플렉서(de-multiplexer: 201), 워핑 디코더(202), 디코더(203), 및 역 워핑 변환기(204)를 포함한다. 디-멀티플렉서는 상기 비트 스트림을 인코딩된 워핑 파라미터 시퀀스로 디-멀티플렉싱하며, 인코딩된 워핑 파라미터 시퀀스는 워핑 디코더(202)로 입력된다. 디-멀티플렉서는 또한 상기 오디오 신호의 시간-워핑된 스펙트럼 표현을 디-멀티플렉싱하며, 이는 디코더(203)로 입력되고, 이 디코더(203)는 도 8에서 대응하는 오디오 인코더(105)의 역(inverse)이다. 워핑 디코더(202)는 워핑 파라미터 시퀀스의 복원을 도출하고 디코더(203)는 오리지널 오디오 신호의 시간-워핑된 스펙트럼 표현을 도출한다. 워핑 파라미터 시퀀스의 표현과 시간-워핑된 스펙트럼 표현은 역 워핑 변환기(204)로 입력되며, 역 워핑 변환기(204)는 오디오 신호의 시간-워핑된 오버래핑 변환에 관한 본 발명의 개념을 구현한 디지털 오디오 출력 신호를 도출한다.

도 10은 시간-워핑된 변환 디코더의 다른 실시예를 보여주며, 여기서는 워핑 파라미터 시퀀스가 상기 디코더 자체에서 도출된다. 도 10에 도시된 대안적인 실시예는 디코더(203), 워핑 추정기(301), 및 역 워핑 변환기(204)를 포함한다. 디코더(203)와 역 워핑 변환기(204)는 이전 실시예에서 대응하는 장치들과 동일한 기능을 공유하며, 따라서 다른 실시예에서의 이들 장치에 대한 설명은 완전히 상호 호환될 수 있다. 워핑 추정기(301)는 초기 주파수 도메인 피치 추정치들을 현재 주파수 도메인 피치 추정치와 결합함으로써 디코더(203)에 의해 출력된 시간-워핑된 스펙트럼 표현의 실제 워핑을 도출한다. 따라서 워핑 파라미터 시퀀스가 묵시적으로 시그널링되며, 이는 추가적인 워핑 파라미터 정보가 디코더에 입력된 비트스트림에 전송될 필요가 없기 때문에 비트 레이트가 더 절약될 수 있는 큰 이점을 가진다.

도 11은 본 발명의 개념의 시간-워핑된 디코딩이 가능하지 않은 종래 기술의 디코더들이 사용될 때의 본 발명의 개념에 대한 역방향 호환성을 보여준다. 이러한 디코더는 상기 추가적인 워핑 정보를 무시할 것이며, 따라서 비트 스트림을 아무런 워핑도 수행하지 않는 역 변환기(401)로 공급되는 주파수 도메인 신호로 디코딩한다. 본 발명의 인코더에서의 시간-워핑된 변환에 의해 수행된 주파수 분석은 아무 시간 워핑을 포함하지 않는 변환과 잘 동조되기 때문에, 워핑 데이터를 무시하는 디코더가 여전히 의미 있는 오디오 출력을 생성할 것이다. 이는 시간 워핑으로 인한 오디오 품질의 저하를 감수하고 수행되는 것이며, 종래 기술의 디코더들에서는 되돌려 지지 않는다.

도 12는 본 발명의 방법의 시간-워핑된 변환에 대한 블록도이다. 본 발명의 시간-워핑된 변환은 윈도잉 단계(501), 리샘플링 단계(502), 및 블록 변환 단계(503)를 포함한다. 처음에, 입력 신호가 개별 인코딩 단계 501 내지 503에 대한 추가 입력인 워핑 파라미터 시퀀스에 따른 오배래핑 윈도우 시퀀스로 윈도잉된다. 윈도잉된 입력 신호 세그먼트 각각은 리샘플링 단계(502)에서 순차적으로 리샘플링되며, 여기서 리샘플링은 상기 워핑 파라미터 시퀀스에 의해 지시된 바와 같이 수행된다.

블록 변환 단계(503) 내에서, 전형적으로 기지의 이산 삼각(trigonometric) 변환을 이용하여 도출된다. 따라서 상기 변환은 윈도잉되고 리샘플링된 신호 세그먼트에 대하여 수행된다. 상기 블록 변환이 또한 워핑 파라미터 시퀀스로부터 도출된 오프셋 값에 의존한다는 것을 유념한다.

도 13은 역 시간-워핑된 변환 방법에 대한 플로우챠트이다. 이 방법은 역 블록 변환(601) 단계, 윈도잉 단계(602), 리샘플링 단계(603), 및 오버래핑 및 가산 단계(604)를 포함한다. 변환 도메인 신호의 각 프레임이 역 블록 변환(601)에 의해 시간 도메인 신호로 변환된다. 상기 인코딩 단계에 대응하여, 블록 변환은 역 블록 변환 단계(601), 윈도잉 단계(602), 및 리샘플링 단계(603)에 대한 추가적인 입력으로서 역할하는 상기 수신된 파라미터 시퀀스로부터 도출된 오프셋 값에 의존한다. 블록 변환(601)에 의해 도출된 신호 세그먼트가 워핑 파라미터 시퀀스를 이용하여 윈도잉 단계(602)에서 순차적으로 윈도잉되고 리샘플링 단계(603)에서 리샘플링된다. 마지막으로, 오버래핑 및 가산 단계(604)에서, 윈도잉 및 리샘플링된 세그먼트가 통상의 오버랩 및 가산 연산으로 이전에 역 변환된 세그먼트들에 추가되어, 시간 도메인 출력 신호의 복원을 가져온다.

도 14는 본 발명의 역 시간-워핑된 변환기의 대안적인 실시예를 보여주며, 이는 계산 복잡성을 추가적으로 감소시기키 위해 실행된다. 디코더가 도 13의 디코더와 동일한 기능을 부분적으로 공유한다. 따라서 양 실시예들에서의 동일한 기능적 블록들에 대한 설명은 완전히 상호 호환적일 수 있다. 대안적 실시예는 상기 역 블록 변환(610) 전에 스펙트럼 사전-가중 단계(701)를 수행한다는 점이 도 13의 실시예와 다르다. 이 고정 스펙트럼 사전-가중 단계는 상기 블록 변환의 선택에 의해 도입된 주기성 및 대칭성을 가지는 시간 도메인 필터링과 균등하다. 이러한 필터링 연산은 어느 스플라인 기반 리-샘플링 방법들의 일부이며, 다음의 변형된 리샘플링(702)의 계산 복잡성을 줄일 수 있게 해준다. 이러한 리샘플링이 이제 블록 변환의 선택에 의해 도입된 주기성 및 대칭성을 가지는 신호 도메인에서 수행된다. 따라서 변형된 윈도잉 단계(703)가 리샘플링(702) 이후에 수행된다. 마지막으로, 오버래핑 및 가산 단계(604)에서, 상기 윈도잉되고 리샘플링된 세그먼트가 복원된 시간 도메인 출력 신호를 제공하는 통상의 오버랩 및 가산 과정을 이용하여 이전에 역-변환된 세그먼트에 가산된다.

도 15a 및 15b는 본 발명의 개념의 시간-워핑된 코딩의 장점을 나타내는 도면이며, 시간 워핑이 적용 및 비적용된 동일한 신호의 스펙트럼 표현들을 보여준다. 도 15a는 16 kHz에서 샘플링된 남성의 음성 신호 세그먼트에 대한 변환 사이즈 1024의 변형된 이산 코사인 변환으로부터 유래된 스펙트럼 라인들의 프레임을 나타낸다. 얻어진 주파수 해상도는 7.8 Hz이며, 이 도면에서는 대역폭 4.7 kHz에 대응하는 처음 600 라인들만이 플롯팅되었다. 기본 주파수와 플롯팅으로부터 알 수 있는 바와 같이, 상기 세그먼트는 대략 155 Hz의 평균 피치를 가지는 음성이다. 또한 도 15a로부터 알 수 있는 바와 같이, 피치-주파수 중에 처음 약간의 고조파들은 확연하게 식별할 수 있지만, 높은 주파수 쪽으로는, 상기 분석이 점차 조밀해지고 뒤섞여지고 있다. 이는 분석되는 신호 세그먼트의 길이 내에서의 피치의 변화에 기인한다. 따라서 고 주파수 영역에 대한 중간부의 코딩이 디코딩에 가청 인공음을 도입하지 않도록 하기 위해서는 실질적으로 상당한 양의 비트가 요구된다. 역으로, 비트 레이트를 고정할 경우에, 실질적으로 상당한 양의 왜곡이 양자화 조도를 높이는데 필요한 요구에 의해 불가피하게 발생한다.

도 15b는 본 발명에 따른 시간-워핑된 변형 이산 코사인 변환으로부터 얻어진 스펙트럼 라인들의 프레임을 나타낸 도면이다. 명백하게, 도 15a에서 이용된 동일한 오리지널 남성의 오디오 신호가 이용되었다. 상기 변환 파라미터들이 도 15와 동일하지만, 상기 신호에 적합한 시간-워핑된 변환의 사용은 스펙트럼 표현에 대하여 가시적인 극적 효과를 가진다. 추가적인 워핑 데이터를 코딩하는데 따른 비용을 고려하더라도, 상기 시간-워핑된 변환 도메인에서의 신호의 성기고(sparse) 조직화된 특성은 훨씬 좋은 등급의 왜곡 거동을 제공한다.

이미 설명한 바와 같이, 피치 또는 스피드 정보의 전송을 대신하는 워핑 파라미터의 전송은 추가적인 요구 비트 레이트를 극적으로 감소시키는 뛰어난 효과를 갖는다. 따라서 다음의 단락들에서는, 필요한 워핑 파라미터 정보를 전송하는 본 발명의 구성을 상세하게 설명한다.

시간 t에서 워핑 a(t)를 가지는 신호의 경우에, 국부적 코사인 베이시스(식(8), (12) 참조)를 위한 표준화된 워핑 맵 시퀀스

의 최적 선택이 다음 식을 통해 얻어진다.

(24)

그러나, 이러한 워핑 맵 시퀀스를 나타내는데 필요한 정보의 양이 너무 크고 a(t)의 점별(pointwise) 값의 정의와 측정이 어렵다. 실질적인 목적에 따라, 워핑 업데이트 간격

이 결정되고, 각 워핑 맵

이

파라미터들에 의해 나타내어진다. 약 10-20 ms의 워핑 업데이트 간격이 일반적으로 음성 신호에 대해서 충분하다.

및

으로부터

을 얻는 식(9)의 구성과 마찬가지로, 적합한 아핀 리-스케일링 연산들을 통한 N개의 표준화된 워핑 맵에 의해, 연속 미분가능 표준화된 워핑 맵이 접합될 수 있다.

(25)

여기서

는 워핑 파라미터이다.

에 의해 맵

의 워핑을 정의하면, 3개 맵 전부가 t=1/2에서

와 동일한 워핑이 된다. 지수 맵은 전체 간격

에서 상수 맵을 가지며,

가 작은 값들인 경우에, 다른 2개의 맵이 이 상수 값으로부터 매우 작은 편차를 나타낸다. 리샘플링(23)을 위해 디코더에 적용된 주어진 워핑 맵에 대해서, 그 역이 인코더에서의 리샘플링(식(18))을 위해 필요하다. 이 반전에 대한 결과의 주요 부분은 표준화된 워핑 맵들의 반전으로부터 비롯한다. 2차 맵의 반전에는 제곱근 연산들이 필요하며, 지수 맵의 반전에는 로그(logarithm)가 필요하며, 유리수 뫼비우스 맵(rational Moebius map)의 역은 취소(negated)된 워핑 파라미터를 가지는 뫼비우스 맵이다. 지수 함수들 및 나눗셈들은 비교적 비용이 많이 들기 때문에, 디코더에서의 계산에 있어서 최대한 용이함에 대한 초점은 조각별(piecewise) 2차 워핑 맵 시퀀스

에 이르게 된다.

이어 표준화된 워핑 맵

가 다음의 요구조건에 따라 N 개의 워핑 파라미터

에 의해 완전히 정의된다.

· 그것은 표준화된 워핑 맵이다;

· 그것은 부드러운 프로토타입(prototype) 워핑 맵들(25) 중의 하나의 스케일링된 복사본들에 의해 결합된다;

· 그것은 연속 미분가능하다;

· 그것은 다음 식을 만족시킨다;

(26)

본 발명은 워핑 파라미터들이 전형적으로 약 0.5 Hz의 스텝 사이즈까지 선형적으로 양자화될 수 있다는 것을 교시한다. 결과 정수 값들이 이어 코딩된다. 대안적으로, 도함수

가 표준화된 피치 곡선으로 해석될 수 있으며 여기서 상기 값들은

(27)

전형적으로 0.005인, 고정 스텝 사이즈까지 양자화된다. 이 경우에 얻어진 정수 값들은 또한 순차적으로 또는 계층적인(hierarchical) 방식으로 차(difference) 코딩된다. 양자의 경우 모두, 얻어진 부수 정보 비트 레이트는 전형적으로 초당 수백 비트이며, 이는 단지 음성 코덱에서 피치 데이터를 나타내는데 필요한 레이트의 일부일 뿐이다.

큰 계산 능력을 갖춘 인코더는 코딩 비용을 최적으로 줄이거나 스펙트럼 라인들의 성김성(sparsity)의 크기를 최대화하는 워핑 데이터 시퀀스를 결정할 수 있다. 덜 비싼 과정은, 피치 트랙이 존재하고 피치 값들에서 큰 점프를 나타내지 않는 간격들에서, 측정된 피치 함수

를 제공하는 피치 트랙킹과, 조각별 선형 함수

를 가지는 피치 곡선에 대한 근사치 산출을 위한 기지의 방법들을 이용하는 것이다. 그러면 추정된 워핑 시퀀스가 다음 식,

(28)

에 의해 피치 트랙킹 간격들 내부에서 주어진다. 이들 간격의 외부에서는 상기 워핑이 제로로 설정된다. 피치 주기 배가(doubling)와 같은, 피치 추정치에서의 시스템적인 에러는 워핑 추정치에 아주 작게 영향을 준다는 것을 유념한다.

도 10에 도시한 바와 같이, 본 발명의 대안적인 실시예에서는, 워핑 파라미터 시퀀스가 워핑 추정기에 의해 디코딩된 변환 도메인 데이터로부터 도출될 수 있다. 원리는 변환 데이터의 각 프레임에 대하여 또는 후속하는 디코딩된 신호 블록들의 피치들로부터 주파수 도메인 피치를 계산하는 것이다. 이어 워핑 정보가 식(28)과 유사한 식으로부터 도출된다.

본 발명의 개념의 응용이 주로 싱글 오디오 채널 시나리오에서 본 발명의 시간 워핑을 적용하는 것으로 설명되었다. 당연히 본 발명의 개념은 그러한 모노포닉(monophonic) 시나리오 내에서의 이용에 제한되지 않는다. 나아가 전송되는 싱글 또는 다중 채널이 본 발명의 개념을 이용하여 코딩될 수 있는 다중-채널 코딩 응용 내에서, 본 발명의 개념에 의해 달성될 수 있는 높은 코딩 이득을 이용하는 것이 큰 장점일 수 있다.

더욱이, 워핑은 일반적으로 x에 의존하는 임의의 함수의 x-축의 변환으로서 정의 될 수 있다. 따라서 본 발명의 개념은 또한 명시적으로 시간에 의존하지 않는 함수들 또는 신호의 표현이 워핑되는 시나리오들에 적용될 수 있다. 예를 들어, 신호의 주파수 표현의 워핑이 또한 구현될 수 있다.

나아가, 본 발명의 개념은 또한 위의 단락들에서 설명된 바와 같이 동일한 길이가 아닌 임의의 세그먼트 길이로 분할된 신호들에 바람직하게 적용될 수 있다.

이전 단락들에 제공된 베이스 함수들 및 이산화(discretization)의 이용은 또한 본 발명의 개념을 적용하는 하나의 바람직한 실시에로서 이해되어야 한다. 다른 응용들에 대해서는, 다른 베이스 함수들 및 다른 이산화들이 또한 이용될 수 있다. 본 발명의 방법들의 어느 구현 요구조건에 따라, 본 발명의 방법들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 상기 구현은 디지털 저장 매체, 특히 저장된 전자적으로 판독가능한 제어 신호들을 가지고 본 발명의 방법들이 수행되도록 프로그램가능한 컴퓨터 시스템과 협동하는 디스크, DVD, 또는 CD를 이용하여 수행될 수 있다. 따라서 일반적으로 본 발명은 기계-판독형 캐리어에 저장되고 컴퓨터에서 구동될 때 본 발명의 방법들을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램 제품이다. 다시 말해서, 본 발명의 방법들은 상기 컴퓨터 프로그램이 컴퓨터에서 구동될 때 본 발명의 방법들 중 적어도 하나를 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램이다.

상술한 것들이 그의 특정한 실시예들을 참조하여 도시되고 설명되었지만, 형태 및 세부사항에서의 다양한 다른 변경들이 본 발명의 사상과 범위를 벗어남 없이 해당 분야에서 통상의 지식을 가진 자에 의해 이해될 수 있을 것이다. 다양한 변경들이 여기에 개시되고 청구범위들에 의해 이해되는 넓은 개념으로부터 이탈되지 않고 다른 실시예들에 적합하게 구성될 수 있음을 이해하여야 한다.

어느 2개의 이웃하는 프레임들에 대한 공동의 시간 워핑이, 다음 블록 변환 이 워핑 정보를 추가적으로 이용하도록 추정될 때, 연속하는 오디오 프레임들을 가지는 오디오 신호의 스펙트럼 표현이 보다 더 효율적으로 도출될 수 있다. 따라서, 복원 동안에 오버랩 및 가산 과정을 성공적으로 적용하는데 필요한 윈도우 함수들이 도출되어 적용될 수 있으며, 이 윈도우 함수들은 이미 시간 워핑으로 인해 신호의 리-샘플링을 알고 있는 것이다. 따라서, 가청 불연속성을 도입하지 않고서도 시간-워핑된 신호들의 블록-기반 변환 코딩 향상된 효율을 가지고 이용될 수 있다.

Claims

제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3프레임을 가지는 시간 도메인 오디오 신호의 표현을 도출하는 인코더에 있어서:

상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보를 추정하고 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 워핑 추정기로서, 상기 워핑 정보들은 상기 오디오 신호의 피치 정보를 나타내는 것인, 워핑 추정기;

상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 스펙트럼 분석기; 및

상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 인터페이스를 포함하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 워핑 추정기는, 프레임의 워핑된 표현 내에 있는 피치가 워핑되지 않은 프레임 내의 피치보다 더 일정하게 되도록 하는 워핑 정보를 추정하고,

워핑되지 않은 프레임들로부터 도출된 워핑된 표현은 상기 워핑 정보에 의해 지시된 바에 따라 상기 워핑되지 않은 프레임들 내에 있는 오디오 신호의 시간 축을 변환하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 워핑 추정기는, 상기 프레임들에 있는 상기 피치의 변화에 관한 정보를 이용하여, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더.
청구항 3에 있어서,

상기 워핑 추정기는, 상기 피치의 변화가 소정의 최대 피치 변화보다 낮을 때만 상기 피치의 변화에 관한 정보가 이용되도록, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 워핑 추정기는, 프레임으로부터 도출된 워핑된 표현의 스펙트럼 표현이 상기 프레임의 스펙트럼 표현 보다 더 성기게 배치되도록, 상기 워핑 정보를 추정하고,

상기 프레임들로부터 도출된 상기 워핑된 표현은 상기 워핑 정보에 의한 지시에 따라 상기 프레임들 내에 있는 상기 오디오 신호의 시간 축을 변환하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 워핑 추정기는, 표현들 양자 모두가 동일한 인코딩 규칙을 이용하여 도출된 경우에 프레임들로부터 도출된 워핑된 표현의 스펙트럼 계수들의 인코딩된 표 현이 상기 프레임들의 스펙트럼 계수들의 인코딩된 표현 보다 더 낮도록 상기 워핑 정보를 추정하고,

상기 프레임들로부터 도출된 워핑된 표현은 상기 워핑 정보에 의한 지시에 따라 상기 프레임들 내에 있는 상기 오디오 신호의 시간 축을 변환하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

이산 샘플 값의 시퀀스에 의해 주어진 오디오 신호의 표현을 도출하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 워핑 추정기는, 프레임들로부터 도출된 워핑된 표현이 상기 대응 프레임들과 동일한 길이의 오디오 신호를 나타내도록, 상기 워핑 정보를 추정하고,

상기 프레임들로부터 도출된 워핑 표현은 상기 워핑 정보에 의한 지시에 따라 상기 프레임들 내에 있는 상기 오디오 신호의 시간 축을 변환하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 워핑 추정기는, 제1 해당 프레임의 제1 중간 워핑 정보와 제2 해당 프레임의 제2 중간 워핑 정보가 결합 규칙을 이용하여 결합되도록, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더.
청구항 9에 있어서,

상기 결합 규칙은, 상기 제1 중간 워핑 정보의 리스케일링된 워핑 파라미터 시퀀스가 상기 제2 중간 워핑 정보의 리스케일링된 워핑 파라미터 시퀀스와 연결되도록, 이루어진 것을 특징으로 하는 인코더.
청구항 10에 있어서,

상기 결합 규칙은, 얻어진 워핑 정보가 연속 미분가능한 워핑 파라미터 시퀀스를 포함하도록, 이루어진 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 워핑 추정기는, 상기 워핑 정보가 워핑 파라미터들의 증가 시퀀스를 포함하도록, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더
청구항 1에 있어서,

상기 워핑 추정기는, 상기 워핑 정보가 간격 [0,2]를 그 자체 상으로 맵핑하는 연속 미분가능한 리샘플링 규칙을 나타내도록, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 스펙트럼 분석기는 상기 워핑 정보에 따른 코사인 베이시스를 이용하여 상기 스펙트럼 계수들들 도출하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 스펙트럼 분석기는 2개 프레임의 가중된 표현을 이용하여 상기 스펙트럼 계수들을 도출하는 것을 특징으로 하는 인코더.
청구항 15에 있어서,

상기 스펙트럼 분석기는, 상기 2개 프레임의 가중된 표현이 윈도우 함수를 상기 2개 프레임에 적용함으로써 얻어지도록, 상기 스펙트럼 계수들을 도출하고,

상기 윈도우 함수는 상기 워핑 정보에 의존하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 스펙트럼 분석기는 상기 프레임들의 리샘플링된 표현을 이용하여 상기 스펙트럼 계수들을 도출하는 것을 특징으로 하는 인코더.
청구항 17에 있어서,

상기 스펙트럼 분석기는, 상기 리샘플링된 표현이 상기 워핑 정보에 의한 지시에 따라 상기 프레임들의 시간 축을 변환하도록 도출하는 것을 특징으로 하는 인 코더.
청구항 1에 있어서,

상기 도출된 워핑 정보는 상기 오디오 신호의 상기 피치에 대하여 표준화된 상기 오디오 신호의 피치 변화를 나타내는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 워핑 추정기는 상기 워핑 정보가 워핑 파라미터들의 시퀀스를 포함하도록 상기 워핑 정보를 추정하고,

각 워핑 파라미터는 상기 오디오 신호의 유한 길이 간격을 나타내는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 출력 인터페이스는 상기 워핑 정보를 더 포함하는 것을 특징으로 하는 인코더.
청구항 1에 있어서,

상기 출력 인터페이스는 상기 워핑 정보의 양자화된 표현을 더 포함하는 것을 특징으로 하는 인코더.
제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 디코더로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수이며, 상기 디코더는:

상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결합된 프레임을 도출하는 스펙트럼 값 프로세서로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 스펙트럼 값 프로세서; 및

상기 제1 결합된 프레임과 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 합성기를 포함하는 것을 특징으로 하는 디코더.
청구항 23에 있어서,

상기 스펙트럼 값 프로세서는 상기 결합된 프레임들을 도출하기 위하여 코사인 베이스 함수들을 이용하고,

상기 코사인 베이스 함수들은 상기 워핑 정보에 의존하는 것을 특징으로 하 는 디코더.
청구항 24에 있어서,

상기 스펙트럼 값 프로세서는, 상기 스펙트럼 계수들에 관하여 상기 코사인 베이스 함수들을 이용하는 것이 결합된 프레임의 시간-워핑된(time-warped) 비가중(unweighted) 표현을 산출하도록, 상기 코사인 베이스 함수들을 이용하는 것을 특징으로 하는 디코더.
청구항 23에 있어서,

상기 스펙트럼 값 프로세서는 상기 결합된 프레임들의 샘플 값들에 가중치를 적용하기 위하여 윈도우 함수를 이용하고,

상기 윈도우 함수는 상기 워핑 정보에 의존하는 것을 특징으로 하는 디코더.
청구항 25에 있어서,

상기 스펙트럼 값 프로세서는, 윈도우 함수가 결합된 프레임의 상기 시간-워핑된 비가중 표현에 적용될 때 결합된 프레임의 시간-워핑된 표현을 산출하도록, 상기 윈도우 함수를 이용하는 것을 특징으로 하는 디코더.
청구항 23에 있어서,

상기 스펙트럼 값 프로세서는, 워핑 정보에 의한 지시에 따라 결합된 프레임 들의 표현들의 시간 축을 변환함으로써 결합된 프레임을 도출하도록, 상기 워핑 정보를 이용하는 것을 특징으로 하는 디코더.
청구항 23에 있어서,

상기 합성기는 상기 제1 결합된 프레임과 상기 제2 결합된 프레임을 가산하여 상기 제2 프레임을 복원하는 것을 특징으로 하는 디코더.
청구항 23에 있어서,

이산 샘플 값들의 시퀀스에 의하여 표현된 오디오 신호를 복원하는 것을 특징으로 하는 디코더.
청구항 23에 있어서,

상기 제1 및 상기 제2 스펙트럼 계수들로부터 상기 제1 및 상기 제2 워핑 정보를 도출하는 워핑 추정기를 더 포함하는 것을 특징으로 하는 디코더.
청구항 23에 있어서,

상기 스펙트럼 값 프로세서는, 소정 가중 팩터를 상기 스펙트럼 계수들에 적용하는, 상기 스펙트럼 계수들의 가중을 수행하는 것을 특징으로 하는 디코더.
제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현을 도출하는 방법에 있어서:

상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보와 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 추정 단계로서, 상기 워핑 정보는 상기 오디오 신호의 피치 정보를 나타내는 것인, 추정 단계;

상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 도출 단계; 및

상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 단계를 포함하는 것을 특징으로 하는 방법.
제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 방법으로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수이며, 상기 방법은:

상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결 합된 프레임을 도출하는 도출 단계로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 도출 단계; 및

상기 제1 결합된 프레임 및 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 복원 단계를 포함하는 것을 특징으로 하는 방법.
컴퓨터에서 구동될 때 제1 프레임과 상기 제1 프레임을 뒤따르는 제2 프레임과 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현을 도출하는 방법을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램으로서,

상기 방법은:

상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보와 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 추정 단계로서, 상기 워핑 정보는 상기 오디오 신호의 피치 정보를 나타내는 것인, 추정 단계;

상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 도출 단계; 및

상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 단계를 포함하는 것인, 컴퓨터 프로그램.
컴퓨터에서 구동될 때 제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 방법을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램으로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수이며,

상기 방법은:

상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결합된 프레임을 도출하는 도출 단계로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 도출 단계; 및

상기 제1 결합된 프레임 및 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 복원 단계를 포함하는 것인, 컴퓨터 프로그램.
제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현으로서, 상기 표현은:

상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들로서 상기 제1 및 상기 제2 프레임의 워핑된 표현의 스펙트럼 조성을 나타내는 제1 스펙트럼 계수들; 및

상기 제2 및 상기 제3 프레임의 워핑 표현의 스펙트럼 조성을 나타내는 제2 스펙트럼 계수들을 포함하는 것을 특징으로 하는 표현.