KR20120128156A

KR20120128156A - 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램

Info

Publication number: KR20120128156A
Application number: KR20127026462A
Authority: KR
Inventors: 스테판 바이어; 탐 백스트룀; 랄프 가이거; 베른트 에들러; 사샤 디쉬; 라즈 빌레모스
Original assignee: 돌비 인터네셔널 에이비; 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2010-03-10
Filing date: 2011-03-09
Publication date: 2012-11-26
Also published as: TW201207846A; HK1181540A1; BR112012022741A2; BR112012022741B1; EP2532001B1; AU2011226140B2; HK1179743A1; AR084465A1; JP2013521540A; MX2012010469A; BR112012022744A2; TW201203224A; EP2532001A1; AR080396A1; RU2607264C2; EP2539893B1; US9129597B2; JP5456914B2; JP2013522658A; US20130117015A1

Abstract

샘플링 주파수 정보, 인코딩된 시간 왜곡 정보 및 인코딩된 스펙트럼 표현을 포함하는 인코딩된 오디오 신호 표현을 기초로 하여 디코딩된 오디오 신호 표현을 제공하도록 구성되는 오디오 신호 인코더는 시간 왜곡 계산기 및 왜곡 디코더를 포함한다. 시간 왜곡 계산기는 인코딩된 시간 왜곡 정보의 코드워드들을 샘플링 주파수 정보에 의존하는 디코딩된 시간 왜곡 정보를 설명하는 디코딩된 시간 왜곡 값들 상으로 맵핑하기 위한 맵핑 규칙을 적용하도록 구성된다. 왜곡 디코더는 인코딩된 스펙트럼 표현을 기초로 하고 디코딩된 시간 왜곡 정보에 의존하여 디코딩된 오디오 신호 표현을 제공하도록 구성된다.

Description

샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램{AUDIO SIGNAL DECODER, AUDIO SIGNAL ENCODER, METHODS AND COMPUTER PROGRAM USING A SAMPLING RATE DEPENDENT TIME-WARP CONTOUR ENCODING}

본 발명에 따른 실시예들은 오디오 신호 디코더에 관한 것이다. 본 발명에 따른 다른 실시예들은 오디오 신호 인코더에 관한 것이다. 본 발명에 따른 다른 실시예들은 오디오 신호를 디코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 방법, 및 컴퓨터 프로그램에 관한 것이다.

본 발명에 따른 몇몇 실시예들은 샘플링 주파수 의존 피치 변동 양자화에 관한 것이다.

다음에서는, 그 구상들이 본 발명의 실시예들 중 몇몇과 함께 적용될 수 있는, 시간이 왜곡된 오디오 인코딩 분야에 대한 간단한 소개가 주어질 것이다.

최근 수년 동안에, 오디오 신호를 주파수 도메인 표현으로 변환시키고, 예를 들어, 지각적 마스킹 임계치들(masking thresholds)을 고려하여, 주파수 도메인 표현을 효율적으로 인코딩하기 위해 기술들이 개발되어 왔다. 이 오디오 신호 인코딩 구상은, 만약 인코딩된 스펙트럼 계수들의 셋트가 전송되기 위한 블록 길이가 길고, 만약 오직 비교적 적은 수의 스펙트럼 계수들이 전역(global) 마스킹 임계치의 아주 위에 있는 반면 많은 수의 스펙트럼 계수들이 전역 마스킹 임계치 근처나 아래에 있어서 무시될 수 있는(또는 최소 코드 길이로 코딩될 수 있는) 경우에 특히 효율적이다. 상기 조건을 가진 스펙트럼은 때때로 성긴(sparse) 스펙트럼이라고 불린다.

예를 들어, 코사인 기반 또는 사인(sine) 기반 변조 랩핑(lapping) 변환들은 그것들의 에너지 압축 속성들로 인해 소스 코딩을 위한 응용들에서 종종 사용된다. 즉, 일정한 기본 주파수들(피치)을 갖는 고조파 음조들에 대해, 효율적인 신호 표현을 가져오는, 적은 수의 스펙트럼 구성요소들(서브 대역들)로 신호 에너지를 집중시킨다.

일반적으로, 신호의 (기본) 피치는 신호의 스펙트럼과 구별할 수 있는 가장 낮은 우세(dominant) 주파수일 것으로 이해될 것이다. 통상적인 음성 모델에서, 피치는 사람의 목에 의해 변조된 여자(excitation, 勵磁) 신호의 주파수이다. 만약 오직 하나의 단일 기본 주파수만이 나타내어진다면, 스펙트럼은 단지 기본 주파수 및 오버톤만을 포함하여 극히 간단할 것이다. 그러한 스펙트럼은 매우 효율적으로 인코딩될 수 있다. 그러나, 변화하는 피치를 갖는 신호들에 있어서, 각각의 고조파 구성요소들에 상응하는 에너지는 여러 변환 계수들에 걸쳐 퍼지므로, 코딩 효율의 감소를 가져온다.

코딩 효율의 감소를 극복하기 위해, 인코딩되는 오디오 신호는 균일하지 않은 시간적 그리드(non-uniform temporal grid)로 효율적으로 재샘플링된다. 뒤이은 처리에서, 비균일 재샘플링에 의해 얻어진 샘플 위치들은 마치 균일한 시간적 그리드로 값들을 표현하는 것처럼 처리된다. 이 연산은 보통 "시간 왜곡"이라는 어구로 표시된다. 샘플링 횟수는 피치의 시간적 변동에 따라 유리하게 선택될 수 있어, 오디오 신호의 시간이 왜곡된 버전에서의 피치 변동은 (시간이 왜곡되기 이전의) 오디오 신호의 원래의 버전에서의 피치 변동보다 작다. 오디오 신호의 시간 왜곡 이후에, 오디오 신호의 시간이 왜곡된 버전은 주파수 도메인으로 변환된다. 피치 의존 시간 왜곡은 시간이 왜곡된 오디오 신호의 주파수 도메인 표현이 일반적으로 원래(시간이 왜곡되지 않은 오디오 신호)의 주파수 도메인 표현보다 훨씬 적은 수의 스펙트럼 구성요소들로의 에너지 압축을 보이는 효과를 갖는다.

디코더 측에서 시간이 왜곡된 오디오 신호의 주파수 도메인 표현이 시간 도메인으로 변환되어, 시간이 왜곡된 오디오 신호의 시간 도메인 표현이 디코더 측에서 이용 가능하다. 그러나, 디코더 측에서 복원된 시간이 왜곡된 오디오 신호의 시간 도메인 표현에서, 인코더 측에 입력된 오디오 신호의 원래의 피치 변동들은 포함되지 않는다. 그에 따라, 아직 시간이 왜곡된 오디오 신호의 디코더 측에서 복원도 시간 도메인 표현의 재샘플링에 의해 다른 시간 왜곡이 적용된다.

디코더에서 인코더 측에 입력된 오디오 신호의 좋은 복원을 얻기 위해, 디코더 측 시간 왜곡이 적어도 거의 인코더 측 시간 왜곡에 대한 역 연산인 것이 바람직하다. 적절한 시간 왜곡을 얻기 위해, 디코더 측 시간 왜곡의 조정을 가능하게 하는, 디코더 측에서 이용 가능한 정보를 갖는 것이 바람직하다.

일반적으로 오디오 신호 인코더로부터 오디오 신호 디코더로 그러한 정보를 전할 것이 요구되므로, 디코더 측에서 요구된 시간 왜곡 정보의 신뢰할 수 있는 복원을 여전히 가능하게 하면서 이 전송을 위해 요구된 비트레이트를 작게 유지하는 것이 바람직하다.

이러한 상황을 감안하여, 시간 왜곡 정보의 효율적으로 인코딩된 표현에 기초하여 시간 왜곡 정보의 신뢰할 수 있는 복원을 가능하게 하는 구상을 갖고자 하는 요구가 있다.

본 발명에 따른 실시예는 샘플링 주파수 정보, 인코딩된 시간 왜곡 정보, 및 인코딩된 스펙트럼 표현을 포함하는 인코딩된 오디오 신호 표현에 기초하여 디코딩된 오디오 신호 표현을 제공하기 위해 구성된 오디오 디코더를 고안한다. 오디오 신호 디코더는 (예를 들어, 시간 왜곡 디코더의 기능을 할 수 있는) 시간 왜곡 계산기 및 왜곡 디코더를 포함한다. 시간 왜곡 계산기는 디코딩된 시간 왜곡 정보에 인코딩된 시간 왜곡 정보를 맵핑하기 위해 구성된다. 시간 왜곡 계산기는 샘플링 주파수 정보에 기초하여 디코딩된 시간 왜곡 정보를 기술하는 디코딩된 시간 왜곡 값들에 인코딩된 시간 왜곡 정보의 코드워드들을 맵팽하기 위한 맵핑 규칙을 적응시키기 위하여 구성된다. 왜곡 디코더는 인코딩된 스펙트럼 표현에 기초하고 디코딩된 시간 왜곡 정보에 따라 디코딩된 오디오 신호 표현을 제공하기 위해 구성된다.

본 발명에 따른 이 실시예는, 만약 디코딩된 시간 왜곡에 인코딩된 시간 왜곡 정보의 코드워드들을 맵핑하기 위한 맵핑 규칙이 샘플링 레이트에 적응된다면 (예를 들어, 시간 왜곡 윤곽에 의해 기술되는) 시간 왜곡이 효율적으로 인코딩된다는 결론에 기초하는데, 더 높은 샘플링 주파수들보다 더 낮은 샘플링 주파수들에 대해 샘플당 더 큰 시간 왜곡을 표현하는 것이 바람직한 것으로 확인됐기 때문이다. 이러한 요구는 만약 인코딩된 시간 왜곡 정보의 코드워드들의 셋트로 표현가능한 시간 유닛당 시간 왜곡이 샘플링 주파수와 거의 독립적이라면 유리하다는 사실에서 비롯되는 것으로 확인됐는데, 이는 오디오 샘플당(또는 오디오 프레임당) 시간 왜곡 코드워드들의 개수가 실제 샘플링 주파수와 독립적으로 적어도 거의 상수로 남아 있다는 가정 하에 주어진 코드워드들의 셋트로 표현가능한 시간 왜곡이 더 큰 샘플링 주파수들에 대해서보다 더 작은 샘플링 주파수들에 대해서 더 커야함을 의미한다.

요약하면, (인코딩된 오디오 신호 표현에 의해 표현된) 인코딩된 오디오 신호의 샘플링 주파수에 따라 디코딩된 시간 왜곡 값들에 (간단히 시간 왜곡 코드워드들이라고도 가리켜지는) 인코딩된 시간 왜곡 정보의 코드워드들을 맵핑하기 위한 맵핑 규칙을 적응시키는 것이 유익한 것으로 확인되었는데, 비교적 높은 샘플링 주파수의 경우 및 비교적 낮은 샘플링 주파수 경우 모두에 대해 작은 (그래서 결과적으로 비트레이트 효율적인) 시간 왜곡 코드워드들의 셋트를 이용하여 상대적 시간 왜곡 값들을 표현하는 것을 가능하게 하기 때문이다.

맵핑 규칙을 적응시킴으로써, 비교적 높은 샘플링 주파수에 대해 높은 해상도를 이용하여 시간 왜곡 값들의 비교적 작은 범위를 인코딩하고, 비교적 작은 샘플링 주파수에 대해 거친 해상도로 시간 왜곡 값들의 비교적 큰 범위를 인코딩하는 것이 가능한데, 이는 결국 매우 좋은 비트레이트 효율을 가져온다.

일 바람직한 실시예에서, 인코딩된 시간 왜곡 정보의 코드워드들은 시간 왜곡 윤곽의 시간적 전개를 기술한다. 시간 왜곡 계산기는 바람직하게는 인코딩된 오디오 신호 표현에 의해 표현된 인코딩된 오디오 신호의 오디오 프레임에 대한 인코딩된 시간 왜곡 정보의 미리 결정된 개수의 코드워들을 평가하기 위해 구성된다. 미리 결정된 개수의 코드워드들은 인코딩된 오디오 신호의 샘플링 주파수로부터 독립적이다. 그에 따라, 시간 왜곡을 효율적으로 인코딩하는 것이 여전히 가능하면서도, 비트스트림 포맷이 샘플링 주파수로부터 실질적으로 독립적으로 남아 있게 하는 것이 달성될 수 있다. 인코딩된 오디오 신호의 오디오 프레임에 대한 미리 결정된 개수의 시간 왜곡 코드워드들을 이용함으로써, 여기서 미리 결정된 개수는 바람직하게는 인코딩된 오디오 신호의 샘플링 주파수로부터 독립적이며, 비트스트림 포맷이 샘플링 주파수와 함께 변하지 않고 오디오 디코더의 비트스트림 파서(parser)가 샘플링 주파수로 조정될 필요가 없다. 그러나, 디코딩된 시간 왜곡 값들에 인코딩된 시간 왜곡 정보의 코드워드들을 맵핑하기 위한 맵핑 규칙의 적응으로 시간 왜곡의 효율적인 인코딩이 여전히 달성되는데, 시간 왜곡 값들의 표현가능한 범위가 각각 다른 샘플링 주파수들에 대한 해상도와 최대 인코딩 가능한 시간 왜곡 사이의 좋은 보상을 가져오도록 디코딩된 시간 왜곡 값들로의 시간 왜곡 코드워드들의 맵핑이 샘플링 주파수에 적응될 수 있기 때문이다.

일 바람직한 실시예에서, 인코딩된 시간 왜곡 정보의 주어진 코드워드들의 셋트의 코드워드들이 맵핑되는 디코딩된 시간 왜곡 값들의 범위가, 제1 샘플링 주파수가 제2 샘플링 주파수보다 더 작으면, 제2 샘플링 주파수보다는 제1 샘플링 주파수에 대해 더 크도록 맵핑 규칙을 적응시키기 위해 구성된다. 그에 따라, 비교적 높은 주파수에 대한 비교적 작은 범위의 시간 왜곡 값들을 인코딩하는 바로 그 코드워드들이 비교적 작은 샘플링 주파수에 대한 비교적 큰 범위의 시간 왜곡 값들을 인코딩한다. 그러므로, 비교적 낮은 샘플링 주파수에 대해서 보다 비교적 높은 샘플링 주파수에 대해서 시간 유닛당 더 많은 시간 왜곡 코드워드들이 전송된다고 할지라도, 높은 샘플링 주파수 및 낮은 샘플링 주파수에 대해 (예를 들어, 초당 옥타브로 정의된, 간단히 "oct/s"로 가리켜진) 시간 유닛당 거의 동일한 시간 왜곡을 인코딩하는 것이 가능함이 보장될 수 있다.

일 바람직한 실시예에서, 디코딩된 시간 왜곡 값들은 시간 왜곡 윤곽의 값들을 표현하는 시간 왜곡 윤곽 값이거나 시간 왜곡 윤곽의 값들의 변화를 표현하는 시간 왜곡 윤곽 변동 값들이다.

일 바람직한 실시예에서, 시간 왜곡 계산기는 인코딩된 시간 왜곡 정보의 주어진 코드워드들의 셋트에 의해 표현가능한 주어진 개수의 샘플들에 걸친 피치의 최대 변화가, 제1 샘플링 주파수가 제2 샘플링 주파수보다 작으면, 제2 샘플링 주파수에 대해서 보다 제1 샘플링 주파수에 대해서 더 크도록 맵핑 규칙을 적응시키기 위해 구성된다. 그에 따라, 동일한 코드워드들의 셋트가 디코딩된 시간 왜곡 값들의 각각 다른 범위를 기술하는데 사용되는데, 이는 각각 다른 샘플링 주파수들에 매우 잘 적응된다.

일 바람직한 실시예에서, 시간 왜곡 계산기는 제1 샘플링 주파수로 인코딩된 시간 왜곡 정보의 주어진 코드워들의 셋트에 의해 표현가능한 주어진 기간에 걸친 피치의 최대 변화가, 제2 샘플링 주파수로 인코딩된 시간 왜곡 정보의 주어진 코드워드들의 셋트에 의해 표현가능한 주어진 기간에 걸친 피치의 최대 변화와, 제1 샘플링 주파수에 대해 10% 이내 그리고 제2 샘플링 주파수에 대해 적어도 30% 다르도록 맵핑 규칙을 적응시키기 위해 구성된다. 그에 따라, 맵핑 규칙의 적응에 의해, 본 발명에 따라, 종래에, 주어진 코드워드들의 셋트가 각각 다른 샘플링 주파수들에 대해 시간 유닛당 상당히 다른 시간 왜곡을 표현한다는 사실이 방지된다. 그러므로, 각각 다른 코드워드들의 개수가 상당히 작게 유지될 수 있는데, 이는 좋은 코딩 효율을 야기하며, 여기서, 그럼에도 불구하고, 시간 왜곡의 인코딩을 위한 해상도는 샘플링 주파수에 적응된다.

일 바람직한 실시예에서, 시간 왜곡 계산기는 샘플링 주파수 정보에 따라 디코딩된 시간 왜곡 값들에 인코딩된 시간 왜곡 정보의 코드워드들을 맵핑하기 위한 각각 다른 맵핑 테이블들을 사용하기 위해 구성된다. 각각 다른 맵핑 테이블을 제공함으로써, 메모리 요구의 대가로 디코딩 매커니즘이 매우 간단하기 유지될 수 있다.

다른 바람직한 실시예에서, 시간 왜곡 계산기는 참조 샘플링 주파수와는 다른 실제 샘플링 주파수에, 참조 샘플링 주파수에 대한 인코딩된 시간 왜곡 정보의 각각 다른 코드워드들과 연관된 디코딩된 시간 왜곡 값들을 기술하는 (참조) 맵핑 규칙을 적응시키기 위해 구성된다. 그에 따라, 단일 참조 샘플링 주파수에 대한 각각 다른 코드워드들의 셋트와 연관된 맵핑 값들(즉 디코딩된 시간 왜곡 값들)만을 저장할 필요가 있기 때문에, 메모리 요구가 작게 유지될 수 있다. 적은 계산 노력으로 각각 다른 샘플링 주파수에 맵핑 값들을 적응시키는 것이 가능한 것으로 확인됐다.

일 바람직한 실시예에서, 시간 왜곡 계산기는, 실제 샘플링 주파수와 참조 샘플링 주파수 사이의 비율에 따라, 시간 왜곡을 기술하는 부분인 맵핑 값의 부분을 스케일링하기 위해 구성된다. 맵핑 값들의 일부에 대한 그러한 선형 스케일링은 각각 다른 샘플링 주파수들에 대한 맵핑 값들을 얻기 위한 특히 효율적인 해결책이 되는 것으로 확인됐다.

일 바람직한 실시예에서, 디코딩된 시간 왜곡 값들은 인코딩된 오디오 신호 표현에 의해 표현된 인코딩된 오디오 신호의 미리 결정된 개수의 샘플들 걸친 시간 왜곡 윤곽의 변동을 기술한다. 이 경우에, 바람직하게는, 시간 왜곡 계산기는, 왜곡 윤곽 노드 값을 도출하기 위해, 시간 왜곡 윤곽의 변동을 표현하는 복수의 디코딩된 시간 왜곡 값들을 결합하기 위해 구성되어, 참조 왜곡 노드 값으로부터 도출된 왜곡 노드 값의 편차가 디코딩된 시간 왜곡 값들 중 단 하나에 의해 표현가능한 편차보다 크다. 복수의 디코딩된 시간 왜곡 값들을 결합함으로써, 개개의 시간 왜곡 값들에 대해 요구된 범위를 충분히 작게 유지하는 것이 가능하다. 이는 시간 왜곡 값들의 코딩 효율을 증가시킨다. 동시에, 맵핑 규칙을 적응시킴으로써 표현가능한 시간 왜곡들의 범위를 조정하는 것이 가능하다.

일 바람직한 실시예에서, 인코딩된 시간 왜곡 값은 인코딩된 오디오 신호 표현에 의해 표현된 인코딩된 오디오 신호의 미리 결정된 개수의 샘플들에 걸친 시간 왜곡 윤곽의 상대적 변화를 기술한다. 이 경우에, 시간 왜곡 계산기는 디코딩된 시간 왜곡 값들로부터 디코딩된 시간 왜곡 정보를 도출하기 위해 구성되어, 디코딩된 시간 왜곡 정보가 시간 왜곡 윤곽을 기술한다. 디코딩된 시간 왜곡 값들에 인코딩된 시간 왜곡 정보의 코드워드들을 맵핑하기 위한 규칙의 적응과, 인코딩된 오디오 신호의 미리 결정된 개수의 샘플들에 걸친 시간 왜곡 윤곽의 상대적 변화를 기술하는 시간 왜곡 값들의 사용의 조합은 높은 코딩 효율을 가져오는데, 샘플링 주파수의 변화의 경우에 인코딩된 오디오 신호의 샘플당 시간 왜곡 코드워드들의 개수가 변함없이 유지될 수 있더라도, (oct/s 면에서) 실질적으로 동일한, 또는 적어도 유사한 범위의 시간 왜곡이 각각 다른 샘플링 주파수들에 대해 인코딩될 수 있기 때문이다.

일 바람직한 실시예에서, 시간 왜곡 계산기는 디코딩된 시간 왜곡 값들에 기초하여 시간 왜곡 윤곽의 지점들을 계산하기 위해 구성된다. 이 경우에, 시간 왜곡 계산기는 디코딩된 시간 왜곡 정보로서 시간 왜곡 윤곽을 얻기 위해 지점들 사이를 보간하기 위해 구성된다. 이 경우에, 오디오 프레임당 디코딩된 시간 왜곡 값들의 개수는 미리 결정되고 샘플링 주파수로부터 독립적이다. 그에 따라, 지점들 사이의 보간 기법은 변하지 않은 채로 남아 있을 수 있는데, 이는 계산 복잡도를 작게 유지하는데 도움이 된다.

본 발명에 따른 일 실시예는 오디오 신호의 인코딩된 표현을 제공하기 위한 오디오 신호 인코더를 고안한다. 오디오 신호 인코더는 인코딩된 시간 왜곡 정보에 시간 왜곡 윤곽을 기술하는 시간 왜곡 값들을 맵핑하기 위해 구성된 시간 왜곡 윤곽 인코더를 포함한다. 시간 왜곡 윤곽 인코더는 오디오 신호의 샘플링 주파수에 따라 인코딩된 시간 왜곡 정보의 코드워드들에 시간 왜곡 윤곽을 기술하는 시간 왜곡 값들을 맵핑하기 위한 규칙을 적응시키기 위해 구성된다. 오디오 신호 인코더는 또한, 시간 왜곡 윤곽 정보에 의해 기술된 시간 왜곡을 고려하여, 오디오 신호의 스펙트럼의 인코딩된 표현을 얻기 위해 구성된 시간 왜곡 신호 인코더를 포함한다. 이 경우에, 오디오 신호의 인코딩된 표현은 인코딩된 시간 왜곡 정보의 코드워드들, 스펙트럼의 인코딩된 표현, 및 샘플링 주파수를 기술하는 샘플링 주파수 정보를 포함한다. 상기 오디오 인코더는 상기에서 논의된 오디오 신호 디코더에 의해 사용되는 인코딩된 오디오 신호 표현을 제공하는데 매우 적합하다. 또한, 상기 오디오 신호 인코더는 상기 오디오 신호 디코더에 대해 사익에서 논의된 것과 동일한 이점들을 가져오고 동일한 사고(consideration)에 기초한다.

본 발명에 따른 다른 실시예는 인코딩된 오디오 신호 표현에 기초하여 디코딩된 오디오 신호 표현을 제공하기 위한 방법을 고안한다.

본 발명에 따른 다른 실시예는 오디오 신호의 인코딩된 표현을 제공하기 위한 방법을 고안한다.

본 발명에 따른 다른 실시예는 상기 방법들 중 하나 또는 둘 다를 구현하기 위한 컴퓨터 프로그램을 고안한다.

이어서, 첨부된 도면들을 참조하여 본 발명에 따른 실시예들이 기술될 것으로:
도 1은 본 발명의 일 실시예에 따른 오디오 신호 인코더의 블록 도식도;
도 2는 본 발명의 일 실시예에 따른 오디오 신호 디코더의 블록 도식도;
도 3a는 본 발명의 다른 실시예에 따른 오디오 신호 인코더의 블록 도식도;
도 3b는 본 발명의 다른 실시예에 따른 오디오 신호 디코더의 블록 도식도;
도 4a는 본 발명의 일 실시예에 따른, 디코딩된 시간 왜곡 값들에 인코딩된 시간 왜곡 정보를 맵핑하기 위한 맵핑기의 블록 도식도;
도 4b는 본 발명의 다른 실시예에 따른, 디코딩된 시간 왜곡 값들에 인코딩된 시간 왜곡 정보를 맵핑하기 위한 맵핑기의 블록 도식도;
도 4c는 종래의 양자화 기법의 왜곡의 테이블 표현을 도시하는 도면;
도 4d는 본 발명의 일 실시예에 따른, 각각 다른 샘플링 주파수들에 대한 디코딩된 시간 왜곡 값들로의 코드워드 인덱스들의 맵핑에 대한 테이블 표현을 도시하는 도면;
도 4e는 본 발명의 다른 실시예에 따른, 각각 다른 샘플링 주파수들에 대한 디코딩된 시간 왜곡 값들로의 코드워드 인덱스들의 맵핑에 대한 테이블 표현을 도시하는 도면;
도 5a, 5b는 본 발명의 실시예에 따른 오디오 신호 디코더의 블록 도시도로부터의 상세한 발췌 도시하는 도면;
도 6a, 6b는 본 발명의 일 실시예에 따른 디코딩된 오디오 신호 표현을 제공하기 위한 맵핑기의 플로챠트에 대한 상세한 발췌를 도시하는 도면;
도 7a는 본 발명의 일 실시예에 따른 오디오 디코더에서 사용되는 데이터 요소들 및 조력 요소들의 정의에 대한 범례를 도시하는 도면;
도 7b는 본 발명의 일 실시예에 따른 오디오 디코더에서 사용되는 상수들의 정의에 대한 범례를 도시하는 도면;
도 8은 상응하는 디코딩된 시간 왜곡 값으로의 코드워드 인덱스의 맵핑에 대한 테이블 표현을 도시하는 도면;
도 9는 동일하게 이격된 왜곡 노드들 사이를 선형으로 보간하기 위한 알고리즘의 의사 프로그램 코드 표현을 도시하는 도면;
도 10a는 조력 함수 "warp_time_inv"의 의사 프로그램 코드 표현을 도시하는 도면;
도 10b는 조력 함수 "warp_inv_vec"의 의사 프로그램 코드 표현을 도시하는 도면;
도 11은 샘플 위치 벡터 및 전이 길이를 계산하기 위한 알고리즘의 의사 프로그램 코드 표현을 도시하는 도면;
도 12는 윈도우 시퀀스 및 코어 코더 프레임 길이에 따른 합성 윈도우 길이(N)의 값들에 대한 테이블 표현을 도시하는 도면;
도 13은 허용된 윈도우 시퀀스들의 매트릭스 표현을 도시하는 도면;
도 14는 타입(type) "EIGHT_SHORT_SEQUENC" 윈도우 시퀀스의 윈도윙 및 내부 중첩 가산을 위한 알고리즘의 의사 프로그램 코드 표현을 도시하는 도면;
도 15는 타입 "EIGHT_SHORT_SEQUENC"이 아닌 다른 윈도우 스퀀스들의 윈도윙과 내부 중첩 및 가산을 위한 알고리즘의 의사 프로그램 코드 표현을 도시하는 도면;
도 16은 재샘플링을 위한 알고리즘의 의사 프로그램 코드 표현을 도시하는 도면;이고
도 17a-17f는 본 발명의 일 실시예에 따른 오디오 스트림의 구문 요소들의 표현들을 도시하는 도면;이다.

1. 도 1에 따른 시간 왜곡 오디오 신호 인코더

도 1은 본 발명의 일 실시예에 따른 시간 왜곡 오디오 신호 인코더(100)의 블록 도식도를 도시한다.

오디오 신호 인코더(100)는 입력 오디오 신호(110)를 수신하고, 그에 기초하여, 입력 오디오 신호(110)의 인코딩된 표현(112)을 제공하기 위해 구성된다.

입력 오디오 신호(110)의 인코딩된 표현(112)은, 예를 들어, 인코딩된 스펙트럼 표현, (예를 들어, "tw_data"으로 가리켜질 수 있고, 예를 들어 코드워드들(tw_ratio[i])을 포함할 수 있는) 인코딩된 시간 왜곡 정보, 및 샘플링 주파수 정보를 포함한다.

오디오 신호 인코더는 선택적으로, 입력 오디오 신호(110)를 수신하며, 입력 오디오 신호를 분석하고, 시간 왜곡 윤곽 정보(122)를 제공하기 위해 구성될 수 있는 시간 왜곡 분석기(120)를 포함할 수 있어, 시간 왜곡 윤곽 정보(122)가, 예를 들어, 오디오 신호(110)의 피치의 시간적 전개를 기술한다. 그러나, 대안으로, 오디오 신호 인코더(100)는 오디오 신호 인코더의 외부에 있는 시간 왜곡 분석기에 의해 제공된 시간 왜곡 윤곽 정보를 수신할 수 있다.

오디오 신호 인코더(100)는 또한 시간 왜곡 윤곽 정보(122)를 수신하고, 그에 기초하여, 인코딩된 시간 왜곡 정보(132)를 제공하기 위해 구성되는 시간 왜곡 인코더(130)를 포함한다. 예를 들어, 시간 왜곡 윤곽 인코더(130)는 시간 왜곡 윤곽을 기술하는 시간 왜곡 값들을 수신할 수 있다. 시간 왜곡 값들은, 예를 들어, 정규화되거나 정규화되지 않은 시간 왜곡 윤곽의 절대 값들 또는 정규화되거나 정규화되지 않은 시간 왜곡 윤곽의 시간이 지남에 따른 상대적 변화들을 기술할 수 있다. 일반적으로 말해서, 시간 왜곡 윤곽 인코더(130)는 인코딩된 시간 왜곡 정보(132)에 시간 왜곡 윤곽(122)을 기술하는 시간 왜곡 값들을 맵핑하기 위해 구성된다.

시간 왜곡 윤곽 인코더(130)는 오디오 신호의 샘플링 주파수에 따라 인코딩된 시간 왜곡 정보(132)의 코드워드들에 시간 왜곡 윤곽을 기술하는 시간 왜곡 값들을 맵핑하기 위한 맵핑 규칙을 적응시키기 위해 구성된다. 이를 위해, 시간 왜곡 윤곽 인코더(130)는 그에 의해 상기 맵핑(134)을 적응시키기 위해 샘플링 주파수 정보를 수신할 수 있다.

오디오 신호 인코더(100)는 또한, 시간 왜곡 윤곽 정보(122)에 의해 기술된 시간 왜곡을 고려하여, 오디오 신호(110)의 스펙트럼의 인코딩된 표현(142)을 얻기 위해 구성되는 시간 왜곡 신호 인코더(140)를 포함한다.

결과적으로, 인코딩된 오디오 신호 표현(112)는, 예를 들어, 비트스트림 제공기를 이용하여 제공될 수 있어, 오디오 신호(110)의 인코딩된 표현(112)은 인코딩된 시간 왜곡 정보(132)의 코드워드들, 스펙트럼의 인코딩된 표현(142), 및 샘플링 주파수(예를 들어, 입력 오디오 신호(110)의 샘플링 주파수 및/도는 시간 도메인 대 주파수 도메인 변환의 맥락에서 시간 왜곡 신호 인코더(140)에 의해 사용된 (평균) 샘플링 주파수)를 기술하는 샘플링 주파수 정보(152)를 포함한다.

오디오 신호 인코더(100)의 기능에 관해, 오디오 프레임 내에서 그 피치가 변하는 오디오 신호의 스펙트럼은 시변 재샘플링에 의해 압축될 수 있다(여기서 오디오 샘플들의 면에서, 오디오 프레임의 길이는 시간 왜곡 신호 인코더에 의해 사용된 시간 도메인 대 주파수 도메인 변환의 변화 길이와 같을 수 있다). 그에 따라, 시간 왜곡 윤곽 정보(122)에 따라 시간 왜곡 신호 인코더(140)에 의해 수행될 수 있는 시변 재샘플링은 원래의 입력 오디오 신호(110)의 스펙트럼보다 더 좋은 비트레이트 효율로 인코딩될 수 있는 (재샘플링된 오디오 신호의) 스펙트럼을 야기한다.

그러나, 시간 왜곡 신호 인코더(140)에 적용되는 시간 왜곡은 인코딩된 시간 왜곡 정보를 이용하여 도 2에 따른 오디오 신호 디코더(200)로 신호된다. 또한, 코드워들로의 시간 왜곡 값의 맵핑를 포함할 수 있는 시간 왜곡 정보의 인코딩은 샘플링 주파수 정보에 따라 적응되어, 입력 오디오 신호(110)의 각각 다른 샘플링 주파수들 또는 시간 왜곡 신호 인코더(140, 또는 그것의 주파수 도메인 대 시간 도메인 변환)가 작동되는 각각 다른 샘플링 주파수들에 대해 코드워드들로의 시간 왜곡 값들의 각각 다른 맵핑이 사용된다.

그러므로, 시간 왜곡 신호 인코더(140)에 의해 다뤄질 수 있는 가능한 샘플링 주파수들 각각에 대해 가장 비트레이트 효율적인 맵핑이 선택될 수 있다. 만약 코드워드들로의 시간 왜곡 윤곽을 기술하는 시간 왜곡 값들의 맵핑이 현재의 주파수와 매치한다면 시간 왜곡 신호 인코더(140)에 의해 다수의 가능한 샘플링 주파수가 사용된 경우라도 인코딩된 시간 왜곡 정보의 비트레이트가 작게 유지될 수 있음이 확인됐기 때문에, 그러한 적응은 이치에 맞다. 그에 따라, 심지어 오디오 프레임당 코드워드들의 개수가 각각 다른 샘플링 주파수들에 걸쳐 변함없는 채로 있더라도, 비교적 작은 샘플링 주파수들 및 비교적 큰 샘플링 주파수들의 경우 모두에서, 충분히 좋은 해상도 및 또한 충분히 큰 동적 범위로 시간 왜곡 윤곽을 인코딩하는데 각각 다른 코드워드들의 작은 셋트가 충분할 것임이 보장될 수 있다(이는, 결국, 샘플링 주파수에 독립적인 비트스트림을 제공하고, 따라서 인코딩된 오디오 신호 표현(11)의 발생, 저장, 파싱, 및 즉시 처리(on-the-fly-processing)을 용이하게 한다).

맵핑(134)의 적응에 관한 더 상세한 사항들이 하기에서 논의될 것이다.

2. 도 2에 따른 시간 왜곡 오디오 신호 디코더

도 2는 본 발명의 일 실시예에 따른 시간 왜곡 오디오 신호 디코더(200)의 블록 도식도를 도시한다.

오디오 신호 디코더(200)는 인코딩된 오디오 신호 표현(210)에 기초하여 (예를 들어, 시간 도메인 오디오 신호 표현의 형태로) 디코딩된 오디오 신호 표현(212)을 제공하기 위해 구성된다. 인코딩된 오디오 신호 표현(210)은, 예를 들어, (시간 왜곡 오디오 신호 인코더(140)에 의해 제공된 인코딩된 스펙트럼 표현(142)와 동일할 수 있는) 인코딩된 스펙트럼 표현(214), (예를 들어, 시간 왜곡 윤곽 인코더(130)에 의해 제공된 인코딩된 시간 왜곡 정보(132)와 동일할 수 있는) 인코딩된 시간 왜곡 정보(216), 및 (예를 들어, 샘플링 주파수 정보(152)와 동일할 수 있는) 샘플링 주파수 정보(218)를 포함할 수 있다.

오디오 신호 디코더(200)는 시간 왜곡 디코더로도 여겨질 수 있는 시간 왜곡 계산기(230)를 더 포함한다. 시간 왜곡 계산기(230)는 디코딩된 시간 왜곡 정보(232)에 인코딩된 시간 왜곡 정보(216)를 맵핑하기 위해 구성된다. 인코딩된 시간 왜곡 정보(216)는, 예를 들어, 시간 왜곡 코드워드들 "tw_ratio[i]"을 포함할 수 있고, 디코딩된 시간 왜곡 정보는, 예를 들어, 시간 왜곡 윤곽을 기술하는 시간 왜곡 윤곽 정보의 형태를 취할 수 있다. 시간 왜곡 계산기(230)는 샘플링 주파수 정보(218)에 따라 디코딩된 시간 왜곡 정보를 기술하는 디코딩된 시간 왜곡 값들에 인코딩된 시간 왜곡 정보(216)의 (시간 왜곡) 코드워드들을 맵핑하기 위한 맵핑 규칙(234)를 적응시키기 위해 구성될 수 있다. 그에 따라, 샘플링 주파수 정보에 의해 신호된 각각 다른 샘플링 주파수들에 대해, 디코딩된 시간 왜곡 정보(232)의 시간 왜곡 값들로의 인코딩된 시간 왜곡 정보(216)의 코드워드들의 각각 다른 맵핑이 선택될 수 있다.

오디오 신호 디코더(200)는 스펙트럼의 인코딩된 표현(214)을 수신하여, 인코딩된 스펙트럼 표현(214)에 기초하고 디코딩된 시간 왜곡 정보(232)에 따라 디코딩된 오디오 신호 표현(212)을 제공하기 위해 구성되는 왜곡 디코더(240)를 포함한다.

그에 따라, 오디오 신호 디코더(200)는, 비교적 높은 샘플링 주파수 및 비교적 낮은 샘플링 주파수 모두에 대하여, 인코딩된 시간 왜곡 정보의 효율적인 디코딩을 가능하게 하는데, 디코딩된 시간 왜곡 값들로의 인코딩된 시간 왜곡 정보의 코드워드들의 맵핑이 샘플링 주파수에 의존하기 때문이다. 그러므로, 비교적 작은 샘플링 주파수들에 대해 시간 유닛당 충분히 큰 시간 왜곡들을 여전히 다루고, 비교적 작은 샘플링 주파수 및 비교적 큰 샘플링 주파수 모두에 대해 동일한 코드워드들의 셋트를 이용하면서, 비교적 높은 샘플링 주파수에 대한 시간 왜곡 윤곽의 높은 해상도를 얻는 것이 가능하다. 그러므로, 비트스트림 포맷은 실질적으로 샘플링 주파수로부터 독립적이고, 한편, 비교적 높은 샘플링 주파수 및 비교적 작은 샘플링 주파수의 경우 모두에서, 적당한 정확도와 동적 범위로 시간 왜곡을 기술하는 것이 여전히 가능하다.

맵핑(234)의 적응에 관한 더 상세한 사항들이 하기에서 기술된다. 또한, 왜곡 디코더(240)에 관한 더 상세한 사항들이 하기에서 기술된다.

3. 도 3a에 따른 시간 왜곡 오디오 신호 인코더

도 3a는 본 발명의 일 실시예에 따른 시간 왜곡 오디오 신호 인코더(300)의 블록 도식도를 도시한다.

도 3에 따른 오디오 신호 인코더(300)는 도 1에 따른 오디오 신호 인코더(100)와 유사하여, 동일한 신호들 및 소자들은 동일한 참조 번호들로 가리켜진다. 그러나, 도 3a는 시간 왜곡 신호 인코더(140)에 관한 좀더 세부적인 사항들을 도시한다.

본 발명이 시간 왜곡 오디오 인코딩 및 시간 왜곡 오디오 디코딩과 관련되므로, 시간 왜곡 오디오 신호 인코더(140)의 세부사항들에 대한 짧은 개관이 주어질 것이다. 시간 왜곡 오디오 신호 인코더(140)는 입력 오디오 신호(110)를 수신하여 프레임들의 시퀀스에 대한 입력 오디오 신호(110)의 인코딩된 스펙트럼 표현(142)을 제공하기 위해 구성된다. 시간 왜곡 오디오 신호 인코더(140)는 주파수 도메인 변환을 위한 기초로 사용되는 신호 블록들(샘플링된 표현들, 140d)을 도출하기 위해 입력 오디오 신호(110)를 샘플링 또는 재샘플링하기 위해 적응되는 샘플링 유닛 또는 재샘플링 유닛(140a)을 포함한다. 샘플링 유닛/재샘플링 유닛(140a)은 시간 왜곡 윤곽 정보(122)에 의해 기술된 시간 왜곡에 적응되고, 따라서, 만약 시간 왜곡(또는 피치 변동, 또는 기본 주파수 변동)이 0과 다르다면 시간에서 등거리가 아닌, 샘플링 위치들을 계산하기 위해 구성되는 샘플링 위치 계산기(140b)를 포함한다. 샘플링 유닛 또는 재샘플링 유닛(140a)은 또한 샘플링 위치 계산기에 의해 얻어진 시간적으로 등거리가 아닌 샘플 위치들을 이용하여 입력 오디오 신호(110)의 일부(예를 들어, 하나의 오디오 프레임)를 샘플링하거나 재샘플링하기 위해 구성되는 샘플러 또는 재샘플러(140c)를 포함한다.

시간 왜곡 오디오 신호 인코더(140)는 샘플링 유닛 또는 재샘플링 유닛(140a)에 의해 출력된 샘플링되거나 재샘플링된 표현들(140d)에 대한 스케일링 윈도우들을 도출하기 위해 적응되는 변환 윈도우 계산기(140e)를 더 포함한다. 스케일링 윈도우 정보(140f) 및 샘플링된/재샘플링된 표현(140d)은 샘플링 유닛/재샘플링 유닛(140a)에 의해 도출된 상응하는 샘플링된 또는 재샘플링된 표현들(140d)에 스케일링 윈도우 정보(140f)에 의해 기술된 스케일링 윈도우들을 적용시키기 위해 적응되는 윈도우어(140g)로 입력된다. 다른 실시예들에서, 시간 왜곡 오디오 신호 인코더(140)는, 입력 오디오 신호(110)의 샘플링되고 윈도윙된 표현(140h)의 (예를 들어, 변환 계수들 또는 스펙트럼 계수들의 형태로) 주파수 도메인 표현(140j)을 얻기 위해, 주파수 도메인 변환기(140i)를 추가로 포함할 수 있다. 주파수 도메인 표현(140j)은, 예를 들어, 후처리될 수 있다. 또한, 주파수 도메인 표현(140j), 또는 그것의 후처리된 버전은 입력 오디오 신호(110)의 인코딩된 스펙트럼 표현(142)을 얻기 위해 인코딩 140k를 이용하여 인코딩될 수 있다.

시간 왜곡 오디오 신호 인코더(140)는 또한 입력 오디오 신호(110)의 피치 윤곽을 이용하는데, 여기서 피치 윤곽은 시간 왜곡 윤곽 정보(122)에 의해 기술될 수 있다. 시간 왜곡 윤곽 정보(122)는 입력 정보로서 오디오 신호 인코더(300)에 제공될 수 있거나, 오디오 신호 인코더(300)에 의해 도출될 수 있다. 그러므로, 오디오 신호 인코더(300)는, 선택적으로, 시간 왜곡 윤곽 정보(122)가 피치 윤곽 정보가 되거나 피치 윤곽 또는 기본 주파수를 기술하도록, 시간 왜곡 윤곽 정보(122)를 도출하기 위한 피치 추정기로서 작동할 수 있는 시간 왜곡 분석기(120)를 포함할 수 있다.

샘플링 유닛/재샘플링 유닛(140a)은 입력 오디오 신호(110)의 연속 표현을 연산할 수 있다. 대안으로, 그러나, 샘플링 유닛/재샘플링 유닛(140a)은 입력 오디오 신호(110)의 이전에 샘플링된 표현을 연산할 수 있다. 전자의 경우에, 상기 유닛(140a_은 입력 오디오 신호를 샘플링할 수 있고(따라서 샘플링 유닛으로 여겨질 수 있고), 후자의 경우에, 상기 유닛(140a)은 입력 오디오 신호(110)의 이전에 샘플링된 표현을 재샘플링할 수 있다(그리고, 따라서 재샘플링 유닛으로 여겨질 수 있다). 샘플링 유닛(140a)은, 예를 들어, 샘플링 또는 재샘플링 이후에 입력 블록들의 각각에서 중첩 부분은 변함없는 피치 또는 감소된 피치 변동을 갖도록 이웃하는 중첩 오디오 블록들을 시간 왜곡을 적응시키킬 수 있다.

변형 윈도우 계산기(140e)는, 선택적으로, 샘플러(140a)에 의해 수행된 시간 왜곡에 따라 오디오 블록들(예를 들어, 오디오 프레임들)에 대한 스케일링 윈도우들을 도출할 수 있다. 이를 위해, 선택적 조정 블록(140l)은 샘플러에 의해 사용된 왜곡 규칙을 정의하기 위해 존재할 수 있는데, 그 다음에, 이는 변형 윈도우 계산기(140e)에 제공된다.

대안적인 실시예에서, 조정 블록(140l)은 생략될 수 있고, 시간 왜곡 윤곽 정보(22)에 의해 기술된 피치 윤곽은 그 자체로 적절한 계산들을 수행할 수 있는 변형 윈도우 계산기(140e)로 바로 제공될 수 있다. 또한, 샘플링 유닛/재샘플링 유닛(140a)은 적절한 스케일링 윈도우의 계산을 가능하게 하기 위해 변형 윈도우 계산기(140e)에 적용된 샘플링을 통신할 수 있다.

그러나, 몇몇 실시예들에서, 윈도윙은 시간 왜곡의 세부사항들로부터 실질적으로 독립적일 수 있다.

시간 왜곡은 상기 유닛(140a)에 의해 시간이 왜곡되고 샘플링된(또는 재샘플링된) 샘플링된(또는 재샘플링된) 오디오 블록(또는 오디오 프레임들)의 피치 윤곽이 원래의 입력 오디오 신호(110)의 피치 윤곽보다 더 변함없도록 샘플링 유닛/재샘플링 유닛(140a)에 의해 수행된다. 그에 따라, 피치 윤곽의 시간적 변동에 의해 야기되는 스펙트럼의 희미하게 지워짐이 상기 유닛(140a)에 의해 수행된 샘플링 또는 재샘플링에 의해 감소된다. 그러므로, 샘플링돼거나 재샘플링된 오디오 신호(140d)의 스펙트럼은 입력 오디오 신호(110)의 스펙트럼 보다 덜 희미하게 지워진다(그리고, 일반적으로 좀더 명확한 스펙트럼 피크들 및 스펙트럼 밸리들을 보여준다). 그에 따라, 동일한 정확도로 입력 오디오 신호(110)의 스펙트럼을 인코딩하기 위해 요구될 비트레이트와 비교할 때 더 적은 비트레이트를 이용하여 샘플링된(또는 재샘플링된) 오디오 신호(140d)의 스펙트러므ㅇㄹ 인코딩하는 것이 일반적으로 가능하다.

여기서 입력 오디오 신호(110)는 일반적으로 프레임 방식으로 처리된다는 것에 유의해야 하는데, 여기서 프레임들은 특정 요구에 따라 중첩되거나 중첩되지 않을 수 있다. 예를 들어, 입력 오디오 신호의 프레임들 각각은, 그렇게 하여, 시간 도메인 샘플들(140d)의 각각의 셋트들에 의해 기술된 샘플링된(또는 재샘플링된) 프레임들의 시퀀스를 얻기 위해, 상기 유닛(140a)에 의해 개별적으로 샘플링되거나 재샘플링 될 수 있다. 또한, 윈도윙(140g)에 의해, 시간 도메인 샘플들(140d)에 의해 표현된 샘플링된 또는 재샘플링된 프레임들에 개별적으로 윈도윙이 적용될 수 있다. 또한, 윈도윙되고 재샘플링된 시간 도메인 샘플들(140h)의 각각의 셋트들에 의해 기술된 윈도윙되고 재샘플링된 프레임들은 변환(140i)에 의해 주파수 도메인으로 변환될 수 있다. 그럼에도 불구하고, 개별 프레임들의 몇몇 (시간적) 중첩이 있을 수 있다.

또한, 오디오 신호(110)는 (샘플링 레이트로도 가리켜지는) 미리 결정된 샘플링 주파수로 샘플링 될 수 있음에 유의해야 한다. 샘플러도 또는 재샘플러(140c)에 의해 수행되는 재샘플링에서, 입력 오디오 신호(110)의 재샘플링 블록(또는 프레임)이 입력 오디오 신호(110)의 샘플링 주파수(또는 샘플링 레이트)와 동일한(또는, 예를 들어, 허용 오차 +/- 5%로 적어도 거의 동일한) 평균 샘플링 주파수(또는 샘플링 레이트)를 포함할 수 있도록 재샘플링이 수행될 수 있다. 그러나, 대안으로, 오디오 신호 인코더(300)는 각각 다른 샘플링 주파수들(또는 샘플링 레이트들)의 입력 오디오 신호들을 연산하기 위해 구성될 수 있다.

따라서, 시간 도메인 샘플들(140d)에 의해 표현되는, 재샘플링된 블록들 또는 프레임들의 평균 샘플링 주파수(또는 샘플링 레이트)는 일부 실시 예들에서 입력 오디오 신호(110)의 샘플링 주파수 또는 샘플링 레이트에 따라 변경될 수 있다.

그러나, 본질적으로 또한 시간 도메인 샘플들(140d)에 의해 표현되는, 샘플링되거나 또는 재샘플링된 오디오 신호의 블록들 또는 프레임들의 평균 샘플링 주파수 또는 샘플링 레이트가 입력 오디오 신호(110)의 샘플링 레이트와 다르다는 사실이 또한 가능한데, 그 이유는 작업자의 바람 또는 요구사항에 따른, 샘플링 레이트 변환 및 시간 왜곡 모두 실행할 수 있기 때문이다.

결론적으로, 시간 도메인 샘플들(140d)에 의해 표현되는, 샘플링되거나 또는 재샘플링된 오디오 신호의 블록들 또는 프레임들은 평균 샘플링 주파수 또는 샘플링 레이트의 평균 샘플링 주파수 또는 샘플링 레이트 및/또는 작업자의 바람에 따라, 서로 다른 샘플링 주파수들 또는 샘플링 레이트들에서 제공될 수 있다.

그러나, 일부 실시 예들에서, 시간 도메인 샘플들(140d)에 의해 표현되는, 샘플링되거나 또는 재샘플링된 오디오 신호의 블록들 또는 프레임들의 길이는 오디오 샘플들에 관하여, 심지어 서로 다른 평균 샘플링 주파수들 또는 샘플링 레이트를 위하여 일정할 수 있다. 그러나, 두 개의 가능한 길이(블록 또는 프레임 당 오디오 샘플들에 관하여)의 스위칭이 일부 실시 예들에서 일어날 수 있는데, 첫 번째(짧은 블록) 모드에서의 블록 길이 또는 프레임 길이는 평균 샘플링 주파수는 관계없을 수 있으며, 두 번째(긴 블록) 모드에서의 블록 길이 또는 프레임 길이도 또한 평균 샘플링 주파수 또는 샘플링 레이트와 관계없을 수 있다.

따라서, 윈도우어(140g)에 의해 실행되는 윈도우잉, 변환기(140i)에 의해 실행되는 변환은 실질적으로 샘플링되거나 또는 재샘플링된 오디오 신호(140d)의 평균 샘플링 주파수 또는 샘플링 레이트와 관계없을 수 있다(평균 샘를링 주파수 또는 샘플링 레이트와 관계없이 발생할 수 있는, 짧은 블록 모드 및 긴 블록 모드 사이의 가능한 스위칭을 제외하고)

결론적으로, 시간 왜곡 신호 인코더(140)는 입력 오디오 신호(110)를 효과적으로 인코딩하도록 허용하는데 그 이유는 샘플러(140a)에 의해 실행되는 샘플링 또는 재샘플링이 결과적으로 입력 신호(110)의 샘플링되거나/재샘플링되고 윈도우잉된 버전(140h)을 기초로 하여 변환기(140i)에 의해 제공되는 스펙트럼 계수(140j)의 비트레이트-효율적 인코딩(인코더(140k)에 의해)을 허용하는, 시간적 피치 변동을 포함하기 때문이다.

시간 왜곡 윤곽 인코더(130)에 의해 샘플링-주파수 의존 방식으로 실행되는, 시간-왜곡된 윤곽 인코딩은 인코딩된 스펙트럼 표현(142) 및 인코딩된 시간 왜곡 정보(132)를 포함하는 비트스트림이 비트레이트 효율적인 것인 것과 같이, 샘플링되거나/재샘플링된 오디오 신호(140d)의 서로 다른 샘플링 주파수들(또는 평균 샘플링 주파수들)을 위한 시간 왜곡 윤곽 정보(122)의 비트레이트 효율적 인코딩을 허용한다.

4, 도 3b에 따른 시간 왜곡 오디오 신호 디코더

도 3은 본 발명의 실시 예에 따른 오디오 신호 디코더(350)의 블록 다이어그램을 도시한다.

오디오 신호 디코더(3540)는 동일한 신호들 및 장치들이 동일한 참조 번호들로 지정되는 것과 같은, 도 2에 따른 오디오 신호 디코더(200)와 유사하며, 여기서 다시 설명되지 않을 것이다.

오디오 신호 디코더(350)는 첫 번째 시간 왜곡되고 샘플링된 오디오 프레임의 인코딩된 스펙트럼 표현을 수신하고 또한 두 번째 시간 왜곡되고 샘플링된 오디오 프레임의 인코딩된 스펙트럼 표현을 수신하도록 구성된다. 일반적으로, 오디오 신호 인코더(350)는 시간-왜곡-재샘플링된 오디오 프레임들의 인코딩된 스펙트럼 표현들의 시퀀스를 수신하도록 구성되는데, 상기 인코딩된 스펙트럼 표현들은, 예를 들면, 오디오 신호 인코더(300)의 시간 왜곡 신호 인코더(140)에 의해 제공될 수 있다. 게다가, 오디오 신호 디코더(350)는 예를 들면, 인코딩된 시간 왜곡 정보(216) 및 샘플링 주파수 정보(218)와 같은, 보조 정보를 수신한다.

왜곡 디코더(240)는 이러한 스펙트럼의 인코딩된 표현(214)을 디코딩하고 스펙트럼의 디코딩된 표현(240b)을 제공하기 위하여, 스펙트럼의 인코딩된 표현(214)을 수신하도록 구성되는 디코더(240a)를 포함할 수 있다. 왜곡 디코더(240)는 또한 스펙트럼의 디코딩된 표현(240b)을 수신하도록 구성되고 상기 스펙트럼의 디코딩된 표현(240b)을 기초로 하여 역변환을 실행하도록 구성되며, 그렇게 함으로써 인코딩된 스펙트럼 표현(214)에 의해 설명되는 시간-왜곡-샘플링된 오디오 신호의 블록 또는 프레임의 시간 도메인 표현(240d)을 획득하도록 구성되는, 역변환기(240c)를 포함한다. 왜곡 디코더(240)는 또한 윈도우잉을 블록 또는 프레임의 시간 도메인 표현(240d)에 적용하도록 구성되고, 그렇게 함으로써 블록 또는 프레임의 윈도우잉된 시간 도메인 표현(240f)을 획득하도록 구성되는 윈도우어(240e)를 포함한다. 왜곡 디코더(240)는 또한 윈도우잉된 시간 도메인 표현(240f)이 샘플링 위치 정보(240h)에 따라 재샘플링되고, 그렇게 함으로써 블록 또는 프레임을 위한 윈도우잉되고 재샘플링된 시간 도메인 표현(240i)을 획득하기 위하여, 재샘플링(240g)을 포함한다. 왜곡 디코더(240)는 또한 윈도우잉되고 재샘플링된 시간 도메인 표현의 뒤따르는 블록들 또는 프레임들을 중첩-가산하고, 그렇게 함으로써 중첩-가산 작용의 결과로 디코딩된 오디오 신호 표현(212)을 획득하도록 구성되는, 중첩 가산기(240j)를 포함한다.

왜곡 디코더(240)는 시간 왜곡 계산기(230, 또는 시간 왜곡 디코더)로부터 디코딩된 시간 왜곡 정보(232)를 수신하고 이를 기초로 하여 샘플링 위치 정보(240h)를 제공하도록 구성되는, 샘플링 위치 계산기(240k)를 포함한다. 따라서, 디코딩된 시간 왜곡 정보(232)는 재샘플러(240g)에 의해 실행되는, 시변(time-varying)-재샘플링을 설명한다.

선택적으로, 왜곡 디코더(240)는 요구사항에 의존하여 윈도우어(240e)에 의해 사용되는 윈도우의 형상을 조절하도록 구성될 수 있는, 윈도우 형상 조절기(window shape adjuster, 2401)를 포함할 수 있다. 예를 들면, 윈도우 형상 조절기(2401)는 선택적으로, 디코딩된 시간 왜곡 정보(232)를 수신할 수 있다. 대안으로서, 또는 부가적으로, 윈도우 형상 조절기(2401)는 만일 왜곡 디코어가 그러한 긴 블록 모드 및 짧은 블록 모드 사이에서 전환할 수 있으면, 긴 블록 모드가 사용되는지 또는 짧은 블록 모드가 사용되는지를 나타내는 정보에 의존하여 윈도우어(240e)에 의해 사용되는 윈도우 형상을 조절하도록 구성될 수 있다. 대안으로서, 또는 부가적으로, 윈도우 형상 조절기(2401)는 만일 왜곡 디코더(240)에 의해 서로 다른 형태들이 사용되면 윈도우 시퀀스 정보에 의존하여 윈도우어(240e)에 의한 사용을 위하여 적절한 윈도우 형상을 선택하도록 구성될 수 있다. 그러나, 윈도우 형상 조절기(2401)에 의해 실행되는, 윈도우 형상 조절은 선택적으로 고려되어야 하며 본 발명과는 특별히 관련되지 않는다는 것을 이해하여야 한다.

게다가, 왜곡 디코더(240)는 선택적으로, 샘플링 주파수 정보(218)에 의존하여 윈도우 형상 조절기(2401) 및/또는 샘플링 위치 계산기(240k)를 제어하도록 구성될 수 있는, 샘플링 레이트 조절기(240m)를 포함할 수 있다. 그러나, 샘플링 레이트 조절기(240m)는 선택적으로 고려될 수 있으며 본 발명과 특별히 관련되지는 않는다.

왜곡 디코더(240)의 기능성과 관련하여, 예를 들면, 복수의 오디오 프레임 각각(또는 일부 오디오 프레임들을 위한 복수의 스펙트럼 계수 세트)을 위한 일련의 변환 계수(또한 스펙트럼 계수로서 지정되는)를 포함할 수 있는, 스펙트럼의 인코딩된 표현(214)이 디코딩된 스펙트럼(240b)이 획득되는 것과 같이, 디코더(240a)를 사용하여 먼저 디코딩되는 것으로 언급될 수 있다. 인코딩된 오디오 신호의 블록 또는 프레임의 디코딩된 스펙트럼 표현(240b)은 오디오 콘텐츠의 상기 블록 또는 프레임의 시간 도메인 표현(예를 들면, 미리 결정된 수의 오디오 프레임 당 시간 도메인 샘플들)으로 변환된다. 일반적으로, 디코딩된 표현(240b)은 뚜렷한 피크들 및 밸리들을 포함하나, 반드시 필요하지는 않은데, 그 이유는 그러한 스펙트럼이 효율적으로 인코딩되기 때문이다. 결론적으로, 시간 도메인 표현(240d)은 단일 블록 또는 프레임(뚜렷한 피크들 및 밸리들을 갖는 스펙트럼과 상응하는) 동안에 상대적으로 적은 피치 변동을 포함한다.

윈도우잉(260e)은 중첩 가산 작용을 허용하기 위하여 오디오 신호의 시간 도메인 표현(240d)에 적용된다. 그 뒤에, 윈도우잉된 시간 도메인 표현(240f)은 시변 방식으로 재샘플링되는데, 재샘플링은 인코딩된 형태로 인코딩된 오디오 신호 표현(210) 내에 포함되는, 시간 왜곡 정보에 따라 실행된다. 따라서, 재샘플링된 오디오 신호 표현(240i)은 일반적으로 인코딩된 시간 왜곡 정보가 시간 왜곡, 또는 동등하게 피치 변동을 설명하면, 윈도우잉된 시간 도메인 표현(240f)보다 상당히 큰 피치 변동을 포함한다. 따라서, 단일 오디오 프레임에 대하여 중요한 피치 변동을 포함하는 오디오 신호는 비록 역변환기(204c)의 출력 신호(240d)가 단일 오디오 프레임에 대하여 상당히 작은 피치 변동을 포함하여도, 재샘플러(240g)의 출력에서 제공될 수 있다.

그러나, 왜곡 디코더(240)는 서로 다른 샘플링 주파수들을 사용하여 제공되는, 인코딩된 스펙트럼 표현들을 처리하고, 서로 다른 샘플링 주파수들을 갖는 디코딩된 오디오 신호 표현(212)을 제공하도록 구성될 수 있다. 그러나, 대안으로서, 왜곡 디코더(240)는 오디오 블록이 상대적으로 적은 수의 샘플들(예를 들면, 256 샘플)을 포함하는, 짧은 블록 모드 및 오디오 블록이 상대적으로 많은 수의 샘플들(예를 들면, 2048 샘플)을 포함하는, 긴 블록 모드 사이에서 변환될 수 있다. 이러한 경우에 있어서, 짧은 블록 모드에서의 오디오 블록 당 샘플의 수는 서로 다른 샘플링 주파수를 위하여 동일하고, 긴 블록 모드에서의 오디오 블록 당 샘플의 수는 서로 다른 샘플링 주파수를 위하여 동일하다. 또한, 오디오 프레임 당 시간 랩 코드워드의 수는 일반적으로 서로 다른 샘플링 주파수를 위하여 동일하다. 따라서, 실질적으로 샘플링 주파수와 독자적인(적어도 오디오 프레임 당 인코딩된 시간 도메인 샘플의 수 및 오디오 프레임 당 시간 왜곡 코드워드의 수와 관련하여), 균일한 비트스트림 포맷이 달성될 수 있다.

그러나, 시간 왜곡 정보의 비트레이트 효율적 인코딩 및 시간 왜곡 정보의 충분한 해상도 모두를 갖기 위하여, 시간 왜곡 정보의 인코딩이 인코딩된 오디오 신호 표현(210)을 제공하는, 오디오 신호 인코더(300)의 측면에서 샘플링 주파수에 적용된다. 결론적으로, 시간 왜곡 코드워드들을 디코딩된 시간 왜곡 값들에 맵핑하는, 인코딩된 시간 왜곡 정보(216)의 디코딩은 샘플링 주파수에 적용된다. 시간 왜곡 정보의 디코딩의 이러한 적용과 관련된 상세한 설명은 그 뒤에 설명될 것이다.

5. 시간 왜곡 인코딩 및 디코딩의 적용

5.1. 개념의 개관

다음에서, 인코딩되려는 오디오 신호 또는 디코딩되려는 오디오 신호의 샘플링 주파수에 의존하는 시간 왜곡 인코딩 및 디코딩에 관하여 상세히 설명될 것이다. 바꾸어 말하면, 피치 변동 양자화에 의존하는 샘플링 주파수가 설명될 것이다. 이해하기 쉽게 하기 위하여 먼저 일부 종래 개념들이 설명될 것이다.

시간 왜곡을 사용하는 종래의 오디오 인코더들 및 오디오 디코더들에 있어서, 피치 변동 또는 왜곡을 위한 양자화 테이블은 모든 샘플링 주파수들을 위하여 고정된다. 예로서, 통합 음성-오디오 인코딩(Unified-Speech-and-Audio-Coding, "WD6 of USAC", ISO/IEC JTC1/SC29/WG11 N11213, 2010)의 작업 초안 6(Working Draft 6)이 참조된다. 샘플들에서의 업데이트 거리(예를 들면, 오디오 샘플들과 관련하여, 시간 왜곡 값이 오디오 인코더로부터 오디오 디코더로 전송되기 위한 시간 인스턴스(time instance)의 거리)가 또한 고정되기 때문에(종래의 시간 왜곡 오디오 인코더들/오디오 디코더들 및 본 발명에 따른 시간 왜곡 오디오 인코더들/오디오 디코더들에 모두), 낮은 비트레이트에서의 그러한 코딩 방식의 적용은 커버링될 수 있는, 더 적은 범위의 실제 피치 변화(예를 들면, 유닛 시간 당 피치 변화와 관련하여)에 이르게 한다. 음성의 기본 주파수에서의 일반적인 최대 변화는 약 15 oct/s(초당 옥타브) 이하이다.

도 4c의 테이블은 오디오 코딩에 사용되는 특정 샘플링 주파수를 위하여, 참고문헌 [3]에 설명된 코딩 방식은 원하는 피치 변화 범위를 맵핑할 수 없고 따라서 부차 선택적 코딩 이득에 이르게 한다는 사실을 도시한다. 이러한 효과를 나타내기 위하여, 도 4c의 테이블은 참고문헌 [3]에 설명된 왜곡 오디오 디코더에서 사용되는 테이블을 위하여 서로 다른 샘플링 주파수들을 위한 왜곡들을 도시한다. 그러한 랩 값들을 획득하기 위한 공식은 다음과 같다:

, (1)

위의 공식에서 w는 왜곡을 지정하고, p_rel은 상대 피지 변화 인자를 지정하고, f_s는 샘플링 주파수를 지정하고, n_p는 하나의 프레임 내의 피치 노드(pitch node)의 수를 지정하고 n_f는 샘플들의 프레임 길이를 지정한다.

따라서, 도 4c의 테이블은 참고문헌 [3]에 설명된 오디오 디코더에서 사용되는 양자화 방식의 왜곡들을 도시하는데, 이때 n_f=1024이고 n_p=16이다.

본 발명에 따라, 왜곡 값 인덱스(시간 왜곡 코드워드로서 고려될 수 있는)의 샘플링 주파수에 의존하는 상응하는 시간 왜곡 값(p_rel)으로의 맵핑을 적용하는 것이 바람직하다는 것이 알려졌다. 바꾸어 말하면, 위에서 언급된 문제점들의 해결은 커버링된 피치 변화 또는 oct/s에서의 왜곡의 절대 범위는 모든 샘플링 주파수들을 위하여 동일한 것과 같은 방법으로 서로 다른 샘플링 주파수들을 위하여 독특한 양자화 테이블들을 디자인하는 것이라는 사실이 알려졌다. 이는 예를 들면, 각각 좁은 범위의 이웃 샘플링 주파수들을 위하여 사용되는, 일부 명백한 양자화 테이블의 제공 또는 사용된 샘플링 주파수들을 위하여 플라이(fly) 상의 양자화 테이블의 계산에 의해 행해질 수 있다는 사실이 알려졌다.

본 발명의 실시 예에 따라, 이는 위의 공식을 다음과 같이 변환함으로써 왜곡 값들의 테이블 및 상대 피치 변화 인자를 위한 양자화 테이블의 제공에 의해 행해질 수 있다:

(2)

위의 공식에서 p_rel은 상대 피지 변화 인자를 지정하고, n_f는 샘플들의 프레임 길이를 지정하고, w는 왜곡을 지정하고, f_s는 샘플링 주파수를 지정하고, n_p는 하나의 프레임 내의 피치 노드의 수를 지정한다. 상기 공식의 사용하여, 도 4d의 테이블에 도시된 상대 피치 변화 인자(p_rel)가 획득될 수 있다.

도 4d를 참조하면, 제 1 칼럼(480)은 인덱스를 지정하는데, 상기 인덱스는 시간 왜곡 코드워드로서 고려될 수 있으며, 인코딩된 오디오 신호 표현(210)을 나타내는 비트스트림 내에 포함될 수 있다. 제 2 칼럼(482)은 제 1 칼럼 및 각각의 열에 나타낸 인덱스와 관련된 n_p 상대 피치 변화 인자들(p_rel)에 의해 표현될 수 있는, 최대 표현가능 시간 왜곡(oct/s에 대하여)을 설명한다. 제 3 칼럼(484)은 24000 ㎐의 샘플링 주파수를 위한 각각의 열의 제 1 칼럼(480)에 주어진 인덱스와 관련된 상대 피치 변화 인자를 설명한다. 제 4 칼럼(486)은 12000 ㎐의 샘플링 주파수를 위한 각각의 열의 제 1 칼럼(480)에 주어진 인덱스와 관련된 상대 피치 변화 인자를 설명한다. 도시된 것과 같이, 인덱스 0, 1 및 2는 피치의 "음성" 변화를 위한 (즉, 피치의 감소를 위한) 상대 피치 변화 인자(p_rel)와 상응하고, 인덱스 값 3은 상수 피치를 나타내는, 1의 상대 피치 변화 인자(p_rel)와 상응하며, 인덱스 4, 5, 6 및 7은 "양성" 시간 왜곡, 즉, 피치의 증가를 설명하는 상대 피치 변화 인자(p_rel)와 관련된다.

그러나, 상대 피치 변화 인자들을 획득하기 위하여 서로 다른 개념들이 존재한다는 것이 알려졌다. 상대 피치 변화 인자들을 획득하기 위한 다른 한 가지 방법은 상대 피치 변화 인자 및 상응하는 참조 샘플링 레이트를 위한 양자화 값들의 테이블을 디자인하는 것이다. 주어진 샘플링 주파수를 위한 실제 양자화 테이블은 그때 간단히 다음의 공식을 사용하여 디자인된 테이블로부터 유래될 수 있다:

(3)

p_rel은 현재 샘플링 주파수(f_s)를 위한 상대 피치 변화 인자를 설명한다. 게다가, p_rel _, _ref는 참조 샘플링 주파수(f_s _, _ref)를 위한 상대 피치 변화 인자를 설명한다. 서로 다른 인덱스들과 관련된 일련의 참조 피치 변화 인자들은 테이블에 저장될 수 있는데, 참조(상대) 피치 변화 인자들과 상응하는, 참조 샘플링 주파수(f_s _, _ref)가 알려진다.

후자의 공식이 위의 공식에 의해 획득되는 결과에 합리적인 근사치를 제공하고 계산적으로 덜 복잡하다는 것이 알려졌다.

도 4e는 참조 상대 피치 변화 인자들(p_rel _, _ref)로부터 획득되는, 상대 피치 변화 인자들(p_rel)의 테이블 표현을 도시하는데, 테이블은 상대 샘플링 주파수(f_s _, _ref)=24000 ㎐를 위하여 유지한다.

제 1 칼럼(490)은 시간 왜곡 코드워드로서 고려될 수 있는, 인덱스를 설명한다. 제 2 칼럼(492)은 각각의 열 내의 제 1 칼럼(490)에 도시된 인덱스들(코드워드들)과 관련된 (상대) 피치 변화 인자들(p_rel _, _ref)을 설명한다. 제 3 칼럼(494) 및 제 4 칼럼(496)은 24000 ㎐(제 3 칼럼(494)) 및 12000 ㎐(제 4 칼럼(496))의 샘플링 주파수(f_s)를 위한 제 1 칼럼(490)의 인덱스들과 관련된 (상대) 피치 변화 인자들을 설명한다. 도시된 것과 같이, 제 3 칼럼(494)에 나타낸, 24000 ㎐의 샘플링 주파수(f_s)를 위한 상대 피치 변화 인자들(p_rel)은 제 2 칼럼(492)에 나타낸 참조 상대 피치 변화 인자들과 동일한데, 그 이유는 24000 ㎐의 샘플링 주파수(f_s)가 참조 샘플링 주파수(f_s _, _ref)와 동일하기 때문이다. 그러나, 제 4 칼럼(496)은 위의 공식 (3)에 따라 제 2 칼럼(492)의 참조 상대 피치 변화 인자들로부터 유래하는, 12000 ㎐의 샘플링 주파수(f_s)에서의 상대 피치 변화 인자들(p_rel)을 나타낸다.

물론, 그러한 정상화 과정들은 위에서 설명된 것과 같이, 주파수 또는 피치내의 변화의 어떠한 다른 표현에도 예를 들면, 또한 그것들의 상대 변화가 아닌 절대 피치 또는 주파수 값들의 코딩 방식에도 쉽게 적용될 수 있다.

5.2 도 4a에 따른 구현

도 4a는 본 발명에 따른 실시 예들에서 사용될 수 있는, 적응성 맵핑(adaptive mapping, 400)의 블록 다이어그램을 도시한다.

예를 들면, 적응성 맵핑(400)은 오디오 신호 디코더(200) 내의 맵핑(234) 또는 오디오 신호 디코더(350) 내의 맵핑(234)을 대신할 수 있다.

적응성 맵핑(400)은 예를 들면, 이른바 시간 왜곡 코드워드들 "tw_ratio[i]"를 포함하는 "tw_data" 정보와 같은 인코딩된 시간 왜곡 정보를 수신하도록 구성된다. 따라서, 적응성 맵핑(400)은 디코딩된 시간 왜곡 값들, 예를 들면, 때때로 값들 "warp_value_tbl[tw_ratio]"로서 지정되고, 또한 때대로 상대 피치 변화 인자들(p_rel)로서 지정되는, 디코딩된 비율 값들을 제공할 수 있다. 적응성 맵핑(400)은 또한 예를 들면, 역변환기(230c)에 의해 제공되는 시간 도메인 표현(240d)의 샘플링 주파수(f_s)를 설명하는 샘플링 주파수 정보, 또는 윈도우잉되고 재셈플링(240g)에 의해 제공되는 재샘플링된 시간 도메인 표현(240i)의 평균 샘플링 주파수, 또는 디코딩된 오디오 신호 표현(212)의 샘플링 주파수를 수신한다.

적응성 맵핑은 인코딩된 시간 왜곡 정보의 시간 왜곡 코드워드의 함수로서 디코딩된 시간 왜곡 값을 제공하는, 매퍼(mapper, 420)를 포함한다. 맵핑 규칙 선택기(mapping rule selector, 430)는 샘플링 주파수 정보(406)에 의존하는 매퍼(420)에 의한 사용을 위하여 복수의 맵핑 테이블(432, 434) 외에, 맵핑 규칙을 선택한다. 예를 들면, 맵핑 테이블 선택기(430)는 만일 현재 샘플링 주파수가 24000 ㎐와 동일하거나, 또는 만일 현재 샘플링 주파수가 24000 ㎐의 미리 결정된 환경 내에 존재하면 도 4d의 제 1 칼럼(480) 및 도 4d의 제 3 칼럼(484)에 의해 정의되는 맵핑을 표현하는, 맵핑 규칙을 선택한다. 이와 대조적으로, 맵핑 테이블 선택기(430)는 만일 샘플링 주파수(f_s)가 12000 ㎐와 동일하거나, 또는 만일 샘플링 주파수(f_s)가 12000 ㎐의 미리 결정된 환경 내에 존재하면 도 4d의 제 1 칼럼(480) 및 도 4d의 제 4 칼럼(486)에 의해 정의되는 맵핑을 표현하는, 맵핑 규칙을 선택할 수 있다.

따라서, 시간 왜곡 코드워드(또한 "인덱스"로서 지정되는) 0-7은 만일 샘플링 주파수가 24000 ㎐와 동일하면 도 4d의 테이블의 제 3 칼럼(484)에 나타낸 각각의 디코딩된 시간 왜곡 값들(또는 상대 피치 변화 인자들)에 맵핑되고, 만일 샘플링 주파수가 12000 ㎐와 동일하면 도 4d의 테이블의 제 4 칼럼(486)에 나타낸 각각의 디코딩된 시간 왜곡 값들(또는 상대 피치 변화 인자들) 상에 맵핑된다.

요약하면, 서로 다른 맵핑 테이블들이 샘플링 주파수에 의존하는 맵핑 테이블 선택기(430)에 의해 선택될 수 있으며, 그렇게 함으로써, 시간 왜곡 코드워드(예를 들면, 디코딩된 오디오 신호를 표현하는 비트스트림 내에 포함된 값 "인덱스")를 디코딩된 시간 왜곡 값(예를 들면, 상대 피치 변화 인자(p_rel), 또는 시간 왜곡 값 "warp_value_tbl") 상에 맵핑한다.

5.3. 도 4b에 따른 구현

도 4b는 본 발명에 따른 실시 예들에서 사용될 수 있는, 적응성 맵핑(450)의 블록 다이어그램을 도시한다. 예를 들면, 적응성 맵핑(450)은 오디오 신호 디코더(200) 내의 맵핑(234) 또는 오디오 신호 디코더(350) 내의 맵핑(234)을 대신할 수 있다. 적응성 맵핑(450)은 인코딩된 시간 왜곡 정보를 수신하도록 구성되는데, 적응성 맵핑(400)에 대한 위의 설명들을 유지한다.

무엇보다도, 적응성 맵핑(450)은 디코딩된 시간 왜곡 값들을 제공하도록 구성되는데, 적응성 맵핑(400)에 대한 위의 설명들을 또한 유지한다.

적응성 맵핑(450)은 인코딩된 시간 왜곡의 코드워드를 수신하고 디코딩된 시간 왜곡 값을 제공하도록 구성되는, 매퍼(mapper, 470)를 포함한다. 적응성 맵핑(450)은 또한 맵핑 값 컴퓨터 또는 맵핑 테이블 컴퓨터(480)를 포함한다.

맵핑 값 컴퓨터의 경우에, 디코딩된 시간 왜곡 값은 위의 공식 (3)에 다라 계산된다. 이러한 목적을 위하여, 맵핑 값 컴퓨터는 참조 맵핑 테이블(482)을 포함할 수 있다. 참조 맵핑 테이블(482)은 예를 들면, 도 4e의 테이블의 제 1 칼럼(490) 및 제 2 칼럼(492)에 의해 정의되는 맵핑 정보를 설명한다. 따라서, 맵핑 값 컴퓨터(480) 및 매퍼(470)는 참조 맵핑 테이블을 기초로 하여 주어진 시간 왜곡 코드워드를 위하여 상응하는 참조 상대 피치 변화 인자가 선택되고, 상기 주어진 시간 왜곡 코드워드에 상응하는 상대 피치 변화 인자(p_rel)가 현재 샘플링 주파수(f_s)에 관한 정보를 사용하여 계산되고 디코딩된 시간 왜곡 값으로 돌아오는 것과 같이 협력할 수 있다. 이러한 경우에, 각각의 시간 왜곡 코드워드를 위한 디코딩된 시간 왜곡 값(상대 피치 변화 인자)을 희생하여 현재 샘플링 주파수(f_s)에 적용된 맵핑 테이블의 모든 엔트리를 저장하는 것이 반드시 필요하지는 않다.

그러나, 대안으로서, 맵핑 테이블 컴퓨터(480)는 매퍼(470)에 의한 사용을 위하여 현재 샘플링 주파수(f_s)에 적용된 맵핑 테이블을 미리 계산할 수 있다. 예를 들면, 맵핑 테이블 컴퓨터는 12000 ㎐의 현재 샘플링 주파수(f_s)가 선택되는 사실에 대응하여 도 4e의 제 4 칼럼(496)의 엔트리를 계산하도록 구성될 수 있다. 12000 12000 ㎐의 샘플링 주파수(f_s)를 위한 상기 상대 피치 변화 인자(p_rel)의 계산은 참조 맵핑 테이블(예를 들면, 도 4e의 테이블의 제 1 칼럼(490) 및 제 2 칼럼(492)에 의해 정의되는 맵핑)을 기초로 할 수 있으며, 공식 (3)을 사용하여 실행될 수 있다.

따라서, 시간 왜곡 코드워드를 디코딩된 시간 왜곡 값 상으로 맵핑하기 위하여 상기 미리 계산된 맵핑 테이블이 사용될 수 있다. 게다가, 미리 계산된 맵핑 테이블은 재샘플링 레이트가 변화될 때마다 업데이트될 수 있다.

요약하면, 시간 왜곡 코드워드들의 디코딩된 시간 왜곡 값들 상으로의 맵핑을 위한 맵핑 규칙은 참조 맵핑 테이블(4820을 기초로 하여 평가되거나 또는 계산되며, 현재 샘플링 주파수에 적용된 맵핑 테이블의 미리 계산 또는 디코딩된 시간 왜곡 값의 즉시 계산이 실행될 수 있다.

6. 시간 왜곡 제어 정보의 계산의 상세한 설명

다음에서, 시간 왜곡 윤곽 진화 정보를 기초로 하여 시간 왜곡 제어 정보의 계산에 관하여 상세히 설명될 것이다.

6.1. 도 5a 및 5b에 따른 장치

도 5a 및 5b는 디코딩된 시간 왜곡 정보일 수 있으며, 예를 들면, 시간 왜곡 계산기(230)의 맵핑(234)에 의해 제공되는 디코딩된 시간 왜곡 값들을 포함할 수 있는, 시간 왜곡 윤곽 진화 정보(510)를 기초로 하여 시간 왜곡 제어 정보(512)를 제공하기 위한 장치(500)의 플로 다이어그램을 도시한다. 장치(500)는 시간 왜곡 윤곽 진화 정보(512)를 기초로 하여 복원된 시간 왜곡 윤곽 정보(522)를 제공하기 위한 수단(520) 및 복원된 시간 왜곡 윤곽 정보(522)를 기초로 하여 시간 왜곡 제어 정보(512)를 제공하기 위한 시간 왜곡 제어 정보 계산기(530)를 포함한다.

다음에서 수단(520)의 구조 및 기능성이 제공될 것이다.

수단(520)은 시간 왜곡 윤곽 진화 정보(510)를 수신하고 이를 기초로 하여, 새로운 시간 왜곡 윤곽 부 정보(542)를 제공하기 위하여 시간 왜곡 윤곽 계산기(540)를 포함한다. 예를 들면, 일련의 시간 왜곡 윤곽 진화 정보(예를 들면, 맵핑(234)에 의해 제공되는 일련의 미리 결정된 수의 디코딩된 시간 왜곡 값들)는 복원되려는 오디오 신호의 각각의 프레임을 위하여 장치(500)에 전송될 수 있다. 그럼에도 불구하고, 복원되려는 오디오 신호의 프레임과 관련된 시간 왜곡 윤곽 진화 정보(510)의 세트는 일부 경우에 오디오 신호의 복수의 프레임의 복원을 위하여 사용될 수 있다. 유사하게, 복수의 시간 왜곡 윤곽 진화 정보의 세트가 다음에 자세히 설명될 것과 같이, 오디오 신호의 단일 프레임의 오디오 콘텐츠의 복원을 위하여 사용될 수 있다. 결론적으로, 일부 실시 예들에서, 시간 왜곡 윤곽 진화 정보는 복원되려는 오디오 신호의 변환-도메인 계수의 세트들이 업데이트되는 것과 동일한 비율로(오디오 신호의 프레임 당 1 세트의 시간 왜곡 윤곽 진화 정보(510), 및/또는 오디오 신호의 프레임 당 하나의 시간 왜곡 윤곽 부) 업데이트될 수 있다.

시간 왜곡 윤곽 계산기(540)는 복수의(또는 시간적 시퀀스) 시간 왜곡 윤곽 비율 값들을 기초로 하여 복수의(또는 시간적 시퀀스) 시간 왜곡 윤곽 노드 값들을 계산하도록 구성되는, 왜곡 노드 값 계산기(544)를 포함하는데, 사건 왜곡 비율 값들은 시간 왜곡 윤곽 진화 정보(510)에 의해 포함된다. 바꾸어 말하면, 맵핑(234)에 의해 제공되는 디코딩된 시간 왜곡 값들은 시간 왜곡 비율 값들(예를 들면, warp_tbl_[tw_ratio[]])을 포함할 수 있다. 이러한 목적을 위하여, 왜곡 노드 값 계산기(544)는 미리 결정된 시작 위치(예를 들면, 1)에서 시간 왜곡 윤곽 노드 값들의 제공을 시작하고 아래에 설명될 것과 같이, 시간 왜곡 윤곽 비율 값들을 사용하여 뒤따르는 시간 왜곡 윤곽 노드 값들을 계산하도록 구성된다.

또한, 시간 왜곡 윤곽 계산기(544)는 선택적으로 뒤따르는 시간 왜곡 윤곽 노드 값들 사이를 보간하도록 구성되는, 보간기(interpolator, 548)를 포함한다. 따라서, 새로운 시간 왜곡 윤곽 부의 설명(542)이 획득되는데, 새로운 시간 윤곽 부는 일반적으로 왜곡 노드 계산기(524)에 의해 사용되는 미리 결정된 시작 값으로부터 시작한다. 게다가, 수단(520)은 도 5에 도시되지 않은 메모리 내의 이른바 "최종 시간 왜곡 윤곽 부" 및 이른바 "현재 시간 왜곡 윤곽 부"를 저장하도록 구성된다.

그러나, 수단(530)은 또한 "최종 시간 왜곡 윤곽 부", "현재 시간 왜곡 윤곽 부" 및 "새로운 시간 왜곡 윤곽 부"를 기초로 하는, 전체 시간 왜곡 윤곽 섹션에서의 어떤 불연속성을 방지(또는 감소, 또는 제거)하기 위하여 "최종 시간 왜곡 윤곽 부" 및 "현재 시간 왜곡 윤곽 부"를 재스케일링하도록 구성되는, 재스케일러(rescaler, 550)를 포함한다. 이러한 목적을 위하여, 재스케일러(550)는 저장된 "최종 시간 왜곡 윤곽 부" 및 "현재 시간 왜곡 윤곽 부"의 저장된 설명을 수신하고, "최종 시간 왜곡 윤곽 부" 및 "현재 시간 왜곡 윤곽 부"의 재스케일링된 버전을 획득하기 위하여 "최종 시간 왜곡 윤곽 부" 및 "현재 시간 왜곡 윤곽 부"를 연결하여 재스케일링하도록 구성된다. 이러한 기능성에 관한 세부 내용들이 아래에 설명될 것이다.

게다가, 재스케일러(550)는 또한 예를 들면, 도 5에 도시되지 않은 메모리로부터 "현재 시간 왜곡 윤곽 부"와 관련된 또 다른 합계 값에서의 "최종 시간 왜곡 윤곽 부"와 관련된 합계 값을 수신하도록 구성될 수 있다. 이러한 합계 값들은 때때로 각각 "last_wrap_sum" 및 "cur_warp_sum"으로 지정된다. 재스케일러(550)는 상응하는 시간 왜곡 윤곽 부들이 재스케일링되는 동일한 재스케일 인자를 사용하여 시간 왜곡 윤곽 부들과 관련된 합계 값들을 재스케일링하도록 구성된다. 따라서, 재스케일링된 합계 값들이 획득된다.

일부 경우에 있어서, 수단(520)은 재스케일(550) 내로 입력되는 시간 왜곡 윤곽 부들 및 또한 재스케일러(550) 내로 입력되는 합계 값들을 반복적으로 업데이트하도록 구성되는, 업데이터(updater, 560)를 포함할 수 있다. 예를 들면 업뎅터(560)는 프레임 레이트에서 상기 정보를 업데이트하도록 구성될 수 있다. 예를 들면, 현재 프레임 사이클의 "새로운 시간 왜곡 윤곽 부"는 다음 프레임 사이클의 "현재 시간 왜곡 윤곽 부"로서 도움을 줄 수 있다. 유사하게, 현재 프레임 사이클의 재스케일링된 "현재 시간 왜곡 윤곽 부"는 다음 프레임 사이클의 "최종 시간 왜곡 윤곽 부"로서 도움을 줄 수 있다. 따라서, 메모리 효율적인 보건이 생성되는데, 그 이유는 현재 프레임 사이클의 "최종 시간 왜곡 윤곽 부"는 "현재 프레임 사이클"의 완성과 동시에 폐기될 수 있기 때문이다.

위를 요약하면, 수단(520)은 각각의 프레임 사이클을 위하여(일부 특별한 프레임 사이클은 예외로 하고, 예를 들면, 프레임 시퀀스의 시작에서, 또는 프레임 시퀀스의 말에, 또는 시간 왜곡이 불활성인 프레임에서), "새로운 시간 왜곡 윤곽 부", "재스케일링된 현재 시간 왜곡 윤곽 부" 및 "재스케일링된 최종 시간 왜곡 윤곽 부"의 설명을 포함하는 시간 왜곡 윤곽 섹션의 설명을 제공하도록 구성된다. 게다가, 수단(520)은 각각의 프레임 사이클을 위하여(위에서 언급된 특별한 프레임 사이클은 예외로 하고), 예를 들면, "새로운 시간 왜곡 윤곽 부 합계 값", "재스케일링된 현재 시간 왜곡 윤곽 합계 값" 및 "재스케일링된 최종 시간 왜곡 윤곽 합계 값"을 포함하는 시간 왜곡 합계 값들의 표현을 제공할 수 있다.

시간 왜곡 제어 정보 계산기(530)는 수단(520)에 의해 제공되는 복원된 시간 왜곡 윤곽 정보를 기초로 하여 시간 왜곡 제어 정보(512)를 계산하도록 구성된다. 예를 들면, 시간 왜곡 제어 정보 계산기(530)는 복원된 시간 왜곡 윤곽 정보를 기초로 하여 시간 윤곽(572, 예를 들면, 시간 왜곡 윤곽의 샘플에 관한 표현)을 계산하도록 구성되는, 윤곽 계산기(570)를 포함한다. 게다가, 시간 왜곡 제어 정보 계산기(530)는 시간 윤곽(572)을 수신하고 이를 기초로 하여 예를 들면, 샘플 위치 벡터(576)의 형태로, 샘플 위치 정보를 제공하기 위하여 제공되는, 샘플 위치 계산기(574)를 포함한다. 샘플 위치 벡터(576)는 예를 들면, 재샘플러(240g)에 의해, 실행되는 시간 왜곡을 설명한다.

시간 왜곡 제어 정보 계산기(530)는 또한 복원된 시간 왜곡 제어 정보로부터 전이 길이 정보를 파생하도록 구성되는, 전이 길이 계산기를 포함한다. 전이 길이 정보(582)는 예를 들면, 왼쪽 전이를 설명하는 정보 및 오른쪽 전이를 설명하는 정보를 포함할 수 있다. 전이 길이는 예를 들면, "최종 시간 왜곡 윤곽 부", "현재시간 왜곡 윤곽 부" 및 "새로운 시간 왜곡 윤곽 부"에 의해 설명되는, 시간 세그먼트들의 길이에 의존할 수 있다. 예를 들면, 만일 "최종 시간 왜곡 윤곽 부"에 의해 설명되는 시간 세그먼트의 시간 확장이 "현재 시간 왜곡 부"에 의해 설명되는 시간 세그먼트의 시간 확장보다 짧거나, 또는 만일 "새로운 시간 왜곡 윤곽 부"에 의해 설명되는 시간 세그먼트의 시간 확장이 "현재 시간 왜곡 윤곽 부"에 의해 설명되는 시간 세그먼트의 시간 확장보다 짧으면, 전이 길이는 줄어들 수 있다.

게다가, 시간 왜곡 제어 정보 계산기(530)는 왼쪽 및 오른쪽 전이 길이를 기초로 하여 이른바 "첫 번째 부" 및 이른바 "최종 부"를 계산하도록 구성되는, 첫 번째 및 최종 위치 계산기(584)를 더 포함할 수 있다. "첫 번째 부" 및 "최종 부"는 만일 이러한 위치들의 외부 영역이 윈도우잉 후에 0과 동일하고 따라서 시간 왜곡을 위하여 고려될 필요가 없으면, 재샘플러의 효율을 증가시킨다. 여기서 샘플 위치 벡터(576)는 예를 들면, 재샘플러(240g)에 의해 실행되는 시간 왜곡에 의해 사용되는(또는 필요로 하는) 정보를 포함한다는 것에 주의하여야 한다. 게다가, 왼쪽 및 오른쪽 전이 길이(582) 및 "첫 번째 부" 및 "최종 부(582)"는 예를 들면, 윈도우어(240e)에 의해 사용되는 정보를 구성한다.

따라서, 수단(520) 및 시간 왜곡 제어 정보 계산기(530)는 윈도우 형상 조절(2401) 및 샘플 위치 계산(240k)의 샘플 레이트 조절(240m)의 기능성을 함께 확보한다고 할 수 있다.

6.2. 도 6a 및 6b에 따른 기능적 설명

다음에서, 도 6a 및 6b를 참조하여 수단(520) 및 시간 왜곡 제어 정보 계산기(530)를 포함하는 오디오 디코더의 기능성이 설명될 것이다.

도 6a 및 6b는 본 발명의 일 실시 예에 따른, 오디오 신호의 인코딩된 표현을 디코딩하기 위한 방법의 플로차트를 도시한다. 방법(600)은 복원된 시간 왜곡 윤곽 정보를 제공하는 단계를 포함하는데, 상기 복원된 시간 왜곡 윤곽 정보를 제공하는 단계는 인코딩된 시간 왜곡 정보의 코드워드들을 디코딩된 시간 왜곡 값들 상으로 맵핑하는 단계(604), 왜곡 노드 값들을 계산하는 단계(610), 왜곡 노드 값들 사이를 보간하는 단계(620), 하나 또는 그 이상의 이전에 계산된 왜곡 윤곽 부들 및 하나 또는 그 이상의 이전에 계산된 왜곡 윤곽 합계 값들을 재스케일링하는 단계(630)를 포함한다. 방법은 또한 단계 601 및 620에서 획득된 "새로운 시간 왜곡 윤곽 부", 재스케일링된 이전에 계산된 시간 왜곡 윤곽 부들("현재 시간 왜곡 윤곽 부", "최종 시간 왜곡 윤곽 부") 및, 또한 선택적으로, 재스케일링된 이전에 계산된 왜곡 윤곽 합계 값들을 사용하여 시간 왜곡 제어 정보를 계산하는 단계(640)를 포함한다. 그 결과, 단계 640에서 시간 윤곽 정보, 및/또는 샘플 위치 정보, 및/또는 전이 길이 정보 및/또는 첫 번째 위치 및 최종 위치 정보가 획득될 수 있다.

방법(600)은 또한 단계 640에서 획득된 시간 왜곡 제어 정보를 사용하여 시간 왜곡 신호 복원을 실행하는 단계(650)를 포함한다. 시간 왜곡 신호 복원에 관한 상세한 설명은 뒤에 설명될 것이다.

방법(600)은 또한 아래에 설명될 것과 같이, 메모리를 업데이트하는 단계(660)를 포함한다.

7. 알고리즘에 대한 상세한 설명

7.1. 개관

본 발명의 일 실시예에 따른 오디오 디코더에 의해 수행된 알고리즘들 중 몇몇이 상세히 기술될 것이다. 이를 위해, 5a, 5b, 6a, 6b, 7a, 7b, 8, 9, 10a, 10b, 11, 12, 13, 14, 15, 및 16이 참조된다.

우선, 데이터 요소들의 정의에 대한 범례 및 조력 요소들의 정의에 대한 범례가 도시되는 도 7a가 참조된다. 또한, 상수들의 정의에 대한 범례를 도시하는 도 7b가 참조된다.

일반적으로 말해서, 여기서 기술된 방법들은 시간이 왜곡된 수정 이산 코사인 변환에 따라 인코딩되는 오디오 스트림의 디코딩에 사용될 수 있다고 할 수 있다. 그러므로, TW-MDCT가 (예를 들어, 특정 구성 정보에 포함될 수 있는, "twMDCT" 플래그라고 불리는 플래그에 의해 나타내어질 수 있는) 오디오 스트림에 대해 가능해질 때, 시간 왜곡 필터 뱅크 및 블록 전환은 오디오 디코더에서 표준 필터 뱅크 및 블록 전환을 대신할 수 있다. 역 수정 이산 코사인 변환(IMDCT)뿐 아니라, 시간 왜곡 필터 뱅크 및 블록 전환에는 임의로 이격된 시간 그리드로부터 정상적인 규칙적으로 이격된 또는 선형으로 이격된 시간 그리드로의 시간 도메인 대 시간 도메인 맵핑 및 상응하는 윈도우 형태의 적응이 들어 있다.

여기서 기술된 디코딩 알고리즘은, 예를 들어, 스펙트럼의 인코딩된 표현(214)에 기초하고 또한 인코딩된 시간 왜곡 정보(232)에 기초하여 왜곡 디코더(240)에 기초하여 수행될 수 있음에 유의해야 한다.

7.2 정의:

데이터 요소들, 조력 요소들, 및 상수들에 대하여, 도 7a 및 7b가 참조된다.

7.3 디코딩 과정-왜곡 윤곽

왜곡 윤곽 노드들의 코드북 인덱스들은 다음과 같이 개개의 노드들에 대한 왜곡 값들로 디코딩된다:

그러나, 여기서 "warp_value_tbl[tw_ratio[k]]"으로 가리켜지는 디코딩된 시간 왜곡 값으로의 시간 왜곡 코드워드들 "tw_ratio[k]"의 맵핑은, 선택적으로, 본 발명에 따른 실시예들에서 샘플링 주파수에 의존한다. 그에 따라, 본 발명에 따른 몇몇 실시예들에서는 단일 맵핑 테이블이 없고, 각각 다른 샘플링 주파수들에 대한 개개의 맵핑 테이블들이 있다.

예를 들면, 현재 샘플링 주파수와 상응하는 테이블 맵핑으로의 맵핑 테이블 액세스에 의해 복귀되는, 결과 값들 "warp_value_tbl[tw_ratio[k]"은 디코딩된 시간 왜곡 값들로서 고려될 수 있으며, 인코딩된 오디오 신호 표현(210)을 구성하는(표현하는) 비트스트림 내에 포함되는 시간 왜곡 코드워드들 "tw_ratio[k]"을 기초로 하여 맵핑(234), 적응성 맵핑(400) 도는 적응성 맵핑(450)에 의해 제공될 수 있다.

샘플식(n_long samples)의 새로운 왜곡 윤곽 데이터 "new_warp_contour[]"를 얻기 위해, 이제, 왜곡 노드 값들 "warp_node_values[]"은 그 의사 프로그램 코드 표현이 도 9에 도시되는 알고리즘을 이용하여 동등하게 이격된(interp_dist apart) 노드들 사이에서 선형으로 보간된다.

이 프레임에 대한(예를 들어, 현재의 프레임에 대한) 전체 왜곡 윤곽을 얻기 전에, 과거에서 버퍼링된 값들이 재스케일링 될 수 있어, 과거의 윤곽 "past_warp_contour[]"의 마지막 값은 1이다.

과거의 왜곡 윤곽 "past_warp_contour"과 현재의 왜곡 윤곽 "new_warp_contour"을 연결시킴으로써 전체 왜곡 윤곽 "warp_contour[]"을 얻게 되고, 모든 새로운 왜곡 윤곽 값들 "new_warp_contour[]"에 대한 합으로서 새로운 왜곡 합 "new_warp_sum"이 계산된다:

7.4 디코딩 과정 - 샘플 위치 및 윈도우 길이 조정

왜곡 윤곽 "warp_contour[]"으로부터, 선형 시간 스케일로 왜곡된 샘플들의 샘플 위치들의 벡터가 계산된다. 이를 위해, 다음의 방정식들에 따라 시가나 왜곡 윤곽이 발생된다:

여기서,

그 의사 프로그램 코드 표현들이 각각 도 10a 및 도 10b에 도시되는 조력 함수들 "warp_inv_vec()" 및 "warp_time_inv()"으로, 그 의사 프로그램 코드 표현이 도 11에 도시되는 알고리즘에 따라 샘플 위치 벡터 및 전이 길이가 계산된다.

7.5 디코딩 과정 - 역 수정 이산 코사인 변환( IMDCT )

다음에서, 역 수정 이산 코사인 변환이 간략히 기술될 것이다.

역 수정 이산 코사인 변환의 분석 표현은 다음과 같다:

0≤N에 있어서

여기서:

n = 샘플 인덱스

i = 윈도우 인덱스

k = 스펙트럼 계수 인덱스

N = window_sequence 값에 기초한 윈도우 길이

n₀ = (N/2+1)/2

역 변환에 대한 합성 윈도우 길이는 (비트스트림에 포함될 수 있는) 구문 요소 "window_sequence" 및 알고리즘의 컨텍스트의 함수이다. 예를 들어, 합성 윈도우 길이는 도 12의 테이블에 따라 정의될 수 있다.

의미있는 블록 전이들 도 13의 테이블에 열거된다. 주어진 테이블 칸 안의 체크 표시는 이 특정 행에 열겨된 윈도우 시퀀스에 이 특정 열에 열거된 윈도우 시퀀스가 뒤따를 수 있음을 나타낸다.

허용된 윈도우 시퀀스와 곤련하여, 예를 들어, 오디오 디코더는 각각 다른 길이의 윈도우들 사이에서 전환가능하든 것이 유의해야 한다. 그러나, 윈도우 길이들의 전환은 본 발명과 특별한 관련성이 없다. 오히려, 본 발명은 타입 "only_long_sequence"의 윈도우들의 스퀀스가 있고 코어 코더 프레임 길이가 1024와 같다는 가정에 기초하여 이해될 수 있다.

또한, 상기 오디오 신호 디코더는 주파수 도메인 코딩 모드와 시간 도메인 코딩 모드 사이에서 전환가능하다는 것에 유의해야 한다. 그러나, 이러한 가능성은 본 발명에 특별한 관련성이 없다. 오히려, 본 발명은, 예를 들어, 도 1, 2, 3a, 및 3b를 참조하여 논의된 주파수 도메인 코딩 모드만을 다룰 수 있는 오디오 신호 디코더들에 적용가능하다.

7.6 디코딩 과정 - 윈도윙 및 블록 전환

다음에서, 왜곡 디코더(240), 특히, 그것의 윈도우어(240e)에 의해 수행될 수 있는 윈도윙 및 블록 전환이 기술될 것이다.

(오디오 신호를 표현하는 비트스트림에 포함될 수 있는) "window_shape" 요소에 따라 각각 다르게 오버샘플링된 변환 윈도우 프로토타입들이 사용되고, 오버샘플링된 윈도우들의 길이는

이다.

window_shape==1에 있어서, 윈도우 계수들은 다음과 같이 카이저 베셀 도출(Kaiser - Bessel derived) 윈도우에 의해 주어진다:

에 있어서,

여기서:

카이저 베셀 커널 함수 W'는 다음과 같이 정의된다:

에 있어서,

α = 커널 윈도우 알파 인자, α=4

그렇지 않으면, window_shape==0에 있어서, 사인(sine) 윈도우는 다음과 같이 이용된다:

에 있어서,

모든 종류의 윈도우 시퀀스들에 있어서, 왼쪽 윈도우 부분에 대해 사용된 프로토타입은 이전 블록의 윈도우 형태에 의해 결정된다. 다음 공식이 이 사실을 나타낸다:

오른쪽 윈도우 형태에 대한 프로토타입은 다음의 공식에 의해 결정된다:

전이 길이들이 이미 결정되었기 때문에, 타입 "EIGHT_SHORT_SEQUENCE"의 윈도우 시퀀스와 모든 다른 윈도우 시퀀스들 간의 구별만이 될 것이다.

현재의 프레임이 타입 "EIGHT_SHORT_SEQUENCE"인 경우에, 윈도위 및 내부(프레임 내부) 중첩 및 가산이 수행된다. 도 14의 C 코드 같은 부분은 윈도우 타입 "EIGHT_SHORT_SEQUENCE"을 갖는 프레임의 윈도윙 및 내부 중첩 가산을 표현한다.

임의의 다른 타입의 프레임들에 대해, 그 의사 프로그램 코드 표현이 도 15에 도시되는 알고리즘이 사용될 수 있다.

7.7 디코딩 과정 - 시변 재샘플링

다음에서, 왜곡 디코더(240) 및, 특히 재샘플러(240g)에 의해 수행될 수 있는 시변 재샘플링이 기술될 것이다.

윈도윙된 블록(z[])은 다음의 임펄스 응답을 이용하여 (맵핑(234)에 의해 제공된 디코딩된 시간 왜곡 값들에 기초하여 샘플링 위치 계산기(240k)에 의해 제공되는) 샘플링 위치들에 따라 재샘플링된다:

0≤n<IP_SIZE-1, α=8에 있어서,

재샘플링하기 전에, 윈도윙된 블록은 양쪽 끝이 0들로 패딩된다:

재샘플링 그 자체는 도 16에 도신된 의사 프로그램 코드 부문에 표현된다.

7.8. 디코딩 과정 - 이전의 윈도윙 시퀀스를 이용한 중첩 및 가산

왜곡 디코더(240)의 중첩기/가산기(240j)에 의해 수행되는 중첩 및 가산은 모든 시퀀스들에 대해 동일하고, 다음과 같이 수학적으로 기술될 수 있다:

7.9. 디코딩 과정 - 메모리 업데이트

다음에서, 메모리 업데이트가 기술될 것이다. 비록 도 2b에 특정 수단들이 도시되어 있지 않더라도, 메모리 업데이트는 왜곡 디코더(240)에 의해 수행될 수 있다는 것에 유의해야 한다.

다음 프레임을 디코딩하기 위해 필요로 하는 메모리 버퍼들은 다음과 같이 업데이트된다:

0≤n<2·n_long에 있어서,

첫 번째 프레임을 디코딩하기 전에 또는 만약 마지막 프레임이 광 LPC 도메인 코더에 의해 인코딩되었다면, 메모리 상태들은 다음과 같이 설정된다:

0≤n<2·n_long에 있어서,

7.10. 디코딩 과정 - 결론

상기를 요약하면, 왜곡 디코더(240)에 의해 수행될 수 있는 디코딩 과정이 기술되었다. 알 수 있는 바와 같이, 예를 들어, 2048개의 시간 도메인 샘플들의 오디오 프레임에 대해 시간 도메인 표현이 제공되고, 예를 들어, 뒤이은 오디오 프레임들은 약 50% 중첩될 수 있어, 뒤이은 오디오 프레임들의 시간 도메인 표현들 사이의 평활한 전이가 보장된다.

예를 들어, NUM_TW_NODES = 16의 디코딩된 시간 왜곡 값들의 셋트는, 오디오 프레임의 시간 도메인 샘플들의 실제 샘플링 주파수와 상관없이, (시간 왜곡이 상기 오디오 프레임에서 활성화 중이라고 하면) 오디오 프레임들 각각과 연관될 수 있다.

8. 도 17a-17f에 따른 오디오 스트림

다음에서, 하나 이상의 오디오 신호 채널들 및 하나 이상의 시간 왜곡 윤곽들의 인코딩된 표현을 포함하는 오디오 스트림이 기술될 것이다. 다음에서 기술된 오디오 스트림은, 예를 들어, 인코딩된 오디오 신포 표현 112 또는 인코딩된 오디오 신호 표현 210을 지닌다.

도 17a는 단일 채널 요소(SCE), 채널 쌍 요소(CPE), 또는 하나 이상의 단일 쌍 채널 요소들 및/또는 하나 이상의 채널 쌍 요소들의 조합을 포함할 수 있는 이른바 "USAC_raw_data_block" 데이터 스트림 요소의 그래픽 표현을 도시한다.

"USAC_raw_data_block"는 일반적으로 인코딩된 오디오 데이터의 블록을 포함할 수 있고, 한편 별도의 데이터 스트림 요소로 추가적인 시간 왜곡 윤곽 정보가 제공될 수 있다. 그렇기는 하지만, 몇몇 시간 왜곡 윤곽 데이터를 "USAC_raw_data_block"으로 인코딩하는 것은 당연히 가능하다.

도 17b에서 알 수 있는 바와 같이, 단일 채널 요소는 일반적으로 주파수 도메인 채널 스트림("fd_channel_stream")을 포함하는데, 이는 도 17d를 참조하여 상세히 설명될 것이다.

도 17c에서 알 수 있는 바와 같이, 채널 쌍 요소("channel_pair_element")는 일반적으로 복수의 주파수 도메인 채널 스트림들을 포함한다. 또한, 채널 쌍 요소는, 예를 들어, 구성 데이터 스트림 요소 또는 "USAC_raw_data_block"으로 전송될 수 있고, 시간 왜곡 정 채널 쌍 요소에 포함되어 있는지 여부를 결정하는 시간 왜곡 활성화 플래그("tw_MDCT")와 같은 시간 왜곡 정보를 포함할 수 있다. 예를 들어, 만약 "tw_MDCT" 플래그가 시간 왜곡이 활성화되었다고 나타내면, 채널 쌍 요소는 채널 쌍 요소의 오디오 채널들에 대한 공통 시간 왜곡이 있는지 여부를 나타내는 플래그("common_tw")를 포함할 수 있다. 만약 상기 플래그("common_tw")가 다수의 오디오 채널들에 대한 공통 시간 왜곡이 있다고 나타내면, 그러면 시간 왜곡 정보("tw_data")는, 예를 들어, 주파수 도메인 채널 스트림들과 별도로, 채널 쌍 요소에 포함된다.

이제 도 17d를 참조하면, 주파수 도메인 채널 스트림이 기술된다. 도 17d에서 알 수 있는 바와 같이, 주파수 도메인 채널 스트림은, 예를 들어, 전역 이득 정보를 포함한다. 또한, 주파수 도메인 채널 스트림은 만약 시간 왜곡이 활성화되고(플래그 "tw_MDCT"가 활성화 되고) 다수의 오디오 신호 채널들에 대한 공통 시간 왜곡 정보가 없다면(플래그 "common_tw"이 비활성화라면), 시간 왜곡 데이터를 포함한다.

나아가, 주파수 도메인 채널 스트림은 또한 스케일 인자 데이터("scale_factor_data") 및 인코딩된 스펙트럼 데이터(예를 들어, 산술적으로 인코딩된 스펙트럼 데이터 "ac_spectral_data")를 포함한다.

이제 도 17e를 참조해 보면, 시간 왜곡 데이터의 구문이 간략히 논의된다. 시간 왜곡 데이터는, 예를 들어, 선택적으로, 시간 왜곡 데이터가 존재하는지 여부를 나타내는 플래그(예를 들어, "tw_data_present" 또는 "active_pitch_data")를 포함할 수 있다. 만약 시간 왜곡 데이터가 존재한다면(즉, 시간 왜곡 윤곽이 평평하지 않다면), 시간 왜곡 데이터는, 예를 들어, 상기에서 기술된 바와 같은, 샘플링 레이트 의존 코드북 테이블에 따라 인코딩될 수 있는 복수의 인코딩된 시간 왜곡 비율 값들(예를 들어, "tw_ratio[i]" 또는 "pitch Idx[i]")의 시퀀스를 포함할 수 있다.

그러므로, 만약 시간 왜곡 윤곽이 상수라면(시간 왜곡 비율이 거의 1.000과 동일하다면), 시간 왜곡 데이터는, 오디오 신호 인코더에 의해 설정될 수 있는, 이용가능한 시간 왜곡 데이터가 없음을 나타내는 플래그를 포함할 수 있다. 반면에, 만약 시간 왜곡 윤곽이 변한다면, 뒤이은 시간 왜곡 윤곽 노드들 사이의 비율은, "tw_ratio" 정보를 이루는, 코드북 인덱스들을 이용하여 인코딩될 것이다.

도 17f는 산술적으로 코딩된 스펙트럼 데이터 "ac_spectral_data()"의 구문에 대한 그래픽 표현을 도시한다. 산술적으로 코딩된 스펙트럼 데이터는, 만약 활성화 중이라면, 산술적으로 코딩된 데이터가 이전의 프레임의 산술적으로 인코딩된 데이터와 독립적임을 나타내는 독립 플래그(여기서: "indepFlag")의 상태에 따라 인코딩된다. 만약 독립 플래그 "indepFlag"가 활성화 중이라면, 산술 재설정 플래그 "arith_reset_flag"가 활성화되도록 설정된다. 그렇지 않으면, 산술 재설정 플래그의 값은 산술적으로 코딩된 스펙트럼 데이터에서 1비트에 의해 결정된다.

또한, 산술적으로 코딩된 스펙트럼 데이터 블록 "ac_spectral_data()"은 하나 이상의 산술적으로 코딩된 데이터의 유닛들을 포함할 수 있는데, 여기서 산술적으로 코딩된 데이터 "arith_data()"의 유닛들의 개수는 현재 프레임 내의 블록들(또는 윈도우들)의 개수에 의존한다. 긴 블록 모드에서는, 오디오 프레임당 오직 하나의 윈도우가 있다. 그러나, 짧은 블록 모드에서는, 예를 들어, 오디오 프레임당 8개의 윈도우들이 있을 수 있다. 산술적으로 코딩된 스펙트럼 데이터 "arith_data()"의 각각의 유닛은, 예를 들어, 역 변환(240c)에 의해 수행될 수 있는 주파수 도메인 대 시간 도메인 변환을 위한 입력으로서 쓰일 수 있는 스펙트럼 계수들의 셋트를 포함한다.

산술적으로 인코딩된 데이터 "arith_data"의 유닛당 스펙트럼 계수들의 개수는, 예를 들어 샘플링 주파수에 독립적일 수 있으나, 블록 길이 모드(짧은 블록 모드 "EIGHT_SHORT_SEQUENCE" 또는 긴 블록 모드 "ONLY_LONG_SEQUENCE")에 의존할 수 있다.

9. 결론

상기를 요약하면, 시간이 왜곡된 수정 이산 코사인 변환(TW-MDCT)에 대한 개선이 논의되었다. 여기서 기술된 본 발명은 시간이 왜곡된 MDCT 변환 코더에 관한 것이고(예를 들어, 참고문헌 [1] 및 [2] 참조), 왜곡 MDCT 변환 코더의 개선된 성능을 위한 방법들을 고안한다. 시간이 왜곡된 수정 인산 코사인 변환에 관한 세부사항들은에 대해, 참조문헌 [1] 및 [2]에 주의를 기울이길 바란다.

그러한 시간이 왜곡된 MDCT 변환 코더에 대한 한 구현은 진행 중인 MPEG USAC 오디오 코딩 표준화 작업에서 실현된다(예를 들어, 참고문헌 [3] 참조). 사용된 시간이 왜곡된 MDCT구현의 세부사항들은 참고문헌 [4]에서 확인할 수 있다.

게다가, 여기서 설명되는 오디오 신호 인코더 및 오디오 신호 디코더는 국제출원특허 WO/2010/003583. WO/2010/003618, WO/2010/003581 및 WO/2010/003582에 기재된 특징들을 포함하는 것으로 이해하여야 한다. 상기 네 개의 국제출원특허의 원리들은 여기에 명백하게 통합된다. 상기 네 개의 국제출원특허에 개시된 특징들 및 특성들은 본 발명에 따른 실시 예들에 통합될 수 있다.

10. 구현 대안들

비록 몇몇 양상들이 장치의 맥락에서 기술되었지만, 이러한 양상들은 또한 상응하는 방법의 설명을 나타낼 수 있음이 자명한데, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 비슷하게, 방법 단계의 맥락에서 기술된 양상들은 또한 상응하는 블록이나 항목 또는 상응하는 장치의 특징에 대한 설명을 나타낸다. 방법 단계들의 일부 또는 전체는 예를 들어, 마이크로프로세서, 프로그램가능한 컴퓨터, 또는 전자 회로와 같은 하드웨어 장치들에 의해(을 이용하여) 실행될 수 있다. 몇몇 실시예들에서, 어떤 하나 이상의 가장 중요한 방법 단계들이 그러한 장치에 의해 수행될 수 있다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나, 인터넷(Internet)과 같은 무선 전송 매체 또는 유선 전송 매체와 같은 전송 매체로 전송될 수 있다.

특정 구현 요구조건들에 따라, 본 발명의 실시예들은 하드워에 또는 소프트웨어로 구현될 수 있다. 상기 구현은, 상기 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협조하는(또는 협조할 수 있는) 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM, 또는 플래시 메몰를 이용하여 수행될 수 있다. 그러므로, 디지털 저장 매체는 컴퓨터로 판독가능할 수 있다.

본 발명에 따른 몇몇 실시예들은 프로그램가능한 컴퓨터 시스템과 협조할 수 있는 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함하여, 여기에서 기술된 방법들 중 하나가 수행된다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있는데, 상기 프로그램 코드는 상기 컴퓨터 프로그램 제품이 컴퓨터에서 구동할 때 상기 방법들 중 하나를 수행하기 위해 작동된다. 프로그램 코드는 예를 들어 기계 판독가능한 캐리어에 저장될 수 있다.

다른 실시예들은, 기계 판독가능한 캐리어에 저장된, 여기에서 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말해, 그러므로, 본 발명의 방법의 일 실시예는, 컴퓨터 프로그램이 컴퓨터에서 구동할 때, 여기에서 기술된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

그러므로, 본 발명의 방법들의 다른 실시예는, 그 위에 기록된, 여기에서 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독가능한 매체)이다. 데이터 캐리어, 디지털 저장 매체, 또는 기록 매체는 일반적으로 유형이고/이거나 변하지 않는다.

그러므로, 본 발명의 방법의 다른 실시예는 여기에 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀는 예를 들어 데이터 통신 연결, 예를 들어 인터넷을 통해 전송되기 위해 구성될 수 있다.

다른 실시예는 여기에 기술된 방법들 중 하나를 수행하기 위해 구성되거나 적응된 처리 수단들, 예를 들어 컴퓨터 프로그램, 또는 프로그램가능한 논리 소자를 포함한다.

다른 실시예는 여기에 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 설치된 컴퓨터를 포함한다.

본 발명에 따른 다른 실시예는 수신기에 여기서 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 (예를 들어, 전자적으로 또는 광학적으로) 전송하기 위해 구성된 장치 또는 시스템을 포함한다. 상기 수신기는, 예를 들어, 컴퓨터, 이동 기기, 메모리 소자 등일 수 있다. 상기 장치나 시스템은, 예를 들어, 수신기에 컴퓨터 프로그램을 전송하기 위한 파일 서버를 포함할 수 있다.

몇몇 실시예들에서, 프로그램가능한 논리 소자(예를 들어, 필드 프로그램가능한 게이트 어레이)는 여기에 기술된 방법들의 기능들의 일부 또는 전체를 수행하는데 사용될 수 있다. 몇몇 실시예들에서, 필드 프로그램가능한 게이트 어레이는 여기에 기술된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 바람직하게는, 상기 방법들은 임의의 하드웨어 장치로 수행된다.

상기에서 기술된 실시예들은 단지 본 발명의 원리들을 설명하기 위한 것이다. 여기서 기술된 배열들 및 세부사항들의 수정 및 변경이 당업자들에게 자명할 것으로 이해된다. 그러므로, 오직 곧 나올 특허 청구항들의 범위에 위해서만 제한되고, 여기에서의 실시예들에 대한 기술 및 설명으로 제시된 구체적인 세부사항들에 대해서는 제한되지 않음을 의도한다.

참고문헌

[1] Bernd Edler 외, "시간 왜곡 MDCT(Time Warped MDCT)" US 61/042,314, 가출원,

[2] L. Villemoes, "오디오 신호의 시간 왜곡 변환 코딩(Time Warped Transform Coding of Audio Signals)", 국제 특허 출원 PCT/EP2006/010246, 2005년 11월.

[3] "USAC의 WD6(WD6 of USAC)", ISO/IEC JTC1/SC29/WG11 N11213, 2010년

[4] Bernd Edler 외, "음성 변환 코딩에 대한 시간 왜곡 MDCT 접근법(A Time-Warped MDCT Approach to Speech Transform Coding", 제126회 AEC 컨벤션, 뮌헨, 2009년 5월, 견본인쇄 7710

[5] Nikolaus Meine, "Vektorquantisierung und kontextabhangige arithmetische Codierung fur MPEG-4 AAC", VDI, 하노버, 2007년

Claims

샘플링 주파수 정보(218), 인코딩된 시간 왜곡 정보(216, tw_ratio[i]), 및 인코딩된 스펙트럼 표현(214, ac_spectral_data())을 포함하는 인코딩된 오디오 신호 표현(112, 210)에 기초하여 디코딩된 오디오 신호 표현(212)을 제공하기 위해 구성된 오디오 신호 디코더(200; 350)에 있어서,
디코딩된 시간 왜곡 정보(232, warp_value_tbl[tw_ratio], p_rel)에 상기 인코딩된 시간 왜곡 정보(216, tw_ratio[i])를 맵핑하기 위해 구성된 시간 왜곡 계산기(230, 604); 및
상기 인코딩된 스펙트럼 표현(214, ac_spectral_data())에 기초하고 상기 디코딩된 시간 왜곡 정보(232)에 따라 상기 디코딩된 오디오 신호 표현(212)을 제공하기 위해 구성된 왜곡 디코더(240);
를 포함하되,
상기 시간 왜곡 게산기는 상기 샘플링 주파수 정보(218)에 따라 상기 디코딩된 시간 왜곡 정보(232)를 기술하는 디코딩된 시간 왜곡 값(warp_value_tbl[tw_ratio], p_rel)에 상기 인코딩된 시간 왜곡 정보(216)의 코드워드들(tw_ratio[i], index)을 맵핑하기 위한 맵핑 규칙을 적응시키기 위해 구성되는 것을 특징으로 하는 오디오 신호 디코더.
청구항 1에 있어서,
상기 인코딩된 시간 왜곡 정보(216)의 코드워드들(tw_ratio[i], index)은 시간 왜곡 윤곽(time_contour[])의 시간적 전개를 기술하고,
상기 시간 왜곡 계산기(230, 604)는 상기 인코딩된 오디오 신호 표현(214, ac_spectral_data())에 의해 표현된 인코딩된 오디오 신호의 오디오 프레임에 대한 인코딩된 시간 왜곡 정보(216)의 미리 결정된 개수(Num_tw_nodes)의 코드워드들(tw_ratio[i], index)을 사정하기 위해 구성되며, 상기 미리 결정된 개수의 코드워드들은 상기 인코딩된 오디오 신호의 샘플링 주파수와 무관한 것을 특징으로 하는 오디오 신호 디코더.
청구항 1 또는 2에 있어서,
상기 시간 왜곡 계산기(230)는 상기 맵핑 규칙을 적응시키기 위해 구성되어, 상기 인코딩된 시간 왜곡 정보(216)의 주어진 코드워드들의 셋트의 코드워드들(tw_ratio[i], index)에 맵핑되는 디코딩된 시간 왜곡 값들(warp_value_tbl[tw_ratio], p_rel)의 범위가, 제1 샘플링 주파수가 제2 샘플링 주파수보다 작게 제공된, 제2 샘플링 주파수에 대해서 보다 제1 샘플링 주파수에 대해서 더 큰 것을 특징으로 하는 오디오 신호 디코더.
청구항 3에 있어서,
상기 디코딩된 시간 왜곡 값들(warp_value_tbl[tw_ratio], p_rel)은 시간 왜곡 윤곽의 값들을 표현하는 시간 왜곡 윤곽의 값들 또는 시간 왜곡 윤곽(time_contour[])의 값들의 절대적 또는 상대적 변화를 표현하는 시간 왜곡 윤곽 변동 값들인 것을 특징으로 하는 오디오 신호 디코더.
청구항 1 내지 4 중 어느 한 항에 있어서,
상기 시간 왜곡 계산기(230)가 상기 맵핑 규칙을 적응시키기 위해 구성되어, 상기 인코딩된 시간 왜곡 정보(216)의 주어진 코드워드들(tw_ratio[i], index)의 셋트로 표현 가능한, 상기 인코딩된 오디오 신호 표현(112;210)에 의해 표현된 인코딩된 오디오 신호의 주어진 개수의 샘플들에 걸쳐 피치의 최대 변화가, 제1 샘플링 주파수가 제2 샘플링 주파수보다 작게 제공된, 제2 샘플링 주파수에 대해서 보다 제1 샘플링 주파수에 대해서 더 큰 것을 특징으로 하는 오디오 신호 디코더.
청구항 1 내지 5 중 어느 한 항에 있어서,
상기 시간 왜곡 계산기(230)가 상기 맵핑 규칙을 적응시키도록 구성되어, 제1 샘플링 주파수에서 상기 인코딩된 시간 왜곡 정보(216)의 주어진 코드워드들(tw_ratio[i], index)의 셋트로 표현할 수 있는, 주어진 시간 주기에 걸친 피치의 최대 변화가, 제2 샘플링 주파수에서 상기 인코딩된 시간 왜곡 정보의 주어진 코드워드들의 셋트로 표현할 수 있는, 주어진 시간 주기에 걸친 피치의 최대 변화와, 적어도 30% 만큼 다른 제1 샘플링 주파수와 제2 샘플링 주파수에 대해 10% 이내로, 다른 것을 특징으로 하는 오디오 신호 디코더.
청구항 1 내지 6 중 어느 한 항에 있어서,
상기 시간 왜곡 계산기(230)는 상기 샘플링 주파수 정보(218)에 따라 디코딩된 시간 왜곡 값들(warp_value_tbl[tw_ratio], p_rel)에 상기 인코딩된 시간 왜곡 정보의 코드워드들(tw_ratio[i], index)을 맵핑하기 위해 서로 다른 맵핑 테이블들(480, 484; 480, 486)을 사용하도록 구성되는 것을 특징으로 하는 오디오 신호 디코더.
청구항 1 내지 6 중 어느 한 항에 있어서,
상기 시간 왜곡 계산기는, 적응된 맵핑 값들(496)을 얻기 위해, 기준 샘플링 주파수(f_s _, _ref)와 다른 실제 샘플링 주파수(f_s)에, 상기 기준 샘플링 주파수(f_s _, _ref)에 대하여 상기 인코딩된 시간 왜곡 정보(216)의 서로 다른 코드워드들(tw_ratio[i], 490, index)과 관련된 디코딩된 시간 왜곡 정보(warp_value_tbl[tw_ratio], p_rel)를 기술하는, 기준 맵핑 규칙들(494)을 적응시키기 위해 구성되는 것을 특징으로 하는 오디오 신호 디코더.
청구항 8에 있어서,
상기 시간 왜곡 계산기는, 상기 실제 샘플링 주파수(fs)와 상기 기준 샘플링 주파수(f_s _, _ref) 사이의 비율에 따라, 시간 왜곡을 기술하는 상기 기준 맵핑 값들(494)의 일부를 스케일링하기 위해 구성되는 것을 특징으로 하는 오디오 신호 디코더.
청구항 1 내지 9 중 어느 한 항에 있어서,
상기 디코딩된 시간 왜곡 값들(warp_value_tbl[tw_ratio], p_rel)은 상기 인코딩된 오디오 신호 표현(210)에 의해 표현된 상기 인코딩된 오디오 신호의 미리 결정된 개수의 샘플들에 걸친 시간 왜곡 윤곽의 변동을 기술하고,
상기 오디오 신호 디코더는,
샘플링 위치 계산기;
를 포함하되,
상기 샘플링 위치 계산기는, 왜곡 윤곽 노드 값(warp_node_values[])을 도출하기 위해, 상기 시간 왜곡 윤곽의 변동을 표현하는, 복수의 디코딩된 시간 왜곡 값들(warp_value_tbl[tw_ratio], p_rel)을 결합하기 위해 구성되어, 기준 왜곡 노드 값으로부터 도출된 왜곡 윤곽 노드 값들의 편차가 상기 디코딩된 시간 왜곡 값들(warp_value_tbl[tw_ratio], p_rel) 중 단 하나에 의해 표현된 편차보다 큰 것을 특징으로 하는 오디오 신호 디코더.
청구항 1 내지 10 중 어느 한 항에 있어서,
상기 디코딩된 시간 왜곡 값들(warp_value_tbl[tw_ratio], p_rel)은 상기 인코딩된 오디오 신호 표현(210)에 의해 표현된 상기 인코딩된 오디오 신호의 미리 결정된 개수의 샘플들에 걸친 시간 왜곡 윤곽의 상대적 변화를 기술하고,
상기 오디오 신호 디코더는,
샘플링 위치 계산기;
를 포함하되,
상기 샘플링 위치 계산기는 상기 디코딩된 시간 왜곡 값들로부터 시간 왜곡 윤곽 정보를 도출하기 위해 구성되는 것을 특징으로 하는 오디오 신호 디코더.
청구항 1 내지 11 중 어느 한 항에 있어서,
상기 오디오 신호 디코더는,
샘플링 위치 계산기(240k);
를 포함하되,
상기 샘플링 위치 계산기는 상기 디코딩된 시간 왜곡 값들(warp_value_tbl[tw_ratio])에 기초하여 시간 왜곡 윤곽의 지점들(supporting points, warp_node_values[])을 계산하기 위해 구성되고,
상기 샘플링 위치 계산기는, 상기 시간 왜곡 윤곽(time_contour[])을 얻기 위해, 상기 지점들 사이를 보간하기 위해 구성되고,
오디오 프레임 당 디코딩된 시간 왜곡 값들의 개수는 상기 샘플링 주파수와 무관한 것을 특징으로 하는 오디오 신호 디코더.
오디오 신호(110)의 인코딩된 표현(112)을 제공하기 위한 오디오 신호 인코더(100;300)에 있어서,
인코딩된 시간 왜곡 정보(132)에 시간 왜곡 윤곽을 기술하는 시간 왜곡 값들(p_rel)을 맵핑하기 위해 구성된 시간 왜곡 윤곽 인코더(130), 및
상기 시간 왜곡 윤곽 정보(122)에 의해 기술된 시간 왜곡을 고려하여, 상기 오디오 신호의 스펙트럼의 인코딩된 표현(142)을 얻기 위해 구성된 시간 왜곡 신호 인코더(140),
를 포함하되,
상기 시간 왜곡 윤곽 인코더(130)는 상기 오디오 신호(110)의 샘플링 주파수(f_s)에 따라 상기 인코딩된 시간 왜곡 정보(132)의 코드워드들(tw_ratio[i], index)에 상기 시간 왜곡 윤곽을 기술하는 시간 왜곡 값들(p_rel)을 맵핑하기 위한 맵핑 규칙(134)을 적응시키기 위해 구성되며,
상기 오디오 신호(110)의 인코딩된 표현(112)은 상기 인코딩된 시간 왜곡 정보(132)의 코드워드(tw_ratio[i], index), 상기 스펙트럼의 인코딩된 표현(142), 및 상기 샘플링 주파수를 기술하는 샘플링 주파수 정보(152)를 포함하는 것을 특징으로 하는 오디오 신호 인코더.
샘플링 주파수 정보, 인코딩된 시간 왜곡 정보, 및 인코딩된 스펙트럼 표현을 포함하는 인코딩된 오디오 시간 표현에 기초하여 디코딩된 오디오 신호 표현을 제공하기 위한 방법에 있어서,
상기 디코딩된 시간 왜곡 정보를 기술하는 디코딩된 시간 왜곡 값에 상기 인코딩된 시간 왜곡 정보의 코드워드들을 맵핑하기 위한 규칙이 상기 샘플링 주파수 정보에 따라 적응되는, 디코딩된 시간 왜곡 정보에 상기 인코딩된 시간 왜곡 정보를 맵핑하는 단계; 및
상기 인코딩된 스펙트럼 표현에 기초하고 상기 디코딩된 시간 왜곡 정보에 따라 상기 디코딩된 오디오 신호 표현을 제공하는 단계;
를 포함하는 것을 특징으로 하는 디코딩된 오디오 신호 표현을 제공하기 위한 방법.
인코딩된 시간 왜곡 정보에 시간 왜곡 윤곽을 기술하는 시간 왜곡 값을 맵핑하는 단계; 및
상기 시간 왜곡 윤곽 정보에 의해 기술된 시간 왜곡을 고려하여, 상기 오디오 신호의 스펙트럼의 인코딩된 표현을 얻는 단계;
를 포함하되,
상기 인코딩된 시간 왜곡 정보의 코드워드들에 상기 시간 왜곡 윤곽을 기술하는 시간 왜곡 값들을 맵핑하기 위한 맵핑 규칙은 상기 오디오 신호의 샘플링 주파수에 따라 적응되며;
상기 오디오 신호의 인코딩된 표현은 상기 인코딩된 시간 왜곡 정보의 코드워드들, 상기 스펙트럼의 인코딩된 표현, 및 상기 샘플링 주파수를 기술하는 샘플링 주파수 정보를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩된 표현을 제공하기 위한 방법.
컴퓨터 프로그램이 컴퓨터에서 구동할 때 청구항 14 또는 15에 따른 방법을 수행하기 위한 컴퓨터 프로그램이 저장된 기록 매체.