KR101360456B1

KR101360456B1 - 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩

Info

Publication number: KR101360456B1
Application number: KR1020117000659A
Authority: KR
Inventors: 스테판 바이어; 샤샤 디쉬; 랄프 가이거; 구일라우메 후쉬; 막스 누엔도르프; 제랄드 슐러; 번드 에들러
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2008-07-11
Filing date: 2009-07-06
Publication date: 2014-02-07
Also published as: JP5591386B2; US20150066489A1; CN103077722A; PT2410520T; CA2730239C; ES2758799T3; HK1155551A1; PL2410520T3; EP2410522B1; US9466313B2; CA2836871C; JP2014002403A; HK1182213A1; KR20110043589A; US20150066490A1; CA2836871A1; JP2014002404A; RU2011104002A; CA2836863C; US20150066493A1

Abstract

본 오디오 인코더는 윈도우 함수 제어기(504), 윈도우어(502), 최종 품질 체크 기능을 갖는 시간 워퍼(506), 시간/주파수 변환기(508), TNS 스테이지(510), 또는 양자화기 인코더(512)를 포함하고, 윈도우 함수 제어기(504), 윈도우어(502), 최종 품질 체크 기능을 갖는 시간 워퍼(506), 시간/주파수 변환기(508), TNS 스테이지(510), 또는 추가적인 노이즈 필링 분석기(524)는 시간 워프 분석기(516) 또는 신호 분류기(520)에 의해 얻어진 신호 분석 결과드에 의해 제어된다. 또한, 디코더가 오디오 신호의 하모닉 또는 스피치 특성에 따라 조작된 노이즈 필링 추정치를 이용하여 노이즈 필링 동작을 적용한다.

Description

시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩{Providing a Time Warp Activation Signal and Encoding an Audio Signal Therewith}

본 발명은 오디오 인코딩 및 디코딩, 특히 시간 워프 프로세싱에 제공될 수 있는, 하모닉 또는 스피치 내용을 갖는 오디오 신호의 인코딩/디코딩에 관한 것이다.

아래에서는, 그 개념이 본 발명의 여러 실시예들과 결합하여 적용될 수 있는, 시간 워핑된 오디오 인코딩 분야에 대한 간략한 소개가 주어질 것이다.

최근, 오디오 신호를 주파수 영역 표현으로 변환하고, 이러한 주파수 영역 표현을 효율적으로, 예를 들어 지각적(perceptual) 마스킹 임계치를 고려하여, 인코딩하기 위한 기술이 개발되어 왔다. 오디오 신호 인코딩의 이러한 개념은 특히, 일련의 인코딩된 스펙트럴 계수들이 전송되는, 블록 길이가 길고, 또한 상대적으로 작은 개수의 스펙트럴 계수들만이 글로벌 마스킹 임계치를 잘 넘어서고 많은 개수의 스펙트럴 계수들은 글로벌 마스킹 임계치 근처 또는 그 아래에 있어 무시할 수 있는(혹은 최소 코드 길이로 코딩되는) 경우에, 효율적이다.

예를 들어, 코싸인 기반 혹은 싸인-기반 변조된 랩드 변환이 그 에너지 다짐(compaction) 속성으로 인해 종종 소스 코딩을 위한 어플리케이션들에 사용될 수 있다. 즉, 일정한 기본 주파수들(피치)를 가지는 하모닉 톤들에 대해, 이러한 변환들은 신호 에너지를 적은 개수의 스펙트럴 성분들(서브-밴드들)로 집중시키고, 이는 효율적인 신호 표현을 이끌어낸다.

일반적으로, 신호의 (기본) 피치는 신호의 스펙트럼으로부터 구별가능한 최저 지배(dominant) 주파수로 이해될 것이다. 통상적인 스피치 모델에서, 피치는 인간의 목에 의해 변조된 여기 신호의 주파수이다. 만일 단 하나의 단일 기본 주파수만 존재한다면, 스펙트럼은 기본 주파수 및 오버톤들만을 포함하여, 극히 단순해질 것이다. 이러한 스펙트럼은 아주 효율적으로 인코딩될 수 있다. 하지만, 변화하는 피치를 가지는 신호에 대해서는 각 하모닉 성분들에 대응하는 에너지가 여러 변환 계수들에 걸쳐 분포되고, 따라서 코딩 효율성이 감소하게 된다.

이러한 코딩 효율성의 감소를 극복하기 위해, 인코딩될 오디오 신호는 비-균일 시간 그리드 상에서 효율적으로 재샘플된다. 이어지는 프로세싱에서, 비-균일 재샘플링에 의해 얻어진 샘플 위치들은 균일 시간 그리드 상에서의 값들을 표현하는 것처럼 처리된다. 이러한 동작은 흔히 '시간 워핑'이라는 용어에 의해 표시된다. 샘플 시간들은 피치의 시간적 변동에 따라 유리하게 선택되어, 오디오 신호의 시간 워핑된 버전에서의 피치 변동이 오디오 신호의 원래 버전(시간 워핑 이전)에서의 피치 변동보다 작을 수 있다. 이러한 피치 변동은 또한 "시간 워프 윤곽선"이라는 용어로 표현될 수 있다. 오디오 신호의 시간 워핑 이후, 오디오 신호의 시간 워핑된 버전은 주파수 영역으로 변환된다. 피치-의존적 시간 워핑은 시간 워핑된 오디오 신호의 주파수 영역 표현이 일상적으로 원래 (비 시간 워핑된) 오디오 신호의 주파수 영역 표현보다 훨씬 더 적은 개수의 스펙트럴 성분들로 에너지 다짐화를 보여주는 효과를 갖는다.

디코더 측에서, 시간 워핑된 오디오 신호의 주파수 -영역 표현은 시간 도메인으로 다시 변환되어, 시간 워핑된 오디오 신호의 시간-영역 변환이 디코더 측에서 가능해진다. 하지만, 디코더 측의 재구성된 시간 워핑된 오디오 신호의 시간-영역 표현에서, 인코더-측의 입력 오디오 신호의 원래 피치 변동은 포함되지 않는다. 따라서, 시간 워핑된 오디오 신호의 디코더-측의 재구성된 시간 영역 표현의 재샘플링에 의한 다른 시간 워핑이 적용된다. 디코더 측에서 인코더-측의 입력 오디오 신호의 양호한 재구성을 얻기 위해서는, 디코더 측의 시간 워핑이 인코더-측의 시간 워핑에 대하여 적어도 대략적으로 역 동작인 것이 바람직하다. 적절한 시간 워핑을 얻기 위해서는, 디코더-측의 시간 워핑의 조절을 참작하는 디코더 측에서 유효한 정보를 가지는 것이 바람직하다.

통상적으로 오디오 신호 인코더로부터 오디오 신호 디코더로의 이러한 정보의 전달이 요청됨에 따라, 디코더 측에서 요청된 시간 워프 정보의 신뢰할만한 재구성을 여전히 허용하면서 이러한 전송에 필요한 비트 레이트를 낮게 유지하는 것이 바람직하다.

상술한 논의의 측면에서, 오디오 인코더에서 시간 워프의 비트레이트 효율적인 어플리케이션을 참작하는 개념을 창출하는 것이 바람직하다.

본 발명은 시간 워핑 오디오 신호 인코더 또는 시간 워핑 오디오 신호 디코더에서 유효한 정보에 기초하여 인코딩된 오디오 신호에 의해 제공된 청취감을 향상시키는 개념을 생성하는 것을 목적으로 한다.

이러한 목적은 청구항 1에 따른 오디오 신호의 표현에 기초하여 시간 워프 활성 신호를 제공하는 시간 워프 활성 신호 제공기, 청구항 12에 따른 입력 오디오 신호를 인코딩하는 오디오 신호 인코더, 청구항 14에 따른 시간 워프 활성 신호를 제공하는 방법, 청구항 15에 따른 입력 오디오 신호의 인코딩된 표현을 제공하는 방법, 또는 청구항 16에 따른 컴퓨터 프로그램에 의해 달성된다.

본 발명의 또 다른 목적은, 더 높은 품질 또는 더 낮은 비트레이트를 제공하는, 향상된 오디오 인코딩/디코딩 방법을 제공하는 데 있다.

이러한 목적은 청구항 17, 26, 32, 37에 따른 오디오 인코더, 청구항 20에 따른 오디오 디코더, 청구항 23, 청구항 30, 청구항 35 또는 청구항 37에 따른 오디오 인코딩 방법, 청구항 24에 따른 디코딩 방법, 청구항 25, 31, 36 또는 43에 따른 컴퓨터 프로그램에 의해 달성된다.

본 발명에 따른 실시예들은 시간 워핑된 MDCT 변환 코더를 위한 방법에 관련된다. 몇몇 실시예들은 인코더-만의 수단과 관련된다. 하지만, 다른 실시예들은 또한 디코더 수단들과 관련된다.

본 발명의 일 실시예는 오디오 신호의 표현에 기초하여 시간 워프 활성 신호를 제공하는 시간 워프 활성 신호 제공기를 생성한다. 시간 워프 활성 신호 제공기는 오디오 신호의 시간 워프 변환된 스펙트럼 표현으로 에너지 다짐을 서술하는 에너지 다짐 정보를 제공하도록 구성된 에너지 다짐 정보 제공기를 포함한다. 시간 워프 활성 신호 제공기는 또한, 참조 값과 에너지 다짐 정보를 비교하고, 비교의 결과에 따라 시간 워프 활성 신호를 제공하도록 구성된 비교기를 포함한다.

이 실시예는, 만일 오디오 신호의 시간 워프 변환된 스펙트럼 표현이, 에너지가 하나 이상의 스펙트럴 지역들(또는 스펙트럴 라인들)에 집중되는 충분히 다져진(compact) 에너지 분포를 포함한다면, 인코딩된 오디오 신호의 비트레이트 감소라는 측면에서, 오디오 신호 인코더에서의 시간 워프 기능의 사용이 통상적으로 개선을 가져온다는 발견에 기초한다. 이것은 성공적인 시간 워핑이, 예를 들어 오디오 프레임의 스미어드(smeared) 스펙트럼을 하나 이상의 식별가능한 피크들을 가지는 스펙트럼으로 변환하고, 따라서 원래 (비-시간-워핑된) 오디오 신호의 스펙트럼보다 더 높은 에너지 다짐을 가짐으로써, 비트레이트를 감소시키는 효과를 가져온다는 사실에 기인한다.

이러한 이슈와 관련하여, 오디오 신호 프레임은, 오디오 신호의 피치가 상당히 변화하는 동안에는, 스미어드 스펙트럼을 포함함이 이해되어야 할 것이다. 오디오 신호의 시간 변화 피치는 오디오 신호 프레임 상에서 실행되는 시간-영역 대 주파수-영역 변환이, 특히 더 높은 주파수 영역에서의, 주파수 상에서의 신호 에너지의 스미어드 분포를 도출하는 효과를 가진다. 따라서, 이러한 원래 (비-시간 워핑된) 오디오 신호의 스펙트럼 표현은 낮은 에너지 다짐을 포함하고, 통상적으로 스펙트럼의 더 높은 주파수 부분에서 스펙트럴 피크들을 보여주지 않거나, 혹은 스펙트럼의 더 높음 주파수 부분에서 상대적으로 작은 스펙트럴 피크들만을 나타낸다. 대조적으로, 만일 시간 워핑이 성공적이라면(인코딩 효율성의 개선을 제공한다는 측면에서) 원래 오디오 신호의 시간 워핑은 비교적 더 높고 더 깨끗한 피크들을(특히 스펙트럼의 더 높은 주파수 부분에서) 가지는 스펙트럼을 가지는 시간 워핑된 오디오 신호를 야기한다. 이는 시간 변화하는 피치를 가지는 오디오 신호가 더 적은 피치 변동 또는 대략적으로 일정한 피치를 가지는 시간 워핑된 오디오 신호로 변환되기 때문이다. 따라서, 시간 워핑된 오디오 신호(오디오 신호의 시간 워프 변환된 스펙트럼 표현으로서 고려될 수 있는)의 스펙트럼 표현은 하나 이상의 더 깨끗한 스펙트럴 피크들을 포함한다. 다시 말해, (시간적으로 가변적인 피치를 갖는)원래 오디오 신호의 스펙트럼의 스미어링이 성공적인 시간 워프 동작에 의해 감소되고, 오디오 신호의 시간 워프 변환된 스펙트럼 표현이 원래의 오디오 신호의 스펙트럼보다 더 높은 에너지 다짐을 포함하게 된다. 그럼에도 불구하고, 시간 워핑이 항상 코딩 효율을 향상시키는 데 성공적인 것은 아니다. 예를 들어, 입력 오디오 신호가 큰 노이즈 성분들을 포함한다면, 혹은 추출된 시간 워프 윤곽선이 부정확하다면, 시간 워핑은 코딩 효율성을 향상시키지 않는다.

이러한 상황적 관점에서, 에너지 다짐 정보 제공기에 의해 제공되는 에너지 다짐 정보는 비트레이트를 감소시키는 측면에서 시간 워프가 성공적인지 결정하는 유용한 지시자가 된다.

본 발명의 일 실시예는 오디오 신호의 표현에 기초하여 시간 워프 활성 신호를 제공하는 시간 워프 활성 신호 제공기를 생성한다. 시간 워프 활성 신호 제공기는 다른 시간 워프 윤곽선 정보를 이용하여 동일한 오디오 신호의 2 개의 시간 워프 표현들을 제공하도록 구성된 2 개의 시간 워프 표현 제공기를 포함한다. 따라서, 시간 워프 표현 제공기는 (구성적으로 및/또는 기능적으로) 동일한 방식으로 구성될 수 있고, 동일한 오디오 신호, 하지만 다른 시간 워프 윤곽선 정보를 이용할 수 있다. 시간 워프 활성 신호 제공기는 또한, 제1 시간 워프 표현에 기초하여 제1 에너지 다짐 정보를 제공하고, 제2 시간 워프 표현에 기초하여 제2 에너지 다짐 정보를 제공하도록 구성되는 두 개의 에너지 다짐 정보 제공기를 포함한다. 상기 에너지 다짐 정보 제공기는 동일한 방식으로 구성될 수 있지만, 다른 시간 워프 표현들을 사용하도록 구성될 수 있다. 또한, 시간 워프 활성 신호 제공기는 두 개의 다른 에너지 다짐 정보를 비교하고, 비교 결과에 따라 시간 워프 활성 신호를 제공하는 비교기를 포함한다.

바람직한 일 실시예에서, 에너지 다짐 정보 제공기는 에너지 다짐 정보로서 오디오 신호의 시간 워프 변환된 스펙트럼 표현을 나타내는 스펙트럴 편평도 척도를 제공하도록 구성된다. 시간 워핑이, 입력 오디오 신호의 스펙트럼을, 입력 오디오 신호의 시간 워핑된 버전을 나타내는 덜 평평한 시간 워프 스펙트럼으로 변환한다면, 비트레이트를 감소시킨다는 측면에서 성공적이라는 것이 밝혀졌다. 따라서, 스펙트럴 편평도의 척도는 전체적인 스펙트럴 인코딩 프로세스를 수행하지 않고도, 시간 워프가 활성화되어야 할지 비활성화되어야 할지 결정하는 데 사용될 수 있다.

바람직한 일 실시예에서, 에너지 다짐 정보 제공기는 오디오 신호의 시간 워프 변환된 파워 스펙트럼의 기하학적 평균의 지수(quotient) 및 시간 워프 변환된 파워 스펙트럼의 산술적 평균을 계산하고, 스펙트럴 편평도의 척도를 획득하도록 구성된다. 이 지수는 시간 워핑에 의해 획득 가능한 가능한 비트레이트 절약을 서술하도록 잘 적용된 스펙트럴 편평도 척도임이 밝혀졌다.

다른 바람직한 일 실시예에서, 에너지 다짐 정보 제공기는 에너지 다짐 정보를 획득하기 위해 시간 워프 변환된 스펙트럼의 낮은 주파수 부분과 비교하여, 시간 워프 변환된 스펙트럼의 높은-주파수 부분을 강조하도록 구성된다. 이러한 개념은 시간 워프가 통상적으로 낮은 주파수 범위보다 높은 주파수 범위 상에서 훨씬 큰 영향을 가진다는 사실에 기초한다. 그에 따라, 스펙트럴 편평도 척도를 이용하여 시간 워프의 유효성을 결정하기 위해서는 더 높은 주파수 범위에서의 지배 평가가 적합하다. 게다가, 통상적인 오디오 신호들은 주파수가 증가함에 따라 강도가 감쇄하는 하모닉 컨텐트(기본 주파수의 하모닉들을 포함하는)를 나타낸다. 시간 워프 변형된 스펙트럼 표현의 더 낮은 주파수 부분에 비해 시간 워프 변형된 스펙트럼 표현의 더 높은 주파수 부분의 강조는 또한 주파수가 증가함에 따라 스펙트럴 라인들의 이러한 통상적인 감쇄를 보상하는 것을 도와준다. 요약하자면, 스펙트럼의 더 높은 부분의 강조된 고려는 에너지 다짐 정보의 증가된 신뢰성을 가져오고, 그에 따라 시간 워핑된 활성 신호의 보다 신뢰성 있는 제공을 허락한다.

다른 바람직한 일 실시예에서, 에너지 다짐 정보 제공기는 스펙트럴 편평도의 복수의 대역-방식 척도들을 제공하고, 스펙트럴 편평도의 복수의 대역-방식 척도들의 평균을 계산하도록 구성된다. 스펙트럴 편평도의 복수의 대역-방식 척도들의 고려는 시간 워프가 인코딩된 오디오 신호의 비트레이트를 감소시키는 데 효율적인가와 관련하여 특별히 신뢰성 있는 정보를 가져온다는 것이 밝혀졌다. 첫째, 시간 워프 변형된 스펙트럼 표현의 인코딩은 통상적으로 대역-방식 형태로 수행되어, 스펙트럴 편평도의 대역-방식 척도들의 조합이 인코딩에 잘 적응되도록 하고, 그에 따라 양호한 정확도로 획득할만한 비트레이트의 개선을 나타낸다. 또한, 스펙트럴 편평도의 척도들의 대역-방식 계산은 하모닉들의 분포로부터의 에너지 다짐 정보의 의존성을 실질적으로 제거한다. 예를 들어, 더 높은 주파수 대역이 상대적으로 작은 에너지(더 낮은 주파수 대역들의 에너지들보다 더 작은)를 포함한다 하더라도, 더 높은 주파수 대역은 여전히 지각적으로 관련될 수 있다. 하지만, 만일 스펙트럴 편평도 척도가 대역-방식 형태로 계산되지 않는다면, 단지 더 높은 주파수 대역의 작은 에너지 때문에, 이러한 더 높은 주파수 대역 상에서의 시간 워프의 긍정적인 영향(스펙트럴 라인들의 스미어링의 감소라는 관점에서)이 작게 고려될 것이다. 대조적으로 대역-방식 연산을 적용함으로써, 대역-방식 스펙트럴 편평도 척도들이 개별적인 주파수 대역들에서 절대 에너지에 의존적이기 때문에, 시간 워프의 긍정적 영향이 적절한 가중치를 가지고 고려될 수 있다.

또 다른 바람직한 실시예에서, 시간 워프 활성 신호 제공기는, 참조 값을 획득하기 위해 오디오 신호의 비-시간-워핑된 스펙트럼 표현을 나타내는 스펙트럴 편평도의 척도를 계산하도록 구성된 참조 값 계산기를 포함한다. 그에 따라, 시간 워프 활성 신호는 입력 오디오 신호의 비-시간-워핑된(또는 "워핑되지 않은") 버전의 스펙트럴 편평도 및 입력 오디오 신호의 시간 워핑된 버전의 스펙트럴 편평도의 비교에 기초하여 제공될 수 있다.

또 다른 바람직한 일 실시예에서, 에너지 다짐 정보 제공기는 에너지 다짐 정보로서 오디오 신호의 시간 워프 변환된 스펙트럼 표현을 나타내는 지각적 엔트로티의 척도를 제공하도록 구성된다. 이러한 개념은, 시간 워프 변환된 스펙트럼 표현이 시간 워프 변환된 스펙트럼을 인코딩하는 데 필요한 비트의 개수(또는 비트레이트)의 좋은 추정치가 된다는 사실에 기초한다. 따라서, 시간 워프 변형된 스펙트럼 표현의 지각적 엔트로피의 척도는, 시간 워프가 사용되면 추가적인 시간 워프 정보가 인코딩되어야 한다는 사실의 관점에서도, 시간 워핑에 의해 비트레이트의 감소가 예측될 수 있는지에 관한 좋은 척도가 된다.

또 다른 바람직한 일 실시예에서, 에너지 다짐 정보 제공기는 에너지 다짐 정보로서 오디오 신호의 시간 워프된 표현의 자기상관을 나타내는 자기상관 척도를 제공하도록 구성된다. 이러한 개념은 시간 워프의 효율성(비트레이트를 감소시키는 측면에서)이 시간 워핑된(또는 비-균일하게 재샘플된) 시간 영역 신호에 기초하여 측정(또는 적어도 추정)될 수 있다는 점에 기초한다. 시간 워핑된 시간 영역 신호가, 자기상관 척도에 의해 반영되는, 상대적으로 높은 정도의 주기성을 가지는 경우 시간 워핑이 효율적임이 발견되었다. 반대로, 만일 시간 워핑된 시간 영역 신호가 상당한 주기성을 포함하지 않는다면, 시간 워핑이 효율적이지 않다는 결론에 이를 수 있다.

이러한 발견은 효율적인 시간 워프 변환이 변화하는 주파수(주기성을 포함하지 않는)의 싸인파 신호의 부분을 대략적으로 일정한 주파수(높은 정도의 주기성을 포함하는)의 싸인파 신호의 부분으로 변환한다는 사실에 기초한다. 반대로, 시간 워핑이 높은 정도의 주기성을 가지는 시간 영역 신호를 제공할 능력을 가지지 못하는 경우, 시간 워핑 또한, 시간 워핑의 적용을 정당화할 상당한 비트레이트 절약을 제공하지 못하는 것으로 예측될 수 있다.

바람직한 일 실시예에서, 에너지 다짐 정보 제공기는 오디오 신호의 시간 워핑된 표현의 정규화된 자기상관 함수의 절대 값들의 합을 결정(복수의 래그 값들에 걸쳐)하여 에너지 다짐 정보를 획득하도록 구성된다. 자기상관 피크들의 계산적으로 복잡한 결정은 시간 워핑의 효율성을 추정하는 데 필요치 않음이 밝혀졌다. 그보다는, 자기상관 래그 값들의 (넓은) 범위에 걸쳐 자기상관의 합산하는 평가 또한 매우 신뢰성있는 결과를 가져온다는 점이 발견되었다. 이것은 시간 워프가 실질적으로 변화하는 주파수의 복수의 신호 성분들(예를 들어, 기본 주파수 및 그 하모닉들)을 주기적 신호 성분들로 변환한다는 사실에 기인한다. 그에 따라, 이러한 시간 워핑된 신호의 자기 상관은 복수의 자기 상관 래그 값들의 피크들을 나타낸다. 따라서, 합산-형태가 자기상관으로부터 에너지 다짐 정보를 추출하는 계산적으로 효율적인 방법이다.

다른 바람직한 일 실시예에서, 시간 워프 활성 신호 제공기는 비-시간-워핑된 스펙트럼 표현에 기초하여 또는 오디오 신호의 비워핑 시간 영역 표현에 기초하여 참조 값을 계산하도록 구성된 참조 값 계산기를 포함한다. 이 경우, 비교기는 통상적으로 오디오 신호의 시간 워프된 표현에서의 에너지의 다짐을 나타내는 에너지 다짐 정보 및 참조 값을 이용해 비율 값을 형성하도록 구성된다. 비교기는 또한 비율 값을 하나 이상의 임계치들과 비교하여 시간 워프 활성 신호를 획득하도록 구성된다. 비-시간-워핑된 경우에서의 에너지 다짐 정보와 시간 워핑된 경우의 에너지 다짐 정보 사이의 비율은 계산적으로 효율적이면서도 여전히 시간 워프 활성 신호의 충분히 신뢰성있는 생성을 허용함이 밝혀졌다.

본 발명의 또 다른 바람직한 일 실시예는 입력 오디오 신호의 인코딩된 표현을 획득하기 위해, 입력 오디오 신호를 인코딩하는 오디오 신호 인코더를 생성한다. 오디오 신호 인코더는 시간 워프 윤곽선을 이용해 입력 오디오 신호에 기초하여 시간 워프 변환된 스펙트럴 표현을 제공하도록 구성된 시간 워프 변환기를 포함한다. 오디오 신호 인코더는 또한, 앞서 상술한 시간 워프 활성 신호 제공기를 포함한다. 시간 워프 활성 신호 제공기는 입력 오디오 신호를 수신하고, 시간 워프 활성 신호를 제공하여 에너지 다짐 정보가 입력 오디오 신호의 시간 워프 변환된 스펙트럼 표현에서의 에너지 다짐을 서술하도록 구성된다. 오디오 신호 인코더는 추가적으로, 시간 워프 활성 신호에 따라, 설정된 비-균일(변화하는) 시간 워프 윤곽선 정보 또는 시간 워핑 정보, 또는 표준 균일한(비-변화하는) 시간 워프 윤곽선 정보 또는 시간 워핑 정보를, 시간 워프 변환기로 선택적으로 제공하는 제어기를 포함한다. 이러한 방식으로, 입력된 오디오 신호로부터 인코딩된 오디오 신호 표현의 도출에서의 설정된 비-균일 시간 워핑 윤곽선 부분을 선택적으로 수용 또는 거절하는 것이 가능하다.

이러한 개념은, 시간 워프 정보를 인코딩하기 위해 엄청난 개수의 비트가 필요하기 때문에, 입력 오디오 신호의 인코딩된 표현에 시간 워프 정보를 도입하는 것이 항상 효율적인 것은 아니라는 발견에 기초한다. 또한, 시간 워프 활성 신호 제공기에 의해 계산된 에너지 다짐 정보가, 설정된 비-균일(변화하는) 시간 워프 윤곽선 정보, 또는 표준(비-변화하는, 균일한) 시간 워프 윤곽선 정보를 시간 워프 변환기로 제공하는 것이 유리한지 여부를 결정하는 데 계산적으로 효율적인 척도라는 점이 밝혀졌다. 시간 워프 변환기가 중첩하는 변환을 포함하는 경우, 설정된 시간 워프 윤곽선 부분이 2 이상의 연속하는 변환 블록들의 계산에 사용될 수 있음을 유의해야 한다. 특히, 시간 워핑이 비트레이트 면에서 절약되는지 아는지를 결정하기 위해, 새로이 설정된 변화하는 시간 워프 윤곽선 부분을 이용한 입력 오디오 신호의 시간 워프 변환된 스펙트럴 표현의 버전 및 표준 (비-변화하는) 시간 워프 윤곽선 부분을 이용한 입력 오디오 신호의 시간 워프 변환된 스펙트럴 표현의 버전 모두를 전체적으로 인코딩하는 것은 불필요함이 밝혀졌다. 그보다는 입력 오디오 신호의 시간 워프 변환된 스펙트럴 표현의 에너지 다짐의 평가가 결정의 신뢰성있는 기반을 형성한다는 점이 발견되었다. 따라서, 필요한 비트레이트가 적게 유지될 수 있다.

바람직한 다른 실시예에서, 오디오 신호 인코더는 시간 워프 활성 신호에 따라, 설정된 변화하는 시간 워프 윤곽선을 나타내는 시간 워프 윤곽선 정보를 오디오 신호의 인코딩된 표현으로 선택적으로 포함시키도록 구성된, 출력 인터페이스를 포함한다. 따라서, 입력 신호가 시간 워핑에 매우 적합한지 아닌지와 무관하게, 오디오 신호 인코딩의 높은 효율성이 얻어질 수 있다.

본 발명에 따른 또 다른 실시예는 오디오 신호에 기초하여 시간 워프 활성 신호를 제공하는 방법을 생성한다. 이 방법은 시간 워프 활성 신호 제공기의 기능을 수행하고, 시간 워프 활성 신호 제공기에 대하여 여기 서술된 특성들 및 기능들 중 어느 것에 의해 보충될 수 있다.

본 발명에 따른 또 다른 실시예는, 입력 오디오 신호의 인코딩된 표현을 획득하기 위해, 입력 오디오 신호를 인코딩하는 방법을 생성한다. 이 방법은 오디오 신호 인코더와 관련하여 여기에 서술된 특성들 및 기능들 중 어느 것에 의해 보충될 수 있다.

본 발명에 따른 또 다른 실시예는, 앞서 서술한 방법들을 실행하는 컴퓨터 프로그램을 생성한다.

본 발명의 제1 측면에 따르면, 오디오 신호가 하모닉 특성 또는 스피치 특성을 가지는지 여부에 대한 분석이 인코더 측에서 및/또는 디코더 측에서 노이즈 필링 프로세싱을 제어하는 데 유리하게 사용될 수 있다. 오디오 신호 분석은, 시간 워프 기능이 사용되는 시스템에서 쉽게 획득 가능한데, 이러한 시간 워프 기능은 통상적으로 피치 트래커 및/또는 한편의 스피치 그리고 또 다른 한편의 음악을 구별 및/또는 유성음의 스피치 및 무성음의 스피치를 구분하는 신호 분류기를 포함하기 때문이다.

이러한 정보는 추가적인 비용없이 이용가능하기 때문에 이러한 이용가능한 정보가 노이즈 필링 특성을 제어하는 데 유리하게 사용될 수 있어, 특히 스피치 신호에 대해, 하모닉 라인들 간의 노이즈 필링이 감소되거나, 또는 특히 스피치 신호에 대해 심지어 제거될 수도 있게 된다. 강한 하모닉 성분(content)가 획득되지만 스피치가 스피치 검출기에 의해 직접적으로 검출되지 않는 경우에서도, 노이즈 필링의 감소가 그럼에도 불구하고 더 높은 감지된 품질을 도출할 것이다. 이러한 특성이 어쨌거나 하모닉/스피치 분석이 수행되는 시스템에서 특히 유용하고, 따라서, 이러한 정보가 어떤 추가적인 비용없이 이용 가능하지만, 품질이 비트레이트 증가 없이 향상되기 때문에 특정 신호 분석기가 시스템으로 삽입되어야 할 때, 또는 다른 말로 하자면, 인코더에서 디코더로 전송될 수 있는 노이즈 필링 레벨 자체가 감소될 때 노이즈 필링 레벨을 인코딩하는 데 필요한 비트가 감소되기 때문에 품질에서의 손실 없이 비트레이트 감소되는 경우에도, 신호가 하모닉 또는 스피치 특성을 갖고 있는지 아닌지에 대한 신호 분석에 기초한 노이즈 필링 방법의 제어가 추가적으로 유용하다.

본 발명의 추가적 측면에서, 신호 분석 결과, 즉 신호가 하모닉 신호 또는 스피치 신호인지 여부는 오디오 인코더의 윈도우 함수 프로세싱을 제어하는 데 사용된다. 스피치 신호 또는 하모닉 신호가 시작되는 상황에서 직접적인 인코더가 긴 윈도우로부터 짧은 윈도우로 스위칭할 것임이 밝혀졌다. 하지만, 이러한 짧은 윈도우는 상응하게 감소된 주파수 해상도를 가지지만 반대로, 강하게 하모닉한 신호에 대한 코딩 이득을 감소시키고, 그에 따라 이러한 신호 부분을 코딩하는 데 필요한 비트의 개수를 증가시킬 것이다. 이러한 관점에서, 이 측면에서 정의된 본 발명은스피치 또는 하모닉 신호 온셋(onset)이 검출된 경우 짧은 윈도우보다 긴 윈도우를 사용한다. 대안적으로, 윈도우들은, 프리-에코(pre-echo)를 효율적으로 감소시키기 위해 긴 윈도우와 대충 유사하게, 하지만 더 짧은 중첩을 갖도록 선택된다. 일반적으로 신호 특성, 오디오 신호의 시간 프레임이 하모닉 또는 스피치 특성을 갖는지 여부는 이러한 시간 프레임에 대한 윈도우 함수를 선택하는 데 사용된다.

본 발명의 추가적 측면에 따르면, TNS(temporal noise shaping) 수단은, 내재하는 신호가 시간 워핑 동작에 기초하는지 선형 도메인에 있는지에 기초하여 제어된다. 통상적으로 시간 워핑 동작에 의해 처리된 신호는 강한 하모닉 함유량을 가질 것이다. 그렇지 않으면, 시간 워핑 스테이지와 관련된 피치 트래커가 유효한 피치 윤곽선을 출력하지 않을 것이고, 이러한 유효한 피치 윤곽선이 없으면 오디오 신호의 이러한 시간 프레임 동안에 시간 워핑 기능이 비활성화될 것이다. 하지만, 일반적으로 하모닉 신호들에 대해 TNS 프로세싱을 적용하는 것이 적합하지 않다. TNS 프로세싱은, TNS 스테이지에 의해 처리되는 신호가 상당히 평평한 스펙트럼을 갖는 경우 특히 유용하고 비트레이트/품질에서 상당한 이득을 유발한다. 하지만, 신호의 형태가하모닉 성분 또는 유성음 성분을 갖는 스펙트럼들의 경우에서와 같이, 톤형, 즉, 비-평평한 경우, TNS 수단에 의해 제공된 품질/비트레이트에서의 이득은 감소할 것이다. 그러므로, TNS 수단의 큰 변형없이, 시간-워핑된 부분들은 통상적으로 TNS 처리되지 않고, TNS 필터링 없이 처리될 것이다. 반대로, 그럼에도 불구하고 TNS의 노이즈 형성 특성은 신호가 진폭/파워에서 변화하는 상황들에서 특히 향상된 품질을 제공한다. 하모닉 신호 또는 스피치 신호의 온셋이 있는 곳, 그리고 블록 스위칭 특성이 구현되어, 이러한 온셋 대신 긴 윈도우 혹은 적어도 짧은 윈도우보다 더 긴 윈도우들이 유지되는 곳의 경우에, 이러한 프레임에 대해 시간적 노이즈 형성 특성의 활성화가, 이어지는 인코더 프로세싱에서 일어나는 프레임의 양자화로 인해 스피치의 온셋 이전에 일어날 수 있는 프리-에코를 효율적으로 감소시키는 스피치 온셋 주위에 노이즈의 집중을 도출할 것이다.

본 발명의 추가적 측면에 따르면, 가변 대역폭을 고려하기 위해, 가변 시간 워핑 특성/워핑 윤곽선을 이용한 시간 워핑 동작을 수행함으로 인해 프레임마다(from frame to frame) 도입되는, 가변적인 개수의 라인들이 오디오 인코딩 장치 내의 양자화기/엔트로피 인코더에 의해 처리된다. 시간 워핑 동작이 시간 워핑 프레임에 (선형적 방식으로) 포함된 프레임의 시간이 감소되는 상황을 초래할 때, 단일 주파수 라인의 대역폭, 및 일정한 전체 대역폭을 위한, 다수의 주파수 라인들이 비-시간 워프 상황과 관련하여 증가되어야 한다. 반면, 시간 워핑 동작이 시간 워핑 영역에서의 오디오 신호의 실제적인 시간이 선형 영역에서의 오디오 신호의 블로 길이에 대해 감소되는 사실을 초래할 때, 단일 주파수 라인의 주파수 대역폭이 감소되고, 그러므로, 감소된 대역폭 변동 또는, 최적으로, 대역폭 변동이 없게 하기 위해, 소스 인코더에 의해 처리되는 라인들의 개수가 비-시간-워핑 상황에 대해 감소되어야 한다.

시간 워핑 오디오 신호 인코더 또는 시간 워핑 오디오 신호 디코더에서 유효한 정보에 기초하여 인코딩된 오디오 신호를 제공하는 본 발명에 따르면, 청취감을 향상시키킬 뿐 아니라 더 높은 품질 또는 더 낮은 비트레이트를 제공한다.

도 1은 본 발명의 일 실시예에 따른, 시간 워프 활성 신호 제공기의 블록 개략 다이어그램을 도시한다.
도 2a는 본 발명의 일 실시예에 따른, 오디오 신호 인코더의 블록 개략 다이어그램을 도시한다.
도 2b는 본 발명의 일 실시예에 따른, 시간 워프 활성 신호 제공기의 다른 블록 개략 다이어그램을 도시한다.
도 3a는 오디오 신호의 비-시간-워핑된 버전의 스펙트럼의 그래픽적 표현을 나타낸다.
도 3b는 오디오 신호의 시간 워핑된 버전의 스펙트럼의 그래픽적 표현을 나타낸다.
도 3c는 여러 주파수 대역들을 위한 스펙트럴 편평도 척도의 개별적 연산의 그래픽적 표현을 나타낸다.
도 3d는 스펙트럼의 높은 주파수 부분만을 고려한 스펙트럴 편평도 척도 연산의 그래픽적 표현을 나타낸다.
도 3e는 낮은 주파수 부분보다 높은 주파수 부분이 강조된 스펙트럼 표현을 이용한 스펙트럴 편평도 척도 연산의 그래픽적 표현을 나타낸다.
도 3f는 본 발명의 다른 일 실시예에 따른, 에너지 다짐 정보 제공기의 블록 개략 다이어그램을 도시한다.
도 3g는 시간 영역에서 시간적으로 가변적인 피치를 가지는 오디오 신호의 그래픽적 표현을 나타낸다.
도 3h는 도 3g의 오디오 신호의 시간 워핑된 (비-균일하게 재샘플된) 버전의 그래픽적 표현을 나타낸다.
도 3i는 도 3g에 따른 오디오 신호의 자기 상관 함수의 그래픽적 표현을 나타낸다.
도 3j는 도 3h에 따른 오디오 신호의 자기 상관 함수의 그래픽적 표현을 나타낸다.
도 3k는 본 발명의 또 다른 일 실시예에 따른, 에너지 다짐 정보 제공기의 블록 개략 다이어그램을 도시한다.
도 4a는 오디오 신호에 기초하여 시간 워프 활성 신호를 제공하는 방법의 플로우차트를 보여준다.
도 4b는 본 발명의 일 실시예에 따라, 입력 오디오 신호의 인코딩된 표현을 획득하기 위해 인코딩된 입력 오디오 신호를 인코딩하는 방법의 플로우차트를 나타낸다.
도 5a는 발명의 측면들을 가지는 오디오 인코더의 바람직한 일 실시예를 도시한다.
도 5b는 발명의 측면들을 가지는 오디오 디코더의 바람직한 일 실시예를 도시한다.
도 6a는 본 발명의 노이즈 필링 측면의 바람직한 일 실시예를 도시한다.
도 6b는 노이즈 필링 레벨 조작기에 의해 수행되는 제어 동작을 정의하는 테이블을 도시한다.
도 7a는 본 발명에 따라 시간 워프-기반 블록 스위칭을 수행하는 바람직한 일 실시예를 도시한다.
도 7b는 윈도우 함수에 영향을 주는 다른 대안적 실시예를 도시한다.
도 7c는 시간 워프 정보에 기초한 윈도우 함수를 도시하는 또 다른 대안적인 실시예를 도시한다.
도 7d는 유성음의 온셋에서 정상 AAC 동작의 윈도우 시퀀스를 도시한다.
도 7e는 본 발명의 바람직한 일 실시예에 따라 얻어진 다른 윈도우 시퀀스를 도시한다.
도 8a는 TNS(temporal noise shaping) 수단의 시간 워프-기반 제어의 바람직한 실시예를 도시한다.
도 8b는 도 8a의 임계치 제어 신호 생성기에서 실행되는 제어 절차들을 정의하는 테이블을 도시한다.
도 9a 내지 9e는 여러 시간 워핑 특성들 및 디코더-측 시간 역워핑(dewarping) 동작에 후속하여 일어나는 오디오 신호의 대역폭에 대한 상응하는 영향을 도시한다.
도 10a는 인코딩 프로세서 내의 라인들의 개수를 제어하는 제어기의 바람직한 일 실시예를 도시한다.
도 10b는 샘플링 레이트에 대한 파기/추가되어야 할 라인의 개수의 관계를 나타낸다.
도 11은 선형 시간 스케일 및 워핑된 시간 스케일 간의 비교를 나타낸다.
도 12a는 대역폭 확장의 관점에서의 구현을 도시한다.
도 12b는 시간 워핑된 영역에서의 지역적 샘플링 레이트 및 스펙트럴 계수들의 제어 간의 관계를 나타내는 테이블을 도시한다.

이하, 첨부의 도면들을 참조하여 바람직한 실시예들이 순서대로 설명될 것이다.

도 1은 본 발명의 일 실시예에 따른, 시간 워프 활성 신호 제공기의 블록 개략 다이어그램을 도시한다. 시간 워프 활성 신호 제공기(100)는 오디오 신호의 표현(110)을 수신하고, 이를 기초로 시간 워프 활성 신호(112)를 제공하도록 구성된다. 시간 워프 활성 신호 제공기(100)는 오디오 신호의 시간 워프 변형된 스펙트럼 표현의 에너지 다짐을 나타내는 에너지 다짐 정보(122)를 제공하도록 구성된 에너지 다짐 정보 제공기(120)를 포함한다. 시간 워프 활성 신호 제공기(100)는 참조 값(132)과 에너지 다짐 정보(122)를 비교하고, 비교의 결과에 따라 시간 워프 활성 신호(112)를 제공하도록 구성된 비교기(130)를 더 포함한다.

앞서 서술된 바와 같이, 에너지 다짐 정보는 시간 워프가 비트 절약을 가져오는지 아닌지에 대해 계산적으로 효율적인 추정을 제공한다는 것을 밝혀냈다. 비트 절약은 시간 워프가 에너지 다짐을 도출하느냐 아니냐의 문제와 밀접하게 관련되어 있다.

도 2a는 본 발명의 일 실시예에 따른, 오디오 신호 인코더(200)의 블록 개략 다이어그램을 도시한다. 오디오 신호 인코더(200)는 입력 오디오 신호(210)(a(t)로도 표현됨)를 수신하여, 이를 기초로 입력 오디오 신호(210)의 인코딩된 표현(212)를 제공하도록 구성된다. 오디오 신호 인코더(200)는 입력 오디오 신호(210)( 시간 영역으로 표현될 수 있음)를 수신하고, 이에 기초하여 입력 오디오 신호(210)의 시간 워프 변환된 스펙트럴 표현(222)을 제공하도록 구성된 시간 워프 변환기(220)를 포함한다. 오디오 신호 인코더(200)는 또한, 입력 오디오 신호(210)를 분석하여, 이를 기초로 시간 워프 윤곽선 정보(예를 들어, 절대적 혹은 상대적 시간 워프 윤곽선 정보)(286)를 제공하도록 구성된 시간 워프 분석기(284)를 포함한다.

오디오 신호 인코더(200)는 또한, 추가적인 프로세싱에 설정된 시간 워프 윤곽선 정보(286)가 사용되는지 또는 표준 시간 워프 윤곽선 정보(288)가 사용되는지 결정기 위해, 예를 들어 제어되는 스위치(240)의 형태의, 스위칭 메카니즘을 포함한다. 따라서, 스위칭 메카니즘(240)은 시간 워프 활성 정보에 따라, 설정된 시간 워프 윤곽선 정보(286) 또는 표준 시간 워프 윤곽선 정보(288)를, 후속 프로세싱을 위한 새로운 시간 워프 윤곽선 정보(242)로서, 예를 들어, 시간 워프 변환기(220)로 선택적으로 제공한다. 시간 워프 변환기(220)는, 오디오 프레임의 시간 워핑을 위해, 예를 들어 새로운 시간 워프 윤곽선 정보(242)(예를 들어 새로운 시간 워프 윤곽선 부분) 및, 추가적으로, 이전에 얻어진 시간 워프 정보(예를 들어 하나 이상의 이전에 얻어진 시간 워프 윤곽선 부분들)를 사용할 수 있다. 선택적 스펙트럼 포스트(post) 프로세싱은 예를 들어 시간적 노이즈 형성 및/또는 노이즈 필링 분석을 포함할 수 있다. 오디오 신호 인코더(200)는 또한, 스펙트럴 표현(222)을 수신하여(선택적으로 스펙트럼 포스트 프로세싱(250)에 의해 처리되는) 변환된 스펙트럴 표현(222)을 양자화하고 인코딩하는 양자화기/인코더(260)을 포함한다. 이러한 목적으로, 인간 지각에 따라 지각적 마스킹을 고려하고 여러 주파수 빈들에서 양자화정확도를 조절하기 위해, 양자화기/인코더(260)는 지각적 모델(270)과 결합되어 지각적 모델(270)로부터 지각적 관련 정보(272)를 수신할 수 있다. 오디오 신호 인코더(200)는 양자화기/인코더(260)에 의해 제공되는 양자화되고 인코딩된 스펙트럴 표현(262)에 기초하여 오디오 신호의 인코딩된 표현을 제공하도록 구성된, 출력 인터페이스(280)를 더 포함한다.

오디오 신호 인코더(200)는 또한 시간 워프 활성 신호(232)를 제공하도록 구성된 시간 워프 활성 신호 제공기(230)를 포함한다. 시간 워프 활성 신호(232)는 추가적인 프로세싱 단계들(예를 들어 시간 워프 변환기(220))에서 새로이 설정된 시간 워프 윤곽선 정보(286)가 사용될지 또는 표준 시간 워프 윤곽선 정보(288)가 사용될지를 결정하기 위해, 예를 들어 스위칭 메카니즘(240)을 제어하는 데 사용될 수 있다. 추가적으로, 시간 워프 활성 정보(232)가, 선택된 새로운 시간 워프 윤곽선 정보(242)(새로이 설정된 시간 워프 윤곽선 정보(286) 및 표준 시간 워프 윤곽선 정보(288)로부터 선택된)가 입력 오디오 신호(210)의 인코딩된 표현에 포함되어야 할지 여부를 결정하기 위해, 스위치(280)에서 사용될 수 있다. 통상적으로 시간 워프 윤곽선 정보는, 선택된 시간 워프 윤곽선 정보가 비-균일(변화하는) 시간 워프 윤곽선을 나타내는 경우, 오디오 신호의 인코딩된 표현(212)으로만 포함된다. 또한, 시간 워프 활성 정보(232)는 자체적으로 예를 들어 시간 워프의 활성화 또는 비활성화를 나타내는 1-비트 플래그의 형태로, 인코딩된 표현(212)에 포함될 수 있다.

이해를 돕기 위해, 시간 워프 변환기(220)가 통상적으로 분석 윈도우어(220a), 재샘플러 또는 "시간 워퍼"(220b) 및 스펙트럴 영역 변환기(또는 시간/주파수 변환기)(220c)를 포함함이 이해되어야 할 것이다. 하지만, 구현에 따라, 시간 워퍼(220b)는 분석 윈도우어(220a) 전에 - 신호 프로세싱 방향으로 - 위치될 수 있다. 하지만, 어떤 실시예들에서는 시간 워핑 및 시간 영역 대 스펙트럴 영역 변환이 단일 유닛에서 결합될 수도 있다.

아래에서는, 시간 워프 활성 신호 제공기(230)와 관련한 상세사항들이 서술될 것이다. 시간 워프 활성 신호 제공기(230)는 시간 워프 활성 신호 제공기(100)와 균등할 수 있다.

시간 워프 활성 신호 제공기(230)는 바람직하게는 시간 영역 오디오 신호 표현(210)(a(t)로도 표현됨), 새롭게 설정된 시간 워프 윤곽선 정보(286) 및 표준 시간 워프 윤곽선 정보(288)를 수신하도록 구현된다. 시간 워프 활성 신호 제공기(230)는 또한 시간 영역 오디오 신호(210)를 이용해, 새롭게 설정된 시간 워프 윤곽선 정보(286), 표준 시간 워프 윤곽선 정보(288), 새롭게 설정된 시간 워프 윤곽선 정보(286)로 인한 에너지의 다짐을 나타내는 에너지 다짐 정보를 획득하고, 이러한 에너지 다짐 정보에 기초하여 시간 워프 활성 신호(232)를 제공하도록 구성된다.

도 2b는 본 발명의 일 실시예에 따른, 시간 워프 활성 신호 제공기(234)의 다른 블록 개략 다이어그램을 도시한다. 시간 워프 활성 신호 제공기(234)는 몇몇 실시예에서 시간 워프 활성 신호 제공기(230)의 역할을 맡을 수 있다. 시간 워프 활성 신호 제공기(234)는 입력 오디오 신호(210) 및 2 개의 시간 워프 윤곽선 정보(286 및 288)를 수신하고, 그에 기초하여 시간 워프 활성 신호(234p)를 제공하도록 구성된다. 시간 워프 활성 신호(234p)는 시간 워프 활성 신호(232)의 역할을 담당할 수 있다. 시간 워프 활성 신호 제공기는 두 개의 동일한 시간 워프 표현 제공기(234a, 234g)를 포함하는데, 이들은 입력 오디오 신호(210) 및 시간 워프 윤곽선 정보(286 및 288)를 각각 수신하고, 그에 기초하여 두 개의 시간 워핑된 표현(234e 및 234k)를 제공한다. 시간 워프 활성 신호 제공기(234)는 또한 두 개의 동일한 에너지 다짐 정보 제공기(234f 및 234l)를 포함하고, 이들은 시간 워핑된 표현들(234e 및 234k)를 각각 포함하고, 이에 기초하여 에너지 다짐 정보(234m 및 234n)를 각각 제공한다. 시간 워프 활성 신호 제공기는 또한, 에너지 다짐 정보(234m 및 234n)를 수신하고, 그에 기초하여 시간 워프 활성 신호(234p)를 제공하도록 구성된 비교기(234o)를 포함한다.

이해를 돕기 위해, 시간 워프 표현 제공기(234a 및 234g)는 통상적으로 (선택적) 동일한 분석 윈도우어들(234b 및 234h), 동일한 재샘플기 또는 시간 워퍼들(234c 및 234i), 및 (선택적으로) 동일한 스펙트럴 영역 변환기(234d 및 234j)를 포함함을 유의하여야 할 것이다.

아래에서는 에너지 다짐 정보를 획득하기 위한 여러 개념들이 논의될 것이다. 먼저, 통상적인 오디오 신호에 대한 시간 워핑의 효과에 대한 설명이 소개될 것이다.

아래에서는, 도 3a 및 도 3b를 참조하여, 통상적인 오디오 신호에 대한 시간 워핑의 효과에 대한 설명이 소개될 것이다. 도 3a는 오디오 신호의 비-시간-워핑된 버전의 스펙트럼의 그래픽적 표현을 나타낸다. 가로 축(301)은 주파수를 나타내고, 세로 축(302)은 오디오 신호의 강도를 나타낸다. 곡선(303)은 주파수 f의 함수로서 비-시간-워핑된 오디오 신호를 나타낸다.

도 3b는 오디오 신호의 시간 워핑된 버전의 스펙트럼의 그래픽적 표현을 나타낸다. 다시, 가로 축(306)은 주파수를 나타내고, 세로 축(307)은 오디오 신호의 워핑된 버전의 강도를 나타낸다. 곡선(303)은 주파수 상에서 오디오 신호의 시간-워핑된 버전의 강도를 나타낸다. 도 3a 및 3b의 그래픽적 표현의 비교로부터 보는 바와 같이, 오디오 신호의 비-시간-워핑된("워핑되지 않은") 버전은 특히 높은 주파수 영역에서, 스미어드 스펙트럼을 포함한다. 반대로, 이력 오디오 신호의 시간 워핑된 버전은, 높은 주파수 영역에서도, 명확하게 구별가능한 스펙트럴 피크들을 가지는 스펙트럼을 포함한다. 추가적으로, 스펙트럴 피크들의 어느 정도의 뾰족함은 입력 오디오 신호의 시간 워핑된 버전의 낮은 스펙트럴 영역에서 심지어 흡수될 수도도 있다.

도 3b에 도시된 입력 오디오 신호의 시간 워핑된 버전의 스펙트럼은, 예를 들어 양자화기/인코더(260)에 의해, 도 3a에 도시된 비워핑된 입력 오디오 신호의 스펙트럼보다 낮은 비트레이트로 양자화되고 인코딩될 수 있다. 이는, 도 3에 도시된 바와 같은 "덜 평평한" 스펙트럼이 통상적으로 0 또는 작은 값으로 양자화된 많은 수의 스펙트럴 계수들을 포함하는 반면, 스미어드 스펙트럼은 통상적으로 많은 수의 지각적으로 관련된 스펙트럴 계수들(즉, 상대적으로 적은 수의, 0 또는 작은 값으로 양자화된 스펙트럴 계수들)을 포함하기 때문이다. 0 또는 작은 값으로 양자화된 많은 수의 스펙트럴 계수들은 더 높은 값들로 양자화된 스펙트럴 값들보다 적은 비트를 이용해 인코딩되어, 도 3a의 스펙트럼보다 더 적은 비트를 이용해 도 3b의 스펙트럼이 인코딩될 수 있다.

그럼에도 불구하고, 시간 워프의 사용이 항상 시간 워핑된 신호의 코딩 효율의 상당한 향상을 가져오는 것은 아님을 주지하여야 할 것이다. 그에 따라, 어떤 경우에는 시간 워프 정보(예를 들어, 시간 워프 윤곽선)를 인코딩하는 데 소요되는 비트레이트 측면에서의 비용이 비트레이트 측면에서의 절약을 능가할 수 있다(비 시간 워프 변환된 스펙트럼을 인코딩하는 것과 비교할 때). 이 경우, 시간 워프 변환을 제어하기 위해 표준(비-변화하는) 시간 워프 윤곽선을 이용해 인코딩된 오디오 신호의 표현을 제공하는 것이 바람직하다. 결과적으로, 어떤 시간 워프 정보(즉, 시간 워프 윤곽선 정보)의 전송이라도 생략(시간 워핑의 비활성화를 나타내는 플래그를 제외하고)될 수 있고, 그에 따라 비트레이트가 낮게 유지될 수 있다.

아래에서는, 시간 워프 활성화 신호(112, 232, 234p)의 신뢰성 있고 계산적으로 효율적인 연산을 위한 여러 개념들이 도 3c 내지 3k를 참조하여 설명될 것이다. 하지만, 그 전에, 본 발명의 개념의 배경기술이 간략히 요약될 것이다.

기본 가정은 변화하는 피치를 가지는 하모닉 신호에 대한 시간 워핑을 적용하는 것이 피치를 일정하게 만든다는 것, 그리고 피치를 일정하게 만드는 것은, 여러 스펙트럴 빈들 상에서의 여러 하모닉들의 스미어링(도 3a 참조) 대신 제한된 개수의 중요 라인들만이 남기(도 3b 참조) 때문에, 이후의 시간-주파수 변환에 의해 얻어지는 스펙트럼의 코딩을 향상시킨다는 것이다. 하지만, 피치 변동이 검출되는 경우에라도, 코딩 이득(즉, 절약되는 비트의 양)의 향상은 무시할만할(예를 들어, 하모닉 신호에 내재하는 강한 노이즈를 가지는 경우, 혹은 변동이 매우 작아 높은 하모닉들의 스미어링이 문제가 없는 경우) 수 있거나, 시간 워프 윤곽선을 디코더로 전송하는 데 필요한 비트의 양보다 작거나, 또는 단순히 틀릴 수 있다. 이러한 경우들에서는, 시간 워프 윤곽선 인코더에 의해 생성된 변화하는 시간 워프 윤곽선(예를 들어, 286)을 거절하고 대신, 표준(바-변화하는) 시간 워프 윤곽선을 시그널링하는 효율적인 1-비트 시그널링을 사용하는 것이 바람직하다.

본 발명의 범위는 얻어진 시간 워프 윤곽선 부분이 충분한 코딩 이득(예를 들어 시간 워프 윤곽선에 대해 인코딩에 필요한 오버헤드를 보상하기에 충분한 코딩 이득)을 제공할지를 결정하는 방법의 생성을 포함한다.

앞서 서술된 바와 같이, 시간 워핑의 가장 중요한 측면은 더 적은 개수의 라인들로의 스펙트럴 에너지의 다짐(도 3a 및 3b 참조)이다. 이것을 보면 에너지의 다짐이 보다 "비평평한" 스펙트럼에 대응된다는 것을 또한 알 수 있는데, 피크들간의 차이 및 스펙트럼의 계곡들이 증가되기 때문이다. 에너지들은 그 전보다 더 적은 에너지를 그 사이에 가지는 라인들을 가지는 더 적은 라인들에 집중된다.

도 3a 및 도 3b는 강한 하모닉들 및 피치 변동(도 3a)을 가지는 프레임의 비워핑된 스펙트럼을 가지는 도시적 예 및 동일한 프레임의 시간 워핑된 버전의 스펙트럼(도 3b)을 나타낸다.

이러한 상황적 관점에서, 시간 워핑의 효율성을 위해 가능한 척도로서 스펙트럴 편평도 척도를 사용하는 것이 유리함이 밝혀졌다.

스펙트럴 편평도는 예를 들어, 파워 스펙트럼의 기하학적 평균을 파워 스펙트럼의 산술적 평균으로 나눔으로써 계산될 수 있다. 예를 들어, 스펙트럴 편평도(또한 간략히 "편평도"로 지시되는)는 아래의 수학식에 따라 계산될 수 있다.

편평도(Flatness) =

위에서, x(n)은 빈(bin) 넘버 n의 크기를 나타낸다. 또한, N은 스펙트럴 편평도 척도의 계산에 고려되는 스펙트럴 빈들의 전체 개수를 나타낸다.

본 발명의 일 실시예에서, 에너지 다짐 정보로서 사용될 수도 있는, 앞서 언급된 "편평도"의 계산은 시간 워프 변환된 스펙트럼 표현들(234e, 234k)을 사용하여 실행되어, 아래의 관계식이 성립할 수 있다.

이 경우, N은 스펙트럴 영역 변환기(234d, 234j)에 의해 제공된 스펙트럴 라인들의 개수와 동일하고, |X|_tw(n)은 시간 워프 변환된 스펙트럼 표현들(234e, 234k)이다.

스펙트럴 척도가 시간 워프 활성 신호의 제공을 위한 유용한 양임에도 불구하고 스펙트럴 편평도 척도의 하나의 단점은, 신호-대-노이즈-비율(SNR) 척도와 같이, 전체 스펙트럼에 적용되는 경우 높은 에너지를 가지는 부분들을 강조한다는 점이다. 일반적으로, 하모닉 스펙트럼들은 특정 스펙트럴 틸트(tilt)를 가지는데, 이는 에너지의 대부분이 처음 몇몇 톤들에 집중되고 주파수의 증가에 따라 감소하여, 척도에서 더 높은 부분들의 불충분한-표현들을 초래함을 의미한다. 몇몇 실시예들에서는 이러한 현상이 바람직하지 않는데, 높은 부분들이 최대한 스미어드되기(도 3a) 때문에 이러한 높은 부분들의 품질을 향상시키기를 원하기 때문이다. 아래에서는, 스펙트럴 편평도의 관련성의 향상에 대한 몇몇 선택적 개념들이 논의될 것이다.

본 발명에 따른 일 실시예에서, 소위 "세그멘탈 SNR" 척도와 유사한 접근법이 선택되어, 밴드-방식 편평도 척도를 이끌어낸다. 스펙트럴 편평도 척도의 계산이 몇몇 대역들 내에서 (예를 들어 개별적으로) 수행되고, 메인(또는 평균)이 선택된다. 여러 대역들이 동일한 대역폭을 가질 수도 있다. 하지만, 바랍직하게는 대역폭들은 임계적 대역들과 같이 지각적 스케일을 따를 수도, 또는 예를 들어 소위, AAC로도 알려진 "향상된 오디오 코딩"의 스케일 인자 대역들에 상응할 수도 있다.

앞서 언급된 개념은, 여러 주파수 대역들을 위한 스펙트럴 편평도 척도의 개별적 연산의 그래픽적 표현을 나타낸 도 3c를 참조하여 아래에서 간단히 설명될 것이다. 보여지는 바와 같이, 스펙트럼은 동일한 대역폭을 가지거나 다른 대역폭들을 가질 수 있는 여러 주파수 대역들(311, 312, 313)로 나뉘어질 수 있다. 예를 들어, 제1 스펙트럴 편평도 척도는, 예를 들어 앞서 주어진 "편평도"를 위한 수학식을 이용해 제1 주파수 대역(311)을 위해 계산될 수 있다. 이 계산에서 제1 주파수 대역의 주파수 빈들이 고려될 수(동작 변수 n이 제1 주파수 대역의 주파수 빈들의 주파수 빈 인덱스들을 취할 수 있음) 있고, 제1 주파수 대역(311)의 폭이 고려될 수 있다(변수 N이 제1 주파수 대역의 주파수 빈들의 측면에서의 폭을 취할 수 있음). 그에 따라, 제1 주파수 대역(311)의 편평도 척도가 얻어진다. 유사하게, 편평도 척도가, 제2 주파수 대역들(312) 및 또한 제2 주파수 대역의 폭을 고려하여, 제2 주파수 대역(312)에 대해 계산될 수 있다. 또한, 제3 주파수 대역(313)과 같은, 추가적인 주파수 대역들의 편평도 척도들이 동일한 방식으로 계산될 수 있다.

이후에, 여러 주파수 대역들(311, 312, 313)에 대한 편평도 척도들의 평균이 계산될 수 있고, 이 평균은 에너지 다짐 정보로서 활용될 수 있다.

(시간 워프 활성 신호 도출의 향상을 위한) 또 다른 접근법이 특정 주파수 위에서만 스펙트럴 편평도 척도를 적용하는 것이다. 이러한 접근법이 도 3b에 도시되어 있다. 보여지는 바와 같이, 스펙트럼들의 상위 주파수 부분들(316)에서의 주파수 빈들만이 스펙트럴 편평도 척도의 계산에 고려될 수 있다. 스펙트럼의 하위 주파수 부분은 스펙트럴 편평도 척도의 계산에서 무시된다. 높은 주파수 부분(316)이 스펙트럴 편평도 척도의 계산을 위한 주파수-대역 방식으로 고려될 수 있다. 대안적으로, 높은 주파수 부분(316) 전체가 스펙트럴 편평도 척도의 계산을 위한 전부로 여겨질 수 있다.

상술한 내용을 요약하면, (시간 워프의 적용에 의해 야기된) 스펙트럴 편평도의 감소가 시간 워핑의 효율성을 위한 제1 척도로서 고려될 수 있음이 언급될 수 있다.

예를 들어, 시간 워프 활성 신호 제공기(100, 230, 234)(또는 그 비교기(130, 234o))가 표준 시간 워프 윤곽선 정보를 이용해 시간 워프 변환된 스펙트럴 표현(234e)의 스펙트럴 편평도 척도를 시간 워프 변환된 스펙트럴 표현(234k)의 스펙트럴 편평도 척도와 비교하고, 상기 비교에 기초해 시간 워프 활성 신호가 활성화되어야 할지 비활성화되어야 할지 결정할 수 있다. 예를 들어, 시간 워핑이 없는 경우에 비해 시간 워핑이 스펙트럴 편평도 척도의 충분한 감소를 도출하는 경우, 시간 워프 활성 신호의 적절한 설정에 의해 시간 워프가 활성화된다.

앞서 상술한 방법들에 더하여, 스펙트럴 편평도 척도의 계산을 위해 낮은 주파수 부분에 비해 스펙트럼의 높은 주파수 부분들이 강조(예를 들어 적절한 스케일링에 의해)될 수 있다. 도 3c는 스펙트럴 편평도 척도의 계산을 위해 낮은 주파수 부분에 비해 스펙트럼의 높은 주파수 부분들이 강조된 시간 워프 변환된 스펙트럼의 그래픽적 표현을 나타낸다. 그에 따라, 높은 부분들의 불충분한 표현이 보상된다. 따라서, 도 3e에 도시된 바와 같이, 편평도 척도가 높은 주파수 빈들이 낮은 주파수 빈들에 비해 강조된 완전히 스케일된 스펙트럼 상에서 계산될 수 있다.

비트 절약의 차원에서는, 코딩 효율의 통상적인 척도가 지각적 엔트로피가 될 수 있는데, 이는 3GPP TS 26.403 V7.0.0(3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; General audio codec audio processing functions; Enhanced aacPlus general audio codec; Encoder specification AAC part: Section 5.6.1.1.3 Relation between bit demand and perceptual entropy)에 서술된 바와 같이 특정 스펙트럼을 인코드하는 데 필요한 실질적인 비트의 개수를 이용해 매우 잘 상관시킬 수 있는 방법으로 정의될 수 있다. 결과적으로, 지각적 엔트로피의 감소가 시간 워핑의 효율성에 대한 또 다른 척도가 된다 할 것이다.

도 3f는 에너지 다짐 정보 제공기(120, 234f, 234l)를 대신할 수 있고, 시간 워프 활성 신호 제공기(100, 290, 234)에서 사용될 수 있는 에너지 다짐 정보 제공기(325)를 보여준다. 에너지 다짐 정보 제공기(325)는 예를 들어, |X|_tw 로도 지시되는, 시간-워프 변환된 스펙트럼 표현(234e 및 234k)의 형태로, 오디오 신호의 표현을 수신하도록 구성된다. 에너지 다짐 정보 제공기(325)는 또한, 에너지 다짐 정보(122, 234m, 234n)를 대신할 수 있는 지각적 엔트로피 정보(326)를 제공하도록 구성된다.

에너지 다짐 정보 제공기(325)는 시간 워프 변환된 스펙트럼 표현(234e 및 234k)을 수신하여, 그에 기초하여 주파수 대역과 관련될 수 있는 형식 인자 정보(328)을 제공하도록 구성된 형식 인자 계산기(327)를 포함한다. 에너지 다짐 정보 제공기(325)는 또한 시간 워프 변환된 스펙트럼 표현(234e 및 234k)에 기초하여 주파수 대역 에너지 정보 en(n)(330)를 연산하도록 구성된 주파수 대역 에너지 연산기(329)를 포함한다. 에너지 다짐 정보 제공기(325)는 또한, 인덱스 n을 가지는 주파수 대역에 대해 예측된 라인 개수 정보 nl(332)를 제공하도록 구성된 라인 개수 예측기(331)를 포함한다. 추가적으로, 에너지 다짐 정보 제공기(325)는, 주파수 대역 에너지 정보(330) 및 예측된 라인 개수 정보(332)에 기초하여 지각적 엔트로피 정보(326)를 계산하도록 구성된 지각적 엔트로피 연산기(333)를 포함한다. 예를 들어, 형식 인자 연산기(327)는,

(1)

에 따라 형식 인자를 계산하도록 구성될 수 있다.

위의 수학식에서, ffac(n)은 주파수 대역 인덱스 n을 가지는 주파수 대역에 대한 형식 인자를 나타낸다. k는 스케일 인자 대역(또는 주파수 대역) n의 스펙트럴 빈 인덱스들 상에서 동작하는 동작 변수를 지시한다. X(k)는 스펙트럴 빈 인덱스(또는 주파수 빈 인덱스) k를 가지는 스펙트럴 빈(주파수 빈)의 스펙트럴 값(예를 들어, 에너지 값 또는 크기 값)을 지시한다.

라인 개수 예측기는 아래의 수학식에 따라, nl로 표시되는 비제로(nonzero) 라인들의 개수를 추정하도록 구성된다.

(2)

상술한 식에서, en(n)은 인덱스 n을 가지는 주파수 대역 또는 스케일 인자 대역에서의 에너지를 나타낸다. kOffset(n+1) - kOffset(n) 은 주파수 빈의 측면에서 인덱스 n의 주파수 대역 또는 스케일 인자 대역의 폭을 지시한다.

추가적으로, 지각적 엔트로피 연산기(332)는 아래의 식에 따라 지각적 엔트로피 정보 sfbPe를 계산하도록 구성될 수 있다.

(3)

위에서, 이래의 관계식이 성립한다.

(4)

전체 지각적 엔트로피 pe 는 다수의 주파수 대역들 또는 스케일 인자 대역들의 지각적 엔트로피의 합으로서 계산될 수 있다.

앞서 언급된 바와 같이, 지각적 엔트로피 정보(326)는 에너지 다짐 정보로서 사용될 수 있다.

지각적 엔트로피의 계산과 관련한 추가적인 상세사항들을 위해, 국제 표준 "3GPP TS 26.403 V7.0.0(2006-06)"의 섹션 5.6.1.1.3이 참조된다.

아래에서는, 시간 영역의 에너지 다짐 정보의 계산에 대한 개념이 설명될 것이다.

TW-MDCT(time warped modified discrete cosine transform)를 바라보는 또 다른 시각이 신호가 하나의 블록 내에서 일정한 또는 거의 일정한 피치를 가지도록 하는 방법으로 신호를 변화시키기 위한 기본 아이디어이다. 일정한 피치가 얻어지는 경우, 이는 하나의 프로세스 블록의 자기상관의 최대치가 증가함을 의미한다. 시간 워핑된 및 비-시간 워핑된 경우에 대한 자기상관의 상응하는 최대값들을 찾는 것이 쉬운 일이 아니기 때문에, 정규화된 자기상관에 대한 절대 값들의 합계가 개선을 위한 척도로서 사용될 수 있다. 이러한 합계의 증가는 에너지 다짐의 증가에 대응된다.

도 3g, 3h, 3j, 3j 및 3k를 참조하여, 이러한 개념이 보다 자세히 설명될 것이다.

도 3g는 시간 영역에서의 비-시간-워핑된 신호의 그래픽적 표현을 보여준다. 가로 축(350)이 시간, 그리고 세로 축(351)이 비-시간-워핑된 시간 신호의 레벨 a(t)를 나타낸다. 곡선(352)은 비-시간-워핑된 시간 신호의 시간적 전개(evolution)를 나타낸다. 도 3g에서 나타난 바와 같이, 곡선(352)에 의해 나타난 비-시간-워핑된 시간 신호의 주파수가 시간 상에서 증가하는 것으로 가정한다.

도 3h는 도 3g의 시간 신호의 시간 워핑된 (비-균일하게 재샘플된) 버전의 그래픽적 표현을 나타낸다. 가로 축(355)이 워핑된 시간(예를 들어, 정규화된 형태로), 그리고 세로 축(356)이 신호 a(t)의 시간-워핑된 버전 a(t_w)의 레벨을 나타낸다. 도 3h에 나타난 바와 같이, 비-시간-워핑된 시간 신호 a(t)의 시간-워핑된 버전 a(t_w)은 워핑된 시간 영역에서 (적어도 대략적으로) 시간적으로 일정한 주파수를 포함한다.

다시 말해, 도 3h는 시간적으로 변화하는 주파수의 시간 신호가, 시간-워핑 재-샘플링을 포함할 수 있는, 적절한 시간 워핑된 동작에 의해 시간적으로 일정한 주파수의 시간 신호로 변환되는 사실을 도시한다.

도 3i는 워핑되지 않은 시간 신호 a(t)의 자기 상관 함수의 그래픽적 표현을 나타낸다. 가로 축(360)은 자기상관 래그(lag)

를 그리고 세로 축(361)은 자기상관 함수의 크기를 나타낸다. 마크들(362)은 자기상관 래그

의 함수로의 자기상관 함수

의 전개(evolution)를 나타낸다. 도 3i에서 볼 수 있는 바와 같이, 워핑되지 않은 시간 신호 a(t)의 자기상관 함수 R_uw 는

= 0 에 대한 피크(신호 a(t)의 에너지를 반영하는) 및

≠ 0 에 대한 작은 값들을 포함한다.

도 3j는 시간 워핑된 시간 신호 a(t_w)의 자기상관 함수 R_tw의 그래픽적 표현을 나타낸다. 도 3j에 나타난 바와 같이, 자기상관 함수 R_tw 는

= 0 에 대한 피크(신호 a(t)의 에너지를 반영하는) 및 자기상관 래그

의 다른 값들

에 대한 피크들을 또한 포함한다.

에 대한 이러한 추가적인 피크들은 시간 워핑된 시간 신호 a(t_w)의 주기성을 증가시키기 위해 시간 워프의 효과에 의해 얻어질 수 있다. 이러한 주기성은 자기상관 함수

와 비교했을 때, 자기상관 함수

의 추가적인 피크들에 의해 반영된다. 따라서, 시간 워핑된 오디오 신호의 자기상관 함수의 추가적인 피크들(또는 피크들의 증가된 강도)의 존재는 원래 오디오 신호의 자기상관 함수와 비교했을 때 시간 워프의 효율성(비트레이트 감소 측면에서의)의 지시자로서 나타낼 수 있다.

도 3k는, 오디오 신호의 시간 워핑된 시간 영역 표현, 예를 들어, 시간 워핑된 신호(234e, 234k)(스펙트럴 영역 변환(234d, 234j) 및 선택적으로 분석 윈도우어(234b 및 234h)가 생략된 경우)를 수신하여, 이를 기초로, 에너지 다짐 정보(372)의 역할을 맡을 수 있는 에너지 다짐 정보(374)를 제공하는 에너지 다짐 정보 제공기(370)의 블록 개략 다이어그램을 도시한다. 도 3k의 에너지 다짐 정보 제공기(370)는 이산 값들

의 기 설정된 범위 상에서 시간 워핑된 신호 a(t_w)의 자기상관 함수

를 계산하도록 구성된 자기상관 연산기(371)를 포함한다. 에너지 다짐 정보 제공기(370)는 또한 자기상관 함수

(예를 들어, 이산 값들

의 기 설정된 범위 상에서)의 복수의 값들을 합산하고 얻어진 합계를 에너지 다짐 정보(122, 234m, 234n)로서 제공하도록 구성된 자기상관 합산기(372)를 포함한다.

따라서, 에너지 다짐 정보 제공기(370)는 입력 오디오 신호(210)의 시간 워핑된 시간 영역 버전의 스펙트럴 영역 변환을 실질적으로 수행하지 않고도, 시간 워프의 효율성을 나타내는 신뢰성있는 정보의 제공을 허락한다. 그러므로, 시간 워프가 실질적으로 향상된 인코딩 효율성을 가져오는 것으로 드러난 경우에만, 에너지 다짐 정보 제공기(370)에 의해 제공되는 에너지 다짐 정보(122, 234m, 234n)에 기초하여 입력 오디오 신호(310)의 시간 워핑된 버전의 스펙트럴 영역 변환을 수행하는 것이 가능하다.

상술한 내용을 요약하면, 본 발명에 따른 실시예들은 최종 품질 체크를 위한 개념을 생성한다. 결과적인 피치 윤곽선이 그 코딩 이득 측면에서 평가되고 수락되거나 거절된다. 스펙트럼의 성김도(sparsity) 또는 코딩 이득과 관련한 여러 측정들이 이러한 결정, 예를 들어, 스펙트럴 편평도 척도, 대역-방식 세그멘탈 스펙트럴 편평도 척도, 및/또는 지각적 엔트로피를 위해 고려될 수 있다.

여러 스펙트럴 다짐 정보의 사용, 예를 들어, 스펙트럴 편평도 척도의 사용, 지각적 엔트로피 척도의 사용, 및 시간 영역 자기상관 척도의 사용이 논의되어 왔다. 그럼에도 불구하고, 시간 워핑된 스펙트럼에서 에너지의 다짐을 보여주는 다른 척도들이 있다.

이러한 모든 척도들이 사용될 수 있다. 바람직하게는, 이러한 모든 척도들에 대해, 워핑되지 않은 및 시간 워핑된 스펙트럼에 대한 척도 간의 비율이 정의되고, 얻어진 시간 워프 윤곽선이 인코딩에 유리한지 아닌지를 결정하기 위해 인코더에서 이러한 비율에 대해 임계치가 설정된다.

피치 윤곽선의 제3 부분만이 새롭거나(여기서, 예를 들어, 피치 윤곽선의 세 부분들이 전체 프레임에 관련되어 있음), 또는 바람직하게는 이러한 새로운 부분이 획득된 신호의 부분에 대해서만, 예를 들어, (개별적) 신호 부분에 중심을 둔 낮은 중첩 윈도우를 사용한 변환을 이용해, 전체 프레임에 대해 이러한 모든 척도들이 사용될 수도 있다.

당연히, 앞서 언급된 척도들 중 단일 척도 또는 조합이 원하는 바에 따라 사용될 수 있다.

도 4a는 오디오 신호에 기초하여 시간 워프 활성 신호를 제공하는 방법의 플로우차트를 보여준다. 도 4a의 방법(400)은 오디오 신호의 시간-워프 변환된 스펙트럴 표현에서의 에너지 다짐을 나타내는 에너지 다짐 정보를 제공하는 단계(410)를 포함한다. 단계(400)는 에너지 다짐 정보를 참조 값과 비교하는 단계(420)를 더 포함한다. 단계(400)는 또한 상기 비교의 결과에 따라 시간 워프 활성 신호를 제공하는 단계(430)를 더 포함한다.

본 방법(400)은 시간 워프 활성 신호의 제공과 관련하여 여기서 서술된 어떤 특성 및 기능들에 의해서도 보충될 수 있다.

도 4b는 본 발명의 일 실시예에 따라, 입력 오디오 신호의 인코딩된 표현을 획득하기 위해 입력 오디오 신호를 인코딩하는 방법의 플로우차트를 나타낸다. 본 방법(450)은 선택적으로 입력 오디오 신호에 기초하여 시간 워프 변환된 스펙트럴 표현을 제공하는 단계(460)를 포함한다. 본 방법(450)은 또한 시간 워프 활성 신호를 제공하는 단계(470)를 더 포함한다. 단계 470은 예를 들어, 방법(400)의 기능을 포함할 수 있다. 따라서, 에너지 다짐 정보는 에너지 다짐 정보가 입력 오디오 신호의 시간 워프 변환된 스펙트럴 표현에서의 에너지 다짐을 나타내도록 제공된다. 본 방법(450)은 또한, 입력 오디오 신호의 인코딩된 표현으로의 포함을 위해, 새롭게 설정된 시간 워프 윤곽선 정보를 이용한 상기 입력 오디오 신호의 시간 워프 변환된 스펙트럴 표현의 서술 또는 표준(비-변화하는) 시간 워프 윤곽선 정보를 이용한 상기 입력 오디오 신호의 비-시간-워프-변환된 스펙트럴 표현의 서술을, 상기 시간 워프 활성 신호에 따라 선택적으로 제공하는 단계(480)를 더 포함한다.

방법(450)은 입력 오디오 신호의 인코딩과 관련하여 여기서 논의된 어떤 특성 및 기능들에 의해서도 보충될 수 있다.

도 5는 본 발명의 여러 측면들이 구현되는 본 발명에 따른 오디오 인코더의 바람직한 일 실시예를 도시한다. 오디오 신호가 인코더 입력(500)으로 제공된다. 이러한 오디오 신호는 통상적으로 정상(normal) 샘플링 레이트로 또한 불리는 샘플링 레이트를 이용해 아날로그 오디오 신호로부터 도출된 이산 오디오 신호가 될 것이다. 이러한 정상 샘플링 레이트는 시간 워핑 동작에서 생성된 지역 샘플링 레이트와는 다르고, 입력(500)에서의 오디오 신호의 보통의 샘플링 레이트는 일정한 시간 부분으로 분리된 오디오 샘플들을 도출하는 일정한 샘플링 레이트이다. 이 신호는, 이 실시예에서 윈도우 함수 제어기(504)로 연결된, 분석 윈도우어(502)로 입력된다. 이 분석 윈도우어(502)는 시간 워퍼(506)에 연결된다. 하지만 구현에 따라, 시간 워퍼(506)가 -단일 프로세싱 방향으로- 분석 윈도우어(502) 전에 위치할 수 있다. 시간 워핑 특성이 블록(502)에서의 분석 윈도우잉에서 요구되고, 시간 워핑 동작이 워핑되지 않은 샘플들보다 시간 워핑된 샘플들 상에서 수행되어야 하는 경우 이러한 구현이 바람직하다. 특히, Bernd Edler 등의 "Tiime Warped MDCT" 라는 국제특허출원 PCT/EP2009/002118 에 서술된 바와 같은 MDCT-기반 시간 워핑의 측면이 그렇다. L. Villemoes의 2005년 11월 국제 출원인 "Time Warped Transform Coding of Audio Signals"라는 PCT/EP2006/010246와 같은 다른 시간 워핑 출원들에 있어서, 시간 워퍼(506) 및 분석 윈도우어(502) 간의 배치는 원하는 바대로 설정될 수 있다. 추가적으로, 시간/주파수 변환기(508)가 시간 워핑된 오디오 신호의 스펙트럴 표현으로의 시간/주파수 변환을 수행하기 위해 제공된다. 스펙트럴 표현이, 출력(510a)으로서 TNS 정보를, 출력(510b)으로서 스펙트렬 잔여 값들을 제공하는, TNS(temporal noise shaping) 스테이지(510)로 입력될 수 있다. 출력(510b)은 신호를 양자화하는 지각적 모델(514)에 의해 제어되어, 양자화 노이즈가 오디오 신호의 지각적 마스킹 임계치 아래로 숨겨질 수 있는 양자화기 및 코더 블록(512)에 연결된다.

추가적으로, 도 5a에 도시된 인코더는, 출력(518)에서 시간 워핑 정보를 제공하는 피치 트래커로서 구현될 수 있는 시간 워프 분석기(516)를 포함한다. 라인(518) 상의 신호는 시간 워핑 특성, 피치 특성, 피치 윤곽선 또는 시간 워핑 분석기에 의해 분석되는 신호가 하모닉 신호인지 비-하모닉 신호인지에 관한 정보를 포함할 수 있다. 시간 워프 분석기는 또한 유성음의 스피치 및 무성음의 스피치를 구별하기 위한 기능을 구현할 수 있다. 하지만, 구현에 따라, 및 신호 분류기(520)가 구현되는지 여부에 따라, 유성음/무성음 결정이 또한 신호 분류기(520)에 의해 이루어질 수 있다. 이 경우 시간 워프 분석기는 반드시 동일한 기능을 수행할 필요는 없다. 시간 워프 분석기 출력(518)은, 윈도우 함수 제어기(504), 시간 워퍼(506), TNS 스테이지(510), 양자화기 및 코더(512) 및 출력 인터페이스(522)를 포함하는 기능들의 그룹에서 적어도 하나 및 바람직하게는 1 이상의 기능들과 연결된다.

유사하게, 신호 분류기(520)의 출력(522)이 윈도우 함수 제어기(504), 시간 워퍼(506), TNS 스테이지(510), 양자화기 및 코더(512) 및 출력 인터페이스(522)를 포함하는 기능들의 그룹에서 적어도 하나 및 바람직하게는 1 이상의 기능들과 연결된다. 추가적으로, 시간 워프 분석기 출력(518)이 또한 노이즈 필링 분석기(524)에 연결될 수 있다.

도 5a가, 분석 윈도우어 입력(500) 상의 오디오 신호가 시간 워프 분석기(516) 및 신호 분류기(520)로 입력되는 상황을 도시한다 하더라도, 이러한 기능들을 위한 입력 신호들이 분석 윈도우어(502)의 출력으로부터 취해질 수 있고, 신호 분류기에 대해, 시간 워퍼(506)의 출력, 시간/주파수 변환기(508) 또는 TNS 스테이지(510)의 출력으로부터 취해질 수 있다.

526으로 표시되는 양자화기/코더(512)에 의해 출력되는 신호에 더하여, 출력 인터페이스(522)는, TNS 부가 정보(510a), 인코딩된 형태의 스케일 인자들을 포함할 수 있는 지각적 모델 부가 정보(528), 라인(518) 상의 피치 윤곽선과 같은 보다 개선된 형태의 시간 워프 부가 정보를 위한 시간 워프 지시 데이터, 및 라인(522) 상의 신호 분류 정보를 수신한다. 추가적으로, 노이즈 필링 분석기(524)는 또한 출력 인터페이스(522)로의 출력(530) 상에 노이즈 필링 데이터를 출력한다. 출력 인터페이스(522)는 디코더로의 전송 또는 메모리 디바이스와 같은 저장 장치에서의 저장을 위한 인코딩된 오디오 출력 데이터를 라인(532) 상에 생성하도록 구성된다. 구현에 따라, 출력 데이터(532)는 출력 인터페이스(522)로의 출력으로의 모든 입력을 포함할 수 있거나, 또는 감소된 기능을 가지는 대응하는 디코더가 해당 정보를 필요로 하지 않기 때문에, 혹은 다른 전송 채널을 통한 전송으로 인해 디코더에서 해당 정보가 이미 유효하기 때문에, 더 적은 정보를 포함할 수 있다.

도 5a에 도시된 인코더는, MPEG-4 표준에 비교했을 때 개선된 기능들을 가지는, 윈도우 함수 제어기(504), 노이즈 필링 분석기(524), 양자화기 인코더(512) 및 TNS 스테이지(510)에 의해 표현되는 도 5a의 본 발명의 인코더에 도시된 추가적인 기능들과는 별도로 MPEG-4 표준에서의 상세하게 정의된 바와 같이 구현될 수 있다. 추가적인 설명이 AAC 표준(국제 표준 13818-7) 또는 3GPP TS 26.403 V7.0.0(Third generation partnership project; technical specification group services and system aspect; general audio codec audio processing functions; enhanced AAC plus general audio codec)에서 제시된다.

계속해서, 입력(540)을 통해 수신되는 인코딩된 오디오 신호를 디코딩하는 오디오 디코더의 바람직한 일 실시예를 도시하는 도 5b가 논의된다. 입력 인터페이스(540)가, 정보의 여러 정보 아이템들이 라인(540) 상의 신호로부터 추출되도록 인코딩된 오디오 신호를 처리하도록 동작한다. 이 정보는 신호 분류 정보(541), 시간 워프 정보(542), 노이즈 필링 데이터(543), 스케일 인자들(544), TNS 데이터(545) 및 인코딩된 스펙트럴 정보(546)를 포함한다. 인코딩된 스펙트럴 정보가, 도 5a의 블록(512)에서의 인코더 기능이 허프만 인코더 또는 산술적 인코더와 같이 상응하는 인코더로서 제공되는 경우, 허프만 디코더 또는 산술적 디코더를 포함하는 엔트로피 디코더(547)로 입력된다. 디코딩된 스펙트럴 정보가 노이즈 필터(552)로 연결된 재-양자화기(550)로 입력된다. 노이즈 필러(552)의 출력이, 추가적으로 라인(545) 상의 TNS 데이터를 수신하는 역 TNS 스테이지(554)로 입력된다. 구현에 따라, 노이즈 필러(552) 및 TNS 스테이지(554)가 다른 순서로 적용되어 노이즈 필러(552)가 TNS 입력 데이터에 적용되는 것이 아니라 TNS 스테이지(554) 출력 데이터 상에서 동작할 수 있다. 추가적으로, 시간 역워퍼(558)로 제공하는 주파수/시간 변환기(556)가 제공된다. 신호 처리 체인의 출력에서, 중첩/합산 처리를 수행하는 합성 윈도우어는 바람직하게는 560에 의해 지시되는 바와 같이 적용된다. 시간 역워퍼(558) 및 합성 스테이지(560)의 순서는 변경가능하지만, 바람직한 일 실시예에서, AAC 표준(AAC=advanced audio coding)에 정의된 바와 같이 MDCT-기반 인코딩/디코딩 알고리즘을 실행하는 것이 바람직하다. 그리고, 중첩/합산 절차로 인한 하나의 블록으로부터의 다음 블록으로의 내재하는 크로스-페이드 동작이 프로세싱 체인에서의 마지막 동작으로 사용되어 모든 블록 아티팩트들이 효과적으로 방지된다.

추가적으로, 경우가 그렇게 되는 바와 같이, 노이즈 필러(552)를 제어하도록 구성되고 입력으로서 시간 워프 정보(542) 및/또는 신호 분류 정보(541) 및 재-양자화된 스펙트럼 상의 정보를 수신하는 노이즈 필링 분석기(562)가 제공된다.

바람직하게는, 이하에서 설명되는 모든 기능들이 개선된 오디오 인코더/디코더 스킴에서 함께 적용된다. 그럼에도 불구하고, 이후에 설명되는 기능들이 서로 독립적으로 적용될 수 있는데, 즉, 모든 기능들이 아닌 단 하나 또는 그룹이 특정 인코더/디코더 스킴에서 구현될 수 있다.

이어서, 본 발명의 노이즈 필링 측면들이 상세하게 설명된다.

일 실시예에서, 도 5a에서의 시간 워핑/피치 윤곽선 수단에 의해 제공되는 부가 정보는, 다른 코덱 수단들, 및, 특히, 인코더 단에서의 노이즈 필링 분석기(524)에 의해 구현되는 및/또는 디코더 단에서의 노이즈 필링 분석기(562) 및 노이즈 필러(552)에 의해 구현되는 노이즈 필링 수단을 제어하는데 유용하게 사용된다.

노이즈 필링 수단과 같은 AAC 프레임 워크 내에서의 여러 인코더 수단들이 피치 윤곽선 분석에 의해 수집된 정보 및/또는 신호 분류기(520)에 의해 제공된 신호 분류의 추가적인 지식정보에 의해 제어된다.

파악된 피치 윤곽선은 선명한 하모닉 구조를 가지는 신호 세그멘트들을 지시하고, 따라서 하모닉 라인들 간의 노이즈 필링이 인식되는 품질, 특히 스피치 신호에 대해 인식되는 품질을 감소시킬 것이고, 그러므로 피치 윤곽선이 발견되는 경우 노이즈 레벨이 감소된다. 그렇지 않다면, 스미어드 스펙트럼에 대한 증가된 양자화 노이즈와 동일한 효과를 가지는, 부분 톤들 간의 노이즈가 있을 것이다. 또한, 노이즈 레벨 감소량은 또한 신호 분류기 정보를 이용해 추가적으로 개선될 수 있고, 따라서 스피치 신호들에 대해서는 노이즈 필링이 없을 것이고 강한 하모닉 구조를 가지는 일반 신호들에는 보통의 노이즈 필링이 적용될 것이다.

일반적으로 노이즈 필러(552)는, 0들이 인코더에서 디코더로 전송되는, 즉 도 5a의 양자화기(512)가 스펙트럴 라인들을 0으로 양자화하는 경우에, 스펙트럴 라인들을 디코딩된 스펙트럼으로 삽입하기에 유용하다. 당연하게, 스펙트럴 라인들을 0으로 양자화하는 것이 전송된 신호의 비트레이트를 감소시키고, 이러한 스펙트럴 라인들이 지각적 모델(514)에 의해 결정되는 지각적 마스킹 임계치 아래인 경우 이론적으로는 이러한 (작은) 스펙트럴 라인들의 제거가 들리지 않는다. 그럼에도 불구하고, 다수의 인접하는 스펙트럴 라인들을 포함하는 이러한 스펙트럴 홀들이 상당히 부자연스런 소리를 발생시키는 것으로 밝혀졌다. 그러므로, 인코더-측 양자화에 의해 라인들이 0으로 양자화된 위치들에 스펙트럴 라인들을 삽입하기 위해 노이즈 필링 수단이 제공된다. 이러한 스펙트럴 라인들은 랜덤 진폭 또는 위상을 가질 수 있고, 이러한 디코더-측 합성된 스펙트럴 라인들은 도 5a에 도시된 바와 같은 인코더-측에서 결정된 노이즈 필링 척도를 사용해 또는 도 5b에 도시된 바와 같은 디코더-측에서 결정된 척도에 따라 선택적 블록(562)에 의해 스케일된다. 도 5a의 노이즈 필링 분석기(524)는, 그러므로 오디오 신호의 시간 프레임에 대해 0으로 양자화된 오디오 값들의 에너지의 노이즈 필링 척도를 추정하도록 구성된다.

본 발명의 일 실시예에서, 라인(500) 상의 오디오 신호를 인코딩하기 위한 오디오 인코더는 오디오 값들을 양자화하도록 구성된 양자화기(512)를 포함하고, 여기서 양자화기(512)는 또한 양자화 임계치 아래의 오디오 값들을 0으로 양자화하도록 구성된다. 이러한 양자화 임계치는 스텝-기반 양자화기의 첫번째 스텝일 수 있으며, 이는, 어떤 오디오 값이 0으로, 즉 양자화 인덱스 0으로 양자화되는지, 또는 1, 즉 오디오 값이 이러한 제1 임계치 위임을 나타내는 양자화 인덱스 1로 양자화되는지 여부에 관한 결정에 사용될 수 있다. 도 5a의 양자화기가 주파수 영역 값들의 양자화를 수행하도록 도시되어 있으나, 양자화기는 또한, 노이즈 필링이 주파수 영역이 아닌 시간 영역에서 수행되는, 또 다른 실시에에서 시간 영역 값들을 양자화하는 데 사용될 수도 있다.

노이즈 필링 분석기(524)는 양자화기(512)에 의해 오디오 신호의 시간 프레임에 대해 0으로 양자화되는 오디오 값들의 에너지의 노이즈 필링 척도를 추정하는 노이즈 필링 연산기로서 구현된다. 추가적으로, 오디오 인코더는, 오디오 데이터의 시간 프레임이 하모닉 또는 스피치 특성을 가지는지를 분석하도록 구성된 도 6a에 도시된 오디오 신호 분석기(600)를 포함한다. 오디오 신호 분석기(600)는 예를 들어, 도 5a의 블록(516) 또는 도 5a의 블록(520)을 포함할 수 있고, 신호가 하모닉 신호인지 스피치 신호인지 분석하는 어떤 다른 디바이스를 포함할 수도 있다. 시간 워프 분석기(516)가 항상 피치 윤곽선을 찾도록 구현되고, 피치 윤곽선의 존재가 신호의 하모닉 구성을 나타내기 때문에, 도 6a의 신호 분석기(600)는 피치 트래커 또는 시간 워프 분석기의 시간 워핑 윤곽선 연산기로서 구현될 수 있다.

오디오 인코더는 추가적으로, 도 5a의 530으로 지시된 출력 인터페이스(522)로 조작된 노이즈 필링 척도/레벨을 출력하는, 도 6a에 도시된 노이즈 필링 레벨 조작기(602)를 포함한다. 노이즈 필링 척도 조작기(602)는 오디오 신호의 하모닉 또는 스피치 특성에 따라 노이즈 필링(filling) 척도를 조작하도록 구성된다. 오디오 인코더는 전송 또는 저장을 위해, 라인(530) 상에 블록(602)에 의해 출력된 조작된 노이즈 필링 척도(530)를 포함하는 인코딩된 신호를 생성하는 출력 인터페이스(522)를 추가적으로 포함한다. 이 값은 도 5b에 도시된 디코더-측에서의 블록(562)에 의해 출력된 값에 대응된다.

도 5a 및 도 5b에서 지시된 바와 같이, 노이즈 필링 레벨 조작은 인코더에서 구현되거나 디코더에서 구현되거나 양쪽 장치에서 함께 구현될 수 있다. 디코더-측 구현에서, 인코딩된 오디오 신호를 디코딩하는 디코더는 인코딩된 오디오 데이터(546) 및 노이즈 필링 척도(543), 즉 라인(543) 상의 노이즈 필링 데이터를 획득하기 위해 라인(540) 상의 인코딩된 신호를 처리하는 입력 인터페이스(539)를 포함한다. 디코더는 추가적으로 디코더(547) 및 재 -양자화된 데이터를 생성하는 재-양자화기(550)를 포함한다.

추가적으로 디코더는 오디오 데이터의 시간 프레임이 하모닉 또는 스피치 특성을 가졌는에 대한 정보를 재생하는 도 5b의 노이즈 필링 분석기(562)에 구현될 수 있는 신호 분석기(600)(도 6a)를 포함한다.

추가적으로, 노이즈 필러(552)가 노이즈 필링 오디오 데이터를 생성하기 위해 제공되고, 노이즈 필러(552)는 인코딩된 신호에 의해 전송되고 라인(543)에서 입력 인터페이스에 의해 생성된 노이즈 필링 척도 및, 인코더 측의 신호 분석기(516 및/또는 550)에 의해 정의되거나 혹은, 특정 시간 프레임이 시간 워핑 처리에 노출되었는지 아닌지 여부를 나타내는 시간 워프 정보(542)의 처리 및 해석을 통해 디코더 측의 아이템(562)에 의해 정의되는 바와 같은 오디오 데이터의 하모닉 또는 스피치 특성에 응답하여 노이즈 필링 데이터를 생성하도록 구성된다.

추가적으로, 디코더는 디코딩된 오디오 신호를 획득하기 위해 재-양자화된 데이터 및 노이즈 필링 오디오 데이터를 처리하는 프로세서를 포함한다. 프로세서는 본 경우가 될 수 있는 도 5b의 아이템들(554, 556, 558, 560)을 포함할 수 있다. 부가적으로 인코더/디코더 알고리즘의 특정한 구현예에 따라, 프로세서는, 예를 들어 AMR WB+ 인코더 또는 다른 스피치 코더들과 같은 시간 영역 인코더에서 제공되는, 다른 프로세싱 블록들을 포함할 수 있다.

그러므로, 본 발명의 노이즈 필링 조작은, 단지 직접적인 노이즈 척도를 계산하고, 하모닉/스피치 정보에 기초한 이러한 노이즈 척도를 조작하여 그후 직접 방식으로 디코더에 의해 적용될 수 있는 이미 올바른 조작된 노이즈 필링 척도를 전송함으로써, 디코더 측에서 구현될 수 있다. 또한, 비-조작된 노이즈 필링 척도는 인코더로부터 디코더로 전송될 수 있으며, 그리고 나서 디코더는 오디오 신호의 실제 시간 프레임이 시간 워핑되었는지, 즉 하모닉 또는 스피치 특성을 가졌는지를 분석할 것이고, 노이즈 필링 척도의 실질적인 조작이 디코더 측에서 발생하게 된다.

이후, 노이즈 레벨 추정을 조작하기 위한 바람직한 실시예들을 설명하기 위해 도 6b가 논의될 것이다.

제1 실시예에서, 신호가 하모닉 또는 스피치 특성을 가지지 않는 경우 보통 노이즈 레벨이 적용된다. 이것은 시간 워프가 적용되지 않는 경우이다. 신호 분류기가 추가적으로 제공되는 경우에는, 스피치와 비스피치를 구별하는 신호 분류기가, 시간 워프가 비활성, 즉 피치 윤곽선이 발견되지 않은 경우의 상황에 대해 비 스피치임을 나타낼 것이다.

하지만, 시간 워프가 활성, 즉 하모닉 성분을 나타내는 피치 윤곽선이 발견된 경우에는, 노이즈 필링 레벨이 정상적인 경우보다 더 낮게 조작될 것이다. 추가적인 신호 분류기가 제공되는 경우, 이 신호 분류기는 스피치를 나타내고, 동시에 시간 워프 정보가 피치 윤곽선을 나타내는 경우에는, 더 낮은 혹은 0의 노이즈 필링 레벨이 시그널링된다. 따라서, 도 6a의 노이즈 필링 레벨 조작기(602)는 조작된 노이즈 레벨을 0 또는 적어도 도 6b에 나타난 낮은 값보다 더 낮은 값으로 감소시킬 것이다. 바람직하게는, 신호 분류기는 추가적으로 도 6b의 좌측에 도시된 바와 같은 유성음/무성음 검출기를 가진다. 유성음의 스피치의 경우, 매우 낮은 또는 0의 노이즈 필링 레벨이 시그널링/적용된다. 하지만, 피치가 발견되지 않은 사실로 인해 시간 워프 지시가 시간 워프 프로세싱을 지시하지 않고, 신호 분류기가 스피치 성분을 시그널링하는, 무성음의 스피치의 경우에는, 노이즈 필링 척도가 조작되지 않고, 정상적인 노이즈 필링 레벨이 적용된다.

바람직하게는, 오디오 신호 분석기는 오디오 신호의 시간 프레임의 절대 피치 또는 피치 윤곽선과 같은 피치의 지시를 생성하는 피치 트래커를 포함한다.

그리고 나서, 조작기는 피치가 발견된 경우 노이즈 필링 척도를 감소시키고, 피치가 발견되지 않은 경우에는 노이즈필링 척도를 감소시키지 않도록 구성된다.

도 6a에 나타낸 바와 같이, 디코더 측에 적용되는 경우 신호 분석기(600)는 피치 트래커 또는 유성음/무성음 검출기와 같이 실질적인 신호 분석을 수행하지 않으며, 신호 분석기는 시간 워프 정보 또는 신호 분류 정보를 추출하기 위해 인코딩된 오디오 신호를 파싱한다. 그러므로, 신호 분석기(600)는 도 5b 디코더의 입력 인터페이스(539) 내에 구현될 수 있다.

본 발명의 추가적인 실시예가 도 7a 내지 7e와 관련하여 이어 논의될 것이다.

상대적으로 조용한 신호 부분 이후에 유성음의 스피치 부분이 시작하는 스피치의 온셋에 대해, 블록 스위칭 알고리즘은 이것을 공격으로 분류할 수도 있으며 이러한 특별한 프레임에 대해, 분명한 하모닉 구조를 가지는 신호 세그먼트 상에서의 코딩 이득의 손실을 가지는, 짧은 블록들을 선택할 수도 있다. 그러므로, 피치 트래커의 유성음/무성음의 분류가 유성음의 온셋들을 검출하는 데 사용되고, 블록 스위칭 알고리즘이 발견된 온셋 근처에서 과도적인 공격을 나타내는 것을 방지한다. 이러한 특성은 또한 스피치 신호 상에서의 블록 스위칭을 방지하고 모든 다른 신호들에 대해서는 이를 허락하기 위해 신호 분류기와 결합될 수 있다. 또한, 블록 스위칭의 더 정교한 제어가 단지 공격의 검출을 허용하거나 불허함에 의해서가 아니라 유성음의 온셋 및 신호 분류 정보에 기초한 공격 검출을 위한 변화하는 임계치를 사용함으로써 구현될 수 있다. 또한, 이러한 정보는 앞서 언급한 유성음의 온셋들과 같은 공격들을 검출하는 데 사용될 수 있는데, 짧은 블록들로 스위칭하는 대신, 짧은 중첩을 가지는 긴 윈도우를 사용하여, 바람직한 스펙트럴 해상도를 유지하면서 전(pre) 및 후(post) 에코들이 발생할 수 있는 시간 영역을 감소시키게 된다. 도 7d는 조정 없는 전형적인 동작을 나타내며, 도 7e는 조정(금지 및 낮은 중첩 윈도우들)의 두 가지 다른 가능성들을 나타낸다.

본 발명의 일 실시예에 따른 오디오 인코더가 도 5a로부터의 출력 인터페이스(522)에 의해 출력되는 신호 출력과 같은 오디오 신호를 생성하기 위해 동작한다. 오디오 인코더는 도 5a의 시간 워프 분석기(516) 및 신호 분류기(520)와 같은 오디오 신호 분석기를 포함한다. 일반적으로 오디오 신호 분석기는 오디오 신호의 시간 프레임이 하모닉 또는 스피치 특성을 가지는지를 분석한다. 이를 위해, 도 5a의 신호 분석기(520)는 유성음/무성음 검출기(520a) 또는 스피치/비스피치 검출기(520b)를 포함할 수 있다. 도 7a에 도시되지 않았으나, 피치 트래커를 포함할 수 있는 도 5a의 시간 워프 분석기(516)와 같은 시간 워프 분석기가, 아이템들(520a 및 520b) 대신에 또는 이러한 기능들에 추가하여 제공될 수 있다. 추가적으로, 오디오 인코더는 오디오 신호 분석기에 의해 결정되는 바와 같은 오디오 신호의 하모닉 또는 스피치 특성에 따라 윈도우 함수를 선택하는 윈도우 함수 제어기(504)를 포함한다. 윈도우어(502)는 그리고 나서 오디오 신호를 윈도우잉하거나, 특정 구현예에 따라, 윈도우된 프레임을 얻기 위해 선택된 윈도우 함수를 사용해 시간 워핑된 오디오 신호를 윈도우잉한다. 이 윈도우 프레임은 그리고 나서, 인코딩된 오디오 신호를 얻기 위해 프로세서에 의해 추가적으로 처리된다. 프로세서는 도 5a에 도시된 아이템들(508, 510, 512) 또는, 변환 기반 오디오 인코더들 또는 스피치 코더들, 및 특히 AMR-WB+ 표준에 따라 구현되는 스피치 코더들과 같은 LPC 필터를 포함하는 시간 영역-기반 오디오 인코더들과 같은 공지의 오디오 인코더들의 다소의 기능들을 포함할 수 있다.

바람직한 일 실시예에서, 윈도우 함수 제어기(504)는 오디오 신호의 과도부를 검출하는 과도부 검출기(700)를 포함하며, 윈도우 함수 제어기는, 과도부가 검출되고 오디오 신호 분석기에 의해 하모닉 또는 스피치 특성이 발견되지 않은 경우, 긴 블록에 대한 윈도우 함수로부터 짧은 블록에 대한 윈도우 함수로 스위치하도록 구성된다. 하지만, 상기 과도부가 검출되고 오디오 신호 분석기에 의해 하모닉 또는 스피치 특성이 발견된 경우, 윈도우 함수 제어기(504)는 짧은 블록에 대한 윈도우 함수로 스위칭하지 않는다. 과도부가 획득되지 않는 경우에는 긴 윈도우를, 과도부 검출기에 의해 검출된 과도부가 있는 경우에는 짧은 윈도우를 나타내는 윈도우 함수 출력들이 도 7a의 701 및 702와 같이 도시되어 있다. 공지의 AAC 인코더에 의해 수행되는 바와 같은 이러한 정상적인 절차가 도 7d에 도시되어 있다. 음성 온셋의 위치에서, 과도부 검출기(700)가 하나의 프레임으로부터 다음 프레임까지의 에너지 증가를 검출하고, 그에 따라 긴 윈도우(710)로부터 짧은 윈도우(712)로 스위칭한다. 이러한 스위치를 수용하기 위해, 제1 중첩 부분(714a), 비-에일리어징 부분(714b), 제2 짧은 중첩 부분(714c) 및 2048 샘플들에 의해 표시되는 시간 축 상의 포인트 및 포인트 716 사이로 확장하는 제로 부분을 가지는 긴 정지 윈도우(714)가 사용된다. 그리고 나서, 712로 표시되는 짧은 윈도우 시퀀스가 수행되고, 그리고 나서 도 7d에는 도시되지 않은 다음 긴 윈도우와 중첩하는 긴 중첩 부분(718a)을 가지는 긴 개시 윈도우(718)에 의해 종료된다. 또한, 이 윈도우는 비-에일리어징 부분(718b), 짧은 중첩 부분(718c) 및 2048 포인트까지 시간 축상의 포인트 (720) 사이로 확장하는 제로 부분을 가진다. 이 부분이 제로 부분이다.

보통, 짧은 윈도우로의 스위칭은 유성음의 온셋 또는, 일반적으로 스피치의 시작 또는 하모닉 성분을 가지는 신호의 시작의 위치인 과도 이벤트 전의 프레임 내에서 일어날 수 있는 프리-에코들을 회피하는 데 유용하다. 일반적으로 피치 트래커가 신호가 피치를 가지는 것으로 결정한 경우 신호는 하모닉 성분을 가진다. 또한, 두드러진 피크들이 서로 하모닉 관계인 특성과 함께 특정한 최저 레벨 위의 조성(tonality) 척도와 같은 다른 화음(harmonicity) 척도들이 있다. 신호가 하모닉인지 아닌지를 결정하는 복수의 추가적인 기술요소들이 존재한다.

짧은 윈도우의 불리한 점은, 시간 해상도가 증가하기 때문에 주파수 해상도가 감소한다는 점이다. 스피치 및, 특히 유성음의 스피치 부분들 또는 강한 하모닉 성분을 가지는 부분들의 고품질의 인코딩을 위해서는, 양호한 주파수 해상도가 요구된다. 그러므로, 516, 520, 또는 520a, 520b에 도시된 오디오 신호 분석기는 과도부 검출기(700)로 비활성화 신호를 출력하도록 동작하여, 유성음의 스피치 세그먼트 또는 강한 하모닉 특성을 가지는 신호 세그먼트가 검출되는 경우에는, 짧은 윈도우로의 스위칭이 방지된다. 이것은 이러한 신호 부분들을 코딩하기 위해 높은 주파수 해상도가 유지되는 것을 보장한다. 이는 한편으로는 프리-에코, 다른 한편으로는 하모닉 비-스피치 신호를 위한 피치 또는 스피치 신호를 위한 피치의 높은 해상도 인코딩 사이의 트레이드 오프(trade off)이다. 발생할 것 같은 어떤 프리-에코들과 비교해 하모닉 스펙트럼이 정확하게 인코딩되지 않았을 때가 훨씬 더 거북하다는 것이 발견되었다. 추가적으로 프리-에코들을 감소시키기 위해, 도 8a 및 8b와 관련하여 논의될 상황에 있어서 TNS 프로세싱이 선호된다.

도 7b에 도시된 대안적 실시예에서, 오디오 신호 분석기가 유성음/무성음 및/또는 스피치/비-스피치 검출기(520a, 520b)를 포함한다. 하지만, 윈도우 함수 제어기에 포함된 과도부 검출기(700)가 도 7a에서와 같이 완전히 활성화/비활성화되지는 않으며, 과도부 검출기에 포함된 임계치가 임계치 제어 신호(704)를 사용해 제어된다. 이 실시예에서, 과도부 검출기(700)는, 오디오 신호의 양적 특성을 결정하고 양적 특성을 제어가능한 임계치와 비교하도록 구성되며, 양적 특성이 제어가능한 임계치에 대해 기 설정된 관련성을 가질 때 과도부가 검출된다. 양적 특성은 한 블록으로부터 다음번 블록으로의 에너지 증가를 나타내는 숫자일 수 있으며, 임계치는 특정 임계 에너지 증가일 수 있다. 한 블록으로부터 다음번 블록으로의 에너지 증가가 임계 에너지 증가보다 더 높은 경우, 과도부가 검출되고, 이 경우, 기 설정된 관계는 "더 큰" 관계가 된다. 다른 실시예들에서, 예를 들어 양적인 특성이 도치된(inverted) 에너지 증가일 때, 기 설정된 관계는 또한 "더 낮은" 관계가 될 수 있다. 도 7b의 실시예에서, 제어가능한 임계치는, 오디오 신호 분석기가 하모닉 또는 스피치 특성을 발견한 경우, 짧은 블록에 대해 윈도우 함수로의 스위치에 대한 가능성이 감소되도록 제어된다. 에너지 증가 실시예에서, 임계치 제어 신호(704)가 임계치의 증가를 야기할 것이고 한 블록으로부터 다음 블록으로의 에너지 증가가 특히 높은 에너지 증가인 경우에만 짧은 블록으로의 전환이 발생할 것이다.

다른 실시예에서, 유성음/무성음 검출기(520a) 또는 스피치/비스피치 검출기(520b)로부터의 출력 신호가 또한, 스피치 온셋에서 짧은 블록으로의 스위칭 대신 짧은 블록에 대한 윈도우 함수보다 긴 윈도우 함수로의 스위칭이 수행되는 방식으로, 윈도우 함수 제어기(504)를 제어하는 데 사용될 수 있다. 이 윈도우 함수는 짧은 윈도우 함수보다 더 높은 주파수 해상도를 보장하지만, 긴 윈도우 함수보다 더 짧은 길이를 가지므로, 한편의 프리-에코 및 다른 한편의 충분한 주파수 해상도 사이의 좋은 타협이 이루어진다. 다른 대안적 실시예에서, 더 작은 중첩을 가지는 긴 윈도우 함수로의 스위치가 도 7e에서 706의 빗금 라인에 의해 표시된 바와 같이 수행될 수 있다. 윈도우 함수(706)는 긴 블록으로서 2048 샘플의 길이를 가지지만, 이 윈도우는 제로 부분(708) 및 비-에일리어징 부분(710)을 가지고, 윈도우(706)로부터 상응하는 윈도우(707)로의 짧은 중첩 길이(712)가 얻어진다. 윈도우 함수(707)는 윈도우 함수(710)와 유사하게 다시, 영역(712)의 제로 부분 좌측 및 영역(712)의 우측에 대한 비-에일이러징 부분을 가진다. 이 낮은-중첩 실시예는 윈도우(706 및 707)의 제로(0) 부분으로 인한 프리-에코들을 감소시키기 위해 더 짧은 시간 길이, 하지만 다른 한편으로는 중첩 부분(714) 및 비-에일리어징 부분(710)으로 인한 충분한 길이를 가지는 결과를 효과적으로 이끌어내어, 충분히 만족스러운 주파수 해상도가 유지된다.

AAC 인코더에 의해 구현되는 바와 같은 바람직한 MDCT 구현예에서 특정 중첩을 유지하는 것은, 디코더 측에서 블록들 간의 일종의 크로스-페이딩이 수행됨을 의미하는 중첩/합산 프로세싱이 수행될 수 있다는 추가적인 이점을 제공한다. 이것은 블록킹 아티팩트들을 효과적으로 피하게 한다. 추가적으로 이러한 중첩/합산 특성은 비트레이트의 증가 없는 크로스-페이딩 특성을 제공하는데, 다른 말로, 임계적으로 샘플된 크로스-페이드가 얻어진다. 통상적인 긴 윈도우들 또는 짧은 윈도우들에서, 중첩 부분은 중첩 부분(714)에 의해 지시되는 바와 같이 50% 중첩이다. 윈도우 함수가 2048 샘플 길이인 실시예에서, 중첩 부분은 50%, 즉 1024 샘플이다. 스피치 온셋 또는 하모닉 신호의 온셋을 효과적으로 윈도우잉하는 데 사용될 것인 짧은 중첩을 가지는 윈도우 함수는 바람직하게는 50% 이하이고, 도 7e의 실시예에서, 전체 윈도우 길이의 1/16인 128 샘플만이다. 바람직하게는 전체 윈도우 함수 길이의 1/4 및 1/32 사이의 중첩 부분들이 사용된다.

도 7c는 예시적인 유성음/무성음 검출기(520a)가, 749로 표시된 바와 같은 짧은 중첩을 가지는 윈도우 형상을 선택하거나 750으로 표시된 바와 같은 긴 중첩을 가지는 윈도우 형상을 선택하기 위해 윈도우 함수 제어기(504) 내에 포함된 윈도우 형상 선택기를 제어하는 이러한 실시예를 도시한다. 유성음/무성음 검출기(520a)가 751에 유성음의 검출된 신호를 발행할 때, 양쪽 형상들 중 하나의 선택이 수행되고, 분석에 사용된 오디오 신호가 도 5a의 입력(500)에서의 오디오 신호 또는 시간 워핑된 오디오 신호 또는 다른 어떤 프리-프로세싱 기능에 의해 처리되었던 오디오 신호와 같은 프리-프로세싱된 오디오 신호가 될 수 있다. 바람직하게는, 윈도우 함수 제어기에 포함된 과도부 검출기가 과도부를 검출하고 도 7a와 관련하여 논의된 바와 같이 긴 윈도우 함수로부터 짧은 윈도우 함수로 스위치할 것을 명령할 경우, 도 5a의 윈도우 함수 제어기(504)에 포함된 도 7c의 윈도우 형상 선택기(504)는 단지 신호(751)만을 이용한다.

바람직하게는, 윈도우 함수 스위칭 실시예는 도 8a 및 8b와 관련하여 논의된 시간적 노이즈 형성 실시예와 결합된다. 하지만, TNS(temporal noise shaping) 실시예는 또한 블록 스위칭 실시예 없이 구현될 수 있다.

시간 워핑된 MDCT의 스펙트럴 에너지 다짐 속성은 또한, TNS 이득이 특별히 어떤 스피치 신호들을 위해 시간 워핑된 프레임들에 대해 감소하는 경향을 보이기 때문에, 시간적 노이즈 형성(TNS) 수단에 영향을 미친다. 예를 들어, 블록 스위칭이 요청되지 않는 경우, 유성음의 온셋들 또는 오프셋들(블록 스위칭 적용 참조)에 대해 프리-에코들을 감소시키기 위해 TNS를 활성화하는 것이 바람직하다 할지라도, 스피치 신호의 시간적 포락선은 여전히 급속한 변화를 나타낸다. 통상적으로, 인코더는 TNS의 적용이 특정한 프레임에 대해 유용한지 보기 위한 어떤 척도, 예를 들어 스펙트럼에 적용되는 경우 TNS 필터의 예측 이득을 사용한다. 따라서, 활성상태의 피치 윤곽선을 가지는 세그먼트들에 대해 더 낮은 유효한 TNS 이득 임계치가 바람직하며, 이것은 TNS가 유성음의 온셋들과 같은 이러한 임계적 신호 부분들에 대해 보다 자주 활성 상태임을 보장한다. 다른 수단들과 함께처럼, 이것은 또한 신호 분류를 고려하여 보완될 수 있다.

오디오 신호를 생성하는 이러한 실시예에 따른 오디오 인코더는, 시간 워핑된 오디오 신호를 획득하기 위해 오디오 신호를 시간 워핑하는 제어가능한 시간 워퍼(506)와 같은 제어가능한 시간 워퍼를 포함한다. 추가적으로, 시간 워핑된 오디오 신호의 적어도 일부를 스펙트럴 표현으로 변환하는 시간/주파수 변환기(508)가 제공된다. 바람직하게는 시간/주파수 변환기(508)는 AAC 인코더로부터 공지된 바와 같은 MDCT 변환을 구현하지만, 시간/주파수 변환기는 또한 DCT, DST, DFT, FFT 또는 MDST 변환과 같은 어떤 종류의 변환이라도 수행할 수 있으며, QMF 필터 뱅크과 같은 필터 뱅크를 포함할 수 있다.

추가적으로, 인코더는 시간적 노이즈 형성 제어 지시에 따른 스펙트럴 표현의 주파수 상에서 예측 필터링을 수행하는 시간적 노이즈 형성 스테이지(510)를 포함하고, 시간적 노이즈 형성 제어 지시가 존재하지 않는 경우에는 예측 필터링이 수행되지 않는다.

추가적으로 인코더는 스펙트럴 표현에 기초하여 시간적 노이즈 형성 제어 지시를 생성하는 시간적 노이즈 형성 제어기를 포함한다.

특히, 시간적 노이즈 형성 제어기는 스펙트럴 표현이 시간 워핑된 오디오 신호에 기초하는 경우, 주파수 상에서의 예측 필터링을 수행할 가능성을 증가시키거나, 또는 스펙트럴 표현이 시간 워핑된 오디오 신호에 기초하지 않는 경우, 주파수 상에서의 예측 필터링을 수행할 가능성을 감소시키도록 구성된다. 시간적 노이즈 형성 제어기의 상세사항들은 도 8과 관련하여 논의된다.

오디오 인코더는 추가적으로 인코딩된 오디오 신호를 획득하기 위해 주파수 상의 예측 필터링의 결과를 추가적으로 처리하는 프로세서를 포함한다. 일 실시예에서 프로세서는 도 5a의 양자화기 인코더 스테이지(512)를 포함한다.

도 5a에 도시된 TNS 스테이지(510)가 도 8에서 상세히 서술된다. 바람직하게는 스테이지(510)에 포함된 시간적 노이즈 형성 제어기는, 연속적으로 TNS 결정기(802) 및 임계 제어 신호 생성기(804)에 연결된 TNS 이득 연산기(800)를 포함한다. 시간 워프 분석기(516) 또는 신호 분류기(520) 또는 둘다로부터의 신호에 따라 임계치 제어 신호 생성기(804)가 TNS 결정기로 임계치 제어 신호(806)를 출력한다. TNS 결정기(802)는 임계치 제어 신호(806)에 따라 증가 또는 감소되는 제어가능한 임계치를 가진다. TNS 결정기(802)의 임계치는, 본 실시예에서, TNS 이득 임계치이다. 블록(800)에 의해 출력된 실질적으로 계산된 TNS 이득이 임계치를 넘어서는 경우에는, TNS 제어 지시가 출력으로서 TNS 프로세싱을 요구하는 반면, TNS 이득이 TNS 이득 임계치 아래인 다른 경우에는 TNS 지시가 출력되지 않거나 또는 TNS 프로세싱이 유용하지 않고 이 특정 시간 프레임에서는 수행되지 않을 것을 지시하는 신호가 출력된다.

TNS 이득 계산기(800)는 입력으로서 시간 워핑된 신호로부터 도출된 스펙트럴 표현을 수신한다. 통상적으로 시간 워핑된 신호는 더 낮은 TNS 이득을 가질 것지만, 다른 한편으로는 시간 영역에서의 시간적 노이즈 형성 특성으로 인한 TNS 프로세싱이, 시간 워핑 동작에 의해 처리되었던 유성음/하모닉 신호가 있는, 특정 상황에서 유익할 것이다. 한편, TNS 프로세싱은, TNS 이득이 낮은 상황에서는 유용하지 않은데, 이것은 라인(510b)에서의 TNS 잔여 신호가 TNS 스테이지(510) 전에 신호로서 동일하거나 더 높은 에너지를 가짐을 의미한다. 라인(510d) 상의 TNS 잔여 신호의 에너지가 TNS 스테이지(510) 전의 에너지보다 약간 낮은 상황에서, TNS 프로세싱은 또한 유익하지 않을 수 있는데, 이는, 양자화기/엔트로피 인코더 스테이지(512)에 의해 효율적으로 사용된 신호에서의 약간 작은 에너지로 인한 비트 감소가 도 5a에서 510a로 표시된 TNS 부가 정보의 필요한 전송에 의해 도입된 비트 증가보다 작기 때문이다. 비록, 시간 워핑된 신호가 블록(516)으로부터의 피치 정보에 의해 지시된 입력 또는 블록(520)으로부터의 신호 분류기 정보인, 일 실시예가 모든 프레임에 대해 TNS 프로세싱 상에서 자동적으로 스위칭을 한다 하더라도, 바람직한 일 실시예는 또한, 하모닉/스피치 신호가 처리되지 않는 경우가 아니라 이득이 정말 낮거나 또는 적어도 정상적인 경우보다 낮은 경우에만 TNS 프로세싱을 비활성화할 가능성을 유지한다.

도 8b는 3 개의 다른 임계치 설정이 임계치 제어 신호 생성기(804)/TNS 결정기(802)에 의해 구현되는 일 실시예를 도시한다. 피치 윤곽선이 존재하지 않는 경우, 및 신호 분류기가 무성음의 스피치 또는 나타내거나 스피치를 전혀 나타내지 않는 경우에, TNS 결정 임계치는 TNS를 활성화하는 상대적으로 높은 TNS 이득을 요구하는 정상 상태로 설정된다. 하지만, 피치 윤곽선이 검출되었으나 신호 분류기는 아무런 스피치도 나타내지 않는 경우 또는 유성음/무성음 검출기가 무성음의 스피치를 검출하는 경우, TNS 결정 임계치는 더 낮은 레벨로 설정되고, 이것은 비교적 낮은 TNS 이득이 도 8a의 블록에 의해 계산되지 않는 경우에도, 그럼에도 불구하고 TNS 프로세싱이 활성화됨을 의미한다.

활성 피치 윤곽선이 검출되고, 유성음의 스피치가 발견되는 상황에서, TNS 결정 임계치는 동일한 더 낮은 값으로 설정되거나 심지어 더 낮은 상태로 설정되어 심지어 작은 TNS 이득도 TNS 프로세싱을 활성화하기에 충분하게 된다.

일 실시예에서, 오디오 신호가 주파수 상의 예측 필터링을 거치는 경우, TNS 이득 제어기(800)는 비트 레이트 또는 품질 면에서의 이득을 예측하도록 구성된다. TNS 결정기(802)는, 추정된 이득이 결정 임계치에 대해 기 설정된 관계에 있는 경우, 이러한 기 설정된 관계가 "더 큰" 관계가 될 수 있는, 하지만 예를 들어 역변환된 TNS 이득에 대해서는 "더 낮은" 관계일 수도 있는 상황에서, 추정된 이득을 결정 임계치와 비교한다. 논의된 바와 같이, 시간적 노이즈 형성 제어기는 또한 임계치 제어 신호(806)를 사용하여 바람직하게 결정 임계치를 변화시키도록 구성되어, 동일한 추정 이득에 대해, 스펙트럴 표현이 시간 워핑된 오디오 신호에 기초하고, 활성화되지 않은 경우 예측 필터링이 활성화되고, 스펙트럴 표현이 시간 워핑된 오디오 신호에 기초하지 않는 경우에는 활성화되지 않게 된다.

일반적으로, 유성음의 스피치는 피치 윤곽선을 보일 것이고, 마찰음(fricatives) 또는 치찰음(sibilants)과 같은 무성음의 스피치는 피치 윤곽선을 보이지 않을 것이다. 하지만, 비록 스피치 검출기가 스피치를 검출하지 않는다 하더라도 강한 하모닉 성분을 가지고, 그에 따라 피치 윤곽선을 가지는 비-스피치 신호가 존재한다. 추가적으로, 오디오 신호 분석기(예를 들어 도 5a의 516)에 의해 하모닉 성분을 가지는 것으로 결정된, 하지만 신호 분류기(520)에 의해 스피치 신호로 검출되지 않는, 음악보다 우월한 스피치 또는 스피치보다 우월한 음악 신호들이 존재한다. 어떤 경우에는 유성음의 스피치 신호들에 대해 모든 프로세싱 동작들이 적용될 수 있고, 또한 이로운 결과를 도출할 것이다.

후속적으로, 오디오 신호를 인코딩하는 오디오 인코더와 관련한 본 발명의 추가적인 바람직한 일 실시예가 서술된다. 이 오디오 인코더는 특히 대역폭 확장 측면에서 유용한데, 특정 대역폭 제한/저-대역 필터링 동작을 획득하기 위해 오디오 인코더가 특정 개수의 라인들을 코딩하도록 설정되는 독립형의(Stand alone) 인코더 어플리케이션에서 또한 유용하다. 비-시간-워핑된 어플리케이션들에서는, 어떤 기 설정된 개수의 라인들을 선택함으로써 이러한 대역폭 제한이 일정한 대역폭을 도출할 것인데, 이는 오디오 신호의 샘플링 주파수가 일정하기 때문이다. 하지만, 도 5a의 블록(506)에 의한 바와 같은 시간 워프 프로세싱이 수행되는 상황들에서, 고정된 개수의 라인들에 의존하는 인코더는 훈련된 청취자들에 의해 인식가능할 뿐 아니라 비훈련된 청취자들에 의해 또한 인식가능한 강한 아티팩트들을 나타내는 변화하는 대역폭을 도출할 것이다.

AAC 코더는 일반적으로, 최대 라인을 넘어서는 모든 다른 것들을 0으로 설정함으로써, 고정 개수의 라인들을 코딩한다. 워핑되지 않은 경우에 있어서 이것은 일정한 컷-오프 주파수를 가진 저-대역 효과 및 그에 따른 디코딩된 AAC 신호의 일정한 대역폭을 도출한다. 시간 워핑된 경우에서 대역폭은, 가청 아티팩트들을 야기시키는, 지역적 샘플링 주파수의 변동, 지역적 시간 워핑 윤곽선의 함수 때문에 변화한다. 아티팩트들은 지역적 샘플링 주파수에 따라 코어 코더에서 코딩될 라인의 개수를 - 지역적 시간 워핑 윤곽선의 함수 그리고 그 획득된 평균 샘플링 레이트로서 - 적응적으로 선택함으로써 감소될 수 있고 모든 프레임에 대해 디코더에서 시간 재-워핑 이후 일정한 평균 대역폭이 얻어지게 된다. 추가적인 이득은 인코더에서의 비트 절약이다.

본 실시예에 따른 오디오 인코더는 변화하는 시간 워핑 특성을 이용해 오디오 신호를 시간 워핑하는 시간 워퍼(506)를 포함한다. 추가적으로, 시간 워핑된 오디오 신호를 몇몇 스펙트럴 계수들을 가지는 스펙트럴 표현으로 변환하는 시간/주파수 변환기(508)가 제공된다. 또한, 인코딩된 오디오 신호를 생성하기 위한 가변 개수의 스펙트럴 계수들을 처리하기 위한 프로세서가 사용되고, 여기서 도 5a의 양자화기/코더 블록(512)을 포함하는 이러한 프로세서는 프레임에 대한 시간 워핑 특성에 기초하여 오디오 신호의 프레임에 대한 스펙트럴 계수들의 개수를 설정하도록 구성되어, 프레임마다 주파수 계수들의 처리된 개수에 의해 표현되는 대역폭 변동이 감소되거나 제거된다.

블록(512)에 의해 구현되는 프로세서는 라인들의 개수를 제어하는 제어기(1000)를 포함하고, 제어기(1000)의 결과는, 시간 프레임이 어떤 시간 워핑 없이 인코딩되는 경우에 대해 설정된 라인들의 개수와 관련하여, 특정한 가변 개수의 라인들이 스펙트럼의 상위 말단에서 추가되거나 파기된다. 구현에 따라, 제어기(1000)는 특정 프레임(1001)에서의 피치 윤곽선 정보 및/또는 1002로 표시된 프레임에서의 지역 평균 샘플링 주파수를 수신할 수 있다.

도 9a 내지 9e에서, 오른쪽 그림은 프레임 상에서 특정 피치 윤곽선에 대한 특정 대역폭 상황을 도시하고, 프레임 상에서의 피치 윤곽선들이 시간 워프에 대해 개별적 왼쪽 그림에 도시되며, 실질적으로 일정한 피치 특성이 획득되는 시간 워프 이후가 중간 그림들에 도시된다. 이것이, 시간 워핑 이후, 피치 특성이 가능한 한 일정한 시간 워핑 기능의 목적이다.

대역폭(900)은 시간/주파수 변환기(508)에 의해 출력된 또는 도 5a의 TNS 스테이지(510)에 의해 출력된 특정 개수의 라인들이 선택된 경우, 그리고 시간 워핑 동작이 수행되지 않을 때, 즉 시간 워퍼(506)가 빗금 라인(507)에 의해 지시되는 바와 같이, 비활성화될 때 얻어지는 대역폭을 도시한다. 하지만, 비-일정 시간 워프 윤곽선이 얻어지는 경우, 그리고 이러한 시간 워프 윤곽선이 샘플링 레이트 증가(도 9(a), (c))를 포함하는 높은 피치를 가져오는 경우, 스펙트럼의 대역폭은 보통, 비-시간 워핑된 상황에 비교하여 감소한다. 이것은, 대역폭의 이러한 손실을 밸런싱하기 위해 이 프레임에 대해 전송되어야 할 라인들의 개수가 증가되어야 함을 의미한다.

대안적으로, 피치를 도 9(b) 또는 도 9(d)에 도시된 더 낮은 일정한 피치로 가져오는 것은 샘플링 레이트의 감소를 가져온다. 샘플링 레이트 감소는 선형 스케일에 대해 이 프레임의 스펙트럼의 대역폭 증가를 가져오고, 이러한 대역폭 증가는 정상 비-시간-워핑된 상황에 대해 라인 개수의 값에 대한 특정 개수의 라인들을 제거 또는 파기함으로써 밸런싱되어야 한다.

도 9(e)는 피치 윤곽선이 중간 레벨로 내려오고 그에 따라 한 프레임 내의 평균 샘플링 레이트가, 시간 워핑 동작을 수행하는 대신, 어떤 시간 워핑도 없는 경우의 샘플링 주파수와 동일해지는 특별한 경우를 도시한다. 따라서, 시간 워핑 동작이 수행되더라도 신호의 대역폭이 영향을 받지 않고, 시간 워핑이 없는 정상 경우에 대해 사용될 직접적 라인 개수가 처리될 수 있다. 도 9로부터, 시간 워핑 동작을 수행하는 것이 반드시 대역폭에 영향을 주는 것은 아니며 대역폭의 영향은 피치 윤곽선 및 시간 워프가 프레임 내에서 어떻게 수행되는지에 의존한다는 점이 분명해진다. 그러므로, 제어 값으로서 지역적 또는 평균 샘플링 레이트를 사용하는 것이 바람직하다. 이러한 지역적 샘플링 레이트의 결정이 도 11에 도시된다. 도 11의 상위 단은 일정 거리의 샘플링 값들을 가지는 시간 부분을 도시한다. 프레임은, 예를 들어 상단의 플롯에서 T_n 에 의해 지시되는 7 개의 샘플링 값들을 포함한다. 하단의 플롯은, 전체적으로 샘플링 레이트 증가가 발생하는 시간 워핑 동작의 결과를 보여준다. 이것은 시간 워핑된 프레임의 시간 길이가 비-시간 워핑된 프레임의 시간 길이보다 작다는 것을 의미한다. 하지만, 시간/주파수 변환기에 도입될 시간 워핑된 프레임의 시간 길이가 고정되어 있으므로, 샘플링 레이트 증가의 경우 Tn 에 의해 지시되는 프레임에 속하지 않는 시간 신호의 추가적인 부분이 라인들(1100)에 의해 지시되는 바와 같이 시간 워핑된 프레임으로 도입되는 현상을 야기한다. 따라서, 시간 워핑된 프레임은 시간 T_n 보다 긴 T_lin 에 의해 지시되는 오디오 신호의 시간 부분을 커버한다. 그러한 측면에서, 두 주파수 라인들 간의 효율적 거리 또는 선형 도메인에서의(해상도에 대한 역의 값인) 단일 라인의 주파수 대역폭이 감소되고, 감소된 주파수 거리 결과에 의해 곱해졌을 때 비-시간-워핑된 경우에 대해 설정된 라인들의 개수 N_n은 더 작은 대역폭, 즉, 대역폭 감소를 야기시킨다.

샘플링 레이트 감소가 시간 워퍼에 의해 수행되는 도 11에는 도시되지 않은 다른 경우, 시간 워핑된 영역에서의 프레임의 효율적인 시간 길이는 비-시간 워핑된 영역의 시간 길이보다 더 작아서, 단일 라인의 주파수 대역폭 또는 두 주파수 라인들 사이의 거리가 증가된다. 이제, 이러한 증가된

f 를 정상 경우에 대한 라인들의 개수 N_N으로 곱함으로써, 감소된 주파수 해상도/두 인접한 주파수 계수들간의 증가된 주파수 거리로 인한 증가된 대역폭을 도출할 것이다.

도 11은 추가적으로 평균 샘플링 레이트 f_SR 이 어떻게 계산되는지 도시한다. 이를 위해, 두 시간 워핑된 샘플들 간의 시간 거리가 결정되고, 역의 값이 취해지며, 이것이 두 시간 워핑된 샘플들 간의 지역적 샘플링 레이트로 정의될 것이다. 이러한 값은 인접한 샘플들의 각 쌍 사이에서 계산될 수 있고, 산술적 평균 값이 계산되고 이러한 값은 최종적으로 평균 지역적 샘플링 레이트를 도출하게 되며, 이것은 바람직하게는 도 10a의 제어기(1000)로 입력되기 위해 사용된다.

도 10b는 얼마나 많은 라인들이 지역적 샘플링 주파수에 따라 추가되거나 파기되어야 하는지를 나타내는 플롯을 도시하며, 여기서 비-시간-워핑된 경우에 대해 설정된 라인들의 개수 N_n과 함께 비-시간-워핑된 경우에 대한 샘플링 주파수 f_N 은 의도된 대역폭을 정의하며, 이는 시간 워핑된 및 비-시간-워핑된 프레임의 시퀀스에 대해 또는 시간 워핑된 프레임들의 시퀀스에 대해 되도록 일정하게 유지되어야 한다.

도 12b는 도 9, 도 10b 및 도 11과 연관하여 논의된 여러 파라미터들간의 의존도를 나타낸다. 기본적으로, 샘플링 레이트, 즉 평균 샘플링 레이트 f_SR이 비-시간 워핑된 경우에 대해 감소하는 경우, 라인들이 제어되어야 하고, 샘플링 레이트가 비-시간-워핑된 경우에 대한 정상 샘플링 레이트 f_N 에 대해 증가하는 경우에는 라인들이 추가되어야 하며, 그에 따라 프레임 간의 대역폭 변동이 감소되거나 또는 바람직하게는 가능한 한 제거된다.

라인들의 개수 N_N 및 샘플링 레이트 f_N의 개수에 의해 도출되는 대역폭은 바람직하게는, 소스 코어 오디오 인코더에 더하여, 대역폭 확장 인코더(BWE 인코더)를 가지는 오디오 코더에 대한 크로스-오버 주파수(1200)를 정의한다. 해당 기술분야에서 공지된 바와 같이, 대역폭 확장 인코더는 단지 크로스-오버 주파수까지 높은 비트 레이트를 가지는 스펙트럼만을 코딩하고 높은 대역, 즉 크로스-오버 주파수 및 주파수 f_MAX 사이의 스펙트럼을 낮은 비트 레이트를 이용해 인코딩하며, 이러한 낮은 비트 레이트는 통상적으로 심지어 1/10보다도 더 낮거나 주파수 0 및 크로스-오버 주파수(1200) 사이의 낮은 대역에 필요한 비트 레이트보다 적다. 도 12a는 또한 직접적인 AAC 오디오 인코더의 대역폭 BW_AAC를 도시한다. 그에 따라 라인들이 파기될 뿐 아니라 추가될 수도 있다. 또한, 지역적 샘플링 레이트 f_SR에 따른 일정 개수의 라인들에 대한 대역폭 변동이 또한 도시된다. 바람직하게는, AAC 인코딩된 데이터의 각 프레임이 크로스-오버 주파수(1200)에 최대한 가까운 최대 주파수를 가지도록, 통상 경우에 대한 라인 개수애 대해 추가되거나 제거되어야 할 라인들의 개수가 설정된다. 따라서, 한편으로 대역폭 감소 또는 낮은 대역 인코딩된 프레임에서의 크로스-오버 주파수 위의 주파수에 대한 정보를 전송함으로 인한 오버헤드로 인한 스펙트럴 홀들이 회피된다. 이것은 한편으로는, 디코딩된 오디오 신호의 품질을 증가시키고 다른 한편으로는 비트레이트를 감소시킨다.

설정된 라인 개수와 관련한 라인의 제거 또는 설정된 라인 개수와 관련한 라인의 실질적인 추가가 라인들을 양자화하기 전에, 즉 블록(512)의 입력에서 실행될 수 있거나, 양자화에 이어 수행될 수 있거나, 특정 엔트로피 코드에 따라 엔트로피 코딩 이후에 또한 수행될 수도 있다.

추가적으로, 대역폭 변동을 최저 레벨로 가져오고 심지어는 대역폭 변동을 제거하는 것이 바람직하지만, 다른 구현예들에서는 시간 워핑 특성에 따라 라인들의 개수를 결정함으로써 대역폭 변동을 감소시키는 것이, 특정 시간 워프 특성에 부관하게 일정한 개수의 라인들이 적용되는 상황에 비교했을 때, 심지어 오디오 품질을 증가시키고 필요한 비트 레이트를 감소시킨다.

여러 측면들이 장치의 관점에서 서술되었으나, 이러한 측면들이, 블록 또는 디바이스가 방법적 단계 또는 방법적 단계의 특성에 상응하는 방법의 설명을 또한 나타냄이 명확함이 이해되어야 할 것이다. 유사하게, 방법 단계들의 관점에서 설명된 측면들 또한 상응하는 블록 또는 아이템의 설명 또는 상응하는 장치의 특성을 나타낸다.

특정한 구현 요구사항들에 따라, 본 발명의 실시예들이 하드웨어 또는 소프트웨어적으로 구현될 수 있다. 구현은 전자적으로 판독가능한 제어 신호를 그 위에 저장하고 있는, 디지털 기록 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용해 실행될 수 있으며, 이것은 개별 방법이 수행되도록 프로그램가능한 컴퓨터 시스템과 협력한다(또는 협력 능력이 있다). 어떤 실시예들은 프로그램가능한 컴퓨터 시스템과 협력하는 능력이 있는 전자적으로 판독가능한 제어 신호를 가져, 방법들 중 하나가 거기서 수행되는, 데이터 캐리어를 포함한다. 일반적으로 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 동작할 때 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어 머신 판독가능한 캐리어 상에 저장될 수 있다. 다른 실시예들은 머신 판독가능한 캐러어 상에 저장된, 여기 서술된 방법들 중 하나를 수행하는 컴퓨터 프로그램을 포함한다. 다시 말해, 본 발명의 방법의 일 실시예는, 그러므로 컴퓨터 프로그램이 컴퓨터 상에서 동작할 때, 여기 서술된 방법들 중 하나를 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램이다. 그러므로, 본 발명 방법의 추가적인 실시예는 여기 서술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록한 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터-판독가능 매체)이다. 본 발명의 추가적인 실시예는 그러므로, 여기 서술된 방법들 중 하나를 수행하는 컴퓨터 프로그램을 나타내는 신호의 시퀀스 또는 데이터 스트림이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 데이터 통신 연결, 예를 들어 인터넷을 통해 전달되도록 구현될 수 있다. 추가적인 실시예가, 여기 서술된 방법들 중 하나를 수행하도록 적용되거나 구성된 프로세싱 수단, 예를 들어 컴퓨터, 또는 프로그램가능한 로직 장치를 포함한다. 추가적인 실시예가 여기 서술된 방법들 중 하나를 수행하는 컴퓨터 프로그램이 그 위에 설치된 컴퓨터를 포함한다. 몇몇 실시예들에서는, 프로그램가능한 로직 장치가 여기 서술된 방법들의 기능들 중 일부 또는 모두를 수행하는 데 사용될 수 있다. 몇몇 실시예들에서, 여기 서술된 방법들 중 하나를 수행하기 위해, 필드 프로그램가능한 게이트 어레이가 마이크로프로세서와 협력할 수 있다.

Claims

오디오 신호를 인코딩하는 오디오 인코더로서,
시간 워퍼(506);
시간-워핑된 오디오 신호를 스펙트럴 표현으로 시간/주파수 변환을 수행하는 시간-주파수 변환기(508);
양자화 임계치 아래의 제로 오디오 값들로 양자화하도록 구성된, 오디오 값들을 양자화하는 양자화기(512);
노이즈 필링 척도를 획득하기 위해 오디오 신호의 시간 프레임에 대해 제로로 양자화된 오디오 값들의 에너지의 척도를 추정하는 노이즈 필링 계산기(524);
상기 오디오 신호의 시간 프레임이 하모닉 또는 스피치 특성을 가졌는지 여부를 분석하는 오디오 신호 분석기(516, 520);
조작된 노이즈 필링 척도를 획득하기 위해 오디오 신호의 하모닉 또는 스피치 특성에 따라 노이즈 필링(filling) 척도를 조작하는 조작기(602); 및
전송 또는 저장을 위해, 상기 조작된 노이즈 필링 척도(530)를 포함하는 인코딩된 신호를 생성하는 출력 인터페이스(522)를 포함하고,
상기 조작기(602)는 상기 오디오 신호가 하모닉 또는 스피치 특성을 갖지 않고 시간 워핑이 적용되지 않은 경우 정상 노이즈 레벨을 적용하고, 하모닉 성분(content)을 나타내는, 피치 윤곽선이 발견되었고 상기 시간 워핑이 활성일 때 노이즈 필링 레벨을 정상 경우보다 더 낮도록 조작하도록 구성된, 오디오 인코더.
청구항 1에 있어서,
상기 오디오 신호 분석기(516, 520)는 상기 오디오 신호의 시간 프레임에서 피치가 발견된 경우, 피치의 표시자를 생성하는 피치 트래커를 포함하고,
상기 조작기(602)는 피치가 발견된 경우 상기 노이즈 필링 척도를 감소시키도록 구성된, 오디오 인코더.
청구항 1에 있어서,
상기 오디오 신호 분석기는 상기 시간 프레임의 적어도 일부가 유성음(voiced)인지 검출하는 유성음/무성음 검출기(520)를 포함하고,
상기 조작기(602)는 상기 일부가 유성음인 것으로 검출된 경우, 노이즈 필링 척도를 감소시키거나 노이즈 필링 척도를 0으로 만들도록 구성되고,
상기 조작기(602)는 상기 일부가 무성음 것으로 검출된 경우, 상기 노이즈 필링 척도를 조작하지 않거나 상기 일부가 유성음 것으로 검출된 경우보다 더 작은 정도로 상기 노이즈 필링 척도를 조작하도록 구성된, 오디오 인코더.
인코딩된 오디오 신호를 디코딩하는 디코더로서,
인코딩된 오디오 데이터(546) 및 노이즈 필링 척도(543)를 획득하기 위해 상기 인코딩된 오디오 신호를 처리하는 입력 인터페이스(539);
재-양자화된 데이터를 생성하는 디코더/재-양자화기(547, 550);
오디오 데이터의 시간 프레임이 하모닉 또는 스피치 특성을 가지는지에 대한 정보를 복원하는 신호 분석기(600);
노이즈 필링 오디오 데이터를 생성하는 노이즈 필러(552)로서, 상기 노이즈 필러(552)는 상기 오디오 데이터의 하모닉 또는 스피치 특성 및 상기 노이즈 필링 척도에 응답하여 노이즈 필링 데이터를 생성하도록 구성된, 노이즈 필러(552); 및
디코딩된 오디오 신호(564)를 획득하기 위해 상기 재-양자화된 데이터 및 노이즈 필링 오디오 데이터를 처리하는 프로세서(556, 558, 560)를 포함하고,
상기 인코딩된 오디오 신호는 오디오 데이터의 시간 프레임이 하모닉 또는 스피치 특성을 가졌는지를 나타내는 데이터(542, 541)를 포함하고,
상기 신호 분석기(600)는 오디오 데이터의 시간 프레임이 하모닉 또는 스피치 특성을 가졌는지를 나타내는 데이터를 복원하기 위해 상기 인코딩된 오디오 신호를 분석하도록 구성되고,
상기 데이터는 시간 부분이 시간 워핑 프로세싱으로 처리되었음을 나타내는 표시자이고,
상기 프로세서는 노이즈 필링 데이터 및 재-양자화된 데이터로부터 도출된 오디오 신호를 시간 역워핑하기 위한 시간 역워퍼(558)를 포함하는, 디코더.
오디오 신호를 인코딩하는 방법으로서,
오디오 신호를 시간 워핑하는 단계(506);
시간-워핑된 오디오 신호를 스펙트럴 표현으로 시간/주파수 변환을 수행하는 단계(508);
양자화 임계치 아래의 값들이 0으로 양자화되도록, 오디오 값들을 양자화하는 단계(512);
오디오 신호의 시간 프레임에 대해 0으로 양자화된 오디오 값들의 에너지의 척도를 추정하는 단계(524);
상기 오디오 신호의 시간 프레임이 하모닉 또는 스피치 특성을 가졌는지를 분석하는 단계(516, 520);
조작된 노이즈 필링 척도를 획득하기 위해 오디오 신호의 하모닉 또는 스피치 특성에 따라 노이즈 필링(filling) 척도를 조작하는 단계(602)로서, 상기 오디오 신호가 하모닉 또는 스피치 특성을 가지지 않고 시간 워핑이 적용되지 않을 때에는 정상 노이즈 레벨이 적용되도록, 하모닉 성분(content)을 나타내는 피치 윤곽선이 발견되었고 시간 워핑이 활성일 때에는 노이즈 필링 레벨이 정상 경우보다 더 낮게 조작되도록, 상기 노이즈 필링 척도를 조작하는 단계; 및
전송 또는 저장을 위해, 상기 조작된 노이즈 필링 척도(530)를 포함하는 인코딩된 신호를 생성하는 단계(522)를 포함하는 오디오 신호를 인코딩하는 방법.
오디오 데이터의 시간 프레임이 하모닉 또는 스피치 특성을 가지는지를 나타내는 데이터(542, 541)를 포함하는 인코딩된 오디오 신호를 디코딩하는 방법으로서,
인코딩된 오디오 데이터(546) 및 노이즈 필링 척도(543)를 획득하기 위해 상기 인코딩된 오디오 신호를 처리하는 단계(539);
오디오 데이터의 시간 프레임이 하모닉 또는 스피치 특성을 가지는지를 나타내는 데이터를 복원하기 위해 상기 인코딩된 오디오 신호를 분석하는 단계로서, 상기 데이터는 시간 부분이 시간 워핑 처리를 거쳤는지에 대한 표시(indication)인, 상기 분석하는 단계;
재-양자화된 데이터를 생성하는 단계(547, 550);
상기 오디오 데이터의 시간 프레임이 하모닉 또는 스피치 특성을 가지는지 에 대한 정보를 복원하는 단계(600);
상기 오디오 데이터의 하모닉 또는 스피치 특성 및 상기 노이즈 필링 척도에 응답하여 노이즈 필링 오디오 데이터를 생성하는 단계(552); 및
디코딩된 오디오 신호(564)를 획득하기 위해 상기 재-양자화된 데이터 및 노이즈 필링 오디오 데이터를 처리하는 단계(556, 558, 560)로서, 상기 단계(556, 558, 560)는 노이즈 필링 데이터 및 재-양자화된 데이터로부터 도출된 오디오 신호를 시간 역워핑하는 단계를 포함하는, 상기 단계(556, 558, 560)를 포함하는, 인코딩된 오디오 신호를 디코딩하는 방법.
컴퓨터 상에서 동작할 때, 청구항 5에 따른 방법 또는 청구항 6에 따른 방법을 실행하는 프로그램 코드를 갖는 컴퓨터 프로그램을 저장한 컴퓨터로 판독 가능한 기록 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제