KR101944386B1

KR101944386B1 - 오디오 신호를 디코딩하기 위한 디코더 및 방법, 오디오 신호를 인코딩하기 위한 인코더 및 방법

Info

Publication number: KR101944386B1
Application number: KR1020177002926A
Authority: KR
Inventors: 사샤 디쉬; 미꼬-빌 라이티넨; 빌 풀끼
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2014-07-01
Filing date: 2015-06-25
Publication date: 2019-02-01
Also published as: KR20170030549A; PL3164869T3; CA2999327A1; RU2676414C2; MX356672B; US20170110135A1; US20190156842A1; AU2015282748A1; EP2963645A1; MY182840A; RU2017103101A3; PL3164870T3; JP2017524151A; JP6553657B2; EP3164873A1; AU2018204782A1; TW201618079A; JP2017525994A; AU2018204782B2; MX2016016758A

Abstract

오디오 신호(32)를 디코딩하기 위한 디코더(110')가 도시되어 있다. 디코더(110')는 제 1보정 데이터(295a)를 사용하여 상기 오디오 신호(32)의 부대역 신호의 제 1 시간 프레임을 위한 표적 스펙트럼(85a')을 발생시키기 위한 제 1 표적 스펙트럼 발생기(65q)를 포함한다. 1 위상 보정기(70a)는 위상 보정 알고리즘으로 결정된 오디오 신호(55)의 제 1 시간 프레임 내의 상기 부대역 신호의 위상(45)을 보정하며, 보정은 오디오 신호(55)의 시간 프레임 내의 부대역 신호의 측정 및 표적 스펙트럼(85a') 사이의 차이의 감소에 의해 실행된다. 오디오 부대역 신호 계산기(350)는 제 2 시간 프레임 내의 부대역 신호의 측정(85a')을 사용하거나 또는 위상 보정 알고리즘과 다른 또 다른 위상 보정 알고리즘에 따라 보정된 위상 계산을 사용하여 제 1 시간 프레임과 다른 제 2 시간 프레임을 위한 오디오 부대역 신호들(365)을 계산한다.

Description

오디오 신호를 디코딩하기 위한 디코더 및 방법, 오디오 신호를 인코딩하기 위한 인코더 및 방법{DECODER AMD METHOD FOR DECODING AN AUDIO SIGNAL, ENCODER, AND METHOD FOR ENCODING AN AUDIO SIGNAL}

본 발명은 오디오 신호의 처리를 위한 오디오 프로세서와 방법, 그리고 오디오 신호의 디코딩을 위한 디코더와 방법, 및 오디오 신호의 인코딩을 위한 인코더와 방법에 관한 것이다. 게다가, 위상 보정 데이터를 결정하기 위한 계산기와 방법, 및 이전에 언급된 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램과 방법이 설명된다. 바꾸어 말하면, 본 발명은 지각적 오디오 코덱들을 위한 위상 유도 보정과 대역폭 확장(BWE) 또는 지각적 중요성을 기초로 하여 QMF 도메인 내의 대역폭 확장된 신호들의 위상 스펙트럼의 보정을 나타낸다.

지각적 오디오 코딩

지금까지 지각적 오디오 코딩은 시간/주파수-도메인 처리의 사용, 중복 감소(redundancy reduction, 엔트로피 코딩), 및 공지된 지각적 효과들의 사용에 의해 실현되는 무관성(irrelevancy) 제거를 포함하는, 몇몇 통상적인 주제들을 따른다.[1]. 일반적으로, 입력 신호는 시간 도메인 신호를 스펙트럼(시간/주파수) 표현으로 전환하는 분석 필터 뱅크에 의해 분석된다. 스펙트럼 계수들로의 전환은 그것들의 주파수 콘텐츠(예를 들면, 그것들의 개별 배음 구조를 갖는 상이한 악기들)를 기초로 하여 신호 성분들의 선택적 처리를 허용한다.

일반적으로, 입력 신호는 지각적 특성들과 관련하여 분석되는데, 즉 특히 시간- 및 주파수-의존적 마스킹 임계(masking threshold)가 계산된다. 시간/주파수 의존적 마스킹 임계는 각각의 주파수 대역 및 코딩 시간 프레임을 위한 절대 에너지 값 또는 마스크-대-신호-비율(MSR)의 형태의 표적 코딩 임계를 통하여 양자화 유닛에 전달된다.

분석 필터 뱅크에 의해 전달되는 스펙트럼 계수들은 신호의 표현을 위하여 필요한 데이터 비율을 감소시키도록 양자화된다. 이러한 단계는 정보의 손실을 나타내고 코딩 왜곡(오류, 잡음)을 신호내에 유도되도록 한다. 이러한 코딩 잡음의 청각 영향을 최소화하기 위하여, 양자화 단계 크기들은 각각의 주파수 대역 및 프레임을 위한 표적 코딩 임계들에 따라 제어된다. 이상적으로, 각각의 주파수 대역 내로 주입된 코딩 잡음은 코딩(마스킹) 임계보다 낮고 따라서 대상 오디오의 저하는 지각할 수 있다(무관성의 제거). 음향심리학적 요구조건들에 따른 주파수 및 시간에 대한 양자화 잡음의 이러한 제어는 복잡한 잡음 형상 효과에 이르게 하고 코더를 지각적 오디오 코더로 만드는 것이다.

그 이후에, 현대 오디오 코더들은 양자화된 스펙트럼 데이터 상에 엔트로피 코딩(예를 들면, 호프만 코딩, 산술 코딩)을 실행한다. 엔트로피 코딩은 비트 레이트를 더 절약하는, 무손실 코딩 단계이다.

마지막으로, 모든 코딩된 스펙트럼 데이터 및 관련 부가적인 파라미터들(예를 들면, 각각의 주파수 대역을 위한 양자화기 설정들 같은, 부가 정보)은 비트스트림 내로 함께 패킹되고, 이는 파일 저장 또는 전송을 위하여 의도되는 최종 코딩된 표현이다.

대역폭 확장

필터뱅크들을 기초로 하는 지각적 오디오 코딩에서, 소비된 비트 레이트의 주요 부분은 일반적으로 양자화된 스펙트럼 계수들 상에서 소비된다. 따라서, 매우 낮은 비트 레이트들에서, 충분하지 않은 비트들은 지각적으로, 손상되지 않은 재생을 달성하는데 필요한 정밀도로 모든 계수를 표현하도록 이용 가능할 수 있다. 이에 의해, 낮은 비트 레이트 요구조건들은 지각적 오디오 코딩에 의해 획득될 수 있는 오디오 대역폭에 대한 한계를 효율적으로 설정한다. 대역폭 확장[2]은 이러한 오랫동안의 기본 한계를 제거한다. 대역폭 확장의 중심 개념은 간결한 파라미터 형태로 송신 고주파수 콘텐츠를 전송하고 복원하는 부가적인 고주파수 프로세서에 의해 대역 제한된 지각적 코딩을 완성하는 것이다. 고주파수 콘텐츠는, 기저대역 신호의 부대역 변조, 스펙트럼 대역 복제(SBR)[3]에서 사용되는 것 같은 카피-업(copy-up) 기술 또는 예를 들면 보코더[4] 같은 피치 시프팅(pitch shifting) 기술들의 적용에 근거하여 발생될 수 있다.

디지털 오디오 효과들

시간-스트레칭(stretching) 또는 피치 시프팅 효과들은 일반적으로 동기화된 오버랩-가산(synchronized overlap-add, SOLA) 같은 시간 도메인 기술들 또는 주파수 도메인 기술들(보코더)의 적용에 의해 획득된다. 또한, 부대역들 내에 SOLA 처리를 적용하는 하이브리드 시스템들이 제안되어왔다. 보코더들 및 하이브리드 시스템들은 일반적으로 페이스니스(phasiness)로 불리는 아티팩트로부터 곤란을 겪는다. 일부 공개 공보들은 중요한 수직 위상 간섭의 보존에 의해 시간 스트레칭 알고리즘들의 음향 음질을 향상시키는 것과 괸련된다[6][7].

최신 오디오 코더들[1]은 일반적으로 코딩되어지는 신호의 중요한 위상 특성들을 무시함으로써 오디오 신호들의 지각적 품질을 손상시킨다. 지각적 오디오 코더들 내의 위상 간섭을 보정하는 일반적인 제안이 다뤄진다[9].

그러나, 모든 종류의 위상 간섭 오류는 동시에 보정될 수 있고 모든 위상 간섭 오류가 지각적으로 중요하지는 않다. 예를 들면, 오디오 대역폭 확장에서, 최신 기술로부터, 어떠한 위상 간섭 관련 오류들이 최우선으로 보정되어야만 하고 어떠한 오류들이 그것들의 상당한 지각적 영향과 관련하여 단지 부분적으로 보정될 수 있는지, 또는 전체가 무시되는지는 분명하지 않다.

특히, 오디오 대역폭 확장[2][3][4]의 적용에 기인하여, 주파수 및 시간에 대한 위상 간섭은 흔히 손상된다. 결과는 청각 거칠기를 나타내고 원래 신호 내의 창각 오브젝트들로부터 분해되므로 원래 신호에 게다가 스스로 청각 오브젝트로서 지각되는 게다가 지각된 톤(tone)들을 포함할 수 있는 탁한(dull) 음성이다. 게다가, 음성은 또한 멀리서부터 오는 것으로 나타나고, 덜 "웅웅거리며(buzzy)", 따라서 적은 청취 참여를 유도한다.

따라서, 향상된 접근법을 위한 필요성이 존재한다.

오디오 신호를 처리하기 위한 향상된 개념을 제공하는 것이 본 발명의 목적이다. 이러한 목적은 독립 청구항들의 주제에 의해 해결된다

본 발명은 오디오 신호의 위상이 오디오 프로세서 또는 디코더에 의해 계산되는 표적 위상에 따라 보정될 수 있다는 발견을 기초로 한다. 표적 위상은 처리되지 않은 오디오 신호의 위상의 표현으로서 관찰될 수 있다. 따라서, 처리된 오디오 신호의 위상은 처리되지 않은 오디오 신호의 위상과 잘 들어맞도록 보정된다. 예를 들면 오디오 신호의 시간 주파수 표현을 가질 때, 오디오 신호의 위상은 뒤따르는 주파수 부대역들을 위하여 시간 프레임 내에서 보정될 수 있다. 설명된 발견들은 다른 실시 예들에서 구현될 수 있거나 또는 디코더 및/또는 인코더에서 공동으로 구현될 수 있다.

실시 예들은 시간 프레임을 위한 오디오 신호의 위상 측정을 계산하도록 구성되는 오디오 신호 위상 측정 계산기를 포함하는 오디오 신호의 처리를 위한 오디오 프로세서를 도시하고 있다. 게다가, 오디오 신호는 상기 시간 프레임을 위한 표적 위상 측정을 결정하기 위한 표적 위상 측정 결정기(target phase measurement determiner) 및 처리된 오디오 신호를 획득하기 위하여 계산된 위상 측정 및 표적 위상 측정을 사용하여 오디오 프레임을 위한 오디오 신호들의 위상을 보정하도록 구성되는 위상 보정기(phase corrector)를 포함한다.

또 다른 실시 예들에 따르면, 오디오 신호는 시간 프레임을 위한 복수의 부대역 신호를 포함할 수 있다. 표적 위상 측정 결정기는 제 1 부대역 신호를 위한 제 1 표적 위상 측정 및 제 2 부대역 신호를 위한 제 2 표적 위상 측정을 결정하도록 구성된다. 게다가, 오디오 신호 위상 측정 계산기는 제 1 부대역 신호를 위한 제 1 표적 위상 측정 및 제 2 부대역 신호를 위한 제 2 표적 위상 측정을 결정한다. 위상 보정기는 오디오 신호의 위상 측정을 사용하여 제 1 부대역 신호를 위한 제 1 위상을 보정하고 오디오 신호의 제 2 위상 측정 및 제 2 표적 위상 측정을 사용하여 제 2 부대역의 제 2 위상을 보정하도록 구성된다. 따라서 오디오 프로세서는 보정된 제 1 부대역 신호 및 보정된 제 2 부대역 신호를 사용하여 보정된 오디오 신호를 합성하기 위한 오디오 신호 합성기(audio signal synthesizer)를 포함할 수 있다.

본 발명에 따르면, 오디오 프로세서는 수평 방향으로, 즉 시간에 대한 보정으로 오디오 신호의 위상을 보정하도록 구성된다. 따라서, 오디오 신호는 시간 프레임들의 세트로 세분될 수 있으며, 각각의 시간 프레임의 위상은 표적 위상에 따라 보정될 수 있다. 표적 위상은 원래 오디오 신호의 표현일 수 있으며, 오디오 프로세서는 원래 오디오 신호의 인코딩된 표현인 오디오 신호의 디코딩을 위한 디코더의 일부분일 수 있다. 선택적으로, 수평 위상 보정은 만일 오디오 신호가 시간-주파수 표현 내에서 이용 가능하면, 오디오 신호의 부대역들의 수를 위하여 개별적으로 적용될 수 있다. 오디오 신호의 위상의 보정은 표적 위상의 시간에 대한 위상 유도 및 오디오 신호의 위상으로부터 오디오 신호의 위상의 변이를 뺌으로써 실행될 수 있다.

따라서, 시간에 대한 위상 유도가 주파수(3-1, 4-2는 위상)이기 때문에, 설명된 위상 보정은 오디오 신호의 각각의 부대역을 위한 주파수 보정을 실행한다. 바꾸어 말하면, 표적 주파수에 대한 오디오 신호의 각각의 부대역의 차이는 오디오 신호를 위한 더 나은 품질을 획득하도록 감소될 수 있다.

표적 위상을 결정하기 위하여, 표적 위상 결정기는 현재 시간 프레임을 위한 기본 주파수 추정을 획득하고 시간 프레임을 위한 기본 주파수 추정을 사용하여 시간 프레임을 위한 복수의 부대역의 각각의 부대역을 위한 주파수 추정을 계산하도록 구성된다. 주파수 추정은 부대역들의 총 수 및 오디오 신호의 샘플링 주파수를 사용하여 시간에 대한 위상 유도로 전환될 수 있다. 또 다른 실시 예에서, 오디오 프로세서는 시간 프레임 내의 오디오 신호를 위한 표적 위상 측정을 결정하기 위한 표적 위상 측정 결정기, 오디오 신호의 위상을 사용하여 위상 오류(phase error)를 계산하기 위한 위상 오류 계산기, 및 위상 오류를 사용하여 오디오 신호 및 시간 프레임의 위상을 보정하도록 구성되는 위상 보정기를 포함한다.

또 다른 실시 예들에 따르면, 오디오 신호는 시간 주파수 표현 내에서 이용 가능하며, 오디오 신호는 시간 프레임을 위한 복수의 부대역을 포함한다. 표적 위상 측정 결정기는 제 1 부대역 신호를 위한 제 1 표적 위상 측정 및 제 2 부대역 신호를 위한 제 2 표적 위상 측정을 결정한다. 게다가, 위상 오류 계산기는 위상 오류들의 벡터를 형성하며, 벡터의 제 1 요소는 제 1 부대역 신호 및 제 1 표적 위상 측정의 위상의 제 1 유도를 언급하고 벡터의 제 2 요소는 제 2 부대역 신호 및 제 2 표적 위상 측정의 위상의 제 2 유도를 언급한다. 게다가, 이러한 실시 예에서의 오디오 프로세서는 보정된 제 1 부대역 신호 및 보정된 제 2 부대역 신호를 사용하여 보정된 오디오 신호를 합성하기 위한 오디오 신호 합성기를 포함한다. 이러한 위상 보정은 평균적으로 보정된 위상 값들을 생성한다.

게다가 또는 대안으로서, 복수의 부대역은 기저대역 및 주파수 패치들의 세트로 그룹화되며, 기저대역은 오디오 신호의 하나의 부대역을 포함하고 주파수 패치들의 세트는 기저대역 내의 적어도 하나의 부대역의 주파수보다 높은 주파수에서 기저대역의 적어도 하나의 부대역을 포함한다. 또 다른 실시 예들은 평균 위상 오류를 획득하기 위하여 주파수 패치들의 제 2 수의 제 1 패치를 언급하는 위상 로류들의 벡터의 요소들의 평균을 계산하도록 구성되는 위상 오류 계산기를 도시하고 있다. 위상 보정기는 가중된 평균 위상 오류를 사용하여 패치 신호의 주파수 패치들의 세트의 제 1 및 뒤따르는 주파수 패치들 내의 부대역 신호의 위상을 보정하도록 구성되며, 평균 위상 오류는 변형된 패치 신호를 획득하도록 주파수 패치의 지수에 따라 세분된다. 위상 보정은 교차 주파수들에서 뛰어난 품질을 제공하며, 이는 뒤따르는 주파수 패치들 사이의 경계 주파수들이다.

또 다른 실시 예에 따르면, 두 가지 이전에 설명된 실시 예는 평균적으로 그리고 크로스오버 주파수들에서 뛰어난 위상 보정된 값들을 포함하는 보정된 오디오 신호를 획득하도록 결합될 수 있다. 따라서, 오디오 신호 위상 유도 계산기는 기저대역을 위한 주파수에 대힌 위상 유도들의 평균을 계산하도록 구성된다. 위상 보정기는 오디오 신호의 기저대역 내의 가장 높은 부대역 지수를 갖는 부대역 신호의 위상에 대하여 현재 부대역 지수에 의해 가중된 주파수에 대한 위상 유도들의 평균을 더함으로써 최적화된 제 1 주파수 패치로 또 다른 변형된 패치 신호를 계산한다. 게다가, 위상 보정기는 결합되고 변형된 패치 신호를 획득하도록 변형된 패치 신호 및 또 다른 변형된 패치 신호의 가중 평균을 계산하고 주파수 패치들을 기초로 하여, 결합되고 변형된 패치 신호의 이전 주파수 패치 내의 가장 높은 부대역 지수를 갖는 부대역 신호의 위상에 대하여 현재 부대역의 부대역 지수에 의해 가중된, 주파수에 대한 위상 유도들의 평균을 더함으로써 결합되고 변형된 패치 신호를 반복적으로 업데이트하도록 구성될 수 있다.

표적 위상을 결정하기 위하여, 표적 위상 측정 결정기는 데이터 스트림으로부터 오디오 신호의 현재 시간 프레임 내의 피크 위치 및 피크 위치들의 기본 주파수를 추출하도록 구성되는 데이터 스트림 추출기(data stream extractor)를 포함할 수 있다. 대안으로서, 표적 위상 측정 결정기는 현재 시간 프레임을 분석하도록 구성되는 오디오 신호 분석기(audio signal analyzer)를 포함할 수 있다. 게다가. 표적 위상 측정 결정기는 피크 위치 및 피크 위치들의 기본 주파수를 사용하여 현재 시간 프레임 내의 또 다른 피크 위치들을 추정하기 위한 표적 스펙트럼 발생기를 포함한다. 상세히 설명하면, 표적 스펙트럼 발생기는 시간의 펄스 트레인(pulse train)을 발생시키기 위한 피크 검출기, 피크 위치들의 기본 주파수에 따른 펄스 트레인의 주파수를 보정하기 위한 신호 형성기(signal former), 및 보정된 펄스 트레인의 위상 스펙트럼을 발생시키기 위한 스펙트럼 분석기를 포함하며, 시간 도메인 신호의 펄스 스펙트럼은 표적 위상 측정이다. 표적 위상 측정 결정기의 설명된 실시 예는 피크들을 갖는 파형을 갖는 오디오 신호를 위한 표적 스펙트럼의 발생을 위하여 바람직하다,

제 2 오디오 프로세서의 실시 예들은 수직 위상 보정을 설명한다. 수직 위상 보정은 모든 기저대역에 대하여 하나의 시간 프레임 내의 오디오 신호의 위상을 보정한다. 각각의 부대역을 위하여 독립적으로 적용되는, 오디오 신호의 위상의 보정은 오디오 신호의 부대역의 합성 후에, 보정되지 않은 오디오 신호와 다른 오디오 신호의 파형을 야기한다. 따라서, 예를 들면, 스미어링된(smeared) 피크 또는 트랜지언트를 재형상화하는 것이 가능하다.

또 다른 실시 예에 따르면, 제 1 및 제 2 변이 모드 내의 오디오 신호의 위상의 변이를 결정하기 위한 변이 결정기, 위상 변이 모드를 사용하여 결정되는 제 1 변이 및 제 2 변이 모드를 사용하여 결정되는 제 2 변이를 비교하기 위한 변이 비교기(variation comparator), 및 비교의 결과를 기초로 하여 제 1 변이 모드 또는 제 2 변이 노드에 따라 위상 보정을 계산하기 위한 보정 데이터 계산기를 갖는 오디오 신호를 위한 위상 보정 데이터를 결정하기 위한 계산기가 도시되어 있다.

또 다른 실시 예는 제 1 변이 노드 내의 위상의 변이로서 오디오 신호의 복수의 시간 프레임을 위한 시간에 대한 위상 유도(PDT)의 표준 편차 측정 또는 제 2 변이 모드 내의 위상의 변이로서 복수의 부대역을 위한 시간에 대한 위상 유도(PDF)의 표준 편차 측정을 결정하기 위한 변이 결정기를 도시하고 있다. 변이 비교기는 제 1 변이 모드로서 시간에 대한 위상 유도의 측정 및 오디오 신호의 시간 프레임들을 위한 제 2 변이 모드로서 주파수에 대한 위상 유도의 측정을 비교한다. 또 다른 실시 예에 따르면, 변이 결정기는 제 3 변이 모드 내의 오디오 신호의 위상의 변이를 결정하도록 구성되며, 제 3 변이 모드는 트랜지언트 검출 모드이다. 따라서, 변이 비교기는 3가지 변이 모드를 비교를 비교하고 보정 데이터 계산기는 비교의 결과를 기초로 하여 제 1 변이 모드, 제 2 변이 모드, 또는 제 3 변이 모드에 따라 위상 보정을 계산한다.

보정 데이터 계산기의 결정 규칙들은 다음과 같이 설명될 수 있다. 만일 트랜지언트가 검출되면, 위상은 트랜지언트의 형상을 회복하도록 트랜지언트들을 위한 위상 보정에 따라 보정된다. 그렇지 않으면, 만일 제 1 변이가 제 2 변이보다 작거나 동일하면, 제 1 변이 모드의 위상 보정이 적용되거나 또는, 만일 제 2 변이가 제 1 변이보다 크면, 제 2 변이 모드에 따라 위상 보정이 적용된다.만일 트랜지언트의 부재가 검출되고 만일 제 1 변이 모드 및 제 2 변이 모드 모두가 임계 값을 초과하면, 어떠한 위상 보정 모드도 적용되지 않는다.

계산기는 최상의 위상 보정 모드를 결정하고 결정된 위상 보정 모드를 위한 관련 파라미터들을 계산하도록, 예를 들면 오디오 보정 스테이지 내의 오디오 신호를 분석하도록 구성될 수 있다. 디코딩 스테이지에서, 파라미터들은 최신 코덱들을 사용하여 디코딩된 신호들과 비교하여 더 좋은 품질을 갖는 디코딩된 오디오 신호를 획득하도록 사용될 수 있다. 계산기는 오디오 신호의 각각의 시간 프레임에 대해서 올바른 보정 모드를 자동으로 검출한다는 것을 이해하여야만 한다.

실시 예들은 제 1 보정 데이터를 사용하여 오디오 신호의 제 2 신호의 제 1 시간 프레임을 위한 표적 스펙트럼을 발생시키기 위한 제 1 표적 스펙트럼 발생기 및 위상 보정 알고리즘으로 결정된 오디오 신호의 제 1 시간 프레임 내의 부대역 신호의 위상을 보정하기 위한 제 1 위상 보정기를 갖는 오디오 신호를 디코딩하기 위한 디코더를 도시하며, 보정은 오디오 신호 및 표적 스펙트럼의 제 1 시간 프레임 내의 부대역 신호의 측정 사이의 차이의 감소에 의해 실행된다. 게다가, 디코더는 시간 프레임을 위한 보정된 위상을 사용하여 제 1 시간 프레임을 위한 오디오 부대역 신호를 계산하고 제 2 시간 프레임 내의 부대역 신호의 측정을 사용하거나 또는 위상 보정 알고리즘과 다른 또 다른 위상 보정 알고리즘에 따라 보정된 위상 계산을 사용하여 제 1 시간 프레임과 다른 제 2 시간 프레임을 위한 오디오 부대역 신호를 계산하기 위한 오디오 부대역 신호 계산기를 포함한다.

또 다른 실시 예들에 따르면, 디코더는 제 1 표적 스펙트럼 발생에 등가물이고 제 1 위상 보정기에 등가물인 제 2 및 제 3 위상 보정기에 등가물인 제 2 및 제 3 표적 스펙트럼 발생기를 포함한다. 또 다른 실시 예에 따르면 디코더는 오디오 신호와 관련하여 감소된 수의 부대역을 갖는 시간 프레임 내의 오디오 신호를 디코딩하도록 구성되는 코어 디코더를 포함한다. 게다가, 디코더는 감소된 수의 부대역들을 갖는 코어 디코딩된 오디오 신호의 세트를 패칭하기 위한 패처(patcher)를 포함할 수 있으며, 부대역들의 세트는 규칙적인 부대역들의 수를 갖는 오디오 신호를 획득하도록, 감소된 수의 부대역들과 근접한, 시간 프레임 내의 또 다른 부대역들에 대해서 제 1 패치를 형성한다. 게다가, 디코더는 시간 프레임 내의 오디오 서브 대역 신호 내의 크기 값들을 처리하기 위한 크기 프로세서(magnitude processor) 및 합성되고 디코딩된 오디오 신호를 획득하도록 오디오 부대역 신호들 또는 처리된 오디오 부대역 신호들의 크기를 합성하기 위한 신호 합성기를 포함할 수 있다. 이러한 실시 예는 디코딩된 오디오 신호의 위상 보정을 포함하는 대역폭 확장을 위한 디코더를 달성할 수 있다.

따라서, 오디오 신호의 위상을 결정하기 위한 위상 결정기, 결정된 오디오 신호의 위상을 기초로 하여 오디오 신호를 위한 위상 보정 데이터를 결정하기 위한 계산기, 오디오 신호와 관련하여 감소된 수의 부대역을 갖는 코어 인코딩된 오디오 신호를 획득하도록 오디오 신호를 코어 인코딩하도록 구성되는 코어 인코더, 및 코어 인코딩된 오디오 신호 내에 포함되지 않는 부대역들의 제 2 세트를 위한 저해상도 파라미터 표현을 획득하도록 오디오 신호의 파라미터들을 추출하도록 구성되는 파라미터 추출기, 그리고 파라미터들, 코어 인코딩된 오디오 신호, 및 위상 보정 데이터을 포함하는 출력 신호를 형성하기 위한 오디오 신호 형성기를 포함하는 오디오 신호를 인코딩하기 위한 인코더는 대역폭 확장을 위한 인코더를 형성할 수 있다.

이전에 설명된 모든 실시 예는 예를 들면 인코더 및/또는 디코딩된 오디오 신호의 위상 보정을 갖는 대역폭 확장을 위한 디코더에서, 전체로서 또는 조합하여 관찰될 수 있다. 대안으로서, 서로 관련 없이 독립적으로 설명된 모든 실시 예를 보는 것이 또한 가능하다.

본 발명의 실시 예들은 뒤에 첨부된 도면들을 참조하여 설명될 것이다.
도 1a는 시간 주파수 표현 내의 바이올린 신호의 크기 스펙트럼을 도시하고 있다.
도 1b는 도 1a의 크기 스펙트럼과 대응하는 위상 스펙트럼을 도시하고 있다.
도 1c는 시간 주파수 표현 내의 QMF 도메인 내의 트럼본 신호의 크기 스펙트럼을 도시하고 있다.
도 1d는 도 1c의 크기 스펙트럼과 대응하는 위상 스펙트럼을 도시하고 있다.
도 2는 시간 프레임 및 부대역에 의해 정의되는 시간 주파수 타일들(예를 들면, QMF 빈들)을 포함하는 시간 주파수 다이어그램을 도시하고 있다.
도 3a는 오디오 신호의 바람직한 주파수 다이어그램을 도시하고, 주파수의 크기가 10개의 상이한 부대역에 대하여 도시되어 있다.
도 3b는 수용 이후에, 즉 중간 단계에서 디코딩 과정 동안에 오디오 신호의 바람직한 주파수 표현을 도시하고 있다.
도 3c는 재구성된 오디오 신호(Z(k,n))의 바람직한 주파수 표현을 도시하고 있다.
도 4a는 시간-주파수 표현 내의 직접적인 카피-업 SBR을 사용하여 QMF 도메인 내의 바이올린의 크기 스펙트럼을 도시하고 있다.
도 4b는 도 4a의 크기 스펙트럼과 대응하는 위상 스펙트럼을 도시하고 있다.
도 4c는 시간-주파수 표현 내의 직접적인 카피-업 SBR을 사용하여 QMF 도메인 내의 트럼본 신호의 크기 스펙트럼을 도시하고 있다.
도 4d는 도 4c의 크기 스펙트럼과 대응하는 위상 스펙트럼을 도시하고 있다.
도 5는 상이한 위상 값들을 갖는 단일 QMF 빈의 시간-도메인 표현을 도시하고 있다.
도 6은 하나의 비-제로 주파수 대역 및 고정 값, π/4(상부) 및 3π/4로의 위상 변화를 갖는, 시간-도메인 및 주파수-도메인 표현을 도시하고 있다.
도 7은 하나의 비-제로 주파수 대역을 갖고 위상이 임의로 변하는, 신호의 시간-도메인 및 주파수-도메인 표현을 도시하고 있다.
도 8은 4개의 시간 프레임 및 제 3 부대역만이 0과 다른 주파수를 포함하는 4개의 주파수 부대역의 시간 주파수 표현 내의 도 6과 관련하여 설명된 효과를 도시하고 있다.
도 9는 하나의 비-제로 시간 프레임을 갖고 위상이 고장 값, π/4(상부) 및 3π/4로의 위상 변화를 갖는, 신호의 시간-도메인 및 주파수-도메인 표현을 도시하고 있다.
도 10은 하나의 비-제로 시간 프레임을 갖고 위상이 임의로 변하는, 신호의 시간-도메인 및 주파수-도메인 표현을 도시하고 있다.
도 11은 하나의 제 3 시간 프레임만이 0과 다른 주파수를 포함하는, 도 8에 도시된 시간 주파수 다이어그램과 유사한 시간 주파수 도메인을 도시하고 있다.
도 12a는 시간-주파수 표현 내의 QMF 도메인 내의 바이올린 신호의 시간에 대한 위상 유도를 도시하고 있다.
도 12b는 도 12a에 도시된 시간에 대한 위상 유도와 대응하는 위상 유도 주파수를 도시하고 있다.
도 12c는 시간-주파수 표현 내의 QMF 도메인 내의 트럼본 신호의 시간에 대한 위상 유도를 도시하고 있다.
도 12d는 도 12c에 도시된 시간에 대한 위상 유도와 대응하는 위상 유도 주파수를 도시하고 있다.
도 13a는 시간-주파수 표현 내의 직접적인 카피-업 SBR을 사용하여 QMF 도메인 내의 바이올린 신호의 시간에 대한 위상 유도를 도시하고 있다.
도 12b는 도 13a에 도시된 시간에 대한 위상 유도와 대응하는 주파수에 대한 위산 유도를 도시하고 있다.
도 13c는 시간-주파수 표현 내의 직접적인 카피-업 SBR을 사용하여 QMF 도메인 내의 트럼본 신호의 시간에 대한 위상 유도를 도시하고 있다.
도 12d는 도 13c에 도시된 시간에 대한 위상 유도와 대응하는 주파수에 대한 위산 유도를 도시하고 있다.
도 14a는 단위 원 내의 예를 들면 뒤따르는 시간 프레임들 또는 주파수 부대역들의 4개의 위상을 개략적으로 도시하고 있다.
도 14b는 SBR 처리 이후에 도 14a에 도시된 위상들을 도시하고, 파선들은 보정된 위상들이다.
도 15는 오디오 프로세서(50)의 개략적인 블록 다이어그램을 도시하고 있다.
도 16은 또 다른 실시 예에 따른 개략적인 블록 다이어그램에서의 오디오 프로세서를 도시하고 있다.
도 17은 시간-주파수 표현 내의 직접적인 카피-업 SBR을 사용하여 QMF 도메인 내의 바이올린 신호의 PDT 내의 평활 오류를 도시하고 있다.
도 18a는 시간-주파수 표현 내의 보정된 SBR을 위하여 QMF 도메인 내의 바이올린 신호의 PDT 내의 오류를 도시하고 있다.
도 18b는 도 18a에 도시된 오류와 대응하는 시간에 대한 위상 유도를 도시하고 있다.
도 19는 디코더의 개략적인 블록 다이어그램을 도시하고 있다.
도 20은 인코더의 개략적인 블록 다이어그램을 도시하고 있다.
도 21은 오디오 신호일 수 있는 데이터 스트림의 개략적인 블록 다이어그램을 도시하고 있다.
도 22는 또 다른 실시 예에 따른 도 21의 데이터 스트림을 도시하고 있다.
도 23은 오디오 신호의 처리를 위한 방법의 개략적인 블록 다이어그램을 도시하고 있다.
도 24는 오디오 신호의 인코딩을 위한 방법의 개략적인 블록 다이어그램을 도시하고 있다.
도 25는 오디오 신호의 디코딩을 위한 방법의 개략적인 블록 다이어그램을 도시하고 있다.
도 26은 또 다른 실시 예에 따른 오디오 프로세서의 개략적인 블록 다이어그램을 도시하고 있다.
도 27은 바람직한 실시 예에 따른 오디오 프로세서의 개략적인 블록 다이어그램을 도시하고 있다.
도 28a는 신호 흐름을 나타내는 오디오 프로세서 내의 위상 보정의 개략적인 블록 다이어그램을 더 상세히 도시하고 있다.
도 28b는 도 26-28a와의 또 다른 비교 관점으로부터의 위상 보정의 단계들을 도시하고 있다.
도 29는 표적 위상 측정 결정기를 나타내는 오디오 프로세서 내의 표적 위상 측정 결정기의 개략적인 블록 다이어그램을 더 상세히 도시하고 있다.
도 30은 표적 위상 측정 발생기를 나타내는 오디오 프로세서 내의 표적 위상 측정 발생기의 개략적인 블록 다이어그램을 더 상세히 도시하고 있다.
도 31은 디코더의 개략적인 블록 다이어그램을 도시하고 있다.
도 32는 인코더의 개략적인 블록 다이어그램을 도시하고 있다.
도 33은 오디오 신호일 수 있는 데이터 스트림의 개략적인 블록 다이어그램을 도시하고 있다.
도 34는 오디오 신호의 처리를 위한 방법의 개략적인 블록 다이어그램을 도시하고 있다.
도 35는 오디오 신호의 디코딩을 위한 방법의 개략적인 블록 다이어그램을 도시하고 있다.
도 36은 신호의 디코딩을 위한 방법의 개략적인 블록 다이어그램을 도시하고 있다.
도 37은 시간-주파수 표현 내의 직접적인 카피-업 SBR을 사용하여 QNF 도메인 내의 트럼본 신호의 위상 스펙트럼 내의 오류를 도시하고 있다.
도 38a는 시간-주파수 표현 내의 보정된 SBR을 사용하여 QNF 도메인 내의 트럼본 신호의 위상 스펙트럼 내의 오류를 도시하고 있다.
도 38b는 도 38a에 도시된 오류와 대응하는 주파수에 대한 위상 유도를 도시하고 있다.
도 39는 계산기의 개략적인 블록 다이어그램을 도시하고 있다.
도 40은 변이 결정기 내의 신호 흐름을 나타내는 계산기의 개략적인 블록 다이어그램을 상세히 도시하고 있다.
도 41은 또 다른 실시 예에 따른 계산기의 개략적인 블록 다이어그램을 도시하고 있다.
도 42는 오디오 신호를 위한 위상 보정 데이터의 결정을 위한 방법의 개략적인 블록 다이어그램을 도시하고 있다.
도 43a는 시간-주파수 표현 내의 QMF 도메인 내의 바이올린 신호의 시간에 대한 위상 유도의 표준 편차를 도시하고 있다.
43b는 43a와 관련하여 도시된 시간에 대한 위상 유도와의 표준 편차와 대응하는 주파수에 대한 위상 유도의 표준 편차를 도시하고 있다.
도 43c는 시간-주파수 표현 내의 QMF 도메인 내의 트럼본 신호의 시간에 대한 위상 유도의 표준 편차를 도시하고 있다.
도 43d는 43c와 관련하여 도시된 시간에 대한 위상 유도와의 표준 편차와 대응하는 주파수에 대한 위상 유도의 표준 편차를 도시하고 있다.
도 44a는 시간-주파수 표현 내의 QMF 도메인 내의 바이올린 + 클랩 신호의 크기를 도시하고 있다.
도 44b는 도 44a에 도시된 크기 스펙트럼과 대응하는 위상 스펙트럼을 도시하고 있다.
도 45a는 시간-주파수 표현 내의 QMF 도메인 내의 바이올린 + 클랩 신호의 시간에 대한 위상 유도를 도시하고 있다.
도 45b는 도 44a에 도시된 시간에 대한 위상 유도와 대응하는 주파수에 대한 위상 유도를 도시하고 있다.
도 46a는 시간-주파수 표현 내의 QMF 도메인 내의 바이올린 + 클랩 신호의 시간에 대한 위상 유도를 도시하고 있다.
도 46b는 도 46a에 도시된 시간에 대한 위상 유도와 대응하는 주파수에 대한 위상 유도를 도시하고 있다.
도 47은 시간-주파수 표현 내의 QMF 대역들의 주파수들을 도시하고 있다.
도 48a는 시간-주파수 표현 내에 도시된 원래 주파수들과 비교하여 직접적인 카피-업 SBR을 사용하는 QMF 대역들의 주파수들을 도시하고 있다.
도 48b는 시간-주파수 표현 내의 원래 주파수들과 비교하여 보정된 SBR을 사용하는 QMF의 주파수들을 도시하고 있다.
도 49는 시간-주파수 표현 내의 원래 신호의 QMF 대역들의 주파수들과 비교되는 고조파들의 추정된 주파수들을 도시하고 있다.
도 50a는 시간-주파수 표현 내의 압축 보정 데이터로 보정된 SBR을 사용하여 QMF 도메인 내의 바이올린 신호의 시간에 대한 위상 유도를 도시하고 있다.
도 50b는 도 50a에 도시된 시간에 대한 위상 유도의 오류와 대응하는 시간에 대한 위상 유도를 도시하고 있다.
도 51a는 시간 다이어그램에서의 트럼본 신호의 파형을 도시하고 있다.
도 51b는 단지 추정된 피크들만을 포함하는 도 51a의 트럼본 신호와 대응하는 시간 도메인 신호를 도시하며, 피크들의 위치들은 전송된 메타데이터를 사용하여 얻어졌다.
도 52a는 시간-주파수 표현 내의 압축 보정 데이터로 보정된 SBR을 사용하여 QMF 도메인 내의 트럼본 신호의 위상 스펙트럼 내의 오류를 도시하고 있다.
도 52b는 도 52a에 도시된 위상 스펙트럼 내의 오류와 대응하는 주파수에 대한 위상 유도를 도시하고 있다.
도 53은 디코더의 개략적인 블록 다이어그램을 도시하고 있다.
도 54는 바람직한 실시 예에 따른 개략적인 블록 다이어그램을 도시하고 있다.
도 55는 또 다른 실시 예에 따른 디코더의 개략적인 블록 다이어그램을 도시하고 있다.
도 56은 인코더의 개략적인 블록 다이어그램을 도시하고 있다.
도 57은 도 56에 도시된 인코더에서 사용될 수 있는 계산기의 블록 다이어그램을 도시하고 있다.
도 58은 오디오 신호의 디코딩을 위한 방법의 개략적인 블록 다이어그램을 도시하고 있다.
도 59는 오디오 신호의 인코딩을 위한 방법의 개략적인 블록 다이어그램을 도시하고 있다.

아래에, 본 발명의 실시 예들이 더 상세히 설명될 것이다. 동일하거나 또는 유사한 기능을 갖는 각각의 도면들에 도시된 요소들은 그것들과 관련된 동일한 도면 부호들을 가질 것이다.

본 발명의 실시 예들은 특정 신호 처리와 관련하여 설명될 것이다. 따라서, 도1-14는 오디오 신호에 적용되는 신호 처리를 설명한다. 스펙트럼 신호 처리와 관련하여 실시 예들이 설명되더라도, 본 발명은 이러한 처리에 한정되지 않고 또한 많은 다른 처리 전략들에 추가적으로 적용될 수 있다. 게다가, 도 15-25는 오디오 신호의 수직 위상 보정을 위하여 사용될 수 있는 오디오 프로세서의 실시 예들을 도시하고 있다. 도 26-38은 오디오 신호의 수직 위상 보정을 위하여 사용될 수 있는 오디오 프로세서의 실시 예들을 도시하고 있다. 게다가, 도 38-52는 오디오 신호를 위한 위상 보정 데이터를 결정하기 위한 계산기의 실시 예들을 도시하고 있다. 계산기는 오디오 신호를 분석하고 이전에 언급된 오디오 프로세서들 중 어느 것이 적용되는지, 또는 오디오 신호에 어떠한 오디오 프로세서들도 적용하지 않도록 오디오 신호에 어떠한 것도 적합하지 않은지를 결정한다. 도 53-59는 제 2 프로세서 및 계산기를 포함할 수 있는 디코더 및 인코더의 실시 예들을 도시하고 있다.

1. 도입(Introduction)

지각적 오디오 코딩은 제한된 용량을 갖는 전송 또는 저장 채널들을 사용하여 소비자들에 오디오와 멀티미디어를 제공하는 모든 형태의 적용을 위한 디지털 기술을 가능하게 하는 메인스트림(mainstream)으로서 확산되어왔다. 현재의 지각적 오디오 코덱들은 등가하는 낮은 비트 레이트들에서 만족한 오디오 품질을 전달할 필요가 있다. 차례로, 대부분의 청취자들에 의해 가장 견딜 수 있는 특정 코딩 아티책트들을 견뎌야만 한다. 오디오 대역폭 확장(BWE)은 스펙트럼 이동 또는 특정 아티팩트들의 도입을 희생하고 전송된 저대역 신호 부분들의 고대역 내로의 전이에 의해 오디오 코더의 주파수 범위를 인공적으로 확장하는 기술이다.

발견은 이러한 아티팩트들이 인공적으로 확장된 고대역 내의 위상 유도의 변화와 관련된다는 것이다. 이러한 아티팩트들 중의 하나는 주파수에 대한 위상 유도의 변경(또한 "수직" 위상 간섭 참조)이다[8].상기 위상 유도의 보존은 시간 도메인 파형 및 오히려 낮은 기본 주파수 같은 펄스-트레인을 갖는 음조 신호들을 위하여 지각적으로 중요하다. 수직 위상 유도의 변화와 관련된 아티팩트들은 시간 내의 에너지의 국소 분산(local dispersion)과 대응하고 흔히 BWE 기술들에 의해 처리된 오디오 신호들에서 발견된다. 또 다른 아티팩트는 어떤 기본 주파수의 배음(overtone)이 풍부한 음조 신호들을 위하여 지각적으로 중요한 시간에 대한 위상 유도의 변경(또한 "수평" 위상 간섭 참조)이다. 수평 위상 유도의 변경과 관련된 아티팩트들은 피치 내의 국소 주파수 오프셋과 대응하고 흔히 BWE 기술들에 의해 처리된 오디오 신호들에서 발견된다.

본 발명은 이러한 특성이 이른바 오디오 대역폭 확장(BWE)의 적용에 의해 손상되었을 때에 그러한 신호들의 수직 또는 수평 위상 유도를 재보정하기 위한 수단들을 제시한다. 위상 유도의 회복이 지각적으로 유익한지 그리고 수직 또는 수평 위상 유도의 보정이 지각적으로 바람직한지를 결정하기 위한 또 다른 수단들이 제시된다.

스펙트럼 대역 복제(SBR)[9]와 같은, 대역폭 확장 방법들은 흔히 낮은 비트 레이트 코덱들로서 사용된다. 그것들은 높은 대역들에 관한 파라미터 정보와 함께 상대적으로 좁은 저주파수 영역의 전송만을 허용한다. 파라미터 정보의 비트 레이트가 작기 때문에, 코딩 효율에서의 상당한 향상이 획득될 수 있다.

일반적으로 높은 대역들을 위한 신호는 단순하게 전송된 저주파수 영역으로부터 이를 복사함으로써 획득된다. 처리는 일반적으로 또한 아래에서 추정되는, 복소 변조 직각 대칭 필터 뱅크(QMF)[10] 도메인에서 실행된다. 카피-업 신호는 전송된 파라미터들을 기초로 하여 그것의 크기 스펙트럼에 적절한 이득들을 곱함으로써 처리된다. 목적은 원래 신호와 유사한 크기 스펙트럼을 획득하는 것이다. 이와 반대로, 카피-업 신호의 위상 스펙트럼은 일반적으로 전혀 처리되지 않으나, 대신에, 카피-업 위상 스펙트럼이 직접적으로 사용된다.

커피-업 위상 스펙트럼의 직접적인 사용의 지각적 결과는 아래에서 설명된다. 관찰된 효과들을 기초로 하여, 지각적으로 가장 중요한 효과들을 검출하기 위한 매트릭스들이 제안된다. 게다가, 그것들을 기초로 하여 위상 스펙트럼을 보정하는 방법들이 제안된다. 최종적으로, 보정을 실행하기 위하여 전송된 파라미터 값들의 양을 최소화하기 위한 전략들이 제안된다.

본 발명은 위상 유도의 보존 또는 복원이 오디오 대역폭 확장(BWE) 기술들에 의해 도입되는 중요한 아티팩트들을 처리할 수 있다는 발견과 관련된다. 예를 들면, 위상 유도의 보존이 중요한, 일반적인 신호들은 유성 음성(voiced speech), 금관 악기 또는 찰현악기(bowed string)들과 같은, 풍부한 고조파 배음 콘텐츠를 갖는 톤들이다.

본 발명은 주어진 신호 프레임을 위하여, 위상 유도의 복원이 지각적으로 유익한지 그리고 수직 또는 수평 위상 유도의 보정이 지각적으로 바람직한지를 결정하기 위한 수단들을 더 제공한다.

본 발명은 아래의 양태들을 갖는 BWE 기술들을 사용하여 오디오 코덱들 내의 위상 유도 보정을 위한 장치 및 방법을 설명한다.

1. 위상 유도 보정의 "중요성"의 정량화

2. 수직("주파수") 위상 유도 보정 또는 수평("시간") 위상 유도 보정의 신호 의존적 우선순위

3, 보정 방향("주파수" 또는 "시간")의 신호 의존적 스위칭

4. 트랜지언트들을 위한 전용 수직 위상 유도 보정

5. 평활 보정을 위한 안정적인 파라미터들의 획득

6. 보정 파라미터들의 간결한 부가 정보 전송 포맷

2. QMF 도메인 내의 신호들의 보존

m이 이산 시간인, 시간 도메인 신호(x(m))는 예를 들면 복소 변조 직각 대칭 필터 뱅크(WMF)를 사용하여, 시간-주파수 도메인 내에 나타낼 수 있다. 결과로서 생긴 신호는 X(k,n)이고, 여기서 k는 주파수 대역 지수이고 n은 시간 프레임 지수이다. 시각화들과 실시 예들을 위하여 64 대역의 QMF 및 48㎑의 샘플링 주파수가 추정된다. 따라서, 각각의 주파수 대역의 대역폭(f_BW)은 375㎐이고 시간적 홉 크기(hop size, t_hop, 도 2에서의 17)는 1.33ms이다. 그러나, 처리는 그러한 변환에 한정되지 않는다. 대안으로서, MDCT(변형 이산 코사인 변환) 또는 DFT(이산 푸리에 변환)이 대신에 사용될 수 있다.

결과로서 생긴 신호는

)이고, 여기서 k는 주파수 대역 지수이고 n은 시간적 프레임 지수이다.

은 복소 신호(complex signal)이다. 따라서, 이는 또한 j가 복소수인 크기

및 위상 성분들

을 사용하여 나타낼 수 있다

. (1)

오디오 신호들은 대부분

및

을 사용하여 나타낸다(두 예를 위하여 도 1 참조).

도 1a는 바이올린 신호의 크기 스펙트럼

을 도시하며, 도 1b는 QMF 도메인 모두 내의 대응하는 위상 스펙트럼

을 도시하고 있다. 게다가, 도 1c는 트럼본 신호의 크기 스펙트럼

을 도시하며, 도 1d는 대응하는 QMF 도메인 내의 대응하는 위상 스펙트럼

을 도시하고 있다. 도 1a 및 1c의 크기 스펙트럼과 관련하여, 색 구배는 적색 = 0dB부터 청색 = -80dB까지의 크기를 나타낸다. 게다가, 도 1b 및 1d에서의 위상 스펙트럼에 대하여, 색 구배는 적색 = π부터 청색 = -π까지의 위상들을 나타낸다.

삭제

3. 오디오 데이터

설명된 오디오 처리의 효과를 나타내도록 사용되는 오디오 데이터는 트럼본의 오디오 신호에 대하여 '트롬본', 바이올린의 오디오 신호를 위하여 '바이올린, 그리고 중간에 첨가되는 박수(hand clap)를 갖는 신호를 위하여 "바이올린+클랩"으로 명명된다.

4. SBR의 기본 연산

도 2는 시간 프레임(15) 및 부대역(20)에 의해 정의되는, 시간 주파수 타일들(10, 예를 들면 직각 대칭 필터 뱅크 빈들)을 포함하는 시간 주파수 다이어그램(5)을 도시하고 있다. 오디오 신호는 QMF(직각 대칭 필터 뱅크) 변환, MDCT(변형 이산 코사인 변환), 또는 DFT(이산 푸리에 변환)를 사용하여 그러한 시간 주파수 표현으로 변환될 수 있다. 시간 프레임들 내의 오디오 신호의 세분은 오디오 신호의 오버래핑 부분들을 포함할 수 있다. 도 1의 하부에서는, 시간 프레임들(15)의 단일 오버랩이 도시되어 있으며, 최대 두 개의 시간 프레임에서 동시에 오버랩한다. 게다가, 만일 더 많은 중복이 필요하면, 오디오 신호는 또한 다중 오버랩을 사용하여 세분될 수 있다. 다중 오버랩 알고리즘에서 3개 이상의 시간 프레임은 특정 시간 지점에서 오디오 신호의 동일한 부분을 포함할 수 있다. 오버랩의 기간은 홉 크기(t_hop, 17)이다.

신호(X(k,n)), 대역폭 확장된(BWE) 신호(Z(k,n)가 전송된 저주파수 주파수 대역의 특정 부분들을 카피-업함으로써 입력 신호(X(k,n))로부터 획득되는 것을 가정한다. SBR 알고리즘은 전송되려는 주파수 영역의 선택에 의해 시작한다. 이러한 예에서, 1부터 7까지의 대역들이 선택된다.

전송되려는 주파수 대역들의 양은 원하는 비트 레이트에 의존한다. 도면들과 방정식들은 7개의 대역을 사용하여 생성되고, 대응하는 오디오 데이터를 위하여 5 내지 11개의 대역의 형성이 사용된다. 따라서, 전송된 주파수 영역 및 고대역들 사이의 교파 주파수들은 각각 1875부터 4125㎐까지이다. 이러한 영역 위의 주파수 대역들은 전혀 전송되지 않으나, 대신에, 그것들의 설명을 위하여 파라미터 메타데이터가 생성된다.

은 코딩되어 전달된다. 또 다른 처리가 가정된 경우에만 한정되지 않는다는 것이 파악되더라도, 그 코딩은 어떠한 방법으로도 신호를 변형하지 않는다.

수용 측에서는, 전송된 주파수 영역이 대응하는 주파수들을 위하여 직접적으로 사용된다.

고대역들을 위하여, 신호는 전송된 신호를 사용하여 어떻게든 생성될 수 있다. 한 가지 접근법은 단순하게 전송된 신호를 고주파수들에 복사하는 것이다. 약간 변형된 버전이 여기서 사용된다. 먼저, 기저대역 신호가 선택된다. 이는 전체 전송된 신호일 수 있으나, 본 실시 예에서 제 1 주파수 대역은 생략된다. 이러한 이유는 위상 스펙트럼이 많은 경우들에서 제 1 대역을 위하여 불규칙적인 것으로 인식되었기 때문이다. 따라서, 카피 업되려는 기저대역은 다음과 같이 정의된다:

다른 대역폭들이 또한 전송되고 기저대역 신호들을 위하여 사용될 수 있다. 기저대역 신호를 사용하여, 고주파수들을 위한 원시(raw) 신호들이 생성되며:

여기서

는 주파수 패치(i)를 위한 복소 QMF 신호이다. 원시 주파수-패치 신호들은 그것들을 이득들

에 곱함으로써 전송된 메타데이터에 따라 조작된다:

이득들은 실수 값들이며 따라서, 크기 스펙트럼은 영향을 받고 이에 의해 원하는 표적 값에 적응된다는 것을 이해하여야 한다. 알려진 접근법들은 어떻게 이득들이 획득되는지를 나타낸다. 표적 위상은 상기 알려진 접근법들에서 보정되지 않은 채로 남아있다.

재생되려는 최종 신호는 원하는 대역폭의 BWE 신호를 획득하도록 대역폭을 균일하게(seamlessly) 확장하기 위한 전송된 패치 신호들의 연결(concatenating)에 의해 획득된다.

도 3은 그래픽 표현에서 설명된 신호들을 도시하고 있다. 도 3a는 오디오 신호의 바람직한 주파수 다이어그램을 도시하며, 상이한 부대역들에 대하여 주파수의 크기가 도시되어 있다. 첫 번째 7개의 부대역은 전송된 주파수 대역들(X_trans(k,n), 25)을 반영한다. 기저대역(X_base(k,n), 30)은 7개의 부대역 다음의 선택에 의해 그것으로부터 유도된다. 도 3b는 예를 들면 중간 단계에서 디코딩 과정 동안에, 수용 이후의 오디오 신호의 바람직한 주파수 표현을 도시하고 있다. 오디오 신호의 주파수 스펙트럼은 전송된 주파수 대역들(25) 및 기저대역 내의 주파수들보다 높은 주파수들을 포함하는 오디오 신호(32)를 형성하는 주파수 스펙트럼의 높은 부대역들에 복사되는 7개의 기저대역 신호들(30)을 포함한다. 완전한 기저대역 신호는 또한 주파수 패치로서 언급된다. 도 3c는 재구성된 오디오 신호(Z(k,n), 35)를 도시하고 있다. 도 3b와 비교하면, 기저대역 신호들의 패치들은 개별적으로 이득 인자에 의해 곱해진다. 따라서, 오디오 신호의 주파수 스펙트럼은 주 주파수 스펙트럼(25) 및 다수의 크기 보정된 패치들(Y(k,n), 40)을 포함한다. 이러한 패칭 방법은 직접적인 카피-업 패칭으로서 언급된다. 직접적인 카피-업 패칭은 비록 본 발명이 그러한 패칭 알고리즘에 한정되지 않더라도, 바람직하게는 본 발명을 설명하도록 사용된다. 사용될 수 있는 또 다른 패칭 알고리즘은 예를 들면, 고조파 패칭 알고리즘이다.

고대역들의 파라미터 표현이 완벽하다는 것, 즉 재구성된 신호의 크기 스펙트럼이 원래 신호와 동일하다는 것이 가정된다.

그러나, 위상 스펙트럼은 알고리즘에 의해 어떤 식으로든 보정되지 않으므로, 알고리즘이 완벽하게 작용되더라도 정확하지 않다는 것을 이해하여야 한다. 따라서, 실시 예들은 지각적 품질의 향상이 획득되도록 표적 값에 대하여 Z(k,n)의 위상 스펙트럼을 어떻게 게다가 작용하고 보정하는지를 도시하고 있다. 실시 예들에서, 보정은 세 가지 상이한 처리 모드들, "수평", "수직" 및 "트랜지언트"를 사용하여 실행될 수 있다.

바이올린 및 트럼본 신호들을 위하여 도 4에 Z^mag(k,n) 및 Z^pha(k,n)이 도시되어 있다. 도 4는 직접적인 카피-업 패칭을 갖는 스펙트럼 대역 복제(SBR)를 사용하여 재구성된 오디오 신호(35)의 바람직한 스펙트럼을 도시하고 있다. 바이올린 신호의 크기 스펙트럼(Z^mag(k,n))이 도 4a에 도시되며, 도 4b는 대응하는 위상 스펙트럼(Z^pha(k,n))을 도시하고 있다. 도 4c 및 4d는 트럼본 신호의 대응하는 스펙트럼들을 도시하고 있다. 모든 신호는 QMF 도메인 내에 제시된다. 도 1에서 알 수 있는 것과 같이, 색 구배는 적색 = 0dB부터 청색 = -80dB까지의 크기 및 적색 = π부터 청색 = -π까지의 위상을 나타낸다. 그것들의 위상 스펙트럼들은 원래 신호들의 위상 스펙트럼들과 다르다는 것을 알 수 있다(도 1 참조). SBR에 기인하여, 바이올린은 비조화성(inharmonicity)을 포함하고 트럼본은 교차 주파수들에서 변조 잡음들을 포함하는 것으로 지각된다. 그러나, 위상 플롯(plot)들은 상당히 임의적으로 보이고, 실제로 그것들이 얼마나 다르고 차이들의 지각적 효과들이 무엇인지를 말하는 것은 어렵다. 게다가. 이러한 종류의 임의 데이터를 위한 보정 데이터의 송신은 낮은 비트 레이트를 요구하는 코딩 적용들에서 실현 가능하지 않다. 따라서, 위상 스펙트럼의 지각적 효과들의 이해 및 그것들의 설명을 위한 매트릭스들의 발견이 필요하다. 이러한 주제들은 아래의 섹션들에서 설명된다.

5. QMF 도메인 내의 위상 스펙트럼의 의미

흔히 주파수 대역의 지수는 단일 음조 성분의 주파수를 정의하고, 크기는 그것의 레벨을 정의하며, 위상은 그것의 "타이밍"을 정의하는 것으로 사료된다. 그러나, QMF 대역의 대역폭은 상대적으로 크고, 데이터는 오버샘플링된다. 따라서, 시간-주파수 타일들(즉, QMF 빈들) 사이의 상호작용은 실제로 이러한 모든 특성을 정의한다.

세 가지 다른 위상 값들, 즉 X^mag(3,1)=1 및 X^pha(3,1)=0,π/2, 또는 π를 갖는 단일 QMF 빈의 시간-도메인 표현이 도 5에 도시되어 있다. 결과는 13.3ms의 길이를 갖는 사인 유사 함수(sinc-like function)이다. 함수의 정확한 형태는 위상 파라미터에 의해 정의된다.

주파수 대역만이 시간적 프레임들을 위하여 비-제로인 것, 즉 다음을 고려하고,

시간적 프레임들 사이의 위상을 고정 값(α)으로 변경함으로써, 즉 아래와 같이 함으로써,

사인곡선이 생성된다. 결과로서 생긴 신호(즉, 역 QMF 변환 이후의 시간-도메인 신호)가 도 6에 제시되고 α의 값들은 π/4(상단) 및 3π/4(하부)이다. 사인곡선의 주파수는 위상 변화에 의해 영향을 받는 것을 알 수 있다. 주파수 도메인이 오른쪽에 도시되고, 신호의 시간 도메인은 도 6의 왼쪽 상에 도시되어 있다.

그러므로, 만일 위상이 임의로 선택되면, 결과는 협대역 잡음이 된다(도 7 참조), 따라서, QMF 빈의 위상은 대응하는 주파수 대역 내부의 주파수 콘텐츠를 제어하고 있다고 말할 수 있다.

도 8은 4개의 시간 프레임과 4개의 색 주파수 부대역의 시간 주파수 표현 내의 도 6에 대하여 설명된 효과를 도시하며, 제 3 부대역만이 0과 다른 주파수를 포함한다. 이는 도 8의 오른쪽 상에 개략적으로 제시된, 도 6으로부터의 주파수 도메인 신호 및 도 8의 하부에 개략적으로 제시된 도 6의 시간 도메인 표현을 야기한다.

하나의 시간적 프레임만이 모든 주파수 대역을 위하여 비-제로인 것을 고려하고, 즉 다음과 같고,

주파수 대역들 사이의 위상을 고정 값(α)으로 변경함으로써, 즉 아래와 같이 함으로써,

트랜지언트가 생성된다. 결과로서 생긴 신호(즉, 역 QMF 변환 이후의 시간-도메인 신호)가 도 9에 제시되고 α의 값들은 π/4(상단) 및 3π/4(하부)이다. 트랜지언트의 시간적 위치는 위상 변화에 의해 영향을 받는 것을 알 수 있다. 주파수 도메인이 도 9의 오른쪽에 도시되고, 신호의 시간 도메인은 도 9의 왼쪽 상에 도시되어 있다.

도 11은 도 8에 도시된 시간 주파수 다이어그램과 유사한 시간 주파수 도메인을 도시하고 있다. 도 11에서, 제 3 시간 프레임만이 하나의 부대역으로부터 나머지로 π/4의 이동을 갖는 0과 다른 값들을 포함한다. 주파수 도메인으로 변환되면, 도9의 오른쪽 측으로부터 주파수 도메인 신호가 획득되고, 도 11에 개략적으로 제시된다. 도 9의 왼쪽 부분의 개략적인 시간 도메인 표현이 도 11의 하부에 도시되어 있다. 이러한 신호는 시간 주파수 도메인의 시간 도메인 신호로의 변환에 의해 야기된다.

6. 위상 스펙트럼의 지각적으로 관련된 특성들의 설명을 위한 측정들

섹션 4에 설명된 바와 같이, 위상 스펙트럼은 스스로 상당히 지저분하게 보이고, 지각에 대한 효과가 무엇인지를 바로 아는 것은 어렵다. 섹션 5는 QMF 도메인 내의 위상 스펙트럼의 조작에 의해 야기될 수 있는 두 가지 효과를 제시하였다: (a) 시간에 대한 일정한 위상 변화는 사인곡선을 생성하고 위상 변화의 양은 사인곡선의 주파수를 제어하고, (b) 주파수에 대한 일정한 위상 변화는 트랜지언트를 생성하고 위상 변화의 양은 트랜지언트의 시간적 위치를 제어한다.

부분의 주파수 및 시간적 위치는 인간 지각에 명백하게 중요하며, 따라서 이러한 특성들의 검출이 잠재적으로 유용하다. 그것들은 시간에 대한 위상 유도(PDT)의 계산:

및 시간에 대한 위상 유도의 계산에 의해 추정될 수 있으며:

은 주파수와 관련되고

은 부분의 시간적 위치와 관련된다.

QMF 분석(인접한 시간 프레임들의 변조들의 위상들이 트랜지언트의 위치에서 어떻게 일치하는지)의 특성들에 기인하여, 평활 곡선들을 생성하도록 시각화 과정들을 위하여 도면들에서 심지어

의 시간적 프레임들에 π이 첨가된다.

다음에는, 이러한 측정들이 본 발명의 예제 신호들을 위하여 어떻게 보이는지가 검사된다. 도 12는 바이올린 및 트럼본 신호들을 위한 유도들을 도시하고 있다. 특히, 도 12a는 원래, 즉 QMF 도메인 내의 처리되지 않은, 바이올린 오디오 신호의 시간에 대한 위상 유도

을 도시하고 있다. 도 12b는 주파수에 대한 대응하는 위상 유도

을 도시하고 있다. 도 12c 및 도 12d는, 각각, 트럼본 신호를 위한 시간에 대한 위상 유도 및 주파수에 대한 위상 유도를 도시하고 있다. 색 구배는 적색 = π로부터 청색 = -π까지의 위상 값들을 나타낸다. 바이올린을 위하여, 크기 스펙트럼은 기본적으로 약 0.13초까지의 잡음(도 1 참조)이고, 따라서 유도들은 또한 시끄럽다. 약 0.13초부터 시작하여 X^pdt는 시간에 대하여 상대적으로 안정적인 값들을 갖는 것처럼 보인다. 이는 신호가 강력하고, 상대적으로 안정적인, 사인곡선들을 포함하는 것을 의미할 수 있다. 이러한 사인곡선들의 주파수들은

값들에 의해 결정된다. 이와 대조적으로,

플롯은 상대적으로 시끄럽고, 따라서 이를 사용하여 바이올린을 위하여 어떠한 관련 데이터도 발견되지 않는 것처럼 보인다.

트럼본을 위하여,

는 상대적으로 시끄럽다. 이와 대조적으로,

는 모든 주파수에서 대략 동일한 값들 갖는 것처럼 보인다. 실제로, 이는 모든 고조파 성분이 트랜지언트 유사 신호를 생성하는 시간에 정렬되는 것을 의미한다. 트랜지언트들의 시간적 위치들은

값들에 의해 결정된다.

동일한 유도들이 또한 SBR 처리된 신호들(Z(k,n))을 위하여 계산될 수 있다(도 13 참조). 도 13a 내지 13d는 이전에 설명된 직접적인 카피-업 SBR 알고리즘의 사용에 의해 유도되는 도 12a 내지 12d와 직접적으로 관련된다. 위상 스펙트럼이 기저대역부터 높은 패치들까지 복사되기 때문에, 주파수 패치들의 PDT들은 기저대역의 그것과 동일하다. 따라서, 바이올린을 위하여, PDT는 원래 신호의 경우에서와 같이, 안정적인 사인곡선을 생성하는 시간에 대하여 상대적으로 평활하다. 그러나, Z^pdt의 값들은 원래 신호

의 그것들과 다르며, 이는 생성된 사인곡선들이 원래 신호와 다른 주파수들을 갖는다는 것을 야기한다. 이의 지각적 효과는 섹션 7에 설명된다.그 결과, 주파수 패치들의 PDF는 그렇지 않으면 기저대역의 그것과 동일하나, 교차 주파수들에서 PDF는 실제로, 임의적이다. 교차에서, PDF는 실제로 주파수 패치의 마지막 및 첫 번째 위상 값 사이에서 계산되며, 즉 다음과 같다:

이러한 값들은 실제 PDF 및 교차 주파수에 의존하고, 그것들은 원래 신호의 값들과 일치하지 않는다. 따라서, 대부분의 고조파의 시간적 위치들은 정확한 위치들 내에 존재하나, 교차 주파수들에서 고조파들은 실제로 임의 위치들에 존재한다. 이의 지각적 효과가 섹션 7에 설명된다.

7. 위상 오류들의 인간 지각

음성들은 대략 두 가지 범주: 고조파 및 잡음 유사 신호들로 세분될 수 있다. 잡음 유사 신호들은, 이미 정의된, 잡음 위상 특성들을 갖는다. 따라서, SBR에 의해 야기되는 위상 오류들은 그것들과 함께 지각적으로 중요하지 않은 것으로 가정된다. 대신에, 이는 고조파 신호들에 집중된다. 대부분의 음악 악기들, 및 또한 음성은 신호에 대한 고조파 구조를 생성하는데, 즉 톤은 기본 주파수에 의해 주파수 내에 간격을 두는 강력한 사인파 성분들을 포함한다.

인간 청각은 흔히 그것이 청각 필터들로 언급되는, 오버래핑 대역 통과 필터들의 뱅크를 포함한 것처럼 동작하는 것으로 가정된다. 따라서, 청각은 청각 필터 내부의 부분 음향들이 하나의 엔티티로서 분석되도록 복잡한 음향들을 처리하는 것으로 가정될 수 있다. 이러한 필터들의 폭은 아래의 등가 직사각형 대역폭(EBR)[11]과 근사치일 수 있고, 이는 다음에 따라 결정될 수 있으며:

여기서 f_c는 대역(㎑)의 중심 주파수이다. 섹션 4에서 설명된 바와 같이, 기저대역 및 SBR 패치들 사이의 교차 주파수는 약 3㎑이다. 이러한 주파수들에서 ERB는 약 350㎐이다. QMF 주파수 대역 내의 대역폭은 실제로 이와 상대적으로 가까운, 375㎐이다. 따라서, QMF 주파수 대역들 내의 대역폭은 관심 있는 주파수들에서 ERB를 따르는 것으로 추정될 수 있다.

잘못된 위상 스펙트럼에 기인하여 오류가 발생될 수 있는 음향의 두 가지 특성이 섹션 6에서 관찰되었다: 부분 성분의 주파수 및 타이밍. 주파수에 집중하며, 문제는 인간 청각이 개별 고조파들의 주파수들을 지각할 수 있는가이다. 만일 할 수 있으면, SBR에 의해 야기되는 주파수 오프셋은 보정되어야만 하고, 만일 할 수 없으면, 보정은 필요하지 않다.

해상되고 해상되지 않은 고조파들(resolved and unresolved harmonics)의 개념[12]은 이러한 주제를 분명하게 하도록 사용될 수 있다. 만일 ERB 내부에 하나의 고조파만이 존재하면, 고조파는 해상된 것으로 불린다. 인간 청각은 개별적으로 해상된 고조파들을 소유하고, 따라서 그것들의 주파수에 민감한 것으로 추정된다. 실제로, 해상된 고조파들의 주파수의 변화는 비조화성을 야기하는 것으로 지각된다.

그러므로, 만일 EBR 내부에 다중 고조파가 존재하면, 고조파들은 해상되지 않는 것으로 불린다. 인간 청각은 개별적으로 이러한 고조파들을 처리하지 않은 것으로 추정되나, 대신에 그것들의 결합 효과는 청각 시스템에 의해 알 수 있다. 결과는 주기적 신호이고 주기의 길이는 고주파들의 간격에 의해 결정된다. 피치 지각은 주기의 길이와 관련되고, 따라서 인간 청각은 그거에 민감한 것으로 추정된다. 그럼에도 불구하고, 만일 SBR 내의 주파수 패치 내부의 모든 고조파가 동일한 양 만큼 이동되면, 고조파들 사이의 간격, 및 이렇게 지각된 피치는 동일하게 남아있는다. 따라서, 해결되지 않은 고조파들의 경우에, 인간 청각은 주파수 오프셋들을 비조화성으로 지각하지 않는다.

SBR들에 의해 야기되는 타이밍 관련 오류들이 다음에 고려된다. 타이밍은 고조파 성분의 시간적 위치 또는 위상을 의미한다. 이는 QMF 빈의 위상과 혼동하여서는 안 된다. 타이밍 관련 오류들의 지각은 [13]에서 상세히 연구되었다.

대부분의 신호들을 위하여 인간 청각은 고조파 성분들의 타이밍, 또는 위상에 민감하지 않는 것으로 관찰되었다. 그러나, 인간 청각이 부분들의 타이밍에 매우 민감한 특정 신호들이 존재한다. 신호들은 예를 들면, 트럼본과 트럼펫 음형들 및 음성을 포함한다. 그러한 신호들로, 모든 고조파를 갖는 동일한 시간 인스턴트에서 측정 위상 각이 발생한다. 상이한 가청 대역들의 신경 사격률(neural firing rate)이 [13]에서 시뮬레이션되었다. 이러한 위상 민감성 신호들로 생성된 신경 사격률은 모든 가청 대역들에서 정점이고 피크들이 시간 내에 정렬되는 것이 관찰되었다. 심지어 단일 고조파의 위상 변화는 이러한 신호들로 신경 사격률의 뾰족함을 변경할 수 있다. 형식적인 청취 검사의 결과들에 따르면, 인간 청각은 이에 민감하다[13]. 생성된 효과들은 위상이 변형된 주파수들에서 추가된 사인파 성분 또는 협대역 잡음의 지각이다.

삭제

게다가, 타이밍 관련 효과들에 대한 민감도는 고조파 톤의 기본 주파수에 의존한다는 것을 발견하였다[132]. 기본 주파수가 낮을수록, 지각된 효과들은 크다. 기본 주파수는 약 300㎐ 위이고, 창각 시스템은 타이밍 관련 효과들에 전혀 민감하지 않다.

따라서, 만일 기본 주파수가 낮고 만일 고조파들의 위상이 주파수에 대하여 정렬되면(고조파들의 시간적 위치들이 정렬되는 것을 의미하는), 타이밍이 변화하거나, 또는 바꾸어 말하면 고조파들의 위상이 인간 청각에 의해 지각될 수 있다. 만일 기본 주파수가 높거나 및/또는 고조파들의 위상이 주파수에 대하여 정렬되지 않으면, 인간 청각은 고조파들의 타이밍의 변화들에 민감하지 않다.

8. 보정 방법들

섹션 7에서, 인간들은 해결된 고조파들의 주파수들에서 오류들에 민감하다는 것에 유의하여야 한다. 게다가, 인간들은 만일 기본 주파수가 낮고 만일 고조파들이 주파수에 대하여 정렬되면 고조파들의 시간적 위치들에서 오류들에 민감하다. SBR은 섹션 6에 설명된 바와 같이, 이러한 오류 모두를 야기할 수 있고, 따라서 지각된 품질은 그것들의 보정에 의해 향상될 수 있다. 그렇게 하기 위한 방법들이 본 섹션에서 제안된다.

도 14는 보정 방법들의 기존 개념을 개략적으로 도시하고 있다. 도 14a는 단위 원으로, 예를 들면 뒤따르는 시간 프레임들 또는 주파수 부대역들의, 4개의 위상(45a-d)을 개략적으로 도시하고 있다. 위상들(45a-d)은 90도로 동일하게 간격을 둔다. 도 14b는 SBR 처리 이후의 위상들을 도시하고, 파선들은 보정된 위상들을 도시하고 있다. 위상들(45a-d)에 대해 동일하게 적용된다.

처리, 즉 위상 유도 이후의 위상들 사이의 차이는 SBR 처리 이후에 계산될 수 있다는 것이 도시되어 있다. 예를 들면, 위상들(45a' 및 45b') 사이의 차이는 SBR 처리 이후에 110도이고, 이는 처리 이전에 90도이었다. 보정 방법들은 90도의 오래된 위상 유도를 검색하기 위하여 새로운 위상 값(45b")에 대하여 위상 값들(45b')을 변경할 것이다. 동일한 보정이 45d' 및 45d"의 위상들에 적용된다.

8.1 보정 주파수 오류들 - 수평 위상 유도 보정

섹션 7에 논의된 것과 같이, 인간들은 대부분 ERB 내부에 하나의 고조파만이 존재할 때 고조파의 주파수 내의 오류를 지각할 수 있다. 게다가, QMF 주파수 대역의 대역폭은 제 1 교차에서 ERB를 추정하도록 사용될 수 있다. 따라서, 주파수는 하나의 주파수 대역 내에 하나의 고조파가 존재할 때만 보정되어야만 한다. 이는 매우 편리한며, 그 이유는 섹션 5가 만일 대역 마다 하나의 고조파가 존재하면, 생성되는 PDT 값들은 안정적이거나, 또는 시간에 따라 느리게 변화하고, 작은 비트 레이트를 사용하여 잠재적으로 보정될 수 있나는 것을 나타내기 때문이다.

도 15는 오디오 신호(55)를 처리하기 위한 오디오 프로세서(50)를 도시하고 있다. 오디오 프로세서(50)는 오디오 신호 위상 측정 계산기(60), 표적 위상 측정 결정기(65) 및 위상 보정기(70)를 포함한다. 오디오 신호 위상 측정 계산기(60)는 시간 프레임(75)을 위한 오디오 신호(55)의 위상 측정(80)을 계산하도록 구성된다. 표적 위상 측정 결정기(65)는 상기 시간 프레임(75)을 위한 표적 위상 측정을 결정하도록 구성된다. 게다가, 위상 보정기는 처리된 오디오 신호(90)를 획득하기 위하여 계산된 위상 측정(80) 및 표적 위상 측정(85)을 사용하여 시간 프레임(75)을 위한 오디오 신호(55)의 위상들(45)을 보정하도록 구성된다. 선택적으로, 오디오 신호(55)는 시간 프레임(75)을 위한 복수의 부대역 신호(95)를 포함한다. 오디오 프로세서(50)의 또 다른 실시 예가 도 16과 관련하여 설명된다. 실시 예에 따르면, 표적 위상 측정 결정기(65)는 제 1 부대역 신호(95a)를 위한 제 1 표적 위상 측정(85a) 및 제 2 부대역 신호(95b)를 위한 제 2 표적 위상 측정(85b)을 결정하도록 구성된다. 위상 검출기는 오디오 신호(55)의 제 1 위상 측정(80a) 및 제 1 표적 위상 측정(85b)을 사용하여 제 1 부대역 신호(95a)의 제 1 위상 측정(80a)을 결정하고 오디오 신호(55)의 제 2 위상 측정 및 제 2 표적 위상 측정(85b)을 사용하여 제 2 부대역 신호(95b) 내의 제 2 위상(45b)을 보정하도록 구성된다. 게다가, 오디오 프로세서(50)는 처리된 제 1 부대역 신호(95a) 및 처리된 제 2 부대역 신호(95b)를 사용하여 처리된 오디오 신호(90)를 합성하기 위한 오디오 신호 합성기(100)를 포함한다. 또 다른 실시 예들에 따르면, 위상 측정(80)은 시간에 대한 위상 유도이다. 따라서, 오디오 신호 위상 측정 계산기(60)는 복수의 부대역의 각각의 부대역(subband : 95)을 위하여, 현재 시간 프레임(75b)의 위상 값(445) 및 미래 시간 프레임(75c)의 위상 값의 위상 유도를 계산할 수 있다. 따라서, 위상 보정기(70)는 현재 시간 프레임(75b)의 복수의 부대역의 각각의 부대역(95)에 대해, 표적 위상 유도(85) 및 시간에 대한 유도(80) 사이의 편차를 계산할 수 있으며, 위상 보정기(70)에 의해 실행되는 보정은 편차를 사용하여 실행된다.

실시 예들은 시간 프레임(75) 내의 오디오 신호(55)의 상이한 부대역들의 부대역 신호들(95)을 보정하도록 구성되는 위상 보정기(70)를 도시하며, 따라서 보정된 부대역 신호들(95)의 주파수들은 오디오 신호(55)의 기본 주파수에 고조파로 할당되는 주파수 값들을 갖는다. 기본 주파수는 오디오 신호(55) 내에서 발생하는 가장 낮은 주파수이거나, 또는 바꾸어 말하면, 오디오 신호(55)의 제 1 고조파들이다.

게다가, 위상 보정기(70)는 이전 시간 프레임, 현재 시간 프레임, 및 미래 시간 프레임(75a 내지 75c)에 대하여 복수의 부대역의 각각의 부대역(95)을 위한 편차(105)를 평활화하도록 구성된다. 또 다른 실시 예들에 따르면, 평활화는 가중 평균이고, 위상 보정기(70)는 이전, 현재 및 미래 시간 프레임들(75a 내지 75c) 내의 오디오 신호(55)의 크기에 의해 가중되는, 이전, 현재 및 미래 시간 프레임들(75a 내지 75c)에 대한 가중 평균을 계산하도록 구성된다.

실시 예들은 이전에 설명된 벡터 기반 처리 단계들을 도시하고 있다. 따라서, 위상 보정기(70)는 편차들(105)의 벡터를 형성하도록 구성되고 벡터의 제 1 요소는 복수의 부대역의 제 1 부대역(95a)을 위한 제 1 편차(105a)를 언급하고 제 2 요소는 이전 시간 프레임(75a)부터 현재 시간 프레임(75b)까지 복수의 부대역의 제 2 부대역(95b)을 위한 제 1 편차(105b)를 언급한다. 게다가, 위상 보정기(70)는 편차들(105)의 벡터를 오디오 신호(55)의 위상들(45a)에 적용할 수 있으며, 벡터의 제 1 요소는 오디오 신호(55)의 복수의 부대역의 제 1 부대역(95a) 내의 오디오 신호(55)의 위상(45a)에 적용되고 벡터의 제 2 요소는 오디오 신호(55)의 복수의 부대역의 제 2 부대역(95b) 내의 오디오 신호(55)의 위상(45b)에 적용된다.

또 다른 관점으로부터, 오디오 프로세서(50) 내의 전체 처리는 벡터 기반이라는 것이 설명될 수 있으며, 각각의 벡터는 시간 프레임(75)을 표현하고, 복수의 부대역의 각각의 부대역(95)은 벡터의 요소를 포함한다. 또 다른 실시 예들은 현재 시간 프레임(75b)의 기본 주파수 추정(85b)을 획득하도록 구성되는 표적 위상 특정 결정기에 초점을 맞추며, 표적 위상 측정 결정기(65)는 시간 프레임(74)을 위한 기본 주파수 추정(85)을 사용하여 시간 프레임(75)을 위한 복수의 부대역의 각각의 부대역을 위한 주파수 추정(85)을 계산하도록 구성된다. 게다가, 표적위상 측정 결정기(65)는 부대역들(95)의 총 수 및 오디오 신호(55)의 샘플링 주파수를 사용하여 복수의 부대역의 각각의 부대역(95)을 위한 주파수 추정들(85)을 시간에 대한 위상 유도로 변환할 수 있다. 명확성을 위하여 표적 위상 측정 결정기(65)의 출력은 실시 예에 따라, 주파수 추정 또는 시간에 대한 위상 유도일 수 있다는 것을 이해하여야 한다. 따라서, 일 실시 예에서 주파수 추정은 이미 위상 보정기(70) 내의 또 다른 처리를 위한 올바른 포맷을 포함하고, 또 다른 실시 예에서 주파수 추정은 시간에 대한 위상 유도일 수 있는, 적절한 포맷으로 변환되어야만 한다.

따라서, 표적 위상 측정 결정기(65)는 또한 벡터 기반으로 관찰될 수 있다. 따라서, 표적 위상 측정 결정기(65)는 복수의 부대역의 각각의 부대역을 위한 주파수 추정들(85)의 벡터를 형성할 수 있으며. 벡터의 제 1 요소는 제 1 부대역(95a)을 위한 주파수 추정(85a)을 언급하고 벡터의 제 2 요소는 제 2 부대역(95b)을 위한 주파수 추정(85b)을 언급한다. 게다가, 표적 위상 측정 결정기(65)는 기본 주파수의 배수들을 사용하여 주파수 추정(85)을 계산할 수 있으며, 현재 부대역(95)의 주파수 추정(85)은 부대역(95)의 중심과 가장 가까운 기본 주파수의 배수가 되거나, 또는 현재 부대역의 주파수 추정(85)은 만일 기본 주파수의 배수들 중 어느 것도 현재 부대역(95) 내에 존재하지 않으면 현재 부대역(95)의 경계 주파수가 된다.

바꾸어 말하면, 오디오 프로세서(50)를 사용하는 고조파들의 주파수들 내의 에러들의 보정을 위한 제안되는 알고리즘은 다음과 같이 기능을 한다. 우선, PDT가 계산되고 SBR은 신호

.

를 처리하였다. 그것 및 수평 보정을 위한 표적 PDT 사이의 차이가 그 다음에 계산된다:

1

이러한 점에서 표적 PDT는 입력 신호의 입력의 PDT와 동일한 것으로 추정될 수 있다:

그 후에, 표적 PDT가 낮은 비트 레이트로 어떻게 획득되는지가 제시된다.

이러한 값(즉, 오류 값(105))은 한(Hann) 윈도우(W(l))를 사용하여 시간에 따라 평활화된다. 적절한 길이는 예를 들면, (55ms의 간격과 대응하는) QMF 도메인 내의 41 샘플이다. 평활화는 대응하는 시간-주파수 타일들의 크기에 의해 가중되며:

여기서 crcmean{a,b}은 값들(b)에 의해 가중된 각도 값들(a)에 대한 원형 평균의 계산을 나타낸다. PDT(

) 내의 평활화 오류가 직접적인 카피-업 SBR을 사용하는 QMF 도메인 내의 바이올린 신호를 위하여 도 17에 도시되어 있다. 색 구배는 적색 = π부터 청색 = -π까지의 위상 값들을 나타낸다.

그 다음에, 원하는 PDT를 획득하도록 위상 스펙트럼을 변형하기 위하여 변조기 매트릭스가 생성된다:

위상 스펙트럼은 이 매트릭스를 사용하여 처리된다:

도 18a는 보정된 SBR을 위하여 QMF 도메인 내의 바이올린 신호의 시간에 대한 위상 유도(PDT)

내의 오류를 도시하고 있다. 도 18b는 대응하는 시간에 대한 위상 유도(

)를 도시하며, 도 18a에 도시된 PDT 내의 오류는 도 12a에 제시된 결과들을 18b에 제시된 결과들과 비교함으로써 유도되었다. 다시, 색 구배는 적색 = π부터 청색 = -π까지의 위상 값들을 나타낸다. PDT는 보정된 위상 스펙트럼(

)을 위하여 계산된다(도 18b 참조). 보정된 위상 스펙트럼의 PDT는 원래 신호의 PDT를 잘 상기시키고(도 12 참조), 오류는 중요한 에너지를 포함하는 시간-주파수 타일들을 위하여 작다(도 18a 참조)는 것을 알 수 있다. 보정되지 않은 SBR 데이터의 부조화성이 대체로 사라진다는 것에 유의하여야 한다. 게다가, 알고리즘은 중요한 아티팩트들을 야기하는 것처럼 보이지 않는다.

표적 PDT로서

을 사용하면, 각각의 시간-주파수 타일을 위하여 PDT-오류 값들(

)을 전송하는 것과 같다. 전송을 위한 대역폭이 감소되도록 표적 PDTR를 계산하는 또 다른 접근법이 섹션 9에 도시되어 있다.

또 다른 실시 예들에서, 오디오 프로세서(50)는 디코더(110)의 일부분일 수 있다. 따라서, 오디오 신호(55)의 디코딩을 위한 디코더(110)는 오디오 프로세서(50), 코어 디코더(115), 및 패처(120)를 포함할 수 있다. 코어 디코더(115)는 오디오 신호(55)와 관련하여 감소된 수의 부대역들을 갖는 시간 프레임(75) 내의 오디오 신호(25)를 코어 디코딩하도록 구성된다. 패처는 감소된 수의 부대역들을 갖는 코어 디코딩된 오디오 신호(25)의 부대역들(95)의 세트를 패칭하며, 부대역들의 세트는 규칙적인 수의 부대역을 갖는 오디오 신호(55)를 획득하도록 감소된 수의 부대역들과 인접한, 시간 프레임(75) 내의 또 다른 부대역들에 대하여, 제 1 패치(30a)를 형성한다. 게다가, 오디오 프로세서(50)는 표적 함수(85)에 따라 제 1 패치(30a)의 부대역들 내의 위상들(55)을 보정하도록 구성된다. 오디오 프로세서(50) 및 오디오 신호(55)는 도 19에 도시되지 않은 도면 부호들이 설명되는, 도 16 및 16과 관련하여 설명되었다. 실시 예들에 따른 오디오 프로세서는 위상 보정을 실행한다. 실시 예들에 따르면, 오디오 프로세서는 BWE 또는 SBR 파라미터들을 패치들에 적용하는 대역폭 확장 파라미터 적용기(125)에 의해 오디오 신호의 크기 보정을 추가적으로 포함할 수 있다. 게다가, 오디오 프로세서는 합성기(100), 예를 들면 규칙적인 오디오 파일을 획득하도록 오디오 신호의 부대역들의 결합, 즉, 합성을 위한 합성 필터 뱅크를 포함할 수 있다.

또 다른 실시 예들에 따르면, 패처(120)는 오디오 신호(25)의 부대역들(95)의 세트를 패칭하도록 구성되며, 부대역들의 세트는 제 1 패치와 인접한, 시간 프레임의 또 다른 부대역들에 대하여, 제 2 패치를 형성하며, 오디오 프로세서(50)는 제 2 패치의 부대역들 내의 위상(45)을 보정하도록 구성된다. 대안으로서, 패처(120)는 제 1 패치에 인접한, 시간 프레임의 또 다른 부대역들에 대하여, 보정된 제 1 패치를 패칭하도록 구성된다.

바꾸어 말하면, 제 1 옵션에서 패처는 오디오 신호의 전송된 부분으로부터 규칙적인 수의 부대역들을 갖는 오디오 신호를 구성하고 그 후에 오디오 신호의 각각의 패치의 위상들이 보정된다. 제 2 옵션은 먼저 오디오 신호의 전송된 부분과 관련하여 제 1 패치의 위상들을 보전하고 그 후에 이미 보정된 제 1 패치로 규칙적인 수의 부대역들을 갖는 오디오 신호를 구성한다.

또 다른 실시 예들은 데이터 스트림(135)으로부터 오디오 신호(55)의 현재 시간 프레임(75)의 기본 주파수(114)를 추출하도록 구성되는 데이터 스트림 추출기(130)를 포함하는 디코더(110)를 도시하며, 데이터 스트림은 감소된 수의 부대역들을 갖는 인코딩된 오디오 신호(145)를 더 포함한다. 대안으로서, 디코더는 기본 주파수(140)를 계산하기 위하여 코어 디코딩된 오디오 신호(25)를 분석하도록 구성되는 기본 주파수 분석기(140)를 포함할 수 있다. 바꾸어 말하면, 기본 주파수(140)의 유도는 예를 들면 디코더 또는 인코더 내의 오디오 신호의 분석이며, 후자의 경우에 기본 주파수는 높은 데이터 비율에서 더 정확할 수 있는데, 그 이유는 값이 인코더로부터 디코더로 전송되어야만 하기 때문이다.

도 20은 오디오 신호(55)의 인코딩을 위한 인코더(155)를 도시하고 있다. 인코더는 오디오 신호와 관련하여 감소된 수의 부대역들을 갖는 코어 인코딩된 오디오 신호(145)를 획득하도록 오디오 신호(55)를 코어 인코딩하기 위한 코어 인코더(160)를 포함하며 인코더는 오디오 신호의 기본 주파수 추정의 획득을 위하여 오디오 신호(55) 또는 오디오 신호(55)의 저역 통과된 버전을 분석하기 위한 기본 주파수 분석기(175)를 포함한다. 게다가, 인코더는 코어 인코딩된 오디오 신호(145) 내에 포함되지 않은 오디오 신호(55)의 부대역들의 파라미터들을 추출하기 위한 파라미터 추출기(165)를 포함하고 인코더는 코어 인코딩된 오디오 신호(145), 파라미터들 및 기본 주파수 추정을 포함하는 출력 신호(135)를 형성하기 위한 출력 신호 형성기(170)를 포함한다. 이러한 실시 예에서, 인코더(155)는 코어 디코더(160)의 앞에 로우 패스 필터(low pass filter) 및 파라미터 추출기(165)의 앞에 하이 패스 필터(high pass filter)를 포함할 수 있다. 또 다른 실시 예들에 따르면, 출력 신호 형성기(170)는 프레임들의 시퀀스 내로 출력된 신호(1354)를 형성하도록 구성되며, 각각의 프레임은 인코딩된 신호(145), 파라미터들(190)을 포함하며, 각각의 n-번째 프레임만이 기본 주파수 추정(140)을 포함하며, 여기서 n≥2이다. 실시 예들에서, 코어 인코더(160)는 예를 들면 고급 오디오 코딩(AAC) 인코더이다.

대안의 실시 예에서 오디오 신호(55)의 인코딩을 위하여 지능형 갭 필링(intelligent gap filling) 인코더가 사용될 수 있다. 따라서, 코어 인코더는 완전 대역폭 오디오 신호를 인코딩하며, 오디오 신호의 적어도 하나의 부대역은 생략된다. 따라서, 파라미터 추출기(165)는 코어 인코더(160)의 인코딩 과정으로부터 생략되는 부대역들을 재구성하는 파라미터들을 추출한다.

도 21은 출력 신호(135)의 개략적인 도면을 도시하고 있다. 출력 신호는 원래 오디오 신호(55)와 관련하여 감소된 수의 부대역들을 갖는 코어 인코딩된 오디오 신호(145), 코어 인코딩된 오디오 신호(145) 내에 포함되지 않은 오디오 신호의 부대역들을 표현하는 파라미터(145), 및 오디오 신호(135) 또는 원래 오디오 신호(55)의 기본 주파수 추정을 포함하는 오디오 신호이다.

도 22는 오디오 신호(135)의 일 실시 예를 도시하며, 오디오 신호는 프레임들(195)의 시퀀스 내로 형성되며, 각각의 프레임(195)은 코어 인코딩된 오디오 신호(145), 파라미터들(190)을 포함하고 각각의 n-번째 프레임(195)만이 기본 주파수 추정(140)을 포함하며, 여기서 n≥2이다. 이는 예를 들면 매 20번째 프레임을 위하여 동등하게 간격을 두는 기본 주파수 추정 전송을 설명할 수 있거나, 또는 기본 주파수 추정은 불규칙적으로, 예를 들면, 요구에 따라 또는 고의로 전송된다.

도 23은 단계 2305 "오디오 신호 위상 유도 계산기로 시간 프레임을 위한 오디오 신호의 위상 측정을 계산하는 단계", 단계 2310 " 표적 위상 유도 결정기로 상기 시간 프레임을 위한 표적 위상 측정을 결정하는 단계" 및 단계 2315 "처리된 오디오 신호를 획득하도록 위상 측정 및 표적 위상 측정을 계산하는 단계를 사용하는 위상 보정기로 기산 프레임을 위한 오디오 신호의 위상들을 보정하는 단계"를 갖는 오디오 신호의 처리를 위한 방법(2300)을 도시하고 있다.

도 24는 단계 2405 "오디오 신호와 관련하여 감소된 수의 부대역들을 갖는 시간 프레임 내의 오디오 신호를 디코딩하는 단계", 단계 2410 " 감소된 수의 부대역들을 갖는 디코딩된 오디오 신호의 부대역들의 세트를 패칭하는 단계. - 부대역들의 세트는 규칙적인 수의 부대역들을 갖는 오디오 신호를 획득하기 위하여, 감소된 수의 부대역들과 인접한, 시간 프레임 내의 또 다른 부대역들에 대하여, 제 1 패치를 형성함 -" 및 단계 2415 "오디오 처리를 갖는 표적 함수에 따라 부대역들 애의 위상들을 보정하는 단계"를 갖는 오디오 신호의 디코딩을 위한 방법(2400)을 도시하고 있다.

도 25는 단계 2505 "오디오 신호와 관련하여 감소된 수의 부대역들을 갖는 코어 인코딩된 오디오 신호를 획득하기 위하여 코더 인코더로 오디오 신호를 코어 인코딩하는 단계", 단계 2510 "오디오 신호를 위한 기본 주파수 추정을 획득하도록 기본 주파수 분석기로 오디오 신호 또는 오디오 신호의 저역 통과 필터링된 버전을 분석하는 단계", 단계 2515 "파라미터 추출기로 코어 인코딩된 오디오 신호 내에 포함되지 않은 오디오 신호의 부대역들의 파라미터들을 추출하는 단계" 및 단계 2510 "출력 신호 형성기로 코어 인코딩된 오디오 신호, 파라미터들, 및 기본 주파수 추정을 포함하는 출력 신호를 형성하는 단계"를 갖는 오디오 신호를 인코딩하기 위한 방법(2500)을 도시하고 있다.

설명된 방법들(2300, 2400 및 2500)은 컴퓨터 프로그램이 컴퓨터 상에서 구동할 때 방법들을 실행하기 위한 컴퓨터 프로그램의 프로그램 코드로 구현될 수 있다.

8.2 시간적 오류들의 보정 - 수직 위상 유도 보정

이전에 설명된 바와 같이, 인간들은 만일 고조파들이 주파수에 대하여 동기화되고 만일 기존 주파수가 낮으면 고조파의 시간적 위치 내의 오류를 인식할 수 있다. 섹션 5에서 고조파들은 만일 주파수에 대한 위상 유도가 QMF 도메인 내에서 일정하면 동기화되는 것을 알 수 있다. 따라서, 각각의 주파수 대역 내에 적어도 하나의 고조파를 갖는 것이 바람직하다. 다행히도, 인간들은 기본 주파수가 낮을 때만 고조파들의 시간적 위치에 민감하다(섹션 7 참조). 따라서, 주파수에 대한 위상 유도는 고조파들의 시간적 이동들에 기인하여 지각적으로 중요한 효과들을 결정하기 위한 측정으로서 사용될 수 있다.

도 26은 오디오 신호(55)를 처리하기 위한 오디오 프로세서(50')의 블록 다이어그램을 도시하며, 오디오 프로세서(50)는 표적 위상 측정 결정기(65'), 위상 오류 계산기(200), 및 위상 보정기(70')를 포함한다. 표적 위상측정 결정기(65')는 시간 프레임(75) 내의 오디오 신호(55)를 위한 표적 위상 측정(85')을 결정한다. 위상 오류 계산기(200)는 오디오 신호(55)의 위상 및 표적 위상 측정(85')을 사용하여 위상 오류(105)를 계산한다. 위상 보정기(70')는 처리된 오디오 신호(90')를 형성하는 위상 오류(105')를 사용하여 시간 프레임 내의 오디오 신호(55)의 위상을 보정한다.

도 27은 또 다른 실시 예에 따른 오디오 프로세서(50')의 개략적인 블록 다이어그램을 도시하고 있다. 따라서 오디오 신호(55)는 시간 프레임(75)을 위한 복수의 부대역(95)을 포함한다. 따라서, 표적 위상 측정 결정기(65')는 제 1 부대역 신호(95a)를 위한 제 1 표적 위상 측정(85a') 및 제 2 부대역 신호(95b)를 위한 제 2 위상 측정(85b')을 결정하도록 구성된다. 위상 오류 계산기(200)는 위상 오류들(105')의 벡터를 형성하며, 벡터의 제 1 요소는 제 1 부대역 신호(95a)의 위상의 제 1 편차(105a')를 언급하고 벡터의 제 2 요소는 제 2 부대역 신호(95b) 및 제 2 표적 위상 측정기(85b')의 위상의 제 2 편차(105b')를 언급한다. 게다가, 오디오 프로세서(50')는 보정된 제 1 부대역 신호(90a') 및 보정된 제 2 부대역 신호(90b')를 사용하여 보정된 오디오 신호(90')를 합성하기 위한 오디오 신호 합성기(100)를 포함한다.

또 다른 실시 예들과 관련하여, 복수의 부대역(95)은 기저대역(30) 및 주파수 패치들(40)의 세트로 그룹화된다. 오디오 신호(55)의 하나의 부대역(95)을 포함하는 기저대역(30) 주파수 패치들(40)의 세트는 기저대역 내의 적어도 하나의 부대역을 포함한다. 오디오 신호의 패칭은 도 3과 관련하여 이미 설명되었고 따라서 본 설명 부분에서는 상세히 설명하지 않을 것이라는 것에 유의하여야 한다. 주파수 패치들(40)이 이득 인자의 곱셈에 의해 높은 주파수들에 복사되는 원시 기저대역 신호일 수 있다는 것이 언급되어야만 하며, 위상 보정이 적용될 수 있다. 게다가, 바람직한 실시 예에 따르면, 이득의 곱셈 및 위상 보정은 이득 인자에 의해 곱해지기 전에 원시 기저대역 신호가 높은 주파수들에 복사되도록 스위칭될 수 있다. 실시 예는 평균 위상 오류(105'')를 획득하도록 주파수 패치들(30)의 제 1 세트의 제 1 패치(40a)를 언급하는 위상 오류들(105')의 벡터의 요소들의 평균을 계산하는 위상 오류 계산기(200)를 더 도시하고 있다. 게다가, 기저대역(30)을 위한 주파수(214)에 대한 위상 유도들의 평균을 계산하기 위한 오디오 신호 위상 유도 계산기(210)가 도시되어 있다.

도 28a는 블록 다이어그램 내의 위상 보정기(70')의 더 상세한 설명을 도시하고 있다. 도 28a에서의 상단의 위상 보정기(70')는 제 1 및 뒤따르는 주파수 패치들(40) 및 주파수 패치들의 세트 내의 부대역 신호들(95)의 위상을 보정하도록 구성된다. 도 28a의 실시 예에서 패치(40a)에 속하는 부대역들(95c 및 95d) 및 주파수 패치(40b)에 속하는 부대역들(95e 및 95f)이 도시되어 있다. 패치들은 가중된 평균 위상오류를 사용하여 보정되며, 평균 위상 오류(105)는 변형된 패치 신호(40')를 획득하도록 주파수 패치(40)의 지수에 따라 가중한다.

도 29a의 하부에 또 다른 실시 예가 도시되어 있다. 위상 보정기(70;)의 상단 왼쪽 모서리에 패치들(40) 및 평균 위상 오류(105')로부터 변형된 패치 신호(40)를 획득하기 위하여 이미 설명된 실시 예가 도시되어 있다. 게다가, 위상 보정기(70')는 현재 부대역 지수에 의해 가중되는, 주파수(215)에 대한 위상 유도들의 평균을 오디오 신호(55)의 기저대역(30) 내의 가장 높은 주대역 지수를 갖는 부대역 신호의 위상에 더함으로써 최적화된 제 1 주파수 패치로 초기화 단계에서 또 다른 변형된 패치 신호(40')를 계산하도록 구성된다. 이러한 초기화 단계를 위하여, 스위치(220a)가 그것의 왼쪽 위치에 존재한다. 어떠한 또 다른 처리 단계를 위하여, 스위치는 수직 방향의 연결을 형성하는 다른 위치 내에 존재할 것이다.

또 다른 실시 예에서, 오디오 신호 위상 유도 계산기(210)는 부대역 신호(94) 내의 트랜지언트들을 검출하도록 기저대역 신호(30)보다 높은 주파수들을 포함하는 복수의 부대역 신호(40)를 위한 주파수(215)에 대한 위상 유도들의 평균을 계산하도록 구성된다.

트랜지언트 오류가 오디오 프로세서(50)의 수직 위상 오류와 유사하다는 것을 이해하여야 하며 차이는 기저대역(30) 내의 주파수들이 트랜지언트의 높은 주파수들을 반영하지 않는다는 것이다. 따라서, 이러한 주파수들은 트랜지언트의 위상 보정을 위해 고려되어야만 한다.

초기화 단계 이후에, 위상 보정기(70')는 이전 주파수 패치의 가장 높은 부대역 지수을 갖는 부대역 신호의 위상에 대해, 현재 부대역(95)의 부대역 지수에 의해 가중되는, 주파수(215)에 대한 위상 유도들의 평균을 더함으로써 주파수 패치들(40)을 기초로 하여, 또 다른 변형된 패치 신호(40'')를 반복적으로 업데이트하도록 구성된다. 바람직한 실시 예는 이전에 설명된 실시 예들의 조합이다. 이러한 조합에서는, 위상 보정기(70')가 결합되고 변형된 패치 신호(40''')를 획득하도록 변형된 패치 신호(40') 및 또 다른 변형된 패치 신호(40'')의 평균을 계산한다. 따라서, 위상 보정기(70')는, 결합되고 변형된 패치 신호(40''')의 이전 주파수 패치의 가장 높은 부대역 지수을 갖는 부대역 신호의 위상에 대해, 현재 부대역(95)의 부대역 지수에 의해 가중되는, 주파수(215)에 대한 위상 유도들의 평균을 더함으로써, 주파수 패치들(40)을 기초로 하여, 결합되고 변형된 패치 신호(40''')를 반복적으로 업데이트한다. 결합되고 변형된 패치들(40a''', 40b''' 등)을 획득하기 위하여, 스위치(220b)는 제 1 반복 등의 이후에 변형된 주파수 패치(40)의 지수를 획득하도록 초기화 단계를 위하여 결합되고 변형된 48"에서 시작하여, 각각의 반복 이후에 그 다음 위치로 이동된다.

게다가, 위상 보정기(70')는 제 1 특이 가중 함수로 가중되는 현재 주파수 패치 내의 패치 신호(40') 및 제 2 특이 가중 함수로 가중되는 현재 주파수 패치 내의 변형된 패치 신호(40'')의 원형 평균을 사용하여 패치 신호(40') 및 변형된 패치 신호(40'')의 가중 평균을 계산할 수 있다.

오디오 프로세서(50) 및 오디오 프로세서(50') 사이의 상호운용성(interoperability)을 제공하기 위하여, 위상 보정기(70')는 위상 유도들의 백터를 형성할 수 있고, 위상 유도들은 결합되고 변형된 패치 신호(40''') 및 오디오 신호(55)를 사용하여 계산된다.

도 28b는 또 다른 관점으로부터 위상 보정의 단계들을 도시하고 있다. 제 1 시간 프레임(75a)을 위하여, 패치 신호(40)는 오디오 신호(55)의 패치들의 제 1 위상 보정 모드의 적용에 의해 유도된다. 패치 신호(40')는 변형된 패치 신호(40'')를 획득하도록 제 2 보정 모드의 초기화 단계에서 사용된다. 패치 신호(40') 및 변형된 패치 신호(40'')의 조합은 결합되고 변형된(combined and modified) 패치 신호(40''')를 야기한다.

제 2 보정 모드는 따라서 제 2 시간 프레임(75b)을 위한 변형된 패치 신호(40'')를 획득하도록 결합되고 변형된 패치 신호(40''') 상에 적용된다. 게다가, 제 1 보정 모드는 패치 신호(40')를 획득하도록 제 2 시간 프레임(75b) 내의 오디오 신호(55)의 해치들 상에 적용된다. 또한, 패치 신호(40') 및 변형된 패치 신호(40'')의 결합은 결합되고 변형된 패치 신호(40''')를 야기한다. 제 2 시간 프레임에 대해서 설명된 처리 전략은 제 3 시간 프레임(75c) 및 따라서 오디오 신호(55)의 또 다른 시간 프레임에 적용될 수 있다.

도 29는 표적 위상 측정 결정기(65')의 상세한 블록 다이어그램을 도시하고 있다. 일 실시 예에 따르면, 표적 위상 측정 결정기(65')는 데이터 스트림(135)으로부터 피크 위치(230) 및 오디오 신호(55)의 현재 시간 프레임 내의 피크 위치들(235)의 기본 주파수를 추출하기 위한 데이터 스트림 추출기(130')를 포함한다. 대안으로서, 표적 위상 측정 결정기(65')는 피크 위치(230) 및 현재 시간 프레임 내의 피크 위치들(235)의 기본 주파수를 계산하도록 현재 시간 프레임 내의 오디오 신호를 분석하기 위한 오디오 신호 분석기(225)를 포함한다. 게다가, 표적 위상 측정 결정기(65')는 피트 위치(230) 및 피크 위치들(235)의 기본 주파수를 사용하여 현재 시간 프레임 내의 피크 위치들을 추정하기 위한 표적 스펙트럼 발생기(240)를 포함한다.

도 30은 도 29에 설명된 표적 스펙트럼 발생기(240)의 상세한 블록 다이어그램을 도시하고 있다. 표적 스펙트럼 발생기(240)는 시간에 따라 펄스 트레인(pulse train, 265)을 발생시키기 위한 피크 발생기(245)를 포함한다.

신호 형성기(250)는 피크 위치들(235)의 기본 주파수에 따다 펄스 트레인의 주파수를 보정한다. 게다가, 펄스 포지셔너(255)는 피크 위치(230)에 따라 펄스 트레인(265)의 위상을 보정한다. 바꾸어 말하면, 신호 형성기(250)는 펄스 트레인의 주파수가 오디오 신호(55)의 피크 위치들의 기본 주파수와 동일하도록 펄스 트레인(265)의 임의 주파수의 형태를 변경한다. 게다가, 펄스 포지셔너(255)는 펄스 트레인의 피크들 중 어느 하나가 피크 위치(230)와 동일하도록 펄스 트레인의 위상을 이동한다. 그 후에, 스펙트럼 분석기(260)는 보정된 펄스 트레인의 위상 스펙트럼을 발생시키며, 시간 도메인 신호의 위상 스펙트럼은 표적 위상 측정(85')이다.

도 31은 오디오 신호(55)의 디코딩을 위한 디코더(110')의 개략적인 블록 다이어그램을 도시하고 있다. 디코더(110')는 기저대역의 시간 프레임 내의 오디오 신호(25)를 디코딩하도록 구성되는 코어 디코딩(115), 및 디코딩된 기저대역의 부대역들(95)의 세트를 패칭하기 위한 패처(120)를 포함하며, 부대역들의 세트는 기저대역 내의 주파수들보다 높은 주파수들을 포함하는 오디오 신호(32)를 획득하도록 기저대역에 인접한, 시간 프레임 내의 또 다른 부대역들에 대하여, 패치를 형성한다. 게다가, 디코더(110)는 표적 위상 측정에 따라 패치의 부대역들의 위상들을 보정하기 위한 오디오 프로세서(50')를 포함한다.

도 31은 오디오 신호(55)를 디코딩하기 위한 디코더(110)의 개략적인 블록 다이어그램을 도시하고 있다. 디코더(110)는 기저대역의 시간 프레임 내의 오디오 신호(25)를 디코딩하도록 구성되는 코어 디코딩(115), 및 디코딩된 기저대역의 부대역들(95)의 세트를 패칭하기 위한 패처(120)를 포함하며, 부대역들의 세트는 기저대역 내의 주파수들보다 높은 주파수들을 포함하는 오디오 신호(32)를 획득하도록 기저대역에 인접한, 시간 프레임 내의 또 다른 부대역들에 대하여, 패치를 형성한다. 게다가, 디코더(110)는 표적 위상 측정에 따라 패치의 부대역들의 위상들을 보정하기 위한 오디오 프로세서(50)를 포함한다.

또 다른 실시 예에 따르면, 패처(120)는 오디오 신호(25)의 부대역들(95)의 세트를 패칭하도록 구성되며, 부대역들의 세트는 패치에 인접한, 시간 프레임의 또 다른 부대역들에 대하여, 또 다른 패치를 형성하며, 오디오 신호 프로세서(50)는 또 다른 패치의 부대역들 내의 위상들을 보정하도록 구성된다. 대안으로서, 패처(120)는 패치에 인접한 시간 프레임의 또 다른 부대역들에 대하여, 보정된 패치를 패칭하도록 구성된다.

또 다른 실시 예에 따르면, 패처(120)는 오디오 신호(25)의 부대역들(95)의 세트를 보정하도록 구성되며, 부대역들의 세트는 패치에 인접한, 시간 프레임의 또 다른 부대역들에 대하여, 또 다른 패치를 형성하며 오디오 프로세서(50)는 또 다른 패치의 부대역들 내의 위상들을 보정하도록 구성된다. 대안으로서, 패처(120)는 패치에 인접한 시간 프레임의 또 다른 패치에 대하여 보정된 패치를 패칭하도록 구성된다.

또 다른 실시 예는 트랜지언트를 포함하는 오디오 신호를 디코딩하기 위한 디코더와 관련되며, 오디오 프로세서(50)는 트랜지언트의 위상을 보정하도록 구성된다. 트랜지언트 처리는 섹션 8.4에서 다시 설명된다. 따라서, 디코더(110)는 주파수로 유도되는 또 다른 위상을 수신하고 수신된 주파수의 위상 유도를 사용하여 오디오 신호(32) 내의 트랜지언트들을 보정하기 위한 또 다른 오디오 프로세서(50')를 포함한다. 게다가, 주요 요소들에 대한 설명이 오디오 프로세서들(50 및 50')에서의 차이와 관련되지 않은 그러한 경우들에서 상호 호환 가능하도록 도 31의 디코더(110')는 도 129의 디코더(110)와 유사하다는 것에 유의하여야 한다.

도 32는 오디오 신호(55)를 인코딩하기 위한 인코더(155')를 도시하고 있다. 인코더(155')는 코어 인코더(160), 기본 주파수 분석기(175'), 파라미터 추출기(165), 및 출력 신호 형성기(170)를 포함한다. 코어 인코더(160)는 오디오 신호(55)와 관련하여 감소된 수의 부대역들을 갖는 인코딩된 오디오 신호(145)를 획득하도록 오디오 신호(55)를 코어 인코딩하도록 구성된다. 기본 주파수 분석기(175')는 코어 인코딩된 오디오 신호(145) 내에 포함되지 않은 오디오 신호(55) 내의 피크 위치들(235)의 기존 주파수 추정을 획득하도록 오디오 신호(55) 또는 오디오 내의 저역 통과된 버전 내의 피크 위치들(230)을 분석하고 출력 신호 형성기는 피크 위치들(235)의 기본 주파수, 및 피크 위치들(230) 중 어느 하나를 포함하는 출력 신호(135)를 형성한다. 실시 예들에 따르면, 출력 신호 형성기(170)는 출력 신호(135)를 프레임들의 시퀀스 내로 출력하도록 구성되고 각각의 프레임은 코어 인코딩된 오디오 신호(145), 파라미터들(190)을 포함하며 각각의 n-번째 프레임만이 피크 위치들(235) 및 피크 위치(230)의 기본 주파수 추정을 포함하며, 여기서 n≥2이다.

도 33은 원래 오디오 신호(55)와 관련하여 감소된 부대역들의 수를 포함하는 코어 인코딩된 오디오 신호(145)를 포함하는 오디오 신호(235)의 일 실시 예를 도시하며, 코어 인코딩된 오디오 신호, 피크 위치들(235)의 기본 주파수 추정, 및 오디오 신호(55)의 피크 위치 추정(230) 내에 포함되지 않은 오디오 신호의 부대역들을 표현한다. 대안으로서, 오디오 신호(135)는 프레임들의 시퀀스 내로 형성되고, 각각의 프레임은 코어 인코딩된 오디오 신호(145), 파라미터들(145)을 포함하며, 각각의 n-번째 프레임만이 피크 위치들(235) 및 피크 위치(230)의 기존 주파수 추정을 포함하고 여기서 n≥3이다. 개념은 도 22와 관련하여 이미 설명되었다.

도 34는 오디오 프로세서로 오디오 신호를 처리하기 위한 방법(3400)을 도시하고 있다. 방법(3400)은 단계 3405 " 오디오 프로세서로 오디오 신호를 처리하는 단계"를 포함한다. 방법(2300)은 단계 3505 " 표적 위상 측정으로 오디오 신호를 위한 표적 위상 측정을 결정하는 단계", 단계 3410 " 시간 프레임 내의 오디오 신호 및 표적 위상 측정의 위상을 사용하여 위상 오류 계산기로 위상 오류를 계산하는 단계" 및 단계 3415 " 위상 오류를 사용하여 보정된 위상으로 시간 프레임 내의 오디오 신호의 위상을 보정하는 단계"를 포함한다.

도 35는 디코더 오디오 신호를 디코딩하기 위한 방법(3500)을 도시하고 있다. 방법(3500)은 단계 3505 " 코어 디코더로 기저대역의 시간 프레임 내의 오디오 신호를 디코딩하는 단계", 단계 3510 "패처로 디코딩된 기저대역의 부대역들의 세트를 패칭하는 단계, - 부대역들의 세트는 기저대역 내의 주파수들보다 높은 주파수들을 포함하는 오디오 신호를 획득하도록 기저대역에 인접한, 시간 프레임 내의 또 다른 부대역들에 대하여, 패치를 형성함, - :, 및 단계 3515 "표적 위상 측정에 따른 오디오 프로세서로 제 1 패치의 부대역들로 위상들을 보전하는 단계"를 포함한다.

도 36은 인코더로 오디오 신호를 인코딩하기 위한 방법(3600)을 도시하고 있다. 방법(3600)은 단계 3605 "오디오 신호와 관련하여 감소된 수의 부대역들을 갖는 코어 인코딩된 오디오 신호를 획득하도록 코어 인코더로 오디오 신호를 코어 인코딩하는 단계", 단계 3610 "오디오 신호 내의 피크 위치들의 기존 주파수 추정을 획득하도록 기존 주파수 분석기로 오디오 신호 또는 오디오 신호의 저역 통과된 버전을 분석하는 단계", 단계 3615 "코어 인코딩된 오디오 신호를 포함하는 출력 신호 형성기로 코어 인코딩된 오디오 신호 내에 포함되지 않은 오디오 신호의 부대역들의 파라미터들을 추출하는 단계" 및, 단계 3620 "코어 인코딩된 오디오 신호, 파라미터들, 피크 위치들의 기본 주파수, 및 피크 위치를 포함하는 출력 신호 형성기로 출력 신호를 형성하는 단계"를 포함한다.

바꾸어 말하면, 고조파 함수들의 시간적 위치들의 오류들의 보정을 위한 제안된 알고리즘은 다음과 같다. 먼저, 표적 신호 및 및 처리된 신호(4301)의 위상 스펙트럼들 사이의 차이가 계산되며 이는 도 37에 도시되어 있다.

, (20a)

도 37은 직접적인 카피=업 SBR을 사용하여 QMF 도메인 내의 트럼본 신호의 위상 스펙트럼(

)의 오류를 도시하고 있다. 이러한 관점에서 표적 위상 스펙트럼은 입력 신호와 동일하도록 추정될 수 있다:

(20b)

목표 위상 스펙트럼이 낮은 비트 레이트에서 얻어지는 방법이 나중에 제시될 것이다. 두 가지 방법을 사용하여 수직 위상 보정이 실행되고, 최종 보정된 위상 스펙트럼이 그것들의 혼합된 형태로서 획득된다.

우선, 오류는 주파수 패치 내부에서 상대적으로 일정하다는 것을 알 수 있고, 오류는 새로운 주파수 패치로 들어갈 때 세로운 값으로 점프한다. 이는 이치에 맞는데, 그 이유는 위상이 원래 신호 내의 모든 주파수에서 주파수에 대하여 일정한 값으로 변화하기 때문이다. 오류는 교차에서 형성되고 오류는 패치 내부에 일정하게 남아있는다. 따라서, 전체 주파수 패치를 위한 패치 오류를 보정하는데 단일 값이 충분하다. 게다가, 높은 주파수 패치들의 위상 오류는 주파수 패치의 지수 수와의 곱셈 이후에 동일한 오류 값을 사용하여 보정될 수 있다.

따라서, 제 1 주파수 패치를 위하여 위상 오류의 원형 평균이 계산된다:

위상 스펙트럼은 이를 사용하여 보정될 수 있다:

이러한 원시 보정은 만일 표적 PDF, 예를 들면 주파수(

)에 대한 위상 유도가 모든 주파수에서 정확하게 일정하면, 정확한 결과를 생성한다. 그러나, 도 12에 도시된 바와 같이, 그 값에서는 주파수에 대해서 약간의 변화가 자주 존재한다. 따라서, 생성된 PDF 내의 어떠한 불연속들을 방지하기 위하여 교차에서 향상된 처리의 사용에 의해 더 나은 결과들이 획득될 수 있다. 바꾸어 말하면, 보정은 평균에 대한 PDF를 위하여 정확한 값들을 생성하나, 그것들을 방지하도록 주파수 패치들의 교차 주파수들에서 약간의 불연속들이 존재할 수 있으며, 보정 방법이 적용된다. 최종 보정된 위상 스펙트럼(

)은 두 가지 보정 방법의 혼합으로서 획득된다:

나머지 보정 방법은 기저대역 내의 PDF의 평균의 계산에 의해 시작한다:

위상 스펙트럼은 위상이 이러한 평균 값으로 변화한다고 가정하면, 즉 다음과 같으면 이러한 측정을 사용하여 보정될 수 있으며:

여기서

은 두 가지 보정 방법의 결합된 패치 신호이다.

이러한 보정은 교차들(cross-overs)에서 뛰어난 품질을 제공하나, 고주파수들을 향하여 PDF 내의 이동을 야기할 수 있다. 이를 방지하기 위하여, 두 가지 보정 방법이 그것들의 가중 평균에 의해 획득되며:

여기서 c는 보정 방법(

또는

)을 나타내고

은 가중 함수이다:

(26a)

삭제

결과로서 생긴 위상 스펙트럼(

)은 불연속성 및 이동을 형성하지 않는다. 원래 스펙트럼 및 보정된 위상 스펙트럼의 PDF와 비교되는 오류가 도 38에 도시되어 있다. 도 38a는 위상 보정된 SBR 신호를 사용하여 QMF 도메인 내의 트럼본 신호의 위상 스펙트럼(

) 내의 오류를 도시하고, 도 38b는 대응하는 주파수에 대한 위상 유도(

)를 도시하고 있다. 오류들이 보정이 없는 것보다 상당히 작고, PDF는 주요 불연속성들로부터 손실을 입고 있다는 것을 알 수 있다. 특정 시간 프레임들에서 상당한 오류들이 존재하나, 이러한 오류들은 낮은 에너지를 가지며(도 4 참조), 따라서 그것들은 상당한 지각적 효과를 갖는다. 상당한 에너지를 갖는 시간 프레임들은 상대적으로 잘 보정된다. 보정되지 않은 SBR의 아티팩트들이 상당히 완화된다는 것에 유의하여야 한다.

보정된 위상 스펙트럼(

)은 보정된 주파수 패치들(

)의 계산에 의해 획득된다. 수직-보정 모드와 호환되도록, 수직 위상 보정은 또한 변조 매트릭스를 사용하여 제시될 수 있다:

. (26b)

8.3 상이한 위상-보정 모드들 사이의 스위칭

섹션 8.1 및 8.2는 SBR 유도된 위상 오류들이 바이올린에 대한 PDT 보정 및 트럼본에 대한 PDF 보정의 적용에 의해 보정될 수 있다는 것을 나타내었다. 그러나, 보정들 중 어느 것이 알려지지 않은 신호에 적용되어야만 하는지, 또는 그것들 중 어느 하나가 적용되어야만 하는지를 어떻게 아는지는 고려되지 않았다. 본 섹션은 보정 방향을 자동으로 선택하기 위한 방법을 제안한다. 보정 방향(수평/수직)은 입력 신호들의 위상 유도들의 변이를 기초로 하여 결정된다.

따라서, 도 39에서, 오디오 신호(55)를 위한 위상 보정 데이터를 결정하기 위한 계산기가 도시되어 있다. 변이 결정기(275)는 제 1 및 제 2 변이 모드에서 오디오 신호(55)의 위상(45)의 변이를 결정한다. 변이 비교기(380)는 제 1 변이 모드를 사용하여 결정된 제 1 변이(290a) 및 제 1 변이 모드를 사용하여 결정된 제 1 변이(290b)를 비교한다. 보정 데이터 계산기(285)는 비교기의 결과를 기초로 하여 제 1 변이 모드 또는 제 2 변이 모드에 따라 위상 보정 데이터(295)를 계산한다.

게다가, 변이 결정기(275)는 제 1 변이 모드에서의 위상의 변이(290a)로서 오디오 신호(55)의 복수의 시간 프레임을 위한 시간에 대한 위상 유도(PDT)의 표준 편차 측정을 결정하고 제 2 변이 모드에서의 위상의 변이(290b)로서 오디오 신호(55)의 복수의 부대역을 위한 시간에 대한 위상 유도(PDT)의 표준 편차 측정을 결정하도록 구성될 수 있다. 따라서, 변이 비교기(280)는 제 1 변이(290a)로서 시간에 대한 위상 유도의 측정 및 오디오 신호의 시간 프레임들을 위한 제 2 변이(290b)로서 주파수에 대한 위상 유도를 비교한다.

실시 예들은 표준 편차 측정으로서 오디오 신호의 현재 및 복수의 미래 프레임의 시간에 대한 위상 유도의 원형 표준 편차를 결정하고 표준 편차 측정으로서 현재 시간 프레임에 대해서 오디오 신호(55)의 현재 및 복수의 미래 프레임의 시간에 대한 위상 유도의 원형 표준 편차를 결정하기 위한 변이 결정기(275)를 도시하고 있다. 게다가, 변이 결정기(275)는 제 1 변이(290a)를 계산할 때, 원형 표준 편차들 모두의 최소를 계산한다. 또 다른 실시 예에서, 변이 결정기(275)는 주파수의 평균 표준 편차 측정을 형성하도록 시간 프레임(75) 내의 복수의 부대역(95)을 위한 표준 편차 측정의 조합으로서 제 1 변이 모드에서의 변이(290a)를 계산한다. 변이 비교기(280)는 에너지 측정으로서 현재 시간 프레임 내의 부대역 신호(95)의 진폭 값들을 사용하여 복수의 부대역의 표준 편차 측정들의 에너지 가중 평균을 계산함으로써 표준 편차 측정들의 조합을 실행하도록 구성된다.

바람직한 실시 예에서, 변이 결정기(275)는 현재, 복수의 이전 및 복수의 미래 프레임에 대하여 제 1 변이(290a)를 결정할 때, 평균 표준 편차 측정을 평활화한다. 평활화는 대응하는 시간 프레임들 및 윈도우잉 함수를 사용하여 계산된 에너지에 따라 가중되었다. 게다가, 변이 결정기(275)는 현재, 복수의 이전 및 복수의 미래 시간 프레임(75)에 대하여 제 2변이(290b)를 결정할 때, 표준 편차 측정을 평활화하도록 구성되며, 평활화는 대응하는 시간 프레임들(75) 및 윈도우잉 함수를 사용하여 계산된 에너지에 따라 가중된다. 따라서, 변이 비교기(280)는 제 1 변이 모드를 사용하여 제 1 변이(290a)로서 평활화된 표준 편차 측정을 비교하고 제 2 변이 모드를 사용하여 제 2 변이(290b)로서 평활화된 표준 편차 측정을 비교한다.

바람직한 실시 예가 도 40에 도시되어 있다. 이러한 실시 예에 따르면, 변이 결정기(275)는 제 1 및 제 2 변이의 계산을 위한 두 가지 처리 경로를 포함한다. 제 1 처리 경로는 오디오 신호(55) 또는 오디오 신호의 위상으로부터 시간에 대한 위상 유도(305a)의 표준 편차 특정을 계산하기 위한, PDT 계산기(300a)를 포함한다. 원형 표준 편차 계산기(315b)는 시간에 대한 위상 유도(305a)의 표준 편차 측정으로부터 제 1 원형 표준 편차(315a) 및 제 2 원형 표준 편차(315b)를 결정한다. 제 1 및 제 2 원형 표준 편차(315a 및 315b)는 비교기(320)에 의해 비교된다. 비교기(320)는 두 개의 원형 표준 편차 측정들(35a 및 325b)의 최소(325)를 계산한다. 결합기는 평균 표준 편차 측정(335a)을 형성하도록 주파수에 대하여 최소(325)를 결합한다. 평활화기(240a)는 평활한 평균 표준 편차 측정(345a)을 형성하도록 평균 표준 편차 측정기(335a)를 평활화한다.

제 2 처리 경로는 오디오 신호 또는 오디오 신호의 위상으로부터 주파수에 대한 위상 유도(305b)를 계산하기 위한 PDF 계산기(300b)를 포함한다.

원형 표준 편차 계산기(310b)는 시간에 대한 위상 유도(305)의 표준 편차 측정들(335b)을 형성한다.

표준 편차 측정(305)은 평활한 표준 편차 측정(345b)을 형성하도록 평활화기(340b)에 의해 평활화된다. 평활화된 표준 편차 측정들(345a) 및 평활화된 표준 편차 측정(345b)은 각각 제 1 및 제 2 변이이다. 변이 비교기(280)는 제 1 및 제 2 변이를 비교하고 보정 데이터 계산기(285)는 제 1 및 제 2 변이의 비교를 기초로 하여 위상 보정 데이터(295)를 계산한다.

또 다른 실시 예는 세 가지 상이한 위상 보정 모드를 처리하기 위한 계산기(270)를 도시하고 있다. 구성의 블록 다이어그램이 도 41에 도시되어 있다. 도 41은 제 3 변이 모드에서 오디오 신호(55)의 위상의 제 3 변이(290c)를 추가적으로 결정하는 변이 결정기(275)를 도시하며, 제 3 변이 모드는 트랜지언트 검출 모드이다. 변이 비교기(280)는 제 1 변이 노드를 사용하여 결정된 제 1 변이(290a), 제 2 변이 노드를 사용하여 결정된 제 1 변이(290b), 및 제 3 변이 노드를 사용하여 결정된 제 3 변이(290a)를 비교한다. 따라서, 보정 데이터 계산기(285)는 비교의 결과를 기초로 하여 제 1 보정 모드, 제 2 보정 모드, 또는 제 3 보정 모드에 따라 위상 보정 데이터(295)를 계산한다. 제 3 변이 모드에서의 제 3 변이를 계산하기 위하여, 변이 계산기(280)는 현재 시간 프레임의 인스턴트 에너지 추정 및 복수의 시간 프레임(75)의 시간 평균 에너지 추정을 계산하도록 구성될 수 있다. 따라서, 변이 비교기(280)는 인스턴트 에너지 추정 및 시간 평균 에너지 추정의 비율을 계산하도록 구성되고 시간 프레임(75) 내의 트랜지언트들을 검출하도록 비율을 정의된 임계와 비교하도록 구성된다.

변이 비교기(280)는 변이들을 기초로 하여 적절한 보정 모드를 결정해야 한다. 이러한 결정을 기초로 하여, 보정 데이터 계산기(285)는 만일 트랜지언트가 검출되면 변이 모드에 따라 위상 보정 데이터(295)를 계산한다.

게다가, 보정 데이터 계산기(285)는 만일 트랜지언트의 부재가 검출되고, 제 1 변이 모드에서 결정된 제 1 변이(290a)가 제 2 변이 모드에서 결정된 제 2 변이(290b)보다 작거나 또는 동일하면, 제 1 변이 모드에 따라 위상 보정 데이터(295)를 계산한다. 따라서, 위상 보정 데이터(295)는 만일 트랜지언트의 부재가 검출되고 만일 제 2 변이 모드에서 결정된 제 2 변이(290b)가 제 1 변이 모드에서 결정된 제 1 변이(290a)보다 작으면, 제 2 변이 모드에 따라 위상 보정 데이터(295)를 계산한다.

보정 데이터 계산기는 또한 현재, 하나 이상의 이전 및 하나 이상의 미래 시간 프레임에 대해서 제 3 변이(290c)를 위한 위상 보정 데이터(295)를 계산하도록 구성된다. 따라서, 보정 데이터 계산기(285)는 현재, 하나 이상의 이전 및 하나 이상의 미래 시간 프레임에 대해서 제 2 변이 노드(290b)를 위한 위상 보정 데이터(295)를 계산하도록 구성된다. 게다가, 보정 데이터 계산기(285)는 수형 위상 보정 및 변이 모드를 위한 보정 데이터(295)를 계산하고, 제 2 변이 모드에서의 수직 위상 보정을 계산하며, 제 3 변이 모드에서의 트랜지언트 보정을 위한 보정 데이터(295)를 계산하도록 구성된다.

도 42는 오디오 신호로부터 위상 보정 데이터를 결정하기 위한 방법(4200)을 도시하고 있다. 방법(4200)은 단계 4205 "제 1 및 제 2 변이 모드에서 변이 결정기로 오디오 신호의 위상의 변이를 결정하는 단계", 단계 4210 "변이 비교기로 제 1 및 제 2 변이 모드를 사용하여 결정된 변이를 비교하는 단계", 및 단계 4215 "비교의 결과를 기초로 하여 제 1 변이 모드 도는 제 2 변이 모드에 따라 보정 데이터 계산기로 위상 보정을 계산하는 단계"를 포함한다.

바꾸어 말하면, 바이올린의 PDT는 시간에 대하여 평활하나 반면에 트럼본의 PDF는 주파수에 대하여 평활하다. 따라서, 이러한 측정들의 표준 편차(STD)는 적절한 보정 방법을 선택하도록 사용될 수 있다. 시간에 대한 위상 유도의 STD는 다음과 같이 계산되고:

주파수에 대한 위상 유도는 다음과 같이 계산되며:

여기서 crcstd{}는 원형 STD를 나타낸다(그 각도의 값들은 시끄러운 낮은 에너지 빈들에 기인하는 높은 STD를 방지하도록 에너지에 의해 가중될 수 있다. 또는 STD 계산은 충분한 에너지에 의해 빈들(bins)에만 제한될수 있다). 바이올린 및 트럼본을 위한 STD들이 각각 도 45a, 43b에 도시되어 있다. 도 43a 및 도 43c는 WMF 도메인 내의 시간에 대한 위상 유도(

)를 도시하며, 도 43b 및 도 43d는 위상 보정 없이 주파수에 대한 위상 유도(

)를 도시하고 있다. 색 구배는 적색 =π부터 청색 =-π까지의 값들을 나타낸다. PDT의 STD는 바이올린에 대하여 낮으나 반면에 PDF의 STD는 트럼본에 대하여(특히 높은 에너지를 갖는 시간-주파수 타일들에 대하여) 낮은 것을 알 수 있다.

각각의 시간 프레임에 대해서 사용되는 보정 방법은 어떠한 STD들이 낮은지를 기초로 하여 선택된다. 이를 위하여,

값들은 주파수에 대하여 결합되어야만 한다. 병합은 미리 정의된 주파수 범위를 위하여 에너지 가중된 평균의 계산에 의해 실행된다:

(29)

편차 추정들은 평활한 스위칭을 가지기 위해 그리고 잠재적인 아티팩트들을 방지하기 위해 시간에 대하여 평활화된다. 평활화는 한 윈도우(Hann window)를 사용하여 실행되고 이는 시간 프레임의 에너지에 의해 가중되며:

(30)

여기서 W(l)은 윈도우 함수이고

은 주파수에 대한

의 합계이다. 평활화

를 위하여 대응하는 방정식이 사용된다.

위상-보정 방법은

및

의 비교에 의해 결정된다. 디폴트 방법은 PDT(수평) 보정이고, 만일

이면, PDF(수직) 보정이 간격([n-5,n+5])을 위하여 적용된다. 만일 편차들 모두가 크면, 예를 들면 미리 정의된 임계 값보다 크면, 보정 방법들 모두는 적용되지 않고 비트-레이트 절약들이 실현될 수 있다.

8.4 트랜지언트 처리 - 트랜지언트들을 위한 위상 유도 보정

중간에 첨가된 박수(hand clap)를 갖는 바이올린 신호가 도 44에 제시된다. QMF 도메인 내의 바이올린 + 클랩 신호의 크기

는 도 44a에 도시되고, 대응하는 위상 스펙트럼

이 도 44b에 도시되어 있다. 도 44a와 관련하여, 색 구배는 적색 = 0 dB부터 청색 = -80 dB까지를 나타낸다. 따라서, 도 44b를 위하여, 위상 구배는 적색 = π부터 청색 = -π까지의 위상 값들을 나타낸다. 시간 및 주파수에 대한 위상 유도는 도 45에 제시된다. QMF 도메인 내의 바이올린 + 클랩 신호의 시간에 대한 위상 유도

는 도 45a에 도시되고, 대응하는 주파수에 대한 위상 유도

는 도 45b에 도시되어 있다. 색 구배는 적색 = π부터 청색 = -π까지를 나타낸다. PDT는 클랩에 대하여 시끄러우나, PDF는 적어도 고주파수들에서 다소 평활화 한다는 것을 알 수 있다. 따라서, PDF 보정은 그것의 선예도(sharpness)를 유지하기 위해서 클랩을 위하여 적용되어야만 한다. 그러나, 섹션 8.2에서 제안된 보정 방법은 이러한 신호로 적절하게 작동하지 않을 수 있으며, 그 이유는 바이올린 음향이 저주파수들에서 유도들을 방해하기 때문이다. 그 결과, 기저대역의 위상 스펙트럼은 고주파수들을 반영하지 않고, 따라서 단일 값을 사용하는 주파수 패치들의 위상 보정은 작동하지 않을 수 있다. 게다가, PDF 값의 변이를 기초로 하는(섹션 8.3 참조) 트랜지언트들의 검출은 저주파수들에서 시끄러운 PDF 값들에 기인하여 어려울 수 있다.

문제점의 해결은 간단하다. 먼저, 간단한 에너지 기반 방법을 사용하여 트랜지언트들이 검출된다. 중간/고주파수들의 인스턴트 에너지는 다음과 같이 계산된다:

(31)

평활화는 일차 적외선 필터 사용하여 실행된다:

. (32)

만일

이면, 트랜지언트가 검출되었다. 임계(θ)는 원하는 양의 트랜지언트들을 검출하도록 미세-조정될 수 있다. 예를 들면, θ=2가 사용될 수 있다.

검출된 프레임은 트랜지언트 프레임이 되도록 직접적으로 선택되지 않는다. 대신에, 그것의 주변으로부터 국소 에너지 최대가 검색될 수 있다. 현재 실시예에서, 선택된 간격은 [n-2, n+7]이다. 이러한 간격 내부에 최대 에너지를 갖는 시간 프레임은 트랜지언트가 되도록 선택된다.

이론적으로, 수직 보정 모드는 또한 트랜지언트들을 위하여 적용될 수 있다. 트랜지언트들의 경우에, 기저대역의 위상 스펙트럼은 흔히 고주파수들을 반영하지 않는다. 이는 처리된 신호의 프리 및 포스트-에코들에 이르게 할 수 있다. 따라서, 약간 변형된 처리가 트랜지언트들을 위하여 제안된다.

고주파수들에서 트랜지언트의 평균 PDF가 계산된다:

. (33)

트랜지언트 프레임을 위한 위상 스펙트럼은 방정식 24에서와 같이 이러한 일정한 위상 변화를 사용하여 합성되나,

는

로 대체된다. 동일한 보정이 간격(

) 내의 시간 프레임들에 적용된다(QMF의 특성들에 기인하여, 프레임들 n-1 및n+1의 PDF에 π가 더해진다, 섹션 6 참조). 보정은 이미 안정적인 위치에 트랜지언트를 생성하고 있으나, 트랜지언트의 형태는 원하는 것과 같지는 않고 상당한 측대파들(side lobes, 즉 부가적인 트랜지언트들)이 QMF 프레임들의 상당한 시간적 오버랩에 기인하여 존재할 수 있다. 따라서, 절대 위상 각(absolute phase angle)이 또한 보정되어야만 한다. 절대 각은 합성된 위상 스펙트럼 및 원래 위상 스펙트럼 사이의 평균 오류의 계산에 의해 보정된다. 보정은 트랜지언트의 시간 프레임에 대해서 개별적으로 실행된다.

트랜지언트 보정의 결과가 도 46에 도시되어 있다. 위상 보정된 SBR을 사용하여 QMF 도메인 내의 바이올린 + 클랩 신호의 시간에 대한 위상 유도

가 도시되어 있다. 도 47b는 대응하는 주파수에 대한 위상 유도

를 도시하고 있다. 또한, 색 구배는 적색 = π부터 청색 =-π까지를 나타낸다. 위상 보정된 클랩은 비록 직접적인 카피-업과 비교하면 크지 않더라도, 원래 신호와 동일한 선예도(sharpness)를 갖는 것이 지각될 수 있다. 따라서, 트랜지언트 보정은 직접적인 카피-업만이 가능할 때 모든 경우에 대하여 반드시 요구되지는 않는다. 이와 대조적으로, 만일 PDF 보정이 가능하면, 트랜지언트 처리를 갖는 것이 중요한데, 그 이유는 PDT 보정은 그렇지 않으면 트랜지언트들을 심각하게 스미어링하기 때문이다.

9. 보정 데이터의 압축

섹션 8은 위상 오류들이 검출될 수 있으나, 보정을 위한 비트 레이트는 전혀 고려되지 않았다는 것을 나타내었다. 본 섹션은 낮은 비트 레이트로 어떻게 보정 데이터를 표현하는지의 방법들을 제안한다.

9.1 PDT 위상 보정 데이터의 압축 - 고조파 보정을 위한 표적 스펙트럼의 생성

PDT 보정을 가능하게 하도록 전송될 수 있는 가능한 파라미터들이 존재한다. 그러나,

은 시간에 대하여 평활화되며, 이는 낮은 비트 레이트 전송을 위한 잠재적인 후보군이다.

우선, 파라미터들을 위한 적절한 업데이트 레이트가 설명된다. 각각의 값은 N 프레임들마다 업데이트되었고 그것들 사이에 선형적으로 보간되었다. 뛰어난 품질을 위한 업데이트 간격은 약 40ms이다. 특정 신호들을 위하여, 적은 비트가 바람직하고 나머지 신호들에 대해서는 많은 비트가 바람직하다. 형식적 청취 검사들은 선택적 업데이트 레이트의 평가를 위하여 유용하다. 그럼에도 불구하고, 상대적으로 긴 업데이트 간격이 수용 가능한 것으로 나타난다.

을 위한 적절한 각 정확도가 또한 연구되었다. 6 비트(64개 가능한 각 값들)는 지각적으로 뛰어난 품질을 위하여 충분하다. 게다가, 값의 변화의 전송만이 검사되었다. 흔히 값들은 단지 약간 변화하는하는 것으로 보이며, 따라서 작은 변화들을 위하여 더 많은 정확도를 갖도록 뷸균등 양자화가 적용될 수 있다. 이러한 접근법을 사용하여, 4 비트(16개 가능한 각 값들)가 뛰어난 품질을 제공하는 것으로 발견되었다. 마지막은 적절한 스펙트럼 정확도를 고려하는 것이다. 도 17에서 알 수 있는 것과 같이, 많은 주파수 대역들은 대략 동일한 값을 공유하는 것으로 보인다. 따라서, 하나의 값은 아마도 몇몇 주파수 대역들을 표현하도록 사용될 수 있었다. 게다가, 고주파수들에서는, 하나의 주파수 대역 내부에 다수의 고조파들이 존재하며, 따라서 더 적은 정확도가 확률적으로 필요하다. 그럼에도 불구하고, 또 다른, 잠재적으로 더 나은, 접근법이 발견되었으며, 따라서 이러한 선택들은 철저히 조사되지 않았다. 제안된, 더 효율적인, 접근법이 아래에 설명된다.

9.1.1 PDT 보정 데이터의 처리를 위한 주파수 추정의 사용

섹션 5에서 설명된 바와 같이, 시간에 대한 위상 보정은 기본적으로 생성된 사인곡선의 주파수를 의미한다. 적용된 64-대역 복소 QMF의 PDT들은 다음의 방정식을 사용하여 주파수들로 변환될 수 있다:

(34)

생성된 주파수들은 간격(

) 내부에 존재하며, f_c(k)는, 주파수 대역(k)의 중앙 주파수이고 f_BW는 375㎐이다. 결과는 바이올린 신호를 위한 QMF 대역들

을 위한 주파수들의 시간-주파수 표현으로 도 47에 도시되어 있다. 주파수들은 음조의 기본 주파수(fundamental frequency)의 배수(multiples)를 따르며, 고조파들은 따라서 기본 주파수에 의해 주파수 내에 간격을 두는 것을 알 수 있다. 게다가, 비브라토(vibrati)는 주파수 변조를 야기하는 것으로 보인다.

동일한 플롯은 직접적인 카피-업

및 보정된

SBR에 적용될 수 있다(각각 도 48a 및 도 48b 참조). 도 48a는 도 47에 도시된, 원래 신호(

)와 비교하면 직접적인 카피-업 SBR 신호(

)의 QMF 대역들의 주파수들의 시간-주파수 표현을 도시하고 있다. 도 48b는 보정된 SBR 신호(

)를 위한 대응하는 플롯을 도시하고 있다. 도 48a 및 도 58b의 플롯들에서, 원래 신호는 도면에 청색으로 표시되고, 직접적인 카피-업 SBR 및 보정된 SBR 신호들은 적색으로 표시된다. 직접적인 카피-업 SBR의 부조화성은 도면에서, 특히 샘플의 시작 및 끝에서 알 수 있다. 게다가, 주파수 변조 깊이가 원래 신호보다 명확하게 작다는 것을 알 수 있디. 이와 대조적으로, 보정된 SVR의 경우에, 고조파들의 주파수들은 원래 신호의 주파수들을 따르는 것으로 보인다. 게다가, 변조 깊이가 보정된 것으로 보인다. 따라서, 플롯은 제안된 보정 방법 유효성을 확인하는 것으로 보인다. 따라서, 다음에 보정 데이터의 실제 압축에 집중된다.

의 주파수들이 동일한 양으로 간격을 두고 있으므로, 만일 주파수들 사이의 간격이 추정되어 전송되면 모든 주파수 대역의 주파수들은 근사치일 수 있다. 고조파 신호들의 경우에서, 간격은 음조의 기존 주파수와 동일해야만 한다. 따라서, 단일 값만이 모든 주파수 대역의 표현을 위하여 전송되어야만 한다. 더욱 불규칙적인 신호들의 경우에는, 고조파 특성을 위하여 더 많은 값들이 필요하다. 예를 들면, 고조파들의 간격은 피아노 음조의 경우에 약간 증가한다[14]. 단순성을 위하여, 아래에 고조파들은 동일한 양으로 간격을 두고 있는 것으로 가정된다. 그럼에도 불구하고, 이는 설정된 오디오 처리의 일반성을 제한하지 않는다.

따라서, 기본 주파수는 고조파들의 주파수들의 추정을 위하여 추정된다. 기본 주파수의 추정은 광범위하게 연구된 주제이다(예를 들면 [14] 참조). 따라서, 또 다른 처리 단계들을 위하여 사용된 데이터를 발생시키기 위하여 간단한 추정 방법이 구현되었다. 그 방법은 기본적으로 고조파들의 간격들을 계산하고, 일부 발견법(heuristics : 에너지의 양. 주파수 및 시간에 대한 안정도 등)에 따라 결과를 결합한다. 어떠한 경우에도, 결과는 각각의 시간 프레임(

)을 위한 기본-주파수이다. 바꾸어 말하면, 시간에 대한 위상 유도는 대응하는 QMF 빈의 주파수와 관련된다. 게다가, PDT 내의 오류들과 관련된 아티팩트들은 대부분 고조파 신호들로 지각 가능하다. 따라서, 표적 PDT(방정식 16a 참조)는 기본 주파수(f⁰)의 추정을 사용하여 추정될 수 있다는 것이 제안된다. 기본 주파수의 추정은 광범위하게 연구된 주제이고, 기본 주파수 신뢰할 만한 추정들의 획득을 위하여 이용 가능한 많은 우수한 방법들이 존재한다.

여기서, BWE를 실행하고 BWE 내의 본 발명의 위상 보정을 사용하기 전에 디코더에 알려진 것과 같은, 기본 주파수

가 가정된다. 인코딩 스테이지는 추정된 기본 주파수(

)를 전송하는 것이 바람직하다. 게다가, 향상된 코딩 효율을 위하여, 값은 예를 들면 매 20번째 시간 프레임(-27ms의 간격과 대응하는)만을 위하여 업데이트되며, 그들 사이에 보간된다.

대안으로서, 기본 주파수는 디코딩 스테이지에서 추정될 수 있고, 어떠한 정보도 전송되어서는 안 된다. 그러나, 만일 인코딩 스테이지 내의 원래 신호로 추정이 실행되면 더 나은 추정들이 예상될 수 있다.

디코더 처리는 각각의 시간 프레임을 위한 기본 주파수 추정(

)의 획득에 의해 시작한다.

고조파들의 주파수들은 이를 지수 벡터와 곱함으로써 획득될 수 있다:

(35)

결과가 도 49에 도시되어 있다. 도 49는 원래 신호(

)의 QMF 대역들의 주파수들과 비교하여 고조파들(

)의 추정된 주파수들의 시간 주파수 표현을 도시하고 있다. 또한, 청색은 원래 신호를 나타내고 적색은 추정된 신호를 나타낸다. 추정된 고조파들의 주파수들은 원래 신호와 상당히 잘 일치한다. 이러한 주파수들은 허용된 주파수들로서 생각될 수 있다. 만일 알고리즘이 이러한 주파수들을 생성하면, 비화성도(inharmonicity) 관련 아티팩트들(artifacts)이 방지되어야 한다.

알고리즘의 전송된 파라미터는 기존 주파수(

)이다. 향상된 코딩 효율을 위하여, 값은 매 20번째 기간 프레임(즉, 매 27ms)을 위하여 업데이트된다. 이러한 값은 평상시의 청취를 기초로 하여 뛰어난 지각 품질을 생성하는 것으로 나타난다. 그러나, 업데이트 레이트를 위한 평상시의 청취 검사들은 더 최적의 값을 위하여 유용하다.

알고리즘의 그 다음 단계는 각각의 주파수 대역에 적합한 값이다. 이는 그러한 대역을 반영하도록 각각의 대역(f_c(k)의 중앙 주파수에 가장 가까운

의 값을 선택함으로써 실행된다. 만일 가장 가까운 값이 기존 대역(56-6)의 가능한 값들 외부에 존재하면, 대역의 더 나은 값들이 사용된다. 결과로서 생긴 매트릭스(

)는 각각의 시간 주파수 타일을 위한 주파수를 포함한다.

보정-데이터 압축의 최종 단계는 주파수 데이터를 다시 PDT 데이터로 변환하는 것이며:

(36)

여기서 mod()는 모듈로(modulo) 연산자를 나타낸다. 실제 보정 알고리즘은 섹션 8.1에 제시되는 것과 같이 작동한다. 방정식 16a에서의

은

로 대체되는데, 그 이유는 표적 PDT, 및 방정식 27-19가 섹션 8.1에서와 같이 사용되기 때문이다. 압축 보정 데이터를 갖는 보정 알고리즘의 결과는 도 50에 도시되어 있다. 도 50은 압축 보정 데이터를 갖는 보정된 SBR의 QMF 도메인 내의 바이올린 신호의 PDT (

)내의 오류를 도시하고 있다. 도 50b는 대응하는 시간에 대한 위상 유도(

)를 도시하고 있다. 색 구배는 적색 = π부터 청색 =-π까지를 나타낸다. PDT 값들은 데이터 압축이 없는 보정 방법과 유사한 정확도로 원래 신호의 PDT 값들을 따른다(도 18 참조). 따라서, 압축 알고리즘은 유효하다. 보정 데이터의 압축이 있거나 또는 없는 지각 품질은 유사하다.

실시 예들은 각각의 값을 위하여 12 비트의 음조를 사용하여 저주파수들을 위하여 더 나은 정확도를 사용하고 고주파수들을 위해 더 적은 정확도를 사용한다. 결과로서 생긴 비트 레이트는 약 0.5 kbps이다(엔트로피 코딩과 같은 어떠한 데이터 압축이 없음). 이러한 정확도는 어떤 양자화도 없는 것과 동일한 지각 품질을 생성한다. 그러나, 상당히 낮은 비트 레이트가 충분히 뛰어난 지각 품질을 생성하는 많은 경우들에서 확률적으로 사용될 수 있다.

낮은 비트 레이트 전략을 위한 한 가지 선택은 전송된 신호를 사용하여 디코딩 위상 내의 기존 주파수를 추정하는 것이다. 이러한 경우에 어떠한 값도 전송되어서는 안 된다. 또 다른 선택은 전송된 신호를 사용하여 기본 주파수를 추정하고, 이를 광대역 신호를 사용하여 획득된 추정과 비교하며, 차이만을 전송하는 것이다. 이러한 차이는 매우 낮은 비트 레이트를 사용하여 표현될 수 있다는 것이 추정된다.

9.2 PDF 보정 데이터의 압축

섹션 8.2에서 설명된 바와 같이, PDF 보정을 위한 적절한 데이터는 제 1 주파수 패치의 평균 위상 오류(

)이다. 보정은 이러한 값을 알고 있는 상태에서 모든 주파수 패치에 대해 실행될 수 있다. 그러므로, 각각의 시간 프레임에 대해서 단지 한 개의 값만을 전송하는 것이 요구된다. 그러나, 각각의 시간 프레임에 대해 한 개의 값이라도 전송한다는 것은 너무 높은 비트 레이트를 생성할 수 있다.

트럼본에 대해서 도 12를 참조하면, PDF는 주파수에 대하여 상대적으로 일정한 값을 갖는다는 것을 알 수 있고, 동일한 값이 수소의 시간 프레임에 대해서 나타낸다. 값은 동일한 트랜지언트가 WMF 분석 윈도우의 에너지를 지배하는 한 시간에 대하여 일정하다. 새로운 트랜지언트가 우세하기(dominamt) 시작할 때, 새로운 값이 존재한다. 이러한 PDF 값들 사이의 각 변화는 서로 동일한 것으로 나타난다. 이는 이치에 맞는데, 그 이유는 PDF가 트랜지언트에 대한 시간적 위치를 제어하기 때문이며, 만일 신호가 일정한 기존 주파수를 가지면, 트랜지언트들 사이의 간격은 일정해야 한다.

따라서, PDF(또는 트랜지언트의 위치)는 단지 시간에 따라 희박하게 추정될 수 있고 이러한 시간 인스턴트들 사이의 PDF 특성(behavior)은 기존 주파수의 지식을 사용하여 보정될 수 있다. PDF 보정은 이러한 정보를 사용하여 실행될 수 있다. 이러한 개념은 실제로 고조파들의 주파수들이 동등하게 간격을 두는 것으로 추정되는 PDF 보정에 기인한다. 아래에 파형 내의 피크들의 위치들의 검출에 근거하는 방법이 제안되고, 이러한 정보를 사용하여, 위상 보정을 위한 기본 스펙트럼이 생성된다.

9.2.1 PDF 보정 데이터의 처리를 위한 피크의 사용 - 수직 보정을 위한 표적 스펙트럼의 생성.

피크들의 위치들은 성공적인 PDF 보정의 실행을 위하여 추정되어야만 한다. 한 가지 해결책은 방정식 34와 유사하게, PDF 값을 사용하여 피크들의 위치들을 계산하고 추정된 기본 주파수를 이용하여 피크들의 위치들을 추정하는 것이다. 그러나, 이러한 접근법은 상대적으로 안정적인 기본-주파수 추정을 요구할 수 있다. 실시 예들은 간단하고 구현하는데 빠른, 대안의 방법을 도시하고 있으며, 이는 제안되는 압축 접근법이 가능하다는 것을 나타낸다.

트럼본 신호의 시간-도메인 표현이 도 51에 도시되어 있다. 도 51a는 시간 도메인 표현 내의 트럼본 신호의 파형을 도시하고 있다. 도 51b는 단지 추정된 피크들만을 포함하는 대응하는 시간 도메인 신호를 도시하고, 피크들의 위치들은 전송된 메타데이터를 사용하여 획득되었다. 도 51b에서의 신호는 예를 들면 도 30과 관련하여 설명된 펄스 트레인이다. 알고리즘은 파형 내의 피크들의 위치들의 분석에 의해 시작한다. 이는 국소 최대(local maxima)를 위한 검색에 의해 실행된다. 각각의 27ms에 대하여(즉, 각각의 20 QMF 도메인에 대하여), 프레임의 중앙 지점에 가까운 피크의 위치가 전송된다. 전송된 피크 위치들 사이에서, 피크들은 시간에 따라 균등하게 간격을 두는 것으로 추정된다. 따라서, 기본 주파수를 앎으로써, 피크들의 위치들이 추정될 수 있다. 이러한 실시 예에서, 검출된 피크들의 수가 추정된다(이는 모든 피크의 성공적인 검출을 요구한다는 것에 유의하여야 함; 기본-주파수 기반 추정은 확률적으로 더 강력한 결과들을 생성할 수 있음). 결과적으로 생성된 비트 레이트는 약 0.5 kbps이다(엔트로피 코딩과 같은, 어떠한 압축 없음). 이러한 비트 레이트는, 9 비트를 이용하여 각각의 27ms에 대한 피크의 위치의 전송 및 4 비트를 사용하는 그것들 사이에서의 트랜지언트들의 개수의 전송으로 구성된다. 이러한 정확도는 어떤 양자화와 비교했을 때에 그와 동일하지 않은 지각 품질을 생성하는 것으로 발견되었다. 그러나, 상당히 낮은 비트 레이트가 충분히 뛰어난 지각 품질을 생성하는 많은 경우들에서 사용될 수도 있다.

전송된 메타데이터를 사용하여, 추정된 피크들의 위치들 내의 펄스들로 구성되는, 시간-도메인 신호가 생성된다(도 51b 참조). QMF 분석은 이러한 신호 상에 실행되고 펄스 스펙트럼(

)이 계산된다. 실제 PDF 보정은 섹션 8.3에서 제안된 것과 같이 실행되나, 방정식 20a에서의

는

으로 대체된다. 수직 위상 일관성(vertical phase coherence)의 위치들을 갖는 파형은 일반적으로 뾰족하고(peaky) 펄스 트레인(pulse train)을 연상시킨다. 따라서, 수직 보정을 위한 표적 위상 스펙트럼은, 표적 위상 스펙트럼을 펄스 트레인의 위상 스펙트럼으로 모델링하여 추정될 수 있다. 이러한 펄스 트레인의 위상 스펙트럼은 대응하는 위치들 및 대응하는 기본 주파수에서 피크들을 가지고 있다.

시간 프레임의 중앙에 가까운 위치는 예를 들면 매 20번째 시간 프레임(-27ms의 간격과 대응하는)을 위하여 전송된다. 실제 레이트로 전송되는, 추정된 기본 주파수는 전송된 위치들 사이의 피크 위치들을 보간하도록 사용된다. 대안으로서, 기존 주파수 및 피크 위치들은 디코딩 스테이지에서 추정될 수 있고, 어떠한 정보도 전송되어서는 안 된다. 그러나, 만일 인코딩 스테이지 내의 원래 신호로 추정이 실행되면 더 나은 추정들이 예상될 수 있다.

)의 획득에 의해 시작하며, 게다가 파형 내의 피크 위치들이 추정된다. 피크 위치들은 이러한 위치들에서 임펄스들로 구성되는 시간-도메인 신호를 생성하도록 사용된다. QMF 분석은 대응하는 위상 스펙트럼(

)을 생성하도록 사용된다. 이러한 추정된 위상 스펙트럼은 표적 위상 스펙트럼에서와 같이 방정식 20a에서 사용될 수 있다:

. (37)

제안된 방법은 예를 들면 27ms의 업데이트 레이트로 추정되는 피크 위치들 및 기존 주파수만을 전송하도록 인코딩 스테이지(encodinf stsge)를 사용한다. 수직 위상 유도에서의 오류들은 기존 주파수가 상대적으로 낮을 때만 지각할 수 있다. 따라서, 기본 주파수는 상대적으로 낮은 비트 레이트로 전송될 수 있다.

압축된 보정 데이터를 갖는 보정 알고리즘의 결과가 도 52에 도시되어 있다. 도 51a는 보정된 SBR 및 압축 보정 데이터를 갖는 QMF 도메인 내의 트럼본 신호의 위상 스펙트럼(

) 내의 오류를 도시하고 있다. 따라서, 도 51b는 대응하는 주파수에 대한 위상 유도(

)를 도시하고 있다. 색 구배는 적색 = π부터 청색 = -π까지를 나타낸다. ODF 값들은 데이터 압축 없는 보정 방법과 유사한 정확도를 갖는 원래 신호의 PDF 값들을 따른다(도 13 참조). 따라서, 압축 알고리즘은 유효하다. 보정 데이터의 압축이 있거나 또는 없는 지각된 품질은 유사하다.

9.3 트랜지언트 처리 데이터의 압축

트랜지언트들이 상대적으로 희박한 것으로 추정될 수 있기 때문에, 이러한 데이터는 직접적으로 전송될 수 있는 것이 추정될 수 있다. 실시 예들은 트랜지언트 당 6개 값의 전송을 도시한다: 평균 PDF를 위한 하나의 값, 및 절대 위상 각(간격([n-2,n+2]) 내부의 각각의 시간 프레임을 위한 하나의 값) 내의 오류들의 5개의 값. 대안은 트랜지언트의 위치(즉, 하나의 값)를 전송하고 수직 보정의 경우에서와 같이 표적 위상 스펙트럼(

)을 추정하는 것이다.

만일 트랜지언트들을 위하여 압축되는데 필요하면, PDF 보정을 위한 것과 같이 유사한 접근법이 사용될 수 있다(섹션 9.2 참조). 트랜지언트의 위치, 즉 단일 값은 간단하게 전송될 수 있다. 표적 위상 스펙트럼 및 표적 PDF는 섹션 9.2에서와 같은 위치를 사용하여 획득될 수 있다.

대안으로서, 트랜지언트 위치는 디코딩 스테이지에서 추정될 수 있고 어떠한 정보도 전송될 수 없다. 그러나, 만일 디코딩 스테이지 내의 원래 신호로 추정이 실행되면 더 나은 추정들이 예상될 수 있다.

이전에 설명된 실시 예들 모두는 다른 실시 예들과 개별적으로 또는 실시 예들의 조합으로 알 수 있다. 따라서, 도 53 내지 57은 이미 설명된 실시 예들의 일부를 조합하는 인코더 및 디코더를 제시한다.

도 53은 오디오 신호를 디코딩하기 위한 디코더(110'')를 도시하고 있다. 디코더(110'')는 제 1 표적 스펙트럼 발생기(54a), 제 1 위상 보정기(70a), 및 오디오 부대역 신호 계산기(350)를 포함한다. 또한 표적 위상 측정 결정기로서 언급되는, 제 1 표적 스펙트럼 발생기(65a)는 보정 데이터(195a)를 사용하여 오디오 신호(32)의 부대역 신호의 제 1 시간 프레임을 위한 표적 스펙트럼(85a")을 발생시킨다. 제 1 위상 보정기(70a)는 위상 보정 알고리즘으로 결정된 오디오 신호(32)의 제 1 시간 프레임 내의 부대역 신호의 위상(45)을 보정하며, 보정은 오디오 신호(32) 및 표적 스펙트럼(85")의 제 1 시간 프레임 내의 부대역 신호의 측정의 사이의 차이의 감소에 의해 실행된다. 오디오 부대역 신호 계산기(350)는 시간 프레임에 대해서 보정된 위상(91a)을 사용하여 제 1 시간 프레임을 위한 오디오 부대역 신호(355)를 계산한다. 대안으로서, 오디오 부대역 신호 계산기(350)는 제 2 시간 프레임 내의 부대역 신호(85a")의 측정을 사용하거나 또는 위상 보정 알고리즘과 다른 또 다른 위상 보정 알고리즘에 따라 보정된 위상 계산을 사용하여 제 1 시간 프레임과 다른 제 2 시간 프레임을 위한 오디오 부대역 신호(355)를 계산한다. 도 53은 크기(47) 및 위상(45)과 관련하여 오디오 신호(32)를 선택적으로 분석하는 분석기를 더 도시하고 있다. 또 다른 위상 보정 알고리즘이 제 2 위상 보정기(70b) 또는 제 3 위상 보정기(70c)에서 실행될 수 있다. 이러한 또 다른 위상 보정기들은 도 54와 관련하여 설명될 것이다. 오디오 부대역 신호 계산기(350)는 제 1 시간 프레임에 대해서 보정된 위상(91) 및 제 1 시간 프레임의 오디오 부대역 신호의 크기 값(47)을 사용하여 제 1 시간 프레임을 위한 오디오 부대역 신호를 계산하며, 크기 값(47)은 제 1 시간 프레임 내의, 오디오 신호(32)의 크기 또는 제 1 시간 프레임 내의 오디오 신호(32)의 처리된 크기이다.

도 54는 디코더(110'')의 또 다른 실시 예를 도시하고 있다. 따라서, 디코더(110'')는 제 2 표적 위상 발생기(65b)를 포함하고, 제 2 표적 위상 발생기(65b)는 제 2 보정 데이터(295b)를 사용하여 오디오 신호(32)의 부대역의 제 2 시간 프레임을 위한 표적 스펙트럼(85b'')을 발생시킨다. 검출기(110'')는 게다가 제 2 위상 보정 알고리즘으로 결정된 오디오 신호(32)의 시간 프레임 내의 부대역의 위상(45)을 보정하기 위한 제 2 위상 보정기(70b)를 포함하며, 보정은 오디오 신호의 부대역의 시간 프레임의 측정 및 표적 스펙트럼(85b") 사이의 차이의 감소에 의해 실행된다.

따라서, 디코더(110'')는 제 3 표적 스펙트럼 발생기(65c)를 포함하고, 제 3 표적 스펙트럼 발생기(65c)는 오디오 신호(32)의 부대역의 제 3 보정 데이터(295c)를 사용하여 오디오 신호(32)의 부대역의 제 3 시간 프레임을 위한 표적 스펙트럼을 발생시킨다. 게다가, 디코더(110'')는 부대역 신호의 위상(45) 및 제 3 보정 알고리즘으로 결정된 오디오 신호(32)의 시간 프레임을 보정하기 위한 제 3 위상 보정기(70c)를 포함하고, 보정은 오디오 신호의 부대역의 시간 프레임의 측정 및 표적 스펙트럼(85c) 사이의 차이의 감소에 의해 실행된다. 오디오 신호 부대역 계산기(350)는 제 3 위상 보정기의 위상 보정을 사용하여 제 1 및 제 2 시간 프레임들과 다른 제 3 시간 프레임을 위한 오디오 부대역 신호를 계산할 수 있다.

일 실시 예에 따르면, 제 1 위상 보정기(70a)는 오디오 신호의 이전 시간 프레임의 위상 보정된 부대역 신호(91a)를 저장하거나 또는 제 3 위상 보정기(70c)의 제 2 위상 보정기(70b)로부터 오디오 신호의 이전 시간 프레임(375)의 위상 보정된 부대역 신호를 수신하도록 구성된다. 게다가, 제 1 위상 보정기(70a)는 이전 시간 프레임(91a, 375)의 보정된 부대역 신호의 저장되거나 또는 수신된 위상 보정된 부대역 신호를 기초로 하여 오디오 부대역 신호의 현재 시간 프레임 내의 오디오 신호(32)의 위상(45)을 보정한다.

또 다른 실시 예들은 수평 위상 보정을 실행하는 제 1 위상 보정기(70a), 수직 위상 보정을 실행하는 제 2 위상 보정기(70b) 및 트랜지언트들을 위한 위상 보정을 실행하는 제 3 위상 보정기(70c)를 도시하고 있다.

또 다른 관점으로부터, 도 54는 위상 보정 알고리즘 내의 디코딩 스테이지의 블록 다이어그램을 도시하고 있다. 상기 처리에 대한 입력은 시간 주파수 도메인 내의 BWE 신호 및 메타데이터이다. 또한, 실제 적용들에서 본 발명의 위상 유도 보정은 필터 뱅크 또는 현존하는 BWEE 전략의 변환을 공동 사용하는 것이 바람직하다. 현재 예에서, 이는 SBR에서 사용되는 것과 같은 QMF 도메인이다. 제 1 디멀티플렉서(도시되지 않음)는 본 발명의 보정에 의해 향상되는 BWE 구비된 지각적 코덱의 비트스트림으로부터 위상 유도 보정 데이터를 추출한다.

제 2 디멀티플렉서(130, SEMUX)는 먼저 상이한 보정 모드를 위하여 수신된 메타데이터를 활성 데이터(365) 및 보정 데이터(295a-c)로 세분한다. 활성 데이터를 기초로 하여, 오른쪽 보정 모드(나머지는 가동되지 않을 수 있음)를 위하여 표적 스펙트럼의 계산이 활성화된다. 표적 스펙트럼을 사용하여, 위상 보정은 원하는 보정 모드를 사용하여 수신된 BWE 신호에 대해서 실행된다. 수평 보정(horizontal correction : 70a)이 반복적으로 실행되기(바꾸어 말하면, 이전 신호 프레임들에 의존하여) 때문에, 이는 또한 다른 보정 모드(70b, c)로부터 이전의 보정 매트릭스들을 수신한다는 것을 이해하여야 한다. 최종적으로, 보정된 신호, 또는 처리되지 않은 신호는 활성 데이터를 기초로 하여 출력에 설정된다.

위상 데이터를 보정한 후에, 현재 예의 SBR 합성의 경우에는, 기본이 되는 BWE 합성 추가 다운스트림(synthesis further downstream)이 계속된다. 정확하게 위상 보정이 합성 신호 흐름 내부로 삽입되어지는 변이들이 존재할 수 있다. 바람직하게는, 위상들

을 가지는 원시 스펙트럼 패치들에 대한 초기 보정으로서 위상-유도 보정이 수행된다. 모든 부가적인 BWE 처리 또는 보정 단계(SBR에서 이는 잡음 첨가, 역 필터링, 손실 사인곡선(missing sinusoids) 등일 수 있음)는 보정된 위상들

에 대하여 다른 다운스트림에서 실행된다.

도 55는 디코더(110'')의 또 다른 실시 예를 도시하고 있다. 이러한 실시 예에 따르면, 디코더(110'')는 코더 디코더(114, 패처(patcher : 120), 합성기(100) 및 도 54에 도시된 이전 실시 예들에 따른 디코더(110')가 되는, 블록 A를 포함한다. 코어 디코더(115)는 오디오 신호(55)와 관련하여 감소된 수의 부대역들을 갖는 시간 프레임 내의 오디오 신호(25)를 디코딩하도록 구성된다. 패처(120)는 감소된 수의 부대역들을 갖는 코어 디코딩된 오디오 신호(25)의 부대역들의 세트를 패칭하며, 부대역들의 세트는 규칙적인 수의 부대역들들을 갖는 오디오 신호(32)를 획득하도록 감소된 수의 부대역들에 인접한, 또 다른 부대역들에 대하여, 제 1 래치를 형성한다. 크기 프로세서(125')는 시간 프레임 내의 오디오 부대역 신호(355)의 크기 값들을 처리한다. 이전 디코더들(110 및 110')에 따르면, 크기 프로세서는 대역폭 확장 파라미터 적용기(125)가 될 수 있다.

신호 프로세서 블록들이 스위칭되는 많은 다른 실시 예들이 고려될 수 있다. 예를 들면, 크기 프로세서(125') 및 블록 A는 스와핑될(swapped) 수 있다. 따라서, 블록 A는 패치들의 크기 값들이 이미 보정된 재구성된 오디오 신호(35) 상에서 작동한다. 대안으로서, 오디오 신호 부대역 계산기(355)는 오디오 신호의 위상 보정되고 크기 보정된 부분으로부터 보정된 오디오 신호를 형성하도록 크기 프로세서(125)의 이후에 위치될 수 있다.

게다가, 디코더(110'')는 주파수 결합되고 처리된 오디오 신호(90)를 획득하도록 위상과 크기가 보정된 오디오 신호를 합성하기 위한 합성기(100)를 포함한다. 선택적으로, 크기 및 위상 보정 모두가 코어 디코딩된 오디오 신호(25) 상에 적용되지 않기 때문에, 상기 오디오 신호는 합성기(100)에 직접적으로 전송될 수 있다. 이전에 설명된 디코더들(110 또는 110') 중 어느 하나에 적용되는 어떠한 선택적 처리 블록이 또한 디코더(110')에 적용될 수 있다.

도 56은 오디오 신호(55)를 인코딩하기 위한 인코더(155'')를 도시하고 있다. 인코더(155'')는 계산기(270)에 연결되는, 위상 결정기(380), 코어 인코더(160), 파라미터 추출기(165), 및 출력 신호 형성기(170)를 포함한다. 위상 결정기(180)는 오디오 신호(55)의 위상(45)을 결정하고, 계산기(270)는 오디오 신호(55)의 결정된 위상(45)을 기초로 하여 오디오 신호(55)를 위한 위상 보정 데이터(295)를 결정한다. 코어 인코더(160)는 오디오 신호(55)와 관련하여 감소된 수의 부대역들을 갖는 오디오 신호를 획득하도록 오디오 신호를 코어 인코딩한다. 파라미터 추출기(265)는 코어 인코딩된 오디오 신호 내에 포함되지 않은 부대역들의 제 2 세트를 위한 저해상도 파라미터 표현을 획득하도록 오디오 신호(55)로부터 파라미터들(290)을 추출한다. 출력 신호 형성기(170)는 파라미터들(290), 코어 인코딩된 오디오 신호(145) 및 위상 보정 데이터(295')를 포함하는 출력 신호를 형성한다. 선택적으로, 인코더(155'')는 오디오 신호(55)의 코어 인코딩 이전에 저역 통과 필터(180) 및 오디오 신호(55)로부터 파라미터들(190)의 추출 이전에 고역 통과 필터(185)를 포함한다. 오디오 신호(55)의 대안으로서, 저역 또는 고역 통과 필터링 대신에, 갭 필링 알고리즘이 사용될 수 있으며, 인코더(260)는 감소된 수의 부대역들을 코어 인코딩하며, 부대역들의 세트 내의 적어도 하나의 부대역은 코어 인코딩되지 않는다. 게다가, 파라미터 추출기는 코더 인코더(160)로 인코딩되지 않은 적어도 하나의 부대역으로부터 파라미터들(190)을 추출한다.

실시 예들에 따르면, 계산기(270)는 제 1 변이 모드, 제 2 변이 모드, 또는 제 3 변이 모드에 따라 위상 보정을 보정하기 위한 보정 데이터 계산기들(285a-c)의 세트를 포함한다. 게다가, 계산기(270)는 보정 데이터 계산기들(285a-c)의 세트 중 하나의 보정 데이터 계산기를 활성화하기 위한 활성 데이터(365)를 결정한다. 출력 신호 형성기(170)는 활성 데이터, 파라미터들, 코어 인코딩된 오디오 신호, 및 위상 보정 데이터를 포함하는 출력 신호를 형성한다.

도 57은 도 56에 도시된 인코더(155")에서 사용될 수 있는 계산기(270)의 구현을 도시하고 있다. 보정 모드 계산기(385)는 변이 결정기(275) 및 변이 비교기(280)를 포함한다. 활성 데이터(465)는 상이한 변이들의 비교의 결과이다. 게다가, 활성 데이터(465)는 결정된 변이에 따라 보정 데이터 계산기들(185a-x) 중 하나를 활성화한다. 계산된 보정 데이터(295a, 295b, 또는 295c)는 인코더(155")의 출력 신호 형성기(170) 및 따라서 출력 신호(135)의 부분의 입력이 될 수 있다.

실시 예들은 계산된 보정 데이터(295a, 295b, 또는 295c) 및 활성 데이터(365)를 포함하는 메타 데이터스트림(295')을 형성하는, 메타 형성기(390)로 구성되는 계산기(270)를 도시하고 있다. 활성 데이터(365)는 만일 보정 데이터 자체가 현재 보정 모드의 충분한 정보를 포함하지 않으면 디코더에 전송될 수 있다. 충분한 정보는 예를 들면 보정 데이터(295a), 보정 데이터(295b), 및 보정 데이터(295c)와 다른, 보정 데이터를 표현하는데 사용되는 다수의 비트들일 수 있다. 게다가, 출력 신호 형성기(170)는 메타데이터 형성기(490)를 사용하지 않고, 활성 데이터(365)를 사용할 수 있다.

또 다른 관점으로부터, 도 57의 블록 다이어그램은 위상 보정 알고리즘 내의 인코딩 스테이지를 도시하고 있다. 그 처리에 대한 입력은 원래 오디오 신호(55) 및 주파수 도메인이다. 실제 적용들에서, 본 발명의 위상-유도 보정은 필터 뱅크 또는 현존하는 BWE 전략의 변환을 공동 사용하는 것이 바람직하다. 현재 예에서, 이는 SBR에서 사용되는 QMF 도메인이다.

보정-모드-계산 블록은 먼저 각각의 시간 프레임에 대해서 적용되는 보정 모드를 계산한다. 활성 데이터(365)를 기초로 하여, 보정-데이터(295a-c) 계산은 오른쪽 보정 모드에서 활성화된다(나머지는 가동되지 않을 수 있음), 최종적으로, 멀티플렉서(MUX)는 상이한 보정 모드들로부터 활성 데이터 및 보정 데이터를 결합한다.

또 다른 멀티플렉서(도시되지 않음)는 위상-유도 보정 데이터를 BWE의 비트스트림 및 본 발명의 보정에 의해 향상되는 지각적 인코더 내부로 병합한다.

도 58은 오디오 신호를 인코딩하기 위한 방법(5800)을 도시하고 있다. 방법(5800)은 단계 5805 "제 1 보정 데이터를 사용하여 표적 스펙트럼 발생기로 오디오 신호의 부대역 신호의 제 1 시간 프레임을 위한 표적 스펙트럼을 발생시키는 단계", 단계 5810 "위상 보정 알고리즘으로 결정된 제 1 위상 보정기로 오디오 신호의 제 2 시간 프레임 내의 부대역 신호의 위상을 보정하는 단계, - 보정은 오디오 신호의 제 1 시간 프레임 내의 부대역 신호의 측정 및 표적 스펙트럼 사이의 차이의 감소에 의해 실행됨 -", 단계 5815 "시간 프레임의 보정된 위상을 사용하여 오디오 부대역 신호 계산기로 제 1 시간 프레임을 위한 오디오 부대역 신호를 계산하는 단계 및 제 2 시간 프레임 내의 부대역 신호의 측정을 사용하거나 또는 위상 보정 알고리즘과 다른 또 다른 위상 보정 알고리즘에 따라 보정된 위상 계산을 사용하여 제 1 시간 프레임과 다른 제 2 시간 프레임을 위한 오디오 부대역 신호들을 계산하는 단계"를 포함한다.

도 59는 오디오 신호를 인코딩하기 위한 방법(5900)을 도시하고 있다. 방법(5900)은 단계 5905 "위상 결정기로 오디오 신호의 위상을 결정하는 단계", 단계 5910 "오디오 신호의 결정된 위상을 기초로 하여 계산기로 오디오 신호를 위한 위상 보정 데이터를 결정하는 단계", 단계 5915 "오디오 신호와 관련하여 감소된 수의 부대역들을 갖는 코어 인코딩된 오디오 신호를 획득하도록 코어 인코더로 오디오 신호를 코어 인코딩하는 단계", 단계 5920 "코어 인코딩된 오디오 표현 내에 포함되지 않은 부대역들의 제 2 세트를 위한 저해상도 파라미터 표현을 획득하도록 파라미터 추출기로 오디오 신호로부터 파라미터들을 추출하는 단계",및 단계 5925 "파라미터들, 코어 인코딩된 오디오 신호, 및 위상 보정 데이터를 포함하는 출력 신호 형성기로 신호를 출력하는 단계"를 포함한다.

오디오 신호(55)는 오디오 신호를 표현하는 일반적인 용어로 사용된다는 것에 주목해야 한다. 특히, 원래 오디오 신호, 예를 들면, 처리되지 않은 오디오 신호, 오디오 신호

(25)의 전송된 부분, 베이스밴드 신호

(30), 원래 오디오 신호와 비교할 때에 더욱 높은 주파수들(32)을 포함하는 처리된 오디오 신호, 크기 보정된 주파수 패치

(40), 오디오 신호의 위상(45), 또는 오디오 신호의 크기(47)를 나타내는 일반적인 용어로 사용된다는 것에 주목해야 한다. 따라서, 다른 오디오 신호들이 실시예의 맥락에서 상호 교환될 수 있다.

대안의 실시 예들은 본 발명의 주파수 처리를 위하여 사용되는 상이한 필터 뱅크 또는 변환 도메인들에 관한 것이며, 예를 들면 단시간 푸리에 변환(STFT), 복소 변형 이산 코사인 변환(CMDCT), 또는 이산 푸리에 변환(DFT)에 관한 것이다. 따라서, 만일 예를 들면 카피 업 계수들이 짝수로부터 홀수로 또는 그 반대도 마찬가지로 복사되면, 변환과 관련된 특정 위상 특성들이 상세히 고려될 수 있는데, 즉, 실시 예들에서 설명된 바와 같이 원래 오디오 신호의 제 2 부대역이 7번째 부대역 대신에 9번째 부대역에 복사되면, 패치의 켤레 복소수(conjugate complex)가 처리를 위하여 사용될 수 있다. 예를 들면 패치 내의 위상 각들의 역 순서를 극복하기 위해서, 카피-업 알고리즘의 사용 대신에 패치들의 미러링에 동일하게 적용된다.

다른 실시 예들은 인코더로부터의 부가 정보를 포기하고 디코더 사이트의 일부 또는 모든 보정 파라미터를 추정할 수 있다. 또 다른 실시 예들은 예를 들면 다른 기저대역 부분들, 패치들의 다른 개수 또는 크기 또는 다른 전위(transposition) 기술들, 예를 들면 스펙트럼 미러링 또는 단일 사이드 대역 변조(single side band modulation : SSB)를 이용하는 기초가 되는 다른 BWE 패칭 전략들 가질 수 있다. 정확하게 위상 보정이 BWE 합성 신호 흐름 내부에 합쳐지는 변이들이 또한 존재할 수 있다. 게다가, 예를 들면 일차 적외선 (IIR)에 의해 더 나은 계산 효과를 위하여 대체될 수 있는, 평활화는 슬라이딩 한 윈도우(sliding Hann window)를 사용하여 실행된다.

최신 지각적 오디오 코덱들의 사용은 흔히 오디오 신호, 특히 대역폭 화장 같은 기술들이 적용되는 낮은 비트 레이트들의 스펙트럼 성분들의 위상 일관성을 손상시킨다. 이는 오디오 신호의 위상 유도의 변경에 이르게 한다. 그러나, 특정 신호 형태들에서 위상 유도의 보존은 중요하다. 그 결과, 그러한 음향들의 지각적 품질은 손상된다. 본 발명은 만일 위상 유도의 복원이 지각적으로 유익하면, 그러한 신호들의 주파수("수직") 또는 시간("수평")에 대한 위상 유도를 재보정한다. 또한 수직 또는 수평 위상 유도의 보정이 지각적으로 바람직한지의 결정이 이루어진다. 매우 간결한 부가 정보의 전송만이 위상 유도 보정 처리를 제어하는데 필요하다. 따라서, 본 발명은 보통의 부가 정보 비용으로 지각적 오디오 코더들의 음향 품질을 향상시킨다.

바꾸어 말하면, 스펙트럼 대역 복제(SBR)는 위상 스펙트럼 내의 오류들을 야기할 수 있다. 이러한 오류들의 인간 지각은 두 가지 지각적으로 중요한 효과를 나타내는 것이 연구되었다: 주파수들의 차이들 및 고조파들의 시간적 위치들. 주파수 오류들은 기본 주파수가 충분히 높고 ERB 대역 내부의 하나의 고조파만이 존재할 때 지각 가능한 것으로 나타난다. 그러므로, 단지 기본 주파수가 낮고 고조파들의 위상들이 주파수에 대하여 정렬되면, 시간적 위치 오류들은 지각 가능한 것으로 나타난다.

주파수 오류들은 시간에 대한 위상 보정(PDT)의 계산에 의해 검출될 수 있다. 만일 PDT가 시간에 대하여 안정적이면, SBR 처리된 신호 및 원래 신호들 사이의 그것들의 차이는 보정되어야만 한다. 이는 고조파들의 시간적 위치들을 효과적으로 보정하므로 부조화성의 지각이 방지된다.

시간적-위치 오류들은 시간에 대한 위상 보정(PDT)의 계산에 의해 검출될 수 있다. 만일 PDT가 시간에 대하여 안정적이면, SBR 처리된 신호 및 원래 신호들 사이의 그것들의 차이는 보정되어야만 한다. 이는 고조파들의 시간적 위치들을 효과적으로 보정하고 따라서 교차 주파수들에서 변조 잡음들의 지각이 방지된다.

블록들이 실제적인 또는 논리적인 하드웨어 부품들을 나타내는 블록 다이어그램의 맥락에서 설명되지만, 본 발명은 또한 컴퓨터로 구현되는 방법에 의해 구현될 수 있다. 후자의 경우에 블록들은 이러한 단계들이 대응하는 논리적 및 물리적 하드웨어 블록들에 의해 실행되는 기능성들을 나타내는 대응하는 방법 단계들을 나타낸다.

장치의 맥락에서 일부 양태들(aspects)이 기재되었으나, 이러한 양태들은, 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 대응하는, 대응 방법의 설명을 나타낸다는 것은 자명하다. 이와 같이, 방법 단계의 맥락에서 설명된 양태들은 또한 대응하는 블록 또는 아이템 혹은 대응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계들은 예를 들면, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 그것을 이용하여) 실행될 수 있다. 일부 실시 예들에서는, 일부 하나 또는 그 이상의 가장 중요한 방법 단계들이 이러한 장치에 의해 실행될 수 있다.

특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 플로피 디스크, DVD, 블루-레이, CD, RON, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.

본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.

다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.

바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(혹은 데이터 저장 매체, 또는 컴퓨터 판독가능 매체와 같은, 비-전이형 저장 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형(tangible) 및/또는 비-전이형이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.

또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.

또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 수신기로 전송하도록(예를 들면, 전자적으로 또는 선택적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터, 이동 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함한다.

일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.

여기에 설명된 장치는 하드웨어 장치를 사용하거나, 또는 컴퓨터를 사용하거나, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.

여기에 설명된 방법들은 하드웨어 장치를 사용하거나, 또는 컴퓨터를 사용하거나, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 실행될 수 있다.

위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.

참고문헌

[1] Painter, T.: Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; pp. 451-513.

[2] Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Chapters 5, 6.

[3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0. Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, April 2002, Preprint 5553.

[4] Nagel, F.; Disch, S.; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009.

[5] D. Griesinger 'The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources' Tonmeister Tagung 2010.

[6] D. Dorran and R. Lawlor, "Time-scale modification of music using a synchronized subband/time domain approach," IEEE International Conference on Acoustics, Speech and Signal Processing, pp. IV 225 - IV 228, Montreal, May 2004.

[7] J. Laroche, "Frequency-domain techniques for high quality voice modification," Proceedings of the International Conference on Digital Audio Effects, pp. 328-322, 2003.

[8] Laroche, J.; Dolson, M.; , "Phase-vocoder: about this phasiness business," Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., no., pp.4 pp., 19-22, Oct 1997

[9] M. Dietz, L. Liljeryd, K. Kjorling, and O. Kunz, "Spectral band replication, a novel approach in audio coding," in AES 112th Convention, (Munich, Germany), May 2002.

[10] P. Ekstrand, "Bandwidth extension of audio signals by spectral band replication," in IEEE Benelux Workshop on Model based Processing and Coding of Audio, (Leuven, Belgium), November 2002.

[11] B. C. J. Moore and B. R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns," J. Acoust. Soc. Am., vol. 74, pp. 750-753, September 1983.

[12] T. M. Shackleton and R. P. Carlyon, "The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination," J. Acoust. Soc. Am., vol. 95, pp. 3529-3540, June 1994.

[13] M.-V. Laitinen, S. Disch, and V. Pulkki, "Sensitivity of human hearing to changes in phase spectrum," J. Audio Eng. Soc., vol. 61, pp. 860{877, November 2013.

[14] A. Klapuri, "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness," IEEE Transactions on Speech and Audio Processing, vol. 11, November 2003.

25 : 주파수 대역
30 : 기저대역
50 : 오디오 프로세서
60 : 오디오 신호 위상 유도 계산기
65, 65' : 표적 위상 측정 결정기
70 : 위상 보정기
100 : 합성기
115 : 코어 디코더
120 : 패처
125 : 대역폭 확장 파라미터 적용기
125‘ : 크기 프로세서
130 : 데이터 스트림 추출기
135 : 메타데이터 스트림
140 : 기본 주파수 추정
145 : 코어 인코딩된 오디오 신호
150: 기본 주파수 분석기
160 : 코어 디코더
165 : 대역폭 확장 파라미터 적용기
170 : 출력 신호 형성기
175, 2175' : 기본 주파수 분석기
190 : 파라미터
210 : 오디오 신호 위상 유도 계산기
230 : 피크 위치 추정
235 : 신호 형성기
240 : 표적 스펙트럼 발생기
255 : 펄스 포지셔너
260 : 피크 발생기
275 : 변이 결정기
280 : 변이 비교기
285 : 보정 데이터 계산기
295 : 위상 보정 데이터
310a : 원형 표준 편차 계산기
320 : 비교기
330 : 결합기
340a, 340b : 평활기
365 : 활성 데이터

Claims

오디오 신호(32)를 디코딩하기 위한 디코더(110'')에 있어서,
상기 디코더(110'')는,
제 1 보정 데이터(295a)를 사용하여 상기 오디오 신호(32)의 부대역 신호의 제 1 시간 프레임을 위한 제 1 표적 스펙트럼(85a'')을 발생시키기 위한 제 1 표적 스펙트럼 발생기(65a);
제1 위상 보정 알고리즘으로, 상기 오디오 신호(32)의 상기 제 1 시간 프레임 내의 상기 오디오 신호(32)의 부대역 신호의 위상(45)을 보정하기 위한 제 1 위상 보정기(70a), - 상기 보정은, 상기 제 1 시간 프레임에 대해서, 상기 제 1 표적 스펙트럼(85a'') 및 상기 오디오 신호(32)의 상기 제 1 시간 프레임 내의 상기 오디오 신호(32)의 부대역 신호의 측정 사이의 차이를 감소시키는 것에 의해 실행됨 -;
상기 제 1 시간 프레임에 대해서 상기 제 1 위상 보정기에 의해 결정된 보정된 위상(91a)을 사용하여 상기 제 1 시간 프레임을 위한 상기 오디오 신호(32)의 부대역 신호(355)를 계산하기 위한 오디오 부대역 신호 계산기(350);
제 2 표적 스펙트럼 발생기(65b), - 상기 제 2 표적 스펙트럼 발생기(65b)는 제 2 보정 데이터(295b)를 사용하여 상기 오디오 신호(32)의 상기 부대역의 제 2 시간 프레임을 위한 제 2 표적 스펙트럼(85b'')을 발생시키도록 구성됨 -;
제 2 위상 보정 알고리즘으로 상기 오디오 신호(32)의 상기 제 2 시간 프레임 내의 상기 오디오 신호(32)의 부대역 신호의 위상(45)을 보정하기 위한 제 2 위상 보정기(70b), - 상기 보정은 상기 제 2 시간 프레임에 대해서, 상기 표적 스펙트럼(85b'') 및 상기 오디오 신호(32)의 상기 제 2 시간 프레임 내의 상기 오디오 신호(32)의 부대역 신호의 측정 사이의 차이를 감소시키는 것에 의해 실행됨 -;을 포함하고,
상기 제 2 위상 보정 알고리즘은 상기 제 1 위상 보정 알고리즘과 다르며,
상기 오디오 부대역 신호 계산기(350)는 제 2 시간 프레임을 위한 상기 제 2 위상 보정기에 의해 결정되는 보정된 위상(91a)을 사용하여 상기 제 2 시간 프레임을 위한 상기 오디오 신호(32)의 부대역 신호(355)를 계산하도록 구성되는, 디코더(110'').
제 1항에 있어서,
상기 디코더는,
제 3 표적 스펙트럼 발생기(65c), - 상기 제 3 표적 스펙트럼 발생기(65c)는 제 3 보정 데이터(295c)를 사용하여 상기 오디오 신호(32)의 부대역 신호의 제 3 시간 프레임을 위한 제 3 표적 스펙트럼을 발생시키도록 구성됨 - ;
제 3 위상 보정 알고리즘으로, 상기 오디오 신호(32)의 상기 시간 프레임 내의 상기 오디오 신호(32)의 부대역 신호의 위상(45)을 보정하기 위한 제 3 위상 보정기(70c), - 상기 보정은 상기 제 3 시간 프레임에 대해서 상기 제 3 표적 스펙트럼(85c) 및 상기 오디오 신호(32)의 부대역 신호의 상기 제 3 시간 프레임의 측정 사이의 차이를 감소시키는 것에 의해 실행됨 -;을 포함하며,
상기 오디오 부대역 신호 계산기(350)는 상기 제 3 위상 보정기의 상기 제 3 위상 보정 알고리즘을 이용하여, 상기 제 1과 제 2 시간 프레임과는 다른 상기 제 3 시간 프레임을 위한 상기 오디오 신호(32)의 부대역 신호를 추가적으로 계산하도록 구성되는, 디코더(110'').
제 1항에 있어서,
상기 제 1 위상 보정기(70a)는 상기 오디오 신호의 이전 시간 프레임의 위상 보정된 부대역 신호(91a)를 저장하거나 또는 제 2 위상 보정기(70b) 또는 제 3 위상 보정기(70c)로부터 상기 오디오 신호의 이전 시간 프레임(375)의 위상 보정된 부대역 신호를 수신하도록 구성되고,
상기 제 1 위상 보정기(70a)는 상기 이전 시간 프레임(91a, 375)의 저장되거나 또는 수신된 위상 보정된 부대역 신호를 기초로 하여 상기 오디오 신호(32)의 부대역 신호의 현재 시간 프레임 내의 상기 오디오 신호(32)의 상기 위상(45)을 보정하도록 구성되는, 디코더(110'').
제 1항에 있어서, 상기 제 1 위상 보정기(70a)는 수평 위상 보정을 실행하는, 디코더(110'').
제1 항에 있어서, 제 2 위상 보정기(70b)는 수직 위상 보정을 실행하는, 디코더(110'').
제 1항에 있어서, 제 3 위상 보정기(70c)는 트랜지언트들의 위상 보정을 실행하는, 디코더(110'').
제 1항에 있어서, 상기 오디오 부대역 신호 계산기(350)는 제 1 시간 프레임에 대해서 보정된 위상(91)을 사용하고, 상기 제 1 시간 프레임의 상기 오디오 신호(32)의 부대역 신호의 크기 값(47)을 사용하여 상기 제 1 시간 프레임을 위한 상기 오디오 신호(32)의 부대역 신호를 계산하도록 구성되고, 상기 크기 값(47)은 상기 제 1 시간 프레임 내의 상기 오디오 신호(32)의 처리된 크기 또는 상기 제 1 시간 프레임 내의 상기 오디오 신호(32)의 크기인, 디코더(110'').
제 1항에 있어서,
오디오 신호(32)와 관련하여 감소된 수의 부대역들을 갖는 시간 프레임 내의 코어 디코딩된 오디오 신호(25)를 얻기 위해 디코딩하도록 구성되는 코어 디코더(115);
상기 감소된 수의 부대역들을 갖는 상기 코어 디코딩된 오디오 신호(25)의 부대역들의 세트를 패칭하도록 구성되는 패처(120), - 상기 부대역들의 세트는 제 1 패치를 형성하며, 상기 패칭은, 규칙적인 수의 부대역들을 갖는 오디오 신호(32)를 획득하도록, 코어 디코딩된 오디오 신호(25)의 부대역들에 인접한, 상기 시간 프레임 내의 또다른 부대역들을 발생시키며, 오디오 신호(32)는 상기 제 1 시간 프레임을 위한 상기 오디오 신호(32)의 부대역 신호(355)를 포함함 -;

처리된 부대역 신호(35)를 얻기 위해 상기 시간 프레임 내의 상기 오디오 신호(32)의 부대역 신호(335)의 크기 값들을 처리하기 위한 크기 프로세서(125');
합성되고 디코딩된 오디오 신호를 획득하도록 처리된 부대역 신호(35)를 포함하는 오디오 부대역 신호들을 합성하기 위한 오디오 신호 합성기(100);를 포함하는, 디코더(110'').
제 1항에 있어서,
상기 제 1 표적 스펙트럼 발생기(65a), 제 2 표적 스펙트럼 발생기(65b), 또는 제 3 표적 스펙트럼 발생기(65c)를 포함하는 복수의 표적 스펙트럼 발생기(65)는 활성 데이터(365)를 수신하고 평가하도록 구성되고 상기 복수의 표적 스펙트럼 발생기(65) 중 하나의 표적 스펙트럼 발생기는 상기 활성 데이터(365)의 평가를 기초로 하여 상기 표적 스펙트럼을 더 계산하도록 활성화되는, 디코더(110'').
오디오 신호(55)를 인코딩하기 위한 인코더(155'')에 있어서
상기 인코더(155'')는,
상기 오디오 신호(55)의 위상(45)을 결정하기 위한 위상 결정기(380);
상기 오디오 신호(55)의 결정된 위상(45)을 기초로 하여 오디오 신호(55)를 위한 위상 보정 데이터(295')를 결정하기 위한 계산기(270);

여기서 상기 계산기(270)는:
제 1 및 제 2 변이 모드로 오디오 신호(55)의 위상의 변이를 결정하는 변이 결정기;
제 1 변이 모드를 이용하여 결정된 제 1 변이 및 제 2 변이 모드를 이용하여 결정된 제 2 변이를 비교하는 변이 비교기; 및
상기 비교의 결과에 기초하여 상기 제 1 변이 모드 및 상기 제 2 변이 모드에 따라 상기 위상 보정 데이터(295')를 계산하는 보정 데이터 계산기;를 포함하며,

코어 인코딩의 결과로, 코어 인코딩된 오디오 신호(145)를 획득하기 위해 상기 오디오 신호(55)를 코어 인코딩하도록 구성되는 코어 인코더(160) - 코어 인코딩된 신호(145)는 상기 오디오 신호(55)와 관련하여 감소된 수의 부대역들을 가짐 -;
상기 코어 인코딩된 오디오 신호(145) 내에 포함되지 않은 부대역들의 제 2 세트를 위한 저해상도 파라미터 표현을 획득하도록 상기 오디오 신호(55)로부터 파라미터들(190)을 추출하도록 구성되는 파라미터 추출기(165);
상기 파라미터들(190), 상기 코어 인코딩된 오디오 신호(145) 및 상기 위상 보정 데이터(295')를 포함하는 출력 신호(135)를 형성하기 위한 출력 신호 형성기(170);를 포함하는 인코더(155'').
제 10항에 있어서, 상기 출력 신호 형성기(170)는 프레임들의 시퀀스 내로 출력 신호(135)를 형성하도록 구성되고, 각각의 상기 프레임은 상기 파라미터들(190), 상기 코어 인코딩된 오디오 신호(145)를 포함하며, 각각의 N번째 프레임만이 상기 위상 보정 데이터(295')를 포함하며, 여기서 N은 2보다 크거나 또는 동일한, 인코더(155'').
제 10항에 있어서,
상기 계산기(270)는 제 3 변이 모드에 따라 위상 보정을 추가적으로 계산하도록 구성되며,
상기 계산기(270)는 인코더(155'')로부터 떨어진 디코더에 위치한 상이한 보정 데이터 계산기들(285a-c)의 세트 중 하나의 특정 보정 데이터 계산기를 활성화하기 위해 활성 데이터(365)를 결정하도록 구성되며,
상기 출력 신호 형성기(170)는 상기 활성 데이터(365), 상기 파라미터들(190), 상기 코어 인코딩된 오디오 신호(145), 및 상기 위상 보정 데이터(295')를 포함하는 출력 신호를 형성하도록 구성되는, 인코더(155'').
오디오 신호(32)를 디코딩하기 위한 방법(5800)에 있어서,
상기 방법(5800)은,
제 1보정 데이터(295a)를 사용하여 상기 오디오 신호(32)의 부대역 신호의 제 1 시간 프레임을 위한 제 1 표적 스펙트럼(85a'')을 발생시키는 단계;
상기 오디오 신호(32)의 상기 제 1 시간 프레임 내의 상기 오디오 신호의 부대역 신호의 위상을, 제 1 위상 보정 알고리즘에 따라, 보정하는 단계 - 상기 보정은, 제 1 시간 프레임에 대해, 상기 제 1 표적 스펙트럼(85a'') 및 상기 오디오 신호의 상기 제 1 시간 프레임 내의 상기 오디오 신호(32)의 부대역 신호의 측정 사이의 차이를 감소시키는 것에 의해 실행됨 -;
상기 제 1 시간 프레임에 대한 상기 제 1 위상 보정기에 의해 결정된 보정된 위상(91a)을 사용하여 상기 제 1 시간 프레임에 대한 오디오 신호(32)의 부대역 신호를 계산하는 단계;
제 2 보정 데이터(295b)를 사용하여 상기 오디오 신호(32)의 부대역 신호의 제 2 시간 프레임에 대한 제 2 표적 스펙트럼(85b'')를 발생시키는 단계;
상기 오디오 신호(32)의 제 2 시간 프레임 내의 상기 오디오 신호(32)의 부대역 신호의 위상(45)을, 제 2 위상 보정 알고리즘에 따라, 보정하는 단계 - 상기 보정은, 상기 제 2 시간 프레임에 대해, 상기 제 2 표적 스펙트럼(85b'') 및 상기 오디오 신호(32)의 제 2 시간 프레임 내의 오디오 신호(32)의 부대역 신호의 측정 사이의 차이를 감소시키는 것에 의해 실행되고, 상기 제 2 위상 보정 알고리즘은 상기 제 1 위상 보정 알고리즘과 다름 -; 및
상기 제 2 시간 프레임에 대해 상기 제 2 위상 보정기에 의해 결정된 보정된 위상(91a)을 사용하여 상기 제 2 시간 프레임에 대한 상기 오디오 신호(32)의 부대역 신호(355)를 계산하는 단계;를 포함하는, 오디오 신호를 디코딩하기 위한 방법.
오디오 신호(55)를 인코딩하기 위한 방법(5900)에 있어서,
상기 방법(5900)은,
상기 오디오 신호(55)의 위상(45)을 결정하는 단계;
상기 오디오 신호(55)의 결정된 위상(45)에 근거하여 오디오 신호(55)를 위한 위상 보정 데이터(295')를 결정하는 단계;

여기서 상기 위상 보정 데이터(295')를 결정하는 단계는:
제 1 및 제 2 변이 모드로 오디오 신호(55)의 위상의 변이를 결정하는 단계;
제 1 변이 모드를 이용하여 결정된 제 1 변이 및 제 2 변이 모드를 이용하여 결정된 제 2 변이를 비교하는 단계; 및
상기 비교의 결과에 기초하여 상기 제 1 변이 모드 및 상기 제 2 변이 모드에 따라 상기 위상 보정 데이터(295')를 계산하는 단계;를 포함하며,

코어 인코딩의 결과로, 코어 인코딩된 오디오 신호(145)를 획득하기 위해 상기 오디오 신호(55)를 코어 인코딩하는 단계 - 코어 인코딩된 오디오 신호(145)는 상기 오디오 신호(55)와 관련하여 감소된 수의 부대역들을 가짐 -;
상기 코어 인코딩된 오디오 신호(145) 내에 포함되지 않은 부대역들의 제 2 세트를 위한 저해상도 파라미터 표현을 획득하도록 상기 오디오 신호(55)로부터 파라미터들(190)을 추출하는 단계;
상기 파라미터들(190), 상기 코어 인코딩된 오디오 신호(145) 및 상기 위상 보정 데이터(295')를 포함하는 출력 신호를 형성하는 단계;를 포함하는 오디오 신호를 인코딩하기 위한 방법(5900).
프로그램 코드가 컴퓨터 상에서 구동할 때, 제 13항 또는 14항에 따른 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 저장한 저장 매체.
삭제