KR101395250B1

KR101395250B1 - 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법

Info

Publication number: KR101395250B1
Application number: KR1020117000542A
Authority: KR
Inventors: 맥스 네우엔돌프; 번하드 그릴; 울리흐 크라에머; 마르쿠스 물트루스; 하랄드 포프; 리콜라우스 레텔바흐; 프레드리크 나겔; 마르쿠스 로하설; 마크 가이어; 마뉴엘 잰더; 비르질리오 바찌갈루포
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2008-07-11
Filing date: 2009-06-23
Publication date: 2014-05-15
Also published as: KR101395257B1; TWI415114B; AR072552A1; BRPI0910523A2; KR20110038029A; US20110202358A1; RU2011101617A; KR101278546B1; KR20130095841A; IL210196A0; ES2398627T3; KR20130033468A; EP2301028B1; IL210196A; MY153594A; HK1156141A1; EP2301027A1; CN102089817B; PL2301028T3; AU2009267532A8

Abstract

게시된 발명은, 초기 시간 t0로부터 최종 시간 tn까지 연장되는 SBR 프레임에서 미리 설정된 수의 일련의 시간 부분(110) 내의 다수의 샘플 값을 사용하여 오디오 신호(105)를 부호화하도록 적응되는 스펙트럼 밴드 복제(SBR) 인코더를 포함하며, 상기 미리 설정된 일련의 시간 부분(110)들은 상기 오디오 신호(105)에 의해 주어진 소정의 타임 시퀀스에 구성되며, 상기 SBR 인코더에 의해 발생되는 스펙트럼 포락선(104)의 수를 산출하기 위한 장치(100)이다.
상기 장치(100)는 한 쌍의 인접하는 시간 부분들을 평가하는 결정 값(125)를 결정하기 위한 결정 값 계산기(120)를 포함하며, 상기 결정 값(124)은 한 쌍의 인접하는 시간 부분들의 스펙트럼 에너지 분포에서의 편차를 측정한다. 또한, 상기 장치(100)는 상기 결정 값(125)에 의해 소정의 임계에 관한 위반을 탐지하기 위한 탐지기(130)를 더 포함한다. 또한, 상기 장치(100)는 상기 임계에 관한 위반(135)이 탐지될 때, 인접하는 시간 부분들 사이에서 제1 포락선 경계를 결정하기 위한 프로세서(140)를 더 포함한다. 또한, 상기 장치(100)는 상기 한 쌍에 대한 임계의 위반에 의존하거나, 상기 한 쌍 또는 상기 SBR 프레임의 다른 쌍에 대한 시간적 위치에 의존하는 제1 포락선 경계(145)를 가지는 소정의 포락선을 위하여 최종 시간 tn 위치나 초기 시간 t0 위치 또는 인접하는 시간 부분들에 관한 다른 쌍 사이에서 제2 포락선 경계(155)를 결정하기 위한 프로세서(150)를 더 포함한다. 또한, 상기 장치(100)는 상기 제1 포락선 경계(145)와 상기 제2 포락선 경계(155)를 갖는 스펙트럼 포락선(104)의 수(102)를 설정하기 위한 수 프로세서(160)를 더 포함한다.

Description

스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법{AN APPARATUS AND A METHOD FOR CALCULATING A NUMBER OF SPECTRAL ENVELOPES}

본 발명은 오디오 신호를 인코딩(부호화)하기 위한 방법과 스펙트럼 포락선의 수효를 산출하기 위한 장치 및 오디오 인코더에 관한 것이다.

자연적인 오디오(natural audio)의 부호화와 스피치(speech)의 부호화는 오디오 신호용 코덱에 관한 2가지 주요한 과제이다. 자연적인 오디오의 코딩은, 소정의 매개 비트 레이트에서 임의적 신호나 음악을 위해 폭넓게 사용되고 있으며, 일반적으로 넓은 오디오 대역폭을 제의한다. 바꾸어 설명하면, 기본적으로 스피치 코더들은 스피치 재생에 대한 제한을 받을 뿐만 아니라, 매우 낮은 비트 레이트에서 사용될 수 있다. 넓은 대역 스피치, 즉 와이드 밴드 스피치는 협소 대역 스피치를 넘어서는 중대하고도 주관적인 품질 향상을 제의한다.

대역폭 향상은 발표자의 인식뿐 아니라 그 스피치의 자연스러움과 명료성을 향상시킨다. 따라서, 넓은 대역의 스피치 코딩은 차세대 전화 시스템에서 중요한 이슈이다. 게다가, 멀티미디어 영역의 엄청난 성장에 기인하여, 전화시스템을 넘어서는 높은 품질에 음악 및 다른 비 스피치 신호의 전송이 하나의 바람직한 특징이다.

비트 레이트를 근본적으로 축소하기 위해서는, 스플릿-밴드 인지 오디오 코덱(split band perceptional audio codecs)을 사용하는 소스 코딩이 수행될 수 있다. 자연 오디오 코덱은 신호 내에 있는 통계적 중복성(statistical redundancy)과 인지적 무관성(perceptional irrelevancy)을 이용한다. 게다가, 샘플 레이트 및 그에 따른 오디오 대역폭을 감소시키는 것이 일반적이다. 또한, 일반적으로는 많은 경우에 따라 가청 양자화 왜곡을 허용하는 복합화 레벨들을 감소시키고, 강도 암호화를 통한 스테레오 영역의 저하로 작용한다. 그러한 방법을 많이 사용하는 것은 곤란한 인지 저하를 초래한다. 코딩 성능을 개량하기 위하여, 스펙트럼 대역 복제가 높은 주파수 재구성을 토대로 하는 HFR(high frequency reconstruction) 기반 코덱에서 고 주파수 신호를 발생시키는 효과적인 방법으로 사용된다.

전술한 스펙트럼 대역 복제(SBR)는 MP3 및 AAC와 같이 전형적으로 인식된 오디오 코더에 대한 탑재물로써 인기를 얻었던 기술이다. SBR은 통상적인 코덱 기술을 사용하여 스펙트럼의 낮은 대역(베이스 밴드 또는 코어 밴드)이 부호화되는 대역폭 확장 방법을 포함하며, 상부 밴드(또는 높은 위치의 밴드)는 약간의 파라메타를 사용하여 엉성하게 파라메타로 처리된다. SBR은 추출되는 높은 대역의 특징을 사용하여 낮은 대역으로부터 보다 넓은 대역의 신호를 예측함에 의해 낮은 대역과 높은 대역 사이에서 교정을 사용한다. 그러한 방식이 종종 충분한 이유는 인간의 귀가 낮은 대역에서와 비교하여 높은 대역에서 왜곡에 덜 민감하기 때문이다.

그러므로, 새로운 오디오 코더는 MP3나 AAC를 사용하여 보다 낮은 대역에 관한 스펙트럼을 부호화시키는 반면에, 보다 높은 대역은 SBR를 사용하여 부호화시킨다. SBR 알고리즘의 핵심은 신호의 보다 높은 주파수 부분을 설명하기 위해 사용된 정보에 있다. 이 알고리즘의 최우선 목표는 어떠한 인공적 산물도 도입하지 않고 보다 높은 대역의 스펙트럼을 재구성하여 스펙트럼 및 순간적인 해상도를 좋게 제공하는데 있다. 예를 들면, 64-밴드 복합 폴리페이즈 필터뱅크(polyphase filterbank)가 분석 부분 및 부호화 부분에 사용되고, 원시 입력 신호의 높은 대역에 관한 에너지 샘플을 얻는데에는 필터뱅크가 사용된다. 이때, 그 에너지 샘플들은 디코더에 사용된 포락선 적응 기술을 위한 레퍼런스 값으로 사용될 수 있다.

스펙트럼 포락선은 일반적으로 신호의 엉성한 스펙트럼 분포를 참조하며, 선형 예측 기반 코더에서 필터 계수 또는 서브 밴드 코더에서 서브 밴드 샘플에 관한 소정 세트의 시간-주파수 평균을 포함하며, 이어서 포락선 데이타가 양자화 및 코드화된 스펙트럼 포락선으로 참조된다. 특히, 저주파수 대역에서 낮은 비트율로 부호화될 경우 포락선 데이타는 비트 스트림의 보다 큰 부분을 구성한다. 따라서, 특히 낮은 비트율을 사용시에는 스펙트럼 포락선을 콤펙트하게 나타내는 것이 매우 중요하다.

스펙트럼 대역의 복제는 여러 가지의 툴을 사용하는데, 예를 들면 부호화하는 동안에 하모니 시퀀스 및 잘려진 시퀀스들에 관한 복제를 기반으로 하는 툴이다. 게다가, 이는 발생된 높은 대역의 스펙트럼 포락선을 적응하며, 역 필터링을 사용하고, 또한 원시 신호의 스펙트럼 특성을 다시 제조하기 위해 노이즈 및 하모니 요소를 부가한다. 그러므로, SBR 툴의 입력은 코어 코더(예를 들면, MP3 또는 AAC)로부터 시간 도메인 신호나 여러 종류의 제어 데이타 및 양자화 포락선 데이타를 포함한다. SBR 툴의 출력은, 예컨대 MPEG 서라운드 툴이 사용된 소정의 신호에 관하여 QMF 도메인(QMF=Quadrature Mirror Filter) 표시 또는 시간 도메인 신호 중 하나이다. 탑재되는 SBR을 위한 비트 스트림 요소의 기술 혹은 제공방식은 ISO/IEC 14496-3:2005, 서브 클라우즈 4.5.2.8 표준에서 구할 수 있으며, 다른 데이타 SBR 확장 데이타 사이의 SBR 헤더를 포함하며, SBR 프레임 내에서 SBR 포락선의 수를 나타낸다.

인코더 상에서 SBR의 실행을 위해서는 소정의 분석이 입력 신호에 수행된다. 그 분석으로부터 얻어진 정보는 현재 SBR 프레임에 관한 적절한 시간/주파수 해상도로 선택되도록 사용된다. 이 알고리즘은 현재 SBR 프레임의 SBR 포락선에 관한 시작 및 정지 시간 경계영역과, SBR 포락선의 수효 뿐만 아니라 그 주파수 해상도를 산출한다. ISO/IEC 144963, 서브 클라우즈 4.6.18.3 표준에 여러 가지 사이한 주파수 해상도가 산출되어 있다. 또한, 이 알고리즘은 주어진 SBR 프레임에 대한 노이즈 플로어 수효와 그 프레임의 시작과 정지 시간 영역을 산출한다. 노이즈 플로어의 시작 및 정지 시간 경계영역은 스펙트럼 포락선의 시작 및 정지 시간 경계영역에 관한 서브 세트가 될 수 있다.

상기 알고리즘은 현재 SBR 프레임을 4개의 클래스로 분할한다.

FIXFIX - 명목 SBR 프레임 경계에 상응하는 선행 시간(leading time) 및 후행시간(trailing time) 경계. 프레임 내에 존재하는 모든 SBR 시간 경계들은 타임 내에 일정하게 분포되어 있다. 포락선의 수효는 두 정수 능력(1,2,4,8,...)이다.

FIXVAR - 선행 명목 프레임 경계에 상응하는 선행 시간 경계. 후행 시간 경계는 가변적이며, 비트 스트림 요소에 의해 정의될 수 있다. 선행 시간 경계와 후행 시간 경계 사이의 모든 SBR 포락선 시간 경계들은 후행 시간 경계로부터 시작하며, 이전 경계에 대한 시간 슬롯 내의 상대적인 거리로 한정될 수 있다.

VARFIX - 선행 시간 경계가 가변정이며, 비트 스트림 요소에 의해 정의된다. 후행 시간 경계는 후행 명목 프레임 경계와 같다. 선행 시간 경계와 후행 시간 경계 사이에서 모든 SBR 포락선 시간 경계들은 후행 시간 경계로부터 시작하며, 이전 경계에 대한 시간 슬롯 내의 상대적인 거리로써 비트 스트림 내에서 한정될 수 있다.

VARVAR - 선행 및 후행 시간 경계 양측이 가변적이며 비트 스트림 내에 정의될 수 있다. 또한, 선행 시간 경계 및 후행 시간 경계 사이에서 모든 SBR 포락선 시간 경계들이 한정된다. 선행 시간 경계로부터 시작하는 상대적인 시간 경계들은 이전 시간 경계에 대한 상대적인 거리로써 한정될 수 있다. 후행시간 시간 경계로부터 시작하는 상대적인 시간 경계들은 이전 시간 경계에 대한 상대적인 거리로 한정된다.

SBR 프레임 클래스 전송에는 별도의 제한이 없는데, 예를 들면 클래스에 관한 어떠한 시퀀스도 표준 내에서 허용된다. 하지만, 표준에 따르면 SBR 프레임 당 최대 SBR 포락선 수는 FIXFIX 클래스에 대해서는 4개 그리고 VARVAR 클래스에 대해서는 5개로 제한된다. 구문상으로는 FIXVAR 클래스 및 VARFIX클래스가 4개의 SBR 포락선으로 제한된다.

SBR 프레임의 스펙트럼 포락선은 시간/주파수 그리드에 의해 주어진 주파수 해상도와 함께 시간 세그먼트에 대해서 추정된다. SBR 포락선은 주어진 시간/주파수 영역에 대하여 스퀘어드 콤플렉스(squared complex) 서브 밴드 샘플을 평균함에 의해 추정된다.

일반적으로, 과도신호(transients)들은 SBR 내에서 가변적인 길이의 특정한 포락선을 사용함에 의해서 특정한 처리를 받는다. 과도신호는 기존 신호 내의 부분들에 의해 한정될 수 있으며, 강한 에너지 증가가 짧은 시간 주기 내에서 나타나고, 이는 특정한 주파수 영역 상에서 제한되거나 혹은 제한되지 않을 수 있다. 하나의 예로써, 과도신호는 캐스터넷(castanet) 및 음향도구의 히트(hits) 값일 뿐 아니라, 예컨대 P, T, K,..., 등의 문자와 같은 인간의 음성에 관한 특정 사운드이다. 지금까지는 그러한 종류의 과도신호의 탐지가 항상 동일한 방법 혹은 동일한 알고리즘에 의하여 처리되었는데, 그것은 신호에 대해서 독립적이며, 또한 그것은 스피치로 클래스 되던지 또는 음악으로 클래스 되었다. 더욱이, 음성 및 비음성 스피치 사이에서 가능한 차이는 종래 또는 고전적인 과도신호 탐지 매카니즘에 영향을 주지 못한다.

그러므로, 과도신호가 탐지되는 경우, SBR 데이타는 순차적으로 적응되며, 디코더는 탐지된 과도신호를 적절하게 복제할 수 있는 것이다. WO01/26095에는, 스펙트럼 포락선 코딩에 관한 장치 및 그 방법이 공개되어 있으며, 이는 오디호 신호에 있어서 탐지된 과도신호를 설명하는 것이다.

그러한 종래 방법에 있어서, 스펙트럼 포락선에 관하여 일정하지 않은 시간 및 주파수 샘플링은 고정 사이즈 필터 뱅크로부터 주파수 밴드 및 시간 세그먼트로 그룹 서프밴드 샘플을 적응함에 의해 얻어지는데, 각각 하나의 포락선 샘플을 생성한다. 이를 이용한 시스템은 롱-타임 세그먼트 및 고주파수 해상도를 수행하지 않으나, 특히 과도신호의 경계에서, 보다 짧은 타임 세그먼트를 사용하며, 보다 큰 주파수 스텝들이 한계 내의 데이타 크기를 유지하게 위해 사용될 수 있다. 이 시스템은, 과도신호가 탐지되는 경우, FIXFIX 프레임으로부터 VARFIX 프레임에 의해 이어지는 FIXVAR 프레임으로 바뀌며, 포락선 경계는 과도신호가 탐지되지 바로 직전에 고정된다. 이 절차는 과도신호가 탐지되는 경우에는 언제든지 반복된다.

에너지 변동이 단지 느리게 변화하는 경우, 상기 과도신호 탐지기는 그 변화를 탐지할 수 없을 것이다. 하지만, 그들 변화는 처리하기에 적절하지는 않지만 인식할만한 부산물을 생성하기에는 충분히 강하다. 간단한 해상도는 과도신호 탐지기의 임계치 보다 낮을 수 있다. 하지만, 서로 상이한 프레임(FIXFIX 로부터 FIXVAR+VARFIX) 사이의 주파수 변환에 기인한 것일 수 있다. 결과적으로 형편없는 코딩 효율을 의미하는 상당한 양의 추가적인 데이타가 전송되어야 한다. 특히 저속 증가가가 장시간에 걸쳐 지속되는 경우(예를 들면, 다수의 프레임에 걸쳐서) 이는 받아들여질 수 없는 바, 신호가 보다 높은 데이타 레이트를 보여주는 복잡성을 포함하기 않기 때문이며, 그로 인하여 문제를 해결하기 위한 하나의 옵션이 될 수는 없다.

그러므로, 본 발명의 목적은 지각할 수 있는 인위적 산물 없이 특히 과도신호 탐지기에 의해서 탐지되기에는 매우 낮아서 느리고 다양하게 변화하는 에너지를 포함하는 신호에 대한 코딩 효율성을 허용하는 장치 및 그 방법을 제공하는데 있다.

전술한 본 발명의 목적은 청구항 1 및 청구항 11에 따른 장치와, 청구항 14에 따른 방법에 의해 달성된다.

본 발명은 전송되는 오디오 신오의 품질이 주어진 신호에 따라서 SBR 프레임 내의 스펙트럼 포락선 수효를 적응함에 의하여 증가될 수 있는 유연한 방법을 찾는 것을 토대로 하고 있다. 이는 유연한 방법에서 SBR 프레임 내에서 인접하는 시간 부분의 오디오 신호를 비교함에 의해 얻어진다. 이 비교는 시간 부분들 내에서 오디오 신호에 대한 에너지 분포를 결정함에 의해 수행되며, 결정 값은 두 인접 시간 부들의 에너지 분포에 관한 편차를 측정한다. 상기 결정 값이 임계치를 위반하는지 여부에 의존하여, 포락선 경계는 인접 시간 부분들 사이에 배치된다. 포락선의 다른 경계는 SBR 프레임의 단부 또는 시작 부분 혹은 경우에 따라 SBR 프레임 내의 두 추가 인접 시간 부분들 사이에 생성될 수 있다.

결과적으로, 과도신호의 처리를 위해 FIXFIX-프레임으로부터 FIXVAR 프레임으로 또는 VARFIX 프레임으로의 변화가 수행되는 종래의 장치에 있어서는 SBR 프레임이 적응되거나 변화되지 않는다.

대신에, 실시예는 오디오 신호의 다양한 변동을 설명하기 위하여 FIXFIX 프레임 내에서 다양한 수효의 포락선을 사용하므로 상당히 천천히 변화하는 신호가 포락선의 수효 변화를 발생할 수 있고, 그로 인하여 훨씬 더 좋은 오디오 품질이 디코더에서 SBR 툴에 의해 제조될 수 있다. 예를 들면, 결정되는 포락선들은 SBR 프레임 내의 동일 시간 길이의 부분들을 커버할 수 있다. SBR 프레임은 미리결정된 수효의 시간 부분들로 분할될 수 있다(예를 들면, 4나 8 혹은 2의 거듭제곱으로 분할될 수 있다).

각각의 시간 부분에 관한 스펙트럼 에너지 분포는 단지 상부 주파수 밴드만을 커버하며, 이는 SBR에 의해 복제된다. 바꾸어 설명하면, 스펙트럼 에너지 분포는 전체 주파수 밴드(상부 및 하부 주파수 밴드)에 관련해서 나타나며, 상부 주파수 밴드는 하부 주파수 밴드 이상으로 가중되거나 혹은 가중되지 않을 수도 있다. 이 절차에 의하여, 임계 값에 관한 하나의 위반이 포락선 수효를 증가시키거나 SBR 프레임 내에서 포락선의 최대 수효를 사용하는데 충분할 수 있다.

또한, 부가적인 실실예들은 신호 클래스화 툴을 포함하는데, 이는 원시 입력 신호를 분석하고 제어 정보를 생성하며, 다양한 코딩 모드의 선택을 일으킨다. 예를 들면, 상이한 코딩 모드들은 스피치 코더와 일반적인 오디오 코더를 포함할 수 있다. 입력 신호의 분석은 주어진 입력 신호 프레임에 대한 최적의 코어 코딩 모드를 선택하는 목표에 부합하는 도구이다. 전술한 최적의 코어 코딩 모드는 부호화(encoding)를 위해 단지 낮은 비트율을 사용하는 반면에 지각할 수 있는 높은 품질의 균형에 관한 것이다. 신호 클래스화 툴의 입력은 변경되지 않은 원시 입력신호 및/또는 부가 도구 의존적인 파라메타일 수 있다. 예를 들면, 신호 클래스화 툴의 입력은 전술한 코어 코텍의 선택을 제어하기 위한 제어 신호일 수 있는 것이다.

만약, 신호가 스피치로 확인되거나 클래스화되는 경우, 대역폭 확장(BEW)의 시간 해상도가 증가됨(예를 들면, 더 많은 포락선)으로서 시간 에너지 변동(천천히 혹은 강한 변동)이 설명될 수 있다.

이러한 방법은 상이한 시간/주파수 특성을 구비한 상이한 신호는 대역폭 확장에서 상이한 특성을 요한다. 예를 들면, 과도 신호(예를 들면 스피치 신호에서 나타나는 신호)는 상기 BWE에 관한 양호한 신간적 해상도를 필요로 하며, 교차 주파수( 코어 코더의 상부 주파수 경계를 의미)가 가능한 높아야 한다. 특히 음성 스피치의 경우에는, 왜곡된 시간적 구조가 지각할 정도의 품질 저하를 초래할 수 있다. 바꾸어 설명하면, 음성 신호는 종종 스펙트럼 요소의 안정적인 재생과 재생된 고주파 부분들의 조화된 매칭 패턴을 요한다. 음성 부분의 안정적인 재생은 핵심 코더의 대역폭을 제한하는데, 이는 양호한 시간적 해상도를 구비한 BWE를 필요로 하지 않으나 대신에 보다 양호한 스펙트럼 해상도를 요한다. 게다가, 스위치된 스피치/오디오 코어 코더 설계에 있어서, 핵심 코더 결정은 BWE의 시간적 및 스펙트럼 특성 모두 적응시킬 뿐만 아니라 그 핵심 코더의 대역폭을 적응시키기 위해서 사용할 수 있다.

만약, 전체 포락선이 동일 길이의 시간을 포함한다면, (해당 시간 별로) 탐지되는 위반에 의존하여, 포락선의 수효는 프레임 별로 상이할 수 있다. 후술하는 실시예는 SBR 프레임에 대한 포락선 수효를 결정한다. 이는 포락선에 관하여 가능한 최대 수효의 파티션으로 시작하고 각각의 스텝별로 포락선의 수효를 축소시킴으로서, 입력 신호에 의존하여, 지각할 수 있는 정도의 높은 품질로 신호를 재구성하기에 필요한 것 이상으로 더 이상의 추가 포락선이 사용되지 않는 것이다.

예를 들면, 프레임 내에의 시간 부분의 첫번째 경계에서 이미 탐지된 위반은 포락선의 최대 수효에 의하여 생성될 수 있으며, 두번째 경계에서 탐지되는 위반은 단지 포락선의 최대 수효의 절반이 될 수 있다. 전송되는 데이타를 줄이기 위하여, 다른 실시예에서는 임계 값이 시간 임피던스에 의존할 수 있다. 즉 현재 어떤 경계가 분석되는지에 달려 있다. 예를 들면, 첫번째와 두번째 시간 부분 사이 및 세번째와 네번째 시간 부분(제3 경계) 사이에서, 임계 값은 두 경우 모두 두 번째 및 세번째 시간 부분(제2 경계) 사이 보다 높게 나타날 수 있다. 따라서, 확율적으로는, 첫번째 경계 또는 세번째 경계 보다 두번째인 제2 경계에서 보다 많은 위반이 나타날 수 있으며, 이를 토대로 보다 적은 포락선이 사용될 수 있는 것이다.

다른 실시예에 있어서, 이어지는 연속적인 시간 부분의 결정 수효의 시간 부분의 시간 길이는 최소의 시간 길이와 같은데, 이를 위하여 단일의 포락선이 결정되고, 결정 값 계산기가 최소 길이의 시간을 갖는 두 인접 시간 부분에 대한 결정값을 산출하도록 적응된다.

또 다른 실시예는 부가적인 정보를 제공하기 위한 정보 프로세서를 포함하며, 부가적인 정보는 오디오 신호의 타임 시퀀스 내의 제1 포락선 경계 및 제2 포락선 경계를 포함한다. 이 실시예에 있어서, 탐지기는 인접 시간 부분들 사이의 각각의 경계를 시간적 순서에 따라서 조사하도록 적응된다.

또한, 인코더 내에서 포락선의 수효를 산출하기 위한 장치도 사용된다. 인코더는 스펙트럼 포락선의 수효를 산출하는 장치를 포함하며, 포락선 계산기는 SBR 프레임에 대한 스펙트럼 포락선 데이타를 산출하기 위해 그 수를 사용한다. 또한, 포락선의 수효를 산출하기 위한 방법 및 오디오 신호를 부호화하기 위한 방법을 포함한다.

FIXFIX 프레임 내에서 포락선의 사용은, 과도 신호로 탐지되거나 혹은 과도 신호로 클래스화 되기에는 너무 슬로우 하기 때문에, 전술한 과도 신호에 의해 커버되지 않는 에너지 변동에 관한 좋은 모델링을 제공한다. 바꾸어 설명하면, 그들은 유사 시간 해상도가 불충분하기 때문에, 적절히 처리되지 않을 경우 인위적 산물을 야기하기에 충분히 빠르다.

그러므로 본 발명에 따른 포락선 처리가 천천히 변화하는 에너지 변동은 물론 아주 강하고 빠른 에너지 변동을 설명할 수 있으며, 이는 과도신호에 대한 특성이다. 때문에, 본 발명에 관한 실시예들은 보다 좋은 품질로 효율적인 코딩을 허용, 특히 종래 과도 신호 탐지기에 의해 탐지되기에 너무 낮은 변동 강도를 가지면, 천천히 변화하는 에너지를 구비한 신호에 대해서 그 코딩을 허용할 수 있다.

도 1은 본 발명의 일 실시예에 따른 스펙트럼 포락선의 수를 산출하기 위한 장치의 블럭 다이어그램이며,
도 2는 포락선 수 계산기를 포함하는 SBR 모듈의 블럭 다이어그램,
도 3a와 3b는 포락선 수 계산기를 포함하는 인코더의 블럭 다이어그램,
도 4는 미리 결정된 시간 부분들의 수에서 SBR 프레임의 파티션을 도시한 도면,
도 5a 내지 5c는 시간 부분들의 상이한 수를 갖는 3 포락선을 포함하는 SBR 프레임에 대한 추가 파티션을 도시한 도면,
도 6a와 도 6b는 인접하는 시간 부분들 내의 신호에 대한 스펙트럼 에너지 분포도,
도 7a 내지 도 7c는 오디오 신호에 대한 상이한 시간적 해상도를 나타내는 오디오/스피치 스위치를 포함하는 인코더를 도시한 도면이다.

이하, 기술된 본 발명의 실시예는 단지 발명의 원리를 설명하기 위한 것이며, 이를 토대로 당업자는 여기에 설명된 실시예 및 그외의 다양한 변형이 가능한 것으로 이해될 것이다.

도 1은 스펙트럼 포락선(104)의 수(102)를 계산하기 위한 장치(100)를 개략적으로 도시한 것이다. 상기 스펙트럼 포락선(104)들은 스펙트럼 대역 복제 인코더에 의해 발생되며, 인코더는 초기 시간 t0로부터 최종 시간 tn까지 연장되는 스펙트럼 대역 복제 프레임(SBR 프레임)에서 미리 결정된 수의 연속적인 시간 부분(110) 내에 다수의 샘플 값을 사용하여, 오디오 신호(105)를 부호화하도록 적응된다. 상기 연속적인 시간 부분(110)에 관한 미리 결정된 수는 오디오 신호(105)에 의해 주어진 타임 시퀀스에 구성된다.

상기 장치(100)는 결정 값(125)를 결정하기 위한 결정 값 계산기(120)을 포함하며, 상기 결정 값(125)은 한 쌍의 인접하는 시간 부분의 스펙트럼 에너지 분포의 편차를 측정한다. 또한, 상기 장치(100)는 결정 값(125)에 의해 임계에 관한 위반(135)을 탐지하기 위한 위반 탐지기(130)를 더 포함한다. 또한, 상기 장치(100)는 임계에 관한 위반(135)이 탐지될 때 상기 한 쌍의 인접 시간 부분들 사이에서 제1 포락선 경계(145)를 결정하기 위한 프로세서(140, 제1 경계 결정 프로세서)를 포함한다. 또한, 상기 장치(100)는 SBR 프레임에서 상기 한 쌍 또는 다른 한 쌍의 일시적 위치에 의존하거나 상기 다른 한 쌍에 대한 임계의 위반(135)에 의존하여 상기 제1포락선 경계(145)를 갖는 포락선(104)에 대한 인접 시간 부분들의 다른 쌍 사이에서 또는 초기 시간 (t0) 에서 또는 최종 시간 (tn) 에서 제2포락선 경계(155)를 결정하기 위한 프로세서(150, 제2경계 결정 프로세서)를 포함한다. 또한, 상기 장치(100)는 상기 제1 포락선 경계(145)와 제2 포락선 경계(155)를 갖는 스펙트럼 포락선(104)의 수(102)를 설정하기 위한 프로세서(160, 포락선 수 프로세서)를 포함한다.

본 실시예에 따른 상기 장치(100)에 있어서, 미리 결정된 수의 연속적인 시간 부분(110)에 관한 각 시간 부분의 시간 길이는 하나의 포락선(104)가 결정되기 위한 시간의 최소 길이와 동일하다. 더우기, 결정 값 계산기(120)은 시간의 최소 길이를 갖는 2개의 인접 시간 부분들에 대한 결정 값(125)를 산출하는데 적응된다.

도 2는 도 1에 도시된 포락선 수 계산기(100)을 포함하는 SBR 툴의 실시예를 도시한 것이며, 여기에서 오디오 신호(105)를 처리함에 의하여 스펙트럼 포락선(104)의 수(102)를 결정한다. 상기 스펙트럼 포락선의 수(102)는, 오디오 신호(105)로부터 포락선 데이타(205)를 산출하는 포락선 계산기(210)로의 입력이 된다.

상기 수(102)를 사용시, 포락선 계산기(210)는 SBR 프레임을 스펙트럼 포락선(104)에 의해 커버되는 다수의 부분들로 나누며, 각각의 스펙트럼 포락선(104)을 위하여 상기 포락선 계산기(210)은 포락선 데이타(205)를 산출한다. 예를 들면, 상기 포락선 데이타는 양자화 및 코드화된 스펙트럼 포락선을 포함하며, 이 데이타는 디코더 쪽에서 높은 대역 신호를 발생하고 원시 신호의 스펙트럼 특성을 복제하기 위하여 역 필터링과 노이즈 가산 및 하모닉 요소를 사용하는데 필요하다.

도 3a는 인코더(300)의 실시예를 도시한 것이며, 상기 인코더(300)는 SBR 관계 모듈(310)과 분석 QMF 뱅크(320), 다운 샘플러(330), AAC 코어 인코더(340) 및 비트 스트림 탑재 포멧기(bit stream payload formatter, 350)를 포함한다. 더욱이, 상기 인코더(300)는 포락선 데이타 계산기(210)을 포함한다. 상기 인코더(300)은 PCM 샘플을 위한 입력(오디오 신호 105)를 포함하며, 분석 QMF 뱅크(320)과 SBR 관계 모듈(310) 및 다운 샘플러(330)에 연결된다. 이어서, 상기 분석 QMF 뱅크(320)가 포락선 데이타 계산기(210)에 연결되고, 또 이어서 상기 비트 스트림 탑재 포멧기(350)에 연결된다. 이어서, 상기 다운 샘플러(330)는 AAC 코어 인코더(340)와 상기 비트 스트림 탑재 포멧기(350)에 순차적으로 연결된다. 상기 SBR 관계 모듈(310)은 포락선 데이타 계산기(210) 및 AAC 코어 인코더(340)에 연결된다.

그러므로, 상기 인코더(300)은 코어 주파수 밴드(다운-샘플러 샘플러, 330)에서 요소들을 생성하도록 오디오 신호(105)를 다운 샘플시키며, 이는 AAC 코어 인코더(340)으로 입력되고, 상기 코어 주파수 밴드에서 오디오 신호를 부호화하고, 부호화된 그 인코드 신호를 비트 스트림 탑재 포멧기(350)로 보내서, 코어 주파수 밴드의 부호화된 오디호 신호가 부호화된 오디오 스트림(355)으로 가산된다. 바꾸어 설명하면, 오디오 신호(105)는 고주파수 밴드의 주파수 요소를 추출하고 그들 신호를 포락선 데이타 계산기(210)으로 입력하는 분석 QMF 뱅크(320)에 의해 분석된다. 예를 들면, 64 서브-밴드 QMF 뱅크(320)이 입력 신호의 서브-밴드 필터링을 수행한다. 상기 필터뱅크(예를 들면, 서브-밴드 샘플)로부터의 출력은 복소수 값(complex valued)이며, 그에 따라서 정규 QMF 뱅크에 비교되는 2개의 요소에 의해 과 샘플화된 상대이다.

상기 SBR 관계 모듈(310)은 예를 들어, 포락선 데이타 계산기(210)측으로 포락선(104)의 수(102)를 제공함에 의하여 포락선 데이타 계산기(210)을 제어한다. 상기 분석 QMF 뱅크(320)에 의해 생성되는 오디오 요소와 수(102)를 사용시, 상기 포락선 데이타 계산기(210)가 포락선 데이타(205)를 산출하여, 상기 비트 스트림 탑재 포멧기(350)측으로 포락선 데이타(205)를 보내며, 부호화된 오디오 스트림(355)에서 코어 인코더(340)에 의해 부호화된 요소와 상기 포락선 데이타(205)가 결합된다.

도 3a는 디코더 상에서 고 주파수 재구성 방법에 의해 사용된 여러 파라메다틀을 추정하는 SBR 툴의 인코더 부분을 개략적으로 도시한 것이다. 도 3b는 SBR 관계 모듈(310)에 대한 실시예이며, 포락선 수 계산기(100, 도1에 도시됨)를 포함하지만, 선택적으로 다른 SBR 모듈(360)을 포함할 수 있다. 상기 SBR 관계 모듈(310)은 오디오 신호(105)를 받아서 포락선(104)의 수(102)를 출력할 뿐만 아니라 다른 SBR 모듈(360)에 의해 발생되는 다른 데이타도 출력한다.

예컨대, 상기 다른 SBR 모듈(360)은 오디오 신호(105)에서 과도 신호를 탐지하도록 적응된 종래의 통상적인 과도 신호 탐지기를 포함할 수 있으며, 포락선의 위치 및/또는 수를 얻을 수 있으며, 그에 따라 SBR 모듈이 디코더 상에서의 고 주파수 재구성에 의해 사용되는 파라메타(SBR 파라메타)의 일부를 산출하거나 혹은 산출하지 못할 수도 있다.

전술한 SBR에 있어서, SBR 타임 유닛(SBR 프레임)은 여러가지 다양한 데이타 블럭, 소위 포락선(envelopes)으로 나누어질 수 있다. 만약, 그러한 분할 또는 파티션이 일정하게 되어서 모든 포락선(104)이 동일한 크기를 갖고 첫번째 포락선의 시작과 마지막 포락선의 끝이 하나의 프레임 경계로 갖는다면, 그 SBR 프레임은 FIXFIX 프레임으로 한정된다.

도 4는 스펙트럼 포락선(104)의 수(102)의 SBR 프레임을 위한 파티션을 개략적으로 도시한 것이다. 상기 SBR 프레임은 초기 시간 t0와 마지막 최종 시간 tn사이의 시간 주기를 커버하며, 도 4에 예시된 바와 같이, 8 시간 부분 즉, 제1 시간 부(111), 제2 시간부(112),..., 제7 시간부(117) 및 제8 시간부(118)으로 나누어진다. 상기 8 시간 부분(110)들은 7 경계로 나누어지며, 이는 경계(1)이 제1 및 제2 시간부(111,112) 사이에 구성되고, 또 다른 경계(2)가 제2 및 제3 시간부(112, 113) 사이에 구성되며, 계속해서 또 다른 경계(7)은 제7 및 제8 시간부(117, 118) 사이에 구성됨을 의미한다.

ISO/IEC 14496-3 표준에 있어서, FIXFIX 프레임에서 포락선(104)의 최대 수는 4개로 제한된다(해당 표준의 서브 파트 4, 4.6.18.3.6절 참조). 일반적으로 FIXFIX 프레임에서 포락선(104)의 수는 2의 거듭제곱(예컨대, 1, 2, 4)이 될 수 있으며, FIXFIX 프레임은 과도 신호가 동일한 프레임에서 탐지되지 않는 경우에 한하여 사용된다. 바꾸어 설명하면, 종래의 통상적인 고 효율 AAC 인코더에 있어서, 비록 표준에서 이론적으로 4개의 포락선까지 허용하더라도, 포락선(104)의 최대 수는 2개로 제한되었다. 그러한 프레임 당 포락선(104)의 수효는 증가될 수 있으며, 예컨대 8로 증가(도 4 참조)될 수 있으며, FIXFIX 프레임 은 1,2,4 또는 8 포락선(혹은 다른 2의 거듭제곱)을 포함할 수 있다. 물론, 포락선(104)의 다른 수(102) 역시 가능하므로, 포락선(104)의 최대 수효 미리 결정된 수는 SBR 프레임당 32 QMF 타임 슬롯을 가지는 QMF 필터 뱅크의 시간 해상도에 의해 제한될 수 있다.

예컨대, 포락선(104)의 수(102)가 후술하는 바와 같이 산출될 수 있다. 결정 값 계산기(120)이 쌍으로 인접하는 시간 부분(110)의 스펙트럼 에너지 분포에서 편차들을 측정한다. 이는, 결정 값 계산기(120)이 첫번째 시간 부분(111)를 위하여 첫번째 스펙트럼 에너지 분포를 산출하며, 두번째 시간 부분(112)내의 스펙트럼 데이타로부터 두번째 스펙트럼 에너지 분포를 산출하여, 그렇게 계속적으로 산출됨을 의미한다. 이후, 제1 스펙트럼 에너지 분포 및 제2 스펙트럼 에너지 분포가 비교되고, 그 비교로부터 결정 값(125)가 도출되며, 본 실시예에서는, 결정 값(125)이 제1 시간 부분(111)과 제2 시간 부분(112) 사이의 경계(1)에 관계하는 것이다. 제 2 시간 부분(112) 및 제3 시간 부분(113)에도 전술한 바와 동일한 절치가 사용되며, 그러한 2개의 인접한 시간 부분들 및 2개의 스펙트럼 에너지 분포가 도출되고, 그들 2개의 스펙트럼 에너지 분포가 순차적으로 결정 값 계산기(120)에 의해 비교되어 추가적인 결정 값(125)이 도출된다.

다음 단계에 있어서, 탐지기(130)이 도출된 결정 값(125)과 임계 값을 비교하며, 만약 임계 값이 위반될 경우에는 탐지기(130)가 그러한 위반(135)을 탐지한다. 탐지기(130)가 소정의 위반(135)을 탐지하면, 프로세서(140)이 제1 포락선 경계(145)를 결정한다. 예를 들면, 탐지기(130)가 제1 시간 부분(111)과 제2 시간 부분(112) 사이의 경계(1)에서 소정의 위반을 탐지하면, 제1 포락선 경계(145a)가 경계(1)의 시간에 구성된다.

도 4의 실시예에서, 그래뉼(granule)/경계에 대한 몇몇 가능성이 허용되는데, 이는 전체 프로세스가 완료되었음을 의미하고 모든 경계는 104a 104b로 표시된 작은 포락선들에 의해 나타내어진 것과 같이 셋팅된다. 이 경우 경계는 모든 시간 0,1,2,...,n에 있다. 하지만, 제1 경계가 짧은 시간(4) 상에 설정될 때, 제2 경계를 위한 조사가 이루어져야 한다. 도 4에 도시된 바와 같이 제2 경계는 3 지점과 2 지점 및 0 지점에서 이루어질 수 있다. 경계가 3 지점에서 이루어지는 경우, 가장 작은 포락선 104a 및 104b가 설정되기 때문에 전체 절차는 종료된다. 경계가 2 지점에서 이루어지는 경우, 중간의 포락선(145a로 표기)가 사용될 수 있는지 확실하지 않기 때문에 조사는 계속되어야 한다. 경계가 0 지점에서 이루어지는 경우에 있어서도, 두번째 절반, 예컨대 4와 n 사이에서 아직 결정되지 않은 상태이며, 두번째는 가장 넓은 절반에 겨예가 없다면 포락선이 설정될 수 있다. 경계가 5 지점에서 나타나는 경우, 그때는 가장 작은 포락선이 사용되어야 한다. 경계가 단지 6 지점에서 나타나는 경우, 그때는 중간 포락선이 사용된다.

하지만, 포락선에 대한 보다 유연한 패턴이 허용될 시, 상기 절차가 계속되며, 제1 경계가 1 지점에서 결정된다. 이때, 프로세서(150)가 제2 포락선 경계(155)를 결정하며, 이 경계는 다른 쌍의 인접하는 시간 부분들 사이에 있거나 또는 초기 시간 t0 혹은 최종 시간 tn과 일치하는 지점에 있게 된다. 도 4에 도시된 바와 같은 실시예에 있어서, 제2 포락선 경계(155a)는 초기 시간 t0 지점(제1 포락선 104a를 산출)에 일치하게 되고, 다른 제2 포락선 경계(155b)는 제2 시간 부(112)와 제3 시간부(113) 사이(제2 포락선 104b를 산출)의 경계(2)와 일치하게 된다. 만약 제1 시간부(111)와 제2 시간부(112) 사이의 경계(1)에서 아무런 위반도 탐지되지 않을 경우에는 탐지기(130)가 제2 시간부(112)와 제3 시간부(113) 사이의 경계(2)를 조사하는 것을 지속한다. 만약 위반이 나타나는 경우에는 다른 포락선(104c)이 출발 시간 t0로부터 경계(2)에 이르기까지 확장된다.

본 발명의 실시예에 따르면, 한 쌍의 인접한 포락선을 위해서는 상기 결정 값(125)이 스펙트럼 에너지 분포의 편차를 측정하며, 각각의 스펙트럼 에너지 분포는 시간부 내의 오디오 신호의 일부에 적용된다. 8 포락선의 실시예에 있어서는 총 7 평가 절차(인접 시간 부분들 사이의 7 경계들)가 수행되고, 일반적으로 n 포락선의 경우에는 총 n-1의 평가 절차가 수행된다. 이때, 각각의 결정 값(125)들은 소정의 임계 값과 비교될 수 있으며, 만약 결정 값(125)이 그 임계를 위반(평가)하는 경우에는 포락선 경계가 두 인접 포락선 사이에 구성될 것이다. 임계 값과 결정 값(125)의 정의에 의존하여, 전술한 위반은 결정 값(125)이 임계 값 보다 높거나 낮게 될 수 있다. 결정 값(125)이 임계 값 보다 낮으면, 스펙트럼 분포는 포락선별로 강하게 변화되지 않을 수 있다. 때문에, 포락선 경계는 이 위치(시각)에 요구되지 않을 수 있다.

바람직하게는, 포락선(104)의 수(102)가 2의 거듭제곱을 포함하며, 각각의 포락선은 동일한 시간 주기를 포함한다. 이는 4가지 가능성이 있다는 것을 의미한다. 즉, 첫째 가능성은 전체 SBR 프레임이 하나의 포락선으로 커버 된다는 것(도 4에는 미도시함)이고, 둘째 가능성은 SBR 프레임이 2개의 포락선으로 커버되며, 셋째 가능성은 SBR 프레임이 4개의 포락선으로 커버되고, 마지막 가능성은 SBR 프레임이 8개의 포락선으로 커버됨을 의미한다(도 4 참조).

이는 특정 상황 내에서 경계들을 조사할 수 있는 장점이 될 수 있으며, 경우에 따라 홀수 경계( 경계1, 경계 3, 경계 5, 경계 7) 지점에서 위반이 나타나는 경우 포락선의 수는 항상 8으로 될 수 있다(동일 크기의 포락선을 가정함). 바꾸어 설명하면, 경계 2와 경계 6에서 위반이 나타나면, 4개의 포락선이 되고, 궁극적으로 단지 경계 4에서 위반이 나타나면 2개의 포락선이 부호활될 것이며, 만약, 7개의 경계 어느 지점에서도 위반이 나타나지 않으면, 전체 SBR 프레임이 하나의 포락선으로 커버된다. 때문에, 상기 장치(100)는 우선 경계 1, 3, 5, 7을 조사하고, 그들 경계들 중의 한 지점에서 위반이 탐지되면, 상기 장치(100)는 이어지는 다음 SBR 프레임을 조사할 수 있으며, 때문에 이 경우에 있어서 전체 SBR 프레임은 최대 수효의 포락선으로 부호화될 수 있다. 전술한 홀수 경계를 조사한 이후, 만약 홀수 경계 상에서 아무런 위반이 탐지되지 않을 경우에는 탐지기(130)가 이어지는 단계로써 경계 2와 경계 6을 조사하며, 그들 두 경계 중 어느 하나에서 위반이 탐지되면 포락선의 수는 4가 되어, 상기 장치(100)는 다시 다음 SBR 프레임에 대하여 수행한다. 마지막 단계로써, 만약 경계(1, 2, 3, 5, 6, 7)들에 걸쳐서 위반이 탐지되지 않으면 탐지기(130)가 경계 4를 조사하며, 만약 경계 4에서 위반이 탐지되면 포락선의 수는 2로 고정된다.

일반적인 경우(n 시간 부분들을 가지며, n이 짝수인 경우), 해당 절차는 후술하는 바와 같이 이뤄진다. 예를 들면, 만약 홀수 경계에서, 아무런 위반이 탐지되지 않으면, 결정 값(125)는 인접하는 포락선(경계에 의해서 분리됨)은 스펙트럼 에너지 분포에 관하여 강한 차이가 없음을 의미하는 임계 아래에 있게 되며, SBR 프레임을 n개의 포락선으로 분리할 필요도 없으며, 대신에 n/2의 포락선이면 충분하게 된다. 또한, 탐지기(130)가 홀수의 2배가 되는 경계(예컨대, 경계2, 경계 6, 10,...)들에서 위반을 탐지한 것이 없을 경우에는 그 위치에서 포락선 경계를 나타낼 필요가 없으며, 그에 따라서 포락선의 수는 일예로써 n/4에 이르는 2의 지수(factor)에 의해 감소될 수 있는 것이다. 이 절차는 단계별로 계속(다음 단계는 홀수의 4배, 예컨대, 4, 12,...)로 계속된다. 만약, 모든 경계에서 전혀 위반이 탐지되지 않을 경우에는 전체 SBR 프레임에 대하여 하나의 포락선으로 충분한 것이다.

하지만, 만약, 홀수 경계에서 하나의 결정 값(125)이 임계치 위에 있을 경우에는 n 포락선이 고려되어야 하며, 이때는 단지 포락선 경계가 그 대응 위치에 구성될 수 있기 때문이다(모든 포락선이 동일한 길이를 가져야 한다고 가정하기 때문임). 이 경우, 모든 다른 결정 값(125)들이 임계 아래에 있더라도 n 포락선이 산출될 수 있을 것이다.

하지만, 탐지기(130)은 포락선(104)의 수를 산출하기 위하여 모든 시간 부분(110)에 대하여 모든 결정 값(125)을 고려하고, 모든 경계들 또한 고려될 수 있다.

또한, 포락선(102)의 수의 증가는 전송되어야 하는 데이타 양의 증가를 의미하는 것이기 때문에, 그 상응하는 포락선 경계에 대한 임계 결정은, 높은 수의 포락선(104)을 수반하여 증가될 수 있다. 이는 경계 1과 경계 3, 5 및 7에서 임계 값이 선택적으로 경계 2 및 경계 6 보다 높을 수 있으며, 순차적으로 경계 4에서의 임계 보다 높다는 것을 의미한다. 보다 낮거나 보다 높은 임계 값은 그 임계의 위반이 보다 많거나 혹은 작게 나타나는 경우에 적용된다. 예를 들면, 보다 높은 임계 값은 두 인접하는 시간 부분들 사이의 스펙트럼 에너지 분포에서의 편차가 보다 낮은 임계 보다 더 괜찮은 정도이며 그에 따라 스펙트럼 에너지 분포에 있어서 보다 심한 편차는 높은 임계를 위해서 추가 포락선을 요구할 필요가 있다는 것을 의미한다.

또한, 선택된 임계는 스피치 신호 또는 일반적인 오디오 신호로 클래스화되는 신호인지 여부에 대한 신호에 의존할 수 있다. 하지만, 임계 결정이 신호가 스피치로 클래스화되는 경우에 항상 감소(또는 증가)될 수 있는 경우에 제한되지 않는다. 본 실시예에 의존하여, 일반적인 오디오 신호에 대하여 임계가 높은 경우에 장점이 있으며, 그 경우, 포락선의 수가 일반적으로 스피치 신호에 대한 것보다 적을 수 있다.

도 5는 SBR 프레임에 대하여 포락선의 길이가 다양하게 변하는 본 발명의 다른 실시예를 도시한 것이다. 도 5a에 있어서, 3 포락선(104), 즉 제1 포락선(104a), 제2 포락선(104b) 및 제3 포락선(104c)을 구비한 실시예가 도시된 것이다. 제1 포락선(104a)는 초기 시간 t0로부터 시간 t2에서의 경계 2까지 연장되며, 제2 포락선(104b)은 t2 시간의 경계 2로부터 t5 시간에서의 경계 5까지 연장되고, 제3 포락선(104c)은 시간 t5에서의 경계 5로부터 마지막 최종 시간 tn까지 연장된다. 만약 모든 시간 부분들이 동일한 길이를 갖고 SBR 프레임이 8 시간 부분으로 분리된다면, 제1 포락선(104a)은 제1 및 제2 시간 부분(111, 112)을 커버하며, 제2 포락선(104b)은 제3, 제4 및 제5 시간 부분(113, 114, 115)들을 커버하며, 제3 포락선(104c)은 제6, 제7 및 제8 시간 부분들을 커버한다. 그러므로, 제1 포락선(104a)은 제2 포락선(104b) 및 제3 포락선(104c) 보다 적다.

도 5b는 단지 2개의 포락선을 구비한 다른 실시예를 도시한 것이며, 제1 포락선(104a)은 초기 시간 t0로부터 제1 시간 t1까지 연장되고, 제2 포락선(104b)은 제1 시간 t1으로부터 마지막 최종 시간 tn까지 연장된다. 그러므로, 제2 포락선(104b)은 7개의 시간 부분들에 걸쳐서 연장되며, 제1 포락선(104a)은 단지 하나의 시간 부분(제1 시간 부분, 111)에 걸쳐서 연장된다.

도 5c는 3개의 포락선(104)을 구비한 실시예를 도시한 바, 제1 포락선(104a)는 초기 시간 t0로부터 제2 시간 t2까지 연장되며, 제2 포락선(104b)은 제2 시간 t2로부터 제4 시간 t4까지 연장되고, 제3 포락선(104c)는 제4 시간 t4로부터 마지막 최종 시간 tn까지 연장된다.

이들 실시예는 포락선(104)의 경계들이 단지 인접하는 시간 부분들 사이에 구성되고, 임계에 관한 위반이 초기 시간 또는 최종 시간(t0 또는 tn)에서 탐지되는 경우를 예시적으로 적용한 것이다. 이는 도 5a에 있어서, 시간 t2에서 위반이 탐지되고, 시간 t5에서 위반이 탐지되는 반면에, 남은 시간들(t1, t3, t4, t6, t7)에서는 아무런 위반이 탐지되지 않는 것을 의미한다. 마찬가지로, 도 5b에 있어서는, 위반이 단지 시간 t1에서만 탐지되며, 그로 인하여 제1 포락선(104a)과 제2 포락선(104b)에 대한 하나의 경계를 구성하며, 도 5c에 있어서는 단지 제2 시간 t2와 제4 시간 t4에서 위반이 탐지된다.

디코더가 포락선 데이타를 사용하여 보다 높은 스펙트럼 밴드를 복제할 수 있으며, 그 디코더는 포락선(104)과 그에 상응하는 포락선 경계의 위치를 필요로 한다. 전술한 표준에 상응하는 실시예에 있어서, 모든 포락선(104)은 동일한 길이를 가지며, 그에 따라 포락선의 수를 전송하기에 충분하며 그 디코더는 포락선 경계가 있어야 할 장소를 결정할 수 있다. 하지만, 도 5에 도시된 실시예에 있어서, 디코더는 포락선 경계가 위치되는 시기에 관한 정보를 필요로 하며, 그에 따라서 추가적인 정보가 데이타 스트림에 부가될 수 있으며, 산기 추가 정보를 사용시, 상기 디코더는 하나의 경계가 이뤄지고 포락선이 시작 및 끝나는 시간적 순간을 보유할 수 있게 된다. 상기 부가 정보는 시간 t2와 t5(도 5a의 경우), 시간 t1(도 5b의 경우) 시간 t2 및 t4(도 5c의 경우)를 포함한다.

도 6a 및 도 6b는 오디오 신호(105)에서 스펙트럼 에너지 분포를 사용하는 결정 값 계산기(120)에 대한 실시예를 도시한 것이다.

도 6a는 주어진 시간, 예컨대 제1 시간 부분(111)에서 오디오 신호에 대한 제1 세트의 샘플 값(610)과, 그 샘플화된 오디오 신호와 제2 시간 부분(112)에서 오디오 신호(620)에 관한 제2 세트의 샘플을 비교하는 것을 도시한 것이다. 상기 오디오 신호는 주파수 도메인으로 변환된 것이며, 주파수 f에 관한 함수로써 다수의 세트를 구비한 샘플 값(610, 620) 또는 그 레벨(P)을 도시한 것이다. 보다 낮거나 보다 높은 주파수 밴드는 교차 주파수 f0에 의하여 분리되며, f0 보다 높은 주파수를 위해서는 샘플 값이 전송되지 않는다. 대신에, 디코더가 SBR 데이타를 사용하여 그들 샘플 값을 복제한다. 바꾸어 설명하면, 상기 교차 주파수 f0 보다 낮은 샘플들이 AAC 인코더에 의해 부호화되고, 이어서 디코더로 전송된다.

상기 디코더는 고 주파수 요소를 복제하기 위하여 저 주파수 밴드로부터 전술한 샘플 값들을 사용할 수 있다. 그러므로, 제1 시간 부분(111)에서의 샘플(610)의 제1 세트 및 제2 시간 부분(112)에서의 샘플(620)의 제2 세트에 관한 편차를 위한 소정의 측정치를 구하기 위하여, 단지 고주파수 밴드(f>f0)에서 샘플 값을 고려할 뿐만 아니라 저 주파수 밴드에서의 주파수 요소를 설명하는 것이 충분치 않을 수 있다. 일반적으로, 좋은 품질의 복제는 저 주파수 밴드에서의 주파수 요소에 관한 고 주파수 밴드에서의 주파수 요소들 사이의 상호 관계가 있을 경우에 예측될 수 있어야 한다. 고 주파수 밴드(교차 주파수 f0 이상)에서 단지 샘플 값들을 고려하고 제1 세트의 샘플 값(610)과 제2 세트의 샘플 값(620) 사이의 상호관계를 산출하는 것은 제1 단계에서 충분히 될 수 있다.

전술한 상호관계는 표준 통계 방법을 사용하여 산출될 수 있는데, 예를 들면, 소위 상호관계 함수의 계산 혹은 두 신호의 유사성을 위한 다른 통계적 평가를 포함할 수 있다. 또한, 두 신호의 상호관계를 추정하는데 사용할 수 있는 피어슨 상관계수(Pearson's correlation coefficient) 사용 방식이 포함될 수 있다. 샘플 상호관계 계수로써 잘 알려진 피어슨 계수를 적용할 수 있다. 일반적으로, 상호관계는 두개의 랜덤 변수, 이 경우에 있어서는 두 샘플 분포(610 및 620) 사이의 선형 관계에 관한 강도와 방향을 나타낼 수 있다. 그러므로 상기 상호관계는 독립된 두 랜덤 변수의 일탈로 인용할 수 있다. 그와 같은 폭넓은 견지에 있어서, 데이타의 본질에 적응되는 상호관계의 정도를 측정하는 여러 가지 계수가 있으며, 서로 상이한 계수들은 서로 상이한 상황에 대하여 사용될 수 있다.

도 6b는 제3 세트의 샘플 값(630)과 제4 세트의 샘플 값(640)을 도시한 것이며, 이는 제3 시간 부분(113)과 제4 시간 부분(114)에서의 샘플 값에 관한 것이다. 두 세트의 샘플(또는 신호)을 비교하기 위하여 두개의 인접한 시간 부분이 고려된다. 도 6a 및 도 6b에 도시된 경우에 반하는 상황에 있어서는, 소정의 임계 T가 도입되는데, 그럼으로써 상기 임계 T 보다 높은 레벨 P(또는 보다 일반적인 위반 상태)을 갖는 샘플 값에 한하여(P>T에 대하여) 고려될 수 있다.

본 실시예에 있어서, 스펙트럼 에너지 분포에서의 편차는 그러한 임계 T를 위반하는 샘플 값의 수를 셈하여 간단하게 평가될 수 있으며, 그 결과가 결정 값(125)을 고정할 수 있다. 그러한 간단한 방법은 다양한 시간 부분(110)에서 다양한 세트의 샘플 값에 관한 상세한 통계적 분석을 수행하지 않고 두 신호 사이의 상호관계를 산출하는 것이다. 다른 방법으로써, 전술한 통계적 분석이 단지 임계 T를 위반하는 샘플에 한하여 사용될 수 있다.

도 7a 내지 도 7c는 인코더(300)가 스위치 결정 유닛(370)과 스테레오 코딩 유닛(380)을 포함하는 다른 실시예를 도시한 것이다. 또한 상기 인코더(300)는 대역폭 확장 툴 예컨대, 포락선 데이타 계산기(210) 및 SBR 관계 모듈(310)을 포함할 수 있다. 상기 스위치 결정 유닛(370)은 오디오 코더(372)와 스피치 코더(373) 사이에서 스위치되는 스위치 결정 신호(371)를 제공한다. 각각의 코드가 코어 주파수 밴드에서 상이한 수효의 샘플 값을 사용하여 오디오 신호를 부호화할 수 있다(예를 들면, 1024 고해상도 또는 256 저해상도). 또한, 상기 스위치 결정 신호(371)은 BWE 툴(210,310)에 제공된다. 이때, 상기 BWE 툴(210,310)은 스펙트럼 포락선(104)의 수(102)를 결정하기 위한 임계 값을 적응시키고, 이어서 선택적인 과도신호 탐지기의 턴 온/오프시키기 우하여 상기 스위치 결정신호(371)를 사용한다. 스테레오 코딩(380)이 샘플 값들을 제조하도록 오디오 신호(105)가 스위치 결정 유닛(370) 및 스테레오 코딩(380)으로 입력되며, 그들은 대역폭 확장(BWE) 유닛(210, 310)으로 입력된다.

스위치-유닛 결정 유닛(370)에 의해 발생되는 스위치 결정 신호(371)를 토대로, 상기 BWE 툴(210, 310)은 스펙트럼 밴드 복체 데이타를 생성하며, 이어서 오디오 코더(372) 또는 스피치 코더(373)에 전달된다.

상기 스위치 결정 신호(371)는 의존적인 신호이며, 과도신호 탐지기 또는 다른 탐지기를 사용함에 의해 오디오 신호를 분석하는 스위치 결정 유닛(370)에 의해 얻어질 수 있으며, 가변적인 임계치를 선택적으로 포함하거나 포함하지 않을 수 있다. 또한, 상기 스위치 결정 신호(371)는 경우에 따라서 데이타 스트림(오디오 신호 포함)으로부터 수동으로 적응되거나 얻을 수 있다. 오디오 코더(372) 및 스피치 코더(373)의 출력은 다시 비트 스트림 포멧기(350)으로 입력될 수 있다(도 3a 참조).

도 7b는 제1 시간 ta의 아래 및 제2 시간 tb의 위의 시간 주기에 대한 오디오신호를 탐지하는 스위치 결정 신호(371)의 예시를 도시한 것이다. 제1 시간 ta의 아래 및 제2 시간 tb의 위 사이에서 상기 스위치 결정 유닛(370)은 스위치 결정 신호(371)에 대한 상이한 이산 값을 내포하는 스피치 신호를 탐지한다.

결과적으로, 도 7c에 도시된 바와 같이, 시간 경과 동안에, 예를 들면 ta 시간 이전에 오디오 신호가 탐지되며, 인코딩에 관한 시간적 해상도도 낮다. 반면에 스피치 신호가 탐지되는 시간 주기 동안(제1 시간 ta의 아래 및 제2 시간 tb의 사이)에는 시간적 해상도가 증가된다. 시간적 해상도에서 증가는 시간 도메인에서 보다 짧은 분석 윈도우를 내포하는 것이다. 또한, 증가된 시간적 해상도는 스펙트렘 포락선에 관한 수효 증가를 나타내는 것이다(도4 참조).

고 주파수의 정확한 시간적 해상도를 요구하는 스피치 신호에 대해서는, 보다 높은 수의 파라메타 세트들을 전송하는 결정 임계가 상기 스위치 결정 유닛(370)에 의해 제어된다. 스피치 및 유사 스피치 신호에 대해서는, 스위치된 코어 코더의 시간-도메인 코딩 파트(373) 또는 스피치 신호와 함께 코드화 되는데, 예컨대, 보다 많은 파라메타 세트들을 사용하는 결정 임계는 감소되며, 시간적 해상도는 증가된다. 하지만, 이는 항상 전술한 바와 같은 경우로 되지는 않는다. 즉, 그 신호에 대한 유사 시간 해상도(time-like resolution)의 적응이 근본적인 코더 구조에 관해서 독립적이다(도4에 미도시됨). 이는 전술한 방법이 단지 하나의 코어 코더를 포함하는 SBR 모듈이 있는 시스템에서 사용됨을 의미하는 것이다.

본 발명의 실시예에 따라 부호화된 오디오 신호는 디지털 저장 매체에 저장될 수 있으며, 무선 전송 매체나 인터넷과 같은 유선 전송 매체를 포함하는 전송 매체 상에서 전송될 수 있다.

본 발명에 따른 실시는 소정의 도구 설정을 토대로 하여, 하드웨어나 소프트 웨어에 구성될 수 있다. 예컨대, 그러한 실시는 저장된 신호를 전기적으로 읽어들일 수 있는 플로피 디스크나 DVD, CD, ROM, PROM, EPROM, EEPROM, 플래쉬 메모리를 포함하는 디지털 저장 매체를 사용하여 수행될 수 있으며, 이는 개별적인 방법이 수행되는 컴퓨터 시스템과 연동될 수 있다.

본 발명에 따른 다른 실시에 있어서, 전기적으로 제어 신호를 읽어낼 수 있는 데이타 캐리어를 포함하며, 이는 전술한 방법 중 하나를 포함혀여 컴퓨터 시스템과 연동할 수 있다.

일반적으로, 본 발명에 따른 실시는 프로그램 코드를 구비한 컴퓨터 프로그램 제품으로 제품화될 수 있는데, 상기 프로그램 코드는 상기 컴퓨터 프로그램 제품이 소정의 컴퓨터로 작동시, 전술한 하나의 방법을 수행하도록 작동가능하다. 예컨대, 상기 프로그램 코드는 기계적으로 읽어낼 수 있는 캐리어에 저장될 수도 있는 것이다.

본 발명의 다른 실시는 전술한 방법 중 하나를 수행하기 위하여, 기계적으로 읽어낼 수 있는 소정의 캐리어에 저장되는 컴퓨터 프로그램을 포함한다. 바꾸어 설명하면, 본 발명에 의한 다른 실시 방법으로써, 컴퓨터 프로그램이 소정의 컴퓨터 상에서 구동시 전술한 방법 중 하나를 수행하기 위한 프로그램 코드를 구비하는 컴퓨터 프로그램을 포함한다.

또한, 본 발명에 의한 방법 실시는, 전술한 방법 중 하나가 기록되며 그를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이타 캐리어(또는 디지털 저장 매체 또는 읽어낼 수 있는 컴퓨터 매체)를 포함한다.

또한, 본 발명에 의한 방법 실시는, 전술한 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 제공하는 일련의 시퀀스 신호 또는 데이타 스트림을 포함한다. 예컨대, 상기 시퀀스 신호 또는 데이타 스트림은 인터넷과 같은 데이타 통신 연결을 통하여 전송될 수 있도록 구성될 수 있다.

또한, 본 발명에 의한 실시는 전술한 방법 중 하나를 수행하기 위해 적용되거나 구성되는 컴퓨터 또는 프로그램 로직 장치용 프로세싱 수단을 포함한다.

또한, 본 발명에 의한 실시는 전술한 방법 중 하나를 수행하기 위한 컴퓨터 프로그램 및 그 프로그램이 인스톨된 컴퓨터를 포함한다.

본 발명에 관한 다른 실시예에 있어서, 프로그램 로직 장치(필드 프로그램 게이트 어레이를 실행하기 위함)이 전술한 방법에 관한 일부 기능 혹은 전체 기능을 수행하도록 사용될 수 있다. 또한, 본 발명에 관한 다른 실시예에 있어서, 전술한 방법 중 하나를 수행하기 위하여 마이크로프로세서와 연동될 수 있는 소정의 필드 프로구램 케이트 어레이가 포함될 수 있다. 이 방법은, 일반적으로 소정의 하드웨어 장치에 의해 수행되는 것이 바람직하다.

본 발명의 상세한 설명은 단지 전술한 실시예 및 그 원리를 설명하는 것에 한정된 것이며, 특허청구범위에 기재된 발명의 범주 내에서 여러 가지 다양한 변형이 가능하다.

100 : 본 발명에 의한 장치
102 : 스펙트럼 포락선의 수
104 : 스펙트럼 포락선
105 : 오디오 신호
120 : 계산기
125 : 결정 값
130 : 탐지기
135 : 위반
140 : 제1 포락선 경계 결정 프로세서
150 : 제2 포락선 경계 결정 프로세서
210 : 포락선 데이타 계산기
310 : SBR 관계 모듈
350 : 비트 스트림 탑재 포멧기

Claims

오디오 신호(105)에 의해 주어진 소정의 타임 시퀀스 내에서 배열되어 미리 설정된 수로 구분된 시간 부분(110) 내의 다수의 샘플 값들을 사용하여 초기 시간(t0)으로부터 최종 시간(tn)까지 연장되는 SBR 프레임에서 오디오 신호(105)를 부호화하는 스펙트럼 밴드 복제(SBR) 인코더로부터 발생되는 스펙트럼 포락선(104)의 수를 산출하기 위한 장치에 있어서,
한 쌍의 인접하는 시간 부분들의 스펙트럼 에너지 분포에서의 편차를 평가하는 결정 값(125)을 결정하기 위한 결정 값 계산기(120);
상기 결정 값(125)에 의해 소정의 임계에 관한 위반(135)을 탐지하기 위한 탐지기(130);
상기 임계에 관한 위반(135)이 탐지될 때, 상기 한 쌍의 인접하는 시간 부분들 사이에서 제1 포락선 경계(145)를 결정하기 위한 프로세서(140);
SBR 프레임에서 상기 한 쌍 또는 다른 한 쌍의 일시적 위치에 의존하거나 상기 다른 한 쌍에 대한 임계의 위반(135)에 의존하여 상기 제1포락선 경계(145)를 갖는 포락선(104)에 대한 인접 시간 부분들의 다른 쌍 사이에서 또는 초기 시간 (t0) 에서 또는 최종 시간 (tn) 에서 제2포락선 경계(155)를 결정하기 위한 프로세서(150); 및
상기 제1 포락선 경계(145)와 상기 제2 포락선 경계(155)를 갖는 스펙트럼 포락선(104)의 수(102)를 설정하기 위한 수 프로세서(160);를 포함하는,
상기 미리 설정된 시간 부분(110)의 수효가 n과 동일하되, 인접하는 시간 부분(110)들 사이의 n-1 경계를 구비하며, 상기 경계들이 짝수 및 홀수 경계를 포함하도록 시간에 관하여 정렬되고,
상기 수 프로세서(160)는 상기 탐지기(130)가 홀수 경계에서 위반(135)을 탐지하는 경우, 스펙트럼 포락선(104)의 수(102)로써 n을 설정하도록 적응되는,
상기 스펙트럼 밴드 복제(SBR) 인코더에서 얻어지는 스펙트럼 포락선들(104)의 수(102)를 산출하기 위한 장치.
청구항 1에 있어서,
상기 미리 결정된 수의 시간 부분(110)에 관한 시간 부분의 시간 길이가 최소 시간 길이와 동일하고, 그에 대하여 하나의 포락선이 결정되며,
상기 결정 값 계산기(120)가 최소 시간 길이를 갖는 두 인접 시간 부분들에 대한 결정 값(125)을 산출하도록 적응되는 것을 특징으로 하는,
상기 스펙트럼 밴드 복제(SBR) 인코더에서 얻어지는 스펙트럼 포락선들(104)의 수(102)를 산출하기 위한 장치.
청구항 1에 있어서,
상기 프로세서(140)는 첫번째로 탐지된 위반에서 제1 포락선 경계(145)를 고정하고, 상기 프로세서(150)는 적어도 하나의 결정 값과 상기 임계를 비교한 후에 제2 포락선 경계(155)를 고정하도록 적응되는 것을 특징으로 하는,
상기 스펙트럼 밴드 복제(SBR) 인코더에서 얻어지는 스펙트럼 포락선들(104)의 수(102)를 산출하기 위한 장치.
청구항 3에 있어서,
상기 오디오 신호(105)의 타임 시퀀스 내에서 제1 포락선 경계(145)와 제2 포락선 경계(155)를 포함하는 추가 정보를 제공하기 위한 정보 프로세서를 더 포함하는 것을 특징으로 하는,
상기 스펙트럼 밴드 복제(SBR) 인코더에서 얻어지는 스펙트럼 포락선들(104)의 수(102)를 산출하기 위한 장치.
청구항 1에 있어서,
상기 탐지기(130)이 인접하는 시간 부분(110)들 사이에서 각각의 경계의 시간적 순서를 조사하도록 적응되는 것을 특징으로 하는,
상기 스펙트럼 밴드 복제(SBR) 인코더에서 얻어지는 스펙트럼 포락선들(104)의 수(102)를 산출하기 위한 장치.
삭제
청구항 1에 있어서,
상기 탐지기(130)가 홀수 경계에서 첫번째 위반(135)을 탐지하도록 적응되는 것을 특징으로 하는,
상기 스펙트럼 밴드 복제(SBR) 인코더에서 얻어지는 스펙트럼 포락선들(104)의 수(102)를 산출하기 위한 장치.
삭제
청구항 1에 있어서,
상기 미리 결정된 수가 8이고,
각각의 스펙트럼 포락선(104)이 동일한 포락선 길이를 포함하도록 상기 수 프로세서(160)가 상기 스펙트럼 포락선(104)의 수(102)를 1, 2, 4 또는 8로 설정하여 적응시키는 것을 특징으로 하는,
상기 스펙트럼 밴드 복제(SBR) 인코더에서 얻어지는 스펙트럼 포락선들(104)의 수(102)를 산출하기 위한 장치.
청구항 1에 있어서,
상기 탐지기는 상기 위반(135)에 관한 시간적 위치에 의존하는 임계를 사용하되,
상기 스펙트럼 포락선(104)의 수를 산출하는 시간적 위치에서는, 보다 낮은 수의 스펙트럼 포락선(104)을 산출하는 시간적 위치에 대한 것 보다 높은 임계가 사용되도록 적응되는 것을 특징으로 하는,
상기 스펙트럼 밴드 복제(SBR) 인코더에서 얻어지는 스펙트럼 포락선들(104)의 수(102)를 산출하기 위한 장치.
청구항 1에 있어서,
과도신호 임계를 구비한 과도신호 탐지기 또는 포락선 데이타 계산기(210)를 더 포함하되,
상기 과도신호 탐지기의 과도신호 임계는 상기 임계 보다 더 크게 설정되고,
상기 포락선 데이타 계산기(210)는 상기 제1 포락선 경계(145)로부터 상기 제2 포락선 경계(155)까지 연장되는 스펙트럼 포락선(104)에 대한 스펙트럼 포락선 데이타를 산출하도록 적응되는 것을 특징으로 하는,
상기 스펙트럼 밴드 복제(SBR) 인코더에서 얻어지는 스펙트럼 포락선들(104)의 수(102)를 산출하기 위한 장치.
삭제
삭제
오디오 신호(105)에 의해 주어진 소정의 타임 시퀀스 내에서 배열되어 미리 설정된 수로 구분된 시간 부분(110) 내의 다수의 샘플 값들을 사용하여 초기 시간(t0)으로부터 최종 시간(tn)까지 연장되는 SBR 프레임에서 오디오 신호(105)를 부호화하는 스펙트럼 밴드 복제(SBR) 인코더에 의해 발생되는 스펙트럼 포락선(104)의 수를 산출하기 위한 방법에 있어서,
한 쌍의 인접하는 시간 부분의 스펙트럼 에너지 분포에서 편차를 측정하여 결정 값(125)을 결정하는 단계;
상기 결정 값(125)에 의하여 소정의 임계에 관한 위반(135)을 탐지하는 단계;
상기 임계에 관한 위반(135)이 탐지될 때, 상기 한 쌍의 인접하는 시간 부분들 사이에서 제1 포락선 경계(145)를 결정하는 단계;
SBR 프레임에서 상기 한 쌍 또는 다른 한 쌍의 일시적 위치에 의존하거나 상기 다른 한 쌍에 대한 임계의 위반(135)에 의존하여 상기 제1포락선 경계(145)를 갖는 포락선(104)에 대한 인접 시간 부분들의 다른 쌍 사이에서 또는 초기 시간 (t0) 에서 또는 최종 시간 (tn) 에서 제2포락선 경계(155)를 결정하는 단계; 및
상기 제1 포락선 경계(145) 및 상기 제2 포락선 경계(155)를 갖는 스펙트럼 포락선(104)의 수(102)를 설정하는 단계;를 포함하는,
여기서 상기 미리 설정된 시간 부분(110)의 수효가 n과 동일하되, 인접하는 시간 부분(110)들 사이의 n-1 경계를 구비하며, 상기 경계들이 짝수 및 홀수 경계를 포함하도록 시간에 관하여 정렬되고,
홀수 경계에서 위반(135)이 탐지되는 경우, 스펙트럼 포락선(104)의 수(102)로써 n이 설정되는 것을 특징으로 하는,
상기 SBR 인코더에 의해 발생되는 스펙트럼 포락선(104)의 수를 산출하기 위한 방법.
프로세서 상에서 구동될 때, 제 14항에 따라 스펙트럼 포락선의 수를 산출하기 위한 방법을 수행하는 컴퓨터 프로그램이 저장된, 컴퓨터에서 인식 가능한 기록매체.