KR20120089333A - Sbr 비트스트림 파라미터 다운믹스 - Google Patents

Sbr 비트스트림 파라미터 다운믹스 Download PDF

Info

Publication number
KR20120089333A
KR20120089333A KR1020127014575A KR20127014575A KR20120089333A KR 20120089333 A KR20120089333 A KR 20120089333A KR 1020127014575 A KR1020127014575 A KR 1020127014575A KR 20127014575 A KR20127014575 A KR 20127014575A KR 20120089333 A KR20120089333 A KR 20120089333A
Authority
KR
South Korea
Prior art keywords
target
source
sbr
frequency
energy
Prior art date
Application number
KR1020127014575A
Other languages
English (en)
Other versions
KR101370870B1 (ko
Inventor
크리스토퍼 요에를링
로빈 데싱
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20120089333A publication Critical patent/KR20120089333A/ko
Application granted granted Critical
Publication of KR101370870B1 publication Critical patent/KR101370870B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

본 발명은 오디오 디코딩 및/또는 오디오 트랜스코딩에 관한 것이다. 특히, 본 발명은, M개의 오디오 채널을, 더 많은 개수인 N개의 오디오 채널을 포함하는 비트스트림으로부터 효율적으로 디코딩하는 방법에 관한 것이다. 이러한 맥락에서, 스펙트럼 대역 복제(SBR) 파라미터의 제1 및 제2 소스 세트를 SBR 파라미터의 타깃 세트로 병합하는 방법 및 시스템이 설명되어 있다. 제1 및 제2 소스 세트는 각각 제1 및 제2 주파수 대역 분할을 포함하고, 이들은 서로 상이하다, 제1 소스 세트는 제1 주파수 대역 분할의 주파수 대역과 연관된 제1 세트의 에너지 관련 값을 포함하고, 제2 소스 세트는 제2 주파수 대역 분할의 주파수 대역과 연관된 제2 세트의 에너지 연관 값을 포함한다. 타깃 세트는 기본 주파수 대역과 연관된 타깃 에너지 관련 값을 포함한다. 상기 방법은 제1 및 제2 주파수 대역 분할을 기본 주파수 대역을 포함하는 조인트 그리드로 분할하는 단계 제1 세트의 에너지 관련 값의 제1 값을 기본 주파수 대역에 할당하는 단계 제2 세트의 에너지 관련 값의 제2 값을 기본 주파수 대역에 할당하는 단계 및 기본 주파수 대역에 대한 타깃 에너지 관련 값을 산출하기 위해 제1 값과 제2 값을 합하는 단계를 포함한다.

Description

SBR 비트스트림 파라미터 다운믹스{SBR BITSTREAM PARAMETER DOWNMIX}
본 발명은 오디오 디코딩 및/또는 오디오 트랜스코딩(transcoding)에 관한 것이다. 특히, 본 발명은, M개의 오디오 채널을, 더 많은 개수인 N개의 오디오 채널을 포함하는 비트스트림으로부터 효율적으로 디코딩하는 방법에 관한 것이다.
HE-AAC(High-Efficiency Advanced Audio Coding) 표준을 따르는 오디오 디코더는 전형적으로 미리 규정된 위치에서 개별 스피커에 의해 재생될 N개 채널의 오디오 데이터까지 디코딩하여 출력하도록 설계된다. HE-AAC 인코딩된 비트스트림은 전형적으로 N개 오디오 채널에 상응하는 N개의 저대역 신호와 연관되는 데이터뿐만 아니라, 각각의 저대역 신호에 상응하는 N개의 고대역 신호의 복원을 위한 인코딩된 SBR(Spectral Band Replication) 파라미터를 포함한다.
소정 상황에서는, HE-AAC 디코더가 모든 N개 채널로부터의 오디오 이벤트를 보존하면서 출력 채널의 수를 M개 채널(M은 N보다 작음)로 저감시키는 것이 바람직할 수 있다. 그러한 채널 감소의 하나의 예시적인 이용 사례는, 다채널 홈 씨어터 시스템에 연결될 때는 N개 채널을 재생할 수 있지만 단독으로 사용될 때는 그 내장 모노 또는 스테레오 출력으로 제한되는 모바일 기기이다.
N개 입력 혹은 소스 채널로부터 M개 출력 또는 타깃 채널을 생성하는 가능한 방법은 디코딩된 N-채널 신호의 시간 도메인 다운믹스이다. 이러한 시스템에서, N개 채널을 나타내는 인코딩된 비트스트림은, 우선 디코딩되어 N개의 타임 도메인 오디오 신호를 생성하고 이어서 이들 신호가 M개 채널에 상응하는 M개의 오디오 신호로 시간-도메인에서 다운믹스된다. 이 접근법의 불리한 측면은 N 채널에 상응하는 모든 N개의 오디오 신호를 먼저 디코딩하고, 이어서 디코딩된 N개의 오디오 신호를 다운믹스된 M개의 오디오 신호로 다운믹스하는데 필요한 연산 및 메모리 자원의 양이다.
ETSI 기술 사양(technical specification: TS) 126 402(3GPP TS 26.402)은 "SBR 스테레오 파라미터를 모노 파라미터 다운믹스로"라 지칭되는 방법을 섹션 6에서 설명하고 있다. 이 문서는 참조로 포함된다. ETSI 기술 사양은 SBR 채널 쌍으로부터 모노 SBR 채널을 유도하는 SBR 파라미터 병합 과정을 설명한다. 그러나, 그 구체화된 방법은 채널들이 채널 쌍 요소(Channel Pair Element: CPE)로서 표현되는 경우 스테레오에서 모노 다운믹스로 제한된다.
이상의 내용을 감안해서, 임의 개수인 N개의 채널에서 임의의 개수인 M개의 채널로 낮은 복잡도의 다운믹싱 방식에 대한 요구가 있다. 특히, N개 채널과 연관된 SBR 파라미터를 M개 채널과 관련된 SBR 파라미터로 하기 위한 다운믹싱 방식에 대한 요구가 있는데, 이때 상기 다운믹싱 방식은 상이한 채널들의 관련 고주파 정보를 보존한다.
본 명세서에서, 모든 입력 또는 소스 채널로부터의 오디오 이벤트를 보존하면서, HE-AAC 디코더에서 출력 또는 타깃 채널의 수를 저감하는 효율적인 방법을 제공하는 방법 및 시스템이 기재되어 있다. 상기 방법 및 시스템은 임의의 개수인 N개의 채널로부터 임의의 개수인 M개의 채널로의 채널 다운믹싱을 허용하는데, 여기서 M은 N보다 작다. 상기 방법 및 시스템은 시간-도메인에서의 다운믹싱에 비해서 감소된 연산 복잡도에서 실행될 수 있다. 단, 해당 기재된 방법 및 시스템은 고주파 생성을 위하여 SBR을 사용하는 다채널 디코더라면 어느 것에도 적용가능하다. 특히, 해당 기재된 방법 및 시스템은 HE-AAC 인코딩된 비트스트림으로 제한되는 것은 아니다. 또한, 단, 이하 양상들은 제1 및 제2 소스 채널을 타깃 채널로 병합하는 것에 관한 개략적인 설명이다. 이들 용어들은 "적어도 제1" 및 "적어도 제2", 그리고 "적어도 타깃" 채널로서 이해되고, 따라서, 임의의 개수인 N개의 소스 채널을 임의의 개수인 M개의 타깃 채널로 병합하는 것에 적용한다.
본 발명의 일 양상에 따르면, SBR 파라미터의 제1 및 제2 소스 세트를 SBR 파라미터의 타깃 세트로 병합하는 방법이 기재되어 있다. SBR 파라미터의 소스 세트는 HE-AAC 비트스트림의 오디오 채널과 연관된 SBR 파라미터에 상응할 수 있다. SBR 파라미터의 소스 세트 및/또는 타깃 세트는 특정 오디오 채널의 오디오 신호의 프레임의 SBR 파라미터에 상응할 수 있다. 그리하여, 제1 소스 세트는 제1 오디오 채널의 제1 오디오 신호에 상응할 수 있고, 제2 소스 세트는 제2 오디오 채널의 제2 오디오 신호에 상응할 수 있으며, 타깃 세트는 타깃 채널의 타깃 오디오 신호에 상응할 수 있다. 소스 세트 및/또는 타깃 세트는 각 오디오 신호의 저주파 성분으로부터 각 오디오 신호의 고주파 성분을 생성하는 데 사용되는 데이터를 포함할 수 있다. 특히, SBR 파라미터의 세트는 각 오디오 신호의 프레임의 미리 규정된 기간 간격 내에 고주파 성분의 스펙트럼 엔빌로프(spectral envelope)에 관한 정보를 포함할 수 있다. 그러한 시간 간격 내에 포함되는 스펙트럼 정보는 전형적으로 엔빌로프라 지칭된다.
제1 및 제2 소스 세트, 및 특히 제1 및 제2 소스 세트의 엔빌로프는 각각 제1 및 제2 주파수 대역 분할부(frequency band partitioning)를 포함할 수 있다. 이들 제1 및 제2 주파수 대역 분할부는 서로 상이할 수 있다. 제1 소스 세트는 제1 주파수 대역 분할부의 주파수 대역과 연관된 제1 세트의 에너지 관련 값 및 제2 주파수 대역 분할부의 주파수 대역과 연관된 제2 세트의 에너지 관련 값을 포함할 수 있다. 타깃 세트는 기본 주파수 대역(elementary frequency band)과 연관된 타깃 에너지 관련 값을 포함할 수 있다.
그러한 에너지 관련 값은 스케일 팩터 에너지(scale factor energy)일 수 있고, 주파수 대역은 스케일 팩터 대역(scale factor band)일 수 있다. 대안적으로 혹은 부가적으로, 에너지 관련 값은 노이즈 플로어 스케일 팩터 에너지일 수 있고, 주파수 대역은 노이즈 플로어 스케일 팩터 대역일 수 있다.
상기 방법은, 제1 및 제2 주파수 대역 분할부를, 기본 주파수 대역을 포함하는 조인트 그리드(joint grid)로 분해시키는 단계를 포함할 수 있다. 제1 및 제2 주파수 대역 분할부는 각 오디오 신호의 고주파 성분의 주파수 범위에 걸쳐 있을 수 있다. 이 주파수 범위는 조인트 주파수 그리드로 세분될 수 있다. 조인트 그리드는 SBR 파라미터를 결정하는 데 사용되는 직교 미러 필터 뱅크(quadrature mirror filter bank: QMF 필터 뱅크)와 연관될 수 있다. 특히, QMF 필터 뱅크는 각 오디오 신호의 고주파 성분의 QMF 하위대역(subband)으로의 스펙트럼 분할을 결정하는 분석 단계에서 사용될 수 있다. 그러한 QMF 하위대역은 조인트 주파수 그리드의 기본 주파수 대역일 수 있다.
단, 제1 주파수 대역 분할부는 제2 주파수 대역 분할부와는 상이한 주파수 범위에 걸쳐 있을 수 있다. 특히, 제1 주파수 대역 분할부의 개시 주파수, 즉, 제1 주파수 대역 분할부의 더 낮은 영역대(bound)는 제2 주파수 대역 분할부의 개시 주파수, 즉, 제2 주파수 대역 분할부의 더 낮은 영역대와 상이할 수 있다. 전형적으로, 조인트 주파수 그리드는 제1 및 제2 주파수 대역 분할부의 중첩(overlap) 주파수 범위를 커버한다. 특히, 개시 주파수 중 더 높은 것보다 낮은 하나의 주파수 대역의 하나 이상의 부분 또는 주파수 대역들은 고려되지 않을 수 있다.
상기 방법은 제1 세트의 에너지 관련 값의 제1 값을 상기 기본 주파수 대역에 할당하는 제1 할당 단계 및/또는 제2 세트의 에너지 관련 값의 제2 값을 상기 기본 주파수 대역에 할당하는 제2 할당 단계를 포함할 수 있다. 상기 제1 할당 단계는 상기 제1 값이 상기 기본 주파수 대역을 포함하는 제1 주파수 대역 분할부의 제1 대역과 연관된 에너지 관련 값에 상응하도록 수행될 수 있다. 상기 제2 할당 단계는 상기 제2 값이 상기 기본 주파수 대역을 포함하는 제2 주파수 대역 분할부의 주파수 대역과 연관된 에너지 관련 값에 상응하도록 수행될 수 있다.
상기 방법은 상기 기본 주파수 대역에 대해서 타깃 에너지 관련 값을 산출하는 제1 및 제2 값을 합하는(combining), 예컨대, 가산 및/또는 스케일링(scaling)하는 단계를 포함할 수 있다. 또한, 타깃 에너지 관련 값은 기여 소스 세트들의 수에 의해 정규화(normalizing)될 수 있다. 예를 들어, 타깃 에너지 관련 값은 소스 세트의 기여 에너지 관련 값의 평균값을 결정하기 위하여 기여 소스 세트들의 수로 나누어질 수 있다.
상기 방법은 특정 기본 주파수 대역에 대하여 특정되어 있다. 해당 방법은 조인트 그리드의 모든 기본 주파수 대역에 대하여 상기 할당 단계들 및 상기 합하는 단계를 반복함으로써 타깃 세트의 타깃 에너지 관련 값의 세트를 생성하도록 하는 추가 단계를 포함할 수 있다.
상기 타깃 세트는 미리 규정된 타깃 주파수 대역을 지니는 타깃 주파수 대역 분할부를 포함할 수 있다. 전반적으로, 이러한 타깃 주파수 대역은 단일의 연관 타깃 에너지 관련값을 가지고 있다. 이 연관된 타깃 에너지 관련 값의 결정을 위하여, 상기 방법은 상기 타깃 주파수 대역 내에 포함되는 기본 주파수 대역과 연관된 타깃 에너지 관련 값의 세트를 평균내는 단계를 포함할 수 있다. 평균된 값은 타깃 주파수 대역의 타깃 에너지 관련 값에 할당될 수 있다.
제1 소스 세트는 제1 소스 채널의 제1 신호와 연관될 수 있고/있거나 제2 소스 세트는 제2 소스 세트는 제2 소스 채널의 제2 신호와 연관될 수 있고/있거나 타깃 세트는 타깃 채널의 타깃 신호와 연관될 수 있다. 전형적으로, 소스 세트와 타깃 세트는 상응하는 신호의 소정의 시간 간격과 연관된다. 그러한 시간 간격들은 소위 엔빌로프에 의해 규정될 수 있다.
특히, 타깃 세트의 타깃 에너지 관련 값은 타깃 신호의 타깃 시간 간격과 연관될 수 있고/있거나 제1 소스 세트의 에너지 관련 값의 제1 세트는 제1 신호의 제1 시간 간격과 연관될 수 있으며, 이때, 제1 시간 간격은 타깃 시간 간격과 중첩될 수 있다. 그러한 경우에, 위에서 언급된 합하는 단계는 제1 시간 간격과 타깃 시간 간격의 중첩 길이와 타깃 시간 간격의 길이에 의해 부여된 비에 따라서 에너지 관련 값의 제1 세트의 제1 값을 스케일링하는 단계를 포함한다. 그 결과, 스케일링된 제1 값과 제2 값은 타깃 에너지 관련 값을 산출하도록 합해질 수 있고, 예를 들어, 가산될 수 있다.
또한, 제1 소스 세트는 제3 주파수 대역 분할부를 포함할 수 있고/있거나 제1 소스 세트는 제3 주파수 대역 분할부의 주파수 대역과 연관된 제3 세트의 에너지 관련 값을 포함할 수 있고/있거나 해당 제3 세트의 에너지 관련 값은 제1 저대역 신호의 제3 시간 간격과 연관될 수 있으며, 이때, 제3 시간 간격은 타깃 시간 간격과 중첩될 수 있다. 단, 제3 주파수 대역 분할부는 제1 주파수 대역 분할부에 상응하고, 특히 동일할 수 있다. 그러한 경우에, 상기 방법은 제3 주파수 대역 분할부를 기본 주파수 대역을 포함하는 조인트 그리드로 분해시키는 단계 및/또는 제3 세트의 에너지 관련 값 중 제3 값을 기본 주파수 대역에 할당하는 단계를 추가로 포함할 수 있다. 그러한 경우에, 상기 언급된 합하는 단계는 제3 시간 간격과 타깃 시간 간격의 중첩 길이와, 타깃 시간 간격의 길이에 의해 부여된 비에 따라 제3 값을 스케일링하는 단계를 포함할 수 있다. 그 결과, 스케일링된 제1 값, 제2 값 및 스케일링된 제3 값은 타깃 에너지 관련 값을 산출하기 위해 합해질 수 있고, 예를 들어 가산될 수 있다.
다른 측면에 따르면, SBR 파라미터의 제1 및 제2 소스 세트를 SBR 파라미터의 타깃 세트로 병합하는 방법이 기재되어 있다. 제1 소스 세트는 제1 소스 채널의 제1 저대역 신호와 연관될 수 있고, 제1 세트의 스케일 팩터 에너지를 포함할 수 있다. 제2 소스 세트는 제2 소스 채널의 제2 저대역 신호와 연관될 수 있고, 제2 세트의 스케일 팩터 에너지를 포함할 수 있다. 타깃 세트는 제1 및 제2 저대역 신호의 시간-도메인 다운 믹싱으로부터 얻어진 타깃 채널의 타깃 저대역 신호와 연관될 수 있다. 또한, 타깃 세트는 스케일 팩터 에너지의 타깃 세트를 포함할 수 있다.
상기 방법은 제1 및 제2 다운믹스 계수에 에너지 보상 팩터에 의해 가중치 부여하는(weighting) 단계를 포함할 수 있으며 이때, 제1 다운믹스 계수는 제1 소스 채널과 연관될 수 있고 제2 다운믹스 계수는 제2 소스 채널과 연관될 수 있으며 에너지 보상 팩터는 시간 도메인 다운믹스 동안 제1 및 제2 저대역 신호의 상호작용과 연관될 수 있다. 이러한 상호작용은 제1 및 제2 저대역 신호의 감쇄 및/또는 증폭을 포함할 수 있고, 이는 제1 및 제2 저대역 신호의 동위상 또는 역위상에 기인될 수 있다. 특히 에너지 보상 팩터는 타깃 저대역 신호의 에너지와 제1 및 제2 저대역 신호의 에너지 또는 제1 및 제2 저대역 신호의 결합 에너지의 비와 연관될 수 있다.
예로서, N개 소스 채널(N≥≥2)이 병합되어 M개 타깃 채널(M<N이고 M≥≥1임)을 얻을 경우에, 에너지 보상 팩터(fcomp)는 하기 수학식으로 부여될 수 있다:
Figure pct00001
식 중, xin[chin][n]는 소스 채널(chin) 내의 저대역 시간 도메인 신호이고, cchin은 소스 채널(chin)에 대한 다운믹스 계수이며, xdmx[chout][n]은 타깃 채널(chout)의 저대역 시간 도메인 신호이고, n=0, ..., 1023은 시간 도메인 신호의 프레임 내의 신호 샘플의 샘플 인덱스이다. 단, fcomp는 시간 도메인 신호의 프레임 내에 있는 신호 샘플의 서브세트에 기초하여 결정될 수 있다. 그와 같이 해서, 상기 합계는 예를 들어 프레임의 매 P 번째 샘플을 사용하여 샘플의 서브세트에 대해서 연산될 수 있고, 여기서 P는 정수, 즉, n = 0, P, 2P, 3P, ...이다.
상기 방법은 제1 세트의 스케일 팩터 에너지를 제1 가중치 부여된 다운믹스 계수에 의해 스케일링하는 단계 및 또는 제2 세트의 에너지를 제2 가중치 부여된 다운믹스 계수에 의해 스케일링하는 단계를 추가로 포함할 수 있다. 스케일 팩터 에너지의 타깃 세트는 스케일 팩터 에너지의 스케일링된 제1 세트와 스케일 팩터 에너지의 스케일링된 제2 세트로부터 결정될 수 있다. 특히, 스케일 팩터 에너지의 타깃 세트는 본 명세서에서 개략적으로 설명된 방법들의 어느 하나에 따라서 결정될 수 있다.
다른 측면에 따르면, SBR 파라미터의 제1 및 제2 소스 세트를 SBR 파라미터의 타깃 세트로 병합하는 방법이 기재되어 있다. 제1 소스 세트는 제1 개시 주파수를 포함할 수 있다. 제2 소스 세트는 제2 개시 주파수를 포함할 수 있다. 제1 및 제2 개시 주파수는 상이할 수 있고 각각 SBR 파라미터의 제1 및 제2 소스 세트와 연관된 제1 및 제2 고대역 신호의 저주파수 영역대와 연관될 수 있다. 특히, 제1 및 제2 개시 주파수는 제1 및 제2 주파수 대역 분할부의 더 낮은 영역대와 연관될 수 있다.
상기 방법은 제1 및 제2 개시 주파수를 비교하는 단계 및/또는 제1 및 제2 개시 주파수 중에서 더 높은 것 혹은 더 낮은 것을 타깃 세트의 개시 주파수로서 선택하는 단계를 포함할 수 있다. 일반적인 용어에서, 타깃 세트의 개시 주파수는 기여 소스 세트, 예를 들어, 제1 및 제2 소스 세트의 개시 주파수의 레벨에 기초하여 선택될 수 있다.
개시 주파수 선택은 타깃 세트의 SBR 요소 헤더(SBR element header)를 결정하는데 사용될 수 있다. 제1 소스 세트는 제1 개시 주파수를 포함하는 제1 SBR 요소 헤더를 포함할 수 있다. 제2 소스 세트는 제2 개시 주파수를 포함하는 제2 SBR 요소 헤더를 포함할 수 있다. 그러한 경우에, 상기 방법은 타깃 세트의 선택된 개시 주파수에 따라 제1 또는 제2 SBR 요소 헤더를 기준으로 타깃 세트의 SBR 요소 헤더를 선택하는 단계를 포함할 수 있다. 특히, 더 높거나 더 낮은 개시 주파수를 포함하는 SBR 요소 헤더는 타깃 세트의 SBR 요소 헤더의 결정을 위한 기초로서 선택될 수 있다.
개시 주파수 선택은 특별한 특성을 가진 소스 세트로 추가로 제한될 수 있는데, 예를 들어 개시 주파수 선택은 소정의 소스 채널을 배타적으로 또는 우선적으로 고려할 수 있다. 특히, 개시 주파수 선택은 타깃 채널의 타깃 세트의 바람직한 관계와 유사한 서로에 대한 관계를 나타내는 소스 채널의 소스 세트에 특권을 줄 수 있다.
예로서, 타깃 세트가 채널 쌍 요소이고, 소스 세트 중 적어도 하나가 채널 쌍 요소이면, 타깃 세트의 SBR 요소 헤더는 채널 쌍 요소를 포함하는 소스 세트 중 하나로부터 선택될 수 있다. 타깃 세트가 채널 쌍 요소이고 어떠한 소스 세트도 채널 쌍 요소를 포함하지 않는다면, 최고 혹은 최저 개시 주파수를 포함하는 소스 세트의 SBR 요소 헤더는 타깃 세트의 SBR 요소 헤더에 대한 기초로서 선택될 수 있다. 타깃 세트가 단일 채널 요소이고 소스 세트들 중 적어도 하나가 단일 채널 요소이면, 타깃 세트의 SBR 요소 헤더는 단일 채널 요소를 포함하는 소스 세트 중 하나의 SBR 요소 헤더로서 선택될 수 있다. 타깃 세트가 단일 채널 요소이고 모든 소스 세트가 채널 쌍 요소이면, 최고 또는 최저 개시 주파수를 포함하는 소스 세트의 SBR 요소 헤더가 타깃 세트의 SBR 요소에 대한 기준으로서 사용될 수 있다.
다른 측면에 따르면, SBR 파라미터의 제1 및 제2 소스 세트를 SBR 파라미터의 타깃 세트로 병합하는 방법이 기재되어 있다. 제1 소스 세트는 제1 과도 엔빌로프 인덱스(first transient envelope index)를 포함하고 여기서, 제1 과도 엔빌로프 인덱스는 제1 개시 시간 경계에 의해 제1 과도 엔빌로프를 식별한다. 제2 소스 세트는 제2 과도 엔빌로프 인덱스를 포함할 수 있고, 여기서 제2 과도 엔빌로프 인덱스는 제2 개시 시간 경계에 의해 제2 과도 엔빌로프를 식별한다. 타깃 세트는 복수의 타깃 엔빌로프를 포함하고, 각 타깃 엔빌로프는 개시 시간 경계를 지닌다.
위에서 개략적으로 기재된 바와 같이, 엔빌로프, 즉, 특별히 제1 과도 엔빌로프, 제2 과도 엔빌로프 및 복수의 타깃 엔빌로프는 상응하는 오디오 신호, 즉, 특별히 제1 소스 신호, 제2 소스 신호, 및 타깃 신호 각각의 하나 이상의 시간 간격과 연관될 수 있다. 특히, 엔빌로프는 각 오디오 신호의 프레임 내의 하나 이상의 시간 간격과 연관될 수 있다. 과도 엔빌로프 인덱스는 음향 과도기에 대한 정보를 포함하는 엔빌로프를 식별, 즉, 확인하는 데 사용될 수 있다.
상기 방법은 제1 및 제2 개시 시간 경계 중 빠른 것을 선택하는 단계 및/또는 복수의 타깃 엔빌로프 중에서, 제1 및 제2 개시 시간 경계 중 더 빠른 것에 가장 가까운 개시 시간 경계를 지니는 엔빌로프를, 타깃 과도 엔빌로프로서 결정하는 단계 및/또는 타깃 과도 엔빌로프를 식별하도록 타깃 과도 엔빌로프 인덱스를 설정하는 단계를 포함할 수 있다. 일 실시형태에서, 상기 방법은 복수의 타깃 엔빌로프 중에서, 제1 및 제2 개시 시간 경계 중 빠른 것에 가장 가깝지만 해당 제1 및 제2 개시 시간 경계 중 빠른 것보다 지연되지 않은 개시 시간 경계를 지니는 엔빌로프를, 타깃 과도 엔빌로프로서 결정하는 단계를 포함할 수 있다.
다른 측면에 따르면, SBR 파라미터의 N개의 소스 세트를 SBR 파라미터의 M개의 타깃 세트로 병합하는 방법이 기재되어 있다. 여기서, N은 2보다 더 클 수 있고 M은 N 보다 더 작을 수 있다. 상기 방법은 중간 세트를 생성하도록 한 쌍의 소스 세트를 병합하는 단계 및/또는 타깃 세트를 생성하도록 중간 세트를 소스 세트 또는 다른 중간 세트와 병합하는 단계를 포함할 수 있다. 그와 같이 해서, 상기 방법은 후속의 병합하는 단계들을 포함함으로써, SBR 파라미터의 N개의 소스 세트를 SBR 파라미터의 M개의 타깃 세트로 병합하는 계층적 방법을 제공할 수 있다. 상기 병합하는 단계들은 본 명세서에서 개략적으로 설명된 방법들 및 측면들 중 어느 하나에 따라서 수행될 수 있다. 일 실시형태에서, 더 높은 음향 관련도(acoustic relevance)의 소스 채널에 상응하는 소스 채널은 더 낮은 음향 관련도의 소스 채널에 상응하는 소스 세트보다 덜 자주 병합된다.
다른 측면에 따르면, 소프트웨어 프로그램이 기재되어 있다. 해당 소프트웨어 프로그램은 컴퓨터 장치에서 수행될 경우 본 명세서에 기재된 방법의 단계들을 수행하기 위하여 그리고 프로세서 상에서의 실행을 위하여 적합화될 수 있다.
다른 측면에 따르면, 저장 매체가 기재되어 있다. 해당 저장 매체는 컴퓨터 장치에서 수행될 경우 본 명세서에 기재된 방법의 단계들을 수행하기 위하여 그리고 프로세서 상에서의 실행을 위하여 적합화될 수 있다.
다른 측면에 따르면, 컴퓨터 프로그램 제품이 기재되어 있다. 해당 컴퓨터 프로그램은 컴퓨터 상에서 실행될 경우 본 명세서에 기재된 방법의 단계들의 어느 하나를 수행하기 위한 실행 가능 명령들을 포함할 수 있다.
다른 측면에 따르면, SBR 파라미터 병합 유닛이 기재되어 있다. SBR 병합 유닛은 SBR 파라미터의 N개의 소스 세트로부터 SBR 파라미터의 M개의 타깃 세트를 제공하도록 구성될 수 있고, 여기서 N>M≥1이다. SBR 파라미터 병합 유닛은 본 명세서에서 개략적으로 설명되는 양상들 및 방법의 단계들의 어느 하나를 수행하도록 구성된 프로세서를 포함할 수 있다.
다른 측면에 따르면, N개의 오디오 채널을 포함하는 HE-AAC 비트 스트림을 디코딩하도록 구성된 오디오 디코더가 기재되어 있다. 해당 오디오 디코더는 인코딩된 HE-AAC 비트스트림을 수신하여 별도의 SBR 비트스트림을 제공하도록 구성된 AAC 디코더: 및/또는 SBR 비트스트림으로부터 N개의 오디오 채널에 상응하는 SBR 파라미터의 N개의 소스 세트를 제공하도록구성된 SBR 디코더 및/또는, 위에서 개략적으로 설명된 바와 같이, SBR 파라미터의 N개의 소스 세트로부터 SBR 파라미터의 M개의 타깃 세트를 제공하도록 구성된 SBR 파라미터 병합 유닛을 포함할 수 있고, 여기서, N>M≥1이다.
ACC 디코더는 N개의 오디오 채널에 상응하는 N개의 시간 도메인 저대역 오디오 신호를 제공하도록 구성될 수 있다. 오디오 디코더는 N개의 시간 도메인 저대역 오디오 신호로부터 M개의 시간 도메인 저대역 오디오 신호를 제공하도록 구성된 시간 도메인 다운믹스 유닛 및/또는 M개의 저대역 오디오 신호와 SBR 파라미터의 M개의 타깃 세트로부터 M개의 고대역 오디오 신호를 생성하도록 구성된 SBR 유닛을 포함할 수 있다. 이것에 의해서, 상기 오디오 디코더는 M개의 저대역 오디오 신호와 M개의 고대역 오디오 신호를 각각 포함하는 M개의 오디오 신호를 제공하도록 구성될 수 있다.
다른 측면에 따르면, N개의 오디오 채널을 포함하는 HE-AAC 비트 스트림으로부터 M개의 오디오 채널을 포함하는 HE-AAC 비트 스트림을 렌더링(rendering)하도록 구성되되, N>M≥1인 오디오 트랜스코더(audio transcoder)가 기재되어 있다. 싱기 오디오 트랜스코더는 위에서 개략적으로 설명된 바와 같이SBR 파라미터 병합 유닛을 포함할 수 있다.
다른 측면에 따르면, N개의 오디오 채널을 포함하는 HE-AAC 비트스트림으로부터 M개의 채널에 상응하는 M개의 오디오 신호를 렌더링하도록 구성되되, N>M≥1인 전자 기기가 기재되어 있다. 해당 전자 기기는 예를 들어 미디어 플레이어, 셋탑 박스 또는 스마트폰일 수 있다. 상기 전자 기기는 M개의 오디오 신호의 음향 렌더링을 수행하도록 구성된 오디오 렌더링 수단 인코딩된 HE-AAC 비트 스트림을 수신하도록 구성된 수신기 및/또는 본 명세서에서 개략적으로 설명된 양상들 중 어느 하나에 따라서 HE-AAC 비트스트림으로부터 M개의 오디오 신호를 제공하도록 설정된 오디오 디코더를 포함할 수 있다.
단, 본 명세서에 기재된 실시형태들 및 양상들은 임의적으로 조합될 수 있다. 특히, 시스템의 맥락에서 개략적으로 설명된 양상들 및 특징들은 상응하는 방법의 맥락에서 역시 적응 가능하고 그 반대도 마찬가지라는 것에 유의할 필요가 있다. 또한, 본 명세서에의 개시 내용은 종속항에 있어서 후 참조에 의해 명시적으로 부여되는 청구항 조합과는 다른 청구항 조합을 또한 커버하는데, 즉, 청구항들과 그들의 기술적 특징들은 임의의 순서와 임의의 형태로 조합될 수 있다.
이하, 첨부 도면을 참조하여 본 발명의 범위와 내용을 제한하지 않는 예시적인 실시예에 의해 본 발명을 설명할 것이다.
상술한 바와 같이 본 발명은 임의 개수인 N개의 채널에서 임의의 개수인 M개의 채널로 낮은 복잡도의 다운믹싱을 수행할 수 있다.
도 1은 N 채널 HE-AAC 비트스트림의 스테레오 오디오 신호로의 다운믹스 시스템의 예시적인 블럭도를 나타낸 도면
도 2는 5개의 입력 채널과 2개의 출력 채널을 구비한 SBR 파라미터 병합 유닛의 예시적인 블럭도를 나타낸 도면
도 3은 2개의 입력 채널과 1개의 출력 채널을 구비한 SBR 파라미터 병합 유닛의 예시적인 블럭도를 나타낸 도면
도 4는 도 3의 SBR 파라미터 병합 유닛 내에서 수행되는 엔빌로프 시간 경계의 예시적인 병합을 나타낸 도면
도 5a, 도 5b, 도 5c 및 도 5d는 2개의 소스 채널로부터 타깃 채널의 스케일 팩터 에너지를 결정하는 예시적인 공정을 나타낸 도면
도 6은 다운 믹스 계수에 의한 소스 채널들의 예시적인 가중치 부여 방식을 나타낸 도면.
HE-AAC 디코더는저대역의 인코딩된 오디오 신호를 디코딩하는 AAC 코어 디코더와, 디코딩된 저대역 신호와 비트스트림 내에 반송되는 파라미터 정보를 사용하여 고대역의 오디오 신호를 생성하는 스펙트럼 대역 복제(SBR) 알고리즘으로 나누어질 수 있다. 전형적으로, SBR 알고리즘은 AAC 코어 디코더보다 더 많은 연산 자원을 필요로 한다. 이는 고주파수 재구축, 즉, 스펙트럼 대역 복제의 분석 및 합성 단계에서 사용되는 필터 뱅크에 기인한다. 예로서, 전형적인 실시형태에서, AAC 디코딩에 요구되는 연산 자원은 약 1/3이고, SBR 파라미터의 디코딩을 위해 그리고 고주파수 재구축을 수행하기 위해 요구되는 연산 자원은 HE-AAC 비트스트림의 디코딩을 위해 요구되는 전체 연산 자원의 약 2/3이다.
디코더는 N 채널 오디오 신호를 나타내는 HE-AAC 비트스트림을 수신할 수 있다. 그러나, 예를 들어,오디오 렌더링 장치의 제한과 같은, 여러 이유 때문에, 디코더는 단지 M개의 오디오 채널을 포함하는 출력 신호를 제공할 필요가 있을 수 있다(M은 N보다 작음). 대안적인 사용 시나리오에서, 트랜스코더는 N 채널 오디오 신호를 나타내는 입력 HE-AAC 비트스트림을 수신할 수 있고 M 채널 오디오 신호를 나타내는 출력 HE-AAC 비트스트림을 제공할 수 있다.
SBR 파라미터를 사용하는 고대역의 오디오 신호 또는 고주파 성분의 재구축의 높은 연산 복잡도의 관점에서, M개의 채널에 상응하는 M개의 고대역 오디오 신호의 생성 및 다운믹스된 비트스트림의 선택적 디코딩 전에, 인코딩된 도메인 내에서 N개 채널에서 M개 채널까지 다운믹스를 수행하는 것이 유리할 수 있다. 이하에서, N개의 입력 또는 소스 채널의 SBR 파라미터를 M개의 출력 또는 타깃 채널의 SBR 파라미터로 효율적인 병합을 허용하는 방법이 설명될 것이다. SBR 파라미터의 병합은 특정 오디오 이벤트에 관한 정보가 보존되도록 수행된다.
제안된 방법은 N개 입력 채널에 대한 SBR 파라미터를 디코딩함으로써 N개 소스 채널에 상응하는 N세트의 SBR 파라미터를 제공하는 단계를 포함할 수 있다. 이어서, SBR 파라미터를 병합하는 단계는 M개 타깃 채널에 상응하는 M세트의 SBR 파라미터를 획득하도록 수행된다. M채널 출력 신호의 제공을 위하여, 상기 방법은 M개 출력 채널을 획득하기 위하여 후속의 시간 도메인 다운믹스에 의해 모든 N개 입력 채널에 대한 AAC-코딩된 저대역 신호를 디코딩 단계를 포함한다. 또한, M개 채널에 대한 스펙트럼 대역 재구축은 AAC-코딩된 저대역 신호로부터 획득된 M개 다운믹스 채널과 상기 SBR 병합 단계에서 획득된 SBR 파라미터의 상응하는 새로운 세트를 사용하여 수행될 수 있다.
N개 오디오 채널을 나타내는 입력 HE-AAC 디코더(100)로부터 2개의 출력 또는 타깃 채널에 상응하는 2개의 출력 오디오 신호(107, 108)를 제공하는 예시적인 HE-AAC 디코더(100)가 도 1에 도시되어 잇다. AAC 디코더(110)는 HE-AAC 비트스트림(101)을 N개 오디오 신호의 저주파 성분을 포함하는 N개 오디오 신호(103)("저대역 오디오 신호(103)"로도 지칭됨)로 디코딩을 수행한다. N개 저대역 오디오 신호(103)는 시간 도메인 다운믹스 유닛(113) 내의 2개의 저대역 오디오 신호(106)로 다운믹스된다. AAC 디코더는 N개 오디오 채널에 대한 SBR 파라미터를 포함하는 SBR 비트스트림(102)을 추가로 제공한다. SBR 비트스트림(102)은 N세트의 SBR 파라미터(104)를 생성하기 위해 SBR 디코더(111) 내에서 디코딩되며, 여기서, 1세트의 SBR 파라미터(104)는 N개 오디오 채널의 각각에 대한 것이다. 파라미터 추출 및 디코딩은 참조로 포함되는 ISO/IEC 14496-3 서브파트 4.4.2.8 및 4.5.2.8에 따라 수행될 수 있다. N세트의 SBR 파라미터(104)는 SBR 파라미터 병합 유닛(112)에서 2세트의 SBR 파라미터(105)로 병합된다. 결국, 2개의 출력 오디오 신호(107, 108)의 스펙트럼 대역 복제 또는 고주파수 재구축은 SBR 유닛(114)에서 수행된다. SBR 유닛(114)은 저대역 오디오 신호(106) 및 병합된 SBR 파라미터(105)의 세트를 사용하여 2개의 오디오 신호의 고주파 성분을 생성하고, 각각의 저주파 성분 및 고주파 성분을 포함하는 2개의 출력 오디오 신호(107, 108)를 제공한다.
도 2는 예시적인 SBR 파라미터 병합 유닛(112)의 블럭도를 도시한다. 도시된 SBR 파라미터 병합 유닛(112)은 입력에서의 5세트의 SBR 파라미터(201, 201, 203, 204, 205)를 출력에서의 2세트의 SBR 파라미터(208, 209)로 병합하기 위하여 계층적 구조를 가진다. SBR 파라미터 병합 유닛(112)은 입력에서의 2세트의 SBR 파라미터(201, 202)를 출력에서의 한 세트의 SBR 파라미터(206)로 병합하는 "2-대-1" SBR 파라미터 병합 유닛(210, 211, 212, 213)을 포함한다. "2-대-1" SBR 파라미터 병합 유닛(210, 211, 212, 213)은 "기본 병합 유닛"(elementary merging unit)이라 지칭한다. 계층적으로 조직된 기본 병합 유닛(210)의 사용을 통해, 유연성이 있고 적응성이 있는 SBR 병합 유닛(112)을 제공하는 것이 가능하고, 이는 입력에서의 임의의 개수 N의 SBR 파라미터 세트(201)를 출력에서의 임의의 개수 M의 SBR 파라미터 세트(208)로 병합하도록 동작 가능하다. 기본 병합 유닛(210)의 부가 또는 제거에 의해, 전체 SBR 파라미터 병합 유닛(112)은 입력 채널의 숫자 N의 변경 및/또는 출력 채널의 숫자 M의 변경에 적응될 수 있다.
도 2는 5.1 입력 신호의 SBR 파라미터를 스테레오 출력 신호의 SBR 파라미터로 병합하는 SBR 파라미터 병합 유닛(112)의 실시예를 도시한다. 5.1 신호는 저주파수 효과(low frequency effect: LFE) 채널뿐만 아니라, 좌(left: L), 우(right: R), 서라운드 좌(surround left: LS), 서라운드 우(surround right: RS), 센터(centre: C) 채널이라 지칭되는 5개의 전체-범위 채널을 포함한다. 예시된 실시예에서, LFE 채널은 고려되지 않았다. 전형적으로, LFE 채널이 또한 출력 채널들 중 하나로서 이용가능하면 이러한 LFE 채널의 컨텐츠는 단지 보존된다.
도시된 실시형태에서, C 채널에 상응하는 SBR 파라미터(201)의 세트는, 제1 기본 병합 유닛(210) 내의 LS 채널의 SBR 파라미터(202)의 세트와, 제2 기본 병합 유닛(211) 내의 RS 채널의 SBR 파라미터(203)의 세트와 각각 병합된다. 이것은 각각 병합된 SBR 파라미터(206, 207)의 두 세트를 생성한다. 병합된 SBR 파라미터(206, 207)의 이들 세트는 SBR 파라미터의 중간 세트라 지칭될 수 있다. 이어서, 병합된 SBR 파라미터(206)의 세트는, 기본 병합 유닛(212) 내의 L 채널의 SBR 파라미터(204)의 세트와 병합되어, 스테레오 출력 신호의 좌 채널(L')에 상응하는 병합된 SBR 파라미터(208)의 세트를 생성한다. 병합된 SBR 파라미터(207)의 세트는 기본 병합 유닛(213) 내의 R 채널의 SBR 파라미터(205)의 세트와 병합되어, 스테레오 출력 신호의 우 채널(R')에 상응하는 병합된 SBR 파라미터(209)의 세트를 생성한다.
도시된 계층적 병합 방식은 입력에서 SBR 파라미터들의 복수 세트를 병합하기 위한 단지 한가지 가능성이다. SBR 파라미터의 세트들은 상이한 순서로 병합된다. 그러나, 전형적으로 기본 병합 유닛(210) 내의 각 병합 단계는 SBR 파라미터의 세트 내에 포함되는 정보의 희석을 가져오는 점에 유의할 필요가 있다. 그 결과, 더 높은 음향 중요도 또는 더 높은 음향 관련도의 채널을, 비교적 더 낮은 음향 중요도 또는 음향 관련도의 채널보다 더 낮은 수의 병합 단계로 실시하는 것이 바람직하다. 예로서, L 및 R 채널은 C 채널보다 적은 병합 단계로 실시될 수 있다. 추가 실시예로서, C채널이 높은 음향 중요도인 대화를 수반하는 동영상 사운드트랙의 경우에, C 채널은 L 및 R 채널보다 더 적은 병합 단계로 실시될 수 있다.
대안적인 실시형태에서, SBR 파라미터 병합 유닛(112)은 직접 입력에서의 N세트의 SBR 파라미터(201)를 출력에서의 M세트의 SBR 파라미터(208)로 병합하는 전체 매트릭스로서 실행될 수 있다.
다음에, 기본 병합 유닛(210)에서 2세트의 SBR 파라미터(201, 202)를 1세트의 병합된 SBR 파라미터(206)로 병합하는 것에 대해서 설명할 것이다. 해당 설명된 방법과 시스템은 입력에서 2 세트 이상의 SBR 파라미터를 고려함으로써 일반화될 수 있다.
도 3에서, 기본 병합 유닛(210)의 예시적인 블럭도가 도시되어 있다. 기본 병합 유닛(210)은 소스 세트로도 지칭되는 2세트의 SBR 파라미터(201, 202)로부터 타깃 세트로도 지칭되는 1세트의 병합된 SBR 파라미터(206)를 제공한다. 도시된 기본 병합 유닛(210)은 전형적으로 프레임 단위로 프레임 상에서 SBR 파라미터의 병합을 수행하며, 즉, 각 입력 채널에 상응하는 입력 신호의 프레임의 SBR 파라미터가 출력 채널의 출력 신호의 상응하는 프레임의 SBR 파라미터를 제공하기 위해 병합된다. 예시를 용이하게 하기 위하여, SBR 파라미터(201, 202, 206)의 세트는 이하에서 단일 프레임의 SBR의 세트라 지칭된다.
예로서, 입력 신호의 프레임은 출력 신호 샘플 속도에서 2048 샘플의 공칭 길이를 커버하는 엔빌로프의 세트를 포함할 수 있다. 예를 들어, QMF 필터 뱅크가 64 하위대역의 주파수 해상도를 지니고 있으면, 2048의 프레임 길이는 모든 하위대역에서 32 QMF 하위대역 샘플에 상응할 것이다. 또한, 예를 들어, 2-하위대역 샘플 입도(granularity) 상에 하위대역 샘플들을 결합하는 "타임-슬롯"과 같은 추가 유닛이 도입될 수 있다. 즉, 프레임은 16 타임-슬롯에 상응하는 32 QMF 하위대역 샘플(QMF 하위대역당)을 포함한다.
도시된 기본 병합 유닛(210)은 두 소스 세트(201, 202)의 엔빌로프 시간 경계로부터 타깃 세트(206)의 엔빌로프 시간 경계를 결정하는 엔빌로프 시간 경계 결정 유닛(301)을 포함한다. 엔빌로프 시간 경계 결정 유닛(301)은 도 4와 관련하여 보다 상세하게 설명된다. 이어서, 타깃 세트(206)의 스케일 팩터 에너지는 스케일 팩터 에너지 결정 유닛(302) 내에서 소스 세트(201, 202)의 스케일 팩터 에너지로부터 결정된다. 스케일 팩터 에너지 결정 유닛(302)은 도 5a, 도 5b, 도 5c 및 도 5d와 관련하여 보다 상세히 그 개요가 설명된다.
SBR 파라미터 병합 유닛(112) 또는 기본 병합 유닛(210)은, 엔빌로프 시간 경계 파라미터 및 스케일 팩터 에너지의 병합에 부가하여, 추가의 SBR 파라미터의 병합을 수행할 수 있다. SBR 파라미터인 "역 필터링 레벨"은 참조로서 포함되는 ETSI TS 126 402, 섹션 6.1에 따라서 병합될 수 있다 SBR 파라미터인 "추가의 고조파"(additional harmonics)는 참조로 포함되는ETSI TS 126 402, 섹션 6.2에 따라서 병합될 수 있다.
또한, SBR 파라미터인 "엔빌로프 당 주파수 해상도"가 요구될 수 있다. 이 파라미터는 두 주파수 테이블 중 하나를 선택하는 2진 스위치인 파라미터 bs_freq_res를 포함한다. 이 값 bs_freq_res == 0은 저해상도 테이블을 선택하는 데 반해, bs_freq_res == 1은 고해상도 테이블을 선택한다. 두 테이블은 전형적으로 주파수 대역의 서브세트를 선택함으로써 마스터 주파수 테이블로부터 유도된다. 마스터 주파수 테이블의 주파수 해상도는 파라미터 bs_freq_scale에 의해 결정된다. 값 bs_freq_scale == 0은 주파수 대역당 하나의 QMF 하위대역을 가지는 최고의 해상도이다. 파라미터 bs_freq_scale의 값이 높을수록 옥타브 당 8 내지 12 주파수 대역의 보다 거친 해상도를 초래한다. 이 SBR 파라미터의 상세는 참조로 포함되는 ISO/IEC 14496-3 서브파트 4.6.18.3.2에서 찾아볼 수 있다. 전형적으로, 파라미터 bs_freq_scale은 SBR 요소 헤더 내에 포함된다. SBR 요소 헤더의 병합은 이하에서 다뤄진다. 파라미터 bs_freq_scale은 병합된 채널에 대해 1로 설정됨으로써, 높은 해상도를 가진 테이블이 사용되는 것을 나타낼 수 있다.
파라미터 "SBR 요소 헤더"는 이하의 과정에 따라서 병합될 수 있다.
1) 모든 소스 채널 요소의 개시/정지 주파수가 결정된다. SBR 파라미터 병합 유닛(112)의 경우에, 가능한 소스 채널은 채널(201, 202, 203, 204, 205)이다.
2) 최고 개시 주파수를 지닌 소스 채널 요소의 헤더는 그 일부인 타깃 채널 요소에 대한 헤더로서 선택된다. 타깃 채널 요소(208)의 경우에, 소스 채널 요소(201, 202, 204)의 헤더가 고려된다. 타깃 채널 요소(209)의 경우에, 소스 채널 요소(201, 203, 205)의 헤더가 고려된다. 단, 대안적인 실시형태에서는, 최저 개시 주파수를 지닌 소스 채널 요소의 헤더를 그 일부인 타깃 채널 요소에 대한 헤더로서 선택하는 것이 유리할 수 있다.
3) 타깃 채널 헤더 선택은 타깃 채널 요소의 채널 요소 타입을 정합시키도록 더욱 제한될 수 있다.
타깃 채널 요소가 CPE(channel pair element)이면, 믹스의 일부인 최고 개시 주파수를 지닌 소스 CPE의 헤더는 타깃 채널 요소에 대한 헤더로 선택된다. 어느 소스 CPE도 존재하지 않으면, 최고 개시 주파수를 지닌 소스 SCE(single channel element)의 헤더가 타깃 채널 요소에 대한 CPE를 구축하기 위해 채택되어 이용된다.
타깃 채널 요소가 SCE이면, 믹스의 일부인 최고 개시 주파수를 지닌 소스 SCE의 헤더가 타깃 채널 요소에 대한 헤더로서 선택된다. 소스 SCE가 존재하지 않으면, 최고 개시 주파수를 지니는 소스 CPE의 헤더가 타깃 채널 요소에 대한 SCE 헤더를 구축하기 위해 채택되어 이용된다.
단, 전형적으로 제1 및 제2 소스 세트(201, 202)의 개시 및 정지 주파수가 상이하다는 것에 유의할 필요가 있다. 개시/정지 주파수는 전형적으로 각 소스 세트(201, 202)의 SBR 요소 헤더 내에서 규정된다. 크로스-오버 주파수로도 지칭되는 오디오 채널의 개시 주파수는 고주파 성분의 최소 주파수 및/또는 저주파 성분의 최대 주파수를 특정한다. 소정 개수의 오디오 채널의 병합 시, 병합된 고주파 성분이 병합된 저주파 성분과 간섭하지 않는 것을 확실하게 하는 것이 유리할 수 있다. 그 이유는, AAC 인코딩된 저주파 성분이 전형적으로 SBR 인코딩된 고주파 성분보다 더 많은 관련 음향 정보를 포함한다는 사실에 있다. 결과적으로, 병합된 SBR 파라미터로부터 유도된 고주파수 신호 성분과 저주파수 신호 성분의 간섭은 회피되어야 한다. 이것은 타깃 세트(206)에 기여하는 소스 세트(201, 202)의 최대 개시 주파수인 타깃 세트(206) 또는 타깃 채널의 개시 주파수를 선택함으로써 확보될 수 있다. 특히, 병합된 저주파 성분과 병합된 고주파 성분 간의 위에서 언급된 간섭 위험은 위에서 개략적으로 설명된 바와 같이 타깃 세트(206)의 SBR 요소 헤더를 선택함으로써 회피될 수 있다.
이하에, 시간 경계에 관한 SBR 파라미터들의 병합이 개략적으로 설명된다. 단, 이하의 설명이 엔빌로프 시간 경계의 병합에 관한 것일지라도, 이는 노이즈 엔빌로프 시간 경계에도 적용될 수 있다는 것에 유의할 필요가 있다. 또한, 노이즈 엔빌로프 시간 경계를 병합하는 방법이 설명된 ETSI TS 126 402, 섹션 6.4를 참조할 수 있고, 이는 참조로 본 명세서에 포함된다.
HE-AAC는 하나의 프레임 내에 5개의 엔빌로프까지 규정하는 것을 허용한다. 이들 엔빌로프는 프레임의 특정 시간 간격 내에 인코딩된 오디오 신호의 고주파 성분의 스펙트럼 엔빌로프를 특정한다. 상이한 엔빌로프들의 시간 경계는 소정의 시간 그리드에 따라서 시간 축을 따라 규정될 수 있다. 전형적으로, 프레임의 길이, 예를 들어, 24㎳는 엔빌로프에 대한 가능한 시간 경계를 각각 정의하는 타임 슬롯의 수(예를 들어 16 시간 슬롯)로 더욱 분할된다. 소스 세트(201, 202)의 엔빌로프 시간 경계는 참조로 포함되는 ETSI TS 126 402, 섹션 6.3에 따라서 병합될 수 있다.
도 4는 두 소스 세트(201, 202)에 의해 규정되는 스펙트럼 엔빌로프를 도시한다. 스펙트럼 엔빌로프는 시간/주파수 도면 상에서 타일 형상으로서 표시되고, 시간(t)(401)은 프레임의 길이를 나타내고 주파수(f)(402)는 각 오디오 신호의 고주파 성분의 주파수를 나타낸다. 도시된 실시예에서의 소스 세트(201)는 중간 시간 경계(415, 416, 417)에 의해 4개의 엔빌로프(411, 412, 413, 414)를 특정한다. 도시된 실시예에서의 소스 세트(202)는 중간 시간 경계(425, 426, 427)에 의해 4개의 엔빌로프(421, 422, 423, 424)를 특정한다. 중간 시간 경계는 다음 엔빌로프에 대한 시간 경계와 선행하는 엔빌로프의 정지 시간 경계이다. 또한, 도 4는 첫번째 엔빌로프의 개시 시간 경계(403)와 마지막 엔빌로프의 정지 시간 경계(404)를 도시한다.
엔빌로프 시간 경계 결정 유닛(301)은 소스 세트(201, 202)의 엔빌로프(411, 412, 413, 414, 421, 422, 423, 424)의 시간 구조로부터 타깃 세트(206)의 엔빌로프의 시간 구조, 즉, 개시 시간 경계 및 정지 시간 경계를 제공하도록 동작 가능하다. 이 목적을 위해, 소스 세트(201, 202)의 시간 구조, 즉, 개시 시간 경계 및 정지 시간 경계는 도 4에 도시된 바와 같이 오버레이된다(overlaid). 두 소스 세트(201, 202)의 엔빌로프의 이 오버레이의 결과로서, 타깃 세트(206)에 대하여 7개의 시간 간격을 포함하는 시간 구조가 얻어지며, 이들 시간 간격은 시간 경계[403, 425], [425, 415], [415, 416], [416, 426], [426, 417], [417, 427], [427, 404]에 의해 규정된다. 이들 시간 간격은 타깃 세트(206)의 각 엔빌로프의 시간 간격으로서 이해될 수 있다. 타깃 세트(206)의 얻어진 시간 간격의 수가 허용된 엔빌로프의 최대 수를 초과하지 않으면, 얻어진 시간 경계는 유지될 수 있다. 허용된 엔빌로프의 최대 숫자는 아래의 인코딩 방식에 의해 부여될 수 있다. HE-AAC의 경우에, 프레임당 허용된 엔빌로프의 최대 숫자는 5로 고정된다.
그러나, 허용된 시간 간격의 수가 초과하면, 타깃 세트(206)의 임의의 개수의 시간 간격은 병합될 필요가 있다. 이것은 직접적으로 선행하거나 후행하는 시간 간격을 가진 2개의 타임 슬롯보다 작은 모든 시간 간격을 병합하는 것에 의해 이루어진다. 이는 개시 시간 경계(403)에 의해 표시되는 시간 축(401)의 개시부로부터 시작하여, 상응하는 개시 시간 경계로부터 2보다 더 가까운 모든 정지 시간 경계를 제거하는 것에 의해 달성될 수 있다. 도시된 예에서, 정지 시간 경계(426)는 제거되고 이에 따라서 시간 경계[416, 417]를 가진 새로운 시간 간격이 생성된다. 그러한 동작 후, 허용된 최대 수의 엔빌로프(예를 들어, 5)보다 훨씬 많은 시간 간격이 있다면, 시간 간격의 수는 더욱 감소될 수 있다. 이것은, 4개의 타임 슬롯보다 더 작고 그 시간 간격의 개시 시간 경계를 제거한 시간 간격에 대해서, 정지 시간 경계(404)로 표시되는 시간 축(401)의 말단부에서 시작해서, 기준 표지(403)로 표시되는 시간축(401)의 개시부를 향하여 검색함으로써 달성될 수 있다. 이 검색 동작은 허용된 엔빌로프의 최대 수에 상응하는 시간 간격의 수에 도달할 때까지 계속된다. 도시된 예에서, 개시 시간 경계(417)는 제거되고, 이에 따라 시간 경계[416, 427]를 가진 새로운 시간 간격이 생성된다.
상기 시간 간격의 병합 과정을 이용함으로써, 타깃 세트(206)의 시간 간격의 수가 허용된 엔빌로프의 최대 수를 초과하지 않는 것이 확보될 수 있다. 상기 실시예에서, 타임 슬롯의 수는 16이고 허용되는 엔빌로프의 최대 수는 5이다. 타깃 세트(206)의 엔빌로프의 평균 시간 간격은 16/5 = 3.2 타임 슬롯보다 작지 않아야만 하고, 이는 (위에서 설명된 바와 같이) 점차적으로 증가하는 역치를 지니는 시간 간격들을 병합함으로써 달성될 수 있다. 일반적으로, 시간 간격들의 평균 길이는 적어도 프레임당 타임 슬롯의 수와 허용된 엔빌로프의 최대 수의 비이어야만 한다.
엔빌로프 시간 경계 결정 유닛(301)의 출력으로서, 타깃 세트(206)의 스펙트럼 엔빌로프의 시간 경계(403, 425, 415, 416, 427, 404)에 의해 규정되는 시간 간격이 얻어진다. 시간 경계의 수는, 시간 간격의 수가 스펙트럼 엔빌로프의 허용된 최대 수를 초과하지 않도록 감소되어 있다.
타깃 세트(206)의 엔빌로프의 시간 간격을 결정하는 상기 과정은 임의의 수의 소스 세트(201)로 일반화될 수 있다. 그러한 경우에, 소스 세트(201)의 모든 시간 경계는 위에서 개략적으로 설명되고 도 4에 도시된 바와 같이 오버레이된다. 시간 간격의 후속의 병합 과정을 이용해서, 타깃 세트(206)의 엔빌로프의 미리 결정된 수의 시간 간격이 결정될 수 있었다.
단, 프레임의 엔빌로프가 과도 스펙트럼 엔빌로프로서 표시될 수 있고, 이에 의해 프레임 내에서 특정 시간 간격 내에서 오디오 신호의 과도기의 존재 여부를 나타낸다. 전형적으로 프레임당 그리고 채널당 과도 스펙트럼 엔빌로프의 수는 1로 제한된다. 과도 스펙트럼 엔빌로프는 통상 스펙트럼 엔빌로프의 수를 나타내는 인덱스
Figure pct00002
로 표시된다. 허용된 스펙트럼 엔빌로프의 최대 수가 5이면, 인덱스
Figure pct00003
는 예를 들어 값 0, ..., 4 중에서 어느 하나를 취할 수 있었다. 소스 세트의 과도 엔빌로프 인덱스는 다음과 같이 병합될 수 있다.
ⅰ. 각 소스 세트(201, 202)에 대해서, 현재 프레임의 과도 엔빌로프 인덱스
Figure pct00004
가 과도기가 존재하는 것을 나타내는지, 즉,
Figure pct00005
≠-1인지의 여부가 결정된다.
ⅱ. 각
Figure pct00006
≠-1에 대해서, 그 엔빌로프의 개시 시간 경계가 결정된다.
ⅲ. 상이한 소스 채널(201, 202)에 존재하는 과도기들이 존재하고 따라서 다수의 개시 시간 경계가 결정되었다면, 최소 개시 시간 경계(즉, 더 빠른 것)가 선택될 수 있다.
ⅳ. 타깃 세트(206) 내에서, 시간 경계는 단계 ⅰ 내지 ⅲ에서 결정된 개시 시간 경계에 가장 가까운 것으로 식별된다.
ⅴ. 개시 시간 경계가 단계 ⅳ에서 식별된 경계에 상응하는 개시 시간 경계를 지니는, 타깃 세트(206)의 시간 간격 또는 엔빌로프가 병합된 채널의 과도 엔빌로프
Figure pct00007
로서 선택된다.
도 4에 도시된 예에서, 소스 세트(201)가 과도 엔빌로프(414)를 포함하고 소스 세트(202)가 과도 엔빌로프(423)을 포함하는 것으로 가정되면, 단계 ⅲ은 개시 시간 경계(426)를 선택하다. 이어서, 단계 ⅳ에서, 개시 시간 경계(426)에 제일 가까운 타깃 세트(206)의 개시 시간 경계(416)가 결정되고, 그 시간 간격[416, 427]이 과도 엔빌로프 인덱스
Figure pct00008
를 2로 설정함으로써 과도 엔빌로프로 표시된다. 상기 방법을 적용함으로써, 과도기는 더 빠른 가능한 시간 간격으로 이동되는 경향이 있다. 이는, 예컨대, 더 빠른 과도기의 일시적인 마스킹 효과로 인해, 더 지연된 개시 시간 경계를 선택하는 것에 비해서 음향 심리학적인 이점을 지닐 수 있다. 또한, 상기 방법은 전형적으로 타깃 세트(206)의 과도 엔빌로프가 소스 세트(201, 203)의 과도 엔빌로프(414, 423)의 다수의 타임 슬롯을 커버하는 것을 확실하게 한다. 그러나, 추가의 혹은 대안적인 제한으로서, 타깃 세트(206)의 과도 엔빌로프는 그의 개시 시간 경계가 소스 세트(201, 202)의 과도 엔빌로프(414, 423)의 개시 시간 경계들의 어느 하나보다 지연되지 않도록 선택될 수 있다는 점에 유의할 필요가 있.
소스 세트(201, 202)의 하나 이상의 과도 엔빌로프 인덱스로부터 타깃 세트(206)의 과도 엔빌로프 인덱스를 결정하는 상기 과정은 임의의 수의 소스 세트의 임의의 수의 과도 엔빌로프 인덱스로 일반화될 수 있다. 이 목적을 위해, 상기 방법 단계들 ⅱ, ⅲ, ⅳ, ⅴ가 임의의 수의 과도 엔빌로프 인덱스에 대하여 실행된다.
다음에, 스케일 팩터 에너지 결정 유닛(302) 내에서의 2개의 소스 세트(201, 202)의 스펙트럼 엔빌로프의 병합이 설명된다. 스펙트럼 엔빌로프는 각각의 스케일 팩터 대역에 대한 스케일 팩터 및 하나 이상의 스케일 팩터 대역을 포함한다. 다시 말해, 스펙트럼 엔빌로프는 해당 스펙트럼 엔빌로프의 시간 간격 내에서 각 채널의 고대역 신호의 스펙트럼 에너지 분배를 특정한다.
위에서 개략적으로 설명된 바와 같이, 타깃 세트(206)의 스펙트럼 엔빌로프의 시간 간격은 엔빌로프 시간 경계 결정 유닛(301) 내에서 결정된 바 있다. 스케일 팩터 에너지 결정 유닛(302)은 소스 세트(201, 202)의 스펙트럼 엔빌로프로부터 타깃 세트(206)의 스펙트럼 엔빌로프의 연관된 스케일 팩터와 스케일 팩터 대역을 결정하도록 동작 가능하다.
도 5a는 2개의 소스 세트(201, 202)의 스펙트럼 엔빌로프 내에 포함되는 스케일 팩터 에너지의 병합에 관한 기본 규칙을 나타낸다. 엔빌로프 시간 경계 결정 유닛(301)에서, 타깃 세트(206)의 엔빌로프(532)의 시간 경계(403, 425)가 결정되어 있다. 이 엔빌로프(532)는 각각의 시간 경계(403, 425)에 의해 규정되는 시간 간격(503)에 걸쳐 있다. 시간 간격(503)은 소스 세트(201, 202)의 스펙트럼 엔빌로프에 적용됨으로써, 타깃 세트의 스펙트럼 엔빌로프(532)에 기여하는 소스 세트(201, 202)의 스펙트럼 엔빌로프를 특정한다. 도시된 예에서, 소스 세트(201)의 스펙트럼 엔빌로프(411)가 시간 간격(503) 내로 되며, 따라서, 타깃 세트(206)의 스펙트럼 엔빌로프(532)에 기여하는 것을 알 수 있다. 또한, 소스 세트(202)의 스펙트럼 엔빌로프(421)가 시간 간격(503) 내로 되며, 따라서, 타깃 세트(206)의 스펙트럼 엔빌로프(532)에 기여하는 것을 알 수 있다.
단, 일반적으로, 소스 세트(201)의 하나 이상의 스펙트럼 엔빌로프(411)는 타깃 세트(206)의 스펙트럼 엔빌로프(532)의 시간 간격(503) 내로 될 수 있음에 유의할 필요가 있다. 결과적으로, 소스 세트(201)의 하나 이상의 스펙트럼 엔빌로프(411)는 타깃 세트(206)의 스펙트럼 엔빌로프(532)에 기여할 수 있다. 다수의 기여 스펙트럼 엔빌로프의 이 양상은 이후의 단계에서 개략적으로 설명될 것이다. 예시를 용이하게 하기 위하여, 소스 세트(201)의 2개의 스펙트럼 엔빌로프의 병합이 제1 단계에서 설명될 것이다. 이들 스펙트럼 엔빌로프는 제1 소스 엔빌로프(512) 및 제2 소스 엔빌로프(522)라 지칭되고, 각각 소스 세트(201)의 스펙트럼 엔빌로프(411, 421)와 연관된다. 일 실시형태에서, 제1 및 제2 소스 엔빌로프(512, 522)는 각각 소스 세트(201, 202)의 스펙트럼 엔빌로프(411, 421)에 상응할 수 있다.
또한, 단, 기여 소스 엔빌로프(411, 421)의 개시 주파수가 상이할 수 있음에 유의할 필요가 있다. 위에서 개략적으로 설명된 바와 같이, 타깃 세트(206)의 개시 주파수는 전형적으로 기여 소스 세트(201, 202)의 최대 개시 주파수가 되도록 선택된다. 일 실시형태에서, 타깃 세트(206)의 개시 주파수는 (SBR 요소 헤더의 병합의 맥락에서 위에서 개략적으로 설명된 바와 같이) SBR 파라미터 병합 유닛(112)의 최종 타깃 세트(208)에 기여하는 모든 소스 세트(201, 202, 204)의 가장 큰 개시 주파수로 되도록 선택될 수 있다. 그 결과, 소스 세트(201, 202)의 스펙트럼 엔빌로프(411, 421)의 완전 주파수 범위는 타깃 엔빌로프(532)라고도 지칭되는 타깃 세트(206)의 스펙트럼 엔빌로프(532)에 기여할 수 없다. 이것은 소스 세트(201, 202)의 스펙트럼 엔빌로프(411, 421)가 도시되어 있는 도 5b에 예시된다. 예시된 예에서, 스펙트럼 엔빌로프(411)는 스펙트럼 엔빌로프(421)의 개시 주파수(552)보다 낮은 개시 주파수(551)를 지닌다. 더 높은 개시 주파수(552)가 타깃 엔빌로프(532)의 개시 주파수(553)로서 선택되면, 스펙트럼 엔빌로프(411)는 절두될(truncated) 수 있다. 이는 더 낮은 개시 주파수(551)와 더 높은 개시 주파수(552) 사이의 주파수 범위에 있는 스케일 팩터 대역이 전형적으로 타깃 엔빌로프(532)에 기여하지 않는다는 사실에 기인한다. 그와 같이 해서, 스펙트럼 엔빌로프(411)의 이러한 "절두"는 병합 과정 동안 더 낮은 개시 주파수(551)와 더 높은 개시 주파수(552) 사이의 주파수 범위를 무시함으로써 달성될 수 있다.
일반적으로, 타깃 엔빌로프(532)에 기여하는 소스 엔빌로프(512, 522)는 그 주파수 범위가 타깃 엔빌로프(532)의 주파수 범위에 상응하도록 절두될 수 있다고 기술할 수 있다. 특히, 타깃 엔빌로프(532)의 개시 주파수 이하 및 정지 주파수 이상에 놓인 주파수 대역의 하나 이상의 부분 또는 주파수 대역들이 절두될 수 있다. 이하에서는, 기여 소스 엔빌로프(512, 522)는 그들의 개시 및/또는 정지 주파수가 타깃 엔빌로프(532)의 개시 및/또는 정지 주파수에 상응하도록, 위에서 개략적으로 설명된 바와 같이 절두될 수 있다는 것으로 가정되어 있다.
전형적으로, 제1 소스 엔빌로프(512)의 스케일 팩터 대역 분할부는 제2 소스 엔빌로프(522)의 스케일 팩터 대역 분할부에 상응하지 않는다. 즉, 일정한 에너지를 지니는 주파수 대역, 즉, 일정한 스케일 팩터 에너지를 지니는 주파수 대역은 상이한 소스 엔빌로프(512, 522)에 대해서 상이하다. 이것은 제1 소스 엔빌로프(512)의 경계 주파수(513, 514)가 제2 소스 엔빌로프(522)의 경계 주파수(523, 524, 525)와 상이한 도 5a에 도시되어 있다. 또한, 제1 소스 엔빌로프(512) 내의 스케일 팩터 대역의 수(도시된 실시예에서 3)는 제2 소스 엔빌로프(522) 내의 스케일 팩터 대역의 수(도시된 실시예에서 4)와는 다를 수 있다. 또한, 소스 엔빌로프(512, 522)는 주파수에 따라서 상이한 레벨의 에너지를 포함할 수 있다. 스케일 팩터 에너지 결정 유닛(302)은 기여 소스 엔빌로프(512, 522)로부터 타깃 엔빌로프(532)를 결정하도록 동작 가능하고, 여기서 타깃 엔빌로프(532)는 하나 이상의 스케일 팩터 대역과 각각의 스케일 팩터 에너지를 포함한다.
이하에서는, 소스 엔빌로프(512, 522)의 스케일 팩터 대역에 상응하는 스케일 에너지의 병합이 설명될 것이다. 기본적인 개념은 복수의 소스 엔빌로프(512, 522)와 타깃 엔빌로프(532) 사이의 조인트 주파수 그리드를 제공하는 것이다. 그러한 조인트 주파수 그리드는 SBR 기반 코덱에서 사용되는 분석/합성 필터 뱅크의QMF(quadrature mirror filter) 하위대역에 의해 제공될 수 있다. 조인트 주파수 그리드, 예컨대, QMF 하위대역을 사용함으로써, 동일한 QMF 하위대역에 상응하는 기여 소스 엔빌로프의 스케일 팩터들은 타깃 엔빌로프의 상응하는 QMF 하위대역의 누적된 스케일 팩터 에너지를 제공하도록 가해진다. 결국, 누적된 스케일 팩터 에너지는, 타깃 엔빌로프의 상응하는 QMF 하위대역의 스케일 팩터 에너지로서 평균 스케일 팩터를 제공하기 위하여, 기여 소스 세트의 수로 나누어질 수 있다.
스케일 팩터 에너지의 이러한 병합 과정은 도 5c 및 5d에 도시된다. 도 5c는 소스 엔빌로프(522)와 연관된 스케일 팩터 에너지(526, 527, 528, 529)뿐만 아니라, 소스 엔빌로프(512)와 연관된 복수의 스케일 팩터 에너지(515, 516, 517)를 도시하고 있다. 타깃 엔빌로프로 믹스되는 각 소스 엔빌로프(512, 522)에 대해서, 이하의 단계들이 실행된다. 이들 단계는 소정의 스케일 팩터 대역(511)에 대해서 설명된다. 특히, 해당 단계들은 스케일 팩터 대역(511) 내의 임의의 QMF 하위대역(541)에 대해서 개략적으로 설명된다. 해당 단계들은 타깃 엔빌로프(532)의 주파수 범위 내에 놓인 모든 QMF 하위대역(541)에 대해서 수행될 필요가 있다.
제1 단계에서, 각 스케일 팩터 대역(511)의 스케일 팩터 에너지(517)는 소스 세트(201)에 상응하는 채널에 대해서 상응하는 에너지 보상된 다운믹스 계수에 의해 스케일링될 수 있다. 에너지 보상된 다운믹스 계수의 결정은 다음 단계에서 개략적으로 설명될 것이다.
위에서 개략적으로 설명된 바와 같이, 각 소스 스케일 팩터 대역(511)은 QMF 하위대역(541)으로 분해되며, 즉, 스케일 팩터 대역(511)은 조인트 주파수 그리드로 분해된다. 스케일 팩터 대역(511)의 각 QMF 하위대역(541)에는 각 스케일 팩터 대역(511)의 스케일 팩터 에너지(517)가 할당된다. 즉, QMF 하위대역(541)에는 그것이 놓인 스케일 팩터 대역(511)의 스케일 팩터 에너지(517)가 할당된다. 스케일 팩터 대역(511)과 QMF 하위대역(541)의 그리드 상의 상응하는 스케일 팩터 에너지(517)의 표시는 이하에서 "QMF 표시"라 지칭된다.
다음 단계에서, 소스 QMF 표시는 타깃 채널의 상응하는 타깃 QMF 표시에 가해진다. 도 5c에 도시된 예에서, 소스 세트(201)의 QMF 하위대역(541)의 스케일 팩터 에너지(517)는 타깃 엔빌로프(532)의 상응하는 QMF 하위대역(543)의 스케일 팩터 에너지(533)에 가해진다. 유사한 방식에 있어서, 소스 세트(202)의 QMF 하위대역(542)의 스케일 팩터 에너지(529)는 타깃 엔빌로프(532)의 상응하는 QMF 하위대역(543)의 스케일 팩터 에너지(533)에 가해진다. 결국, 누적된 스케일 팩터 에너지(533)는 기여하는 소스 세트(201, 202)의 수로 나누어져서 평균 스케일 팩터 에너지(533)가 생성될 수 있다.
유닛(301)에서의 엔빌로프 시간 경계 결정 과정 동안 개시/정지 시간 경계의 제거의 결과로서, 타깃 엔빌로프(532)의 시간 간격(503)이 제1 및/또는 제2 소스 세트(201, 202)의 몇몇 엔빌로프를 커버하는 일이 일어날 수 있음에 유의할 필요가 있다. 소스 세트(201)의 다수의 기여 엔빌로프의 이러한 양상은 위에서 이미 나타낸 바 있다. 이하에서, 그러한 다수의 소스 엔빌로프가 어떻게 스케일 팩터 에너지 결정 유닛(302)에서 고려될 수 있는지 설명될 것이다. 일반적인 사상은 그의 부분적인 기여에 따라서 소스 세트(201)의 각각의 기여하는 소스 엔빌로프를 고려하는 것이다. 소스 세트의 소스 엔빌로프는 타깃 엔빌로프의 시간 간격과 부분적으로만 중첩될 수 있다. 즉, 타깃 엔빌로프의 시간 간격은, 소스 세트의 각 엔빌로프가 타깃 엔빌로프의 시간 간격의 시간의 일부만 커버하도록, 소스 세트의 수개의 엔빌로프에 걸쳐 있을 수 있다. 그러한 부분적인 기여는 타깃 엔빌로프의 시간 간격에 그들이 기여하는 시간의 분획에 따라서 소스 세트의 기여 엔빌로프의 스케일 팩터 에너지를 스케일링함으로써 고려될 수 있다. 시간 축이 타임슬롯으로 세분되면, 스케일 팩터 에너지의 스케일링은 중첩하는 타임 슬롯, 즉, 각각의 소스 엔빌로프와 타깃 엔빌로프의 중첩하는 타임 슬롯 대 타깃 엔빌로프의 사간 간격 내에 포함되는 타임 슬롯의 수와의 비에 따라서 수행될 수 있다.
부분적 기여는 도 4에 있어서 예시될 수 있다. 타깃 세트(206)의 시간 간격[416, 427]은 제1 소스 세트(201)의 소스 엔빌로프(413, 414)와 제2 소스 세트(202)의 소스 엔빌로프(422, 423)를 포함한다. 그러한 경우에, 타깃 세트(206)의 타깃 엔빌로프(531)에 기여하는 제1 및 제2 소스 세트(201, 202)의 모든 소스 엔빌로프(413, 414, 422, 423)는 스케일 팩터 에너지의 병합을 위해 고려되어야 한다. 상이한 소스 엔빌로프(413, 414, 422, 423)의 스케일 팩터 대역 내의 스케일 팩터 에너지는, 기여하는 엔빌로프(413, 414, 422, 423)와 타깃 엔빌로프의 시간 간격[416, 427]의 중첩 타임 슬롯의 수와 타깃 엔빌로프의 시간 간격[416, 427]의 타임 슬롯의 수에 의해 부여되는 비율에 따라서 부분적으로 기여해야만 한다. 소스 엔빌로프(413, 414, 422, 423)의 부분적인 기여를 타깃 엔빌로프에 고려하는 이러한 양상은 위에서 설명된 스케일 팩터 에너지를 병합하는 과정에서 사용될 수 있다. 특히, 기여하는 소스 엔빌로프(413, 414, 422, 423)의 스케일링된 스케일 팩터 에너지는 타깃 엔빌로프(532)의 QMF 하위대역(543)의 누적된 스케일 팩터 에너지(533)를 결정하도록 가해질 수 있다.
상기 과정의 성과로서, 타깃 엔빌로프(532)에 대한 타깃 스케일 팩터 대역이 얻어진다. 기여하는 소스 엔빌로프(512)의 수, 소스 엔빌로프(512) 내에 포함되는 스케일 팩터 대역(511)의 수, 및 스케일 팩터 대역(511)들 사이의 주파수 경계(513)들의 위치에 따라서, 타깃 엔빌로프(532)에 대한 스케일 팩터 대역의 수는 비교적 높을 수 있다. 타깃 엔빌로프(532) 내의 스케일 팩터 대역의 수를 줄이는 것은, 예를 들어, 기본 코딩 방식의 제한으로 인해 및/또는 미리 결정된 스케일 팩터 대역 분할부 또는 구조로 인해, 유리할 수 있다.
예를 들어, 타깃 세트(206)가 소스 세트(201, 202) 중 하나의 SBR 요소 헤더를 사용하면, 각 소스 세트(201, 202)의 스케일 팩터 대역 구조가 사용될 수 있다. 복수의 소스 세트의 SBR 요소 헤더를 병합하는 방법의 맥락에서 개략적으로 설명된 바와 같이, 타깃 세트의 SBR 요소 헤더는 소스 세트 중 하나의 SBR 요소에 기초할 수 있다. BR 요소 헤더는, SBR 파라미터의 각 세트 내에 포함되는 스펙트럼 엔빌로프의 개시 및/또는 정지 주파수를 특정하는 것에 부가하여, 스펙트럼 엔빌로프의 스케일 팩터 대역 구조 또한 특정할 수 있다. 이 스케일 팩터 대역 구조는 위에서 개략적으로 설명된 스케일 팩터 에너지 병합 과정에서 결정된 타깃 엔빌로프를 위해 사용될 수 있다. 이하에서는, 제1 스케일 팩터 대역 구조로도 지칭되는, 병합 과정으로부터 얻어진 스케일 팩터 대역 구조가 어떻게 미리 규정된 스케일 팩터 대역 구조, 예를 들어, 제2 스케일 팩터 대역 구조로도 지칭되는 타깃 세트(206)의 SBR 요소 헤더에 의해 부여된 구조로 전환될 수 있는지에 대한 방법이 설명된다.
제1 스케일 팩터 대역 구조로부터 제2 스케일 팩터 대역 구조로의 전환을 위해, 도 5d를 참조하여 개략적으로 설명되는 이하의 과정이 사용될 수 있다. 이 과정은 제2 스케일 팩터 대역 구조의 특정 스케일 팩터 대역에 대해서 개략적으로 설명되고, 제2 스케일 팩터 대역 구조의 모든 스케일 팩터 대역에 대해서 수행되어야만 한다. 상기 과정은, 주파수 그리드, 예를 들어, QMF 하위대역(543)에 의존한다.
제1 단계에서, 제2 스케일 팩터 대역 구조의 스케일 팩터 대역 내의 모든 QMF 하위대역(543)의 스케일 팩터 에너지(533)가 합산된다. 위에서 개략적으로 설명된 바와 같이, 타깃 스케일 팩터 대역 분할부, 즉, 제2 스케일 팩터 대역 구조는 SBR 요소 헤더의 병합 과정 동안 선택된 SBR 요소 헤더에 의해 결정될 수 있다.
제1 단계에서 계산된 QMF 하위대역 에너지의 합계는 합산된 QMF 하위대역의 수로 나누어진다. 즉, 제2 스케일 팩터 대역 구조의 스케일 팩터 대역의 평균 스케일 팩터 에너지(534)가 결정된다. 그 결과는 각 스케일 팩터 대역의 타깃 스케일 팩터 에너지(534)이다. 이 과정은 제2 스케일 팩터 대역 구조의 다른 스케일 팩터 대역에 대해서 반복된다.
요약하면, 타깃 엔빌로프(532)의 타깃 스케일 팩터 대역 구조 내의 스케일 팩터 에너지를 결정하는 과정이 설명되어 있다. 타깃 세트(206)의 모든 타깃 엔빌로프(532)에 대해서 상기 병합 과정을 이용함으로써, 타깃 세트(206)의 엔빌로프의 병합된 스케일 팩터 에너지의 완전한 세트가 얻어질 수 있다. 설명된 과정은 임의의 수의 소스 세트(201)로 일반화될 수 있다. 이러한 경우에, 임의의 수의 소스 엔빌로프는 타깃 엔빌로프(532)에 기여할 수 있다. 기여하는 소스 엔빌로프는 조인트 주파수 그리드, 예를 들어, QMF 하위대역을 이용해서 분해되고, 상응하는 QMF 하위대역의 소스 스케일 팩터 에너지는 상응하는 QMF 하위대역의 타깃 스케일 팩터 에너지를 결정하도록 합산된다. 타깃 스케일 팩터 에너지는 기여하는 소스 세트의 수로 정규화될 수 있다. 소스 세트의 소스 엔빌로프가 단지 부분적으로 기여하면, 스케일 팩터 에너지는 위에서 개략적으로 설명된 방법에 따라서 스케일링될 수 있다. 또한, 스케일 팩터 에너지는 에너지 보상된 다운믹스 팩터에 의해 가중치 부여될 수 있다. 결과적으로, 결정된 스케일 팩터 에너지와 스케일 팩터 대역 구조는 미리 결정된 스케일 팩터 대역 구조로 전환될 수 있다.
단, 소스 세트(201, 202)는 노이즈 플로어 레벨을 특정할 수 있음에 유의할 필요가 있다. 상이한 소스 채널의 그러한 노이즈 레벨은 스케일 팩터 에너지와 유사한 방식으로 병합될 수 있다. 그러한 경우에, 스케일 팩터 에너지는 노이즈 레벨에 상응하고 엔빌로프 시간 경계는 노이즈 플로어 경계에 상응한다. 그러나, 노이즈에 대한 시간 간격의 수는 전형적으로 엔빌로프의 수보다 작음에 유의할 필요가 있다. 일 실시형태에서, 두 개의 노이즈 시간 간격만이 개시 경계, 정지 경계 및 중간 경계를 사용하는 프레임 내에 규정될 수 있다. 그러한 노이즈 시간 간격 내에서, 하나 이상의 노이즈 플로어 레벨 및 상응하는 주파수 대역 구조(또는 노이즈 플로어 스케일 팩터 대역 구조)가 특정될 수 있다. 복수의 소스 세트(201)의 개시 경계, 정지 경계 및/또는 중간 경계는 도 4와 관련하여 개략적으로 설명된 과정을 이용해서 병합될 수 있다. 복수의 소스 세트(201)의 하나 이상의 노이즈 플로어 레벨은 도 5a 내지 5d와 관련하여 개략적으로 설명된 과정을 이용해서 병합될 수 있다.
그러나, 노이즈 플로어 레벨은 전형적으로 에너지 보상된 다운믹스 계수에 의해 스케일링되지 않는 것에 유의할 필요가 있다. 그럼에도 불구하고, 기여하는 소스 노이즈 플로어 레벨 및/또는 타깃 노이즈 플로어 레벨은 병합된 오디오 채널의 주관적인 오디오 품질의 미세 조정을 위해 스케일링될 수 있다.
스케일 팩터 에너지 병합 방법의 맥락에서, 다운믹스 계수를 소스 채널에 적용하는 것이 유리할 수 있다는 것이 표시된 바 있다. 그러한 다운믹스 계수는 전형적으로 다운믹스 채널을 위한 클리핑 보호를 제공하도록 저대역 신호에 적용된다. 도 6 은 상응하는 오디오 채널의 저대역 신호로의 다운믹스 계수의 적용을 나타낸다. C-채널은 다운믹스 계수 c0로 가중치 부여되거나 스케일링되고, R- 및 L-채널은 다운믹스 계수 c1로 가중치 부여되고, LS-채널 및 RS-채널은 다운믹스 계수 c2로 가중치 부여된다. 5개의 채널로부터 2개의 채널로의 다운믹스의 맥락에서, 다운믹스 계수는 다음과 같이 특정될 수 있다: c0 = 0.7/스케일, c1 = 1.0/스케일, c2 = 0.5/스케일, 여기서 스케일 = 0.7+1.0+0.5=2.2이다. 이들 계수값은 5.1 채널 신호의 다운믹스에 대한 ITU(International Telecommunication Union)의 권장사항에 상응한다. 이들 계수는 5개 미만의 채널(예를 들어 좌,우 및 중앙 채널만)이 다운믹스되는 경우에도 사용될 수 있다.
저대역 신호에 대해서 마찬가지 방식으로, 다운믹스 주파수로 소스 세트(201, 202) 또는 소스 채널의 스케일 팩터 에너지에 가중치 부여하는 것이 유리할 수 있다. 이는 오디오 신호의 저주파 성분과 고주파 성분 사이의 비율을 유지하는 것이 중요할 수 있다. 특히, 저주파 성분과 고주파 성분의 에너지의 비율을 유지하는 것이 중요할 수 있다. 이러한 맥락에서, 도 6은 5개의 입력 채널의 2개의 출력 채널로의 단일 단계 다운믹스를 예시하고 있다. 다운믹스 계수는 입력 채널에 직접적으로 적용된다. 대안적인 실시형태에서는, 도 2에 도시된 바와 같은 계층적 다운믹스가 사용될 수 있고, 그것에 의해, 다운믹스 계수가 입력채널(201, 202, 203, 204, 205)에 직접적으로 적용된다.
그러나, 시간 도메인 내의 소스 채널은, 시간 도메인 내의 다운믹스 타깃 채널이 위상 관계에 따라 증폭되거나 감쇄될 수 있도록, 동위상이 되거나 역위상이 될 수 있다는 점에 유의할 필요가 있다. 스케일 팩터 에너지의 병합 시 이 효과를 고려하기 위하여, 상기 다운믹스 계수는 기여하는 소스 채널의 오디오 신호의 동위상 및/또는 역위상 작용을 고려하는 에너지 보상 팩터와 곱해질 수 있다. 특히, 에너지 보상 팩터는 기여하는 저대역 오디오 신호와 관련하여 발생되는 다운믹스된 저대역 오디오 신호의 감쇄 또는 증폭을 고려한다. 오디오 신호의 주어진 프레임에 대해서, 에너지 보상 팩터는 이하의 식에 따라 연산될 수 있다:
Figure pct00009
여기서 fcomp는 다운믹스 계수에 대한 보상 팩터이고, xin[chin][n]은 소스 채널(chin) 내(채널 내)의 저대역 시간 도메인 신호이며, cchin은 채널(chin)에 대한 다운믹스 계수(예를 들어, 도 6의 c0, c1, c2)이고, xdmx[chout][n]는 타깃 채널(chout)(채널 밖)의 저대역 시간 도메인 신호이고, n = 0, ..., 1023은 시간 도메인 신호의 프레임 내의 신호 샘플의 샘플 인덱스이다. 상기 식은 하나의 프레임의 사용가능한 샘플들의 에너지를 연산한다. 특히, 상기 식은 타깃 채널의 에너지와 소스 채널의 에너지 사이의 비율을 결정하고, 여기서 소스 채널들은 그들 각각의 다운믹스 계수에 의해 가중된다. 많은 경우에, 예를 들어, 이용가능한 샘플의 일부만 사용하는 더 낮은 정확도의 에너지 추정치는, 적절한 에너지 보상 팩터를 결정하는 데 충분할 수 있다.
에너지 보상 팩터를 이용함으로써, 상이한 오디오 채널의 오디오 신호의 저주파 성분과 고주파 성분 간의 에너지의 균형이 유지될 수 있다. 이는 다운믹스 채널의 다운믹스된 신호로 소스 채널의 신호의 양 및/또는 음의 기여를 고려하여 달성될 수 있다. 단, N개 입력 채널로부터 M개 출력 채널을 제공하는 다운믹스 시스템에서, 완전한 시스템에 대한 단일 에너지 보상 팩터를 제공하는 것이 가능하다. 대안적으로 또는 부가적으로, 복수의 에너지 보상 팩터가 결정될 수 있다. 예로서, 전용 에너지 보상 팩터가 M개의 다운믹스된 출력 채널의 각각에 대해서 결정될 수 있다. 이는 각각의 출력 채널에 기여하는 입력 채널만 고려함으로써 행해질 수 있다. 추가의 실시예에서, 전용 에너지 보상 팩터는 각각의 기본 병합 유닛(210)을 위해 결정될 수 있다.
예를 들어, AAC 디코더 출력의 시간 도메인 다운믹스, 예컨대, 위에서 특정된 c0, c1, c2를 생성하는 데 사용되는 다운믹스 계수 c는 에너지 보상된 다운믹스 계수를 산출하기 위해 이 에너지 보상 팩터 fcomp와 곱해질 수 있다. 소스 세트(201, 202)의 스케일 팩터 에너지를 병합하기 전에, 스케일 팩터 에너지(517)는 위에서 개략적으로 설명된 각각의 에너지 보상된 다운믹스 계수로 가중치 부여되거나 스케일링될 수 있다. 다운믹스 계수 c가 타임 도메인 신호에 대해서 규정된다는 사실을 감안해서서, 스케일 팩터 에너지(517)는 각각의 소스 채널의 에너지 보상된 다운믹스 계수의 제곱 값, 즉,
Figure pct00010
으로 스케일링될 수 있다. 그와 같이 해서, (fcomp)2의 연산은 충분할 수 있다는 점에 유의할 필요가 있다. 전형적으로, 이것은 fcomp의 결정을 위한 제곱근 연산이 생략될 수 있으므로 더욱 효율적으로 될 것임에 틀림없다.
전형적으로, 다운믹스 계수 c는 예를 들어 1과 같은 상수 값으로 가산되도록, 위에서 개략적으로 설명된 바와 같이 스케일링되거나 정규화될 수 있다. 값 1로 스케일링되는 경우에, 스케일링된 다운믹스 계수의 범위는 [0.01;1]로 제한된다. 그러나, 다운믹스 계수가 상이한 소스 채널의 관련 가중치 부여를 특정하는 데 사용된다는 사실을 감안해서, 상이한 상수 값이 일반화를 위해 선택될 수 있다. 결과적으로, 상기 제한 값은, 다운믹스 계수들 사이의 관련 비가 유지된다고하는 조건 하에서, 일정한 정규화된 값에 따라서, 증감될 수 있다.
단, 대안적인 실시형태에서, 에너지 보상은 저대역 다운믹스 신호에 적용될 수 있다는 점에 유의할 필요가 있다. 이는 에너지 보상 팩터가 고대역 신호와 저대역 신호 간에 균형을 유지하기 위해 적용된다는 사실에 기인한다. 이 균형은 역 에너지 보상 팩터를 다운믹스 신호의 다운믹싱 단계에 적용함으로써 유지될 수도 있다. 그러한 실시형태에서, 스케일 팩터 에너지를 위해 사용되는 다운믹스 계수는 변경되지 않고 남아있게 되며, 즉, 어떠한 다운믹스 보상도 받지 않게 된다.
본 명세서에서는, SBR 파라미터를 다운믹싱하는 방법 및 시스템이 설명되어 있다. 해당 설명된 방법 및 시스템은, N개 채널의 SBR 파라미터로부터 M개 채널의 SBR 파라미터를 생성하는 일반적인 병합 과정(M<N)의 실행을 허용한다. 특히, 상기 방법 및 시스템은 상이한 개시/정지 주파수를 지닌 채널의 SBR 파라미터를 병합하도록 한다. 또, 상기 방법 및 시스템은 상이한 스케일 팩터 대역 분할부를 가진 채널의 SBR 파라미터들을 병합하도록 한다. 또한, 과도 엔빌로프 정보의 정확한 병합을 위한 방법이 설명되어 있다. 또한, 다수의 채널 구성을 적합하게 다루는 것이 가능한 계층적 병합 과정이 설명되어 있다. 또한, 재구축된 고대역 신호의 에너지를 다운믹스된 신호의 저대역 신호의 에너지와 정합시키기 위하여, 두 에너지를 둔화하거나 강화하는, 적합한 에너지 보상 기술이 설명되어 있다. 그러한 보상 방식의 이용을 통해서, 시간 도메인 내의 다운믹싱 단계 동안 상이한 오디오 채널의 동위상 및/또는 역위상 거동이 인코딩된 도메인에서 직접 보상될 수 있다.
본 명세서에서 설명되는 다운믹싱 방법 및 시스템은 소프트웨어, 펌웨어, 하드웨어로서 구현될 수 있다. 소정의 구성요소는 예를 들어 디지털 신호 프로세서 또는 마이크로 프로세서에서 실행되는 소프트웨어로서 구현될 수 있다. 다른 구성요소는 하드웨어 및/또는 애플리케이션 특정 집적 회로(integrated circuit)로서 구현될 수 있다. 상기 설명된 방법 및 시스템에서 조우하게 되는 신호는 RAM(random access memory) 또는 광학 저장 매체와 같은 매체에 저장될 수 있다. 이들은 네트워크, 유선 네트워크, 무선 네트워크, 위성 네트워크, 무선 방송 네트워크, 예컨대, 인터넷을 통해 전송될 수 있다. 본 명세서에서 설명된 방법 및 시스템을 이용하는 전형적인 장치는 휴대용 전자 기기 또는 오디오 신호를 저장 및 렌더링하는 데 사용되는 기타 소비자 장비이다. 상기 방법 및 시스템은 다운로드를 위해 예를 들어 음악신호와 같은 오디오 신호를 저장 및 제공하는 인터넷 웹서버와 같은 컴퓨터 시스템 상에서도 사용될 수 있다.
100: HE-AAC 디코더
110: AAC 디코더
111: SBR 디코더
112: SBR 파라미터 병합 유닛
113: 시간 도메인 다운믹스 유닛
114: SBR 유닛
210: 기본 병합 유닛

Claims (36)

  1. 스펙트럼 밴드 복제 파라미터(spectral band replication parameter: 이하 "SBR 파라미터"라 지칭됨)의 제1 소스 세트(201, 512)와 제2 소스 세트(202, 522)를 SBR 파라미터의 타깃 세트(206, 532)로 병합하는 방법으로서,
    - 상기 제1 소스 세트(201, 512) 및 제2 소스 세트(202, 522)가 각각 서로 상이한 제1 주파수 대역 분할부(first frequency band partitioning)(513, 514) 및 제2 주파수 대역 분할부(523, 524, 525)를 포함하고
    - 상기 제1 소스 세트(201, 512)가 상기 제1 주파수 대역 분할부(513, 514)의 주파수 대역(511)과 연관되는 제1 세트의 에너지 관련 값(515, 516, 517)을 포함하며
    - 상기 제2 소스 세트(202, 522)가 상기 제2 주파수 대역 분할부(523, 524, 525)의 주파수 대역과 연관된 제2 세트의 에너지 관련 값(526, 527, 528, 529)을 포함하고
    - 상기 타깃 세트(206, 532)는 기본 주파수 대역(elementary frequency band)(543)과 연관된 타깃 에너지 관련 값(533)을 포함하며
    상기 방법은
    - 상기 제1 주파수 대역 분할부(513, 514)와 상기 제2 주파수 대역 분할부(523, 524, 525)를, 상기 기본 주파수 대역(543)을 포함하는 조인트 그리드(joint grid)(541, 542)로 분해시키는 단계
    - 상기 제1 세트의 에너지 관련 값(515, 516, 517) 중 제1 값(517)을 상기 기본 주파수 대역(543)에 할당하는 단계
    - 상기 제2 세트의 에너지 관련 값(526, 527, 528, 529) 중 제2 값(529)을 상기 기본 주파수 대역(543)에 할당하는 단계 및
    - 상기 기본 주파수 대역(543)에 대한 상기 타깃 에너지 관련 값(533)을 산출하도록 상기 제1 값(517)과 제2 값(529)을 합하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    - 상기 제1 값(517)은 상기 기본 주파수 대역(543)을 포함하는 상기 제1 주파수 대역 분할부(513, 514)의 주파수 대역(511)과 연관된 상기 에너지 관련 값에 상응하고,
    - 상기 제2 값(529)은 상기 기본 주파수 대역(543)을 포함하는 상기 제2 주파수 대역 분할부(523, 524, 525)의 주파수 대역과 연관된 상기 에너지 관련 값에 상응하는 것인 방법.
  3. 제1항 또는 제2항에 있어서,
    - 상기 조인트 그리드(541, 542)는, 상기 SBR 파라미터를 결정하는 데 사용되는 직교 미러 필터 뱅크("QMF 필터 뱅크"라 지칭됨)와 연관되고
    - 상기 기본 주파수 대역(543)은 QMF 하위대역(subband)인 것인 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    - 상기 타깃 에너지 관련 값(533)을 기여하는 소스 세트들의 수에 의해 정규화(normalizing)하는 단계를 추가로 포함하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 타깃 세트(206, 532)는 한 세트의 타깃 에너지 관련 값(533)을 포함하고
    상기 방법은
    - 상기 조인트 그리드(541, 542)의 모든 기본 주파수 대역(543)에 대해서 상기 할당하는 단계와 상기 합하는 단계를 반복함으로써, 상기 타깃 에너지 관련 값(533)의 세트를 생성하는 단계를 추가로 포함하는 방법.
  6. 제5항에 있어서, 상기 타깃 세트(206, 532)는 미리 규정된 타깃 주파수 대역을 지니는 타깃 주파수 대역 분할부를 포함하고
    상기 방법은
    - 상기 타깃 주파수 대역 내에 포함되는 상기 기본 주파수 대역(543)과 연관된 상기 세트의 타깃 에너지 관련 값(533)을 평균내는 단계 및
    - 평균된 값을 상기 타깃 주파수 대역의 상기 타깃 에너지 관련 값으로서 할당하는 단계를 추가로 포함하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    - 상기 에너지 관련 값은 스케일 팩터 에너지(scale factor energy)이며 상기 주파수 대역은 스케일 팩터 대역(scale factor bands)이고/이거나
    - 상기 에너지 관련 값은 노이즈 플로어 스케일 팩터 에너지(noise floor scale factor energy)이고 상기 주파수 대역은 노이즈 플로어 스케일 팩터 대역(noise floor scale factor band)인 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    - 상기 제1 소스 세트(201, 512)는 제1 소스 채널의 제1 저대역 신호와 연관되고
    - 상기 제2 소스 세트(202, 522)는 제2 소스 채널의 제2 저대역 신호와 연관되며
    - 상기 타깃 세트(206, 532)는 상기 제1 및 제2 저대역 신호의 시간-도메인 다운믹싱으로부터 얻어진 타깃 채널의 타깃 저대역 신호와 연관되는 것인 방법.
  9. 제8항에 있어서,
    -타깃 에너지 관련 값(533)은 상기 타깃 저대역 신호의 타깃 시간 간격과 연관되고
    -제1 세트의 에너지 관련 값(515, 516, 517)은 상기 제1 저대역 신호의 제1 시간 간격과 연관되되, 상기 제1 시간 간격은 상기 타깃 시간 간격과 중첩(overlap)되며
    - 상기 합하는 단계는
    상기 제1 시간 간격과 상기 타깃 시간 간격의 중첩 길이 및 상기 타깃 시간 간격의 길이에 의해 부여되는 비율에 따라서 상기 제1 값(517)을 스케일링(scaling)하는 단계 및 스케일링된 상기 제1 값(517)과 상기 제2 값(529)을 합하는 단계를 포함하는 것인 방법.
  10. 제9항에 있어서,
    - 상기 제1 소스 세트(201, 512)는 제3 주파수 대역 분할부를 포함하고
    - 상기 제1 소스세트(201, 512)는 상기 제3 주파수 대역 분할부의 주파수 대역과 연관되는 제3 세트의 에너지 관련 값을 포함하며
    - 상기 제3 세트의 에너지 관련 값은 상기 제1 저대역 신호의 제3 시간 간격과 관련되되, 상기 제3 식간 간격은 상기 타깃 시간 간격과 중첩되고
    상기 방법은
    - 상기 제3 주파수 대역 분할부를, 상기 기본 주파수 대역(543)을 포함하는 상기 조인트 그리드(541, 542)로 분해시키는 단계
    - 상기 제3 세트의 에너지 관련 값 중 제3 값을 상기 기본 주파수 대역(543)에 할당하는 단계를 포함하며,
    상기 합하는 단계는:
    - 상기 제3 시간 간격과 상기 타깃 시간 간격의 중첩 길이와 상기 타깃 시간 간격의 상기 길이에 의해 부여되는 비율에 따라서 상기 제3 값을 스케일링하는 단계 및
    - 스케일링된 상기 제1 값(517), 상기 제2 값(529) 및 스케일링된 상기 제3 값을 합하는 단계를 포함하는 것인 방법.
  11. 제8항에 있어서,
    - 상기 제1 세트의 에너지 관련 값(515, 516, 517)을 제1 다운믹스 계수에 의해 스케일링하는 단계 및
    - 상기 제2 세트의 에너지 관련 값(526, 527, 528, 529)을 제2 다운믹스 계수에 의해 스케일링하는 단계를 포함하되,
    상기 제1 및 제2 다운믹스 계수는 상기 제1 및 제2 소스 채널과 각각 연관되는 것인 방법.
  12. 제11항에 있어서, 상기 스케일링하는 단계들 전에, 상기 방법은,
    - 상기 제1 및 제2 다운믹스 계수에 에너지 보상 팩터에 의해 가중치 부여하는(weighting) 단계를 포함하되, 상기 에너지 보상 팩터는 시간-도메인 다운믹싱 동안 상기 제1 및 제2 저대역 신호의 상호작용과 연관되는 것인 방법.
  13. 제12항에 있어서,
    - 상기 에너지 보상 팩터는 상기 타겟 저대역 신호의 상기 에너지 및 상기 제1 및 제2 저대역 신호의 합해진 에너지의 상기 비와 연관되는 것인 방법.
  14. 제13항에 있어서,
    - N개의 소스 채널이 병합되어 M개의 타깃 채널을 얻되, N≥2이고, M<N 및 M≥1이며
    - 상기 에너지 보상 팩터(fcomp)는 다음 식:
    Figure pct00011

    으로 부여되고,
    - xin[chin][n]는 상기 소스 채널(chin) 내의 저대역 시간 도메인 신호이고, cchin은 상기 소스 채널(chin)에 대한 다운믹스 계수이며, xdmx[chout][n]은 상기 타깃 채널(chout)의 저대역 시간 도메인 신호이고, n은 상기 시간 도메인 내의 상기 신호의 프레임 내에 있는 신호 샘플들의 세트의 샘플 인덱스인 것인 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서,
    - 상기 제1 소스 세트(201, 512)는 제1 개시 주파수(551)를 포함하고
    - 상기 제2 소스 세트(202, 522)는 제2 개시 주파수(552)를 포함하며
    - 상기 제1 개시 주파수(551)와 상기 제2 개시 주파수(552)는 상이하고, 각각 상기 제1 대역 분할부(513, 514) 및 제2 대역 분할부(523, 524, 525)의 더 낮은 영역대(bound)와 연관되며
    상기 방법은
    - 상기 제1 개시 주파수(551)와 상기 제2 개시 주파수(552)를 비교하는 단계 및
    - 상기 제1 개시 주파수(551)와 상기 제2 개시 주파수(552) 중 더 높거나 더 낮은 것을 상기 타깃 세트의 개시 주파수(553)로서 선택하는 단계를 추가로 포함하는 방법.
  16. 제15항에 있어서,
    -제1 소스 세트(201, 512)는 상기 제1 개시 주파수(551)를 포함하는 제1 SBR 요소 헤더를 포함하고
    - 상기 제2 소스 세트(202, 522)는 상기 제2 개시 주파수(552)를 포함하는 제2 SBR 요소 헤더를 포함하며
    상기 방법은:
    - 상기 타깃 세트(206, 532)의 선택된 상기 개시 주파수(553)에 따라서 상기 제1 또는 제2 SBR 요소 헤더를 기초로 해서 상기 타깃 세트(206, 532)의 SBR 요소 헤더를 선택하는 단계를 추가로 포함하는 방법.
  17. 제16항에 있어서,
    - 상기 타깃 세트(206, 532)가 채널 쌍 요소이고 상기 소스 세트(201, 512, 202, 522)가 적어도 하나의 채널 쌍 요소를 포함한다면, 상기 타깃 세트(206, 532)의 상기 SBR 요소 헤더는 채널 쌍 요소를 포함하는 상기 소스 세트들(201, 512, 202, 522) 중 하나로부터 선택되고/되거나
    - 상기 타깃 세트(206, 532)가 채널 쌍 요소이고 상기 소스 세트(201, 512, 202, 522) 중 어느 것도 채널 쌍 요소가 아니면, 상기 최고 혹은 최저 개시 주파수를 포함하는 상기 소스 세트의 상기 SBR 요소 헤더는 상기 타깃 세트(206, 532)의 상기 SBR 요소 헤더에 대한 기초로서 선택되고/되거나
    - 상기 타깃 세트(206, 532)가 단일 채널 요소이고 상기 소스 세트(201, 512, 202, 522) 중 적어도 하나가 단일 채널 요소이면, 상기 타깃 세트(206, 532)의 상기 SBR 요소 헤더는 단일 채널 요소를 포함하는 상기 소스 세트들 중 하나로부터 상기 SBR 요소 헤더로서 선택되고/되거나,
    - 상기 타깃 세트(206, 532)가 단일 채널 요소이고 상기 소스 세트(201, 512, 202, 522)가 모두 채널 쌍 요소이면, 상기 최고 또는 최저 개시 주파수를 포함하는 상기 소스 세트의 상기 SBR 요소 헤더는 상기 타깃 세트(206, 532)의 상기 SBR 요소에 대한 기초로서 사용되는 것인 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서,
    - 상기 제1 소스 세트(201)는 제1 과도 엔빌로프 인덱스(first transient envelope index)를 포함하고, 상기 제1 과도 엔빌로프 인덱스가 제1 개시 시간 경계(417)에 의해 제1 과도 엔빌로프(414)를 식별하며
    - 상기 제2 소스 세트(202)는 제2 과도 엔빌로프 인덱스를 포함하고, 상기 제2 과도 엔빌로프 인덱스는 제2 개시 시간 경계(426)에 의해 제2 과도 엔빌로프(423)를 식별하며
    - 상기 타깃 세트(206)는 각각 개시 시간 경계를 포함하는 복수의 타깃 엔빌로프를 포함하고
    - 상기 제1 과도 엔빌로프(414), 상기 제2 과도 엔빌로프(423) 및 상기 복수의 타깃 엔빌로프는 각각 제1 소스 신호, 제2 소스 신호 및 타깃 신호의 하나 이상의 시간 간격과 연관되고
    상기 방법은
    - 상기 제1 개시 시간 경계(417) 및 제2 개시 시간 경계(426) 중 더 빠른 것(426)을 선택하는 단계
    - 상기 복수의 타깃 엔빌로프 중에서, 상기 제1 개시 시간 경계(417) 및 제2 개시 시간 경계(426) 중 더 빠른 것(426)에 가장 가까운 상기 개시 경계 시간을 지니는 엔빌로프를, 타깃 과도 엔빌로프로서 결정하는 단계 및
    - 상기 타깃 과도 엔빌로프를 식별하도록 타깃 과도 엔빌로프 인덱스를 설정하는 단계를 추가로 포함하는 방법.
  19. SBR 파라미터의 제1 소스 세트(201, 512) 및 제2 소스 세트(502, 522)를 SBR 파라미터의 타깃 세트(206, 532)로 병합하는 방법으로서,
    - 상기 제1 소스 세트(201, 512)가 제1 개시 주파수(551)를 포함하고
    - 상기 제2 소스 세트(202, 522)가 제2 개시 주파수(552)를 포함하며
    - 상기 제1 개시 주파수(551)와 상기 제2 개시 주파수(552)는 상이하고, 또한 각각 SBR 파라미터의 상기 제1 소스 세트(201, 512) 및 제2 소스 세트(202, 522)와 연관되는 제1 및 제2 고대역 신호의 더 낮은 주파수 영역대와 각각 연관되고
    상기 방법은
    - 상기 제1 개시 주파수(551) 및 제2 개시 주파수(552)를 비교하는 단계 및
    - 상기 제1 개시 주파수(551) 및 제2 개시 주파수(552) 중 더 높거나 더 낮은 것을 상기 타깃 세트(206, 532)의 개시 주파수(553)로서 선택하는 단계를 포함하는 방법.
  20. 제19항에 있어서,
    - 상기 제1 소스 세트(201, 512)는 상기 제1 개시 주파수(551)를 포함하는 제1 SBR 요소 헤더를 포함하고
    - 상기 제2 소스 세트(202, 522)는 상기 제2 개시 주파수(552)를 포함하는 제2 SBR 요소 헤더를 포함하며
    상기 방법은
    - 상기 타깃 세트(206, 532)의 선택된 상기 개시 주파수(553)에 따라서 상기 제1 또는 제2 SBR 요소 헤더를 기초로 해서 상기 타깃 세트(206, 532)의 SBR 요소 헤더를 선택하는 단계를 추가로 포함하는 방법.
  21. SBR 파라미터의 제1 소스 세트(201, 512) 및 제2 소스 세트(202, 522)를 SBR 파라미터의 타깃 세트(206, 532)로 병합하는 방법에 있어서,
    - 상기 제1 소스 세트(201, 512)가 제1 소스 채널의 제1 저대역 신호와 연관되고 제1 세트의 스케일 팩터 에너지(515, 516, 517)를 포함하며
    - 상기 제2 소스 세트(502, 522)가 제2 소스 채널의 제2 저대역 신호와 연관되고 제2 세트의 스케일 팩터 에너지(526, 527, 528, 529)를 포함하며
    - 상기 타깃 세트(206, 532)가 상기 제1 및 제2 저대역 신호의 시간-도메인 다운믹싱으로부터 얻어진 타깃 채널의 타깃 저대역 신호와 연관되며
    - 상기 타깃 세트(206, 532)가 스케일 팩터 에너지(533)의 타깃 세트를 포함하고
    상기 방법은
    - 제1 및 제2 다운믹스 계수에 에너지 보상 팩터에 의해 가중치 부여하는 단계
    - 상기 제1 세트의 스케일 팩터 에너지(515, 516, 517)를 가중된 상기 제1 다운믹스 계수에 의해 스케일링하는 단계
    - 상기 제2 세트의 스케일 팩터 에너지(526, 527, 528, 529)를 가중된 상기 제2 다운믹스 계수에 의해 스케일링하는 단계 및
    - 스케일링된 상기 제1 세트의 스케일 팩터 에너지(515, 516, 517)와 스케일링된 상기 제2 세트의 스케일 팩터 에너지(526, 527, 528, 529)로부터 상기 스케일 팩터 에너지(533)의 타깃 세트를 결정하는 단계를 포함하되,
    상기 제1 다운믹스 계수가 제1 소스 채널과 연관되고, 상기 제2 다운믹스 계수가 상기 제2 소스 채널과 연관되며, 상기 에너지 보상 팩터는 시간-도메인 다운믹싱 동안 상기 제1 및 제2 저대역 신호의 상호작용과 연관되는 것인 방법.
  22. 제21항에 있어서, 상기 에너지 보상 팩터는 상기 타깃 저대역 신호의 에너지와 상기 제1 및 제2 저대역 신호의 합해진 에너지의 비와 연관되는 것인 방법.
  23. SBR 파라미터의 제1 소스 세트(201) 및 제2 소스 세트(202)를 SBR 파라미터의 타깃 세트(206)로 병합하는 방법에 있어서,
    - 상기 제1 소스 세트(201)가 제1 과도 엔빌로프 인덱스를 포함하고, 해당 제1 과도 엔빌로프 인덱스는 제1 개시 시간 경계(417)에 의해 제1 과도 엔빌로프(414)를 식별하며
    - 상기 제2 소스 세트(202)가 제2 과도 엔빌로프 인덱스를 포함하고, 해당 제2 과도 엔빌로프 인덱스는 제2 개시 시간 경계(426)에 의해 제2 과도 엔빌로프(423)를 식별하며
    - 상기 제1 과도 엔빌로프(414), 상기 제2 과도 엔빌로프(423) 및 복수의 타깃 엔빌로프는 각각 제1 소스 신호, 제2 소스 신호 및 타깃 신호의 하나 이상의 시간 간격과 연관되고
    상기 방법은
    - 상기 제1 개시 시간 경계(417) 및 제2 개시 시간 경계(426) 중 더 빠른 것을 선택하는 단계
    - 상기 복수의 타깃 엔빌로프 중에서, 상기 제1 개시 시간 경계(417) 및 제2 개시 시간 경계(426) 중 상기 더 빠른 것(426)에 가장 가까운 상기 개시 시간 경계를 지니는 엔빌로프를, 타깃 과도 엔빌로프로서 결정하는 단계 및
    - 타깃 과도 엔빌로프 인덱스를 설정하여 상기 타깃 과도 엔빌로프를 식별하는 단계를 포함하는 방법.
  24. 제23항에 있어서, 상기 결정하는 단계는, 상기 복수의 타깃 엔빌로프 중에서, 상기 제1 개시 시간 경계(417) 및 제2 개시 시간 경계(426) 중 빠른 것에 가장 가깝지만 상기 제1 및 제2 개시 시간 경계 중 빠른 것보다 지연되지 않은 상기 개시 시간 경계(426)를 지니는 엔빌로프를, 타깃 과도 엔빌로프로서 결정하는 단계를 포함하는 것인 방법.
  25. 제1항 내지 제24항 중 어느 한 항에 있어서, SBR 파라미터의 각 소스 세트는 HE-AAC(High-Efficiency Advanced Audio Coding) 비트스트림의 채널과 연관된 SBR 파라미터에 상응하는 것인 방법.
  26. SBR 파라미터의 N개의 소스 세트(201, 202, 203, 204, 205)를 SBR 파라미터의 M개의 타깃 세트(208, 209)로 병합하는 방법으로서,
    -N은 2보다 크고
    -M은 N보다 작으며
    상기 방법은
    - 중간 세트(206)를 생성하도록 한 쌍의 소스 세트(201, 202)를 병합하는 단계 및
    - 타깃 세트(208)를 생성하도록 상기 중간 세트(206)를 소스 세트(204) 또는 다른 중간 세트와 병합하는 단계를 포함하는 방법.
  27. 제26항에 있어서, 상기 병합하는 단계들은 상기 제1항 내지 제25항 중 어느 한 항에 기재된 방법에 따라서 수행되는 것인 방법.
  28. 제26항 또는 제27항에 있어서, 더 높은 음향 관련도(acoustic relevance)의 소스 채널에 상응하는 소스 세트(201, 202)가 더 낮은 음향 관련도의 소스 채널에 상응하는 소스 세트보다 덜 자주 병합되는 것인 방법.
  29. 컴퓨터 장치에서 수행될 경우 제1항 내지 제28항 중 어느 한 항에 기재된 방법의 단계들을 수행하기 위하여 그리고 프로세서 상에서의 실행을 위하여 적합화된 소프트웨어 프로그램.
  30. 컴퓨터 장치에서 수행될 경우 제1항 내지 제28항 중 어느 한 항에 기재된 방법의 단계들을 수행하기 위하여 그리고 프로세서 상에서의 실행을 위하여 적합화된 소프트웨어 프로그램을 포함하는 저장 매체.
  31. 컴퓨터 상에서 실행될 경우 제1 항 내지 제28 항 중 어느 한 항에 기재된 방법을 수행하기 위한 실행 가능 명령들을 포함하는 컴퓨터 프로그램 제품.
  32. SBR 파라미터의 N개의 소스 세트(201, 202, 203, 204, 205)로부터 SBR 파라미터의 M개의 타깃 세트(208, 209)를 제공하도록 구성된 SBR 파라미터 병합 유닛(112)으로서, N>M≥1이고, 상기 SBR 파라미터 병합 유닛은 제1항 내지 제28항 중 어느 한 항에 기재된 방법의 단계들을 수행하도록 구성된 프로세서를 포함하는 SBR 파라미터 병합 유닛(112).
  33. N개의 오디오 채널을 포함하는 HE-AAC 비트스트림을 디코딩하도록 구성된 오디오 디코더로서,
    - 인코딩된 상기 HE-AAC 비트스트림을 수신하고 별도의 SBR 비트스트림을 제공하도록 구성된 AAC 디코더
    - 상기 SBR 비트스트림으로부터 상기 N개의 오디오 채널에 상응하는 SBR 파라미터의 N개의 소스 세트를 제공하도록 구성된 SBR 디코더 및
    - 상기 SBR 파라미터의 N개의 소스 세트(201, 202, 203, 204, 205)로부터 SBR 파라미터의 M개의 타깃 세트(208, 209)를 제공하도록 구성된 제32항에 따른 SBR 파라미터 병합 유닛(112)을 포함하되,
    N>M≥1인 것인 오디오 디코더.
  34. 제33항에 있어서, 상기 AAC 디코더는 상기 N개의 오디오 채널에 상응하는 N개의 시간 도메인 저 대역 오디오 신호를 제공하도록 추가로 구성되고,
    상기 오디오 디코더는
    - 상기 N개의 시간 도메인 저대역 오디오 신호로부터 M개의 시간 도메인 저대역 오디오 신호를 제공하도록 구성된 시간 도메인 다운믹스 유닛 및
    - 상기 M개의 저대역 오디오 신호 및 SBR 파라미터의 상기 M개의 타깃 세트로부터 M개의 고대역 오디오 신호를 생성하도록 구성된 SBR 유닛을 추가로 포함하며
    상기 오디오 디코더는 상기 M개의 저대역 오디오 신호와 상기 M개의 고대역 오디오 신호를 각각 포함하는 M개의 오디오 신호를 제공하도록 구성된 것인 오디오 디코더.
  35. N개의 오디오 채널을 포함하는 HE-AAC 비트스트림으로부터의 M개의 오디오 채널을 포함하는HE-AAC 비트 스트림을 제공하도록 구성된 오디오 트랜스코더(audio transcoder)로서, N>M≥1이고, 상기 오디오 트랜스코더는 제32항에 기재된 SBR 파라미터 병합 유닛(112)을 포함하는 것인 오디오 트랜스 코더.
  36. N개의 오디오 채널을 포함하는 HE-AAC 비트스트림으로부터의 M개의 오디오 채널에 상응하는 M개의 오디오 신호를 렌더링(rendering)하도록 구성된 전자 기기로서,
    N>M≥1이고, 상기 전자 기기는,
    - 상기 M개의 오디오 신호의 상기 음향 렌더링을 수행하도록 구정된 오디오 렌더링 수단
    - 인코딩된 상기 HE-AAC 비트스트림을 수신하도록 구성된 수신기 및
    - 제33항 내지 제33항 중 어느 한 항에 따른 상기 HE-AAC 비트스트림으로부터 상기 M개의 오디오 신호를 제공하도록 구성된 오디오 디코더를 포함하는 전자기기.
KR1020127014575A 2009-12-16 2010-12-14 Sbr 비트스트림 파라미터 다운믹스 KR101370870B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US28691209P 2009-12-16 2009-12-16
US61/286,912 2009-12-16
PCT/EP2010/069651 WO2011073201A2 (en) 2009-12-16 2010-12-14 Sbr bitstream parameter downmix

Publications (2)

Publication Number Publication Date
KR20120089333A true KR20120089333A (ko) 2012-08-09
KR101370870B1 KR101370870B1 (ko) 2014-03-07

Family

ID=43733150

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127014575A KR101370870B1 (ko) 2009-12-16 2010-12-14 Sbr 비트스트림 파라미터 다운믹스

Country Status (14)

Country Link
US (1) US9508351B2 (ko)
EP (1) EP2513899B1 (ko)
JP (2) JP5298245B2 (ko)
KR (1) KR101370870B1 (ko)
CN (2) CN103854651B (ko)
AU (1) AU2010332925B2 (ko)
BR (1) BR112012014856B1 (ko)
CA (1) CA2779388C (ko)
IL (1) IL219506A (ko)
MX (1) MX2012006823A (ko)
MY (1) MY166998A (ko)
RU (1) RU2526745C2 (ko)
UA (1) UA101291C2 (ko)
WO (1) WO2011073201A2 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
AR077680A1 (es) 2009-08-07 2011-09-14 Dolby Int Ab Autenticacion de flujos de datos
TWI413110B (zh) 2009-10-06 2013-10-21 Dolby Int Ab 以選擇性通道解碼的有效多通道信號處理
WO2011048010A1 (en) 2009-10-19 2011-04-28 Dolby International Ab Metadata time marking information for indicating a section of an audio object
ES2656668T3 (es) * 2009-10-21 2018-02-28 Dolby International Ab Sobremuestreo en un banco de filtros de reemisor combinado
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
TWI462087B (zh) * 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
US9070361B2 (en) * 2011-06-10 2015-06-30 Google Technology Holdings LLC Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component
US10178489B2 (en) * 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
CN110223703B (zh) 2013-04-05 2023-06-02 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
CN110010140B (zh) 2013-04-05 2023-04-18 杜比国际公司 立体声音频编码器和解码器
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830051A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
TWI557726B (zh) 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
KR102467707B1 (ko) 2013-09-12 2022-11-17 돌비 인터네셔널 에이비 Qmf 기반 처리 데이터의 시간 정렬
WO2015145660A1 (ja) * 2014-03-27 2015-10-01 パイオニア株式会社 音響装置、欠落帯域推定装置、信号処理方法及び周波数帯域推定装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
WO2005043511A1 (en) * 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
AU2004317678C1 (en) 2004-03-12 2009-09-24 Nokia Technologies Oy Synthesizing a mono audio signal based on an encoded multichannel audio signal
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
ATE433182T1 (de) * 2005-07-14 2009-06-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
JP4728398B2 (ja) * 2005-09-14 2011-07-20 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US20080221907A1 (en) * 2005-09-14 2008-09-11 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
US20080262853A1 (en) * 2005-10-20 2008-10-23 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
CN101292285B (zh) * 2005-10-20 2012-10-10 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
US8433583B2 (en) * 2006-03-29 2013-04-30 Koninklijke Philips International N.V. Audio decoding
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US8280744B2 (en) * 2007-10-17 2012-10-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio object encoder, method for decoding a multi-audio-object signal, multi-audio-object encoding method, and non-transitory computer-readable medium therefor
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
KR101413968B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
RU2488896C2 (ru) * 2008-03-04 2013-07-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Микширование входящих информационных потоков и генерация выходящего информационного потока
WO2017018841A1 (ko) 2015-07-28 2017-02-02 주식회사 엘지화학 가소제 조성물, 수지 조성물 및 이들의 제조 방법

Also Published As

Publication number Publication date
US9508351B2 (en) 2016-11-29
AU2010332925A1 (en) 2012-05-31
BR112012014856A2 (ko) 2021-11-03
CN102667920B (zh) 2014-03-12
MX2012006823A (es) 2012-07-23
IL219506A (en) 2014-09-30
RU2012124827A (ru) 2014-01-27
CA2779388C (en) 2015-11-10
WO2011073201A3 (en) 2011-10-06
BR112012014856B1 (pt) 2022-10-18
JP2013210674A (ja) 2013-10-10
CA2779388A1 (en) 2011-06-23
AU2010332925B2 (en) 2013-07-11
KR101370870B1 (ko) 2014-03-07
MY166998A (en) 2018-07-27
UA101291C2 (ru) 2013-03-11
EP2513899A2 (en) 2012-10-24
EP2513899B1 (en) 2018-02-14
JP5298245B2 (ja) 2013-09-25
WO2011073201A2 (en) 2011-06-23
JP2013511752A (ja) 2013-04-04
RU2526745C2 (ru) 2014-08-27
US20120275607A1 (en) 2012-11-01
CN102667920A (zh) 2012-09-12
CN103854651A (zh) 2014-06-11
CN103854651B (zh) 2017-04-12
IL219506A0 (en) 2012-06-28
JP5539573B2 (ja) 2014-07-02

Similar Documents

Publication Publication Date Title
KR101370870B1 (ko) Sbr 비트스트림 파라미터 다운믹스
KR100602975B1 (ko) 오디오 복호 장치와 복호 방법 및 프로그램을 기록한 컴퓨터 판독가능 기록매체
US8639500B2 (en) Method, medium, and apparatus with bandwidth extension encoding and/or decoding
JP6155274B2 (ja) 過剰サンプリングされたsbrを使ったアップサンプリング
JP7317882B2 (ja) インターリーブされた波形符号化のためのデコード方法、デコーダ、媒体およびエンコード方法
KR101278546B1 (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
KR101376098B1 (ko) 대역폭 확장 복호화 방법 및 장치
US20140205101A1 (en) Encoding device and method, decoding device and method, and program
KR20110095354A (ko) 오디오 인코더 및 대역폭 확장 디코더
JP2006201802A (ja) 情報源符号化システムの性能向上装置
JP3519859B2 (ja) 符号器及び復号器
RU2420026C2 (ru) Способы и устройства для кодирования и декодирования аудиосигналов на основе объектов
JP6061121B2 (ja) オーディオ符号化装置、オーディオ符号化方法、およびプログラム
JP2014509408A (ja) オーディオ符号化方法および装置
AU2013242852B2 (en) Sbr bitstream parameter downmix
JP2007004050A (ja) ステレオ信号の符号化装置及び符号化プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170223

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180209

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190213

Year of fee payment: 6