KR20170126996A - 다채널 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더 - Google Patents

다채널 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더 Download PDF

Info

Publication number
KR20170126996A
KR20170126996A KR1020177028167A KR20177028167A KR20170126996A KR 20170126996 A KR20170126996 A KR 20170126996A KR 1020177028167 A KR1020177028167 A KR 1020177028167A KR 20177028167 A KR20177028167 A KR 20177028167A KR 20170126996 A KR20170126996 A KR 20170126996A
Authority
KR
South Korea
Prior art keywords
signal
channel
encoder
decoder
band
Prior art date
Application number
KR1020177028167A
Other languages
English (en)
Other versions
KR102151719B1 (ko
Inventor
사샤 디쉬
기욤 훅스
엠마누엘 라벨리
크리스찬 네우캄
콘스탄틴 슈미트
콘라트 벤도르프
안드레아스 니더마이어
벤자민 슈베르트
랄프 가이거
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20170126996A publication Critical patent/KR20170126996A/ko
Application granted granted Critical
Publication of KR102151719B1 publication Critical patent/KR102151719B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2")가 도시된다. 도메인 인코더는 다운믹스된 신호(14)를 얻기 위해 다채널 신호(4)를 다운믹스하기 위한 다운믹서(12), 다운믹스 신호(14)를 인코딩하기 위한 선형 예측 도메인 코어 인코더(16) ― 다운믹스 신호(14)는 저대역 및 고대역을 갖고, 선형 예측 도메인 코어 인코더(16)는 고대역을 파라메트릭 인코딩하기 위해 대역폭 확장 처리를 적용하도록 구성됨 ―, 다채널 신호(4)의 스펙트럼 표현을 생성하기 위한 필터 뱅크(82), 및 다채널 신호의 저대역 및 고대역을 포함하는 스펙트럼 표현을 처리하여 다채널 정보(20)를 생성하도록 구성된 조인트 다채널 인코더(18)를 포함한다.

Description

다채널 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더
본 발명은 다채널 오디오 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더에 관한 것이다. 실시예들은 대역폭 확장을 위해 사용되는 것이 아닌 다채널 처리(DFT)를 위한 필터 뱅크를 사용하는 LPD 모드에서의 다채널 코딩에 관한 것이다.
오디오 신호들의 효율적인 저장 또는 송신을 위한 데이터 축소를 목적으로 한 이러한 신호들의 지각적 코딩은 널리 사용되는 실시이다. 특히, 최고 효율이 달성되어야 할 때, 신호 입력 특성들에 밀접하게 적응되는 코덱들이 사용된다. 일례는 음성 신호들에 대한 대수 코드 여진 선형 예측(ACELP: Algebraic Code-Excited Linear Prediction) 코딩, 배경 잡음 및 혼합 신호들에 대한 변환 코드 여진(TCX: Transform Coded Excitation) 및 음악 콘텐츠에 대한 고급 오디오 코딩(AAC: Advanced Audio Coding)을 주로 사용하도록 구성될 수 있는 MPEG-D USAC 코어 코덱이다. 세 가지 내부 코덱 구성들 모두 신호 콘텐츠에 응답하여 신호 적응 방식으로 즉시 스위칭될 수 있다.
더욱이, 조인트 다채널 코딩 기술들(미드/사이드(Mid/Side) 코딩 등) 또는 최고 효율을 위한 파라메트릭 코딩 기술들이 이용된다. 파라메트릭 코딩 기술들은 기본적으로, 주어진 파형의 충실한 재구성보다는 지각적으로 동등한 오디오 신호의 재현을 목표로 한다. 예들은 잡음 채움, 대역폭 확장 및 공간 오디오 코딩을 포괄한다.
최첨단 코덱들에서 신호 적응형 코어 코더와 조인트 다채널 코딩 또는 파라메트릭 코딩 기술들을 결합할 때 코어 코덱은 신호 특성과 일치하도록 스위칭되지만 M/S-Stereo, 공간 오디오 코딩 또는 파라메트릭 스테레오와 같은 다채널 코딩 기술들의 선택은 계속 고정되어 있으며 신호 특성들에 독립적이다. 이러한 기술들은 일반적으로 코어 인코더에 대한 전처리기 및 코어 디코더의 후처리기로서 코어 코덱에 이용되는데, 이들 둘 다 코어 코덱의 실제 선택에 대해 모르고 있다.
다른 한편으로, 대역폭 확장을 위한 파라메트릭 코딩 기술들의 선택은 간혹 신호에 의존하게 된다. 예를 들어, 시간 도메인에서 적용된 기술들은 음성 신호들에 대해 더욱 효율적이데 반해, 주파수 도메인 처리는 다른 신호들과 더 관련이 있다. 이러한 경우, 채택된 다채널 코딩 기술들은 두 가지 타입들의 대역폭 확장 기술들과 호환 가능해야 한다.
최신 기술의 관련 주제들은 다음을 포함한다:
MPEG-D USAC 코어 코덱의 전처리기/후처리기로서 PS 및 MPS
MPEG-D USAC 표준
MPEG-H 3D 오디오 표준
MPEG-D USAC에서는, 스위칭 가능 코어 코더가 설명된다. 그러나 USAC에서 다채널 코딩 기술들은 ACELP 또는 TCX("LPD") 또는 AAC("FD")인 코딩 원리들의 그 내부 스위치와는 별개로, 전체 핵심 코더에 공통적인 고정된 선택으로서 정의된다. 따라서 스위치 코어 코덱 구성이 요구된다면, 전체 신호에 대해 코덱이 파라메트릭 다채널 코딩(PS)을 사용하도록 제한된다. 그러나 예를 들어, 음악 신호들을 코딩하기 위해, 주파수 대역마다 그리고 프레임마다 L/R(좌/우)과 및 M/S(미드/사이드) 방식 간에 동적으로 스위칭할 수 있는 조인트 스테레오 코딩을 사용하는 것이 보다 적절했을 것이다.
따라서 개선된 접근 방식이 필요하다.
오디오 신호를 처리하기 위한 개선된 개념을 제공하는 것이 본 발명의 과제이다. 이 목적은 독립항들의 요지에 의해 해결된다.
본 발명은 다채널 코더를 사용하는 (시간 도메인) 파라메트릭 인코더가 파라메트릭 다채널 오디오 코딩에 유리하다는 발견을 기반으로 한다. 다채널 코더는 각각의 채널에 대한 개별 코딩과 비교하여 코딩 파라미터들의 송신을 위한 대역폭을 감소시킬 수 있는 다채널 잔차 코더일 수 있다. 이것은 예를 들어, 주파수 도메인 조인트 다채널 오디오 코더와 결합하여 유리하게 사용될 수 있다. 예를 들어, 프레임 기반 결정이 현재 프레임을 시간 기반 또는 주파수 기반 인코딩 기간으로 향하게 할 수 있도록, 시간 도메인 및 주파수 도메인 조인트 다채널 코딩 기술들이 결합될 수 있다. 즉, 실시예들은 조인트 다채널 코딩 및 파라메트릭 공간 오디오 코딩을 사용하는 스위칭 가능한 코어 코덱을 코어 코더의 선택에 따라 상이한 다채널 코딩 기술들을 사용할 수 있게 하는 완전히 스위칭 가능한 지각 코덱으로 결합하기 위한 개선된 개념을 보여준다. 이는 이미 존재하는 방법들과는 대조적으로, 코어 코더와 함께 즉각적으로 스위칭될 수 있고 이에 따라 코어 코더의 선택에 밀접하게 매칭되고 적응될 수 있는 다채널 코딩 기술을 보여주기 때문에 유리하다. 따라서 다채널 코딩 기술들의 고정된 선택으로 인해 나타나는 서술된 문제들이 회피될 수 있다. 더욱이, 주어진 코어 코더 및 이와 연관되고 적응된 다채널 코딩 기술의 완전히 스위칭 가능한 결합이 가능해진다. 이러한 코더, 예를 들어 L/R 또는 M/S 스테레오 코딩을 사용하는 AAC(Advanced Audio Coding)는 예를 들어, 전용 조인트 스테레오 또는 다채널 코딩, 예컨대 M/S 스테레오를 사용하여 주파수 도메인(FD: frequency domain) 코어 코더에서 음악 신호를 인코딩할 수 있다. 이 결정은 각각의 오디오 프레임의 각각의 주파수 대역에 대해 개별적으로 적용될 수 있다. 예를 들어, 음성 신호의 경우, 코어 코더는 선형 예측 디코딩(LPD: linear predictive decoding) 코어 코더 및 이와 연관된 상이한, 예를 들어 파라메트릭 스테레오 코딩 기술들로 즉시 스위칭할 수 있다.
실시예들은 모노 LPD 경로에 고유한 스테레오 처리 및 스테레오 FD 경로의 출력을 LPD 코어 코더로부터의 출력 및 그것의 전용 스테레오 코딩과 결합하는 스테레오 신호 기반 끊김 없는(seamless) 스위칭 방식을 보여준다. 이는 아티팩트가 없는 끊김 없는 코덱 스위칭이 가능하기 때문에 유리하다.
실시예들은 다채널 신호를 인코딩하기 위한 인코더에 관한 것이다. 인코더는 선형 예측 도메인 인코더 및 주파수 도메인 인코더를 포함한다. 더욱이, 인코더는 선형 예측 도메인 인코더와 주파수 도메인 인코더 사이에서 스위칭하기 위한 제어기를 포함한다. 더욱이, 선형 예측 도메인 인코더는 다운믹스 신호를 얻기 위해 다채널 신호를 다운믹스하기 위한 다운믹서, 다운믹스 신호를 인코딩하기 위한 선형 예측 도메인 코어 인코더, 및 다채널 신호로부터 제 1 다채널 정보를 생성하기 위한 제 1 다채널 인코더를 포함할 수 있다. 주파수 도메인 인코더는 다채널 신호로부터 제 2 다채널 정보를 생성하기 위한 제 2 조인트 다채널 인코더를 포함하며, 여기서 제 2 다채널 인코더는 제 1 다채널 인코더와 상이하다. 제어기는 다채널 신호의 일부가 선형 예측 도메인 인코더의 인코딩된 프레임으로 또는 주파수 도메인 인코더의 인코딩된 프레임으로 표현되도록 구성된다. 선형 예측 도메인 인코더는 ACELP 코어 인코더 및 예를 들어, 제 1 조인트 다채널 인코더로서 파라메트릭 스테레오 코딩 알고리즘을 포함할 수 있다. 주파수 도메인 인코더는 예를 들어, 제 2 조인트 다채널 인코더로서 예를 들어, L/R 또는 M/S 처리를 이용하는 AAC 코어 인코더를 포함할 수 있다. 제어기는 예컨대, 음성 또는 음악과 같은, 예를 들어 프레임 특성들에 관한 다채널 신호를 분석하여, 각각의 프레임 또는 프레임들의 시퀀스, 또는 다채널 오디오 신호의 일부에 대해, 다채널 오디오 신호의 이 부분을 인코딩하기 위해 선형 예측 도메인 인코더가 사용될 것인지 아니면 주파수 도메인 인코더가 사용될 것인지를 결정할 수 있다.
실시예들은 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더를 추가로 보여준다. 오디오 디코더는 선형 예측 도메인 디코더 및 주파수 도메인 디코더를 포함한다. 더욱이, 오디오 디코더는 선형 예측 도메인 디코더의 출력을 사용하여 그리고 다채널 정보를 사용하여 제 1 다채널 표현을 생성하기 위한 제 1 조인트 다채널 디코더, 및 주파수 도메인 디코더의 출력 및 제 2 다채널 정보를 사용하여 제 2 다채널 표현을 생성하기 위한 제 2 다채널 디코더를 포함한다. 더욱이, 오디오 디코더는 디코딩된 오디오 신호를 얻기 위해 제 1 다채널 표현과 제 2 다채널 표현을 결합하기 위한 제 1 결합기를 포함한다. 결합기는 예를 들어, 선형 예측된 다채널 오디오 신호인 제 1 다채널 표현과 예를 들어, 주파수 도메인 디코딩된 다채널 오디오 신호인 제 2 다채널 표현 사이의 끊김 없고 아티팩트 없는 스위칭을 수행할 수 있다.
실시예들은 스위칭 가능한 오디오 코더 내에서 주파수 도메인 경로에서의 전용 스테레오 코딩 및 독립적인 AAC 스테레오 코딩과 LPD 경로에서의 ACELP/TCX 코딩의 결합을 보여준다. 더욱이, 실시예들은 LPD와 FD 스테레오 사이의 끊김 없는 즉각적인 스위칭을 보여주며, 여기서 추가 실시예들은 상이한 신호 콘텐츠 타입들에 대한 조인트 다채널 코딩의 독립적인 선택에 관한 것이다. 예를 들어, 주로 LPD 경로를 사용하여 코딩되는 음성의 경우에는 파라메트릭 스테레오가 사용되는 반면, FD 경로에서 코딩되는 음악의 경우에는 주파수 대역마다 그리고 프레임마다 L/R과 M/S 방식 간에 동적으로 스위칭할 수 있는 보다 적응적인 스테레오 코딩이 사용된다.
실시예들에 따르면, 주로 LPD 경로를 사용하여 코딩되고, 대개 스테레오 이미지의 중앙에 위치하는 음성의 경우, 단순한 파라메트릭 스테레오가 적합한 반면, FD 경로에서 코딩되는 음악은 대개 보다 정교한 공간 분포를 가지며, 주파수 대역마다 그리고 프레임마다 L/R 및 M/S 방식 간에 동적으로 스위칭할 수 있는 보다 적응적인 스테레오 코딩으로부터 이익을 얻을 수 있다.
추가 실시예들은, 다운믹스 신호를 얻기 위해 다채널 신호를 다운믹스하기 위한 다운믹서(12), 다운믹스 신호를 인코딩하기 위한 선형 예측 도메인 코어 인코더, 다채널 신호의 스펙트럼 표현을 생성하기 위한 필터 뱅크, 및 다채널 신호로부터 다채널 정보를 생성하기 위한 조인트 다채널 인코더를 포함하는 오디오 인코더를 보여준다. 다운믹스 신호는 저대역 및 고대역을 갖고, 여기서 선형 예측 도메인 코어 인코더는 고대역을 파라메트릭 인코딩하기 위해 대역폭 확장 처리를 적용하도록 구성된다. 더욱이, 다채널 인코더는 다채널 신호의 저대역 및 고대역을 포함하는 스펙트럼 표현을 처리하도록 구성된다. 이는 각각의 파라메트릭 코딩이 파라미터들을 얻기 위해 최적의 시간-주파수 분해를 사용할 수 있기 때문에 유리하다. 이것은 예를 들어, 대수 부호 여진 선형 예측(ACELP) + 시간 도메인 대역폭 확장(TDBWE: Time Domain Bandwidth Extension)― 여기서 ACELP는 오디오 신호의 저대역을 인코딩할 수 있고 TDBWE는 오디오 신호의 고대역을 인코딩할 수 있음 ― 및 파라메트릭 다채널 코딩과 외부 필터 뱅크(예컨대, DFT)의 결합을 사용하여 구현될 수 있다. 이 결합은 음성에 대한 최상의 대역폭 확장은 시간 도메인에서 그리고 다채널 처리는 주파수 도메인에서 이루어져야 한다고 알려져 있기 때문에 특히 효율적이다. ACELP + TDBWE는 시간-주파수 변환기도 갖지 않으므로, DFT와 같은 외부 필터 뱅크 또는 변환이 유리하다. 더욱이, 다채널 프로세서의 프레이밍은 ACELP에서 사용되는 것과 동일할 수 있다. 주파수 도메인에서 다채널 처리가 수행되더라도, 파라미터들을 계산하거나 다운믹스하기 위한 시간 분해능은 ACELP의 프레이밍에 이상적으로 가깝거나 심지어는 같아야 한다.
상이한 신호 콘텐츠 타입들에 대한 조인트 다채널 코딩의 독립적인 선택이 적용될 수 있기 때문에 설명되는 실시예들이 유리하다.
본 발명의 실시예들은 첨부된 도면들을 다음에 논의될 것이다.
도 1은 다채널 오디오 신호를 인코딩하기 위한 인코더의 개략적인 블록도를 보여준다.
도 2는 일 실시예에 따른 선형 예측 도메인 인코더의 개략적인 블록도를 보여준다.
도 3은 일 실시예에 따른 주파수 도메인 인코더의 개략적인 블록도를 보여준다.
도 4는 일 실시예에 따른 오디오 인코더의 개략적인 블록도를 보여준다.
도 5a는 일 실시예에 따른 능동 다운믹서의 개략적인 블록도를 보여준다.
도 5b는 일 실시예에 따른 수동 다운믹서의 개략적인 블록도를 보여준다.
도 6은 인코딩된 오디오 신호를 디코딩하기 위한 디코더의 개략적인 블록도를 보여준다.
도 7은 일 실시예에 따른 디코더의 개략적인 블록도를 보여준다.
도 8은 다채널 신호를 인코딩하는 방법의 개략적인 블록도를 보여준다.
도 9는 인코딩된 오디오 신호를 디코딩하는 방법의 개략적인 블록도를 보여준다.
도 10은 추가 실시예에 따른 다채널 신호를 인코딩하기 위한 인코더의 개략적인 블록도를 보여준다.
도 11은 추가 실시예에 따른 인코딩된 오디오 신호를 디코딩하기 위한 디코더의 개략적인 블록도를 보여준다.
도 12은 추가 실시예에 따른 다채널 신호를 인코딩하기 위한 오디오 인코딩 방법의 개략적인 블록도를 보여준다.
도 13은 추가 실시예에 따른 인코딩된 오디오 신호를 디코딩하는 방법의 개략적인 블록도를 보여준다.
도 14는 주파수 도메인 인코딩에서 LPD 인코딩으로의 끊김 없는 스위칭의 개략적인 타이밍도를 보여준다.
도 15는 주파수 도메인 디코딩에서 LPD 도메인 디코딩으로의 끊김 없는 스위칭의 개략적인 타이밍도를 보여준다.
도 16은 LPD 인코딩에서 주파수 도메인 인코딩으로의 끊김 없는 스위칭의 개략적인 타이밍도를 보여준다.
도 17은 LPD 디코딩에서 주파수 도메인 디코딩으로의 끊김 없는 스위칭의 개략적인 타이밍도를 보여준다.
도 18은 추가 실시예에 따른 다채널 신호를 인코딩하기 위한 인코더의 개략적인 블록도를 보여준다.
도 19는 추가 실시예에 따른 인코딩된 오디오 신호를 디코딩하기 위한 디코더의 개략적인 블록도를 보여준다.
도 20은 추가 실시예에 따른 다채널 신호를 인코딩하기 위한 오디오 인코딩 방법의 개략적인 블록도를 보여준다.
도 21은 추가 실시예에 따른 인코딩된 오디오 신호를 디코딩하는 방법의 개략적인 블록도를 보여준다.
다음에, 본 발명의 실시예들이 보다 상세히 설명될 것이다. 동일하거나 유사한 기능을 갖는 각각의 도면들에 도시된 엘리먼트들은 동일한 참조 부호들과 연관될 것이다.
도 1은 다채널 오디오 신호(4)를 인코딩하기 위한 오디오 인코더(2)의 개략적인 블록도를 보여준다. 오디오 인코더는 선형 예측 도메인 인코더(6), 주파수 도메인 인코더(8), 및 선형 예측 도메인 인코더(6)와 주파수 도메인 인코더(8) 사이에서 스위칭하기 위한 제어기(10)를 포함한다. 제어기는 다채널 신호를 분석하여 다채널 신호의 부분들에 대해, 선형 예측 도메인 인코딩이 유리한지 아니면 주파수 도메인 인코딩이 유리한지를 결정할 수 있다. 즉, 제어기는 다채널 신호의 일부가 선형 예측 도메인 인코더의 인코딩된 프레임으로 또는 주파수 도메인 인코더의 인코딩된 프레임으로 표현되도록 구성된다. 선형 예측 도메인 인코더는 다운믹스된 신호(14)를 얻기 위해 다채널 신호(4)를 다운믹스하기 위한 다운믹서(12)를 포함한다. 선형 예측 도메인 인코더는 다운믹스 신호를 인코딩하기 위한 선형 예측 도메인 코어 인코더(16)를 더 포함하며, 더욱이, 선형 예측 도메인 인코더는 다채널 신호(4)로부터 예컨대, 양 귀 사이의 레벨 차(ILD: interaural level difference) 및/또는 양 귀 사이의 위상 차(IPD: interaural phase difference) 파라미터들을 포함하는 제 1 다채널 정보(20)를 생성하기 위한 제 1 조인트 다채널 인코더(18)를 포함한다. 다채널 신호는 예를 들어, 스테레오 신호일 수 있으며, 여기서는 다운믹서가 스테레오 신호를 모노 신호로 변환한다. 선형 예측 도메인 코어 인코더는 모노 신호를 인코딩할 수 있으며, 여기서 제 1 조인트 다채널 인코더는 인코딩된 모노 신호에 대한 스테레오 정보를 제 1 다채널 정보로서 생성할 수 있다. 주파수 도메인 인코더 및 제어기는 도 10 및 도 11과 관련하여 설명되는 추가 양상과 비교할 때 선택적이다. 그러나 시간 도메인 인코딩과 주파수 도메인 인코딩 간의 신호 적응 스위칭을 위해서는, 주파수 도메인 인코더 및 제어기를 사용하는 것이 유리하다.
더욱이, 주파수 도메인 인코더(8)는 다채널 신호(4)로부터 제 2 다채널 정보(24)를 생성하기 위한 제 2 조인트 다채널 인코더(22)를 포함하며, 여기서 제 2 조인트 다채널 인코더(22)는 제 1 다채널 인코더(18)와 상이하다. 그러나 제 2 조인트 다채널 프로세서(22)는 제 2 인코더에 의해 더 양호하게 인코딩되는 신호들에 대해 제 1 다채널 인코더에 의해 얻어진 제 1 다채널 정보의 제 1 재생 품질보다 더 높은 제 2 재생 품질을 가능하게 하는 제 2 다채널 정보를 얻는다.
즉, 실시예들에 따르면, 제 1 조인트 다채널 인코더(18)는 제 1 재생 품질을 가능하게 하는 제 1 다채널 정보(20)를 생성하도록 구성되며, 제 2 조인트 다채널 인코더(22)는 제 2 재생 품질을 가능하게 하는 제 2 다채널 정보(24)를 생성하도록 구성되고, 여기서 제 2 재생 품질은 제 1 재생 품질보다 더 높다. 이는 제 2 다채널 인코더에 의해 더 양호하게 코딩되는, 예컨대 음성 신호들과 같은 신호들에 적어도 관련된다.
따라서 제 1 다채널 인코더는 예를 들어, 스테레오 예측 코더, 파라메트릭 스테레오 인코더 또는 회전 기반 파라메트릭 스테레오 인코더를 포함하는 파라메트릭 조인트 다채널 인코더일 수 있다. 더욱이, 제 2 조인트 다채널 인코더는 예를 들어, 미드/사이드 또는 좌/우 스테레오 코더에 대한 대역 선택 스위치와 같은 파형 보존형일 수 있다. 도 1에 도시된 바와 같이, 인코딩된 다운믹스 신호(26)는 오디오 디코더로 송신될 수 있고, 선택적으로는 예를 들어, 인코딩된 다운믹스 신호가 디코딩될 수 있는 제 1 조인트 다채널 프로세서에 제공될 수 있으며, 인코딩 전 그리고 인코딩된 신호를 디코딩한 후 다채널 신호로부터의 잔차 신호가 계산되어, 디코더 측에서 인코딩된 오디오 신호의 디코딩된 품질을 개선할 수 있다. 더욱이, 제어기(10)는 다채널 신호의 현재 부분에 대한 적절한 인코딩 방식을 결정한 후에 제어 신호(28a, 28b)을 사용하여 선형 예측 도메인 인코더 및 주파수 도메인 인코더를 각각 제어할 수 있다.
도 2는 일 실시예에 따른 선형 예측 도메인 인코더(6)의 블록도를 보여준다. 선형 예측 도메인 인코더(6)에 대한 입력은 다운믹서(12)에 의해 다운믹스된 다운믹스 신호(14)이다. 더욱이, 선형 예측 도메인 인코더는 ACELP 프로세서(30) 및 TCX 프로세서(32)를 포함한다. ACELP 프로세서(30)는 다운샘플링된 다운믹스 신호(34)에 대해 동작하도록 구성되는데, 이 신호는 다운샘플러(35)에 의해 다운샘플링될 수 있다. 더욱이, 시간 도메인 대역폭 확장 프로세서(36)는 다운믹스 신호(14)의 일부의 대역을 파라메트릭 인코딩할 수 있는데, 이 대역은 ACELP 프로세서(30)에 입력되는 다운샘플링된 다운믹스 신호(34)로부터 제거된다. 시간 도메인 대역폭 확장 프로세서(36)는 다운믹스 신호(14)의 일부의 파라메트릭 인코딩된 대역(38)을 출력할 수 있다. 즉, 시간 도메인 대역폭 확장 프로세서(36)는 다운믹스 신호(14)의 주파수 대역들의 파라메트릭 표현을 계산할 수 있는데, 이는 다운샘플러(35)의 컷오프 주파수에 비해 더 높은 주파수들을 포함할 수 있다. 따라서 다운샘플러(35)는 다운샘플러의 컷오프 주파수보다 더 높은 그러한 주파수 대역들을 시간 도메인 대역폭 확장 프로세서(36)에 제공하거나, 시간 도메인 대역폭 확장(TD-BWE) 프로세서에 컷오프 주파수를 제공하여 TD-BWE 프로세서(36)가 다운믹스 신호(14)의 정확한 부분에 대한 파라미터들(38)을 계산할 수 있게 하는 추가 특성을 가질 수 있다.
더욱이, TCX 프로세서는 예를 들어, ACELP 프로세서에 대한 다운샘플링보다 더 작은 차수로 다운샘플링되지 않거나 다운샘플링되는 다운믹스 신호에 대해 동작하도록 구성된다. ACELP 프로세서의 다운샘플링보다 더 작은 차수의 다운샘플링은 더 높은 컷오프 주파수를 사용하는 다운샘플링일 수 있으며, 여기서 ACELP 프로세서(30)에 입력되고 있는 다운샘플링된 다운믹스 신호(35)와 비교할 때 다운믹스 신호의 더 많은 수의 대역들이 TCX 프로세서에 제공된다. TCX 프로세서는 예를 들어, MDCT, DFT 또는 DCT와 같은 제 1 시간-주파수 변환기(40)를 더 포함할 수 있다. TCX 프로세서(32)는 제 1 파라미터 생성기(42) 및 제 1 양자화기 인코더(44)를 더 포함할 수 있다. 제 1 파라미터 생성기(42), 예를 들어 지능형 갭 필링(IGF: intelligent gap filling) 알고리즘은 제 1 세트의 대역들의 제 1 파라메트릭 표현(46)을 계산할 수 있고, 예를 들어 TCX 알고리즘을 사용하는 제 1 양자화기 인코더(44)는 제 2 세트의 대역들에 대한 제 1 세트의 양자화된 인코딩된 스펙트럼 라인들(48)을 계산할 수 있다. 즉, 제 1 양자화기 인코더는 들어오는 신호의, 예컨대 톤 대역들과 같은 관련 대역들을 파라메트릭 인코딩할 수 있으며, 제 1 파라미터 생성기는 들어오는 신호의 나머지 대역들에 예를 들어, IGF 알고리즘을 적용하여 인코딩된 오디오 신호의 대역폭을 더 줄인다.
선형 예측 도메인 인코더(6)는 예를 들어, ACELP 처리된 다운샘플링된 다운믹스 신호(52) 및/또는 제 1 세트의 대역들의 제 1 파라메트릭 표현(46) 및/또는 제 2 세트의 대역들에 대한 제 1 세트의 양자화된 인코딩된 스펙트럼 라인들(48)로 표현되는 다운믹스 신호(14)를 디코딩하기 위한 선형 예측 도메인 디코더(50)를 더 포함할 수 있다. 선형 예측 도메인 디코더(50)의 출력은 인코딩되고 디코딩된 다운믹스 신호(54)일 수 있다. 이 신호(54)는 다채널 잔차 코더(56)에 입력될 수 있는데, 다채널 잔차 코더(56)는 인코딩되고 디코딩된 다운믹스된 신호(54)를 사용하여 다채널 잔차 신호(58)를 계산하고 인코딩할 수 있으며, 인코딩된 다채널 잔차 신호는 제 1 다채널 정보를 사용하는 디코딩된 다채널 표현과 다운믹스 이전 다채널 신호 사이의 에러를 나타낸다. 따라서 다채널 잔차 코더(56)는 조인트 인코더 측 다채널 디코더(60) 및 차분 프로세서(62)를 포함할 수 있다. 조인트 인코더 측 다채널 디코더(60)는 제 1 다채널 정보(20) 및 인코딩되고 디코딩된 다운믹스 신호(54) 사용하여 디코딩된 다채널 신호를 생성할 수 있으며, 차분 프로세서는 디코딩된 다채널 신호(64)와 다운믹스 이전 다채널 신호(4) 사이에 차분을 형성하여 다채널 잔차 신호(58)를 얻을 수 있다. 즉, 오디오 인코더 내의 조인트 인코더 측 다채널 디코더는, 유리하게는 디코더 측에서 수행되는 것과 동일한 디코딩 동작인 디코딩 동작을 수행할 수 있다. 따라서 송신 후 오디오 디코더에 의해 도출될 수 있는 제 1 조인트 다채널 정보는 인코딩된 다운믹스 신호를 디코딩하기 위해 조인트 인코더 측 다채널 디코더에서 사용된다. 차분 프로세서(62)는 디코딩된 조인트 다채널 신호와 원래의 다채널 신호(4) 간의 차분을 계산할 수 있다. 인코딩된 다채널 잔차 신호(58)는 오디오 디코더의 디코딩 품질을 향상시킬 수 있는데, 이는 예를 들어, 파라메트릭 인코딩으로 인한 디코딩된 신호와 원래 신호 간의 차분이 이러한 두 신호들 간의 차분에 대한 지식에 의해 감소될 수 있기 때문이다. 이것은 다채널 오디오 신호의 전체 대역폭에 대한 다채널 정보가 도출되는 식으로 제 1 조인트 다채널 인코더가 동작할 수 있게 한다.
더욱이, 다운믹스 신호(14)는 저대역 및 고대역을 포함할 수 있으며, 여기서 선형 예측 도메인 인코더(6)는 고대역을 파라메트릭 인코딩하기 위해 예를 들어, 시간 도메인 대역폭 확장 프로세서(36)를 사용하여 대역폭 확장 처리를 적용하도록 구성되고, 선형 예측 도메인 디코더(6)는 다운믹스 신호(14)의 저대역을 나타내는 저대역 신호만을 인코딩되고 디코딩된 다운믹스 신호(54)로서 획득하도록 구성되며, 인코딩된 다채널 잔차 신호는 다운믹스 이전 다채널 신호의 저대역 내의 주파수들만을 갖는다. 즉, 대역폭 확장 프로세서는 컷오프 주파수보다 높은 주파수 대역들에 대한 대역폭 확장 파라미터들을 계산할 수 있으며, ACELP 프로세서는 컷오프 주파수 미만의 주파수들을 인코딩한다. 따라서 디코더는 인코딩된 저대역 신호 및 대역폭 파라미터들(38)에 기초하여 더 높은 주파수들을 재구성하도록 구성된다.
추가 실시예들에 따르면, 다채널 잔차 코더(56)는 사이드 신호를 계산할 수 있고, 다운믹스 신호는 M/S 다채널 오디오 신호의 대응하는 미드 신호이다. 따라서 다채널 잔차 코더는 필터 뱅크(82)에 의해 획득된 다채널 오디오 신호의 전대역 스펙트럼 표현으로부터 계산될 수 있는 계산된 사이드 신호와, 인코딩되고 디코딩된 다운믹스 신호(54)의 배수의 예측된 사이드 신호의 차분을 계산하고 인코딩할 수 있으며, 여기서 배수는 다채널 정보의 일부가 되는 예측 정보로 표현될 수 있다. 그러나 다운믹스 신호는 저대역 신호만을 포함한다. 따라서 잔차 코더는 고대역에 대한 잔차(또는 사이드) 신호를 추가로 계산할 수 있다. 이는 예컨대, 선형 예측 도메인 코어 인코더에서 수행되는 것과 같이 시간 도메인 대역폭 확장을 시뮬레이트함으로써, 또는 계산된 (전대역) 사이드 신호와 계산된 (전대역) 미드 신호 사이의 차분으로서 사이드 신호를 예측함으로써 수행될 수 있으며, 예측 인자는 두 신호들 간의 차분을 최소화하도록 구성된다.
도 3은 일 실시예에 따른 주파수 도메인 인코더(8)의 개략적인 블록도를 보여준다. 주파수 도메인 인코더는 제 2 시간-주파수 변환기(66), 제 2 파라미터 생성기(68) 및 제 2 양자화기 인코더(70)를 포함한다. 제 2 시간-주파수 변환기(66)는 다채널 신호의 제 1 채널(4a) 및 다채널 신호의 제 2 채널(4b)을 스펙트럼 표현(72a, 72b)으로 변환할 수 있다. 제 1 채널 및 제 2 채널의 스펙트럼 표현(72a, 72b)은 분석되어 각각 제 1 세트의 대역들(74) 및 제 2 세트의 대역들(76)으로 분할될 수 있다. 따라서 제 2 파라미터 생성기(68)는 제 2 세트의 대역들(76)의 제 2 파라메트릭 표현(78)을 생성할 수 있고, 제 2 양자화기 인코더는 제 1 세트의 대역들(74)의 양자화되고 인코딩된 표현(80)을 생성할 수 있다. 주파수 도메인 인코더, 또는 보다 구체적으로는 제 2 시간-주파수 변환기(66)는 예를 들어, 제 1 채널(4a) 및 제 2 채널(4b)에 대한 MDCT 연산을 수행할 수 있고, 여기서 제 2 파라미터 생성기(68)는 지능형 갭 채움 알고리즘을 수행할 수 있고 제 2 양자화기 인코더(70)는 예를 들어, AAC 연산을 수행할 수 있다. 따라서 선형 예측 도메인 인코더들과 관련하여 이미 설명한 바와 같이, 주파수 도메인 인코더는 또한 다채널 오디오 신호의 전체 대역폭에 대한 다채널 정보가 도출되는 식으로 동작할 수 있다.
도 4는 바람직한 실시예에 따른 오디오 인코더(2)의 개략적인 블록도를 보여준다. LPD 경로(16)는 "능동 또는 수동 DMX" 다운믹스 계산(12)을 포함하는 조인트 스테레오 또는 다채널 인코딩으로 구성되는데, 이는 도 5에 도시된 바와 같이 LPD 다운믹스가 능동적("주파수 선택적") 또는 수동적("일정한 믹싱 계수들")일 수 있음을 나타낸다. 다운믹스는 TD-BWE 또는 IGF 모듈들에 의해 지원되는 스위칭 가능한 모노 ACELP/TCX 코어에 의해 추가로 코딩된다. ACELP는 다운샘플링된 입력 오디오 데이터(34)에 대해 동작한다는 점에 주목한다. 다운샘플링된 TCX/IGF 출력에 대해 스위칭으로 인한 임의의 ACELP 초기화가 수행될 수 있다.
ACELP는 어떠한 내부 시간-주파수 분해도 포함하지 않기 때문에, LPD 스테레오 코딩은 LP 코딩 이전의 분석 필터 뱅크(82) 및 LPD 디코딩 이후의 합성 필터 뱅크에 의해 여분의 복소 변조된 필터 뱅크를 추가한다. 바람직한 실시예에서, 낮은 중첩 영역을 갖는 오버샘플링된 DFT가 사용된다. 그러나 다른 실시예들에서, 유사한 시간 분해능을 갖는 임의의 오버샘플링된 시간-주파수 분해가 사용될 수 있다. 스테레오 파라미터들은 다음에 주파수 도메인에서 계산될 수 있다.
파라메트릭 스테레오 코딩은 LPD 스테레오 파라미터들(20)를 비트스트림에 출력하는 "LPD 스테레오 파라미터 코딩" 블록(18)에 의해 수행된다. 선택적으로, 다음 블록 "LPD 스테레오 잔차 코딩"은 벡터 양자화된 저역 통과 다운믹스 잔차(58)를 비트스트림에 더한다.
FD 경로(8)는 자체적인 내부 조인트 스테레오 또는 다채널 코딩을 갖도록 구성된다. 조인트 스테레오 코딩을 위해, FD 경로(8)는 자체적인 임계 샘플링된 실수 값의 필터 뱅크(66), 즉 예를 들어, MDCT를 재사용한다.
디코더에 제공되는 신호들은 예를 들어, 단일 비트스트림으로 다중화될 수 있다. 비트스트림은, 파라메트릭 인코딩된 시간 도메인 대역폭 확장된 대역(38), ACELP 처리된 다운샘플링된 다운믹스 신호(52), 제 1 다채널 정보(20), 인코딩된 다채널 잔차 신호(58), 제 1 세트의 대역들의 제 1 파라메트릭 표현(46), 제 2 세트의 대역들에 대한 제 1 세트의 양자화된 인코딩된 스펙트럼 라인들(48), 그리고 제 1 세트의 대역들의 양자화되고 인코딩된 표현(80)과 제 1 세트의 대역들의 제 2 파라메트릭 표현(78)을 포함하는 제 2 다채널 정보(24) 중 적어도 하나를 더 포함할 수 있는 인코딩된 다운믹스 신호(26)를 포함할 수 있다.
실시예들은 스위칭 가능한 코어 코덱인 조인트 다채널 코딩 및 파라메트릭 공간 오디오 코딩을 코어 코더의 선택에 따라 상이한 다채널 코딩 기술들을 사용할 수 있게 하는 완전히 스위칭 가능한 지각 코덱으로 결합하기 위한 개선된 방법을 보여준다. 구체적으로, 스위칭 가능한 오디오 코더 내에서 네이티브 주파수 도메인 스테레오 코딩은 자체적인 전용 독립 파라메트릭 스테레오 코딩을 갖는 ACELP/TCX 기반 선형 예측 코딩과 결합된다.
도 5a 및 도 5b는 실시예들에 따른 능동 및 수동 다운믹서를 각각 보여준다. 능동 다운믹서는 예를 들어, 시간 도메인 신호(4)를 주파수 도메인 신호로 변환하기 위한 시간 주파수 변환기(82)를 사용하여 주파수 도메인에서 동작한다. 다운믹스 후에, 예를 들어 IDFT에서의 주파수-시간 변환이 다운믹스된 신호를 주파수 도메인에서 시간 도메인의 다운믹스 신호(14)로 변환할 수 있다.
도 5b는 일 실시예에 따른 수동 다운믹서(12)를 보여준다. 수동 다운믹서(12)는 가산기를 포함하는데, 여기서 제 1 채널(4a) 및 제 2 채널(4b)은 가중치 a(84a) 및 가중치 b(84b)를 각각 사용하여 가중된 후 결합된다. 더욱이, 4a에 대한 제 1 채널 및 제 2 채널(4b)은 LPD 스테레오 파라메트릭 코딩으로의 송신 전에 시간-주파수 변환기(82)에 입력될 수 있다.
즉, 다운믹서는 다채널 신호를 스펙트럼 표현으로 변환하도록 구성되고, 여기서 다운믹스는 스펙트럼 표현을 사용하거나 시간 도메인 표현을 사용하여 수행되며, 제 1 다채널 인코더는 스펙트럼 표현을 사용하여 스펙트럼 표현의 개개의 대역들에 대한 분리된 제 1 다채널 정보를 생성하도록 구성된다.
도 6은 일 실시예에 따른 인코딩된 오디오 신호(103)를 디코딩하기 위한 오디오 디코더(102)의 개략적인 블록도를 보여준다. 오디오 디코더(102)는 선형 예측 도메인 디코더(104), 주파수 도메인 디코더(106), 제 1 조인트 다채널 디코더(108), 제 2 다채널 디코더(110) 및 제 1 결합기(112)를 포함한다. 예를 들어, 오디오 신호의 프레임들과 같은, 앞서 설명한 인코더 부분들의 다중화된 비트스트림일 수도 있는 인코딩된 오디오 신호(103)는 제 1 다채널 정보(20)를 사용하여 조인트 다채널 디코더(108)에 의해 디코딩될 수도 있고, 또는 주파수 도메인 디코더(106)에 의해 디코딩되고 제 2 조인트 다채널 정보(24)를 사용하여 제 2 다채널 디코더(110)에 의해 다채널 디코딩될 수도 있다. 제 1 조인트 다채널 디코더는 제 1 다채널 표현(114)을 출력할 수 있고 제 2 조인트 다채널 디코더(110)의 출력은 제 2 다채널 표현(116)일 수 있다.
즉, 제 1 다채널 디코더(108)는 선형 예측 도메인 인코더의 출력을 사용하여 그리고 제 1 다채널 정보(20)를 사용하여 제 1 다채널 표현(114)을 생성한다. 제 2 조인트 디코더(110)는 주파수 도메인 디코더의 출력 및 제 2 다채널 정보(24)를 사용하여 제 2 다채널 표현(116)을 생성한다. 더욱이, 제 1 결합기는 예를 들어, 프레임 기반인 제 1 다채널 표현(114)과 제 2 다채널 표현(116)을 결합하여, 디코딩된 오디오 신호(118)를 획득한다. 더욱이, 제 1 조인트 다채널 디코더(108)는 예를 들어, 복소 예측, 파라메트릭 스테레오 연산 또는 회전 연산을 사용하는 파라메트릭 조인트 다채널 디코더일 수 있다. 제 2 조인트 다채널 디코더(110)는 예를 들어, 미드/사이드 또는 좌/우 스테레오 디코딩 알고리즘에 대한 대역 선택 스위치를 사용하는 파형 보존 조인트 다채널 디코더일 수 있다.
도 7은 추가 실시예에 따른 디코더(102)의 개략적인 블록도를 보여준다. 여기서, 선형 예측 도메인 디코더(102)는 ACELP 디코더(120), 저대역 합성기(122), 업샘플러(124), 시간 도메인 대역폭 확장 프로세서(126), 또는 업샘플링된 신호와 대역폭 확장된 신호를 결합하기 위한 제 2 결합기(128)를 포함한다. 더욱이, 선형 예측 도메인 디코더는 도 7에 하나의 블록으로 도시된 TCX 디코더(132) 및 지능형 갭 채움 프로세서(132)를 포함할 수 있다. 더욱이, 선형 예측 도메인 디코더(102)는 제 2 결합기(128)와 TCX 디코더(130) 및 IGF 프로세서(132)의 출력을 결합하기 위한 전대역 합성 프로세서(134)를 포함할 수 있다. 인코더와 관련하여 이미 도시된 바와 같이, 시간 도메인 대역폭 확장 프로세서(126), ACELP 디코더(120) 및 TCX 디코더(130)는 병렬로 작동하여 각각의 송신된 오디오 정보를 디코딩한다.
예를 들어, 주파수-시간 변환기(138)를 사용하여 TCX 디코더(130) 및 IGF 프로세서(132)로부터의 저대역 스펙트럼-시간 변환으로부터 도출된 정보를 사용하여 저대역 합성기를 초기화하기 위해 교차 경로(136)가 제공될 수 있다. 성도의 모델을 참조하면, ACELP 데이터는 성도의 형태를 모델링할 수 있으며, 여기서 TCX 데이터는 성도의 여진을 모델링할 수 있다. 예를 들어, IMDCT 디코더와 같은 저대역 주파수-시간 변환기에 의해 표현되는 교차 경로(136)는 저대역 합성기(122)가 성도의 형상 및 현재 여진을 사용하여, 인코딩된 저대역 신호를 재계산 또는 디코딩할 수 있게 한다. 더욱이, 합성된 저대역은 업샘플러(124)에 의해 업샘플링되고 예컨대, 제 2 결합기(128)를 사용하여, 시간 도메인 대역폭 확장된 고대역들(140)과 결합되어, 예를 들어 각각의 업샘플링된 대역에 대한 에너지를 복원하도록 예를 들어, 업샘플링된 주파수들을 재성형한다.
전대역 합성기(134)는 디코딩된 다운믹스 신호(142)를 형성하기 위해 TCX 프로세서(130)로부터의 여진 및 제 2 결합기(128)의 전대역 신호를 사용할 수 있다. 제 1 조인트 다채널 디코더(108)는 선형 예측 도메인 디코더의 출력, 예를 들어 디코딩된 다운믹스 신호(142)를 스펙트럼 표현(145)으로 변환하기 위한 시간-주파수 변환기(144)를 포함할 수 있다. 더욱이, 예컨대 스테레오 디코더(146)에서 구현되는 업믹서는 스펙트럼 표현을 다채널 신호로 업믹스하도록 제 1 다채널 정보(20)에 의해 제어될 수 있다. 더욱이, 주파수-시간 변환기(148)는 업믹스 결과를 시간 표현(114)으로 변환할 수 있다. 시간-주파수 및/또는 주파수-시간 변환기는 예를 들어, DFT 또는 IDFT와 같은 복소 연산 또는 오버샘플링된 연산을 포함할 수 있다.
더욱이, 제 1 조인트 다채널 디코더, 또는 보다 구체적으로는 스테레오 디코더(146)는 제 1 다채널 표현을 생성하기 위해 예를 들어, 다채널 인코딩된 오디오 신호(103)에 의해 제공된 다채널 잔차 신호(58)를 사용할 수 있다. 더욱이, 다채널 잔차 신호는 제 1 다채널 표현보다 더 낮은 대역폭을 포함할 수 있으며, 여기서 제 1 다채널 디코더는 제 1 다채널 정보를 사용하여 중간 제 1 다채널 표현을 재구성하고 중간 제 1 다채널 표현에 다채널 잔차 신호를 부가하도록 구성된다. 즉, 스테레오 디코더(146)는 제 1 다채널 정보(20)를 사용하는 다채널 디코딩, 그리고 선택적으로는 디코딩된 다운믹스 신호의 스펙트럼 표현이 다채널 신호로 업믹스된 후, 다채널 잔차 신호를 재구성된 다채널 신호에 더함으로써 재구성된 다채널 신호의 개선을 포함할 수 있다. 따라서 제 1 다채널 정보 및 잔차 신호는 이미 다채널 신호에 대해 동작할 수 있다.
제 2 조인트 다채널 디코더(110)는 주파수 도메인 디코더에 의해 획득된 스펙트럼 표현을 입력으로서 사용할 수 있다. 스펙트럼 표현은 적어도 복수의 대역들에 대해 제 1 채널 신호(150a) 및 제 2 채널 신호(150b)를 포함한다. 더욱이, 제 2 조인트 다채널 프로세서(110)는 제 1 채널 신호(150a) 및 제 2 채널 신호(150b)의 복수의 대역들에 적용될 수 있다. 예를 들어, 마스크와 같은 조인트 다채널 동작이 개개의 대역들에 대해, 좌/우 또는 미드/사이드 조인트 다채널 코딩을 나타내며, 여기서 조인트 다채널 동작이 마스크에 의해 지시된 대역들을 미드/사이드 표현에서 좌/우 표현으로 변환하기 위한 미드/사이드 또는 좌/우 변환 동작인데, 이는 제 2 다채널 표현을 얻기 위해 조인트 다채널 동작의 결과를 시간 표현으로 변환하는 것이다. 더욱이, 주파수 도메인 디코더는 예를 들어, IMDCT 연산 또는 특히 샘플링 연산인 주파수-시간 변환기(152)를 포함할 수 있다. 즉, 마스크는 예를 들어, L/R 또는 M/S 스테레오 코딩을 나타내는 플래그들을 포함할 수 있으며, 여기서 제 2 조인트 다채널 인코더는 대응하는 스테레오 코딩 알고리즘을 각각의 오디오 프레임들에 적용한다. 선택적으로, 지능형 갭 채움이 인코딩된 오디오 신호들에 적용되어, 인코딩된 오디오 신호의 대역폭을 더 감소시킬 수 있다. 따라서 예를 들어, 톤 주파수 대역들이 앞서 언급한 스테레오 코딩 알고리즘들을 사용하여 고분해능으로 인코딩될 수 있으며, 여기서 다른 주파수 대역들은 예를 들어, IGF 알고리즘을 사용하여 파라메트릭 인코딩될 수 있다.
즉, LPD 경로(104)에서, 송신된 모노 신호는 예를 들어, TD-BWE 모듈(126) 또는 IGF 모듈(132)에 의해 지원되는 스위칭 가능한 ACELP/TCX(120/130) 디코더에 의해 재구성된다. 다운샘플링된 TCX/IGF 출력에 대해 스위칭으로 인한 임의의 ACELP 초기화가 수행된다. ACELP의 출력은 예를 들어, 업샘플러(124)를 사용하여 풀(full) 샘플링 레이트로 업샘플링된다. 모든 신호들은 예컨대, 믹서(128)를 사용하여 높은 샘플링 레이트로 시간 도메인에서 혼합되고, LPD 스테레오 디코더(146)에 의해 추가 처리되어 LPD 스테레오를 제공한다.
LPD "스테레오 디코딩"은 송신된 스테레오 파라미터들(20)의 적용에 의해 조향되는 송신된 다운믹스의 업믹스로 구성된다. 선택적으로, 또한 다운믹스 잔차(58)가 비트스트림에 포함된다. 이 경우에, 잔차는 디코딩되고 "스테레오 디코딩"(146)에 의한 업믹스 계산에 포함된다.
FD 경로(106)는 그 자체적인 개별 내부 조인트 스테레오 또는 다채널 디코딩을 갖도록 구성된다. 조인트 스테레오 디코딩을 위해, FD 경로(106)는 자체적인 임계 샘플링된 실수 값의 필터 뱅크(152), 즉 예를 들어, IMDCT를 재사용한다.
LPD 스테레오 출력 및 FD 스테레오 출력은 시간 도메인에서 예를 들어, 제 1 결합기(112)를 사용하여 혼합되어, 완전히 스위칭된 코더의 최종 출력(118)을 제공한다.
관련된 도면들에서 스테레오 디코딩과 관련하여 다채널이 설명되지만, 일반적으로 2개 이상의 채널들을 갖는 다채널 처리에도 또한 동일한 원리가 적용될 수 있다.
도 8은 다채널 신호를 인코딩하기 위한 방법(800)의 개략적인 블록도를 보여준다. 이 방법(800)은, 선형 예측 도메인 인코딩을 수행하는 단계(805), 주파수 도메인 인코딩을 수행하는 단계(810), 선형 예측 도메인 인코딩과 주파수 도메인 인코딩 사이에서 스위칭하는 단계(815)를 포함하며, 선형 예측 도메인 인코딩은 다운믹스 신호를 얻기 위한 다채널 신호의 다운믹스, 다운믹스 신호의 선형 예측 도메인 코어 인코딩, 및 다채널 신호로부터 제 1 다채널 정보를 생성하는 제 1 조인트 다채널 인코딩을 포함하고, 주파수 도메인 인코딩은 다채널 신호로부터 제 2 다채널 정보를 생성하는 제 2 조인트 다채널 인코딩을 포함하며, 제 2 조인트 다채널 인코딩은 제 1 다채널 인코딩과 상이하고, 다채널 신호의 일부가 선형 예측 도메인 인코딩의 인코딩된 프레임으로 또는 주파수 도메인 인코딩의 인코딩된 프레임으로 표현되도록 스위칭이 수행된다.
도 9는 인코딩된 오디오 신호를 디코딩하는 방법(900)의 개략적인 블록도를 보여준다. 이 방법(900)은, 선형 예측 도메인 디코딩 단계(905), 주파수 도메인 디코딩 단계(910), 선형 예측 도메인 디코딩의 출력을 사용하여 그리고 제 1 다채널 정보를 사용하여 제 1 다채널 표현을 생성하는 제 1 조인트 다채널 디코딩 단계(915), 주파수 도메인 디코딩의 출력 및 제 2 다채널 정보를 사용하여 제 2 다채널 표현을 생성하는 제 2 다채널 디코딩 단계(920), 및 디코딩된 오디오 신호를 얻기 위해 제 1 다채널 표현과 제 2 다채널 표현을 결합하는 단계(925)를 포함하며, 여기서 제 2 다채널 정보 디코딩은 제 1 다채널 디코딩과 상이하다.
도 10은 추가 실시예에 따른 다채널 신호를 인코딩하기 위한 오디오 인코더의 개략적인 블록도를 보여준다. 오디오 인코더(2')는 선형 예측 도메인 인코더(6) 및 다채널 잔차 코더(56)를 포함한다. 선형 예측 도메인 인코더는 다운믹스 신호(14)를 얻기 위해 다채널 신호(4)를 다운믹스하기 위한 다운믹서(12), 다운믹스 신호(14)를 인코딩하기 위한 선형 예측 도메인 코어 인코더(16)를 포함한다. 선형 예측 도메인 인코더(6)는 다채널 신호(4)로부터 다채널 정보(20)를 생성하기 위한 조인트 다채널 인코더(18)를 더 포함한다. 더욱이, 선형 예측 도메인 인코더는 인코딩되고 디코딩된 다운믹스 신호(54)를 얻기 위해 인코딩된 다운믹스 신호(26)를 디코딩하기 위한 선형 예측 도메인 디코더(50)를 포함한다. 다채널 잔차 코더(56)는 인코딩되고 디코딩된 다운믹스 신호(54)를 사용하여 다채널 잔차 신호를 계산하고 인코딩할 수 있다. 다채널 잔차 신호는 다채널 정보(20)를 사용하는 디코딩된 다채널 표현(54)과 다운믹스 이전 다채널 신호(4) 사이의 에러를 나타낼 수 있다.
일 실시예에 따르면, 다운믹스 신호(14)는 저대역 및 고대역을 포함하며, 여기서 선형 예측 도메인 인코더는 대역폭 확장 프로세서를 사용하여 고대역을 파라메트릭 인코딩하기 위한 대역폭 확장 처리를 적용할 수 있고, 선형 예측 도메인 디코더는 다운믹스 신호의 저대역을 나타내는 저대역 신호만을 인코딩되고 디코딩된 다운믹스 신호(54)로서 획득하도록 구성되며, 인코딩된 다채널 잔차 신호는 다운믹스 이전 다채널 신호의 저대역에 대응하는 대역만을 갖는다. 더욱이, 오디오 인코더(2)에 관한 동일한 설명이 오디오 인코더(2')에 적용될 수 있다. 그러나 인코더(2)의 추가적인 주파수 인코딩은 생략된다. 이는 인코더 구성을 단순화하고, 이에 따라 인코더가 단지 상당한 품질 손실 없이 시간 도메인에서 파라메트릭 인코딩될 수 있는 신호들만을 포함하는 오디오 신호들에만 사용된다면, 또는 디코딩된 오디오 신호의 품질이 여전히 규격 내에 있는 경우에 유리하다. 그러나 디코딩된 오디오 신호의 재생 품질을 향상시키는 데는 전용 잔차 스테레오 코딩이 유리하다. 보다 구체적으로는, 인코딩 전의 오디오 신호와 인코딩되고 디코딩된 오디오 신호 간의 차분이 도출되고 디코더에 송신되어, 디코딩된 오디오 신호의 재생 품질을 향상시키는데, 이는 디코딩된 오디오 신호와 인코딩된 음성 신호의 차분이 디코더에 의해 알려지기 때문이다.
도 11은 추가 양상에 따라 인코딩된 오디오 신호(103)를 디코딩하기 위한 오디오 디코더(102')를 보여준다. 오디오 디코더(102’)는 선형 예측 도메인 디코더(104), 및 선형 예측 도메인 디코더(104)의 출력과 조인트 다채널 정보(20)를 사용하여 다채널 표현(114)을 생성하기 위한 조인트 다채널 디코더(108)를 포함한다. 더욱이, 인코딩된 오디오 신호(103)는 다채널 표현(114)을 생성하기 위해 다채널 디코더에 의해 사용될 수 있는 다채널 잔차 신호(58)를 포함할 수 있다. 더욱이, 오디오 디코더(102)와 관련된 동일한 설명들이 오디오 디코더(102’)에 적용될 수 있다. 여기서, 파라메트릭 및 그에 따른 손실 코딩이 사용되더라도, 원래의 오디오 신호와 비교하여 적어도 거의 동일한 품질의 디코딩된 오디오 신호를 얻기 위해 디코딩된 오디오 신호에 원래의 오디오 신호로부터 디코딩된 오디오 신호까지의 잔차 신호가 사용되고 적용된다. 그러나 오디오 디코더(102)에 관해 도시된 주파수 디코딩 부분은 오디오 디코더(102’)에서 생략된다.
도 12는 다채널 신호를 인코딩하기 위한 오디오 인코딩 방법(1200)의 개략적인 블록도를 보여준다. 이 방법(1200)은 다운믹스된 다채널 신호를 얻기 위한 다채널 신호의 다운믹스 및 다채널 신호로부터 다채널 정보를 생성하는 선형 예측 도메인 코어 인코딩을 포함하는 선형 예측 도메인 인코딩 단계(1205) ― 이 방법은 인코딩되고 디코딩된 다운믹스 신호를 얻기 위한 다운믹스 신호의 선형 예측 도메인 디코딩을 더 포함함 ―, 및 인코딩되고 디코딩된 다운믹스 신호를 사용하여 인코딩된 다채널 잔차 신호를 계산하는 다채널 잔차 코딩 단계(1210)를 포함하며, 다채널 잔차 신호는 제 1 다채널 정보를 사용하는 디코딩된 다채널 표현과 다운믹스 이전 다채널 신호 사이의 에러를 나타낸다.
도 13은 인코딩된 오디오 신호를 디코딩하는 방법(1300)의 개략적인 블록도를 보여준다. 이 방법(1300)은 선형 예측 도메인 디코딩 단계(1305), 및 선형 예측 도메인 디코딩의 출력 및 조인트 다채널 정보를 사용하여 다채널 표현을 생성하는 조인트 다채널 디코딩 단계(1310)를 포함하며, 여기서 인코딩된 다채널 오디오 신호는 채널 잔차 신호를 포함하고, 조인트 다채널 디코딩은 다채널 표현을 생성하기 위해 다채널 잔차 신호를 사용한다.
설명된 실시예들은 예를 들어 디지털 라디오, 인터넷 스트리밍 및 오디오 통신 애플리케이션들과 같은 (주어진 낮은 비트 레이트에서 일정한 지각 품질을 갖는 음성 및 음악과 유사한) 모든 타입들의 스테레오 또는 다채널 오디오 콘텐츠의 브로드캐스팅의 분배에 사용될 수 있다.
도 14 - 도 17은 LPD 코딩과 주파수 도메인 코딩 사이에서 그리고 그 반대로도 마찬가지로 제안된 끊김 없는 스위칭을 어떻게 적용할지의 실시예들을 설명한다. 일반적으로, 이전 윈도잉 또는 처리는 가는 선들을 사용하여 표시되고, 굵은 선들은 스위칭이 적용되는 현재 윈도잉 또는 처리를 표시하며, 파선들은 전환 또는 스위칭에 대해 배타적으로 수행되는 현재 처리를 표시한다. LPD 코딩에서 주파수 코딩으로의 스위칭 또는 전환이 수행된다.
도 14는 주파수 도메인 인코딩에서 시간 도메인 인코딩 간의 끊김 없는 스위칭을 위한 일 실시예를 나타내는 개략적인 타이밍도를 보여준다. 이는 예를 들어, 제어기(10)가 현재 프레임이 이전 프레임에 사용된 FD 인코딩 대신에 LPD 인코딩을 사용하여 더 잘 인코딩됨을 나타낸다면 관련이 있을 수 있다. 주파수 도메인 인코딩 동안, 정지 윈도우(200a, 200b)가 (선택적으로 2개 이상의 채널들로 확장될 수 있는) 각각의 스테레오 신호에 적용될 수 있다. 정지 윈도우는 제 1 프레임(204)의 시작(202)에서의 표준 MDCT 중첩 및 합산 페이딩과는 다르다. 정지 윈도우의 좌측 부분은 예를 들어, MDCT 시간-주파수 변환을 사용하여 이전 프레임을 인코딩하기 위한 고전적인 중첩 및 합산일 수 있다. 따라서 스위칭 전의 프레임은 여전히 적절하게 인코딩된다. 시간 도메인 인코딩을 위한 미드 신호의 제 1 파라메트릭 표현이 후속 프레임(206)에 대해 계산 되더라도, 스위칭이 적용되는 현재 프레임(204)에 대해, 추가 스테레오 파라미터들이 계산된다. 이러한 2개의 추가 스테레오 분석들은 LPD 예측을 위한 미드 신호(208)를 생성할 수 있도록 이루어진다. 그러나 스테레오 파라미터들은 2개의 첫 번째 LPD 스테레오 윈도우들에 대해 (추가로) 송신된다. 정상적인 경우, 스테레오 파라미터들은 2개의 LPD 스테레오 프레임들의 지연과 함께 전송된다. 이를테면, LPC 분석 또는 순방향 에일리어싱 제거(FAC: forward aliasing cancellation)를 위해 ACELP 메모리들을 업데이트하는 경우, 미드 신호도 과거에 이용 가능하게 된다. 그러므로 제 1 스테레오 신호에 대한 LPD 스테레오 윈도우들(210a-d) 및 제 2 스테레오 신호에 대한 LPD 스테레오 윈도우들(212a-d)이 예컨대, DFT를 사용하는 시간-주파수 변환을 적용하기 전에 분석 필터 뱅크(82)에 적용될 수 있다. 미드 신호는 TCX 인코딩을 사용할 때 일반적인 크로스 페이드 램프를 포함할 수 있어, 예시적인 LPD 분석 윈도우(214)가 된다. ACELP가 모노 저대역 신호와 같은 오디오 신호를 인코딩하는 데 사용된다면, 단순히 LPC 분석이 적용되는 다수의 주파수 대역들이 선택되는데, 이는 직사각형 LPD 분석 윈도우(216)로 표시된다.
더욱이, 수직선(218)으로 표시된 타이밍은 전환이 적용되는 현재 프레임이 주파수 도메인 분석 윈도우들(200a, 200b) 그리고 계산된 미드 신호(208) 및 해당 스테레오 정보로부터의 정보를 포함한다는 것을 보여준다. 선들(202, 218) 사이의 주파수 분석 윈도우의 수평 부분 동안, 프레임(204)은 주파수 도메인 인코딩을 사용하여 완벽하게 인코딩된다. 선(218)에서부터 선(220)의 주파수 분석 윈도우의 끝까지, 프레임(204)은 주파수 도메인 인코딩과 LPD 인코딩 모두로부터의 정보를 포함하고, 선(220)에서부터 수직 선(222)의 프레임(204)의 끝까지는, LPD 인코딩만이 프레임의 인코딩에 기여한다. 첫 번째와 마지막(세 번째) 부분은 에일리어싱을 갖지 않고 하나의 인코딩 기술로부터 도출되기 때문에, 인코딩의 중간 부분에 더 많은 주의를 기울이다. 그러나 중간 부분의 경우, ACELP와 TCX 모노 신호 인코딩 간에 구분되어야 한다. TCX 인코딩은 이미 주파수 도메인 인코딩과 함께 적용된 크로스 페이딩을 사용하기 때문에, 주파수 인코딩된 신호의 단순한 페이드 아웃 및 TCX 인코딩된 미드 신호의 페이드 인은 현재 프레임(204)을 인코딩하기 위한 완전한 정보를 제공한다. 영역(224)은 오디오 신호를 인코딩하기 위한 완전한 정보를 포함하지 않을 수 있기 때문에, ACELP가 모노 신호 인코딩에 사용된다면, 보다 정교한 처리가 적용될 수 있다. 제안된 방법은 예컨대, 섹션 7.16의 USAC 규격들에서 기술되는 순방향 에일리어싱 보정(FAC)이다.
일 실시예에 따르면, 제어기(10)는 다채널 오디오 신호의 현재 프레임(204) 내에서, 이전 프레임을 인코딩하기 위해 주파수 도메인 인코더(8)를 사용하는 것에서 다가오는 프레임을 디코딩하기 위해 선형 예측 도메인 인코더로 스위칭하도록 구성된다. 제 1 조인트 다채널 인코더(18)는 현재 프레임에 대한 다채널 오디오 신호로부터 합성 다채널 파라미터들(210a, 210b, 212a, 212b)을 계산할 수 있으며, 제 2 조인트 다채널 인코더(22)는 정지 윈도우를 사용하여 제 2 다채널 신호를 가중하도록 구성된다.
도 15는 도 14의 인코더 동작들에 대응하는 디코더의 개략적인 타이밍도를 보여준다. 여기서는 현재 프레임(204)의 재구성이 일 실시예에 따라 설명된다. 도 14의 인코더 타이밍도에서 이미 알 수 있듯이, 주파수 도메인 스테레오 채널들은 정지 윈도우들(200a, 200b)을 적용한 이전 프레임으로부터 제공된다. FD에서 LPD 모드로의 전환들은 모노 경우에서와 같이 디코딩된 미드 신호에 대해 먼저 수행된다. 이는 FD 모드에서 디코딩된 시간 도메인 신호(116)로부터 미드 신호(226)를 인위적으로 생성함으로써 달성되는데, 여기서 ccfl은 코어 코드 프레임 길이이고, L_fac는 주파수 에일리어싱 제거 윈도우 또는 프레임 또는 블록 또는 변환의 길이를 나타낸다.
Figure pct00001
이 신호는 다음에, LPD 디코더(120)로 전달되어 메모리들을 업데이트하고, FD 모드에서 ACELP로의 전환들을 위해 모노의 경우에 수행되는 것과 같이 FAC 디코딩을 적용한다. 이 처리는 섹션 7.16의 USAC 규격들 [ISO/IEC DIS 23003-3, Usac]에서 설명된다. FD 모드에서 TCX로의 경우, 종래의 중첩-합산이 수행된다. LPD 스테레오 디코더(146)는 전환이 이미 수행된 경우에 예컨대, 스테레오 처리를 위해 송신된 스테레오 파라미터들(210, 212)을 적용함으로써, (시간-주파수 변환기(144)의 시간-주파수 변환이 적용된 이후 주파수 도메인에서) 디코딩된 미드 신호를 입력 신호로서 수신한다. 스테레오 디코더는 다음에, FD 모드로 디코딩된 이전 프레임과 중첩하는 좌측 및 우측 채널 신호(228, 230)를 출력한다. 신호들, 즉 전환이 적용되는 프레임에 대한 FD 디코딩된 시간 도메인 신호 및 LPD 디코딩된 시간 도메인 신호는 다음에, 좌우 채널들의 전환을 원활화하기 위해 (결합기(112)에서) 각각의 채널상에서 크로스 페이드된다:
Figure pct00002
Figure pct00003
도 15에서, 전환은 M = ccfl/2를 사용하여 개략적으로 예시된다. 더욱이, 결합기는 이들 모드들 사이의 전환 없이 단지 FD 또는 LPD 디코딩만을 사용하여 디코딩되는 연속적인 프레임들에서 크로스 페이딩을 수행할 수 있다.
즉, FD 디코딩의 중첩 및 합산 프로세스는, 특히 시간-주파수/주파수-시간 변환을 위해 MDCT/IMDCT를 사용할 때, FD 디코딩된 오디오 신호 및 LPD 디코딩된 오디오 신호의 크로스 페이딩으로 대체된다. 따라서 디코더는 FD 디코딩된 오디오 신호를 페이드 인하도록 FD 디코딩된 오디오 신호의 페이드 아웃 부분에 대한 LPD 신호를 계산해야 한다. 일 실시예에 따르면, 오디오 디코더(102)는 다채널 오디오 신호의 현재 프레임(204) 내에서, 이전 프레임을 디코딩하기 위해 주파수 도메인 디코더(106)를 사용하는 것에서 다가오는 프레임을 디코딩하기 위해 선형 예측 도메인 인코더(104)로 스위칭하도록 구성된다. 결합기(112)는 현재 프레임의 제 2 다채널 표현(116)으로부터 합성 미드 신호(226)를 계산할 수 있다. 제 1 조인트 다채널 디코더(108)는 합성 미드 신호(226) 및 제 1 다채널 정보(20)를 사용하여 제 1 다채널 표현(114)을 생성할 수 있다. 더욱이, 결합기(112)는 제 1 다채널 표현과 제 2 다채널 표현을 결합하여 다채널 오디오 신호의 디코딩된 현재 프레임을 얻도록 구성된다.
도 16은 현재 프레임(232)에서 LPD 인코딩의 사용에서 FD 디코딩의 사용으로의 전환을 수행하기 위한 인코더에서의 개략적인 타이밍도를 보여준다. LPD에서 FD 인코딩으로의 스위칭을 위해, 시작 윈도우(300a, 300b)가 FD 다채널 인코딩에 적용된다. 시작 윈도우는 정지 윈도우(200a, 200b)와 비교할 때 유사한 기능을 갖는다. 수직선들(234, 236) 사이의 LPD 인코더의 TCX 인코딩된 모노 신호의 페이드 아웃 동안, 시작 윈도우(300a, 300b)가 페이드 인을 수행한다. TCX 대신 ACELP를 사용할 때 모노 신호는 원활한 페이드 아웃을 수행하지 않는다. 그럼에도, 정확한 오디오 신호는 예를 들어, FAC를 사용하여 디코더에서 재구성될 수 있다. LPD 스테레오 윈도우들(238, 240)은 디폴트로 계산되며, LPD 분석 윈도우들(241)에 의해 지시된 ACELP 또는 TCX 인코딩된 모노 신호에 관련된다.
도 17은 도 16과 관련하여 기술된 인코더의 타이밍도에 대응하는 디코더의 개략적인 타이밍도를 보여준다.
LPD 모드로부터 FD 모드로의 전환을 위해, 여분의 프레임이 스테레오 디코더(146)에 의해 디코딩된다. LPD 모드 디코더로부터 도달하는 미드 신호는 프레임 인덱스(i = ccfl/M)에 대해 0으로 확장된다.
Figure pct00004
앞에서 설명한 스테레오 디코딩은 마지막 스테레오 파라미터들을 유지함으로써, 그리고 사이드 신호 역양자화로부터 스위칭함으로써 수행될 수 있는데, 즉 code_mode가 0으로 설정된다. 더욱이, 역 DFT 이후의 우측 윈도잉이 적용되지 않아, 이는 여분의 LPD 스테레오 윈도우(244a, 244b)의 예리한 에지(242a, 242b)를 야기한다. 평면 섹션(246a, 246b)에 형상 에지가 위치하는데, 여기서는 프레임의 해당 부분의 전체 정보가 FD 인코딩된 오디오 신호로부터 도출될 수 있다는 것이 명확하게 학인될 수 있다. 따라서 (예리한 에지가 없는) 우측 윈도잉은 LPD 정보와 FD 정보의 원하지 않는 간섭을 초래할 수도 있으며, 따라서 이는 적용되지 않는다.
(LPD 분석 윈도우들(248) 및 스테레오 파라미터들에 의해 표시된 LPD 디코딩된 미드 신호를 사용하는) 결과적인 좌측 및 우측 (LPD 디코딩된) 채널들(250a, 250b)은 다음에, TCX-FD 모드의 경우에는 중첩-합산 처리를 사용함으로써 또는 ACELP-FD 모드의 경우에는 각각에 채널에 FAC를 사용함으로써 다음 프레임의 FD 모드 디코딩된 채널들로 결합된다. 전환들의 개략적인 예시가 도 17에 도시되며, 여기서 M = ccfl/2이다.
실시예들에 따르면, 오디오 디코더(102)는 다채널 오디오 신호의 현재 프레임(232) 내에서, 이전 프레임을 디코딩하기 위해 선형 예측 도메인 디코더(104)를 사용하는 것에서 다가오는 프레임을 디코딩하기 위해 주파수 도메인 인코더(106)로 스위칭할 수 있다. 스테레오 디코더(146)는 이전 프레임의 다채널 정보를 사용하여 현재 프레임에 대한 선형 예측 도메인 디코더의 디코딩된 모노 신호로부터 합성 다채널 오디오 신호를 계산할 수 있으며, 제 2 조인트 다채널 디코더(110)는 현재 프레임에 대한 제 2 다채널 표현을 계산하고 시작 윈도우를 사용하여 제 2 다채널 표현을 가중할 수 있다. 결합기(112)는 합성 다채널 오디오 신호 및 가중된 제 2 다채널 표현을 결합하여 다채널 오디오 신호의 디코딩된 현재 프레임을 얻을 수 있다.
도 18은 다채널 신호(4)를 인코딩하기 위한 인코더(2")의 개략적인 블록도를 보여준다. 오디오 인코더(2”)는 다운믹서(12), 선형 예측 도메인 코어 인코더(16), 필터 뱅크(82) 및 조인트 다채널 인코더(18)를 포함한다. 다운믹서(12)는 다운믹스 신호(14)를 얻기 위해 다채널 신호(4)를 다운믹스하도록 구성된다. 다운믹스 신호는 예를 들어, M/S 다채널 오디오 신호의 미드 신호와 같은 모노 신호일 수 있다. 선형 예측 도메인 코어 인코더(16)는 다운믹스 신호(14)를 인코딩할 수 있으며, 여기서 다운믹스 신호(14)는 저대역 및 고대역을 갖고, 선형 예측 도메인 코어 인코더(16)는 고대역을 파라메트릭 인코딩하기 위해 대역폭 확장 처리를 적용하도록 구성된다. 더욱이, 필터 뱅크(82)는 다채널 신호(4)의 스펙트럼 표현을 생성할 수 있고, 조인트 다채널 인코더(18)는 다채널 신호의 저대역 및 고대역을 포함하는 스펙트럼 표현을 처리하여 다채널 정보(20)를 생성하도록 구성될 수 있다. 다채널 정보는 디코더가 모노 신호로부터 다채널 오디오 신호를 재계산할 수 있게 하는 ILD 및/또는 IPD 및/또는 양 귀 사이의 강도 차(IID: Interaural Intensity Difference) 파라미터들을 포함할 수 있다. 이 양상에 따른 실시예들의 추가 양상들에 대한 보다 상세한 도면은 이전 도면들에서, 특히 도 4에서 확인될 수 있다.
실시예들에 따르면, 선형 예측 도메인 코어 인코더(16)는 인코딩되고 디코딩된 다운믹스 신호(54)를 얻기 위해 인코딩된 다운믹스 신호(26)를 디코딩하기 위한 선형 예측 도메인 디코더를 더 포함할 수 있다. 여기서, 선형 예측 도메인 코어 인코더는 디코더로의 송신을 위해 인코딩되는 M/S 오디오 신호의 미드 신호를 형성할 수 있다. 더욱이, 오디오 인코더는 인코딩되고 디코딩된 다운믹스 신호(54)를 사용하여 인코딩된 다채널 잔차 신호(58)를 계산하기 위한 다채널 잔차 코더(56)를 더 포함한다. 다채널 잔차 신호는 다채널 정보(20)를 사용하는 디코딩된 다채널 표현과 다운믹스 이전 다채널 신호(4) 사이의 에러를 나타낸다. 즉, 다채널 잔차 신호(58)는 선형 예측 도메인 코어 인코더를 사용하여 계산된 미드 신호에 대응하는, M/S 오디오 신호의 사이드 신호일 수 있다.
추가 실시예들에 따르면, 선형 예측 도메인 코어 인코더(16)는 고대역을 파라메트릭 인코딩하기 위해 대역폭 확장 처리를 적용하고, 다운믹스 신호의 저대역을 나타내는 저대역 신호만을 인코딩되고 디코딩된 다운믹스 신호로서 획득하도록 구성되며, 여기서 인코딩된 다채널 잔차 신호(58)는 다운믹스 이전 다채널 신호의 저대역에 대응하는 대역만을 갖는다. 추가로 또는 대안으로, 다채널 잔차 코더는 선형 예측 도메인 코어 인코더에서 다채널 신호의 고대역에 적용되는 시간 도메인 대역폭 확장을 시뮬레이트할 수 있고, 고대역에 대한 잔차 또는 사이드 신호를 계산하여 모노 또는 미드 신호의 더 정확한 디코딩이 디코딩된 다채널 오디오 신호를 도출할 수 있게 할 수 있다. 시뮬레이션은 대역폭 확장된 고대역을 디코딩하기 위해 디코더에서 수행되는 것과 동일하거나 유사한 계산을 포함할 수 있다. 대역폭 확장의 시뮬레이트에 대한 대안적인 또는 부가적인 접근 방식은 사이드 신호의 예측일 수 있다. 따라서 다채널 잔차 코더는 필터 뱅크(82)에서의 시간-주파수 변환 후에 다채널 오디오 신호(4)의 파라메트릭 표현(83)으로부터 전대역 잔차 신호를 계산할 수 있다. 이 전대역 사이드 신호는 파라메트릭 표현(83)으로부터 유사하게 도출된 전대역 미드 신호의 주파수 표현과 비교될 수 있다. 전대역 미드 신호는 예를 들어, 파라메트릭 표현(83)의 좌우 채널의 합으로서 그리고 전대역 사이드 신호는 그 차이로서 계산될 수 있다. 더욱이, 예측은 이에 따라 전대역 사이드 신호의 절대 차 그리고 예측 인자와 전대역 미드 신호의 곱을 최소화하는 전대역 미드 신호의 예측 인자를 계산할 수 있다.
즉, 선형 예측 도메인 인코더는 M/S 다채널 오디오 신호의 미드 신호의 파라메트릭 표현으로서 다운믹스 신호(14)를 계산하도록 구성될 수 있으며, 여기서 다채널 잔차 코더는 M/S 다채널 오디오 신호의 미드 신호에 대응하는 사이드 신호를 계산하도록 구성될 수 있고, 잔차 코더는 시간 도메인 대역폭 확장의 시뮬레이팅을 이용하여 미드 신호의 고대역을 계산할 수 있거나, 잔차 코더는 이전 프레임으로부터의 계산된 사이드 신호와 계산된 전대역 미드 신호 간의 차를 최소화하는 예측 정보의 탐색을 이용하여 미드 신호의 고대역을 예측할 수 있다.
추가 실시예들은 ACELP 프로세서(30)를 포함하는 선형 예측 도메인 코어 인코더(16)를 보여준다. ACELP 프로세서는 다운샘플링된 다운믹스 신호(34)에 대해 동작할 수 있다. 더욱이, 시간 도메인 대역폭 확장 프로세서(36)는 제 3 다운샘플링에 의해 ACELP 입력 신호로부터 제거된 다운믹스 신호의 일부의 대역을 파라메트릭 인코딩하도록 구성된다. 추가로 또는 대안으로, 선형 예측 도메인 코어 인코더(16)는 TCX 프로세서(32)를 포함할 수 있다. TCX 프로세서(32)는 ACELP 프로세서에 대한 다운샘플링보다 더 작은 차수로 다운샘플링되지 않거나 다운샘플링되는 다운믹스 신호(14)에 대해 동작할 수 있다. 더욱이, TCX 프로세서는 제 1 시간-주파수 변환기(40), 제 1 세트의 대역들의 파라메트릭 표현(46)을 생성하기 위한 제 1 파라미터 생성기(42), 및 제 2 세트의 대역들에 대한 한 세트의 양자화된 인코딩된 스펙트럼 라인들(48)을 생성하기 위한 제 1 양자화기 인코더(44)를 포함할 수 있다. ACELP 프로세서 및 TCX 프로세서는 개별적으로, 예컨대 제 1 수의 프레임들은 ACELP를 사용하여 인코딩되고 제 2 수의 프레임들은 TCX를 사용하여 인코딩되거나, ACELP와 TCX 모두가 하나의 프레임을 디코딩하기 위한 정보에 기여하는 조인트 방식으로 수행할 수 있다.
추가 실시예들은 시간-주파수 변환기(40)가 필터 뱅크(82)와 다른 것을 보여준다. 필터 뱅크(82)는 다채널 신호(4)의 스펙트럼 표현(83)을 생성하도록 최적화된 필터 파라미터들을 포함할 수 있으며, 시간-주파수 변환기(40)는 제 1 세트의 대역들의 파라메트릭 표현(46)을 생성하도록 최적화된 필터 파라미터들을 포함할 수 있다. 추가 단계에서, 선형 예측 도메인 인코더는 대역폭 확장 및/또는 ACELP의 경우에 상이한 필터 뱅크를 사용하거나 심지어는 필터 뱅크를 사용하지 않는다는 점이 주목되어야 한다. 더욱이, 필터 뱅크(82)는 별도의 필터 파라미터들을 계산하여 선형 예측 도메인 인코더의 이전 파라미터 선택에 의존하지 않고 스펙트럼 표현(83)을 생성할 수 있다. 즉, LPD 모드의 다채널 코딩은 대역폭 확장에 사용되는 것(ACELP의 경우 시간 도메인 그리고 TCX의 경우 MDCT)이 아닌 다채널 처리(DFT)를 위한 필터 뱅크를 사용할 수 있다. 그 이점은 각각의 파라메트릭 코딩이 파라미터들을 얻기 위해 최적의 시간-주파수 분해를 사용할 수 있다는 점이다. 예컨대, ACELP + TDBWE 및 파라메트릭 다채널 코딩과 외부 필터 뱅크(예를 들어, DFT)의 결합이 유리하다. 이 결합은 음성에 대한 최상의 대역폭 확장은 시간 도메인에서 그리고 다채널 처리는 주파수 도메인에서 이루어져야 한다고 알려져 있기 때문에 특히 효율적이다. ACELP + TDBWE는 어떠한 시간-주파수 변환기도 갖지 않으므로, DFT와 같은 외부 필터 뱅크 또는 변환이 선호되거나 심지어 필요할 수도 있다. 다른 개념들은 항상 동일한 필터 뱅크를 사용하며 이에 따라 예컨대, 다음과 같이 서로 다른 필터 뱅크들을 사용하지 않는다:
- MDCT에서의 AAC에 대한 IGF 및 조인트 스테레오 코딩
- QMF에서의 HeAACv2에 대한 SBR + PS
- QMF에서의 USAC에 대한 SBR + MPS212.
추가 실시예들에 따르면, 다채널 인코더는 제 1 프레임 생성기를 포함하고, 선형 예측 도메인 코어 인코더는 제 2 프레임 생성기를 포함하며, 제 1 및 제 2 프레임 생성기는 다채널 신호(4)로부터 프레임을 형성하도록 구성되고, 제 1 및 제 2 프레임 생성기는 비슷한 길이의 프레임을 형성하도록 구성된다. 즉, 다채널 프로세서의 프레이밍은 ACELP에서 사용되는 것과 동일할 수 있다. 주파수 도메인에서 다채널 처리가 수행되더라도, 파라미터들을 계산하거나 다운믹스하기 위한 시간 분해능은 ACELP의 프레이밍에 이상적으로 가깝거나 심지어는 같아야 한다. 이 경우의 비슷한 길이는 다채널 처리 또는 다운믹스를 위한 파라미터들을 계산하기 위한 시간 분해능과 같거나 근접할 수 있는 ACELP의 프레이밍을 나타낼 수 있다.
추가 실시예들에 따르면, 오디오 인코더는 선형 예측 도메인 코어 인코더(16) 및 다채널 인코더(18)를 포함하는 선형 예측 도메인 인코더(6), 주파수 도메인 인코더(8), 및 선형 예측 도메인 인코더(6)와 주파수 도메인 인코더(8) 사이에서 스위칭하기 위한 제어기(10)를 더 포함한다. 주파수 도메인 인코더(8)는 다채널 신호로부터 제 2 다채널 정보(24)를 인코딩하기 위한 제 2 조인트 다채널 인코더(22)를 포함할 수 있으며, 여기서 제 2 조인트 다채널 인코더(22)는 제 1 조인트 다채널 인코더(18)와 상이하다. 더욱이, 제어기(10)는 다채널 신호의 일부가 선형 예측 도메인 인코더의 인코딩된 프레임으로 또는 주파수 도메인 인코더의 인코딩된 프레임으로 표현되도록 구성된다.
도 19는 추가 양상에 따라, 코어 인코딩된 신호, 대역폭 확장 파라미터들 및 다채널 정보를 포함하는 인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102")의 개략적인 블록도를 보여준다. 오디오 디코더는 선형 예측 도메인 코어 디코더(104), 분석 필터 뱅크(144), 다채널 디코더(146) 및 합성 필터 뱅크 프로세서(148)를 포함한다. 선형 예측 도메인 코어 디코더(104)는 코어 인코딩된 신호를 디코딩하여 모노 신호를 생성할 수 있다. 이는 M/S 인코딩된 오디오 신호의 (전대역) 미드 신호일 수 있다. 분석 필터 뱅크(144)는 모노 신호를 스펙트럼 표현(145)으로 변환할 수 있으며, 여기서 다채널 디코더(146)는 모노 신호 및 다채널 정보(20)의 스펙트럼 표현으로부터 제 1 채널 스펙트럼 및 제 2 채널 스펙트럼을 생성할 수 있다. 따라서 다채널 디코더는 예컨대, 디코딩된 미드 신호에 대응하는 사이드 신호를 포함하는 다채널 정보를 사용할 수 있다. 합성 필터 뱅크 프로세서(148)는 제 1 채널 스펙트럼을 합성 필터링하여 제 1 채널 신호를 얻고 제 2 채널 스펙트럼을 합성 필터링하여 제 2 채널 신호를 얻도록 구성될 수 있다. 따라서 바람직하게는, 분석 필터 뱅크(144)와 비교되는 역 동작이 제 1 및 제 2 채널 신호에 적용될 수 있는데, 이는 분석 필터 뱅크가 DFT를 사용한다면 IDFT일 수 있다. 그러나 필터 뱅크 프로세서는 예를 들어, 병렬로 또는 예를 들어, 동일한 필터 뱅크를 사용하여 연속한 순서로 2개의 채널 스펙트럼들 처리할 수 있다. 이러한 추가 양상에 관한 더 상세한 도면들은 특히 도 7과 관련하여 이전 도면들에서 확인될 수 있다.
추가 실시예들에 따르면, 선형 예측 도메인 코어 디코더는 대역폭 확장 파라미터들 및 저대역 모노 신호 또는 코어 인코딩된 신호로부터 고대역 부분(140)을 생성하여 오디오 신호의 디코딩된 고대역(140)을 얻기 위한 대역폭 확장 프로세서(126), 저대역 모노 신호를 디코딩하도록 구성된 저대역 신호 프로세서, 및 오디오 신호의 디코딩된 저대역 모노 신호 및 디코딩된 고대역을 사용하여 전대역 모노 신호를 계산하도록 구성된 결합기(128)를 포함한다. 저대역 모노 신호는 예를 들어, M/S 다채널 오디오 신호의 미드 신호의 기저대역 표현일 수 있으며, 여기서 대역폭 확장 파라미터들은 (결합기(128)에서) 저대역 모노 신호로부터 전대역 모노 신호를 계산하도록 적용될 수 있다.
추가 실시예들에 따르면, 선형 예측 도메인 디코더는 ACELP 디코더(120), 저대역 합성기(122), 업샘플러(124), 시간 도메인 대역폭 확장 프로세서(126) 또는 제 2 결합기(128)를 포함하며, 여기서 제 2 결합기(128)는 업샘플링된 저대역 신호와 대역폭 확장된 고대역 신호(140)를 결합하여 전대역 ACELP 디코딩된 모노 신호를 얻도록 구성된다. 선형 예측 도메인 디코더는 전대역 TCX 디코딩된 모노 신호를 얻기 위해 TCX 디코더(130) 및 지능형 갭 채움 프로세서(132)를 더 포함할 수 있다. 따라서 전대역 합성 프로세서(134)는 전대역 ACELP 디코딩된 모노 신호와 전대역 TCX 디코딩된 모노 신호를 결합할 수 있다. 추가로, TCX 디코더 및 IGF 프로세서로부터의 저대역 스펙트럼-시간 변환에 의해 도출된 정보를 사용하여 저대역 합성기를 초기화하기 위한 교차 경로(136)가 제공될 수 있다.
추가 실시예들에 따르면, 오디오 디코더는 주파수 도메인 디코더(106), 주파수 도메인 디코더(106)의 출력 및 제 2 다채널 정보(22, 24)를 사용하여 제 2 다채널 표현(116)을 생성하기 위한 제 2 조인트 다채널 디코더(110), 및 제 1 채널 정보 및 제 2 채널 신호를 제 2 다채널 표현(116)과 결합하여 디코딩된 오디오 신호(118)를 얻기 위한 제 1 결합기(112)를 포함하며, 제 2 조인트 다채널 디코더는 제 2 조인트 다채널 디코더와 다르다. 따라서 오디오 디코더는 LPD 또는 주파수 도메인 디코딩을 사용하는 파라메트릭 다채널 디코딩 사이에서 스위칭할 수 있다. 이 접근 방식은 이전 도면들과 관련하여 이미 상세하게 설명되었다.
추가 실시예들에 따르면, 분석 필터 뱅크(144)는 모노 신호를 스펙트럼 표현(145)으로 변환하기 위한 DFT를 포함하고, 전대역 합성 프로세서(148)는 스펙트럼 표현(145)을 제 1 및 제 2 채널 신호로 변환하기 위한 IDFT를 포함한다. 더욱이, 분석 필터 뱅크는 이전 프레임의 스펙트럼 표현의 우측 부분과 현재 프레임의 스펙트럼 표현의 좌측 부분이 중첩하도록 DFT 변환된 스펙트럼 표현(145) 상에 윈도우를 적용할 수 있으며, 여기서 이전 프레임과 현재 프레임은 연속적이다. 즉, 연속적인 DFT 블록들 간의 원활한 전환을 수행하고/그리고 블로킹 아티팩트들을 줄이기 위해 DFT 블록들 간에 크로스 페이드가 적용될 수 있다.
추가 실시예들에 따르면, 다채널 디코더(146)는 모노 신호로부터 제 1 및 제 2 채널 신호를 얻도록 구성되며, 여기서 모노 신호는 다채널 신호의 미드 신호이고, 다채널 디코더(146)는 M/S 다채널 디코딩된 오디오 신호를 얻도록 구성되며, 다채널 디코더는 다채널 정보로부터 사이드 신호를 계산하도록 구성된다. 더욱이, 다채널 디코더(146)는 M/S 다채널 디코딩된 오디오 신호로부터 L/R 다채널 디코딩된 오디오 신호를 계산하도록 구성될 수 있으며, 여기서 다채널 디코더(146)는 다채널 정보 및 사이드 신호를 사용하여 저대역에 대한 L/R 다채널 디코딩된 오디오 신호를 계산할 수 있다. 추가로 또는 대안으로, 다채널 디코더(146)는 미드 신호로부터 예측된 사이드 신호를 계산할 수 있고, 여기서 다채널 디코더는 예측된 사이드 신호 및 다채널 정보의 ILD 값을 사용하여 고대역에 대한 L/R 다채널 디코딩된 오디오 신호를 계산하도록 추가로 구성될 수 있다.
더욱이, 다채널 디코더(146)는 L/R 디코딩된 다채널 오디오 신호에 대해 복소 연산을 수행하도록 추가로 구성될 수 있으며, 다채널 디코더는 에너지 보상을 얻기 위해, 인코딩된 미드 신호의 에너지 및 디코딩된 L/R 다채널 오디오 신호의 에너지를 사용하여 복소 연산의 크기를 계산할 수 있다. 더욱이, 다채널 디코더는 다채널 정보의 IPD 값을 사용하여 복소 연산의 위상을 계산하도록 구성된다. 디코딩 후에, 디코딩된 다채널 신호의 에너지, 레벨 또는 위상은 디코딩된 모노 신호와 다를 수 있다. 따라서 다채널 신호의 에너지, 레벨 또는 위상이 디코딩된 모노 신호의 값들로 조정되도록 복소연산이 결정될 수 있다. 더욱이, 위상은 예컨대, 인코더 측에서 계산된 다채널 정보로부터 계산된 IPD 파라미터들을 사용하여, 인코딩 전에 다채널 신호의 위상 값으로 조정될 수 있다. 더욱이, 디코딩된 다채널 신호에 대한 인간의 인지는 인코딩 이전에 원래의 다채널 신호에 대한 인간의 인지에 적응될 수 있다.
도 20은 다채널 신호를 인코딩하기 위한 방법(2000)의 흐름도의 개략도를 보여준다. 이 방법은 다운믹스 신호를 얻기 위해 다채널 신호를 다운믹스하는 단계(2050), 다운믹스 신호를 인코딩하는 단계(2100) ― 다운믹스 신호는 저대역 및 고대역을 갖고, 선형 예측 도메인 코어 인코더는 고대역을 파라메트릭 인코딩하기 위해 대역폭 확장 처리를 적용하도록 구성됨 ―, 다채널 신호의 스펙트럼 표현을 생성하는 단계(2150), 및 다채널 정보를 생성하도록 다채널 신호의 저대역 및 고대역을 포함하는 스펙트럼 표현을 처리하는 단계(2200)를 포함한다.
도 21은 코어 인코딩된 신호, 대역폭 확장 파라미터들 및 다채널 정보를 포함하는 인코딩된 오디오 신호를 디코딩하는 방법(2100)의 흐름도의 개략도를 보여준다. 이 방법은 모노 신호를 생성하기 위해 코어 인코딩된 신호를 디코딩하는 단계(2105), 모노 신호를 스펙트럼 표현으로 변환하는 단계(2110), 모노 신호 및 다채널 정보의 스펙트럼 표현으로부터 제 1 채널 스펙트럼 및 제 2 채널 스펙트럼을 생성하는 단계(2115), 및 제 1 채널 스펙트럼을 합성 필터링하여 제 1 채널 신호를 얻고 제 2 채널 스펙트럼을 합성 필터링하여 제 2 채널 신호를 얻는 단계(2120)를 포함한다.
추가 실시예들이 다음과 같이 설명된다.
비트스트림 신택스 변경들
부수적인 페이로드인 섹션 5.3.2의 USAC 규격들 [1] 표 23은 다음과 같이 수정되어야 한다:
표 1 ― UsacCoreCoderData()의 신택스
신택스 비트 수 Mnemonic
Figure pct00005
표 1 ― lpd_stereo_stream()의 신택스
신택스 비트 수 Mnemonic
Figure pct00006

Figure pct00007

Figure pct00008
다음 페이로드 설명은 USAC 페이로드인 섹션 6.2에 추가되어야 한다.
6.2.x lpd_stereo_stream()
자세한 디코딩 프로시저는 7.x LPD 스테레오 디코딩 섹션에서 설명된다.
용어들 및 정의들
lpd_stereo_stream() LPD 모드에 대한 스테레오 데이터를 디코딩하기 위한 데이터 엘리먼트
res_mode 파라미터 대역들의 주파수 분해능을 나타내는 플래그.
q_mode 파라메트릭 대역들의 시간 분해능을 나타내는 플래그.
ipd_mode IPD 파라미터에 대한 파라미터 대역들의 최대치를 정의하는 비트 필드.
pred_mode 예측이 사용되는지 여부를 나타내는 플래그.
cod_mode 사이드 신호가 양자화되는 파라미터 대역들의 최대치를 정의하는 비트 필드.
Ild_idx[k][b] 프레임 k 및 대역 b에 대한 ILD 파라미터 인덱스.
Ipd_idx[k][b] 프레임 k 및 대역 b에 대한 IPD 파라미터 인덱스.
pred_gain_idx[k][b] 프레임 k 및 대역 b에 대한 예측 이득 지수.
cod_gain_idx 양자화된 사이드 신호에 대한 전체 이득 지수.
보조자 엘리먼트들
ccfl 코어 코드 프레임 길이.
M 표 7.x.1에 정의된 스테레오 LPD 프레임 길이.
band_config() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
band_limits() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
max_band() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
ipd_max_band() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
cod_max_band() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
cod_L 디코딩된 사이드 신호의 DFT 라인들의 수.
디코딩 프로세스
LPD 스테레오 코딩
도구 설명
LPD 스테레오는 미드 채널이 모노 LPD 코어 코더에 의해 코딩되고 사이드 신호가 DFT 도메인에서 코딩되는 이산 M/S 스테레오 코딩이다. 디코딩된 미드 신호는 LPD 모노 디코더로부터 출력된 다음 LPD 스테레오 모듈에 의해 처리된다. 스테레오 디코딩은 L 및 R 채널들이 디코딩되는 DFT 도메인에서 수행된다. 2개의 디코딩된 채널들은 시간 도메인으로 다시 변환되며, 다음에 이 도메인에서 FD 모드로부터의 디코딩된 채널들과 결합될 수 있다. FD 코딩 모드는 자체적인 스테레오 도구들, 즉 복소 예측을 하거나 하지 않는 이산 스테레오를 사용한다.
데이터 엘리먼트들
res_mode 파라미터 대역들의 주파수 분해능을 나타내는 플래그.
q_mode 파라메트릭 대역들의 시간 분해능을 나타내는 플래그.
ipd_mode IPD 파라미터에 대한 파라미터 대역들의 최대치를 정의하는 비트 필드.
pred_mode 예측이 사용되는지 여부를 나타내는 플래그.
cod_mode 사이드 신호가 양자화되는 파라미터 대역들의 최대치를 정의하는 비트 필드.
Ild_idx[k][b] 프레임 k 및 대역 b에 대한 ILD 파라미터 인덱스.
Ipd_idx[k][b] 프레임 k 및 대역 b에 대한 IPD 파라미터 인덱스.
pred_gain_idx[k][b] 프레임 k 및 대역 b에 대한 예측 이득 지수.
cod_gain_idx 양자화된 사이드 신호에 대한 전체 이득 지수.
보조 엘리먼트들
ccfl 코어 코드 프레임 길이.
M 표 7.x.1에 정의된 스테레오 LPD 프레임 길이.
band_config() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
band_limits() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
max_band() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
ipd_max_band() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
cod_max_band() 코딩된 파라미터 대역들의 수를 반환하는 함수. 함수는 7.x에 정의되어 있음
cod_L 디코딩된 사이드 신호의 DFT 라인들의 수.
디코딩 프로세스
스테레오 디코딩은 주파수 도메인에서 수행된다. 이것은 LPD 디코더의 후처리 역할을 한다. 이것은 LPD 디코더로부터 모노 미드 신호의 합성을 수신한다. 그 다음, 사이드 신호가 주파수 도메인에서 디코딩되거나 예측된다. 그 다음, 채널 스펙트럼들이 시간 도메인에서 재합성되기 전에 주파수 도메인에서 재구성된다. 스테레오 LPD는 LPD 모드에서 사용된 코딩 모드와 독립적으로 ACELP 프레임의 크기와 동일한 고정 프레임 크기로 작동한다.
주파수 분석
프레임 인덱스 i의 DFT 스펙트럼은 길이 M의 디코딩된 프레임 x로부터 계산된다.
Figure pct00009
여기서 N은 신호 분석의 크기이고, w는 분석 윈도우이고, x는 DFT의 중첩 크기 L만큼 지연된 프레임 인덱스 i에서의 LPD 디코더로부터의 디코딩된 시간 신호이다. M은 FD 모드에서 사용된 샘플링 레이트에서의 ACELP 프레임의 크기와 동일하다. N은 스테레오 LPD 프레임 크기 + DFT의 중첩 크기와 동일하다. 크기들은 표 7.x.1로 보고된 사용된 LPD 버전에 좌우된다.
표 7.x.1 ― 스테레오 LPD의 DFT 및 프레임 크기들
LPD 버전 DFT 크기 N 프레임 크기 M 중첩 크기 L
0 336 256 80
1 672 512 160
윈도우 w는 다음과 같이 정의된 사인 윈도우이다:
Figure pct00010
파라미터 대역들의 구성
DFT 스펙트럼은 파라미터 대역들이라고 하는 중첩하지 않는 주파수 대역들로 분할된다. 스펙트럼의 분할은 불균일하며, 청각적인 주파수 분해를 모방한다. 스펙트럼의 2개의 서로 다른 분할들은 대략적으로 등가 직사각 대역폭(ERB: Equivalent Rectangular Bandwidth)의 2배 또는 4배에 해당하는 대역폭들로 가능하다.
스펙트럼 분할은 데이터 엘리먼트 res_mod에 의해 선택되고 다음 의사 코드에 의해 정의된다:
funtion nbands=band_config(N,res_mod)
band_limits[0]=1;
nbands=0;
while(band_limits[nbands++]<(N/2)){
if(stereo_lpd_res==0)
band_limits[nbands]=band_limits_erb2[nbands];
else
band_limits[nbands]=band_limits_erb4[nbands];
}
nbands--;
band_limits[nbands]=N/2;
return nbands
여기서 nbands는 파라미터 대역들의 총 수이고, N은 DFT 분석 윈도우 크기이다. band_limits_erb2band_limits_erb4 표들은 표 7.x.2에 정의된다. 디코더는 2개의 스테레오 LPD 프레임들마다 스펙트럼의 파라미터 대역들의 분해능을 적응적으로 변경할 수 있다.
표 7.x.2 ― DFT 인덱스 k 항의 파라미터 대역 한계들
파라미터 대역 인덱스 b band_limits_erb2 band_limits_erb4
0 1 1
1 3 3
2 5 7
3 7 13
4 9 21
5 13 33
6 17 49
7 21 73
8 25 105
9 33 177
10 41 241
11 49 337
12 57
13 73
14 89
15 105
16 137
17 177
18 241
19 337
IPD에 대한 파라미터 대역들의 최대 수는 2 비트 필드 ipd_mod 데이터 엘리먼트 내에서 전송된다:
Figure pct00011
사이드 신호의 코딩에 대한 파라미터 대역들의 최대 수는 2 비트 필드 cod_mod 데이터 엘리먼트 내에서 전송된다:
Figure pct00012
max_band[][]는 표 7.x.3에 정의된다.
그 다음, 사이드 신호에 대해 예상되는 디코딩된 라인들의 수는 다음과 같이 계산된다:
Figure pct00013
표 7.x.3 ― 서로 다른 코드 모드들에 대한 대역들의 최대 수
모드 인덱스 max_band[0] max_band[1]
0 0 0
1 7 4
2 9 5
3 11 6
스테레오 파라미터들의 역양자화
스테레오 파라미터들인 채널 간 레벨 차(ILD: Interchannel Level Differency)들, 채널 간 위상 차(IPD: Interchannel Phase Differency)들 및 예측 이득들은 플래그 q_mode에 따라 프레임마다 또는 2개의 프레임들마다 전송된다. q_mode가 0과 같다면, 파라미터들은 프레임마다 업데이트된다. 그렇지 않으면, 파라미터들 값들은 USAC 프레임 내의 스테레오 LPD 프레임의 홀수 인덱스 i에 대해서만 업데이트된다. USAC 프레임 내의 스테레오 LPD 프레임의 홀수 인덱스 i는 LPD 버전 0에서 0 내지 3 그리고 LPD 버전 1에서 0 내지 1일 수 있다.
ILD는 다음과 같이 디코딩된다:
Figure pct00014
IPD는 ipd_max_band 첫 번째 대역들에 대해 디코딩된다:
Figure pct00015
예측 이득들은 1로 설정된 pred_mode 플래그에 대해서만 디코딩된다. 디코딩된 이득들은 다음과 같다:
Figure pct00016
pred_mode가 0과 같다면, 모든 이득들은 0으로 설정된다.
q_mode의 값과 관계 없이, code_mode가 0이 아닌 값이라면 프레임마다 사이드 신호 디코딩이 수행된다. 이는 먼저 전체 이득을 디코딩한다:
Figure pct00017
사이드 신호의 디코딩된 형상은 섹션의 USAC 규격 [1]에서 설명되는 AVQ의 출력이다.
Figure pct00018
표 7.x.4 ― 역양자화 표 ild_q[]
인덱스 출력 인덱스 출력
0 -50 16 2
1 -45 17 4
2 -40 18 6
3 -35 19 8
4 -30 20 10
5 -25 21 13
6 -22 22 16
7 -19 23 19
8 -16 24 22
9 -13 25 25
10 -10 26 30
11 -8 27 35
12 -6 28 40
13 -4 29 45
14 -2 30 50
15 0 31 예비
표 7.x.5 ― 역양자화 표 res_pres_gain_q[]
인덱스 출력
0 0
1 0.1170
2 0.2270
3 0.3407
4 0.4645
5 0.6051
6 0.7763
7 1
역 채널 맵핑
미드 신호 X와 사이드 신호 S가 먼저 다음과 같이 좌우 채널들 LR로 변환된다:
Figure pct00019
여기서 파라미터 대역별 이득 g가 ILD 파라미터로부터 도출된다:
Figure pct00020
이며, 여기서
Figure pct00021
이다.
cod_max_band 이하의 파라미터 대역들의 경우, 2개의 채널들이 디코딩된 사이드 신호로 업데이트된다:
Figure pct00022
더 높은 파라미터 대역들의 경우, 사이드 신호가 예측되고 채널들이 다음과 같이 업데이트된다:
Figure pct00023
마지막으로, 채널들은 신호들의 원래 에너지와 채널 간 위상을 복원하는 것을 목표로 복소 값과 곱해진다:
Figure pct00024
여기서
Figure pct00025
여기서 c는 -12와 12㏈로 구속된다.
그리고 여기서
Figure pct00026
여기서 atan2(x,y)는 y에 대한 x의 4사분면 역탄젠트이다.
시간 도메인 합성
2개의 디코딩된 스펙트럼들인 LR로부터, 2개의 시간 도메인 신호들 lr이 역 DFT에 의해 합성된다:
Figure pct00027
마지막으로, 중첩 및 합산 연산이 M개의 샘플들의 프레임의 재구성을 가능하게 한다:
Figure pct00028
후처리
베이스 후처리가 2개의 채널들에 개별적으로 적용된다. 처리는 두 채널들 모두에 대해 [1]의 섹션 7.17에서 설명되는 것과 동일하다.
본 명세서에서, 라인들 상의 신호들은 때로는 라인들에 대한 참조 번호들로 명명되거나 때로는 그 라인들에 기인한 참조 번호들 자체로 표시된다고 이해되어야 한다. 따라서 표기법은 특정 신호를 갖는 라인이 신호 자체를 나타내고 있는 것과 같다. 라인은 하드와이어링된 구현의 물리적 라인일 수 있다. 그러나 컴퓨터화된 구현에서, 물리적 라인은 존재하는 것이 아니라, 라인으로 표현된 신호가 하나의 계산 모듈로부터 다른 계산 모듈로 송신된다.
본 발명은 블록들이 실제 또는 논리적 하드웨어 컴포넌트들을 표현하는 블록도들과 관련하여 설명되었지만, 본 발명은 또한 컴퓨터 구현 방법에 의해 구현될 수 있다. 후자의 경우, 블록들은 대응하는 방법 단계들을 나타내는데, 여기서 이러한 단계들은 대응하는 논리적 또는 물리적 하드웨어 블록들에 의해 수행되는 기능들을 의미한다.
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 어떤 하나 이상의 단계들이 이러한 장치에 의해 실행될 수도 있다.
본 발명의 송신된 또는 인코딩된 신호는 디지털 저장 매체 상에 저장될 수 있고 또는 송신 매체, 예컨대 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM 및 EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체와 같은 비-일시적 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.
일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.
참조들
[1] ISO/IEC DIS 23003-3, Usac
[2] ISO/IEC DIS 23008-3, 3D Audio

Claims (21)

  1. 다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2")로서,
    다운믹스 신호(14)를 얻기 위해 상기 다채널 신호(4)를 다운믹스하기 위한 다운믹서(12),
    상기 다운믹스 신호(14)를 인코딩하기 위한 선형 예측 도메인 코어 인코더(16) ― 상기 다운믹스 신호(14)는 저대역 및 고대역을 갖고, 상기 선형 예측 도메인 코어 인코더(16)는 상기 고대역을 파라메트릭 인코딩하기 위해 대역폭 확장 처리를 적용하도록 구성됨 ―;
    상기 다채널 신호(4)의 스펙트럼 표현을 생성하기 위한 필터 뱅크(82); 및
    상기 다채널 신호의 저대역 및 고대역을 포함하는 스펙트럼 표현을 처리하여 다채널 정보(20)를 생성하도록 구성된 조인트 다채널 인코더(18)를 포함하는,
    다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2").
  2. 제 1 항에 있어서,
    상기 선형 예측 도메인 코어 인코더(16)는 인코딩되고 디코딩된 다운믹스 신호(54)를 얻기 위해 인코딩된 다운믹스 신호(26)를 디코딩하기 위한 선형 예측 도메인 디코더를 더 포함하고,
    상기 오디오 인코더는 상기 인코딩되고 디코딩된 다운믹스 신호(54)를 사용하여 인코딩된 다채널 잔차 신호(58)를 계산하기 위한 다채널 잔차 코더(56)를 더 포함하며,
    상기 다채널 잔차 신호는 상기 다채널 정보(20)를 사용하는 디코딩된 다채널 표현과 다운믹스 이전 상기 다채널 신호(4) 사이의 에러를 나타내는,
    다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2").
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 선형 예측 도메인 코어 인코더(16)는 상기 고대역을 파라메트릭 인코딩하기 위해 대역폭 확장 처리를 적용하도록 구성되고,
    상기 선형 예측 도메인 디코더는 상기 다운믹스 신호의 저대역을 나타내는 저대역 신호만을 인코딩되고 디코딩된 다운믹스 신호로서 획득하도록 구성되며,
    상기 인코딩된 다채널 잔차 신호(58)는 다운믹스 이전 상기 다채널 신호의 저대역에 대응하는 대역만을 갖는,
    채널 신호(4)를 인코딩하기 위한 오디오 인코더(2").
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 선형 예측 도메인 코어 인코더(16)는 ACELP 프로세서(30)를 포함하고,
    상기 ACELP 프로세서는 다운샘플링된 다운믹스 신호(34)에 대해 동작하도록 구성되며,
    시간 도메인 대역폭 확장 프로세서(36)는 제 3 다운샘플링에 의해 상기 ACELP 입력 신호로부터 제거된 상기 다운믹스 신호의 일부의 대역을 파라메트릭 인코딩하도록 구성되는,
    다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2").
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 선형 예측 도메인 코어 인코더(16)는 TCX 프로세서(32)를 포함하고,
    상기 TCX 프로세서(32)는 상기 ACELP 프로세서에 대한 다운샘플링보다 더 작은 차수로 다운샘플링되지 않거나 다운샘플링되는 상기 다운믹스 신호(14)에 대해 동작하도록 구성되며,
    상기 TCX 프로세서는 제 1 시간-주파수 변환기(40), 제 1 세트의 대역들의 파라메트릭 표현(46)을 생성하기 위한 제 1 파라미터 생성기(42), 및 제 2 세트의 대역들에 대한 한 세트의 양자화된 인코딩된 스펙트럼 라인들(48)을 생성하기 위한 제 1 양자화기 인코더(44)를 포함하는,
    다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2").
  6. 제 5 항에 있어서,
    상기 시간-주파수 변환기(40)는 상기 필터 뱅크(82)와는 다르고,
    상기 필터 뱅크(82)는 상기 다채널 신호(4)의 스펙트럼 표현을 생성하도록 최적화된 필터 파라미터들을 포함하며, 또는
    상기 시간-주파수 변환기(40)는 제 1 세트의 대역들의 파라메트릭 표현(46)을 생성하도록 최적화된 필터 파라미터들을 포함하는,
    다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2").
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 다채널 인코더는 제 1 프레임 생성기를 포함하고,
    상기 선형 예측 도메인 코어 인코더는 제 2 프레임 생성기를 포함하며,
    상기 제 1 프레임 생성기 및 상기 제 2 프레임 생성기는 상기 다채널 신호(4)로부터 프레임을 형성하도록 구성되고,
    상기 제 1 프레임 생성기 및 상기 제 2 프레임 생성기는 비슷한 길이의 프레임을 형성하도록 구성되는,
    다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2").
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 오디오 인코더는,
    상기 선형 예측 도메인 코어 인코더(16) 및 상기 다채널 인코더(18)를 포함하는 선형 예측 도메인 인코더(6);
    주파수 도메인 인코더(8); 및
    상기 선형 예측 도메인 인코더(6)와 상기 주파수 도메인 인코더(8) 사이에서 스위칭하기 위한 제어기(10)를 포함하며,
    상기 주파수 도메인 인코더(8)는 상기 다채널 신호로부터 제 2 다채널 정보(24)를 인코딩하기 위한 제 2 조인트 다채널 인코더(22)를 포함하며,
    상기 제 2 조인트 다채널 인코더(22)는 상기 제 1 조인트 다채널 인코더(18)와 상이하고,
    상기 제어기(10)는 상기 다채널 신호의 일부가 상기 선형 예측 도메인 인코더의 인코딩된 프레임으로 또는 상기 주파수 도메인 인코더의 인코딩된 프레임으로 표현되도록 구성되는,
    다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2").
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 선형 예측 도메인 인코더는 M/S 다채널 오디오 신호의 미드(mid) 신호의 파라메트릭 표현으로서 상기 다운믹스 신호(14)를 계산하도록 구성되고,
    상기 다채널 잔차 코더는 상기 M/S 다채널 오디오 신호의 미드 신호에 대응하는 사이드(side) 신호를 계산하도록 구성되고,
    상기 잔차 코더는 시간 도메인 대역폭 확장의 시뮬레이팅을 이용하여 상기 미드 신호의 고대역을 계산하도록 구성되거나, 상기 잔차 코더는 이전 프레임으로부터의 계산된 사이드 신호와 계산된 전대역 미드 신호 간의 차를 최소화하는 예측 정보의 탐색을 이용하여 상기 미드 신호의 고대역을 예측하도록 구성되는,
    다채널 신호(4)를 인코딩하기 위한 오디오 인코더(2").
  10. 코어 인코딩된 신호, 대역폭 확장 파라미터들 및 다채널 정보를 포함하는 인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102")로서,
    모노 신호를 생성하기 위해 상기 코어 인코딩된 신호를 디코딩하기 위한 선형 예측 도메인 코어 디코더(104);
    상기 모노 신호를 스펙트럼 표현(145)으로 변환하기 위한 분석 필터 뱅크(144);
    상기 모노 신호 및 상기 다채널 정보(20)의 스펙트럼 표현으로부터 제 1 채널 스펙트럼 및 제 2 채널 스펙트럼을 생성하기 위한 다채널 디코더(146); 및
    상기 제 1 채널 스펙트럼을 합성 필터링하여 제 1 채널 신호를 얻고 상기 제 2 채널 스펙트럼을 합성 필터링하여 제 2 채널 신호를 얻기 위한 합성 필터 뱅크 프로세서(148)를 포함하는,
    인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102").
  11. 제 10 항에 있어서,
    상기 선형 예측 도메인 코어 디코더는 상기 대역폭 확장 파라미터들 및 상기 저대역 모노 신호 또는 상기 코어 인코딩된 신호로부터 고대역 부분(140)을 생성하여 상기 오디오 신호의 디코딩된 고대역(140)을 얻기 위한 대역폭 확장 프로세서(126)를 포함하고,
    상기 선형 예측 도메인 코어 디코더는 상기 저대역 모노 신호를 디코딩하도록 구성된 저대역 신호 프로세서를 더 포함하며,
    상기 선형 예측 도메인 코어 디코더는 상기 오디오 신호의 디코딩된 저대역 모노 신호 및 디코딩된 고대역을 사용하여 전대역 모노 신호를 계산하도록 구성된 결합기(128)를 더 포함하는,
    인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102").
  12. 제 10 항 또는 제 11 항에 있어서, 상기 선형 예측 도메인 디코더는,
    ACELP 디코더(120), 저대역 합성기(122), 업샘플러(124), 시간 도메인 대역폭 확장 프로세서(126) 또는 제 2 결합기(128) ― 상기 제 2 결합기(128)는 업샘플링된 저대역 신호와 대역폭 확장된 고대역 신호(140)를 결합하여 전대역 ACELP 디코딩된 모노 신호를 얻도록 구성됨 ―;
    전대역 TCX 디코딩된 모노 신호를 얻기 위한 TCX 디코더(130) 및 지능형 갭 채움 프로세서(132);
    상기 전대역 ACELP 디코딩된 모노 신호와 상기 전대역 TCX 디코딩된 모노 신호를 결합하기 위한 전대역 합성 프로세서(134)를 포함하거나, 또는
    상기 TCX 디코더 및 상기 IGF 프로세서로부터의 저대역 스펙트럼-시간 변환에 의해 도출된 정보를 사용하여 상기 저대역 합성기를 초기화하기 위한 교차 경로(136)가 제공되는,
    인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102").
  13. 제 10 항 또는 제 12 항에 있어서,
    주파수 도메인 디코더(106);
    상기 주파수 도메인 디코더(106)의 출력 및 제 2 다채널 정보(22, 24)를 사용하여 제 2 다채널 표현(116)을 생성하기 위한 제 2 조인트 다채널 디코더(110); 및
    디코딩된 오디오 신호(118)를 얻기 위해 상기 제 1 채널 신호 및 상기 제 1 채널 신호를 상기 제 2 다채널 표현(116)과 결합하기 위한 제 1 결합기(112)를 더 포함하며,
    상기 제 2 조인트 다채널 디코더는 상기 제 1 조인트 다채널 디코더와 상이한,
    인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102").
  14. 제 10 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 분석 필터 뱅크(144)는 상기 모노 신호를 스펙트럼 표현(145)으로 변환하기 위한 DFT를 포함하고,
    상기 전대역 합성 프로세서(148)는 상기 스펙트럼 표현(145)을 상기 제 1 및 채널 신호 및 상기 제 2 채널 신호로 변환하기 위한 IDFT를 포함하는,
    인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102").
  15. 제 14 항에 있어서,
    상기 분석 필터 뱅크는 이전 프레임의 스펙트럼 표현의 우측 부분과 현재 프레임의 스펙트럼 표현의 좌측 부분이 중첩하도록 DFT 변환된 스펙트럼 표현(145) 상에 윈도우를 적용하도록 구성되며,
    상기 이전 프레임과 상기 현재 프레임은 연속적인, 인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102").
  16. 제 10 항 내지 제 15 항 중 어느 한 항에 있어서,
    상기 다채널 디코더(146)는 상기 모노 신호로부터 상기 제 1 채널 신호 및 상기 제 2 채널 신호를 얻도록 구성되며,
    상기 모노 신호는 다채널 신호의 미드 신호이고,
    상기 다채널 디코더(146)는 M/S 다채널 디코딩된 오디오 신호를 얻도록 구성되며,
    상기 다채널 디코더는 상기 다채널 정보로부터 상기 사이드 신호를 계산하도록 구성되는,
    인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102").
  17. 제 16 항에 있어서,
    상기 다채널 디코더(146)는 상기 M/S 다채널 디코딩된 오디오 신호로부터 L/R 다채널 디코딩된 오디오 신호를 계산하도록 구성되고,
    상기 다채널 디코더(146)는 상기 다채널 정보 및 상기 사이드 신호를 사용하여 저대역에 대한 L/R 다채널 디코딩된 오디오 신호를 계산하도록 구성되거나; 또는
    상기 다채널 디코더(146)는 상기 미드 신호로부터 예측된 사이드 신호를 계산하도록 구성되고,
    상기 다채널 디코더는 예측된 사이드 신호 및 상기 다채널 정보의 ILD 값을 사용하여 고대역에 대한 L/R 다채널 디코딩된 오디오 신호를 계산하도록 추가로 구성되는,
    인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102").
  18. 제 16 항 또는 제 17 항에 있어서,
    상기 다채널 디코더(146)는 상기 L/R 디코딩된 다채널 오디오 신호에 대해 복소 연산을 수행하도록 추가로 구성되고;
    상기 다채널 디코더는 에너지 보상을 얻기 위해, 상기 인코딩된 미드 신호의 에너지 및 상기 디코딩된 L/R 다채널 오디오 신호의 에너지를 사용하여 상기 복소 연산의 크기를 계산하도록 구성되며;
    상기 다채널 디코더는 상기 다채널 정보의 IPD 값을 사용하여 상기 복소 연산의 위상을 계산하도록 구성되는,
    인코딩된 오디오 신호(103)를 디코딩하기 위한 디코더(102").
  19. 다채널 신호를 인코딩하기 위한 방법(2000)으로서,
    다운믹스 신호(14)를 얻기 위해 상기 다채널 신호(4)를 다운믹스하는 단계,
    상기 다운믹스 신호(14)를 인코딩하는 단계 ― 상기 다운믹스 신호(14)는 저대역 및 고대역을 갖고, 상기 선형 예측 도메인 코어 인코더(16)는 상기 고대역을 파라메트릭 인코딩하기 위해 대역폭 확장 처리를 적용하도록 구성됨 ―;
    상기 다채널 신호(4)의 스펙트럼 표현을 생성하는 단계; 및
    다채널 정보(20)를 생성하도록 상기 다채널 신호의 저대역 및 고대역을 포함하는 스펙트럼 표현을 처리하는 단계를 포함하는,
    다채널 신호를 인코딩하기 위한 방법(2000).
  20. 코어 인코딩된 신호, 대역폭 확장 파라미터들 및 다채널 정보를 포함하는 인코딩된 오디오 신호를 디코딩하는 방법(2100)으로서,
    모노 신호를 생성하기 위해 상기 코어 인코딩된 신호를 디코딩하는 단계;
    상기 모노 신호를 스펙트럼 표현(145)으로 변환하는 단계;
    상기 모노 신호 및 상기 다채널 정보(20)의 스펙트럼 표현으로부터 제 1 채널 스펙트럼 및 제 2 채널 스펙트럼을 생성하는 단계;
    상기 제 1 채널 스펙트럼을 합성 필터링하여 제 1 채널 신호를 얻고 상기 제 2 채널 스펙트럼을 합성 필터링하여 제 2 채널 신호를 얻는 단계를 포함하는,
    인코딩된 오디오 신호를 디코딩하는 방법(2100).
  21. 컴퓨터 또는 프로세서 상에서 실행될 때, 제 19 항 또는 제 20 항의 방법을 수행하기 위한,
    컴퓨터 프로그램.
KR1020177028167A 2015-03-09 2016-03-07 다채널 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더 KR102151719B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP15158233.5 2015-03-09
EP15158233 2015-03-09
EP15172599.1 2015-06-17
EP15172599.1A EP3067887A1 (en) 2015-03-09 2015-06-17 Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
PCT/EP2016/054775 WO2016142336A1 (en) 2015-03-09 2016-03-07 Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal

Publications (2)

Publication Number Publication Date
KR20170126996A true KR20170126996A (ko) 2017-11-20
KR102151719B1 KR102151719B1 (ko) 2020-10-26

Family

ID=52682621

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020177028167A KR102151719B1 (ko) 2015-03-09 2016-03-07 다채널 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더
KR1020177028152A KR102075361B1 (ko) 2015-03-09 2016-03-07 다채널 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020177028152A KR102075361B1 (ko) 2015-03-09 2016-03-07 다채널 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더

Country Status (19)

Country Link
US (7) US10388287B2 (ko)
EP (9) EP3067886A1 (ko)
JP (6) JP6606190B2 (ko)
KR (2) KR102151719B1 (ko)
CN (6) CN112634913B (ko)
AR (6) AR103881A1 (ko)
AU (2) AU2016231283C1 (ko)
BR (4) BR122022025643B1 (ko)
CA (2) CA2978814C (ko)
ES (6) ES2910658T3 (ko)
FI (1) FI3958257T3 (ko)
MX (2) MX366860B (ko)
MY (2) MY186689A (ko)
PL (6) PL3910628T3 (ko)
PT (3) PT3268957T (ko)
RU (2) RU2679571C1 (ko)
SG (2) SG11201707343UA (ko)
TW (2) TWI609364B (ko)
WO (2) WO2016142337A1 (ko)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
KR102083200B1 (ko) 2016-01-22 2020-04-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼-도메인 리샘플링을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
US10224045B2 (en) 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
JP7009509B2 (ja) 2017-05-18 2022-01-25 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ネットワーク装置の管理
US10431231B2 (en) * 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
US10475457B2 (en) 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
US10535357B2 (en) 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3729427A1 (en) * 2017-12-19 2020-10-28 Dolby International AB Methods and apparatus for unified speech and audio decoding qmf based harmonic transposer improvements
TWI812658B (zh) * 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
TWI760593B (zh) * 2018-02-01 2022-04-11 弗勞恩霍夫爾協會 使用混成式編碼器/解碼器空間分析之音訊場景編碼器、音訊場景解碼器及相關方法
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
CN111819627A (zh) * 2018-07-02 2020-10-23 杜比实验室特许公司 用于对沉浸式音频信号进行编码及/或解码的方法及装置
AU2019298307A1 (en) * 2018-07-04 2021-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multisignal audio coding using signal whitening as preprocessing
WO2020094263A1 (en) 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
CN110267142B (zh) * 2019-06-25 2021-06-22 维沃移动通信有限公司 一种移动终端及控制方法
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
US11432069B2 (en) * 2019-10-10 2022-08-30 Boomcloud 360, Inc. Spectrally orthogonal audio component processing
CA3163373A1 (en) * 2020-02-03 2021-08-12 Vaclav Eksler Switching between stereo coding modes in a multichannel sound codec
CN111654745B (zh) * 2020-06-08 2022-10-14 海信视像科技股份有限公司 多声道的信号处理方法及显示设备
CN116324980A (zh) * 2020-09-25 2023-06-23 苹果公司 声道、对象和hoa音频内容的无缝可扩展解码
MX2023003965A (es) * 2020-10-09 2023-05-25 Fraunhofer Ges Forschung Aparato, metodo, o programa de computadora para procesar una escena de audio codificada utilizando una extension de ancho de banda.
JPWO2022176270A1 (ko) * 2021-02-16 2022-08-25
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品
TW202334938A (zh) * 2021-12-20 2023-09-01 瑞典商都比國際公司 正交鏡像濾波器域中之沉浸式音訊及視訊服務空間重建濾波器庫

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120002818A1 (en) * 2009-03-17 2012-01-05 Dolby International Ab Advanced Stereo Coding Based on a Combination of Adaptively Selectable Left/Right or Mid/Side Stereo Coding and of Parametric Stereo Coding
WO2013156814A1 (en) * 2012-04-18 2013-10-24 Nokia Corporation Stereo audio signal encoder

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
DE4307688A1 (de) 1993-03-11 1994-09-15 Daimler Benz Ag Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3593201B2 (ja) * 1996-01-12 2004-11-24 ユナイテッド・モジュール・コーポレーション オーディオ復号装置
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
CN1266674C (zh) * 2000-02-29 2006-07-26 高通股份有限公司 闭环多模混合域线性预测语音编解码器和处理帧的方法
SE519981C2 (sv) 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
KR20060131767A (ko) * 2003-12-04 2006-12-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 코딩
US7742912B2 (en) * 2004-06-21 2010-06-22 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
KR20070056081A (ko) * 2004-08-31 2007-05-31 마츠시타 덴끼 산교 가부시키가이샤 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법
KR20070092240A (ko) * 2004-12-27 2007-09-12 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
WO2007026763A1 (ja) * 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
WO2008035949A1 (en) 2006-09-22 2008-03-27 Samsung Electronics Co., Ltd. Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
WO2009007639A1 (fr) 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
CN101373594A (zh) * 2007-08-21 2009-02-25 华为技术有限公司 修正音频信号的方法及装置
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
AU2008326956B2 (en) * 2007-11-21 2011-02-17 Lg Electronics Inc. A method and an apparatus for processing a signal
KR20100086000A (ko) * 2007-12-18 2010-07-29 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US9659568B2 (en) * 2007-12-31 2017-05-23 Lg Electronics Inc. Method and an apparatus for processing an audio signal
ATE500588T1 (de) 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
JP5333446B2 (ja) 2008-04-25 2013-11-06 日本電気株式会社 無線通信装置
EP3002750B1 (en) 2008-07-11 2017-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
CN102105930B (zh) * 2008-07-11 2012-10-03 弗朗霍夫应用科学研究促进协会 用于编码采样音频信号的帧的音频编码器和解码器
CA2871268C (en) * 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
JP5325293B2 (ja) * 2008-07-11 2013-10-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたオーディオ信号を復号化するための装置および方法
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
JP5203077B2 (ja) 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
WO2010013450A1 (ja) * 2008-07-29 2010-02-04 パナソニック株式会社 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
EP2224433B1 (en) * 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
TWI520128B (zh) * 2008-10-08 2016-02-01 弗勞恩霍夫爾協會 多解析度切換音訊編碼/解碼方案(一)
EP2345027B1 (en) 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
RU2591661C2 (ru) * 2009-10-08 2016-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Многорежимный декодировщик аудио сигнала, многорежимный кодировщик аудио сигналов, способы и компьютерные программы с использованием кодирования с линейным предсказанием на основе ограничения шума
CA2778240C (en) * 2009-10-20 2016-09-06 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio codec and celp coding adapted therefore
KR101414305B1 (ko) * 2009-10-20 2014-07-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램
EP4358082A1 (en) * 2009-10-20 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
WO2011059254A2 (en) * 2009-11-12 2011-05-19 Lg Electronics Inc. An apparatus for processing a signal and method thereof
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
US8166830B2 (en) * 2010-07-02 2012-05-01 Dresser, Inc. Meter devices and methods
JP5499981B2 (ja) * 2010-08-02 2014-05-21 コニカミノルタ株式会社 画像処理装置
KR101468458B1 (ko) * 2010-11-12 2014-12-03 폴리콤 인코포레이티드 멀티 포인트 환경에서의 스케일러블 오디오
CN107516532B (zh) * 2011-03-18 2020-11-06 弗劳恩霍夫应用研究促进协会 音频内容的编码和解码方法以及介质
US9489962B2 (en) * 2012-05-11 2016-11-08 Panasonic Corporation Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
CN102779518B (zh) * 2012-07-27 2014-08-06 深圳广晟信源技术有限公司 用于双核编码模式的编码方法和系统
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
TWI579831B (zh) * 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
US20150159036A1 (en) 2013-12-11 2015-06-11 Momentive Performance Materials Inc. Stable primer formulations and coatings with nano dispersion of modified metal oxides
US9984699B2 (en) * 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120002818A1 (en) * 2009-03-17 2012-01-05 Dolby International Ab Advanced Stereo Coding Based on a Combination of Adaptively Selectable Left/Right or Mid/Side Stereo Coding and of Parametric Stereo Coding
WO2013156814A1 (en) * 2012-04-18 2013-10-24 Nokia Corporation Stereo audio signal encoder

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
EVS Codec Detailed Algorithmic Description (3GPP TS 26.445 version 12.0.0 Release 12). ETSI TS 126 445 V12.0.0. 2014.11.* *
High level description of the Ericsson, France Telecom, Matsushita, Motorola, Nokia, Texas Instruments and Voiceage qualification candidate to the Joint G.729.1 and G.718 SWB/stereo extension. ITU-T W* *
High-level description of the Huawei/ETRI candidate for the super-wideband and stereo extensions of ITU-T G.729.1 and G.718. ITU-T WP3/16 AC-0809-Q23-14. 2008.09.25.* *
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20.* *

Also Published As

Publication number Publication date
ES2951090T3 (es) 2023-10-17
ES2958535T3 (es) 2024-02-09
CN112951248A (zh) 2021-06-11
PT3958257T (pt) 2023-07-24
PL3958257T3 (pl) 2023-09-18
EP3910628C0 (en) 2023-08-02
AR103881A1 (es) 2017-06-07
PT3268957T (pt) 2022-05-16
CN107430863A (zh) 2017-12-01
EP3268958B1 (en) 2021-11-10
CN112614497A (zh) 2021-04-06
AR123835A2 (es) 2023-01-18
PT3268958T (pt) 2022-01-07
JP2020074013A (ja) 2020-05-14
CA2978814A1 (en) 2016-09-15
US20220093112A1 (en) 2022-03-24
US11107483B2 (en) 2021-08-31
EP3268957A1 (en) 2018-01-17
US20170365263A1 (en) 2017-12-21
EP3879528C0 (en) 2023-08-02
BR122022025766B1 (pt) 2023-12-26
US20220139406A1 (en) 2022-05-05
TW201636999A (zh) 2016-10-16
ES2910658T3 (es) 2022-05-13
WO2016142336A1 (en) 2016-09-15
EP3067887A1 (en) 2016-09-14
CA2978812C (en) 2020-07-21
TW201637000A (zh) 2016-10-16
JP6606190B2 (ja) 2019-11-13
BR112017018441A2 (pt) 2018-04-17
EP3879528A1 (en) 2021-09-15
EP3910628A1 (en) 2021-11-17
CN112614496B (zh) 2024-04-09
JP2020038374A (ja) 2020-03-12
US20170365264A1 (en) 2017-12-21
AU2016231284B2 (en) 2019-08-15
JP2018511825A (ja) 2018-04-26
JP2018511827A (ja) 2018-04-26
FI3958257T3 (fi) 2023-06-27
AR103880A1 (es) 2017-06-07
CN107408389B (zh) 2021-03-02
CN112634913A (zh) 2021-04-09
MX2017011493A (es) 2018-01-25
US11238874B2 (en) 2022-02-01
ES2901109T3 (es) 2022-03-21
CN112634913B (zh) 2024-04-09
KR102151719B1 (ko) 2020-10-26
EP3879527A1 (en) 2021-09-15
EP4224470A1 (en) 2023-08-09
WO2016142337A1 (en) 2016-09-15
JP2023029849A (ja) 2023-03-07
MY186689A (en) 2021-08-07
EP3910628B1 (en) 2023-08-02
PL3910628T3 (pl) 2024-01-15
BR112017018439B1 (pt) 2023-03-21
EP3958257B1 (en) 2023-05-10
KR102075361B1 (ko) 2020-02-11
BR112017018439A2 (pt) 2018-04-17
JP6643352B2 (ja) 2020-02-12
EP3268957B1 (en) 2022-03-02
AU2016231283C1 (en) 2020-10-22
PL3268957T3 (pl) 2022-06-27
BR122022025643B1 (pt) 2024-01-02
RU2679571C1 (ru) 2019-02-11
MX366860B (es) 2019-07-25
KR20170126994A (ko) 2017-11-20
US20190221218A1 (en) 2019-07-18
US11881225B2 (en) 2024-01-23
AU2016231284A1 (en) 2017-09-28
EP3268958A1 (en) 2018-01-17
JP7077290B2 (ja) 2022-05-30
AR123834A2 (es) 2023-01-18
EP3879527C0 (en) 2023-08-02
JP7469350B2 (ja) 2024-04-16
JP2022088470A (ja) 2022-06-14
AR123837A2 (es) 2023-01-18
PL3268958T3 (pl) 2022-03-21
EP3067886A1 (en) 2016-09-14
US10777208B2 (en) 2020-09-15
CA2978814C (en) 2020-09-01
US10388287B2 (en) 2019-08-20
ES2959910T3 (es) 2024-02-28
CA2978812A1 (en) 2016-09-15
JP7181671B2 (ja) 2022-12-01
SG11201707343UA (en) 2017-10-30
BR112017018441B1 (pt) 2022-12-27
EP3958257A1 (en) 2022-02-23
TWI609364B (zh) 2017-12-21
US11741973B2 (en) 2023-08-29
AU2016231283A1 (en) 2017-09-28
CN107430863B (zh) 2021-01-26
SG11201707335SA (en) 2017-10-30
ES2959970T3 (es) 2024-02-29
PL3879527T3 (pl) 2024-01-15
AR123836A2 (es) 2023-01-18
CN112614496A (zh) 2021-04-06
EP3879528B1 (en) 2023-08-02
MY194940A (en) 2022-12-27
MX2017011187A (es) 2018-01-23
EP3879527B1 (en) 2023-08-02
RU2680195C1 (ru) 2019-02-18
CN107408389A (zh) 2017-11-28
PL3879528T3 (pl) 2024-01-22
US10395661B2 (en) 2019-08-27
MX364618B (es) 2019-05-02
US20190333525A1 (en) 2019-10-31
AU2016231283B2 (en) 2019-08-22
TWI613643B (zh) 2018-02-01
US20200395024A1 (en) 2020-12-17

Similar Documents

Publication Publication Date Title
JP7469350B2 (ja) マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right