KR20160009631A - 객체 특정 시간/주파수 분해능들을 이용한 혼합 신호로부터의 오디오 객체 분리 - Google Patents

객체 특정 시간/주파수 분해능들을 이용한 혼합 신호로부터의 오디오 객체 분리 Download PDF

Info

Publication number
KR20160009631A
KR20160009631A KR1020157035229A KR20157035229A KR20160009631A KR 20160009631 A KR20160009631 A KR 20160009631A KR 1020157035229 A KR1020157035229 A KR 1020157035229A KR 20157035229 A KR20157035229 A KR 20157035229A KR 20160009631 A KR20160009631 A KR 20160009631A
Authority
KR
South Korea
Prior art keywords
audio
time
additional information
information
frequency
Prior art date
Application number
KR1020157035229A
Other languages
English (en)
Other versions
KR101785187B1 (ko
Inventor
사샤 디슈
죠우니 파울러스
토르스텐 케스트너
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160009631A publication Critical patent/KR20160009631A/ko
Application granted granted Critical
Publication of KR101785187B1 publication Critical patent/KR101785187B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

다운믹스 신호(X) 및 부가 정보(PSI)로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더가 제안된다. 부가 정보는 시간/주파수 영역(R(tR,fR)) 내의 오디오 객체(si)에 대한 객체 특정 부가 정보(PSIi), 및 시간/주파수 영역(R(tR,fR)) 내의 오디오 객체(si)에 대한 객체 특정 부가 정보의 객체 특정 시간/주파수 분해능(TFRh)을 나타내는 객체 특정 시간/주파수 분해능 정보(TFRIi)를 포함한다. 오디오 디코더는 오디오 객체(si)에 대한 부가 정보(PSI)로부터 객체 특정 시간/주파수 분해능 정보(TFRIi)를 결정하도록 구성된 객체 특정 시간/주파수 분해능 결정기(110)를 포함한다. 오디오 디코더는 객체 특정 시간/주파수 분해능(TFRIi)에 따라 객체 특정 부가 정보를 사용하여 다운믹스 신호(X)로부터 오디오 객체(si)를 분리하도록 구성된 객체 분리기(120)를 더 포함한다. 대응하는 인코더 및 디코딩 또는 인코딩하기 위한 대응하는 방법들이 또한 설명된다.

Description

객체 특정 시간/주파수 분해능들을 이용한 혼합 신호로부터의 오디오 객체 분리{AUDIO OBJECT SEPARATION FROM MIXTURE SIGNAL USING OBJECT-SPECIFIC TIME/FREQUENCY RESOLUTIONS}
본 발명은 오디오 신호 처리에 관한 것으로, 특히 오디오 객체 적응형 개별 시간-주파수 분해능을 이용하는 오디오 객체 코딩을 위한 디코더, 인코더, 시스템, 방법들 및 컴퓨터 프로그램에 관한 것이다.
본 발명에 따른 실시예들은 다운믹스 신호 및 객체 관련 파라메트릭 부가 정보(PSI: parametric side information)로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더에 관한 것이다. 본 발명에 따른 추가 실시예들은 다운믹스 신호 표현 및 객체 관련 PSI에 의존하여 업믹스 신호 표현을 제공하기 위한 오디오 디코더에 관한 것이다. 본 발명의 추가 실시예들은 다운믹스 신호 및 관련 PSI로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 방법에 관한 것이다. 본 발명에 따른 추가 실시예들은 다운믹스 신호 표현 및 객체 관련 PSI에 의존하여 업믹스 신호 표현을 제공하기 위한 방법에 관한 것이다.
본 발명의 추가 실시예들은 복수의 오디오 객체 신호들을 다운믹스 신호 및 PSI로 인코딩하기 위한 오디오 인코더에 관한 것이다. 본 발명의 추가 실시예들은 복수의 오디오 객체 신호들을 다운믹스 신호 및 PSI로 인코딩하기 위한 방법에 관한 것이다.
본 발명에 따른 추가 실시예들은 업믹스 신호를 디코딩, 인코딩 및/또는 제공하기 위한 방법(들)에 대응하는 컴퓨터 프로그램에 관한 것이다.
본 발명의 추가 실시예들은 신호 혼합 조작을 위한 오디오 객체 적응형 개별 시간-주파수 분해능 스위칭에 관한 것이다.
최신 디지털 오디오 시스템들에서는, 수신기 측에서 송신된 콘텐츠의 오디오 객체 관련 변경들을 감안하는 것이 장기 대세이다. 이러한 변경들은 공간적으로 분산된 스피커들을 통한 다채널 재생의 경우에 전용 오디오 객체들의 공간적 재포지셔닝 및/또는 오디오 신호의 선택된 부분들의 이득 변경들을 포함한다. 이는 오디오 콘텐츠의 서로 다른 부분들을 서로 다른 스피커들에 개별적으로 전달함으로써 달성될 수 있다.
즉, 오디오 처리, 오디오 송신 및 오디오 저장 분야에는, 청취감을 향상시키기 위해 객체 지향 오디오 콘텐츠 재생에 관한 사용자 상호 작용을 감안하라는 증가하는 요구 및 다채널 재생의 확장된 가능성들을 이용하여 오디오 콘텐츠 또는 그 부분들을 개별적으로 렌더링하라는 요구 또한 존재한다. 이것에 의해, 다채널 오디오 콘텐츠의 사용은 사용자에 대한 상당한 개선들을 가져온다. 예를 들어, 3차원 청취감이 얻어질 수 있는데, 이는 엔터테인먼트 애플리케이션들에서 향상된 사용자 만족감을 가져온다. 그러나 다채널 오디오 콘텐츠는 또한 전문적인 환경들에, 예를 들어 전화 회의 애플리케이션들에도 유용한데, 이는 다채널 오디오 재생을 사용함으로써 화자 명료도가 개선될 수 있기 때문이다. 다른 가능한 애플리케이션은 악곡의 청자에게 ("오디오 객체들"로도 또한 지칭되는) 서로 다른 부분들 또는 트랙들, 예컨대 보컬 부분 또는 서로 다른 악기들의 재생 레벨 및/또는 공간적 위치를 개별적으로 조정할 것을 원하는 것이다. 사용자는 개인적 취향, 악곡으로부터의 하나 또는 그보다 많은 부분(들)의 보다 용이한 표기, 교육적인 목적들, 가라오케, 리허설 등의 이유들로 이러한 조정을 수행할 수 있다.
예를 들어, 펄스 코드 변조(PCM: pulse code modulation) 데이터 또는 심지어 압축된 오디오 포맷들의 형태로의 모든 디지털 다채널 또는 다중 객체 오디오 콘텐츠의 간단한 개별 송신은 매우 높은 비트레이트들을 요한다. 그러나 비트레이트 효율적인 방식으로 오디오 데이터를 송신 및 저장하는 것이 또한 바람직하다. 따라서 다채널/다중 객체 애플리케이션들에 의해 야기되는 과도한 자원 로드를 피하기 위해 오디오 품질과 비트레이트 요건들 간의 합리적인 절충을 받아들이지 못할 이유가 없다.
최근에, 오디오 코딩 분야에서는, 다채널/다중 객체 오디오 신호들의 비트레이트 효율적인 송신/저장을 위한 파라메트릭 기술들이 예를 들어, 동영상 전문가 그룹(MPEG: Moving Picture Experts Group) 등에 의해 도입되었다. 일례는 채널 지향 접근 방식인 MPEG 서라운드(MPS: MPEG Surround)[MPS, BCC], 또는 객체 지향 접근 방식인 MPEG 공간적 오디오 객체 코딩(SAOC: Spatial Audio Object Coding)[JSC, SAOC, SAOC1, SAOC2]이다. 다른 객체 지향 접근 방식은 "인폼드 소스 분리(informed source separation)"[ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]로 지칭된다. 이러한 기술들은 송신된/저장된 오디오 장면 및/또는 오디오 장면 내의 오디오 소스 객체들을 기술하는 추가적인 부가 정보와 채널들/객체들의 다운믹스를 기초로 원하는 출력 오디오 장면 또는 원하는 오디오 소스 객체를 재구성하는 것을 목표로 한다.
이러한 시스템들에서 채널/객체 관련 부가 정보의 추정 및 적용은 시간-주파수 선택적인 방식으로 이루어진다. 따라서 이러한 시스템들은 시간-주파수 변환들, 예컨대 이산 푸리에 변환(DFT: Discrete Fourier Transform), 단시간 푸리에 변환(STFT: Short Time Fourier Transform) 또는 구적 미러 필터(QMF: Quadrature Mirror Filter) 뱅크들과 같은 필터 뱅크들 등을 이용한다. 이러한 시스템들의 기본 원리는 MPEG SAOC의 예를 사용하여 도 1에 도시된다.
STFT의 경우, 시간적 차원은 시간-블록 번호로 표현되고 스펙트럼 차원은 스펙트럼 계수("빈") 번호로 캡처된다. QMF의 경우, 시간적 차원은 타임슬롯 번호로 표현되고 스펙트럼 차원은 부대역 번호로 캡처된다. 제 2 필터 스테이지의 후속 적용에 의해 QMF의 스펙트럼 분해능이 개선된다면, 전체 필터 뱅크는 하이브리드 QMF로 지칭되고 미세 분해능 부대역들은 하이브리드 부대역들로 지칭된다.
위에서 이미 언급한 바와 같이, SAOC에서는 일반적인 처리가 시간-주파수 선택적인 방식으로 실행되며 각각의 주파수 대역 내에서 다음과 같이 설명될 수 있다:
Figure pct00001
엘리먼트들(d1,1 … dN,P)로 구성된 다운믹스 행렬을 사용하는 인코더 처리의 일부로서 N개의 입력 오디오 객체 신호들(s1 … sN)이 P개의 채널들(x1 … xP)로 다운믹스된다. 또한, 인코더는 입력 오디오 객체들(부가 정보 추정기(SIE: Side Information Estimator) 모듈)의 특징들을 기술하는 부가 정보를 추출한다. MPEG SAOC의 경우, 서로에 대한 객체 거듭제곱들의 관계들이 이러한 부가 정보의 가장 기본적인 형태이다.
Figure pct00002
다운믹스 신호(들) 및 부가 정보는 송신된/저장된다. 이를 위해, 다운믹스 오디오 신호(들)는 예를 들어, MPEG-1/2 계층 Ⅱ 또는 Ⅲ(.mp3로도 알려짐), MPEG-2/4 고급 오디오 코딩(AAC: Advanced Audio Coding) 등과 같은 잘 알려진 지각적 오디오 코더들을 사용하여 압축될 수도 있다.
Figure pct00003
수신 단에서, 디코더는 개념적으로, 송신된 부가 정보를 사용하여 (디코딩된) 다운믹스 신호들로부터 원본 객체 신호들을 복원("객체 분리")하려고 한다. 이러한 근사 객체 신호들(
Figure pct00004
)은 이후에 도 1에서 계수들(r1,1 … rN,M)로 기술된 렌더링 행렬을 사용하여 M개의 오디오 출력 채널들(
Figure pct00005
)로 표현된 타깃 장면으로 믹스된다. 원하는 타깃 장면은 극단적인 경우에는, 믹스처 중에서 단 하나의 소스 신호의 렌더링(소스 분리 시나리오)일 수도 있지만, 또한 송신된 객체들로 구성된 다른 어떤 임의의 음향 장면일 수도 있다.
시간-주파수 기반 시스템들은 정적 시간 및 주파수 분해능에 의한 시간-주파수(t/f) 변환을 이용할 수도 있다. 어떤 고정된 t/f-분해능 그리드를 선택하는 것은 일반적으로 시간 분해능과 주파수 분해능 간의 절충을 수반한다.
고정된 t/f-분해능의 효과는 오디오 신호 믹스처에서 일반적인 객체 신호들의 예로 입증될 수 있다. 예를 들어, 순음(tonal sound)들의 스펙트럼들은 기본 주파수 및 여러 개의 배음들을 가진 고조파 관련 구조를 나타낸다. 이러한 신호들의 에너지는 특정 주파수 영역들에 집중된다. 이러한 신호들의 경우, 이용되는 t/f 표현의 높은 주파수 분해능이 신호 믹스처로부터 협대역 순음 스펙트럼 영역들을 분리하는 데 유리하다. 반대로, 드럼 사운드들과 같은 과도 신호들은 흔히, 별개의 시간 구조를 갖는데: 상당한 에너지가 단지 짧은 기간들의 시간 동안에만 존재하고 넓은 범위의 주파수들에 걸쳐 확산된다. 이러한 신호들의 경우, 이용되는 t/f 표현의 높은 시간 분해능이 신호 믹스처로부터 과도 신호 부분을 분리하는 데 유리하다.
인코더 측에서 또는 디코더 측에서 각각 객체 특정 부가 정보를 생성 및/또는 평가할 때 시간-주파수 도메인에서 그 표현에 관해 서로 다른 타입들의 오디오 객체들의 서로 다른 요구들을 고려하는 것이 바람직할 것이다.
이러한 요구 및/또는 추가 요구들은 독립 청구항들에 의해 정의된 것과 같이 다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더에 의해, 복수의 오디오 객체 신호들을 다운믹스 신호 및 부가 정보로 인코딩하기 위한 오디오 인코더에 의해, 다중 객체 오디오 신호를 디코딩하기 위한 방법에 의해, 복수의 오디오 객체 신호들을 인코딩하기 위한 방법에 의해, 또는 대응하는 컴퓨터 프로그램에 의해 해결된다.
적어도 일부 실시예들에 따르면, 다중 객체 신호를 디코딩하기 위한 오디오 디코더가 제공된다. 다중 객체 오디오 신호는 다운믹스 신호 및 부가 정보로 구성된다. 부가 정보는 적어도 하나의 시간/주파수 영역 내의 적어도 하나의 오디오 객체에 대한 객체 특정 부가 정보를 포함한다. 부가 정보는 적어도 하나의 시간/주파수 영역 내의 적어도 하나의 오디오 객체에 대한 객체 특정 부가의 객체 특정 시간/주파수 분해능을 나타내는 객체 특정 시간/주파수 분해능 정보를 더 포함한다. 오디오 디코더는 적어도 하나의 오디오 객체에 대한 부가 정보로부터 객체 특정 시간/주파수 분해능 정보를 결정하도록 구성된 객체 특정 시간/주파수 분해능 결정기를 포함한다. 오디오 디코더는 객체 특정 시간/주파수 분해능에 따라 객체 특정 부가 정보를 사용하여 다운믹스 신호로부터 적어도 하나의 오디오 객체를 분리하도록 구성된 객체 분리기를 더 포함한다.
추가 실시예들은 복수의 오디오 객체들을 다운믹스 신호 및 부가 정보로 인코딩하기 위한 오디오 인코더를 제공한다. 오디오 인코더는 복수의 오디오 객체들을 적어도, 제 1 시간/주파수 분해능을 사용하여 제 1 복수의 대응하는 변환들로 그리고 제 2 시간/주파수 분해능을 사용하여 제 2 복수의 대응하는 변환들로 변환하도록 구성된 시간-주파수 변환기를 포함한다. 오디오 인코더는 적어도 제 1 복수의 대응하는 변환들에 대한 제 1 부가 정보 및 제 2 복수의 대응하는 변환들에 대한 제 2 부가 정보를 결정하도록 구성된 부가 정보 결정기를 더 포함한다. 제 1 부가 정보 및 제 2 부가 정보는 시간/주파수 영역에서 제 1 시간/주파수 분해능 및 제 2 시간/주파수 분해능 각각으로 복수의 오디오 객체들의 서로의 관계를 표시한다. 오디오 인코더는 또한 복수의 오디오 객체들 중 적어도 하나의 오디오 객체에 대해, 적합성 기준을 기초로 적어도 제 1 부가 정보 및 제 2 부가 정보 중에서 하나의 객체 특정 부가 정보를 선택하도록 구성된 부가 정보 선택기를 포함한다. 적합성 기준은 시간/주파수 도메인에서 오디오 객체를 표현하기 위한 적어도 제 1 또는 제 2 시간/주파수 분해능의 적합성을 나타낸다. 선택된 객체 특정 부가 정보는 오디오 인코더에 의해 출력되는 부가 정보에 삽입된다.
본 발명의 추가 실시예들은 다운믹스 신호 및 부가 정보로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 방법을 제공한다. 부가 정보는 적어도 하나의 시간/주파수 영역 내의 적어도 하나의 오디오 객체에 대한 객체 특정 부가 정보, 및 적어도 하나의 시간/주파수 영역 내의 적어도 하나의 오디오 객체에 대한 객체 특정 부가의 객체 특정 시간/주파수 분해능을 나타내는 객체 특정 시간/주파수 분해능 정보를 포함한다. 이 방법은 오디오 디코더는 적어도 하나의 오디오 객체에 대한 부가 정보로부터 객체 특정 시간/주파수 분해능 정보를 결정하는 단계를 포함한다. 이 방법은 객체 특정 시간/주파수 분해능에 따라 객체 특정 부가 정보를 사용하여 다운믹스 신호로부터 적어도 하나의 오디오 객체를 분리하는 단계를 더 포함한다.
본 발명의 추가 실시예들은 복수의 오디오 객체 신호들을 다운믹스 신호 및 부가 정보로 인코딩하기 위한 방법을 제공한다. 이 방법은 복수의 오디오 객체를 적어도, 제 1 시간/주파수 분해능을 사용하여 제 1 복수의 대응하는 변환들로 그리고 제 2 시간/주파수 분해능을 사용하여 제 2 복수의 대응하는 변환들로 변환하는 단계를 포함한다. 이 방법은 적어도 제 1 복수의 대응하는 변환들에 대한 제 1 부가 정보 및 제 2 복수의 대응하는 변환들에 대한 제 2 부가 정보를 결정하는 단계를 더 포함한다. 제 1 부가 정보 및 제 2 부가 정보는 시간/주파수 영역에서 제 1 시간/주파수 분해능 및 제 2 시간/주파수 분해능 각각으로 복수의 오디오 객체들의 서로의 관계를 표시한다. 이 방법은 복수의 오디오 객체들 중 적어도 하나의 오디오 객체에 대해, 적합성 기준을 기초로 적어도 제 1 부가 정보 및 제 2 부가 정보 중에서 하나의 객체 특정 부가 정보를 선택하는 단계를 더 포함한다. 적합성 기준은 시간/주파수 도메인에서 오디오 객체를 표현하기 위한 적어도 제 1 또는 제 2 시간/주파수 분해능의 적합성을 나타낸다. 객체 특정 부가 정보는 오디오 인코더에 의해 출력되는 부가 정보에 삽입된다.
이용되는 t/f 표현이 믹스처로부터 분리될 오디오 객체의 시간 및/또는 스펙트럼 특징들과 매칭하지 않는다면, 일반적으로 오디오 객체 분리 성능이 저하한다. 불충분한 성능은 분리된 객체들 간의 혼선으로 이어질 수도 있다. 상기 혼선은 프리(pre) 또는 포스트(post) 에코들, 음색 변경들로서, 또는 사람 목소리의 경우에는 소위 애매모호한 말로서 인지된다. 본 발명의 실시예들은 여러 개의 대안적인 t/f 표현들을 제공하는 데, 인코더 측에서 부가 정보를 결정할 때 또는 디코더 측에서 부가 정보를 사용할 때 주어진 오디오 객체 및 주어진 시간/주파수 영역에 대해 이들 중 가장 적합한 t/f 표현이 선택될 수 있다. 이는 최신 기술과 비교하여 오디오 객체들의 분리에 대한 개선된 분리 성능 및 렌더링된 출력 신호의 개선된 주관적 품질을 제공한다.
공간적 오디오 객체들을 인코딩/디코딩하기 위한 다른 방식들에 비해, 부가 정보의 양이 상당히 동일하거나 약간 더 높을 수도 있다. 본 발명의 실시예들에 따르면, 부가 정보가 시간 및 스펙트럼 구조에 관해 주어진 오디오 객체의 객체 특정 특성들을 고려하는 객체 특정 방식으로 적용되므로, 이는 효율적인 방식으로 사용된다. 즉, 부가 정보의 t/f 표현은 다양한 오디오 객체들에 맞춰진다.
본 발명에 따른 실시예들은 이어서 첨부된 도면들을 참조로 설명될 것이다.
도 1은 SAOC 시스템의 개념적인 개요의 개략적인 블록도를 보여준다.
도 2는 단일 채널 오디오 신호의 시간-스펙트럼 표현의 개략적이고 예시적인 도면을 보여준다.
도 3은 SAOC 인코더 내에서 부가 정보의 시간-주파수 선택적 계산의 개략적인 블록도를 보여준다.
도 4는 일부 실시예들에 따라 강화된 부가 정보 추정기의 원리를 개략적으로 나타낸다.
도 5는 서로 다른 t/f 표현들로 표현되는 t/f 영역(R(tR,fR))을 개략적으로 나타낸다.
도 6은 실시예들에 따른 부가 정보 계산 및 선택 모듈의 개략적인 블록도이다.
도 7은 강화된(가상) 객체 분리(EOS: Enhanced Object Separation) 모듈을 포함하는 SAOC 디코딩을 개략적으로 나타낸다.
도 8은 강화된 객체 분리 모듈(EOS-모듈)의 개략적인 블록도를 보여준다.
도 9는 실시예들에 따른 오디오 디코더의 개략적인 블록도이다.
도 10은 비교적 간단한 실시예에 따라 H개의 대안적인 t/f 표현들을 디코딩하고 다음에 객체 특정 표현들을 선택하는 오디오 디코더의 개략적인 블록도이다.
도 11은 서로 다른 t/f 표현들로 표현된 t/f 영역(R(tR,fR)) 및 t/f 영역 내에서 추정된 공분산 행렬(E)의 결정에 대해 야기된 결과들을 개략적으로 나타낸다.
도 12는 줌이 이루어진 시간/주파수 표현으로 오디오 객체 분리를 수행하기 위해 줌 변환을 이용한 오디오 객체 분리를 위한 개념을 개략적으로 나타낸다.
도 13은 연관된 부가 정보로 다운믹스 신호를 디코딩하기 위한 방법의 개략적인 흐름도를 보여준다.
도 14는 복수의 오디오 객체들을 다운믹스 신호 및 연관된 부가 정보로 인코딩하기 위한 방법이 개략적인 흐름도를 보여준다.
도 1은 SAOC 인코더(10) 및 SAOC 디코더(12)의 일반적인 배치를 보여준다. SAOC 인코더(10)는 입력으로서 N개의 객체들, 즉 오디오 신호들(s1 - sN)을 수신한다. 특히, 인코더(10)는 오디오 신호들(s1 - sN)을 수신하여 이들을 다운믹스 신호(18)로 다운믹스하는 다운믹서(16)를 포함한다. 대안으로, 다운믹스가 외부에서("정교한 다운믹스") 제공될 수도 있고, 시스템이 추가적인 부가 정보를 추정하여, 제공된 다운믹스를 계산된 다운믹스에 매칭시킨다. 도 1에서, 다운믹스 신호는 P-채널 신호로 도시된다. 따라서 임의의 모노(P=1), 스테레오(P=2) 또는 다채널(P>=2) 다운믹스 신호 구성이 가능하다.
스테레오 다운믹스의 경우, 다운믹스 신호(18)의 채널들은 L0 및 R0으로 표기되고, 모노 다운믹스의 경우 이는 단순히 L0으로 표기된다. SAOC 디코더(12)가 개별 객체들(s1 - sN)을 복원할 수 있게 하기 위해, 부가 정보 추정기(17)는 SAOC 파라미터들을 포함하는 부가 정보를 SAOC 디코더(12)에 제공한다. 예를 들어, 스테레오 다운믹스의 경우, SAOC 파라미터들은 객체 레벨 차들(OLD: object level differences), 객체 간 상호 상관 파라미터들(IOC: inter-object cross correlation parameters), 다운믹스 이득 값들(DMG: downmix gain values) 및 다운믹스 채널 레벨 차들(DCLD: downmix channel level differences)을 포함한다. SAOC 파라미터들을 포함하는 부가 정보(20)는 다운믹스 신호(18)와 함께, SAOC 디코더(12)에 의해 수신되는 SAOC 출력 데이터 스트림을 형성한다.
SAOC 디코더(12)는 오디오 신호들(s1, sN)을 복원하여 임의의 사용자 선택 세트의 채널들(
Figure pct00006
-
Figure pct00007
)로 렌더링하기 위해 다운믹스 신호(18)뿐만 아니라 부가 정보(20)로 수신하는 업믹스를 포함하는데, 렌더링은 SAOC 디코더(12)에 입력되는 렌더링 정보(26)로 규정된다.
오디오 신호들(s1 - sN)은 임의의 코딩 도메인에서, 예컨대 시간 또는 스펙트럼 도메인에서 인코더(10)에 입력될 수도 있다. 오디오 신호들(s1 - sN)이 시간 도메인에서 인코더(10)에 입력되는, 예컨대 PCM 코딩되는 경우, 인코더(10)는 신호들을 스펙트럼 도메인으로 전환하기 위해 하이브리드 QMF 뱅크와 같은 필터 뱅크를 사용할 수도 있는데, 스펙트럼 도메인에서는 오디오 신호들이 특정 필터 뱅크 분해능에서 서로 다른 스펙트럼 부분들과 연관된 여러 개의 부대역들로 표현된다. 오디오 신호들(s1 - sN)이 이미 인코더(10)에 의해 예상된 표현이라면, 이는 스펙트럼 분해를 수행할 필요가 없다.
도 2는 방금 언급한 스펙트럼 도메인에서 오디오 신호를 보여준다. 확인할 수 있듯이, 오디오 신호는 복수의 부대역 신호들로 표현된다. 각각의 부대역 신호(301 - 30K)는 작은 박스들(32)로 표시된 부대역 값들의 시퀀스로 구성된다. 확인할 수 있듯이, 부대역 신호들(301 - 30K)의 부대역 값들(32)은 연속한 필터 뱅크 타임슬롯들(34) 각각에 대해, 각각의 부대역(301 - 30K)이 정확한 하나의 부대역 값(32)을 포함하도록 시간상 서로 동기화된다. 주파수 축(36)으로 예시된 바와 같이, 부대역 신호들(301 - 30K)은 서로 다른 주파수 영역들과 연관되고, 시간 축(38)으로 예시된 바와 같이, 필터 뱅크 타임슬롯들(34)은 시간상 연속하게 배열된다.
앞서 기술한 바와 같이, 부가 정보 추출기(17)는 입력 오디오 신호들(s1 - sN)로부터 SAOC 파라미터들을 계산한다. 현재 구현된 SAOC 표준에 따르면, 인코더(10)는 필터 뱅크 타임슬롯들(34) 및 부대역 분해에 의해 결정된 바와 같이 원본 시간/주파수 분해능에 비해 일정량만큼 감소될 수 있는 시간/주파수 분해능에서 이 계산을 수행하는데, 이 일정량은 부가 정보(20) 내에서 디코더 측으로 시그널링된다. 연속한 필터 뱅크 타임슬롯들(34)의 그룹들이 SAOC 프레임(41)을 형성할 수도 있다. 또한, SAOC 프레임(41) 내의 파라미터 대역들의 수가 부가 정보(20) 내에서 전달된다. 그러므로 시간/주파수 도메인은 도 2에서 점선들(42)로 예시된 시간/주파수 타일들로 분할된다. 도 2에서는, 규칙적인 배치의 시간/주파수 타일들이 얻어지도록 파라미터 대역들이 도시된 다양한 SAOC 프레임들(41)에서 동일한 방식으로 분배된다. 그러나 일반적으로, 파라미터 대역들은 각각의 SAOC 프레임들(41)에서 스펙트럼 분해능에 대한 서로 다른 요구들에 따라, SAOC 프레임(41)마다 달라질 수도 있다. 더욱이, SAOC 프레임들(41)의 길이 역시 달라질 수도 있다. 그 결과, 시간/주파수 타일들의 배치가 불규칙적일 수도 있다. 그럼에도, 특정 SAOC 프레임(41) 내의 시간/주파수 타일들은 일반적으로 동일한 듀레이션을 갖고 시간 방향으로 정렬되는데, 즉 상기 SAOC 프레임(41) 내의 모든 t/f 타일들이 주어진 SAOC 프레임(41)의 시작에서 시작하고 상기 SAOC 프레임(41)의 끝에서 끝난다.
부가 정보 추출기(17)는 다음 공식들에 따라 SAOC 파라미터들을 계산한다. 특히, 부가 정보 추출기(17)는 각각의 객체(i)에 대한 객체 레벨 차들을 아래와 계산하며,
Figure pct00008
여기서 합들 및 인덱스들(n, k) 각각은 SAOC 프레임(또는 처리 타임슬롯)에 대해 인덱스들(l) 및 파라미터 대역에 대해 m으로 참조된 특정 시간/주파수 타일(42)에 속하는 모든 시간 인덱스들(34) 및 모든 스펙트럼 인덱스들(30)을 거친다. 이로써, 오디오 신호 또는 객체(i)의 모든 부대역 값들(xi)의 에너지들이 합산되어 모든 객체들 또는 오디오 신호들 중에서 해당 타일의 최고 에너지 값으로 정규화된다.
또한, SAOC 부가 정보 추출기(17)는 서로 다른 입력된 객체들(s1 - sN)의 쌍들의 대응하는 시간/주파수 타일들의 유사성 측정을 계산할 수 있다. SAOC 다운믹서(16)는 입력된 객체들(s1 - sN)의 모든 쌍들 간의 유사성 측정을 계산할 수도 있지만, 다운믹서(16)는 또한 유사성 측정들의 시그널링을 억제하거나 유사성 측정들의 계산을 공통 스테레오 채널의 좌 또는 우 채널들을 형성하는 오디오 객체들(s1 - sN)로 제한할 수도 있다. 어떤 경우든, 유사성 측정은 객체 간 상호 상관 파라미터(
Figure pct00009
)라 한다. 계산은 다음과 같으며,
Figure pct00010
또 인덱스들(n, k)은 특정 시간/주파수 타일(42)에 속하는 모든 부대역 값들을 거치며, ij는 오디오 객체들(s1 - sN)의 특정한 쌍을 표기한다.
다운믹서(16)는 각각의 객체(s1 - sN)에 적용되는 이득 팩터들의 사용에 의해 객체들(s1 - sN)을 다운믹스한다. 즉, 이득 팩터(Di)가 객체(i)에 적용된 다음, 이와 같이 가중된 모든 객체들(s1 - sN)이 합산되어 모노 다운믹스 신호를 얻는데, 이는 P=1인 경우로 도 1에 예시된다. P=2인 경우로 도 1에 도시된 2-채널 다운믹스 신호의 다른 예시적인 경우에는, 좌측 다운믹스 채널(L0)을 얻기 위해 이득 팩터(D1,i)가 객체(i)에 적용된 다음, 이와 같이 이득 증폭된 모든 객체들이 합산되고, 우측 다운믹스 채널(R0)을 얻기 위해 이득 팩터들(D2,i)이 객체(i)에 적용된 다음, 이와 같이 이득 증폭된 객체들이 합산된다. 다채널 다운믹스(P>=2)의 경우에 위와 유사한 처리가 적용될 것이다.
이러한 다운믹스 규정은 다운믹스 이득들(DMGi) 그리고 스테레오 다운믹스 신호의 경우에는 다운믹스 채널 레벨 차들(DCLDi)에 의해 디코더 측에 시그널링된다.
다운믹스 이득들은 아래에 따라 계산되며
Figure pct00011
, (모노 다운믹스),
Figure pct00012
, (스테레오 다운믹스),
여기서 ε은 10-9과 같은 작은 수이다.
DCLDs의 경우, 다음의 공식이 적용된다:
Figure pct00013
.
정상 모드에서, 다운믹서(16)는 아래에 따라 각각 다운믹스 신호를 생성한다:
모노 다운믹스의 경우에는,
Figure pct00014
또는 스테레오 다운믹스의 경우에는,
Figure pct00015
.
따라서 앞서 언급한 공식들에서, 파라미터들(OLD, IOC)은 오디오 신호들의 함수이고, 파라미터들(DMG, DCLD)은 D의 함수이다. 그런데 D는 시간에 따라 다를 수도 있다는 점이 주목된다.
따라서 정상 모드에서, 다운믹서(16)는 어떠한 선호도들도 없이, 즉 모든 객체들(s1 - sN)을 동일하게 취급하여 모든 객체들(s1 - sN)을 믹스한다.
디코더 측에서, 업믹서는 다운믹스 프로시저의 역 그리고 하나의 계산 단계에서 (논문에서는 간혹 A라고도 또한 지칭되는) 행렬(R)로, 즉 2-채널 다운믹스의 경우에는 아래와 같이 표현되는 "렌더링 정보"(26)의 구현을 수행하며,
Figure pct00016
여기서 행렬(E)은 파라미터들(OLD, IOC)의 함수이다. 행렬(E)은 오디오 객체들(s1 - sN)의 추정된 공분산 행렬이다. 현재 SAOC 구현들에서, 추정된 공분산 행렬(E)의 계산은 일반적으로, 추정된 공분산 행렬이 E l,m 으로 작성될 수 있도록 SAOC 파라미터들의 스펙트럼/시간 분해능으로, 즉 각각의 (l,m)에 대해 수행된다. 추정된 공분산 행렬(E l,m )은 크기가 N × N이며, 이 행렬의 계수들은 아래와 같이 정의된다:
Figure pct00017
.
따라서 아래와 같은 행렬(E l,m )은
Figure pct00018
그 대각선을 따라 객체 레벨 차들, 즉 i=j에 대해
Figure pct00019
을 갖는데, 이는 i=j에 대해
Figure pct00020
그리고
Figure pct00021
이기 때문이다. 그 대각선 밖에서는 추정된 공분산 행렬(E)이 객체 간 상호 상관 측정(
Figure pct00022
)으로 가중된 객체들(i, j) 각각의 객체 레벨 차들의 기하 평균을 나타내는 행렬 계수들을 갖는다.
도 3은 SAOC 인코더(10)의 일부로서 부가 정보 추정기(SIE)의 예에 대한 구현의 하나의 가능한 원리를 보여준다. SAOC 인코더(10)는 믹서(16) 및 부가 정보 추정기(SIE)를 포함한다. SIE는 개념적으로 2개의 모듈들로 구성되는데: 하나의 모듈은 각각의 신호의 단시간 기반 t/f 표현(예를 들어, STFT 또는 QMF)을 계산하기 위한 것이다. 계산된 단시간 t/f 표현은 두 번째 모듈인 t/f 선택적 부가 정보 추정 모듈(t/f-SIE)에 공급된다. t/f-SIE는 각각의 t/f 타일에 대한 부가 정보를 계산한다. 현재 SAOC 구현들에서, 시간/주파수 변환은 모든 오디오 객체들(s1 - sN)에 대해 고정적이며 동일하다. 더욱이, 모든 오디오 객체들에 대해 동일하며 모든 오디오 객체들(s1 - sN)에 대해 동일한 시간/주파수 분해능을 갖는 SAOC 프레임들에 걸쳐 SAOC 파라미터들이 결정되어, 어떤 경우들에는 미세 시간 분해능 또는 다른 경우들에는 미세 스펙트럼 분해능에 대한 객체 특정 요구들을 무시한다.
현재 SAOC 개념의 어떤 한계들이 이제 설명된다: 부가 정보와 연관된 데이터의 양을 비교적 작게 유지하기 위해, 오디오 객체들에 대응하는 입력 신호들의 여러 개의 타임슬롯들 및 여러 개의 (하이브리드) 부대역들에 걸친 시간/주파수 영역들에 대해 바람직하게는 대략적 방식으로 서로 다른 오디오 객체들에 대한 부가 정보가 결정된다. 앞서 언급한 바와 같이, 이용되는 t/f 표현이 각각의 처리 블록(즉, t/f 영역 또는 t/f 타일)에서 믹스처 신호(다운믹스 신호)로부터 분리될 객체 신호의 시간 또는 스펙트럼 특징들에 적응되지 않는다면 디코더 측에서 관찰된 분리 성능이 차선이 될 수도 있다. 현재 객체 특징들과 관계없이, 오디오 객체의 순음 부분들 및 오디오 객체의 과도 부분들에 대한 부가 정보가 결정되어 동일한 시간/주파수 타일링에 적용된다. 이는 일반적으로, 다소 너무 대략적인 스펙트럼 분해능에서 결정되는 주로 순음인 오디오 객체 부분들에 대한 부가 정보, 그리고 또한 다소 너무 대략적인 시간 분해능에서 결정되는 주로 과도적인 오디오 객체 부분들에 대한 부가 정보로 이어진다. 마찬가지로, 디코더에 이러한 적응되지 않은 부가 정보를 적용하는 것은 예를 들어, 스펙트럼 조도 및/또는 가청 프리- 및 포스트-에코들의 형태로 객체 혼선에 의해 손상되는 차선의 객체 분리 결과들로 이어진다.
디코더 측에서 분리 성능을 개선하기 위해, 디코더 또는 대응하는 디코딩하기 위한 방법이 분리될 원하는 타깃 신호의 특징들에 따라 디코더 입력 신호들("부가 정보 및 다운믹스")을 처리하기 위해 사용되는 t/f 표현을 개별적으로 적응시킬 수 있는 것이 바람직할 것이다. 각각의 타깃 신호(객체)에 대해 예를 들어, 주어진 세트의 이용 가능한 표현들 중에서 처리 및 분리를 위해 가장 적합한 t/f 표현이 개별적으로 선택된다. 디코더는 이로써, 주어진 시간 범위 및 주어진 스펙트럼 영역에서 각각의 개별 객체에 사용될 t/f 표현을 시그널링하는 부가 정보에 의해 구동된다. 이 정보는 인코더에서 계산되어, SAOC 내에서 이미 송신된 부가 정보에 추가로 전달된다.
Figure pct00023
본 발명은 객체 신호들 각각에 대한 가장 적합한 개별 t/f 표현을 표시하는 정보에 의해 강화된 부가 정보를 계산하기 위해 인코더에서 강화된 부가 정보 추정기(E-SIE)에 관련된다.
Figure pct00024
본 발명은 수신 단에서 (가상) 강화된 객체 분리기(E-OS: Enhanced Object Separator)에 관련된다. E-OS는, 이후에 각각의 객체의 추정에 이용되는 실제 t/f 표현을 시그널링하는 추가 정보를 활용한다.
E-SIE는 2개의 모듈들을 포함할 수도 있다. 하나의 모듈은 각각의 객체 신호에 대해 최대 H개의 t/f 표현들을 계산하는데, 이 표현들은 시간 및 스펙트럼 분해능이 다르고 다음 요건을 충족한다: 시간/주파수 영역들(R(tR, fR))은 이러한 영역들 내의 신호 콘텐츠가 H개의 t/f 표현들 중 임의의 표현으로 기술될 수 있도록 정의될 수 있다. 도 5는 H개의 t/f 표현들의 예로 이 개념을 설명하며 2개의 서로 다른 t/f 표현들로 표현되는 t/f 영역(R(tR, fR))을 보여준다. t/f 영역(R(tR,fR)) 내의 신호 콘텐츠는 높은 스펙트럼 분해능, 그러나 낮은 시간 분해능(t/f 표현 #l)으로, 높은 시간 분해능, 그러나 낮은 스펙트럼 분해능(t/f 표현 #2)으로, 또는 시간 및 스펙트럼 분해능들의 다른 어떤 결합(t/f 표현 #H)으로 표현될 수 있다. 가능한 t/f 표현들의 수는 제한되지 않는다.
이에 따라, 복수의 오디오 객체 신호들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 오디오 인코더가 제공된다. 오디오 인코더는 도 4에 개략적으로 예시된 강화된 부가 정보 추정기(E-SIE)를 포함한다. 강화된 부가 정보 추정기(E-SIE)는 복수의 오디오 객체들(si)을 최소한, 적어도 제 1 시간/주파수 분해능(TFR1)(제 1 시간/주파수 개별화)을 사용하여 제 1 복수의 대응하는 변환된 신호들(s1,1(t,f) … sN,1(t,f))로 그리고 제 2 시간/주파수 분해능(TFR2)(제 2 시간/주파수 개별화)을 사용하여 제 2 복수의 대응하는 변환들(s1,2(t,f) … sN,2(t,f))로 변환하도록 구성된 시간-주파수 변환기(52)를 포함한다. 일부 실시예들에서, 시간-주파수 변환기(52)는 2개보다 더 많은 시간/주파수 분해능들(TFR1 - TFRH)을 사용하도록 구성될 수도 있다. 강화된 부가 정보 추정기(E-SIE)는 부가 정보 계산 및 선택 모듈(SI-CS)(54)을 더 포함한다. 부가 정보 계산 및 선택 모듈은 적어도 제 1 복수의 대응하는 변환들(s1,1(t,f) … sN,1(t,f))에 대한 제 1 부가 정보 및 제 2 복수의 대응하는 변환들(s1,2(t,f) … sN,2(t,f))에 대한 제 2 부가 정보를 결정하도록 구성된 부가 정보 결정기(t/f-SIE) 또는 복수의 부가 정보 결정기들(55-1 … 55-H)을 포함하며(도 6 참조), 제 1 부가 정보 및 제 2 부가 정보는 시간/주파수 영역(R(tR,fR))에서 제 1 시간/주파수 분해능 및 제 2 시간/주파수 분해능(TFR1, TFR2) 각각으로 복수의 오디오 객체들(si)의 서로의 관계를 표시한다. 복수의 오디오 신호들(si)의 서로에 대한 관계는 예를 들어, 서로 다른 주파수 대역들에서 오디오 신호들의 상대적 에너지들 및/또는 오디오 신호들 간의 상관도에 관련될 수도 있다. 부가 정보 계산 및 선택 모듈(54)은 각각의 오디오 객체 신호(si)에 대해, 시간/주파수 도메인에서 오디오 객체 신호(si)를 표현하기 위한 적어도 제 1 또는 제 2 시간/주파수 분해능의 적합성을 나타내는 적합성 기준을 기초로 적어도 제 1 부가 정보 및 제 2 부가 정보 중에서 하나의 객체 특정 부가 정보를 선택하도록 구성된 부가 정보 선택기(SI-AS)(56)를 더 포함한다. 객체 특정 부가 정보는 다음에, 오디오 인코더에 의해 출력되는 부가 정보(PSI)에 삽입된다.
도 5가 나타내는 바와 같이, t/f 평면의 t/f 영역들(R(tR,fR))로의 그룹화는 반드시 등거리로 간격을 두어야 하는 것은 아닐 수도 있다는 점에 주목한다. 영역들(R(tR,fR))로의 그룹화는 예를 들어, 지각적으로 적응되도록 불균일할 수 있다. 그룹화는 또한 강화된 객체 추정 능력들로 하위 호환성 있는 코딩 방식을 가능하게 하도록 SAOC와 같은 기존의 오디오 객체 코딩 방식들을 따를 수도 있다.
t/f 분해능의 적응은 서로 다른 객체들에 대해 서로 다른 파라미터 타일링을 명시하는 것으로 제한될 뿐만 아니라, SAOC 방식이 기초로 하는(즉, SAOC 처리를 위해 최신 시스템들에 사용되는 공통 시간/주파수 분해능으로 일반적으로 제시되는) 변환이 또한 개별 타깃 객체들에 더 잘 맞도록 수정될 수 있다. 이는 예를 들어, SAOC 방식이 기초로 하는 공통 변환에 의해 제공되는 것보다 더 높은 스펙트럼 분해능이 요구되는 경우에 특히 유용하다. MPEG SAOC의 예시적인 경우에, 원시 분해능은 (하이브리드) QMF 뱅크의 (공통) 분해능으로 제한된다. 본 발명의 처리에 의해, 스펙트럼 분해능을 증가시키는 것이 가능하지만, 절충으로서 시간 분해능의 일부는 처리 중에 상실된다. 이는 첫 번째 필터 뱅크의 출력들에 적용되는 소위 (스펙트럼) 줌 변환을 사용하여 이루어진다. 개념적으로는, 다수의 연속한 필터 뱅크 출력 샘플들이 시간-도메인 신호로서 취급되고, 이들에 대해 제 2 변환이 적용되어 (단 하나의 시간적 슬롯으로) 대응하는 수의 스펙트럼 샘플들을 얻는다. 줌 변환은 (MPEG SAOC에서의 하이브리드 필터 스테이지와 비슷한) 필터 뱅크, 또는 DFT 또는 수정된 복소 이산 코사인 변환(CMDCT: Complex Modified Discrete Cosine Transform)과 같은 블록 기반 변환을 기초로 할 수 있다. 비슷한 식으로, 스펙트럼 분해능(시간적 줌 변환)을 희생하여 시간 분해능을 증가시키는 것이 가능하다: (하이브리드) QMF 뱅크의 여러 개의 필터들의 다수의 동시 출력들이 주파수-도메인 신호로서 샘플링되고 이들에 제 2 변환이 적용되어 (여러 개의 필터들의 스펙트럼 범위를 커버하는 단 하나의 넓은 스펙트럼 대역으로) 대응하는 수의 시간 샘플들을 얻는다.
각각의 객체에 대해, H개의 t/f 표현들이 믹싱 파라미터들과 함께 제 2 모듈인 부가 정보 계산 및 선택 모듈(SI-CS)에 공급된다. SI-CS 모듈은 객체 신호들 각각에 대해, H개의 t/f 표현들 중 어느 것이 디코더에서 어떤 t/f 영역(R(tR ,fR))에 사용되어야 하는지를 결정하여 객체 신호를 추정한다. 도 6은 SI-CS 모듈의 원리를 상술한다.
H개의 서로 다른 t/f 표현들 각각에 대해, 대응하는 부가 정보(SI)가 계산된다. 예를 들어, SAOC 내의 t/f-SIE 모듈이 이용될 수 있다. 계산된 H개의 부가 정보 데이터가 부가 정보 평가 및 선택 모듈(SI-AS)에 공급된다. 각각의 객체 신호에 대해, SI-AS 모듈은 신호 믹스처로부터 객체 신호를 추정하기에 가장 적절한 t/f 표현을 각각의 t/f 영역에 대해 결정한다.
통상의 믹싱 장면 파라미터들 외에, SI-AS는 각각의 객체 신호에 대해 그리고 각각의 t/f 영역에 대해, 개별적으로 선택된 t/f 표현에 관련된 부가 정보를 출력한다. 대응하는 t/f 표현을 나타내는 추가 파라미터가 또한 출력될 수도 있다.
각각의 객체 신호에 대해 가장 적합한 t/f 표현을 선택하기 위한 두 가지 방법들이 제시된다:
1. 소스 추정을 기초로 한 SI-AS: 각각의 객체 신호에 대해 H개의 소스 추정들을 산출하는 H개의 t/f 표현들을 기초로 계산된 부가 정보 데이터를 사용하여 신호 믹스처로부터 각각의 객체 신호가 추정된다. 각각의 객체에 대해, 각각의 t/f 영역(R(tR, fR)) 내의 추정 품질은 소스 추정 성능 척도에 의해 H개의 t/f 표현들 각각에 대해 평가된다. 이러한 척도에 대한 간단한 예는 달성되는 신호대 왜곡비(SDR: signal to distortion ratio)이다. 더 정교한 지각적 척도들이 또한 이용될 수 있다. SDR은 원본 객체 신호들 또는 신호 믹스처에 관한 지식 없이 SAOC 내에 정의된 것과 같은 파라메트릭 부가 정보에만 기초하여 효율적으로 실현될 수 있다. SAOC 기반 객체 추정의 경우에 SDR의 파라메트릭 추정의 개념이 아래 설명될 것이다. 각각의 t/f 영역(R(tR,fR))에 대해, 최고 SDR을 산출하는 t/f 표현이 부가 정보 추정 및 송신을 위해, 그리고 디코더 측에서 객체 신호를 추정하기 위해 선택된다.
2. H개의 t/f 표현들을 기초로 한 SI-AS: 각각의 객체에 대해 개별적으로, H개의 객체 신호 표현들 각각에 대한 희박성이 결정된다. 달리 표현하면, 서로 다른 표현들의 각각의 표현 내에서 객체 신호의 에너지가 얼마나 잘 몇 개의 값들에 집중되거나 모든 값들에 걸쳐 확산되는지가 평가된다. 객체 신호를 가장 희박하게 나타내는 t/f 표현이 선택된다. 신호 표현들의 희박성은 예를 들어, 신호 표현들의 평탄도 또는 쇠약도(peakiness)를 특성화하는 측정들로 평가될 수 있다. 스펙트럼-평탄도 측정(SFM: Spectral-Flatness Measure), 파고율(CF: Crest-Factor) 및 L0 정규화(L0-norm)가 이러한 측정들의 예들이다. 이 실시예에 따르면, 적합성 기준은 주어진 오디오 객체의 적어도 제 1 시간/주파수 표현 및 제 2 시간/주파수 표현(그리고 가능하게는 추가 시간/주파수 표현들)의 희박성을 기초로 할 수도 있다. 부가 정보 선택기(SI-AS)는 적어도 제 1 부가 정보 및 제 2 부가 정보 중에서 오디오 객체 신호(si)를 가장 희박하게 나타내는 시간/주파수 표현에 대응하는 부가 정보를 선택하도록 구성된다.
SAOC 기반 객체 추정의 경우에 SDR의 파라메트릭 추정이 이제 설명된다.
표기법들:
S N개의 원본 오디오 객체 신호들의 행렬
X M개의 믹스처 신호들의 행렬
Figure pct00025
다운믹스 행렬
X= DS 다운믹스 장면의 계산
S est N개의추정된 오디오 객체 신호들의 행렬
SAOC 내에서, 객체 신호들은 아래 공식으로 믹스처 신호들로부터 개념적으로 추정된다:
E=SS *
Figure pct00026
X를 DS로 치환하면 아래와 같다:
Figure pct00027
추정된 객체 신호들에서 원본 객체 신호 부분들의 에너지가 아래와 같이 계산될 수 있다:
Figure pct00028
추정된 신호에서 왜곡 항들이 다음에:
E dist = diag (E) - E est 에 의해 계산될 수 있으며, diag(E)는 원본 객체 신호들의 에너지들을 포함하는 대각 행렬을 나타낸다. 다음에, diag(E)E dist 에 관련시킴으로써 SDR이 계산될 수 있다. 특정 t/f 영역(R(tR,fR))에서 타깃 소스 에너지에 상대적인 방식으로 SDR을 추정하기 위해, 영역(R(tR,fR))에서 각각의 처리된 t/f 타일에 대해 왜곡 에너지 계산이 실행되고, t/f 영역(R(tR,fR)) 내의 모든 t/f 타일들에 걸쳐 타깃 및 왜곡 에너지들이 누산된다.
따라서 적합성 기준은 소스 추정을 기초로 할 수도 있다. 이 경우, 부가 정보 선택기(SI-AS)(56)는 다운믹스 신호(X) 그리고 제 1 시간/주파수 분해능 및 제 2 시간/주파수 분해능(TFR1, TFR2)에 각각 대응하는 적어도 제 1 정보 및 제 2 정보를 사용하여 복수의 오디오 객체 신호들(si) 중 적어도 선택된 오디오 객체 신호를 추정하도록 구성된 소스 추정기를 더 포함할 수도 있다. 소스 추정기는 이에 따라 적어도 제 1 추정된 오디오 객체(si , estim1) 및 제 2 추정된 오디오 객체(si , estim2)를 제공한다(가능하게는 최대 H개의 추정된 오디오 객체 신호들(si,estim H )). 부가 정보 선택기(56)는 또한 적어도 제 1 추정된 오디오 객체(si , estim1) 및 제 2 추정된 오디오 객체(si , estim2)의 품질을 평가하도록 구성된 품질 평가기를 포함한다. 더욱이, 품질 평가기는 소스 추정 성능 척도인 신호대 왜곡비(SDR)를 기초로 적어도 제 1 추정된 오디오 객체 신호(si, estim1) 및 제 2 추정된 오디오 객체 신호(si, estim2)의 품질을 평가하도록 구성될 수도 있다, 신호대 왜곡비(SDR)는 특정 추정된 공분산 행렬(E est)에서 부가 정보(PSI)만을 기초로 결정된다.
일부 실시예들에 따른 오디오 인코더는 다운믹스 신호(X)를 시간/주파수 도메인에서 복수의 타임슬롯들 및 복수의 (하이브리드) 부대역들로 샘플링된 표현으로 변환하도록 구성된 다운믹스 신호 프로세서를 더 포함할 수도 있다. 시간/주파수 영역(R(tR,fR))은 다운믹스 신호(X)의 적어도 2개의 샘플들에 걸칠 수도 있다. 적어도 하나의 오디오 객체에 대해 명시된 객체 특정 시간/주파수 분해능(TFRh)은 시간/주파수 영역(R(tR,fR))보다 더 미세할 수도 있다. 앞서 언급한 바와 같이, 시간/주파수 표현의 불확실성 원리와 관련하여, 시간 분해능을 희생하여 신호의 스펙트럼 분해능이 증가될 수 있고, 또는 그 반대도 가능하다. 오디오 인코더에서 오디오 디코더로 전송되는 다운믹스 신호는 일반적으로 디코더에서, 미리 결정된 고정된 시간/주파수 분해능에 따른 시간-주파수 변환에 의해 분석되지만, 오디오 디코더는 여전히, 고려되는 시간/주파수 영역(R(tR,fR)) 내의 분석된 다운믹스 신호를 다운믹스 신호로부터 주어진 오디오 객체(si)를 추출하기에 더 적절한 다른 시간/주파수 분해능으로 객체 개별적으로 변환할 수도 있다. 디코더에서 다운믹스 신호의 이러한 변환은 본 명세서에서 줌 변환이라 한다. 줌 변환은 시간적 줌 변환 또는 스펙트럼 줌 변환일 수 있다.
부가 정보의 양 감소
원칙적으로, 본 발명의 시스템의 단순한 실시예들에서는, 최대 H개의 t/f 표현들 중에서 선택함으로써 디코더 측에서의 분리가 실행될 때, 최대 H개의 t/f 표현들에 대한 부가 정보가 모든 각각의 객체에 대해 그리고 모든 각각의 t/f 영역(R(tR ,fR))에 대해 송신되어야 한다. 이러한 상당량의 데이터는 지각적 품질의 상당한 손실 없이 급격히 감소될 수 있다. 각각의 객체에 대해서는, 각각의 t/f 영역(R(tR,fR))에 대해 다음의 정보를 송신하는 것으로 충분하다:
Figure pct00029
t/f 영역(R(tR,fR))에서의 오디오 객체의 신호 콘텐츠, 예를 들어, 영역(R(tR, fR))에서의 객체의 평균 신호 에너지를 전역적으로/대략적으로 기술하는 하나의 파라미터.
Figure pct00030
오디오 객체의 미세 구조의 기술. 이러한 기술은 믹스처로부터 오디오 객체를 최적으로 추정하기 위해 선택되었던 개별 t/f 표현으로부터 얻어진다. 미세 구조에 대한 정보는 대략적 신호 표현과 미세 구조 간의 차이를 파라미터화함으로써 효율적으로 기술될 수 있다는 점에 주목한다.
Figure pct00031
오디오 객체를 추정하는 데 사용될 t/f 표현을 나타내는 정보 신호.
디코더에서는, 각각의 t/f 영역에 대해(R(tR, fR)) 아래에 설명되는 바와 같이 디코더에서의 믹스처로부터의 원하는 오디오 객체들의 추정이 실행될 수 있다.
Figure pct00032
이러한 오디오 객체에 대한 추가 부가 정보로 표시되는 것과 같은 개별 t/f 표현이 계산된다.
Figure pct00033
원하는 오디오 객체를 분리하기 위해, 대응하는 (미세 구조) 객체 신호 정보가 이용된다.
Figure pct00034
모든 나머지 오디오 객체들, 즉 억제되어야 하는 간섭 오디오 객체들에 대해서는, 선택된 t/f 표현에 대해 정보가 이용 가능하다면 미세 구조 객체 신호 정보가 사용된다. 그렇지 않으면, 대략적 신호 기술이 사용된다. 다른 옵션은 is to use 특정한 나머지 오디오 객체에 대해 이용 가능한 미세 구조 객체 신호 정보를 사용하는 것 그리고 예를 들어, t/f 영역(R(tR,fR))의 하위 영역들에서 이용 가능한 미세 구조 오디오 객체 신호 정보를 평균함으로써 선택된 t/f 표현을 근사화하는 것이다: 이런 식으로 t/f 분해능은 선택된 t/f 표현만큼 미세하지는 않지만, 대략적 t/f 표현보다는 여전히 더 미세하다.
강화된 오디오 객체 추정을 이용하는 SAOC 디코더
도 7은 강화된 (가상) 객체 분리(E-OS) 모듈을 포함하는 SAOC 디코딩을 개략적으로 나타내며 (가상) 강화된 객체 분리기(E-OS)를 포함하는 개선된 SAOC 디코더에 대한 이러한 예로 원리를 시각화한다. SAOC 디코더에는 강화된 파라메트릭 부가 정보(E-PSI: Enhanced Parametric Side Information)와 함께 신호 믹스처가 공급된다. E-PSI는 오디오 객체들에 관한 정보, 믹싱 파라미터들 및 추가 정보를 포함한다. 이러한 추가적인 부가 정보에 의해, 각각의 객체(s1 … sN)에 대해 그리고 각각의 t/f 영역(R(tR,fR))에 대해 어떤 t/f 표현이 사용되어야 하는지가 가상 E-OS에 시그널링된다. 주어진 t/f 영역(R(tR,fR))에 대해, 객체 분리기가 부가 정보로 각각의 객체에 대해 시그널링되는 개별 t/f 표현을 사용하여 객체들 각각을 추정한다.
도 8은 E-OS 모듈의 개념을 상술한다. 주어진 t/f 영역(R(tR ,fR))에 대해, t/f 표현 시그널링 모듈(110)에 의해 P개의 다운믹스 신호들에 대해 계산할 개별 t/f 표현(#h)이 다중 t/f 변환 모듈에 시그널링된다. (가상) 객체 분리기(120)는 개념적으로, 추가 부가 정보로 표시된 t/f 변환(#h)을 기초로 소스(sn)를 추정하려는 시도를 한다. (가상) 객체 분리기는 표시된 t/f 변환(#h)에 대해 송신된다면 객체들의 미세 구조에 대한 정보를 활용하고, 그렇지 않으면 소스 신호들의 송신된 대략적 기술을 사용한다. 각각의 t/f 영역(R(tR,fR))에 대해 계산될 서로 다른 t/f 표현들의 최대 가능 개수는 H라는 점에 주목한다. 다중 시간/주파수 변환 모듈은 P개의 다운믹스 신호(들)의 앞서 언급한 줌 변환을 수행하도록 구성될 수도 있다.
도 9는 다운믹스 신호(X) 및 부가 정보(PSI)로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더의 개략적인 블록도를 보여준다. 부가 정보(PSI)는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보(PSIi)(i=1N)를 포함한다. 부가 정보(PSI)는 또한 i=1NTF인 객체 특정 시간/주파수 분해능 정보(TFRIi)를 포함한다. 변수(NTF)는 객체 특정 시간/주파수 분해능 정보가 제공되는 오디오 객체들의 수를 나타내며 NTF ≤ N이다. 객체 특정 시간/주파수 분해능 정보(TFRIi)는 또한 객체 특정 시간/주파수 표현 정보로 지칭될 수도 있다. 특히, "시간/주파수 분해능"이라는 용어는 반드시 시간/주파수 도메인의 균일한 개별화를 의미하는 것으로 이해되어야 하는 것이 아니라, t/f 타일 내에서 또는 전대역 스펙트럼의 모든 t/f 타일들에 걸쳐 불균일한 개별화들을 또한 의미할 수도 있다. 일반적으로 그리고 바람직하게는, 주어진 t/f 타일의 두 차원들 중 하나가 미세한 분해능을 갖고 다른 한 차원은 낮은 분해능을 갖도록, 예를 들어 과도 신호들의 경우 시간 차원은 미세한 분해능을 갖고 스펙트럼 분해능은 대략적인 반면, 고정 신호들의 경우에는 스펙트럼 분해능이 미세하고 시간 차원은 대략적 분해능을 갖도록 시간/주파수 분해능이 선택된다. 시간/주파수 분해능 정보(TFRIi)는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보(PSIi)의 객체 특정 시간/주파수 분해능(TFRh)(h=1H)을 나타낸다. 오디오 디코더는 적어도 하나의 오디오 객체(si)에 대한 부가 정보(PSI)로부터 객체 특정 시간/주파수 분해능 정보(TFRIi)를 결정하도록 구성된 객체 특정 시간/주파수 분해능 결정기(110)를 포함한다. 오디오 디코더는 객체 특정 시간/주파수 분해능(TFRi)에 따라 객체 특정 부가 정보(PSIi)를 사용하여 다운믹스 신호(X)로부터 적어도 하나의 오디오 객체(si)를 분리하도록 구성된 객체 분리기(120)를 더 포함한다. 이는 객체 특정 부가 정보(PSIi)가 객체 특정 시간/주파수 분해능 정보(TFRIi)로 명시된 객체 특정 시간/주파수 분해능(TFRi)을 갖고, 객체 분리기(120)에 의해 객체 분리를 수행할 때 이 객체 특정 시간/주파수 분해능이 고려됨을 의미한다.
객체 특정 부가 정보(PSIi)는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 미세 구조 객체 특정 부가 정보(
Figure pct00035
,
Figure pct00036
)를 포함할 수도 있다. 미세 구조 객체 특정 부가 정보(
Figure pct00037
)는 시간/주파수 영역(R(tR, fR)) 내에서 레벨(예를 들어, 오디오 객체의 신호 에너지, 신호 전력, 진폭 등)이 어떻게 달라지는지를 기술하는 미세 구조 레벨 정보일 수도 있다. 미세 구조 객체 특정 부가 정보(
Figure pct00038
)는 오디오 객체들(i, j) 각각의 객체 간 상관 정보일 수도 있다. 여기서, 미세 구조 객체 특정 부가 정보(
Figure pct00039
,
Figure pct00040
)객체 특정 시간/주파수 분해능(TFRi)에 따른 시간/주파수 그리드 상에서, 미세 구조 타임슬롯들(η) 및 미세 구조 (하이브리드) 부대역들(κ)로 정의된다. 이 주제는 도 12와 관련하여 아래 설명될 것이다. 우선은, 적어도 3개의 기본적인 경우들이 구별될 수 있다:
a) 객체 특정 시간/주파수 분해능(TFRi)은 QMF 타임슬롯들 및 (하이브리드) 부대역들의 입도에 대응한다. 이 경우 η=n 그리고 κ=k이다.
b) 객체 특정 시간/주파수 분해능 정보(TFRIi)는 시간/주파수 영역(R(tR,fR)) 또는 그 일부분 내에서 스펙트럼 줌 변환이 수행되어야 함을 나타낸다. 이 경우, 스펙트럼 분해능이 증가되도록 각각의 (하이브리드) 부대역(k)이 2개 또는 그보다 많은 미세 구조 (하이브리드) 부대역들(κk, κk+1, … )로 세분화된다. 즉, 미세 구조 (하이브리드) 부대역들(κk, κk+1, … )은 원래의 (하이브리드) 부대역의 부분들이다. 그 대신, 시간/주파수 불확실성으로 인해 시간 분해능은 감소된다. 그러므로 미세 구조 타임슬롯은 타임슬롯들(n, n+1, … ) 중 2개 또는 그보다 많은 타임슬롯을 포함한다.
c) 객체 특정 시간/주파수 분해능 정보(TFRIi)는 시간/주파수 영역(R(tR,fR)) 또는 그 일부분 내에서 시간 줌 변환이 수행되어야 함을 나타낸다. 이 경우, 시간 분해능이 증가되도록 각각의 타임슬롯(n)이 2개 또는 그보다 많은 미세 구조 타임슬롯들(ηn, ηn +1, … )로 세분화된다. 즉, 미세 구조 타임슬롯들(ηn, ηn +1, … )은 타임슬롯(n)의 부분들이다. 그 대신, 시간/주파수 불확실성으로 인해 스펙트럼 분해능은 감소된다. 그러므로 미세 구조 (하이브리드) 부대역은 (하이브리드) 부대역들(k, k+1, … ) 중 2개 또는 그보다 많은 부대역을 포함한다.
부가 정보는 고려되는 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 대략적 객체 특정 부가 정보(OLDi, IOCi,j) 및/또는 절대 에너지 레벨(NRGi)을 더 포함할 수도 있다. 대략적 객체 특정 부가 정보(OLDi, IOCi,j) 및/또는 NRGi는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내에서 일정하다.
도 10은 하나의 시간/주파수 타일(R(tR,fR)) 내의 H개의 모든 t/f 표현들에서 N개의 모든 오디오 객체들에 대한 부가 정보를 수신하여 처리하도록 구성된 오디오 디코더의 개략적인 블록도를 보여준다. 오디오 객체들의 수(N)와 t/f 표현들의 수(H)에 따라, 도 10에 도시된 개념이 적은 수의 오디오 객체들 및 서로 다른 t/f 표현들을 갖는 시나리오들에 사용될 가능성이 더 크게 t/f 영역(R(tR,fR))마다 송신 또는 저장될 부가 정보의 양이 상당히 커질 수도 있다. 여전히, 도 10에서 설명되는 예는 서로 다른 오디오 객체들에 대한 서로 다른 객체 특정 t/f 표현들을 사용하는 원리들 중 일부에서 이해를 제공한다.
간단히, 도 10에 도시된 실시예에 따르면, 관심 있는 H개의 모든 t/f 표현들에 대해 (특정 OLD 및 IOC에서) 파라미터들의 전체 세트가 결정되어 송신/저장된다. 또한, 부가 정보는 각각의 오디오 객체에 대해 이러한 오디오 객체가 어떤 특정 t/f 표현으로 추출/합성되어야 하는지를 표시한다. 오디오 디코더에서는, 모든 t/f 표현들(h)로의 객체 재구성(
Figure pct00041
)이 수행된다. 다음에, 그러한 객체 특정 타일들, 또는 관심 있는 오디오 객체 및 타일들에 대한 부가 정보로 시그널링된 특정 t/f 분해능(들)을 사용하여 생성된 t/f 영역들로부터 시간 및 주파수에 걸쳐 최종 오디오 객체가 조립된다.
다운믹스 신호(X)가 복수의 객체 분리기들(1201 - 120H)에 제공된다. 객체 분리기들(1201 - 120H) 각각은 하나의 특정 t/f 표현에 대한 분리 작업을 수행하도록 구성된다. 이를 위해, 각각의 객체 분리기(1201 - 120H)는 객체 분리기가 연관되는 특정 t/f 표현으로 N개의 서로 다른 오디오 객체들(s1 - sN)의 부가 정보를 추가로 수신한다. 도 10은 단지 예시 목적으로만 복수(H개)의 객체 분리기들을 보여준다는 점에 주목한다. 대안적인 실시예들에서는, 더 적은 수의 객체 분리기들에 의해, 또는 심지어 단일 객체 분리기에 의해 t/f 영역(R(tR,fR))마다 H회의 분리 작업들이 수행될 수 있다. 추가 가능한 실시예들에 따르면, 분리 작업들은 다목적 프로세서 상에서 또는 멀티 코어 프로세서 상에서 서로 다른 스레드들로서 수행될 수도 있다. 분리 작업들 중 일부는 대응하는 t/f 표현이 얼마나 미세한지에 따라, 다른 것들보다 계산상 더 집약적이다. 각각의 t/f 영역(R(tR,fR))에 대해 부가 정보의 N × H개의 세트들이 오디오 디코더에 제공된다.
객체 분리기들(1201 - 120H)은 이미 그러한 경우가 아니라면, 추정된 분리된 오디오 객체들(
Figure pct00042
)을 공통 t/f 표현이 되게 하기 위해 선택적인 t/f 분해능 변환기(130)에 공급될 수 있는 N × H개의 추정된 분리된 오디오 객체들(
Figure pct00043
)을 제공한다. 일반적으로, 공통 t/f 분해능 또는 표현은 오디오 신호들의 일반적인 처리가 기초로 하는 필터 뱅크 또는 변환의 진짜 t/f 분해능일 수도 있는데, 즉 MPEG SAOC의 경우 공통 분해능은 QMF 타임슬롯들 및 (하이브리드) 부대역들의 입도이다. 예시 목적으로, 추정된 오디오 객체들은 행렬(140)에 일시적으로 저장된다고 가정될 수도 있다. 실제 구현에서, 나중에 사용되지 않을 추정된 분리된 오디오 객체들은 즉시 폐기될 수도 있고 또는 심지어 애초에 계산되지 않는다. 행렬(140)의 각각의 행은 동일한 오디오 객체의 H개의 서로 다른 추정들, 즉 H개의 서로 다른 t/f 표현들을 기초로 결정된, 추정된 분리된 오디오 객체를 포함한다. 행렬(140)의 중간 부분은 개략적으로 그리드로 표기된다. 각각의 행렬 엘리먼트(
Figure pct00044
)는 추정된 분리된 오디오 객체의 오디오 신호에 대응한다. 즉, 각각의 행렬 엘리먼트는 타깃 t/f 영역(R(tR,fR)) 내에 복수의 타임슬롯/부대역 샘플들(예를 들어, 도 11의 예에서는 7개의 타임슬롯들 × 3개의 부대역들 = 21개의 타임슬롯/부대역 샘플들)을 포함한다.
오디오 디코더는 추가로, 서로 다른 오디오 객체들에 대해 그리고 현재 t/f 영역(R(tR,fR))에 대해 객체 특정 시간/주파수 분해능 정보(TFRI1 - TFRIN)를 수신하도록 구성된다. 각각의 오디오 객체(i)에 대해, 객체 특정 시간/주파수 분해능 정보(TFRIi)는 원본 오디오 객체를 대략적으로 재생하기 위해 추정된 분리된 오디오 객체들(
Figure pct00045
) 중 어느 것이 사용되어야 하는지를 나타낸다. 객체 특정 시간/주파수 분해능 정보는 일반적으로 인코더에 의해 결정되어 부가 정보의 일부로서 디코더에 제공되었다. 도 10에서, 행렬(140) 내의 점선 박스들 및 X 표들은 각각의 오디오 객체에 대해 t/f 표현들 중 어느 것이 선택되었는지를 표시한다. 선택은 객체 특정 시간/주파수 분해능 정보(TFRI1 … TFRIN)를 수신하는 선택기(112)에 의해 이루어진다.
선택기(112)는 추가 처리될 수도 있는 선택된 N개의 오디오 객체 신호들을 출력한다. 예를 들어, 선택된 N개의 오디오 객체 신호들은 선택된 오디오 객체 신호들을 이용 가능한 라우드스피커 셋업, 예를 들어 스테레오 또는 또는 5.1 라우드스피커 셋업으로 렌더링하도록 구성된 렌더러(150)에 제공될 수도 있다. 이를 위해, 렌더러(150)는 미리 설정된 렌더링 정보 및/또는 추정된 분리된 오디오 객체들의 오디오 신호들이 이용 가능한 라우드스피커들에 어떻게 분배되어야 하는지를 기술하는 사용자 렌더링 정보를 수신할 수도 있다. 렌더러(150)는 선택적이며, 선택기(112)의 출력에서의 추정된 분리된 오디오 객체들(
Figure pct00046
)이 직접 사용 및 처리될 수도 있다. 대안적인 실시예들에서, 렌더러(150)는 "솔로 모드" 또는 "가라오케 모드"와 같은 극단적인 설정들로 설정될 수도 있다. 솔로 모드에서는, 단일 추정된 오디오 객체가 선택되어 출력 신호에 렌더링된다. 가라오케 모드에서는, 추정된 오디오 객체가 하나 빼고는 전부 선택되어 출력 신호에 렌더링된다. 일반적으로 리드 보컬 부분은 렌더링되지 않지만, 반주 부분들은 렌더링된다. 심지어 혼선이 거의 인지되지 않는 경우에도, 분리 성능 면에서 두 모드들 모두는 상당히 부담이 크다.
도 11은 오디오 객체(i)에 대해 미세 구조 부가 정보(
Figure pct00047
) 및 대략적 부가 정보가 어떻게 조직될 수 있는지를 개략적으로 나타낸다. 도 11의 상부는 (논문에서 그리고 특정 오디오 코딩 관련 ISO/IEC 표준들에서 일반적으로 인덱스(n)로 표시된) 타임슬롯들 및 (논문에서 일반적으로 인덱스(k)로 식별되는) (하이브리드) 부대역들에 따라 샘플링되는 시간/주파수 도메인의 일부를 나타낸다. 시간/주파수 도메인은 또한 (도 11에서 두꺼운 점선들로 그래픽적으로 표시된) 서로 다른 시간/주파수 영역들로 분할된다. 일반적으로 하나의 t/f 영역은 여러 개의 타임슬롯/부대역 샘플들을 포함한다. 하나의 t/f 영역(R(tR, fR))이 다른 t/f 영역들에 대한 대표적인 예시의 역할을 할 것이다. 예시적으로 고려되는 t/f 영역(R(tR, fR))은 7개의 타임슬롯들(n - n+6) 및 3개의 (하이브리드) 부대역들(k - k+2)에 이르며, 그러므로 21개의 타임슬롯/부대역 샘플들을 포함한다. 이제 2개의 서로 다른 오디오 객체들(i, j). 오디오 객체(i)는 t/f 영역(R(tR,fR)) 내에서 상당히 순음의 특징을 가질 수 있는 반면, 오디오 객체(j)는 t/f 영역(R(tR,fR)) 내에서 상당히 과도적인 특징을 가질 수 있다고 가정한다. 오디오 객체들(i, j)의 이러한 서로 다른 특징들을 보다 적절히 표현하기 위해, t/f 영역(R(tR,fR))은 오디오 객체(i)에 대한 스펙트럼 방향으로 그리고 오디오 객체(j)에 대한 시간 방향으로 더 세분될 수도 있다. t/f 영역들이 t/f 도메인에 반드시 동일하게 또는 균일하게 분산되는 것은 아니라, 오디오 객체들의 요구들에 따라 크기, 위치 및 분배가 적응될 수 있다는 점에 주목한다. 달리 표현하면, 다운믹스 신호(X)는 시간/주파수 도메인에서 복수의 타임슬롯들 및 복수의 (하이브리드) 부대역들로 샘플링된다. 시간/주파수 영역(R(tR,fR))은 다운믹스 신호(X)의 적어도 2개의 샘플들에 걸친다. 객체 특정 시간/주파수 분해능(TFRh)은 시간/주파수 영역(R(tR,fR))보다 더 미세하다.
오디오 인코더 측에서 오디오 객체(i)에 대한 부가 정보를 결정할 때, 오디오 인코더는 t/f 영역(R(tR, fR)) 내에서 오디오 객체(i)를 분석하고 대략적 부가 정보 및 미세 구조 부가 정보를 결정한다. 대략적 부가 정보는 무엇보다도, SAOC 표준 ISO/IEC 23003-2에 정의된 것과 같은 객체 레벨 차(OLDi), 객체 간 공분산(IOCi,j) 및/또는 절대 에너지 레벨(NRGi)일 수도 있다. 대략적 부가 정보는 t/f 영역 단위로 정의되며, 기존의 SAOC 디코더들이 이러한 종류의 부가 정보를 사용할 때 일반적으로 하위 호환성을 제공한다. 객체(i)에 대한 미세 구조 객체 특정 부가 정보(
Figure pct00048
)는 오디오의 에너지가 3개의 스펙트럼 하위 영역들 사이에 어떻게 분배되는지를 나타내는 3개의 추가 값들을 제공한다. 예시된 경우에, 3개의 스펙트럼 하위 영역들 각각은 하나의 (하이브리드) 부대역에 대응하지만, 다른 분배들이 또한 가능하다. 심지어는, 더 작은 스펙트럼 부대역에서 이용 가능한 특히 미세한 스펙트럼 분해능을 갖기 위해 하나의 스펙트럼 하위 영역을 다른 스펙트럼 하위 영역보다 더 작게 만드는 것이 고려될 수도 있다. 비슷한 식으로, t/f 영역(R(tR,fR))에서 오디오 객체(j)의 콘텐츠를 더 적절히 표현하기 위해 동일한 t/f 영역(R(tR,fR))이 여러 개의 시간적 하위 영역들로 세분될 수도 있다.
미세 구조 객체 특정 부가 정보(
Figure pct00049
)는 대략적 객체 특정 부가 정보(예를 들어, OLDi, IOCi,j 및/또는 NRGi)와 적어도 하나의 오디오 객체(si) 간의 차이를 기술할 수도 있다.
도 11의 아랫부분은 추정된 공분산 행렬(E)이 오디오 객체들(i, j)에 대한 미세 구조 부가 정보로 인해 t/f 영역(R(tR,fR))에 걸쳐 달라짐을 나타낸다. 객체 분리 작업에 사용되는 다른 행렬들 또는 값들은 또한 t/f 영역(R(tR,fR)) 내에서의 변경들이 가해질 수도 있다. 공분산 행렬(E)의 (그리고 가능하게는 다른 행렬들 또는 값들의) 변경이 객체 분리기(120)에 의해 고려되어야 한다. 예시된 경우에, t/f 영역(R(tR,fR))의 모든 각각의 타임슬롯/부대역 샘플에 대해 서로 다른 공분산 행렬(E)이 결정된다. 오디오 객체들 중 단 하나만이 이것, 예를 들어 객체(i)와 연관된 미세 스펙트럼 구조를 갖는 경우, 공분산 행렬(E)은 3개의 스펙트럼 하위 영역들 중 각각의 하위 영역 내에서 일정할 것이다(여기서는: 3개의 (하이브리드) 부대역들 중 각각의 부대역 내에서는 일정하지만, 일반적으로 다른 스펙트럼 하위 영역들이 또한 가능하다).
객체 분리기(120)는,
Figure pct00050
에 따라 적어도 하나의 오디오 객체(si) 및 적어도 하나의 추가 오디오 객체(sj)의 엘리먼트들(
Figure pct00051
)을 갖는 추정된 공분산 행렬(E η,κ )을 결정하도록 구성될 수 있으며,
여기서
Figure pct00052
는 타임슬롯(n) 및 (하이브리드) 부대역(k)에 대한 오디오 객체들(i, j)의 추정된 공분산이고;
Figure pct00053
Figure pct00054
는 타임슬롯(n) 및 (하이브리드) 부대역(k)에 대한 오디오 객체들(i, j)의 객체 특정 부가 정보이며;
Figure pct00055
는 타임슬롯(n) 및 (하이브리드) 부대역(k)에 대한 오디오 객체들(i, j) 각각의 객체 간 상관 정보이다.
Figure pct00056
,
Figure pct00057
Figure pct00058
중 적어도 하나는 객체 특정 시간/주파수 분해능 정보(TFRIi, TFRIj)로 각각 표시된 오디오 객체들(i, j)에 대한 객체 특정 시간/주파수 분해능(TFRh)에 따라 시간/주파수 영역(R(tR, fR)) 내에서 달라진다. 객체 분리기(120)는 위에서 설명한 방식으로, 추정된 공분산 행렬(E η,κ )을 사용하여 다운믹스 신호(X)로부터 적어도 하나의 오디오 객체(si)를 분리하도록 추가로 구성될 수도 있다.
앞서 설명한 접근 방식에 대한 대안은 예를 들어, 후속 줌 변환에 의해 기본 변환의 분해능으로부터 스펙트럼 또는 시간 분해능이 증가될 때 취해져야 한다. 이러한 경우, 객체 공분산 행렬의 추정은 줌 도메인에서 이루어질 필요가 있으며, 줌 도메인에서는 또한 객체 재구성이 일어난다. 재구성 결과는 다음에 원래 변환, 예를 들어 (하이브리드) QMF의 도메인으로 다시 역변환될 수 있으며, 이 도메인에서 최종 재구성으로의 타일들의 인터리빙이 일어난다. 원칙적으로, 계산들은 추가 변환들은 제외하고 서로 다른 파라미터 타일링을 이용하는 경우에서와 동일한 방식으로 작동된다.
도 12는 스펙트럼 축에서의 줌, 줌 도메인에서의 처리 및 줌 역변환의 예를 통해 줌 변환을 개략적으로 나타낸다. 타임슬롯들(n) 및 (하이브리드) 부대역들(k)에 의해 정의된 다운믹스 신호의 t/f 분해능에서 시간/주파수 영역(R(tR,fR))에서의 다운믹스를 고려한다. 도 12에 도시된 예에서, 시간-주파수 영역(R(tR,fR))은 4개의 타임슬롯들(n - n+3) 및 하나의 부대역(k)에 걸친다. 줌 변환은 신호 시간/주파수 변환 유닛(115)에 의해 수행될 수도 있다. 줌 변환은 시간적 줌 변환 또는 도 12에 도시된 바와 같이, 스펙트럼 줌 변환일 수도 있다. 스펙트럼 줌 변환은 DFT, STFT, QMF 기반 분석 필터뱅크 등에 의해 수행될 수도 있다. 시간적 줌 변환은 역 DFT, 역 STFT, 역 QMF 기반 합성 필터뱅크 등에 의해 수행될 수도 있다. 도 12의 예에서, 다운믹스 신호(X)는 타임슬롯들(n) 및 (하이브리드) 부대역들(k)에 의해 정의된 다운믹스 신호 시간/주파수 표현에서 단 하나의 객체 특정 타임슬롯(η)에, 그러나 4개의 객체 특정 (하이브리드) 부대역들()에 걸치는 스펙트럼으로 줌이 이루어진 t/f 표현으로 변환된다. 그러므로 시간/주파수 영역(R(tR,fR)) 내의 다운믹스 신호의 스펙트럼 분해능은 시간 분해능을 희생하여 4의 팩터만큼 증가되었다.
처리는 객체 특정 시간/주파수 분해능(TFRh)에서 오디오 객체들 중 적어도 하나의 객체의 부가 정보를 또한 수신하는 객체 분리기(121)에 의해 객체 특정 시간/주파수 분해능(TFRh)에서 수행된다. 도 12의 예에서, 오디오 객체(i)는 객체 특정 시간/주파수 분해능(TFRh)과 매칭하는 시간/주파수 영역(R(tR,fR)), 즉 하나의 객체 특정 타임슬롯(η) 및 4개의 객체 특정 (하이브리드) 부대역들()에서의 부가 정보에 의해 정의된다. 예시 목적으로, 2개의 추가 오디오 객체들(i +1, i+2)에 대한 부가 정보가 또한 도 12에 개략적으로 예시된다. 오디오 객체(i+1)는 다운믹스 신호의 시간/주파수 분해능을 갖는 부가 정보에 의해 정의된다. 오디오 객체(i+1)는 시간/주파수 영역(R(tR,fR))에서 2개의 객체 특정 타임슬롯들 및 2개의 객체 특정 (하이브리드) 부대역들의 분해능을 갖는 부가 정보에 의해 정의된다. 오디오 객체(i+1)에 대해, 객체 분리기(121)는 시간/주파수 영역(R(tR,fR)) 내의 대략적 부가 정보를 고려할 수도 있다. 오디오 객체(i+2)에 대해, 객체 분리기(121)는 2개의 서로 다른 해칭들로 표시된 것과 같은, 시간/주파수 영역(R(tR,fR)) 내의 2개의 스펙트럼 평균 값들을 고려할 수도 있다. 일반적인 경우에는, 대응하는 오디오 객체에 대한 부가 정보가 객체 분리기(121)에 의해 현재 처리되지만 시간/주파수 영역(R(tR,fR))보다 시간 및/또는 스펙트럼 차원에서 더 미세하게 개별화되는 정확한 객체 특정 시간/주파수 분해능(TFRh)에서 이용 가능하지 않다면, 복수의 스펙트럼 평균 값들 및/또는 복수의 시간 평균 값들이 객체 분리기(121)에 의해 고려될 수도 있다. 이런 식으로, 객체 분리기(121)는 반드시 객체 분리기(121)에 의해 현재 처리되고 있는 객체 특정 시간/주파수 분해능(TFRh)만큼 미세한 것은 아니라 하더라도, 대략적 부가 정보(예를 들어, OLD, IOC, 및/또는 NRG)보다 더 미세하게 개별화되는 객체 특정 부가 정보의 이용 가능성으로부터 이익을 얻는다.
객체 분리기(121)는 객체 특정 시간/주파수 분해능(줌 t/f 분해능)으로 시간/주파수 영역(R(tR,fR))에 대한 적어도 하나의 추출된 오디오 객체(
Figure pct00059
)를 출력한다. 적어도 하나의 추출된 오디오 객체(
Figure pct00060
)는 줌 역변환기(132)에 의해 줌 역변환되어 다운믹스 신호의 시간/주파수 분해능으로 또는 다른 원하는 시간/주파수 분해능으로 R(tR,fR) 내의 추출된 오디오 객체(
Figure pct00061
)를 얻는다. 추출된 오디오 객체(
Figure pct00062
)를 조립하기 위해, R(tR,fR) 내의 추출된 오디오 객체(
Figure pct00063
)는 이후에 다른 시간/주파수 영역들, 예를 들어, R(tR-1,fR-1), R(tR-1,fR), … R(tR+1,fR+1)) 내의 추출된 오디오 객체(
Figure pct00064
)와 결합된다.
대응하는 실시예들에 따르면, 오디오 디코더는 재변환된 다운믹스 신호(Xη,κ)를 얻기 위해 시간/주파수 영역(R(tR,fR)) 내의 다운믹스 신호(X)를 다운믹스 신호 시간/주파수 분해능에서 최소한, 적어도 하나의 오디오 객체(si)의 객체 특정 시간/주파수 분해능(TFRh)으로 변환하도록 구성된 다운믹스 신호 시간/주파수 변환기(115)를 포함할 수도 있다. 다운믹스 신호 시간/주파수 분해능은 다운믹스 타임슬롯들(n) 및 다운믹스 (하이브리드) 부대역들(k)과 관련된다. 객체 특정 시간/주파수 분해능(TFRh)은 객체 특정 타임슬롯들(η) 및 객체 특정 (하이브리드) 부대역들(κ)과 관련된다. 객체 특정 타임슬롯들(η)은 다운믹스 시간/주파수 분해능의 다운믹스 타임슬롯들(n)보다 더 미세하거나 더 대략적일 수도 있다. 마찬가지로, 객체 특정 (하이브리드) 부대역들(κ)은 다운믹스 시간/주파수 분해능의 다운믹스 (하이브리드) 부대역들보다 더 미세하거나 더 대략적일 수도 있다. 앞서 설명한 바와 같이 시간/주파수 표현의 불확실성 원리와 관련하여, 시간 분해능을 희생하여 신호의 스펙트럼 분해능이 증가될 수 있고, 그 반대도 가능하다. 오디오 디코더는 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)를 객체 특정 시간/주파수 분해능(TFRh)에서 다운믹스 신호 시간/주파수 분해능으로 다시 시간/주파수 변환하도록 구성된 시간/주파수 역변환기(132)를 더 포함할 수도 있다. 객체 분리기(121)는 객체 특정 시간/주파수 분해능(TFRh)에서 다운믹스 신호(X)로부터 적어도 하나의 오디오 객체(si)를 분리하도록 구성된다.
줌 도메인에서, 객체 특정 타임슬롯들(η) 및 객체 특정 (하이브리드) 부대역들(κ)에 대해 추정된 공분산 행렬(E η,κ )이 정의된다. 적어도 하나의 오디오 객체(si) 및 적어도 하나의 추가 오디오 객체(sj)의 추정된 공분산 행렬의 엘리먼트들에 대해 앞서 언급한 공식은 에서 아래와 같이 표현될 수 있으며:
Figure pct00065
여기서
Figure pct00066
는 객체 특정 타임슬롯(η) 및 객체 특정 (하이브리드) 부대역(κ)에 대한 오디오 객체들(i, j)의 추정된 공분산이고;
Figure pct00067
Figure pct00068
는 객체 특정 타임슬롯(η) 및 객체 특정 (하이브리드) 부대역(κ)에 대한 오디오 객체들(i, j)의 객체 특정 부가 정보이며;
Figure pct00069
는 객체 특정 타임슬롯(η) 및 객체 특정 (하이브리드) 부대역(κ)에 대한 오디오 객체들(i, j) 각각의 객체 간 상관 정보이다.
앞서 설명한 바와 같이, 추가 오디오 객체(j)는 객체 특정 시간/주파수 분해능(TFRh)에서 파라미터들(
Figure pct00070
,
Figure pct00071
)이 이용 가능하거나 결정 가능하지 않을 수도 있도록 오디오 객체(i)의 객체 특정 시간/주파수 분해능(TFRh)을 갖는 부가 정보에 의해 정의되지 않을 수도 있다. 이 경우, R(tR,fR) 내의 오디오 객체(j)의 대략적 부가 정보 또는 시간 평균 값들 또는 스펙트럼 평균 값들이 시간/주파수 영역(R(tR,fR))에서 또는 그 하위 영역들에서 파라미터들(
Figure pct00072
,
Figure pct00073
)을 근사화하는 데 사용될 수도 있다.
또한, 인코더 측에서는, 미세 구조 부가 정보가 일반적으로 고려되어야 한다. 실시예들에 따른 오디오 인코더에서, 부가 정보 결정기(t/f-SIE)(55-1 … 55-H)는 제 1 부가 정보 및 제 2 부가 정보 중 적어도 하나의 부가 정보의 일부로서 미세 구조 객체 특정 부가 정보(
Figure pct00074
또는
Figure pct00075
) 및 대략적 객체 특정 부가 정보(OLDi)를 제공하도록 추가로 구성된다. 대략적 객체 특정 부가 정보(OLDi)는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내에서 일정하다. 미세 구조 객체 특정 부가 정보(
Figure pct00076
,
Figure pct00077
)는 대략적 객체 특정 부가 정보(OLDi)와 적어도 하나의 오디오 객체(si) 간의 차이를 기술할 수도 있다. 객체 간 상관들(IOCi,j,
Figure pct00078
,
Figure pct00079
)뿐만 아니라 다른 파라메트릭 부가 정보도 아날로그 방식으로 처리될 수 있다.
도 13은 다운믹스 신호(X) 및 부가 정보(PSI)로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 방법의 개략적인 흐름도를 보여준다. 부가 정보는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보(PSIi), 및 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보의 객체 특정 시간/주파수 분해능(TFRh)을 나타내는 객체 특정 시간/주파수 분해능 정보(TFRIi)를 포함한다. 이 방법은 적어도 하나의 오디오 객체(si)에 대한 부가 정보(PSI)로부터 객체 특정 시간/주파수 분해능 정보(TFRIi)를 결정하는 단계(1302)를 포함한다. 이 방법은 객체 특정 시간/주파수 분해능(TFRIi)에 따라 객체 특정 부가 정보를 사용하여 다운믹스 신호(X)로부터 적어도 하나의 오디오 객체(si)를 분리하는 단계(1304)를 더 포함한다.
도 14는 추가 실시예들에 따라 복수의 오디오 객체 신호들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 방법의 개략적인 흐름도를 보여준다. 오디오 인코더는 단계(1402)에서 복수의 오디오 객체 신호들(si)을 적어도 제 1 복수의 대응하는 변환들(s1,1(t,f), … sN,1(t,f))로 변환하는 것을 포함한다. 이를 위해 제 1 시간/주파수 분해능(TFR1)이 사용된다. 복수의 오디오 객체 신호들(si)은 또한 제 2 시간/주파수 개별화(TFR2)를 사용하여 적어도 제 2 복수의 대응하는 변환들(s1,2(t,f), … sN,2(t,f))로 변환된다. 단계(1404)에서, 적어도 제 1 복수의 대응하는 변환들(s1,1(t,f) … sN,1(t,f))에 대한 제 1 부가 정보 및 제 2 복수의 대응하는 변환들(s1,2(t,f) … sN,2(t,f))에 대한 제 2 부가 정보가 결정된다. 제 1 부가 정보 및 제 2 부가 정보는 시간/주파수 영역(R(tR,fR))에서 제 1 시간/주파수 분해능 및 제 2 시간/주파수 분해능(TFR1, TFR2) 각각으로 복수의 오디오 객체들(si)의 서로의 관계를 표시한다. 이 방법은 또한 각각의 오디오 객체 신호(si)에 대해, 시간/주파수 도메인에서 오디오 객체 신호(si)를 표현하기 위한 적어도 제 1 또는 제 2 시간/주파수 분해능의 적합성을 나타내는 적합성 기준을 기초로 적어도 제 1 부가 정보 및 제 2 부가 정보 중에서 하나의 객체 특정 부가 정보를 선택하는 단계(1406)를 포함하며, 객체 특정 부가 정보는 오디오 인코더에 의해 출력되는 부가 정보(PSI)에 삽입된다.
SAOC와의 하위 호환성
제안된 솔루션은 가능하게는 심지어 완전히 디코더 호환성 있는 방식으로도 지각적 오디오 품질을 유리하게 향상시킨다. t/f 영역들(R(tR, fR))을 최신 SAOC 내에서 t/f 그룹화와 동일하게 정의함으로써, 기존의 표준 SAOC 디코더들이 PSI의 하위 호환성 있는 부분을 디코딩하고 대략적 t/f 분해능 레벨에 대한 객체들의 재구성들을 생성할 수 있다. 추가된 정보가 강화된 SAOC 디코더에 의해 사용된다면, 재구성들의 지각적 품질이 상당히 개선된다. 각각의 오디오 객체에 대해, 이러한 추가적인 부가 정보는 선택된 t/f 표현을 기초로 한 객체 미세 구조의 기술과 함께, 객체를 추정하는 데 개별 t/f 표현이 사용되어야 하는 정보를 포함한다.
추가로, 강화된 SAOC 디코더가 한정된 자원들 상에서 실행된다면, 확장들은 무시될 수 있고, 단지 낮은 계산 복잡도만을 요하는 기본적인 품질 재구성이 여전히 얻어질 수 있다.
본 발명의 처리에 대한 응용 분야들
객체 특정 t/f 표현들 및 디코더에 대한 이들의 연관된 시그널링의 개념은 임의의 SAOC 방식에 적용될 수 있다. 이는 임의의 현재 그리고 또한 추후의 오디오 포맷들과 결합될 수 있다. 이 개념은 오디오 객체들의 파라메트릭 추정에 대한 개별 t/f 분해능의 오디오 객체 적응적 선택에 의해 SAOC 애플리케이션들에서 강화된 지각적 오디오 객체 추정을 고려한다.
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타냄이 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 비슷하게, 방법 단계와 관련하여 설명된 양상들은 또한 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 하드웨어 장치, 예를 들어 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 어떤 단일 또는 다수의 방법 단계들이 이러한 장치에 의해 실행될 수도 있다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체 상에 저장될 수 있거나 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷과 같은 송신 매체 상에서 송신될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 전기적으로 판독 가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있는데, 이는 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전기적으로 판독 가능한 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 가진 컴퓨터 프로그램 물건으로서 구현될 수 있는데, 프로그램 코드는 컴퓨터 상에서 컴퓨터 프로그램 물건이 실행될 때 방법들 중 하나를 수행하도록 동작 가능하다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수도 있다.
다른 실시예들은 기계 판독 가능 반송파 상에 저장되어, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
따라서 다시 말하면, 본 발명의 방법의 한 실시예는 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 기록된 데이터 반송파(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 송신하지 않는다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수도 있다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 처리 수단, 예를 들어 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍 가능한 로직 디바이스(예를 들어, 필드 프로그래밍 가능한 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는 데 사용될 수도 있다. 일부 실시예들에서, 필드 프로그래밍 가능한 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수도 있다. 일반적으로, 이 방법들은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
위에서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 어레인지먼트들 및 세부사항들의 수정들 및 변형들이 해당 기술분야에서 통상의 지식을 가진 자들에게 명백할 것이라고 이해된다. 따라서 본 명세서의 실시예들의 기술 및 설명으로 제시된 특정 세부사항들에 의해서가 아니라 바로 다음의 특허청구범위로만 한정되는 것이 의도이다.
참조들:
[MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part 1: MPEG Surround, 2007.
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007
[SAOC2] J. Engdeg?rd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", l24th AES Convention, Amsterdam 2008
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[ISS1] M. Parvaix and L. Girin: "lnformed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010
[ISS2] M. Parvaix, L. Girin, J.-M. Brassier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010
[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011
[ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011
[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011

Claims (18)

  1. 다운믹스 신호(X) 및 부가 정보(PSI)로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더로서,
    상기 부가 정보는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보(PSIi), 및 상기 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보의 객체 특정 시간/주파수 분해능(TFRh)을 나타내는 객체 특정 시간/주파수 분해능 정보(TFRIi)를 포함하고,
    상기 오디오 디코더는,
    상기 적어도 하나의 오디오 객체(si)에 대한 부가 정보(PSI)로부터 상기 객체 특정 시간/주파수 분해능 정보(TFRIi)를 결정하도록 구성된 객체 특정 시간/주파수 분해능 결정기(110); 및
    상기 객체 특정 시간/주파수 분해능(TFRIi)에 따라 상기 객체 특정 부가 정보를 사용하여 상기 다운믹스 신호(X)로부터 상기 적어도 하나의 오디오 객체(si)를 분리하도록 구성된 객체 분리기(120)를 포함하는,
    다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더.
  2. 제 1 항에 있어서,
    상기 객체 특정 부가 정보는 상기 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 미세 구조 객체 특정 부가 정보(
    Figure pct00080
    ,
    Figure pct00081
    )이고,
    상기 부가 정보(PSI)는 상기 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 대략적 객체 특정 부가 정보를 더 포함하며,
    상기 대략적 객체 특정 부가 정보는 상기 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내에서 일정한,
    다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더.
  3. 제 1 항에 있어서,
    상기 미세 구조 객체 특정 부가 정보(
    Figure pct00082
    )는 대략적 객체 특정 부가 정보와 상기 적어도 하나의 오디오 객체(si) 간의 차를 기술하는,
    다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 다운믹스 신호(X)는 시간/주파수 도메인에서 복수의 타임슬롯들 및 복수의 (하이브리드) 부대역들로 샘플링되고,
    상기 시간/주파수 영역(R(tR,fR))은 상기 다운믹스 신호(X)의 적어도 2개의 샘플들에 걸치며,
    상기 객체 특정 시간/주파수 분해능(TFRh)은 두 차원들 모두 중 적어도 하나에서 상기 시간/주파수 영역(R(tR,fR))보다 더 미세한,
    다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 객체분리기(120)는,
    Figure pct00083

    에 따라 상기 적어도 하나의 오디오 객체(si) 및 적어도 하나의 추가 오디오 객체(sj)의 엘리먼트들(
    Figure pct00084
    )을 갖는 추정된 공분산 행렬(E η,κ )을 결정하도록 구성되며,
    Figure pct00085
    는 미세 구조 타임슬롯(η) 및 미세 구조 (하이브리드) 부대역(κ)에 대한 오디오 객체들(i, j)의 추정된 공분산이고;
    Figure pct00086
    Figure pct00087
    는 미세 구조 타임슬롯(η) 및 미세 구조 (하이브리드) 부대역(κ)에 대한 오디오 객체들(i, j)의 객체 특정 부가 정보이며;
    Figure pct00088
    는 미세 구조 타임슬롯(η) 및 미세 구조 (하이브리드) 부대역(κ)에 대한 오디오 객체들(i, j) 각각의 객체 간 상관 정보이고,
    Figure pct00089
    ,
    Figure pct00090
    Figure pct00091
    중 적어도 하나는 상기 객체 특정 시간/주파수 분해능 정보(TFRIi, TFRIj)로 표시된 오디오 객체들(i, j)에 대한 객체 특정 시간/주파수 분해능(TFRh)에 따라 상기 시간/주파수 영역(R(tR, fR)) 내에서 달라지며,
    상기 객체 분리기(120)는 상기 추정된 공분산 행렬(E η,κ )을 사용하여 상기 다운믹스 신호(X)로부터 상기 적어도 하나의 오디오 객체(si)를 분리하도록 추가로 구성되는,
    다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    재변환된 다운믹스 신호(Xη,κ)를 얻기 위해 상기 시간/주파수 영역(R(tR,fR)) 내의 다운믹스 신호(X)를 다운믹스 신호 시간/주파수 분해능에서 최소한 상기 적어도 하나의 오디오 객체(si)의 객체 특정 시간/주파수 분해능(TFRh)으로 변환하도록 구성된 다운믹스 신호 시간/주파수 변환기;
    상기 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)를 상기 객체 특정 시간/주파수 분해능(TFRh)에서 공통 t/f-분해능 또는 상기 다운믹스 신호 시간/주파수 분해능으로 다시 시간/주파수 변환하도록 구성된 시간/주파수 역변환기를 더 포함하며;
    상기 객체 분리기(120)는 상기 객체 특정 시간/주파수 분해능(TFRh)에서 상기 다운믹스 신호(X)로부터 상기 적어도 하나의 오디오 객체(si)를 분리하도록 구성되는,
    다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더.
  7. 복수의 오디오 객체들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 오디오 인코더로서,
    상기 복수의 오디오 객체들(si)을 적어도, 제 1 시간/주파수 분해능(TFR1)을 사용하여 제 1 복수의 대응하는 변환들(s1,1(t,f), … sN,1(t,f))로 그리고 제 2 시간/주파수 분해능(TFR2)을 사용하여 제 2 복수의 대응하는 변환들(s1,2(t,f), … sN,2(t,f))로 변환하도록 구성된 시간-주파수 변환기;
    적어도 상기 제 1 복수의 대응하는 변환들(s1,1(t,f) … sN,1(t,f))에 대한 제 1 부가 정보 및 상기 제 2 복수의 대응하는 변환들(s1,2(t,f) … sN,2(t,f))에 대한 제 2 부가 정보를 결정하도록 구성된 부가 정보 결정기(t/f-SIE) ― 상기 제 1 부가 정보 및 상기 제 2 부가 정보는 시간/주파수 영역(R(tR,fR))에서 상기 제 1 시간/주파수 분해능 및 상기 제 2 시간/주파수 분해능(TFR1, TFR2) 각각으로 상기 복수의 오디오 객체들(si)의 서로의 관계를 표시함 ―; 및
    상기 복수의 오디오 객체들 중 적어도 하나의 오디오 객체(si)에 대해, 시간/주파수 도메인에서 상기 오디오 객체(si)를 표현하기 위한 적어도 상기 제 1 또는 제 2 시간/주파수 분해능의 적합성을 나타내는 적합성 기준을 기초로 적어도 상기 제 1 부가 정보 및 상기 제 2 부가 정보 중에서 하나의 객체 특정 부가 정보를 선택하도록 구성된 부가 정보 선택기(SI-AS)를 포함하며,
    상기 객체 특정 부가 정보는 상기 오디오 인코더에 의해 출력되는 부가 정보(PSI)에 삽입되는,
    복수의 오디오 객체들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 오디오 인코더.
  8. 제 7 항에 있어서,
    상기 적합성 기준은 소스 추정을 기초로 하며,
    상기 부가 정보 선택기(SI-AS)는,
    상기 다운믹스 신호(X) 그리고 상기 제 1 시간/주파수 분해능 및 상기 제 2 시간/주파수 분해능(TFR1, TFR2)에 각각 대응하는 적어도 상기 제 1 정보 및 상기 제 2 정보를 사용하여 상기 복수의 오디오 객체들(si) 중 적어도 선택된 오디오 객체를 추정하도록 구성된 소스 추정기 ― 상기 소스 추정기는 이에 따라 적어도 제 1 추정된 오디오 객체(si , estim1) 및 제 2 추정된 오디오 객체(si , estim2)를 제공함 ―;
    적어도 상기 제 1 추정된 오디오 객체(si , estim1) 및 상기 제 2 추정된 오디오 객체(si , estim2)의 품질을 평가하도록 구성된 품질 평가기를 포함하는,
    복수의 오디오 객체들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 오디오 인코더.
  9. 제 8 항에 있어서,
    상기 품질 평가기는 소스 추정 성능 척도인 신호대 왜곡비(SDR: signal-to-distortion ratio)를 기초로, 적어도 상기 제 1 추정된 오디오 객체(si , estim1) 및 상기 제 2 추정된 오디오 객체(si , estim2)의 품질을 평가하도록 구성되며, 상기 신호대 왜곡비(SDR)는 상기 부가 정보(PSI)만을 기초로 결정되는,
    복수의 오디오 객체들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 오디오 인코더.
  10. 제 7 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 복수의 오디오 객체들 중 상기 적어도 하나의 오디오 객체(si)에 대한 적합성 기준은 적어도 상기 제 1 시간/주파수 분해능(TFR1) 및 상기 제 2 시간/주파수 분해능(TFR2)에 따른 상기 적어도 하나의 오디오 객체의 하나보다 많은 t/f-분해능 표현들의 희박성 정도를 기초로 하며,
    상기 부가 정보 선택기(SI-AS)는 적어도 상기 제 1 부가 정보와 상기 제 2 부가 정보 중에서 상기 적어도 하나의 오디오 객체(si)의 가장 희박한 t/f 표현과 연관된 부가 정보를 선택하도록 구성되는,
    복수의 오디오 객체들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 오디오 인코더.
  11. 제 7 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 부가 정보 결정기(t/f-SIE)는 상기 제 1 부가 정보 및 상기 제 2 부가 정보 중 적어도 하나의 부가 정보의 일부로서 미세 구조 객체 특정 부가 정보(
    Figure pct00092
    ) 및 대략적 객체 특정 부가 정보를 제공하도록 추가로 구성되며,
    상기 대략적 객체 특정 부가 정보는 상기 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내에서 일정한,
    복수의 오디오 객체들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 오디오 인코더.
  12. 제 11 항에 있어서,
    상기 미세 구조 객체 특정 부가 정보(
    Figure pct00093
    )는 대략적 객체 특정 부가 정보와 상기 적어도 하나의 오디오 객체(si) 간의 차를 기술하는,
    복수의 오디오 객체들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 오디오 인코더.
  13. 제 7 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 다운믹스 신호(X)를 상기 시간/주파수 도메인에서 복수의 타임슬롯들 및 복수의 (하이브리드) 부대역들로 샘플링된 표현으로 변환하도록 구성된 다운믹스 신호 프로세서를 더 포함하며,
    상기 시간/주파수 영역(R(tR,fR))은 상기 다운믹스 신호(X)의 적어도 2개의 샘플들에 걸치고,
    적어도 하나의 오디오 객체에 대해 명시된 객체 특정 시간/주파수 분해능(TFRh)은 두 차원들 모두 중 적어도 하나에서 상기 시간/주파수 영역(R(tR,fR))보다 더 미세한,
    복수의 오디오 객체들(si)을 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 오디오 인코더.
  14. 다운믹스 신호(X) 및 부가 정보(PSI)로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 방법으로서,
    상기 부가 정보는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보(PSIi), 및 상기 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보의 객체 특정 시간/주파수 분해능(TFRh)을 나타내는 객체 특정 시간/주파수 분해능 정보(TFRIi)를 포함하고,
    상기 방법은,
    상기 적어도 하나의 오디오 객체(si)에 대한 부가 정보(PSI)로부터 상기 객체 특정 시간/주파수 분해능 정보(TFRIi)를 결정하는 단계; 및
    상기 객체 특정 시간/주파수 분해능(TFRIi)에 따라 상기 객체 특정 부가 정보를 사용하여 상기 다운믹스 신호(X)로부터 상기 적어도 하나의 오디오 객체(si)를 분리하는 단계를 포함하는,
    다중 객체 오디오 신호를 디코딩하기 위한 방법.
  15. 복수의 오디오 객체(si)를 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 방법으로서,
    상기 복수의 오디오 객체(si)를 적어도, 제 1 시간/주파수 분해능(TFR1)을 사용하여 제 1 복수의 대응하는 변환들(s1,1(t,f), … sN,1(t,f))로 그리고 제 2 시간/주파수 분해능(TFR2)을 사용하여 제 2 복수의 대응하는 변환들(s1,2(t,f), … sN,2(t,f))로 변환하는 단계;
    적어도 상기 제 1 복수의 대응하는 변환들(s1,1(t,f) … sN,1(t,f))에 대한 제 1 부가 정보 및 상기 제 2 복수의 대응하는 변환들(s1,2(t,f) … sN,2(t,f))에 대한 제 2 부가 정보를 결정하는 단계 ― 상기 제 1 부가 정보 및 상기 제 2 부가 정보는 시간/주파수 영역(R(tR,fR))에서 상기 제 1 시간/주파수 분해능 및 상기 제 2 시간/주파수 분해능(TFR1, TFR2) 각각으로 상기 복수의 오디오 객체(si)의 서로의 관계를 표시함 ―; 및
    상기 복수의 오디오 객체들 중 적어도 하나의 오디오 객체(si)에 대해, 시간/주파수 도메인에서 상기 오디오 객체(si)를 표현하기 위한 적어도 상기 제 1 또는 제 2 시간/주파수 분해능의 적합성을 나타내는 적합성 기준을 기초로 적어도 상기 제 1 부가 정보 및 상기 제 2 부가 정보 중에서 하나의 객체 특정 부가 정보를 선택하는 단계를 포함하며,
    상기 객체 특정 부가 정보는 상기 오디오 인코더에 의해 출력되는 부가 정보(PSI)에 삽입되는,
    복수의 오디오 객체(si)를 다운믹스 신호(X) 및 부가 정보(PSI)로 인코딩하기 위한 방법.
  16. 다운믹스 신호(X) 및 부가 정보(PSI)로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더로서,
    상기 부가 정보는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보(PSIi), 및 상기 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보의 객체 특정 시간/주파수 분해능(TFRh)을 나타내는 객체 특정 시간/주파수 분해능 정보(TFRIi)를 포함하고,
    상기 오디오 디코더는,
    상기 적어도 하나의 오디오 객체(si)에 대한 부가 정보(PSI)로부터 상기 객체 특정 시간/주파수 분해능 정보(TFRIi)를 결정하도록 구성된 객체 특정 시간/주파수 분해능 결정기(110); 및
    상기 객체 특정 시간/주파수 분해능(TFRIi)에 따라 상기 객체 특정 부가 정보를 사용하여 상기 다운믹스 신호(X)로부터 상기 적어도 하나의 오디오 객체(si)를 분리하도록 구성된 객체 분리기(120)를 포함하며,
    상기 다운믹스 신호 내의 적어도 하나의 다른 오디오 객체(sj)에 대한 객체 특정 부가 정보는 상이한 객체 특정 시간/주파수 분해능(TFR)을 갖는,
    다중 객체 오디오 신호를 디코딩하기 위한 오디오 디코더.
  17. 다운믹스 신호(X) 및 부가 정보(PSI)로 구성된 다중 객체 오디오 신호를 디코딩하기 위한 방법으로서,
    상기 부가 정보는 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보(PSIi), 및 상기 적어도 하나의 시간/주파수 영역(R(tR,fR)) 내의 적어도 하나의 오디오 객체(si)에 대한 객체 특정 부가 정보의 객체 특정 시간/주파수 분해능(TFRh)을 나타내는 객체 특정 시간/주파수 분해능 정보(TFRIi)를 포함하고,
    상기 방법은,
    상기 적어도 하나의 오디오 객체(si)에 대한 부가 정보(PSI)로부터 상기 객체 특정 시간/주파수 분해능 정보(TFRIi)를 결정하는 단계; 및
    상기 객체 특정 시간/주파수 분해능(TFRIi)에 따라 상기 객체 특정 부가 정보를 사용하여 상기 다운믹스 신호(X)로부터 상기 적어도 하나의 오디오 객체(si)를 분리하는 단계를 포함하며,
    상기 다운믹스 신호 내의 적어도 하나의 다른 오디오 객체(sj)에 대한 객체 특정 부가 정보는 상이한 객체 특정 시간/주파수 분해능(TFR)을 갖는,
    다중 객체 오디오 신호를 디코딩하기 위한 방법.
  18. 컴퓨터 프로그램으로서,
    컴퓨터 상에서 상기 컴퓨터 프로그램이 실행될 때 제 14 항, 제 15 항 또는 제 17 항에 따른 방법을 수행하기 위한,
    컴퓨터 프로그램.
KR1020157035229A 2013-05-13 2014-05-09 객체 특정 시간/주파수 분해능들을 이용한 혼합 신호로부터의 오디오 객체 분리 KR101785187B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13167484.8A EP2804176A1 (en) 2013-05-13 2013-05-13 Audio object separation from mixture signal using object-specific time/frequency resolutions
EP13167484.8 2013-05-13
PCT/EP2014/059570 WO2014184115A1 (en) 2013-05-13 2014-05-09 Audio object separation from mixture signal using object-specific time/frequency resolutions

Publications (2)

Publication Number Publication Date
KR20160009631A true KR20160009631A (ko) 2016-01-26
KR101785187B1 KR101785187B1 (ko) 2017-10-12

Family

ID=48444119

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157035229A KR101785187B1 (ko) 2013-05-13 2014-05-09 객체 특정 시간/주파수 분해능들을 이용한 혼합 신호로부터의 오디오 객체 분리

Country Status (17)

Country Link
US (2) US10089990B2 (ko)
EP (2) EP2804176A1 (ko)
JP (1) JP6289613B2 (ko)
KR (1) KR101785187B1 (ko)
CN (1) CN105378832B (ko)
AR (1) AR096257A1 (ko)
AU (2) AU2014267408B2 (ko)
BR (1) BR112015028121B1 (ko)
CA (1) CA2910506C (ko)
HK (1) HK1222253A1 (ko)
MX (1) MX353859B (ko)
MY (1) MY176556A (ko)
RU (1) RU2646375C2 (ko)
SG (1) SG11201509327XA (ko)
TW (1) TWI566237B (ko)
WO (1) WO2014184115A1 (ko)
ZA (1) ZA201509007B (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US10468036B2 (en) * 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
FR3041465B1 (fr) * 2015-09-17 2017-11-17 Univ Bordeaux Procede et dispositif de formation d'un signal mixe audio, procede et dispositif de separation, et signal correspondant
EP3293733A1 (en) * 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
CN108009182B (zh) * 2016-10-28 2020-03-10 京东方科技集团股份有限公司 一种信息提取方法和装置
US10777209B1 (en) * 2017-05-01 2020-09-15 Panasonic Intellectual Property Corporation Of America Coding apparatus and coding method
WO2019105575A1 (en) * 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
KR20220024593A (ko) 2019-06-14 2022-03-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 매개변수 인코딩 및 디코딩
MX2022001150A (es) * 2019-08-01 2022-02-22 Dolby Laboratories Licensing Corp Sistemas y metodos para suavizacion de covarianza.
EP4032086A4 (en) * 2019-09-17 2023-05-10 Nokia Technologies Oy SPATIAL AUDIO PARAMETERS CODING AND ASSOCIATED DECODING
WO2022079049A2 (en) * 2020-10-13 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects or apparatus and method for decoding using two or more relevant audio objects

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1667109A4 (en) * 2003-09-17 2007-10-03 Beijing E World Technology Co METHOD AND DEVICE FOR QUANTIFYING MULTI-RESOLUTION VECTOR FOR AUDIO CODING AND DECODING
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
CN1947172B (zh) * 2004-04-05 2011-08-03 皇家飞利浦电子股份有限公司 方法、装置、编码器设备、解码器设备以及音频系统
US7756713B2 (en) * 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
RU2473062C2 (ru) * 2005-08-30 2013-01-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
CA2874454C (en) * 2006-10-16 2017-05-02 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
DE102007040117A1 (de) * 2007-08-24 2009-02-26 Robert Bosch Gmbh Verfahren und Motorsteuereinheit zur Aussetzerkennung bei einem Teilmotorbetrieb
RU2452043C2 (ru) * 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования
EP3273442B1 (en) * 2008-03-20 2021-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a parameterized representation of an audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
TWI419148B (zh) 2008-10-08 2013-12-11 Fraunhofer Ges Forschung 多解析度切換音訊編碼/解碼方案
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
KR101388901B1 (ko) * 2009-06-24 2014-04-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램
CN102171754B (zh) * 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
ES2644520T3 (es) * 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
AU2013301864B2 (en) * 2012-08-10 2016-04-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and methods for adapting audio information in spatial audio object coding
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions

Also Published As

Publication number Publication date
MX353859B (es) 2018-01-31
CN105378832B (zh) 2020-07-07
HK1222253A1 (zh) 2017-06-23
JP2016524721A (ja) 2016-08-18
MY176556A (en) 2020-08-16
US10089990B2 (en) 2018-10-02
KR101785187B1 (ko) 2017-10-12
AU2017208310C1 (en) 2021-09-16
BR112015028121B1 (pt) 2022-05-31
RU2015153218A (ru) 2017-06-14
ZA201509007B (en) 2017-11-29
CA2910506A1 (en) 2014-11-20
AU2017208310B2 (en) 2019-06-27
AU2014267408B2 (en) 2017-08-10
EP2997572A1 (en) 2016-03-23
SG11201509327XA (en) 2015-12-30
MX2015015690A (es) 2016-03-04
AU2014267408A1 (en) 2015-12-03
TWI566237B (zh) 2017-01-11
RU2646375C2 (ru) 2018-03-02
US20190013031A1 (en) 2019-01-10
WO2014184115A1 (en) 2014-11-20
AU2017208310A1 (en) 2017-10-05
TW201503112A (zh) 2015-01-16
EP2804176A1 (en) 2014-11-19
US20160064006A1 (en) 2016-03-03
JP6289613B2 (ja) 2018-03-07
CA2910506C (en) 2019-10-01
AR096257A1 (es) 2015-12-16
BR112015028121A2 (pt) 2017-07-25
EP2997572B1 (en) 2023-01-04
CN105378832A (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
KR101785187B1 (ko) 객체 특정 시간/주파수 분해능들을 이용한 혼합 신호로부터의 오디오 객체 분리
US11074920B2 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
KR20150056875A (ko) 공간 오디오 객체 코딩에서 시간/주파수 분해능의 하위 호환 가능한 동적 적응을 위한 인코더, 디코더 및 방법들
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
KR101837686B1 (ko) 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
RU2604337C2 (ru) Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant