KR20160003058A - 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩 - Google Patents

오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩 Download PDF

Info

Publication number
KR20160003058A
KR20160003058A KR1020157033447A KR20157033447A KR20160003058A KR 20160003058 A KR20160003058 A KR 20160003058A KR 1020157033447 A KR1020157033447 A KR 1020157033447A KR 20157033447 A KR20157033447 A KR 20157033447A KR 20160003058 A KR20160003058 A KR 20160003058A
Authority
KR
South Korea
Prior art keywords
audio objects
audio
downmix
metadata
downmix signals
Prior art date
Application number
KR1020157033447A
Other languages
English (en)
Other versions
KR101760248B1 (ko
Inventor
헤이코 푸른하겐
크리스토퍼 쿄어링
토니 히르보넨
라스 빌레메스
더크 예로엔 브레바트
래프 조나스 사무엘손
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20160003058A publication Critical patent/KR20160003058A/ko
Application granted granted Critical
Publication of KR101760248B1 publication Critical patent/KR101760248B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오브젝트 기반 오디오의 인코딩 및 디코딩을 위한 인코딩 및 디코딩 방법들이 제공된다. 대표적인 인코딩 방법은 그 중에서도 N개의 오디오 오브젝트들의 조합들을 형성함으로써 M개의 다운믹스 신호들을 산출하는 단계로서, M≤N인, 상기 M개의 다운믹스 신호 산출 단계, 및 상기 M개의 다운믹스 신호들로부터 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 산출하는 단계를 포함한다. 상기 M개의 다운믹스 신호들의 산출은 어떠한 라우드스피커 구성에도 무관한 기준에 따라 이루어진다.

Description

오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩{EFFICIENT CODING OF AUDIO SCENES COMPRISING AUDIO OBJECTS}
관련 출원들에 대한 상호-참조
본 출원은 2013년 5월 24일에 출원된 미국 가 특허 출원 번호 제61/827,246호, 2013년 10월 21일에 출원된 미국 가 특허 출원 번호 제61/893,770호 및 2014년 4월 1일에 출원된 미국 가 특허 출원 번호 제61/973,625호의 출원일의 이득을 주장하며, 그 각각은 여기에 전체적으로 참조로서 통합된다.
기술 분야
개시는 여기에서 일반적으로 오디오 오브젝트들을 포함한 오디오 장면의 코딩에 관한 것이다. 특히, 그것은 인코더, 디코더, 및 오디오 오브젝트들의 인코딩 및 디코딩을 위한 연관된 방법들에 관한 것이다.
오디오 장면은 일반적으로 오디오 오브젝트들 및 오디오 채널들을 포함할 수 있다. 오디오 오브젝트는 시간에 따라 변할 수 있는 연관된 공간 위치를 가진 오디오 신호이다. 오디오 채널은 3개의 전방 스피커들, 2개의 서라운드 스피커들, 및 저 주파수 효과들 스피커를 가진 소위 5.1 스피커 구성과 같은, 다채널 스피커 구성의 채널에 직접 대응하는 오디오 신호이다.
오디오 오브젝트들의 수는 통상적으로 매우 큰, 예를 들면, 약 수백 개의 오디오 오브젝트들일 수 있으므로, 오디오 오브젝트들이 디코더 측에서 효율적으로 재구성되도록 허용하는 코딩 방법들에 대한 요구가 있다. 인코더 측 상에서 오디오 오브젝트들을 다채널 다운믹스로(즉, 5.1 구성과 같은 특정한 다채널 스피커 구성의 채널들에 대응하는 복수의 오디오 채널들로) 조합하며, 디코더 측 상에서 다채널 다운믹스로부터 파라미터에 의해 오디오 오브젝트들을 재구성하기 위한 제안들이 있어 왔다.
이러한 접근법의 이점은 오디오 오브젝트 재구성을 지원하지 않는 레거시 디코더가 다채널 스피커 구성상에서의 재생을 위해 다채널 다운믹스를 직접 사용할 수 있다는 것이다. 예로서, 5.1 다운믹스는 5.1 구성의 라우드스피커들 상에서 직접 플레이될 수 있다.
그러나 이러한 접근법이 가진 단점은 다채널 다운믹스가 디코더 측에서 오디오 오브젝트들의 충분히 양호한 재구성을 제공하지 않을 수 있다는 것이다. 예를 들면, 5.1 구성의 좌측 전방 스피커와 동일한 수평 위치지만 상이한 수직 위치를 가진 두 개의 오디오 오브젝트들을 고려하자. 이들 오디오 오브젝트들은 통상적으로 5.1 다운믹스의 동일한 채널로 조합될 것이다. 이것은 완전한 재구성을 보장할 수 없으며 때때로 심지어 가청 아티팩트들을 야기하는 프로세스인, 동일한 다운믹스 채널로부터 두 개의 오디오 오브젝트들의 근사들을 재구성해야 할 오디오 오브젝트 재구성을 위한 도전적 상황을 디코더 측에서 구성할 것이다.
따라서 오디오 오브젝트들의 효율적이며 개선된 재구성을 제공하는 인코딩/디코딩 방법들에 대한 요구가 있다.
사이드 정보 또는 메타데이터는 종종 예로서, 다운믹스로부터의 오디오 오브젝트들의 재구성 동안 이용된다. 이러한 사이드 정보의 형태 및 콘텐트는 예를 들면, 재구성된 오디오 오브젝트들의 충실도 및/또는 재구성을 수행하는 계산 복잡도에 영향을 미칠 수 있다. 그러므로, 재구성된 오디오 오브젝트들의 충실도를 증가시키는 것을 가능하게 하며, 및/또는 재구성의 계산 복잡도를 감소시키는 것을 가능하게 하는 새로우며 대안적인 사이드 정보 포맷을 가진 인코딩/디코딩 방법들을 제공하는 것이 바람직할 것이다.
본 발명에 따른 인코딩/디코딩 방법은 오디오 오브젝트들의 효율적이며 개선된 재구성을 가능하게 하고, 및/또는 재구성된 오디오 오브젝트들의 충실도를 증가시키는 것을 가능하게 하며, 및/또는 재구성의 계산 복잡도를 감소시키는 것을 가능하게 한다.
예시적인 실시예들이 이제 첨부한 도면들을 참조하여 설명될 것이다.
도 1은 대표적인 실시예들에 따른 인코더의 개략적 예시이다.
도 2는 대표적인 실시예들에 따른 오디오 오브젝트들의 재구성을 지원하는 디코더의 개략적 예시이다.
도 3은 대표적인 실시예들에 따른 오디오 오브젝트들의 재구성을 지원하지 않는 저-복잡도 디코더의 개략적 예시이다.
도 4는 대표적인 실시예들에 따른 오디오 장면의 간소화를 위해 순차적으로 배열된 클러스터링 구성요소를 포함하는 인코더의 개략적 예시이다.
도 5는 대표적인 실시예들에 따른 오디오 장면의 간소화를 위해 병렬로 배열된 클러스터링 구성요소를 포함하는 인코더의 개략적 예시이다.
도 6은 메타데이터 인스턴스들의 세트에 대한 렌더링 매트릭스를 계산하기 위해 통상적인 알려진 프로세스를 예시한다.
도 7은 오디오 신호들의 렌더링시 이용된 계수 곡선의 도출을 예시한다.
도 8은 예시적인 실시예에 따른, 메타데이터 인스턴스 보간 방법을 예시한다.
도 9 및 도 10은 예시적인 실시예들에 따라, 부가적인 메타데이터 인스턴스들의 도입의 예들을 예시한다.
도 11은 예시적인 실시예에 따라, 저역-통과 필터를 가진 샘플-및-유지 회로를 사용한 보간 방법을 예시한다.
모든 도면들은 개략적이며 일반적으로 단지 개시를 설명하기 위해 필요한 부분들만을 도시하는 반면, 다른 부분들은 생략되거나 또는 단지 제안될 수 있다. 달리 표시되지 않는다면, 유사한 참조 부호들은 상이한 도면들에서 유사한 부분들을 나타낸다.
상기를 고려하여, 따라서 오디오 오브젝트들의 효율적이며 개선된 재구성을 가능하게 하고, 및/또는 재구성된 오디오 오브젝트들의 충실도를 증가시키는 것을 가능하게 하며, 및/또는 재구성의 계산 복잡도를 감소시키는 것을 가능하게 하는 인코더, 디코더 및 연관된 방법들을 제공하는 것이 목적이다.
I. 개요 - 인코더
제 1 양상에 따르면, 인코딩 방법, 인코더, 및 오디오 오브젝트들을 인코딩하기 위한 컴퓨터 프로그램 제품이 제공되고 있다.
대표적인 실시예들에 따르면, 오디오 오브젝트들을 데이터 스트림으로 인코딩하기 위한 방법이 제공되고 있으며, 상기 방법은:
N개의 오디오 오브젝트들을 수신하는 단계로서, N>1인, 상기 수신 단계;
어떠한 라우드스피커 구성에도 무관한 기준에 따라 N개의 오디오 오브젝트들의 조합들을 형성함으로써 M개의 다운믹스 신호들을 산출하는 단계로서, M≤N인, 상기 M개의 다운믹스 신호들 산출 단계;
상기 M개의 다운믹스 신호들로부터 상기 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 사이드 정보를 산출하는 단계; 및
디코더로의 송신을 위해 데이터 스트림에 상기 M개의 다운믹스 신호들 및 상기 사이드 정보를 포함시키는 단계를 포함한다.
상기 배열을 갖고, 상기 M개의 다운믹스 신호들은 따라서 임의의 라우드스피커 구성과 관계없이 N개의 오디오 오브젝트들로부터 형성된다. 이것은 M개의 다운믹스 신호들이 M개의 채널들을 가진 스피커 구성의 채널들 상에서의 재생에 적절한 오디오 신호들에 제한되지 않음을 의미한다. 대신에, M개의 다운믹스 신호들은 그것들이 예를 들면 N개의 오디오 오브젝트들의 역학들에 적응하며 디코더 측에서 상기 오디오 오브젝트들의 재구성을 개선하도록 하는 기준에 따라 보다 자유롭게 선택될 수 있다.
5.1 구성의 좌측 전방 스피커와 동일한 수평 위치이지만 상이한 수직 위치를 갖는 두 개의 오디오 오브젝트들을 가진 예로 가면, 제안된 방법은 제 1 다운믹스 신호에 제 1 오디오 오브젝트를, 및 제 2 다운믹스 신호에 제 2 오디오 오브젝트를 넣는 것을 가능하게 한다. 이것은 디코더에서 오디오 오브젝트들의 완전한 재구성을 가능하게 한다. 일반적으로, 이러한 완전한 재구성은 활성 오디오 오브젝트들의 수가 다운믹스 신호들의 수를 초과하지 않는 한 가능하다. 활성 오디오 오브젝트들의 수가 더 높다면, 제안된 방법은 디코더에서의 재구성된 오디오 오브젝트에서 발생한 가능한 근사 에러들이 재구성된 오디오 장면에 대한 최소 가능한 지각적 영향을 갖거나 또는 없도록 동일한 다운믹스 신호로 믹싱되어야 하는 오디오 오브젝트들의 선택을 가능하게 한다.
적응적인 M개의 다운믹스 신호들의 제 2 이점은 다른 오디오 오브젝트들로부터 엄격하게 분리된 특정한 오디오 오브젝트들을 유지하기 위한 능력이다. 예를 들면, 다이얼로그가 공간 속성들에 대하여 정확하게 렌더링됨을 보장하기 위해, 배경 오브젝트들로부터 분리된 임의의 다이얼로그 오브젝트를 유지하는 것이 유리할 수 있으며, 개선된 이해도를 위한 다이얼로그 라우드니스의 증가 또는 다이얼로그 강화와 같은, 디코더에서의 오브젝트 프로세싱을 가능하게 한다. 다른 애플리케이션들(예로서, 가라오케)에서, 이러한 오브젝트들이 다른 오브젝트들과 믹싱되지 않도록 또한 요구하는, 하나 이상의 오브젝트들의 완전한 음소거를 허용하는 것이 유리할 수 있다. 특정 스피커 구성에 대응하는 다채널 다운믹스를 사용한 종래의 방법들은 다른 오디오 오브젝트들의 믹스에 존재하는 오디오 오브젝트들의 완전한 음소거를 허용하지 않는다.
단어(다운믹스 신호)는 다운믹스 신호가 다른 신호들의 믹스, 즉 조합임을 반영한다. 단어("다운")는 수 M의 다운믹스 신호들이 통상적으로 수 N의 오디오 오브젝트들보다 낮음을 표시한다.
대표적인 실시예들에 따르면, 방법은 공간 위치와 각각의 다운믹스 신호를 연관시키는 단계 및 상기 다운믹스 신호들에 대한 메타데이터로서 상기 데이터 스트림에 상기 다운믹스 신호들의 공간 위치들을 포함시키는 단계를 더 포함할 수 있다. 이것은 그것이 레거시 재생 시스템의 경우에 사용될 저-복잡도 디코딩을 가능하게 한다는 점에서 유리하다. 보다 정확하게, 다운믹스 신호들과 연관된 메타데이터는 레거시 재생 시스템의 채널들에 대한 다운믹스 신호들을 렌더링하기 위해 디코더 측 상에서 사용될 수 있다.
대표적인 실시예들에 따르면, N개의 오디오 오브젝트들은 N개의 오디오 오브젝트들의 공간 위치들을 포함한 메타데이터와 연관되며, 상기 다운믹스 신호들과 연관된 공간 위치들은 N개의 오디오 오브젝트들의 공간 위치들에 기초하여 산출된다. 따라서, 다운믹스 신호들은 N개의 오디오 오브젝트들의 공간 위치들에 의존하는 공간 위치를 가진 오디오 오브젝트들로서 해석될 수 있다.
뿐만 아니라, N개의 오디오 오브젝트들의 공간 위치들 및 M개의 다운믹스 신호들과 연관된 공간 위치들은 시변적일 수 있으며, 즉 그것들은 오디오 데이터의 시간 프레임들 사이에서 변할 수 있다. 다시 말해서, 다운믹스 신호들은 시간 프레임들 사이에서 변하는 연관된 위치를 가진 동적 오디오 오브젝트들로서 해석될 수 있다. 이것은 다운믹스 신호들이 고정된 공간 라우드스피커 위치들에 대응하는 종래 기술의 시스템들과 대조적이다.
통상적으로, 사이드 정보는 또한 시변적이며 그에 의해 오디오 오브젝트들의 재구성을 통제하는 파라미터들이 시간적으로 달라지는 것을 가능하게 한다.
인코더는 다운믹스 신호들의 산출을 위해 상이한 기준들을 적용할 수 있다. N개의 오디오 오브젝트들이 N개의 오디오 오브젝트들의 공간 위치들을 포함한 메타데이터와 연관되는 대표적인 실시예들에 따르면, M개의 다운믹스 신호들을 산출하기 위한 기준은 N개의 오디오 오브젝트들의 공간 근접성에 기초할 수 있다. 예를 들면, 서로에 가까운 오디오 오브젝트들은 동일한 다운믹스 신호로 조합될 수 있다.
N개의 오디오 오브젝트들과 연관된 메타데이터가 서로에 관하여 N개의 오디오 오브젝트들의 중요도를 표시한 중요도 값들을 더 포함하는 대표적인 실시예들에 따르면, M개의 다운믹스 신호들을 산출하기 위한 기준들은 N개의 오디오 오브젝트들의 중요도 값들에 추가로 기초할 수 있다. 예를 들면, N개의 오디오 오브젝트들의 가장 중요한 것(들)은 다운믹스 신호에 직접 매핑될 수 있는 반면, 나머지 오디오 오브젝트들은 나머지 다운믹스 신호들을 형성하기 위해 조합된다.
특히, 대표적인 실시예들에 따르면, M개의 다운믹스 신호들을 산출하는 단계는 적용 가능하다면, N개의 오디오 오브젝트들의 공간 근접성 및 중요도 값들에 기초하여 M개의 클러스터들과 N개의 오디오 오브젝트들을 연관시키는 것, 및 상기 클러스터와 연관된 오디오 오브젝트들의 조합을 형성함으로써 각각의 클러스터에 대한 다운믹스 신호를 산출하는 것을 포함하는 제 1 클러스터링 절차(clustering procedure)를 포함한다. 몇몇 경우들에서, 오디오 오브젝트는 최대 하나의 클러스터의 부분을 형성할 수 있다. 다른 경우들에서, 오디오 오브젝트는 여러 개의 클러스터들의 부분을 형성할 수 있다. 이러한 식으로, 상이한 그룹들, 즉 클러스터들은 오디오 오브젝트들로부터 형성된다. 각각의 클러스터는 결과적으로 오디오 오브젝트로서 생각되어질 수 있는 다운믹스 신호에 의해 나타내어질 수 있다. 클러스터링 접근법은 다운믹스 신호에 대응하는 클러스터와 연관된 오디오 오브젝트들의 공간 위치들에 기초하여 산출되는 공간 위치와 각각의 다운믹스 신호를 연관시키는 것을 가능하게 한다. 이러한 해석을 갖고, 제 1 클러스터링 절차는 따라서 유연한 방식으로 N개의 오디오 오브젝트들의 치수를 M개의 오디오 오브젝트들로 감소시킨다.
각각의 다운믹스 신호와 연관된 공간 위치는 예를 들면 다운믹스 신호에 대응하는 클러스터와 연관된 오디오 오브젝트들의 공간 위치들의 중심 또는 가중된 중심으로서 산출될 수 있다. 가중들은 예를 들면 오디오 오브젝트들의 중요도 값들에 기초할 수 있다.
대표적인 실시예들에 따르면, N개의 오디오 오브젝트들은 입력으로서 N개의 오디오 오브젝트들의 공간 위치들을 가진 K-평균 알고리즘을 적용함으로써 M개의 클러스터들과 연관된다.
오디오 장면이 엄청난 수의 오디오 오브젝트들을 포함할 수 있으므로, 방법은 오디오 장면의 규모를 감소시키기 위한 추가 조치들을 취할 수 있으며, 그에 의해 오디오 오브젝트들을 재구성할 때 디코더 측에서 계산 복잡도를 감소시킨다. 특히, 방법은 제 1 복수의 오디오 오브젝트들을 제 2 복수의 오디오 오브젝트들로 감소시키기 위한 제 2 클러스터링 절차를 더 포함할 수 있다.
일 실시예에 따르면, 제 2 클러스터링 절차는 M개의 다운믹스 신호들의 산출 이전에 수행된다. 상기 실시예에서, 제 1 복수의 오디오 오브젝트들은 그러므로 오디오 장면의 원래 오디오 오브젝트들에 대응하며, 제 2, 감소된, 복수의 오디오 오브젝트들은 그것에 기초하여 M개의 다운믹스 신호들이 산출되는 N개의 오디오 오브젝트들에 대응한다. 게다가, 이러한 실시예에서, N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트(디코더에서 재구성될)는 N개의 오디오 오브젝트들에 대응하며, 즉 그것과 같다.
또 다른 실시예에 따르면, 제 2 클러스터링 절차는 M개의 다운믹스 신호들의 산출과 동시에 수행된다. 이러한 실시예에서, 제 2 클러스터링 절차로 입력되는 제 1 복수의 오디오 오브젝트들뿐만 아니라 그것에 기초하여 M개의 다운믹스 신호들이 산출되는 N개의 오디오 오브젝트들은 오디오 장면의 원래 오디오 오브젝트들에 대응한다. 게다가, 이러한 실시예에서, N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트(디코더에서 재구성될)는 제 2 복수의 오디오 오브젝트들에 대응한다. 이러한 접근법을 갖고, M개의 다운믹스 신호들은 그러므로 오디오 장면의 원래 오디오 오브젝트들에 기초하여 및 감소된 수의 오디오 오브젝트들에 기초하지 않고 산출된다.
대표적인 실시예들에 따르면, 제 2 클러스터링 절차는:
상기 제 1 복수의 오디오 오브젝트들 및 그것들의 연관된 공간 위치들을 수신하는 단계,
상기 제 1 복수의 오디오 오브젝트들의 공간 근접성에 기초하여 적어도 하나의 클러스터와 상기 제 1 복수의 오디오 오브젝트들을 연관시키는 단계,
상기 클러스터와 연관된 상기 오디오 오브젝트들의 조합인 오디오 오브젝트에 의해 상기 적어도 하나의 클러스터의 각각을 표현함으로써 상기 제 2 복수의 오디오 오브젝트들을 생성하는 단계,
상기 제 2 복수의 오디오 오브젝트들에 대한 공간 위치들을 포함한 메타데이터를 산출하는 단계로서, 상기 제 2 복수의 오디오 오브젝트들의 각각의 오디오 오브젝트의 상기 공간 위치가 대응하는 클러스터와 연관된 상기 오디오 오브젝트들의 공간 위치들에 기초하여 산출되는, 상기 산출 단계; 및
상기 데이터 스트림에 상기 제 2 복수의 오디오 오브젝트들에 대한 상기 메타데이터를 포함시키는 단계를 포함한다.
다시 말해서, 상기 제 2 클러스터링 절차는 동일하거나 또는 매우 유사한 위치들을 가진 오브젝트들과 같은, 오디오 장면에 존재하는 공간 리던던시를 이용한다. 또한, 오디오 오브젝트들의 중요도 값들은 제 2 복수의 오디오 오브젝트들을 생성할 때 고려될 수 있다.
상기 언급된 바와 같이, 오디오 장면은 또한 오디오 채널들을 포함할 수 있다. 이러한 오디오 채널들은 정적 위치, 즉, 오디오 채널에 대응하는 라우드스피커의 위치와 연관되는 오디오 오브젝트로서 여겨질 수 있다. 보다 상세히, 제 2 클러스터링 절차는:
적어도 하나의 오디오 채널을 수신하는 단계;
상기 적어도 하나의 오디오 채널의 각각을 상기 오디오 채널의 라우드스피커 위치에 대응하는 정적 공간 위치를 가진 오디오 오브젝트로 변환하는 단계; 및
상기 제 1 복수의 오디오 오브젝트들에 상기 변환된 적어도 하나의 오디오 채널을 포함시키는 단계를 더 포함한다.
이러한 식으로, 상기 방법은 오디오 오브젝트들뿐만 아니라 오디오 채널들을 포함한 오디오 장면의 인코딩을 가능하게 한다.
대표적인 실시예들에 따르면, 대표적인 실시예들에 따른 디코딩 방법을 수행하기 위한 지시들을 가진 컴퓨터-판독 가능한 매체를 포함한 컴퓨터 프로그램 제품이 제공되고 있다.
대표적인 실시예들에 따르면, 오디오 오브젝트들을 데이터 스트림으로 인코딩하기 위한 인코더가 제공되고 있으며, 상기 인코더는:
N개의 오디오 오브젝트들을 수신하도록 구성된 수신 구성요소로서, N>1인, 상기 수신 구성요소,
어떠한 라우드스피커 구성에도 무관한 기준에 따라 N개의 오디오 오브젝트들의 조합들을 형성함으로써, M개의 다운믹스 신호들을 산출하도록 구성된 다운믹스 구성요소로서, M≤N인, 상기 다운믹스 구성요소;
상기 M개의 다운믹스 신호들로부터 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 사이드 정보를 산출하도록 구성된 분석 구성요소; 및
디코더로의 송신을 위한 데이터 스트림에 상기 M개의 다운믹스 신호들 및 상기 사이드 정보를 포함시키도록 구성된 다중화 구성요소를 포함한다.
II. 개요 - 디코더
제 2 양상에 따르면, 다채널 오디오 콘텐트를 디코딩하기 위한 디코딩 방법, 디코더, 및 컴퓨터 프로그램 제품이 제공되고 있다.
제 2 양상은 일반적으로 제 1 양상과 동일한 특징들 및 이점들을 가질 수 있다.
대표적인 실시예들에 따르면, 인코딩된 오디오 오브젝트들을 포함한 데이터 스트림을 디코딩하기 위한 디코더에서의 방법이 제공되고 있으며, 상기 방법은:
어떠한 라우드스피커 구성에도 무관한 기준에 따라 산출된 N개의 오디오 오브젝트들의 조합들인 M개의 다운믹스 신호들로서, M≤N인, 상기 M개의 다운믹스 신호들, 및 상기 M개의 다운믹스 신호들로부터 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 사이드 정보를 포함한 데이터 스트림을 수신하는 단계; 및
상기 M개의 다운믹스 신호들 및 상기 사이드 정보로부터 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하는 단계를 포함한다.
대표적인 실시예들에 따르면, 데이터 스트림은 M개의 다운믹스 신호들과 연관된 공간 위치들을 포함한 M개의 다운믹스 신호들에 대한 메타데이터를 더 포함하며, 상기 방법은:
상기 디코더가 오디오 오브젝트 재구성을 지원하도록 구성되는 조건에서, 상기 M개의 다운믹스 신호들 및 상기 사이드 정보로부터 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하는 단계를 수행하는 단계; 및
상기 디코더가 오디오 오브젝트 재구성을 지원하도록 구성되지 않은 조건에서, 재생 시스템의 출력 채널들에 대한 M개의 다운믹스 신호들의 렌더링을 위해 상기 M개의 다운믹스 신호들에 대한 메타데이터를 사용하는 단계를 더 포함한다.
대표적인 실시예들에 따르면, 상기 M개의 다운믹스 신호들과 연관된 상기 공간 위치들은 시변적이다.
대표적인 실시예들에 따르면, 상기 사이드 정보는 시변적이다.
대표적인 실시예들에 따르면, 상기 데이터 스트림은 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트의 공간 위치들을 포함한 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트에 대한 메타데이터를 더 포함하며, 상기 방법은:
재생 시스템의 출력 채널들로의 N개의 오디오 오브젝트들에 기초하여 형성된 상기 재구성된 세트의 오디오 오브젝트들의 렌더링을 위해 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트에 대한 메타데이터를 사용하는 단계를 더 포함한다.
대표적인 실시예들에 따르면, 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트는 상기 N개의 오디오 오브젝트들과 동일하다.
대표적인 실시예들에 따르면, 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트는 N개의 오디오 오브젝트들의 조합들인 복수의 오디오 오브젝트들을 포함하며, 그 수는 N보다 작다.
대표적인 실시예들에 따르면, 대표적인 실시예들에 따른 디코딩 방법을 수행하기 위한 지시들을 가진 컴퓨터-판독 가능한 매체를 포함한 컴퓨터 프로그램 제품이 제공되고 있다.
대표적인 실시예들에 따르면, 인코딩된 오디오 오브젝트들을 포함한 데이터 스트림을 디코딩하기 위한 디코더가 제공되고 있으며, 상기 디코더는:
어떠한 라우드스피커 구성에도 무관한 기준에 따라 산출된 N개의 오디오 오브젝트들의 조합들인 M개의 다운믹스 신호들로서, M≤N인, 상기 M개의 다운믹스 신호들, 및 상기 M개의 다운믹스 신호들로부터 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 사이드 정보를 포함한 데이터 스트림을 수신하도록 구성된 수신 구성요소; 및
상기 M개의 다운믹스 신호들 및 상기 사이드 정보로부터 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하도록 구성된 재구성 구성요소를 포함한다.
III. 개요 - 사이드 정보 및 메타데이터에 대한 포맷
제 3 양상에 따르면, 오디오 오브젝트들을 인코딩하기 위한 인코딩 방법, 인코더, 및 컴퓨터 프로그램 제품이 제공되고 있다.
제 3 양상에 따른 상기 방법들, 인코더들 및 컴퓨터 프로그램 제품들은 일반적으로 제 1 양상에 따른 방법들, 인코더들 및 컴퓨터 프로그램 제품들과 공통인 특징들 및 이점들을 가질 수 있다.
예시적인 실시예들에 따르면, 데이터 스트림으로서 오디오 오브젝트들을 인코딩하기 위한 방법이 제공되고 있다. 상기 방법은:
N개의 오디오 오브젝트들을 수신하는 단계로서, N>1인, 상기 수신 단계;
상기 N개의 오디오 오브젝트들의 조합들을 형성함으로써 M개의 다운믹스 신호들을 산출하는 단계로서, M≤N인, 상기 M개의 다운믹스 신호들 산출 단계;
상기 M개의 다운믹스 신호들로부터 상기 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 시변 사이드 정보(time-variable side information)를 산출하는 단계; 및
디코더로의 송신을 위한 데이터 스트림에 상기 M개의 다운믹스 신호들 및 상기 사이드 정보를 포함시키는 단계를 포함한다.
현재의 예시적인 실시예들에서, 상기 방법은, 상기 데이터 스트림에:
상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하기 위한 각각의 원하는 재구성 설정들을 특정하는 복수의 사이드 정보 인스턴스들(instances); 및
각각의 사이드 정보 인스턴스에 대해, 현재 재구성 설정으로부터 상기 사이드 정보 인스턴스에 의해 특정된 상기 원하는 재구성 설정으로의 전이를 시작하기 위해 시점(point in time), 및 상기 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 포함시키는 단계를 더 포함한다.
현재 예시적인 실시예에서, 상기 사이드 정보는 시간-변화, 예로서 시변적이어서, 오디오 오브젝트들의 재구성을 통제하는 파라미터들이 사이드 정보 인스턴스들의 존재에 의해 반영되는, 시간에 대하여 달라지는 것을 가능하게 한다. 현재 재구성 설정들에서 각각의 원하는 재구성 설정들로의 전이들을 시작하기 위한 시점들 및 완료하기 위한 시점들을 정의한 전이 데이터를 포함하는 사이드 정보 포맷을 이용함으로써, 사이드 정보 인스턴스들은 보간이 현재 재구성 설정 및 단일 사이드 정보 인스턴스에 의해 특정된 단일의 원하는 재구성 설정에 기초하여 수행될 수 있다는 점에서 서로에 더 독립적으로, 즉 임의의 다른 사이드 정보 인스턴스들의 지식 없이 이루어진다. 그러므로 제공된 사이드 정보 포맷은 기존의 사이드 정보 인스턴스들 사이에서의 부가적인 사이드 정보 인스턴스들의 산출/도입을 용이하게 한다. 특히, 제공된 사이드 정보 포맷은 재생 품질에 영향을 주지 않고 부가적인 사이드 정보 인스턴스들의 산출/도입을 가능하게 한다. 본 개시에서, 기존의 사이드 정보 인스턴스들 사이에서 새로운 사이드 정보 인스턴스들을 산출/도입하는 프로세스는 사이드 정보의 "재샘플링"으로서 불리운다. 사이드 정보의 재샘플링은 종종 특정한 오디오 프로세싱 태스크들 동안 요구된다. 예를 들면, 오디오 콘텐트가 예로서, 절단/병합/믹싱에 의해 편집될 때, 이러한 편집들은 사이드 정보 인스턴스들 사이에서 발생할 수 있다. 이 경우에, 사이드 정보의 재샘플링이 요구될 수 있다. 또 다른 이러한 경우는 오디오 신호들 및 연관된 사이드 정보가 프레임-기반 오디오 코덱을 갖고 인코딩될 때이다. 이 경우에, 송신 동안 프레임 손실들의 회복력을 개선하기 위해, 바람직하게는, 상기 코덱 프레임의 시작에서의 시간 스탬프를 갖고, 각각의 오디오 코덱 프레임에 대한 적어도 하나의 사이드 정보 인스턴스를 갖는 것이 바람직하다. 예를 들면, 오디오 신호들/오브젝트들은 비디오 콘텐트를 포함하는 오디오-비주얼 신호 또는 멀티미디어 신호의 일부일 수 있다. 이러한 애플리케이션들에서, 비디오 콘텐트의 프레임 레이트를 매칭시키기 위해 오디오 콘텐트의 프레임 레이트를 변경하는 것이 바람직할 수 있으며, 그에 의해 사이드 정보의 대응하는 재샘플링이 바람직할 수 있다.
다운믹스 신호 및 사이드 정보가 포함되는 데이터 스트림은 예를 들면 비트스트림, 특히 저장된 또는 송신된 비트스트림일 수 있다.
N개의 오디오 오브젝트들의 조합들을 형성함으로써 M개의 다운믹스 신호들을 산출하는 것은 M개의 다운믹스 신호들의 각각이 N개의 오디오 오브젝트들 중 하나 이상의 오디오 콘텐트의 조합, 예로서 선형 조합을 형성함으로써 획득됨을 의미한다는 것이 이해될 것이다. 다시 말해서, N개의 오디오 오브젝트들의 각각은 M개의 다운믹스 신호들의 각각에 반드시 기여할 필요는 없다.
단어(다운믹스 신호)는 다운믹스 신호가 다른 신호들의 믹스, 즉 조합임을 반영한다. 다운믹스 신호는 예를 들면, 다른 신호들의 부가적인 믹스일 수 있다. 단어("다운")는 수 M의 다운믹스 신호들이 통상적으로 수 N의 오디오 오브젝트들보다 낮음을 표시한다.
다운믹스 신호들은 예를 들면, 제 1 양상 내에서의 예시적인 실시예들 중 임의의 것에 따라, 어떠한 라우드스피커 구성에도 무관한 기준에 따라 N개의 오디오 신호들의 조합들을 형성함으로써 산출될 수 있다. 대안적으로, 다운믹스 신호들은 예를 들면, 다운믹스 신호들이 여기에서 역 호환 가능한 다운믹스로서 불리우는, M개의 채널들을 가진 스피커 구성의 채널들 상에서의 재생에 적합하도록 N개의 오디오 신호들의 조합들을 형성함으로써 산출될 수 있다.
두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터에 의해, 두 개의 부분들이 상호 독립적으로 할당 가능한, 즉 서로와 관계없이 할당될 수 있음이 의도된다. 그러나, 전이 데이터의 부분들은 예를 들면 메타데이터의 다른 유형들의 사이드 정보에 대한 전이 데이터의 부분들과 일치할 수 있다는 것이 이해될 것이다.
현재 예시적인 실시예에서, 전이 데이터의 두 개의 독립적으로 할당 가능한 부분들은, 조합하여, 전이를 시작하기 위한 시점 및 전이를 완료하기 위한 시점을 정의하며, 즉 이들 두 개의 시점들은 전이 데이터의 두 개의 독립적으로 할당 가능한 부분들로부터 도출 가능하다.
예시적인 실시예에 따르면, 방법은 제 1 복수의 오디오 오브젝트들을 제 2 복수의 오디오 오브젝트들로 감소시키기 위한 클러스터링 절차를 더 포함할 수 있으며, 여기에서 N개의 오디오 오브젝트들은 제 1 복수의 오디오 오브젝트들 또는 제 2 복수의 오디오 오브젝트들을 구성하며, N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트는 제 2 복수의 오디오 오브젝트들과 일치한다. 현재 예시적인 실시예에서, 클러스터링 절차는:
상기 제 2 복수의 오디오 오브젝트들에 대한 공간 위치들을 포함한 시변 클러스터 메타데이터를 산출하는 단계; 및
디코더로의 송신을 위해, 데이터 스트림에:
제 2 세트의 오디오 오브젝트들을 렌더링하기 위한 각각의 원하는 렌더링 설정들을 특정한 복수의 클러스터 메타데이터; 및
각각의 클러스터 메타데이터 인스턴스에 대해, 현재 렌더링 설정으로부터 상기 클러스터 메타데이터 인스턴스에 의해 특정된 원하는 렌더링 설정으로의 전이를 시작하기 위한 시점, 및 상기 클러스터 메타데이터 인스턴스에 의해 특정된 원하는 렌더링 설정으로의 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 추가로 포함시키는 단계를 포함한다.
오디오 장면은 엄청난 수의 오디오 오브젝트들을 포함할 수 있으므로, 현재의 예시적인 실시예에 따른 방법은 제 1 복수의 오디오 오브젝트들을 제 2 복수의 오디오 오브젝트들로 감소시킴으로써 오디오 장면의 차원수를 감소시키기 위한 추가 조치들을 취한다. 현재의 예시적인 실시예에서, N개의 오디오 오브젝트들에 기초하여 형성되며 다운믹스 신호들 및 사이드 정보에 기초하여 디코더 측 상에서 재구성되는 오디오 오브젝트들의 세트는 제 1 복수의 오디오 신호들에 의해 표현된 오디오 장면의 간소화 및/또는 하위-차원 표현에 대응하는 제 2 복수의 오디오 오브젝트들과 일치하며, 디코더 측 상에서의 재구성에 대한 계산 복잡도는 감소된다.
데이터 스트림에서 클러스터 메타데이터의 포함은 예로서, 제 2 세트의 오디오 신호들이 다운믹스 신호들 및 사이드 정보에 기초하여 재구성된 후, 디코더 측 상에서 제 2 세트의 오디오 신호들의 렌더링을 가능하게 한다.
사이드 정보와 유사하게, 현재의 예시적인 실시예에서 클러스터 메타데이터는 시간 변화, 예로서 시변적이어서, 제 2 복수의 오디오 오브젝트들의 렌더링을 통제하는 파라미터들이 시간에 대하여 달라지는 것을 가능하게 한다. 다운믹스 메타데이터에 대한 포맷은 사이드 형성의 것과 유사할 수 있으며 동일하거나 또는 대응하는 이점들을 가질 수 있다. 특히, 현재의 예시적인 실시예에 제공된 클러스터 메타데이터의 형태는 클러스터 메타데이터의 재샘플링을 용이하게 한다. 클러스터 메타데이터의 재샘플링은 예를 들면, 클러스터 메타데이터 및 사이드 정보와 연관된 각각의 전이들을 시작하며 완료하기 위한 공통 시점들을 제공하기 위해 및/또는 연관된 오디오 신호들의 프레임 레이트로 클러스터 메타데이터를 조정하기 위해 이용될 수 있다.
예시적인 실시예에 따르면, 클러스터링 절차는:
제 1 복수의 오디오 오브젝트들 및 그것들의 연관된 공간 위치들을 수신하는 단계;
상기 제 1 복수의 오디오 오브젝트들의 공간 근접성에 기초하여 적어도 하나의 클러스터와 상기 제 1 복수의 오디오 오브젝트들을 연관시키는 단계;
상기 클러스터와 연관된 상기 오디오 오브젝트들의 조합인 오디오 오브젝트에 의해 상기 적어도 하나의 클러스터의 각각을 표현함으로써 상기 제 2 복수의 오디오 오브젝트들을 생성하는 단계; 및
각각의 클러스터와, 즉 상기 오디오 오브젝트가 표현하는 클러스터와 연관된 상기 오디오 오브젝트들의 공간 위치들에 기초하여 상기 제 2 복수의 오디오 오브젝트들의 각각의 오디오 오브젝트의 공간 위치를 산출하는 단계를 더 포함할 수 있다.
다시 말해서, 클러스터링 절차는 동일한 또는 매우 유사한 위치들을 가진 오브젝트들과 같은, 오디오 장면에 존재하는 공간 리던던시를 이용한다. 또한, 오디오 오브젝트들의 중요도 값들은, 제 1 양상 내에서의 예시적인 실시예들에 대하여 설명된 바와 같이 제 2 복수의 오디오 오브젝트들을 생성할 때 고려될 수 있다.
적어도 하나의 클러스터와 제 1 복수의 오디오 오브젝트들을 연관시키는 것은 상기 적어도 하나의 클러스터 중 하나 이상과 상기 제 1 복수의 오디오 오브젝트들의 각각을 연관시키는 것을 포함한다. 몇몇 경우들에서, 오디오 오브젝트는 최대 하나의 클러스터의 부분을 형성할 수 있는 반면, 다른 경우들에서, 오디오 오브젝트는 여러 개의 클러스터들의 부분을 형성할 수 있다. 다시 말해서, 몇몇 경우들에서, 오디오 오브젝트는 클러스터링 절차의 부분으로서 여러 개의 클러스터들 사이에서 분리될 수 있다.
상기 제 1 복수의 오디오 오브젝트들의 공간 근접성은 제 1 복수의 오디오 오브젝트들에서 각각의 오디오 오브젝트들 사이에서의 거리들, 및/또는 그것의 상대적 위치들에 관련될 수 있다. 예를 들면, 서로에 가까운 오디오 오브젝트들은 동일한 클러스터와 연관될 수 있다.
클러스터와 연관된 오디오 오브젝트들의 조합인 오디오 오브젝트에 의해, 오디오 오브젝트와 연관된 오디오 콘텐트/신호가 클러스터와 연관된 각각의 오디오 오브젝트들과 연관된 오디오 콘텐트들/신호들의 조합으로서 형성될 수 있다는 것이 의도된다.
예시적인 실시예에 따르면, 각각의 클러스터 메타데이터 인스턴스들에 대해 전이 데이터에 의해 정의된 각각의 시점들은 대응하는 사이드 정보 인스턴스들에 대해 전이 데이터에 의해 정의된 각각의 시점들과 일치할 수 있다.
사이드 정보 및 클러스터 메타데이터와 연관된 전이들을 시작하며 완료하기 위해 동일한 시점들을 이용함으로써, 공동 재샘플링과 같은 사이드 정보 및 클러스터 메타데이터의 공동 프로세싱이 용이하게 된다.
게다가, 사이드 정보 및 클러스터 메타데이터와 연관된 전이들을 시작하며 완료하기 위한 공통 시점들의 사용은 디코더 측에서 공동 재구성 및 렌더링을 용이하게 한다. 예를 들면, 재구성 및 렌더링이 디코더 측 상에서 공동 동작으로서 수행된다면, 재구성 및 렌더링에 대한 공동 설정들은 각각의 사이드 정보 인스턴스 및 메타데이터 인스턴스에 대해 결정될 수 있으며 및/또는 재구성 및 렌더링에 대한 공동 설정들 사이에서의 보간은 각각의 설정들에 대해 별개로 보간을 수행하는 대신에 이용될 수 있다. 이러한 공동 보간은 보다 적은 계수들/파라미터들이 보간될 필요가 있기 때문에 디코더 측에서 계산 복잡도를 감소시킬 수 있다.
예시적인 실시예에 따르면, 클러스터링 절차는 M개의 다운믹스 신호들의 산출 이전에 수행될 수 있다. 현재의 예시적인 실시예에서, 제 1 복수의 오디오 오브젝트들은 오디오 장면의 원래 오디오 오브젝트들에 대응하며, 그것에 기초하여 M개의 다운믹스 신호들이 산출되는 N개의 오디오 오브젝트들은 제 2, 감소된, 복수의 오디오 오브젝트들을 구성한다. 그러므로, 현재 예시적인 실시예에서, N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들(디코더 측상에서 재구성될)의 세트는 N개의 오디오 오브젝트들과 일치한다.
대안적으로, 클러스터링 절차는 M개의 다운믹스 신호들의 산출과 동시에 수행될 수 있다. 현재 대안에 따라, 그것에 기초하여 M개의 다운믹스 신호들이 산출되는 N개의 오디오 오브젝트들은 오디오 장면의 원래 오디오 오브젝트들에 대응하는 제 1 복수의 오디오 오브젝트들을 구성한다. 이러한 접근법을 갖고, M개의 다운믹스 신호들은 그러므로 오디오 장면의 원래 오디오 오브젝트들에 기초하여 및 감소된 수의 오디오 오브젝트들에 기초하지 않고 산출된다.
예시적인 실시예에 따르면, 방법은:
다운믹스 신호들을 렌더링하기 위해 시변 공간 위치와 각각의 다운믹스 신호를 연관시키는 단계, 및
데이터 스트림에서, 다운믹스 신호들의 공간 위치들을 포함한 다운믹스 메타데이터를 추가로 포함시키는 단계를 더 포함할 수 있으며,
상기 방법은 상기 데이터 스트림에:
상기 다운믹스 신호들을 렌더링하기 위해 각각의 원하는 다운믹스 렌더링 설정들을 특정한 복수의 다운믹스 메타데이터 인스턴스들; 및
각각의 다운믹스 메타데이터 인스턴스에 대해, 현재 다운믹스 렌더링 설정으로부터 다운믹스 메타데이터 인스턴스에 의해 특정된 원하는 다운믹스 렌더링 설정으로의 전이를 시작하기 위한 시점, 및 다운믹스 메타데이터 인스턴스에 의해 특정된 원하는 다운믹스 렌더링 설정으로의 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 포함시키는 단계를 더 포함한다.
상기 데이터 스트림에 다운믹스 메타데이터를 포함시키는 것은 저-복잡도 디코딩이 레거시 재생 장비의 경우에 사용되도록 허용한다는 점에서 유리하다. 보다 정확하게, 다운믹스 메타데이터는 레거시 재생 시스템의 채널들로의 다운믹스 신호들을 렌더링하기 위해, 즉 N개의 오브젝트들에 기초하여 형성된 복수의 오디오 오브젝트들을 재구성하지 않고 디코더 측 상에서 사용될 수 있으며, 이것은 통상적으로 계산적으로 더 복잡한 동작이다.
현재의 예시적인 실시예에 따르면, M개의 다운믹스 신호들과 연관된 공간 위치들은 시간-변화, 예로서 시변적일 수 있으며, 다운믹스 신호들은 시간 프레임들 또는 다운믹스 메타데이터 인스턴스들 사이에서 변할 수 있는 연관된 위치를 가진 동적 오디오 오브젝트들로서 해석될 수 있다. 이것은 다운믹스 신호들이 고정된 공간 라우드스피커 위치들에 대응하는 종래 기술의 시스템들과 대조적이다. 동일한 데이터 스트림은 보다 진화된 능력들을 가진 디코딩 시스템에서 오브젝트 지향 방식으로 플레이될 수 있다는 것이 상기된다.
몇몇 예시적인 실시예들에서, N개의 오디오 오브젝트들은 N개의 오디오 오브젝트들의 공간 위치들을 포함한 메타데이터와 연관될 수 있으며, 다운믹스 신호들과 연관된 공간 위치들은 예를 들면 N개의 오디오 오브젝트들의 공간 위치들에 기초하여 산출될 수 있다. 따라서, 다운믹스 신호들은 N개의 오디오 오브젝트들의 공간 위치들에 의존하는 공간 위치들을 가진 오디오 오브젝트들로서 해석될 수 있다.
예시적인 실시예에 따르면, 각각의 다운믹스 메타데이터 인스턴스들에 대해 전이 데이터에 의해 정의된 각각의 시점들은 대응하는 사이드 정보 인스턴스들에 대해 전이 데이터에 의해 정의된 각각의 시점들과 일치할 수 있다. 사이드 정보 및 다운믹스 메타데이터와 연관된 전이들을 시작하며 완료하기 위해 동일한 시점들을 이용하는 것은 사이드 정보 및 다운믹스 메타데이터의 공동 프로세싱, 예로서 재샘플링을 용이하게 한다.
예시적인 실시예에 따르면, 각각의 다운믹스 메타데이터 인스턴스들에 대해 전이 데이터에 의해 정의된 각각의 시점들은 대응하는 클러스터 메타데이터 인스턴스들에 대해 전이 데이터에 의해 정의된 각각의 시점들과 일치할 수 있다. 클러스터 메타데이터 및 다운믹스 메타데이터와 연관된 전이들을 시작 및 종료하기 위해 동일한 시점들을 이용하는 것은 클러스터 메타데이터 및 다운믹스 메타데이터의 공동 프로세싱, 예로서 재샘플링을 용이하게 한다.
예시적인 실시예들에 따르면, 데이터 스트림으로서 N개의 오디오 오브젝트들을 인코딩하기 위한 인코더가 제공되고 있으며, 여기에서 N>1이다. 인코더는:
N개의 오디오 오브젝트들의 조합들을 형성함으로써 M개의 다운믹스 신호들을 산출하도록 구성된 다운믹스 구성요소로서, M≤N인, 상기 다운믹스 구성요소;
상기 M개의 다운믹스 신호들로부터 상기 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 시변 사이드 정보를 산출하도록 구성된 분석 구성요소; 및
디코더로의 송신을 위해 데이터 스트림에 상기 M개의 다운믹스 신호들 및 상기 사이드 정보를 포함시키도록 구성된 다중화 구성요소를 포함하며,
상기 다중화 구성요소는 상기 디코더로의 송신을 위해, 상기 데이터 스트림에:
상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하기 위한 각각의 원하는 재구성 설정들을 특정한 복수의 사이드 정보 인스턴스들; 및
각각의 사이드 정보 인스턴스에 대해, 현재 재구성 설정으로부터 상기 사이드 정보 인스턴스에 의해 특정된 원하는 재구성 설정으로의 전이를 시작하기 위한 시점, 및 상기 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 포함시키도록 추가로 구성된다.
제 4 양상에 따르면, 다채널 오디오 콘텐트를 디코딩하기 위한 디코딩 방법, 디코더, 및 컴퓨터 프로그램 제품이 제공되고 있다.
제 4 양상에 따른 상기 방법들, 디코더들 및 컴퓨터 프로그램 제품들은 제 3 양상에 따른 방법들, 인코더들, 및 컴퓨터 프로그램 제품들과의 협력을 위해 의도되며, 대응하는 특징들 및 이점들을 가질 수 있다.
제 4 양상에 따른 방법들, 디코더들 및 컴퓨터 프로그램 제품들은 일반적으로 제 2 양상에 따른 방법들, 디코더들 및 컴퓨터 프로그램 제품들과 공통인 특징들 및 이점들을 가질 수 있다.
예시적인 실시예들에 따르면, 데이터 스트림에 기초하여 오디오 오브젝트들을 재구성하기 위한 방법이 제공되고 있다. 상기 방법은:
N개의 오디오 오브젝트들의 조합들인 M개의 다운믹스 신호들로서, N>1 및 M≤N인, 상기 M개의 다운믹스 신호들, 및 상기 M개의 다운믹스 신호들로부터 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 시변 사이드 정보를 포함한 데이터 스트림을 수신하는 단계; 및
상기 M개의 다운믹스 신호들 및 상기 사이드 정보에 기초하여, 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하는 단계를 포함하며,
상기 데이터 스트림은 복수의 사이드 정보 인스턴스들을 포함하고, 상기 데이터 스트림은, 각각의 사이드 정보 인스턴스에 대해, 현재 재구성 설정에서 상기 사이드 정보 인스턴스에 의해 특정된 원하는 재구성 설정으로의 전이를 시작하기 위한 시점, 및 상기 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 더 포함하며, 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하는 단계는:
현재 재구성 설정에 따라 재구성을 수행하는 단계;
사이드 정보 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서, 상기 현재 재구성 설정에서 상기 사이드 정보 인스턴스에 의해 특정된 원하는 재구성 설정으로의 전이를 시작하는 단계; 및
상기 사이드 정보 인스턴스에 대한 상기 전이 데이터에 의해 정의된 시점에서 상기 전이를 완료하는 단계를 포함한다.
상기 설명된 바와 같이, 현재 재구성 설정들에서 각각의 원하는 재구성 설정들로의 전이들을 시작하기 위한 시점들 및 이를 완료하기 위한 시점들을 정의한 전이 데이터를 포함하는 사이드 정보 포맷을 이용하는 것은 예로서 상기 사이드 정보의 재샘플링을 용이하게 한다.
상기 데이터 스트림은 예를 들면, 예로서, 인코더 측 상에서 생성된, 비트스트림의 형태로 수신될 수 있다.
M개의 다운믹스 신호들 및 사이드 정보에 기초하여, N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하는 것은 예를 들면 사이드 정보에 기초하여 결정된 계수들을 이용한 다운믹스 신호들의 적어도 하나의 선형 조합을 형성하는 것을 포함한다. M개의 다운믹스 신호들 및 사이드 정보에 기초하여, N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하는 것은 예를 들면 다운믹스 신호들, 및 선택적으로 사이드 정보에 기초하여 결정된 계수들을 이용하는, 다운믹스 신호들로부터 도출된 하나 이상의 부가적인(예로서, 역상관된) 신호의 선형 조합들을 형성하는 것을 포함할 수 있다.
예시적인 실시예에 따르면, 데이터 스트림은 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트에 대한 시변 클러스터 메타데이터를 더 포함할 수 있으며, 상기 클러스터 메타데이터는 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트에 대한 공간 위치들을 포함한다. 데이터 스트림은 복수의 클러스터 메타데이터 인스턴스들을 포함할 수 있으며, 데이터 스트림은 각각의 클러스터 메타데이터 인스턴스에 대해, 현재 렌더링 설정에서 클러스터 메타데이터 인스턴스에 의해 특정된 원하는 렌더링 설정으로의 전이를 시작하기 위한 시점, 및 클러스터 메타데이터 인스턴스에 의해 특정된 원하는 렌더링 설정으로의 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 더 포함할 수 있다. 상기 방법은:
미리 정의된 채널 구성의 출력 채널들로의 N개의 오디오 오브젝트들에 기초하여 형성된 재구성된 세트의 오디오 오브젝트들의 렌더링을 위해 클러스터 메타데이터를 사용하는 단계를 더 포함할 수 있으며, 상기 렌더링은:
현재 렌더링 설정에 따라 렌더링을 수행하는 것;
클러스터 메타데이터 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서, 상기 현재 렌더링 설정에서 상기 클러스터 메타데이터 인스턴스에 의해 특정된 원하는 렌더링 설정으로의 전이를 시작하는 것; 및
상기 클러스터 메타데이터 인스턴스에 대한 상기 전이 데이터에 의해 정의된 시점에서 상기 원하는 렌더링 설정으로의 상기 전이를 완료하는 것을 포함한다.
상기 미리 정의된 채널 구성은 예를 들면, 특정한 재생 시스템과 호환 가능한, 즉 특정한 재생 시스템상에서의 재생에 적합한 출력 채널들의 구성에 대응할 수 있다.
미리 정의된 채널 구성의 출력 채널들로의 N개의 오디오 오브젝트들에 기초하여 형성된 재구성된 세트의 오디오 오브젝트들의 렌더링은 예를 들면, 렌더러에서, 클러스터 메타데이터의 제어 하에서 상기 렌더러의 출력 채널들(의 미리 정의된 구성)에 N개의 오디오 오브젝트들에 기초하여 형성된 재구성된 세트의 오디오 신호들을 매핑시키는 것을 포함할 수 있다.
미리 정의된 채널 구성의 출력 채널들로의 N개의 오디오 오브젝트들에 기초하여 형성된 재구성된 세트의 오디오 오브젝트들의 렌더링은 예를 들면, 클러스터 메타데이터에 기초하여 결정된 계수들을 이용하여, N개의 오디오 오브젝트들에 기초하여 형성된 재구성된 세트의 오디오 오브젝트들의 선형 조합들을 형성하는 것을 포함할 수 있다.
예시적인 실시예에 따르면, 각각의 클러스터 메타데이터 인스턴스들에 대한 전이 데이터에 의해 정의된 각각의 시점들은 대응하는 사이드 정보 인스턴스들에 대한 전이 데이터에 의해 정의된 각각의 시점들과 일치할 수 있다.
예시적인 실시예에 따르면, 상기 방법은:
현재 재구성 설정 및 현재 렌더링 설정과 각각 연관된 재구성 매트릭스 및 렌더링 매트릭스의 매트릭스 곱으로서 형성된 제 1 매트릭스에 대응하는 조합된 동작으로서 재구성의 적어도 부분 및 렌더링의 적어도 부분을 수행하는 단계;
사이드 정보 인스턴스 및 클러스터 메타데이터 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서, 현재 재구성 및 렌더링 설정들로부터 사이드 정보 인스턴스 및 클러스터 메타데이터 인스턴스에 의해 각각 특정된 원하는 재구성 및 렌더링 설정들로의 조합된 전이를 시작하는 단계; 및
상기 사이드 정보 인스턴스 및 상기 클러스터 메타데이터 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서 상기 조합된 전이를 완료하는 단계로서, 상기 조합된 전이는 제 1 매트릭스의 매트릭스 요소들과 원하는 재구성 설정 및 원하는 렌더링 설정과 각각 연관된 재구성 매트릭스 및 렌더링 매트릭스의 매트릭스 곱으로서 형성된 제 2 매트릭스의 매트릭스 요소들 사이에서 보간하는 것을 포함하는, 상기 완료 단계를 더 포함할 수 있다.
상기 의미에서 조합된 전이를 수행함으로써, 재구성 설정들 및 렌더링 설정들의 별개의 전이들 대신에, 보다 적은 파라미터들/계수들이 보간될 필요가 있으며, 이것은 계산 복잡도의 감소를 가능하게 한다.
현재 예시적인 실시예에 언급된 바와 같이, 재구성 매트릭스 또는 렌더링 매트릭스와 같은 매트릭스는 예를 들면 단일 로우 또는 단일 컬럼으로 이루어질 수 있으며, 그러므로 벡터에 대응할 수 있다는 것이 이해될 것이다.
다운믹스 신호들로부터의 오디오 오브젝트들의 재구성은 종종 상이한 주파수 대역들에서 상이한 재구성 매트릭스들을 이용함으로써 수행되는 반면, 렌더링은 종종 모든 주파수들에 대해 동일한 렌더링 매트릭스를 이용함으로써 수행된다. 이러한 경우들에서, 재구성 및 렌더링의 조합된 동작에 대응하는 매트릭스, 예로서 현재 예시적인 실시예에서 언급된 제 1 및 제 2 매트릭스들은 통상적으로 주파수-의존적일 수 있으며, 즉 매트릭스 요소들에 대한 상이한 값들은 통상적으로 상이한 주파수 대역들에 대해 이용될 수 있다.
예시적인 실시예에 따르면, N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트는 N개의 오디오 오브젝트들과 일치할 수 있으며, 즉 방법은 M개의 다운믹스 신호들 및 사이드 정보에 기초하여 N개의 오디오 오브젝트들을 재구성하는 단계를 포함할 수 있다.
대안적으로, N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트는 N개의 오디오 오브젝트들의 조합들이며, 그 수가 N보다 작은 복수의 오디오 오브젝트들을 포함할 수 있으며, 즉 상기 방법은 M개의 다운믹스 신호들 및 사이드 정보에 기초하여 N개의 오디오 오브젝트들의 이들 조합들을 재구성하는 단계를 포함할 수 있다.
예시적인 실시예에 따르면, 데이터 스트림은 M개의 다운믹스 신호들과 연관된 시변 공간 위치들을 포함한 M개의 다운믹스 신호들에 대한 다운믹스 메타데이터를 더 포함할 수 있다. 데이터 스트림은 복수의 다운믹스 메타데이터 인스턴스들을 포함할 수 있으며, 데이터 스트림은 각각의 다운믹스 메타데이터 인스턴스에 대해, 현재 다운믹스 렌더링 설정에서 다운믹스 메타데이터 인스턴스에 의해 특정된 원하는 다운믹스 렌더링 설정으로의 전이를 시작하기 위한 시점, 및 다운믹스 메타데이터 인스턴스에 의해 특정된 원하는 다운믹스 렌더링 설정으로의 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 더 포함할 수 있다. 상기 방법은:
디코더가 오디오 오브젝트 재구성을 지원하도록 동작 가능한(또는 구성 가능한) 조건에서, M개의 다운믹스 신호들 및 사이드 정보에 기초하여, N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트를 재구성하는 단계를 수행하는 단계; 및
상기 디코더가 오디오 오브젝트 재구성을 지원하도록 동작 가능(또는 구성 가능)하지 않은 조건에서, M개의 다운믹스 신호들의 렌더링을 위해 다운믹스 메타데이터 및 M개의 다운믹스 신호들을 출력하는 단계를 더 포함할 수 있다.
디코더가 오디오 오브젝트 재구성을 지원하도록 동작 가능하며 데이터 스트림이 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트와 연관된 클러스터 메타데이터를 더 포함하는 경우에, 상기 디코더는 예를 들면, 재구성된 세트의 오디오 오브젝트들의 렌더링을 위해 재구성된 세트의 오디오 오브젝트들 및 클러스터 메타데이터를 출력할 수 있다.
디코더가 오디오 오브젝트 재구성을 지원하도록 동작 가능하지 않은 경우에, 그것은 예를 들면 사이드 정보, 및 적용 가능하다면 클러스터 메타데이터를 폐기할 수 있으며, 출력으로서 다운믹스 메타데이터 및 M개의 다운믹스 신호들을 제공할 수 있다. 그 후, 상기 출력은 렌더러의 출력 채널들로의 M개의 다운믹스 신호들을 렌더링하기 위해 렌더러에 의해 이용될 수 있다.
선택적으로, 상기 방법은 다운믹스 메타데이터에 기초하여, 미리 정의된 출력 구성의 출력 채널들로, 예를 들면, 렌더러의 출력 채널들로, 또는 디코더의 출력 채널들로(디코더가 렌더링 능력들을 갖는 경우에) M개의 다운믹스 신호들을 렌더링하는 단계를 더 포함할 수 있다.
예시적인 실시예들에 따르면, 데이터 스트림에 기초하여 오디오 오브젝트들을 재구성하기 위한 디코더가 제공되고 있다. 상기 디코더는:
N개의 오디오 오브젝트들의 조합들인 M개의 다운믹스 신호들로서, N>1 및 M≤N인, 상기 M개의 다운믹스 신호들, 및 상기 M개의 다운믹스 신호들로부터 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 시변 사이드 정보를 포함한 데이터 스트림을 수신하도록 구성된 수신 구성요소; 및
상기 M개의 다운믹스 신호들 및 상기 사이드 정보에 기초하여, 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하도록 구성된 재구성 구성요소를 포함하며,
상기 데이터 스트림은 연관된 복수의 사이드 정보 인스턴스들을 포함하며, 상기 데이터 스트림은 각각의 사이드 정보 인스턴스에 대해, 현재 재구성 설정에서 상기 사이드 정보 인스턴스에 의해 특정된 원하는 재구성 설정으로의 전이를 시작하기 위한 시점, 및 상기 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 더 포함한다. 재구성 구성요소는 적어도:
현재 재구성 설정에 따라 재구성을 수행하고;
사이드 정보 인스턴스에 대한 상기 전이 데이터에 의해 정의된 시점에서, 상기 현재 재구성 설정에서 상기 사이드 정보 인스턴스에 의해 특정된 원하는 재구성 설정으로의 전이를 시작하며;
상기 사이드 정보 인스턴스에 대한 상기 전이 데이터에 의해 정의된 시점에서 상기 전이를 완료함으로써 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하도록 구성된다.
예시적인 실시예에 따르면, 제 3 또는 제 4 양상 내에서의 방법은 하나 이상의 부가적인 사이드 정보 인스턴스에 바로 선행하거나 또는 바로 뒤따르는 사이드 정보 인스턴스와 실질적으로 동일한 재구성 설정을 특정한 하나 이상의 부가적인 사이드 정보 인스턴스들을 생성하는 단계를 더 포함할 수 있다. 부가적인 클러스터 메타데이터 인스턴스들 및/또는 다운믹스 메타데이터 인스턴스들이 유사한 방식으로 생성되는 예시적인 실시예들이 또한 예상된다.
상기 설명된 바와 같이, 보다 많은 사이드 정보 인스턴스들을 생성하는 것에 의한 상기 사이드 정보의 재샘플링은, 그 후 각각의 오디오 코덱 프레임에 대한 적어도 하나의 사이드 정보 인스턴스를 갖는 것이 바람직하기 때문에, 오디오 신호들/오브젝트들 및 연관된 사이드 정보가 프레임-기반 오디오 코덱을 사용하여 인코딩될 때와 같은, 여러 상황들에서 유리할 수 있다. 인코더 측에서, 분석 구성요소에 의해 제공된 사이드 정보 인스턴스들은 예를 들면, 그것들이 다운믹스 구성요소에 의해 제공되는 다운믹스 신호들의 프레임 레이트와 일치하지 않는 방식으로 제시간에 분배될 수 있으며, 사이드 정보는 그러므로 유리하게는 다운믹스 신호들의 각각의 프레임에 대한 적어도 하나의 사이드 정보 인스턴스가 있도록 새로운 사이드 정보 인스턴스들을 도입함으로써 재샘플링될 수 있다. 유사하게, 디코더 측에서, 수신된 사이드 정보 인스턴스들은 예를 들면, 그것들이 수신된 다운믹스 신호들의 프레임 레이트와 일치하지 않도록 하는 방식으로 제시간에 분배될 수 있으며, 사이드 정보는 그러므로 유리하게는 다운믹스 신호들의 각각의 프레임에 대한 적어도 하나의 사이드 정보 인스턴스가 있도록 새로운 사이드 정보 인스턴스들을 도입함으로써 재샘플링될 수 있다.
부가적인 사이드 정보 인스턴스는 예를 들면 부가적인 사이드 정보 인스턴스를 바로 뒤따르는 사이드 정보 인스턴스를 복사하며 선택된 시점 및 계속되는 사이드 정보 인스턴스에 대한 전이 데이터에 의해 정의된 시점들에 기초하여 부가적인 사이드 정보 인스턴스에 대한 전이 데이터를 결정함으로써 선택된 시점에 대해 생성될 수 있다.
제 5 양상에 따르면, 데이터 스트림에서 M개의 오디오 신호들과 함께 인코딩된 사이드 정보를 트랜스코딩하기 위한 방법, 디바이스, 및 컴퓨터 프로그램 제품이 제공되고 있다.
제 5 양상에 따른 방법들, 디바이스들 및 컴퓨터 프로그램 제품들은 제 3 및 제 4 양상에 따른 방법들, 인코더들, 디코더 및 컴퓨터 프로그램 제품들과의 협력을 위해 의도되며, 대응하는 특징들 및 이점들을 가질 수 있다.
예시적인 실시예들에 따르면, 데이터 스트림에서 M개의 오디오 신호들과 함께 인코딩된 사이드 정보를 트랜스코딩하기 위한 방법이 제공되고 있다. 상기 방법은:
데이터 스트림을 수신하는 단계;
상기 데이터 스트림으로부터, M개의 오디오 신호들 및 상기 M개의 오디오 신호들로부터 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 연관된 시변 사이드 정보를 추출하는 단계로서, M≥1이며, 상기 추출된 사이드 정보는:
상기 오디오 오브젝트들을 재구성하기 위한 각각의 원하는 재구성 설정들을 특정한 복수의 사이드 정보 인스턴스들, 및
각각의 사이드 정보 인스턴스에 대해, 현재 재구성 설정으로부터 사이드 정보 인스턴스에 의해 특정된 원하는 재구성 설정으로의 전이를 시작하기 위한 시점, 및 상기 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 포함한, 상기 추출 단계;
하나 이상의 부가적인 사이드 정보 인스턴스들에 바로 선행하거나 또는 바로 뒤따르는 사이드 정보 인스턴스와 실질적으로 동일한 재구성 설정을 특정한 상기 하나 이상의 부가적인 사이드 정보 인스턴스들을 생성하는 단계; 및
데이터 스트림에 상기 M개의 오디오 신호들 및 상기 사이드 정보를 포함시키는 단계를 포함한다.
현재의 예시적인 실시예에서, 상기 하나 이상의 부가적인 사이드 정보 인스턴스들은 사이드 정보가 수신된 데이터 스트림으로부터 추출된 후 생성될 수 있으며, 생성된 하나 이상의 부가적인 사이드 정보 인스턴스들은 그 후 M개의 오디오 신호들 및 다른 사이드 정보 인스턴스들과 함께 데이터 스트림에 포함될 수 있다.
제 3 양상과 관련하여 상기 설명된 바와 같이, 보다 많은 사이드 정보 인스턴스들을 생성하는 것에 의한 사이드 정보의 재샘플링은, 그 후 각각의 오디오 코덱 프레임에 대한 적어도 하나의 사이드 정보 인스턴스를 갖는 것이 바람직하므로, 오디오 신호들/오브젝트들 및 연관된 사이드 정보가 프레임-기반 오디오 코덱을 사용하여 인코딩될 때와 같은, 여러 상황들에서 유리할 수 있다.
제 3 및 제 4 양상과 관련하여 설명된 바와 같이 데이터 스트림이 클러스터 메타데이터 및/또는 다운믹스 메타데이터를 더 포함하는 실시예들이 또한 예상되며, 상기 방법은, 부가적인 사이드 정보 인스턴스들이 어떻게 생성되는지와 유사하게, 부가적인 다운믹스 메타데이터 인스턴스들 및/또는 클러스터 메타데이터 인스턴스들을 생성하는 단계를 더 포함한다.
예시적인 실시예에 따르면, M개의 오디오 신호들은 제 1 프레임 레이트에 따라 수신된 데이터 스트림에서 코딩될 수 있으며, 상기 방법은:
그에 따라 M개의 다운믹스 신호들이 제 1 프레임 레이트와 상이한 제 2 프레임 레이트로 코딩되는 프레임 레이트를 변경하도록 M개의 오디오 신호들을 프로세싱하는 단계; 및
적어도 상기 하나 이상의 부가적인 사이드 정보 인스턴스들을 생성함으로써 상기 제 2 프레임 레이트와 일치하도록 및/또는 그것과 호환 가능하도록 상기 사이드 정보를 재샘플링하는 단계를 더 포함할 수 있다.
제 3 양상에 관련하여 상기 설명된 바와 같이, 그것들을 코딩하기 위해 이용된 프레임 레이트를 변경하도록, 예로서 수정된 프레임 레이트가 오디오 신호들이 속하는 오디오-비주얼 신호의 비디오 콘텐트의 프레임 레이트와 일치하도록 오디오 신호들을 프로세싱하는 것이 여러 상황들에서 유리할 수 있다. 각각의 사이드 정보 인스턴스에 대한 전이 데이터의 존재는 제 3 양상에 관련하여 상기 설명된 바와 같이, 사이드 정보의 재샘플링을 용이하게 한다. 상기 사이드 정보는 예로서, 프로세싱된 오디오 신호들의 각각의 프레임에 대해 적어도 하나의 사이드 정보 인스턴스가 있도록 부가적인 사이드 정보 인스턴스들을 생성함으로써 새로운 프레임 레이트와 일치시키기 위해 재샘플링될 수 있다.
예시적인 실시예들에 따르면, 데이터 스트림에서 M개의 오디오 신호들과 함께 인코딩된 사이드 정보를 트랜스코딩하기 위한 디바이스가 제공되고 있다. 상기 디바이스는:
데이터 스트림을 수신하도록 및 상기 데이터 스트림으로부터, M개의 오디오 신호들 및 상기 M개의 오디오 신호들로부터 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 연관된 시변 사이드 정보를 추출하도록 구성된 수신 구성요소로서, M≥1이며, 상기 추출된 사이드 정보는:
상기 오디오 오브젝트들을 재구성하기 위한 각각의 원하는 재구성 설정들을 특정한 복수의 사이드 정보 인스턴스들, 및
각각의 사이드 정보 인스턴스에 대해, 현재 재구성 설정으로부터 상기 사이드 정보 인스턴스에 의해 특정된 원하는 재구성 설정으로의 전이를 시작하기 위한 시점, 및 상기 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 포함하는, 상기 수신 구성요소를 포함한다.
상기 디바이스는:
하나 이상의 부가적인 사이드 정보 인스턴스들에 바로 선행하거나 또는 바로 뒤따르는 사이드 정보 인스턴스와 실질적으로 동일한 재구성 설정을 특정한 상기 하나 이상의 부가적인 사이드 정보 인스턴스들을 생성하도록 구성된 재샘플링 구성요소; 및
데이터 스트림에 M개의 오디오 신호들 및 상기 사이드 정보를 포함시키도록 구성된 다중화 구성요소를 더 포함한다.
예시적인 실시예에 따르면, 제 3, 제 4, 또는 제 5 양상 내에서의 방법은: 제 1 사이드 정보 인스턴스에 의해 특정된 제 1 원하는 재구성 설정 및 상기 제 1 사이드 정보 인스턴스를 바로 뒤따르는 하나 이상의 사이드 정보 인스턴스들에 의해 특정된 하나 이상의 원하는 재구성 설정들 사이에서의 차이를 계산하는 단계; 및 상기 계산된 차이가 미리 정의된 임계치 이하임에 응답하여 상기 하나 이상의 사이드 정보 인스턴스들을 제거하는 단계를 더 포함할 수 있다. 클러스터 메타데이터 인스턴스들 및/또는 다운믹스 메타데이터 인스턴스들이 유사한 방식으로 제거되는 예시적인 실시예들이 또한 예상된다.
현재의 예시적인 실시예에 따라 사이드 정보 인스턴스들을 제거함으로써, 이들 사이드 정보 인스턴스들에 기초한 불필요한 계산들이, 예를 들면 디코더 측에서의 재구성 동안 회피될 수 있다. 적절한(예로서, 충분히 낮은) 레벨에서 미리 정의된 임계치를 설정함으로써, 사이드 정보 인스턴스들은 재구성된 오디오 신호들의 재생 품질 및/또는 충실도가 적어도 대략 유지되는 동안 제거될 수 있다.
원하는 재구성 설정들 사이에서의 차이는 예를 들면 재구성의 부분으로서 이용된 계수들의 세트에 대한 각각의 값들 사이에서의 차이들에 기초하여 계산될 수 있다.
제 3, 제 4, 또는 제 5 양상 내에서의 예시적인 실시예들에 따르면, 각각의 사이드 정보 인스턴스에 대한 전이 데이터의 두 개의 독립적으로 할당 가능한 부분들은:
원하는 재구성 설정으로의 전이를 시작하기 위한 시점을 표시한 시간 스탬프 및 상기 원하는 재구성 설정으로의 전이를 완료하기 위한 시점을 표시한 시간 스탬프;
원하는 재구성 설정으로의 전이를 시작하기 위한 시점을 표시한 시간 스탬프 및 상기 원하는 재구성 설정으로의 전이를 시작하기 위한 시점으로부터 원하는 재구성 설정에 도달하기 위한 지속 기간을 표시한 보간 지속 기간 파라미터; 또는
상기 원하는 재구성 설정으로의 전이를 완료하기 위한 시점을 표시한 시간 스탬프 및 상기 원하는 재구성 설정으로의 전이를 시작하기 위한 시점으로부터 원하는 재구성 설정에 도달하기 위한 지속 기간을 표시한 보간 지속 기간 파라미터일 수 있다.
다시 말해서, 전이를 시작하기 위한 및 종료하기 위한 시점들은 각각의 시점들을 표시한 두 개의 시간 스탬트들, 또는 시간 스탬프들 중 하나 및 전이의 지속 기간을 표시한 보간 지속 기간 파라미터의 조합에 의해 전이 데이터에서 정의될 수 있다.
각각의 시간 스탬프들은 예를 들면, M개의 다운믹스 신호들 및/또는 N개의 오디오 오브젝트들을 표현하기 위해 이용된 시간 베이스를 나타냄으로써 각각의 시점들을 표시할 수 있다.
제 3, 제 4 또는 제 5 양상 내에서의 예시적인 실시예들에 따르면, 각각의 클러스터 메타데이터 인스턴스에 대한 전이 데이터의 두 개의 독립적으로 할당 가능한 부분들은:
원하는 렌더링 설정으로의 전이를 시작하기 위한 시점을 표시한 시간 스탬프 및 상기 원하는 렌더링 설정으로의 전이를 완료하기 위한 시점을 표시한 시간 스탬프;
상기 원하는 렌더링 설정으로의 전이를 시작하기 위한 시점을 표시한 시간 스탬프 및 상기 원하는 렌더링 설정으로의 전이를 시작하기 위한 시점으로부터 상기 원하는 렌더링 설정에 도달하기 위한 지속 기간을 표시한 보간 지속 기간 파라미터; 또는
상기 원하는 렌더링 설정으로의 전이를 완료하기 위한 시점을 표시한 시간 스탬프 및 상기 원하는 렌더링 설정으로의 전이를 시작하기 위한 시점으로부터 상기 원하는 렌더링 설정에 도달하기 위한 지속 기간을 표시한 보간 지속 기간 파라미터일 수 있다.
제 3, 제 4 또는 제 5 양상 내에서의 예시적인 실시예들에 따르면, 각각의 다운믹스 메타데이터 인스턴스에 대한 전이 데이터의 두 개의 독립적으로 할당 가능한 부분들은:
원하는 다운믹스 렌더링 설정으로의 전이를 시작하기 위한 시점을 표시한 시간 스탬프 및 상기 원하는 다운믹스 렌더링 설정으로의 전이를 완료하기 위한 시점을 표시한 시간 스탬프;
상기 원하는 다운믹스 렌더링 설정으로의 전이를 시작하기 위한 시점을 표시한 시간 스탬프 및 상기 원하는 다운믹스 렌더링 설정으로의 전이를 시작하기 위한 시점으로부터 상기 원하는 다운믹스 렌더링 설정에 도달하기 위한 지속 기간을 표시한 보간 지속 기간 파라미터; 또는
상기 원하는 다운믹스 렌더링 설정으로의 전이를 완료하기 위한 시점을 표시한 시간 스탬프 및 상기 원하는 다운믹스 렌더링 설정으로의 전이를 시작하기 위한 시점으로부터 상기 원하는 다운믹스 렌더링 설정에 도달하기 위한 지속 기간을 표시한 보간 지속 기간 파라미터일 수 있다.
예시적인 실시예들에 따르면, 제 3, 제 4 또는 제 5 양상 내에서의 방법들 중 임의의 것의 방법을 수행하기 위한 지시들을 가진 컴퓨터-판독 가능한 매체를 포함한 컴퓨터 프로그램 제품이 제공되고 있다.
IV. 예시적인 실시예들
도 1은 대표적인 실시예에 따라 오디오 오브젝트들(120)을 데이터 스트림(140)으로 인코딩하기 위한 인코더(100)를 예시한다. 인코더(100)는 수신 구성요소(도시되지 않음), 다운믹스 구성요소(102), 인코더 구성요소(104), 분석 구성요소(106), 및 다중화 구성요소(108)를 포함한다. 오디오 데이터의 하나의 시간 프레임을 인코딩하기 위한 인코더(100)의 동작은 다음에서 설명된다. 그러나 이하의 방법은 시간 프레임 기반으로 반복된다는 것이 이해된다. 이것은 또한 도 2 내지 도 5의 설명에도 적용된다.
수신 구성요소는 복수의 오디오 오브젝트들(N개의 오디오 오브젝트들)(120) 및 오디오 오브젝트들(120)과 연관된 메타데이터(122)를 수신한다. 여기에서 사용된 바와 같이 오디오 오브젝트는 통상적으로 시간에 따라(시간 프레임들 사이에서) 달라지는 연관된 공간 위치를 가진 오디오 신호를 나타내며, 즉 공간 위치는 동적이다. 오디오 오브젝트들(120)과 연관된 메타데이터(122)는 통상적으로 오디오 오브젝트들(120)이 어떻게 디코더 측 상에서의 재생을 위해 렌더링되는지를 설명하는 정보를 포함한다. 특히, 오디오 오브젝트들(120)과 연관된 메타데이터(122)는 오디오 장면의 3-차원 공간에서 오디오 오브젝트들(120)의 공간 위치에 대한 정보를 포함한다. 공간 위치들은 선택적으로 거리에 따라 증가되는, 방위각 및 앙각과 같은, 방향 각들에 의해 또는 데카르트 좌표들로 표현될 수 있다. 오디오 오브젝트들(120)과 연관된 메타데이터(122)는 오브젝트 크기, 오브젝트 라우드니스, 오브젝트 중요도, 오브젝트 콘텐트 유형, 렌더링(소위 구역 마스크들) 및/또는 다른 오브젝트 속성들로부터 특정한 라우드스피커들의 제외 또는 다이얼로그 강화의 적용과 같은 특정 렌더링 지시들을 더 포함할 수 있다.
도 4를 참조하여 설명될 바와 같이, 오디오 오브젝트들(120)은 오디오 장면의 간소화된 표현에 대응할 수 있다.
N개의 오디오 오브젝트들(120)은 다운믹스 구성요소(102)에 입력된다. 다운믹스 구성요소(102)는 N개의 오디오 오브젝트들(120)의 조합들, 통상적으로 선형 조합들을 형성함으로써 수 M의 다운믹스 신호들(124)을 산출한다. 대부분의 경우들에서, 다운믹스 신호들(124)의 수는 오디오 오브젝트들(120)의 수보다 작은, 즉 M<N이며, 따라서 데이터 스트림(140)에 포함되는 데이터의 양은 감소된다. 그러나, 데이터 스트림(140)의 타겟 비트 레이트가 높은 애플리케이션들에 대해, 다운믹스 신호들(124)의 수는 오브젝트들(120)의 수와 같을 수 있으며, 즉 M=N이다.
다운믹스 구성요소(102)는 여기에서 L개의 보조 오디오 신호들(127)에 의해 라벨링된, 하나 이상의 보조 오디오 신호들(127)을 추가로 산출할 수 있다. 보조 오디오 신호들(127)의 역할은 디코더 측에서 N개의 오디오 오브젝트들(120)의 재구성을 개선하는 것이다. 보조 오디오 신호들(127)은 직접 또는 이것들의 조합으로서, N개의 오디오 오브젝트들(120) 중 하나 이상에 대응할 수 있다. 예를 들면, 보조 오디오 신호들(127)은 다이얼로그에 대응하는 오디오 오브젝트(120)와 같은, N개의 오디오 오브젝트들(120) 중 특히 중요한 것들에 대응할 수 있다. 중요도는 N개의 오디오 오브젝트들(120)과 연관된 메타데이터(122)에 의해 반영되거나 또는 그로부터 도출될 수 있다.
M개의 다운믹스 신호들(124), L개의 보조 신호들(127)은 존재한다면, 그 다음에 M개의 인코딩된 다운믹스 신호들(126) 및 L개의 인코딩된 보조 신호들(129)을 생성하기 위해 여기에서 코어 인코더로 라벨링된, 인코더 구성요소(104)에 의해 인코딩될 수 있다. 인코더 구성요소(104)는 이 기술분야에 알려진 바와 같이 지각적 오디오 코덱일 수 있다. 알려진 지각적 오디오 코덱들의 예들은 돌비 디지털(Dolby Digital) 및 MPEG AAC를 포함한다.
몇몇 실시예들에서, 다운믹스 구성요소(102)는 메타데이터(125)와 M개의 다운믹스 신호들(124)을 추가로 연관시킬 수 있다. 특히, 다운믹스 구성요소(102)는 공간 위치와 각각의 다운믹스 신호(124)를 연관시킬 수 있으며 메타데이터(125)에 공간 위치를 포함시킨다. 오디오 오브젝트들(120)과 연관된 메타데이터(122)와 유사하게, 다운믹스 신호들(124)과 연관된 메타데이터(125)는 또한 크기, 라우드니스, 중요도, 및/또는 다른 속성들에 관련된 파라미터들을 포함할 수 있다.
특히, 다운믹스 신호들(124)과 연관된 공간 위치들은 N개의 오디오 오브젝트들(120)의 공간 위치들에 기초하여 산출될 수 있다. N개의 오디오 오브젝트들(120)의 공간 위치들은 동적, 즉 시변적일 수 있으므로, 또한 M개의 다운믹스 신호들(124)과 연관된 공간 위치들은 동적일 수 있다. 다시 말해서, M개의 다운믹스 신호들(124)은 자체로 오디오 오브젝트들로서 해석될 수 있다.
분석 구성요소(106)는 M개의 다운믹스 신호들(124) 및 존재한다면 L개의 보조 신호들(129)로부터 N개의 오디오 오브젝트들(120)의 재구성(또는 N개의 오디오 오브젝트들(120)의 지각적으로 적절한 근사)을 가능하게 하는 파라미터들을 포함한 사이드 정보(128)를 산출한다. 또한 사이드 정보(128)는 시변적일 수 있다. 예를 들면, 분석 구성요소(106)는 파라메트릭 인코딩을 위한 임의의 알려진 기술에 따라 M개의 다운믹스 신호들(124), 존재한다면 L개의 보조 신호들(127), 및 N개의 오디오 오브젝트들(120)을 분석함으로써 사이드 정보(128)를 산출할 수 있다. 대안적으로, 분석 구성요소(106)는 N개의 오디오 오브젝트들을 분석함으로써 사이드 정보(128)를, 및 예를 들면 (시변) 다운믹스 매트릭스를 제공함으로써, M개의 다운믹스 신호들이 어떻게 N개의 오디오 오브젝트들로부터 생성되었는지에 대한 정보를 산출할 수 있다. 상기 경우에, M개의 다운믹스 신호들(124)은 분석 구성요소(106)로의 입력으로서 엄격하게 요구되지 않는다.
M개의 인코딩된 다운믹스 신호들(126), L개의 인코딩된 보조 신호들(129), 사이드 정보(128), N개의 오디오 오브젝트들과 연관된 메타데이터(122), 및 다운믹스 신호들과 연관된 메타데이터(125)는 그 후 다중화 기술들을 사용하여 단일 데이터 스트림(140)에 그것의 입력 데이터를 포함시키는 다중화 구성요소(108)로 입력된다. 데이터 스트림(140)은 따라서 4개의 유형들의 데이터를 포함할 수 있다:
a) M개의 다운믹스 신호들(126)(및 선택적으로 L개의 보조 신호들(129))
b) M개의 다운믹스 신호들과 연관된 메타데이터(125),
c) M개의 다운믹스 신호들로부터 N개의 오디오 오브젝트들의 재구성을 위한 사이드 정보(128), 및
d) N개의 오디오 오브젝트들과 연관된 메타데이터(122).
상기 언급된 바와 같이, 오디오 오브젝트들의 코딩을 위한 몇몇 종래 기술의 시스템들은 M개의 다운믹스 신호들이, 여기에서 역 호환 가능한 다운믹스로서 불리우는, M개의 채널들을 가진 스피커 구성의 채널들 상에서의 재생에 적합하도록 선택됨을 요구한다. 이러한 종래 기술의 요건은 오디오 오브젝트들이 단지 미리 정의된 방식으로 조합될 수 있다는 점에서 다운믹스 신호들의 산출을 제한한다. 따라서, 종래 기술에 따르면, 다운믹스 신호들은 디코더 측에서 오디오 오브젝트들의 재구성을 최적화하는 관점으로부터 선택되지 않는다.
종래 기술의 시스템들과 대조적으로, 다운믹스 구성요소(102)는 N개의 오디오 오브젝트들에 대하여 신호 적응적 방식으로 M개의 다운믹스 신호들(124)을 산출한다. 특히, 다운믹스 구성요소(102)는, 각각의 시간 프레임에 대해, 현재 몇몇 기준을 최적화하는 오디오 오브젝트들(120)의 조합으로서 M개의 다운믹스 신호들(124)을 산출할 수 있다. 기준은 통상적으로 그것이 5.1 또는 다른 라우드스피커 구성과 같은, 어떠한 라우드스피커 구성에 대하여도 무관하도록 정의된다. 이것은 M개의 다운믹스 신호들(124), 또는 그것들 중 적어도 하나는 M개의 채널들을 가진 스피커 구성의 채널들 상에서의 재생에 적합한 오디오 신호들에 제한되지 않는다는 것을 의미한다. 따라서, 다운믹스 구성요소(102)는 예로서 디코더 측에서 오디오 오브젝트들(120)의 재구성을 개선하기 위해, N개의 오디오 오브젝트들(120)의 시간적 변화(N개의 오디오 오브젝트들의 공간 위치들을 포함한 메타데이터(122)의 시간적 변화를 포함한)에 M개의 다운믹스 신호들(124)을 적응시킬 수 있다.
다운믹스 구성요소(102)는 M개의 다운믹스 신호들을 산출하기 위해 상이한 기준들을 적용할 수 있다. 일 예에 따르면, M개의 다운믹스 신호들은 M개의 다운믹스 신호들에 기초한 N개의 오디오 오브젝트들의 재구성이 최적화되도록 산출될 수 있다. 예를 들면, 다운믹스 구성요소(102)는 N개의 오디오 오브젝트들(120)로부터 형성된 재구성 에러 및 M개의 다운믹스 신호들(124)에 기초한 N개의 오디오 오브젝트들의 재구성을 최소화할 수 있다.
또 다른 예에 따르면, 기준은 N개의 오디오 오브젝트들(120)의 공간 위치들, 및 특히 공간 근접성에 기초한다. 상기 논의된 바와 같이, N개의 오디오 오브젝트들(120)은 N개의 오디오 오브젝트들(120)의 공간 위치들을 포함하는 연관된 메타데이터(122)를 가진다. 메타데이터(122)에 기초하여, N개의 오디오 오브젝트들(120)의 공간 근접성이 도출될 수 있다.
보다 상세히, 다운믹스 구성요소(102)는 M개의 다운믹스 신호들(124)을 결정하기 위해 제 1 클러스터링 절차를 적용할 수 있다. 제 1 클러스터링 절차는 공간 근접성에 기초하여 M개의 클러스터들과 N개의 오디오 오브젝트들(120)을 연관시키는 단계를 포함할 수 있다. 오브젝트 크기, 오브젝트 라우드니스, 오브젝트 중요도를 포함한, 연관된 메타데이터(122)에 의해 표현된 바와 같이 N개의 오디오 오브젝트들(120)의 추가 속성들은 또한 M개의 클러스터들과의 오디오 오브젝트들(120)의 연관 동안 고려될 수 있다.
일 예에 따르면, 입력으로서 N개의 오디오 오브젝트들의 메타데이터(122)(공간 위치들)를 갖고, 잘-알려진 K-평균 알고리즘은 공간 근접성에 기초하여 M개의 클러스터들과 N개의 오디오 오브젝트들(120)을 연관시키기 위해 사용될 수 있다. N개의 오디오 오브젝트들(120)의 추가 속성들은 K-평균 알고리즘에서 가중 인자들로서 사용될 수 있다.
또 다른 예에 따르면, 제 1 클러스터링 절차는 선택 기준으로서, 메타데이터(122)에 의해 주어진 바와 같이, 오디오 오브젝트들의 중요도를 사용하는 선택 절차에 기초할 수 있다. 보다 상세히, 다운믹스 구성요소(102)는 M개의 다운믹스 신호들 중 하나 이상이 N개의 오디오 오브젝트들(120) 중 하나 이상에 대응하도록 가장 중요한 오디오 오브젝트들(120)을 통과할 수 있다. 남아있는, 덜 중요한, 오디오 오브젝트들은 상기 논의된 바와 같이 공간 근접성에 기초하여 클러스터들과 연관될 수 있다.
오디오 오브젝트들의 클러스터링의 추가 예들은 번호 61/865,072호를 가진 미국 가 출원 또는 상기 출원의 우선권을 주장하는 후속 출원들에 제공된다.
또 다른 예에 따르면, 제 1 클러스터링 절차는 M개의 클러스터들 중 하나 이상과 오디오 오브젝트(120)를 연관시킬 수 있다. 예를 들면, 오디오 오브젝트(120)는 M개의 클러스터들에 걸쳐 분배될 수 있으며, 여기에서 분배는 예를 들면 오디오 오브젝트(120)의 공간 위치 및 선택적으로 또한 오브젝트 크기, 오브젝트 라우드니스, 오브젝트 중요도 등을 포함한 오디오 오브젝트의 추가 속성들에 의존한다. 상기 분배는 퍼센티지들에 의해 반영될 수 있으며, 따라서 오디오 오브젝트는 예를 들면, 퍼센티지들(20%, 30%, 50%)에 따라 3개의 클러스터들에 걸쳐 분배된다.
일단 N개의 오디오 오브젝트들(120)이 M개의 클러스터들과 연관된다면, 다운믹스 구성요소(102)는 클러스터와 연관된 오디오 오브젝트들(120)의 조합, 통상적으로 선형 조합을 형성함으로써 각각의 클러스터에 대한 다운믹스 신호(124)를 산출한다. 통상적으로, 다운믹스 구성요소(102)는 조합을 형성할 때 가중들로서 오디오 오브젝트들(120)과 연관된 메타데이터(122)에 포함된 파라미터들을 사용할 수 있다. 예로서, 클러스터와 연관되는 오디오 오브젝트들(120)은 오브젝트 크기, 오브젝트 라우드니스, 오브젝트 중요도, 오브젝트 위치, 클러스터(다음에서 세부사항들을 참조하자)와 연관된 공간 위치에 대하여 오브젝트로부터의 거리 등에 따라 가중될 수 있다. 오디오 오브젝트들(120)이 M개의 클러스터들에 걸쳐 분배되는 경우에, 분배를 반영한 퍼센티지들이 조합을 형성할 때 가중들로서 사용될 수 있다.
제 1 클러스터링 절차는 공간 위치와 M개의 다운믹스 신호들(124)의 각각의 연관을 용이하게 한다는 점에서 유리하다. 예를 들면, 다운믹스 구성요소(120)는 클러스터와 연관된 오디오 오브젝트들(120)의 공간 위치들에 기초하여 클러스터에 대응하는 다운믹스 신호(124)의 공간 위치를 산출할 수 있다. 클러스터와 연관되는 오디오 오브젝트들의 공간 위치들의 중심 또는 가중된 중심은 이러한 목적을 위해 사용될 수 있다. 가중된 중심의 경우에, 클러스터와 연관된 오디오 오브젝트들(120)의 조합을 형성할 때에는 동일한 가중치들이 사용될 수 있다.
도 2는 도 1의 인코더(100)에 대응하는 디코더(200)를 예시한다. 디코더(200)는 오디오 오브젝트 재구성을 지원하는 유형이다. 디코더(200)는 수신 구성요소(208), 디코더 구성요소(204), 및 재구성 구성요소(206)를 포함한다. 디코더(200)는 렌더러(210)를 더 포함할 수 있다. 대안적으로, 디코더(200)는 재생 시스템의 부분을 형성하는 렌더러(210)에 결합될 수 있다.
수신 구성요소(208)는 인코더(100)로부터 데이터 스트림(240)을 수신하도록 구성된다. 수신 구성요소(208)는 수신된 데이터 스트림(240)을 그것의 구성요소들, 이 경우에 M개의 인코딩된 다운믹스 신호들(226), 선택적으로 L개의 인코딩된 보조 신호들(229), M개의 다운믹스 신호들 및 L개의 보조 신호들로부터 N개의 오디오 오브젝트들의 재구성을 위한 사이드 정보(228), 및 N개의 오디오 오브젝트들과 연관된 메타데이터(222)로 역다중화하도록 구성된 역다중화 구성요소를 포함한다.
디코더 구성요소(204)는 M개의 다운믹스 신호들(224), 및 선택적으로 L개의 보조 신호들(227)을 생성하기 위해 M개의 인코딩된 다운믹스 신호들(226)을 프로세싱한다. 상기 추가로 논의된 바와 같이, M개의 다운믹스 신호들(224)은 N개의 오디오 오브젝트들로부터 인코더 측 상에서 적응적으로, 즉 어떠한 라우드스피커 구성에도 무관한 기준에 따라 N개의 오디오 오브젝트들의 조합들을 형성함으로써 형성되었다.
오브젝트 재구성 구성요소(206)는 그 후 인코더 측 상에서 도출된 사이드 정보(228)에 의해 가이딩된 M개의 다운믹스 신호들(224) 및 선택적으로 L개의 보조 신호들(227)에 기초하여 N개의 오디오 오브젝트들(220)(또는 이들 오디오 오브젝트들의 지각적으로 적합한 근사)을 재구성한다. 오브젝트 재구성 구성요소(206)는 오디오 오브젝트들의 이러한 파라메트릭 재구성을 위한 임의의 알려진 기술을 이용할 수 있다.
재구성된 N개의 오디오 오브젝트들(220)은 그 후 재생에 적합한 다채널 출력 신호(230)를 생성하기 위해 재생 시스템의 채널 구성에 대한 지식 및 오디오 오브젝트들(222)과 연관된 메타데이터(222)를 사용하여 렌더러(210)에 의해 프로세싱된다. 통상적인 스피커 재생 구성들은 22.2 및 11.1을 포함한다. 사운드바 스피커 시스템들 또는 헤드폰들(양이 프리젠테이션) 상에서의 재생은 또한 이러한 재생 시스템들을 위한 전용 렌더러들을 갖고 가능하다.
도 3은 도 1의 인코더(100)에 대응하는 저-복잡도 디코더(300)를 예시한다. 디코더(300)는 오디오 오브젝트 재구성을 지원하지 않는다. 디코더(300)는 수신 구성요소(308), 및 디코딩 구성요소(304)를 포함한다. 디코더(300)는 렌더러(310)를 더 포함할 수 있다. 대안적으로, 디코더는 재생 시스템의 부분을 형성하는 렌더러(310)에 결합된다.
상기 논의된 바와 같이, 역 호환 가능한 다운믹스(5.1 다운믹스와 같은), 즉 M개의 채널들을 가진 재생 시스템상에서의 직접 재생에 적합한 M개의 다운믹스 신호들을 포함한 다운믹스를 사용하는 종래 기술의 시스템들은 레거시 재생 시스템들(예로서, 단지 5.1 다채널 라우드스피커 셋업만을 지원하는)을 위한 저 복잡도 디코딩을 쉽게 가능하게 한다. 이러한 종래 기술의 시스템들은 통상적으로 역 호환 가능한 다운믹스 신호들 자체를 디코딩하며 사이드 정보(도 2의 아이템(228) 참조) 및 오디오 오브젝트들과 연관된 메타데이터(도 2의 아이템(222) 참조)와 같은 데이터 스트림의 부가적인 부분들을 폐기한다. 그러나, 다운믹스 신호들이 상기 설명된 바와 같이 적응적으로 형성될 때, 다운믹스 신호들은 일반적으로 레거시 시스템상에서의 직접 재생에 적합하지 않다.
디코더(300)는 단지 특정한 재생 구성만을 지원하는 레거시 재생 시스템상에서의 재생을 위해 적응적으로 형성되는 M개의 다운믹스 신호들의 저-복잡도 디코딩을 가능하게 하는 디코더의 예이다.
수신 구성요소(308)는 도 1의 인코더(100)와 같은, 인코더로부터 비트 스트림(340)을 수신한다. 수신 구성요소(308)는 비트 스트림(340)을 그것의 구성요소들로 역다중화한다. 이 경우에, 수신 구성요소(308)는 단지 인코딩된 M개의 다운믹스 신호들(326) 및 상기 M개의 다운믹스 신호들과 연관된 메타데이터(325)만을 유지할 것이다. N개의 오디오 오브젝트들(도 2의 아이템(222) 참조)과 연관된 L개의 보조 신호들(도 2의 아이템(229) 참조) 메타데이터 및 사이드 정보(도 2의 아이템(228) 참조)와 연관된 L개의 보조 신호들(도 2의 아이템(229) 참조)과 같은, 데이터 스트림(340)의 다른 구성요소들은 폐기된다.
디코딩 구성요소(304)는 M개의 다운믹스 신호들(324)을 생성하기 위해 M개의 인코딩된 다운믹스 신호들(326)을 디코딩한다. M개의 다운믹스 신호들은 그 후 다운믹스 메타데이터와 함께, 레거시 재생 포맷(통상적으로 M개의 채널들을 갖는)에 대응하는 다채널 출력(330)으로 M개의 다운믹스 신호들을 렌더링하는 렌더러(310)에 입력된다. 다운믹스 메타데이터(325)는 M개의 다운믹스 신호들(324)의 공간 위치들을 포함하기 때문에, 렌더러(310)는, 렌더러(310)가 이제 오디오 오브젝트들(220) 및 그것들의 연관된 메타데이터(222) 대신에 입력으로서 M개의 다운믹스 신호들(324) 및 M개의 다운믹스 신호들(324)과 연관된 메타데이터(325)를 취한다는 차이만을 갖고, 통상적으로 도 2의 렌더러(210)와 유사할 수 있다.
도 1에 관련하여 상기 언급된 바와 같이, N개의 오디오 오브젝트들(120)은 오디오 장면의 간소화된 표현에 대응할 수 있다.
일반적으로, 오디오 장면은 오디오 오브젝트들 및 오디오 채널들을 포함할 수 있다. 오디오 채널에 의해 여기에서 다채널 스피커 구성의 채널에 대응하는 오디오 신호가 의도된다. 이러한 다채널 스피커 구성들의 예들은 22.2 구성, 11.1 구성 등을 포함한다. 오디오 채널은 채널의 스피커 위치에 대응하는 공간 위치를 갖는 정적 오디오 오브젝트로서 해석될 수 있다.
몇몇 경우들에서, 오디오 장면에서 오디오 오브젝트들 및 오디오 채널들의 수는 100개 이상의 오디오 오브젝트들 및 1 내지 24개의 오디오 채널들과 같이, 광대할 수 있다. 이들 오디오 오브젝트들/채널들의 모두가 디코더 측 상에서 재구성된다면, 많은 계산 전력이 요구된다. 더욱이, 오브젝트 메타데이터 및 사이드 정보와 연관된 결과적인 데이터 레이트는 일반적으로 많은 오브젝트들이 입력으로서 제공된다면 매우 높을 것이다. 이러한 이유로, 디코더 측 상에서 재구성될 오디오 오브젝트들의 수를 감소시키기 위해 오디오 장면을 간소화하는 것이 유리하다. 이러한 목적을 위해, 인코더는 제 2 클러스터링 절차에 기초하여 오디오 장면에서 오디오 오브젝트들의 수를 감소시키는 클러스터링 구성요소를 포함할 수 있다. 제 2 클러스터링 절차는 동일하거나 또는 매우 유사한 위치들을 가진 오디오 오브젝트들과 같은, 오디오 장면에 존재하는 공간 리던던시를 이용하는 것을 목표로 한다. 부가적으로, 오디오 오브젝트들의 지각적 중요도가 고려될 수 있다. 일반적으로, 이러한 클러스터링 구성요소는 순차적으로 또는 도 1의 다운믹스 구성요소(102)와 병렬로 배열될 수 있다. 순차적 배열은 도 4를 참조하여 설명될 것이며 병렬 배열은 도 5를 참조하여 설명될 것이다.
도 4는 인코더(400)를 예시한다. 도 1을 참조하여 설명된 구성요소들 외에, 인코더(400)는 클러스터링 구성요소(409)를 포함한다. 클러스터링 구성요소(409)는 다운믹스 구성요소(102)와 순차적으로 배열되며, 이는 클러스터링 구성요소(409)의 출력이 다운믹스 구성요소(102)에 입력됨을 의미한다.
클러스터링 구성요소(409)는 오디오 오브젝트들(421a)의 공간 위치들을 포함한 연관된 메타데이터(423)와 함께 입력으로서 오디오 오브젝트들(421a) 및/또는 오디오 채널들(421b)을 취한다. 클러스터링 구성요소(409)는 각각의 오디오 채널(421b)을 오디오 채널(421b)에 대응하는 스피커 위치의 공간 위치와 연관시킴으로써 오디오 채널들(421b)을 정적 오디오 오브젝트들로 변환한다. 오디오 오브젝트들(421a) 및 오디오 채널들(421b)로부터 형성된 정적 오디오 오브젝트들은 제 1 복수의 오디오 오브젝트들(421)로서 보여질 수 있다.
클러스터링 구성요소(409)는 일반적으로 제 1 복수의 오디오 오브젝트들(421)을, 여기에서 도 1의 N개의 오디오 오브젝트들(120)에 대응하는, 제 2 복수의 오디오 오브젝트들로 감소시킨다. 이러한 목적을 위해, 클러스터링 구성요소(409)는 제 2 클러스터링 절차를 이용할 수 있다.
제 2 클러스터링 절차는 일반적으로 다운믹스 구성요소(102)에 대하여 상기 설명된 제 1 클러스터링 절차와 유사하다. 제 1 클러스터링 절차에 대한 설명은 그러므로 또한 제 2 클러스터링 절차에 적용한다.
특히, 제 2 클러스터링 절차는 제 1 복수의 오디오 오브젝트들(121)의 공간 근접성에 기초하여, 적어도 하나의 클러스터, 여기에서 N개의 클러스터들과 제 1 복수의 오디오 오브젝트들(121)을 연관시키는 단계를 수반한다. 상기 추가로 설명된 바와 같이, 클러스터들과의 연관은 또한 메타데이터(423)에 의해 표현된 바와 같이 오디오 오브젝트들의 다른 속성들에 기초할 수 있다. 각각의 클러스터는 그 후 상기 클러스터와 연관된 오디오 오브젝트들의 (선형) 조합인 오브젝트에 의해 표현된다. 예시된 예에서, N개의 클러스터들이 있으며 그러므로 N개의 오디오 오브젝트들(120)이 생성된다. 클러스터링 구성요소(409)는 그렇게 생성된 N개의 오디오 오브젝트들(120)에 대한 메타데이터(122)를 추가로 산출한다. 메타데이터(122)는 N개의 오디오 오브젝트들(120)의 공간 위치들을 포함한다. N개의 오디오 오브젝트들(120)의 각각의 공간 위치는 대응하는 클러스터와 연관된 오디오 오브젝트들의 공간 위치들에 기초하여 산출될 수 있다. 예로서 공간 위치는 도 1을 참조하여 상기 추가로 설명된 바와 같이 클러스터와 연관된 오디오 오브젝트들의 공간 위치들의 중심 또는 가중된 중심으로서 산출될 수 있다.
클러스터링 구성요소(409)에 의해 생성된 N개의 오디오 오브젝트들(120)은 그 후 도 1을 참조하여 추가로 설명된 바와 같이 다운믹스 구성요소(120)로 입력된다.
도 5는 인코더(500)를 예시한다. 도 1을 참조하여 설명된 구성요소들 외에, 인코더(500)는 클러스터링 구성요소(509)를 포함한다. 클러스터링 구성요소(509)는 다운믹스 구성요소(102)와 병렬로 배열되며, 이것은 다운믹스 구성요소(102) 및 클러스터링 구성요소(509)가 동일한 입력을 가진다는 것을 의미한다.
입력은 제 1 복수의 오디오 오브젝트들의 공간 위치들을 포함한 연관된 메타데이터(122)와 함께, 도 1의 N개의 오디오 오브젝트들(120)에 대응하는, 제 1 복수의 오디오 오브젝트들을 포함한다. 제 1 복수의 오디오 오브젝트들(120)은, 도 4의 제 1 복수의 오디오 오브젝트들(121)과 유사하게, 정적 오디오 오브젝트들로 변환되는 오디오 오브젝트들 및 오디오 채널들을 포함할 수 있다. 다운믹스 구성요소(102)가 오디오 장면의 간소화된 버전에 대응하는 감소된 수의 오디오 오브젝트들 상에서 동작하는 도 4의 순차적 배열과 대조적으로, 도 5의 다운믹스 구성요소(102)는 M개의 다운믹스 신호들(124)을 생성하기 위해 오디오 장면의 전체 오디오 콘텐트 상에서 동작한다.
클러스터링 구성요소(509)는 도 4를 참조하여 설명된 클러스터링 구성요소(409)에 기능적으로 유사하다. 특히, 클러스터링 구성요소(509)는 상기 설명된 제 2 클러스터링 절차를 적용함으로써, 여기에서 통상적으로 M<K<N(고 비트 애플리케이션들에 대해 M≤K≤N)인 K개의 오디오 오브젝트들에 의해 예시된, 제 2 복수의 오디오 오브젝트들(521)로 제 1 복수의 오디오 오브젝트들(120)을 감소시킨다. 제 2 복수의 오디오 오브젝트들(521)은 따라서 N개의 오디오 오브젝트들(126)에 기초하여 형성된 오디오 오브젝트들의 세트이다. 게다가, 클러스터링 구성요소(509)는 제 2 복수의 오디오 오브젝트들(521)의 공간 위치들을 포함한 제 2 복수의 오디오 오브젝트들(521)(K개의 오디오 오브젝트들)에 대한 메타데이터(522)를 산출한다. 메타데이터(522)는 역다중화 구성요소(108)에 의해 데이터 스트림(540)에 포함된다. 분석 구성요소(106)는 M개의 다운믹스 신호들(124)로부터 제 2 복수의 오디오 오브젝트들(521), 즉 N개의 오디오 오브젝트들(여기에서 K개의 오디오 오브젝트들)에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 사이드 정보(528)를 산출한다. 사이드 정보(528)는 다중화 구성요소(108)에 의해 데이터 스트림(540)에 포함된다. 상기 추가로 논의된 바와 같이, 분석 구성요소(106)는 예를 들면, 제 2 복수의 오디오 오브젝트들(521) 및 M개의 다운믹스 신호들(124)을 분석함으로써 사이드 정보(528)를 도출할 수 있다.
인코더(500)에 의해 생성된 데이터 스트림(540)은 일반적으로 도 2의 디코더(200) 또는 도 3의 디코더(300)에 의해 디코딩될 수 있다. 그러나, 도 2의 재구성된 오디오 오브젝트들(220)(N개의 오디오 오브젝트들로 라벨링된)은 이제 도 5의 제 2 복수의 오디오 오브젝트들(521)(K개의 오디오 오브젝트들로 라벨링된)에 대응하며, 오디오 오브젝트들과 연관된 메타데이터(222)(N개의 오디오 오브젝트들의 메타데이터로 라벨링된)는 이제 도 5의 제 2 복수의 오디오 오브젝트들의 메타데이터(522)(K개의 오디오 오브젝트들의 메타데이터로 라벨링된)에 대응한다.
오브젝트-기반 오디오 인코딩/디코딩 시스템들에서, 오브젝트들과 연관된 사이드 정보 또는 메타데이터는 통상적으로 연관된 데이터 레이트를 제한하기 위해 시간적으로 비교적 덜 빈번하게(드물게) 업데이트된다. 오브젝트 위치들에 대한 통상적인 업데이트 간격들은 오브젝트의 속도, 요구된 위치 정확도, 메타데이터를 저장하거나 또는 송신하기 위한 이용 가능한 대역폭 등에 의존하여, 10 및 500 밀리초들 사이에서의 범위에 있을 수 있다. 이러한 드문, 또는 심지어 불규칙적인 메타데이터 업데이트들은 두 개의 후속 메타데이터 인스턴스들 사이에서 오디오 샘플들에 대한 메타데이터 및/또는 렌더링 매트릭스들(즉, 렌더링에 이용된 매트릭스들)의 보간을 요구한다. 보간 없이, 렌더링 매트릭스에서 결과적 스텝-단위 변화들은 스텝-단위 매트릭스 업데이트들에 의해 도입된 스펙트럼 스플래터의 결과로서 바람직하지 않은 스위칭 아티팩트들, 클링킹 사운드들, 지퍼 잡음들, 또는 다른 바람직하지 않은 아티팩트들을 야기할 수 있다.
도 6은 메타데이터 인스턴스들의 세트에 기초하여, 오디오 신호들 또는 오디오 오브젝트들의 렌더링을 위한 렌더링 매트릭스들을 계산하기 위해 통상적인 알려진 프로세스를 예시한다. 도 6에 도시된 바와 같이, 메타데이터 인스턴스들(m1 내지 m4)의 세트(610)는 시간 축(620)을 따라 그것들의 위치에 의해 표시되는 시점들(t1 내지 t4)의 세트에 대응한다. 그 다음에, 각각의 메타데이터 인스턴스는 각각의 렌더링 매트릭스(c1 내지 c4)(630), 또는 렌더링 설정으로 변환되며, 이것은 메타데이터 인스턴스와 동일한 시점에서 유효하다. 따라서, 도시된 바와 같이, 메타데이터 인스턴스(m1)는 시간(t1)에서 렌더링 매트릭스(c1)를 생성하고, 메타데이터 인스턴스(m2)는 시간(t2)에서 렌더링 매트릭스(c2)를 생성한다. 간소화를 위해, 도 6은 각각의 메타데이터 인스턴스(m1 내지 m4)에 대한 단지 하나의 렌더링 매트릭스만을 도시한다. 그러나, 실제 시스템들에서, 렌더링 매트릭스(c1)는 출력 신호들(yj(t))을 생성하기 위해 각각의 오디오 신호들(xi(t))에 적용될 렌더링 매트릭스 계수들 또는 이득 계수들(c1 ,i,j)의 세트를 포함할 수 있다:
Figure pct00001
.
렌더링 매트릭스들(630)은 일반적으로 상이한 시점들에서 이득 값들을 표현하는 계수들을 포함한다. 메타데이터 인스턴스들은 특정한 별개의 시점들에서 정의되며, 메타데이터 시점들 사이에서의 오디오 샘플들에 대해, 렌더링 매트릭스는 렌더링 매트릭스들(630)을 연결하는 파선(640)에 의해 표시된 바와 같이, 보간된다. 이러한 보간은 선형적으로 수행될 수 있지만, 또한 다른 보간 방법들이 사용될 수 있다(대역-제한 보간, 사인/코사인 보간 등과 같은). 메타데이터 인스턴스들(및 대응하는 렌더링 매트릭스들) 사이에서의 시간 간격은 "보간 지속 기간"으로서 불리우며, 이러한 간격들은 균일할 수 있거나 또는 그것들은 시간들(t2 및 t3) 사이에서의 보간 지속 기간에 비교하여 시간들(t3 및 t4) 사이에서의 보다 긴 보간 지속 기간과 같이, 상이할 수 있다.
많은 경우들에서, 메타데이터 인스턴스들로부터 렌더링 매트릭스 계수들의 산출은 잘-정의되지만, (보간된) 렌더링 매트릭스를 고려해볼 때 메타데이터 인스턴스들을 산출하는 역 프로세스는 종종 어렵거나, 또는 심지어 불가능하다. 이러한 점에서, 메타데이터로부터 렌더링 매트릭스를 생성하는 프로세스는 때때로 암호 단-방향 함수로서 간주될 수 있다. 기존의 메타데이터 인스턴스들 사이에서 새로운 메타데이터 인스턴스들을 산출하는 프로세스는 메타데이터의 "재샘플링"으로서 불리운다. 메타데이터의 재샘플링은 종종 특정한 오디오 프로세싱 태스크들 동안 요구된다. 예를 들면, 오디오 콘텐트가 편집될 때, 절단/병합/믹싱 등에 의해, 이러한 편집들은 메타데이터 인스턴스들 사이에서 발생할 수 있다. 이 경우에, 메타데이터의 재샘플링이 요구된다. 또 다른 이러한 경우는 오디오 및 연관된 메타데이터가 프레임-기반 오디오 코덱을 갖고 인코딩될 때이다. 이 경우에, 송신 동안 프레임 손실들의 회복력을 개선하기 위해, 바람직하게는 상기 코덱 프레임의 시작에서 시간 스탬프를 갖고, 각각의 오디오 코덱 프레임에 대한 적어도 하나의 메타데이터 인스턴스를 갖는 것이 바람직하다. 게다가, 메타데이터의 보간은 또한 이진-값 메타데이터와 같은, 특정한 유형들의 메타데이터에 대해 효과적이지 않으며, 여기에서 표준 기술들은 약 제 2 회마다 부정확한 값을 도출할 것이다. 예를 들면, 구역 제외 마스크들과 같은 이진 플래그들이 특정한 시점들에서 렌더링으로부터 특정한 오브젝트들을 제외하기 위해 사용된다면, 렌더링 매트릭스 계수들로부터 또는 메타데이터의 이웃 인스턴스들로부터 유효한 세트의 메타데이터를 추정하는 것은 사실상 불가능하다. 이것은 시간들(t3 및 t4) 사이에서의 보간 지속 기간에서 렌더링 매트릭스 계수들로부터 메타데이터 인스턴스(m3a)를 추론하거나 또는 도출하기 위한 실패한 시도로서 도 6에 도시된다. 도 6에 도시된 바와 같이, 메타데이터 인스턴스들(mx)은 단지 시간(tx)에서의 특정한 별개의 포인트들에서 명확하게 정의되며, 이것은 결과적으로 연관된 세트의 매트릭스 계수들(cx)을 생성한다. 이들 별개의 시간들(tx) 사이에서, 매트릭스 계수들의 세트들은 과거 또는 미래 메타데이터 인스턴스들에 기초하여 보간되어야 한다. 그러나, 상기 설명된 바와 같이, 현재 메타데이터 보간 기법들은 메타데이터 보간 프로세스들에서의 피할 수 없는 부정확성들로 인해 공간 오디오 품질의 손실을 겪는다. 예시적인 실시예들에 따른, 대안적인 보간 기법들이 도 7 내지 도 11을 참조하여 이하에 설명될 것이다.
도 1 내지 도 5를 참조하여 설명된 대표적인 실시예들에서, N개의 오디오 오브젝트들(120, 220)과 연관된 메타데이터(122, 222) 및 K개의 오브젝트들(522)과 연관된 메타데이터(522)는, 적어도 몇몇 예시적인 실시예들에서, 클러스터링 구성요소들(409 및 509)에서 비롯되며 클러스터 메타데이터로서 불리울 수 있다. 뿐만 아니라, 다운믹스 신호들(124, 324)과 연관된 메타데이터(125, 325)는 다운믹스 메타데이터로서 불리울 수 있다.
도 1, 도 4 및 도 5를 참조하여 설명된 바와 같이, 다운믹스 구성요소(102)는 신호-적응적 방식으로, 즉 임의의 라우드스피커 구성에 관계없는 기준에 따라 N개의 오디오 오브젝트들(120)의 조합들을 형성함으로써 M개의 다운믹스 신호들(124)을 산출할 수 있다. 다운믹스 구성요소(102)의 이러한 동작은 제 1 양상 내에서 예시적인 실시예들의 특성을 보여준다. 다른 양상들 내에서 예시적인 실시예들에 따르면, 다운믹스 구성요소(102)는 예를 들면, 신호-적응적 방식으로, 또는 대안적으로 N개의 오디오 오브젝트들(120)의 조합들을 형성함으로써 M개의 다운믹스 신호들(124)을 산출할 수 있으며, 따라서 M개의 다운믹스 신호들은 M개의 채널들을 가진 스피커 구성의 채널들 상에서, 즉 역 호환 가능한 다운믹스로서 재생에 적합하다.
예시적인 실시예에서, 도 4를 참조하여 설명된 인코더(400)는 특히 재샘플링에, 즉 부가적인 메타데이터 및 사이드 정보 인스턴스들을 생성하는데 적합한 메타데이터 및 사이드 정보 포맷을 이용한다. 현재의 예시적인 실시예에서, 분석 구성요소(106)는 N개의 오디오 오브젝트들(120)을 재구성하기 위한 각각의 원하는 재구성 설정들을 특정한 복수의 사이드 정보 인스턴스들 및 각각의 사이드 정보 인스턴스에 대해, 현재 재구성 설정으로부터 사이드 정보 인스턴스에 의해 특정된 원하는 재구성 설정으로의 전이를 시작하기 위한 시점, 및 상기 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 포함하는 형태로 사이드 정보(128)를 산출한다. 현재 예시적인 실시예에서, 각각의 사이드 정보 인스턴스에 대한 전이 데이터의 두 개의 독립적으로 할당 가능한 부분들은: 원하는 재구성 설정으로의 전이를 시작하기 위한 시점을 표시한 시간 스탬프 및 원하는 재구성 설정으로의 전이를 시작하기 위한 시점으로부터 원하는 재구성 설정에 도달하기 위한 지속 기간을 표시한 보간 지속 기간 파라미터이다. 전이가 발생하는 간격은 현재 예시적인 실시예에서 전이가 시작하는 시간 및 전이 간격의 지속 기간에 의해 고유하게 정의된다. 사이드 정보(128)의 이러한 특정한 형태는 도 7 내지 도 11을 참조하여 이하에서 설명될 것이다. 이러한 전이 간격을 고유하게 정의하기 위한 여러 개의 다른 방식들이 있다는 것이 이해될 것이다. 예를 들면, 간격의 지속 기간에 앞서, 간격의 시작, 종료 또는 중간 포인트의 형태에서의 기준 포인트가 간격을 고유하게 정의하기 위해 전이 데이터에서 이용될 수 있다. 대안적으로, 간격의 시작 및 종료 포인트들은 간격을 고유하게 정의하기 위해 전이 데이터에서 이용될 수 있다.
현재의 예시적인 실시예에서, 클러스터링 구성요소(409)는 제 1 복수의 오디오 오브젝트들(421)을 여기에서 도 1의 N개의 오디오 오브젝트들(120)에 대응하는 제 2 복수의 오디오 오브젝트들로 감소시킨다. 클러스터링 구성요소(409)는 디코더 측에서 렌더러(210)에서 N개의 오디오 오브젝트들(122)의 렌더링을 가능하게 하는 생성된 N개의 오디오 오브젝트들(120)에 대한 클러스터 메타데이터(122)를 산출한다. 클러스터링 구성요소(409)는 N개의 오디오 오브젝트들(120)을 렌더링하기 위한 각각의 원하는 렌더링 설정들을 특정한 복수의 클러스터 메타데이터 인스턴스들, 및 각각의 클러스터 메타데이터 인스턴스에 대해, 현재 렌더링 설정으로부터 클러스터 메타데이터 인스턴스에 의해 특정된 원하는 렌더링 설정으로의 전이를 시작하기 위한 시점, 및 상기 원하는 렌더링 설정으로의 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 포함하는 형태로 클러스터 메타데이터(122)를 제공한다. 현재 예시적인 실시예에서, 각각의 클러스터 메타데이터 인스턴스에 대한 전이 데이터의 두 개의 독립적으로 할당 가능한 부분들은: 원하는 렌더링 설정으로의 전이를 시작하기 위한 시점을 표시한 시간 스탬프 및 원하는 렌더링 설정으로의 전이를 시작하기 위한 시점으로부터 원하는 렌더링 설정에 도달하기 위한 지속 기간을 표시한 보간 지속 기간 파라미터이다. 이러한 특정한 형태의 클러스터 메타데이터(122)는 도 7 내지 도 11을 참조하여 이하에서 설명될 것이다.
현재 예시적인 실시예에서, 다운믹스 구성요소(102)는 공간 위치와 각각의 다운믹스 신호(124)를 연관시키며 디코더 측에서 렌더러(310)에서의 M개의 다운믹스 신호들의 렌더링을 가능하게 하는 공간 위치를 다운믹스 메타데이터(125)에 포함시킨다. 다운믹스 구성요소(102)는 다운믹스 신호들을 렌더링하기 위해 각각의 원하는 다운믹스 렌더링 설정들을 특정한 복수의 다운믹스 메타데이터 인스턴스들, 및 각각의 다운믹스 메타데이터 인스턴스에 대해, 현재의 다운믹스 렌더링 설정으로부터 다운믹스 메타데이터 인스턴스에 의해 특정된 원하는 다운믹스 렌더링 설정으로의 전이를 시작하기 위한 시점, 및 상기 원하는 다운믹스 렌더링 설정으로의 전이를 완료하기 위한 시점을 조합하여 정의하는 두 개의 독립적으로 할당 가능한 부분들을 포함한 전이 데이터를 포함하는 형태로 다운믹스 메타데이터(125)를 제공한다. 현재의 예시적인 실시예에서, 각각의 다운믹스 메타데이터 인스턴스에 대한 전이 데이터의 두 개의 독립적으로 할당 가능한 부분들은 원하는 다운믹스 렌더링 설정으로의 전이를 시작하기 위한 시점을 표시한 시간 스탬프 및 원하는 다운믹스 렌더링 설정으로의 전이를 시작하기 위한 시점으로부터 원하는 다운믹스 렌더링 설정에 도달하기 위한 지속 기간을 표시한 보간 지속 기간 파라미터이다.
현재 예시적인 실시예에서, 동일한 포맷이 사이드 정보(128), 클러스터 메타데이터(122) 및 다운믹스 메타데이터(125)를 위해 이용된다. 이러한 포맷은 이제 오디오 신호들의 렌더링을 위한 메타데이터에 대하여 도 7 내지 도 11을 참조하여 설명될 것이다. 그러나, 도 7 내지 도 11을 참조하여 설명된 다음의 예들에서, "오디오 신호들의 렌더링을 위한 메타데이터"와 같은 용어들 또는 표현들은 "오디오 오브젝트들의 재구성을 위한 사이드 정보", "오디오 오브젝트들의 렌더링을 위한 클러스터 메타데이터" 또는 "다운믹스 신호들의 렌더링을 위한 다운믹스 메타데이터"와 같은 대응하는 용어들 또는 표현들로 대체되는 것이 좋을 수 있다는 것이 이해될 것이다.
도 7은 예시적인 실시예에 따라, 메타데이터에 기초한, 오디오 신호들의 렌더링시 이용된 계수 곡선들의 편차를 예시한다. 도 7에 도시된 바와 같이, 시간(tx)에서의 상이한 포인트들에서 생성된, 예로서 고유한 시간 스탬프들과 연관된 메타데이터 인스턴스들의 세트(mx)는 변환기(710)에 의해 대응하는 세트들의 매트릭스 계수 값들(cx)로 변환된다. 이들 세트들의 계수들은 오디오 콘텐트가 렌더링될 재생 시스템에서 다양한 스피커들 및 드라이버들로의 오디오 신호들의 렌더링을 위해 이용될, 또한 이득 인자들로서 불리우는, 이득 값들을 나타낸다. 보간기(720)는 그 후 별개의 시간들(tx) 사이에서 계수 곡선을 생성하기 위해 이득 인자들(cx)을 보간한다. 실시예에서, 각각의 메타데이터 인스턴스(mx)와 연관된 시간 스탬프들(tx)은 랜덤한 시점들, 클록 회로에 의해 생성된 동기식 시점들, 프레임 경계들과 같은 오디오 콘텐트에 관련된 시간 이벤트들, 또는 임의의 다른 적절한 타이밍된 이벤트에 대응할 수 있다. 상기 설명된 바와 같이, 도 7을 참조하여 제공된 설명은 오디오 오브젝트들의 재구성을 위한 사이드 정보에 유사하게 적용한다는 것을 주의하자.
도 8은 전이 또는 보간의 시작 시간으로서 시간 스탬프를 정의하며, 전이 지속 기간 또는 보간 지속 기간(또한 "램프 크기"로서 불리우는)을 나타내는 보간 지속 기간 파라미터에 따라 각각의 메타데이터 인스턴스를 증가시킴으로써, 상기 설명된 바와 같이, 현재 방법들과 연관된 보간 문제점들 중 적어도 일부를 다루는, 실시예(및 상기 설명된 바와 같이, 다음의 설명은 대응하는 사이드 정보 포맷에 유사하게 적용한다)에 따른 메타데이터 포맷을 예시한다. 도 8에 도시된 바와 같이, 메타데이터 인스턴스들(m2 내지 m4)의 세트(810)는 렌더링 매트릭스들(c2 내지 c4)의 세트(830)를 특정한다. 각각의 메타데이터 인스턴스는 시간(tx)에서의 특정한 포인트에서 생성되며 각각의 메타데이터 인스턴스는 그것의 시간 스탬프(m2 내지 t2, m3 내지 t3 등)에 대하여 정의된다. 연관된 렌더링 매트릭스들(830)은 각각의 메타데이터 인스턴스(810)의 연관된 시간 스탬프(t1 내지 t4)로부터, 각각의 보간 지속 기간들(d2, d3, d4)(830) 동안 전이들을 수행한 후 생성된다. 보간 지속 기간(또는 램프 크기)을 표시한 보간 지속 기간 파라미터는 각각의 메타데이터 인스턴스와 함께 포함되며, 즉 메타데이터 인스턴스(m2)는 d2를 포함하고, m3는 d3을 포함한다. 도식적으로 이것은 다음과 같이 표현될 수 있다: mx = (메타데이터(tx), dx) -> cx. 이러한 방식으로, 메타데이터는 근본적으로 현재 렌더링 설정(예로서, 이전 메타데이터로부터 기인한 현재 렌더링 매트릭스)에서 새로운 렌더링 설정(예로서, 현재 메타데이터에 기인한 새로운 렌더링 매트릭스)으로 진행하는 방법에 대한 도식을 제공한다. 각각의 메타데이터 인스턴스는 메타데이터 인스턴스가 수신되었으며 계수 곡선이 상기 계수의 이전 상태로부터 도출되는 순간에 대하여 미래에서의 특정된 시점에서 시행되도록 의도된다. 따라서, 도 8에서, m2는 지속 기간(d2) 후 c2를 생성하고, m3는 지속 기간(d3) 후 c3을 생성하며 m4는 지속 기간(d4) 후 c4를 생성한다. 보간에 대한 이러한 기법에서, 이전 메타데이터는 알려질 필요가 없으며, 단지 이전 렌더링 매트릭스 또는 렌더링 상태만이 요구된다. 이용된 보간은 시스템 제약들 및 구성들에 의존하여 선형적이거나 또는 비-선형적일 수 있다.
도 8의 메타데이터 포맷은 도 9에 도시된 바와 같이, 메타데이터의 무손실 재샘플링을 가능하게 한다. 도 9는 예시적인 실시예에 따라(및 상기 설명된 바와 같이, 다음의 설명은 대응하는 사이드 정보 포맷에 유사하게 적용한다), 메타데이터의 무손실 프로세싱의 제 1 예를 예시한다. 도 9는 보간 지속 기간들(d2 내지 d4)을 포함하여, 각각 미래 렌더링 매트릭스들(c2 내지 c4)을 나타내는 메타데이터 인스턴스들(m2 내지 m4)을 도시한다. 메타데이터 인스턴스들(m2 내지 m4)의 시간 스탬프들은 t2 내지 t4로서 제공된다. 도 9의 예에서, 메타데이터 인스턴스(m4a)가 시간(t4a)에서 부가된다. 이러한 메타데이터는 시스템의 에러 회복력을 개선하기 위해 또는 오디오 프레임의 시작/종료와 메타데이터 인스턴스들을 동기화하기 위해서와 같은, 여러 이유들로 부가될 수 있다. 예를 들면, 시간(t4a)은 메타데이터와 연관된 오디오 콘텐트를 코딩하기 위해 이용된 오디오 코덱이 새로운 프레임을 시작하는 시간을 나타낼 수 있다. 무손실 동작에 대해, m4a의 메타데이터 값들은 m4의 것들과 유사하지만(즉, 그것들 양쪽 모두는 타겟 렌더링 매트릭스(c4)를 설명한다), 상기 포인트에 도달하기 위한 시간(d4a)은 d4-d4a만큼 감소되었다. 다시 말해서, 메타데이터 인스턴스(m4a)는 c3 및 c4 사이에서의 보간 곡선이 변경되지 않도록 이전 메타데이터 인스턴스(m4)의 것과 동일하다. 그러나, 새로운 보간 지속 기간(d4a)은 원래 지속 기간(d4)보다 짧다. 이것은 메타데이터 인스턴스들의 데이터 레이트를 효과적으로 증가시키며, 이것은 에러 정정과 같은, 특정한 상황들에서 유리할 수 있다.
무손실 메타데이터 보간의 제 2 예는 도 10에 도시된다(및 상기 설명된 바와 같이, 다음의 설명은 유사하게 대응하는 사이드 정보 포맷에 적용한다). 이 예에서, 목적은 두 개의 메타데이터 인스턴스들(m3 및 m4) 사이에 새로운 세트의 메타데이터(m3a)를 포함시키는 것이다. 도 10은 렌더링 매트릭스가 시간 기간 동안 변경되지 않은 채로 있는 경우를 예시한다. 그러므로, 이 상황에서, 새로운 세트의 메타데이터(m3a)의 값들은 보간 지속 기간(d3a)을 제외하고, 이전 메타데이터(m3)의 것들과 동일하다. 보간 지속 기간(d3a)의 값은 t4 내지 t3a에 대응하는 값으로, 즉 다음 메타데이터 인스턴스(m4)와 연관된 시간(t4) 및 새로운 세트의 메타데이터(m3a)와 연관된 시간(t3a) 사이에서의 차이로 설정되어야 한다. 도 10에 예시된 경우는 예를 들면, 오디오 오브젝트가 정적이며 저작 툴이 이러한 정적 특징으로 인해 오브젝트에 대한 새로운 메타데이터를 전송하는 것을 정지할 때 발생할 수 있다. 이러한 경우에, 새로운 메타데이터 인스턴스들(m3a)을 삽입하는 것, 예로서 코덱 프레임들과 메타데이터를 동기화하는 것이 바람직할 수 있다.
도 8 내지 도 10에 예시된 예들에서, 현재에서 원하는 렌더링 매트릭스로의 보간 또는 렌더링 상태는 선형 보간에 의해 수행되었다. 다른 예시적인 실시예들에서, 상이한 보간 기법들이 또한 사용될 수 있다. 하나의 이러한 대안적인 보간 기법은 후속하는 저역-통과 필터와 조합된 샘플-및-유지 회로를 사용한다. 도 11은 예시적인 실시예에 따라(및 상기 설명된 바와 같이, 다음의 설명은 유사하게 대응하는 사이드 정보 포맷에 적용한다), 저역-통과 필터를 가진 샘플-및-유지 회로를 사용한 보간 기법을 예시한다. 도 11에 도시된 바와 같이, 메타데이터 인스턴스들(m2 내지 m4)은 샘플-및-유지 렌더링 매트릭스 계수들(c2 및 c3)로 변환된다. 샘프-및-유지 프로세스는 계수 상태들이 원하는 상태로 즉시 점프하게 하며, 이것은 도시된 바와 같이, 스텝-단위 곡선(1110)을 야기한다. 이러한 곡선(1110)은 그 후 그 다음에 평활한, 보간 곡선(1120)을 획득하기 위해 저역-통과 필터링된다. 보간 필터 파라미터들(예로서, 컷-오프 주파수 또는 시간 상수)은 시간 스탬프들 및 보간 지속 기간 파라미터들 외에, 메타데이터의 부분으로서 시그널링될 수 있다. 상이한 파라미터들이 오디오 신호의 특성들 및 시스템의 요건들에 의존하여 사용될 수 있다는 것이 이해될 것이다.
예시적인 실시예에서, 보간 지속 기간 또는 램프 크기는, 0 또는 실질적으로 그것에 가까운 값을 포함하여, 임의의 실질적인 값을 가질 수 있다. 이러한 작은 보간 지속 기간은 특히 파일의 제 1 샘플에서 즉시 렌더링 매트릭스를 설정하는 것, 또는 편집들, 스플라이싱, 또는 스트림들의 연속을 허용하는 것을 가능하게 하기 위해 초기화와 같은 경우들에 도움이 된다. 이러한 유형의 파괴적 편집들을 갖고, 렌더링 매트릭스를 즉각적으로 변경하기 위한 가능성을 갖는 것은 편집 후 콘텐트의 공간 속성들을 유지하기 위해 유리할 수 있다.
예시적인 실시예에서, 여기에 설명된 보간 기법은 메타데이터 비트레이트들을 감소시키는 데시메이션(decimation) 기법에서와 같은, 메타데이터 인스턴스들의 제거와(및 유사하게, 상기 설명된 바와 같이, 사이드 정보 인스턴스들의 제거와) 호환 가능하다. 메타데이터 인스턴스들의 제거는 시스템이 초기 프레임 레이트보다 낮은 프레임 레이트에서 재샘플링하도록 허용한다. 이 경우에, 인코더에 의해 제공되는 메타데이터 인스턴스들 및 그것들의 연관된 보간 지속 기간 데이터는 특정한 특성들에 기초하여 제거될 수 있다. 예를 들면, 인코더에서의 분석 구성요소는 신호의 상당한 정체 기간이 있는지를 결정하기 위해 오디오 신호를 분석할 수 있으며, 이러한 경우에 디코더 측으로의 데이터의 송신을 위한 대역폭 요건들을 감소시키기 위해 이미 생성된 특정한 메타데이터 인스턴스들을 제거할 수 있다. 메타데이터 인스턴스들의 제거는 대안적으로 또는 부가적으로 디코더에서 또는 트랜스코더에서와 같은, 인코더로부터 분리된 구성요소에서 수행될 수 있다. 트랜스코더는 인코더에 의해 생성되거나 또는 부가된 메타데이터 인스턴스들을 제거할 수 있으며, 오디오 신호를 제 1 레이트로부터 제 2 레이트로 재-샘플링하는 데이터 레이트 변환기에서 이용될 수 있고, 여기에서 제 2 레이트는 제 1 레이트의 정수 배이거나 또는 아닐 수 있다. 어떤 메타데이터 인스턴스들을 제거할지를 결정하기 위해 오디오 신호를 분석하는 것에 대안적으로, 인코더, 디코더 또는 트랜스코더는 메타데이터를 분석할 수 있다. 예를 들면, 도 10을 참조하여, 차이는 제 1 메타데이터 인스턴스(m3)에 의해 특정된 제 1 원하는 재구성 설정(c3)(또는 재구성 매트릭스), 및 제 1 메타데이터 인스턴스(m3)를 바로 뒤따르는 메타데이터 인스턴스들(m3a 및 m4)에 의해 특정된 원하는 재구성 설정들(c3a 및 c4)(또는 재구성 매트릭스들) 사이에서 계산될 수 있다. 차이는 예를 들면, 각각의 렌더링 매트릭스들에 대한 매트릭스 놈(norm)을 이용함으로써 계산될 수 있다. 차이가, 예를 들면, 재구성된 오디오 신호들의 용인된 왜곡에 대응하는, 미리 정의된 임계치 이하이면, 제 1 메타데이터 인스턴스(m2)를 뒤따르는 메타데이터 인스턴스들(m3a 및 m4)이 제거될 수 있다. 도 10에 예시된 예에서, 제 1 메타데이터 인스턴스(m3)를 바로 뒤따르는 메타데이터 인스턴스(m3a)는 제 1 메타데이터 인스턴스(m3)와 동일한 렌더링 설정들(c3=c3a)을 특정하며 그러므로 제거될 것인 반면, 다음 메타데이터 설정(m4)은 상이한 렌더링 설정(c4)을 특정하며 이용된 임계치에 의존하여, 메타데이터로서 유지될 수 있다.
도 2를 참조하여 설명된 디코더(200)에서, 오브젝트 재구성 구성요소(206)는 M개의 다운믹스 신호들(224) 및 사이드 정보(228)에 기초하여 N개의 오디오 오브젝트들(220)을 재구성하는 부분으로서 보간을 이용할 수 있다. 도 7 내지 도 11을 참조하여 설명된 보간 기법과 유사하게, N개의 오디오 오브젝트들(220)을 재구성하는 것은 예를 들면: 현재 재구성 설정에 따라 재구성을 수행하는 것; 사이드 정보 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서, 현재 재구성 설정으로부터 사이드 정보 인스턴스에 의해 특정된 원하는 재구성 설정으로 전이를 시작하는 것; 및 상기 사이드 정보 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서 원하는 재구성 설정으로의 전이를 완료하는 것을 포함할 수 있다.
유사하게, 렌더러(210)는 재생에 적합한 다채널 출력 신호(230)를 생성하기 위해 재구성된 N개의 오디오 오브젝트들(220)을 렌더링하는 부분으로서 보간을 이용할 수 있다. 도 7 내지 도 11을 참조하여 설명된 보간 기법과 유사하게, 렌더링은: 현재 렌더링 설정에 따라 렌더링을 수행하는 것; 클러스터 메타데이터 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서, 현재 렌더링 설정으로부터 클러스터 메타데이터 인스턴스에 의해 특정된 원하는 렌더링 설정으로 전이를 시작하는 것; 및 상기 클러스터 메타데이터 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서 원하는 렌더링 설정으로의 전이를 완료하는 것을 포함할 수 있다.
몇몇 예시적인 실시예들에서, 오브젝트 재구성 섹션(206) 및 렌더러(210)는 별개의 유닛들일 수 있으며, 및/또는 별개의 프로세스들로서 수행된 동작들에 대응할 수 있다. 다른 예시적인 실시예들에서, 오브젝트 재구성 섹션(206) 및 렌더러(210)는 재구성 및 렌더링이 조합된 동작으로서 수행되는 단일 유닛 또는 프로세스로서 구체화될 수 있다. 이러한 예시적인 실시예들에서, 재구성 및 렌더링을 위해 이용된 매트릭스들은 개별적으로 렌더링 매트릭스 및 재구성 매트릭스 상에서 보간을 수행하는 대신에, 보간될 수 있는 단일 매트릭스로 조합될 수 있다.
도 3을 참조하여 설명된, 저-복잡도 디코더(300)에서, 렌더러(310)는 다채널 출력(330)으로 M개의 다운믹스 신호들(324)을 렌더링하는 부분으로서 보간을 수행할 수 있다. 도 7 내지 도 11을 참조하여 설명된 보간 기법과 유사하게, 렌더링은: 현재의 다운믹스 렌더링 설정에 따라 렌더링을 수행하는 것; 다운믹스 메타데이터 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서, 현재 다운믹스 렌더링 설정으로부터 다운믹스 메타데이터 인스턴스에 의해 특정된 원하는 다운믹스 렌더링 설정으로 전이를 시작하는 것; 및 다운믹스 메타데이터 인스턴스에 대한 전이 데이터에 의해 정의된 시점에서 원하는 다운믹스 렌더링 설정으로의 전이를 완료하는 것을 포함할 수 있다. 이전에 설명된 바와 같이, 렌더러(310)는 디코더(300)에 포함될 수 있거나 또는 별개의 디바이스/유닛일 수 있다. 렌더러(310)가 디코더(300)로부터 분리되는 예시적인 실시예들에서, 디코더는 렌더러(310)에서 M개의 다운믹스 신호들의 렌더링을 위해 다운믹스 메타데이터(325) 및 M개의 다운믹스 신호들(324)을 출력할 수 있다.
등가물들, 확대들, 대안들 및 기타
본 개시의 추가 실시예들은 상기 설명을 연구한 후 이 기술분야의 숙련자에게 분명해질 것이다. 본 설명 및 도면들이 실시예들 및 예들을 개시하지만, 개시는 이들 특정 예들에 제한되지 않는다. 다수의 수정들 및 변화들이, 첨부한 청구항들에 의해 정의되는, 본 개시의 범위로부터 벗어나지 않고 이루어질 수 있다. 청구항들에서 나타나는 임의의 참조 부호들은 그것들의 범위를 제한하는 것으로서 이해되지 않는다.
부가적으로, 개시된 실시예들에 대한 변화들은 도면들, 개시, 및 첨부된 청구항들의 연구로부터, 개시를 실시할 때 숙련자에 의해 이해되며 실시될 수 있다. 청구항들에서, 단어("포함하는")는 다른 요소들 또는 단계들을 제외하지 않으며, 부정관사("a" 또는 "an")는 복수를 제외하지 않는다. 특정한 조치들이 상호 상이한 종속 청구항들에서 열거된다는 유일한 사실은 이들 조치들의 조합이 유리하게 하기 위해 사용될 수 없음을 표시하지 않는다.
위에 개시된 시스템들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 그것의 조합으로서 구현될 수 있다. 하드웨어 구현에서, 상기 설명에서 언급된 기능 유닛들 사이에서의 태스크들의 분할은 반드시 물리적 유닛들로의 분할에 대응하는 것은 아니며; 그와는 반대로, 하나의 물리적 구성요소는 다수의 기능들을 가질 수 있으며 하나의 태스크는 여러 개의 물리적 구성요소들에 의해 협력하여 실행될 수 있다. 특정한 구성요소들 또는 모든 구성요소들은 디지털 신호 프로세서 또는 마이크로프로세서에 의해 실행된 소프트웨어로서 구현될 수 있거나, 또는 하드웨어로서 또는 애플리케이션-특정 집적 회로로서 구현될 수 있다. 이러한 소프트웨어는 컴퓨터 판독 가능한 미디어 상에 분포될 수 있으며, 이것은 컴퓨터 저장 미디어(또는 비-일시적 미디어) 및 통신 미디어(또는 일시적 미디어)를 포함할 수 있다. 이 기술분야의 숙련자에게 잘 알려진 바와 같이, 용어(컴퓨터 저장 미디어)는 컴퓨터 판독 가능한 지시들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 착탈 가능한 및 착탈 가능하지 않은 미디어 양쪽 모두를 포함한다. 컴퓨터 저장 미디어는 이에 제한되지 않지만, RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다용도 디스크들(DVD) 또는 다른 광 디스크 저장 장치, 자기 카세트들, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함한다. 뿐만 아니라, 통신 미디어는 통상적으로 캐리어 파 또는 다른 수송 메커니즘과 같은 변조된 데이터 신호에서 컴퓨터 판독 가능한 지시들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터를 구체화하며 임의의 정보 전달 미디어를 포함한다는 것이 숙련자에게 잘 알려져 있다.
모든 도면들은 개략적으며 일반적으로 단지 개시를 설명하기 위해 필요한 부분들만을 도시하는 반면, 다른 부분들은 생략되거나 또는 단지 제안될 수 있다. 달리 표시되지 않는다면, 유사한 참조 부호들은 상이한 도면들에서 유사한 부분들을 나타낸다.
100: 인코더 102: 다운믹스 구성요소
104: 인코더 구성요소 106: 분석 구성요소
108: 다중화 구성요소 120: 오디오 오브젝트
122: 메타데이터 124: 다운믹스 신호
125: 메타데이터 127: 보조 오디오 신호
128: 사이드 정보 129: 보조 신호
140: 데이터 스트림 200: 디코더
204: 디코더 구성요소 206: 재구성 구성요소
208: 수신 구성요소 210: 렌더러
220: 오디오 오브젝트 222: 메타데이터
227: 보조 신호 228: 사이드 정보
230: 다채널 출력 신호 240: 데이터 스트림
300: 저-복잡도 디코더 304: 디코딩 구성요소
308: 수신 구성요소 310: 렌더러
325: 다운믹스 메타데이터 330: 다채널 출력
400: 인코더 409: 클러스터링 구성요소
423: 메타데이터 500: 인코더
509: 클러스터링 구성요소 521: 오디오 오브젝트
522: 메타데이터 528: 사이드 정보
540: 데이터 스트림 720: 보간기

Claims (27)

  1. 데이터 스트림으로 오디오 오브젝트들을 인코딩하기 위한 방법에 있어서:
    N개의 오디오 오브젝트들을 수신하는 단계로서, N>1인, 상기 수신 단계;
    어떠한 라우드스피커 구성에도 무관한 기준에 따라 상기 N개의 오디오 오브젝트들의 조합들을 형성함으로써 M개의 다운믹스 신호들을 산출하는 단계로서, M≤N인, 상기 M개의 다운믹스 신호들 산출 단계;
    상기 M개의 다운믹스 신호들로부터 상기 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 사이드 정보(side information)를 산출하는 단계; 및
    디코더로의 송신을 위해 데이터 스트림에 상기 M개의 다운믹스 신호들 및 상기 사이드 정보를 포함시키는 단계를 포함하는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  2. 제 1 항에 있어서,
    각각의 다운믹스 신호를 공간 위치와 연관시키고, 상기 다운믹스 신호들의 공간 위치들을 상기 다운믹스 신호들에 대한 메타데이터로서 상기 데이터 스트림에 포함시키는 단계를 더 포함하는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  3. 제 2 항에 있어서,
    상기 N개의 오디오 오브젝트들은 상기 N개의 오디오 오브젝트들의 공간 위치들을 포함한 메타데이터와 연관되고, 상기 다운믹스 신호들과 연관된 공간 위치들은 상기 N개의 오디오 오브젝트들의 공간 위치들에 기초하여 산출되는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  4. 제 3 항에 있어서,
    상기 N개의 오디오 오브젝트들의 공간 위치들 및 상기 M개의 다운믹스 신호들과 연관된 공간 위치들은 시변적인(time-varying), 오디오 오브젝트들을 인코딩하기 위한 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 사이드 정보는 시변적인 오디오 오브젝트들을 인코딩하기 위한 방법.
  6. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 N개의 오디오 오브젝트들은 상기 N개의 오디오 오브젝트들의 공간 위치들을 포함한 메타데이터와 연관되고, 상기 M개의 다운믹스 신호들을 산출하기 위한 기준은 상기 N개의 오디오 오브젝트들의 공간 근접성에 기초하는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  7. 제 6 항에 있어서,
    상기 N개의 오디오 오브젝트들과 연관된 메타데이터는 또한 서로에 관하여 N개의 오디오 오브젝트들의 중요도를 표시한 중요도 값들을 포함하고, 상기 M개의 다운믹스 신호들을 산출하기 위한 기준은 또한 상기 N개의 오디오 오브젝트들의 중요도 값들에 기초하는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 M개의 다운믹스 신호들을 산출하는 단계는, 상기 N개의 오디오 오브젝트들의 공간 근접성 및 적용가능하다면 중요도 값들에 기초하여 상기 N개의 오디오 오브젝트들을 M개의 클러스터들과 연관시키는 단계와 상기 클러스터와 연관된 오디오 오브젝트들의 조합을 형성함으로써 각각의 클러스터에 대해 다운믹스 신호를 산출하는 단계를 포함한 제 1 클러스터링 절차를 포함하는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  9. 제 8 항에 있어서,
    각각의 다운믹스 신호는 상기 다운믹스 신호에 대응하는 클러스터와 연관된 오디오 오브젝트들의 공간 위치들에 기초하여 산출되는 공간 위치와 연관되는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  10. 제 9 항에 있어서,
    각각의 다운믹스 신호와 연관된 공간 위치는 상기 다운믹스 신호에 대응하는 클러스터와 연관된 오디오 오브젝트들의 공간 위치들의 중심 또는 가중된 중심으로서 산출되는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  11. 제 8 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 N개의 오디오 오브젝트들은 상기 N개의 오디오 오브젝트들의 공간 위치들을 입력으로서 갖는 K-평균 알고리즘을 적용함으로써 상기 M개의 클러스터들과 연관되는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
    제 1 복수의 오디오 오브젝트들을 제 2 복수의 오디오 오브젝트들로 감소시키기 위한 제 2 클러스터링 절차를 더 포함하며,
    상기 제 1 및 상기 제 2 복수의 오디오 오브젝트들 중 하나는 상기 N개의 오디오 오브젝트들에 대응하는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  13. 제 12 항에 있어서,
    상기 제 2 클러스터링 절차는:
    상기 제 1 복수의 오디오 오브젝트들 및 그에 연관되는 공간 위치들을 수신하는 단계;
    상기 제 1 복수의 오디오 오브젝트들의 공간 근접성에 기초하여 상기 제 1 복수의 오디오 오브젝트들을 적어도 하나의 클러스터와 연관시키는 단계;
    상기 클러스터와 연관된 오디오 오브젝트들의 조합인 오디오 오브젝트에 의해 상기 적어도 하나의 클러스터의 각각을 표현함으로써 상기 제 2 복수의 오디오 오브젝트들을 생성하는 단계;
    상기 제 2 복수의 오디오 오브젝트들에 대해 공간 위치들을 포함한 메타데이터를 산출하는 단계로서, 상기 제 2 복수의 오디오 오브젝트들의 각각의 오디오 오브젝트의 공간 위치가 상기 대응하는 클러스터와 연관된 오디오 오브젝트들의 공간 위치들에 기초하여 산출되는, 상기 메타데이터 산출 단계; 및
    상기 제 2 복수의 오디오 오브젝트들에 대한 메타데이터를 상기 데이터 스트림에 포함시키는 단계를 포함하는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  14. 제 13 항에 있어서,
    상기 제 2 클러스터링 절차는:
    적어도 하나의 오디오 채널을 수신하는 단계;
    상기 적어도 하나의 오디오 채널의 각각을 그 오디오 채널의 라우드스피커 위치에 대응하는 정적 공간 위치를 가진 오디오 오브젝트로 변환하는 단계; 및
    상기 제 1 복수의 오디오 오브젝트들에 상기 변환된 적어도 하나의 오디오 채널을 포함시키는 단계를 더 포함하는, 오디오 오브젝트들을 인코딩하기 위한 방법.
  15. 제 12 항 내지 제 14 항 중 어느 한 항에 있어서,
    상기 제 2 복수의 오디오 오브젝트들은 상기 N개의 오디오 오브젝트들에 대응하고, 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트는 상기 N개의 오디오 오브젝트들에 대응하는, 오디오 오브젝트들을 재구성하기 위한 방법.
  16. 제 12 항 내지 제 14 항 중 어느 한 항에 있어서,
    상기 제 1 복수의 오디오 오브젝트들은 상기 N개의 오디오 오브젝트들에 대응하고, 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트는 상기 제 2 복수의 오디오 오브젝트들에 대응하는, 오디오 오브젝트들을 재구성하기 위한 방법.
  17. 제 1 항 내지 제 16 항 중 어느 한 항의 방법을 실행하기 위한 지시들을 갖는 컴퓨터 판독 가능한 매체를 포함하는, 컴퓨터 프로그램 제품.
  18. 데이터 스트림으로 오디오 오브젝트들을 인코딩하기 위한 인코더에 있어서:
    N개의 오디오 오브젝트들을 수신하도록 구성된 수신 구성요소로서, N>1인, 상기 수신 구성요소;
    어떠한 라우드스피커 구성에도 무관한 기준에 따라 상기 N개의 오디오 오브젝트들의 조합들을 형성함으로써 M개의 다운믹스 신호들을 산출하도록 구성된 다운믹스 구성요소로서, M≤N인, 상기 다운믹스 구성요소;
    상기 M개의 다운믹스 신호들로부터 상기 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 사이드 정보를 산출하도록 구성된 분석 구성요소; 및
    디코더로의 송신을 위한 데이터 스트림에 상기 M개의 다운믹스 신호들 및 상기 사이드 정보를 포함시키도록 구성된 다중화 구성요소를 포함하는, 오디오 오브젝트들을 인코딩하기 위한 인코더.
  19. 디코더에서, 인코딩된 오디오 오브젝트들을 포함한 데이터 스트림을 디코딩하기 위한 방법에 있어서:
    어떠한 라우드스피커 구성에도 무관한 기준에 따라 산출된 N개의 오디오 오브젝트들의 조합들인 M개의 다운믹스 신호들로서, M≤N인, 상기 M개의 다운믹스 신호들, 및 상기 M개의 다운믹스 신호들로부터 상기 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 사이드 정보를 포함하는 데이터 스트림을 수신하는 단계; 및
    상기 M개의 다운믹스 신호들 및 상기 사이드 정보로부터 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하는 단계를 포함하는, 데이터 스트림을 디코딩하기 위한 방법.
  20. 제 19 항에 있어서,
    상기 데이터 스트림은 상기 M개의 다운믹스 신호들과 연관된 공간 위치들을 포함한 상기 M개의 다운믹스 신호들에 대한 메타데이터를 더 포함하며,
    상기 방법은:
    상기 디코더가 오디오 오브젝트 재구성을 지원하도록 구성되는 조건에서, 상기 M개의 다운믹스 신호들 및 상기 사이드 정보로부터 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하는 상기 단계를 수행하는 단계; 및
    상기 디코더가 오디오 오브젝트 재구성을 지원하도록 구성되지 않은 조건에서, 재생 시스템의 출력 채널들에 대한 상기 M개의 다운믹스 신호들의 렌더링을 위해 상기 M개의 다운믹스 신호들에 대한 메타데이터를 사용하는 단계를 더 포함하는, 데이터 스트림을 디코딩하기 위한 방법.
  21. 제 20 항에 있어서,
    상기 M개의 다운믹스 신호들과 연관된 상기 공간 위치들은 시변적인, 데이터 스트림을 디코딩하기 위한 방법.
  22. 제 19 항 내지 제 21 항 중 어느 한 항에 있어서,
    상기 사이드 정보는 시변적인, 데이터 스트림을 디코딩하기 위한 방법.
  23. 제 19 항 내지 제 22 항 중 어느 한 항에 있어서,
    상기 데이터 스트림은 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트의 공간 위치들을 포함한 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트에 대한 메타데이터를 더 포함하며, 상기 방법은:
    재생 시스템의 출력 채널들에 대한 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 재구성된 세트의 렌더링을 위해 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트에 대한 메타데이터를 사용하는 단계를 더 포함하는, 데이터 스트림을 디코딩하기 위한 방법.
  24. 제 19 항 내지 제 23 항 중 어느 한 항에 있어서,
    상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트는 상기 N개의 오디오 오브젝트들과 동일한, 데이터 스트림을 디코딩하기 위한 방법.
  25. 제 19 항 내지 제 23 항 중 어느 한 항에 있어서,
    상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트는 상기 N개의 오디오 오브젝트들의 조합들인 복수의 오디오 오브젝트들을 포함하며, 그 수는 N보다 작은, 데이터 스트림을 디코딩하기 위한 방법.
  26. 제 19 항 내지 제 25 항 중 어느 한 항의 방법을 실행하기 위한 지시들을 갖는 컴퓨터 판독 가능한 매체를 포함하는, 컴퓨터 프로그램 제품.
  27. 인코딩된 오디오 오브젝트들을 포함한 데이터 스트림을 디코딩하기 위한 디코더에 있어서:
    어떠한 라우드스피커 구성에도 무관한 기준에 따라 산출된 N개의 오디오 오브젝트들의 조합들인 M개의 다운믹스 신호들로서, M≤N인, 상기 M개의 다운믹스 신호들, 및 상기 M개의 다운믹스 신호들로부터 상기 N개의 오디오 오브젝트들에 기초하여 형성된 오디오 오브젝트들의 세트의 재구성을 가능하게 하는 파라미터들을 포함한 사이드 정보를 포함하는 데이터 스트림을 수신하도록 구성된 수신 구성요소; 및
    상기 M개의 다운믹스 신호들 및 상기 사이드 정보로부터 상기 N개의 오디오 오브젝트들에 기초하여 형성된 상기 오디오 오브젝트들의 세트를 재구성하도록 구성된 재구성 구성요소를 포함하는, 데이터 스트림을 디코딩하기 위한 디코더.
KR1020157033447A 2013-05-24 2014-05-23 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩 KR101760248B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361827246P 2013-05-24 2013-05-24
US61/827,246 2013-05-24
US201361893770P 2013-10-21 2013-10-21
US61/893,770 2013-10-21
US201461973623P 2014-04-01 2014-04-01
US61/973,623 2014-04-01
PCT/EP2014/060733 WO2014187990A1 (en) 2013-05-24 2014-05-23 Efficient coding of audio scenes comprising audio objects

Publications (2)

Publication Number Publication Date
KR20160003058A true KR20160003058A (ko) 2016-01-08
KR101760248B1 KR101760248B1 (ko) 2017-07-21

Family

ID=50943284

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157033447A KR101760248B1 (ko) 2013-05-24 2014-05-23 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩

Country Status (10)

Country Link
US (1) US9892737B2 (ko)
EP (1) EP3005356B1 (ko)
JP (1) JP6190947B2 (ko)
KR (1) KR101760248B1 (ko)
CN (1) CN105229732B (ko)
BR (2) BR112015029129B1 (ko)
ES (1) ES2640815T3 (ko)
HK (1) HK1213685A1 (ko)
RU (1) RU2630754C2 (ko)
WO (1) WO2014187990A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2701060C2 (ru) * 2014-09-30 2019-09-24 Сони Корпорейшн Передающее устройство, способ передачи, приемное устройство и способ приема
RU2700405C2 (ru) * 2014-10-16 2019-09-16 Сони Корпорейшн Устройство передачи данных, способ передачи данных, приёмное устройство и способ приёма
EP3258467B1 (en) * 2015-02-10 2019-09-18 Sony Corporation Transmission and reception of audio streams
CN106162500B (zh) * 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
WO2016194563A1 (ja) 2015-06-02 2016-12-08 ソニー株式会社 送信装置、送信方法、メディア処理装置、メディア処理方法および受信装置
US10277997B2 (en) 2015-08-07 2019-04-30 Dolby Laboratories Licensing Corporation Processing object-based audio signals
US10278000B2 (en) 2015-12-14 2019-04-30 Dolby Laboratories Licensing Corporation Audio object clustering with single channel quality preservation
US10779106B2 (en) 2016-07-20 2020-09-15 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
CN113242508B (zh) 2017-03-06 2022-12-06 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
EP3693961B1 (en) * 2017-10-05 2024-06-12 Sony Group Corporation Encoding device and method, decoding device and method, and program
CN108733342B (zh) * 2018-05-22 2021-03-26 Oppo(重庆)智能科技有限公司 音量调节方法、移动终端及计算机可读存储介质
JP7504091B2 (ja) 2018-11-02 2024-06-21 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびオーディオ・デコーダ
JP7468359B2 (ja) * 2018-11-20 2024-04-16 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
CN113490980A (zh) * 2019-01-21 2021-10-08 弗劳恩霍夫应用研究促进协会 用于编码空间音频表示的装置和方法以及用于使用传输元数据来解码经编码的音频信号的装置和方法,以及相关的计算机程序
EP4089673A4 (en) * 2020-01-10 2023-01-25 Sony Group Corporation ENCODING DEVICE AND METHOD, DECODING DEVICE AND METHOD, AND PROGRAM
WO2022177871A1 (en) * 2021-02-20 2022-08-25 Dolby Laboratories Licensing Corporation Clustering audio objects

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567675B2 (en) 2002-06-21 2009-07-28 Audyssey Laboratories, Inc. System and method for automatic multiple listener room acoustic correction with low filter orders
DE10344638A1 (de) 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7813513B2 (en) 2004-04-05 2010-10-12 Koninklijke Philips Electronics N.V. Multi-channel encoder
GB2415639B (en) 2004-06-29 2008-09-17 Sony Comp Entertainment Europe Control of data processing
JP4610650B2 (ja) 2005-03-30 2011-01-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多チャンネルオーディオ符号化
WO2007027051A1 (en) * 2005-08-30 2007-03-08 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CN101484936B (zh) 2006-03-29 2012-02-15 皇家飞利浦电子股份有限公司 音频解码
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8271290B2 (en) * 2006-09-18 2012-09-18 Koninklijke Philips Electronics N.V. Encoding and decoding of audio objects
RU2009116279A (ru) * 2006-09-29 2010-11-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. (KR) Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
RU2551797C2 (ru) 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
ES2399562T3 (es) 2006-10-13 2013-04-02 Auro Technologies Método y codificador para combinar conjuntos de datos digitales, método para descodificar y descodificador para tales conjuntos de datos digitales combinados y soporte de grabación para almacenar tales conjuntos de datos digitales combinados
CA2874451C (en) * 2006-10-16 2016-09-06 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
CN101529504B (zh) 2006-10-16 2012-08-22 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法
EP2095365A4 (en) * 2006-11-24 2009-11-18 Lg Electronics Inc METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF
CN101490745B (zh) * 2006-11-24 2013-02-27 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
US8290167B2 (en) 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
EP2082396A1 (en) 2007-10-17 2009-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
WO2009084914A1 (en) 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101461685B1 (ko) 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
BRPI0905069A2 (pt) * 2008-07-29 2015-06-30 Panasonic Corp Aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de codificação e de descodificação de áudio e sistema de teleconferência
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2214161A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
WO2011013381A1 (ja) 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
JP5635097B2 (ja) 2009-08-14 2014-12-03 ディーティーエス・エルエルシーDts Llc オーディオオブジェクトを適応的にストリーミングするためのシステム
US9432790B2 (en) 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
KR101418661B1 (ko) 2009-10-20 2014-07-14 돌비 인터네셔널 에이비 다운믹스 시그널 표현에 기초한 업믹스 시그널 표현을 제공하기 위한 장치, 멀티채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치, 왜곡 제어 시그널링을 이용하는 방법들, 컴퓨터 프로그램 및 비트 스트림
MY154641A (en) 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
TWI444989B (zh) 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
RU2559899C2 (ru) 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
GB2485979A (en) 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
JP2012151663A (ja) 2011-01-19 2012-08-09 Toshiba Corp 立体音響生成装置及び立体音響生成方法
US9026450B2 (en) * 2011-03-09 2015-05-05 Dts Llc System for dynamically creating and rendering audio objects
EP2829083B1 (en) 2012-03-23 2016-08-10 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2883366B8 (en) 2012-08-07 2016-12-14 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
EP4300488A3 (en) 2013-04-05 2024-02-28 Dolby International AB Stereo audio encoder and decoder
KR101895198B1 (ko) 2013-05-24 2018-09-07 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
CN117012210A (zh) 2013-05-24 2023-11-07 杜比国际公司 对音频场景进行解码的方法、装置及计算机可读介质
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix

Also Published As

Publication number Publication date
JP6190947B2 (ja) 2017-08-30
BR112015029129B1 (pt) 2022-05-31
WO2014187990A1 (en) 2014-11-27
CN105229732B (zh) 2018-09-04
HK1213685A1 (zh) 2016-07-08
US20160125887A1 (en) 2016-05-05
US9892737B2 (en) 2018-02-13
KR101760248B1 (ko) 2017-07-21
EP3005356A1 (en) 2016-04-13
ES2640815T3 (es) 2017-11-06
EP3005356B1 (en) 2017-08-09
BR112015029129A2 (pt) 2017-07-25
RU2015150055A (ru) 2017-05-26
JP2016522911A (ja) 2016-08-04
CN105229732A (zh) 2016-01-06
RU2630754C2 (ru) 2017-09-12
BR122020017144B1 (pt) 2022-05-03

Similar Documents

Publication Publication Date Title
US11705139B2 (en) Efficient coding of audio scenes comprising audio objects
KR101760248B1 (ko) 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
US9756448B2 (en) Efficient coding of audio scenes comprising audio objects
AU2014295271B2 (en) Apparatus and method for efficient object metadata coding
JP7413418B2 (ja) 信号をインタリーブするためのオーディオ復号器
TWI644308B (zh) Decoding device and method, and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant