KR20220100084A - 채널-기반 오디오로부터 객체-기반 오디오로의 변환을 위한 시스템, 방법 및 장치 - Google Patents

채널-기반 오디오로부터 객체-기반 오디오로의 변환을 위한 시스템, 방법 및 장치 Download PDF

Info

Publication number
KR20220100084A
KR20220100084A KR1020227022443A KR20227022443A KR20220100084A KR 20220100084 A KR20220100084 A KR 20220100084A KR 1020227022443 A KR1020227022443 A KR 1020227022443A KR 20227022443 A KR20227022443 A KR 20227022443A KR 20220100084 A KR20220100084 A KR 20220100084A
Authority
KR
South Korea
Prior art keywords
audio
channel
oamd
bitstream
metadata
Prior art date
Application number
KR1020227022443A
Other languages
English (en)
Other versions
KR102471715B1 (ko
Inventor
마이클 씨. 워드
프레디 산체스
크리스토프 페르쉬
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션, 돌비 인터네셔널 에이비 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20220100084A publication Critical patent/KR20220100084A/ko
Application granted granted Critical
Publication of KR102471715B1 publication Critical patent/KR102471715B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

채널-기반 오디오(CBA)(예를 들어, 22.2-ch 오디오) 대 객체-기반 오디오(OBA) 변환을 위한 실시예가 개시된다. 변환은 CBA 메타데이터를 객체 오디오 메타데이터(OAMD)로 변환하는 단계 및 OAMD의 채널 순서화 제약에 따라 도출된 채널 셔플 정보를 기초로 CBA 채널을 재정렬하는 단계를 포함한다. 재정렬된 채널을 갖는 OBA는 OAMD를 사용하여 재생 디바이스 또는 셋톱박스 또는 오디오/비디오 레코더와 같은 소스 디바이스에서 렌더링된다. 실시예에서, CBA 메타데이터는 메타데이터의 변환에서 사용될 특정 OAMD 표현을 나타내는 시그널링을 포함한다. 실시예에서, 미리-계산된 OAMD는 (예를 들어, HDMI를 통한) 송신을 위해 또는 소스 디바이스에서의 렌더링을 위해 네이티브 오디오 비트스트림(예를 들어, AAC)에서 송신된다. 실시예에서, 미리-계산된 OAMD는 전송 계층 비트스트림(예를 들어, ISO BMFF, MPEG4 오디오 비트스트림)에서 재생 디바이스 또는 소스 디바이스로 송신된다.

Description

채널-기반 오디오로부터 객체-기반 오디오로의 변환을 위한 시스템, 방법 및 장치
연관된 출원에 대한 상호 참조
본 출원은 2019년 12월 2일에 출원된 미국가출원 제62/942,322호 및 2019년 12월 2일에 출원된 유럽특허출원 제19212906.2호의 우선권을 주장하며, 이들 모두는 그 전체가 참고로 본원에 통합된다.
기술분야
본 개시는 일반적으로 채널-기반 오디오로부터 객체-기반 오디오로의 변환을 포함하는 오디오 신호 처리에 관한 것이다.
채널-기반 오디오(channel-based audio, CBA) 코딩에서, 트랙의 세트는 트랙의 세트를 채널 구성과 연관시킴으로써 특정 확성기에 암묵적으로 할당된다. 재생 스피커 구성이 코딩된 채널 구성과 상이한 경우, 오디오를 이용 가능한 스피커로 재분배하는데 다운믹싱(downmixing) 또는 업믹싱(upmixing) 사양이 요구된다. 이 패러다임은 잘 알려져 있고, 디코딩 종료 시 채널 구성이 미리 결정될 수 있거나 또는 2.0, 5.X 또는 7.X로 합리적인 확실성을 갖는 것으로 가정될 때 작동된다. 하지만, 새로운 스피커 설정의 인기로 인하여, 재생에 사용되는 스피커 설정에 대해서는 가정이 이루어질 수 없다. 그러므로, CBA는 소스 스피커 레이아웃이 디코딩 종료 시 스피커 레이아웃과 일치하지 않는 표현을 적응시키기 위한 충분한 방법을 제공하지 않는다. 이는 스피커 구성과 독립적으로 양호하게 재생되는 콘텐츠를 생성(author)하려 할 때 과제를 제시한다.
객체-기반 오디오(object-based audio, OBA) 코딩에서, 렌더링은 개별적으로 할당된 객체 속성을 포함하는 메타데이터와 함께, 객체 오디오 에센스(object audio essence)를 포함하는 객체에 적용된다. 속성(예를 들어, x, y, z 위치 또는 채널 위치)은 콘텐츠 생성자가 오디오 콘텐츠를 어떻게 렌더링할 지를 더욱 명시적으로 지정한다(즉, 이는 에센스를 스피커로 어떻게 렌더링할지에 대한 제약을 둔다). 개별적인 사운드 요소가 훨씬 더 풍부한 메타데이터의 세트와 연관되고 요소에 의미를 부여할 수 있기 때문에, 오디오를 재생하는 스피커 구성으로의 적응 방법은 더 적은 수의 스피커에 어떻게 렌더링할 지에 대해 더 나은 정보를 제공할 수 있다.
ETSI TS 102 366[1]에 정의된 향상된 AC-3(E-AC-3)과 같은 CBA 콘텐츠의 송신을 위한 몇 개의 표준화된 포맷이 있다. 이미 존재하는 디바이스와의 호환성을 보장하기 위해, 공동 객체 코딩(joint object coding, JOC)이 OBA를 전송하기 위해 표준화된 CBA 포맷과 함께 사용될 수 있다. JOC는 낮은 비트 레이트로 몰입형 오디오를 전달하며, 이는 디코더에서 다운믹스로부터 오디오 객체의 재구성을 가능하게 하는 파라메트릭 부가 정보와 함께 지각 오디오 코딩 알고리즘을 사용하여 몰입형 콘텐츠의 다중-채널 다운믹스를 전달함으로써 달성된다. 텔레비전 방송과 같은 일부 응용에서, 콘텐츠가 OBA 재생 디바이스의 설치 기반과 호환되도록 CBA 콘텐츠를 OBA 콘텐츠로 표현하는 것이 바람직하다. 하지만, CBA 및 OBA에 대한 표준화된 비트스트림 포맷은 완전히 호환되지 않는다.
CBA 콘텐츠 대 OBA 콘텐츠를 변환하고, 특정 실시예에서 OBA 호환 가능한 재생 디바이스 상에서의 재생을 위해 22.2 채널 콘텐츠를 OBA 콘텐츠로 변환하기 위한 실시예가 개시된다.
실시예에서, 방법은: 오디오 처리 장치의 하나 이상의 프로세서에 의해, 채널-기반 오디오 및 연관된 채널-기반 오디오 메타데이터를 포함하는 비트스트림을 수신하는 단계를 포함하고; 하나 이상의 프로세서는: 채널-기반 오디오 메타데이터로부터 시그널링 매개변수를 파싱하고 - 시그널링 매개변수는 복수의 상이한 객체 오디오 메타데이터(object audio metadata, OAMD) 표현 중 하나를 나타내고, OAMD 표현의 각각의 것은 채널-기반 오디오의 하나 이상의 오디오 채널을 하나 이상의 오디오 객체에 매핑함 -; 시그널링 매개변수에 의해 나타난 OAMD 표현을 사용하여 채널-기반 메타데이터를 하나 이상의 오디오 객체와 연관된 OAMD로 변환하고; OAMD의 채널 순서화 제약을 기초로 채널 셔플 정보(channel shuffle information)를 생성하고; 재정렬된 채널-기반 오디오를 생성하기 위해 채널 셔플 정보를 기초로 채널-기반 오디오의 오디오 채널을 재정렬하고; 및 OAMD를 사용하여 재정렬된 채널-기반 오디오를 렌더링된 오디오로 렌더링하거나; 또는 재정렬된 채널-기반 오디오 및 OAMD를 객체-기반 오디오 비트스트림으로 인코딩하고 객체-기반 오디오 비트스트림을 재생 디바이스 또는 소스 디바이스로 송신하도록 구성된다.
실시예에서, 채널-기반 오디오 및 메타데이터는 네이티브 오디오 비트스트림(native audio bitstream)에 포함되고, 방법은 채널-기반 오디오 및 메타데이터를 복원하기 위해(즉, 결정하거나 추출하기 위해) 네이티브 오디오 비트스트림을 디코딩하는 단계를 더 포함한다.
실시예에서, 채널-기반 오디오 및 메타데이터는 N.M 채널-기반 오디오 및 메타데이터이고, 여기서 N은 9보다 큰 양의 정수이고 M은 0 이상의 양의 정수이다.
실시예에서, 방법은: OAMD 베드 채널(bed channel)에 의해 표현될 수 있는 채널-기반 오디오의 제1 세트의 채널을 결정하는 단계; OAMD 베드 채널 라벨을 제1 세트의 채널에 할당하는 단계; OAMD 베드 채널에 의해 표현될 수 없는 채널-기반 오디오의 제2 세트의 채널을 결정하는 단계; 및 정적 OAMD 위치 좌표를 제2 세트의 채널에 할당하는 단계를 더 포함한다.
실시예에서, 방법은: 오디오 처리 장치의 하나 이상의 프로세서에 의해, 채널-기반 오디오 및 메타데이터를 포함하는 비트스트림을 수신하는 단계를 포함하고; 하나 이상의 프로세서는: 채널-기반 오디오를 네이티브 오디오 비트스트림으로 인코딩하고; 메타데이터로부터 시그널링 매개변수를 파싱하고 - 시그널링 매개변수는 복수의 상이한 객체 오디오 메타데이터(OAMD) 표현 중 하나를 나타냄 -; 시그널링 매개변수에 의해 나타난 OAMD 표현을 사용하여 채널-기반 메타데이터를 OAMD로 변환하고; OAMD의 채널 순서화 제약을 기초로 채널 셔플 정보를 생성하고; 네이티브 오디오 비트스트림, 채널 셔플 정보 및 OAMD를 포함하는 비트스트림 패키지를 생성하고; 패키지를 전송 계층 비트스트림으로 멀티플렉싱하고; 및 전송 계층 비트스트림을 재생 디바이스 또는 소스 디바이스로 송신하도록 구성된다.
실시예에서, 채널-기반 오디오 및 메타데이터는 N.M 채널-기반 오디오 및 메타데이터이고, 여기서 N은 7보다 큰 양의 정수이고 M은 0 이상의 양의 정수이다.
실시예에서, OAMD 베드 채널 라벨로 표현될 수 있는 채널-기반 오디오에서의 채널은 OAMD 베드 채널 라벨을 사용하고, OAMD 베드 채널 라벨로 표현될 수 없는 채널-기반 오디오에서의 채널은 정적 객체 위치를 사용하고, 각 정적 객체 위치는 OAMD 위치 좌표로 설명된다.
실시예에서, 전송 비트스트림은 MPEG 오디오 비트스트림의 확장 필드에 OAMD의 존재를 나타내는 신호를 포함하는 MPEG(moving pictures experts group) 오디오 비트스트림이다.
실시예에서, MPEG 오디오 비트스트림에서 OAMD의 존재를 나타내는 신호는 서라운드 사운드 모드를 시그널링하기 위해 MPEG 오디오 비트스트림에서의 메타데이터의 예약된 필드에 포함된다.
실시예에서, 방법은: 오디오 처리 장치의 하나 이상의 프로세서에 의해, 패키지를 포함하는 전송 계층 비트스트림을 수신하는 단계를 포함하고; 하나 이상의 프로세서는: 패키지를 복원하기 위해(즉, 결정하거나 또는 추출하기 위해) 전송 계층 비트스트림을 디멀티플렉싱하고; 네이티브 오디오 비트스트림, 채널 셔플 정보 및 객체 오디오 메타데이터(OAMD)를 복원하기 위해(즉, 결정하거나 또는 추출하기 위해) 패키지를 디코딩하고; 채널-기반 오디오 비트스트림 및 메타데이터를 복원하기 위해 네이티브 오디오 비트스트림을 디코딩하고; 채널 셔플 정보를 기초로 채널-기반 오디오의 채널을 복원하고; 및 OAMD를 사용하여 재정렬된 채널-기반 오디오를 렌더링된 오디오로 렌더링하거나; 또는 채널-기반 오디오 및 OAMD를 객체-기반 오디오 비트스트림으로 인코딩하고 객체-기반 오디오 비트스트림을 소스 디바이스로 송신하도록 구성된다.
실시예에서, 채널-기반 오디오 및 메타데이터는 N.M 채널-기반 오디오 및 메타데이터이고, 여기서 N은 7보다 큰 양의 정수이고 M은 0 이상의 양의 정수이다.
실시예에서, 방법은: OAMD 베드 채널에 의해 표현될 수 있는 채널-기반 오디오의 제1 세트의 채널을 결정하는 단계; OAMD 베드 채널 라벨을 제1 세트의 채널에 할당하는 단계; OAMD 베드 채널에 의해 표현될 수 없는 채널-기반 오디오의 제2 세트의 채널을 결정하는 단계; 및 정적 OAMD 위치 좌표를 제2 세트의 채널에 할당하는 단계를 더 포함한다.
실시예에서, 전송 비트스트림은 MPEG 오디오 비트스트림의 확장 필드에 OAMD의 존재를 나타내는 신호를 포함하는 MPEG(moving pictures experts group) 오디오 비트스트림이다.
실시예에서, MPEG 오디오 비트스트림에서 OAMD의 존재를 나타내는 신호는 서라운드 사운드 모드를 시그널링하기 위해 MPEG 오디오 비트스트림의 메타데이터에서 데이터 구조의 예약된 필드에 포함된다.
실시예에서, 장치는: 하나 이상의 프로세서; 및 하나 이상의 프로세서에 의해 실행될 때 상기 하나 이상의 프로세서로 하여금 본원에서 설명된 방법을 수행하게 하는 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다.
본원에 개시된 다른 실시예는 시스템, 장치 및 컴퓨터 판독가능 매체에 관련된다. 개시된 구현의 세부사항은 첨부 도면 및 아래의 설명에 제시된다. 다른 특성, 목적 및 이점은 설명, 도면 및 청구범위로부터 명백하다.
본원에 개시된 특정 실시예는 다음 이점 중 하나 이상을 제공한다. OBA 호환 재생 디바이스의 기존의 설치 기반은 재생 디바이스의 하드웨어 구성요소를 교체하지 않고 기존의 표준-기반 네이티브 오디오 및 전송 비트스트림 포맷을 사용하여 CBA 콘텐츠를 OBA 콘텐츠로 변환할 수 있다.
아래 참조되는 첨부 도면에서, 다양한 실시예가 블록도, 흐름도 및 다른 도면으로 예시된다. 흐름도 또는 블록에서의 각 블록은 지정된 논리 기능을 수행하기 위한 하나 이상의 실행 가능한 명령어를 포함하는, 모듈, 프로그램 또는 코드의 일부를 나타낼 수 있다. 이 블록은 방법의 단계를 수행하기 위한 특정 시퀀스로 예시되어 있지만, 이는 예시된 순서에 따라 정확하게 수행되지 않을 수 있다. 예를 들어, 이는 각각의 동작의 성질에 의존하여, 역순으로 또는 동시에 수행될 수 있다. 또한 블록도 및/또는 흐름도에서의 각 블록 및 이의 조합은 지정된 기능/동작을 수행하기 위한 전용 소프트웨어-기반 또는 하드웨어-기반 시스템에 의해 또는 전용 하드웨어 및 컴퓨터 명령어의 조합에 의해 구현될 수 있다는 것을 유의해야 한다.
도 1a는 실시예에 따른, 두 개의 상이한 객체 오디오 메타데이터(OAMD) 표현에 대한 베드 채널 및 객체 위치를 도시하는 테이블이다.
도 1b는 실시예에 따른, 두 개의 상이한 OAMD 표현에 대한 베드 채널 할당 및 채널 순서화를 도시하는 테이블이다.
도 2a는 실시예에 따른, 차원 트림 메타데이터를 도시하는 테이블이다.
도 2b는 실시예에 따른, 트림/밸런스 제어를 도시하는 테이블이다.
도 3은 실시예에 따른, 비트스트림 인코딩을 사용하지 않으면서, 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 시스템의 블록도이다.
도 4는 실시예에 따른, 비트스트림 인코딩을 사용하여 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 시스템의 블록도이다.
도 5는 실시예에 따른, 소스 디바이스에서의 렌더링을 위해 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 시스템의 블록도이다.
도 6a 및 도 6b는 실시예에 따른, 외부 렌더링을 위한 고선명 멀티미디어 인터페이스(high-definition multimedia interface, HDMI)를 통한 송신을 위해 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 시스템의 블록도이다.
도 7a-7c는 실시예에 따른, 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 시스템의 블록도이며, 여기서 채널 셔플 정보 및 OAMD는 네이티브 오디오 비트스트림 내부에 패키징된다.
도 8a 및 8b는 실시예에 따른, 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 시스템의 블록도이며, 여기서 채널 셔플 정보 및 OAMD는 소스 디바이스에서의 렌더링을 위해 네이티브 오디오 비트스트림 내부에 패키징된다.
도 9a-9c는 실시예에 따른, 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 시스템의 블록도이며, 여기서 채널 셔플 정보 및 OAMD는 소스 디바이스로의 전달을 위한 전송 계층에 내장되고, 그 후 HDMI를 통한 송신을 위해 네이티브 오디오 비트스트림 내부에 패키징된다.
도 10a 및 10b는 실시예에 따른, 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 시스템의 블록도이며, 여기서 채널 셔플 정보 및 OAMD는 소스 디바이스에서의 렌더링을 위해 전송 계층에 내장된다.
도 11은 실시예에 따른, CBA 대 OBA 변환 프로세스의 흐름도이다.
도 12는 실시예에 따른, 대안적인 CBA 대 OBA 변환 프로세스의 흐름도이다.
도 13은 실시예에 따른, 대안적인 CBA 대 OBA 변환 프로세스의 흐름도이다.
도 14는 실시예에 따른, 대안적인 CBA 대 OBA 변환 프로세스의 흐름도이다.
도 15는 실시예에 따른, 대안적인 CBA 대 OBA 변환 프로세스의 흐름도이다.
도 16은 실시예에 따른, 대안적인 CBA 대 OBA 변환 프로세스의 흐름도이다.
도 17은 실시예에 따른, 채널 오디오 대 객체 오디오 변환을 포함하는 예시적인 오디오 시스템 아키텍처의 블록도이다.
다양한 도면에 사용된 동일한 참조 기호는 유사한 요소를 나타낸다.
개요
객체 오디오 메타데이터(OAMD)는 예를 들어, ETSI TS 103 420 v1.2.1(2018-10)에 설명된 메타데이터와 같은, OBA 처리를 위한 메타데이터의 코딩된 비트스트림 표현이다. OAMD 비트스트림은 예를 들어, ETSI TS 102 366[1]에 지정된 바와 같이, EMDF(Extensible Metadata Delivery Format) 컨테이너 내부에 전달될 수 있다. OAMD는 오디오 객체를 렌더링하는 데 사용된다. 렌더링 정보는 동적으로 변경될 수 있다(예를 들어, 이득 및 위치). OAMD 비트스트림 요소는 콘텐츠 설명 메타데이터, 객체 속성 메타데이터, 속성 업데이트 메타데이터 및 다른 메타데이터를 포함할 수 있다.
실시예에서, 콘텐츠 설명 메타데이터는 OAMD 페이로드 신택스의 버전, 객체의 총 수, 객체의 타입 및 프로그램 구성을 포함한다. 객체 속성 메타데이터는 방-고정, 화면-고정 또는 스피커-고정 좌표에서의 객체 위치, 객체 크기(폭, 깊이, 높이), 우선 순위(객체에 대해 중요도에 의한 순서화를 부과함 - 더 높은 우선순위가 객체에 대해 더 높은 중요도를 나타냄), (객체에 맞춤형 이득 값(custom gain value)을 적용하는 데 사용되는) 이득, (단일 스피커에 객체의 렌더링을 제한하는 데 사용되고, 오디오의, 비-확산, 음색-중립 재생(timbre-neutral reproduction)을 제공하는) 채널 잠금, (객체가 제외되거나 또는 포함되는 청취 환경에서의 구역 또는 서브-볼륨을 지정하는) 구역 제약, (에너지가 X축을 따라 확산되는 경우, 객체를 두 개의 객체로 변환하는 데 사용되는) 객체 발산 및 믹스로 나타난 스크린 밖 요소(out-of-screen elements)의 수준을 낮추는데 사용되는) 객체 트림을 포함한다.
실시예에서, 속성 업데이트 메타데이터는 모든 송신된 객체에 대한 업데이트에 적용 가능한 타이밍 데이터를 시그널링한다. 송신된 속성 업데이트의 타이밍 데이터는 선행하거나 또는 후속하는 업데이트를 갖는 업데이트 맥락 및 연속적인 업데이트 간의 보간 프로세스에 대한 시간적인 기간과 함께 업데이트를 위한 시작 시간을 지정한다. OAMD 비트스트림 신택스는 각 코덱 프레임에서 객체당 최대 여덟 개의 속성 업데이트를 지원한다. 시그널링된 업데이트의 수 또는 각 속성 업데이트의 시작 및 중지 시간은 모든 객체에 대해 동일하다. 메타데이터는 이전 속성 업데이트의 시그널링된 객체 속성 값으로부터 현재 업데이트의 값으로의 보간을 위한 오디오 샘플에서의 시간 기간을 지정하는 OAMD에서의 램프 기간 값의 값을 나타낸다.
실시예에서, 타이밍 데이터는 또한, 시작 샘플 값 오프셋 및 프레임 오프셋을 계산하기 위해 디코더에 의해 사용되는 샘플 오프셋 값 및 블록 오프셋 값을 포함한다. 샘플 오프셋은 OAMD 페이로드에서의 데이터가 가령 ETSI TS 102 366[1], 절 H. 2.2.3.1 및 H.2.2.3.2에서 지정된 바와 같이 적용하는 제1 펄스 코드 변조된(PCM) 오디오 샘플에 대한 샘플에서의 시간적 오프셋이다. 블록 오프셋 값은 모든 속성 업데이트에 공통적인 샘플 오프셋으로부터 오프셋으로서 샘플에서의 기간을 나타낸다.
실시예에서, 디코더는 객체 오디오 에센스 오디오 데이터 및 대응하는 객체 속성에 대한 타임-스탬프된 메타데이터 업데이트를 포함하는 OBA에 대한 인터페이스를 제공한다. 인터페이스에서 디코더는 타임 스탬프된 업데이트에서 디코딩된 객체-별 메타데이터를 제공한다. 각 업데이트에 대해, 디코더는 메타데이터 업데이트 구조에 지정된 데이터를 제공한다.
예시적인 CBA 대 OBA 변환
다음 개시에서, OAMD를 사용하여 CBA 콘텐츠를 OBA로 변환하기 위한 기술이 개시된다. 예시적인 실시예에서, 22.2-채널("22.2-ch") 콘텐츠는 OAMD를 사용하여 OBA로 변환된다. 이 실시예에서, 22.2-ch 콘텐츠는 채널이 위치되고 그러므로 다운믹스되고/렌더링되는 두 개의 정의된 방법을 갖는다. 방법의 선택은 22.2-ch 비트스트림에 내장된 dmix_pos_adj_idx 매개변수와 같은 매개변수의 값에 의존할 수 있다. 22.2-ch 위치를 OAMD 표현으로 변환하는 포맷 변환기는 이 매개변수의 값을 기초로 두 개의 OAMD 표현 중 하나를 선택한다. 선택된 표현은 재생 디바이스(예를 들어, Dolby® Atmos® 재생 디바이스)에 입력되는 OBA 비트스트림(예를 들어, Dolby® MAT 비트스트림)으로 전달된다. 예시적인 22.2-ch 시스템은 하마사키 22.2(Hamasaki 22.2)이다. 하마사키 22.2는 세 개의 계층으로 배열된 (두 개의 서브우퍼를 포함하는) 24개의 스피커를 사용하는 NHK 과학 & 기술 연구소에 의해 개발된 TV 표준인 Super Hi-Vision의 서라운드 사운드 구성요소이다.
다음 개시가 22.2-ch 콘텐츠가 OAMD를 사용하여 OBA 콘텐츠로 변환되는 실시예에 관련되지만, 개시된 실시예는 표준화된 또는 독점 비트스트림 포맷을 포함하는 임의의 CBA 또는 OBA 비트스트림 포맷, 및 임의의 재생 디바이스 또는 시스템에 적용 가능하다. 추가적으로, 다음 개시는 22.2-ch 대 OBA 변환에 제한되지 않고, 임의의 N.M 채널-기반 오디오의 변환에도 적용 가능하며, 여기서 N은 7보다 큰 양의 정수이고 M은 0 이상의 양의 정수이다. .
본원에서 사용된 바와 같이, "포함한다"라는 용어 및 그의 변형은 "포함하지만 이에 제한되지 않는"을 의미하는 오픈-엔드 용어(open-ended terms)로 해석되어야(read) 한다. "또는"이라는 용어는 문맥이 명백하게 달리 나타내지 않는 한 "및/또는"으로 해석되어야 한다. "-에 기초한"이라는 용어는 "적어도 부분적으로 -에 기초한"으로 해석되어야 한다. "하나의 예시적인 실시예" 및 "예시적인 실시예"라는 용어는 "적어도 하나의 예시적인 실시예"로 해석되어야 한다. "다른 실시예"라는 용어는 "적어도 하나의 다른 실시예"로 해석되어야 한다. 덧붙여, 다음의 설명 및 청구범위에서 달리 정의되지 않는 한, 본원에서 사용되는 모든 기술적 및 과학적 용어는 본 개시가 속하는 기술분야에서 통상의 기술자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다.
프로그램 할당 및 객체 위치
이 응용에서, 22.2-ch 콘텐츠(305)(예를 들어, 파일 또는 라이브 스트림)는 포맷 변환기(301)에 의해 수신된다. 콘텐츠(305)는 오디오 및 연관된 메타데이터를 포함한다. 메타데이터는 이 매개변수의 값을 기초로 두 개의 OAMD 표현 중 하나를 선택하기 위한 dmix_pos_adj_idx 매개변수를 포함한다. OAMD 베드 채널 라벨로 표현될 수 있는 채널은 OAMD 베드 채널 라벨을 사용한다. OAMD 베드 채널 라벨로 표현될 수 없는 채널은 정적 객체 위치를 사용하고, 각 정적 객체 위치는 예를 들어 ETSI TS 103 420 v1.2.1(2018-10)에 설명된 바와 같이, OAMD [x, y, z] 위치 좌표로 설명된다. 본원에서 사용된 바와 같이, "베드 채널"은 다수의 베드 객체의 그룹이고 "베드 객체"는 재생 시스템의 확성기에 대한 할당에 의해 공간 위치가 고정된 정적 객체이다.
도 1a는 실시예에 따른, 두 개의 상이한 OAMD 표현에 대한 베드 채널 및 객체 위치를 도시하는 테이블이다. 테이블의 상단 행은 스물 네 개의 22.2-ch 라벨을 포함하고, 테이블의 중간 행은 dmix_pos_adj_idx=0으로 시그널링되는 제1 OAMD 표현에 대한 베드 채널 라벨 및 객체 위치를 포함하고, 테이블의 맨 아래 행은 dmix_pos_adj_idx =1로 시그널링되는 제2 OAMD 표현에 대한 베드 채널 라벨 및 객체 위치를 포함한다. dmix_pos_adj_idx 신호는 예시적인 신호이고, 부울 플래그 및 하나 이상의 비트로 인코딩된 신호를 포함하지만 이에 제한되지 않는 임의의 타입의 시그널링이 사용될 수 있다는 것을 유의한다.
도 1a에서의 테이블을 참조하면, 22.2-ch 라벨의 일부 예시는 전방-좌측(FL), 전방-우측(FR), 전방-중앙(RC), 저주파 효과 1(LFE1), 후방-좌측(BL), 후방-우측(BR), 전방-좌측-중앙(FLc), 전방-우측-중앙(FRc), 후방-중앙(BC), 저주파 효과 2(LFE2), 좌측(SIL), 우측(SIR), 상단-전방-좌측(TpFL), 상단-전방-우측(TpFR), 상단-전방-중앙(TpFC), 상단-중앙(TpC), 상단-후방-좌측(TpBL), 상단-후방-우측(TpBR), 상단-측면-좌측(TpSIL), 상단-측면-우측(TpSIR), 상단-후방-중앙(TpBC), 전방과-좌측-사이(BtFL), 전방과-우측-사이(BtFR) 및 전방과-중앙-사이(BtFC)를 포함한다. 이 라벨은 OAMD 베드 채널 라벨 또는 정적 객체 위치[x, y, z]에 매핑된다는 것을 유의한다. 예를 들어, 제1 OAMD 표현(dmix_pos_adj_idx=0)의 경우, 22.2-ch 라벨 FL은 정적 객체 위치 [0,0.25,0]에 매핑되고 22.2-ch 라벨 FR은 정적 객체 위치 [1, 0.25, 0]에 매핑되고, 22.2-ch 라벨 FC는 OAMD 베드 채널 라벨 C에 매핑되는 등이다. OAMD 표현은 시그널링 매개변수(예를 들어, 이의 값)를 기초로 하나 이상의 오디오 채널을 하나 이상의 오디오 객체에 매핑한다. 하나 이상의 오디오 객체는 동적 또는 정적 오디오 객체일 수 있다. 위에서 정의된 바와 같이, 정적 오디오 객체는 고정된 공간 위치를 갖는 오디오 객체이다. 동적 오디오 객체는 시간에 걸쳐 공간 위치가 변할 수 있는 오디오 객체이다. 위의 예시에서, OAMD 표현은 채널 라벨, 베드 채널 라벨 및 정적 객체 위치를 포함한다. OAMD 표현은 시그널링 매개변수(예를 들어, 이의 값)를 기초로 채널 라벨을 베드 채널 라벨 또는 정적 객체 위치에 매핑한다.
프로그램 할당 및 객체 위치
OAMD는 베드 객체가 동적 객체에 선행하는 것으로 가정한다. 추가적으로, 베드 객체는 특정 순서로 나타난다. 이 이유로, 22.2-ch 콘텐츠에 대한 오디오는 오디오 채널 셔플러(303)에 의해 OAMD 순서 제약을 충족시키기 위해 재정렬된다. 오디오 채널 셔플러(303)는 메타데이터 생성기(304)로부터 채널 셔플 정보를 수신하고, 22.2 채널을 재정렬하기 위해 채널 셔플 정보를 사용한다.
도 1b는 실시예에 따른, 두 개의 상이한 OAMD 표현에 대한 베드 채널 할당 및 채널 순서화를 도시하는 테이블이다. 테이블의 상단 행은 22.2-ch 콘텐츠(하마사키 22.2)에 대한 가정된 채널 순서(0-23개 채널) 및 채널 라벨을 도시한다. 테이블의 중간 행은 제1 OAMD 표현에 대한 베드 할당 라벨을 도시하고, 테이블의 맨 아래 행은 제2 OAMD 표현에 대한 베드 할당 라벨을 도시한다. 변환된 오디오 및 OAMD 메타데이터는 도 3을 참조로, 포맷 변환기(301)에 의해 렌더링된 오디오를 생성하는 객체 오디오 렌더러(302)로 출력된다.
도 1b에서의 테이블을 참조하면, 22.2-ch 컨텐츠의 처음 두 개의 채널(0, 1)은 FL 및 FR이다. 제1 OAMD 표현(dmix_pos_adj_idx=0)의 경우, 처음 두 개의 채널(0,1)은 각각 OAMD 채널 15 및 채널 16으로 재정렬된다("셔플된다"). 제2 OAMD 표현(dmix_pos_adj_idx=1)의 경우, 22.2-ch 콘텐츠의 처음 두 개의 채널(0,1)은 각각 OAMD 베드 채널 L 및 R로 재정렬된다. 이 예시에서 제1 OAMD 표현(dmix_pos_adj_idx=0)의 경우, 인덱스 0을 갖는 제1 출력 채널에 대해, 제1 OAMD 표현을 이와 연관시키기 위해, 입력(예를 들어, 하마사키 22.2)의 채널의 인덱스 6은 그것이 인덱스 채널 0이되도록 재정렬/셔플된다. 즉, 이 예시에서 좌측 채널(L)이 입력 베드 채널에 존재하는 경우, 제1 OAMD 표현에서의 이 좌측 채널은 (인덱스 채널 0을 갖는) 제1 채널로 강제된다. 존재하는 경우, 베드 채널의 모두는 OAMD로 표현될 때 특정 순서로 나타난다. 베드 채널이 재정렬되면, 베드 채널 재정렬의 결과로서 동적 객체가 재정렬된다. 재정렬은 특정 OAMD 표현 순서화 제약을 충족한다. 제약은 OBA 재생 디바이스/시스템에 의해 사용되는 OAMD 사양에 의존한다. 예를 들어, Dolby Atmos와 호환되는 OBA 재생 디바이스/시스템의 경우, Dolby Atmos 콘텐츠를 포함하는 시스템 및 코덱에서 송신되는 OAMD는 Dolby Atoms OAMD 사양에 의해 지정된다. 이러한 사양/제약은 OAMD 베드 채널의 순서를 예를 들어 도 1a에 도시된 바와 같이, 그리고 다음과 같이 결정하며, 대응하는 채널 라벨은 괄호 안에 있다 - 좌측(L), 우측(R), 중앙(C), 저주파 효과(LFE), 좌측 서라운드(Ls), 우측 서라운드(Rs), 좌측 후방 서라운드(Lrs), 우측 후방 서라운드(Rrs), 좌측 전방 하이(High)(Lfh), 우측 전방 하이(Rfh), 좌측 상단 중간(Ltm), 우측 상단 중간(Rtm), 좌측 후방 하이(Lrh), 우측 후방 하이(Rrh) 및 저주파 효과 2(LFE2) -.
차원 트림 메타데이터
도 2a는 실시예에 따른, 차원 트림 메타데이터를 도시하는 테이블이다. 22.2-ch 콘텐츠의 OBA 콘텐츠로의 렌더링이 22.2-ch 사양에 의해 지정된 다운믹스에 거의 일치함을 보장하기 위해, OBA 렌더링 디바이스로 전달되는 22.2-ch 콘텐츠와 동반하는 OAMD에 차원 트림 메타데이터가 포함된다. 객체 트림은 믹스에 포함된 스크린 밖 요소의 수준을 낮추는 데 사용된다. 이는 몰입형 믹스가 적은 확성기를 갖는 레이아웃으로 재생될 때 바람직할 수 있다.
실시예에서, 제1 메타데이터 필드는 값 "0"으로 설정되는 경우 5.1.X 출력 구성에서 객체의 정상적인 렌더링(즉, 워핑이 없음)을 나타내는 매개변수 warp_mode를 포함한다. warp_mode가 값 "1"로 설정되는 경우, 5.1.X 출력 구성에서의 객체에 워핑이 적용된다. 워프는 렌더러가 청취 환경(예를 들어, 방)의 중간 지점과 후방 사이에서 패닝되는 콘텐츠를 다루는 방법을 지칭한다. 워프를 통해, 콘텐츠는 청취 환경의 후방과 중간 지점 사이의 서라운드 스피커에서 일정한 수준으로 제시되며, 청취 환경의 전방 절반에 있을 때까지 팬텀 이미징(phantom imaging)에 대한 임의의 필요성을 회피한다.
차원 트림 메타데이터 테이블에서의 제2 메타데이터 필드는 도 2b에 도시된 바와 같이, 여덟 개의 스피커 구성(예를 들어, 2.0, 5.1.0, 7.1.0, 2.1.2, 5.1.2, 7.1.2, 2.1.4, 5.1.4, 7.1.4)에 대한 구성-별 트림/밸런스 제어를 포함한다. 자동 트리밍(auto_trim), 중앙 트림(center_trim), 서라운드 트림(surround_trim), 높이 트림(height_trim) 및 전방/후방 밸런스 트림(fb_balance_ohfl, fb_balance_surr)에 대한 메타데이터 필드가 있다.
도 2a의 테이블을 참조하면, 제3 메타데이터 필드는 22.2-ch 채널 콘텐츠에서의 모든 베드 및 동적 객체에 적용되는 값을 갖는 매개변수 object_trim_bypass를 포함한다. object_trim_bypass가 "1"의 값으로 설정되는 경우, 베드 및 동적 객체에는 트림이 적용되지 않는다.
객체 이득
OAMD는 각 객체가 개별적인 객체 이득(object_gain 필드에 의해 설명됨)을 갖는 것을 허용한다. 이 이득은 객체 오디오 렌더러(302)에 의해 적용된다. 객체 이득은 22.2-ch 콘텐츠의 다운믹스 값과 22.2-ch 콘텐츠의 OAMD 표현의 렌더링 간의 차이의 보상을 허용한다. 실시예에서, 객체 이득은 LFE1 또는 LFE2의 베드 채널 할당을 갖는 객체에 대해 -3 dB로 설정되고, 모든 다른 객체에 대해 0 dB로 설정된다. 응용에 의존하여 객체 이득에 대한 다른 값이 사용될 수 있다.
예시적인 응용
OBA로서 22.2 콘텐츠를 오디션하는 것
도 3은 실시예에 따른, 비트스트림 인코딩을 사용하지 않으면서 22.2-ch 오디오 비트스트림을 오디오 및 OAMD로 변환하기 위한 예시적인 시스템(300)의 블록도이다. 시스템(300)은 22.2-ch 콘텐츠가 OBA 재생 시스템(Dolby® Atmos®) 상에서 OBA 콘텐츠로 오디션되는 응용에서 사용된다.
시스템(300)은 포맷 변환기(301) 및 객체 오디오 렌더러(302)를 포함한다. 포맷 변환기(301)는 오디오 채널 셔플러(303) 및 OAMD 메타데이터 생성기(304)를 더 포함한다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다. 22.2-ch 콘텐츠(305)(예를 들어, 파일 또는 라이브 스트림)는 포맷 변환기(301)에 입력되는 22.2-ch 오디오 및 메타데이터를 포함한다. OAMD 메타데이터 생성기(304)는 가령 예를 들어, 도 1a를 참조하여 설명된 원리에 적합하게, 22.2-ch 메타데이터를 OAMD에 매핑하고, 채널 셔플 정보를 생성한다. 채널 셔플 정보는 가령 예를 들어, 도 1b에서 설명된 원리에 적합하게 오디오 채널 셔플러(303)에 의해 적용되는 22.2-ch 콘텐츠의 채널 재정렬을 설명한다. 오디오 채널 셔플러(303)의 출력은 재정렬된 오디오 채널이다. 포맷 변환기(301)의 출력은 객체 오디오 렌더러(302)에 입력되는 오디오 및 OAMD의 재정렬된 채널이다. 객체 오디오 렌더러(302)는 OAMD를 사용하여 오디오를 처리하여, 이를 특정 확성기 레이아웃에 적응시킨다.
22.2 콘텐츠를 OBA로 송신하는 것
도 4는 실시예에 따른, 비트스트림 인코딩을 사용하여 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 예시적인 시스템(400)의 블록도이다. 본 출원에서, 22.2-ch 콘텐츠를 송신하는 것 외에, OBA 코덱을 사용하여 22.2-ch 콘텐츠는 포맷 변환되고 OBA로서 송신된다.
시스템(400)은 포맷 변환기(401) 및 OBA 인코더(402)를 포함한다. 포맷 변환기(401)는 OAMD 메타데이터 생성기(404) 및 오디오 채널 셔플러(403)를 더 포함한다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다. 22.2-ch 콘텐츠(405)(예를 들어, 파일 또는 라이브 스트림)는 포맷 변환기(401)에 입력되는 22.2-ch 오디오 및 메타데이터를 포함한다. OAMD 메타데이터 생성기(404)는 가령, 예를 들어, 도 1a를 참조하여 설명된 원리에 적합하게 22.2-ch 메타데이터를 OAMD에 매핑하고, 채널 셔플 정보를 생성한다. 채널 셔플 정보는 가령, 예를 들어 도 1b를 참조로 설명된 원리에 적합하게, 오디오 채널 셔플(403)에 의해 적용되는 22.2-ch 콘텐츠의 채널 재정렬을 설명한다. 오디오 채널 셔플러(403)의 출력은 재정렬된 오디오 채널이다.
포맷 변환기(401)의 출력은 OBA 인코더(402)에 입력되는 오디오 및 OAMD의 재정렬된 채널이다. OBA 인코더(402)는 OBA 재생 디바이스 다운스트림으로 전송될 수 있는 OBA 비트스트림(406)을 생성하기 위해 OMAD를 사용하여(예를 들어, JOC를 사용하여) 오디오를 인코딩하고, 이는 오디오를 처리하여 이를 특정 확성기 레이아웃으로 적응시키는 객체 오디오 렌더러에 의해 렌더링된다.
소스 디바이스에서 렌더링하기 위해 송신된 22.2 콘텐츠를 OBA로 변환시키는 것
도 5는 실시예에 따른, 22.2-ch 오디오 비트스트림을 소스 디바이스에서 렌더링을 위한 오디오 객체 및 OAMD로 변환하기 위한 예시적인 시스템의 블록도이다. 이 응용에서 셋톱박스(STB) 또는 오디오/비디오 레코더(AVR)와 같은 소스 디바이스는 네이티브 오디오 비트스트림으로부터 22.2-ch 콘텐츠를 수신하고, 포맷 변환기에 의한 포맷 변환 이후에 콘텐츠는 객체 오디오 렌더러를 사용하여 렌더링된다. 예시적인 네이티브 오디오 비트스트림 포맷은 고급 오디오 코딩(advanced audio coding, AAC) 표준 비트스트림 포맷이다.
시스템(500)은 포맷 변환기(501), 객체 오디오 렌더러(502) 및 디코더(506)를 포함한다. 포맷 변환기(501)는 OAMD 메타데이터 생성기(504) 및 오디오 채널 셔플러(503)를 더 포함한다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다. 오디오 비트스트림(505)(예를 들어, AAC/MP4)은 디코더(506)(예를 들어, AAC/MP4 디코더)에 입력되는 22.2-ch 오디오 및 메타데이터를 포함한다. 디코더(506)의 출력은 포맷 변환기(501)에 입력되는, 22.2-ch 오디오 및 메타데이터이다. OAMD 메타데이터 생성기(504)는 가령, 예를 들어 도 1a를 참조하여 설명된 원리에 적합하게 22.2-ch 메타데이터를 OAMD에 매핑하고 채널 셔플 정보를 생성한다. 채널 셔플 정보는 가령, 예를 들어 도 1b를 참조로 설명된 원리에 적합하게 오디오 채널 셔플러(503)에 의해 적용되는 22.2-ch 콘텐츠의 채널 재정렬을 설명한다. 오디오 채널 셔플러(503)의 출력은 재정렬된 오디오 채널이다. 포맷 변환기(501)의 출력은 객체 오디오 렌더러(502)에 입력되는 오디오 및 OAMD의 재정렬된 채널이다. 객체 오디오 렌더러(502)는 OAMD를 사용하여 오디오를 처리하여 이를 특정 확성기 레이아웃에 적응시킨다.
외부 렌더링(STBA/VR/SB)을 위한 HDMI를 통한 송신을 위해 송신된 22.2 콘텐츠를 OBA로 변환하는 것
도 6a 및 도 6b는 실시예에 따른, 22.2-ch 오디오 비트스트림을 외부 렌더링을 위한 고선명 멀티미디어 인터페이스(high definition multimedia interface, HDMI)를 통한 송신을 위한 오디오 객체 및 OAMD로 변환하기 위한 예시적인 시스템의 블록도이다. 이 응용에서, 채널 셔플러 정보뿐만 아니라 OAMD는 인코더에서 생성되고, 송신될 네이티브 오디오 비트스트림(예를 들어, AAC) 내부에 패키징된다. 이 구성에서, 발생하는 포맷 변환은 오디오 셔플러로 단순화된다. OAMD와 함께 셔플된 오디오는 HDMI를 통해 비트스트림으로의 송신을 위해 OBA 인코더로 전송된다. 수신기 측에서, 비트스트림은 객체 오디오 렌더러에 의해 디코딩되고 렌더링된다.
도 6a를 참조하면, 인코딩 시스템(600A)은 포맷 변환기(601) 및 OBA 인코더(602) 및 디코더(606)를 포함한다. 포맷 변환기(601)는 OAMD 메타데이터 생성기(604) 및 오디오 채널 셔플러(603)를 더 포함한다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다. 네이티브 오디오 비트스트림(605)(예를 들어, AAC/MP4)은 디코더(606)(예를 들어, AAC/MP4 디코더)에 입력되는 22.2-ch 오디오 및 메타데이터를 포함한다. 디코더(606)의 출력은 포맷 변환기(601)에 입력되는 22.2-ch 오디오 및 메타데이터이다. OAMD 메타데이터 생성기(604)는 가령 예를 들어, 도 1a를 참조하여 설명된 원리에 적합하게 22.2-ch 메타데이터를 OAMD에 매핑하고, 채널 셔플 정보를 생성한다. 채널 셔플 정보는 가령 예를 들어 도 1b를 참조하여 설명된 원리에 적합하게 오디오 채널 셔플러(603)에 의해 적용되는 22.2-ch 콘텐츠의 채널 재정렬을 설명한다. 오디오 채널 셔플러(603)의 출력은 재정렬된 오디오 채널이다. 포맷 변환기(601)의 출력은 OBA 인코더(602)에 입력되는 오디오 및 OAMD의 재정렬된 채널이다. OBA 인코더(602)는 오디오 및 OAMD를 인코딩하고, 오디오 및 OAMD를 포함하는 OBA 비트스트림을 출력한다.
도 6b를 참조하면, 디코딩 시스템(600B)은 OBA 디코더(607) 및 객체 오디오 렌더러(608)를 포함한다. OBA 비트스트림은 객체 오디오 렌더러(608)에 입력되는 오디오 및 OAMD를 출력하는 OBA 디코더(607)에 입력된다. 객체 오디오 렌더러(608)는 OAMD를 사용하여 오디오를 처리하여, 이를 특정 확성기 레이아웃에 적응시킨다.
HDMI를 통한 송신을 위해 네이티브 비트스트림을 통해 22.2 미리 계산된 OAMD를 송신하는 것
도 7a-7c는 실시예에 따른, 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 예시적인 시스템의 블록도이며, 여기서 채널 셔플 정보 및 OAMD는 네이티브 오디오 비트스트림 내부에 패키징된다. 이전 예시적인 응용에서 OAMD는 디코더(예를 들어, AAC 디코더) 이후에 생성된다. 하지만, 대안적인 실시예로서, 채널 셔플링 정보 및 OAMD를 (네이티브 오디오 비트스트림 또는 전송 계층에서) 송신 포맷으로 내장하는 것이 가능하다. 이 응용에서, 채널 셔플 정보뿐만 아니라 OAMD는 인코더에서 생성되고, 송신될 네이티브 오디오 비트스트림(예를 들어, AAC 비트스트림) 내부에 패키징된다. 이 구성에서, 발생하는 포맷 변환은 오디오 셔플러로 단순화된다. OAMD와 함께 셔플된 오디오는 HDMI를 통한 송신을 위해 OBA 인코더로 전송된다. 수신 측에서, OBA 비트스트림은 객체 오디오 렌더러를 사용하여 디코딩되고 렌더링된다.
도 7a를 참조하면, 인코딩 시스템(700A)은 인코더(701)(예를 들어, AAC 인코더) 및 전송 계층 멀티플렉서(706)를 포함한다. 인코더(701)는 코어 인코더(702), 포맷 변환기(703) 및 비트스트림 패키저(705)를 더 포함한다. 포맷 변환기(703)는 예를 들어, Dolby ATMOS 메타데이터 생성기일 수 있는 OAMD 메타데이터 생성기(704)를 더 포함한다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다.
네이티브 오디오 비트스트림(707)(예를 들어, AAC/MP4)은 22.2-ch 오디오 및 메타데이터를 포함한다. 오디오는 오디오를 네이티브 오디오 포맷으로 인코딩하고 인코딩된 오디오를 비트스트림 패키저(705)로 출력하는 인코더(701)의 코어 인코더(702)에 입력된다. OAMD 메타데이터 생성기(704)는 가령 예를 들어, 도 1a를 참조하여 설명된 원리에 적합하게 22.2-ch 메타데이터를 OAMD에 매핑하고, 채널 셔플 정보를 생성한다. 채널 셔플 정보는 가령 예를 들어, 도 1b를 참조하여 설명된 원리에 적합하게 22.2-ch 콘텐츠의 채널 재정렬을 설명한다. 채널 셔플 정보는 OAMD와 함께 비트스트림 패키저(705)에 입력된다. 비트스트림 패키저(705)의 출력은 채널 셔플 정보 및 OAMD를 포함하는 네이티브 오디오 비트스트림이다. 네이티브 오디오 비트스트림은 네이티브 오디오 비트스트림을 포함하는 전송 스트림을 출력하는, 전송 계층 멀티플렉서(706)에 입력된다.
도 7b를 참조하면, 디코딩/인코딩 시스템(700B)은 전송 계층 디멀티플렉서(708), 디코더(709), 오디오 채널 셔플러(710) 및 OBA 인코더(711)를 포함한다. 전송 계층 디멀티플렉서(708)는 전송 비트스트림으로부터 오디오 및 OAMD를 디멀티플렉싱하고 오디오 및 OAMD를 디코더(709)에 입력하고, 이는 네이티브 오디오 비트스트림으로부터 오디오 및 OAMD를 디코딩한다. 디코딩된 오디오 및 OAMD는 그 후, 오디오 및 OAMD를 OBA 비트스트림으로 인코딩하는 OBA 인코더(711)에 입력된다.
도 7c를 참조하면, 디코딩 시스템(700C)은 OBA 디코더(712) 및 객체 오디오 렌더러(713)를 포함한다. OBA 비트스트림은 객체 오디오 렌더러(713)에 입력되는 오디오 및 OAMD를 출력하는 OBA 디코더(712)에 입력된다. 객체 오디오 렌더러(713)는 OAMD를 사용하여 오디오를 처리하여, 이를 특정 확성기 레이아웃에 적응시킨다.
소스 디바이스에서 렌더링을 위해 미리-계산된 OAMD를 송신하는 것
도 8a 및 8b는 실시예에 따른, 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 예시적인 시스템의 블록도이며, 여기서 채널 셔플 정보 및 OAMD는 소스 디바이스에서 렌더링을 위해 네이티브 오디오 비트스트림 내에 패키징된다. 이 응용에서, 채널 셔플 정보뿐만 아니라 OAMD는 인코더에서 생성되고, 전송 계층을 통해 송신될 네이티브 오디오 비트스트림(예를 들어, AAC 비트스트림) 내에 패키징된다. 이 구성에서, 발생하는 포맷 변환은 오디오 셔플러로 단순화된다. OAMD와 함께 셔플된 오디오는 렌더링을 위해 객체 오디오 렌더러로 전송된다.
도 8a를 참조하면, 인코딩 시스템(800A)은 인코더(801)(예를 들어, AAC 인코더) 및 전송 계층 멀티플렉서(807)를 포함한다. 인코더(801)는 코어 인코더(803), 포맷 변환기(802) 및 비트스트림 패키저(805)를 더 포함한다. 포맷 변환기(802)는 예를 들어 Dolby ATMOS 메타데이터 생성기일 수 있는 OAMD 메타데이터 생성기(804)를 더 포함한다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다.
네이티브 오디오 비트스트림(806)(예를 들어, AAC/MP4)은 22.2-ch 오디오 및 메타데이터를 포함한다. 오디오는 오디오를 네이티브 오디오 포맷으로 인코딩하고 인코딩된 오디오를 비트스트림 패키저(805)로 출력하는, 인코더(801)의 코어 인코더(803)에 입력된다. OAMD 메타데이터 생성기(804)는 22.2-ch 메타데이터를 가령, 예를 들어 도 1a를 참조하여 설명된 원리에 적합하게 OAMD에 매핑하고, 채널 셔플 정보를 생성한다. 채널 셔플 정보는 가령 예를 들어, 도 1b를 참조하여 설명된 원리에 적합하게 22.2-ch 콘텐츠의 채널 재정렬을 설명한다. 채널 셔플 정보는 OAMD와 함께 비트스트림 패키저(805)에 입력된다. 비트스트림 패키저(805)의 출력은 채널 셔플 정보 및 OAMD를 포함하는 네이티브 오디오 비트스트림이다. 네이티브 오디오 비트스트림은 네이티브 오디오 비트스트림을 포함하는 전송 스트림을 출력하는 전송 계층 멀티플렉서(807)에 입력된다.
도 8b를 참조하면, 디코딩 시스템(800B)은 전송 계층 디멀티플렉서(808), 디코더(809), 오디오 채널 셔플러(810) 및 객체 오디오 렌더러(811)를 포함한다. 전송 계층 디멀티플렉서(808)는 전송 비트스트림으로부터 오디오 및 OAMD를 디멀티플렉싱하고 오디오 및 OAMD를 디코더(809)에 입력하고, 디코더(809)는 네이티브 오디오 비트스트림으로부터 오디오 및 OAMD를 디코딩한다. 그 후, 디코딩된 오디오 및 OAMD는 객체 오디오 렌더러(811)에 입력된다. 객체 오디오 렌더러(811)는 OAMD를 사용하여 오디오를 처리하여, 이를 특정 확성기 레이아웃에 적응시킨다.
HDMI를 통한 송신을 위해 전송 계층을 통해 미리-계산된 OAMD 송신하는 것
도 9a-9c는 실시예에 따른, 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 예시적인 시스템의 블록도이고, 채널 셔플 정보 및 OAMD는 소스 디바이스로의 전달을 위해 전송 계층에 내장되고 그 후 HDMI를 통한 송신을 위해 네이티브 오디오 비트스트림 내부에 패키징된다.
22.2-ch 콘텐츠를 표현하는 데 사용되는 OAMD는 프로그램에 대해 정적이다. 이 이유로, 오디오 비트스트림에서 데이터 속도 증가를 회피하기 위해 OAMD를 자주 전송하는 것을 회피하는 것이 바람직하다. 이는 전송 계층 내에서 정적 OAMD 및 채널 셔플 정보를 전송함으로써 달성될 수 있고, 전송 계층에서 송신될 수 있다. 수신될 때, OAMD 및 채널 셔플 정보는 OBA 인코더에 의해, HDMI를 통한 후속 송신에 사용된다. 예시적인 전송 계층은 비디오 및 오디오와 같은 시간-기반 멀티미디어 파일에 대한 일반적인 구조를 정의하는, ISO/IEC 14496-12-MPEG-4 Part 12에 설명된 기본 미디어 파일 포맷(base media file format, BMFF)이다. MPEG-DASH를 사용하는 실시예에서, OAMD는 매니페스트(manifest)에 포함된다.
도 9a를 참조하면, 인코딩 시스템(900A)은 인코더(902)(예를 들어, AAC 인코더), 포맷 변환기(905) 및 전송 계층 멀티플렉서(903)를 포함한다. 포맷 변환기(905)는 OAMD 메타데이터 생성기(904)를 더 포함한다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다.
네이티브 오디오 비트스트림(901)(예를 들어, AAC/MP4)은 22.2-ch 오디오 및 메타데이터를 포함한다. 오디오는 오디오를 네이티브 오디오 포맷으로 인코딩하고 인코딩된 오디오를 전송 계층 멀티플렉서(903)로 출력하는 인코더(902)에 입력된다. OAMD 메타데이터 생성기(904)는 가령 예를 들어, 도 1a를 참조하여 설명된 원리에 적합하게 22.2-ch 메타데이터를 OAMD에 매핑하고 채널 셔플 정보를 생성한다. 채널 셔플 정보는 가령 예를 들어, 도 1b를 참조하여 설명된 원리에 적합하게 22.2-ch 콘텐츠의 채널 재정렬을 설명한다. 채널 셔플 정보는 OAMD와 함께 전송 계층 멀티플렉서(903)에 입력된다. 전송 계층 멀티플렉서(903)의 출력은 네이티브 오디오 비트스트림을 포함하는 전송 비트스트림(예를 들어, MPEG-2 전송 스트림) 또는 패키지 파일(예를 들어, ISO BMFF 파일) 또는 미디어 프레젠테이션 설명(예를 들어, MPEG-DASH 매니페스트)이다.
도 9b를 참조하면, 디코딩 시스템(900B)은 전송 계층 디멀티플렉서(906), 디코더(907), 오디오 채널 셔플러(908) 및 OBA 인코더(909)를 포함한다. 전송 계층 디멀티플렉서(906)는 전송 비트스트림으로부터 오디오, 채널 셔플 정보 및 OAMD를 디멀티플렉싱한다. 디코딩된 오디오는 네이티브 오디오 비트스트림을 복원(즉, 결정하거나 추출)하기 위해 오디오를 디코딩하는 디코더(907)(예를 들어, AAC 디코더)로의 오디오 비트스트림에 입력된다. 그 후, 네이티브 오디오 비트스트림은 전송 계층 디멀티플렉서(906)에 의해 출력된 채널 셔플 정보와 함께 오디오 채널 셔플러(908)에 입력된다. 재정렬된 채널을 갖는 오디오는 오디오 채널 셔플러(908)로부터 출력되고 OAMD와 함께 OBA 인코더(909)로 입력된다. OBA 인코더의 출력은 OBA 비트스트림이다.
도 9c를 참조하면, 디코딩 시스템(900C)은 OBA 디코더(910) 및 객체 오디오 렌더러(911)를 포함한다. OBA 비트스트림은 객체 오디오 렌더러(911)에 입력되는 오디오 및 OAMD를 출력하는 OBA 디코더(910)에 입력된다. 객체 오디오 렌더러(911)는 OAMD를 사용하여 오디오를 처리하여, 이를 특정 확성기 레이아웃에 적응시킨다.
소스 디바이스에서 렌더링을 위해 전송 계층을 통해 미리-계산된 OAMD를 송신하는 것
도 10a 및 10b는 실시예에 따른 22.2-ch 오디오 비트스트림을 오디오 객체 및 OAMD로 변환하기 위한 예시적인 시스템의 블록도이고, 여기서 채널 셔플 정보 및 OAMD는 소스 디바이스(예를 들어, STB, AVR)에서 렌더링을 위해 전송 계층에 내장된다. 22.2-ch 콘텐츠를 표현하는 데 사용되는 OAMD는 프로그램에 대해 정적이다. 이 이유로, 오디오 비트스트림에서 데이터 속도 증가를 회피하기 위해 OAMD를 자주 전송하는 것을 회피하는 것이 바람직하다. 이는 전송 계층 내에서 정적 OAMD 및 채널 셔플 정보를 전송함으로써 달성될 수 있고, 전송 계층에서 송신될 수 있다. 수신될 때, OAMD 및 채널 셔플 정보는 콘텐츠를 렌더링하기 위해 객체 오디오 렌더러에 의해 사용된다. 예시적인 전송 계층은 ISO/IEC 14496-12-MPEG-4 Part 12에 설명된 기본 미디어 파일 포맷(BMFF)이며, 이는 비디오 및 오디오와 같은 시간-기반 멀티미디어 파일에 대한 일반적인 구조를 정의한다. 실시예에서, OAMD는 MPEG-DASH 매니페스트에 포함된다.
도 10a를 참조하면, 인코딩 시스템(1000A)은 인코더(1001)(예를 들어, AAC 인코더), 포맷 변환기(1002) 및 전송 계층 멀티플렉서(1004)를 포함한다. 포맷 변환기(1002)는 OAMD 메타데이터 생성기(1003)를 더 포함한다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다.
네이티브 오디오 비트스트림(1005)(예를 들어, AAC/MP4)은 22.2-ch 오디오 및 메타데이터를 포함한다. 오디오는 오디오를 네이티브 오디오 포맷으로 인코딩하고 인코딩된 오디오를 전송 계층 멀티플렉서(1004)로 출력하는 인코더(1001)에 입력된다. OAMD 메타데이터 생성기(1003)는 가령 예를 들어, 도 1a를 참조하여 설명된 원리에 적합하게 22.2-ch 메타데이터를 OAMD에 매핑하고, 채널 셔플 정보를 생성한다. 채널 셔플 정보는 가령 예를 들어, 도 1b를 참조하여 설명된 원리에 적합하게 22.2-ch 콘텐츠의 채널 재정렬을 설명한다. 채널 셔플 정보는 OAMD와 함께 전송 계층 멀티플렉서(1004)에 입력된다. 전송 계층 멀티플렉서(1004)의 출력은 네이티브 오디오 비트스트림을 포함하는 전송 스트림이다.
도 10b를 참조하면, 디코딩 시스템(1000B)은 전송 계층 디멀티플렉서(1006), 디코더(1007), 오디오 채널 셔플러(1008) 및 객체 오디오 렌더러(1009)를 포함한다. 전송 계층 디멀티플렉서(1006)는 전송 비트스트림으로부터 오디오 및 OAMD를 디멀티플렉싱하고 오디오 및 OAMD를 디코더(1007)에 입력하고, 디코더(1007)는 네이티브 오디오 비트스트림으로부터 오디오 및 OAMD를 디코딩한다. 그 후, 디코딩된 오디오 및 OAMD는 객체 오디오 렌더러(1009)에 입력된다. 객체 오디오 렌더러(1009)는 OAMD를 사용하여 오디오를 처리하여, 이를 특정 확성기 레이아웃에 적응시킨다.
예시적인 프로세스
도 11은 CBA 대 OBA 변환 프로세스(1100)의 흐름도이다. 프로세스(1100)는 도 3에 도시된 오디오 시스템 아키텍처를 사용하여 구현될 수 있다. 프로세스(1100)는 채널-기반 오디오 및 메타데이터를 포함하는 비트스트림을 수신하는 단계(1101), OAMD 표현을 나타내는 비트스트림으로부터 시그널링 매개변수를 파싱하는 단계(1102), 시그널링된 OAMD 표현을 기초로 채널-기반 메타데이터를 OAMD로 변환하는 단계(1103), OAMD의 순서화 제약에 기초하여 채널 셔플 정보를 생성하는 단계(1104), 채널 셔플 정보를 기초로 채널-기반 오디오의 채널을 재정렬하는 단계(1105), OAMD를 사용하여 재정렬된 채널-기반 오디오를 렌더링하는 단계(1106)를 포함한다. 위의 단계(1103 및 1104)는 예를 들어, 각각 도 1a 및 1b에 도시된 OAMD 표현 및 베드 채널 할당/순서화 및 도 3에 도시된 오디오 시스템 아키텍처를 사용하여 수행될 수 있다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다.
도 12는 CBA 대 OBA 변환 프로세스(1200)의 흐름도이다. 프로세스(1200)는 도 4에 도시된 오디오 시스템 아키텍처를 사용하여 구현될 수 있다. 프로세스(1200)는 채널-기반 오디오 및 메타데이터를 포함하는 비트스트림을 수신하는 단계(1201), OAMD 표현을 나타내는 비트스트림으로부터 시그널링 매개변수를 파싱하는 단계(1202), 시그널링된 OAMD 표현을 기초로 채널-기반 메타데이터를 OAMD로 변환하는 단계(1203), OAMD의 순서화 제약에 기초하여 채널 셔플 정보를 생성하는 단계(1204), 채널 셔플 정보를 기초로 채널-기반 오디오의 채널을 재정렬하는 단계(1205), 재생 디바이스로의 송신을 위해, 재정렬된 채널-기반 오디오 및 OAMD를 OBA 비트스트림으로 인코딩하는 단계(1206) - 오디오는 OAMD를 사용하여 객체 오디오 렌더러에 의해 렌더링됨 -를 포함한다. 위의 단계(1203 및 1205)는 예를 들어, 도 1a 및 1b에 도시된 OAMD 표현 및 베드 채널 할당/순서화 및 도 4에 도시된 오디오 시스템 아키텍처를 사용하여 수행될 수 있다. OAMD 메타데이터의 일부 예시는 콘텐츠 설명 메타데이터, 속성 업데이트 메타데이터 및 트림 데이터를 포함하지만 이에 제한되지 않는다.
도 13은 CBA 대 OBA 변환 프로세스(1300)의 흐름도이다. 프로세스(1300)는 도 5에 도시된 오디오 시스템 아키텍처를 사용하여 구현될 수 있다. 프로세스(1300)는 네이티브 오디오 포맷에서의 채널-기반 오디오 및 메타데이터를 포함하는 네이티브 오디오 비트스트림을 수신하는 단계(1301), 채널-기반 오디오 및 메타데이터를 복원하기 위해 네이티브 오디오 비트스트림을 디코딩하는 단계(1302), OAMD 표현을 나타내는 비트스트림으로부터 시그널링 매개변수를 파싱하는 단계(1303), 시그널링된 OAMD 표현을 기초로 채널-기반 메타데이터를 OAMD로 변환하는 단계(1304), OAMD의 순서화 제약에 기초하여 채널 셔플링 정보를 생성하는 단계(1305), 채널 셔플 정보를 기초로 채널-기반 오디오의 채널을 재정렬하는 단계(1306), OAMD를 사용하여 재정렬된 채널-기반 오디오를 렌더링하는 단계(1307)를 포함한다. 단계(1304 및 1305)는 예를 들어, 도 1a 및 1b에 도시된 OAMD 표현 및 베드 채널 할당/순서화 및 도 5에 도시된 오디오 시스템 아키텍처를 사용하여 수행될 수 있다.
도 14는 CBA 대 OBA 변환 프로세스(1400)의 흐름도이다. 프로세스(1400)는 도 6a 및 6b에 도시된 오디오 시스템 아키텍처를 사용하여 구현될 수 있다. 프로세스(1400)는 네이티브 오디오 포맷에서의 채널-기반 오디오 및 메타데이터를 포함하는 네이티브 오디오 비트스트림을 수신하고(1401), 채널-기반 오디오 및 메타데이터를 복원하기 위해 즉, 이를 결정하거나 추출하기 위해 네이티브 오디오 비트스트림을 디코딩하고(1402), OAMD 표현을 나타내는 비트스트림으로부터의 시그널링 매개변수를 파싱하고(1403), 시그널링된 OMD 표현을 기초로 채널-기반 메타데이터를 OAMD로 변환하고(1404), OAMD의 순서화 제약을 기초로 채널 셔플 정보를 생성하고(1405), 채널 셔플 정보를 기초로 채널-기반 오디오의 채널을 재정렬하고(1406), 재생 디바이스로의 송신을 위해 재정렬된 채널-기반 오디오 및 OAMD를 OBA 비트스트림으로 인코딩함으로써(1407) - 오디오는 OAMD를 사용하여 객체 오디오 렌더러에 의해 렌더링됨 - 개시된다. 단계(1404 및 1405)는, 예를 들어, 도 1a 및 1b에 도시된 OAMD 표현 및 베드 채널 할당/순서화 및 도 6a 및 6b에 도시된 오디오 시스템 아키텍처를 사용하여 수행될 수 있다.
도 15는 CBA 대 OBA 변환 프로세스(1500)의 흐름도이다. 프로세스(1500)는 도 7a-7c에 도시된 오디오 시스템 아키텍처를 사용하여 구현될 수 있다. 프로세스(1500)는 채널-기반 오디오 및 메타데이터를 포함하는 채널-기반 오디오 비트스트림을 수신하고(1501), 채널-기반 오디오를 네이티브 오디오 비트스트림으로 인코딩하고(1502), OAMD 표현을 나타내는 채널-기반 메타데이터로부터 시그널링 매개변수를 파싱하고(1503), 시그널링된 OMD 표현을 기초로 채널-기반 메타데이터를 OAMD로 변환하고(1504), OAMD의 순서화 제약을 기초로 채널 셔플 정보를 생성하고(1505), 네이티브 오디오 비트스트림, 채널 셔플 정보 및 OAMD를 결합된 오디오 비트스트림으로 결합하고(1506), 렌더링을 위한 재생 디바이스 또는 렌더링을 위한 소스 디바이스(예를 들어, STB, AVR)로의 송신을 위해 결합된 오디오 비트스트림을 전송 계층 비트스트림으로 포함함으로써(1507) 개시된다. 위의-식별된 단계의 세부사항은 도 1a, 1b, 7a, 7c, 8a, 8b, 9a-9c, 10a 및 10b를 참조로 설명되었다.
도 16은 CBA 대 OBA 변환 프로세스(1600)의 흐름도이다. 프로세스(1600)는 도 8a, 8b, 9a-9c, 10a, 10b에 도시된 오디오 시스템 아키텍처를 사용하여 구현될 수 있다. 프로세스(1600)는 네이티브 오디오 비트스트림 및 메타데이터를 포함하는 전송 계층 비트스트림을 수신하고(1601), 전송 비트스트림으로부터 네이티브 오디오 비트스트림 및 메타데이터, 채널 셔플 정보 및 OAMD를 추출하고(1602), 채널-기반 오디오를 복원하기 위해 즉, 결정 또는 추출하기 위해 네이티브 오디오 비트스트림을 디코딩하고(1603), 채널 셔플 정보를 사용하여 채널-기반 오디오의 채널을 재정렬하고(1604), 재생 디바이스 또는 소스 디바이스로의 송신을 위해 재정렬된 채널-기반 오디오 및 OAMD를 OBA 비트스트림으로 선택적으로 인코딩하거나(1605), 또는 재정렬된 채널-기반 오디오 및 OAMD를 복원하기 위해 OBA 비트스트림을 선택적으로 디코딩하고(1606), 및 OAM을 사용하여 재정렬된 채널-기반 오디오를 렌더링하고(1607) 재생 디바이스로 송신함으로써 개시된다. 위의-식별된 단계의 세부사항은 도 8a, 8b, 9a-9c, 10a 및 10b를 참조로 설명되었다.
MPEG-4 오디오 또는 MPEG-D 오디오 비트스트림 내에서 미리 계산된 OAMD를 송신하는 것
실시예에서, 22.2 콘텐츠를 표현하는 OAMD는 MPEG-4 오디오(ISO/IEC 14496-3) 비트스트림과 같은 네이티브 오디오 비트스트림 내에서 전달된다. 세 개의 실시예에 대한 예시적인 신택스가 아래에 제공된다.
MPEG-4 신택스 대안 #1
Figure pct00001
MPEG-4 신택스 대안 #2
Figure pct00002
MPEG-4 신택스 대안 #3
Figure pct00003
위의 예시적인 신택스에서, 요소 element_instance_tag는 데이터 스트림 요소를 식별하기 위한 숫자이며, 요소 extension_payload(int)는 필 요소(fill element)(ID_FIL) 내부에 포함될 수 있다. 위의 세 개의 신택스 실시예의 각각은 추가적인 데이터의 의미를 나타내기 위해 "태그" 또는 "extension_type"을 설명한다. 실시예에서, 디코더가 비트스트림의 영역을 검사하게 하는 것을 회피하기 위해, 비트스트림의 세 개의 확장 영역 중 하나에 추가적인 OAMD 및 채널 셔플 정보가 존재한다는 것을 시그널링하는 신호가 비트스트림에 삽입될 수 있다. 예를 들어, MPEG4_ancillary_data 필드는 다음과 같은 의미를 갖는 dolby_surround_mode 필드를 포함한다. OAMD가 비트스트림에 존재한다는 것을 디코더에 나타내기 위해 유사한 시그널링 신택스가 사용될 수 있다.
dolby_surround_mode 신호의 정의
Figure pct00004
실시예에서, 위의 테이블에서 예약된 필드는 미리-계산된 OAMD 페이로드가 비트스트림의 확장 데이터의 어딘가에 내장되었음을 나타내기 위해 사용된다. (dolby_surround_mode = "11")의 예약된 값은 확장 데이터 필드가 22.2를 OBA(예를 들어, Dolby® Atmos®)로 변환하는 데 필요한 요구되는 OAMD 및 채널 정보를 포함한다는 것을 디코더에 나타내기 위해 사용된다. 대안적으로, 예약된 필드는 콘텐츠가 OBA 호환 가능하고(예를 들어, Dolby® Atmos® 호환 가능하고), 22.2-ch 콘텐츠를 OBA로 변환하는 것이 가능함을 나타낸다. 따라서, dolby_surround_mode 신호가 예약된 값 "11"로 설정되는 경우, 디코더는 콘텐츠가 OBA와 호환 가능하다는 것을 알고, 추가적인 인코딩 및/또는 렌더링을 위해 22.2-ch 콘텐츠를 OBA로 변환할 것이다.
실시예에서, 22.2 콘텐츠를 나타내는 OAMD는 MPEG-D USAC(ISO/IEC 23003-3) 오디오 비트스트림과 같은 네이티브 오디오 비트스트림 내에서 전달된다. 이러한 실시예에 대한 예시적인 신택스가 아래에 제공된다.
Figure pct00005
예시적인 오디오 시스템 아키텍처
도 17은 실시예에 따른, 채널 오디오 대 객체 오디오 변환을 포함하는 예시적인 오디오 시스템 아키텍처의 블록도이다. 이 예시에서, 아키텍처는 STB 또는 AVR를 위한 것이다. STB/AVR(1700)은 입력(1701), 아날로그 대 디지털 변환기(ADC, 1702), 복조기(1703), 동기화기/디코더(1704), MPEG 디멀티플렉서(1707), MPEG 디코더(1706), 메모리(1709), 제어 프로세서(1710), 오디오 채널 셔플러(1705), OBA 인코더(1711) 및 비디오 인코더(1712)를 포함한다. 이 예시에서, STB/AVR(1700)은 도 9a-9c 및 10a, 10b에서 설명된 응용을 구현하며, 여기서 미리 계산된 OAMD는 MPEG-4 오디오 비트스트림으로 전달된다.
실시예에서, 저잡음 블록은 위성 접시 안테나(satellite dish)로부터 전파를 수집하고, 이를 동축 케이블을 통해 STB/AVR(1700)의 입력 포트(1701)로 전송되는 아날로그 신호로 변환한다. 아날로그 신호는 ADC(1702)에 의해 디지털 신호로 변환된다. 디지털 신호는 MPEG 전송 비트스트림을 복원하기 위해 복조기(1703)(예를 들어, QPSK 복조기)에 의해 복조되고 동기화기/디코더(1704)(예를 들어, 동기화기 + 비터비 디코더(Viterbi decoder))에 의해 동기화되고 디코딩되며, 이는 채널 셔플 정보 및 OAMD를 포함하는 채널-기반 오디오 및 비디오 오디오 비트스트림 및 메타데이터를 복원하기 위해 MPEG 디멀티플렉서(1707)에 의해 복조되고 MPEG 디코더(1706)에 의해 디코딩된다. 오디오 채널 셔플러(1705)는 가령, 예를 들어 도 1b를 참조로 설명된 원리에 적합하게, 채널 셔플 정보에 따라 오디오 채널을 재정렬한다. OBA 인코더(1711)는 재정렬된 채널을 갖는 오디오를 OBA 오디오 비트스트림(예를 들어, Dolby® MAT)으로 인코딩하고, 이는 재생 디바이스에서 객체 오디오 렌더러에 의해 렌더링될 재생 디바이스(예를 들어, Dolby® Atmos® 디바이스)로 송신된다. 비디오 인코더(1712)는 비디오를 재생 디바이스에 의해 지원되는 비디오 포맷으로 인코딩한다.
도 17을 참조하여 설명된 아키텍처는 단지 예시적인 아키텍처라는 것을 유의한다. CBA로부터 OBA로의 변환은 본원에서 설명된 포맷 변환 및 채널 재정렬을 수행하기 위한 하나 이상의 프로세서, 메모리, 적절한 입/출력 인터페이스 및 소프트웨어 모듈 및/또는 하드웨어(예를 들어, ASIC)를 포함하는 임의의 디바이스에 의해 수행될 수 있다.
이 문서는 다수의 특정 구현 세부사항을 포함하지만, 이는 청구될 수 있는 범주에 대한 제한으로 해석되지 않아야 하며, 오히려 특정 실시예에 특정할 수 있는 특성의 설명으로 해석되어야 한다. 별도의 실시예의 맥락에서 본 명세서에 설명된 특정 특성은 또한, 단일 실시예에서 조합하여 구현될 수 있다. 역으로, 단일 실시예의 맥락에서 설명된 다양한 특성은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 하위 조합으로 구현될 수 있다. 더욱이, 특성이 특정 조합으로 작용하는 것으로 위에서 설명될 수 있고 심지어 초기에 그 자체로 청구될 수 있지만, 청구된 조합으로부터의 하나 이상의 특성은 일부 경우에 조합으로부터 제거될 수 있고, 청구된 조합은 하위 조합 또는 하위 조합의 변형에 관련 될 수 있다. 도면에 도시된 논리적인 흐름은 원하는 결과를 달성하기 위해 도시된 특정 순서 또는 순차적인 순서를 요구하지 않는다. 덧붙여, 설명된 흐름으로부터 다른 단계가 제공되거나 또는 단계가 제거될 수 있으며, 설명된 시스템에 다른 구성요소가 추가되거나 또는 이로부터 제거될 수 있다. 따라서, 다른 구현은 다음 청구범위의 범주 내에 있다.
본 발명의 다양한 양상은 다음의 열거된 예시적인 실시예(EEE)로부터 인식될 수 있다:
EEE 1. 방법으로서,
오디오 처리 장치의 하나 이상의 프로세서에 의해, 채널-기반 오디오 및 메타데이터를 포함하는 비트스트림을 수신하는 단계를 포함하고;
하나 이상의 프로세서는:
메타데이터로부터 시그널링 매개변수를 파싱하고 - 시그널링 매개변수는 복수의 상이한 객체 오디오 메타데이터(OAMD) 표현 중 하나를 나타냄 -;
시그널링 매개변수에 의해 나타난 OAMD 표현을 사용하여 채널-기반 메타데이터를 OAMD로 변환하고;
OAMD의 채널 순서화 제약에 기초하여 채널 셔플 정보를 생성하고;
채널 셔플 정보를 기초로 채널-기반 오디오의 채널을 재정렬하고; 및
OAMD를 사용하여 재정렬된 채널-기반 오디오를 렌더링된 오디오로 렌더링하거나; 또는
채널-기반 오디오 및 OAMD를 객체-기반 오디오 비트스트림으로 인코딩하고 객체-기반 오디오 비트스트림을 재생 디바이스 또는 소스 디바이스로 송신하도록 구성되는, 방법.
EEE 2. EEE 1에 있어서, 채널-기반 오디오 및 메타데이터는 네이티브 오디오 비트스트림에 포함되고, 방법은 채널-기반 오디오 및 메타데이터를 복원하기 위해 네이티브 오디오 비트스트림을 디코딩하는 단계를 더 포함하는, 방법.
EEE 3. EEE 2에 있어서, 네이티브 오디오 비트스트림은 고급 오디오 코딩(AAC) 비트스트림인, 방법.
EEE 4. EEE 1 내지 3 중 어느 하나에 있어서, 채널-기반 오디오 및 메타데이터는 N.M 채널-기반 오디오 및 메타데이터이고, 여기서 N은 9보다 큰 양의 정수이고 M은 0 이상의 양의 정수인, 방법.
EEE 5. EEE 1 내지 4 중 어느 하나에 있어서, 소스 디바이스는 텔레비전 셋톱박스 또는 오디오/비디오 수신기인, 방법.
EEE 6. EEE 1 내지 5 중 어느 하나에 있어서,
OAMD 베드 채널에 의해 표현될 수 있는 채널-기반 오디오의 제1 세트의 채널을 결정하는 단계;
OAMD 베드 채널 라벨을 제1 세트의 채널에 할당하는 단계;
OAMD 베드 채널에 의해 표현될 수 없는 채널-기반 오디오의 제2 세트의 채널을 결정하는 단계; 및
정적 OAMD 위치 좌표를 제2 세트의 채널에 할당하는 단계를 더 포함하는, 방법.
EEE 7. EEE 1 내지 6 중 어느 하나에 있어서, OAMD는 렌더링된 오디오에서 하나 이상의 스크린 밖 오디오 객체의 라우드니스 수준(loudness levels)을 낮추기 위한 차원 트림 데이터를 포함하는, 방법.
EEE 8. EEE 1 내지 7 중 어느 하나에 있어서, OAMD는 채널-기반 오디오의 다운믹스 값과 채널-기반 오디오의 OAMD 표현의 렌더링 간의 차이를 보상하는 데 사용되는 객체 이득을 포함하는, 방법.
EEE 9. 방법으로서,
오디오 처리 장치의 하나 이상의 프로세서에 의해, 채널-기반 오디오 및 메타데이터를 포함하는 비트스트림을 수신하는 단계를 포함하고;
하나 이상의 프로세서는:
채널-기반 오디오를 네이티브 오디오 비트스트림으로 인코딩하고;
메타데이터로부터 시그널링 매개변수를 파싱하고 - 시그널링 매개변수는 복수의 상이한 객체 오디오 메타데이터(OAMD) 표현 중 하나를 나타냄 -;
시그널링 매개변수에 의해 나타난 OAMD 표현을 사용하여 채널-기반 메타데이터를 OAMD로 변환하고;
OAMD의 채널 순서화 제약에 기초하여 채널 셔플 정보를 생성하고;
네이티브 오디오 비트스트림, 채널 셔플 정보 및 OAMD를 포함하는 비트스트림 패키지를 생성하고;
패키지를 전송 계층 비트스트림으로 멀티플렉싱하고; 및
전송 계층 비트스트림을 재생 디바이스 또는 소스 디바이스로 송신하도록 구성되는, 방법.
EEE 10. EEE 9에 있어서, 네이티브 오디오 비트스트림은 고급 오디오 코딩(AAC) 비트스트림인, 방법.
EEE 11. EEE 9 또는 EEE 10에 있어서, 채널-기반 오디오 및 메타데이터는 N.M 채널-기반 오디오 및 메타데이터이며, 여기서 N은 7보다 큰 양의 정수이고 M은 0 이상의 양의 정수인, 방법.
EEE 12. EEE 9 내지 11 중 어느 하나에 있어서, 소스 디바이스는 텔레비전 셋톱박스 또는 오디오/비디오 수신기인, 방법.
EEE 13. EEE 9 내지 12 중 어느 하나에 있어서, OAMD 베드 채널 라벨로 표현될 수 있는 채널-기반 오디오에서의 채널은 OAMD 베드 채널 라벨을 사용하고, OAMD 베드 채널 라벨로 표현될 수 없는 채널-기반 오디오에서의 채널은 정적 객체 위치를 사용하고, 각 정적 객체 위치는 OAMD 위치 좌표로 설명되는, 방법.
EEE 14. EEE 9 내지 13 중 어느 하나에 있어서, OAMD는 렌더링된 오디오에서 하나 이상의 스크린 밖 오디오 객체의 라우드니스 수준을 낮추기 위한 차원 트림 데이터를 포함하는, 방법.
EEE 15. EEE 9 내지 14 중 어느 하나에 있어서, OAMD는 채널-기반 오디오의 다운믹스 값과 채널-기반 오디오의 OAMD 표현의 렌더링 사이의 차이를 보상하는 데 사용되는 객체 이득을 포함하는, 방법.
EEE 16. EEE 9 내지 15 중 어느 하나에 있어서, 전송 비트스트림은 MPEG 오디오 비트스트림의 확장 필드에 OAMD의 존재를 나타내는 신호를 포함하는 MPEG(moving pictures experts group) 오디오 비트스트림인, 방법.
EEE 17. EEE 16에 있어서, MPEG 오디오 비트스트림에서 OAMD의 존재를 나타내는 신호는 서라운드 사운드 모드를 시그널링하기 위해 MPEG 오디오 비트스트림에서의 메타데이터의 예약된 필드에 포함되는, 방법.
EEE 18. 방법으로서,
오디오 처리 장치의 하나 이상의 프로세서에 의해, 패키지를 포함하는 전송 계층 비트스트림을 수신하는 단계를 포함하고;
하나 이상의 프로세서는:
패키지를 복원하기 위해 전송 계층 비트스트림을 디멀티플렉싱하고;
네이티브 오디오 비트스트림, 채널 셔플 정보 및 객체 오디오 메타데이터(OAMD)를 복원하기 위해 패키지를 디코딩하고;
채널-기반 오디오 비트스트림 및 메타데이터를 복원하기 위해 네이티브 오디오 비트스트림을 디코딩하고;
채널 셔플 정보를 기초로 채널-기반 오디오의 채널을 재정렬하고; 및
OAMD를 사용하여 재정렬된 채널-기반 오디오를 렌더링된 오디오로 렌더링하거나; 또는
채널-기반 오디오 및 OAMD를 객체-기반 오디오 비트스트림으로 인코딩하고, 객체-기반 오디오 비트스트림을 소스 디바이스로 송신하도록 구성되는, 방법.
EEE 19. EEE 18에 있어서, 네이티브 오디오 비트스트림은 고급 오디오 코딩(AAC) 비트스트림인, 방법.
EEE 20. EEE 18 또는 EEE 19에 있어서, 채널-기반 오디오 및 메타데이터는 N.M 채널 기반 오디오 및 메타데이터이며, N은 7보다 큰 양의 정수이고 M은 0 이상의 양의 정수인, 방법.
EEE 21. EEE 18 내지 20 중 어느 하나에 있어서,
OAMD 베드 채널에 의해 표현될 수 있는 채널-기반 오디오의 제1 세트의 채널을 결정하는 단계;
OAMD 베드 채널 라벨을 제1 세트의 채널에 할당하는 단계;
OAMD 베드 채널에 의해 표현될 수 없는 채널-기반 오디오의 제2 세트의 채널을 결정하는 단계; 및
정적 OAMD 위치 좌표를 제2 세트의 채널에 할당하는 단계를 더 포함하는, 방법.
EEE 22. EEE 18 내지 21 중 어느 하나에 있어서, OAMD는 렌더링된 오디오에서 하나 이상의 스크린 밖 객체의 라우드니스 수준을 낮추기 위한 차원 트림 데이터를 포함하는, 방법.
EEE 23. EEE 18 내지 22 중 어느 하나에 있어서, OAMD는 채널-기반 오디오의 다운믹스 값과 채널-기반 오디오의 OAMD 표현의 렌더링 사이의 차이를 보상하는 데 사용되는 객체 이득을 포함하는, 방법.
EEE 24. EEE 18 내지 EEE 23 중 어느 하나에 있어서, 전송 비트스트림은 MPEG 오디오 비트스트림의 확장 필드에 OAMD의 존재를 나타내는 신호를 포함하는 MPEG(moving pictures experts group) 오디오 비트스트림인, 방법.
EEE 25. EEE 18 내지 24 중 어느 하나에 있어서, MPEG 오디오 비트스트림에서 OAMD의 존재를 나타내는 신호는 서라운드 사운드 모드를 시그널링하기 위한 MPEG 오디오 비트스트림의 메타데이터에서 데이터 구조의 예약된 필드에 포함되는, 방법.
EEE 26. 장치로서,
하나 이상의 프로세서; 및
하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 선행하는 EEE 1 내지 25 중 임의의 것의 방법을 수행하게 하는 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 포함하는, 장치.
EEE 27. 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 선행하는 EEE 1 내지 25 중 임의의 것의 방법을 수행하게 하는 명령어가 저장된, 비일시적 컴퓨터 판독 가능 저장 매체.

Claims (30)

  1. 방법으로서,
    오디오 처리 장치의 하나 이상의 프로세서에 의해, 채널-기반 오디오 및 연관된 채널-기반 오디오 메타데이터를 포함하는 비트스트림을 수신하는 단계를 포함하고;
    상기 하나 이상의 프로세서는:
    상기 채널-기반 오디오 메타데이터로부터 시그널링 매개변수를 파싱하고 - 상기 시그널링 매개변수는 복수의 상이한 객체 오디오 메타데이터(object audio metadata, OAMD) 표현 중 하나를 나타내고, 상기 OAMD 표현의 각각의 것은 상기 채널-기반 오디오의 하나 이상의 오디오 채널을 하나 이상의 오디오 객체에 매핑함 -;
    상기 시그널링 매개변수에 의해 나타나는 상기 OAMD 표현을 사용하여 상기 채널-기반 메타데이터를 상기 하나 이상의 오디오 객체와 연관된 OAMD로 변환하고;
    상기 OAMD의 채널 순서화 제약에 기초하여 채널 셔플 정보(channel shuffle information)를 생성하고;
    재정렬된 채널-기반 오디오를 생성하기 위해 상기 채널 셔플 정보를 기초로 상기 채널-기반 오디오의 상기 하나 이상의 오디오 채널을 재정렬하고; 및
    상기 OAMD를 사용하여 상기 재정렬된 채널-기반 오디오를 렌더링된 오디오로 렌더링하거나; 또는
    상기 재정렬된 채널-기반 오디오 및 상기 OAMD를 객체-기반 오디오 비트스트림으로 인코딩하고 상기 객체-기반 오디오 비트스트림을 재생 디바이스 또는 소스 디바이스로 송신하도록 구성되는, 방법.
  2. 제1항에 있어서, 상기 비트스트림은 네이티브 오디오 비트스트림(native audio bitstream)이고, 상기 방법은 상기 채널-기반 오디오 및 메타데이터를 결정하기 위해 상기 네이티브 오디오 비트스트림을 디코딩하는 단계를 더 포함하는, 방법.
  3. 제2항에 있어서, 상기 네이티브 오디오 비트스트림은 고급 오디오 코딩(advanced audio coding, AAC) 비트스트림인, 방법.
  4. 이전의 청구항 중 어느 한 항에 있어서, 상기 채널-기반 오디오 및 상기 연관된 채널-기반 오디오 메타데이터는 각각 N.M 채널-기반 오디오 및 상기 N.M 채널-기반 오디오와 연관된 채널-기반 오디오 메타데이터이고, 여기서 N은 9보다 큰 양의 정수이고 M은 0 이상의 양의 정수인, 방법.
  5. 제4항에 있어서, 상기 채널-기반 오디오는 22.2인, 방법.
  6. 이전의 청구항 중 어느 한 항에 있어서, 상기 소스 디바이스는 텔레비전 셋톱박스 또는 오디오/비디오 수신기인, 방법.
  7. 이전의 청구항 중 어느 한 항에 있어서,
    OAMD 베드 채널에 의해 표현될 수 있는 상기 채널-기반 오디오의 제1 세트의 채널을 결정하는 단계;
    OAMD 베드 채널 라벨을 상기 제1 세트의 채널에 할당하는 단계;
    OAMD 베드 채널에 의해 표현될 수 없는 상기 채널-기반 오디오의 제2 세트의 채널을 결정하는 단계; 및
    정적 OAMD 위치 좌표를 상기 제2 세트의 채널에 할당하는 단계를 더 포함하는, 방법.
  8. 이전의 청구항 중 어느 한 항에 있어서, 상기 OAMD는 상기 렌더링된 오디오에서 하나 이상의 스크린 밖 오디오 객체의 라우드니스 수준을 낮추기 위한 차원 트림 데이터를 포함하는, 방법.
  9. 이전의 청구항 중 어느 한 항에 있어서, 상기 OAMD는 상기 채널-기반 오디오의 다운믹스 값과 상기 채널-기반 오디오의 OAMD 표현의 렌더링 사이의 차이의 보상을 허용하는 객체 이득을 포함하는, 방법.
  10. 방법으로서,
    오디오 처리 장치의 하나 이상의 프로세서에 의해, 채널-기반 오디오 및 연관된 채널-기반 오디오 메타데이터를 포함하는 비트스트림을 수신하는 단계를 포함하고;
    상기 하나 이상의 프로세서는:
    상기 채널-기반 오디오를 네이티브 오디오 비트스트림으로 인코딩하고;
    상기 채널-기반 오디오 메타데이터로부터 시그널링 매개변수를 파싱하고 - 상기 시그널링 매개변수는 복수의 상이한 객체 오디오 메타데이터(OAMD) 표현 중 하나를 나타내고, 상기 OAMD 표현의 각각의 것은 상기 채널-기반 오디오의 하나 이상의 오디오 채널을 하나 이상의 오디오 객체에 매핑함 -;
    상기 시그널링 매개변수에 의해 나타나는 상기 OAMD 표현을 사용하여 상기 채널-기반 메타데이터를 상기 하나 이상의 오디오 객체와 연관된 OAMD로 변환하고;
    상기 OAMD의 채널 순서화 제약에 기초하여 채널 셔플 정보를 생성하고;
    상기 네이티브 오디오 비트스트림, 상기 채널 셔플 정보 및 상기 OAMD를 포함하는 비트스트림 패키지를 생성하고 - 상기 채널 셔플 정보는 재정렬된 채널 기반 오디오를 생성하기 위해 재생 디바이스 또는 소스 디바이스에서 상기 채널 셔플 정보를 기초로 상기 채널-기반 오디오의 상기 하나 이상의 오디오 채널을 재정렬하는 것을 가능하게 함 -;
    상기 비트스트림 패키지를 전송 계층 비트스트림으로 멀티플렉싱하고; 및
    상기 전송 계층 비트스트림을 상기 재생 디바이스 또는 상기 소스 디바이스로 송신하도록 구성되는, 방법.
  11. 제10항에 있어서, 상기 네이티브 오디오 비트스트림은 고급 오디오 코딩(AAC) 비트스트림인, 방법.
  12. 제10항 또는 제11항에 있어서, 상기 채널-기반 오디오 및 상기 연관된 채널-기반 오디오 메타데이터는 각각 N.M 채널-기반 오디오 및 상기 N.M 채널-기반 오디오와 연관된 채널-기반 오디오 메타데이터이고, 여기서 N은 7보다 큰 양의 정수이고 M은 0 이상의 양의 정수인, 방법.
  13. 제12항에 있어서, 상기 채널-기반 오디오는 22.2인, 방법.
  14. 제10항 내지 제13항 중 어느 한 항에 있어서, 상기 소스 디바이스는 텔레비전 셋톱박스 또는 오디오/비디오 수신기인, 방법.
  15. 제10항 내지 제14항 중 어느 한 항에 있어서, 상기 OAMD 베드 채널 라벨로 표현될 수 있는 상기 채널-기반 오디오에서의 채널은 상기 OAMD 베드 채널 라벨을 사용하고, OAMD 베드 채널 라벨로 표현될 수 없는 상기 채널-기반 오디오에서의 채널은 정적 객체 위치를 사용하며, 각 정적 객체 위치는 OAMD 위치 좌표로 설명되는, 방법.
  16. 제10항 내지 제15항 중 어느 한 항에 있어서, 상기 OAMD는 상기 렌더링된 오디오에서 하나 이상의 스크린 밖 오디오 객체의 라우드니스 레벨을 낮추기 위한 차원 트림 데이터를 포함하는, 방법.
  17. 제10항 내지 제16항 중 어느 한 항에 있어서, 상기 OAMD는 상기 채널-기반 오디오의 다운믹스 값과 상기 채널-기반 오디오의 OAMD 표현의 렌더링 사이의 차이의 보상을 허용하는 객체 이득을 포함하는, 방법.
  18. 제10항 내지 제17항 중 어느 한 항에 있어서, 상기 전송 비트스트림은 MPEG(moving pictures experts group) 오디오 비트스트림의 확장 필드에 OAMD의 존재를 나타내는 신호를 포함하는 MPEG 오디오 비트스트림인, 방법.
  19. 제18항에 있어서, 상기 MPEG 오디오 비트스트림에서 상기 OAMD의 존재를 나타내는 상기 신호는 서라운드 사운드 모드를 시그널링하기 위해 상기 MPEG 오디오 비트스트림에서의 메타데이터의 예약된 필드에 포함되는, 방법.
  20. 방법으로서,
    오디오 처리 장치의 하나 이상의 프로세서에 의해, 비트스트림 패키지를 포함하는 전송 계층 비트스트림을 수신하는 단계 - 상기 비트스트림 패키지는 인코딩된 채널-기반 오디오, 채널 셔플 정보 및 객체 오디오 메타데이터(OAMD)를 포함하는 네이티브 오디오 비트스트림을 포함함 -를 포함하고;
    상기 하나 이상의 프로세서는:
    상기 비트스트림 패키지를 결정하기 위해 상기 전송 계층 비트스트림을 디멀티플렉싱하고;
    상기 채널-기반 오디오, 상기 채널 셔플 정보 및 상기 객체 오디오 메타데이터(OAMD)를 결정하기 위해 상기 비트스트림 패키지를 디코딩하고;
    재정렬된 채널 기반 오디오를 생성하기 위해 상기 채널 셔플 정보를 기초로 상기 채널-기반 오디오의 오디오 채널을 재정렬하고; 및
    상기 OAMD를 사용하여 상기 재정렬된 채널-기반 오디오를 렌더링된 오디오로 렌더링하거나; 또는
    상기 재정렬된 채널-기반 오디오 및 상기 OAMD를 객체-기반 오디오 비트스트림으로 인코딩하고, 상기 객체-기반 오디오 비트스트림을 소스 디바이스로 송신하도록 구성되는, 방법.
  21. 제20항에 있어서, 상기 네이티브 오디오 비트스트림은 고급 오디오 코딩(AAC) 비트스트림인, 방법.
  22. 제20항 또는 제21항에 있어서, 상기 채널-기반 오디오는 N.M 채널-기반 오디오이고, N은 7보다 큰 양의 정수이고 M은 0 이상의 양의 정수인, 방법.
  23. 제22항에 있어서, 상기 채널-기반 오디오는 22.2인, 방법.
  24. 제20항 내지 제23항 중 어느 한 항에 있어서,
    OAMD 베드 채널에 의해 표현될 수 있는 상기 채널-기반 오디오의 제1 세트의 채널을 결정하는 단계;
    OAMD 베드 채널 라벨을 상기 제1 세트의 채널에 할당하는 단계;
    OAMD 베드 채널에 의해 표현될 수 없는 상기 채널-기반 오디오의 제2 세트의 채널을 결정하는 단계; 및
    정적 OAMD 위치 좌표를 상기 제2 세트의 채널에 할당하는 단계를 더 포함하는, 방법.
  25. 제20항 내지 제24항 중 어느 한 항에 있어서, 상기 OAMD는 상기 렌더링된 오디오에서 하나 이상의 스크린 밖 객체의 라우드니스 수준을 낮추기 위한 차원 트림 데이터를 포함하는, 방법.
  26. 제20항 내지 제25항 중 어느 한 항에 있어서, 상기 OAMD는 상기 채널-기반 오디오의 다운믹스 값과 상기 채널-기반 오디오의 OAMD 표현의 렌더링 사이의 차이의 보상을 허용하는 객체 이득을 포함하는, 방법.
  27. 제20항 내지 제26항 중 어느 한 항에 있어서, 상기 전송 비트스트림은 MPEG(moving pictures experts group) 오디오 비트스트림의 확장 필드에 OAMD의 존재를 나타내는 신호를 포함하는 MPEG 오디오 비트스트림인, 방법.
  28. 제20항 내지 제27항 중 어느 한 항에 있어서, 상기 MPEG 오디오 비트스트림에서 OAMD의 존재를 나타내는 상기 신호는 서라운드 사운드 모드를 시그널링하기 위한 상기 MPEG 오디오 비트스트림의 메타데이터에서 데이터 구조의 예약된 필드에 포함되는, 방법.
  29. 장치로서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의해 실행될 때 상기 하나 이상의 프로세서로 하여금 선행하는 제1항 내지 제28항 중 어느 한 항의 방법을 수행하게 하는 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 포함하는, 장치.
  30. 하나 이상의 프로세서에 의해 실행될 때 상기 하나 이상의 프로세서로 하여금 제1항 내지 제28항 중 어느 한 항의 방법을 수행하게 하는 명령어가 저장된, 비일시적 컴퓨터 판독 가능 저장 매체.
KR1020227022443A 2019-12-02 2020-12-02 채널-기반 오디오로부터 객체-기반 오디오로의 변환을 위한 시스템, 방법 및 장치 KR102471715B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962942322P 2019-12-02 2019-12-02
EP19212906.2 2019-12-02
US62/942,322 2019-12-02
EP19212906 2019-12-02
PCT/US2020/062873 WO2021113350A1 (en) 2019-12-02 2020-12-02 Systems, methods and apparatus for conversion from channel-based audio to object-based audio

Publications (2)

Publication Number Publication Date
KR20220100084A true KR20220100084A (ko) 2022-07-14
KR102471715B1 KR102471715B1 (ko) 2022-11-29

Family

ID=73835849

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227022443A KR102471715B1 (ko) 2019-12-02 2020-12-02 채널-기반 오디오로부터 객체-기반 오디오로의 변환을 위한 시스템, 방법 및 장치

Country Status (7)

Country Link
US (1) US20230024873A1 (ko)
EP (1) EP3857919B1 (ko)
JP (1) JP7182751B6 (ko)
KR (1) KR102471715B1 (ko)
CN (1) CN114930876B (ko)
BR (1) BR112022010737A2 (ko)
WO (1) WO2021113350A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150146873A1 (en) * 2012-06-19 2015-05-28 Dolby Laboratories Licensing Corporation Rendering and Playback of Spatial Audio Using Channel-Based Audio Systems
US20160212559A1 (en) * 2013-07-30 2016-07-21 Dolby International Ab Panning of Audio Objects to Arbitrary Speaker Layouts
US20170032801A1 (en) * 2015-07-31 2017-02-02 Apple Inc. Encoded audio metadata-based equalization

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2097895A4 (en) * 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
JP5220840B2 (ja) * 2007-03-30 2013-06-26 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
EP3893521B1 (en) 2011-07-01 2024-06-19 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
EP3020042B1 (en) * 2013-07-08 2018-03-21 Dolby Laboratories Licensing Corporation Processing of time-varying metadata for lossless resampling
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
JP6710675B2 (ja) * 2014-07-31 2020-06-17 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ処理システムおよび方法
CN111556426B (zh) * 2015-02-06 2022-03-25 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
US20180357038A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Audio metadata modification at rendering device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150146873A1 (en) * 2012-06-19 2015-05-28 Dolby Laboratories Licensing Corporation Rendering and Playback of Spatial Audio Using Channel-Based Audio Systems
US20160212559A1 (en) * 2013-07-30 2016-07-21 Dolby International Ab Panning of Audio Objects to Arbitrary Speaker Layouts
US20170032801A1 (en) * 2015-07-31 2017-02-02 Apple Inc. Encoded audio metadata-based equalization

Also Published As

Publication number Publication date
KR102471715B1 (ko) 2022-11-29
CN114930876B (zh) 2023-07-14
JP7182751B6 (ja) 2022-12-20
BR112022010737A2 (pt) 2022-08-23
US20230024873A1 (en) 2023-01-26
EP3857919B1 (en) 2022-05-18
EP3857919A1 (en) 2021-08-04
JP7182751B1 (ja) 2022-12-02
JP2022553111A (ja) 2022-12-21
WO2021113350A1 (en) 2021-06-10
CN114930876A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
EP3729425B1 (en) Priority information for higher order ambisonic audio data
JP6510541B2 (ja) 環境高次アンビソニックス係数の遷移
US20200013426A1 (en) Synchronizing enhanced audio transports with backward compatible audio transports
KR102640460B1 (ko) 고차 앰비소닉 오디오 데이터에 대한 계층화된 중간 압축
WO2016057646A1 (en) Normalization of ambient higher order ambisonic audio data
KR20100138716A (ko) 고품질 다채널 오디오 부호화 및 복호화 장치
US20140310010A1 (en) Apparatus for encoding and apparatus for decoding supporting scalable multichannel audio signal, and method for apparatuses performing same
US20190392846A1 (en) Demixing data for backward compatible rendering of higher order ambisonic audio
US11081116B2 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
US10999693B2 (en) Rendering different portions of audio data using different renderers
KR102471715B1 (ko) 채널-기반 오디오로부터 객체-기반 오디오로의 변환을 위한 시스템, 방법 및 장치
CN108206022A (zh) 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法
US11062713B2 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams
RU2793271C1 (ru) Системы, способы и оборудование для преобразования из канально-ориентированного аудио в объектно-ориентированное аудио
CN108206984A (zh) 利用多信道传输三维声信号的编解码器及其编解码方法
JP7441057B2 (ja) オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法
CN108206983A (zh) 兼容现有音视频系统的三维声信号的编码器及其方法
Vlaicu Audioin next-generation DVB

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant