KR20180122451A

KR20180122451A - 대화형 오디오 메타데이터 취급

Info

Publication number: KR20180122451A
Application number: KR1020187030335A
Authority: KR
Inventors: 필립 리 마네스; 마크 로저스 존슨
Original assignee: 디티에스, 인코포레이티드
Priority date: 2016-03-23
Filing date: 2017-03-14
Publication date: 2018-11-12
Also published as: JP7288760B2; WO2017165157A1; JP2019514050A; HK1258771A1; US20170280169A1; EP3434009A1; CN109076250B; CN109076250A; EP3434009A4; US10027994B2

Abstract

재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 방법 및 장치가 제공된다. 장치는 적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호를 수신한다. 또한, 장치는 복수의 객체 기반 오디오 신호 중 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 수신한다. 또한, 장치는 수신된 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호를 처리한다. 더 나아가, 장치는 복수의 객체 기반 오디오 신호 중의 객체 기반 오디오 신호들의 집합을 적어도 하나의 오디오 객체 명령에 기초하여 출력 신호들의 집합에 렌더링한다. 상기 적어도 하나의 오디오 프레임은 셋톱 박스, OD 플레이어 및 텔레비전 중 하나로부터 수신될 수 있다. 장치는 AV 수신기 또는 텔레비전일 수 있다.

Description

대화형 오디오 메타데이터 취급

이 출원은 "대화형 오디오 메타데이터 취급"의 명칭으로 2016년 3월 23일자 출원된 미국 특허 출원 제15/078,945호의 이익을 주장하고, 상기 미국 특허 출원의 내용은 여기에서의 인용에 의해 그 전부가 본원에 통합된다.

본 발명은 일반적으로 오디오 처리/취급에 관한 것으로, 특히 대화형 오디오 메타데이터 처리/취급에 관한 것이다.

셋톱 박스 또는 광디스크(optical disk, OD) 플레이어와 같은 소스 장치는 코딩된 오디오 스트림을 오디오 비디오(audio video, AV) 수신기 또는 텔레비전과 같은 싱크 장치에 발송한다. 만일 사용자가 오디오 스트림을 수정(예를 들면, 오디오 스트림의 오디오 객체와 연관된 볼륨을 수정, 오디오 스트림의 오디오 객체를 추가/제거)하고 싶으면, 소스 장치는 오디오 스트림을 디코딩하고, 그에 따라서 오디오 스트림을 수정하고, 그 다음에 오디오 스트림을 싱크 장치에 발송하기 위해 재코딩(recode)할 수 있다. 오디오 스트림을 수정하기 위한 대안적인 방법이 필요하다.

발명의 일 양태에 있어서, 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 방법 및 장치가 제공된다. 장치는 적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호를 수신한다. 또한, 장치는 복수의 객체 기반 오디오 신호 중 적어도 하나의 객체 기반 오디오 신호(object-based audio signal)와 연관된 적어도 하나의 오디오 객체 명령(audio object command)을 수신한다. 또한, 장치는 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리한다. 더 나아가, 장치는 복수의 객체 기반 오디오 신호 중의 객체 기반 오디오 신호들의 집합을 상기 적어도 하나의 오디오 객체 명령에 기초하여 출력 신호들의 집합에 렌더링(rendering)한다.

발명의 일 양태에 있어서, 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 방법 및 장치가 제공된다. 장치는 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 표시하는 사용자 선택 정보를 수신한다. 또한, 장치는 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득한다. 또한, 장치는 복수의 객체 기반 오디오 신호를 수신한다. 더 나아가, 장치는 수신된 복수의 객체 기반 오디오 신호와 함께 상기 적어도 하나의 오디오 객체 명령을 발송한다.

도 1은 대화형 오디오 메타데이터 취급/처리와 연관된 제1 방법을 보인 블록도이다.
도 2는 대화형 오디오 메타데이터 취급/처리와 연관된 제2 방법을 보인 블록도이다.
도 3은 대화형 오디오 메타데이터 취급/처리와 연관된 제3 방법을 보인 블록도이다.
도 4는 대화형 오디오 메타데이터 취급/처리와 연관된 제4 방법을 보인 블록도이다.
도 5는 오디오 객체 명령 청크가 오디오 프레임 내에서 오디오 청크와 대역 내일 때의 오디오 프레임을 보인 다이어그램이다.
도 6은 청취자 머리와 관련한 오디오 객체 및 오디오 객체 명령을 통한 오디오 객체의 수정을 보인 다이어그램이다.
도 7은 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 방법의 흐름도이다.
도 8은 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 방법의 흐름도이다.
도 9는 예시적인 장치에서 상이한 수단/컴포넌트들 간의 데이터 흐름을 보인 개념적 데이터 흐름도이다.
도 10은 처리 시스템을 이용한 장치의 하드웨어 구현의 예를 보인 다이어그램이다.
도 11은 예시적인 장치에서 상이한 수단/컴포넌트들 간의 데이터 흐름을 보인 개념적 데이터 흐름도이다.
도 12는 처리 시스템을 이용한 장치의 하드웨어 구현의 예를 보인 다이어그램이다.

첨부 도면과 관련하여 이하에서 개시하는 구체적인 설명은 각종 구성의 설명으로서 의도되고, 여기에서 설명하는 개념이 실시될 수 있는 구성만을 표시하는 것으로 의도되지 않는다. 구체적인 설명은 각종 개념의 완전한 이해를 제공하기 위한 특정 세부를 포함한다. 그러나 이러한 개념은 이러한 특정 세부 없이 실시될 수 있다는 점을 당업자라면 이해할 것이다. 일부 예에서, 공지된 구조 및 컴포넌트는 그러한 개념의 불명료를 피하기 위해 블록도 형태로 나타낸다. 장치와 방법이 이하의 구체적인 설명으로 설명될 것이고, 각종 블록, 컴포넌트, 회로, 단계, 프로세스, 알고리즘, 요소 등에 의해 첨부 도면에 도시될 수 있다.

전술한 바와 같이, 셋톱 박스(set-top box, STB)(셋톱 유닛(set-top unit, STU) 또는 통합형 수신기/디코더(integrated receiver/decoder, IRD)라고도 부름) 또는 OD 플레이어와 같은 소스 장치는 코딩된 오디오 스트림을 AV 수신기 또는 텔레비전과 같은 싱크 장치에 발송할 수 있다. 만일 사용자가 오디오 스트림에서 오디오 객체의 볼륨을 수정하고 및/또는 오디오 스트림에 대하여 오디오 객체를 추가/제거하는 것과 같이 오디오 스트림을 수정하고 싶으면, 소스 장치는 오디오 스트림을 디코딩하고, 그에 따라서 오디오 스트림을 수정하고, 그 다음에 오디오 스트림을 싱크 장치에 발송하기 위해 재코딩할 수 있다. 사용자 대화형과 관련하여, 오디오 스트림의 수정은 소스 장치보다 싱크 장치에 의해 취급되는 경우에 더 효율적일 수 있다.

도 1은 대화형 오디오 메타데이터 취급/처리와 연관된 제1 방법을 보인 블록도(100)이다. 도 1에 도시된 것처럼, AV 수신기, 텔레비전 등일 수 있는 싱크 장치(104)는 오디오 객체 명령(108)을 수신한다. 또한, 싱크 장치(104)는 오디오 객체(객체 기반 오디오 신호라고도 부름)를 포함한 하나 이상의 오디오 프레임을 소스 장치(102)로부터 수신한다. 싱크 장치(104)는 오디오 프레임(110)을 시간 T(예를 들면, T는 약 10.67ms일 수 있음)마다 1회씩 주기적으로 수신할 수 있다. 소스 장치(102)는 예를 들면 STB 또는 OD 플레이어일 수 있다. 대안적으로, 소스 장치(102)는 모바일 폰, 태블릿, 스트리밍 스틱, 미디어 퍼스널 컴퓨터(PC) 또는 다른 소스 장치일 수 있다. 소스 장치(102)는 하나 이상의 오디오 프레임(140)으로 오디오 객체를 수신하고 상기 하나 이상의 오디오 프레임 내의 수신된 오디오 객체(110)를 싱크 장치(104)에 제공한다. 싱크 장치(104)는 오디오 프레임(110)으로 수신된 오디오 객체를 디코딩하고 디코딩된 오디오 객체 중 하나 이상을 수신된 오디오 객체 명령(108)에 기초하여 처리(112)한다. 싱크 장치(104)는 오디오 객체에 대하여 추가의 처리(예를 들면, 증폭)를 수행하고, 이어서 사운드/재생 시스템(106)의 채널(114)용의 오디오 신호를 렌더링/생성할 수 있다. 이어서, 싱크 장치(104)는 처리된 오디오 신호(114)를 사운드/재생 시스템(106)에 발송한다. 사운드/재생 시스템(106)(예를 들면, 라우드스피커)은 수신된 전기 오디오 신호를 대응하는 사운드로 변환한다.

오디오 객체는 파형의 소정 특성을 묘사하는 동적 또는 정적 객체 특유 메타데이터를 가진 하나 이상의 오디오 파형이다. 오디오 객체는 일반적으로 특정 다이얼로그, 음향 효과, 특정 악기 등과 같은 특정 객체와 관련된다. 상기 특성은 주어진 시점에서 3차원(3D) 공간 내의 위치적 장소, 측정된 크기(loudness), 오디오 객체(예를 들면, 악기, 효과, 음악, 배경 또는 다이얼로그)의 성질, 다이얼로그 언어, 오디오 객체를 디스플레이하는 법, 및 오디오 객체를 처리, 렌더링 또는 재생하는 법에 대한 명령어 형태의 메타데이터를 포함할 수 있다. 오디오 프레임들의 집합을 포함한 오디오 스트림 내에는 수백 내지 수천 개의 상이한 오디오 객체가 있을 수 있다. 하나의 오디오 프레임은 어떤 오디오 객체가 오디오 프레임 내에서 재생을 위해 렌더링될 수 있는지에 따라서 그러한 오디오 객체의 부분집합을 포함할 수 있다. 오디오 객체는 특정 채널에 반드시 매핑될 필요가 없다. 싱크 장치(104)는 오디오 객체를 개별적으로 처리할 수 있다. 이어서, 렌더링 처리에서, AV 수신기는 각 채널에 대하여 특정 오디오 객체를 변환 및/또는 혼합함으로써 사운드/재생 시스템(106)에 대응하는 채널에 오디오 객체를 매핑할 수 있다.

오디오 객체 명령(108)은 오디오 객체의 볼륨 수정, 객체의 공간적 재배치(예를 들면, 도 6과 관련된 인프라 참조), 오디오 객체의 온/오프, 오디오 객체의 추가/제거/교체, 라우드스피커/재생 구성에 관한 청취자 위치/방위 조정, 또는 오디오 객체와 관련된 파라미터, 구성 또는 속성의 조정과 연관된 명령을 포함할 수 있다. 일 양태에 있어서, 오디오 객체는 오디오 파형 데이터 및 이 오디오 파형 데이터와 연관된 객체 메타데이터를 포함할 수 있다. 오디오 객체 명령(108)은 오디오 파형 데이터와 연관된 객체 메타데이터의 수정과 연관된 하나 이상의 명령을 포함할 수 있다.

도 2는 대화형 오디오 메타데이터 취급/처리와 연관된 제2 방법을 보인 블록도(200)이다. 도 2에 도시된 것처럼, 사용자 선택 장치(208)가 오디오 객체 사용자 선택 명령 정보(210)를 수신할 수 있다. 사용자 선택 장치(208)는 예를 들면 사용자 선택 장치(208)에서 제공된 애플리케이션 및/또는 인터페이스를 통해 오디오 객체 사용자 선택 명령 정보(210)를 사용자로부터 수신할 수 있다. 사용자 선택 장치(208)는 오디오 객체 사용자 선택 명령 정보(210)를 처리(212)하여 소스 장치(202)용의 사용자 선택 정보(214)를 생성할 수 있다. 소스 장치(202)는 예를 들면 STB 또는 OD 플레이어일 수 있다. 대안적으로, 소스 장치(202)는 모바일 폰, 태블릿, 스트리밍 스틱, 미디어 PC, 또는 다른 소스 장치일 수 있다. 제1 구성에서, 소스 장치(202)는 수신된 사용자 선택 정보(214)에 기초하여 오디오 객체 명령을 생성한다. 제2 구성에서, 소스 장치(202)는 사용자 선택 정보(220)를 대응하는 오디오 객체 명령(222)을 생성하는 네트워크 호스트(218)에 제공하고, 생성된 오디오 객체 명령(222)을 소스 장치(202)에 제공한다. 소스 장치(202)가 사용자 선택 정보(214 및/또는 220)에 대응하는 오디오 객체 명령을 획득(예를 들면, 생성 및/또는 수신)한 때, 소스 장치(202)는 하나 이상의 오디오 프레임(240)으로 네트워크 호스트(218)로부터 수신된 오디오 객체와 함께 오디오 객체 명령을 싱크 장치(204)에 발송하기 위해 준비(216)할 수 있다. 싱크 장치(204)는 AV 수신기 및/또는 텔레비전일 수 있다. 소스 장치(202)는 나중에 소스 장치(202)에 의해 싱크 장치(204)에 발송될 오디오 객체에 대한 오디오 객체 명령을 수신할 수 있기 때문에, 소스 장치(202)는 어느 오디오 프레임에 오디오 객체 명령을 포함시킬 것인지를 또한 결정할 수 있다.

오디오 객체 명령이 오디오 청크와 대역 내(in-band)로 발송되는 제1 구성에서, 소스 장치(202)는 오디오 프레임 내에서 코딩되고/압축된 오디오 청크 뒤에 오디오 객체 명령 청크로서 오디오 객체 명령을 첨부할 수 있다. 그러한 구성에서, 소스 장치(202)는 하나 이상의 오디오 프레임(224) 내에서 오디오 청크(224 내에 있음)와 오디오 객체 명령 청크(226)를 함께 발송할 수 있다. 그래서, 비록 화살표(226, 224)가 별도의 화살표로 도시되어 있지만, 오디오 객체 명령과 오디오 객체는 함께, 동일 주파수 대역 내에서 동시에, 및 동일 오디오 프레임(224) 내에서 발송된다. 오디오 객체 명령이 오디오 청크와 대역 외(out-of-band)로 발송되는 제2 구성에서, 소스 장치(202)는 오디오 객체 명령(226)과 오디오 프레임(224)을 다른 주파수 대역에서 별도로 싱크 장치(204)에 발송할 수 있다.

복수의 오디오 객체 및 하나 이상의 오디오 객체 명령(226)을 포함한 오디오 프레임(224)을 수신한 때, 싱크 장치(204)는 오디오 객체를 하나 이상의 오디오 객체 명령(226)에 기초하여 처리할 수 있다. 이어서, 하나 이상의 오디오 객체를 하나 이상의 오디오 객체 명령에 기초하여 처리한 후에, 싱크 장치(204)는 사운드/재생 시스템(206)에 의한 재생을 위해 오디오 객체를 각종 채널(230)에 렌더링/매핑한다.

다시 도 2를 참조하면, 제1 구성에서 사용자 선택 장치(208)는 오디오 객체 명령과 연관된 사용자 입력을 수신하기 위한 셀폰, 태블릿, STB 리모콘, OD 플레이어 리모콘 또는 기타 장치와 같은 소스 장치(202) 및 싱크 장치(204)와 분리된 별도의 독립형 장치일 수 있다. 제2 구성에서 사용자 선택 장치(208)와 소스 장치(202)는 동일 장치일 수 있다. 즉, 소스 장치(202)는 그 자체가 오디오 객체 명령과 연관된 사용자 입력을 수신하기 위한 메카니즘을 제공할 수 있다. 제3 구성에서, 사용자 선택 장치(208)와 텔레비전은 동일 장치일 수 있다. 그러한 구성에서 싱크 장치(204)는 AV 수신기일 수 있고, 텔레비전은 그 자체가 오디오 객체 명령과 연관된 사용자 입력을 수신하기 위한 메카니즘을 제공할 수 있다(예를 들면, 텔레비전 리모콘, 터치 스크린 디스플레이 등을 통해서).

도 3은 대화형 오디오 메타데이터 취급/처리와 연관된 제3 방법을 보인 블록도(300)이다. 도 3에 도시된 것처럼, 사용자 선택 장치(308)는 오디오 객체 사용자 선택 명령 정보(310)를 수신할 수 있다. 사용자 선택 장치(308)는 예를 들면 사용자 선택 장치(308)에서 제공된 애플리케이션 및/또는 인터페이스를 통해 오디오 객체 사용자 선택 명령 정보(310)를 사용자로부터 수신할 수 있다. 사용자 선택 장치(308)는 오디오 객체 사용자 선택 명령 정보(310)를 처리(312)하여 소스 장치(302)용의 사용자 선택 정보(314)를 생성할 수 있다. 소스 장치(302)는 예를 들면 STB, OD 플레이어 또는 텔레비전일 수 있다. 대안적으로, 소스 장치(302)는 모바일 폰, 태블릿, 스트리밍 스틱, 미디어 PC, 또는 다른 소스 장치일 수 있다. 제1 구성에서, 소스 장치(302)는 수신된 사용자 선택 정보(314)에 기초하여 오디오 객체 명령을 생성한다. 제2 구성에서, 소스 장치(302)는 사용자 선택 정보(320)를 대응하는 오디오 객체 명령(322)을 생성하는 네트워크 호스트(318)에 제공하고, 생성된 오디오 객체 명령(322)을 소스 장치(302)에 제공한다. 소스 장치(302)가 사용자 선택 정보(314 및/또는 320)에 대응하는 오디오 객체 명령을 획득(예를 들면, 생성 및/또는 수신)한 때, 소스 장치(302)는 하나 이상의 오디오 프레임(340)으로 네트워크 호스트(318)로부터 수신된 오디오 객체와 함께 오디오 객체 명령을 싱크 장치(304)에 발송하기 위해 준비(316)할 수 있다. 싱크 장치(304)는 AV 수신기일 수 있다. 소스 장치(302)는 나중에 소스 장치(302)에 의해 싱크 장치(304)에 발송될 오디오 객체에 대한 오디오 객체 명령을 수신할 수 있기 때문에, 소스 장치(302)는 어느 오디오 프레임에 오디오 객체 명령을 포함시킬 것인지를 또한 결정할 수 있다.

오디오 객체 명령이 오디오 청크와 대역 내로 발송되는 제1 구성에서, 소스 장치(302)는 오디오 프레임 내에서 코딩되고/압축된 오디오 청크 뒤에 오디오 객체 명령 청크로서 오디오 객체 명령을 첨부할 수 있다. 그러한 구성에서, 소스 장치(302)는 하나 이상의 오디오 프레임(324) 내에서 오디오 청크(324 내에 있음)와 오디오 객체 명령 청크(326)를 함께 발송할 수 있다. 그래서, 비록 화살표(326, 324)가 별도의 화살표로 도시되어 있지만, 오디오 객체 명령과 오디오 객체는 함께, 동일 주파수 대역 내에서 동시에, 및 동일 오디오 프레임(324) 내에서 발송된다. 오디오 객체 명령이 오디오 청크와 대역 외로 발송되는 제2 구성에서, 소스 장치(302)는 오디오 객체 명령(326)과 오디오 프레임(324)을 다른 주파수 대역에서 별도로 싱크 장치(304)에 발송할 수 있다.

복수의 오디오 객체 및 하나 이상의 오디오 객체 명령(326)을 포함한 오디오 프레임(324)을 수신한 때, 싱크 장치(304)는 오디오 객체를 하나 이상의 오디오 객체 명령(326)에 기초하여 처리할 수 있다. 이어서, 하나 이상의 오디오 객체를 하나 이상의 오디오 객체 명령에 기초하여 처리한 후에, 싱크 장치(304)는 사운드/재생 시스템(306)에 의한 재생을 위해 오디오 객체를 각종 채널(330)에 렌더링/매핑한다.

다시 도 3을 참조하면, 제1 구성에서 사용자 선택 장치(308)는 오디오 객체 명령과 연관된 사용자 입력을 수신하기 위한 셀폰, 태블릿, STB 리모콘, OD 플레이어 리모콘, 텔레비전 리모콘 또는 기타 장치와 같은, 소스 장치(302) 및 싱크 장치(304)와 분리된 별도의 독립형 장치일 수 있다. 제2 구성에서 사용자 선택 장치(308)와 소스 장치(302)는 동일 장치일 수 있다. 즉, 소스 장치(302)는 그 자체가 오디오 객체 명령과 연관된 사용자 입력을 수신하기 위한 메카니즘을 제공할 수 있다.

도 4는 대화형 오디오 메타데이터 취급/처리와 연관된 제4 방법을 보인 블록도(400)이다. 도 4에 도시된 것처럼, 사용자 선택 장치(408)는 오디오 객체 사용자 선택 명령 정보(410)를 수신할 수 있다. 사용자 선택 장치(408)는 예를 들면 사용자 선택 장치(408)에서 제공된 애플리케이션 및/또는 인터페이스를 통해 오디오 객체 사용자 선택 명령 정보(410)를 사용자로부터 수신할 수 있다. 사용자 선택 장치(408)는 오디오 객체 사용자 선택 명령 정보(410)를 처리(412)하여 소스 장치(402)용의 사용자 선택 정보(414)를 생성할 수 있다. 소스 장치(402)는 예를 들면 STB 또는 OD 플레이어일 수 있다. 대안적으로, 소스 장치(402)는 모바일 폰, 태블릿, 스트리밍 스틱, 미디어 PC, 또는 다른 소스 장치일 수 있다. 제1 구성에서, 소스 장치(402)는 수신된 사용자 선택 정보(414)에 기초하여 오디오 객체 명령을 생성한다. 제2 구성에서, 소스 장치(402)는 사용자 선택 정보(420)를 대응하는 오디오 객체 명령(422)을 생성하는 네트워크 호스트(418)에 제공하고, 생성된 오디오 객체 명령(422)을 소스 장치(402)에 제공한다. 소스 장치(402)가 사용자 선택 정보(414 및/또는 420)에 대응하는 오디오 객체 명령을 획득(예를 들면, 생성 및/또는 수신)한 때, 소스 장치(402)는 하나 이상의 오디오 프레임(440)으로 네트워크 호스트(418)로부터 수신된 오디오 객체와 함께 오디오 객체 명령을 텔레비전(432)에 발송하기 위해 준비(416)할 수 있다. 소스 장치(402)는 나중에 소스 장치(402)에 의해 싱크 장치(404)에 발송될 오디오 객체의 오디오 객체 명령을 수신할 수 있기 때문에, 소스 장치(402)는 어느 오디오 프레임에 오디오 객체 명령을 포함시킬 것인지를 또한 결정할 수 있다.

오디오 객체 명령이 오디오 청크와 대역 내로 발송되는 제1 구성에서, 소스 장치(402)는 오디오 프레임 내에서 코딩되고/압축된 오디오 청크 뒤에 오디오 객체 명령 청크로서 오디오 객체 명령을 첨부할 수 있다. 그러한 구성에서, 소스 장치(402)는 하나 이상의 오디오 프레임(424) 내에서 오디오 청크(424 내에 있음)와 오디오 객체 명령 청크(426)를 함께 발송할 수 있다. 그래서, 비록 화살표(426, 424)가 별도의 화살표로 도시되어 있지만, 오디오 객체 명령과 오디오 객체는 함께, 동일 주파수 대역 내에서 동시에, 및 동일 오디오 프레임(424) 내에서 발송된다. 오디오 객체 명령이 오디오 청크와 대역 외로 발송되는 제2 구성에서, 소스 장치(402)는 오디오 객체 명령(426)과 오디오 프레임(424)을 다른 주파수 대역에서 별도로 텔레비전(432)에 발송할 수 있다.

텔레비전(432)은 오디오 객체 명령과 오디오 객체를 수신하고, 오디오 객체 명령과 오디오 객체를 싱크 장치(404)에 포워딩한다. 싱크 장치(404)는 AV 수신기일 수 있다. 텔레비전(432)이 오디오 객체 명령과 오디오 객체를 어떻게 수신하였는가에 따라 텔레비전(432)은 오디오 객체 명령과 오디오 객체를 대역 내로 또는 대역 외로 포워딩할 수 있다. 예를 들어서 만일 텔레비전(432)이 오디오 객체 명령과 오디오 객체를 소스 장치(402)로부터 하나 이상의 오디오 프레임 내에서 대역 내로 함께 수신하면, 텔레비전(432)은 오디오 객체 명령과 오디오 객체를 싱크 장치(404)에 하나 이상의 오디오 프레임 내에서 대역 내로 함께 포워딩할 수 있다. 다른 예로서, 만일 텔레비전(432)이 오디오 객체 명령과 오디오 객체를 소스 장치(402)로부터 대역 외로 별도로 수신하면, 텔레비전(432)은 오디오 객체 명령과 오디오 객체를 싱크 장치(404)에 대역 외로 별도로 포워딩할 수 있다.

복수의 오디오 객체 및 하나 이상의 오디오 객체 명령(426)을 포함한 오디오 프레임(424)을 수신한 때, 싱크 장치(404)는 오디오 객체를 하나 이상의 오디오 객체 명령(426)에 기초하여 처리할 수 있다. 이어서, 하나 이상의 오디오 객체를 하나 이상의 오디오 객체 명령에 기초하여 처리한 후에, 싱크 장치(404)는 사운드/재생 시스템(406)에 의한 재생을 위해 오디오 객체를 각종 채널(430)에 렌더링/매핑한다.

다시 도 4를 참조하면, 제1 구성에서 사용자 선택 장치(408)는 오디오 객체 명령과 연관된 사용자 입력을 수신하기 위한 셀폰, 태블릿, STB 리모콘, OD 플레이어 리모콘 또는 기타 장치와 같은, 소스 장치(402) 및 싱크 장치(404)와 분리된 별도의 독립형 장치일 수 있다. 제2 구성에서 사용자 선택 장치(408)와 소스 장치(402)는 동일 장치일 수 있다. 즉, 소스 장치(402)는 그 자체가 오디오 객체 명령과 연관된 사용자 입력을 수신하기 위한 메카니즘을 제공할 수 있다.

도 5는 오디오 객체 명령 청크가 오디오 프레임 내의 오디오 청크와 대역 내일 때 오디오 프레임을 보인 도(500)이다. 도 5에 도시된 것처럼, 오디오 프레임(502)은 오디오 청크와 오디오 객체 명령 청크를 포함한다. 오디오 청크는 복수(n)의 오디오 객체를 포함하고, 여기에서 n은 오디오 스트림 내에서 이용 가능한 오디오 객체의 총 수의 부분집합이다. 예를 들면, 오디오 스트림은 무삭제(full-length) 영화의 오디오를 포함할 수 있다. 그러한 오디오 스트림은 그렇지 않은 경우 수천 내지 수만 개의 오디오 객체를 포함할 수 있다. 오디오 스트림은 500k 이상의 오디오 프레임을 포함할 수 있다. 특히 하나의 오디오 프레임은 어떤 오디오 객체가 오디오 프레임에서 재생을 위해 렌더링될 수 있는지에 따라서 n개의 오디오 객체를 운반할 수 있다. 오디오 객체 명령 청크는 m개의 오디오 객체 명령(x₁, x₂, ..., x_m; 여기에서 m≥0임)을 포함할 수 있다. 오디오 객체 명령(x_i)은 n개의 오디오 객체 중 하나 이상에 대응할 수 있다. 예를 들면, 오디오 객체 명령(x_i)은 하나 이상의 오디오 객체와 연관된 볼륨을 변경하기 위한 명령일 수 있다. 다른 예로서, 오디오 객체 명령(x_i)은 하나의 오디오 객체를 다른 오디오 객체로 교체(예를 들면, 스포츠 이벤트 중에 영어 아나운서를 스페인어 아나운서로 교체)하기 위한 명령일 수 있다. 또 다른 예로서, 오디오 객체 명령(x_i)은 예를 들면 사용자가 초기 오디오 스트림(예를 들면, 무삭제 영화)과 오버레이되는 다른 오디오 스트림(예를 들면, 전화 호출)을 원할 때 처리, 렌더링 및 재생을 위한 오디오 객체를 포함시키기 위한 명령일 수 있다.

일 구성에 있어서, 오디오 객체 명령은 명령이 철회될 때까지 대응하는 오디오 객체에 적용할 수 있다. 다른 구성에 있어서, 오디오 객체 명령은 특정 시간 동안 대응하는 오디오 객체에 적용할 수 있다. 그러한 구성에서 오디오 객체 명령은 오디오 객체 명령이 적용되는 시간을 포함할 수 있다.

다이어그램(500)은 n개의 오디오 객체와 m개의 오디오 객체 명령을 포함한 오디오 프레임을 나타낸다. 전술한 바와 같이, 하나 이상의 오디오 프레임은 하나의 오디오 프레임에 대응하는 동시적 시구간(예를 들면, 10.67ms) 동안 수신될 수 있다. q개의 오디오 프레임이 동시적 시구간 동안 수신된다고 가정한다. 이때 i번째 오디오 프레임은 n_i개의 오디오 객체와 m_i개의 오디오 객체 명령을 포함하고, 그러한 동시적 시구간은 n₁+n₂+...+n_q개의 오디오 객체 및 m₁+m₂+...+m_q개의 오디오 객체 명령과 연관될 수 있다.

도 6은 청취자 머리와 관련한 오디오 객체 및 오디오 객체 명령을 통한 오디오 객체의 수정을 보인 다이어그램(600)이다. 오디오 객체(602)는 청취자 머리(604)와 관련하여 특정 위치에 "위치"될 수 있다. 도 6에 도시된 것처럼, 오디오 객체(602)는 xy 평면을 따라 청취자 머리(604)의 전방 방향(F)으로부터 θ의 각도로, 및 z 방향에서 청취자 머리(604)의 전방 방향(F)으로부터 φ의 각도로 위치된다. "위치"된다는 것은 청취자 머리 위치(604)로 표시된 것과 같은 머리 위치를 가진 청취자는 사운드/재생 시스템을 통하여 렌더링 및 플레이될 때 청취자 머리(604)와 관련하여 그러한 공간 위치에 있으므로 오디오 객체(602)를 인지할 수 있다는 것을 의미한다. 오디오 객체 명령은 주어진 청취자 방위와 관련하여 θ 및 φ에 대한 새로운 파라미터를 표시하는 정보를 제공함으로써, 또는 주어진 청취자 방위와 관련하여 θ 및 φ의 변화를 표시하는 정보를 제공함으로써 오디오 객체의 3D 공간에서 위치/공간 위치를 변경할 수 있다. 또한, 오디오 객체 명령은 오디오 객체(602)를 다른 오디오 객체로 교체할 수 있다. 예를 들면, 도 6에 나타낸 바와 같이, 오디오 객체(602)는 오디오 객체 1이다. 오디오 객체 명령은 오디오 객체 1을 오디오 객체 2~p 중의 임의의 하나로 교체할 수 있다. 특수한 예로서 오디오 스트림은 스포츠 이벤트이고, p개의 오디오 객체는 다른 언어의 플레이 콜러(play caller)로부터의 다이얼로그이며, 사용자는 청취자가 어떤 언어를 듣고 싶어하는지에 따라 p개의 오디오 객체 중 하나를 선택할 수 있다고 가정한다.

렌더링은 오디오 객체 메타데이터(예를 들면, θ, φ 및 다른 파라미터)에 기초하여 출력 오디오 신호를 생성하기 위한 객체 기반 오디오 신호의 처리이다. 예를 들면, 렌더링은 벡터 베이스 진폭 패닝(vector base amplitude panning, VBAP) 렌더러와 같은 다차원 오디오(multi-dimensional audio, MDA) 참조 렌더러를 통해 수행될 수 있다. VBAP는 복수의 라우드스피커(예를 들면, 국제 통신 연합(ITU) 5.1/7.1 스피커 레이아웃 구성 또는 어떤 다른 스피커 레이아웃 구성)의 특정 셋업을 이용하여 가상 소스를 특정 방향으로 위치시키는 방법이다. 렌더링할 때, MDA/VBAP 렌더러는 객체 기반 오디오 신호들의 집합을 하나 이상의 오디오 객체 명령에 기초해서, 그리고 객체 기반 오디오 신호와 연관된 오디오 객체 메타데이터(예를 들면, θ, φ 및 다른 파라미터)에 기초해서 출력 신호의 집합으로 렌더링한다.

도 7은 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 방법의 흐름도(700)이다. 이 방법은 AV 수신기 또는 텔레비전과 같은 장치에 의해 수행될 수 있다. 702에서, 장치는 적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호를 수신한다. 장치는 셋톱 박스, OD 플레이어 및 텔레비전 중 하나로부터 적어도 하나의 오디오 프레임을 수신할 수 있다. 대안적으로, 장치는 모바일 폰, 태블릿, 스트리밍 스틱, 미디어 PC 및 다른 소스 장치로부터 적어도 하나의 오디오 프레임을 수신할 수 있다. 예를 들어서 도 1-4를 참조하면, 싱크 장치(104, 204, 304, 404)는 오디오 프레임(110, 224, 324, 424)으로 복수의 객체 기반 오디오 신호를 수신한다. 704에서, 장치는 복수의 객체 기반 오디오 신호 중 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 수신한다. 예를 들어서 도 1-4를 참조하면, 싱크 장치(104, 204, 304, 404)는 복수의 객체 기반 오디오 신호 중 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령(108, 226, 326, 426')을 수신한다. 706에서, 장치는 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리한다. 예를 들어서 도 1-4를 참조하면, 싱크 장치(104, 204, 304, 404)는 수신된 적어도 하나의 오디오 객체 명령(108, 226, 326, 426')에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리(112, 228, 328, 428)한다. 708에서, 장치는 복수의 객체 기반 오디오 신호 중의 객체 기반 오디오 신호들의 집합을 상기 적어도 하나의 오디오 객체 명령에 기초하여 출력 신호들의 집합에 렌더링한다. 예를 들어서 도 1-4를 참조하면, 싱크 장치(104, 204, 304, 404)는 복수의 객체 기반 오디오 신호 중의 객체 기반 오디오 신호들의 집합을 상기 적어도 하나의 오디오 객체 명령(108, 226, 326, 426')에 기초하여 출력 신호(114, 230, 330, 430)들의 집합에 렌더링한다.

구체적인 예로서, 도 2-4를 참조하면, 싱크 장치(104, 204, 304, 404)는 적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호를 수신할 수 있다. 객체 기반 오디오 신호는 객체 기반 오디오 신호(s₁, s₂, ..., s_n)를 포함할 수 있다. 싱크 장치(104, 204, 304, 404)는 상기 객체 기반 오디오 신호(s₁, s₂, ..., s_n)의 부분집합(S)과 연관된 오디오 객체 명령(x₁, x₂, ..., x_m)을 또한 수신할 수 있다. 예를 들면, 오디오 객체 명령(x₁)은 렌더링할 때 객체 기반 오디오 신호(s₁)를 객체 기반 오디오 신호(s₂)로 교체하도록 특정할 수 있다. 다른 예로서, 오디오 객체 명령(x₂)은 객체 기반 오디오 신호(s₃)의 볼륨을 변경하도록 특정할 수 있다. 이어서 싱크 장치(104, 204, 304, 404)는 수신된 오디오 객체 명령(x₁, x₂)에 기초하여 객체 기반 오디오 신호(s₁, s₂, s₃)를 처리할 수 있다. 싱크 장치(104, 204, 304, 404)는 객체 기반 오디오 신호(s₁)를 제거하고, 객체 기반 오디오 신호(s₂)를 추가하고, 객체 기반 오디오 신호(s₃)의 볼륨을 변경함으로써 객체 기반 오디오 신호(s₁, s₂, s₃)를 처리할 수 있다. 이어서 싱크 장치(104, 204, 304, 404)는 객체 기반 오디오 신호(s₁, s₂, ..., s_n) 중의 객체 기반 오디오 신호들의 집합(적어도 s₂와 s₃를 포함하지만 s₁은 포함하지 않음)을 오디오 객체 명령(x₁, x₂, ..., x_m)에 기초하여 출력 신호들의 집합에 렌더링할 수 있다.

일 구성에 있어서, 704에서, 적어도 하나의 오디오 객체 명령은 복수의 객체 기반 오디오 신호와 함께 오디오 프레임으로 수신된다. 예를 들면, 도 2-4와 관련하여 전술한 바와 같이, 오디오 객체 명령은 객체 기반 오디오 신호와 함께 오디오 프레임으로 대역 내로 수신될 수 있다. 그러한 구성에서, 적어도 하나의 오디오 객체 명령은 오디오 프레임 내의 복수의 객체 기반 오디오 신호의 끝에 첨부될 수 있다.

일 구성에 있어서, 704에서, 적어도 하나의 오디오 객체 명령은 복수의 객체 기반 오디오 신호를 포함한 오디오 프레임으로부터 별도로 수신된다. 적어도 하나의 오디오 객체 명령은 오디오 프레임 앞/뒤에, 또는 복수의 객체 기반 오디오 신호를 포함한 오디오 프레임과 동시에 수신될 수 있다. 예를 들면, 도 2-4와 관련하여 전술한 바와 같이, 오디오 객체 명령은 객체 기반 오디오 신호를 포함한 오디오 프레임으로부터 대역 외로 수신될 수 있다.

일 구성에 있어서, 복수의 객체 기반 오디오 신호의 각각의 객체 기반 오디오 신호는 오디오 파형 데이터 및 이 오디오 파형 데이터와 연관된 객체 메타데이터를 포함한다. 그러한 구성에서, 수신된 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호를 처리하기 위해, 장치는 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호의 객체 메타데이터를 수정할 수 있다. 예를 들면, 적어도 하나의 객체 기반 오디오 신호를 처리하기 위해, 장치는 오디오 파형 데이터의 볼륨을 변경하거나, 오디오 파형 데이터와 연관된 인지된 공간 위치를 재배치하거나, 오디오 파형 데이터를 추가/제거하거나, 라우드스피커/재생 구성과 관련하여 청취자 위치/방위를 조정하거나, 또는 오디오 파형 데이터와 연관된 파라미터, 구성 또는 속성을 조정하기 위해 오디오 파형 데이터와 연관된 객체 메타데이터를 수정할 수 있다.

일 구성에 있어서, 706에서, 수신된 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호를 처리하기 위해, 장치는 적어도 하나의 객체 기반 오디오 신호와 연관된 볼륨을 수정하거나, 객체 기반 오디오 신호들의 집합에서 렌더링되는 것으로부터 적어도 하나의 객체 기반 오디오 신호를 제거하거나, 객체 기반 오디오 신호들의 집합에서 렌더링되는 것에 적어도 하나의 객체 기반 오디오 신호를 추가하거나, 객체 기반 오디오 신호들의 집합을 렌더링할 때 적어도 하나의 객체 기반 오디오 신호 중의 제1 객체 기반 오디오 신호를 적어도 하나의 객체 기반 오디오 신호 중의 제2 객체 기반 오디오 신호로 교체하거나, 적어도 하나의 객체 기반 오디오 신호의 공간 위치를 수정하거나, 또는 적어도 하나의 객체 기반 오디오 신호의 메타데이터/렌더링 속성을 변경할 수 있다.

도 8은 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 방법의 흐름도(800)이다. 이 방법은 셋톱 박스, OD 플레이어 또는 텔레비전과 같은 장치에 의해 수행될 수 있다. 802에서, 장치는 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 표시하는 사용자 선택 정보를 수신한다. 예를 들어서 도 2-4를 참조하면, 소스 장치(202, 302, 402)는 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 표시하는 사용자 선택 정보(214, 314, 414)를 수신한다. 804에서, 장치는 수신된 사용자 선택 정보에 기초하여 적어도 하나의 오디오 객체 명령을 획득한다. 예를 들어서 도 2-4를 참조하면, 일 구성에 있어서, 적어도 하나의 오디오 객체 명령을 획득하기 위해, 소스 장치(202, 302, 402)는 수신된 사용자 선택 정보(214, 314, 414)에 기초하여 적어도 하나의 오디오 객체 명령을 생성할 수 있다. 다른 예로서, 일 구성에 있어서, 적어도 하나의 오디오 객체 명령을 획득하기 위해, 소스 장치(202, 302, 402)는 사용자 선택 정보(220, 320, 420)를 네트워크 호스트(218, 318, 418)에 발송할 수 있다. 또한, 응답으로, 소스 장치(202, 302, 402)는 네트워크 호스트(218, 318, 418)로부터 적어도 하나의 오디오 객체 명령(222, 322, 422)을 수신할 수 있다. 806에서, 장치는 복수의 객체 기반 오디오 신호를 수신한다. 예를 들어서 도 2-4를 참조하면, 장치는 적어도 하나의 오디오 프레임(240, 340, 440)으로 네트워크 호스트(218, 318, 418)로부터 복수의 객체 기반 오디오 신호를 수신할 수 있다. 복수의 객체 기반 오디오 신호와 함께 대역 내로 적어도 하나의 오디오 객체 명령을 발송할 때, 808에서, 소스 장치(202, 302, 402)는 적어도 하나의 오디오 객체 명령을 복수의 객체 기반 오디오 신호의 끝에 첨부할 수 있다. 그러한 구성에서, 소스 장치(202, 302, 402)는 적어도 하나의 오디오 프레임으로 적어도 하나의 오디오 객체 명령과 복수의 객체 기반 오디오 신호를 발송할 수 있다. 810에서, 장치는 수신된 복수의 객체 기반 오디오 신호와 함께 적어도 하나의 오디오 객체 명령을 발송한다(직렬 또는 병렬로, 또는 동시에). 예를 들어서 도 2-4를 참조하면, 소스 장치(202, 302, 402)는 복수의 객체 기반 오디오 신호(224, 324, 424)와 함께 적어도 하나의 오디오 객체 명령(226, 326, 426)을 발송한다.

일 구성에 있어서, 적어도 하나의 오디오 객체 명령은 복수의 객체 기반 오디오 신호와 함께 적어도 하나의 오디오 프레임으로 발송된다. 예를 들면, 도 2-4와 관련하여 전술한 바와 같이, 오디오 객체 명령(226, 326, 426)은 적어도 하나의 오디오 프레임(224, 324, 424) 내의 객체 기반 오디오 신호와 함께 대역 내로 발송될 수 있다. 일 구성에 있어서, 적어도 하나의 오디오 객체 명령(226, 326, 426)은 복수의 객체 기반 오디오 신호를 포함하는 적어도 하나의 오디오 프레임으로부터 별도로 발송된다. 예를 들면, 전술한 바와 같이, 오디오 객체 명령(226, 326, 426)은 객체 기반 오디오 신호를 포함하는 오디오 프레임(224, 324, 424)으로부터 대역 외로 발송될 수 있다. 소스 장치(202, 302, 402)는 적어도 하나의 오디오 객체 명령과 복수의 객체 기반 오디오 신호를 AV 수신기 또는 텔레비전 중 하나에 발송할 수 있다.

도 9는 예시적인 장치(902)에서 상이한 수단/컴포넌트들 간의 데이터 흐름을 보인 개념적 데이터 흐름도(900)이다. 장치(902)는 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리한다. 장치(902)는 수신 컴포넌트(904), 프로세서 컴포넌트(906) 및 렌더러 컴포넌트(908)를 포함한다. 수신 컴포넌트(904)는 적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호(920)를 수신하도록 구성된다. 또한, 수신 컴포넌트(904)는 복수의 객체 기반 오디오 신호(920) 중의 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령(922)을 수신하도록 구성된다. 수신 컴포넌트(904)는 객체 기반 오디오 신호(920)와 적어도 하나의 오디오 객체 명령(922)을 프로세서 컴포넌트(906)에 제공하도록 구성된다. 프로세서 컴포넌트(906)는 수신된 적어도 하나의 오디오 객체 명령(922)에 기초하여 적어도 하나의 객체 기반 오디오 신호를 처리하도록 구성된다. 프로세서 컴포넌트(906)는 처리된 객체 기반 오디오 신호를 렌더러 컴포넌트(908)에 제공하도록 구성된다. 렌더러 컴포넌트(908)는 복수의 객체 기반 오디오 신호들 중 객체 기반 오디오 신호들의 집합을 적어도 하나의 오디오 객체 명령에 기초하여 출력 신호들의 집합(924)에 렌더링하도록 구성된다. 출력 신호들의 집합(924)은 사운드/재생 시스템에 제공될 수 있다(라우드스피커를 구동하기 위해).

적어도 하나의 오디오 객체 명령은 복수의 객체 기반 오디오 신호와 함께 오디오 프레임으로 수신될 수 있다. 적어도 하나의 오디오 객체 명령은 오디오 프레임에서 복수의 객체 기반 오디오 신호들의 끝에 첨부될 수 있다. 적어도 하나의 오디오 객체 명령은 복수의 객체 기반 오디오 신호를 포함하는 오디오 프레임으로부터 별도로 수신될 수 있다. 복수의 객체 기반 오디오 신호의 각각의 객체 기반 오디오 신호는 오디오 파형 데이터 및 이 오디오 파형 데이터와 연관된 객체 메타데이터를 포함할 수 있다. 수신된 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호를 처리하기 위해, 프로세서 컴포넌트(906)는 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호의 객체 메타데이터를 수정하도록 구성될 수 있다. 수신된 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호를 처리하기 위해, 프로세서 컴포넌트(906)는 적어도 하나의 객체 기반 오디오 신호와 연관된 볼륨을 수정하거나, 객체 기반 오디오 신호들의 집합에서 렌더링되는 것으로부터 적어도 하나의 객체 기반 오디오 신호를 제거하거나, 객체 기반 오디오 신호들의 집합에서 렌더링되는 것에 적어도 하나의 객체 기반 오디오 신호를 추가하거나, 객체 기반 오디오 신호들의 집합을 렌더링할 때 적어도 하나의 객체 기반 오디오 신호 중의 제1 객체 기반 오디오 신호를 적어도 하나의 객체 기반 오디오 신호 중의 제2 객체 기반 오디오 신호로 교체하거나, 적어도 하나의 객체 기반 오디오 신호의 공간 위치를 수정하거나, 또는 적어도 하나의 객체 기반 오디오 신호의 메타데이터/렌더링 속성을 변경하도록 구성될 수 있다. 오디오 프레임은 셋톱 박스, OD 플레이어 및 텔레비전 중 하나로부터 수신될 수 있다. 장치는 AV 수신기 또는 텔레비전일 수 있다.

도 10은 처리 시스템(1014)을 이용한 장치(902')의 하드웨어 구현의 일 예를 보인 다이어그램(1000)이다. 처리 시스템(1014)은 일반적으로 버스(1024)로 표시되는 버스 아키텍처와 함께 구현될 수 있다. 버스(1024)는 처리 시스템(1014)의 특수 응용 및 전체 설계 구속에 따라서 임의 수의 상호접속 버스 및 브리지를 포함할 수 있다. 버스(1024)는 프로세서(1004), 컴포넌트(904, 906, 908) 및 컴퓨터 판독가능 매체/메모리(1006)로 표시된 하나 이상의 프로세서 및/또는 하드웨어 컴포넌트를 포함한 각종 회로들을 함께 연결한다. 버스(1024)는 업계에서 잘 알려져 있기 때문에 여기에서 구체적으로 설명하지 않는 타이밍 소스, 주변장치, 전압 조절기 및 전력 관리 회로와 같은 각종 다른 회로들을 또한 연결할 수 있다.

처리 시스템(1014)은 컴퓨터 판독가능 매체/메모리(1006)에 결합된 프로세서(1004)를 포함한다. 프로세서(1004)는 컴퓨터 판독가능 매체/메모리(1006)에 저장된 소프트웨어의 실행을 포함한 일반적인 처리를 수행한다. 소프트웨어는, 프로세서(1004)에 의해 실행된 때, 처리 시스템(1014)이 임의의 특정 장치에 대하여 전술한 각종 기능을 수행하게 한다. 컴퓨터 판독가능 매체/메모리(1006)는 소프트웨어를 실행할 때 프로세서(1004)에 의해 조작되는 데이터를 저장하기 위해 또한 사용될 수 있다. 처리 시스템(1014)은 컴포넌트(904, 906, 908)들 중의 적어도 하나를 또한 포함한다. 컴포넌트들은 컴퓨터 판독가능 매체/메모리(1006)에 상주/저장되어 프로세서(1004)에서 동작하는 소프트웨어 컴포넌트, 프로세서(1004)에 결합된 하나 이상의 하드웨어 컴포넌트 또는 이들의 임의 조합일 수 있다.

일 구성에 있어서, 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 장치가 제공된다. 장치는 적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호를 수신하는 수단을 포함한다. 또한, 장치는 복수의 객체 기반 오디오 신호 중 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 수신하는 수단을 포함한다. 또한, 장치는 수신된 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호를 처리하는 수단을 포함한다. 더 나아가, 장치는 복수의 객체 기반 오디오 신호의 객체 기반 오디오 신호들의 집합을 적어도 하나의 오디오 객체 명령에 기초하여 출력 신호들의 집합에 렌더링하는 수단을 포함한다. 일 구성에 있어서, 상기 복수의 객체 기반 오디오 신호 중의 각각의 객체 기반 오디오 신호는 오디오 파형 데이터 및 이 오디오 파형 데이터와 연관된 객체 메타데이터를 포함한다. 그러한 구성에 있어서, 상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호를 처리하는 수단은 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호의 객체 메타데이터를 수정하도록 구성된다. 일 구성에 있어서, 상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 적어도 하나의 객체 기반 오디오 신호를 처리하는 수단은 적어도 하나의 객체 기반 오디오 신호와 연관된 볼륨을 수정하고, 객체 기반 오디오 신호들의 집합에서 렌더링되는 것으로부터 적어도 하나의 객체 기반 오디오 신호를 제거하고, 객체 기반 오디오 신호들의 집합에서 렌더링되는 것에 적어도 하나의 객체 기반 오디오 신호를 추가하고, 객체 기반 오디오 신호들의 집합을 렌더링할 때 적어도 하나의 객체 기반 오디오 신호 중의 제1 객체 기반 오디오 신호를 적어도 하나의 객체 기반 오디오 신호 중의 제2 객체 기반 오디오 신호로 교체하고, 적어도 하나의 객체 기반 오디오 신호의 공간 위치를 수정하고, 적어도 하나의 객체 기반 오디오 신호의 메타데이터/렌더링 속성을 변경하는 것 중의 적어도 하나를 수행하도록 구성된다.

도 11은 예시적인 장치에서 상이한 수단/컴포넌트들 간의 데이터 흐름을 보인 개념적 데이터 흐름도(1100)이다. 장치(1102)는 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리한다. 장치(1102)는 수신 컴포넌트(1104), 명령 컴포넌트(1106) 및 전송 컴포넌트(1108)를 포함한다. 수신 컴포넌트(1104)는 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 표시하는 사용자 선택 정보(1122)를 수신하도록 구성된다. 명령 컴포넌트(1106)는 수신된 사용자 선택 정보에 기초하여 적어도 하나의 오디오 객체 명령을 획득하도록 구성된다. 수신 컴포넌트(1104)는 복수의 객체 기반 오디오 신호를 수신하도록 구성된다. 수신 컴포넌트(1104)는 복수의 객체 기반 오디오 신호(1120)를 전송 컴포넌트(1108)에 제공하도록 구성된다. 전송 컴포넌트(1108)는 수신된 복수의 객체 기반 오디오 신호와 함께 적어도 하나의 오디오 객체 명령을 발송하도록 구성된다.

일 구성에 있어서, 전송 컴포넌트(1108)는 적어도 하나의 오디오 객체 명령을 복수의 객체 기반 오디오 신호의 끝에 첨부하도록 구성된다. 그러한 구성에서, 적어도 하나의 오디오 객체 명령과 복수의 객체 기반 오디오 신호는 적어도 하나의 오디오 프레임으로 발송된다. 명령 컴포넌트(1106)는 수신된 사용자 선택 정보에 기초하여 적어도 하나의 오디오 객체 명령을 생성함으로써 상기 수신된 사용자 선택 정보에 기초하여 적어도 하나의 오디오 객체 명령을 획득하도록 구성될 수 있다. 명령 컴포넌트(1106)는 수신된 사용자 선택 정보를 네트워크 호스트에 발송하고 상기 네트워크 호스트로부터 적어도 하나의 오디오 객체 명령을 수신함으로써 상기 수신된 사용자 선택 정보에 기초하여 적어도 하나의 오디오 객체 명령을 획득하도록 구성될 수 있다. 상기 적어도 하나의 오디오 객체 명령은 상기 발송된 사용자 선택 정보에 기초를 둔다.

도 12는 처리 시스템(1214)을 이용한 장치(1102')의 하드웨어 구현의 일 예를 보인 다이어그램(1200)이다. 처리 시스템(1214)은 일반적으로 버스(1224)로 표시되는 버스 아키텍처와 함께 구현될 수 있다. 버스(1224)는 처리 시스템(1214)의 특수 응용 및 전체 설계 구속에 따라서 임의 수의 상호접속 버스 및 브리지를 포함할 수 있다. 버스(1224)는 프로세서(1204), 컴포넌트(1104, 1106, 1108) 및 컴퓨터 판독가능 매체/메모리(1206)로 표시된 하나 이상의 프로세서 및/또는 하드웨어 컴포넌트를 포함한 각종 회로들을 함께 연결한다. 버스(1224)는 업계에서 잘 알려져 있기 때문에 여기에서 구체적으로 설명하지 않는 타이밍 소스, 주변장치, 전압 조절기 및 전력 관리 회로와 같은 각종 다른 회로들을 또한 연결할 수 있다.

처리 시스템(1214)은 컴퓨터 판독가능 매체/메모리(1206)에 결합된 프로세서(1204)를 포함한다. 프로세서(1204)는 컴퓨터 판독가능 매체/메모리(1206)에 저장된 소프트웨어의 실행을 포함한 일반적인 처리를 수행한다. 소프트웨어는, 프로세서(1204)에 의해 실행된 때, 처리 시스템(1214)이 임의의 특정 장치에 대하여 전술한 각종 기능을 수행하게 한다. 컴퓨터 판독가능 매체/메모리(1206)는 소프트웨어를 실행할 때 프로세서(1204)에 의해 조작되는 데이터를 저장하기 위해 또한 사용될 수 있다. 처리 시스템(1214)은 컴포넌트(1104, 1106, 1108)들 중의 적어도 하나를 또한 포함한다. 컴포넌트들은 컴퓨터 판독가능 매체/메모리(1206)에 상주/저장되어 프로세서(1204)에서 동작하는 소프트웨어 컴포넌트, 프로세서(1204)에 결합된 하나 이상의 하드웨어 컴포넌트 또는 이들의 임의 조합일 수 있다.

일 구성에 있어서, 재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 장치가 제공된다. 장치는 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 표시하는 사용자 선택 정보를 수신하는 수단을 포함한다. 장치는 수신된 사용자 선택 정보에 기초하여 적어도 하나의 오디오 객체 명령을 획득하는 수단을 또한 포함한다. 장치는 복수의 객체 기반 오디오 신호를 수신하는 수단을 또한 포함한다. 장치는 수신된 복수의 객체 기반 오디오 신호와 함께 적어도 하나의 오디오 객체 명령을 발송하는 수단을 또한 포함한다. 장치는 적어도 하나의 오디오 객체 명령을 복수의 객체 기반 오디오 신호의 끝에 첨부하는 수단을 포함한다. 상기 적어도 하나의 오디오 객체 명령과 상기 복수의 객체 기반 오디오 신호는 적어도 하나의 오디오 프레임으로 발송될 수 있다. 일 구성에 있어서, 상기 수신된 사용자 선택 정보에 기초하여 적어도 하나의 오디오 객체 명령을 획득하는 수단은 상기 수신된 사용자 선택 정보에 기초하여 적어도 하나의 오디오 객체 명령을 생성하도록 구성된다. 일 구성에 있어서, 상기 수신된 사용자 선택 정보에 기초하여 적어도 하나의 오디오 객체 명령을 획득하는 수단은 상기 수신된 사용자 선택 정보를 네트워크 호스트에 발송하고, 상기 네트워크 호스트로부터 상기 적어도 하나의 오디오 객체 명령을 수신하도록 구성되며, 상기 적어도 하나의 오디오 객체 명령은 상기 발송된 사용자 선택 정보에 기초를 둔다.

여기에서 개시된 각종 실시형태와 관련하여 설명한 각종의 예시적인 논리 블록, 컴포넌트, 방법, 및 알고리즘 프로세스와 시퀀스는 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합으로 구현될 수 있다. 하드웨어와 소프트웨어의 이러한 상호교환성을 명확히 나타내기 위해, 각종의 예시적인 컴포넌트, 블록, 컴포넌트 및 프로세스 동작은 일반적으로 그들의 기능과 관련해서 위에서 설명하였다. 그러한 기능이 하드웨어로 구현되는지 소프트웨어로 구현되는지는 전체 시스템에 부과되는 특정 응용 및 설계 구속에 의존한다. 설명된 기능은 각각의 특정 응용에 대하여 다양한 방법으로 구현될 수 있지만, 그러한 구현 결정은 발명의 범위로부터 벗어나는 것으로 해석하여서는 안된다.

여기에서 개시된 각종 실시형태와 관련하여 설명한 각종의 예시적인 논리 블록 및 컴포넌트는 여기에서 설명한 기능을 수행하도록 설계된 범용 프로세서, 디지털 신호 프로세서(DSP), 특수 용도 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 또는 다른 프로그래머블 논리 장치, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트, 또는 이들의 임의 조합과 같은 기계에 의해 구현 또는 수행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있지만, 대안적으로, 프로세서는 컨트롤러, 마이크로컨트롤러, 또는 상태 기계, 이들의 조합 등일 수 있다. 프로세서는 DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP와 협력하는 하나 이상의 마이크로프로세서, 또는 임의의 다른 그러한 구성과 같이 컴퓨팅 장치들의 조합으로서 또한 구현될 수 있다.

여기에서 설명한 대화형 오디오 메타데이터 취급 시스템 및 방법의 실시형태들은 많은 유형의 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성 내에서 동작한다. 일반적으로, 컴퓨팅 환경은, 비제한적으로 몇 가지 예를 들자면, 하나 이상의 마이크로프로세서에 기반한 컴퓨터 시스템, 메인프레임 컴퓨터, 디지털 신호 프로세서, 휴대용 컴퓨팅 장치, 퍼스널 오거나이저, 디바이스 컨트롤러, 기기 내의 연산 엔진, 모바일 폰, 데스크톱 컴퓨터, 모바일 컴퓨터, 태블릿 컴퓨터, 스마트폰, AV 수신기, 텔레비전, STB, OD 플레이어, 및 매립형 컴퓨터를 구비한 기기를 비롯한 임의 유형의 컴퓨터 시스템을 포함할 수 있다.

그러한 컴퓨팅 장치들은 비제한적으로 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 컴퓨팅 장치, 랩톱 또는 모바일 컴퓨터, 셀폰 및 PDA와 같은 통신 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램 가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 오디오 또는 비디오 미디어 플레이어 등을 포함한, 적어도 일부의 최소 연산 능력을 가진 장치에서 전형적으로 발견될 수 있다. 일부 실시형태에서, 컴퓨팅 장치는 하나 이상의 프로세서를 포함할 것이다. 각각의 프로세서는 DSP, 매우 긴 명령어(very long instruction word, VLIW), 또는 다른 마이크로컨트롤러와 같은 특수 마이크로프로세서이거나, 멀티코어 CPU 내의 특수 그래픽 처리 유닛(GPU) 기반 코어를 포함한 하나 이상의 처리 코어를 가진 종래의 CPU일 수 있다.

여기에서 개시된 각종 실시형태와 관련하여 설명한 방법, 프로세스 또는 알고리즘의 처리 동작은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 컴포넌트로, 또는 상기 두 가지의 임의 조합으로 직접 구체화될 수 있다. 소프트웨어 컴포넌트는 컴퓨팅 장치에 의해 접근될 수 있는 컴퓨터 판독가능 매체에 포함될 수 있다. 컴퓨터 판독가능 매체는 분리형, 비분리형 또는 이들의 임의 조합일 수 있는 휘발성 및 비휘발성 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 또는 컴퓨터 실행가능 명령어, 데이터 구조, 프로그램 컴포넌트 또는 기타 데이터와 같은 정보를 저장하기 위해 사용된다. 비제한적인 예로서, 컴퓨터 판독가능 매체는 컴퓨터 스토리지 매체 및 통신 매체를 포함할 수 있다.

컴퓨터 스토리지 매체는, 비제한적으로, 광학 스토리지 장치, 블루레이 디스크(BD), 디지털 다기능 디스크(DVD), 컴팩트 디스크(CD), 플로피 디스크, 테이프 드라이브, 하드 드라이브, 광드라이브, 솔리드 스테이트 메모리 장치, 랜덤 액세스 메모리(RAM) 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 플래시 메모리 또는 다른 메모리 기술, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 다른 다른 자기 스토리지 장치, 또는 원하는 정보를 저장하는데 사용될 수 있고 하나 이상의 컴퓨팅 장치에 의해 접근될 수 있는 임의의 다른 장치와 같은 컴퓨터 또는 기계 판독가능 매체 또는 스토리지 장치를 포함한다.

소프트웨어 컴포넌트는 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 분리형 디스크, CD-ROM, 또는 업계에 공지된 임의의 다른 형태의 비일시적 컴퓨터 판독가능 스토리지 매체, 미디어 또는 물리적 컴퓨터 스토리지에 상주할 수 있다. 예시적인 스토리지 매체는 프로세서에 결합되어 프로세서가 스토리지 매체로/로부터 정보를 기록/판독하게 할 수 있다. 대안적으로, 스토리지 매체는 프로세서에 통합될 수 있다. 프로세서와 스토리지 매체는 ASIC에 상주할 수 있다. ASIC는 사용자 단말기에 상주할 수 있다. 대안적으로, 프로세서와 스토리지 매체는 사용자 단말기에 이산 컴포넌트로서 상주할 수 있다.

여기에서 사용하는 용어 "비일시적"은 "영속적이거나 오래 유지되는 것"을 의미한다. 용어 "비일시적 컴퓨터 판독가능 매체"는 일시적인 전파 신호를 유일하게 제외한 임의의 및 모든 컴퓨터 판독가능 매체를 포함한다. 이것은, 비제한적인 예를 들자면, 레지스터 메모리, 프로세서 캐시 및 RAM과 같은 비일시적 컴퓨터 판독가능 매체를 포함한다.

컴퓨터 판독가능 또는 컴퓨터 실행가능 명령어, 데이터 구조, 프로그램 컴포넌트 등과 같은 정보의 보유는 하나 이상의 피변조 데이터 신호, 전자기파(예를 들면, 반송파), 또는 다른 전송 메카니즘 또는 통신 프로토콜을 인코딩하기 위해 다양한 통신 매체를 이용함으로써 또한 달성될 수 있고, 임의의 유선 또는 무선 정보 전달 메카니즘을 포함한다. 일반적으로, 이러한 통신 매체는 신호의 정보 또는 명령어를 인코딩하는 방식으로 설정되거나 변경된 특성 중 하나 이상을 갖는 신호를 의미한다. 예를 들면, 통신 매체는 하나 이상의 피변조 데이터 신호를 운반하는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 음향, 무선 주파수(RF), 적외선, 레이저, 및 하나 이상의 피변조 데이터 신호 또는 전자기파를 전송하거나 수신하거나 전송 및 수신하는 다른 무선 매체와 같은 무선 매체를 포함한다. 전술한 것들의 임의 조합도 또한 통신 매체의 범위에 포함되어야 한다.

또한, 여기에서 설명한 대화형 오디오 메타데이터 취급 시스템 및 방법의 각종 실시형태 중의 일부 또는 전부를 구체화하는 소프트웨어, 프로그램, 컴퓨터 프로그램 제품 중 하나 또는 임의 조합 또는 그 일부는 컴퓨터 실행가능 명령어 또는 다른 데이터 구조의 형태로 컴퓨터 또는 기계 판독가능 매체 또는 스토리지 장치 및 통신 매체의 임의의 바람직한 조합에 저장, 수신 또는 전송되거나 그로부터 판독될 수 있다.

여기에서 설명한 대화형 오디오 메타데이터 취급 시스템 및 방법의 각종 실시형태는 컴퓨팅 장치에 의해 실행되는 프로그램 컴포넌트와 같은 일반 개념의 컴퓨터 실행가능 명령어로 또한 설명될 수 있다. 일반적으로, 프로그램 컴포넌트는 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 여기에서 설명한 실시형태들은 분산형 컴퓨팅 환경에서 또한 실시될 수 있고, 이때 각종 태스크는 하나 이상의 통신망을 통해 연결된 하나 이상의 원격 처리 장치에 의해, 또는 하나 이상의 장치의 클라우드 내에서 수행된다. 분산형 컴퓨팅 환경에 있어서, 프로그램 컴포넌트는 미디어 스토리지 장치를 포함한 로컬(local) 및 원격 컴퓨터 스토리지 매체에 위치될 수 있다. 더 나아가, 전술한 명령어들은 프로세서를 포함하거나 포함하지 않은 하드웨어 논리 회로로서 부분적으로 또는 전체적으로 구현될 수 있다.

여기에서 사용하는 가정적 언어(예를 들면, "할 수 있다" 등)는, 구체적으로 다르게 설명하거나 문맥에서 다르게 이해되지 않는 한, 일반적으로 소정 특징, 요소 및/또는 상태를 어떤 실시형태는 포함하지만 다른 실시형태는 포함하지 않는다는 것을 전달하는 것으로 의도된다. 따라서 그러한 가정적 언어는 일반적으로 특징, 요소 및/또는 상태들이 어떻게든 하나 이상의 실시형태에서 요구된다거나, 또는 이러한 특징, 요소 및/또는 상태들이 임의의 특정 실시형태에 포함되는지 또는 임의의 특정 실시형태에서 수행되어야 하는지를 사용자 입력 또는 프롬프팅에 의해 또는 그러한 프롬프팅 없이 결정하기 위한 로직을 하나 이상의 실시형태가 반드시 포함한다는 것을 암시하는 것으로 의도되지 않는다. 용어 "포함하는", "구비하는", "가진" 등은 동의어이고 개방형 방식으로 내포적으로 사용되며, 추가의 요소, 특징, 작용, 동작 등을 배제하지 않는다. 또한, 용어 "또는"은 예를 들어서 요소들의 목록을 연결하기 위해 사용된 때 용어 "또는"이 목록 내 요소들의 하나, 일부 또는 전부를 의미하도록 내포적 의미(배제적 의미가 아님)로 사용된다.

비록 전술한 상세한 설명이 각종 실시형태에 적용되는 신규 특징을 도시, 설명 및 지적하였지만, 예시된 장치 또는 알고리즘의 형태 및 세부에 있어서의 각종 생략, 치환 및 변경이 발명의 정신으로부터 벗어나지 않고 이루어질 수 있다는 것을 이해할 것이다. 인지되는 바와 같이, 여기에서 설명한 대화형 오디오 메타데이터 취급 시스템 및 방법의 소정 실시형태는 일부 특징이 다른 특징과는 별도로 사용 또는 실시될 수 있기 때문에 여기에서 개시된 특징 및 장점들의 모두를 제공하지 않는 형태로 구체화될 수 있다.

더욱이, 비록 본 발명을 구조적 특징 및 방법론적 작용에 특유한 언어로 설명하였지만, 첨부된 특허 청구범위에서 규정되는 발명은 전술한 특유의 특징 또는 작용으로 반드시 제한되지 않는다는 것을 이해하여야 한다. 그보다, 전술한 특유의 특징 및 작용은 특허 청구범위를 구현하는 예시적인 형태로서 개시된다.

전술한 설명은 임의의 당업자가 여기에서 설명한 각종 양태를 실시할 수 있을 정도로 제공된다. 이러한 양태에 대한 각종 수정이 당업자에게는 명백할 것이고, 여기에서 규정하는 일반적인 원리는 다른 양태에 적용될 수 있다. 따라서 특허 청구범위는 여기에서 도시한 양태들로 제한되지 않고 언어 청구범위와 일치하는 전체 범위를 부여해야 하며, 여기에서 단수 요소에 대한 참조는 명확하게 그렇다고 설명되지 않는 한 "하나 및 단지 하나"를 의미하는 것으로 의도되지 않고 "하나 이상"을 의미하는 것으로 의도된다. 용어 "예시적"은 "예(example), 실례(instance) 또는 예증(illustration)으로서 소용"되는 것을 의미하는 것으로 여기에서 사용된다. "예시적"으로서 여기에서 설명되는 임의의 양태는 반드시 다른 양태보다 양호하거나 유리한 것으로 해석되지 않는다. 명확하게 다르게 설명되지 않는 한, 용어 "일부"는 하나 이상을 의미한다. "A, B 또는 C 중의 적어도 하나", "A, B 및 C 중의 적어도 하나", 및 "A, B, C 또는 이들의 임의 조합"과 같은 조합은 A, B 및/또는 C의 임의 조합을 포함하고, 복수의 A, 복수의 B 또는 복수의 C를 포함할 수 있다. 구체적으로, "A, B 또는 C 중의 적어도 하나", "A, B 및 C 중의 적어도 하나", 및 "A, B, C 또는 이들의 임의 조합"과 같은 조합은 A만, B만, C만, A와 B, A와 C, B와 C, 또는 A와 B와 C 모두일 수 있고, 이러한 임의 조합은 A, B 및 C 중 하나 이상의 구성 요소를 내포할 수 있다. 당업자에게 현재 알려져 있거나 나중에 알려지게 될, 본 명세서 전반에 걸쳐 설명된 각종 양태의 요소들에 대한 모든 구조적 및 기능적 균등물은 인용에 의해 본원에 명백히 통합되고 특허 청구범위에 의해 보호되는 것으로 의도된다. 더욱이, 여기에서 설명한 내용 중 어느 것도 그러한 설명이 특허 청구범위에서 명시적으로 인용되었는지와 관계없이 일반에 제공되는 것으로 의도되지 않는다. 특허 청구범위 요소는 그 요소가 "...하는 수단"의 문구를 이용하여 명확하게 인용되지 않는 한 기능 수단(means plus function)으로서 해석되지 않는다.

Claims

재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 방법에 있어서,
적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호(object-based audio signal)를 수신하는 단계와;
상기 복수의 객체 기반 오디오 신호 중 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령(audio object command)을 수신하는 단계와;
상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하는 단계와;
상기 복수의 객체 기반 오디오 신호 중의 객체 기반 오디오 신호들의 집합을 상기 적어도 하나의 오디오 객체 명령에 기초하여 출력 신호들의 집합에 렌더링(rendering)하는 단계
를 포함하는 객체 기반 오디오 신호 처리 방법.
제1항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호와 함께 상기 적어도 하나의 오디오 프레임으로 수신되는 것인 객체 기반 오디오 신호 처리 방법.
제2항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 적어도 하나의 오디오 프레임 내의 상기 복수의 객체 기반 오디오 신호의 끝에 첨부되는 것인 객체 기반 오디오 신호 처리 방법.
제1항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호를 포함한 상기 적어도 하나의 오디오 프레임으로부터 별도로 수신되는 것인 객체 기반 오디오 신호 처리 방법.
제1항에 있어서, 상기 복수의 객체 기반 오디오 신호 중 각각의 객체 기반 오디오 신호는 오디오 파형 데이터 및 이 오디오 파형 데이터와 연관된 객체 메타데이터를 포함하고, 상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하는 단계는, 상기 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호의 객체 메타데이터를 수정하는 단계를 포함한 것인 객체 기반 오디오 신호 처리 방법.
제1항에 있어서, 상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하는 단계는,
상기 적어도 하나의 객체 기반 오디오 신호와 연관된 볼륨을 수정하는 단계와,
상기 객체 기반 오디오 신호들의 집합에서 렌더링되는 것으로부터 상기 적어도 하나의 객체 기반 오디오 신호를 제거하는 단계와,
상기 객체 기반 오디오 신호들의 집합에서 렌더링되는 것에 상기 적어도 하나의 객체 기반 오디오 신호를 추가하는 단계와,
상기 객체 기반 오디오 신호들의 집합을 렌더링할 때 상기 적어도 하나의 객체 기반 오디오 신호 중의 제1 객체 기반 오디오 신호를 상기 적어도 하나의 객체 기반 오디오 신호 중의 제2 객체 기반 오디오 신호로 교체하는 단계와,
상기 적어도 하나의 객체 기반 오디오 신호의 공간 위치를 수정하는 단계와,
상기 적어도 하나의 객체 기반 오디오 신호의 속성을 변경하는 단계
중 적어도 하나의 단계를 포함한 것인 객체 기반 오디오 신호 처리 방법.
제1항에 있어서, 상기 적어도 하나의 오디오 프레임은 셋톱 박스, 광디스크 플레이어 또는 텔레비전 중 하나로부터 수신되는 것인 객체 기반 오디오 신호 처리 방법.
제1항에 있어서, 상기 방법은 오디오 비디오(audio video, AV) 수신기 또는 텔레비전 중 하나에 의해 수행되는 것인 객체 기반 오디오 신호 처리 방법.
재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 방법에 있어서,
적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 표시하는 사용자 선택 정보를 수신하는 단계와;
상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하는 단계와;
복수의 객체 기반 오디오 신호를 수신하는 단계와;
상기 수신된 복수의 객체 기반 오디오 신호와 함께 상기 적어도 하나의 오디오 객체 명령을 발송하는 단계
를 포함하는 객체 기반 오디오 신호 처리 방법.
제9항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호와 함께 적어도 하나의 오디오 프레임으로 발송되는 것인 객체 기반 오디오 신호 처리 방법.
제9항에 있어서, 상기 적어도 하나의 오디오 객체 명령을 상기 복수의 객체 기반 오디오 신호의 끝에 첨부하는 단계를 더 포함하고, 상기 적어도 하나의 오디오 객체 명령과 상기 복수의 객체 기반 오디오 신호는 적어도 하나의 오디오 프레임으로 발송되는 것인 객체 기반 오디오 신호 처리 방법.
제9항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호를 포함한 상기 적어도 하나의 오디오 프레임으로부터 별도로 발송되는 것인 객체 기반 오디오 신호 처리 방법.
제9항에 있어서, 상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하는 단계는, 상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 생성하는 단계를 포함한 것인 객체 기반 오디오 신호 처리 방법.
제9항에 있어서, 상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하는 단계는,
상기 수신된 사용자 선택 정보를 네트워크 호스트에 발송하는 단계와;
상기 네트워크 호스트로부터 상기 적어도 하나의 오디오 객체 명령을 수신하는 단계
를 포함하고, 상기 적어도 하나의 오디오 객체 명령은 상기 발송된 사용자 선택 정보에 기초한 것인 객체 기반 오디오 신호 처리 방법.
제9항에 있어서, 상기 적어도 하나의 오디오 객체 명령과 상기 복수의 객체 기반 오디오 신호는 오디오 비디오(audio video, AV) 수신기 또는 텔레비전 중 하나에 발송되는 것인 객체 기반 오디오 신호 처리 방법.
제9항에 있어서, 상기 방법은 셋톱 박스, 광디스크 플레이어 또는 텔레비전 중 하나에 의해 수행되는 것인 객체 기반 오디오 신호 처리 방법.
재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 장치에 있어서,
메모리와;
상기 메모리에 결합된 적어도 하나의 프로세서를 포함하고,
상기 프로세서는,
적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호를 수신하고;
상기 복수의 객체 기반 오디오 신호 중 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 수신하고;
상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하고;
상기 복수의 객체 기반 오디오 신호 중의 객체 기반 오디오 신호들의 집합을 상기 적어도 하나의 오디오 객체 명령에 기초하여 출력 신호들의 집합에 렌더링하도록 구성된 것인 객체 기반 오디오 신호 처리 장치.
제17항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호와 함께 상기 적어도 하나의 오디오 프레임으로 수신되는 것인 객체 기반 오디오 신호 처리 장치.
제18항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 적어도 하나의 오디오 프레임 내의 상기 복수의 객체 기반 오디오 신호의 끝에 첨부되는 것인 객체 기반 오디오 신호 처리 장치.
제17항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호를 포함한 상기 적어도 하나의 오디오 프레임으로부터 별도로 수신되는 것인 객체 기반 오디오 신호 처리 장치.
제17항에 있어서, 상기 복수의 객체 기반 오디오 신호 중 각각의 객체 기반 오디오 신호는 오디오 파형 데이터 및 이 오디오 파형 데이터와 연관된 객체 메타데이터를 포함하고, 상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하기 위해, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호의 객체 메타데이터를 수정하도록 구성된 것인 객체 기반 오디오 신호 처리 장치.
제17항에 있어서, 상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하기 위해, 상기 적어도 하나의 프로세서는,
상기 적어도 하나의 객체 기반 오디오 신호와 연관된 볼륨을 수정하는 것,
상기 객체 기반 오디오 신호들의 집합에서 렌더링되는 것으로부터 상기 적어도 하나의 객체 기반 오디오 신호를 제거하는 것,
상기 객체 기반 오디오 신호들의 집합에서 렌더링되는 것에 상기 적어도 하나의 객체 기반 오디오 신호를 추가하는 것,
상기 객체 기반 오디오 신호들의 집합을 렌더링할 때 상기 적어도 하나의 객체 기반 오디오 신호 중의 제1 객체 기반 오디오 신호를 상기 적어도 하나의 객체 기반 오디오 신호 중의 제2 객체 기반 오디오 신호로 교체하는 것,
상기 적어도 하나의 객체 기반 오디오 신호의 공간 위치를 수정하는 것,
상기 적어도 하나의 객체 기반 오디오 신호의 속성을 변경하는 것
중 적어도 하나를 수행하도록 구성된 것인 객체 기반 오디오 신호 처리 장치.
제17항에 있어서, 상기 적어도 하나의 오디오 프레임은 셋톱 박스, 광디스크 플레이어 또는 텔레비전 중 하나로부터 수신되는 것인 객체 기반 오디오 신호 처리 장치.
제17항에 있어서, 상기 장치는 오디오 비디오(audio video, AV) 수신기 또는 텔레비전 중 하나인 것인 객체 기반 오디오 신호 처리 장치.
재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 장치에 있어서,
메모리와;
상기 메모리에 결합된 적어도 하나의 프로세서를 포함하고,
상기 프로세서는,
적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 표시하는 사용자 선택 정보를 수신하고;
상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하고;
복수의 객체 기반 오디오 신호를 수신하고;
상기 수신된 복수의 객체 기반 오디오 신호와 함께 상기 적어도 하나의 오디오 객체 명령을 발송하도록 구성된 것인 객체 기반 오디오 신호 처리 장치.
제25항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호와 함께 적어도 하나의 오디오 프레임으로 발송되는 것인 객체 기반 오디오 신호 처리 장치.
제25항에 있어서, 상기 적어도 하나의 프로세서는 또한, 상기 적어도 하나의 오디오 객체 명령을 상기 복수의 객체 기반 오디오 신호의 끝에 첨부하도록 구성되고, 상기 적어도 하나의 오디오 객체 명령과 상기 복수의 객체 기반 오디오 신호는 적어도 하나의 오디오 프레임으로 발송되는 것인 객체 기반 오디오 신호 처리 장치.
제25항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호를 포함한 상기 적어도 하나의 오디오 프레임으로부터 별도로 발송되는 것인 객체 기반 오디오 신호 처리 장치.
제25항에 있어서, 상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하기 위해, 상기 적어도 하나의 프로세서는 상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 생성하도록 구성된 것인 객체 기반 오디오 신호 처리 장치.
제25항에 있어서, 상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하기 위해, 상기 적어도 하나의 프로세서는,
상기 수신된 사용자 선택 정보를 네트워크 호스트에 발송하고;
상기 네트워크 호스트로부터 상기 적어도 하나의 오디오 객체 명령을 수신하도록 구성되고,
상기 적어도 하나의 오디오 객체 명령은 상기 발송된 사용자 선택 정보에 기초한 것인 객체 기반 오디오 신호 처리 장치.
제25항에 있어서, 상기 적어도 하나의 오디오 객체 명령과 상기 복수의 객체 기반 오디오 신호는 오디오 비디오(audio video, AV) 수신기 또는 텔레비전 중 하나에 발송되는 것인 객체 기반 오디오 신호 처리 장치.
제25항에 있어서, 상기 장치는 셋톱 박스, 광디스크 플레이어 또는 텔레비전 중 하나인 객체 기반 오디오 신호 처리 장치.
재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 장치에 있어서,
적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호를 수신하는 수단과;
상기 복수의 객체 기반 오디오 신호 중 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 수신하는 수단과;
상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하는 수단과;
상기 복수의 객체 기반 오디오 신호 중 객체 기반 오디오 신호들의 집합을 상기 적어도 하나의 오디오 객체 명령에 기초하여 출력 신호들의 집합에 렌더링하는 수단
을 포함하는 객체 기반 오디오 신호 처리 장치.
제33항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호와 함께 상기 적어도 하나의 오디오 프레임으로 수신되는 것인 객체 기반 오디오 신호 처리 장치.
제34항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 적어도 하나의 오디오 프레임 내의 상기 복수의 객체 기반 오디오 신호의 끝에 첨부되는 것인 객체 기반 오디오 신호 처리 장치.
제33항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호를 포함한 상기 적어도 하나의 오디오 프레임으로부터 별도로 수신되는 것인 객체 기반 오디오 신호 처리 장치.
제33항에 있어서, 상기 복수의 객체 기반 오디오 신호 중 각각의 객체 기반 오디오 신호는 오디오 파형 데이터 및 이 오디오 파형 데이터와 연관된 객체 메타데이터를 포함하고, 상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하는 수단은 상기 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호의 객체 메타데이터를 수정하도록 구성된 것인 객체 기반 오디오 신호 처리 장치.
제33항에 있어서, 상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하는 수단은,
상기 적어도 하나의 객체 기반 오디오 신호와 연관된 볼륨을 수정하는 것,
상기 객체 기반 오디오 신호들의 집합에서 렌더링되는 것으로부터 상기 적어도 하나의 객체 기반 오디오 신호를 제거하는 것,
상기 객체 기반 오디오 신호들의 집합에서 렌더링되는 것에 상기 적어도 하나의 객체 기반 오디오 신호를 추가하는 것,
상기 객체 기반 오디오 신호들의 집합을 렌더링할 때 상기 적어도 하나의 객체 기반 오디오 신호 중의 제1 객체 기반 오디오 신호를 상기 적어도 하나의 객체 기반 오디오 신호 중의 제2 객체 기반 오디오 신호로 교체하는 것,
상기 적어도 하나의 객체 기반 오디오 신호의 공간 위치를 수정하는 것,
상기 적어도 하나의 객체 기반 오디오 신호의 속성을 변경하는 것
중 적어도 하나를 수행하도록 구성된 것인 객체 기반 오디오 신호 처리 장치.
제33항에 있어서, 상기 적어도 하나의 오디오 프레임은 셋톱 박스, 광디스크 플레이어 또는 텔레비전 중 하나로부터 수신되는 것인 객체 기반 오디오 신호 처리 장치.
제33항에 있어서, 상기 장치는 오디오 비디오(audio video, AV) 수신기 또는 텔레비전 중 하나인 것인 객체 기반 오디오 신호 처리 장치.
재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하는 장치에 있어서,
적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 표시하는 사용자 선택 정보를 수신하는 수단과;
상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하는 수단과;
복수의 객체 기반 오디오 신호를 수신하는 수단과;
상기 수신된 복수의 객체 기반 오디오 신호와 함께 상기 적어도 하나의 오디오 객체 명령을 발송하는 수단
을 포함하는 객체 기반 오디오 신호 처리 장치.
제41항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호와 함께 적어도 하나의 오디오 프레임으로 발송되는 것인 객체 기반 오디오 신호 처리 장치.
제41항에 있어서, 상기 적어도 하나의 오디오 객체 명령을 상기 복수의 객체 기반 오디오 신호의 끝에 첨부하는 수단을 더 포함하고, 상기 적어도 하나의 오디오 객체 명령과 상기 복수의 객체 기반 오디오 신호는 적어도 하나의 오디오 프레임으로 발송되는 것인 객체 기반 오디오 신호 처리 장치.
제41항에 있어서, 상기 적어도 하나의 오디오 객체 명령은 상기 복수의 객체 기반 오디오 신호를 포함한 상기 적어도 하나의 오디오 프레임으로부터 별도로 발송되는 것인 객체 기반 오디오 신호 처리 장치.
제41항에 있어서, 상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하는 수단은 상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 생성하도록 구성된 것인 객체 기반 오디오 신호 처리 장치.
제41항에 있어서, 상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하는 수단은,
상기 수신된 사용자 선택 정보를 네트워크 호스트에 발송하고;
상기 네트워크 호스트로부터 상기 적어도 하나의 오디오 객체 명령을 수신하도록 구성되고,
상기 적어도 하나의 오디오 객체 명령은 상기 발송된 사용자 선택 정보에 기초를 둔 것인 객체 기반 오디오 신호 처리 장치.
제41항에 있어서, 상기 적어도 하나의 오디오 객체 명령과 상기 복수의 객체 기반 오디오 신호는 오디오 비디오(audio video, AV) 수신기 또는 텔레비전 중 하나에 발송되는 것인 객체 기반 오디오 신호 처리 장치.
제41항에 있어서, 상기 장치는 셋톱 박스, 광디스크 플레이어 또는 텔레비전 중 하나인 것인 객체 기반 오디오 신호 처리 장치.
재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하기 위한 컴퓨터 실행가능 코드를 저장한 컴퓨터 판독가능 매체에 있어서, 상기 컴퓨터 판독가능 매체는,
적어도 하나의 오디오 프레임으로 복수의 객체 기반 오디오 신호를 수신하고;
상기 복수의 객체 기반 오디오 신호 중 적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 수신하고;
상기 수신된 적어도 하나의 오디오 객체 명령에 기초하여 상기 적어도 하나의 객체 기반 오디오 신호를 처리하고;
상기 복수의 객체 기반 오디오 신호 중 객체 기반 오디오 신호들의 집합을 상기 적어도 하나의 오디오 객체 명령에 기초하여 출력 신호들의 집합에 렌더링하기 위한 코드
를 포함한 것인 컴퓨터 판독가능 매체.
재생 시스템을 통한 재현을 위해 객체 기반 오디오 신호를 처리하기 위한 컴퓨터 실행가능 코드를 저장한 컴퓨터 판독가능 매체에 있어서, 상기 컴퓨터 판독가능 매체는,
적어도 하나의 객체 기반 오디오 신호와 연관된 적어도 하나의 오디오 객체 명령을 표시하는 사용자 선택 정보를 수신하고;
상기 수신된 사용자 선택 정보에 기초하여 상기 적어도 하나의 오디오 객체 명령을 획득하고;
복수의 객체 기반 오디오 신호를 수신하고;
상기 수신된 복수의 객체 기반 오디오 신호와 함께 상기 적어도 하나의 오디오 객체 명령을 발송하는 코드
를 포함한 것인 컴퓨터 판독가능 매체.