KR20150117693A

KR20150117693A - 다중 채널 오디오 데이터의 비디오 분석 지원형 생성

Info

Publication number: KR20150117693A
Application number: KR1020157024128A
Authority: KR
Inventors: 페이 샹
Original assignee: 퀄컴 인코포레이티드
Priority date: 2013-02-15
Filing date: 2014-02-12
Publication date: 2015-10-20
Also published as: EP2956941A1; US9338420B2; JP2016513410A; US20140233917A1; KR101761039B1; WO2014127019A1; CN104995681B; JP6039111B2; CN104995681A

Abstract

일반적으로, 기술들은 다중 채널 오디오 데이터를 캡처하기 위해 설명된다. 하나 이상의 프로세서들을 포함하는 디바이스가 그 기술들을 구현하도록 구성될 수도 있다. 프로세서들은 오디오 오브젝트들을 식별하기 위해 캡처되니 오디오 데이터를 분석하고, 비디오 오브젝트들을 식별하기 위해 오디오 데이터의 캡처와 동시에 캡처된 비디오 데이터를 분석할 수도 있다. 그 후에, 프로세서들은 오디오 오브젝트들 중 적어도 하나를 비디오 오브젝트들 중 적어도 하나와 연관시키고, 오디오 오브젝트들 중 적어도 하나의 비디오 오브젝트들 중 적어도 하나와의 연관에 기초하여 오디오 데이터로부터 다중 채널 오디오 데이터를 생성할 수도 있다.

Description

다중 채널 오디오 데이터의 비디오 분석 지원형 생성{VIDEO ANALYSIS ASSISTED GENERATION OF MULTI-CHANNEL AUDIO DATA}

본 출원은 2013 년 2 월 15 일자로 출원된 미국 가출원 번호 제61/765,556 호의 이익을 주장한다.

본 개시는 오디오 데이터를 캡처하는 것과 관련되며, 더 구체적으로 다중 채널 오디오 데이터를 캡처하는 것과 관련된다.

통상적으로, 비디오 캠코더들, 태블릿 또는 슬레이트 컴퓨터들, (이른바 "스마트 폰들" 을 포함하는) 모바일 폰들, 퍼스널 게이밍 디바이스들, 퍼스널 미디어 디바이스들, 등등과 같은 비디오 캡처 디바이스들은 비디오 데이터를 생성하기 위해 소정의 프레임 레이트로 일련의 이미지들을 캡처하는 카메라를 특징으로 한다. 종종, 이들 비디오 캡처 디바이스들은 비디오 데이터에서 보여지는 장면의 모노럴 (monaural) 오디오 데이터를 캡처하는 마이크로폰을 특징으로 한다. 더 정교한 비디오 캡처 디바이스들은, 캡처될 수 있는 (모노럴 오디오 데이터에서 단일 채널로부터) 오디오 채널들의 수를 증가시키는 2 이상의 마이크로폰들을 특징으로 할 수도 있다. 이들 더 정교한 비디오 레코딩 디바이스들은 (좌우 채널을 갖는 오디오 데이터를 지칭하는) 스테레오 오디오 데이터를 캡처하기 위해 적어도 2 개의 마이크로폰들을 포함할 수도 있다.

이른바 스마트폰들의 채택의 증가를 고려해 볼 때, 스마트 폰들은 비디오 데이터가 캡처되는 점점 더 지배적인 방식이 되고 있다. 종종, 스마트 폰들의 속성 및 오디오 통신 디바이스들로서의 사용으로 인해, 스마트 폰들은 2, 3, 4, 또는 심지어 5 개의 마이크로폰들을 포함할 수도 있다. 추가의 마이크로폰들은 전화 호출들, 화상 회의들 또는 오디오 통신을 포함하는 다른 형태의 통신 동안 잡음 상쇄를 목적으로, 스마트 폰에 의해 채용될 수도 있다. 스마트 폰들이 다수의 마이크로폰들을 특징으로 하지만, 이들 마이크로폰들은 종종, 그들의 능력을 스테레오 오디오 데이터가 아닌 임의의 것을 적절히 캡처하도록 제한하는 스마트 폰들 상의 위치들에 배치되기 때문에, 스테레오 오디오 데이터가 아닌 다중 채널 오디오 데이터를 캡처하기 위해 일반적으로 채용되지 않는다.

일반적으로, 본 개시는 비디오 캡처 디바이스가 비디오 분석을 사용하여 다중 채널 오디오 데이터의 캡처를 지원하는 기술들을 설명한다. 비디오 캡처 디바이스는 비디오 장면 분석 (또는 컴퓨터-비전) 기술들을 사용하여 (종종 5 이상의 채널들을 갖는) 서라운드 사운드 오디오 데이터의 생성을 용이하게 할 수도 있다. 일부 예들에서, 비디오 캡처 디바이스는 오디오 데이터와 비디오 데이터 양자를 캡처할 수도 있고, 비디오 오브젝트들을 식별하기 위해 비디오 데이터를 프로세싱하면서 또한, 오디오 오브젝트들을 식별하기 위해 오디오 데이터를 프로세싱한다. 비디오 캡처 디바이스는 이들 비디오 오브젝트들을 식별하고 이들 오브젝트들에 관한 다양한 메타데이터를 생성하기 위해 비디오 장면 분석 기술들을 수행할 수도 있다. 비디오 캡처 디바이스는 또한, 오디오 오브젝트들 및 이들 오브젝트들에 관한 다양한 메타데이터를 생성하기 위한 시도로서 청각 장면 분석을 수행할 수도 있다. 이들 오브젝트들을 비교함으로써, 비디오 캡처 디바이스는 오디오 오브젝트들의 소스들일 수 있는 비디오 오브젝트들을 식별할 수도 있다.

비디오 분석 기술들이 오디오 오브젝트들 단독과 비교하여 비디오 캡처 디바이스에 관련된 비디오 오브젝트들의 위치를 더 근접하게 식별할 수도 있다는 것을 고려하면, 비디오 캡처 디바이스는 종종 부정확한 빔형성 기술들에만 의존하는 것과 비교하여 오디오 오브젝트들을 더 양호하게 로컬화할 수도 있다. 그 후에, 이들 오디오 오브젝트들은 오디오 오브젝트들을 하나 이상의 전방 채널들로 더 양호하게 로컬화하는 데시벨 차이들을 사용하여 하나 이상의 채널들에서 렌더링될 수도 있으며, 따라서 종래의 비디오 캡처 디바이스들에 의해 생성된 것과 비교하여 서라운드 사운드 오디오 데이터의 더 양호한 생성이 가능하다.

일 양태에서, 방법은 하나 이상의 오디오 오브젝트들을 식별하기 위해 디바이스로 캡처된 오디오 데이터를 분석하는 단계 및 하나 이상의 비디오 오브젝트들을 식별하기 위해 오디오 데이터의 캡처와 동시에 디바이스로 캡처된 비디오 데이터를 분석하는 단계를 포함한다. 그 방법은, 하나 이상의 오디오 오브젝트들 중 적어도 하나를 하나 이상의 비디오 오브젝트들 중 적어도 하나와 연관시키는 단계, 및 하나 이상의 오디오 오브젝트들 중 적어도 하나의 하나 이상의 비디오 오브젝트들 중 적어도 하나와의 연관에 기초하여 오디오 데이터로부터 다중 채널 오디오 데이터를 생성하는 단계를 더 포함한다.

다른 양태에서, 디바이스는 오디오 오브젝트를 획득하고, 비디오 오브젝트를 획득하고, 오디오 오브젝트와 비디오 오브젝트를 연관시키고, 오디오 오브젝트를 연관된 비디오 오브젝트와 비교하고, 오디오 오브젝트와 연관된 비디오 오브젝트 간의 비교에 기초하여 오디오 오브젝트를 렌더링하도록 구성된 하나 이상의 프로세서들을 포함한다.

또 다른 양태에서, 오디오 출력 신호를 생성하는 디바이스는 제 1 오디오 오브젝트의 데이터 컴포넌트와 제 1 비디오 오브젝트의 데이터 컴포넌트의 제 1 비교에 기초하여 제 1 비디오 오브젝트 대응물과 연관된 제 1 오디오 오브젝트를 식별하는 수단, 및 제 2 오디오 오브젝트의 데이터 컴포넌트와 제 2 비디오 오브젝트의 데이터 컴포넌트의 제 2 비교에 기초하여 제 2 비디오 오브젝트 대응물과 연관되지 않은 제 2 오디오 오브젝트를 식별하는 수단을 포함한다. 그 디바이스는, 제 1 존에서 제 1 오디오 오브젝트를 렌더링하는 수단, 제 2 존에서 제 2 오디오 오브젝트를 렌더링하는 수단, 및 제 1 존에서의 렌더링된 제 1 오디오 오브젝트와 제 2 존에서의 렌더링된 제 2 오디오 오브젝트를 결합하는 것에 기초하여 오디오 출력 신호를 생성하는 수단을 더 포함한다.

다른 양태에서, 비-일시적 컴퓨터 판독가능 저장 매체는 저장된 명령들을 가지고, 저장된 명령들은 실행될 경우, 디바이스의 하나 이상의 프로세서들로 하여금, 하나 이상의 오디오 오브젝트들을 식별하기 위해 디바이스에 의해 캡처된 오디오 데이터를 분석하게 하고, 하나 이상의 비디오 오브젝트들을 식별하기 위해 오디오 데이터의 캡처와 동시에 디바이스로 캡처된 비디오 데이터를 분석하게 하고, 하나 이상의 오디오 오브젝트들 중 적어도 하나를 하나 이상의 비디오 오브젝트들 중 적어도 하나와 연관시키게 하며, 그리고 하나 이상의 오디오 오브젝트들 중 적어도 하나의 하나 이상의 비디오 오브젝트들 중 적어도 하나와의 연관에 기초하여 오디오 데이터로부터 다중 채널 오디오 데이터를 생성하게 한다.

기술들의 하나 이상의 양태들의 세부사항들은 첨부된 도면들 및 이하 설명에서 기술된다. 기술들의 다른 특징들, 목적들, 및 장점들은 그 설명 및 도면들로부터, 및 청구범위들로부터 명백할 것이다.

도 1a 는 본 개시물에서 설명된 기술들을 수행하는 예시적인 비디오 캡처 디바이스 (10) 의 다양한 뷰들을 예시하는 다이어그램이다.
도 1b 는 본 개시물에서 설명된 기술들을 수행하는 비디오 캡처 디바이스를 더 상세히 예시하는 블록 다이어그램이다.
도 2a 내지 도 2d 는 본 개시물에서 설명된 기술들에 따라 비디오 오브젝트들을 오디오 오브젝트들과 연관시킬 때 도 1 의 비디오 캡처 디바이스에 의해 수행되는 동작들을 예시하는 다이어그램들이다.
도 3 은 도 1b 의 지원형 오디오 렌더링 유닛을 더 상세히 예시하는 블록 다이어그램이다.
도 4 는 도 1b 의 예에 도시되고 본 개시물에서 설명된 기술들에 따라 프로세싱되는 비디오 캡처 디바이스의 카메라에 의해 캡처되는 장면을 예시하는 다이어그램이다.
도 5 는 도 1b 의 예에 도시되고 본 개시물에서 설명된 기술들의 증강 현실 양태들에 따라 프로세싱되는 비디오 캡처 디바이스의 카메라에 의해 캡처되는 다른 장면을 예시하는 다이어그램이다.
도 6 은 본 개시물에서 설명된 기술들을 수행할 때 비디오 캡처 디바이스의 예시적인 동작을 예시하는 플로우차트이다.
도 7 은 본 개시물에서 설명된 기술들에 따라, 다양한 오디오 오브젝트들이 다중 채널 오디오 데이터의 전경 및 배경에 렌더링될 수도 있는 방식을 예시하는 다이어그램이다.

도 1a 는 본 개시물에서 설명된 기술들을 수행하는 예시적인 비디오 캡처 디바이스 (10) 의 다양한 뷰들 (8A - 8C; 각각 정면, 후면, 측면) 을 예시하는 다이어그램이다. 비디오 캡처 디바이스 (10) 는 비디오 캠코더, 태블릿 또는 슬레이트 컴퓨터, (이른바 "스마트 폰" 을 포함하는) 모바일 폰, 퍼스널 게이밍 디바이스, 퍼스널 미디어 디바이스, 등등과 같이 비디오 및 오디오 데이터를 캡처할 수 있는 임의의 타입의 디바이스를 나타낼 수도 있다. 예시의 목적으로, 비디오 캡처 디바이스 (10) 는 스마트 폰을 나타내도록 가정된다. 본 개시물에서는 특정 타입의 디바이스, 즉 스마트 폰에 대하여 설명되지만, 기술들은 비디오 데이터 및 다중 채널 오디오 데이터를 캡처할 수 있는 임의의 타입의 데이터에 의해 구현될 수도 있다.

도 1a 의 예에서, 비디오 캡처 디바이스 (10) 는 3 개의 상이한 뷰들 (8A - 8C) 로부터 보여진다. 뷰 (8A) 는 비디오 캡처 디바이스 (10) 를 정면에서 도시한다. 뷰 (8B) 는 비디오 캡처 디바이스 (10) 를 후면에서 도시한다. 뷰 (8C) 는 비디오 캡처 디바이스 (10) 를 측면에서 도시한다.

뷰 (8A) 에 도시된 것과 같이, 비디오 캡처 디바이스 (10) 는 이어폰 (9), 스피커들 (11A, 11B) 및 마이크로폰들 (16A, 16B 및 16E) 을 포함한다. 이어폰 (9) 은 사용자의 귀에 인접한 디바이스 (10) 로 오디오를 청취하는 경우 사운드 또는 오디오 데이터의 재생을 위해 사용되는 소형 스피커를 나타낸다. 스피커들 (11A 및 11B) 은 각각, 사용자로부터 떨어진 디바이스 (10) 로 오디오를 청취하는 경우 (예컨대 음악을 재생하는데 사용되거나, 비디오를 시청하는데 사용되거나, 스피커폰으로서 사용될 경우) 사운드 또는 오디오 데이터의 재생을 위해 사용되는 스피커들을 나타낸다. 스피커 (11A) 는, 스피커 (11A) 가 다중 채널 오디오 데이터의 좌측 채널을 재생할 수도 있으므로, 좌측 스피커 (11A) (또는 "스피커 L") 로 지칭될 수도 있다. 스피커 (11B) 는, 스피커 (11B) 가 다중 채널 오디오 데이터의 우측 채널을 재생할 수도 있으므로, 우측 스피커 (11B) (또는 "스피커 R") 로 지칭될 수도 있다. 마이크로폰 (16A, 16B 및 16E) 은 이하 더 상세히 설명된다.

뷰 (8B) 에 도시된 것과 같이, 일 예에서, 비디오 캡처 디바이스 (10) 는 또한 카메라 (14) 및 마이크로폰들 (16C 및 16D) 을 포함한다. 카메라 (14) 는 이미지를 캡처할 수 있는 임의의 타입의 디바이스를 나타낼 수도 있다. 카메라 (14) 는 비디오 데이터를 형성하기 위해 (일반적으로 "프레임 레이트" 로 지칭되는) 소정의 레이트로 일련의 이미지들을 캡처할 수도 있다. 카메라 (14) 는 렌즈, 및 이미지를 생성하거나 그렇지 않으면 생산하기 위해 광의 캡처를 용이하게 할 수도 있는 다른 컴포넌트들을 포함할 수도 있다. 카메라 (14) 는 또한, 플래시 또는 (도 1a 의 예에 도시되지 않은) 다른 광 생산 엘리먼트와 인터페이싱할 수도 있고, 일부 경우들에서, 카메라 (14) 가 플래시와 통합될 수도 있다. 스마트 폰의 가정된 맥락에서, 카메라 (14) 는 통상적으로, 필름 카메라들에서 공통적인, 광 감지용의 셀룰로이드 매체와는 반대로, 렌즈들에 들어오는 광의 광도 및 색도를 감지하기 위해 광 감지 센서 (예컨대, CMOS (complementary metal-oxide-semiconductor), 광 이미지 센서 또는 CCD (charge-coupled device) 이미지 센서) 를 포함하는 디지털 카메라를 포함한다. 카메라 (14) 는 이하 도 1b 의 예에서, 광을 캡처하고 비디오 데이터 (18) 로서 도시된 일련의 이미지들을 생산할 수도 있다.

마이크로폰 (16A - 16E) ("마이크로폰들 (16)") 은 각각 오디오 데이터를 캡처할 수 있는 임의의 타입의 디바이스를 나타낼 수도 있다. 마이크로폰들 (16) 은 일반적으로, 사운드를 전기 신호로 컨버팅할 수 있는 임의의 타입의 음향-전기 트랜스듀서 또는 센서를 지칭할 수도 있다. 다수의 상이한 타입의 마이크로폰들이 존재하며, 이들 각각은 상이한 타입들이 사운드를 캡처하는 방식으로 변화한다. 몇몇 예들을 제공하기 위해, 마이크로폰들 (16) 은 (전자기 유도를 사용하여 사운드를 캡처하는 마이크로폰들을 지칭하는) 동적 마이크로폰들, (커패시턴스 변화를 사용하여 사운드를 캡처하는 마이크로폰들을 지칭하는) 콘덴서 마이크로폰들, 및 압전 마이크로폰들을 포함할 수도 있다. 비디오 캡처 디바이스 (10) 내에 또는 안쪽에 통합된 것으로 도시되지만, 마이크로폰들 (16) 중 하나 이상은 비디오 캡처 디바이스 (10) 외부에 있을 수도 있고, 유선 접속 또는 무선 접속을 통해 비디오 캡처 디바이스 (10) 에 커플링될 수도 있다. 마이크로폰들 (16) 각각은 도 1b 의 예에 대하여 더 상세히 도시된 것과 같이, 개별적인 오디오 데이터 (20A - 20E) 를 캡처할 수도 있다.

통상적으로, 비디오 캠코더들, 태블릿 또는 슬레이트 컴퓨터들, (이른바 "스마트 폰들" 을 포함하는) 모바일 폰들, 퍼스널 게이밍 디바이스들, 퍼스널 미디어 디바이스들, 등등과 같은 비디오 캡처 디바이스들은 비디오 데이터를 생성하기 위해 소정의 프레임 레이트로 일련의 이미지들을 캡처하는 카메라를 특징으로 한다. 종종, 이들 비디오 캡처 디바이스들은 비디오 데이터에서 보여지는 장면의 모노럴 (monaural) 오디오 데이터를 캡처하는 마이크로폰을 특징으로 한다. 더 정교한 비디오 캡처 디바이스들은, 캡처될 수 있는 (모노럴 오디오 데이터에서 단일 채널로부터) 채널들의 수를 증가시키는 2 이상의 마이크로폰들을 특징으로할 수도 있다. 이들 더 정교한 비디오 레코딩 디바이스들은 (좌측 및 우측 채널을 갖는 오디오 데이터를 지칭하는) 스테레오 오디오 데이터를 캡처하기 위해 적어도 2 개의 마이크로폰들을 포함할 수도 있다.

3 이상의 마이크로폰들, 예컨대 도 1a 에 마이크로폰들 (16) 로서 도시된 5 개의 마이크로폰들은, 비디오 캡처 디바이스가 전-후 및 좌-우 구별들 (또는 이른바 오디오 데이터의 "채널들", 예컨대 전방 또는 중앙 채널, 전방-좌측 채널, 전방-우측 채널, 후방-좌측 채널 및 후방-우측 채널) 을 갖는 서라운드 사운드 오디오의 캡처를 용이하게 하기 위해 "빔형성" 기술들이라 지칭되는 기술들을 수행할 수 있게 할 수도 있다. (또한 "오디오 데이터" 로서 지칭될 수도 있는) 마이크로폰 신호들을 캡처한 후에, 스마트 폰은 (특정 방향들에서의 사운드들이 증폭되는 프로세스를 지칭할 수도 있는) 공간 빔들을 다른 공간 방향들로 알고리즘적으로 형성할 수도 있다. 캡처된 사운드를 이들 빔들 각각으로 필터링함으로써, 스마트 폰은 상이한 출력 서라운드 사운드 채널들을 생성할 수도 있다. 일부 예들에서, 스마트 폰은 빔 지역들과 대응하는 널 빔 지역들 간의 차이가 6 dB 사운드 레벨 차이를 나타내도록, 빔들을 생성할 수도 있다. 일 예로서, 스마트 폰은 이들 빔들에 기초하여 5.1 서라운드 사운드 오디오 데이터를 생성할 수도 있다.

스마트 폰들이 빔형성 기술들을 사용하여 서라운드 오디오를 캡처할 수도 있고, 따라서 오직 1 또는 2 개의 마이크로폰들을 특징으로 하는 비디오-캡처 디바이스들과 비교하여 더 현실적인 오디오를 캡처할 수도 있지만, 종종 도 1a 의 예의 뷰들 (8A - 8C) 에 도시된 것과 같은 일부 스마트 폰들 상의 마이크로폰 배열은 최적 품질의 서라운드 사운드 오디오를 허용하지 않는다. 통상적으로, 코너들에 대한 데시벨 차이는 매우 현저하지는 않다. 즉, 빔들을 결합할 때의 6 dB 차이는, 식별된 빔을 생성하는 사운드가 플레이백 될 때 매우 로컬화된 것으로 보이지 않도록, 더 큰 차이를 생성하지 않는다. 서라운드 사운드 오디오 데이터를 생성할 경우, 스마트 폰은 예를 들어, 오디오가 전방-우측 채널에 더 로컬화되어야만할 경우, 오디오에 로컬화되어야만 하는 것을 중앙 채널과 전방-우측 채널 양자에 배치시킬 수도 있다.

추가로, 몇몇 정면 및 후면 마이크로폰들, 예컨대 마이크로폰들 (16B 및 16C) 간의 근접성을 고려해볼 때, 스마트 폰들은 전방 오디오와 후방 오디오를 충분히 구별할 수 없을 수도 있다. 전방 오디오와 후방 오디오를 충분히 구별할 수 없는 것은, 스마트 폰이 전방 채널과 후방 채널 간에 오디오의 충분한 구별들을 제시하지 않는 서라운드 사운드 또는 다중 채널 오디오 데이터를 생성하는 것을 초래할 수도 있다. 다시 말해서, 전방 채널과 후방 채널은 혼란 상태로 들릴 수도 있고, 여기서 후방 사운드들은 (종종, 전방과 후방을 혼락시키도록 후방 사운드와 결합된) 전방 스피커들에 의해 재생될 수도 있고, 전방 사운드들은 (종종, 전방과 후방을 혼란시키도록 전방 사운드들과 결합된) 후방 스피커들에 의해 재생될 수도 있다.

비디오 캡처 디바이스 (10) 는 비디오 데이터를 캡처할 때 들리는 것과 같이 오디오 데이터를 더 양호하게 복제하는 서라운드 사운드 또는 다중 채널 오디오 데이터의 생성을 용이하게 하기 위해 본 개시물에 설명된 기술들을 구현할 수도 있다. 본 개시물에 설명된 기술들에 따라 이러한 다중 채널 오디오 데이터를 생성하기 위해, 비디오 캡처 디바이스 (10) 는 비디오 분석을 사용하여 다중 채널 오디오 데이터의 캡처를 지원할 수도 있다. 비디오 캡처 디바이스 (10) 는 비디오 장면 분석 (또는 컴퓨터-비전) 기술들을 사용하여 (종종 5 이상의 채널들을 갖는) 다중 채널 오디오 데이터의 생성을 용이하게 할 수도 있다. 일부 예들에서, 비디오 캡처 디바이스 (10) 는 오디오 데이터와 비디오 데이터 양자를 캡처할 수도 있고, 비디오 오브젝트들을 식별하기 위해 비디오 데이터를 프로세싱하면서 또한, 오디오 오브젝트들을 식별하기 위해 오디오 데이터를 프로세싱한다. 비디오 캡처 디바이스 (10) 는 이들 비디오 오브젝트들 및 이들 오브젝트들에 관한 다양한 메타데이터를 식별하기 위해 비디오 장면 분석 기술들을 수행할 수도 있다. 비디오 캡처 디바이스 (10) 는 또한, 오디오 오브젝트들 및 이들 오브젝트들에 관한 다양한 메타데이터를 식별하기 위한 시도로서 청각 장면 분석을 수행할 수도 있다. 이들 오브젝트들을 비교함으로써, 비디오 캡처 디바이스는 오디오 오브젝트들의 소스들일 수 있는 비디오 오브젝트들을 식별할 수도 있다.

비디오 분석 기술들이 오디오 오브젝트들 단독과 비교하여 비디오 캡처 디바이스 (10) 에 관련된 비디오 오브젝트들의 위치를 더 근접하게 식별할 수도 있는 것을 고려하면, 비디오 캡처 디바이스 (10) 는 종종 부정확한 빔형성 기술들에만 의존하는 것과 비교하여 오디오 오브젝트들을 더 양호하게 로컬화할 수도 있다. 그 후에, 이들 오디오 오브젝트들은 오디오 오브젝트들을 전방 채널들 중 하나로 더 양호하게 로컬화하는 데시벨 차이들을 사용하여 하나 이상의 채널들에서 렌더링될 수도 있으며, 따라서 종래의 비디오 캡처 디바이스들에 의해 생성된 것과 비교하여 서라운드 사운드 또는 다른 타입들의 다중 채널 오디오 데이터의 더 양호한 생성이 가능하다. 비디오 캡처 디바이스 (10) 에 의해 수행된 기술들은 이하 도 1b 와 관련하여 더 상세히 설명된다.

도 1b 는 본 개시물에서 설명된 기술들을 수행하는 비디오 캡처 디바이스 (10) 를 더 상세히 예시하는 블록 다이어그램이다. 도 1b 의 예에서, 비디오 캡처 디바이스 (10) 는 제어 유닛 (12), 카메라 (14), 및 마이크로폰들 ("마이크"; 16A - 16E) ("마이크로폰들 (16)" 또는 "마이크들 (16)") 을 포함한다. 예시 목적들의 용이함을 위해 도 1b 의 예에 도시되지는 않았지만, 비디오 캡처 디바이스 (10) 는 또한, 이어폰 (9) 및 스피커들 (11A 및 11B) 뿐만 아니라, 비디오 캡처 디바이스 (10) 와 공통적으로 연관된 다양한 다른 기능들을 수행하는 추가의 모듈들, 엘리먼트들 및/또는 유닛을 포함할 수도 있다.

임의의 경우에, 제어 유닛 (12) 은 하나 이상의 중앙 프로세싱 유닛들 ("CPU들", 도 1 에 도시되지 않음), 그래픽 프로세싱 유닛들 ("GPU들", 또한 도 1 에 도시되지 않음) 또는 다른 프로세싱 유닛들을 나타낼 수도 있고, 다른 프로세싱 유닛들은, 저장 디바이스 (예컨대, 디스크 드라이브, 또는 광학 드라이브), 또는 메모리 (예컨대, 플래시 메모리, 랜덤 액세스 메모리 또는 RAM) 또는 하나 이상의 프로세싱 유닛들로 하여금 본원에 설명된 기술들을 수행하게 하는 명령들을 저장하는 임의의 다른 타입의 휘발성 또는 비휘발성 메모리와 같은 비-일시적 컴퓨터 판독가능 저장 매체 (또한, 도 1 에 도시되지 않음) 에 저장된, 소프트웨어 또는 컴퓨터 프로그램을 정의하기 위해 사용되는 것과 같은 소프트웨어 명령들을 실행한다.

대안적으로 또는 부가적으로, 제어 유닛 (12) 은 하나 이상의 집적 회로들, 하나 이상의 애플리케이션용 집적 회로들 (ASIC들), 하나 이상의 애플리케이션용 특수 프로세서들 (ASSP들), 또는 본원에 설명된 기술들을 수행하기 위한 전용 하드웨어의 앞의 예들 중 하나 이상의 임의의 조합과 같은 전용 하드웨어를 나타낼 수도 있다. 소프트웨어, 전용 하드웨어 또는 이들의 임의의 조합을 실행하는 CPU들 및/또는 GPU들로 구성되는지 여부에 따라, 제어 유닛 (12) 은 일부 문맥들에서 "프로세서" 로 지칭될 수 있다.

전술된 것과 같이, 카메라 (14) 는 이미지를 캡처할 수 있는 임의의 타입의 디바이스를 나타낼 수도 있는 반면, 마이크로폰들 (16) 은 오디오 데이터를 캡처할 수 있는 임의의 타입의 디바이스를 나타낼 수도 있다. 카메라 (14) 는 도 1 의 예에서, 광을 캡처하고 비디오 데이터 (18) 로서 도시된 일련의 이미지들을 생산할 수도 있다. 마이크로폰들 (16) 각각은 개별적인 오디오 데이터 (20A - 20E) 를 캡처할 수도 있다.

도 1 의 예에 추가로 도시된 것과 같이, 제어 유닛 (12) 은 시각 분석 유닛 (22), 청각 분석 유닛 (24), 오브젝트 연관 유닛 (26), 렌더링 유닛들 (28A - 28C) ("렌더링 유닛들 (28)") 및 오디오 믹싱 유닛 (30) 을 포함한다. 시각 분석 유닛 (22) 은 비디오 데이터 (18) 와 같은 비디오 데이터의 시각적 장면 분석을 수행하는, 하드웨어 또는 하드웨어와 소프트웨어의 조합을 나타낼 수도 있다. 시각적 장면 분석은, 컴퓨터 또는 다른 디바이스가 이미지들을 프로세싱하고 분석하여 이미지의 다양한 오브젝트들, 엘리먼트들 및/또는 양태들을 검출하고 식별할 수도 있는 프로세스를 지칭하는, 컴퓨터 비전의 양태들을 수반할 수도 있다. 컴퓨터 비전은 일부 경우들에서, 컴퓨터 비전과 머신 비전이 다수의 겹치거나 관련된 컨셉들을 가지기 때문에, 머신 비전으로 지칭될 수도 있다. 종종, 머신 비전은 컴퓨터 비전의 양태들 또는 컨셉들을 상이한 문맥들에서 채용할 수도 있다. 본 개시물은 기술들을 설명할 때 컴퓨터 비전을 참조하지만, 그 기술들은 또한, 컴퓨터 비전과 결합하여 또는 컴퓨터 비전에 대한 대안으로서 머신 비전을 사용하여 수행될 수도 있다. 이러한 이유로, 용어들 "머신 비전" 과 "컴퓨터 비전" 은 상호교환가능하게 사용될 수도 있다.

도 1 의 예에 도시된 것은 아니지만, 시각 분석 유닛 (22) 은, 일부 예시들에서, 시각적 장면 분석을 수행할 때 비디오 캡처 디바이스 (10) 외부의 이미지 서버 또는 다른 데이터베이스와 통신할 수도 있다. 시각 분석 유닛 (22) 은 종종 (프로세싱 리소스들 및/또는 메모리 리소스를 의미하는) 리소스 집약적 시각적 장면 분석 프로세스의 다양한 양태들을 분담하기 위해 상기 이미지 서버와 통신할 수도 있다. (예를 들어, 시각 분석 유닛 (22) 은 일부 초기 분석을 수행하여 오브젝트들을 검출하고, 이들 오브젝트들을 식별을 위해 이미지 서버에 전달할 수도 있다. 그 후에, 이미지 서버는 오브젝트를 분류하거나 그렇지 않으면 식별하고, 분류된 오브젝트를 다시 시각 분석 유닛 (22) 에 전달할 수도 있다. 통상적으로, 시각 분석 유닛 (22) 은 무선 세션을 통해 이미지 서버와 통신한다. 이와 같이, 비디오 캡처 디바이스 (10) 는 (도 1 의 예에 도시되지 않은) 하나 이상의 인터페이스들을 포함할 수도 있고, 그 인터페이스들에 의해, 비디오 캡처 디바이스 (10) 는 주변 디바이스들, 서버들 및 임의의 다른 타입의 디바이스 또는 악세서리와 무선으로 또는 유선 접속을 통해 통신할 수도 있다. 시각 분석 유닛 (22) 은 시각적 장면 분석을 수행하는 결과로서, 비디오 오브젝트들 (32) 을 출력할 수도 있다.

청각 분석 유닛 (24) 은 오디오 데이터, 예컨대 오디오 데이터 (20A - 20N) ("오디오 데이터 (20)") 의 청각 장면 분석을 수행하여 오디오 오브젝트들 (34) 을 생성할 수도 있다. 청각 분석 유닛 (24) 은 오디오 데이터를 분석하여 오디오 오브젝트들을 검출하고 식별할 수도 있다. 오디오 오브젝트들은 별개이거나 인식가능하며, 분류되거나 그렇지 않으면 소정의 오브젝트와 연관될 수도 있는 사운드들을 지칭할 수도 있다. 예를 들어, 자동차 엔진은 쉽게 인식가능한 사운드를 방출할 수도 있다. 오디오 장면 분석은 오디오 데이터에서, 이들 사운드들을 검출하고, 식별하거나 분류하는 것을 시도할 수도 있다.

시각 분석 유닛 (22) 과 유사하게, 청각 분석 유닛 (24) 은, 일부 예시들에서, (또한 도 1 의 예에 도시되지 않은) 청각적 장면 분석을 수행할 때 비디오 캡처 디바이스 (10) 외부의 및 가능하면 떨어진 원격 네트워크 서버 또는 다른 데이터베이스와 통신할 수도 있다. 청각 분석 유닛 (24) 은 종종 (프로세싱 리소스들 및/또는 메모리 리소스를 의미하는) 리소스 집약적 청각적 장면 분석 프로세스의 다양한 양태들을 분담하기 위해 상기 오디오 서버와 통신할 수도 있다. (예를 들어, 청각 분석 유닛 (24) 은 일부 초기 분석을 수행하여 오브젝트들을 검출하고, 이들 오브젝트들을 식별을 위해 오디오 서버에 전달할 수도 있다. 그 후에, 오디오 서버는 오브젝트를 분류하거나 그렇지 않으면 식별하고, 분류된 오브젝트를 다시 청각 분석 유닛 (24) 에 전달할 수도 있다. 청각 분석 유닛 (24) 은 시각 분석 유닛 (22) 을 설명할 때 전술된 인터페이스들을 사용하여 상기 오디오 서버와 통신할 수도 있다. (청각 분석 유닛 (24) 은 청각적 장면 분석을 수행하는 결과로서, 오디오 오브젝트들 (34) 을 출력할 수도 있다.

오브젝트 연관 유닛 (26) 은 비디오 오브젝트들 (32) 을 오디오 오브젝트들 (34) 과 연관시키는 것을 시도하는, 하드웨어 또는 하드웨어와 소프트웨어의 조합을 나타낸다. 비디오 오브젝트들 (32) 및 오디오 오브젝트들 (34) 은 각각, 호환가능하거나 공통의 포맷에 따라 정의될 수도 있고, 이는 비디오 오브젝트들 (32) 및 오디오 오브젝트들 (34) 양자가 오브젝트들 (32) 과 오브젝트들 (34) 간에 연관들을 용이하게 하는 방식으로 정의되는 것을 의미한다. 오브젝트들 (32 및 34) 각각은 몇가지 예들을 제공하기 위해, 대응하는 오브젝트의 예상 위치 (예컨대, x, y, z 좌표), 대응하는 오브젝트의 사이즈 (또는 예상 사이즈), 대응하는 오브젝트의 형상 (또는 예상 형상), 대응하는 오브젝트의 속도 (또는 예상 속도), 위치 신뢰도 레벨, 및 오브젝트가 포커싱되는지 여부 또는 오브젝트가 가까운 전경, 먼 전경, 또는 가까운 배경, 또는 먼 배경 중 어디에 속하는지 여부 중 하나 이상의 정의하는 메타데이터를 포함할 수도 있다. 오브젝트 연관 유닛 (26) 은 메타데이터에 기초하여 하나 이상의 비디오 오브젝트들 (32) 을 하나 이상을 오디오 오브젝트들 (34) 과 연관 (종종, 비디오 오브젝트들 (32) 중 단 하나를 오디오 오브젝트들 (34) 중 단 하나와 연관) 시킬 수도 있다.

오브젝트 연관 유닛 (26) 은 오브젝트들 (32 및 34) 을 3 개의 클래스들 중 하나로 분류할 수도 있다. 제 1 클래스는 메타데이터를 갖는 비디오 오브젝트들 (32) 중 하나와 연관된 오디오 오브젝트들 (34) 중 메타데이터를 갖는 오디오 오브젝트 (34) 들을 포함한다. 제 2 클래스는 오디오 오브젝트들 (34) 중 비디오 오브젝트들 (32) 중 임의의 하나와 연관되지 않은 오디오 오브젝트들 (34) 을 포함한다. 제 3 클래스는 비디오 오브젝트들 (32) 중 오디오 오브젝트들 (34) 중 임의의 하나와 연관되지 않은 비디오 오브젝트들 (32) 을 포함한다. 오브젝트 연관 유닛 (26) 은 제 1 클래스로 분류된 오디오 오브젝트들 (34) (오디오 오브젝트들 (34') 로 도시됨) 을 지원형 오디오 렌더링 유닛 (28A) 에 전달할 수도 있다. 오브젝트 연관 유닛 (26) 은 제 2 클래스로 분류된 오디오 오브젝트들 (34) (오디오 오브젝트들 (34") 로 도시됨) 을 비-지원형 오디오 렌더링 유닛 (28B) 에 전달할 수도 있다. 오브젝트 연관 유닛 (26) 은 제 3 클래스로 분류된 비디오 오브젝트들 (32) (비디오 오브젝트들 (32') 로 도시됨) 을 증강 현실 오디오 렌더링 유닛 (28C) 에 전달할 수도 있다.

3 개의 클래스들에 대하여 설명되고 있지만, 기술들은 오직 앞의 2 개 클래스들에 대하여 구현될 수도 있다. 다시 말해서, 제 3 클래스는 사용가능한 리소스들에 기초하여 적응적으로 수행될 수도 있다. 일부 예시들에서, 제 3 클래스는 특히 전력 제한 또는 리소스 제한 디바이스들에서 활용되지 않는다. 일부 예시들에서, 이들 전력 제한 또는 리소스 제한 디바이스들은 제 3 클래스가 활용되지 않을 때, 증강 현실 오디오 렌더링 유닛 (28C) 을 포함하지 않을 수도 있다. 또한, 오브젝트 연관 유닛 (26) 은 비디오 오브젝트들을 제 3 클래스로 전달하거나 그렇지 않으면 분류하지 않을 수도 있다. 따라서, 기술들은 본 개시물에서 설명된 예들에 제한되는 것이 아니라, 제 1 및 제 2 클래스들에 대하여 수행되고 제 3 클래스에 대하여 수행되지 않을 수도 있다.

임의의 경우에, 렌더링 유닛들 (28) 은 각각, 오디오 데이터 (38A - 38C) 를 각각 오디오 오브젝트들 (34', 34") 과 비디오 오브젝트 (32') 중 하나 이상으로부터 렌더링하도록 구성된 하드웨어 또는 하드웨어와 소프트웨어의 조합을 나타낸다. 지원형 오디오 렌더링 유닛 (28A) 은, 지원형 오디오 렌더링 유닛 (28A) 이 비디오 오브젝트들 (32) 중 매칭하거나 연관된 비디오 오브젝트 (32) 에 의해 잠재적으로 증강되는 메타데이터를 갖는 오디오 오브젝트들 (34') 을 수신한다는 점에 있어서, "지원형" 오디오 렌더링 유닛 (28A) 으로 지칭될 수도 있다. 이러한 점에서, 렌더링 유닛 (28A) 은 비디오 오브젝트들 (32) 중 대응하거나 연관된 비디오 오브젝트 (32) 로부터 오디오 오브젝트들 (34') 을 더 정확하게 렌더링하는데 있어서의 지원을 수신할 수도 있다. 지원형 오디오 렌더링 유닛 (28A) 은, 그 유닛 (28A) 이 비디오 오브젝트들과 연관되는 오디오 오브젝트들을 수신하고, 이들 오디오 오브젝트들이 카메라에 의해 캡처된 비디오 오브젝트들과 연관되고 따라서 전경에 존재하는 것을 표시한다는 것을 고려하여, 전경 렌더링 유닛 (28A) 으로 지칭될 수도 있다.

비-지원형 오디오 렌더링 유닛 (28B) 은, 렌더링 유닛 (28B) 이 제 2 클래스로 분류되는 오디오 오브젝트들 (34") 을 렌더링한다는 점에서 "비-지원형" 으로 지칭될 수도 있고, 이는 이들 오디오 오브젝트들 (34") 이 비디오 오브젝트들 (32) 중 임의의 하나와 연관되지 않는 것을 의미한다. 따라서, 렌더링 유닛 (28B) 은 비디오 오브젝트들 (32) 중 임의의 하나로부터 오디오 오브젝트들 (34") 을 렌더링하는데 있어서의 어떠한 지원도 수신하지 않는다. 비-지원형 오디오 렌더링 유닛 (28B) 은 또한, 오디오 오브젝트 유닛 (28B) 프로세스들이 임의의 비디오 오브젝트들과 연관되지 않는다는 점에서 배경 렌더링 유닛으로 지칭될 수도 있고, 이는 이들 오브젝트들이 장면을 비디오 데이터 (18) 로서 캡처하는 사용자의 뒤에 또는 배경에 상주할 수 있는 것을 의미한다.

증강 현실 오디오 렌더링 유닛 (28C) 은, 렌더링 유닛 (28C) 이 (디바이스 (10) 의 내부 또는 외부에 위치된) 오디오 라이브러리 또는 다른 오디오 저장소에 액세스하여 매칭되지 않거나 연관되지 않은 비디오 오브젝트들 (32') 에 대응하는 오디오 오브젝트를 취출하고, 오디오 데이터 (38C) 를 렌더링하여 마이크로폰들 (16) 에 의해 캡처된 오디오 데이터 (20) 를 반영하는 오디오 데이터 (38A 및 38B) 를 증강시킨다는 점에서, "현실을 증강" 시킬수도 있다. 증강 현실 오디오 렌더링 유닛 (28C) 은, 유닛 (28C) 이 카메라 (14) 에 의해 비디오 데이터 (18) 로서 캡처된 장면에서 검출되는 비디오 오브젝트들 (32') 을 프로세싱하는 것을 고려하여, 오디오 데이터를 전경에 렌더링할 수도 있다.

렌더링 유닛들 (28) 각각은 공간화된 방식으로 오디오 데이터 (38A - 38C) 를 렌더링할 수도 있다. 다시 말해서, 렌더링 유닛들 (28) 은 공간화된 오디오 데이터 (38A - 38C) 를 생산할 수도 있고, 여기서 오디오 오브젝트들 (34', 34" 및 34"' (여기서, 오디오 오브젝트들 (34"') 은 증강 현실 오디오 렌더링 유닛 (28C) 에 의해 취출된 증강 현실 오디오 오브젝트들 (34"') 을 지칭함)) 각각은 플레이백을 위한 특정 스피커 구성을 가정할 때 할당되고 렌더링된다. 렌더링 유닛 (28) 은 공간화된 오디오 데이터를 렌더링할 때 공통적으로 사용되는 다른 렌더링 알고리즘들 및 HRTF (head-related transfer functions) 을 사용하여 오디오 오브젝트들 (34', 34" 및 34"') 을 렌더링할 수도 있다.

오디오 믹싱 유닛 (30) 은 오디오 데이터 (38A - 38C) ("오디오 데이터 (38)") 를 특정 다중 채널 오디오 데이터 포맷으로 믹싱하는, 하드웨어 또는 하드웨어와 소프트웨어의 조합을 나타낸다. 본 개시물에서 다중 채널 오디오 데이터에 대한 언급은 스테레오 또는 고차 다중 채널 오디오 데이터를 지칭할 수도 있다. 고차 다중 채널 오디오 데이터는 5.1 서라운드 사운드 오디오 데이터 또는 7.1 서라운드 사운드 오디오 데이터를 포함할 수도 있고, 여기서 그 기간 이전의 제 1 숫자는 채널들의 수를 지칭하고, 기간 이후의 숫자는 베이스 (bass) 또는 저주파수 채널들의 수를 지칭한다. 예를 들어, 5.1 서라운드 사운드 오디오 데이터는 단일 저주파수 채널과 함께, 좌측 채널, 중앙 채널, 우측 채널, 좌-후방 또는 주변 좌측 채널, 및 우-후방 또는 주변 우측 채널을 포함한다. 믹싱 유닛 (30) 은 다중 채널 오디오 데이터 (40) 를 생성하기 위해 이들 다중 채널 오디오 데이터 포맷들 중 하나 이상에 오디오 데이터 (38) 를 믹싱할 수도 있다.

동작시, 비디오 캡처 디바이스 (10) 는 비디오 데이터 (18) 를 캡처하게 카메라 (14) 를 인보크 (invoke) 하도록 구성되면서, 또한 동시에 오디오 데이터 (20A - 20E) ("오디오 데이터 (20)") 를 캡처하게 마이크로폰들 (16) 중 하나 이상 또는 종종 전부를 인보크하도록 구성될 수도 있다. 비디오 데이터 (18) 및 오디오 데이터 (20) 를 수신하는 것에 응답하여, 비디오 캡처 디바이스 (10) 의 제어 유닛 (12) 은 다중 채널 오디오 데이터 (40) 를 생성하기 위해 본 개시물에 설명된 기술들을 수행하도록 구성될 수도 있다.

오디오 데이터 (20) 의 수신시, 제어 유닛 (12) 은 오디오 오브젝트들 (34) 중 하나 이상을 식별하기 위해 오디오 데이터 (20) 를 분석할 수도 있는 청각 분석 유닛 (24) 을 인보크할 수도 있다. 앞서 간단히 설명된 것과 같이, 청각 분석 유닛 (24) 은 오디오 오브젝트들 (34) 을 식별하고 생성하기 위해 청각 장면 분석을 수행할 수도 있다. 유사하게, 비디오 데이터 (18) 의 수신시, 제어 유닛 (12) 은 하나 이상의 비디오 오브젝트들 (32) 을 식별하기 위해 오디오 데이터 (20) 의 분석 및/또는 캡처와 동시에 비디오 데이터 (18) 를 분석할 수도 있는, 시각 분석 유닛 (22) 을 인보크하도록 구성될 수도 있다. 또한, 앞서 간단히 설명된 것과 같이, 시각 분석 유닛 (22) 은 비디오 오브젝트들 (32) 중 하나 이상을 식별하고 생성하기 위해 (컴퓨터 비전 알고리즘들을 사용하는) 시각 장면 분석을 수행할 수도 있다.

시각 분석 유닛 (22) 및 오디오 분석 유닛 (24) 은 공통이거나 공유되는 포맷을 사용하여 각각 비디오 오브젝트들 (32) 과 오디오 오브젝트들 (34) 을 생성하도록 구성될 수도 있다. 종종, 이러한 공유 포맷은 메타데이터로 지칭될 수도 있는 텍스트 컴포넌트를 포함할 수도 있다. 이러한 메타데이터는 비디오 오브젝트들 (32) 과 오디오 오브젝트들 (34) 중 대응하는 오디오 오브젝트 (34) 의 다양한 특성들 또는 양태들을 설명할 수도 있다. 비디오 오브젝트들 (32) 중 대응하는 비디오 오브젝트 (32) 를 설명하는 비디오 메타데이터는, 몇몇 비-제한적인 예들로서, 하나 이상의 오디오 메타데이터가 대응하는 비디오 오브젝트의 위치, 형상, 속도 및 위치 신뢰도 레벨 중 하나 이상을 포함하는 것을 명시할 수도 있다. 오디오 오브젝트들 (32) 중 대응하는 오디오 오브젝트 (32) 를 설명하는 오디오 메타데이터는 유사하게, 몇몇 비-제한적인 예들로서, 오디오 오브젝트 위치, 오디오 오브젝트 형상, 오디오 오브젝트 속도, 및 대응하는 오디오 오브젝트의 위치 신뢰도 레벨을 제공하는 것을 명시할 수도 있다.

오디오 메타데이터와 비디오 메타데이터 양자가 이러한 동일한 시멘틱 레벨, 즉 동일한 텍스트 시멘틱 레벨, 이 예에서 (전술된 메타데이터의 상이한 타입들 중 각각을 지칭할 수도 있는) 이러한 메타데이터에 의해 명시된 개별 태그들로 요약되기 때문에, 비디오 캡처 디바이스 (10) 는 텍스트 도메인에서 직접 비교 및 맵핑 (또는, 다시 말해서, 오브젝트들을 연관) 할 수도 있다. 맵핑된 오브젝트들로, 비디오 캡처 디바이스 (10) 는 그 디바이스가 장면에서 오브젝트들을 "보는" 방식과 오브젝트들을 "듣는" 방식을 직접 연관시킬 수도 있다.

제어 유닛 (12) 은 비디오 오브젝트들 (32) 과 오디오 오브젝트들 (34) 을 수신하고, 오브젝트 연관 유닛 (26) 을 인보크할 수도 있다. 오브젝트 연관 유닛 (26) 은 오디오 오브젝트들 (34) 중 적어도 하나를 비디오 오브젝트들 (32) 중 적어도 하나와 연관시킬 수도 있다. 오브젝트 연관 유닛 (26) 은, 이러한 연관을 수행할 때, 통상적으로 (일부 예시들에서, 오디오 오브젝트의 타입을 정의할 수도 있는) 메타데이터에 기초하여, 오디오 오브젝트들 (34) 각각을 오디오 오브젝트의 타입으로서 분류할 수도 있다. 유사하게, 오브젝트 연관 유닛 (26) 은, 이러한 연관을 수행할 때, 통상적으로 (일부 예시들에서, 비디오 오브젝트의 타입을 또한 정의할 수도 있는) 대응하는 메타데이터에 기초하여, 비디오 오브젝트들 (32) 각각을 비디오 오브젝트의 타입으로 분류할 수도 있다. 비디오 오브젝트들의 예시적인 타입들은 자동차, 해변, 파도, 유수 (running water), 음악, 사람, 개, 고양이, 등을 포함할 수도 있다. 오브젝트 연관 유닛 (26) 은 그 후에, 오디오 오브젝트들 (34) 중 하나의 타입이 비디오 오브젝트들 (32) 중 하나와 동일한 타입인 것을 결정할 수도 있다. 오디오 오브젝트 (34) 중 하나의 타입이 비디오 오브젝트 (32) 중 하나의 타입과 동일하다는 결정에 응답하여, 오브젝트 연관 유닛 (26) 은 오디오 오브젝트들 (34) 중 하나를 비디오 오브젝트들 (32) 중 하나와 연관시킬 수도 있다.

오브젝트 연관 유닛 (26) 은 오디오 오브젝트들 (34) 의 전술된 3 개의 상이한 클래스들 중 하나로의 분류에 기초하여 다양한 오디오 오브젝트들을 생성할 수도 있다. 다시, 제 1 클래스는 메타데이터를 갖는 비디오 오브젝트들 (32) 중 하나와 연관된 오디오 오브젝트들 (34) 중 메타 데이터를 갖는 오디오 오브젝트들 (34) 을 포함한다. 제 2 클래스는 오디오 오브젝트들 (34) 중 비디오 오브젝트들 (34) 중 임의의 하나와 연관되지 않은 오디오 오브젝트들 (34) 을 포함한다. 제 3 클래스는 비디오 오브젝트들 (32) 중 오디오 오브젝트들 (34) 중 임의의 하나와 연관되지 않은 비디오 오브젝트들 (32) 을 포함한다.

오브젝트 연관 유닛 (26) 은 제 1 클래스로 분류된 오디오 오브젝트들 (34) (오디오 오브젝트들 (34') 로 도시됨) 을 지원형 오디오 렌더링 유닛 (28A) 에 전달할 수도 있다. 오브젝트 연관 유닛 (26) 은 제 2 클래스로 분류된 오디오 오브젝트들 (34) (오디오 오브젝트들 (34") 로 도시됨) 을 비-지원형 오디오 렌더링 유닛 (28B) 에 전달할 수도 있다. 오브젝트 연관 유닛 (26) 은 제 3 클래스로 분류된 비디오 오브젝트들 (32) (비디오 오브젝트들 (32') 로 도시됨) 을 증강 현실 오디오 렌더링 유닛 (28C) 에 전달할 수도 있다.

오디오 오브젝트들 (34) 중 제 1 클래스에 속하는 것으로 결정된 오디오 오브젝트들 (34) 에 대하여, 오브젝트 연관 유닛 (26) 은 오디오 오브젝트들 (34) 중 하나의 오디오 메타데이터와 연관된 하나의 비디오 오브젝트들 (32) 의 비디오 메타데이터 간의 상관 레벨을 결정하여, 하나의 비디오 오브젝트 (32) 가 결정된 상관 레벨에 기초하여 연관되는 오디오 오브젝트들 (34) 중 하나에 대하여 결합된 메타데이터를 생성할 수도 있다. 일부 예에서, 오브젝트 연관 유닛 (26) 은 오디오 메타데이터 또는 그 부분, 유사하게 오디오 메타데이터에 의해 명시된 위치를, 대응하는 비디오 메타데이터 또는 그 부분으로 대체할 수도 있다. 오브젝트 연관 유닛 (26) 은 그 후에, 이러한 오디오 오브젝트 (34) 를 오디오 오브젝트들 (34') 중 하나로서 지원형 오디오 렌더링 유닛 (28A) 에 전달할 수도 있다. 지원형 오디오 렌더링 유닛 (28A) 은 그 후에, 오디오 오브젝트들 (34') 중 하나에 대하여 생성된 결합된 메타데이터에 기초하여 다중 채널 오디오 데이터 (40) 의 하나 이상의 전경 채널들에서 오디오 오브젝트들 (34') 중 하나를 렌더링할 수도 있다. 지원형 오디오 렌더링 유닛 (28A) 은 다중 채널 오디오 데이터 (40) 의 상기 부분을 오디오 데이터 (38A) 로서 오디오 믹싱 유닛 (30) 에 전달한다.

오디오 오브젝트들 (34) 중 제 2 클래스에 속하는 것으로 결정된 오디오 오브젝트들 (34) 에 대하여, 오브젝트 렌더링 유닛 (26) 은 오디오 오브젝트들 (34) 중 하나가 비디오 오브젝트들 (32) 중 임의의 하나와 연관되지 않는 것을 결정할 수도 있다. 오브젝트 렌더링 유닛 (26) 은 이들 오디오 오브젝트들 (34) 을 오디오 오브젝트들 (34") 중 하나로서 비-지원형 오디오 렌더링 유닛 (28B) 에 전달할 수도 있다. 비-지원형 오디오 렌더링 유닛 (28B) 은, 오디오 오브젝트들 (34") 중 하나가 다중 채널 오디오 데이터 (40) 의 하나 이상의 배경 채널들에서 비롯하도록, 다중 채널 오디오 데이터 (40) 를 생성할 수도 있다. 즉, 이들 오디오 오브젝트들 (34) 이 비디오 오브젝트들 (32) 중 임의의 하나와 연관되지 않기 때문에, 비-지원형 오디오 렌더링 유닛 (28B) 은 이들 오디오 오브젝트들 (34") 이 카메라 (14) 에 의해 캡처된 장면의 외부에서 발생하는 오브젝트들이라고 가정하도록 구성된다. 이와 같이, 비-지원형 오디오 렌더링 유닛 (28B) 은 배경에서 오디오 오브젝트들 (34") 을 종종 분산된 사운드들로서 렌더링하도록 구성될 수도 있다. 비-지원형 오디오 렌더링 유닛 (28B) 은 다중 채널 오디오 데이터 (40) 의 상기 부분을 오디오 데이터 (38B) 로서 오디오 믹싱 유닛 (30) 에 전달한다.

제 3 클래스, 즉 비디오 오브젝트들 (32) 이 도 1b 의 예에서 오디오 오브젝트들 (34) 중 임의의 하나와 연관되지 않는 클래스에 속하는 것으로 결정된 비디오 오브젝트들 (32) 에 대하여, 오브젝트 연관 유닛 (26) 은 이들 비디오 오브젝트들 (32) 을 비디오 오브젝트들 (32') 로서 증강 현실 오디오 렌더링 유닛 (28C) 에 전달할 수도 있다. 증강 현실 오디오 렌더링 유닛 (28C) 은, 비디오 오브젝트들 (32') 을 수신하는 것에 응답하여, 비디오 오브젝트들 (32') 의 (가능한 경우) 각각과 연관될 참조 오디오 오브젝트를 오디오 라이브러리로부터 취출할 수도 있다. 증강 현실 오디오 렌더링 유닛 (28C) 은 그 후에 다중 채널 오디오 데이터 (40) 의 적어도 일부분을 생성하기 위해 (오디오 오브젝트들 (34"') 로 지칭될 수도 있는) 참조 오디오 오브젝트들 각각을 렌더링할 수도 있다. 증강 현실 오디오 렌더링 유닛 (28C) 은 다중 채널 오디오 데이터 (40) 의 상기 부분을 오디오 데이터 (38C) 로서 오디오 믹싱 유닛 (30) 에 전달한다.

오디오 믹싱 유닛 (30) 은 오디오 데이터 (38) 를 수신하고, 이 오디오 데이터 (38) 를 믹싱하여 다중 채널 오디오 데이터 (40) 를 형성한다. 오디오 믹싱 유닛 (30) 은 이러한 오디오 데이터 (38) 를 임의의 형태의 다중 채널 오디오 데이터 (40) 를 생성하기 위해 전술된 방식으로 믹싱할 수도 있다. 이들 포맷들은 5.1 서라운드 사운드 포맷, 7.1 서라운드 사운드 포맷, 10.1 서라운드 사운드 포맷, 22.2 서라운드 사운드 포맷, 또는 임의의 다른 전매 특허 또는 비-전매 특허의 포맷을 포함할 수도 있다.

이러한 방식으로, 비디오 캡처 디바이스 (10) 의 제어 유닛 (12) 은 하나 이상의 오디오 오브젝트들을 식별하기 위해 오디오 데이터를 분석하고, 하나 이상의 비디오 오브젝트들을 식별하기 위해 오디오 데이터의 캡처와 동시에 그 디바이스로 캡처된 비디오 데이터를 분석하도록 구성될 수도 있다. 제어 유닛 (12) 은 추가로, 오디오 오브젝트들 (34) 중 하나를 비디오 오브젝트들 (32) 중 하나와 연관시키고, 오디오 오브젝트들 (34) 중 하나의 비디오 오브젝트들 (32) 중 하나와의 연관에 기초하여 오디오 데이터 (20) 로부터 다중 채널 오디오 데이터 (40) 를 생성하도록 구성될 수도 있다.

비디오 장면 분석이 오디오 오브젝트들 단독과 비교하여 비디오 캡처 디바이스 (10) 에 관련된 비디오 오브젝트들의 위치를 더 근접하게 식별할 수도 있는 것을 고려하면, 비디오 캡처 디바이스 (10) 는 종종 부정확한 빔형성 기술들에만 의존하는 것과 비교하여 오디오 오브젝트들을 더 양호하게 로컬화할 수도 있다. 그 후에, 이들 오디오 오브젝트들은 오디오 오브젝트들을 전방 채널들 중 하나로 더 양호하게 로컬화하는 데시벨 차이들을 사용하여 하나 이상의 채널들에서 렌더링될 수도 있으며, 따라서 종래의 비디오 캡처 디바이스들에 의해 생성된 것과 비교하여 서라운드 사운드 또는 다중 채널 오디오 데이터의 더 양호한 생성이 가능하다.

또한, 비디오 캡처 디바이스는 일부 예들에서, 오디오 오브젝트들 (32) 을 별개의 오디오 소스들로서 전경에 (청취자의 정면에서 180도) 렌더링할 수도 있다. 비디오 캡처 디바이스 (10) 가 "듣지" 만 "보지" 않는 오디오 오브젝트들 (32) 에 대하여, 비디오 캡처 디바이스 (10) 는 이들 오디오 오브젝트들 (32) 이 청취자 뒤에 있는 가능성이 많기 때문에, 이들 오디오 오브젝트들 (32) 을 배경에 렌더링할 수도 있다.

비디오 캡처 디바이스 (10) 에 의해 수행되고 있는 것으로 전술되었지만, 기술들은 비디오 데이터 (18) 와 오디오 데이터 (20) 를 캡처한 디바이스와 상이한 디바이스에 의해 구현될 수도 있다. 다시 말해서, 스마트폰 또는 다른 비디오 캡처 디바이스는 비디오 데이터와 오디오 데이터를 캡처할 수도 있고, 이들 비디오 데이터 및 오디오 데이터를 상이한 디바이스, 예컨대 전용 프로세싱 서버, 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿 또는 슬레이트 컴퓨터, 또는 데이터를 프로세싱할 수 있는 임의의 다른 타입의 디바이스에 업로딩할 수도 있다. 그 후에, 이러한 다른 디바이스는 더 정확한 서라운드 사운드 또는 다중 채널 오디오 데이터로 고려될 수도 있는 것의 생성을 용이하게 하기 위해 본 개시물에 설명된 기술들을 수행할 수도 있다. 따라서, 비디오 및 오디오 데이터를 캡처한 디바이스에 의해 수행되고 있는 것으로 설명되지만, 기술들은 비디오 및 오디오 데이터를 캡처한 디바이스와 상이한 디바이스에 의해 수행될 수도 있고, 이러한 점에서 본 개시물에 설명된 예들에 제한되지 않아야 한다.

도 2a 내지 도 2d 는 본 개시물에서 설명된 기술들에 따라 비디오 오브젝트들 (32) 을 오디오 오브젝트들 (34) 과 연관시킬 때 도 1 의 비디오 캡처 디바이스 (10) 에 의해 수행되는 동작들을 예시하는 다이어그램들이다. 앞서 도 2a 에서, (도 2a 의 예에서 "오디오 오브젝트 (34A)" 로 표시된) 오디오 오브젝트들 (34) 중 하나와 (도 2a 의 예에서 "비디오 오브젝트 (32A)" 로 표시된) 비디오 오브젝트 (34) 중 하나는 개별 오디오 메타데이터 (54A) 및 비디오 메타데이터 (52A) 를 포함한다. 비디오 캡처 디바이스 (10) 의 오브젝트 연관 유닛 (26) 은 오디오 오브젝트 (34A) 를 비디오 오브젝트 (32A) 와 연관시키고, 비디오 메타데이터 (52A) 를 사용하여 오디오 메타데이터 (54A) 를 증강시켜 증강된 메타데이터 (56A) 를 갖는 (도 1b 의 예에 도시된 오디오 오브젝트들 (34) 중 하나인) 증강된 오디오 오브젝트 (34A') 를 생성할 수도 있다. 이러한 증강된 메타데이터 (56A) 는 양자의 오디오 메타데이터 (54A) 및 비디오 메타데이터 (52A) 를 포함할 수도 있고, 일부 예시들에서 비디오 메타데이터 (52A) 는 오디오 메타데이터 (54A) 의 일부 또는 전부를 대체할 수도 있다. 일부 예시들에서, 오브젝트 연관 유닛 (26) 은 오디오 메타데이터 (54A) 와 비디오 메타데이터 (52A) 가 높은 상관을 갖는다는 것을 결정할 수도 있다.

다른 예시들에서, 오브젝트 연관 유닛 (26) 은 오디오 메타데이터 (54A) 와 비디오 메타데이터 (52A) 가 낮은 상관을 갖는다는 것을 결정할 수도 있다. 이러한 예시에서, 오브젝트 연관 유닛 (26) 은 증강된 메타데이터 (56A) 를 생성할 때, 비디오 메타데이터 (52A) 를 오디오 메타데이터 (52A) 보다 선호하기 위해 비디오 메타데이터 (52A) 를 가중할 수도 있다. 이러한 오디오 오브젝트 (34A') 를 렌더링하고 믹싱하여 다중 채널 오디오 데이터 (40) 를 생성할 때, 지원형 오디오 렌더링 유닛 (28A) 은 오디오 메타데이터 (54A) 와 비디오 메타데이터 (52A) 간의 상관의 결핍으로 인해, 이러한 오디오 오브젝트 (34A') 를 더 많은 채널들에 걸쳐 더 분산된, 확산하는 오디오 오브젝트 (34A') 로서 전경에 렌더링할 수도 있다. 비디오 캡처 디바이스 (10) 는 사운드 역상관 (decorrelation) 과 같은 다양한 분산 알고리즘들을 이들 오브젝트들에 수행하여 오브젝트들을 분산시킬 수도 있다.

도 2b 의 예에서, 청각 분석 유닛 (24) 은 (도 2b 의 예에서 오디오 오브젝트 (34B) 로 표시된) 오디오 오브젝트들 (34) 중 다른 하나를 식별하지만, 오디오 오브젝트 (34B) 에 대한 어떤 메타데이터도 식별할 수 없다. 이러한 예는 다수의 마이크로폰들이 비디오 캡처 디바이스 (10) 에서 사용가능하지 않고, 그 결과 비디오 캡처 디바이스 (10) 가 오디오 메타데이터를 결정할 수 없는 예시를 반영한다. 결과적으로, 오브젝트 연관 유닛 (26) 은 상기 오디오 오브젝트를 렌더링하여 (오디오 오브젝트들 (34') 중 하나를 지칭하는) 오디오 오브젝트 (34B') 를 생성할 때, 오디오 메타데이터 대신 연관된 비디오 오브젝트 (32B) 의 비디오 메타데이터 (52B) 를 활용할 수도 있다. 도 2b 의 예에 도시된 것과 같이, 오디오 오브젝트 (34B') 는 비디오 메타데이터 (52B) 를 포함한다.

도 2c 의 예에서, 청각 분석 유닛 (24) 은 오디오 오브젝트들 (34) 중 하나 ("오디오 오브젝트 (34C)" 로 표시됨) 를 식별하고, 이 오디오 오브젝트에 대한 오디오 메타데이터 (54C) 를 결정하지만, 이 오디오 오브젝트 (34C) 가 대응하는 비디오 오브젝트들 (32) 중 어느 것도 식별할 수 없다. 상기 오디오 오브젝트 (34C) 에 대하여 어떤 비디오 오브젝트도 식별되지 않기 때문에, 오브젝트 연관 유닛 (26) 은 오디오 오브젝트 (34C) 가 비디오 캡처 디바이스 뒤에 위치되는 것을 결정할 수도 있다. 오브젝트 연관 유닛 (26) 은 이러한 결정에 기초하여, 오디오 오브젝트 (34C) 를 비-지원형 렌더링 유닛 (28B) 에 오디오 오브젝트 (34") 중 하나 (즉, 도 2c 의 예에서 오디오 오브젝트 (34C")) 로서 전달하며, 그 후에 이 오디오 오브젝트를 다중 채널 오디오 데이터 (40) 의 배경 채널들에서 렌더링할 수도 있다. 이러한 오디오 오브젝트 (34C") 를 렌더링할 때, 비-지원형 오디오 렌더링 유닛 (28B) 은 오디오 메타데이터 (54C) 에서 예측된 위치에 기초하여 또는 배경 채널들에 걸쳐 매우 분산되게 오디오 오브젝트 (34C") 를 렌더링할 수도 있다. 즉, 비디오 캡처 디바이스 (10) 는 오디오 메타데이터에 기초하여 실제 위치를 추정하거나 (앞서 식별된 사운드 분산 프로세스들을 사용하여) 오브젝트를 매우 분산되게 렌더링할 수도 있고, 따라서 특정 지각 각도 (perceptual angle) 없이 공간적으로 구름형 형상을 갖는다.

도 2d 의 예에서, 오브젝트 연관 유닛 (26) 은 비디오 메타데이터 (52D) 를 포함하는 비디오 오브젝트들 (32) 중 하나 (도 2d 의 예에서 "비디오 오브젝트 (32D)" 로 표시됨) 를 수신하지만, 비디오 오브젝트 (32D) 를 오디오 오브젝트들 (34) 임의의 하나와 연관시킬 수 없다. 결과적으로, 오브젝트 연관 유닛 (26) 은 비디오 오브젝트 (32D) 를 비디오 오브젝트들 (32') 중 하나 (즉, 도 2d 의 예에서 비디오 오브젝트 (32D')) 로서 증강 현실 오디오 렌더링 유닛 (28C) 에 전달한다. 비디오 오브젝트 (32D) 는 비디오 메타데이터 (52D) 를 포함한다. 증강 현실 오디오 렌더링 유닛 (28C) 은 비디오 메타데이터 (52D) 를 활용하여 참조 오디오 오브젝트들 (34"') 의 라이브러리에 액세스하고, 비디오 오브젝트 (32D') 와 연관된 참조 오디오 오브젝트 (34"') 중 하나 (예컨대, 오브젝트 (32D') 의 타입을 식별할 때 비디오 메타데이터 (52D) 에 명시된 타입과 매칭하는 참조 오디오 오브젝트 (34"')) 를 취출한다. 증강 현실 오디오 렌더링 유닛 (28C) 은 그 후에, 오디오 오브젝트 (34"') 의 렌더링을 리파이닝하거나 공간화하기 위해 비디오 메타데이터 (52D) 를 사용하여 상기 참조 오디오 오브젝트 (34"') 를 렌더링할 수도 있다.

이러한 방식으로, 비디오 캡처 디바이스 (10) 는, 오디오 오브젝트를 일부 비디오 오브젝트 또는 그 부분으로부터 생성되는 것으로 로컬화하는 것을 시도하여, 오디오 오브젝트에 의해 명시된 메타데이터의 연관된 비디오 오브젝트에 의해 명시된 메타데이터와의 상관이 기초하여 오디오 오브젝트들을 렌더링할 수도 있다. 비디오 장면 분석이 종종 청각 장면 분석보다 훨씬 더 정확한 것을 고려하여, 비디오 캡처 디바이스 (10) 는 (도 2a 와 같은) 일부 예들에서, (가중치들을 사용하여) 오디오 오브젝트 메타데이터보다 비디오 오브젝트 메타데이터를 선호할 수도 있다. 비디오 캡처 디바이스는 일부 예시들에서, (도 2b 의 예에 도시된 것과 같이) 메타데이터를 가지지 않거나 매우 불확실한 메타데이터를 가지는 오디오 오브젝트들을 생성하고, 여기서 비디오 캡처 디바이스는 오디오 오브젝트를 렌더링할 때 사용하기 위해, 메타데이터로서 사용할 "매칭하는" 비디오 오브젝트 메타데이터를 가져올 수도 있다.

예시를 위해, 증강된 메타데이터 (56A) 는 양자의 오디오 메타데이터 (54A) 및 비디오 메타데이터 (52A) 를 포함할 수도 있고, 일부 예시들에서 비디오 메타데이터 (52A) 는 오디오 메타데이터 (54A) 를 대체할 수도 있다. 일부 예시들에서, 비디오-캡처 디바이스 (10) 는 오디오 메타데이터 (54A) 와 비디오 메타데이터 (52A) 가 높은 상관을 갖는다는 것을 결정할 수도 있다. 다시 말해서, 비디오 캡처 디바이스 (10) 는, 오디오 메타데이터 (54A) 에 명시된 사운드를 방출한 오브젝트의 위치가 비디오 메타데이터 (52A) 에 의해 정의된 대응하는 오브젝트의 위치와 (예컨대, 종종 퍼센티지로 표현되는 일부 신뢰도 임계치에 의해 정의될 수도 있는) 높은 정도로 상관하는 것을 결정할 수도 있다. 그 후에, 비디오 캡처 디바이스 (10) 는 높은 신뢰도를 갖는 다중 채널 오디오 데이터 (40) 를 생성하기 위해 오디오 오브젝트를 렌더링 및 믹싱할 수도 있다.

다른 예시들에서, 비디오-캡처 디바이스 (10) 는 오디오 메타데이터 (54A) 와 비디오 메타데이터 (52A) 가 낮은 상관을 갖는다는 것을 결정할 수도 있다. 이러한 예시에서, 오디오 캡처 디바이스 (10) 는 증강된 메타데이터 (56A) 를 생성할 때, 비디오 메타데이터 (52A) 를 오디오 메타데이터 (54A) 보다 선호하기 위해 비디오 메타데이터 (52A) 를 가중할 수도 있다. 오디오 오브젝트 (34A') 를 렌더링하고 믹싱하여 다중 채널 오디오 데이터 (40) 를 생성할 때, 비디오 캡처 디바이스 (10) 는 오디오 메타데이터 (54A) 와 메타데이터 (52A) 간의 상관의 결핍으로 인해, 오디오 오브젝트 (34A') 를 더 많은 채널들에 걸쳐 더 분산된, 확산하는 오디오 오브젝트 (34A') 로서 전경에 렌더링할 수도 있다.

도 3 은 도 1b 의 지원형 오디오 렌더링 유닛 (28A) 을 더 상세히 예시하는 블록 다이어그램이다. 도 3 의 예에서, 지원형 오디오 렌더링 유닛 (28A) 은 다수의 공간 오디오 렌더링 유닛들 (60A - 60N) ("공간 오디오 렌더링 유닛들 (60)") 을 포함한다. 다수의 공간 오디오 렌더링 유닛들 (60) 이 도 3 의 예에 도시되지만, 지원형 오디오 렌더링 유닛 (28) 은 일부 예시들에서, 오직 다수의 오브젝트들을 병렬로 프로세싱할 수 있는 단일 공간 오디오 렌더링 유닛 (60) 만을 포함할 수도 있다. 대안적으로, 지원형 오디오 렌더링 유닛 (28) 은 오직 단일 오디오 오브젝트만을 프로세싱할 수 있는 단일 공간 오디오 렌더링 유닛 (60) 을 포함할 수도 있다. 그러므로, 기술들은 이러한 점에서 도 3 의 예에 제한되지 않아야만 한다.

도 3 의 예에서, 공간 오디오 렌더링 유닛들 (60) 의 각각은 오디오 오브젝트들 (34A' - 34N'; 도 1b 의 예에 도시된 "오디오 오브젝트들 (34')") 에 대하여 공간 오디오 렌더링을 수행하여 오디오 오브젝트들 (38A) 을 생성하는 공간 오디오 렌더링 프로세스를 나타낼 수도 있다. 공간 오디오 렌더링은 오디오 데이터를 렌더링하기 위한 다양한 알고리즘들 또는 프로세스들을 지칭할 수도 있고, 몇가지 예들로서 앰비소닉스 (ambisonics), WFS (wave field synthesis) 및 VBAP (vector-based amplitude panning) 를 포함할 수도 있다. 공간 오디오 렌더링 유닛들 (60) 은 증강된 메타데이터 (56A - 56N) ("증강된 메타데이터 (56)") 에 기초하여 오디오 오브젝트들 (34') 중 개별 오디오 오브젝트들 (34') 을 프로세싱할 수도 있다. 즉, 공간 오디오 렌더링 유닛들 (60) 은 오디오 오브젝트들 (34') 중 대응하는 오디오 오브젝트 (34') 를 추가로 리파이닝하거나 더 정확히 로케이팅하기 위해 증강된 메타데이터 (56) 를 사용하여 오디오 오브젝트들 (34') 을 렌더링하며, 따라서 오디오 오브젝트들 (34') 중 상기 오디오 오브젝트 (34') 는 다중 채널 오디오 데이터 (40) 가 플레이될 경우 더 정확히 재생될 수 있다. 공간 오디오 렌더링 유닛들 (60) 은 렌더링된 오디오 데이터 (38A) 를 오디오 믹싱 유닛 (30) 에 출력할 수도 있고, 그 후에 렌더링된 오디오 데이터 (38A) 를 믹싱하여 다중 채널 오디오 데이터 (40) 를 생성할 수도 있다. 일부 예시들에서, 소정의 오디오 오브젝트 (34') 에 대응하는 오디오 데이터 (38A) 는 다중 채널 오디오 데이터 (40) 의 2 이상의 채널들에 걸쳐 믹싱될 수도 있다.

도 3 의 예에서 지원형 오디오 렌더링 유닛 (28A) 에 대하여 설명되지만, 렌더링 유닛들 (28) 의 각각은 공간 오디오 렌더링 유닛들 (60) 과 유사한 공간 오디오 렌더링 유닛들을 포함할 수도 있고, 유사하게 (다시 말해서, 참조 오디오 라이브러리로부터 취출된 참조 오디오 오브젝트들 (34"') 을 지칭하고 비디오 오브젝트들 (32') 과 연관되는) 오디오 오브젝트들 (34" 및 34"') 을 프로세싱하여 오디오 데이터 (38B 및 38C) 을 생성할 수도 있다. 또한, 렌더링 유닛 (28C) 을 포함하는 것으로 설명되지만, 비디오 캡처 디바이스 (10) 는 렌더링 유닛 (28C) 을 포함하지 않을 수도 있고, 여기서 비디오 캡처 디바이스 (10) 는 본 개시물에 설명된 기술들의 증강 현실 오디오 렌더링 양태들을 수행하지 않을 수도 있다.

도 4 는 도 1b 의 예에 도시되고 본 개시물에서 설명된 기술들에 따라 프로세싱되는 비디오 캡처 디바이스 (10) 의 카메라 (14) 에 의해 캡처되는 장면 (70) 을 예시하는 다이어그램이다. 장면 (70) 은 도 1b 의 예에 도시된 비디오 데이터 (18) 의 일부분을 나타낼 수도 있다. 비디오 캡처 디바이스 (10) 는 장면 (70) 을 수신하는 것에 응답하여, 장면 (70) 을 프로세싱하여 비디오 오브젝트들 (32) 을 식별하는 시각 분석 유닛 (22) 을 인보크할 수도 있다.

도 4 에 도시된 것과 같이, 장면 (70) 은 예컨대, 프레임들의 시간 시퀀스에서 제 1 프레임 또는 이미지 (72A), 제 2 프레임 또는 이미지 (72B) 및 제 3 프레임 또는 이미지 (72C) 를 포함한다. 예시의 목적들의 용이함을 위해 오직 3 개의 프레임들 또는 이미지들 (72A - 72C) ("이미지들 (72)") 을 포함하는 것으로 도시되지만, 장면 (70) 은 다수의 이미지들 (72) 또는 단일 이미지 (72) 를 포함할 수도 있으며, 기술들은 이러한 점에서 도 4 에 도시된 예로 제한되지 않아야 한다.

임의의 경우에, 시각 분석 유닛 (22) 은 비디오 오브젝트들 (32A - 32G) 을 식별하기 위해 컴퓨터 비전 알고리즘들을 사용하여 이미지들 (72A) 을 프로세싱할 수도 있다. 시각 분석 유닛 (22) 은 비디오 메타데이터 (52A - 52G) 를 포함하거나 그와 연관될 비디오 오브젝트들 (32A - 32G) 을 생성할 수도 있다. 비디오 메타데이터 (52A - 52G) 는 장면 (70) 을 캡처한 카메라 (14) 에 대한 비디오 오브젝트들 (32A - 32G) 의 대응하는 위치를 정의할 수도 있다. 비디오 메타데이터 (52A - 52G) 는 또한 일반적으로, 하나 이상의 외부의 및 가능하면 원격의 네트워크 서버들과 결합하여 시각 분석 유닛 (22) 내에서 또는 시각 분석 유닛 (22) 에 의해 전체적으로 지지될 수도 있는, 머신-비전 기반 오브젝트 인식에 기초하여, 비디오 오브젝트들 (32) 중 대응하는 비디오 오브젝트 (32) 의 타입을 식별할 수도 있다. 예를 들어, 비디오 오브젝트 (32A) 와 연관된 비디오 메타데이터 (52A) 는 비디오 오브젝트 (32A) 를 자동차로 식별할 수도 있다. 비디오 메타데이터 (52B - 32F) 는 다른 예로서, 비디오 오브젝트들 (32B - 32F) 중 대응하는 하나의 타입을 사람으로 식별할 수도 있다. 비디오 메타데이터 (52G) 는 또 다른 예로서, 대응하는 비디오 오브젝트 (32G) 의 타입을 스테레오로 식별할 수도 있다.

시각 분석 유닛 (22) 은 이미지들 (72) 중 하나 이상을 분석하는 것과 동시에, 비디오 오브젝트들 (32A - 32G) 이 장면 (70) 동안 이동하는 방식을 설명하는 움직임, 속도 또는 다른 로케이션 관련 메트릭들을 표현하기 위해 시각 메타데이터 (52A - 52G) 의 형태로 위치 정보를 생성할 수도 있다. 예시를 위해, 이미지 (72A) 로부터 이미지 (72C) 로의 비디오 오브젝트 (32A) 를 고려하며, 여기서 비디오 오브젝트 (32A) 는 거의 수평 라인을 따라 제 1 위치로부터 제 2 위치로, 그 후에 제 3 위치로 이동한다. 시각 분석 유닛 (22) 은 오브젝트 (32A) 를 식별할 수도 있고, 비디오 메타데이터 (52) 를 생성하여 이미지 (72A) 로부터 이미지 (72B) 및 그 후에 이미지 (72C) 로, 비디오 오브젝트 (32A) 가 제 1 위치로부터 제 2 위치 및 그 후에 제 3 위치로 이동하는 것을 표시한다. 이러한 비디오 메타데이터 (52A) 는, 오디오 오브젝트들 (34) 중 대응하는 오디오 오브젝트 (예컨대, 오디오 오브젝트 (34A)) 와 연관될 때, 오브젝트 연관 유닛 (26) 이 (시각 장면 분석이 일반적으로 청각 장면 분석보다 더 정확한 것을 고려하여) 더 정확하게 오디오 오브젝트 (34A) 로서 식별된 오디오 데이터를 방출하는 오브젝트의 위치를 명시하도록 오디오 메타데이터 (54A) 를 증강시키는 것을 가능하게 한다. 그 후에, 오브젝트 연관 유닛 (26) 은 (예컨대, 도 2a 에 도시된 것과 같은) 증강된 메타데이터 (56A) 를 갖는 오디오 오브젝트 (34') 를 생성할 수도 있다.

다른 예로서, 비디오 오브젝트 (32G) 가 장면 (70) 내에서 이동하는 것을 고려한다. 초기에, 이미지 (72A) 는 비디오 오브젝트 (32G) 를 제 1 위치에 도시한다. 이미지 (72B) 는 비디오 오브젝트 (32G) 를 제 2 위치에 도시한다. 이미지 (72C) 는 비디오 오브젝트 (32G) 가 장면에 남아있고, 배경에 있거나 카메라 (14) 에 의해 캡처되는 중인 장면 (70) 의 좌측 또는 우측으로 갈 예정임을 제안할 때, 비디오 오브젝트 (32G) 를 포함하지 않는다. 오브젝트 연관 유닛 (26) 은 그 후에, 비디오 오브젝트 (32G) 의 위치를 장면 (70) 을 통해 이동하는 것으로 명시하는 비디오 메타데이터 (52G) 를 포함하도록 비디오 오브젝트 (32G) 를 생성할 수도 있다. 오브젝트 연관 유닛 (26) 은 비디오 오브젝트 (32G) 를 오디오 오브젝트들 (34) 중 동일한 타입, 즉 이 예에서 스테레오를 명시하는 메타데이터를 갖는 오디오 오브젝트와 연관시킬 수도 있다. 그러나, 비디오 오브젝트 (32G) 가 장면을 떠나는 것을 고려할 때, 오브젝트 연관 유닛 (26) 은 비디오 메타데이터 (52G) 에 의해 명시된 위치 정보를 대체하거나 활용하는 것이 아니라, 오디오 오브젝트들 (34) 중 하나와 연관된 오디오 메타데이터 (54) 에 의해 명시된 위치 정보를 유지할 수도 있다.

오브젝트 연관 유닛 (26) 은 오디오 오브젝트들 (34) 중 연관된 하나, 예컨대 오디오 오브젝트 (34G) 를 이미지들 (72A, 72B) 에 대한 플레이백을 위해 렌더링할 경우, 비디오 메타데이터 (52G) 에 의해 명시된 위치를 활용할 수도 있다. 그러나, 비디오 메타데이터 (52G) 는 이 시기에 위치에 대한 고 신뢰도 레벨을 명시하는 것이 아니라, 이미지 (72C) 에 대응하는 시기에 위치 정보에 대하여 낮은 신뢰도부터 0 의 신뢰도까지 명시할 수도 있다. 결과적으로, 오브젝트 연관 유닛 (26) 은 이미지 (72C) 가 제시되는 시간에 플레이백을 위해 연관된 오디오 오브젝트 (34G) 를 렌더링할 경우에, 비디오 메타데이터 (52G) 에 의해 명시된 위치 정보를 대체하거나 활용하지 않을 수도 있다. 대신, 오브젝트 연관 유닛 (26) 은 이미지 (72C) 가 제시될 시간 동안 오디오 오브젝트 (34G) 를 렌더링할 경우에, 오디오 오브젝트 (34G) 에 의해 명시된 위치 정보를 활용할 수도 있다.

전술된 것과 같이, 오브젝트 연관 유닛 (26) 은 예컨대, 이미지 (72C) 의 예에서 오디오 오브젝트 (34G) 에 대응하는 비디오 오브젝트 (32G) 를 식별할 수 없을 수도 있다. 즉, 비디오 오브젝트 (32G) 는 이미지 (72C) 에 도시된 것과 같이, 장면 (70) 을 떠날 수도 있지만, 스테레오로부터 플레이하는 음악은 여전히 오디오 오브젝트 (34G) 로서 캡처되고 식별될 수도 있다. 이러한 예시에서, 오브젝트 연관 유닛 (26) 은 도 2c 에 대하여 전술된 동작들을 수행할 수도 있다. 즉, 오브젝트 연관 유닛 (26) 은 비디오 오브젝트와 연관된 오디오 오브젝트의 현재 분류로부터의 오디오 오브젝트 (34G) 를, 도 2c 에 대하여 전술된 방식으로 오디오 오브젝트 (34G) 를 프로세싱하여 비디오 오브젝트들 (32) 중 임의의 하나와 연관되지 않은 오디오 오브젝트 (34G) 로 재분류할 수도 있다. 오브젝트 연관 유닛 (26) 은 오디오 오브젝트 (34G") 를 생성하고, 이러한 오디오 오브젝트 (34G") 를 비-지원형 오디오 렌더링 유닛 (28B) 에 전달할 수도 있다. 이와 관련하여, 오디오 오브젝트 (34G) 는 도 2a 에 대하여 전술된 방식으로 프로세싱되는 것으로부터 도 2c 에 대하여 전술된 방식으로 프로세싱되는 것으로 천이할 수도 있다.

이러한 방식으로, 비디오 캡처 디바이스 (10) 는 본 개시물에 설명된 기술들을 동적으로 수행하여 더 정확한 다중 채널 오디오 데이터 (40) 를 잠재적으로 생성할 수도 있다. 이를 위해, 비디오 캡처 디바이스 (10) 는 이들 오디오 오브젝트들 (34) 및 비디오 오브젝트들 (32) 을 전술된 3 개의 클래스들 중 다양한 클래스들 사이에서 천이하여 오디오 오브젝트들 (34) 을 적응적으로 분류할 수도 있다. 일부 예시들에서, 비디오 캡처 디바이스 (10) 는 오디오 오브젝트들 (34) 및 비디오 오브젝트들 (32) 을 프로세싱하는 것을 도 2a 내지 도 2d 에 대하여 전술된 방식들 중 하나로부터 도 2a 내지 도 2d 에 대하여 전술된 방식들 중 다른 하나로 천이하여 오디오 오브젝트들 (34) 및 비디오 오브젝트들 (32) 을 적응적으로 분류할 수도 있다.

도 5 는 도 1b 의 예에 도시되고 본 개시물에서 설명된 기술들의 증강 현실 양태들에 따라 프로세싱되는 비디오 캡처 디바이스 (10) 의 카메라 (14) 에 의해 캡처되는 다른 장면 (80) 을 예시하는 다이어그램이다. 도 5 의 예에서, 장면 (80) 은 도 1b 의 예에 도시된 비디오 데이터 (18) 의 일부분을 나타낼 수도 있다. 비디오 캡처 디바이스 (10) 는 장면 (80) 을 수신하는 것에 응답하여, 장면 (80) 을 프로세싱하여 비디오 오브젝트들 (32I 및 32H) 을 식별하는 시각 분석 유닛 (22) 을 인보크할 수도 있다. 장면 (80) 은 이미지 (82) 를 포함한다. 예시 목적들의 용이함을 위해 오직 단일 이미지, 즉 이미지 (82) 를 포함하는 것으로 도시되지만, 장면 (80) 은 추가의 이미지들을 포함할 수도 있고, 그 기술들은 이러한 점에서 도 5 에 도시된 예에 제한되지 않아야 한다.

임의의 경우에, 시각 분석 유닛 (22) 은 각각 비디오 메타데이터 (52I 및 52H) 를 포함하도록 비디오 오브젝트들 (32I 및 32H) 을 식별하고 생성할 수도 있다. 시각 분석 유닛 (22) 은 시각 오브젝트들 (32I 및 32H) 을 오디오 오브젝트들 (34) 중 하나에 연관시키는 것을 시도할 수도 있는 오브젝트 연관 유닛 (26) 에 시각 오브젝트들 (32I 및 32H) 을 전달할 수도 있다. 오브젝트 연관 유닛 (26) 은 예를 들어, 시각 오브젝트 (32I) 를 오디오 오브젝트들 (34) 중 하나, 예컨대 오디오 오브젝트 (34I) 에 연관시키는 것으로 가정된다. 오브젝트 연관 유닛 (26) 은 그 후에, 도 2a 의 예에 대해 전술된 것과 유사한 방식으로, 연관된 비디오 오브젝트 (32I) 를 고려하여 오디오 오브젝트 (34I) 를 프로세싱할 수도 있다. 오브젝트 연관 유닛 (26) 은 그 후에, 증강된 메타데이터 (56I) 를 갖는 오디오 오브젝트 (34I') 를 생성할 수도 있다.

비디오 오브젝트 (32I) 로 식별된 사람에 부가하여, 장면 (80) 은 시각 분석 유닛 (22) 이 비디오 오브젝트 (32H) 로서 식별한 해변을 포함하며, 여기서 예시의 목적을 위해 파도의 사운드는 마이크로폰들 (16) 에 의해 캡처되지 않는 것으로 가정된다. 즉, 비디오 캡처 디바이스 (10) 는 모래에 충돌하는 파도의 사운드가 그 거리, 말하는 사람, 바람의 잡음 또는 일부 다른 간섭으로 인해 청취 불가능하도록, 해변으로부터 충분히 떨어져 있는 것으로 가정된다. 오브젝트 연관 유닛 (26) 은 결과적으로, 비디오 오브젝트 (32H), 즉 본 개시물의 예들에서 비디오 오브젝트들 (32) 중 오디오 오브젝트들 (34) 중 임의의 하나와 연관되지 않은 비디오 오브젝트들 (32) 을 제 3 클래스에 속하는 것으로 분류할 수도 있다. 결과적으로, 오브젝트 연관 유닛 (26) 은 도 2d 의 예에 대하여 전술된 방식으로 비디오 오브젝트 (32H) 를 프로세싱하여 비디오 오브젝트 (32H') 를 생성할 수도 있다. 그 후에, 오브젝트 연관 유닛 (26) 은 비디오 오브젝트 (32H') 를 증강 현실 오디오 렌더링 유닛 (28C) 으로 포워딩할 수도 있다.

오디오 렌더링 유닛 (28C) 은 비디오 오브젝트 (32H') 를 수신하고, 상기 예시에서 파도, 해변, 등의 타입일 수도 있는 동일한 타입으로 이루어진 참조 오디오 오브젝트들 (34"') 중 대응하는 참조 오디오 오브젝트 (34"') 를 취출할 수도 있다. 그 후에, 오디오 렌더링 유닛 (28C) 은 비디오 메타데이터 (52H) 에 기초하여 참조 오디오 오브젝트들 (34"') 중 상기 하나의 참조 오디오 오브젝트 (34"'), 예컨대 오디오 렌더링 오브젝트 (34"') 를 렌더링할 수도 있다. 증강 현실 오디오 렌더링 유닛 (28C) 은 이러한 렌더링된 오디오 데이터를 오디오 데이터 (38C) 로서 믹싱 유닛 (30) 에 전달할 수도 있고, 믹싱 유닛 (30) 은 전술된 방식으로 오디오 데이터 (38A - 38C) 를 믹싱하여 다중 채널 오디오 데이터 (40) 를 형성한다.

도 6 은 본 개시물에 설명된 기술들을 수행할 시, 도 1b 의 예에 도시된 비디오 캡처 디바이스 (10) 와 같은 비디오 캡처 디바이스의 예시적인 동작을 도시하는 플로우차트이다. 초기에, 비디오 캡처 디바이스 (10) 는 비디오 데이터 (18) 를 캡처하게 카메라 (14) 를 인보크 (invoke) 하도록 구성되면서, 또한 동시에 오디오 데이터 (20) 를 캡처하게 마이크로폰들 (16) 중 하나 이상 또는 종종 전부를 인보크하도록 구성될 수도 있다 (90, 92). 비디오 데이터 (18) 및 오디오 데이터 (20) 를 수신하는 것에 응답하여, 비디오 캡처 디바이스 (10) 의 제어 유닛 (12) 은 다중 채널 오디오 데이터 (40) 를 생성하기 위해 본 개시물에 설명된 기술들을 수행하도록 구성될 수도 있다.

비디오 데이터 (18) 의 수신시, 제어 유닛 (12) 은 하나 이상의 비디오 오브젝트들 (32) 을 식별하기 위해 비디오 데이터 (18) 에 대하여 시각 장면 분석을 수행할 수도 있는, 시각 분석 유닛 (22) 을 인보크하도록 구성될 수도 있다 (94). 오디오 데이터 (20) 의 수신시, 제어 유닛 (12) 은 오디오 오브젝트들 (34) 중 하나 이상을 식별하기 위해 오디오 데이터 (20) 에 대하여 청각 장면 분석을 수행할 수도 있는 청각 분석 유닛 (24) 을 인보크할 수도 있다 (96).

제어 유닛 (12) 은 비디오 오브젝트들 (32) 과 오디오 오브젝트들 (34) 을 수신하고, 오브젝트 연관 유닛 (26) 을 인보크할 수도 있다. 오브젝트 연관 유닛 (26) 은 오디오 오브젝트들 (34) 중 적어도 하나를 비디오 오브젝트들 (32) 중 적어도 하나와 연관시키는 것을 시도할 시, 오디오 오브젝트들 (34) 을 비디오 오브젝트들 (32) 과 비교할 수도 있다 (98). 전술된 것과 같이, 오브젝트 연관 유닛 (26) 은, 이러한 연관을 수행할 때, 통상적으로 (일부 예시들에서, 오디오 오브젝트의 타입을 정의할 수도 있는) 메타데이터에 기초하여, 오디오 오브젝트들 (34) 각각을 오디오 오브젝트의 타입으로서 분류할 수도 있다. 유사하게, 오브젝트 연관 유닛 (26) 은, 이러한 연관을 수행할 때, 통상적으로 (일부 예시들에서, 비디오 오브젝트의 타입을 또한 정의할 수도 있는) 대응하는 메타데이터에 기초하여, 비디오 오브젝트들 (32) 각각을 비디오 오브젝트의 타입으로 분류할 수도 있다. 예시적인 타입들은 자동차, 해변, 파도, 유수 (running water), 음악, 사람, 개, 고양이, 등을 포함할 수도 있다. 오브젝트 연관 유닛 (26) 은 그 후에, 오디오 오브젝트들 (34) 중 하나의 타입이 비디오 오브젝트들 (32) 중 하나와 동일한 타입인 것을 결정하고, 따라서 매칭을 결정할 수도 있다 (100). 오디오 오브젝트 (34) 중 하나의 타입이 비디오 오브젝트 (32) 중 하나의 타입과 동일하다 또는 다시 말해서, 매칭이 식별된다 ("예" (100)) 는 결정에 응답하여, 오브젝트 연관 유닛 (26) 은 오디오 오브젝트들 (34) 중 하나를 비디오 오브젝트들 (32) 중 매칭하는 하나와 연관시킬 수도 있다 (102).

오디오 오브젝트들 (34) 중 제 1 클래스에 속하는 것으로 결정된 오디오 오브젝트들 (34) 에 대하여, 오브젝트 연관 유닛 (26) 은 오디오 오브젝트들 (34) 중 하나의 오디오 메타데이터와 비디오 오브젝트들 (32) 중 연관된 비디오 오브젝트 (32) 의 비디오 메타데이터 간의 상관 레벨을 결정하여, 하나의 비디오 오브젝트 (32) 가 결정된 상관 레벨에 기초하여 연관되는 오디오 오브젝트들 (34) 중 하나에 대하여 결합된 메타데이터를 생성할 수도 있다. 일부 예에서, 오브젝트 연관 유닛 (26) 은 오디오 메타데이터 또는 그 부분, 유사하게 오디오 메타데이터에 의해 명시된 위치를, 대응하는 비디오 메타데이터 또는 그 부분으로 대체할 수도 있다. 이러한 방식으로, 오브젝트 연관 유닛 (26) 은 비디오 오브젝트들 (32) 중 연관된 비디오 오브젝트 (32) 에 기초하여 오디오 오브젝트 (34) 중 하나 이상을 업데이트하여, 업데이트되거나 증강된 오디오 오브젝트들 (34') 을 생성할 수도 있다 (104).

그 후에, 오브젝트 연관 유닛 (26) 은 이들 오디오 오브젝트들 (34') 을 지원형 오디오 렌더링 유닛 (28A) 에 전달할 수도 있다. 지원형 오디오 렌더링 유닛 (28A) 은 그 후에, 오디오 오브젝트들 (34') 중 하나에 대하여 생성된 결합된 메타데이터에 기초하여, 다중 채널 오디오 데이터 (40) 의 하나 이상의 전경 채널들에서 오디오 오브젝트들 (34') 중 하나를 렌더링할 수도 있다 (106). 지원형 오디오 렌더링 유닛 (28A) 은 다중 채널 오디오 데이터 (40) 의 상기 부분을 오디오 데이터 (38A) 로서 오디오 믹싱 유닛 (30) 에 전달한다.

오디오 오브젝트들 (34) 중 제 2 클래스에 속하는 것으로 결정된 오디오 오브젝트들 (34), 즉 본 개시물의 예들에서 오디오 오브젝트들 (34) 중 비디오 오브젝트들 (32) 중 임의의 하나에 대응하지 않는 것으로 결정된 오디오 오브젝트들 (34) (또는, 다시 말해서, 매칭이 존재하지 않는 "아니오" (100), "예" (108) 의 오디오 오브젝트) 에 대하여, 오브젝트 연관 유닛 (26) 은 이들 오디오 오브젝트들 (34) 을 오디오 오브젝트들 (34") 중 하나로서 비-지원형 오디오 렌더링 유닛 (28B) 에 전달할 수도 있다. 비-지원형 오디오 렌더링 유닛 (28B) 은, 오디오 오브젝트들 (34") 중 하나가 다중 채널 오디오 데이터 (40) 의 하나 이상의 배경 채널들에서 비롯하도록, 다중 채널 오디오 데이터 (40) 를 생성할 수도 있다. 비-지원형 오디오 렌더링 유닛 (28B) 은 매칭되지 않은 오디오 오브젝트들 (34") 을 배경에서 종종 분산된 사운드들로서 렌더링하도록 구성될 수도 있다 (110). 비-지원형 오디오 렌더링 유닛 (28B) 은 다중 채널 오디오 데이터 (40) 의 상기 부분을 오디오 데이터 (38B) 로서 오디오 믹싱 유닛 (30) 에 전달한다.

제 3 클래스, 즉 비디오 오브젝트들 (32) 이 도 1b 의 예에서 오디오 오브젝트들 (34) 중 임의의 하나와 연관되지 않는 클래스에 속하는 것으로 결정된 비디오 오브젝트들 (32) (또는 다시 말해서, 비디오 오브젝트들 (32) 중 오디오 오브젝트들 (34) 중 어느 것과도 매칭하지 않고 비디오 오브젝트들인, "아니오" (100), "아니오" (108) 비디오 오브젝트들 (32)) 에 대하여, 오브젝트 연관 유닛 (26) 은 이들 비디오 오브젝트들 (32) 을 비디오 오브젝트들 (32') 로서 증강 현실 오디오 렌더링 유닛 (28C) 에 전달할 수도 있다. 증강 현실 오디오 렌더링 유닛 (28C) 은, 비디오 오브젝트들 (32') 을 수신하는 것에 응답하여, 비디오 오브젝트들 (32') 의 (가능한 경우) 각각과 연관될 참조 오디오 오브젝트를 오디오 라이브러리로부터 취출하고, 그 후에 다중 채널 오디오 데이터 (40) 의 적어도 일부분을 생성하기 위해 (오디오 오브젝트들 (34"') 로 지칭될 수도 있는) 참조 오디오 오브젝트들 각각을 렌더링할 수도 있다 (112). 증강 현실 오디오 렌더링 유닛 (28C) 은 다중 채널 오디오 데이터 (40) 의 상기 부분을 오디오 데이터 (38C) 로서 오디오 믹싱 유닛 (30) 에 전달한다.

오디오 믹싱 유닛 (30) 은 오디오 데이터 (38) 를 수신하고, 다중 채널 오디오 데이터 (40) 를 형성하기 위해 이 오디오 데이터 (38) 를 믹싱한다 (114). 오디오 믹싱 유닛 (30) 은 이러한 오디오 데이터 (38) 를 임의의 형태의 다중 채널 오디오 데이터 (40) 를 생성하기 위해 전술된 방식으로 믹싱할 수도 있다. 이들 포맷들은 5.1 서라운드 사운드 포맷, 7.1 서라운드 사운드 포맷, 10.1 서라운드 사운드 포맷, 22.2 서라운드 사운드 포맷, 또는 임의의 다른 전매 특허 또는 비-전매 특허의 포맷을 포함할 수도 있다. 그 후에, 오디오 믹싱 유닛 (30) 은 이러한 다중 채널 오디오 데이터 (40) 를 출력할 수도 있다 (116).

다중 채널 오디오 데이터 (40) 를 생성하는 컨택스트에서 설명되지만, 비디오 캡처 디바이스 (10) 는 추가로 비디오 데이터를 인코딩할 수도 있다. 비디오 데이터를 인코딩할 때, 분산된 오디오 오브젝트들은 비디오 캡처 디바이스 (10) 가 더 적은 비트들을 사용하여 이들 오디오 오브젝트들을 인코딩하는 것을 가능하게 할 수도 있다. 즉, 후방 배경 또는 먼 거리에서의 오디오 오브젝트들은 고품질로 렌더링될 필요가 없을 수도 있는데, 이는 그 오디오 오브젝트들이 눈에 보여지지 않거나 포커싱된 근접-거리 공간에서의 오디오 오브젝트들보다 덜 중요하고, 다른 오디오 오브젝트들과 함께 제시될 경우 마스킹될 가능성이 크기 때문이다. 결과적으로 비디오 캡처 디바이스 (10) 는 플레이백 시스템을 위해 오디오 오브젝트들을 인코딩 및 송신할 경우, 이들 오디오 오브젝트들에 더 적은 비트들을 할당할 수도 있다.

또한, 오디오 데이터와 비디오 데이터의 캡처 이후에 (또는 이러한 형태의 프로세싱이 공통적으로 지칭되는 것과 같이 "오프-라인으로") 수행되거나 또는 실시간 또는 거의 실시간 시스템들에서 수행되지 않는 것으로 설명되지만, 그 기술들은 오디오 데이터와 비디오 데이터의 적어도 일부분의 캡처 동안 실시간 또는 거의 실시간 시스템들에서 구현될 수도 있다. 거의 실시간 또는 실시간 시스템들에 대한 비디오 장면 분석의 구현들이 존재하지만, 오디오 장면 분석은 통상적으로 비디오 장면 분석보다 복잡하지 않으며, 이는 오디오 장면 분석이 거의 실시간 또는 실시간 디바이스들에서 수행될 수 있는 것을 의미한다.

추가로, 오디오 및 시각 도메인들에 대하여 설명되지만, 기술들은 다른 도메인들에 대하여 수행될 수도 있다. 예를 들어, 터치, 모션, 컴퍼스 (compass), 고도, 온도 및 다른 센서 도메인들은 또한 3D 공간 특성에 대한 가능한 초점으로 미디어 렌더링 품질을 향상시키는 것으로 함께 고려될 수 있다. 따라서, 기술들은 이러한 점에서 본 개시물에 설명된 예들에 제한되지 않아야 한다.

도 7 은 본 개시물에서 설명된 기술들에 따라, 다양한 오디오 오브젝트들 (126A - 126K) 이 다중 채널 오디오 데이터의 전경 및 배경에서 렌더링될 수도 있는 방식을 예시하는 다이어그램이다. 도 7 의 다이어그램은 톱 다운 관점 뷰 또는 조감도 (birds eye view) 에서 일반적으로 "스위트 스폿" 으로 지칭되는 곳을 보는 뷰 (120) 를 명시한다. 스위트 스폿은 스피커들이 5.1 또는 더 높은 차수의 서라운드 사운드 플레이백을 위해 적절히 구성될 경우, 서라운드 사운드 경경험이 가장 최적인 방 안의 위치를 지칭한다.

도 7 의 예에서, 뷰 (120) 는 전경 부분 (122A) 과 배경 부분 (122B) 으로 표시되는 2 개의 부분들로 세분화된다. 원 내에서, 청취자 (124) 는 전경 부분 (122A) 을 배경 부분 (122B) 으로부터 분리하는 수평 액세스 상에서, 스위트 스폿의 중앙에 위치된다. 다중 채널 오디오 데이터 (40) 의 플레이백 동안, 청취자 (124) 는 뷰 (120) 에 제시된 것과 같은 사운드 필드에서 오디오 오브젝트들 (126A - 126K) 을 청취할 수도 있다. 즉, 오디오 오브젝트들 (126A - 126D) 은 청취자 (124) 의 관점에서, 더 떨어져 있는 전경에서 발신중인 것으로 보인다. 오디오 오브젝트들 (126A - 126D) 은 오브젝트 연관 유닛 (26) 에 의해 도 2b 에 대하여 전술된 방식으로 프로세싱될 수도 있고, 그 결과 지원형 오디오 렌더링 유닛 (28A) 은 임의의 오디오 메타데이터의 결핍으로 인해 이들을 더 분산된 오디오 오브젝트들로서 먼 전경에 렌더링한다.

오디오 오브젝트들 (126E - 126G) 은 청취자 (124) 의 관점에서, 더 가까운 전경에서 더 포커싱된 오브젝트들로서 생성중인 것으로 보일 수도 있다. 오디오 오브젝트들 (126E - 126G) 은 오브젝트 연관 유닛 (26) 에 의해 도 2a 에 대하여 전술된 방식으로 프로세싱될 수도 있고, 그 결과 지원형 오디오 렌더링 유닛 (28A) 은 높은 오디오 및 비디오 메타데이터 상관을 가지는 증강된 메타데이터를 제공하는 오브젝트 연관 유닛 (26) 의 능력으로 인해 더 포커싱된 전경에서 이들을 렌더링한다.

오디오 오브젝트들 (126A - 126G) 중 하나 이상은 증강 현실 오디오 렌더링 유닛 (28C) 에 대해 전술된 방식으로 참조 라이브러리로부터 취출된 참조 오디오 오브젝트들일 수도 있다. 이러한 점에서, 오브젝트 연관 유닛 (26) 은 비디오 오브젝트들 (32) 중 오디오 오브젝트들 (34) 중 임의의 하나와 매칭하지 않는 비디오 오브젝트들 (32) 들을 식별하고, 이들 비디오 오브젝트들 (32) 을 비디오 오브젝트들 (32') 로서 증강 현실 오디오 렌더링 유닛 (28C) 에 전달할 수도 있다. 증강 현실 오디오 렌더링 유닛 (28C) 은 그 후에, 비디오 오브젝트들 (32') 중 하나에 대응하거나 매칭하는 참조 오디오 오브젝트들 (34"') 중 하나를 취출하고, 참조 오디오 오브젝트들 (34"') 중 이러한 참조 오디오 오브젝트 (34"') 를 비디오 오브젝트들 (32') 중 연관된 비디오 오브젝트 (32') 의 오브젝트 내에 포함된 비디오 메타데이터에 기초하여 렌더링할 수도 있다.

오디오 오브젝트들 (126H - 126K) 은 청취자 (124) 의 관점에서, 배경에서 생성되는 것으로 보일 수도 있다. 오디오 오브젝트들 (126H - 126K) 은 오브젝트 연관 유닛 (26) 에 의해 도 2c 에 대하여 전술된 방식으로 프로세싱될 수도 있고, 그 결과 비-지원형 오디오 렌더링 유닛 (28B) 은 이들 오디오 오브젝트들 (34") 을 비디오 오브젝트들 (32) 중 임의의 하나와 연관시키는 것에 대한 오브젝트 연관 유닛 (26) 의 무능력으로 인해 이들을 배경에 렌더링한다. 즉, 청각 장면 분석은 통상적으로 시각 장면 분석과 비교하여 사운드의 근원을 위치시키는데 있어 정확하지 않기 때문에, 비-지원형 오디오 렌더링 유닛 (28B) 은 오디오 오브젝트들 (34") 의 소스를 정확히 위치시키지 못할 수도 있다. 비-지원형 오디오 렌더링 유닛 (28B) 은 오직 대응하는 오디오 메타데이터 (54) 에 최대로 기초하여 오디오 오브젝트들 (34") 을 렌더링할 수도 있고, 그 결과 오디오 렌더링 유닛 (28B) 은 이들 오디오 오브젝트들 (34") 을 더 분산된 오브젝트들로서 배경에 렌더링할 수도 있다.

이러한 방식으로, 기술들은 디바이스가 하나 이상의 오디오 오브젝트들을 식별하기 위해 디바이스로 캡처된 오디오 데이터를 분석하고 하나 이상의 비디오 오브젝트들을 식별하기 위해 오디오 데이터의 캡처와 동시에 디바이스로 캡처된 비디오 데이터를 분석하는 것을 가능하게 할 수도 있다. 그 디바이스는, 하나 이상의 오디오 오브젝트들 중 적어도 하나를 하나 이상의 비디오 오브젝트들 중 적어도 하나와 연관시키고, 하나 이상의 오디오 오브젝트들 중 적어도 하나의 하나 이상의 비디오 오브젝트들 중 적어도 하나와의 연관에 기초하여 오디오 데이터로부터 다중 채널 오디오 데이터를 생성할 수도 있다.

일부 예시들에서, 디바이스는 오디오 데이터를 분석할 때, 하나 이상의 오디오 오브젝트들과 하나 이상의 오디오 오브젝트들을 설명하는 오디오 메타데이터를 식별하기 위해 오디오 데이터의 청각 장면 분석을 수행하며, 여기서 오디오 메타데이터는 대응하는 오디오 오브젝트의 위치, 형상, 속도 및 위치 신뢰도 레벨 중 하나 이상을 포함한다. 디바이스는 비디오 데이터를 분석할 때, 하나 이상의 비디오 오브젝트들과 하나 이상의 비디오 오브젝트들을 설명하는 비디오 메타데이터를 식별하기 위해 비디오 데이터의 시각 장면 분석을 수행하며, 여기서 비디오 메타데이터는 대응하는 오디오 오브젝트의 위치, 형상, 속도 및 위치 신뢰도 레벨 중 하나 이상을 포함한다.

그 디바이스는, 일부 예시들에서, 하나 이상의 오디오 오브젝트들 중 적어도 하나를 하나 이상의 비디오 오브젝트들 중 적어도 하나와 연관시킬 때, 하나 이상의 오디오 오브젝트들의 각각을 일 타입의 오디오 오브젝트로서 분류하고, 하나 이상의 비디오 오브젝트들의 각각을 일 타입의 비디오 오브젝트로서 분류하고, 오디오 오브젝트들 중 적어도 하나의 타입이 비디오 오브젝트들 중 적어도 하나와 동일한 타입인 것을 결정하며, 하나 이상의 오디오 오브젝트 중 적어도 하나의 타입이 하나 이상의 비디오 오브젝트 중 적어도 하나의 타입과 동일하다는 결정에 응답하여, 하나 이상의 오디오 오브젝트들 중 적어도 하나를 하나 이상의 비디오 오브젝트들 중 적어도 하나와 연관시킨다.

일부 예시들에서, 그 디바이스는 다중 채널 오디오 데이터를 생성할 때, 하나 이상의 오디오 오브젝트들 중 적어도 하나의 오디오 메타데이터와 하나 이상의 오디오 오브젝트들 중 적어도 하나와 연관된 하나 이상의 비디오 오브젝트들 중 적어도 하나의 비디오 메타데이터 간의 상관 레벨을 결정하고, 결정된 상관 레벨에 기초하여 하나 이상의 비디오 오브젝트들 중 적어도 하나가 연관되는 하나 이상의 오디오 오브젝트들 중 적어도 하나에 대하여 결합된 메타데이터를 생성하며, 하나 이상의 오디오 오브젝트들 중 적어도 하나에 대하여 생성된 결합된 메타데이터에 기초하여 하나 이상의 오디오 오브젝트들 중 적어도 하나를 다중 채널 오디오 데이터의 하나 이상의 전경 채널들에서 렌더링할 수도 있다.

일부 예시들에서, 하나 이상의 오디오 오브젝트들 중 적어도 하나는 하나 이상의 오디오 오브젝트들 중 제 1 오디오 오브젝트를 포함한다. 그 디바이스는, 이들 예시들에서 추가로, 하나 이상의 오디오 오브젝트들 중 제 2 오디오 오브젝트가 하나 이상의 비디오 오브젝트들 중 임의의 하나와 연관되지 않는 것을 결정하고, 다중 채널 오디오 데이터를 생성할 때, 오디오 오브젝트들 중 제 2 오디오 오브젝트가 다중 채널 오디오 데이터의 하나 이상의 배경 채널들에서 생성되도록 다중 채널 오디오 데이터를 생성할 수도 있다.

그 디바이스는 다중 채널 오디오 데이터를 생성할 때, 오디오 오브젝트들 중 제 2 오디오 오브젝트가 다중 채널 오디오 데이터의 하나 이상의 배경 채널들에서 분산된 오디오 오브젝트로서 생성되도록 다중 채널 오디오 데이터를 생성할 수도 있다.

일부 예시들에서, 하나 이상의 비디오 오브젝트들 중 적어도 하나는 하나 이상의 비디오 오브젝트들 중 제 1 비디오 오브젝트를 포함한다. 이들 예시들에서, 디바이스는 하나 이상의 비디오 오브젝트들 중 제 2 비디오 오브젝트가 하나 이상의 오디오 오브젝트들 중 임의의 하나와 연관되지 않는 것을 결정할 수도 있다. 하나 이상의 비디오 오브젝트들 중 제 2 비디오 오브젝트가 하나 이상의 오디오 오브젝트들 중 임의의 하나와 연관되지 않는다는 결정에 응답하여, 그 디바이스는 하나 이상의 비디오 오브젝트들 중 제 2 비디오 오브젝트와 연관된 참조 오디오 오브젝트를 오디오 라이브러리로부터 취출할 수도 있다. 추가로, 그 디바이스는 다중 채널 오디오 데이터의 적어도 일부분을 생성하기 위해 하나 이상의 비디오 오브젝트들 중 제 2 비디오 오브젝트에 기초하여 참조 오디오 오브젝트를 렌더링할 수도 있다.

일부 예시들에서, 그 디바이스는 오디오 데이터를 분석할 때, 하나 이상의 오디오 오브젝트들과 하나 이상의 오디오 오브젝트들을 설명하는 오디오 메타데이터를 식별하기 위해 오디오 데이터의 청각 장면 분석을 수행할 수도 있다. 그 디바이스는 또한, 비디오 데이터를 분석할 때, 하나 이상의 비디오 오브젝트들 및 하나 이상의 비디오 오브젝트들을 설명하는 비디오 메타데이터를 식별하기 위해 비디오 데이터의 시각 장면 분석을 수행할 수도 있다. 이들 예시들에서, 오디오 메타데이터는 비디오 메타데이터를 정의하는데 사용된 텍스트 포맷과 공통인 텍스트 포맷으로 정의된다.

일부 예시들에서, 그 디바이스는 오디오 데이터를 분석할 때, 하나 이상의 오디오 오브젝트들과 하나 이상의 오디오 오브젝트들을 설명하는 오디오 메타데이터를 식별하기 위해 오디오 데이터의 청각 장면 분석을 수행할 수도 있다. 비디오 데이터를 분석할 때, 디바이스는 하나 이상의 비디오 오브젝트들 및 하나 이상의 비디오 오브젝트들을 설명하는 비디오 메타데이터를 식별하기 위해 비디오 데이터의 시각 장면 분석을 수행할 수도 있다. 이들 예시들에서, 디바이스는 다중 채널 오디오 데이터를 생성할 때, 오디오 오브젝트들 중 적어도 하나에 대하여 식별된 오디오 메타데이터와 비디오 오브젝트들 중 연관된 비디오 오브젝트에 대하여 식별된 비디오 메타데이터 간의 상관 레벨을 결정하고, 다중 채널 오디오 데이터를 생성할 때 결정된 상관 레벨에 기초하여 오디오 오브젝트 중 적어도 하나를 분산된 오디오 오브젝트로서 렌더링할 수도 있다. 종종, 상관 레벨은 몇몇 형태의 신뢰도 간격에 기초하며, 여기서 상관 레벨은 오디오 및 대응하는 비디오 오브젝트 메타데이터 간의 퍼센티지 차이의 함수 및 신뢰도 간격으로 유도될 수도 있다.

기술들의 다양한 양태들은 또한, 하나 이상의 프로세서들을 포함하는 디바이스가 오디오 오브젝트를 획득하고, 비디오 오브젝트를 획득하고, 오디오 오브젝트와 비디오 오브젝트를 연관시키고, 오디오 오브젝트를 연관된 비디오 오브젝트와 비교하고, 오디오 오브젝트와 연관된 비디오 오브젝트 간의 비교에 기초하여 오디오 오브젝트를 렌더링하는 것을 가능하게 할 수도 있다.

일부 예시들에서, 오디오 오브젝트는 오디오 메타데이터를 포함한다. 일부 예시들에서, 오디오 메타데이터는 사이즈 및 위치를 포함한다. 일부 예시들에서, 비디오 오브젝트는 비디오 메타데이터를 포함한다. 일부 예시들에서, 비디오 메타데이터는 사이즈 및 위치를 포함한다.

일부 예시들에서, 하나 이상의 프로세서들은 오디오 오브젝트를 연관된 비디오 오브젝트에 비교할 때, 사이즈 및 위치 중 하나 이상을 포함하는 결합된 메타데이터를 적어도 부분적으로 생성하도록 추가로 구성된다.

일부 예시들에서, 오디오 오브젝트는 위치 메타데이터를 포함하고, 비디오 오브젝트는 위치 메타데이터를 포함한다. 결합된 메타데이터를 생성할 때, 하나 이상의 프로세서들은 오디오 오브젝트의 위치 메타데이터를 비디오 오브젝트의 위치 메타데이터에 비교하여 상관 값을 결정하고, 상관 값이 신뢰도 임계치를 초과하는지 여부의 결정에 기초하여 결합된 메타데이터의 위치 메타데이터를 생성하도록 추가로 구성된다.

또한, 기술들의 다양한 양태들은, 오디오 오브젝트를 획득하고, 비디오 오브젝트를 획득하고, 오디오 오브젝트와 비디오 오브젝트를 연관시키고, 오디오 오브젝트를 연관된 비디오 오브젝트와 비교하고, 오디오 오브젝트와 연관된 비디오 오브젝트 간의 비교에 기초하여 오디오 오브젝트를 렌더링하는 것을 포함하는 방법을 제공할 수도 있다.

추가로, 오디오 오브젝트를 연관된 비디오 오브젝트에 비교할 때, 그 방법은 사이즈 및 위치 중 하나 이상을 포함하는 결합된 메타데이터를 적어도 부분적으로 생성하는 것을 추가로 포함할 수도 있다.

또한, 오디오 오브젝트가 위치 메타데이터를 포함하고 비디오 오브젝트가 위치 메타데이터를 포함할 경우, 결합된 메타데이터를 생성하는 것은 오디오 오브젝트의 위치 메타데이터를 비디오 오브젝트의 위치 메타데이터에 비교하여 상관 값을 결정하고, 상관 값이 신뢰도 임계치를 초과하는지 여부의 결정에 기초하여 결합된 메타데이터의 위치 메타데이터를 생성하는 것을 포함할 수도 있다.

또한, 기술들의 다양한 양태들은, 오디오 오브젝트를 획득하는 수단, 비디오 오브젝트를 획득하는 수단, 오디오 오브젝트와 비디오 오브젝트를 연관시키는 수단, 오디오 오브젝트를 연관된 비디오 오브젝트와 비교하는 수단, 및 오디오 오브젝트와 연관된 비디오 오브젝트 간의 비교에 기초하여 오디오 오브젝트를 렌더링하는 수단을 포함하는 디바이스를 제공할 수도 있다.

추가로, 오디오 오브젝트를 연관된 비디오 오브젝트에 비교하는 수단은 사이즈 및 위치 중 하나 이상을 포함하는 결합된 메타데이터를 적어도 부분적으로 생성하는 수단을 포함할 수도 있다.

또한, 오디오 오브젝트가 위치 메타데이터를 포함하고 비디오 오브젝트가 위치 메타데이터를 포함할 경우, 결합된 메타데이터를 생성하는 수단은 오디오 오브젝트의 위치 메타데이터를 비디오 오브젝트의 위치 메타데이터에 비교하여 상관 값을 결정하는 수단, 및 상관 값이 신뢰도 임계치를 초과하는지 여부의 결정에 기초하여 결합된 메타데이터의 위치 메타데이터를 생성하는 수단을 포함할 수도 있다.

일부 예시들에서, 저장된 명령들을 갖는 비-일시적 컴퓨터 판독가능 저장 매체는, 실행될 경우, 하나 이상의 프로세서들로 하여금 오디오 오브젝트를 획득하게 하고, 비디오 오브젝트를 획득하고, 오디오 오브젝트와 비디오 오브젝트를 연관시키게 하고, 오디오 오브젝트를 연관된 비디오 오브젝트와 비교하게 하고, 오디오 오브젝트와 연관된 비디오 오브젝트 간의 비교에 기초하여 오디오 오브젝트를 렌더링하게 한다.

본 개시물에 설명된 기술들의 다양한 양태들은 또한 오디오 출력 신호를 생성하는 디바이스에 의해 수행될 수도 있다. 그 디바이스는 제 1 오디오 오브젝트의 데이터 컴포넌트와 제 1 비디오 오브젝트의 데이터 컴포넌트의 제 1 비교에 기초하여 제 1 비디오 오브젝트 대응물과 연관된 제 1 오디오 오브젝트를 식별하는 수단, 및 제 2 오디오 오브젝트의 데이터 컴포넌트와 제 2 비디오 오브젝트의 데이터 컴포넌트의 제 2 비교에 기초하여 제 2 비디오 오브젝트 대응물과 연관되지 않은 제 2 오디오 오브젝트를 식별하는 수단을 포함할 수도 있다. 그 디바이스는 추가로, 제 1 존에서 제 1 오디오 오브젝트를 렌더링하는 수단, 제 2 존에서 제 2 오디오 오브젝트를 렌더링하는 수단, 및 제 1 존에서의 렌더링된 제 1 오디오 오브젝트와 제 2 존에서의 렌더링된 제 2 오디오 오브젝트를 연관시키는 것에 기초하여 오디오 출력 신호를 생성하는 수단을 포함할 수도 있다. 본원에 설명된 다양한 수단들은 그 수단들 각각에 대하여 설명된 기능들을 수행하도록 구성된 하나 이상의 프로세서들을 포함할 수도 있다.

일부 예시들에서, 제 1 오디오 오브젝트의 데이터 컴포넌트는 위치와 사이즈 중 하나를 포함한다. 일부 예시들에서, 제 1 비디오 오브젝트의 데이터 컴포넌트는 위치와 사이즈 중 하나를 포함한다. 일부 예시들에서, 제 2 오디오 오브젝트의 데이터 컴포넌트는 위치와 사이즈 중 하나를 포함한다. 일부 예시들에서, 제 2 비디오 오브젝트의 데이터 컴포넌트는 위치와 사이즈 중 하나를 포함한다.

일부 예시들에서, 제 1 존과 제 2 존은 오디오 전경 내에서 상이한 존들 또는 오디오 배경 내에서 상이한 존들이다. 일부 예시들에서, 제 1 존과 제 2 존은 오디오 전경 내에서 동일한 존 또는 오디오 배경 내에서 동일한 존이다. 일부 예시들에서, 제 1 존은 오디오 전경 내에 있고, 제 2 존은 오디오 배경 내에 있다. 일부 예시들에서, 제 1 존은 오디오 배경 내에 있고, 제 2 존은 오디오 전경 내에 있다.

일부 예시들에서, 제 1 오디오 오브젝트의 데이터 컴포넌트, 제 2 오디오 오브젝트의 데이터 컴포넌트, 제 1 비디오 오브젝트의 데이터 컴포넌트, 및 제 2 비디오 오브젝트의 데이터 컴포넌트는 각각 메타데이터를 포함한다.

일부 예시들에서, 그 디바이스는 제 1 비교가 신뢰도 간격 외부에 있는지 여부를 결정하는 수단, 및 제 1 비교가 신뢰도 간격 외부에 있는지 여부의 결정에 기초하여 제 1 오디오 오브젝트의 데이터 컴포넌트 및 제 1 비디오 오브젝트의 데이터 컴포넌트를 가중하는 수단을 더 포함한다. 일부 예시들에서, 가중하는 수단은 제 1 오디오 오브젝트의 데이터 컴포넌트와 제 1 비디오 오브젝트의 데이터 컴포넌트를 평균하는 수단을 포함한다.

일부 예시들에서, 그 디바이스는 또한 제 1 비교와 제 2 비교 중 하나 이상에 기초하여 상이한 수의 비트들을 할당하는 수단을 포함할 수도 있다.

일부 예시들에서, 기술들은 저장된 명령들을 갖는 비-일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있고, 그 명령들은 실행될 경우, 하나 이상의 프로세서들로 하여금, 제 1 오디오 오브젝트의 데이터 컴포넌트와 제 1 비디오 오브젝트의 데이터 컴포넌트의 제 1 비교에 기초하여 제 1 비디오 오브젝트 대응물과 연관된 제 1 오디오 오브젝트를 식별하게 하고, 제 2 오디오 오브젝트의 데이터 컴포넌트와 제 2 비디오 오브젝트의 데이터 컴포넌트의 제 2 비교에 기초하여 제 2 비디오 오브젝트 대응물과 연관되지 않은 제 2 오디오 오브젝트를 식별하게 하고, 제 1 오디오 오브젝트를 제 1 존에 렌더링하게 하고, 제 2 오디오 오브젝트를 제 2 존에 렌더링하게 하고, 그리고 제 1 존에서의 렌더링된 제 1 오디오 오브젝트와 제 2 존에서의 렌더링된 제 2 오디오 오브젝트를 결합하는 것에 기초하여 오디오 출력 신호를 생성하게 한다.

실시예에 의존하여, 본원에서 설명된 임의의 방법들의 소정의 행위들 또는 이벤트들은 상이한 시퀀스로 수행될 수 있거나, 추가되거나 병합되거나, 또는 함께 제거될 수도 있다 (예를 들면, 설명된 모든 행위들 또는 이벤트들이 방법의 실시에 반드시 필요한 것은 아니다) 는 것이 인식될 것이다. 더욱이, 특정 실시예들에 있어서, 행위들 또는 이벤트들은 순차적인 것보다는, 예를 들어, 멀티-스레드 프로세싱, 인터럽트 프로세싱 또는 다중의 프로세서들을 통해 동시에 수행될 수도 있다. 추가로, 본 개시물의 특정 양태들은 명확함을 목적으로 단일 모듈 또는 유닛에 의해 수행되는 것으로 설명되지만, 본 개시물의 기술들은 비디오 코더와 연관된 유닛들 또는 모듈들의 조합에 의해 수행될 수도 있음이 이해되어야 한다.

하나 이상의 실시예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되면, 상기 기능들은 컴퓨터 판독가능한 매체상에서 하나 이상의 명령들 또는 코드로서 저장되거나 전송되며 하드웨어 기반의 처리 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체는, 데이터 저장 매체와 같은 유형의 매체, 또는 예를 들어, 통신 프로토콜에 따라, 일 위치에서 다른 위치로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 통신 매체에 대응하는 컴퓨터 판독가능 저장 매체들일 포함할 수도 있다.

이러한 방식으로, 컴퓨터 판독 가능한 매체들은 일반적으로 (1) 비-일시적인 유형의 컴퓨터 판독가능 저장 매체들 또는 (2) 신호 또는 반송파와 같은 통신 매체에 대응할 수도 있다. 데이터 저장 매체는 본 개시에서 설명된 기술들의 구현을 위한 명령들, 코드 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 임의의 가용 매체일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.

한정이 아닌 예로서, 그러한 컴퓨터 판독가능 저장 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장부, 자기 디스크 저장부 또는 다른 자기 저장 디바이스들, 플래시 메모리, 또는 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 저장하는데 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속물은 컴퓨터 판독가능 매체로서 적절히 칭해진다. 예를 들면, 명령들이 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신된다면, 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다.

그러나, 컴퓨터 판독가능 저장 매체들 및 데이터 저장 매체들은 접속들, 반송파들, 신호들, 또는 다른 일시적 매체들을 포함하는 것이 아니라, 대신에 비-일시적인, 유형의 저장 매체들과 관련되는 것이 이해되어야만 한다. 본원에서 사용된 디스크 (disk) 와 디스크 (disc) 는, 컴팩트 디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피디스크 및 블루레이 디스크를 포함하며, 여기서 디스크 (disk) 는 통상 자기적으로 데이터를 재생하고, 디스크 (disc) 는 레이저를 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

명령들은 하나 이상의 디지털 신호 프로세서들 (DSP들), 범용 마이크로프로세서들, 주문형 집적회로들 (ASIC들), 필드 프로그래밍가능 로직 어레이들 (FPGA들), 또는 다른 등가의 집적된 또는 별도의 로직 회로와 같은 하나 이상의 프로세서들에 의해 실행될 수도 있다. 따라서, 본 명세서에서 사용되는 바와 같은 용어 "프로세서" 는 본 명세서에서 설명된 기술들의 구현에 적절한 전술한 구조 또는 임의의 다른 구조 중 임의의 구조를 지칭할 수도 있다. 부가적으로, 일부 양태들에 있어서, 본 명세서에서 설명된 기능은 인코딩 및 디코딩을 위해 구성되고 결합된 코덱에서 통합된 전용 하드웨어 모듈 및/또는 소프트웨어 모듈들 내에 제공될 수도 있다. 또한, 그 기술들은 하나 이상의 회로들 또는 로직 엘리먼트들에서 완전히 구현될 수 있다.

본 개시의 기술들은 무선 핸드셋, 집적 회로 (IC) 또는 IC들의 세트 (예를 들어, 칩 세트) 를 포함하여 매우 다양한 디바이스들 또는 장치들에서 구현될 수도 있다. 다양한 컴포넌트들, 모듈들 또는 유닛들이 개시된 기술들을 수행하도록 구성된 디바이스들의 기능적 양태들을 강조하기 위해 본 개시에서 설명되지만, 반드시 상이한 하드웨어 유닛들에 의한 실현을 요구하지는 않는다. 오히려, 상기 설명된 바와 같이, 다양한 유닛들은 적절한 소프트웨어 및/또는 펌웨어와 함께 상기 설명된 바와 같은 하나 이상의 프로세서들을 포함하여 코덱 하드웨어 유닛으로 결합되거나 상호작용하는 하드웨어 유닛들의 집합에 의해 제공될 수도 있다.

기술들의 다양한 실시형태들이 설명되었다. 이들 및 다른 실시형태들은 다음의 청구항들의 범위 내에 있다.

Claims

하나 이상의 오디오 오브젝트들을 식별하기 위해 디바이스로 캡처된 오디오 데이터를 분석하는 단계;
하나 이상의 비디오 오브젝트들을 식별하기 위해 상기 오디오 데이터의 캡처와 동시에 상기 디바이스로 캡처된 비디오 데이터를 분석하는 단계;
상기 하나 이상의 오디오 오브젝트들 중 적어도 하나를 상기 하나 이상의 비디오 오브젝트들 중 적어도 하나와 연관시키는 단계; 및
상기 하나 이상의 오디오 오브젝트들 중 적어도 하나의 상기 하나 이상의 비디오 오브젝트들 중 적어도 하나와의 상기 연관에 기초하여 상기 오디오 데이터로부터 다중 채널 오디오 데이터를 생성하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 데이터를 분석하는 단계는, 상기 하나 이상의 오디오 오브젝트들 및 상기 하나 이상의 오디오 오브젝트들을 설명하는 오디오 메타데이터를 식별하기 위해 상기 오디오 데이터의 청각 장면 분석을 수행하는 단계를 포함하고, 상기 오디오 메타데이터는 대응하는 오디오 오브젝트의 위치, 형상, 속도 및 위치 신뢰도 레벨 중 하나 이상을 포함하며, 그리고
상기 비디오 데이터를 분석하는 단계는, 상기 하나 이상의 비디오 오브젝트들 및 상기 하나 이상의 비디오 오브젝트들을 설명하는 비디오 메타데이터를 식별하기 위해 상기 비디오 데이터의 시각 장면 분석을 수행하는 단계를 포함하고, 상기 비디오 메타데이터는 상기 대응하는 오디오 오브젝트의 위치, 형상, 속도 및 위치 신뢰도 레벨 중 하나 이상을 포함하는, 방법.
제 2 항에 있어서,
상기 하나 이상의 오디오 오브젝트들 중 적어도 하나를 상기 하나 이상의 비디오 오브젝트들 중 적어도 하나와 연관시키는 단계는,
상기 하나 이상의 오디오 오브젝트들의 각각을 일 타입의 오디오 오브젝트로서 분류하는 단계,
상기 하나 이상의 비디오 오브젝트들의 각각을 일 타입의 비디오 오브젝트로서 분류하는 단계,
상기 오디오 오브젝트들 중 적어도 하나의 타입이 상기 비디오 오브젝트들 중 적어도 하나와 동일한 타입인 것을 결정하는 단계, 및
상기 하나 이상의 오디오 오브젝트들 중 적어도 하나의 타입이 하나 이상의 비디오 오브젝트들 중 적어도 하나의 타입과 동일하다는 결정에 응답하여, 상기 하나 이상의 오디오 오브젝트들 중 적어도 하나를 상기 하나 이상의 비디오 오브젝트들 중 적어도 하나와 연관시키는 단계를 포함하는, 방법.
제 2 항에 있어서,
상기 다중 채널 오디오 데이터를 생성하는 단계는,
상기 하나 이상의 오디오 오브젝트들 중 적어도 하나의 상기 오디오 메타데이터와 상기 하나 이상의 오디오 오브젝트들 중 적어도 하나와 연관된 상기 하나 이상의 비디오 오브젝트들 중 적어도 하나의 상기 비디오 메타데이터 간의 상관 레벨을 결정하는 단계,
결정된 상기 상관 레벨에 기초하여 상기 하나 이상의 비디오 오브젝트들 중 적어도 하나가 연관되는 상기 하나 이상의 오디오 오브젝트들 중 적어도 하나에 대하여 결합된 메타데이터를 생성하는 단계, 및
상기 하나 이상의 오디오 오브젝트들 중 적어도 하나에 대하여 생성된 상기 결합된 메타데이터에 기초하여 상기 하나 이상의 오디오 오브젝트들 중 적어도 하나를 상기 다중 채널 오디오 데이터의 하나 이상의 전경 채널들에서 렌더링하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 하나 이상의 오디오 오브젝트들 중 적어도 하나는 상기 하나 이상의 오디오 오브젝트들 중 제 1 오디오 오브젝트를 포함하고,
상기 방법은 상기 하나 이상의 오디오 오브젝트들 중 제 2 오디오 오브젝트가 상기 하나 이상의 비디오 오브젝트들 중 임의의 비디오 오브젝트와 연관되지 않는 것을 결정하는 단계를 더 포함하고,
상기 다중 채널 오디오 데이터를 생성하는 단계는, 상기 오디오 오브젝트들 중 상기 제 2 오디오 오브젝트가 상기 다중 채널 오디오 데이터의 하나 이상의 배경 채널들에서 생성되도록, 상기 다중 채널 오디오 데이터를 생성하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 다중 채널 오디오 데이터를 생성하는 단계는, 상기 오디오 오브젝트들 중 제 2 오디오 오브젝트가 상기 다중 채널 오디오 데이터의 하나 이상의 배경 채널들에서 분산된 오디오 오브젝트로서 생성되도록, 상기 다중 채널 오디오 데이터를 생성하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 하나 이상의 비디오 오브젝트들 중 적어도 하나는 상기 하나 이상의 비디오 오브젝트들 중 제 1 비디오 오브젝트를 포함하고,
상기 방법은,
상기 하나 이상의 비디오 오브젝트들 중 제 2 비디오 오브젝트가 상기 하나 이상의 오디오 오브젝트들 중 임의의 하나와 연관되지 않는 것을 결정하는 단계;
상기 하나 이상의 비디오 오브젝트들 중 상기 제 2 비디오 오브젝트가 상기 하나 이상의 오디오 오브젝트들 중 상기 임의의 하나와 연관되지 않는다는 결정에 응답하여, 상기 하나 이상의 비디오 오브젝트들 중 상기 제 2 비디오 오브젝트와 연관된 참조 오디오 오브젝트를 오디오 라이브러리로부터 취출하는 단계; 및
상기 다중 채널 오디오 데이터의 적어도 일부분을 생성하기 위해 상기 하나 이상의 비디오 오브젝트들 중 상기 제 2 비디오 오브젝트에 기초하여 상기 참조 오디오 오브젝트를 렌더링하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 데이터를 분석하는 단계는, 상기 하나 이상의 오디오 오브젝트들 및 상기 하나 이상의 오디오 오브젝트들을 설명하는 오디오 메타데이터를 식별하기 위해 상기 오디오 데이터의 청각 장면 분석을 수행하는 단계를 포함하고,
상기 비디오 데이터를 분석하는 단계는, 상기 하나 이상의 비디오 오브젝트들 및 상기 하나 이상의 비디오 오브젝트들을 설명하는 비디오 메타데이터를 식별하기 위해 상기 비디오 데이터의 시각 장면 분석을 수행하는 단계를 포함하며, 그리고
상기 오디오 메타데이터는 상기 비디오 메타데이터를 정의하는데 사용된 텍스트 포맷과 공통인 텍스트 포맷으로 정의되는, 방법.
제 1 항에 있어서,
상기 오디오 데이터를 분석하는 단계는, 상기 하나 이상의 오디오 오브젝트들 및 상기 하나 이상의 오디오 오브젝트들을 설명하는 오디오 메타데이터를 식별하기 위해 상기 오디오 데이터의 청각 장면 분석을 수행하는 단계를 포함하고,
상기 비디오 데이터를 분석하는 단계는, 상기 하나 이상의 비디오 오브젝트들 및 상기 하나 이상의 비디오 오브젝트들을 설명하는 비디오 메타데이터를 식별하기 위해 상기 비디오 데이터의 시각 장면 분석을 수행하는 단계를 포함하며,
상기 다중 채널 오디오 데이터를 생성하는 단계는,
상기 오디오 오브젝트들 중 적어도 하나에 대하여 식별된 상기 오디오 메타데이터와 상기 비디오 오브젝트들 중 연관된 비디오 오브젝트에 대하여 식별된 상기 비디오 메타데이터 간의 상관 레벨을 결정하는 단계, 및
상기 다중 채널 오디오 데이터를 생성할 때 결정된 상기 상관 레벨에 기초하여 상기 오디오 오브젝트 중 적어도 하나를 분산된 오디오 오브젝트로서 렌더링하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 디바이스는 모바일 전화를 포함하는, 방법.
오디오 오브젝트를 획득하고, 비디오 오브젝트를 획득하고, 상기 오디오 오브젝트와 상기 비디오 오브젝트를 연관시키고, 상기 오디오 오브젝트를 연관된 상기 비디오 오브젝트와 비교하며, 그리고 상기 오디오 오브젝트와 상기 연관된 비디오 오브젝트 간의 비교에 기초하여 상기 오디오 오브젝트를 렌더링하도록 구성된 하나 이상의 프로세서들을 포함하는, 디바이스.
제 11 항에 있어서,
상기 오디오 오브젝트는 오디오 메타데이터를 포함하는, 디바이스.
제 12 항에 있어서,
상기 오디오 메타데이터는 사이즈 및 위치를 포함하는, 디바이스.
제 11 항에 있어서,
상기 비디오 오브젝트는 비디오 메타데이터를 포함하는, 디바이스.
제 14 항에 있어서,
상기 비디오 메타데이터는 사이즈 및 위치를 포함하는, 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 추가로, 상기 오디오 오브젝트를 상기 연관된 비디오 오브젝트에 비교할 때, 사이즈 및 위치 중 하나 이상을 포함하는 결합된 메타데이터를 적어도 부분적으로 생성하도록 구성되는, 디바이스.
제 14 항에 있어서,
상기 오디오 오브젝트는 위치 메타데이터를 포함하고,
상기 비디오 오브젝트는 위치 메타데이터를 포함하며,
결합된 메타데이터를 생성하는 것은,
상기 오디오 오브젝트의 상기 위치 메타데이터를 상기 비디오 오브젝트의 상기 위치 메타데이터에 비교하여 상관 값을 결정하고,
상기 상관 값이 신뢰도 임계치를 초과하는지 여부의 결정에 기초하여 상기 결합된 메타데이터의 위치 메타데이터를 생성하는 것을 포함하는, 디바이스.
오디오 출력 신호를 생성하는 디바이스로서,
제 1 오디오 오브젝트의 데이터 컴포넌트와 제 1 비디오 오브젝트의 데이터 컴포넌트의 제 1 비교에 기초하여 제 1 비디오 오브젝트 대응물과 연관된 제 1 오디오 오브젝트를 식별하는 수단;
제 2 오디오 오브젝트의 데이터 컴포넌트와 제 2 비디오 오브젝트의 데이터 컴포넌트의 제 2 비교에 기초하여 제 2 비디오 오브젝트 대응물과 연관되지 않은 제 2 오디오 오브젝트를 식별하는 수단;
제 1 존에서 상기 제 1 오디오 오브젝트를 렌더링하는 수단;
제 2 존에서 상기 제 2 오디오 오브젝트를 렌더링하는 수단; 및
상기 제 1 존에서 렌더링된 상기 제 1 오디오 오브젝트와 상기 제 2 존에서 렌더링된 상기 제 2 오디오 오브젝트를 결합하는 것에 기초하여 상기 오디오 출력 신호를 생성하는 수단을 더 포함하는, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 1 오디오 오브젝트의 데이터 컴포넌트는 위치와 사이즈 중 하나를 포함하는, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
제 1 비디오 오브젝트 데이터의 데이터 컴포넌트는 위치와 사이즈 중 하나를 포함하는, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 2 오디오 오브젝트의 데이터 컴포넌트는 위치와 사이즈 중 하나를 포함하는, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 2 비디오 오브젝트의 데이터 컴포넌트는 위치와 사이즈 중 하나를 포함하는, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 1 존 및 상기 제 2 존은 오디오 전경 내의 상이한 존들 또는 오디오 배경 내의 상이한 존들인, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 1 존 및 상기 제 2 존은 오디오 전경 내의 동일한 존 또는 오디오 배경 내의 동일한 존인, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 1 존은 오디오 전경 내에 있고, 상기 제 2 존은 오디오 배경 내에 있는, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 1 존은 오디오 배경 내에 있고, 상기 제 2 존은 오디오 전경 내에 있는, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 1 오디오 오브젝트의 상기 데이터 컴포넌트, 상기 제 2 오디오 오브젝트의 상기 데이터 컴포넌트, 상기 제 1 비디오 오브젝트의 상기 데이터 컴포넌트, 및 상기 제 2 비디오 오브젝트의 상기 데이터 컴포넌트는 각각 메타데이터를 포함하는, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 1 비교가 신뢰도 간격 외부에 있는지 여부를 결정하는 수단; 및
상기 제 1 비교가 상기 신뢰도 간격 외부에 있는지 여부의 결정에 기초하여 상기 제 1 오디오 오브젝트의 상기 데이터 컴포넌트 및 상기 제 1 비디오 오브젝트의 상기 데이터 컴포넌트를 가중하는 수단을 더 포함하는, 오디오 출력 신호를 생성하는 디바이스.
제 28 항에 있어서,
상기 가중하는 수단은 제 1 오디오 오브젝트 데이터의 상기 데이터 컴포넌트와 상기 제 1 비디오 오브젝트의 상기 데이터 컴포넌트를 평균하는 수단을 포함하는, 오디오 출력 신호를 생성하는 디바이스.
제 18 항에 있어서,
상기 제 1 비교와 상기 제 2 비교 중 하나 이상에 기초하여 상이한 수의 비트들을 할당하는 수단을 더 포함하는, 오디오 출력 신호를 생성하는 디바이스.
저장된 명령들을 갖는 비-일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 실행될 경우, 디바이스의 하나 이상의 프로세서들로 하여금,
하나 이상의 오디오 오브젝트들을 식별하기 위해 상기 디바이스로 캡처된 오디오 데이터를 분석하게 하고;
하나 이상의 비디오 오브젝트들을 식별하기 위해 상기 오디오 데이터의 캡처와 동시에 상기 디바이스로 캡처된 비디오 데이터를 분석하게 하고;
상기 하나 이상의 오디오 오브젝트들 중 적어도 하나를 상기 하나 이상의 비디오 오브젝트들 중 적어도 하나와 연관시키게 하며; 그리고
상기 하나 이상의 오디오 오브젝트들 중 상기 적어도 하나의 상기 하나 이상의 비디오 오브젝트들 중 상기 적어도 하나와의 연관에 기초하여 상기 오디오 데이터로부터 다중 채널 오디오 데이터를 생성하게 하는, 비-일시적 컴퓨터 판독가능 저장 매체.