KR20170109023A

KR20170109023A - 몰입형 오디오를 캡처하고, 인코딩하고, 분산하고, 디코딩하기 위한 시스템 및 방법

Info

Publication number: KR20170109023A
Application number: KR1020177024202A
Authority: KR
Inventors: 마이클 엠 굿윈; 장-마크 조트; 마틴 월쉬
Original assignee: 디티에스, 인코포레이티드
Priority date: 2015-01-30
Filing date: 2016-01-29
Publication date: 2017-09-27
Also published as: US20160227337A1; WO2016123572A1; US20180098174A1; EP3251116A4; CN107533843B; US10187739B2; EP3251116A1; CN107533843A; KR102516625B1; US9794721B2

Abstract

표준 2-채널 또는 멀티채널 재현 시스템과 호환성이 있는 일반적 디지털 오디오 포맷으로 인코딩된 몰입형 오디오 레코딩의 플렉시블 캡처, 분산, 및 재현을 제공하는 음장 코딩 시스템 및 방법이 개시된다. 이 종단간 시스템 및 방법은 스마트폰 또는 카메라와 같은 소비자 모바일 디바이스 내의 표준 멀티채널 마이크로폰 어레이 구성에 대한 임의의 비실용적 요구를 완화한다. 시스템 및 방법은 플렉시블 멀티채널 마이크로폰 어레이 구성으로부터 레거시 재생 시스템과 호환성이 있는 2-채널 또는 멀티채널 몰입형 오디오 신호를 캡처하고 공간적으로 인코딩한다.

Description

몰입형 오디오를 캡처하고, 인코딩하고, 분산하고, 디코딩하기 위한 시스템 및 방법

관련 출원의 상호 참조

본 출원은 발명의 명칭이 "3-D 오디오 음장을 캡처하고 인코딩하기 위한 시스템 및 방법(System and Method for Capturing and Encoding a 3-D Audio Soundfield)"인 2015년 1월 30일 출원된 미국 가특허 출원 제62/110,211호의 이익을 청구하고, 양 출원의 전체 내용은 본 명세서에 참조로서 합체되어 있다.

종종 비디오와 함께 오디오 콘텐츠의 캡처는 전용 레코딩 디바이스가 더 휴대형이 되고 입수 가능해짐에 따라 그리고 레코딩 능력이 스마트폰과 같은 일상의 디바이스에서 더 보급됨에 따라 점점 더 통상적이 되고 있다. 비디오 캡처의 품질은 계속 증가되어 왔고, 오디오 캡처의 품질을 앞질렀다. 현대식 모바일 디바이스의 비디오 캡처는 통상적으로 고해상도 및 DSP-프로세싱 집약적이지만, 수반하는 오디오 콘텐츠는 일반적으로 낮은 충실도(fidelity)를 갖고 부가의 프로세싱이 거의 없이 모노로 캡처된다.

공간 큐(spatial cue)를 캡처하기 위해, 다수의 기존의 오디오 레코딩 기술은 적어도 2개의 마이크로폰을 채용한다. 일반적으로, 360도 수평 서라운드 오디오 장면을 레코딩하는 것은 적어도 3개의 오디오 채널을 필요로 하고, 반면에 3차원 오디오 장면을 레코딩하는 것은 적어도 4개의 오디오 채널을 필요로 한다. 멀티채널 오디오 캡처가 몰입형 오디오 레코딩(immersive audio recording)을 위해 사용되지만, 더 많이 보급되어 있는 소비자 오디오 전달 기술 및 현재 이용 가능한 분산 네트워크는 2-채널 오디오를 전송하는 것에 제한되어 있다. 표준 2-채널 스테레오 재현에 있어서, 저장된 또는 전송된 좌측 및 우측 오디오 채널은 좌측 및 우측 라우드스피커 또는 헤드폰에 각각 직접 재생되도록 의도된다.

몰입형 오디오 레코딩의 재생을 위해, 다양한 재생 구성으로 레코딩된 공간 오디오 정보를 렌더링할 필요가 있을 수도 있다. 이들 재생 구성은 헤드폰, 정면 사운드바 라우드스피커, 정면 이산 라우드스피커쌍, 5.1 수평 서라운드 라우드스피커 어레이, 및 높이 채널을 포함하는 3차원 라우드스피커 어레이를 포함한다. 재생 구성에 무관하게, 캡처된 오디오 장면의 실질적으로 정확한 표현인 공간 오디오 장면을 청취자를 위해 재현하는 것이 바람직하다. 부가적으로, 특정 재생 구성에 불가지론적인(agnostic) 오디오 저장 또는 전송 포맷을 제공하는 것이 유리하다.

일 이러한 구성-불가지론적 포맷은 B-포맷이다. B-포맷은 이하의 신호: (1) W - 전방향성 마이크로폰의 출력에 대응하는 압력 신호; (2) X - 전방 지향 "숫자 8 형상" 마이크로폰의 출력에 대응하는 전후 방향 정보; (3) Y - 좌향 방향 "숫자 8 형상" 마이크로폰의 출력에 대응하는 측면 방향 정보; 및 (4) Z - 상향 지향 "숫자 8 형상" 마이크로폰의 출력에 대응하는 상하 방향 정보를 포함한다.

B-포맷 오디오 신호는 헤드폰 또는 플렉시블 라우드스피커 구성 상의 몰입형 오디오 재생을 위해 공간적으로 디코딩될 수도 있다. B-포맷 신호는 전방향 및/또는 쌍방향 마이크로폰 또는 단방향 마이크로폰을 포함하는 표준형 준동축형(near-coincident) 마이크로폰 장치로부터 유도되거나 직접 얻어질 수 있다. 특히, 4-채널 A-포맷은 카디오이드(cardioid) 마이크로폰의 4면체 배열로부터 얻어지고, 4×4 선형 매트릭스를 거쳐 B-포맷으로 변환될 수도 있다. 부가적으로, 4-채널 B-포맷은 표준 2-채널 스테레오 재현과 호환성이 있는 2-채널 앰비소닉(Ambisonic) UHJ 포맷으로 변환될 수도 있다. 그러나, 2-채널 앰비소닉 UHJ 포맷은 충실한 3차원 몰입형 오디오 또는 수평 서라운드 재현을 가능하게 하는 데 충분하지 않다.

서라운드 또는 몰입형 사운드 장면을 표현하는 복수의 오디오 채널을, 원본 오디오 장면의 충실한 재현을 가능하게 하도록 이후에 디코딩될 수 있는 저장 및/또는 분산을 위한 축소 데이터 포맷으로 인코딩하기 위한 다른 접근법이 제안되어 왔다. 일 이러한 접근법은 시간-도메인 위상-진폭 매트릭스 인코딩/디코딩이다. 이 접근법에서 인코더는 지정된 진폭 및 위상 관계를 갖는 입력 채널을 더 작은 세트의 코딩된 채널로 선형으로 합성한다. 디코더는 인코딩된 채널을 지정된 진폭과 위상과 합성하여 원본 채널을 복구하려고 시도한다. 그러나, 중간 채널-카운트 감소의 결과로서, 원본 오디오 장면에 비교하여 재현된 오디오 장면의 공간 위치확인(spatial localization) 충실도의 손실이 존재할 수 있다.

재현된 오디오 장면의 공간 위치확인 충실도를 향상시키기 위한 접근법은 매트릭스-인코딩된 2-채널 오디오 신호를 시간-주파수 표현으로 분해하는 주파수-도메인 위상-진폭 매트릭스 디코딩이다. 이 접근법은 이어서 각각의 시간-주파수 성분을 개별적으로 공간화한다(spatialize). 시간-주파수 분해는 개별 소스가 시간 도메인에서보다 더 이산적으로 표현되는 입력 오디오 신호의 고분해능 표현을 제공한다. 그 결과, 이 접근법은 시간-도메인 매트릭스 디코딩에 비교할 때, 이후에 디코딩된 신호의 공간 충실도를 향상시킬 수 있다.

멀티채널 오디오 표현을 위한 데이터 재현의 다른 접근법은 공간 오디오 코딩이다. 이 접근법에서, 입력 채널은 축소 채널 포맷(잠재적으로 심지어 모노)으로 합성되고, 오디오 장면의 공간 특성에 대한 몇몇 사이드 정보(side information)가 또한 포함된다. 사이드 정보 내의 파라미터는 원본 오디오 장면을 충실하게 근사하는 멀티채널 신호로 축소-채널 포맷을 공간적으로 디코딩하는 데 사용될 수 있다.

전술된 위상-진폭 매트릭스 인코딩 및 공간 오디오 코딩법은 종종 레코딩 스튜디오에서 생성된 멀티채널 오디오 트랙을 인코딩하는 것과 관련된다. 더욱이, 이들은 때때로 축소-채널 인코딩된 오디오 신호가 완전 디코딩된 버전에 대한 실행가능한 청취 대안인 요구와 관련된다. 이는 직접 재생이 옵션이고 맞춤형 디코더가 요구되지 않도록 이루어진다.

음장 코딩(sound field coding)은 "라이브" 오디오 장면을 캡처링하고 인코딩하고 재생 시스템 상에서 그 오디오 장면을 재현하는 것에 포커싱되는 공간 오디오 코딩에 대한 유사한 시도이다. 음장 코딩의 기존의 접근법은 지향성 소스를 정확하게 캡처하기 위해 특정 마이크로폰 구성에 의존한다. 더욱이, 이들 접근법은 지향성 및 확산 소스를 적절하게 처리하기 위해 다양한 분석 기술에 의존한다. 그러나, 음장 코딩을 위해 요구되는 마이크로폰 구성은 소비자 디바이스를 위해 종종 비실용적이다. 현대식 소비자 디바이스는 통상적으로 마이크로폰의 수 및 위치에 부여된 상당한 디자인 제약을 갖는 데, 이는 현재 음장 인코딩법을 위한 요구와 오정합되는 구성을 야기할 수 있다. 음장 분석법은 종종 또한 연산 집약적이고, 더 낮은 복잡성 실현을 지원하기 위한 스케일러빌러티(scalability)가 결여되어 있다.

이 요약 설명은 상세한 설명에서 더 후술되는 개념의 간단화된 형태의 선택을 소개하기 위해 제공된 것이다. 이 요약 설명은 청구된 요지의 주요 특징 또는 필수적인 특징을 식별하도록 의도된 것은 아니고, 또한 청구된 요지의 범주를 한정하는 데 사용되도록 의도된 것도 아니다.

음장 코딩 시스템 및 방법의 실시예는 오디오 신호의 프로세싱에, 더 구체적으로는 3차원(3-D) 오디오 음장의 캡처, 인코딩 및 재현에 관한 것이다. 시스템 및 방법의 실시예는 몰입형 오디오 장면을 표현하는 3-D 음장을 캡처하는 데 사용된다. 이 캡처는 임의적(arbitrary) 마이크로폰 어레이 구성을 사용하여 수행된다. 캡처된 오디오는 일반적인 공간 인코딩된 신호(Spatially Encoded Signal: SES) 포맷으로의 효율적인 저장 및 분산을 위해 인코딩된다. 몇몇 실시예에서, 재현을 위해 이 SES 포맷을 공간적으로 디코딩하기 위한 방법은 3-D 음장 내에서 오디오를 캡처하는 데 사용된 마이크로폰 어레이 구성에 불가지론적이다.

표준 2-채널 또는 멀티채널 재현 시스템과 호환성이 있는 일반적 디지털 오디오 포맷으로 인코딩된 몰입형 오디오 레코딩의 플렉시블 캡처, 분산, 및 재현을 가능하게 하는 종단간 시스템(end-to-end system)은 현재 존재하지 않는다. 특히, 표준 멀티채널 마이크로폰 어레이 구성을 채택하는 것은 스마트폰 또는 카메라와 같은 소비자 모바일 디바이스에서 실용적이지 않기 때문에, 플렉시블 멀티채널 마이크로폰 어레이 구성으로부터 레거시(legacy) 재생 시스템과 호환성이 있는 2-채널 또는 멀티채널 몰입형 오디오 신호를 공간적으로 인코딩하기 위한 방법이 요구된다.

시스템 및 방법의 실시예는 3-D 음장을 캡처하기 위한 다수의 마이크로폰을 갖는 마이크로폰 구성을 선택함으로써 복수의 마이크로폰을 프로세싱하는 것을 포함한다. 마이크로폰은 적어도 하나의 오디오 소스로부터 사운드를 캡처하는 데 사용된다. 마이크로폰 구성은 오디오 캡처에 사용된 다수의 마이크로폰의 각각을 위한 마이크로폰 지향성을 규정한다. 마이크로폰 지향성은 기준 방향에 대해 규정된다.

시스템 및 방법의 실시예는 다수의 마이크로폰을 포함하는 가상 마이크로폰 구성을 선택하는 것을 또한 포함한다. 가상 마이크로폰 구성이 기준 방향에 대한 오디오 소스의 위치에 대한 공간 정보의 인코딩에 사용된다. 시스템 및 방법은 마이크로폰 구성 및 가상 마이크로폰 구성에 기초하여 공간 인코딩 계수를 계산하는 것을 또한 포함한다. 공간 인코딩 계수는 마이크로폰 신호를 공간 인코딩 신호(SES)로 변환하는 데 사용된다. SES는 가상 마이크로폰 신호를 포함하고, 가상 마이크로폰 신호는 공간 인코딩 계수를 사용하여 마이크로폰 신호를 합성함으로써 얻어진다.

대안 실시예가 가능하고, 본 명세서에 설명된 단계 및 요소는 특정 실시예에 따라 변경되고, 추가되거나, 또는 제거된다는 것이 주목되어야 한다. 이들 대안 실시예는 본 발명의 범주로부터 벗어나지 않고, 사용될 수도 있는 대안 단계 및 대안 요소, 및 이루어질 수도 있는 구조적 변경을 포함한다.

이제, 유사한 도면 부호가 전체에 걸쳐 대응 부분을 표현하고 있는 도면을 참조한다.
도 1은 본 발명에 따른 음장 코딩 시스템의 실시예의 개략 블록도이다.
도 2a는 도 1에 도시되어 있는 음장 코딩 시스템의 실시예의 캡처, 인코딩 및 분산 구성요소의 상세를 도시하고 있는 블록도이다.
도 2b는 비표준 구성으로 배열된 마이크로폰을 갖는 휴대형 캡처 디바이스의 실시예를 도시하고 있는 블록도이다.
도 3은 도 1에 도시되어 있는 음장 코딩 시스템의 실시예의 디코딩 및 재생 구성요소의 상세를 도시하고 있는 블록도이다.
도 4는 본 발명에 따른 음장 코딩 시스템의 실시예의 일반적인 블록도를 도시하고 있다.
도 5는 T=2인 도 4에 설명되어 있는 것과 유사한 시스템의 실시예를 더 상세하게 도시하고 있는 블록도이다.
도 6은 도 5에 도시되어 있는 공간 디코더 및 렌더러를 더 상세히 도시하고 있는 블록도이다.
도 7은 T=2개의 전송 신호를 갖고 사이드 정보를 갖지 않는 공간 인코더를 도시하고 있는 블록도이다.
도 8은 도 7에 도시되어 있는 공간 인코더의 대안 실시예를 도시하고 있는 블록도이다.
도 9a는 A-포맷 신호가 캡처되고 B-포맷으로 변환되고, 그로부터 2-채널 공간적으로 인코딩된 신호가 유도되는 공간 인코더의 특정 예시적인 실시예를 도시하고 있다.
도 9b는 수평 평면에서 B-포맷 W, X 및 Y 성분의 지향성 패턴을 도시하고 있다.
도 9c는 B-포맷 W, X 및 Y 성분을 합성함으로써 유도된 3개의 슈퍼카디오이드 가상 마이크로폰의 지향성 패턴을 도시하고 있다.
도 10은 B-포맷 신호가 5-채널 서라운드-사운드 신호로 변환되는, 도 9a에 도시되어 있는 시스템의 대안 실시예를 도시하고 있다.
도 11은 B-포맷 신호가 지향성 오디오 코딩(Directional Audio Coding: DirAC) 표현으로 변환되는, 도 9a에 도시되어 있는 시스템의 대안 실시예를 도시하고 있다.
도 12는 도 11에 설명되어 있는 것과 유사한 시스템의 더 상세한 실시예를 도시하고 있는 블록도이다.
도 13은 B-포맷 신호를 주파수-도메인으로 변환하고 이를 2-채널 스테레오 신호로서 인코딩하는 공간 인코더의 또 다른 실시예를 도시하고 있는 블록도이다.
도 14는 입력 마이크로폰 신호가 먼저 직접 및 확산 성분으로 분해되는 공간 인코더의 실시예를 도시하고 있는 블록도이다.
도 15는 바람 노이즈 검출기를 포함하는 공간 인코딩 시스템 및 방법의 실시예를 도시하고 있는 블록도이다.
도 16은 N개의 마이크로폰 신호를 캡처하고 이들을 공간 인코딩 전에 편집을 위해 적합한 M-채널 포맷으로 변환하기 위한 시스템을 도시하고 있다.
도 17은 캡처된 오디오 장면이 공간 디코딩 프로세스의 부분으로서 수정되는 시스템 및 방법의 실시예를 도시하고 있다.
도 18은 본 발명에 따른 음장 코딩 시스템의 캡처 구성요소의 실시예의 일반적인 동작을 도시하고 있는 흐름도이다.

음장 코딩 시스템 및 방법의 실시예의 이하의 설명에서, 첨부 도면이 참조된다. 이들 도면은 어떻게 시스템 및 방법의 실시예가 실시될 수도 있는지의 특정 예를 예시로서 도시하고 있다. 다른 실시예가 이용될 수도 있고 구조적 변경이 청구된 요지의 범주로부터 벗어나지 않고 이루어질 수도 있다는 것이 이해된다.

I. 시스템 개요

본 명세서에 설명되어 있는 음장 코딩 시스템 및 방법의 실시예는 임의적 마이크로폰 어레이 구성을 사용하여 몰입형 오디오 장면을 표현하고 있는 음장을 캡처하는 데 사용된다. 캡처된 오디오는 일반적인 공간 인코딩된 신호(Spatially Encoded Signal: SES) 포맷으로의 효율적인 저장 및 분산을 위해 인코딩된다. 본 발명의 바람직한 실시예에서, 재현을 위해 이 SES 포맷을 공간적으로 디코딩하기 위한 방법은 사용된 마이크로폰 어레이 구성에 불가지론적이다. 저장 및 분산은 2-채널 오디오를 위한 기존의 접근법, 예를 들어 통상적으로 사용되는 디지털 매체 분산 또는 스트리밍 네트워크를 사용하여 실현될 수 있다. SES 포맷은 표준 2-채널 스테레오 재현 시스템 상에서 재생될 수 있고 또는, 대안적으로 플렉시블 재생 구성 상에서 높은 공간 충실도를 갖고 재현될 수 있다(적절한 SES 디코더가 이용 가능하면). SES 인코딩 포맷은 다양한 재생 구성, 예를 들어 헤드폰 또는 서라운드 사운드 시스템에서 원본 몰입형 오디오 장면의 충실한 재현을 성취하도록 구성된 공간 디코딩을 가능하게 한다.

음장 코딩 시스템 및 방법의 실시예는 마이크로폰의 임의적 구성을 갖고 3차원 음장을 캡처하고 인코딩하기 위한 플렉시블 및 스케일러블 기술을 제공한다. 이는 특정 마이크로폰 구성이 요구되지 않는다는 점에서 기존의 방법과는 구별된다. 더욱이, 본 명세서에 설명되어 있는 SES 인코딩 포맷은 공간 인코더를 필요로 하지 않고 고품질 2-채널 재생을 위해 실행 가능하다. 이는 이들이 통상적으로 인코딩된 오디오 신호로부터 직접 충실한 몰입형 3-D 오디오 재생을 제공하는 것과 관련되지 않는다는 점에서 다른 3차원 음장 코딩 방법(앰비소닉 B-포맷 또는 DirAC와 같은)과는 구별된다. 더욱이, 이들 코딩 방법은 인코딩된 신호 내에 사이드 정보를 포함하지 않고 고품질 재생을 제공하는 것이 불가능할 수도 있다. 사이드 정보는 본 명세서에 설명되어 있는 시스템 및 방법의 실시예에서 선택적이다.

캡처, 인코딩 및 분산 시스템

도 1은 음장 코딩 시스템(100)의 실시예의 개략 블록도이다. 시스템(100)은 캡처 구성요소(110), 분산 구성요소(120), 및 재생 구성요소(130)를 포함한다. 캡처 구성요소에서, 입력 마이크로폰 또는 바람직하게는 마이크로폰 어레이가 오디오 신호를 수신한다. 캡처 구성요소(110)는 다양한 마이크로폰 구성으로부터 마이크로폰 신호(135)를 수용한다. 예로서, 이들 구성은 모노, 스테레오, 3-마이크로폰 서라운드, 4-마이크로폰 다중채널(앰비소닉 B-포맷과 같은), 또는 임의적 마이크로폰 구성을 포함한다. 제1 심벌(138)은 마이크로폰 신호 포맷 중 임의의 하나가 입력으로서 선택될 수 있다는 것을 도시하고 있다. 마이크로폰 신호(135)는 오디오 캡처 구성요소(140)에 입력된다. 시스템(100)의 몇몇 실시예에서, 마이크로폰 신호(135)는 원하지 않는 환경 노이즈(고정 배경 노이즈 또는 바람 노이즈와 같은)를 제거하기 위해 오디오 캡처 구성요소(140)에 의해 프로세싱된다.

캡처된 오디오 신호는 공간 인코더(145)에 입력된다. 이들 오디오 신호는 후속의 저장 및 분산을 위해 적합한 공간 인코딩 신호(SES)로 공간적으로 인코딩된다. 후속의 SES는 분산 구성요소(120)의 저장/전송 구성요소(150)로 전달된다. 몇몇 실시예에서, SES는 SES 내에 인코딩된 공간 큐를 수정하지 않고 저장 요구 또는 전송 데이터 레이트를 감소시키기 위해 오디오 파형 인코더(P3 또는 AAC와 같은)에 의해 저장/전송 구성요소(150)에 의해 코딩된다. 분산 구성요소(120)에서, 오디오는 저장되거나 분산 네트워크를 거쳐 재생 디바이스에 제공된다.

재생 구성요소(130)에서, 다양한 재생 디바이스가 도시되어 있다. 제2 심벌(152)에 의해 도시되어 있는 바와 같이, 임의의 재생 디바이스가 선택될 수도 있다. 제1 재생 디바이스(155), 제2 재생 디바이스(160), 및 제3 재생 디바이스(165)가 도 1에 도시되어 있다. 제1 재생 디바이스(155)에 있어서, SES는 헤드폰을 거쳐 최적의 재생을 위해 공간적으로 디코딩된다. 제2 재생 디바이스(160)에 있어서, SES는 스테레오 시스템을 거쳐 최적의 재생을 위해 공간적으로 디코딩된다. 제3 재생 디바이스(165)에 있어서, SES는 멀티채널 라우드스피커 시스템을 거쳐 최적의 재생을 위해 공간적으로 디코딩된다. 통상의 사용 시나리오에서, 오디오 캡처, 분산, 및 재생은 당 기술 분야의 숙련자들에 의해 이해되고 이하의 도면에 도시되어 있는 바와 같이, 비디오와 함께 발생할 수도 있다.

도 2a는 도 1에 도시되어 있는 음장 코딩 시스템(100)의 실시예의 캡처 구성요소(110)의 상세를 도시하고 있는 블록도이다. 캡처 구성요소(110)에서, 레코딩 디바이스는 제1 오디오 캡처 서브구성요소(200)에 접속된 4-마이크로폰 어레이 및 제2 오디오 캡처 서브구성요소(210)에 접속된 2-마이크로폰 어레이의 모두를 지원한다. 제1 및 제2 오디오 캡처 서브구성요소(200, 210)의 출력은 제1 공간 인코더 서브구성요소(220) 및 제2 공간 인코더 서브구성요소(230)에 각각 제공되고, 여기서 이들은 공간 인코딩 신호(SES) 포맷으로 인코딩된다. 시스템(100)의 실시예는 2-마이크로폰 또는 4-마이크로폰 어레이에 한정되는 것은 아니라는 것이 주목되어야 한다. 다른 경우에, 다른 마이크로폰 구성이 적절한 공간 인코더로 유사하게 지원될 것이다. 몇몇 실시예에서, 제1 공간 인코더 서브구성요소(220)에 의해 또는 제2 공간 인코더 서브구성요소(230)에 의해 발생된 SES는 오디오 비트스트림 인코더(240)에 의해 인코딩된다. 인코더(240)로부터 출력되는 인코딩된 신호는 오디오 비트스트림(250) 내로 패킹된다.

몇몇 실시예에서, 비디오가 캡처 구성요소(110) 내에 포함된다. 도 2a에 도시되어 있는 바와 같이, 비디오 캡처 구성요소(260)는 비디오 신호를 캡처하고, 비디오 인코더(270)는 비디오 신호를 인코딩하여 비디오 비트스트림을 생성한다. A/V 믹서(280)가 오디오 비트스트림(250)을 연계된 비디오 스트림과 멀티플렉싱한다. 멀티플렉싱된 오디오 및 비디오 비트스트림은 분산 구성요소(120)의 저장/전송 구성요소(150) 내에 저장되거나 전송된다. 비트스트림 데이터는 캡처 디바이스 상에, 로컬 매체 서버 상에, 또는 컴퓨터 네트워크 내에 데이터 파일로서 일시적으로 저장될 수도 있고, 전송 또는 분산을 위해 이용 가능해질 수도 있다.

몇몇 실시예에서, 제1 오디오 캡처 서브구성요소(200)는 앰비소닉 B-포맷 신호를 캡처하고, 제1 공간 인코더 서브구성요소(220)에 의한 SES 인코딩은 예를 들어, "Ambisonics in multichannel broadcasting and video," Michael Gerzon, JAES Vol 33, No 11, Nov. 1985 p.859-871에 설명되어 있는 바와 같이, 통상적인 B-포맷 대 UHJ 2-채널 스테레오 인코딩을 수행한다. 대안 실시예에서, 제1 공간 인코더 서브구성요소(220)는 2-채널 UHJ 포맷과는 달리, 3차원 공간 오디오 큐를 보유할 수 있는 2-채널 SES로의 B-포맷 신호의 주파수-도메인 공간 인코딩을 수행한다. 또 다른 실시예에서, 제1 오디오 캡처 서브구성요소(200)에 접속된 마이크로폰은 비표준 구성으로 배열된다.

도 2b는 비표준 구성으로 배열된 마이크로폰을 갖는 휴대형 캡처 디바이스(201)의 실시예를 도시하고 있는 도면이다. 도 2b의 휴대형 캡처 디바이스(201)는 오디오 캡처를 위한 마이크로폰(202, 203, 204, 205) 및 비디오 캡처를 위한 카메라(206)를 포함한다. 스마트폰과 같은 휴대형 디바이스에서, 디바이스(201) 상의 마이크로폰의 로케이션은 산업적 디자인 고려사항 또는 다른 인자에 의해 제약될 수도 있다. 이러한 제약에 기인하여, 마이크로폰(202, 203, 204, 205)은 당 기술 분야의 숙련자들에 의해 인식된 레코딩 마이크로폰 구성과 같은 표준 마이크로폰 구성이 아닌 방식으로 구성될 수도 있다. 실제로, 구성은 특정 캡처 디바이스에 특유할 수도 있다. 도 2b는 단지 이러한 디바이스-특정 구성의 예를 제공한다. 다양한 다른 실시예가 가능하고 이 특정 마이크로폰 구성에 한정되는 것은 아니라는 것이 주목되어야 한다. 게다가, 본 발명의 실시예는 마이크로폰의 임의적 구성에 적용 가능하다.

대안 실시예에서, 단지 2개의 마이크로폰 신호가 캡처되고[제2 오디오 캡처 서브구성요소(210)에 의해] 공간적으로 인코딩된다[제2 공간 인코더 서브구성요소(230)에 의해]. 이 2개의 마이크로폰 채널로의 제한은 예를 들어, 디바이스 제조 비용을 최소화하기 위한 제품 디자인 결정이 존재할 때 발생할 수도 있다. 이 경우에, SES 내에 인코딩된 공간 정보의 충실도는 이에 따라 손상될 수도 있다. 예를 들어, SES는 상하 또는 전후 구별 큐가 결여되어 있을 수도 있다. 그러나, 본 발명의 유리한 실시예에서, 제2 공간 인코더 서브구성요소(230)로부터 생성된 SES 내에 인코딩된 좌우 구별 큐는 동일한 원본 캡처된 음장에 대해 제1 공간 인코더 서브구성요소(220)로부터 생성된 SES 내에 인코딩된 것들(표준 2-채널 스테레오 재생 구성에서 청취자에 의해 지각되는 바와 같은)에 실질적으로 동등하다. 따라서, SES 포맷은 캡처 마이크로폰 어레이 구성에 무관하게 표준 2-채널 스테레오 재현과 호환성이 있게 유지된다.

몇몇 실시예에서, 제1 공간 인코더 서브구성요소(220)는 SES 내에 포함된 공간 오디오 사이드 정보 또는 메타데이터를 또한 생성한다. 이 사이드 정보는 몇몇 실시예에서, 캡처된 마이크로폰 신호들 사이의 채널간 관계의 주파수-도메인 분석으로부터 유도된다. 이러한 공간 오디오 사이드 정보는 오디오 비트스트림 인코더(240)에 의해 오디오 비트스트림 내에 합체되고 이후에 재생 구성요소에서 선택적으로 인출되고 공간 오디오 재현 충실도를 최적화하기 위해 이용되도록 저장되거나 전송된다.

더 일반적으로, 몇몇 실시예에서, 오디오 비트스트림 인코더(240)에 의해 생성된 디지털 오디오 비트스트림은 메타데이터 및 부가의 오디오 채널을 포함할 수 있는 선택적 확장(본 명세서에서 "사이드 정보"라 칭함)과 함께 2-채널 또는 멀티채널 역호환성 오디오 다운믹스 신호를 포함하도록 포맷된다. 이러한 오디오 코딩 포맷의 예는 본 명세서에 그대로 참조로서 합체되어 있는, 발명의 명칭이 "3차원 오디오 사운드트랙의 인코딩 및 재현(Encoding and reproduction of three dimensional audio soundtracks)"인 미국 특허 출원 공개 US2014-0350944 A1호에 설명되어 있다.

도 2a에 도시되어 있는 바와 같이 오디오 및 비디오를 멀티플렉싱하기 전에(레거시 및 호환성 목적으로) 공간 인코딩을 수행하는 것이 종종 유용하지만, 다른 실시예에서 원본 캡처된 멀티채널 오디오 신호는 "그대로" 비디오와 멀티플렉싱될 수도 있고, SES 인코딩은 전달 체인에서 몇몇 이후의 스테이지에 발생할 수 있다. 예를 들어, 선택적 사이드 정보 추출을 포함하여, 공간 인코딩은 네트워크 기반 컴퓨터 상에서 오프라인을 수행될 수 있다. 이 접근법은 공간 인코딩 계산이 원본 레코딩 디바이스 프로세서 상에서 구현될 때 실현 가능할 수도 있는 것보다 더 진보된 신호 분석 계산을 허용할 수도 있다.

몇몇 실시예에서, 오디오 비트스트림 인코더(240)에 의해 인코딩된 2-채널 SES는 원본 음장 내에 캡처된 공간 오디오 큐를 포함한다. 몇몇 실시예에서, 오디오 큐는 캡처 디바이스 상에서 채용된 특정 마이크로폰 어레이 구성에 실질적으로 불가지론적인 채널간 진폭 및 위상 관계의 형태에 있다(마이크로폰의 수 및 마이크로폰 어레이의 기하학적 형상에 의해 부여된 충실도 한계 내에서). 2-채널 SES는 인코딩된 공간 오디오 큐를 추출하고 이용 가능한 재생 디바이스 상에서 원본 오디오 장면을 표현하고 있는 공간 큐를 재현하기 위해 적합한 오디오 신호를 렌더링함으로써 이후에 디코딩될 수 있다.

도 3은 도 1에 도시되어 있는 음장 코딩 시스템(100)의 실시예의 재생 구성요소(130)의 상세를 도시하고 있는 블록도이다. 재생 구성요소(130)는 분산 구성요소(120)의 저장/전송 구성요소(150)로부터 매체 비트스트림을 수신한다. 수신된 비트스트림이 오디오 및 비디오 비트스트림의 모두를 포함하는 실시예에서, 이들 비트스트림은 A/V 디멀티플렉서(demuxer)(300)에 의해 디멀티플렉싱된다. 비디오 비트스트림은 디코딩 및 모니터(320) 상의 재생을 위해 비디오 디코더(310)에 제공된다. 오디오 비트스트림은 원본 인코딩된 SES를 정확하게 또는 SES 내에 인코딩된 공간 큐를 보존하는 형태로 복구하는 오디오 비트스트림 디코더(330)에 제공된다. 예를 들어, 몇몇 실시예에서, 오디오 비트스트림 디코더(330)는 오디오 비트스트림 인코더(240) 내에 선택적으로 포함된 오디오 파형 인코더의 반대인 오디오 파형 디코더를 포함한다.

몇몇 실시예에서, 디코더(330)로부터의 디코딩된 SES 출력은 표준 2-채널 스테레오 재현과 호환성이 있는 2-채널 스테레오 신호를 포함한다. 이 신호는 추가의 디코딩 또는 프로세싱을 필요로 하지 않고(개별 좌우 오디오 신호의 디지털 대 아날로그 변환 및 증폭 이외에), 한 쌍의 라우드스피커와 같은, 레거시 재생 시스템(340)에 직접 제공될 수 있다. 전술된 바와 같이, SES 내에 포함된 역호환성 스테레오 신호는 이것이 레거시 재생 시스템(340) 상에 원본 캡처된 오디오 장면의 실행가능한 재현을 제공하도록 이루어진다. 대안 실시예에서, 레거시 재생 시스템(340)은 5.1 또는 7.1 서라운드 사운드 재현 시스템과 같은 멀티채널 재생 시스템일 수도 있고, 오디오 비트스트림 디코더(330)에 의해 제공된 디코딩된 SES는 레거시 재생 시스템(340)과 직접 호환성이 있는 멀티채널 신호를 포함할 수도 있다.

디코딩된 SES가 2-채널 또는 멀티채널 레거시 재생 시스템(340)에 직접 제공되는 실시예에서, 오디오 비트스트림 내에 포함된 임의의 사이드 정보(부가의 메타데이터 또는 오디오 파형 채널과 같은)는 오디오 비트스트림 디코더(330)에 의해 간단히 무시될 수도 있다. 따라서, 전체 재생 구성요소(130)는 임의의 기존의 휴대폰 또는 컴퓨터와 같은 레거시 오디오 또는 A/V 재생 디바이스일 수도 있다. 몇몇 실시예에서, 캡처 구성요소(110) 및 분산 구성요소(120)는 임의의 레거시 오디오 또는 비디오 매체 재생 디바이스와 역호환성이 있다.

몇몇 실시예에서, 선택적 공간 오디오 디코더는 오디오 비트스트림 디코더(330)로부터 SES 출력에 적용된다. 도 3에 도시되어 있는 바와 같이, SES 헤드폰 디코더(350)는 헤드폰 출력 및 헤드폰(355)에 의한 재생을 위한 SES 디코딩을 수행한다. SES 스테레오 디코더(360)는 스테레오 라우드스피커 재생 시스템(365)에 스테레오 라우드스피커 출력을 발생하기 위해 SES 디코딩을 수행한다. SES 멀티채널 디코더(370)는 스테레오 라우드스피커 재생 시스템(375)에 스테레오 라우드스피커 출력을 발생하기 위해 SES 디코딩을 수행한다. 이들 SES 디코더의 각각은 대응 재생 구성을 위해 특정하게 맞춤화된 디코딩 알고리즘을 수행한다. 재생 구성요소(130)의 실시예는 임의적 재생 구성을 위한 전술된 SES 디코더 중 하나 이상을 포함한다. 재생 구성에 무관하게, 이들 SES 디코더는 원본 캡처 또는 레코딩 구성에 대한 정보를 필요로 하지 않는다. 예를 들어, 몇몇 실시예에서, SES 디코더는, 예를 들어 "Ambisonics in multichannel broadcasting and video," Michael Gerzon, JAES Vol 33, No 11, Nov. 1985 p.859-871에 설명되어 있는 바와 같이, 앰비소닉 UHJ 대 B-포맷 디코더에 이어서 특정 재생 구성을 위해 맞춤화된 B-포맷 공간 디코더를 포함한다.

예로서, 헤드폰 재생을 지원하는 실시예에서, SES는 인코딩된 오디오 장면을 재생하는 바이노럴(binaural) 신호를 출력하기 위해 SES 헤드폰 디코더(350)에 의해 디코딩된다. 이는 임베디드 공간 오디오 큐를 디코딩하고 머리 전달 함수(head-related transfer functions: HRTFs)와 같은 적절한 지향성 필터링을 적용함으로써 성취된다. 몇몇 실시예에서, 이는 UHJ 대 B-포맷 디코더에 이어서 바이노럴 트랜스코더를 수반할 수도 있다. 디코더는 또한 재현된 오디오 장면의 배향이 청취자의 머리 배향의 변화를 계속 보상하여, 따라서 원본 캡처된 음장 내에 몰입되는 청취자의 환영을 보강하기 위해 헤드폰 재생 중에 자동으로 조정될 수도 있도록 헤드 트래킹을 지원할 수도 있다.

2-채널 라우드스피커 시스템(자립형 라우드스피커 또는 랩탑 또는 태블릿 컴퓨터, TV 세트, 또는 사운드바 봉입체 내에 내장된 라우드스피커와 같은)에 접속된 재생 구성요소(130)의 실시예의 예로서, SES는 먼저 SES 스테레오 디코더(360)에 의해 공간적으로 디코딩된다. 몇몇 실시예에서, 디코더(360)는 SES 헤드폰 디코더(350)에 동등한 SES 디코더를 포함하는 데, 그 바이노럴 출력 신호는 SES 내에 인코딩된 공간 큐의 충실한 재현을 제공하기 위해 적절한 누화 상쇄 회로(특정 2-채널 라우드스피커 재생 구성을 위해 맞춤화된)에 의해 더 프로세싱될 수도 있다.

멀티채널 라우드스피커 시스템에 접속된 재생 구성요소(130)의 실시예의 예로서, SES는 먼저 SES 멀티채널 디코더(370)에 의해 공간적으로 디코딩된다. 멀티채널 라우드스피커 재생 시스템(375)의 구성은 표준 5.1 또는 7.1 서라운드 사운드 시스템 구성 또는 예를 들어 높이 채널(22.2 시스템 구성과 같은)을 포함하는 임의적 서라운드 사운드 또는 몰입형 3차원 구성일 수도 있다.

SES 멀티채널 디코더(370)에 의해 수행된 동작은 SES 내에 포함된 2-채널 또는 멀티채널 신호를 재포맷하는 것을 포함할 수도 있다. 이 재포맷은 SES 내에 포함된 선택적 부가의 메타데이터 또는 사이드 정보 및 라우드스피커 출력 레이아웃에 따라 SES 내에 인코딩된 공간적 오디오 장면을 충실하게 재현하기 위해 행해진다. 몇몇 실시예에서, SES는 2-채널 또는 멀티채널 UHJ 또는 B-포맷 신호를 포함하고, SES 멀티채널 디코더(370)는 특정 재생 구성을 위해 최적화된 공간 디코더를 포함한다.

SES가 표준 2-채널 스테레오 재생을 위해 실행가능한 역호환성 2-채널 스테레오 신호를 포함하는 다른 실시예에서, 대안적인 2 채널 인코드/디코드 방안이 공간 오디오 충실도의 견지에서 UHJ 인코드/디코드의 공지의 제한을 극복하기 위해 채용될 수도 있다. 예를 들어, SES 인코더는 또한 향상된 공간 큐 분해능을 성취하고 3차원 정보를 보존하기 위해, 다중 주파수 대역에서 공간 인코딩을 수행할 수 있는 2-채널 주파수-도메인 위상-진폭 인코딩법을 사용할 수도 있다. 부가적으로, SES 인코더 내에서의 이러한 공간 인코딩법 및 선택적 메타데이터 추출의 합성은 원본 캡처된 음장에 대한 재현된 오디오 장면의 충실도 및 정확도의 추가의 향상을 가능하게 한다.

몇몇 실시예에서, SES 디코더는 가정된 청취 시나리오에 가장 적합한 디폴트 재생 구성을 갖는 재생 디바이스 상에 상주한다. 예를 들어, 헤드폰 재현은 모바일 디바이스 또는 카메라를 위한 가정된 청취 시나리오일 수도 있어, SES가 디폴트 디코딩 포맷으로서 헤드폰을 갖고 구성될 수도 있게 된다. 다른 예로서, 7.1 멀티채널 서라운드 시스템이 홈시어터 청취 시나리오를 위한 가정된 재생 구성일 수도 있어, 따라서 홈시어터 디바이스 상에 상주하는 SES 디코더는 디폴트 재생 구성으로서 7.1 멀티채널 서라운드를 갖고 구성될 수도 있다.

II. 시스템 상세 및 대안 실시예

음장 코딩 시스템(100) 및 방법의 다양한 실시예의 시스템 상세가 이제 설명될 것이다. 구성요소, 시스템, 및 코덱이 구현될 수도 있는 다수의 방식 중 단지 몇 개만이 이하에 상세히 설명된다는 것이 주목되어야 한다. 다수의 변형예가 본 명세서에 도시되어 설명되어 있는 것들로부터 가능하다.

플렉시블 몰입형 오디오 캡처 및 공간 인코딩 실시예

도 4는 음장 코딩 시스템(100) 내의 공간 인코더 및 디코더의 실시예의 일반적인 블록도를 도시하고 있다. 도 4를 참조하면, N개의 오디오 신호가 N개의 마이크로폰에 의해 개별적으로 캡처되어 N개의 마이크로폰 신호를 얻는다. N개의 마이크로폰의 각각은 기준 방향에 대한 방향 및 주파수의 함수로서 그 응답을 특징화하는 지향성 패턴을 갖는다. 공간 인코더(410)에서, N개의 신호가 T개의 신호에 합성되어 T개의 신호의 각각이 그에 연계된 지정된 지향성 패턴을 갖게 된다.

몇몇 실시예에서, 공간 인코더(410)는 또한 도 4에 점선에 의해 표현되어 있는 사이드 정보(S)를 생성하는 데, 이 사이드 정보는 몇몇 실시예에서 공간 오디오 메타데이터 및/또는 부가의 오디오 파형 신호를 포함한다. T개의 신호는 선택적 사이드 정보(S)와 함께, 공간 인코딩 신호(SES)를 형성한다. SES는 후속의 사용 또는 분산을 위해 전송되거나 저장된다. 바람직한 실시예에서, T는 N 미만이어서 N개의 마이크로폰 신호를 T개의 전송 신호로 인코딩하는 것은 N개의 마이크로폰에 의해 캡처된 오디오 장면을 표현하도록 요구된 데이터의 양의 감소를 실현하게 된다.

몇몇 바람직한 실시예에서, 사이드 정보(S)는 T개의 오디오 전송 신호의 것보다 더 낮은 데이터 레이트에서 저장된 공간 큐로 이루어진다. 이는 사이드 정보(S)를 포함하는 것이 일반적으로 총 SES 데이터 레이트를 실질적으로 증가시키지 않는다는 것을 의미한다. 공간 디코더 및 렌더러(420)는 SES를 타겟 재생 시스템(도시 생략)을 위해 최적화된 Q개의 재생 신호로 변환한다. 타겟 재생 시스템은 헤드폰, 2-채널 라우드스피커 시스템, 5-채널 라우드스피커 시스템, 또는 몇몇 다른 재생 구성일 수 있다.

도 4에서, 전송 신호의 수는 일반성의 손실 없이 2개로서 도시되어 있다는 것이 주목되어야 한다. 전송 채널의 수에 대한 다른 디자인 선택이 본 발명의 범주 내에 포함된다. 예를 들어, 몇몇 실시예에서, T는 1이 되도록 선택될 수도 있다. 이들 실시예에서, 전송 신호는 N개의 캡처된 신호의 모노포닉 다운-믹스(monophonic down-mix)일 수도 있고, 몇몇 공간 사이드 정보(S)는 캡처된 음장을 표현하는 공간 큐를 인코딩하기 위해 SES 내에 포함될 수도 있다. 다른 실시예에서, T는 2 초과이도록 선택될 수도 있다. T가 1 초과일 때, 사이드 정보(S) 내에 공간 큐를 포함하는 것은 T개의 오디오 신호 자체 내에 공간 큐를 인코딩하는 것이 가능하기 때문에 필요하지 않다. 예로서, 공간 큐는 T개의 전송된 신호 사이의 채널간 진폭 및 위상차에 맵핑될 수도 있다.

도 5는 T=2인 도 4에 설명되어 있는 것과 유사한 시스템(100)의 실시예를 더 상세하게 도시하고 있는 블록도이다. 이들 실시예에서, N개의 마이크로폰 신호는 공간 인코더(410)에 입력된다. 공간 큐는 T개의 전송된 신호 내로 공간 인코더(410)에 의해 인코딩되고, 사이드 정보(S)는 함께 생략될 수도 있다. 몇몇 실시예에서, 도 1 및 도 2와 관련하여 전술된 바와 같이, 2-채널 SES는 표준 파형 코더(MP3 또는 AAC와 같은)를 사용하여 인지 코딩되고, 이용 가능한 디지털 분산 매체 또는 네트워크 및 브로드캐스팅 인프라구조를 거쳐 즉시 분산되고, 표준 2-채널 스테레오 구성에서(헤드폰 또는 라우드스피커를 사용하여) 직접 재생된다. 이러한 실시예에서, 인코딩 및 전송 시스템이 공간 디코딩 및 렌더링 프로세스를 필요로 하지 않고 통상적으로 이용 가능한 2-채널 스테레오 시스템 상에서의 재생을 지원한다는 것은 중요한 장점이다.

시스템(100)의 몇몇 실시예는 단일의 마이크로폰(N=1)을 포함한다. 이들 실시예에서, 마이크로폰 신호 내에 공간 다이버시티가 존재하지 않기 때문에 공간 정보는 캡처되지 않을 것이라는 것이 주목되어야 한다. 이들 상황에서, 의사-스테레오 기술[예를 들어, Orban, "A Rational Technique for Synthesizing Pseudo-Stereo From Monophonic Sources," JAES 18(2)(1970)에 설명된 바와 같은]이, 모노포닉 캡처된 오디오 신호로부터, 표준 스테레오 재현 시스템 상에서 직접 재생될 때 인공 공간감(spatial impression)을 생성하기 위해 적합한 2-채널 SES를 발생하도록 공간 인코더(410) 내에 채용될 수도 있다.

시스템(100)의 몇몇 실시예는 공간 디코더 및 렌더러(420)를 포함한다. 몇몇 바람직한 실시예에서, 공간 디코더 및 렌더러(420)의 기능은 사용시에 특정 재생 구성을 위한 재현된 오디오 장면의 공간 충실도를 최적화하는 것이다. 예를 들어, 공간 디코더 및 렌더러(420)는 이하의 것: (a) 예를 들어 HRTF-기반 가상화 기술을 사용하여, 헤드폰 재생에 있어서 몰입형 3-D 오디오 재현을 위해 최적화된 2개의 출력 채널; (b) 예를 들어 가상화 및 누화 상쇄 기술을 사용하여, 2개의 라우드스피커 상에서 재생에 있어서 몰입형 3-D 오디오 재현을 위해 최적화된 2개의 출력 채널; 및 (c) 5개의 라우드스피커 상에서 재생에 있어서 몰입형 3-D 오디오 또는 서라운드-사운드 재현을 위해 최적화된 5개의 출력 채널 중 하나 이상을 제공한다. 이들은 재현 포맷의 대표적인 예이다. 몇몇 실시예에서, 공간 디코더 및 렌더러(420)는 이하에 더 상세히 설명되는 바와 같이, 임의의 임의적 재현 시스템 상에서 재현을 위해 최적화된 재생 신호를 제공하도록 구성된다.

도 6은 도 4 및 도 5에 도시되어 있는 공간 디코더 및 렌더러(420)의 실시예를 더 상세히 도시하고 있는 블록도이다. 도 6에 도시되어 있는 바와 같이, 공간 디코더 및 렌더러(420)는 공간 디코더(600) 및 렌더러(610)를 포함한다. 일반성의 손실 없이 도시되어 있는 SES는 선택적 사이드 정보(S)를 갖는 T=2개의 채널을 포함한다. 디코더(600)는 먼저 SES를 P개의 오디오 신호로 디코딩한다. 예시적인 실시예에서, 디코더(600)는 5-채널 매트릭스-디코딩된 신호를 출력한다. P개의 오디오 신호는 이어서 재현 시스템의 재생 구성을 위해 최적화된 Q개의 재생 신호를 형성하도록 프로세싱된다. 일 예시적인 실시예에서, SES는 2-채널 UHJ-인코딩된 신호이고, 디코더(600)는 통상의 앰비소닉 UHJ 대 B-포맷 컨버터이고, 렌더러(610)는 또한 Q-채널 재생 구성을 위한 B-포맷 신호를 디코딩한다.

도 7은 T=2개의 전송 신호를 갖고 사이드 정보를 갖지 않는 SES 캡처 및 인코딩을 도시하고 있는 블록도이다. 이들 실시예에서, 공간 인코더(410)는 N개의 마이크로폰 신호를 스테레오 신호로 인코딩하도록 설계된다. 전술된 바와 같이, T=2의 선택은 공통 인지 오디오 파형 코더(AAC 또는 MP3), 오디오 분산 매체, 및 재현 시스템과 호환성이 있다. N개의 마이크로폰은 동축형 마이크로폰, 거의 동축형 마이크로폰, 또는 비동축형 마이크로폰일 수도 있다. 마이크로폰은 카메라, 스마트폰, 필드 레코더, 또는 이러한 디바이스를 위한 부속품과 같은 단일의 디바이스 내에 내장될 수도 있다. 부가적으로, N개의 마이크로폰 신호는 다수의 동종 또는 이종 디바이스 또는 디바이스 부속품을 가로질러 동기화될 수도 있다.

몇몇 실시예에서, 동시성(신호의 시간 정렬)이 고품질 공간 디코딩을 용이하게 하기 위해 유리하기 때문에, T=2개의 전송 채널은 동축형 가상 마이크로폰 신호를 시뮬레이션하도록 인코딩된다. 비동축형 마이크로폰이 사용되는 실시예에서, 도달의 방향을 분석하는 것과 대응 보상을 적용하는 것에 기초하는 시간 정렬을 위한 설비가 SES 인코더 내에 합체될 수도 있다. 대안 실시예에서, 스테레오 신호는, 예상된 디코더와 연계된 공간 오디오 재현 사용 시나리오 및 용례에 따라, 바이노럴 또는 비동축형 마이크로폰 레코딩 신호에 대응하도록 유도될 수도 있다.

도 8은 도 4 내지 도 7에 도시되어 있는 공간 인코더(410)의 실시예를 도시하고 있는 블록도이다. 도 8에 도시되어 있는 바와 같이, N개의 마이크로폰 신호가 공간 분석기 및 컨버터(800)에 입력되고, 여기서 N개의 마이크로폰 신호는 먼저 M개의 신호로 이루어진 중간 포맷으로 변환된다. 이들 M개의 신호는 이후에 전송을 위해 2개의 채널로 렌더러(810)에 의해 인코딩된다. 도 8에 도시되어 있는 실시예는, 중간 M-채널 포맷이 N개의 마이크로폰 신호보다 렌더러(810)에 의해 프로세싱을 위해 더 적합할 때 유리하다. 몇몇 실시예에서, M개의 중간 채널로의 변환은 N개의 마이크로폰 신호의 분석을 구체화할 수도 있다. 더욱이, 몇몇 실시예에서, 공간 변환 프로세스(800)는 다수의 변환 단계 및 중간 포맷을 포함할 수도 있다.

특정 실시예의 상세

도 9a는 A-포맷 마이크로폰 신호 캡처가 사용되는 도 7에 도시되어 있는 공간 인코더(410) 및 방법의 특정 예시적인 실시예를 도시하고 있다. 원(raw) 4-채널 A-포맷 마이크로폰 신호는 A-포맷 대 B-포맷 컨버터(900)에 의해 앰비소닉 B-포맷 신호(W, X, Y, Z)로 즉시 변환될 수 있다. 대안적으로, B-포맷 신호를 직접 제공하는 마이크로폰이 사용될 수도 있고, 이 경우에 A-포맷 대 B-포맷 컨버터(900)는 불필요하다.

다양한 가상 마이크로폰 지향성 패턴이 B-포맷 신호로부터 형성될 수 있다. 본 실시예에서, B-포맷 대 슈퍼카디오이드 컨버터 블록(910)이 이하의 식을 사용하여 B-포맷 신호를 3개의 슈퍼카디오이드 마이크로폰 신호의 세트로 변환한다.

예를 들어

및 p=0.33으로 설정된 디자인 파라미터를 가짐. W는 B-포맷 내의 전방향성 압력 신호이고, X는 B-포맷 내의 전후 숫자 8 형상 신호이고, Y는 B-포맷 내의 좌우 숫자 8 형상 신호이다. B-포맷 내의 Z 신호(상하 숫자 8 형상 신호)는 이 변환에 사용되지 않는다. V_L은 수평 평면에서 -60도로 스티어링된(

라디안각에 따라) 지향성 패턴을 갖는 슈퍼카디오이드에 대응하는 가상 좌측 마이크로폰 신호이고, V_R은 수평 평면에서 +60도로 스티어링된(

라디안각에 따라) 지향성 패턴을 갖는 슈퍼카디오이드에 대응하는 가상 우측 마이크로폰이고, V_S는 수평 평면에서 +180도로 스티어링된(θ_S=π 라디안각에 따라) 지향성 패턴을 갖는 슈퍼카디오이드에 대응하는 가상 서라운드 마이크로폰 신호이다. 파라미터 p=0.33은 가상 마이크로폰 신호의 원하는 지향성에 따라 선택된다.

도 9b는 B-포맷 성분의 지향성 패턴을 선형 스케일로 도시하고 있다. 플롯(920)은 전방향성 W 성분의 지향성 패턴을 도시하고 있다. 플롯(930)은 전후 X 성분의 지향성 패턴을 도시하고 있고, 여기서 0도는 전방 방향이다. 플롯(940)은 좌우 Y 성분의 지향성 패턴을 도시하고 있다.

도 9c는 본 실시예에서 슈퍼카디오이드 가상 마이크로폰의 지향성 패턴을 dB 스케일로 도시하고 있다. 플롯(950)은 -60도로 스티어링된 가상 마이크로폰인 V_L의 지향성 패턴을 도시하고 있다. 플롯(960)은 +60도로 스티어링된 가상 마이크로폰인 V_R의 지향성 패턴을 도시하고 있다. 플롯(970)은 +180도로 스티어링된 가상 마이크로폰인 V_S의 지향성 패턴을 도시하고 있다.

공간 인코더(410)는 컨버터(910)에 의해 생성된 최종적인 3-채널 슈퍼카디오이드 신호(V_L, V_R, V_S)를 2-채널 SES로 변환한다. 이는 이하의 위상-진폭 매트릭스 인코딩식을 사용하여 성취된다:

여기서, L_T는 인코딩된 좌측 채널 신호를 나타내고, R_T는 인코딩된 우측 채널 신호를 나타내고, J는 90도 위상 시프트를 나타내고, a 및 b는 3:2 매트릭스 인코딩 가중치이고, V_R, V_L 및 V_S는 각각 좌측 채널 가상 마이크로폰 신호, 우측 채널 가상 마이크로폰 신호, 및 서라운드 채널 가상 마이크로폰 신호이다. 몇몇 실시예에서, 3:2 매트릭스 인코딩 가중치는 a=1 및 b=

로서 선택될 수도 있는 데, 이는 인코딩된 SES 내에 3-채널 신호(V_L, V_R, V_S)의 총 전력을 보존한다. 당 기술 분야의 숙련자들에게 명백할 것인 바와 같이, 상기 매트릭스 인코딩식은 도 9c에 도시되어 있는 3-채널 신호(V_L, V_R, V_S)와 연계된 3개의 가상 마이크로폰 지향성 패턴의 세트를 2-채널 SES(L_T, R_T)와 연계된 한 쌍의 복소값 가상 마이크로폰 지향성 패턴으로 변환하는 효과를 갖는다.

도 9a에 도시되어 있고 전술된 실시예는 저전력 디바이스 및 용례를 위해 적합할 수도 있는 저복잡성 공간 인코더를 실현한다. 본 발명의 범주 내에서, 중간 3-채널 표현을 위한 대안적인 지향성 패턴은 B-포맷 신호로부터 형성될 수도 있다는 것을 주목하라. 최종적인 2-채널 SES는 도 6에 도시되어 있는 공간 디코더(600)와 같은, 위상-진폭 매트릭스 디코더를 사용하여 공간 디코딩을 위해 적합하다.

도 10은 B-포맷 신호가 5-채널 서라운드-사운드 신호(L, R, C, L_S, R_S)로 변환되는, 도 7에 도시되어 있는 공간 인코더(410) 및 방법의 특정 예시적인 실시예를 도시하고 있다. L은 전방 좌측 채널, R은 전방 우측 채널을, C는 전방 중심 채널을, L_S는 좌측 서라운드 채널을, 그리고 R_S는 우측 서라운드 채널을 나타낸다는 것이 주목되어야 한다. 도 9a에 유사하게, A-포맷 마이크로폰 신호는 A-포맷 대 B-포맷 컨버터(1000)에 입력되고 B-포맷 신호로 변환된다. 이 4-채널 B-포맷 신호는 몇몇 실시예에서 멀티채널 B-포맷 디코더인 B-포맷 대 멀티채널 포맷 컨버터(1010)에 의해 프로세싱된다. 다음에, 공간 인코더는 실시예에서, 이하의 위상-진폭 매트릭스 인코딩식을 사용하여, 컨버터(1010)에 의해 생성된 5-채널 서라운드-사운드 신호를 2-채널 SES로 변환하고:

여기서, L_T 및 R_T는 공간 인코더에 의해 출력된 좌측 및 우측 SES 신호를 각각 나타낸다. 몇몇 실시예에서, 매트릭스 인코딩 계수는 a₁=1, a₂=0, a₃=

, a₄=

, 및 a₅=

로서 선택될 수도 있다. 매트릭스 인코딩 계수의 대안적인 세트가 2-채널 인코딩된 신호 내의 전방 및 서라운드 채널의 원하는 공간 분포에 따라 사용될 수도 있다. 도 9a의 공간 인코더 실시예에서와 같이, 최종적인 2-채널 SES는 도 6에 도시되어 있는 공간 디코더(600)와 같은, 위상-진폭 매트릭스 디코더에 의한 공간 디코딩을 위해 적합하다.

도 10에 도시되어 있는 실시예에서, B-포맷 신호는 5-채널 중간 서라운드-사운드 포맷으로 변환된다. 그러나, 본 발명의 범주 내에서, 임의적 수평 서라운드 또는 3차원 중간 멀티채널 포맷이 사용될 수 있다는 것이 이해될 수 있을 것이다. 이들 경우에, 컨버터(1010) 및 공간 인코더(410)의 동작은 개별 중간 채널에 할당된 가정된 방향의 세트에 따라 즉시 구성될 수 있다.

도 11은 B-포맷 신호가 지향성 오디오 코딩(DirAC) 표현으로 변환되는, 도 7에 도시되어 있는 공간 인코더(410) 및 방법의 특정 예시적인 실시예를 도시하고 있다. 구체적으로, 도 11에 도시되어 있는 바와 같이, A-포맷 마이크로폰 신호는 A-포맷 대 B-포맷 컨버터(1100)에 입력된다. 최종 B-포맷 신호는 예를 들어, Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", JAES Vol 55 No. 6 pp. 503-516, June 2007에 설명된 바와 같이, B-포맷 대 DirAC 포맷 컨버터(1110)에 의해 DirAC-인코딩된 신호로 변환된다. 공간 인코더(410)는 이어서 DirAC-인코딩된 신호를 2-채널 SES로 변환한다. 일 실시예에서, 이 변환은 예를 들어, Jot, "Two- Channel Matrix Surround Encoding for Flexible Interactive 3-D Audio Reproduction", presented at 125th AES Convention 2008 October에 설명된 방법에 의해 얻어진 2-채널 표현으로 주파수-도메인 DirAC 파형 데이터를 변환함으로써 실현된다. 최종 SES는 도 6에 도시되어 있는 공간 디코더(600)와 같은, 위상-진폭 매트릭스 디코더에 의한 공간 디코딩을 위해 적합하다.

DirAC 인코딩은 음장의 직접 및 확산 성분을 구별하는 주파수-도메인 분석을 포함한다. 본 발명에 따른 공간 인코더[공간 인코더(410)와 같은]에서, 2-채널 인코딩은 DirAC 분석을 레버리징하기 위해 주파수-도메인 표현 내에서 수행된다. 이는 도 9a 및 도 10과 함께 설명된 공간 인코더 실시예에 사용된 것들과 같은 통상의 시간-도메인 위상-진폭 매트릭스 인코딩 기술보다 더 높은 정도의 공간 충실도를 야기한다.

도 12는 SES로의 A-포맷 마이크로폰 신호의 변환의 실시예를 더 상세히 도시하고 있는 블록도이다. 도 12에 도시되어 있는 바와 같이, A-포맷 마이크로폰 신호는 A-포맷 대 B-포맷 컨버터(1200)를 사용하여 B-포맷 신호로 변환된다. B-포맷 신호는 시간-주파수 변환(1210)을 사용하여 주파수 도메인으로 변환된다. 변환(1210)은 단기 푸리에 변환, 웨이블릿 변환(wavelet transform), 서브대역 필터 뱅크(subband filter bank) 또는 시간-도메인 신호를 시간-주파수 표현으로 변환하는 몇몇 다른 연산 중 적어도 하나이다. 다음에, B-포맷 대 DirAC 포맷 컨버터(1220)는 B-포맷 신호를 DirAC 포맷 신호로 변환한다. DirAC 신호는 공간 인코더(410)에 입력되고, 여전히 주파수 도메인에 표현되어 있는 2-채널 SES로 공간 인코딩된다. 신호는 시간-주파수 변환(1210)의 역변환 또는 완벽한 변환이 가능하거나 실행 가능하지 않은 경우에 그 역변환의 근사치인 주파수-시간 변환(1240)을 사용하여 시간 도메인으로 재차 변환된다. 직접 및 역 시간-대-주파수 변환의 모두는 공간 인코딩의 충실도를 향상시키기 위해 본 발명에 따른 임의의 인코더 실시예에 합체될 수도 있다는 것이 주목되어야 한다.

도 13은 공간 인코딩 전에 B-포맷 신호를 주파수-도메인으로 변환하는 공간 인코더(410)의 또 다른 실시예를 도시하고 있는 블록도이다. 도 13을 참조하면, A-포맷 마이크로폰 신호는 A-포맷 대 B-포맷 컨버터(1300)에 입력된다. 최종 신호는 시간-주파수 변환기(1310)를 사용하여 시간 도메인으로부터 주파수 도메인으로 변환된다. 신호는 B-포맷 도미넌스(dominance) 기반 인코더(1320)를 사용하여 인코딩된다. 일 실시예에서, SES는 이하의 식에 따라 인코딩된 2-채널 스테레오 신호이고:

여기서 계수 (a_L, b_L, c_L, d_L)는, 음장이 3-D 위치(α, φ)에서 단일의 음원으로 구성되면, 최종 인코딩 신호가 이하의 식에 의해 제공되도록, B-포맷 신호(W, X, Y, Z)로부터 계산된 주파수-도메인 3-D 도미넌스 방향(α, φ)으로부터 결정된 시간- 및 주파수-의존성 계수이고,

여기서, k_L 및 k_R은 좌측/우측 채널간 진폭 및 위상차가 3-D 위치(α, φ)를 갖고 고유하게 맵핑되도록 하는 복소 인자이다. 이 목적을 위한 예시적인 맵핑 공식(formula)은 예를 들어, Jot, "Two-Channel Matrix Surround Encoding for Flexible Interactive 3-D Audio Reproduction"(2008년 10월에 125회 AES 컨벤션에서 제시됨)에 제안되어 있다. 이러한 3-D 인코딩은 또한 다른 채널 포맷을 위해 수행될 수도 있다. 인코딩 신호는 주파수-시간 변환기(1330)를 사용하여 주파수 도메인으로부터 시간 도메인으로 변환된다.

오디오 장면은 대화자 또는 악기와 같은 이산 음원, 또는 비, 박수, 또는 반향과 같은 확산 사운드로 이루어질 수도 있다. 몇몇 사운드는 예를 들어 대형 엔진의 럼블소음(rumble)과 같이 부분적으로 확산할 수도 있다. 공간 인코더에서, 확산음과 상이한 방식으로 이산 사운드(별개의 방향으로부터 마이크로폰에 도달함)를 처리하는 것이 유리할 수 있다.

도 14는 입력 마이크로폰 신호가 먼저 직접 및 확산 성분으로 분해되는 공간 인코더(410)의 실시예를 도시하고 있는 블록도이다. 직접 및 확산 성분은 이어서 직접 성분 및 확산 성분의 상이한 공간 특성을 보존하기 위해 개별적으로 인코딩된다. 멀티채널 오디오 신호의 직접/확산 분해를 위한 예시적인 방법은 예를 들어, Thompson 등, "Direct- Diffuse Decomposition of Multichannel Signals Using a System of Pairwise Correlations," Presented at 133rd AES Convention (2012 Oct.)에 설명된 바와 같이 설명된다. 직접/확산 분해는 전술된 다양한 공간 인코딩 시스템과 함께 사용될 수 있다는 것이 이해되어야 한다.

옥외 세팅에서 마이크로폰에 의해 캡처된 오디오 신호가 바람 노이즈에 의해 오손될 수도 있다. 몇몇 경우에, 바람 노이즈는 하나 이상의 마이크로폰 상의 신호 품질에 심각하게 영향을 미칠 수도 있다. 이들 및 다른 상황에서, 바람 노이즈 검출 모듈을 포함하는 것이 유리하다. 도 15는 바람 노이즈 검출기를 포함하는 시스템(100) 및 방법의 실시예를 도시하고 있는 블록도이다. 도 15에 도시되어 있는 바와 같이, N개의 마이크로폰 신호는 적응성 공간 인코더(1500)에 입력된다. 바람 노이즈 검출기(1510)가 각각의 마이크로폰 내의 바람 노이즈 에너지 또는 에너지비의 추정치를 제공한다. 심각하게 오손된 마이크로폰 신호는 인코더 내에 사용된 채널 조합으로부터 적응적으로 배제될 수도 있다. 다른 한편으로, 부분적으로 오손된 마이크로폰은 인코딩된 신호 내의 바람 노이즈의 양을 제어하기 위해 인코딩 조합으로 하향 가중될 수도 있다. 몇몇 경우에(고속 이동 옥외 활동 장면을 캡처할 때와 같이), 바람 노이즈 검출에 기초하는 적응성 인코딩은 인코딩된 오디오 신호 내의 바람 노이즈의 적어도 일부 부분을 반송하도록 구성될 수 있다.

적응성 코딩은 또한 예를 들어 디바이스 사용자의 손가락에 의해 또는 디바이스 상의 축적된 오물에 의해, 음향 환경으로부터 하나 이상의 마이크로폰의 차단(blockage)을 고려하는 데 유용할 수도 있다. 차단의 경우에, 마이크로폰은 열악한 신호 캡처를 제공하고, 마이크로폰 신호로부터 유도된 공간 정보는 저신호 레벨에 기인하여 오도될 수도 있다. 차단 조건의 검출은 인코딩 프로세스로부터 차단된 마이크로폰을 배제하는 데 사용될 수도 있다.

몇몇 실시예에서, 저장 또는 분산을 위해 신호를 인코딩하기 전에 오디오 장면에 편집 동작을 수행하는 것이 바람직할 수도 있다. 이러한 편집 동작은 특정 음원에 관한 줌인 또는 줌아웃, 배경 노이즈와 같은 원하지 않는 사운드 성분의 제거, 및 장면 내로 사운드 객체의 추가를 포함할 수도 있다. 도 16은 N개의 마이크로폰 신호를 캡처하고 이들을 편집을 위해 적합한 M-채널 포맷으로 변환하기 위한 시스템을 도시하고 있다.

특히, N개의 마이크로폰 신호는 공간 분석기 및 변환기(1600)에 입력된다. 컨버터(1600)에 의해 출력된 최종 M-채널 신호는 장면에 원하는 수정을 실행하기 위해 사용자에 의해 제어되는 오디오 장면 편집기(1610)에 제공된다. 수정이 행해진 후에, 장면은 공간 인코더(1620)에 의해 공간적으로 인코딩된다. 예시의 목적으로, 도 16은 2-채널 SES 포맷을 도시하고 있다. 대안적으로, N개의 마이크로폰 신호는 편집 도구에 직접 제공될 수도 있다.

캡처 디바이스가 단지 2-채널 SES 포맷만을 제공하도록 구성되는 실시예에서, SES는 편집을 위해 적합한 멀티채널 포맷으로 디코딩되고 이어서 저장 또는 분산을 위해 재인코딩될 수도 있다. 부가의 디코드/인코드 프로세스는 공간 충실도의 몇몇 열화를 도입할 수도 있기 때문에, 2-채널 공간 인코딩 전에 멀티채널 포맷에 편집 동작을 가능하게 하는 것이 바람직하다. 몇몇 실시예에서, 디바이스는 N개의 마이크로폰 신호 또는 편집을 위해 의도된 M-채널 포맷과 동시에 2-채널 SES를 출력하도록 구성될 수도 있다.

몇몇 실시예에서, SES는 비선형 비디오 편집 스위트(suite)로 임포트되고 전통적인 스테레오 영화 캡처에 대해 조작될 수도 있다. 최종 콘텐츠의 공간 완전성은 어떠한 공간적으로 유해한 오디오 프로세싱 효과가 콘텐츠에 적용되지 않으면 편집 후에도 그대로 남아 있을 것이다. SES 디코딩 및 재포맷은 또한 비디오 편집 스위트의 부분으로서 적용될 수도 있다. 예를 들어, 콘텐츠가 DVD 또는 블루레이 디스크로 버닝되면(burned), 멀티채널 스피커 디코드 및 재포맷이 적용되고 결과는 후속의 멀티채널 재생을 위한 멀티채널 포맷으로 인코딩된다. 대안적으로, 오디오 콘텐츠는 임의의 호환성이 있는 재생 하드웨어 상에서 레거시 스테레오 재생을 위해 "그대로(as is)" 제작될(authored) 수도 있다. 이 경우에, SES 디코딩은 적절한 재포맷 알고리즘이 디바이스 상에 존재하면 재생 디바이스 상에 적용될 수도 있다.

도 17은 캡처된 오디오 장면이 디코딩 프로세스의 부분으로서 수정되는 시스템 및 방법의 실시예를 도시하고 있다. 더 구체적으로, N개의 마이크로폰 신호는 몇몇 실시예에서 사이드 정보(S)를 포함하는 SES로서 공간 인코더(1700)에 의해 인코딩된다. SES는 저장되고, 전송되거나, 저장 및 전송된다. 공간 디코더(1710)는 인코딩된 SES를 디코딩하는 데 사용되고, 렌더러(1720)가 Q개의 재생 신호를 제공한다. 장면 수정 파라미터는 오디오 장면을 수정하기 위해 디코더(1710)에 의해 사용된다.

몇몇 바람직한 실시예에서, 장면 수정은 수정이 효율적으로 수행될 수 있는 디코딩 프로세스에서의 시점에 발생한다. 예를 들어, 오디오 렌더링을 위해 헤드폰을 사용하는 가상 현실 용례에서, 사운드 장면의 공간 큐가 사용자의 머리의 움직임에 따라 실시간으로 업데이트되어, 사운드 객체의 인지된 위치확인이 이들의 시각적 대응부의 것에 정합하게 되는 것이 중요하다. 이를 성취하기 위해, 헤드 트래킹 디바이스가 사용자의 머리의 배향을 검출하는 데 사용된다. 가상 오디오 렌더링은 이어서 재현된 사운드 장면이 청취자의 머리 움직임에 독립적으로 나타내도록 이들 추정에 기초하여 연속적으로 업데이트된다.

머리 배향의 추정은 렌더러(1720)가 안정한 오디오 장면을 재현하도록 공간 디코더(1710)의 디코딩 프로세스에 합체될 수 있다. 이는 디코딩 전에 장면을 회전하는 것 또는 가상화 전에 회전된 중간 포맷(공간 디코더에 의해 출력된 P개의 채널)으로 렌더링하는 것에 동등하다. 사이드 정보가 SES 내에 포함되는 실시예에서, 이러한 장면 회전은 사이드 정보 내에 포함된 공간 메타데이터의 조작을 포함할 수도 있다.

공간 디코딩 프로세스에서 지원될 수도 있는 다른 관심 수정은 오디오 장면 및 오디오 줌의 폭의 왜곡(warping)을 포함한다. 몇몇 실시예에서, 디코딩된 오디오 신호는 원본 비디오 레코딩의 시야에 정합하도록 공간적으로 왜곡될 수도 있다. 예를 들어, 원본 비디오가 광각 렌즈를 사용하면, 오디오 장면은 오디오 및 시각적 큐에 더 양호하게 정합하기 위해 유사한 각도 원호를 가로질러 신장될 수도 있다. 몇몇 실시예에서, 오디오는 관심 공간 구역 내로 줌인되거나 또는 구역으로부터 줌아웃되도록 수정될 수도 있고, 오디오 줌은 비디오 줌 수정에 결합될 수도 있다.

몇몇 실시예에서, 디코더는 특정 공간 로케이션에서 디코딩된 신호를 스티어링 또는 강조하기 위해 디코딩된 신호의 공간적 특성을 수정할 수도 있다. 이는 예를 들어, 대화와 같은 특정 청각 이벤트의 주요점(salience)의 향상 또는 감소를 허용할 수도 있다. 몇몇 실시예에서, 이는 음성 검출 알고리즘의 사용을 통해 용이하게 될 수도 있다.

III. 동작 개요

음장 코딩 시스템(100) 및 방법의 실시예는 몰입형 오디오 장면을 표현하고 있는 음장을 캡처하기 위해 임의적 마이크로폰 어레이 구성을 사용한다. 캡처된 오디오는 사용된 마이크로폰 어레이 구성에 불가지론적인 일반적 SES 포맷으로 인코딩된다.

도 18은 도 1 내지 도 17에 도시되어 있는 음장 코딩 시스템(100)의 캡처 구성요소(110)의 실시예의 일반적인 동작을 도시하고 있는 흐름도이다. 동작은 복수의 마이크로폰을 포함하는 마이크로폰 구성을 선택하는 것으로 시작한다(박스 1800). 이들 마이크로폰은 적어도 하나의 오디오 소스로부터 사운드를 캡처하는 데 사용된다. 마이크로폰 구성은 기준 방향에 대한 각각의 마이크로폰을 위한 마이크로폰 지향성 패턴을 규정한다. 게다가, 복수의 가상 마이크로폰을 포함하는 가상 마이크로폰 구성이 선택된다(박스 1810).

방법은 마이크로폰 구성 및 가상 마이크로폰 구성에 기초하여 공간 인코딩 계수를 계산한다(박스 1820). 복수의 마이크로폰으로부터의 마이크로폰 신호는 공간 인코딩 계수를 사용하여 공간적으로 인코딩된 신호로 변환된다(박스 1830). 시스템(100)의 출력은 공간적으로 인코딩된 신호이다(박스 1840). 신호는 기준 방향에 대한 오디오 소스의 위치에 대한 인코딩된 공간 정보를 포함한다.

전술된 바와 같이, 시스템(100) 및 방법의 다양한 다른 실시예가 본 명세서에 개시된다. 예로서 비한정적으로, 도 7을 재차 참조하면, 공간 인코더(410)는 N:2 공간 인코더로부터 N:T 공간 인코더로 일반화될 수도 있다. 더욱이, 직접 2-채널 스테레오 재생과 그리고 플렉시블 재생 구성에서 몰입형 오디오 재현을 위해 구성된 위상-진폭 매트릭스 디코더와 호환성이 있는 2-채널 SES(L_T, R_T)를 생성하는 인코더를 위한 다양한 다른 실시예가 본 발명의 범주 내에서 실현될 수도 있다. 앰비소닉 A 또는 B 포맷과 같은 표준 마이크로폰 구성이 사용되는 실시예에서, 2-채널 인코딩식이 마이크로폰 포맷의 공식화된 지향성 패턴에 기초하여 지정될 수도 있다.

더 일반적으로, 마이크로폰이 디바이스 디자인 제약 또는 디바이스의 네트워크의 애드혹 성질에 기인하여 비표준 구성으로 위치될 수도 있는 실시예에서, 공간적으로 인코딩된 신호의 유도가 상대 마이크로폰 로케이션 및 마이크로폰의 측정된 또는 추정된 지향성에 기초하여 마이크로폰 신호의 조합에 의해 형성될 수도 있다. 조합은 2-채널 SES 인코딩을 위해 적합한 지정된 지향성 패턴을 최적으로 성취하도록 형성될 수도 있다. 각각의 레코딩 디바이스 또는 부속품 상에 장착된 때 N개의 마이크로폰의 지향성 패턴 Gn(f, α, φ) 제공되고, 여기서 지향성 패턴은 주파수(f) 및 3-D 위치(α, φ)의 함수로서 마이크로폰의 응답을 특징화하는 복소 진폭 인자이면, 계수 K_Ln(f) 및 K_Rn(f)의 세트가 좌측 및 우측 SES 채널에 대한 가상 마이크로폰 지향성을 형성하기 위해 각각의 주파수에서 각각의 마이크로폰에 대해 최적화될 수도 있고:

여기서, 계수 최적화가 최종 좌측 및 우측 가상 마이크로폰 지향성 패턴과 각각의 인코딩 채널을 위한 지정된 좌측 및 우측 지향성 사이의 에러 기준을 최소화하도록 수행된다.

몇몇 실시예에서, 마이크로폰 응답은 지정된 가상 마이크로폰 지향성 패턴을 정확하게 형성하도록 조합될 수도 있고, 이 경우에 등식이 상기 식에 성립할 것이다. 예를 들어, 도 9b 및 도 9c와 함께 설명된 실시예에서, B-포맷 마이크로폰 응답은 지정된 가상 마이크로폰 응답을 정밀하게 성취하도록 조합되었다. 몇몇 실시예에서, 계수 최적화는 최소 제곱 근사법과 같은 최적화 방법을 사용하여 수행될 수도 있다.

2-채널 SES 인코딩 식은 이후에 이하의 식에 의해 제공되고,

여기서, L_T(f, t) 및 R_T(f, t)는 각각 좌측 및 우측 SES 채널의 주파수-도메인 표현을 나타내고, S_n(f, t)는 n번째 마이크로폰 신호의 주파수-도메인 표현을 나타낸다.

유사하게, 도 4에 따른 몇몇 실시예에서, T개의 인코딩된 신호에 대응하는 T개의 가상 마이크로폰을 위한 최적 지향성 패턴이 형성될 수도 있고, 여기서 T는 2가 아니다. 도 8에 따른 실시예에서, 중간 포맷에서 M개의 채널에 대응하는 M개의 가상 마이크로폰을 위한 최적 지향성 패턴이 형성될 수도 있고, 여기서 중간 포맷의 각각의 채널은 지정된 지향성 패턴을 갖고, 중간 포맷의 M개의 채널은 이후에 2개의 채널로 인코딩된다. 다른 실시예에서, M개의 중간 채널은 T개의 채널로 인코딩될 수도 있고, 여기서 T는 2가 아니다.

상기 다양한 실시예의 설명으로부터, 본 발명은 임의의 마이크로폰 포맷을 인코딩하는 데 사용될 수도 있고, 더욱이 마이크로폰 포맷이 지향성 선택적 응답을 제공하면, 공간 인코딩/디코딩이 지향성 선택도를 보존할 수도 있다는 것이 이해되어야 한다. 캡처 및 인코딩 시스템 내에 합체될 수도 있는 다른 마이크로폰 포맷은 매트릭스 인코딩 및 디코딩을 지원하기 위해 주파수-도메인 공간 분석에 기초하여 시간 정렬될 수도 있는 XY 스테레오 마이크로폰 및 비동축성 마이크로폰을 포함하지만, 이들에 한정되는 것은 아니다.

상기 다양한 실시예 합체된 주파수-도메인 동작의 설명으로부터, 주파수-도메인 분석이 인코딩 프로세스의 공간 충실도를 증가시키기 위해 임의의 실시예와 함께 수행될 수도 있고, 달리 말하면 주파수-도메인 프로세싱은 공간 인코딩 후에 시간-주파수 변환, 주파수-도메인 분석, 및 역변환을 수행하기 위해 부가의 연산을 희생하여, 순수 시간-도메인 접근법보다 캡처된 장면을 더 정확하게 정합하는 디코딩 장면을 야기할 것이라는 것이 이해되어야 한다.

IV. 예시적인 동작 환경

본 명세서에 설명된 것들 이외의 다수의 다른 변형이 본 문서로부터 명백할 것이다. 예를 들어, 실시예에 따라, 본 명세서에 설명된 임의의 방법 및 알고리즘의 특정 행동, 이벤트, 또는 기능이 상이한 시퀀스로 수행될 수 있고, 함께 가산되고, 병합되거나, 제외될 수 있다(모든 설명된 행동 또는 이벤트가 방법 및 알고리즘의 실시를 위해 필요한 것은 아니게). 더욱이, 특정 실시예에서, 행동 또는 이벤트는 순차적인 것보다는, 멀티스레드 프로세싱, 인터럽트 프로세싱, 또는 다중 프로세서 또는 프로세서 코어를 통해 또는 다른 병렬 아키텍처 상에서와 같이, 동시에 수행될 수 있다. 게다가, 상이한 작업 또는 프로세스는 함께 기능할 수 있는 상이한 기계 및 컴퓨팅 시스템에 의해 수행될 수 있다.

본 명세서에 개시된 실시예와 관련하여 설명된 다양한 예시적인 논리 블록, 모듈, 방법, 및 알고리즘 프로세스 및 시퀀스는 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합으로서 구현될 수 있다. 하드웨어와 소프트웨어의 이 상호교환성을 명백하게 예시하기 위해, 다양한 예시적인 구성요소, 블록, 모듈, 및 프로세스 행동이 이들의 기능성의 견지에서 일반적으로 전술되어 있다. 이러한 기능성이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정 용례 및 전체 시스템 상에 부여된 디자인 제약에 의존한다. 설명된 기능성은 각각의 특정 용례에 대해 다양한 방식으로 구현될 수 있지만, 이러한 구현 결정은 본 문서의 범주로부터 일탈을 유발하는 것으로서 해석되지 않아야 한다.

본 명세서에 개시된 실시예와 관련하여 설명된 다양한 예시적인 논리 블록 및 모듈은 범용 프로세서, 프로세싱 디바이스, 하나 이상의 프로세싱 디바이스를 갖는 컴퓨팅 디바이스, 디지털 신호 프로세서(digital signal processor: DSP), 응용 주문형 집적 회로(application specific integrated circuit: ASIC), 필드 프로그램가능 게이트 어레이(field programmable gate array: FPGA) 또는 다른 프로그램가능 논리 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 구성요소, 또는 본 명세서에 설명된 기능을 수행하도록 설계된 이들의 임의의 조합과 같은 기계에 의해 구현되거나 수행될 수 있다. 범용 프로세서 및 프로세싱 디바이스는 마이크로프로세서일 수 있지만, 대안에서, 프로세서는 제어기, 마이크로제어기, 또는 상태 기계, 이들의 조합 등일 수 있다. 프로세서는 또한 DSP와 마이크로프로세서의 조합과 같은 컴퓨팅 디바이스의 조합, 복수의 마이크로프로세서, DSP 코어와 함께 하나 이상의 마이크로프로세서, 또는 임의의 다른 이러한 구성으로서 구현될 수 있다.

본 명세서에 설명된 음장 코딩 시스템 및 방법의 실시예는 수많은 유형의 범용 또는 특정 용도 컴퓨팅 시스템 환경 또는 구성 내에서 동작한다. 일반적으로, 컴퓨팅 환경은 이들에 한정되는 것은 아니지만, 몇몇 예로 들면, 하나 이상의 마이크로프로세서에 기초하는 컴퓨터 시스템, 메인프레임 컴퓨터, 디지털 신호 프로세서, 휴대형 컴퓨팅 디바이스, 퍼스널 오거나이저, 디바이스 제어기, 기기 내의 연산 엔진, 휴대폰, 데스크탑 컴퓨터, 모바일 컴퓨터, 태블릿 컴퓨터, 스마트폰, 및 임베디드 컴퓨터를 갖는 기기를 포함하는 임의의 유형의 컴퓨터 시스템을 포함할 수 있다.

이러한 컴퓨팅 디바이스는 통상적으로 이들에 한정되는 것은 아니지만, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 컴퓨팅 디바이스, 랩탑 또는 모바일 컴퓨터, 휴대폰 및 PDA와 같은 통신 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋탑 박스, 프로그램가능 소비자 전자 기기, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 오디오 또는 비디오 미디어 플레이어 등을 포함하는 적어도 몇몇 최소 연산 능력을 갖는 디바이스에서 발견될 수 있다. 몇몇 실시예에서, 컴퓨팅 디바이스는 하나 이상의 프로세서를 포함할 것이다. 각각의 프로세서는 디지털 신호 프로세서(DSP), 긴 명령어 워드(very long instruction word: VLIW), 또는 마이크로 마이크로제어기와 같은 특수화된 마이크로프로세서일 수도 있고, 또는 멀티코어 CPU 내의 특수화된 그래픽 프로세싱 유닛(graphics processing unit: GPU)-기반 코어를 포함하여, 하나 이상의 프로세싱 코어를 갖는 통상의 중앙 처리 유닛(central processing units: CPUs)일 수 있다.

본 명세서에 개시된 실시예와 관련하여 설명된 방법, 프로세스, 또는 알고리즘의 프로세서 행동은 하드웨어 내에서, 프로세서에 의해 실행되는 소프트웨어 모듈 내에서, 또는 이들 2개의 임의의 조합 내에서 직접 구체화될 수 있다. 소프트웨어 모듈은 컴퓨팅 디바이스에 의해 액세스될 수 있는 컴퓨터 판독가능 매체 내에 포함될 수 있다. 컴퓨터 판독가능 매체는 이동식, 고정식 또는 이들의 몇몇 조합인 휘발성 및 비휘발성 매체의 모두를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 또는 컴퓨터 실행가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보를 저장하는 데 사용된다. 예로서, 비한정적으로, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수도 있다.

컴퓨터 저장 매체는 블루레이 디스크(Blu-ray discs: BD), 디지털 다기능 디스크(digital versatile discs: DVDs), 컴팩트 디스크(compact discs: CDs), 플로피 디스크, 테이프 드라이브, 하드 드라이브, 광학 드라이브, 고체 상태 메모리 디바이스, RAM 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 플래시 메모리 또는 다른 메모리 기술, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치, 또는 다른 자기 저장 장치 디바이스, 또는 원하는 정보를 저장하는 데 사용될 수 있고 하나 이상의 컴퓨팅 디바이스에 의해 액세스될 수 있는 임의의 다른 디바이스와 같은 컴퓨터 또는 기계 판독가능 매체 또는 저장 디바이스를 포함하지만, 이들에 한정되는 것은 아니다.

소프트웨어 모듈이 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 이동식 디스크, CD-ROM, 또는 당 기술 분야에 공지되어 있는 임의의 다른 형태의 비일시적 컴퓨터 판독가능 저장 매체, 매체들, 또는 물리적 컴퓨터 저장 장치 내에 상주할 수 있다. 예시적인 저장 매체가 프로세서에 결합될 수 있어, 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기입할 수 있게 된다. 대안에서, 저장 매체는 프로세서에 통합형일 수 있다. 프로세서 및 저장 매체는 응용 주문형 집적 회로(ASIC) 내에 상주할 수 있다. ASIC은 사용자 단말 내에 상주할 수 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말 내에 이산 구성요소로서 상주할 수 있다.

구문 "비일시적"은 본 문헌에서 사용될 때 "영구적인 또는 영속적인"을 의미한다. 구문 "비일시적 컴퓨터 판독가능 매체"는 일시적 전파 신호를 유일하게 제외하고, 임의의 및 모든 컴퓨터 판독가능 매체를 포함한다. 이는 예로서 비한정적으로, 레지스터 메모리, 프로세서 캐시 및 랜덤 액세스 메모리(RAM)와 같은 비일시적 컴퓨터 판독가능 매체를 포함한다.

컴퓨터 판독가능 또는 컴퓨터 실행가능 명령, 데이터 구조, 프로그램 모듈 등과 같은 정보의 보유는 또한 하나 이상의 변조된 데이터 신호, 전자기파(캐리어파와 같은), 또는 다른 전송 메커니즘 또는 통신 프로토콜을 인코딩하기 위해 다양한 통신 매체를 사용함으로써 성취될 수 있고, 임의의 유선 또는 무선 정보 전달 메커니즘을 포함한다. 일반적으로, 이들 통신 매체는 신호 내에 정보 또는 명령을 인코딩하는 이러한 방식으로 변경되거나 설정된 그 특징 중 하나 이상을 갖는 신호를 칭한다. 예를 들어, 통신 매체는 하나 이상의 변조된 데이터 신호를 전달하는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 하나 이상의 변조된 데이터 신호 또는 전자기파를 전송, 수신, 또는 전송 및 수신하기 위한 음향, 무선 주파수(RF), 적외선, 레이저 및 다른 무선 매체와 같은 무선 매체를 포함한다. 상기의 임의의 것의 조합이 또한 통신 매체의 범주 내에 포함되어야 한다.

또한, 본 명세서에 설명된 음장 코딩 시스템 및 방법의 일부 또는 모두를 구체화하는 소프트웨어, 프로그램, 컴퓨터 프로그램 제품, 또는 이들의 부분의 하나 또는 임의의 조합은 컴퓨터 실행가능 명령 또는 다른 데이터 구조의 형태로 컴퓨터 또는 기계 판독가능 매체 또는 저장 디바이스 및 통신 매체의 임의의 원하는 조합으로부터 저장되고, 수신되고, 전송되거나, 또는 판독될 수도 있다.

본 명세서에 설명된 음장 코딩 시스템 및 방법의 실시예는 컴퓨팅 디바이스에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령의 일반적인 맥락에서 또한 설명될 수도 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 또는 특정 추상적 데이터 유형을 구현하는 루틴, 프로그램, 객체, 구성요소, 데이터 구조 등을 포함한다. 본 명세서에 설명된 실시예는 또한 작업이 하나 이상의 원격 프로세싱 디바이스에 의해 수행되는 분산형 컴퓨팅 환경 내에서, 또는 하나 이상의 통신 네트워크를 통해 링크되어 있는 하나 이상의 디바이스의 클라우드 내에서 실시될 수도 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈은 매체 저장 디바이스를 포함하는 로컬 및 원격 컴퓨터 저장 매체의 모두 내에 위치될 수도 있다. 또한, 전술된 명령은 프로세서를 포함할 수도 있고 또는 포함하지 않을 수도 있는 하드웨어 논리 회로로서 부분적으로 또는 전체적으로 구현될 수도 있다.

무엇보다도, "할 수 있다", "할 수도 있을 것이다", "할 수도 있다", "예를 들어" 등과 같은 본 명세서에 사용된 조건 언어는, 구체적으로 달리 언급되거나 또는 사용되는 문맥 내에서 다르게 이해되지 않으면, 특정 실시예가 특정 특징, 요소 및/또는 상태를 포함하고, 반면에 다른 실시예는 포함하지 않는다는 것을 전달하도록 일반적으로 의도된다. 따라서, 이러한 조건 언어는 특징, 요소 및/또는 상태가 하나 이상의 실시예를 위해 임의의 방식으로 요구된다는 것 또는 하나 이상의 실시예가 저자 입력 또는 프롬프팅을 갖거나 갖지 않고, 이들 특징, 요소 및/또는 상태가 임의의 특정 실시예에서 포함되는지 또는 수행되어야 하는지 여부를 판정하기 위한 로직을 반드시 포함하는 것을 암시하도록 일반적으로 의도되는 것은 아니다. 용어 "포함하는", "구비하는", "갖는" 등은 동의어이고, 개방형 방식으로 포함적으로 사용되고, 부가의 요소, 특징, 행동, 동작 등을 배제하는 것은 아니다. 또한, 용어 "또는"은, 예를 들어 요소의 리스트를 연계하도록 사용될 때, 용어 "또는"이 리스트 내의 하나, 몇몇, 또는 모든 요소를 의미하도록 그 포함적인 개념으로(그리고 그 배제적인 개념이 아님) 사용된다.

전술된 설명은 다양한 실시예에 적용되는 바와 같은 신규한 특징을 도시하고, 설명하고, 지적하고 있지만, 예시된 디바이스 또는 알고리즘의 형태 및 상세의 다양한 생략, 치환 및 변경이 본 발명의 범주로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 수 있을 것이다. 인식될 수 있는 바와 같이, 본 명세서에 설명된 발명의 특정 실시예는 몇몇 특징이 다른 것으로부터 개별적으로 사용되거나 실시될 수 있기 때문에, 본 명세서에 설명된 모든 특징 및 이익을 제공하지 않는 형태 내에서 구체화될 수 있다.

더욱이, 요지는 구조적 특징 및 방법론적 행동에 특유한 언어로 설명되어 있지만, 첨부된 청구범위에 규정된 요지는 반드시 전술된 특정 특징 또는 행동에 한정되는 것은 아니라는 것이 이해되어야 한다. 오히려, 전술된 특정 특징 및 행동은 청구범위를 구현하는 예시적인 형태로서 개시된 것이다.

100: 음장 코딩 시스템 110: 캡처 구성요소
120: 분산 구성요소 130: 재생 구성요소
135: 마이크로폰 신호 138: 제1 심벌
140: 오디오 캡처 구성요소 145: 공간 인코더
150: 저장/전송 구성요소 155: 제1 재생 디바이스
160: 제2 재생 디바이스 165: 제3 재생 디바이스

Claims

복수의 마이크로폰 신호를 프로세싱하기 위한 방법으로서,
적어도 하나의 오디오 소스로부터 사운드를 캡처하기 위한 복수의 마이크로폰을 갖는 마이크로폰 구성을 선택하는 단계로서, 상기 마이크로폰 구성은 기준 방향에 대한 상기 복수의 마이크로폰의 각각을 위한 마이크로폰 지향성을 규정하는 것인, 상기 마이크로폰 구성을 선택하는 단계;
상기 기준 방향에 대한 상기 적어도 하나의 오디오 소스의 위치에 대한 공간 정보를 인코딩하기 위해 복수의 가상 마이크로폰을 갖는 가상 마이크로폰 구성을 선택하는 단계;
상기 마이크로폰 구성 및 상기 가상 마이크로폰 구성에 기초하여 공간 인코딩 계수를 계산하는 단계; 및
가상 마이크로폰 신호를 포함하는 공간 인코딩된 신호(Spatially Encoded Signal: SES)로 상기 복수의 마이크로폰 신호를 변환하는 단계
를 포함하고,
각각의 가상 마이크로폰 신호는 상기 공간 인코딩 계수를 사용하여 상기 마이크로폰 신호를 합성함으로써 얻어지는 것인, 복수의 마이크로폰 신호를 프로세싱하기 위한 방법.
제1항에 있어서, 상기 공간 정보는 (a) 채널간 진폭; 및 (b) 위상차 중 하나의 형태로 인코딩되는 것인, 복수의 마이크로폰 신호를 프로세싱하기 위한 방법.
제2항에 있어서, 상기 기준 방향에 대한 상기 오디오 소스의 위치에 대한 공간 정보를 인코딩하기 위해 복수의 가상 마이크로폰을 갖는 가상 마이크로폰 구성을 선택하는 단계를 더 포함하는, 복수의 마이크로폰 신호를 프로세싱하기 위한 방법.
제1항에 있어서, 상기 복수의 마이크로폰 신호는 A-포맷 마이크로폰 신호이고, 상기 A-포맷 마이크로폰 신호를 B-포맷 마이크로폰 신호로 변환하는 단계를 더 포함하는, 복수의 마이크로폰 신호를 프로세싱하기 위한 방법.
제4항에 있어서, 상기 B-포맷 마이크로폰 신호로부터 가상 마이크로폰 지향성 패턴을 형성하는 단계를 더 포함하는, 복수의 마이크로폰 신호를 프로세싱하기 위한 방법.
제5항에 있어서, 상기 가상 마이크로폰 지향성 패턴을 형성하기 위해 이하의 식을 사용하는 단계를 더 포함하고,

θ_L, θ_R, θ_S, 및 p는 디자인 파라미터이고, W는 상기 B-포맷 내의 전방향성(omnidirectional) 압력 신호이고, X는 상기 B-포맷 내의 전후 숫자 8 형상 신호(front-back figure-eight signal)이고, Y는 상기 B-포맷 내의 좌우 숫자 8 형상 신호이고, V_L은 수평 평면 내의 가상 좌측 마이크로폰 신호이고, V_R은 상기 수평 평면 내의 슈퍼카디오이드에 대응하는 가상 우측 마이크로폰 신호이며, V_S는 상기 수평 평면 내의 슈퍼카디오이드에 대응하는 가상 서라운드 마이크로폰 신호인 것인, 복수의 마이크로폰 신호를 프로세싱하기 위한 방법.
제6항에 있어서, 상기 가상 마이크로폰 신호의 원하는 지향성에 따라 디자인 파라미터(p)를 선택하는 단계를 더 포함하는, 복수의 마이크로폰 신호를 프로세싱하기 위한 방법.
복수의 마이크로폰 신호를 포함하는 오디오 신호를 프로세싱하기 위한 방법으로서,
오디오 소스로부터 사운드를 캡처하기 위한 복수의 마이크로폰을 갖는 마이크로폰 구성을 선택하는 단계로서, 상기 마이크로폰 구성은 기준 방향에 대한 상기 복수의 마이크로폰의 각각을 위한 마이크로폰 지향성을 규정하는 것인, 상기 선택하는 단계;
상기 마이크로폰 구성에 기초하여 공간 인코딩 계수를 계산하는 단계; 및
상기 공간 인코딩 계수를 사용하여 상기 복수의 마이크로폰 신호를 공간 인코딩된 신호로 변환하는 단계로서, 상기 공간 인코딩된 신호는 상기 기준 방향에 대한 상기 오디오 소스의 위치에 대한 인코딩된 공간 정보를 전달하는 2-채널 공간 인코딩된 신호인 것인, 상기 변환하는 단계
를 포함하는, 오디오 신호를 프로세싱하기 위한 방법.
제8항에 있어서, 상기 공간 인코딩된 신호는 위상-진폭 공간 인코딩된 신호인 것인, 오디오 신호를 프로세싱하기 위한 방법.
복수의 마이크로폰 신호를 프로세싱하기 위한 방법으로서,
오디오 소스로부터 사운드를 캡처하기 위한 복수의 마이크로폰을 갖는 마이크로폰 구성을 선택하는 단계로서, 상기 마이크로폰 구성은 기준 방향에 대한 상기 복수의 마이크로폰의 각각을 위한 마이크로폰 지향성을 규정하는 것인, 상기 선택하는 단계;
상기 마이크로폰 구성에 기초하여 공간 인코딩 계수를 계산하는 단계; 및
상기 공간 인코딩 계수를 사용하여 상기 복수의 마이크로폰 신호를 공간 인코딩된 신호(Spatially Encoded Signal: SES)로 변환하는 단계로서, 상기 SES는 적어도 2개의 채널을 갖고 상기 기준 방향에 대한 상기 오디오 소스의 위치에 대한 인코딩된 공간 정보를 전달하는 공간 인코딩된 신호인 것인, 상기 변환하는 단계
를 포함하는, 복수의 마이크로폰 신호를 프로세싱하기 위한 방법.
제10항에 있어서, 상기 공간 정보는 위치 오디오 메타데이터의 형태로 부분적으로 전달되는 것인, 복수의 마이크로폰 신호를 프로세싱하기 위한 방법.