KR20190125987A

KR20190125987A - 공간 오디오 처리를 위한 2-스테이지 오디오 포커스

Info

Publication number: KR20190125987A
Application number: KR1020197026954A
Authority: KR
Inventors: 미코 타미; 토니 마키넨; 주시 비롤라이넨; 미코 헤이키넨
Original assignee: 노키아 테크놀로지스 오와이
Priority date: 2017-02-17
Filing date: 2018-01-24
Publication date: 2019-11-07
Also published as: KR102214205B1; US10785589B2; GB201702578D0; CN110537221A; US20190394606A1; WO2018154175A1; GB2559765A; EP3583596A1; EP3583596A4; CN110537221B

Abstract

하나 이상의 프로세서를 포함하는 장치로서, 상기 하나 이상의 프로세서는: 오디오 신호 처리를 위해 적어도 2 개의 마이크로폰 오디오 신호(101)를 수신하는 것 - 상기 오디오 신호 처리는 적어도 공간 오디오 신호 처리(303) 및 빔 포밍 처리(305)를 포함함 -; 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 상기 공간 오디오 신호 처리에 기초하여 공간 정보(304)를 결정하는 것; 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 상기 빔 포밍 처리를 위한 포커스 정보(308)를 결정하는 것; 및 상기 적어도 2 개의 마이크로폰 오디오 신호(101)로부터의 상기 적어도 하나의 빔 포밍된 오디오 신호, 상기 공간 정보(304) 및 상기 포커스 정보(308)에 기초하여 적어도 하나의 공간적으로 처리된 오디오 신호(312)를 합성하기 위해 공간 필터(307)를 적용하는 것 - 이러한 방식에서, 상기 공간 필터(307), 상기 적어도 하나의 빔 포밍된 오디오 신호(306), 상기 공간 정보(304) 및 상기 포커스 정보(308)는 상기 적어도 하나의 공간적으로 처리된 오디오 신호(312)를 공간적으로 합성(307)하는 데 사용되도록 구성됨 - 을 수행하도록 구성된다.

Description

공간 오디오 처리를 위한 2-스테이지 오디오 포커스

본 출원은 공간 오디오 처리를 위한 2-스테이지 오디오 포커스를 위한 장치 및 방법에 관한 것이다. 일부의 상황에서 공간 오디오 처리를 위한 2-스테이지 오디오 포커스는 별도의 디바이스들에서 구현된다.

오디오 이벤트는 어레이 내의 다수의 마이크로폰을 사용하여 효율적으로 캡처될 수 있다. 그러나, 캡처된 신호를 마치 실제 레코딩 상황에 있는 것처럼 경험할 수 있는 형태로 변환하기가 어려운 경우가 종종 있다. 특히, 공간적 표현이 부족하다. 즉, 청취자는 원래 이벤트와 동일하게 사운드 소스들의 방향(또는 청취자 주위의 앰비언스(ambience))을 감지할 수 없다.

일반적으로 사용되는 5.1 채널 설정 또는 헤드폰 청취를 통한 대안의 바이노럴 신호(binaural signal)와 같은 공간 오디오 재생 시스템은 사운드 소스들을 상이한 방향으로 표현하는 데 적용될 수 있다. 따라서, 공간 오디오 재생 시스템은 멀티-마이크로폰 시스템으로 캡처된 공간 이벤트를 표현하는 데 적합하다. 멀티-마이크로폰 캡처 신호를 공간 신호로 변환하기 위한 효율적인 방법이 이전에 소개되었다.

오디오 포커스 기술은 오디오 캡처를 선택된 방향으로 포커싱하는 데 사용될 수 있다. 이는, 캡처 디바이스 주위에 많은 사운드 소스들이 존재하고 한 방향의 사운드 소스들만이 특히 관심이 있는 경우에 구현될 수 있다. 이는, 예를 들어, 임의의 흥미로운 컨텐츠가 일반적으로 디바이스 앞에 있고 디바이스 주위의 청중에 방해되는 사운드 소스들이 존재하는 콘서트(concert)에서의 전형적인 상황일 수 있다.

멀티-마이크로폰 캡처를 위해 오디오 포커스를 적용하고 출력 신호를 선호되는 공간 출력 포맷(5.1, 바이노럴 등)으로 렌더링하는 솔루션이 제안되어 있다. 그러나, 이러한 제안된 솔루션은 현재 다음의 기능을 동시에 제공할 수 없다:

· 사용자가 선택한 오디오 포커스 모드(포커스 방향, 포커스 강도 등)로 오디오를 캡처하여 사용자에게 중요한 것으로 간주되는 방향 및/또는 오디오 소스의 제어를 제공하는 기능.

· 낮은 비트 레이트에서의 신호 전달 또는 저장. 비트 레이트는 주로 제공된 오디오 채널들의 수로 특징지어진다.

· 합성 스테이지 출력의 공간 포맷을 선택하는 기능. 이는, 헤드폰 또는 홈 시어터와 같은 다른 재생 디바이스로 오디오를 재생하는 것을 가능하게 한다.

· 헤드 트래킹 지원. 이는 3D 비디오를 사용한 VR 포맷에서 특히 중요하다.

· 우수한 공간 오디오 품질. 예를 들어, VR과 같은 양호한 공간 오디오 품질이 없으면 경험은 현실적일 수 없다.

제 1 양태에 따르면, 하나 이상의 프로세서를 포함하는 장치가 제공되며, 상기 하나 이상의 프로세서는: 오디오 신호 처리를 위해 적어도 2 개의 마이크로폰 오디오 신호를 수신하는 것 - 상기 오디오 신호 처리는 공간 정보를 출력하도록 구성된 적어도 공간 오디오 신호 처리 및 포커스 정보 및 적어도 하나의 빔 포밍된 오디오 신호를 출력하도록 구성된 빔 포밍 처리를 포함함 -; 적어도 2 개의 마이크로폰 오디오 신호와 관련된 공간 오디오 신호 처리에 기초하여 공간 정보를 결정하는 것; 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보 및 적어도 하나의 빔 포밍된 오디오 신호를 결정하는 것; 및 상기 적어도 2 개의 마이크로폰 오디오 신호로부터의 상기 적어도 하나의 빔 포밍된 오디오 신호, 상기 공간 정보 및 상기 포커스 정보에 기초하여 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 합성하기 위해 상기 적어도 하나의 빔 포밍된 오디오 신호에 공간 필터를 적용하는 것 - 이러한 방식에서, 상기 공간 필터, 상기 적어도 하나의 빔 포밍된 오디오 신호, 상기 공간 정보 및 상기 포커스 정보는 상기 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 공간적으로 합성하는 데 사용되도록 구성됨 - 을 수행하도록 구성된다.

상기 하나 이상의 프로세서는 상기 공간 정보와 상기 포커스 정보를 결합하여 결합된 메타 데이터 신호를 생성하도록 구성될 수 있다.

제 2 양태에 따르면, 하나 이상의 프로세서를 포함하는 장치가 제공되며, 상기 하나 이상의 프로세서는: 적어도 하나의 빔 포밍된 오디오 신호 및 공간 메타 데이터 정보로부터 적어도 하나의 공간 오디오 신호를 공간적으로 합성하는 것 - 상기 적어도 하나의 빔 포밍된 오디오 신호 그 자체는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 생성되며, 상기 공간 메타 데이터 정보는 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초함 - ; 및 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 것을 수행하도록 구성된다.

상기 하나 이상의 프로세서는: 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초하여 상기 공간 정보를 결정하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호를 공간 오디오 신호 처리하는 것; 및 상기 빔 포밍 처리를 위한 포커스 정보를 결정하고 상기 적어도 2 개의 마이크로폰 오디오 신호를 빔 포밍 처리하여 적어도 하나의 빔 포밍된 오디오 신호를 생성하는 것을 수행하도록 더 구성될 수 있다.

상기 장치는 출력 채널 배열을 정의하는 오디오 출력 선택 표시자를 수신하도록 구성될 수 있고, 적어도 하나의 공간 오디오 신호를 공간적으로 합성하도록 구성된 장치는 또한, 상기 오디오 출력 선택 표시자에 기초한 포맷으로 상기 적어도 하나의 공간 오디오 신호를 생성하도록 구성될 수 있다.

상기 장치는 공간 필터링을 정의하는 오디오 필터 선택 표시자를 수신하도록 구성될 수 있고, 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성된 장치는 상기 오디오 필터 선택 표시자와 관련된 적어도 하나의 포커스 필터 파라미터에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 더 구성될 수 있으며, 상기 적어도 하나의 필터 파라미터는: 방위각 및/또는 고도 중 적어도 하나에서의 포커스 방향 및 방위각 폭 및/또는 고도의 높이에서의 포커스 섹터 중 적어도 하나를 정의하는 적어도 하나의 공간 포커스 필터 파라미터; 포커싱되는 상기 적어도 하나의 공간 오디오 신호의 적어도 하나의 주파수 대역을 정의하는 적어도 하나의 주파수 포커스 필터 파라미터; 상기 적어도 하나의 공간 오디오 신호에 대한 감쇠 포커스 효과의 강도를 정의하는 적어도 하나의 감쇠 포커스 필터 파라미터; 상기 적어도 하나의 공간 오디오 신호에 대한 포커스 효과의 강도를 정의하는 적어도 하나의 이득 포커스 필터 파라미터; 및 상기 적어도 하나의 공간 오디오 신호의 공간 필터를 구현할지 또는 바이패스(bypass)할지를 정의하는 포커스 바이패스 필터 파라미터 중 적어도 하나를 포함할 수 있다.

상기 오디오 필터 선택 표시자는 헤드 트래커 입력(head tracker input)에 의해 제공될 수 있다.

상기 포커스 정보는 상기 헤드 트래커 입력에 의해 제공된 오디오 필터 선택 표시자의 처리를 가능하게 하도록 구성된 스티어링 모드 표시자(steering mode indicator)를 포함할 수 있다.

적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리에 기초한 포커스 정보에 기초하여 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성된 장치는 또한 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리의 효과를 상쇄시키기 위해 상기 적어도 하나의 공간 오디오 신호를 적어도 부분적으로 공간적으로 필터링하도록 더 구성될 수 있다.

적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성된 장치는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리에 의해 크게 영향을 받지 않는 주파수 대역만을 공간적으로 필터링하도록 더 구성될 수 있다.

적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성된 장치는 포커스 정보 내에 표시된 방향으로 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성될 수 있다.

적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초한 공간 정보 및/또는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보는 상기 적어도 하나의 공간 오디오 신호의 어느 주파수 대역이 빔 포밍 처리에 의해 처리될 수 있는지를 결정하도록 구성되는 주파수 대역 표시자를 포함할 수 있다.

적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 적어도 하나의 빔 포밍된 오디오 신호를 생성하도록 구성된 장치는 적어도 2 개의 빔 포밍된 스테레오 오디오 신호를 생성하도록 구성될 수 있다.

적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 적어도 하나의 빔 포밍된 오디오 신호를 생성하도록 구성된 장치는: 2 개의 미리 결정된 빔 포밍 방향 중 하나를 결정하는 것; 및 상기 2 개의 미리 결정된 빔 포밍 방향 중 하나에서 상기 적어도 2 개의 마이크로폰 오디오 신호를 빔 포밍하는 것을 수행하도록 구성될 수 있다.

상기 하나 이상의 프로세서는 마이크로폰 어레이로부터 상기 적어도 2 개의 마이크로폰 오디오 신호를 수신하도록 더 구성될 수 있다.

제 3 양태에 따르면, 방법이 제공되며, 상기 방법은: 오디오 신호 처리를 위해 적어도 2 개의 마이크로폰 오디오 신호를 수신하는 단계 - 상기 오디오 신호 처리는 공간 정보를 출력하도록 구성된 적어도 공간 오디오 신호 처리 및 포커스 정보 및 적어도 하나의 빔 포밍된 오디오 신호를 출력하도록 구성된 빔 포밍 처리를 포함함 -; 적어도 2 개의 마이크로폰 오디오 신호와 관련된 공간 오디오 신호 처리에 기초하여 공간 정보를 결정하는 단계; 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보 및 적어도 하나의 빔 포밍된 오디오 신호를 결정하는 단계; 및 상기 적어도 2 개의 마이크로폰 오디오 신호로부터의 상기 적어도 하나의 빔 포밍된 오디오 신호, 상기 공간 정보 및 상기 포커스 정보에 기초하여 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 합성하기 위해 상기 적어도 하나의 빔 포밍된 오디오 신호에 공간 필터를 적용하는 단계 - 이러한 방식에서, 상기 공간 필터, 상기 적어도 하나의 빔 포밍된 오디오 신호, 상기 공간 정보 및 상기 포커스 정보는 상기 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 공간적으로 합성하는 데 사용되도록 구성됨 - 를 포함한다.

상기 방법은 상기 공간 정보와 상기 포커스 정보를 결합하여 결합된 메타 데이터 신호를 생성하는 단계를 더 포함할 수 있다.

제 4 양태에 따르면, 방법이 제공되며, 상기 방법은: 적어도 하나의 빔 포밍된 오디오 신호 및 공간 메타 데이터 정보로부터 적어도 하나의 공간 오디오 신호를 공간적으로 합성하는 단계 - 상기 적어도 하나의 빔 포밍된 오디오 신호 그 자체는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 생성되며, 상기 공간 메타 데이터 정보는 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초함 - ; 및 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계를 포함한다.

상기 방법은: 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초하여 상기 공간 정보를 결정하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호를 공간 오디오 신호 처리하는 단계; 및 상기 빔 포밍 처리를 위한 포커스 정보를 결정하고 상기 적어도 2 개의 마이크로폰 오디오 신호를 빔 포밍 처리하여 적어도 하나의 빔 포밍된 오디오 신호를 생성하는 단계를 더 포함할 수 있다.

상기 방법은 출력 채널 배열을 정의하는 오디오 출력 선택 표시자를 수신하는 단계를 더 포함할 수 있고, 적어도 하나의 공간 오디오 신호를 공간적으로 합성하는 단계는 상기 오디오 출력 선택 표시자에 기초한 포맷으로 상기 적어도 하나의 공간 오디오 신호를 생성하는 단계를 포함할 수 있다.

상기 방법은 공간 필터링을 정의하는 오디오 필터 선택 표시자를 수신하는 단계를 포함할 수 있고, 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계는 상기 오디오 필터 선택 표시자와 관련된 적어도 하나의 포커스 필터 파라미터에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계를 포함할 수 있으며, 상기 적어도 하나의 필터 파라미터는: 방위각 및/또는 고도 중 적어도 하나에서의 포커스 방향 및 방위각 폭 및/또는 고도의 높이에서의 포커스 섹터 중 적어도 하나를 정의하는 적어도 하나의 공간 포커스 필터 파라미터; 포커싱되는 상기 적어도 하나의 공간 오디오 신호의 적어도 하나의 주파수 대역을 정의하는 적어도 하나의 주파수 포커스 필터 파라미터; 상기 적어도 하나의 공간 오디오 신호에 대한 감쇠 포커스 효과의 강도를 정의하는 적어도 하나의 감쇠 포커스 필터 파라미터; 상기 적어도 하나의 공간 오디오 신호에 대한 포커스 효과의 강도를 정의하는 적어도 하나의 이득 포커스 필터 파라미터; 및 상기 적어도 하나의 공간 오디오 신호의 공간 필터를 구현할지 또는 바이패스(bypass)할지를 정의하는 포커스 바이패스 필터 파라미터 중 적어도 하나를 포함할 수 있다.

상기 방법은 헤드 트래커로부터 오디오 필터 선택 표시자를 수신하는 단계를 더 포함할 수 있다.

상기 포커스 정보는 상기 오디오 필터 선택 표시자의 처리를 가능하게 하도록 구성된 스티어링 모드 표시자를 포함할 수 있다.

적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리에 기초한 포커스 정보에 기초하여 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리의 효과를 상쇄시키기 위해 상기 적어도 하나의 공간 오디오 신호를 적어도 부분적으로 공간적으로 필터링하는 단계를 포함할 수 있다.

적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리에 의해 크게 영향을 받지 않는 주파수 대역만을 공간적으로 필터링하는 단계를 포함할 수 있다.

적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계는 포커스 정보 내에 표시된 방향으로 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계를 포함할 수 있다.

적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초한 공간 정보 및/또는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보는 상기 적어도 하나의 공간 오디오 신호의 어느 주파수 대역이 빔 포밍 처리에 의해 처리되는지를 결정하는 주파수 대역 표시자를 포함할 수 있다.

적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 적어도 하나의 빔 포밍된 오디오 신호를 생성하는 단계는 적어도 2 개의 빔 포밍된 스테레오 오디오 신호를 생성하는 단계를 포함할 수 있다.

적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 적어도 하나의 빔 포밍된 오디오 신호를 생성하는 단계는: 2 개의 미리 결정된 빔 포밍 방향 중 하나를 결정하는 단계; 및 상기 2 개의 미리 결정된 빔 포밍 방향 중 하나에서 상기 적어도 2 개의 마이크로폰 오디오 신호를 빔 포밍하는 단계를 포함할 수 있다.

상기 방법은 마이크로폰 어레이로부터 상기 적어도 2 개의 마이크로폰 오디오 신호를 수신하는 단계를 더 포함할 수 있다.

매체에 저장된 컴퓨터 프로그램 제품은 장치로 하여금 본 명세서에 설명된 바와 같은 방법을 수행하게 할 수 있다.

전자 디바이스는 본 명세서에 설명된 바와 같은 장치를 포함할 수 있다.

칩셋은 본 명세서에 설명된 바와 같은 장치를 포함할 수 있다. 본 출원의 실시예는 종래 기술과 관련된 문제를 해결하는 것을 목표로 한다.

이제, 본 출원의 보다 나은 이해를 위해, 예로서 첨부된 도면에 대한 참조가 행해질 것이다.
도 1은 기존의 오디오 포커스 시스템을 도시하고 있다.
도 2는 기존의 공간 오디오 포맷 생성기를 개략적으로 도시하고 있다.
도 3은 일부 실시예에 따라 공간 오디오 포맷 지원을 구현하는 예시적인 2-스테이지 오디오 포커스 시스템을 개략적으로 도시하고 있다.
도 4는 일부 실시예에 따라 도 3에 개략적으로 도시된 예시적인 2-스테이지 오디오 포커스 시스템을 더욱 상세하게 도시하고 있다.
도 5(a) 및 도 5(b)는 일부 실시예에 따라 도 3 및 도 4에 도시된 시스템에 도시된 바와 같이 빔 포밍을 구현하기 위한 예시적인 마이크로폰 쌍 빔 포밍을 개략적으로 도시하고 있다.
도 6은 일부 실시예에 따라 단일 장치 내에 구현된 추가의 예시적인 2-스테이지 오디오 포커스 시스템을 도시하고 있다.
도 7은 일부 실시예에 따라 공간 합성 전에 공간 필터링이 적용되는 추가의 예시적인 2-스테이지 오디오 포커스 시스템을 도시하고 있다.
도 8은 빔 포밍 및 공간 합성이 오디오 신호의 캡처 및 공간 분석과 별개로 장치 내에서 구현되는 추가의 2-스테이지 오디오 포커스 시스템을 도시하고 있다.
도 9는 도 3 내지 도 8 중 어느 하나에 도시된 바와 같이 2-스테이지 오디오 포커스 시스템을 구현하기에 적합한 예시적인 장치를 도시하고 있다.

다음은 효과적인 2-스테이지 오디오 포커스(또는 디포커싱) 시스템을 제공하기 위한 적절한 장치 및 가능한 메커니즘을 보다 상세하게 설명한다. 다음의 예에서, 오디오 신호 및 오디오 캡처 신호가 설명된다. 그러나, 일부 실시예에서 장치는 오디오 신호를 캡처하거나 오디오 신호 및 다른 정보 신호를 수신하도록 구성된 임의의 적절한 전자 디바이스 또는 장치의 일부일 수 있음을 이해할 것이다.

현재의 오디오 포커스 방법과 관련된 문제는 도 1에 도시된 현재의 오디오 포커스 시스템과 관련하여 도시될 수 있다. 따라서, 도 1은 적어도 2 개의 마이크로폰으로부터 입력을 수신하는 오디오 신호 처리 시스템을 도시한다(도 1 및 다음의 도면에서는 3 개의 마이크로폰 오디오 신호가 예시적인 마이크로폰 오디오 신호 입력으로서 도시되어 있지만 임의의 적절한 수의 마이크로폰 오디오 신호가 사용될 수 있다). 마이크로폰 오디오 신호(101)는 공간 분석기(103) 및 빔 포머(beamformer)(105)로 전달된다.

도 1에 도시된 오디오 포커스 시스템은 마이크로폰 오디오 신호를 캡처하는 데 사용되는 마이크로폰을 포함하는 오디오 신호 캡처 장치와 독립적일 수 있고, 따라서 캡처 장치 폼 팩터와는 독립적이다. 즉, 시스템에서는 또한 마이크로폰의 수, 타입 및 배열에 큰 변화가 있을 수 있다.

도 1에 도시된 시스템은 마이크로폰 오디오 신호(101)를 수신하도록 구성된 빔 포머(105)를 도시하고 있다. 빔 포머(105)는 마이크로폰 오디오 신호에 빔 포밍 동작을 적용하고 빔 포밍된 마이크로폰 오디오 신호에 기초하여 좌우 채널 출력을 반영하는 스테레오 오디오 신호 출력을 생성하도록 구성될 수 있다. 빔 포밍 동작은 적어도 하나의 선택된 포커스 방향으로부터 도달하는 신호를 강조하는 데 사용된다. 이것은 또한 '다른' 방향으로부터 도달하는 사운드를 감쇠시키는 동작인 것으로 간주될 수 있다. 빔 포밍 방법은, 예를 들어, US-20140105416에 제시되고 있다. 스테레오 오디오 신호 출력(106)은 공간 합성기(107)로 전달될 수 있다.

도 1에 도시된 시스템은 마이크로폰 오디오 신호(101)를 수신하도록 구성된 공간 분석기(103)를 추가로 도시하고 있다. 공간 분석기(103)는 모든 시간-주파수 대역에 대한 지배적인 사운드 소스의 방향을 분석하도록 구성될 수 있다. 이 정보 또는 공간 메타 데이터(104)는 그 후 공간 합성기(107)로 전달될 수 있다.

도 1에 도시된 시스템은 공간 합성의 생성, 및 빔 포밍에 후속하는 스테레오 오디오 신호(106)에 대한 공간 필터링 동작의 적용을 추가로 도시한다. 도 1에 도시된 시스템은 공간 메타 데이터(104) 및 스테레오 오디오 신호(106)를 수신하도록 구성된 공간 분석기(107)를 추가로 도시하고 있다. 공간 합성기(107)는, 예를 들어, 관심있는 방향으로 사운드 소스를 더 강조하기 위해 공간 필터링을 적용할 수 있다. 이는 선호되는 방향으로 소스를 증폭하는 상기 합성기에서 공간 분석기(103)에서 수행된 분석 스테이지의 결과를 처리하여 다른 소스를 감쇠시킴으로써 수행된다. 공간 합성 및 필터링 방법은, 예를 들어, US-20120128174, US-20130044884 및 US-20160299738에 제시되고 있다. 공간 합성은 스테레오(바이노럴) 오디오 또는 5.1 멀티 채널 오디오와 같은 적절한 공간 오디오 포맷에 적용될 수 있다.

최신 모바일 디바이스로부터의 마이크로폰 오디오 신호를 사용한 빔 포밍으로 달성될 수 있는 포커스 효과의 강도는 일반적으로 약 10 dB이다. 공간 필터링을 사용하면 대략 비슷한 효과에 도달할 수 있다. 따라서, 전체적인 포커스 효과는 실제로 개별적으로 사용되는 빔 포밍 또는 공간 필터링 효과의 두 배가 될 수 있다. 그러나, 마이크로폰 위치 및 마이크로폰의 적은 수(보통 3 개)와 관련한 최신 모바일 디바이스의 물리적 한계로 인해, 실제로 빔 포밍 성능만으로는 전체 오디오 스펙트럼에 대해 충분히 양호한 포커스 효과를 제공할 수 없다. 이것은 추가적인 공간 필터링의 적용을 위한 원동력이 된다.

2-스테이지 접근법은 빔 포밍 및 공간 필터링의 강점을 결합하고 있다. 이것은, 빔 포밍이 인공물을 유발하지 않거나 가청 오디오 품질을 현저하게 저하시키지 않으며(원칙적으로 빔 포밍은 하나의 마이크로폰 신호만 지연 및/또는 필터링하고 그것을 다른 마이크로폰 신호와 합산함), 소수의 가청 인공물만이 존재하는(또는 심지어는 가청 인공물이 존재하지 않는) 적절한 공간 필터링 효과가 달성될 수 있다는 것이다. 공간 필터링은 단지 원래의(빔이 아닌) 오디오 신호로부터 획득된 방향 추정치에 기초하여 신호를 필터링(증폭/감쇠)하기 때문에 빔 포밍에 대해 독립적으로 구현될 수 있다.

두 가지 방법은 모두 보다 마일드(milder)하지만 명확하게 들을 수 있는 포커스 효과를 제공하는 경우 독립적으로 구현될 수 있다. 이러한 마일드 포커스는 특정 상황, 특히 하나의 지배적인 사운드 소스만이 존재하는 경우에 충분할 수 있다.

공간 필터링 단계에서 너무 공격적인 증폭은 오디오 품질 저하를 초래할 수 있으며, 2-스테이지 접근법은 이러한 품질 저하를 방지한다.

도 1에 도시된 오디오 포커스 시스템에서, 합성된 오디오 신호(112)는 그 후 선택된 오디오 코덱으로 코딩될 수 있고, 임의의 오디오 신호로서 채널(109)을 통해 수신단에 저장되거나 전달될 수 있다. 그러나, 이 시스템은 여러 가지 이유로 문제가 된다. 예를 들어, 선택된 재생 포맷은 캡처 측에서 결정되어야 하고, 수신기에 의해서는 선택될 수 없으므로 수신기는 최적화된 재생 포맷을 선택할 수 없다. 또한, 인코딩된 합성 오디오 신호 비트 레이트는 특히 멀티 채널 오디오 신호 포맷에 대해 높을 수 있다. 또한, 이러한 시스템은 포커스 효과를 제어하기 위한 헤드 트래킹 또는 유사한 입력에 대한 지원을 허용하고 있지 않다.

공간 오디오를 전달하기 위한 효율적인 공간 오디오 포맷 시스템이 도 2와 관련하여 설명된다. 이 시스템은, 예를 들어, US-20140086414에 설명되고 있다.

이 시스템은 마이크로폰 오디오 신호(101)를 수신하도록 구성된 공간 분석기(203)를 포함하고 있다. 공간 분석기(203)는 모든 주파수 대역에 대한 지배적인 사운드 소스의 방향을 분석하도록 구성될 수 있다. 이 정보 또는 공간 메타 데이터(204)는 그 후 채널(209)을 통해 공간 합성기(207)로 전달될 수 있거나 로컬에 저장될 수 있다. 또한, 오디오 신호(101)는 2 개의 입력 마이크로폰 오디오 신호일 수 있는 스테레오 신호(206)를 생성함으로써 압축된다. 이 압축된 스테레오 신호(206)는 또한 채널 (209)을 통해 전달되거나 로컬에 저장된다.

상기 시스템은 입력으로서 스테레오 신호(206) 및 공간 메타 데이터(204)를 수신하도록 구성되는 공간 합성기(207)를 더 포함한다. 공간 합성 출력은 그 후 임의의 선호되는 출력 오디오 포맷으로 구현될 수 있다. 상기 시스템은 낮은 비트 레이트의 가능성을 포함하여 많은 이점을 제공한다(마이크로폰 오디오 신호를 인코딩하는 데 2 채널 오디오 코딩 및 공간 메타 데이터만이 요구된다). 또한, 공간 합성 스테이지에서 출력 공간 오디오 포맷을 선택할 수 있으므로 여러 재생 디바이스 타입(모바일 디바이스, 홈 시어터 등)을 지원할 수 있다. 또한, 이러한 시스템은 가상 현실/증강 현실 또는 몰입형 360 도 비디오에 특히 유용한 바이노럴 신호에 대한 헤드 트래킹 지원을 허용한다. 또한, 이러한 시스템은, 예를 들어, 재생 디바이스가 공간 합성 처리를 지원하지 않는 경우에, 레거시 스테레오 신호로서 오디오 신호를 재생하는 능력을 허용한다.

그러나, 도 2에 도시된 바와 같은 시스템은 도입된 공간 오디오 포맷이 도 1에 도시된 바와 같은 빔 포밍 및 공간 필터링을 모두 포함하는 오디오 포커싱을 전술한 바와 같이 지원하지 않는다는 점에서 상당한 단점을 갖는다.

이러한 개념은 이하의 실시예에서 상세히 논의되는 바와 같이, 오디오 포커스 처리 및 공간 오디오 포매팅을 결합하는 시스템을 제공하는 것이다. 따라서, 실시예는 포커스 처리 양태가 두 개의 부분으로 분할되어, 처리 부분이 캡처 측에서 수행되고 일부가 재생 측에서 수행되는 것을 나타낸다. 본 명세서에 설명된 이러한 실시예에서, 캡처 장치 또는 디바이스 사용자는 포커스 기능을 활성화시키도록 구성될 수 있고, 포커스 관련 처리가 캡처 및 재생 측 모두에 적용될 때 최대 포커스 효과가 달성된다. 동시에, 공간 오디오 포맷 시스템의 모든 이점이 유지된다.

본 명세서에 설명된 실시예에서, 공간 분석 부분은 오디오 캡처 장치 또는 디바이스에서 항상 수행된다. 그러나, 이러한 합성은 동일한 엔티티 또는 다른 디바이스, 가령, 재생 디바이스에서 수행될 수 있다. 이것은 포커싱된 오디오 컨텐츠를 재생하는 엔티티가 반드시 공간 인코딩을 지원할 필요는 없음을 의미한다.

도 3과 관련하여, 일부 실시예에 따라 공간 오디오 포맷 지원을 구현하는 예시적인 2-스테이지 오디오 포커스 시스템이 도시되고 있다. 이 예에서, 도시된 시스템은 캡처 (및 제 1 스테이지 처리) 장치, 재생 (및 제 2 스테이지 처리) 장치, 및 캡처 및 제 2 스테이지 장치를 분리하는 적절한 통신 채널(309)을 포함한다.

캡처 장치는 마이크로폰 신호(101)를 수신하는 것으로 도시되어 있다. 마이크로폰 신호(101)(도 3에는 3 개의 마이크로폰 신호로 도시되었지만 다른 실시예에서는 2 이상의 임의의 수일 수 있음)는 공간 분석기(303) 및 빔 포머(305)에 입력된다.

마이크로폰 오디오 신호는 일부 실시예에서, 예를 들어, 사운드 소스(들) 및 주위의 사운드에 의해 표현되는 음장(sound field)과 관련된 오디오 신호를 캡처하도록 구성된 방향성(directional) 또는 전방향성(omnidirectional) 마이크로폰 어레이에 의해 생성될 수 있다. 일부 실시예에서, 캡처 디바이스는 모바일 디바이스/OZO, 또는 카메라를 갖거나 갖지 않는 임의의 다른 디바이스 내에 구현된다. 따라서, 캡처 디바이스는 오디오 신호를 캡처하도록 구성되며, 이 오디오 신호는 청취자에게 렌더링될 때, 청취자로 하여금, 이 오디오 신호가 공간 오디오 캡처 디바이스의 위치에 존재하는 경우와 유사한 공간적 사운드를 경험할 수 있게 한다.

이 시스템(캡처 장치)은 마이크로폰 오디오 신호(101)를 수신하도록 구성된 공간 분석기(303)를 포함할 수 있다. 공간 분석기(303)는 마이크로폰 신호를 분석하여 마이크로폰 신호의 분석과 관련된 공간 메타 데이터(304) 또는 정보 신호를 생성하도록 구성될 수 있다.

일부 실시예에서, 공간 분석기(303)는 마이크로폰 어레이로부터 라우드스피커 또는 헤드폰으로의 공간 오디오 캡처를 위한 방법을 나타내는 공간 오디오 캡처(spatial audio capture)(SPAC) 기술을 구현할 수 있다. SPAC는 여기서 마이크로폰 어레이가 장착된 임의의 디바이스, 예를 들어, Nokia OZO 또는 모바일폰)에서 높은 지각 품질의 공간 오디오 재생을 제공하기 위해 적응형 시간-주파수 분석 및 처리를 사용하는 기술을 지칭한다. 수평면의 SPAC 캡처에는 적어도 3 개의 마이크로폰이 필요하고, 3D 캡처에는 적어도 4 개의 마이크로폰이 필요하다. SPAC라는 용어는 본 명세서에서 공간 오디오 캡처를 제공하는 임의의 적응형 어레이 신호 처리 기술을 포괄하는 일반화된 용어로서 사용된다. 방법은 주파수 대역 신호에서의 분석 및 처리를 범위로 적용하는데, 그 이유는 공간 청각 인식에 유의미한 것이 범위이기 때문이다. 도달하는 사운드의 방향, 및/또는 레코딩된 사운드의 방향성(directionality) 또는 비 방향성(non-directionality)을 결정하는 비율 또는 에너지 파라미터와 같은 공간 메타 데이터는 주파수 대역에서 동적으로 분석된다.

공간 오디오 캡처(SPAC) 재생 방법 중 하나는 방향성 오디오 코딩(Directional Audio Coding)(DirAC)이며, 이는 라우드스피커 또는 헤드폰을 위한 고품질 적응형 공간 오디오 합성을 가능하게 하는 공간 메타 데이터를 제공하기 위해 음장 강도 및 에너지 분석을 사용하는 방법이다. 다른 예는 두 평면파를 동시에 분석할 수 있는 방법인 고조파 평면파 확장(harmonic planewave expansion)(Harpex)이며, 이는 특정 음장 조건에서 공간 정밀도를 더 향상시킬 수 있다. 추가의 방법은 주로 모바일폰 공간 오디오 캡처를 위한 방법이며, 이는 공간 메타 데이터를 획득하는 마이크로폰들과 가령, OZO와 같은, 더 많은 마이크로폰들 및 섀도잉 본체를 포함하는 디바이스의 변종 간의 지연 및 코히어런스 분석을 사용하고 있다. 이하의 예에서 변형이 설명되지만, 공간 메타 데이터를 획득하기 위해 적용된 임의의 적절한 방법이 사용될 수 있다. 전술한 바와 같은 SPAC 개념은 마이크로폰 신호로부터의 공간 메타 데이터의 세트(예를 들어, 주파수 대역에서의 사운드 방향, 및 반향과 같은 비 방향성 사운드의 상대적 양)를 마이크로폰 오디오 신호로부터 분석하여 공간 사운드의 적응형 정밀 합성을 가능하게 하는 개념이다.

SPAC 방법의 사용은 다음의 두 가지 이유로 소형 디바이스에도 강력하다. 첫째, 이들 방법은 일반적으로 단기간의 확률론적 분석을 사용하는데, 이는 추정치에서 잡음의 영향이 줄어든다는 것을 의미한다. 둘째, 이들 방법은 일반적으로 공간 오디오 재생에 주요 관심이 있는 음장의 지각 관련 속성을 분석하도록 설계되고 있다. 상기 관련 속성은 일반적으로 도달하는 사운드의 방향과 그 에너지, 및 비 방향성 앰비언스 에너지의 양이다. 에너지 파라미터는 다이렉트-투-토탈 비율 파라미터(direct-to-total ratio parameter), 앰비언스-투-토탈 비율 파라미터(ambience-to-total ratio parameter) 등과 관련하여 여러 가지 방식으로 표현될 수 있다. 이들 파라미터는 주파수 대역으로 추정되는데, 그 이유는 이러한 형태의 이들 파라미터는 특히 인간 공간 청각과 관련이 있기 때문이다. 주파수 대역은 바크 대역(Bark bands), 동등한 직사각형 대역(equivalent rectangular bands)(ERBs), 또는 임의의 다른 지각적으로 동기 부여된 비선형 스케일일 수 있다. 또한, 선형 주파수 스케일이 적용 가능하지만, 이 경우에 해상도는 인간의 청각이 가장 주파수 선택적인 저주파도 커버하기에 충분히 미세한 것이 바람직하다.

공간 분석기는 일부 실시예에서 필터 뱅크(filter-bank)를 포함한다. 필터 뱅크를 사용하면 시간 도메인 마이크로폰 오디오 신호는 주파수 대역 신호로 변환될 수 있다. 이와 같이, 임의의 적절한 시간 대 주파수 도메인 변환이 오디오 신호에 적용될 수 있다. 일부 실시예에서 구현될 수 있는 전형적인 필터 뱅크는 분석 윈도우 및 FFT를 포함하는 단기간 푸리에 변환(short-time Fourier transform)(STFT)이다. STFT 대신에 다른 적절한 변환은 복소 변조 쿼드러처 미러 필터(complex-modulated quadrature mirror filter)(QMF) 뱅크일 수 있다. 필터 뱅크는 시간 및 주파수의 함수로서 입력 신호의 위상 및 진폭을 나타내는 복소값 주파수 대역 신호를 생성할 수 있다. 필터 뱅크는 주파수 해상도가 균일하여 고효율 신호 처리 구조를 가능하게 할 수 있다. 그러나, 균일한 주파수 대역은 인간 공간 청각의 스펙트럼 해상도에 근사한 비선형 주파수 해상도로 그룹화될 수 있다.

필터 뱅크는 마이크로폰 신호(x(m, n'))를 수신하고(여기서 m 및 n'은 각각 마이크로폰 및 시간에 대한 인덱스임) 입력 신호를 다음과 같은 단기간 푸리에 변환(short time Fourier transform)에 의해 주파수 대역 신호로 변환할 수 있으며,

X(k, m, n) = F(x(m, n')),

여기서, X는 변환된 주파수 대역 신호를 나타내고, k는 주파수 대역 인덱스를 나타내고, n은 시간 인덱스를 나타낸다.

공간 분석기는 공간 메타 데이터를 획득하기 위해 주파수 대역 신호(또는 주파수 대역 신호의 그룹)에 적용될 수 있다. 공간 메타 데이터의 전형적인 예는 각각의 주파수 간격 및 각각의 시간 프레임에서 방향(들) 및 다이렉트-투-토탈 에너지 비율(들)이다. 예를 들어, 마이크로폰 간 지연 분석을 기반으로 방향 파라미터를 검색하는 것은 옵션이며, 상기 지연 분석은 다시, 예를 들어, 서로 다른 지연으로 신호의 교차 상관(cross-correlation)을 공식화하고, 최대 상관을 찾음으로써 수행될 수 있다. 방향 파라미터를 검색하는 다른 방법은 방향성 오디오 코딩(DirAC)에 적용되는 절차인 음장 강도 벡터 분석을 사용하는 것이다.

(공간 앨리어싱 주파수를 초과하는) 보다 높은 주파수에서, 방향 정보를 획득하기 위해 OZO와 같은 일부 디바이스에 대해 디바이스 음향 섀도잉을 사용하는 것은 옵션이다. 마이크로폰 신호 에너지는 전형적으로 대부분의 사운드가 도달하는 디바이스의 측면에서 더 높으므로, 에너지 정보는 방향 파라미터에 대한 추정치를 제공할 수 있다.

어레이 신호 처리 분야에서는 도달 방향(direction-of-arrival)을 추정하기 위한 많은 다른 방법이 존재한다.

또한 각 시간-주파수 간격(즉, 에너지 비율 파라미터)에서 비 방향성 앰비언스(non-directional ambience)의 양을 추정하기 위해 마이크로폰 간 코히어런스 분석을 사용하는 것은 옵션이다. 비율 파라미터는 방향 파라미터의 안정성 측정치 또는 유사한 것을 사용하는 것과 같은 다른 방법으로도 추정될 수 있다. 공간 메타 데이터를 획득하기 위해 적용된 특정 방법은 본 분야의 주요 관심사가 아니다.

이 섹션에서, 오디오 입력 신호 채널들 간의 상관에 기초하여 지연 추정을 이용하는 하나의 방법이 설명된다. 이 방법에서, 도달하는 사운드의 방향은 B 개의 주파수 도메인 서브 대역에 대해 독립적으로 추정된다. 본 개념은 실제 사운드 소스의 방향일 수 있는 모든 서브 대역에 대한 적어도 하나의 방향 파라미터, 또는 다수의 사운드 소스의 결합된 방향성을 근사화하는 방향 파라미터를 찾는 것이다. 예를 들어, 일부의 경우에 방향 파라미터는 단일 활성 소스를 직접 가리킬 수 있는 반면, 다른 경우에, 방향 파라미터는, 예를 들어, 2 개의 활성 사운드 소스 사이에서 거의 원호로 변동될 수 있다. 실내 반사 및 반향이 있는 경우, 방향 파라미터는 더 많이 변동될 수 있다. 따라서, 방향 파라미터는 지각적으로 동기 부여된 파라미터로 간주될 수 있다. 예를 들어, 여러 개의 활성 소스를 갖는 경우 시간-주파수 간격에서 하나의 방향 파라미터가 이들 활성 소스의 어떠한 것도 가리킬 수는 없지만, 레코딩 위치에서 공간 사운드의 메인 방향성을 근사화한다. 비율 파라미터와 함께, 이 방향 정보는 다수의 동시 활성 소스의 결합된 지각 공간 정보를 대략적으로 포착한다. 이러한 분석은 각 시간-주파수 간격마다 수행되며, 결과적으로 사운드의 공간적 양태가 지각적으로 포착된다. 방향 파라미터는 매우 빠르게 변동하며, 사운드 에너지가 레코딩 위치를 통해 어떻게 변동하는지를 표현하고 있다. 이것은 청취자에게 재생되고, 청취자의 청각 시스템은 그 후 공간 지각력을 얻게 된다. 어떠한 시간-주파수 발생에서 하나의 소스가 매우 지배적일 수 있으며, 방향 추정치는 그 방향을 정확하게 가리키지만, 이는 일반적인 경우는 아니다.

주파수 대역 신호 표현은 X(k, m, n)으로 표시되며, 여기서, m은 마이크로폰 인덱스이고, k는 주파수 대역 인덱스 {k=0, ..., N-1}이며, N은 시간-주파수 변환된 신호의 주파수 대역들의 수이다. 주파수 대역 신호 표현은 B 개의 서브 대역으로 그룹화되며, 이들 각각은 하부 주파수 대역 인덱스

및 상부 주파수 대역 인덱스

를 갖는다. 서브 대역의 폭

은, 예를 들어, 등가 직사각형 대역폭(equivalent rectangular bandwidth)(ERB) 스케일 또는 바크 스케일(Bark scale)을 근사화할 수 있다.

방향 분석은 다음과 같은 동작을 특징으로 할 수 있다. 이 경우, 마이크로폰이 3 개인 플랫 모바일 디바이스(flat mobile device)가 가정된다. 이 구성은 수평면에서의 방향 파라미터, 및 비율 파라미터 또는 이와 유사한 것의 분석을 제공할 수 있다.

먼저, 수평 방향은 두 개의 마이크로폰 신호(이 예에서는 마이크로폰 2와 3은 캡처 디바이스의 수평면에서 캡처 디바이스의 대향 에지에 위치함)로 추정된다. 두 개의 입력 마이크로폰 오디오 신호의 경우, 해당 채널의 주파수 대역 신호들 간의 시간 차이가 추정된다. 이 작업은 서브 대역 b에 대한 두 채널 간의 상관을 최대화하는 지연

을 찾는 것이다.

주파수 대역 신호 X(k, m, n)은 아래의 식을 사용하여

시간 도메인 샘플로 시프팅될 수 있으며,

여기서, f _k 는 대역 k의 중심 주파수이며, f _s 는 샘플링 레이트이다. 서브 대역 b 및 시간 인덱스 n에 대한 최적의 지연은 이후 다음의 식으로부터 획득되며,

여기서, Re는 결과의 실수 부분을 나타내고 *는 복소 컨주게이트(complex conjugate)를 나타내며, D _max 는 분수(fractional number)일 수 있는 샘플의 최대 지연이며, 사운드가 마이크로폰 쌍에 의해 결정된 축에 정확하게 도달할 때 발생한다. 하나의 시간 인덱스 n에 대한 지연 추정의 예가 위에서 예시되었지만, 일부 실시예에서, 지연 파라미터의 추정은 그 축에서 또한 추정치들을 평균화 또는 가산함으로써 여러 개의 인덱스 n에 대해 수행될 수 있다.

의 경우, 대략 하나의 샘플의 해상도는 많은 스마트폰에서 지연 검색을 위해 충족된다. 또한 상관 관계 이외의 다른 공간적으로 동기 부여된 유사성 측정법이 사용될 수 있다.

따라서, 마이크로폰에 의해 캡처된 오디오 에너지의 표현인 '사운드 소스'는 마이크로폰에서, 예를 들어, 어레이 내의 제 2 마이크로폰에서 수신되고, 제 3 마이크로폰에 의해 수신되는 예시적인 시간 도메인 함수에 의해 기술된 이벤트를 생성하는 것으로 간주될 수 있다. 이상적인 시나리오에서, 어레이 내의 제 2 마이크로폰에서 수신되는 예시적인 시간 도메인 함수는 단순히 제 3 마이크로폰에서 수신된 시간 도메인 함수의 시간 시프팅된 버전이다. 이 상황은, 실제로 두 개의 마이크로폰이, 예를 들어, 건설적인 또는 파괴적인 간섭 또는 이벤트의 사운드를 차단하거나 향상시키는 요소 등으로 인해 이벤트 레코딩이 영향을 받을 수 있는 서로 다른 환경을 경험할 가능성이 높기 때문에 이상적이라고 기술된다.

시프트

는 사운드 소스가 제 3 마이크로폰보다 제 2 마이크로폰에 얼마나 더 가까운지를 나타낸다(

가 양수이면, 사운드 소스는 제 3 마이크로폰보다 제 2 마이크로폰에 더 가깝다). -1에서 1 사이의 정규화된 지연은 다음과 같이 공식화될 수 있다.

.

기본 지오메트리를 사용하고 사운드가 수평면에 도달하는 평면파라고 가정하면, 도달하는 사운드의 수평각은

와 같다고 결정될 수 있다.

주목할 것은 두 개의 마이크로폰만으로는 정확한 방향을 결정할 수 없으므로 도달하는 사운드의 방향에 대한 두 가지 대안이 존재한다는 것이다. 예를 들어, 디바이스의 전면 또는 후면에서 미러 대칭 각도에 있는 소스는 동일한 마이크로폰 간 지연 추정치를 생성할 수 있다.

그 후, 추가 마이크로폰, 예를 들어, 3 개의 마이크로폰 어레이 내의 제 1 마이크로폰은 부호(+ 또는 -) 중 어느 것이 정확한지를 정의하기 위해 사용될 수 있다. 이 정보는 일부 구성에서 스마트폰의 후면에 하나(예를 들어, 제 1 마이크로폰)와 스마트폰의 전면에 다른 하나(예를 들어, 제 2 마이크로폰)를 갖는 마이크로폰 쌍 사이의 지연 파라미터를 추정함으로써 획득될 수 있다. 디바이스의 이러한 얇은 축에서의 분석은 신뢰 가능한 지연 추정치를 생성할 정도로 잡음을 발생시킬 수 있다. 그러나, 최대 상관이 디바이스의 전면 또는 후면에서 발견되는 경우 일반적인 경향이 강할 수 있다. 이 정보를 통해 두 개의 가능한 방향의 모호성을 해결할 수 있다. 모호성을 해결하기 위해 다른 방법이 적용될 수도 있다.

각각의 서브 대역에 대해 동일한 추정이 반복된다.

방위각과 고도가 결정될 수 있도록 '수평' 및 '수직' 변위가 모두 존재하는 마이크로폰 어레이에 동등한 방법이 적용될 수 있다. (위에서 설명된 방향에 수직인 평면에서 서로 변위된) 4 개 이상의 마이크로폰을 갖는 디바이스 또는 스마트폰의 경우, 고도 분석을 수행하는 것이 또한 가능할 수 있다. 그러한 경우, 예를 들어, 지연 분석은 먼저 수평면에서 공식화되고, 이어서 수직면에서 공식화될 수 있다. 그 후, 2 개의 지연 추정치에 기초하여 예상 도달 방향을 찾을 수 있다. 예를 들어, GPS 포지셔닝 시스템에서와 유사한 위치 지연 분석(delay-to-position analysis)을 수행할 수 있다. 이 경우에도, 예를 들어, 전술한 바와 같이 해결되는 방향성 프런트백 모호성(directional front-back ambiguity)이 존재한다.

일부 실시예에서, 비 방향성 및 방향성 사운드의 상대적인 비율을 표현하는 비율 메타 데이터는 다음 방법에 따라 생성될 수 있다:

1) 최대 상호 거리를 갖는 마이크로폰의 경우, 최대 상관 지연 값과 해당 상관 값 c가 공식화된다. 상관 값 c는 정규화된 상관이며, 이는 완전히 상관된 신호(fully correlating signals)에 대해서는 1이고, 비 간섭 신호(incoherent signals)에 대해서는 0이다.

2) 각 주파수에 대해, 마이크로폰 거리에 따라 확산 필드 상관 값(Cdiff)이 공식화된다. 예를 들어, 고주파수에서 Cdiff

0이다. 저주파수의 경우, 그것은 0이 아닐 수 있다.

3) 비율 파라미터: 비율 = (c - c_diff)/(1 - c_diff)를 찾기 위해 상관 값이 정규화된다.

그 후, 결과적인 비율 파라미터는 0과 1 사이에서 잘려진다(truncated). 그러한 추정 방법의 경우:

c = 1인 경우, 비율 = 1이다.

c≤c_diff인 경우, 비율 = 0이다.

c_diff < c < 1인 경우, 0 < 비율 < 1이다.

전술한 간단한 공식은 비율 파라미터의 근사치를 제공한다. 극값(완전 방향성 및 완전 비 방향성 음장 조건)에서 추정치는 정확하다(true). 극값 간의 비율 추정치는 사운드 도달 각도에 따라 약간의 편향(bias)을 가질 수 있다. 그럼에도 불구하고, 위의 공식은 이러한 조건에서도 실제로 만족스럽게 정확한 것으로 입증될 수 있다. 방향 및 비율 파라미터(또는 적용된 분석 기술에 따른 다른 공간 메타 데이터)를 생성하는 다른 방법도 적용 가능하다.

SPAC 분석 방법의 부류에서 전술한 방법은 주로 스마트폰과 같은 플랫 디바이스를 위한 것이다. 디바이스의 얇은 축은 이진 프런트백 선택(binary front-back choice)에 대해서만 적합한 것으로 결정되는데, 그 이유는 그 축에서는 보다 정확한 공간 분석이 견고하지 않을 수 있기 때문이다. 공간 메타 데이터는 전술한 지연/상관 분석, 및 그에 따른 방향 추정을 사용하여 주로 디바이스의 보다 긴 축에서 분석된다.

공간 메타 데이터를 추정하는 다른 방법은 다음에 설명되어, 2 개의 마이크로폰 채널의 실제 최소값의 예를 제공한다. 상이한 방향성 패턴을 갖는 2 개의 방향성 마이크로폰은, 예를 들어, 20cm 떨어져 배치될 수 있다. 이전 방법과 동일하게 마이크로폰 쌍 지연 분석을 사용하여 두 개의 가능한 수평 도달 방향을 추정할 수 있다. 이후 마이크로폰 방향성을 사용하여 프런트백 모호성을 해결할 수 있다. 마이크로폰 중 하나가 전방으로 보다 많이 감쇠하고 다른 마이크로폰이 후방으로 더 많이 감쇠하면, 예를 들어, 마이크로폰 주파수 대역 신호의 최대 에너지를 측정하여 프런트백 모호성을 해결할 수 있다. 비율 파라미터는 마이크로폰 쌍 간의 상관 분석을 사용하여, 예를 들어, 전술한 것과 유사한 방법을 사용하여 추정될 수 있다.

분명히, 공간 메타 데이터를 획득하기 위해 다른 공간 오디오 캡처 방법이 또한 적합할 수 있다. 특히, 구형 디바이스와 같은 비 플랫 디바이스의 경우, 예를 들어, 파라미터 추정을 위해 보다 높은 견고성을 가능하게 함으로써 다른 방법이 더 적합할 수 있다. 문헌에서 잘 알려진 예는 방향성 오디오 코딩(DirAC)이며, 이 코딩은 일반적인 형태로서 다음의 단계로 구성된다:

1) 1 차 구형 고조파 신호와 동등한 B 포맷 신호가 검색된다.

2) 음장 강도 벡터 및 음장 에너지는 B 포맷 신호로부터 주파수 대역으로 추정된다:

a. 강도 벡터는 W (제로 차수) 신호와 Х, Υ, Ζ (제 1 차수) 신호 사이의 단시간 교차 상관 추정치를 사용하여 획득될 수 있다. 도달 방향은 음장 강도 벡터의 반대 방향이다.

b. 음장 강도 및 음장 에너지의 절대값으로부터, 확산(즉, 앰비언스-투-토달 비율) 파라미터가 추정될 수 있다. 예를 들어, 강도 벡터의 길이가 0인 경우, 확산 파라미터는 1이다.

따라서, 일 실시예에서, DirAC 패러다임에 따른 공간 분석은 공간 메타 데이터를 생성하는 데 적용될 수 있으며, 따라서, 궁극적으로 구형 고조파 신호들의 합성을 가능하게 한다. 다시 말해서, 방향 파라미터 및 비율 파라미터는 몇몇 상이한 방법에 의해 추정될 수 있다.

공간 분석기(303)는 이 SPAC 분석을 사용하여 지각적으로 관련된 동적 공간 메타 데이터(304), 예를 들어, 주파수 대역에서의 방향(들) 및 에너지 비율(들)을 제공할 수 있다.

또한 이 시스템(및 캡처 디바이스)은 마이크로폰 오디오 신호(101)를 또한 수신하도록 구성된 빔 포머(303)를 포함할 수 있다. 빔 포머(305)는 빔 포밍된 스테레오(또는 적절한 다운 믹스 채널) 신호(306) 출력을 생성하도록 구성된다. 빔 포밍된 스테레오(또는 적절한 다운 믹스 채널) 신호(306)는 채널(309)을 통해 제 2 스테이지 처리 장치에 저장되거나 출력될 수 있다. 빔 포밍된 오디오 신호는 지연 또는 지연되지 않은 마이크로폰 오디오 신호들의 가중화된 합으로부터 생성될 수 있다. 마이크로폰 오디오 신호는 시간 또는 주파수 도메인에 있을 수 있다. 일부 실시예에서, 오디오 신호를 생성하는 마이크로폰의 공간 분리가 결정될 수 있으며, 이 정보는 생성된 빔 포밍된 오디오 신호를 제어하는 데 사용된다.

또한, 빔 포머(305)는 빔 포머 동작을 위한 포커스 정보(308)를 출력하도록 구성된다. 오디오 포커스 정보 또는 메타 데이터(308)는, 예를 들어, 빔 포머에 의해 생성된 오디오 포커스의 양태(예를 들어, 빔 포밍된 방향, 빔폭, 오디오 주파수 등)를 나타낼 수 있다. 오디오 포커스 메타 데이터(결합된 메타 데이터의 일부임)는, 예를 들어, 포커스 방향(방위각 및/또는 고도각 (도)), 포커스 섹터 폭 및/또는 고도 (도), 및 포커스 효과의 강도를 정의하는 포커스 이득을 포함할 수 있다. 유사하게, 상기 메타 데이터는 일부 실시예에서, 헤드 트래킹이 추적되거나 고정되도록 스티어링 모드가 적용될 수 있는지 여부와 같은 정보를 포함할 수 있다. 다른 메타 데이터는 어떤 주파수 대역이 포커싱될 수 있는지에 대한 표시, 및 모든 대역에 대해 개별적으로 정의된 포커스 이득 파라미터를 갖는 상이한 섹터에 대해 조정될 수 있는 포커스의 강도를 포함할 수 있다.

일부 실시예에서, 오디오 포커스 메타 데이터(308) 및 오디오 공간 메타 데이터(304)가 결합되고, 선택적으로 인코딩될 수 있다. 결합된 메타 데이터(310) 신호는 채널(309)을 통해 제 2 스테이지 처리 장치에 저장되거나 출력될 수 있다.

재생(제 2 스테이지) 장치 측에서, 상기 시스템은 결합된 메타 데이터(310) 및 빔 포밍된 스테레오 오디오 신호(306)를 수신하도록 구성된다. 일부 실시예에서, 장치는 공간 합성기(307)를 포함한다. 공간 합성기(307)는 결합된 메타 데이터(310) 및 빔 포밍된 스테레오 오디오 신호(306)를 수신하고, 빔 포밍된 스테레오 오디오 신호에 대한 공간 오디오 처리, 예를 들어, 공간 필터링을 수행할 수 있다. 또한, 공간 합성기(307)는 처리된 오디오 신호를 임의의 적절한 오디오 포맷으로 출력하도록 구성될 수 있다. 따라서, 예를 들어, 공간 합성기(307)는 포커싱된 공간 오디오 신호(312)를 선택된 오디오 포맷으로 출력하도록 구성될 수 있다.

공간 합성기(307)는 빔 포밍된 스테레오 오디오 신호(306)를 처리(예를 들어, 적응적으로 믹싱)하고, 이들 처리된 신호를, 예를 들어, 구형 고조파 오디오 신호로서 출력하여 사용자에게 렌더링되도록 구성될 수 있다.

공간 합성기(307)는 완전히 주파수 도메인에서 동작하거나 일부는 주파수 대역 도메인에서 그리고 일부는 시간 도메인에서 동작할 수 있다. 예를 들어, 공간 합성기(307)는 주파수 대역 도메인 신호를 역 필터 뱅크(inverse filter bank)에 출력하는 제 1 또는 주파수 대역 도메인 부분 및 역 필터 뱅크로부터 시간 도메인 신호를 수신하고 적절한 시간 도메인 오디오 신호를 출력하는 제 2 또는 시간 도메인 부분을 포함할 수 있다. 또한 일부 실시예에서 공간 합성기는 선형 합성기, 적응형 합성기 또는 하이브리드 합성기일 수 있다.

이러한 방식으로, 오디오 포커스 처리는 두 개의 부분으로 나누어진다. 빔 포밍 부분은 캡처 디바이스에서 수행되며 공간 필터링 부분은 재생 또는 렌더링 디바이스에서 수행된다. 이러한 방식으로, 오디오 컨텐츠는 메타 데이터에 의해 보완된 2 개의 (또는 다른 적절한 수의) 오디오 채널을 사용하여 제공될 수 있으며, 메타 데이터는 오디오 포커스 정보 뿐만 아니라 공간 오디오 포커스 처리를 위한 공간 정보를 포함한다.

오디오 포커스 동작을 두 개의 부분으로 분할함으로써, 캡처 디바이스에서 모든 포커스 처리를 수행하는 한계가 극복될 수 있다. 예를 들어, 전술한 바와 같은 실시예에서, 공간 합성 및 필터링으로서 캡처 동작을 수행할 때 재생 포맷은 선택될 필요가 없으며, 따라서 렌더링된 출력 포맷 오디오 신호를 생성하는 것이 재생 디바이스에서 수행된다.

유사하게, 재생 디바이스에서 공간 합성 및 필터링을 적용함으로써, 헤드 트래킹과 같은 입력에 대한 지원이 재생 디바이스에 의해 제공될 수 있다.

또한, 재생 디바이스로 출력될 렌더링된 멀티 채널 오디오 신호의 생성 및 인코딩이 회피됨에 따라, 채널(309)을 통한 높은 비트 레이트 출력이 또한 회피된다.

이들 이점 뿐만 아니라 재생 디바이스에서 모든 포커스 처리를 수행하는 한계와 비교하여 포커스 처리를 분할할 때의 이점도 존재한다. 예를 들어, 모든 마이크로폰 신호는 높은 비트 레이트 채널을 요구하는 채널(309)을 통해 전송될 필요가 있거나 공간 필터링만이 적용될 수 있다(즉, 빔 포밍 동작이 수행될 수 없고, 따라서 포커스 효과는 그렇지 강력하지가 않다).

도 3에 도시된 바와 같은 시스템을 구현하는 이점은, 예를 들어, 캡처 디바이스의 사용자가 캡처 세션 동안 포커스 설정을 변경하여, 예를 들어, 불쾌한 잡음 소스를 제거하거나 완화할 수 있다는 것일 수 있다. 또한, 일부 실시예에서, 재생 디바이스의 사용자는 공간 필터링의 포커스 설정 또는 제어 파라미터를 변경할 수 있다. 두 개의 처리 스테이지가 동시에 동일한 방향에 포커싱될 때 강력한 포커스 효과를 얻을 수 있다. 다시 말해서, 빔 포밍 및 공간 포커싱이 동기화될 때 강력한 포커스 효과가 생성될 수 있다. 포커스 메타 데이터는, 예를 들어, 재생 디바이스로 전송되어, 재생 디바이스의 사용자가 포커스 방향들을 동기화하여 강력한 포커스 효과를 생성할 수 있게 할 수 있다.

도 4와 관련하여, 도 3에 도시된 공간 오디오 포맷 지원을 구현하는 예시적인 2 개의 스테이지 오디오 포커스 시스템의 추가의 예시적인 구현이 보다 상세하게 도시되고 있다. 이 예에서, 상기 시스템은 캡처 (및 제 1 스테이지 처리) 장치, 재생 (및 제 2 스테이지 처리) 장치, 및 캡처 및 재생 장치를 분리하는 적절한 통신 채널(409)을 포함한다.

도 4에 도시된 예에서, 마이크로폰 오디오 신호(101)는 캡처 장치에 전달되고, 구체적으로 공간 분석기(403) 및 빔 포머(405)로 전달된다.

캡처 장치 공간 분석기(403)는 마이크로폰 오디오 신호를 수신하고, 마이크로폰 오디오 신호를 분석하여 전술한 것과 유사한 방식으로 적절한 공간 메타 데이터(404)를 생성하도록 구성될 수 있다.

캡처 장치 빔 포머(405)는 마이크로폰 오디오 신호를 수신하도록 구성된다. 일부 실시예에서 빔 포머(405)는 오디오 포커스 활성화 사용자 입력을 수신하도록 구성된다. 오디오 포커스 활성화 사용자 입력은 일부 실시예에서 오디오 포커스 방향을 정의할 수 있다. 도 4에 도시된 예에서, 빔 포머(405)는 좌측 채널 빔 포밍된 오디오 신호(431)를 생성하도록 구성된 좌측 빔 포머(421) 및 우측 채널 빔 포밍된 오디오 신호(433)를 생성하도록 구성된 우측 채널 빔 포머(423)를 포함하는 것으로 도시되고 있다.

또한, 빔 포머(405)는 오디오 포커스 메타 데이터(406)를 출력하도록 구성된다.

오디오 포커스 메타 데이터(406) 및 공간 메타 데이터(404)는 채널(409)을 통해 저장되거나 출력되는 결합된 메타 데이터 신호(410)를 생성하도록 결합될 수 있다.

(빔 포머(405)로부터) 좌측 채널 빔 포밍된 오디오 신호(431) 및 우측 채널 빔 포밍된 오디오 신호(433)는 스테레오 인코더(441)로 출력될 수 있다.

스테레오 인코더(441)는 좌측 채널 빔 포밍된 오디오 신호(431) 및 우측 채널 빔 포밍된 오디오 신호(433)를 수신하고, 채널(409)을 통해 저장 또는 출력될 수 있는 적절한 인코딩된 스테레오 오디오 신호(442)를 생성하도록 구성될 수 있다. 결과적인 스테레오 신호는 임의의 적합한 스테레오 코덱을 사용하여 인코딩될 수 있었다.

재생(제 2 스테이지) 장치 측에서, 상기 시스템은 결합된 메타 데이터(410) 및 인코딩된 스테레오 오디오 신호(442)를 수신하도록 구성된다. 재생(또는 수신기) 장치는 인코딩된 스테레오 오디오 신호(442)를 수신하고, 상기 신호를 디코딩하여 적절한 스테레오 오디오 신호(445)를 생성하도록 구성된 스테레오 디코더(443)를 포함한다. 일부 실시예에서, 스테레오 오디오 신호(445)는 빔 포밍에 의해 제공되는 마일드 포커스(mild focus)와 함께 레거시 스테레오 출력 오디오 신호를 제공하기 위한 공간 합성기 또는 필터가 존재하지 않는 재생 디바이스로부터 출력될 수 있다.

또한, 재생 장치는 스테레오 디코더(443)로부터 출력된 스테레오 오디오를 수신하고, 결합된 메타 데이터(410)를 수신하고, 이들로부터 공간적으로 합성된 오디오 신호를 정확한 출력 포맷으로 생성하도록 구성된 공간 합성기(407)를 포함할 수 있다. 따라서, 공간 합성기(407)는 빔 포머(405)에 의해 생성된 마일드 포커스를 갖는 공간 오디오 신호(446)를 생성할 수 있다. 일부 실시예에서 공간 합성기(407)는 오디오 출력 포맷 선택 입력(451)을 포함한다. 오디오 출력 포맷 선택 입력은 공간 오디오 신호(446)에 대한 정확한 포맷 출력을 생성할 때 재생 장치 공간 합성기(407)를 제어하도록 구성될 수 있다. 일부 실시예에서, 정의되거나 고정된 포맷은 장치 타입, 예를 들어, 모바일 전화, 서라운드 사운드 프로세서 등에 의해 정의될 수 있다.

재생 장치는 공간 필터(447)를 더 포함할 수 있다. 공간 필터(447)는 공간 합성기(407)로부터의 공간 오디오 출력(446) 및 공간 메타 데이터(410)를 수신하고, 포커싱된 공간 오디오 신호(412)를 출력하도록 구성될 수 있다. 공간 필터(447)는 일부 실시예에서, 예를 들어, 공간 오디오 신호(446)의 공간 필터링 동작을 제어하는 헤드 트래커로부터의 사용자 입력(도시되지 않음)을 포함할 수 있다.

캡처 장치 측에서, 캡처 장치 사용자는 오디오 포커스 특징을 활성화할 수 있고, 오디오 포커스의 강도 또는 섹터를 조정하기 위한 옵션을 가질 수 있다. 캡처/인코딩 측면에서, 포커스 처리는 빔 포밍을 사용하여 구현된다. 마이크로폰의 수에 따라, 상이한 마이크로폰 쌍 또는 배열이 좌측 및 우측 채널 빔 포밍된 오디오 신호를 비밍(beaming)하는 데 이용될 수 있다. 예를 들어, 도 5(a) 및 도 5(b)와 관련하여 3 및 4 개의 마이크로폰 구성이 도시되어 있다.

예를 들어, 도 5(a)는 4 개의 마이크로폰 장치 구성을 도시한다. 캡처 장치(501)는 전방 좌측 마이크로폰(511), 전방 우측 마이크로폰(515), 후방 좌측 마이크로폰(513) 및 후방 우측 마이크로폰(517)을 포함한다. 이들 마이크로폰은 쌍으로 사용되어, 전방 좌측(511) 및 후방 좌측(513) 쌍의 마이크로폰이 좌측 빔(503)을 형성하고 전방 우측(515) 및 후방 우측(517) 마이크로폰이 우측 빔(505)을 형성할 수 있게 된다.

도 5(b)와 관련하여, 3 개의 마이크로폰 장치 구성이 도시되어 있다. 이 예에서, 장치(501)는 전방 좌측 마이크로폰(511), 전방 우측 마이크로폰(515), 및 후방 좌측 마이크로폰(513)만을 포함한다. 좌측 빔(503)은 전방 좌측 마이크로폰(511) 및 후방 좌측 마이크로폰(513)으로부터 형성될 수 있고, 우측 빔(525)은 후방 좌측 좌측(513) 및 전방 우측(515) 마이크로폰으로부터 형성될 수 있다.

일부 실시예에서, 오디오 포커스 메타 데이터는 단순화될 수 있다. 예를 들어, 일부 실시예에서, 전방 포커스에 대한 하나의 모드 및 후방 포커스에 대한 다른 모드만이 존재한다.

일부 실시예에서, 재생 장치에서의 공간 필터링(제 2 스테이지 처리)은 빔 포밍의 포커스 효과(제 1 스테이지 처리)를 상쇄시키는 데 적어도 부분적으로 사용될 수 있다.

일부 실시예에서, 공간 필터링은 제 1 스테이지 처리에서의 빔 포밍에 의해 처리되지 않은(또는 충분하지 처리되지 않은) 주파수 대역만을 필터링하는 데 사용될 수 있다. 빔 포밍 동안의 처리의 부족은 특정의 정의된 주파수 대역에 대한 포커스 동작을 허용하지 않는 마이크로폰 배열의 물리적 치수로 인한 것일 수 있다.

일부 실시예에서, 오디오 포커스 동작은 방해하는 사운드 소스를 제거하기 위해 공간 섹터들이 처리되는 오디오 감쇠 동작일 수 있다.

일부 실시예에서, 포커스 처리의 공간 필터링 부분을 바이패스함으로써 보다 마일드한 포커스 효과가 달성될 수 있다.

일부 실시예에서, 상이한 포커스 방향이 빔 포밍 및 공간 필터링 스테이지에서 사용된다. 예를 들어, 빔 포머는 방향 α에 의해 정의된 제 1 포커스 방향으로 빔 포밍하도록 구성될 수 있고, 공간 필터링은 빔 포머로부터 출력된 오디오 신호를 방향 β에 의해 정의된 제 2 포커스 방향으로 공간적으로 포커싱하도록 구성될 수 있다.

일부 실시예에서, 2 스테이지 오디오 포커스 구현예는 동일한 디바이스 내에서 구현될 수 있다. 예를 들어, 처음으로 (콘서트를 레코딩할 때) 캡처 장치는 (나중에는 사용자가 레코딩을 검토중인 가정에 있을 때) 재생 장치인 경우가 있다. 이들 실시예에서, 포커스 처리는 내부적으로는 2-스테이지로 구현된다(그리고 2 개의 개별 시간에 구현될 수 있다).

예를 들어, 이러한 예는 도 6과 관련하여 도시되어 있다. 도 6에 도시된 단일 장치는 마이크로폰 오디오 신호(101)가 공간 분석기(603) 및 빔 포머(605)로 전달되는 예시적인 장치 시스템을 나타낸다. 공간 분석기(603)는 상술한 방식으로 마이크로폰 오디오 신호를 분석하고, 공간 합성기(607)로 직접 전달되는 공간 메타 데이터(또는 공간 정보)(604)를 생성한다. 또한, 빔 포머(605)는 마이크로폰으로부터 마이크로폰 오디오 신호를 수신하고, 빔 포밍된 오디오 신호 및 오디오 포커스 메타 데이터(608)를 생성 및 출력하고, 이를 공간 합성기(607)에 직접 전달하도록 구성된다.

공간 합성기(607)는 빔 포밍된 오디오 신호, 오디오 포커스 메타 데이터 및 공간 메타 데이터를 수신하고, 적절한 포커싱된 공간 오디오 신호(612)를 생성하도록 구성될 수 있다. 공간 합성기(607)는 또한 오디오 신호에 공간 필터링을 적용할 수 있다.

또한, 일부 실시예에서, 공간 필터링 및 공간 합성의 동작은, 출력 포맷 오디오 신호들의 공간 합성의 생성 전에 재생 장치에서의 공간 필터링 동작이 발생할 수 있도록, 변경될 수 있다. 도 7과 관련하여, 대안의 필터 합성 배열이 도시되어 있다. 이 예에서, 상기 시스템은 캡처 재생 장치를 포함하지만, 상기 장치는 통신 채널에 의해 분리된 캡처 및 재생 장치로 분할될 수 있다.

도 7에 도시된 예에서, 마이크로폰 오디오 신호(101)는 캡처 장치에 전달되고, 구체적으로 공간 분석기(703) 및 빔 포머(705)로 전달된다.

캡처 재생 장치 공간 분석기(703)는 마이크로폰 오디오 신호를 수신하고, 마이크로폰 오디오 신호를 분석하여 전술한 것과 유사한 방식으로 적절한 공간 메타 데이터(704)를 생성하도록 구성될 수 있다. 공간 메타 데이터(704)는 공간 합성기(707)로 전달될 수 있다.

캡처 장치 빔 포머(705)는 마이크로폰 오디오 신호를 수신하도록 구성된다. 도 7에 도시된 예에서, 빔 포머(705)는 빔 포밍된 오디오 신호(706)를 생성하는 것으로 도시되어 있다. 또한, 빔 포머(705)는 오디오 포커스 메타 데이터(708)를 출력하도록 구성된다. 오디오 포커스 메타 데이터(708) 및 빔 포밍된 오디오 신호(706)는 공간 필터(747)에 출력될 수 있다.

캡처 재생 장치는 빔 포밍된 오디오 신호 및 오디오 포커스 메타 데이터를 수신하고 포커싱된 오디오 신호를 출력하도록 구성된 공간 필터(747)를 더 포함할 수 있다.

포커싱된 오디오 신호는, 포커싱된 오디오 신호를 수신하고, 공간 메타 데이터를 수신하고, 이들로부터 공간적으로 합성된 오디오 신호를 정확한 출력 포맷으로 생성하도록 구성된 공간 합성기(707)에 전달될 수 있다.

일부 실시예에서, 2-스테이지 처리는 재생 장치 내에서 달성될 수 있다. 따라서, 예를 들어, 도 8과 관련하여, 캡처 장치가 공간 분석기(및 인코더)를 포함하고 재생 디바이스가 빔 포머 및 공간 합성기를 포함하는 추가의 예가 도시되어 있다. 이 예에서, 상기 시스템은 캡처 장치, 재생(제 1 및 제 2 스테이지 처리) 장치, 및 캡처 및 재생 장치를 분리하는 적절한 통신 채널(809)을 포함한다.

도 8에 도시된 예에서, 마이크로폰 오디오 신호(101)는 캡처 장치에 전달되고, 구체적으로 공간 분석기(및 인코더)(803)에 전달된다.

캡처 장치 공간 분석기(803)는 마이크로폰 오디오 신호를 수신하고, 마이크로폰 오디오 신호를 분석하여 전술한 것과 유사한 방식으로 적절한 공간 메타 데이터(804)를 생성하도록 구성될 수 있다. 또한, 일부 실시예에서, 공간 분석기는 다운 믹스 채널 오디오 신호를 생성하고, 이를 인코딩하여 채널(809)을 통해 공간 메타 데이터와 함께 전송되도록 구성될 수 있다.

재생 장치는 다운 믹스 채널 오디오 신호를 수신하도록 구성된 빔 포머(805)를 포함할 수 있다. 빔 포머(805)는 빔 포밍된 오디오 신호(806)를 생성하도록 구성된다. 또한, 빔 포머(805)는 오디오 포커스 메타 데이터(808)를 출력하도록 구성된다.

오디오 포커스 메타 데이터(808) 및 공간 메타 데이터(804)는 빔 포밍된 오디오 신호와 함께 공간 합성기(807)로 전달될 수 있으며, 공간 합성기(807)는 적절한 공간적으로 포커싱된 합성 오디오 신호 출력(812)을 생성하도록 구성된다.

일부 실시예에서, 공간 메타 데이터는 마이크로폰 어레이의 적어도 2 개의 마이크로폰 신호에 기초하여 분석될 수 있고, 구형 고조파 신호의 공간 합성은 메타 데이터 및 동일한 어레이 내의 적어도 하나의 마이크로폰 신호에 기초하여 수행될 수 있다. 예를 들어, 스마트폰을 사용하면 메타 데이터 분석에 마이크로폰의 전체 또는 일부가 사용될 수 있으며, 예를 들어, 구형 고조파 신호의 합성에는 전방 마이크로폰만이 사용될 수 있다. 그러나, 이러한 분석에 사용되는 마이크로폰은 일부 실시예에서 이러한 합성에 사용되는 마이크로폰과 다를 수 있음을 이해해야 한다. 마이크로폰은 또한 다른 디바이스의 일부일 수도 있다. 예를 들어, 공간 메타 데이터 분석은 냉각 팬을 가진 프레즌스 캡처 디바이스(presence capture device)의 마이크로폰 신호에 기초하여 수행되는 것일 수 있다. 메타 데이터가 획득되더라도, 이러한 마이크로폰 신호는 예를 들어, 팬 잡음으로 인해 충실도가 낮을 수 있다. 이러한 경우에, 하나 이상의 마이크로폰이 프레즌스 캡처 디바이스의 외부에 배치될 수 있다. 이들 외부 마이크로폰으로부터의 신호는 프레즌스 캡처 디바이스로부터의 마이크로폰 신호를 사용하여 획득된 공간 메타 데이터에 따라 처리될 수 있다.

마이크로폰 신호를 획득하기 위해 사용될 수 있는 다양한 구성이 있다.

본 명세서에서 논의된 임의의 마이크로폰 신호는 사전 처리된 마이크로폰 신호일 수 있음이 이해된다. 예를 들어, 마이크로폰 신호는 디바이스의 실제 마이크로폰 신호의 적응적 또는 비 적응적 조합일 수 있다. 예를 들어, 개선된 SNR을 갖는 신호를 제공하기 위해 결합된 서로 인접한 몇 개의 마이크로폰 캡슐이 있을 수 있다.

마이크로폰 신호는 또한 적응적으로 또는 비 적응적으로 등화되거나 잡음 제거 프로세스로 처리되는 것과 같이, 사전 처리될 수 있다. 또한, 마이크로폰 신호는 일부 실시예에서 빔 포밍 신호일 수 있고, 즉, 두 개 이상의 마이크로폰 신호를 조합함으로써 획득되는 공간 캡처 패턴 신호일 수 있다.

따라서, 본 명세서에 제공된 방법에 따른 처리를 위한 마이크로폰 신호를 획득하기 위한 많은 구성, 디바이스 및 접근법이 존재하는 것으로 이해된다.

일부 실시예에서, 하나의 마이크로폰 또는 오디오 신호만이 존재할 수 있으며, 관련된 공간 메타 데이터는 이전에 분석되었다. 예를 들어, 적어도 2 개의 마이크로폰을 사용하여 공간 메타 데이터를 분석한 후, 예를 들어, 하나의 채널만으로의 전송 또는 저장을 위해 마이크로폰 신호의 수가 감소된 것일 수 있다. 전송 후, 이러한 예시적인 구성에서, 디코더는 단지 하나의 오디오 채널 및 공간 메타 데이터를 수신한 다음, 본원에 제공된 방법을 사용하여 구형 고조파 신호의 공간 합성을 수행한다. 분명히, 2 개 이상의 전송된 오디오 신호가 있을 수 있으며, 이러한 경우에 이전에 분석된 메타 데이터는 구형 고조파 신호의 적응적 합성에 적용될 수 있다.

일부 실시예에서, 공간 메타 데이터는 적어도 2 개의 마이크로폰 신호로부터 분석되고, 적어도 하나의 오디오 신호와 함께 메타 데이터는 원격 수신기로 전송되거나 저장된다. 다시 말해서, 오디오 신호 및 공간 메타 데이터는 구형 고조파 신호 포맷과 다른 중간 포맷으로 저장 또는 전송될 수 있다. 예를 들어, 포맷은 구형 고조파 신호 포맷보다 낮은 비트 레이트를 특징으로 할 수 있다. 적어도 하나의 전송 또는 저장된 오디오 신호는 공간 메타 데이터가 또한 획득되었던 동일한 마이크로폰 신호에 기초하거나 또는 음장 내의 다른 마이크로폰으로부터의 신호에 기초할 수 있다. 디코더에서, 중간 포맷은 구형 고조파 신호 포맷으로 트랜스코딩될 수 있고, 따라서 유튜브(YouTube)와 같은 서비스와의 호환성을 가능하게 할 수 있다. 다시 말해, 수신기 또는 디코더에서, 전송되거나 저장된 적어도 하나의 오디오 채널은 관련된 공간 메타 데이터를 이용하고 본원에 설명된 방법을 사용하여 구형 고조파 오디오 신호 표현으로 처리된다. 전송 또는 저장되는 동안, 일부 실시예에서, 오디오 신호(들)는, 예를 들어, AAC를 사용하여 인코딩될 수 있다. 일부 실시예에서, 공간 메타 데이터는 양자화, 인코딩, 및/또는 AAC 비트 스트림에 내장될 수 있다. 일부 실시예에서, AAC 또는 다른 방식으로 인코딩된 오디오 신호 및 공간 메타 데이터는 MP4 매체 컨테이너와 같은 컨테이너에 내장될 수 있다. 일부 실시예에서, 예를 들어, MP4인 매체 컨테이너는 인코딩된 구형 파노라마 비디오 스트림과 같은 비디오 스트림을 포함할 수 있다. 오디오 신호 및 관련 공간 메타 데이터를 전송 또는 저장하기 위한 많은 다른 구성이 존재한다.

오디오 신호 및 공간 메타 데이터를 전송 또는 저장하기 위해 적용된 방법에 관계없이, 수신기(또는 디코더 또는 프로세서)에서, 본원에 기술된 방법은 공간 메타 데이터 및 적어도 하나의 오디오 신호에 기초하여 구형 고조파 신호를 적응적으로 생성하는 수단을 제공한다. 다시 말해서, 본원에 제시된 방법에 대해, 예를 들어, 인코딩, 전송/저장 및 디코딩을 통해 마이크로폰 신호로부터 직접적으로 또는 간접적으로 오디오 신호 및/또는 공간 메타 데이터가 획득되는지는 실제로는 관련이 없다. 도 9와 관련하여, 캡처 및/또는 재생 장치의 적어도 일부로서 사용될 수 있는 예시적인 전자 디바이스(1200)가 도시되어 있다. 디바이스는 임의의 적절한 전자 디바이스 또는 장치일 수 있다. 예를 들어, 일부 실시예에서, 디바이스(1200)는 가상 또는 증강 현실 캡처 디바이스, 모바일 디바이스, 사용자 장비, 태블릿 컴퓨터, 컴퓨터, 오디오 재생 장치 등이다.

디바이스(1200)는 마이크로폰 어레이(1201)를 포함할 수 있다. 마이크로폰 어레이(1201)는 복수의(예를 들어, M 개의) 마이크로폰을 포함할 수 있다. 그러나, 임의의 적합한 구성의 마이크로폰 및 임의의 적절한 수의 마이크로폰이 있을 수 있는 것으로 이해된다. 일부 실시예에서, 마이크로폰 어레이(1201)는 장치와 분리되며, 오디오 신호는 유선 또는 무선 커플링에 의해 장치로 전송된다.

마이크로폰은 음향파를 적절한 전기 오디오 신호로 변환하도록 구성된 트랜스듀서일 수 있다. 일부 실시예에서, 마이크로폰은 솔리드 스테이트 마이크로폰일 수 있다. 다시 말해서, 마이크로폰은 오디오 신호를 캡처하고 적절한 디지털 포맷 신호를 출력할 수 있다. 일부 다른 실시예에서, 마이크로폰 또는 마이크로폰 어레이(1201)는 임의의 적절한 마이크로폰 또는 오디오 캡처 수단, 예를 들어, 콘덴서 마이크로폰, 캐패시터 마이크로폰, 정전기 마이크로폰, 일렉트릿 콘덴서 마이크로폰, 다이나믹 마이크로폰, 리본 마이크로폰, 카본 마이크로폰, 압전 마이크로폰, 또는 미세전기-기계 시스템(microelectrical-mechanical system)(MEMS) 마이크로폰을 포함할 수 있다. 일부 실시예에서, 마이크로폰은 오디오 캡처된 신호를 아날로그-디지털 변환기(ADC)(1203)로 출력할 수 있다.

디바이스(1200)는 아날로그-디지털 변환기(1203)를 더 포함할 수 있다. 아날로그-디지털 변환기(1203)는 마이크로폰 어레이(1201) 내의 각각의 마이크로폰으로부터 오디오 신호를 수신하고, 그 신호를 처리에 적절한 포맷으로 변환하도록 구성될 수 있다. 마이크로폰이 통합 마이크로폰인 일부 실시예에서, 아날로그-디지털 변환기는 필요하지 않다. 아날로그-디지털 변환기(1203)는 임의의 적절한 아날로그-디지털 변환 또는 처리 수단일 수 있다. 아날로그-디지털 변환기(1203)는 오디오 신호의 디지털 표현을 프로세서(1207) 또는 메모리(1211)로 출력하도록 구성될 수 있다.

일부 실시예에서, 디바이스(1200)는 적어도 하나의 프로세서 또는 중앙 처리 유닛(1207)을 포함한다. 프로세서(1207)는 다양한 프로그램 코드를 실행하도록 구성될 수 있다. 구현된 프로그램 코드는, 예를 들어, SPAC 분석, 빔 포밍, 공간 합성, 및 본원에 기술된 바와 같은 공간 필터링을 포함할 수 있다.

일부 실시예에서, 디바이스(1200)는 메모리(1211)를 포함한다. 일부 실시예에서, 적어도 하나의 프로세서(1207)는 메모리(1211)에 연결된다. 메모리(1211)는 임의의 적절한 저장 수단일 수 있다. 일부 실시예에서, 메모리(1211)는 프로세서(1207) 상에 구현될 수 있는 프로그램 코드를 저장하기 위한 프로그램 코드 섹션을 포함한다. 또한, 일부 실시예에서, 메모리(1211)는 데이터, 예를 들어, 본원에 설명된 실시예에 따라 처리되었거나 처리될 데이터를 저장하기 위한 저장된 데이터 섹션을 더 포함할 수 있다. 프로그램 코드 섹션 내에 저장된 구현된 프로그램 코드 및 저장된 데이터 섹션 내에 저장된 데이터는 메모리 프로세서 커플링을 통해 필요할 때마다 프로세서(1207)에 의해 검색될 수 있다.

일부 실시예에서, 디바이스(1200)는 사용자 인터페이스(1205)를 포함한다. 사용자 인터페이스(1205)는 일부 실시예에서 프로세서(1207)에 연결될 수 있다. 일부 실시예에서, 프로세서(1207)는 사용자 인터페이스(1205)의 동작을 제어하고, 사용자 인터페이스(1205)로부터 입력을 수신할 수 있다. 일부 실시예에서, 사용자 인터페이스(1205)는 사용자가, 예를 들어, 키패드를 통해 디바이스(1200)에 커맨드를 입력하게 할 수 있다. 일부 실시예에서, 사용자 인터페이스(205)는 사용자가 디바이스(1200)로부터 정보를 획득하게 할 수 있다. 예를 들어, 사용자 인터페이스(1205)는 디바이스(1200)로부터 사용자에게 정보를 디스플레이하도록 구성된 디스플레이를 포함할 수 있다. 사용자 인터페이스(1205)는 일부 실시예에서 정보가 디바이스(1200)에 입력될 수 있게 하고, 정보를 디바이스(1200)의 사용자에게 추가로 디스플레이할 수 있는 터치 스크린 또는 터치 인터페이스를 포함할 수 있다.

일부 실시예에서, 디바이스(1200)는 트랜시버(1209)를 포함한다. 그러한 실시예에서 트랜시버(1209)는 프로세서(1207)에 연결될 수 있고, 예를 들어, 무선 통신 네트워크를 통해 다른 장치 또는 전자 디바이스와의 통신을 가능하게 하도록 구성될 수 있다. 트랜시버(1209) 또는 임의의 적절한 트랜시버 또는 송신기 및/또는 수신기 수단은 일부 실시예에서 유선 또는 유선 커플링을 통해 다른 전자 디바이스 또는 장치와 통신하도록 구성될 수 있다.

트랜시버(1209)는 임의의 적절한 알려진 통신 프로토콜에 의해 추가의 장치와 통신할 수 있다. 예를 들어, 일부 실시예에서, 트랜시버(1209) 또는 트랜시버 수단은 적절한 범용 모바일 통신 시스템(UMTS) 프로토콜, 예를 들어, IEEE 802.X와 같은 무선 근거리 네트워크(WLAN) 프로토콜, 블루투스와 같은 적절한 단거리 무선 주파수 통신 프로토콜, 또는 적외선 데이터 통신 경로(IRDA)를 사용할 수 있다.

일부 실시예에서, 디바이스(1200)는 합성기 장치로서 이용될 수 있다. 이와 같이, 트랜시버(1209)는 오디오 신호를 수신하고, 위치 정보 및 비율과 같은 공간 메타 데이터를 결정하고, 적절한 코드를 실행하는 프로세서(1207)를 사용하여 적절한 오디오 신호 렌더링을 생성하도록 구성될 수 있다. 디바이스(1200)는 아날로그-디지털 변환기(1213)를 포함할 수 있다. 디지털-아날로그 변환기(1213)는 프로세서(1207) 및/또는 메모리(1211)에 연결될 수 있고, (예를 들어, 본원에 기술된 오디오 신호의 오디오 렌더링에 후속하여 프로세서(1207)로부터의) 오디오 신호의 디지털 표현을 오디오 서브 시스템 출력을 통한 프리젠테이션에 적합한 적절한 아날로그 포맷으로 변환하도록 구성될 수 있다. 디지털-아날로그 변환기(DAC)(1213) 또는 신호 처리 수단은 일부 실시예에서 임의의 적절한 DAC 기술일 수 있다.

또한, 디바이스(1200)는 일부 실시예에서 오디오 서브 시스템 출력(1215)을 포함할 수 있다. 도 6에 도시된 바와 같은 예는 오디오 서브 시스템 출력(1215)이 헤드폰(121)과의 커플링을 가능하게 하도록 구성된 출력 소켓인 경우일 수 있다. 그러나, 오디오 서브 시스템 출력(1215)은 임의의 적절한 오디오 출력일 수 있거나 또는 오디오 출력에 대한 연결일 수 있다. 예를 들어, 오디오 서브 시스템 출력(1215)은 멀티 채널 스피커 시스템에 대한 연결일 수 있다.

일부 실시예에서, 디지털-아날로그 변환기(1213) 및 오디오 서브 시스템(1215)은 물리적으로 분리된 출력 디바이스 내에서 구현될 수 있다. 예를 들어, DAC(1213) 및 오디오 서브 시스템(1215)은 트랜시버(1209)를 통해 디바이스(1200)와 통신하는 무선 이어폰으로서 구현될 수 있다.

디바이스(1200)가 오디오 캡처 및 오디오 렌더링 컴포넌트를 모두 갖는 것으로 도시되어 있지만, 일부 실시예에서 디바이스(1200)는 오디오 캡처 또는 오디오 렌더링 장치 요소만을 포함할 수 있음을 이해할 것이다.

일반적으로, 본 발명의 다양한 실시예는 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직, 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 일부 양태는 하드웨어로 구현될 수 있는 반면, 다른 양태는 제어기, 마이크로프로세서 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있지만, 본 발명은 이에 제한되는 것은 아니다. 본 발명의 다양한 양태가 블록도, 흐름도, 또는 일부 다른 그림 표현을 사용하여 도시되고 기술될 수 있지만, 본 명세서에 기술된 이러한 블록도, 장치, 시스템, 기술, 또는 방법은, 비제한적인 예로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 범용 하드웨어 또는 제어기 또는 다른 컴퓨팅 디바이스, 또는 이들의 일부 조합으로 구현될 수 있음이 잘 이해될 것이다.

본 발명의 실시예는 프로세서 엔티티에서와 같은 전자 디바이스의 데이터 프로세서에 의해, 또는 하드웨어에 의해, 또는 소프트웨어와 하드웨어의 조합에 의해 실행 가능한 컴퓨터 소프트웨어에 의해 구현될 수 있다. 또한, 이와 관련하여, 도면에서와 같은 로직 흐름의 임의의 블록은 프로그램 단계, 또는 상호 접속된 로직 회로, 블록 및 기능, 또는 프로그램 단계와 로직 회로, 블록 및 기능의 조합을 나타낼 수 있음에 주목해야 한다. 소프트웨어는 메모리 칩으로서 물리적 매체, 또는 프로세서 내에 구현된 메모리 블록, 하드 디스크 또는 플로피 디스크와 같은 자기 매체, 및, 예를 들어, DVD와 그의 데이터 변종인 CD와 같은 광학 매체에 저장될 수 있다.

메모리는 국부적인 기술적 환경에 적합한 임의의 타입일 수 있고, 반도체 기반 메모리 디바이스, 자기 메모리 디바이스 및 시스템, 광학 메모리 디바이스 및 시스템, 고정 메모리(fixed memory) 및 착탈식 메모리와 같은, 임의의 적절한 데이터 저장 기술을 사용하여 구현될 수 있다. 데이터 프로세서는 국부적인 기술적 환경에 적합한 임의의 타입일 수 있으며, 범용 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 게이트 레벨 회로, 및 멀티 코어 프로세서 아키텍처 기반의 프로세서 중 하나 이상을 비 제한적인 예로서 포함할 수 있다.

본 발명의 실시예는 집적 회로 모듈과 같은 다양한 컴포넌트로 실시될 수 있다. 집적 회로의 설계는 대체로 고도로 자동화된 프로세스이다. 로직 레벨 설계를 반도체 기판 상에 에칭 및 형성될 준비가 된 반도체 회로 설계로 변환하기 위해 복잡하고 강력한 소프트웨어 툴이 이용 가능하다.

캘리포니아 마운틴 뷰의 Synopsys, Inc. 및 캘리포니아 산 호세의 Cadence Design에 의해 제공되는 것과 같은 프로그램은 잘 수립된 설계 규칙과 사전 저장된 설계 모듈의 라이브러리를 사용하여 도체를 자동으로 라우팅하고 컴포넌트를 반도체 칩에 로케이팅한다. 반도체 회로를 위한 설계가 완료되면, 표준화된 전자 포맷(예를 들어, Opus, GDSII 등)의 결과적인 설계는 반도체 제조 설비 또는 제조를 위한 "fab"으로 전송될 수 있다.

전술한 설명은 예시적이고 비 제한적인 예로서 본 발명의 예시적인 실시예에 대한 전체적이고 유익한 설명을 제공하였다. 그러나, 첨부된 도면 및 첨부된 청구 범위와 관련하여 판독될 때, 전술한 설명을 고려하여 다양한 수정 및 개조가 관련 기술 분야의 기술자에게 명백해질 수 있다. 그러나, 본 발명의 교시의 그러한 모든 및 유사한 변형은 첨부된 청구 범위에 정의된 바와 같이 본 발명의 영역 내에 여전히 속할 것이다.

Claims

하나 이상의 프로세서를 포함하는 장치로서,
상기 하나 이상의 프로세서는:
오디오 신호 처리를 위해 적어도 2 개의 마이크로폰 오디오 신호를 수신하는 것 - 상기 오디오 신호 처리는 공간 정보를 출력하도록 구성된 적어도 공간 오디오 신호 처리 및 포커스 정보 및 적어도 하나의 빔 포밍된 오디오 신호를 출력하도록 구성된 빔 포밍 처리를 포함함 -;
상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 상기 공간 오디오 신호 처리에 기초하여 공간 정보를 결정하는 것;
상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 상기 빔 포밍 처리를 위한 포커스 정보 및 적어도 하나의 빔 포밍된 오디오 신호를 결정하는 것; 및
상기 적어도 2 개의 마이크로폰 오디오 신호로부터의 상기 적어도 하나의 빔 포밍된 오디오 신호, 상기 공간 정보 및 상기 포커스 정보에 기초하여 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 합성하기 위해 상기 적어도 하나의 빔 포밍된 오디오 신호에 공간 필터를 적용하는 것 - 이러한 방식에서, 상기 공간 필터, 상기 적어도 하나의 빔 포밍된 오디오 신호, 상기 공간 정보 및 상기 포커스 정보는 상기 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 공간적으로 합성하는 데 사용되도록 구성됨 - 을 수행하도록 구성되는
장치.
제1항에 있어서,
상기 하나 이상의 프로세서는 상기 공간 정보와 상기 포커스 정보를 결합하여 결합된 메타 데이터 신호를 생성하도록 구성되는
장치.
하나 이상의 프로세서를 포함하는 장치로서,
상기 하나 이상의 프로세서는:
적어도 하나의 빔 포밍된 오디오 신호 및 공간 메타 데이터 정보로부터 적어도 하나의 공간 오디오 신호를 공간적으로 합성하는 것 - 상기 적어도 하나의 빔 포밍된 오디오 신호 그 자체는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 생성되며, 상기 공간 메타 데이터 정보는 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초함 - ; 및
적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 것을 수행하도록 구성되는
장치.
제3항에 있어서,
상기 하나 이상의 프로세서는:
상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초하여 상기 공간 정보를 결정하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호를 공간 오디오 신호 처리하는 것; 및
상기 빔 포밍 처리를 위한 상기 포커스 정보를 결정하고 상기 적어도 2 개의 마이크로폰 오디오 신호를 빔 포밍 처리하여 상기 적어도 하나의 빔 포밍된 오디오 신호를 생성하는 것을 수행하도록 더 구성되는
장치.
제3항 또는 제4항에 있어서,
상기 장치는 출력 채널 배열을 정의하는 오디오 출력 선택 표시자를 수신하도록 구성될 수 있고, 적어도 하나의 공간 오디오 신호를 공간적으로 합성하도록 구성된 장치는 상기 오디오 출력 선택 표시자에 기초한 포맷으로 상기 적어도 하나의 공간 오디오 신호를 생성하도록 더 구성되는
장치.
제3항 내지 제5항 중 어느 한 항에 있어서,
상기 장치는 공간 필터링을 정의하는 오디오 필터 선택 표시자를 수신하도록 구성되고, 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성된 장치는 상기 오디오 필터 선택 표시자와 관련된 적어도 하나의 포커스 필터 파라미터에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 더 구성되며,
상기 적어도 하나의 필터 파라미터는:
방위각 및/또는 고도 중 적어도 하나에서의 포커스 방향 및 방위각 폭 및/또는 고도의 높이에서의 포커스 섹터 중 적어도 하나를 정의하는 적어도 하나의 공간 포커스 필터 파라미터;
포커싱되는 상기 적어도 하나의 공간 오디오 신호의 적어도 하나의 주파수 대역을 정의하는 적어도 하나의 주파수 포커스 필터 파라미터;
상기 적어도 하나의 공간 오디오 신호에 대한 감쇠 포커스 효과의 강도를 정의하는 적어도 하나의 감쇠 포커스 필터 파라미터;
상기 적어도 하나의 공간 오디오 신호에 대한 포커스 효과의 강도를 정의하는 적어도 하나의 이득 포커스 필터 파라미터; 및
상기 적어도 하나의 공간 오디오 신호의 공간 필터를 구현할지 또는 바이패스할지를 정의하는 포커스 바이패스 필터 파라미터 중 적어도 하나를 포함하는
장치.
제6항에 있어서,
상기 오디오 필터 선택 표시자는 헤드 트래커 입력에 의해 제공되는
장치.
제7항에 있어서,
상기 포커스 정보는 상기 헤드 트래커 입력에 의해 제공된 상기 오디오 필터 선택 표시자의 처리를 가능하게 하도록 구성된 스티어링 모드 표시자를 포함하는
장치.
제3항 내지 제8항 중 어느 한 항에 있어서,
적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리에 기초한 포커스 정보에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성된 장치는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리의 효과를 상쇄시키기 위해 상기 적어도 하나의 공간 오디오 신호를 적어도 부분적으로 공간적으로 필터링하도록 더 구성되는
장치.
제3항 내지 제9항 중 어느 한 항에 있어서,
적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성된 장치는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리에 의해 크게 영향을 받지 않는 주파수 대역만을 공간적으로 필터링하도록 더 구성되는
장치.
제3항 내지 제10항 중 어느 한 항에 있어서,
적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성된 장치는 상기 포커스 정보 내에 표시된 방향으로 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하도록 구성되는
장치.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초한 상기 공간 정보 및/또는 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 상기 포커스 정보는 상기 적어도 하나의 공간 오디오 신호의 어느 주파수 대역이 상기 빔 포밍 처리에 의해 처리되는지를 결정하도록 구성되는 주파수 대역 표시자를 포함하는
장치.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 적어도 하나의 빔 포밍된 오디오 신호를 생성하도록 구성된 장치는 적어도 2 개의 빔 포밍된 스테레오 오디오 신호를 생성하도록 구성되는
장치.
제1항 내지 제13항 중 어느 한 항에 있어서,
상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 적어도 하나의 빔 포밍된 오디오 신호를 생성하도록 구성된 장치는:
2 개의 미리 결정된 빔 포밍 방향 중 하나를 결정하는 것; 및
상기 2 개의 미리 결정된 빔 포밍 방향 중 하나에서 상기 적어도 2 개의 마이크로폰 오디오 신호를 빔 포밍하는 것을 수행하도록 구성되는
장치.
제1항 내지 제14항 중 어느 한 항에 있어서,
상기 하나 이상의 프로세서는 마이크로폰 어레이로부터 상기 적어도 2 개의 마이크로폰 오디오 신호를 수신하도록 더 구성되는
장치.
방법으로서,
오디오 신호 처리를 위해 적어도 2 개의 마이크로폰 오디오 신호를 수신하는 단계 - 상기 오디오 신호 처리는 공간 정보를 출력하도록 구성된 적어도 공간 오디오 신호 처리 및 포커스 정보 및 적어도 하나의 빔 포밍된 오디오 신호를 출력하도록 구성된 빔 포밍 처리를 포함함 -;
상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 상기 공간 오디오 신호 처리에 기초하여 공간 정보를 결정하는 단계;
상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 상기 빔 포밍 처리를 위한 포커스 정보 및 적어도 하나의 빔 포밍된 오디오 신호를 결정하는 단계; 및
상기 적어도 2 개의 마이크로폰 오디오 신호로부터의 상기 적어도 하나의 빔 포밍된 오디오 신호, 상기 공간 정보 및 상기 포커스 정보에 기초하여 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 합성하기 위해 상기 적어도 하나의 빔 포밍된 오디오 신호에 공간 필터를 적용하는 단계 - 이러한 방식에서, 상기 공간 필터, 상기 적어도 하나의 빔 포밍된 오디오 신호, 상기 공간 정보 및 상기 포커스 정보는 상기 적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 공간적으로 합성하는 데 사용되도록 구성됨 - 를 포함하는
방법.
제16항에 있어서,
상기 방법은 상기 공간 정보와 상기 포커스 정보를 결합하여 결합된 메타 데이터 신호를 생성하는 단계를 더 포함하는
방법.
방법으로서,
적어도 하나의 빔 포밍된 오디오 신호 및 공간 메타 데이터 정보로부터 적어도 하나의 공간 오디오 신호를 공간적으로 합성하는 단계 - 상기 적어도 하나의 빔 포밍된 오디오 신호 그 자체는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리로부터 생성되며, 상기 공간 메타 데이터 정보는 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초함 - ; 및
적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계를 포함하는
방법.
제18항에 있어서,
상기 방법은
상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 오디오 신호 처리에 기초하여 상기 공간 정보를 결정하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호를 공간 오디오 신호 처리하는 단계; 및
상기 빔 포밍 처리를 위한 포커스 정보를 결정하고 상기 적어도 2 개의 마이크로폰 오디오 신호를 빔 포밍 처리하여 상기 적어도 하나의 빔 포밍된 오디오 신호를 생성하는 단계를 더 포함하는
방법.
제18항 또는 제19항에 있어서,
상기 방법은 출력 채널 배열을 정의하는 오디오 출력 선택 표시자를 수신하는 단계를 더 포함하고, 적어도 하나의 공간 오디오 신호를 공간적으로 합성하는 단계는 상기 오디오 출력 선택 표시자에 기초한 포맷으로 상기 적어도 하나의 공간 오디오 신호를 생성하는 단계를 포함하는
방법.
제18항 내지 제20항 중 어느 한 항에 있어서,
상기 방법은 공간 필터링을 정의하는 오디오 필터 선택 표시자를 수신하는 단계를 포함하고, 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계는 상기 오디오 필터 선택 표시자와 관련된 적어도 하나의 포커스 필터 파라미터에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계를 포함하며,
상기 적어도 하나의 필터 파라미터는:
방위각 및/또는 고도 중 적어도 하나에서의 포커스 방향 및 방위각 폭 및/또는 고도의 높이에서의 포커스 섹터 중 적어도 하나를 정의하는 적어도 하나의 공간 포커스 필터 파라미터;
포커싱되는 상기 적어도 하나의 공간 오디오 신호의 적어도 하나의 주파수 대역을 정의하는 적어도 하나의 주파수 포커스 필터 파라미터;
상기 적어도 하나의 공간 오디오 신호에 대한 감쇠 포커스 효과의 강도를 정의하는 적어도 하나의 감쇠 포커스 필터 파라미터;
상기 적어도 하나의 공간 오디오 신호에 대한 포커스 효과의 강도를 정의하는 적어도 하나의 이득 포커스 필터 파라미터; 및
상기 적어도 하나의 공간 오디오 신호의 공간 필터를 구현할지 또는 바이패스할지를 정의하는 포커스 바이패스 필터 파라미터 중 적어도 하나를 포함하는
방법.
제21항에 있어서,
상기 방법은 헤드 트래커로부터 상기 오디오 필터 선택 표시자를 수신하는 단계를 더 포함하는
방법.
제22항에 있어서,
상기 포커스 정보는 상기 오디오 필터 선택 표시자의 처리를 가능하게 하도록 구성된 스티어링 모드 표시자를 포함하는
방법.
제18항 내지 제23항 중 어느 한 항에 있어서,
적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리에 기초한 포커스 정보에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리의 효과를 상쇄시키기 위해 상기 적어도 하나의 공간 오디오 신호를 적어도 부분적으로 공간적으로 필터링하는 단계를 포함하는
방법.
제18항 내지 제24항 중 어느 한 항에 있어서,
적어도 하나의 포커싱된 공간적으로 처리된 오디오 신호를 제공하기 위해 상기 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리를 위한 포커스 정보에 기초하여 상기 적어도 하나의 공간 오디오 신호를 공간적으로 필터링하는 단계는 적어도 2 개의 마이크로폰 오디오 신호와 관련된 빔 포밍 처리에 의해 크게 영향을 받지 않는 주파수 대역만을 공간적으로 필터링하는 단계를 포함하는
방법.