KR20150139934A

KR20150139934A - 오디오 장치

Info

Publication number: KR20150139934A
Application number: KR1020157031781A
Authority: KR
Inventors: 조르마 마키넨; 아누 후투넨; 미코 탐미; 미카 빌러모
Original assignee: 노키아 테크놀로지스 오와이
Priority date: 2013-04-08
Filing date: 2013-04-08
Publication date: 2015-12-14
Also published as: CA2908435A1; EP2984852A4; WO2014167165A1; EP2984852A1; US20160044410A1; KR101812862B1; CN105264911A; CN105264911B; EP2984852B1; CA2908435C; US9781507B2

Abstract

적어도 두 개의 오디오 신호의 적어도 두 개의 그룹을 수신하도록 구성된 입력부와, 적어도 두 개의 오디오 신호의 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하도록 구성된 제1 오디오 형성기와, 적어도 두 개의 오디오 신호의 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하도록 구성된 제2 오디오 형성기와, 적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 제1 형성된 오디오 신호 및 제2 형성된 오디오 신호를 분석하도록 구성된 오디오 분석기와, 적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하도록 구성된 오디오 신호 합성기를 포함하는 장치가 개시된다.

Description

오디오 장치{AUDIO APPARATUS}

본 출원은 공간적 오디오 신호 처리를 위한 장치에 관련된다. 발명은 또한 모바일 디바이스 내 공간적 오디오 신호 처리를 위한 장치에 관련되나 이에 한정되지는 않는다.

공간적 오디오 신호는 더 실감나는(immersive) 오디오 경험을 만들어내기 위해 더 높은 빈도로 사용되고 있다. 스테레오 또는 멀티채널 레코딩(recording)은 레코딩 또는 캡처(capture) 장치로부터 청취(listening) 장치로 전달되며 멀티채널 라우드스피커 배열(multi-channel loudspeaker arrangement)과 같은 적합한 멀티채널 출력을 사용하여 그리고 한 쌍의 스테레오 헤드폰 또는 헤드셋을 처리하는 가상 서라운드(virtual surround)로써 재생될(replayed) 수 있다.

모바일 전화와 같은 모바일 장치가 두 개보다 많은 마이크를 가지는 것이 가능하다는 점이 이해될 것이다. 이는 실제 멀티채널 오디오를 레코드할(record) 가능성을 제공한다. 고급 신호 처리로써 특정 또는 원하는 방향으로부터 마이크로부터의 오디오 신호를 빔형성하거나(beamform) 방향적으로 증폭하거나 처리하는 것이 또한 가능하다.

개요

그러므로 이 출원의 양상은 마이크의 개수를 최소화하고 마이크 배치(microphone positioning)에서의 제약을 고려하면서 원하는 레코딩 거리에 대해 최적의 픽업(pick up) 및 스테레오 이미징(stereo imaging)을 제공하는 공간적 오디오 캡처 및 처리를 제공한다.

나아가 카메라 방향을 제외한 모든 방향에서 잡음(noise)이 저감될(reduced) 수 있다. 마이크 배치에의 한정된 요구와 함께이기는 해도 본 문서에 기술된 그러한 실시예에서, 방향적 음장(directional sound field)의 채널들 간의 스테레오 분리(stereo separation)를 성취하는 것이 가능하다.

제1 양상에 따르면, 적어도 두 개의 오디오 신호의 적어도 두 개의 그룹을 수신하는 단계; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호(formed audio signal)를 생성하는 단계; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 단계; 적어도 하나의 오디오 소스(audio source) 및 연관된 오디오 소스 신호를 결정하기 위해 위 제1 형성된 오디오 신호 및 위 제2 형성된 오디오 신호를 분석하는 단계; 및 위 적어도 하나의 오디오 소스 및 위 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하는 단계를 포함하는 방법이 제공된다.

위 적어도 두 개의 오디오 신호의 위 제1 그룹은 전방 좌측 및 후방 좌측 마이크(microphone)일 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 단계는 가상(virtual) 좌측 마이크 신호를 생성하는 단계를 포함할 수 있다.

위 적어도 두 개의 오디오 신호의 위 제2 그룹은 전방 우측 및 후방 우측 마이크일 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 단계는 가상 우측 마이크 신호를 생성하는 단계를 포함할 수 있다.

적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 위 제1 형성된 오디오 신호 및 위 제2 형성된 오디오 신호를 분석하는 단계는 적어도 하나의 소스 위치(source location)를 결정하는 단계를 포함할 수 있다.

위 방법은, 소스 변위 인자(source displacement factor)를 수신하는 단계; 및 위 소스 위치가 위 소스 변위 인자만큼 오디오 정중선(mid-line)으로부터 떨어져 옮겨지도록 위 소스 변위 인자에 의해 위 적어도 하나의 소스 위치를 처리하는 단계를 더 포함할 수 있다.

소스 변위 인자를 수신하는 단계는 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹을 수신할 때에 실질적으로, 적어도 하나의 프레임 이미지(frame image)를 캡처하도록 구성된 카메라와 연관된 줌 인자(zoom factor)에 기반하여 소스 변위 인자를 생성하는 단계를 포함할 수 있다.

위 적어도 하나의 오디오 소스 및 위 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하는 단계는 위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 출력 오디오 신호를 생성하는 단계를 포함할 수 있다.

위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 출력 오디오 신호를 생성하는 단계는, 적어도 하나의 출력 오디오 신호 위치를 결정하는 단계; 및 위 적어도 하나의 출력 오디오 신호 위치에서 위 적어도 하나의 출력 오디오 신호를 생성하기 위해 위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 오디오 소스 신호를 오디오 팬하는(audio panning) 단계를 포함할 수 있다.

적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 단계는 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제1 그룹으로부터 제1 빔형성된 오디오 신호(beamformed audio signal)를 생성하는 단계를 포함할 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 단계는 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제2 그룹으로부터 제2 빔형성된 오디오 신호를 생성하는 단계를 포함할 수 있다.

적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 단계는 제1 혼합된 오디오 신호(mixed audio signal)가 제1 방향을 갖는 1차 기울기 패턴(first order gradient pattern)을 야기하도록 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제1 그룹으로부터 위 제1 혼합된 오디오 신호를 생성하는 단계를 포함할 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 단계는 제2 혼합된 오디오 신호가 제2 방향을 갖는 추가의 1차 기울기 패턴을 야기하도록 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제2 그룹으로부터 위 제2 혼합된 오디오 신호를 생성하는 단계를 포함할 수 있다.

제2 양상에 따르면, 적어도 두 개의 오디오 신호의 적어도 두 개의 그룹을 수신하는 수단; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 수단; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 수단; 적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 위 제1 형성된 오디오 신호 및 위 제2 형성된 오디오 신호를 분석하는 수단; 및 위 적어도 하나의 오디오 소스 및 위 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하는 수단을 포함하는 장치가 제공된다.

위 적어도 두 개의 오디오 신호의 위 제1 그룹은 전방 좌측 및 후방 좌측 마이크일 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 수단은 가상 좌측 마이크 신호를 생성하는 수단을 포함할 수 있다.

위 적어도 두 개의 오디오 신호의 위 제2 그룹은 전방 우측 및 후방 우측 마이크일 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 수단은 가상 우측 마이크 신호를 생성하는 수단을 포함할 수 있다.

적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 위 제1 형성된 오디오 신호 및 위 제2 형성된 오디오 신호를 분석하는 수단은 적어도 하나의 소스 위치를 결정하는 수단을 포함할 수 있다.

위 장치는, 소스 변위 인자를 수신하는 수단; 및 위 소스 위치가 위 소스 변위 인자만큼 오디오 정중선으로부터 떨어져 옮겨지도록 위 소스 변위 인자에 의해 위 적어도 하나의 소스 위치를 처리하는 수단을 더 포함할 수 있다.

소스 변위 인자를 수신하는 수단은 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹을 수신할 때에 실질적으로, 적어도 하나의 프레임 이미지를 캡처하도록 구성된 카메라와 연관된 줌 인자에 기반하여 소스 변위 인자를 생성하는 수단을 포함할 수 있다.

위 적어도 하나의 오디오 소스 및 위 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하는 수단은 위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 출력 오디오 신호를 생성하는 수단을 포함할 수 있다.

위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 출력 오디오 신호를 생성하는 수단은, 적어도 하나의 출력 오디오 신호 위치를 결정하는 수단; 및 위 적어도 하나의 출력 오디오 신호 위치에서 위 적어도 하나의 출력 오디오 신호를 생성하기 위해 위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 오디오 소스 신호를 오디오 팬하는 수단을 포함할 수 있다.

적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 수단은 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제1 그룹으로부터 제1 빔형성된 오디오 신호를 생성하는 수단을 포함할 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 수단은 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제2 그룹으로부터 제2 빔형성된 오디오 신호를 생성하는 수단을 포함할 수 있다.

적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 수단은 제1 혼합된 오디오 신호가 제1 방향을 갖는 1차 기울기 패턴을 야기하도록 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제1 그룹으로부터 위 제1 혼합된 오디오 신호를 생성하는 수단을 포함할 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 수단은 제2 혼합된 오디오 신호가 제2 방향을 갖는 추가의 1차 기울기 패턴을 야기하도록 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제2 그룹으로부터 위 제2 혼합된 오디오 신호를 생성하는 수단을 포함할 수 있다.

제3 양상에 따르면 하나 이상의 프로그램을 위한 컴퓨터 코드를 포함하는 적어도 하나의 메모리 및 적어도 하나의 프로세서를 포함하는 장치가 제공되는데, 위 적어도 하나의 메모리 및 위 컴퓨터 코드는 위 적어도 하나의 프로세서로써 위 장치로 하여금 적어도: 적어도 두 개의 오디오 신호의 적어도 두 개의 그룹을 수신하고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하며; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하고; 적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 위 제1 형성된 오디오 신호 및 위 제2 형성된 오디오 신호를 분석하며; 위 적어도 하나의 오디오 소스 및 위 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하게 하도록 구성된다.

위 적어도 두 개의 오디오 신호의 위 제1 그룹은 전방 좌측 및 후방 좌측 마이크일 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 것은 위 장치로 하여금 가상 좌측 마이크 신호를 생성하게 할 수 있다.

위 적어도 두 개의 오디오 신호의 위 제2 그룹은 전방 우측 및 후방 우측 마이크일 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 것은 위 장치로 하여금 가상 우측 마이크 신호를 생성하게 할 수 있다.

적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 위 제1 형성된 오디오 신호 및 위 제2 형성된 오디오 신호를 분석하는 것은 위 장치로 하여금 적어도 하나의 소스 위치를 결정하게 할 수 있다.

위 장치는 또한, 소스 변위 인자를 수신하고; 위 소스 위치가 위 소스 변위 인자만큼 오디오 정중선으로부터 떨어져 옮겨지도록 위 소스 변위 인자에 의해 위 적어도 하나의 소스 위치를 처리하게 되어 있을 수 있다.

소스 변위 인자를 수신하는 것은 위 장치로 하여금 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹을 수신할 때에 실질적으로, 적어도 하나의 프레임 이미지를 캡처하도록 구성된 카메라와 연관된 줌 인자에 기반하여 소스 변위 인자를 생성하게 할 수 있다.

위 적어도 하나의 오디오 소스 및 위 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하는 것은 위 장치로 하여금 위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 출력 오디오 신호를 생성하게 할 수 있다.

위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 출력 오디오 신호를 생성하는 것은 위 장치로 하여금: 적어도 하나의 출력 오디오 신호 위치를 결정하고; 위 적어도 하나의 출력 오디오 신호 위치에서 위 적어도 하나의 출력 오디오 신호를 생성하기 위해 위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 오디오 소스 신호를 오디오 팬하게 할 수 있다.

적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 것은 위 장치로 하여금 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제1 그룹으로부터 제1 빔형성된 오디오 신호를 생성하게 할 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 것은 위 장치로 하여금 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제2 그룹으로부터 제2 빔형성된 오디오 신호를 생성하게 할 수 있다.

적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 것은 위 장치로 하여금 제1 혼합된 오디오 신호가 제1 방향을 갖는 1차 기울기 패턴을 야기하도록 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제1 그룹으로부터 위 제1 혼합된 오디오 신호를 생성하게 할 수 있고; 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 것은 위 장치로 하여금 제2 혼합된 오디오 신호가 제2 방향을 갖는 추가의 1차 기울기 패턴을 야기하도록 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제2 그룹으로부터 위 제2 혼합된 오디오 신호를 생성하게 할 수 있다.

제4 양상에 따르면, 적어도 두 개의 오디오 신호의 적어도 두 개의 그룹을 수신하도록 구성된 입력부(input); 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하도록 구성된 제1 오디오 형성기(audio former); 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하도록 구성된 제2 오디오 형성기; 적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 위 제1 형성된 오디오 신호 및 위 제2 형성된 오디오 신호를 분석하도록 구성된 오디오 분석기(audio analyser); 및 위 적어도 하나의 오디오 소스 및 위 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하도록 구성된 오디오 신호 합성기(audio signal synthesiser)를 포함하는 장치가 제공된다.

위 적어도 두 개의 오디오 신호의 위 제1 그룹은 전방 좌측 및 후방 좌측 마이크일 수 있고; 위 제1 형성기는 가상 좌측 마이크 신호를 생성하도록 구성될 수 있다.

위 적어도 두 개의 오디오 신호의 위 제2 그룹은 전방 우측 및 후방 우측 마이크일 수 있고; 위 제2 형성기는 가상 우측 마이크 신호를 생성하도록 구성될 수 있다.

위 오디오 분석기는 적어도 하나의 소스 위치를 결정하도록 구성될 수 있다.

위 장치는, 소스 변위 인자를 수신하도록 구성된 소스 변위 입력부(source displacement input); 및 위 소스 위치가 위 소스 변위 인자만큼 오디오 정중선으로부터 떨어져 옮겨지도록 위 소스 변위 인자에 의해 위 적어도 하나의 소스 위치를 처리하도록 구성된 소스 이동기(source displacer)를 더 포함할 수 있다.

위 소스 변위 입력부는 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹을 수신할 때에 실질적으로, 적어도 하나의 프레임 이미지를 캡처하도록 구성된 카메라와 연관된 줌 인자에 기반하여 소스 변위 인자를 생성하도록 구성된 소스 변위 인자 생성기(source displacement factor generator)를 포함할 수 있다.

위 오디오 신호 합성기는 위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 출력 오디오 신호를 생성하도록 구성될 수 있다.

위 오디오 신호 합성기는, 적어도 하나의 출력 오디오 신호 위치를 결정하도록 구성된 출력 위치 결정기(output location determiner); 및 위 적어도 하나의 출력 오디오 신호 위치에서 위 적어도 하나의 출력 오디오 신호를 생성하기 위해 위 적어도 하나의 오디오 소스 위치에 기반하여 위 적어도 하나의 오디오 소스 신호를 팬하도록(pan) 구성된 진폭 패너(amplitude panner)를 포함할 수 있다.

위 제1 오디오 형성기는 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제1 그룹으로부터 제1 빔형성된 오디오 신호를 생성하도록 구성된 제1 빔형성기(beamformer)를 포함할 수 있고; 위 제2 형성기는 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제2 그룹으로부터 제2 빔형성된 오디오 신호를 생성하도록 구성된 제2 빔형성기를 포함할 수 있다.

위 제1 오디오 형성기는 제1 혼합된 오디오 신호가 제1 방향을 갖는 1차 기울기 패턴을 야기하도록 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제1 그룹으로부터 위 제1 혼합된 오디오 신호를 생성하도록 구성된 제1 혼합기(mixer)를 포함할 수 있고; 위 제2 오디오 형성기는 제2 혼합된 오디오 신호가 제2 방향을 갖는 추가의 1차 기울기 패턴을 야기하도록 적어도 두 개의 오디오 신호의 위 적어도 두 개의 그룹 중 위 제2 그룹으로부터 위 제2 혼합된 오디오 신호를 생성하도록 구성된 제2 혼합기를 포함할 수 있다.

매체 상에 저장된 컴퓨터 프로그램 제품(computer program product)은 장치로 하여금 본 문서에 기술된 바와 같은 방법을 수행하게 할 수 있다.

전자 디바이스(electronic device)는 본 문서에 기술된 바와 같은 장치를 포함할 수 있다.

칩셋(chipset)은 본 문서에 기술된 바와 같은 장치를 포함할 수 있다.

본 출원의 실시예는 최신 기술과 연관된 문제를 다루는 것을 목표로 한다.

본 출원의 더 나은 이해를 위해, 첨부된 도면에 대한 언급이 예로서 이제 행해질 것인데,
도 1은 몇몇 실시예에서 이용되기에 적합한 장치를 개략적으로 도시하고,
도 2는 몇몇 실시예에서 이용되기에 적합한 장치 상의 마이크 위치를 개략적으로 도시하며,
도 3은 몇몇 실시예에 따라 장치 상의 예시적 마이크 치수를 개략적으로 도시하고,
도 4는 몇몇 실시예에 따라 장치 상의 예시적 가상 마이크 위치를 개략적으로 도시하며,
도 5는 몇몇 실시예에 따라 예시적 오디오 신호 처리 장치를 개략적으로 도시하고,
도 6은 몇몇 실시예에 따라 도 5에 도시된 오디오 신호 처리 장치의 동작의 흐름도를 개략적으로 도시하며,
도 7은 몇몇 실시예에 따라 좌측 및 우측 마이크들의 예시적 빔포밍의 극좌표 이득선도(polar gain plot)들을 도시하고,
도 8은 몇몇 실시예에 따라 예시적인 피처리 빔형성된 좌측 및 우측 마이크들의 극좌표 이득선도들을 도시하며,
도 9는 몇몇 실시예에 따라 추가의 예시적인 빔형성된 좌측 및 우측 마이크들의 극좌표 이득선도들을 도시하고,
도 10은 몇몇 실시예에 따라 좌측 및 우측 방향들로부터 비롯하는 빔형성된 잡음 버스트의 그래프 도면(graphical plot)을 도시하며,
도 11은 몇몇 실시예에 따라 좌측 및 우측 방향들로부터 비롯하는 피처리 빔형성된 잡음 버스트의 그래프 도면을 도시하고,
도 12는 좌측 및 우측 방향들로부터 비롯하는 빔형성된 원거리 발화(distant speech)의 그래프 도면을 도시하며,
도 13은 좌측 및 우측 방향들로부터 비롯하는 피처리 빔형성된 원거리 발화의 그래프 도면을 도시하고,
도 14는 예시적 줌 기반 오디오 신호 처리 예의 개략도(schematic view)를 도시한다.

이하는 예컨대 오디오-비디오 캡처 장치 내의 오디오 레코딩의 효과적인 음장 방향적 처리(sound-field directional processing)의 제공을 위한 적합한 장치 및 가능한 메커니즘을 더욱 상세히 기술한다. 이하의 예에서 오디오 신호 및 처리가 기술된다. 그러나 몇몇 실시예에서 오디오 신호/오디오 캡처 및 처리는 오디오-비디오 시스템의 일부분임이 인식될 것이다.

흔히 장치의 사용은 그 장치에 대한 방향을 강조하는(emphasize) 방향적 캡처(directional capture)를 산출하고자 시도하고, 그 방향은 예컨대 카메라와 함께 그 방향에서의 오디오 신호를 레코드하거나 캡처하고자 시도할 수 있음이 이해될 것이다. 예를 들어 타겟 신호(target signal)가 카메라의 방향 내에 있는 잡음 환경(noisy environment)에서의 레코딩이다. 나아가 오디오 신호의 레코딩 또는 캡처링(capturing)은 정적(stationary)이거나 타겟을 향해 동적으로 인도될(steered) 수 있는 스테레오 또는 멀티채널 오디오 레코딩 또는 방향적 모노 캡처(directional mono capture)를 생성하는 것일 수 있다는 점이 이해될 것이다.

본 문서에 기술된 바와 같이 모바일 디바이스 또는 장치는 더 흔히는 모바일 디바이스 또는 장치를 둘러싸고 있는 오디오 환경 또는 오디오 장면(scene)을 레코드하거나 캡처하기에 적합한 다중 마이크 구성 또는 마이크 어레이를 갖추고 있다. 다중 마이크 구성(multiple microphone configuration)은 스테레오 또는 서라운드 음향 신호의 레코딩을 가능하게 하고 마이크의 알려진 위치(location) 및 방향(orientation)은 또한 그 장치로 하여금 다른 방향에 비해 어떤 정의된 방향으로부터의 오디오 신호를 강조하거나 이에 중점을 두는 공간적 처리(spatial processing)를 수행하기 위해 마이크로부터의 캡처되거나 레코드된 오디오 신호를 처리할 수 있게 한다.

본 문서에 기술된 바와 같이 캡처되거나 레코드된 음장(sound field)은 다른 방향으로부터의 소리는 억제하면서 원하는 방향에서의 음장의 캡처링 또는 레코딩을 가능하게 하도록 빔형성(예컨대 어레이 신호 처리 빔형성)하는 것에 의해 처리될 수 있다. 본 문서에 기술된 바와 같은 몇몇 실시예에서 빔형성기 출력 채널들 간의 지연에 기반한 방향적 추정(directional estimation)이 적용될 수 있다. 그리고 본 문서에 기술된 바와 같은 빔형성기 출력 및 방향적 추정은 스테레오 또는 모노 출력을 합성하는 데에 이용될 수 있다.

그러나 모바일 전기 디바이스 또는 장치에서의 현재의 설계 추세, 작은 디바이스 크기 및 디바이스 상의 큰 디스플레이는 오디오 신호의 레코딩 및 처리에서의 문제점을 일으키는 마이크 구성을 허용할 뿐이다.

예를 들어 카메라가 있는 스마트폰은 마이크의 개수 및 그것의 위치 양자 모두에 있어서 제약받는다. 추가적인 마이크는 크기 및 제조 비용을 증가시키므로 마이크 현재 설계는 상이한 적용들을 위해 마이크를 '재사용'한다. 예를 들면, '저부'(bottom) 및 '상부'(top) 종단에서의 마이크 위치는 전화기의 소형 휴대가능 전화 적용(hand-portable telephone application)에서 발화 및 참조(reference) 잡음을 픽업하기 위해 이용될 수 있고 이 마이크들은 비디오/오디오 레코딩 적용에서 재사용될 수 있다.

'빔'(beam)을 생성하거나 설계하기 위해, 바람직하게는 원하는 빔 방향을 향해 일렬로 위치된 적어도 두 개의 마이크가 사용된다는 점이 이해될 것이다. 도 2는 카메라 방향 내 오디오 소스를 강조하는 스테레오 레코딩을 제공하는 가능한 마이크 위치를 예시하는 장치(10)를 개략적으로 도시한다.

제1 장치(10) 구성은 예컨대 장치의 '전방'(front) 측면 상에 위치된 카메라(51), 장치의 '후위'(rear) 측면 상에 위치된 디스플레이(52)가 있는 장치를 도시한다. 장치는 각각 장치의 '좌측' 및 '우측' 모서리에 가까이 '전방' 측면 상에 위치된 좌측 및 우측 전방 마이크(11₁ 및 11₂)를 더 포함한다. 나아가 장치는 '후위' 측면 상에 위치되고 각각 '좌측' 및 '우측' 모서리로부터 떨어져 있으나 장치의 중심선의 좌측 및 우측으로 위치된 좌측 및 우측 후위 마이크(11₄ 및 11₅)를 포함한다.

이 구성에 따르면 마이크(11₁ 및 11₄)는 좌측 빔을 제공하기 위해 그리고 이에 따라 마이크(11₂ 및 11₅)는 우측 빔을 제공하기 위해 사용될 수 있다. 나아가 횡적인 '좌측-우측' 방향 분리는 카메라에 가까운 음향 소스에 대한 스테레오 레코딩을 가능하게 한다는 점이 이해될 것이다. 이는 제1 구성 레코딩 각도를 정의하는 좌측 마이크 쌍(11₁ 및 11₄) 라인(110₁) 및 우측 마이크 쌍(11₂ 및 11₅) 라인(110₂)에 의해 보여질 수 있다.

그러나 그러한 구성은 최소 길이 및 최대 스크린 크기를 목표로 하는 오늘날의 전화기 설계에서는 부적합할 것이다.

오늘날의 전화기 설계에 더 적합한 제2 장치(10) 구성은 각각 장치의 '좌측' 및 '우측' 모서리에 가까이 '전방' 측면 상에 위치된 좌측 및 우측 전방 마이크(11₁ 및 11₂) 및 '후위' 측면 상에 위치되고 '좌측' 및 '우측' 모서리로부터 약간 더 떨어지나 제1 구성 좌측 및 우측 후위 마이크보다는 모서리에 더 가까이 위치된 좌측 및 우측 후위 마이크(11₃ 및 11₆)를 보여준다. 이 구성에서의 횡적인 '좌측-우측' 방향 분리는 구성 레코딩 각도를 정의하는 좌측 마이크 쌍(11₁ 및 11₃) 라인(111₁) 및 우측 마이크 쌍(11₂ 및 11₆) 라인(111₂)에 의해 정의되는 더 좁은 레코딩 각도를 산출한다.

더 좁은 레코딩 각도를 이용하는 제2 구성을 사용하여 원거리 음향 소스를 레코드하는 것은 원하는 음향 소스의 레코딩 민감도(recording sensitivity)를 최대화할 것이다. 유감스럽게도, 좁은 레코딩 각도로 인해, 스테레오 효과는 감소되며 출력이 두 채널로 구성되기는 하지만 실제로 그것은 모노 레코딩과 비슷하다. 나아가, 광학 줌(optical zoom)으로써 비디오 레코딩을 행하는 경우에 오디오 트랙(audio track)은 모순적으로 들릴 수 있는데, 예컨대 비디오가 재생되고 있는 경우에, 카메라와 오디오 타겟 간의 '명백한' 거리는 단축될 것이다. 나아가 비디오의 좌측 또는 우측 상에 나타나는 어떠한 오디오 타겟이라도 조악한 스테레오 분리로 인해 중심으로부터 들릴 수 있다.

그러므로 본 문서에서 더욱 상세히 기술되는 바와 같은 개념은 오디오 레코딩 시스템이 마이크의 개수를 최소화하고 마이크 배치에서의 제약을 고려하면서 원하는 레코딩 거리에 대해 최적의 픽업 및 스테레오 이미징을 제공하는 것이다.

이 개념들은 가깝게 이격된 마이크의 적어도 두 개의 쌍을 사용하는 방향적 캡처 방법에 의해 구현화되는데 여기서 마이크로부터의 출력은 적어도 두 개의 오디오 빔을 생성하기 위해 마이크의 쌍 각각을 우선 빔형성하는 것과 이후 오디오 빔들 간의 지연에 기반한 오디오 소스 방향 추정에 의해 처리된다.

그러므로 몇몇 실시예에서 빔형성은 카메라 방향을 제외한 모든 방향에서 효과적으로 잡음을 저감하기 위해 이용될 수 있다. 나아가 몇몇 실시예에서 빔형성은 소리가 나오는 방향에 기반하여 잔향(reverberation)을 여과할(filter out) 수 있는바 빔형성은 잔향 레코딩 조건에서의 소리 품질을 개선할 수 있다. 몇몇 실시예에서 상관관계(correlation)(또는 지연) 기반 방향적 추정의 적용은 빔형성기 출력으로부터의 스테레오 또는 모노 출력을 합성하는 데에 사용된다. 잡음 있는 조건에서 빔형성의 적용은 몇몇 실시예에서는 원하는 방향이 아닌 방향으로부터 오는 차폐(masking) 신호를 제거함으로써 방향적 추정을 개선할 수 있다.

스테레오 레코딩에 관한 몇몇 실시예에서 상관관계 기반 방향적 추정은 나아가, 출력 채널 간의 약한 스테레오 분리를 개선하고 이에 따라 빔형성 프로세스가 초점을 전방 방향으로 수정하더라도 적합한 스테레오 소리를 생성하기 위한 스테레오 분리 처리의 적용을 가능하게 한다.

상관관계 기반 방법은 나아가 몇몇 실시예에서 좌측 및 우측 신호를 나타내는 입력으로서 그 두 개의, 빔으로 된 신호(beamed signal)들을 수신할 수 있고, 신호 간의 지연을 제거하고 추정된 음향 소스 방향에 기반하여 좌측 및 우측 신호의 진폭을 수정한다. 그러한 실시예에서 마이크 포지션에 관해 상대적으로 완화된 요구사항으로써(다시 말해 협소한 횡적 분리 거리로써) 고품질 방향적 캡처 또는 레코딩이 생성될 수 있다.

몇몇 실시예에서 그 처리 또는 그 오디오 캡처 또는 레코딩은 비디오를 제작하는 동안 광학 줌하는 것(optical zooming)에 관한 것일 수 있다. 예를 들어, 어떠한 줌도 사용되고 있지 않은 몇몇 실시예에서 우측 및 좌측 채널들은 그것들이 나타나고 있는 것으로 추정되는 것과 동일한 각도로 팬될(panned) 수 있다. 광학 줌이 적용되거나 사용되고 있는 경우 비디오 상에 나타나는 타겟 및 카메라 간의 각도를 반영하기 위해 좌측 및 우측 채널들은 실제로 그것들이 카메라에 대해 그러한 것보다 더 넓게 팬된다.

이와 관련하여, 레코드(하거나 캡처 장치로서 동작)하는 데에 사용될 수 있는 예시적인 장치 또는 전자 디바이스(10)의 개략적인 블록도를 도시하는 도 1에 대한 언급이 우선 행해진다.

전자 디바이스(10)는 예컨대 레코딩 장치 또는 청취 장치로서 기능하는 경우 무선 통신 시스템의 모바일 단말 또는 사용자 장비일 수 있다. 몇몇 실시예에서 그 장치는 오디오 플레이어(audio player) 또는 오디오 레코더(audio recorder)(이를테면 MP3 플레이어와 같은 것), 미디어 레코더/플레이어(MP4 플레이어라고도 알려짐), 또는 오디오를 레코드하기에 적합한 임의의 적합한 휴대가능 장치 또는 오디오/비디오 캠코더/메모리 오디오 또는 비디오 레코더일 수 있다.

장치(10)는 몇몇 실시예에서 오디오-비디오 서브시스템을 포함할 수 있다. 오디오-비디오 서브시스템은 예컨대 몇몇 실시예에서 오디오 신호 캡처를 위한 마이크 또는 마이크의 어레이(11)를 포함할 수 있다. 몇몇 실시예에서 마이크 또는 마이크의 어레이는 솔리드 스테이트(solid state) 마이크, 다시 말해 오디오 신호를 캡처하는 것 및 적합한 디지털 포맷 신호를 출력하는 것 즉 아날로그 디지털 컨버터(analogue-to-digital converter)를 요구하지 않는 것이 가능할 수 있다. 몇몇 다른 실시예에서 마이크 또는 마이크의 어레이(11)는 임의의 적합한 마이크 또는 오디오 캡처 수단, 예컨대 콘덴서 마이크(condenser microphone), 커패시터 마이크(capacitor microphone), 정전형 마이크(electrostatic microphone), 일렉트릿 콘덴서 마이크(Electret condenser microphone), 다이나믹 마이크(dynamic microphone), 리본 마이크(ribbon microphone), 탄소 마이크(carbon microphone), 압전 마이크(piezoelectric microphone), 또는 마이크로 전자기계 시스템(Micro Electrical-Mechanical System: MEMS) 마이크를 포함할 수 있다. 마이크(11) 또는 마이크의 어레이는 몇몇 실시예에서 오디오 캡처된 신호를 아날로그 디지털 컨버터(Analogue-to-Digital Converter: ADC)(14)에 출력할 수 있다.

몇몇 실시예에서 그 장치는 마이크로부터 아날로그 캡처된 오디오 신호를 수신하고 오디오 캡처된 신호를 적합한 디지털 형태로 출력하도록 구성된 아날로그 디지털 컨버터(Analogue-to-Digital Converter: ADC)(14)를 더 포함할 수 있다. 아날로그 디지털 컨버터(14)는 임의의 적합한 아날로그 디지털 변환 또는 처리 수단일 수 있다. 마이크가 '집적된'(integrated) 마이크인 몇몇 실시예에서 마이크는 오디오 신호 생성 및 아날로그 디지털 변환 능력 양자 모두를 포함한다.

몇몇 실시예에서 장치(10) 오디오-비디오 서브시스템은 프로세서(21)로부터의 디지털 오디오 신호를 적합한 아날로그 포맷으로 변환하기 위한 디지털 아날로그 컨버터(digital-to-analogue converter)(32)를 더 포함한다. 디지털 아날로그 컨버터(Digital-to-Analogue Converter: DAC) 또는 신호 처리 수단(32)은 몇몇 실시예에서 임의의 적합한 DAC 기술일 수 있다.

나아가 오디오-비디오 서브시스템은 몇몇 실시예에서 스피커(33)를 포함할 수 있다. 스피커(33)는 몇몇 실시예에서 디지털 아날로그 컨버터(32)로부터 출력을 수신하고 아날로그 오디오 신호를 사용자에게 제시할(present) 수 있다.

몇몇 실시예에서 스피커(33)는 멀티스피커 배열(multi-speaker arrangement), 헤드셋(headset), 예컨대 헤드폰의 세트, 또는 무선형(cordless) 헤드폰을 나타낼 수 있다.

몇몇 실시예에서 그 장치 오디오-비디오 서브시스템은 프로세서(21)에 이미지 데이터를 공급하도록 구성된 카메라(51) 또는 이미지 캡처링 수단을 포함한다. 몇몇 실시예에서 카메라는 비디오 스트림(video stream)을 제공하기 위해 시간에 걸쳐 다수의 이미지를 제공하도록 구성될 수 있다.

몇몇 실시예에서 그 장치 오디오-비디오 서브시스템은 디스플레이(52)를 포함한다. 디스플레이 또는 이미지 디스플레이 수단은 그 장치의 사용자가 볼 수 있는 시각적 이미지를 출력하도록 구성될 수 있다. 몇몇 실시예에서 디스플레이는 그 장치에 입력 데이터를 공급하기에 적합한 터치 스크린 디스플레이일 수 있다. 디스플레이는 임의의 적합한 디스플레이 기술일 수 있는데, 예컨대 디스플레이는 LCD, LED, OLED 또는 '플라즈마' 디스플레이 구현의 셀을 포함하는 평판(flat panel)에 의해 구현될 수 있다.

장치(10)가 오디오/비디오 캡처 및 오디오/비디오 제시(presentation) 컴포넌트들 양자 모두를 가지는 것으로 도시되나, 몇몇 실시예에서 장치(10)는 그 장치의 몇몇 실시예에서 (오디오 캡처를 위한) 마이크 또는 (오디오 제시를 위한) 스피커가 존재하도록 오디오 서브시스템의 오디오 캡처 및 오디오 제시 부분들만을 포함할 수 있음이 이해될 것이다. 유사하게 몇몇 실시예에서 장치(10)는 몇몇 실시예에서 (비디오 캡처를 위한) 카메라(51) 또는 (비디오 제시를 위한) 디스플레이(52)가 존재하도록 비디오 서브시스템의 비디오 캡처 및 비디오 제시 부분들 중 하나 또는 다른 것을 포함할 수 있다.

몇몇 실시예에서 장치(10)는 프로세서(21)를 포함한다. 프로세서(21)는 오디오-비디오 서브시스템에, 그리고 특히 몇몇 예에서는 마이크(11)로부터의 오디오 신호를 나타내는 디지털 신호를 수신하기 위해 아날로그 디지털 컨버터(14)에, 처리된 디지털 오디오 신호를 출력하도록 구성된 디지털 아날로그 컨버터(Digital-To-Analogue Converter: DAC)(12)에, 비디오 신호를 나타내는 디지털 신호를 수신하기 위해 카메라(51)에, 그리고 프로세서(21)로부터의 처리된 디지털 비디오 신호를 출력하도록 구성된 디스플레이(52)에 커플링된다(coupled).

프로세서(21)는 다양한 프로그램 코드를 실행하도록 구성될 수 있다. 구현된 프로그램 코드는 예컨대 오디오-비디오 레코딩 및 오디오-비디오 제시 루틴들을 포함할 수 있다. 몇몇 실시예에서 프로그램 코드는 오디오 신호 처리를 수행하도록 구성될 수 있다.

몇몇 실시예에서 장치는 메모리(22)를 더 포함한다. 몇몇 실시예에서 프로세서는 메모리(22)에 커플링된다. 메모리는 임의의 적합한 저장 수단일 수 있다. 몇몇 실시예에서 메모리(22)는 프로세서(21) 상에서 구현가능한 프로그램 코드를 저장하기 위한 프로그램 코드 섹션(program code section)(23)을 포함한다. 나아가 몇몇 실시예에서 메모리(22)는 데이터, 예컨대 적용에 따라 인코딩된 데이터 또는 이후에 기술되는 바와 같은 적용 실시예를 통하여 인코딩될 데이터를 저장하기 위한 저장된 데이터 섹션(stored data section)(24)을 더 포함할 수 있다. 프로그램 코드 섹션(23) 내에 저장된 구현된 프로그램 코드 및 저장된 데이터 섹션(24) 내에 저장된 데이터는 메모리-프로세서 커플링을 통하여 필요할 때마다 프로세서(21)에 의해 색출될(retrieved) 수 있다.

몇몇 추가 실시예에서 장치(10)는 사용자 인터페이스(15)를 포함할 수 있다. 사용자 인터페이스(15)는 몇몇 실시예에서 프로세서(21)에 커플링될 수 있다. 몇몇 실시예에서 프로세서는 사용자 인터페이스의 동작을 제어하고 사용자 인터페이스(15)로부터 입력을 수신할 수 있다. 몇몇 실시예에서 사용자 인터페이스(15)는 사용자가, 예컨대 키패드(keypad)를 통하여, 전자 디바이스 또는 장치(10)에 명령을 입력하는 것 및/또는, 예컨대 사용자 인터페이스(15)의 일부인 디스플레이를 통하여, 장치(10)로부터 정보를 획득하는 것을 가능하게 할 수 있다. 사용자 인터페이스(15)는 본 문서에 기술된 바와 같은 몇몇 실시예에서 정보가 장치(10)에 입력될 수 있게 하는 것 및 추가로 장치(10)의 사용자에게 정보를 디스플레이하는 것 양자 모두가 가능한 터치 스크린 또는 터치 인터페이스를 포함할 수 있다.

몇몇 실시예에서 그 장치는 송수신기(transceiver)(13)를 더 포함하는데, 송수신기는 그러한 실시예에서 프로세서에 커플링되고, 예컨대 무선 통신 네트워크를 통하여, 다른 장치 또는 전자 디바이스와의 통신을 가능하게 하도록 구성될 수 있다. 송수신기(13) 또는 임의의 적합한 송수신기 또는 송신기 및/또는 수신기 수단은 몇몇 실시예에서 유선 또는 배선된 커플링을 통하여 다른 전자 디바이스 또는 장치와 통신하도록 구성될 수 있다.

송수신기(13)는 임의의 적합한 알려진 통신 프로토콜에 의해 추가의 장치와 통신할 수 있는데, 예컨대 몇몇 실시예에서 송수신기(13) 또는 송수신기 수단은 적합한 범용 모바일 전기통신 시스템(Universal Mobile Telecommunications System: UMTS) 프로토콜, 예컨대 IEEE 802.X와 같은 무선 로컬 영역 네트워크(Wireless Local Area Network: WLAN) 프로토콜, 적합한 단거리 무선 주파수 통신(short-range radio frequency communication) 프로토콜, 이를테면 블루투스(Bluetooth), 또는 적외선 데이터 통신 경로(IRDA)를 사용할 수 있다.

몇몇 실시예에서 그 장치는 장치(10)의 포지션을 추정하도록 구성된 포지션 센서(position sensor)(16)를 포함한다. 포지션 센서(16)는 몇몇 실시예에서 GPS(Global Positioning System), GLONASS 또는 갈릴레오(Galileo) 수신기와 같은 위성 측위 센서(satellite positioning sensor)일 수 있다.

몇몇 실시예에서 그 측위 센서(positioning sensor)는 셀룰러 ID 시스템 또는 지원형 GPS(assisted GPS) 시스템일 수 있다.

몇몇 실시예에서 장치(10)는 방향 또는 배향 센서를 더 포함한다. 배향/방향 센서는 몇몇 실시예에서 전자 나침반(electronic compass), 가속도계(accelerometer) 및 자이로스코프(gyroscope)이거나 측위 추정치(positioning estimate)를 사용하여 장치의 움직임에 의해 결정될 수 있다.

전자 디바이스(10)의 구조가 많은 방식으로 보충되고 달라질 수 있다는 점이 또 이해되어야 한다.

도 3에 관해서 장치(10)가 대략 9.7 cm 폭(203)이고 대략 1.2 cm 깊이(201)인 예시적 장치 구현이 도시된다. 도 3에 도시된 예에서 장치는 네 개의 마이크를 포함하는데 장치의 전방 좌측 측면에 위치된 제1 (전방 좌측) 마이크(11₁₁), 장치의 전방 우측 측면에 위치된 전방 우측 마이크(11₁₂), 장치의 후방 우측 측면에 위치된 후방 우측 마이크(11₁₄), 그리고 장치의 후방 좌측 측면에 위치된 후방 좌측 마이크(11₁₃)이다. 전방 좌측(11₁₁) 및 후방 좌측(11₁₃) 마이크를 잇는(joining) 선(111₁) 및 전방 우측(11₁₂) 마이크 및 후방 우측(11₁₄)을 잇는 선(111₂)은 레코딩 각도(recording angle)를 정의할 수 있다.

도 5에 관해서, 몇몇 실시예에 따른 예시적 오디오 신호 처리 장치가 도시된다. 나아가 도 6에 관해서 도 5에 도시된 바과 같은 오디오 신호 처리 장치의 동작의 흐름도가 도시된다.

몇몇 실시예에서 장치는 음파를 캡처하거나 레코드하고 오디오 신호 처리 장치에 전달되거나 입력되는 오디오 신호를 각 마이크를 위해 생성하도록 구성된 마이크 또는 마이크의 어레이를 포함한다. 본 문서에 기술된 바와 같이 몇몇 실시예에서 마이크(11)는 아날로그 디지털 컨버터(Analogue to Digital Converter: ADC)(14)에 의해 디지털 포맷으로 변환되는 아날로그 신호를 출력하도록 구성된다. 다만 본 문서 내의 예에서 도시된 마이크는 직접적으로 빔형성기에 디지털 포맷 신호를 출력하도록 구성된 집적된 마이크이다.

본 문서에 도시된 예에서는 네 개의 마이크가 있다. 이들 마이크는 몇몇 실시예에서 도 3에 도시된 것과 유사한 방식으로 배열될 수 있다. 따라서 몇몇 실시예에서 장치는 장치의 전방 좌측 측면에 위치된 제1 (전방 좌측) 마이크(11₁₁), 장치의 전방 우측 측면에 위치된 전방 우측 마이크(11₁₂), 장치의 후방 우측 측면에 위치된 후방 우측 마이크(11₁₄), 그리고 장치의 후방 좌측 측면에 위치된 후방 좌측 마이크(11₁₃)를 포함한다. 몇몇 실시예에서 네 개보다 더 많거나 더 적은 마이크가 있을 수 있고 마이크는 임의의 적합한 방식으로 장치 상에 배열되거나 위치될 수 있다는 점이 이해될 것이다.

나아가 도 3에 도시된 바와 같이 마이크가 장치의 일부이나 몇몇 실시예에서 마이크 어레이는 장치와는 물리적으로 별개임, 예컨대 마이크 어레이는 처리를 위해 장치에 오디오 신호를 무선으로 또는 다른 식으로 전달하는 헤드셋 상에 위치될 수 있음(여기서 헤드셋은, 또한 장치에 전달되어 본 문서에 기술된 바와 같은 처리된 오디오 신호를 포함할 수 있는 인코딩된 비디오 신호를 생성하는 방식으로 처리될 수 있는 비디오 이미지를 캡처하는 연관된 비디오 카메라를 또한 가짐)이 이해될 것이다. 일반적으로 본 문서에 기술된 바와 같은 실시예는 오디오 신호 예컨대 마이크로부터 캡처되어 이후 메모리 내에 저장된 오디오 신호에 적용될 수 있음이 이해될 것이다. 그러므로 몇몇 실시예에서 일반적으로 적어도 두 개의 오디오 신호를 수신하도록 구성될 수 있거나 장치는 마이크 어레이에 의해 원래 생성될 수 있는 적어도 두 개의 오디오 신호를 수신하도록 구성된 입력부를 포함한다.

마이크 입력 오디오 신호를 수신하는 동작이 도 6에서 단계(501)에 의해 도시된다.

몇몇 실시예에서 장치는 적어도 하나의 빔형성기 또는 수단(마이크 오디오 신호를 빔형성하기 위한 것임)을 포함한다. 도 5에 도시된 예에서는 2개의 빔형성기가 있는데, 빔형성기 각각은 별개의 빔형성된 오디오 신호(beamformed audio signal)를 생성하도록 구성된다. 본 문서에 도시된 예에서 빔형성기는 좌측 및 우측 빔을 생성하도록 구성되나 몇몇 실시예에서는 임의의 개수의 빔을 생성하는 임의의 개수의 빔형성기가 있을 수 있다는 점이 이해될 것이다. 나아가 본 문서에 기술된 실시예에서 빔형성기 또는 수단(오디오 신호를 빔형성하기 위한 것)이 기술된다. 그러나 더욱 일반적으로는 오디오 형성기 또는 수단(형성된 오디오 신호(formed audio signal)을 생성하기 위한 것)이 몇몇 실시예에서 이용될 수 있다는 점이 이해될 것이다. 오디오 형성기 또는 수단(형성된 오디오 신호를 생성하기 위한 것)은 예컨대 오디오 신호의 선택된 그룹을 혼합하도록 구성된 혼합기(mixer)일 수 있다. 몇몇 실시예에서 혼합기는 혼합된 오디오 신호가 어떤 정의된 방향을 갖는 어떤 차수 기울기 패턴(order gradient pattern)을 야기하게 오디오 신호를 혼합하도록 구성될 수 있다. 그러므로 몇몇 실시예에서는, 다수의 오디오 신호로부터 오디오 신호를 선택하는 것 및 선택된 오디오 신호를 혼합하는 것에 의해, 정의된 방향으로써 형성되는 임의의 개수의 차수 기울기 패턴이 형성될 수 있다.

몇몇 실시예에서 장치는 제1 (좌측) 빔형성기(401)를 포함한다. 제1 (좌측) 빔형성기(401)는 좌측 마이크로부터 오디오 신호를 수신하도록 구성될 수 있다. 다시 말해 제1 빔형성기(401)는 전방 좌측 마이크(11₁₁) 및 후위 좌측 마이크(11₁₃)로부터 오디오 신호를 수신하도록 구성된다.

나아가 몇몇 실시예에서 장치는 제2 (우측) 빔형성기(403)를 포함한다. 제2 (우측) 빔형성기(403)는 우측 마이크로부터 오디오 신호를 수신하도록 구성될 수 있다. 다시 말해 제2 빔형성기(403)는 전방 우측 마이크(11₁₂) 및 후위 우측 마이크(11₁₄)로부터 오디오 신호를 수신하도록 구성될 수 있다.

본 문서에 도시된 예에서 각 빔형성기는 마이크에 의해 생성된 오디오 신호의 별개의 선택을 수신하도록 구성된다. 다시 말해 빔형성기는 마이크 오디오 신호를 사용하여 공간적 필터링(spatial filtering)을 수행한다.

오디오 신호를 (그리고 이 예에서는 좌측 및 우측 오디오 신호로) 분리하는 동작은 도 6에서 단계(503)에 의해 도시된다.

빔형성기(이 예에서는 제1 빔형성기(401) 및 제2 빔형성기(403))는 몇몇 실시예에서 빔형성된 또는 빔으로 된(beamed) 오디오 신호를 생성하기 위해 수신된 오디오 신호에 대해 빔 필터링(beam filtering)을 적용하도록 구성될 수 있다.

몇몇 실시예에서 빔형성기는 시간 도메인 필터 및 합산(filter-and-sum) 빔형성 접근법을 사용하여 마이크 오디오 신호를 빔형성하도록 구성될 수 있다. 시간 도메인 필터 및 합산 접근법은 이하의 표현에 따라 수학적으로 기술될 수 있는데:

여기서 M은 마이크의 개수이고 L은 필터 길이이다. 필터 계수는 h _j (k)에 의해 표기되고 마이크 신호는 x _j 에 의해 표기된다. 필터 및 합산 빔형성에서, 필터 계수 h _j (k)는 마이크 포지션에 관해 결정된다.

몇몇 실시예에서 필터 계수 h _j (k)는 특정 방향으로부터의 오디오 신호를 증강시키도록 선택되거나 결정된다. 나아가 몇몇 실시예에서 증강의 방향은 도 3에 도시된 바와 같은 마이크로써 정의된 선이고 따라서 전방 방향을 강조하는 빔을 산출한다.

빔형성기는 시간 도메인 처리를 사용하여 오디오 신호 빔 또는 빔으로 된 오디오 신호를 생성하는 것으로 도시되나 몇몇 실시예에서 빔형성은 주파수나 임의의 다른 변환된 도메인 내에서 수행될 수 있다는 점이 또한 이해될 것이다.

빔으로 된 오디오 신호를 생성하기 위해 분리된 오디오 신호를 빔형성하는 동작은 도 6에서 단계(505)에 의해 도시된다.

몇몇 실시예에서 빔형성기는 (도 5에 도시된 예에서는 빔으로 된 좌측 오디오 신호 및 빔으로 된 우측 오디오 신호인) 빔으로 된 오디오 신호를 방향 추정기/증폭기 진폭 패너(405)로 출력하도록 구성될 수 있다. 제1 예시적 빔 쌍(beam pair)에 대한 빔 방향성(beam directivity) 도면이 도 7에 도시된다. 그 그림으로부터 볼 수 있는 바와 같이, 빔들은 후방으로부터 오는 소리를 3 kHz 아래에서 대략 10 dB만큼 약화시킨다. 실질적으로는 형성된 오디오 신호 또는 빔(601 및 603)은 가상의 방향적 마이크 신호로서의 역할을 한다. 본 문서에 기술된 바와 같이 빔 설계 및 이에 따라 가상 마이크 포지션은 자유롭게 선택될 수 있다. 예를 들어 본 문서에 기술된 예에서 우리는 대략적으로 원래의 전방 좌측 및 전방 우측 마이크와 동일한 포지션에 있도록 가상 마이크를 택하였다.

몇몇 실시예에서 장치는 빔으로 된 오디오 신호를 수신하도록 구성된 방향 추정기/진폭 패너(405)를 포함한다. 본 문서에 기술된 바와 같이 도 5에 도시된 예에서 두 개의 전방 강조(front emphasising) 빔이 수신되나, 임의의 적합한 개수 및 방향적인 빔이 수신될 수 있다는 점이 이해될 것이다.

본 문서에 제시된 예에서 빔으로 된 오디오 신호는 방향 추정기에 의해 수행되는 방향 추정 또는 공간적 분석으로 입력을 제공하는 좌측 및 우측 채널로서의 역할을 한다. 다시 말해 빔으로 된 좌측 및 우측 오디오 신호는 도 4(여기에서 예시적 장치의 개략적 표현은 좌측 가상 마이크 및 우측 가상 마이크가 표시됨)에 도시된 것과 같은 가상 좌측 마이크(311₁) 및 가상 우측 마이크(311₂)로부터의 오디오 신호로 간주될 수 있다. 몇몇 실시예에서 방향 추정기/진폭 패너(405)는 더욱 일반적으로는 오디오 분석기(또는 형성된 오디오 신호를 분석하기 위한 수단)를 포함하고 모형화된(modelled) 오디오 소스 방향 및 연관된 오디오 소스 신호를 추정하도록 구성된 것으로 간주될 수 있다.

예시적인 공간적 분석, 소스의 결정 및 오디오 신호의 파라미터화(parameterisation)가 다음과 같이 기술된다. 그러나 시간이나 아니면 다른 표현적 도메인(주파수 도메인 등등)에서 임의의 적합한 오디오 신호 공간적 또는 방향적 분석이 사용될 수 있다는 점이 이해될 것이다.

몇몇 실시예에서 방향 추정기/진폭 패너(405)는 프레이머(framer)를 포함한다. 프레이머 또는 적합한 프레이머 수단은 가상 마이크로부터 오디오 신호(다시 말해 빔으로 된 오디오 신호)를 수신하고 디지털 포맷 신호를 오디오 샘플 데이터의 프레임 또는 그룹으로 분할하도록(divide) 구성될 수 있다. 몇몇 실시예에서 프레이머는 나아가 임의의 적합한 윈도잉(windowing) 기능을 사용하여 데이터를 윈도우하도록(window) 구성될 수 있다. 프레이머는 각 마이크 입력에 대해 오디오 신호 데이터의 프레임을 생성하도록 구성될 수 있는데 각 프레임의 길이 및 각 프레임의 중첩(overlap)의 정도는 임의의 적합한 값일 수 있다. 예를 들어 몇몇 실시예에서 각 오디오 프레임은 20 밀리초(milliseconds) 길이이고 프레임 간 10 밀리초의 중첩을 가진다. 프레이머는 프레임 오디오 데이터를 시간 주파수 도메인 변환기(Time-to-Frequency Domain Transformer)로 출력하도록 구성될 수 있다.

몇몇 실시예에서 방향 추정기/진폭 패너(405)는 시간 주파수 도메인 변환기를 포함한다. 시간 주파수 도메인 변환기 또는 적합한 변환기 수단은 프레임 오디오 데이터에 대해 임의의 적합한 시간 주파수 도메인 변환(time-to-frequency domain transformation)을 수행하도록 구성될 수 있다. 몇몇 실시예에서 시간 주파수 도메인 변환기는 이산 푸리에 변환기(Discrete Fourier Transformer: DFT)일 수 있다. 그러나 그 변환기는 이산 코사인 변환기(Discrete Cosine Transformer: DCT), 수정된 이산 코사인 변환기(Modified Discrete Cosine Transformer: MDCT), 고속 푸리에 변환기(Fast Fourier Transformer: FFT) 또는 직교성 미러 필터(Quadrature Mirror Filter: QMF)와 같은 임의의 적합한 변환기일 수 있다. 시간 주파수 도메인 변환기는 각 마이크 입력에 대한 주파수 도메인 신호를 서브밴드(sub-band) 필터에 출력하도록 구성될 수 있다.

몇몇 실시예에서 방향 추정기/진폭 패너(405)는 서브밴드 필터를 포함한다. 서브밴드 필터 또는 적합한 수단은 각 마이크에 대해 시간 주파수 도메인 변환기로부터 주파수 도메인 신호를 수신하고 빔으로 된 (가상 마이크) 오디오 신호 주파수 도메인 신호 각각을 다수의 서브밴드로 분할하도록 구성될 수 있다.

서브밴드 분할은 임의의 적합한 서브밴드 분할일 수 있다. 예를 들어 몇몇 실시예에서 서브밴드 필터는 음향심리학적 필터링 밴드를 사용하여 동작하도록 구성될 수 있다. 그리고 서브밴드 필터는 각각의 도메인 범위 서브밴드를 방향 분석기로 출력하도록 구성될 수 있다.

몇몇 실시예에서 방향 추정기/진폭 패너(405)는 방향 분석기를 포함할 수 있다. 방향 분석기 또는 적합한 수단은 몇몇 실시예에서 서브밴드와 그 서브밴드의 각 빔(가상 마이크)에 대한 연관된 주파수 도메인 신호를 선택하도록 구성될 수 있다.

그리고 방향 분석기는 서브밴드 내의 신호에 대해 방향적 분석을 수행하도록 구성될 수 있다. 몇몇 실시예에서 방향적 분석기는 적합한 처리 수단 내에서 마이크/디코더 서브밴드 주파수 도메인 신호 간 상호 상관(cross correlation)을 수행하도록 구성될 수 있다.

방향 분석기에서는 주파수 도메인 서브밴드 신호의 상호 상관을 최대화하는 상호 상관의 지연 값이 발견된다. 이 지연은 서브밴드에 대해 우세한 오디오 신호 소스로부터의 각도를 추정하거나 그 각도를 나타내기 위해 몇몇 실시예에서 사용될 수 있다. 이 각도는 α로 정의될 수 있다. 가상 마이크로부터의 한 쌍 또는 두 개의 오디오 신호가 제1 각도를 제공할 수 있으나, 두 개보다 많은 가상 마이크 그리고 바람직하게는 몇몇 실시예에서 둘 이상의 축 상의 두 개보다 많은 가상 마이크를 사용함으로써 개선된 방향적 추정치가 산출될 수 있다는 점이 이해될 것이다.

그리고 방향적 분석기는 서브밴드 모두가 선택되었는지 여부를 판정하도록 구성될 수 있다. 몇몇 실시예에서 서브밴드 모두가 선택된 경우에는 방향 분석기는 방향적 분석 결과를 출력하도록 구성될 수 있다. 서브밴드 모두가 선택되지는 않은 경우에는 동작은 추가의 서브밴드 처리 단계를 선택하는 것으로 도로 넘어가게 될 수 있다.

이상은 주파수 도메인 상관관계 값을 사용하여 분석을 수행하는 방향 분석기를 기술한다. 그러나 방향 분석기는 임의의 적합한 방법을 사용하여 방향적 분석을 수행할 수 있다는 점이 이해될 것이다. 예를 들어 몇몇 실시예에서 객체(object) 검출기 및 분리기는 최대 상관관계 지연 값보다 특정 방위각-고도 값을 출력하도록 구성될 수 있다. 나아가 몇몇 실시예에서 공간적 분석은 시간 도메인에서 수행될 수 있다.

따라서 몇몇 실시예에서 이 방향 분석은 오디오 서브밴드 데이터를 수신하는 것으로서 정의될 수 있는데;

여기서

는 b 번째 서브밴드의 첫 번째 인덱스이다. 몇몇 실시예에서 각 서브밴드에 대해 본 문서에 기술된 바와 같은 방향적 분석은 다음과 같다. 몇몇 실시예에서 두 개의 가상 마이크, 또는 빔으로 된 오디오 채널로써 방향이 추정된다. 서브밴드 b에 대해 방향 분석기는 빔으로 된 오디오 채널의 두 개의 가상 마이크 간의 상관관계를 최대화하는 지연

를 찾는다. 가령

의 DFT 도메인 표현은 다음을 사용하여

시간 도메인 샘플 시프트된다(shifted)

몇몇 실시예에서는 최적의 지연이 다음으로부터 획득될 수 있는데

여기서 Re는 결과의 실수부를 나타내고 *은 복소 켤레(complex conjugate)를 표기한다.

및

는

샘플의 길이를 갖는 벡터로 간주된다. 방향 분석기는 몇몇 실시예에서 지연의 탐색(search)를 위해 하나의 시간 도메인 샘플의 해상도(resolution)를 구현한다.

몇몇 실시예에서 방향 분석기는 합산 신호(sum signal)를 생성하도록 구성될 수 있다. 합산 신호는 다음과 같이 수학적으로 정의될 수 있다.

다시 말해 이벤트가 먼저 발생한 채널의 내용(content)이 어떠한 수정도 없이 추가되는 반면, 이후에 이벤트가 발생한 채널은 첫 번째 채널에 대한 최상의 매치(best match)를 획득하기 위해 시프트되는 합산 신호를 생성하도록 방향 분석기가 구성된다.

지연 또는 시프트

는 음향 소스가 하나의 가상 마이크(또는 빔으로 된 오디오 채널)에 다른 가상 마이크(또는 빔으로 된 오디오 채널)보다 얼마나 더 가까운지를 나타낸다는 점이 이해될 것이다. 방향 분석기는 거리에서의 실제 차이를 다음으로서 결정하도록 구성될 수 있는데

여기서 Fs는 신호의 샘플링 레이트(sampling rate)이고 v는 공기 내에서의 (또는 만약 수중 레코딩을 행하고 있는 경우에는 물 안에서의) 신호의 빠르기이다.

도착하는 소리의 각도는 방향 분석기에 의해 다음으로서 결정되는데,

여기서 d는 그 쌍의 가상 마이크 간의 거리/ 빔으로 된 오디오 채널 분리이고 b는 음향 소스 및 가장 가까운 마이크 간의 추정된 거리이다. 몇몇 실시예에서 방향 분석기는 b의 값을 고정된 값으로 설정하도록 구성될 수 있다. 예를 들어 b = 2 미터는 안정적인 결과를 제공하는 것으로 발견되었다.

여기에 기술된 결정은 도착하는 소리의 방향에 대한 두 가지 대안을 제공한다는 점이 이해될 것이다. 몇몇 실시예에서 방향 추정기/진폭 패너(405)는 신호를 먼저 수신하는 가상 마이크를 향하는 오디오 소스 위치를 선택하도록 구성될 수 있다. 다시 말해 가상 마이크 오디오 신호의 상관관계의 강도(strength)는 두 대안 중 어느 것이 선택되는지를 결정한다.

몇몇 실시예에서 방향 분석기는 그 결정 내의 부호 중 어느 것이 올바른지를 정의하기 위해 제3 빔으로 된 채널 또는 제3 가상 마이크로부터의 오디오 신호를 사용하도록 구성될 수 있다. 만약 마이크가 정삼각형을 정한다고 가정하는 경우, 제3 빔으로 된 채널 또는 가상 마이크 및 두 개의 추정된 음향 소스 간의 거리는 다음인데:

여기서 h는 정삼각형의 높이이니, 즉

위의 결정에서의 거리는 다음의 (샘플에서의) 지연과 동일한 것으로 간주될 수 있다;

이들 두 지연 중에서 몇몇 실시예 내의 방향 분석기는 합산 신호와의 더 나은 상관관계를 제공하는 것을 선택하도록 구성된다. 상관관계는 예컨대 다음으로서 표현될 수 있다:

그리고 방향 분석기는 몇몇 실시예에서 서브밴드 b에 대해 우세한 음향 소스의 방향을 다음으로서 결정할 수 있다:

몇몇 실시예에서 방향 추정기/진폭 패너(405)는 중앙/측면 신호 생성기를 더 포함할 수 있다. 중앙 신호 내의 주된 내용은 방향적 분석으로부터 발견되는 우세한 음향 소스이다. 유사하게 측면 신호는 생성된 오디오 신호로부터의 다른 부분 또는 주변 오디오를 포함한다. 몇몇 실시예에서 중앙/측면 신호 생성기는 이하의 등식에 따라 서브밴드에 대해 중앙(M) 및 측면(S) 신호를 결정할 수 있다:

중앙 신호(M)는 이전에 이미 결정된 동일한 신호이고 몇몇 실시예에서 중앙 신호는 방향 분석의 일부로서 획득될 수 있다는 점에 유의한다. 중앙 및 측면 신호들은 이벤트가 먼저 발생하는 신호가 지연 정렬(delay alignment) 내에서 시프트되지 않도록 지각적으로 안전한 방식으로 구축될(constructed) 수 있다. 중앙 및 측면 신호들은 몇몇 실시예에서는 마이크들이 서로에 대해 상대적으로 가까운 경우 적합한 그러한 방식으로 결정될 수 있다. 마이크 간의 거리가 음향 소스로의 거리d에 비해 상당한 경우에 중앙/측면 신호 생성기는 수정된 중앙 및 측면 신호 결정을 수행하도록 구성될 수 있는데 여기에서 채널은 주된 채널과의 최상의 매치를 제공하도록 항상 수정된다.

그리고 중앙 (M), 측면 (S) 및 방향 (α) 컴포넌트는 몇몇 실시예에서 방향 추정기/진폭 패너(405)의 진폭 패너 부분으로 전달될 수 있다.

오디오 또는 음향 소스(들) 또는 객체를 결정하기 위한 빔으로 된 오디오 신호의 분석은 도 6에서 단계(507)에 의해 도시된다.

그리고 몇몇 실시예에서 방향적 컴포넌트(들)(α)는 오디오 패닝(audio panning)을 위해 멀티채널 오디오 신호의 합성을 제어하는 데에 사용될 수 있다.

예를 들어 몇몇 실시예에서 방향 추정기/진폭 패너(405)는 진폭 패닝을 사용하여 좌측 및 우측 합성 채널들로 방향적 컴포넌트를 분할하도록 구성될 수 있다. 예를 들어, 만약 소리가 좌측 측면으로부터 오는 것으로 추정되는 경우, 좌측 측면 신호의 진폭은 우측 측면 신호에 비해 증폭된다. 주변 컴포넌트는 양 출력 채널 모두에 공급되나, 그 부분에 대해 두 채널의 출력은 공간적 느낌을 증가시키기 위해 상관제거된다(decorrelated).

방향 추정 및 진폭 패닝 알고리즘 후 예시적 스테레오 채널의 방향성 도면은 더 낮은 주파수에 대해 더 떨어져 이격된 채널(701 및 703)을 도시하는 도 8에 도시된다. 나아가 더 넓은 스테레오 그림(stereo picture)이 있는 처리된 출력 채널의 다른 버전이 도 9에서 좌측 채널(801) 및 우측 채널(803) 도면 내에 도시된다.

몇몇 실시예에서 방향 추정기/진폭 패너(405)는 적합한 출력 오디오 신호 또는 채널을 생성하는 오디오 신호 합성기(또는 출력 신호를 합성하기 위한 수단)를 포함할 수 있다. 예를 들어 몇몇 실시예에서 방향 추정기/진폭 패너(405)는 중앙 및 측면 컴포넌트에 기반하여 좌측 및 우측 오디오 신호 또는 채널을 합성하도록 구성될 수 있다. 예를 들어 머리 관련 전달 함수(head related transfer function) 또는 유사한 것은 좌측 및 우측 출력 채널 오디오 신호를 합성하기 위해 중앙 측면 컴포넌트 및 그것의 연관된 방향적 컴포넌트에 적용될 수 있다. 나아가 그러한 실시예에서 주변(또는 측면) 컴포넌트는 양 출력 채널 오디오 신호 모두에 추가될 수 있다. 몇몇 실시예에서 향상된 스테레오 분리는 머리 관련 전달 함수를 적용하기 전에 변위 인자(displacement factor)를 방향적 컴포넌트에 적용함으로써 달성될 수 있다는 점이 이해될 것이다. 몇몇 실시예에서 이 변위 인자는 가산적(additive) 인자일 수 있다. 예를 들어

α>0인 경우 α' = α+x

α<0인 경우 α' = α-x

여기서 α'는 수정된 방향적 컴포넌트, α는 입력된 방향적 컴포넌트이고 x는 수정 인자(예컨대 10-20도(degrees))이고 α=0은 오디오 소스가 카메라 앞쪽에 향하게 되어 위치된 곳이다. 가산적 (감산적) 인자는 임의의 적합한 값일 수 있고 고정된 값으로 보여졌으나 몇몇 실시예에서는 α의 값의 함수이고 나아가 서브밴드의 함수일 수 있다. 예를 들어 몇몇 실시예에서 더 낮은 주파수는 더 높은 주파수보다 더 작은 양만큼 시프트되거나 시프트되지 않는다.

몇몇 실시예에서 변위 인자는 예컨대 방향적 컴포넌트에 기반한 소스 방향의 선형 승산(linear multiplication), 또는 비선형 맵핑(non-linear mapping)과 같은 임의의 다른 수정 인자이다. 예를 들어 α' = f(α)인데, 여기서 f(α)는 α의 선형 또는 비선형 함수이다.

몇몇 실시예에서 오디오 채널의 합성은 추가의 컴포넌트에 기반하여 추가로 결정될 수 있다. 예를 들어 몇몇 실시예에서 오디오 소스의 방향적 컴포넌트는 디스플레이 줌 또는 카메라 줌 인자에 의해 추가로 수정된다. 예를 들어 몇몇 실시예에서 스테레오 분리 효과는 디스플레이 줌 또는 카메라 줌 기능에 기반하여 증가된다. 다시 말해, 줌 인자가 더 크고 따라서 디스플레이된 바와 같이 떨어져 있는 객체(distant object)에 더 가까울수록, 디스플레이된 이미지를 매칭시키려 시도하는 데에 스테레오 분리 효과가 더 광범위하다. 이것의 일례가 도 14에 도시되는데 여기에서 왼쪽 측면에는 제1 오디오 분리 각도(1303)(다시 말해 방향적 컴포넌트)를 갖는 두 개의 객체가 제1 줌 인자(1305)로써 제1 거리 분리(1303)와 함께 디스플레이 상에 도시된다. 도 14의 오른쪽 측면에는 동일한 두 개의 객체가 제2 (및 더 큰) 줌 인자(1315)(이는 그것들이 제2 오디오 분리 각도(1311)를 갖도록 방향 추정기/진폭 패너(405)로 하여금 오디오 소스의 스테레오 분리를 수정하게 함)로써 제2 거리 분리(1313)와 함께 디스플레이 상에 도시된다. 이 분리는 진폭 패닝 또는 방향적 컴포넌트 수정 및 오디오 합성 방법에 의해 본 문서에 기술된 것과 같은 적합한 방식에 의해 달성될 수 있다.

오디오 방향 추정에 기반하여 오디오 채널 분리 향상을 수행하는 동작은 도 6에서 단계(509)에 의해 도시된다.

도 10 및 도 11은 스테레오 레코딩에 대한 몇몇 실시예의 적용을 도시한다. 도 10은 빔형성기 후 전방 좌측(901) 및 전방 우측(903) 가상 채널로부터의 잡음에 대한 잡음 레벨의 출력 레벨을 도시한다. 전방 우측 또는 전방 좌측 방향으로부터의 잡음을 레코드하는 동안 좌측 및 우측 채널 간의 어떠한 레벨 차이도 없다. 도 11은 전방 우측 방향으로부터의 잡음 중에 출력 우측 채널(1003)이 더 높은 레벨을 가지고 전방 좌측 방향으로부터의 잡음 중에 좌측 채널(1001)이 더 높은 레벨을 가지는 몇몇 실시예에 따라 처리된 출력을 도시한다. 유사하게 도 12 및 도 13은 상이한 각도들로부터의 원거리 음성 입력들을 갖는 좌측 및 우측 채널 간의 레벨 차이를 예시한다. 도 12는 빔형성기 후 전방 좌측(1101) 및 전방 우측(1103) 가상 채널로부터의 것에 대한 발화 레벨의 출력 레벨을 도시한다. 전방 우측 또는 전방 좌측 방향으로부터의 발화를 레코드하는 동안 좌측 및 우측 채널 간의 어떠한 레벨 차이도 없다. 도 13은 전방 우측 방향으로부터의 발화 중에 출력 우측 채널(1203)이 더 높은 레벨을 가지고 전방 좌측 방향으로부터의 발화 중에 좌측 채널(1201)이 더 높은 레벨을 가지는 몇몇 실시예에 따라 처리된 출력을 도시한다.

그리고 몇몇 실시예에서 방향 추정기/진폭 패너(405)는 요구되는 출력 포맷에 따라 적합한 모노, 스테레오 또는 멀티채널 출력을 생성하기 위해 합성된 채널을 출력할 수 있다. 도 5에 도시된 예에서 스테레오 좌측 채널 오디오 신호 및 스테레오 우측 채널 오디오 신호를 생성하는 방향 추정기/진폭 패너(405)와 함께 스테레오 출력 포맷이 도시된다.

사용자 장비라는 용어는 착용가능한(wearable) 디바이스뿐만 아니라, 모바일 전화, 휴대가능한 데이터 처리 디바이스 또는 휴대가능한 웹 브라우저와 같은 임의의 적합한 유형의 무선 사용자 장비를 포섭하고자 의도된 것이라는 점이 인식될 것이다.

일반적으로, 발명의 다양한 실시예는 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 몇몇 양상은 하드웨어로 구현될 수 있으나, 다른 양상은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있되, 다만 발명이 이에 한정되는 것은 아니다. 발명의 다양한 양상이 블록도, 흐름도로서 또는 어떤 다른 도식적 표현을 사용하여 예시되고 기술될 수 있으나, 본 문서에 기술된 이들 블록, 장치, 시스템, 기법 또는 방법은, 비한정적인 예로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 범용 하드웨어 또는 제어기 또는 다른 컴퓨팅 디바이스, 또는 이들의 어떤 조합으로 구현될 수 있다는 점이 잘 이해된다.

이 발명의 실시예는, 모바일 디바이스의 데이터 프로세서에 의해, 이를테면 프로세서 개체(processor entity) 내에서, 또는 하드웨어에 의해, 또는 소프트웨어와 하드웨어의 조합에 의해 실행가능한 컴퓨터 소프트웨어에 의해 구현될 수 있다. 또한 이와 관련하여 도면 내에서와 같은 로직 흐름의 임의의 블록은 프로그램 단계, 또는 상호연결된 로직 회로, 블록 및 기능, 또는 프로그램 단계와 로직 회로, 블록 및 기능의 조합을 나타낼 수 있다는 점에 유의하여야 한다. 소프트웨어는 메모리 칩, 또는 프로세서 내에 구현된 메모리 블록과 같은 물리적 매체, 하드 디스크 또는 플로피 디스크와 같은 자기 매체, 그리고 예컨대 DVD 및 이의 데이터 변이, CD와 같은 광학 매체 상에 저장될 수 있다.

메모리는 국부적인(local) 기술적 환경에 적합한 임의의 유형의 것일 수 있고 반도체 기반 메모리 디바이스, 자기 메모리 디바이스 및 시스템, 광학 메모리 디바이스 및 시스템, 고정된 메모리 및 탈착가능한(removable) 메모리와 같은 임의의 적합한 데이터 저장 기술을 사용하여 구현될 수 있다. 데이터 프로세서는 국부적인 기술적 환경에 적합한 임의의 유형의 것일 수 있고, 비한정적인 예로서, 범용 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(Digital Signal Processor: DSP), 애플리케이션 특정 집적 회로(Application Specific Integrated Circuit: ASIC), 게이트 레벨 회로 및 멀티코어(multi-core) 프로세서 아키텍처에 기반한 프로세서 중 하나 이상을 포함할 수 있다.

발명의 실시예는 집적 회로 모듈과 같은 다양한 컴포넌트 내에서 실시될 수 있다. 집적 회로의 설계는 대체로 대단히 자동화된 프로세스이다. 로직 레벨 설계를 반도체 기판 상에서 식각되고(etched) 형성될 준비가 된 반도체 회로 설계로 변환하기 위해 복합적이고 강력한 소프트웨어 도구가 이용가능하다.

캘리포니아주 마운티 뷰의 시놉시스 사(Synopsys, Inc.) 및 캘리포니아주 산 호세의 케이던스 디자인(Cadence Design)에 의해 제공되는 것과 같은 프로그램은 사전저장된 설계 모듈의 라이브러리뿐만 아니라 확립된 설계 규칙을 사용하여 도체를 자동으로 배선하고(route) 반도체 칩 상에 컴포넌트를 위치시킨다. 반도체 회로에 대한 설계가 완료되면, 그에 따른 설계는 표준화된 전자 포맷(가령, Opus, GDSII, 또는 유사한 것)으로 제조를 위해 반도체 제조 시설 또는 "팹"(fab)에 송신될 수 있다.

전술한 설명은 예시적이며 비한정적인 예로서 이 발명의 예시적인 실시예의 충실하고 유용한 설명을 제공하였다. 그러나, 첨부된 도면 및 부기된 청구항과 함께 읽는 경우, 전술한 설명에 비추어 볼 때 다양한 수정 및 적응이 당업자에게 분명해질 수 있다. 다만, 이 발명의 교시의 그러한 또는 유사한 수정 모두가 부기된 청구항 내에 정의된 바와 같은 이 발명의 범주 내에 여전히 속할 것이다.

Claims

적어도 두 개의 오디오 신호의 적어도 두 개의 그룹을 수신하는 단계와,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호(formed audio signal)를 생성하는 단계와,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 단계와,
적어도 하나의 오디오 소스(audio source) 및 연관된 오디오 소스 신호를 결정하기 위해 상기 제1 형성된 오디오 신호 및 상기 제2 형성된 오디오 신호를 분석하는 단계와,
상기 적어도 하나의 오디오 소스 및 상기 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하는 단계를 포함하는
방법.
제1항에 있어서,
상기 적어도 두 개의 오디오 신호의 상기 제1 그룹은 전방 좌측 및 후방 좌측 마이크(microphone)이고, 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 단계는 가상(virtual) 좌측 마이크 신호를 생성하는 단계를 포함하는
방법.
제1항 및 제2항에 있어서,
상기 적어도 두 개의 오디오 신호의 상기 제2 그룹은 전방 우측 및 후방 우측 마이크이고, 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 단계는 가상 우측 마이크 신호를 생성하는 단계를 포함하는
방법.
제1항 내지 제3항에 있어서,
적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 상기 제1 형성된 오디오 신호 및 상기 제2 형성된 오디오 신호를 분석하는 단계는 적어도 하나의 소스 위치(source location)를 결정하는 단계를 포함하는
방법.
제4항에 있어서,
소스 변위 인자(source displacement factor)를 수신하는 단계와,
상기 소스 위치가 상기 소스 변위 인자만큼 오디오 정중선(mid-line)으로부터 떨어져 옮겨지도록 상기 소스 변위 인자에 의해 상기 적어도 하나의 소스 위치를 처리하는 단계를 더 포함하는
방법.
제5항에 있어서,
소스 변위 인자를 수신하는 단계는 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹을 수신할 때에 실질적으로, 적어도 하나의 프레임 이미지(frame image)를 캡처하도록 구성된 카메라와 연관된 줌 인자(zoom factor)에 기반하여 소스 변위 인자를 생성하는 단계를 포함할 수 있는
방법.
제4항 내지 제6항에 있어서,
상기 적어도 하나의 오디오 소스 및 상기 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하는 단계는 상기 적어도 하나의 오디오 소스 위치에 기반하여 상기 적어도 하나의 출력 오디오 신호를 생성하는 단계를 포함하는
방법.
제7항에 있어서,
상기 적어도 하나의 오디오 소스 위치에 기반하여 상기 적어도 하나의 출력 오디오 신호를 생성하는 단계는
적어도 하나의 출력 오디오 신호 위치를 결정하는 단계와,
상기 적어도 하나의 출력 오디오 신호 위치에서 상기 적어도 하나의 출력 오디오 신호를 생성하기 위해 상기 적어도 하나의 오디오 소스 위치에 기반하여 상기 적어도 하나의 오디오 소스 신호를 오디오 팬하는(audio panning) 단계를 포함하는
방법.
제1항 내지 제8항에 있어서,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 단계는 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 상기 제1 그룹으로부터 제1 빔형성된 오디오 신호(beamformed audio signal)를 생성하는 단계를 포함하고, 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 단계는 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 상기 제2 그룹으로부터 제2 빔형성된 오디오 신호를 생성하는 단계를 포함하는
방법.
제1항 내지 제8항에 있어서,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 단계는 제1 혼합된 오디오 신호(mixed audio signal)가 제1 방향을 갖는 1차 기울기 패턴(first order gradient pattern)을 야기하도록 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 상기 제1 그룹으로부터 상기 제1 혼합된 오디오 신호를 생성하는 단계를 포함하고, 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 단계는 제2 혼합된 오디오 신호가 제2 방향을 갖는 추가의 1차 기울기 패턴을 야기하도록 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 상기 제2 그룹으로부터 상기 제2 혼합된 오디오 신호를 생성하는 단계를 포함하는
방법.
적어도 두 개의 오디오 신호의 적어도 두 개의 그룹을 수신하는 수단과,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 수단과,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 수단과,
적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 상기 제1 형성된 오디오 신호 및 상기 제2 형성된 오디오 신호를 분석하는 수단과,
상기 적어도 하나의 오디오 소스 및 상기 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하는 수단을 포함하는
장치.
하나 이상의 프로그램을 위한 컴퓨터 코드를 포함하는 적어도 하나의 메모리와 적어도 하나의 프로세서를 포함하는 장치로서, 상기 적어도 하나의 메모리 및 상기 컴퓨터 코드는 상기 적어도 하나의 프로세서로써 상기 장치로 하여금 적어도,
적어도 두 개의 오디오 신호의 적어도 두 개의 그룹을 수신하고,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하며,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하고,
적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 상기 제1 형성된 오디오 신호 및 상기 제2 형성된 오디오 신호를 분석하며,
상기 적어도 하나의 오디오 소스 및 상기 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하게 하도록 구성된
장치.
제12항에 있어서,
상기 적어도 두 개의 오디오 신호의 상기 제1 그룹은 전방 좌측 및 후방 좌측 마이크이고, 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하는 것은 상기 장치로 하여금 가상 좌측 마이크 신호를 생성하게 하는
장치.
제12항 및 제13항에 있어서,
상기 적어도 두 개의 오디오 신호의 상기 제2 그룹은 전방 우측 및 후방 우측 마이크이고, 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하는 것은 상기 장치로 하여금 가상 우측 마이크 신호를 생성하게 하는
장치.
제12항 내지 제14항에 있어서,
적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 상기 제1 형성된 오디오 신호 및 상기 제2 형성된 오디오 신호를 분석하는 것은 상기 장치로 하여금 적어도 하나의 소스 위치를 결정하게 하는
장치.
제15항에 있어서,
또한
소스 변위 인자를 수신하고,
상기 소스 위치가 상기 소스 변위 인자만큼 오디오 정중선으로부터 떨어져 옮겨지도록 상기 소스 변위 인자에 의해 상기 적어도 하나의 소스 위치를 처리하게 하는
장치.
제16항에 있어서,
소스 변위 인자를 수신하는 것은 상기 장치로 하여금 적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹을 수신할 때에 실질적으로, 적어도 하나의 프레임 이미지를 캡처하도록 구성된 카메라와 연관된 줌 인자에 기반하여 소스 변위 인자를 생성하게 하는
장치.
제15항 내지 제17항에 있어서,
상기 적어도 하나의 오디오 소스 및 상기 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하는 것은 상기 장치로 하여금 상기 적어도 하나의 오디오 소스 위치에 기반하여 상기 적어도 하나의 출력 오디오 신호를 생성하게 하는
장치.
제18항에 있어서,
상기 적어도 하나의 오디오 소스 위치에 기반하여 상기 적어도 하나의 출력 오디오 신호를 생성하는 것은 상기 장치로 하여금,
적어도 하나의 출력 오디오 신호 위치를 결정하고,
상기 적어도 하나의 출력 오디오 신호 위치에서 상기 적어도 하나의 출력 오디오 신호를 생성하기 위해 상기 적어도 하나의 오디오 소스 위치에 기반하여 상기 적어도 하나의 오디오 소스 신호를 오디오 팬하게 하는
장치.
적어도 두 개의 오디오 신호의 적어도 두 개의 그룹을 수신하도록 구성된 입력부와,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제1 그룹으로부터 제1 형성된 오디오 신호를 생성하도록 구성된 제1 오디오 형성기와,
적어도 두 개의 오디오 신호의 상기 적어도 두 개의 그룹 중 제2 그룹으로부터 제2 형성된 오디오 신호를 생성하도록 구성된 제2 오디오 형성기와,
적어도 하나의 오디오 소스 및 연관된 오디오 소스 신호를 결정하기 위해 상기 제1 형성된 오디오 신호 및 상기 제2 형성된 오디오 신호를 분석하도록 구성된 오디오 분석기와,
상기 적어도 하나의 오디오 소스 및 상기 연관된 오디오 소스 신호에 기반하여 적어도 하나의 출력 오디오 신호를 생성하도록 구성된 오디오 신호 합성기를 포함하는
장치.