KR20150006799A

KR20150006799A - 오디오 프로세싱 장치

Info

Publication number: KR20150006799A
Application number: KR20140085782A
Authority: KR
Inventors: 케말 우구르; 미코 타미
Original assignee: 노키아 코포레이션
Priority date: 2013-07-09
Filing date: 2014-07-09
Publication date: 2015-01-19
Also published as: US20180084365A1; KR101703388B1; GB2516056B; GB2516056A; JP6310793B2; US10142759B2; JP6367258B2; EP2824663B1; EP2824663A3; US20150016641A1; US10080094B2; JP2015019371A; GB201312326D0; JP2016178652A; EP2824663A2

Abstract

장치는 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원를 결정하도록 구성되는 공간 오디오 분석기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 위치 결정기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기; 및 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하도록 구성되는 프로세서를 포함한다.

Description

오디오 프로세싱 장치{AUDIO PROCESSING APPARATUS}

본 출원은 오디오 프로세싱(audio processing)을 위한 장치에 관한 것이다. 본 출원은 게다가, 오디오 프로세싱을 위한 휴대용 또는 모바일 장치에 관한 것이나 이로 제한되지 않는다.

전자 장치 상에 오디오 및 오디오-비디오를 레코딩하는 것은 흔하다. 전문적인 비디오 캡처 장비, 소비자 등급 캠코더들 및 디지털 카메라들부터 모바일 전화기들에 이르는 디바이스들 및 심지어 웹캠들과 같은 간단한 디바이스들은 모션 비디오 이미지들의 전자적 획득(electronic acquisition)에 사용될 수 있다. 비디오 및 비디오와 연관되는 오디오를 레코딩하는 것은 많은 모바일 디바이스들에서의 표준 특징이 되었으며 그와 같은 장비의 기술 품질은 신속하게 개선되어 왔다. 모바일 디바이스를 사용하여 개인의 경험들을 레코딩하는 것은 모바일 전화기들과 같은 모바일 디바이스 및 다른 사용자 장비의 경우 빠르게 점진적으로 중요하게 사용되고 있다. 이것을 소셜 미디어의 출현 및 컨텐츠를 효율적으로 공유하는 새로운 방식들과 결합하는 것은 전자 디바이스 산업에 제공되는 새로운 기회들 및 이 발전들의 중요성의 기본이 된다.

종래의 상황들에서 환경은 모든 세 공간 차원들로 퍼지는 오디오 소스(audio source)들이 있는 음장(sound field)들을 포함한다. 뇌에 의해 통제되는 사람의 청력 시스템은 선천 능력을 발전시켜서 3차원 음장 내의 이 소스들의 위치를 찾고, 이 소스들을 분리하고 이해한다. 예를 들어, 뇌는 오디오 파면(wavefront)이 두 귀들에 도달할 때 오디오 소스로부터의 오디오 파면들에 내포되어 있는 큐(cue)들을 해독함으로써 오디오 소스들의 위치들을 찾는 시도를 행한다. 공간 지각을 일으키는 이 2개의 가장 중요한 큐들은 양귀간 시간차(interaural time difference; ITD)들 및 양귀간 레벨 차(interaural level difference; ILD)들이다. 예를 들어, 청취자의 좌측 및 전방에 위치되는 오디오 소스는 좌측 귀와 비교하여 우측 귀에 도달하는 데 더 많은 시간이 걸린다. 이 시간차가 ITD로 칭해진다. 유사하게, 두영(head shadowing)으로 인해, 우측 귀에 도달하는 파면은 좌측 귀에 도달하는 파면보다 더 많이 감쇠되어, ILD를 발생시킨다. 게다가, 귓바퀴 구조, 어깨 반사들로 인한 파면의 변형은 3D 음장에서 소스들의 위치를 찾는 방법에 중요한 역할을 할 수 있다. 그러므로 이 큐들은 사람/청취자, 주파수, 3D 음장 내의 오디오 소스의 위치 및 청취자가 있는 환경(예를 들어, 청취자가 무반향실/강당/거실에 위치되어 있는지의 여부)에 좌우된다.

오디오-비디오 레코딩들은 구현에 있어서 널리 공지되어 있다. 흔히 레코딩 또는 캡처는 환경적으로 잡음이 많은 상황들에서 수행되고 여기서 배경 잡음은 레코딩된 세부사항을 이해하는 데 있어서 곤란을 유발한다. 이의 전형적인 결과로서 세부사항들을 결정하기 위해 레코딩을 반복할 것을 요청하게 된다. 이것은 심한 혼란을 야기하는 국소적인 잡음으로 인해 대화를 따라가는 것이 어려울 수 있는 녹취 대화에서 특히 심각하다. 심지어 사용자가 레코딩 내의 세부사항들을 이해하는 것을 주변 또는 환경 잡음이 방해하지 않을지라도, 이것은 여전히 매우 혼란스럽고 성가시며 청취에 있어서 추가 노력을 필요로 할 수 있다.

그러므로 본 출원의 양태들은 더 유연한 오디오 프로세싱을 가능하게 하는 오디오 프로세싱 능력을 제공한다.

장치가 제공되고, 상기 장치는 적어도 하나의 프로세서 및 하나 이상의 프로그램들을 위한 컴퓨터 코드를 포함하는 적어도 하나의 메모리를 포함하고, 적어도 하나의 메모리 및 컴퓨터 코드는 적어도 하나의 프로세서에 의해 상기 장치로 하여금: 적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원(acoustic source)을 결정하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하도록 한다.

적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 것은 상기 장치로 하여금: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일(metafile)을 결정하고; 그리고 음원 위치 정보로부터 적어도 하나의 음원을 결정하도록 하는 것 중 적어도 하나를 수행하도록 하고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것은 상기 장치로 하여금 음원 위치 정보에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 한다.

적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것은 상기 장치로 하여금: 이미지 프레임(image frame)으로부터 비주얼(visual) 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것 중 적어도 하나를 수행하도록 한다.

상기 장치는 디스플레이의 영역 내에, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하고; 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것을 더 하도록 될 수 있고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것은 상기 장치로 하여금 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를, 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로 결정하도록 한다.

디스플레이의 영역 내에, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 것은 상기 장치로 하여금: 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하고; 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하는 것을 더 하도록 할 수 있고, 적어도 하나의 비주얼 요소의 관심 위치의 지점을 결정하는 것은 상기 장치로 하여금 적어도 하나의 선택 입력에 기초하여 적어도 하나의 관심 지점 위치를 결정하도록 한다.

디스플레이 이미지를 생성하는 것은 상기 장치로 하여금: 적어도 하나의 이미지 프레임을 캡처하고; 적어도 하나의 사용자 인터페이스 오버레이(overlay) 요소를 생성하고; 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성하기 위해 적어도 하나의 이미지 프레임 및 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합하도록 할 수 있다.

적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하는 것은 상기 장치로 하여금: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이를 생성하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계(field of view) 외부에 있는 것을 강조하는 오버레이를 생성하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이를 생성하고; 적어도 하나 더 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태(toggle state)를 디스플레이 하도록 구성되는 프로세싱 오버레이를 생성하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이 하도록 구성되는 포커스 증폭 오버레이를 생성하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화(attenuation dampening)를 디스플레이 하도록 구성되는 포커스 감쇠 오버레이를 생성하고; 포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이 하도록 구성되는 포커스 인버터 오버레이를 생성하고; 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이 하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하는 것 중 적어도 하나를 수행하도록 할 수 있다.

상기 장치는 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 것을 더 하도록 될 수 있고, 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것은 상기 장치로 하여금 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하도록 한다.

적어도 하나의 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 것은 장치로 하여금: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 범위; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 포커스 증폭 팩터(factor); 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 포커스 감쇠 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 아웃 포커스 증폭 팩터; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 아웃 포커스 감쇠 중 적어도 하나를 제공하도록 할 수 있다.

적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함할 수 있고, 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원을 결정하는 것은 상기 장치로 하여금: 적어도 2개의 오디오 신호들로부터 위치값을 포함하는 적어도 하나의 음원을 결정하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치 내의 적어도 하나의 음원으로부터 적어도 하나의 음원을 결정하는 것 중 적어도 하나를 수행하도록 할 수 있다.

적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 것은 상기 장치로 하여금: 적어도 하나의 관심 지점 위치에서 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 연관되는 적어도 하나의 특징을 결정하고; 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 각각 연관되는 적어도 하나의 특징을 추적하고; 적어도 하나의 특징의 궤적을 결정하도록 할 수 있다.

상기 장치는 적어도 2개의 마이크로폰; 장치 메모리; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 적어도 하나의 오디오 신호를 수신하는 것을 더 하도록 될 수 있다.

상기 장치는; 적어도 하나의 위치가 결정되는 적어도 하나의 캡처된 이미지 프레임을 수신하는 것을 더 하도록 될 수 있고, 적어도 하나의 캡처된 이미지 프레임은 적어도 하나의 카메라, 메모리 및 적어도 하나의 추가 장치들 중 적어도 하나로부터 수신된다.

본 발명의 제 2 양태에 따르면, 장치가 제공되고, 상기 장치는: 적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 수단; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 수단; 및 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 수단을 포함한다.

적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 수단은: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타데이터(metadata)를 결정하는 수단; 및 음원 위치 정보로부터 적어도 하나의 음원을 결정하는 수단 중 적어도 하나를 포함할 수 있고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단은 음원 위치 정보에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단을 포함할 수 있다.

적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단은: 이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단; 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단; 및 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단 중 적어도 하나를 포함할 수 있다.

상기 장치는: 디스플레이의 범위 내에서, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 수단; 및 상기 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단을 더 포함할 수 있고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단은 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를, 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로서 결정하는 수단을 포함할 수 있다.

디스플레이 영역 내에 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 수단은: 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하는 수단; 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하는 수단을 더 포함할 수 있고, 적어도 하나의 비주얼 요소의 관심 영역의 지점을 결정하는 수단은 적어도 하나의 선택 입력에 기초하여 관심 위치의 하나의 지점을 결정하는 수단을 포함할 수 있다.

디스플레이 이미지를 생성하는 수단은: 적어도 하나의 이미지 프레임을 캡처하는 수단; 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하는 수단; 및 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성하기 위해 적어도 하나의 이미지 프레임 및 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합하는 수단을 포함할 수 있다.

적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하는 수단은: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이를 생성하는 수단; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계 외부에 있는 것을 강조하는 오버레이를 생성하는 수단; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이를 생성하는 수단; 적어도 하나 더 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태를 디스플레이 하도록 구성되는 프로세싱 오버레이를 생성하는 수단; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이 하도록 구성되는 포커스 증폭 오버레이를 생성하는 수단; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화를 디스플레이 하도록 구성되는 포커스 감쇠 오버레이를 생성하는 수단; 포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이 하도록 구성되는 포커스 인버터 오버레이를 생성하는 수단; 및 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이 하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하는 수단 중 적어도 하나를 포함할 수 있다.

상기 장치는 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 수단을 포함할 수 있고 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 수단은 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하는 수단을 포함할 수 있다.

적어도 하나의 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 수단은: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭을 제공하는 수단; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 범위를 제공하는 수단; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 증폭 팩터를 제공하는 수단; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 감쇠 팩터를 제공하는 수단; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 증폭 팩터를 제공하는 수단; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠를 제공하는 수단 중 적어도 하나를 포함할 수 있다.

적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함할 수 있고, 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원을 결정하는 수단은: 적어도 2개의 오디오 신호들로부터 위치 값을 포함하는 적어도 하나의 음원을 결정하는 수단; 및 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치 내의 적어도 하나의 음원으로부터 적어도 하나의 음원을 결정하는 수단 중 적어도 하나를 포함할 수 있다.

적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 수단은: 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징 및/또는 적어도 하나의 관심 지점 위치에서의 적어도 하나의 음원을 결정하는 수단; 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 각각 연관되는 적어도 하나의 특징을 추적하는 수단; 및 적어도 하나의 특징의 궤적을 결정하는 수단을 포함할 수 있다.

상기 장치는: 적어도 2개의 마이크로폰들; 장치 메모리들; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 적어도 하나의 오디오 신호를 수신하는 수단을 더 포함할 수 있다.

상기 장치는 적어도 하나의 위치가 결정되는 적어도 하나의 캡처된 이미지 프레임을 수신하는 수단을 더 포함할 수 있고, 적어도 하나의 캡처된 이미지 프레임은 카메라; 메모리; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 수신될 수 있다.

제 3 양태에 따르면 방법이 제공되고, 상기 방법은: 적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 단계; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 단계; 및 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 단계를 포함한다.

적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 단계는: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일을 결정하고; 음원 위치 정보로부터 적어도 하나의 음원을 결정하는 것 중 하나를 포함할 수 있고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계는 음원 위치 정보에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것을 포함한다.

적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계는: 이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것 중 적어도 하나를 포함할 수 있다.

상기 방법은 디스플레이 영역 내에 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하고; 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것을 더 포함할 수 있고, 적어도 하나의 음원과 연관되는 관심 영역의 적어도 하나의 지점을 결정하는 것은 적어도 하나의 음원과 연관되는 관심 영역의 적어도 하나의 지점을 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로서 결정하는 것을 포함할 수 있다.

디스플레이의 영역 내에, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 단계는: 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하고; 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하는 것을 더 포함할 수 있고, 적어도 하나의 비주얼 요소의 관심 위치의 지점을 결정하는 것은 적어도 하나의 선택 입력에 기초하여 관심 위치의 하나의 지점을 결정하는 것을 포함할 수 있다.

디스플레이 이미지를 생성하는 단계는: 적어도 하나의 이미지 프레임을 캡처하고; 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하고; 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성하기 위해 적어도 하나의 이미지 프레임 및 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합하는 것을 포함할 수 있다.

적어도 하나의 사용자 오버레이 요소를 생성하는 것은: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이를 생성하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계 외부에 있는 것을 강조하는 오버레이를 생성하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이를 생성하고; 적어도 하나 더 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태를 디스플레이 하도록 구성되는 프로세싱 오버레이를 생성하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이 하도록 구성되는 포커스 증폭 오버레이를 생성하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화를 디스플레이 하도록 구성되는 포커스 감쇠 오버레이를 생성하고; 포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이 하도록 구성되는 포커스 인버터 오버레이를 생성하고; 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이 하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하는 것 중 적어도 하나를 포함할 수 있다.

상기 방법은 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 것을 더 포함할 수 있고, 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것은 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하는 것을 포함할 수 있다.

적어도 하나의 위치와 연된되는 적어도 하나의 제어 입력을 제공하는 것은: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭을 제공하고; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 범위를 제공하고; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 증폭 팩터를 제공하고; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 감쇠 팩터를 제공하고; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 증폭 팩터를 제공하고; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠를 제공하는 것 중 적어도 하나를 포함할 수 있다.

적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함할 수 있고, 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원을 결정하는 것은: 적어도 2개의 오디오 신호들로부터 위치 값을 포함하는 적어도 하나의 음원을 결정하고; 및 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치 내의 적어도 하나의 음원으로부터 적어도 하나의 음원을 결정하는 것 중 적어도 하나를 포함할 수 있다.

적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 것은: 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징 및/또는 적어도 하나의 관심 지점 위치에서의 적어도 하나의 음원을 결정하고; 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 각각 연관되는 적어도 하나의 특징을 추적하고; 적어도 하나의 특징의 궤적을 결정하는 것을 포함할 수 있다.

상기 방법은: 적어도 2개의 마이크로폰들; 장치 메모리들; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 적어도 하나의 오디오 신호를 수신하는 것을 더 포함할 수 있다.

상기 방법은 적어도 하나의 위치가 결정되는 적어도 하나의 캡처된 이미지 프레임을 수신하는 것을 더 포함할 수 있고, 적어도 하나의 캡처된 이미지 프레임은: 카메라; 메모리; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 수신될 수 있다.

제 4 양태에 따르면, 장치가 제공되고, 상기 장치는: 적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하도록 구성되는 공간 오디오 분석기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 위치 결정기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기; 및 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하도록 구성되는 프로세서를 포함한다.

공간 오디오 분석기는: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일을 결정하도록 구성되는 메타파일 결정기; 및 음원 위치 정보로부터 적어도 하나의 음원을 결정하도록 구성되는 공간 분석기 중 적어도 하나를 포함할 수 있고 위치 결정기는 음원 위치 정보에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성될 수 있다.

위치 결정기는: 이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 이미지 위치 결정기; 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 오디오 위치 결정기; 및 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 사용자 인터페이스 입력 중 적어도 하나를 포함할 수 있다.

상기 장치는: 디스플레이 영역 내에 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하도록 구성되는 비주얼 프로세서; 및 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 터치 제어기를 더 포함할 수 있고, 위치 결정기는 적어도 하나의 음원과 연관되는 관심 영역의 적어도 하나의 지점을 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로서 결정하도록 구성될 수 있다.

비주얼 프로세서는: 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하고; 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하도록 구성될 수 있고, 위치 결정기는 적어도 하나의 선택 입력에 기초하여 관심 위치의 하나의 지점을 결정하도록 구성될 수 있다.

비주얼 프로세서는: 적어도 하나의 캡처된 이미지 프레임을 수신하고; 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하고; 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성하기 위해 적어도 하나의 캡처된 이미지 프레임을 적어도 하나의 사용자 인터페이스 오버레이 요소와 결합하도록 구성될 수 있다.

적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하도록 구성되는 비주얼 프로세서는: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계 외부에 있는 것을 강조하는 오버레이; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이; 적어도 하나 더 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태를 디스플레이 하도록 구성되는 프로세싱 오버레이; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이 하도록 구성되는 포커스 증폭 오버레이; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화를 디스플레이 하도록 구성되는 포커스 감쇠 오버레이; 포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이 하도록 구성되는 포커스 인버터 오버레이; 및 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이 하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하도록 구성될 수 있다.

상기 장치는 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되는 제어 입력을 포함할 수 있고, 프로세서는 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하도록 구성될 수 있다.

제어 입력은: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 범위; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 증폭 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 감쇠 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 증폭 팩터; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠 중 적어도 하나를 제공하도록 구성될 수 있다.

적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함할 수 있고 공간 오디오 분석기는: 적어도 2개의 오디오 신호들로부터 위치 값을 포함하는 적어도 하나의 음원, 그리고 적어도 하나의 음원과 연관되는 관심 영역의 적어도 하나의 지점 내의 적어도 하나의 음원으로부터 적어도 하나의 음원 중 적어도 하나를 결정하도록 구성될 수 있다.

궤적 결정기는: 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징 및/또는 적어도 하나의 관심 지점 위치에서의 적어도 하나의 음원을 결정하도록 구성되는 특징 결정기; 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 각각 연관되는 적어도 하나의 특징을 추적하도록 구성되는 특징 추적기; 및 적어도 하나의 특징의 궤적을 결정하도록 구성되는 특징 궤적 결정기를 포함할 수 있다.

상기 장치는: 적어도 2개의 마이크로폰들; 장치 메모리들; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 적어도 하나의 오디오 신호를 수신하도록 구성되는 입력을 더 포함할 수 있다.

상기 장치는 적어도 하나의 위치가 결정되는 적어도 하나의 캡처된 이미지 프레임을 수신하도록 구성되는 이미지 입력을 더 포함할 수 있고, 적어도 하나의 캡처된 이미지 프레임은: 카메라; 메모리; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 수신될 수 있다.

제 5 양태에 따르면 장치가 제공되고, 상기 장치는: 적어도 하나의 송수신기; 적어도 하나의 디스플레이; 적어도 하나의 사운드 재생 트랜스듀서; 적어도 하나의 프로세서; 적어도 하나의 메모리; 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원을 결정하도록 구성되는 공간 오디오 분석기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 위치 결정기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기; 및 결정되는 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하도록 구성되는 프로세서를 포함한다.

매체 상에 저장되는 컴퓨터 프로그램 제품은 장치로 하여금 본원에 기술되는 바와 같은 방법을 수행하도록 할 수 있다.

전자 디바이스는 본원에서 기술되는 바와 같은 장치를 포함할 수 있다.

칩셋은 본원에서 기술되는 바와 같은 장치를 포함할 수 있다.

본 출원의 실시예들은 최신 기술과 연관되는 문제들을 처리하는 것을 목적으로 한다.

본 발명을 더 양호하게 이해하기 위해, 이제 예로서 첨부 도면들이 참조될 것이다:
도 1은 실시예들을 구현하기 위한 장치를 개략적으로 도시하는 도면이다.
도 2는 실시예들을 구현하는 데 적합한 오디오-비디오 프로세싱 장치를 더 상세하게 개략적으로 도시하는 도면이다.
도 3은 일부 실시예들에 따른 도 2에 도시된 장치의 동작에 대한 흐름도이다.
도 4는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 5는 포커싱(focusing)되는 오디오 비주얼(audio-visual) 소스를 식별하기 위한 사용자 입력이 있는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 6은 시각적으로 식별되는 포커싱되는 오디오 비주얼 소스를 나타내는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 7은 시각적으로 식별되는 포커싱되는 오디오 비주얼 소스가 추적되는 것을 나타내는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 8은 시각적으로 식별되는 포커싱되는 오디오-비주얼 소스를 나타내는 예시 오디오-비디오 캡처 시나리오 및 포커싱 및 언포커싱(unfocuing)되는 오디오 캡처를 나타내는 예시 오디오 파형들을 도시하는 도면이다.
도 9는 시각적으로 식별되는 포커싱되는 오디오-비주얼 소스를 나타내는 예시 오디오-비디오 캡처 시나리오 및 추적되는 포커싱, 추적되지 않은 포커싱 및 언포커싱되는 오디오 캡처를 나타내는 예시 오디오 파형들을 도시하는 도면이다.
도 10은 포커싱되어 있는 오디오 비주얼 소스를 시각적으로 식별하는 비디오 프로세싱을 나타내는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 11은 포커스 내의 오디오-비주얼 소스가 스크린을 벗어나는 곳을 시각적으로 식별하기 위한 비디오 프로세싱을 도시하는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 12는 일부 실시예들에 따른 장치의 개요 동작의 흐름도이다.

다음은 효율적인 오디오 프로세싱을 제공하는데 적합한 장치 및 가능한 메커니즘들을 상세하게 기술한다.

본원에서 기술되는 바와 같이, 오디오 이벤트들은 어레이 상태의 다수의 마이크로폰들을 사용함으로써 효율적으로 캡처될 수 있다.

오디오 이벤트들을 효율적으로 캡처하기 위하여 다수의 마이크로폰들이 사용될 수 있다. 그러나 흔히, 캡처되는 신호들이 레코딩될 때 청취자가 마치 있었던 것처럼 상기 이벤트를 경험할 수 있는 형태로 상기 신호를 변환하는 것은 어렵다. 특히 청취자가 원래의 이벤트와 동일한 방식으로 자신의 주위의 환경 또는 음원들의 방향들을 감지할 수 없을 때 레코딩 또는 캡처된 오디오에서 공간 표현 구성요소가 상실될 수 있다.

음원들이 상이한 방향들로 있는 공간 신호들을 표현하기 위하여 흔히 5.1 채널 셋업과 같은 다채널 시스템들이 사용될 수 있으므로 이 다채널 시스템들은 잠재적으로 다-마이크로폰 시스템에 의해 캡처되는 공간 이벤트들을 표현하는 데 사용될 수 있다. 다-마이크로폰 레코딩 또는 캡처를 적절한 다채널 오디오 신호 포맷으로 변환하는 효율적인 방법들이 논의되어 왔다.

더욱이 다채널 시스템들 외에, 공간 오디오는 입체 음향 오디오(binaural audio) 포맷 신호로서 표현될 수 있다(헤드폰들로 오디오를 재현하기 위해). 다-마이크로폰이 캡처한 오디오 신호들을 입체 오디오 신호 포맷으로 변환하는 방법들이 논의되어 왔다.

이 포맷들은 입체 신호들이 일반적으로 모바일에 사용하는 데 적합하고 다채널 셋업들이 예를 들어 가정 또는 사무실에서 사용될 수 있으므로 서로 보완하는 것이 이해된다.

일부 방법들에서, 다-마이크로폰 오디오 신호들은 음원들의 방향 정보를 포함하는 중간 공간 오디오 포맷 신호로 변환될 수 있다. 다-마이크로폰 오디오 신호들로부터 도출되는 음원들 또는 오디오 소스들의 방향 정보의 생성은 일부 환경들에서 공간 오디오 신호 프로세싱에 대해 사용될 수 있다.

예시 공간 오디오 신호 프로세싱 사용예는 사용자가 공간 필드(spatial field)의 특정한 부분에 집중하는 경우이다(예를 들어, 사용자의 관심을 끄는 음원 또는 오디오 소스가 있는 경우).

예를 들어, 이것은 다음과 같이 동작할 수 있는 "대화형 오디오 조작"으로 구현될 수 있다:

1. 오디오 필드를 캡처하고 이 캡처된 신호들로부터 방향 정보를 분석.

2. 비디오 레코딩 동안, 오디오 신호를 증폭/약화(dampen)시키기 위해 이 방향을 표시(예를 들어, 사용자가 디스플레이 상을 탭핑(tapping)함으로써).

3. 음원의 방향 및 표시된 방향에 기초하여, 공간 및 방향 정보를 수정함으로써(예를 들어, 원하는 방향에서 오는 음들을 증폭시키기 위해) 새 오디오 신호를 렌더링.

더욱이, "대화형 양방향 조작"은 일부 실시예에서 물체 추적에 기초하는 조작을 제공할 수 있어서, 물체가 프로세싱 동작을 어디로 이동시킬지는 물체를 뒤따르게 된다. 본원에서 실시예들에 기술되는 개념은 음 물체의 방향을 추적하고 이 추적 정보를 공간 오디오 프로세서에 제공하는 것이다. 그러므로 예를 들어 물체가 프로세싱되는 방향은 장치(마이크로폰들 및/또는 카메라를 구비하는)가 이동하거나 음 물체가 이동하므로 시간에 따라 변할 수 있다.

일부 실시예들에서 사용자는 특수 관심의 음원을 선택할 수 있고 장치는 음원을 추적하거나 따르고 오디오 캡처 동작을 추적되는 방향으로 집중할 수 있다.

일부 실시예들에서 추적 동작은 이미지 또는 비전 추적에 기초할 수 있다. 그러므로 예를 들어 사용자가 디바이스의 스크린 상에서 탭핑함으로써 증폭할 원하는 음 물체의 방향을 표시할 때, 장치는 표시되는 지점의 영역 주위로 특징점(feature point)들을 생성하였다. 그 후에 장치는 비전 기반 추적 알고리즘들을 사용하여 특징점들을 추적하여 오디오 프로세서에 제공되는 추적 방향을 생성한다.

더욱이 일부 실시예들에서 추적 동작은 오디오 핑거프린트(audio fingerprint)를 추적하는 것에 기초할 수 있다. 그러므로 예를 들어, 사용자가 원하는 음 물체의 방향을 표시할 때, 장치는 상기 방향으로부터의 오디오 신호 또는 음들을 분석하고 오디오 핑거프린트를 생성한다. 모든 후속하는 오디오 프레임들에 대해, 상기 알고리즘은 신호를 핑거프린트와 정합시킴으로써 캡처된 오디오를 분석하고 물체의 방향을 추정할 수 있다. 그와 같은 방식에서 음원은 뷰 파인더 상에 또는 카메라의 범위 내에서 보일 필요가 없다.

본원에서 기술되는 바와 같은 개념은 일부 실시예들에서 음이 강화되는 물체를 표시하기 위해 장치의 디스플레이 비주얼 큐들을 생성 또는 제공하는 것을 더 특징으로 한다. 예를 들어, 일부 실시예들에서 방향에 대응하는 픽셀들의 컬러들이 강화될 수 있다.

이후에 재현하기 위한 레코딩 애플리케이션들에서 구현될 뿐만 아니라 일부 실시예들에서는 본원에서 기술되는 실시예들이 오디오 소스를 동적으로 변경하기 위해 실시간으로 구현되거나 이전에 레코딩된 오디오 및 비디오 컨텐츠에 기초하여 구현될 수 있음이 이해될 것이다. 예를 들어 일부 실시예들에서 적절한 후-레코딩(post recorded) 실시예들의 개요는 다음과 같이 설명된다:

- 레코딩 동안, 메타데이터 파일은 오디오 소스들의 방향에 대한 정보를 표시하기 위해 주 오디오 트랙(들)을 따라 생성된다. 오디오 트랙(들)은 저장 또는 레코딩된다(예를 들어, 스테레오, 다-채널 또는 모노 오디오 신호).

- 재현 동안 방향 또는 음원이 선택된다(예를 들어, 원하는 음원을 표시하는 것을 강조하는 사용자 인터페이스에 의한).

- 추적 메커니즘들을 사용하고 레코딩으로부터 메타데이터를 사용하여, 오디오가 렌더링되고 여기서 계산된 소스로부터의 방향이 강화된다.

이 점에 있어서 오디오 소스 방향들/모션을 결정하고 사용자 인터페이스 용도를 위해 오디오 소스 모션이 공지되거나 결정된 제스처들에 정합하는지를 결정하기 위하여, 오디오 신호들을 캡처 또는 모니터링하는 데 사용될 수 있는 예시 장치 또는 전자 디바이스(10)의 개략 블록도를 도시하는 도 1이 우선 참조된다.

장치(10)는 예를 들어, 무선 통신 시스템의 모바일 단말기 또는 사용자 장비일 수 있다. 일부 실시예들에서 장치는 MP3 플레이어, 미디어 레코더/재현기(또한 MP4 플레이어로서 공지된다)와 같은 오디오 플레이어 또는 오디오 레코더 또는 사용자 인터페이스 입력들을 요구하는 임의의 적절한 휴대용 디바이스일 수 있다.

일부 실시예들에서 장치는 개인용 컴퓨터 시스템, 전자 문서 판독기, 태블릿 컴퓨터 또는 랩탑의 일부일 수 있다.

장치(10)는 일부 실시예들에서 오디오 서브시스템을 포함할 수 있다. 오디오 서브시스템은 예를 들어, 일부 실시예들에서 오디오 신호 캡처를 위한 마이크로폰 또는 마이크로폰들의 어레이(11)를 포함할 수 있다. 일부 실시예들에서, 마이크로폰(또는 마이크로폰들의 어레이 중 적어도 하나)은 고체 마이크로폰일 수 있는, 즉 음향 신호(acoustic signal)들을 캡처하고 적절한 디지털 포맷 오디오 신호를 출력할 수 있다. 일부 다른 실시예들에서, 마이크로폰 또는 마이크로폰들의 어레이(11)는 임의의 적절한 마이크로폰 또는 오디오 캡처 수단, 예를 들어, 콘덴서 마이크로폰, 커패시터 마이크로폰, 정전 마이크로폰, 일렉트렉트 콘덴서(electret condenser) 마이크로폰, 동적 마이크로폰, 리본(ribbon) 마이크로폰, 카본 마이크로폰, 압전 마이크로폰 또는 마이크로 전기기계 시스템(microelectrical-mechanical system; MEMS) 마이크로폰을 포함할 수 있다. 마이크로폰(11) 또는 마이크로폰들의 어레이는 일부 실시예들에서 생성되는 오디오 신호를 아날로그-대-디지털 변환기(analogue-to-digital converter; ADC)(14)로 출력할 수 있다.

일부 실시예들에서 장치 및 오디오 서브시스템은 마이크로폰들로부터 아날로그 캡처되는 오디오 신호를 수신하고 오디오 캡처된 신호를 임의의 적절한 디지털 형태로 출력하도록 구성되는 아날로그-대-디지털 변환기(ADC)(14)를 포함한다. 아날로그-대-디지털 변환기(14)는 임의의 적절한 아날로그-대-디지털 변환 또는 프로세싱 수단일 수 있다.

일부 실시예들에서 장치(10) 및 오디오 서브시스템은 디지털 오디오 신호들을 프로세서(21)로부터 적절한 아날로그 포맷으로 변환하는 디지털-대-아날로그 변환기(32)를 더 포함한다. 디지털-대-아날로그 변환기(DAC) 또는 신호 프로세싱 수단(32)은 일부 실시예들에서 임의의 적절한 DAC 기술일 수 있다.

더욱이 오디오 서브시스템은 일부 실시예들에서 스피커(33)를 포함할 수 있다. 스피커(33)는 일부 실시예들에서 디지털-대-아날로그 변환기(32)로부터 출력을 수신하고 아날로그 오디오 신호를 사용자에게 제공할 수 있다. 일부 실시예들에서 스피커(33)는 헤드셋, 예를 들어 헤드폰들의 세트 또는 코드레스 헤드폰(cordless headphone)들을 대표할 수 있다.

장치(10)가 오디오 캡처 및 오디오 프리젠테이션 구성요소들 모두를 가지는 것으로 도시될지라도, 일부 실시예들에서 장치(10)는 단지 오디오 캡처를 포함할 수 있어서 상기 장치의 일부 실시예들에서는 마이크로폰(오디오 캡처를 위한) 및 아날로그-대-디지털 변환기가 존재하게 됨이 이해될 것이다.

일부 실시예들에서 장치 오디오-비디오 서브시스템은 프로세서(21)에 이미지 데이터를 공급하도록 구성되는 카메라(51) 또는 이미지 캡처 수단을 포함한다. 일부 실시예들에서 카메라는 비디오 스트림을 제공하기 위해 시간의 경과에 따라 다수의 이미지들 또는 프레임들을 공급하도록 구성될 수 있다.

일부 실시예들에서 장치 오디오-비디오 서브시스템은 디스플레이(52)를 포함한다. 디스플레이 또는 이미지 디스플레이 수단은 장치의 사용자가 볼 수 있는 비디오 프레임들의 비주얼 이미지들을 출력하도록 구성될 수 있다. 일부 실시예들에서 디스플레이는 입력 데이터를 장치에 공급하는 데 적합한 터치 스크린 디스플레이일 수 있다. 디스플레이는 임의의 적절한 디스플레이 기술일 수 있고, 예를 들어 디스플레이는 LCD, LED, OLED 또는 '프라즈마' 디스플레이 구현예들의 셀들을 포함하는 평면 패널에 의해 구현될 수 있다.

장치(10)가 오디오/비디오 캡처 및 오디오/비디오 프리젠테이션 구성요소들 모두를 가지는 것으로 도시될지라도, 일부 실시예들에서 장치(10)는 단지 오디오 서브시스템의 오디오 캡처 및 오디오 프리젠테이션 부분만을 포함할 수 있어서, 상기 장치의 일부 실시예들에서는 마이크로폰(오디오 캡처를 위한) 또는 스피커(오디오 프리젠테이션을 위한)가 존재하게 되는 것이 이해될 것이다. 유사하게, 일부 실시예들에서 장치(10)는 비디오 서브시스템의 비디오 캡처 또는 비디오 프리젠테이션 부분들 중 하나 또는 다른 하나를 포함할 수 있어서 일부 실시예들에서는 카메라(51)(비디오 캡처를 위한) 또는 디스플레이(52)(비디오 프리젠테이션을 위한)가 존재하게 된다.

일부 실시예들에서 장치(10)는 프로세서(21)를 포함한다. 프로세서(21)는 오디오 서브시스템에 결합되고 특히 일부 예들에서 마이크로폰(11)으로부터의 오디오 신호들을 나타내는 디지털 신호들을 수신하는 아날로그-대-디지털 변환기(14) 및 프로세싱된 디지털 오디오 신호들을 출력하도록 구성되는 디지털-대-아날로그 변환기(DAC)(12), 비디오 신호들을 나타내는 디지털 신호들을 수신하기 위한 카메라(51) 및 프로세서(21)로부터 프로세싱된 디지털 비디오 신호들을 출력하도록 구성되는 디스플레이(52)에 결합된다.

프로세서(21)는 다양한 프로그램 코드들을 실행하도록 구성될 수 있다. 구현되는 프로그램 코드들은 예를 들어, 소스 결정, 오디오 소스 방향 추정, 오디오 소스 프로세싱 및 사용자 인터페이스 루틴들을 포함할 수 있다.

일부 실시예들에서 장치는 메모리(22)를 더 포함한다. 일부 실시예들에서 프로세서(21)는 메모리(22)에 결합된다. 메모리(22)는 임의의 적절한 저장 수단일 수 있다. 일부 실시예들에서 메모리(22)는 본원에서 기술되는 그러한 코드 루틴들과 같이, 프로세서(21) 상에서 구현 가능한 프로그램 코드들을 저장하는 프로그램 코드 섹션(23)을 포함한다. 더욱이 일부 실시예들에서 메모리(22)는 데이터, 예를 들어, 본원에서 기술되는 실시예들과 관련하여 프로세싱되는 오디오 데이터를 저장하는 저장 데이터 섹션(24)을 더 포함할 수 있다. 프로그램 코드 섹션(23) 내에 저장되는 구현 프로그램 코드 및 저장 데이터 섹션(24) 내에 저장되는 데이터는 메모리 프로세서 결합을 통해 필요할 때마다 프로세서(21)에 의해 검색될 수 있다.

일부 추가 실시예들에서 장치(10)는 사용자 인터페이스(15)를 포함할 수 있다. 사용자 인터페이스(15)는 일부 실시예들에서 프로세서(21)에 결합될 수 있다. 일부 실시예들에서 프로세서는 사용자 인터페이스의 동작을 제어하고 사용자 인터페이스(15)로부터 입력들을 수신할 수 있다. 일부 실시예들에서 사용자 인터페이스(15)는 사용자가 예를 들어, 키패드를 통해 전자 디바이스 또는 장치(10)에 명령들을 입력할 수 있게 하고/하거나 예를 들어 사용자 인터페이스(15)의 일부인 디스플레이를 통해 장치(10)로부터 정보를 획득할 수 있게 한다. 사용자 인터페이스(15)는 일부 실시예들에서 정보가 장치(10)에 입력될 수 있도록 할 수 있거나 추가적으로 정보를 장치(10)의 사용자에게 디스플레이할 수 있는 터치 스크린 또는 터치 인터페이스를 포함한다.

일부 실시예들에서, 장치는 송수신기(13)를 더 포함하고, 송수신기는 그와 같은 실시예들에서 프로세서에 결합되고 예를 들어, 무선 통신 네트워크를 통해 다른 장치 또는 전자 디바이스들과 통신하는 것이 가능하도록 구성될 수 있다. 송수신기(13) 또는 임의의 적절한 송수신기 또는 송신기 및/또는 수신기 수단은 일부 실시예들에서 유선 또는 유선 결합을 통해 다른 전자 디바이스들 또는 장치와 통신하도록 구성될 수 있다.

송수신기(13)는 임의의 적절한 공지된 통신 프로토톨에 의해 추가 디바이스들과 통신할 수 있고, 예를 들어, 일부 실시예들에서 송수신기(13) 또는 송수신기 수단은 적절한 범용 모바일 전기통신 시스템(universal mobile telecommunications system; UMTS) 프로토콜, 예를 들어 IEEE 802.X와 같은 무선 근거리 네트워크(wireless local area network; WLAN) 프로토콜, 블루투스와 같은 적절한 단거리 무선 주파수 통신 프로토콜 또는 적외선 데이터 통신 경로(infrared data communication pathway; IRDA)를 사용할 수 있다.

일부 실시예들에서 송수신기는 본원에서 논의되는 바와 같은 일부 실시예들에 따른 프로세싱을 위하여 오디오 신호들을 송신 및/또는 수신하도록 구성된다.

일부 실시예들에서 장치는 장치(10)의 위치를 추정하도록 구성되는 위치 센서(16)를 포함한다. 위치 센서(16)는 일부 실시예들에서 전지구적 위치추적 시스템(Global Positioning System; GPS), 글로나스(GLONASS) 또는 갈릴레오 수신기와 같은 위성 위치추적 센서일 수 있다.

일부 실시예들에서 위치추적 센서는 셀룰러 ID 시스템 또는 보조 GPS 시스템일 수 있다.

일부 실시예들에서 장치(10)는 방향 또는 방위 센서를 더 포함한다. 방위/방향 센서는 일부 실시예들에서 전자 나침반, 가속도계, 자이로스코프일 수 있거나 또는 위치 추정을 사용하는 장치의 움직임에 의해 결정될 수 있다.

장치(10)의 구조는 보충되거나 많은 방식들로 가변될 수 있음이 다시 이해되어야 한다.

도 2와 관련하여 일부 실시예들에 따른 오디오 프로세서 장치가 더 상세하게 도시된다. 더욱이 도 3과 관련하여 그와 같은 장치의 동작이 기술된다.

본원에서 도시되는 바와 같은 장치는 적어도 2개의 마이크로폰들을 포함하는 마이크로폰 어레이 및 추가 프로세싱을 위해 마이크로폰 어레이로부터의 신호들을 적절한 디지털 포맷으로 변경하는 데 적절한 연관되는 아날로그-대-디지털 변환기를 포함한다. 마이크로폰 어레이는 예를 들어, 장치 상에서 장치의 단부들에 거리 d로 분리되어 위치될 수 있다. 그러므로 오디오 신호들은 마이크로폰 어레이에 의해 캡처되고 공간 오디오 분석기(101)로 통과되는 것으로 고려될 수 있다.

예를 들어, 예시 마이크로폰 어레이는 제 1 마이크로폰, 제 2 마이크로폰 및 제 3 마이크로폰일 수 있다. 이 예에서, 마이크로폰들은 등변 삼각형의 정점들에 배열된다. 그러나 마이크로폰들은 임의의 적절한 형상 또는 배열로 배열될 수 있다. 이 예에서, 각각의 마이크로폰은 서로 치수 또는 거리 d 만큼 이격되어 있고 마이크로폰들의 각각의 쌍은 어레이를 형성하는 마이크로폰의 다른 두 쌍들로부터 120°의 각으로 지향되어 있는 것으로 고려될 수 있다. 각각의 마이크로폰 사이의 분리는 신호원(131)으로부터 수신되는 오디오 신호가 제 1 마이크로폰에 도달할 수 있는, 예를 들어, 마이크로폰 2가 마이크로폰 3과 같은 다른 마이크로폰들 중 하나 보다 더 앞에 있는 그러한 분리이다. 이것은 예를 들어, 제 1 시간 인스턴스(instance)에서 발생하는 시간 도메인 오디오 신호(f₁(t)) 및 제 3 마이크로폰에서 제 2 마이크로폰 신호에 관하여 b의 시간 지연값만큼 지연된 시간으로 수신되는 동일한 오디오 신호(f₂(t))에 의해 확인될 수 있다.

다음의 예들에서 단일 마이크로폰 어레이 쌍에 관한 오디오 신호들의 프로세싱이 기술된다. 그러나, 임의의 적절한 마이크로폰 어레이 구성은 마이크로폰들의 쌍으로부터 확대될 수 있고 여기서 이 쌍들은 단일 차원, 예를 들어, 방위각 또는 고도, 방위각 및 고도와 같은 2차원들 및 더욱이 방위각, 고도 및 범위에 의해 정의되는 바와 같은 3차원들에 관한 오디오 소스들을 모니터링하기 위하여 서로 오프셋(offset)되는 라인들 또는 평면들을 정의하는 것이 이해될 것이다.

마이크로폰들로부터 음향 신호들을 캡처하거나 오디오 신호들을 생성하는 동작은 도 3에서 단계 201로 도시된다.

일부 실시예들에서 오디오 신호들의 캡처는 이미지들 또는 비디오 프레임들의 캡처와 동일한 시간에 또는 동시에 수행되는 것이 이해될 것이다.

예를 들어, 일부 실시예들에서 장치는 장치를 둘러싸는 환경의 비디오의 형태로 캡처 이미지들 또는 일련의 이미지들을 생성 또는 캡처하도록 구성되는 카메라 또는 카메라들(51)을 포함한다. 카메라(51)는 일부 실시예들에서 이 이미지들을 추적기(106)로 출력할 수 있다. 더욱이 일부 실시예들에서 카메라는 비주얼 이미지들을 비주얼 프로세서(107)로 통과시키도록 구성될 수 있다.

카메라로부터 이미지들을 캡처하는 동작은 도 3에서 단계 202로 도시된다.

더욱이 일부 실시예들에서 오디오 신호들 및/또는 비디오 이미지들의 생성은 오디오 신호들 및/또는 비디오 이미지들을 수신(또는 메모리로부터 오디오/비디오 신호들을 검색)하는 동작을 표현하는 것임이 이해될 것이다. 즉 일부 실시예들에서 오디오 신호들 및/또는 비디오 이미지들의 '생성'은 일부 실시예들에서 사용자가 경험을 재체험할 수 있도록 이전에 레코딩된 공간 정보를 가지는 오디오 신호들 및/또는 비디오 이미지들을 검색하는 것일 수 있다. 또한 일부 실시예들에서 오디오 신호들 및/또는 비디오 이미지들의 생성 동작은 예를 들어, 대용량으로 레코딩된 컨텐츠를 포함하는 오디오-비주얼 서버로부터 무선 통신 링크 또는 유선 통신 링크를 통해 오디오/비디오 신호들을 수신하는 것을 포함할 수 있다. 다음의 예들에서 생성되는 오디오는 오디오 필드의 시간 도메인 표현들이며, 이 표현들은 이후에 오디오 신호들의 공간 표현들을 생성하기 위해 공간 오디오 분석기에 의해 프로세싱된다. 그러나, 일부 실시예들에서 생성되는 오디오 신호들은 공간 오디오 표현들이고 따라서 오디오 프로세서(103)로 직접 통과될 수 있음이 이해될 것이다. 예를 들어, 일부 실시예들에서 장치는 오디오 신호들을 오디오 프로세서(103)에 의해 프로세싱되는 공간 도메인 표현들의 형태로 수신 또는 검색하도록 구성된다.

일부 실시예들에서 장치는 공간 오디오 분석기(101)를 포함한다. 공간 오디오 분석기(101)는 마이크로폰들로부터 생성되거나 통신 링크를 통해 또는 메모리로부터 수신되는 오디오 신호들에 기초하여 방향 분석을 수행하여 음, 오디오 또는 음원들의 방향 또는 위치의 추정을 결정하고, 더욱이 일부 실시예들에서 음, 음향 또는 오디오 소스와 연관되고 주변 음들의 오디오 신호를 생성하도록 구성된다. 공간 오디오 분석기(101)는 그 후에 결정된 방향성 오디오 소스 및 주변 음 파라미터들을 프로세서(103) 또는 적절한 공간 오디오 프로세서로 출력하도록 구성될 수 있다. 일부 실시예들에서 공간 오디오 분석기(101)의 출력은 추적기(106)로 출력되도록 구성될 수 있다.

적어도 하나의 오디오 신호로부터의 오디오 또는 음원 공간 방향 또는 위치 추정들과 같은, 오디오 소스 및 주변 파라미터들을 결정하는 동작은 도 3에서 단계 203으로 도시된다.

일부 실시예들에서, 공간 오디오 분석기는: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일을 결정하도록 구성되는 메타파일 결정기 중 적어도 하나를 포함할 수 있다. 즉, 일부 실시예들에서 적어도 하나의 오디오 신호는 프로세싱되지만 적어도 하나의 오디오 신호와 연관되어, 적어도 하나의 오디오 신호와 연관되는 음향, 음 또는 오디오 소스들의 정보를 포함하는 메타파일 또는 메타데이터이다.

예시 공간오디오 분석기는 본원에서 더 상세하게 기술된다. 도달하는 음의 방향을 추정하는 임의의 적절한 방법은 본원에서 기술되는 장치 이외에서도 수행될 수 있음이 이해될 것이다. 예를 들어, 방향 분석기는 일부 실시예들에서 본원에서 논의되는 바와 같은 주파수 도메인에서 보다는 시간 도메인에서 수행될 수 있다.

장치는 본원에서 기술되는 바와 같이, 추가 프로세싱을 위해 적어도 2개의 마이크로폰들을 포함하는 마이크로폰 어레이 및 적어도 2개의 마이크로폰들의 마이크로폰 어레이로부터의 신호들을 적절한 디지털 포맷으로 변경하는 데 적합한 연관되는 아날로그-대-디지털 변환기를 포함할 수 있다. 마이크로폰들은 예를 들어, 장치 상에서 장치의 단부들에 위치되고 거리 d만큼 분리될 수 있다. 그러므로 오디오 신호들은 마이크로폰에 의해 캡처되고 공간 오디오 분석기로 통과되는 것으로 고려될 수 있다.

일부 실시예들에서 공간 오디오 분석기는 프레이머(framer)를 포함한다. 프레이머는 마이크로폰들로부터 오디오 신호들을 수신하고 디지털 포맷 신호들을 오디오 샘플 데이터의 프레임들 또는 그룹들로 분할하도록 구성될 수 있다. 일부 실시예들에서 프레이머는 더욱이 임의의 적절한 윈도우잉(windowing) 기능을 사용하여 데이터를 윈도우잉하도록 구성될 수 있다. 프레이머는 각각의 마이크로폰 입력별로 오디오 신호 데이터의 프레임들을 생성하도록 구성될 수 있고 여기서 각각의 프레임의 길이 및 각 프레임의 중첩의 정보는 임의의 적절한 값일 수 있다. 예를 들어 일부 실시예들에서 각각의 오디오 프레임은 20밀리초 길이이고 프레임들 사이에 10밀리초의 중첩을 가진다. 프레이머는 프레임 오디오 데이터를 시간-대-주파수 도메인 변환기로 출력하도록 구성될 수 있다.

일부 실시예들에서 공간 오디오 분석기는 시간-대-주파수 도메인 변환기를 포함하도록 구성된다. 시간-대-주파수 도메인 변환기는 프레임 오디오 데이터에 대한 임의의 적절한 시간-대-주파수 도메인 변환을 수행하도록 구성될 수 있다. 일부 실시예들에서, 시간-대-주파수 도메인 변환기는 이산 푸리에 변환기(Discrete Fourier Transformer; DTF)일 수 있다. 그러나 변환기는 이산 코사인 변환기(Discrete Cosine Transformer; DCT), 변형된 이산 코사인 변환기(Modified Discrete Cosine Transformer; MDCT) 또는 직교 밀러 필터(quadrature mirror filter; QMF)와 같은 임의의 적절한 변환기일 수 있다. 시간-대-주파수 도메인 변환기는 각 마이크로폰 입력에 대한 주파수 도에인 신호를 서브-대역 필터로 출력하도록 구성될 수 있다.

일부 실시예들에서 공간 오디오 분석기는 서브-대역 필터를 포함한다. 서브-대역 필터는 각 마이크로폰 별로 시간-대-주파수 도메인 변환기로부터 주파수 도메인 신호들을 수신하고 각각의 마이크로폰 오디오 신호 주파수 도메인 신호를 다수의 서브-대역들로 분할하도록 구성될 수 있다. 다음의 예들에서 서브-대역 필터는 본원에서 값(

)으로 인덱스화(indexing)되는 B개의 서브-대역들을 생성하도록 구성된다.

서브-대역 분할은 임의의 적절한 서브-대역 분할일 수 있다. 예를 들어, 일부 실시예들에서 서브-대역 필터는 심리-음향(psycho-acoustic) 필터링 대역들을 사용하여 동작하도록 구성될 수 있다. 서브-대역 필터는 그 후에 각각의 도메인 범위 서브-대역을 방향 분석기로 출력하도록 구성될 수 있다.

일부 실시예들에서 공간 오디오 분석기는 방향 분석기를 포함할 수 있다. 방향 분석기는 일부 실시예들에서 서브-대역의 각 마이크로폰 별로 서브-대역 및 연관되는 주파수 도메인 신호들을 선택하도록 구성될 수 있다.

방향 분석기는 그 후에 서브-대역 내의 신호들에 대한 방향 분석을 수행하도록 구성될 수 있다. 방향 분석기는 일부 실시예들에서 마이크로폰 쌍 서브-대역 주파수 도메인 신호들 사이의 교차 상관을 수행하도록 구성될 수 있다.

방향 분석기에서 주파수 도메인 서브-대역 신호들의 교차 상관 적(product)을 최대화하는 교차 상관의 지연 값이 발견된다. 이 지연 시간 값(b)은 일부 실시예들에서 각을 추정하거나 서브-대역에 대해 우세한 오디오 신호원으로부터의 각을 표현하는 데 사용될 수 있다. 이 각은 α로서 정의될 수 있다. 하나의 쌍 또는 두 마이크로폰들이 제 1 각을 제공하는 반면에, 둘 이상의 마이크로폰들을 사용함으로써 바람직하게는 일부 실시예들에서 둘 이상의 축들 상에서 둘 이상의 마이크로폰들을 사용함으로써 개선된 방향 추적이 발생할 수 있음이 이해될 것이다.

특히 일부 실시예들에서 이 방향 분석은 오디오 서브-대역 데이터를 수신하는 것으로 정의될 수 있다. 일부 실시예들에 따른 방향 분석기의 동작이 본원에서 기술된다. 방향 분석기는 서브-대역 데이터를 수신한다;

여기서 n_b는 b번째 서브-대역의 제 1 인덱스(index)이다. 일부 실시예들에서 모든 서브-대역에 대해 방향 분석은 본원에서 다음과 같이 기술된다. 우선 방향은 2 채널들로 추정된다(본원에서 기술되는 마이크로폰 구성예에서 이 구현은 채널들(2 및 3), 즉 마이크로폰들(2 및 3)의 사용을 나타낸다). 방향 분석기는 서브-대역 b에 대한 두 채널들 사이의 상관을 최대화하는 지연 τ_b를 찾는다. 예를 들어,

의 DFT 도메인 표현은

을 사용하여 τ_b 시간 도메인 샘플들로 시프트될 수 있다.

일부 실시예들에서 최적의 지연은

으로부터 획득될 수 있고, 여기서 Re는 결과의 실수부를 나타내고 *는 켤레 복소수를 나타낸다.

및

은 n_b ₊₁ - n_b 샘플들의 길이를 가지는 벡터들로 간주된다. 방향 분석기는 일부 실시예들에서 지연의 탐색을 위해 하나의 시간 도메인 샘플의 분해를 구현할 수 있다.

일부 실시예들에서 지연 정보를 가지는 방향 분석기는 합 신호를 생성한다. 합 신호는 수학적으로

로 정의될 수 있다. 즉, 방향 분석기는 이벤트가 먼저 발생하는 채널의 컨텐츠는 변경 없이 추가되지만 반면에 이벤트가 나중에 발생하는 채널은 제 1 채널과의 최상의 정합을 획득하기 위해 시프트되는 합 신호를 생성하도록 구성된다.

지연 또는 시프트 τ_b는 음원이 마이크로폰 3보다 마이크로폰 2에 얼마나 많이 더 가까이 있는지를(τ_b가 양의 음원일 때 마이크로폰 3보다 마이크로폰 2에 더 가까이 있다) 나타내는 것이 이해될 것이다. 방향 분석기는 실제 거리의 차를

로 결정하도록 구성될 수 있고, 여기서 Fs는 신호의 샘플링 레이트이고 v는 공기 중의(또는 수중(underwater) 레코딩들을 행하고 있는 경우 물 속에서의) 신호의 속도이다.

도달하는 음의 각은 방향 분석기에 의해

로 결정되고, 여기서 d는 마이크로폰들의 쌍 사이의 거리이고 r은 음원들 및 가장 가까운 마이크로폰 사이의 추정 거리이다. 일부 실시예들에서 방향 분석기는 r의 값으로 또는 고정 값으로 세팅되도록 구성될 수 있다. 예를 들어, r = 2미터가 안정된 결과들을 제공하는 것으로 밝혀졌다.

본원에서 기술되는 결정은 정확한 방향이 단지 2개의 마이크로폰들로는 결정될 수 없으므로 도달하는 음의 방향에 대한 두 대안들을 제공하는 것임이 이해될 것이다.

일부 실시예들에서 방향 분석기는 상기 결정에서의 부호들 중 어떤 부호가 정확한 것인지를 정의하기 위해 제 3 채널 또는 제 3 마이크로폰으로부터의 오디오 신호들을 사용하도록 구성될 수 있다. 제 3 채널 또는 마이크로폰(마이크로폰 1) 및 두 추정되는 음원들 사이의 거리들은:

이고, 여기서 h는 등변 삼각형의 높이인, 즉

이다.

상기 결정에서의 거리들은;

의 지연들(샘플들에서의)과 동일한 것으로 간주될 수 있다.

이 두 지연들로부터 방향 분석기는 일부 실시예들에서 합 신호와 더 양호하게 상광하는 것을 제공하는 지연을 선택하도록 구성된다. 상관들은 예를 들어,

로 표현될 수 있다.

방향 분석기는 그 후에 일부 실시예들에서 서브-대역 b에 대해 우세한 음원의 방향을:

로서 결정할 수 있다.

일부 실시예들에서 공간 오디오 분석기는 중간/측 신호 생성기를 더 포함한다. 방향 분석에 뒤이어, 중간/측 신호 생성기는 각 서브-대역 별로 중간 및 측 신호들을 결정하도록 구성될 수 있다. 중간 신호에서의 주 컨텐츠는 방향 분석으로부터 발견되는 우세 음원이다. 유사하게 측 신호는 생성되는 오디오 신호들로부터의 다른 부분들 또는 주변 오디오를 포함한다. 일부 실시예들에서 중간/측 신호 생성기는 다음의 식들에 따라 서브-대역에 대한 중간(M) 및 측(S) 신호들을 결정할 수 있다:

중간 신호(M)는 이전에 이미 결정되었던 동일한 신호이고 일부 실시예들에서 중간 신호는 방향 분석의 일부로서 획득될 수 있음이 유념된다. 중간 및 측 신호들은 이벤트가 우선 발생하는 신호가 지연 정렬에 있어서 시프트되지 않도록 지각적으로 안전한 방식으로 구성될 수 있다. 중간 및 측 신호들은 일부 실시예들에서 마이크로폰들이 서로 상대적으로 가까운 경우 그러한 적절한 방식으로 결정될 수 있다. 마이크로폰들 사이의 거리가 음원까지의 길이와 비교하여 현저한 경우, 중간/측 신호 생성기는 채널이 주 채널과의 최상의 정합을 제공하도록 항상 변경되는 변경 중간 및 측 신호 결정을 수행하도록 구성될 수 있다.

동작은 서브-대역들 모두가 프로세싱되었는지를 결정할 수 있다.

서브-대역들 모두가 프로세싱되었다면, 종료 동작이 수행된다.

서브-대역들 모두가 프로세싱되지 않았다면, 동작은 다음 서브-대역을 선택하는 동작으로 넘어갈 수 있다.

일부 실시예들에서 장치는 터치/사용자 인터페이스 제어기(104)를 포함한다. 터치/사용자 인터페이스 제어기(104)는 오디오 프로세서가 포커싱할 수 있는 영역, 섹터 또는 에어리어(area)를 선택하기 위해 적어도 하나의 사용자 입력을 수신하도록 구성될 수 있다. 일부 실시예들에서 선택되는 영역, 섹터 또는 에어리어는 오디오 소스가 발생하는 장소이다. 예를 들어, 터치/사용자 인터페이스 제어기(104)가 일부 실시예들에서 방향 또는 위치를 선택, 예를 들어, 키패드 상에서 방향값을 입력하거나 조이스틱/포인터를 사용하여 방향을 선택할 수 있다. 일부 실시예들에서 터치/사용자 인터페이스 제어기(104)는 카메라에 의해 캡처되는 이미지를 디스플레이하는 터치 스크린 디스플레이(예를 들어, 디스플레이(52))로부터 사용자 입력을 수신하도록 구성된다. 터치/사용자 인터페이스 제어기(104)는 일부 실시예들에서 디스플레이 및 공지되어 있는 장치의 방위에 기초하여 위치 또는 방향 값을 생성하도록 구성될 수 있다. 일부 실시예들에서 터치/사용자 인터페이스 제어기(104)는 위치 또는 방향(또는 더 일반적으로 선택)을 추적기(106)로 출력하도록 구성될 수 있다. 다음의 예들에서 선택은 위치 또는 방위이지만, 임의의 적절한 특징 선택이 사용될 수 있다.

다음의 예들이 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 선택하기 위해 터치 사용자 인터페이스 제어기로부터의 사용자 입력을 도시할지라도, 일부 실시예들에서 다른 수단에 의해 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 결정될 수 있음이 인정될 것이다. 예를 들어, 일부 실시예들에서, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 결정은 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 발생될 수 있다. 즉, 오디오 신호에 대한 프로세싱은 관심 위치의 지점- 예를 들어 가장 큰 소리의 소스의 표시를 생성하고, 이 소스는 정의되는 주파수 스펙트럼 또는 다른 출력과 정합한다. 더욱이 일부 실시예들에서 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 결정은 이미지 프레임으로부터의 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 결정되는 것이 이해될 것이다. 예를 들어, 이미지는 장치가 추적해야 하는 형상 또는 컬러 - 예를 들어, 얼굴을 검출할 수 있다.

그러므로 예를 들어, 일부 실시예들에서 디스플레이는 디스플레이의 영역 내에서, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 비주얼 프로세서에 의해 생성되는 이미지를 디스플레이할 수 있고; 더욱이 비주얼 프로세서는 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정할 수 있고, 여기서 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것은 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로 결정한다.

일부 실시예들에서 장치는 추적기(106)를 포함한다. 추적기(106) 또는 궤적 결정기 또는 궤적을 결정하는 수단은 일부 실시예들에서 터치/사용자 인터페이스 제어기(104)가 표시하는 위치 또는 선택(또는 일부 실시예들에서 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치), 이미지 데이터를 포함하는 카메라(51)로부터의 입력 및 오디오 신호 데이터를 포함하는 공간 오디오 분석기(101)로부터의 입력을 수신하도록 구성될 수 있다. 추적기(106)는 일부 실시예들에서 선택을 추적할 초기 선택 입력 및 오디오 및/또는 비디오 입력으로서의 터치/사용자 인터페이스 제어기 입력에 기초하여 선택을 추적하도록 구성될 수 있다. 추적되는 방향 표시 또는 추적되는 위치 및 범위와 같이 이 추적되는 선택은 그 후에 공간 오디오 프로세서(103) 및/또는 비주얼 프로세서(107)로 통과될 수 있다.

사용자 인터페이스 입력을 결정하고 선택된 특징을 추적하는 동작은 도 3에서 단계 205에 의해 도시된다.

일부 실시예들에서 추적기(106)는 특징 선택기를 포함한다. 특징 선택기는 터치/사용자 인터페이스 제어기 사용자 인터페이스 입력 및 공간 오디오 분석기 출력 및 카메라 출력 중 적어도 하나를 수신하도록 구성된다. 특징 선택기는 사용자 인터페이스 입력에 의해 선택되는 선택(영역 위치 및 범위와 같은) 내에 세팅되는 적절한 특징을 결정하기 위해 분석된 공간 오디오 신호들 및 카메라 비디오 신호들 중 적어도 하나를 프로세싱하도록 구성될 수 있다. 예를 들어, 특징 선택기는 프로세싱될 원하는 음 물체의 사용자 인터페이스 표시를 수신하도록 구성될 수 있다. 이 사용자 인터페이스 표시는 일부 실시예들에서 포커싱되는 방향을 표시하는 장치 디스플레이의 스크린 상에서의 탭(tap)일 수 있다.

비주얼 정보에 기초하여 특징을 정의하는 실시예들에서 특징 선택기는 사용자가 표시한 위치 주위에 에어리어의 적어도 하나의 비주얼 기술자(descriptor)를 생성하도록 구성될 수 있다. 비주얼 기술자는 임의의 적절한 특징 분석에 따라 생성되고 적어도 하나의 비주얼 구성요소 또는 파라미터를 포함할 수 있다. 예를 들어, 일부 실시예들에서 비주얼 기술자는 사용자 표시자 주위의 에어리어의 픽셀 값들(루마(luma) 및 크로마(chroma)와 같은)을 포함한다. 일부 다른 실시예들에서 비주얼 기술자는 스케일 불변 특징 기술자(scale invariant feature descriptor; SAFT)를 포함할 수 있다. 더욱이 일부 실시예들에서 비주얼 기술자는 코너 또는 에지 검출기에 의해 제공되는 바와 같은 코너 또는 에지 정보를 포함하거나 컬러 또는 형상 기술자를 포함할 수 있다.

오디오 정보에 기초하여 특징을 기술하는 일부 실시예들에서 특징 선택기는 공간 오디오 분석기(101)로부터 공간적으로 분석된 오디오 신호들을 그리고 방향의 표시의 사용자 인터페이스 입력을 수신하도록 구성되고 공간적으로 분석되는 오디오 신호 성분들 중 하나를 방향과 정합하는 시도를 행하도록 구성될 수 있다. 즉, 장치를 둘러싸는 오디오 환경의 3차원 영상에는 표시되는 주 음원들의 위치가 제공되고 사용자는 따를 것을 선택할 수 있다. 일부 실시예들에서 특징 선택기는 표시되는 위치 또는 방향으로부터 도달하는 음원에 대한 음향 핑거프린트(또는 오디오 기술자)를 생성하도록 구성될 수 있다. 음향 핑거프린트는 오디오 소스와 연관되는 적어도 하나의 오디오 특징 또는 파라미터를 분석함으로써 생성될 수 있는데 예를 들어, 오디오 핑거프린트는 선택 또는 선택 영역 내의 음 또는 오디오 소스의 스펙트럼 특성들을 분석함으로써 생성될 수 있다. 그러나 임의의 특징 또는 파라미터 또는 특징들 또는 파라미터들의 결합은 선택 또는 선택되는 영역 내의 오디오 소스 또는 소스들의 오디오 핑거프린트를 정의하는 데 사용될 수 있음이 이해될 것이다.

특징 선택기는 일부 실시예들에서 사용자 인터페이스 위치 또는 선택을 표현하는 비주얼 기술자 및/또는 오디오 핑거프린트를 특징 추적기에 제공할 수 있다.

일부 실시예들에서 추적기(106)는 특징 추적기를 포함한다. 특징 추적기는 특징 선택기로부터 선택된 특징들을 수신하고(비주얼 기술자 및/또는 오디오 핑거프린트의 형태로) 갱신된 위치(또는 방향 또는 방위)를 공간 오디오 프로세서 및/또는 비주얼 프로세서에 제공하기 위해 연속하는 비디오 프레임들/오디오 프레임들에서의 특징을 추적하는 시도를 행한다.

더욱이 일부 실시예들에서 추적기 또는 궤적 결정기는 특징 추적기 출력에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기를 더 포함한다.

그러므로 이미지 기반 추적이 사용되는 일부 실시예들에서 추가 또는 후속 프레임들은 비주얼 기술자의 원 위치에 대한 비주얼 기술자의 위치를 결정하고 그러므로 시간의 경과에 따라 선택(즉, 프로세싱될 오디오 소스와 연관되어 선택된 이미지)의 움직임이 있는지를 결정하도록 분석된다. 예를 들어, 일부 실시예들에서 특징 추적기는 계속되는 이미지 프레임들 사이에서 선택되는 비주얼 기술자들의 움직임을 정의하는 모션 벡터를 생성하도록 구성되고 이는 선택의 움직임의 방향 및 속도가 정의된다. 일부 실시예들에서 임의의 적절한 비주얼 기술자의 추적이 사용될 수 있음이 이해될 것이다.

일부 실시예들에서 특징 추적기에 의해 수행되는 시각(vision) 기반 추적은 예를 들어, 카메라 또는 추적되는 물체의 움직임으로 인해 비주얼 기술자가 카메라의 뷰잉 에어리어(viewing area)를 떠나는 경우, 추적이 일시 중지할 수 있고 비주얼 기술자 값들을 가지는 물체가 뷰잉 에어리어에 재진입하는 경우 또는 할 때 재시작될 수 있도록 구성될 수 있다.

선택이 뷰잉 에어리어를 떠라거나 장치가 원래의 선택으로부터 멀어지게 이동하는 것과 같이 선택(음 물체)이 보이지 않는 일부 실시예들에서, 특징 추적기는 물체가 보이지 않음을 표시하는 메시지를 디스플레이하고/하거나 오디오 프로세싱을 일시 정지하기 위한 적절한 정보를 출력하도록 구성될 수 있다.

오디오 또는 음향 핑거프린트 추적이 사용되는 실시예들에서의 특징 추적기는 핑거프린트가 최선으로 정합하는 오디오 소스의 위치를 결정하기 위해 후속 오디오 프레임들에 대한 분석을 수행하도록 구성될 수 있다. 예를 들어, 일부 실시예들에서 특징 추적기는 유사한 특징들을 가지며 원래 선택된 음 또는 오디오 소스들에 인근에 있는 음 또는 오디오 소스들을 검출하도록 구성될 수 있다. 일부 실시예들에서 음향 또는 오디오 추적을 위한 특징 추적기는 음 또는 오디오 소스가 일시 정지하는 곳(또는 오디오 또는 음 소스가 사라지는 곳)을 결정하도록 구성될 수 있다. 예를 들어 대화의 중단으로 인해 음원 연속성의 중단이 있을 수 있다.

일부 실시예들에서 특징 추적기는 특징 추적기가 특징을 상실하는 것을 방지하기 위하여 음향 핑거프린트 또는 비주얼 기술자를 시간의 경과에 따라 모니터링하여 음향 핑거프린터 또는 비주얼 기술자가 어디서 변하는지를 결정하고 현재의 음향 핑거프린터 또는 비주얼 기술자를 유지하도록 구성될 수 있다. 예를 들어, 선택(오디오 소스)은 사람이 장치 쪽으로 또는 장치로부터 돌 때 음향 핑거프린트가 변경할 수 있거나 비주얼 기술자가 유사하게 변경할 수 있는 인간의 음성과 연관된다.

일부 실시예들에서 오디오/음향 및 비주얼-기반 추적 이 둘 모두는 더 양호하고 더 신뢰성 있는 추적을 발생시키는 시도를 행하기 위해 결합될 수 있다.

특징 추적기의 출력은 그 후에 공간 오디오 프로세서(103) 및/또는 비주얼 프로세서(107)에 제공될 수 있다.

다음의 예들에서 추적기 또는 궤적 결정기는 장치의 기준 방위(일부 실시예들에서 카메라 방위의 중심선인)에 관한 선택의 위치 및 폭(각 또는 다른 형태일 수 있다)을 표현하는 방위(θ) 및 폭(w)을 출력하도록 구성된다. 그러나 일부 실시예들에서 임의의 적절한 위치 선택 파라미터 또는 파라미터들은 공간 오디오 프로세서(103) 및/또는 비주얼 프로세서(107)로 통과될 수 있음이 이해될 것이다. 예를 들어, 위치선택 파라미터는 방향 및 폭을 포함할 수 있고, 여기서 방향은 장치의 방위와 독립적이다.

일부 실시예들에서 장치는 오디오 프로세서(103)를 포함한다. 오디오 프로세서는 일부 실시예에서 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 결정된 궤적에 기초하여 추적기(106)로부터 선택 또는 특징 입력을 수신하도록 구성된다.

예시 오디오 프로세서(103)는 본원에서 일부 실시예들에 따라 기술된다.

일부 실시예들에서 오디오 프로세서(103)는 공간 평활기(spatial smoother) 및 공간 평활기 필터 발생기를 포함한다. 공간 평활기 및 공간 평활기 필터 발생기는 정의된 섹터 에지들에서의 급작스런 이득 "컷-오프(cut-off)들"을 발생시키는 것을 방지하도록 구성된다. 일부 실시예들에서 공간 평활기는 위치(포커스 방위) 및 폭과 같은 위치 선택 파라미터를 수신하고 정의된 섹터의 양측들에 추가 평활 존(zone)들을 생성하도록 구성된다. 예를 들어, 일부 실시예들에서 정의되는 섹터 방위 및 폭은 섹터 시작 방위(θ_low) 및 섹터 종료 방위(θ_high)에 의해 정의되므로, 이들의 차는 섹터 폭(w)이고 이 둘의 평균 또는 중간값은 섹터 방위이다.

일부 실시예들에서, 평활 존 폭은

으로 결정될 수 있고 하위 및 상위 평활 존뿐만 아니라 포커스 섹터의 하위 및 상위 에지들에 대응하는 각도 항들(θ_low 및 θ_high)은

및

을 제한한다. 공간 평활기는 공간 평활기 필터 발생기에 섹터 및 평활 존 정보를 출력하도록 구성된다.

일부 실시예들에서 오디오 프로세서(103)는 공간 평활기 필터 발생기를 포함한다. 공간 평활기 필터 발생기는 공간 평활기 출력, 즉 평활 존 정보 및 오디오 소스 방향 정보를 수신하고 공간 소스가 평활 존 내에 있는지를 진술하는 부울 변수(Boolean variable)을 생성하도록 구성된다. 일부 실시예들에서 대역(b)의 방향 추정(α(b))이 평활 존 내에 속하는지 또는 아닌지를 진술하는 부울 변수(z(b))는

로 정의된다. 공간 평활기 필터 발생기는 그 후에 불 변수(z(b))를 공간 포커서(focuser)로 출력할 수 있다.

일부 실시예들에서 비주얼 오디오 프로세서(103)는 공간 포커서를 포함한다. 공간 포커서는 공간 오디오 분석기(101)로부터 오디오 소스들의 중간 신호(M), 측 신호(S) 및 위치(α)의 항들로 오디오 소스를 수신하도록 구성된다. 더욱이 공간 포커서는 포커스 섹터 정보(θ,w)와 같은 선택 파라미터들을 추적기(106)로부터 그리고 공간 평활기 필터 부울 값들(z(b))을 공간 평활기 필터 발생기로부터 수신할 수 있다. 공간 포커서는 그 후에 오디오 소스에 대한 공간 포커싱을 수행하도록 구성된다.

(양의) 포커싱 효과 또는 동작은 포커스 섹터 내에서 오디오 소스들을 증폭시키고 이 섹터의 외부에서 오디오 소스들을 감쇠시키는 시도를 행한다. 더욱이 일부 실시예들에서 공간 포커서는 공간 평활기 필터 부울 값(z(b))이 참이면 추정되는 오디오 소스 위치 및 포커스 섹터 에지들 사이에 각도 차를 발생시키도록 구성된다. 일부 실시예들에서 α(b) 및 포커스 섹터 에지들 사이의 각도 차(△_min)는

로 계산될 수 있다. 일부 실시예들에서 각 추정이 포커스 섹터 또는 평활 존들 내에 위치될 때마다 대응하는 서브-대역(b)은 포커싱되는 효과를 발생시키기 위해 증폭된다. 대조적으로 오디오 소스의 위치가 공간 환경 내의 다른 곳에 위치되는 경우 서브-대역(b)은 약화되거나 감쇠된다. 일부 실시예들에서 포커싱 프로세싱은 중간(M) 및 측(S) 신호들에 대해 별개로 수행될 수 있고 본원에서 기술되는 바와 같이 원하는 출력 모드에 따라 변할 수 있다.

일부 실시예들에서 섹터에 대한 음의 포커싱 또는 필터링 또한 적용될 수 있음이 이해될 것이다. 그와 같은 실시예들에서, 예를 들어 원하지 않는 오디오 소스들을 섹터로부터 제거하기 위하여, 섹터 내의 오디오 소스들은 약화 또는 감쇠되고 섹터의 외부에 있는 오디오 소스들은 증폭된다. 본원에서 기술되는 예들에는 양의 포커싱 효과가 일반적으로 기술되지만 유사한 음의 포커싱 또한 일부 실시예들에서 섹터 내의 소스에 대한 이득 또는 증폭 항을 감쇠 또는 약화 항으로 대체하고 섹터의 외부에 있는 소스들의 약화 또는 감쇠 항을 이득 또는 증폭 항으로 대체함으로서 발생될 수 있음이 이해될 것이다.

일부 실시예들에서 공간 포커서는 포커스 섹터 내의 오디오 소스들에 대한 이득 항을 발생시키도록 구성될 수 있다.

공간 포커서는 일부 실시예들에서 오디오 신호들을 프로세싱하고 적절한 입체 음향의 출력을 발생시키도록 구성될 수 있다. 예를 들어 일부 실시예들에서 입체 음향 모드에서 서브-대역(b)에 대한 적절한 증폭 및 약화를 수행하기 위해 서브대역(b)에 대한 이득 레벨은 적절하게 변경될 수 있다. 증폭의 경우 다음의 이득 항이 일부 실시예들에서 적용될 수 있다:

여기서 amp(b)는 서브-대역(b)에 대응하는 증폭 계수이다. 증폭 계수는 일부 실시예들에서 사용자에 의해, 예를 들어, 본원에서 도시되는 사용자 인터페이스 예들에서 도시되는 바와 같은 슬라이더에 의해 결정될 수 있거나(그 경우에 증폭 계수는 일부 실시예들에서 모든 서브-대역들(b∈{1,B})에 대해 동일한 것으로 정의될 수 있다) 또는 일부 실시예들에서 증폭 계수는 음장 내의 줌잉(zooming)의 양에 기초하여 서브-대역 방식으로 도출될 수 있다. 일부 실시예들에서 amp(b)의 적절한 값 범위는 0.2 및 0.8 사이이다.

일부 실시예들에서 방향 추정(α(b))이 평활 존 내에 있는 경우(z(b)=1), 이득 항(G(b))은 다음의 식에 의해 수정되고:

여기서 att(b)는 서브-대역(b)에 대한 감쇠 계수이다. 일부 실시예들에서 약화량을 정의하는 감쇠 상수는 사용자 인터페이스 입력에 의해 결정되거나 줌잉의 양에 기초하여 계산될 수 있다. 감쇠 계수(att(b))에 대한 적절한 값들은 0.0에서 1.0에 이른다. 확인될 수 있는 바와 같이, 평활 존들은 각도 차(△_min)의 함수로서 이득 항(G(b))에 대한 선형 감소를 유발시킨다. 그러나 일부 실시예들에서 이득 항 및 감쇠 계수 사이의 임의의 적절한 보간(선형 또는 비선형)이 사용될 수 있음이 이해될 것이다.

일부 실시예들에서 공간 포커서는 위치(α(b))가 포커스 섹터 외부에 그리고 평활 존들 외부에 있는 오디오 소스들에 대해 약화를 수행하도록 구성될 수 있다. 일부 실시예들에서 그와 같은 서브-대역들에 대한 이득 항은

에 의해 정의된다. 더욱이 일부 실시예들에서 수신되는 중간-신호들은 좌측(M_L(b)) 및 우측(M_R(b)) 중간 신호들을 생성하기 위해 대응하는 헤드 관련 전달 함수 계수들을 사용하여 필터링된다.

그 후에 일부 실시예들에서 공간 포커서는 좌 및 우로 포커싱되는 중간 신호들

을 생성하기 위해 이득 항들이 좌 및 우 중간 신호들에 적용되도록 구성된다.

공간 포커서는 일부 실시예들에서 오디오 신호들을 프로세싱하고 적절한 다채널 출력을 생성하도록 구성될 수 있다. 그와 같은 실시예들에서 공간 포커서는 다채널 모드 채널 위치들을 결정하도록 구성될 수 있다. 다음의 예들에서 5개의 채널인 다채널 구성이 결정되고 채널 순서는 각들(A=[30,-30,0,110,-110])(도 단위)에 대응하여 전방 좌(FL), 전방 우(FR), 중앙(C), 후방 좌(RL) 및 후방 우(RR)로서 정의된다.

공간 포커서는 그 후에 일부 실시예들에서

로서 탐색되는, α(b)에 대해 가장 작은 각도 차를 가지는 오디오 채널을 결정하도록 구성될 수 있고, 여기서 A(j)는 j번째 오디오 채널의 각을 나타내고, △(j)는 채널(j)에 대한 각도 차이고 c₁은 각 추정에 대한 가장 근접한 채널의 인덱스이다. 대부분의 경우들에서 획득되는 방향 추정들은 임의의 채널 위치로 직접적으로 위치되지 않으므로 오디오 패닝(audio panning)은 합성 프로세스 동안 고려될 필요가 없음이 이해될 것이다. 그러므로 일부 실시예들에서 공간 포커서(805)는 α(b)의 어느 측에서도 2개의 오디오 채널들을 결정하도록 구성될 수 있다. 일부 실시예들에서 이것은 공지되어 있는 채널 기하구조에 기초하여 결정될 수 있다. 그와 같은 실시예들에서 공간 포커서는 각(α(b))이 c₁의 어떤 측에 위치되는지를 결정할 수 있다. 이 측은 그 후에 각도 차(△(c₁))의 부호에 따라 양(+) 또는 음(-)으로 정의될 수 있다(즉, 상술한 차 결정으로부터 절대값을 제외한다). 양의 경우에, c₁으로부터 반 시계 방향으로 다음의 채널은 2번째로 가장 근접한 채널(c₂)로 간주된다(그리고 역으로 음의 경우에서 c₁으로부터 시계 방향으로 다음의 채널은 2번째로 가까운 채널(c₂)인 것을 간주된다). 공간 포커서는 그 후에 또한 α(b) 및 제 2 채널(c₂) 사이의 각도 차(△(c₂))를 결정할 수 있다.

일부 실시예들에서 공간 포커서(805)는 그 후에 결정된 각도 차들 사이에서 그리고 0 및 π/2 사이에서 스케일링되는 관계(R)를

로 결정하도록 구성될 수 있다.

공간 포커서는 그 후에 일부 실시예들에서 채널들에 대한 비례 이득 값들을 계산하는 데 상기 관계를 적용하도록 구성될 수 있다. 일부 실시예들에서 채널 이득들이 관계:

를 따른다고 가정되고, 여기서 G₁ 및 G₂는 채널들(c₁ 및 c₂) 각각에 대한 비례 이득 값들이다. 채널들 사이의 중간 지점에서 이득 값들은 동일하다;

. 그러므로, 이 가정에 기초하여, c₁ 및 c₂에 대한 이득 값들은(서브-대역(b)의)

로 결정될 수 있다.

일부 실시예들에서, 5 채널 모드 예에 대해, 포커스 섹터 각(θ)이 -45° 및 45° 사이에 위치될 때마다, 증폭 이득은 두 가장 가까운 채널들보다는 모든 세 전방 스피커 채널들 사이에서 분할된다. 이것은 전방 스피커들 사이의 각 거리들이 작으면 단 두 개의 스피커들 사이의 패닝이 특정한 전방 포커스 방향들로 잠재적인 아티팩트(artifact)들 및 부자연스러운 오디오 출력들을 발생시킬 수 있기 때문에 구현된다. ±45°의 임계각들은 여러 다른 각도 값들에 대한 출력을 구함으로써 경험적으로 정의되지만 다른 전방 임계값들이 사용될 수 있다. 공간 포커서(805)는 일부 실시예들에서 본원에서의 표에 의해 제공되는 지리적 분리 규칙들에 기초하여 제 2 및 제 3 채널들을 정의하도록 구성될 수 있다.

이 경우들에서, 가장 가까운 채널과 제 3 채널 사이의 각 관계가 결정된다. 중간 지점 채널 이득들은

로 갱신되고, 대응하는 관계는:

로 계산된다.

따라서, 이제 채널 이득들은 다음의 관계를 가지는 것으로 가정된다:

이것은 c₁, c₂ 및 c₃에 대한 비례 이득 값들이 이후에:

에 의해 획득될 수 있음을 의미한다.

공간 포커서는 이후에 일부 실시예들에서 비례 이득들을 사용하여 포커싱된 채널들에 대한 최종 이득 값들을 결정하도록 구성될 수 있다. 예를 들어 최종 이득들은 일부 실시예들에서 다음의 식:

을 따라 결정될 수 있다.

공간 포커서는 그 후에 일부 실시예들에서 포커스 효과를 강조하기 위해 나머지 두 채널들(또는 단 2개의 채널들이 패닝에 적용될 때 세 채널)에 대해 채널들을 약화시킬 이득 값들을 결정하도록 구성될 수 있다. 서브-대역에 대한 추정 각(α(b))가 평활 존에 속하는 경우, 이득 값들은

으로 갱신된다.

예시 스케일링 로직이 입체 음향 모드에 관하여 도시된 것과 유사한 것이 확인될 수 있다.

일부 실시예들에서 공간 포커서는 α(b)가 포커스 섹터 또는 평활 존들 내에 있지 않을 때마다 포커스 각(θ)에 가장 가까운 채널을 제외한 모든 채널들에 약화가 수행되도록 구성될 수 있다. 일부 실시예들에서 이것은 이득 값들을

로 세팅함으로써 구현될 수 있고, 여기서 i는 θ에 가장 가까운 채널의 인덱스이다. 나머지 채널은 손대지 않은 채로 남는, 즉

이다. 이것은 포커싱되는 방향으로부터 도달하는 원 배경 잡음 및 잠재적인 비 우세 음원들이 약화되는 것을 방지하기 위해 행해지는데, 왜냐하면 포커싱되는 방향으로부터 도달하는 원 배경 잡음 및 잠재적인 비 우세 음원들 또한 합성된 출력에서 포커싱되는 바와 같이 들려야 하기 때문이다.

공간 포커서는 그 후에 일부 실시예들에서 계산된 이득 값들(

)에 기초하여 실제 채널 스케일링 계수들(

)을 결정하도록 구성될 수 있다.

증폭:

약화:

여기서

,

는 채널들(c₁, c₂ 및 c₃) 각각의 스케일링 계수를 나타낸다.

더욱이 공간 포커서는 그 후에 일부 실시예들에서 방향 및 포커싱된 구성요소들이 중간 신호(M(b))를

로서 사용하여 획득됨을 결정하도록 구성될 수 있다.

일부 실시예들에서 많은 레코딩된 오디오 신호들에서의 어느 정도의 모호성들 및 요동들로 인해, 모든 서브-대역들에 대해 신뢰성 있는 방향 추정들이 획득될 수 있음이 이해될 것이다. 예를 들어, 서브-대역 결정에 대한 유효 방향 추정들의 수는 프레임당 18 및 22 사이에서 변할 수 있다. 입체 음향 또는 다채널 모드 모두에서의 그와 같은 실시예들에서 기술되는 포커스 절차는 잠재적으로 부정확한 방향들을 강조하는 것을 방지하기 위해 유효 방향 추정들을 가지는 그러한 서브-대역들에 대해서만 수행될 수 있다. 일부 실시예들에서 그와 같은 한계를 극복하기 위해, 본원에서 기술되는 바와 같이 통계 분석에 의해 모든 서브-대역을 변경하는 것이 가능한 추가 이득 제어 절차들이 적용된다.

일부 실시예들에서 공간 포커싱은 측 신호(S(b))를 프로세싱하도록 더 구성될 수 있다. 측 신호(S(b))에 포함되는 방향 정보가 없으므로, 입체 음향 모드에서 오디오 포커서는 측 신호 합성에 어떠한 효과도 내지 않는 것이 이해될 것이다.

즉, 측 신호는 변경되지 않은 채로 프로세싱된 중간 신호에 추가된다.

그러나, 다채널 합성에서, 포커싱 효과는 또한 포커스 각(θ)을 모든 서브-대역에 대해 획득되는 각 추정(α)으로 고려함으로써 측 신호에 적용될 수 있다. 주변 신호는 따라서 전체 포커스 효과를 증대시키기 위해 포커싱된 방향으로 증폭된다. 그러나 측 신호 성분들의 증폭은 합성된 출력 신호에서 자연스런 톤을 유지하기 위해 주의깊게 수행되어야 하는 것이 이해될 것이다. 예를 들어 측 신호 포커스의 매우 높은 증폭은 전체 오디오 현장을 특정한 각으로 이동시키는 경향이 있는데, 이는 방지되어야 한다.

예를 들어 일부 실시예들에서 공간 포커서(805)는, 일단 다채널 합성에 대해 비례 이득 값들(Gx)이 획득되면, 각각의 채널에 대한 실제 측 신호 스케일링 팩터들(γ_x)은

로서 도출될 수 있고, 여기서 는 각 채널에 대해 고정된 "불균형" 감마 값들을 포함하는 벡터이고, amp_s 및 att_s는 각각 측 신호에 대한 증폭 및 감쇠 팩터들이다. 일부 실시예들에서 이에 대한 적절한 값들은 0.1 및 0.3 사이에서 변한다.

일부 실시예들에서 공간 포커서의 출력은 후 프로세싱 이득 제어/시간 평활기로 통과될 수 있다.

일부 실시예들에서 오디오 프로세서(103)는 후 프로세싱 이득 제어/시간 평활기를 더 포함한다.

일부 실시예들에서(다채널 및 입체 음향 합성들 모두에 대한) 프로세싱된 중간 신호들을 포커스 효과를 더 증대시키기 위해 더 프로세싱될 수 있다.

즉, 일부 실시예들에서 방향 추정들의 결정된 양이 단일 시간 프레임 내의 포커스 섹터 내부에서 획득될 때마다, 추가 이득 계수들에 의해 모든 서브-대역들이 더 변경된다.

더욱이 일부 실시예들에서 후 프로세싱은 연속 프레임들에 대한 급작스런 이득 변경들을 방지하기 위해 시간 평활을 적용하도록 구성될 수 있다.

일부 실시예들에서 후 프로세싱 이득 제어기/시간 평활기(807)는 추가 이득 제어가 적용되어야 하는지를 결정하는 데 사용되는 서브-대역 임계값들을 결정하도록 구성될 수 있다. 일부 실시예들에서 서브-대역 임계값들은 서브-대역들의 적용되는 수 및 실험 테스팅에 기초한다. 예를 들어 B=32인 경우 추가 이득 증폭 및 감쇠에 대한 임계들은 각각 th_amp = 8 및 th_att=4로서 결정될 수 있다. 이 임계값들은 추가 이득 제어 프로세스를 트리거(trigger)하기 위해 단일 프레임 내의 포커싱된 섹터 내부에서 허용되는 방향 추정들의 최소 및 최대 수에 대응한다. 일부 실시예들에서 서브-대역들의 예시 적용 수(B=32)는 많은 다른 것들 중에서 단 하나의 가능성을 표현하고 이와 같으므로 임의의 적절한 수의 서브-대역들 또한 적용될 수 있음이(이것은 이후에 임계값들로 하여금 이에 따라 변하도록 할 수 있다) 이해될 것이다.

일부 실시예들에서 후 프로세싱 이득 제어기/시간 평활기(807)는 포커싱된 섹터 내부의 방향 추정들의 수(E)를 결정하고 더욱이 E의 값을 세팅된 임계값들과 비교하도록 구성될 수 있다. 즉, 일부 상황들에서 유효한 섹터 내 방향 추정들의 수를 구함으로써 후 프로세싱 이득 제어기/시간 평활기(807)는 공간 오디오 분석기에서 획득되는 신뢰할 수 없는/공지되지 않은 α(b) 추정들을 가지는 그러한 대역들을 또한 포함하여, 현재 시간 프레임 내의 32개의 서브-대역들 모두를 증폭하거나 약화시키도록 구성될 수 있다.

일부 실시예들에서 추가 증폭은 단지 포커스 섹터 내의 그러한 오디오 소스 대역들에만 또는 임계치가 만족될 때 방향이 신뢰할 수 없는/공지되지 않은 경우에 적용된다. 유사하게 일부 실시예들에서 섹터 내부의 추정들을 가지는 대역들은 추가 약화에 의해 영향을 받지 않는다(그러한 경우에 세팅된 임계치들에 기초하여 최대 3개의 그와 같은 대역들이 존재한다).

예를 들어 입체 음향 합성 모드들에서, 다음의 식들은

인 일부 실시예들에서 추가 증폭에 적용될 수 있고

추가 감쇠는

인 경우:

이다.

항들(amp_add 및 att_add)은 원래의 amp 및 att 계수들로부터 도출되는 추가 증폭 및 감쇠 계수들이다. 추가 이득 계수들은 일부 실시예들에서 정적이고 서브-대역들 사이에서 고정된다(즉, 이것들은 줌잉의 양에 의해 영향을 받지 않는다).

다채널 합성 모드들에서, 다음의 식들은 채널 스케일링 계수들에 대해 적용된다:

증폭:

약화:

이것들은 그러고 나서:

,

에 적용되고, 여기서

,

및

는 채널들(c₁, c₂ 및 c₃) 각각의 스케일링 계수를 나타낸다. 방향 및 포커싱된 구성요소들은 실제 오디오 채널 신호들을 획득하기 위해 중간 신호(M(b))를

으로 사용하여 획득된다.

일부 실시예들에서 후 프로세싱 이득 제어기/시간 평활기(807)는 추가적으로 프레임 상태들의 지난 이력에 기초하여 시간 평활을 오디오 신호들에 적용할 수 있다.

일부 실시예들에서 오디오 프로세서(103)는 채널 모드 변환기를 더 포함한다. 채널 모드 변환기는 일부 실시예들에서 프로세싱된 중간 및 측 신호들을 수신하고 적절한 채널 출력들을 생성하도록 구성될 수 있다.

예를 들어 일부 실시예들에서 채널 모드 변환기는 다채널 프로세싱된 신호로부터 청취하는 헤드폰에 적합한 스테레오 신호를 생성하도록 구성된다.

일부 실시예들에서 모드 변환기는 다음의 변환 공식을 사용하여 다채널 합성 출력으로 직접적으로 변환을 수행하도록 구성되고:

여기서 x(z)는 채널(x)의 시간 도메인 신호에 대응한다.

일부 실시예들에서 모드 변환기는 다채널 합성의 포커싱된 중간 신호들(M(b))을 사용하고 원(포커싱되지 않은) 측 신호들을 고려하도록 구성된다. 이 실시예들에서 스테레오 신호 변환은 일단 포커싱 효과가 중간-신호 성분들과 결합되면, 주파수 도메인에서 수행된다. 스테레오 변환은 도 28a에 관하여 상기에 도시되는 바와 같이 수행되지만, 동작들은 각 서브-대역(b)에서 각각의 주파수 빈(n)에 대해 별개로

와 같은 주파수 도메인 계수들로 수행되고 측 신호(s(b))는 우측 채널에 추가되고 좌측 채널로부터 제거된다. 시간 도메인으로의 변환은 일부 실시예들에서 푸리에 역변환(inverse Fourier transform; IFT)을 사용하여 수행될 수 있다. 그와 같은 실시예들에서 제 1 "직접" 변환 옵션에 비해 "더 평활하고" 더 안정된 배경 잡음이 생성된다.

일부 실시예들에서 모드 변환기는 각 추정들(α(b))에 대한 오디오 패닝을 수행하도록 구성된다. 두 채널들(P_R, P_L)의 패닝 계수들은

로 계산되고, 여기서 α(b) 각 부호는 변경된다. 대역(b)의 각 추정이 불확실한 상황들에서, 계수들은

의 디폴트 값에 제공된다.

일부 실시예들에서 모노 출력은 스테레오 신호로부터

로서 형성될 수 있다.

이것은 포커싱된 모노 신호인 것으로 정의될 수 있고, 여기서 증폭되고 약화되는 방향들 및 음원들은 여전히 청취 가능하나, 방향 정보는 사용자에게 통과되지 않는다.

오디오 프로세서(103)는 그러므로 일부 실시예들에서 공간 오디오 출력(105)으로 통과될 수 있는 프로세싱된 오디오 신호를 생성할 수 있다.

적어도 UI 입력/추적에 기초하는 오디오 신호 프로세싱의 동작은 도 3에 단계 207에 의해 도시된다.

일부 실시예들에서 공간 오디오 출력(105)은 프로세싱된 오디오 신호들을 적절한 재현 장치로 또는 메모리로 또는 임의의 적절한 저장 요소로 출력하도록 구성된다. 재현 오디오의 출력은 일부 실시예들에서 모노, 스테레오, 입체음향, 다채널, 공간 또는 3D 오디오 신호 중 적어도 하나일 수 있다.

더욱이 오디오 신호들(또는 사용자 입력에 기초하는 그와 같은 음 조작의 결과)의 프로세싱은 그와 같은 재현 오디오가 사용자에게 모노 또는 다채널 오디오 를 재현하는 것을 발생시키는 데 사용될 수 있는 임의의 적절한 재현 장치로 출력될 수 있음이 이해될 것이다. 일부 실시예들에서 적절한 재현 장치는 오디오 커넥터를 통해 장치에 결합될 수 있거나 일부 실시예들에서 장치의 적어도 하나의 내부 스피커일 수 있다.

더욱이 프로세싱되는 오디오 신호(음 조작) 및/또는 사용자 입력에 기초하여 조정되는 세팅들은 단독으로 또는 비주얼 데이터와 함께 세이브 또는 저장(예를 들어, 내부 메모리, 데이터베이스 또는 클라우드)될 수 있다.

프로세싱된 오디오 신호들에 대한 출력을 제공하는 동작은 도 3에서 단계 209에 의해 도시된다.

일부 실시예들에서 장치는 비주얼 프로세서(107)를 포함한다. 비주얼 프로세서(107)는 일부 실시예들에서 카메라(51)로부터 이미지 데이터를 그리고 더욱이 추적기(106)로부터 사용자 인터페이스 입력/선택 추적 정보를 수신하도록 구성될 수 있다. 비주얼 프로세서(107)는 일부 실시예들에서 사용자 인터페이스/추적 선택(오디오 소스들)에 기초하여 카메라(51)로부터의 비주얼 이미지에 대해 디스플레이되는 사용자 인터페이스 오버레이를 생성하도록 구성될 수 있다. 예를 들어, 일부 실시예들에서 비주얼 프로세서(107)는 선택 영역 또는 에어리어를 강조하도록 구성될 수 있고 추적기(106)가 (오디오 소스) 선택을 따를 때 비주얼 프로세서는 이 움직임을 강조할 수 있는 오버레이를 생성하도록 구성될 수 있다. 더욱이 일부 실시예들에서 비주얼 프로세서(107)는, 사용자가 일부 실시예들에서 오디오 소스를 따르는 장치를 재지향시킬 수 있도록, 선택(오디오 소스)이 시계를 떠날 때, 즉 카메라의 시각 밖으로 이동될 때 사용자 인터페이스 비주얼 표시를 제공하도록 구성될 수 있다.

그와 같은 실시예들에서 비주얼 프로세서 또는 적절한 비주얼 프로세싱 수단은 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하도록 구성될 수 있다. 더욱이 디스플레이는 그와 같은 실시예들에서 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하도록 구성될 수 있고, 여기서 적어도 하나의 비주얼 요소의 관심 위치의 지점을 결정하는 것은 적어도 하나의 선택 입력에 기초하여 적어도 하나의 관심 지점 위치를 결정함으로써 제공될 수 있다.

비주얼 프로세서(107)는 이 비주얼 사용자 인터페이스 오버레이는 카메라 이미지 데이터와 함께 디스플레이(52)에 출력할 수 있다.

즉, 일부 실시예들에서 본원에서 기술되는 실시예들은: 적어도 하나의 이미지 프레임을 캡처하고(적절한 수단에 의해); 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하고(적절한 수단에 의해); 적어도 하나의 이미지 프레임 및 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합(적절한 수단에 의해)하여 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성함으로써 디스플레이 이미지를 생성한다.

본원에서 기술되는 오버레이는 다음: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계 외에 있음을 강조하는 오버레이; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이; 적어도 하나의 추가적인 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태를 디스플레이하도록 구성되는 프로세싱 오버레이; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이하도록 구성되는 포커스 증폭 오버레이; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화를 디스플레이하도록 구성되는 포커스 감쇠 오버레이; 포커스 동작을 반전시키기 위해 토글 상태를 디스플레이하도록 구성되는 포커스 인버터 오버레이; 및 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이하도록 구성되는 포커스 증폭 프로파일 오버레이 중 임의의 오버레이일 수 있다.

사용자 인터페이스 입력/추적에 기초하여 비디오/이미지 데이터를 생성하는 동작은 도 3에 단계 208에 의해 도시된다.

디스플레이(52)는 비주얼 프로세서(107)로부터 데이터를 수신하고 생성/프로세싱된 이미지들을 디스플레이하도록 구성될 수 있다.

생성/프로세싱된 이미지들을 디스플레이하는 동작은 도 3에서 단계 210에 의해 도시된다.

도 4와 관련하여 일부 실시예들에 따라 동작 중인 예시 장치(10)가 도시된다. 도11에 도시되는 예에서 디스플레이(52) 및 카메라(51)를 포함하는 장치(10)는 비디오/오디오 캡처가 수행되는 애플리케이션 또는 프로그램의 초기화 이후의 점선으로 도시되는 카메라 시각 범위를 도시한다. 카메라의 뷰(view) 내에 제 1 오디오 소스(1001), 제 2 오디오 소스(1003) 및 제 3 오디오 소스(1005)가 도시된다. 이 오디오 소스들은 제 1 오디오 소스 비주얼 표현(1011), 제 2 오디오 소스 비주얼 표현(1013) 및 제 3 오디오 소스 비주얼 표현(1015)에 의해 디스플레이(52) 상에 시각적으로 표현된다.

도 5와 관련하여 도 4에 도시되는 예는 사용자(1101)가 제 3 오디오 소스 비주얼 표현(1015)의 지점에서 디스플레이를 탭핑함으로써 제 3 오디오 소스(1015)가 선택됨을, 즉, 제 3 오디오 소스가 추적되고 프로세싱될 수 있음을 표시하는 것으로 도시된다. 즉, 장치 터치/사용자 인터페이스 제어기(104)는 이후에 추적기(106)로 통과될 수 있는 지점 또는 선택 위치를 나타내는 디스플레이(52)로부터 입력을 수신하도록 구성될 수 있다. 일부 실시예들에서 장치 디스플레이 또는 다른 사용자 인터페이스 입력은 포커스가 양의 포커스인지를 결정하여 다른 오디오 소스들에 대해 제 3 오디오 소스를 증대 또는 증폭시키고 또는 음의 포커스인지를 결정하여 다른 오디오 소스들에 대해 제 3 오디오 소스를 줄이거나 감쇠시키도록 구성될 수 있음이 이해될 것이다. 예를 들어, 디스플레이는 특정한 증폭/감쇠 아이콘들을 디스플레이하거나 포커스 또는 선택 영역에 적용될 포커스 감쇠/증폭의 정도를 명시하는 데 사용될 수 있는 사용자 인터페이스 슬라이더 또는 다이얼을 포함할 수 있다.

도 6과 관련하여 제 3 오디오 소스를 포커싱될 오디오 소스로서 선택한 이후의 장치가 도시된다. 도 6에 도시되는 예에서 일부 실시예들에서 추적기(106) 특징 선택기는 제 3 오디오 소스(1005)와 연관되는 적절한 비주얼 기술자(및/또는 오디오 핑거프린트 또는 기술자) 요소들을 생성하였고 스크린 상에 디스플레이되는 제 3 오디오 소스 비주얼 표현(1015)을 강조하기 위해 이 요소들을 통과시켰다. 예를 들어, 일부 실시예들에서 비주얼 기술자는 디스플레이 상에 도 6에서 X표들로 도시되는 적어도 하나의 비주얼 기술자 특징(1203)으로서 디스플레이된다. 일부 실시예들에서 오디오 소스 비주얼 표현의 강조는 제 3 오디오 소스 비주얼 표현을 둘러싸는 박스(1201)를 사용할 수 있다.

도 7과 관련하여 제 3 오디오 소스(1005)의 이동 이후의 장치가 도시된다. 이 예에서, 제 3 오디오 소스(1005)는 제 1 오디오 소스(1001) 전방으로 통과되도록 제 1 오디오 소스(1001) 및 제 2 오디오 소스(1003)에 대하여 이동하였다. 이것은 도 7에서 제 3 오디오 소스 비주얼 표현(1015)이 제 1 오디오 소스 비주얼 표현(1011)을 가로질러 이 제 1 오디오 소스 비주얼 표현(1011) 앞으로 이동할 때의 장치(10)의 디스플레이(52) 상에 도시되지만, 여기서 제 3 오디오 소스 비주얼 표현을 추적했던 비주얼 기술자 요소들(1203)이 도시된다.

도 8과 관련하여 선택(오디오 소스)을 나타내는 예시 비주얼 이미지가 도시되고 여기서 이미지(1403)는 제 1 오디오 소스, 스피커 또는 강조된 선택 박스(1401)에 의해 도시되는 사람인 화자를 포함한다. 더욱이 도 8은 정상적인 스테레오 캡처 오디오 신호(1411) 및 포커싱된 스트레오 캡처 오디오 신호(1413) 사이의 차를 도시하고 여기서 장치는 화자에 포커싱을 적용하였다.

도 9와 관련하여 화자가 추적되는 추가 예들이 도시된다. 이미지(1505)는 원 선택(또는 오디오 소스 화자)(1501)의 그리고 이동했고 박스(1503)에 의해 강조된 오디오 소스 또는 화자의 위치를 도시한다. 상기 도는 언포커싱된 스테레오 캡처 오디오 신호들(1511), 원 선택 에어리어(1501)에 기초하여 고정되는 포커싱된 오디오 신호(1513) 및 오디오 소스를 원 선택 에어리어(1501)로부터 현재 추적되는 에어리어(1503)로 추적하는 것에 기초하여 추적 포커싱되는 오디오 신호(1515)를 더 도시한다.

도 10과 관련하여 추적을 나타내는 예시 비주얼 프로세서 사용자 인터페이스 오버레이들이 도시되고, 여기서는 도 8의 이미지(1403)에 기초하는 제 1 이미지(1601)가 도시되고 비주얼 프로세서는 포커싱된 영역이 언포커싱된 영역들보다 더 밝도록 마스킹(masking) 오버레이를 적용하였다. 일부 실시예들에서 이것은 포커스 에어리어 또는 영역에 픽셀들을 밝게 하는 것을 적용함으로써 또는 포커스 에어리어 또는 영역 또는 이 둘 모두의 외부에 있는 픽셀들의 어둡게 하는 것을 적용함으로써 수행될 수 있다. 그러므로 포커싱된 영역(1603)은 명확하게 보일 수 있고 반면에 언포커싱된 영역들은 어둡다. 더욱이 도 10은 도 9의 이미지(1505)에 기초하는 제 2 이미지(1611)가 비-포커싱된 영역을 유사하게 어둡게 하는 것을 나타내도록 마스킹이 어떻게 선택을 추적하는지를 도시한다.

비주얼 프로세서(107)가 선택 영역 또는 에어리어의 포커싱을 나타내기 위해 임의의 적절한 오버레이 이미지 프로세싱을 생성할 수 있음이 이해될 것이다. 이것들은 이미지를 밝게 하거나, 이미지 컬러들을 변경하거나 또는 이미지가 포커스 내에 있거나 포커스 영역 외부에 있는 경우 이미지를 선명하게 하거나 흐릿하게 하는 것을 포함할 수 있다.

도 11과 관련하여 예시 비주얼 프로세서 사용자 인터페이스 오버레이들이 도시되고 여기서 선택 특징(오디오 소스)는 카메라의 시계 외부에 있다. 그러므로 이미지들(1701, 1711) 모두에서 오디오 소스인 화자가 카메라의 뷰 외부로 이동하였음이 도시된다. 제 1 이미지(1701)는 오디오 소스가 카메라의 시계 외부로 이동한 방향을 사용자 인터페이스 오버레이 화살표(1703)가 가리키고 있는 것이 도시된다. 제 2 이미지(1711)는 이 선택으로부터 멀어지면서 점차 어두워짐으로써(또는 즉, 상기 이미지가 뷰 선택의 외부 쪽으로 점차 밝아짐으로써) 오디오 소스 또는 선택이 시계 밖으로 이동했던 에지 쪽에서 이미지가 가장 밝도록 하기 위해, 비주얼 프로세서(107)가 마스킹 기능을 적용한 경우를 도시한다.

도 12와 관련하여 예시 흐름도는 일부 실시예들에 따른 장치의 예시 동작을 도시한다.

일부 실시예들에서 사용자는 장치 상의 애플리케이션 또는 적절한 프로그램을 시작하고 비디오 레코딩이 개시된다. 이 예에서 오디오 및 비디오 모두가 캡처된다.

오디오 및 비디오 레코딩의 개시 또는 시작의 동작은 도 12에서 단계 1801에 의해 도시된다.

사용자가 포커싱할 적절한 물체를 선택하고자 하면 사용자는 일부 실시예들에서 스크린 상의 전용 아이콘을 누르고 이것을 '탭핑'하는 것을 선택하는 것에 의해 관심 물체를 나타냄으로써 물체 선택을 활성화할 수 있다.

스크린 상의 전용 아이콘을 누르고 탭핑에 의해 관심 물체를 나타냄으로써 물체 선택을 활성화하는 동작은 도 12에서 단계 1803에 의해 도시된다.

일부 실시예들에서 사용자는 스크린 상의 대응하는 아이콘을 누르는 것에 의해 물체가 증폭되거나 감쇠되어야 하는지를 나타내는 사용자 입력을 더 제공할 수 있다.

일반적으로 일부 실시예들에서 사용자는 적절한 제어 입력을 제공할 수 있고 이 제어 입력은 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되고 오디오 프로세서에 의해 사용됨으로써, 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것은 장치로 하여금 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하게 한다.

제어 입력은 예를 들어, 다음: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 범위; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 포커스 증폭 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 포커스 감쇠 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 아웃 포커스 증폭 팩터; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠 중 임의의 하나일 수 있다.

물체가 스크린 상의 대응하는 아이콘을 누름으로써 증폭되거나 감쇠되어야 하는지를 선택하는 동작은 도 12에서 단계 1805에 의해 도시된다.

일부 실시예들에서 물체 선택 및/또는 포커싱된 물체의 적용 및 감쇠의 결정이 일부 실시예들에서 자동으로 결정될 수 있음이 이해될 것이다.

일부 실시예들에서 장치 애플리케이션은 물체의 비주얼 및/또는 음향 기술자를 생성할 수 있다.

물체의 비주얼 및/또는 음향 기술자의 동작은 도 12에서 단계 1807에 의해 도시된다.

장치 애플리케이션은 그 후에 일부 실시예들에서 물체의 비주얼 및/또는 음향 기술자에 기초하여 선택된 물체의 위치를 추적할 수 있다.

선택된 물체의 위치를 추적하는 동작은 도 12에서 1809에 의해 도시된다.

일부 실시예들에서, 즉 선택적인 특징으로서, 추적되는 물체의 위치는 스크린 상에 시각화된다. 예를 들어, 본원에서 도시되는 바와 같이 비주얼 프로세서는 카메라 이미지로부터의 물체의 물리적 이미지가 제시될 수 있는 추적되는 물체의 위치에 기초하여 적절한 마스킹 또는 강조 효과를 발생시킨다.

스크린 상의 물체를 시각화하는 동작은 도 12에서 단계 1811에 의해 도시된다.

더욱이 일부 실시예들에서 오디오 프로세싱 또는 조작은 추적되는 물체의 방향을 강조함으로써 적용된다.

추적되는 물체들의 오디오 조작의 동작은 도 12에서 단계 1813에 의해 도시된다.

일부 실시예들에서 프로세싱되는 오디오는 이후에 결정된 포맷으로 비디오의 적어도 하나의 오디오 트랙으로 저장된다.

조작되는 오디오를 비디오의 적어도 하나의 오디오 트랙으로 저장하는 동작은 도 12에서 단계 1815에 의해 도시된다.

애플리케이션 또는 동작은 그 후에 본원에서 기술되는 바와 같이 기술자를 갱신하는 동작 또는 물체를 추적하는 동작으로 복귀할 수 있다.

예를 들어, 물체는 일부 실시예들에서 매 100ms마다 한번 추적될 수 있다. 기술자 값들을 갱신하는 동작은 일부 실시예들에서 매 200 내지 300ms마다(즉, 트래킹보다 덜 자주 또는 일부 실시예들에서 추적과 동일한 빈도수로) 발생할 수 있고 일부 실시예들에서 기술자 값들을 갱신하는 것은 추적되는 기술자 값들이 이전에 저장된 기술자 값들로부터 현저하게 변하는 경우에 발생할 수 있다.

본원에서의 설명에서 구성요소들은 일부 실시예들에서 적어도 부분적으로 적어도 하나의 프로세서 내에서 동작하고 적어도 하나의 메모리 내에 저장되는 코드 또는 루틴들로서 구현 가능한 것으로 간주될 수 있다.

용어 사용자 장비는 모바일 전화기들, 휴대용 데이터 프로세싱 디바이스들 또는 휴대용 웹 브라우저들과 같은 임의의 적절한 유형의 무선 사용자 장비를 포괄하도록 의도되는 것이 인정될 것이다.

더욱이 공중 지상 이동망(public land mobile network; PLMN)의 요소들 또한 상술한 바와 같은 장치를 포함할 수 있다.

일반적으로 본 발명의 다양한 실시예들은 하드웨어 또는 특수 목적 회로들, 소프트웨어, 논리 또는 이들의 임의의 결합으로 구현될 수 있다. 예를 들어, 일부 양태들은 하드웨어에서 구현될 수 있고, 반면에 다른 양태들은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있으나, 본 발명은 이로 제한되지 않는다. 본 발명의 다양한 양태들이 블록도들, 흐름도들 또는 어떤 다른 그림 표현으로 예시되고 기술될 수 있을지라도, 비제한적인 예들로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로들 또는 로직, 범용 하드웨어 또는 제어기 또는 다른 컴퓨팅 디바이스들 또는 이들의 임의의 결합으로 구현될 수 있음이 충분히 이해된다.

본 발명의 실시예들은 프로세서 실체에서 또는 하드웨어에 의해, 또는 소프트웨어 및 하드웨어의 결합에 의해서와 같이, 모바일 디바이스의 데이터 프로세서에 의해 실행 가능한 컴퓨터 소프트웨어에 의해 구현될 수 있다. 더욱이 이 점에 있어서 도면들에서와 같은 논리 흐름의 임의의 블록들은 프로그램 단계들 또는 상호 접속되는 논리 회로들, 블록들 및 기능들 또는 프로그램 단계들 및 논리 회로들, 블록들 및 기능들의 결합을 표현할 수 있음이 유념되어야 한다. 소프트웨어는 메모리 칩들, 또는 프로세서 내에서 구현되는 메모리 블록들, 하드 디스크 또는 플로피 디스크들과 같은 자기 매체 및 예를 들어 DVD 및 이의 데이터 변형들과 같은 광 매체, CD와 같은 그러한 물리적 매체 상에 저장될 수 있다.

메모리는 국지적인 기술 환경에 적합한 임의의 유형으로 이루어질 수 있고 반도체 기반 메모리 디바이스들, 자기 메모리 디바이스들 및 시스템들, 광 메모리 디바이스들 및 시스템들, 고정 메모리 및 제거 가능 메모리와 같은 임의의 적절한 데이터 저장 기술을 사용하여 구현될 수 있다. 데이터 프로세서들은 국지적인 기술 환경에 적합한 임의의 유형으로 이루어질 수 있고, 비제한적인 예들로서, 범용 컴퓨터들, 특수 목적 컴퓨터들, 마이크로프로세서들, 디지털 신호 프로세서(digital signal processor; DSP)들, 주문형 반도체(application specific integrated circuit; ASIC)들, 게이터 레벨 회로들 및 다-코어 프로세서 아키텍처에 기초하는 프로세서들 중 하나 이상을 포함할 수 있다.

본 발명의 실시예들은 집적 회로 모듈들과 같은 다양한 구성요소들에서 실시될 수 있다. 집적 회로들의 설계는 대체로 고도로 자동화된 프로세스이다. 논리 레벨 설계를 반도체 기판 상에 식각되고 형성되는 반도체 회로 설계로 변환하기 위해 복합적이고 강력한 소프트웨어 툴들이 사용 가능하다.

California, Mountain View의 Synopsys 및 California, San Jose의 Cadence Design에 의해 제공되는 프로그램들과 같은 프로그램들은 잘 설정된 설계 규칙들뿐만 아니라 선 저장 설계 모듈들의 라이브러리들을 사용하여 자동으로 컨덕터들을 라우팅하고 반도체 칩 상의 구성요소들의 위치를 찾는다. 일단 반도체 회로에 대한 설계가 완료되었으면, 그 결과에 따른 설계는, 표준화된 전자 포맷(예를 들어, Opus, GDSII 등)으로 반도체 제작 설비 또는 제조를 위한 "팹(fab)"으로 전달될 수 있다.

상기의 설명은 예시적이며 비제한적인 예들에 의해 본 발명의 예시 실시예들의 완전하고 유익한 설명을 제공하였다. 그러나, 당업자에게는 상기 설명을 고려하여 첨부 도면들 및 부가된 청구항들과 함께 판독하면 다양한 수정들 및 적응들이 명백해질 수 있다. 그러나, 본 발명의 내용들의 모든 그와 같은 그리고 유사한 변경들은 첨부된 청구항들에서 정의되는 바와 같은 본 발명의 범위 내에 여전히 해당될 것이다.

Claims

적어도 하나의 프로세서 및 하나 이상의 프로그램들을 위한 컴퓨터 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치로서,
상기 적어도 하나의 메모리 및 상기 컴퓨터 코드는 상기 적어도 하나의 프로세서와 함께 상기 장치로 하여금,
적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원(acoustic source)을 결정하게 하고,
상기 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치(point of interest location)를 결정하게 하고,
상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치의 궤적을 결정하게 하고,
상기 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서(sound playback transducer)로부터 상기 적어도 하나의 오디오 신호를 재현(reproduce)하게 하는
장치.
제 1 항에 있어서,
상기 적어도 하나의 음원은, 상기 장치로 하여금
상기 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일(metafile)을 결정하고,
상기 음원 위치 정보로부터 상기 적어도 하나의 음원을 결정하여 상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치를 결정하도록 함으로써 결정되는
장치.
제 1 항 또는 제 2 항에 있어서,
상기 적어도 하나의 관심 지점 위치는, 상기 장치로 하여금
이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것과,
적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것과,
적어도 하나의 사용자 입력 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것 중 적어도 하나를 수행하도록 함으로써 결정되는
장치.
제 1 항 또는 제 2 항에 있어서,
상기 장치는, 상기 적어도 하나의 관심 지점 위치가 결정되는 적어도 하나의 캡쳐된 이미지 프레임을 수신하게 하고, 상기 적어도 하나의 캡쳐된 이미지 프레임은 적어도 하나의 카메라, 메모리, 및 적어도 하나의 추가 장치 중 적어도 하나로부터 수신되는
장치.
제 1 항 또는 제 2 항에 있어서,
상기 결정된 궤적은, 상기 장치로 하여금,
상기 적어도 하나의 관심 지점 위치에서 상기 적어도 하나의 음원 및/또는 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징(feature)을 결정하게 하고,
상기 적어도 하나의 음원 및/또는 상기 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징을 추적하게 하고,
상기 적어도 하나의 특징의 궤적을 결정하게 하는
장치.
제 5 항에 있어서,
상기 장치로 하여금 디스플레이의 영역 내에, 상기 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하게 하고,
상기 적어도 하나의 비주얼 이미지 요소에 기초하여 상기 적어도 하나의 관심 지점 위치를 결정하게 하고, 상기 적어도 하나의 음원은 상기 적어도 하나의 비주얼 요소와 연관되는 상기 적어도 하나의 관심 지점 위치인 것으로서 정의되는
장치.
제 6 항에 있어서,
상기 장치로 하여금 상기 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하게 하는 것은,
상기 디스플레이의 영역 내의 이미지 프레임으로부터 상기 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하게 하고,
적어도 하나의 선택 입력에 기초하여 상기 적어도 하나의 관심 지점 위치를 결정하기 위해, 상기 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 상기 디스플레이 이미지를 디스플레이하는
장치.
제 7 항에 있어서,
상기 장치로 하여금 상기 디스플레이 이미지를 생성하게 하는 것은,
적어도 하나의 이미지 프레임을 캡처하게 하고,
적어도 하나의 사용자 인터페이스 오버레이 요소(user interface overlay element)를 생성하게 하고,
상기 디스플레이 이미지를 생성하기 위해 상기 적어도 하나의 이미지 프레임 및 상기 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합하는
장치.
제 8 항에 있어서,
상기 장치로 하여금, 상기 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하고, 상기 장치는, 또한
상기 적어도 하나의 음원의 관심 지점 위치를 디스플레이하는 오버레이를 생성하게 하는 것과,
상기 적어도 하나의 관심 지점 위치가 상기 이미지 프레임의 시계(field of view) 외부에 있는 것을 강조하는 오버레이를 생성하는 것과,
상기 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이를 생성하는 것과,
토글 상태(toggle state)를 디스플레이 하도록 구성되는 프로세싱 오버레이를 생성하는 것과,
상기 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하기 위한 적어도 하나의 증폭 이득(amplification gain)을 디스플레이하도록 구성되는 포커스 증폭 오버레이를 생성하는 것과,
상기 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하기 위한 적어도 하나의 감쇠(attenuation)를 디스플레이하도록 구성되는 포커스 감쇠 오버레이를 생성하는 것과,
포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이하도록 구성되는 포커스 인버터 오버레이를 생성하는 것과,
상기 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하는 것 중 적어도 하나를 수행하는
장치.
제 1 항 또는 제 2 항에 있어서,
상기 장치는 또한 상기 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하고, 상기 적어도 하나의 제어 입력에 기초하여 상기 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는
장치.
제 10 항에 있어서,
상기 적어도 하나의 제어 입력은, 상기 장치로 하여금
적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 폭과,
적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 범위와,
적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 증폭 팩터(factor)와,
적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 감쇠 팩터와,
적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 증폭 팩터(an out of focus amplification factor)와,
적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠(an out of focus attenuation) 중 적어도 하나를 제공하도록 하는
장치.
제 1 항 또는 제 2 항에 있어서,
상기 적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함하며, 상기 장치는 상기 적어도 2개의 오디오 신호들에 의해 상기 적어도 하나의 음원을 결정하고, 결정된 적어도 하나의 음원은 위치 값을 포함하는
장치.
제 1 항 또는 제 2 항에 있어서,
상기 장치는, 또한
적어도 2개의 마이크로폰과,
장치 메모리와,
적어도 하나의 추가 장치 중 하나로부터 상기 적어도 하나의 오디오 신호를 수신하는
장치.
제 1 항 또는 제 2 항에 있어서,
상기 적어도 하나의 오디오 신호를 사용하여, 상기 적어도 하나의 음원을 결정하도록 구성되는 공간 오디오 분석기(a spatial audio analyser)와,
상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 위치 결정기와,
상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기와,
상기 결정된 궤적에 기초하여 상기 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하도록 구성되는 프로세서를 포함하는
장치.
적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 단계와,
상기 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계와,
상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치의 궤적을 결정하는 단계와,
상기 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 단계를 포함하는
방법.
제 15 항에 있어서,
상기 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 단계는,
상기 적어도 하나의 관심 지점 위치에서 상기 적어도 하나의 음원 및/또는 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징(feature)을 결정하는 단계와,
상기 적어도 하나의 음원 및/또는 상기 적어도 하나의 비주얼 이미지 요소 와 연관되는 적어도 하나의 특징을 추적하는 단계와,
상기 적어도 하나의 특징의 궤적을 결정하는 단계를 포함하는
방법.
제 15 항 또는 제 16 항에 있어서,
상기 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계는,
이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것과,
적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것과,
적어도 하나의 사용자 입력 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것 중 적어도 하나를 포함하는
방법.
제 15 항 또는 제 16 항에 있어서,
적어도 하나의 비주얼 이미지 요소를 제공하는 단계와,
디스플레이의 영역 내의 이미지 프레임으로부터 상기 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하는 단계와,
적어도 하나의 선택 입력을 제공하기 위한 터치 인터페이스 디스플레이 상에 상기 디스플레이 이미지를 디스플레이하는 단계와,
상기 적어도 하나의 선택 입력에 기초하여 상기 적어도 하나의 관심 지점 위치를 결정하는 단계를 더 포함하는
방법.
제 15 항 또는 제 16 항에 있어서,
상기 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 단계와,
상기 적어도 하나의 제어 입력에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 단계를 더 포함하는
방법.