KR102650763B1

KR102650763B1 - 오디오 소스 지향성에 기초한 심리음향 강화

Info

Publication number: KR102650763B1
Application number: KR1020237025350A
Authority: KR
Inventors: 아이작 가르시아 무노스
Original assignee: 퀄컴 인코포레이티드
Priority date: 2021-01-29
Filing date: 2021-12-17
Publication date: 2024-03-22
Also published as: JP2023554694A; CN116803106A; CN116803106B; BR112023014480A2; JP7459391B2; TW202304226A; KR20230113853A; EP4285611A1; US20220246160A1; US11646046B2; WO2022164590A1

Abstract

디바이스는 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 저장하도록 구성된 메모리를 포함한다. 디바이스는 또한 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하도록 구성된 하나 이상의 프로세서들을 포함한다. 하나 이상의 프로세서들은 또한, 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하도록 구성된다.

Description

오디오 소스 지향성에 기초한 심리음향 강화

I. 관련 출원들에 대한 상호참조

본 출원은 2021년 1월 29일자로 출원된 공동 소유의 미국 정규 특허출원 제 17/162,241 호로부터의 우선권의 이익을 주장하며, 그 내용들은 전부가 본 명세서에 원용에 의해 명시적으로 통합된다.

II. 분야

본 개시는 일반적으로 오디오 소스 지향성에 기초한 심리음향 강화에 관한 것이다.

III. 관련 기술의 설명

기술에서의 진보들은 더 소형이고 더 강력한 컴퓨팅 디바이스들을 발생시켰다. 예를 들어, 소형이고 경량이며 사용자들에 의해 용이하게 휴대되는 모바일 및 스마트 폰들과 같은 무선 전화기들, 태블릿들 및 랩톱 컴퓨터들을 포함하는 다양한 휴대용 개인 컴퓨팅 디바이스들이 현재 존재한다. 이들 디바이스들은 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 추가로, 다수의 그러한 디바이스들은 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어와 같은 추가적인 기능성을 통합한다. 또한, 그러한 디바이스들은, 인터넷에 액세스하는데 사용될 수 있는 웹 브라우저 애플리케이션과 같은 소프트웨어 애플리케이션들을 포함한 실행가능 명령들을 프로세싱할 수 있다. 이로써, 이들 디바이스들은 현저한 컴퓨팅 능력들을 포함할 수 있다.

그러한 컴퓨팅 디바이스들은 종종, 하나 이상의 마이크로폰들로부터 오디오 신호를 수신하기 위한 기능성을 통합한다. 예를 들어, 오디오 신호는 마이크로폰들에 의해 캡처된 사용자 스피치, 마이크로폰들에 의해 캡처된 주변 사운드들, 또는 이들의 조합을 나타낼 수도 있다. 사용자 스피치(user speech)는 사용자 스피치가 마이크로폰들에 의해 캡처되는 사용자로부터의 마이크로폰들의 거리 때문에 오디오 신호에서 듣기 어려울 수도 있다. 예를 들어, 사용자로부터 더 멀리 떨어져 있는 마이크로폰들은 교통, 다른 사용자들의 스피치 등과 같은 더 많은 주변 사운드들을 캡처할 수도 있다. 다른 예로서, 사용자 스피치는 더 멀리 떨어져 있는 마이크로폰들에 의해 캡처될 때 더 부드럽게 들린다. 오디오 신호에서 특정 사운드들에 초점을 맞추는 능력은 통신 애플리케이션 또는 음성 제어 어시스턴트 시스템에서 사용자 스피치를 더 명확하게 통신하는 것과 같은 다양한 애플리케이션들에 대해 유용하다.

IV. 요약

본 개시의 일 구현에 따르면, 디바이스는 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 (directivity) 데이터를 저장하도록 구성된 메모리를 포함한다. 디바이스는 또한 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들(equalizer settings)을 결정하도록 구성된 하나 이상의 프로세서들을 포함한다. 하나 이상의 프로세서들은 또한, 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전(psychoacoustic enhanced version)에 대응하는 하나 이상의 출력 오디오 신호들을 생성하도록 구성된다.

본 개시의 다른 구현에 따르면, 방법은 디바이스에서, 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 획득하는 단계를 포함한다. 방법은 또한 디바이스에서, 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하는 단계를 포함한다. 방법은, 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하는 단계를 더 포함한다.

본 개시의 다른 구현에 따르면, 비일시적(non-transitory) 컴퓨터 판독가능 매체는, 하나 이상의 프로세서들에 의해 실행될 때, 그 하나 이상의 프로세서들로 하여금, 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 획득하게 하는 명령들을 저장한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한 그 하나 이상의 프로세서들로 하여금 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하게 한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한, 그 하나 이상의 프로세서들로 하여금, 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하게 한다.

본 개시의 다른 구현에 따르면, 장치는 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 획득하기 위한 수단을 포함한다. 장치는 또한 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하기 위한 수단을 포함한다. 장치는, 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하기 위한 수단을 더 포함한다.

본 개시의 다른 양태들, 이점들, 및 특징들은 다음의 섹션들: 즉, 도면의 간단한 설명, 상세한 설명, 및 청구항들을 포함하여 전체 출원의 검토 후 자명하게 될 것이다.

V. 도면들의 간단한 설명
도 1은 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 시스템의 특정 예시적인 양태의 블록도이다.
도 2a는 본 개시의 일부 예들에 따른, 도 1의 시스템에 의해 생성된 그래픽 사용자 인터페이스(GUI)의 예시적인 예의 다이어그램이다.
도 2b는 본 개시의 일부 예들에 따른, 도 1의 시스템에 의해 생성된 GUI의 다른 예시적인 예의 다이어그램이다.
도 3은 본 개시의 일부 예들에 따른, 도 1의 시스템의 컴포넌트들의 예시적인 양태의 다이어그램이다.
도 4는 본 개시의 일부 예들에 따른, 도 1의 시스템의 컴포넌트들의 예시적인 양태의 다이어그램이다.
도 5는 본 개시의 일부 예들에 따른, 도 1의 시스템의 컴포넌트들의 예시적인 양태의 다이어그램이다.
도 6은 본 개시의 일부 예들에 따른, 도 1의 시스템의 컴포넌트들의 예시적인 양태의 다이어그램이다.
도 7은 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 집적 회로의 예를 예시한다.
도 8 은 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 모바일 디바이스의 다이어그램이다.
도 9는 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 헤드셋의 다이어그램이다.
도 10 은 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 웨어러블 전자 디바이스의 다이어그램이다.
도 11 은 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 음성 제어 스피커 시스템의 다이어그램이다.
도 12 는 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 카메라의 다이어그램이다.
도 13 은 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한, 가상 현실 또는 증강 현실 헤드셋과 같은 헤드셋의 다이어그램이다.
도 14 는 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 차량의 제 1 예의 다이어그램이다.
도 15 는 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 차량의 제 2 예의 다이어그램이다.
도 16 은 본 개시의 일부 예들에 따른, 도 1 의 디바이스에 의해 수행될 수도 있는 오디오 소스 지향성에 기초한 심리음향 강화 방법의 특정 구현의 다이어그램이다.
도 17 은 본 개시의 일부 예들에 따른, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 동작가능한 디바이스의 특정의 예시적인 예의 블록도이다.

VI. 상세한 설명

마이크로폰들은 사용자 스피치, 주변 사운드들, 또는 이들의 조합과 같은 캡처된 사운드를 나타내는 오디오 신호들을 생성한다. 오디오 소스로부터의 마이크로폰들의 거리 때문에 다양한 사운드들이 오디오 신호에서 듣기 어려울 수도 있다. 오디오 신호에서 특정 사운드들에 초점을 맞추는 능력은 통신 애플리케이션에서의 사용자 스피치 또는 조류 추적 애플리케이션에서의 조류 사운드들과 같은 다양한 애플리케이션들에 대해 유용하다.

오디오 소스 지향성에 기초한 심리음향 강화(psychoacoustic enhancement)의 시스템들 및 방법들이 개시된다. 상이한 타입들의 오디오 소스들은 상이한 사운드 지향성 특성들을 가질 수 있다. 예를 들어, 인간 스피치는 뒤보다 인간 머리의 앞에 더 많이 지향되고, 인간 발화자가 향하는 방향으로부터의 거리 및 각도 오프셋에 기초하여 변하는 주파수 응답을 나타낼 수도 있는 반면, 12면체 사운드 소스는 전방향성 지향성에 근접한다.

오디오 인핸서(audio enhancer)는 오디오 소스에 대해 (예를 들어, 오디오 소스에 더 가깝게 또는 그로부터 멀리) 마이크로폰을 이동시킴으로써 캡처될 사운드를 근사화하기 위해 오디오 소스의 지향성에 기초하여 심리음향 강화(psychoacoustic enhancement)를 수행한다. 예를 들어, 오디오 인핸서는 지향성 분석기(directivity analyzer) 및 등화기(equalizer)를 포함한다. 지향성 분석기는 오디오 소스(audio source) 및 줌 타겟(zoom target)의 지향성 데이터에 기초하여 등화기 설정들을 생성한다. 예를 들어, 지향성 분석기는, 등화기 설정들을 적용하는 것이 마이크로폰을 줌 타겟으로 이동시키는 것을 에뮬레이트(emulate)하기 위해 특정 오디오 주파수들의 라우드니스(loudness)를 조정하도록 등화기 설정들을 생성한다. 등화기는 입력 오디오 신호들에 등화기 설정들을 적용하여 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 출력 오디오 신호들을 생성한다. 예를 들어, 입력 오디오 신호들은 마이크로폰들의 마이크로폰 출력들에 기초하고, 출력 오디오 신호들은 줌 타겟에서의 오디오 소스의 주파수 응답에 근사한다. 따라서, 출력 오디오 신호들은 줌 타겟에서 마이크로폰들에 의해 캡처될 사운드들에 근사한다.

본 개시의 특정 양태들은 도면들을 참조하여 이하에 설명된다. 설명에서, 공통 피처들 (features) 은 공통 참조 번호들로 지정된다. 본 명세서에서 사용된 바와 같이, 다양한 용어가 단지 특정 구현들을 설명할 목적으로 사용되고 구현들을 한정하는 것으로 의도되지 않는다. 예를 들어, 단수 형태들 "a", "an", 및 "the" 는, 문맥이 분명히 달리 표시하지 않는 한, 복수 형태들을 물론 포함하도록 의도된다. 추가로, 본 명세서에서 설명된 일부 피처들은 일부 구현들에서 단수이고 다른 구현들에서는 복수이다. 예시하자면, 도 1 은 하나 이상의 프로세서들 (도 1 의 "프로세서(들)” (190)) 을 포함하는 디바이스 (102) 를 도시하며, 이는 일부 구현들에서는 디바이스 (102) 가 단일 프로세서 (190) 를 포함하고 다른 구현들에서는 디바이스 (102) 가 다중의 프로세서들 (190) 을 포함함을 나타낸다.

본 명세서에서 사용된 바와 같이, 용어들 "포함한다(comprise)", "포함한다(comprises)", 및 "포함하는(comprising)" 은 "포함한다(include)", "포함한다(includes)", 또는 "포함하는(including)" 과 상호교환가능하게 사용될 수도 있다. 부가적으로, 용어 "여기서 (wherein)" 는 "여기에서 (where)" 와 상호교환가능하게 사용될 수도 있다. 본 명세서에서 사용된 바와 같이, "예시적인” 은 예, 구현, 및/또는 양태를 나타내며, 제한하는 것으로서 또는 선호도 또는 선호된 구현을 나타내는 것으로서 해석되지 않아야 한다. 본 명세서에서 사용된 바와 같이, 구조, 컴포넌트, 동작 등과 같은 엘리먼트를 수정하는데 사용되는 서수 용어 (예를 들어, "제 1", "제 2", "제 3" 등) 는 홀로 다른 엘리먼트에 관하여 엘리먼트의 임의의 우선순위 또는 순서를 표시하는 것이 아니라, 오히려 단지 엘리먼트를 (서수 용어의 사용이 없다면) 동일한 명칭을 갖는 다른 엘리먼트로부터 구별할 뿐이다. 본 명세서에서 사용된 바와 같이, 용어 "세트" 는 특정 엘리먼트의 하나 이상을 지칭하고, 용어 "복수" 는 특정 엘리먼트의 배수 (예컨대, 2 이상) 를 지칭한다.

본 명세서에서 사용된 바와 같이, "결합된(coupled)” 은 "통신가능하게 결합된", "전기적으로 결합된", 또는 "물리적으로 결합된” 을 포함할 수도 있으며, 또한 (또는 대안적으로) 이들의 임의의 조합들을 포함할 수도 있다. 2 개의 디바이스들 (또는 컴포넌트들) 은 하나 이상의 다른 디바이스, 컴포넌트, 와이어, 버스, 네트워크 (예를 들어, 유선 네트워크, 무선 네트워크, 또는 이들의 조합) 등을 통해 직접적으로 또는 간접적으로 결합될 (예를 들어, 통신적으로 결합될, 전기적으로 결합될, 또는 물리적으로 결합될) 수도 있다. 전기적으로 결합된 2 개의 디바이스들 (또는 컴포넌트들) 은 동일한 디바이스 또는 상이한 디바이스에 포함될 수도 있고, 예시적인, 비-제한적인 예들로서 전자기기들, 하나 이상의 커넥터들 또는 유도 결합을 통해 접속될 수도 있다. 일부 구현들에서, 전기 통신에서와 같이, 통신가능하게 결합되는 2개의 디바이스들 (또는 컴포넌트들) 은 하나 이상의 와이어, 버스, 네트워크 등을 통해, 직접 또는 간접적으로 신호들 (예를 들어, 디지털 신호들 또는 아날로그 신호들) 을 전송 및 수신할 수도 있다. 본 명세서에서 사용된 바와 같이, "직접 결합된" 은 컴포넌트들을 개재하지 않으면서 결합 (예를 들어, 통신가능하게 결합, 전기적으로 결합, 또는 물리적으로 결합) 되는 2개의 디바이스들을 포함할 수도 있다.

본 개시에서, 용어들 이를 테면 "결정하는 것", "계산하는 것", "추정하는 것", "시프트하는 것", "조정하는 것", 등은 하나 이상의 동작들이 수행되는 방법을 설명하기 위해 사용될 수도 있다. 그러한 용어들은 한정하는 것으로서 해석되지 않아야 하고 다른 기법들이 유사한 동작들을 수행하는데 활용될 수도 있음을 유의해야 한다. 부가적으로, 본 명세서에서 지칭되는 바와 같이, "생성하는 것", "계산하는 것", “추정하는 것”, "사용하는 것", "선택하는 것", "액세스하는 것" 및 "결정하는 것" 은 상호교환가능하게 사용될 수도 있다. 예를 들어, 파라미터 (또는 신호) 를 "생성하는 것", "계산하는 것”, “추정하는 것”, 또는 "결정하는 것" 은 파라미터 (또는 신호) 를 능동적으로 생성하는 것, 추정하는 것, 계산하는 것, 또는 결정하는 것을 지칭할 수도 있거나, 또는 예컨대, 다른 컴포넌트 또는 디바이스에 의해 이미 생성된 파라미터 (또는 신호) 를 사용하는 것, 선택하는 것, 또는 액세스하는 것을 지칭할 수도 있다.

도 1 을 참조하면, 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 구성된 시스템의 특정 예시적인 양태가 개시되고 일반적으로 100으로 지정된다. 시스템 (100) 은 하나 이상의 마이크로폰들 (120), 카메라 (140), 하나 이상의 스피커들 (160), 디스플레이 디바이스 (162), 입력 디바이스 (130), 또는 이들의 조합에 결합된 디바이스 (102) 를 포함한다. 일부 구현들에서, 디스플레이 디바이스(162)는 입력 디바이스(130)(예를 들어, 터치스크린)를 포함한다.

디바이스 (102) 는 메모리 (132)에 결합된 하나 이상의 프로세서들 (190) 을 포함한다. 메모리(132)는 등화기(equalizer; Eq) 설정 데이터(149), 지향성 데이터(141), 오디오 인핸서(192)에 의해 사용되거나 생성되는 다른 데이터, 또는 이들의 조합을 저장하도록 구성된다. 특정 양태에서, 하나 이상의 프로세서들 (190) 은 하나 이상의 입력 인터페이스들 (124) 을 통해 하나 이상의 마이크로폰들 (120)에 결합된다. 예를 들어, 하나 이상의 입력 인터페이스(124)는 하나 이상의 마이크로폰(120)으로부터 하나 이상의 마이크로폰 출력(122)을 수신하고 하나 이상의 마이크로폰 출력(122)을 하나 이상의 입력 오디오 신호(SIG)(126)로서 오디오 인핸서(192)에 제공하도록 구성된다.

특정 양태에서, 하나 이상의 프로세서들 (190) 은 입력 인터페이스 (144) 를 통해 카메라 (140)에 결합된다. 예를 들어, 입력 인터페이스(144)는 카메라(140)로부터 카메라 출력(142)을 수신하고 카메라 출력(142)을 이미지 데이터(145)로서 오디오 인핸서(192)에 제공하도록 구성된다. 특정 양태에서, 입력 인터페이스 (144) 는 하나 이상의 입력 인터페이스들 (124) 이 이미지 데이터 (145) 를 오디오 인핸서 (192)에 제공하는 것과 동시에 오디오 인핸서 (192)에 카메라 출력 (142) 을 제공하도록 구성된다.

디바이스 (102) 는 하나 이상의 프로세서들 (190)에 포함된 오디오 인핸서 (192) 를 사용하여 오디오 소스 지향성에 기초하여 심리음향 강화를 수행하도록 구성된다. 오디오 인핸서(192)는 등화기(148)에 결합된 지향성 분석기(152) 및 등화기(148)에 결합된 등화 전 (pre-equalization) 신호 프로세서(146)를 포함한다. 일부 구현들에 따르면, 지향성 데이터 업데이터(150)가 오디오 인핸서(192)에 포함된다.

입력 디바이스(130)는 줌 타겟(133)을 나타내는 사용자 입력(131)을 디바이스(102)에 제공하도록 구성된다. 지향성 분석기(152)는 지향성 데이터(141), 줌 타겟(133), 등화기 설정 데이터(149), 또는 이들의 조합에 기초하여 등화기 설정들(153)을 생성하도록 구성된다. 예를 들어, 지향성 분석기(152)는 등화기 설정들(153)을 적용하여 하나 이상의 마이크로폰들(120)을 줌 타겟(133)에 더 가깝게 이동시키는 것을 에뮬레이트하기 위해 특정 오디오 주파수들의 라우드니스를 조정하도록 등화기 설정들(153)을 생성하도록 구성된다.

등화기(148)는 하나 이상의 출력 오디오 신호들(138)을 생성하기 위해 하나 이상의 등화기 입력 오디오 신호들(147)에 등화기 설정들(153)을 적용하도록 구성된다. 특정 양태에서, 하나 이상의 등화기 입력 오디오 신호들 (147) 은 하나 이상의 입력 오디오 신호들 (126) 을 포함한다. 대안적인 구현에서, 등화 전 신호 프로세서(146)는, 도 3을 참조하여 추가로 설명되는 바와 같이, 하나 이상의 입력 오디오 신호들(126)을 프로세싱하여 하나 이상의 등화기 입력 오디오 신호들(147)을 생성하도록 구성된다.

일부 구현들에서, 디바이스 (102) 는 하나 또는 여러 타입들의 디바이스들에 대응하거나 그에 포함된다. 예시적인 예에서, 프로세서(190)는, 도 9를 참조하여 추가로 설명되는 바와 같이, 하나 이상의 스피커들(160)을 포함하는 헤드셋 디바이스에 통합된다. 다른 예들에서, 프로세서 (190) 는 도 8 을 참조하여 설명된 바와 같은 모바일 폰 또는 태블릿 컴퓨터 디바이스, 도 10 을 참조하여 설명된 바와 같은 웨어러블 전자 디바이스, 도 11 을 참조하여 설명된 바와 같은 음성 제어 스피커 시스템, 도 12 를 참조하여 설명된 바와 같은 카메라 디바이스, 또는 도 13 을 참조하여 설명된 바와 같은 가상 현실 헤드셋 또는 증강 현실 헤드셋 중 적어도 하나에 통합된다. 다른 예시적인 예에서, 프로세서(190)는, 도 14 및 도 15를 참조하여 추가로 설명되는 바와 같이, 하나 이상의 스피커(160)를 또한 포함하는 차량에 통합된다.

동작 동안, 하나 이상의 마이크로폰들 (120) 은 오디오 소스 (184) (예를 들어, 사람) 를 포함하는 하나 이상의 오디오 소스들로부터 사운드 (186) 를 캡처하고 사운드 (186) 를 나타내는 하나 이상의 마이크로폰 출력들 (122) 을 생성한다. 특정 양태에서, 하나 이상의 오디오 소스들은 사람, 동물, 새, 차량, 악기, 다른 타입의 오디오 소스, 또는 이들의 조합을 포함한다. 하나 이상의 입력 인터페이스(124)는 하나 이상의 입력 오디오 신호(126)로서 하나 이상의 마이크로폰 출력(122)을 오디오 인핸서(192)에 제공한다.

특정 구현에서, 카메라 (140) 는 오디오 소스 (184) 와 같은 하나 이상의 오디오 소스들의 이미지들 (예를 들어, 비디오, 스틸 이미지들, 또는 양자 모두) 을 캡처하고, 이미지들을 나타내는 카메라 출력 (142) 을 생성한다. 이 구현에서, 입력 인터페이스(144)는 카메라 출력(142)을 이미지 데이터(145)로서 오디오 인핸서(192)에 제공한다. 특정 양태에서, 카메라 (140) 는 하나 이상의 마이크로폰들 (120) 이 하나 이상의 마이크로폰 출력들 (122) 을 디바이스 (102)에 제공하는 것과 동시에 카메라 출력 (142) 을 디바이스 (102)에 제공한다.

특정 구현에서, 이미지 데이터 (145), 하나 이상의 입력 오디오 신호들 (126), 또는 이들의 조합은, 외부 센서들 (예를 들어, 마이크로폰 (120) 및 카메라 (140)) 을 통해 캡처된 데이터에 대응하는 대신에, 비디오 게임 데이터 또는 이전에 레코딩된 데이터와 같은 저장된 데이터에 대응한다. 예를 들어, 오디오 인핸서 (192) 는 메모리 (132) 로부터 이미지 데이터 (145), 하나 이상의 입력 오디오 신호들 (126), 또는 이들의 조합을 취출한다.

하나 이상의 프로세서들 (190) 은 하나 이상의 입력 오디오 신호들 (126)에 기초하여 하나 이상의 출력 오디오 신호들 (138) 을 생성하고 하나 이상의 스피커들 (160) 을 통해 하나 이상의 출력 오디오 신호들 (138) 을 출력한다. 특정 구현에서, 하나 이상의 프로세서(190)는 이미지 데이터(145)에 기초하여 그래픽 사용자 인터페이스(161)를 생성하고, 하나 이상의 스피커(160)를 통해 하나 이상의 출력 오디오 신호(138)를 출력하는 것과 동시에 사용자(101)에게 카메라(140)에 의해 캡처된 이미지를 디스플레이하기 위해 그래픽 사용자 인터페이스(161)를 디스플레이 디바이스(162)에 제공한다.

디바이스(102)는 오디오 줌 동작을 개시하기 위해 사용자(101)에 응답한다. 예를 들어, 사용자(101)는 입력 디바이스(130)를 사용하여 줌 타겟(133)을 나타내는 사용자 입력(131)을 오디오 인핸서(192)에 제공한다. 특정 구현에서, 사용자(101)는 도 2a 및 도 2b를 참조하여 추가로 설명되는 바와 같이, 그래픽 사용자 인터페이스(161)에 디스플레이된 줌 선택기를 이동시켜 줌 타겟(133)을 선택하기 위해 입력 디바이스(130)(예를 들어, 마우스, 키보드, 버튼, 슬라이더 입력, 또는 이들의 조합)를 사용한다. 다른 구현에서, 사용자(101)는 그래픽 사용자 인터페이스(161)와 독립적으로 오디오 줌 동작을 개시한다. 예를 들어, 하나 이상의 프로세서들 (190) 은 디스플레이 디바이스 (162)에 임의의 GUI 를 제공하는 것과 독립적으로 하나 이상의 스피커들 (160)에 하나 이상의 출력 오디오 신호들 (138) 을 제공한다. 사용자(101)는 입력 디바이스(130)(예를 들어, 키보드 상의 화살표 키들, 헤드셋 상의 버튼들 등)를 사용하여 줌 타겟(133)을 표시하는 사용자 입력(131)을 오디오 인핸서(192)에 제공한다. 예시하기 위해, 사용자 (101) 는 도 9 를 참조하여 추가로 설명된 바와 같이, 입력 디바이스 (130) 를 사용하여 하나 이상의 스피커들 (160) 의 오디오 출력에 대응하는 음장(sound field)의 상이한 영역들로 줌한다.

줌 타겟(133)은 오디오 줌이 어떻게 수행되어야 하는지를 나타내는 정보를 포함한다. 다양한 구현들에서, 줌 타겟(133)은 도 4 내지 도 6을 참조하여 추가로 설명되는 바와 같이, 적어도 하나의 오디오 소스(예를 들어, 오디오 소스(184))의 사용자의 선택, 마이크로폰(120)을 이동시키는 것을 시뮬레이션하는 방식으로 오디오를 조정하기 위한 사용자의 선택, 또는 이들의 조합을 포함하거나 표시할 수 있다. 예를 들어, 줌 타겟 (133) 은 오디오 소스 (184) 의 사용자의 선택 및 하나 이상의 마이크로폰들 (120) 이 오디오 소스 (184) 에 얼마나 더 가깝게 위치되는 것으로 (예를 들어, 2 피트 더 가깝게) 인지되어야 하는지를 나타내는 줌 거리 (135) 를 포함할 수 있다. 다른 예에서, 줌 타겟 (133) 은 하나 이상의 마이크로폰들 (120) 이 위치 (134) (예를 들어, 물리적 위치) 로부터 얼마나 많이 그리고 어느 방향으로 이동한 것으로 인지되어야 하는지를 나타내는 줌 배향 (137) 및 줌 거리 (135) 의 사용자의 선택을 포함할 수 있다. 특정 예시적인 예에서, 줌 배향(137)의 제 1 값(예를 들어, 0도), 제 2 값(예를 들어, 90도), 제 3 값(예를 들어, 180도), 또는 제 4 값(예를 들어, 270도)은 위치(134)에 대한 하나 이상의 마이크로폰들(120)의 전방 이동, 우측 이동, 후방 이동, 또는 좌측 이동에 각각 대응한다. 사용자(101)가 줌 거리(135) 및 줌 배향(137)을 선택할 때와 같은 특정 예에서, 오디오 인핸서(192)는 줌 배향(137) 및 줌 거리(135)를 (하나 이상의 마이크로폰(120)의) 위치(134)에 적용함으로써 줌 위치(136)를 결정한다. 다른 예에서, 줌 타겟(133)이 줌 위치(136)의 사용자의 선택을 포함할 때, 오디오 인핸서(192)는 위치(134)와 줌 위치(136)의 비교에 기초하여 줌 배향(137) 및 줌 거리(135)를 결정한다. 특정 예에서, 줌 타겟(133)이 오디오 소스(184)의 사용자의 선택을 포함할 때, 오디오 인핸서(192)는 오디오 소스(184)의 위치를 추정하고, 오디오 소스(184)의 추정된 위치에 기초하여 줌 거리(135), 줌 위치(136), 줌 배향(137), 또는 이들의 조합을 결정한다. 특정 양태에서, 오디오 인핸서 (192) 는 이미지 분석 기법들, 오디오 분석 기법들, 오디오 소스 (184) 의 포지션 정보, 또는 이들의 조합을 이용하여 오디오 소스 (184) 의 위치를 추정한다. 특정 양태에서, 위치 (134) 는 복수의 마이크로폰들 (120) 의 위치들의 대표 위치 (예를 들어, 평균 위치)에 대응하고, 줌 위치 (136) 는 복수의 마이크로폰들 (120) 이 이동한 것으로 에뮬레이트되는 위치들의 대표 위치 (예를 들어, 평균 위치)에 대응한다.

지향성 분석기(152)는 하나 이상의 입력 오디오 신호들(126)에 대응하는 하나 이상의 오디오 소스들(예를 들어, 오디오 소스(184))의 지향성 데이터(141)를 획득한다. 예를 들어, 지향성 분석기(152)는 (예를 들어, 입력 오디오 신호(126)를 분석하는 것, 이미지 데이터(145)를 분석하는 것, 또는 이들의 조합으로부터와 같은 소스의 타입에 기초하여) 오디오 소스(184)를 식별하고, 메모리(132)로부터 오디오 소스(184)에 가장 가깝게 대응하는 지향성 데이터(141)를 취출한다. 다른 예에서, 지향성 분석기(152)는 다른 디바이스 또는 네트워크로부터 지향성 데이터(141)를 요청(예를 들어, 다운로드)한다.

특정 오디오 소스의 지향성 데이터(141)는 특정 오디오 소스의 배향 및 거리 주파수 응답 특성들을 나타낸다. 특정 양태에서, 지향성 데이터 (141) 는 일반적인 오디오 소스와 연관된다. 예를 들어, 지향성 데이터(141)는 일반적인 오디오 소스의 배향 및 주파수 응답 특성들을 나타낸다. 예시하기 위해, 지향성 데이터(141)는 중간-주파수들(mid-frequencies)에 대응하는 주파수 응답이 일반 오디오 소스에 대한 제 1 거리로부터 일반 오디오 소스에 대한 제 2 거리로의 변화에 응답하여 제 1 양만큼 변화(예를 들어, 감소 또는 증가)함을 표시한다. 대안적인 양태에서, 지향성 데이터 (141) 는 특정 타입들의 오디오 소스들과 연관된 지향성 데이터를 나타낸다. 예를 들어, 지향성 데이터(141)는 도 4를 참조하여 추가로 설명되는 바와 같이, 오디오 소스(184)의 특정 오디오 소스 타입(예를 들어, 인간 발화자, 새, 악기 등)으로부터의 거리, 배향, 또는 양자 모두의 변화에 응답하는 다양한 주파수들의 주파수 응답 변화들을 표시한다.

지향성 분석기(152)는, 도 4를 참조하여 추가로 설명되는 바와 같이, 지향성 데이터(141), 줌 타겟(133), 및 등화기 설정 데이터(149)에 적어도 부분적으로 기초하여 등화기 설정들(153)을 결정한다. 예를 들어, 지향성 분석기(152)는 등화기 설정들(153)을 적용하여 하나 이상의 마이크로폰들(120)을 줌 위치(136)로(또는 줌 위치에 더 가깝게) 이동시키는 것을 에뮬레이트하기 위해 특정 오디오 주파수들의 라우드니스를 조정하도록 등화기 설정들(153)을 생성한다. 특정 구현에서, 지향성 분석기(152)는, 오디오 소스(184)의 오디오 소스 타입에 대한 지향성 데이터가 이용가능하지 않다고 결정하는 것에 응답하여, 디폴트 지향성 데이터에 기초하여 등화기 설정들(153)을 선택한다. 예시를 위해, 지향성 분석기(152)는 (예를 들어, 오디오 소스(184)의 오디오 소스 타입과 독립적으로) 중간 주파수들에 대응하는 주파수 응답을 조정(예를 들어, 증가 또는 감소)하기 위해 등화기 설정들(153)을 선택한다. 예를 들어, 지향성 분석기(152)는 줌 위치(136)와 오디오 소스(184) 사이의 거리가 위치(134)와 오디오 소스(184) 사이의 거리보다 작다는 결정에 응답하여 중간 주파수들에 대응하는 라우드니스를 증가시키기 위해 등화기 설정들(153)을 선택한다. 다른 예로서, 지향성 분석기(152)는 줌 위치(136)와 오디오 소스(184) 사이의 거리가 위치(134)와 오디오 소스(184) 사이의 거리보다 크다고 결정하는 것에 응답하여 중간 주파수들에 대응하는 라우드니스를 감소시키기 위해 등화기 설정들(153)을 선택한다. 대안적인 구현에서, 지향성 분석기(152)는, 도 4를 참조하여 추가로 설명되는 바와 같이, 지향성 데이터(141)에 의해 표시된 오디오 소스(184)의 오디오 소스 타입(예를 들어, 인간 발화자 또는 새)의 방향성(예를 들어, 주파수 응답)에 기초하여 등화기 설정들(153)을 선택한다. 지향성 분석기(152)는 등화기 설정들(153)을 등화기(148)에 제공한다.

등화기(148)는 등화기 설정들(153)을 하나 이상의 등화기 입력 오디오 신호들(147)에 적용함으로써 하나 이상의 출력 오디오 신호들(138)을 생성한다. 특정 구현에서, 하나 이상의 등화기 입력 오디오 신호들 (147) 은 하나 이상의 입력 오디오 신호들 (126) 을 포함한다. 다른 구현에서, 등화 전 신호 프로세서(146)는, 도 3을 참조하여 추가로 설명되는 바와 같이, 하나 이상의 입력 오디오 신호들(126)에 등화 전 프로세싱을 적용함으로써 하나 이상의 등화기 입력 오디오 신호들(147)을 생성한다. 등화기(148)는 하나 이상의 출력 오디오 신호들(138)을 하나 이상의 스피커들(160)에 제공한다.

하나 이상의 출력 오디오 신호들 (138) 은 하나 이상의 입력 오디오 신호들 (126) 의 심리음향 강화된 버전에 대응한다. 심리음향 강화 버전(예를 들어, 하나 이상의 출력 오디오 신호들(138))은 오디오 줌 동작과 연관된 줌 위치(136)(예를 들어, 줌 배향(137) 및 줌 거리(135))에서의 오디오 소스(184)의 주파수 응답을 근사화한다. 따라서, 하나 이상의 스피커(160)에 의해 생성된 (하나 이상의 출력 오디오 신호(138)에 대응하는) 사운드는 하나 이상의 마이크로폰(120)을 줌 위치(136)로(또는 더 가깝게) 이동시킨 것을 에뮬레이트한다.

특정 구현에서, 지향성 데이터 업데이터(150)는 지향성 데이터(141)를 생성하거나 업데이트한다. 지향성 업데이터(150)는 오디오 소스로부터 다양한 거리들 및 배향들에서 캡처된 오디오를 샘플링 및 분석하고 그 오디오 소스와 연관된 지향성 데이터를 생성 또는 업데이트하도록 구성된다. 특정 예에서, 지향성 데이터 업데이터(150)는, 제 1 시간에, 오디오 소스(184)에 대응하는 하나 이상의 입력 오디오 신호들(126) 중 입력 오디오 신호의 제 1 사운드 스펙트럼을 생성한다. 제 1 사운드 스펙트럼은 오디오 소스(184)가 하나 이상의 마이크로폰(120)에 대한 제 1 배향을 가질 때 오디오 소스(184)로부터 제 1 거리에서 하나 이상의 마이크로폰(120)에 의해 캡처된 사운드를 나타낸다. 지향성 데이터 업데이터(150)는, 제 2 시간에, 오디오 소스(184)에 대응하는 하나 이상의 입력 오디오 신호들(126) 중 입력 오디오 신호의 제 2 사운드 스펙트럼을 생성한다. 제2 사운드 스펙트럼은, 오디오 소스(184)가 하나 이상의 마이크로폰들(120)에 대한 제2 배향을 가질 때 오디오 소스(184)로부터 제 2 거리에서 하나 이상의 마이크로폰들(120)에 의해 캡처된 사운드를 나타낸다. 지향성 데이터 업데이터(150)는 제 1 거리와 제 1 방향 및 제 2 거리와 제 2 방향 사이의 차이가 제 1 사운드 스펙트럼과 제 2 사운드 스펙트럼 사이의 차이에 대응함을 나타내도록 지향성 데이터(141)를 업데이트한다.

시스템(100)은 하나 이상의 마이크로폰들(120)을 줌 위치(136)로 이동시키는 것에 근사하는 줌 타겟(133)에 대한 오디오 줌 동작을 가능하게 한다. 오디오 소스(184)의 지향성에 기초하여 주파수들에 대한 라우드니스를 조정함으로써 하나 이상의 출력 오디오 신호들(138)을 생성하는 것은 하나 이상의 입력 오디오 신호들(126)의 이득들만을 조정하는 것에 비해 더 자연스러운 사운딩 오디오 줌을 초래한다.

하나 이상의 마이크로폰들 (120), 카메라 (140), 하나 이상의 스피커들 (160), 디스플레이 디바이스 (162), 및 입력 디바이스 (130) 가 디바이스 (102)에 결합되는 것으로서 예시되지만, 다른 구현들에서, 하나 이상의 마이크로폰들 (120), 카메라 (140), 하나 이상의 스피커들 (160), 디스플레이 디바이스 (162), 입력 디바이스 (130), 또는 이들의 조합이 디바이스 (102)에 통합될 수도 있다. 시스템(100)의 다양한 구현들은 더 적은, 추가적인, 또는 상이한 컴포넌트들을 포함할 수도 있다. 예를 들어, 일부 구현들에서, 지향성 데이터 업데이터(150), 카메라(140) 또는 양자 모두는 생략될 수 있다.

도 2a를 참조하면, GUI(161)의 예가 도시되어 있다. 특정 양태에서, 그래픽 사용자 인터페이스 (161) 는 도 1 의 오디오 인핸서 (192), 하나 이상의 프로세서들 (190), 디바이스 (102), 시스템 (100), 또는 이들의 조합에 의해 생성된다.

그래픽 사용자 인터페이스(161)는 도 1의 이미지 데이터(145)에 대응하는 이미지들을 디스플레이하도록 구성된 비디오 디스플레이(204)를 포함한다. 예를 들어, 비디오 디스플레이(204)는 오디오 소스(184)의 이미지들을 디스플레이한다. 그래픽 사용자 인터페이스(161)는 오디오 줌 동작을 개시하는 데 사용될 수 있는 줌 선택기(202)를 포함한다. 예를 들어, 도 1의 사용자(101)는 오디오 소스(184)로 줌인하기 위해 줌 선택기(202)를 위로 또는 오디오 소스(184)로부터 줌아웃하기 위해 아래로 이동시킬 수 있다. 특정 양태에서, 줌 선택기(202)를 위로 이동시키는 것은 줌 배향(137)에 대한 제 1 값(예를 들어, 0도, 전방, 또는 줌 인)을 선택하는 것에 대응하고, 줌 선택기(202)를 아래로 이동시키는 것은 줌 배향(137)에 대한 제 2 값(예를 들어, 180도, 후방, 또는 줌 아웃)을 선택하는 것에 대응한다. 줌 선택기(202)의 이동량은 줌 거리(135)를 나타낸다. 줌 타겟(133)은 줌 거리(135), 줌 배향(137), 또는 양자 모두를 포함한다.

도 2b를 참조하면, 그래픽 사용자 인터페이스(161)의 예가 도시되어 있다. 특정 양태에서, 그래픽 사용자 인터페이스 (161) 는 도 1 의 오디오 인핸서 (192), 하나 이상의 프로세서들 (190), 디바이스 (102), 시스템 (100), 또는 이들의 조합에 의해 생성된다.

그래픽 사용자 인터페이스(161)는 사용자(101)가 오디오 줌 동작을 개시하기 위해 줌 선택기(202)를 이동시켰음을 나타낸다. 예를 들어, 사용자(101)는 줌 배향(137)(예를 들어, 전방, 0도, 또는 줌 인) 및 줌 거리(135)(예를 들어, 2피트)의 선택에 대응하여 줌 선택기(202)를 위로 이동시키기 위해 입력 디바이스(130)를 사용하고, 입력 디바이스(130)는 줌 타겟(133)을 나타내는 사용자 입력(131)을 오디오 인핸서(192)에 제공한다. 줌 타겟(133)은 (예를 들어, 줌 선택기(202)의 이동량에 기초하여) 줌 배향(137)(예를 들어, 0도, 전방, 또는 줌 인) 및 줌 거리(135)를 나타낸다. 지향성 분석기(152)는 도 4를 참조하여 추가로 설명되는 바와 같이, 줌 타겟(133)에 적어도 부분적으로 기초하여 등화기 설정들(153)을 생성한다. 등화기(148)는, 도 1을 참조하여 설명된 바와 같이, 하나 이상의 등화기 입력 오디오 신호들(147)에 등화기 설정들(153)을 적용함으로써 하나 이상의 출력 오디오 신호들(138)을 생성(예를 들어, 업데이트)한다. 등화기(148)는 하나 이상의 출력 오디오 신호들(138)을 하나 이상의 스피커들(160)에 제공한다.

특정 양태에서, 하나 이상의 프로세서들 (190) 은, 사용자 입력 (131)에 응답하여, 이미지 데이터 (145)에 대해 이미지 줌 동작을 수행하고, 등화기 (148) 가 하나 이상의 출력 오디오 신호들 (138) 을 하나 이상의 스피커들 (160)에 제공하는 것과 동시에 이미지 데이터 (145) 의 줌된 버전을 디스플레이하도록 비디오 디스플레이 (204) 를 업데이트한다. 예시된 바와 같이, 오디오 소스(184)는 도 2a와 비교하여 도 2b의 비디오 디스플레이(204)에서 확대되어, 오디오 줌 동작이 오디오 소스(184)로 줌인되었음을 나타낸다.

줌 선택기(202)는 줌 타겟(133)을 선택하는 예시적인 예로서 제공된다. 다른 구현들에서, 사용자(101)는 줌 타겟(133)을 특정하는 다른 방식들을 사용할 수도 있다. 특정 예에서, 그래픽 사용자 인터페이스(161)는 터치스크린(예를 들어, 입력 디바이스(130)) 상에 디스플레이되고, 사용자(101)는 줌 타겟(133)을 특정하기 위해 터치스크린과 상호 작용(예를 들어, 탭핑 또는 핀치 줌 제스처를 사용)한다. 예를 들어, 사용자(101)는 줌 타겟(133)으로서 줌 위치(136), 오디오 소스(184), 또는 양자 모두의 선택에 대응하는 비디오 디스플레이(204) 상의 위치를 선택하기 위해 터치 스크린을 탭할 수 있다. 다른 예로서, 사용자(101)는 줌 배향(137)의 제 1 값(예를 들어, 전방, 0도, 또는 줌 인)을 표시하기 위해 제 1 핀치-줌(예를 들어, 넓어짐) 제스처를 사용하거나, 줌 배향(137)의 제 2 값(예를 들어, 후방, 180도, 또는 줌 아웃)을 표시하기 위해 제 2 핀치-줌(예를 들어, 좁어짐) 제스처를 사용할 수 있다. 핀치 줌 제스처(pinch-zoom gesture)의 거리는 줌 거리(135)를 나타낸다. 줌 타겟(133)은 줌 거리(135), 줌 배향(137), 또는 양자 모두를 포함한다.

특정 예에서, 사용자(101)는 줌 타겟(133)으로서 줌 위치(136), 오디오 소스(184), 또는 양자 모두의 식별자(예를 들어, 명칭)를 나타내는 사용자 입력(예를 들어, 음성 명령, 옵션 선택, 또는 양자 모두)을 제공한다. 오디오 인핸서(192)는 이미지 데이터(145)에 대한 이미지 인식, 입력 오디오 신호들(126)의 오디오 분석, 또는 양자 모두를 수행하여 오디오 소스(184), 줌 위치(136), 또는 양자 모두를 식별한다. 예를 들어, 사용자(101)는 오디오 소스(184)(예를 들어, "Sarah Lee")의 식별자(예를 들어, 연락처 이름)를 갖는 사용자 입력(예를 들어, "zoom to Sarah Lee")을 제공한다. 오디오 인핸서(192)는 오디오 소스(184)에 대응하는 이미지 데이터(145)의 부분들(예를 들어, "Sarah Lee")을 식별하기 위해 이미지 데이터(145)에 대해 이미지 인식(예를 들어, 사람 인식 또는 객체 인식)을 수행하거나, 오디오 소스(184)에 대응하는 입력 오디오 신호들(126)의 부분들(예를 들어, "Sarah Lee")을 식별하기 위해 입력 오디오 신호들(126)에 대해 음성 인식을 수행하거나, 또는 양자 모두를 수행한다. 줌 타겟(133)은 오디오 소스(184)를 포함한다.

도 3 을 참조하면, 도 1 의 시스템 (100) 의 컴포넌트들의 다이어그램 (300) 이 특정 구현에 따라 도시된다. 등화 전 신호 프로세서 (146) 는 공간 분석기 (340), 활동(activity) 검출기 (342), 이득 조정기 (344), 노이즈 억제기 (346), 컨텍스트 검출기 (350), 또는 이들의 조합을 포함한다. 컨텍스트 검출기(350)는 소스 검출기(362), 소스 포지션 검출기(364), 또는 양자 모두를 포함한다. 도 3에서 점선으로 도시된 컴포넌트들 중 하나 이상은 일부 구현들에서 생략될 수 있다.

공간 분석기 (340) 는 하나 이상의 빔포밍된 오디오 신호들 (341) 을 생성하기 위해 하나 이상의 입력 오디오 신호들 (126)에 빔포밍을 적용하도록 구성된다. 특정 양태에서, 공간 분석기 (340) 는 줌 타겟 (133)에 기초하여 빔포밍을 적용한다. 예를 들어, 공간 분석기 (340) 는 하나 이상의 빔포밍된 오디오 신호들 (341) 이 줌 배향 (137) 주위에서 캡처된 사운드를 나타내도록 도 1 의 줌 배향 (137)에 기초하여 빔포밍을 적용한다. 공간 분석기 (340) 는 하나 이상의 빔포밍된 오디오 신호들 (341) 을 등화 전 신호 프로세서 (146) 의 하나 이상의 컴포넌트들에 또는 등화기 (148)에 제공한다. 예를 들어, 공간 분석기(340)는 하나 이상의 빔포밍된 오디오 신호들(341)을 하나 이상의 활동 입력 오디오 신호들(361)로서 활동 검출기(342)에, 하나 이상의 이득 조정기 입력 오디오 신호들(363)로서 이득 조정기(344)에, 하나 이상의 컨텍스트 검출기 입력 오디오 신호들(369)로서 컨텍스트 검출기(350)에, 하나 이상의 노이즈 억제 입력 오디오 신호들(365)로서 노이즈 억제기(346)에, 하나 이상의 등화기 입력 오디오 신호들(147)로서 등화기(148)에, 또는 이들의 조합으로서 제공한다.

활동 검출기(342)는 하나 이상의 활동 입력 오디오 신호들(361)에서 활동을 검출하도록 구성된다. 특정 구현에서, 하나 이상의 활동 입력 오디오 신호들(361)은 하나 이상의 입력 오디오 신호들(126)을 포함한다. 대안적인 구현에서, 하나 이상의 활동 입력 오디오 신호들(361)은 하나 이상의 빔포밍된 오디오 신호들(341)을 포함한다.

활동 검출기(342)는 하나 이상의 활동 입력 오디오 신호들(361)에서 검출된 활동에 기초하여 하나 이상의 활동 오디오 신호들(343)을 생성하도록 구성된다. 특정 예에서, 활동 검출기(342)(예를 들어, 스피치 활동 검출기)는 하나 이상의 활동 입력 오디오 신호(361)의 제 1 활동 입력 오디오 신호에서 스피치를 검출하고, 스피치를 포함하는 하나 이상의 활동 오디오 신호(343)의 제 1 활동 오디오 신호 및 제 1 활동 입력 오디오 신호의 나머지 사운드들을 포함하는 제 2 활동 오디오 신호를 생성하도록 구성된다. 예시를 위해, 제 1 활동 오디오 신호는 감소되거나 나머지 사운드들을 포함하지 않고, 제 2 활동 오디오 신호는 감소되거나 스피치를 포함하지 않는다.

특정 구현에서, 활동 검출기(342)는 다양한 타입들의 오디오 소스들, 동일한 타입의 다양한 오디오 소스들, 또는 양자 모두에 대응하는 사운드들을 검출하도록 구성된다. 예시적인 예에서, 활동 검출기(342)는 하나 이상의 활동 입력 오디오 신호들(361) 중 제 1 활동 입력 오디오 신호에서, 제 1 발화자와 연관된 제 1 스피치, 제 2 발화자와 연관된 제 2 스피치, 악기와 연관된 음악 사운드들, 새와 연관된 새 사운드들, 또는 이들의 조합을 검출하도록 구성된다. 활동 검출기(342)는 제 1 스피치를 포함하는 제 1 활동 오디오 신호(예를 들어, 나머지 사운드들이 없거나 감소된 것), 제 2 스피치를 포함하는 제 2 활동 오디오 신호(예를 들어, 나머지 사운드들이 없거나 감소된 것), 음악 사운드를 포함하는 제 3 활동 오디오 신호(예를 들어, 나머지 사운드들이 없거나 감소된 것), 새 사운드들을 포함하는 제 4 활동 오디오 신호(예를 들어, 나머지 사운드들이 없거나 감소된 것), 제 1 활동 입력 오디오 신호의 나머지 사운드들을 포함하는 제 5 활동 오디오 신호, 또는 이들의 조합을 생성하도록 구성된다. 하나 이상의 활동 오디오 신호(343)는 제 1 활동 오디오 신호, 제 2 활동 오디오 신호, 제 3 활동 오디오 신호, 제 4 활동 오디오 신호, 제 5 활동 오디오 신호, 또는 이들의 조합을 포함한다.

활동 검출기(342)는 하나 이상의 활동 오디오 신호들(343)을 등화 전 신호 프로세서(146)의 하나 이상의 컴포넌트들에, 등화기(148)에, 또는 이들의 조합에 제공한다. 예를 들어, 활동 검출기(342)는 하나 이상의 활동 오디오 신호들(343)을 하나 이상의 이득 조정기 입력 오디오 신호들(363)로서 이득 조정기(344)에, 하나 이상의 컨텍스트 검출기 입력 오디오 신호들(369)로서 컨텍스트 검출기(350)에, 하나 이상의 노이즈 억제 입력 오디오 신호들(365)로서 노이즈 억제기(346)에, 하나 이상의 등화기 입력 오디오 신호들(147)로서 등화기(148)에, 또는 이들의 조합으로서 제공한다.

이득 조정기 (344) 는 하나 이상의 이득 조정기 입력 오디오 신호들 (363)에 하나 이상의 이득들을 적용한다. 하나 이상의 이득 조정기 입력 오디오 신호들 (363) 은 하나 이상의 입력 오디오 신호들 (126), 하나 이상의 빔포밍된 오디오 신호들 (341), 또는 하나 이상의 활동 오디오 신호들 (343) 을 포함한다. 이득 조정기(344)는 줌 타겟(133)에 기초하여 하나 이상의 이득들을 적용한다. 예를 들어, 오디오 줌 동작이 줌 타겟 (133)에 대한 줌인에 대응할 때, 이득 조정기 (344) 는 줌 배향 (137) 으로부터의 사운드들에 대응하는 하나 이상의 이득 조정기 입력 오디오 신호들 (363) 의 제 1 입력 오디오 신호들의 이득들을 증가시키거나, 나머지 방향들로부터의 사운드들에 대응하는 하나 이상의 이득 조정기 입력 오디오 신호들 (363) 의 제 2 입력 오디오 신호들의 이득들을 감소시키거나, 또는 양자 모두이다. 다른 예에서, 오디오 줌 동작이 줌 타겟 (133) 으로부터 멀어지는 줌에 대응할 때, 이득 조정기 (344) 는 줌 배향 (137) 으로부터의 사운드들에 대응하는 하나 이상의 이득 조정기 입력 오디오 신호들 (363) 의 제 1 입력 오디오 신호들의 이득들을 감소시키거나, 나머지 방향들로부터의 사운드들에 대응하는 하나 이상의 이득 조정기 입력 오디오 신호들 (363) 의 제 2 입력 오디오 신호들의 이득들을 증가시키거나, 또는 양자 모두이다. 특정 양태에서, 이득 조정량은 줌 거리 (135)에 기초한다.

이득 조정기 (344) 는 하나 이상의 이득 조정된 오디오 신호들 (345) 을 사전 등화 신호 프로세서 (146) 의 하나 이상의 컴포넌트들, 등화기 (148), 또는 이들의 조합에 제공한다. 예를 들어, 이득 조정기(344)는 하나 이상의 컨텍스트 검출기 입력 오디오 신호들(369)로서 하나 이상의 이득 조정된 오디오 신호들(345)을 컨텍스트 검출기(350)에, 하나 이상의 노이즈 억제 입력 오디오 신호들(365)을 노이즈 억제기(346)에, 하나 이상의 등화기 입력 오디오 신호들(147)을 등화기(148)에, 또는 이들의 조합으로서 제공한다.

컨텍스트 검출기(350)는 컨텍스트 데이터(351)를 생성하기 위해 하나 이상의 컨텍스트 검출기 입력 오디오 신호(369), 이미지 데이터(145) 또는 이들의 조합을 프로세싱한다. 특정 양태에서, 하나 이상의 컨텍스트 검출기 입력 오디오 신호들 (369) 은 하나 이상의 입력 오디오 신호들 (126), 하나 이상의 빔포밍된 오디오 신호들 (341), 하나 이상의 활동 오디오 신호들 (343), 또는 하나 이상의 이득 조정된 오디오 신호들 (345) 을 포함한다.

소스 검출기(362)는 하나 이상의 컨텍스트 검출기 입력 오디오 신호(369), 이미지 데이터(145) 또는 이들의 조합에 대해 오디오 소스 인식을 수행하여 오디오 소스(184)와 같은 하나 이상의 오디오 소스들의 오디오 소스 타입을 식별한다. 예를 들어, 소스 검출기(362)는 이미지 데이터(145)에 대한 이미지 분석(예를 들어, 객체 인식 및 거리 분석)을 수행하여 이미지 데이터(145)가 카메라(140)에 대한 제 1 위치에서의 오디오 소스 타입(예를 들어, 인간 발화자)을 나타낸다고 결정한다. 특정 양태에서, 소스 검출기 (362) 는 하나 이상의 컨텍스트 검출기 입력 오디오 신호들 (369)에 대해 사운드 분석 (예를 들어, 오디오 소스 인식 및 거리 분석) 을 수행하여 하나 이상의 컨텍스트 검출기 입력 오디오 신호들 (369) 이 하나 이상의 마이크로폰들 (120)에 대한 제 2 위치로부터의 오디오 소스 타입과 매칭하는 사운드들을 포함한다고 결정한다. 특정 양태에서, 소스 검출기 (362) 는 카메라 (140)에 대한 제 1 위치가 하나 이상의 마이크로폰들 (120)에 대한 제 2 위치와 동일한 물리적 위치에 대응한다고 결정한다. 소스 검출기 (362) 는 오디오 소스 타입, 카메라 (140)에 대한 제 1 위치, 하나 이상의 마이크로폰들 (120)에 대한 제 2 위치, 물리적 위치, 또는 이들의 조합을 나타내는 소스 검출 데이터를 소스 포지션 검출기 (364)에 제공한다.

소스 포지션 검출기(364)는 카메라(140)에 대한 이미지 데이터(145) 내의 오디오 소스(184)의 배향을 검출하기 위해 이미지 분석을 수행한다. 예시를 위해, 오디오 소스(184)가 인간 발화자에 대응하면, 소스 포지션 검출기(364)는 이미지 데이터(145)에 대한 이미지 인식을 수행함으로써 인간 발화자의 머리의 배향(예를 들어, 카메라(140)를 향해 보거나 카메라(140)로부터 멀리 봄)을 추정한다.

예시적인 예에서, 소스 포지션 검출기(364)는 카메라(140)에 대한 오디오 소스(184)의 배향 및 카메라(140)와 하나 이상의 마이크로폰(120)의 위치의 차이에 기초하여 하나 이상의 마이크로폰(120)에 대한 오디오 소스(184)의 배향을 결정한다. 컨텍스트 검출기 (350) 는 하나 이상의 마이크로폰들 (120)에 대한 제 2 위치가 하나 이상의 마이크로폰들 (120) 로부터의 오디오 소스 (184) 의 거리를 나타낸다고 결정한다. 컨텍스트 검출기(350)는 하나 이상의 마이크로폰들(120)로부터의 오디오 소스(184)의 거리, 하나 이상의 마이크로폰들(120)에 대한 오디오 소스(184)의 배향, 오디오 소스(184)의 오디오 소스 타입, 또는 이들의 조합을 표시하는 컨텍스트 데이터(351)를 생성한다. 컨텍스트 검출기(350)는 컨텍스트 데이터(351)를 지향성 분석기(152)에 제공한다.

노이즈 억제기 (346) 는 하나 이상의 노이즈 억제된 오디오 신호들 (347) 을 생성하기 위해 하나 이상의 노이즈 억제 입력 오디오 신호들 (365)에 대해 노이즈 억제를 수행한다. 특정 양태에서, 하나 이상의 노이즈 억제 입력 오디오 신호들 (365) 은 하나 이상의 입력 오디오 신호들 (126), 하나 이상의 빔포밍된 오디오 신호들 (341), 하나 이상의 활동 오디오 신호들 (343), 또는 하나 이상의 이득 조정된 오디오 신호들 (345) 을 포함한다. 노이즈 억제기(346)는 하나 이상의 노이즈 억제된 오디오 신호들(347)을 하나 이상의 등화기 입력 오디오 신호들(147)로서 등화기(148)에 제공한다.

등화 전 신호 프로세서(146)의 컴포넌트들의 동작들의 특정 순서는 예시적인 예로서 제공된다. 다른 예들에서, 등화 전 신호 프로세서(146)의 컴포넌트들의 동작들의 순서는 상이할 수 있다. 특정 예에서, 줌 타겟(133)은 오디오 소스(184)의 선택을 나타낸다. 컨텍스트 검출기(350)는 줌 타겟(133)에 기초하여, 오디오 소스(184)의 오디오 소스 타입(예를 들어, 인간 발화자 또는 새)을 활동 검출기(342)에 제공한다. 활동 검출기(342)는 오디오 소스 타입의 사운드들에 대응하는(예를 들어, 나머지 사운드들이 감소되거나 없는) 하나 이상의 활동 오디오 신호들(343)의 제 1 활동 신호들, 나머지 사운드들에 대응하는(예를 들어, 오디오 소스 타입의 사운드들이 없거나 또는 감소된 사운드들을 갖는) 제 2 활동 신호들, 또는 조합을 생성한다. 활동 검출기(342)는 하나 이상의 활동 오디오 신호들(343)을 이득 조정기(344)에 제공한다. 이득 조정기(344)는, 오디오 줌 동작이 줌 타겟(133)을 향해 주밍(zooming)하는 것을 포함한다고 결정하는 것에 응답하여, 제 1 활동 신호들의 이득을 증가시키거나, 제 2 활동 신호들의 이득을 감소시키거나, 또는 양자 모두를 행한다. 대안적으로, 이득 조정기(344)는, 오디오 줌 동작이 줌 타겟(133)으로부터 멀리 주밍하는 것을 포함한다고 결정하는 것에 응답하여, 제 1 활동 신호들의 이득을 감소시키고, 제 2 활동 신호들의 이득을 증가시키거나, 또는 양자 모두를 행한다.

특정 양태에서, 지향성 분석기 (152) 는 도 4 를 참조하여 추가로 설명되는 바와 같이, 오디오 소스 (184) 의 오디오 소스 타입에 기초하여 지향성 데이터 (141) 를 획득한다. 지향성 분석기(152)는, 도 4를 참조하여 추가로 설명되는 바와 같이, 지향성 데이터(141)에 기초하여 등화기 설정들(153)을 생성한다. 지향성 분석기(152)는 등화기 설정들(153)을 등화기(148)에 제공한다.

등화기(148)는 하나 이상의 출력 오디오 신호들(138)을 생성하기 위해 하나 이상의 등화기 입력 오디오 신호들(147)에 등화기 설정들(153)을 적용한다. 특정 양태에서, 하나 이상의 등화기 입력 오디오 신호들 (147) 은 하나 이상의 입력 오디오 신호들 (126), 하나 이상의 활동 오디오 신호들 (343), 하나 이상의 이득 조정된 오디오 신호들 (345), 또는 하나 이상의 노이즈 억제된 오디오 신호들 (347) 을 포함한다.

따라서, 등화 전 신호 프로세서(146)는 등화를 수행하기 전에 빔포밍, 이득 조정, 노이즈 감소, 또는 이들의 조합에 의해 오디오 인핸서(192)의 성능을 개선하기 위해 등화 전 신호 프로세싱을 수행한다. 특정 양태에서, 등화 전 신호 프로세서(146)는 지향성 분석기(152)가 하나 이상의 오디오 소스들의 오디오 소스 타입들의 지향성에 기초하여 등화기 설정들(153)을 결정할 수 있게 하기 위해 컨텍스트 데이터(351)를 결정한다.

일부 구현들에서, 등화 전 신호 프로세서(146)는 생략될 수 있다. 일 예로서, 지향성 분석기(152)는 디폴트 지향성 데이터에 기초하여 등화기 설정들(153)을 생성하고, 등화기(148)는 하나 이상의 출력 오디오 신호들(138)을 생성하기 위해 하나 이상의 입력 오디오 신호들(126)에 등화기 설정들(153)을 적용한다(예를 들어, 그의 중간 주파수들을 조정한다).

일부 구현들에서, 등화 전 신호 프로세서(146)의 하나 이상의 컴포넌트들은 생략될 수 있다. 일 예에서, 공간 분석기 (340) 및 활동 검출기 (342) 는 생략되고, 하나 이상의 입력 오디오 신호들 (126) 은 하나 이상의 이득 조정기 입력 오디오 신호들 (363) 로서 이득 조정기 (344)에 제공된다. 일부 구현들에서, 공간 분석기(340)는 생략되고, 하나 이상의 입력 오디오 신호들(126)은 하나 이상의 활동 입력 오디오 신호들(361)로서 활동 검출기(342)에 제공된다. 일부 구현들에서, 활동 검출기 (342) 는 생략되고, 하나 이상의 빔포밍된 오디오 신호들 (341) 은 하나 이상의 이득 조정기 입력 오디오 신호들 (363) 로서 이득 조정기 (344)에 제공된다. 일부 구현들에서, 이득 조정기(344)는 생략되고, 하나 이상의 활동 오디오 신호들(343)은 하나 이상의 컨텍스트 검출기 입력 오디오 신호들(369)로서 컨텍스트 검출기(350)에 그리고 하나 이상의 노이즈 억제 입력 오디오 신호들(365)로서 노이즈 억제기(346)에 제공된다. 컴포넌트들의 특정 조합들은 예시적인 예들로서 설명된다. 다른 구현들에서, 컴포넌트들의 다른 조합들이 등화 전 신호 프로세서(146)에 포함된다.

도 4 를 참조하면, 도 1 의 시스템 (100) 의 컴포넌트들의 특정 예의 다이어그램 (400) 이 도시된다. 지향성 분석기(152)는 지향성 데이터(141), 컨텍스트 데이터(351) 및 사용자 입력(131)을 획득하는 것으로 예시되어 있다. 컨텍스트 데이터(351)는 오디오 소스(184)의 소스 포지션 데이터(420)를 포함한다. 예를 들어, 소스 포지션 데이터 (420) 는 도 3 을 참조하여 설명된 바와 같이, 하나 이상의 마이크로폰들 (120)에 대한 (예를 들어, 0도 또는 그를 향하는) 오디오 소스 (184) 의 소스 배향 (422), 하나 이상의 마이크로폰들 (120) 로부터의 오디오 소스 (184) 의 소스 거리 (424) (예를 들어, 6 피트), 또는 양자 모두를 나타낸다.

도 3의 소스 포지션 검출기(364)는 소스 배향(422)(예를 들어, 0도) 및 줌 배향(137)(예를 들어, 0도)에 기초하여, 줌 위치(136)에 대한 오디오 소스(184)의 소스 배향(432)(예를 들어, 0도)을 결정한다. 소스 포지션 검출기(364)는 줌 거리(135)(예를 들어, 2피트), 줌 배향(137)(예를 들어, 0도), 및 소스 거리(424)(예를 들어, 6피트)에 기초하여 줌 위치(136)로부터 오디오 소스(184)의 소스 거리(434)(예를 들어, 4피트)를 결정한다.

특정한 양태에서, 지향성 분석기 (152) 는 오디오 소스 (184) 의 오디오 소스 타입에 기초하여 지향성 데이터 (141) 를 획득한다. 일 예로서, 사운드 지향성 패턴들(402)의 그래픽 묘사는 수평 평면 및 수직 평면에서의 오디오 소스 타입(예를 들어, 인간 발화자)의 주파수-의존 지향성을 나타낸다. 특정한 양태에서, 지향성 데이터 (141) 는 오디오 소스 타입의 다양한 배향들과 연관된 복수의 지향성 데이터 세트들을 포함한다. 지향성 분석기(152)는 지향성 데이터 세트(404)가 소스 배향(422) 및 소스 배향(432)과 매칭하는 오디오 소스 타입의 특정 배향(예를 들어, 축 상의, 수평 축 및 수직 축을 따른 0도)과 연관된다는 결정에 응답하여 지향성 데이터(141)로부터 지향성 데이터 세트(404)를 선택한다.

지향성 데이터 세트(404)의 그래픽 묘사는 특정 배향을 따른 특정 거리(예를 들어, 1 미터)로부터 다양한 거리들까지의 (예를 들어, 마이크로폰의) 거리에서의 변화들에 대응하는 오디오 소스 타입(예를 들어, 오디오 소스(184))의 주파수 응답 특성들을 나타낸다. 예를 들어, 지향성 데이터 세트(404)는 특정 배향(예를 들어, 축 상)을 따라 소스 거리(424)(예를 들어, 1 미터)로부터 소스 거리(434)(예를 들어, 1 센티미터)로의 변화에 대한 오디오 소스 타입(예를 들어, 오디오 소스(184))의 주파수 응답 특성들(449)을 나타낸다. 특정 양태에서, 주파수 응답 특성들 (449) 은 다양한 사운드 주파수들에 대한 라우드니스 (예를 들어, 데시벨 (dB))에서의 변화들을 나타낸다. 예를 들어, 주파수 응답 특성들 (449) 은 특정 배향 (예를 들어, 축 상에서) 을 따라 소스 거리 (424) (예를 들어, 1 미터) 로부터 소스 거리 (434) (예를 들어, 1 센티미터) 를 향해 이동하는 것이 특정 주파수 (예를 들어, 500 헤르츠 (Hz))에 대한 라우드니스의 강하 (예를 들어, - 0.2 dB), 다른 주파수 범위 (예를 들어, 800 Hz 내지 1 킬로헤르츠 (kHz))에 대한 라우드니스의 상승 (예를 들어, + 4 dB), 또는 양자 모두에 대응한다는 것을 나타낸다. 특정 예에서, 주파수 응답 특성들(449)은 특정 배향(예를 들어, 축 상)을 따라 소스 거리(424)(예를 들어, 1 미터)로부터 소스 거리(434)(예를 들어, 1 센티미터)를 향해 이동하는 것이 다른 특정 주파수 범위(예를 들어, 200 Hz 내지 400 Hz)에 대한 라우드니스의 무시할 수 있는(예를 들어, 임계치 미만의) 변화들에 대응한다는 것을 나타낸다. 예시하자면, 특정 주파수 범위(예를 들어, 200 Hz 내지 400 Hz)에 대한 라우드니스에서의 변화들은 인간의 청각 시스템에 대해 지각가능하지 않을 수도 있다.

특정 예에서, 소스 배향(422)은 소스 배향(432)과 매칭하고, 지향성 분석기(152)는 특정 배향(예를 들어, 소스 배향(422) 및 소스 배향(432))을 따른 소스 거리에서의 변화에 대응하는 지향성 데이터 세트(404)를 선택한다. 이 예에서, 지향성 데이터 세트(404)는 특정 배향(예를 들어, 소스 배향(422) 및 소스 배향(432))을 따른 소스 거리에서의 변화(예를 들어, 소스 거리(424)로부터 소스 거리(434)까지)에 대응하는 주파수 응답 특성들(449)을 표시한다. 일부 다른 예들에서, 소스 배향(422)은 도 6을 참조하여 추가로 설명되는 바와 같이 소스 배향(432)과 상이하고, 지향성 분석기(152)는 (예를 들어, 소스 거리(424)로부터 소스 거리(434)로의) 소스 거리의 변화 및 (예를 들어, 소스 배향(422)으로부터 소스 배향(432)으로의) 소스 배향의 변화에 대응하는 주파수 응답 특성들(449)을 표시하는 지향성 데이터(141)로부터 지향성 데이터 세트를 선택한다.

특정 양태에서, 지향성 분석기 (152) 는 메모리 (132), 다른 디바이스, 네트워크, 또는 이들의 조합으로부터 등화기 설정 데이터 (149) 를 획득한다. 특정 구현에서, 등화기 설정 데이터(149)는 컨텍스트 데이터(351)(예를 들어, 오디오 소스(184)의 오디오 소스 타입), 지향성 데이터(141)(예를 들어, 지향성 데이터 세트(404)), 줌 거리(135), 소스 거리(424), 소스 거리(434), 줌 배향(137), 소스 배향(422), 소스 배향(432), 주파수 응답 특성들(예를 들어, 주파수 응답 특성들(449)), 또는 이들의 조합을 등화기 설정들(153)과 연관시킨다. 지향성 분석기(152)는, 등화기 설정 데이터(149)에 기초하여, 오디오 소스(184)의 오디오 소스 타입, 줌 거리(135), 소스 거리(424), 소스 거리(434), 줌 배향(137), 소스 배향(422), 소스 배향(432), 주파수 응답 특성들(449), 또는 이들의 조합에 매칭되는 등화기 설정들(153)을 선택한다.

특정 양태에서, 지향성 분석기(152)는, 등화기 설정 데이터(149)에 기초하여, 주파수 응답 특성들(449)과 매칭되는 등화기 설정들(153)을 선택한다. 예를 들어, 등화기 설정들(153)은 특정 주파수(예를 들어, 500Hz)에 대한 라우드니스의 강하(예를 들어, - 0.2dB), 제 1 주파수 범위(예를 들어, 800Hz 내지 1킬로헤르츠(kHz))에 대한 라우드니스의 상승(예를 들어, + 4dB), 제 2 주파수 범위(예를 들어, 200Hz 내지 400Hz)에 대한 라우드니스의 어떠한 변화들도 없음, 또는 이들의 조합에 대응한다. 따라서, 지향성 분석기(152)는 등화기 설정들(153)을 적용하여 하나 이상의 마이크로폰들(120)을 줌 위치(136)로(또는 줌 위치에 더 가깝게) 이동시키는 것의 주파수 응답 특성들에 근사하도록 등화기 설정들(153)을 생성한다.

도 5 를 참조하면, 도 1 의 시스템 (100) 의 컴포넌트들의 특정 예의 다이어그램 (500) 이 도시된다. 지향성 데이터(141)의 지향성 데이터 세트(504)의 그래픽 묘사는 특정 배향(예를 들어, - 45도 수평축 및 0도 수직축)에 대한 오디오 소스(184)의 오디오 소스 타입(예를 들어, 인간 발화자)의 주파수 응답 특성들을 나타낸다. 예를 들어, 지향성 데이터 세트(504)는 특정 배향을 따라 특정 거리(예를 들어, 1 미터)로부터 다양한 거리들까지의 (예를 들어, 마이크로폰의) 거리의 변화들에 대응하는 주파수 응답 특성들을 나타낸다.

도 3의 컨텍스트 검출기(350)는 도 3을 참조하여 설명된 바와 같이 오디오 소스(184)의 소스 포지션 데이터(520)를 결정한다. 예를 들어, 소스 포지션 데이터 (520) 는 오디오 소스 (184) 가 하나 이상의 마이크로폰들 (120) 의 위치(134)에 대해 소스 배향 (522) (예를 들어, - 45 도 수평 축 및 0 도 수직 축) 으로 소스 거리 (424) (예를 들어, 1 미터)에 대략적으로 위치됨을 나타낸다. 소스 포지션 데이터(520)는 오디오 소스(184)가 줌 위치(136)에 대해 소스 배향(532)(예를 들어, - 45도 수평 축 및 0도 수직 축)으로 소스 거리(434)(예를 들어, 10 센티미터)에 대략적으로 위치됨을 나타낸다.

지향성 분석기(152)는 소스 배향(422)(예를 들어, 수평축 상의 - 45도 및 수직축 상의 0도) 및 소스 배향(432)(예를 들어, 수평축 상의 - 45도 및 수직축 상의 0도)이 지향성 데이터 세트(504)와 연관된 특정 배향(예를 들어, - 45도 수평축 및 0도 수직축)과 일치한다는 결정에 응답하여 지향성 데이터(141)로부터 지향성 데이터 세트(504)를 선택한다. 지향성 데이터 세트(504)는 특정 배향(예를 들어, 수평축 상에서 - 45도 및 수직축 상에서 0도)을 따라 소스 거리(424)(예를 들어, 1 미터)로부터 소스 거리(434)(예를 들어, 1 센티미터)로의 변화에 대한 주파수 응답 특성들(549)을 표시한다. 특정 양태에서, 주파수 응답 특성들 (549) 은 소스 거리 (424) (예를 들어, 1 미터) 로부터 소스 거리 (434) (예를 들어, 1 센티미터) 를 향해 특정 배향 (예를 들어, 수평축 상에서 - 45 도 및 수직축 상에서 0 도) 을 따라 이동하는 것이 제 1 주파수 (예를 들어, 500 Hz)에 대한 라우드니스의 강하 (예를 들어, - 0.2 dB), 제 2 주파수 (예를 들어, 800 Hz)에 대한 라우드니스의 제 1 상승 (예를 들어, + 2 dB), 제 3 주파수 (예를 들어, 1 kHz)에 대한 라우드니스의 제 2 상승 (예를 들어, + 4 dB), 특정 주파수 범위 (예를 들어, 200 Hz 내지 315 Hz)에 대한 라우드니스의 무시할 수 있는 (예를 들어, 임계치 미만) 변화, 또는 이들의 조합에 대응한다는 것을 나타낸다.

특정 양태에서, 지향성 분석기(152)는, 등화기 설정 데이터(149)에 기초하여, 주파수 응답 특성들(549)과 매칭되는 등화기 설정들(153)을 선택한다. 예를 들어, 등화기 설정들(153)은 제 1 주파수(예를 들어, 500Hz)에 대한 라우드니스의 강하(예를 들어, - 0.2dB), 제 2 주파수(예를 들어, 800Hz)에 대한 라우드니스의 제 1 상승(예를 들어, + 2dB), 제 3 주파수에 대한 라우드니스의 제 2 상승(예를 들어, + 4dB), 특정 주파수 범위(예를 들어, 200Hz 내지 315Hz)에 대한 라우드니스의 무변화, 또는 이들의 조합에 대응한다. 따라서, 지향성 분석기(152)는 지향성 데이터 세트(504)에 기초하여 등화기 설정들(153)을 생성하여, 등화기 설정들(153)을 적용하는 것이 오디오 소스(184)가 하나 이상의 마이크로폰들(120)에 대한 특정 배향(예를 들어, 수평축 상에서 45도 및 수직축 상에서 0도)을 가질 때 하나 이상의 마이크로폰들(120)을 줌 위치(136)로(또는 줌 위치에 더 가깝게) 이동시키는 주파수 응답 특성들을 근사화하도록 한다.

도 6 을 참조하면, 도 3 의 컨텍스트 검출기 (350) 가 도 3 의 하나 이상의 컨텍스트 검출기 입력 오디오 신호들 (369)에 기초하여 다수의 오디오 소스들, 예를 들어 오디오 소스 (184) 및 오디오 소스 (684) 를 검출한 구현에 따라 도 1 의 시스템 (100) 의 컴포넌트들의 예의 다이어그램 (600) 이 도시된다.

컨텍스트 검출기(350)는 도 3을 참조하여 설명된 것과 유사한 방식으로 오디오 소스(684)의 소스 포지션 데이터(620)를 결정한다. 예를 들어, 소스 포지션 데이터 (620) 는 오디오 소스 (684) 가 하나 이상의 마이크로폰들 (120) 의 위치 (134)에 대해 소스 배향 (622) (예를 들어, -30 도 수평 축 및 0 도 수직 축) 을 갖는 소스 거리 (624) (예를 들어, 2 미터)에 대략적으로 위치됨을 나타낸다. 특정 양태에서, 소스 포지션 데이터(620)는 오디오 소스(684)가 줌 위치(136)에 대해 소스 배향(632)(예를 들어, - 2도 수평축 및 0도 수직축)을 갖는 소스 거리(634)(예를 들어, 2.2 미터)에 대략적으로 위치됨을 나타낸다.

특정 구현에서, 줌 타겟(133)은 오디오 소스(184)를 나타내고, 지향성 분석기(152)는 등화기 설정들(153)을 결정할 때 오디오 소스(684)를 무시한다. 특정 양태에서, 하나 이상의 출력 오디오 신호들 (138) 은 오디오 소스 (684) 의 감소된 (예를 들어, 없는) 사운드들을 포함한다. 일 예로서, 활동 검출기(342)는 오디오 소스(684)의 사운드들이 감소된(예를 들어, 사운드들이 없는) 오디오 소스(184)의 사운드들에 대응하는 하나 이상의 활동 오디오 신호들(343)을 생성한다. 다른 예로서, 이득 조정기 (344) 는 오디오 소스 (684) 의 사운드들이 감소된 (예를 들어, 없는) 하나 이상의 이득 조정된 오디오 신호들 (345) 을 생성한다. 다른 예에서, 공간 분석기 (340) 는 오디오 소스 (684) 의 사운드들이 감소된 (예를 들어, 없는) 하나 이상의 빔포밍된 오디오 신호들 (341) 을 생성하기 위해 빔포밍을 적용한다. 이 구현에서, 지향성 분석기(152)는, 도 5를 참조하여 설명된 바와 같이, 지향성 데이터 세트(504) 및 소스 포지션 데이터(520)에 기초하여 등화기 설정들(153)을 생성한다.

특정 구현에서, 줌 타겟 (133) 은 오디오 소스 (184) 를 나타내고, 오디오 인핸서 (192) 는 오디오 소스 (684) 의 사운드들에 대한 거의 또는 전혀 변화 없이 오디오 소스 (184) 의 지향성에 기초하여 조정된 오디오 소스 (184) 의 사운드들로 하나 이상의 출력 오디오 신호들 (138) 을 생성한다. 일 예로서, 활동 검출기(342)는 오디오 소스(684)의 사운드들이 감소된(예를 들어, 없는) 오디오 소스(184)의 사운드들에 대응하는 하나 이상의 활동 오디오 신호들(343)의 제 1 서브세트 및 오디오 소스(184)의 사운드들이 감소된(예를 들어, 없는) (오디오 소스(684)의 사운드들을 포함하는) 나머지 사운드들에 대응하는 하나 이상의 활동 오디오 신호들(343)의 제 2 서브세트를 생성한다.

지향성 분석기(152)는, 도 5를 참조하여 설명된 바와 같이, 지향성 데이터 세트(504) 및 소스 포지션 데이터(520)에 기초하여 등화기 설정들(153)을 생성한다. 하나 이상의 등화기 입력 오디오 신호들(147)은 하나 이상의 활동 오디오 신호들(343)의 제 1 서브세트, 하나 이상의 활동 오디오 신호들(343)의 제 1 서브세트의 이득-조정된 버전, 하나 이상의 활동 오디오 신호들(343)의 제 1 서브세트의 노이즈-억제된 버전, 또는 이들의 조합을 포함한다. 등화기(148)는 등화기 설정들(153)을 하나 이상의 등화기 입력 오디오 신호들(147)에 적용함으로써 하나 이상의 출력 오디오 신호들(138)의 제 1 서브세트를 생성하고, 사용자(101)가 줌 위치(136)에 위치하는 것처럼 인지되는 오디오 소스(184)로부터의 심리음향 강화 버전의 사운드들을 생성한다.

하나 이상의 출력 오디오 신호들(138)의 제 2 서브세트는 하나 이상의 활동 오디오 신호들(343)의 제 2 서브세트에 기초하고 오디오 소스(684)로부터의 사운드들을 포함한다. 예를 들어, 하나 이상의 출력 오디오 신호들(138)의 제 2 서브세트는 하나 이상의 활동 오디오 신호들(343)의 제 2 서브세트, 하나 이상의 활동 오디오 신호들(343)의 제 2 서브세트의 이득-조정된 버전, 하나 이상의 활동 오디오 신호들(343)의 제 2 서브세트의 노이즈-억제된 버전, 또는 이들의 조합을 포함한다.

따라서, 하나 이상의 출력 오디오 신호들(138)은 하나 이상의 마이크로폰들(120)을 위치(134)로부터 줌 위치(136)로 이동시키고 오디오 소스(684)에 대한 변화들이 없는(또는 거의 없는) 것으로 오디오 소스(184)의 주파수 응답 특성들을 근사화한다. 이 구현에서, 오디오 줌 동작은 오디오 소스(684)에 대해 거의 또는 전혀 변화없이 오디오 소스(184)에 대해 줌하는 것으로 보인다. 예를 들어, 하나 이상의 출력 오디오 신호(138)에서의 오디오 소스(184)의 사운드는 줌 위치(136)에 대한 소스 배향(532)으로 대략 소스 거리(434)에서 오디오 소스(184)로부터 오는 것으로 보인다. 하나 이상의 출력 오디오 신호(138)에서 오디오 소스(684)의 사운드들은 줌 위치(136)에 대한 소스 방향(622)으로 대략적으로 소스 거리(624)에서 오디오 소스(684)로부터 오는 것으로 보인다.

다른 특정 구현에서, 줌 타겟 (133) 은 오디오 소스 (184) 를 나타내고, 오디오 인핸서 (192) 는, 오디오 소스 (184) 의 지향성에 기초하여 오디오 소스 (184) 의 사운드들을 조정하는 것 및 오디오 소스 (684) 의 지향성에 기초하여 조정된 오디오 소스 (684) 의 사운드들을 조정하는 것을 포함하는 동작에서 하나 이상의 출력 오디오 신호들 (138) 을 생성한다. 특정 양태에서, 오디오 소스(684)는 오디오 소스(184)와 동일한 오디오 소스 타입(예를 들어, 인간 발화자)을 갖는다. 이러한 양태에서, 지향성 분석기(152)는 오디오 소스(684)와 연관된 (예를 들어, 소스 배향(622)으로부터 소스 배향(632)으로의) 배향의 변화 및 (예를 들어, 소스 거리(624)로부터 소스 거리(634)로의) 거리의 변화와 매칭하는 지향성 데이터 세트(604)를 지향성 데이터(141)로부터 선택한다.

대안적인 양태에서, 오디오 소스(684)는 오디오 소스(184)의 제 1 오디오 소스 타입(예를 들어, 인간 발화자)과 상이한 제 2 오디오 소스 타입(예를 들어, 새)을 갖는다. 이러한 양태에서, 지향성 분석기(152)는 제 2 오디오 소스 타입과 연관된 제 2 지향성 데이터를 획득하고, (예를 들어, 소스 배향(622)으로부터 소스 배향(632)으로의) 배향에서의 그리고 소스 거리(624)로부터 다양한 거리들로의 변화에 대한 오디오 소스(684)의 주파수 응답 특성들을 표시하는 지향성 데이터 세트(604)를 제 2 지향성 데이터로부터 선택한다. 예시를 위해, 지향성 데이터 세트(604)는 (예를 들어, 소스 배향(622)으로부터 소스 배향(632)으로의) 배향의 변화 및 (예를 들어, 소스 거리(624)로부터 소스 거리(634)로의) 거리의 변화에 대한 주파수 응답 특성들(649)을 표시한다.

지향성 분석기(152)는, 등화기 설정 데이터(149)에 기초하여, 주파수 응답 특성들(649)과 매칭하는 등화기 설정들(653)을 결정한다. 지향성 분석기(152)는 오디오 소스(684)에 대응하는 등화기 설정들(653) 및 오디오 소스(184)에 대응하는 등화기 설정들(153)을 등화기(148)에 제공한다.

특정 양태에서, 활동 검출기 (342) 는 오디오 소스 (184) 의 사운드들 및 감소된 (예를 들어, 없는) 다른 사운드들에 대응하는 하나 이상의 활동 오디오 신호들 (343) 의 제 1 서브세트, 오디오 소스 (684) 의 사운드들 및 감소된 (예를 들어, 없는) 다른 사운드들에 대응하는 하나 이상의 활동 오디오 신호들 (343) 의 제 2 서브세트, 오디오 소스 (184) 및 오디오 소스 (684) 의 나머지 사운드들 및 감소된 (예를 들어, 없는) 사운드들에 대응하는 하나 이상의 활동 오디오 신호들 (343) 의 제 3 서브세트, 또는 이들의 조합을 생성한다. 특정 양태에서, 하나 이상의 등화기 입력 오디오 신호들 (147) 의 제 1 서브세트는 하나 이상의 활동 오디오 신호들 (343) 의 제 1 서브세트에 기초하고, 하나 이상의 등화기 입력 오디오 신호들 (147) 의 제 2 서브세트는 하나 이상의 활동 오디오 신호들 (343) 의 제 2 서브세트에 기초하고, 하나 이상의 등화기 입력 오디오 신호들 (147) 의 제 3 서브세트는 하나 이상의 활동 오디오 신호들 (343) 의 제 3 서브세트에 기초하고, 또는 이들의 조합이다. 등화기(148)는 오디오 소스(184)에 대응하는 하나 이상의 등화기 입력 오디오 신호(147)의 제 1 서브세트에 등화기 설정들(153)을, 오디오 소스(684)에 대응하는 하나 이상의 등화기 입력 오디오 신호(147)의 제 2 서브세트에 등화기 설정들(653)을, 나머지 오디오에 대응하는 하나 이상의 등화기 입력 오디오 신호(147)의 제 3 서브세트에 대해 변경이 없는 것, 또는 이들의 조합을 적용함으로써 하나 이상의 출력 오디오 신호(138)를 생성한다. 따라서, 등화기 설정들(153) 및 등화기 설정들(653)은 하나 이상의 출력 오디오 신호들(138)이 하나 이상의 마이크로폰들(120)을 위치(134)로부터 줌 위치(136)로 이동시키는 것과 연관된 오디오 소스(184) 및 오디오 소스(684)의 주파수 응답 특성들에 근사할 수 있게 한다. 예를 들어, 하나 이상의 출력 오디오 신호(138)에서의 오디오 소스(184)의 사운드들은 줌 위치(136)에 대한 소스 배향(532)으로 대략 소스 거리(434)에서 오디오 소스(184)로부터 오는 것으로 보인다. 하나 이상의 출력 오디오 신호(138)에서 오디오 소스(684)의 사운드들은 줌 위치(136)에 대한 소스 방향(632)으로 대략적으로 소스 거리(634)에서 오디오 소스(684)로부터 오는 것으로 보인다.

도 7 은 하나 이상의 프로세서들 (190) 을 포함하는 집적 회로 (702) 로서의 디바이스 (102) 의 구현 (700) 을 도시한다. 집적 회로(702)는 또한 하나 이상의 입력 오디오 신호(126)가 프로세싱을 위해 수신될 수 있게 하는 하나 이상의 버스 인터페이스와 같은 오디오 입력부(704)를 포함한다. 집적 회로(702)는 또한 하나 이상의 출력 오디오 신호들(138)과 같은 출력 신호의 전송을 가능하게 하는 버스 인터페이스와 같은 오디오 출력부(706)를 포함한다. 집적 회로(702)는 도 8에 도시된 바와 같은 모바일 폰 또는 태블릿, 도 9에 도시된 바와 같은 헤드셋, 도 10에 도시된 바와 같은 웨어러블 전자 디바이스, 도 11에 도시된 바와 같은 음성 제어 스피커 시스템, 도 12에 도시된 바와 같은 카메라, 도 13에 도시된 바와 같은 가상 현실 헤드셋 또는 증강 현실 헤드셋, 또는 도 14 또는 도 15에 도시된 바와 같은 차량과 같은 시스템에서의 컴포넌트로서 오디오 소스 지향성에 기초한 심리음향 강화의 구현을 가능하게 한다.

도 8 은, 디바이스 (102) 가 예시적 비한정적인 예들로서 전화기 또는 태블릿과 같은 모바일 디바이스 (802) 를 포함하는 구현 (800) 을 도시한다. 모바일 디바이스 (802) 는 하나 이상의 스피커들 (160), 하나 이상의 마이크로폰들 (120), 및 디스플레이 스크린 (804) 을 포함한다. 오디오 인핸서(192)를 포함하는 프로세서(190)의 컴포넌트들은 모바일 디바이스(802)에 통합되고, 모바일 디바이스(802)의 사용자에게 일반적으로 보이지 않는 내부 컴포넌트들을 표시하기 위해 점선들을 사용하여 예시된다. 특정 예에서, 오디오 인핸서(192)는 사용자 음성 활동을 강화하도록 동작하고, 이어서 그래픽 사용자 인터페이스를 개시하거나 그렇지 않으면 (예를 들어, 통합된 "스마트 어시스턴트" 애플리케이션을 통해) 디스플레이 스크린(804)에서 사용자의 스피치와 연관된 다른 정보를 디스플레이하는 것과 같이, 모바일 디바이스(802)에서 하나 이상의 동작을 수행하도록 프로세싱된다. 특정 예에서, 오디오 인핸서(192)는 온라인 회의 동안 발화자의 음성 활동을 강화한다. 예시를 위해, 사용자는 온라인 회의 동안 디스플레이 스크린(804) 상에서 발화자를 볼 수 있고 발화자를 줌 타겟으로서 선택한다. 오디오 인핸서(192)는 줌 타겟의 선택에 응답하여 발화자의 스피치를 강화한다. 다른 예에서, 모바일 디바이스(802)의 조류 추적 애플리케이션의 사용자는 줌 타겟으로서 나무를 선택한다. 오디오 인핸서(192)는 줌 타겟의 선택에 응답하여 나무 상의 새로부터의 새 소리를 강화한다.

도 9 는, 디바이스 (102) 가 헤드셋 디바이스 (902) 를 포함하는 구현 (900) 을 도시한다. 헤드셋 디바이스 (902) 는 하나 이상의 마이크로폰들 (120), 하나 이상의 스피커들 (160), 또는 이들의 조합을 포함한다. 오디오 인핸서(192)를 포함하는 프로세서(190)의 컴포넌트들은 헤드셋 디바이스(902)에 통합된다. 특정 예에서, 오디오 인핸서(192)는 사용자 음성 활동을 강화하도록 동작하고, 이는 헤드셋 디바이스(902)로 하여금 헤드셋 디바이스(902)에서 하나 이상의 동작들을 수행하게 하거나, 추가 프로세싱을 위해 사용자 음성 활동에 대응하는 오디오 데이터를 제 2 디바이스(미도시)에 송신하게 하거나, 또는 이들의 조합을 수행할 수도 있다. 특정 양태에서, 헤드셋 디바이스 (902) 는 헤드셋 디바이스 (902) 의 오디오 출력에 대응하는 음장의 상이한 부분들로 줌하는데 사용될 수 있는 입력들 (예를 들어, 버튼들 또는 화살표들) 을 갖는다. 예를 들어, 헤드셋 디바이스 (902) 는 오케스트라 음악을 출력하고 헤드셋 디바이스 (902) 를 착용한 사용자는 헤드셋 디바이스 (902) 의 입력들을 사용하여 오케스트라의 특정 섹션 또는 기구를 줌 타겟으로서 선택한다. 오디오 인핸서 (192) 는 줌 타겟(예를 들어, 특정 섹션 또는 기구)에 대한 오디오 줌 동작에 대응하는 하나 이상의 출력 오디오 신호들 (138) 을 생성한다.

도 10 은, 디바이스 (102) 가 "스마트 워치” 로서 예시된 웨어러블 전자 디바이스 (1002) 를 포함하는 구현 (1000) 을 도시한다. 오디오 인핸서 (192), 하나 이상의 마이크로폰들 (120), 하나 이상의 스피커들 (160), 또는 이들의 조합은 웨어러블 전자 디바이스 (1002)에 통합된다. 특정 예에서, 오디오 인핸서(192)는 사용자 음성 활동을 강화하도록 동작하고, 이어서 그래픽 사용자 인터페이스를 시작하거나 그렇지 않으면 웨어러블 전자 디바이스(1002)의 디스플레이 스크린(1004)에서 사용자의 스피치와 연관된 다른 정보를 디스플레이하는 것과 같이, 웨어러블 전자 디바이스(1002)에서 하나 이상의 동작들을 수행하도록 프로세싱된다. 예시하자면, 웨어러블 전자 디바이스(1002)는 웨어러블 전자 디바이스(1002)에 의해 강화된 사용자 스피치에 기초하여 통지를 디스플레이하도록 구성된 디스플레이 스크린을 포함할 수도 있다. 특정 예에서, 웨어러블 전자 디바이스(1002)는 사용자 음성 활동에 응답하여 햅틱 통지를 제공하는(예를 들어, 진동하는) 햅틱 디바이스를 포함한다. 예를 들어, 햅틱 통지는 사용자로 하여금 웨어러블 전자 디바이스 (1002) 를 보게 하여, 사용자가 말한 키워드의 검출을 표시하는 디스플레이된 통지를 보게 할 수 있다. 따라서, 웨어러블 전자 디바이스(1002)는 청각 장애를 갖는 사용자 또는 헤드셋을 착용한 사용자에게 사용자의 음성 활동이 검출됨을 알릴 수 있다. 특정 양태에서, 웨어러블 전자 디바이스(1002)는 웨어러블 전자 디바이스(1002)의 오디오 출력에 대응하는 음장의 상이한 부분들로 줌하기 위해 사용될 수 있는 입력들(예를 들어, 버튼들 또는 화살표들)을 포함한다.

도 11 은, 디바이스 (102) 가 무선 스피커 및 음성 활성화 디바이스 (1102) 를 포함하는 구현 (1100) 이다. 무선 스피커 및 음성 활성화 디바이스 (1102) 는 무선 네트워크 연결성을 가질 수 있고 어시스턴트 동작을 실행하도록 구성된다. 오디오 인핸서 (192) 를 포함하는 하나 이상의 프로세서들 (190), 하나 이상의 마이크로폰들 (120), 하나 이상의 스피커들 (160), 또는 이들의 조합은 무선 스피커 및 음성 활성화 디바이스 (1102)에 포함된다. 동작 동안, 오디오 인핸서(192)의 오디오 강화 동작을 통해 사용자 스피치로서 식별된 구두 커맨드를 수신하는 것에 응답하여, 무선 스피커 및 음성 활성화 디바이스(1102)는, 예컨대 음성 활성화 시스템(예를 들어, 통합 어시스턴트 애플리케이션)의 실행을 통해 어시스턴트 동작들을 실행할 수 있다. 어시스턴트 동작들은 온도를 조정하는 것, 음악을 재생하는 것, 조명들을 켜는 것 등을 포함할 수 있다. 예를 들어, 어시스턴트 동작들은 키워드 또는 키 프레이즈 (예컨대, "헬로 어시스턴트(hello assistant)") 후에 커맨드를 수신하는 것에 응답하여 수행된다.

도 12 는 디바이스(102)가 카메라 디바이스(1202)에 대응하는 휴대용 전자 디바이스를 포함하는 구현(1200)을 도시한다. 오디오 인핸서 (192), 하나 이상의 마이크로폰들 (120), 하나 이상의 스피커들 (160), 또는 이들의 조합은 카메라 디바이스 (1202)에 포함된다. 동작 동안, 오디오 인핸서(192)의 동작을 통해 강화된 사용자 스피치로서 구두 명령을 수신하는 것에 응답하여, 카메라 디바이스(1202)는 예시적인 예들로서, 줌 동작들을 수행하거나, 이미지 또는 비디오 캡처 설정들, 이미지 또는 비디오 재생 설정들, 또는 이미지 또는 비디오 캡처 지시들을 조정하는 것과 같이, 발화된 사용자 커맨드들에 응답하여 동작들을 실행할 수 있다. 특정 예에서, 카메라 디바이스 (1202) 는, 뷰파인더에서 보이는 오디오 소스 (184) 상에서 줌인할 때, 오디오 인핸서 (192) 로 하여금 오디오 소스 (184) 로부터 캡처된 오디오를 강화하기 위해 오디오 줌 동작을 수행하게 하는 비디오 카메라를 포함한다.

도 13 은 디바이스 (102) 가 가상 현실, 증강 현실 또는 혼합 현실 헤드셋 (1302) 에 대응하는 휴대용 전자 디바이스를 포함하는 구현 (1300) 을 도시한다. 오디오 인핸서 (192), 하나 이상의 마이크로폰들 (120), 하나 이상의 스피커들 (160), 또는 이들의 조합은 헤드셋 (1302)에 통합된다. 오디오 향상은 헤드셋(1302)의 하나 이상의 마이크로폰(120)으로부터 수신된 오디오 신호들에 기초하여 수행될 수 있다. 특정 예에서, 오디오 향상은 메모리, 네트워크, 다른 디바이스, 또는 이들의 조합으로부터 수신되는 가상, 증강, 또는 혼합 현실에 대응하는 오디오 신호들에 대해 수행될 수 있다. 시각적 인터페이스 디바이스는 헤드셋 (1302) 이 착용된 동안 사용자에게 증강 현실 또는 가상 현실 이미지들 또는 장면들의 디스플레이를 가능하게 하기 위해 사용자의 눈들 앞에 포지셔닝된다. 특정 예에서, 시각적 인터페이스 디바이스는 오디오 신호의 강화된 스피치를 나타내는 통지를 디스플레이하도록 구성된다. 특정 구현에서, 사용자가 헤드셋(1302)을 사용하여 시각적 인터페이스 디바이스에서 보여지는 가상 또는 실제 객체로 줌할 때, 오디오 인핸서(192)는 (예를 들어, 게임플레이의 일부로서) 그 객체에 대응하는 오디오의 오디오 줌을 수행한다. 일부 예들에서, 오디오 인핸서(192)는 시각적 인터페이스 디바이스에 의해 디스플레이되는 시각적 줌과 함께 오디오 줌을 수행한다.

도 14 는 디바이스 (102) 가 유인 또는 무인 항공 디바이스 (예를 들어, 수화물 배송 드론) 로서 예시되는 비히클 (1402) 에 대응하거나 비히클 내에 통합되는 구현 (1400) 을 도시한다. 오디오 인핸서 (192), 하나 이상의 마이크로폰들 (120), 하나 이상의 스피커들 (160), 또는 이들의 조합은 비히클(1402)에 통합된다. 오디오 (예를 들어, 사용자 음성 활동) 강화는, 비히클(1402)의 허가된 사용자로부터의 전달 명령들을 위한 것과 같이, 비히클(1402)의 하나 이상의 마이크로폰들(120)로부터 수신된 오디오 신호들에 기초하여 수행될 수 있다.

도 15 는 디바이스 (102) 가 자동차로서 예시된 차량 (1502) 에 대응하거나 차량 내에 통합되는 다른 구현 (1500) 을 도시한다. 차량(1502)은 오디오 인핸서(192)를 포함하는 프로세서(190)를 포함한다. 차량 (1502) 은 또한 하나 이상의 마이크로폰들 (120) 을 포함한다. 오디오(예를 들어, 사용자 음성 활동) 강화는 차량(1502)의 하나 이상의 마이크로폰(120)으로부터 수신된 오디오 신호에 기초하여 수행될 수 있다. 일부 구현들에서, 오디오(예를 들어, 음성 활동) 강화는, 인가된 승객으로부터의 음성 커맨드에 대한 것과 같이, 내부 마이크로폰들(예를 들어, 하나 이상의 마이크로폰들(120))로부터 수신된 오디오 신호에 기초하여 수행될 수 있다. 예를 들어, 사용자 음성 활동 강화는 차량(1502)의 운전자 또는 승객으로부터의 음성 커맨드를 강화하기 위해 사용될 수 있다. 일부 구현들에서, 오디오 강화는 오디오 소스(184) (예를 들어, 새, 해변의 파도, 야외 음악, 차량(1502)의 인가된 사용자, 드라이브 스루 소매 직원, 또는 연석 옆 픽업 사람) 로부터의 사운드들과 같은 외부 마이크로폰들(예를 들어, 하나 이상의 마이크로폰들(120))로부터 수신된 오디오 신호에 기초하여 수행될 수 있다. 특정 구현에서, 오디오 인핸서(192)의 동작을 통해 강화된 사용자 스피치로서 구두 명령을 수신하는 것에 응답하여, 음성 활성화 시스템은, 예컨대, 디스플레이(1520) 또는 하나 이상의 스피커들(예를 들어, 스피커(1510))을 통해 피드백 또는 정보를 제공함으로써, 하나 이상의 출력 오디오 신호들(138)에서 검출된 하나 이상의 키워드들(예를 들어, "잠금 해제", "엔진 시작", "음악 재생", "날씨 예보 표시", 또는 다른 음성 커맨드)에 기초하여 차량(1502)의 하나 이상의 동작들을 개시한다. 특정 구현에서, 강화된 외부 사운드들(예를 들어, 실외 음악, 새 소리 등)은 하나 이상의 스피커들(160)을 통해 차량(1502)의 내부에서 재생된다.

도 16 을 참조하면, 오디오 소스 지향성에 기초한 심리음향 강화의 방법 (1600) 의 특정 구현이 도시된다. 특정 양태에서, 방법 (1600) 의 하나 이상의 동작들은 도 1 의 지향성 분석기 (152), 등화기 (148), 오디오 인핸서 (192), 하나 이상의 프로세서들 (190), 디바이스 (102), 시스템 (100), 또는 이들의 조합 중 적어도 하나에 의해 수행된다.

방법 (1600) 은 1602에서, 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 획득하는 단계를 포함한다. 예를 들어, 도 1의 지향성 분석기 (152) 는 도 1 및 도 4 내지 도 6을 참조하여 설명된 바와 같이, 하나 이상의 입력 오디오 신호들 (126)에 대응하는 오디오 소스 (184) 의 지향성 데이터 (141) 를 획득한다.

방법 (1600) 은 또한 1604에서, 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하는 단계를 포함한다. 예를 들어, 도 1의 지향성 분석기(152)는, 도 1 및 도 4 내지 도 6을 참조하여 설명된 바와 같이, 지향성 데이터(141)에 적어도 부분적으로 기초하여 등화기 설정들(153)을 결정한다.

방법 (1600) 은 1606에서, 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하는 단계를 더 포함한다. 예를 들어, 도 1의 등화기(148)는 등화기 설정들(153)에 기초하여, 하나 이상의 입력 오디오 신호들(126)의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들(138)을 생성한다.

방법 (1600) 은 오디오 소스 (184) 의 지향성에 기초하여 주파수들에 대한 라우드니스를 조정함으로써 하나 이상의 출력 오디오 신호들 (138) 을 생성하는 것을 가능하게 한다. 하나 이상의 출력 오디오 신호들(138)은, 예를 들어, 하나 이상의 입력 오디오 신호들(126)의 이득들만을 조정하는 것과 비교하여, 더 자연스러운 사운딩 오디오 줌에 대응한다.

도 16의 방법(1600)은 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 이를 테면 중앙 프로세싱 유닛 (CPU), DSP, 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 일 예로서, 도 16 의 방법 (1600) 은 도 17 을 참조하여 설명된 바와 같은 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.

도 17 을 참조하면, 디바이스의 특정 예시적인 구현의 블록도가 도시되고 일반적으로 1700 으로 지정된다. 다양한 구현들에서, 디바이스 (1700) 는 도 17에 예시된 것보다 더 많거나 또는 더 적은 컴포넌트들을 가질 수도 있다. 예시적인 구현에서, 디바이스 (1700) 는 디바이스 (102) 에 대응할 수도 있다. 예시적인 구현에서, 디바이스 (1700) 는 도 1 내지 도 16 을 참조하여 설명된 하나 이상의 동작들을 수행할 수도 있다.

특정 구현에서, 디바이스 (1700) 는 프로세서 (1706) (예컨대, 중앙 프로세싱 유닛 (CPU)) 를 포함한다. 디바이스 (1700) 는 하나 이상의 추가적인 프로세서들 (1710) (예컨대, 하나 이상의 DSP들) 을 포함할 수도 있다. 특정 양태에서, 도 1 의 하나 이상의 프로세서들 (190) 은 프로세서 (1706), 프로세서들 (1710), 또는 이들의 조합에 대응한다. 프로세서들 (1710) 은 음성 코더 ("보코더") 인코더 (1736), 보코더 디코더 (1738), 오디오 인핸서 (192), 또는 이들의 조합을 포함하는 스피치 및 뮤직 코더-디코더 (CODEC) (1708) 를 포함할 수도 있다.

디바이스 (1700) 는 메모리 (132) 및 코덱 (1734) 을 포함할 수도 있다. 메모리 (132) 는 오디오 인핸서 (192) 를 참조하여 설명된 기능성을 구현하기 위해 하나 이상의 추가적인 프로세서들 (1710) (또는 프로세서 (1706))에 의해 실행가능한 명령들 (1756) 을 포함할 수도 있다. 디바이스 (1700) 는, 트랜시버 (1750) 를 통해, 안테나 (1752) 에 결합된 모뎀 (1746) 을 포함할 수도 있다.

디바이스 (1700) 는 디스플레이 제어기 (1726)에 결합된 디스플레이 디바이스 (162) 를 포함할 수도 있다. 하나 이상의 스피커들 (160), 하나 이상의 마이크로폰들 (120), 또는 이들의 조합은 코덱 (1734)에 결합될 수도 있다. 예를 들어, 하나 이상의 마이크로폰들 (120) 은 도 1 의 하나 이상의 입력 인터페이스들 (124) 을 통해 코덱 (1734)에 결합될 수도 있다. 하나 이상의 스피커들 (160) 은 하나 이상의 출력 인터페이스들을 통해 CODEC (1734)에 결합될 수도 있다. 코덱 (1734) 은 디지털-대-아날로그 변환기 (DAC)(1702), 아날로그-대-디지털 변환기 (ADC)(1704), 또는 양자 모두를 포함할 수도 있다. 특정 구현에서, 코덱 (1734) 은 하나 이상의 마이크로폰들 (120) 로부터 아날로그 신호들을 수신하고, 아날로그-대-디지털 변환기 (1704) 를 사용하여 아날로그 신호들을 디지털 신호들로 변환하고, 디지털 신호들을 스피치 및 뮤직 코덱 (1708)에 제공할 수도 있다. 스피치 및 뮤직 코덱 (1708) 은 디지털 신호들을 프로세싱할 수도 있고, 디지털 신호들은 오디오 인핸서 (192)에 의해 추가로 프로세싱될 수도 있다. 특정 구현에서, 스피치 및 뮤직 코덱 (1708) 은 코덱 (1734) 에 디지털 신호들을 제공할 수도 있다. 코덱 (1734) 은 디지털-대-아날로그 변환기 (1702) 를 이용하여 디지털 신호들을 아날로그 신호들로 변환할 수도 있고, 아날로그 신호들을 하나 이상의 스피커들 (160)에 제공할 수도 있다.

특정 구현에서, 디바이스 (1700) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (1722) 에 포함될 수도 있다. 특정 구현에서, 메모리 (132), 프로세서 (1706), 프로세서들 (1710), 디스플레이 제어기 (1726), 코덱 (1734), 및 모뎀 (1746) 은 시스템-인-패키지 또는 시스템-온-칩 디바이스 (1722) 에 포함된다. 특정 구현에서, 입력 디바이스 (130), 카메라 (140), 및 전력 공급기 (1744) 는 시스템-온-칩 디바이스 (1722)에 결합된다. 더욱이, 특정 구현에서, 도 17에 예시된 바와 같이, 디스플레이 디바이스 (162), 입력 디바이스 (130), 카메라 (140), 하나 이상의 스피커들 (160), 하나 이상의 마이크로폰들 (120), 안테나 (1752), 및 전력 공급기 (1744) 는 시스템-온-칩 디바이스 (1722) 외부에 있다. 특정 구현에서, 디스플레이 디바이스 (162), 입력 디바이스 (130), 카메라 (140), 하나 이상의 스피커들 (160), 하나 이상의 마이크로폰들 (120), 안테나 (1752), 및 전력 공급기 (1744) 의 각각은 인터페이스 (예컨대, 하나 이상의 입력 인터페이스들 (124), 입력 인터페이스 (144), 하나 이상의 추가적인 인터페이스들, 또는 이들의 조합) 또는 제어기와 같은 시스템-온-칩 디바이스 (1722) 의 컴포넌트에 결합될 수도 있다.

디바이스(1700)는 가상 어시스턴트, 가전 제품, 스마트 디바이스, 사물 인터넷(IoT) 디바이스, 통신 디바이스, 헤드셋, 차량, 컴퓨터, 디스플레이 디바이스, 텔레비전, 게임 콘솔, 뮤직 플레이어, 라디오, 비디오 플레이어, 엔터테인먼트 유닛, 개인용 미디어 플레이어, 디지털 비디오 플레이어, 카메라, 내비게이션 디바이스, 스마트 스피커, 스피커 바, 모바일 통신 디바이스, 스마트폰, 셀룰러 폰, 랩톱 컴퓨터, 태블릿, 개인용 디지털 어시스턴트, 디지털 비디오 디스크(DVD) 플레이어, 튜너, 증강 현실 헤드셋, 가상 현실 헤드셋, 항공 비히클, 홈 자동화 시스템, 음성 활성화 디바이스, 무선 스피커 및 음성 활성화 디바이스, 휴대용 전자 디바이스, 자동차, 컴퓨팅 디바이스, 가상 현실(VR) 디바이스, 기지국, 모바일 디바이스, 또는 이들의 임의의 조합을 포함할 수도 있다.

설명된 구현들과 함께, 장치는 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 획득하기 위한 수단을 포함한다. 예를 들어, 획득하기 위한 수단은 도 1의 지향성 분석기(152), 오디오 인핸서(192), 하나 이상의 프로세서들(190), 디바이스(102), 시스템(100), 프로세서(1706), 프로세서들(1710), 모뎀(1746), 트랜시버(1750), 안테나(1752), 하나 이상의 오디오 소스들의 지향성 데이터를 획득하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.

장치는 또한 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하기 위한 수단을 포함한다. 예를 들어, 결정하기 위한 수단은 도 1의 지향성 분석기(152), 오디오 인핸서(192), 하나 이상의 프로세서들(190), 디바이스(102), 시스템(100), 프로세서(1706), 프로세서들(1710), 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.

장치는, 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하기 위한 수단을 더 포함한다. 예를 들어, 생성하기 위한 수단은 도 1의 지향성 분석기(152), 오디오 인핸서(192), 하나 이상의 프로세서들(190), 디바이스(102), 시스템(100), 프로세서(1706), 프로세서들(1710), 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.

일부 구현들에서, 비일시적 컴퓨터 판독가능 매체 (예를 들어, 메모리 (132) 와 같은 컴퓨터 판독가능 저장 디바이스) 는 하나 이상의 프로세서들 (예를 들어, 하나 이상의 프로세서들 (1710) 또는 프로세서 (1706))에 의해 실행될 때, 그 하나 이상의 프로세서들로 하여금, 하나 이상의 입력 오디오 신호들 (예를 들어, 하나 이상의 입력 오디오 신호들 (126))에 대응하는 하나 이상의 오디오 소스들 (예를 들어, 오디오 소스 (184), 오디오 소스 (684), 또는 양자 모두) 의 지향성 데이터 (예를 들어, 지향성 데이터 (141)) 를 획득하게 하는 명령들 (예를 들어, 명령들 (1756)) 을 포함한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한 그 하나 이상의 프로세서들로 하여금 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들(예를 들어, 등화기 설정들(153), 등화기 설정들(653), 또는 이들의 조합)을 결정하게 한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한, 그 하나 이상의 프로세서들로 하여금, 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들 (예를 들어, 하나 이상의 출력 오디오 신호들 (138)) 을 생성하게 한다.

본 개시의 특정 양태들은 상호관련된 조항들의 제 1 세트로 하기에서 기술된다:

조항 1에 따르면, 디바이스는: 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 획득하고; 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하고; 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하도록 구성된 하나 이상의 프로세서들을 포함한다.

조항 2는 조항 1의 디바이스를 포함하고, 심리음향 강화 버전은 오디오 줌 동작과 연관된 줌 배향(zoom orientation) 및 줌 거리(zoom distance)에서 하나 이상의 오디오 소스들의 주파수 응답을 근사화(approximate)한다.

조항 3은 조항 1 또는 조항 2의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은: 오디오 줌 동작의 줌 타겟(zoom target)을 나타내는 사용자 입력을 수신하고; 줌 타겟에 기초하여 하나 이상의 등화기 설정들을 결정하도록 추가로 구성된다.

조항 4는 조항 3의 디바이스를 포함하고, 줌 타겟은 줌 위치, 줌 거리, 줌 배향, 하나 이상의 오디오 소스들 중 적어도 하나의 선택, 또는 이들의 조합을 포함한다.

조항 5는 조항 1 내지 조항 4 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 오디오 소스들 중 특정 오디오 소스의 지향성 데이터는 특정 오디오 소스의 배향 및 거리 주파수 응답 특성들을 나타낸다.

조항 6은 조항 1 내지 조항 5 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 하나 이상의 빔포밍된 오디오 신호들을 생성하기 위해 하나 이상의 입력 오디오 신호들에 대해 빔포밍을 수행하고; 그리고 하나 이상의 출력 오디오 신호들을 생성하기 위해 하나 이상의 빔포밍된 오디오 신호들에 기초하는 등화기 입력 오디오 신호를 프로세싱하도록 추가로 구성된다.

조항 7은 조항 1 내지 조항 6 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 하나 이상의 스피치 오디오 신호들을 생성하기 위해 하나 이상의 입력 오디오 신호들에 기초하는 스피치 검출 입력 오디오 신호에서 스피치를 식별하고; 그리고 하나 이상의 출력 오디오 신호들을 생성하기 위해 하나 이상의 스피치 오디오 신호들에 기초하는 등화기 입력 오디오 신호를 프로세싱하도록 추가로 구성된다.

조항 8은 조항 1 내지 조항 7 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 줌 타겟에 기초하여, 이득 조정된 오디오 신호를 생성하기 위해 하나 이상의 입력 오디오 신호들에 기초하는 이득 조정기 입력 오디오 신호에 하나 이상의 이득들을 적용하고; 그리고 하나 이상의 출력 오디오 신호들을 생성하기 위해, 이득 조정된 오디오 신호에 기초하는 등화기 입력 오디오 신호를 프로세싱하도록 추가로 구성된다.

조항 9는 조항 1 내지 조항 8 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 노이즈 억제된 오디오 신호를 생성하기 위해 하나 이상의 입력 오디오 신호들에 기초하는 노이즈 억제기 입력 오디오 신호에 대해 노이즈 억제를 수행하고; 그리고 하나 이상의 출력 오디오 신호들을 생성하기 위해 노이즈 억제된 오디오 신호에 기초하는 등화기 입력 오디오 신호를 프로세싱하도록 추가로 구성된다.

조항 10은 조항 1 내지 조항 9 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 하나 이상의 오디오 소스들의 컨텍스트 데이터를 생성하기 위해 하나 이상의 입력 오디오 신호들에 기초하는 컨텍스트 검출기 입력 오디오 신호를 프로세싱하고 - 하나 이상의 오디오 소스들 중 특정 오디오 소스의 컨텍스트 데이터는 특정 오디오 소스의 배향, 특정 오디오 소스의 거리, 특정 오디오 소스의 타입, 또는 이들의 조합을 나타냄 -; 특정 오디오 소스의 타입에 기초하여 특정 오디오 소스의 지향성 데이터를 획득하도록 추가로 구성된다.

조항 11은 조항 10의 디바이스를 포함하고, 하나 이상의 프로세서들은 하나 이상의 입력 오디오 신호와 연관된 이미지 데이터에 적어도 부분적으로 기초하여 컨텍스트 데이터를 생성하도록 추가로 구성된다.

조항 12는 조항 11의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 메모리로부터 이미지 데이터 및 하나 이상의 입력 오디오 신호를 취출하도록 추가로 구성된다.

조항 13은 조항 11 또는 조항 12의 디바이스를 포함하고, 하나 이상의 프로세서들에 결합되고 하나 이상의 입력 오디오 신호들을 생성하도록 구성된 하나 이상의 마이크로폰들을 더 포함한다.

조항 14는 조항 11 내지 조항 13 중 어느 것의 디바이스를 포함하고, 하나 이상의 프로세서들에 결합되고 이미지 데이터를 생성하도록 구성된 카메라를 더 포함한다.

조항 15는 조항 11 내지 조항 14 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 하나 이상의 오디오 소스들 중 특정 오디오 소스의 타입을 식별하기 위해 하나 이상의 입력 오디오 신호들, 이미지 데이터, 또는 양자 모두에 기초하여 오디오 소스 인식을 수행하도록 추가로 구성된다.

조항 16은 조항 11 내지 조항 15 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 하나 이상의 오디오 소스들 중 특정한 오디오 소스를 결정하기 위해, 하나 이상의 입력 오디오 신호들, 이미지 데이터, 또는 양자 모두에 기초하여 오디오 소스 인식을 수행하고; 특정한 오디오 소스의 배향을 결정하기 위해 이미지 데이터에 대해 이미지 분석을 수행하도록 추가로 구성된다.

조항 17은 조항 11 내지 조항 16 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 하나 이상의 오디오 소스들 중 특정 오디오 소스를 결정하기 위해, 하나 이상의 입력 오디오 신호들, 이미지 데이터, 또는 양자 모두에 기초하여 오디오 소스 인식을 수행하고; 특정 오디오 소스의 거리를 결정하기 위해, 하나 이상의 입력 오디오 신호들, 이미지 데이터, 또는 양자 모두에 대해 거리 분석을 수행하도록 추가로 구성된다.

조항 18은 조항 10 내지 조항 17 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 하나 이상의 등화기 설정들을 컨텍스트 데이터, 지향성 데이터, 줌 배향, 줌 거리, 또는 이들의 조합과 연관시키는 등화기 설정 데이터에 기초하여 하나 이상의 등화기 설정들을 선택하도록 추가로 구성된다.

조항 19는 조항 18의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 메모리, 다른 디바이스, 또는 양자 모두로부터 등화기 설정 데이터를 획득하도록 추가로 구성된다.

조항 20은 조항 10 내지 조항 19 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 중간-주파수들에 대응하는 주파수 응답을 감소시키기 위해 하나 이상의 등화기 설정들을 선택하도록 추가로 구성된다.

조항 21은 조항 1 내지 조항 20 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 제 1 시간에, 하나 이상의 오디오 소스 중 특정 오디오 소스에 대응하는 제 1 입력 오디오 신호의 제 1 사운드 스펙트럼을 생성하고; 제 2 시간에, 특정 오디오 소스에 대응하는 제 2 입력 오디오 신호의 제 2 사운드 스펙트럼을 생성하고; 그리고 제 1 시간에서의 제 1 거리 및 제 1 배향과 제 2 시간에서의 제 2 거리 및 제 2 배향 사이의 차이가 제 1 사운드 스펙트럼과 제 2 사운드 스펙트럼 사이의 차이에 대응한다는 것을 나타내기 위해 지향성 데이터를 업데이트하도록 추가로 구성된다.

조항 22는 조항 1 내지 조항 21 중 어느 것의 디바이스를 포함하며, 여기서 하나 이상의 프로세서들은 메모리, 다른 디바이스, 또는 양자 모두로부터 지향성 데이터를 획득하도록 추가로 구성된다.

조항 23은 조항 1 내지 조항 5, 조항 21, 또는 조항 22 중 어느 것의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 하나 이상의 빔포밍된 오디오 신호들을 생성하기 위해 하나 이상의 입력 오디오 신호들에 대해 빔포밍을 수행하고; 하나 이상의 스피치 오디오 신호들을 생성하기 위해 하나 이상의 입력 오디오 신호들에서 스피치를 검출하고; 줌 타겟에 기초하여, 하나 이상의 이득 조정된 오디오 신호들을 생성하기 위해 하나 이상의 빔포밍된 오디오 신호들, 하나 이상의 스피치 오디오 신호들, 또는 이들의 조합에 하나 이상의 이득들을 적용하고; 하나 이상의 이득 조정된 오디오 신호들에 적어도 부분적으로 기초하여, 하나 이상의 오디오 소스들의 컨텍스트 데이터를 생성하고 - 하나 이상의 오디오 소스들 중 특정 오디오 소스의 컨텍스트 데이터는 특정 오디오 소스의 배향, 특정 오디오 소스의 거리, 특정 오디오 소스의 타입, 또는 이들의 조합을 표시함 -; 특정 오디오 소스의 타입에 기초하여 특정 오디오 소스의 지향성 데이터를 획득하고; 컨텍스트 데이터, 줌 배향, 및 줌 거리에 추가로 기초하여 하나 이상의 등화기 설정들을 결정하고; 하나 이상의 노이즈 억제된 오디오 신호들을 생성하기 위해 하나 이상의 이득 조정된 오디오 신호들에 노이즈 억제를 적용하고; 하나 이상의 등화기 설정들에 기초하여 하나 이상의 노이즈 억제된 오디오 신호들을 프로세싱함으로써 하나 이상의 출력 오디오 신호들을 생성하도록 추가로 구성된다.

본 개시의 특정 양태들은 상호관련된 조항들의 제 2 세트로 하기에서 기술된다:

조항 24에 따르면, 방법은: 디바이스에서, 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 획득하는 단계; 디바이스에서, 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하는 단계; 및 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하는 단계를 포함한다.

조항 25는, 디바이스에서, 오디오 줌 동작의 줌 타겟을 나타내는 사용자 입력을 수신하는 단계; 및 디바이스에서, 줌 타겟에 기초하여 하나 이상의 등화기 설정들을 결정하는 단계를 더 포함하고, 줌 타겟은 줌 위치, 줌 거리, 줌 배향, 하나 이상의 오디오 소스들 중 적어도 하나의 선택, 또는 이들의 조합을 포함한다.

본 개시의 특정 양태들은 상호관련된 조항들의 제 3 세트로 하기에서 기술된다:

조항 26에 따르면, 비일시적 컴퓨터 판독가능 매체는, 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금: 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 획득하게 하고; 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하게 하고; 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하게 하는 명령들을 저장한다.

조항 27은 조항 26의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로, 하나 이상의 프로세서들로 하여금: 하나 이상의 빔포밍된 오디오 신호들을 생성하기 위해 하나 이상의 입력 오디오 신호들에 대해 빔포밍을 수행하게 하고; 그리고 하나 이상의 출력 오디오 신호들을 생성하기 위해 하나 이상의 빔포밍된 오디오 신호들에 기초하는 등화기 입력 오디오 신호를 프로세싱하게 한다.

조항 28은 조항 26 또는 조항 27의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로, 하나 이상의 프로세서들로 하여금: 하나 이상의 스피치 오디오 신호들을 생성하기 위해 하나 이상의 입력 오디오 신호들에 기초하는 스피치 검출 입력 오디오 신호에서 스피치를 식별하게 하고; 하나 이상의 출력 오디오 신호들을 생성하기 위해 하나 이상의 스피치 오디오 신호들에 기초하는 등화기 입력 오디오 신호를 프로세싱하게 한다.

본 개시의 특정 양태들은 상호관련된 조항들의 제 4 세트로 하기에서 기술된다:

조항 29에 따르면, 장치는: 하나 이상의 입력 오디오 신호들에 대응하는 하나 이상의 오디오 소스들의 지향성 데이터를 획득하기 위한 수단; 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하기 위한 수단; 및 등화기 설정들에 기초하여, 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하기 위한 수단을 포함한다.

조항 30은 조항 29의 장치를 포함하고, 여기서 획득하기 위한 수단, 결정하기 위한 수단, 및 생성하기 위한 수단은 가상 어시스턴트, 가전 제품, 스마트 디바이스, 사물 인터넷(IoT) 디바이스, 통신 디바이스, 헤드셋, 차량, 컴퓨터, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 뮤직 플레이어, 라디오, 비디오 플레이어, 엔터테인먼트 유닛, 개인용 미디어 플레이어, 디지털 비디오 플레이어, 카메라, 또는 내비게이션 디바이스 중 적어도 하나에 통합된다.

당업자는 또한, 본원에 개시된 구현들과 관련하여 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 프로세서에 의해 실행되는 컴퓨터 소프트웨어, 또는 이 양자의 조합으로 구현될 수도 있음을 인식할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들이 일반적으로 그들의 기능성의 관점에서 위에서 설명되었다. 그러한 기능성이 하드웨어 또는 프로세서 실행가능한 명령들로 구현될지 여부는, 전체 시스템에 부과된 설계 제약 및 특정 애플리케이션에 의존한다. 당업자들은 각각의 특정 애플리케이션에 대해 다양한 방식들로 설명된 기능성을 구현할 수도 있으며, 이러한 구현 결정들은 본 개시의 범위로부터 벗어남을 야기하는 것으로서 해석되어서는 안된다.

본 명세서에 개시된 구현들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들 양자의 조합에서 직접 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터, 하드디스크, 착탈형 디스크, 콤팩트 디스크 판독 전용 메모리 (CD-ROM), 또는 당업계에 알려져 있는 임의의 다른 형태의 비일시적 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독할 수도 있고 저장 매체에 정보를 기입할 수도 있도록 프로세서에 결합된다. 다르게는, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC (application-specific integrated circuit) 에 상주할 수도 있다. ASIC 은 컴퓨팅 디바이스 또는 사용자 단말기에 상주할 수도 있다. 대안으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에 별개의 컴포넌트들로서 상주할 수도 있다.

개시된 실시형태들의 상기 설명은 당업자로 하여금 개시된 실시형태들을 제조 또는 이용할 수 있게 하기 위해 제공된다. 이들 양태들에 대한 다양한 변형들은 당업자들에게 명백할 것이며, 본원에서 정의된 원리들은 본 개시의 범위로부터 일탈함이 없이 다른 양태들에 적용될 수도 있다. 따라서, 본 개시는 본원에서 나타낸 양태들에 한정하려는 것이 아니라, 다음 청구항들에 의해 정의되는 바와 같은 원리들 및 신규한 특징들과 가능한 부합하는 최광의의 범위를 부여하려는 것이다.

Claims

디바이스로서,
하나 이상의 오디오 소스들의 컨텍스트 데이터를 생성하기 위해 컨텍스트 검출기로부터의 신호를 프로세싱하는 것으로서, 상기 신호는 상기 하나 이상의 오디오 소스들에 대응하는 하나 이상의 입력 오디오 신호들에 기초하고, 상기 하나 이상의 오디오 소스들 중 특정 오디오 소스의 상기 컨텍스트 데이터는 상기 특정 오디오 소스의 타입을 표시하며, 상기 특정 오디오 소스의 상기 타입은 사람, 차량, 또는 이들의 조합 중 하나 이상을 포함하는, 상기 컨텍스트 검출기로부터의 신호를 프로세싱하는 것을 행하고;
상기 특정 오디오 소스의 상기 타입에 기초하여 상기 하나 이상의 오디오 소스들 중의 상기 특정 오디오 소스의 지향성 데이터를 획득하며;
상기 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하고; 그리고
상기 등화기 설정들에 기초하여, 상기 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하도록
구성된 하나 이상의 프로세서들을 포함하는, 디바이스.
제 1 항에 있어서,
상기 심리음향 강화 버전은 오디오 줌 동작과 연관된 줌 배향 및 줌 거리에서 상기 하나 이상의 오디오 소스들의 주파수 응답을 근사화하는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은, 추가로:
오디오 줌 동작의 줌 타겟을 나타내는 사용자 입력을 수신하고; 그리고
상기 줌 타겟에 기초하여 상기 하나 이상의 등화기 설정들을 결정하도록
구성되는, 디바이스.
제 3 항에 있어서,
상기 줌 타겟은 줌 위치, 줌 거리, 줌 배향, 상기 하나 이상의 오디오 소스들 중 적어도 하나의 선택, 또는 이들의 조합을 포함하는, 디바이스.
제 1 항에 있어서,
상기 특정 오디오 소스의 상기 지향성 데이터는 상기 특정 오디오 소스의 배향 및 거리 주파수 응답 특성들을 나타내는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은, 추가로:
상기 하나 이상의 입력 오디오 신호들에 대해 빔포밍을 수행하여 하나 이상의 빔포밍된 오디오 신호들을 생성하고; 그리고
상기 하나 이상의 빔포밍된 오디오 신호들에 기초하는 등화기 입력 오디오 신호를 프로세싱하여 상기 하나 이상의 출력 오디오 신호들을 생성하도록
구성되는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은, 추가로:
상기 하나 이상의 입력 오디오 신호들에 기초하는 스피치 검출 입력 오디오 신호에서 스피치를 식별하여 하나 이상의 스피치 오디오 신호들을 생성하고; 그리고
상기 하나 이상의 스피치 오디오 신호들에 기초하는 등화기 입력 오디오 신호를 프로세싱하여 상기 하나 이상의 출력 오디오 신호들을 생성하도록
구성되는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은, 추가로:
줌 타겟에 기초하여, 상기 하나 이상의 입력 오디오 신호들에 기초하는 이득 조정기 입력 오디오 신호에 하나 이상의 이득들을 적용하여 이득 조정된 오디오 신호를 생성하고; 그리고
상기 이득 조정된 오디오 신호에 기초하는 등화기 입력 오디오 신호를 프로세싱하여 상기 하나 이상의 출력 오디오 신호들을 생성하도록
구성되는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은, 추가로:
상기 하나 이상의 입력 오디오 신호들에 기초하는 노이즈 억제기 입력 오디오 신호에 대해 노이즈 억제를 수행하여 노이즈 억제된 오디오 신호를 생성하고; 그리고
상기 노이즈 억제된 오디오 신호에 기초하는 등화기 입력 오디오 신호를 프로세싱하여 상기 하나 이상의 출력 오디오 신호들을 생성하도록
구성되는, 디바이스.
제 1 항에 있어서,
상기 특정 오디오 소스의 상기 컨텍스트 데이터는 상기 특정 오디오 소스의 배향, 상기 특정 오디오 소스의 거리, 상기 특정 오디오 소스의 상기 타입, 또는 이들의 조합을 추가로 표시하고, 상기 특정 오디오 소스의 상기 타입은 사람, 동물, 새, 차량, 악기, 또는 이들의 조합 중 하나 이상을 포함하는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은 추가로, 상기 하나 이상의 입력 오디오 신호들과 연관된 이미지 데이터에 적어도 부분적으로 기초하여 상기 컨텍스트 데이터를 생성하도록 구성되는, 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 추가로, 메모리로부터 상기 이미지 데이터 및 상기 하나 이상의 입력 오디오 신호들을 취출하도록 구성되는, 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들에 결합되고 상기 하나 이상의 입력 오디오 신호들을 생성하도록 구성된 하나 이상의 마이크로폰들을 더 포함하는, 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들에 결합되고 상기 이미지 데이터를 생성하도록 구성된 카메라를 더 포함하는, 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 추가로, 상기 하나 이상의 오디오 소스들의 상기 특정 오디오 소스의 상기 타입을 식별하기 위해, 상기 하나 이상의 입력 오디오 신호들, 상기 이미지 데이터, 또는 양자 모두에 기초하여 오디오 소스 인식을 수행하도록 구성되는, 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은, 추가로:
상기 하나 이상의 오디오 소스들 중 상기 특정 오디오 소스를 결정하기 위해, 상기 하나 이상의 입력 오디오 신호들, 상기 이미지 데이터, 또는 양자 모두에 기초하여 오디오 소스 인식을 수행하고; 그리고
상기 특정 오디오 소스의 배향을 결정하기 위해 상기 이미지 데이터에 대해 이미지 분석을 수행하도록
구성되는, 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은, 추가로:
상기 하나 이상의 오디오 소스들 중 상기 특정 오디오 소스를 결정하기 위해, 상기 하나 이상의 입력 오디오 신호들, 상기 이미지 데이터, 또는 양자 모두에 기초하여 오디오 소스 인식을 수행하고; 그리고
상기 특정 오디오 소스의 거리를 결정하기 위해, 상기 하나 이상의 입력 오디오 신호들, 상기 이미지 데이터, 또는 양자 모두에 대해 거리 분석을 수행하도록
구성되는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은 추가로, 상기 하나 이상의 등화기 설정들을 상기 컨텍스트 데이터, 상기 지향성 데이터, 줌 배향, 줌 거리, 또는 이들의 조합과 연관시키는 등화기 설정 데이터에 기초하여 상기 하나 이상의 등화기 설정들을 선택하도록 구성되는, 디바이스.
제 18 항에 있어서,
상기 하나 이상의 프로세서들은 추가로, 상기 디바이스의 메모리, 다른 디바이스, 또는 양자 모두로부터 상기 등화기 설정 데이터를 획득하도록 구성되는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은 추가로, 중간 주파수들에 대응하는 주파수 응답을 감소시키기 위해 상기 하나 이상의 등화기 설정들을 선택하도록 구성되는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은, 추가로:
제 1 시간에, 상기 하나 이상의 오디오 소스들 중 상기 특정 오디오 소스에 대응하는 제 1 입력 오디오 신호의 제 1 사운드 스펙트럼을 생성하고;
제 2 시간에, 상기 특정 오디오 소스에 대응하는 제 2 입력 오디오 신호의 제 2 사운드 스펙트럼을 생성하며; 그리고
상기 제 1 시간에서의 제 1 거리 및 제 1 배향과 상기 제 2 시간에서의 제 2 거리 및 제 2 배향 사이의 차이가 상기 제 1 사운드 스펙트럼과 상기 제 2 사운드 스펙트럼 사이의 차이에 대응한다는 것을 나타내기 위해 상기 지향성 데이터를 업데이트하도록
구성되는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은 추가로, 상기 디바이스의 메모리, 다른 디바이스, 또는 양자 모두로부터 상기 지향성 데이터를 획득하도록 구성되는, 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은, 추가로:
상기 하나 이상의 입력 오디오 신호들에 대해 빔포밍을 수행하여 하나 이상의 빔포밍된 오디오 신호들을 생성하고;
상기 하나 이상의 입력 오디오 신호들에서 스피치를 검출하여 하나 이상의 스피치 오디오 신호들을 생성하며;
줌 타겟에 기초하여, 상기 하나 이상의 빔포밍된 오디오 신호들, 상기 하나 이상의 스피치 오디오 신호들, 또는 이들의 조합에 하나 이상의 이득들을 적용하여 하나 이상의 이득 조정된 오디오 신호들을 생성하고;
상기 하나 이상의 이득 조정된 오디오 신호들에 적어도 부분적으로 기초하여, 상기 하나 이상의 오디오 소스들의 컨텍스트 데이터를 생성하는 것으로서, 상기 하나 이상의 오디오 소스들 중 상기 특정 오디오 소스의 상기 컨텍스트 데이터는 상기 특정 오디오 소스의 배향, 상기 특정 오디오 소스의 거리, 상기 특정 오디오 소스의 상기 타입, 또는 이들의 조합을 나타내는, 상기 하나 이상의 오디오 소스들의 컨텍스트 데이터를 생성하는 것을 행하고;
상기 컨텍스트 데이터, 줌 배향, 및 줌 거리에 추가로 기초하여 상기 하나 이상의 등화기 설정들을 결정하고;
상기 하나 이상의 이득 조정된 오디오 신호들에 노이즈 억제를 적용하여 하나 이상의 노이즈 억제된 오디오 신호들을 생성하고; 그리고
상기 하나 이상의 등화기 설정들에 기초하여 상기 하나 이상의 노이즈 억제된 오디오 신호들을 프로세싱함으로써 상기 하나 이상의 출력 오디오 신호들을 생성하도록
구성되는, 디바이스.
방법으로서,
디바이스에서, 하나 이상의 오디오 소스들의 컨텍스트 데이터를 생성하기 위해 컨텍스트 검출기로부터의 신호를 프로세싱하는 단계로서, 상기 신호는 상기 하나 이상의 오디오 소스들에 대응하는 하나 이상의 입력 오디오 신호들에 기초하고, 상기 하나 이상의 오디오 소스들 중 특정 오디오 소스의 상기 컨텍스트 데이터는 상기 특정 오디오 소스의 타입을 표시하며, 상기 특정 오디오 소스의 상기 타입은 사람, 차량, 또는 이들의 조합 중 하나 이상을 포함하는, 상기 컨텍스트 검출기로부터의 신호를 프로세싱하는 단계;
상기 디바이스에서, 상기 특정 오디오 소스의 상기 타입에 기초하여 상기 특정 오디오 소스의 지향성 데이터를 획득하는 단계;
상기 디바이스에서, 상기 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하는 단계; 및
상기 등화기 설정들에 기초하여, 상기 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하는 단계를 포함하는, 방법.
제 24 항에 있어서,
상기 디바이스에서, 오디오 줌 동작의 줌 타겟을 나타내는 사용자 입력을 수신하는 단계; 및
상기 디바이스에서, 상기 줌 타겟에 기초하여 상기 하나 이상의 등화기 설정들을 결정하는 단계를 더 포함하고,
상기 줌 타겟은 줌 위치, 줌 거리, 줌 배향, 상기 하나 이상의 오디오 소스들 중 적어도 하나의 선택, 또는 이들의 조합을 포함하는, 방법.
명령들을 저장하는 비일시적 컴퓨터 판독가능 매체로서,
상기 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금:
하나 이상의 오디오 소스들의 컨텍스트 데이터를 생성하기 위해 컨텍스트 검출기로부터의 신호를 프로세싱하는 것으로서, 상기 신호는 상기 하나 이상의 오디오 소스들에 대응하는 하나 이상의 입력 오디오 신호들에 기초하고, 상기 하나 이상의 오디오 소스들 중 특정 오디오 소스의 상기 컨텍스트 데이터는 상기 특정 오디오 소스의 타입을 표시하며, 상기 특정 오디오 소스의 상기 타입은 사람, 차량, 또는 이들의 조합 중 하나 이상을 포함하는, 상기 컨텍스트 검출기로부터의 신호를 프로세싱하는 것을 행하게 하고;
상기 특정 오디오 소스의 상기 타입에 기초하여 상기 특정 오디오 소스의 지향성 데이터를 획득하게 하며;
상기 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하게 하며; 그리고
상기 등화기 설정들에 기초하여, 상기 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하게 하는, 비일시적 컴퓨터 판독가능 매체.
제 26 항에 있어서,
상기 명령들은, 상기 하나 이상의 프로세서들에 의해 실행될 때, 추가로 상기 하나 이상의 프로세서들로 하여금:
상기 하나 이상의 입력 오디오 신호들에 대해 빔포밍을 수행하여 하나 이상의 빔포밍된 오디오 신호들을 생성하게 하고; 그리고
상기 하나 이상의 빔포밍된 오디오 신호들에 기초하는 등화기 입력 오디오 신호를 프로세싱하여 상기 하나 이상의 출력 오디오 신호들을 생성하게 하는, 비일시적 컴퓨터 판독가능 매체.
제 26 항에 있어서,
상기 명령들은, 상기 하나 이상의 프로세서들에 의해 실행될 때, 추가로 상기 하나 이상의 프로세서들로 하여금:
상기 하나 이상의 입력 오디오 신호들에 기초하는 스피치 검출 입력 오디오 신호에서 스피치를 식별하여 하나 이상의 스피치 오디오 신호들을 생성하게 하고; 그리고
상기 하나 이상의 스피치 오디오 신호들에 기초하는 등화기 입력 오디오 신호를 프로세싱하여 상기 하나 이상의 출력 오디오 신호들을 생성하게 하는, 비일시적 컴퓨터 판독가능 매체.
장치로서,
하나 이상의 오디오 소스들의 컨텍스트 데이터를 생성하기 위해 컨텍스트 검출기로부터의 신호를 프로세싱하기 위한 수단으로서, 상기 신호는 상기 하나 이상의 오디오 소스들에 대응하는 하나 이상의 입력 오디오 신호들에 기초하고, 상기 하나 이상의 오디오 소스들 중 특정 오디오 소스의 상기 컨텍스트 데이터는 상기 특정 오디오 소스의 타입을 표시하며, 상기 특정 오디오 소스의 상기 타입은 사람, 차량, 또는 이들의 조합 중 하나 이상을 포함하는, 상기 컨텍스트 검출기로부터의 신호를 프로세싱하기 위한 수단;
상기 특정 오디오 소스의 상기 타입에 기초하여 상기 특정 오디오 소스의 지향성 데이터를 획득하기 위한 수단;
상기 지향성 데이터에 적어도 부분적으로 기초하여 하나 이상의 등화기 설정들을 결정하기 위한 수단; 및
상기 등화기 설정들에 기초하여, 상기 하나 이상의 입력 오디오 신호들의 심리음향 강화 버전에 대응하는 하나 이상의 출력 오디오 신호들을 생성하기 위한 수단을 포함하는, 장치.
제 29 항에 있어서,
상기 획득하기 위한 수단, 상기 결정하기 위한 수단, 및 상기 생성하기 위한 수단은 가상 어시스턴트, 가전 제품, 스마트 디바이스, 사물 인터넷 (IoT) 디바이스, 통신 디바이스, 헤드셋, 차량, 컴퓨터, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 뮤직 플레이어, 라디오, 비디오 플레이어, 엔터테인먼트 유닛, 개인용 미디어 플레이어, 디지털 비디오 플레이어, 카메라, 또는 내비게이션 디바이스 중 적어도 하나에 통합되는, 장치.