KR20160045083A

KR20160045083A - 다수의 마이크로폰들을 통한 오디오 포커싱

Info

Publication number: KR20160045083A
Application number: KR1020167006403A
Authority: KR
Inventors: 잇사 샤보쉬 자드; 로드 쥐 플렉
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2013-08-21
Filing date: 2014-08-19
Publication date: 2016-04-26
Also published as: EP3036913A1; US20150054943A1; US9596437B2; WO2015026748A1; CN105637894A; CN105637894B; KR102175602B1

Abstract

모바일 디바이스의 복수의 마이크로폰들로부터 수신되는 오디오를 포커싱하기 위해 다양한 기술들이 적용된다. 카메라는 장면을 나타내기 위해 사용될 수 있고, 장면 내에서의 선택은 오디오를 원하는 오디오 포커스 영역으로 포커싱할 수 있다. 기법들은 모바일 디바이스 또는 추적되는 물체의 이동을 고려할 수 있다. 미리 계산된 오디오 필터들은 특정의 모바일 디바이스의 기하학적 형태를 고려하기 위해 오디오 포커싱 프로세스를 커스터마이즈하는 데 사용될 수 있다.

Description

다수의 마이크로폰들을 통한 오디오 포커싱{AUDIO FOCUSING VIA MULTIPLE MICROPHONES}

본 발명은 다수의 마이크로폰들을 통한 오디오 포커싱에 관한 것이다.

최근의 모바일 디바이스들은 소리들을 수음(pick up)하도록 설계되어 있는 마이크로폰들을 갖추고 있다. 그렇지만, 현실 세계의 소리 환경은 보통 다수의 간섭하는 음원(sound source)들, 배경 잡음 등을 갖는다. 따라서, 특정의 음원을 청취하려고 시도할 때 문제들이 발생할 수 있다. 따라서, 오디오를 원하는 음원들에 포커싱하는 것이 여전히 필요하다.

발명의 내용은 이하에서 발명을 실시하기 위한 구체적인 내용에서 더 기술되는 선정된 개념들을 간략화된 형태로 소개하기 위해 제공된다. 발명의 내용은 청구된 발명 요지의 핵심적인 특징들 또는 필수적인 특징들을 확인하기 위한 것이 아니며, 청구된 발명 요지의 범주를 제한하기 위해 사용되기 위한 것도 아니다.

본 기술들은 적어도 일부가 컴퓨팅 시스템에 의해 구현되는 방법을 포함하고, 이 방법은 카메라가 현재 보고 있는 장면을 디스플레이하는 단계; 장면 내에서의 위치의 표시를 수신하는 단계; 장면 내에서의 위치를 오디오 포커스 영역(audio focus region)으로 변환(translate)하는 단계; 및 오디오 포커스 영역에 기초하여 복수의 마이크로폰들에 의해 수신되는 오디오를 향상시키는 단계를 포함한다.

본 기술들은 모바일 디바이스를 추가로 포함하고, 이 모바일 디바이스는 카메라; 복수의 마이크로폰들; 카메라에 의해 보여지는 장면을 디스플레이하도록 구성된 디스플레이; 디스플레이 상에서의 위치를 수신하고 이를 오디오 포커스 영역으로 변환하도록 구성된 영역 변환기(region translator)를 포함하는 오디오 포커스 도구(audio focus tool); 마이크로폰들로부터 입력을 받고 오디오 포커스 영역 내에 포커싱되는 향상된 오디오를 출력하도록 동작가능한 복수의 오디오 필터들; 및 오디오 포커스 영역에 기초하여 오디오 필터들을 선택하도록 구성된 오디오 필터 선택기를 포함한다.

본 기술들은 컴퓨팅 시스템으로 하여금 방법을 수행하게 하는 컴퓨터 실행 가능 명령어들이 인코딩되어 있는 하나 이상의 컴퓨터 판독 가능 저장 매체를 추가로 포함하고, 이 방법은 모바일 디바이스 상의 카메라로부터 비디오 출력을 수신하는 단계; 모바일 디바이스 상의 카메라로부터의 비디오 출력을 디스플레이 상에 디스플레이하는 단계; 디스플레이 상에서의 위치의 표시를 수신하는 단계; 디스플레이 상에서의 위치에 의해 표시되는 방위각 범위 및 고도 범위의 조합에 적어도 기초하여, 디스플레이 상에서의 위치를 오디오 포커스 영역 식별자로 변환하는 단계; 오디오 포커스 영역 식별자에 기초하여, 오디오 포커스 영역 식별자와 연관된 오디오 포커스 영역으로부터 오는 오디오를 향상시키도록 구성된 빔형성기 오디오 필터(beamformer audio filter)들의 세트를 선택하는 단계; 모바일 디바이스의 복수의 마이크로폰들 각각으로부터 발신되는 오디오 스트림들을 향상시키는 단계 - 여기서 향상시키는 단계는 빔형성기 오디오 필터들을 오디오 스트림들 각각에 적용하는 단계를 포함함 -; 및 향상된 오디오를 출력하는 단계를 포함한다.

본 명세서에 기술되는 바와 같이, 각종의 다른 특징들 및 장점들이 원하는 바에 따라 본 기술들 내에 포함될 수 있다.

도 1은 오디오 포커싱(audio focusing)을 구현하는 예시적인 시스템의 블록도이다.
도 2는 오디오 포커싱을 구현하는 예시적인 방법의 플로우차트이다.
도 3은 디바이스의 이동을 고려하면서 오디오 포커싱을 구현하도록 구성된 예시적인 시스템의 블록도이다.
도 4는 디바이스의 이동을 고려하면서 오디오 포커싱을 구현하는 예시적인 방법의 플로우차트이다.
도 5는 물체의 이동을 고려하면서 오디오 포커싱을 구현하도록 구성된 예시적인 시스템의 블록도이다.
도 6은 물체의 이동을 고려하면서 오디오 포커싱을 구현하는 예시적인 방법의 플로우차트이다.
도 7은 방위각에 의해 오디오 포커스 영역들로 분할되는 장면의 블록도이다.
도 8은 영역 특유의 필터(region-specific filter)들을 개발하는 예시적인 방법의 플로우차트이다.
도 9는 미리 계산된 영역 특유의 필터들을 통해 오디오 포커싱을 구현하는 예시적인 방법의 플로우차트이다.
도 10은 미리 계산된 영역 특유의 필터들에 대한 예시적인 테이블을 나타낸 도면이다.
도 11은 복수의 마이크로폰별 오디오 필터들을 통해 오디오 포커싱을 구현하는 시스템의 블록도이다.
도 12는 장면에서의 위치의 표시를 수신하는 예시적인 사용자 인터페이스의 와이어 프레임(wire frame)을 나타낸 도면이다.
도 13은 일부 기술된 실시예들이 구현될 수 있는 예시적인 컴퓨팅 시스템을 나타낸 도면이다.
도 14는 본 명세서에서 설명되는 기술들에 대해 사용될 수 있는 예시적인 모바일 디바이스를 나타낸 도면이다.
도 15는 본 명세서에서 설명되는 기술들과 관련하여 사용될 수 있는 예시적인 클라우드 지원 환경을 나타낸 도면이다.

예 1 - 예시적인 개요

본 명세서에서 설명되는 기술들은 각종의 오디오 포커스 시나리오들에 대해 사용될 수 있고, 본 기술들의 채택은 모바일 디바이스 상에 보여지는 장면에서 특정의 영역 상의 오디오를 포커싱하는 향상된 기법들을 제공할 수 있다. 사용자 인터페이스들은 오디오 포커싱을 더 잘 용이하게 할 수 있다. 기능을 향상시키기 위해 본 명세서에 기술되는 다른 특징들이 구현될 수 있다. 그 결과, 원하지 않는 소리들이 제거되거나 회피될 수 있다.

다양한 다른 특징들이 본 명세서에 기술되는 바와 같이 구현되고 결합될 수 있다.

예 2 - 오디오 포커싱을 구현하는 예시적인 시스템

도 1은 본 명세서에 기술되는 바와 같이 오디오 포커싱을 구현하는 예시적인 시스템(100)의 블록도이다.

배경 상황을 위해, 도 1은 모바일 디바이스(110)가 음원(170)에 근접하여 위치되어 있는 것을 도시하고 있다. 실제로는, 음원이 다수의 음원들일 수 있고 본 기술들에 의해 명확하게 인식될 필요는 없다.

이 예에서, 모바일 디바이스(110)는 복수의 마이크로폰들(120A 및 120B) 및 카메라(125)를 포함한다. 디스플레이(140)는 카메라(125)가 현재 보고 있는 장면을 디스플레이하도록 구성될 수 있다. 오디오 포커스 도구(130)는, 디스플레이(140) 상에서의(예컨대, 장면을 디스플레이하고 있는 동안) 위치의 표시(예컨대, 최종적으로 수치 좌표들로서 표현됨)를 수신하고 위치의 표시를 오디오 포커스 영역으로 변환하도록 구성될 수 있는 영역 변환 도구(135)를 포함할 수 있다. 이러한 오디오 포커스 영역은 본 명세서에 기술되는 바와 같이 방향(174)(예컨대, 하나 이상의 각도들, 각도 범위들 등)에 의해 표시될 수 있다. 오디오 필터들(160)은 마이크로폰들(120A 및 120B)로부터 오디오를 받고 (예컨대, 오디오 포커스 영역 내의 소리들에 포커싱되는) 오디오 출력(150)을 출력하도록 구성되어 있다. 모바일 디바이스(110)의 기지의 기하학적 형태로 인해, 마이크로폰들로부터 음원(170)으로의 방향들(182, 184)은 방향(174)에 기초하여 알 수 있거나, 추론될 수 있거나, 추정될 수 있다. 따라서, 오디오 필터들(160)이 음원(170)의 방향으로부터 오는 오디오를 향상시키도록 구성될 수 있다. 본 명세서에 기술되는 바와 같이, 일부 구현들은 오디오 포커스 영역에 기초하여 오디오 필터들을 선택하도록 구성된 오디오 필터 선택기를 추가로 포함한다.

다양한 구성요소들이 개별 박스들에 도시되어 있지만, 실제로는, 구성요소 경계들이 다를 수 있다. 예를 들어, 구성요소들이 전화기 운영 체제, 애플리케이션, 카메라 소프트웨어 등의 일부로서 제공될 수 있다. 본 기술들을 여전히 구현하면서 다른 배열들이 가능하다.

실제로는, 시스템(100)과 같은 본 명세서에서 설명되는 시스템들은 보다 복잡하고, 부가 기능, 보다 많은 통신 마이크로폰들 등을 가질 수 있다.

아날로그-디지털 변환기 등과 같은 다양한 다른 구성요소들이 도시되어 있지 않지만, 전형적으로 구성요소들을 결합시키기 위해 포함된다.

시스템(100) 및 본 명세서에 기술되는 다른 시스템들 중 임의의 것이, 이하에서 기술되는 컴퓨팅 시스템들 또는 모바일 디바이스들(예컨대, 하나 이상의 프로세서들, 메모리 등을 포함함)과 같은, 본 명세서에 기술되는 하드웨어 구성요소들 중 임의의 것과 협력하여 구현될 수 있다. 본 명세서에서의 예들 중 임의의 것에서, 입력들, 출력들, 오디오 필터들, 테이블들, 및 애플리케이션들은 하나 이상의 컴퓨터 판독 가능 저장 매체들 또는 컴퓨터 판독 가능 저장 디바이스들에 저장될 수 있다. 본 명세서에서 설명되는 기술들은 운영 체제들 또는 하드웨어의 구체적 사항들에 일반적인 것일 수 있고, 설명되는 특징들을 이용하기 위해 임의의 다양한 환경들에서 적용될 수 있다.

예 3 - 오디오 포커싱을 구현하는 예시적인 방법

도 2는 오디오 포커싱을 구현하는 예시적인 방법(200)의 플로우차트이고, 예를 들어, 도 1에 도시된 시스템에서 구현될 수 있다.

방법(200)은 전형적으로, 디바이스가 음원으로부터 청취 거리 내에 있고 음원으로부터 비롯되는 소리를 향상시키는(예컨대, 강조(emphasize)하는) 것이 요망될 때, 수행된다. 모바일 디바이스의 카메라는 음원 쪽으로 향해 있을 수 있고, 카메라로부터의 비디오 출력이 수신되고, 이어서 디스플레이 상에 디스플레이된다.

210에서, 카메라에 의해 보여지는 장면이 디스플레이 상에 디스플레이된다. 본 명세서에 기술되는 바와 같이, 장면은 모바일 디바이스와 연관된 복수의 마이크로폰들로부터 청취 거리 내에 적어도 하나의 음원을 나타내고 있을 수 있다.

220에서, 장면에서의 위치의 표시가 수신된다. 예를 들어, 디스플레이 상에서의 위치의 표시가 수신될 수 있다. 이러한 위치는 디스플레이의 x,y 좌표들, 디스플레이 또는 디바이스와 관련한 공간에서의 3차원 위치 (x,y,z) 등의 형태를 취할 수 있다. 이와 같이, (예컨대, 원하는 음원에 대응하는 또는 원하는 음원 내의) 관심 영역 또는 지점이 표시될 수 있다.

230에서, 위치가 본 명세서에 기술되는 바와 같이 오디오 포커스 영역으로 변환된다.

240에서, 복수의 마이크로폰들로부터의 오디오가 오디오 포커스 영역에 기초하여 향상된다. 본 명세서에 기술되는 바와 같이, 향상은 오디오 필터들의 적용을 포함할 수 있다. 오디오 필터들의 적용이, 다른 방향들로부터의 소리들은 억압하면서, 오디오 포커스 영역으로부터 비롯되는 소리는 강조할 수 있다. 대안적으로, 필터들이 오디오 포커스 영역으로부터 비롯되는 소리를 약화(dampen)시킬 수 있다.

오디오가 이어서 각종의 목적들 중 임의의 목적을 위해 (예컨대, 들을 수 있도록, 녹음을 위한 신호로서, 또는 둘 다를 위해) 출력될 수 있다. 예를 들어, 스피커, 이어폰, 헤드폰 등으로 출력될 수 있다.

방법(200) 및 본 명세서에 기술되는 다른 방법들 중 임의의 것이 하나 이상의 컴퓨터 판독 가능 매체들(예컨대, 저장 또는 다른 유형적 매체들)에 저장된 또는 하나 이상의 컴퓨터 판독 가능 저장 디바이스들에 저장된 (예컨대, 컴퓨팅 시스템으로 하여금 방법을 수행하게 하는) 컴퓨터 실행 가능 명령어들에 의해 수행될 수 있다.

예 4 - 예시적인 장면들 및 사운드 스테이지들

본 명세서에서의 예들 중 임의의 것에서, 모바일 디바이스의 디스플레이는 카메라의 현재 시야를 장면으로서 나타낼 수 있다. 실제로는, 카메라의 시야 전체가 디스플레이될 필요는 없다. 예를 들어, 카메라의 시야가 크로핑(cropping)되거나, 줌잉(zooming)되거나, 다른 방식으로 수정될 수 있다.

장면은 대응하는 사운드 스테이지(sound stage)(예컨대, 오디오가 비롯되는 물리적 구역) - 이로부터의 소리들이 모바일 디바이스의 복수의 마이크로폰들에 의해 수신됨 - 를 나타낼 수 있다. 본 명세서에 기술되는 바와 같이, 디스플레이는 복수의 마이크로폰들로부터 청취 거리 내에 적어도 하나의 음원을 나타내고 있을 수 있다. 장면 내의 위치들이 본 명세서에 기술되는 바와 같이 사운드 스테이지 내의 오디오 포커스 영역들에 매핑될 수 있다.

예 5 - 장면에서의 예시적인 위치

본 명세서에서의 예들 중 임의의 것에서, 장면에서의 위치의 표시가 수신될 수 있다. 2차원 및 3차원 위치들이 지원될 수 있다. 실제로는, 사용자는, 디스플레이(예컨대, 터치스크린 또는 다른 디스플레이 디바이스 또는 구역) 상에서의 제스처(예컨대, 디스플레이 상에서의 위치를 탭핑(tapping)하는 것, 플리킹(flicking), 서클링(circling) 등)에 의해서와 같은 다양한 방식들로, 디스플레이된 장면과 상호작용하는 것에 의해 위치를 표시할 수 있다. 다른 시스템들은 디스플레이 상에서의 위치 위쪽을 또는 그 안쪽을 마우스로 가리키는 것, 클릭하는 것, 음성 활성화, 눈을 깜박거리는 것(blinking), 윙크하는 것(winking) 등을 지원할 수 있다.

장면 내의 지점이 수신될 수 있지만, 다른 구현들은 원, 정사각형, 또는 임의의 형상과 같은 2차원 구역을 수신하는 것을 지원할 수 있다. 형상이 다수의 오디오 포커스 영역들에 걸쳐 있는 경우, 차후에 오디오 출력을 제공할 때 다수의 영역들로부터의 필터들로부터의 출력들이 결합될 수 있다.

디스플레이에서의 선택된 위치가 위치의 수치적 표현(예컨대, x,y 좌표들, 닫힌 형상(closed shape) 등)으로 변환될 수 있다. 본 명세서에 기술되는 바와 같이, 디바이스의 기하학적 형태가 주어진 경우, 위치의 수치적 표현이 이어서 사운드 스테이지 내의 오디오 포커스 영역으로 변환될 수 있다.

예 6 - 예시적인 오디오 포커스 영역

본 명세서에서의 예들 중 임의의 것에서, 사운드 스테이지 - 이로부터 복수의 마이크로폰들이 오디오를 수신함 - 가 복수의 오디오 포커스 영역들로 분할될 수 있다. 이러한 영역들은 각종의 형태들 또는 형상들을 취하고 전형적으로 관심 영역을 나타낼 수 있다. 본 명세서에 기술되는 바와 같이, 오디오 포커스 영역들은 장면에서의 위치들과 상관될 수 있다.

오디오 포커스 영역은 3차원 공간에서 방위각 및 고도각을 통해 규정될 수 있고, 여기서 디바이스는 중심이다.

일 구현은 본 명세서에 기술되는 바와 같이 방위각 범위들 및 고도 범위들에 기초하여 사운드 스테이지를 오디오 포커스 영역들로 분할할 수 있다. 주어진 방위각 범위와 주어진 고도 범위의 특정의 조합(예컨대, 복수의 가능한 조합 치환(combination permutation)들 중의 한 조합)이 이어서 본 명세서에 기술되는 바와 같이 오디오 포커스 영역으로 변환될 수 있다. 오디오 포커스 영역은 오디오 포커스 영역 식별자, 방위각 범위 식별자와 고도 범위 식별자의 조합 등에 의해 식별될 수 있다.

예 7 - 오디오 포커스 영역으로의 예시적인 변환

본 명세서에서의 예들 중 임의의 것에서, 장면 내의 위치가 오디오 포커스 영역으로 변환될 수 있다. 예를 들어, 디스플레이와 연관된 좌표계로부터 오디오 포커스 영역으로 변환하기 위해 수학적 변환이 이용될 수 있다. 중간 변환들이 사용되거나 암시될 수 있지만, 실제로는, 이러한 중간 변환들이 투명하게 되어 있을 수 있다.

예 8 - 예시적인 디바이스의 기하학적 형태

본 명세서에서의 예들 중 임의의 것에서, 디바이스의 기하학적 형태는 다양한 기술들이 어떻게 구현되는지에 영향을 미칠 수 있다. 예를 들어, 마이크로폰들의 개수와 모바일 디바이스 상에서의 그들의 배치 및 배향에 기초하여, 오디오 필터들이 상이한 형태들을 취할 수 있다.

이와 유사하게, 마이크로폰들에 대한 카메라의 배치 및 배향이 장면 내에서의 위치의 오디오 포커스 영역으로의 변환, 오디오 필터들, 또는 둘 다에 영향을 미칠 수 있다.

디바이스의 기하학적 형태가 디바이스에 명확하게 저장되거나 표현될 필요는 없다. 예를 들어, 필터들이 디바이스의 기하학적 형태에 기초하여 미리 계산되고 디바이스에서의 사용을 위해 제공될 수 있다. 이러한 필터들은 (예컨대, 카메라 배치 및 배향에 대한) 모바일 디바이스 상에서의 마이크로폰 배치 및 배향을 고려할 수 있다.

예시적인 구현은 4 개 또는 5 개의 마이크로폰들을 이용한다. 마이크로폰 배치 및 배향이 특정 주파수들(예컨대, 사람 목소리 범위 등)을 더 잘 포커싱하도록 결정될 수 있다.

예 9 - 예시적인 오디오 필터들

본 명세서에서의 예들 중 임의의 것에서, 각종의 오디오 필터들이 기술되는 바와 같이 오디오의 향상을 달성하기 위해 적용될 수 있다. 실제로는, 오디오 포커스 영역이 결정된 후에, 오디오 포커스 영역과 연관된 오디오 필터들의 세트(예컨대, 마이크로폰마다 하나씩)가 마이크로폰들 각각에 적용된다(예컨대, 오디오 포커스 영역과 연관된 n 개의 오디오 필터들의 세트에 대해, 그 세트로부터의 오디오 필터가 n 개의 마이크로폰들 각각에 적용된다). 마이크로폰으로부터의 디지털 오디오 데이터의 스트림이 이와 같이 오디오 필터에 따라 필터링될 수 있다. 오디오 포커스 영역으로부터의 오디오가 강조되어 있는 디지털 오디오 스트림을 제공하기 위해, 필터들의 출력이 이어서 결합될 수 있다.

오디오 포커스 영역에 대응하는 방향으로부터 비롯되는 오디오를 필터링 제거하기 위해 공간 필터링 기술들이 적용될 수 있다. 이와 같이, 오디오 포커스 영역으로부터의 소리가 분리될 수 있다.

공간 처리 또는 공간 필터링의 특정의 기법은 “빔형성(beamforming)”이라고 불리운다. 빔형성은 각각의 마이크로폰으로부터 오는 오디오 신호에 필터들을 적용하는 것을 포함할 수 있고, 따라서 본 명세서에 기술되는 바와 같이 오디오를 포커싱할 수 있다. 빔형성을 적용하는 도구 또는 프로세스가 때때로 본 명세서에서 “빔형성기”라고 불리운다. 아주 다양한 디바이스 유형들 및 사용 사례 시나리오들에서 빔형성기들이 적용될 수 있다. 적응적 빔형성이 사용될 수 있지만, 미리 계산된 필터들을 사용하는 예들에서 스위칭형 고정 빔형성(switched fixed beamforming)이 나타내어져 있다. 블라인드 음원 분리(blind source separation), 계산적 청각 장면 분석(computational auditory scene analysis), 및 비음수 행렬 인수 분해(non-negative matrix factorization)와 같은, 다른 공간 처리 기법들이 또한 적용될 수 있다.

각종의 빔형성(예컨대, 공간 필터링) 기법들이 적용될 수 있고, 필터들이 어떻게 설계되어 있는지에 따라 다를 수 있다. 예를 들어, 데이터 독립적(예컨대, 고정) 빔형성기들이, 필터들을 설계하는 데 어떤 기준이 사용되는지(예를 들어, 지향성(directivity), 잡음 제거(noise rejection) 등을 위해 무엇이 최적화되는지)에 따라, 추가로 분할될 수 있다. 데이터 의존적(예컨대, 적응적) 빔형성기들이, 설계에 대한 기준은 물론 필터의 계수들이 어떻게 (예컨대, 어떤 기준에 기초하여) 적응되는지에 기초하여, 추가로 분할될 수 있다. 본 명세서에서, 이러한 빔형성기들 중 임의의 것이 지원될 수 있다.

예 10 - 디바이스 이동을 고려하는 예시적인 오디오 포커싱 시스템

도 3은 디바이스의 이동을 고려하면서 오디오 포커싱을 구현하도록 구성된 예시적인 시스템(300)을 나타낸 블록도이다. 이 예에서, 모바일 디바이스(310)(예컨대, 도 1의 모바일 디바이스(110))는 위치 센서들(340) 및 오디오 포커스 영역 조절 도구(337)를 추가로 포함한다.

위치 센서들(340)은 모바일 디바이스(310)의 위치 변화들을 결정할 수 있고, 나침반, 자이로스코프, 가속도계, 자력계 등, 또는 이들의 조합의 형태를 취할 수 있다.

오디오 포커스 영역 조절 도구(337)는 위치 센서들(340)에 결합되고 그에 의해 검출된 위치 변화들에 따라 현재 오디오 포커스 영역을 조절할 수 있다.

예 11 - 디바이스의 이동을 고려하여 오디오 포커싱을 구현하는 예시적인 방법

도 4는 디바이스의 이동을 고려하면서 오디오 포커싱을 구현하는 예시적인 방법(400)의 플로우차트이고, 예를 들어, 도 3에 도시된 시스템에서 구현될 수 있다.

410에서, 모바일 디바이스의 이동이 하나 이상의 위치 센서들을 통해 추적된다. 예를 들어, 3차원 공간에서의 원래의 위치가 저장될 수 있고, 위치 변화들(예컨대, 배향을 포함함)이 결정될 수 있다. 위치가, 직교 좌표(예컨대, x,y,z), 극좌표 등과 같은, 다양한 좌표 형태들로 저장될 수 있다.

420에서, 오디오 포커스 영역이 디바이스의 이동에 기초하여 조절된다. 예를 들어, 디바이스의 이동이 그렇게 나타내는 경우, 상이한 오디오 포커스 영역이 선택될 수 있다.

예 12 - 물체 이동을 고려하는 예시적인 오디오 포커싱 시스템

도 5는 물체의 이동을 고려하면서 오디오 포커싱을 구현하도록 구성된 예시적인 시스템(500)을 나타낸 블록도이다. 이 예에서, 통신 디바이스(510)(예컨대, 도 1의 통신 디바이스(110))는 물체 추적기(540) 및 오디오 포커스 영역 조절 도구(537)를 추가로 포함한다.

물체 추적기(540)는 (예컨대, 오디오 포커스 영역에서의) 물체의 위치 변화들을 추적할 수 있고, 오디오 로컬화(audio localization) 기법들, 얼굴 인식 기술들 등을 이용하는 도구의 형태를 취할 수 있다.

오디오 포커스 영역 조절 도구(537)는 물체 추적기(540)에 결합되고 그에 의해 검출된 위치 변화들에 따라 현재 오디오 포커스 영역을 조절하도록 구성될 수 있다.

일 구현은 기술된 물체 추적기(540) 및 도 3의 위치 센서들 둘 다를 이용할 수 있다.

예 13 - 물체의 이동을 고려하여 오디오 포커싱을 구현하는 예시적인 방법

도 6은 물체의 이동을 고려하면서 오디오 포커싱을 구현하는 예시적인 방법(600)의 플로우차트이고, 예를 들어, 도 5에 도시된 시스템에서 구현될 수 있다.

610에서, (예컨대, 장면에서의) 물체의 이동이 추적된다. 예를 들어, 원래의 위치가 저장될 수 있고, 위치 변화들이 결정될 수 있다. 위치가, 직교 좌표(예컨대, x,y,z), 극좌표 등과 같은, 다양한 좌표 형태들로 저장될 수 있다. 물체의 이동을 결정하기 위해 얼굴 검출 기술들이 사용될 수 있다.

620에서, 오디오 포커스 영역이 물체의 이동에 기초하여 조절된다. 예를 들어, 물체가 상이한 오디오 포커스 영역으로 이동한 것으로 검출되는 경우, 오디오를 향상시키기 위해 사용되는 현재 오디오 포커스 영역이 업데이트될 수 있다.

디바이스 이동 및 물체 이동 둘 다가 단일의 디바이스에서 고려될 수 있도록, 도 6의 방법이 도 4의 방법에 포함될 수 있다.

예 14 - 방위각에 의한 예시적인 오디오 포커스 영역들

도 7은 방위각에 의해 오디오 포커스 영역들로 분할되는 (예컨대, 장면에 대응하는) 사운드 스테이지의 블록도(700)이다 이 예에서, 카메라(125)가 보고 있는 디바이스 전방에 있는 반평면(예컨대, 카메라를 주어진 방향으로 지향시킬 때 사용자가 전방에서 보는 것)은 방위각에 의해 a 개의(예컨대, 복수의) 영역들(720A 내지 720F)로 분할된다. 이 예에서, a = 6이지만; 범위들의 개수는 원하는 바에 따라 조절될 수 있다. 범위들은 주어진 거리(예컨대, 마이크로폰들의 청취 범위)까지 확장되는 것으로 가정될 수 있다. 따라서, 음원(770)은 방위각 범위들 중 하나(720B) 내에(예컨대, 30 내지 60도의 방위각 범위 내에) 있는 것으로 간주될 수 있다.

실제로는, 사운드 스테이지가 고도에 의해 추가로 분할될 수 있다. 예를 들어, e 개의(예컨대, 복수의) 범위들이 표시될 수 있다. 일례로서, 이러한 배열은 영점 고도(zero elevation) 위쪽에 있는 e/2 개의 범위들 및 영점 고도 아래쪽에 있는 e/2 개의 범위들을 가질 수 있을 것이다. 다른 배열들이 가능하다(예컨대, 영점 고도가 장면 등에 표시된 가장 낮은 고도임). 앞서 기술된 바와 같이, e는 6일 수 있지만; 범위들의 개수는 원하는 바에 따라 조절될 수 있다. 예를 들어, 방위각에 대한 180도가 a 개의 범위들로 분할되고, 고도에 대한 180도가 e 개의 범위들로 분할되는 경우, 총 a x e 개의 오디오 포커스 영역들이 있을 것이다. 실제로는, 전형적인 카메라들에 이용 가능한 제한된 시계(field)로 인해 180도 미만이 표현될 수 있다.

방위각 범위들과 고도 범위들을 치환하는 것에 의해, a x e 개의 오디오 포커스 영역들이 규정될 수 있다. 본 명세서에 기술되는 바와 같이, 오디오 필터들이 이어서 특정의 오디오 포커스 영역에 기초하여 선택될 수 있다. 영역들이 또한 본 명세서에 기술되는 바와 같이 디바이스 이동 및 물체 이동에 기초하여 조절될 수 있다.

예 15 - 영역들에 대한 예시적인 미리 계산된 오디오 필터들

도 8은 영역 특유의 필터들을 개발하는 예시적인 방법(800)의 플로우차트이고, 예를 들어, 도 7에 도시된 배열을 사용하여 구현될 수 있다. 실제로는, 방법(800)은 본 명세서에서 설명되는 다른 방법들의 사용에 앞서 수행될 수 있다.

방법(800)이 시작하기 전에, 특정의 모바일 디바이스에 대한 디바이스의 기하학적 형태가 결정될 수 있고, 필터들이 주어진 모바일 디바이스의 기하학적 형태에 따라 생성될 수 있다.

810에서, 사운드 스테이지가 본 명세서에 기술되는 바와 같이 방위각 범위들 및 고도 범위들에 기초하여 오디오 포커스 영역들로 분할될 수 있다.

820에서, 오디오 포커스 영역들 각각(예컨대, 방위각 및 고도 범위 조합들 각각)에 대해 각각의 오디오 필터들의 세트들(예컨대, 세트 내의 마이크로폰별 필터)이 생성될 수 있다. 이와 같이, m 개의 마이크로폰들을 갖는 일 구현에서, 총 a x e x m 개의 필터들이 생성될 수 있다. 실제로는, 일부 필터들이 불필요하거나 실현 불가능할 수 있고, 포함될 필요가 없다.

830에서, 필터들이 오디오 포커스 영역들(예컨대, 방위각 및 고도 조합들)과 연관된다. 이와 같이, 필터들의 세트(예컨대, 마이크로폰별 필터)가 주어진 조합과 연관될 수 있다.

원하는 경우, 오디오 필터들이 이어서 모바일 디바이스에 제공될 수 있다. 예를 들어, 오디오 필터들이 하드웨어(예컨대, ASIC, ROM 등) 또는 소프트웨어 형태로 디바이스 내에 통합될 수 있다. 또는, 필터들이 애플리케이션의 일부 또는 이러한 애플리케이션에 대한 업데이트로서 획득될 수 있다. 테이블이 본 명세서에 기술되는 바와 같이 이용될 수 있고, 테이블에 의해 적절한 필터들의 탐색이 달성될 수 있다.

그 후에, 특정의 조합과 연관된 오디오 포커스 영역에서의 오디오를 향상시키라는 요청이 수신될 때, 특정의 조합과 연관된 필터들이 마이크로폰들로부터의 오디오에 적용될 수 있다.

(예컨대, 디바이스의 기하학적 형태가 그렇게 결정되어 있을 때) 상이한 디바이스들에 대해 상이한 필터들이 제공되도록 필터 세트들이 특정의 디바이스들과 연관될 수 있다.

예 16 - 미리 계산된 영역 특유의 필터들을 통한 예시적인 오디오 포커싱 방법

도 9는 미리 계산된 영역 특유의 필터들을 통한 오디오 포커싱을 구현하는 예시적인 방법(900)의 플로우차트이고, 예를 들어, 도 1에 도시된 배열을 사용하여 구현되고 도 2의 방법에 통합될 수 있다. 이 방법은, 본 명세서에 기술되는 바와 같이 오디오를 향상시키기 위해, 오디오가 오디오 포커스 영역 내로부터 비롯되고 있을 때 수행될 수 있다. 오디오 필터들이 본 명세서에 기술되는 바와 같이(예컨대, 모바일 디바이스 상에서의 마이크로폰 배치에 기초한 방위각 범위들 및 고도 범위들의 조합들에 기초하여) 미리 계산될 수 있다. 필터 세트를 선택하는 선택 논리가 또한 포함될 수 있다. 오디오 필터들이 본 명세서에 기술되는 바와 같이 저장될 수 있다.

910에서, 장면에서의 위치에 기초하여, 오디오 포커스 영역이 결정된다. 본 명세서에 기술되는 바와 같이, 방위각 범위 및 고도 범위 조합이 결정될 수 있다. 예를 들어, 디스플레이 상에서의 위치에 대응하는 방위각 및 고도가 결정될 수 있다. 이어서, 방위각이 어느 방위각 범위에 속하는지와 고도가 어느 고도 범위에 속하는지가 결정될 수 있다. 방위각 범위들은 방위각 범위 식별자들에 의해 식별될 수 있고, 고도 범위들은 고도 범위 식별자들에 의해 식별될 수 있다.

920에서, 오디오 포커스 영역(예컨대, 방위각 범위 및 고도 범위 조합)에 대한 적절한 미리 계산된 오디오 필터들이 결정(예컨대, 선택)된다. 예를 들어, 특정의 조합이 주어진 경우, 오디오 필터들의 세트가 식별될 수 있다. 방위각 및 고도가 이와 같이 오디오 포커스 영역 식별자로 변환될 수 있다. 대안적으로, 방위각 범위 식별자 조합 및 고도 범위 식별자 조합이 결정될 수 있고, 미리 계산된 오디오 필터들이 방위각 범위 식별자 및 고도 범위 식별자 조합을 오디오 필터들에 매핑하는 것에 의해 선택될 수 있다.

930에서, 오디오를 포커싱하기 위해 미리 계산된 필터들이 (예컨대, 마이크로폰들 각각으로부터 수신되는 오디오에) 적용될 수 있다. 이와 같이, 방위각 및 고도에 의해 표시된 방향에서의 오디오의 향상이 달성될 수 있다.

예 17 - 예시적인 오디오 필터 테이블

도 10은 미리 계산된 영역 특유의 필터들을 탐색하기 위한 예시적인 테이블(1000)의 도면이다. 이 예에서, 오디오 포커스 영역들(1031)은 테이블(1000)의 항목들(1030)에서의 필터 세트(1035A, 1035B)와 연관되어 있다.

실제로는, 보다 많은 마이크로폰들에 대해 보다 많은 필터들이 있을 수 있다. 예를 들어, 오디오를 포커싱하기 위해 사용되는 m 개의 마이크로폰들이 있는 경우, 각각의 오디오 포커스 영역과 연관된 m 개의 필터들(예컨대, 주어진 오디오 포커스 영역에 대해 마이크로폰마다 하나의 필터)이 있을 수 있다.

오디오 포커스 영역(1031)은 오디오 포커스 영역 식별자에 의해 표현될 수 있다. 일부 구현들에서, 조합 또는 치환(예컨대, 2 개의 식별자들)이 사용될 수 있다(예컨대, 하나는 방위각 범위에 대한 것이고 하나는 고도 범위에 대한 것임).

이와 같이, 본 명세서에서의 예들 중 임의의 것에서, 미리 계산된 오디오 필터들을 선택하는 것은 미리 계산된 오디오 필터들의 테이블에서 항목을 식별하는 것을 포함할 수 있다.

예 18 - 예시적인 마이크로폰별 오디오 필터 배열

도 11은 복수의 마이크로폰별 오디오 필터들(1150A 내지 1150N)을 통해 오디오 포커싱을 구현하는 시스템(1100)의 블록도이다. 이 예에서, N 개의 마이크로폰들(1110A 내지 1110N)이 지원되고, K 개의 오디오 포커스 영역들이 지원된다.

이 예에서, 마이크로폰(1110A)은 아날로그 출력을 아날로그-디지털 변환기(1120A)로 송신한다. 이와 유사하게, 제2 마이크로폰(1110B)은 아날로그 출력을 아날로그-디지털 변환기(1120B)로 송신한다. 마이크로폰(1110N)은 또한 컨버터(1120N)에도 출력할 수 있다.

디지털 출력이 마이크로폰 특유의 처리(1130A 내지 1130N)에 의해(예컨대, 마이크로폰별로) 처리될 수 있다. 이러한 처리의 예들은 이득, 주파수, 위상 조절, 고장 검출 등을 포함한다.

1140에서, 임의의 공동 마이크로폰 전처리(joint-microphone pre-processing)가 수행될 수 있다. 예들은 임의의 형태의 등화(equalization), 신호 조절(signal conditioning), 정상적 잡음 억압(stationary noise suppression), 잔향 소거(reverberation cancellation) 등을 포함한다.

그 후에, 공동 마이크로폰 전처리(140)의 출력이 선택된 마이크로폰별 오디오 필터들(1150A 내지 1150N)(예컨대, 본 명세서에 기술되는 빔형성을 구현하는 필터들)에 의해 처리될 수 있다. 도시된 바와 같이, J=1 내지 K이고, 여기서 K는 오디오 포커스 영역들의 개수이다. 필터들이 결정된 오디오 포커스 영역에 기초하여 이와 같이 선택될 수 있고, 마이크로폰마다 상이한 필터가 적용될 수 있다.

필터들(1150A 내지 1150N)의 출력들이 이어서 공동 마이크로폰 후처리(1160)를 거칠 수 있다. 예들은 전환 향상(transition enhancement)(예컨대, 하나의 오디오 포커스 영역으로부터 다른 오디오 포커스 영역으로 스위칭할 때), 이득 램프 업(gain ramp up), 이득 램프 다운(gain ramp down), 잔향 억압 등과 같은, 비선형 처리를 포함한다. 빔형성기의 적용 후에 출력을 개선시키거나 향상시키는 임의의 형태의 신호 처리가 사용될 수 있다. 이러한 처리는 출력(1190)을 생성하기 위해 오디오 포커싱 프로세스와 독립적으로 적용될 수 있다.

예 19 - 위치의 표시를 수신하는 예시적인 사용자 인터페이스

도 12는 사운드 스테이지에 대응하는 장면에서의 위치의 표시를 수신하는 예시적인 사용자 인터페이스(1200)의 와이어 프레임이다. 이 예에서, 디스플레이는 모바일 디바이스의 카메라로부터의 시야를 디스플레이하고 있다. 사용자는 카메라 기능을 시작하고 카메라를 관심 방향으로 지향시키는 것에 의해 사용자 인터페이스를 탐색할 수 있다.

장면은 디바이스의 마이크로폰들로부터 청취 거리 내의 물체(1250)의 표현을 포함한다.

사용자는 위치(1260)를 디스플레이 상에 표시할 수 있다. 표시가 부주의에 의한 것이 아니었음을 확인하기 위해, 메뉴 또는 다른 사용자 인터페이스 요소가 오디오 향상 특징을 확인하도록 디스플레이될 수 있다.

위치가 이어서 본 명세서에 기술되는 바와 같이 오디오 포커스 영역으로 변환될 수 있다.

위치가 선택되면, 사용자가 어디에서 선택이 행해졌는지를 보거나 확인할 수 있도록 표시(예컨대, 원)가 사용자 인터페이스에 보여질 수 있다. 그 후에, 위치가 이리저리 이동되거나, 삭제되거나, 기타가 행해질 수 있다. 본 명세서에 기술되는 바와 같이, 다수의 위치들이 지원될 수 있다.

예 20 - 예시적인 널(Null) 구현

본 명세서에서의 예들 중 임의의 것에서, 오디오 포커스 영역으로부터 비롯되는 소리를 약화(예컨대, 감쇠(attenuate), 억압 등)시키기 위해 필터들이 개발되어 사용될 수 있다. 이러한 경우에, 장면에서의 위치의 표시는 소리가 필터링 제거(예컨대, 표시된 방향에서 널이 적용됨)되어야만 하는 위치 또는 제거의 구역을 표시한다.

예 21 - 예시적인 플러그형 필터(Pluggable Filter)들

기술되는 오디오 필터들이, 모바일 디바이스 유형에 기초하여 오디오 필터들의 용이한 교체에 대응하기 위해, 오디오 포커싱 소프트웨어로부터 분리될 수 있다.

따라서, 예를 들어, 오디오 포커싱 소프트웨어가 애플리케이션으로서 제공되는 경우, 모바일 디바이스 유형의 결정이 수신될 수 있고, 복수의 오디오 포커스 영역들에 대한 적절한 오디오 필터 세트가 애플리케이션과 협력하여 사용될 디바이스에 다운로드될 수 있다.

이와 유사하게, 오디오 포커싱 기능이 다른 소프트웨어에 포함되어 있는 경우, 다른 디바이스들에 대한 필터들을 그 소프트웨어 내에 넣어두어야만 하는 것을 피하기 위해 필터들이 서버로부터 다운로드될 수 있다. 모바일 디바이스 상에 저장되는 필터들이 이와 같이 모바일 디바이스에 적용 가능한 것들로 제한될 수 있다.

예 22 - 예시적인 조절

본 명세서에서의 예들 중 임의의 것에서, 오디오 포커스 영역이 조절되어야만 한다는 것을 알려주기 위해 추가적인 입력이 수신될 수 있다. 예를 들어, 일단의 화살표들, 또는 장면 내에서의 드래깅(dragging)이 지원될 수 있다. 주어진 방향에서 오디오 포커스 영역을 조절하라는 표시를 수신한 후에, 주어진 방향에 기초하여 향상에 대한 조절이 적용될 수 있다.

예 23 - 예시적인 병합

본 명세서에서의 예들 중 임의의 것에서, 다수의 위치들로부터의 오디오가 지원될 수 있다. 예를 들어, 장면 내에서의 제2 위치의 표시가 수신될 수 있다. 제2 위치는 제2 오디오 포커스 영역으로 변환될 수 있다. 마이크로폰들에 의해 수신되는 오디오는 이어서 제2 오디오 포커스 영역에 기초하여 추가로 향상될 수 있다. 예를 들어, 다수의 오디오 필터 세트들의 출력이 병합될 수 있다.

예 24 - 예시적인 사용 사례들

본 명세서에서의 기술들이 각종의 사용 사례들에 적용될 수 있다.

예를 들어, 번잡하거나 시끄러운 환경에 있는 누군가에 귀를 기울이기 위해 본 기술들이 사용될 수 있다.

녹음이 주변 구역들로부터의 잡음 또는 다른 오디오 신호들을 회피하면서 소리를 주어진 방향에 포커싱할 수 있다.

다른 구현은 전화 회의 시나리오에서 본 기술들을 사용한다. 장면 내에서의 위치는 전화 회의의 참가자에 이와 같이 대응할 수 있고, 본 방법은 전화 회의 동안 향상된 오디오를 제공하는 것을 추가로 포함한다.

예를 들어, 모바일 디바이스는 이와 같이 시끄러운 환경에서 오디오를 현재 발언하는 참가자에 포커싱하기 위해 사용될 수 있다.

다른 구현은 청각 장애가 있는 사람들을 위해 본 기술들을 사용한다. 청력 상실된 사람들이 시끄러운 환경에서 본 명세서에서 설명되는 기술들을 적용함으로써 더 잘 들을 수 있다.

예 25 - 예시적인 장점들

본 명세서에 기술되는 바와 같이, 사용자들은, 디스플레이 상에서의 위치를 단순히 선택하는 것에 의해, 진보된 오디오 필터링 기술들을 용이하게 이용할 수 있다.

미리 계산된 필터들을 이용하는 구현들에서, 상당한 계산 자원들이 절감될 수 있다.

예 26 - 예시적인 컴퓨팅 시스템들

도 13은 기술된 혁신들 중 몇몇이 구현될 수 있는 적당한 컴퓨팅 시스템 또는 환경(1300)의 일반화된 예를 나타낸 것이다. 혁신들이 다양한 범용 또는 특수 목적 컴퓨팅 시스템들에서 구현될 수 있기 때문에, 컴퓨팅 시스템(1300)은 용도 또는 기능의 범주에 관한 임의의 제한을 암시하기 위한 것이 아니다. 본 명세서에 기술되는 바와 같은 통신 디바이스는 기술된 컴퓨팅 시스템(1300)의 형태를 취할 수 있다.

도 13을 참조하면, 컴퓨팅 시스템(1300)은 적어도 하나의 처리 유닛들(1310, 1315) 및 메모리(1320, 1325)를 포함한다. 도 13에서, 이 기본적인 구성(1330)은 파선 내에 포함되어 있다. 처리 유닛들(1310, 1315)은 컴퓨터 실행 가능 명령어들을 실행한다. 처리 유닛은 범용 중앙 처리 유닛(general-purpose central processing unit; CPU), 주문형 집적 회로(application-specific integrated circuit; ASIC) 내의 프로세서, 또는 임의의 다른 유형의 프로세서일 수 있다. 다중 처리 시스템(multi-processing system)에서는, 처리 능력을 증가시키기 위해 다수의 처리 유닛들이 컴퓨터 실행 가능 명령어들을 실행한다. 예를 들어, 도 13은 중앙 처리 유닛(1310)은 물론, 그래픽 처리 유닛 또는 코프로세싱 유닛(coprocessing unit)(1315)을 나타내고 있다. 유형적 메모리(tangible memory)(1320, 1325)는 처리 유닛(들)에 의해 액세스 가능한, 휘발성 메모리(예컨대, 레지스터, 캐시, RAM), 비휘발성 메모리(예컨대, ROM, EEPROM, 플래시 메모리 등), 또는 이 둘의 어떤 조합일 수 있다. 메모리(1320, 1325)는 본 명세서에 기술되는 하나 이상의 혁신들을 구현하는, 처리 유닛(들)에 의한 실행에 적당한 컴퓨터 실행 가능 명령어들의 형태로 된 소프트웨어(1380)를 저장한다.

컴퓨팅 시스템은 부가의 특징들을 가질 수 있다. 예를 들어, 컴퓨팅 시스템(1300)은 저장소(1340), 하나 이상의 입력 디바이스들(1350), 하나 이상의 출력 디바이스들(1360), 및 하나 이상의 통신 연결들(1370)을 포함한다. 버스, 제어기 또는 네트워크와 같은 상호연결 메커니즘(도시 생략)은 컴퓨팅 시스템(1300)의 구성요소들을 상호연결시킨다. 전형적으로, 운영 체제 소프트웨어(도시 생략)는 컴퓨팅 시스템(1300)에서 실행 중인 다른 소프트웨어에 대한 운영 환경을 제공하고, 컴퓨팅 시스템(1300)의 구성요소들의 활동들을 조정한다.

유형적 저장소(tangible storage)(1340)는 이동식 또는 비이동식일 수 있고, 정보를 비일시적 방식으로 저장하는 데 사용될 수 있고 컴퓨팅 시스템(1300) 내에서 액세스될 수 있는, 자기 디스크, 자기 테이프 또는 카세트, CD-ROM, DVD, 또는 임의의 다른 매체를 포함한다. 저장소(1340)는 본 명세서에 기술되는 하나 이상의 혁신들을 구현하는 소프트웨어(1380)에 대한 명령어들을 저장한다.

입력 디바이스(들)(1350)는 컴퓨팅 시스템(1300)에 입력을 제공하는 키보드, 마우스, 펜, 또는 트랙볼과 같은 터치 입력 디바이스, 음성 입력 디바이스, 스캐닝 디바이스, 또는 다른 디바이스일 수 있다. 비디오 인코딩의 경우, 입력 디바이스(들)(1350)는 아날로그 또는 디지털 형태로 비디오 입력을 받는 카메라, 비디오 카드, TV 튜너 카드, 또는 유사한 디바이스, 또는 비디오 샘플들을 컴퓨팅 시스템(1300)으로 읽어들이는 CD-ROM 또는 CD-RW일 수 있다. 출력 디바이스(들)(1360)는 컴퓨팅 시스템(1300)으로부터의 출력을 제공하는 디스플레이, 프린터, 스피커, CD 라이터(CD-writer), 또는 다른 디바이스일 수 있다.

통신 연결(들)(1370)은 통신 매체를 통한 다른 컴퓨팅 엔터티와의 통신을 가능하게 한다. 통신 매체는 컴퓨터 실행 가능 명령어들, 오디오 또는 비디오 입력 또는 출력, 또는 다른 데이터와 같은 정보를 피변조 데이터 신호(modulated data signal)로 전달한다. 피변조 데이터 신호는 신호의 특성들 중 하나 이상이 정보를 그 신호에 인코딩하는 방식으로 설정되거나 변경된 신호이다. 제한이 아닌 예로서, 통신 매체는 전기, 광, RF, 또는 다른 반송파를 사용할 수 있다.

혁신들이 일반적으로 컴퓨터 판독 가능 매체와 관련하여 기술되어 있을 수 있다. 컴퓨터 판독 가능 매체는 컴퓨팅 환경 내에서 액세스될 수 있는 임의의 이용 가능한 유형적 매체이다. 제한이 아닌 예로서, 컴퓨팅 시스템(1300)에서, 컴퓨터 판독 가능 매체는 메모리(1320, 1325), 저장소(1340), 및 상기한 것들 중 임의의 것의 조합들을 포함한다.

혁신들이 일반적으로 컴퓨팅 시스템에서 대상 실제 또는 가상 프로세서 상에서 실행되는(예컨대, 궁극적으로 하드웨어로 실행되는), 프로그램 모듈들에 포함된 것들과 같은, 컴퓨터 실행 가능 명령어들과 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈들은 특정의 작업들을 수행하거나 특정의 추상 데이터 형식들을 구현하는 루틴들, 프로그램들, 라이브러리들, 객체들, 클래스들, 구성요소들, 데이터 구조들 등을 포함한다. 프로그램 모듈들의 기능이 다양한 실시예들에서 원하는 바에 따라 프로그램 모듈들 간에 결합되거나 분할되어 있을 수 있다. 프로그램 모듈들에 대한 컴퓨터 실행 가능 명령어들은 로컬 또는 분산 컴퓨팅 시스템 내에서 실행될 수 있다.

"시스템" 및 "디바이스"라는 용어들은 본 명세서에서 서로 바꾸어 사용될 수 있다. 문맥이 명백히 달리 나타내지 않는 한, 용어가 컴퓨팅 시스템 또는 컴퓨팅 디바이스의 유형에 대한 어떤 제한도 암시하지 않는다. 일반적으로, 컴퓨팅 시스템 또는 컴퓨팅 디바이스는 로컬이거나 분산되어 있을 수 있고, 본 명세서에 기술되는 기능을 구현하는 소프트웨어를 갖는 특수 목적 하드웨어 및/또는 범용 하드웨어의 임의의 조합을 포함할 수 있다.

제시를 위해, 발명을 실시하기 위한 구체적인 내용은 컴퓨팅 시스템에서의 컴퓨터 동작들을 기술하기 위해 "결정한다" 및 "사용한다"와 같은 용어들을 사용한다. 이 용어들은 컴퓨터에 의해 수행되는 동작들에 대한 상위 레벨 추상화들이고, 사람에 의해 수행되는 동작들과 혼동되어서는 안된다. 이 용어들에 대응하는 실제 컴퓨터 동작들은 구현에 따라 다르다.

예 27 - 예시적인 모바일 디바이스

도 14는 각종의 선택적인 하드웨어 및 소프트웨어 구성요소들(전체적으로 1402로 나타내어져 있음)을 포함하는 예시적인 모바일 디바이스(1400)를 나타낸 시스템도이다. 모바일 디바이스 내의 임의의 구성요소들(1402)은 임의의 다른 구성요소와 통신할 수 있지만, 예시의 편의를 위해, 연결들 모두가 도시되어 있지는 않다. 모바일 디바이스는 각종의 컴퓨팅 디바이스들(예컨대, 셀폰, 스마트폰, 핸드헬드 컴퓨터, 개인용 디지털 보조장치(Personal Digital Assistant; PDA) 등) 중 임의의 것일 수 있고, 셀룰러, 위성 또는 다른 네트워크와 같은, 하나 이상의 이동 통신 네트워크들(1404)과의 무선 양방향 통신을 가능하게 할 수 있다. (예컨대, Wi-Fi 또는 다른 네트워크를 통한) 보이스 오버 아이피(Voice over IP) 시나리오들이 또한 지원될 수 있다. 본 명세서에 기술되는 통신 디바이스들은 기술된 모바일 디바이스(1400)의 형태를 취할 수 있다.

예시된 모바일 디바이스(1400)는 신호 코딩, 데이터 처리, 입출력 처리, 전력 제어, 및/또는 다른 기능들과 같은 작업들을 수행하기 위한 제어기 또는 프로세서(1410)(예컨대, 신호 프로세서, 마이크로프로세서, ASIC, 또는 다른 제어 및 처리 논리 회로부)를 포함할 수 있다. 운영 체제(1412)는 구성요소들(1402)의 할당 및 사용과 하나 이상의 애플리케이션 프로그램들(1414)에 대한 지원을 제어할 수 있다. 애플리케이션 프로그램들(1414)은 통상의 모바일 컴퓨팅 애플리케이션들(예컨대, 이메일 애플리케이션, 달력, 연락처 관리자, 웹 브라우저, 메시징 애플리케이션) 또는 임의의 다른 컴퓨팅 애플리케이션을 포함할 수 있다. 애플리케이션 저장소에 액세스하기 위한 기능(1413)이 또한 애플리케이션들(1414)을 획득하고 업데이트하는 데 사용될 수 있다.

예시된 모바일 디바이스(1400)는 메모리(1420)를 포함할 수 있다. 메모리(1420)는 비이동식 메모리(1422) 및/또는 이동식 메모리(1424)를 포함할 수 있다. 비이동식 메모리(1422)는 RAM, ROM, 플래시 메모리, 하드 디스크, 또는 다른 널리 공지된 메모리 저장 기술들을 포함할 수 있다. 이동식 메모리(1424)는 플래시 메모리 또는 가입자 식별 모듈(Subscriber Identity Module; SIM) 카드(GSM 통신 시스템들에서 널리 공지되어 있음), 또는 "스마트 카드"와 같은 다른 널리 공지된 메모리 저장 기술들을 포함할 수 있다. 메모리(1420)는 운영 체제(1412) 및 애플리케이션들(1414)을 실행하기 위한 데이터 및/또는 코드를 저장하는 데 사용될 수 있다. 예시적인 데이터는 하나 이상의 유선 또는 무선 네트워크들을 통해 하나 이상의 네트워크 서버들 또는 다른 디바이스들로 송신되고 그리고/또는 그로부터 수신되는 웹 페이지, 텍스트, 영상, 사운드 파일, 비디오 데이터, 또는 다른 데이터 집합을 포함할 수 있다. 메모리(1420)는 국제 이동 가입자 식별(International Mobile Subscriber Identity; IMSI)과 같은 가입자 식별자(subscriber identifier), 및 국제 이동 장비 식별자(International Mobile Equipment Identifier; IMEI)와 같은 장비 식별자(equipment identifier)를 저장하는 데 사용될 수 있다. 이러한 식별자들은 사용자들 및 장비를 식별하기 위해 네트워크 서버로 전송될 수 있다.

모바일 디바이스(1400)는 터치 스크린(1432), 마이크로폰(1434), 카메라(1436), 물리 키보드(1438) 및/또는 트랙볼(1440)과 같은 하나 이상의 입력 디바이스들(1430), 그리고 스피커(1452) 및 디스플레이(1454)와 같은 하나 이상의 출력 디바이스들(1450)을 지원할 수 있다. 다른 가능한 출력 디바이스들(도시 생략)은 압전 또는 다른 햅틱 출력 디바이스들을 포함할 수 있다. 일부 디바이스들은 하나 초과의 입출력 기능을 제공할 수 있다. 예를 들어, 터치 스크린(1432) 및 디스플레이(1454)는 단일의 입출력 디바이스로 결합될 수 있다.

기술 분야에서 잘 알려져 있는 바와 같이, 무선 모뎀(1460)은 안테나(도시 생략)에 결합될 수 있고, 프로세서(1410)와 외부 디바이스들 사이의 양방향 통신을 지원할 수 있다. 모뎀(1460)은 총칭하여 도시되어 있고, 이동 통신 네트워크(1404)와 통신하기 위한 셀룰러 모뎀 및/또는 다른 무선 기반 모뎀들(예컨대, 블루투스(1464) 또는 Wi-Fi(1462))을 포함할 수 있다. 무선 모뎀(1460)은 전형적으로 단일의 셀룰러 네트워크 내에서의, 셀룰러 네트워크들 사이에서의, 또는 모바일 디바이스와 공중 교환 전화 네트워크(public switched telephone network; PSTN) 사이에서의 데이터 및 음성 통신을 위한 GSM 또는 CDMA 네트워크와 같은, 하나 이상의 셀룰러 네트워크들과 통신하도록 구성되어 있다.

모바일 디바이스(1400)는 적어도 하나의 입출력 포트(1480), 전원(1482), 글로벌 위치확인 시스템(Global Positioning System; GPS) 수신기와 같은 위성 항법 시스템 수신기(satellite navigation system receiver)(1484), 가속도계(1486), 및/또는 USB 포트, IEEE 1394(FireWire) 포트, 및/또는 RS-232 포트일 수 있는 물리 커넥터(1490)를 추가로 포함할 수 있다. 예시된 구성요소들(1402)이 필요하지 않거나 모두 포함되는데, 그 이유는 임의의 구성요소들이 삭제될 수 있고 다른 구성요소들이 추가될 수 있기 때문이다.

예 28 - 예시적인 클라우드 지원 환경

예시적인 환경(1500)에서, 클라우드(1510)는 각종의 화면 기능들을 갖는 연결된 디바이스들(1530, 1540, 1550)에 대한 서비스들을 제공한다. 연결된 디바이스(1530)는 컴퓨터 화면(1535)(예컨대, 중간 크기 화면)을 갖는 디바이스를 나타낸다. 예를 들어, 연결된 디바이스(1530)는 데스크톱 컴퓨터, 랩톱, 노트북, 넷북 등과 같은 개인용 컴퓨터일 수 있다. 연결된 디바이스(1540)는 모바일 디바이스 화면(1545)(예컨대, 소형 화면)을 갖는 디바이스를 나타낸다. 예를 들어, 연결된 디바이스(1540)는 휴대폰, 스마트폰, 개인용 디지털 보조장치, 태블릿 컴퓨터 등일 수 있다. 연결된 디바이스(1550)는 대화면(1555)을 갖는 디바이스를 나타낸다. 예를 들어, 연결된 디바이스(1550)는 텔레비전 화면(예컨대, 스마트 텔레비전) 또는 텔레비전에 연결된 다른 디바이스(예컨대, 셋톱 박스 또는 게임 콘솔) 등일 수 있다. 연결된 디바이스(1530, 1540, 1550) 중 하나 이상은 터치 스크린 기능을 포함할 수 있다. 터치 스크린들은 상이한 방식들로 입력을 받을 수 있다. 예를 들어, 용량성 터치 스크린들은, 물체(예컨대, 손가락 끝 또는 스타일러스)가 표면을 가로질러 지나는 전류를 왜곡하거나 차단시킬 때, 터치 입력을 검출한다. 다른 예로서, 터치 스크린들은 광 센서들로부터의 빔들이 차단될 때 터치 입력을 검출하기 위해 광 센서들을 사용할 수 있다. 어떤 터치스크린들에서는 입력이 검출되기 위해 화면의 표면과의 물리적 접촉이 필요하지 않다. 화면 기능이 없는 디바이스들이 또한 예시적인 환경(1500)에서 사용될 수 있다. 예를 들어, 클라우드(1510)는 디스플레이들을 갖지 않는 하나 이상의 컴퓨터들(예컨대, 서버 컴퓨터들)에 대한 서비스들을 제공할 수 있다.

서비스들이 서비스 공급자들(1520)을 통해 또는 다른 온라인 서비스 공급자들(도시 생략)을 통해 클라우드(1510)에 의해 제공될 수 있다. 예를 들어, 클라우드 서비스들이 특정의 연결된 디바이스(예컨대, 연결된 디바이스들(1530, 1540, 1550))의 화면 크기, 디스플레이 기능, 및/또는 터치 스크린 기능에 맞게 커스터마이즈될 수 있다.

예시적인 환경(1500)에서, 클라우드(1510)는, 서비스 공급자들(1520)을 적어도 부분적으로 사용하여, 다양한 연결된 디바이스들(1530, 1540, 1550)에 본 명세서에 기재된 기술들 및 해결책들을 제공한다. 예를 들어, 서비스 공급자들(1520)은 다양한 클라우드 기반 서비스들에 대한 중앙집중식 해결책을 제공할 수 있다. 서비스 공급자들(1520)은 사용자들 및/또는 디바이스들(예컨대, 연결된 디바이스들(1530, 1540, 1550) 및/또는 그들 각각의 사용자들)에 대한 서비스 가입들을 관리할 수 있다.

예 29 - 예시적인 구현들

개시된 방법들 중 일부 방법들의 동작들이, 제시의 편의상, 특정의 순차적 순서로 기술되어 있지만, 이하에서 기재되는 특정한 언어(language)에 의해 특정의 순서가 요구되지 않는 한, 이러한 기재 방식이 재배열을 포함한다는 것을 잘 알 것이다. 예를 들어, 순차적으로 기술되는 동작들이, 어떤 경우들에서, 재배열되거나 동시에 수행될 수 있다. 더욱이, 간단함을 위해, 첨부 도면들이 개시된 방법들이 다른 방법들과 함께 사용될 수 있는 다양한 방식들을 나타내지 않을 수 있다.

개시된 방법들 중 임의의 것이 하나 이상의 컴퓨터 판독 가능 저장 매체들(예컨대, 하나 이상의 광 매체 디스크들, 휘발성 메모리 구성요소들(DRAM 또는 SRAM 등), 또는 비휘발성 메모리 구성요소들(하드 드라이브 등)과 같은, 비일시적 컴퓨터 판독 가능 매체들)에 저장되어 컴퓨터(예컨대, 컴퓨팅 하드웨어를 포함하는, 스마트폰들 또는 다른 모바일 디바이스들을 비롯한 임의의 상업적으로 이용 가능한 컴퓨터)에서 실행되는 컴퓨터 실행 가능 명령어들로서 구현될 수 있다. 개시된 기법들을 구현하기 위한 컴퓨터 실행 가능 명령어들 중 임의의 것은 물론, 개시된 실시예들의 구현 동안 생성되고 사용되는 임의의 데이터가 하나 이상의 컴퓨터 판독 가능 매체들(예컨대, 비일시적 컴퓨터 판독 가능 매체들) 상에 저장될 수 있다. 컴퓨터 실행 가능 명령어들은, 예를 들어, 전용 소프트웨어 애플리케이션 또는 웹 브라우저 또는 다른 소프트웨어 애플리케이션(원격 컴퓨팅 애플리케이션 등)을 통해 액세스되거나 다운로드되는 소프트웨어 애플리케이션의 일부일 수 있다. 이러한 소프트웨어는, 예를 들어, 단일의 로컬 컴퓨터(예컨대, 임의의 적당한 상업적으로 이용 가능한 컴퓨터)에서 또는 하나 이상의 네트워크 컴퓨터들을 사용하는 네트워크 환경에서(예컨대, 인터넷, 원거리 네트워크, 근거리 네트워크, 클라이언트-서버 네트워크(클라우드 컴퓨팅 네트워크 등), 또는 다른 이러한 네트워크를 통해) 실행될 수 있다.

명확함을 위해, 소프트웨어 기반 구현들의 특정 선택된 양태들만이 기술되어 있다. 기술 분야에 널리 공지되어 있는 다른 상세들은 생략되어 있다. 예를 들어, 개시된 기술이 임의의 특정한 컴퓨터 언어 또는 프로그램으로 제한되지 않는다는 것을 잘 알 것이다. 예를 들어, 개시된 기술이 C++, Java, Perl, JavaScript, Adobe Flash, 또는 임의의 다른 적당한 프로그래밍 언어로 작성된 소프트웨어에 의해 구현될 수 있다. 마찬가지로, 개시된 기술이 임의의 특정의 컴퓨터 또는 임의의 특정 유형의 하드웨어로 제한되지 않는다. 적당한 컴퓨터들 및 하드웨어의 특정 상세들이 널리 공지되어 있으며, 본 개시 내용에 상세히 기재될 필요가 없다.

게다가, (예를 들어, 컴퓨터로 하여금 개시된 방법들 중 임의의 것을 수행하게 하는 컴퓨터 실행 가능 명령어들을 포함하는) 소프트웨어 기반 실시예들 중 임의의 것이 적당한 통신 수단을 통해 업로드, 다운로드, 또는 원격적으로 액세스될 수 있다. 이러한 적당한 통신 수단은, 예를 들어, 인터넷, 월드 와이드 웹, 인트라넷, 소프트웨어 애플리케이션들, 케이블(광섬유 케이블을 포함함), 자기 통신, 전자기 통신(RF, 마이크로파, 및 적외선 통신을 포함함), 전자 통신, 또는 다른 이러한 통신 수단을 포함한다.

개시된 방법들, 장치들, 및 시스템들이 결코 제한하는 것으로 해석되어서는 안된다. 그 대신에, 본 개시 내용은, 단독으로 그리고 서로 다양한 컴비네이션들 및 서브컴비네이션들로 된, 다양한 개시된 실시예들의 모든 신규의 비자명한 특징들 및 양태들에 관한 것이다. 개시된 방법들, 장치들, 및 시스템들은 그의 임의의 특정한 양태 또는 특징 또는 조합으로 제한되지 않으며, 개시된 실시예들은 임의의 하나 이상의 특정한 장점들이 존재하거나 문제점들이 해결되어야 하는 것을 요구하지 않는다.

비일시적 컴퓨터 판독 가능 매체들

본 명세서에서의 컴퓨터 판독 가능 매체들 중 임의의 것은 비일시적(예컨대, 메모리, 자기 저장소, 광 저장소 등)일 수 있다.

컴퓨터 판독 가능 매체들에 저장하기

본 명세서에 기술되는 저장 동작들 중 임의의 것은 하나 이상의 컴퓨터 판독 가능 매체들(예컨대, 컴퓨터 판독 가능 저장 매체들 또는 다른 유형적 매체들)에 저장하는 것에 의해 구현될 수 있다.

저장되는 것으로 기술되는 것들 중 임의의 것은 하나 이상의 컴퓨터 판독 가능 매체들(예컨대, 컴퓨터 판독 가능 저장 매체들 또는 다른 유형적 매체들)에 저장될 수 있다.

컴퓨터 판독 가능 매체들에서의 방법들

본 명세서에 기술되는 방법들 중 임의의 것은 하나 이상의 컴퓨터 판독 가능 매체들(예컨대, 컴퓨터 판독 가능 저장 매체들 또는 다른 유형적 매체들) 내의(예컨대, 그 상에 인코딩되어 있는) 컴퓨터 실행 가능 명령어들에 의해 구현될 수 있다. 이러한 명령어들은 컴퓨터로 하여금 방법을 수행하게 할 수 있다. 본 명세서에서 설명되는 기술들은 각종의 프로그래밍 언어들로 구현될 수 있다.

컴퓨터 판독 가능 저장 디바이스들에서의 방법들

본 명세서에 기술되는 방법들 중 임의의 것은 하나 이상의 컴퓨터 판독 가능 저장 디바이스들(예컨대, 메모리, 자기 저장소, 광 저장소 등)에 저장된 컴퓨터 실행 가능 명령어들에 의해 구현될 수 있다. 이러한 명령어들은 컴퓨터로 하여금 방법을 수행하게 할 수 있다.

대안들

임의의 예로부터의 기술들이 다른 예들 중 임의의 하나 이상에 설명된 기술들과 결합될 수 있다. “예시적인”이라는 단어가 사용되는 경우에, 이는 꼭 이상적인 실시예가 아니라 일례를 나타내는 것으로 의도되어 있다. 개시된 기술의 원리들이 적용될 수 있는 많은 가능한 실시예들을 바탕으로, 예시된 실시예들이 개시된 기술의 예들이고 개시된 기술의 범주에 대한 제한으로서 해석되어서는 안된다는 것을 잘 알 것이다. 오히려, 개시된 기술의 범주는 이하의 청구항들에 의해 커버되는 것을 포함한다. 따라서, 청구항들의 범주 및 사상 내에 속하는 모든 것을 본 발명으로서 청구한다.

Claims

적어도 부분적으로 컴퓨팅 시스템에 의해 구현되는 방법에 있어서,
카메라에 의해 현재 보여지는 장면을 디스플레이하는 단계;
상기 장면 내에서의 위치의 표시를 수신하는 단계;
상기 장면 내에서의 위치를 오디오 포커스 영역(audio focus region)으로 변환(translate)하는 단계; 및
상기 오디오 포커스 영역에 기초하여 복수의 마이크로폰들에 의해 수신되는 오디오를 향상시키는 단계를 포함하는 방법.
제1항에 있어서, 상기 카메라는 디바이스 내에 통합되어 있고;
상기 방법은,
하나 이상의 위치 센서들을 통해 상기 디바이스의 이동을 추적하는 단계; 및
상기 이동에 기초하여 상기 오디오 포커스 영역을 조절하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 오디오 포커스 영역 내에 나타나는 물체의 이동을 추적하는 단계; 및
상기 물체의 이동에 기초하여 상기 오디오 포커스 영역을 조절하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 오디오 포커스 영역에 기초하여 미리 계산된 오디오 필터들을 선택하는 단계를 더 포함하고;
상기 오디오를 향상시키는 단계는 상기 복수의 마이크로폰들 각각으로부터 수신되는 오디오에 상기 미리 계산된 오디오 필터들을 적용하는 단계를 포함하는 것인 방법.
제1항에 있어서, 상기 장면 내에서의 위치는 전화 회의의 참가자의 위치에 대응하고;
상기 방법은 상기 전화 회의 동안 상기 향상된 오디오를 제공하는 단계를 더 포함하는 방법.
모바일 디바이스에 있어서,
카메라;
복수의 마이크로폰들;
상기 카메라에 의해 보여지는 장면을 디스플레이하도록 구성된 디스플레이;
상기 디스플레이 상에서의 위치를 수신하고 이 위치를 오디오 포커스 영역으로 변환하도록 구성된 영역 변환기(region translator)를 포함하는 오디오 포커스 도구(audio focus tool);
상기 마이크로폰들로부터 입력을 받고 상기 오디오 포커스 영역 내에 포커싱되는 향상된 오디오를 출력하도록 동작가능한 복수의 오디오 필터들; 및
상기 오디오 포커스 영역에 기초하여 상기 오디오 필터들을 선택하도록 구성된 오디오 필터 선택기를 포함하는 모바일 디바이스.
제6항에 있어서, 주어진 오디오 포커스 영역이 표시될 때 오디오 포커스 영역들을 상기 마이크로폰들로부터 비롯되는 오디오 스트림들에 적용될 각각의 오디오 필터들의 세트들과 연관시키는 테이블을 더 포함하고;
상기 오디오 필터들은 상기 테이블에 표현되어 있는 것인 모바일 디바이스.
제6항에 있어서, 상기 오디오 필터들은 상기 모바일 디바이스 상에서의 마이크로폰 배치에 기초한 방위각 범위들 및 고도 범위들의 조합들에 기초하여 미리 계산되는 것인 모바일 디바이스.
제6항에 있어서, 하나 이상의 위치 센서들; 및
상기 하나 이상의 위치 센서들에 의해 표시되는 상기 모바일 디바이스의 검출된 이동에 기초하여 상기 오디오 포커스 영역을 조절하도록 구성된 오디오 포커스 영역 조절 도구를 더 포함하는 모바일 디바이스.
제6항에 있어서, 오디오 포커스 영역에서의 물체의 이동을 추적하도록 구성된 물체 추적기; 및
상기 물체 추적기에 의해 검출되는 위치 변화들에 따라 상기 오디오 포커스 영역을 조절하도록 구성된 오디오 포커스 영역 조절 도구를 더 포함하는 모바일 디바이스.