KR101797804B1 - 사운드 필드의 제스처 조종을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들 - Google Patents

사운드 필드의 제스처 조종을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들 Download PDF

Info

Publication number
KR101797804B1
KR101797804B1 KR1020147030763A KR20147030763A KR101797804B1 KR 101797804 B1 KR101797804 B1 KR 101797804B1 KR 1020147030763 A KR1020147030763 A KR 1020147030763A KR 20147030763 A KR20147030763 A KR 20147030763A KR 101797804 B1 KR101797804 B1 KR 101797804B1
Authority
KR
South Korea
Prior art keywords
delete delete
command
user
gesture
filter
Prior art date
Application number
KR1020147030763A
Other languages
English (en)
Other versions
KR20150002736A (ko
Inventor
페이 샹
에릭 비제르
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20150002736A publication Critical patent/KR20150002736A/ko
Application granted granted Critical
Publication of KR101797804B1 publication Critical patent/KR101797804B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Abstract

생성된 사운드 필드의 제스처-응답 변경이 설명된다.

Description

사운드 필드의 제스처 조종을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들{SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR GESTURAL MANIPULATION OF A SOUND FIELD}
35 U.S.C.§119 하에서의 우선권 주장
본 특허 출원은, 본원의 양수인에게 양도된, 2012 년 4 월 2 일에 출원된 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR GESTURAL MANIPULATION OF A SOUND FIELD" 라는 명칭의 가출원 제 61/619,202 호를 우선권 주장한다.
기술분야
본 개시물은 제스처-구동식 음향 필드 변형에 관한 것이다.
적당한 양의 엘리먼트들을 갖는 라우드스피커 어레이들은 다양한 사운드 필드 변형들을 수행하는데 사용될 수도 있다. 예를 들어, 라우드스피커 빔형성기들은 사운드 빔을 상이한 방향들로 스티어링하고 및/또는 음향 널 빔들을 생성하는데 사용될 수 있다. 다른 예에서, 라우드스피커 어레이는 실제 사운드 필드의 실제 웨이브프론트를 재합성하기 위해 웨이브필드 합성을 사용하여 구동될 수도 있다. 웨이브필드 합성은 미국 공개 특허 출원들 제 2006/0098830 A1 호 (Roeder 등), 제 2007/0269062 A1 호 (Rodigast 등), 및 제 2008/0101616 A1 호 (Melchior 등) 과 같은 문헌들에 설명된다. 라우드스피커 어레이들의 다른 창의적인 사용들은, 그러한 영향들을 주변 사운드, 확장된 사운드 이미지들, 등으로서 렌더링하는 것을 포함한다.
일반적인 구성에 따른 신호 프로세싱 방법은, 빔을 포함하는 사운드 필드를 생성하도록 지향적으로 제어가능한 트랜스듀서를 구동하는 단계; 제스처의 표현에 응답하여 커맨드를 생성하는 단계; 커맨드에 응답하여 필터 구성을 생성하는 단계; 및 공간적으로 지향성의 필터를 입력 신호에 적용하여 멀티채널 신호를 생성하는 단계를 포함한다. 이 방법에서, 공간적으로 지향성의 필터는 필터 구성에 기초하고, 제스처는 빔의 방향과 빔의 폭 중에서 적어도 하나의 변경을 표시하고, 커맨드는 표시된 변경을 수행하기 위한 커맨드이다. 유형의 피처들을 갖는 컴퓨터 판독가능 저장 매체 (예컨대, 비-일시적 매체) 가 또한 개시되고, 그 피처들은 피처들을 판독하는 머신이 그러한 방법을 수행하게 한다.
다른 일반적인 구성에 따른 신호 프로세싱 장치는, 빔을 생성하도록 지향적으로 제어가능한 트랜스듀서를 구동하는 수단; 제스처의 표현에 응답하여 커맨드를 생성하는 수단; 커맨드에 응답하여 필터 구성을 생성하는 수단; 및 공간적으로 지향성의 필터링 동작을 입력 신호에 수행하여 멀티채널 신호를 생성하는 수단을 포함한다. 이 장치에서, 공간적으로 지향성의 필터는 필터 구성에 기초하고, 제스처는 빔의 방향과 빔의 폭 중에서 적어도 하나의 변경을 표시하고, 커맨드는 표시된 변경을 수행하기 위한 커맨드이다.
또 다른 일반적인 구성에 따른 신호 프로세싱 장치는, 빔을 생성하도록 지향적으로 제어가능한 트랜스듀서를 구동하도록 구성된 오디오 출력 스테이지; 제스처의 표현에 응답하여 커맨드를 생성하도록 구성된 제스처 해석기; 커맨드에 응답하여 필터 구성을 생성하도록 구성된 커맨드 해석기; 및 공간적으로 지향성의 필터를 입력 신호에 적용하여 멀티채널 신호를 생성하도록 구성된 합성기를 포함한다. 이 장치에서, 공간적으로 지향성의 필터는 필터 구성에 기초하고, 제스처는 빔의 방향과 빔의 폭 중에서 적어도 하나의 변경을 표시하고, 커맨드는 표시된 변경을 수행하기 위한 커맨드이다.
도 1a 는 원뿔형 라우드스피커의 일 예를 도시한다.
도 1b 는 직사각형 라우드스피커의 일 예를 도시한다.
도 1c 는 도 1a 에 도시된 것과 같은 12 개의 라우드스피커들의 어레이의 일 예를 도시한다.
도 1d 는 도 1b 에 도시된 것과 같은 12 개의 라우드스피커들의 어레이의 일 예를 도시한다.
도 2a 및 도 2b 는 사용자에 의한 블록킹 제스처의 일 예를 도시한다.
도 3a 및 도 3b 는 사용자에 의한 다른 블록킹 제스처의 일 예를 도시한다.
도 4a 및 도 4b 는 사용자에 의한 또 다른 블록킹 제스처의 일 예를 도시한다.
도 5a 및 도 5b 는 사용자에 의한 재지향 제스처의 일 예를 도시한다.
도 6a 및 도 6b 는 사용자에 의한 이어-컵핑 (ear-cupping) 제스처의 일 예를 도시한다.
도 7a 는 일반적인 구성에 따른 방법 (M100) 에 대한 플로우차트를 도시한다.
도 7b 는 방법 (M100) 의 구현 (M110) 에 대한 플로우차트를 도시한다.
도 7c 는 방법 (M110) 의 구현 (M120) 에 대한 플로우차트를 도시한다.
도 8 내지 도 10 은 제스처 표현들의 커맨드들로의 맵핑들의 예들을 도시한다.
도 11 은 블록킹 제스처에 대한 시스템의 응답을 도시한다.
도 12 은 재지향 제스처에 대한 시스템의 응답을 도시한다.
도 13 은 이어-컵핑 제스처에 대한 시스템의 응답을 도시한다.
도 14 는 사용자에 의한 전반적인 억제 제스처의 일 예를 도시한다.
도 15 는 제스처 특징 후보들의 3 가지 예들을 도시한다.
도 16 은 작업 (T400) 에 의해 구성된 공간적으로 지향성의 필터의 주파수-도메인 구현 (SDF10) 의 블록 다이어그램을 도시한다.
도 17 은 공간적으로 지향성의 필터의 등가의 시간 도메인 구현 (SDF20) 의 블록 다이어그램을 도시한다.
도 18a, 도 18b, 도 19a, 및 도 19b 는 4 개의 상이한 배향 각도들에 대하여 4-엘리먼트 어레이를 위한 DSB 필터의 방향에 대한 크기 응답의 예들을 도시한다.
도 20a 및 도 20b 는 각각 도 19a 및 도 19b 의 DSB 필터들의 가중된 변형들에 대한 빔 패턴들의 예들을 도시한다.
도 21a 및 도 21b 는 필터의 배향 각도가 각각 30도 및 60도인, 8-엘리먼트 어레이를 위한 DSB 필터의 빔 패턴의 예들을 도시한다.
도 22a 및 도 22b 는 각각 도 21a 및 도 21b 의 DSB 필터들의 가중된 변형들에 대한 빔 패턴들의 예들을 도시한다.
도 23a 및 도 23b 는 각각 3 개 및 5 개의 선택가능한 고정된 공간 섹터들을 갖는 방식들의 예들을 도시한다.
도 23c 는 작업 (T300) 의 구현에 의해 참조될 수도 있는 표의 일 예를 도시한다.
도 23d 는 합성기 (SY10) 의 구현 (SY20) 의 블록 다이어그램을 도시한다.
도 24 는 9 개 필터 구성들의 세트에 대한 빔 패턴들을 도시한다.
도 25 는 6 개 필터 구성들의 세트에 대한 빔 패턴들을 도시한다.
도 26a, 도 26b, 도 26c, 및 도 27 은 쌍별 BFNF 동작들의 양태들을 도시한다.
도 28a 는 일반적인 구성에 따른 장치 (A100) 의 블록 다이어그램을 도시한다.
도 28b 는 장치 (A100) 의 일 구현 (A110) 의 블록 다이어그램을 도시한다.
도 28c 는 장치 (A110) 의 일 구현 (A120) 의 블록 다이어그램을 도시한다.
도 28d 는 장치 (A100) 의 일 구현 (A105) 의 블록 다이어그램을 도시한다.
도 29a 는 일반적인 구성에 따른 장치 (MF100) 의 블록 다이어그램을 도시한다.
도 29b 는 장치 (MF100) 의 일 구현 (MF110) 의 블록 다이어그램을 도시한다.
도 29c 는 장치 (MF110) 의 일 구현 (MF120) 의 블록 다이어그램을 도시한다.
도 30a 는 라우드스피커들의 균일한 선형 어레이를 도시한다.
도 30b 는 라우드스피커들 간의 대칭적인 옥타브 간격을 갖는 균일한 선형 어레이의 일 예를 도시한다.
도 30c 는 비대칭적인 옥타브 간격을 갖는 균일한 선형 어레이의 일 예를 도시한다.
도 30d 는 균일한 간격을 갖는 곡선형 어레이의 일 예를 도시한다.
도 31a 는 랩톱 컴퓨터 (D710) 를 도시한다.
도 31b 는 디스플레이 디바이스 (TV10) 를 도시한다.
도 31c 는 디스플레이 디바이스 (TV20) 를 도시한다.
도 32a 및 도 32b 는 확장형 어레이의 2 가지 예들의 상면도들을 도시한다.
도 32c 및 도 33 은 2 개의 상이한 어레이들의 정면도들을 도시한다.
도 34 는 PBE 프로세싱 이전 및 이후에 음악 신호의 주파수 스펙트럼의 일 예를 도시한다.
라우드스피커 어레이는 청취 존을 생성하는데 사용될 수도 있다. (예컨대, 웨이브필드 합성을 사용하여) 실제 사운드 필드의 웨이브프론트를 합성하기 위해 라우드스피커들의 선형, 원형, 또는 평면형 어레이를 사용하는 것이 가능하다. 선형 어레이에서, 훨씬 낮은 다른 방향들에서의 에너지로, 일 방향으로 향하도록 재생된 사운드 필드를 스티어링하는 것이 또한 가능하다. 본 개시물은 제스처 인식을 사운드 필드 변형과 통합하는 시스템들을 기술한다. 그러한 통합된 시스템은 표현적인 제스처들로 그러한 사운드필드 생성 및/또는 변형을 구동하는데 사용되어, 지식이 없는 사용자가 표현적인 액션들로 사운드 방사를 블록킹하거나 사운드 빔을 지향시키는 것과 같은 그러한 액션들을 개시할 수 있게 할 수도 있다.
문맥에 의해 명백히 제한되지 않는다면, 용어 "신호" 는 본원에서 와이어, 버스 또는 다른 송신 매체 상에서 표현되는 바와 같은 메모리 로케이션 (또는 메모리 로케이션들의 세트) 의 상태를 포함하는 그의 일상적인 의미들 중 임의의 것을 나타내는 데 사용된다. 문맥에 의해 명백히 제한되지 않는다면, 용어 "생성하는" 은 본원에서 컴퓨팅하는 또는 그 외에 생성하는 것과 같은 그의 일상적인 의미들 중 임의의 것을 나타내는 데 사용된다. 문맥에 의해 명백히 제한되지 않는다면, 용어 "계산하는" 은 본원에서 컴퓨팅하는, 평가하는, 및/또는 값들의 세트로부터 선택하는 것과 같은 그의 일상적인 의미들 중 임의의 것을 나타내는 데 사용된다. 문맥에 의해 명백히 제한되지 않는다면, 용어 "획득하는" 은 본 명세서에서 계산하는, 도출하는, (예컨대, 외부 디바이스로부터) 수신하는, 및/또는 (예컨대, 저장 엘리먼트들의 어레이로부터) 취출하는 것과 같은 그의 일상적인 의미들 중 임의의 것을 나타내는 데 사용된다. 문맥에 의해 명백히 제한되지 않는다면, 용어 "선택하는" 은 2 이상의 세트 중 적어도 하나 및 전체 미만을 식별하고, 표시하고, 적용하고, 및/또는 사용하는 것과 같은 그의 일상적인 의미들 중 임의의 것을 나타내는 데 사용된다. 용어 "포함하는" 이 본 설명 및 청구범위에서 사용된다면, 그것은 다른 엘리먼트들 또는 동작들을 배제하는 것은 아니다. ("A 가 B 에 기초한다" 에서와 같은) 용어 "기초하는" 은 경우들 (i) "~로부터 도출되는" (예컨대, "B 는 A 의 선도자이다"), (ii) "적어도 ~ 에 기초하는" (예컨대, "A 는 적어도 B 에 기초한다"), 그리고 적절하다면, 특정 문맥에서, (iii) ("~ 와 동등한") (예컨대, "A 는 B 와 동등하다") 을 포함한 그의 일상적 의미들 중 임의의 것을 나타내는 데 사용된다. 유사하게, 용어 "~ 에 응답하여" 는 "적어도 ~ 에 응답하여" 를 포함한 그의 일상적 의미들 중 임의의 것을 나타내는 데 사용된다.
멀티-마이크로폰 오디오 감지 디바이스의 마이크로폰의 "위치" 에 대한 참조들은, 그 문맥에 의해 달리 표시되지 않는다면, 마이크로폰의 음향적으로 민감한 면의 중심의 위치를 나타낸다. 용어 "채널" 은 특정 문맥에 따라, 가끔은 신호 경로를 나타내는데 사용되고, 다른 때에는 그러한 경로에 의해 전달되는 신호를 나타내는데 사용된다. 다르게 표시되지 않는다면, 용어 "시리즈" 는 2 이상의 아이템들의 시퀀스를 나타내는데 사용된다. 용어 "로그" 는 10진 로그를 나타내는데 사용되지만, 그 연산의 다른 기수들로의 확장들이 본 개시물의 범위 내에 있다. 용어 "주파수 성분" 은 (예컨대, 고속 푸리에 변환에 의해 생성된 것과 같은) 신호의 주파수 도메인 표현의 샘플 또는 신호의 서브대역 (예컨대, 바크 (Bark) 스케일 또는 멜 (mel) 스케일 서브대역) 과 같은 신호의 주파수들 또는 주파수 대역들의 세트 중 하나를 나타내는데 사용된다.
다르게 나타내지 않는다면, 특정한 피처를 갖는 장치의 동작에 대한 임의의 개시는 유사한 피처를 갖는 방법을 서술하도록 (그리고 그 역으로도) 또한 명백히 의도되며, 특정 구성에 따른 장치의 동작에 대한 임의의 서술은 유사한 구성에 따른 방법을 서술하도록 (그리고 그 역으로도) 또한 명백히 의도된다. 용어 "구성" 은, 그의 특정 문맥에 의해 표시되는 바와 같이, 방법, 장치, 또는 시스템에 대한 참조시 사용될 수도 있다. 용어들 "방법", "프로세스", "절차" 및 "기술" 은 특정 문맥에 의해 다른 방식으로 나타내지지 않는다면 총칭적으로 그리고 상호교환가능하게 사용된다. 용어들 "장치" 및 "디바이스" 는 특정 문맥에 의해 다른 방식으로 나타내지지 않는다면 또한 총칭적으로 그리고 상호교환가능하게 사용된다. 용어들 "엘리먼트" 및 "모듈" 은 보다 큰 구성의 일부분을 나타내는 데 일반적으로 사용된다. 문맥에 의해 명백히 제한되지 않는다면, 용어 "시스템" 은 "공통의 목적에 맞도록 상호작용하는 엘리먼트들의 그룹" 을 포함하는 그의 일상적 의미들 중 임의의 것을 나타내는 데 사용된다. 문헌의 일부분을 참조로 하는 임의의 통합은 그 부분 내에서 참조된 용어들 또는 변수들의 정의 (이러한 정의는 그 문헌의 어느 곳에나 나타난다) 뿐 아니라 그 통합된 부분에서 참조된 임의의 형태들을 포함하는 것으로 이해되어야 한다.
방사된 사운드 필드의 근거리장 및 원거리장 영역들에서, 웨이브프론트들은 각각 구형 또는 평면형인 것으로 가정될 수도 있다. 근거리장은 사운드 수신기 (예컨대, 마이크로폰 어레이) 로부터 1 파장 미만으로 떨어진 공간의 영역으로서 정의될 수도 있다. 이러한 정의 하에, 그 영역의 경계까지의 거리는 주파수와 반대로 변화한다. 예컨대, 200, 700, 및 2000 헤르츠의 주파수들에서, 1-파장 경계까지의 거리는 각각 약 170, 49, 및 17 센티미터이다. 대신에, 근거리장/원거리장 경계가 마이크로폰 어레이로부터 특정 거리 (예컨대, 어레이의 마이크로폰으로부터 또는 어레이의 중심으로부터 50 센티미터, 또는 어레이의 마이크로폰으로부터 또는 어레이의 중심으로부터 1 미터 또는 1.5 미터) 에 있는 것으로 고려하는 것이 유용할 수도 있다. 특정 문맥에 의해 다르게 나타내지 않는다면, 원거리장 근사치가 본원에서 가정된다.
도 1a 는 원뿔형 라우드스피커의 일 예를 도시하고, 도 1b 는 직사각형 라우드스피커의 일 예 (예컨대, RA11x15x3.5, NXP 반도체들, 아인트호벤, 네덜란드) 를 도시한다. 도 1c 는 도 1a 에 도시된 것과 같은 12 개의 라우드스피커들의 어레이의 일 예를 도시하고, 도 1d 는 도 1b 에 도시된 것과 같은 12 개의 라우드스피커들의 어레이의 일 예를 도시한다. 도 1c 및 도 1d 의 예들은, 예컨대 라우드스피커간 거리가 2.6cm 이고 어레이의 길이 (31.2 cm) 가 통상의 랩톱 컴퓨터의 폭과 대략 동등하도록 구현될 수도 있지만, 이들 예들은 이러한 특정 수치들에 제한되는 것은 아니며, 본원에 설명된 원칙들은 임의의 수치의 지향적으로 제어가능한 트랜스듀서들 (예컨대, 라우드스피커 어레이들) 로 실시될 수도 있다.
그러한 라우드스피커 어레이를 포함하는 시스템들을 렌더링하기 위한 구성 파라미터들은 통상적으로 기술적으로 보다는 문자 그대로 (예컨대, 과학적 용어들로) 표현된다. 그러한 구성 파라미터들은 빔형성기가 사운드를 스티어링하기 위한 각도, 빔의 폭, 및 사운드의 볼륨을 포함할 수도 있다 (예컨대, 미국 공개 특허 출원 제 2010/0098275 A1 호 (Metcalf) 의 도 11 에 도시). 그러한 파라미터들은 연구원의 관점에서는 이미 상위 레벨의 추상적 개념들이지만, 그 파라미터들은 전화기 또는 태블릿 또는 랩톱 컴퓨터와 같은 디바이스 상의 어레이를 사용하는 것을 시도하는 사용자보다 테스트 엔지니어에게 더 적합할 수도 있다.
그러한 라우드스피커 어레이가 퍼스널 컴퓨팅 디바이스 (예컨대, 랩톱, 넷북, 또는 태블릿 컴퓨터; 스마트폰; 셋톱 박스 또는 비디오 플레이백 디바이스; 게이밍 콘솔; 등) 또는 텔레비전 디스플레이 내에 통합되거나 이들과 커플링될 경우, 사용자가 실시간으로 어레이의 동작을 조정하게 하는 것이 바람직할 수도 있다. 그러나, 고객 어플리케이션들에 대하여, 사운드 필드가 변경될 때마다 사용자가 어레이의 세부적인 구성 파라미터들을 결정하여 명시할 것을 요구하는 것을 회피하는 것이 바람직할 수도 있고, 더 많은 사용자 우호적인 솔루션들 (예컨대, 간단하고 더 서술적인 사용자 인터페이스) 및 통합된 시스템들이 바람직할 수도 있다. 예를 들어, 사용자가 실행 중인 것에 응답하여 실시간으로 어레이를 조정하는 인터페이스를 구현하는 것이 바람직할 수도 있다.
사운드 필드 변경에 대한 종래의 접근 방식은, 사용자가 리모트 컨트롤 상의 버튼들을 발견하고, 온-스크린 사용자 인터페이스를 조종하기 위해 시청을 중단하고, 및/또는 음성 커맨드들을 학습할 것을 요구할 수도 있다. 본 개시물은 사운드 생성을 제어하기 위한 상이한 센서 정보의 통합을 설명한다. 표현적인 제스처들에 대략적으로 응답하도록 시스템을 구성함으로써, 새로운 사용자 경험이 달성되고, 사운드 필드 변형 알고리즘 및 라우드스피커 어레이 하드웨어의 능력을 사용하기 위한 더 최적의 방식들이 탐색될 수 있다.
사용자가 특정 방향에서 사운드를 청취할 것을 원하지 않는다면, 원하는 변경을 나타내는 액션은, 사용자가 마치 사운드를 블록킹하는 것처럼 손 또는 손들을 들어 올리는 것일 수도 있다. 그러한 액션은 펼친 손바닥이 밖으로 향하게 손을 들어 올려 방어 또는 보호 제스처를 취하는 제스처로서 특징지어질 수도 있다. 도 2a 및 도 2b 의 시퀀스는 사용자가 시간에 걸쳐 그러한 제스처를 수행할 수도 있는 방식의 일 예를 도시한다. 사운드가 요구되지 않는 것을 나타내는 다른 액션은, 사용자가 손을 바깥쪽으로 펼치는 것 (예컨대, 마치 외부 사운드를 블록킹하거나 밀어내기 위해 손을 사용자로부터 떨어지도록 하는 움직임) 일 수도 있다. 도 3a 및 도 3b 및 도 4a 및 도 4b 의 시퀀스들은 사용자가 시간에 걸쳐 그러한 제스처를 수행할 수도 있는 방식의 2 가지 예들을 도시한다. 그러한 방식으로 펼친 손바닥을 밖으로 향하게 하여 손을 제시하는 제스처는 또한, "듣기 싫다 (talk-to-the-hand)" 제스처로서 지칭될 수도 있다.
사용자가 사운드 빔을 상이한 방향으로 이동시키는 것을 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 (예컨대, 마치 사운드 빔을 움켜잡는 것처럼) 그 또는 그녀의 양손을 서로를 향하여 이동시킨 후, 양손을 일제히 원하는 방향으로 이동시키는 것일 수도 있다. 도 5a 및 도 5b 의 시퀀스는 사용자가 시간에 걸쳐 그러한 제스처를 수행할 수도 있는 방식의 일 예를 도시한다.
사용자가 사운드를 특정 방향에서 명확히 청취할 수 없고 사운드 필드가 그 또는 그녀의 귀 쪽으로 포커싱될 것을 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 손을 귀 위에 컵핑하는 것 및 가능하게 그 또는 그녀의 머리를 귀 방향으로 기울이는 것일 수도 있다. 그러한 액션은, 한 손을 사용자의 귀로 들어 올리면서 (예컨대, 손을 사용자의 얼굴 옆에 들어 올리고), 손바닥을 앞을 향하게 하고 가능하게는 손가락들을 부분적으로 앞으로 구부리는 (예컨대, 손을 귀에 컵핑하는) 제스처로 특징지어질 수도 있다. 도 6a 및 도 6b 는 그러한 제스처의 시간에 걸친 진행을 도시한다.
톱 레벨에서, 사운드 필드 변형을 위한 통합된 시스템은 "인식 -> 분석 -> 합성" 패러다임에 따라 실현될 수도 있다. 그러한 구조는 사용자가 표시하는 것과 같은 원하는 변경을 인식하고, 표시된 변경을 현재 문맥에서 분석하고, 표시된 변경을 구현하기 위해 변경된 사운드 필드를 합성하도록 설계될 수도 있다. 디바이스는 표현적인 인간 제스처를 캡처하는데 사용될 수도 있고, 그 후에 제스처는 가능한 패턴들 중 하나로 해석된다. 개별 패턴들에 따라, 결정들이 수행되고 대응하는 사운드 필드가 합성된다. 통상적으로, 합성은 제스처들의 세부사항으로부터의 추가의 정보에 기초할 것이며, 그 정보는 손의 위치, 정확한 배향의 식별, 등을 포함할 수도 있다. 일 예에서, 시스템은 제 1 방향에서의 에너지의 집중을 포함하는 사운드 필드를 생성하도록 (예컨대, 도 1c 또는 도 1d 에 도시된 것과 같은) 라우드스피커 어레이를 구동하고, 사운드 필드 내에서 수행된 제스처를 인식하며, 여기서 제스처는 라우드스피커 어레이의 면에서 제 2 방향을 나타낸다.
도 7a 는 사운드 필드 생성 작업 (T100), 제스처 해석 작업 (T200), 커맨드 해석 작업 (T300), 및 신호 합성 작업 (T400) 을 포함하는 일반적인 구성에 따른 오디오 신호 프로세싱 방법 (M100) 의 플로우차트를 도시한다. 사운드 필드 생성 작업 (T100) 은 빔을 포함하는 사운드 필드를 생성하도록 지향적으로 제어가능한 트랜스듀서 (예컨대, 라우드스피커들의 어레이) 를 구동한다. 빔은 트랜스듀서에 대한 특정 각도 또는 공간적 방향을 따른 에너지의 집중으로 정의된다. 예를 들어, 작업 (T100) 은 본원에 논의된 것과 같이, 시간 도메인에서 및/또는 주파수 도메인에서의 빔형성 동작으로 해석될 수도 있다.
제스처 해석 작업 (T200) 은 빔의 방향과 빔의 폭 중에서 적어도 하나의 변경을 수행하는 커맨드를 생성한다. 작업 (T200) 은 변경을 표시하는 제스처의 표현에 응답하여 이러한 커맨드를 생성한다. 작업 (T200) 은 검색 테이블 또는 유사 구조에서 실시될 수도 있는, 상기 표현의 커맨드로의 맵핑에 따라 커맨드를 생성하도록 구현될 수도 있다. 도 8 내지 도 10 은 그러한 맵핑들의 예들을 도시한다.
작업 (T200) 에 의해 생성된 커맨드에 응답하여, 커맨드 해석 작업 (T300) 은 필터 구성을 생성한다. 필터 구성은 시간 도메인 및/또는 주파수 도메인에서 공간적으로 지향성의 필터링 동작 (예컨대, 빔형성 동작) 을 설명하는 필터 계수들의 세트를 포함할 수도 있다. 대안적으로, 필터 구성은 그러한 필터 계수들의 세트에 대한 변형을 설명할 수도 있다.
신호 합성 작업 (T400) 은 그 필터 구성에 기초하는 공간적으로 지향성의 필터를 입력 신호에 적용함으로써 멀티채널 신호를 생성한다. 예를 들어, 작업 (T400) 은 시간 도메인에서 및/또는 주파수 도메인에서의 빔형성 동작으로 구현될 수도 있다.
작업 (T100) 은 빔을 포함하는 사운드 필드를 생성하도록 지향적으로 제어가능한 트랜스듀서를 구동한다. 작업 (T100) 은 통상적으로 빔형성기 또는 웨이브필드 합성 (WFS) 렌더링 기술과 같은 공간적으로 지향성의 필터에 의해 생성된 멀티채널 신호에 기초하여 트랜스듀서를 구동하도록 구현된다. 예를 들어, 구동 신호는 방법 (M100) 의 이전 실행에서 신호 합성 작업 (T400) 의 경우에 의해 생성된 멀티채널 신호에 기초할 수도 있다. 트랜스듀서가 라우드스피커들의 어레이인 케이스에 대하여, 구동 신호가 멀티채널 신호가 되어 각각의 채널이 어레이의 특정 대응하는 라우드스피커를 구동하도록 하는 것이 통상적이다.
생성된 사운드 필드의 요구되는 방향에서 (예컨대, 빔의 방향에서) 보강 간섭을 유도하면서 생성된 사운드 필드의 다른 방향들에서 (예컨대, 빔의 메인로브 외부의 방향들에서) 상쇄 간섭을 유도하도록 구동 신호를 생성하는 작업 (T100) 을 구현하는 것이 바람직할 수도 있다. 예를 들어, 작업 (T100) 은 요구되는 방향으로 집중되는 음향 에너지의 빔을 생성하고 다른 방향들로의 빔 응답에서 밸리 (valley) 를 생성하도록, 트랜스듀서를 구동하도록 구현될 수도 있다. 도 18a 내지 도 22b 는 이하 더 상세히 논의되는 빔 패턴들의 예들을 도시한다.
일반적으로, 작업 (T100) 은 인접하는 라우드스피커들 간에 균일하거나 불균일한 간격을 가지는 선형 라우드스피커 어레이, 또는 비선형 (예컨대, 형상이 있는) 라우드스피커 어레이를 구동하도록 구현될 수도 있다. 상이한 주파수 범위들에 대하여 트랜스듀서의 부분들 (예컨대, 라우드스피커어레이의 서브어레이들) 을 상이하게 구동하도록 작업 (T100) 을 구현하는 것이 또한 가능하다. 그러한 구현은 광대역 재생을 위해 더 양호한 지향성을 제공할 수도 있다. 그러한 예에서, 작업 (T100) 은 제 1 주파수 범위를 갖는 제 1 구동 신호로 라우드스피커 어레이를 구동하고, 제 1 주파수 범위보다 낮은 제 2 주파수 범위를 갖는 제 2 구동 신호로 대안적인 라우드스피커 어레이를 구동하도록 구현된다.
제스처 해석 작업 (T200) 은 제스처 표현들을 대응하는 명령들로 맵핑하는 검색 테이블 또는 유사 구조에 제스처 표현을 인덱스로서 적용함으로써 표시된 변경을 수행하는 커맨드를 생성하도록 구현될 수도 있다. 표현된 제스처들의 대응하는 커맨드들로의 그러한 맵핑들의 일부 예들이 이하 논의된다:
A) 블록킹 또는 푸시 제스처 (예컨대, "듣기 싫다" 제스처) 의 표현은 (예컨대, 도 11 에 도시된 것과 같이) 사용자의 방향에서 빔의 세기를 감소시키거나 사운드 필드에서 로컬 널 (local null) 을 생성하는 커맨드로 맵핑될 수도 있다. 사용자가 그 대신, 로컬 사운드 레벨을 상승시키기를 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 손짓하는 제스처를 실행하는 것일 수도 있다. 그러한 제스처는 손을 들어올리고 손바닥을 사용자 쪽으로 향하게 하는 것 (그 배향이 예컨대, 사용자의 얼굴에 대한 엄지손가락의 바깥쪽 위치에 의해 표시될 수도 있는) 과 함께, 손가락들을 손바닥 내로 구부리는 것을 특징으로 할 수도 있다. 대안적으로, 손짓 제스처는 들어올려서 펼친 손바닥-안쪽으로 향한 손으로 특징지어질 수도 있고, 이는 손의 사이즈 감소 및/또는 거리의 증가와 결합된다. 손짓하는 또는 잡아당기는 제스처의 표현은 사운드 필드에서 로컬 빔을 생성하거나 사용자의 방향에서 기존의 빔의 세기를 감소시키는 커맨드로 맵핑될 수도 있다. 도 8 은 로우들 GA1-CA1 및 GA2-CA2 에서 그러한 맵핑들의 예들을 도시한다.
사용자가 사운드 빔을 상이한 방향으로 이동시키는 것을 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 (예컨대, 마치 사운드 빔을 움켜잡는 것처럼) 그녀의 양손을 서로를 향하여 이동시킨 후, 양손을 일제히 원하는 방향으로 이동시키는 것일 수도 있다. 도 5a 및 도 5b 의 시퀀스는 사용자가 시간에 걸쳐 그러한 제스처를 수행할 수도 있는 방식의 일 예를 도시한다. 대안적으로, 그러한 원하는 변경은 양손을 함께 (예컨대, 컵핑 모션으로) 모으고, 그 후 양손을 함께 새로운 위치로 이동시키고, 그 후 양손을 서로 멀어지도록 이동시키는 (대안적으로 1 또는 2 초와 같은 일부 주기 동안 양손을 함께 새로운 위치에 고정시키는) 시퀀스를 포함하는 제스처에 의해 표시될 수도 있다. 그러한 제스처의 한 손 버전은, (가능하면 손바닥 쪽으로 안쪽으로 구부린 핑거들의 모션 다음에) 펼친 손바닥 - 바깥쪽을 향하는 손의 외향으로 특징지어질 수도 있으며, 일 측 또는 원하는 방향을 나타내는 다른 측으로 이동된다. 그러한 제스처의 다른 한 손 버전은 손을 접고, 그 후 접은 손을 새로운 위치로 이동시키고, 그 후에 손을 펴는 (대안적으로, 1 또는 2 초와 같은 일부 주기 동안 손을 새로운 위치에 고정시키는) 시퀀스를 포함한다. 그러한 재지향 제스처의 표현은, 빔을 원래의 방향으로부터 (예컨대, 도 12 에 도시된 것과 같은) 표시된 방향으로 스티어링하는 (예컨대, 이동시키는) 커맨드로 맵핑될 수도 있다. 도 8 은 로우들 GB1 - CB1 및 GB2 - CB2 에서 그러한 맵핑들의 예들을 도시한다.
C) 사용자가 (예컨대, 전화 통화 동안 프라이버시를 증가시키기 위해) 빔을 자신의 방향으로 포커싱하는 것을 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 수평 방향에서 넓게 이격된 양손을 보여주고, 그 후에 양손을 모으는 것일 수도 있다. 그러한 제스처의 표현은 사용자의 방향에서 빔을 생성하고 입력 신호를 그 빔에 한정시키거나, 현존하는 빔의 폭을 사용자의 방향에서 감소시키는 커맨드로 맵핑될 수도 있다. 유사하게, 수평 방향으로 양손을 서로에 대하여 멀어지도록 이동시키는 제스처는 사운드 빔의 폭을 증가시키기 위한 요구되는 변경을 나타낼 수도 있고, 그러한 커맨드에 맵핑될 수도 있다. 도 8 은 로우들 GC1 - CC1 및 GC2 - CC2 에서 그러한 맵핑들의 예들을 도시한다. 도 10 은 로우들 GC1a-CC1a, GC1b-CC1b, GC2a-CC2a, 및 GC2b-CC2b 에서 그러한 맵핑들의 대안적인 예들을 도시한다.
D) 사용자가 특정 방향에서 사운드를 명확히 청취할 수 없고, 사운드 필드를 그녀의 방향으로 포커싱하거나 그렇지 않으면 (예컨대, 잡음 환경에서) 사운드 필드를 더 이해할 수 있기를 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 그녀의 손을 귀 위에 컵핑하고 가능하면 그녀의 머리를 그 방향 쪽으로 기울이는 것일 수도 있다. 그러한 액션은, 한 손을 사용자의 귀로 들어 올리면서 (예컨대, 손을 사용자의 얼굴 옆에 들어 올리고), 손바닥을 앞을 향하게 하고 가능하게는 손가락들을 부분적으로 앞으로 구부리는 (예컨대, 손을 귀에 컵핑하는) 제스처로 특징지어질 수도 있다. 도 6a 및 도 6b 는 그러한 제스처의 시간에 걸친 진행을 도시한다. 그러한 제스처의 표현은 빔을 귀 방향으로 생성하거나 강화시키거나 (예컨대, 로컬 볼륨을 증가시키거나), 기존의 빔을 귀 쪽으로 재지향하거나, 그렇지 않으면 예컨대, 도 13 에 도시된 것과 같은 방향으로 사운드 필드의 레벨을 부스팅하는 커맨드로 맵핑될 수도 있다. 대안적으로 또는 부가적으로, 그러한 제스처의 표현은 사운드 필드의 동적 범위를 로컬로 또는 전역으로 압축하고 및/또는 (예컨대, 베이스 부스팅 및/또는 PBE (psychoacoustic bass enhancement) 을 통해) 사운드 필드의 인지되는 세기를 향상시키는 커맨드로 맵핑될 수도 있다. 도 8 은 로우 GD2-CD2 에서 그러한 맵핑의 일 예를 도시한다.
대조적으로, 사용자가 그러한 포커스를 반전시키는 것을 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 소거 또는 거부 제스처를 실행하는 것일 수도 있다. 그러한 제스처는 들어 올려진 손이 (통상적으로 함께 보다는 떨어진 손가락들로) 바깥쪽으로 펼친 손바닥으로 고정되고 손의 바닥에 중심축을 중심으로 앞뒤로 이동되는 (즉, 그 축을 중심으로 상부 팔을 앞뒤로 회전시킴으로써 이동되는) 것으로 특징지어질 수도 있다. 그러한 제스처의 표현은 로컬 볼륨, 동적 범위, 또는 세기 보상 동작을 디폴트 레벨로 리턴하는 커맨드로 맵핑될 수도 있다. 도 8 은 로우 GD1-CD1 에서 그러한 맵핑의 일 예를 도시한다.
E) 사용자가 전체 사운드 필드의 볼륨을 증가시키는 것을 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 (손바닥을 위로 또는 손바닥을 아래로 하여) 양손을 함께 올리는 것일 수도 있고, 그러한 제스처의 표현은 사운드 필드의 전체 볼륨을 증가시키는 커맨드에 맵핑될 수도 있다. 유사하게, 사용자가 전체 사운드 필드의 볼륨을 감소시키는 것을 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 (예컨대, 도 14 의 예에 도시된 것과 같이 손바닥을 아래로 하여) 양손을 함께 내리는는 것일 수도 있고, 그러한 제스처의 표현은 사운드 필드의 전체 볼륨을 감소시키는 커맨드에 맵핑될 수도 있다. 도 8 은 로우들 GE1 - CE1 및 GE2 - CE2 에서 그러한 맵핑들의 예들을 도시한다.
F) 사용자가 (적어도 사용자의 방향에서) 사운드 필드의 동적 범위를 축소시키거나 볼륨을 감소시키는 것을 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 수직 방향에서 양손을 서로를 향하여 이동시키거나 한 손을 귀에 고정시키면서 다른 손을 하강시키는 것일 수도 있다. 그러한 제스처의 표현은 사운드 필드의 동적 범위를 (로컬로 또는 전역으로) 압축시키거나 볼륨을 감소시키는 커맨드로 맵핑될 수도 있다. 도 8 은 로우 GF1-CF1 에서 그러한 맵핑의 일 예를 도시한다. 도 9 는 로우 GF3-CF3 에서 그러한 맵핑의 다른 일 예를 도시한다.
유사하게, 사용자가 (적어도 사용자의 방향에서) 사운드 필드의 동적 범위를 확장시키거나 볼륨을 증가시키는 것을 원한다면, 변경을 나타내는 액션은, 사용자가 수직 방향에서 양손을 서로에 대하여 멀어지도록 이동시키거나 한 손을 귀에 고정시키면서 다른 손을 올리는 것일 수도 있다. 그러한 제스처의 표현은 사운드 필드의 동적 범위를 (로컬로 또는 전역으로) 확장시키거나 볼륨을 증가시키는 커맨드로 맵핑될 수도 있다. 도 8 은 로우 GF2-CF2 에서 그러한 맵핑의 일 예를 도시한다. 도 9 는 로우 GF4-CF4 에서 그러한 맵핑의 다른 예를 도시한다.
G) 사용자가 (예컨대, 등화를 위한) 다른 대역들의 레벨들에 대하여 사운드 필드의 주파수 대역의 레벨을 증가시키거나 감소시키는 것을 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 한 손을 귀에 고정시키면서 손바닥을 바깥쪽을 향하여 세우고 이 손을 사용자의 시점으로부터 (예컨대, 마치 손잡이 또는 바퀴를 돌리는 것처럼) 각각 시계 방향 또는 시계 반대 방향으로 회전시키는 것일 수도 있다. 그러한 제스처의 표현은 특정 주파수 대역의 레벨을 증가시키거나 감소시키는 커맨드로 맵핑될 수도 있다. 그 레벨이 조정될 주파수 대역 (예컨대, 베이스, 미드레인지, 트레블) 은 (예컨대, 트레블을 나타내도록 높게 고정되고 베이스를 나타내도록 낮게 고정된 손으로) 회전하는 손의 높이에 의해 표시될 수도 있다. 도 9 는 로우들 GG1a-CG1a, GG2a-CG2a, GG1b-CG1b, GG2b-CG2b, GG1c-CG1c, 및 GG2c-CG2c 에서 그러한 맵핑들의 예들을 도시한다.
H) 사용자가 현재 사운드 필드 구성에 대한 변경들을 디스에이블하기를 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 펼친 손을 손바닥을 바깥쪽으로 하여 제시하고 손을 접어서 시계 방향으로 회전시키는 것일 수도 있다. 그러한 록킹 제스처의 표현은 현재 사운드 필드 구성에 대한 변경들을 디스에이블하거나, 특정 변경들 (예컨대, 빔 방향에 있어서의 변경) 을 디스에이블하면서 다른 변경들 (예컨대, 로컬 사운드 레벨에 있어서의 변경) 을 허용하는 커맨드로 맵핑될 수도 있다. 유사하게, 사용자가 현재 사운드 필드 구성에 대한 변경들을 인에이블하기를 원한다면, 원하는 변경을 나타내는 액션은, 사용자가 접은 손을 제시하고 손을 펼쳐서 시계 반대 방향으로 회전시키는 것일 수도 있다. 그러한 언록킹 제스처의 표현은 현재 사운드 필드 구성에 대한 변경들을 인에이블하는 커맨드로 맵핑될 수도 있다. 도 9 는 로우들 GH1-CH1 및 GH2-CH2 에서 그러한 맵핑들의 예들을 도시한다.
특정 구현에서 상이한 제스처 표현들과 연관된 액션들의 범위는 앞서 및/또는 도 8 내지 도 10 에서 설명된 예들 중 하나 이상을 포함할 수도 있다. 부가적으로 또는 대안적으로, 이들 액션들 중 일부는 전역으로 적용될 수도 있다 (예컨대, 볼륨, 주파수 분포, 및/또는 동적 범위의 제어).
이하 논의되는 것과 같이, 표현된 제스처는 손 움직임 이외의 액션 또는 손 움직임에 부가한 액션을 포함할 수도 있다. 예를 들어, 사용자의 얼굴 표정, 머리 위치 및/또는 배향, 및/또는 시선 방향뿐만 아니라 손 움직임을 트래킹하고, 그에 따라 사운드 필드를 변경 (예컨대, 사운드 빔을 스티어링) 하도록 방법 (M100) 을 구현하는 것이 바람직할 수도 있다.
제스처 해석 작업 (T200) 은 컨텍스트 의존적일 수도 있다. 예를 들어, 작업 (T200) 은 오직 현재 컨텍스트에 적절한 제스처들의 표현들에 응답하여 커맨드를 생성하도록 구현될 수도 있다. 그러한 일 예에서, 작업 (T200) 은, 시스템이 이미 뮤트 (mute) 상태일 경우, 볼륨을 감소시키는 제스처의 표현을 무시하도록 구현될 수도 있다. 그러한 다른 예에서, 작업 (T200) 은, 시스템이 이미 그 방향에서 블록킹 상태일 경우, 블록킹 제스처의 표현을 무시하도록 구현된다.
제스처 표현으로부터 대응하는 커맨드로의 맵핑은 또한 컨텍스트 의존적일 수도 있다. 예를 들어, 작업 (T200) 은 제스처 표현이 수신될 경우 존재하는 컨텍스트에 의존하여, 2 이상의 상이한 커맨드들을 동일한 제스처 표현과 연관시키도록 구현될 수도 있다. 부가적으로 또는 대안적으로, 컨텍스트는 커맨드가 로컬로 (예컨대, 오직 사용자의 방향으로) 적용되는지, 아니면 전역으로 적용되는지 여부를 나타낼 수도 있다.
방법 (M100) 은 다른 동작 또는 디바이스로부터 제스처 표현을 획득하도록 구현될 수도 있다. 대안적으로, 방법 (M100) 은 캡처된 장면의 분석을 수행함으로써 제스처의 표현을 생성하도록 구현될 수도 있다. 도 7b 는 캡처된 장면을 분석하여 제스처의 표현을 생성하는 장면 분석 작업 (TA10) 을 포함하는 방법 (M100) 의 구현 (M110) 의 플로우차트를 도시한다.
도 7c 는 제스처를 포함하는 장면을 캡처하는 장면 캡처 작업 (TC10) 을 또한 포함하는 방법 (M110) 의 일 구현 (M120) 의 플로우차트를 도시한다. 장면 캡처 작업 (TC10) 은 장면을 레코딩하기 위해 다양한 캡처 양식 (예컨대, 이미징 및/또는 레인징) 중 임의의 하나 이상을 사용하도록 구현될 수도 있다. 예를 들어, 작업 (TC10) 은 제스처를 포함하는 이미지 또는 이미지들의 시퀀스 (예컨대, 비디오 시퀀스) 를 레코딩하도록 구현될 수도 있다.
그러한 캡처는 (예컨대, 컬러 및/또는 루미넌스에 있어서의 차이들에 기초한 이미지 세그멘테이션을 위해) 가시광 및/또는 적외선에 의한 광학 이미징 및/또는 레이저 거리 측정을 포함할 수도 있다. 작업 (TC10) 은 이미지들의 시퀀스를 캡처하기 위해 카메라-기반의 이미징 시스템을 사용하도록 구현될 수도 있고, 작업 (TA10) 은 그 시퀀스 내의 오브젝트들 및 움직임들을 인식하기 위해 이미지 프로세싱 기술들을 사용하도록 구현될 수도 있다. 예를 들어, 작업 (TC10) 은 (예컨대, 퍼스널 컴퓨팅 디바이스 내에 또는 상에 장착된 웹 캠을 사용하여) 사운드 필드 내에서 사용자의 이미지들의 시퀀스를 캡처하도록 구성될 수도 있다. 2 이상의 카메라들로, 작업들 (TC10 및 TA10) 은 (예컨대, 2 차원 인식 동작의 상위에 깊이 정보를 부가하여) 3 차원 이미징 및 분석도 각각 수행하도록 구현될 수도 있다.
부가적으로 또는 대안적으로, 작업 (TC10) 은 초음파를 사용하여 그러한 캡처를 수행하도록 구현될 수도 있다. 그러한 일 예에서, 초음파 트랜스듀서들의 어레이는 (예컨대, 레인징에 의해) 공간 이미징을 수행하는데 사용된다. 초음파 어레이에서 충분한 밀도의 트랜스듀서들로, 그러한 공간 이미지의 분해능은 상세한 세부사항들의 식별을 지원하기에 충분할 수도 있다. 부가적으로 또는 대안적으로, 작업 (TC10) 은 (예컨대, 미국 공개 특허 출원 제 2010/0202656 A1 호 (Ramakrishnan 등) 에 기술된 것과 같이) 초음파 도플러 기술을 사용함으로써 움직임 정보를 캡처하도록 구현될 수도 있다.
부가적으로 또는 대안적으로, 작업 (TC10) 은 구조적 방사를 사용하여 레인징을 수행하도록 구현될 수도 있다. 예컨대, 작업 (TC10) 은 (예컨대, (2012 년 1 월 5 일에 공개된) 미국 공개 특허 출원 번호 제 2012/0001875 A1 호 (Li 등) 에 기술된 것과 같이) 스펙트럼 확산 초음파와 같은 초음파의 구조적 방사를 사용하여 레인징을 수행하도록 구현될 수도 있다. 그러한 레인징은 캡처된 장면의 깊이 이미징 및/또는 깊이 세그멘테이션을 지원하는데 이용될 수도 있다.
사운드의 구조적 방사를 사용하는데 부가하거나 대안적으로, 작업 (TC10) 은 거리 맵핑, 깊이 이미징, 및/또는 깊이 세그멘테이션을 위해 광의 구조적 방사를 사용하도록 구현될 수도 있다. 그러한 구현은 알려진 패턴 (예컨대, 스트라이프 및/또는 도트 패턴과 같은 광의 주기적인 패턴) 을 장면 상에 투영하고, 조명된 장면의 이미지를 캡처하고 그 패턴의 변형을 결정함으로써 장면에서 표면 포인트들의 깊이들을 추정하는 것을 포함할 수도 있다. 그러한 접근방식은 광을 방사하기 위해 레이저 (예컨대, 적외선 레이저), 방사된 광 위에 패턴을 부과하기 위해 회절격자 (예컨대, 홀로그램), 및 조명된 장면의 이미지를 캡처하기 위해 이미지 검출기를 사용할 수도 있다. 그러한 경우에, 작업 (TA10) 은 (예컨대, Kinect 센서, Microsoft, Redmond, WA 에 의해 수행되는 것과 같이) 투영된 패턴의 이미지를 시계에서의 오브젝트들에 의해 반사되는 것으로 분석하도록 구현될 수도 있다.
이들 캡처 양식들 중 임의의 하나 이상으로 (또는 그 대신에) 캡처 작업 (TC10) 에 의해 사용될 수도 있는 다른 캡처 접근방식들은, 제스처 글러브 및/또는 다른 제어기의 사용을 포함하며, 중력 축 (예컨대, 지구 표면에 수직하는 축) 또는 자축 (예컨대, 지구의 자축) 과 같은 외부 참조 방향을 참조하여 제어기의 현재 공간적 배향을 나타내는, 제어기에서 배향 센서에 의해 표시되는 것과 같은 트래킹 움직임을 포함할 수도 있다. 그러한 배향 센서는 자이로스코프들 및/또는 가속도계들과 같은 하나 이상의 관성 센서들을 포함할 수도 있다. 자이로스코프는 하나의 축에 대하여 또는 2 또는 3 개의 (통상적으로 직교하는) 축들의 각각에 대하여 배향의 변경들 (예컨대, 피치, 롤 및/또는 트위스트의 변경들) 을 검출하기 위해 각도 모멘텀의 원칙들을 사용한다. 마이크로-전자기계 시스템들 (MEMS) 디바이스들로 제작될 수도 있는 자이로스코프들의 예들은 진동 자이로스코프들을 포함한다. 가속도계는 일 축을 따라 또는 2 또는 3 개의 (통상적으로 직교하는) 축들 각각을 따라 가속도를 검출하며, 움직임의 방향을 캡처하는데 사용될 수도 있다. 가속도계는 또한 MEMS 디바이스로 제작될 수도 있다. 자이로스코프 및 가속도계를 단일 센서로 결합하는 것이 또한 가능하다. 부가적으로 또는 대안적으로, 배향 센서는 일 축을 따라 또는 2 또는 3 개의 (통상적으로 직교하는) 축들의 각각을 따라 자계 강도를 측정하는 하나 이상의 자계 센서들 (예컨대, 자력계들) 을 포함할 수도 있다. 일 예에서, 제어기는 (예컨대, 지구의) 자축에 대하여 디바이스의 현재 배향을 나타내는 자계 센서를 포함한다.
장면 분석 작업 (TA10) 은 캡처된 장면을 분석하여 제스처의 표현을 생성한다. 캡처된 장면의 그러한 분석은 (예컨대, 컬러 및/또는 깊이에 의한) 이미지 세그멘테이션, 피부 컬러 검출, 및/또는 배경 추출과 같은 하나 이상의 이미지 분석 동작들을 포함할 수도 있다. 장면 분석 작업 (TA10) 은 또한 비디오 시퀀스의 인접 프레임들 간에 상이한 이미지들을 계산하는 것과 같이, 시간에 걸친 변경들을 검출하는 하나 이상의 동작들을 포함할 수도 있다.
작업 (TA10) 은 피처 추출 및 피처 분류와 같은, 분석된 장면에 대한 하나 이상의 서브작업들을 수행하도록 구현될 수도 있다. 피처 추출은 캡처된 장면을 분석하여 사용자의 손, 손가락, 머리, 얼굴, 눈, 몸, 및/또는 어깨와 같은 관심 영역들을 검출 및 로케이팅하는 것을 포함할 수도 있다. 그러한 분석은 또한 한 손 또는 각각의 손의 궤적, 머리의 회전 및/또는 기울기, 등과 같은 (예컨대, 이미지들의 시퀀스 내에서) 시간에 걸친 변경들 및/또는 검출된 피처들의 배향들을 식별하는 것을 포함할 수도 있다.
작업 (TA10) 에 의한 장면 분석은 또한, 하나 이상의 모멘트들 (예컨대, Hu 불변 모멘트들) 을 계산하는 것, (예를 들어, 손가락 끝 검출을 위한) K-곡률을 계산하는 것, 지오메트릭 형상 디스크립터들을 계산하는 것, 및/또는 템플릿 세트 중에서 하나 이상에 영역을 매칭하는 것과 같은, 검출된 영역들의 특징화를 포함할 수도 있다. 그러한 분석 동작들은 손 검출, 손가락 컨벡스 헐 (convex hull) 추출, 코너 검출, 볼록부 검출, 신체 부분 라벨링을 위한 골격 등록, 골격 모델로의 맵핑, 및/또는 깊이 세그멘테이션을 포함할 수도 있다.
작업 (TA10) 은 일 피처를, 매치의 측정 (예컨대, 유사성 측정) 이 후보-의존적일 수도 있는 임계치 이상일 경우, (예컨대, 최대 유사성 피처에 따라) 제스처 피처 후보들의 세트 중에서 가장 가까운 것으로 분류하는 것과 같은 피처 분류를 포함할 수도 있다. 일 피처의 하나 이상의 양태들은, 예컨대 형상, 위치 (예컨대 사용자의 손의 서로에 대한 공간적 관계, 및/또는 사용자의 손의 사용자의 얼굴 및/또는 눈에 대한 공간적 관계), (예컨대, 검출된 피처의 사이즈에 의해 및/또는 레인징에 의해 검출된 것과 같은) 거리, 배향 (예컨대, 손 또는 머리의 기울기, 포인팅 방향), 및 이동 (예컨대, 좌, 우, 상, 및/또는 하로의 움직임) 중 하나 이상을 포함할 수도 있다. 도 15 는 제스처 피처 후보들의 3 가지 예들을 도시한다.
피처 검출은 또한 이전 및/또는 향후 캡처들에 기초할 수도 있다. 예를 들어, 작업 (TA10) 은, 캡처 프레임에서 특정 피처의 검출이, 인접 캡처 프레임에서의 인근 위치에서 동일한 피처가 검출될 경우, 더 가능할 수도 있도록 구현될 수도 있다.
작업 (TA10) 은 복수의 후보 제스처 표현들 중에서 하나 이상을 선택함으로써 제스처 인식을 수행하도록 구현될 수도 있다. 그러한 제스처 인식은 제스처를, 매치의 측정 (예컨대, 유사성 측정) 이 후보-의존적일 수도 있는 임계치 이상일 경우, (예컨대, 최대 유사성 피처에 따라) 제스처 피처 후보들의 세트 중에서 가장 가까운 것으로 분류하는 것을 포함할 수도 있다. 그러한 분류는 장면 또는 프레임 내의 개별 피처들로부터 제스처 엘리먼트를 인식하고 및/또는 시간에 걸쳐 제스처 엘리먼트들의 시퀀스를 인식하기 위해 은닉 마르코브 (Markov) 모델 또는 다른 패턴 인식 알고리즘에 기초할 수도 있다. 추가의 애플리케이션들은 제스처 인식에 응답하여 (예컨대, 사운드 및/또는 디스플레이 아이콘을 통해) 메뉴 내비게이션 및/또는 사용자-인터페이스 피드백을 위한 합성 제스처들 (예컨대, 2 이상의 제스처들의 시퀀스) 를 포함할 수도 있다.
작업 (TA10) 은 제스처 엘리먼트들 (예컨대, 검출된 피처들) 의 시퀀스로서 제스처를 인식하도록 구현될 수도 있다. 그러한 시퀀스는 또한 제스처 엘리먼트들의 특정 움직임을 포함할 수도 있다. 전술된 것과 같이, 손 제스처는 카메라로 인식되고 및/또는 초음파 어레이들로 트래킹될 수 있다. 예를 들어, 도 2a 및 도 2 b 에 도시된 것과 같은 제스처는 (예컨대, 사용자의 얼굴에 대하여 엄지손가락의 안쪽 위치에 의해 표시될 수도 있는) 올린 펼친-손바닥 - 바깥쪽 손의 외향 및/또는 그 사이즈가 증가하고 및/또는 그 거리는 감소하는 올린 펼친-손바닥-바깥쪽 손을 특징으로 할 수도 있다. 손 움직임의 다른 예들은 시계 방향 또는 반시계 방향 회전, 측면 움직임, 수직 움직임, 센서 쪽으로의 또는 센서로부터 멀어지는 움직임, 및 양손의 상대적인 움직임 (예컨대, 양손이 동일한 방향으로 이동하는 것, 양손이 서로를 향해/서로 멀어지도록 이동하는 것) 을 포함한다. 손 형상의 변화들은 쥐는 것 및 펴는 것을 포함할 수도 있다. 제스처는 (예컨대, 동적 범위 및/또는 볼륨의 제어를 위해) 사용자의 머리의 회전 및 사용자의 머리의 측면 기울임 중에서 적어도 하나를 포함할 수도 있다.
작업 (TA10) 은 컴포넌트 제스처 엘리먼트들로부터 합성 제스처들 (예컨대, 시간에 걸쳐 제시된 상이한 엘리먼트들의 시퀀스를 포함하는 제스처들) 을 인식하도록 구현될 수도 있다. 후보 제스처 표현들의 세트는 또한, 2 개의 손, 손과 머리, 및/또는 손과 바디 제스처들, 예컨대 손에서 귀까지를 포함하는 제스처 (예컨대, 한 손은 귀로 및 다른 손은 볼륨 또는 동적 범위의 변경을 나타내도록 위/아래 또는 안/밖으로 이동됨) 을 포함할 수도 있다.
작업 (TA10) 은 제스처 엘리먼트의 초기 상태와 그 엘리먼트의 하나 이상의 양태들에서 시간에 걸친 변화와의 조합으로서 특정 제스처를 검출하도록 구현될 수도 있다. 은닉 마르코브 모델은 관찰물들의 시퀀스를 제스처 상태들 (예컨대, 시퀀스의 초기, 중간, 및 종단 이미지들) 의 시퀀스에 매칭하는데 사용될 수도 있다. 작업 (TA10) 은 제스처 시퀀스가 특정 주기 (예컨대, 2 내지 3 초) 내에 완료되는 것을 검증하기 위한 트래킹을 포함할 수도 있다.
제스처들 중 적어도 일부가 표현되도록 하기 위해, 장면 분석 동작 (예컨대, 작업 (TA10)) 은 캡처된 장면으로부터 연관된 분량 (quantity) 을 추출하는 것을 포함할 수도 있다. 예를 들어, 그러한 동작은, 제스처 엘리먼트가 위/아래, 좌-우 및/또는 (센서에 대하여) 접근하는/멀어지는 방향들로 이동하는 정도, 또는 2 개의 이동하는 제스처 엘리먼트들 (예컨대, 사용자의 양 손) 간에 초기 간격 및/또는 최종 간격의 정도를 정량화하도록 구현될 수도 있다. 그러한 정량화는, 예컨대 대응하는 액션 또는 액션들의 하나 이상의 파라미터들의 각각에 대한 값을 결정하는데 있어 바람직할 수도 있다. 그러한 정량화 가능한 파라미터들은 볼륨, 강조될 주파수 범위의 위치 및/또는 대역폭, 빔 방향의 변화, 빔 폭, 동적 범위 확장 또는 축소, 시간에 있어서 에코 깊이, 등을 포함할 수도 있다.
그러한 파라미터 값은 볼륨 또는 동적 범위와 같은 레벨을 조정하도록 (예컨대, 작업 (T400) 에 의해) 적용될 수도 있다. 제 1 예에서, 작업 (TA10) 은 (예컨대, 손의) 초기 위치에 대한 거리에 따라 표시된 양을 결정한다. 그러한 손 제스처는 기본 레벨을 확립하기 위한 손의 정지를 포함할 수도 있고, 작업 (TA10) 은 제스처와 관련된 방향 (예컨대, 상/하, 좌/우, 안/밖) 에서 손의 최종 위치의 거리를 측정하도록 구현될 수도 있다. 제 2 예에서, 작업 (TA10) 은 기준 위치에 대한 거리에 따른 표시된 양을 결정한다. 예를 들어, 사용자의 손의 기준 위치는 사용자의 손과 관련하여 확립될 수도 있다. 그러한 일 예에서, 턱 높이에서의 손은 범위의 중간 값과 연관되고, 상한치와 하한치는 각각 턱 높이의 위 및 아래로 약 25 내지 30 센티미터이다. 그러한 기준과의 연관은 또한, 다른 구성 파라미터들을 위해 사용될 수도 있다. 예를 들어, 원하는 빔 폭은 현재 빔 폭과 연관된, 어깨 폭 만큼 떨어져서 고정된 양 손의 기준 위치에 대하여 표시될 수도 있다.
대안적으로, 파라미터의 범위 (예컨대, 볼륨, 빔 폭, 동적 범위) 는 사용자의 위치에서 추정된 대응하는 거리로서 결정될 수도 있다. 예를 들어, 작업 (TA10) 은 양손 간의 관찰된 거리 또는 각도를 깊이 센서로부터 양손의 관찰된 거리와 결합하여 사용자의 위치에서 양손 간의 대응하는 거리를 결정하도록 구현될 수도 있다. 사용자까지의 거리는 또한, 머리 또는 손 사이즈, 어깨 너비, 등과 같은 시각적 큐로부터 추정될 수도 있다.
제스처 해석 작업 (T200) 에 의해 생성된 커맨드에 응답하여, 커맨드 해석 작업 (T300) 은 필터 구성을 생성한다. 전술된 것과 같이, 예를 들어, 작업 (T200) 에 의해 생성된 커맨드들의 범위는 다음 중 하나 이상을 포함할 수도 있다:
(예컨대, 지향적으로 제어가능한 트랜스듀서의 축에 대한) 표시된 방향에서 사운드 빔을 생성 또는 제거하는 것;
사운드 빔의 (예컨대, 지향적으로 제어가능한 트랜스듀서의 축에 대한) 폭, 볼륨, 동적 범위, 및/또는 방향을 변경하는 것;
주파수에 대하여 사운드 빔의 에너지 분포를 변경시키는 것 (예컨대, 등화 또는 베이스 부스팅);
(예컨대, 지향적으로 제어가능한 트랜스듀서의 축에 대한) 표시된 방향에서 사운드 널을 생성 또는 제거하는 것;
사운드 널의 (예컨대, 지향적으로 제어가능한 트랜스듀서의 축에 대한) 폭, 볼륨, 동적 범위, 및/또는 방향을 변경하는 것; 및
현재 사운드 필드 구성을 록킹 또는 언록킹하는 것.
부가적으로 또는 대안적으로, 작업 (T200) 은 볼륨, 주파수 분포, 및/또는 동적 범위의 제어와 같이 전체 사운드 필드에 적용될 커맨드를 생성할 수도 있다.
신호 합성 작업 (T400) 은 그 필터 구성에 기초하는 공간적으로 지향성의 필터를 입력 신호에 적용함으로써 멀티채널 신호를 생성한다. 도 16 은 멀티채널 신호 (MCS10) 의 각각의 채널 (MCS10-1 내지 MCS10-N) 을, 입력 신호 (SS10) 와 필터 구성의 계수들 (w1 내지 wN) 중 대응하는 하나와의 곱으로서 생성하기 위해, 작업 (T400) 에 의해 구성된 공간적으로 지향성의 필터의 주파수-도메인 구현 (SDF10) 의 블록 다이어그램을 도시한다. 그러한 곱셈들은 병렬로 (즉, 하나 이후 다른 하나) 및/또는 병렬로 (즉, 한 번에 2 이상씩) 수행될 수도 있다. 도 17 은 멀티채널 신호 (MCS10) 의 각각의 채널 (MCS10-1 내지 MCS10-N) 을, 입력 신호 (SS10) 와 필터 구성의 필터 계수들의 세트들 (w1 내지 wN) 중 대응하는 하나의 컨벌루션으로서 생성하기 위해, 작업 (T400) 에 의해 구성된 공간적으로 지향성의 필터의 등가의 시간-도메인 구현 (SDF20) 의 블록 다이어그램을 도시한다.
멀티채널 신호의 각 채널을 생성하기 위해 필터 구성에 따라 입력 신호를 가중 및/또는 지연시킴으로써, 그러한 작업 (T400) 의 구현은 생성된 사운드 필드의 요구되는 공간 분포를 획득하기 위해 사용될 수도 있다. 예를 들어, 공간적으로 지향성의 필터는 결과적인 사운드 필드의 요구되는 방향에서 (예컨대, 빔의 방향에서) 보강 간섭을 유도하면서 사운드 필드의 다른 방향에서 (예컨대, 빔의 메인 로브 외부의 방향들에서) 소멸 간섭을 유도하도록, 멀티채널 신호를 생성하도록 구성될 수도 있다. 이하 설명되는 것과 같이, 작업 (T400) 의 그러한 구현에 의해 생성되는 멀티채널 신호는 원하는 방향으로 집중되는 음향 에너지의 빔을 생성하고 다른 방향들로의 빔 응답에서 밸리 (valley) 를 생성하도록, 트랜스듀서를 구동하는데 사용될 수도 있다.
작업 (T300) 은 멀티채널 신호의 각 채널이 개별 위상 (즉, 시간) 지연을 갖도록, 위상-어레이 기술에 따라 필터 구성을 생성하도록 구현될 수도 있다. 그러한 기술의 일 예는 지연-합산 빔형성 (DSB) 필터이다. 그러한 경우, 공간적으로 지향성의 필터는 신호 (MCS10) 의 각 채널을 생성하기 위해 개별 시간 지연을 입력 신호에 적용함으로써 사운드 필드를 원하는 방향으로 지향하도록 구성될 수도 있다. 멀티채널 신호가 균일한 간격의 선형 라우드스피커 어레이를 구동하는데 사용되는 경우에 대하여, 예를 들어, 공간적으로 지향성의 필터의 채널들 (w1 내지 wN) 의 계수들은 주파수 도메인에서 DSB 필터링 동작을 위해 다음 식에 따라 계산될 수도 있다:
Figure 112014105131370-pct00001
Figure 112014105131370-pct00002
에 대하여, 상기 d 는 어레이에서 인접한 라우드스피커들의 방사 표면들의 중심들 간의 간격이고, N 는 (어레이에서 라우드스피커들의 개수 이하일 수도 있는) 구동될 라우드스피커들의 개수이고, f 는 주파수 빈 인덱스이고, c 는 사운드의 속도이며,
Figure 112014105131370-pct00003
는 어레이의 축에 대한 빔의 요구되는 각도 (예컨대, 사운드 필드의 메인 로브의 요구되는 방향) 이다. 필터 구성의 등가의 시간-도메인 구현을 위해, 엘리먼트들 (w1 내지 wN) 은 대응하는 지연들로 구현될 수도 있다. 그 도메인에서, 작업 (T400) 은 또한, 신호 (MCS10) 의 각 채널을 1/N 의 인자로 스케일링함으로써 (또는 동등하게, 입력 신호 (SS10) 를 1/N 로 스케일링함으로써) 신호 (MCS10) 의 정규화를 포함할 수도 있다.
그 간격 d 이 파장
Figure 112014105131370-pct00004
(여기서
Figure 112014105131370-pct00005
) 의 1/2 과 동일한 주파수 f1 에 대하여, 식 (1) 은 이하 식으로 감소한다:
Figure 112014105131370-pct00006
도 18a, 도 18b, 도 19a, 및 도 19b 는 4-엘리먼트 어레이에 대한 주파수 f1 에서 그러한 DSB 필터의 방향에 대한 크기 응답 (또한 빔 패턴으로 불림) 의 예들을 도시하며, 4-엘리먼트 어레이에서, 필터의 배향 각도 (즉, 각 도면에서 삼각형으로 표시되는 것과 같은 각도
Figure 112014105131370-pct00007
) 는 각각, 30 도, 45 도, 60 도, 및 75 도이다.
도 18a, 도 18b, 도 19a, 및 도 19b 에 도시된 필터 빔 패턴들은 c/2d 가 아닌 주파수들에서 상이할 수도 있다. 공간 에일리어싱을 회피하기 위해, 입력 신호의 최대 주파수를 c/2d 로 제한하는 것이 (즉, 따라서 간격 d 가 신호의 최단 파장의 1/2 보다 크지 않도록 하는 것이) 바람직할 수도 있다. 고 주파수들을 포함하는 소스 컴포넌트를 지향하기 위해, 더 인접한 간격의 어레이를 사용하는 것이 바람직할 수도 있다.
방향적으로 선택적인 트랜스듀서 (예컨대, 라우드스피커 어레이의 서브어레이들) 이 상이한 주파수 범위들에 대하여 상이하게 구동될 수도 있도록, 다수의 멀티채널 신호들을 생성하기 위해 공간적으로 지향성의 필터를 적용하는 작업 (T400) 을 구현하는 것이 또한 바람직하다. 그러한 구현은 광대역 재생을 위해 더 양호한 지향성을 제공할 수도 있다. 그러한 일 예에서, 작업 (T400) 은 c/4d 의 최대 주파수로 제한되는 입력 신호의 주파수 대역으로부터 (예컨대, 공간적으로 지향성의 필터의 채널들 (w1 내지 wN) 중 교호의 채널들을 사용하여) 제 2 의 N/2-채널 멀티채널 신호를 생성하도록 구현되며, 이러한 제 2 멀티채널 신호는 라우드스피커 어레이의 교호의 라우드스피커들 (즉, 2d 의 유효 간격을 갖는 서브어레이) 를 구동하는데 사용된다.
멀티채널 신호의 채널들에 상이한 개별 가중치들을 적용하는 필터 구성을 구현하는 것이 바람직할 수도 있다. 예를 들어, 필터 구성이 필터 계수들에 적용된 공간 윈도잉 함수를 포함하는 것이 바람직할 수도 있다. 공간 윈도잉 함수의 사용은 (예컨대, 메인로브를 확대시킴으로써) 사이드로브 크기와 각 분해능 양자를 감소시키는 경향이 있다. 그러한 윈도잉 함수의 예들은 삼각의 상승형 코사인 (예컨대, 한 (Hann) 또는 해밍 (Hamming)) 윈도우들을 제한 없이 포함한다.
일 예에서, 작업 (T300) 은, 소스 공간적으로 지향성의 필터의 각 채널 (wn) 의 계수들이 공간 윈도잉 함수의 개별 인자 sn 를 포함하도록, 필터 구성을 생성하도록 구현될 수도 있다. 그러한 경우에, 식 (1) 및 식 (2) 은 각각 이하 식들로 변경될 수도 있다:
Figure 112014105131370-pct00008
도 20a 및 도 20b 는 각각 가중치들 s1 내지 s4 이 값들 (2/3, 4/3, 4/3, 2/3) 을 갖는 그러한 변형에 따라, 각각 도 19a 및 도 19b 의 4-엘리먼트 DSB 필터들에 대한 주파수 f1 에서 빔 패턴들의 예들을 도시한다.
더 많은 라우드스피커들을 갖는 어레이는 더 많은 자유도들을 허용하며, 통상적으로 더 좁은 메인로브를 획득하는데 사용될 수도 있다. 도 21a 및 도 21b 는 필터의 배향 각도가 각각 30 도 및 60 도인, 8-엘리먼트 어레이를 위한 DSB 필터의 빔 패턴의 예들을 도시한다. 도 22a 및 도 22b 는 각각 도 21a 및 도 21b 의 8-엘리먼트 DSB 필터들에 대한 빔 패턴들의 예들을 도시하며, 여기서 이하 해밍 윈도잉 함수에 의해 정의된 것과 같은 가중치들 s1 내지 s8 은 공간적으로 지향성의 필터의 대응하는 채널들의 계수들에 적용된다:
Figure 112014105131370-pct00009
작업 (T300) 은 일 세트 (예컨대, 사전 계산된 빔 구성들의 세트) 로부터 적절한 구성을 선택함으로써, (예컨대, 앞의 식들 (1) 내지 (4) 중 임의의 식에 따른) 직접적인 계산에 의해, 및/또는 기존의 필터 구성을 변경함으로써, 필터 구성을 생성하도록 구현될 수도 있다. 특정 커맨드에 대한 적절한 필터 구성은 시스템의 현재 상태 또는 컨텍스트에 의존하여 변화할 수도 있다. 예를 들어, 작업 (T300) 에 의해 생성될 적절한 필터 구성은 합성 작업 (T400) 에 의해 공간적으로 지향성의 필터에 현재 적용되고 있는 필터 구성에 의존할 수도 있다. 따라서, 생성할 적절한 필터 구성을 결정하기 위해 현재 사운드 필드 구성의 컨텍스트에서 커맨드를 해석하도록 작업 (T300) 을 구현하는 것이 바람직할 수도 있다.
현재 컨텍스트는 현재 방향, 폭, 볼륨, 동적 범위, 및/또는 빔의 주파수 분포와 같은 양태들을 포함할 수도 있다. 현재 컨텍스트의 다른 양태들은 볼륨, 동적 범위, 및/또는 사운드 필드에 대한 주파수분포의 현재 전체 레벨들; 사용자의 위치 (예컨대, 트랜스듀서의 축에 대한 각도); 및 가능하면 하나 이상의 다른 사용자들 각각의 위치를 포함할 수도 있다.
타겟 사용자 환경의 각도 폭을 다수의 별개의 공간 섹터들로서 모델링하는 것이 바람직할 수도 있다. 도 23a 및 도 23b 는, 라우드스피커 어레이 R10 정면의 공간이 각각 3 개의 공간 섹터들 및 5 개의 공간 섹터들로 분할되는 예들을 도시한다. 그러한 모델의 다른 예들에서 공간 섹터들의 총 개수는 4, 6, 7, 8, 9 이상을 포함한다. 그러한 경우에, 작업 (T300) 은 표시된 섹터와 연관된 필터 구성을 생성하도록 구현될 수도 있다.
도 24 는 9 개 필터 구성들의 세트에 대한 빔 패턴들을 도시한다. 이러한 도면에서 각 패턴에 대한 스케일 및 배향은 도 18a 내지 도 22b 에서의 패턴들에 대한 것과 동일하며, 각 패턴은 표시된 각도로 배향된 8-채널 DSB 필터에 대응하고, 균일한 간격의 라우드스피커들의 선형 어레이를 구동한다. 타겟 폭이 각각 30, 45, 60, 75, 90, 105, 120, 135 및 150 도에 중심을 둔 9 개의 섹터들로 분할되는 예에 대하여, 작업 (T300) 은 "빔을 좌측으로 이동" 또는 "빔을 우측으로 이동" 하라는 커맨드에 응답하여, 공간적으로 지향성의 필터에 현재 적용되고 있는 필터 구성을 참조하여, 이들 필터 구성들 중 적절한 하나를 생성하도록 구성될 수도 있다.
작업 (T200) 에 의해 생성된 커맨드들의 범위가 사운드 빔의 폭을 변경하는 커맨드들을 포함하는 애플리케이션에 대하여, 작업 (T300) 은 도 23c 의 예에 도시된 것과 같은 표를 참조하도록 구현될 수도 있다. 이러한 표에서, 심볼들
Figure 112014105131370-pct00010
Figure 112014105131370-pct00011
은 커맨드들 "빔 폭을 최소로 감소", "빔 폭을 감소", "빔 폭을 증가" 및 "빔 폭을 최대로 증가" 를 표시한다. 공간적으로 지향성의 필터에 현재 적용되고 있는 필터 구성의 빔 폭이 좁을 경우, 작업 (T300) 은 빔 폭을 감소시키는 커맨드들이 무효한 것으로 결정한다. 유사하게, 공간적으로 지향성의 필터에 현재 적용되고 있는 필터 구성의 빔 폭이 넓을 경우, 작업 (T300) 은 빔 폭을 증가시키는 커맨드들이 무효한 것으로 결정한다. 무효한 커맨드들은 무시될 수도 있거나, 또는 (예컨대, 디스플레이 스크린 상에) 에러 표시를 트리거할 수도 있다. 다른 경우들에서, 작업 (T300) 은 공간적으로 지향성의 필터에 현재 적용되고 있는 필터 구성과 연관된 빔 폭을 참조하여, 원하는 빔 폭을 제공하도록 필터 구성을 생성한다.
도 25 는 6 개 필터 구성들의 세트에 대한 빔 패턴들을 도시한다. 상기 도면에서 각 패턴에 대한 스케일 및 배향은 도 18a 내지 도 22b 에서의 패턴들에 대한 것과 동일하다. 패턴들 A 내지 F 의 각각은 60 도로 배향되고 균일한 간격의 라우드스피커의 선형 어레이를 구동하는 DSB 필터에 대응하며, 패턴들은 빔 폭을 증가시키는 순서로 배열된다. 현재 빔 방향이 60 도인 예에 대하여, 작업 (T300) 은 빔 폭을 증가시키거나 감소시키는 커맨드에 응답하여, 공간적으로 지향성의 필터에 현재 적용되고 있는 필터 구성을 참조하여, 이들 필터 구성들 중 적절한 구성을 생성하도록 구성될 수도 있다. 이러한 특정 예에서, 패턴들 A 내지 F 은 각각 8-엘리먼트 DSB 필터, 삼각 윈도우를 갖는 8-엘리먼트 DSB 필터, 해밍 윈도우를 갖는 8-엘리먼트 DSB 필터, (예컨대, 8-엘리먼트 어레이의 교호의 라우드스피커들을 구동하기 위한) 4-엘리먼트 DSB 필터, 삼각 윈도우를 갖는 4-엘리먼트 DSB 필터, 및 해밍 윈도우를 갖는 4-엘리먼트 DSB 필터에 대응한다.
모든 다른 방향들에 대하여 평균 이득을 최소로 하면서 원하는 방향에서의 이득을 최대화하는, 극지향성의 빔형성기 알고리즘에 따라 계산된 필터 구성들을 생성하도록 작업 (T300) 을 구현하는 것이 바람직할 수도 있다. 극지향성 빔형성기들의 예들은, MVDR (minimum variance distortionless response) 빔형성기 (교차 공분산 행렬), 및 LCMV (linearly constrained minimum variance) 빔형성기를 포함한다. 다른 고정된 또는 적응형 빔형성 기술들, 예컨대 GSC (generalized sidelobe canceller) 기술들은 또한, 작업 (T300) 에 의해 생성된 필터 구성들 중 하나 이상을 계산하는데 사용될 수도 있다.
MVDR 빔형성기의 설계 목적은,
Figure 112014105131370-pct00012
를 조건으로 하는 제한치
Figure 112014105131370-pct00013
로 출력 신호 전력을 최소화하는 것이며, 여기서 W 는 필터 계수 행렬을 표시하고,
Figure 112014105131370-pct00014
는 라우드스피커 신호들의 정규화된 교차 전력 스펙트럼 밀도 행렬을 표시하며, d 는 스티어링 벡터를 표시한다. 그러한 빔 설계는 다음과 같이 표현될 수도 있고
Figure 112014105131370-pct00015
상기 d T 는 다음과 같이 표현될 수도 있는 선형 어레이들에 대한 원거리장 모델이며
Figure 112014105131370-pct00016
Figure 112014105131370-pct00017
는 대각 엘리먼트들이 1 이고 다음과 같이 표현될 수도 있는 코히어런스 행렬이다
Figure 112014105131370-pct00018
상기 식들에서,
Figure 112014105131370-pct00019
는 정규화 파라미터 (예컨대, 안정성 인자) 를 표시하고,
Figure 112014105131370-pct00020
는 빔 방향을 표시하고, fs 는 샘플링 레이트를 표시하고,
Figure 112014105131370-pct00021
는 신호의 각 주파수를 표시하고, c 는 사운드의 속도를 표시하고,
Figure 112014105131370-pct00022
는 인접하는 라우드스피커들의 방사 표면들의 중심들 간의 거리를 표시하고,
Figure 112014105131370-pct00023
는 라우드스피커들 n 및 m 의 방사 표면들의 중심들 간의 거리를 표시하고,
Figure 112014105131370-pct00024
는 잡음의 정규화된 교차-전력 스펙트럼 밀도 행렬을 표시하며,
Figure 112014105131370-pct00025
는 트랜스듀서 잡음 전력을 표시한다.
작업들 (T300 및 T400) 은 균일한 간격을 갖는 선형 라우드스피커 어레이, 불균일한 간격을 갖는 선형 라우드스피커 어레이, 또는 1 초과의 축을 갖는 어레이와 같은 비선형 (예컨대 성형된) 어레이를 구동하기 위해 사용하기 위한 멀티채널 신호를 생성하도록 구현될 수도 있다. 이들 작업들은 또한, 예컨대 웨이브프론트 전파의 호이겐스의 원리 (Huygens principle) 에 기초한 웨이브 필드 합성 (WFS) 기술과 같은 다른 지향성 필드 생성 원칙들에 따라 구현될 수도 있다.
라우드스피커 어레이가 비선형이고, 불균일한 간격을 가지고, 및/또는 1 초과의 축을 가지는 구현들에 대하여, 필터 계수 값들을 계산하기 위해 쌍별 BFNF (beamforming-nullforming) 구성을 사용하도록 작업 (T300) 을 구현하는 것이 바람직할 수도 있다. 그러한 기술은 쌍별 기준으로 계수들을 계산하며, 여기서 라우드스피커는 2 이상의 상이한 쌍들 중에서 공유될 수도 있다. 도 26a 내지 도 27 에서의 방법들은 각각의 주파수 빔에서 독립적으로 적용될 수도 있는 BFNF 기술들을 입증한다.
이 경우, 우리는 도 26a 에 도시된 것과 같이 각 쌍에 대한 스티어링 벡터를 증가시키며, 여기서
Figure 112014105131370-pct00026
는 컨디셔닝 인자이다. 빔 방향
Figure 112014105131370-pct00027
, 주파수 f, 및 라우드스피커 개수 m (쌍 내에서 1 또는 2) 에 대하여 쌍 p 와 소스 n 에 대한 스티어링 벡터의 각 엘리먼트는 다음과 같이 계산될 수도 있고
Figure 112014105131370-pct00028
여기서
Figure 112014105131370-pct00029
는 쌍 p 의 라우드스피커들 간의 거리를 표시하고,
Figure 112014105131370-pct00030
는 주파수 빔 개수를 표시하고,
Figure 112014105131370-pct00031
는 샘플링 주파수를 표시한다. (이러한 특정 예는 또한 각각이 상이한 입력 오디오 신호에 기초하고 상이한 방향에서 집중되는 3 개의 사운드 필드들에 대한 지원을 예시하고, 상이한 사용자들에 대하여 독립적으로 본원에 설명된 것과 같은 제스처 제어를 지원하는데 사용될 수도 있다.) 도 26a 에 도시된 것과 같은 의사 역연산을 사용하는 것은 비-정사각 행렬의 사용을 허용한다. 도 26b 에 도시된 것과 같은 3-라우드스피커 케이스 (즉, 2 개의 라우드스피커 쌍들) 에 대하여, 예컨대, 로우들의 개수는 3 대신 2*2=4 이며, 따라서 추가의 로우는 행렬이 비-정사각형이 되게 한다. 이러한 접근방식이 견고한 1-D DOA 추정에 기초하기 때문에, 어레이 지오메트리에 대한 완전한 지식은 요구되지 않고, 동시에 모든 라우드스피커들을 사용하는 사운드 필드 방향 추정은 또한 요구되지 않는다. 도 26c 는 (예컨대, 공간 에일리어싱 주파수에서 불량한 역전을 방지하기 위해) 정규화를 또한 포함하는 도 26a 에 도시된 것과 같은 BFNF 의 일 예를 도시한다.
도 27 은 스티어링 벡터 (어레이 매니폴드 벡터) 가 획득되는 방식이 접근방식과 상이한, 쌍별 정규화된 MVDR (minimum variance distortionless response) BFNF 의 일 예를 도시한다. 이 경우, 공통 채널은 2 개 쌍들 간에 라우드스피커의 공유로 인해 제거된다. 잡음 코히어런스 행렬
Figure 112014105131370-pct00032
은 측정에 의해 또는 사인 함수를 사용한 이론적 계산에 의해 획득될 수도 있다.
방법 (M100) 은 제스처 제어 모드에 들어가기 위한 초기 제스처 (예컨대, 쥐기, 손을 펴고 회전시키기) 및/또는 음성 명령의 인식을 포함하도록 구현될 수도 있다. 방법 (M100) 은 사용자 식별 및/또는 로케이션을 위한 얼굴 및/또는 음성 인식을 포함하도록 구현될 수도 있다. 방법 (M100) 은 (예컨대, 빔 세기, 빔 방향, 빔 폭, 동적 범위, 등에서의 변화를 디스플레이하기 위한 바 또는 다이얼과 같은) 작업 (T200) 에 의해 생성된 명령에 대하여 피드백을 제공하는 온-스크린 디스플레이 (OSD) 성능을 포함할 수도 있다.
방법 (M100) 은 마스킹 신호를 생성하는 것을 포함하도록 구현될 수도 있다. 그러한 마스킹은 예컨대, 블록킹된 사운드를 듣기 어렵게 하는 사운드-블록킹 제스처 또는 사운드를 다른 방향들로 마스킹하는 빔-포커싱 제스처와 함께 사용될 수도 있다. 마스킹 신호는 백색 잡음 또는 분홍색 잡음 신호와 같은 잡음 신호일 수도 있다. 대안적으로, 마스킹 신호는 그 주파수 피처들이 시간에 걸쳐 변화하는 잡음 신호, 예컨대 누화 잡음 신호 또는 음악 신호일 수도 있다. 그러한 대안적인 마스킹 신호의 사용은, 백색 또는 분홍색 잡음 신호 보다 주변인들을 덜 귀찮게 하고 및/또는 사용자를 덜 산만하게 할 수도 있다.
빔-포커싱 제스처에 대하여, 방법 (M100) 이 사용자의 방향이 아닌 방향들에서의 사운드 필드의 스펙트럼이 잡음과 유사하도록 (대략적으로 백색이도록) 사운드 필드를 생성하는 것이 바람직할 수도 있다. 예를 들어, 마스킹 컴포넌트의 스펙트럼이 소스 컴포넌트의 스펙트럼을 보완하는 것이 바람직할 수도 있다.
(또한 지향성일 수도 있는) 마스킹 사운드 필드의 생성을 포함하는 애플리케이션들에 대하여, 제스처는 또한 마스킹 필드의 하나 이상의 양태들 (예컨대, 마스킹 사운드 필드의 창조, 삭제, 방향 제어, 레벨 제어, 및/또는 품질 제어) 에 대한 응답과 연관될 수도 있다.
생성된 사운드 필드는 1 초과의 빔 (예컨대, 2 이상의 생성된 사운드 필드들의 중첩) 을 포함할 수도 있다. 예를 들어 방법 (M100) 의 인스턴스는 2 이상의 사용자들의 각각에 대하여 수행되며, 따라서 이들 인스턴스들에 의해 생성된 개별 멀티채널 신호들이 동일한 트랜스듀서를 구동하는데 사용될 수도 있다.
도 28a 는 오디오 출력 스테이지 (AO10), 제스처 해석기 (GI10), 커맨드 해석기 (CI10), 및 합성기 (SY10) 를 포함하는 제스처 구성에 따른 장치 (A100) 의 블록 다이어그램을 도시한다. 오디오 출력 스테이지 (AO10) 는 (예컨대, 작업 (T100) 을 참조하여 본원에서 설명된 것과 같은) 빔을 생성하도록, 지향적으로 제어가능한 트랜스듀서를 구동하도록 구성된다. 제스처 해석기 (G10) 는 (예컨대, 작업 (T200) 을 참조하여 본원에서 설명된 것과 같은) 제스처의 표현에 응답하여 커맨드를 생성하도록 구성될 수도 있다. 커맨드 해석기 (CI10) 는 (예컨대, 작업 (T300) 을 참조하여 본원에서 설명된 것과 같은) 커맨드에 응답하여 필터 구성을 생성하도록 구성된다. 합성기 (SY10) 는 공간적으로 지향성의 필터를 입력 신호에 적용하여 멀티채널 신호를 생성하도록 구성되며, 여기서 공간적으로 지향성의 필터는 (예컨대, 작업 (T400) 을 참조하여 본원에서 설명된 것과 같은) 필터 구성에 기초한다.
제스처 해석기 (GI10) 는 제스처 표현들을 본원에 설명된 것과 같은 대응하는 커맨드들과 연관시키는 표 내의 인덱스로서 제스처 표현을 사용하도록 구현될 수도 있다. 제스처 표현들 중 적어도 일부는 본원에서 설명된 것과 같은 표시된 변경을 정량화하는 파라미터 값이 동반될 수도 있다. 이하 제스처들 중 임의의 것에 대하여, 예컨대, 제스처 해석기 (GI10) 는 대응하는 커맨드의 하나 이상의 파라미터들에 대한 연관된 값을 수신하도록 구현될 수도 있다: 사운드-블록킹 제스처 -- 블록킹 지시 및/또는 감쇠 정도; 뮤팅 제스처 -- 감쇠 정도; 빔 재지향 제스처 -- 목적지 지향 및/또는 빔 폭; 빔 포커스 제스처 -- 빔 폭; 상승/하강 손 제스처 -- 감쇠 또는 증폭의 정도, 강조 또는 감쇠할 주파수 대역; 축소/확대 제스처 -- 축소 또는 확대의 정도.
장치 (A100) 는 사운드 필드가 인식된 제스처에 의해 표시된 것과 같은 2 이상의 고정된 옵션들 중으로부터 자동으로 선택된 방향으로 집중되도록, 구현될 수도 있다. 예를 들어, 장치 (A100) 는 사운드 필드가 좌측 존, 중심 존, 및 우측 존 중에서 하나에 대응하는 방향으로 집중되도록, 구현될 수도 있다. 그러한 경우, 장치 (A100) 는 각 방향이 선택되기 위한 인자들 (예컨대, 필터 계수들) 의 세트를 포함하는 필터 구성이 커맨드 해석기 (CI10) 에 의한 선택 및 합성기 (SY10) 에 의한 소스 신호로의 실시간 적용을 위해 (설계 및/또는 제조 동안) 오프라인으로 계산되도록, 구현될 수도 있다. 그러한 경우에 좌측, 중심, 및 우측 존들에 대한 대응하는 개별 방향들의 일 예는 (45, 90, 135) 도이다. 다른 예들은 (30, 90, 150) 및 (60, 90, 120) 도를 제한 없이 포함한다. 도 23a 및 도 23b 는 각각 3 개 및 5 개의 선택가능한 고정된 공간 섹터들을 갖는 방식들의 예들을 도시한다. 커맨드 해석기 (CI10) 의 그러한 일 구현은 추정된 사용자 범위에 따라 선택된 방향에 대하여 상이한 소스 빔 폭들 중에서 선택하도록 구성될 수도 있다. 예를 들어, 사용자가 (예컨대, 상이한 범위들에서의 사용자의 위치에서 유사한 빔 폭을 획득하기 위해) 어레이로부터 더 멀어질 경우, 더 좁은 빔이 선택될 수도 있다.
도 28b 는 장면 분석기 (SA10) 를 포함하는 장치 (A100) 의 일 구현 (A110) 의 블록 다이어그램을 도시한다. 장면 분석기 (SA10) 는 캡처된 장면을 분석하여 (예컨대, 작업 (TA10) 을 참조하여 본원에서 설명된 것과 같은) 제스처의 표현을 생성하도록 구성된다. 예를 들어, 장면 분석기 (SA10) 는 캡처된 장면에 하나 이상의 이미지 분석 동작들, 예컨대, 이미지 세그멘테이션, 피부 컬러 검출, 및/또는 배경 추출을 수행하고, 및/또는 비디오 시퀀스의 인접 프레임들 간에 상이한 이미지들을 계산하는 것과 같은 시간에 걸친 변경들을 검출하기 위한 하나 이상의 동작들을 수행하도록 구현될 수도 있다.
장면 분석기 (SA10) 는 분석된 장면에 하나 이상의 작업들, 예컨대 본원에서 설명된 것과 같은 피처 추출 및/또는 분류를 수행하도록 구성될 수도 있다. 장면 분석기 (SA10) 는 제스처 엘리먼트의 초기 상태와 본원에서 설명된 것과 같은 그 엘리먼트의 하나 이상의 양태들에서 시간에 걸친 변화와의 조합으로서 특정 제스처를 검출하도록 구현될 수도 있다. 장면 분석기 (SA10) 는 일 제스처를 본원에서 설명된 것과 같은 제스처 후보들의 세트 중에서 가장 가까운 것으로 분류하도록 구현될 수도 있다.
도 28c 는 (예컨대, 작업 (TC10) 을 참조하여 본원에서 설명된 것과 같은) 제스처를 포함하는 장면을 캡처하는 캡처 디바이스 (CD10) 를 포함하는 장치 (A110) 의 구현 (A120) 의 블록 다이어그램을 도시한다. 캡처 디바이스 (CD10) 는 사운드 필드가 생성되는 장면에서 시간에 걸친 변경들 (예컨대, 움직임들) 을 레코딩하도록 구성되고 배열된다. 전술된 것과 같이, 그러한 디바이스는 하나 이상의 가시광 및/또는 적외선 카메라들, 하나 이상의 초음파 프로듀서들, 및/또는 하나 이상의 구조형 광 스캐너들을 제한 없이 포함할 수도 있다. 일 예에서, 캡처 디바이스 (CD10) 는 휴대가능한 컴퓨터 (예컨대, 랩톱, 데스크톱, 노트북, 또는 태블릿 컴퓨터) 의 웹캠을 포함한다. 다른 예에서, 캡처 디바이스 (CD10) 는 스마트폰의 카메라를 포함한다.
도 28d 는 라우드스피커 어레이 (R10) 를 포함하는 장치 (A100) 의 구현 (A105) 의 블록 다이어그램을 도시한다. 이러한 예에서, 오디오 출력 스테이지 (AO10) 는 또한, 라우드스피커 어레이 (R10) (또는 다른 방향적으로 선택적인 트랜스듀서) 를 구동하기 위해, 합성기 (SY10) 에 의해 생성된 멀티채널 신호의 대응하는 채널들에 기초하여, 구동 신호들을 생성하도록 배열된다.
합성기 (SY10) 는 또한, 구동 신호들을 생성하기 위해 입력 신호에 하나 이상의 다른 오디오 프로세싱 동작들을 수행하도록 구현될 수도 있다. 그러한 동작들은 채널들 중 하나 이상 (가능하면 모두) 을 증폭 및/또는 필터링하는 것을 포함할 수도 있다. 유사하게, 상이한 주파수들에서의 어레이 응답의 차이들을 보상하기 위해 인버스 필터를 멀티채널 신호에 적용하도록 오디오 출력 스테이지 (AO10) 를 구현하고, 어레이의 다양한 라우드스피커들의 응답들 간의 차이들을 보상하도록 오디오 출력 스테이지 (AO10) 를 구현하는 것이 바람직할 수도 있다. 대안적으로 또는 부가적으로, 라우드스피커 어레이에 (및/또는 라우드스피커 어레이를 리드하는 오디오-주파수 송신 경로에) 임피던스 매칭을 제공하는 오디오 출력 스테이지 (AO10) 를 구현하는 것이 바람직할 수도 있다.
일부 제스처들에 대하여, 장치 (A100) 가 공간적으로 포커싱되는 방식으로 파라미터 (예컨대, 볼륨, 동적 범위, 및/또는 주파수 분포) 를 조정하는 것이 바람직할 수도 있다. 다른 제스처들에 대하여, 장치 (A100) 가 전체 사운드 필드에 걸쳐 그러한 파라미터를 조정하는 것이 바람직할 수도 있다. 도 23d 는 전역으로 및 로컬로 그러한 조정들을 지원하는데 사용될 수도 있는 합성기 (SY10) 의 구현 (SY20) 의 블록 다이어그램을 도시한다. 합성기 (SY20) 는 입력 오디오 신호의 하나 이상의 파라미터들 (예컨대, 볼륨, 동적 범위, 주파수 분포) 를 조정하도록 구성된 단일 채널 필터 (SCF10) 를 포함한다. 그러한 조정은 커맨드 해석기 (CI10) 에 의해 제공된 구성 (예컨대, 하나 이상의 필터 계수들) 에 따라 수행될 수도 있다. 합성기 (SY20) 는 또한, 필터 (SCF10) 에 의해 생성된 신호를 수신하는, 본원에서 설명된 것과 같은 공간적으로 지향성의 필터 (SDF10) (또는 SDF20) 의 인스턴스를 포함하며, (예컨대, 작업 (T400) 을 참조하여) 본원에 설명된 것과 같은 대응하는 멀티채널 구동 신호를 생성한다.
도 29a 는 일반적인 구성에 따른 장치 (MF100) 의 블록 다이어그램을 도시한다. 장치 (MF100) 는 (예컨대, 작업 (T100) 을 참조하여 본원에서 설명된 것과 같은) 빔을 생성하도록 지향적으로 제어가능한 트랜스듀서를 구동하는 수단 (F100) 을 포함한다. 장치 (MF100) 는 또한, (예컨대, 작업 (T200) 을 참조하여 본원에서 설명된 것과 같은) 제스처의 표현에 응답하여 커맨드를 생성하는 수단 (F200) 을 포함하며, 여기서 제스처는 빔의 방향과 빔의 폭 중에서 적어도 하나의 변경을 나타내고, 여기서 그 커맨드는 표시된 변경을 수행하는 커맨드이다. 장치 (MF100) 는 또한, (예컨대, 작업 (T300) 을 참조하여 본원에서 설명된 것과 같은) 커맨드에 응답하여 필터 구성을 생성하는 수단 (F300) 을 포함한다. 장치 (MF100) 는 또한, 공간적으로 지향성의 필터링 동작을 입력 신호에 수행하여 멀티채널 신호를 생성하는 수단 (F400) 을 포함하며, 여기서 공간적으로 지향성의 필터링 동작은 (예컨대, 작업 (T400) 을 참조하여 본원에서 설명된 것과 같은) 필터 구성에 기초한다.
도 29b 는 (예컨대, 작업 (TA10) 을 참조하여 본원에서 설명된 것과 같이) 캡처된 장면을 분석하여 제스처 표현을 생성하는 수단 (FA100) 을 포함하는 장치 (MF100) 의 구현 (MF110) 의 블록 다이어그램을 도시한다. 도 29b 는 (예컨대, 작업 (TC10) 을 참조하여 본원에서 설명된 것과 같은) 제스처를 포함하는 장면을 캡처하는 수단 (FC100) 을 포함하는 장치 (MF110) 의 구현 (MF120) 의 블록 다이어그램을 도시한다.
본원에서 설명된 원칙들이 (예컨대, 도 1c, 도1d, 및 도 30a 에 도시된 것과 같은 라우드스피커들의 균일한 선형 어레이와 함께 사용하도록 제한되지 않는 것에 명확히 유의하여야 한다. 예를 들어, 지향성 마스킹은 또한, 인접하는 라우드스피커들 간에 불균일한 간격을 갖는 선형 어레이와 함께 사용될 수도 있다. 도 30b 는 라우드스피커들 간의 대칭적인 옥타브 간격을 갖는 그러한 어레이의 일 예를 도시하고, 도 30c 는 비대칭적인 옥타브 간격을 갖는 그러한 어레이의 다른 예를 도시한다. 부가적으로, 그러한 원칙들은 (예컨대, 도 30d 에 도시된 것과 같이) 균일한 간격을 가지는지, 아니면 불균일한 (예컨대, 옥타브) 간격을 가지는지에 따라, 선형 어레이들과 함께 사용하도록 제한되는 것은 아니고, 또한 그 엘리먼트들이 단일 곡선을 따라 배열되는 어레이들과 함께 사용될 수도 있다. 본원에서 언급된 동일한 원칙들은 동일하거나 상이한 (예컨대, 직교하는) 직선 또는 곡선 축들을 따라 다수의 어레이들을 갖는 애플리케이션들에서 각 어레이에 개별적으로 적용한다.
도 31b 는 장치 (A100) 의 구현에 의해 구동될 라우드스피커들 (LSL10-LSR10) 의 어레이의 일 예를 도시한다. 이러한 예에서, 어레이는 디스플레이 디바이스 (TV10) (예컨대, 텔레비전 또는 컴퓨터 모니터) 에서 디스플레이 스크린 (SC20) 밑에 배열된다. 도 31c 는 그러한 디스플레이 디바이스 (TV20) 에서 디스플레이 스크린 (SC20) 의 일 측상의 어레이 (LSL10-LSR10) 의 일 예를 도시한다. 도 31a 는 장치 (A100) 의 구현에 의해 구동된 3 개의 라우드스피커들 (LS10, LS20, LS30) 의 어레이를 포함하는 랩톱 컴퓨터 (D710) 를 도시한다. 도 31a 에 도시된 것과 같은 랩톱 컴퓨터 (D710) 는 또한, (예컨대, 하부 패널 (PL20) 에서의 키보드 뒤에 및/또는 옆에 및/또는 상부 패널 (PL10) 에서의 디스플레이 스크린 (SC10) 의 가장자리에서) 그러한 어레이를 포함하도록 구성될 수도 있다. 그러한 라우드스피커 어레이는 또한, 하나 이상의 개별적인 캐비닛들에 밀폐되거나 자동차와 같은 차량의 내부에 설치될 수도 있다.
선형 어레이의 예에서, 정면 방향에서 0 도로 지향된 메인 빔은 또한 후면 방향에서 (예컨대, 180 도에서) 청취가능할 것이 예상될 수도 있다. 라우드스피커들 또는 마이크로폰들의 선형 어레이의 컨텍스트에서 공통적인 그러한 현상은 또한, "난신호 원뿔구역 (cone of confusion)" 문제로 지칭된다.
180 도 범위에서 지향성 사운드 필드 생성의 특정 예들이 도시되지만, 본원에서 설명된 원칙들은 (예컨대, 2 차원에서의) 평면에서 임의의 원하는 각도 범위에 걸쳐 지향성을 제공하도록 확대될 수도 있다. 그러한 확대는 적절히 이격된 라우드스피커들의 어레이에의 부가를 포함할 수도 있다. 예를 들어, 전-후면 방향에서 또한 마스킹하기 위해 전-후면 어레이를 제공하도록 라우드스피커들을 어레이에 부가하는 것이 바람직할 수도 있다. 도 32a 및 도 32b 는 그러한 확장된 어레이의 2 개의 예들 (RL200 및 RL250) 각각의 상면도들을 도시한다.
그러한 원칙들은 또한 공간 (3D) 에서 임의의 원하는 각도 범위에 걸쳐 지향성 마스킹을 제공하도록 확대될 수도 있다. 도 32c 및 도 33 은 좌-우 및 상-하 양자의 방향들에서 지향성 마스킹을 제공하는데 사용될 수도 있는, 2 개의 어레이들 (RL300 및 RL400) 각각의 정면도들을 도시한다. 추가의 예들은 (예컨대, 4*파이 라디안들의 완전한 프라이버시 존을 위해) 360 도까지의 범위에서 지향성 마스킹을 위한 구형의 또는 다른 3D 어레이들을 포함한다.
빔형성 기술들이 광대역 신호들에 대한 공간 패턴들을 생성하는데 이용될 경우, 트랜스듀서 어레이 지오메트리의 선택은 저 주파수와 고 주파수 간의 트레이드-오프를 수반한다. 빔형성기에 의해 저 주파수들의 직접적인 핸들링을 향상시키기 위해, 더 큰 라우드스피커 간격이 선호된다. 동시에, 라우드스피커들 간의 간격이 매우 크다면, 고 주파수들에서 원하는 효과들을 복제하는 어레이의 능력은 더 낮은 에일리어싱 임계치에 의해 제한될 것이다. 공간 에일리어싱을 회피하기 위해, 어레이에 의해 복제될 최고 주파수 컴포넌트의 파장은 인접하는 라우드스피커들 간의 거리의 2 배 보다 커야만 한다.
소비자 디바이스들이 더 작아질수록, 폼팩터는 라우드스피커 어레이들의 배치를 제한할 수도 있다. 예를 들어, 랩톱, 넷북, 또는 태블릿 컴퓨터 또는 고해상도 비디오 디스플레이가 내장형 라우드스피커 어레이를 가지게 하는 것이 바람직할 수도 있다. 사이즈 제한들로 인해, 라우드스피커들은 작고, 원하는 베이스 영역을 재생하지 못할 수도 있다. 대안적으로, 베이스 영역을 재생하기에 충분히 큰 증가된 원뿔 거리를 갖는 라우드스피커들이 사용될 수도 있다. 그러나, 소형 폼-팩터 디바이스에서, 그러한 물리적으로 더 큰 라우드스피커들은 저 주파수들에서 빔형성 또는 다른 음향 이미징을 지원하도록 매우 인접하게 이격될 수도 있다. 부가적으로, 이들 더 큰 라우드스피커들의 증가된 원뿔 거리는 실제로 고 주파수 컨텐츠에 대한 빔 형성 품질을 감소시킬 수도 있다. 따라서, 빔 형성이 채용되는 인접하는 간격의 라우드스피커 어레이에서 베이스 신호를 생성하기 위해 프로세싱을 제공하는 것이 바람직할 수도 있다.
신호의 더 높은 고조파들을 청취하는 것이 손실된 핵심을 청취하는 것 같은 지각적 착각을 생성할 수도 있는 음향심리학적 현상이 존재한다. 따라서, 소형 라우드스피커들로부터 베이스 컴포넌트들의 감각을 달성하는 하나의 방식은, 베이스 컴포넌트들로부터 더 높은 고조파들을 생성하고, 실제 베이스 컴포넌트들 대신 고조파들을 재생하는 것이다. (또한 "음향심리학적 베이스 향상" 또는 PBE 라 불리는) 실제의 저주파수 신호 존재 없이 베이스의 음향심리학적 감각을 달성하기 위해 더 높은 고조파들을 대체하기 위한 알고리즘들의 설명은, 예컨대 (1999 년 7 월 27 일에 특허된) 미국 특허 제 5,930,373 호 (Shashoua 등) 및 미국 공개 특허 출원들, (2006 년 7 월 20 일에 공개된) 제 2006/0159283 A1 호 (Mathew 등), (2009 년 1 월 11 일에 공개된) 제 2009/0147963 A1 호 (Smith), 및 (2010 년 1 월 24 일에 공개된 제 2010/0158272 A1 (Vickers) 에서 발견될 수도 있다. 그러한 향상은 특히, 통합된 라우드스피커 또는 라우드스피커들이 물리적으로 작도록 제한하는 폼팩터들을 갖는 디바이스들로 저 주파수 사운드들을 재생하는데 유용할 수도 있다.
도 34 는 PBE 프로세싱 이전 및 이후에 음악 신호의 주파수 스펙트럼의 일 예를 도시한다. 상기 도면에서, 배경 (흑색) 영역 및 약 200 내지 500 Hz 에서 볼 수 있는 라인은 원래의 신호를 나타내고, 전경 (백색) 영역은 향상된 신호를 나타낸다. (예컨대, 200 Hz 미만의) 저 주파수 대역에서, PBE 동작은 실제 베이스의 약 10 dB 를 감쇠시키는 것으로 보여질 수도 있다. 그러나, 약 200 Hz 내지 600Hz 로부터 향상된 더 높은 고조파들로 인해, 향상된 음악 신호가 소형 스피커를 사용하여 재생될 경우, 원래의 신호보다 더 많은 베이스를 가지는 것으로 여겨진다.
저 주파수 재형성 한계들의 영향을 감소시킬 뿐만 아니라, 저 주파수들에서 지향성 손실의 영향을 감소시키기 위해 PBE 를 적용하는 것이 바람직할 수도 있다. 예를 들어, 빔형성기에 의해 스티어링 가능한 범위에서 저 주파수 콘텐츠의 인지를 생성하기 위해 PBE 를 빔형성과 결합하는 것이 바람직할 수도 있다. 향상된 신호로부터 지향성 빔들을 생성하기 위한 라우드스피커 어레이의 사용은, 그러한 향상없이 오디오 신호로부터의 출력보다 훨씬 낮은 인지된 주파수 범위를 갖는 출력을 발생한다. 부가적으로, 아티펙트들 및/또는 계산적 복잡도의 감소를 지원하고 소형 라우드스피커들의 어레이들로 베이스 컴포넌트들의 더 효율적인 스티어링을 허용하는 향상된 신호를 스티어링하기 위해 더 완화된 빔형성기 설계를 이용하는 것이 가능하게 된다. 동시에, 그러한 시스템은 저 주파수 신호들에 의한 손상 (예컨대, 럼블) 로부터 소형 라우드스피커들을 보호할 수 있다. 본원에서 설명된 것과 같은 제스처 사운드 필드 제어와 결합될 수도 있는 그러한 향상 기술들의 추가의 설명은, 2012 년 1 월 26 일에 공개된 "SYSTEMS, METHODS, AND APPARATUS FOR ENHANCED ACOUSTIC IMAGING" 라는 명칭의 미국 공개 특허 출원 번호 제 2012/0020480 A1 호 (Visser 등) 에서 발견될 수도 있다.
본원에 개시된 방법들 및 장치들은, 그러한 애플리케이션들의 모바일의 또는 그렇지 않으면 휴대용의 인스턴스들 및/또는 원거리장 소스들로부터 신호의 컴포넌트들의 감지를 포함하여, 임의의 송수신용 및/또는 오디오 감지용 애플리케이션에서 일반적으로 적용될 수도 있다. 예를 들어, 본원에 개시된 구성들의 범위는, 코드 분할 다중 액세스 (CDMA) 공중 경유 인터페이스를 채용하도록 구성된 무선 전화 통신 시스템에 상주하는 통신 디바이스들을 포함한다. 그러나, 본원에서 설명된 것과 같은 피처들을 갖는 방법 및 장치가 당업자에게 알려진 광범위의 기술들을 채용하는 다양한 통신 시스템들, 예컨대 유선 및/또는 무선의 (예컨대, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA) 송신 채널들에 VoIP (Voice over IP) 를 채용하는 시스템들 중 임의의 시스템에 상주할 수도 있는 것이 당업자에 의해 이해될 것이다.
본원에 개시된 통신 디바이스들은 패킷 교환식 (예컨대, VoIP 와 같은 프로토콜들에 따른 오디오 송신들을 전달하도록 배열된 유선 및/또는 무선 네트워크들) 및/또는 회선 교환식인 네트워크들에서 사용하기 위해 적응될 수도 있는 것이 명백히 고려되고 따라서 개시된다. 본원에 개시된 통신 디바이스들이 협대역 코딩 시스템들 (예컨대, 약 4 또는 5 킬로헤르츠의 오디오 주파수 범위를 인코딩하는 시스템들) 에서 사용을 위해 및/또는 전체 대역의 광대역 코딩 시스템들과 분할 대역의 광대역 코딩시스템들을 포함하여 광대역 코딩 시스템들 (예컨대, 5 킬로헤르츠 초과의 오디오 주파수들을 인코딩하는 시스템들) 에서 사용하기 위해 적응될 수도 있는 것이 명백히 고려되고 따라서 개시된다.
설명된 구성들의 전술한 제시는 당업자가 본원에 개시된 방법들 및 다른 구조들을 형성하거나 사용할 수 있도록 제공된다. 본원에서 도시되고 설명된 플로우차트들, 블록 다이어그램들, 및 다른 구조들은 오직 예들이고, 이들 구조들의 다른 변형들이 또한 본 개시물의 범위 내에 있다. 이들 구성들에 대한 다양한 변경들이 가능하며, 본원에서 제시된 일반적인 원리들은 다른 구성들에도 적용될 수도 있다. 따라서, 본 개시는 앞서 도시된 구성들에 한정되도록 의도되는 것이 아니라, 오히려 본 개시물의 일부를 형성하는 첨부된 청구항들에 포함하여 본 명세서에 임의의 방식으로 개시된 원리들 및 신규한 특징들과 부합하는 최광의 범위에 따르도록 의도된다.
당업자라면, 정보 및 신호들이 임의의 다양한 상이한 기술들 및 기법들을 사용하여 표현될 수도 있음을 이해할 것이다. 예를 들면, 상기 설명 전체에서 참조될 수도 있는 데이터, 명령들, 커맨드들, 정보, 신호들, 비트들, 및 심볼들은 전압들, 전류들, 전자기파들, 자기장들 또는 자기 입자들, 광학 필드들 또는 입자들, 이들의 임의의 조합에 의해 표현될 수도 있다.
본원에 개시된 것과 같은 구성의 구현을 위한 중요한 설계 요건들은, 특히 압축된 오디오 또는 시청각 정보 (예컨대, 본원에서 확인되는 예들 중 하나와 같은, 압축 포맷에 따라 인코딩된 파일 또는 스트림) 의 재생 또는 광대역 통신들 (예컨대, 12, 16, 32, 44.1, 48, 또는 192 kHz 와 같이 8 킬로헤르츠보다 높은 샘플링 레이트의 음성 통신들) 에 대한 애플리케이션들을 위해 (통상적으로 초당 수백만 명령들 또는 MIPS 로 측정되는) 프로세싱 지연 및/또는 계산 복잡도를 최소화하는 것을 포함할 수도 있다.
본원에 개시된 것과 같은 장치 (예컨대, 장치 (A100, A105, A110, A120, MF100, MF110, 및 MF120)) 는 의도된 출원에 적합한 것으로 간주되는, 하드웨어와 소프트웨어의 및/또는 하드웨어와 펌웨어의 임의의 조합으로 구현될 수도 있다. 예를 들어, 그러한 장치의 엘리먼트들은 예컨대, 동일한 칩 상에 또는 칩 세트의 2 이상의 칩들 중에 상주하는 전자 및/또는 광학 디바이스들로서 제작될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정되거나 프로그램가능한 어레이이고, 이들 엘리먼트들 중 어떤 것도 하나 이상의 그러한 어레이들로서 구현될 수도 있다. 그 장치의 엘리먼트들 중 임의의 2 이상 또는 심지어 모든 엘리먼트들은 동일한 어레이 또는 어레이들 내에 구현될 수도 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩들 내에 (예컨대, 2 이상의 칩들을 포함하는 칩 세트 내에) 구현될 수도 있다.
본원에 개시된 장치의 다양한 구현들 중 하나 이상의 엘리먼트들은 또한, 마이크로프로세서들, 내장된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들 (field-programmable gate arrays), ASSP들 (application-specific standard products), 및 ASIC들 (application-specific integrated circuits) 과 같은 로직 엘리먼트들의 하나 이상의 고정되거나 프로그램가능한 어레이들을 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다. 본원에 개시된 것과 같은 장치의 일 구현의 다양한 엘리먼트들 중 임의의 것은 또한, 하나 이상의 컴퓨터들 (예컨대, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들, 또한 "프로세서들" 로 불림) 로서 구현될 수도 있고, 이들 엘리먼트들 중 임의의 2 이상의 또는 심지어 모든 엘리먼트들은 동일한 컴퓨터 또는 컴퓨터들 내에 구현될 수도 있다.
본원에 개시된 것과 같은 프로세서 또는 다른 프로세싱 수단은 예컨대, 칩 세트 내의 2 이상의 칩들 중에서 또는 동일한 칩 상에 상주하는 하나 이상의 전자 및/또는 광학 디바이스들로서 제작될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정되거나 프로그램가능한 어레이이고, 이들 엘리먼트들 중 어떤 것도 하나 이상의 그러한 어레이들로서 구현될 수도 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩들 내에 (예컨대, 2 이상의 칩들을 포함하는 칩 세트 내에) 구현될 수도 있다. 그러한 어레이들의 예들은, 마이크로프로세서들, 내장형 프로세서들, IP 코어들, DSP들, FPGA들, ASSP들 및 ASIC들과 같은 로직 엘리먼트들의 고정되거나 프로그램가능한 어레이들을 포함한다. 본원에 개시된 것과 같은 프로세서 또는 다른 프로세싱 수단은 또한, 하나 이상의 컴퓨터들 (예컨대, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 구현될 수도 있다. 본원에서 설명된 것과 같은 프로세서가 내장된 디바이스 또는 시스템 (예컨대, 오디오 감지 디바이스) 의 다른 동작과 관련된 작업과 같이, 본원에서 설명된 것과 같은 제스처 제어 절차와 직접적으로 관련되지 않은 명령들의 다른 세트들을 실행하거나 작업들을 수행하는데 사용되는 것이 가능하다. 본원에 개시된 것과 같은 방법의 일부가 오디오 감지 디바이스의 프로세서에 의해 수행되고, 그 방법의 다른 부분이 하나 이상의 다른 프로세서들의 제어 하에 수행되는 것이 또한 가능하다.
당업자는 본 명세서에 개시된 양태와 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 회로들, 및 테스트들 및 다른 동작들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들 양자의 조합으로서 구현될 수도 있음을 인식할 것이다. 그러한 모듈들, 로직 블록들, 회로들 및 동작들은 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그램가능한 로직 디바이스, 별개의 게이트 또는 트랜지스터 로직, 별개의 하드웨어 컴포넌트들, 또는 본원에 개시된 것과 같은 구성을 생성하도록 설계된 이들의 임의의 조합으로 구현 또는 수행될 수도 있다. 예를 들어, 그러한 구성은 적어도 부분적으로 하드-와이어 회로로서, 주문형 반도체 회로 내에 제작된 회로 구성으로서, 또는 비휘발성 스토리지 내에 로딩된 펌웨어 프로그램 또는 머신 판독가능 코드로서 데이터 저장 매체로부터 로딩되거나 데이터 저장 매체 내에 로딩된 소프트웨어 프로그램으로서 구현될 수도 있으며, 그러한 코드는 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 다르게는, 상기 프로세서는 임의의 종래의 프로세서, 컨트롤러, 마이크로컨트롤러, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들면, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성들로서 구현될 수도 있다. 소프트웨어 모듈은 RAM (randdom-access memory), ROM(read-only memory), 플래시 RAM 과 같은 비휘발성 RAM (NVRAM), EPROM (erasable Programmable ROM), EEPROM (electrically erasable erogrammable ROM), 레지스터들, 하드 디스크, 착탈가능 디스크, CD-ROM, 또는 업계에 알려진 저장 매체 내에 상주할 수도 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있도록 프로세서에 커플링된다. 대안에서, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 ASIC 내에 상주할 수도 있다. ASIC는 사용자 단말에 상주할 수도 있다. 대안에서, 프로세서와 저장 매체는 별개의 컴포넌트로서 사용자 단말에 상주할 수도 있다.
본원에 개시된 다양한 방법들 (예컨대, 방법들 (M100, M110, M120) 및 그 구현들) 은 프로세스와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있고, 본원에 설명된 것과 같은 장치의 다양한 엘리먼트들은 그러한 어레이 상에 실행하도록 설계된 모듈들로서 구현될 수도 있음에 유의한다. 본원에서 사용되는 것과 같이, 용어 "모듈" 또는 "서브-모듈" 는 소프트웨어, 하드웨어 또는 펌웨어 형태로 컴퓨터 명령들 (예컨대, 논리적 표현들) 을 포함하는 컴퓨터 판독가능 데이터 저장 매체 또는 임의의 방법, 장치, 디바이스, 유닛을 지칭할 수 있다. 다수의 모듈들 또는 시스템들은 하나의 모듈 또는 시스템으로 결합될 수 있고, 하나의 모듈 또는 시스템은 동일한 기능들을 수행하도록 다수의 모듈들 또는 시스템들로 분리될 수 있다. 소프트웨어 또는 다른 컴퓨터 실행가능 명령들로 구현될 경우, 프로세스의 엘리먼트들은 본질적으로, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들, 등등을 수행하는 코드 세그먼트들이다. 용어 "소프트웨어" 는 소스 코드, 어셈블리 언어 코드, 머신 코드, 바이너리 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 그러한 예들의 임의의 조합을 포함하는 것으로 이해되어야만 한다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능 저장 매체에 저장되거나, 송신 매체 또는 통신 링크를 통해 캐리어파로 구현된 컴퓨터 데이터 신호에 의해 송신될 수도 있다.
본원에 개시된 방법들, 방식들 및 기술들의 구현들은 또한, (예를 들어, 본원에 열거된 것과 같은 하나 이상의 컴퓨터 판독가능 매체에서) 로직 엘리먼트들 (예컨대, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신에 의해 판독가능하고 및/또는 실행가능한 명령들의 하나 이상의 세트들로서 명백히 구현될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 휘발성, 비휘발성, 탈착가능 및 탈착 불가능 매체를 포함하여, 정보를 저장 또는 전달할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터 판독가능 매체의 예들은, 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능한 ROM (EROM), 플로피 디스켓 또는 다른 자기 스토리지, CD-ROM/DVD 또는 다른 광학 스토리지, 하드 디스크, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 저장하는데 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광섬유들, 공기, 전자기, RF 링크들 등과 같은 송신 매체를 통해 전파할 수도 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로딩될 수도 있다. 임의의 경우에, 본 개시물의 범위는 그러한 실시형태들에 의해 제한되는 것으로 해석되어서는 안 된다.
본원에서 설명된 방법들의 작업들의 각각은 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들 양자의 조합에서 직접적으로 구현될 수도 있다. 본원에 개시된 것과 같은 방법의 구현의 전형적인 애플리케이션에서, 로직 엘리먼트들 (예컨대, 로직 게이트들) 의 어레이는 그 방법의 다양한 작업들 중 1, 1 초과, 또는 전체를 수행하도록 구성된다. 그 작업들 중 하나 이상 (가능하면 전부) 는 또한, 코드 (예컨대, 명령들의 하나 이상의 세트들) 로서 구현되고, 즉 로직 엘리먼트들 (예컨대, 프로세서, 마이크로프로세서, 마이크로 제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신 (예컨대, 컴퓨터) 에 의해 판독가능한 및/또는 실행가능한 컴퓨터 프로그램 제품 (예컨대, 디스크들, 플래시 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등등) 에서 구현될 수도 있다. 본원에 개시된 것과 같은 방법의 구현의 작업들은 또한, 1 초과의 어레이 또는 머신에 의해 수행될 수도 있다. 이들 또는 다른 구현들에서, 작업들은 그러한 통신 능력을 갖는 다른 디바이스 또는 셀룰러 전화기와 같은 무선 통신용 디바이스 내에서 수행될 수도 있다. 그러한 디바이스는 (예컨대, VoIP 와 같은 하나 이상의 프로토콜들을 사용하여) 회선 교환식 및/또는 패킷 교환식 네트워크들과 통신하도록 구성될 수도 있다. 예를 들어, 그러한 디바이스는 인코딩된 프레임들을 수신 및/또는 송신하도록 구성된 RF 회로를 포함할 수도 있다.
본원에 개시된 다양한 방법들은 핸드셋, 헤드셋, 또는 PDA (portable digital assistant) 와 같은 휴대용 통신 디바이스에 의해 수행될 수도 있으며, 본 명세서에서 설명된 다양한 장치는 그러한 디바이스 내에 포함될 수도 있음이 명백하게 개시된다. 통상의 실시간 (예컨대, 온라인) 애플리케이션은 그러한 모바일 디바이스를 사용하여 수행되는 전화 컨버전이다.
하나 이상의 예시적인 실시형태들에 있어서, 본원에서 설명된 동작들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합에서 구현될 수도 있다. 소프트웨어에서 구현될 경우, 그러한 동작들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체에 저장되거나 컴퓨터 판독가능 매체를 통해 송신될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 컴퓨터 판독가능 저장 매체와 통신 (예컨대, 송신) 매체 양자를 포함한다. 제한이 아닌 예로서, 컴퓨터 판독가능 저장 매체는 (동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래시 RAM 을 제한 없이 포함할 수도 있는) 반도체 메모리 또는 강유전성, 자기 저항성, 오보닉, 중합 또는 위상 변경 메모리 와 같은 저장 엘리먼트들의 어레이; CD-ROM 또는 다른 광학 디스크 스토리지; 및/또는 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들을 포함할 수 있다. 그러한 저장 매체는 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 정보를 저장할 수도 있다. 통신 매체는 일 장소에서 다른 장소로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하여, 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 전달하는데 사용될 수 도 있고 컴퓨터에 액세스될 수 있는 임의의 매체를 포함할 수 있다. 또한, 임의의 접속물이 컴퓨터 판독가능 매체로 적절히 지칭된다. 예를 들면, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술은 매체의 정의 내에 포함된다. 본원에서 이용된 디스크 (disk) 와 디스크 (disc) 는, 콤팩트디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크, 및 블루레이 디스크™ (Blu-Ray Disc Association, Universal City, CA) 를 포함하며, 여기서 디스크 (disk) 들은 통상 자기적으로 데이터를 재생하는 반면, 디스크 (disc) 들은 레이저들을 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
본원에서 설명된 것과 같은 음향 신호 프로세싱 장치 (예컨대, 장치 (A100, A105, A110, A120, MF100, MF110, 또는 MF120)) 는 특정 동작들을 제어하기 위해 스피치 입력을 수용하는 전자 디바이스 내에 통합될 수도 있거나, 통신 디바이스들과 같이 배경 잡음들로부터 원하는 잡음들을 구분하는데 있어 유리할 수도 있다. 다수의 애플리케이션들은 다수의 지시들로부터 발신하는 배경 사운드들로부터 명확한 원하는 사운드를 구분하거나 향상시키는데 있어 유리할 수도 있다. 그러한 애플리케이션들은 음성 인식 및 검출, 스피치 향상 및 구분, 음성-활성화 제어, 등등과 같은 능력들을 통합하는 전자 또는 컴퓨팅 디바이스들에서 인간-머신 간 인터페이스들을 포함할 수도 있다. 오직 제한된 프로세싱 능력들만을 제공하는 디바이스들에 적합하도록 그러한 음향 신호 프로세싱 장치를 구현하는 것이 바람직할 수도 있다.
본원에서 설명된 모듈들, 엘리먼트들, 및 디바이스들의 다양한 구현들의 엘리먼트들은, 예컨대 동일한 칩 상에 또는 칩세트 내의 2 이상의 칩들 중에 상주하는 전자 및/또는 광학 디바이스들로서 제작될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 게이트들과 같은 로직 엘리먼트들의 고정되거나 프로그램가능한 어레이이다. 본원에서 설명된 장치의 다양한 구현들 중 하나 이상의 엘리먼트들은 또한, 마이크로프로세서들, 내장된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들, ASSP들, 및 ASIC들과 같은 로직 엘리먼트들의 하나 이상의 고정되거나 프로그램가능한 어레이들을 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다.
본원에서 설명된 것과 같은 장치의 일 구현의 하나 이상의 엘리먼트들이 그 장치의 동작과 직접 관련되지 않은 작업들을 수행하거나 다른 명령 세트들을 실행하는데 사용되는 것이 가능하며, 그러한 작업은 그 장치가 내장된 디바이스 또는 시스템의 다른 동작과 관련된다. 그러한 장치의 일 구현의 하나 이상의 엘리먼트들이 공통의 구조 (예컨대, 상이한 시간에 상이한 엘리먼트들에 대응하는 코드의 부분들을 실행하는데 사용된 프로세서, 상이한 시간에 상이한 엘리먼트들에 대응하는 작업들을 수행하도록 실행된 명령들의 세트, 또는 상이한 시간에 상이한 엘리먼트들에 대한 동작 등을 수행하는 전자 및/또는 광학 디바이스들의 배열체) 를 가지는 것이 또한 가능하다.

Claims (44)

  1. 신호 프로세싱 방법으로서,
    카메라를 사용하여 손 제스처의 표현을 검출하는 단계;
    상기 손 제스처의 표현에 응답하여 커맨드를 생성하는 단계;
    상기 커맨드에 응답하여 공간적으로 지향성의 필터를 위한 필터 구성을 생성하는 단계;
    멀티채널 신호에 상기 공간적으로 지향성의 필터를 적용하여 빔의 폭의 변경을 생성하는 단계; 및
    상기 빔을 포함하는 사운드 필드를 생성하도록 상기 멀티채널 신호로 지향적으로 제어 가능한 트랜스듀서의 어레이를 구동하는 단계를 포함하는, 신호 프로세싱 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 커맨드를 생성하는 단계는,
    상기 빔의 폭을 증가시키는 커맨드 및 상기 빔의 폭을 감소시키는 커맨드
    를 포함하는 복수의 커맨드들 중으로부터, 상기 표현으로부터의 정보에 기초하여 상기 커맨드를 선택하는 단계를 포함하는, 신호 프로세싱 방법.
  4. 제 1 항에 있어서,
    상기 필터 구성을 생성하는 것은, 상기 빔의 현재 방향과 상기 빔의 현재 폭 중에서 적어도 하나의 표시에 기초하는, 및/또는 사용자의 현재 위치의 표시에 기초하는, 신호 프로세싱 방법.
  5. 제 1 항에 있어서,
    상기 필터 구성을 생성하는 것은, 복수의 필터 구성들 중으로부터 상기 커맨드에 따라 상기 필터 구성을 선택하는 것을 포함하는, 신호 프로세싱 방법.
  6. 제 5 항에 있어서,
    상기 복수의 필터 구성들 중에서 제 1 필터 구성은 상기 복수의 필터 구성들 중에서 제 2 필터 구성과는 상이한, 상기 공간적으로 지향성의 필터의 출력 채널들 중에서의 위상 관계를 설명하는, 신호 프로세싱 방법.
  7. 제 1 항에 있어서,
    상기 손 제스처의 표현은 상기 사운드 필드 내에서 상기 손 제스처를 수행하는 사용자의 이미지들의 시퀀스에 기초하는, 신호 프로세싱 방법.
  8. 제 7 항에 있어서,
    상기 이미지들의 시퀀스는 상기 사용자의 손 위에 투영된 광 패턴의 이미지들을 포함하는, 신호 프로세싱 방법.
  9. 제 1 항에 있어서,
    상기 손 제스처는,
    사용자의 손의 측면 움직임,
    사용자의 손의 쥐는 모션,
    사용자의 양 손의 서로를 향하는 움직임,
    사용자의 양 손의 서로에 대하여 멀어지는 움직임, 및/또는
    사용자의 양 손의 동일한 측면 방향에서의 움직임
    을 포함하는, 신호 프로세싱 방법.
  10. 신호 프로세싱 장치로서,
    적어도 하나의 이미지를 사용하여 손 제스처의 표현을 검출하는 수단;
    상기 손 제스처의 표현에 응답하여 커맨드를 생성하는 수단;
    상기 커맨드에 응답하여 공간적으로 지향성의 필터를 위한 필터 구성을 생성하는 수단;
    멀티채널 신호에 상기 공간적으로 지향성의 필터를 적용하여 빔의 폭의 변경을 생성하는 수단; 및
    상기 빔을 포함하는 사운드 필드를 생성하도록 상기 멀티채널 신호로 지향적으로 제어 가능한 트랜스듀서의 어레이를 구동하는 수단을 포함하는, 신호 프로세싱 장치.
  11. 삭제
  12. 제 10 항에 있어서,
    상기 커맨드를 생성하는 수단은,
    상기 빔의 폭을 증가시키는 커맨드 및 상기 빔의 폭을 감소시키는 커맨드
    를 포함하는 복수의 커맨드들 중으로부터, 상기 표현으로부터의 정보에 기초하여 상기 커맨드를 선택하는 수단을 포함하는, 신호 프로세싱 장치.
  13. 제 10 항에 있어서,
    상기 필터 구성을 생성하는 수단은, 상기 빔의 현재 방향과 상기 빔의 현재 폭 중에서 적어도 하나의 표시에 기초하여, 및/또는 사용자의 현재 위치의 표시에 기초하여 상기 필터 구성을 생성하도록 구성되는, 신호 프로세싱 장치.
  14. 제 10 항, 제 12 항, 및 제 13 항 중 어느 한 항에 있어서,
    상기 손 제스처는,
    사용자의 손의 측면 움직임,
    사용자의 손의 쥐는 모션,
    사용자의 양 손의 서로를 향하는 움직임,
    사용자의 양 손의 서로에 대하여 멀어지는 움직임, 및/또는
    사용자의 양 손의 동일한 측면 방향에서의 움직임
    을 포함하는, 신호 프로세싱 장치.
  15. 유형의 피처들을 갖는 컴퓨터 판독가능 저장 매체로서,
    상기 유형의 피처들은, 상기 피처들을 판독하는 머신으로 하여금, 제 1 항, 제 3 항 내지 제 9 항 중 어느 한 항에 기재된 신호 프로세싱 방법을 수행하게 하는, 컴퓨터 판독가능 저장 매체.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
KR1020147030763A 2012-04-02 2013-03-20 사운드 필드의 제스처 조종을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들 KR101797804B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261619202P 2012-04-02 2012-04-02
US61/619,202 2012-04-02
US13/775,720 US10448161B2 (en) 2012-04-02 2013-02-25 Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US13/775,720 2013-02-25
PCT/US2013/033082 WO2013151789A1 (en) 2012-04-02 2013-03-20 Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field

Publications (2)

Publication Number Publication Date
KR20150002736A KR20150002736A (ko) 2015-01-07
KR101797804B1 true KR101797804B1 (ko) 2017-11-15

Family

ID=49235047

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147030763A KR101797804B1 (ko) 2012-04-02 2013-03-20 사운드 필드의 제스처 조종을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들

Country Status (7)

Country Link
US (3) US10448161B2 (ko)
EP (1) EP2834996B1 (ko)
JP (1) JP6193349B2 (ko)
KR (1) KR101797804B1 (ko)
CN (2) CN104247456B (ko)
IN (1) IN2014MN01835A (ko)
WO (1) WO2013151789A1 (ko)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140310379A1 (en) * 2013-04-15 2014-10-16 Flextronics Ap, Llc Vehicle initiated communications with third parties via virtual personality
US10448161B2 (en) 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US9201585B1 (en) * 2012-09-17 2015-12-01 Amazon Technologies, Inc. User interface navigation gestures
US9743201B1 (en) * 2013-03-14 2017-08-22 Apple Inc. Loudspeaker array protection management
US20150029112A1 (en) * 2013-07-26 2015-01-29 Nxp B.V. Touch sensor
US11921471B2 (en) 2013-08-16 2024-03-05 Meta Platforms Technologies, Llc Systems, articles, and methods for wearable devices having secondary power sources in links of a band for providing secondary power in addition to a primary power source
US20150124566A1 (en) 2013-10-04 2015-05-07 Thalmic Labs Inc. Systems, articles and methods for wearable electronic devices employing contact sensors
US10188309B2 (en) 2013-11-27 2019-01-29 North Inc. Systems, articles, and methods for electromyography sensors
DE102013224131A1 (de) * 2013-11-26 2015-05-28 Volkswagen Aktiengesellschaft Fahrzeug mit einer Vorrichtung und Verfahren zur Beschallung eines Innenraums des Fahrzeugs
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
JP6553052B2 (ja) * 2014-01-03 2019-07-31 ハーマン インターナショナル インダストリーズ インコーポレイテッド ジェスチャ相互作用式の装着可能な空間オーディオシステム
US9516412B2 (en) 2014-03-28 2016-12-06 Panasonic Intellectual Property Management Co., Ltd. Directivity control apparatus, directivity control method, storage medium and directivity control system
EP2928206B1 (en) * 2014-03-31 2017-08-30 Panasonic Corporation Directivity control apparatus, directivity control method, storage medium and directivity control system
DE102015203600B4 (de) 2014-08-22 2021-10-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. FIR-Filterkoeffizientenberechnung für Beamforming-Filter
US20160162255A1 (en) * 2014-12-04 2016-06-09 Kabushiki Kaisha Toshiba Electronic device
EP3065043A1 (en) * 2015-03-02 2016-09-07 Nxp B.V. Mobile device
US11003246B2 (en) * 2015-07-22 2021-05-11 Mentor Acquisition One, Llc External user interface for head worn computing
EP3188505B1 (en) * 2016-01-04 2020-04-01 Harman Becker Automotive Systems GmbH Sound reproduction for a multiplicity of listeners
JP6905824B2 (ja) * 2016-01-04 2021-07-21 ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー 非常に多数のリスナのための音響再生
EP3188504B1 (en) 2016-01-04 2020-07-29 Harman Becker Automotive Systems GmbH Multi-media reproduction for a multiplicity of recipients
US9905244B2 (en) * 2016-02-02 2018-02-27 Ebay Inc. Personalized, real-time audio processing
WO2017139473A1 (en) 2016-02-09 2017-08-17 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals
US10492000B2 (en) * 2016-04-08 2019-11-26 Google Llc Cylindrical microphone array for efficient recording of 3D sound fields
CN105959841A (zh) * 2016-04-28 2016-09-21 乐视控股(北京)有限公司 移动终端音频的播放方法、装置及耳机
WO2020112986A1 (en) 2018-11-27 2020-06-04 Facebook Technologies, Inc. Methods and apparatus for autocalibration of a wearable electrode sensor system
US10431211B2 (en) 2016-07-29 2019-10-01 Qualcomm Incorporated Directional processing of far-field audio
US10089063B2 (en) 2016-08-10 2018-10-02 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
WO2018045133A1 (en) 2016-08-31 2018-03-08 Harman International Industries, Incorporated Variable acoustics loudspeaker
US10631115B2 (en) 2016-08-31 2020-04-21 Harman International Industries, Incorporated Loudspeaker light assembly and control
US10122956B2 (en) 2016-09-16 2018-11-06 Gopro, Inc. Beam forming for microphones on separate faces of a camera
EP3525484A4 (en) * 2016-10-07 2019-10-16 Sony Corporation SIGNAL PROCESSING DEVICE, METHOD AND PROGRAM
US10497346B2 (en) * 2017-01-04 2019-12-03 2236008 Ontario Inc. Three-dimensional simulation system
US11038482B2 (en) * 2017-04-07 2021-06-15 Dirac Research Ab Parametric equalization for audio applications
WO2018193579A1 (ja) * 2017-04-20 2018-10-25 矢崎総業株式会社 画像認識装置
US11237635B2 (en) 2017-04-26 2022-02-01 Cognixion Nonverbal multi-input and feedback devices for user intended computer control and communication of text, graphics and audio
US11402909B2 (en) 2017-04-26 2022-08-02 Cognixion Brain computer interface for augmented reality
US10146501B1 (en) * 2017-06-01 2018-12-04 Qualcomm Incorporated Sound control by various hand gestures
US10531196B2 (en) * 2017-06-02 2020-01-07 Apple Inc. Spatially ducking audio produced through a beamforming loudspeaker array
CN112040858A (zh) 2017-10-19 2020-12-04 脸谱科技有限责任公司 用于识别与神经肌肉源信号相关的生物结构的系统和方法
US11150730B1 (en) 2019-04-30 2021-10-19 Facebook Technologies, Llc Devices, systems, and methods for controlling computing devices via neuromuscular signals of users
WO2019147958A1 (en) * 2018-01-25 2019-08-01 Ctrl-Labs Corporation User-controlled tuning of handstate representation model parameters
US11493993B2 (en) 2019-09-04 2022-11-08 Meta Platforms Technologies, Llc Systems, methods, and interfaces for performing inputs based on neuromuscular control
US11907423B2 (en) 2019-11-25 2024-02-20 Meta Platforms Technologies, Llc Systems and methods for contextualized interactions with an environment
US11481030B2 (en) 2019-03-29 2022-10-25 Meta Platforms Technologies, Llc Methods and apparatus for gesture detection and classification
US11961494B1 (en) 2019-03-29 2024-04-16 Meta Platforms Technologies, Llc Electromagnetic interference reduction in extended reality environments
CN111684468B (zh) * 2018-02-19 2024-03-08 苹果公司 用于呈现和操纵有条件地相关的合成现实内容线程的方法和设备
US10382857B1 (en) * 2018-03-28 2019-08-13 Apple Inc. Automatic level control for psychoacoustic bass enhancement
EP3797528B1 (en) * 2018-04-13 2022-06-22 Huawei Technologies Co., Ltd. Generating sound zones using variable span filters
EP3853698A4 (en) 2018-09-20 2021-11-17 Facebook Technologies, LLC NEUROMUSCULAR TEXT ENTRY, WRITING AND DRAWING IN SYSTEMS WITH EXTENDED REALITY
CN109830179B (zh) * 2019-03-29 2021-01-08 维沃移动通信有限公司 终端设备及用于终端设备的感光检测方法
US10735887B1 (en) * 2019-09-19 2020-08-04 Wave Sciences, LLC Spatial audio array processing system and method
US20240111046A1 (en) * 2019-11-12 2024-04-04 GE Precision Healthcare LLC Method and system for flow processing on channel data for application of nonlinear beamforming
WO2021118770A1 (en) * 2019-12-12 2021-06-17 Qualcomm Incorporated Selective adjustment of sound playback
US11393101B2 (en) * 2020-02-24 2022-07-19 Harman International Industries, Incorporated Position node tracking
CN111796792B (zh) * 2020-06-12 2024-04-02 瑞声科技(新加坡)有限公司 一种手势动作判断方法、装置、电子设备和存储介质
CN112040370B (zh) * 2020-09-10 2022-06-28 世邦通信股份有限公司 一种扬声器阵列模块、定向广播装置和定向播音控制方法
CN116547977A (zh) * 2020-12-03 2023-08-04 交互数字Ce专利控股有限公司 用于使用姿势识别的音频引导的方法和设备
JP2022125782A (ja) * 2021-02-17 2022-08-29 京セラドキュメントソリューションズ株式会社 電子機器及び画像形成装置
EP4057645A1 (en) * 2021-03-08 2022-09-14 Nokia Technologies Oy Apparatus, methods and computer programs for providing an audio user interface
US11868531B1 (en) 2021-04-08 2024-01-09 Meta Platforms Technologies, Llc Wearable device providing for thumb-to-finger-based input gestures detected based on neuromuscular signals, and systems and methods of use thereof
WO2022260655A1 (en) * 2021-06-08 2022-12-15 Hewlett-Packard Development Company, L.P. Gestures for switching audio endpoints

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010045432A (ja) * 2008-08-08 2010-02-25 Yamaha Corp スピーカアレイ装置、データ構造、及び光ディスク
WO2011135283A2 (en) * 2010-04-26 2011-11-03 Cambridge Mechatronics Limited Loudspeakers with position tracking
WO2012015843A1 (en) * 2010-07-26 2012-02-02 Qualcomm Incorporated Systems, methods, and apparatus for enhanced creation of an acoustic image space

Family Cites Families (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2636943A (en) 1951-02-26 1953-04-28 Pierre H Schaeffer Spatial music projecting device
US4133977A (en) 1977-02-25 1979-01-09 Lear Siegler, Inc. Voice scrambler using syllabic masking
JPH05241573A (ja) 1992-02-28 1993-09-21 Kan Oteru 音響空間制御システム
EP0695109B1 (en) 1994-02-14 2011-07-27 Sony Corporation Device for reproducing video signal and audio signal
US5774591A (en) * 1995-12-15 1998-06-30 Xerox Corporation Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images
US5930373A (en) 1997-04-04 1999-07-27 K.S. Waves Ltd. Method and system for enhancing quality of sound signal
US6888945B2 (en) 1998-03-11 2005-05-03 Acentech, Inc. Personal sound masking system
AU2714199A (en) 1998-03-13 1999-10-11 Frank Uldall Leonhard A signal processing method to analyse transients of speech signals
US6115709A (en) * 1998-09-18 2000-09-05 Tacit Knowledge Systems, Inc. Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions
US6351222B1 (en) * 1998-10-30 2002-02-26 Ati International Srl Method and apparatus for receiving an input by an entertainment device
US6690618B2 (en) 2001-04-03 2004-02-10 Canesta, Inc. Method and apparatus for approximating a source position of a sound-causing event for determining an input used in operating an electronic device
US6494363B1 (en) 2000-01-13 2002-12-17 Ncr Corporation Self-service terminal
US6612728B2 (en) * 2000-07-07 2003-09-02 Truck-Lite Co., Inc. Marker lamp with picture frame optics
EP1194006A3 (en) 2000-09-26 2007-04-25 Matsushita Electric Industrial Co., Ltd. Signal processing device and recording medium
US7539615B2 (en) 2000-12-29 2009-05-26 Nokia Siemens Networks Oy Audio signal quality enhancement in a digital network
WO2003019125A1 (en) 2001-08-31 2003-03-06 Nanyang Techonological University Steering of directional sound beams
US7194094B2 (en) 2001-10-24 2007-03-20 Acentech, Inc. Sound masking system
US7548854B2 (en) 2002-01-31 2009-06-16 Awi Licensing Company Architectural sound enhancement with pre-filtered masking sound
US20030142833A1 (en) 2002-01-31 2003-07-31 Roy Kenneth P. Architectural sound enhancement with test tone diagnostics
US7298871B2 (en) 2002-06-07 2007-11-20 Koninklijke Philips Electronics N.V. System and method for adapting the ambience of a local environment according to the location and personal preferences of people in the local environment
US7143028B2 (en) 2002-07-24 2006-11-28 Applied Minds, Inc. Method and system for masking speech
US20040125922A1 (en) 2002-09-12 2004-07-01 Specht Jeffrey L. Communications device with sound masking system
DE10328335B4 (de) 2003-06-24 2005-07-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wellenfeldsyntesevorrichtung und Verfahren zum Treiben eines Arrays von Lautsprechern
US7277550B1 (en) 2003-06-24 2007-10-02 Creative Technology Ltd. Enhancing audio signals by nonlinear spectral operations
US20050065778A1 (en) 2003-09-24 2005-03-24 Mastrianni Steven J. Secure speech
US20050132420A1 (en) 2003-12-11 2005-06-16 Quadrock Communications, Inc System and method for interaction with television content
WO2006014929A1 (en) * 2004-07-29 2006-02-09 Idc, Llc System and method for micro-electromechanical operating of an interferometric modulator
WO2006050353A2 (en) 2004-10-28 2006-05-11 Verax Technologies Inc. A system and method for generating sound events
DE102004057500B3 (de) * 2004-11-29 2006-06-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Ansteuerung einer Beschallungsanlage und Beschallungsanlage
US20060140420A1 (en) 2004-12-23 2006-06-29 Akihiro Machida Eye-based control of directed sound generation
US7376557B2 (en) 2005-01-10 2008-05-20 Herman Miller, Inc. Method and apparatus of overlapping and summing speech for an output that disrupts speech
KR100619066B1 (ko) 2005-01-14 2006-08-31 삼성전자주식회사 오디오 신호의 저음역 강화 방법 및 장치
EP1851656A4 (en) * 2005-02-22 2009-09-23 Verax Technologies Inc SYSTEM AND METHOD FOR FORMATTING MULTIMODE CONTENT OF SOUNDS AND METADATA
NZ562190A (en) 2005-04-01 2010-06-25 Qualcomm Inc Systems, methods, and apparatus for highband burst suppression
PT1875463T (pt) 2005-04-22 2019-01-24 Qualcomm Inc Sistemas, métodos e aparelho para nivelamento de fator de ganho
DE102005043641A1 (de) * 2005-05-04 2006-11-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Generierung und Bearbeitung von Toneffekten in räumlichen Tonwiedergabesystemen mittels einer graphischen Benutzerschnittstelle
US7567847B2 (en) 2005-08-08 2009-07-28 International Business Machines Corporation Programmable audio system
EP1770685A1 (en) 2005-10-03 2007-04-04 Maysound ApS A system for providing a reduction of audiable noise perception for a human user
CN101009515A (zh) * 2006-01-24 2007-08-01 华为技术有限公司 通信终端设备管理方法及通信终端
US20070239295A1 (en) 2006-02-24 2007-10-11 Thompson Jeffrey K Codec conditioning system and method
US8334841B2 (en) * 2006-03-13 2012-12-18 Navisense Virtual user interface method and system thereof
EP2005414B1 (en) 2006-03-31 2012-02-22 Koninklijke Philips Electronics N.V. A device for and a method of processing data
US7804972B2 (en) 2006-05-12 2010-09-28 Cirrus Logic, Inc. Method and apparatus for calibrating a sound beam-forming system
US8107639B2 (en) 2006-06-29 2012-01-31 777388 Ontario Limited System and method for a sound masking system for networked workstations or offices
JP4919021B2 (ja) 2006-10-17 2012-04-18 ヤマハ株式会社 音声出力装置
US8401210B2 (en) * 2006-12-05 2013-03-19 Apple Inc. System and method for dynamic control of audio playback based on the position of a listener
JP4245060B2 (ja) 2007-03-22 2009-03-25 ヤマハ株式会社 サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
WO2008157620A2 (en) * 2007-06-19 2008-12-24 Interdigital Technology Corporation Constant modulus mimo precoding for constraining transmit antenna power for differential feedback
US7822696B2 (en) * 2007-07-13 2010-10-26 Microsoft Corporation Histogram-based classifiers having variable bin sizes
US20090030420A1 (en) * 2007-07-26 2009-01-29 Depuy Spine, Inc. Spinal rod reduction instruments and methods for use
US9031267B2 (en) 2007-08-29 2015-05-12 Microsoft Technology Licensing, Llc Loudspeaker array providing direct and indirect radiation from same set of drivers
US9335869B2 (en) 2007-10-01 2016-05-10 Igt Method and apparatus for detecting lift off on a touchscreen
US8487881B2 (en) * 2007-10-17 2013-07-16 Smart Technologies Ulc Interactive input system, controller therefor and method of controlling an appliance
US8005233B2 (en) 2007-12-10 2011-08-23 Dts, Inc. Bass enhancement for audio
US8625846B2 (en) 2008-03-18 2014-01-07 Elliptic Laboratories As Object and movement detection
WO2009124773A1 (en) * 2008-04-09 2009-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sound reproduction system and method for performing a sound reproduction using a visual face tracking
DK2285253T3 (en) 2008-05-14 2018-10-22 Philips Lighting Holding Bv SYSTEM OF INTERACTION AND PROCEDURE
ES2362314T3 (es) * 2008-05-21 2011-07-01 Cognis Ip Management Gmbh Agentes de curado para resinas epoxi.
US8019431B2 (en) 2008-06-02 2011-09-13 University Of Washington Enhanced signal processing for cochlear implants
US8140326B2 (en) 2008-06-06 2012-03-20 Fuji Xerox Co., Ltd. Systems and methods for reducing speech intelligibility while preserving environmental sounds
US20090304205A1 (en) * 2008-06-10 2009-12-10 Sony Corporation Of Japan Techniques for personalizing audio levels
WO2009156928A1 (en) 2008-06-25 2009-12-30 Koninklijke Philips Electronics N.V. Sound masking system and method of operation therefor
GB0816222D0 (en) * 2008-09-05 2008-10-15 Elliptic Laboratories As Machine interfaces
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8625813B2 (en) 2008-12-23 2014-01-07 Stmicroelectronics, Inc. Asymmetric polynomial psychoacoustic bass enhancement
US8218783B2 (en) 2008-12-23 2012-07-10 Bose Corporation Masking based gain control
JP2010170166A (ja) 2009-01-20 2010-08-05 Sony Corp 情報処理装置、情報処理方法および情報処理プログラム
US20100202656A1 (en) 2009-02-09 2010-08-12 Bhiksha Raj Ramakrishnan Ultrasonic Doppler System and Method for Gesture Recognition
JP5691191B2 (ja) 2009-02-19 2015-04-01 ヤマハ株式会社 マスキング音生成装置、マスキングシステム、マスキング音生成方法、およびプログラム
US20100241999A1 (en) 2009-03-19 2010-09-23 Microsoft Corporation Canvas Manipulation Using 3D Spatial Gestures
KR101650799B1 (ko) * 2009-05-11 2016-08-24 게스티곤 게엠베하 가변 자세를 포함하는 이미지를 컴퓨터를 사용하여 실시간으로 분석하는 방법
US8065983B2 (en) * 2009-07-01 2011-11-29 Ford Global Technologies Llc Engine cover having a retainer to secure an engine accessory
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
CN102656543A (zh) 2009-09-22 2012-09-05 泊布欧斯技术有限公司 计算机装置的远程控制
US20110096941A1 (en) 2009-10-28 2011-04-28 Alcatel-Lucent Usa, Incorporated Self-steering directional loudspeakers and a method of operation thereof
KR101623007B1 (ko) * 2009-11-11 2016-05-20 엘지전자 주식회사 디스플레이 장치 및 그 제어방법
CN102117117A (zh) * 2010-01-06 2011-07-06 致伸科技股份有限公司 利用图像提取装置辨识使用者姿势进行控制的系统及方法
US9268404B2 (en) * 2010-01-08 2016-02-23 Microsoft Technology Licensing, Llc Application gesture interpretation
US8861742B2 (en) 2010-01-26 2014-10-14 Yamaha Corporation Masker sound generation apparatus and program
US20110242305A1 (en) * 2010-04-01 2011-10-06 Peterson Harry W Immersive Multimedia Terminal
US20110289455A1 (en) * 2010-05-18 2011-11-24 Microsoft Corporation Gestures And Gesture Recognition For Manipulating A User-Interface
US8907929B2 (en) 2010-06-29 2014-12-09 Qualcomm Incorporated Touchless sensing and gesture recognition using continuous wave ultrasound signals
US20120005632A1 (en) * 2010-06-30 2012-01-05 Broyles Iii Paul J Execute a command
KR101702330B1 (ko) * 2010-07-13 2017-02-03 삼성전자주식회사 근거리 및 원거리 음장 동시제어 장치 및 방법
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
US8532987B2 (en) 2010-08-24 2013-09-10 Lawrence Livermore National Security, Llc Speech masking and cancelling and voice obscuration
JP2012104871A (ja) * 2010-11-05 2012-05-31 Sony Corp 音響制御装置及び音響制御方法
JP6007481B2 (ja) 2010-11-25 2016-10-12 ヤマハ株式会社 マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム
JP5966326B2 (ja) 2010-12-07 2016-08-10 ヤマハ株式会社 マスカ音出力装置、マスカ音出力システム、およびプログラム
JP2013028139A (ja) * 2011-07-29 2013-02-07 Nitto Denko Corp 樹脂シート、その製造方法および貫通孔形成装置
US9293151B2 (en) * 2011-10-17 2016-03-22 Nuance Communications, Inc. Speech signal enhancement using visual information
US20130106686A1 (en) * 2011-10-31 2013-05-02 Broadcom Corporation Gesture processing framework
US20130259254A1 (en) 2012-03-28 2013-10-03 Qualcomm Incorporated Systems, methods, and apparatus for producing a directional sound field
US10448161B2 (en) 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US20140006017A1 (en) 2012-06-29 2014-01-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for generating obfuscated speech signal
JP2014219467A (ja) 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010045432A (ja) * 2008-08-08 2010-02-25 Yamaha Corp スピーカアレイ装置、データ構造、及び光ディスク
WO2011135283A2 (en) * 2010-04-26 2011-11-03 Cambridge Mechatronics Limited Loudspeakers with position tracking
WO2012015843A1 (en) * 2010-07-26 2012-02-02 Qualcomm Incorporated Systems, methods, and apparatus for enhanced creation of an acoustic image space

Also Published As

Publication number Publication date
CN110286758A (zh) 2019-09-27
EP2834996A1 (en) 2015-02-11
US10448161B2 (en) 2019-10-15
IN2014MN01835A (ko) 2015-07-03
US11818560B2 (en) 2023-11-14
EP2834996B1 (en) 2016-10-19
JP6193349B2 (ja) 2017-09-06
US20240098420A1 (en) 2024-03-21
JP2015518207A (ja) 2015-06-25
KR20150002736A (ko) 2015-01-07
CN104247456B (zh) 2019-06-28
US20130259238A1 (en) 2013-10-03
US20200077193A1 (en) 2020-03-05
CN104247456A (zh) 2014-12-24
WO2013151789A1 (en) 2013-10-10

Similar Documents

Publication Publication Date Title
KR101797804B1 (ko) 사운드 필드의 제스처 조종을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
US9031256B2 (en) Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
JP6121481B2 (ja) マルチマイクロフォンを用いた3次元サウンド獲得及び再生
US9924290B2 (en) Method and system for generation of sound fields
US20120099732A1 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
JP6101989B2 (ja) 拡張現実環境における信号増強ビーム形成
EP2836852B1 (en) Systems and methods for mapping a source location
KR20140144410A (ko) 음향신호를 위한 빔포밍 방법 및 장치
WO2021064468A1 (en) Sound source localization with co-located sensor elements
CN103702259A (zh) 交互装置及交互方法
JP7439131B2 (ja) 空間オーディオをキャプチャする装置および関連する方法
CN111356932A (zh) 管理多个设备的方法和电子设备
JP6330098B1 (ja) オーディオコントローラ、プログラム、超音波スピーカ、音源装置
JP2023053670A (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant