KR20240040737A - 다수의 마이크로폰들로부터의 오디오 신호들의 프로세싱 - Google Patents
다수의 마이크로폰들로부터의 오디오 신호들의 프로세싱 Download PDFInfo
- Publication number
- KR20240040737A KR20240040737A KR1020247002496A KR20247002496A KR20240040737A KR 20240040737 A KR20240040737 A KR 20240040737A KR 1020247002496 A KR1020247002496 A KR 1020247002496A KR 20247002496 A KR20247002496 A KR 20247002496A KR 20240040737 A KR20240040737 A KR 20240040737A
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- processors
- audio signals
- sound
- event
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 566
- 238000012545 processing Methods 0.000 title claims description 469
- 238000000034 method Methods 0.000 claims abstract description 286
- 230000008569 process Effects 0.000 claims abstract description 86
- 238000001514 detection method Methods 0.000 claims description 56
- 230000007613 environmental effect Effects 0.000 claims description 42
- 230000005540 biological transmission Effects 0.000 claims description 35
- 238000010586 diagram Methods 0.000 description 37
- 230000004044 response Effects 0.000 description 37
- 230000003190 augmentative effect Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 239000011521 glass Substances 0.000 description 11
- 239000000203 mixture Substances 0.000 description 11
- 230000009467 reduction Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 9
- 230000001976 improved effect Effects 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 7
- 241000269400 Sirenidae Species 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000013707 sensory perception of sound Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- SAZUGELZHZOXHB-UHFFFAOYSA-N acecarbromal Chemical compound CCC(Br)(CC)C(=O)NC(=O)NC(C)=O SAZUGELZHZOXHB-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1041—Mechanical or electronic switches, or control elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
제1 디바이스는 명령어들을 저장하도록 구성된 메모리 및 다수의 마이크로폰들로부터 오디오 신호들을 수신하도록 구성된 하나 이상의 프로세서들을 포함한다. 하나 이상의 프로세서들은 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하도록 구성된다. 하나 이상의 프로세서들은 또한, 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하도록 구성된다.
Description
관련 출원들에 대한 상호 참조
본 출원은 2021년 7월 27일자로 출원된 공동 소유 미국 가특허 출원 제63/203,562호, 및 2022년 7월 25일자로 출원된 미국 정규 특허 출원 제17/814,660호로부터의 우선권의 이익을 주장하며, 이들 각각의 내용들은 본 명세서에 참조로 전부 명백히 통합된다.
기술분야
본 개시내용은 일반적으로 오디오 신호 프로세싱에 관한 것이다.
기술에서의 진보들은 더 소형이고 더 강력한 컴퓨팅 디바이스들을 발생시켰다. 예를 들어, 작고, 경량의, 그리고 사용자들에 의해 쉽게 운반되는 모바일 및 스마트 폰들과 같은 무선 전화기들, 태블릿들 및 랩톱 컴퓨터들을 포함하는 다양한 휴대용 개인 컴퓨팅 디바이스들이 현재 존재한다. 이들 디바이스들은 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 또한, 많은 이러한 디바이스들은 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어와 같은 부가적인 기능성을 통합한다. 또한, 이러한 디바이스들은, 인터넷에 액세스하는데 사용될 수 있는 웹 브라우저 애플리케이션과 같은 소프트웨어 애플리케이션들을 포함하는, 실행가능 명령어들을 프로세싱할 수 있다. 이와 같이, 이들 디바이스들은 중요한 컴퓨팅 능력들을 포함할 수 있다.
모바일 및 스마트폰들과 같은 디바이스들은, 사용자의 귀에 모바일 폰을 대고 있지 않으면서 사용자가 오디오를 들을 수 있게 하는 헤드셋과 페어링될 수 있다. 사용자가 헤드셋을 착용하는 것의 단점들 중 하나는 사용자가 주위 환경을 알지 못할 수 있다는 것이다. 비제한적인 예로서, 사용자가 걸어서 교차로를 건너는 경우, 사용자는 접근하는 차량의 소리를 듣지 못할 수 있다. 사용자의 집중력이 다른 곳(예컨대, 사용자의 모바일 폰 또는 접근하는 차량으로부터 먼 방향을 봄)에 있는 시나리오들에서, 사용자는 차량이 접근하고 있다거나 또는 어느 방향으로부터 차량이 접근하고 있는지 결정하지 못할 수 있다.
본 개시내용의 일 구현예에 따라, 제1 디바이스는 명령어들을 저장하도록 구성된 메모리 및 하나 이상의 프로세서들을 포함한다. 하나 이상의 프로세서들은 다수의 마이크로폰들로부터 오디오 신호를 수신하도록 구성된다. 하나 이상의 프로세서들은 또한 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하도록 구성된다. 하나 이상의 프로세서들은, 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하도록 추가로 구성된다.
본 개시내용의 다른 구현예에 따라, 오디오를 프로세싱하는 방법은, 제1 디바이스의 하나 이상의 프로세서들에서, 다수의 마이크로폰들로부터 오디오 신호들을 수신하는 단계를 포함한다. 방법은 또한 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현된 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 단계를 포함한다. 방법은, 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하는 단계를 추가로 포함한다.
본 개시내용의 다른 구현예에 따라, 비일시적 컴퓨터-판독가능 매체는, 제1 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 다수의 마이크로폰들로부터 오디오 신호들을 수신하게 하는 명령어들을 포함한다. 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로 하나 이상의 프로세서들로 하여금 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하게 한다. 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한 하나 이상의 프로세서들로 하여금, 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하게 한다.
본 개시내용의 다른 구현예에 따라, 제1 디바이스는 다수의 마이크로폰들로부터 오디오 신호들을 수신하는 수단을 포함한다. 제1 디바이스는 또한 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 수단을 포함한다. 제1 디바이스는 또한, 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하는 수단을 포함한다.
본 발명의 다른 양태들, 이점들 및 특징들은 다음 섹션들, 즉 도면의 간단한 설명, 상세한 설명 및 청구항들을 포함하여, 본원 전체를 검토한 후 분명해질 것이다.
도 1은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 특정 예시적인 양태의 블록도이다.
도 2는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 3은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 4는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 5는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 6은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 7은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 8은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 9는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 10은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 11은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이고 오디오 콘텐츠 분리의 그래픽 도시를 포함한다.
도 12는 본 개시내용의 일부 예들에 따른 오디오 프로세싱 디바이스에서 수행될 수 있는 동작들의 특정 구현예의 도면이다.
도 13은 본 개시내용의 일부 예들에 따른 오디오 프로세싱 디바이스에서 수행될 수 있는 동작들의 다른 특정 구현예의 도면이다.
도 14는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 15는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 16은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 17은 본 개시내용의 일부 예들에 따른 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 대한 지향성 프로세싱을 통해 결정될 수 있는 다수의 지향성 음원들을 포함하는 오디오 장면의 예를 도시한다.
도 18은 본 개시내용의 일부 예들에 따른 다수의 지향성 음원들을 포함하는 공유된 오디오 장면의 예를 도시한다.
도 19는 본 개시내용의 일부 예들에 따른 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 집적 회로의 예를 도시한다.
도 20은 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 모바일 디바이스의 도면이다.
도 21은 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 헤드셋의 도면이다.
도 22는 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 웨어러블 전자 디바이스의 도면이다.
도 23은 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 음성제어 스피커 시스템의 도면이다.
도 24는 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 카메라의 도면이다.
도 25는 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 헤드셋, 예컨대, 가상 현실, 혼합 현실, 또는 증강 현실 헤드셋의 도면이다.
도 26는 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 혼합 현실 또는 증강 현실 안경 디바이스의 도면이다.
도 27은 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 이어폰들의 도면이다.
도 28은 본 개시내용의 일부 예들에 따른 차량을 내비게이팅하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 차량의 제1 예의 도면이다.
도 29는 본 개시내용의 일부 예들에 따른 차량을 내비게이팅하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 차량의 제2 예의 도면이다.
도 30은 본 개시내용의 일부 예들에 따른, 오디오를 프로세싱하는 방법의 특정 구현예의 도면이다.
도 31은 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 32는 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 33은 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 34는 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 35는 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 36은 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 37은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 동작가능한 디바이스의 특정 예시적인 예의 블록도이다.
도 2는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 3은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 4는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 5는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 6은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 7은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 8은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 9는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 10은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 11은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이고 오디오 콘텐츠 분리의 그래픽 도시를 포함한다.
도 12는 본 개시내용의 일부 예들에 따른 오디오 프로세싱 디바이스에서 수행될 수 있는 동작들의 특정 구현예의 도면이다.
도 13은 본 개시내용의 일부 예들에 따른 오디오 프로세싱 디바이스에서 수행될 수 있는 동작들의 다른 특정 구현예의 도면이다.
도 14는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 15는 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 16은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태의 블록도이다.
도 17은 본 개시내용의 일부 예들에 따른 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 대한 지향성 프로세싱을 통해 결정될 수 있는 다수의 지향성 음원들을 포함하는 오디오 장면의 예를 도시한다.
도 18은 본 개시내용의 일부 예들에 따른 다수의 지향성 음원들을 포함하는 공유된 오디오 장면의 예를 도시한다.
도 19는 본 개시내용의 일부 예들에 따른 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 집적 회로의 예를 도시한다.
도 20은 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 모바일 디바이스의 도면이다.
도 21은 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 헤드셋의 도면이다.
도 22는 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 웨어러블 전자 디바이스의 도면이다.
도 23은 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 음성제어 스피커 시스템의 도면이다.
도 24는 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 카메라의 도면이다.
도 25는 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 헤드셋, 예컨대, 가상 현실, 혼합 현실, 또는 증강 현실 헤드셋의 도면이다.
도 26는 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 혼합 현실 또는 증강 현실 안경 디바이스의 도면이다.
도 27은 본 개시내용의 일부 예들에 따른, 지향성 오디오 신호 데이터를 생성하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 이어폰들의 도면이다.
도 28은 본 개시내용의 일부 예들에 따른 차량을 내비게이팅하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 차량의 제1 예의 도면이다.
도 29는 본 개시내용의 일부 예들에 따른 차량을 내비게이팅하기 위한 지향성 오디오 신호 프로세싱 유닛을 포함하는 차량의 제2 예의 도면이다.
도 30은 본 개시내용의 일부 예들에 따른, 오디오를 프로세싱하는 방법의 특정 구현예의 도면이다.
도 31은 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 32는 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 33은 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 34는 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 35는 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 36은 본 개시내용의 일부 예들에 따른 오디오를 프로세싱하는 방법의 다른 특정 구현예의 도면이다.
도 37은 본 개시내용의 일부 예들에 따른, 하나 이상의 마이크로폰들로부터 수신된 하나 이상의 오디오 신호들에 지향성 프로세싱을 수행하도록 동작가능한 디바이스의 특정 예시적인 예의 블록도이다.
지향성 오디오 신호 프로세싱을 수행하는 시스템들 및 방법들이 개시된다. 헤드셋과 같은 제1 디바이스는 주위 환경에서 소리(sound)들을 캡처하도록 구성된 복수의 마이크로폰들을 포함할 수 있다. 각각의 마이크로폰은, 예컨대, 상이한 방향들로부터 소리들을 캡처하기 위해 제1 디바이스 상에서 상이한 배향 및 위치를 가질 수 있다. 소리들을 캡처하는 것에 응답하여, 각각의 마이크로폰은 지향성 오디오 신호 프로세싱 유닛에 제공되는 대응하는 오디오 신호를 생성할 수 있다. 지향성 오디오 신호 프로세싱 유닛은 마이크로폰들로부터의 오디오 신호들을 프로세싱하여 각각의 오디오 이벤트의 소리들 및 위치와 연관된 상이한 오디오 이벤트들을 식별할 수 있다. 일부 구현예들에서, 오디오 이벤트와 연관된 오디오 신호들은 하나 이상의 분류기들을 통해 제1 디바이스에서 오디오 이벤트의 오디오 클래스를 식별하도록 프로세싱된다. 비제한적인 예에서, 복수의 마이크로폰들 중 적어도 하나의 마이크로폰이 차 소리를 캡처하는 경우, 지향성 오디오 신호 프로세싱 유닛은 대응하는 오디오 신호와 연관된 특성들(예컨대, 피치, 주파수 등)에 기초하여 차 소리를 식별하고 소리를 캡처하는 각자의 마이크로폰들에 기초하여 차 소리의 상대적 방향을 식별할 수 있다. 차 소리 및 대응하는 상대적 방향을 식별하는 것에 응답하여, 제1 디바이스는 소리 및 방향을 나타내는 데이터를 생성할 수 있고, 데이터를 제2 디바이스, 예컨대, 모바일 폰에 제공할 수 있다. 일부 예들에서, 소리를 나타내는 데이터는 음원과 연관된 오디오 클래스 또는 임베딩 및 도착 방향 정보를 포함할 수 있다. 제2 디바이스는 데이터(예컨대, 방향 정보)를 이용하여 추가적인 동작들을 수행할 수 있다. 비제한적인 예로서, 제2 디바이스는 시각적 경고 또는 물리적 경고를 생성하여 헤드셋의 사용자에게 근처 차량에 대해 경고할지 여부를 결정할 수 있다.
일부 양태들에 따라, 다수의 마이크로폰들을 이용하여 소리들을 캡처하고 캡처된 소리들에 대응하는 오디오의 예비 프로세싱을 수행하도록 제1 디바이스, 예컨대, 헤드셋 디바이스를 이용하여 분산 오디오 프로세싱이 수행된다. 예를 들어, 제1 디바이스는 예시적인, 비제한적인 예들로서 하나 이상의 음원들의 위치파악을 위한 도착 방향 프로세싱, 주변 소리들에 기초하여 제1 디바이스의 환경 또는 환경의 변화를 검출하기 위한 음향 환경 프로세싱, 오디오 이벤트들에 대응하는 소리들을 식별하기 위한 오디오 이벤트 프로세싱, 또는 이들의 조합을 수행할 수 있다.
제1 디바이스가 프로세스 리소스들, 메모리 용량, 배터리 수명 등의 관점에서 상대적으로 제약될 수 있기 때문에, 제1 디바이스는 오디오 프로세싱에 관한 정보를 더 큰 연산, 메모리, 및 전력 리소스들을 갖는 제2 디바이스, 예컨대, 모바일 폰으로 송신할 수 있다. 예를 들어, 일부 구현예들에서 제1 디바이스는 오디오 데이터의 표현 및 오디오 데이터에서 검출된 오디오 이벤트의 분류를 제2 디바이스로 송신하고, 제2 디바이스는 추가적인 프로세싱을 수행하여 오디오 이벤트의 분류를 검증한다. 일부 양태들에 따라, 제2 디바이스는 제1 디바이스에 의해 제공된 정보, 예컨대, 방향 정보 및 소리 이벤트와 연관된 분류를, 오디오 데이터를 프로세싱하는 분류기에 대한 추가적인 입력들로서 사용한다. 방향 정보와 함께 오디오 데이터의 분류를 수행하는 것, 제1 디바이스로부터의 분류, 또는 둘 모두는 제2 디바이스에서 분류기의 정확도, 속도, 또는 하나 이상의 다른 양태들을 개선할 수 있다.
이러한 분산 오디오 프로세싱은, 예컨대, 사용자 부근에서 발생하는 소리 이벤트들의 정확한 검출을 제공하고 제1 디바이스가 사용자에게 검출된 이벤트들에 대해 경고할 수 있게 함으로써, 제1 디바이스의 사용자가 제2 디바이스의 향상된 프로세싱 역량으로부터 이익을 얻을 수 있게 한다. 예를 들어, 제1 디바이스는 재생 모드(예컨대, 음악 또는 다른 오디오를 사용자에게 재생함)로부터 검출된 오디오 이벤트에 대응하는 소리가 사용자에게 재생되는 투명 모드로 자동으로 전환될 수 있다. 개시된 기술들이 사용될 수 있는 애플리케이션들의 다른 이익들 및 예들은 아래 더 상세하게 첨부 도면들을 참조하여 설명된다.
본 개시의 특정 양태들이 이하에서 도면들을 참조하여 설명된다. 설명에 있어서, 공통 특징들은 공통 참조 부호들에 의해 지정된다. 본 명세서에서 사용된 바와 같이, 다양한 용어는 오직 특정 구현예들을 설명할 목적으로 사용되고, 구현예들을 한정하는 것으로 의도되지 않는다. 예를 들어, 단수 형태들 "a", "an" 및 "the"는, 컨텍스트가 분명히 달리 나타내지 않는 한, 복수 형태들을 물론 포함하도록 의도된다. 또한, 본 명세서에 설명된 일부 특징은 일부 구현예들에서 단수이고 다른 구현예들에서 복수이다. 설명하기 위해, 도 1은 하나 이상의 프로세서들(도 1의 "프로세서(들)"(116))을 포함하는 디바이스(110)를 도시하며, 이는 일부 구현예들에서는 디바이스(110)가 단일 프로세서(116)를 포함하고 다른 구현예들에서는 디바이스(110)가 다수의 프로세서들(116)을 포함함을 나타낸다. 본원에서의 용이한 참조를 위하여, 이러한 특징들은 일반적으로 "하나 이상의" 특징들로서 도입되고 후속적으로 다수의 특징들과 관련된 양태들이 설명되어 있지 않는 한, 단수로 언급된다.
용어들 "포함한다(comprise)", "포함한다(comprises)", 및 "포함하는(comprising)"은 "포함한다(include)", "포함한다(includes)", 또는 "포함하는(including)"과 상호교환가능하게 사용될 수도 있음이 추가로 이해될 수도 있다. 부가적으로, 용어 "여기서(wherein)"는 "여기에서(where)"와 상호교환가능하게 사용될 수도 있음이 이해될 것이다. 본 명세서에서 사용된 바와 같이, "예시적인"은 예, 구현예, 및/또는 양태를 나타낼 수도 있으며, 선호 또는 바람직한 구현예를 표시하거나 또는 한정하는 것으로서 해석되어서는 안 된다. 본 명세서에서 사용된 바와 같이, 구조, 컴포넌트, 동작 등과 같은 구성요소를 수정하는데 사용되는 서수 용어(예컨대, "제1", "제2", "제3" 등)는 홀로 다른 구성요소에 관하여 구성요소의 임의의 우선순위 또는 순서를 표시하는 것이 아니라, 오히려 단지 구성요소를 (서수 용어의 사용이 없다면) 동일한 명칭을 갖는 다른 구성요소로부터 구별할 뿐이다. 본 명세서에서 사용된 바와 같이, 용어 "세트"는 특정 구성요소의 하나 이상을 지칭하고, 용어 "복수"는 특정 구성요소의 배수(예컨대, 2 이상)를 지칭한다.
본원에 사용된 바와 같이, "결합된"은 "통신적으로 결합된", "전기적으로 결합된", 또는 "물리적으로 결합된"을 포함할 수도 있고, 또한 (또는 대안적으로) 이들의 임의의 조합을 포함할 수도 있다. 2개의 디바이스들(또는 컴포넌트들)은 하나 이상의 다른 디바이스들, 컴포넌트들, 와이어들, 버스들, 네트워크들(예를 들어, 유선 네트워크, 무선 네트워크, 또는 이들의 조합) 등을 통하여 직접적으로 또는 간접적으로 결합(예를 들어, 통신가능하게 결합, 전기적으로 결합, 또는 물리적으로 결합)될 수도 있다. 전기적으로 결합된 2개의 디바이스들(또는 컴포넌트들)은 동일한 디바이스 또는 상이한 디바이스들에 포함될 수도 있고, 예시적인, 비제한적인 예들로서 전자기기들, 하나 이상의 커넥터들 또는 유도 결합을 통하여 연결될 수도 있다. 일부 구현예들에서, 전기 통신에서와 같이, 통신가능하게 결합되는 2개의 디바이스들(또는 컴포넌트들)은 하나 이상의 와이어들, 버스들, 네트워크들 등을 통하여, 직접 또는 간접적으로 신호들(예를 들어, 디지털 신호들 또는 아날로그 신호들)을 전송 및 수신할 수도 있다. 본 명세서에서 사용된 바와 같이, "직접 결합된"은 컴포넌트들을 개재하지 않으면서 결합(예를 들어, 통신가능하게 결합, 전기적으로 결합, 또는 물리적으로 결합)되는 2개의 디바이스들을 포함할 수도 있다.
본 개시에서, "결정하는 것", "계산하는 것", "추정하는 것", "시프트하는 것", "조정하는 것" 등과 같은 용어들은 하나 이상의 동작들이 어떻게 수행되는지 설명하기 위해 사용될 수도 있다. 그러한 용어들은 한정하는 것으로서 해석되지 않아야 하고 다른 기법들이 유사한 동작들을 수행하는데 활용될 수도 있음을 유의해야 한다. 부가적으로, 본 명세서에서 언급된 바와 같이, "생성하는 것", "계산하는 것", "추정하는 것", "사용하는 것", "선택하는 것", "액세스하는 것", 및 "결정하는 것"은 상호교환가능하게 사용될 수도 있다. 예를 들어, 파라미터(또는 신호)를 "생성하는 것", "계산하는 것", "추정하는 것", 또는 "결정하는 것"은 파라미터(또는 신호)를 능동적으로 생성하는 것, 추정하는 것, 계산하는 것, 또는 결정하는 것을 지칭할 수도 있거나, 또는 예컨대, 다른 컴포넌트 또는 디바이스에 의해 이미 생성된 파라미터(또는 신호)를 사용하는 것, 선택하는 것, 또는 액세스하는 것을 지칭할 수도 있다.
도 1을 참조하면, 다수의 마이크로폰들로부터 수신된 다수의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 특정 예시적인 양태가 개시되고 일반적으로 100으로 지정되어 있다. 시스템(100)은 디바이스(110)에 각각 결합 또는 통합된 제1 마이크로폰(102) 및 제2 마이크로폰(104)을 포함한다. 시스템(100)은 또한 디바이스(120)에 결합 또는 통합된 제3 마이크로폰(106) 및 제4 마이크로폰(108)을 포함한다. 2개의 마이크로폰들(102, 104)이 디바이스(110)에 결합 또는 통합된 것으로 도시되고, 2개의 마이크로폰들(106, 108)이 디바이스(120)에 결합 또는 통합된 것으로 도시되지만, 다른 구현예들에서, 디바이스(110), 디바이스(120), 또는 둘 모두는 각각 임의의 수의 추가적인 마이크로폰들에 결합될 수 있다. 비제한적인 예로서, 4개의 마이크로폰들이 디바이스(110)에 결합될 수 있고, 다른 4개의 마이크로폰들이 디바이스(120)에 결합될 수 있다. 일부 구현예들에서, 마이크로폰들(102, 104, 106, 108)은 지향성 마이크로폰들로서 구현된다. 다른 구현예들에서, 하나 이상의(또는 모든) 마이크로폰들(102, 104, 106, 108)은 전방향성 마이크로폰들로서 구현된다.
일 구현예에 따라, 디바이스(110)는 헤드셋에 대응하고 디바이스(120)는 모바일 폰에 대응한다. 일부 시나리오들에서, 디바이스(110)는 무선 연결(예컨대, 블루투스 ®(미국 워싱턴 소재, 블루투스 SIG, 인크의 등록상표) 연결)을 이용하여 디바이스(120)와 페어링될 수 있다. 예를 들어, 디바이스(110)는 저에너지 프로토콜(예컨대, 블루투스® 저에너지(BLE) 프로토콜)을 이용하여 디바이스(120)와 통신할 수 있다. 다른 예들에서, 무선 연결은 IEEE 802.11-유형(예컨대, WiFi) 무선 로컬 영역 네트워크 또는 하나 이상의 다른 무선 라디오주파수(RF) 통신 프로토콜들에 따른 신호들의 전송 및 수신에 대응한다.
제1 마이크로폰(102)은 하나 이상의 음원들(180)로부터 소리(182)를 캡처하도록 구성된다. 도 1의 예시적인 예에서, 음원(180)은 차량, 예컨대 자동차에 대응한다. 따라서, 디바이스(110)가 헤드셋에 대응하는 경우, 마이크로폰들(102, 104)은 근처 차의 소리들(182)을 캡처하는데 사용될 수 있다. 그러나, 차량은 단지 음원의 비제한적인 예일뿐이고 본 명세서에 설명된 기술들은 다른 음원들로 구현될 수 있음이 이해되어야 한다. 음원(180)으로부터 소리(182)를 캡처하면, 제1 마이크로폰(102)은 캡처된 소리(182)를 표현하는 오디오 신호(170)를 생성하도록 구성된다. 유사한 방식으로, 제2 마이크로폰(104)은 하나 이상의 음원들(180)로부터 소리(182)를 캡처하도록 구성된다. 음원(180)으로부터 소리(182)를 캡처하면, 제2 마이크로폰(104)은 캡처된 소리(182)를 표현하는 오디오 신호(172)를 생성하도록 구성된다.
제1 마이크로폰(102) 및 제2 마이크로폰(104)은 상이한 위치들, 상이한 배향들, 또는 둘 모두를 가질 수 있다. 결과적으로, 마이크로폰들(102, 104)은 상이한 시간들, 상이한 위상들, 또는 둘 모두에서 소리(182)를 캡처할 수 있다. 도시하기 위해, 제2 마이크로폰(104)이 음원(180)에 가까운 것보다 제1 마이크로폰(102)이 음원(180)에 더 가까운 경우, 제1 마이크로폰(102)은 제2 마이크로폰(104)이 소리(182)를 캡처하기 이전에 소리(182)를 캡처할 수 있다. 아래 기재된 바와 같이, 마이크로폰들(102, 104)의 위치 및 배향이 공지된 경우, 마이크로폰들(102, 104)에 의해 각각 생성된 오디오 신호들(170, 172)은 디바이스(110), 디바이스(120), 또는 둘 모두에서 지향성 프로세싱을 수행하는데 사용될 수 있다. 즉, 오디오 신호들(170, 172)은 디바이스(110)에 의해 음원(180)의 위치를 결정하고, 소리(182)의 도착 방향을 결정하고, 소리(182)에 대응하는 오디오를 공간적으로 필터링하는 등에 사용될 수 있다. 아래 추가로 기재되는 바와 같이, 디바이스(110)는 높은 복잡성 프로세싱을 위해 지향성 프로세싱의 결과들(예컨대, 지향성 프로세싱과 연관된 데이터)을 디바이스(120)에 제공할 수 있고, 그 반대일 수 있다.
디바이스(110)는 제1 입력 인터페이스(111), 제2 입력 인터페이스(112), 메모리(114), 하나 이상의 프로세서들(116), 및 모뎀(118)을 포함한다. 제1 입력 인터페이스(111)는 하나 이상의 프로세서들(116)에 결합되고, 제1 마이크로폰(102)에 결합되도록 구성된다. 제1 입력 인터페이스(111)는 제1 마이크로폰(102)으로부터 오디오 신호(170)(예컨대, 제1 마이크로폰 출력)를 수신하고 오디오 신호(170)를 프로세서(116)에 오디오 프레임(174)으로서 제공하도록 구성된다. 제2 입력 인터페이스(112)는 하나 이상의 프로세서들(116)에 결합되고, 제2 마이크로폰(104)에 결합되도록 구성된다. 제2 입력 인터페이스(112)는 제2 마이크로폰(104)으로부터 오디오 신호(172)(예컨대, 제2 마이크로폰 출력)를 수신하고 오디오 신호(172)를 프로세서(116)에 오디오 프레임(176)으로서 제공하도록 구성된다. 오디오 프레임들(174, 176)은 또한 본 명세서에서 오디오 데이터(178)로서 참조될 수 있다.
하나 이상의 프로세서들(116)은 도착 방향 프로세싱 유닛(132), 오디오 이벤트 프로세싱 유닛(134), 음향 환경 프로세싱 유닛(136), 빔포밍 유닛(138), 또는 이들의 조합을 옵션적으로 포함한다. 일 구현예에 따라, 하나 이상의 프로세서들(116)의 컴포넌트들 중 하나 이상은 전용 회로부를 이용하여 구현될 수 있다. 비제한적인 예들로서, 하나 이상의 프로세서들(116)의 컴포넌트들 중 하나 이상은 필드 프로그램가능 게이트 어레이(FPGA), 주문형 집적 회로(ASIC) 등을 이용하여 구현될 수 있다. 다른 구현예에 따라, 하나 이상의 프로세서들(116)의 컴포넌트들 중 하나 이상은 메모리(114)에 저장된 명령어들(115)을 실행함으로써 구현될 수 있다. 예를 들어, 메모리(114)는 본 명세서에 기재된 동작들을 수행하도록 하나 이상의 프로세서들(116)에 의해 실행가능한 명령어들(115)을 저장하는 비일시적 컴퓨터-판독가능 매체일 수 있다.
도착 방향 프로세싱 유닛(132)은 다수의 오디오 신호들(170, 172)을 프로세싱하여 오디오 신호들(170, 172)에서 표현되는 소리(182)의 음원들(180)에 대응하는 도착 방향 정보(142)를 생성하도록 구성될 수 있다. 도시하기 위해, 도착 방향 프로세싱 유닛(132)은 음원(180)으로부터 소리(182)와 같은 유사한 소리를 표현하는 각각의 마이크로폰(102, 104)으로부터의 오디오 신호들(170, 172)로부터 생성된 오디오 프레임들(174, 176)을 선택할 수 있다. 예를 들어, 도착 방향 프로세싱 유닛(132)은 오디오 프레임들(174, 176)을 프로세싱하여 소리 특성들을 비교하고, 오디오 프레임들(174, 176)이 소리(182)의 동일한 인스턴스를 표현하도록 보장할 수 있다. 도착 방향 프로세싱의 예시적인, 비제한적인 예에서, 오디오 프레임들(174, 176)이 소리(182)의 동일한 인스턴스를 표현한다고 결정하는 것에 응답하여, 도착 방향 프로세싱 유닛(132)은 각각의 오디오 프레임(174, 176)의 타임 스탬프들을 비교하여 어느 마이크로폰(102, 104)이 소리(182)의 대응하는 인스턴스를 먼저 캡처했는지 결정할 수 있다. 오디오 프레임(174)이 오디오 프레임(176)보다 더 이른 타임 스탬프를 갖는 경우, 도착 방향 프로세싱 유닛(132)은 음원(180)이 제1 마이크로폰(102)에 근접하게 더 가까이 있음을 나타내는 도착 방향 정보(142)를 생성할 수 있다. 오디오 프레임(176)이 오디오 프레임(174)보다 더 이른 타임 스탬프를 갖는 경우, 도착 방향 프로세싱 유닛(132)은 음원(180)이 제2 마이크로폰(104)에 근접하게 더 가까이 있음을 나타내는 도착 방향 정보(142)를 생성할 수 있다. 따라서, 유사한 오디오 프레임들(174, 176)의 타임스탬프들에 기초하여, 도착 방향 프로세싱 유닛(132)은 소리(182) 및 대응하는 음원(180)의 위치를 파악할 수 있다. 추가적인 마이크로폰들로부터의 오디오 프레임들의 타임 스탬프들은 위에 기재된 바와 유사한 방식으로 위치파악을 개선하는데 사용될 수 있다.
일부 구현예들에서, 도착 방향 정보(142)를 결정하기 위한 하나 이상의 다른 기술들은, 위에 기재된 바와 같이, 디바이스(110)의 마이크로폰 어레이의 각각의 마이크로폰(예컨대, 마이크로폰들(102, 104))에서 수신된 소리(182)의 위상차들을 측정하는 것과 같은 시간차들을 대신하여, 또는 이에 더하여 사용될 수 있다. 일부 구현예들에서, 마이크로폰들(102, 104, 106, 108)은, 디바이스(120)와 함께, 분산 마이크로폰 어레이로서 동작될 수 있고, 도착 방향 정보(142)는 마이크로폰들(102, 104, 106, 108)의 각각으로부터의 소리의 특성들, 예컨대, 도착 시간 또는 위상에 기초하여, 그리고 마이크로폰들(102, 104, 106, 108)의 상대적인 위치들 및 배향들에 기초하여 생성된다. 이러한 구현예들에서, 소리 특성들에 관한 정보(예컨대, 위상 정보, 시간 정보, 또는 둘 모두), 캡처된 오디오 데이터(예컨대, 오디오 신호들(170, 172)의 적어도 일부분), 또는 이들의 조합은 분산 마이크로폰 어레이를 이용한 도착 방향 검출을 위해 디바이스(110)와 디바이스(120) 사이에서 전송될 수 있다.
도착 방향 정보(142)는 디바이스(120)로 송신될 수 있다. 예를 들어, 모뎀(118)은 도착 방향 정보(142)에 기초하여 데이터를 디바이스(120)로 송신할 수 있다. 일부 예들에서, 디바이스(110)에서 도착 방향 정보(142)를 생성하는 것은 낮은 복잡성 프로세싱 동작들을 수행하는데 대응한다. 디바이스(120)는 도착 방향 정보(142)를 이용하여 높은 복잡성 프로세싱 동작들을 수행할 수 있다. 예를 들어, 일부 구현예들에서, 디바이스(110)는 리소스 제한된 디바이스, 예컨대, 디바이스(120)에 비해 제한된 배터리 수명, 제한된 메모리 용량, 또는 제한된 프로세싱 용량을 갖는 디바이스일 수 있다. 디바이스(120)에서 높은 복잡성 프로세싱 동작들을 수행하는 것은 디바이스(110)로부터 리소스 집약적인 동작들의 부담을 덜 수 있다.
도시하기 위해, 디바이스(120)는 옵션적으로 하나 이상의 센서들(129)을 포함할 수 있다. 비제한적인 예들로서, 센서들(129)은 비-오디오 센서들, 예컨대, 360도 카메라, 라이다 센서 등을 포함할 수 있다. 도착 방향 정보(142)에 기초하여, 디바이스(120)는 360도 카메라에게 음원(180)에 집중하도록 명령하거나, 라이다 센서에게 디바이스들(110, 120)의 사용자와 음원(180) 사이의 거리 등을 측정하도록 명령할 수 있다.
오디오 이벤트 프로세싱 유닛(134)은 다수의 오디오 신호들(170, 172)을 프로세싱하여 오디오 이벤트 검출을 수행하도록 구성될 수 있다. 도시하기 위해, 오디오 이벤트 프로세싱 유닛(134)은 오디오 프레임들(174, 176)의 소리 특성들을 프로세싱하고 소리 특성들을 복수의 오디오 이벤트 모델들과 비교하여 오디오 이벤트가 발생했는지 여부를 결정할 수 있다. 예를 들어, 오디오 이벤트 프로세싱 유닛(134)은 상이한 오디오 이벤트들, 예컨대, 자동차 경적, 기차 경적, 보행자 대화 등에 대한 모델들을 포함하는 데이터베이스(미도시)에 액세스할 수 있다. 소리 특성들이 특정 모델에 매칭(또는 실질적으로 매칭)되는 것에 응답하여, 오디오 이벤트 프로세싱 유닛(134)은 소리(182)가 특정 모델과 연관된 오디오 이벤트를 표현한다고 나타내는 오디오 이벤트 정보(144)를 생성할 수 있다. 본 명세서에 사용된 바와 같이, 오디오 프레임의 피치 및 주파수 성분들이 특정 소리 모델의 피치 및 주파수 성분들의 임계값들 내에 있는 경우, 오디오 프레임의 소리 특성들은 특정 소리 모델과 "매칭"될 수 있다.
일부 구현예들에서, 오디오 이벤트 프로세싱 유닛(134)은 오디오 신호 데이터, 예컨대, 오디오 신호들(170, 172), 오디오 프레임들(174, 176)의 소리 특성들, 오디오 신호들(170, 172)에 기초한 빔포밍된 데이터, 또는 이들의 조합을 프로세싱하여 하나 이상의 분류기들에 의해 지원되는 다수의 클래스들 중에서 연관된 클래스를 결정하도록 구성된 하나 이상의 분류기들을 포함한다. 일 예에서, 하나 이상의 분류기들은 위에 기재된 복수의 오디오 이벤트 모델들과 함께 동작하여 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트과 연관되는 소리에 대해 클래스(예컨대, 카테고리, 예컨대 "개 짖음", "유리 깨짐", "아기 울음" 등)를 결정한다. 예를 들어, 하나 이상의 분류기들은 다양한 클래스들에 대응하는 소리들을 구분하도록 라벨링된 소리 데이터를 이용하여 트레이닝되고 오디오 신호 데이터를 프로세싱하여 오디오 신호 데이터에 의해 표현되는 소리에 대해 특정 클래스를 결정(또는, 각각의 클래스에 대해, 소리가 그 클래스에 속할 확률을 결정)하도록 구성된 뉴럴 네트워크를 포함할 수 있다. 클래스는 오디오 이벤트 정보(144)에 대응하거나 또는 이에 포함될 수 있다. 하나 이상의 분류기들을 포함하는 디바이스(110)의 예가 도 6를 참조하여 더 상세하게 기재된다.
일부 구현예들에서, 오디오 이벤트 프로세싱 유닛(134)은 오디오 신호 데이터, 예컨대, 오디오 신호들(170, 172), 오디오 프레임들(174, 176)의 소리 특성들, 오디오 신호들(170, 172)에 기초한 빔포밍된 데이터, 또는 이들의 조합을 프로세싱하여 오디오 신호 데이터에서 표현되는 소리의 시그니처를 생성하도록 구성된 하나 이상의 인코더들을 포함한다. 예를 들어, 인코더는 오디오 신호 데이터를 프로세싱하여 오디오 신호 데이터 내의 특정 소리에 대응하고 오디오 이벤트와 연관된 임베딩을 생성하도록 구성된 하나 이상의 뉴럴 네트워크들을 포함할 수 있다. "임베딩"은 더 높은 차원의 벡터들이 변환되고, 의미론적 관계들을 보존할 수 있는 벡터(예컨대, 값들의 정렬된 시퀀스 또는 인덱싱된 값들의 세트)에 의해 표현되는 상대적으로 낮은-차원의 공간을 지정할 수 있다. 도시하기 위해, 오디오 신호는 더 작은 벡터에 의해 표현된 임베딩을 생성하도록 프로세싱될 수 있는 상대적으로 큰 벡터들(예컨대, 스펙트럼 데이터 및 다른 오디오 특징부들을 표현함)의 시퀀스를 이용하여 표현될 수 있다. 임베딩은 오디오 신호들에서 특정 소리의 검출을 가능하게 하는 충분한 정보를 포함할 수 있다. 시그니처(예컨대, 임베딩)는 오디오 이벤트 정보(144)에 대응하거나 또는 이에 포함될 수 있다. 하나 이상의 인코더들을 포함하는 디바이스(110)의 예가 도 7를 참조하여 더 상세하게 기재된다.
비제한적인 예에서, 오디오 이벤트는 접근하는 차량(예컨대, 음원(180))의 소리에 대응할 수 있다. 오디오 이벤트에 기초하여, 오디오 이벤트 프로세싱 유닛(134)은 오디오 이벤트 정보(144)를 생성할 수 있고, 오디오 이벤트 정보(144)는 디바이스(120)로 송신될 수 있다. 예를 들어, 모뎀(118)은 검출된 이벤트에 대응하는 데이터를 디바이스(120)로 송신할 수 있다. 일부 예들에서, 디바이스(110)에서 오디오 이벤트 정보(144)를 생성하는 것은 낮은 복잡성 프로세싱 동작들을 수행하는데 대응한다. 디바이스(120)는 오디오 이벤트 정보(144)를 이용하여 높은 복잡성 프로세싱 동작들을 수행할 수 있다. 도시하기 위해, 오디오 이벤트 정보(144)에 기초하여, 디바이스(120)는 하나 이상의 동작들, 예컨대, 더 크고, 더 정확한 분류기에서 오디오 데이터를 프로세싱하여 오디오 이벤트를 검증하기, 소리 시그니처에 기초하여 오디오 장면을 편집하기(예컨대, 오디오 이벤트 정보(144)에 포함된 임베딩에 대응하는 소리들을 제거, 또는 임베딩에 대응하지 않는 소리들을 제거), 360도 카메라가 음원(180)에 집중하도록 명령하기, 라이다 센서가 디바이스들(110, 120)의 사용자와 음원(180) 사이의 거리를 측정하도록 명령하기 등을 수행할 수 있다.
음향 환경 프로세싱 유닛(136)은 다수의 오디오 신호들(170, 172)을 프로세싱하여 음향 환경 검출을 수행하도록 구성될 수 있다. 도시하기 위해, 음향 환경 프로세싱 유닛(136)은 오디오 프레임들(174, 176)의 소리 특성들을 프로세싱하여 주위 환경의 음향 특성들을 결정할 수 있다. 비제한적인 예로서, 음향 특성들은 주위 환경의 직접음과 반사음의 비율(direct-to-reverberant ratio, DRR) 추정을 포함할 수 있다. 음향 환경 프로세싱 유닛(136)은 주위 환경의 음향 특성들에 기초하여 환경 정보(146)를 생성할 수 있다. 예를 들어, DRR 추정치가 상대적으로 높은 경우, 환경 정보(146)는 디바이스(110)가 실내 환경에 있음을 나타낼 수 있다. 그러나, DRR 추정치가 상대적으로 낮은 경우, 환경 정보(146)는 디바이스(110)가 실외 환경에 있음을 나타낼 수 있다. 일부 구현예들에서, 음향 환경 프로세싱 유닛(136)은 환경 정보(146)에 대응하거나 또는 이에 포함될 수 있는 오디오 환경 클래스를 나타내는 출력을 생성하도록 구성된 하나 이상의 분류기들을 포함하거나 또는 이로써 구현될 수 있다.
환경 정보(146)는 디바이스(120)로 송신될 수 있다. 예를 들어, 모뎀(118)은 검출된 환경에 대응(예컨대, 식별)하는 데이터를 디바이스(120)로 송신할 수 있다. 일부 예들에서, 디바이스(110)에서 환경 정보(146)를 생성하는 것은 낮은 복잡성 프로세싱 동작들을 수행하는데 대응한다. 디바이스(120)는 환경 정보(146)를 이용하여 높은 복잡성 프로세싱 동작들을 수행할 수 있다. 도시하기 위해, 환경 정보(146)에 기초하여, 디바이스(120)는 예시적인, 비제한적인 예들로서, 하나 이상의 오디오 신호들로부터 환경 또는 배경 잡음 제거, 환경 정보(146)에 기초하여 오디오 장면 편집, 또는 실내 이미지들과 반대로 실외 이미지들을 캡처하기 위한 360도 카메라의 설정 변경과 같은 하나 이상의 동작들을 수행할 수 있다.
빔포밍 유닛(138)은 다수의 오디오 신호들(170, 172)을 프로세싱하여 빔포밍을 수행하도록 구성될 수 있다. 일부 예들에서, 빔포밍 유닛(138)은 도착 방향 정보(142)에 기초하여 빔포밍을 수행한다. 대안적으로 또는 추가적으로, 일부 예들에서 빔포밍 유닛(138)은 멀티채널 신호 프로세싱 알고리즘을 활용하여 오디오 신호들(170, 172)을 공간적으로 필터링하고 음원(180)의 위치를 결정하는 적응형 빔포밍을 수행한다. 빔포밍 유닛(138)은 증가된 감도의 빔을 음원(180)의 위치로 향하게 하고 다른 위치들로부터의 오디오 신호들을 억제할 수 있다. 일부 예들에서, 빔포밍 유닛(138)은 오디오 신호(172)에 대한 오디오 신호(170)의 프로세싱을 조정하여 (예컨대, 음원(180)으로부터 상이한 마이크로폰들(102, 104)의 각각으로의 상이한 소리 전파 경로들에 기초하여, 시간적 또는 위상 지연을 도입하거나, 신호 진폭을 조정하거나, 또는 둘 모두를 함으로써) 음원(180)의 방향으로부터 도착하는 소리들을 (예컨대, 보강 간섭을 통해) 강조하고 하나 이상의 다른 방향들로부터 도착하는 소리들은 감쇠시키도록 구성된다. 일부 예들에서, 빔포밍 유닛(138)이 음원(180)의 위치가 제1 마이크로폰(102)에 근접하다고 결정하는 경우, 빔포밍 유닛(138)은 소리(182) 및 다른 방향들, 예컨대, 제2 마이크로폰(104)과 연관된 방향들로부터 널 사운드(null sound)들을 캡처하도록 제1 마이크로폰(102)의 배향 또는 방향을 변경하는 명령을 송신할 수 있다.
생성된 하나 이상의 빔포밍된 오디오 신호들(148)(예컨대, 오디오 신호들(170, 172)의 표현)은 디바이스(120)로 송신될 수 있다. 예를 들어, 모뎀(118)은 하나 이상의 빔포밍된 오디오 신호들(148)을 디바이스(120)로 송신할 수 있다. 특정 구현예에서, 각각의 관심 오디오 음원에 대한 단일 빔포밍된 오디오 신호(148)가 디바이스(120)에 제공된다. 일부 예들에서, 디바이스(110)에서 빔포밍된 오디오 신호들(148)을 생성하는 것은 낮은 복잡성 프로세싱 동작들을 수행하는 것에 대응한다. 디바이스(120)는 빔포밍된 오디오 신호들(148)을 이용하여 높은 복잡성 프로세싱 동작들을 수행할 수 있다. 예시적인 예에서, 빔포밍된 오디오 신호들(148)에 기초하여, 디바이스(120)는 360도 카메라에게 음원(180)에 집중하도록 명령하거나, 라이다 센서에게 디바이스들(110, 120)의 사용자와 음원(180) 사이의 거리 등을 측정하도록 명령할 수 있다.
옵션적으로, 디바이스(110)는, 디바이스(110)에 의해 수행되는 것으로 설명된 프로세싱의 일부분이 디바이스(120)로 분담되는 분산 오디오 프로세싱을 위해, 또는 디바이스(120)에서 이용가능할 수 있는 더 큰 프로세싱, 메모리, 및 전력 리소스들을 이용하는 추가적인 프로세싱을 위해, 마이크로폰들(102, 104)에 의해 캡처된 오디오 데이터의 적어도 일부분(예컨대, 오디오 신호들(170, 172))을 디바이스(120)로 송신할 수 있다. 예를 들어, 일부 구현예들에서 디바이스(110)는 더 높은 정확도 도착 방향 프로세싱, 더 높은 정확도 오디오 이벤트 검출, 더 높은 정확도 환경 검출, 또는 이들의 조합을 위해 오디오 신호들(170, 172)의 적어도 일부분(예컨대, 오디오 데이터(178))을 디바이스(120)로 송신할 수 있다. 일부 구현예들에서, 디바이스(110)는 빔포밍된 오디오 신호들(148)을 송신하는 대신에, 또는 이에 더하여 오디오 신호들(170, 172) 중 적어도 일부분(예컨대, 오디오 데이터(178))을 디바이스(120)로 송신할 수 있다.
옵션적으로, 디바이스(110)는 사용자 인터페이스 디바이스, 예컨대, 시각적 사용자 인터페이스 디바이스(예컨대, 비제한적인 예들로서, 도 25에 도시된 바와 같은 디스플레이, 또는 도 26에 도시된 바와 같은 홀로그래픽 투사 유닛), 오디오 사용자 인터페이스 디바이스(예컨대, 비제한적인 예들로서, 도 3을 참조하여 설명된 바와 같은 스피커, 또는 도 5를 참조하여 설명된 바와 같은 음성 사용자 인터페이스), 또는 햅틱 사용자 인터페이스 디바이스(예컨대, 비제한적인 예로서, 도 22를 참조하여 설명된 바와 같음)를 포함할 수 있거나, 또는 이에 결합될 수 있다. 하나 이상의 프로세서들(116)은 환경적 이벤트 또는 음향 이벤트 중 적어도 하나를 나타내는 사용자 인터페이스 출력을 사용자 인터페이스 디바이스에 제공하도록 구성될 수 있다. 도시하기 위해, 사용자 인터페이스 출력은 사용자 인터페이스 디바이스로 하여금, 예컨대, 오디오 이벤트 정보(144), 디바이스(120)로부터 수신된 오디오 이벤트 정보(145), 환경 정보(146), 디바이스(120)로부터 수신된 환경 정보(147), 또는 이들의 조합에 기초하여, 검출된 오디오 이벤트 또는 환경 조건의 통지를 제공하게 할 수 있다.
위에 기재된 다양한 기술들은 지향성 콘텍스트 인식 프로세싱을 수행하는 디바이스(110)(예컨대, 저전력 디바이스)를 도시한다. 즉, 디바이스(110)는 다수의 마이크로폰들(102, 104)로부터의 오디오 신호들(170, 172)을 프로세싱하여 소리(182)가 기원하는 방향을 결정한다. 특정 구현예에서, 디바이스(110)는 헤드셋에 대응하고 디바이스(120)는 모바일 폰에 대응한다. 이 구현예에서, 헤드셋은 지향성 콘텍스트 인식 프로세싱을 수행하고, 생성된 데이터를 모바일 폰으로 송신하여 추가적인 높은 복잡성 프로세싱을 수행할 수 있다. 다른 구현예들에서, 디바이스(110)는 하나 이상의 다른 디바이스들, 예컨대, 헤드 장착형 디바이스(예컨대, 가상 현실 헤드셋, 혼합 현실 헤드셋, 또는 증강 현실 헤드셋), 안경(예컨대, 증강 현실 안경 또는 혼합 현실 안경), "스마트 워치" 디바이스, 가상 어시스턴트 디바이스, 또는 사물 인터넷(internet-of-things) 디바이스에 대응하고, 이들은 디바이스(120)(예컨대, 모바일 폰, 태블릿 디바이스, 개인용 컴퓨터, 서버, 차량 등)와 비교하여 더 낮은 연산 능력을 갖는다.
아래 기재된 바와 같이, 디바이스(120)(예컨대, 모바일 폰)는 또한 디바이스(110)으로부터 수신된 오디오 신호들(170, 172)에 기초하여, 마이크로폰들(106, 108)로부터의 오디오 신호들(190, 192)에 기초하여, 또는 이들의 조합에 기초하여, 지향성 콘텍스트 인식 프로세싱을 수행할 수 있다. 디바이스(120)는 지향성 콘텍스트 인식 프로세싱의 결과들을 디바이스(110)(예컨대, 헤드셋)에 제공하여 디바이스(110)는 추가적인 동작들, 예컨대, 도 3에 관련하여 더 상세하게 기재된 바와 같은 오디오 줌 동작을 수행할 수 있다.
디바이스(120)는 메모리(124), 하나 이상의 프로세서들(126), 및 모뎀(128)을 포함한다. 옵션적으로, 디바이스(120)는 또한 제1 입력 인터페이스(121), 제2 입력 인터페이스(122), 및 하나 이상의 센서들(129) 중 하나 이상을 포함한다.
일부 구현예들에서, 제1 입력 인터페이스(121) 및 제2 입력 인터페이스(122)는 각각 하나 이상의 프로세서들(126)에 결합되고, 제3 마이크로폰(106) 및 제4 마이크로폰(108)에 각각 결합되도록 구성된다. 제1 입력 인터페이스(121)는 제3 마이크로폰(106)으로부터 오디오 신호(190)를 수신하고, 오디오 프레임(194)과 같은 오디오 신호(190)를 하나 이상의 프로세서들(126)에 제공하도록 구성된다. 제2 입력 인터페이스(122)는 제4 마이크로폰(108)으로부터 오디오 신호(192)를 수신하고, 오디오 프레임(196)과 같은 오디오 신호(192)를 하나 이상의 프로세서들(126)에 제공하도록 구성된다. 오디오 신호들(190, 192)(예컨대, 오디오 프레임들(194, 196))은 하나 이상의 프로세서들(126)에 제공되는 오디오 데이터(198)로서 지칭될 수 있다.
하나 이상의 프로세서들(126)은 도착 방향 프로세싱 유닛(152), 오디오 이벤트 프로세싱 유닛(154), 음향 환경 프로세싱 유닛(156), 빔포밍 유닛(158), 또는 이들의 조합을 옵션적으로 포함한다. 일부 구현예들에 따라, 하나 이상의 프로세서들(126)의 컴포넌트들 중 하나 이상은 전용 회로부를 이용하여 구현될 수 있다. 비제한적인 예들로서, 하나 이상의 프로세서들(126)의 컴포넌트들 중 하나 이상은 FPGA, ASIC 등을 이용하여 구현될 수 있다. 다른 구현예에 따라, 하나 이상의 프로세서들(126)의 컴포넌트들 중 하나 이상은 메모리(124)에 저장된 명령어들(125)을 실행함으로써 구현될 수 있다. 예를 들어, 메모리(124)는 본 명세서에 기재된 동작들을 수행하도록 하나 이상의 프로세서들(126)에 의해 실행가능한 명령어들(125)을 저장하는 비일시적 컴퓨터-판독가능 매체일 수 있다.
도착 방향 프로세싱 유닛(152)은 다수의 오디오 신호들(예컨대, 오디오 신호들(170, 172, 190, 또는 192) 중 둘 이상)을 프로세싱하여 다수의 오디오 신호들에 표현된 소리(182)의 음원들(180)에 대응하는 도착 방향 정보(143)를 생성하도록 구성될 수 있다. 도시하기 위해, 도착 방향 프로세싱 유닛(152)은 도착 방향 프로세싱 유닛(132)을 참조하여 기재된 하나 이상의 기술들(예컨대, 도착 시간, 위상차들 등)을 이용하여 다수의 오디오 신호들을 프로세싱하도록 구성될 수 있다. 도착 방향 프로세싱 유닛(152)은 더 강력한 프로세싱 역량을 가질 수 있고, 따라서 도착 방향 프로세싱 유닛(132)보다 더 정확한 결과들을 생성할 수 있다.
일부 구현예들에서, 오디오 신호들(170, 172)은 디바이스(110)로부터 수신되고, 도착 방향 프로세싱 유닛(152)은 도착 방향 프로세싱 유닛(152)에서 오디오 신호들(190, 192)을 프로세싱하지 않고 오디오 신호들(170, 172)을 프로세싱하여 도착 방향 정보(143)를 결정할 수 있다. 예를 들어, 디바이스(120)가 사용자의 주머니 또는 가방 안에서 운반되고 있는 모바일 디바이스일 때와 같이, 마이크로폰들(106, 108) 중 하나 이상이 가로막히거나 또는 다른 방식으로 소리(182)의 유용한 표현을 생성하지 못할 수 있다.
다른 구현예들에서, 오디오 신호들(190, 192)은 마이크로폰들(106, 108)로부터 수신되고, 도착 방향 프로세싱 유닛(152)에서 오디오 신호들(170, 172)을 프로세싱하지 않고 도착 방향 프로세싱 유닛(152)에서 프로세싱되어 도착 방향 정보(143)를 결정한다. 예를 들어, 오디오 신호들(170, 172)은 디바이스(110)에 의해 전송되지 않을 수 있거나, 또는 디바이스(120)에 의해 수신될 수 있다. 다른 예에서, 오디오 신호들(170, 172)이, 예컨대, 마이크로폰들(102, 104)에서 다량의 잡음(예컨대, 바람 잡음)으로 인해 저품질일 수 있고, 디바이스(120)는 오디오 신호들(190, 192)을 사용하고 오디오 신호들(170, 172)을 무시하도록 선택할 수 있다.
일부 구현예들에서, 오디오 신호들(170, 172)은 디바이스(110)로부터 수신되고, 도착 방향 프로세싱 유닛(152)에서 오디오 신호들(190, 192)과 함께 사용되어 도착 방향 정보(143)를 생성한다. 도시하기 위해, 디바이스(110)는 하나 이상의 센서들, 예컨대, 포지션 또는 위치 센서(예컨대, 글로벌 포지셔닝 시스템(GPS) 수신기), 디바이스(110)의 배향, 이동, 또는 가속, 또는 이들의 조합 중 하나 이상(예컨대, 머리 추적기 데이터)을 추적하는 관성 측정 유닛(IMU)을 갖는 헤드셋에 대응할 수 있다. 디바이스(120)는 또한 하나 이상의 포지션 또는 위치 센서들(예컨대, GPS 수신기) 및 분산 마이크로폰 어레이로서의 동작을 위해 디바이스(120)가 디바이스(110)로부터 수신된 머리 추적기 데이터와 함께, 마이크로폰들(102, 104, 106, 108)의 절대적 또는 상대적인 위치들 및 배향들을 결정할 수 있게 하는 IMU를 포함할 수 있다. 도착 방향 정보(142), 도착 방향 정보(143), 또는 둘 모두는 디바이스(110)의 기준 프레임, 디바이스(120)의 기준 프레임, 절대 기준 프레임, 또는 이들의 조합에 대한 것일 수 있고, 디바이스(110), 디바이스(120), 또는 둘 모두에 의해, 다양한 기준 프레임들 사이에서 적절하게 변환될 수 있다.
도착 방향 정보(143)는 디바이스(110)로 송신될 수 있다. 예를 들어, 모뎀(128)은 도착 방향 정보(143)에 기초하여 데이터를 디바이스(110)로 송신할 수 있다. 디바이스(110)는 도착 방향 정보(143)를 이용하여 오디오 줌 동작과 같은 오디오 동작들을 수행할 수 있다. 예를 들어, 하나 이상의 프로세서들(116)은 음원(180) 및 소리(182)의 방향으로부터 오디오를 캡처(또는 집중)하라는 명령을 송신할 수 있다.
오디오 이벤트 프로세싱 유닛(154)은 다수의 오디오 신호들을 프로세싱하고 오디오 이벤트 검출을 수행하여 하나 이상의 검출된 오디오 이벤트들에 대응하는 오디오 이벤트 정보(145)를 생성하도록 구성될 수 있다. 도시하기 위해, 오디오 신호들(170, 172)이 디바이스(120)에서 수신되는 구현예에서, 오디오 이벤트 프로세싱 유닛(154)은 오디오 신호들(170, 172)의 소리 특성들(예컨대, 오디오 프레임들(174, 176))을 프로세싱하고 소리 특성들을 복수의 오디오 이벤트 모델들과 비교하여 오디오 이벤트가 발생했는지 여부를 결정할 수 있다. 오디오 신호들(190, 192)이 디바이스(120)에서 수신되는 일부 구현예들에서, 오디오 이벤트 프로세싱 유닛(154)은 오디오 신호들(190, 192)의 소리 특성들(예컨대, 오디오 프레임들(194, 196))을 프로세싱하고 소리 특성들을 복수의 오디오 이벤트 모델들과 비교하여 오디오 이벤트를 검출할 수 있다. 빔포밍된 오디오 신호(148)가 수신되는 일부 구현예들에서, 오디오 이벤트 프로세싱 유닛(154)은 빔포밍된 오디오 신호(148)의 소리 특성들을 프로세싱하여 오디오 이벤트를 검출할 수 있다. 빔포밍 유닛(158)이 빔포밍된 오디오 신호(149)를 생성하는 일부 구현예들에서, 오디오 이벤트 프로세싱 유닛(154)은 빔포밍된 오디오 신호(149)의 소리 특성들을 프로세싱하여 오디오 이벤트를 검출할 수 있다.
오디오 이벤트 프로세싱 유닛(154)은 상이한 오디오 이벤트들, 예컨대, 자동차 경적, 기차 경적, 보행자 대화 등에 대한 모델들을 포함하는 데이터베이스(미도시)에 액세스할 수 있다. 소리 특성들이 특정 모델에 매칭(또는 실질적으로 매칭)되는 것에 응답하여, 오디오 이벤트 프로세싱 유닛(154)은 소리(182)가 특정 모델과 연관된 오디오 이벤트를 표현한다고 나타내는 오디오 이벤트 정보(145)를 생성할 수 있다. 일부 구현예들에서, 오디오 이벤트 프로세싱 유닛(154)은 오디오 이벤트 프로세싱 유닛(134)에 대해 기재된 것과 유사한 방식으로 오디오 이벤트의 클래스를 결정하도록 구성된 하나 이상의 분류기들을 포함한다. 그러나, 오디오 이벤트 프로세싱 유닛(134)에 비교하여, 오디오 이벤트 프로세싱 유닛(154)은 더 복잡한 동작들을 수행할 수 있고, 오디오 이벤트 프로세싱 유닛(134)보다 훨씬 더 큰 모델들 또는 오디오 클래스들의 세트를 지원할 수 있고, 오디오 이벤트 프로세싱 유닛(134)보다 오디오 이벤트의 더 정확한 결정(또는 분류)을 생성할 수 있다.
일부 예들에서, 오디오 이벤트 프로세싱 유닛(134)은 오디오 이벤트가 검출되지 않는 확률을 감소시키는 상대적으로 높은 감도를 갖도록 구성된 상대적으로 저전력 검출기이고, 이는 또한 거짓 경고들(예컨대, 오디오 이벤트가 실제로 발생하지 않았을 때 오디오 이벤트가 검출된다는 결정)의 횟수의 증가를 초래할 수 있다. 오디오 이벤트 프로세싱 유닛(154)은 디바이스(110)로부터 수신된 정보를 이용하여 더 높은 오디오 이벤트 검출 정확도를 제공할 수 있고, 대응하는 오디오 신호들(예컨대, 오디오 신호들(170, 172, 190, 192) 중 하나 이상, 빔포밍된 오디오 신호들(148, 149) 중 하나 이상, 또는 이들의 조합)을 프로세싱함으로써 오디오 이벤트 프로세싱 유닛(134)으로부터 수신된 오디오 이벤트(예컨대, 분류)를 검증할 수 있다.
오디오 이벤트 정보(145)는 디바이스(110)로 송신될 수 있다. 예를 들어, 모뎀(128)은 검출된 이벤트에 대응하는 데이터를 디바이스(110)로 송신할 수 있다. 디바이스(110)는 오디오 이벤트 정보(145)를 이용하여 오디오 줌 동작과 같은 오디오 동작들을 수행할 수 있다. 예를 들어, 하나 이상의 프로세서들(116)은 오디오 이벤트로부터 소리를 캡처(또는 집중)하라는 명령을 송신할 수 있다. 다른 예에서, 오디오 이벤트 정보(145)는 하나 이상의 프로세서들(116)로 하여금 오디오 이벤트로부터의 소리를 무시(예컨대, 집중하지 않음)하거나 또는 감쇠 또는 제거하게 할 수 있다. 예를 들어, 오디오 이벤트 프로세싱 유닛(154)은 오디오 이벤트가 디바이스(110) 근처의 파리 윙윙거리는 소리에 대응한다고 결정할 수 있고, 오디오 이벤트 정보(145)는 디바이스(110)가 윙윙거리는 소리를 무시하거나 또는 윙윙거리는 소리의 음원의 방향으로 널 빔을 지향시키도록 나타낼 수 있다. 디바이스(110)가 디바이스(110)의 사용자에게 환경 소리들을 재생할지 여부를 선택하는 구현예들에서, 예컨대 디바이스(110)가 "투명" 모드로 진입하여 사용자가 특정 상황들 하에서 외부 소리들을 들을 수 있게 하도록 구성된 헤드셋일 때, 오디오 이벤트 정보(145)는 디바이스(110)에게 소리(182)가 디바이스(110)를 투명 모드로 전환되도록 트리거해야 하는지 여부를 나타낼 수 있다.
음향 환경 프로세싱 유닛(156)은 다수의 오디오 신호들(170, 172), 다수의 오디오 신호들(190, 192), 또는 이들의 조합을 프로세싱하여 음향 환경 검출을 수행하도록 구성될 수 있다. 도시하기 위해, 음향 환경 프로세싱 유닛(156)은 오디오 프레임들(174, 176)의 소리 특성들, 오디오 프레임들(194, 196), 또는 둘 모두를 프로세싱하여 주위 환경의 음향 특성들을 결정할 수 있다. 일부 구현예들에서, 음향 환경 프로세싱 유닛(156)은 음향 환경 프로세싱 유닛(136)과 유사한 방식으로 기능한다. 그러나, 음향 환경 프로세싱 유닛(136)과 비교하여, 음향 환경 프로세싱 유닛(156)은 더 복잡한 동작들을 수행할 수 있고, 음향 환경 프로세싱 유닛(136)보다 훨씬 더 큰 모델들 또는 오디오 환경 클래스들의 세트를 지원할 수 있고, 음향 환경 프로세싱 유닛(136)보다 음향 환경의 더 정확한 결정(또는 분류)을 생성할 수 있다.
일부 예들에서, 음향 환경 프로세싱 유닛(136)은 환경 변화에 대해 상대적으로 높은 감도를 갖도록 구성된 (예컨대, 비제한적인 예들로서, 디바이스(110)가 실내 환경으로부터 실외 환경으로 이동할 때, 또는 실외 환경으로부터 차량으로 이동할 때, 배경 소리 특성들의 변화를 검출함) 음향 환경 프로세싱 유닛(156)과 비교하여 상대적 저전력 검출기이지만, 환경 자체를 결정 시 상대적으로 낮은 정확도를 가질 수 있다. 음향 환경 프로세싱 유닛(156)은 디바이스(110)로부터 수신된 정보를 이용하여 더 높은 음향 환경 검출 정확도를 제공할 수 있고, 대응하는 오디오 신호들(예컨대, 오디오 신호들(170, 172, 190, 192) 중 하나 이상, 빔포밍된 오디오 신호들(148, 149) 중 하나 이상, 또는 이들의 조합)을 프로세싱함으로써 음향 환경 프로세싱 유닛(136)으로부터 수신된 환경 정보(146)(예컨대, 분류)를 검증할 수 있다.
음향 환경 프로세싱 유닛(156)은 주위 환경의 음향 특성들에 기초하여 환경 정보(147)를 생성할 수 있다. 환경 정보(147)는 디바이스(110)로 송신될 수 있다. 예를 들어, 모뎀(128)은 검출된 환경에 대응하는 데이터를 디바이스(110)로 송신할 수 있다. 디바이스(110)는 환경 정보(147)를 이용하여 추가적인 오디오 동작들을 수행할 수 있다.
빔포밍 유닛(158)은 다수의 오디오 신호들(170, 172)을 프로세싱하여 적응형 빔포밍을 수행하도록 구성될 수 있다. 도시하기 위해, 일부 예들에서, 빔포밍 유닛(158)은, 빔포밍 유닛(138)에 대해 설명된 것과 유사한 방식으로 증가된 감도의 빔을 음원(180)의 위치로 향하게 하고 다른 위치들로부터의 오디오 신호들을 억제하기 위해 멀티채널 신호 프로세싱 알고리즘을 이용하여 오디오 신호들(170, 172)을 공간적으로 필터링한다. 다른 예에서, 빔포밍 유닛(158)은 증가된 감도의 빔을 음원(180)의 위치로 향하게 하기 위해 멀티채널 신호 프로세싱 알고리즘을 이용하여 오디오 신호들(190, 192)을 공간적으로 필터링한다. 디바이스들(120)이 디바이스(110)로부터 오디오 신호들(170, 172)을 수신하고 또한 오디오 신호들(190, 192)을 수신하는 다른 예에서, 빔포밍 유닛(158)은 모든 오디오 신호들(170, 172, 190, 192)에 기초하여 공간 필터링을 수행할 수 있다. 일부 구현예들에서, 빔포밍 유닛(158)은 오디오 신호들에서 검출되는 각각의 음원에 대해 단일 빔포밍된 오디오 신호를 생성한다. 예를 들어, 단일 음원이 검출되는 경우, 음원으로 지향되는 단일 빔포밍된 오디오 신호(149)가 생성된다. 다른 예에서, 다수의 음원들이 검출되는 경우, 다수의 빔포밍된 오디오 신호들(149)은, 다수의 빔포밍된 오디오 신호들(149)의 각각이 음원들의 각자의 것으로 지향되도록 생성될 수 있다.
생성된 빔포밍된 오디오 신호들(149)은 디바이스(110)로 송신될 수 있다. 예를 들어, 모뎀(128)은 하나 이상의 빔포밍된 오디오 신호들(149)을 디바이스(110)로 송신할 수 있다. 디바이스(110)는 빔포밍된 오디오 신호들(149)을 사용하여 개선된 오디오를 재생할 수 있다.
디바이스(110) 및 디바이스(120)의 다양한 컴포넌트들이 도시되고 위에 기재되어 있지만, 다른 구현예들에서, 하나 이상의 컴포넌트들은 생략 또는 건너뛸 수 있다는 것이 이해되어야 한다. 또한 디바이스(110), 디바이스(120), 또는 둘 모두의 컴포넌트들의 다양한 조합들은, 아래 열거된 비제한적인 예들에 설명된 바와 같이, 디바이스(110), 디바이스(120), 또는 둘 모두의 성능을 향상시키는 상호운용성을 가능하게 할 수 있음이 이해되어야 한다.
특정 구현예에서, 디바이스(110)는 오디오 이벤트 프로세싱 유닛(134)을 포함하고, 도착 방향 프로세싱 유닛(132), 음향 환경 프로세싱 유닛(136), 및 빔포밍 유닛(138)을 생략(또는 이들의 동작을 비활성화, 또는 건너뜀(bypass))한다. 이 구현예에서, 오디오 이벤트 정보(144)는 디바이스(120)에 제공되고, 오디오 신호들(170, 172), 오디오 신호들(190, 192), 또는 오디오 신호들(170, 172, 190, 192)의 조합을 이용하여, 위에 기재된 바와 같이, 디바이스(120)에서 프로세싱과 함께 사용될 수 있다.
다른 특정 구현예에서, 디바이스(110)는 오디오 이벤트 프로세싱 유닛(134) 및 도착 방향 프로세싱 유닛(132)을 포함하고, 음향 환경 프로세싱 유닛(136) 및 빔포밍 유닛(138)을 생략(또는 그것의 동작을 비활성화, 또는 건너뜀)한다. 이 구현예에서, 도착 방향 정보(142) 및 오디오 이벤트 정보(144)는 디바이스(110)에서 생성되고, 이전에 기재된 바와 같은 사용을 위해 디바이스(120)에 제공될 수 있다. 도착 방향 정보(142)는 오디오 이벤트 프로세싱 유닛(134), 오디오 이벤트 프로세싱 유닛(154), 또는 둘 모두에서 수행될 수 있는 오디오 이벤트 검출을 (예컨대, 정확도 증가, 레이턴시 감소, 또는 둘 모두를 통해) 향상시키는데 사용될 수 있다. 예를 들어, 도착 방향 정보(142)는 오디오 이벤트 프로세싱 유닛(134)에 대한 입력으로서 제공될 수 있고, 오디오 이벤트 프로세싱 유닛(134)은 도착 방향 정보(142)를 하나 이상의 이전에 검출된 오디오 이벤트들 또는 음원들과 연관된 방향들과 비교할 수 있다. 다른 예에서, 오디오 이벤트 프로세싱 유닛(134)은 도착 방향 정보(142)를 이용하여 특정 오디오 이벤트들이 검출되는 가능성을 향상 또는 감소시킬 수 있다. 도시하기 위해, 예시적인, 비제한적인 예로서, 사용자 위에서 기원하는 소리는 자동차보다 새 또는 항공기로부터 올 가능성이 더 높기 때문에, 머리위 소리가 자동차 기반 오디오 이벤트에 매칭되는 것으로 결정되는 확률을 감소시키도록 가중치가 적용될 수 있다. 추가적으로, 또는 대안적으로, 도착 방향 정보(142)는 오디오 이벤트 프로세싱 유닛(134)에 대해 기재된 것과 유사한 방식으로 오디오 이벤트 프로세싱 유닛(154)의 성능을 향상시키는데 이용될 수 있다.
도 9를 참조하여 추가로 설명된 바와 같이, 오디오 이벤트 프로세싱 유닛(154)의 성능은 오디오 이벤트 프로세싱 유닛(154)에 대한 입력으로서 오디오 이벤트 정보(144)(예컨대, 오디오 이벤트 프로세싱 유닛(134)에 의해 검출된 오디오 클래스)를 제공함으로써 향상될 수 있다. 예를 들어, 오디오 이벤트 정보(144)는 이벤트 모델 데이터베이스 조사에 대한 시작점 또는 뉴럴 네트워크 기반 오디오 이벤트 분류기에 의해 수행되는 분류 동작에 영향을 미칠 수 있는 입력으로서 사용될 수 있다. 따라서, 오디오 이벤트 프로세싱 유닛(134)에서 도착 방향 정보(142)를 이용하여 오디오 이벤트 정보(144)의 정확도를 개선함으로써, 오디오 이벤트 정보(144)의 개선된 정확도는 또한 오디오 이벤트 프로세싱 유닛(154)의 성능을 개선할 수 있다.
디바이스(110)가 음향 환경 프로세싱 유닛(136)을 추가로 포함하는 일부 구현예들에서, 환경 정보(146)는 오디오 이벤트 프로세싱 유닛(134), 오디오 이벤트 프로세싱 유닛(154), 또는 둘 모두의 성능을 개선하는데 이용될 수 있다. 예를 들어, 일부 오디오 이벤트들(예컨대, 자동차 경적)은 일부 환경들(예컨대, 붐비는 길거리 또는 차량 안)에서 다른 환경들(예컨대, 사무실 안)보다 발생할 가능성이 더 높기 때문에, 오디오 이벤트 프로세싱 유닛(134)은 환경에 기초하여 동작을 조정할 수 있다. 예를 들어, 오디오 이벤트 프로세싱 유닛(134)은 특정 환경에서 발생할 가능성이 더 높은 소리 이벤트 모델들의 조사를 우선순위화할 수 있고, 이는 정확도 증가, 레이턴시 감소, 또는 둘 모두로 이어질 수 있다. 다른 예로서, 오디오 이벤트 프로세싱 유닛(134)은 환경에 기초하여 하나 이상의 소리 이벤트 모델들에 대한 가중치를 조정하여, 소리(182)가 이러한 소리 이벤트 모델들에 매칭되는 것으로 결정될 가능성을 증가 또는 감소시킬 수 있다. 일부 구현예들에서, 환경 정보(146)는 디바이스(120)로 송신되고, 오디오 이벤트 프로세싱 유닛(154)의 성능을 유사한 방식으로 개선하는데 사용될 수 있다.
디바이스(110)가 빔포밍 유닛(138)을 포함하는 일부 구현예들에서, 빔포밍된 오디오 신호들(148)은 오디오 이벤트 프로세싱 유닛(134), 오디오 이벤트 프로세싱 유닛(154), 또는 둘 모두의 동작을 개선하는데 이용될 수 있다. 예를 들어, 빔포밍된 오디오 신호(148)가 소리(182)의 음원(180)을 향해 지향될 수 있고, 그럼으로써 소리(182)를 향상시키거나, 다른 음원들로부터의 소리들 또는 주변 잡음, 또는 이들의 조합을 감쇠 또는 제거할 수 있다. 결과적으로, 오디오 이벤트 프로세싱 유닛(134)이 빔포밍된 오디오 신호(148)에 대해 동작하는 구현예들에서, 빔포밍된 오디오 신호(148)는 오디오 신호들(170, 172)과 비교하여 소리(182)의 개선된 표현을 제공할 수 있고, 이는 (예컨대, 소리(182)의 오분류의 가능성을 감소시킴으로써) 오디오 이벤트 프로세싱 유닛(134)이 오디오 이벤트 정보(144)를 더 정확하게 결정할 수 있게 한다. 유사하게, 빔포밍된 오디오 신호(148)가 디바이스(120)로 송신되고 오디오 이벤트 프로세싱 유닛(154)이 빔포밍된 오디오 신호(148)에 대해 동작하는 구현예들에서, 빔포밍된 오디오 신호(148)는 오디오 이벤트 프로세싱 유닛(154)의 개선된 성능을 가능하게 할 수 있다.
특정 구현예에서, 디바이스(120)는 오디오 이벤트 프로세싱 유닛(154)을 포함하고, 도착 방향 프로세싱 유닛(152), 음향 환경 프로세싱 유닛(156), 및 빔포밍 유닛(158)을 생략(또는 이들의 동작을 비활성화, 또는 건너뜀)한다. 이 구현예에서, 오디오 이벤트 프로세싱 유닛(154)은 위에 기재된 바와 같이 오디오 신호들(170, 172)을 이용하여, 빔포밍된 오디오 신호들(148)을 이용하여, 오디오 신호들(190, 192), 또는 이들의 조합을 이용하여 동작할 수 있다.
다른 특정 구현예에서, 디바이스(120)는 오디오 이벤트 프로세싱 유닛(154) 및 도착 방향 프로세싱 유닛(152)을 포함하고, 음향 환경 프로세싱 유닛(156) 및 빔포밍 유닛(158)을 생략(또는 그것의 동작을 비활성화, 또는 건너뜀)한다. 이 구현예에서, 도착 방향 정보(143) 및 오디오 이벤트 정보(145)는 디바이스(120)에서 생성되고, 이전에 기재된 바와 같은 사용을 위해 디바이스(110)에 제공될 수 있다. 도착 방향 정보(143)는 도착 방향 정보(142)에 대해 기재된 것과 유사한 방식으로 오디오 이벤트 프로세싱 유닛(154)에서 수행될 수 있는 오디오 이벤트 검출을 (예컨대, 정확도 증가, 레이턴시 감소, 또는 둘 모두를 통해) 향상시키는데 사용될 수 있다.
디바이스(120)가 음향 환경 프로세싱 유닛(156)을 추가로 포함하는 일부 구현예들에서, 환경 정보(147)는 환경 정보(146)에 대해 기재된 것과 유사한 방식으로 오디오 이벤트 프로세싱 유닛(134), 오디오 이벤트 프로세싱 유닛(154), 또는 둘 모두의 성능을 개선하는데 이용될 수 있다. 디바이스(120)가 빔포밍 유닛(158)을 포함하는 일부 구현예들에서, 빔포밍 유닛(158)에 의해 생성된 빔포밍된 오디오 신호들은 빔포밍된 오디오 신호들(148)에 대해 기재된 것과 유사한 방식으로 오디오 이벤트 프로세싱 유닛(154)의 동작을 개선하는데 사용될 수 있다.
도 1에 관련하여 기재된 기술들을 통해 각각의 디바이스(110, 120)는 마이크로폰들(102, 104)에 의해 생성된 오디오 신호들(170, 172), 마이크로폰들(106, 108)에 의해 생성된 오디오 신호들(190, 192), 또는 이들의 조합에 기초하여 지향성 콘텍스트 인식 프로세싱을 수행할 수 있다. 결과적으로, 각각의 디바이스(110, 120)는 상이한 사용 사례들에 대한 콘텍스트를 검출할 수 있고, 주위 환경과 연관된 특성들을 결정할 수 있다. 비제한적인 예로서, 기술들을 통해 각각의 디바이스(110, 120)는 하나 이상의 이동하는 음원들(예컨대, 사이렌, 새 등), 하나 이상의 고정된 음원들(예컨대, 텔레비전, 확성기 등), 또는 이들의 조합을 구분할 수 있다.
도 1에 관련하여 기재된 기술들은 다중-채널 또는 단일-채널 오디오 콘텍스트 검출이 도착 방향에 기초하여 상이한 소리들을 구별하는 것을 가능하게 할 수 있다는 것이 이해되어야 한다. 일 구현예에 따라, 마이크로폰들(102, 104, 106, 108)은 건물, 예컨대 집 안의 상이한 위치들에 위치된 마이크로폰들을 갖는 마이크로폰 어레이에 포함될 수 있다. 누군가가 바닥에 넘어지는 시나리오에서, 마이크로폰 어레이의 마이크로폰들이 모바일 디바이스, 예컨대, 디바이스(120)에, 본 명세서에 설명된 기술들을 이용하여 연결되어 있는 경우, 모바일 디바이스는 도착 방향 정보를 이용하여 소리가 어디서 왔는지 결정하고, 소리의 콘텍스트를 결정하고, 적절한 행동들(예컨대, 구급요원들에 통지)을 수행할 수 있다.
도 2를 참조하면, 다수의 마이크로폰들로부터 수신된 다수의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태가 개시되고 일반적으로 200으로 지정되어 있다. 시스템(200)은 하나 이상의 프로세서들(202)을 포함한다. 하나 이상의 프로세서들(202)은 디바이스(110) 또는 디바이스(120)에 통합될 수 있다. 예를 들어, 하나 이상의 프로세서들(202)은 하나 이상의 프로세서들(116) 또는 하나 이상의 프로세서들(126)에 대응할 수 있다.
하나 이상의 프로세서들(202)은 옵션적으로 오디오 데이터(278), 예컨대, 도 1의 오디오 데이터(178)를 수신하고, 오디오 프레임들(274, 276)을 출력하도록 구성된 오디오 입력부(204)를 포함한다. 하나 이상의 프로세서들(202)은 제1 프로세싱 도메인(210) 및 제2 프로세싱 도메인(220)을 포함한다. 제1 프로세싱 도메인(210)은 저전력 상태, 예컨대, "올웨이즈온(always-on)" 전력 도메인에서 동작하는 저전력 도메인에 대응할 수 있다. 제1 프로세싱 도메인(210)은 활성 상태를 유지하면서 오디오 프레임(274) 및 오디오 프레임(276)을 프로세싱할 수 있다. 일부 구현예들에서, 오디오 프레임들(274, 276)은 오디오 프레임들(174, 176)에 각각 대응한다. 다른 구현예에서, 오디오 프레임들(274, 276)은 오디오 프레임들(194, 196)에 각각 대응한다. 제2 프로세싱 도메인(220)은 유휴 상태와 고전력 상태 사이에서 전환되는 고전력 도메인에 대응할 수 있다.
제1 프로세싱 도메인(210)은 오디오 프리프로세싱 유닛(230)을 포함한다. 오디오 프리프로세싱 유닛(230)은 제2 프로세싱 도메인(220)의 하나 이상의 컴포넌트들과 비교하여 상대적으로 낮은 양의 전력을 소모할 수 있다. 오디오 프리프로세싱 유닛(230)은 오디오 프레임들(274, 276)을 프로세싱하여 임의의 오디오 활동이 있는지 여부를 결정할 수 있다. 일부 구현예들에 따라, 오디오 프리프로세싱 유닛(230)은 단일 마이크로폰으로부터 오디오 프레임들을 수신 및 프로세싱하여 추가적인 전력을 보존할 수 있다. 예를 들어, 일부 구현예들에서, 오디오 프레임(276)은 제1 프로세싱 도메인(210)에 제공되지 않을 수 있고, 오디오 프리프로세싱 유닛(230)은 오디오 활동이 오디오 프레임(274)에 존재하는지 여부를 결정할 수 있다.
오디오 프리프로세싱 유닛(230)이 오디오 활동이 오디오 프레임(274) 또는 두 오디오 프레임(274, 276)에 존재한다고 결정하는 경우, 오디오 프리프로세싱 유닛(230)은 활성화 신호(252)를 생성하여 제2 프로세싱 도메인(220)을 유휴 상태로부터 고전력 상태로 전환할 수 있다. 일부 구현예들에 따라, 오디오 프리프로세싱 유닛(230)은 오디오 활동에 관한 예비 방향 정보(250)를 결정하고, 예비 방향 정보(250)를 제2 프로세싱 도메인(220)에 제공할 수 있다. 예를 들어, 오디오 활동이 오디오 프레임(274)에 존재하고, 더 적은 양의 오디오 활동이 오디오 프레임(276)에 존재하거나, 또는 오디오 활동이 없는 경우, 예비 방향 정보(250)는 소리(182)가 오디오 프레임(274)에 대응하는 오디오 신호를 캡처한 마이크로폰 근처에서 기인하고 있음을 나타낼 수 있다.
제2 프로세싱 도메인(220)은 도착 방향 프로세싱 유닛(232), 오디오 이벤트 프로세싱 유닛(234), 음향 환경 프로세싱 유닛(236), 빔포밍 유닛(238), 또는 이들의 조합을 포함한다. 도착 방향 프로세싱 유닛(232)은 도 1의 도착 방향 프로세싱 유닛(132) 또는 도 1의 도착 방향 프로세싱 유닛(152)에 대응할 수 있고, 실질적으로 유사한 방식으로 동작할 수 있다. 오디오 이벤트 프로세싱 유닛(234)은 도 1의 오디오 이벤트 프로세싱 유닛(134) 또는 도 1의 오디오 이벤트 프로세싱 유닛(154)에 대응할 수 있고, 실질적으로 유사한 방식으로 동작할 수 있다. 음향 환경 프로세싱 유닛(236)은 도 1의 음향 환경 프로세싱 유닛(136) 또는 도 1의 음향 환경 프로세싱 유닛(156)에 대응할 수 있고, 실질적으로 유사한 방식으로 동작할 수 있다. 빔포밍 유닛(238)은 도 1의 빔포밍 유닛(138) 또는 도 1의 빔포밍 유닛(158)에 대응할 수 있고, 실질적으로 유사한 방식으로 동작할 수 있다.
따라서, 제2 프로세싱 도메인(220)은 상이한 모드들에서 동작할 수 있다. 예를 들어, 제2 프로세싱 도메인(220)은 상이한 센서들, 예컨대, 도 1의 센서들(129)을 활성화하는데 이용될 수 있다. 추가적으로, 제2 프로세싱 도메인(220)은 도착 방향 프로세싱 및 계산들, 빔포밍, DRR 동작들, 실내/실외 검출들, 음원 거리 결정들 등을 수행하는데 사용될 수 있다.
시스템(200)은 제1 프로세싱 도메인(210)이 오디오 활동의 존재를 검출하는 것에 응답하여 제2 프로세싱 도메인(220)을 선택적으로 활성화할 수 있게 한다. 결과적으로, 저전력 프로세싱을 이용함으로써 오디오 활동이 검출되지 않을 때 제2 프로세싱 도메인(220)(예컨대, 고전력 프로세싱 도메인)을 유휴 상태로 전환함으로써 디바이스, 예컨대, 헤드셋 또는 모바일 폰에서 배터리 전력이 보존될 수 있다.
도 3을 참조하면, 다수의 마이크로폰들로부터 수신된 다수의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태가 개시되고 일반적으로 300으로 지정되어 있다. 시스템(300)은 헤드셋(310) 및 모바일 폰(320)을 포함한다. 헤드셋(310)은 디바이스(110)에 대응할 수 있고, 모바일 폰(320)은 디바이스(120)에 대응할 수 있다.
헤드셋(310)은 오디오 프로세싱 유닛(330), 오디오 줌 유닛(332), 옵션적인 사용자 프롬프트 생성 유닛(334), 또는 이들의 조합을 포함한다. 오디오 프로세싱 유닛(330)은 도착 방향 프로세싱 유닛(132) 및 오디오 이벤트 프로세싱 유닛(134)을 포함한다. 도 1에 관련하여 기재된 바와 같이, 도착 방향 프로세싱 유닛(132)은 소리(182)의 음원(180)의 위치((예컨대, 그것을 향하는 방향)을 나타내는 도착 방향 정보(142)를 생성할 수 있다. 도착 방향 정보(142)는 오디오 줌 유닛(332) 및 사용자 프롬프트 생성 유닛(334)에 제공된다. 도 1에 관련하여 기재된 바와 같이, 오디오 이벤트 프로세싱 유닛(134)은 소리(182)가 차량 소리에 관련됨을 나타내는 오디오 이벤트 정보(144)를 생성할 수 있다. 오디오 이벤트 정보(144)는 사용자 프롬프트 생성 유닛(334)에 제공된다.
오디오 줌 유닛(332)은 또한 모바일 폰(320)으로부터 도착 방향 정보(143)를 수신할 수 있다. 오디오 줌 유닛(332)은 도착 방향 정보(142) 또는 도착 방향 정보(143)에 기초하여 빔포밍 유닛(138)의 빔포밍 알고리즘을 조정하도록 구성될 수 있다. 결과적으로, 오디오 줌 유닛(332)은 마이크로폰들(102, 104)의 초점을 관심 소리(예컨대, 소리(182))로 조정하고 다른 방향들로부터의 소리를 감쇠시킬 수 있다. 따라서 헤드셋(310)은 음원(180)으로부터의 소리(182)에 집중된 빔포밍된 오디오 신호들(148)을 생성하고, 빔포밍된 오디오 신호들(148)을 재생을 위해 스피커(336)에 제공할 수 있다. 일부 구현예들에서, 빔포밍된 오디오 신호들(148)의 재생은 소리(182)의 음원(180)에 대한 지향성이 보존되는 방식으로 다수의 스피커들(336)(예컨대, 사용자의 왼쪽 귀를 위한 좌측 스피커 및 사용자의 오른쪽 귀를 위한 우측 스피커)에서 수행되어, 사용자는 집중된 소리(182)가 음원(180)의 방향으로부터(또는, 거리 정보가 결정되는 경우, 그 위치로부터) 유래하고 있음을 인지하게 된다.
사용자 프롬프트 생성 유닛(334)은 재생을 위해 스피커(336)에 제공되는 사용자 경고(350)를 생성할 수 있다. 예를 들어, 사용자 경고(350)는 차량(예컨대, 음원(180))이 접근하고 있음을 나타내는 오디오일 수 있다. 사용자 프롬프트 생성 유닛(334)은 또한 모바일 폰(320)에 제공되는 하나 이상의 사용자 경고들(352)을 생성할 수 있다. 사용자 경고들(350)은 차량이 접근하고 있음을 나타내는 텍스트, 차량이 접근하고 있음을 나타내도록 프로그래밍된 진동 등을 포함할 수 있다.
따라서, 도 3의 시스템(300)은 헤드셋(310)이 관심 소리(182)에 집중(예컨대, 오디오 줌)할 수 있게 하고, 사용자 경고들(350, 352)을 생성할 수 있다. 도시하기 위해, 사용자가 헤드셋(310)을 착용하고 있는 시나리오에서, 시스템(300)은 사용자에게, 사용자가 그렇지 않으면 알지 못할 수 있는 주위 이벤트들, 예컨대, 접근하는 차량에 대해 경고할 수 있다.
도 4를 참조하면, 다수의 마이크로폰들로부터 수신된 다수의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태가 개시되고 일반적으로 400으로 지정되어 있다. 시스템(400)은 헤드셋(410) 및 모바일 폰(420)을 포함한다. 헤드셋(410)은 디바이스(110)에 대응할 수 있고, 모바일 폰(420)은 디바이스(120)에 대응할 수 있다.
헤드셋(410)은 오디오 프로세싱 유닛(430)을 포함하고, 옵션적으로 오디오 줌 유닛(432), 잡음 소거 유닛(434), 하나 이상의 스피커들(436), 또는 이들의 조합을 포함한다. 오디오 프로세싱 유닛(430)은 도착 방향 프로세싱 유닛(132) 및 오디오 이벤트 프로세싱 유닛(134)을 포함한다. 도 1에 관련하여 기재된 바와 같이, 도착 방향 프로세싱 유닛(132)은 소리(182)의 음원(180)의 근접 위치를 나타내는 도착 방향 정보를 생성할 수 있다. 도착 방향 프로세싱 유닛(132)은 또한 소리(186)의 음원(184)의 근접 위치를 나타내는 도착 방향 정보를 생성할 수 있다. 도 1에 관련하여 기재된 바와 같이, 오디오 이벤트 프로세싱 유닛(134)은 소리(182)가 차량 소리에 관련됨을 나타내는 오디오 이벤트 정보를 생성할 수 있다. 오디오 이벤트 프로세싱 유닛(134)은 또한 소리(186)가 사람 말에 관련됨을 나타내는 오디오 이벤트 정보를 생성할 수 있다.
오디오 프로세싱 유닛(430)은 소리(182)와 연관된 도착 방향 정보(예컨대, 도착 방향 프로세싱 유닛(132)의 제1 출력)를 나타내고, 소리(182)가 차량(예컨대, 오디오 이벤트 프로세싱 유닛(134)의 제1 출력)에 관련됨을 나타내는 제1 소리 정보(440)를 생성하도록 구성될 수 있다. 오디오 프로세싱 유닛(430)은 또한 소리(186)와 연관된 도착 방향 정보(예컨대, 도착 방향 프로세싱 유닛(132)의 제2 출력)를 나타내고, 소리(186)가 사람 말(예컨대, 오디오 이벤트 프로세싱 유닛(134)의 제2 출력)에 관련됨을 나타내는 제2 소리 정보(442)를 생성하도록 구성될 수 있다. 옵션적으로, 헤드셋(410)은 오디오 신호 데이터, 예컨대, 소리(182, 186)에 대응하는 오디오 신호들(170, 172)의 하나 이상의 부분들을, 모바일 폰(420)으로 송신할 수 있다. 오디오 신호 데이터는 소리 정보(440, 442)에 포함될 수 있거나 또는 소리 정보(440, 442)와 별개일 수 있다.
모바일 폰(420)은 단일 마이크로폰 오디오 콘텍스트 검출 유닛(450), 오디오 조정 유닛(452), 및 모드 제어기(454)를 포함한다. 제1 소리 정보(440) 및 제2 소리 정보(442)는 오디오 조정 유닛(452)에 제공된다. 일부 구현예들에 따라, 단일 마이크로폰 오디오 콘텍스트 검출 유닛(450)은 오디오 조정 유닛(452)에 추가적인 콘텍스트 정보(496), 예컨대, 도 1의 도착 방향 프로세싱 유닛(152)에 의해 생성된 도착 방향 정보(143), 오디오 이벤트 프로세싱 유닛(154)에 의해 생성된 오디오 이벤트 정보(145), 음향 환경 프로세싱 유닛(156)에 의해 생성된 환경 정보(147), 또는 이들의 조합을 제공할 수 있다. 예를 들어, 단일 마이크로폰 오디오 콘텍스트 검출 유닛(450)은 헤드셋(410)으로부터 수신된 오디오 신호 데이터(예컨대, 오디오 신호들(170, 172)의 하나 이상의 부분들), 모바일 폰(420)의 하나 이상의 마이크로폰들로부터 수신된 오디오 신호 데이터(예컨대, 오디오 신호들(190, 192)), 또는 이들의 조합을 프로세싱할 수 있다.
오디오 조정 유닛(452)은 오디오 프로세싱 유닛(430)으로부터의 소리 정보(440, 442)에 기초하여 오디오 줌 각도(460) 및 잡음 감소 파라미터들(462)을 생성하도록 구성될 수 있다. 즉, 단일 마이크로폰 오디오 콘텍스트 검출 유닛(450)으로부터의 콘텍스트 정보(496)에 기초하여, 오디오 조정 유닛(452)은 빔포밍 목적을 위해 집중될 오디오 줌 각도(460)를 결정할 수 있고, 다른 방향들로부터의 잡음을 감소시키기 위한 잡음 감소 파라미터들(462)을 결정할 수 있다. 따라서, 콘텍스트 정보(496)에 기초하여, 오디오 조정 유닛(452)이 우선은 소리(182)에 집중하는 것이라고 결정하는 경우, 오디오 줌 각도(460)는 음원(180)과 연관된 각도를 나타낼 수 있고, 잡음 감소 파라미터들(462)은 음원(184)으로부터의 잡음을 감소시키기 위한 파라미터들을 포함할 수 있다. 오디오 줌 각도(460)는 오디오 줌 유닛(432)에 제공되고, 잡음 감소 파라미터들(462)은 잡음 소거 유닛(434)에 제공된다.
오디오 조정 유닛(452)은 또한 모드 제어기(454)에 제공되는 모드 신호(464)를 생성하도록 구성될 수 있다. 모드 신호(464)는 진동 경고가 모바일 폰(420)의 사용자에게 생성되어야 하는지, 텍스트 경고가 모바일 폰(420)의 사용자에게 생성되어야 하는지, 음성 경고가 모바일 폰(420)의 사용자에게 생성되어야 하는지 등을 나타낼 수 있다.
오디오 줌 유닛(432)은 오디오 줌 각도(460)에 기초하여, 도 1의 빔포밍 유닛(138)과 같은 빔포밍 유닛의 빔포밍 알고리즘을 조정하도록 구성될 수 있다. 결과적으로, 오디오 줌 유닛(432)은 마이크로폰들(102, 104)의 초점을 관심 소리(예컨대, 소리(182))로 조정할 수 있다. 잡음 감소 파라미터들(462)에 기초하여, 잡음 소거 유닛(434)은 잡음 감소 신호(490)를 생성하여 다른 방향들로부터의 소리(186)를 감쇠시키도록 구성될 수 있다. 빔포밍된 오디오 신호들(148) 및 잡음 감소 신호(490)가 재생을 위해 하나 이상의 스피커들(436)에 제공될 수 있다.
도 4의 시스템(400)은 검출된 소리 이벤트들 및 대응하는 도착 방향들이 분석되어 청각을 개선할 수 있게 한다. 콘텍스트 정보(496)에 기초하여, 시스템(400)은 어느 소리가 특히 사용자에게 관심이 있는지 결정할 수 있다. 예를 들어, 사용자가 길을 건너는 경우, 시스템(400)은 차량의 소리(182)가 사람들이 말하는 소리(186)보다 더 중요하다고 결정할 수 있다. 결과적으로, 시스템(400)은 중요한 소리(182)에 집중하고 다른 소리들은 억제할 수 있다.
헤드셋(410)이 소리(182)에 집중을 제공하고 다른 소리들에 대해 억제를 제공하는 것으로 기재되어 있지만, 오디오 줌 유닛(432)에 의해 제공되는 소리(182)에 대한 집중, 및 잡음 소거 유닛(434)에 의해 제공되는 다른 소리들에 대한 억제는 각각 헤드셋(410)의 사용자에게 소리(182)의 향상된 인식을 제공한다는 점에 유의해야 한다. 예를 들어, 헤드셋(410)이 오디오 줌 유닛(432)을 포함하지만, 잡음 소거 유닛(434)을 생략(또는 그것의 동작을 건너뜀)하는 구현예에서, 잡음 감소 신호(490)가 없는 경우에도 소리(182)는 오디오 줌 동작을 통해 향상된다. 다른 예로서, 헤드셋(410)이 잡음 소거 유닛(434)을 포함하지만 오디오 줌 유닛(432)을 생략(또는 그것의 동작을 건너뜀)하는 구현예에서, 소리(182)는 다른 소리들에 인가되는 잡음 감소를 통해 다른 소리들에 비해 향상된다.
도 5를 참조하면, 다수의 마이크로폰들로부터 수신된 다수의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 다른 특정 예시적인 양태가 개시되고 일반적으로 500으로 지정되어 있다. 시스템(500)은 공간 필터 프로세싱 유닛(502), 오디오 이벤트 프로세싱 유닛(504), 애플리케이션 프로그래밍 인터페이스(506), 및 음성 사용자 인터페이스(508)를 포함한다. 일 구현예에 따라, 시스템(500)은 디바이스(110) 또는 디바이스(120)에 통합될 수 있다.
공간 필터 프로세싱 유닛(502)은 오디오 프레임들(574, 576)로 도시된, 수신된 오디오 신호들과 연관된 오디오 프레임들에 대해 하나 이상의 공간 필터링 동작들을 수행하도록 구성될 수 있다. 일부 구현예들에서, 오디오 프레임들(574, 576)은 오디오 프레임들(174, 176)에 각각 대응한다. 다른 구현예에서, 오디오 프레임들(574, 576)은 오디오 프레임들(194, 196)에 각각 대응한다. 비제한적인 예에서, 공간 필터 프로세싱 유닛(502)은 오디오 프레임들(574, 576)에 대해 적응형 빔포밍을 수행하거나, 오디오 프레임들(574, 576)에 대해 오디오 줌 동작을 수행하거나, 오디오 프레임들(574, 576)에 대해 빔포밍 동작을 수행하거나, 오디오 프레임들(574, 576)에 대해 널 빔포밍(null beamforming) 동작을 수행하거나, 또는 이들의 조합을 수행할 수 있다.
공간 필터링 동작에 기초하여, 공간 필터 프로세싱 유닛(502)은 각각의 출력(510, 512, 514)에 대해 복수의 출력들(510, 512, 514) 및 대응하는 도착 방향 정보(542)를 생성할 수 있다. 도 5의 예시적인 예에서, 공간 필터 프로세싱 유닛(502)은 오디오 프레임들(574, 576)로부터의 스피치 콘텐츠 출력(510), 및 2개의 다른 출력(512, 514)(예컨대, 2개의 다른 검출된 오디오 음원들로부터의 오디오)을 생성할 수 있다. 출력들(510, 512, 514)은 오디오 이벤트 프로세싱 유닛(504)에 제공되고, 각각의 출력(510, 512, 514)에 대한 도착 방향 정보(542)는 애플리케이션 프로그래밍 인터페이스(506)에 제공된다.
오디오 이벤트 프로세싱 유닛(504)은 각각의 출력(510, 512, 514)을 프로세싱하여 출력들(510, 512, 514)과 연관된 오디오 이벤트 정보(544)를 결정하도록 구성된다. 예를 들어, 오디오 이벤트 프로세싱 유닛(504)은 출력(510)이 스피치 콘텐츠와 연관되고, 출력(512)이 비-스피치 콘텐츠와 연관되고, 출력(514)이 비-스피치 콘텐츠와 연관됨을 나타낼 수 있다. 오디오 이벤트 프로세싱 유닛(504)은 사용자 재생을 위해 스피치 콘텐츠 출력(510)을 음성 사용자 인터페이스(508)에 제공하고, 오디오 이벤트 정보(544)를 애플리케이션 프로그래밍 인터페이스(506)에 제공한다.
애플리케이션 프로그래밍 인터페이스(506)는 도 1 내지 도 4에 관련하여 기재된 바와 같이, 추가적인 애플리케이션별 프로세싱을 위해 도착 방향 정보(542) 및 오디오 이벤트 정보(544)를 다른 애플리케이션들 또는 디바이스들에 제공하도록 구성될 수 있다.
도 6은 디바이스(110)의 구현예(600)를 도시한다. 하나 이상의 프로세서들(116)은 오디오 신호들(170, 172)로 도시된, 다수의 마이크로폰들로부터의 오디오 신호들을 수신하도록 구성된다. 하나 이상의 프로세서들(116)은 또한, 제2 디바이스로, 오디오 신호들(170, 172) 중 하나 이상에서 표현되고 오디오 이벤트와 연관되는 소리에 대한 클래스(612)에 기초한 데이터를 송신하도록 구성된다. 예를 들어, 하나 이상의 프로세서들(116)은 클래스(612)의 표시(616)를 제2 디바이스(예컨대, 디바이스(120))로 송신한다. 예시적인 예에서, 하나 이상의 프로세서들(116)은 헤드셋 디바이스에 통합되고, 제2 디바이스는 모바일 폰에 대응한다. 다른 예시적인 예에서, 하나 이상의 프로세서들(116)은 차량에 통합된다.
하나 이상의 프로세서들(116)은 하나 이상의 분류기들(610)에서 신호 데이터(602)를 프로세싱하여 하나 이상의 분류기들(610)에 의해 지원되는 다수의 지원되는 클래스들(614)로부터 클래스(612)를 결정하도록 구성된다. 신호 데이터(602)는 오디오 신호들(170, 172)에 대응한다. 예를 들어, 일부 구현예들에서, 하나 이상의 프로세서들은 (예컨대, 빔포밍 유닛(138)에서) 오디오 신호들(170, 172)에 대해 빔포밍 동작을 수행하여 신호 데이터(602)를 생성하도록 구성되고, 이는 빔포밍된 오디오 신호(148)에 대응할 수 있다. 대안적으로, 또는 추가적으로, 하나 이상의 프로세서들(116)은 신호 데이터(602)에 포함할 오디오 신호들(170, 172)의 하나 이상의 특징부들을 결정하도록 구성된다. 대안적으로, 또는 추가적으로, 신호 데이터(602)는 오디오 신호들(170, 172)을 포함한다.
일부 양태들에 따라, 하나 이상의 분류기들(610)은 신호 데이터(602)를 프로세싱하고 클래스(612)가 다수의 지원되는 클래스들(614)의 나머지보다 오디오 이벤트와 더 가깝게 연관됨을 나타내는 출력(예컨대, 원핫 출력(one-hot output))을 생성하도록 구성된 하나 이상의 뉴럴 네트워크들을 포함한다. 클래스(612)는 표시(616)를 통해 제2 디바이스로 송신된다. 일부 예들에서, 표시(616)는 클래스(612)의 비트 구성, 수, 또는 기타 표시자를 포함한다. 다른 예들에서, 표시(616)는 텍스트 형태의 이름, 라벨, 또는 클래스(612)가 제2 디바이스에 의해 식별되게 하는 다른 서술자를 포함한다. 일부 구현예들에서, 하나 이상의 분류기들(610)은 도 1의 오디오 이벤트 프로세싱 유닛(134)에 대응하고(또는 이에 포함), 표시(616)는 오디오 이벤트 정보(144)에 대응한다(또는 이에 포함).
옵션적으로, 하나 이상의 프로세서들(116)은 하나 이상의 분류기들(610)에서 이미지 데이터를 프로세싱하여 클래스(612)를 결정하도록 추가로 구성된다. 예를 들어, 디바이스(110)는 옵션적으로 이미지 데이터를 생성하도록 구성된 하나 이상의 카메라들을 포함할 수 있거나 또는 다른 디바이스로부터 (예컨대, 모뎀을 통해) 이미지 데이터를 수신할 수 있다. 클래스(612)는 이미지 데이터에서 표현되고 오디오 이벤트와 연관되는 객체(예컨대, 음원)에 대응할 수 있다. 예를 들어, 일부 구현예들에서, 하나 이상의 프로세서들(116)은 오디오 신호들(170, 172)에 기초하여 도착 방향 정보(142)를 생성(또는 제2 디바이스로부터 도착 방향 정보(143)를 수신)하고, 도착 방향 정보(142 또는 143)를 이용하여, 이미지 데이터에서, 음원에 대응하는 객체를 위치확인할 수 있다. 하나 이상의 분류기들(610)이 오디오 데이터에 더하여 이미지 데이터를 프로세싱하는 구현예들에서, 이미지 데이터는 신호 데이터(602)에 포함되거나 또는 하나 이상의 분류기들(610)에 대한 별개의 입력으로서 제공될 수 있다.
일부 구현예들에서, 다수의 지원되는 클래스들(614)은 "미지의" 클래스를 포함하는데, 이는 오디오 이벤트가 신뢰도 임계치 내에서 다른 지원되는 클래스들(614) 중 어느 것에도 대응하지 못한다는 것을 의미한다. 일 예에서, 하나 이상의 분류기들(610)은, 다수의 지원되는 클래스들(614)의 각각에 대해, 오디오 이벤트가 특정 클래스에 대응하는 확률을 계산한다. 계산된 확률들 중 어느 것도 임계량을 초과하지 않는 경우, 하나 이상의 분류기들(610)은 클래스(612)를 "미지의" 클래스로 지정한다.
일부 구현예들에서, 하나 이상의 프로세서들(116)은 오디오 신호들(170, 172)을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하도록 구성되고, 클래스(612)는 도착 방향 정보와 연관된다. 예를 들어, 도착 방향 정보 및 클래스(612)는 오디오 신호들(170, 172)에서 동일한 소리에 대응한다. 도시하기 위해, 하나 이상의 프로세서들(116)은 옵션적으로 도 1의 도착 방향 프로세싱 유닛(132)을 포함할 수 있다. 하나 이상의 프로세서들(116)은 도착 방향 정보에 기초한 데이터를 제2 디바이스로 송신하도록 구성될 수 있다. 일 예에서, 도착 방향 정보에 기초한 데이터는 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트를 포함한다.
다양한 구현예들에 따라, 디바이스(110)는 도 1을 참조하여 이전에 기재된 하나 이상의 추가적인 컴포넌트들 또는 양태들을 옵션적으로 포함할 수 있다. 예를 들어, 하나 이상의 프로세서들은 도착 방향 정보에 기초하여 오디오 신호들에 대해 공간 프로세싱을 수행하여 하나 이상의 빔포밍된 오디오 신호들을 생성할 수 있고, 하나 이상의 빔포밍된 오디오 신호들을 제2 디바이스로 송신하도록 구성될 수 있다. 도시하기 위해, 하나 이상의 프로세서들(116)은 옵션적으로 도 1의 빔포밍 유닛(138)을 포함할 수 있다. 다른 예에서, 하나 이상의 프로세서들(116)은 음향 환경 검출 동작에 기초하여 검출된 환경에 대응하는 환경 데이터를 생성하도록 구성될 수 있다. 도시하기 위해, 하나 이상의 프로세서들(116)은 옵션적으로 도 1의 음향 환경 프로세싱 유닛(136)을 포함할 수 있다.
다른 예에서, 하나 이상의 프로세서들(116)은 오디오 신호들(170, 172)의 표현을 제2 디바이스로 송신하도록 구성될 수 있다. 일부 구현예들에서, 오디오 신호들(170, 172)의 표현은 하나 이상의 빔포밍된 오디오 신호들, 예컨대, 빔포밍된 오디오 신호(148)에 대응한다. 다른 예에서, 도 3 및 도 4를 참조하여 기재된 바와 같이, 하나 이상의 프로세서들(116)은, 제2 디바이스로부터, 오디오 신호들과 연관된 방향 정보를 수신하고, 방향 정보에 기초하여 오디오 줌 동작을 수행하도록 구성될 수 있다.
오디오 신호들(170, 172)에서 표현되는 소리에 대응하는 클래스(612)의 표시(616)를 송신함으로써, 디바이스(110)는 제2 디바이스에서 오디오 이벤트 프로세싱의 정확도를 증가시키기 위해 제2 디바이스에 의해 사용될 수 있는 정보를 제공하고, 이는 도 9를 참조하여 추가로 기재된 바와 같다.
도 7은 디바이스(110)의 구현예(700)를 도시한다. 구현예(600)와 비교하여, 하나 이상의 인코더들(710)은 구현예(700)에 포함되고, 하나 이상의 분류기들(610)은 생략된다. 신호 데이터(602)는 하나 이상의 인코더들(710)에 의해 프로세싱되어 오디오 신호들(170, 172) 중 하나 이상에서 표현되고 오디오 이벤트와 연관된 소리에 대응하는 임베딩(712)을 생성한다. 하나 이상의 프로세서들(116)은 또한 임베딩(712)에 기초한 데이터를 제2 디바이스로 송신하도록 구성된다. 일 예에서, 하나 이상의 프로세서들(116)은 임베딩(712)의 표시(716)를 제2 디바이스로 송신한다.
일부 양태들에 따라, 하나 이상의 인코더들(710)은 신호 데이터(602)를 프로세싱하여 소리의 임베딩(712)을 생성하도록 구성된 하나 이상의 뉴럴 네트워크들을 포함한다. 임베딩(712)은 소리가 다른 오디오 신호들에서 검출될 수 있게 하는 소리의 다양한 특성들에 관한 충분한 정보를 포함하는 소리의 "시그니처"를 표현하지만, 임베딩(712) 자체만으로 소리의 재생산을 가능하게 하는 충분한 정보를 포함하지 않을 수 있다. 일부 양태들에 따라, 임베딩(712)은 사용자의 스피치, 환경으로부터의 특정 소리, 예컨대, 개 짖는 소리 등에 대응할 수 있고, 임베딩(712)은 다른 오디오 데이터에서 발생할 수 있는 소리의 다른 인스턴스들을 검출 및 증폭 또는 추출하는데 사용될 수 있고, 이는 도 11을 참조하여 추가로 기재된 바와 같다. 일부 구현예들에서, 하나 이상의 인코더들(710)은 도 1의 오디오 이벤트 프로세싱 유닛(134)에 대응하고(또는 이에 포함), 표시(716)는 오디오 이벤트 정보(144)에 대응한다(또는 이에 포함).
일부 구현예들에서, 하나 이상의 프로세서들(116)은 오디오 신호들(170, 172)을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하도록 구성되고, 임베딩(712)은 도착 방향 정보와 연관된다. 일 예에서, 도착 방향 정보 및 임베딩(712)은 오디오 신호들(170, 172)에서 동일한 소리에 대응한다. 도시하기 위해, 하나 이상의 프로세서들(116)은 옵션적으로 도 1의 도착 방향 프로세싱 유닛(132)을 포함할 수 있다. 하나 이상의 프로세서들(116)은 도착 방향 정보에 기초한 데이터를 제2 디바이스에 송신하도록 구성될 수 있다.
옵션적으로, 하나 이상의 프로세서들(116)은 하나 이상의 인코더들(710)에서 이미지 데이터를 프로세싱하여 임베딩(712)을 생성하도록 추가로 구성된다. 예를 들어, 디바이스(110)는 옵션적으로 이미지 데이터를 생성하도록 구성된 하나 이상의 카메라들을 포함할 수 있거나 또는 다른 디바이스로부터 (예컨대, 모뎀을 통해) 이미지 데이터를 수신할 수 있다. 임베딩(712)은 이미지 데이터에서 표현되고 오디오 이벤트와 연관되는 객체(예컨대, 음원)에 대응할 수 있다. 예를 들어, 일부 구현예들에서, 하나 이상의 프로세서들(116)은 오디오 신호들(170, 172)에 기초하여 도착 방향 정보(142)를 생성(또는 제2 디바이스로부터 도착 방향 정보(143)를 수신)하고, 도착 방향 정보(142 또는 143)를 이용하여, 이미지 데이터에서, 음원에 대응하는 객체를 위치확인할 수 있다. 하나 이상의 인코더들(710)이 오디오 데이터에 더하여 이미지 데이터를 프로세싱하는 구현예들에서, 이미지 데이터는 신호 데이터(602)에 포함되거나 또는 하나 이상의 인코더들(710)에 대한 별개의 입력으로서 제공될 수 있다.
도 8은 도 6의 하나 이상의 분류기들(610)을 포함하고, 또한 도 7의 하나 이상의 인코더들(710)을 포함하는 디바이스(110)의 구현예(800)를 도시한다. 신호 데이터(602)(또는 신호 데이터(602)의 하나 이상의 부분들)는 하나 이상의 분류기들(610)에 의해 프로세싱되어 클래스(612)를 결정하고, 신호 데이터(602)(또는 신호 데이터(602)의 하나 이상의 부분들)는 하나 이상의 인코더들(710)에 의해 프로세싱되어 임베딩(712)을 생성한다. 하나 이상의 프로세서들(116)은 또한 클래스(612), 임베딩(712), 또는 둘 모두에 기초하여, 데이터를 제2 디바이스로 송신하도록 구성된다. 예를 들어, 클래스(612)의 표시(616), 임베딩(712)의 표시(716), 또는 둘 모두는 도 1의 디바이스(120)로 송신된 오디오 이벤트 프로세싱 유닛(134)에 대응하거나, 또는 이에 포함될 수 있다.
도 9는 하나 이상의 프로세서들(126)을 포함하는 디바이스(120)(예컨대, 제2 디바이스)의 구현예(900)를 도시한다. 하나 이상의 프로세서들(126)은 오디오 이벤트 프로세싱 유닛(154)을 포함하고, 제1 디바이스(예컨대, 디바이스(110))로부터, 오디오 이벤트에 대응하는 오디오 클래스의 표시(902)를 수신하도록 구성된다. 일부 예들에서, 표시(902)는 디바이스(110)의 하나 또는 분류기들(610)에서 검출된 클래스(612)를 나타내는 도 6 또는 도 8의 표시(616)에 대응한다. 일부 구현예들에서, 하나 이상의 프로세서들(126)은 메모리(예컨대, 메모리(124))에 결합되고, 모바일 폰에 통합되고, 제1 디바이스는 헤드셋 디바이스에 대응한다. 다른 구현예에서, 메모리 및 하나 이상의 프로세서들(126)은 차량에 통합된다.
옵션적으로, 하나 이상의 프로세서들(126)은 오디오 이벤트 프로세싱 유닛(154)에 대응하거나, 또는 이에 포함될 수 있는 하나 이상의 분류기들(920)을 포함한다. 양태에 따라, 하나 이상의 분류기들(920)은 도 1의 오디오 이벤트 프로세싱 유닛(154)을 참조하여 기재된 바와 같이, 표시(902)를 생성한 제1 디바이스의 분류기(들)보다 더 강력하고 더 정확하다. 하나 이상의 프로세서들(126)은 또한 오디오 이벤트와 연관된 소리를 나타내는 오디오 데이터(904)를 수신하도록 구성될 수 있다. 일부 구현예들에서, 오디오 데이터(904)는, 예시적이고, 비제한적인 예들로서, 제1 디바이스로부터의 오디오 신호들(170, 172), 제1 디바이스로부터의 빔포밍된 오디오 신호들(148), 오디오 신호들(190, 192), 또는 이들의 조합에 대응할 수 있다. 하나 이상의 프로세서들(126)은 하나 이상의 분류기들(920)에서 오디오 데이터(904)를 프로세싱하여, 예컨대, 표시(902)를 하나 이상의 분류기들(920)에 의해 결정된 분류(922)와 비교함으로써, 표시(902)가 옳은지 검증하도록 구성될 수 있다. 분류(922)는 다수의 지원되는 클래스들(924) 중에서, 오디오 데이터(904)에서 검출된 오디오 이벤트에 가장 잘 대응하는 오디오 클래스로서 선택될 수 있다.
일부 구현예들에서, 표시(902)를 검증, 또는 표시(902)에 의해 표시된 클래스를 검증하는 것은 표시(902)에 의해 표시된 클래스가 하나 이상의 분류기들(920)에 의해 결정된 클래스(예컨대, 분류(922))에 매칭되는지 여부를 결정하는 것을 포함한다. 대안적으로, 또는 추가적으로, 표시(902)를 검증하는 것, 또는 표시(902)에 의해 표시되는 클래스를 검증하는 것은 하나 이상의 분류기들(920)에 의해 결정된 클래스가 표시(902)에 의해 표시된 클래스의 특정 인스턴스 또는 서브-클래스라고 결정하는 것을 포함한다. 예를 들어, 클래스 "차량 이벤트"에 대응하는 표시(902)는 하나 이상의 분류기들(920)이 분류(922)가 상이한 유형들의 차량 이벤트들로서 카테고리화될 수 있는, "자동차 엔진", "오토바이 엔진", "브레이크 밟는 소리", "자동차 경적", "오토바이 경적", "기차 경적", "차량 충돌" 등에 대응한다고 결정하는 것에 의해 검증될 수 있다.
일부 양태들에 따라, 하나 이상의 분류기들(920)의 정확도는 오디오 데이터(904)에 더하여 오디오 이벤트에 관련된 다른 정보를 하나 이상의 분류기들(920)에 제공함으로써 개선된다. 예를 들어, 하나 이상의 프로세서들(126)은 오디오 데이터(904) 및 오디오 클래스의 표시(902)를 하나 이상의 분류기들(920)에 대한 입력으로서 제공하여 오디오 데이터(904)와 연관된 분류(922)를 결정하도록 옵션적으로 구성될 수 있다. 구현예(900)에서, 오디오 데이터(904)는 하나 이상의 분류기들(920)에 입력되는 하나 이상의 빔포밍된 신호(910)(예컨대, 빔포밍된 오디오 신호(148))를 포함한다. 다른 예에서, 하나 이상의 프로세서들(126)은, 제1 디바이스로부터, 음원에 대응하는 방향 데이터(912)(예컨대, 도착 방향 정보(142))를 수신하고, 오디오 데이터(904), 방향 데이터(912), 및 오디오 클래스의 표시(902)를 하나 이상의 분류기들(920)에 대한 입력들로서 제공하여 오디오 데이터(904)와 연관된 분류(922)를 결정하도록 옵션적으로 구성될 수 있다.
옵션적으로, 하나 이상의 프로세서들(126)은 오디오 이벤트 정보(145) 대신에, 오디오 이벤트 정보(145)에 더하여, 또는 오디오 이벤트 정보(145)에 포함된 하나 이상의 출력들, 예컨대, 통지(930), 제어 신호(932), 분류기 출력(934), 또는 이들의 조합을 생성하도록 구성된다. 예를 들어, 오디오 클래스(예컨대, 분류(922))가 차량 이벤트(예컨대, 충돌)에 대응하는 구현예에서, 하나 이상의 프로세서들(126)은 제1 디바이스(예컨대, 디바이스(110))의 위치 및 하나 이상의 제3 디바이스들의 위치들에 기초하여 차량 이벤트의 통지(930)를 하나 이상의 제3 디바이스들로 송신할 수 있고, 이는 도 14 및 도 15를 참조하여 추가로 설명되는 바와 같다. 다른 예에서, 디바이스(120)의 사용자는 산길을 따라 걷는 하이킹과 같은 실외 이벤트에 참가중일 수 있고, 오디오 클래스(예컨대, 분류(922))는 짐승 으르렁대는 소리와 같은 안전 관련 이벤트에 대응한다. 이 예에서, 하나 이상의 프로세서들(126)은 안전 관련 이벤트의 통지(930)를 하나 이상의 제3 디바이스들과 연관된 위치 데이터에 기초하여 근처에 있는 것으로 결정된 다른 하이커들의 전화기들 또는 헤드셋들과 같은 하나 이상의 제3 디바이스들로 송신할 수 있다.
다른 예에서, 제어 신호(932)는 분류기 출력(934)에 기초하여 제1 디바이스로 송신된다. 도시하기 위해, 분류기 출력(934)은 하나 이상의 분류기들(920)에 의해 결정된 분류(922)를 나타내는 비트 패턴, 숫자 표시자, 또는 텍스트 라벨 또는 설명을 포함할 수 있다. 예시적인 예에서, 제어 신호(932)는 제1 디바이스에게 오디오 줌 동작을 수행하도록 지시한다. 다른 예에서, 제어 신호(932)는 제1 디바이스에게 음원의 방향에 기초하여 공간 프로세싱을 수행하도록 지시한다. 다른 예에서, 제어 신호(932)는 제1 디바이스에게 동작 모드를 변경하게, 예컨대 미디어 재생 모드(예컨대, 스트리밍 오디오를 제1 디바이스의 사용자에게 재생)로부터 투명 모드(transparency mode)(예컨대, 제1 디바이스의 사용자가 환경 소리들을 들을 수 있게 함)로 전환되게 지시한다.
옵션적으로, 하나 이상의 프로세서들(126)은 도 16을 참조하여 추가로 설명된 바와 같은, 오디오 장면에서 지향성 오디오 소리들의 음원들을 추적하는 것과 연관된 하나 이상의 동작들을 수행하도록 구성된다. 일 예에서, 하나 이상의 프로세서들(126)은 제1 디바이스에 의해 검출되는 음원에 대응하는 방향 데이터(912)를 수신할 수 있다. 오디오 이벤트에 기초하여, 하나 이상의 프로세서들(126)은 오디오 장면 내의 지향성 음원들의 맵을 업데이트하여 업데이트된 맵을 생성할 수 있다. 하나 이상의 프로세서들(126)은 업데이트된 맵에 대응하는 데이터를 제1 디바이스로부터 지리적으로 멀리 떨어진 하나 이상의 제3 디바이스들로 송신할 수 있다. 하나 이상의 제3 디바이스들은 예시적인, 비제한적인 예들로서 업데이트된 맵을 이용하여 하나 이상의 제3 디바이스들의 사용자들에게 제1 디바이스에 근접하게 검출된 음원들에 대해 통지하거나, 또는 공유된 오디오 경험을 공유 가상 환경(예컨대. 가상 회의실)에 참여하는 사용자들에게 제공할 수 있다.
도 10은 디바이스(120)의 다른 구현예(1000)를 도시한다. 도 9의 구현예(900)와 비교하여, 오디오 이벤트 프로세싱 유닛(154)(예컨대, 하나 이상의 분류기들(920))은 빔포밍된 신호(910) 대신에 입력으로서 다중-채널 오디오 신호(1002)를 수신한다. 예를 들어 다중-채널 오디오 신호(1002)는 오디오 데이터(904)에서 수신된 오디오 신호들(170, 172), 마이크로폰들(106, 108)로부터 수신된 오디오 신호들(190, 192), 또는 이들의 조합을 포함할 수 있다. 다중-채널 오디오 신호(1002)는 표시(902), 방향 데이터(912), 또는 둘 모두와 함께 하나 이상의 분류기들(920)에 대한 입력으로서 제공될 수 있다.
도시하기 위해, 일부 상황들에서 빔포밍된 데이터는 이용가능하지 않은데, 예컨대, 오디오 이벤트가 검출되지만 오디오 이벤트의 지향성이 충분한 정확도로 결정될 수 없다(예컨대, 소리가 압도적으로 확산 또는 방향성이 없거나, 또는 빔포밍을 방해하는 다른 소리들에 의해 마스킹됨). 오디오 신호들 또는 빔포밍된 신호들이 디바이스들 사이에서 전송되는지 여부에 기초하여 프로세싱하는 것의 예들은 도 12 및 도 13을 참조하여 기재된다.
도 11은 디바이스(120)의 구현예(1100) 및 디바이스(120)에서 수행될 수 있는 오디오 프로세싱을 표현하는 다이어그램(1150)을 도시한다. 하나 이상의 프로세서들(126)은 오디오 신호들에 대응하는 임베딩들에 기초하여 오디오 콘텐츠에서 배경 신호들로부터 전경 신호들을 분리하도록 구성된 콘텐츠 분리기(1120)를 포함한다.
콘텐츠 분리기(1120)는 특정 소리들의 하나 이상의 시그니처들에 대응하는 하나 이상의 임베딩들(1104)을 수신하도록 구성된 오디오 생성 네트워크(1122)를 포함할 수 있다. 예를 들어, 하나 이상의 임베딩들(1104)은 도 7의 임베딩(712)에 대응하거나 또는 이를 포함할 수 있다. 일부 예들에서, 하나 이상의 임베딩들(1104)은 하나 이상의 오디오 이벤트들의 시그니처들, 특정 사람들의 스피치의 시그니처들 등을 포함할 수 있다. 오디오 생성 네트워크(1122)는 또한 입력 혼합 파형(1102)으로 도시된, 다양한 음원들로부터 배경 소리 및 전경 소리 둘 모두를 포함할 수 있는 오디오 데이터를 수신하도록 구성된다. 오디오 생성 네트워크(1122)는 입력 혼합 파형(1102)이 하나 이상의 임베딩들(1104)에 대응하는 임의의 소리들을 포함하는지 여부를 결정하고, 그 특정 소리들을 추출, 격리, 또는 제거하도록 구성된다.
타겟 출력(1106)이 콘텐츠 분리기(1120)에 의해 생성된다. 타겟 출력(1106)은 특정 소리들에 대응하는 오디오 신호를 포함할 수 있다. 예를 들어, 하나 이상의 임베딩들(1104)에 대응하는 특정 소리들은 입력 혼합 파형(1102) 내의 나머지 소리들로부터 격리되어 타겟 출력(1106)을 생성할 수 있다. 일 예에서, 특정 소리들은 입력 혼합 파형(1102)의 전경 소리들에 대응할 수 있고, 타겟 출력(1106)은 배경이 제거 또는 감쇠된 전경 소리들을 포함할 수 있다.
다른 예에서, 타겟 출력(1106)은 입력 혼합 파형(1102)의 수정된 버전에 대응하고, 입력 혼합 파형(1102)에서 표현되고 특정 소리들의 제거(또는 감쇠) 후에 남아 있는 소리들을 포함할 수 있다. 예를 들어, 특정 소리들은 입력 혼합 파형(1102)의 전경 소리들에 대응할 수 있고, 타겟 출력(1106)은 전경 소리들이 제거(또는 감쇠)된 후에 입력 혼합 파형(1102)에 남아있는 배경 소리들을 포함할 수 있다.
다른 예에서, 타겟 출력(1106)은 입력 혼합 파형(1102)의 배경 소리들로부터 제거되고 상이한 세트의 배경 소리들에 추가된 전경 소리들로서 특정 소리들을 포함하는 오디오 신호를 포함할 수 있다.
다이어그램(1150)에서, 제1 전경 소리(FG1)(1154), 제2 전경 소리(FG2)(1156), 및 제3 전경 소리(FG3)(1158)는 제1 주변(1152)(예컨대, 배경)을 포함하는 오디오 장면(1151)에 도시된다. 전경 추출 동작(1160)은, 격리된 전경 소리들(1162)로 도시되는, 전경 소리들(1154, 1156, 1158)을 제1 주변(1152)으로부터 격리하기 위해 제1 전경 소리(1154)에 대해 하나 이상의 임베딩들(1104) 중 제1 임베딩을 사용하고, 제2 전경 소리(1156)에 대해 하나 이상의 임베딩들(1104) 중 제2 임베딩을 사용하고, 제3 전경 소리(1158)에 대해 하나 이상의 임베딩들(1104) 중 제3 임베딩을 사용하는 콘텐츠 분리기(1120)에 의해 수행된다. 장면 생성 동작(1164)은 전경 소리들(1154, 1156, 1158)을 제2 주변(1172)과 함께 오디오 장면(1171)(예컨대, 업데이트된 오디오 장면) 안에 추가한다. 장면 생성 동작(1164)은 오디오 생성 네트워크(1122), 콘텐츠 분리기(1120), 하나 이상의 프로세서들(1126), 또는 이들의 조합에 의해 수행될 수 있다.
일 예에서, 입력 혼합 파형(1102)은 오디오 장면(1151)에 대응하는 오디오 데이터를 표현하고, 이는 하나 이상의 프로세서들(1126)에 의해 프로세싱되어 조정된 오디오 데이터(예컨대, 격리된 전경 소리들(1162)을 포함하는 타겟 출력(1106))을 생성하고, 조정된 데이터는 다시 하나 이상의 프로세서들(1126)(예컨대, 장면 생성 동작(1164))에 의해 조정되어 업데이트된 오디오 장면(예컨대 오디오 장면(1171))을 생성한다. 오디오 장면(1171)은 다양한 객체들 및 오디오 이벤트들과 연관된 방향 정보(예컨대, 공유된 오디오 장면 내의 다른 참가자들과 연관된 오디오 및 이벤트들)를 포함할 수 있고, 이는 도 16 내지 도 18을 참조하여 추가로 설명되는 바와 같다.
오디오 생성 네트워크(1122)를 포함하는 콘텐츠 분리기(1120)는 임의의 타겟 소리가 배경으로부터 분리될 수 있게 하고, 잡음으로부터 스피치를 분리하는 것에 한정되지 않는다. 일부 구현예들에서, 오디오 생성 네트워크(1122)를 이용하는 콘텐츠 분리기(1120)는 구체적인 오디오 이벤트들, 스피치 등의 단일 마이크로폰 타겟 분리를 가능하게 하고, 오디오 음원들을 구별할 수 없는 종래의 기술들과 연관된 한계들을 극복할 수 있다.
도 12는 정보를 제2 디바이스, 예컨대 디바이스(120)로 송신하는 것에 대해, 제1 디바이스, 예컨대, 디바이스(110)(예컨대, 하나 이상의 프로세서들(116))에 의해 수행될 수 있는 방법(1200)에 대응하는 흐름도를 도시한다.
방법(1200)은 블록(1202)에서 오디오 신호들의 하나 이상의 프레임들을 프로세싱하는 단계를 포함한다. 예를 들어, 오디오 데이터(178)(예컨대, 오디오 신호들(170, 172)의 프레임)는 도 1에 기재된 바와 같이 도착 방향 프로세싱 유닛(132), 오디오 이벤트 프로세싱 유닛(134), 음향 환경 프로세싱 유닛(136), 유닛(138), 또는 이들의 조합에서 프로세싱될 수 있다.
방법(1200)은 블록(1204)에서 오디오 신호들의 하나 이상의 프레임들의 프로세싱이 환경 검출을 초래했는지 여부를 결정하는 단계를 포함한다. 일부 예들에서, 환경 검출은 환경의 변경이 검출되었다고 결정하는 것을 포함할 수 있다. 환경 검출이 발생했다고 결정하는 것에 응답하여, 방법(1200)은 블록(1206)에서 환경 정보를 제2 디바이스로 송신하는 단계를 포함한다. 예를 들어, 디바이스(110)는 환경 정보(146)를 디바이스(120)로 송신한다.
블록(1204)에서, 어떠한 환경 검출도 발생하지 않았다고 결정하는 것에 응답하여, 또는, 블록(1206)에서, 환경 정보를 송신한 후에, 방법(1200)은 1208에서 오디오 신호들의 하나 이상의 프레임들의 프로세싱이 오디오 이벤트가 검출되게 했는지 여부를 결정하는 단계를 포함한다. 오디오 이벤트가 검출된다고 결정하는 것에 응답하여, 방법(1200)은 블록(1210)에서 오디오 이벤트 정보를 제2 디바이스로 송신하는 단계를 포함한다. 예를 들어, 디바이스(110)는 오디오 이벤트 정보(144)를 디바이스(120)로 송신한다.
또한 오디오 이벤트가 검출되었다고 결정하는 것에 응답하여, 방법(1200)은 블록(1212)에서 유효 도착 방향 정보가 이용가능한지 여부를 결정하는 단계를 포함한다. 예를 들어, 유효 도착 방향 정보는 별개의 음원들과 구분가능한 음원이 없는 확산 소리들을 구별하기 위한 신뢰도 임계치를 초과하는 신뢰도에서 결정된 도착 방향을 갖는 음원의 검출에 대응할 수 있다. 특정 구현예에서, 유효 도착 방향 정보가 하나 이상의 오디오 신호들에서 표현되는 소리에 이용가능한 것은 소리가 식별가능한 방향으로부터 (예컨대, 별개의 음원으로부터) 온 것임을 나타내고, 유효 도착 방향 정보가 소리에 이용가능하지 않은 것은 소리가 식별가능한 방향으로부터 온 것이 아님을 나타낸다. 1212에서, 유효 도착 방향 정보가 이용가능하다고 결정하는 것에 응답하여, 방법(1200)은 블록(1214)에서 도착 방향 정보를 제2 디바이스로 송신하는 단계를 포함한다. 예를 들어, 디바이스(110)는 도착 방향 정보(142)를 디바이스(120)로 송신한다.
블록(1208)에서, 오디오 이벤트가 검출되지 않는다고 결정하고, 블록(1212)에서, 유효 도착 방향 정보가 이용가능하지 않다고 결정하는 것에 응답하여, 또는 블록(1214)에서, 도착 방향 정보를 제2 디바이스로 송신한 후에, 방법(1200)은 블록(1220)에서 하나 이상의 오디오 신호들(예컨대, 오디오 신호들(170, 172)), 하나 이상의 빔포밍된 신호들(예컨대, 빔포밍된 오디오 신호들(148))을 제2 디바이스로 보낼지, 아니면 오디오 신호들을 보내지 않을지 결정하는 단계로 진행한다.
도 12는 블록(1220)에서, 일부 구현예들에서, 하나 이상의 오디오 신호들, 하나 이상의 빔포밍된 신호들을 제2 디바이스로 송신하는지, 아니면 어떠한 오디오 신호들도 송신하지 않는지를 결정하는데 사용될 수 있는 여러 옵션적인 결정 동작들을 도시한다.
블록(1230)에서 적어도 하나의 환경 검출 또는 오디오 이벤트 검출이 발생했는지에 대한 결정이 이루어진다. 환경 검출이 발생하지 않았고 오디오 이벤트가 검출되지 않았다고 결정하는 것에 응답하여, 방법(1200)은 블록(1240)에서 오디오가 제2 디바이스로 송신되지 않는다고 결정한다. 따라서, 이 예에서, 환경 검출이 없고 오디오 이벤트도 없을 때, 제1 디바이스(예컨대, 디바이스(110))는 추가적인 프로세싱을 위해 오디오 정보를 제2 디바이스(예컨대, 디바이스(120))로 전달하지 않는다.
그렇지 않으면, 환경 검출 또는 오디오 이벤트 검출 중 적어도 하나가 발생했다고 결정하는 것에 응답하여, 방법(1200)은 블록(1232)에서 제2 디바이스로의 전송에 이용가능한 전력 또는 대역폭의 양이 제한되는지 여부를 결정하는 단계를 포함한다. 예를 들어, 제1 디바이스가 전력 임계치 미만의 이용가능한 배터리 전력량을 갖는 경우, 또는 오디오 데이터를 제2 디바이스로 송신할 전송 대역폭의 이용가능한 양이 전송 임계치 미만인 경우, 제1 디바이스는 제2 디바이스로의 오디오 데이터의 전송과 연관된 리소스들이 보존되어야 한다고 결정할 수 있다. 그렇지 않으면, 제1 디바이스는 디폴트(예컨대, 비보존) 모드로 진행할 수 있다.
블록(1232)에서, 전력 및 전송 대역폭 둘 모두 제한되지 않는다고 결정하는 것에 응답하여, 방법(1200)은 블록(1248)에서 오디오 신호들을 제2 디바이스로 송신하는 단계를 포함한다. 예를 들어, 디바이스(110)는 오디오 신호(170, 172)를 디바이스(120)로 송신한다.
그렇지 않으면, 블록(1232)에서, 전력 또는 전송 대역폭 중 적어도 하나가 제한된다고 결정하는 것에 응답하여, 방법(1200)은 블록(1234)에서 제2 디바이스의 마이크로폰들이 오디오 데이터를 캡처 시 사용에 이용가능한지 여부를 결정하는 단계를 포함한다. 예를 들어, 제2 디바이스의 마이크로폰들(예컨대, 마이크로폰들(106, 108))이, 예컨대, 사용자의 주머니 또는 가방 안에서 가려지거나 또는 차단되거나, 또는 제1 디바이스의 마이크로폰들과 실질적으로 동일한 오디오 정보를 캡처하기에 너무 멀리 위치되어 있는 경우, 제2 디바이스의 마이크로폰들은 이용가능하지 않은 것으로 간주될 수 있다.
블록(1234)에서 제2 디바이스의 마이크로폰들이 사용에 이용가능하다고 결정하는 것에 응답하여, 방법(1200)은 블록(1236)에서 빔포밍된 오디오 신호들이 이용가능한지 여부를 결정하는 단계를 포함한다. 예를 들어, 환경 검출이 방향이 위치파악될 수 있는 특정 음원들로부터의 소리보다는 확산 주변 소리에 기초하여 발생했을 때, 제1 디바이스에서 빔포밍 동작이 수행되지 않을 수 있다. 다른 예로서, 오디오 이벤트가 검출되지만, 오디오 이벤트에 대응하는 음원의 방향이 임계 신뢰도보다 높은 신뢰도로 결정될 수 없을 때, 제1 디바이스에서 유효 빔포밍 신호가 생성되지 않는다.
블록(1236)에서, 빔포밍된 오디오 신호가 이용가능하지 않다고 결정하는 것에 응답하여, 방법(1200)은 블록(1240)에서 오디오 데이터가 제2 디바이스로 송신되지 않는다고 결정한다. 그렇지 않으면, 블록(1236)에서, 빔포밍된 오디오 신호가 이용가능하다고 결정되면, 방법(1200)은 빔포밍된 신호들이 제2 디바이스로 송신되거나 또는 신호들이 송신되지 않는 블록(1242)으로 진행한다. 예를 들어, 전력 또는 전송 리소스들은 제한되지만, 마이크로폰들은 제2 디바이스에서 오디오 캡처 및 분석에 이용가능하기 때문에, 제1 디바이스는 오디오가 제2 디바이스로 송신되지 않는다고 결정할 수 있고, 대신 제2 디바이스는 제2 디바이스에서 분석에 사용될 오디오를 캡처할 수 있다. 그렇지 않으면, 전력 또는 전송 리소스들이 제한되고 마이크로폰들이 제2 디바이스에서 오디오 캡처에 이용가능하더라도, 제1 디바이스는 빔포밍된 오디오 신호를 제2 디바이스로 송신하도록 결정할 수 있다. 특정 구현예에서, 블록(1242)에서 빔포밍된 신호를 송신할지 아니면 신호들을 송신하지 않을지 여부에 대한 결정은 적어도 부분적으로 빔포밍 신호들의 전송에 이용가능한 전력 또는 대역폭의 양에 기초할 수 있다(예컨대, 하나 이상의 대역폭 임계치들 또는 전력 임계치들에 대한 비교를 수행하여 하나 이상의 빔포밍된 오디오 신호들을 송신할지 여부를 결정할 수 있음).
블록(1234)으로 돌아가서, 제2 디바이스의 마이크로폰들이 이용가능하지 않다고 결정하는 것에 응답하여, 방법(1200)은 블록(1238)에서 하나 이상의 빔포밍된 오디오 신호들이 이용가능한지 여부를 결정한다. 하나 이상의 빔포밍된 오디오 신호들이 이용가능한 것에 응답하여, 방법(1200)은 블록(1244)에서 하나 이상의 빔포밍된 오디오 신호들을 송신하는 단계를 포함한다. 그렇지 않으면, 하나 이상의 빔포밍된 오디오 신호들이 이용가능하지 않다고 결정하는 것에 응답하여, 블록(1238)에서, 방법(1200)은 블록(1246)에서 감소된 신호들을 제2 디바이스로 송신하는 단계를 포함한다. 예를 들어, 감소된 신호들을 송신하는 것은, 감소된 수의 마이크로폰 채널들에 대응하는 오디오를 송신하는 것(예컨대, 오디오 신호들(170 또는 172) 중 하나의 신호를 송신하는 것), 마이크로폰 채널들 중 하나 이상의 감소된 해상도 버전을 송신하는 것(예컨대, 오디오 신호들(170, 172) 중 하나 이상의 저해상도 버전), 전체 오디오 신호들(170, 172)을 송신하는 것에 비교하여 감소된 전력 및 대역폭 사용에서 유용한 정보를 제2 디바이스에 제공할 수 있는 추출된 오디오 특징부 데이터(예컨대, 오디오 신호들(170, 172) 중 하나 또는 둘 모두로부터 추출된 특징부 데이터, 예컨대, 스펙트럼 정보)를 송신하는 것을 포함할 수 있다.
도 13은 제1 디바이스, 예컨대, 디바이스(110)로부터 정보를 수신하는 것에 대해, 제2 디바이스, 예컨대, 디바이스(120)(예컨대, 하나 이상의 프로세서들(126))에 의해 수행될 수 있는 방법(1300)에 대응하는 흐름도를 도시한다.
방법(1300)은 블록(1302)에서 제1 디바이스로부터 데이터의 전송을 수신하는 단계를 포함한다. 방법(1300)은 블록(1304)에서 전송이 오디오 신호 데이터를 포함하는지 여부를 결정하는 단계를 포함한다. 예를 들어, 제2 디바이스는 수신된 데이터를 파싱하여 하나 이상의 오디오 신호들(예컨대, 오디오 신호들(170, 172), 하나 이상의 빔포밍된 신호들(148), 또는 이들의 조합)이 수신되었는지 여부를 결정할 수 있다.
전송이 오디오 신호 데이터를 포함하지 않는 경우, 방법(1300)은 블록(1304)에서 옵션적으로 제2 디바이스의 하나 이상의 마이크로폰들이 오디오에 이용가능한지 여부를 결정하는 단계를 포함한다. 예를 들어, 제2 디바이스의 마이크로폰들(예컨대, 마이크로폰들(106, 108))이, 예컨대, 사용자의 주머니 또는 가방 안에서 가려지거나 또는 차단되거나, 또는 제1 디바이스의 마이크로폰들과 실질적으로 동일한 오디오 정보를 캡처하기에 너무 멀리 위치되어 있는 경우, 제2 디바이스의 마이크로폰들은 이용가능하지 않은 것으로 간주될 수 있다.
블록(1304)에서, 하나 이상의 마이크로폰들이 이용가능하지 않다고 결정하는 것에 응답하여, 방법(1300)은 옵션적으로 1306에서 마이크로폰들이 이용가능하지 않다는 신호를 제1 디바이스로 송신하는 단계를 포함하고, 방법은 1308에서 종료한다. 그렇지 않으면, 하나 이상의 마이크로폰들이 이용가능할 때, 방법(1300)은 블록(1310)에서 옵션적으로 제2 디바이스에서 데이터 캡처 동작을 수행하여 오디오 신호들을 캡처하는 단계를 포함한다.
방법(1300)은 옵션적으로 블록(1312)에서 전송이 환경 데이터를 포함하는지 여부를 결정하는 단계를 포함한다. 예를 들어, 디바이스(120)는 수신된 데이터를 파싱하여 환경 정보(146)가 수신되었는지 여부를 결정할 수 있다. 전송이 환경 데이터를 포함하는 것에 응답하여, 방법(1300)은 옵션적으로 1314에서 환경 프로세싱을 수행하는 단계를 포함한다. 예를 들어, 디바이스(120)는 음향 환경 프로세싱 유닛(156)에서 오디오 신호들(170, 172, 190, 192), 또는 이들의 조합을 프로세싱하여 환경 정보(147)를 생성할 수 있다.
방법(1300)은 블록(1320)에서 전송이 오디오 이벤트 데이터를 포함하는지 여부를 결정하는 단계를 포함한다. 예를 들어, 디바이스(120)는 수신된 데이터를 파싱하여 오디오 이벤트 정보(144)가 수신되었는지 여부를 결정할 수 있다. 전송이 오디오 이벤트 데이터를 포함하지 않는 경우, 1322에서 전송에서 수신된 데이터의 프로세싱은 종료한다. 전송이 오디오 이벤트 데이터를 포함하는 것에 응답하여, 방법(1300)은 옵션적으로 블록(1330)에서 전송이 도착 방향 데이터를 포함하는지 여부를 결정하는 단계를 포함한다. 예를 들어, 디바이스(120)는 수신된 데이터를 파싱하여 도착 방향 정보(142)가 수신되었는지 여부를 결정할 수 있다. 전송이 도착 방향 데이터를 포함하지 않는 것에 응답하여, 방법(1300)은 옵션적으로 1332에서 도착 방향 프로세싱을 수행하여 도착 방향 데이터를 생성하는 단계를 포함한다. 예를 들어, 디바이스(120)는 도착 방향 프로세싱 유닛(152)에서 오디오 신호들(170, 172, 190, 192), 또는 이들의 조합을 프로세싱하여 도착 방향 정보(143)를 생성할 수 있다. 그러나, 전송이 도착 방향 데이터를 포함하는 경우, 블록(1332)의 도착 방향 프로세싱은 건너뛰게 된다. 따라서, 제2 디바이스는 도착 방향 정보가 제1 디바이스로부터 수신되는지 여부에 기초하여 오디오 이벤트에 대응하는 수신된 오디오 데이터에 대한 도착 방향 프로세싱을 선택적으로 건너뛸 수 있다.
블록(1330)에서, 전송이 도착 방향 정보를 포함하거나, 또는 블록(1332)에서, 도착 방향 정보를 생성한 후에, 방법(1300)은 블록(1340)에서 옵션적으로 전송이 빔포밍 데이터를 포함하는지 여부를 결정하는 단계를 포함한다. 예를 들어, 디바이스(120)는 수신된 데이터를 파싱하여 빔포밍된 오디오 신호(148)가 수신되었는지 여부를 결정할 수 있다. 전송이 빔포밍 데이터를 포함하지 않는 것에 응답하여, 방법(1300)은 옵션적으로 1342에서 빔포밍 동작을 수행하여 빔포밍 데이터를 생성하는 단계를 포함한다. 예를 들어, 디바이스(120)는 빔포밍 유닛(158)에서 오디오 신호들(170, 172, 190, 192), 또는 이들의 조합을 프로세싱하여 빔포밍된 오디오 신호(149)를 생성할 수 있다. 그러나, 전송이 빔포밍 데이터를 포함하는 경우, 블록(1342)의 빔포밍 동작의 수행은 건너뛰게 된다. 따라서, 제2 디바이스는 수신된 오디오 데이터가 제1 디바이스로부터의 다중-채널 마이크로폰 신호들에 대응하는지 아니면 제1 디바이스로부터의 빔포밍된 신호들에 대응하는지에 기초하여 빔포밍 동작을 선택적으로 건너뛸 수 있다.
블록(1340)에서 전송이 빔포밍 데이터를 포함할 때, 또는 블록(1342)에서 빔포밍 데이터를 생성한 후에, 방법(1300)은 블록(1350)에서 오디오 이벤트 프로세싱을 수행하는 단계를 포함한다. 예를 들어, 디바이스(120)는 오디오 이벤트 프로세싱 유닛(154)에서 오디오 신호들(170, 172, 190, 192), 또는 이들의 조합을 프로세싱하여 오디오 이벤트 정보(145)를 생성할 수 있다.
하나 이상의 동작들, 예컨대, 도착 방향 프로세싱 또는 빔포밍 동작을 선택적으로 건너뜀으로써, 방법(1300)은 제1 디바이스로부터 수신된 오디오 이벤트 데이터를 프로세싱하는 것과 연관된 전력 소모 감소, 레이턴시 감소, 또는 둘 모두를 가능하게 한다.
도 14를 참조하면, 다수의 마이크로폰들로부터 수신된 다수의 오디오 신호들에 지향성 프로세싱을 수행하도록 구성된 시스템의 특정 예시적인 양태가 개시되고 일반적으로 1400으로 지정되어 있다. 시스템(1400)은 제1 마이크로폰(1402) 및 제2 마이크로폰(1404)에 결합된 차량(1410)을 포함한다. 2개의 마이크로폰(1402, 1404)이 도시되어 있지만, 다른 구현예들에서, 추가적인 마이크로폰들이 차량(1410)에 결합될 수 있다. 비제한적인 예로서, 여덟(8)개의 마이크로폰이 차량(1410)에 결합될 수 있다. 일부 구현예들에서, 마이크로폰들(1402, 1404)은 지향성 마이크로폰들이다. 다른 구현예들에서, 마이크로폰들(1402, 1404)은 중 하나 또는 둘 모두는 전방향성 마이크로폰들이다.
일부 구현예들에 따라, 차량(1410)은 자율주행 차량일 수 있다. 즉, 차량(1410)은 사용자 상호작용 없이 내비게이팅할 수 있다. 다른 구현예들에 따라, 차량(1410)은 하나 이상의 사용자-보조 모드들(예컨대, 장애물 검출, 장애물 회피, 차선 유지, 속도 제어 등)을 포함할 수 있고, 일부 예들에서 사용자-보조 모드와 자율주행 모드 사이에서 스위칭될 수 있다. 시스템(1400)은 또한 디바이스(1420)를 포함한다. 일 구현예에 따라, 디바이스(1420)는 제2 차량을 포함한다. 다른 구현예에 따라, 디바이스(1420)는 서버를 포함한다. 아래 기재된 바와 같이, 차량(1410)은 디바이스(1420)와 무선으로 통신하여 차량(1410)에서 검출된 소리들에 기초하여 하나 이상의 동작들, 예컨대, 자율주행 내비게이션을 수행할 수 있다. 특정 구현예에서, 차량(1410)은 디바이스(110)에 대응하고, 디바이스(1420)는 디바이스(120)에 대응한다.
제1 마이크로폰(1402)은 하나 이상의 음원들(1480)로부터 소리(1482)를 캡처하도록 구성된다. 도 14의 예시적인 예에서, 음원(1480)은 다른 차량, 예컨대 자동차에 대응한다. 그러나, 차량은 단지 음원의 비제한적인 예일뿐이고 본 명세서에 설명된 기술들은 다른 음원들로 구현될 수 있음이 이해되어야 한다. 음원(1480)으로부터 소리(1482)를 캡처하면, 제1 마이크로폰(1402)은 캡처된 소리(1482)를 표현하는 오디오 신호(1470)를 생성하도록 구성된다. 유사한 방식으로, 제2 마이크로폰(1404)은 하나 이상의 음원들(1480)로부터 소리(1482)를 캡처하도록 구성된다. 음원(1480)으로부터 소리(1482)를 캡처하면, 제2 마이크로폰(1404)은 캡처된 소리(1482)를 표현하는 오디오 신호(1472)를 생성하도록 구성된다.
제1 마이크로폰(1402) 및 제2 마이크로폰(1404)은 차량(1410) 상에서 상이한 위치들, 상이한 배향들, 또는 둘 모두를 가질 수 있다. 결과적으로, 마이크로폰들(1402, 1404)은 상이한 시간들, 수신된 위상들, 또는 둘 모두에서 소리(1482)를 캡처할 수 있다. 도시하기 위해, 제2 마이크로폰(1404)이 음원(1480)에 가까운 것보다 제1 마이크로폰(1402)이 음원(1480)에 더 가까운 경우, 제1 마이크로폰(1402)은 제2 마이크로폰(1404)이 소리(1482)를 캡처하기 이전에 소리(1482)를 캡처할 수 있다. 아래 기재된 바와 같이, 마이크로폰들(1402, 1404)의 위치 및 배향이 공지된 경우, 마이크로폰들(1402, 1404)에 의해 각각 생성된 오디오 신호들(1470, 1472)은 지향성 프로세싱을 수행하는데 사용될 수 있다. 즉, 오디오 신호들(1470, 1472)은, 차량(1410)에 의해, 음원(1480)의 상대적 위치를 결정하여, 소리(1482)의 도착 방향 등을 결정하도록 사용될 수 있다.
차량(1410)은 제1 입력 인터페이스(1411), 제2 입력 인터페이스(1412), 메모리(1414), 및 하나 이상의 프로세서들(1416)을 포함한다. 제1 입력 인터페이스(1411)는 하나 이상의 프로세서들(1416)에 결합되고, 제1 마이크로폰(1402)에 결합되도록 구성된다. 제1 입력 인터페이스(1411)는 제1 마이크로폰(1402)으로부터 오디오 신호(1470)(예컨대, 제1 마이크로폰 출력)를 수신하도록 구성되고, 오디오 신호(1470)를 프로세서(1416)에 오디오 프레임(1474)으로서 제공할 수 있다. 제2 입력 인터페이스(1412)는 하나 이상의 프로세서들(1416)에 결합되고, 제2 마이크로폰(1404)에 결합되도록 구성된다. 제2 입력 인터페이스(1412)는 제2 마이크로폰(1404)으로부터 오디오 신호(1472)(예컨대, 제2 마이크로폰 출력)를 수신하도록 구성되고, 오디오 신호(1472)를 프로세서(1416)에 오디오 프레임(1476)으로서 제공할 수 있다. 오디오 신호들(1470, 1472), 오디오 프레임들(1474, 1476), 또는 둘 모두는 본 명세서에서 오디오 데이터(1478)로 참조될 수 있다.
하나 이상의 프로세서들(1416)은 도착 방향 프로세싱 유닛(1432)을 포함하고, 옵션적으로 오디오 이벤트 프로세싱 유닛(1434), 리포트 생성기(1436), 내비게이션 명령어 생성기(1438), 또는 이들의 조합을 포함한다. 일 구현예에 따라, 하나 이상의 프로세서들(1416)의 컴포넌트들 중 하나 이상은 전용 회로부를 이용하여 구현될 수 있다. 비제한적인 예들로서, 하나 이상의 프로세서들(1416)의 컴포넌트들 중 하나 이상은 FPGA, ASIC 등을 이용하여 구현될 수 있다. 다른 구현예에 따라, 하나 이상의 프로세서들(1416)의 컴포넌트들 중 하나 이상은 메모리(1414)에 저장된 명령어들(1415)을 실행함으로써 구현될 수 있다. 예를 들어, 메모리(1414)는 본 명세서에 기재된 동작들을 수행하도록 하나 이상의 프로세서들(1416)에 의해 실행가능한 명령어들(1415)을 저장하는 비일시적 컴퓨터-판독가능 매체일 수 있다.
도착 방향 프로세싱 유닛(1432)은 다수의 오디오 신호들(1470, 1472)을 프로세싱하여 오디오 신호들(1470, 1472)에서 표현되는 소리(1482)의 음원들(1480)에 대응하는 도착 방향 정보(1442)를 생성하도록 구성될 수 있다. 일부 구현예들에서, 도착 방향 프로세싱 유닛(1432)은 도 1의 도착 방향 프로세싱 유닛(132)과 유사한 방식으로 동작하도록 구성된다. 예시적이고, 비제한적인 예에서, 도착 방향 프로세싱 유닛(1432)은 음원(1480)으로부터의 소리(1482)와 같은, 유사한 소리를 표현하는 각각의 마이크로폰(1402, 1404)으로부터 생성된 오디오 프레임들(1474, 1476)을 선택할 수 있다. 예를 들어, 도착 방향 프로세싱 유닛(1432)은 오디오 프레임들(1474, 1476)을 프로세싱하여 소리 특성들을 비교하고, 오디오 프레임들(1474, 1476)이 소리(1482)의 동일한 인스턴스를 표현하도록 보장할 수 있다. 오디오 프레임들(1474, 1476)이 소리(1482)의 동일한 인스턴스를 표현한다고 결정하는 것에 응답하여, 도착 방향 프로세싱 유닛(1432)은 각각의 오디오 프레임(1474, 1476)의 타임 스탬프들을 비교하여 어느 마이크로폰(1402, 1404)이 소리(1482)의 대응하는 인스턴스를 먼저 캡처했는지 결정할 수 있다. 오디오 프레임(1474)이 오디오 프레임(1476)보다 더 이른 타임 스탬프를 갖는 경우, 도착 방향 프로세싱 유닛(1432)은 음원(1480)이 제1 마이크로폰(1402)에 근접하게 더 가까이 있음을 나타내는 도착 방향 정보(1442)를 생성할 수 있다. 오디오 프레임(1476)이 오디오 프레임(1474)보다 더 이른 타임 스탬프를 갖는 경우, 도착 방향 프로세싱 유닛(1432)은 음원(1480)이 제2 마이크로폰(1404)에 근접하게 더 가까이 있음을 나타내는 도착 방향 정보(1442)를 생성할 수 있다. 따라서, 유사한 오디오 프레임들(1474, 1476)의 타임스탬프들에 기초하여, 도착 방향 프로세싱 유닛(1432)은 소리(1482) 및 대응하는 음원(1480)의 위치를 파악할 수 있다. 추가적인 마이크로폰들로부터의 오디오 프레임들의 타임 스탬프들은 위에 기재된 바와 유사한 방식으로 위치파악을 개선하는데 사용될 수 있다.
일부 구현예들에서, 도착 방향 정보(1442)를 결정하기 위한 하나 이상의 다른 기술들은, 위에 기재된 바와 같이, 차량(1410)의 마이크로폰 어레이의 각각의 마이크로폰(예컨대, 마이크로폰들(1402, 1404))에서 수신된 소리(1482)의 위상차들을 측정하는 것과 같은 시간차를 대신하여, 또는 이에 더하여 사용될 수 있다. 일부 구현예들에서, 마이크로폰들(1402, 1404)은 마이크로폰 어레이로서 동작되거나 또는 이에 포함될 수 있고, 도착 방향 정보(1442)는 마이크로폰 어레이의 마이크로폰들의 각각으로부터의 소리의 특성들, 예컨대, 도착 시간 또는 위상에 기초하여 그리고 마이크로폰 어레이의 마이크로폰들의 상대적인 위치들 및 배향들에 기초하여 생성된다. 이러한 구현예들에서, 소리 특성들에 관한 정보, 또는 캡처된 오디오 데이터는 도착 방향 검출을 위해 차량(1410)과 디바이스(1420) 사이에서 전송될 수 있다.
오디오 이벤트 프로세싱 유닛(1434)은 다수의 오디오 신호들(1470, 1472)을 프로세싱하여 오디오 이벤트 프로세싱 유닛(134)과 유사한 방식으로 오디오 이벤트 검출을 수행하도록 구성될 수 있다. 도시하기 위해, 오디오 이벤트 프로세싱 유닛(1434)은 오디오 프레임들(1474, 1476)의 소리 특성들을 프로세싱하고 소리 특성들을 복수의 오디오 이벤트 모델들과 비교하여 오디오 이벤트가 발생했는지 여부를 결정할 수 있다. 예를 들어, 오디오 이벤트 프로세싱 유닛(1434)은 상이한 오디오 이벤트들, 예컨대, 자동차 경적, 기차 경적, 보행자 대화 등에 대한 모델들을 포함하는 데이터베이스(미도시)에 액세스할 수 있다. 소리 특성들이 특정 모델에 매칭(또는 실질적으로 매칭)되는 것에 응답하여, 오디오 이벤트 프로세싱 유닛(1434)은 소리(1482)가 특정 모델과 연관된 오디오 이벤트를 표현한다고 나타내는 오디오 이벤트 정보(1444)를 생성할 수 있다. 비제한적인 예로서, 오디오 이벤트는 접근하는 차량(예컨대, 음원(1480))의 소리에 대응할 수 있다.
리포트 생성기(1436)는 도착 방향 정보(1442) 및 오디오 이벤트 정보(1444)에 기초하여 리포트(1446)를 생성하도록 구성될 수 있다. 따라서, 리포트(1446)는 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타낼 수 있다. 여러 소리들이 다양한 방향들로부터 마이크로폰들(1402, 1404)에 의해 캡처되는 시나리오들에서, 리포트(1446)는 일정 기간에 걸친 검출된 이벤트들의 목록 및 검출된 이벤트들의 방향 정보를 나타낼 수 있다.
프로세서들(1416)은 리포트(1446)를 디바이스(1420)로 송신하도록 구성될 수 있다. 구현예에 따라, 리포트(1446)에 기초하여, 디바이스(1420)는 내비게이션 명령어들(1458)을 차량(1410)으로 송신할 수 있다. 디바이스(1420)로부터 내비게이션 명령어들(1458)를 수신할 시, 프로세서(1416)는 내비게이션 명령어들(1458)에 기초하여 차량(1410)을 내비게이팅(예컨대, 자율적으로 내비게이팅)할 수 있다. 대안적으로, 또는 추가적으로, 내비게이션 명령어들(1458)은 차량(1410)의 운전자에게, 예컨대, 시각적 또는 청각적 경고를 제공하거나 또는 차량(1410)의 동작을 조정하라고 지시할 수 있다. 일부 예들에서, 내비게이션 명령어들(1458)은 차량(1410)에 의해 취해져야 하는 경로를 나타낸다(예컨대, 응급 차량이 지나가도록 가능한 안전할 때 한쪽에 멈춰 섬). 일부 예들에서, 내비게이션 명령어들(1458)은 차량(1410)에게 하나 이상의 다른 차량들의 경로에 대해 통지한다(예컨대, 전방에 있는 차량이 사고를 감지했고, 곧 감속할 것임). 프로세서(1416)는 하나 이상의 다른 차량들의 경로를 고려하도록 경로를 변경(예컨대, 루트 변경 또는 속도 변경)하기 위해 차량(1410)을 자율적으로 내비게이팅할 수 있다.
다른 구현예에 따라, 리포트(1446)에 기초하거나 또는 리포트(1446)에 독립적으로, 디바이스(1420)는 제2 리포트(1456)를 차량(1410)으로 송신할 수 있다. 제2 리포트(1456)를 수신하는 것에 응답하여, 구현예에 따라, 프로세서(1416)는 리포트(1446) 및 제2 리포트(1456)에 기초하여 차량(1410)을 내비게이팅(예컨대, 자율적으로 내비게이팅) 할 수 있다. 다른 구현예에 따라, 제2 리포트(1456)를 수신하는 것에 응답하여, 내비게이션 명령어 생성기(1438)는 차량(1410)을 내비게이팅하기 위해 프로세서(1416)에 의해 사용될 내비게이션 명령어들(1448)을 생성하도록 구성될 수 있다. 일부 예들에서, 제2 리포트(1456)는 다른 차량에 의해 검출된 이벤트를 나타낸다(예컨대, 전방에 있는 차량이 사고를 나타내는 소리들을 검출했음). 내비게이션 명령어 생성기(1438)는 이벤트의 위치를 회피하기 위해 이동 경로를 변경하거나 또는 속도를 변경(예컨대, 감속)하도록 차량(1410)을 자율적으로 내비게이팅하는 내비게이션 명령어들(1448)을 생성할 수 있다. 프로세서(1416)는 또한 내비게이션 명령어들(1448)을 디바이스(1420)로 송신하여 디바이스(1420)에게 차량(1410)의 경로에 대해 통지할 수 있다. 일부 예들에서, 내비게이션 명령어들(1448)은 하나 이상의 다른 차량들에 의해 취해지도록 추천되는 경로(예컨대, 루트 또는 속도)를 나타낸다. 예를 들어, 내비게이션 명령어들(1448)은 차량(1410)이 감속중임을 나타내고, 차량(1410)의 20 피트 내의 임의의 차량들은 감속 또는 루트 변경이 권장된다.
옵션적으로, 디바이스(1420)는 차량(1410)의 위치 및 하나 이상의 다른 디바이스들(1490)의 위치들에 기초하여 오디오 이벤트(예컨대, 차량 충돌)의 통지(1492)를 하나 이상의 다른 디바이스들(1490)로 송신할 수 있다. 일 예에서, 통지(1492)는 도 9의 통지(930)에 대응한다. 하나 이상의 디바이스들(1490)은 예시적인, 비제한적인 예로서, 차량들에게 차량(1410)의 부근에 있는 하나 이상의 검출된 오디오 이벤트들(예컨대, 사이렌, 충돌 등)에 대해 통지할, 차량(1410)의 부근에 있거나 또는 차량(1410)의 위치로 접근하고 있다고 결정될 수 있는 하나 이상의 다른 차량들을 포함할 수 있거나, 또는 이에 통합될 수 있다.
도 14의 시스템(1400)은 차량(1410)이 외부 소리들, 예컨대 사이렌들을 듣고, 그에 따라 내비게이팅할 수 있게 한다. 다수의 마이크로폰들을 사용함으로써 사이렌 소리들(예컨대, 음원(1480))의 위치 및 상대적인 거리를 결정할 수 있고, 검출된 사이렌 소리들이 접근하거나 또는 멀어짐에 따라 위치 및 상대적인 거리가 디스플레이될 수 있음이 이해되어야 한다.
도 15는 디바이스(1520)(예컨대, 제2 디바이스)와 통신하는 차량(1510)(예컨대, 제1 디바이스)을 포함하는 시스템(1500)의 특정 예시적인 양태를 도시한다. 차량(1510)은 도 14의 입력 인터페이스들(1412, 1411), 메모리(1414), 및 하나 이상의 프로세서들(1416)을 포함한다. 특정 구현예에서, 차량(1510)은 디바이스(110)에 대응하고, 디바이스(1520)는 디바이스(120)에 대응한다.
하나 이상의 프로세서들(1416)은 생성된 오디오 이벤트 정보(1444)가 검출된 오디오 이벤트가 차량 이벤트(1502), 및 차량 이벤트(1502)와 연관된 오디오 클래스(1504)에 대응함을 나타내는 오디오 이벤트 프로세싱 유닛(1434)의 구현예를 포함한다. 예를 들어, 오디오 이벤트 프로세싱 유닛(1434)은 오디오 데이터(1478)를 프로세싱하여 오디오 데이터(1478)에서 표현되고 차량 이벤트(1502)와 연관된 소리(1482)에 대응하는 오디오 클래스(1504)를 결정하도록 구성된, 도 6의 하나 이상의 분류기들(610)과 같은 하나 이상의 분류기들을 포함할 수 있다.
하나 이상의 프로세서들(1416)은 디바이스(1520)에 차량 이벤트(1502)와 연관된 소리를 표현하는 오디오 데이터(1550)를 송신하도록 구성된다. 예를 들어, 오디오 데이터(1550)는 오디오 데이터(1478), 오디오 신호들(1470, 1472), 소리(1482)의 음원(1480)으로 지향되는 하나 이상의 빔포밍된 오디오 신호들, 또는 이들의 조합을 포함할 수 있다. 하나 이상의 프로세서들(1416)은 또한, 디바이스(1520)로, 오디오 데이터(1550)가 차량 이벤트(1502)와 연관된 오디오 클래스(1504)에 대응한다는 표시(1552)를 송신하도록 구성된다. 예를 들어, 표시(1552)는 도 6 또는 도 8의 표시(616)에 대응할 수 있다.
디바이스(1520)는 명령어들(1515)을 저장하도록 구성된 메모리(1514)를 포함하고, 또한 메모리(1514)에 결합된 하나 이상의 프로세서들(1516)을 포함한다. 하나 이상의 프로세서들(1516)은, 차량(1510)(예컨대, 제1 디바이스)으로부터, 소리(1482)를 표현하는 오디오 데이터(1550) 및 오디오 데이터(1554)가 차량 이벤트(1502)와 연관된 오디오 클래스(1504)에 대응한다는 표시(1552)를 수신하도록 구성된다. 특정 구현예에서, 디바이스(1520)는 비제한적인 예들로서, 다른 차량, 서버, 또는 분산 컴퓨팅(예컨대, 클라우드 기반) 시스템에 대응한다.
하나 이상의 프로세서들(1516)은 또한 하나 이상의 분류기들(1530)에서 오디오 데이터(1550)를 프로세싱하여 오디오 데이터(1550)에서 표현되는 소리(1482)가 차량 이벤트(1502)에 대응함을 검증하도록 구성된다. 예를 들어, 특정 구현예에서, 하나 이상의 분류기들(1530)은 도 9의 하나 이상의 분류기들(920)에 대응한다. 하나 이상의 프로세서들(1516)은 차량(1510)(예컨대, 제1 디바이스)의 위치 및 하나 이상의 디바이스들(1490)(예컨대, 하나 이상의 제3 디바이스들)의 위치들에 기초하여 차량 이벤트(1502)의 통지(1492)를 하나 이상의 디바이스들(1490)로 송신하도록 구성된다.
도 16은 하나 이상의 프로세서들(126)이 제1 디바이스(예컨대, 디바이스(110))에 의해 검출된 오디오 이벤트들에 기초하여 지향성 음원들의 맵(1614)을 업데이트하도록 구성된 디바이스(120)(예컨대, 제2 디바이스)의 특정 구현예를 도시한다.
하나 이상의 프로세서들(126)은 오디오 이벤트 프로세싱 유닛(154), 맵 업데이터(1612), 및 오디오 장면 렌더러(1618)를 포함한다. 하나 이상의 프로세서들(126)은 오디오 장면에서 지향성 오디오 소리들의 음원들을 추적하는 것과 연관된 하나 이상의 동작들을 수행하도록 구성된다. 일 예에서, 하나 이상의 프로세서들(126)은, 제1 디바이스로부터, 오디오 이벤트에 대응하는 오디오 클래스의 표시(1602), 예컨대 도 6의 표시(616), 및 오디오 이벤트와 연관된 음원에 대응하는 방향 데이터(1604), 예컨대, 도착 방향 정보(142)를 수신할 수 있다.
하나 이상의 프로세서들(126)은, 오디오 이벤트에 기초하여, 오디오 장면에서 지향성 음원들의 맵(1614)을 업데이트하여 업데이트된 맵(1616)을 생성할 수 있다. 예를 들어, 오디오 이벤트가 새롭게 검출된 오디오 이벤트에 대응하면, 맵 업데이터(1612)는 오디오 이벤트에 대응하는 정보를 맵(1614)에 삽입하여 업데이트된 맵(1616)을 생성하도록 구성된다. 삽입된 정보는 오디오 이벤트와 연관된 음원의 위치와 같은 정보, 오디오 이벤트의 유형의 표시(예컨대, 오디오 이벤트에 대응하는 오디오 클래스), 및 오디오 이벤트와 연관된 오디오(예컨대, 소리를 표현하는 오디오 신호 데이터에 대한 링크)를 포함할 수 있다.
옵션적으로, 하나 이상의 프로세서들(126)은 업데이트된 맵(1616)에 대응하는 데이터(1660)를 제1 디바이스로부터 지리적으로 멀리 떨어진 디바이스들(1670, 1672, 1674)로 도시된 하나 이상의 제3 디바이스들로 송신할 수 있다. 데이터(1660)는 디바이스들(1670, 1672, 1674)이 각각 디바이스의 맵(1614)의 로컬 사본을 업데이트할 수 있게 하여 디바이스(1670, 1672, 또는 1674)의 사용자가 통지받거나, 액세스하거나, 또는 오디오 이벤트와 연관된 소리를 경험할 수 있게 한다.
일부 구현예들에서, 맵(1614)(및 업데이트된 맵(1616))은, 근처에서 충돌이 검출될 때 차량들에게 통지 또는 차량 내비게이션 명령어들을 업데이트하여 도 14 및 도 15에 설명된 바와 같은, 특정 오디오 이벤트들을 회피하기 위해 지리적 영역에 걸쳐 분포된 오디오 이벤트들 및 위치들의 데이터베이스, 예컨대 "크라우드소스된(crowdsourced)" 데이터베이스에 대응한다. 다른 구현예들에서, 맵(1614)(및 업데이트된 맵(1616))은 이웃, 마을, 도시 등에서 검출된 소리 이벤트들의 맵을 제공하는 것과 같이, 다른 애플리케이션들에 사용될 수 있다. 예를 들어, 범죄와 연관된 오디오 이벤트들의 맵(예컨대, 총소리들, 고함, 사이렌들, 유리 깨짐 등)은 자원 할당을 계획하거나 또는 수사를 필요로 하는 이벤트들을 검출하기 위해 법 집행기관에 의해 사용될 수 있다. 다른 예로서, 오디오 이벤트들의 맵은 자연과 연관될 수 있다. 도시하기 위해, 새 애호가들은 그들의 특정 새 지저귀는 소리들의 검출 및 분류에 기초하여 위치파악된 다양한 유형들의 새들의 맵을 사용할 수 있다.
일부 구현예들에서, 오디오 장면 렌더러(1618)는 제1 디바이스의 사용자에게 재생하기 위해 업데이트된 맵(1616)에 기초하여 3차원 소리 장면에 대응하는 소리 데이터를 생성하도록 구성된다. 예를 들어, 제1 디바이스는 도 21을 참조하여 기재된 바와 같은 사용자에 의해 착용되는 오디오 헤드셋, 또는 도 25를 참조하여 기재된 바와 같은 가상 현실, 증강 현실, 또는 혼합 현실 헤드셋에 대응할 수 있다.
도 17은 헤드셋을 착용하고 있는 사용자(1702)를 둘러싸는 오디오 장면의 3D 오디오 맵(1700)의 그래픽 예를 도시한다. 3D 오디오 맵(1700)은 도 16의 맵(1614)(또는 업데이트된 맵(1616))에 대응할 수 있다. 3D 오디오 맵(1700)은 일반적으로 사용자(1702)를 향하는 방향으로 이동하고 있는 제1 차량(1710) 및 또한 일반적으로 사용자를 향하는 방향으로 이동하고 있는 제2 차량(1712)을 포함한다. (이동하는 오디오 음원들의 이동 방향이 화살표들로 표시됨). 다른 음원들은 개 짖는 소리(1714), 사람 말소리(1716), 길을 건너기 위해 남은 시간을 카운팅하는 횡단보도 타이머(1718), 및 3D 오디오 맵(1700)에 편집된 인공적인 소리(1720)를 포함한다. 예를 들어, 음원들(1710 내지 1718)은 사용자(1702)에 의해 착용된 헤드셋의 마이크로폰들에 의해 검출된 실제세계 음원들일 수 있고, 인공 소리(1720)는 그 위치에 있는 상점 또는 식당과 연관된 음향 효과(예컨대, 커머셜 징글(commercial jingle))과 같은, 증강 현실 엔진(또는 게임 엔진)에 의해 소리 장면의 특정 위치에 추가될 수 있다.
도 18은, 예컨대, 도 16의 맵(1614)(또는 업데이트된 맵(1616))에 기초하여, 소리 이벤트 및 환경 클래스 검출을 이용하여 캡처된 지향성 오디오 장면(1802)의 예를 도시한다. 사용자(1804)는 지향성 오디오 장면(1802)의 중심에 있고, 실질적으로 사용자(1804)의 위/아래에 위치설정된 스피커들의 제1 세트 중 제1 대표 스피커(1810), 지향성 오디오 장면(1802)의 상부 및 하부 주변을 따라 위치설정된 스피커들의 제2 세트 중 제2 대표 스피커(1812), 및 사용자(1804) 주위에서 대략 머리 높이에 위치설정된 스피커들의 제3 세트 중 제3 대표 스피커(1814)를 포함하는, 지향성 오디오 장면(1802)의 음장들과 연관된 다수의 가상(또는 실제) 스피커들의 세트들이 도시된다.
특정 구현예에서, 동작(1820)(예컨대, 유형, 방향 등에 기초하여 소리 이벤트들을 추가 또는 제거하기 위한 맵(1614)의 업데이트)은 사용자(1804)에 더하여 다수의 가상 참가자들(1832, 1834)을 포함하는 업데이트된 지향성 오디오 장면(1830)을 만든다. 예를 들어, 가상 참가자들(1832, 1834)은 그들 각자의 로컬 음장들에 관한 정보를 공유하는 원격 사용자들에 대응할 수 있고, 이는 지향성 오디오 장면(1802)과 조합되어 사용자(1804) 및 다양한 참가자들(1832, 1834)을 위한 몰입형 공유 가상 경험을 생성할 수 있다. 이러한 공유 가상 경험들은 개인적으로 사회적 제약, 건강상 제약, 또는 기타 제약들로 인해 참여할 수 없는 사람들을 위한 라이브 여행 채널 가이드 또는 라이브 컨퍼런스, 파티, 또는 이벤트들 몰입과 같은 애플리케이션들에 사용될 수 있다.
도 19는 지향성 오디오 신호 프로세싱 회로부를 포함하는 집적 회로(1902)로서 디바이스(110, 120) 중 적어도 하나의 구현예(1900)를 도시한다. 예를 들어, 집적 회로(1902)는 하나 이상의 프로세서들(1916)을 포함한다. 하나 이상의 프로세서들(1916)은 하나 이상의 프로세서들(116), 하나 이상의 프로세서들(126), 도 2의 하나 이상의 프로세서들(202), 도 3 내지 도 5에 대하여 기재된 프로세싱 회로부, 하나 이상의 프로세서들(1416), 하나 이상의 프로세서들(1516), 또는 이들의 조합에 대응할 수 있다. 하나 이상의 프로세서들(1916)은 지향성 오디오 신호 프로세싱 유닛(1990)을 포함한다. 지향성 오디오 신호 프로세싱 유닛(1990)은 프로세서(116)의 적어도 하나의 컴포넌트, 프로세서(126)의 적어도 하나의 컴포넌트, 프로세서(202)의 적어도 하나의 컴포넌트, 헤드셋(310)의 적어도 하나의 컴포넌트, 헤드셋(410)의 적어도 하나의 컴포넌트, 모바일 폰(420)의 적어도 하나의 컴포넌트, 시스템(500)의 적어도 하나의 컴포넌트, 프로세서(1416)의 적어도 하나의 컴포넌트, 프로세서(1516)의 적어도 하나의 컴포넌트, 또는 이들의 조합을 포함할 수 있다.
집적 회로(1902)는 또한 프로세싱을 위해 오디오 데이터(178)가 수신되게 하는 하나 이상의 버스 인터페이스들과 같은 오디오 입력부(1904)를 포함한다. 집적 회로(1902)는 또한 지향성 오디오 신호 데이터(1992)의 송신을 가능하게 하는 버스 인터페이스와 같은 신호 출력부(1906)를 포함한다. 지향성 오디오 신호 데이터(1992)는 도착 방향 정보(142, 143), 오디오 이벤트 정보(144, 145), 환경 정보(146, 147), 빔포밍된 오디오 신호들(148, 149), 방향 정보(250), 제1 소리 정보(440), 제2 소리 정보(442), 콘텍스트 정보(496), 오디오 줌 각도(460), 잡음 감소 파라미터들(462), 도착 방향 정보(542), 오디오 이벤트 정보(544), 표시(616), 표시(716), 통지(930), 제어 신호(932), 분류기 출력(934), 타겟 출력(1106), 리포트들(1446, 1456), 내비게이션 명령어들(1448, 1458), 통지(1492), 표시(1552), 오디오 데이터(1550), 데이터(1660), 또는 이들의 조합 중 적어도 하나에 대응할 수 있다.
집적 회로(1902)는 마이크로폰들을 포함하는 시스템, 예컨대, 도 20에 도시된 바와 같은 모바일 폰 또는 태블릿, 도 21에 도시된 바와 같은 헤드셋, 도 22에 도시된 바와 같은 웨어러블 전자 디바이스, 도 23에 도시된 바와 같은 음성제어 스피커 시스템, 도 24에 도시된 바와 같은 카메라, 도 25에 도시된 바와 같은 가상 현실 헤드셋, 혼합 현실 헤드셋, 또는 증강 현실 헤드셋, 도 26에 도시된 바와 같은 증강 현실 안경 또는 혼합 현실 안경, 도 27에 도시된 바와 같은 인이어(in-ear) 디바이스들의 세트, 또는 도 28 또는 도 29에 도시된 바와 같은 차량 내의 컴포넌트로서 지향성 오디오 신호 프로세싱을 가능하게 한다.
도 20은 디바이스(120)가 예시적인, 비제한적인 예들로서 전화기 또는 태블릿과 같은 모바일 디바이스(2002)인 구현예(2000)를 도시한다. 모바일 디바이스(2002)는 주로 사용자의 스피치를 캡처하도록 위치설정된 제3 마이크로폰(106), 주로 환경 소리들을 캡처하도록 위치설정된 하나 이상의 제4 마이크로폰들(108), 및 디스플레이 스크린(2004)을 포함한다. 지향성 오디오 신호 프로세싱 유닛(1990)은 모바일 디바이스(2002)에 통합되고, 일반적으로 모바일 디바이스(2002)의 사용자에게 보이지 않는 내부 컴포넌트들을 나타내기 위해 점선을 이용하여 도시되어 있다. 특정 예에서, 지향성 오디오 신호 프로세싱 유닛(1990)은 지향성 오디오 신호 데이터(1992)를 생성하도록 기능할 수 있고, 이는 이어서 모바일 디바이스(2002)에서 하나 이상의 동작들, 예컨대, 그래픽 사용자 인터페이스를 개시하거나 또는 다른 방식으로 (예컨대, 통합된 "스마트 어시스턴트" 애플리케이션을 통해) 디스플레이 스크린(2004)에서 검출된 오디오 이벤트와 연관된 다른 정보를 디스플레이하는 것을 수행하도록 프로세싱된다.
도 21은 디바이스(110)가 헤드셋 디바이스(2102)인 구현예(2100)를 도시한다. 헤드셋 디바이스(2102)는 주로 사용자의 스피치를 캡처하도록 위치설정된 제1 마이크로폰(102) 및 주로 환경 소리들을 캡처하도록 위치설정된 하나 이상의 제2 마이크로폰들(104)을 포함한다. 지향성 오디오 신호 프로세싱 유닛(1990)은 헤드셋 디바이스(2102)에 통합된다. 특정 예에서, 지향성 오디오 신호 프로세싱 유닛(1990)은 지향성 오디오 신호 데이터(1992)를 생성하도록 기능할 수 있고, 이는 헤드셋 디바이스(2102)로 하여금 헤드셋 디바이스(2102)에서 하나 이상의 동작들을 수행하거나, 추가적인 프로세싱을 위해 지향성 오디오 신호 데이터(1992)를 제2 디바이스(미도시)로 전송하거나, 또는 이들의 조합을 하게 할 수 있다. 헤드셋 디바이스(2102)는, 예컨대, 오디오 이벤트 정보(144), 오디오 이벤트 정보(145), 환경 정보(146), 환경 정보(147), 또는 이들의 조합에 기초하여, 헤드셋 디바이스(2102)의 착용자에게 검출된 오디오 이벤트 또는 환경에 대한 청각적 통지를 제공하도록 구성될 수 있다.
도 22는 디바이스(110, 120) 중 적어도 하나가 "스마트 워치"로 도시된, 웨어러블 전자 디바이스(2202)인 구현예(2200)를 도시한다. 지향성 오디오 신호 프로세싱 유닛(1990), 제1 마이크로폰(102), 및 하나 이상의 제2 마이크로폰들(104)은 웨어러블 전자 디바이스(2202)에 통합된다. 특정 예에서, 지향성 오디오 신호 프로세싱 유닛(1990)은 지향성 오디오 신호 데이터(1992)를 생성하도록 기능할 수 있고, 이는 이어서 웨어러블 전자 디바이스(2202)에서 하나 이상의 동작들, 예컨대 그래픽 사용자 인터페이스를 개시하거나 또는 다른 방식으로 웨어러블 전자 디바이스(2202)의 디스플레이 스크린(2204)에서 검출된 오디오 이벤트와 연관된 다른 정보를 다른 정보를 디스플레이하는 것을 수행하도록 프로세싱된다. 도시하기 위해, 웨어러블 전자 디바이스(2202)의 디스플레이 스크린(2204)은 웨어러블 전자 디바이스(2202)에 의해 검출된 스피치에 기초하여 통지를 디스플레이하도록 구성될 수 있다. 특정 예에서, 웨어러블 전자 디바이스(2202)는 오디오 이벤트의 검출에 응답하여 햅틱 통지를 제공(예컨대, 진동들)하는 햅틱 디바이스를 포함한다. 예를 들어, 햅틱 통지는 사용자로 하여금 웨어러블 전자 디바이스(2202)를 보게 하여, 예컨대, 오디오 이벤트 정보(144), 오디오 이벤트 정보(145), 환경 정보(146), 환경 정보(147), 또는 이들의 조합에 기초하여, 검출된 오디오 이벤트 또는 환경에 대한 디스플레이된 통지를 알게 할 수 있다. 따라서 웨어러블 전자 디바이스(2202)는 청각 장애를 가진 사용자 또는 헤드셋을 착용한 사용자에게 특정 오디오 활동이 검출됨을 경고할 수 있다.
도 23은 디바이스들(110, 120) 중 적어도 하나가 무선 스피커 및 음성 활성화 디바이스(2302)인 구현예(2300)이다. 무선 스피커 및 음성 활성화 디바이스(2302)는 무선 네트워크 연결성을 가질 수 있고 어시스턴트 동작을 실행하도록 구성된다. 지향성 오디오 신호 프로세싱 유닛(1990), 제1 마이크로폰(102), 하나 이상의 제2 마이크로폰들(104), 제3 마이크로폰(106), 제4 마이크로폰(108), 또는 이들의 조합은 무선 스피커 및 음성 활성화 디바이스(2302)에 포함된다. 무선 스피커 및 음성 활성화 디바이스(2302)는 또한 스피커(2304)를 포함한다. 특정 양태에서, 스피커(2304)는 도 3의 스피커(336), 도 4의 스피커(436), 또는 둘 모두에 대응한다. 동작 동안, 지향성 오디오 신호 프로세싱 유닛(1990)은 지향성 오디오 신호 데이터(1992)를 생성하고 키워드가 발언되었는지 여부를 결정하도록 기능할 수 있다. 키워드가 발언되었다는 결정에 응답하여, 무선 스피커 및 음성 활성화 디바이스(2302)는, 예컨대, 통합 어시스턴트 애플리케이션의 실행을 통해, 어시스턴트 동작들을 실행할 수 있다. 어시스턴트 동작들은 온도를 조절하고, 음악을 재생하고, 조명을 켜는 것 등을 포함할 수 있다. 예를 들어, 어시스턴트 동작들은 키워드 또는 핵심 구절(예컨대, "안녕 어시스턴트") 후에 명령을 수신하는 것에 응답하여 수행된다.
도 24는 디바이스들(110, 120) 중 적어도 하나가 카메라 디바이스(2402)에 대응하는 휴대용 전자 디바이스인 구현예(2400)를 도시한다. 지향성 오디오 신호 프로세싱 유닛(1990), 제1 마이크로폰(102), 하나 이상의 제2 마이크로폰들(104), 또는 이들의 조합은 카메라 디바이스(2402)에 포함된다. 동작 동안, 지향성 오디오 신호 프로세싱 유닛(1990)은 지향성 오디오 신호 데이터(1992)를 생성하고 키워드가 발언되었는지 여부를 결정하도록 기능할 수 있다. 키워드가 발언되었다는 결정에 응답하여, 카메라 디바이스(2402)는 예시적인 예들로서, 이미지 또는 비디오 캡처 설정들, 이미지 또는 비디오 재생 설정들, 또는 이미지 또는 비디오 캡처 지시들을 조정하는 것과 같이, 음성 사용자 명령들에 응답하여 동작들을 실행할 수 있다.
도 25는 디바이스(110)가 가상 현실("VR"), 증강 현실("AR"), 또는 혼합 현실("MR") 헤드셋 디바이스과 같은 확장 현실("XR") 헤드셋(2502)에 대응하는 휴대용 전자 디바이스를 포함하는 구현예(2500)를 도시한다. 지향성 오디오 신호 프로세싱 유닛(1990), 제1 마이크로폰(102), 하나 이상의 제2 마이크로폰들(104), 또는 이들의 조합은 헤드셋(2502)에 통합된다. 특정 양태에서, 헤드셋(2502)은 주로 사용자의 스피치를 캡처하도록 위치설정된 제1 마이크로폰(102) 및 주로 환경 소리들을 캡처하도록 위치설정된 제2 마이크로폰(104)을 포함한다. 지향성 오디오 신호 프로세싱 유닛(1990)은 헤드셋(2502)의 제1 마이크로폰(102) 및 제2 마이크로폰(104)으로부터 수신된 오디오 신호들에 기초하여 지향성 오디오 신호 데이터(1992)를 생성하도록 기능할 수 있다. 시각적 인터페이스 디바이스는 헤드셋 (2502)이 착용된 동안 사용자에게 증강 현실 또는 가상 현실 이미지들 또는 장면들의 디스플레이를 가능하게 하기 위해 사용자의 눈 앞에 위치설정된다. 특정한 예에서, 시각적 인터페이스 디바이스는 오디오 신호에서 검출된 사용자 스피치를 표시하는 통지를 디스플레이하도록 구성된다. 특정 예에서, 시각적 인터페이스 디바이스는 (예컨대, 가상 현실 애플리케이션에서) 디스플레이된 콘텐츠 상에 중첩되거나 또는 (예컨대, 증강 현실 애플리케이션에서) 사용자의 시야 상에 중첩되는 검출된 오디오 이벤트를 나타내는 통지를 디스플레이하여 사용자에게 오디오 이벤트와 연관된 음원의 위치를 시각적으로 나타내도록 구성된다. 도시하기 위해, 시각적 인터페이스 디바이스는, 예컨대, 오디오 이벤트 정보(144), 오디오 이벤트 정보(145), 환경 정보(146), 환경 정보(147), 또는 이들의 조합에 기초하여 검출된 오디오 이벤트 또는 환경의 통지를 디스플레이하도록 구성될 수 있다.
도 26은 디바이스(110)가 증강 현실 또는 혼합 현실 안경(2602)에 대응하는 휴대용 전자 디바이스를 포함하는 구현예(2600)를 도시한다. 안경(2602)은 렌즈(2606)의 표면 상에 시각적 데이터를 투사하거나 또는 시각적 데이터를 렌즈(2606)의 표면 상에서 반사시켜 착용자의 망막에 맺게 하도록 구성된 홀로그래픽 투사 유닛(2604)을 포함한다. 지향성 오디오 신호 프로세싱 유닛(1990), 제1 마이크로폰(102), 하나 이상의 제2 마이크로폰들(104), 또는 이들의 조합은 안경(2602)에 통합된다. 지향성 오디오 신호 프로세싱 유닛(1990)은 제1 마이크로폰(102) 및 제2 마이크로폰(104)으로부터 수신된 오디오 신호들에 기초하여 지향성 오디오 신호 데이터(1992)를 생성하도록 기능할 수 있다. 특정 예에서, 홀로그래픽 투사 유닛(2604)은 오디오 신호에서 검출된 사용자 스피치를 나타내는 통지를 디스플레이하도록 구성된다. 특정 예에서, 홀로그래픽 투사 유닛(2604)은 검출된 오디오 이벤트를 나타내는 통지를 디스플레이하도록 구성된다. 예를 들어, 통지는 오디오 이벤트와 연관된 음원의 위치와 일치하는 특정 위치에서 사용자의 시야 상에 중첩될 수 있다. 도시하기 위해, 소리는 사용자에게 통지의 방향으로부터 나오는 것처럼 인지될 수 있다. 예시적인 구현예에서, 홀로그래픽 투사 유닛(2604)은, 예컨대, 오디오 이벤트 정보(144), 오디오 이벤트 정보(145), 환경 정보(146), 환경 정보(147), 또는 이들의 조합에 기초하여 검출된 오디오 이벤트 또는 환경의 통지를 디스플레이하도록 구성된다.
도 27은 디바이스(110)가 제1 이어폰(2702) 및 제2 이어폰(2704)을 포함하는 한쌍의 이어폰(2706)에 대응하는 휴대용 전자 디바이스를 포함하는 구현예(2700)를 도시한다. 이어폰들이 기재되지만, 본 기술은 다른 인이어 또는 오버이어(over-ear) 재생 디바이스들에 적용될 수 있음이 이해되어야 한다.
제1 이어폰(2702)은 제1 이어폰(2702)의 착용자의 음성을 캡처하도록 위치설정된 높은 신호대잡음 마이크로폰과 같은 제1 마이크로폰(2720), 주변 소리들을 검출하도록 구성되고 빔포밍을 지원하도록 공간적으로 분포된, 마이크로폰들(2722A, 2722B, 2722C)로 도시된, 하나 이상의 다른 마이크로폰들의 어레이, (예컨대, 활성 잡음 소거를 보조하기 위해) 착용자의 이도에 근접한 "내부" 마이크로폰(2724), 및 착용자의 귓뼈 또는 두개골의 소리 진동들을 오디오 신호로 변환하도록 구성된 골전도 마이크로폰과 같은 자가음성 마이크로폰(2726)을 포함한다.
특정 구현예에서, 제1 마이크로폰(2720)은 마이크로폰(102)에 대응하고, 마이크로폰들(2722A, 2722B, 2722C)은 마이크로폰(104)의 다수의 인스턴스들에 대응하고, 마이크로폰들(2720, 2722A, 2722B, 2722C)에 의해 생성되는 오디오 신호들은 지향성 오디오 신호 프로세싱 유닛(1990)에 제공된다. 지향성 오디오 신호 프로세싱 유닛(1990)은 오디오 신호들에 기초하여 지향성 오디오 신호 데이터(1992)를 생성하도록 기능할 수 있다. 일부 구현예들에서, 지향성 오디오 신호 프로세싱 유닛(1990)은 제1 이어폰(2702)의 하나 이상의 다른 마이크로폰들, 예컨대, 내부 마이크로폰(2724), 자가음성 마이크로폰(2726), 또는 둘 모두로부터의 오디오 신호들을 프로세싱하도록 추가로 구성될 수 있다.
제2 이어폰(2704)은 제1 이어폰(2702)과 실질적으로 유사한 방식으로 구성될 수 있다. 일부 구현예들에서, 제1 이어폰(2702)의 지향성 오디오 신호 프로세싱 유닛(1990)은 또한 제2 이어폰(2704)의 하나 이상의 마이크로폰들에 의해 생성된 하나 이상의 오디오 신호들을, 예컨대, 이어폰들(2702, 2704) 사이의 무선 전송을 통하거나, 또는 이어폰들(2702, 2704)이 전송 라인을 통해 결합되는 구현예들에서 유선 전송을 통해 수신하도록 구성된다. 다른 구현예들에서, 제2 이어폰(2704)은 또한 지향성 오디오 신호 프로세싱 유닛(1990)을 포함하여, 본 명세서에 기재된 기술들이 이어폰들(2702, 2704) 둘 중 어느 하나를 착용하는 사용자에 의해 수행될 수 있게 한다.
일부 구현예들에서, 이어폰들(2702, 2704)은 다양한 동작 모드들, 예컨대, 주변 소리가 스피커(2730)를 통해 재생되는 통과 모드, 비-주변 소리(예컨대, 전화 대화, 미디어 재생, 비디오 게임 등에 대응하는 스트리밍 오디오)가 스피커(2730)를 통해 재생되는 재생 모드, 및 하나 이상의 주변 소리들 강조 및/또는 스피커(2730)에서의 재생을 위해 다른 주변 소리들이 억제되는 오디오 줌 모드 또는 빔포밍 모드에서 자동으로 스위칭되도록 구성된다. 다른 구현예들에서, 이어폰들(2702, 2704)은 더 적은 모드들을 지원할 수 있거나 또는 설명된 모드들 대신에, 또는 이에 더하여 하나 이상의 다른 모드들을 지원할 수 있다.
예시적인 예에서, 이어폰들(2702, 2704)은 착용자의 음성을 검출하는 것에 응답하여 재생 모드로부터 통과 모드로 자동으로 전환될 수 있고, 착용자가 말하는 것을 중단한 후에 재생 모드로 다시 자동으로 전환될 수 있다. 일부 예들에서, 이어폰들(2702, 2704)은, 예컨대, 특정 주변 소리(예컨대, 개 짖는 소리)에 대해 오디오 줌을 수행하고, 착용자가 음악을 듣고 있는 동안 재생중인 소리에 중첩된 오디오 줌된 소리를 재생(오디오 줌된 소리가 재생되는 동안 볼륨이 감소될 수 있음)함으로써 모드들 중 둘 이상에서 동시에 동작할 수 있다. 이 예에서, 착용자는 음악의 재생을 중지하지 않고 오디오 이벤트와 연관된 주변 소리에 대해 경고받을 수 있다.
도 28은 개시된 기술들이 유인 또는 무인 공중 디바이스(예컨대, 수화물 배송 드론)로 도시된 차량(2802)에서 구현되는 구현예(2800)를 도시한다. 지향성 오디오 신호 프로세싱 유닛(2850)이 차량(2802)에 통합된다. 지향성 오디오 신호 프로세싱 유닛(2850)은 지향성 오디오 신호 프로세싱 유닛(1990)을 포함하거나 또는 이에 대응하고, 차량(2802)을 자율적으로 내비게이팅하도록 추가로 구성될 수 있다. 지향성 오디오 신호 프로세싱 유닛(2850)은, 예를 들어, 도 14의 하나 이상의 프로세서들(1416)을 포함할 수 있고, 차량(2802)은 차량(1410)에 대응할 수 있다. 지향성 오디오 신호 프로세싱 유닛(2850)은 차량(2802)의 제1 마이크로폰(102) 및 제2 마이크로폰(104)으로부터 수신된 오디오 신호들에 기초한 내비게이션 명령어들, 예컨대, 차량(2802)의 위임된 사용자로부터의 전달 명령어들을 생성 및 실행할 수 있다.
도 29는 차량(1410) 또는 차량(1510)이 자동차로 도시된 차량(2902)에 대응하는 다른 구현예(2900)를 도시한다. 차량(2902)은 지향성 오디오 신호 프로세싱 유닛(2950)을 포함한다. 지향성 오디오 신호 프로세싱 유닛(2950)은 지향성 오디오 신호 프로세싱 유닛(1990)을 포함하거나 또는 이에 대응하고 차량(2902)을 자율적으로 내비게이팅하도록 추가로 구성될 수 있다. 차량(2902)은 또한 제1 마이크로폰(102) 및 제2 마이크로폰(104)을 포함한다. 일부 예들에서, 제1 마이크로폰(102) 및 제2 마이크로폰(104) 중 하나 이상은 차량(2902) 외부에 위치설정되어 사이렌 소리들 및 다른 차량들의 소리들과 같은 주변 소리들을 캡처한다. 일부 구현예들에서, 외부 마이크로폰들(예컨대, 제1 마이크로폰(102) 및 제2 마이크로폰(104))으로부터 수신된 오디오 신호들에 기초하여, 환경 정보 및 오디오 소리 이벤트들의 검출, 차량(2902)의 자율주행 내비게이션 등과 같은 태스크들이 수행될 수 있다.
일부 예들에서, 제1 마이크로폰(102) 및 제2 마이크로폰(104) 중 하나 이상은 차량(2902) 내부에 위치설정되어 음성 명령들 또는 의료 응급상황을 나타내는 소리들과 같은 차량 내의 소리들을 캡처한다. 일부 구현예들에서, 내부 마이크로폰들(예컨대, 제1 마이크로폰(102) 및 제2 마이크로폰(104))으로부터 수신된 오디오 신호들에 기초하여, 차량(2902)의 자율주행 내비게이션과 같은 태스크들이 수행될 수 있다. 차량(2902)의 하나 이상의 동작들은, 예컨대, 디스플레이(2920) 또는 하나 이상의 스피커들(예컨대, 스피커(2910))을 통해 피드백 또는 정보를 제공함으로써, 검출된 하나 이상의 키워드들(예컨대, "잠금해제", "엔진 시동", "음악 재생", "일기예보 디스플레이", 또는 다른 음성 명령)에 기초하여 개시될 수 있다.
도 30을 참조하면, 오디오를 프로세싱하는 방법(3000)의 특정 구현예가 도시된다. 특정 양태에서, 방법(3000)의 하나 이상의 동작들은 디바이스(110), 시스템(200), 헤드셋(310), 헤드셋(410), 시스템(500), 차량(1410), 차량(1510), 또는 이들의 조합에 의해 수행된다.
방법(3000)은 블록(3002)에서, 제1 디바이스의 하나 이상의 프로세서들에서, 다수의 마이크로폰들로부터 오디오 신호들을 수신하는 단계를 포함한다. 예를 들어, 도 1을 참조하면, 프로세서(130)는 마이크로폰들(102, 104)로부터 각각 오디오 신호들(170, 172)의 오디오 프레임들(174, 176)을 수신할 수 있다.
방법(3000)은 또한 블록(3004)에서, 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현된 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 단계를 포함한다. 예를 어, 도 1을 참조하면, 도착 방향 프로세싱 유닛(132)은 오디오 프레임들(174, 176)을 프로세싱하여 오디오 신호들(170, 172)에서 표현되는 소리(182)의 음원(180)에 대응하는 도착 방향 정보(142)를 생성할 수 있다.
방법(3000)은 또한 블록(3006)에서, 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하는 단계를 포함한다. 예를 들어, 모뎀(118)은 도착 방향 정보(142) 및 표시(616) 또는 표시(716) 중 하나 또는 둘 모두를 디바이스(120)로 송신할 수 있다. 클래스는 오디오 신호들에서 표현되고 특정 오디오 이벤트와 연관되는 특정 소리에 대한 카테고리에 대응할 수 있고, 임베딩은 특정 소리 또는 특정 오디오 이벤트에 대응하는 시그니처 또는 정보를 포함할 수 있고, 다른 오디오 신호들의 프로세싱을 통해, 다른 오디오 신호들 내의 특정 소리 또는 특정 오디오 이벤트의 검출을 가능하게 하도록 구성될 수 있다. 일부 구현예들에서, 방법(3000)은 또한 오디오 신호들의 표현을 제2 디바이스로 송신하는 단계를 포함한다. 예를 들어, 오디오 신호들의 표현은 오디오 신호들(170, 172)의 하나 이상의 부분들, 빔포밍된 오디오 신호(148)의 하나 이상의 부분들, 또는 이들의 조합을 포함할 수 있다. 방법(3000)의 일 구현예에 따라, 데이터를 디바이스(120)로 송신하는 단계는 하나 이상의 센서들(129)의 활성화를 트리거할 수 있다.
일부 구현예들에서, 방법(3000)은 오디오 신호들에 대응하는 신호 데이터를 프로세싱하여 클래스 또는 임베딩을 결정하는 단계를 포함한다. 일 예에서, 방법(3000)은 (예컨대, 빔포밍 유닛(138)에서) 오디오 신호들에 대해 빔포밍 동작을 수행하여 신호 데이터를 생성하는 단계를 포함한다. 일 예에서, 신호 데이터는 하나 이상의 분류기들(610)과 같은 하나 이상의 분류기들에서 프로세싱되어 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트과 연관되는 소리에 대해 하나 이상의 분류기들에 의해 지원되는 다수의 클래스들로부터 클래스를 결정한다. 클래스는, 예컨대, 표시(616)를 통해 제2 디바이스(예컨대, 디바이스(120))로 송신된다.
일부 구현예들에서, 신호 데이터는 하나 이상의 인코더들(710)과 같은 하나 이상의 인코더들에서 프로세싱되어 임베딩을 생성한다. 임베딩은 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트와 연관되는 소리에 대응한다. 임베딩은, 예컨대, 표시(716)를 통해 제2 디바이스(예컨대, 디바이스(120))로 송신된다.
일부 구현예들에서, 방법(3000)은, 제2 디바이스의 하나 이상의 프로세서들에서, 도착 방향 정보 및 클래스에 기초한 데이터를 수신하는 단계를 포함한다. 예를 들어, 디바이스(120)의 모뎀(128)은 데이터를 수신하고 도착 방향 정보(142) 및 표시(616)를 하나 이상의 프로세서들(126)에 제공할 수 있다. 방법(3000)은, 제2 디바이스의 하나 이상의 프로세서들에서, 도착 방향 정보 및 클래스와 연관된 소리를 표현하는 오디오 데이터를 획득하는 단계를 포함할 수 있다. 예를 들어, 하나 이상의 프로세서들(126)은 제1 디바이스로부터 오디오 신호들(170, 172) 중 하나 이상을 획득하고, 로컬 마이크로폰들(예컨대, 마이크로폰들(106, 108))로부터 오디오 신호들(190, 192) 중 하나 이상을 획득하고, 제1 디바이스, 또는 이들의 조합으로부터 빔포밍된 오디오 신호들(148)을 획득한다. 방법(3000)은 또한, 예컨대, 오디오 이벤트 프로세싱 유닛(154)에서 또는 하나 이상의 분류기들(610)을 참조하여 기재된 바와 같이, 적어도 오디오 데이터 및 도착 방향 정보에 기초하여, 제2 디바이스의 하나 이상의 프로세서들에서, 클래스를 검증하는 단계를 포함할 수 있다.
일부 구현예들에서, 방법(3000)은, 제2 디바이스의 하나 이상의 프로세서들에서, 도착 방향 정보 및 임베딩에 기초한 데이터를 수신하는 단계를 포함한다. 예를 들어, 디바이스(120)의 모뎀(128)은 데이터를 수신하고 도착 방향 정보(142) 및 표시(716)를 하나 이상의 프로세서들(126)에 제공할 수 있다. 방법(3000)은 또한 제2 디바이스의 하나 이상의 프로세서들에서, 도착 방향 정보 및 임베딩에 기초하여 소리 장면을 표현하는 오디오 데이터를 프로세싱하여 업데이트된 소리 장면에 대응하는 수정된 오디오 데이터를 생성하는 단계를 포함할 수 있다. 예를 들어, 하나 이상의 프로세서들(126)은 오디오 장면(1151)을 표현하는 입력 혼합 파형(1102)을 하나 이상의 임베딩들(1104) 및 방향 정보(912)와 함께 프로세싱하여 업데이트된 오디오 장면(1171)을 생성할 수 있다.
방법(3000)은 다수의 마이크로폰들에 의해 생성된 오디오 신호들에 기초하여 지향성 콘텍스트 인식 프로세싱의 수행을 가능하게 한다. 결과적으로, 다양한 사용 사례들에 대한 콘텍스트 검출 및 주위 환경과 연관된 특성들의 결정이 가능해진다.
도 31을 참조하면, 오디오를 프로세싱하는 방법(3100)의 특정 구현예가 도시된다. 특정 양태에서, 방법(3100)의 하나 이상의 동작들은 도 14의 차량(1410)에 의해 수행된다.
방법(3100)은 블록(3102)에서, 차량의 하나 이상의 프로세서들에서, 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하는 단계를 포함한다. 예를 들어, 도 14를 참조하면, 프로세서(1416)는 마이크로폰들(1402, 1404)로부터 각각 오디오 신호들(1470, 1472)의 오디오 프레임들(1474, 1476)을 수신할 수 있다.
방법(3100)은 또한 블록(3104)에서, 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현된 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 단계를 포함한다. 예를 들어, 도 14을 참조하면, 도착 방향 프로세싱 유닛(1432)은 오디오 프레임들(1474, 1476)을 프로세싱하여 오디오 신호들(1470, 1472)에서 표현되는 소리(1482)의 음원(1480)에 대응하는 도착 방향 정보(1442)를 생성할 수 있다.
방법(3100)은 또한 블록(3106)에서, 도착 방향 정보에 기초하여, 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트를 생성하는 단계를 포함한다. 예를 들어, 도 14를 참조하면, 리포트 생성기(1436)는 (오디오 이벤트 정보(1444)로부터) 적어도 하나의 검출된 이벤트 및 (도착 방향 정보(1442)로부터) 검출된 이벤트의 방향을 나타내는 리포트(1446)를 생성할 수 있다.
일 구현예에 따라, 방법(3100)은 리포트를 제2 디바이스(예컨대, 제2 차량 또는 서버)로 송신하고 제2 디바이스로부터 내비게이션 명령어들 또는 제2 리포트를 수신하는 단계를 포함할 수 있다. 제2 리포트에 기초하여, 프로세서는 내비게이션 명령어들을 생성하여 차량을 자율적으로 내비게이팅할 수 있다. 제2 디바이스가 내비게이션 명령어들을 송신하는 경우, 프로세서는 송신된 내비게이션 명령어들을 이용하여 차량을 자율적으로 내비게이팅할 수 있다.
방법(3100)은 차량(1410)이 외부 소리들, 예컨대 사이렌들을 듣고, 그에 따라 내비게이팅할 수 있게 한다. 다수의 마이크로폰들을 사용함으로써 사이렌 소리들(예컨대, 음원(1480))의 위치 및 상대적인 거리를 결정할 수 있고, 검출된 사이렌 소리들이 접근하거나 또는 멀어짐에 따라 위치 및 상대적인 거리가 디스플레이될 수 있음이 이해되어야 한다.
도 32를 참조하면, 오디오를 프로세싱하는 방법(3200)의 특정 구현예가 도시된다. 특정 양태에서, 방법(3200)의 하나 이상의 동작들은 디바이스(120)에 의해, 예컨대, 하나 이상의 프로세서들(126)에서 수행된다.
방법(3200)은 블록(3202)에서, 제2 디바이스의 하나 이상의 프로세서들에서, 오디오 클래스의 표시를 수신하는 단계를 포함하는데, 표시는 제1 디바이스로부터 수신되고 오디오 이벤트에 대응한다. 예를 들어, 도 9의 디바이스(120)의 하나 이상의 프로세서들(126)은 도 6의 디바이스(110)로부터 표시(902)(예컨대, 표시(616))를 수신한다.
방법(3200)은 블록(3204)에서, 제2 디바이스의 하나 이상의 프로세서들에서, 오디오 데이터를 프로세싱하여 오디오 데이터에 표현된 소리가 오디오 이벤트에 대응함을 검증하는 단계를 포함한다. 예를 들어, 도 2의 디바이스(120)의 하나 이상의 프로세서들(126)은 오디오 데이터(904)를 프로세싱하여 오디오 데이터에 표현된 소리(904)가 오디오 이벤트에 대응함을 검증하기 위한 분류(922)를 생성한다. 일 예에서, 하나 이상의 프로세서들(126)은 분류(922)를 표시(902)에 의해 표시된 오디오 클래스와 비교한다.
옵션적으로, 방법(3200)은 제1 디바이스(예컨대, 디바이스(110))로부터 오디오 데이터를 수신하는 단계를 포함하고, 오디오 데이터의 프로세싱은 오디오 데이터를 하나 이상의 분류기들에 대한 입력으로서 제공하여 오디오 데이터와 연관된 분류를 결정하는 단계를 옵션적으로 포함한다. 예를 들어, 일부 구현예들에서 오디오 데이터(904)는 오디오 신호들(170, 172)의 하나 이상의 부분들, 빔포밍된 오디오 신호(148)의 하나 이상의 부분들, 또는 이들의 조합을 포함하고, 오디오 데이터(904)는 하나 이상의 분류기들(920)에 입력된다. 일부 구현예들에서, 오디오 데이터의 프로세싱은 오디오 클래스의 표시(예컨대, 표시(902))를 하나 이상의 분류기들에 대한 제2 입력으로서 제공하여 오디오 데이터와 연관된 분류를 결정하는 단계를 추가로 포함한다.
옵션적으로, 방법(3200)은 하나 이상의 분류기들의 출력에 기초하여 제어 신호, 예컨대 제어 신호(932)를 제1 디바이스(예컨대, 디바이스(110))로 송신하는 단계를 포함한다. 일부 구현예들에서, 제어 신호는 오디오 줌 명령어를 포함한다. 일부 구현예들에서, 제어 신호는 음원의 방향에 기초하여 공간 프로세싱을 수행하기 위한 명령어를 포함한다.
일부 구현예들에서, 오디오 클래스는 차량 이벤트에 대응하고, 방법(3200)은 옵션적으로 제1 디바이스의 위치 및 하나 이상의 제3 디바이스들의 위치들에 기초하여 차량 이벤트의 통지를 하나 이상의 제3 디바이스들로 송신하는 단계를 포함한다. 예를 들어, 통지(1492)는 도 14 및 도 15를 참조하여 기재된 바와 같이 하나 이상의 디바이스들(1490)로 송신된다.
옵션적으로, 방법(3200)은, 제1 디바이스(예컨대, 디바이스(110))로부터, 오디오 이벤트와 연관된 음원에 대응하는 방향 데이터, 예컨대, 방향 데이터(912)를 수신하는 단계를 포함한다. 방법(3200)은, 오디오 이벤트에 기초하여, 오디오 장면 내의 지향성 음원들의 맵을 업데이트하여 맵 업데이터(1612)를 참조하여 설명된 바와 같은, 업데이트된 맵을 생성하는 단계, 및 업데이트된 맵에 대응하는 데이터를 제1 디바이스로부터 지리적으로 멀리 떨어져있는 하나 이상의 제3 디바이스들로 송신하는 단계를 포함할 수 있다. 예를 들어 디바이스(120)는 데이터(1660)를 디바이스들(1670, 1672, 1674) 중 하나 이상으로 송신한다.
옵션적으로, 방법(3200)은 도착 방향 정보가 제1 디바이스(예컨대, 디바이스(110))로부터 수신되는지 여부에 기초하여 오디오 이벤트에 대응하는 수신된 오디오 데이터에 대한 도착 방향 프로세싱을 선택적으로 건너뛰는 단계를 포함한다. 예를 들어, 하나 이상의 프로세서들(126)은 도착 방향 정보가 제1 디바이스로부터의 전송에서 수신된다는 도 13의 블록(1330)에서의 결정에 기초하여, 도 13의 블록(1332)에 도시된 도착 방향 프로세싱을 수행하는 단계를 선택적으로 건너뛸 수 있다.
옵션적으로, 방법(3200)은 수신된 오디오 데이터가 제1 디바이스(예컨대, 디바이스(110))로부터의 다중-채널 마이크로폰 신호들에 대응하는지 아니면 제1 디바이스로부터의 빔포밍된 신호들에 대응하는지에 기초하여 빔포밍 동작을 선택적으로 건너뛰는 단계를 포함한다. 예를 들어, 하나 이상의 프로세서들(126)은, 도 13의 블록(1340)에서, 전송이 빔포밍 데이터, 예컨대, 빔포밍된 오디오 신호(148)를 포함한다는 결정에 기초하여, 도 13의 블록(1342)에서 도시된 빔포밍 동작을 수행하는 단계를 선택적으로 건너뛸 수 있다.
오디오 이벤트에 대응하는 오디오 클래스의 표시를 수신하고 오디오 데이터를 프로세싱하여 오디오 데이터에 표현된 소리가 오디오 이벤트에 대응함을 검증함으로써, 방법(3200)은, 헤드셋에서와 같은 제1 스테이지가, 모바일 폰에서와 같은 제2 스테이지와 비교하여 상대적으로 높은 감도 및 상대적으로 낮은 정확도(예컨대, 전력, 메모리, 또는 연산 제약들로 인함)로 오디오 이벤트들을 식별할 수 있도록 분산 오디오 이벤트 검출이 수행될 수 있게 한다. 제2 스테이지는 더 많이 전력공급되고, 더 정확한 오디오 이벤트 검출을 이용하여 오디오 이벤트들을 검증할 수 있고, 검출된 오디오 이벤트들에 기초하여 검출 결과들, 제어 신호들 등을 전달할 수 있다. 결과적으로, 웨어러블 전자 디바이스가 연산 부하, 메모리 풋프린트, 및 총력 오디오 이벤트 검출과 연관된 전력 소모를 지원하도록 요구하지 않으면서, 정확한 오디오 이벤트 검출이 웨어러블 전자 디바이스, 예컨대, 헤드셋의 사용자에게 제공될 수 있다.
도 33을 참조하면, 오디오를 프로세싱하는 방법(3300)의 특정 구현예가 도시된다. 특정 양태에서, 방법(3300)의 하나 이상의 동작들은 디바이스(120)에 의해, 예컨대, 하나 이상의 프로세서들(126)에서 수행된다. 다른 특정 양태에서, 방법(3300)의 하나 이상의 동작들은 디바이스(1520)에 의해, 예컨대, 하나 이상의 프로세서들(1526)에서 수행된다.
방법(3300)은 블록(3302)에서, 제2 디바이스의 하나 이상의 프로세서들에서, 제1 디바이스로부터 오디오 데이터 및 제1 디바이스로부터 오디오 데이터가 차량 이벤트와 연관된 오디오 클래스에 대응한다는 표시를 수신하는 단계를 포함한다. 예를 들어, 디바이스(1520)는 차량(1510)으로부터 오디오 데이터(1550) 및 표시(1552)를 수신한다.
방법(3300)은 블록(3304)에서 제2 디바이스(예컨대, 디바이스(1520))의 하나 이상의 분류기들에서 오디오 데이터를 프로세싱하여 오디오 데이터에 표현된 소리가 차량 이벤트에 대응함을 검증하는 단계를 포함한다. 예를 들어, 오디오 데이터(1550)는 하나 이상의 분류기들(1530)에서 프로세싱되어 분류(1522)를 결정한다.
방법(3300)은 블록(3306)에서 제1 디바이스의 위치(예컨대, 차량(1510)) 및 하나 이상의 제3 디바이스들의 위치들에 기초하여 하나 이상의 제3 디바이스들로 차량 이벤트의 통지를 송신하는 단계를 포함한다. 예를 들어, 디바이스(1520)는 차량(1510)의 위치 및 하나 이상의 디바이스(1490)의 위치들에 기초하여 통지(1592)를 하나 이상의 디바이스들(1490)로 송신한다.
도 34를 참조하면, 오디오를 프로세싱하는 방법(3400)의 특정 구현예가 도시된다. 특정 양태에서, 방법(3400)의 하나 이상의 동작들은 디바이스(110)에 의해, 예컨대, 하나 이상의 프로세서들(116)에서 수행된다.
방법(3400)은 블록(3402)에서, 제1 디바이스의 하나 이상의 프로세서들에서, 하나 이상의 마이크로폰들로부터 하나 이상의 오디오 신호들을 수신하는 단계를 포함한다. 예를 들어, 디바이스(110)는 마이크로폰들(102, 104)로부터 각각 오디오 신호들(170, 172)을 수신한다.
방법(3400)은 블록(3404)에서, 하나 이상의 프로세서들에서, 하나 이상의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 소리가 식별가능한 방향으로부터 오는지 여부를 결정하는 단계를 포함한다. 예를 들어, 디바이스(110)는, 도 12의 블록(1212)에서, 오디오 신호들의 프로세싱이 도 12의 블록(1202)에서 오디오 이벤트의 음원에 관한 유효 도착 방향 정보를 생성하였는지 여부를 결정한다.
방법(3400)은 블록(3406)에서, 제2 디바이스로, 결정에 기초하여 음원의 도착 방향 정보를 선택적으로 송신하는 단계를 포함한다. 예를 들어, 디바이스(110)는 도 12의 블록(1212) 및 블록(1214)과 함께 설명된 바와 같이, 유효 도착 방향 정보가 이용가능한지 여부의 결정에 기초하여, 도착 방향 정보를 제2 디바이스로 송신할지 여부를 선택한다.
오디오 신호들 중 하나 이상에서 표현되는 소리가 식별가능한 방향으로부터 오는지 여부에 기초하여 도착 방향 정보를 선택적으로 송신함으로써, 방법(3400)은 전력 소모 및 그렇지 않으면 유효하지 않거나 또는 신뢰할 수 없는 도착 방향 정보를 제2 디바이스에 전송함으로써 소모될 전송 리소스들을 보존할 수 있다.
도 35를 참조하면, 오디오를 프로세싱하는 방법(3500)의 특정 구현예가 도시된다. 특정 양태에서, 방법(3500)의 하나 이상의 동작들은 디바이스(110)에 의해, 예컨대, 하나 이상의 프로세서들(116)에서 수행된다.
방법(3500)은 블록(3502)에서, 제1 디바이스의 하나 이상의 프로세서들에서, 하나 이상의 마이크로폰들로부터 하나 이상의 오디오 신호들을 수신하는 단계를 포함한다. 예를 들어, 디바이스(110)는 마이크로폰들(102, 104)로부터 각각 오디오 신호들(170, 172)을 수신한다.
방법(3500)은 블록(3504)에서, 하나 이상의 프로세서들에서 그리고 하나 이상의 기준들에 기초하여, 하나 이상의 오디오 신호들을 제2 디바이스로 송신할지 아니면 하나 이상의 오디오 신호들에 기초하여 생성되는 빔포밍된 오디오 신호들을 제2 디바이스로 송신할지 결정하는 단계를 포함한다. 예를 들어, 빔포밍된 오디오 신호들이 디바이스(110)에서 이용가능한 경우, 디바이스(110)는, 이용가능한 전력 및 대역폭 리소스들의 양과 같은 기준들에 기초하여, 도 12의 블록(1220)을 참조하여 설명된 바와 같이, 하나 이상의 오디오 신호들을 송신할지 아니면 빔포밍된 오디오 신호를 송신할지 여부를 결정할 수 있다. 제2 디바이스에서 이용가능한 마이크로폰들이 없는 예시적인, 비제한적인 예에서, 제2 디바이스로의 전송에 이용가능한 전력 또는 대역폭이 임계치를 초과하는 경우, 도 12의 블록(1232)과 함께 기재된 바와 같이, (예컨대, 블록(1232)로부터 "아니오" 경로를 통해) 오디오 신호들을 송신하는 결정이 내려지고; 그렇지 않으면, (예컨대, 블록(1232)으로부터 "예" 경로, 블록(1234)으로부터 "아니오" 경로, 및 블록(1238)으로부터 "예" 경로를 통해) 빔포밍된 신호들을 송신하는 결정이 내려진다.
방법(3500)은 블록(3506)에서, 결정에 기초하여, 하나 이상의 오디오 신호들에 대응하거나 또는 빔포밍된 오디오 신호들에 대응하는 오디오 데이터를 제2 디바이스로 송신하는 단계를 포함한다. 위의 예에 이어서, 디바이스(110)는 도 12의 블록(1248)에서 오디오 신호들을 디바이스(120)로 송신하거나, 또는 도 12의 블록(1244)에서 빔포밍된 신호들을 디바이스(120)로 송신할 수 있다.
하나 이상의 기준들, 예컨대, 전력 이용가능성 또는 전송 리소스들에 기초하여 오디오 신호들 또는 빔포밍된 신호들을 송신할지 여부를 선택함으로써, 방법(3400)은 송신 디바이스가 (예컨대, 관심 소리를 포함하는 마이크로폰 채널들의 전체 세트에 대응하는 데이터를 전송함으로써) 전체 오디오 해상도를 수신 디바이스에 제공할지 아니면 (예컨대, 관심 음원에 조준된 단일 빔포밍된 채널에 대응하는 데이터를 전송함으로써) 더 정교하게 타겟팅된 오디오를 제공할지 여부에 대해 상황적으로 적절한 결정을 내릴 수 있게 한다.
도 36을 참조하면, 오디오를 프로세싱하는 방법(3600)의 특정 구현예가 도시된다. 특정 양태에서, 방법(3600)의 하나 이상의 동작들은 디바이스(120)에 의해, 예컨대, 하나 이상의 프로세서들(126)에서 수행된다.
방법(3600)은, 블록(3602)에서 제2 디바이스의 하나 이상의 프로세서들에서, 소리를 표현하는 오디오 데이터, 음원에 대응하는 방향 데이터, 및 소리의 분류를 오디오 이벤트에 대응하는 것으로서 수신하는 단계를 포함하고, 오디오 데이터, 방향 데이터, 및 분류는 제1 디바이스로부터 수신된다. 예를 들어, 디바이스(120)의 하나 이상의 프로세서들(126)은, 디바이스(110)로부터, 도 9 또는 도 10의 오디오 데이터(904), 도 16의 표시(1602), 및 방향 데이터(1604)를 수신할 수 있다.
방법(3600)은 블록(3604)에서, 하나 이상의 프로세서들에서, 오디오 데이터를 프로세싱하여 소리가 오디오 이벤트에 대응함을 검증하는 단계를 포함한다. 예를 들어, 오디오 이벤트 프로세싱 유닛(154)은 오디오 데이터를 프로세싱하여 표시(1602)에 의해 표시된 오디오 클래스를 검증한다.
방법(3600)은 블록(3606)에서, 하나 이상의 프로세서들에서 그리고 오디오 이벤트에 기초하여, 오디오 장면 내의 지향성 음원들의 맵을 업데이트하여 업데이트된 맵을 생성하는 단계를 포함한다. 예를 들어, 맵 업데이터(1612)는 맵(1614)을 업데이트하여 업데이트된 맵(1616)을 생성한다.
방법(3600)은 블록(3608)에서 제1 디바이스로부터 지리적으로 멀리 떨어진 하나 이상의 제3 디바이스들로 업데이트된 맵에 대응하는 데이터를 송신하는 단계를 포함한다. 예를 들어, 업데이트된 맵 데이터(1660)는 디바이스(110)로부터 지리적으로 떨어져있는 디바이스들(1670, 1672, 1674)로 송신된다.
오디오 장면에서 지향성 음원들의 맵을 업데이트하고 업데이트된 맵 데이터를 지리적으로 원격 디바이스들로 송신함으로써, 방법(3600)은 도 18을 참조하여 설명된 것과 같은 다수의 참가자들이 공유된 소리 장면에 몰입되는 가상 환경과 같은 애플리케이션들을 가능하게 한다.
도 12, 도 13, 및 도 30 내지 도 36의 방법들은 필드 프로그램가능 게이트 어레이(FPGA) 디바이스, 주문형 집적 회로(ASIC), 프로세싱 유닛, 예컨대, 중앙 프로세싱 유닛(CPU), 디지털 신호 프로세싱 유닛(DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수 있다. 예를 들어, 도 12, 도 13, 및 도 30 내지 도 36의 방법들은 도 37을 참조하여 기재된 바와 같은, 명령어들을 실행하는 프로세서에 의해 수행될 수 있다.
도 37을 참조하면, 디바이스의 특정한 예시적인 구현의 블록도가 도시되고 일반적으로 3700으로 지정된다. 다양한 구현예들에서, 디바이스(3700)는 도 37에 예시된 것들보다 더 많거나 더 적은 컴포넌트들을 가질 수 있다. 예시적인 구현예에서, 디바이스(3700)는 디바이스(110), 디바이스(120), 차량(1410), 디바이스(1420), 차량(1510), 또는 디바이스(1520)에 대응할 수 있다. 예시적인 구현예에 있어서, 디바이스(3700)는 도 1 내지 도 36을 참조하여 기재된 하나 이상의 동작들을 수행할 수도 있다.
특정 구현예에서, 디바이스(3700)는 프로세서(3706)(예컨대, CPU)를 포함한다. 디바이스(3700)는 하나 이상의 추가적인 프로세서들(3710)(예컨대, 하나 이상의 DSP들)을 포함할 수도 있다. 특정 양태에서, 도 1의 프로세서(들)(116, 126) 또는 도 14의 프로세서(들)(1416)는 프로세서(3706), 프로세서들(3710), 또는 이들의 조합에 대응한다. 프로세서들(3710)은 음성 코더("보코더(vocoder)") 인코더(3736), 보코더 디코더(3738), 지향성 오디오 신호 프로세싱 유닛(1990), 또는 이들의 조합을 포함하는 스피치 및 음악 코더-디코더(CODEC)(3708)를 포함할 수 있다.
디바이스(3700)는 메모리(3786) 및 CODEC(3734)을 포함할 수 있다. 메모리(3786)는 지향성 오디오 신호 프로세싱 유닛(1990)을 참조하여 기재된 기능을 구현하도록 하나 이상의 추가적인 프로세서들(3710)(또는 프로세서(3706))에 의해 실행가능한 명령어들(3756)을 포함할 수 있다. 특정 양태에서, 메모리(3786)는 도 1의 메모리(114), 메모리(124), 도 14의 메모리(1414), 또는 이들의 조합에 대응한다. 특정 양태에서, 명령어들(3756)은 도 1의 명령어들(115), 명령어들(125), 도 14의 명령어들(1415), 또는 이들의 조합을 포함한다. 디바이스(3700)는, 송수신기(3750)를 통해, 안테나(3752)에 결합된 모뎀(3770)을 포함할 수 있다. 모뎀(3770)은 신호를 제2 디바이스(미도시)에 전송하도록 구성될 수 있다. 특정 구현예에 따라, 모뎀(3770)은 도 1의 모뎀(128)에 대응할 수 있다.
디바이스(3700)는 디스플레이 제어기(3726)에 결합된 디스플레이(3728)를 포함할 수 있다. 스피커(3792), 제1 마이크로폰(102), 및 제2 마이크로폰(104)은 CODEC(3734)에 결합될 수 있다. CODEC(3734)은 디지털-아날로그 컨버터(DAC)(3702), 아날로그-디지털 컨버터(ADC)(3704), 또는 둘 모두를 포함할 수 있다. 특정 구현예에서, CODEC(3734)은 제1 마이크로폰(102) 및 제2 마이크로폰(104)으로부터 아날로그 신호들을 수신하고, 아날로그-디지털 컨버터(3704)를 이용하여 아날로그 신호들을 디지털 신호들로 변환하고, 디지털 신호들을 스피치 및 음악 코덱(3708)에 제공할 수 있다. 스피치 및 음악 코덱(3708)은 디지털 신호들을 프로세싱할 수 있고, 디지털 신호들은 지향성 오디오 신호 프로세싱 유닛(1990)에 의해 추가로 프로세싱될 수 있다. 특정 구현예에서, 스피치 및 음악 코덱(3708)은 디지털 신호들을 CODEC(3734)에 제공할 수 있다. CODEC(3734)은 디지털-아날로그 컨버터(3702)를 이용하여 디지털 신호들을 아날로그 신호들로 변환할 수 있고, 아날로그 신호들을 스피커(3792)에 제공할 수 있다.
특정 구현예에서, 디바이스(3700)는 시스템-인-패키지 또는 시스템-온-칩 디바이스(3722)에 포함될 수 있다. 특정 구현예에서, 메모리(3786), 프로세서(3706), 프로세서들(3710), 디스플레이 제어기(3726), CODEC(3734), 및 모뎀(3770)은 시스템-인-패키지 또는 시스템-온-칩 디바이스(3722)에 포함된다. 특정 구현예에서, 입력 디바이스(3730) 및 전력 공급부(3744)는 시스템-온-칩 디바이스(3722)에 결합된다. 또한, 특정 구현예에서, 도 37에 도시된 바와 같이, 디스플레이(3728), 입력 디바이스(3730), 스피커(3792), 제1 마이크로폰(102), 제2 마이크로폰(104), 안테나(3752), 및 전력 공급부(3744)는 시스템-온-칩 디바이스(3722) 외부에 있다. 특정 구현예에서, 디스플레이(3728), 입력 디바이스(3730), 스피커(3792), 제1 마이크로폰(102), 제2 마이크로폰(104), 안테나(3752), 및 전력 공급부(3744)의 각각은 시스템-온-칩 디바이스(3722)의 컴포넌트, 예컨대, 인터페이스(예컨대, 입력 인터페이스(121) 또는 입력 인터페이스(122)) 또는 제어기에 결합될 수 있다.
디바이스(3700)는 스마트 스피커, 스피커 바, 모바일 통신 디바이스, 스마트 폰, 셀룰러 폰, 랩탑 컴퓨터, 컴퓨터, 태블릿, 개인용 디지털 보조기, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 뮤직 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크(DVD) 플레이어, 튜너, 카메라, 내비게이션 디바이스, 차량, 헤드셋, 증강 현실 헤드셋, 혼합 현실 헤드셋, 가상 현실 헤드셋, 항공기, 홈 자동화 시스템, 음성 활성화 디바이스, 무선 스피커 및 음성 활성화 디바이스, 휴대용 전자 디바이스, 자동차, 차량, 컴퓨팅 디바이스, 통신 디바이스, 사물 인터넷(IoT) 디바이스, 가상 현실(VR) 디바이스, 기지국, 모바일 디바이스, 또는 이들의 임의의 조합을 포함할 수도 있다.
기재된 구현예들과 함께, 장치는 다수의 마이크로폰들로부터 오디오 신호들을 수신하는 수단을 포함한다. 예를 들어, 오디오 신호들을 수신하기 위한 수단은 입력 인터페이스(112), 입력 인터페이스(111), 프로세서(116) 또는 이들의 컴포넌트들, 입력 인터페이스(121), 입력 인터페이스(122), 프로세서(126) 또는 이들의 컴포넌트들, 제1 프로세싱 도메인(210) 또는 이들의 컴포넌트들, 제2 프로세싱 도메인(220) 또는 이들의 컴포넌트들, 헤드셋(310) 또는 이들의 컴포넌트들, 헤드셋(410) 또는 이들의 컴포넌트들, 공간 필터 프로세싱 유닛(502), 오디오 입력부(1904), 하나 이상의 프로세서들(1916), 지향성 오디오 신호 프로세싱 유닛(1990), 하나 이상의 프로세서들(3710), 다수의 마이크로폰들로부터 오디오 신호들을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.
장치는 또한 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 수단을 포함한다. 예를 들어, 프로세싱하는 수단은 프로세서(들)(116) 또는 이들의 컴포넌트들, 프로세서(들)(126) 또는 이들의 컴포넌트들, 제1 프로세싱 도메인(210) 또는 이들의 컴포넌트들, 제2 프로세싱 도메인(220) 또는 이들의 컴포넌트들, 헤드셋(310) 또는 이들의 컴포넌트들, 헤드셋(410) 또는 이들의 컴포넌트들, 공간 필터 프로세싱 유닛(502), 오디오 이벤트 프로세싱 유닛(504), 지향성 오디오 신호 프로세싱 유닛(1990), 하나 이상의 프로세서들(1916), 하나 이상의 프로세서들(3710), 오디오 신호들을 프로세싱하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.
장치는 추가로, 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하는 수단을 포함한다. 예를 들어, 송신 수단은 모뎀(118), 모뎀(128), 신호 출력부(1906), 지향성 오디오 신호 프로세싱 유닛(1990), 하나 이상의 프로세서들(1916), 모뎀(3770), 송수신기(3750), 안테나(3752), 데이터 및 클래스 또는 임베딩을 송신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.
기재된 구현예들과 함께, 장치는 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하는 수단을 포함한다. 예를 들어, 다수의 오디오 신호들을 수신하는 수단은 입력 인터페이스(1412), 입력 인터페이스(1411), 하나 이상의 프로세서들(1416) 또는 이들의 컴포넌트들, 지향성 오디오 신호 프로세싱 유닛(2850), 지향성 오디오 신호 프로세싱 유닛(2950), 하나 이상의 프로세서들(3710), 다수의 마이크로폰들, 또는 이들의 임의의 조합으로부터 다수의 오디오 신호들을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들에 대응할 수 있다.
장치는 또한 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 수단을 포함한다. 예를 들어, 프로세싱 수단은 하나 이상의 프로세서들(1416) 또는 이들의 컴포넌트들, 지향성 오디오 신호 프로세싱 유닛(2850), 지향성 오디오 신호 프로세싱 유닛(2950), 하나 이상의 프로세서들(3710), 다수의 오디오 신호들을 프로세싱하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함한다.
장치는 또한, 도착 방향 정보에 기초하여, 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트를 생성하는 수단을 포함한다. 예를 들어, 생성 수단은 하나 이상의 프로세서들(1416) 또는 이들의 컴포넌트들, 지향성 오디오 신호 프로세싱 유닛(2850), 지향성 오디오 신호 프로세싱 유닛(2950), 하나 이상의 프로세서들(3710), 리포트를 생성하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함한다.
기재된 구현예들과 함께, 장치는 오디오 클래스의 표시를 수신하는 수단을 포함하고, 표시는 원격 디바이스로부터 수신되고 오디오 이벤트에 대응한다. 예를 들어, 표시를 수신하는 수단은 모뎀(128), 하나 이상의 프로세서들(126), 하나 이상의 프로세서들(1516), 오디오 입력부(1904), 하나 이상의 프로세서들(1916), 안테나(3752), 송수신기(3750), 모뎀(3770), 프로세서(3706), 하나 이상의 프로세서들(3710), 표시를 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.
장치는 또한 오디오 데이터를 프로세싱하여 오디오 데이터에 표현된 소리가 오디오 이벤트에 대응함을 검증하는 수단을 포함한다. 예를 들어, 오디오 데이터를 프로세싱하는 수단은 하나 이상의 프로세서들(126), 하나 이상의 프로세서들(1516), 하나 이상의 프로세서들(1916), 프로세서(3706), 하나 이상의 프로세서들(3710), 오디오 데이터를 프로세싱하여 오디오 데이터에 표현된 소리가 오디오 이벤트에 대응함을 검증하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.
일부 구현예들에서, 비일시적 컴퓨터-판독가능 매체(예컨대, 메모리(114) 또는 메모리(3786)와 같은, 컴퓨터-판독가능 저장 디바이스)는, 하나 이상의 프로세서들(예컨대, 하나 이상의 프로세서들(116), 하나 이상의 프로세서들(3710) 또는 프로세서(3706))에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 다수의 마이크로폰들(예컨대, 마이크로폰들(102, 104))로부터 오디오 신호들(예컨대, 오디오 신호들(170, 172))을 수신하게 하는 명령어들(예컨대, 명령어들(115) 또는 명령어들(3756))을 포함한다. 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한 하나 이상의 프로세서들로 하여금 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 소리(예컨대, 소리(182))의 하나 이상의 음원들(예컨대, 하나 이상의 음원들(180))에 대응하는 도착 방향 정보(예컨대, 도착 방향 정보(142))를 생성하게 한다. 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로 하나 이상의 프로세서들로 하여금, 제2 디바이스(예컨대, 디바이스(120))로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하게 한다.
일부 구현예들에서, 비일시적 컴퓨터-판독가능 매체(예컨대, 메모리(3786)와 같은, 컴퓨터-판독가능 저장 디바이스)는, 차량(예컨대, 차량(1410))의 하나 이상의 프로세서들(예컨대, 하나 이상의 프로세서들(3710) 또는 프로세서(3706))에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 다수의 마이크로폰들(예컨대, 마이크로폰들(1402, 1404))로부터 다수의 오디오 신호들(예컨대, 오디오 신호들(1470, 1472))을 수신하게 하는 명령어들(예컨대, 명령어들(3756))을 포함한다. 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한 하나 이상의 프로세서들로 하여금 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 소리(예컨대, 소리(1482))의 하나 이상의 음원들(예컨대, 하나 이상의 음원들(1480))에 대응하는 도착 방향 정보(예컨대, 도착 방향 정보(1442))를 생성하게 한다. 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로 하나 이상의 프로세서들로 하여금, 도착 방향 정보에 기초하여, 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트(예컨대, 리포트(1446))를 생성하게 한다.
일부 구현예들에서, 비일시적 컴퓨터-판독가능 매체(예컨대, 메모리(124), 메모리(1514), 또는 메모리(3786)와 같은, 컴퓨터-판독가능 저장 디바이스)는, 하나 이상의 프로세서들(예컨대, 하나 이상의 프로세서들(126), 하나 이상의 프로세서들(1516), 하나 이상의 프로세서들(3710) 또는 프로세서(3706))에 의해 실행될 때, 하나 이상의 프로세서들로 하여금, 제1 디바이스로부터, 오디오 이벤트에 대응하는 오디오 클래스의 표시(예컨대, 표시(902), 표시(1552), 또는 표시(1602))를 수신하게 하는 명령어들(예컨대, 명령어들(125), 명령어들(1515), 또는 명령어들(3756))을 포함한다.
본 개시내용은 실시예들의 하기 제1 세트를 포함한다.
실시예 1은 제1 디바이스를 포함하고, 제1 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은: 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하고; 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하고; 제2 디바이스로, 도착 방향 정보에 기초한 데이터를 송신하도록 구성된다.
실시예 2는 실시예 1의 제1 디바이스를 포함하고, 메모리 및 하나 이상의 프로세서들은 헤드셋 디바이스에 통합되고, 제2 디바이스는 모바일 폰에 대응한다.
실시예 3은 실시예 1의 제1 디바이스를 포함하고, 메모리 및 하나 이상의 프로세서들은 모바일 폰에 통합되고, 제2 디바이스는 헤드셋 디바이스에 대응한다.
실시예 4는 실시예 1 내지 실시예 3 중 어느 한 실시예의 제1 디바이스를 포함하고, 제2 디바이스로 송신된 데이터는 제2 디바이스에서 하나 이상의 센서들의 활성화를 트리거한다.
실시예 5는 실시예 1 내지 실시예 4 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 센서들 중 적어도 하나는 비-오디오 센서를 포함한다.
실시예 6은 실시예 1 내지 실시예 5 중 어느 한 실시예의 제1 디바이스를 포함하고, 비-오디오 센서는 360도 카메라를 포함한다.
실시예 7은 실시예 1 내지 실시예 6 중 어느 한 실시예의 제1 디바이스를 포함하고, 비-오디오 센서는 라이다 센서를 포함한다.
실시예 8은 실시예 1 내지 실시예 7 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 저전력 상태에서 동작하는 제1 프로세싱 도메인을 포함한다.
실시예 9는 실시예 1 내지 실시예 8 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 고전력 상태에서 동작하는 제2 프로세싱 도메인을 추가로 포함하고, 제2 전력 도메인은 다수의 오디오 신호들을 프로세싱하여 도착 방향 정보를 생성하도록 구성된다.
실시예 10은 실시예 1 내지 실시예 9 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은: 다수의 오디오 신호들을 프로세싱하여 오디오 이벤트 검출을 수행하고; 제2 디바이스로, 검출된 오디오 이벤트에 대응하는 데이터를 송신하도록 추가로 구성된다.
실시예 11은 실시예 1 내지 실시예 9 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은: 오디오 이벤트 검출 동작에 기초하여 검출된 오디오 이벤트에 대응하는 이벤트 데이터를 생성하고; 이벤트 데이터를 제2 디바이스로 송신하도록 추가로 구성된다.
실시예 12은 실시예 1 내지 실시예 11 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은: 다수의 오디오 신호들을 프로세싱하여 음향 환경 검출을 수행하고; 제2 디바이스로, 검출된 환경에 대응하는 데이터를 송신하도록 추가로 구성된다.
실시예 13은 실시예 1 내지 실시예 11 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 음향 환경 검출 동작에 기초하여 검출된 환경에 대응하는 환경 데이터를 생성하도록 추가로 구성된다.
실시예 14는 실시예 1 내지 실시예 13 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은: 도착 방향 정보에 기초하여 다수의 오디오 신호들에 대해 공간 프로세싱을 수행하여 빔포밍된 오디오 신호들을 생성하고; 빔포밍된 오디오 신호들을 제2 디바이스로 송신하도록 추가로 구성된다.
실시예 15는 실시예 1 내지 실시예 14 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 도착 방향 정보에 기초하여 다수의 마이크로폰들 중 적어도 하나의 마이크로폰의 초점을 조정하도록 추가로 구성된다.
실시예 16은 실시예 1 내지 실시예 15 중 어느 한 실시예의 제1 디바이스를 포함하고, 모뎀을 추가로 포함하고, 데이터는 모뎀을 통해 제2 디바이스로 송신된다.
실시예 17은 실시예 1 내지 실시예 16 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 다수의 오디오 신호들의 표현을 제2 디바이스로 송신하도록 추가로 구성된다.
실시예 18은 실시예 1 내지 실시예 17 중 어느 한 실시예의 제1 디바이스를 포함하고, 다수의 오디오 신호들의 표현은 하나 이상의 빔포밍된 오디오 신호들에 대응한다.
실시예 19는 실시예 1 내지 실시예 18 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 환경적 이벤트 또는 음향 이벤트 중 적어도 하나를 나타내는 사용자 인터페이스 출력을 생성하도록 추가로 구성된다.
실시예 20은 실시예 1 내지 실시예 19 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은, 제2 디바이스로부터, 음향 이벤트를 나타내는 데이터를 수신하도록 추가로 구성된다.
실시예 21은 실시예 1 내지 실시예 20 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은, 제2 디바이스로부터, 환경적 이벤트를 나타내는 데이터를 수신하도록 추가로 구성된다.
실시예 22는 실시예 1 내지 실시예 21 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은, 제2 디바이스로부터, 빔포밍된 오디오 신호를 나타내는 데이터를 수신하도록 추가로 구성된다.
실시예 23은 실시예 1 내지 실시예 22 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은: 제2 디바이스로부터, 다수의 오디오 신호들과 연관된 방향 정보를 수신하고; 방향 정보에 기초하여 오디오 줌 동작을 수행하도록 추가로 구성된다.
실시예 24는 실시예 1 내지 실시예 23 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은: 제2 디바이스로부터, 다수의 오디오 신호들과 연관된 방향 정보를 수신하고; 방향 정보에 기초하여 잡음 소거 동작을 수행하도록 추가로 구성된다.
실시예 25는 실시예 1 내지 실시예 24 중 어느 한 실시예의 제1 디바이스를 포함하고, 다수의 마이크로폰들을 추가로 포함한다.
실시예 26은 실시예 1 내지 실시예 25 중 어느 한 실시예의 제1 디바이스를 포함하고, 다수의 오디오 신호들 중 적어도 하나의 오디오 신호와 연관된 소리를 출력하도록 구성된 적어도 하나의 스피커를 추가로 포함한다.
실시예 27은 실시예 1 내지 실시예 26 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 차량에 통합된다.
실시예 28은 실시예 1 내지 실시예 27 중 어느 한 실시예의 제1 디바이스를 포함하고, 도착 방향 정보에 기초한 데이터는 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트를 포함한다.
실시예 29는 오디오를 프로세싱하는 방법을 포함하고, 방법은: 제1 디바이스의 하나 이상의 프로세서들에서, 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하는 단계; 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 단계; 및 제2 디바이스로, 도착 방향 정보에 기초한 데이터를 송신하는 단계를 포함한다.
실시예 30은 실시예 29의 방법을 포함하고, 추가로: 다수의 오디오 신호들을 프로세싱하여 오디오 이벤트 검출을 수행하는 단계; 및 제2 디바이스로, 검출된 오디오 이벤트에 대응하는 데이터를 송신하는 단계를 포함한다.
실시예 31은 실시예 30의 방법을 포함하고, 오디오 이벤트 검출은 하나 이상의 분류기들에서 다수의 오디오 신호들 중 하나 이상을 프로세싱하여, 하나 이상의 분류기들에 의해 지원되는 다수의 클래스들 중에서, 오디오 신호들 중 하나 이상에서 표현되는 소리에 대한 클래스를 결정하는 단계를 포함하고, 검출된 오디오 이벤트에 대응하는 데이터는 클래스의 표시를 포함한다.
실시예 32는 실시예 29 내지 실시예 31 중 어느 한 실시예의 방법을 포함하고, 추가로: 다수의 오디오 신호들을 프로세싱하여 음향 환경 검출을 수행하는 단계; 및 제2 디바이스로, 검출된 환경에 대응하는 데이터를 송신하는 단계를 포함한다.
실시예 33은 실시예 29 내지 실시예 32 중 어느 한 실시예의 방법을 포함하고, 데이터는 모뎀을 통해 제2 디바이스로 송신된다.
실시예 34는 실시예 29 내지 실시예 33 중 어느 한 실시예의 방법을 포함하고, 다수의 오디오 신호들의 표현을 제2 디바이스로 송신하는 단계를 추가로 포함한다.
실시예 35는 실시예 29 내지 실시예 34 중 어느 한 실시예의 방법을 포함하고, 제2 디바이스로 송신된 도착 방향 정보에 기초한 데이터는 제2 디바이스에서 하나 이상의 센서들의 활성화를 트리거한다.
실시예 36은 실시예 29 내지 실시예 35 중 어느 한 실시예의 방법을 포함하고, 하나 이상의 센서들 중 적어도 하나는 비-오디오 센서를 포함한다.
실시예 37은 디바이스를 포함하고, 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 명령어들을 실행하여 제29항 내지 제36항 중 어느 한 항의 방법을 수행하도록 구성된 프로세서를 포함한다.
실시예 38은 명령어들을 포함하는 비일시적 컴퓨터-판독가능 매체를 포함하는 디바이스를 포함하고, 명령어들은, 제1 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 제29항 내지 제36항 중 어느 한 항의 방법을 수행하게 한다.
실시예 39는 제29항 내지 제36항 중 어느 한 항의 방법을 수행하는 수단을 포함하는 장치를 포함한다.
실시예 40은 명령어들을 포함하는 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은, 제1 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금: 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하고; 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하고; 제2 디바이스로, 도착 방향 정보에 기초한 데이터를 송신하게 한다.
실시예 41은 실시예 40의 비일시적 컴퓨터-판독가능 매체를 포함하고, 제2 디바이스로 송신된 데이터는 제2 디바이스에서 하나 이상의 센서들의 활성화를 트리거한다.
실시예 42는 실시예 41 또는 실시예 42의 비일시적 컴퓨터-판독가능 매체를 포함하고, 하나 이상의 센서들 중 적어도 하나는 비-오디오 센서를 포함한다.
실시예 43은 실시예 40 내지 실시예 42 중 어느 한 실시예의 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은 하나 이상의 프로세서들로 하여금 다수의 오디오 신호들의 표현을 제2 디바이스로 송신하게 하도록 실행가능하다.
실시예 44는 실시예 43의 비일시적 컴퓨터-판독가능 매체를 포함하고, 다수의 오디오 신호들의 표현은 하나 이상의 빔포밍된 오디오 신호들에 대응한다.
실시예 45는 제1 디바이스를 포함하고, 제1 디바이스는: 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하는 수단; 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 수단; 및 제2 디바이스로, 도착 방향 정보에 기초한 데이터를 송신하는 수단을 포함한다.
실시예 46은 차량을 포함하고, 차량은: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은 명령어들을 실행하여: 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하고; 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하고; 도착 방향 정보에 기초하여, 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트를 생성한다.
실시예 47은 실시예 46의 차량을 포함하고, 하나 이상의 프로세서들은 리포트를 제2 디바이스로 송신하도록 추가로 구성된다.
실시예 48은 실시예 46 내지 실시예 47 중 어느 한 실시예의 차량을 포함하고, 제2 디바이스는 제2 차량을 포함한다.
실시예 49는 실시예 46 내지 실시예 48 중 어느 한 실시예의 차량을 포함하고, 제2 디바이스는 서버를 포함한다.
실시예 50은 실시예 46 내지 실시예 49 중 어느 한 실시예의 차량을 포함하고, 하나 이상의 프로세서들은: 제2 디바이스로부터 내비게이션 명령어들을 수신하고; 내비게이션 명령어들에 기초하여 내비게이팅하도록 추가로 구성된다.
실시예 51은 실시예 46 내지 실시예 50 중 어느 한 실시예의 차량을 포함하고, 하나 이상의 프로세서들은: 제2 디바이스로부터 제2 리포트를 수신하고; 리포트 및 제2 리포트에 기초하여 내비게이팅하도록 추가로 구성된다.
실시예 52는 실시예 46 내지 실시예 51 중 어느 한 실시예의 차량을 포함하고, 하나 이상의 프로세서들은: 제2 디바이스로부터 제2 리포트를 수신하고; 제2 리포트에 기초하여 내비게이션 명령어들을 생성하고; 내비게이션 명령어들을 제2 디바이스로 송신하도록 추가로 구성된다.
실시예 53은 실시예 46 내지 실시예 52 중 어느 한 실시예의 차량을 포함하고, 리포트는 일정 기간 경과에 따라 검출된 이벤트들의 목록 및 검출된 이벤트들의 방향 정보를 나타낸다.
실시예 54는 오디오를 프로세싱하는 방법을 포함하고, 방법은: 차량의 하나 이상의 프로세서들에서, 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하는 단계; 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 단계; 및 도착 방향 정보에 기초하여, 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트를 생성하는 단계를 포함한다.
실시예 55는 실시예 54의 방법을 포함하고, 리포트를 제2 디바이스로 송신하는 단계를 추가로 포함한다.
실시예 56은 실시예 54 내지 실시예 55 중 어느 한 실시예의 방법을 포함하고, 제2 디바이스는 제2 차량을 포함한다.
실시예 57은 실시예 54 내지 실시예 56 중 어느 한 실시예의 방법을 포함하고, 제2 디바이스는 서버를 포함한다.
실시예 58은 실시예 54 내지 실시예 57 중 어느 한 실시예의 방법을 포함하고, 추가로: 제2 디바이스로부터 내비게이션 명령어들을 수신하는 단계; 및 내비게이션 명령어들에 기초하여 내비게이팅하는 단계를 포함한다.
실시예 59는 실시예 54 내지 실시예 58 중 어느 한 실시예의 방법을 포함하고, 추가로: 제2 디바이스로부터 제2 리포트를 수신하는 단계; 및 리포트 및 제2 리포트에 기초하여 내비게이팅하는 단계를 포함한다.
실시예 60은 실시예 54 내지 실시예 59 중 어느 한 실시예의 방법을 포함하고, 추가로: 제2 디바이스로부터 제2 리포트를 수신하는 단계; 제2 리포트에 기초하여 내비게이션 명령어들을 생성하는 단계; 및 내비게이션 명령어들을 제2 디바이스로 송신하는 단계를 포함한다.
실시예 61은 실시예 54 내지 실시예 60 중 어느 한 실시예의 방법을 포함하고, 리포트는 일정 기간 경과에 따라 검출된 이벤트들의 목록 및 검출된 이벤트들의 방향 정보를 나타낸다.
실시예 62는 명령어들을 포함하는 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은, 차량의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금: 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하고; 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하고; 도착 방향 정보에 기초하여, 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트를 생성하게 한다.
실시예 63은 실시예 62의 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로 하나 이상의 프로세서들로 하여금 리포트를 제2 디바이스로 송신하게 한다.
실시예 64는 실시예 62 내지 실시예 63 중 어느 한 실시예의 비일시적 컴퓨터-판독가능 매체를 포함하고, 제2 디바이스는 제2 차량을 포함한다.
실시예 65는 실시예 62 내지 실시예 64 중 어느 한 실시예의 비일시적 컴퓨터-판독가능 매체를 포함하고, 제2 디바이스는 서버를 포함한다.
실시예 66은 실시예 62 내지 실시예 65 중 어느 한 실시예의 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로 하나 이상의 프로세서들로 하여금: 제2 디바이스로부터 내비게이션 명령어들을 수신하고; 내비게이션 명령어들에 기초하여 내비게이팅하게 한다.
실시예 67은 실시예 62 내지 실시예 66 중 어느 한 실시예의 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로 하나 이상의 프로세서들로 하여금: 제2 디바이스로부터 제2 리포트를 수신하고; 리포트 및 제2 리포트에 기초하여 내비게이팅하게 한다.
실시예 68은 실시예 62 내지 실시예 67 중 어느 한 실시예의 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로 하나 이상의 프로세서들로 하여금: 제2 디바이스로부터 제2 리포트를 수신하고; 제2 리포트에 기초하여 내비게이션 명령어들을 생성하고; 내비게이션 명령어들을 제2 디바이스로 송신하게 한다.
실시예 69는 실시예 62 내지 실시예 68 중 어느 한 실시예의 비일시적 컴퓨터-판독가능 매체를 포함하고, 리포트는 일정 기간 경과에 따라 검출된 이벤트들의 목록 및 검출된 이벤트들의 방향 정보를 나타낸다.
실시예 70은 차량을 포함하고, 차량은: 다수의 마이크로폰들로부터 다수의 오디오 신호들을 수신하는 수단; 다수의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 수단; 및 도착 방향 정보에 기초하여, 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트를 생성하는 수단을 포함한다.
실시예 71은 실시예 70의 차량을 포함하고, 리포트를 제2 디바이스로 송신하는 수단을 추가로 포함한다.
실시예 72는 실시예 70 내지 실시예 71 중 어느 한 실시예의 차량을 포함하고, 제2 디바이스는 제2 차량을 포함한다.
실시예 73은 실시예 70 내지 실시예 72 중 어느 한 실시예의 차량을 포함하고, 제2 디바이스는 서버를 포함한다.
실시예 74는 실시예 70 내지 실시예 73 중 어느 한 실시예의 차량을 포함하고, 리포트는 일정 기간 경과에 따라 검출된 이벤트들의 목록 및 검출된 이벤트들의 방향 정보를 나타낸다.
실시예 75는 실시예 70 내지 실시예 74 중 어느 한 실시예의 차량을 포함하고, 리포트에 기초하여 자율주행 내비게이션을 수행하는 수단을 추가로 포함한다.
본 개시내용은 실시예들의 하기 제2 세트를 포함한다.
실시예 1에 따라, 제1 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은: 다수의 마이크로폰들로부터 오디오 신호들을 수신하고; 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하고; 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하도록 구성된다.
실시예 2는 실시예 1의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 오디오 신호들에 대응하는 신호 데이터를 프로세싱하여 클래스 또는 임베딩을 결정하도록 추가로 구성된다.
실시예 3은 실시예 2의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 오디오 신호들에 대해 빔포밍 동작을 수행하여 신호 데이터를 생성하도록 추가로 구성된다.
실시예 4는 실시예 2 또는 실시예 3의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 하나 이상의 분류기들에서 신호 데이터를 프로세싱하여, 하나 이상의 분류기들에 의해 지원되는 다수의 클래스들 중에서, 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트과 연관되는 소리에 대한 클래스를 결정하도록 추가로 구성되고, 클래스는 제2 디바이스로 송신된다.
실시예 5는 실시예 2 내지 실시예 4 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 하나 이상의 인코더들에서 신호 데이터를 프로세싱하여 임베딩을 생성하도록 추가로 구성되고, 임베딩은 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트과 연관되는 소리에 대응하고, 임베딩은 제2 디바이스로 송신된다.
실시예 6은 실시예 1 내지 실시예 5 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 하나 이상의 인코더들에서 이미지 데이터를 프로세싱하여 임베딩을 생성하도록 추가로 구성되고, 임베딩은 이미지 데이터에서 표현되고 오디오 이벤트와 연관되는 객체에 대응하고, 임베딩은 제2 디바이스로 송신된다.
실시예 7은 실시예 6의 제1 디바이스를 포함하고, 이미지 데이터를 생성하도록 구성된 하나 이상의 카메라들을 추가로 포함한다.
실시예 8은 실시예 1 내지 실시예 7 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 음향 환경 검출 동작에 기초하여 검출된 환경에 대응하는 환경 데이터를 생성하도록 추가로 구성된다.
실시예 9는 실시예 1 내지 실시예 8 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은: 도착 방향 정보에 기초하여 다수의 오디오 신호들에 대해 공간 프로세싱을 수행하여 하나 이상의 빔포밍된 오디오 신호들을 생성하고; 하나 이상의 빔포밍된 오디오 신호들을 제2 디바이스로 송신하도록 추가로 구성된다.
실시예 10은 실시예 1 내지 실시예 9 중 어느 한 실시예의 제1 디바이스를 포함하고, 메모리 및 하나 이상의 프로세서들은 헤드셋 디바이스에 통합되고, 제2 디바이스는 모바일 폰에 대응한다.
실시예 11은 실시예 1 내지 실시예 9 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 차량에 통합된다.
실시예 12는 실시예 1 내지 실시예 11 중 어느 한 실시예의 제1 디바이스를 포함하고, 모뎀을 추가로 포함하고, 데이터는 모뎀을 통해 제2 디바이스로 송신된다.
실시예 13은 실시예 1 내지 실시예 12 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 오디오 신호들의 표현을 제2 디바이스로 송신하도록 추가로 구성된다.
실시예 14는 실시예 13의 제1 디바이스를 포함하고, 오디오 신호들의 표현은 하나 이상의 빔포밍된 오디오 신호들에 대응한다.
실시예 15는 실시예 1 내지 실시예 14 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은 환경적 이벤트 또는 음향 이벤트 중 적어도 하나를 나타내는 사용자 인터페이스 출력을 생성하도록 추가로 구성된다.
실시예 16은 실시예 1 내지 실시예 15 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은, 제2 디바이스로부터, 음향 이벤트를 나타내는 데이터를 수신하도록 추가로 구성된다.
실시예 17은 실시예 1 내지 실시예 16 중 어느 한 실시예의 제1 디바이스를 포함하고, 하나 이상의 프로세서들은: 제2 디바이스로부터, 오디오 신호들과 연관된 방향 정보를 수신하고; 방향 정보에 기초하여 오디오 줌 동작을 수행하도록 추가로 구성된다.
실시예 18은 실시예 1 내지 실시예 17 중 어느 한 실시예의 제1 디바이스를 포함하고, 도착 방향 정보에 기초한 데이터는 적어도 하나의 검출된 이벤트 및 검출된 이벤트의 방향을 나타내는 리포트를 포함한다.
실시예 19는 실시예 1 내지 실시예 18 중 어느 한 실시예의 제1 디바이스를 포함하고, 다수의 마이크로폰들을 추가로 포함한다.
실시예 20은 실시예 1 내지 실시예 19 중 어느 한 실시예의 제1 디바이스를 포함하고, 오디오 신호들 중 적어도 하나와 연관된 소리를 출력하도록 구성된 적어도 하나의 스피커를 추가로 포함한다.
실시예 21은 실시예 1 내지 실시예 20 중 어느 한 실시예의 제1 디바이스를 포함하고, 클래스는 오디오 신호들에서 표현되고 특정 오디오 이벤트와 연관되는 특정 소리에 대한 카테고리에 대응하고; 임베딩은 특정 소리 또는 특정 오디오 이벤트에 대응하는 시그니처 또는 정보를 포함하고, 다른 오디오 신호들의 프로세싱을 통해, 다른 오디오 신호들 내의 특정 소리 또는 특정 오디오 이벤트의 검출을 가능하게 하도록 구성된다.
실시예 22에 따라, 시스템은: 실시예 1 내지 실시예 21 중 어느 한 실시예의 제1 디바이스; 및 하나 이상의 프로세서들을 포함하는 제2 디바이스, 또는 둘 모두를 포함하고, 하나 이상의 프로세서들은: 데이터를 수신하고; 데이터를 프로세싱하여 클래스를 검증하고, 도착 방향 정보 및 임베딩에 기초하여 소리 장면을 표현하는 오디오 데이터를 수정하여 업데이트된 소리 장면에 대응하는 수정된 오디오 데이터를 생성한다.
실시예 23에 따라, 시스템은: 제1 디바이스 - 제1 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은: 다수의 마이크로폰들로부터 오디오 신호들을 수신하고; 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하고; 도착 방향 정보 및 도착 방향 정보와 연관된 클래스에 기초하여 데이터를 송신하도록 구성됨 -; 및 하나 이상의 프로세서들을 포함하는 제2 디바이스를 포함하고, 하나 이상의 프로세서들은: 도착 방향 정보 및 클래스에 기초한 데이터를 수신하고; 도착 방향 정보 및 클래스와 연관된 소리를 표현하는 오디오 데이터를 획득하고; 적어도 오디오 데이터 및 도착 방향 정보에 기초하여 클래스를 검증하도록 구성된다.
실시예 24에 따라, 시스템은: 제1 디바이스 - 제1 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은: 다수의 마이크로폰들로부터 오디오 신호들을 수신하고; 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하고; 도착 방향 정보 및 도착 방향 정보와 연관된 임베딩에 기초하여 데이터를 송신하도록 구성됨 -; 및 하나 이상의 프로세서들을 포함하는 제2 디바이스를 포함하고, 하나 이상의 프로세서들은: 도착 방향 정보 및 임베딩에 기초한 데이터를 수신하고; 도착 방향 정보 및 임베딩에 기초하여 소리 장면을 표현하는 오디오 데이터를 프로세싱하여 업데이트된 소리 장면에 대응하는 수정된 오디오 데이터를 생성하도록 구성된다.
실시예 25에 따라, 오디오를 프로세싱하는 방법은: 제1 디바이스의 하나 이상의 프로세서들에서, 다수의 마이크로폰들로부터 오디오 신호들을 수신하는 단계; 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 단계; 및 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하는 단계를 포함한다.
실시예 26은 실시예 25의 방법을 포함하고, 오디오 신호들에 대응하는 신호 데이터를 프로세싱하여 클래스 또는 임베딩을 결정하는 단계를 추가로 포함한다.
실시예 27은 실시예 26의 방법을 포함하고, 오디오 신호들에 대해 빔포밍 동작을 수행하여 신호 데이터를 생성하는 단계를 추가로 포함한다.
실시예 28은 실시예 26 또는 실시예 27의 방법을 포함하고, 신호 데이터는 하나 이상의 분류기들에서 프로세싱되어 하나 이상의 분류기들에 의해 지원되는 다수의 클래스들 중에서 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트과 연관되는 소리에 대한 클래스를 결정하고, 클래스는 제2 디바이스로 송신된다.
실시예 29는 실시예 26 내지 실시예 28 중 어느 한 실시예의 방법을 포함하고, 신호 데이터는 하나 이상의 인코더들에서 프로세싱되어 임베딩을 생성하고, 임베딩은 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트와 연관되는 소리에 대응하고, 임베딩은 제2 디바이스로 송신된다.
실시예 30은 실시예 25 내지 실시예 29 중 어느 한 실시예의 방법을 포함하고, 오디오 신호들의 표현을 제2 디바이스로 송신하는 단계를 추가로 포함한다.
실시예 31은 실시예 25 내지 실시예 30 중 어느 한 실시예의 방법을 포함하고, 추가로: 제2 디바이스의 하나 이상의 프로세서들에서, 도착 방향 정보 및 클래스에 기초한 데이터를 수신하는 단계; 제2 디바이스의 하나 이상의 프로세서들에서, 도착 방향 정보 및 클래스와 연관된 소리를 표현하는 오디오 데이터를 획득하는 단계; 및 제2 디바이스의 하나 이상의 프로세서들에서, 적어도 오디오 데이터 및 도착 방향 정보에 기초하여 클래스를 검증하는 단계를 포함한다.
실시예 32는 실시예 25 내지 실시예 31 중 어느 한 실시예의 방법을 포함하고, 추가로: 제2 디바이스의 하나 이상의 프로세서들에서, 도착 방향 정보 및 임베딩에 기초한 데이터를 수신하는 단계; 및 제2 디바이스의 하나 이상의 프로세서들에서, 도착 방향 정보 및 임베딩에 기초하여 소리 장면을 표현하는 오디오 데이터를 프로세싱하여 업데이트된 소리 장면에 대응하는 수정된 오디오 데이터를 생성하는 단계를 포함한다.
실시예 33에 따라, 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 명령어들을 실행하여 실시예 25 내지 실시예 30 중 어느 한 실시예의 방법을 수행하도록 구성된 프로세서를 포함한다.
실시예 34에 따라, 비일시적 컴퓨터-판독가능 매체는 명령어들을 포함하고, 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 실시예 25 내지 실시예 30 중 어느 한 실시예의 방법을 수행하게 한다.
실시예 35에 따라, 장치는 실시예 25 내지 실시예 30 중 어느 한 실시예의 방법을 수행하는 수단을 포함한다.
실시예 36에 따라, 비일시적 컴퓨터-판독가능 매체는 명령어들을 포함하고, 명령어들은, 제1 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금: 다수의 마이크로폰들로부터 오디오 신호들을 수신하고; 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하고; 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하게 한다.
실시예 37은 실시예 36의 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은 추가로 하나 이상의 프로세서들로 하여금 오디오 신호들의 표현을 제2 디바이스로 송신하게 하도록 실행가능하다.
실시예 38은 실시예 37의 비일시적 컴퓨터-판독가능 매체를 포함하고, 오디오 신호들의 표현은 하나 이상의 빔포밍된 오디오 신호들에 대응한다.
실시예 39에 따라, 제1 디바이스는: 다수의 마이크로폰들로부터 오디오 신호들을 수신하는 수단; 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 수단; 및 제2 디바이스로, 도착 방향 정보 및 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 송신하는 수단을 포함한다.
본 개시내용은 실시예들의 하기 제3 세트를 포함한다.
실시예 1에 따라, 제2 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은: 제1 디바이스로부터, 오디오 이벤트에 대응하는 오디오 클래스의 표시를 수신하도록 구성된다.
실시예 2는 실시예 1의 제2 디바이스를 포함하고, 하나 이상의 프로세서들은 추가로: 제1 디바이스로부터, 오디오 이벤트와 연관된 소리를 표현하는 오디오 데이터를 수신하고; 하나 이상의 분류기들에서 오디오 데이터를 프로세싱하여 소리가 오디오 이벤트에 대응함을 검증하도록 구성된다.
실시예 3은 실시예 2의 제2 디바이스를 포함하고, 하나 이상의 프로세서들은 오디오 데이터 및 오디오 클래스의 표시를 하나 이상의 분류기들에 대한 입력들로서 제공하여 오디오 데이터와 연관된 분류를 결정하도록 구성된다.
실시예 4는 실시예 2 또는 실시예 3의 제2 디바이스를 포함하고, 오디오 클래스는 차량 이벤트에 대응하고, 하나 이상의 프로세서들은 제1 디바이스의 위치 및 하나 이상의 제3 디바이스들의 위치들에 기초하여 차량 이벤트의 통지를 하나 이상의 제3 디바이스들로 송신하도록 추가로 구성된다.
실시예 5는 실시예 2 내지 실시예 4 중 어느 한 실시예의 제2 디바이스를 포함하고, 하나 이상의 프로세서들은 하나 이상의 분류기들의 출력에 기초하여 제어 신호를 제1 디바이스로 송신하도록 추가로 구성된다.
실시예 6은 실시예 5의 제2 디바이스를 포함하고, 제어 신호는 제1 디바이스에게 오디오 줌 동작을 수행하도록 지시한다.
실시예 7은 실시예 5 또는 실시예 6의 제2 디바이스를 포함하고, 제어 신호는 제1 디바이스에게 음원의 방향에 기초하여 공간 프로세싱을 수행하도록 지시한다.
실시예 8은 실시예 2 내지 실시예 7 중 어느 한 실시예의 제2 디바이스를 포함하고, 하나 이상의 프로세서들은: 제1 디바이스로부터, 음원에 대응하는 방향 데이터를 수신하고; 오디오 데이터, 방향 데이터, 및 오디오 클래스의 표시를 하나 이상의 분류기들에 대한 입력들로서 제공하여 오디오 데이터와 연관된 분류를 결정하도록 추가로 구성된다.
실시예 9는 실시예 2 내지 실시예 8 중 어느 한 실시예의 제2 디바이스를 포함하고, 오디오 데이터는 하나 이상의 빔포밍된 신호를 포함한다.
실시예 10은 실시예 1 내지 실시예 9 중 어느 한 실시예의 제2 디바이스를 포함하고, 하나 이상의 프로세서들은: 제1 디바이스로부터, 오디오 이벤트와 연관된 음원에 대응하는 방향 데이터를 수신하고; 오디오 이벤트에 기초하여, 오디오 장면 내의 지향성 음원들의 맵을 업데이트하여 업데이트된 맵을 생성하고; 업데이트된 맵에 대응하는 데이터를 제1 디바이스로부터 지리적으로 멀리 떨어져 있는 하나 이상의 제3 디바이스들로 송신하도록 추가로 구성된다.
실시예 11은 실시예 1 내지 실시예 10 중 어느 한 실시예의 제2 디바이스를 포함하고, 메모리 및 하나 이상의 프로세서들은 모바일 폰에 통합되고, 제1 디바이스는 헤드셋 디바이스에 대응한다.
실시예 12는 실시예 1 내지 실시예 10 중 어느 한 실시예의 제2 디바이스를 포함하고, 메모리 및 하나 이상의 프로세서들은 차량에 통합된다.
실시예 13은 실시예 1 내지 실시예 12 중 어느 한 실시예의 제2 디바이스를 포함하고, 모뎀을 추가로 포함하고, 오디오 클래스의 표시는 모뎀을 통해 수신된다.
실시예 14는 실시예 1 내지 실시예 13 중 어느 한 실시예의 제2 디바이스를 포함하고, 하나 이상의 프로세서들은 도착 방향 정보가 제1 디바이스로부터 수신되는지 여부에 기초하여 오디오 이벤트에 대응하는 수신된 오디오 데이터에 대한 도착 방향 프로세싱을 선택적으로 건너뛰도록 구성된다.
실시예 15는 실시예 1 내지 실시예 14 중 어느 한 실시예의 제2 디바이스를 포함하고, 하나 이상의 프로세서들은 수신된 오디오 데이터가 제1 디바이스로부터의 다중-채널 마이크로폰 신호들에 대응하는지 아니면 제1 디바이스로부터의 빔포밍된 신호들에 대응하는지에 기초하여 빔포밍 동작을 선택적으로 건너뛰도록 구성된다.
실시예 16은 실시예 1 내지 실시예 15 중 어느 한 실시예의 제2 디바이스를 포함하고, 오디오 클래스는 오디오 신호들에서 표현되고 오디오 이벤트와 연관되는 특정 소리에 대한 카테고리에 대응한다.
실시예 17에 따라, 시스템은: 실시예 1 내지 실시예 16 중 어느 한 실시예의 제2 디바이스; 및 하나 이상의 프로세서들을 포함하는 제1 디바이스를 포함하고, 하나 이상의 프로세서들은: 하나 이상의 마이크로폰들로부터 오디오 신호들을 수신하고; 오디오 신호들을 프로세싱하여 오디오 클래스를 결정하고; 오디오 클래스의 표시를 제2 디바이스로 송신하도록 구성된다.
실시예 18에 따라, 시스템은: 하나 이상의 프로세서들을 포함하는 제1 디바이스 - 하나 이상의 프로세서들은: 하나 이상의 마이크로폰들로부터 오디오 신호들을 수신하고; 오디오 신호들을 프로세싱하여 오디오 이벤트에 대응하는 오디오 클래스를 결정하고; 오디오 클래스의 표시를 송신하도록 구성됨 -; 및 하나 이상의 프로세서들을 포함하는 제2 디바이스를 포함하고, 하나 이상의 프로세서들은: 오디오 이벤트에 대응하는 오디오 클래스의 표시를 수신하도록 구성된다.
실시예 19에 따라, 방법은: 제2 디바이스의 하나 이상의 프로세서들에서, 오디오 클래스의 표시를 수신하는 단계 - 표시는 제1 디바이스로부터 수신되고 오디오 이벤트에 대응함 -; 및 제2 디바이스의 하나 이상의 프로세서들에서, 오디오 데이터를 프로세싱하여 오디오 데이터에 표현된 소리가 오디오 이벤트에 대응함을 검증하는 단계를 포함한다.
실시예 20은 실시예 19의 방법을 포함하고, 제1 디바이스로부터 오디오 데이터를 수신하는 단계를 추가로 포함하고, 오디오 데이터를 프로세싱하는 단계는 오디오 데이터를 하나 이상의 분류기들에 대한 입력으로서 제공하여 오디오 데이터와 연관된 분류를 결정하는 단계를 포함한다.
실시예 21은 실시예 20의 방법을 포함하고, 오디오 데이터를 프로세싱하는 단계는 오디오 클래스의 표시를 하나 이상의 분류기들에 대한 제2 입력으로서 제공하여 오디오 데이터와 연관된 분류를 결정하는 단계를 추가로 포함한다.
실시예 22는 실시예 20 또는 실시예 21의 방법을 포함하고, 하나 이상의 분류기들의 출력에 기초하여 제어 신호를 제1 디바이스로 송신하는 단계를 추가로 포함한다.
실시예 23은 실시예 22의 방법을 포함하고, 제어 신호는 오디오 줌 명령어를 포함한다.
실시예 24는 실시예 22 또는 실시예 23의 방법을 포함하고, 제어 신호는 음원의 방향에 기초하여 공간 프로세싱을 수행하기 위한 명령어를 포함한다.
실시예 25는 실시예 19 내지 실시예 24 중 어느 한 실시예의 방법을 포함하고, 오디오 클래스는 차량 이벤트에 대응하고, 방법은 제1 디바이스의 위치 및 하나 이상의 제3 디바이스들의 위치들에 기초하여 차량 이벤트의 통지를 하나 이상의 제3 디바이스들로 송신하는 단계를 추가로 포함한다.
실시예 26은 실시예 19 내지 실시예 25 중 어느 한 실시예의 방법을 포함하고, 추가로: 제1 디바이스로부터, 오디오 이벤트와 연관된 음원에 대응하는 방향 데이터를 수신하는 단계; 오디오 이벤트에 기초하여, 오디오 장면 내의 지향성 음원들의 맵을 업데이트하여 업데이트된 맵을 생성하는 단계; 및 업데이트된 맵에 대응하는 데이터를 제1 디바이스로부터 지리적으로 멀리 떨어져 있는 하나 이상의 제3 디바이스들로 송신하는 단계를 추가로 포함한다.
실시예 27은 실시예 19 내지 실시예 26 중 어느 한 실시예의 방법을 포함하고, 도착 방향 정보가 제1 디바이스로부터 수신되는지 여부에 기초하여 오디오 이벤트에 대응하는 수신된 오디오 데이터에 대한 도착 방향 프로세싱을 선택적으로 건너뛰는 단계를 추가로 포함한다.
실시예 28은 실시예 19 내지 실시예 27 중 어느 한 실시예의 방법을 포함하고, 수신된 오디오 데이터가 제1 디바이스로부터의 다중-채널 마이크로폰 신호들에 대응하는지 아니면 제1 디바이스로부터의 빔포밍된 신호들에 대응하는지에 기초하여 빔포밍 동작을 선택적으로 건너뛰는 단계를 추가로 포함한다.
실시예 29는 실시예 19 내지 실시예 28 중 어느 한 실시예의 방법을 포함하고, 추가로: 제1 디바이스의 하나 이상의 프로세서들에서, 하나 이상의 마이크로폰들로부터 오디오 신호들을 수신하는 단계; 제1 디바이스의 하나 이상의 프로세서들에서, 오디오 신호들을 프로세싱하여 오디오 클래스를 결정하는 단계; 및 오디오 클래스의 표시를 제1 디바이스로부터 제2 디바이스로 송신하는 단계를 포함한다.
실시예 30에 따라, 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 명령어들을 실행하여 실시예 16 내지 실시예 28 중 어느 한 실시예의 방법을 수행하도록 구성된 프로세서를 포함한다.
실시예 31에 따라, 비일시적 컴퓨터-판독가능 매체는 명령어들을 포함하고, 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 실시예 16 내지 실시예 29 중 어느 한 실시예의 방법을 수행하게 한다.
실시예 32에 따라, 장치는 실시예 16 내지 실시예 28 중 어느 한 실시예의 방법을 수행하는 수단을 포함한다.
실시예 33에 따라, 비일시적 컴퓨터-판독가능 매체는 명령어들을 포함하고, 명령어들은, 제2 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금, 제1 디바이스로부터, 오디오 이벤트에 대응하는 오디오 클래스의 표시를 수신하게 한다.
실시예 34는 실시예 33의 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은 추가로 하나 이상의 프로세서들로 하여금: 제1 디바이스로부터, 오디오 이벤트와 연관된 소리를 표현하는 오디오 데이터를 수신하고; 하나 이상의 분류기들에서 오디오 데이터를 프로세싱하여 소리가 오디오 이벤트에 대응함을 검증하도록 실행가능하다.
실시예 35는 실시예 34의 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은 추가로 하나 이상의 프로세서들로 하여금 오디오 데이터 및 오디오 클래스의 표시를 하나 이상의 분류기들에 대한 입력들로서 제공하여 오디오 데이터와 연관된 분류를 결정하게 하도록 실행가능하다.
실시예 36은 실시예 34 또는 실시예 35의 비일시적 컴퓨터-판독가능 매체를 포함하고, 명령어들은 추가로 하나 이상의 프로세서들로 하여금: 제1 디바이스로부터, 음원에 대응하는 방향 데이터를 수신하고; 오디오 데이터, 방향 데이터, 및 오디오 클래스의 표시를 하나 이상의 분류기들에 대한 입력들로서 제공하여 오디오 데이터와 연관된 분류를 결정하게 하도록 실행가능하다.
실시예 37에 따라, 장치는 오디오 클래스의 표시를 수신하는 수단 - 표시는 원격 디바이스로부터 수신되고 오디오 이벤트에 대응함 -; 및 오디오 데이터를 프로세싱하여 오디오 데이터에 표현된 소리가 오디오 이벤트에 대응함을 검증하는 수단을 포함한다.
실시예 38에 따라, 제2 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은: 제1 디바이스로부터: 소리를 표현하는 오디오 데이터; 및 오디오 데이터가 차량 이벤트와 연관된 오디오 클래스에 대응한다는 표시를 수신하고; 하나 이상의 분류기들에서 오디오 데이터를 프로세싱하여 오디오 데이터에 표현된 소리가 차량 이벤트에 대응함을 검증하고; 제1 디바이스의 위치 및 하나 이상의 제3 디바이스들의 위치들에 기초하여 차량 이벤트의 통지를 하나 이상의 제3 디바이스들로 송신하도록 구성된다.
실시예 39에 따라, 방법은: 제2 디바이스의 하나 이상의 프로세서들에서, 제1 디바이스로부터 오디오 데이터 및 제1 디바이스로부터 오디오 데이터가 차량 이벤트와 연관된 오디오 클래스에 대응한다는 표시를 수신하는 단계; 제2 디바이스의 하나 이상의 분류기들에서 오디오 데이터를 프로세싱하여 오디오 데이터에 표현된 소리가 차량 이벤트에 대응함을 검증하는 단계; 및 제1 디바이스의 위치 및 하나 이상의 제3 디바이스들의 위치들에 기초하여 차량 이벤트의 통지를 하나 이상의 제3 디바이스들로 송신하는 단계를 포함한다.
실시예 40에 따라, 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 명령어들을 실행하여 실시예 39의 방법을 수행하도록 구성된 프로세서를 포함한다.
실시예 41에 따라, 비일시적 컴퓨터-판독가능 매체는, 제2 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 실시예 39의 방법을 수행하게 하는 명령어들을 포함한다.
실시예 42에 따라, 장치는 실시예 39의 방법을 수행하는 수단을 포함한다.
실시예 43에 따라, 제1 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은: 하나 이상의 마이크로폰들로부터 하나 이상의 오디오 신호들을 수신하고; 하나 이상의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 소리가 식별가능한 방향으로부터 오는지 여부를 결정하고; 결정에 기초하여, 제2 디바이스로, 음원의 도착 방향 정보를 선택적으로 송신하도록 구성된다.
실시예 44에 따라, 방법은: 제1 디바이스의 하나 이상의 프로세서들에서, 하나 이상의 마이크로폰들로부터 하나 이상의 오디오 신호들을 수신하는 단계; 하나 이상의 프로세서들에서, 하나 이상의 오디오 신호들을 프로세싱하여 오디오 신호들 중 하나 이상에서 표현되는 소리가 식별가능한 방향으로부터 오는지 여부를 결정하는 단계; 및 결정에 기초하여, 제2 디바이스로, 음원의 도착 방향 정보를 선택적으로 송신하는 단계를 포함한다.
실시예 45에 따라, 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 명령어들을 실행하여 실시예 44의 방법을 수행하도록 구성된 프로세서를 포함한다.
실시예 46에 따라, 비일시적 컴퓨터-판독가능 매체는, 제1 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 실시예 44의 방법을 수행하게 하는 명령어들을 포함한다.
실시예 47에 따라, 장치는 실시예 44의 방법을 수행하는 수단을 포함한다.
실시예 48에 따라, 제1 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은: 하나 이상의 마이크로폰들로부터 하나 이상의 오디오 신호들을 수신하고; 하나 이상의 기준들에 기초하여, 하나 이상의 오디오 신호들을 제2 디바이스로 송신할지 아니면 하나 이상의 오디오 신호들에 기초하여 생성되는 빔포밍된 오디오 신호들을 제2 디바이스로 송신할지 결정하고; 결정에 기초하여, 하나 이상의 오디오 신호들에 대응하거나 또는 빔포밍된 오디오 신호들에 대응하는 오디오 데이터를 제2 디바이스로 송신하도록 구성된다.
실시예 49에 따라, 방법은: 제1 디바이스의 하나 이상의 프로세서들에서, 하나 이상의 마이크로폰들로부터 하나 이상의 오디오 신호들을 수신하는 단계; 하나 이상의 프로세서들에서 그리고 하나 이상의 기준들에 기초하여, 하나 이상의 오디오 신호들을 제2 디바이스로 송신할지 아니면 하나 이상의 오디오 신호들에 기초하여 생성되는 빔포밍된 오디오 신호들을 제2 디바이스로 송신할지 결정하는 단계; 및 결정에 기초하여, 하나 이상의 오디오 신호들에 대응하거나 또는 빔포밍된 오디오 신호들에 대응하는 오디오 데이터를 제2 디바이스로 송신하는 단계를 포함한다.
실시예 50에 따라, 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 명령어들을 실행하여 실시예 49의 방법을 수행하도록 구성된 프로세서를 포함한다.
실시예 51에 따라, 비일시적 컴퓨터-판독가능 매체는, 제1 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 실시예 49의 방법을 수행하게 하는 명령어들을 포함한다.
실시예 52에 따라, 장치는 실시예 49의 방법을 수행하는 수단을 포함한다.
실시예 53에 따라, 제2 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은: 제1 디바이스로부터: 소리를 표현하는 오디오 데이터; 음원에 대응하는 방향 데이터; 및 오디오 이벤트에 대응하는 것으로서 소리의 분류를 수신하고; 오디오 데이터를 프로세싱하여 소리가 오디오 이벤트에 대응함을 검증하고; 오디오 이벤트에 기초하여, 오디오 장면 내의 지향성 음원들의 맵을 업데이트하여 업데이트된 맵을 생성하고; 업데이트된 맵에 대응하는 데이터를 제1 디바이스로부터 지리적으로 멀리 떨어져 있는 하나 이상의 제3 디바이스들로 송신하도록 추가로 구성된다.
실시예 54에 따라, 방법은: 제2 디바이스의 하나 이상의 프로세서들에서, 소리를 표현하는 오디오 데이터, 음원에 대응하는 방향 데이터, 및 오디오 이벤트에 대응하는 것으로서 소리의 분류를 수신하는 단계 - 오디오 데이터, 방향 데이터, 및 분류는 제1 디바이스로부터 수신됨 -; 하나 이상의 프로세서들에서, 오디오 데이터를 프로세싱하여 소리가 오디오 이벤트에 대응함을 검증하는 단계; 하나 이상의 프로세서들에서 그리고 오디오 이벤트에 기초하여, 오디오 장면 내의 지향성 음원들의 맵을 업데이트하여 업데이트된 맵을 생성하는 단계; 및 업데이트된 맵에 대응하는 데이터를 제1 디바이스로부터 지리적으로 멀리 떨어져 있는 하나 이상의 제3 디바이스들로 송신하는 단계를 포함한다.
실시예 55에 따라, 디바이스는: 명령어들을 저장하도록 구성된 메모리; 및 명령어들을 실행하여 실시예 54의 방법을 수행하도록 구성된 프로세서를 포함한다.
실시예 56에 따라, 비일시적 컴퓨터-판독가능 매체는, 제2 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 실시예 54의 방법을 수행하게 하는 명령어들을 포함한다.
실시예 57에 따라, 장치는 실시예 54의 방법을 수행하는 수단을 포함한다.
당업자들은 본원에서 개시된 구현예들과 관련하여 설명되는 여러가지 예시적인 로직 블록들, 구성들, 모듈들, 회로들 및 알고리즘 단계들이 전자적 하드웨어, 프로세서에 의해 실행되는 컴퓨터 소프트웨어, 또는 양쪽의 조합들로서 구현될 수도 있음을 또한 알 수 있을 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 그 기능에 관하여 일반적으로 전술되어 있다. 이러한 기능성이 하드웨어로서 구현되는지 또는 프로세서 실행가능 명령어들로서 구현되는지는 전체 시스템에 부과된 설계 제약들 및 특정 애플리케이션에 의존한다. 당업자들은 각각의 특정 애플리케이션에 대해 다양한 방식들로 설명된 기능성을 구현할 수도 있으며, 이러한 구현 판정들은 본 개시의 범위로부터 벗어남을 야기하는 것으로서 해석되어서는 안된다.
본 명세서에 개시된 구현예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들 양자의 조합에서 직접 구현될 수도 있다. 소프트웨어 모듈은, 랜덤 액세스 메모리(RAM), 플래시 메모리, 판독-전용 메모리(ROM), 프로그래밍가능 판독-전용 메모리(PROM), 소거가능한 프로그래밍가능 판독-전용 메모리(EPROM), 전기적으로 소거가능한 프로그래밍가능 판독-전용 메모리(EEPROM), 레지스터들, 하드 디스크, 착탈형 디스크, 컴팩트 디스크 판독-전용 메모리(CD-ROM), 또는 당업계에 알려진 임의의 다른 형태의 비일시적인 저장 매체에 상주할 수 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독할 수도 있고 저장 매체에 정보를 기입할 수도 있도록 프로세서에 결합된다. 대안적으로, 저장 매체는 프로세서에 통합될 수 있다. 프로세서 및 저장 매체는 주문형 집적 회로(ASIC)에 상주할 수 있다. ASIC은 컴퓨팅 디바이스 또는 사용자 단말 내에 있을 수도 있다. 대안으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에 별개의 컴포넌트들로서 상주할 수도 있다.
개시된 양태들의 이전 설명은 당업자가 개시된 양태들을 사용하거나 또는 실시할 수 있도록 제공된다. 이들 양태들에 대한 다양한 수정들은 당업자들에게 용이하게 명백할 것이며, 본 명세서에서 정의된 원리들은 본 개시의 범위로부터 벗어남 없이 다른 양태들에 적용될 수도 있다. 따라서, 본 개시내용은 본 명세서에 예시된 양태들로 제한되도록 의도되는 것이 아니라, 다음의 청구항들에 의해 정의된 바와 같은 원리들 및 신규한 특징들과 일치하는 가능한 가장 넓은 범위에 부합할 것이다.
Claims (30)
- 제1 디바이스로서,
명령들을 저장하도록 구성된 메모리; 및
하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은,
다수의 마이크로폰들로부터 오디오 신호들을 수신하고;
상기 오디오 신호들을 프로세싱하여 상기 오디오 신호들 중 하나 이상에서 표현된 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하고;
상기 도착 방향 정보 및 상기 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 제2 디바이스로 송신하도록 구성된, 제1 디바이스. - 제1항에 있어서, 상기 하나 이상의 프로세서들은 상기 오디오 신호들에 대응하는 신호 데이터를 프로세싱하여 상기 클래스 또는 임베딩을 결정하도록 추가로 구성된, 제1 디바이스.
- 제2항에 있어서, 상기 하나 이상의 프로세서들은 상기 오디오 신호들에 대해 빔포밍 동작을 수행하여 상기 신호 데이터를 생성하도록 추가로 구성된, 제1 디바이스.
- 제2항에 있어서, 상기 하나 이상의 프로세서들은 하나 이상의 분류기들에서 상기 신호 데이터를 프로세싱하여, 상기 하나 이상의 분류기들에 의해 지원되는 다수의 클래스들 중에서, 상기 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트와 연관된 소리에 대한 상기 클래스를 결정하도록 추가로 구성되고, 상기 클래스는 상기 제2 디바이스로 송신되는, 제1 디바이스.
- 제2항에 있어서, 상기 하나 이상의 프로세서들은 하나 이상의 인코더들에서 상기 신호 데이터를 프로세싱하여 상기 임베딩을 생성하도록 추가로 구성되고, 상기 임베딩은 상기 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트와 연관되는 소리에 대응하고, 상기 임베딩은 상기 제2 디바이스로 송신되는, 제1 디바이스.
- 제1항에 있어서, 하나 이상의 프로세서들은 하나 이상의 인코더들에서 이미지 데이터를 프로세싱하여 상기 임베딩을 생성하도록 추가로 구성되고, 상기 임베딩은 상기 이미지 데이터에서 표현되고 오디오 이벤트와 연관되는 객체에 대응하고, 상기 임베딩은 상기 제2 디바이스로 송신되는, 제1 디바이스.
- 제6항에 있어서, 상기 이미지 데이터를 생성하도록 구성된 하나 이상의 카메라들을 추가로 포함하는, 제1 디바이스.
- 제1항에 있어서,
상기 클래스는 상기 오디오 신호들에 표현되고 특정 오디오 이벤트와 연관되는 특정 소리에 대한 카테고리에 대응하고;
상기 임베딩은 상기 특정 소리 또는 상기 특정 오디오 이벤트에 대응하는 시그니처 또는 정보를 포함하고, 다른 오디오 신호들의 프로세싱을 통해, 상기 다른 오디오 신호들 내의 상기 특정 소리 또는 상기 특정 오디오 이벤트의 검출을 가능하게 하도록 구성된, 제1 디바이스. - 제1항에 있어서, 상기 하나 이상의 프로세서들은,
상기 도착 방향 정보에 기초하여 상기 오디오 신호들에 대해 공간 프로세싱을 수행하여 하나 이상의 빔포밍된 오디오 신호들을 생성하고;
상기 하나 이상의 빔포밍된 오디오 신호들을 상기 제2 디바이스로 송신하도록 추가로 구성된, 제1 디바이스. - 제1항에 있어서, 상기 메모리 및 상기 하나 이상의 프로세서들은 헤드셋 디바이스에 통합되고, 상기 제2 디바이스는 모바일 폰에 대응하는, 제1 디바이스.
- 제1항에 있어서, 모뎀을 추가로 포함하고, 상기 데이터는 상기 모뎀을 통해 상기 제2 디바이스로 송신되는, 제1 디바이스.
- 제1항에 있어서, 상기 하나 이상의 프로세서들은 상기 오디오 신호들의 표현을 상기 제2 디바이스로 송신하도록 추가로 구성된, 제1 디바이스.
- 제12항에 있어서, 상기 오디오 신호들의 상기 표현은 하나 이상의 빔포밍된 오디오 신호들에 대응하는, 제1 디바이스.
- 제1항에 있어서, 상기 하나 이상의 프로세서들은 환경적 이벤트 또는 음향 이벤트 중 적어도 하나를 나타내는 사용자 인터페이스 출력을 생성하도록 추가로 구성된, 제1 디바이스.
- 제1항에 있어서, 상기 하나 이상의 프로세서들은, 상기 제2 디바이스로부터, 음향 이벤트를 나타내는 데이터를 수신하도록 추가로 구성된, 제1 디바이스.
- 제1항에 있어서, 상기 하나 이상의 프로세서들은,
상기 제2 디바이스로부터, 상기 오디오 신호들과 연관된 방향 정보를 수신하고;
상기 방향 정보에 기초하여 오디오 줌 동작을 수행하도록 추가로 구성된, 제1 디바이스. - 제1항에 있어서, 상기 하나 이상의 프로세서들은 차량에 통합되는, 제1 디바이스.
- 제1항에 있어서, 상기 도착 방향 정보에 기초한 상기 데이터는 적어도 하나의 검출된 이벤트 및 상기 검출된 이벤트의 방향을 나타내는 리포트를 포함하는, 제1 디바이스.
- 제1항에 있어서, 상기 다수의 마이크로폰들을 추가로 포함하는, 제1 디바이스.
- 제1항에 있어서, 상기 오디오 신호들 중 적어도 하나와 연관된 소리를 출력하도록 구성된 적어도 하나의 스피커를 추가로 포함하는, 제1 디바이스.
- 오디오를 프로세싱하는 방법으로서,
제1 디바이스의 하나 이상의 프로세서들에서, 다수의 마이크로폰들로부터 오디오 신호들을 수신하는 단계;
상기 오디오 신호들을 프로세싱하여 상기 오디오 신호들 중 하나 이상에서 표현된 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 단계; 및
상기 도착 방향 정보 및 상기 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 제2 디바이스로 송신하는 단계를 포함하는, 오디오를 프로세싱하는 방법. - 제21항에 있어서, 상기 오디오 신호들에 대응하는 신호 데이터를 프로세싱하여 상기 클래스 또는 임베딩을 결정하는 단계를 추가로 포함하는, 오디오를 프로세싱하는 방법.
- 제22항에 있어서, 상기 오디오 신호들에 대해 빔포밍 동작을 수행하여 상기 신호 데이터를 생성하는 단계를 추가로 포함하는, 오디오를 프로세싱하는 방법.
- 제22항에 있어서, 상기 신호 데이터는 하나 이상의 분류기들에서 프로세싱되어, 상기 하나 이상의 분류기들에 의해 지원되는 다수의 클래스들 중에서, 상기 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트와 연관된 소리에 대한 상기 클래스를 결정하고, 상기 클래스는 상기 제2 디바이스로 송신되는, 오디오를 프로세싱하는 방법.
- 제22항에 있어서, 상기 신호 데이터는 하나 이상의 인코더들에서 프로세싱되어 상기 임베딩을 생성하고, 상기 임베딩은 상기 오디오 신호들 중 하나 이상에서 표현되고 오디오 이벤트와 연관되는 소리에 대응하고, 상기 임베딩은 상기 제2 디바이스로 송신되는, 오디오를 프로세싱하는 방법.
- 제21항에 있어서, 상기 오디오 신호들의 표현을 상기 제2 디바이스로 송신하는 단계를 추가로 포함하는, 오디오를 프로세싱하는 방법.
- 제21항에 있어서,
상기 제2 디바이스의 하나 이상의 프로세서들에서, 상기 도착 방향 정보 및 상기 클래스에 기초한 상기 데이터를 수신하는 단계;
상기 제2 디바이스의 상기 하나 이상의 프로세서들에서, 상기 도착 방향 정보 및 상기 클래스와 연관된 소리를 표현하는 오디오 데이터를 획득하는 단계; 및
상기 제2 디바이스의 상기 하나 이상의 프로세서들에서, 적어도 상기 오디오 데이터 및 상기 도착 방향 정보에 기초하여 상기 클래스를 검증하는 단계를 추가로 포함하는, 오디오를 프로세싱하는 방법. - 제21항에 있어서,
상기 제2 디바이스의 하나 이상의 프로세서들에서, 상기 도착 방향 정보 및 상기 임베딩에 기초한 상기 데이터를 수신하는 단계; 및
상기 제2 디바이스의 상기 하나 이상의 프로세서들에서, 상기 도착 방향 정보 및 상기 임베딩에 기초하여 소리 장면을 표현하는 오디오 데이터를 프로세싱하여 업데이트된 소리 장면에 대응하는 수정된 오디오 데이터를 생성하는 단계를 추가로 포함하는, 오디오를 프로세싱하는 방법. - 명령들을 포함하는 비일시적 컴퓨터-판독가능 저장 매체로서, 상기 명령들은, 제1 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금:
다수의 마이크로폰들로부터 오디오 신호들을 수신하게 하고;
상기 오디오 신호들을 프로세싱하여 상기 오디오 신호들 중 하나 이상에서 표현된 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하게 하고; 그리고
상기 도착 방향 정보 및 상기 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 제2 디바이스로 송신하게 하는, 비일시적 컴퓨터-판독가능 저장 매체. - 제1 디바이스로서,
다수의 마이크로폰들로부터 오디오 신호들을 수신하는 수단;
상기 오디오 신호들을 프로세싱하여 상기 오디오 신호들 중 하나 이상에서 표현된 하나 이상의 음원들에 대응하는 도착 방향 정보를 생성하는 수단; 및
상기 도착 방향 정보 및 상기 도착 방향 정보와 연관된 클래스 또는 임베딩에 기초한 데이터를 제2 디바이스로 송신하는 수단을 포함하는, 제1 디바이스.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163203562P | 2021-07-27 | 2021-07-27 | |
US63/203,562 | 2021-07-27 | ||
US17/814,660 US20230036986A1 (en) | 2021-07-27 | 2022-07-25 | Processing of audio signals from multiple microphones |
US17/814,660 | 2022-07-25 | ||
PCT/US2022/074156 WO2023010011A1 (en) | 2021-07-27 | 2022-07-26 | Processing of audio signals from multiple microphones |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240040737A true KR20240040737A (ko) | 2024-03-28 |
Family
ID=82932611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247002496A KR20240040737A (ko) | 2021-07-27 | 2022-07-26 | 다수의 마이크로폰들로부터의 오디오 신호들의 프로세싱 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4378173A1 (ko) |
KR (1) | KR20240040737A (ko) |
TW (1) | TW202314684A (ko) |
WO (1) | WO2023010011A1 (ko) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10575117B2 (en) * | 2014-12-08 | 2020-02-25 | Harman International Industries, Incorporated | Directional sound modification |
CN107211206A (zh) * | 2015-01-20 | 2017-09-26 | 3M创新有限公司 | 用于测定声学信号起源的可安装的声音捕捉和重现装置 |
US10976999B1 (en) * | 2018-06-15 | 2021-04-13 | Chosen Realities, LLC | Mixed reality sensor suite and interface for physical region enhancement |
US10638248B1 (en) * | 2019-01-29 | 2020-04-28 | Facebook Technologies, Llc | Generating a modified audio experience for an audio system |
-
2022
- 2022-07-26 EP EP22755055.5A patent/EP4378173A1/en active Pending
- 2022-07-26 TW TW111127948A patent/TW202314684A/zh unknown
- 2022-07-26 KR KR1020247002496A patent/KR20240040737A/ko unknown
- 2022-07-26 WO PCT/US2022/074156 patent/WO2023010011A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
TW202314684A (zh) | 2023-04-01 |
WO2023010011A1 (en) | 2023-02-02 |
EP4378173A1 (en) | 2024-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6747538B2 (ja) | 情報処理装置 | |
KR102694487B1 (ko) | 선택적 청취를 지원하는 시스템 및 방법 | |
JP6039111B2 (ja) | マルチチャネルオーディオデータのビデオ解析支援生成 | |
CN111373769A (zh) | 信息处理装置和信息处理方法 | |
US9277178B2 (en) | Information processing system and storage medium | |
US10636405B1 (en) | Automatic active noise reduction (ANR) control | |
US11467666B2 (en) | Hearing augmentation and wearable system with localized feedback | |
US20230164509A1 (en) | System and method for headphone equalization and room adjustment for binaural playback in augmented reality | |
US9832587B1 (en) | Assisted near-distance communication using binaural cues | |
US20220174395A1 (en) | Auditory augmented reality using selective noise cancellation | |
US10897663B1 (en) | Active transit vehicle classification | |
US20230035531A1 (en) | Audio event data processing | |
KR20240040737A (ko) | 다수의 마이크로폰들로부터의 오디오 신호들의 프로세싱 | |
KR20240040738A (ko) | 오디오 이벤트 데이터 프로세싱 | |
CN118020314A (zh) | 音频事件数据处理 | |
CN118020313A (zh) | 处理来自多个麦克风的音频信号 | |
JP7065353B2 (ja) | ヘッドマウントディスプレイ及びその制御方法 | |
KR102379734B1 (ko) | 사운드 생성 방법 및 이를 수행하는 장치들 | |
US11689878B2 (en) | Audio adjustment based on user electrical signals | |
US20230229383A1 (en) | Hearing augmentation and wearable system with localized feedback | |
US20240087597A1 (en) | Source speech modification based on an input speech characteristic |