KR20190039646A - 복수의 음성 명령 디바이스를 사용하는 장치 및 방법 - Google Patents
복수의 음성 명령 디바이스를 사용하는 장치 및 방법 Download PDFInfo
- Publication number
- KR20190039646A KR20190039646A KR1020180117327A KR20180117327A KR20190039646A KR 20190039646 A KR20190039646 A KR 20190039646A KR 1020180117327 A KR1020180117327 A KR 1020180117327A KR 20180117327 A KR20180117327 A KR 20180117327A KR 20190039646 A KR20190039646 A KR 20190039646A
- Authority
- KR
- South Korea
- Prior art keywords
- voice command
- command device
- audio signal
- signal
- command devices
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 230000005236 sound signal Effects 0.000 claims abstract description 201
- 230000004913 activation Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 description 24
- 238000001514 detection method Methods 0.000 description 20
- 238000001914 filtration Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 235000009508 confectionery Nutrition 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 230000004807 localization Effects 0.000 description 9
- 238000012937 correction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 7
- 230000010363 phase shift Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 238000003491 array Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001014642 Rasta Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/02—Systems using reflection of radio waves, e.g. primary radar systems; Analogous systems
- G01S13/06—Systems determining position data of a target
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/003—Digital PA systems using, e.g. LAN or internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/005—Audio distribution systems for home, i.e. multi-room use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명은 복수의 음성 명령 디바이스를 가진 시스템 및 방법을 제공하는데, 각각의 음성 명령 디바이스는, 프로세서 유닛과, 상기 프로세서 유닛에 연결되고, 네트워크에 연결하도록 구성된 트랜시버와, 오디오 신호를 캡쳐하도록 각각 구성된 하나 이상의 마이크로폰과, 및 적어도 하나의 라우드스피커를 포함하되, 상기 프로세서 유닛은, 캡쳐된 오디오 신호 내에서 스피치 신호를 검출하고, 스피치 신호를 검출하면, 트랜시버를 사용하여 네트워크를 통해, 하나 이상의 마이크로폰에 대한 방향성 정보를 서비스형 소프트웨어(Saas) 제공자에게 전송하고, 트랜시버를 사용하여 네트워크를 통해, SaaS 제공자로부터 복수의 음성 명령 디바이스에 대한 방향성 정보를 수신하도록 구성된다.
Description
본 발명은 복수의 음성 명령 디바이스를 사용하는 장치 및 방법, 구체적으로, 음향 클라우드 디바이스의 자동 선택에 관한 것이다.
최근에, 더 클라우드(The Cloud) 또는 다른 웹 서비스 제공자에 연결된 복수의 음성 작동되는 디바이스가 시판되고 있다. 일부 예시는 아마존(Amazon)의 에코(Echo), iOS 상의 시리(Siri) 및 안드로이드(Android)에 대한 스피치 상호작용 등을 포함한다. 이들 음성 명령 디바이스는 스트리밍 오디오, 음악, 서적, 비디오 및 다른 디지털 콘텐트와 같은 웹 서비스에 대한 프론트 엔드(front end)로서 작동하고, 음성 명령을 사용하여 사용자에 의해 작동될 수 있다. 사용자는 가령 특정 콘텐트를 디바이스를 통해 재생되도록 요청할 수 있다. 이를 위해, 음성 명령 디바이스는 일반적으로 하나 이상의 라우드스피커가 구비되고, 및/또는 별도로 제공된 라우드스피커에 연결된다.
키워드가 사용되어서, 음성 명령이 따라는 시스템을 표시할 수 있다. 예를 들어, 제한 없이, "알렉사(Alexa)" 이후의 명령 "음악 재생해"를 사용하여, 아마존의 에코에게 말할 수 있다. 음성 명령 디바이스의 하나 이상의 마이크로폰에 의해 캡쳐된, 수신된 오디오 신호는 가령 인터넷과 같은 네트워크를 통해 특히 더 클라우드를 사용하여 서비스 제공자에게 전송하기 위해 디지털화된다. 그리고 나서, 음성 명령 디바이스는 원격 서비스에 연락할 수 있는데, 이는 스트리밍 음악으로 응답하거나 요청된 데이터를 전달한다. 상호운용성(interoperability)이 제공되는데, 원격 디바이스나 웹 서비스는 명령의 명확성을 요청할 수 있다. 예를 들어, 그리고 제한 없이, "너는 무슨 음악을 좋아하니?"가 음성 명령 디바이스로 전송될 수 있고, 이는 라우드스피커를 사용하여 질문을 발음할 것이다. 사용자에 의해 주어지고, 음성 명령 디바이스에 의해 캡쳐된 응답은 원격 디바이스나 웹 서비스로 전송되는데, 이는 원하는 음악을 스트리밍할 것이다. 스피치 인식은 음성 명령 디바이스 및/또는 서비스 제공자에 의해 사용되어서, 음성 명령을 위해 캡쳐된 오디오 신호를 분석할 수 있다.
원칙적으로, 음성 명령 디바이스는, 스피치 신호가 캡쳐된 오디오 신호에서 신뢰성있게 검출될 수 있는 한, 사용자의 특정 위치와 무관하게 트리거될 수 있다. 다시 말해, 요즘, 음성 명령 디바이스는, 대개 발언된 음성 명령을 캡쳐하기 위해 360°범위를 제공함은 물론, 더 클라우드에 의해 제공되는 가령, 음악 신호와 같은 오디오 신호를 출력하기 위한 360°범위도 제공한다.
하나의 음성 명령 디바이스가 사용되는 한, 음성 명령 디바이스에 대해 사용자를 찾는 문제는 음성 명령 디바이스에 의해 자율적으로 다루어 질 수 있다. 사용자의 위치를 결정한 이후에, 사용자로부터 최고의 가능한 스피치 신호를 수신하거나, 및/또는 사용자의 위치에서 고품질 사운드 필드(sound field)를 생성하기 위해, 음성 명령 디바이스의 복수의 마이크로폰 및/또는 스피커 사이에서, 빔 조정이 수행될 수 있다. 음성 명령 디바이스가 좀 더 확장되고 저렴해지면서, 사용자들은 동일하거나 상이한 방에 위치된 복수의 음성 명령 디바이스를 그들의 집에 구비하기 시작한다. 또한, 사용자에 의해 요구되는 오디오 재생 품질은 지속적으로 증가하여서, 복수의 음성 명령 디바이스는 스테레오 또는 균일한 서라운드 사운드 재생 품질을 제공하는데 사용될 수 있다.
그러나, 다양한 위치에 복수의 음성 명령 디바이스를 제공하는 것은 음성 명령 디바이스의 각각에 대해 스피커를 찾는 것이 요구되고, 스피커와 음성 명령 디바이스를 둘러싸는 음향 공간의 기하형상은 스피커와 음성 명령 디바이스 간의 오디오 신호의 전파에 영향을 준다. 최적의 가능한 스피치 신호를 캡쳐하기 위해, 더 많은 수의 마이크로폰 및/또는 조정 각도의 조합이 음성 명령 디바이스들 간에 분석되어야 하고, 이는, 음성 명령 디바이스에게 음성 명령을 하면서, 스피커가 방을 지나 이동할 때, 현저한 시간 지연을 야기한다. 또한, 일부 음성 명령 디바이스는 발언된 스피치를 캡쳐하거나, 및/또는 원하는 사운드 필드를 제공하기 위해 더 잘 찾아질 것이다.
그러므로, 복수의 음성 명령 디바이스의 음성 명령 디바이스의 최적의 조합 및/또는 최적의 스피치 캡쳐링 및/또는 오디오 재생을 위한 이들의 대응되는 마이크로폰 및/또는 라우드스피커를 선택하는 효율적인 방법이 바람직하다.
상기 기술된 기술적 문제는 복수의 음성 명령 디바이스를 가진 시스템, 특히 엔터테인먼트 시스템에 의해 해결되는데, 각각의 음성 명령 디바이스는, 특히 메모리에 연결된 프로세서 유닛과, 상기 프로세서 유닛에 연결되고, 네트워크에 연결하도록 구성된 트랜시버와, 오디오 신호를 캡쳐하도록 각각 구성된 하나 이상의 마이크로폰과, 및 적어도 하나의 라우드스피커를 포함하되, 상기 프로세서 유닛은, 캡쳐된 오디오 신호 내에서 스피치 신호를 검출하고, 스피치 신호를 검출하면, 트랜시버를 사용하여 네트워크를 통해, 하나 이상의 마이크로폰에 대한 방향성 정보를 서비스형 소프트웨어(Saas) 제공자에게 전송하고, 트랜시버를 사용하여 네트워크를 통해, SaaS 제공자로부터 복수의 음성 명령 디바이스에 대한 방향성 정보를 수신하도록 구성된다.
각각의 음성 명령 디바이스는 스탠드어론 유닛으로서 제공될 수 있는데, 트랜시버는, 음성 제어를 사용하여 음악, 뉴스 및 다른 오디오 정보를 제공하기 위해, 네트워크, 특히 인터넷을 통해 통신하도록 작동가능하다. 음성 명령 디바이스들은, 이들이 상기 언급된 구성요소를 포함하는 한, 동일하거나 상이할 수 있다. 음성 명령 디바이스는 가령, 집의 하나 또는 여러 개의 방에 걸쳐 분포되어, 특히 상이한 공간 위치에 배열될 수 있다. 상기 언급된 바와 같이, 각각의 음성 명령 디바이스는 네트워크를 사용하여 원격 서비스 제공자에 의해 제공되는, 스트리밍 오디오, 음악, 서적, 비디오 및 다른 디지털 콘텐트와 같은 웹 서비스에 대한 프론트 엔드로서 작동하도록 구성될 수 있다.
프로세서 유닛은, 논리 게이트의 어레이, 제어기 및 연산 논리 유닛, 디지털 신호 프로세서, 마이크로컴퓨터, 프로그램가능한 논리 제어기, 필드-프로그램가능한 게이트 어레이, 프로그램가능한 논리 어레이, 마이크로프로세서 또는 기술 분야에 알려진 임의의 다른 디바이스나 디바이스들의 조합과 같은 하나 이상의 프로세싱 요소에 의해 실행될 수 있다. 프로세서 유닛은 CPU, GPU 및/또는 디지털 신호 프로세서(DSP)를 특히 포함할 수 있다. RAM, ROM, 플래시 메모리, 고체상태 디스크, 하드 디스크, 광학 데이터 저장 디바이스, 자기 광학 데이터 저장 디바이스 또는 명령어나 소프트웨어 및 관련 데이터를 저장하고, 명령어와 임의의 관련 데이터를 프로세서 유닛에 제공하여 프로세서 유닛이 명령어를 실행할 수 있도록 하는 기술 분야에 알려진 임의의 디바이스와 같은 메모리에 연결될 수 있다.
프로세서 유닛은 DSP, FET 유닛, 필터링 유닛, 빔형성 유닛 및 오디오 신호의 하기 기술된 프로세싱을 수행하기 위한 추가 유닛과 같은 전용 하드웨어 구성요소를 포함할 수 있다. 대안적으로 또는 추가적으로, 프로세서 유닛은 하기 기술된 동작을 수행하기 위해, 메모리에 저장된 명령어를 실행하도록 구성될 수 있다. 음성 명령 디바이스는 하기 기술된 방법을 수행하기 위해 프로세서 유닛을 안내하는 메모리 상에 인코딩된 프로세서-판독가능한 명령어를 특히 포함할 수 있다.
본 발명에 따르면, 복수의 음성 명령 디바이스의 각각은, 프로세서 유닛에 연결되고 데이터를 네트워크로 송신하고 네트워크로부터 수신하도록 구성된 트랜시버를 포함한다. 트랜시버는 가령, WiFi 또는 블루투스 트랜시버와 같은 무선 트랜시버일 수 있고, 가령 USB 또는 HDMI 포트를 사용하는 유선 트랜시버일 수 있다. 트랜시버는 홈 네트워크, 가령, 사용자의 집에 설치된 LAN 또는 WLAN 네트워크와 같은 로컬 네트워크에 연결되도록 구성될 수 있다. 예를 들어, 트랜시버는 사용자의 집에 제공된 WLAN 라우터에 무선으로 연결되도록 구성될 수 있다. 대안적으로 또는 추가적으로, 트랜시버는 3GPP 네트워크와 같은 모바일 통신 네트워크에 직접 연결되도록 구성될 수 있다. 네트워크에 연결을 위한 물리적 층을 제공함에 의해, 트랜시버는 프로세서 유닛이 서비스형 소프트웨어(SaaS) 제공자에 가령, 더 클라우드의 일부로서 연결하여서, 데이터를 SaaS 제공자와 교환할 수 있다. 이러한 연결은 가령, 모바일 통신 네트워크를 통해 직접적일 수 있고, 또는 게이트웨이로서 라우터를 사용하여 간접적으로 협상될 수 있다. 알려진 임의의 연결성 표준과 프로토콜은 네트워크에 연결되고, 및/또는 SaaS 제공자와 데이터를 교환하는데 사용될 수 있다.
"서비스형 소프트웨어" 또는 "SaaS" 제공자라는 용어는 소프트웨어 전달 모델을 말하는데, 여기서, 소프트웨어 및 이와 관련된 데이터는 인터넷 또는 더 클라우드 상에서 중심적으로 호스트되고, 클라이언트를 사용하여 사용자에 의해 접근된다. 본 경우에, SaaS 제공자에 접근하기 위한 클라이언트는 음성 명령 디바이스, 특히 프로세서 유닛에서 실행된다. SaaS는 회계, 공동작업, 고객 관계 관리, 관리 정보 시스템, 기업 자원 관리, 인보이스, 인적 자원 관리, 콘텐트 관리 및 서비스 데스크 관리를 포함하는 많은 비지니스 응용예에 있어서 공통 전달 모델(common delivery model)이다. 본 맥락에서, SaaS는 오디오, 음악, 오디오 서적, 비디오 및 특히 더 클라우드의 일부인 원격 제공자에 의한 다른 디지털 콘텐트를 스트리밍 또는 다운로딩하는 것과 같이 엔터테인먼트 웹 서비스를 클라이언트에게 제공하기 위한 특히 공통 전달 모델이다. SaaS 제공자는 일차 서비스 제공자 및 하나 이상의 이차 서비스 제공자를 더 포함할 수 있다. 일차 서비스 제공자는, 사용자에 의해 발연되고 음성 명령 디바이스에 의해 캡쳐된 음성 명령을 프로세싱하고 분석하며, 음악 또는 비디오 콘텐트와 같은 대응되는 데이터를 이차 서비스 제공자로부터 요청하기 위한 기능을 특히 제공할 수 있다. 대안적으로, 음성 명령 디바이스의 프로세서 유닛은 음성 명령 디바이스 측에서 음성 명령을 프로세스하고 분석하고, 분석의 결과를 추가적인 프로세싱을 위해 SaaS 제공자로 오직 전송하도록 구성될 수 있다.
본 발명에 따르면, 각각의 음성 명령 디바이스는 하나 이상의 마이크로폰을 포함하고, 각각의 마이크로폰은 오디오 신호를 캡쳐하도록 구성된다. 마이크로폰은 전방향 또는 단방향인, 기술 분야에 알려진 임의의 마이크로폰일 수 있다. 특히, 음성 명령 디바이스의 복수의 마이크로폰은 마이크로폰 어레이로서, 특히 원형 또는 구형 마이크로폰 어레이로서 실행될 수 있다. 다시 말해, 복수의 마이크로폰은 음성 명령 디바이스의 원형 또는 외주 또는 음성 명령 디바이스의 구형 또는 반구형 표면에 걸쳐 특히 등거리로 분포될 수 있다. 옐르 들어, 음성 명령 디바이스는 원형, 반구형 또는 구형 폼 팩터로 가정할 수 있다.
각각의 마이크로폰은 오디오 신호나 마이크로폰 신호를 캡쳐하도록 구성되는데, 마이크로폰 신호는 포괄 신호(envelope signal) 또는 디지털 신호로서 캡쳐될 수 있다. 포괄 신호의 경우, 오디오 신호나 마이크로폰 신호는 A/D 컨버터나 프로세서 유닛 자체에 의해 디지털 신호로 더욱 전환될 수 있다. 복수의 마이크로폰이 존재하면, 오디오 신호나 마이크로폰 신호는 멀티-채널 신호일 수 있다. 간략하게, "오디오 신호"라는 용어는 마이크로폰에 의해 캡쳐되고, 프로세서 유닛에 의해 프로세스되고 및/또는 네트워크로 전송되거나 이로부터 수신되는 디지털 신호에 대한 일반적인 용어로서 이하에서 사용되는데, 오디오 신호는, 가령, 캡쳐된 마이크로폰 신호 또는 SaaS 제공자에 의해 제공된 음악 데이터에 대응되는 오디오 데이터를 포함한다.
하나 이상의 마이크로폰은 프로세서 유닛에 연결되고, 캡쳐된 오디오 신호를 추가적인 프로세싱을 위해 프로세서 유닛으로 제공하도록 구성된다. 본 발명에 따르면, 이러한 추가적인 프로세싱은 특히 캡쳐된 오디오 신호에서 스피치 신호를 검출하기 위해 스피치 신호 프로세싱을 포함하고, 스피치 신호 프로세싱은, 기술 분야에 알려진 임의의 방법에 따른 프로세서 유닛, 특히 전용 DSP에 의해 수행될 수 있다. 캡쳐된 오디오 신호의 프로세싱은 시간 도메인 및/또는 주파수 도멘인 또는 주파수 서브-밴드 영역에서 수행될 수 있다. 이를 위해, 마이크로폰 신호는 퓨리에 변환, 특히 빠른 퓨리에 변환, 이산 퓨리에 변한 등을 받게되어서 마이크로폰 신호를 주파수 도메인으로 변환하기 위한 필터 뱅크를 분석함에 필터링될 수 있다. 실제 응용예에서, 마이크로폰 신호는 연속적인 시간 의존 신호보다는 샘플링된 시간-이산 마이크로폰 신호로서 제공될 수 있고, 프레임-바이-프레임 기반으로 더욱 프로세스될 수 있는데, 프레임 구간은 스피치 검출 알고리즘에 의해 미리결정되거나 적응될 수 있고, 대략 5 내지 40 밀리초 일 수 있다.
스피치 신호는 음성 활성화 검출(VAD) 방법을 마이크로폰 신호에 적용함에 의해 검출될 수 있는데, 음성 활성화 검출 방법은 캡쳐된 오디오 신호에서 사람 스피치의 존재 또는 부존재를 검출한다. 본 발명의 하나의 기본 실시예에서, 캡쳐된 오디오 신호에서 스피치 신호를 검출하는 것은, 마이크로폰 신호에 대해 스피치 인식을 수행하지 않으면서, 마이크로폰 신호 내에서 사람 스피치의 존재와 부존재를 구별하는 것만을 포함할 수 있다. 이러한 기본적인 실시예에 따르면, 스피치 신호의 검출은 캡쳐된 오디오 신호의 추가적인 프로세싱을 트리거하는데에만 사용될 수 있는데, 추가적인 프로세싱은 특히 SaaS 제공자에 의해 수행될 수 있다. 본 경우에서, 음성 명령 디바이스는 하나 이상의 마이크로폰에 의해 캡쳐된 원시 오디오 신호를 하나 이상의 마이크로폰에 대한 방향성 정보로서 SaaS 제공자로 전송하도록 구성될 수 있다. 그리고 나서, 전송된 오디오 신호는 하기 기술된 스피치 인식을 수행하고, 복수의 음성 명령 디바이스에 대한 방향성 정보를 계산함에 의해, SaaS 제공자 측에서 프로세스된다.
본 발명의 대안적인 실시예에서, 캡쳐된 오디오 신호에서 스피치 신호를 검출하는 것은 음성 명령 디바이스 측에서 스피치 인식을 수행하는 것을 더 포함할 수 있는데, 즉, 마이크로폰 신호에서 음소, 단어, 어구 및/또는 문장을 검출하는 것이다. 마이크로폰 신호에 대해 스피치 인식을 수행함에 의해, 훌쩍임, 기침, 휘파람 등과 같은 언어적 발언이 아닌 사람 발언은 스피치신호로서 우연히 검출되지 않아서, 이하에 기술된 절차가 비자발적으로 트리거되지 않는다.
음성 활성화 검출은 마이크로폰 신호로부터 결정된 측정치에 기초하여 수행될 수 있는데, 상이한 측정치는, 스펙트럴 기울기, 상과 계수, 로그 우도비(log likelihood ratio), 스펙트럴 밀도의 로그의 퓨리에 계수로부터 결정되는 셉트럴 계수 및 가중화된 셉트럴 계수는 물론 수정된 거리 측정치, 단시간 에너지, 제로-크로싱율, 선형 예측 계수, 스펙트럴 엔트로피, 최소-자승 예측 측정치 및 웨이블릿 변환 계수를 포함한다. 음성 활성화 검출은 가령 스펙트럴 차감에 의한 잡음 감소 단계, 에코 보상을 위한 필터링하는 단계 및/또는 확산 배경 잡음 및/또는 사운드 반사를 필터링하기 위해, 이격된 마이크로폰에 의해 캡쳐된 둘 이상의 오디오 신호의 신호 코히런스를 결정하는 단계를 포함할 수 있다
스피치 인식은 기술 분야에서 알려진 임의의 방법에 따라 수행될 수 있다. 특히, 스피치 인식 방법은 셉스트럴 계수를 사용하는 은닉 마르코프 모델(hidden Markov model)을 기초로 할 수 있다. 사용된 은닉 마르코프 모델은 음소에 대한 맥락 의존도, 상이한 스피커에 대해 정규화하기 위한 셉스트럴 정규화(cepstral normalisation) 및/또는 녹음 상태, 남성/여성 정규화를 위한 성도 길이 정규화(VTLN), 및/또는 더 일반적인 화자 적용을 위한 최대 가능성 선형 회귀(MLLR)과 더욱 관련된다. 단독으로 계수를 사용하는 것을 차치하고, 계수들의 시간적 역동성은 소위 델타 및 델타-델타 계수를 사용하여 포함될 수 있다. 대안적으로, 스플라이싱 및 LDA-기반의 프로젝션 이후에 어쩌면 이분산성 선형 판별 분석(heteroscedastic linear discriminant analysis, HLDA)가 사용될 수 있다. 은닉 마르코프 모델에 기초한 스피치 인식 시스템은, 최대 상호 정보(maximum mutual information, MMI), 최소 분류 오차(minimum classification error, MCE) 및 최소 폰 오차(MPE)와 같은 판별 트레이닝 테크닉을 사용하여 더욱 적응될 수 있다. 은닉 마르코프 모델에 대한 대안예로서, 스피치 인식 방법은 동적 시간 워핑(DTW)에 기초할 수 있다. 또한, 신경망은 음소 분류, 고립된 단어 인식 및 화자 각색과 같은 스피치 인식의 특정 양태에 사용될 수 있다. 더구나, 신경망은 사전-프로세싱 단계로서 실제 스피치 인식 단계로 사용될 수 있다. 스피치 인식을 사용하여 마이크로폰 신호 내에서 스피치 신호를 검출하는데 사용될 수 있는 다른 방법은, 전력 스펙트럴 분석(FFT), 선형 예측 분석(LPC)을 포함하지만, 이에 제한되지 않고, 현재 시간에 특정 스피치 샘플은 과거 스피치 샘플의 선형 조합으로 근사화될 수 있고, 예측 계수는 셉스트럴 계수, 스피치의 짧은 기간 스펙트럼에 기초하고 여러 개의 정신-신체적 기반 변형을 사용하는 지각 선형 예측(PLP), 멜 스케일 셉스트럴 분석(MEL)로 변환되는데, 스펙트럼은 MEL 스케일에 따라 휘어지고, 셉스트럴 스무딩은 로그 스펙트럴 또는 셉스트럴 도메인에서 사용될 수 있는 선형 채널 왜곡에 대해 보상하기 위해, 수정된 전력 스펙트럼, 상대적 스펙트라 필터링(RASTA)에 사용되고, 마이크로폰 녹음에서 라우드니스는 물론 상이한 음소 사운드 간의 신호 에너지의 분산에 대해 보상하기 위해 에너지 정규화에 사용된다.
마지막으로, 통계적 언어 모델링이 스피치 인식에 사용될 수 있는데, 통계적 언어 모델은 확률 분포를 언어의 단어와 문장에 할당한다. 통계적 언어 모델링에서, 말해진 단어들 중 적어도 하나는 하나 이상의 인식된 이전 단어를 이유로 인식된다. 통계적 언어 모델링에 대한 예시는 가령, 잘 알려진 n-그램 언어 모델링에 의해 주어질 수 있다.
스피치 검출은 프레임-바이-프레임 기반으로 연속적으로 또는 가령 500 ms 또는 매초 당 한 번과 같이, 미리결정되고, 가능하면 프레임-크기를 각자 오버랩되게 구성가능하게 수행될 수 있다. 또한, 프로세서 유닛은 캡쳐된 오디오 신호 내의 스피치 신호에 대해 주기적으로 또는 연속적으로 확인하도록 구성될 수 있다.
스피치 신호를 검출하는 단계는 스피치 인식 방법에 기초하는 음성 인식을 사용하여 적어도 두 명의 상이한 인간 화자의 스피치 활동을 검출하는 단계를 포함할 수 있다. 화자 인식은 일반적으로, 화자의 음성, 이른바 바이오메트릭의 특징에 의해 말하고 있는 사람을 식별하는 기술 분야를 의미하지만, 본 실시예에 따른 음성 인식은 적어도 두 명의 상이한 사람인 화자의 스피치 신호가 검출된 스피치 신호에 포함되는 것을 검출하는 것에 제한될 수 있다. 이는 스피치 신호의 스펙트럴 분석에 의해, 및 스피치 신호의 적어도 두 개의 상이한 스펙트럴 특징을 식별함에 의해 달성될 수 있고, 이는 검출된 스펙트럴 특징 및/또는 음성 바이오메트릭과 미리결정된 스펙트럴 특징 및/또는 특정 사람과 관련된 음성 바이오메트릭을 비교하지 않는다. 적어도 두 명의 상이한 사람인 화자의 스피치 신호는 동시에, 즉, 적어도 두 명의 상이한 사람인 화자가 동시에 언어 사운드를 발언할 때, 검출된 스피치 신호에 포함될 수 있고, 또는 상이한, 가능하면 연속적 및/또는 오버랩, 검출된 스피치 신호의 시간 간격, 즉, 적어도 두 명의 사람인 화자들 간의 실제 대화의 경우에 검출된 신호에 포함될 수 있다. 화자 인식 또는 화자 구별은 주파수 추정, 은닉 마르코프 모델, 가우시안 혼합 모델, 패턴 매칭 알고리즘, 신경망, 매트릭스 표현, 벡터 정량화, 결정 트리, 신호의 스펙트럴 밀도의 공분산 래그의 시퀀스, 자기회기 이동평균(ARMA) 모델, 검출된 스피치 신호의 피치에 기초한 스펙트럴 분석, 스펙트럼 내의 포먼트(formant)의 검출 또는 기술 분야에 알려진 바와 같은 임의의 다른 스펙트럴 특징을 사용하여 수행될 수 있다.
화자 인식은 음성 명령 디바이스 및/또는 SaaS 제공자에 의해, 음성 명령 디바이스의 동작에 권한을 주는데 사용될 수 있다. 본 발명의 맥락에서, 적어도 두 명의 상이한 사람인 화자의 스피치 신호를 검출하는 것은 그러나, 창의적인 시스템에 의해 사용되어서, 음성 명령 디바이스의 복수의 마이크로폰 및/또는 라우드스피커를 위한 적어도 두 명의 상이한 화자에 대한 빔형성을 수행하는데 사용될 수도 있다.
스피치 신호를 검출하는 단계는 캡쳐된 오디오 신호에서, 적어도 하나의 라우드스피터에 의해 출력된 오디오 신호에 기초한 신호를 차감하는 단계를 더 포함할 수 있다. SaaS 제공자로부터 음성 명령 디바이스에 의해 수신되고, 음성 명령 디바이스의 라우드스피커에 의해 출력된 오디오 데이터에 포함된 스피치 신호의 오류 있는 검출을 피하기 위해, 잠재적으로 프로세싱 이후에, 대응되는 오디오 신호가 캡쳐된 오디오 신호나 마이크로폰 신호에서 차감될 수 있다.
하나의 특정한 실시예에서, 마이크로폰 신호에서 차감될 신호는, 적어도 하나의 라우드스피커에서 하나 이상의 마이크로폰으로의 오디오 신호의 전달에 대한 음향 전달 함수를 사용하여, 출력 오디오 신호로부터 결정될 수 있다. 음향 전달 함수는, 적어도 하나의 라우드스피커와 하나 이상의 마이크로폰에 의해 형성된 음향 공간인 선형시불변 시스템에서, 하나 이상의 마이크로폰에 의해 캡쳐된 오디오 신호인 출력과 적어도 하나의 라우드스피커를 통해 출력될 오디오 신호인 입력 간의 관계를 기술한다. 집의 방과 같은 폐쇄된 음향 공간에서, 하나 이상의 마이크로폰에 의해 캡쳐된 오디오 신호는 적어도 하나의 라우드스피커로부터 직접 하나 이상의 마이크로폰에 도달하는 음향 파장뿐만 아니라, 음향 공간 내부의 물체/주체와 음향 공간의 제한 구조물의 반사 및 반향도 일반적으로 포함한다. 방과 같은 잘 정의된 음향 공간에 대하여, 음향 전달 함수는 음성 명령 디바이스에 의해 미리결정될 수 있고, 저장 매체에 저장될 수 있다.
본 발명에 따르면, 결정은, 엔터테인먼트 시스템의 모든 음성 명령 디바이스로부터 캡쳐된 오디오 신호에 기초하여, SaaS 제공자에 의해 수행될 수 있고, 데이터는 SaaS 제공자 및/또는 음성 명령 디바이스의 저장 매체에 저장될 수 있다. 음향 전달 함수는 특히, 음성 명령 디바이스의 적어도 하나의 라우드스피커에 의해 출력되고, 하나 이상의 마이크로폰에 의해 캡쳐된 기준 신호의 사용에 의한 스피치 신호의 검출 이전에, 보정 단계에서 결정될 수 있다. 이러한 보정 단계는 SaaS 제공자에 의해 수행될 수 있고, 개개의 음성 명령 디바이스 또는 엔터테인먼트 시스템의 일부인 음성 명령 디바이스들의 조합에 의해 출력된 기준 신호와 관련될 수 있다. 다시 말해, SaaS 제공자는 전용 오디오 신호를 엔터테인먼트 시스템의 음성 명령 디바이스로 전송하여, 음성 명령 디바이스의 라우드스피커 배열에서 음성 명령 디바이스의 마이크로폰 배열까지의 음향 전달 함수를 자동/적응적으로 모델링할 수 있다. 이러한 보정 단계는 방 기하형상 또는 음성 명령 디바이스의 공간적 분포의 어떠한 지식 없이 수행될 수 있거나, 입력 및 사용자에 의해 SaaS 제공자로의 대응되는 보정 데이터의 전송에 관련될 수 있다. 이를 위해, 음성 명령 디바이스는 터치 스크린이나 대응되는 스크린을 가진 키보드와 같은 입력 디바이스를 포함할 수 있다.
그리고 나서, 캡쳐된 오디오 신호에서 차감될 신호는, 음향 전달 함수가 특징인 디지털 필터나 아날로그 필터를 사용하여, 적어도 하나의 라우드스피커를 통해 출력될 오디오 신호를 필터링함에 의해 결정될 수 있다. 따라서, 적어도 하나의 라우드스피커를 통해 출력될 오디오 신호를 필터링함에 의해, 적어도 하나의 라우드스피커를 통한 오디오 신호 출력은, 스피치 신호거나 아니거나, 마이크로폰 신호에서 효율적으로 차감될 수 있어서, 나머지 마이크로폰 신호는 이상적으로 외부 소스로부터의 즉, 적어도 하나의 라우드스피커로부터가 아닌, 오디오 신호만 포함할 수 있는데, 가령, 사람인 화자에 의해 발언되고 일반적인 배경 잡음과 결합되기 때문이다. 나머지 마이크로폰 신호로부터, 그리고 나서, 스피치 신호는 효율적이고 신뢰성 있도록 검출될 수 있다.
나머지 마이크로폰 신호로부터 스피치 신호를 검출하는 단계는, 특히, 스피치 신호의 신호대잡음 비율과 미리결정된 스레숄드를 비교하는 단계 및 신호대잡음 비율이 미리결정된 스레숄드보다 크다면, 스피치 신호가 검출된다고 결정하는 단계를 포함한다. 신호대잡음 비율과 미리결정된 스레숄드와의 이러한 비교는 실제 스피치 검출 및/또는 상기 기술된 화자 인식을 수행하기 이전에 수행될 수 있어서, 요구되는 연산 자원이 감소될 수 있도록 한다. 특히, 가령, 하기 기술된 바와 같은 화자 국부화에 대한 실제 스피치 인식과 분석하면서, 신호대잡음 비율 비교는 음성 명령 디바이스 자체에 의해 수행될 수 있는데, 검출된 스피치 신호 내의 음성 명령의 식별은 SaaS 제공자에 의해 수행된다. 이러한 경우, 미리결정된 스레숄드보다 큰 신호대잡음 비율은 이하 기술된 방향성 정보의 전송과 수신에 대한 전제조건이다.
음성 명령 디바이스는 DSP와 같은 전용 스피치 검출 유닛을 포함할 수 있고, 캡쳐된 오디오 신호, 즉 마이크로폰 신호를 하나 이상의 마이크로폰으로부터 수신하고, 캡쳐된 오디오 신호에서 스피치 신호를 검출하기 위한 상기 기술된 방법을 수행하도록 구성된다. 스피치 검출 유닛은 별도의 유닛 또는 프로세서 유닛의 일부로서 제공될 수 있다. 스피치 검출 유닛은 집적 회로의 형태 및/또는 상기 기술된 방법을 수행하고 메모리나 컴퓨터 판독가능한 매체에 저장되기 위해 컴퓨터 실행가능한 명령어의 형태로 실행될 수 있다. 프로세서 유닛은 중앙 프로세싱 유닛의 형태, 전형적으로 CPU 또는 GPU 또는 주문형 집적 회로(ASIC)의 형태로 실행될 수 있다.
음성 명령 디바이스는 복수의 마이크로폰에 의해 캡쳐된 아날로그 오디오 신호를 디지털 오디오 신호로 전환하기 위한 하나 이상의 A/D 컨버터, 캡쳐된 오디오 신호를 SaaS 제공자로 전송하기 전에 또는 프로세서 유닛에서 추가로 프로세싱하기 전에, 캡쳐된 오디오 신호를 필터링하기 위한 하나 이상의 필터링 유닛, 오디오 신호를 적어도 하나의 라우드스피커를 통해 출력하기 전에, SaaS 제공자에 의해 제공된 오디오 서비스의 일부인 수신된 오디오 신호를 필터링하기 위한 하나 이상의 필터링 유닛, 오디오 신호를 적어도 하나의 라우드스피커를 통해 출력하기 전에, 수신된 오디오 신호에 이퀄라이제이션을 적용하기 위한 이퀄라이져, 캡쳐된 오디오 신호 및/또는 네트워크로부터 수신된 오디오 신호를 증폭하기 위한 하나 이상의 증폭기, 및 적어도 하나의 라우드스피커를 통해 출력하기 위해, 디지털 오디오 신호를 다시 아날로그 오디오 신호로 전환하기 위한 하나 이상의 D/A 컨버터를 더 포함할 수 있다. 기술 분야에서 알려진 추가적인 부품은 음성 명령 디바이스의 일부, 특히 이들의 프로세성 유닛의 일부로서 제공될 수 있다.
본 발명에 따르면, 음성 명령 디바이스의 프로세서 유닛은 하나 이상의 마이크로폰에 대한 방향성 정보를 트랜시버를 사용하여 네트워크를 통해 SaaS 제공자로 전송하도록 더욱 구성된다. 이에 대하여, 음성 명령 디바이스는 복수의 음성 명령 디바이스에 대한 방향성 정보를 트랜시버를 사용하여 네트워크를 통해 SaaS 제공자로부터 수신한다.
가령, 프로세싱 유닛에 의한 스피치 신호의 신호대잡음 비율과 미리결정된 제1 스레숄드와의 비교의 양성 결과로서, 스피치 신호의 검출은, 한 편으로 하나 이상의 음성 명령 디바이스와 다른 한 편으로 SaaS 제공자 사이의 방향성 정보의 교환을 트리거한다. 방향성 정보의 교환은 음성 명령 디바이스의 트랜시버를 사용하여 수행되고, 네트워크를 통해 중재된다. 임의의 알려진 전송 방법과 프로토콜은 방향성 정보의 교환에 적용될 수 있다.
본 맥락에서, 방향성 정보는 일반적으로 디지털 데이터를 말하는데, 이는 하나 이상의 음성 명령 디바이스에 대해 검출된 스피치 신호의 적어도 하나의 소스의 상대적 위치에 대한 적어도 일부의 정보를 포함한다. 하나 이상의 마이크로폰에 대한 방향성 정보의 경우, 상대적 위치에 대한 이러한 정보는 각각의 하나 이상의 마이크로폰을 포함하는 특정한 음성 명령 디바이스에 관한 것이다. 그러므로, 하나 이상의 마이크로폰에 대한 방향성 정보는 하나의 특정한 음성 명령 디바이스에 대한 스피치 신호의 적어도 하나의 소스의 공간적 위치에 대한 정보만을 포함한다. 다시 마해, 하나 이상의 마이크로폰에 대한 방향성 정보는, 특정 음성 명령 디바이스의 하나 이상의 마이크로폰에 의해 캡쳐된 오디오만 고려하고, 다른 음성 명령 디바이스의 마이크로폰에 의해 캡쳐된 오디오 신호를 고려하지 않는, 검출된 스피치 신호의 적어도 하나의 소스의 상대적 위치에 대한 정보를 포함한다.
이에 반해, 복수의 음성 명령 디바이스에 대한 방향성 정보는 두 개 이상의 음성 명령 디바이스에 대해 검출된 스피치 신호의 적어도 하나의 소스의 상대적 위치에 대한 정보를 포함한다. 이러한 방향성 정보는, 가령, 복수의 음성 명령 디바이스 및 검출된 스피치 신호의 적어도 하나의 소스에 대한 빔 조정 각도의 형태와 같이 명시적 정보로서 제공될 수 있거나, 가령, 서라운드 사운드나 앰비소닉스 사운드를 생성하기 위해 복수의 음성 명령 디바이스의 라우드스피커에 대한 개개의 오디오 채널을 인코딩함에 의해, 오디오 서비스의 일부로서 SaaS 제공자에 의해 제공된 오디오 데이터 내로 인코딩될 수 있다. 다시 말해, 복수의 음성 명령 디바이스에 대한 방향성 정보는, 두 개 이상의 음성 명령 디바이스의 마이크로폰에 의해 캡쳐된 오디오 신호를 고려하는, 검출된 스피치 신호의 적어도 하나의 소스의 상대적 위치에 대한 정보를 포함한다. 특히, 복수의 음성 명령 디바이스에 대한 방향성 정보는, 미리결정된 스레숄드를 넘는 검출된 스피치 신호의 신호대잡음 비율과 함께, 음성 명령 디바이스의 마이크로폰에 의해 캡쳐된 모든 오디오 신호를 고려할 수 있다.
하나의 음성 명령 디바이스의 마이크로폰에 의해 캡쳐된 오디오 신호에 기초하여, 검출된 스피치 신호의 소스의 국부화의 결과는 일반적으로, 복수의 음성 명령 디바이스의 마이크로폰에 의해 캡쳐된 오디오 신호에 기초하는 소스의 국부화의 결과보다 덜 신뢰적이다. SaaS 제공자 측에서, 복수의 음성 명령 디바이스의 마이크로폰에 의해 캡쳐된 오디오 신호에 기초하여, 복수의 음성 명령 디바이스에 대한 방향성 정보의 결정은 그러므로, 음성 명령 디바이스 자체 또는 음성 명령 디바이스만의 마이크로폰에 의해 캡쳐된 오디오 신호에 기초하여, SaaS 제공자에 의해 계산되었던 검출된 스피치 신호의 적어도 하나의 소스의 위치의 보정치를 포함할 수 있다. 대안적으로, 복수의 음성 명령 디바이스에 대한 방향성 정보는, 하나의 음성 명령 디바이스의 캡쳐된 오디오 신호에 기초하여 검출된 스피치 신호의 소스의 이전 국부화 없이, SaaS 제공자에 의해 결정될 수 있다. 이는 특히, 음성 명령 디바이스가 하나의 마이크로폰만 포함하는 경우일 수 있다. 이러한 경우, 음성 명령 디바이스의 하나 이상의 마이크로폰에 대한 방향성 정보는 이하에도 기술되는 바와 같이, 캡쳐된 오디오 신호 자체를 포함할 수 있다. 두 개 이상의 음성 명령 디바이스, 특히 모든 복수의 음성 명령 디바이스로부터 캡쳐된 오디오 신호에 기초한 소스 국부화의 개선된 신뢰성에 더하여, SaaS 제공자는 일반적으로 복수의 음성 명령 디바이스에 대한 방향성 정보의 시간소요적인 결정에 대해 더 우수한 연산 자원과 더 우수한 성능을 제공한다. 사용가능한 네트워크 연결, 특히 짧은 라운드-트립 지연에 의존하여, 음향 공간을 이동하는, 즉, 방 또는 복수의 방들을 지나는 화자의 위치는 본 발명에 따라 추적되어서, 음성 명령 및 오디오 서비스와 관련된 오디오 재생을 캡쳐하는 것이 최적화될 수 있다.
일 실시예에서, 복수의 음성 명령 디바이스에 대한 방향성 정보는, 복수의 음성 명령 디바이스 중 적어도 하나를 활성화 음성 명령 디바이스로 선택하기 위한 선택 정보, 적어도 하나의 마이크로폰을 선택하기 위한 마이크로폰 선택 정보 및 적어도 두 개의 마이크로폰에 대한 빔형성 정보 중 적어도 하나를 포함한다. 본 실시예에 따르면, 복수의 음성 명령 디바이스에 대한 방향성 정보는 복수의 음성 명령 디바이스의 조합된 마이크로폰을 사용하여, 오디오 신호의 캡쳐링에 대한 방향성 정보를 포함한다.
상기 기술된 바와 같이, 엔터테인먼트 시스템의 음성 명령 디바이스는, 가령 집의 방 또는 연속적인 방일 수 있는 음향 공간 내의 다양한 공간 위치에 걸쳐 분포된다. 제한 없이, 음향 공간은 자동차나 트럭과 같은 운송수단의 캐빈에 의해 구성될 수도 있다. 음성 명령 디바이스가 음향 공간 내의 다양한 위치에 위치되므로, 이들 중 일부는, 가령, 사용자의 일시적 위치에 더 근접한 위치에 위치함에 의해, 사용자로부터 스피치 신호를 캡쳐하는데 더 우수한 위치에 위치될 것이다. 또한, 가구, 벽 또는 다른 커다란 물체와 같은 물체는 화자로부터 특정 음성 명령 디바이스로의 음파의 전파를 부분적으로 차단할 수 있다. 결과적으로, 음성 명령 디바이스의 서브그룹만 또는 심지어 하나의 음성 명령 디바이스는 사용자에 의해 발산된 오디오 신호를 캡쳐하기 위해 선택될 수 있다. 이렇게 선택된 음성 명령 디바이스는, 본 발명의 용어에서 활성화 음성 명령 디바이스 또는 활성화 디바이스라고 한다.
SaaS 제공자에 의해 제공된 방향성 정보에 포함되는, 선택 정보에 따라 활성화 음성 명령 디바이스로 선택된 음성 명령 디바이스는, 스피치 신호에 대해 캡쳐된 오디오 신호를 계속 모니터링하고, SaaS 제공자에 의해 제공된 오디오 서비스에 대한 오디오 재생 디바이스로 더욱 선택될 수 있다. 선택 정보에 따라 활성화 음성 명령 디바이스로 선택되지 않은 다른 음성 명령 디바이스는 오디오 신호를 계속 수신하고, 스피치 신호에 대해 캡쳐된 오디오 신호를 확인하지만, 일반적으로 복수의 마이크로폰을 빔형성하거나 상기 언급된 오디오 재생에 참여하는데 사용되지 않는다. 특정 실시예에서, 선택되지 않은 음성 명령 디바이스는 에너지를 보존하기 위해 비활성화될 수 있다.
복수의 음성 명령 디바이스에 대한 방향성 정보는 적어도 하나의 마이크로폰을 선택하기 위한 마이크로폰 선택 정보를 포함할 수 있다. 마이크로폰 선택 정보는 특정 음성 명령 디바이스의 복수의 아미크로폰 중 적어도 하나의 마이크로폰 또는 상이한 음성 명령 디바이스의 하나 이상의 마이크로폰을 선택할 수 있다. 특정 음성 명령 디바이스의 마이크로폰을 선택하는 단계는 특히, 대응되는 음성 명령 디바이스를 활성화 음성 명령 디바이스로 선택하는 단계를 포함한다. 하나 이상의 복수의 음성 명령 디바이스로 제공되는 마이크로폰 선택 정보의 결과로서, 선택된 마이크로폰에 의해 형성된 마이크로폰의 앙상블은 적어도 하나의 화자에서 위치된 발언을 모니터링하는데 사용되고, 선택적으로 오디오 재생은 대응되는 음성 명령 디바이스의 적어도 하나의 라우드스피커를 사용하여 수행될 수 있다.
대안적으로 또는 추가적으로, 복수의 음성 명령 디바이스에 대한 방향성 정보는 적어도 두 개의 마이크로폰에 대한 빔형성 정보를 포함할 수 있다. 적어도 두 개의 마이크로폰은 특정 음성 명령 디바이스의 복수의 마이크로폰에 속하거나 상이한 음성 명령 디바이스에 속할 수 있다. SaaS 제공자에 의해 대응되는 음성 명령 디바이스로 제공되는 빔형성 정보에 기초하여, 적어도 두 개의 마이크로폰의 빔형성은, 적어도 하나의 화자로부터의 오디오 신호를 캡쳐할 때 수행될 수 있다. 빔형성 정보는, 복수의 음성 명령 디바이스의 마이크로폰의 공간적 배열에 의존하여, 2차원 또는 3차원 빔 조정을 위한 적어도 하나의 조정 각도를 특히 포함할 수 있다. 복수의 마이크로폰이 음성 명령 디바이스의 360°의 외주를 따라, 특히 원형을 따라 배열되면, 2차원 빔 조정에 대한 하나의 조정 각도가 포함될 수 있다. 복수의 마이크로폰이 반구면 또는 구면에 배열되면, 3차원 빔 조정에 대한 두 개의 조정 각도가 포함될 수 있다.
복수의 마이크로폰의 빔형성은 일반적으로 알려져 있어서, 기술 분야에서 알려진 빔형성 방법의 상세한 설명은 간결성을 위해 본원에서 생략된다. 일반적으로, 빔형성은 음향 신호의 수신이나 발산의 방향성을 제어하는데 사용되는 신호 프로세싱 테크닉이고, 대개 필터링 단계나 완전히 변형된 신호에 대한 프로세싱 단계에 의해 달성된다. 본 경우에, 적어도 두 개의 마이크로폰의 빔형성은, 적어도 두 개의 마이크로폰 행동을 하나의 방향성 마이크로폰으로 만들고, 음향 빔을 화자를 향하도록 조정하는데 사용될 수 있어서, 화자의 방향으로의 수신을 최대화하고, 임의의 다른 방향으로부터 오는 원치않은 사운드를 감쇠한다. 각각의 음성 명령 디바이스가 하나의 마이크로폰만 가지더라도, 빔형성은 하나의 음성 명령 디바이스의 복수의 마이크로폰 및/또는 복수의 음성 명령 디바이스의 마이크로폰의 앙상블에 적용될 수 있다. 예를 들어, 시간 지연 보상은 적어도 두 개의 마이크로폰에 의해 캡쳐된 오디오 신호에 적용되어서, 스피치 신호의 소스, 즉, 화자로부터 각각의 마이크로폰으로의 상이한 수송 시간에 대해 보상한다. 더구나, 에코와 잡음 보상과 같은 필터링 테크닉은 프로세스된 오디오 신호에 적용되어서, 스피치 신호의 원치않은 반사 및 프로세스된 신호로부터의 잡음을 제거한다. 개개의 마이크로폰에 의해 캡쳐된 오디오 신호에 상이한 가중화 및/또는 위상 천이를 적용함에 의해, 음향 서브공간 또는 스윗 스팟은 음향 밤 내의 제한된 공간으로서 정의될 수 있고, 오디오 신호는 개개의 마이크로폰 신호의 구조적 간섭 때문에 수신되는 것이 바람직한 반면, 음향 서브공간 외부로부터의 오디오 신호는 적어도 부분적으로 상쇄되거나 필터링된다. 결과적으로, 국부적인 화자에 의해 발언된 음성 명령은 현저하게 개선된 신호대잡음 비율로 적어도 두 개의 마이크로폰에 의해 캡쳐될 수 있다.
가령, 각각의 시간 지연, 가중화 및/또는 위상 천이를 일부 또는 전부의 마이크로폰에 의해 캡쳐된 오디오 신호에 적용하고 사전프로세스된 오디오 신호를 SaaS 제공자로 전송함에 의해, SaaS 제공자로부터 수신된 방향성 정보에 기초한, 빔형성, 즉, 대응되는 프로세싱이 활성화 음성 명령 디바이스 측에, 즉 이들의 프로세서 유닛에 의해, 부분적으로 적용될 수 있다. 적어도 두 개의 마이크로폰에 의해 캡쳐된 모든 오디오 신호를 요구하는 빔형성 단계는 그리고 나서, SaaS 제공자 측에서 수신되고 사전프로세스된 오디오 신호에 적용될 수 있다. 특히, 활성화 음성 명령 디바이스의 복수의 마이크로폰의 두 개 이상의 마이크로폰의 빔 조정은 SaaS 제공자로부터 수신된 방향성 정보를 사용하여, 음성 명령 디바이스 측에서 수행될 수 있다. 결과적으로, SaaS 제공자로 전송된 데이터의 양은 감소되고, 검출된 스피치 신호의 품질은 향상되어서, SaaS 제공자 측에서 수행되는 스피치 인식은 좀 더 성공적이 된다.
선택 정보, 마이크로폰 선택 정보 및/또는 빔형성 정보를 포함하는 방향성 정보는 적어도 하나의 음성 명령 디바이스로부터 수신된 하나 이상의 마이크로폰에 대한 방향성 정보에 기초하여, SaaS 제공자에 의해 결정된다. 특히, 복수의 음성 명령 디바이스에 대한 방향성 정보는 엔터테인먼트 시스템의 여러, 특히 모든 음성 명령 디바이스로부터 수신된 하나 이상의 마이크로폰에 대한 방향성 정보에 기초하여, SaaS 제공자에 의해 결정된다.
하나의 추가 실시예에서, 하나 이상의 마이크로폰에 대한 방향성 정보는, 하나 이상의 마이크로폰의 각각에 대한, 및/또는 음성 명령 디바이스 내에 있다면 복수의 마이크로폰의 복수의 상이한 빔형성 방향에 대한, 스피치 신호에 대하여 프로세서 유닛에 의해 계산된 신호대잡음 비율(SNR)을 포함할 수 있다. 본 실시예에 따르면, 음성 명령 디바이스에 의해 전송된 방향성 정보는 하나 이상의 마이크로폰에 의해 캡쳐된 오디오 신호에 기초하여, 음성 명령 디바이스에 의해 계산된 검출된 스피치 신호의 적어도 하나의 소스의 위치에 대한 정보를 포함한다.
방향성 정보는 캡쳐된 오디오 신호의 각각에 대한 스피치 신호에 대한 신호대잡음 비율을 특히 포함할 수 있다. 미리결정된 스레숄드 아래의 신호대잡음 비율은 SaaS 제공자로 전송되거나, 방향성 정보로부터 생략될 수 있다. 신호대잡음 비율은 기술 분야의 알려진 임의의 방법에 따라, 음성 명령 디바이스의 프로세서 유닛에 의해 계산될 수 있다.
신호대잡음 비율은 하나의 마이크로폰 신호, 즉, 하나의 마이크로폰에 의해서만 캡쳐된 오디오 신호에 대해서만 계산될 수 있다. 그러므로, 신호대잡음 비율의 계산은 빔형성을 캡쳐된 오디오 신호에 적용하지 않으면서 특히 수행된다. 그러나, 계산은 캡쳐된 오디오 신호로부터 적어도 하나의 라우드스피커에 의해 출력된 오디오 신호의 제거 이후에 수행될 수 있다.
대안적으로 또는 추가적으로, 별도의 신호대잡음 비율은, 음성 명령 디바이스 내에 존재한다면, 복수의 마이크로폰의 복수의 상이한 빔형성 방향에 대한 스피치 신호에 대해 프로세서 유닛에 의해 계산될 수 있다. 이러한 경우에, 프로세서 유닛은, 복수의 마이크로폰의 공간 배열에 의존하여, 2차원적으로 또는 3차원적으로, 복수의 상이한 빔형성 방향에 대해 캡쳐된 오디오 신호에 빔형성을 수행한다. 상이한 빔형성 방향은 원형의 관심 세그먼트 또는 구의 관심 세그먼트 또는 전체 원형이나 전체 구에 걸쳐 등거리적으로 분포될 수 있다. 관심 세그먼트는 사람이 있을 수 있는 공간 영역에 대해, 음성 명령 디바이스, 특히 마이크로폰의 상대적 배열에 기초하여, 음성 명령 디바이스에서 미리정의될 수 있다. 신호대잡음 비율의 계산을 위해 빔형성 방향의 개수 및/또는 분포는 미리결정될 수 있고, 계산의 결과에 의존하여 음성 명령 디바이스에 의해 적응적으로 결정될 수 있고, 또는 SaaS 제공자에 의해 결정되고 음성 명령 디바이스로 전송될 수 있다.
각각의 빔형성 방향에 대하여, 신호대잡음 비율은 음성 명령 디바이스에 의해 계산되고, 트랜시버를 통해, 대응되는 빔형성 각도와 같은 빔형성 방향을 식별하는 정보와 함께 SaaS 제공자로 보고된다.
엔터테인먼트 시스템의 음성 명령 디바이스로부터 수신된, 전송된 신호대잡음 비율로부터, 즉, 하나 이상의 마이크로폰 및/또는 복수의 다양한 빔형성 방향에 대하여, SaaS 제공자는 활성화 음성 명령 디바이스를 선택하기 위한 상기 기술된 선택 정보, 마이크로폰을 선택하기 위한 마이크로폰 선택 정보 및/또는 적어도 두 개의 마이크로폰에 대한 빔형성 정보를 결정할 수 있다. 상세하게, SaaS 제공자는 제2의 미리결정된 스레숄드 보다 높은 신호대잡음 비율을 가진 이들 음성 명령 디바이스를 활성화 음성 명령 디바이스로 선택할 수 있다. 이러한 선택은 가령, 복수의 상이한 빔형성 방향에 대한 신호대잡음 비율에 기초할 수 있다. 대안적으로, 제2 스레숄드를 초과하는 신호대잡음 비율을 가진 적어도 하나의 마이크로폰을 가진 음성 명령 디바이스는 활성화 음성 명령 디바이스로 선택될 수 있다. 신호대잡음 비율이 제3 스레숄드를 초과하는 활성화 음성 명령 디바이스의 마이크로폰은 마이크로폰 선택 정보에서 선택될 수 있다. 제3 스레숄드는 제2 스레숄드와 동일할 수 있다. 대안적으로, 최적의 빔형성 방향은 각각의 활성화 음성 명령 디바이스의 하나 이상의 마이크로폰에 대해 선택될 수 있는데, SaaS 제공자는, 복수의 음성 명령 디바이스로부터 하나 이상의 마이크로폰에 대한 방향성 정보가 제공되는 최적의 빔형성 방향에 기초하여, 복수의 음성 명령 디바이스에 대한 방향성 정보를 위한 적어도 두 개의 마이크로폰에 대한 빔형성 정보를 계산할 수 있다.
신호대잡음 비율을 계산하기 위해, 캡쳐되고, 가능하면 빔형성된 오디오 신호는 우선 하이-패스 필터로 맡겨져서, 한 편으로 잡음에 의해 전형적으로 과도하게 오버레이드되고, 원하는 스피치 신호의 어떤 부분을 포함하지 않는 신호 부분을 차단할 수 있다. 선택적으로, 로우-패스 필터는 전형적인 스피치 스펙트럼 외부의 신호 부분을 차단하기 위해 적용될 수 있다. 그리고 나서, 배경 잡음은 비선형 스무딩 필터를 사용하여 추정될 수 있다. 프로세스된 오디오 신호와 추정된 배경 자음 신호에 기초하여, 신호대잡음 비율이 계산될 수 있고, 이는 미리결정된 신호대잡음 스레숄드와 비교될 수 있다. 이러한 비교는 음성 명령 디바이스나 SaaS 제공자에 의해 수행될 수 있다. 대응되는 가중화 및/또는 위상 천이를 복수의 마이크로폰의 캡쳐된 오디오 신호에 적용함에 의해, 복수의 빔형성 방향에 대해 대응되게 빔형성된 신호의 신호대잡음 비율이 계산될 수 있다. 일 실시예에서, 계산은 스펙트럴 도메인으로 변환되고, 이는, 개개의 포먼트가 특정한 빈(bin)에서 발견될 수 있고, 이는 배경 잡음 레벨을 훨씬 초과하기 때문에, 훨씬 더 높은 신호대잡음 스레숄드의 적용을 가능하게 한다.
상기 기술된 방법은 두 명 이상의 공간적으로 분리된 화자로부터의 스피치 신호의 검출로 확장될 수 있다. 이러한 경우, 별도의 마이크로폰 또는 마이크로폰의 그룹, 심지어 별도의 음성 명령 디바이스 또는 음성 명령 디바이스는 SaaS 제공자에 의해 선택되어서, 활성화 음성 명령 디바이스에 의해, 두 명 이상의 화자로부터의 스피치 신호의 최적화된 캡쳐링을 가능하게 할 수 있다. 또한, 적어도 두 개의 마이크로폰은 두 명 이상의 화자의 위치에 따라 빔형성이 될 수 있다. 일반적으로, 여러 개의 마이크로폰을 가진 음성 명령 디바이스는 충분한 수의 마이크로폰을 포함하여, 적어도 두 명의 화자의 방향으로 복수의 마이크로폰의 빔형성을 가능하게 할 것이다. 하나 이상의 마이크로폰에 대한 방향성 정보 및 복수의 음성 명령 디바이스에 대한 방향성 정보는 따라서 확장될 수 있다.
하나의 추가 실시예에서, 하나 이상의 마이크로폰에 대한 방향성 정보는 캡쳐된 오디오 신호에 기초하여, 프로세서 유닛에 의해 추정된 도착 방향(DOA) 정보를 포함할 수 있다. 본 실시예에 따르면, 복수의 마이크로폰을 가진 음성 명령 디바이스의 프로세서는 도착 방향의 결정에 관하여, 검출된 스피치 신호의 소스의 국부화(를 수행하도록 구성된다.
스피치 신호의 소스의 위치는 가령, 음성 명령 디바이스의 복수의 마이크로폰을 구성하는 마이크로폰의 시간 샘플링 신호나 이들의 퓨리에 변환을 분석함에 의해, 결정될 수 있다. 그리고 나서, 스피치 신호의 도착 방향(DOA) 각도는 개개의 캡쳐된 오디오 신호들 간의 지연의 함수로 계산된다. 이러한 지연은 상이한 마이크로폰 신호들의 교차-상호관계에 의해 계산될 수 있다. 대안적으로, 소스가 위치되는 방향은 가령, 특정 음향 공간에 대해 미리결정된 스캐닝 각도에 기초하여, 소스 국부화 이외의 다른 수단에 의해 결정될 수 있다. 가령, 상기 기술된 복수의 상이한 빔형성 방향은 스피치 신호의 신호대잡음 비율에 대해, 프로세서 유닛에 의해 분석될 수 있고, 가장 높은 신호대잡음 비율을 가진 빔형성 방향은 도착 방향으로 결정될 수 있다.
본 실시예에 따르면, 스피치 신호를 검출하는 복수의 마이크로폰을 가진 각각의 음성 명령 디바이스는 네트워크를 통해 계산된 도착 방향 정보를 SaaS 제공자로 전송한다. 전송된 DOA 정보로부터, SaaS 제공자는, 가령 DOA 빔들 간의 교차를 결정함에 의해, 스피커의 위치, 이른바 스윗 스팟을 결정할 수 있다. 두 개 이상의 DOA 빔이 가능하면, 검출된 스피치 신호의 신호대잡음 비율은 DOA 빔들의 교차를 결정할 때, 가중치로서 적용될 수 있고, 스윗 스팟은 결과로 나온 교차점의 기하 중심으로 결정될 수 있다.
스피치 신호의 소스에 대해 DOA 정보를 보고했던 모든 음성 명령 디바이스는 SaaS 제공자에 의해 활성화 음성 명령 디바이스로서 결정될 수 있다. 더구나, 활성화 음성 명령 디바이스의 마이크로폰에 대한 빔형성 정보는 보고된 DOA 정보와 계산된 스윗 스팟에 기초하여 SaaS 제공자에 의해 계산될 수 있고, 복수의 음성 명령 디바이스에 대한 방향성 정보의 일부로서, 활성화 음성 명령 디바이스로 다시 보고될 수 있다.
하나의 추가 실시예에서, 하나 이상의 마이크로폰에 대한 방향성 정보는, 일반적으로 샘플링, 디지털 신호로의 전환 및 선택적으로, 필터링, 스무딩 및/또는 잡음 상쇄와 같은 사전-프로세싱 이후에, 캡쳐된 오디오 신호를 포함할 수 있는데, 복수의 음성 명령 디바이스에 대한 방향성 정보는 적어도 두 개의 음성 명령 디바이스로부터 캡쳐된 오디오 신호에 기초하여, SaaS 제공자에 의해 계산된 DOA 정보를 포함한다.
본 실시예에서, SaaS 제공자는, 복수의 마이크로폰과 딸려 있는 대응되는 음성 명령 디바이스의 복수의 마이크로폰에 대한, 및/또는 캡쳐된 오디오 신호를 전송했던 음성 명령 디바이스의 마이크로폰의 앙상블에 대한 DOA 빔의 상기 기술된 결정을 수행한다. 그러므로, 이러한 방법은, SaaS 제공자가 복수의 음성 명령 디바이스에 대한 DOA 빔을 결정할 수 있기 때문에, 하나의 마이크로폰만 가진 음성 명령 디바이스에도 적용가능하다. 이전의 실시예와 같이, 절차는, 셋업 절차에서 또는 초기 보정 절차 동안에, SaaS 제공자에게 제공되는 바와 같이, 음성 명령 디바이스의 상대적 위치에 대한 공간 정보를 고려할 수 있어서, 음성 명령 디바이스에 대한 화자의 스윗 스팟을 결정할 수 있다. SaaS 제공자에 의해 되돌아온 방향성 정보는 적어도 두 개의 음성 명령 디바이스의 마이크로폰에 대한 DOA 정보를 포함할 수 있다. 수신된 방향성 정보는 적어도 두 개의 음성 명령 디바이스에 의해 사용되어서, 마이크로폰 빔을 DOA 정보에 의해 표시된 방향으로 조정하거나, 및/또는 스윗 스팟의 위치에서 최적의 사운드 필드로 오디오 재생을 수행할 수 있다.
SaaS 제공자 측에서 캡쳐된 오디오 신호를 프로세싱하는 것은 네트워크 트래픽을 증가시키지만, 음성 명령 디바이스에 대한 연산 부하를 감소시켜서, 음성 명령 디바이스의 간단화된 버전이 사용될 수 있다.
하나의 추가 실시예에서, 음성 명령 디바이스는 SaaS 제공자로부터의 적어도 하나의 오디오 신호를 포함하는 오디오 서비스를 수신하고, 복수의 음성 명령 디바이스에 대한 수신된 방향성 정보에 기초하여, 적어도 하나의 라우드스피커를 통해 오디오 신호를 출력하도록 더욱 구성될 수 있다.
본 발명에 따르면, 각각의 음성 명령 디바이스는 적어도 하나의 라우드스피커를 포함한다. 적어도 하나의 라우드스피커는 기술 분야에 알려진 임의의 라우드스피커일 수 있다. 특히, 오디오 신호는 복수의 전범위 스피커 및 적어도 하나의 서브우퍼 또는 우퍼를 포함하는 라우드스피커의 시스템을 통해 출력될 수 있다. 라우드스피커의 시스템은 이하에 더욱 기술되는 바와 같이, 스테레오 사운드, 서라운드 사운드, 가상 서라운드 사운드 또는 앰비소닉스 사운드를 제공하기 위해 더욱 각색될 수 있다. 특히, 복수의 라우드스피커는, 음성 명령 디바이스의 특히 구의 외주를 따라 배열되거나, 음성 명령 디바이스의 반구 또는 구에 걸쳐 분포될 수 있다. 오디오 재생에 관하여, 음성 명령 디바이스는 특히 360°디바이스로 형성될 수 있어서, 수평 평면 내의 모든 방향으로 음파의 발산을 허용한다.
본원과 이후에서, 고정된 공간 관계가 하나 이상의 마이크로폰의 위치와 각각의 음성 명령 디바이스의 적어도 하나의 라우드스피커 사이에 존재하고, 이러한 공간 관계는 각각의 음성 명령 디바이스에 알려져 있고, 및/또는 SaaS 제공자로 전송된다고 가정한다. 결과적으로, 각각의 음성 명령 디바이스의 프로세서 유닛은 알려진 공간 관계를 사용하여, 복수의 음성 명령 디바이스에 대한 수신된 방향성 정보에 기초하여, SaaS 제공자로부터 수신된 오디오 신호의 오디오 재생을 수행할 수 있다.
하나의 특정 실시예에서, SaaS 제공자에 의해 제공된 방향성 정보 내에서, 활성화 디바이스로 선택된 음성 명령 디바이스만이 오디오 재생을 수행할 수 있다. 결과적으로, 본 발명에서 화자와 동일한 청자로부터 너무 멀리 있거나, 큰 물체나 벽에 의해 출력이 가려지는 음성 명령 디바이스들은 본 실시예에서, 에너지를 보존하고, 다른 영역이나 방의 점유자를 방해하지 않기 위해, 오디오 재생을 위해 선택되지 않는다. 대안적인 실시예에서, 활성화 디바이스로 선택되지 않은 음성 명령 디바이스가 오디오 재생을 위해 선택될 수 있다. 이는, 스피치 신호의 검출된 소스에 대한 음성 명령 디바이스의 상대적 공간 배열에 기초하여, SaaS 제공자에 의해 행해질 수 있다. 결과적으로, 스피치 신호를 캡쳐하기 위한 활성화 음성 명령 디바이스로 선택되지 않은 음성 명령 디바이스라도, 이들이 적절히 위치되어 SaaS 제공자에 의해 식별된다면, 여전히 오디오 재생, 가령 사이드-채널 신호를 재생하는데 사용될 수 있다. 화자/청자의 검출된 위치에 기초하여, SaaS 제공자는, 이들 음성 명령 디바이스에 의해 출력된 사운드가 청자의 귀에 직접 또는 간접적으로 도달한다면, 오디오 재생을 위해 가령 추가적인 음성 명령 디바이스를 선택할 수 있다. SaaS 제공자는, 오디오 출력을 위해 추가적인 음성 명령 디바이스를 선택할 때, 방 기하 형상을 더욱 고려할 수 있고, 또한 특정 음성 명령 디바이스를 방해하지 않기 위해, 이들 추가적인 사람에 대한 위치에 기초하여, 특정 음성 명령 디바이스를 명시적으로 선택하지 않음에 의해, 두 명 이상의 검출된 사람에 대해 분리된 오디오 존을 생성할 수 있다. 검출된 스피커의 위치에서 원하는 사운드 품질을 가진 사운드 존을 생성하기 위해, 복수의 음성 명령 디바이스에 대한 방향성 정보는 SaaS 제공자에 의해 이들 추가적인 음성 명령 디바이스 또는 모든 복수의 음성 명령 디바이스로 전송될 수 있다. 이러한 방향성 정보는 오디오 재생에 대한 선택 정보를 포함할 수 있다.
오디오 재생을 위해 선택되는 활성화 음성 명령 디바이스 및 가능하면 추가적인 음성 명령 디바이스에 의해 출력될 오디오 신호는 SaaS 제공자에 의해 제공되는 오디오 서비스와 관련된 임의의 오디오 신호일 수 있다. 이하에서는, 활성화 음성 명령 디바이스를 통한 오디오 재생이 기술된다. 그러나, 기술된 방법은 상기 기술된 오디오 재생을 위해, SaaS 제공자에 의해 선택된 추가적인 음성 명령 디바이스로 용이하게 확장될 수 있다. 특히, 오디오 신호는, 음악의 일부, 오디오북, 비디오의 오디오 데이터, 디지털 방송, 팟캐스트, 전화 연결 또는 SaaS 제공자에 의해 제공될 수 있는 임의의 종류의 오디오-기반의 서비스와 관련된 오디오 데이터를 나타내는 단일 채널 또는 멀티-채널 오디오 신호일 수 있다. 활성화 음성 명령 디바이스로 전송되는 오디오 신호는 각각의 활성화 음성 명령 디바이스에 대한 전용 오디오 신호 및/또는 활성화 음성 명령 디바이스의 각각의 라우드스피커를 포함할 수 있다. 또한, 적어도 하나의 음성 명령 디바이스가 TV 세트의 라우드스피커와 같은 하나 이상의 외부 라우드스피커에 연결되면, 이러한 음성 명령 디바이스로 전송되는 오디오 신호는 외부 라우드스피커에 전용인 오디오 신호를 더 포함할 수 있다. 이러한 경우에, 음성 명령 디바이스에 대한 외부 라우드스피커의 상대적 공간 정보와 같은 컨피규레이션 정보가 음성 명령 디바이스에 의해 저장되고, 네트워크를 통해 SaaS 제공자로 전송될 수 있다.
하나의 특정 실시예에서, 오디오 신호를 출력하는 단계는 수신된 방향성 정보에 기초하여, 오디오 신호를 빔형성하는 단계를 포함한다. 복수의 음성 명령 디바이스에 대한 수신된 방향 정보에 기초하여, 하나 이상의 음성 명령 디바이스는 수신된 오디오 신호에 기초하여, 적어도 하나의 라우드스피커에 의한 출력을 위해 전용 오디오 신호를 생성할 수 있다. 예를 들어, 방향성 정보는, 활성화 음성 명령 디바이스의 적어도 하나의 라우드스피커의 각각에 대해, SaaS 제공자로부터 수신된 오디오 신호에 적용될 위상 천이 정보 및/또는 가중치를 포함할 수 있다. 활성화 음성 명령 디바이스가, 특히 360°어레이의 라우드스피커의 형태인 복수의 라우드스피커를 포함하면, 스피커의 위치의 방향으로 출력의 빔 조정이 수행될 수 있다. 복수의 음성 명령 디바이스에 대한 방향성 정보가 SaaS 제공자에 의해 제공되므로, 여러 음성 명령 디바이스의 라우드스피커에 대한 위상 천이 정보 및/또는 가중치는 이들 음성 명령 디바이스로 제공되어서 대응되게 수정된 오디오 신호를 출력하여서, 음성 명령 디바이스로부터 결과로 나온 오디오 신호는 청자의 스윗 스팟으로 조정된다. 다시 말해, SaaS 제공자로부터 적어도 두 개의 활성화 음성 명령 디바이스로 전송되는 방향성 정보는, 가령, 적어도 두 개의 활성화 음성 명령 디바이스의 라우드스피커에 의해 출력된 오디오 신호의 양의 간섭(positive interference)에 의해, 청자의 위치에서 최적의 사운드 필드를 생성하는데 사용될 수 있다.
또한, SaaS 제공자로부터 수신된 방향성 정보는 국부화된 청자의 방향으로 빔 조정을 수행하기 위해, 라우드스피커 어레이를 가진 활성화 음성 명령 디바이스에 의해 사용될 수 있는 도착 방향 정보를 포함할 수 있다.
활성화 음성 명령 디바이스의 프로세서 유닛은 특히, 하나 이상의 마이크로폰의 위치와 적어도 하나의 라우드스피커의 위치 간의 공간 관계를 사용하여, 적어도 두 개의 마이크로폰에 대한 빔형성 정보를 적어도 하나의 라우드스피커에 대한 대응되는 빔형성 정보를 변환할 수 있다. 또한, 이러한 변환은 특히, 두 개 이상의 음성 명령 디바이스가 오디오 재생에 사용되고, 오디오 재생에 사용되는 라우드스피커에 대한 대응되는 빔형성 정보가, 복수의 음성 명령 디바이스에 대한 방향성 정보의 일부로서, SaaS 제공자에 의해 활성화 음성 명령 디바이스로 전송될 수 있는 경우에 SaaS 제공자에 의해 수행될 수 있다.
활성화 음성 명령 디바이스 측에서 오디오 출력의 빔 조정 프로세싱을 수행하기 위한 대안예로서, 복수의 음성 명령 디바이스에 대한 방향성 정보는, 출력 오디오 신호에 빔형성을 수행하기 위해, SaaS 제공자에 의해 활성화 음성 명령 디바이스로 전송되는 오디오 신호에 인코딩될 수 있다. 다시 말해, SaaS 제공자에 의해 제공되는 오디오 서비스는 활성화 음성 명령 디바이스의 라우드스피커에 대한 전용 오디오 신호를 이미 포함하는데, 이들 전용 오디오 신호는, 각각의 위상 천이 및/또는 가중화가 오디오 신호에 적용되는 점에서 SaaS 제공자에 의해 사전-프로세스되어서, 활성화 음성 명령 디바이스의 라우드스피커에 의해 수신된 오디오 신호를 출력하는 것은 빔형성에 의해 청자의 위치에서 원하는 사운드 필드를 생성할 수 있다. 활성화 음성 명령 디바이스로 제공되는 오디오 신호 내에 방향성 정보를 인코딩하는 것은 출력 오디오 신호에 빔형성을 자동으로 수행한다. SaaS 제공자가 모든 필요한 정보, 즉, 활성화 음성 명령 디바이스의 하나 이상의 마이크로폰에 대한 방향성 정보의 수집 및 필요하면, 적어도 하나의 라우드스피커에 대한 하나 이상의 마이크로폰, 및/또는 방 기하 형상에 대한 복수의 음성 명령 디바이스의 상대적 공간 배열에 대한 정보를 가지므로, SaaS 제공자 측에서 오디오 재생하는 동안 빔형성을 위해 수정된 오디오 신호를 생성하는 것은 음성 명령 디바이스 측에서 요구되는 연산 자원을 현저히 감소시킨다.
하나의 추가적인 실시예에서, 오디오 서비스는 복수의 음성 명령 디바이스의 상이한 라우드스피커와 관련된 복수의 오디오 채널을 포함하여, 스테레오 사운드, 서라운드 사운드, 가상 서라운드 사운드 또는 앰비소닉스 사운드를 제공할 수 있다. 본 실시예에 따르면, 상이한 라우드스피커에 의해 출력되는 음향 데이터는 콘텐트에 관하여 상이할 수 있어서, 가상 분리된 사운드 소스의 인상이 상이한 라우드스피커에 의해 출력된 오디오들의 중첩에 의해 청자의 위치에서 생성된다.
가장 간단한 경우에, 스테레오 사운드의 효과는 좌측 오디오 채널과 우측 오디오 채널을 적어도 두 개의 공간적으로 분리된 라우드스피커로 제공함에 의해 생성된다. 적어도 두 개의 공간적으로 분리된 라우드스피커는 특히 상이한 음성 명령 디바이스에 속할 수 있다. 음향 공간에서 이들 음성 명령 디바이스의, 특히 청자에 대한 상대적 위치가 가령, 상기 기술된 셋업 절차나 보정 절차의 결과로서, SaaS 제공자에게 알려지면, SaaS 제공자는 좌측 오디오 채널과 우측 오디오 채널을 활성화 음성 명령 디바이스의 각각의 라우드스피커로 제공할 수 있는데, 좌측 및 우측 오디오 채널은 상기 기술된 빔형성을 사용하여 더욱 수정되어서, 청자의 위치에서 최적의 사운드 필드를 생성할 수 있다. 이러한 추가적인 수정은 방에서 활성화 음성 명령 디바이스의 차선의 배열을 보상할 수도 있다. 또한, 수정은, 청자의 위치에서 최적의 스테레오 인상을 위한 오디오 채널을 생성할 때, 특히, 방의 벽에 대한 반사에서, 방의 기하형상을 고려할 수 있다.
고차원 사운드 효과는 음성 명령 디바이스에 제공된 라우드스피커의 타입과 개수에 의존하여 가능할 수 있다. 예를 들어, 음성 명령 디바이스의 적어도 하나의 라우드스피커는 우퍼, 브로드밴드 라우드스피커, 중간 범위 라우드스피커 및/또는 소위 트위터를 포함할 수 있다. 사용가능한 라우드스피커의 개수와 청자의 위치에 대한 이들의 공간 배열, 즉, 스피치 신호의 검출된 소스에 의존하여, 서라운드 사운드나 가상 서라운드 사운드는 SaaS 제공자에 의해 제공된 오디오 서비스의 일부로서 멀티-채널 오디오를 제공함에 의해, 청자의 위치에서 생성될 수 있다. SaaS 제공자는 복수의 오디오 채널을 활성화 음성 명령의 라우드스피커로 라우팅할 수 있는데, SaaS 제공자는 복수의 음성 명령 디바이스로부터 수신된 복수의 마이크로폰에 대한 방향성 정보에 기초하여, 복수의 음성 명령 디바이스의 라우드스피커의 최적의 조합을 식별한다.
특히, SaaS 제공자는 5.1 ITU(국제 전기 통신 연합) 표준에 따른 스윗 스팟에서 서라운드 사운드를 제공하기 위해 적어도 6개의 라우드스피커를 식별하도록 구성될 수 있다. 그러나, 본 발명은 서라운드 사운드의 특정 형식에 제한되지 않으나, 7.1 서라운드 스피커 컨피규레이션과 같이, 기술 분야에서 알려진 임의의 서라운드 스피커 컨피규레이션에 적용될 수 있다. 활성화 음성 명령 디바이스의 적절한 라우드스피커의 식별 이후에, SaaS 제공자는 별도의 오디오 채널을 각각의 식별된 라우드스피커로 전송할 수 있다. 하나 보다 많은 라우드스피커가 음성 명령 디바이스에서 사용된다면, 멀티-채널 신호가 음성 명령 디바이스로 전송될 수 있다. 대부분의 경우, 각각의 소스 채널은, 음성 명려 디바이스로 전송되는 오디오 채널을 인코딩할 때, SaaS 제공자에 의해 전용 라우드스피커로 맵핑된다. 음성 명령 디바이스는 SaaS 제공자로부터 수신된 멀티-채널 오디오 신호에서 인코딩된 소스 채널의 개수와 콘텐트를 되찾고, 이들을 이들의 각각의 라우드스피커에 적용하도록 구성된 매트릭스 유닛을 포함할 수 있다.
빔형성 정보와 같은 추가적인 정보는 상기 기술된 바와 같이, 특히, 하나 보다 많은 라우드스피커가 서라운드 사운드 시스템의 적어도 하나의 채널에 대해 사용가능할 때, 전송된 오디오 신호에서 SaaS 제공자에 의해 인코딩될 수 있다.
SaaS 제공자는 활성화 음성 명령 디바이스로 오디오 서비스가 제공된 복수의 오디오 채널 내의 가상 서라운드 사운드 정보를 더욱 인코딩할 수 있다. 청자의 위치에서 가상 서라운드 사운드 효과를 생성하기 위해, SaaS 제공자에 의해, 머리 전달 함수가 고려될 수 있어서, 활성화 음성 명령 디바이스의 라우드스피커에 의해 출력될 때, 청자가 음향 공간 내의 가상 소스로부터 사운드를 인지하도록 하는 오디오 채널을 생성할 수 있다. 또한, SaaS 제공자는 사운드의 강한 빔을 방의 벽에 반사하기 위해 지향하기 위한 오디오 채널을 제공하여서, 청자는 라우드스피커로부터 직접적인 사운드보다 더 높은 레벨에서 반사를 듣게 된다. 활성화 음성 명령 디바이스의 개개의 라우드스피커를 선택하고 제어하기 위한 제어 신호를 포함하여, 청자의 위치에서 가상 서라운드 사운드 효과에 대해 요구되는 임의의 정보는 SaaS 제공자에 의해 활성화 음성 명령 디바이스로 전송될 수 있고, 특히 오디오 서비스를 구성하는 오디오 채널에서 인코딩될 수 잇다. 음성 명령 디바이스는 수신된 오디오 서비스로부터 제어 신호를 추출하는 대응되는 디코딩 유닛을 포함할 수 있고, 대응되는 오디오 채널을 출력하기 위해 그 라우드스피커를 제어할 수 있다.
하나의 특정 실시예에서, 오디오 서비스는 복수의 음성 명령 디바이스의 상이한 라우드스피커와 관련된 복수의 오디오 채널을 포함하여, 앰비소닉스 사운드를 생성할 수 있다. 앰비소닉스 사운드 효과는 기술 분야에서 잘 알려져 있어서, 상세한 설명은 본원에서 생략된다. 일반적으로, 앰비소닉스는, 앰비소닉스 사운드가 녹음되었을 때, 사운드 필드가 공간에 존재하기 때문에, 사운드 필드를 재생성하는 멀티-채널 믹싱 기술을 사용하는 오디오 재생 테크닉을 말한다. 청자가 라우드스피커들 사이의 매우 좁은 스윗 스팟에 위치되면, 사운드 필드의 환상만을 생성할 수 있는 전통적인 서라운드 시스템과 달리, 앰비소닉스 테크닉을 사용하여 생성된 사운드 필드는 더 큰 영역, 종종 전체 음향 공간을 채울 수 있다. 청자 주위에 배열된 4개 이상의 스피커로, 3차원 사운드 필드가 제시될 수 있다.
예를 들어, 3차원적인 고차원 라우드스피커는, 구형 또는 반구형에 규칙적으로 분포된 4 개 이상의 저차원 라우드스피커를 사용하여 생성될 수 있다. 음성 명령 디바이스의 적어도 하나의 라우드스피커의 구형 또는 반구형 분포로, 앰비소닉스 사운드 필드가 생성될 수 있다. 또한, 상이한 음성 명령 디바이스로부터의 라우드스피커는 앰비소닉스 사운드 필드를 생성하는데 사용될 수 있다. 음성 명령 디바이스가 음향 공간의 마루 위에 상이한 높이에 위치된다면, 각각의 음성 명령 디바이스의 라우드스피커의 2차원적인 배열이라도 앰비소닉스 사운드 필드를 생성하는데 사용될 수 있다. 그 결과, 3차원 파장 필드는, 본 발명에 따른 라우드스피커 어레이의 2차원 배열을 가진 두 개 이상의 음성 명령 디바이스를 사용하여 생성될 수 있다.
검출된 스피커의 위치에서 앰비소닉스 사운드 필들르 생성하기 위해, SaaS 제공자는 멀티-채널 오디오 신호를 생성할 수 있는데, 전용 오디오 채널이 활성화 음성 명령 디바이스의 선택된 라우드스피커에 제공된다. 이러한 맥락에서, SaaS 제공자에 의해 활성화 음성 명령 디바이스로 전송되는 복수의 음성 명령 디바이스에 대한 방향성 정보는, 전용 오디오 채널의 출력을 위해 활성화 음성 명령 디바이스의 라우드스피커를 선택하기 위한 선택 정보를 더 포함할 수 있다. SaaS 제공자는 음성 명령 디바이스로부터 수신된 하나 이상의 마이크로폰에 대한 방향성 정보에 기초하여, 앰비소닉스 사운드로서 오디오 신호의 출력을 위한 음성 명령 디바이스의 라우드스피커의 서브세트를 결정하도록 구성될 수 있다. 특히, 적어도 하나의 스피커의 도착 방향 정보 및/또는 검출된 위치는, 앰비소닉스 사운드 필드에 대한 오디오 채널을 생성할 때, SaaS 제공자에 의해 고려될 수 있다. 그리고 나서, 오디오 채널은 SaaS 제공자에 의해, 각각의 오디오 채널을 맵핑하기 위한 맵핑 정보를 포함하는 멀티-채널 신호 또는 개개의 오디오 채널로서 각각의 활성화 라우드스피커로 전송될 수 있다. 그 결과, 원래의 사운드 필드는 적어도 하나의 스피커의 위치에서 정확하게 재생될 수 있다.
하나의 특정 실시예에서, 하나 이상의 활성화 음성 명령 디바이스는 고차원 라우드스피커(HOL)로서 작용할 수 있는데, 즉, 자유롭게 조절가능한, 스피커 기반의 빔형성을 수행하며, 가령, 앰비소닉스를 사용하여 청자의 위치에서 원하는 사운드 필드를 생성하는데 기초로 사용될 수 있다. 이러한 경우, SaaS 제공자는 복수의 음성 명령 디바이스에 대한 방향성 정보를 기초로, HOL로서 작용하는 음성 명령 디바이스를 위해 대응되는 오디오 신호를 생성할 수 있다. 그러므로, 사운드 필드의 생성은 이들의 빔(방향성 패턴)을 적응적으로 변경하는 한, 모든 참여하는 HOL을 적응적으로 수정하는 것을 포함할 수 있다.
하나의 추가적인 실시예에서, 적어도 하나의 음성 명령 디바이스는 검출된 스피커를 추적하도록 구성된 추적 유닛, 특히 레이더 센서 및/또는 카메라를 더 포함할 수 있다. 하나의 음성 명령 디바이스의 추적 유닛은 검출된 스피커의 추적을 제공하기에 충분할 수 있다. 대안적으로, 각각의 음성 명령 디바이스는 추적 유닛을 가질 수 있다. 또한, 음성 명령 디바이스로부터 분리된 추적 유닛이, 가령 감시 시스템의 일부로서 제공될 수 있고, SaaS 제공자에 연결될 수 있다. 이러한 경우에, 별도의 추적 유닛으로부터의 신호는 스피커의 검출 결과로서 SaaS 제공자로 제공된다.
추적 유닛은 검출된 스피커로부터의 레이더 반사를 수신하거나 검출된 스피커를 포함하는 이미지를 캡쳐할 수 있다. 음성 명령 디바이스의 제어 유닛은 시간에 따라 검출된 스피커의 위치 변화를 결정하고, 음성 명령 디바이스에 의해 SaaS 제공자로 전송된 방향성 정보를 대응되게 각색하는데 사용될 수 있다. 대안적으로, 수신된 신호 또는 캡쳐된 이미지는 SaaS 제공자로 전송되어서, SaaS 제공자의 제어 유닛에 의해 프로세스 될 수 있다. 그리고 나서, 검출된 스피커의 위치의 검출된 변화는 복수의 음성 명령 디바이스에 대한 방향성 정보를 대응되게 업데이트하는데 사용될 수 있다. 그 결과, 빔형성은 화자/청자의 현재 위치에 대해 항상 수행될 수 있다.
본 발명은 엔터테인먼트 시스템의 복수의 음성 명령 디바이스를 작동하기 위한 방법을 더 포함하는데, 각각의 음성 명령 디바이스는 프로세서 유닛, 트랜시버, 하나 이상의 마이크로폰 및 적어도 하나의 라우드스피커를 포함하되, 상기 방법은, 음성 명령 디바이스 중 적어도 하나의 하나 이상의 마이크로폰에 의해 오디오 신호를 캡쳐하는 단계와, 스피치 신호를 검출하기 위해, 음성 명령 디바이스 중 적어도 하나에서의 프로세서 유닛에 의해 캡쳐된 오디오 신호를 분석하는 단계와, 스피치 신호를 검출하면, 음성 명령 디바이스들 중 적어도 하나에서의 트랜시버를 사용하여 네트워크를 통해, 음성 명령 디바이스들 중 적어도 하나의 하나 이상의 마이크로폰에 대한 방향성 정보를 서비스형 소프트웨어(Saas) 제공자에게 전송하는 단계와, 및 음성 명령 디바이스들 중 적어도 하나의 트랜시버를 사용하여 네트워크를 통해, SaaS 제공자로부터 복수의 음성 명령 디바이스에 대한 방향성 정보를 수신하는 단계를 포함한다.
복수의 음성 명령 디바이스를 가진 시스템, 즉, 엔터테인먼트 시스템에 대하여 상기 기술된 바와 같은 등가적인 수정예와 확장예는 복수의 음성 명령 디바이스를 작동하기 위한 방법에도 적용될 수 있다. SaaS 제공자는 특히 클라우드 서비스 제공자일 수 있고, 음성 명령 디바이스의 트랜시버는, 인터넷과 같은 네트워크를 통해 SaaS 제공자와 데이터를 교환하도록 구성될 수 있다. 하나 이상의 마이크로폰의 각각은 음성 명령 디바이스 자체 및/또는 SaaS 제공자에 의해 더욱 프로세스될 수 있는 오디오 신호를 캡쳐한다. 캡쳐된 오디오 신호는 상기 자세히 기술된 바와 같이, 특히 스피치 신호 프로세싱을 받을 수 있다.
캡쳐된 오디오 신호에서 스피치 신호를 검출하는 단계는 음성 명령 디바이스 및/또는 SaaS 제공자 측에서 스피치 인식을 수행하는 단계를 포함할 수 있다. 또한, 적어도 두 명의 인간인 화자의 스피치 활동은 음성 인식을 사용하여 검출될 수 있다. 적어도 두 명의 인간인 화자의 스피치 신호를 검출하는 것은 복수의 마이크로폰에 대한 적어도 두 개의 상이한 스피커 및/또는 음성 명령 디바이스의 라우드스피커에 대한 빔형성을 수행하는데 사용될 수 있다. 스피치 신호를 검출하는 단계는 상기 기술된 바와 같이, 캡쳐된 오디오 신호에서, 적어도 하나의 라우드스피커에 의해 출력된 오디오 신호에 기초하여 신호를 차감하는 단계를 더 포함할 수 있다.
복수의 음성 명령 디바이스를 작동하기 위한 방법은, 음성 명령 디바이스의 라우드스피커에 의해 기준 신호를 출력하고, 기준 신호를 음성 명령 디바이스의 마이크로폰으로 캡쳐하는 것과 관련된, 스피치 신호의 검출 이전의 보정 단계를 더 포함할 수 있다. 보정 단계는 음성 명령 디바이스와 상호작용하는 SaaS 제공자에 의해 수행될 수 있다. 보정 단계는 음성 명령 디바이스의 공간적 분포 및/또는 음성 명령 디바이스가 위치된 방과 같은 음향 공간의 기하 형상에 대한 사용자 입력 정보와 더욱 관련될 수 있다. 보정 데이터는 하나 이상의 음성 명령 디바이스로 입력될 수 있고, 음성 명령 디바이스에 의해 SaaS 제공자로 출력될 수 있다.
아마도 사전 프로세스된 마이크로폰 신호로부터 스피치 신호를 검출하는 단계는, 특히, 스피치 신호의 신호대잡음 비율과 미리결정된 스레숄드를 비교하는 단계 및 신호대 잡음 비율이 상기 기술된 바와 같이 미리결정된 스레숄드보다 크면, 스피치 신호가 검출되는 것으로 결정하는 단계를 포함할 수 있다.
가령, 스피치 신호의 신호대잡음 비율과 미리결정된 제1 스레숄드의 비교의 양성 결과와 같은, 스피치 신호의 검출은 상기 기술된 바와 같이, 한 편에 있는 하나 이상의 음성 명령 디바이스와 다른 한 편에 있는 SaaS 제공자 사이의 방향성 정보의 교환을 트리거한다. 복수의 음성 명령 디바이스에 대한 방향성 정보 및 엔터테인먼트 시스템에 대해 상기 기술된 하나 이상의 마이크로폰에 대한 방향성 정보의 동일한 변형예는 엔터테인먼트 시스템을 작동하기 위한 방법에도 적용될 수 있다.
그러므로, 본 방법은, 하나 이상의 마이크로폰에 대한 전송된 방향성 정보에 기초하여, SaaS 제공자에 의해 복수의 음성 명령 디바이스들 중 적어도 하나를 활성화 음성 명령 디바이스로 선택하는 단계 및 상기 기술된 바와 같은 복수의 음성 명령 디바이스에 대해 방향성 정보 내의 대응되는 선택 정보를 포함시키는 단계를 특히 더 포함할 수 있다. 결과적으로, 음성 명령 디바이스의 서브그룹 또는 심지어 하나의 음성 명령 디바이스는 오디오 신호를 캡쳐하기 위해, SaaS 제공자에 의해 선택될 수 있다. 이처럼 선택된 음성 명령 디바이스를 활성화 음성 명령 디바이스라고 한다. SaaS 제공자에 의해 제공된 방향성 정보에 포함된 선택 정보에 따른 활성화 음성 명령 디바이스는, 스피커의 검출된 위치로부터 스피치 신호에 대해 캡쳐된 오디오 신호를 계속 모니터할 수 있고, SaaS 제공자에 의해 제공된 오디오 서비스에 대한 오디오 재생 디바이스로서 자동으로 선택될 수 있다.
대안적으로 또는 추가적으로, 활성화 디바이스로 선택되거나 아니거나, 모든 음성 명령 디바이스는 일반적으로 오디오 신호를 계속 캡쳐하고, 이를 분석하여 제2 사람 또는 가령, 상이한 방에 있거나 동일한 방에 있지만 방의 상이한 구석에 있는 일반적인 다른 사람으로부터의 스피치 신호를 검출할 수 있다. 이러한 경우에, 활성화 음성 명령 디바이스는 마이크로폰 및/또는 라우드스피커를 통해, 스피커의 검출된 위치에 대해 빔형성 프로세스에 참여하는 것을 특징으로 한다. 또한, 하나보다 많은 음성 명령 디바이스는 (서라운딩) 사운드 필드를 생성하는데 사용될 수 있는 반면, 동시에 오직 하나의 활성화 음성 명령 디바이스는 동일한 상황에서 충분할 수 있다.
여전히, 방에서 사람(들)의 현재 위치는 유효한 정보이고, 가령, 음성 신호를 픽업하기 위해 빔형성기의 조정 각도를 동적으로 수정하고, 및/또는 원하는 파장 필드를 변화하기 위해 필요하므로, 빔형성기는 이동하는 사람에 따라 이동한다. 이러한 타입의 특징에 대해, 하나 이상의 음성 명령 디바이스에 포함된 일종의 추적 디바이스는 상기 기술된 바와 같이 사용되어서, 특히 사운드 필드를 동적으로 변화/추적하는 것과 관련된 추적은 사람이 말하거나 않거나와 무관하게 작동할 수 있다. 이러한 추적 기능은 각각의 음성 명령 디바이스에 포함된 레이더 센서, 카메라로, 또는 설치된 마이크로폰과 스피커(트위터)를 음향 에코 상쇄 신호 프로세싱 블록과 조합하여 사용함에 의해 달성될 수 있다. 그러므로, 스피커의 위치의 변화는, 음성 명령 디바이스 자체 및/또는 SaaS 제공자가 사람(들)의 국부화 정보를 생성할 수 있는 동적으로 변화하는 실내 충격 응답(RIR)로 변환될 수 있다. 검출된 스피커의 위치가 추적 기능에 기초하여 특정 마진보다 많이 변화하면, 활성화 음성 명령 디바이스의 선택은 화자의 새로운 위치에 기초하여 각색될 수 있다. 따라서, 본 방법은 적어도 하나의 음성 명령 디바이스의 추적 유닛, 특히 레이더 센서 및/또는 카메라를 사용하여 검출된 스피커를 추적하는 단계를 더 포함할 수 있다.
또한, 본 방법은, 하나 이상의 마이크로폰에 대해 전달된 방향성 정보에 기초하여 SaaS 제공자에 의해 복수의 음성 명령 디바이스 중 적어도 하나의 마이크로폰을 활성화 마이크로폰으로 선택하는 단계 및 상기 기술된 바와 같이, 복수의 음성 명령 디바이스에 대한 방향성 정보 내에 대응되는 마이크로폰 선택 정보를 포함시키는 단계도 포함할 수 있다. 활성화 마이크로폰은 스피치 신호에 대해 캡쳐된 오디오 신호를 계속 모니터한다. 또한, 특정한 음성 명령 디바이스의 마이크로폰을 선택하는 단계는, 특히 대응되는 음성 명령 디바이스를 활성화 음성 명령 디바이스로 선택하는 단계를 포함할 수 있다. 선택된 마이크로폰에 의해 형성된 마이크로폰의 앙상블은 적어도 하나의 위치된 화자의 발언을 모니터하는데 사용되고, 선택적으로, 오디오 재생은 대응되는 음성 명령 디바이스의 적어도 하나의 라우드스피커를 사용하여 수행될 수 있다.
또한, 본 방법은 상기 기술된 바와 같이, 하나 이상의 마이크로폰에 대한 전송된 방향성 정보에 기초하여, SaaS 제공자에 의해 복수의 음성 명령 디바이스의 적어도 두 개의 마이크로폰에 대한 빔형성 정보를 결정하는 단계도 포함할 수 있다. 그리고 나서, 본 방법은 상기 기술된 바와 같이, 오디오 신호를 캡쳐할 때, 적어도 두 개의 마이크로폰의 빔형성을 수행하는 단계를 더 포함할 수 있고, 대응되는 프로세싱은 SaaS 제공자로부터 수신된 방향성 정보에 기초하여, 활성화 음성 명령 디바이스 측에 부분적으로 적용될 수 있다. 나머지 빔형성 단계는 SaaS 제공자 측에서 수행될 수 있다.
복수의 음성 명령 디바이스에 대한 방향성 정보는, 여러 개, 특히 엔터테인먼트 시스템의 음성 명령 디바이스 전부로부터 수신된 하나 이상의 마이크로폰에 대한 방향성 정보에 기초하여, SaaS 제공자에 의해 특히 결정될 수 있다.
본 방법은, 각각의 마이크로폰에 대한, 및/또는 대응되는 음성 명령 디바이스의 복수의 마이크로폰의 복수의 상이한 빔형성 방향에 대한 스피치 신호에 대한 음성 명령 디바이스의 적어도 하나의 프로세성 유닛에 의해 신호대잡음 비율을 계산하는 단계 및 계산된 SNR을, 대응되는 음성 명령 디바이스에 의해 SaaS 제공자로 전송된 하나 이상의 마이크로폰에 대한 방향성 정보에 포함시키는 단계를 더 포함할 수 있다. 엔터테인먼트 시스템에 대해 상기 기술된 바와 같이 동일한 변형예는 본 경우에 적용될 수 있다. 신호대잡음 비율의 계산에 대한 빔형성 방향의 개수 및/또는 분포는 특히, 미리결정될 수 있거나, 계산 결과에 의존하여 음성 명령 디바이스에 의해 적응적으로 결정되거나, SaaS 제공자에 의해 결정되고, 음성 명령 디바이스로 전송될 수 있다. 엔터테인먼트 시스템의 음성 명령 디바이스로부터 수신된 전송된 신호대잡음 비율로부터, SaaS 제공자는 활성화 음성 명령 디바이스를 선택하기 위한 상기 기술된 선택 정보, 마이크로폰 선택 정보 및/또는 엔터테인먼트 시스템에 대해 상기 기술된 바와 같은 적어도 두 개의 마이크로폰에 대한 빔형성 정보를 결정할 수 있다.
대안적으로, 본 방법은 캡쳐된 오디오 신호에 기초하여 음성 명령 디바이스들 중 저어도 하나의 프로세서 유닛에 의해 스피치 신호에 대한 도착 방향 정보를 추정하는 단계 및 알려진 소스 국부화 방법을 사용하여 상기 기술된 바와 같이, 하나 이상의 마이크로폰에 대한 방향성 정보 내에 추정된 DOA 정보를 포함시키는 단계를 포함할 수 있다. SaaS 제공자는 보고된 DOA 정보에 기초하여 활성화 음성 명령 디바이스의 마이크로폰에 대한 빔형성 정보를 계산하고, 이러한 정보를 복수의 음성 명령 디바이스에 대한 방향성 정보의 일부로서 활성화 음성 명령 디바이스로 다시 보고할 수 있다.
대안적으로, 본 방법은 하나 이상의 마이크로폰에 대한 방향성 정보 내에 캡쳐된 오디오 신호를 포함시키는 단계 및 상기 기술된 바와 같이, SaaS 제공자에 의해 적어도 두 개의 음성 명령 디바이스로부터 캡쳐된 오디오 신호에 기초하여, DOA 정보를 계산하는 단계를 포함할 수 있다. 계산된 DOA 정보는 복수의 음성 명령 디바이스에 대한 방향성 정보의 일부로서, SaaS 제공자에 의해 되돌아 올 수 있고, 수신된 방향성 정보는 적어도 두 개의 음성 명령 디바이스에 의해 사용되어서, 마이크로폰 빔을 DOA 정보에 의해 표시된 방향으로 조정하거나, 및/또는 스윗 스팟의 위치에서 최저의 사운드 필드로 오디오 재생을 수행할 수 있다.
본 방법은 SaaS 제공자로부터 적어도 하나의 오디오 신호를 포함하는 오디오 서비스를 수신하는 단계 및 복수의 음성 명령 디바이스에 대한 수신된 방향성 정보에 기초하여, 적어도 하나의 음성 명령 디바이스의 적어도 하나의 라우드스피커를 통해 오디오 신호를 출력하는 단계를 더 포함할 수 있다. 적어도 하나의 음성 명령 디바이스는 특히 활성화 음성 명령 디바이스일 수 있다. 다시 말해, 엔터테인먼트 시스템에 대해 상기 기술된 바와 같은 동일한 수정예와 확장예는 본 실시예에 적용될 수 있다. 오디오 신호는 상기 기술된 바와 같이, 단일-채널 또는 멀티-채널 오디오 신호일 수 있다. 송신된 오디오 신호는 각각의 활성화 음성 명령 디바이스 및/또는 활성화 음성 명령 디바이스의 각각의 라우드스피커에 대한 전용 오디오 신호 또는 오디오 채널을 특히 포함할 수 있다.
본 방법은 수신된 방향성 정보에 기초하여 적어도 하나의 음성 명령 디바이스의 프로세서 유닛에 의해 수신된 오디오 신호에 빔형성을 수행하는 단계 또는 SaaS 제공자에 의해 오디오 신호 내에 복수의 음성 명령 디바이스에 대한 방향성 정보를 인코딩하는 단계를 포함하여서, 출력 오디오 신호가 빔을 형성하도록 할 수 있다. 특히, 활성화 음성 명령 디바이스만 오디오 재생에 사용될 수 있다. 또한, 상기 기술된 바와 같이, 추가적인 음성 명령 디바이스는 오디오 재생에 사용될 수 있다. 활성화 음성 명령 디바이스는 수신된 오디오 신호 자체에 빔형성을 수행하거나, 이미 사전-프로세스된 오디오 신호를 출력하여서, 활성화 음성 명령 디바이스의 앙상블은 상기 기술된 바와 같이, 스피커의 방향으로 빔을 형성함에 의해, 스피커의 위치에서 원하는 사운드 필드를 생성하도록 할 수 있다.
본 방법은 SaaS 제공자에 의해 적어도 하나의 음성 명령 디바이스의 상이한 라우드스피커와 관련된 복수의 오디오 채널을 생성하고 전송하는 단계를 더 포함하여서, 엔터테인먼트 시스템에 관하여 상기 기술된 바와 같이 적어도 하나의 스피커의 위치에서, 스테레오 사운드, 서라운드 사운드, 가상 서라운드 사운드 또는 앰비소닉스 사운드를 제공할 수 있다. 원하는 사운드 필드를 생성하는데 사용되는 라우드스피커는 특히 상이한 음성 명령 디바이스에 속할 수 있다. SaaS 제공자는 가령, 좌측 오디오 채널과 우측 오디오 채널을 활성화 음성 명령 디바이스의 각각의 라우드스피커에 제공할 수 있는데, 오디오 채널은 청자의 위치에서 최적의 사운드 필드를 생성하기 위해 상기 기술된 빔형성을 사용하여 더욱 수정될 수 있다. SaaS 제공자는 복수의 오디오 채널을 활성화 음성 명령 디바이스의 라우드스피커로 라우팅할 수 있는데, SaaS 제공자는 복수의 음성 명령 디바이스로부터 수신된 복수의 마이크로폰에 대한 방향성 정보에 기초하여, 복수의 음성 명령 디바이스의 라우드스피커의 최적의 조합을 식별한다. 활성화 음성 명령 디바이스의 적절한 라우드스피커의 식별 이후에, SaaS 제공자는 각각의 식별된 라우드스피커로 별도의 오디오 채널을 전송할 수 있다.
SaaS 제공자는 상기 기술된 바와 같이, 오디소 서비스가 제공된 복수의 오디오 채널 내의 가상 서라운드 사운드 정보를 활성화 음성 명령 디바이스로 더욱 인코딩할 수 있다. 더구나, SaaS 제공자는, 음성 명령 디바이스로부터 수신된 하나 이상의 마이크로폰에 대한 방향성 정보에 기초하여, 앰비소닉스 사운드로서 오디오 신호의 출력을 위해, 음성 명령 디바이스, 특히 활성화 음성 명령 디바이스의 라우드스피커의 서브세트를 결정할 수 있다. 그리고 나서, SaaS 제공자는, 특히, 도착 방향 정보 및/또는 적어도 하나의 스피커의 검출된 위치를 고려하여, 앰비소닉스 사운드 필드에 대한 오디오 채널을 생성할 수 있다. 그리고 나서, 오디오 채널은, 각각의 오디오 채널을 각각의 활성화 라우드스피커로 맵핑하기 위한 맵핑 정보를 포함하는 개개의 오디오 채널 또는 멀티-채널 신호로서, SaaS 제공자에 의해 전송될 수 있다.
본 발명은 프로세서에 의해 수행될 때, 프로세서가 상기 기술된 임의의 실시예에 따른 방법을 수행하도록 하는 명령어를 가진 비일시적 컴퓨터 판독가능한 매체를 더 포함한다. 특히, 별도의 비일시적 컴퓨터 판독가능한 매체에는 각각의 음성 명령 디바이스와 SaaS 제공자가 제공될 수 있는데, 음성 명령 디바이스나 SaaS 제공자에 대해 대응되는 방법 단계를 수행하는데 요구되는 명령어가 저장된다. 대안적으로, 각각의 음성 명령 디바이스와 SaaS 제공자에 의해 접근될 수 있는 전용 컴퓨터 판독가능한 매체가, 특히 SaaS 제공자에 의해 제공되는 서비스의 일부로서 제공될 수 있는데, 음성 명령 디바이스 측에서 방법 단계를 수행하기 위해 필요한 명령어가 네트워크를 통해 음성 명령 디바이스에 의해 SaaS 제공자로부터 다운로드된다. 엔터테인먼트 시스템에 대해 상기 기술된 바와 같은 동일한 수정예와 확장예도 본 실시예에 따른 비일시적 컴퓨터 판독가능한 매체에 적용될 수 있다.
상기 기술된 바와 같은 방법을 수행하기 위해 프로세서를 제어하기 위한 명령어나 소프트웨어는, 컴퓨터 프로그램, 코드 세그먼트, 명령어 또는 이들의 조합물로서 라이트될 수 있어서, 개별적으로 또는 집합적으로 프로세러를 명령하거나 구성하여서, 상기 기술된 바와 같은 방법의 동작을 수행하도록 머신 또는 특수 목적의 컴퓨터로서 작동시킬 수 있다. 하나의 예시에서, 명령어 또는 소프트웨어는 컴파일러에 의해 생성된 머신 코드와 같이, 프로세서에 의해 직접 실행되는 머신 코드를 포함할 수 있다. 또 다른 예시에서, 명령어 또는 소프트웨어는 해석기를 사용하여 프로세서에 의해 실행되는 더 높은 레벨 코드를 포함할 수 있다. 기술 분야의 당업자의 프로그래머는 본원에서 제공된 방법의 묘사에 기초하여 명령어나 소프트웨어를 용이하게 라이트할 수 있다.
기술된 발명적인 방법과 시스템은 스피치 신호는 물론 스피커에 대한 오디오 재생을 캡쳐하는 것에 관하여, 가장 적절한 음성 명령 디바이스의 자동 선택을 허용한다. SaaS 제공자가 개개의 음성 명령 디바이스로부터 이러한 선택을 위해 필요한 모든 정보를 수집하기 때문에, 효율적이고 최적화된 선택 프로세스가 특히 SaaS 제공자에 의해 일반적으로 제공된 확장된 컴퓨팅 자원을 사용하여 수행될 수 있다. 대부분의 프로세싱이 SaaS 제공자에 의해 다루어지므로, 음성 명령 디바이스는 연산 능력에 관하여 간단화될 수 있어서, 발명적인 엔터테인먼트 시스템의 보급이 촉진될 수 있다.
여러 음성 명령 디바이스로부터 수집죈 스피커의 위치에 대한 정보를 결합하는 것은, 스피터의 위치의 방향으로 여러 음성 명령 디바이스의 마이크로폰의 매우 정확하고 실시간 빔형성을 허용하고, 동시에, 복수의 음성 명령 디바이스에 의한 고품질 오디오 재생을 제공하는 것을 허용한다. 여기서, 출력 오디오 신호를 빔형성하기 위해 필요한 오디오 신호 및/또는 고차원의 사운드 필드를 위해 필요한 오디오 채널은, 음성 명령 디바이스의 상대적 공간 위치와 스피커의 위치ㅡㄹ 고려하여, SaaS 제공자 측에서 생성될 수 있다.
본 발명의 추가적인 특징과 예시적인 실시예와 장점은 도면과 관련하여 상세히 설명될 것이다. 본 발명은 이하의 실시예의 설명에 의해 제한되도록 해석되어서는 아니된다는 것을 이해해야 한다. 더구나 이하에서 기술된 특징들의 일부나 전부는 대안적인 방법으로 결합될 수 있다는 것도 이해해야 한다.
도 1은 클라우드 서비스 제공자와 상호작용하는, 본 발명에 따른 예시적인 엔터테인먼트 시스템을 도시한다.
도 2는 본 발명에 따른 음성 명령 디바이스의 개략도를 도시한다.
도 3은 원통형을 가진 본 발명에 따른 음성 명령 디바이스를 도시한다.
도 4는 반구 형상의 본 발명에 따른 음성 명령 디바이스를 도시한다.
도 5는 본 발명에 따른 구형 음성 명령 디바이스를 도시한다.
도 6은 사용자의 집에서, 본 발명에 따른 엔터테인먼트 시스템의 예시적인 설치의 개략도를 도시한다.
도 7은 기술 분야에 따른 오디오 재생을 위한 예시적인 빔형성기의 개략도를 도시한다.
도 8은 본 발명에 따른 엔터테인먼트 시스템을 작동하는 방법의 예시적인 프로세스 흐름을 도시한다.
도 9는 본 발명에 따른 엔터테인먼트 시스템을 사용하여 오디오 재생을 위한 예시적인 프로세스 흐름을 도시한다.
도 10은 기술 분야에 따른 마이크로폰 빔형성을 위한 예시적인 빔형성기의 개략도를 도시한다.
도 1은 클라우드 서비스 제공자와 상호작용하는, 본 발명에 따른 예시적인 엔터테인먼트 시스템을 도시한다.
도 2는 본 발명에 따른 음성 명령 디바이스의 개략도를 도시한다.
도 3은 원통형을 가진 본 발명에 따른 음성 명령 디바이스를 도시한다.
도 4는 반구 형상의 본 발명에 따른 음성 명령 디바이스를 도시한다.
도 5는 본 발명에 따른 구형 음성 명령 디바이스를 도시한다.
도 6은 사용자의 집에서, 본 발명에 따른 엔터테인먼트 시스템의 예시적인 설치의 개략도를 도시한다.
도 7은 기술 분야에 따른 오디오 재생을 위한 예시적인 빔형성기의 개략도를 도시한다.
도 8은 본 발명에 따른 엔터테인먼트 시스템을 작동하는 방법의 예시적인 프로세스 흐름을 도시한다.
도 9는 본 발명에 따른 엔터테인먼트 시스템을 사용하여 오디오 재생을 위한 예시적인 프로세스 흐름을 도시한다.
도 10은 기술 분야에 따른 마이크로폰 빔형성을 위한 예시적인 빔형성기의 개략도를 도시한다.
도 1은 클라우드 서비스 제공자 또는 SaaS 제공자와 상호작용하는 본 발명에 따른 예시적인 엔터테인먼트 시스템을 도시한다. 개략도는 3개의 음성 명령 디바이스(101 내지 103)를 포함하는 엔터테인먼트 시스템(100)의 설명적인 예시를 도시한다. 음성 명령 디바이스(101 내지 103)는 도 6에 도시된 연속적인 방들과 같은 음향 공간(미도시)의 상이한 공간 위치로 배열된다. 음성 명령 디바이스들과 음향 공간 내부에 존재하는 사용자(110)에 대한 이들의 공간적 관계는 설명만을 위하여 선택되고, 본 개시물의 범위를 제한하는 것이 아니다. 또한, 하나보다 많은 사용자가 음향 공간 내부에 있을 수 있다.
도 1에 도시된 사용자(110)는 화자와 청자를 나타낸다. 사용자(110)와 음성 명령 디바이스(101 내지 103), 좀 더 구체적으로 음성 명령 디바이스의 마이크로폰과 라우드스피커 사이의 음향 경로는, 사용자(110)에 의해 발언된 스피치 신호를 나타내는 음파 또는 음성 명령 디바이스의 라우드스피커에 의해 출력된 오디오 신호가 이동하는 점선(101a 내지 103a)에 의해 표시된다. 그러므로, 점선은, 사용자(110)에 의해 발산된 스피치 신호에 기초하여 개개의 음성 명령 디바이스에 의해 검출될 수 있는 바와 같은, 도착 방향 정보를 나타낸다. 상기 자세히 기술되는 바와 같이, 각각의 음성 명령 디바이스(101 내지 103)는 하나 이상의 마이크로폰을 사용하여 음향 공간 내부의 오디오 신호를 캡쳐하고, SaaS 제공자에 의해 제공된 오디오 신호의 재생 하기 위한 오디오 재생 능력을 제공하도록 구성된다.
이를 위해, 각각의 음성 명령 디바이스(101 내지 103)는 원격 디바이스(120)에 연결되고, 이는 게이트웨이, 홈 에이젼트, 홈 네트워크에 설치된 라우터 또는 실선(101b 내지 103b)로 표시된 바와 같이 홈 네트워크와 같은 로컬 영역 네트워크를 인터넷(130)에 연결하기 위한 임의의 다른 디바이스일 수 있다. 음성 명령 디바이스와 원격 디바이스(120) 간의 연결은 가령, WiFi 또는 블루투스와 같은 대응되는 무선 트랜시버를 사용하는 무선일 수 있고, 또는 이더넷, USB 연결, HDMI 연결 또는 기술 분야에서 알려진 임의의 다른 유선 연결과 같은 케이블을 통할 수 있다. 음성 명령 디바이스(101 내지 103) 및 원격 디바이스(120) 모두는 대응되는 네트워크 능력, 즉, 트랜시버, 인코더/디코더 암호화 유닛 또는 기술 분야에 알려진 임의의 다른 네트워크 유닛을 포함할 수 있다. 게이트웨이로서 원격 디바이스(120)를 사용하기 위한 대안예로서, 각각의 음성 명령 디바이스(101 내지 103)는 인터넷(130)에 직접 연결을 위해 트랜시버가 구비될 수 있고, 즉, 모바일 통신 네트워크에 직접 연결을 위한 트랜시버가 구비될 수 있다.
음성 명령 디바이스(101 내지 103)는 원격 디바이스(120)를 통하거나 직접 인터넷(130)에 의해 데이터와 제어 신호를 SaaS 제공자나 클라우드 서비스 디바이스(140)와 교환한다. 도 1의 개략도는 기술 분야에 알려진 임의의 연결 모델에 따라, 특히 이들은 더 클라우드에 대해 사용되는 바와 같이, 인터넷(130)에 연결되는 하나의 SaaS 제공자(140)를 도시한다. 그러나, 본 발명은 이러한 컨피규레이션에 제한되지 않고, 임의의 수의 SaaS 제공자가 인터넷(130)에 연결될 수 있고, 데이터와 제어 신호를 홈 엔터테인먼트 시스템(100)과 교환하도록 구성될 수 있다. 또한, 음성 명령 디바이스(101 내지 103)는 사용자의 집 대신에, 자동차의 캐빈과 같은 자동차 환경 내에 제공될 수 있다.
SaaS 제공자(140)는, 음악의 재생, 오디오북, 전화 연결, 비디오의 오디오 트랙, 오디오 콘텐트의 디지털 방송 또는 임의의 다른 오디오 서비스와 같은 오디오 서비스를 홈 엔터테인먼트 시스템(100)으로 제공하도록 구성될 수 있다. 오디오 서비스는 지불가능한 오디오 서비스를 특히 포함할 수 있는데, SaaS 제공자로 홈 엔터테인먼트 시스템(100)의 인증이 기술 분야에서 알려진 임의의 프로토콜에 따라 협상될 수 있다. 또한, 홈 엔터테인먼트 시스템(100)과 SaaS 제공자(140) 간의 데이터 교환은 보안과 사생활을 위해 암호화될 수 있다. 암호화는 음성 명령 디바이스 및/또는 원격 디바이스(120)에 의해 수행될 수 있다.
도 1에 도시된 설명적인 예시에 따르면, 인터넷(130)은 일차 서비스 제공자(140)에 연결될 수 있고, 이는 결국 하나 이상의 이차 서비스 제공자(141, 142 및 143)에 연결된다. 이차 서비스 제공자 중에서, 일부 서비스 제공자(141 및 143)는 오디오 콘텐트를 위한 주로 데이터베이스로서의 역할을 할 수 있는데 반해, 다른 서비스 제공자(140 및 142)는 인터넷(130)으로부터 수신된 데이터를 프로세싱하기 위한 컴퓨팅 자원을 제공할 수 있다. 본 발명에 따르면, SaaS 제공자(140)는 엔터테인먼트 시스템(100)의 복수의 음성 명령 디바이스로부터 수신된 방향성 정보 및/또는 캡쳐된 오디오 신호를 특히 프로세스하여서, 상기 기술된 바와 같이 복수의 음성 명령 디바이스에 대한 방향성 정보를 결정하고, 및/또는 적어도 하나의 스피커(110)의 위치에서 최적화된 사운드 필드를 특징화하는 오디오 서비스를 제공할 수 있다. 또한, 클라우드 서비스 제공자(140 및 142)는 특히 이들 제공자에 의해 제공된 오디오 서비스에 대해 데이터베이스를 제공할 수도 있다. 클라우드 서비스 제공자, 즉, SaaS 제공자의 구조와 기능은 기술 분야에서 잘 알려져 있어서, 상세한 설명은 간결성을 위해 본원에서 생략된다.
본 발명에 따르면, SaaS 제공자는 엔터테인먼트 시스템(100), 좀 더 구체적으로 복수의 음성 명령 디바이스(101 내지 103)와 상호작용하여서, 사용자(110)에 의해, 특히 스피커(110)의 방향으로 음성 명령 디바이스(101 내지 103)의 마이크로폰의 집합적 빔 조정에 의해 발산된 스피치 신호의 캡쳐를 최적화한다. SaaS 제공자는 사용자(110)에 의해 발언된 스피치에 기초하여, 음성 명령 디바이스와 협업하여 스피커(110)를 찾는다. 스피커의 검출된 위치에 기초하여, SaaS 제공자(140)는 요청된 오디오 서비스의 일부로서, 엔터테인먼트 시스템(100)으로 전송된 오디오 신호를 더욱 생성하거나 수정하여서, 복수의 음성 명령 디바이스의 라우드스피커에 의해 발산된 오디오 신호가 청자(110)의 위치에서 고품질 사운드 필드를 생성할 수 있도록 한다.
기술 분야에서 알려진 바와 같이, 각각의 음성 명령 디바이스(101 내지 103)는 "알렉사"와 같이, 사용자(110)에 의해 말해지는 키워드 또는 키어구에 의해 활성화되도록 구성될 수 있다. 그러므로, 음성 명령 디바이스는 스피치 신호에 대한 음향 공간을 지속적으로 모니터링할 수 있다. 검출된 키워드 또는 키어구의 결과, 각각의 음성 명령 디바이스는 검출된 스피치 신호를 분석하거나 스피치 신호를 분석을 위해 SaaS 제공자(140)로 전송할 수 있다. 대안적인 컨피규레이션에서, 음성 명령 디바이스(101 내지 103)는 스피치 신호를 분석하지 않으면서, 임의의 검출된 스피치 신호를 직접 SaaS 제공자(140)로 전송하도록 구성될 수 있다. 키워드 또는 키어구에 의해 트리거된 바와 같이, 스피치 신호의 분석은 "알렉사, 음악 재생해줘"와 같은 오디오 서비스에 대한 요청을 생산할 수 있다. 요청된 오디오 서비스를 수행하기 위해 필요한 추가적인 세부사항은, 특히 SaaS 제공자(140)에 의해 전송된 대응되는 질문에 응답하여 엔터테인먼트 시스템(100)으로 추가적인 스피치를 통해 제공될 수 있다.
음성 명령 디바이스(250)의 예시적인 실시예가 도 2에 도시된다. 도 2에 도시된 비제한적인 예시에 따르면, 음성 명령 디바이스(250)는 가령, 원통형 외벽(256)을 가짐에 의해, 원형 단면을 가질 수 있다. 벽(256)의 외주를 따라, 복수의 마이크로폰(252a-d)이 음성 명령 디바이스(250)가 위치된 음향 공간 내에 있는 오디오 신호를 캡쳐하기 위해 배열된다. 또한, 복수의 라우드스피커(251a-d)는 벽(256)의 외주를 따라 배열된다. 도 2의 예시에서, 마이크로폰과 라우드스피커는 외주를 따라 교대로 배열된다. 그러나, 본 발명은, 각각의 음성 명령 디바이스가 복수의 마이크로폰 및 적어도 하나의 라우드스피커를 가지는 한, 마이크로폰과 라우드스피커의 임의의 특정 배열을 제한하지 않는다.
예시로서, 라우드스피커(351a-c)는 도 3의 측면도에서 볼 수 있는 바와 같이, 음성 명령 디바이스(350)의 원통벽(356)의 외주 주위에 마이크로폰(352a-c) 아래에 배열될 수 있다. 또한, 마이크로폰과 라우드스피커의 개수는 가변할 수 있고 특히 상이할 수 있다. 음성 명령 디바이스에 대한 마이크로폰과 라우드스피커의 더 많은 수의 대안적인 배열은 본 개시물에 포함된다. 음성 명령 디바이스(250 및 350)는 마이크로폰과 라우드스피커에 대해 360°로 디바이스에 제공된다. 이는, 마이크로폰과 라우드스피커의 방위각 범위가 각각 전체 원을 커버한다. 다른 배열, 즉, 원의 세그먼트만 커버하는 것도 특히, 대응되는 음성 명령 디바이스가 벽에 대하여 인접하거나 방의 구석에 있다면, 사용될 수 있다. 이상적으로, 음향 공간 내의 복수의 음성 명령 디바이스의 배열은, 화자/청자의 임의의 가능한 위치가 적어도 두 개의 음성 명령 디바이스의 임의의 가능한 위치로부터의 음향 파에 의해 도달될 수 있도록 한다. 그러나, 본 개시물은 이러한 상황으로 제한되지 않는다.
도 2에 개략적으로 도시된 바와 같이, 각각의 마이크로폰(252a-d)과 각각의 라우드스피커(251a-d)는 프로세서 유닛(255)에 연결된다. 상기에 상세히 기술되는 바와 같이, 이러한 프로세서 유닛은 CPU 또는 GPU일 수 있고, 및/도는 전용 디지털 신호 프로세러를 포함할 수 있다. 대안적으로, 도 2에 도시된 바와 같이, 캡쳐된 오디오 신호는 물론, SaaS 제공자에 의해 제공된 오디오 서비스의 일부인 수신된 오디오 신호를 프로세싱하기 위한 DSP(254)는 별도로 제공될 수 있다. 아마존의 에코와 같이 음성 명령 디바이스에 대해 알려진 많은 수의 추가적인 유닛은 본 발명의 음성 명령 디바이스의 일부일 수 있다. 이들 중에서, 추가적인 프로세서 유닛, 휘발성 및 비휘발성 메모리 유닛, 저장 유닛, FET/IFET 유닛, 매트릭싱 유닛, 증폭기, A/D 컨버터와 D/A 컨버터 등이 언급될 수 있다.
도 2의 예시적인 실시예는 원격 디바이스(120) 및/또는 모바일 통신 네트워크와 통신하기 위한 무선 트랜시버(253)을 더욱 나타낸다. 유선과 무선의 트랜시버가 기술 분야에 잘 알려져 있으므로, 상세한 설명은 본원에서 생략된다. 상기 기술된 바와 같이, 마이크로폰(252a-d)은 전방향 마이크로폰 또는 방향성 마이크로폰일 수 있고, 라우드스피커(251a-d)는 브로드밴드, 중간범위, 트위터, 우퍼, 서브우퍼 등과 같은 임의의 알려진 라우드스피커일 수 있다. 라우드스피커(251a-d)의 어레이는 특정 타입의 라우드스피커의 서브그룹을 더 포함할 수 있는데, 이들 자체는 디바이스 하우징(256)의 외주를 따라 배열될 수 있다.
음성 명령 디바이스(450)의 폼 팩터의 추가적인 변형예는 도 4에 측면도로 도시된다. 본 실시예에서, 라우드스피커(451a-d)의 어레이는 음성 명령 디바이스(450)의 강성 반구(456)의 표면 내에 또는 표면 상에 장착된다. 라우드스피커는 반구(456)의 표면 위에 일정하게 또는 준일정하게 분포될 수 있다. 반구(456)는 돔형상의 표면을 가지고, 다른 부분은 평면 표면을 가진다. 라우드스피커의 어레이는 돔형상의 표면 내에 또는 표면 상에 장착되는데, 라우드스피커(451a-c)는 평면 표면에 가까이 배열될 수 있고, 라우드스피커(451d)는 평면 표면에 가장 멀리, 가령, 반구(456)의 극에 배열될 수 있다. 음성 명령 디바이스(450)는 방의 마루에 안착되거나 벽이나 방 또는 그 평면 표면을 가진 자동차 캐빈의 천장에 장착될 수 있다. 라우드스피커(451a-d)에 더하여, 도 4에 도시된 실시예에 따른 음성 명령 디바이스(450)는 복수의 마이크로폰(452a-b)을 가지는데, 이는 반구의 원형 단면을 따르는 평면 표면 근처에 배열될 수 있다.
마이크로폰의 배열이 스피치 신호를 캡쳐하기 위해 360°방위각 범위를 커버하고, 라우드스피커(451a-d)의 3차원 배열은 가령, 앰비소닉스 오디오 채널을 사용하여, 3차원 사운드 필드의 오디오 재생을 가능하게 한다. 상기에서 상세히 기술되는 바와 같이, SaaS 제공자는 전용 오디오 채널을 오디오 서비스의 일부로서의 음성 명령 디바이스의 각각의 라우드스피커(451a-d)로 전송할 수 있어서, 원하는 앰비소닉스 사운드 필드가 스피커(110)의 위치에서 생성될 수 있다.
본 발명에 따른 음성 명령 디바이스(550)의 또 다른 예시적 실시예는 도 5에 도시된다. 본 실시예에 따르면, 3차원 마이크로폰 어레이(552a-c)는 구(556)에 걸쳐 배열되는데, 마이크로폰은 구(556)의 표면에 걸쳐 일정하게 분포될 수 있다. 마이크로폰(552a-c)에 오프셋되면서, 복수의 라우드스피커(551a-c)는 구(556)의 표면 상에 또는 표면 내에 장착된다. 라우드스피커의 배열은, 라우드스피커가 장착 요소의 위치에 제공되지 않는 것을 제외하고 일정할 수 있다. 구형 음성 명령 디바이스(550)는 3차원 음향 공간의 거의 전체 범위, 즉, 4π를 커버한다. 복수의 구형 음성 명령 디바이스(550)를 사용하여, 앰비소닉스 사운드 필드와 같은 고차원의 파장 필드가 청자의 위치에서 생성될 수 있다.
복수의 음성 명령 디바이스가 도 2 내지 5에 예시적으로 도시된 실시예에 따른 음성 명령 디바이스의 혼합 및/또는 그룹도 포함할 수 있다는 것이 이해된다. 일반적으로, 각각의 음성 명령 디바이스의 마이크로폰과 라우드스피커의 상대적인 공간 배열은 고정되고 잘 정의된다. 대응되는 정보는 음성 명령 디바이스의 프로세서 유닛에 잘 알려져 있고, 특히 음성 명령 디바이스의 메모리 유닛에 저장되고, 하나 이상의 마이크로폰에 대한 상기 기술된 방향성 정보와 함께, 또는 별도의 셋업이나 초기화 절차에서 SaaS 제공자에게 전송될 수 있다. 이러한 셋업이나 초기화 절차의 일부로서, 음향 공간 내의 복수의 음성 명령 디바이스의 상대적인 공간 배열은 사용자에 의해 입력되거나 상기 기술된 바와 같은 기준 신호를 사용하여 결정될 수 있고 SaaS 제공자에게 전송될 수 있다. 마이크로폰과 라우드스피커의 상대적인 공간 배열은 물론 음성 명령 디바이스의 상대적인 공간 배열에 대한 정보는 음성 명령 디바이스 및/또는 SaaS 제공자에 의해 사용되어서, 상기 기술된 바와 같이 빔형성을 수행하기 위해 출력될 수신된 마이크로폰 신호 또는 오디오 신호에 대한 변환을 수행할 수 있다.
도 6은 본 발명에 따른 사용자의 집 내의 엔터테인먼트 시스템의 예시적인 설치의 개략도를 도시한다. 도 6에 도시된 음성 명령 디바이스의 개수와 상대적 배열은 오직 설명을 위해 선택된다는 것을 이해해야 한다. 사용자의 집의 간단화된 도면은 도 6에 도시되는데, 이는 주방 영역(671)으로 이어지는 문(677)을 가지고, 주방 영역은 벽(676)에 의해 거실 영역(672)으로부터 분리된다. 주방의 카운터(678)는 주방 영역(671) 내에 개략적으로 도시된다. 도 6에 도시된 연속적인 방들은 식탁 영역(673)을 더 포함하는데, 6개의 의자를 포함하는 테이블(674)이 개략적으로 도시된다. 더구나, TV 세트(670)와 소파(675)가 거실 영역(672)에 제공된다. 마지막으로, 창문(679 및 680)이 사용자의 집의 벽에 도시된다.
전체 6개의 음성 명령 디바이스(650a-f)는 도시된 예시에서 연속적인 방들에 걸쳐 분포된다. 각각의 음성 명령 디바이스는 장착 요건은 물론 스타일 고려사항에 따라, 상기 기술된 폼 팩터들 중 하에 따라 제공될 수 있다. 예를 들어, 음성 명령 디바이스(650a-c 및 650f)는 방의 마루 상에 원통형으로 제공될 수 있는 반면, 음성 명령 디바이스(650e)는 주방 카운터 상에 반구로서 제공될 수 있고, 음성 명령 디바이스(650d)는 방의 천장으로부터 매달린 구형 음성 명령 디바이스로 제공될 수 있다. 도 6에 따른 음성 명령 디바이스(650a-f)의 예시적인 배열은 연속적인 방들의 내부의 임의의 점이 두 개의 음성 명령 디바이스로부터 적어도 발산되는 음파에 접근가능하게 된다.
사용자의 두 개의 예시적인 위치는 본 발명을 증명하기 위해 도면에 도시된다. 사용자(610a)가 아마도 TV 세트(670)에 비디오를 보면서 소파(675)에 앉아 있는 동안, 사용자(610b)는 주방 영역(671)에 서 있다. 결과적으로, 사용자(610a)에 의해 발언된 스피치 신호는 음성 명령 디바이스(650a-d)에 의해 용이하게 캡쳐될 수 있는 반면, 음성 명령 디바이스(650f)는 충분히 높은 신호대잡음 비율로 사용자(610a)로부터의 스피치를 캡쳐하기에 화자(610a)로부터 너무 멀리 있고, 및/또는 테이블(674)에 의해 가려져 있다. 음성 명령 디바이스(650e)는 벽(676)에 의해 화자(610a)로부터 분리되어서, 음파가 음성 명령 디바이스(650e)와 사용자(610a) 사이에서 이동할 수 없다. 마찬가지로, 사용자(610b)에 의해 발산된 스피치 신호는 너무 멀리 있어서 음성 명령 디바이스(650c)에 의해 신뢰성 있게 검출될 수 없고, 벽(676)에 의해 사용자(610b)로부터 분리된 음성 명령 디바이스(650a 및 650b)에 의해 신뢰서 있게 검출될 수 없다. 결과적으로, 오직 음성 명령 디바이스(650d-f)만 충분한 신호대잡음 비율로 사용자(610b)로부터 스피치 신호를 캡쳐할 수 있다.
유사한 고려사항이 음성 명령 디바이스를 통해 오디오 서비스의 재생에 적용된다. 특히, 음성 명령 디바이스(650a-d)는 청자(610a)의 위치에서 오디오 재생에 사용될 수 있는 반면, 음성 명령 디바이스(650d-f)는 청자(610b)의 위치에서 오디오 재생에 사용될 수 있다. 빔 조정을 통해 및/또는 서라운드 사운드나 앰비소닉스 효과를 사용하여, 오디오 신호의 상기 기술된 지향된 발산의 결과로서, 거의 완벽하게 분리된 사운드 필드가 사용자들(610a 및 610b)의 위치에서 생성될 수 있다. 사실, 하나의 음성 명령 디바이스(650d)는 오디오 재생 동안에, 전용 라우드스피커 및/또는 오디오 채널의 사용을 통해, 사용자(610a 및 610b)의 위치에서 사운드 필드에 동시에 기여하는데 사용될 수 있다. 상기 기술된 바와 같이, SaaS 제공자는 복수의 음성 명령 디바이스의 마이크로폰에 대한 방향성 정보를 사용하여, 화자(610a 및 610b)를 찾고, 오디오 재생을 위해 적절한 위치에 있는 각각의 음성 명령 디바이스 및/또는 각각의 청자의 위치에서 원하는 사운드 필드를 생성하는데 사용될 수 있는 이러한 음성 명령 디바이스의 각각의 라우드스피커에 대한 전용 오디오 신호 및/또는 오디오 채널을 생성할 수 있다.
제한 없이, 추가적인 라우드스피커(661-664)가 음성 명령 디바이스로부터 분리되어 음향 공간 내에 구비될 수 있는데, 이는 음성 명령 디바이스에 의한 오디오 재생 동안에 추가적으로 사용될 수 있다. 이를 위해, 라우드스피커(661 내지 664)는 음성 명령 디바이스들 중 적어도 하나에 무선 또는 케이블을 통해 연결될 수 있고, 이들의 상대적 위치는 측정 및/또는 검출에 의해 결정될 수 있으며, 음성 명령 디바이스의 메모리에 저장될 수 있고, 또한 복수의 음성 명령 디바이스의 마이크로폰에 의해 상기 기술된 보정 절차를 사용하여 결정될 수 있다. 예를 들어, 테스트 신호는 개개의 라우드스피커에 의해 출력되고 음성 명령 디바이스의 마이크로폰에 의해 캡쳐될 수 있어서, 대응되는 라우드스피커의 위치를 결정할 수 있다. 도 6에 도시된 비제한적인 예시는 좌측-채널 라우드스피커(661), 우측-채널 라우드스피커(663), 중앙 라우드스피커(662) 및 사용자의 집에 설치된 오디오 시스템의 일부로서 서브우퍼(664)를 도시한다.
대응되는 음성 명령 디바이스의 마이크로폰의 빔 조정을 통해, 발언된 명령은 분리된 사용자들(610a 및 610b)로부터 신뢰성 있게 검출되고 캡쳐될 수 있다. 더구나, 고차 사운드 효과를 포함하는 완전히 분리된 사운드 필드는 청자(610a 및 610b)의 스윗 스팟에서 생성될 수 있다. 마지막으로, 도 6은 무선 라우터와 같은 원격 디바이스(620)를 도시하는데, 이는 각각의 음성 명령 디바이스(650a-f) 및 인터넷과 통신한다.
도 7은 기술 분야에 다른 오디오 재생을 위한 예시적인 빔형성기의 개략도를 도시한다. 도시된 빔형성기 또는 임의의 다른 알려진 빔형성기는 본 발명에 따른 음성 명령 디바이스의 라우드스피커의 어레이와 사용될 수 있다. 도 7에 도시된 빔형성기 모듈은 Q 라우드스피커(751) 또는 라우드스피커의 Q 그룹을 가진 라우드스피커 어셈블리를 제어하는데, 각각은 N 입력 신호(722)에 의존하여, 트위터, 중간-주파수 범위 라우드스피커 및/또는 우퍼와 같은 다중 라우드스피커를 가진다. 빔형성 모듈은 모달 가중화 서브모듈(724), 동적인 파장 필드 조작 서브모듈(728), 정규화 서브모듈(734) 및 매트릭싱 서브모듈(738)을 더 포함할 수 있다. 모달 가중화 서브모듈(724)에 입력 신호(722)[x(n)]가 공급되고, 이는 필터 계수로 가중화되어서, 원하는 빔 패턴, 즉, N 개의 구면 조화()에 기초하여 방사선 패턴()을 제공하여서, N 개의 가중화된 앰비소닉스 신호(726)를 전달한다. 가중화된 앰비소닉스 신호(726)는 원하는 빔 패턴()을 원하는 위치()로 회전하기 위해, 가중화 계수를 사용하여 동적인 파장 필드 조작 서브모듈(728)에 의해 변환된다. 그러므로, N 번 수정된, 가령, 회전되고, 초점되고 및/또는 가중화된 앰비소닉스 신호(732)가 동적인 파장 필드 조작 서브모듈(728)에 의해 출력된다.
그리고 나서, N 번 수정되고 가중화된 앰비소닉스 신호(732)는, 신호에 대해 특히 화이트 잡음에 대해 추가적인 필터링을 수행하는 정규화 서브모듈(734)로 입력된다. 그리고 나서, 정규화 서브모듈(734)의 결과로 나온 신호(736)는, Q 라우드스피커 신호(739)[y_1(n),…,y_Q(n)] 내로 NxQ 가중화 매트릭스를 사용하여, 매트릭싱 서브모듈(738)에 의해 변환된다. 대안적으로, Q 라우드스피커 신호(739)는, NxQ 필터 매트릭스를 사용하는 복수-입력 복수-출력 서브모듈에 의해 N번 정규화되고, 수정되고 가중화된 앰비소닉스 신호(736)로부터 생성될 수 있다. 도 7에 도시된 빔형성 모듈은 임의의 음성 명령 디바이스로 사용되어서, 고차 앰비소닉스를 사용하여 청자의 위치에서 2차원 또는 3차원 사운드 필드를 생성할 수 있다.
도 8은 본 발명에 따른 엔터테인먼트 시스템을 작동하는 방법을 위한 예시적인 프로세스 흐름을 도시한다. 단계(888)에서, 오디오 신호는 하나 이상의 음성 명령 디바이스의 하나 이상의 마이크로폰에 의해 캡쳐된다. 캡쳐된 오디오 신호는 단계(889)에서 대응되는 음성 명령 디바이스의 프로세서 유닛에 의해 분석되어서 스피치 신호를 검출한다. 캡쳐된 마이크로폰 신호로부터 스피치 신호가 검출될 수 없다면, 프로세스 흐름은 단계(888)로 되돌아 간다. 스피치 신호가 캡쳐된 마이크로폰 신호에서 검출되면, 신호대잡음 비율은 상기 기술된 바와 같이, 단계(890)에서 대응되는 음성 명령 디바이스의 복수의 마이크로폰의 복수의 상이한 빔형성 방향에 대해 및/또는 각각의 마이크로폰에 대한 스피치 신호에 대해 계산될 수 있다. 대안적으로, 도착 방향 정보는, 단계(890)에서 캡쳐된 오디오 신호에 기초하여 각각의 음성 명령 디바이스의 프로세서 유닛에 의해 스피치 신호에 대해 추정될 수 있다.
결과로 나온 신호대잡음 비율 또는 DOA 정보는 단계(891)에서 하나 이상의 음성 명령 디바이스에 의해 SaaS 제공자로 전송된 하나 이상의 마이크로폰에 대한 방향성 정보에 포함될 수 있다. 하나 이상의 마이크로폰에 대해 수신된 방향성 정보로부터, SaaS 제공자는 단계(892)에서 복수의 음성 명령 디바이스 중 적어도 하나를 활성화 음성 명령 디바이스로 선택할 수 있다. 대안적으로 또는 추가적으로, SaaS 제공자는 단계(892)에서, 복수의 음성 명령 디바이스의 적어도 하나의 마이크로폰을 활성화 마이크로폰으로 선택할 수 있다. 더구나, 추가적으로 또는 대안적으로, 복수의 음성 명령 디바이스의 적어도 두 개의 마이크로폰에 대한 빔형성 정보는 단계(892)에서 SaaS 제공자에 의해 결정될 수 있다. 대응되는 선택 정보, 마이크로폰 선택 정보 및/또는 빔형성 정보는 복수의 음성 명령 디바이스에 대한 방향성 정보에 포함될 수 있는데, 이는 단계(893)에서 SaaS 제공자에 의해 적어도 활성화 음성 명령 디바이스로 전송된다. 결과적으로, 적어도 하나의 음성 명령 디바이스는 단계(893)에서 네트워크를 통해 SaaS 제공자로부터 복수의 음성 명령 디바이스에 대한 방향성 정보를 수신한다.
수신된 방향성 정보에 기초하여, 활성화 음성 명령 디바이스는 단계(894)에서 선택된 마이크로폰에 대해 빔형성을 수행하여 향상된 신호대잡음 비율로 사용자로부터의 스피치 신호를 모니터한다. 이러한 모니터링에 더하여, 활성화로 선택되지 않았던 음성 명령 디바이스 및/또는 마이크로폰은 음향 공간으로부터 계속하여 오디오 신호를 수신하고, 스피치 신호에 대해 오디오 신호를 분석할 수 있다. 대안적으로, 빔형성된 마이크로폰 신호의 신호대잡음 비율이 하단 스레숄드 아래로 떨어지거나, 및/또는 미리결정된 시간 주기가 경과되거나, 및/또는 레이더 수단이나 카메라에 의한 스피커의 추적이 스피커가 스윗 존에서 벗어났다고 표시한다면, 전체적인 프로세스는 단계(888)에서 재개시될 수 있다.
도 9는 본 발명에 따른 엔터테인먼트 시스템을 사용하여 오디오 재생을 위한 예시적인 프로세스 흐름을 도시한다. 본 발명에 따르면, 단계(995)에서 SaaS 제공자에서 오디오 서비스에 대한 요청이 엔터테인먼트 시스템으로부터 수신될 때, 도 8에 따른 프로세스는 이미 실행되었다고 가정한다. 상기 기술된 바와 같이, 이러한 요청은 엔터테인먼트 시스템 측에서 또는 SaaS 제공자 측에서 분석될 수 있다. 도 9의 실시예에 따르면, 요청을 포함하는 스피치 신호는 엔터테인먼트 시스템으로부터 SaaS 제공자로 전송되고, 단계(996)에서 분석되어서 오디오 서비스에 대한 구체적인 요청을 검출하고 결정한다. 대안적으로, 분석은 엔터테인먼트 시스템 측에서 수행될 수 있고, 그 결과는 디지털 정보로서 SaaS 제공자로 전송될 수 있다. 오디오 서비스에 대한 요청을 수신함에 응답하여, SaaS 제공자는 가령, 데이터베이스나 저장 디바이스 내에 저장된 오디오 데이터에 기초하여 오디오 신호를 제공할 수 있고, 이는 오디오 신호를 엔터테인먼트 시스템으로 전송하기 전에 추가로 프로세스될 수 있다.
일 실시예에서, 복수의 음성 명령 디바이스에 대한 방향성 정보는 단계(997)에서 SaaS 제공자 측에서 오디오 신호에서 인코딩될 수 있어서, 엔터테인먼트 시스템의 음성 명령 디바이스의 라우드스피커에 의해 출력될 때, 오디오 신호는 위치된 사용자의 방향으로 빔을 형성하도록 한다. 대안적으로 또는 추가적으로, 적어도 하나의 음성 명령 디바이스의 상이한 라우드스피커와 관련된 복수의 오디오 채널은 SaaS 제공자에 의해 불러오기된 오디오 데이터에 기초하여 단계(997)에서 생성될 수 있어서, 스윗 스팟에서 스테레오 사운드, 서라운드 사운드, 가상 서라운드 사운드 또는 앰비소닉스 사운드를 제공할 수 있다. 결과로 나온 오디오 신호 또는 오디오 채널은 단계(998)에서, SaaS 제공자로부터 엔터테인먼트 시스템의 각각의 음성 명령 디바이스로, 복수의 음성 명령 디바이스에 대한 방향성 정보와 조합하여 또는 이후에 일부로서 전송될 수 있다.
수신된 방향성 정보로부터, 음성 명령 디바이스는 단계(999)에서 적어도 하나의 음성 명령 디바이스의 프로세서 유닛에 의해 수신된 오디오 신호에 빔형성을 수행하기 위한 필요한 정보를 추출할 수 있다. 그러나, 위상 천이 및/또는 가중화와 같은 빔형성 정보는 SaaS 제공자로부터 수신된 오디오 신호에서 이미 인코딩될 수 있어서, 단계(999)는 엔터테인먼트 시스템 측에서 컴퓨팅 자원을 보존하기 위해 생략될 수 있다. 단계(1000)에서, 마지막으로, 수신된 오디오 신호, 특히 전용 오디오 채널은 복수의 음성 명령 디바이스에 대한 수신된 방향성 정보에 기초하여, 각각의 라우드스피커를 통해 대응되는 음성 명령 디바이스에 의해 출력된다. 특히, 활성화 음성 명령 디바이스에 의해 수신된 전용 오디오 채널은 수신된 방향성 정보 내에 포함된 맵핑 정보를 사용하여 대응되는 라우드스피커로 맵핑되어서, 원하는 품질의 사운드 필드가 하나 이상의 청자의 위치에서 생성된다. 특히 도 9의 프로세스 흐름에 따른 본 발명은 음향 공간 내의 둘 이상의 스윗 스팟에서 완전히 분리된 앰비소닉스 사운드 필드의 오디오 재생을 허용한다.
도 10은 기술 분야에 따른 마이크로폰 빔형성을 위한 예시적인 빔형성기(1000)의 개략도를 마지막으로 도시한다. 제한 없이, 빔형성기(1000)는 캡쳐된 오디오 신호(1101 내지 1106)를 출력하는 마이크로폰(1001 내지 1006)을 포함한다. 상기 기술된 바와 같이, 마이크로폰(1001 내지 1006)이 하나의 음성 명령 디바이스의 일부로서 제공되거나 복수의 음성 명령 디바이스에 걸쳐 분포될 수 있다. 또한, 상기 추가로 기술된 바와 같이, 음성 명령 디바이스의 마이크로폰의 마이크로폰 신호는 음성 명령 디바이스 자체 또는 SaaS 제공자에 의해 빔형성될 수 있는 반면, 복수의 음성 명령 디바이스로부터의 마이크로폰 신호는 SaaS 제공자에 의해 빔형성된다. 그 결과, 빔형성기(1000)의 하기 기술된 구성요소는 음성 명령 디바이스 및/또는 SaaS 제공자의 일부로서 제공될 수 있다.
도 10에 도시된 예시적인 실시예에 따르면, 전체 Q 마이크로폰 신호(1101 내지 1106)는 N 개의 구면 조화를 회전 모듈(1206)로 공급하는 매트릭싱 모듈(1205) 내로 공급된다. 회전 모듈(1206)은 가중화된 N 개의 구면 조화로부터 M 개의 회전된 구면 조화를 생성하는데, 즉, 모달 가중화 모듈(1207) 내의 주파수 종속 가중화 계수(C1 내지 CM)가 곱해지고, 그리고 나서 합산 모듈(1208)에서 합산되어서 빔형성된 마이크로폰 신호, 즉, 복수의 마이크로폰(1001 내지 1006)의 방향성 신호를 형성한다. 결과로 나온 신호는 잡음 감소를 위해 하이패스 필터(1210)를 통해 선택적으로 통과될 수 있다.
기술된 빔형성기는 음성 명령 디바이스 및/또는 SaaS 제공자에서 실행될 수 있다. SaaS 제공자에서 빔형성기(1000)를 실행함에 의해, 음성 명령 디바이스는 간단하게 될 수 있다.
Claims (17)
- 복수의 음성 명령 디바이스를 가진 시스템에 있어서, 각각의 음성 명령 디바이스는,
프로세서 유닛과,
상기 프로세서 유닛에 연결되고, 네트워크에 연결하도록 구성된 트랜시버와,
오디오 신호를 캡쳐하도록 각각 구성된 하나 이상의 마이크로폰과, 및
적어도 하나의 라우드스피커를 포함하되,
상기 프로세서 유닛은,
캡쳐된 오디오 신호 내에서 스피치 신호를 검출하고,
스피치 신호를 검출하면, 트랜시버를 사용하여 네트워크를 통해, 하나 이상의 마이크로폰에 대한 방향성 정보를 서비스형 소프트웨어(Saas) 제공자에게 전송하고, 및
트랜시버를 사용하여 네트워크를 통해, SaaS 제공자로부터 복수의 음성 명령 디바이스에 대한 방향성 정보를 수신하도록 구성되는, 복수의 음성 명령 디바이스를 가진 시스템. - 제 1 항에 있어서, 복수의 음성 명령 디바이스에 대한 방향성 정보는, 복수의 음성 명령 디바이스 중 적어도 하나를 활성화 음성 명령 디바이스로 선택하기 위한 선택 정보, 적어도 하나의 마이크로폰을 선택하기 위한 마이크로폰 선택 정보, 및 적어도 두 개의 마이크로폰에 대한 빔형성 정보 중 적어도 하나를 포함하는, 복수의 음성 명령 디바이스를 가진 시스템.
- 제 1 항 또는 제 2 항에 있어서, 하나 이상의 마이크로폰에 대한 방향성 정보는, 하나 이상의 마이크로폰 각각에 대하여, 및/또는 음성 명령 디바이스의 복수의 마이크로폰의 복수의 상이한 빔형성 방향에 대한 스피치 신호에 대하여, 프로세서 유닛에 의해 계산된 신호대잡음 비율(SNR)을 포함하는, 복수의 음성 명령 디바이스를 가진 시스템.
- 제 1 항 또는 제 2 항에 있어서, 하나 이상의 마이크로폰에 대한 방향성 정보는, 캡쳐된 오디오 신호에 기초하여, 프로세서 유닛에 의해 추정된 도착 방향(DOA) 정보를 포함하는, 복수의 음성 명령 디바이스를 가진 시스템.
- 제 1 항 또는 제 2 항에 있어서, 하나 이상의 마이크로폰에 대한 방향성 정보는 캡쳐된 오디오 신호를 포함하되, 복수의 음성 명령 디바이스에 대한 방향성 정보는 적어도 두 개의 음성 명령 디바이스로부터 캡쳐된 오디오 신호에 기초하여, SaaS 제공자에 의해 계산된 DOA 정보를 포함하는, 복수의 음성 명령 디바이스를 가진 시스템.
- 제 1 항 내지 제 5 항 중 어느 한 항에 있어서, 음성 명령 디바이스는 SaaS 제공자로부터 적어도 하나의 오디오 신호를 포함하는 오디오 서비스를 수신하고, 복수의 음성 명령 디바이스에 대한 수신된 방향성 정보에 기초하여 적어도 하나의 라우드스피커를 통해 오디오 신호를 출력하도록 더욱 구성되는, 복수의 음성 명령 디바이스를 가진 시스템.
- 제 6 항에 있어서, 오디오 신호를 출력하는 것은 수신된 방향성 정보에 기초하는 오디오 신호를 빔형성하는 것을 포함하거나, 복수의 음성 명령 디바이스에 대한 방향성 정보는 출력 오디오 신호가 빔을 형성하도록 오디오 신호로 인코딩되는, 복수의 음성 명령 디바이스를 가진 시스템.
- 제 6 항 또는 제 7 항에 있어서, 오디오 서비스는 복수의 음성 명령 디바이스의 상이한 라우드스피커와 관련된 복수의 오디오 채널을 포함하여, 스테레오 사운드, 서라운드 사운드, 가상 서라운드 사운드 또는 앰비소닉스 사운드를 제공하는, 복수의 음성 명령 디바이스를 가진 시스템.
- 제 1 항 내지 제 8 항 중 어느 한 항에 있어서, 적어도 하나의 음성 명령 디바이스는 검출된 스피커를 추적하도록 구성된 추적 유닛, 특히 레이더 센서 및/또는 카메라를 더 포함하는, 복수의 음성 명령 디바이스를 가진 시스템.
- 엔터테인먼트 시스템의 복수의 음성 명령 디바이스를 작동하기 위한 방법에 있어서, 각각의 음성 명령 디바이스는 프로세서 유닛, 트랜시버, 하나 이상의 마이크로폰 및 적어도 하나의 라우드스피커를 포함하되, 상기 방법은,
음성 명령 디바이스 중 적어도 하나의 하나 이상의 마이크로폰에 의해 오디오 신호를 캡쳐하는 단계와,
스피치 신호를 검출하기 위해, 음성 명령 디바이스 중 적어도 하나에서의 프로세서 유닛에 의해 캡쳐된 오디오 신호를 분석하는 단계와,
스피치 신호를 검출하면, 음성 명령 디바이스들 중 적어도 하나에서의 트랜시버를 사용하여 네트워크를 통해, 음성 명령 디바이스들 중 적어도 하나의 하나 이상의 마이크로폰에 대한 방향성 정보를 서비스형 소프트웨어(Saas) 제공자에게 전송하는 단계와, 및
음성 명령 디바이스들 중 적어도 하나에서의 트랜시버를 사용하여 네트워크를 통해, SaaS 제공자로부터 복수의 음성 명령 디바이스에 대한 방향성 정보를 수신하는 단계를 포함하는, 엔터테인먼트 시스템의 복수의 음성 명령 디바이스를 작동하기 위한 방법. - 제 10 항에 있어서,
하나 이상의 마이크로폰에 대한 전송된 방향성 정보에 기초하여, SaaS 제공자에 의해, 복수의 음성 명령 디바이스 중 적어도 하나를 활성화 음성 명령 디바이스로 선택하고, 복수의 음성 명령 디바이스에 대한 방향성 정보 내에 대응되는 선택 정보를 포함시키는 단계와,
하나 이상의 마이크로폰에 대한 전송된 방향성 정보에 기초하여, SaaS 제공자에 의해, 복수의 음성 명령 디바이스 중 적어도 하나의 마이크로폰을 활성화 마이크로폰으로 선택하고, 복수의 음성 명령 디바이스에 대한 방향성 정보 내에 대응되는 마이크로폰 선택 정보를 포함시키는 단계와, 및
하나 이상의 마이크로폰에 대한 전송된 방향성 정보에 기초하여, SaaS 제공자에 의해, 복수의 음성 명령 디바이스의 적어도 두 개의 마이크로폰에 대한 빔형성 정보를 결정하고, 복수의 음성 명령 디바이스에 대한 방향성 정보 내에 대응되는 빔형성 정보를 포함시키는 단계
중 적어도 하나를 더 포함하는, 엔터테인먼트 시스템의 복수의 음성 명령 디바이스를 작동하기 위한 방법. - 제 10 항 또는 제 11 항에 있어서,
각각의 마이크로폰에 대한 및/또는 음성 명령 디바이스의 복수의 마이크로폰의 복수의 상이한 빔형성 방향에 대한 스피치 신호에 대해, 음성 명령 디바이스 중 적어도 하나에서의 프로세서 유닛에 의해 신호대잡음 비율인 SNR을 계산하고, 하나 이상의 마이크로폰에 대한 방향성 정보 내에 계산된 SNR을 포함시키는 단계나,
캡쳐된 오디오 신호에 기초하여, 음성 명령 디바이스들 중 적어도 하나에서의 프로세서 유닛에 의해, 스피치 신호에 대한 도착 방향, DOA 정보를 추정하고, 하나 이상의 마이크로폰에 대한 방향성 정보 내에 추정된 DOA 정보를 포함시키는 단계나,
하나 이상의 마이크로폰에 대한 방향성 정보 내에 캡쳐된 오디오 신호를 포함시키고, SaaS 제공자에 의해, 적어도 두 개의 음성 명령 디바이스로부터 캡쳐된 오디오 신호에 기초하여, DOA 정보를 계산하는 단계를 더 포함하는, 엔터테인먼트 시스템의 복수의 음성 명령 디바이스를 작동하기 위한 방법. - 제 10 항 내지 제 12 항 중 어느 한 항에 있어서,
SaaS 제공자로부터 적어도 하나의 오디오 신호를 포함하는 오디오 서비스를 수신하는 단계와, 및
복수의 음성 명령 디바이스에 대한 수신된 방향성 정보에 기초하여, 적어도 하나의 음성 명령 디바이스의 적어도 하나의 라우드스피커를 통해 오디오 신호를 출력하는 단계를 더 포함하는, 엔터테인먼트 시스템의 복수의 음성 명령 디바이스를 작동하기 위한 방법. - 제 13 항에 있어서,
수신된 방향성 정보에 기초하여 적어도 하나의 음성 명령 디바이스의 프로세서 유닛에 의해, 수신된 오디오 신호에 대해 빔형성을 수행하는 단계, 또는
출력 오디오 신호가 빔을 형성하도록 하기 위해, SaaS 제공자에 의해 오디오 신호 내에서 복수의 음성 명령 디바이스에 대한 방향성 정보를 인코딩하는 단계를 더 포함하는, 엔터테인먼트 시스템의 복수의 음성 명령 디바이스를 작동하기 위한 방법. - 제 13 항 또는 제 14 항에 있어서,
스테레오 사운드, 서라운드 사운드, 가상 서라운드 사운드 또는 앰비소닉스 사운드를 제공하기 위해, SaaS 제공자에 의해 적어도 하나의 음성 명령 디바이스의 상이한 라우드스피커와 관련된 복수의 오디오 채널을 생성하고 전송하는 단계를 더 포함하는, 엔터테인먼트 시스템의 복수의 음성 명령 디바이스를 작동하기 위한 방법. - 제 10 항 내지 제 15 항 중 어느 한 항에 있어서, 적어도 하나의 음성 명령 디바이스의 추적 유닛, 특히 레이더 센서 및/또는 카메라를 사용하여, 검출된 스피커를 추적하는 단계를 더 포함하는, 엔터테인먼트 시스템의 복수의 음성 명령 디바이스를 작동하기 위한 방법.
- 프로세서에 의해 수행될 때, 프로세서가 청구항 제10항 내지 제16항에 따른 방법을 수행하도록 하는 명령어를 가진 비일시적 컴퓨터 판독가능한 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17194991.0 | 2017-10-05 | ||
EP17194991.0A EP3467819B1 (en) | 2017-10-05 | 2017-10-05 | Apparatus and method using multiple voice command devices |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190039646A true KR20190039646A (ko) | 2019-04-15 |
KR102638713B1 KR102638713B1 (ko) | 2024-02-21 |
Family
ID=60037416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180117327A KR102638713B1 (ko) | 2017-10-05 | 2018-10-02 | 복수의 음성 명령 디바이스를 사용하는 장치 및 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10984789B2 (ko) |
EP (1) | EP3467819B1 (ko) |
KR (1) | KR102638713B1 (ko) |
CN (1) | CN109637528B (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190084003A (ko) * | 2019-06-25 | 2019-07-15 | 엘지전자 주식회사 | 음성 인에이블 디바이스 선택 방법 및 장치 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10609475B2 (en) | 2014-12-05 | 2020-03-31 | Stages Llc | Active noise control and customized audio system |
US10945080B2 (en) | 2016-11-18 | 2021-03-09 | Stages Llc | Audio analysis and processing system |
CN106782585B (zh) * | 2017-01-26 | 2020-03-20 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
EP3627850A4 (en) * | 2017-05-16 | 2020-05-06 | Sony Corporation | SPEAKER NETWORK AND SIGNAL PROCESSOR |
US10334360B2 (en) * | 2017-06-12 | 2019-06-25 | Revolabs, Inc | Method for accurately calculating the direction of arrival of sound at a microphone array |
US11489691B2 (en) | 2017-07-12 | 2022-11-01 | Universal Electronics Inc. | Apparatus, system and method for directing voice input in a controlling device |
US10930276B2 (en) * | 2017-07-12 | 2021-02-23 | Universal Electronics Inc. | Apparatus, system and method for directing voice input in a controlling device |
US10665244B1 (en) * | 2018-03-22 | 2020-05-26 | Pindrop Security, Inc. | Leveraging multiple audio channels for authentication |
US10623403B1 (en) | 2018-03-22 | 2020-04-14 | Pindrop Security, Inc. | Leveraging multiple audio channels for authentication |
US10540960B1 (en) * | 2018-09-05 | 2020-01-21 | International Business Machines Corporation | Intelligent command filtering using cones of authentication in an internet of things (IoT) computing environment |
US11694708B2 (en) * | 2018-09-23 | 2023-07-04 | Plantronics, Inc. | Audio device and method of audio processing with improved talker discrimination |
US11264014B1 (en) * | 2018-09-23 | 2022-03-01 | Plantronics, Inc. | Audio device and method of audio processing with improved talker discrimination |
US10878812B1 (en) * | 2018-09-26 | 2020-12-29 | Amazon Technologies, Inc. | Determining devices to respond to user requests |
CN111314821A (zh) * | 2018-12-12 | 2020-06-19 | 深圳市冠旭电子股份有限公司 | 一种智能音箱播放方法、装置及智能音箱 |
US10811032B2 (en) * | 2018-12-19 | 2020-10-20 | Cirrus Logic, Inc. | Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers |
CN113795881A (zh) * | 2019-03-10 | 2021-12-14 | 卡多姆科技有限公司 | 使用线索的聚类的语音增强 |
US11955138B2 (en) * | 2019-03-15 | 2024-04-09 | Advanced Micro Devices, Inc. | Detecting voice regions in a non-stationary noisy environment |
US10812921B1 (en) * | 2019-04-30 | 2020-10-20 | Microsoft Technology Licensing, Llc | Audio stream processing for distributed device meeting |
US11380312B1 (en) * | 2019-06-20 | 2022-07-05 | Amazon Technologies, Inc. | Residual echo suppression for keyword detection |
US11659332B2 (en) | 2019-07-30 | 2023-05-23 | Dolby Laboratories Licensing Corporation | Estimating user location in a system including smart audio devices |
US11968268B2 (en) | 2019-07-30 | 2024-04-23 | Dolby Laboratories Licensing Corporation | Coordination of audio devices |
CN110364161A (zh) * | 2019-08-22 | 2019-10-22 | 北京小米智能科技有限公司 | 响应语音信号的方法、电子设备、介质及系统 |
EP4013085A1 (en) * | 2019-12-09 | 2022-06-15 | Google LLC | Relay device for voice commands to be processed by a voice assistant, voice assistant and wireless network |
CN111383661B (zh) * | 2020-03-17 | 2023-08-01 | 阿波罗智联(北京)科技有限公司 | 基于车载多音区的音区判决方法、装置、设备和介质 |
KR20220000182A (ko) * | 2020-06-25 | 2022-01-03 | 현대자동차주식회사 | 차량용 다중 대화 모드 지원 방법 및 시스템 |
CN111964154B (zh) * | 2020-08-28 | 2021-09-21 | 邯郸美的制冷设备有限公司 | 空调器室内机、控制方法、运行控制装置及空调器 |
US11881219B2 (en) | 2020-09-28 | 2024-01-23 | Hill-Rom Services, Inc. | Voice control in a healthcare facility |
EP4207185A4 (en) * | 2020-11-05 | 2024-05-22 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND CONTROL METHOD THEREFOR |
US11545172B1 (en) * | 2021-03-09 | 2023-01-03 | Amazon Technologies, Inc. | Sound source localization using reflection classification |
US12014734B2 (en) * | 2021-07-22 | 2024-06-18 | International Business Machines Corporation | Dynamic boundary creation for voice command authentication |
CN113628623B (zh) * | 2021-10-11 | 2022-02-08 | 深圳市一号互联科技有限公司 | 一种智能语音识别处理方法及系统 |
KR20230092180A (ko) * | 2021-12-17 | 2023-06-26 | 현대자동차주식회사 | 차량 및 그의 제어방법 |
KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182132A1 (en) * | 2000-08-31 | 2003-09-25 | Meinrad Niemoeller | Voice-controlled arrangement and method for voice data entry and voice recognition |
US20050253713A1 (en) * | 2004-05-17 | 2005-11-17 | Teppei Yokota | Audio apparatus and monitoring method using the same |
US20140136195A1 (en) * | 2012-11-13 | 2014-05-15 | Unified Computer Intelligence Corporation | Voice-Operated Internet-Ready Ubiquitous Computing Device and Method Thereof |
US20170076720A1 (en) * | 2015-09-11 | 2017-03-16 | Amazon Technologies, Inc. | Arbitration between voice-enabled devices |
US20170094464A1 (en) * | 2015-09-24 | 2017-03-30 | Cisco Technology, Inc. | Determining proximity of computing devices using ultrasonic audio signatures |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
US9087324B2 (en) * | 2011-07-12 | 2015-07-21 | Microsoft Technology Licensing, Llc | Message categorization |
US8660847B2 (en) * | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US9076450B1 (en) * | 2012-09-21 | 2015-07-07 | Amazon Technologies, Inc. | Directed audio for speech recognition |
US9251787B1 (en) * | 2012-09-26 | 2016-02-02 | Amazon Technologies, Inc. | Altering audio to improve automatic speech recognition |
JP6433903B2 (ja) * | 2013-08-29 | 2018-12-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識方法及び音声認識装置 |
WO2015090411A1 (en) * | 2013-12-19 | 2015-06-25 | Huawei Technologies Co., Ltd. | Beamforming method and apparatus for directional signal transmission |
US9232335B2 (en) * | 2014-03-06 | 2016-01-05 | Sony Corporation | Networked speaker system with follow me |
US9591510B2 (en) * | 2014-09-22 | 2017-03-07 | Raytheon Company | Systems and methods to create message traffic |
US9674653B2 (en) * | 2015-03-03 | 2017-06-06 | Facebook, Inc. | Techniques to manage client location detection |
US10263929B2 (en) * | 2015-05-08 | 2019-04-16 | International Business Machines Corporation | Cloud based chat governance system based on behavioral patterns and situational-awareness |
US9584935B2 (en) * | 2015-05-29 | 2017-02-28 | Sound United, Llc. | Multi-zone media system and method for providing multi-zone media |
US9730023B2 (en) * | 2015-10-27 | 2017-08-08 | Chatterbeak, Inc. | Communication based on geographical region |
US10218805B2 (en) * | 2016-06-10 | 2019-02-26 | Cloudflare, Inc. | Method and apparatus for causing delay in processing requests for internet resources received from client devices |
US9898882B1 (en) * | 2016-08-19 | 2018-02-20 | Sony Corporation | System and method for customized message playback |
US11353948B2 (en) * | 2016-11-30 | 2022-06-07 | Q Technologies, Inc. | Systems and methods for adaptive user interface dynamics based on proximity profiling |
US10148912B1 (en) * | 2017-06-26 | 2018-12-04 | Amazon Technologies, Inc. | User interface for communications systems |
US10547937B2 (en) * | 2017-08-28 | 2020-01-28 | Bose Corporation | User-controlled beam steering in microphone array |
US10475454B2 (en) * | 2017-09-18 | 2019-11-12 | Motorola Mobility Llc | Directional display and audio broadcast |
US10356362B1 (en) * | 2018-01-16 | 2019-07-16 | Google Llc | Controlling focus of audio signals on speaker during videoconference |
US10735597B1 (en) * | 2018-03-23 | 2020-08-04 | Amazon Technologies, Inc. | Selecting user device during communications session |
-
2017
- 2017-10-05 EP EP17194991.0A patent/EP3467819B1/en active Active
-
2018
- 2018-09-29 CN CN201811147515.9A patent/CN109637528B/zh active Active
- 2018-10-02 KR KR1020180117327A patent/KR102638713B1/ko active IP Right Grant
- 2018-10-04 US US16/151,996 patent/US10984789B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182132A1 (en) * | 2000-08-31 | 2003-09-25 | Meinrad Niemoeller | Voice-controlled arrangement and method for voice data entry and voice recognition |
US20050253713A1 (en) * | 2004-05-17 | 2005-11-17 | Teppei Yokota | Audio apparatus and monitoring method using the same |
US20140136195A1 (en) * | 2012-11-13 | 2014-05-15 | Unified Computer Intelligence Corporation | Voice-Operated Internet-Ready Ubiquitous Computing Device and Method Thereof |
US20170076720A1 (en) * | 2015-09-11 | 2017-03-16 | Amazon Technologies, Inc. | Arbitration between voice-enabled devices |
US20170094464A1 (en) * | 2015-09-24 | 2017-03-30 | Cisco Technology, Inc. | Determining proximity of computing devices using ultrasonic audio signatures |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190084003A (ko) * | 2019-06-25 | 2019-07-15 | 엘지전자 주식회사 | 음성 인에이블 디바이스 선택 방법 및 장치 |
US11200897B2 (en) | 2019-06-25 | 2021-12-14 | Lg Electronics Inc. | Method and apparatus for selecting voice-enabled device |
Also Published As
Publication number | Publication date |
---|---|
EP3467819A1 (en) | 2019-04-10 |
CN109637528A (zh) | 2019-04-16 |
EP3467819B1 (en) | 2024-06-12 |
KR102638713B1 (ko) | 2024-02-21 |
US20190108837A1 (en) | 2019-04-11 |
CN109637528B (zh) | 2024-07-16 |
US10984789B2 (en) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102638713B1 (ko) | 복수의 음성 명령 디바이스를 사용하는 장치 및 방법 | |
US10097944B2 (en) | Sound reproduction for a multiplicity of listeners | |
US10249299B1 (en) | Tailoring beamforming techniques to environments | |
US9685171B1 (en) | Multiple-stage adaptive filtering of audio signals | |
US10297250B1 (en) | Asynchronous transfer of audio data | |
JP6326071B2 (ja) | 部屋およびプログラム反応型ラウドスピーカシステム | |
US9955280B2 (en) | Audio scene apparatus | |
EP2766901B1 (en) | Speech signal enhancement using visual information | |
US9338549B2 (en) | Acoustic localization of a speaker | |
US9595997B1 (en) | Adaption-based reduction of echo and noise | |
US10854186B1 (en) | Processing audio data received from local devices | |
US10075801B2 (en) | Information processing system and storage medium | |
US12003673B2 (en) | Acoustic echo cancellation control for distributed audio devices | |
JP2020500480A (ja) | デバイス内の非対称配列の複数のマイクからの空間メタデータの分析 | |
WO2010020162A1 (zh) | 控制声音聚焦的方法、通讯设备及通讯系统 | |
US20230239642A1 (en) | Three-dimensional audio systems | |
JP2023159381A (ja) | 音声認識オーディオシステムおよび方法 | |
WO2023021390A1 (en) | Muting specific talkers using a beamforming microphone array | |
EP3188505B1 (en) | Sound reproduction for a multiplicity of listeners | |
Zhang et al. | Speaker Orientation-Aware Privacy Control to Thwart Misactivation of Voice Assistants | |
JP2019537071A (ja) | 分散したマイクロホンからの音声の処理 | |
US11792570B1 (en) | Parallel noise suppression | |
WO2023086273A1 (en) | Distributed audio device ducking | |
CN116964666A (zh) | 基于媒体类型的去混响 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |