KR101972545B1 - 음성 명령을 통한 위치 기반 음성 인식 시스템 - Google Patents
음성 명령을 통한 위치 기반 음성 인식 시스템 Download PDFInfo
- Publication number
- KR101972545B1 KR101972545B1 KR1020180017032A KR20180017032A KR101972545B1 KR 101972545 B1 KR101972545 B1 KR 101972545B1 KR 1020180017032 A KR1020180017032 A KR 1020180017032A KR 20180017032 A KR20180017032 A KR 20180017032A KR 101972545 B1 KR101972545 B1 KR 101972545B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice command
- voice
- command receiving
- user
- target
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000010304 firing Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000005286 illumination Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/803—Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S11/00—Systems for determining distance or velocity not using reflection or reradiation
- G01S11/14—Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/34—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means
- H04R1/342—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/023—Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/38—Services specially adapted for particular environments, situations or purposes for collecting sensor information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/70—Services for machine-to-machine communication [M2M] or machine type communication [MTC]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Selective Calling Equipment (AREA)
- Telephonic Communication Services (AREA)
- Alarm Systems (AREA)
Abstract
본 발명에 따르면, 마이크로폰을 포함하고 있는 다수의 장치가 센서 네트워크로 연결되어 있는 상황에서, 사용자의 음성 명령의 인식을 용이하게 하는데 그 목적을 두고 있다. 각 장치 의 상대적인 위치를 파악하고, 음성 명령이 들어온 시간 차이를 통해 사용자의 위치 및 방향을 추적한다. 사용자의 위치 및 방향에 기반하여, 그 명령의 해석을 수행한다. 이러한 방법은 센서 네트워크(Sensor Network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication), 사물 인터넷(Internet of Things, IoT)을 위한 방법으로, 지능형 서비스(스마트 홈, 스마트 빌딩 등), 디지털 교육, 보안 및 안전 관련 서비스 등에 활용될 수 있다.
Description
본 발명은 음성 명령을 통한 위치 추적 및 위치 기반 음성 인식 시스템에 관한 것으로서 특히, 마이크로폰을 포함하고 있는 다수의 장치가 센서 네트워크로 연결되어 있는 상황에서, 사용자의 음성 명령의 인식을 용이하게 하는 위치 추적 장치 및 위치 기반 음성 인식 서비스에 관한 것이다.
최근, 음성 명령을 통하여 다양한 디바이스들을 제어하는 기술들이 점차 보편화되고 있다. 특히, 냉장고 TV 등의 가전기기 또는 조명 등 다양한 장치들에 음성 명령의 적용이 확산되고 있다. 그러나, 음성명령의 적용 확산과 더불어 사용자가 원하지 않는 동작이 발생할 가능성이 점점 높아지고 있다. 복수의 기기에서 동일한 음성 명령을 사용하는 경우, 예를 들어 스위치를 켜는 동작 등과 같이 복수의 기기에서 동일한 음성 명령의 발화를 통하여 작동되는 경우에 사용자가 의도하지 않았던 기기에서 의도하지 않은 동작들이 일어날 수 있는 가능성이 커지게 되었다.
이러한 문제를 해결하기 위하여 종래 기술들은 카메라 또는 적외선 포인터를 이용하여 통하여 사용자의 시선을 파악하는 방법들을 사용하거나(미국특허 제9825773호, 미국특허 제6970824호), 또는 동일 디바이스 내에 다수의 마이크로폰을 설치하여 음원의 방향을 추정하는 방법도 이용되었다(미국 특허 제9554208호).
종래 기술과 같이 카메라 또는 적외선 포인터를 이용하는 경우, 또는 동일 디바이스 내에 다수의 마이크로폰을 설치하는 경우에는 추가적인 센서들이 필요하기 때문에 제조 업체 입장에서는 비용적인 부담이 크며, 여러가지 센서 디바이스를 구현하기 위한 개발의 부담도 크다.
따라서, 음성 명령 시 사용자의 의도를 파악하여 원하는 기기의 원하는 동작을 음성으로 제어할 수 있는 기술이 절실히 요구되고 있다.
상기한 문제점을 해결하기 위하여, 본 발명은 복수의 마이크로폰을 활용하여 사용자의 발화 방향을 결정하고, 결정된 발화 방향 범위 내에 있는 명령 대상 기기를 특정할 수 있는 위치 기반 음성 인식 서비스를 제공하고자 한다.
특히, 본 방법은 마이크로폰을 포함하고 있는 다수의 장치가 센서 네트워크로 연결되어 있는 상황에서, 사용자의 음성 명령의 인식을 용이하게 하는데 그 목적을 두고 있다. 따라서, 음성 명령의 대상이 되는 각 장치의 상대적인 위치를 파악하고, 음성 명령이 인가된 시간 차이를 통해 사용자의 위치 및 방향을 추적한다. 사용자의 위치 및 방향에 기반하여, 그 명령의 해석을 수행한다.
상기 기술적 과제를 해결하기 위하여, 본 발명에 따른 위치 기반 음성 인식 시스템은, 각각 적어도 하나의 마이크로폰을 포함하는 복수의 음성 명령 수신 장치; 및 상기 복수의 음성 명령 수신 장치와 센서 네트워크를 통하여 연결되는 센서 네트워크 제어 장치를 포함하며, 상기 센서 네트워크 제어 장치는, 상기 복수의 음성 명령 수신 장치의 상대적 위치를 결정하는 센서 위치 결정부; 상기 상대적 위치에 기초하여 사용자의 위치를 연산하는 사용자 위치 연산부; 상기 복수의 음성 명령 수신 장치 각각의 음성 크기에 기초하여 환산 음성 크기를 연산하고, 환산 음성 크기에 기초하여 상기 사용자의 발화 방향 범위를 결정하는 발화 방향 연산부; 및 상기 발화 방향 범위에 따라 상기 복수의 음성 명령 수신 장치 중 음성 명령의 대상이 되는 대상 음성 명령 수신 장치를 선정하는 대상 장치 선정부를 포함하며, 상기 환산 음성 크기는 상기 복수의 음성 명령 수신 장치가 상기 사용자로부터 동일한 거리에 있다고 가정한 경우의 음성 크기일 수 있다.
이 경우, 상기 발화 방향 연산부는 소리 감쇠 모델을 이용하여 상기 복수의 음성 명령 수신 장치 각각의 음성 크기를 구한 후, 상기 복수의 음성 명령 수신 장치 각각의 음성 크기에 기초하여 환산 음성 크기를 연산할 수 있다.
종래 기술은 발화 방향을 유추하기 위한 방법으로 사용자의 시선 또는 추가적인 카메라, 혹은 적외선 포인터 등을 사용했다. 이러한 추가적인 기기는 비용 부담, 구현 및 사용의 어려움 등의 단점이 있다. 하지만, 본 발명은 음성 명령을 수신하는 마이크로폰을 이용하여 사용자의 위치에 따른 의도 파악을 용이하게 했다. 또한, 본 발명은 사용자 위치 정보뿐 아니라 명령을 내린 발화 방향 정보도 활용하여 사용자에게 향상된 서비스를 제공할 수 있다.
이러한 방법은 센서 네트워크(Sensor Network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication), 및 사물 인터넷(Internet of Things, IoT) 등의 기술에 기반한 지능형 서비스(스마트 홈, 스마트 빌딩 등), 디지털 교육, 보안 및 안전 관련 서비스 등 다양한 서비스에 활용될 수 있다.
도 1은 본 발명의 실시예에 따른 위치 기반 음성 인식 서비스 시스템을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 위치 기반 음성 인식 서비스 동작의 흐름도이다.
도 3은 본 발명의 실시예에 따른 발화 방향 결정 동작에 대한 흐름도이다.
도 4는 본 발명의 실시예에 따른 음성 명령 수신 장치를 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 지향성 마이크로폰의 극성 패턴(Polar Pattern)을 나타낸 그래프이다.
도 6은 본 발명의 실시예에 따른 발화 방향 결정 동작을 설명하기 위한 도면이다.
도 7은 본 발명의 실시예에 따른 발화 방향 결정 동작을 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 대상 장치 선정부의 상세 블록도이다.
도 2는 본 발명의 실시예에 따른 위치 기반 음성 인식 서비스 동작의 흐름도이다.
도 3은 본 발명의 실시예에 따른 발화 방향 결정 동작에 대한 흐름도이다.
도 4는 본 발명의 실시예에 따른 음성 명령 수신 장치를 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 지향성 마이크로폰의 극성 패턴(Polar Pattern)을 나타낸 그래프이다.
도 6은 본 발명의 실시예에 따른 발화 방향 결정 동작을 설명하기 위한 도면이다.
도 7은 본 발명의 실시예에 따른 발화 방향 결정 동작을 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 대상 장치 선정부의 상세 블록도이다.
이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 이하에 첨부한 도면을 참조하여 설명한다.
도 1은 본 발명의 실시예에 따른 위치 기반 음성 인식 서비스 시스템을 나타낸 블록도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 위치 기반 음성 인식 서비스 시스템은, 센서 네트워크로 연결되어 있는 적어도 하나 이상의 마이크로폰을 포함한 음성 명령 수신 장치(210, 220) 및 센서 네트워크 제어 장치(100)를 포함한다. 이 경우, 센서 네트워크 제어 장치(100)는 휴대폰, 인공 지능 비서(스마트 스피커), 개인용 컴퓨터(PC), 개별 음성 명령 수신 장치(210,220) 중 어느 하나, 웨어러블 장치(스마트 와치 등), 서버 등 컴퓨팅 기능을 수행할 수 있는 다양한 장치 중 어느 하나일 수 있다.
사용자(300)의 음성 명령이 발화되면, 음성 명령 수신 장치(210, 220)는 사용자(300)의 음성 명령을 수신하여 음성 명령, 음성 도달 시간 및 음성 크기 등을 센서 네트워크 제어 장치(100)로 전송한다. 여기서, 본 발명의 “음성 명령”은 사용자의 음성 발화를 통하여 음성 명령 수신 장치(210, 220)의 동작을 요구하는 명령 및 음성 명령 수신 장치(210, 220)의 답변을 요구하는 질의를 모두 포괄하는 개념이다. 예컨대, 사용자가 TV를 향하여 “채널 7번으로 돌려줘” 라는 명령 및 TV를 향하여 “지금 보고 있는 채널이 뭐지?”라는 질의도 본 발명의 “음성 명령”의 범주에 포함된다.
이 경우, 센서 네트워크 제어 장치(100)는 사용자의 발화가 있는 경우에 발화의 내용이 음성 명령인지, 센서 네트워크 내의 음성 명령 수신 장치들과 관련없는 내용인지 확인할 수 있다.
여기서, 음성 명령 수신 장치(210, 220)는 마이크로폰을 통하여 소리를 입력할 수 있는 센서들을 포함하는 장치 모두를 의미할 수 있다. 예컨대, 조명 스위치, TV 또는 냉장고 등의 각종 가전 기기 또는 모바일 폰 등 기타 마이크로폰을 포함하는 각종 기기 및 센서들이 모두 음성 명령 수신 장치에 해당할 수 있다.
도 1에 따르면, 센서 네트워크 제어 장치(100)는 발화 방향 연산부(110), 대상 장치 선정부(130), 사용자 위치 연산부(150), 센서 위치 결정부(160), 저장부(170), 통신부(190) 및 제어부(195)를 포함할 수 있다. 이 때, 센서 네트워크 제어 장치(100)는 통신부(190)를 통하여 상술한 음성 명령 수신 장치(210, 220)와 센서 네트워크(400)로 연결되어 있다.
이 경우, 센서 네트워크(400)는 공유기 또는 라우터 등으로 연결된 내부망 일 수도 있으며, 인터넷, LoRa(Long Range) 망, NB-IoT(Narrow Band-Internet of Things), LTE 망 등의 외부망일 수도 있다. 또한, 센서 네트워크 제어 장치(100)는 예를 들어, 서버, PC, 태블릿, 모바일 폰 등의 컴퓨팅 기능을 가진 장치일 수 있다.
또한, 통신부(190)는 음성 명령 수신 장치(210, 220)과의 통신을 위한 장치로서, WiFi, ZigBee, Bluetooth 등의 무선 통신 장치일 수 있으며, PLC(Ethernet, Power Line Communication) 등의 유선 통신 장치 일 수 있다.
이하에서는 도 2 내지 도 6을 참조하여, 센서 네트워크 제어 장치(100)의 구체적인 동작에 대하여 설명한다.
센서 네트워크 제어 장치(100)는 먼저, 센서 네트워크에 연결된 각 장치의 상대적 위치를 연산하여 추정할 수 있다. (단계 S510)
상대적 위치를 추정하는 방법은, 예를 들어 아래와 같은 방법들을 사용할 수 있다.
1) 센서 네트워크 제어 장치(100)의 센서 위치 결정부(160)가 센서 네트워크(400)에 전달되는 신호 크기, 센서 네트워크(400) 상의 음성 명령 수신 장치들 중 적어도 하나의 음성 명령 수신 장치(210, 220)에 비콘(Beacon)이 설치되어 있는 경우, 비콘 신호 크기에 기초하여 센서 네트워크에 연결된 각 장치의 상대적 위치를 연산할 수 있다. 또는, 음성 명령 수신 장치(210, 220) 중 어느 하나가 비컨 역할을 하는 특정한 신호를 발생하는 장치를 구비하고, 센서 위치 결정부(160)가 다른 음성 명령 수신 장치들에서 수신된 신호 세기에 기초하여 그 특정한 신호가 도달하는 방향 및 비컨 역할을 하는 음성 명령 수신 장치(210, 220)와의 상대적인 위치를 연산하여 무선 센서 네트워크(400) 상의 각 음성 명령 수신 장치(210, 220)의 상대적인 위치를 연산할 수 있다.
이 경우, 비컨 신호 대신, 센서 네트워크(400)가 무선 통신망인 경우, 무선 통신 신호의 신호 크기(예컨대, RSSI(Received Signal Strength Indication))를 이용하여 센서 네트워크에 연결된 각 장치의 상대적 위치를 연산할 수도 있다.
2) 또는, 센서 네트워크 제어 장치(100)의 센서 위치 결정부(160)는 최초 설정 시, 또는 필요 시에 상대적 위치를 연산하는 모드를 수행할 수 있다. 이 때, 센서 네트워크(400)의 각 노드에서 특정 주파수의 소리를 방출하고, 음성 명령 수신 장치(210, 220)의 마이크로폰을 통하여 이를 수신한다. 방출된 특정 주파수의 소리가 마이크로폰에 입력된 값들을 분석하여 각 노드(음성 명령 수신 장치) 주위의 각 위치에 따른 소리의 회절/반사/흡수 등의 물리적 특징에 대한 맵(Map)을 작성할 수 있다. 이러한 물리적 특징에 대한 맵을 활용하여 각 음성 명령 수신 장치(210, 220)의 센서 네트워크 상의 상대적 위치를 연산할 수 있다.
이 경우, 상기 마이크로폰은 빔포밍 마이크로폰(Beamforming Microphone)를 활용할 수 있다. 빔포밍 마이크로폰은 그 내부에 포함된 마이크로폰 어레이의 위치, 소리의 입사각에 따라 그 감쇠율이 결정되도록 구성한다. 빔포밍 마이크로폰 및 연산된 감쇠율에 기초하여 각 음성 명령 수신 장치(210, 220)의 센서 네트워크(400) 상의 의 상대적인 위치를 연산할 수 있다.
3) 또는 각 음성 명령 수신 장치(210, 220)의 추가적인 기기의 사용을 통하여 상대적인 위치를 연산할 수도 있다.
예를 들어, 각 음성 명령 수신 장치(210, 220)는 추가적으로 LED 램프를 구비할 수 있다. 이 때, 각 음성 명령 수신 장치(210, 220)는 LED 램프를 특정한 규칙에 따라 점등/소등 시킨다. 그리고, 휴대용 장치의 카메라는 LED 램프의 점등/소등을 수신한다. 그리고, 센서 위치 결정부(160)는 LED 램프의 점등/소등 수신 여부, 수신 방향 등에 기초하여 각 음성 명령 수신 장치(210, 220)의 상대적인 위치를 감지한다. 감지된 위치 정보를 통합하여 센서 네트워크(400) 상의 음성 명령 수신 장치(210, 220)의 상대적인 위치를 연산할 수 있다.
4) 또는, 센서 네트워크(400)의 센서 위치 결정부(160)는 사용자(300)로부터 각 음성 명령 수신 장치(210, 220)의 물리적 위치를 직접 시스템에 입력 받아 그 위치 정보를 이용할 수도 있다.
위에서 센서 위치 결정부(160)가 다양한 방법을 통하여 음성 명령 수신 장치(210, 220)의 상대적인 위치를 결정하는 것을 예시하였지만, 상술한 방법 외에도 당업자는 다양한 방법으로 각 음성 명령 수신 장치(210, 220)의 상대적인 위치를 파악할 수 있다.
이 후, 사용자(300)의 음성 명령이 발화되면, 각 음성 명령 수신 장치(210, 220)의 마이크로폰에서 음성 명령(210, 220)을 수신한다. (단계 S520)
한편, 센서 네트워크 제어 장치(100)의 사용자 위치 연산부(150)는 각 음성 명령 수신 장치 내 센서(마이크로폰)에 인가되는 음성 신호의 인가(도달) 시간 차이(Time Difference of Arrival, TDOA) 및 각 음성 명령 수신 장치의 상대적 위치 정보를 이용하여, 사용자(300)의 상대적인 위치를 연산한다. (단계 S530)
이 경우, 각 음성 명령 수신 장치 내에 마이크로폰을 복수 개 설치하여 위치 추적의 용이성을 증가시킬 수 있다.
한편, 센서 네트워크 내의 음성 명령 수신 장치(210, 220)의 총 마이크로폰의 개수 또는 음성 명령이 수신된 마이크로폰의 개수가 적어 사용자의 위치를 확정적으로 구하기 어려울 경우, 아래와 같은 방법으로 근사하여 추정할 수 있다.
1) 예를 들어, 센서 내트워크가 설치된 실내 공간을 일정 구역으로 구획하고, 마이크로폰에 인가된 음성 명령의 크기에 따라 구획된 구간에 사용자의 위치를 추정하여 매핑시키는 방법을 사용할 수 있다.
2) 또는 예를 들어, 적어도 2개의 음성 명령 수신 장치(210, 220)로부터 연산된 거리에 기초하여, 사용자의 위치 가능 지역들이 중첩되는 위치를 사용자가 위치하는 영역으로 추정할 수 있다.
3) 또는, 센서 네트워크 내의 음성 명령 수신 장치(210, 220)가 위치한 정보와 해당 장소의 지도 정보 및 음성 명령이 해당 장소 실내 환경의 어느 부분에서 반사/회절/흡수되는지에 대한 추가적인 정보에 기초하여 사용자의 위치를 추정할 수 있다.
4) 또는 사용자가 지니고 있는 모바일 장치에서 무선 신호 또는 비컨 신호를 발생하고, 이 신호를 센서 네트워크(400) 상의 각 음성 명령 수신 장치에서 수신한다.
이 때, 센서 네트워크(400) 상의 음성 명령 수신 장치들이 수신한 신호의 크기, 도달 각도 정보에 기초하여 사용자의 위치를 추정할 수 있다.
5) 또는, 사용자의 발걸음 소리에 기초하여 사용자의 보행 속도, 방향에 대한 정보를 유추하고, 이를 누적하여 사용자의 현재 위치를 유추할 수 있다.
6) 또는, 사용자가 소지한 카메라에서 촬영된 영상 혹은 이미지와, 각 무선 네트워크의 음성 명령 수신 장치에서 촬영된 영상 혹은 이미지 사이에 특징점 매칭을 통하여 사용자의 상대적 위치를 추정할 수도 있다.
상술한 방법 외에도 당업자는 소리 외에 가시광, 적외선, 자외선 등을 이용하여 센서 네트워크(400) 상의 각 음성 명령 수신 장치의 상대적 위치를 연산할 수도 있다.
그리고, 센서 네트워크 제어 장치(100)의 발화 방향 연산부(110)는 사용자(300)의 발화 방향을 연산하여 결정할 수 있다. (단계 S540)
이하에서는 도 3 내지 도 6을 참조하여 발화 방향 결정에 대한 상세 동작을 설명한다.
도 3에 따르면, 발화 방향 연산부(110)는 각 음성 명령 수신 장치(210, 220)의 하우징의 영향 또는 마이크로폰의 지향성에 기초한 소리 감쇠 모델을 적용하여 사용자(300)의 위치에 대한 상대적 방향에 따른 각 음성 명령 수신 장치(210, 220)에 인가된 음량을 보정한다. (단계 S532)
마이크로폰(215)을 포함하는 음성 명령 수신 장치(210, 220)는 통상적으로 하우징(212)을 가지므로 음성을 수신할 경우에 방향에 따라 음성의 수신 강도가 달라지게 된다. 보다 구체적으로, 음성 명령 수신 장치(210, 220)가 조명 스위치로 구현된 경우의 실시예인 도 4를 참조하여 설명한다. 단, 본 발명의 음성 명령 수신 장치(210, 220)는 이에 한정되지 않는다.
도 4(a)는 본 발명의 실시예에 따른 음성 명령 수신 장치(210, 220)가 조명 스위치인 경우이며, 도 4(b)는 도 4(a)의 조명 스위치의 a-a' 부분의 절단면을 나타낸 도면이다.
이 경우, 마이크로폰(215) 전방의 개구부(213)를 통하여 전달되는 음성(217)과, 하우징(212)을 통과해 전달되는 음성(219)은 크기의 차이를 가지게 되며, 소리 감쇠 모델이 차이를 가지게 된다.
또는 마이크로폰(215)이 지향성을 가지는 경우, 예를 들어, 빔포밍(Beamforming) 마이크로폰을 사용하는 경우에는 방향에 따른 극성 패턴(Polar Pattern)을 가지게 된다. 도 5는 마이크로폰(215)이 지향성을 나타낸 극성 패턴에 대한 예시 그래프이다. 따라서, 이 경우, 지향성 마이크로폰은 특정 방향으로 소리가 인가되는 경우에 더 큰 소리가 입력되게 된다.
따라서, 본 발명의 실시예는, 정확한 발화 방향 도출을 위하여, 마이크로폰(215)의 지향성 또는 하우징의 영향에 따른 소리 감쇠 모델을 적용하여 각 음성 명령 수신 장치(210, 220)에 인가된 음량을 보정한다.
이 경우, 음성 명령 수신 장치(210, 220)는 정확한 방향을 도출하기 위하여 보조적으로 지자기 센서 등의 보조적인 방향 센서를 더 포함할 수 있다.
또는, 소리 감쇠 모델을 적용하는 경우에, 방향에 따른 감쇠가 일어나지 않거나 방향에 따른 감쇠가 거의 무시할 수준의 감쇠가 일어나는 음성 명령 수신 장치(210, 220)가 있으면, 이러한 음성 명령 수신 장치(210, 220)를 선별하여 선별된 음성 장치(210, 220)에 대한 소리 크기를 사용할 수도 있다.
그 후, 발화 방향 연산부(110)는 각 음성 명령 수신 장치(210, 220) 및 연산된 사용자의 위치 정보를 이용하여 거리에 따른 소리의 감쇠 모델을 적용, 각 장치가 동일한 거리에 있을 때의 음량을 환산하여 연산한다. (단계 S534)
도 6(a)를 참조하면, 사용자(300)이 발화하는 경우에, 얼굴이 있는 방향(발화 방향, ⓐ)으로는 소리가 더 잘 전달되고, 얼굴 뒷면의 방향(ⓑ)으로는 소리가 좀 더 감쇠되어 전달되게 된다.
따라서, 소리의 크기를 활용하여 발화 방향을 도출하기 위하여, 단계(S532)에서 연산한 음성 크기는 도 6(b)와 같이 사용자(300)로부터 동일한 거리에 음성 명령 수신 장치가 존재한다고 가정한 음성의 크기로 환산되게 된다. 발화 방향에 있는 음성 명령 수신 장치(220)의 경우에는 환산된 음성 크기(221)가 크게 산출되며, 발화 방향에 있지 않은 음성 명령 수신 장치(210)의 경우에는 환산된 음성 크기(211)가 상대적으로 작게 산출되게 된다. 따라서, 이러한 음성 크기의 환산을 통하여 발화 방향을 정확하게 구할 수 있게 된다.
마지막으로 환산된 음량에 기초하여, 발화 방향에 따른 동일 거리의 각 센서에서 수신되는 음량 크기에 대한 모델을 적용, 사용자의 발화 방향 범위(도 1의 230 참조)를 연산하여 결정한다. (단계 S536)
이 경우, 발화 방향 범위는, 환산된 음성 크기(211)가 가장 큰 방향을 중심으로 미리 정해진 범위(예컨대, 환산된 음성 크기(211)가 가장 큰 방향을 중심으로 좌/우로 15도 범위)로 정해질 수 있다.
또는 환산된 음성 크기(211)가 가장 큰 방향의 음성 명령 수신 장치와 2 번째로 큰 방향의 음성 명령 수신 장치가 서로 이웃하는 경우에는 두 개의 음성 명령 수신 장치의 무게 중심 또는 중간 각도를 중심으로 미리 정해진 범위(예를 들어, 30도)가 발화 방향이 될 수 있다.
이 경우, 음성 입력을 받은 마이크로폰의 개수가 사용자의 방향을 확정적으로 구하기 어려울 경우, 아래와 같이 근사하여 추정하는 방법을 활용한다.
1) 예를 들어, 도 6(a)와 같이 발화 방향에 따른 음성 크기의 비를 미리 구하여 발화 방향에 따른 음성 크기 모델을 산출한 후, 환산된 음성 크기들 간의 비를 구하여 발화 방향에 따른 음성 크기 모델에 적용하여 사용자(300)의 발화 방향을 근사 추정할 수 있다.
2) 또는 외부 요인의 영향을 받지 않는 통상적인 상태에서의 사용자의 음성 명령의 크기를 저장해 놓은 후, 외부 요인의 영향이 없는 음성 명령의 크기에 기초하여 발화 방향을 근사 추정할 수도 있다.
구체적으로, 음성 명령이 인가되었을 때, 외부 영향이 없는 음성 명령의 크기 및 발화 방향에 따른 크기의 감쇠율에 대한 모델에 기초하여 그 명령 방향을 유추할 수 있다. 또는, 음성 명령이 인가되었을 때에 실내 환경에서 소리의 반사/흡수 등의 물리적 특성에 대한 맵 정보를 이용하여 사용자의 발화 방향을 유추할 수 있다.
3) 또는, 사용자의 빔포밍 마이크로폰에 입력되는 사용자의 음성 명령 방향 정보, 사용자의 외부에서 들어오는 외부 소리의 방향 정보(외부 소리가 존재하지 않는 경우, 각 무선 네트워크에서 인위적으로 발생된 소리로 치환 가능), 각 무선 네트워크의 음성 명령 수신 장치에서 관측된 방향에 대한 정보를 통하여 사용자의 발화 방향을 결정할 수 있다. 이 경우, 빔포밍 마이크로폰은 특정 방향에서만 소리를 받을 수 있도록 특수한 형태로 하우징된 마이크로폰으로 치환 가능하다.
4) 또는, 도 7과 같이 각 음성 명령 수신 장치(210, 220)들이 사용되는 공간의 가장자리에 위치하고 있는 경우에는, 사용자가 그 사용되는 공간의 내부에서 명령을 내린다고 가정한 후, 각 음성 명령 수신 장치들이 사용되는 공간의 내부에서 감지된 세기를 비교하여 사용자의 발화 방향을 유추할 수 있다.
5) 또는 동일 거리에 각 음성 명령 수신 장치가 있다고 가정한 후의 환산 음량 크기에 기초하여 환산 음량 크기가 가장 큰 방향을 발화 방향으로 결정할 수도 있다.
다시 도 2를 참조하면, 센서 네트워크 제어 장치(100)의 대상 장치 선정부(130)는 사용자(300)의 음성 명령을 해석하는 과정에서 발화 방향 범위(230) 및 사용자(300)의 위치 정보를 참조하여 음성 명령의 대상이 되는 음성 명령 수신 장치(220)를 도출한다. (단계 S550)
이 경우, 사용자(300)의 음성 명령의 해석을 용이하게 하기 위하여 사용자의 발화 방향 범위(230)에 포함되는 음성 명령 수신 장치(220)들을 선별하여 선별된 음성 명령 수신 장치(220)들로 음성 명령 대상을 제한하여 음성 명령 대상 결정 과정을 용이하게 할 수 있다.
도 8을 참조하면, 이러한 음성 명령의 해석을 위하여, 대상 장치 선정부(130)는 대상 장치 학습부(135) 및 대상 장치 결정부(137)를 포함한다.
대상 장치 학습부(135)는 대상 장치의 선정을 위한 기계 학습을 수행한다.
기계 학습 시 음성 명령의 문맥적(Contextual), 환경적(Environmental) 요소를 참조하여 학습이 수행된다. 특히, 문맥적, 환경적 요소를 참조하기 위하여, 센서 네트워크 제어 장치(100)의 대상 장치 학습부(135)는 즉, 각 음성 명령 수신 장치(210, 220)에 대한 속성 정보를 구비할 수 있다.
예를 들어, 상기 속성 정보는 해당 음성 명령 수신 장치(210, 220)의 상대적 또는 절대적 위치 정보, 기능 정보, 클러스터링 정보, 기능의 동작 순서 및 음성 명령 이력을 포함할 수 있다.
해당 음성 명령 수신 장치(210, 220)의 상대적 또는 절대적 위치 정보는 최초 단계(S510)에서 파악한 각 음성 명령 수신 장치의 상대적 위치 또는 절대적 위치를 의미한다.
기능 정보는 해당 음성 명령 수신 장치(210, 220)의 종류, 예컨대, 조명 장치인지, 스피커인지 등을 나타내며, 각 장치의 상세 기능정보, 예컨대, 냉장고의 성애 제거기능 또는 에어컨의 송풍/냉방 모드 등의 상세 기능 정보를 더 포함할 수 있다.
클러스터링 정보는 실내 공간을 구획한 정보를 의미하며, 예컨대, 침실, 안방, 거실 등의 실내 공간 정보일 수 있다.
기능의 동작 순서는 문맥적 의미를 파악하기 위한 것으로서, 예컨대, 하나의 음성 명령 수신 장치(210, 220)이 밥솥인 경우, 최초 가열, 뜸들이기 모드 및 보온 모드 등의 동작 순서 일 수 있다. 또는, 여러가지 음성 명령 수신 장치(210, 220)의 통합적인 동작 순서일 수도 있다. 예컨대, 세탁기의 동작 후 건조기의 동작이 진행된다든지, 또는 냉장고의 문이 열린 후, 전자레인지의 동작이 진행된다든지 하는 정보일 수 있다.
음성 명령 이력은 사용자 정보, 발화 방향, 발화 내용,사용자 발화 위치 정보 및 음성 명령 성공 여부를 포함할 수 있으며, 음성 명령이 발화될 때마다 저장될 수 있다.
사용자 정보는 사용자의 일정시간 분량의 음성발성을 통해 입력된 음성 명령으로부터 사용자의 음성 특징에 해당하는 정보를 추출한 후, 이를 훈련 데이터로 사용하여 화자모델을 생성하고 해당 화자를 사용자로서 등록함으로써 화자식별기를 구성하고, 이를 토대로 사용자로부터 발화된 음성을 이용하여 등록 사용자들 중에서 특정 사용자를 식별하기 위한 정보이다.
발화 방향, 발화 내용 및 사용자 발화 위치 정보는 음성 명령의 발화 시 발화 방향 연산부(110)에서 파악한 발화 방향, 텍스트 형태의 음성 명령 및 사용자 위치 연산부(150)에서 연산한 발화 위치를 의미한다.
음성 명령 성공 여부는 음성 명령이 제대로 해석되었는지를 파악하는 정보로서 특정 시간 구간 동안 특정 발화 방향으로 동일한 발화 내용으로 연속된 명령을 수행하거나, 또는 연속된 명령에서 부정어(예를 들어 “아니” 등)이 있는지 여부에 따라 결정될 수 있다. 예를 들어, “그거 꺼”라는 명령이 발화된 후, TV가 꺼진 후에 “아니 조명 끄라고”라는 명령이 연속되는 경우에, “그거 꺼”라는 음성 명령은 대상이 제대로 선정되지 않은 것으로 저장될 수 있다.
대상 장치 학습부(135)는 상술한 속성 정보를 활용하여, 특정 사용자가 어떤 발화 방향으로 어떤 대상 장치에 어떤 내용의 명령을 내릴 확률이 높은지를 연산하여 저장할 수 있다. 예컨대, A라는 사용자는 저녁 9시에 천장 방향으로 조명을 끄라는 음성 명령을 발화할 가능성이 높은 경우에, 특정 사용자의 명령 내용/발화 방향에 기초하여 특정 대상 장치를 선택할 확률을 연산할 수 있다.
대상 장치 학습부(135)는 예를 들어, 서포트 벡터 머신 (support vector machine), 은닉 마르코프 모델 (Hidden Markov model), 회귀 분석 (Regression), 신경망 (Neural network), 나이브 베이즈 분류 (Naive Bayes Classification) 등의 방법을 통하여 학습될 수 있다.
대상 장치 결정부(137)는 기본적으로, 발화 방향 범위(230) 및 사용자(300)의 위치 정보를 참조하여 음성 명령의 대상이 되는 음성 명령 수신 장치(220)를 도출한다. 그러나, 추가적으로, 대상 장치 결정부(137)는 상술한 대상 장치 학습부(135)에서 기계 학습한 속성 정보에 기초하여 음성 명령의 문맥적 의미를 파악할 수 있다.
이 경우, 음성 명령의 의도와 지정된 음성 명령 수신 장치(210, 220)가 명확한 경우에는 문맥적 의미의 해석없이 음성 명령을 수행할 수 있다.
예를 들어, “안방 조명 기구를 꺼라”라는 명령일 경우에는 수행되는 음성 명령의 의도(꺼라)와 음성 명령을 수행할 음성 명령 수신 장치(210, 220)가 명확하므로 별도의 문맥적 의미의 해석이 필요 없을 수 있다.
그러나, 음성 명령에 대명사를 넣는 등의 불명확한 명령인 경우에는 발화 방향 및 사용자의 위치를 이용하여 음성 명령의 문맥적 의미를 해석할 수 있다.
예컨대, “그거 켜라” 라는 음성 명령이 있는 경우에는 대상 음성 명령 수신 장치(210, 220)가 불명확하기 때문에 문맥적 해석이 필요하다.
이 때, “그거”라는 대명사를 해석하기 위하여, 상술한 속성 정보, 사용자의 위치 및 발화 방향 정보를 활용할 수 있다.
사용자의 위치가 안방에 있고, 조명 기구가 있는 천장 방향을 향해서 사용자가 음성 명령을 발화한 경우에는 문맥적 해석을 통하여 조명 기구를 끌 수 있다.
특히, 연속 명령의 경우에 발화 방향의 변화가 미리 정해진 범위 이내인 경우에는 문맥적으로 동일 음성 명령 수신 장치(210, 220)에 명령한 것으로 간주할 수 있다. 예컨대, “안방 조명 켜라”라는 명령 후에, 사용자의 발화 방향의 변화가 미리 정해진 범위 이내에서 다시 “그거 다시 꺼”라는 음성 명령이 인가되는 경우에는 대상 디바이스를 문맥적 해석에 따라 조명 기구로 결정할 수 있다.
또는, 기타 추가적인 요소의 위치(예컨대, 침대, 책상의 위치)를 센서 네트워크 제어 장치(100)의 저장부에 저장하고, 침대 위에서 사용자(300)가 명령을 내리는 경우에 침대에서 음성 명령이 발화되었다는 점을 참조하여 대상 음성 명령 수신 장치를 선별할 수도 있다.
마지막으로, 센서 네트워크 제어 장치(100)의 저장부(170)는 음성 명령 대상 장치, 사용자의 위치 및 발화 방향의 정보를 저장할 수 있다. (단계 S560) 따라서, 저장된 정보들은 추후에 음성 명령이 있을 경우에 음성 명령의 해석을 위한 자료로서 대상 장치 학습부(135)에서 활용될 수 있다.
예를 들어, 어느 위치에서, 어느 방향을 바라보며, 어떠한 의도, 대상에 대해 명령을 내렸는지에 대한 정보를 이력(History)로서 누적, 저장 및 학습하여, 해당 명령이 반복, 혹은 유사한 명령이 들어올 경우 이러한 학습된 내용을 기반으로 그 해석을 용이하게 한다. 예를 들어, 사용자(300)가 밤 시간대에 침대 위에서 천장방향을 발화 방향으로 하여 조명 스위치를 오프시키는 행위를 반복하는 경우에, 이러한 정보들을 조합하여 다음 번 사용자의 음성 명령 발화 시 대상 음성 명령 수신 장치를 선별하고 제어하는 것에 참조할 수 있다.
추가적으로, 제어부(195)는 선정된 대상 음성 명령 수신 장치(220)에 제어 신호를 송신할 수 있다. 예컨대, 제어부(195)는 대상 음성 명령 수신 장치(220)가 조명 스위치 또는 조명 시스템인 경우, 조명 스위치의 점등/소등을 제어 신호를 통하여 제어할 수 있다. 또는 예컨대, 대상 음성 명령 수신 장치(220)가 텔레비전인 경우, 제어부(195) 텔레비전의 온/오프, 음량 조절, 채널 변경 등 다양한 제어신호를 송신할 수 있다. 또는 대상 음성 명령 수신 장치(220)가 오디오인 경우, 제어부(195) 오디오의 온/오프, 음량 조절, 채널 변경 등 다양한 제어신호를 송신할 수 있다.
단, 앞서 서술한 바와 같이, 음량 조절, 채널 변경 등은 오디오, TV에 중복되는 명령일 수 있으며, 온/오프(점등/소등)의 경우는 조명, 오디오, TV 등에 중복되는 명령일 수 있다. 따라서, 음성 명령의 내용이 중복될 수 있다. 하지만, 본 발명에 따르면, 사용자의 발화 방향이 고려되기 때문에, 중복되는 음성 명령으로 인한 원하지 않는 기기의 원하지 않는 동작을 방지할 수 있다.
따라서, 본 발명은, 음성 명령을 수신하는 마이크로폰만을 이용하여, 그 사용자의 위치 및 방향에 따른 의도 파악을 용이하게 했다. 위치에 따른 정보뿐만 아니라, 명령을 내린 방향 정보 또한 사용하여, 사용자에게 향상된 서비스를 제공할 수 있다.
이러한 방법은 센서 네트워크(Sensor Network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication), 사물 인터넷(Internet of Things, IoT)을 위한 방법으로, 지능형 서비스(스마트 홈, 스마트 빌딩 등), 디지털 교육, 보안 및 안전 관련 서비스 등에 활용될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.
따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
Claims (31)
- 적어도 하나의 마이크로폰을 포함하는 복수의 음성 명령 수신 장치; 및
상기 복수의 음성 명령 수신 장치와 센서 네트워크를 통하여 연결되는 센서 네트워크 제어 장치를 포함하며,
상기 센서 네트워크 제어 장치는,
상기 복수의 음성 명령 수신 장치의 상대적 위치를 결정하는 센서 위치 결정부;
상기 상대적 위치에 기초하여 사용자의 위치를 연산하는 사용자 위치 연산부;
상기 복수의 음성 명령 수신 장치 각각의 음성 크기에 기초하여 환산 음성 크기를 연산하고, 환산 음성 크기에 기초하여 상기 사용자의 발화 방향 범위를 결정하는 발화 방향 연산부; 및
상기 발화 방향 범위에 따라 상기 복수의 음성 명령 수신 장치 중 음성 명령의 대상이 되는 대상 음성 명령 수신 장치를 선정하고, 대상 장치 학습부 및 대상 장치 결정부를 포함하는 대상 장치 선정부; 를 포함하며,
상기 환산 음성 크기는 상기 복수의 음성 명령 수신 장치가 상기 사용자로부터 동일한 거리에 있다고 가정한 경우의 음성 크기이며,
상기 대상 장치 학습부는 상기 사용자의 위치 정보, 발화 방향 및 특정 시간 구간 동안 동일한 발화 방향으로 동일한 내용의 연속된 음성 명령을 발화하거나, 또는 연속된 명령에서 부정어가 있는지 여부에 따라 결정되는 음성 명령 성공 여부를 포함하는 음성 명령 이력을 이용하여 상기 사용자의 음성 명령에 대한 기계 학습을 수행하고,
상기 대상 장치 결정부는 상기 기계 학습의 결과에 기초하여 상기 사용자의 발화 방향, 위치 정보 및 음성 명령 성공 여부에 기초한 음성 명령의 내용별 확률에 따라 음성 명령의 내용을 결정하는,
위치 기반 음성 인식 시스템.
- 제 1 항에 있어서, 상기 발화 방향 연산부는 소리 감쇠 모델을 이용하여 상기 복수의 음성 명령 수신 장치 각각의 음성 크기를 구한 후, 상기 복수의 음성 명령 수신 장치 각각의 음성 크기에 기초하여 환산 음성 크기를 구하는, 위치 기반 음성 인식 시스템.
- 제 2 항에 있어서, 상기 소리 감쇠 모델은 상기 복수의 음성 명령 수신 장치의 하우징의 영향 또는 상기 마이크로폰의 지향성 중 적어도 하나에 기초하는, 위치 기반 음성 인식 시스템.
- 삭제
- 제 1 항에 있어서, 상기 센서 위치 결정부는 상기 복수의 음성 명령 수신 장치 별로 특정 주파수의 소리를 방출하면, 상기 복수의 음성 명령 수신 장치의 마이크로폰이 방출된 특정 주파수의 소리를 수신하며, 수신된 특정 주파수의 소리의 크기에 기초하여 상기 복수의 음성 명령 수신 장치의 상기 상대적 위치를 연산하여 결정하는, 위치 기반 음성 인식 시스템.
- 삭제
- 삭제
- 제 1 항에 있어서, 상기 사용자의 발화 방향 범위는 상기 환산 음성 크기가 가장 큰 방향을 중심으로 미리 정해진 범위로 결정되는, 위치 기반 음성 인식 시스템.
- 제 1 항에 있어서, 상기 사용자의 발화 방향 범위는 상기 환산 음성 크기가 가장 큰 방향의 음성 명령 수신 장치와 상기 환산 음성 크기가 2번째로 큰 음성 명령 수신 장치가 서로 이웃하는 경우에 상기 환산 음성 크기가 가장 큰 방향의 음성 명령 수신 장치와 상기 환산 음성 크기가 2번째로 큰 음성 명령 수신 장치의 중간 각도를 중심으로 미리 정해진 범위로 결정되는, 위치 기반 음성 인식 시스템.
- 삭제
- 제 1 항에 있어서, 상기 대상 장치 선정부는 추가적인 요소의 위치를 입력받아 상기 추가적인 요소의 위치에 기초하여 상기 대상 음성 명령 수신 장치를 선정하는, 위치 기반 음성 인식 시스템.
- 제 1 항에 있어서, 상기 대상 장치 학습부는 해당 음성 명령 수신 장치의 기능 정보, 클러스터링 정보 및 복수의 음성 명령 수신 장치의 기능의 동작 순서, 중 적어도 하나를 포함하는 속성 정보를 포함하는, 위치 기반 음성 인식 시스템.
- 제 1 항에 있어서, 상기 음성 명령 이력은 사용자 정보, 발화 내용 및 음성 명령 성공 여부를 더 포함하며, 음성 명령이 발화될 때마다 저장되는, 위치 기반 음성 인식 시스템.
- 삭제
- 적어도 하나의 마이크로폰을 포함하는 복수의 음성 명령 수신 장치; 및 상기 복수의 음성 명령 수신 장치와 센서 네트워크를 통하여 연결되는 센서 네트워크 제어 장치를 포함하는 위치 기반 음성 인식 시스템에서,
상기 복수의 음성 명령 수신 장치의 상기 복수의 음성 명령 수신 장치의 상대적 위치를 결정하는 단계; 상기 상대적 위치에 기초하여 사용자의 위치를 연산하는 단계;
상기 복수의 음성 명령 수신 장치 각각의 음성 크기에 기초하여 환산 음성 크기를 연산하고, 환산 음성 크기에 기초하여 상기 사용자의 발화 방향 범위를 결정하는 단계; 및
상기 발화 방향 범위에 따라 상기 복수의 음성 명령 수신 장치 중 음성 명령의 대상이 되는 대상 음성 명령 수신 장치를 선정하는 단계; 를 포함하며,
상기 대상 음성 명령 수신 장치를 선정하는 단계는, 상기 사용자의 위치 정보, 및 발화 방향 범위 및 음성 명령 성공 여부를 포함하는 음성 명령 이력을 이용하여 상기 사용자의 음성 명령에 대한 기계 학습을 수행하는 단계와, 상기 기계 학습에 기초하여 상기 사용자의 발화 방향, 위치 정보 및 음성 명령 성공 여부에 기초한 음성 명령의 내용별 확률에 따라 음성 명령의 내용을 결정하고 결정된 음성 명령의 내용에 기초하여 상기 대상 음성 명령 수신 장치를 결정하는 단계를 포함하며, 상기 환산 음성 크기는 상기 복수의 음성 명령 수신 장치가 상기 사용자로부터 동일한 거리에 있다고 가정한 경우의 음성 크기이며,
상기 음성 명령 성공 여부는 특정 시간 구간 동안 동일한 발화 방향 범위에서 동일한 내용의 연속된 음성 명령을 발화하는지 여부 또는 연속된 명령에서 부정어가 있는지 여부에 따라 결정되는,, 위치 기반 음성 인식 방법.
- 제 15 항에 있어서, 상기 사용자의 발화 방향 범위를 결정하는 단계는, 소리 감쇠 모델을 이용하여 상기 복수의 음성 명령 수신 장치 각각의 음성 크기를 구하는 단계를 포함하는, 위치 기반 음성 인식 방법.
- 제 16 항에 있어서, 상기 소리 감쇠 모델은 상기 복수의 음성 명령 수신 장치의 하우징의 영향 또는 상기 마이크로폰의 지향성 중 적어도 하나에 기초하는, 위치 기반 음성 인식 방법.
- 삭제
- 제 15 항에 있어서, 상기 대상 음성 명령 수신 장치를 선정하는 단계는, 추가적인 요소의 위치를 입력받아 상기 추가적인 요소의 위치에 기초하여 상기 대상 음성 명령 수신 장치를 선정하는 단계를 포함하는, 위치 기반 음성 인식 방법.
- 제 15 항에 있어서, 상기 상대적 위치를 결정하는 단계는, 상기 복수의 음성 명령 수신 장치 별로 특정 주파수의 소리를 방출하는 단계와, 상기 복수의 음성 명령 수신 장치의 마이크로폰이 방출된 특정 주파수의 소리를 수신하는 단계와, 수신된 특정 주파수의 소리의 크기에 기초하여 상기 복수의 음성 명령 수신 장치의 상기 상대적 위치를 연산하여 결정하는 단계를 포함하는, 위치 기반 음성 인식 방법.
- 제 15 항에 있어서, 상기 사용자의 발화 방향 범위는 상기 환산 음성 크기가 가장 큰 방향을 중심으로 미리 정해진 범위로 결정되는, 위치 기반 음성 인식 방법.
- 제 15 항에 있어서, 상기 사용자의 발화 방향 범위는 상기 환산 음성 크기가 가장 큰 방향의 음성 명령 수신 장치와 상기 환산 음성 크기가 2번째로 큰 음성 명령 수신 장치가 서로 이웃하는 경우에 상기 환산 음성 크기가 가장 큰 방향의 음성 명령 수신 장치와 상기 환산 음성 크기가 2번째로 큰 음성 명령 수신 장치의 중간 각도를 중심으로 미리 정해진 범위로 결정되는, 위치 기반 음성 인식 방법.
- 제 15 항에 있어서, 상기 음성 명령 이력은 사용자 정보, 발화 내용 및 음성 명령 성공 여부를 더 포함하며, 음성 명령이 발화될 때마다 저장되는, 위치 기반 음성 인식 방법.
- 제 15 항에 있어서, 상기 내용은 해당 사용자, 대상 음성 명령 수신 장치 및 장치의 동작을 포함하는, 위치 기반 음성 인식 방법.
- 삭제
- 삭제
- 제 15 항에 있어서, 상기 대상 음성 명령 수신 장치를 선정하는 단계는 음성 명령이 불명확한 명령인 경우에 상기 기계 학습에 기초하여 음성 명령의 내용을 결정하며,
상기 불명확한 명령은 대명사를 포함하는 음성 명령 또는 대상 음성 명령 수신 장치에 관한 정보가 없는 음성 명령을 포함하는,
위치 기반 음성 인식 방법.
- 제 1 항에 있어서, 상기 내용은 해당 사용자, 대상 음성 명령 수신 장치 및 장치의 동작을 포함하는, 위치 기반 음성 인식 시스템.
- 삭제
- 삭제
- 제 1 항에 있어서, 상기 대상 장치 결정부는 음성 명령이 불명확한 명령인 경우에 상기 기계 학습에 기초하여 상기 음성 명령의 내용을 결정하며,
상기 불명확한 명령은 대명사를 포함하는 음성 명령 또는 대상 음성 명령 수신 장치에 관한 정보가 없는 음성 명령을 포함하는,
위치 기반 음성 인식 시스템.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180017032A KR101972545B1 (ko) | 2018-02-12 | 2018-02-12 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
JP2018564984A JP6823085B1 (ja) | 2018-02-12 | 2018-02-13 | 音声命令による位置基盤音声認識システム(A Location Based Voice Recognition System Using A Voice Command) |
CN201880092326.8A CN112236815B (zh) | 2018-02-12 | 2018-02-13 | 通过语音命令的基于位置的语音识别系统 |
PCT/KR2018/001857 WO2019156272A1 (ko) | 2018-02-12 | 2018-02-13 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
EP18796566.0A EP3754650B1 (en) | 2018-02-12 | 2018-02-13 | Location-based voice recognition system through voice command |
US16/303,994 US10884096B2 (en) | 2018-02-12 | 2018-02-13 | Location-based voice recognition system with voice command |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180017032A KR101972545B1 (ko) | 2018-02-12 | 2018-02-12 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101972545B1 true KR101972545B1 (ko) | 2019-04-26 |
Family
ID=66281088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180017032A KR101972545B1 (ko) | 2018-02-12 | 2018-02-12 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10884096B2 (ko) |
EP (1) | EP3754650B1 (ko) |
JP (1) | JP6823085B1 (ko) |
KR (1) | KR101972545B1 (ko) |
CN (1) | CN112236815B (ko) |
WO (1) | WO2019156272A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020241906A1 (ko) * | 2019-05-24 | 2020-12-03 | 엘지전자 주식회사 | 음성인식을 이용하여 장치를 제어하는 방법 및 이를 구현하는 장치 |
CN114582318A (zh) * | 2021-12-31 | 2022-06-03 | 广州视声智能科技股份有限公司 | 一种基于语音识别的智能家居控制方法及系统 |
US11915697B2 (en) | 2020-11-11 | 2024-02-27 | Samsung Electronics Co., Ltd. | Electronic device, system and control method thereof |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101972545B1 (ko) * | 2018-02-12 | 2019-04-26 | 주식회사 럭스로보 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
KR20200049020A (ko) * | 2018-10-31 | 2020-05-08 | 삼성전자주식회사 | 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치 |
US11114104B2 (en) * | 2019-06-18 | 2021-09-07 | International Business Machines Corporation | Preventing adversarial audio attacks on digital assistants |
WO2021029457A1 (ko) * | 2019-08-13 | 2021-02-18 | 엘지전자 주식회사 | 사용자에게 정보를 제공하는 인공 지능 서버 및 그 방법 |
JP7405660B2 (ja) * | 2020-03-19 | 2023-12-26 | Lineヤフー株式会社 | 出力装置、出力方法及び出力プログラム |
CN111787609A (zh) * | 2020-07-09 | 2020-10-16 | 北京中超伟业信息安全技术股份有限公司 | 基于人体声纹特征和麦克风基站的人员定位系统及方法 |
CN111857041A (zh) * | 2020-07-30 | 2020-10-30 | 东莞市易联交互信息科技有限责任公司 | 一种智能设备的运动控制方法、装置、设备和存储介质 |
US11881219B2 (en) | 2020-09-28 | 2024-01-23 | Hill-Rom Services, Inc. | Voice control in a healthcare facility |
US20220131718A1 (en) * | 2020-10-25 | 2022-04-28 | Dizmo Ag | System and method for controlling devices |
CN114566171A (zh) * | 2020-11-27 | 2022-05-31 | 华为技术有限公司 | 一种语音唤醒方法及电子设备 |
CN115086096A (zh) * | 2021-03-15 | 2022-09-20 | Oppo广东移动通信有限公司 | 响应控制语音的方法、装置、设备及存储介质 |
US11875792B2 (en) * | 2021-08-17 | 2024-01-16 | International Business Machines Corporation | Holographic interface for voice commands |
WO2024053822A1 (en) * | 2022-09-05 | 2024-03-14 | Samsung Electronics Co., Ltd. | System and method for receiving a voice command |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002182679A (ja) * | 2000-12-18 | 2002-06-26 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
KR20050030906A (ko) * | 2005-02-07 | 2005-03-31 | 한국정보통신대학교 산학협력단 | 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법 |
JP2005316953A (ja) * | 2004-03-01 | 2005-11-10 | Microsoft Corp | データの意図を判定し、その意図に基づいてデータに応答するシステムおよび方法 |
JP2012169783A (ja) * | 2011-02-10 | 2012-09-06 | Canon Inc | 音声処理装置及び方法 |
JP2014083658A (ja) * | 2012-10-25 | 2014-05-12 | Panasonic Corp | 音声エージェント装置、及びその制御方法 |
KR20170044419A (ko) * | 2015-10-15 | 2017-04-25 | 삼성전자주식회사 | 사용자의 위치를 인식하는 사용자단말장치 및 방법 |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4726065A (en) * | 1984-01-26 | 1988-02-16 | Horst Froessl | Image manipulation by speech signals |
US6584439B1 (en) * | 1999-05-21 | 2003-06-24 | Winbond Electronics Corporation | Method and apparatus for controlling voice controlled devices |
EP1215658A3 (en) | 2000-12-05 | 2002-08-14 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
US6952672B2 (en) * | 2001-04-25 | 2005-10-04 | International Business Machines Corporation | Audio source position detection and audio adjustment |
JP3910898B2 (ja) * | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
KR101034524B1 (ko) * | 2002-10-23 | 2011-05-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음성에 근거하여 장치를 제어하는 음성 제어 유닛, 제어되는 장치 및 장치를 제어하는 방법 |
GB2398913B (en) * | 2003-02-27 | 2005-08-17 | Motorola Inc | Noise estimation in speech recognition |
JP4346571B2 (ja) * | 2005-03-16 | 2009-10-21 | 富士通株式会社 | 音声認識システム、音声認識方法、及びコンピュータプログラム |
US7518631B2 (en) * | 2005-06-28 | 2009-04-14 | Microsoft Corporation | Audio-visual control system |
WO2007034392A2 (en) * | 2005-09-21 | 2007-03-29 | Koninklijke Philips Electronics N.V. | Ultrasound imaging system with voice activated controls using remotely positioned microphone |
EP1908640B1 (en) * | 2006-10-02 | 2009-03-04 | Harman Becker Automotive Systems GmbH | Voice control of vehicular elements from outside a vehicular cabin |
US8054990B2 (en) * | 2006-11-22 | 2011-11-08 | General Motors Llc | Method of recognizing speech from a plurality of speaking locations within a vehicle |
US20090055180A1 (en) * | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method for optimizing speech recognition in a vehicle |
KR20090025939A (ko) * | 2007-09-07 | 2009-03-11 | (주)한국파워보이스 | 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법 |
US9026447B2 (en) * | 2007-11-16 | 2015-05-05 | Centurylink Intellectual Property Llc | Command and control of devices and applications by voice using a communication base system |
JP5075664B2 (ja) * | 2008-02-15 | 2012-11-21 | 株式会社東芝 | 音声対話装置及び支援方法 |
EP2146519B1 (en) * | 2008-07-16 | 2012-06-06 | Nuance Communications, Inc. | Beamforming pre-processing for speaker localization |
EP2216775B1 (en) * | 2009-02-05 | 2012-11-21 | Nuance Communications, Inc. | Speaker recognition |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
JP2011118124A (ja) * | 2009-12-02 | 2011-06-16 | Murata Machinery Ltd | 音声認識システムと認識方法 |
WO2012116110A1 (en) * | 2011-02-22 | 2012-08-30 | Speak With Me, Inc. | Hybridized client-server speech recognition |
JP5708155B2 (ja) * | 2011-03-31 | 2015-04-30 | 富士通株式会社 | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム |
US20130073293A1 (en) * | 2011-09-20 | 2013-03-21 | Lg Electronics Inc. | Electronic device and method for controlling the same |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US9384751B2 (en) * | 2013-05-06 | 2016-07-05 | Honeywell International Inc. | User authentication of voice controlled devices |
JP6158006B2 (ja) * | 2013-09-17 | 2017-07-05 | 株式会社東芝 | 音声処理装置、方法、及びプログラム |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US9753119B1 (en) * | 2014-01-29 | 2017-09-05 | Amazon Technologies, Inc. | Audio and depth based sound source localization |
US9554208B1 (en) | 2014-03-28 | 2017-01-24 | Marvell International Ltd. | Concurrent sound source localization of multiple speakers |
US9817634B2 (en) * | 2014-07-21 | 2017-11-14 | Intel Corporation | Distinguishing speech from multiple users in a computer interaction |
US9432769B1 (en) * | 2014-07-30 | 2016-08-30 | Amazon Technologies, Inc. | Method and system for beam selection in microphone array beamformers |
US10204622B2 (en) * | 2015-09-10 | 2019-02-12 | Crestron Electronics, Inc. | Acoustic sensory network |
US10397751B2 (en) * | 2014-11-25 | 2019-08-27 | Fynd Technologies, Inc. | Geolocation bracelet, system, and methods |
US10083002B2 (en) * | 2014-12-18 | 2018-09-25 | International Business Machines Corporation | Using voice-based web navigation to conserve cellular data |
US9588498B2 (en) * | 2014-12-30 | 2017-03-07 | Nokia Technologies Oy | Method and apparatus for providing an intelligent alarm notification |
JP6739907B2 (ja) | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
US10027803B2 (en) * | 2015-12-18 | 2018-07-17 | At&T Intellectual Property I, L.P. | Enhanced automated attendant system |
KR20170097519A (ko) * | 2016-02-18 | 2017-08-28 | 삼성전자주식회사 | 음성 처리 방법 및 장치 |
US9749583B1 (en) * | 2016-03-31 | 2017-08-29 | Amazon Technologies, Inc. | Location based device grouping with voice control |
US10448150B2 (en) * | 2016-06-03 | 2019-10-15 | Faraday & Future Inc. | Method and apparatus to detect and isolate audio in a vehicle using multiple microphones |
US10134399B2 (en) * | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10026403B2 (en) * | 2016-08-12 | 2018-07-17 | Paypal, Inc. | Location based voice association system |
US10147423B2 (en) * | 2016-09-29 | 2018-12-04 | Intel IP Corporation | Context-aware query recognition for electronic devices |
US9998847B2 (en) * | 2016-11-17 | 2018-06-12 | Glen A. Norris | Localizing binaural sound to objects |
CN108231073B (zh) * | 2016-12-16 | 2021-02-05 | 深圳富泰宏精密工业有限公司 | 语音控制装置、系统及控制方法 |
US10327117B2 (en) * | 2017-02-08 | 2019-06-18 | CliniCloud Inc. | Virtual mesh network for medical voice command devices |
US10219098B2 (en) * | 2017-03-03 | 2019-02-26 | GM Global Technology Operations LLC | Location estimation of active speaker |
US10460727B2 (en) * | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US10983753B2 (en) * | 2017-06-09 | 2021-04-20 | International Business Machines Corporation | Cognitive and interactive sensor based smart home solution |
WO2019036630A1 (en) * | 2017-08-17 | 2019-02-21 | Google Llc | SCALING AN IMAGE OF THE FACE OF A SPEAKER BASED ON THE DISTANCE OF THE FACE AND THE SIZE OF THE DISPLAY DEVICE |
CN107479397A (zh) * | 2017-09-25 | 2017-12-15 | 千寻位置网络有限公司 | 基于位置信息的智能家居语音控制系统及方法 |
US10524046B2 (en) * | 2017-12-06 | 2019-12-31 | Ademco Inc. | Systems and methods for automatic speech recognition |
US10735411B1 (en) * | 2018-01-31 | 2020-08-04 | Amazon Technologies, Inc. | Multi-factor location-based authentication |
KR101972545B1 (ko) * | 2018-02-12 | 2019-04-26 | 주식회사 럭스로보 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
-
2018
- 2018-02-12 KR KR1020180017032A patent/KR101972545B1/ko active IP Right Grant
- 2018-02-13 EP EP18796566.0A patent/EP3754650B1/en active Active
- 2018-02-13 JP JP2018564984A patent/JP6823085B1/ja active Active
- 2018-02-13 WO PCT/KR2018/001857 patent/WO2019156272A1/ko active Application Filing
- 2018-02-13 CN CN201880092326.8A patent/CN112236815B/zh active Active
- 2018-02-13 US US16/303,994 patent/US10884096B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002182679A (ja) * | 2000-12-18 | 2002-06-26 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
JP2005316953A (ja) * | 2004-03-01 | 2005-11-10 | Microsoft Corp | データの意図を判定し、その意図に基づいてデータに応答するシステムおよび方法 |
KR20050030906A (ko) * | 2005-02-07 | 2005-03-31 | 한국정보통신대학교 산학협력단 | 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법 |
JP2012169783A (ja) * | 2011-02-10 | 2012-09-06 | Canon Inc | 音声処理装置及び方法 |
JP2014083658A (ja) * | 2012-10-25 | 2014-05-12 | Panasonic Corp | 音声エージェント装置、及びその制御方法 |
KR20170044419A (ko) * | 2015-10-15 | 2017-04-25 | 삼성전자주식회사 | 사용자의 위치를 인식하는 사용자단말장치 및 방법 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020241906A1 (ko) * | 2019-05-24 | 2020-12-03 | 엘지전자 주식회사 | 음성인식을 이용하여 장치를 제어하는 방법 및 이를 구현하는 장치 |
JP2022534692A (ja) * | 2019-05-24 | 2022-08-03 | エルジー エレクトロニクス インコーポレイティド | 音声認識を用いて装置を制御する方法、及びこれを具現する装置 |
JP7335979B2 (ja) | 2019-05-24 | 2023-08-30 | エルジー エレクトロニクス インコーポレイティド | 音声認識を用いて装置を制御する方法、及びこれを具現する装置 |
US11915697B2 (en) | 2020-11-11 | 2024-02-27 | Samsung Electronics Co., Ltd. | Electronic device, system and control method thereof |
CN114582318A (zh) * | 2021-12-31 | 2022-06-03 | 广州视声智能科技股份有限公司 | 一种基于语音识别的智能家居控制方法及系统 |
CN114582318B (zh) * | 2021-12-31 | 2022-11-15 | 广州视声智能科技股份有限公司 | 一种基于语音识别的智能家居控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6823085B1 (ja) | 2021-01-27 |
CN112236815B (zh) | 2022-08-23 |
US10884096B2 (en) | 2021-01-05 |
CN112236815A (zh) | 2021-01-15 |
EP3754650C0 (en) | 2023-08-16 |
JP2021505923A (ja) | 2021-02-18 |
US20200072937A1 (en) | 2020-03-05 |
WO2019156272A1 (ko) | 2019-08-15 |
EP3754650A4 (en) | 2021-10-06 |
EP3754650A1 (en) | 2020-12-23 |
EP3754650B1 (en) | 2023-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101972545B1 (ko) | 음성 명령을 통한 위치 기반 음성 인식 시스템 | |
US20200286482A1 (en) | Processing voice commands based on device topology | |
US10984790B2 (en) | Method of providing service based on location of sound source and speech recognition device therefor | |
EP3574399B1 (en) | A controller for controlling a plurality of light sources | |
KR20190094307A (ko) | 다른 기기의 동작을 제어할 수 있는 인공 지능 기기 및 그의 동작 방법 | |
KR20210010270A (ko) | 로봇 및 그의 기동어 인식 방법 | |
JP2018194810A (ja) | デバイス制御方法及び電子機器 | |
JP6681940B2 (ja) | ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置 | |
US20220270601A1 (en) | Multi-modal smart audio device system attentiveness expression | |
EP3777485B1 (en) | System and methods for augmenting voice commands using connected lighting systems | |
CN112673647B (zh) | 用于配置分布式麦克风系统的方法和控制器 | |
KR20190047677A (ko) | 사용자의 위치 및 공간에 알맞은 정보를 능동적으로 제공하는 방법 및 장치 | |
GB2567067A (en) | Processing voice commands based on device topology | |
US20230197075A1 (en) | Method of identifying target device and electronic device therefor | |
KR20230094769A (ko) | 목적 장치의 식별 방법 및 이를 위한 전자 장치 | |
KR20230086500A (ko) | 인공 지능 장치 | |
CN104345649B (zh) | 应用于声控装置的控制器与相关方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |