KR20220064768A - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
KR20220064768A
KR20220064768A KR1020200151247A KR20200151247A KR20220064768A KR 20220064768 A KR20220064768 A KR 20220064768A KR 1020200151247 A KR1020200151247 A KR 1020200151247A KR 20200151247 A KR20200151247 A KR 20200151247A KR 20220064768 A KR20220064768 A KR 20220064768A
Authority
KR
South Korea
Prior art keywords
electronic device
voice recognition
voice
utterance
information
Prior art date
Application number
KR1020200151247A
Other languages
English (en)
Inventor
황도형
신종영
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200151247A priority Critical patent/KR20220064768A/ko
Priority to PCT/KR2021/009654 priority patent/WO2022102908A1/ko
Priority to US17/484,516 priority patent/US12087283B2/en
Publication of KR20220064768A publication Critical patent/KR20220064768A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/0274Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

음성 인식 기능을 제공하는 전자 장치가 개시된다. 본 전자 장치는 다른 전자 장치와 통신을 수행하기 위한 통신 인터페이스, 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 메모리, 복수의 채널을 이용하여 소리를 감지하는 마이크 및 음성 인식 기능이 활성화되면 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 프로세서를 포함하고, 프로세서는, 트리거 음성이 마이크를 통하여 확인되면 트리거 음성의 발화 방향을 확인하고, 확인된 발화 방향에 대한 정보가 다른 전자 장치와 공유되도록 통신 인터페이스를 제어하고, 다른 전자 장치로부터 수신한 발화 방향 정보 및 확인된 발화 방향에 기초하여 발화 위치를 추정하고, 저장된 위치 정보와 추정된 발화 위치에 기초하여 전자 장치에서의 음성 인식 기능을 활성화한다.

Description

전자 장치 및 이의 제어 방법{ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF}
본 개시는 음성 인식 기능을 제공하는 전자 장치 및 이의 제어 방법에 관한 것으로, 보다 상세하게는 다른 전자 장치들과 정보를 공유하여 사용자 음성의 발화 위치를 추정하고, 발화 위치에 기초하여 하나의 전자 장치의 음성 인식 기능을 활성화하는 전자 장치 및 이의 제어 방법에 관한 것이다.
최근에는 음성 인식 기술의 발달로, 사용자 음성에 포함된 사용자 요청을 수행하는 인공지능 어시스턴트(예로, 빅스비TM, 어시스턴트TM, 알렉사TM 등)를 이용하여 서비스를 제공하는 다양한 전자 장치들이 제공되고 있다.
사용자는 특정 음성 명령어를 트리거 음성(또는 웨이크-업 워드(wake-up word))으로 사용하여, 트리거 음성이 입력되기 전에는 사용자 발화 음성에 대한 음성 인식을 수행하지 않고, 트리거 음성을 발화함으로써 전자 장치의 음성 인식 기능을 활성화시킬 수 있다. 한편, 같은 공간에 있는 다양한 음성 인식 장치들은 동일한 트리거 음성을 가지는 경우가 있으며, 이 경우 사용자의 트리거 음성 발화에 의해 여러 대의 전자 장치가 동시에 활성화되는 문제점이 존재하였다.
이에, 종래에는 입력 음압이 가장 높은 하나의 장치에 대한 음성 인식 기능이 활성화되도록 제어하여, 사용자로부터 가장 가까운 거리에 위치하는 하나의 전자 장치가 활성화되도록 하였다.
다만, 각각의 음성 인식 장치의 하드웨어 성능 차이 및 주변 잡음(noise) 영향에 따라, 사용자 음성이 발화된 위치에서 가장 가까운 장치가 아닌 다른 장치가 활성화되는 경우가 발생하는 문제가 있었다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 음성 인식 기능을 제공하는 다양한 전자 장치들 각각의 위치 정보 및 사용자 음성 발화 위치에 대한 방향 정보를 장치들 간에 공유함으로써 사용자 음성 발화 위치를 추정하고, 사용자 음성 발화 위치로부터 가장 가까운 거리에 위치한 하나의 전자 장치의 음성 인식 기능을 활성화하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위해 본 개시의 일 실시예에 따른 음성 인식 기능을 제공하는 전자 장치는, 다른 전자 장치와 통신을 수행하기 위한 통신 인터페이스, 상기 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 메모리, 복수의 채널을 이용하여 소리를 감지하는 마이크 및 음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 프로세서를 포함하고, 상기 프로세서는, 트리거 음성이 상기 마이크를 통하여 확인되면 상기 트리거 음성의 발화 방향을 확인하고, 상기 확인된 발화 방향에 대한 정보가 다른 전자 장치와 공유되도록 상기 통신 인터페이스를 제어하고, 다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하고, 상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화한다.
이 경우, 상기 프로세서는, 상기 추정된 발화 위치와 상기 전자 장치 사이의 거리가 다른 전자 장치와 상기 추정된 발화 위치 사이의 거리보다 가까운 것으로 확인되면 상기 음성 인식 기능을 활성화할 수 있다.
한편, 상기 메모리는, 상기 전자 장치 및 상기 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장하고, 상기 위치 정보는 상기 지도 정보 내의 지도 상의 위치 정보일 수 있다.
이 경우, 상기 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성될 수 있다.
한편, 상기 프로세서는, 상기 트리거 음성의 음압을 확인하고, 상기 확인된 음압에 대한 정보를 상기 확인된 발화 방향에 대한 정보와 함께 공유하도록 상기 통신 인터페이스를 제어하고, 상기 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화할 수 있다.
이 경우, 상기 프로세서는, 복수의 전자 장치와 발화 위치 간의 거리를 기초로 우선적으로 비교하고, 거리의 차이가 기설정된 값보다 작으면 음압 정보를 기초로 음성 인식 기능을 활성화할 장치를 결정할 수 있다.
한편, 상기 프로세서는, 상기 음성 인식 기능이 활성화되면, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행하고, 상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능한지 여부를 판단하고, 상기 판단 결과에 기초하여 상기 사용자 요청에 대응되는 동작을 수행할 수 있다.
이 경우, 상기 프로세서는, 상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능하다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행할 수 있다.
한편, 상기 프로세서는,상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송하도록 상기 통신 인터페이스를 제어할 수 있다.
이 경우, 상기 프로세서는, 상기 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 상기 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 상기 제어 신호를 전송하도록 상기 통신 인터페이스를 제어할 수 있다.
한편, 본 개시의 일 실시예에 따른 음성 인식 기능을 제공하는 전자 장치의 제어 방법은, 상기 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 단계, 복수의 채널을 이용하여 소리를 감지하는 마이크를 통하여 트리거 음성이 확인되면 상기 트리거 음성의 발화 방향을 확인하는 단계, 상기 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유하는 단계, 다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하는 단계, 상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는 단계 및 음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 단계를 포함한다.
이 경우, 상기 음성 인식 기능을 활성화하는 단계는, 상기 추정된 발화 위치와 상기 전자 장치 사이의 거리가 다른 전자 장치와 상기 추정된 발화 위치 사이의 거리보다 가까운 것으로 확인되면 상기 음성 인식 기능을 활성화할 수 있다.
한편, 상기 저장하는 단계는, 상기 전자 장치 및 상기 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장하고, 상기 위치 정보는 상기 지도 정보 내의 지도 상의 위치 정보일 수 있다.
이 경우, 상기 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성될 수 있다.
한편, 상기 제어 방법은, 상기 트리거 음성의 음압을 확인하는 단계를 더 포함하고, 상기 공유하는 단계는, 상기 확인된 음압에 대한 정보를 상기 확인된 발화 방향에 대한 정보와 함께 공유하고, 상기 음성 인식 기능을 활성화하는 단계는, 상기 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화할 수 있다.
이 경우, 상기 음성 인식 기능을 활성화하는 단계는, 복수의 전자 장치와 발화 위치 간의 거리를 기초로 우선적으로 비교하고, 거리의 차이가 기설정된 값보다 작으면 음압 정보를 기초로 음성 인식 기능을 수행할 장치를 결정할 수 있다.
한편, 상기 음성 인식 동작을 수행하는 단계는, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행하고, 상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능한지 여부를 판단하는 단계를 더 포함하고, 상기 판단 결과에 기초하여 상기 사용자 요청에 대응되는 동작을 수행할 수 있다.
이 경우, 상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송하는 단계를 더 포함할 수 있다.
이 경우, 상기 제어 신호를 다른 전자 장치로 전송하는 단계는, 상기 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 상기 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 상기 제어 신호를 전송할 수 있다.
한편, 본 개시의 일 실시예에 따른 전자 장치를 제어하기 위한 프로그램이 저장된 컴퓨터 판독 가능 기록 매체에 있어서, 상기 프로그램은, 상기 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 단계, 복수의 채널을 이용하여 소리를 감지하는 마이크를 통하여 트리거 음성이 확인되면 상기 트리거 음성의 발화 방향을 확인하는 단계, 상기 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유하는 단계, 다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하는 단계, 상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는 단계 및 음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 단계를 포함한다.
도 1은 본 개시의 일 실시예에 따른 음성 인식 시스템을 개략적으로 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 3은 본 개시의 일 실시예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도이다.
도 4는 본 개시의 일 실시예에 따른 전자 장치가 사용자 음성의 발화 위치를 추정하는 동작을 설명하기 위한 도면이다.
도 5는 사용자 음성이 발화된 환경에 대한 지도 정보에 기초하여, 같은 공간 내에 존재하는 다양한 전자 장치들 중 음성 인식 기능이 활성화되는 전자 장치를 결정하는 동작을 설명하기 위한 도면이다.
도 6은 사용자 발화 음성에 포함된 사용자 요청의 종류에 따라 음성 인식 기능이 활성화되는 전자 장치를 결정하는 동작을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 순서도이다.
도 8은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.
이하에서 설명되는 실시 예는 본 개시의 이해를 돕기 위하여 예시적으로 나타낸 것이며, 본 개시는 여기서 설명되는 실시 예들과 다르게, 다양하게 변형되어 실시될 수 있음이 이해되어야 할 것이다. 다만, 이하에서 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성요소에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명 및 구체적인 도시를 생략한다. 또한, 첨부된 도면은 개시의 이해를 돕기 위하여 실제 축척대로 도시된 것이 아니라 일부 구성요소의 치수가 과장되게 도시될 수 있다.
본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
그리고, 본 명세서에서는 본 개시의 각 실시 예의 설명에 필요한 구성요소를 설명한 것이므로, 반드시 이에 한정되는 것은 아니다. 따라서, 일부 구성요소는 변경 또는 생략될 수도 있으며, 다른 구성요소가 추가될 수도 있다. 또한, 서로 다른 독립적인 장치에 분산되어 배치될 수도 있다.
나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 개시의 실시 예를 상세하게 설명하지만, 본 개시가 실시 예들에 의해 제한되거나 한정되는 것은 아니다.
이하에서는 도면을 참고하여 본 개시에 대해 상세하게 설명하도록 한다.
도 1은 본 개시의 일 실시예에 따른 음성 인식 시스템을 개략적으로 설명하기 위한 도면이다.
도 1을 참고하면, 음성 인식 시스템(1000)은 음성 인식 기능을 제공하는 다양한 종류의 전자 장치(100)를 포함할 수 있다.
음성 인식 기능이란, 전자 장치(100)가 마이크와 같은 소리 센서를 통해 획득하는 음향학적 신호를 단어나 문장으로 변환시키는 기능을 포함할 수 있다. 일반적으로, 음성 인식 기능은 음성 신호를 추출한 후 잡음을 제거하는 작업을 수행하게 되며, 이후 음성 신호의 특징을 추출하여 음성 모델 데이터베이스(DB)와 비교하는 방식으로 음성 인식을 수행할 수 있다.
이에 따라, 전자 장치(100)는 사용자 발화 음성에 포함된 사용자 요청(예컨대, 전자 장치를 제어하기 위한 명령)에 대응되는 동작을 하거나, 사용자가 요청한 정보에 대한 답변을 제공하는 등의 다양한 생활 편의 서비스를 제공할 수 있다.
각각의 전자 장치(100)는 트리거 음성을 확인한 후 음성 인식 기능을 수행할 수 있다. 예를 들어, 전자 장치(100)는 트리거 음성이 입력되기 전에는 사용자 발화 음성에 대한 음성 인식을 수행하지 않고, 사용자가 트리거 음성을 발화함으로써 전자 장치의 음성 인식 기능을 활성화시킬 수 있다.
여기에서, 트리거 음성은 음성 인식 기능을 활성화시키기 위한 호출어로, 특정 단어 또는 문장일 수 있다. 예를 들어, 트리거 음성은 전자 장치 또는 인공지능 어시스턴트의 이름 등이 사용될 수 있다. 이러한 트리거 음성은 전자 장치에 미리 설정되어 있을 수 있고, 변경 또는 설정이 가능할 수 있다.
도 1을 참고하면, 사용자는 트리거 음성인 “하이 빅스비”를 발화함으로써 전자 장치(100)의 음성 인식 기능을 활성화시킬 수 있다. 이 경우, 사용자가 위치한 공간에는 음성 인식 기능을 제공하는 복수의 전자 장치가 배치되어 있을 수 있다. 음성 인식 기능을 제공하는 전자 장치는 스마트 스피커, TV, 에어컨, 공기청정기, 세탁기, 냉장고, 로봇 청소기, 주방 기구 등의 다양한 기기일 수 있으며, 이에 한정되는 것은 아니다.
사용자가 트리거 음성을 발화하는 경우, 일반적으로 가장 가까운 거리에 위치한 전자 장치를 통해 음성 인식 기능을 통한 서비스를 제공받고자 하는 의도를 가질 수 있다. 다만, 같은 공간 내에 배치된 다양한 음성 인식 장치들이 동일한 트리거 음성을 가지면, 사용자의 트리거 음성 발화에 의해 여러 대의 전자 장치가 동시에 활성화되는 문제가 있을 수 있다.
이에, 본 개시는 사용자 음성 발화 위치를 추정하여, 사용자 음성 발화 위치로부터 가장 가까운 거리에 위치한 하나의 전자 장치의 음성 인식 기능을 활성화할 수 있는 음성 인식 시스템 및 이를 구성하는 전자 장치를 제공한다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 2를 참고하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130) 및 마이크(140)를 포함할 수 있다.
통신 인터페이스(110)는 외부 장치와 통신을 수행하여 다양한 데이터를 송수신할 수 있다. 예를 들어, 전자 장치(100)는 통신 인터페이스(110)를 통해 다른 전자 장치들과 다양한 정보를 공유할 수 있다. 전자 장치 간의 정보 공유와 관련한 상세한 설명은 후술하기로 한다.
한편, 통신 인터페이스(110)는 근거리 통신망(LAN: Local Area Network), 인터넷 네트워크, 이동 통신 네트워크를 통해 외부 장치와 통신을 수행할 수 있음은 물론, BT(Bluetooth), BLE(Bluetooth Low Energy), WI-FI(Wireless Fidelity), WI-FI Direct(Wireless Fidelity Direct), Zigbee, NFC 등과 같은 다양한 통신 방식 등을 통해 외부 장치와 통신을 수행할 수 있다. 이를 위해, 통신 인터페이스(110)는 네트워크 통신을 수행하기 위한 다양한 통신 모듈을 포함할 수 있다. 예를 들어, 통신 인터페이스(110)는 블루투스 칩, 와이파이 칩, 무선 통신 칩 등을 포함할 수 있다.
메모리(120)는 프로세서(130)와 전기적으로 연결되며, 본 개시의 다양한 실시예를 위해 필요한 데이터를 저장할 수 있다.
메모리(120)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령어 또는 데이터를 저장할 수 있다. 특히, 메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(130)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(120), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(120)에는 디스플레이(150)의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.
메모리(120)는 전자 장치(100)의 위치 정보 및 다른 전자 장치의 위치 정보를 저장할 수 있다. 구체적으로, 메모리(120)는 전자 장치(100)가 위치하는 환경에 대한 지도 정보를 저장함으로써 지도 정보 내에 포함된 전자 장치(100) 및 다른 전자 장치의 위치 정보를 저장할 수 있다. 메모리(120)에 저장되는 지도 정보와 관련한 상세한 설명은 도 5에서 후술하기로 한다.
마이크(140)는 전자 장치(100) 주변에서 발생하는 소리 정보를 수신할 수 있다. 예를 들어, 마이크(140)는 사용자 발화 음성을 수신할 수 있다. 여기에서, 사용자 발화 음성은 전자 장치(100)의 특정 기능을 실행시키기 위한 음성, 예컨대 음성 인식 기능을 활성화시키거나 전자 장치를 제어하기 위한 명령과 같은 사용자 요청에 대응되는 동작을 실행시키기 위한 음성일 수 있다.
마이크(140)는 복수의 채널을 가지고, 이를 통해 마이크(140)에 입력된 음성이 발화된 방향을 인식할 수 있다. 예를 들어, 마이크(140)는 각각의 채널에 입력된 음원의 DOA(Delay of Arrival)를 이용한 음원 방향 감지 기술을 적용한 SSL(Sound Source Localization)을 통해 입력된 음원의 방향을 감지할 수 있다. 이 경우, 마이크(140)가 2개의 채널을 포함할 경우 180도 범위의 방향을 감지할 수 있고, 3개 이상의 채널을 포함하는 경우 360도 범위의 방향을 감지할 수 있다.
SSL을 통해 음원 방향을 감지하는 방법의 일 예로, 마이크(140)에 포함된 복수의 채널 간 이격된 거리 및 각각의 채널에 음원 신호가 입력된 시간 사이의 차이를 이용하여 입력된 음원의 발생 방향을 인식할 수 있다. 예를 들어, 제1 채널과 제2 채널이 일정 간격을 가지고 순차적으로 배치된 경우, 음원 신호가 제1 채널과 제2 채널에 순차적으로 입력되면, 음원의 발생 방향은 제1 채널의 위치와 더 가까운 것으로 인식할 수 있다.
프로세서(130)는 통신 인터페이스(110), 메모리(120) 및 마이크(140)와 전기적으로 연결되며, 전자 장치(100)의 전반적인 동작을 제어할 수 있다.
본 개시의 일 실시 예에 따라, 프로세서(130)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서, AI(Artificial Intelligence) 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 프로세서(130)는 메모리(120)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다.
프로세서(130)는 마이크(140)를 통해 트리거 음성이 수신되면, 수신된 신호에 기초하여 트리거 음성의 발화 방향을 확인할 수 있다. 그리고, 프로세서(130)는 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유하도록 통신 인터페이스(110)를 제어하고, 다른 전자 장치로부터 수신한 발화 방향 정보와 메모리(120)에 저장된 전자 장치들의 위치 정보를 종합적으로 고려하여, 트리거 음성의 발화 위치를 추정할 수 있다. 발화 방향에 대한 정보 공유 및 트리거 음성의 발화 위치 추정과 관련한 상세한 설명은 도 4에서 후술하기로 한다.
프로세서(130)는 메모리(120)에 저장된 위치 정보 및 추정된 발화 위치에 기초하여 전자 장치(100)에서의 음성 인식 기능을 활성화하고, 음성 인식 기능이 활성화되면 사용자 발화 음성에 대한 음성 인식 동작을 수행할 수 있다. 예를 들어, 프로세서(130)는 전자 장치(100)가 다른 전자 장치들에 비해 추정된 발화 위치로부터 가장 가까운 거리에 위치한 것으로 판단되면, 전자 장치(100)의 음성 인식 기능을 활성화하고, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식 동작을 수행할 수 있다. 복수의 전자 장치 중 음성 인식 기능을 활성화할 전자 장치를 결정하는 방법 및 이에 따라 음성 인식을 수행하는 동작과 관련한 상세한 설명은 도 4 내지 도 6에서 후술하기로 한다.
도 3은 본 개시의 일 실시예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도이다.
도 3을 참고하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130), 마이크(140), 디스플레이(150), 스피커(160) 및 입력 인터페이스(170)를 포함할 수 있다. 도 3에 도시된 구성 중 도 2에 도시된 구성과 중복되는 부분에 대해서는 자세한 설명을 생략하도록 한다.
디스플레이(150)는 다양한 영상을 표시할 수 있다. 여기에서, 영상은 정지 영상 또는 동영상 중 적어도 하나를 포함하는 개념일 수 있다. 디스플레이(150)는 LCD(liquid crystal display), OLED(organic light-emitting diode), LCoS(Liquid Crystal on Silicon), DLP(Digital Light Processing), QD(quantum dot) 디스플레이 패널 등과 같은 다양한 형태로 구현될 수 있다.
스피커(160)는 다양한 오디오를 출력할 수 있다. 예를 들어, 전자 장치(100)는 스피커(160)를 통해 사용자가 요청한 정보에 대한 답변을 오디오 형태로 제공할 수 있다.
입력 인터페이스(170)는 다양한 사용자 명령을 입력 받을 수 있다. 예를 들어, 입력 인터페이스(170)는 전자 장치(100)를 제어하기 위한 사용자 명령을 입력 받을 수 있다. 입력 인터페이스(170)는 사용자 발화 음성을 입력 받는 마이크(140)를 포함할 수 있으며, 터치 스크린을 통해 사용자 명령을 입력 받는 디스플레이(150)를 포함할 수도 있다.
도 4는 본 개시의 일 실시예에 따른 전자 장치가 사용자 음성의 발화 위치를 추정하는 동작을 설명하기 위한 도면이다.
도 4는 사용자로부터 서로 다른 거리에 위치한 두 대의 전자 장치(100)를 도시한 것이다. 이하, 편의상 각각의 전자 장치를 제1 전자 장치(100-1) 및 제2 전자 장치(100-2)로 명명하여 설명하도록 한다.
본 개시의 일 예로, 사용자는 전자 장치(100-1, 100-2) 중 어느 하나의 음성 인식 기능을 활성화하기 위한 트리거 음성을 발화할 수 있다. 이 경우, 같은 공간 내에 배치된 제1 전자 장치(100-1) 및 제2 전자 장치(100-2)는 트리거 음성을 수신할 수 있다.
제1 전자 장치(100-1) 및 제2 전자 장치(100-2)는 각각 구비한 마이크를 통해 트리거 음성의 발화 방향을 감지할 수 있다. 도 4를 참고하면, 제1 전자 장치(100-1)는 제1 전자 장치(100-1)의 위치를 기준으로 제1 방향(d1)에서 트리거 음성이 발화된 것을 감지할 수 있고, 제2 전자 장치(100-2)는 제2 전자 장치(100-2)의 위치를 기준으로 제2 방향(d2)에서 트리거 음성이 발화된 것을 감지할 수 있다. 복수의 채널을 포함하는 마이크를 통한 방향 감지에 관하여 앞서 설명하였으므로, 중복되는 설명은 생략한다.
제1 전자 장치(100-1) 및 제2 전자 장치(100-2)는 각각의 위치에서 감지한 트리거 음성의 발화 방향에 대한 정보를 각각의 통신 인터페이스를 통해 서로 공유할 수 있다. 예를 들어, 동일 네트워크망을 사용하여 통신을 수행하는 복수의 전자 장치(100)는 해당 네트워크망을 통해 발화 방향 정보를 공유할 수 있으며, UDP(User Datagram Protocol)와 같은 통신 규약을 통해 정보를 공유할 수 있다.
또한, 각각의 전자 장치(100)는 전자 장치(100)가 위치하는 환경에 대한 지도 정보, 즉 복수의 전자 장치(100) 각각의 위치 정보를 저장할 수 있다. 이와 같은 지도 정보는 로봇 청소기와 같이 주변 환경을 맵핑 가능한 전자 장치로부터 제공될 수 있다. 이와 관련하여, 로봇 청소기를 통해 복수의 전자 장치(100) 각각의 위치 정보를 매핑하는 과정에 대한 상세한 설명은 도 5에서 후술하기로 한다.
각각의 전자 장치(100)는 스스로 감지한 발화 방향 정보, 다른 전자 장치로부터 공유된 발화 방향 정보 및 각각의 전자 장치(100)의 위치 정보를 종합하여, 발화 위치에 대한 접점을 산출함으로써 트리거 음성의 발화 위치를 추정할 수 있다.
각각의 전자 장치(100)는 추정된 발화 위치 정보와 각각의 전자 장치(100)의 위치 정보를 통해 각각의 전자 장치(100)의 추정된 발화 위치로부터의 거리를 산출할 수 있으며, 산출한 거리를 비교함으로써 복수의 전자 장치(100) 중 발화 위치와 가장 가까운 거리에 위치한 전자 장치(100)를 확인할 수 있다.
예를 들어, 도 4를 참고하면, 제1 전자 장치(100-1)는 공유된 발화 방향 정보 및 제1 전자 장치(100-1)와 제2 전자 장치(100-2)의 위치 정보에 기초하여 트리거 음성의 발화 위치를 추정하고, 추정된 발화 위치로부터 제1 전자 장치(100-1) 및 제2 전자 장치(100-2) 각각이 위치한 거리를 산출하여 비교함으로써 제1 전자 장치(100-1)가 제2 전자 장치(100-2)보다 발화 위치와 더 가까운 곳에 위치하는 것으로 판단하여 음성 인식 기능을 활성화할 수 있다.
반면, 제2 전자 장치(100-2)는 제2 전자 장치(100-2)가 제1 전자 장치(100-1)보다 트리거 음성의 발화 위치와 더 먼 곳에 위치하는 것으로 판단하여, 음성 인식 기능을 활성화하지 않을 수 있다.
한편, 전자 장치(100)는 추정된 발화 위치로부터의 거리를 산출한 후, 다른 전자 장치에서 산출되어 공유 받은 거리 정보와 비교함으로써 정보가 공유된 전자 장치들 중 발화 위치로부터 가장 가까운 곳에 위치한 장치에 해당하는지 여부를 판단할 수도 있다.
도 4에서는 전자 장치(100)가 두 대인 것으로 도시하였으나 이에 한정되는 것은 아니며, 3대 이상의 전자 장치인 경우에도 동일한 동작을 통해 발화 위치를 추정하고, 각각의 전자 장치는 자기가 발화 위치로부터 가장 가까운 거리에 위치한 전자 장치인 것으로 판단되면 음성 인식 기능을 활성화할 수 있다.
도 5는 사용자 음성이 발화된 환경에 대한 지도 정보에 기초하여, 같은 공간 내에 존재하는 다양한 전자 장치들 중 음성 인식 기능이 활성화되는 전자 장치를 결정하는 동작을 설명하기 위한 도면이다.
도 5를 참고하면, 사용자의 주변 환경에는 다양한 전자 장치들이 배치되어 있으며, 각각의 전자 장치들에 대한 위치 정보는 지도 상의 위치 정보 형태로 각각의 전자 장치들에 제공될 수 있다.
예를 들어, 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성되어 각각의 전자 장치들로 전송될 수 있다. 로봇 청소기는 실내 환경을 주행하며 자동 맵핑 기술을 통해 실내 구조를 맵핑하고, 사물 인식 기능을 활용하여 실내에 배치된 전자 장치들을 인식함으로써, 각각의 전자 장치들의 위치 정보를 포함하는 지도 정보를 생성할 수 있다.
구체적으로, 로봇 청소기는 사물과의 거리를 감지하는 센서를 통해 실내 구조를 맵핑하거나, 카메라를 통해 획득한 주변 환경 이미지를 이용하여 실내 구조 맵핑 및 실내에 배치된 전자 장치들을 인식할 수 있다. 로봇 청소기는 카메라를 통해 주변 환경에 대한 이미지를 획득, 분석하여 이미지로부터 TV, 에어컨과 같은 전자 장치가 식별되면 실내 구조를 맵핑한 지도 정보에 식별된 전자 장치가 위치한 위치 정보를 저장할 수 있다.
또한, 사용자는 전자 장치의 위치를 직접 입력하여 지도 정보에 반영할 수도 있다.
또한, 각각의 전자 장치(100)는 전자 장치(100)가 위치하는 환경에 대한 지도 정보, 즉 복수의 전자 장치(100) 각각의 위치 정보를 저장할 수 있다. 이와 같은 지도 정보는 로봇 청소기와 같이 주변 환경을 맵핑 가능한 전자 장치로부터 제공될 수 있다.
각각의 전자 장치(100)는 스스로 감지한 발화 방향 정보, 다른 전자 장치들로부터 공유된 발화 방향 정보 및 지도 정보에 포함된 각각의 전자 장치(100)의 위치 정보를 종합하여, 발화 위치에 대한 접점을 산출함으로써 사용자 발화 음성의 발화 위치를 추정할 수 있다.
각각의 전자 장치(100)는 추정된 발화 위치 정보와 각각의 전자 장치(100)의 위치 정보를 통해 각각의 전자 장치(100)의 추정된 발화 위치로부터의 거리를 산출할 수 있으며, 산출한 거리를 비교함으로써 복수의 전자 장치(100) 중 발화 위치와 가장 가까운 거리에 위치한 전자 장치(100)를 음성 인식 기능을 활성화할 전자 장치로 결정할 수 있다.
예를 들어, 도 5를 참고하면, 복수의 전자 장치(100-1 내지 100-6) 중 사용자로부터 가장 가까운 거리에 위치한 전자 장치(100-1)인 스피커의 음성 인식 기능이 활성화될 수 있다.
도 6은 사용자 발화 음성에 포함된 사용자 요청의 종류에 따라 음성 인식 기능이 활성화되는 전자 장치를 결정하는 동작을 설명하기 위한 도면이다.
도 6은 사용자로부터 서로 다른 거리에 위치한 서로 다른 종류의 전자 장치(100) 두 대를 도시한 것이다. 이하, 편의상 각각의 전자 장치를 제1 전자 장치(100-1) 및 제2 전자 장치(100-2)로 명명하여 설명하도록 한다.
본 개시의 일 예로, 제1 전자 장치(100-1)는 스피커일 수 있고, 제2 전자 장치(100-2)는 디스플레이 장치일 수 있다.
이 경우, 사용자가 발화한 트리거 음성에 의해, 발화 위치로부터 상대적으로 가까운 거리에 있는 제1 전자 장치(100-1)의 음성 인식 기능이 활성화될 수 있다. 제1 전자 장치(100-1)는 음성 인식 기능이 활성화되면, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행할 수 있다.
도 6을 참고하면, 사용자는 트리거 음성 발화 후, 영화를 보여달라는 사용자 요청을 포함하는 음성을 발화할 수 있다. 제1 전자 장치(100-1)는 사용자 발화 음성인 “영화 보여줘”에 대한 음성 인식을 수행하여, 사용자의 요청을 입력 받을 수 있다. 이 경우, 제1 전자 장치(100-1)는 영상을 표시할 수 있는 디스플레이를 포함하지 않으므로, 입력 받은 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단할 수 있다.
전자 장치(100)는 전자 장치(100)가 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송할 수 있다. 이 경우, 전자 장치는 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 제어 신호를 전송할 수 있다.
예를 들어, 도 6을 참고하면, 제1 전자 장치(100-1)는 공유된 정보에 기초하여 주변에 위치한 전자 장치 중 영상을 표시하기 위한 디스플레이를 포함하며, 디스플레이를 포함하는 전자 장치들 중 발화 위치로부터 가장 가까운 곳에 위치한 전자 장치가 제2 전자 장치(100-2)인 것으로 판단할 수 있다. 제1 전자 장치(100-1)는 판단 결과에 기초하여, 제2 전자 장치(100-2)가 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 제2 전자 장치(100-2)로 전송할 수 있고, 제2 전자 장치(100-2)는 제어 신호를 전송 받아 사용자 요청에 대응되는 동작을 수행할 수 있다.
도 7은 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 순서도이다.
본 개시의 일 예에 따른 전자 장치(100)는 주변 환경에 대한 지도 정보를 저장(S710)할 수 있다. 이후, 트리거 음성이 확인(S720)되면, SSL을 통한 트리거 음성의 발화 방향을 확인(S730)하고, 발화 방향에 대한 정보를 동일 네트워크 망 장치 간 공유(S740)할 수 있다.
전자 장치(100)는 공유된 정보를 바탕으로, 트리거 음성을 수신한 전자 장치가 복수개인지 여부를 확인(S750)할 수 있다. 전자 장치(100)는 트리거 음성을 수신한 다른 전자 장치가 없다고 판단되면, 전자 장치(100)의 음성 인식 기능을 활성화할 수 있다.
한편, 동일한 트리거 음성을 수신한 장치가 복수개인 것으로 판단되면, 공유된 정보를 바탕으로 접점 산출을 통한 트리거 음성의 발화 위치를 추정(S760)하고, 적합한 전자 장치, 즉 발화 위치로부터 가장 가까운 거리에 있거나, 사용자 요청에 대응되는 동작을 수행 가능한 전자 장치 중 발화 위치로부터 가장 가까운 거리에 위치한 전자 장치의 음서 인식 기능을 활성화(S770)할 수 있다.
도 8은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.
음성 인식 기능을 제공하는 전자 장치는 전자 장치 및 다른 전자 장치의 위치 정보를 저장(S810)할 수 있다.
전자 장치는 전자 장치 및 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장할 수 있고, 이 경우 위치 정보는 지도 정보 내의 지도 상의 위치 정보일 수 있다. 여기에서, 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성되어 전자 장치로 제공된 정보일 수 있으며, 음성 인식 기능을 제공하는 다양한 전자 장치 각각의 위치 정보를 포함할 수 있다.
그리고, 전자 장치는 복수의 채널을 이용하여 소리를 감지하는 마이크를 통하여 트리거 음성이 확인되면 트리거 음성의 발화 방향을 확인(S820)할 수 있다.
여기에서, 트리거 음성은 트리거 음성은 음성 인식 기능을 활성화시키기 위한 호출어로, 특정 단어 또는 문장일 수 있다.
그리고, 전자 장치는 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유(S830)할 수 있다.
그리고, 전자 장치는 다른 전자 장치로부터 수신한 발화 방향 정보 및 확인된 발화 방향에 기초하여 발화 위치를 추정(S840)할 수 있다.
이에 따라, 다양한 전자 장치로부터 공유된 정보를 종합적으로 고려함으로써 사용자 음성의 발화 위치 추정의 정확도를 향상시킬 수 있다.
그리고, 전자 장치는 저장된 위치 정보와 추정된 발화 위치에 기초하여 전자 장치에서의 음성 인식 기능을 활성화(S850)할 수 있다.
이 경우, 전자 장치는 추정된 발화 위치와 전자 장치 사이의 거리가 다른 전자 장치와 추정된 발화 위치 사이의 거리보다 가까운 것으로 확인되면 음성 인식 기능을 활성화할 수 있다.
이에 따라, 사용자 음성의 발화 위치와 가장 가까운 거리에 위치한 전자 장치를 통해 음성 인식 기능을 제공하는 서비스의 정확도를 높일 수 있으며, 사용자 편의를 향상시킬 수 있다.
한편, 복수의 전자 장치가 발화 위치로부터 동일한 거리 범위 내에 있다고 판단되는 경우, 전자 장치에 입력된 음압의 크기를 통해 음성 인식 기능을 활성화할 전자 장치를 결정할 수 있다.
전자 장치는 트리거 음성의 음압을 확인할 수 있으며, 확인된 음압에 대한 정보를 확인된 발화 방향에 대한 정보와 함께 공유할 수 있다.
이 경우, 전자 장치는 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 전자 장치에서의 음성 인식 기능을 활성화할 수 있다.
예를 들어, 전자 장치는 복수의 전자 장치와 발화 위치 간의 거리를 기초로 우선적으로 비교하고, 거리의 차이가 기설정된 값보다 작으면 음압 정보를 기초로 음성 인식 기능을 수행할 장치를 결정할 수 있다.
이에 따라, 복수의 전자 장치가 발화 위치로부터 동일한 거리 범위 내에 있다고 판단되는 경우 입력 음압이 큰 전자 장치에서의 음성 인식 기능을 활성화할 수 있다.
그리고, 전자 장치는 음성 인식 기능이 활성화되면 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행(S860)할 수 있다.
한편, 전자 장치는 사용자 발화 음성에 포함된 사용자 요청의 종류에 따라 음성 인식 기능이 활성화되는 전자 장치를 결정할 수 있다.
예를 들어, 전자 장치는 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행하여 전자 장치가 사용자 요청에 대응되는 동작을 수행 가능한지 여부를 판단하고, 판단 결과에 기초하여 사용자 요청에 대응되는 동작을 수행할 수 있다.
전자 장치가 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 전자 장치는 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송할 수 있다.
이 경우, 전자 장치는 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 제어 신호를 전송할 수 있다.
이에 따라, 사용자 요청에 대응되는 동작을 수행 가능한 전자 장치 중 사용자 위치로부터 가장 가까운 전자 장치를 선택하여 사용자 요청에 대응되는 서비스를 제공할 수 있도록 하여 사용자 편의를 향상시킬 수 있다.
한편, 상술한 본 개시의 다양한 실시예에 따른 전자 장치에서의 처리 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시예에 따른 전자 장치의 처리 동작을 상술한 특정 기기가 수행하도록 한다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버 장치, 어플리케이션 스토어의 서버 장치, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
본 개시에 따른 전자 장치를 제어하기 위한 프로그램은 음성 인식 기능을 수행 가능한 다양한 전자 장치에 제공될 수 있다. 예를 들어, 스마트 스피커, TV, 에어컨, 공기청정기, 세탁기, 냉장고, 로봇 청소기, 주방 기구 등의 다양한 기기에 적용될 수 있으며, 이에 한정되는 것은 아니다. 본 개시에 따른 전자 장치를 제어하기 위한 프로그램을 제공 받은 기기는 다른 전자 장치들과 통신을 수행함으로써 정보를 공유할 수 있고, 이에 기초하여 발화 위치 추정, 음성 인식 기능 활성화 등 앞서 설명한 전자 장치의 동작을 수행할 수 있다.
이상에서는 본 개시의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
1000: 음성 인식 시스템 100: 전자 장치
110: 통신 인터페이스 120: 메모리
130: 프로세서 140: 마이크
150: 디스플레이 160: 스피커
170: 입력 인터페이스

Claims (20)

  1. 음성 인식 기능을 제공하는 전자 장치에 있어서,
    다른 전자 장치와 통신을 수행하기 위한 통신 인터페이스;
    상기 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 메모리;
    복수의 채널을 이용하여 소리를 감지하는 마이크; 및
    음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 프로세서;를 포함하고,
    상기 프로세서는,
    트리거 음성이 상기 마이크를 통하여 확인되면 상기 트리거 음성의 발화 방향을 확인하고,
    상기 확인된 발화 방향에 대한 정보가 다른 전자 장치와 공유되도록 상기 통신 인터페이스를 제어하고, 다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하고,
    상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 추정된 발화 위치와 상기 전자 장치 사이의 거리가 다른 전자 장치와 상기 추정된 발화 위치 사이의 거리보다 가까운 것으로 확인되면 상기 음성 인식 기능을 활성화하는, 전자 장치.
  3. 제1항에 있어서,
    상기 메모리는,
    상기 전자 장치 및 상기 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장하고,
    상기 위치 정보는 상기 지도 정보 내의 지도 상의 위치 정보인, 전자 장치.
  4. 제3항에 있어서,
    상기 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성된, 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 트리거 음성의 음압을 확인하고,
    상기 확인된 음압에 대한 정보를 상기 확인된 발화 방향에 대한 정보와 함께 공유하도록 상기 통신 인터페이스를 제어하고,
    상기 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는, 전자 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    복수의 전자 장치와 발화 위치 간의 거리를 기초로 우선적으로 비교하고, 거리의 차이가 기설정된 값보다 작으면 음압 정보를 기초로 음성 인식 기능을 활성화할 장치를 결정하는, 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 음성 인식 기능이 활성화되면, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행하고,
    상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능한지 여부를 판단하고,
    상기 판단 결과에 기초하여 상기 사용자 요청에 대응되는 동작을 수행하는, 전자 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능하다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행하는, 전자 장치.
  9. 제7항에 있어서,
    상기 프로세서는,
    상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송하도록 상기 통신 인터페이스를 제어하는, 전자 장치.
  10. 제9항에 있어서,
    상기 프로세서는,
    상기 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 상기 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 상기 제어 신호를 전송하도록 상기 통신 인터페이스를 제어하는, 전자 장치.
  11. 음성 인식 기능을 제공하는 전자 장치의 제어 방법에 있어서,
    상기 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 단계;
    복수의 채널을 이용하여 소리를 감지하는 마이크를 통하여 트리거 음성이 확인되면 상기 트리거 음성의 발화 방향을 확인하는 단계;
    상기 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유하는 단계;
    다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하는 단계;
    상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는 단계; 및
    음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 단계;를 포함하는, 제어 방법.
  12. 제11항에 있어서,
    상기 음성 인식 기능을 활성화하는 단계는,
    상기 추정된 발화 위치와 상기 전자 장치 사이의 거리가 다른 전자 장치와 상기 추정된 발화 위치 사이의 거리보다 가까운 것으로 확인되면 상기 음성 인식 기능을 활성화하는, 제어 방법.
  13. 제11항에 있어서,
    상기 저장하는 단계는,
    상기 전자 장치 및 상기 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장하고,
    상기 위치 정보는 상기 지도 정보 내의 지도 상의 위치 정보인, 제어 방법.
  14. 제13항에 있어서,
    상기 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성된, 제어 방법.
  15. 제11항에 있어서,
    상기 트리거 음성의 음압을 확인하는 단계;를 더 포함하고,
    상기 공유하는 단계는,
    상기 확인된 음압에 대한 정보를 상기 확인된 발화 방향에 대한 정보와 함께 공유하고,
    상기 음성 인식 기능을 활성화하는 단계는,
    상기 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는, 제어 방법.
  16. 제15항에 있어서,
    상기 음성 인식 기능을 활성화하는 단계는,
    복수의 전자 장치와 발화 위치 간의 거리를 기초로 우선적으로 비교하고, 거리의 차이가 기설정된 값보다 작으면 음압 정보를 기초로 음성 인식 기능을 수행할 장치를 결정하는, 제어 방법.
  17. 제11항에 있어서,
    상기 음성 인식 동작을 수행하는 단계는,
    사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행하고, 상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능한지 여부를 판단하는 단계;를 더 포함하고,
    상기 판단 결과에 기초하여 상기 사용자 요청에 대응되는 동작을 수행하는, 제어 방법.
  18. 제17항에 있어서,
    상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송하는 단계;를 더 포함하는, 제어 방법.
  19. 제18항에 있어서,
    상기 제어 신호를 다른 전자 장치로 전송하는 단계는,
    상기 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 상기 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 상기 제어 신호를 전송하는, 제어 방법.
  20. 전자 장치를 제어하기 위한 프로그램이 저장된 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 프로그램은,
    상기 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 단계;
    복수의 채널을 이용하여 소리를 감지하는 마이크를 통하여 트리거 음성이 확인되면 상기 트리거 음성의 발화 방향을 확인하는 단계;
    상기 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유하는 단계;
    다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하는 단계;
    상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는 단계; 및
    음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 단계;를 포함하는 기록 매체.
KR1020200151247A 2020-11-12 2020-11-12 전자 장치 및 이의 제어 방법 KR20220064768A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200151247A KR20220064768A (ko) 2020-11-12 2020-11-12 전자 장치 및 이의 제어 방법
PCT/KR2021/009654 WO2022102908A1 (ko) 2020-11-12 2021-07-26 전자 장치 및 이의 제어 방법
US17/484,516 US12087283B2 (en) 2020-11-12 2021-09-24 Electronic apparatus and controlling method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200151247A KR20220064768A (ko) 2020-11-12 2020-11-12 전자 장치 및 이의 제어 방법

Publications (1)

Publication Number Publication Date
KR20220064768A true KR20220064768A (ko) 2022-05-19

Family

ID=81601359

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200151247A KR20220064768A (ko) 2020-11-12 2020-11-12 전자 장치 및 이의 제어 방법

Country Status (2)

Country Link
KR (1) KR20220064768A (ko)
WO (1) WO2022102908A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015029296A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
KR102025391B1 (ko) * 2017-05-15 2019-09-25 네이버 주식회사 사용자의 발화 위치에 따른 디바이스 제어
KR102697371B1 (ko) * 2018-10-31 2024-08-22 삼성전자주식회사 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치
KR102624327B1 (ko) * 2019-03-15 2024-01-15 삼성전자주식회사 IoT 기기의 위치 추론 방법, 이를 지원하는 서버 및 전자 장치
KR20190107622A (ko) * 2019-09-02 2019-09-20 엘지전자 주식회사 이동형 에이젼트를 이용한 실시간 음성 인식 모델 업데이트 방법 및 장치

Also Published As

Publication number Publication date
WO2022102908A1 (ko) 2022-05-19

Similar Documents

Publication Publication Date Title
US11721341B2 (en) Electronic device and controlling method thereof
KR102513297B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
US11094323B2 (en) Electronic device and method for processing audio signal by electronic device
KR102541718B1 (ko) 키 문구 사용자 인식의 증강
US20180374476A1 (en) System and device for selecting speech recognition model
TW202109245A (zh) 多模態使用者介面
KR102508863B1 (ko) 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
US20180217985A1 (en) Control method of translation device, translation device, and non-transitory computer-readable recording medium storing a program
KR20190090281A (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
KR20200029314A (ko) 음소기반 화자모델 적응 방법 및 장치
US10952075B2 (en) Electronic apparatus and WiFi connecting method thereof
KR20220064768A (ko) 전자 장치 및 이의 제어 방법
US20230062634A1 (en) Voice trigger based on acoustic space
US12087283B2 (en) Electronic apparatus and controlling method thereof
KR20200012408A (ko) 스마트 프로젝터 및 그 제어 방법
KR102168812B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
JP7018850B2 (ja) 端末装置、決定方法、決定プログラム及び決定装置
US20210005203A1 (en) Voice processing apparatus and voice processing method
KR20210054246A (ko) 전자장치 및 그 제어방법
US11600275B2 (en) Electronic device and control method thereof
US20240184867A1 (en) Adaptive Guest Mode for Portable Speakers
WO2024077588A1 (en) Voice-based user authentication
KR20220060739A (ko) 전자장치 및 그 제어방법
KR20200012410A (ko) 스마트 디바이스 및 그 제어 방법