KR20200126509A - 가전기기 및 이의 제어 방법 - Google Patents

가전기기 및 이의 제어 방법 Download PDF

Info

Publication number
KR20200126509A
KR20200126509A KR1020190050246A KR20190050246A KR20200126509A KR 20200126509 A KR20200126509 A KR 20200126509A KR 1020190050246 A KR1020190050246 A KR 1020190050246A KR 20190050246 A KR20190050246 A KR 20190050246A KR 20200126509 A KR20200126509 A KR 20200126509A
Authority
KR
South Korea
Prior art keywords
user
event
home appliance
processor
voice
Prior art date
Application number
KR1020190050246A
Other languages
English (en)
Inventor
안창규
김민경
유미영
이형진
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190050246A priority Critical patent/KR20200126509A/ko
Priority to US16/859,330 priority patent/US11551686B2/en
Priority to EP21168201.8A priority patent/EP3866134B1/en
Priority to CN202010354010.0A priority patent/CN111862968A/zh
Priority to EP20172122.2A priority patent/EP3734566B1/en
Publication of KR20200126509A publication Critical patent/KR20200126509A/ko
Priority to US17/352,722 priority patent/US11270701B2/en
Priority to KR1020210090550A priority patent/KR20210090588A/ko
Priority to US17/666,083 priority patent/US11749277B2/en
Priority to US18/226,524 priority patent/US20230368790A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C23/00Non-electrical signal transmission systems, e.g. optical systems
    • G08C23/02Non-electrical signal transmission systems, e.g. optical systems using infrasonic, sonic or ultrasonic waves
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/10Power supply of remote control devices
    • G08C2201/12Power saving techniques of remote control or controlled devices
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/30User interface
    • G08C2201/31Voice input
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2823Reporting information sensed by appliance or service execution status of appliance services in a home automation network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2823Reporting information sensed by appliance or service execution status of appliance services in a home automation network
    • H04L12/2827Reporting to a device within the home network; wherein the reception of the information reported automatically triggers the execution of a home appliance functionality
    • H04L12/2829Reporting to a device within the home network; wherein the reception of the information reported automatically triggers the execution of a home appliance functionality involving user profiles according to which the execution of a home appliance functionality is automatically triggered

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)

Abstract

가전기기가 개시된다. 개시된 가전기기는, 센서, 마이크, 스피커 및 프로세서를 포함하며, 프로세서는, 센서를 통해 사용자 액션이 감지되는 제1 이벤트 및 음성 인식 모드를 개시하기 위한 트리거 명령어가 마이크를 통해 입력되는 제2 이벤트 중 하나가 발생하면 음성 인식 모드로 동작하며, 발생한 이벤트에 대응되는 오디오 신호를 출력하도록 스피커를 제어하고, 오디오 신호는, 제1 이벤트 및 제2 이벤트 각각에 대해 상이하게 설정된 오디오 신호인 가전기기이다.

Description

가전기기 및 이의 제어 방법{HOME APPLIANCE AND METHOD FOR CONTROLLING THEREOF}
본 개시는 가전기기 및 이의 제어 방법에 관한 것으로, 보다 상세하게는 사용자 액션이 감지되는 이벤트가 발생하면 음성 인식 모드로 동작하는 가전기기 및 이의 제어 방법에 관한 것이다.
가전기기는 사용자의 제어 명령에 따라 다양한 기능을 수행할 수 있다. 최근의 가전기기는 키패드, 리모컨 등의 입력 장치를 통하여 제어 명령을 입력받는 것뿐만 아니라, 사용자 음성을 통하여 제어 명령을 입력받는 음성 인식 기능이 채용되고 있다.
특히, 사용자가 음성 인식 기능을 개시하는 트리거 명령어(예를 들어, 빅스비)를 발화하면, 트리거 명령어를 감지하여 음성 인식 모드로 동작하는 가전기기가 확대되고 있다.
본 개시의 목적은 사용자 액션이 감지되는 이벤트가 발생하면 음성 인식 모드로 동작하는 가전기기 및 이의 제어 방법을 제공하는 데 있다.
본 개시의 일 실시 예에 따른 가전기기는, 센서, 마이크, 스피커 및 프로세서를 포함하며, 상기 프로세서는, 상기 센서를 통해 사용자 액션이 감지되는 제1 이벤트 및 음성 인식 모드를 개시하기 위한 트리거 명령어가 상기 마이크를 통해 입력되는 제2 이벤트 중 하나가 발생하면 상기 음성 인식 모드로 동작하며, 상기 발생한 이벤트에 대응되는 오디오 신호를 출력하도록 상기 스피커를 제어하고, 상기 오디오 신호는, 상기 제1 이벤트 및 상기 제2 이벤트 각각에 대해 상이하게 설정된 오디오 신호일 수 있다.
한편, 본 개시의 일 실시 예에 따른 가전기기의 제어 방법은, 사용자 액션이 감지되는 제1 이벤트 및 음성 인식 모드를 개시하기 위한 트리거 명령어가 입력되는 제2 이벤트 중 하나가 발생하면, 상기 발생한 이벤트에 대응되는 오디오 신호를 출력하는 단계 및 상기 음성 인식 모드로 동작하는 단계를 포함하며, 상기 오디오 신호는, 상기 제1 이벤트 및 상기 제2 이벤트 각각에 대해 상이하게 설정된 오디오 신호일 수 있다.
한편, 본 개시의 일 실시 예에 따른 가전기기의 제어 방법을 실행하기 위한 프로그램이 저장된 기록 매체는, 상기 제어 방법은, 사용자 액션이 감지되는 제1 이벤트 및 음성 인식 모드를 개시하기 위한 트리거 명령어가 입력되는 제2 이벤트 중 하나가 발생하면, 상기 발생한 이벤트에 대응되는 오디오 신호를 출력하는 단계 및 상기 음성 인식 모드로 동작하는 단계를 포함하며, 상기 오디오 신호는, 상기 제1 이벤트 및 상기 제2 이벤트 각각에 대해 상이하게 설정된 오디오 신호일 수 있다.
도 1은 본 개시의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 가전기기의 간략한 구성을 나타내는 블록도,
도 3은 본 개시의 일 실시 예에 따른 가전기기의 구체적인 구성을 나타내는 블록도,
도 4는 본 개시의 일 실시 예에 따른 음성 인식 모듈을 도시한 블록도,
도 5는 본 개시의 제1 실시 예에 따른 음성 인식 모드의 개시 방법을 설명하기 위한 도면,
도 6은 본 개시의 제2 실시 예에 따른 음성 인식 모드의 개시 방법을 설명하기 위한 도면,
도 7은 본 개시의 제1 실시 예에 따른 대기 모드로의 전환 방법을 설명하기 위한 도면,
도 8은 본 개시의 제2 실시 예에 따른 대기 모드로의 전환 방법을 설명하기 위한 도면,
도 9는 복수의 사용자 각각의 권한 정보의 예를 도시한 도면,
도 10은 복수의 사용자 각각의 권한 정보에 따른 동작 실행을 설명하기 위한 도면이다.
도 11은 본 개시의 일 실시 예에 따른 음성 인식 모드의 알고리즘을 설명하기 위한 도면,
도 12는 본 개시의 제1 실시 예에 따른 복수의 사용자 각각의 권한 정보에 따른 동작 실행을 설명하기 위한 시퀀스도,
도 13은 본 개시의 제2 실시 예에 따른 복수의 사용자 각각의 권한 정보에 따른 동작 실행을 설명하기 위한 시퀀스도, 그리고,
도 14는 본 개시의 일 실시 예에 따른 가전기기의 제어 방법을 설명하기 위한 흐름도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
이하에서는 도면을 참조하여 본 개시에 대해 더욱 상세히 설명하기로 한다.
도 1은 본 개시의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.
도 1을 참조하면, 음성 인식 시스템(1000)은 가전기기(100) 및 서버(200)를 포함한다.
가전기기(100)는 냉장고, 세탁기, 오븐, 전자 레인지 등일 수 있으며, 음성 인식 모드를 지원한다면 상술한 기기뿐만 아니라 상술한 기기 이외의 다른 기기일 수도 있다.
가전기기(100)는 웨이크 업(Wake Up) 액션을 감지할 수 있다(①). 여기서 웨이크 업 액션이란, 사용자가 제어 명령, 문의 또는 응답을 발화할 가능성이 있는 이벤트를 의미한다. 예를 들어, 사용자의 트리거 명령어의 발화 또는 가전기기(100)의 도어의 개폐 등이 웨이크 업 액션에 해당될 수 있다.
그리고 가전기기(100)는 음성 인식 모드로 동작할 수 있다(②). 그리고 가전기기(100)는 음성 인식 모드가 개시됨을 알리는 피드백을 수행할 수 있다(③). 구체적으로, 가전기기(100)는 음성 인식 모드가 개시됨을 알리는 오디오 신호를 출력할 수 있다.
이때, 오디오 신호는 발생한 이벤트에 따라 상이하게 설정될 수 있다. 구체적으로, 트리거 명령어가 감지된 이벤트가 발생한 경우에는 음성 인식 모드가 개시됨을 알리는 단순 알림음을 출력하고, 사용자 액션이 감지되는 이벤트가 발생한 경우에는 음성 인식 모드가 개시됨을 구체적으로 알리는 음성 메시지가 출력될 수 있다.
그리고 가전기기(100)는 사용자가 발화한 사용자 음성을 입력받을 수 있다(④). 그리고 가전기기(100)는 입력받은 사용자 음성을 서버(200)로 전송할 수 있다(⑤).
서버(200)는 클라이언트에게 네트워크를 통해 정보나 서비스를 제공하는 컴퓨터(server computer) 또는 프로그램(server program)을 의미한다.
그리고 서버(200)는 입력받은 음성에 대하여 음성 인식을 수행할 수 있다(⑥). 구체적으로, 서버(200)는 음성 인식 모듈을 이용하여 입력받은 음성에 대하여 음성 인식을 수행할 수 있다. 그리고 서버(200)는 음성 인식 결과를 가전기기(100)에 전송할 수 있다(⑦).
그리고 가전기기(100)는 음성 인식 결과에 대응되는 동작을 실행할 수 있다. 한편, 가전기기(100)는 동작을 실행하기에 앞서, 발화한 사용자에게 동작에 대한 권한 유무를 확인하고, 권한이 확인되면 동작을 실행할 수 있다. 이에 대한 구체적인 동작은 도 3과 관련하여 후술한다.
한편, 도 1을 도시하고 설명함에 있어서, 음성 인식 시스템이 1개의 가전기기 및 1개의 서버를 포함하는 것으로 도시하고 설명하였지만, 구현시에는 복수의 가전기기 또는 복수의 서버를 포함하는 것으로 구현할 수 있다.
또한, 도 1을 도시하고 설명함에 있어서, 음성 인식 시스템이 서버를 포함하는 것으로 도시하고 설명하였지만, 구현시에는 가전기기가 서버의 기능을 모두 수행가능하도록 설계된 경우 음성 인식 시스템은 서버를 포함하지 않도록 구현할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 가전기기의 간략한 구성을 나타내는 블록도이다.
도 2를 참조하면, 가전기기(100)는 센서(110), 마이크(120), 프로세서(140) 및 스피커(130)를 포함한다.
센서(110)는 사용자 액션을 감지한다. 구체적으로, 센서(110)는 가전기기(100)에 대한 사용자 액션을 감지할 수 있다.
예를 들어, 센서(110)가 가전기기(100)의 본체에 마련된 도어(미도시)의 개폐를 감지하는 센서인 경우, 센서(110)는 사용자에 의한 도어의 열림 또는 닫힘을 감지하여 대응되는 값을 출력할 수 있다. 이 경우, 센서(110)는 스위치로 구현되어, 스위치가 On이 되면 도어 닫힘에 대응되는 값을 출력하고, 스위치가 Off 되면 도어 열림에 대응되는 값을 출력할 수 있다.
또 다른 예로, 센서(110)가 모션 감지 센서인 경우, 센서(110)는 가전기기(100)에 대한 사용자의 접근을 감지할 수 있다. 이 경우, 센서(110)는 IR 센서, 근접 센서, 열상 센서 또는 카메라 등으로 구현될 수 있다. 또 다른 예로, 센서(110)가 터치 감지 센서인 경우, 센서(110)는 가전기기(100)에 대한 사용자의 터치를 감지할 수 있다.
한편, 센서(110)의 종류는 상술한 예에 한하지 않으며, 가전기기(100)의 종류 또는 모델에 따라 상이할 수 있다. 또한, 센서(110)는 복수 개 구비될 수 있다.
마이크(120)는 음성을 입력받을 수 있다. 구체적으로, 마이크(120)는 사용자의 발화 음성을 입력받아 가전기기(100)에서 처리할 수 있는 음성 데이터로 변환할 수 있다. 그리고 마이크(120)는 변환된 음성 데이터를 프로세서(140)로 전달할 수 있다.
한편, 도시된 예에서는 마이크(120)가 가전기기(100)에 내장되는 것으로 설명하였지만, 구현 시에 마이크는 가전기기의 외부 장치로 구현될 수 있다. 즉, 외부의 마이크로부터 음성 신호를 수신하여 이용하는 형태로도 구현될 수 있다.
스피커(130)는 가전기기(100) 내에 구비되어 가전기기(100) 외부로 소리를 출력할 수 있다. 구체적으로, 스피커(130)는 프로세서(140)의 제어에 따라 오디오 신호를 소리로 변환하여 출력할 수 있다.
프로세서(140)는 가전기기(100)를 제어한다. 구체적으로, 프로세서(140)는 사용자의 제어 명령에 따라 가전기기(100)의 각 구성을 제어할 수 있다. 예를 들어, 가전기기(100)가 세탁기인 경우, 프로세서(140)는 탈수 명령을 수신하면 세탁물을 수용하는 드럼에 회전력을 제공하도록 모터의 동작을 제어할 수 있다.
프로세서(140)는 음성 인식 모드로 동작할 수 있다. 여기서 음성 인식 모드란, 프로세서(140)가 마이크(120)를 통해 입력된 사용자의 문의 및 응답을 자연어로 처리하는 동작 모드를 의미한다. 이때, 프로세서(140)는 음성 인식 모듈을 이용하여 직접 사용자의 문의 및 응답을 자연어로 처리하는 방식으로 구현될 수 있으며, 마이크(120)를 통해 입력된 음성을 서버로 전송하고 서버로부터 음성 인식 결과를 수신하는 방식으로도 구현될 수 있다. 한편, 음성 인식 모듈에 대한 구체적인 설명은 도 4와 관련하여 후술한다.
구체적으로, 프로세서(140)는 기설정된 이벤트가 발생하면 음성 인식 모드로 동작할 수 있다. 여기서 기설정된 이벤트란, 사용자가 제어 명령, 문의 또는 응답을 발화할 가능성이 있는 것으로 설정된 이벤트를 의미한다.
예를 들어, 기설정된 이벤트는 사용자가 음성 인식 모드를 개시하기 위한 트리거 명령어를 발화하고, 트리거 명령어가 포함된 음성이 마이크(120)를 통해 입력되는 이벤트일 수 있다. 이 경우 프로세서(140)는 트리거 명령어 감지 모델을 이용하여 마이크(120)를 통해 획득한 음성 데이터에 트리거 명령어의 포함 여부를 확인하고, 트리거 명령어가 포함된 것을 확인하면 음성 인식 모드로 동작할 수 있다. 한편, 트리거 명령어는 wake-up 명령어 또는 시작 명령어 등으로 지칭될 수 있다.
또 다른 예로, 기설정된 이벤트는 센서(110)를 통해 사용자 액션이 감지되는 이벤트일 수 있다. 이 경우 프로세서(140)는 센서(110)를 통해 사용자 액션이 감지되면 음성 인식 모드로 동작할 수 있다. 여기서 사용자 액션은 센서(110)의 종류에 따라 상이하게 설정될 수 있다.
만약, 센서(110)가 가전기기(100)의 본체에 마련된 도어의 개폐를 감지하기 위한 센서인 경우, 프로세서(140)는 센서(110)를 통해 도어의 열림 또는 닫힘이 감지되면 음성 인식 모드로 동작할 수 있다. 한편, 프로세서(140)는 센서(110)를 통해 도어의 열림이 감지되는 경우에만 음성 인식 모드로 동작하거나 도어의 닫힘이 감지되는 경우에만 음성 인식 모드로 동작하는 방식으로도 구현될 수도 있다. 이에 대한 구체적인 동작은 도 5 내지 도 6과 관련하여 후술한다.
반면, 센서(110)가 모션 감지 센서인 경우, 프로세서(140)는 센서(110)를 통해 가전기기(100)에 대한 사용자 접근이 감지되면 음성 인식 모드로 동작할 수 있다.
이와 같이, 프로세서(140)는 음성 인식 모드를 개시하기 위한 트리거 명령어가 마이크(120)를 통해 입력되거나 센서(110)를 통해 사용자 액션이 감지되면 음성 인식 모드로 동작할 수 있다.
그리고 프로세서(140)는 음성 인식 모드로 동작할 때, 음성 인식 모드로 동작함을 알리는 오디오 신호를 출력하도록 스피커(130)를 제어할 수 있다.
구체적으로, 프로세서(140)는 기설정된 이벤트가 발생하여 음성 인식 모드로 동작할 때, 기설정된 이벤트 각각에 대응되는 오디오 신호를 출력하도록 스피커(130)를 제어할 수 있다.
보다 구체적으로, 프로세서(140)는 트리거 명령어가 마이크(120)를 통해 입력되어 음성 인식 모드로 동작하면 제1 오디오 신호를 출력하도록 스피커(130)를 제어할 수 있다. 그리고 프로세서(140)는 센서(110)를 통해 사용자 액션이 감지되어 음성 인식 모드로 동작하면 제1 오디오 신호와 상이한 제2 오디오 신호를 출력하도록 스피커(130)를 제어할 수 있다.
여기서 제1 오디오 신호는 단순 알림 음일 수 있다. 이는 사용자가 트리거 명령을 발화한 경우, 사용자가 가전기기(100)의 음성 인식 모드를 의도한 것이기 때문에, 음성 인식 모드로의 동작함을 간단하게 알림과 동시에 사용자가 기다리지 않고 이어서 바로 제어 명령 또는 문의를 발화하도록 유도하기 위함이다.
한편, 제2 오디오 신호는 음성 인식 모드가 개시됨을 알리는 음성 메시지(예를 들어, “무엇을 도와 드릴까요?”)일 수 있다. 이는 사용자 액션이 감지되더라도 사용자가 가전기기(100)의 음성 인식 모드를 의도한 것인지 불확실한 바, 음성 인식 모드로 동작함을 구체적으로 알리면서 사용자가 제어 명령 또는 문의를 발화하도록 유도하기 위함이다.
그리고 프로세서(140)는 마이크(120)를 통해 입력된 음성에 대한 음성 인식을 수행할 수 있다. 구체적으로, 프로세서(140)는 음성 인식 모드로 동작하기 시작한 이후에 마이크(120)를 통해 입력된 음성에 대한 음성 인식을 수행할 수 있다.
이때 프로세서(140)는 가전기기(100)에 구비된 음성 인식 모듈을 이용하여 음성 인식을 수행할 수 있다. 또는, 프로세서(140)는 외부 서버(미도시)에 입력된 음성에 대응되는 음성 데이터를 전송하고, 전송한 음성 데이터에 대한 음성 인식 결과를 수신하는 방식으로 음성 인식을 수행할 수도 있다.
그리고 프로세서(140)는 음성 인식 결과에 대응되는 동작을 수행할 수 있다. 예를 들어, 가전기기(100)가 세탁기이고, 음성 인식 결과가 “세탁 30분”인 경우, 프로세서(140)는 가전기기(100)가 세탁 동작을 30분간 수행하도록 제어할 수 있다.
이상에서는 가전기기(100)의 간략한 구성만을 설명하였으나, 가전기기(100)는 도 3에 도시된 바와 같은 구성을 추가 포함할 수 있다. 가전기기(100)의 구체적인 구성에 대해서는 도 3을 참조하여 이하에서 설명한다.
도 3을 참조하면, 본 개시의 일 실시 예에 따른 가전기기의 구체적인 구성을 나타내는 블록도이다.
도 3을 참조하면, 본 실시 예에 따른 가전기기(100)는 센서(110), 마이크(120), 스피커(130), 프로세서(140), 유저 인터페이스 장치(150), 메모리(160), 통신 장치(170) 및 디스플레이(180)로 구성될 수 있다.
센서(110), 마이크(120) 및 스피커(130)의 구성은 도 2의 구성과 동일한 바 중복 설명은 생략한다. 그리고 프로세서(140)에 대해서도 도 2과 관련하여 설명하였는바, 도 2에서 설명한 내용은 중복 기재하지 않고, 도 3에 추가된 구성과 관련된 내용만 이하에서 설명한다.
프로세서(140)는 복수의 프로세서(141, 143)를 포함할 수 있다. 구체적으로, 프로세서(140)는 트리거 명령어를 감지하기 위한 제1 프로세서(141)와 음성 인식 모드로 동작하기 위한 제2 프로세서(143)를 포함할 수 있다.
제1 프로세서(141)는 대기 상태에서 턴 온 상태를 유지할 수 있다. 여기서 대기 상태란, 음성 인식 모드로 동작을 시작하기 위해 기설정된 이벤트의 발생 여부를 감지하는 상태를 의미한다. 그리고 제1 프로세서(141)는 트리거 명령어를 포함하는 사용자 음성이 마이크(120)를 통해 입력되면 제2 프로세서(143)로 알림 신호를 출력할 수 있다.
이와 같은 제1 프로세서(141)는 아날로그 음향 신호를 디지털 음향 신호로 변환하거나 디지털 음향 신호를 아날로그 음향 신호로 변환하는 오디오 칩셋(미도시)에 포함될 수 있다.
한편, 제2 프로세서(143)는 대기 상태에서 턴 오프 상태를 유지할 수 있다. 구체적으로, 제2 프로세서(143)는 대기 상태가 기설정된 시간 이상 유지되면 턴 온 상태에서 턴 오프 상태로 변경하여 유지할 수 있다. 그리고 제2 프로세서(143)는 제1 프로세서(141)에서 출력된 알림 신호를 수신하면 턴-온되어 음성 인식 모드로 동작할 수 있다.
유저 인터페이스 장치(150)는 사용자의 조작 등 사용자의 인터랙션을 입력받기 위한 구성이다. 구체적으로, 유저 인터페이스 장치(150)는 사용자로부터 가전기기(100)에 대한 각종 제어 명령을 입력받을 수 있다. 예를 들어, 가전기기(100)가 세탁기인 경우, 유저 인터페이스 장치(150)는 사용자로부터 세탁기의 탈수 명령을 입력할 수 있다.
유저 인터페이스 장치(150)는 가전기기(100)의 본체 외관의 전면, 측면 또는 배면 등 임의의 영역에 형성된 버튼이나 원격 제어 장치로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신하는 광 수신 장치 등을 포함할 수 있다. 한편, 디스플레이(180)가 터치 스크린이라면, 디스플레이(180)도 유저 인터페이스 장치(150)로 동작할 수 있다.
유저 인터페이스 장치(150)는 사용자로부터 기설정된 이벤트 각각에 대한 활성화 여부를 입력받을 수 있다.
구체적으로, 유저 인터페이스 장치(150)는 음성 인식 모드를 개시하기 위한 트리거 명령어가 마이크(120)를 통해 입력되는 이벤트 또는 센서(110)를 통해 사용자 액션이 감지되는 이벤트 각각에 대하여 활성화 여부를 입력받을 수 있다.
그리고 프로세서(140)는 기설정된 이벤트가 발생하면 상기 입력 결과에 따라 음성 인식 모드로 동작할 수 있다. 구체적으로, 기설정된 이벤트의 활성화를 입력받은 경우, 프로세서(140)는 기설정된 이벤트가 발생하면 음성 인식 모드로 동작할 수 있다. 그러나 기설정된 이벤트의 비활성화를 입력받은 경우, 프로세서(140)는 기설정된 이벤트가 발생하더라도 음성 인식 모드로 동작하지 않을 수 있다.
예를 들어, 유저 인터페이스 장치(150)가 음성 인식 모드를 개시하기 위한 트리거 명령어가 마이크(120)를 통해 입력되는 이벤트의 비활성화를 입력받은 경우, 프로세서(140)는 트리거 명령어가 마이크(120)를 통해 입력되더라도 음성 인식 모드로 동작하지 않을 수 있다.
또 다른 예로, 유저 인터페이스 장치(150)가 센서(110)를 통해 사용자 액션을 감지되는 이벤트의 비활성화를 입력받은 경우, 프로세서(140)는 센서(110)를 통해 사용자 액션이 감지되더라도 음성 인식 모드로 동작하지 않을 수 있다.
그리고 프로세서(140)는 기설정된 이벤트의 비활성화가 입력되면 비활성화된 기설정된 이벤트가 무엇이냐에 따라 추가적인 동작을 수행할 수 있다.
구체적으로, 음성 인식 모드를 개시하기 위한 트리거 명령어가 마이크(120)를 통해 입력되는 이벤트의 비활성화를 입력받은 경우, 프로세서(140)는 트리거 명령어의 감지를 수행할 필요가 없다. 따라서, 프로세서(140)는 가전기기(100)의 대기 상태에서 마이크(120)를 턴 오프함으로써 전력 소비를 줄일 수 있다.
이때, 센서(110)를 통해 사용자 액션이 감지된 이벤트에 대해서 활성화되어 있는 경우, 프로세서(140)는 센서(110)를 통해 사용자 액션이 감지되면 음성 인식 모드로의 동작을 위해 마이크(120)를 다시 턴-온시키고, 음성 인식 모듈을 실행할 수 있다.
반면, 센서(110)를 통해 사용자 액션이 감지되는 이벤트의 비활성화를 입력받은 경우, 프로세서(140)는 사용자 액션을 감지할 필요가 없다. 따라서 프로세서(140)는 대기 상태에서 사용자 액션을 감지하는 센서(110)를 턴-오프함으로써 전력 소비를 줄일 수 있다.
이때, 트리거 명령어가 마이크(120)를 통해 입력되는 이벤트에 대해서 활성화되어 있는 경우, 프로세서(140)는 트리거 명령어의 감지를 위해 대기 상태에서 마이크(120)의 턴-온을 유지할 수 있다.
메모리(160)는 프로세서(140)의 처리 또는 제어를 위한 프로그램 등 가전기기(100) 전반의 동작을 위한 다양한 데이터를 저장한다. 구체적으로, 메모리(160)는 가전기기(100)에서 구동되는 다수의 응용 프로그램, 가전기기(100)의 동작을 위한 데이터 및 명령어들을 저장할 수 있다.
그리고 메모리(160)는 프로세서(140)에 의해 액세스 되며, 프로세서(140)에 의한 데이터 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 이러한 메모리(160)는 가전기기(100) 내의 저장매체뿐만 아니라, 외부 저장 매체, USB 메모리를 포함한 Removable Disk, 네트워크를 통한 웹서버(Web server) 등으로 구현될 수 있다.
그리고 메모리(160)는 음성 인식 모듈을 저장할 수 있다. 그리고 프로세서(140)는 사용자 발화에 대한 응답으로 자연어를 생성하기 위하여 음성 인식 모듈을 이용할 수 있다. 음성 인식 모듈은 기존의 범용 프로세서(예를 들어, CPU) 또는 별도의 AI 전용 프로세서(예를 들어, GPU 등)에 의해 실행될 수 있다. 이에 대해서는 도 4와 관련하여 후술한다.
그리고 메모리(160)는 화자 인식 모델을 저장할 수 있다. 여기서 화자 인식 모델이란, 마이크(120)를 통해 입력된 음성에 포함된 성문(Vocal Print) 정보와 기등록된 사용자의 성문 정보를 이용하여, 기등록된 사용자 중 현재 발화자에 해당하는 사용자를 판별하는 모델을 의미한다.
그리고 프로세서(140)는 메모리(160)에 저장된 화자 인식 모델을 이용하여 마이크(120)를 통해 입력된 음성에 대응되는 사용자를 확인하는 화자 인식 기능을 수행할 수 있다.
메모리(160)는 사용자별 권한 정보를 저장할 수 있다. 구체적으로, 메모리(160)는 복수의 사용자 각각의 가전기기(100)의 복수의 동작 각각에 대한 권한 정보를 저장할 수 있다.
그리고 프로세서(140)는 마이크(120)를 통해 사용자 음성이 입력되면, 사용자 음성을 식별하여 사용자를 인식하고, 사용자 음성에 대응되는 가전기기(100)의 동작이 인식된 사용자의 권한 정보에 부합되면 사용자 음성에 대응되는 가전기기(100)의 동작을 실행할 수 있다.
보다 구체적으로, 프로세서(140)는 음성 인식 모드에서 마이크(120)를 통해 입력된 사용자 음성과 메모리(160)에 저장된 화자 인식 모델을 이용하여 사용자를 인식할 수 있다. 그리고 프로세서(140)는 메모리(160)에 저장된 사용자의 권한 정보를 이용하여 사용자 음성에 대응되는 가전기기(100)의 동작(예를 들어, 세탁 동작)이 인식된 사용자의 권한 정보에 부합되는지 확인하고, 권한이 부합되면 사용자 음성에 대응되는 가전기기(100)의 동작을 실행할 수 있다.
한편, 프로세서(140)는 마이크(120)를 통해 입력된 사용자 음성에 대응되는 사용자가 인식되지 않거나, 인식된 사용자가 사용자 음성에 대응되는 가전기기(100)의 동작에 대한 권한이 없는 경우, 사용자 음성에 대응되는 가전기기(100)의 동작을 실행하지 않을 수 있다.
이에 대한 구체적인 동작은 도 9 및 도 10과 관련하여 후술한다.
통신 장치(170)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행한다. 구체적으로, 통신 장치(170)는 타 가전기기와 통신을 수행할 수 있으며, 외부 네트워크(예를 들어, 인터넷, 서버 등)와 통신을 수행할 수도 있다. 이러한 동작을 위하여, 통신 장치(170)는 와이파이칩, 블루투스 칩을 포함할 수 있다.
예를 들어, 블루투스 칩을 이용하여 인접한 위치의 타 가전기기와 통신을 수행할 수 있으며, 와이파이 칩을 통하여 외부 서버와 통신을 수행할 수 있다.
만약 가전기기(100)가 외부 서버를 이용하여 음성 인식 기능을 수행하는 경우, 통신 장치(170)는 마이크(120)를 통해 입력된 음성에 대한 음성 데이터를 외부 서버에 전송하고, 외부 서버로부터 음성 인식 결과를 수신할 수 있다.
한편, 가전기기(100)가 외부 서버를 이용하여 화자 인식 기능을 수행하는 경우, 통신 장치(170)는 마이크(120)를 통해 입력된 음성에 대한 음성 데이터를 외부 서버에 전송하고, 외부 서버로부터 화자 인식 결과를 수신할 수 있다.
그리고 프로세서(140)는 수신한 화자 인식 결과(즉, 음성 데이터에 대응되는 사용자 정보)와 기저장된 복수의 사용자 각각의 가전기기(100)의 복수의 동작에 대한 권한 정보를 이용하여 권한 유무를 확인하고, 권한이 확인되면 음성 인식 결과에 대응되는 기능을 수행할 수 있다.
디스플레이(180)는 가전기기(100)에서 제공되는 각종 정보를 표시할 수 있다. 구체적으로, 디스플레이(180)는 가전기기(100)의 동작 상태를 표시하거나, 사용자가 선택한 동작 및 옵션 선택을 위한 사용자 인터페이스 창을 표시할 수 있다.
예를 들어, 디스플레이(180)는 음성 인식 기능의 수행 결과를 표시하거나, 사용자가 음성 인식 기능에 대한 설정을 변경할 수 있도록 인터페이스 창을 표시할 수 있다.
종래에는 마이크를 통해 입력된 사용자의 음성에 트리거 명령어가 포함된 경우에만 음성 인식 모드로 동작하여, 사용자가 음성 명령을 발화하기 이전에 필수적으로 트리거 명령어를 발화해야 하는 문제점이 있었다.
반면, 상술한 바와 같이 본 실시 예에 따른 가전기기는 사용자가 트리거 명령어를 발화하지 않아도 사용자가 음성 명령을 발화할 것으로 예상되는 사용자 액션이 감지되면 음성 인식 모드로 동작함으로써, 사용자가 필수적으로 시작 명령어를 발화해야 하는 불편함을 해결하는 효과를 갖는다.
또한, 본 실시 예에 따른 가전기기는 사용자 액션이 감지된 때 음성 인식 모드가 개시됨을 알리는 음성 메시지를 출력함으로써, 사용자가 가전기기의 음성 인식 모드를 의도한 것인지 불확실한 때에도 음성 인식 모드로 동작함을 구체적으로 알리면서 사용자가 제어 명령 또는 문의를 발화하도록 유도할 수 있다.
또한, 본 실시 예에 따른 가전기기는 트리거 명령어가 감지되는 이벤트를 비활성화하면 대기 상태에서 마이크를 턴 오프 시키고, 사용자 액션이 감지되는 이벤트를 비활성화하면 대기 상태에서 센서를 턴 오프 시킴으로써, 대기 상태에서 불필요한 구성에 소모되는 전력을 줄일 수 있다.
도 4는 본 개시의 일 실시 예에 따른 음성 인식 모듈을 도시한 블록도이다.
본 개시의 일 실시 예에 따른 음성 인식 모드의 동작은 도 4에 도시된 바와 같은 음성 인식 모듈(300)을 이용하여 수행될 수 있다. 본 개시의 일 실시 예 따르면, 음성 인식 모듈(300)은 가전기기(100)의 메모리(160) 내에 저장될 수 있다. 그러나, 이는 일 실시 예에 불과할 뿐, 음성 인식 모듈(300)에 포함된 적어도 하나는 외부의 적어도 하나의 서버에 포함될 수 있다.
음성 인식 모듈(300)은 도 4에 도시된 바와 같이, 자동 음성 인식(automatic speech recognition)(ASR) 모듈(310), 자연어 이해(natural language understanding)(NLU) 모듈(320), 대화 매니저(dialogue manager)(DM) 모듈(330), 자연어 생성(natural language generator)(NLG) 모듈(340) 및 텍스트 음성 변환(text to speech)(TTS) 모듈(350)을 포함할 수 있다.
자동 음성 인식(automatic speech recognition)(ASR) 모듈(310)은 가전기기(100)로부터 수신된 사용자 음성을 텍스트 데이터로 변환할 수 있다. 그리고, 자동 음성 인식 모듈(310)은 발화 인식 모듈을 포함할 수 있으며, 발화 인식 모듈은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 특히, 음향 모델은 사용자 음성의 음향 특징에 대한 정보를 획득할 수 있다.
자연어 이해 모듈(320)은 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다.
자연어 이해 모듈(320)은 사용자 입력을 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악하여 문법적 분석을 수행할 수 있다.
자연어 이해 모듈(320)은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 의미적 분석을 수행할 수 있다. 이에 따라, 자연어 이해 모듈(320)은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 의도를 표현하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))를 얻을 수 있다.
자연어 이해 모듈(320)은 도메인(domain), 의도(intend) 및 의도를 파악하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))로 나누어진 매칭 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다.
예를 들어, 하나의 도메인(예: 알람)은 복수의 의도(예: 알람 설정, 알람 해제 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예: 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 그리고, 복수의 룰은 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 한편, 매칭 규칙은 자연어 인식 데이터베이스(natural language understanding database)(NLU DB)(323)에 저장될 수 있다.
자연어 이해 모듈(320)은 형태소, 구 등의 언어적 특징(예: 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정할 수 있다.
예를 들어, 자연어 이해 모듈(320)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는 지를 계산하여 사용자 의도를 결정할 수 있다. 일 실시 예에 따르면, 자연어 이해 모듈(320)은 의도를 파악하는데 기초가 된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다.
또한, 자연어 이해 모듈(320)은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터베이스(323)를 이용하여 사용자의 의도를 결정할 수 있다.
자연어 이해 모듈(320)은 개인 지식 데이터베이스(Private knowledge DB)(325)를 이용하여 사용자 문의를 이해할 수 있다. 이때, 개인 지식 데이터베이스(325)는 가전기기(100)에 입력된 사용자 인터렉션, 가전기기(100)가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 지식 정보들의 관계가 학습될 수 있다. 이때, 개인 지식 데이터베이스(325)는 지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장할 수 있다.
대화 매니저 모듈(330)은 자연어 이해 모듈(320)에 의해 파악된 사용자의 의도가 명확한지 여부를 판단할 수 있다. 예를 들어, 대화 매니저 모듈(330)은 파라미터의 정보가 충분하지 여부에 기초하여 사용자의 의도가 명확한지 여부를 판단할 수 있다. 대화 매니저 모듈(330)은 자연어 이해 모듈(320)에서 파악된 파라미터가 태스크를 수행하는데 충분한지 여부를 판단할 수 있다.
일 실시 예에 따르면, 대화 매니저 모듈(330)는 사용자의 의도가 명확하지 않은 경우 사용자에게 필요한 정보를 요청하는 피드백을 수행할 수 있다. 예를 들어, 대화 매니저 모듈(330)은 사용자의 의도를 파악하기 위한 파라미터에 대한 정보를 요청하는 피드백을 수행할 수 있다. 또한, 대화 매니저 모듈(330)은 자연어 이해 모듈(320)에 의해 변경된 텍스트를 포함하는 사용자 문의를 확인하기 위한 메시지를 생성하여 출력할 수 있다.
자연어 생성 모듈(NLG 모듈)(340)은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 여기서, 지정된 정보는 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보(예: 사용자 입력에 대한 피드백 정보)일 수 있다.
텍스트 음성 변환 모듈(TTS 모듈)(350)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. 텍스트 음성 변환 모듈(350)은 자연어 생성 모듈(340)로부터 텍스트 형태의 정보를 수신하고, 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 스피커로 출력할 수 있다. 또한, 텍스트 형태의 정보는 가전기기(100)의 디스플레이(180)에 표시될 수 있다.
도 5 및 도 6은 음성 인식 모드의 다양한 개시 방법을 설명하기 위한 도면이다.
가전기기(100)는 센서(110)를 통해 사용자 액션이 감지되면 음성 인식 모드로 동작할 수 있다. 예를 들어, 가전기기(100)는 센서(110)를 통해 도어의 열림 또는 닫힘이 감지되면 음성 인식 모드로 동작할 수 있다.
이하에서는 설명의 편의를 위해 가전기기(100)가 세탁기인 것을 가정하며, 사용자 액션이 도어의 열림 또는 닫힘인 경우 각각에 대하여 가전기기(100)의 동작을 설명한다.
도 5는 본 개시의 제1 실시 예에 따른 음성 인식 모드의 개시 방법을 설명하기 위한 도면이다. 본 실시 예에서는, 사용자 액션이 도어의 열림으로 설정된 경우를 가정한다.
사용자가 세탁기에 접근하여 트리거 명령어(예를 들어, “하이 빅스비”)를 발화하면 가전기기(100)는 음성 인식 모드로 동작할 수 있다. 그리고 가전기기(100)는 트리거 명령어 감지 이벤트에 대응되는 오디오 신호를 출력할 수 있다. 이때 출력되는 오디오 신호는 음성 인식 모드가 개시됨을 알리는 단순 알림음이다. 도 5를 참조하면, 트리거 명령어 감지 이벤트에 대응되는 오디오 신호는 “딩동”과 같은 단순 알림음(①)일 수 있다.
한편, 사용자는 세탁물을 세탁기의 드럼에 넣기 위해 도어를 열 수 있다. 이 경우 가전기기(100)는 도어의 열림을 감지하여 음성 인식 모드로 동작할 수 있다. 그리고 가전기기(100)는 도어의 열림 이벤트에 대응되는 오디오 신호를 출력할 수 있다. 이때, 출력되는 오디오 신호는 음성 인식 모드가 개시됨을 구체적으로 알리는 음성 메시지이다. 도 5를 참조하면, 도어의 열림 이벤트에 대응되는 오디오 신호는 “무엇을 도와 드릴까요?”와 같은 음성 메시지(②)일 수 있다. 한편, 음성 메시지는 상술한 예에 한하지 않으며, “음성 인식 모드가 개시됩니다.”와 같은 음성 메시지일 수 있다.
그리고 가전기기(100)는 음성 인식 모드로 동작 중에 입력된 사용자 음성에 대하여 음성 인식을 수행하고, 음성 인식 결과에 대응되는 동작을 수행할 수 있다.
한편, 가전기기(100)는 도어의 열림이 감지되는 이벤트가 발생하면 음성 인식 모드로 동작하는 방식 외에도, 도어의 닫힘이 감지되는 이벤트가 발생하면 음성 인식 모드로 동작하는 방식으로도 구현할 수 있다. 이와 관련해서는 이하에서 설명한다.
도 6은 본 개시의 제2 실시 예에 따른 음성 인식 모드의 개시 방법을 설명하기 위한 도면이다. 본 실시 예에서는, 사용자 액션이 도어의 닫힘으로 설정된 경우를 가정한다.
도 6을 참조하면, 사용자는 세탁물을 세탁기의 드럼에 넣기 위해 도어를 열 수 있다. 그러나 도어의 열림은 사용자 액션으로 설정되지 않았으므로 가전기기(100)는 음성 인식 모드로 동작하지 않고 대기 상태를 유지할 수 있다.
그리고 사용자가 다시 세탁기의 도어를 닫으면 가전기기(100)는 도어의 닫힘을 감지하여 음성 인식 모드로 동작할 수 있다. 그리고 가전기기(100)는 도어의 닫힘 이벤트에 대응되는 오디오 신호를 출력할 수 있다. 이때, 출력되는 오디오 신호는 음성 인식 모드가 개시됨을 구체적으로 알리는 음성 메시지이다.
이와 같이 가전기기(100)는 사용자 액션으로 설정된 동작이 도어의 열림 또는 닫힘인지에 따라 음성 인식 모드의 개시 방법을 달리할 수 있다.
한편, 사용자 액션은 제조시 설정될 수도 있다. 또한, 사용자 액션은 사용자의 설정에 따라 도어의 열림 또는 닫힘으로 설정될 수도 있다. 구체적으로, 가전기기(100)는 유저 인터페이스 장치(150)를 통해 사용자로부터 도어의 열림 또는 닫힘 중 적어도 하나의 동작을 사용자 액션으로 입력받을 수 있다. 이 경우, 가전기기(100)는 입력받은 동작을 사용자 액션으로 설정하고, 입력받은 동작이 감지되면 음성 인식 모드로 동작할 수 있다.
한편, 가전기기(100)는 음성 인식 모드로 동작한 후 특정 조건을 만족하면 다시 대기 모드로 전환할 수 있다. 이에 대한 구체적인 설명은 이하에서 설명한다.
도 7은 본 개시의 제1 실시 예에 따른 대기 모드로의 전환 방법을 설명하기 위한 도면이다. 본 실시 예에서는, 사용자 액션이 도어의 열림으로 설정된 경우를 가정한다.
도 7을 참조하면, 사용자가 세탁기의 도어를 닫은 것을 확인할 수 있다. 가전기기(100)는 도어의 열림이 감지된 때 음성 인식 모드로 동작하고, 이후 도어의 닫힘이 감지되면 다시 대기 모드로 전환할 수 있다.
구체적으로, 가전기기(100)는 도어의 열림으로 음성 인식 기능을 수행하는 중에 도어의 닫힘이 감지되면 사용자가 더 이상 음성 명령을 발화하지 않을 것으로 보아 음성 인식 모드에서 대기 상태로 전환할 수 있다.
한편, 가전기기(100)는 도어의 닫힘이 감지되더라도 음성 인식 모드를 유지할 수도 있다. 이에 대해서는 도 8과 관련하여 이하에서 설명한다.
도 8은 본 개시의 제2 실시 예에 따른 대기 모드로의 전환 방법을 설명하기 위한 도면이다.
가전기기(100)는 음성 인식 모드로 동작 중에 마이크(120)를 통해 입력된 음성에 사용자의 제어 명령 또는 문의의 포함 여부에 따라 음성 인식 모드를 유지할 수 있다.
만약 음성 인식 모드로 동작 중에 마이크(120)를 통해 입력된 음성에 사용자의 제어 명령 또는 문의가 포함된 경우, 가전기기(100)는 음성 인식 모드를 유지하고 사용자와의 인터랙션을 수행할 수 있다.
예를 들어, 도 8을 참조하면, 사용자는 세탁기의 도어를 연 상태에서 “세탁해줘”와 같은 제어 명령을 발화한 후 세탁기의 도어를 닫을 수 있다. 이 경우, 음성 인식 모드로 동작 중에 마이크(120)를 통해 입력된 음성에 사용자의 제어 명령이 포함된 바, 가전기기(100)는 음성 인식 모드를 유지할 수 있다. 그리고 가전기기(100)는 “몇 분 동안 세탁할까요?”와 같은 소리를 출력하며 사용자와의 인터렉션을 수행할 수 있다.
반면 음성 인식 모드로 동작 중에 마이크(120)를 통해 입력된 음성에 사용자의 제어 명령 또는 문의가 포함되지 않은 경우. 가전기기(100)는 사용자가 음성 인식 기능을 사용하지 않을 의도인 것으로 보아 음성 인식 모드에서 대기 상태로 전환할 수 있다.
한편, 도 7 및 도 8을 도시하고 설명함에 있어서, 사용자 액션이 도어의 열림인 것으로 도시하고 설명하였지만, 사용자 액션이 도어의 닫힘인 경우에도 동일하게 적용될 수 있다.
구체적으로, 사용자 액션이 도어의 닫힘인 경우, 가전기기(100)는 음성 인식 모드로 동작한 후 기설정된 시간의 도달 여부에 따라 음성 인식 모드에서 대기 상태로 전환할 수 있다.
한편, 가전기기(100)는 기설정된 시간 동안 마이크(120)를 통해 입력된 음성에 사용자의 제어 명령 또는 문의의 포함 여부에 따라 음성 인식 모드를 유지할 수 있다.
만약, 기설정된 시간 동안 마이크(120)를 통해 입력된 음성에 사용자의 제어 명령 또는 문의가 포함된 경우, 가전기기(100)는 음성 인식 모드를 유지하고 사용자와의 인터랙션을 수행할 수 있다.
반면, 기설정된 시간 동안 마이크(120)를 통해 입력된 음성에 사용자의 제어 명령 또는 문의가 포함되지 않은 경우, 가전기기(100)는 사용자가 음성 인식 기능을 사용하지 않을 의도인 것으로 보아 음성 인식 모드에서 대기 상태로 전환할 수 있다.
이와 같이 가전기기(100)는 기설정된 이벤트가 감지되면 음성 인식 모드로 동작하고, 기설정된 조건을 만족 시 다시 음성 인식 모드에서 대기 상태로 전환함으로써, 음성 인식 모드를 지속적으로 유지함에 따른 오인식 상황 및 전력 소모를 방지할 수 있다.
한편, 도 5 내지 도 8을 도시하고 설명함에 있어서, 가전기기가 세탁기인 것을 가정하였지만, 가전기기의 종류는 세탁기에 한하지 않으며 도어가 구비되고 도어의 개폐를 감지하는 센서가 구비된 가전기기면 족하다.
한편, 가전기기(100)는 상술한 방법과 같이 음성 인식 모드로 동작하여 사용자로부터 제어 명령을 입력받더라도, 사용자에게 제어 명령에 대응되는 동작의 권한 유무에 따라 해당 동작을 실행할 수 있다. 이에 대한 구체적인 동작은 이하에서 설명한다.
도 9는 복수의 사용자 각각의 권한 정보의 예를 도시한 도면이다. 프로세서(140)는 마이크(120)를 통해 사용자 음성이 입력되면, 사용자 음성을 식별하여 사용자를 인식하고, 사용자 음성에 대응되는 가전기기(100)의 동작이 인식된 사용자의 권한 정보에 부합되면 사용자 음성에 대응되는 가전기기(100)의 동작을 실행할 수 있다.
보다 구체적으로, 프로세서(140)는 음성 인식 모드에서 마이크(120)를 통해 입력된 사용자 음성과 메모리(160)에 저장된 화자 인식 모델을 이용하여 사용자를 인식할 수 있다.
그리고 프로세서(140)는 메모리(160)에 저장된 사용자의 권한 정보를 이용하여 사용자 음성에 대응되는 가전기기(100)의 동작(예를 들어, 세탁 도작)이 인식된 사용자의 권한 정보에 부합되는지 확인하고, 권한이 부합되면 사용자 음성에 대응되는 가전기기(100)의 동작을 실행할 수 있다.
예를 들어, 도 9를 참조하면, 가전기기(100)가 오븐인 경우, 가전기기(100)는 복수의 사용자인 아빠, 엄마, 아기에 대한 권한 정보를 저장할 수 있다. 도시된 권한 정보에 따르면, 아빠 및 엄마는 예열 동작 및 굽기 동작에 대한 권한이 존재하나, 아기에게는 예열 동작 및 굽기 동작에 대한 권한이 존재하지 않는 것을 확인할 수 있다.
따라서 프로세서(140)는 음성 인식 모드에서 현재의 발화자가 아빠, 엄마, 아기 중 누구인지 확인하고, 확인된 사용자가 제어 명령에 대응되는 동작의 권한이 있는지 확인하고, 권한이 있으면 해당 동작을 수행하고, 권한이 없으면 해당 동작을 수행하지 않을 수 있다.
도 10은 복수의 사용자 각각의 권한 정보에 따른 동작 실행을 설명하기 위한 도면이다.
본 개시의 실 실시 예에 따르면, 상술한 사용자의 권한 정보에 따른 동작 실행은, 음성 인식 결과 확인된 제어 명령이 기설정된 동작인 경우에 한하여 수행될 수도 있다. 여기서 기설정된 동작은 해당 동작을 수행함에 있어서 안전을 요하는 동작일 수 있다. 예를 들어, 가전기기(100)가 오븐인 경우, 기설정된 동작은 굽기 동작 또는 예열 동작일 수 있다.
구체적으로, 프로세서(140)는 마이크(120)를 통해 입력된 사용자 음성에 대응되는 동작이 기설정된 동작인 경우, 현재의 발화자가 기등록된 사용자 중 어떤 사용자에 해당하는지 인식하고, 인식된 사용자에게 기설정된 동작에 권한이 있는지 여부를 확인할 수 있다.
예를 들어, 도 10을 참조하면, 아기가 “1시간 동안 구워줘” (①)를 발화한 것을 확인할 수 있다. 이 경우, 프로세서(140)는 발화 음성에 포함된 제어 명령이 굽기 동작이며, 안전을 요하는 동작인 것을 확인할 수 있다. 그리고 프로세서(140)는 입력된 음성을 식별하여 현재의 발화자가 아기인 것을 인식하고, 아기에게 굽기 동작의 권한이 있는지 확인할 수 있다.
그러나 아기에게는 굽기 동작에 대한 권한이 존재하지 않으므로, 프로세서(140)는 굽기 동작을 실행하지 않을 수 있다. 그리고 굽기 동작을 수행할 수 없음을 안내하기 위해 “위험해요”(②)와 같은 소리를 출력하도록 스피커(130)를 제어할 수 있다. 또는, 프로세서(140)는 디스플레이(180)를 통해 굽기 동작의 실행할 수 없음을 안내하는 메시지를 표시할 수 있다.
한편, 프로세서(140)는 사용자로부터 기등록된 사용자 각각에 대하여 가전기기(100)의 복수의 동작 대한 권한을 입력받을 수 있다. 예를 들어, 프로세서(140)는 유저 인터페이스 장치(150)를 통해 기등록된 사용자인 “아기”에 대하여 가전기기(100)의 동작 중 굽기 동작에 대하여 권한을 부여하거나 권한을 없애는 명령을 입력받을 수 있다.
한편, 가전기기(100)의 동작은 상술한 굽기 동작, 예열 동작에 한하지 않으며, 가전기기(100)의 특성에 따라 다양한 동작이 해당될 수 있다.
이와 같이 프로세서가 복수의 사용자 각각의 권한 정보를 이용하여 제어 명령에 대응되는 동작을 수행하는바, 안전한 가전기기의 사용 및 보안 유지 효과를 가질 수 있다.
도 11은 본 개시의 일 실시 예에 따른 음성 인식 모드의 알고리즘을 설명하기 위한 도면이다.
도 11을 참조하면, 가전기기(100)의 프로세서(140)는 대기 상태에서 트리거 명령어가 포함된 음성이 마이크(120)를 통해 입력되는지 여부를 감지할 수 있다(S1110).
만약 트리거 명령어가 감지되면(S1110-Y), 프로세서(140)는 트리거 명령이 감지된 이벤트에 대응되는 오디오 신호를 출력할 수 있다(S1130). 여기서 트리거 명령이 감지된 이벤트에 대응되는 오디오 신호는 단순 알림 음일 수 있다.
반면 트리거 명령어가 감지되지 않으면(S1110-N), 프로세서(140)는 센서(110)를 통해 사용자 액션이 감지되는지 확인할 수 있다(S1120).
만약, 사용자 액션이 감지되면(S1120-Y), 프로세서(140)는 사용자 액션이 감지된 이벤트에 대응되는 오디오 신호를 출력할 수 있다(S1135). 여기서 사용자 액션이 감지된 이벤트에 대응되는 오디오 신호는 음성 인식 모드가 개시됨을 알리는 음성 메시지일 수 있다.
반면, 사용자 액션이 감지되지 않으면(S1120-N), 프로세서(140)는 계속 대기 상태를 유지하며, 트리거 명령어가 포함된 음성이 마이크(120)를 통해 입력되는지 여부를 감지할 수 있다(S1110).
한편, 알림음 또는 음성 메시지를 출력한 이후, 프로세서(140)는 음성 인식 모드로 동작할 수 있다(S1140). 구체적으로, 프로세서(140)는 음성 인식 모듈을 이용하여 마이크(120)를 통해 입력된 음성에 대한 음성 인식을 수행할 수 있다.
그리고 프로세서(140)는 음성 인식 결과에 대응되는 동작이 기설정된 동작인지 확인할 수 있다(S1150).
만약, 음성 인식 결과에 대응되는 동작이 기설정된 동작이 아닌 경우(S1150-N), 해당 기능은 사용자의 권한 판단이 불필요한 동작이므로, 프로세서(140)는 음성 인식 결과에 대응되는 동작을 실행할 수 있다(S1180).
반면, 음성 인식 결과에 대응되는 동작이 기설정된 동작인 경우(S1150-Y), 프로세서(140)는 마이크(120)를 통해 입력된 음성의 사용자를 인식할 수 있다. 구체적으로, 프로세서(140)는 화자 인식 모델을 이용하여 입력된 음성을 식별하여 사용자를 인식할 수 있다.
그리고 인식된 사용자가 기등록된 사용자인지 여부를 확인할 수 있다(S1160).
만약, 인식된 사용자가 기등록된 사용자인 경우(S1160-Y), 인식된 사용자에게 음성 인식 결과에 대응되는 동작에 대한 권한 유무를 확인할 수 있다(S1170).
만약, 인식된 사용자에게 음성 인식 결과에 대응되는 동작에 대한 권한이 존재하는 경우, 프로세서(140)는 음성 인식 결과에 대응되는 동작을 실행할 수 있다(S1180).
만약, 인식된 사용자가 기등록된 사용자가 아니거나(S1160-N), 인식된 사용자에게 음성 인식 결과에 대응되는 동작에 대한 권한이 없는 경우(S1170-N), 프로세서(140)는 음성 인식 결과에 대응되는 동작을 수행하지 않고 대기 상태로 전환할 수 있다.
한편, 도 11을 도시하고 설명함에 있어서, 트리거 명령어의 감지 여부를 확인한 후 사용자 액션의 감지 여부를 확인하는 것으로 도시하고 설명하였지만, 구현 시에는 사용자 액션의 감지 여부를 확인 후 트리거 명령어의 감지 여부를 확인하는 방식으로도 구현할 수 있다.
또한, 도 11을 도시하고 설명함에 있어서, 알림음 또는 음성 메시지를 출력한 후 음성 인식 모드로 동작하는 것으로 도시하고 설명하였지만, 구현 시에는 음성 인식 모드로 동작 후 알림음 또는 음성 메시지를 출력하는 방식으로도 구현할 수 있다.
또한, 도 11을 도시하고 설명함에 있어서, 가전기기의 프로세서가 상술한 동작을 모두 수행하는 것으로 도시하고 설명하였지만, 구현 시에는 프로세서의 상술한 동작 중 일부를 서버가 수행하는 방식으로도 구현될 수 있다. 이에 대한 구체적인 설명은 도 12 및 도 13과 관련하여 이하 설명한다.
도 12는 본 개시의 제1 실시 예에 따른 복수의 사용자 각각의 권한 정보에 따른 동작 실행을 설명하기 위한 시퀀스도이다.
먼저 가전기기(100)는 기설정된 이벤트를 감지할 수 있다(S1210). 구체적으로, 가전기기(100)는 트리거 명령어가 마이크(120)를 통해 입력되는 이벤트 또는 센서(110)를 통해 사용자 액션이 감지되는 이벤트를 감지할 수 있다.
그리고 가전기기(100)는 기설정된 이벤트가 감지되면 음성 인식 모드로 동작할 수 있다(S1220). 구체적으로, 가전기기(100)는 기설정된 이벤트 각각에 대응되는 오디오 신호를 출력하고, 마이크(120)를 통해 사용자의 음성을 입력받을 수 있다.
그리고 가전기기(100)는 입력받은 음성에 대응되는 음성 데이터를 서버(200)에 전송할 수 있다(S1230).
그리고 서버(200)는 수신한 음성 데이터를 이용하여 발화자에 대응되는 사용자를 인식할 수 있다(S1240). 구체적으로, 서버(200)는 화자 인식 모델을 이용하여 발화자에 대응되는 사용자를 인식할 수 있다.
보다 구체적으로, 서버(200)는 수신한 음성 데이터로부터 성문(Vocal Print)을 추출할 수 있다. 그리고 서버(200)는 추출된 복수의 성문 정보를 기등록된 사용자의 성문 정보와 비교하여 발화자가 기등록된 사용자에 해당하는지 확인할 수 있다.
그리고 서버(200)는 인식된 사용자에 대한 정보를 가전기기(100)로 전송할 수 있다(S1250).
그리고 가전기기(100)는 마이크(120)를 통해 입력된 음성에 대응되는 동작을 확인할 수 있다(S1260). 구체적으로, 가전기기(100)는 음성 인식 모듈을 이용하여 마이크(120)를 통해 입력된 음성에 대한 음성 인식을 수행하여, 제어 명령을 확인하고, 제어 명령에 대응되는 가전기기(100)의 동작을 확인할 수 있다.
그리고 가전기기(100)는 확인한 제어 명령에 대응되는 가전기기(100)의 동작에 대하여, 인식된 사용자가 권한을 갖는지 여부를 확인할 수 있다(S1270). 구체적으로, 가전기기(100)는 복수의 사용자 각각의 권한 정보를 이용하여 인식된 사용자가 확인한 제어 명령에 대응되는 동작에 대한 권한 유무를 확인할 수 있다.
그리고 가전기기(100)는 권한 유무에 따라 피드백을 제공할 수 있다(S1280). 구체적으로, 가전기기(100)는 인식된 사용자가 권한을 갖는 경우, 제어 명령에 대응되는 동작을 실행할 수 있다.
반면, 인식된 사용자가 권한을 갖지 않거나 인식된 사용자가 기등록된 사용자가 아닌 경우 제어 명령에 대응되는 동작을 실행하지 않을 수 있다. 이 경우, 가전기기(100)는 동작 실행 불가에 대한 안내를 사용자에게 제공할 수 있다. 예를 들어, 가전기기(100)는 기설정된 안내 메시지 소리를 출력하거나 디스플레이(180)를 통해 기설정된 안내 메시지를 표시할 수 있다.
이와 같이 가전기기가 화자 인식 모델을 구비하지 않은 경우, 화자 인식 기능을 수행할 수 있는 서버를 이용하여 입력된 음성에 대응되는 사용자를 인식할 수 있다.
한편, 가전기기는 그 종류 또는 사용에 따라 화자 인식 모델뿐만 아니라 음성 인식 모듈을 구비하지 못할 수도 있다. 이 경우에도 서버를 이용하여 화자 인식 및 음성 인식을 수행할 수 있는바, 이하에서 설명한다.
도 13은 본 개시의 제2 실시 예에 따른 복수의 사용자 각각의 권한 정보에 따른 동작 실행을 설명하기 위한 시퀀스도이다.
먼저 가전기기(100)는 기설정된 이벤트를 감지할 수 있다(S1310). 그리고 가전기기(100)는 기설정된 이벤트가 감지되면 음성 인식 모드로 동작할 수 있다(S1320). 구체적으로, 가전기기(100)는 기설정된 이벤트 각각에 대응되는 오디오 신호를 출력하고, 마이크(120)를 통해 사용자의 음성을 입력받을 수 있다.
그리고 가전기기(100)는 입력받은 음성에 대응되는 음성 데이터를 서버(200)에 전송할 수 있다(S1330).
그리고 서버(200)는 수신한 음성 데이터를 이용하여 발화자에 대응되는 사용자를 인식할 수 있다(S1340). 구체적으로, 서버(200)는 화자 인식 모델을 이용하여 발화자에 대응되는 사용자를 인식할 수 있다.
그리고 서버(200)는 수신한 음성 데이터에 대응되는 가전기기(100)의 동작을 확인할 수 있다(S1350). 구체적으로, 서버(200)는 음성 인식 모듈을 이용하여 수신한 음성 데이터에 대한 음성 인식을 수행하여, 제어 명령을 확인하고, 제어 명령에 대응되는 가전기기(100)의 동작을 확인할 수 있다.
그리고 서버(200)는 인식된 사용자에 대한 정보 및 확인한 동작 정보를 가전기기(100)로 전송할 수 있다(S1360).
그리고 가전기기(100)는 확인한 동작에 대하여, 인식된 사용자가 권한을 갖는지 여부를 확인할 수 있다(S1370). 구체적으로, 가전기기(100)는 복수의 사용자 각각의 권한 정보를 이용하여 인식된 사용자가 확인한 동작에 대한 권한 유무를 확인할 수 있다.
그리고 가전기기(100)는 권한 유무에 따라 피드백을 제공할 수 있다(S1380). 구체적으로, 가전기기(100)는 인식된 사용자가 권한을 갖는 경우, 확인한 동작을 실행할 수 있다.
반면, 인식된 사용자가 권한을 갖지 않거나 인식된 사용자가 기등록된 사용자가 아닌 경우 확인한 동작을 실행하지 않을 수 있다. 이 경우, 가전기기(100)는 동작 실행 불가에 대한 안내를 사용자에게 제공할 수 있다. 예를 들어, 가전기기(100)는 기설정된 안내 메시지 소리를 출력하거나 디스플레이(180)를 통해 기설정된 안내 메시지를 표시할 수 있다.
이와 같이 가전기기가 화자 인식 모델 및 음성 인식 모듈을 구비하지 않은 경우에도, 화자 인식 기능 및 음성 인식 기능을 수행할 수 있는 서버를 이용하여 입력된 음성에 대응되는 사용자를 인식하고, 입력된 음성에 대응되는 동작을 확인할 수 있다.
한편, 도 13을 도시하고 설명함에 있어서, 가전기기가 인식된 사용자의 동작에 대한 권한 정보를 확인하는 것으로 도시하고 설명하였지만, 구현 시에는 서버가 상술한 동작을 수행하고, 가전기기에 권한 유무의 판단 결과를 전송하는 방식으로도 구현할 수 있다.
도 14는 본 개시의 일 실시 예에 따른 가전기기의 음성 인식 방법을 설명하기 위한 흐름도이다.
도 14를 참조하면, 사용자 액션이 감지되는 제1 이벤트 및 음성 인식 모드를 개시하기 위한 트리거 명령어가 감지되는 제2 이벤트 중 하나가 발생하면 발생한 이벤트에 대응되는 오디오 신호를 출력한다(S1410).
구체적으로, 제1 이벤트의 발생 여부는 사용자 액션을 감지하는 센서를 통해 확인할 수 있다. 여기서 사용자 액션은 이를 감지하는 센서의 종류에 따라 상이하게 설정될 수 있다.
예를 들어, 센서가 가전기기의 본체에 마련된 도어의 개폐를 감지하기 위한 센서인 경우, 사용자 액션은 도어의 열림 또는 닫힘으로 설정될 수 있다. 따라서, 도어의 열리거나 도어가 닫히면 제1 이벤트가 발생한 것으로 판단할 수 있다.
또 다른 예로, 센서가 모션 감지 센서인 경우, 사용자 액션은 가전기기에 대한 사용자의 접근일 수 있다. 따라서, 가전기기에 대한 사용자 접근이 감지되면 제1 이벤트가 발생한 것으로 판단할 수 있다.
그리고 제2 이벤트의 발생 여부는 가전기기의 마이크를 통해 입력된 음성에 트리거 명령어가 포함되어 있는지 여부에 따라 확인할 수 있다. 여기서 트리거 명령어는 wake-up 명령어 또는 시작 명령어 등으로 지칭될 수 있다.
그리고 출력되는 오디오 신호는 제1 이벤트 또는 제2 이벤트 각각에 대하여 상이하게 설정될 수 있다.
보다 구체적으로, 제1 이벤트에 대응되는 오디오 신호는 음성 인식 모드가 개시됨을 알리는 음성 메시지일 수 있다. 예를 들어, 제1 이벤트에 대응되는 오디오 신호는 “무엇을 도와 드릴까요?”와 같이 음성 인식 모드가 개시됨을 구체적으로 알리는 음성 메시지일 수 있다. 한편, 음성 메시지의 종류는 상술한 예에 한하지 않는다.
그리고 제2 이벤트에 대응되는 오디오 신호는 단순 알림 음일 수 있다. 예를 들어, 제2 이벤트에 대응되는 오디오 신호는 “딩동”과 같은 단순 알림 음일 수 있다. 한편, 알림 음의 종류는 상술한 예에 한하지 않는다.
그리고 음성 인식 모드로 동작한다(S1420). 여기서 음성 인식 모드란, 마이크를 통해 입력된 사용자의 문의 및 응답을 자연어로 처리하는 동작 모드를 의미한다. 이때, 음성 인식 모드는 음성 인식 모듈을 이용하여 직접 사용자의 문의 및 응답을 자연어로 처리하는 방식으로 구현될 수 있으며, 마이크를 통해 입력된 음성을 서버로 전송하고 서버로부터 음성 인식 결과를 수신하는 방식으로도 구현될 수 있다.
구체적으로, 음성 인식 모드로 동작하기 시작한 이후에 마이크를 통해 입력된 음성에 대한 음성 인식을 수행할 수 있다.
그리고 음성 인식 결과에 대응되는 동작을 수행할 수 있다. 한편, 음성 인식 결과에 대응되는 동작을 수행하기에 앞서 사용자의 권한을 확인하고, 권한 유무에 따라 동작을 수행할 수도 있다.
구체적으로, 먼저 음성 인식 모드에서 사용자 음성이 입력되면 사용자 음성을 식별하여 사용자를 인식할 수 있다. 보다 구체적으로, 음성 인식 모드에서 입력된 사용자 음성과 메모리에 저장된 화자 인식 모델을 이용하여 사용자를 인식할 수 있다.
그리고 인식된 사용자의 권한 정보를 메모리부터 독출할 수 있다. 만약 사용자 음성에 대응되는 동작이 독출한 권한 정보에 부합하면 사용자 음성에 대응되는 동작(즉, 음성 인식 결과에 대응되는 동작)을 실행할 수 있다.
반면, 사용자 음성에 대응되는 동작이 독출한 권한 정보에 부합하지 않거나, 입력된 사용자 음성에 대응되는 사용자가 확인되지 않은 경우, 사용자 음성에 대응되는 동작을 실행하지 않을 수 있다.
한편, 제1 이벤트 및 제2 이벤트 각각에 대하여 활성화 여부를 입력받을 수 있다. 구체적으로, 가전기기에 마련된 유저 인터페이스 장치를 통해 제1 이벤트 및 제2 이벤트 각각에 대하여 활성화 여부를 입력받을 수 있다.
만약, 유저 인터페이스 장치를 통해 제2 이벤트의 비활성화가 입력되면, 대기 상태에서 가전기기의 마이크를 턴-오프시킬 수 있다. 여기서, 대기 상태란 음성 인식 모드로 동작을 시작하기 위해 기설정된 이벤트의 발생 여부를 감지하는 상태를 의미한다.
그리고 이후 제1 이벤트가 발생하면 다시 마이크를 턴-온시킬 수 있다. 이와 같이 제2 이벤트의 비활성화가 입력되면 트리거 명령어를 감지할 필요가 없음에 따라 마이크를 턴-오프함으로써 전력 소모를 방지할 수 있다.
반면, 유저 인터페이스 장치를 통해 제1 이벤트의 비활성화가 입력되면, 대기 상태에서 가전기기의 마이크를 턴-온 상태로 유지하면서 사용자 액션을 감지하는 센서를 턴-오프시킬 수 있다. 이와 같이 제1 이벤트의 비활성화가 입력되면 사용자 액션을 감지할 필요가 없음에 따라 센서를 턴-오프함으로써 전력 소모를 방지할 수 있다.
한편, 트리거 명령어를 감지하는 주체와 음성 인식 모드로 동작하는 주체가 서로 상이하도록 구현될 수도 있다. 구체적으로, 가전기기는 트리거 명령어를 감지하는 제1 프로세서와 음성 인식 모드로 동작하기 위한 제2 프로세서를 포함할 수 있다.
그리고 제1 프로세서는 대기 상태에서 턴 온 상태를 유지할 수 있다. 그리고 제1 프로세서는 사용자 음성에 포함된 트리거 명령을 인식할 수 있다.
그리고 제1 프로세서는 트리거 명령을 인식하면 제2 프로세서를 턴-온 시킬 수 있다. 구체적으로, 제2 프로세서는 대기 상태가 기설정된 시간 이상 유지되면 턴 온 상태에서 턴 오프 상태로 변경하여 유지할 수 있다. 그리고 제1 프로세서는 트리거 명령을 인식하면 제2 프로세서를 턴-온시킬 수 있다.
따라서, 본 개시의 가전기기의 제어 방법은 사용자가 트리거 명령어를 발화하지 않아도 사용자가 음성 명령을 발화할 것으로 예상되는 사용자 액션이 감지되면 음성 인식 모드로 동작함으로써, 사용자가 필수적으로 시작 명령어를 발화해야 하는 불편함을 해결하는 효과를 갖는다. 또한, 사용자 액션이 감지된 때 음성 인식 모드가 개시됨을 알리는 음성 메시지를 출력함으로써, 사용자가 가전기기의 음성 인식 모드를 의도한 것인지 불확실한 때에도 음성 인식 모드로 동작함을 구체적으로 알리면서 사용자가 제어 명령 또는 문의를 발화하도록 유도할 수 있다. 또한, 트리거 명령어가 감지되는 이벤트를 비활성화하면 대기 상태에서 마이크를 턴 오프 시키고, 사용자 액션이 감지되는 이벤트를 비활성화하면 대기 상태에서 센서를 턴 오프 시킴으로써, 대기 상태에서 불필요한 구성에 소모되는 전력을 줄일 수 있다.
도 14와 같은 음성 인식 방법은, 도 2 또는 도 3의 구성을 가지는 가전기기 상에서도 실행될 수 있으며, 그 밖의 다른 구성을 가지는 가전기기 상에서도 실행될 수 있다.
또한, 상술한 바와 같은 가전기기의 제어 방법은, 상술한 바와 같은 가전기기의 제어 방법을 실행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 비일시적인 판독 가능 매체에 저장될 수 있다.
비 일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 애플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대해서 도시하고, 설명하였으나, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
100: 가전기기 110: 센서
120: 마이크 130: 스피커
140: 프로세서 150: 유저 인터페이스 장치
160: 메모리 170: 통신 장치
180: 디스플레이

Claims (17)

  1. 센서;
    마이크;
    스피커; 및
    프로세서;를 포함하며,
    상기 프로세서는,
    상기 센서를 통해 사용자 액션이 감지되는 제1 이벤트 및 음성 인식 모드를 개시하기 위한 트리거 명령어가 상기 마이크를 통해 입력되는 제2 이벤트 중 하나가 발생하면 상기 음성 인식 모드로 동작하며, 상기 발생한 이벤트에 대응되는 오디오 신호를 출력하도록 상기 스피커를 제어하고,
    상기 오디오 신호는, 상기 제1 이벤트 및 상기 제2 이벤트 각각에 대해 상이하게 설정된 오디오 신호인 가전기기.
  2. 제1항에 있어서,
    상기 센서는,
    상기 가전기기의 본체에 마련된 도어의 개폐를 감지하기 위한 센서이고,
    상기 프로세서는,
    상기 센서에 의해 도어 열림이 감지되면 상기 제1 이벤트가 발생한 것으로 판단하는 가전기기.
  3. 제1항에 있어서,
    상기 센서는,
    모션 감지 센서이고,
    상기 프로세서는,
    상기 센서에 의해 상기 가전기기에 대한 사용자 접근이 감지되면 상기 제1 이벤트가 발생한 것으로 판단하는 가전기기.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 제1 이벤트에 대응되는 오디오 신호는,
    상기 음성 인식 모드가 개시됨을 알리는 음성 메시지이고,
    상기 제2 이벤트에 대응되는 오디오 신호는,
    단순 알림 음인 가전기기.
  5. 제4항에 있어서,
    상기 제1 이벤트 및 상기 제2 이벤트 각각에 대한 활성화 여부를 선택받기 위한 유저 인터페이스(User Interface) 장치; 및
    음성 인식 동작을 수행하기 위한 음성 인식 모듈을 저장하는 메모리;를 더 포함하며,
    상기 프로세서는,
    상기 유저 인터페이스 장치를 통해 상기 제2 이벤트가 비활성화되면, 대기 상태에서 상기 마이크를 턴 오프시키고, 상기 제1 이벤트가 발생하였을 때 상기 마이크를 턴 온시키고 상기 음성 인식 모듈을 실행하는 가전기기.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 유저 인터페이스 장치를 통해 상기 제1 이벤트가 비활성화되면, 상기 대기 상태에서 상기 마이크를 턴 온 상태로 유지하면서 상기 센서를 턴 오프시키는 가전기기.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 트리거 명령어를 인식하기 위한 제1 프로세서; 및
    제2 프로세서;를 포함하며,
    상기 제1 프로세서는,
    대기 상태에서 턴 온 상태이고, 상기 트리거 명령어를 포함하는 사용자 음성이 상기 마이크를 통해 입력되면, 상기 제2 프로세서로 알림 신호를 출력하고,
    상기 제2 프로세서는,
    상기 대기 상태에서 턴 오프 상태이고, 상기 알림 신호가 수신되면 턴 온되어 상기 음성 인식 모드로 동작하는 가전기기.
  8. 제1항에 있어서,
    사용자 별 권한 정보가 저장된 메모리;를 더 포함하며,
    상기 프로세서는,
    상기 음성 인식 모드에서 상기 마이크를 통해 사용자 음성이 입력되면, 상기 사용자 음성을 식별하여 사용자를 인식하고, 상기 사용자 음성에 대응되는 동작이 상기 인식된 사용자의 권한 정보에 부합하면 상기 동작을 실행하는 가전기기.
  9. 가전기기의 제어 방법에 있어서,
    사용자 액션이 감지되는 제1 이벤트 및 음성 인식 모드를 개시하기 위한 트리거 명령어가 입력되는 제2 이벤트 중 하나가 발생하면, 상기 발생한 이벤트에 대응되는 오디오 신호를 출력하는 단계; 및
    상기 음성 인식 모드로 동작하는 단계;를 포함하며,
    상기 오디오 신호는,
    상기 제1 이벤트 및 상기 제2 이벤트 각각에 대해 상이하게 설정된 오디오 신호인 제어 방법.
  10. 제9항에 있어서,
    상기 가전기기의 본체에 마련된 도어가 열리면 상기 제1 이벤트가 발생한 것으로 판단하는 단계;를 더 포함하는 제어 방법.
  11. 제9항에 있어서,
    상기 가전기기에 대한 사용자 접근이 감지되면 상기 제1 이벤트가 발생한 것으로 판단하는 단계;를 더 포함하는 제어 방법.
  12. 제9항 내지 제11항 중 어느 한 항에 있어서,
    상기 제1 이벤트에 대응되는 오디오 신호는,
    상기 음성 인식 모드가 개시됨을 알리는 음성 메시지이고,
    상기 제2 이벤트에 대응되는 오디오 신호는,
    단순 알림 음인 제어 방법.
  13. 제12항에 있어서,
    상기 가전기기에 마련된 유저 인터페이스(User Interface) 장치를 통해 상기 제2 이벤트가 비활성화되면, 대기 상태에서 마이크를 턴 오프시키는 단계; 및
    상기 제1 이벤트가 발생하면 상기 마이크를 턴 온시키는 단계;를 더 포함하는 제어 방법.
  14. 제13항에 있어서,
    상기 유저 인터페이스 장치를 통해 상기 제1 이벤트가 비활성화되면, 상기 대기 상태에서 상기 마이크를 턴 온 상태로 유지하면서 상기 사용자 액션을 감지하는 센서를 턴 오프시키는 단계;를 더 포함하는 제어 방법.
  15. 제9항에 있어서,
    상기 트리거 명령어가 입력되면, 대기 상태에서 턴 온 상태를 유지하는 제1 프로세서가 상기 트리거 명령어를 인식하는 단계; 및
    상기 제1 프로세서가 상기 음성 인식 모드를 위한 제2 프로세서를 턴 온시키는 단계;를 더 포함하는 제어 방법.
  16. 제9항에 있어서,
    상기 음성 인식 모드에서 사용자 음성이 입력되면, 상기 사용자 음성을 식별하여 사용자를 인식하는 단계;
    상기 인식된 사용자의 권한 정보를 메모리로부터 독출하는 단계; 및
    상기 사용자 음성에 대응되는 동작이 상기 권한 정보에 부합하면, 상기 동작을 실행하는 단계;를 더 포함하는 제어 방법.
  17. 가전기기의 제어 방법을 실행하기 위한 프로그램이 저장된 기록 매체에 있어서,
    상기 가전기기의 제어 방법은,
    사용자 액션이 감지되는 제1 이벤트 및 음성 인식 모드를 개시하기 위한 트리거 명령어가 입력되는 제2 이벤트 중 하나가 발생하면, 상기 발생한 이벤트에 대응되는 오디오 신호를 출력하는 단계; 및
    상기 음성 인식 모드로 동작하는 단계;를 포함하며,
    상기 오디오 신호는,
    상기 제1 이벤트 및 상기 제2 이벤트 각각에 대해 상이하게 설정된 오디오 신호인 기록 매체.
KR1020190050246A 2019-04-30 2019-04-30 가전기기 및 이의 제어 방법 KR20200126509A (ko)

Priority Applications (9)

Application Number Priority Date Filing Date Title
KR1020190050246A KR20200126509A (ko) 2019-04-30 2019-04-30 가전기기 및 이의 제어 방법
US16/859,330 US11551686B2 (en) 2019-04-30 2020-04-27 Home appliance and method for controlling thereof
EP21168201.8A EP3866134B1 (en) 2019-04-30 2020-04-29 Home appliance and method for controlling thereof
CN202010354010.0A CN111862968A (zh) 2019-04-30 2020-04-29 家用电器及其控制方法
EP20172122.2A EP3734566B1 (en) 2019-04-30 2020-04-29 Home appliance and method for controlling thereof
US17/352,722 US11270701B2 (en) 2019-04-30 2021-06-21 Home appliance and method for controlling thereof
KR1020210090550A KR20210090588A (ko) 2019-04-30 2021-07-09 가전기기 및 이의 제어 방법
US17/666,083 US11749277B2 (en) 2019-04-30 2022-02-07 Home appliance and method for controlling thereof
US18/226,524 US20230368790A1 (en) 2019-04-30 2023-07-26 Home appliance and method for controlling thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190050246A KR20200126509A (ko) 2019-04-30 2019-04-30 가전기기 및 이의 제어 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020210090550A Division KR20210090588A (ko) 2019-04-30 2021-07-09 가전기기 및 이의 제어 방법

Publications (1)

Publication Number Publication Date
KR20200126509A true KR20200126509A (ko) 2020-11-09

Family

ID=70480133

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020190050246A KR20200126509A (ko) 2019-04-30 2019-04-30 가전기기 및 이의 제어 방법
KR1020210090550A KR20210090588A (ko) 2019-04-30 2021-07-09 가전기기 및 이의 제어 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020210090550A KR20210090588A (ko) 2019-04-30 2021-07-09 가전기기 및 이의 제어 방법

Country Status (4)

Country Link
US (4) US11551686B2 (ko)
EP (2) EP3734566B1 (ko)
KR (2) KR20200126509A (ko)
CN (1) CN111862968A (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190092333A (ko) * 2019-07-19 2019-08-07 엘지전자 주식회사 음성 인식 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 음성 인식 능력을 가진 장치를 제어하는 방법
CN116711006A (zh) * 2021-02-23 2023-09-05 三星电子株式会社 电子装置及其控制方法
CN113053383B (zh) * 2021-04-14 2021-09-07 浙江华创视讯科技有限公司 一种信息处理方法、装置和存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001319045A (ja) 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
DE10208469A1 (de) 2002-02-27 2003-09-04 Bsh Bosch Siemens Hausgeraete Elektrisches Gerät, insbesondere Dunstabzugshaube
US7213369B2 (en) * 2002-11-22 2007-05-08 Brian Freeman Automatic door control system
KR100762636B1 (ko) * 2006-02-14 2007-10-01 삼성전자주식회사 네트워크 단말의 음성 검출 제어 시스템 및 방법
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
WO2013105682A1 (ko) * 2012-01-13 2013-07-18 엘지전자 주식회사 음성 인식에 의한 냉장고의 동작 제어 방법 및 이를 채용하는 냉장고
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
KR101994693B1 (ko) 2012-12-05 2019-07-01 엘지전자 주식회사 세탁기 및 세탁기 제어방법
US9271111B2 (en) * 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
US9384751B2 (en) * 2013-05-06 2016-07-05 Honeywell International Inc. User authentication of voice controlled devices
US9860076B2 (en) * 2014-05-07 2018-01-02 Vivint, Inc. Home automation via voice control
US10410630B2 (en) * 2014-06-19 2019-09-10 Robert Bosch Gmbh System and method for speech-enabled personalized operation of devices and services in multiple operating environments
KR102147346B1 (ko) 2014-06-23 2020-08-24 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
EP3067884B1 (en) 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
US10896671B1 (en) * 2015-08-21 2021-01-19 Soundhound, Inc. User-defined extensions of the command input recognized by a virtual assistant
KR102223627B1 (ko) 2015-09-03 2021-03-05 삼성전자주식회사 냉장고
US10831273B2 (en) * 2016-01-26 2020-11-10 Lenovo (Singapore) Pte. Ltd. User action activated voice recognition
KR20180046780A (ko) 2016-10-28 2018-05-09 에스케이텔레콤 주식회사 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
US10403276B2 (en) * 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
US10380852B2 (en) 2017-05-12 2019-08-13 Google Llc Systems, methods, and devices for activity monitoring via a home assistant
US10102702B1 (en) * 2017-08-01 2018-10-16 Ford Global Technologies, Llc Automotive powered door activation using accelerometer
US11100922B1 (en) 2017-09-26 2021-08-24 Amazon Technologies, Inc. System and methods for triggering sequences of operations based on voice commands
US10546023B2 (en) * 2017-10-03 2020-01-28 Google Llc Providing command bundle suggestions for an automated assistant
WO2019128550A1 (en) 2017-12-31 2019-07-04 Midea Group Co., Ltd. Method and system for controlling home assistant devices
KR102498007B1 (ko) * 2018-01-08 2023-02-08 엘지전자 주식회사 음성인식을 이용한 세탁물 처리기기 제어시스템 및 동작방법
US10755706B2 (en) 2018-03-26 2020-08-25 Midea Group Co., Ltd. Voice-based user interface with dynamically switchable endpoints
US11257487B2 (en) * 2018-08-21 2022-02-22 Google Llc Dynamic and/or context-specific hot words to invoke automated assistant
KR20190092333A (ko) 2019-07-19 2019-08-07 엘지전자 주식회사 음성 인식 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 음성 인식 능력을 가진 장치를 제어하는 방법

Also Published As

Publication number Publication date
EP3734566B1 (en) 2021-05-12
US20200349942A1 (en) 2020-11-05
US20230368790A1 (en) 2023-11-16
EP3866134C0 (en) 2024-02-28
CN111862968A (zh) 2020-10-30
US11551686B2 (en) 2023-01-10
US11749277B2 (en) 2023-09-05
KR20210090588A (ko) 2021-07-20
US20210312922A1 (en) 2021-10-07
EP3866134A1 (en) 2021-08-18
US11270701B2 (en) 2022-03-08
US20220157313A1 (en) 2022-05-19
EP3734566A1 (en) 2020-11-04
EP3866134B1 (en) 2024-02-28

Similar Documents

Publication Publication Date Title
KR20210090588A (ko) 가전기기 및 이의 제어 방법
KR102293063B1 (ko) 사용자 정의 가능한 웨이크업 음성 명령
US9368105B1 (en) Preventing false wake word detections with a voice-controlled device
EP2959474B1 (en) Hybrid performance scaling for speech recognition
JP7248751B2 (ja) ホットワード認識音声合成
US6584439B1 (en) Method and apparatus for controlling voice controlled devices
US20020193989A1 (en) Method and apparatus for identifying voice controlled devices
US20030093281A1 (en) Method and apparatus for machine to machine communication using speech
US11501770B2 (en) System, server, and method for speech recognition of home appliance
KR20200052638A (ko) 전자 장치 및 전자 장치의 음성 인식 방법
TWI651714B (zh) 語音選項選擇系統與方法以及使用其之智慧型機器人
KR20230118643A (ko) 화자 의존적인 후속 액션들 및 웜 워드들
CN107799115A (zh) 一种语音识别方法及装置
CN112420044A (zh) 语音识别方法、语音识别装置及电子设备
JP2023552799A (ja) フリーズワード
JP2023553451A (ja) 検出のシーケンスに基づいたホットフレーズトリガ
US20230223021A1 (en) Enhancing signature word detection in voice assistants
CN115171690A (zh) 语音识别设备的控制方法、装置、设备及存储介质
US20210327419A1 (en) Enhancing signature word detection in voice assistants
KR20240096889A (ko) 자동화 어시스턴트 디바이스 사이의 웜 워드 중재
CN118016069A (zh) 语音唤醒模型的训练及应用方法、设备、介质和产品
KR20220150640A (ko) 차량 및 그의 제어방법
WO2021216135A1 (en) Enhancing signature word detection in voice assistants
JP2022131268A (ja) 発話システム及び警報装置

Legal Events

Date Code Title Description
A201 Request for examination