WO2023080274A1 - 인공 지능 기기 및 그것의 제어 방법 - Google Patents

인공 지능 기기 및 그것의 제어 방법 Download PDF

Info

Publication number
WO2023080274A1
WO2023080274A1 PCT/KR2021/015937 KR2021015937W WO2023080274A1 WO 2023080274 A1 WO2023080274 A1 WO 2023080274A1 KR 2021015937 W KR2021015937 W KR 2021015937W WO 2023080274 A1 WO2023080274 A1 WO 2023080274A1
Authority
WO
WIPO (PCT)
Prior art keywords
artificial intelligence
intelligence device
command
operation command
processor
Prior art date
Application number
PCT/KR2021/015937
Other languages
English (en)
French (fr)
Inventor
전유용
박희완
이동훈
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2021/015937 priority Critical patent/WO2023080274A1/ko
Priority to US18/052,745 priority patent/US20230136611A1/en
Publication of WO2023080274A1 publication Critical patent/WO2023080274A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

본 발명의 일 실시 예에 따른 인공 지능 기기의 제어방법은, 복수의 인공 지능 기기에서 동작 명령어를 수신하는 단계, 복수의 인공 지능 기기에서 동작 명령어가 수신되는 것에 근거하여, 상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기를 결정하는 단계, 상기 제1 인공 지능 기기를 통해 상기 동작 명령어에 대응하는 응답을 출력하는 단계, 상기 동작 명령어에 대응하는 동작을 수행할 제2 인공 지능 기기를 결정하고, 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계 및 상기 제2 인공 지능 기기가 상기 제어 명령에 근거하여 상기 동작 명령어에 대응하는 동작을 수행하는 단계를 포함한다.

Description

인공 지능 기기 및 그것의 제어 방법
본 발명은 인공 지능 기기에 관한 것으로, 보다 상세하게는 사용자의 음성 명령어에 응답하여, 동작을 수행할 수 있는 기기를 선정할 수 있는 인공 지능 기기에 관한 것이다.
스마트폰에 시작된 음성인식 기술 경쟁은 사물인터넷(IoT)의 본격 확산과 맞물려 이제 집 안에서 본격적으로 불붙을 전망이다.
특히, 주목할 만 한 점은 그 기기가 음성을 매개로 명령을 내리고, 대화를 나눌 수도 있는 인공지능(AI) 기기라는 점이다.
음성인식 서비스는 막대한 양의 데이터베이스를 활용하여, 사용자의 질문에 최적 답변을 선택하는 구조를 갖고 있다.
음성검색 기능 역시 입력된 음성데이터를 클라우드 서버에서 텍스트로 변환하여 분석하고, 그 결과에 따른 실시간 검색결과를 기기로 재전송하는 방식이다.
클라우드 서버는 수많은 단어들을 성별, 연령별, 억양별로 구분된 음성 데이터로 구분하여, 저장하고 실시간으로 처리할 수 있는 컴퓨팅 능력을 보유하고 있다.
음성 인식은 더 많은 음성데이터가 축적될수록, 인간과 동등한(Human parity) 수준 정도로, 정확해 질 것이다.
최근에는, 음성 인식이 가능한 복수의 인공 지능 기기들이 댁내에 존재한다.
사용자가 제어할 인공 지능 기기를 선택하기 위해서는, 발화 명령어를 분석하여, 분석 결과에 따라 기기가 결정된다.
그러나, 복수의 인공 지능 기기들이 댁내에 있는 경우, 사용자가 발화한 명령어가 기기를 특정하지 않는 경우, 어느 기기가 동작되어야 하는지 명확하지 않다.
본 발명은 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 한다.
본 발명은 복수의 인공 지능 기기들 중 사용자가 발화한 동작 명령어의 음성 품질 및 의도를 이용하여, 제어 대상 기기를 선택할 수 있는 인공 지능 기기의 제공을 목적으로 한다.
본 발명의 복수의 인공 지능 기기들 중 사용자가 발화한 동작 명령어의 성량 및 의도에 따라 제어 대상 기기를 선택할 수 있는 인공 지능 기기의 제공을 목적으로 한다.
본 발명은 복수의 인공 지능 기기들에 대하여 최적화된 방법으로 사용자가 발화한 동작 명령어에 대한 응답과 동작을 수행하는 것이 가능한 인공 지능 기기 및 그것의 제어방법을 제공하는 것을 목적으로 한다.
본 발명의 실시 예에 따른 인공 지능 기기의 제어방법은, 복수의 인공 지능 기기에서 동작 명령어를 수신하는 단계; 복수의 인공 지능 기기에서 동작 명령어가 수신되는 것에 근거하여, 상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기를 결정하는 단계; 상기 제1 인공 지능 기기를 통해 상기 동작 명령어에 대응하는 응답을 출력하는 단계; 상기 동작 명령어에 대응하는 동작을 수행할 제2 인공 지능 기기를 결정하고, 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계; 및 상기 제2 인공 지능 기기가 상기 제어 명령에 근거하여 상기 동작 명령어에 대응하는 동작을 수행하는 단계를 포함한다.
실시 예에 있어서, 상기 제1 인공 지능 기기를 결정하는 단계는, 상기 복수의 인공 지능 기기에서 동작 명령어가 수신되면, 수신된 동작 명령어의 볼륨 크기에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정하는 것을 특징으로 한다.
실시 예에 있어서, 상기 복수의 인공 지능 기기는, 동작 명령어의 발생지까지의 거리를 센싱하는 것이 가능한 센서를 포함하고, 상기 제1 인공 지능 기기를 결정하는 단계는, 상기 센서에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정하는 것을 특징으로 한다.
실시 예에 있어서, 상기 제1 인공 지능 기기를 통해 상기 동작 명령어에 대응하는 응답을 출력하는 단계는, 동작 명령어에 대응하는 동작이 제1 인공 지능 기기가 아닌 제2 인공 지능 기기에 대한 동작인 경우에도, 상기 동작 명령어에 대응하는 응답은 상기 제1 인공 지능 기기를 통해 출력되는 것을 특징으로 한다.
실시 예에 있어서, 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계는, 상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기가 상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기가 존재하는지 판단하는 단계; 상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기를 제2 인공 지능 기기로 결정하는 단계; 및 상기 제1 인공 지능 기기가 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계를 포함하는 것을 특징으로 한다.
실시 예에 있어서, 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계는, 상기 복수의 인공 지능 기기에서 동작 명령어를 수신하는 단계; 상기 복수의 인공 지능 기기에서 각각 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기를 결정하는 단계; 및 상기 복수의 인공 지능 기기에서 결정된 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기가 서로 다른 경우, 기 설정된 알고리즘에 근거하여 상기 제2 인공 지능 기기를 결정하는 단계를 포함하는 것을 특징으로 한다.
실시 예에 있어서, 상기 기 설정된 알고리즘은, 다수결 및 최근접 인공 지능 기기에서 결정된 결과 중 적어도 하나에 근거하여, 상기 제2 인공 지능 기기를 결정하는 것을 특징으로 한다.
실시 예에 있어서, 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계는, 상기 동작 명령어에 대응하는 동작을 수행하는 것이 가능한 제2 인공 지능 기기가 복수인지 여부를 판단하는 단계; 및 상기 제2 인공 지능 기기가 복수인 경우, 동작 명령어의 발생지와의 거리, 해당 동작 명령어의 수행 이력, 우선순위 및 추가 명령어 수신을 통해 어느 하나의 제2 인공 지능 기기를 선택하는 단계를 포함하는 것을 특징으로 한다.
실시 예에 있어서, 상기 제2 인공 지능 기기가 상기 제어 명령에 근거하여 상기 동작 명령어에 대응하는 동작을 수행하는 단계는, 상기 제2 인공 지능 기기가 상기 제어 명령을 수신하면, 수신 여부를 발화자에게 알리도록 알림음을 출력하는 것을 특징으로 한다.
본 발명의 일 실시 예에 따른 인공 지능 기기는, 사용자가 발화한 명령어를 수신하는 마이크로폰; 외부 인공 지능 기기와 통신을 수행하는 무선 통신부;
명령어에 대응하는 응답을 출력하는 음향 출력부; 및 복수의 인공 지능 기기에서 동작 명령어가 수신되는 것에 근거하여, 상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기를 결정하는 프로세서를 포함하고, 상기 프로세서는, 상기 제1 인공 지능 기기인 경우, 상기 제1 인공 지능 기기를 통해 상기 동작 명령어에 대응하는 응답을 출력하고, 상기 동작 명령어에 대응하는 동작을 수행할 제2 인공 지능 기기를 결정하고, 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 것을 특징으로 한다.
실시 예에 있어서, 상기 프로세서는, 상기 제2 인공 지능 기기인 경우, 상기 제어 명령에 근거하여 상기 동작 명령어에 대응하는 동작을 수행하는 것을 특징으로 한다.
실시 예에 있어서, 상기 프로세서는, 상기 복수의 인공 지능 기기에서 동작 명령어가 수신되면, 수신된 동작 명령어의 볼륨 크기에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정하는 것을 특징으로 한다.
실시 예에 있어서, 동작 명령어의 발생지까지의 거리를 센싱하는 것이 가능한 센서를 더 포함하고, 상기 프로세서는, 상기 센서에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정하는 것을 특징으로 한다.
실시 예에 있어서, 상기 프로세서는, 동작 명령어에 대응하는 동작이 제1 인공 지능 기기가 아닌 제2 인공 지능 기기에 대한 동작인 경우에도, 상기 동작 명령어에 대응하는 응답은 상기 제1 인공 지능 기기를 통해 출력되는 것을 특징으로 한다.
실시 예에 있어서, 상기 프로세서는, 상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기가 상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기가 존재하는지 판단하고, 상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기를 제2 인공 지능 기기로 결정하며, 상기 제1 인공 지능 기기가 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 것을 특징으로 한다.
실시 예에 있어서, 상기 프로세서는, 상기 복수의 인공 지능 기기에서 동작 명령어를 수신하고, 상기 복수의 인공 지능 기기에서 각각 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기를 결정하며, 상기 복수의 인공 지능 기기에서 결정된 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기가 서로 다른 경우, 기 설정된 알고리즘에 근거하여 상기 제2 인공 지능 기기를 결정하는 것을 특징으로 한다.
실시 예에 있어서, 상기 기 설정된 알고리즘은, 다수결 및 최근접 인공 지능 기기에서 결정된 결과 중 적어도 하나에 근거하여, 상기 제2 인공 지능 기기를 결정하는 것을 특징으로 한다.
실시 예에 있어서, 상기 프로세서는, 상기 동작 명령어에 대응하는 동작을 수행하는 것이 가능한 제2 인공 지능 기기가 복수인지 여부를 판단하고, 상기 제2 인공 지능 기기가 복수인 경우, 동작 명령어의 발생지와의 거리, 해당 동작 명령어의 수행 이력, 우선순위 및 추가 명령어 수신을 통해 어느 하나의 제2 인공 지능 기기를 선택하는 것을 특징으로 한다.
실시 예에 있어서, 상기 프로세서는, 상기 제2 인공 지능 기기인 경우, 상기 제어 명령을 수신하면, 수신 여부를 발화자에게 알리도록 알림음을 출력하는 것을 특징으로 한다.
본 발명의 실시 예에 따르면, 명령어의 음성 품질에 따라 제어 대상 기기가 선택되므로, 사용자는 보다 쉽게 제어 대상 기기를 선정할 수 있다.
본 발명의 실시 예에 따르면, 명령어의 음량에 따라 제어 대상 기기가 선택되므로, 사용자는 목소리의 크기만을 변화시켜 발화하는 것만으로도, 원하는 혼란 없이, 제어 대상 기기를 선택할 수 있다.
본 발명의 실시 예에 따르면, 사용자의 음성 명령어의 성량 및 의도를 파악하여, 음성 명령어에 대응하는 동작을 수행할 기기가 명확하게 선정될 수 있다. 따라서, 사용자는 발화 크기를 변경하는 음성 명령어의 단순한 발화만으로도, 원하는 결과를 얻을 수 있다.
또한, 사용자는 기기의 명칭을 발화하지 않고, 자신의 원하는 동작을 수행하도록 하는 명령어만을 발화함에 따라 원하는 결과를 정확하게 얻을 수 있어, 향상된 사용자 경험을 느낄 수 있다.
또한, 본 발명은, 제어하고자 하는 제어 대상 기기가 발화자로부터 멀리 있어도, 가까이 있는 인공 지능 기기를 통해 제어 명령을 제어 대상 기기로 전달하고, 가까이 있는 인공 지능 기기를 통해 응답을 들을 수 있어 제어 명령을 인가하기 위한 동선을 줄일 수 있다.
도 1은 본 발명과 관련된 인공 지능 기기를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 음성 시스템을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따라 음성 신호로부터 사용자의 발화 특징을 추출하는 과정을 설명하는 도면이다.
도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 인공 지능 시스템의 동작 방법을 설명하는 도면이다.
도 6은 본 발명의 일 실시 예에 따라, 음성 품질 레벨을 측정하는 예를 설명하는 도면이다.
도 7은 도 5에 도시된 인공 지능 시스템의 동작 방법에 대한 실제 사용 시나리오를 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시 예에 따른 인공 지능 기기의 동작 방법을 설명하기 위한 흐름도이다.
도 9 및 도 10은 본 발명의 실시 예에 따라 복수의 인공 지능 기기들 중 사용자의 기동 명령어에 응답하여, 어느 하나의 기기가 제어 대상으로 선택되는 과정을 설명하는 도면이다.
도 11은 본 발명의 또 다른 실시 예에 따른 인공 지능 시스템의 동작 방법을 설명하기 위한 래더 다이어 그램이다.
도 12 및 도 13은 사용자와 인공 지능 기기 사이에 장애물이 존재하는 경우, 기동 명령어의 음량 크기를 보정하는 방법을 설명하는 예를 설명하는 도면이다.
도 14는 본 발명의 또 다른 실시 예에 따른 인공 지능 기기의 동작 방법을 설명하기 위한 흐름도이다.
도 15 및 도 16은 사용자의 이동 감지에 따라, 음량의 적정 범위를 자동으로, 조절하는 과정을 설명하는 도면이다.
도 17은 본 발명의 일 실시 예에 따라, 복수의 인공 지능 기기들이 고정된 위치에 배치되는 경우, 각 기기의 적정 발화 음량 범위를 등록하는 과정을 설명하는 도면이다.
도 18은 본 발명의 또 다른 실시 예에 따른 인공 지능 시스템의 동작 방법을 설명하기 위한 래더다이어 그램이다.
도 19 내지 도 21은 본 발명의 실시 예에 따라 AI 허브 기기가 사용자가 발화한 음성 명령어를 수행할 기기를 결정하고, 결정된 기기에 제어 명령을 전송하는 과정을 설명하는 도면이다.
도 22는 본 발명의 실시 예에 따라, 사용자가 발화한 동작 명령어를 수행할 기기가 복수 개 존재하는 경우, 복수의 인공 지능 기기들 중, 동작 명령어를 수행할 기기를 결정하는 예를 설명한다.
도 23은 본 발명의 다른 실시 예에 따른 인공 지능 기기의 제어방법을 설명하기 위한 개념도이다.
도 24는 본 발명의 다른 실시 예에 따른 인공 지능 기기의 제어 방법을 설명하기 위한 흐름도이다.
도 25, 도 26 및 도 27은 도 24에서 살펴본 제어 방법을 설명하기 위한 개념도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 명세서에서 설명되는 인공 지능 기기에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 인공 지능 기기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 인공 지능 기기 (smartwatch), 글래스형 인공 지능 기기 (smart glass), HMD(head mounted display)) 등이 포함될 수 있다.
그러나, 본 명세서에 기재된 실시 예에 따른 인공 지능 기기(100)는 스마트 TV, 데스크탑 컴퓨터, 디지털사이니지 등과 같은 고정 인공 지능 기기에도 적용될 수도 있다.
또한, 본 발명의 실시 예에 따른 인공 지능 기기(100)는 고정 또는 이동 가능한 로봇에도 적용될 수 있다.
또한, 본 발명의 실시 예에 따른 인공 지능 기기(100)는 음성 에이전트의 기능을 수행할 수 있다. 음성 에이전트는 사용자의 음성을 인식하고, 인식된 사용자의 음성에 적합한 응답을 음성으로 출력하는 프로그램일 수 있다.
인공 지능 기기(100)는 무선 통신부(110), 입력부(120), 러닝 프로세서(130), 센싱부(140), 출력부(150), 인터페이스부(160), 메모리(170), 프로세서(180) 및 전원 공급부(190)를 포함할 수 있다.
무선 통신부(110)는, 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114), 위치정보 모듈(115) 중 적어도 하나를 포함할 수 있다.
방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다.
이동통신 모듈(112)은, 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다.
무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 인공 지능 기기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 모듈(113)은 무선 인터넷 기술들에 따른 통신망에서 무선 신호를 송수신하도록 이루어진다.
무선 인터넷 기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등이 있다.
근거리 통신 모듈(114)은 근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다.
위치정보 모듈(115)은 이동 인공 지능 기기의 위치(또는 현재 위치)를 획득하기 위한 모듈로서, 그의 대표적인 예로는 GPS(Global Positioning System) 모듈 또는 WiFi(Wireless Fidelity) 모듈이 있다. 예를 들어, 인공 지능 기기는 GPS모듈을 활용하면, GPS 위성에서 보내는 신호를 이용하여 이동 인공 지능 기기의 위치를 획득할 수 있다.
입력부(120)는 영상 신호 입력을 위한 카메라(121), 오디오 신호를 수신하기 위한 마이크로폰(122), 사용자로부터 정보를 입력 받기 위한 사용자 입력부(123)를 포함할 수 있다.
입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.
입력부(120)는 영상 정보(또는 신호), 오디오 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 것으로서, 영상 정보의 입력을 위하여, 인공 지능 기기(100)는 하나 또는 복수의 카메라(121)들을 구비할 수 있다.
카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시되거나 메모리(170)에 저장될 수 있다.
마이크로폰(122)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 인공 지능 기기(100)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(122)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.
사용자 입력부(123)는 사용자로부터 정보를 입력 받기 위한 것으로서, 사용자 입력부(123)를 통해 정보가 입력되면,
프로세서(180)는 입력된 정보에 대응되도록 인공 지능 기기(100)의 동작을 제어할 수 있다.
사용자 입력부(123)는 기계식 (mechanical) 입력수단(또는, 메커니컬 키, 예를 들어, 인공 지능 기기(100)의 전/후면 또는 측면에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력수단을 포함할 수 있다. 일 예로서, 터치식 입력수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다.
러닝 프로세서(130)는 데이터 마이닝, 데이터 분석, 지능형 의사 결정, 및 기계 학습 알고리즘 및 기술을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성 될 수 있다.
러닝 프로세서(130)는 인공 지능 기기에 의해 수신, 검출, 감지, 생성, 사전 정의 또는 다른 방식으로 출력되거나 수신, 검출, 감지, 생성, 사전 정의 또는 다른 방식으로 다른 컴포넌트, 디바이스, 인공 지능 기기 또는 인공 지능 기기와 통신하는 장치에 의해 출력되는 데이터를 저장하도록 구성된 하나 이상의 메모리 유닛을 포함 할 수 있다.
러닝 프로세서(130)는 인공 지능 기기에 통합되거나 구현된 메모리를 포함 할 수 있다. 일부 실시 예에서, 러닝 프로세서(130)는 메모리(170)를 사용하여 구현 될 수 있다.
선택적으로 또는 부가 적으로, 러닝 프로세서(130)는 인공 지능 기기에 직접 결합된 외부 메모리 또는 인공 지능 기기와 통신하는 서버에서 유지되는 메모리와 같이 인공 지능 기기와 관련된 메모리를 사용하여 구현 될 수 있다.
다른 실시 예에서, 러닝 프로세서(130)는 클라우드 컴퓨팅 환경에서 유지되는 메모리, 또는 네트워크와 같은 통신 방식을 통해 인공 지능 기기에 의해 액세스 가능한 다른 원격 메모리 위치를 이용하여 구현 될 수 있다.
러닝 프로세서(130)는 일반적으로 감독 또는 감독되지 않은 학습, 데이터 마이닝, 예측 분석 또는 다른 머신에서 사용하기 위해 데이터를 식별, 색인화, 카테고리화, 조작, 저장, 검색 및 출력하기 위해 데이터를 하나 이상의 데이터베이스에 저장하도록 구성될 수 있다.
러닝 프로세서(130)에 저장된 정보는 다양한 상이한 유형의 데이터 분석 알고리즘 및 기계 학습 알고리즘 중 임의의 것을 사용하여 프로세서(180) 또는 인공 지능 기기의 하나 이상의 다른 제어기에 의해 이용될 수 있다.
이러한, 알고리즘의 예로는, k-최근 인접 시스템, 퍼지 논리 (예: 가능성 이론), 신경 회로망, 볼츠만 기계, 벡터 양자화, 펄스 신경망, 지원 벡터 기계, 최대 마진 분류기, 힐 클라이밍, 유도 논리 시스템 베이지안 네트워크, 페리트넷 (예: 유한 상태 머신, 밀리 머신, 무어 유한 상태 머신), 분류기 트리 (예: 퍼셉트론 트리, 지원 벡터 트리, 마코프 트리, 의사 결정 트리 포리스트, 임의의 포리스트), 판돈 모델 및 시스템, 인공 융합, 센서 융합, 이미지 융합, 보강 학습, 증강 현실, 패턴 인식, 자동화 된 계획 등을 포함한다.
프로세서(180)는 데이터 분석 및 기계 학습 알고리즘을 사용하여 결정되거나, 생성된 정보에 기초하여 인공 지능 기기의 적어도 하나의 실행 가능한 동작을 결정 또는 예측할 수 있다. 이를 위해, 프로세서(180)는 러닝 프로세서(130)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 상기 인공 지능 기기를 제어할 수 있다.
프로세서(180)는 지능적 에뮬레이션(즉, 지식 기반 시스템, 추론 시스템 및 지식 획득 시스템)을 구현하는 다양한 기능을 수행 할 수 있다. 이는 적응 시스템, 기계 학습 시스템, 인공 신경망 등을 포함하는, 다양한 유형의 시스템(예컨대, 퍼지 논리 시스템)에 적용될 수 있다.
프로세서(180)는, 또한 I/O 처리 모듈, 환경 조건 모듈, 음성 - 텍스트 (STT) 처리 모듈, 자연어 처리 모듈, 작업 흐름 처리 모듈 및 서비스 처리 모듈과 같이, 음성 및 자연 언어 음성 처리를 수반하는 연산을 가능하게 하는 서브 모듈을 포함할 수 있다.
이들 서브 모듈들 각각은, 인공 지능 기기에서의 하나 이상의 시스템 또는 데이터 및 모델, 또는 이들의 서브셋 또는 수퍼 셋에 대한 액세스를 가질 수 있다. 또한, 이들 서브 모듈들 각각은, 어휘 색인, 사용자 데이터, 작업 흐름 모델, 서비스 모델 및 자동 음성 인식 (ASR) 시스템을 비롯한 다양한 기능을 제공할 수 있다.
다른 실시 예에서, 프로세서(180) 또는 인공 지능 기기의 다른 양태는 상기 서브 모듈, 시스템, 또는 데이터 및 모델로 구현 될 수 있다.
일부 예에서, 러닝 프로세서(130)의 데이터에 기초하여, 프로세서(180)는 사용자 입력 또는 자연 언어 입력으로 표현된 문맥 조건 또는 사용자의 의도에 기초하여 요구 사항을 검출하고 감지하도록 구성 될 수 있다.
프로세서(180)는 문맥 조건 또는 사용자의 의도에 기초하여 요구 사항을 완전히 결정하는데 필요한 정보를 능동적으로 이끌어 내고, 획득할 수 있다. 예를 들어, 프로세서(180)는 역사적 입력 및 출력, 패턴 매칭, 모호하지 않은 단어, 입력 의도 등을 포함하는 과거 데이터를 분석함으로써 요구 사항을 결정하는데, 필요한 정보를 능동적으로 이끌어낼 수 있다.
프로세서(180)는 문맥 조건 또는 사용자의 의도에 기초하여 요구 사항에 응답하는 기능을 실행하기 위한 태스크 흐름을 결정할 수 있다.
프로세서(180)는 러닝 프로세서(130)에서 프로세싱 및 저장을 위한 정보를 수집하기 위해, 인공 지능 기기에서 하나 이상의 감지 컴포넌트를 통해 데이터 분석 및 기계 학습 작업에 사용되는 신호 또는 데이터를 수집, 감지, 추출, 검출 및/또는 수신하도록 구성 될 수 있다.
정보 수집은 센서를 통해 정보를 감지하는 것, 메모리(170)에 저장된 정보를 추출하는 것 또는 통신 수단을 통해 다른 인공 지능 기기, 엔티티 또는 외부 저장 장치로부터 정보를 수신하는 것을 포함 할 수 있다.
프로세서(180)는 인공 지능 기기에서 사용 히스토리 정보를 수집하여, 저장할 수 있다.
프로세서(180)는 저장된 사용 히스토리 정보 및 예측 모델링을 사용하여 특정 기능을 실행하기 위한 최상의 매치를 결정할 수 있다.
프로세서(180)는 센싱부(140)를 통해 주변 환경 정보 또는 기타 정보를 수신하거나 감지 할 수 있다.
프로세서(180)는 무선 통신부(110)을 통해 방송 신호 및/또는 방송 관련 정보, 무선 신호, 무선 데이터를 수신할 수 있다.
프로세서(180)는 입력부(120)로부터 이미지 정보 (또는 해당 신호), 오디오 정보 (또는 해당 신호), 데이터 또는 사용자 입력 정보를 수신 할 수 있다.
프로세서(180)는 정보를 실시간으로 수집하고, 정보 (예를 들어, 지식 그래프, 명령 정책, 개인화 데이터베이스, 대화 엔진 등)를 처리 또는 분류하고, 처리 된 정보를 메모리(170) 또는 러닝 프로세서(130)에 저장할 수 있다.
인공 지능 기기의 동작이 데이터 분석 및 기계 학습 알고리즘 및 기술에 기초하여 결정될 때, 프로세서(180)는 결정된 동작을 실행하기 위해 인공 지능 기기의 구성 요소를 제어 할 수 있다. 그리고 프로세서(180)는 제어 명령에 따라 단말을 제어하여 결정된 동작을 수행 할 수 있다.
프로세서(180)는 특정 동작이 수행되는 경우, 데이터 분석 및 기계 학습 알고리즘 및 기법을 통해 특정 동작의 실행을 나타내는 이력 정보를 분석하고, 분석된 정보에 기초하여 이전에 학습 한 정보의 업데이트를 수행 할 수 있다.
따라서, 프로세서(180)는 러닝 프로세서(130)과 함께, 업데이트 된 정보에 기초하여 데이터 분석 및 기계 학습 알고리즘 및 기법의 미래 성능의 정확성을 향상시킬 수 있다.
센싱부(140)는 이동 인공 지능 기기 내 정보, 이동 인공 지능 기기를 둘러싼 주변 환경 정보 및 사용자 정보 중 적어도 하나를 센싱 하기 위한 하나 이상의 센서를 포함할 수 있다.
예를 들어, 센싱부(140)는 근접센서(141, proximity sensor), 조도 센서(142, illumination sensor), 터치 센서(touch sensor), 가속도 센서(acceleration sensor), 자기 센서(magnetic sensor), 중력 센서(G-sensor), 자이로스코프 센서(gyroscope sensor), 모션 센서(motion sensor), RGB 센서, 적외선 센서(IR 센서: infrared sensor), 지문인식 센서(finger scan sensor), 초음파 센서(ultrasonic sensor), 광 센서(optical sensor, 예를 들어, 카메라(121 참조)), 마이크로폰(microphone, 122 참조), 배터리 게이지(battery gauge), 환경 센서(예를 들어, 기압계, 습도계, 온도계, 방사능 감지 센서, 열 감지 센서, 가스 감지 센서 등), 화학 센서(예를 들어, 전자 코, 헬스케어 센서, 생체 인식 센서 등) 중 적어도 하나를 포함할 수 있다. 한편, 본 명세서에 개시된 이동 인공 지능 기기는, 이러한 센서들 중 적어도 둘 이상의 센서에서 센싱되는 정보들을 조합하여 활용할 수 있다.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부(151), 음향 출력부(152), 햅팁 모듈(153), 광 출력부(154) 중 적어도 하나를 포함할 수 있다.
디스플레이부(151)는 인공 지능 기기(100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 디스플레이부(151)는 인공 지능 기기(100)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다.
디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 인공 지능 기기(100)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로써 기능함과 동시에, 인공 지능 기기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
음향 출력부(152)는 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리(170)에 저장된 오디오 데이터를 출력할 수 있다.
음향 출력부(152)는 리시버(receiver), 스피커(speaker), 버저(buzzer) 중 적어도 하나 이상을 포함할 수 있다.
햅틱 모듈(haptic module)(153)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(153)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 될 수 있다.
광출력부(154)는 인공 지능 기기(100)의 광원의 빛을 이용하여 이벤트 발생을 알리기 위한 신호를 출력한다. 인공 지능 기기(100)에서 발생 되는 이벤트의 예로는 메시지 수신, 호 신호 수신, 부재중 전화, 알람, 일정 알림, 이메일 수신, 애플리케이션을 통한 정보 수신 등이 될 수 있다.
인터페이스부(160)는 인공 지능 기기(100)에 연결되는 다양한 종류의 외부 기기와의 통로 역할을 수행한다. 이러한 인터페이스부(160)는, 유/무선 헤드셋 포트(port), 외부 충전기 포트(port), 유/무선 데이터 포트(port), 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트(port), 오디오 I/O(Input/Output) 포트(port), 비디오 I/O(Input/Output) 포트(port), 이어폰 포트(port)중 적어도 하나를 포함할 수 있다. 인공 지능 기기(100)에서는, 상기 인터페이스부(160)에 외부 기기가 연결되는 것에 대응하여, 연결된 외부 기기와 관련된 적절할 제어를 수행할 수 있다.
한편, 식별 모듈은 인공 지능 기기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(user identify module; UIM), 가입자 인증 모듈(subscriber identity module; SIM), 범용 사용자 인증 모듈(universal subscriber identity module; USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하 '식별 장치')는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서 식별 장치는 상기 인터페이스부(160)를 통하여 인공 지능 기기(100)와 연결될 수 있다.
메모리(170)는 인공 지능 기기(100)의 다양한 기능을 지원하는 데이터를 저장한다.
메모리(170)는 인공 지능 기기(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 인공 지능 기기(100)의 동작을 위한 데이터들, 명령어들을, 러닝 프로세서(130)의 동작을 위한 데이터들(예를 들어, 머신 러닝을 위한 적어도 하나의 알고리즘 정보 등)을 저장할 수 있다.
프로세서(180)는 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 인공 지능 기기(100)의 전반적인 동작을 제어한다. 프로세서(180)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(170)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.
또한, 프로세서(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 도 1와 함께 살펴본 구성요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(180)는 상기 응용프로그램의 구동을 위하여, 인공 지능 기기(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수 있다.
전원공급부(190)는 프로세서(180)의 제어 하에서, 외부의 전원, 내부의 전원을 인가 받아 인공 지능 기기(100)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원공급부(190)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체 가능한 형태의 배터리가 될 수 있다.
한편, 앞서 살펴본 것과 같이, 프로세서(180)는 응용 프로그램과 관련된 동작과, 통상적으로 인공 지능 기기(100)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(180)는 상기 이동 인공 지능 기기의 상태가 설정된 조건을 만족하면, 애플리케이션들에 대한 사용자의 제어 명령의 입력을 제한하는 잠금 상태를 실행하거나, 해제할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 음성 시스템을 설명하기 위한 도면이다.
도 2를 참조하면, 음성 시스템(1)은 인공 지능 기기(100), 음성 텍스트 변환(Speech To Text, STT) 서버(10), 자연어 처리(Natural Language Processing, NLP) 서버(20) 및 음성 합성 서버(30)를 포함할 수 있다.
인공 지능 기기(100)는 음성 데이터를 STT 서버(10)에 전송할 수 있다.
STT 서버(10)는 인공 지능 기기(100)로부터 수신된 음성 데이터를 텍스트 데이터로 변환할 수 있다.
STT 서버(10)는 언어 모델을 이용하여 음성-텍스트 변환의 정확도를 높일 수 있다.
언어 모델은 문장의 확률을 계산하거나, 이전의 단어들이 주어졌을 때 다음 단어가 나올 확률을 계산할 수 있는 모델을 의미할 수 있다.
예컨대, 언어 모델은 유니그램(Unigram) 모델, 바이그램(Bigram) 모델, N-그램(N-gram) 모델 등과 같은 확률론적 언어 모델들을 포함할 수 있다.
유니그램 모델은 모든 단어의 활용이 완전히 서로 독립적이라고 가정하는 모델로, 단어 열의 확률을 각 단어의 확률의 곱으로 계산하는 모델이다.
바이그램 모델은 단어의 활용이 이전 1개의 단어에만 의존한다고 가정하는 모델이다.
N-그램 모델은 단어의 활용이 이전 (n-1)개의 단어에 의존한다고 가정하는 모델이다.
즉, STT 서버(10)는 언어 모델을 이용하여 음성 데이터로부터 변환된 텍스트 데이터가 적합하게 변환된 것인지 판단할 수 있고, 이를 통해 텍스트 데이터로의 변환의 정확도를 높일 수 있다.
NLP 서버(20)는 STT 서버(10)로부터 텍스트 데이터를 수신할 수 있다. NLP 서버(20)는 수신된 텍스트 데이터에 기초하여, 텍스트 데이터에 대한 의도 분석을 수행할 수 있다.
NLP 서버(20)는 의도 분석의 수행 결과를 나타내는 의도 분석 정보를 인공 지능 기기(100)에 전송할 수 있다.
NLP 서버(20)는 텍스트 데이터에 대해, 형태소 분석 단계, 구문 분석 단계, 화행 분석 단계, 대화 처리 단계를 순차적으로, 수행하여, 의도 분석 정보를 생성할 수 있다.
형태소 분석 단계는 사용자가 발화한 음성에 대응하는 텍스트 데이터를 의미를 지닌 가장 작은 단위인 형태소 단위로 분류하고, 분류된 각 형태소가 어떤 품사를 가지는지를 결정하는 단계이다.
구문 분석 단계는 형태소 분석 단계의 결과를 이용하여, 텍스트 데이터를 명사구, 동사구, 형용사 구 등으로 구분하고, 구분된 각 구들 사이에, 어떠한 관계가 존재하는지를 결정하는 단계이다.
구문 분석 단계를 통해, 사용자가 발화한 음성의 주어, 목적어, 수식어들이 결정될 수 있다.
화행 분석 단계는 구문 분석 단계의 결과를 이용하여, 사용자가 발화한 음성에 대한 의도를 분석하는 단계이다. 구체적으로, 화행 분석 단계는 사용자가 질문을 하는 것인지, 요청을 하는 것인지, 단순한 감정 표현을 하는 것인지와 같은 문장의 의도를 결정하는 단계이다.
대화 처리 단계는 화행 분석 단계의 결과를 이용하여, 사용자의 발화에 대해 대답을 할지, 호응을 할지, 추가 정보를 문의하는 질문을 할지를 판단하는 단계이다.
NLP 서버(20)는 대화 처리 단계 후, 사용자가 발화한 의도에 대한 답변, 호응, 추가 정보 문의 중 하나 이상을 포함하는 의도 분석 정보를 생성할 수 있다.
한편, NLP 서버(20)는 인공 지능 기기(100)로부터 텍스트 데이터를 수신할 수도 있다. 예를 들어, 인공 지능 기기(100)가 음성 텍스트 변환 기능을 지원하는 경우, 인공 지능 기기(100)는 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 NLP 서버(20)에 전송할 수 있다.
음성 합성 서버(30)는 기 저장된 음성 데이터들을 조합하여, 합성 음성을 생성할 수 있다.
음성 합성 서버(30)는 모델로 선정된 한 사람의 음성을 녹음하고, 녹음된 음성을 음절 또는 단어 단위로 분할할 수 있다. 음성 합성 서버(30)는 음절 또는 단어 단위로, 분할된 음성을 내부 또는 외부의 데이터 베이스에 저장할 수 있다.
음성 합성 서버(30)는 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.
음성 합성 서버(30)는 복수의 언어들 각각에 대응하는 복수의 음성 언어 그룹들을 저장하고 있을 수 있다.
예를 들어, 음성 합성 서버(30)는 한국어로 녹음된 제1 음성 언어 그룹, 영어로, 녹음된 제2 음성 언어 그룹을 포함할 수 있다.
음성 합성 서버(30)는 제1 언어의 텍스트 데이터를 제2 언어의 텍스트로 번역하고, 제2 음성 언어 그룹을 이용하여, 번역된 제2 언어의 텍스트에 대응하는 합성 음성을 생성할 수 있다.
음성 합성 서버(30)는 생성된 합성 음성을 인공 지능 기기(100)에 전송할 수 있다.
음성 합성 서버(30)는 NLP 서버(20)로부터 의도 분석 정보를 수신할 수 있다.
음성 합성 서버(30)는 의도 분석 정보에 기초하여, 사용자의 의도를 반영한, 합성 음성을 생성할 수 있다.
일 실시 예에서, STT 서버(10), NLP 서버(20) 및 음성 합성 서버(30)는 하나의 서버로 구현될 수 있다.
위에서, 설명된 STT 서버(10), NLP 서버(20) 및 음성 합성 서버(30) 각각의 기능은 인공 지능 기기(100)에서도 수행될 수도 있다. 이를 위해, 인공 지능 기기(100)는 복수의 프로세서들을 포함할 수 있다.
도 3은 본 발명의 일 실시 예에 따라 음성 신호로부터 사용자의 발화 특징을 추출하는 과정을 설명하는 도면이다.
도 1에 도시된, 인공 지능 기기(100)는 오디오 프로세서(181)를 더 포함할 수 있다.
오디오 프로세서(181)는 프로세서(180)와 별도의 칩으로 구현되거나, 프로세서(180)에 포함된 칩으로 구현될 수 있다.
오디오 프로세서(181)는 음성 신호로부터, 잡음을 제거할 수 있다.
오디오 프로세서(181)는 음성 신호를 텍스트 데이터로 변환할 수 있다. 이를 위해, 오디오 프로세서(181)는 STT 엔진을 구비할 수 있다.
오디오 프로세서(181)는 인공 지능 기기(100)의 음성 인식을 활성화시키기 위한 기동어를 인식할 수 있다. 오디오 프로세서(181)는 마이크로폰(122)을 통해 수신된 기동어를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터인 경우, 기동어를 인식한 것으로 판단할 수 있다.
오디오 프로세서(181)는 잡음이 제거된 음성 신호를 파워 스펙트럼으로 변환할 수 있다.
파워 스펙트럼은 시간적으로 변동하는 음성 신호의 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되어 있는지를 나타내는 파라미터일 수 있다.
파워 스펙트럼은 음성 신호의 파형의 주파수에 따른 진폭 제곱 값의 분포를 보여준다.
이에 대해서는 도 4를 참조하여, 설명한다.
도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.
도 4을 참조하면, 음성 신호(410)가 도시되어 있다. 음성 신호(410)는 마이크로폰(122)을 통해 수신되거나, 메모리(170)에 미리 저장된 신호일 수 있다.
음성 신호(410)의 x축은 시간이고, y축은 진폭의 크기를 나타낼 수 있다.
오디오 프로세서(181)는 x축이 시간 축인 음성 신호(410)를 x축이 주파수 축인 파워 스펙트럼(430)으로 변환할 수 있다.
오디오 프로세서(181)는 고속 퓨리에 변환(Fast Fourier Transform, FFT)을 이용하여, 음성 신호(410)를 파워 스펙트럼(430)으로 변환할 수 있다.
파워 스펙트럼(430)의 x축은 주파수, y축은 진폭의 제곱 값을 나타낸다.
다시 도 3을 설명한다.
프로세서(180)는 오디오 프로세서(181)로부터 전달된 텍스트 데이터 또는 파워 스펙트럼(430) 중 하나 이상을 이용하여, 사용자의 발화 특징을 결정할 수 있다.
사용자의 발화 특징은 사용자의 성별, 사용자의 음의 높낮이, 사용자의 음색, 사용자의 발화 주제, 사용자의 발화 속도, 사용자의 성량등을 포함할 수 있다.
프로세서(180)는 파워 스펙트럼(430)을 이용하여, 음성 신호(410)의 주파수 및 주파수에 대응하는 진폭을 획득할 수 있다.
프로세서(180)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성을 발화한 사용자의 성별을 결정할 수 있다.
예를 들어, 프로세서(180)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제1 주파수 대역 범위 내인 경우, 사용자의 성별을 남자로 결정할 수 있다.
프로세서(180)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제2 주파수 대역 범위 내인 경우, 사용자의 성별을 여자로 결정할 수 있다. 여기서, 제2 주파수 대역 범위는 제1 주파수 대역 범위보다 클 수 있다.
프로세서(180)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성의 높낮이를 결정할 수 있다.
예를 들어, 프로세서(180)는 특정 주파수 대역 범위 내에서, 진폭의 크기에 따라 음의 높낮이 정도를 결정할 수 있다.
프로세서(180)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 사용자의 음색(tone)을 결정할 수 있다. 예를 들어, 프로세서(180)는 파워 스펙트럼(430)의 주파수 대역들 중, 진폭의 크기가 일정 크기 이상인 주파수 대역을 사용자의 주요 음역대로 결정하고, 결정된 주요 음역대를 사용자의 음색으로 결정할 수 있다.
프로세서(180)는 변환된 텍스트 데이터로부터, 단위 시간 당 발화된 음절 수를 통해, 사용자의 발화 속도를 결정할 수 있다.
프로세서(180)는 변환된 텍스트 데이터에 대해, Bag-Of-Word Model 기법을 이용하여, 사용자의 발화 주제를 결정할 수 있다.
Bag-Of-Word Model 기법은 문장 내 단어 빈도 수 기반으로, 주로 사용하는 단어를 추출하는 기법이다. 구체적으로, Bag-Of-Word Model 기법은 문장 내에서, 유니크한 단어를 추출하고, 추출된 각 단어의 빈도 수를 벡터로 표현하여, 발화 주제를 특징을 결정하는 기법이다.
예를 들어, 프로세서(180)는 텍스트 데이터에 <달리기>, <체력> 등과 같은 단어가 자주 등장하면, 사용자의 발화 주제를 운동으로 분류할 수 있다.
프로세서(180)는 공지된 텍스트 카테고리화(Text Categorization) 기법을 이용하여, 텍스트 데이터로부터 사용자의 발화 주제를 결정할 수 있다. 프로세서(180)는 텍스트 데이터로부터 키워드를 추출하여, 사용자의 발화 주제를 결정할 수 있다.
프로세서(180)는 전체 주파수 대역에서의 진폭 정보를 고려하여 사용자의 성량을 결정할 수 있다.
예컨대, 프로세서(180)는 파워 스펙트럼의 각 주파수 대역에서의 진폭의 평균 또는 가중치 평균을 기준으로 사용자의 성량을 결정할 수 있다.
도 3 및 도 4에서 설명된 오디오 프로세서(181) 및 프로세서(180)의 기능은 NLP 서버(20), 음성 합성 서버(30) 중 어느 하나의 서버에서도 수행될 수 있다.
예를 들어, NLP 서버(20)는 음성 신호를 이용하여, 파워 스펙트럼을 추출하고, 추출된 파워 스펙트럼을 이용하여, 사용자의 발화 특징을 결정할 수 있다.
도 5는 본 발명의 일 실시 예에 따른 인공 지능 시스템의 동작 방법을 설명하는 도면이다.
인공 지능 시스템은 인공 지능 기기(100-1), 제1 외부 인공 지능 기기(100-2), 제2 외부 인공 지능 기기(100-3)를 포함할 수 있다.
인공 지능 기기(100-1), 제1 외부 인공 지능 기기(100-2), 제2 외부 인공 지능 기기(100-3)는 도 1에 도시된 모든 구성 요소들을 포함할 수 있다.
한편, 도 5에서는 인공 지능 시스템이 3개의 인공 지능 기기들을 포함하는 것을 예로 들어 설명하나, 이는 예시에 불과하고, 더 많은 수의 인공 지능 기기들을 포함할 수도 있다.
인공 지능 기기(100-1)의 마이크로폰(122) 및 제1 외부 인공 지능 기기(100-2)의 마이크로폰(122) 각각은 기동 명령어를 수신한다(S501, S503).
일 실시 예에서, 기동 명령어는 특정 인공 지능 기기를 활성화시키기 위해 사용되는 사용자의 음성 명령어일 수 있다.
도 5에서는, 인공 지능 기기(100-1) 및 제1 외부 인공 지능 기기(100-2) 만이 기동 명령어를 수신하는 것으로 실시 예로 기재하였으나, 이는 예시에 불과하고, 제2 외부 인공 지능 기기(100-3) 또한, 기동 명령어를 수신할 수도 있다.
인공 지능 기기(100-1)의 프로세서(180)는 수신된 기동 명령어의 제1 음성 품질 레벨을 획득하고(S505), 제1 외부 인공 지능 기기(100-2)는 기동 명령어의 제2 음성 품질 레벨을 획득한다(S507).
프로세서(180)는 수신된 기동 명령어의 음성 품질을 나타내는 제1 음성 품질 레벨을 획득할 수 있다.
일 예로, 프로세서(180)는 시간 축에서, 키워드 음성 대비 주변 잡음의 파워 비율(Keyword Speech to Ambient Noise Ratio, KSANR)을 제1 음성 품질 레벨로 획득할 수 있다.
즉, 프로세서(180)는 수신된 기동 명령어에 대해 시간 축에서, 키워드 음성 대비 주변 잡음의 파워 비율을 측정하고, 측정된 비율을 제1 음성 품질 레벨로 획득할 수 있다.
또 다른 예로, 프로세서(180)는 주파수 도메인에서, 키워드 음성 구간의 신호 대비 잡음 구간의 신호 비율(Signal to Noise Ration, SNR)을 측정하고, 측정된 비율을 제1 음성 품질 레벨로 획득할 수 있다.
즉, 프로세서(180)는 수신된 기동 명령어에 대해, 주파수 도메인에서, 키워드 음성 구간의 신호 대비 잡음 비율을 제1 음성 품질 레벨로 획득할 수 있다.
마찬가지로, 제1 외부 인공 지능 기기(100-2)의 프로세서(180) 또한, 수신된 기동 명령어의 KSANR 또는 SNR 중 어느 하나를 제2 음성 품질 레벨로 획득할 수 있다.
한편, 프로세서(180)는 기동 명령어로부터, 키워드 음성, 음성 잡음, 주변 잡음을 추출할 수 있다. 프로세서(180)는 추출 결과를 이용하여, KSANR 또는 SNR과 같은, 음성 품질 레벨을 측정할 수 있다.
또 다른 예로, 음성 품질 레벨은 기동 명령어의 음량이 적정 범위 내에 속하는 정도를 나타낼 수 있다.
예를 들어, 인공 지능 기기(100-1)가 수신한 기동 명령어의 음량이 적정 범위 내에 있고, 제1 외부 인공 지능 기기(100-2)가 수신된 기동 명령어의 음량이 적정 범위 내에 있지 않은 경우, 인공 지능 기기(100-1)가 수신한 기동 명령어의 제1 음성 품질 레벨이 제1 외부 인공 지능 기기(100-2)가 수신된 기동 명령어의 제2 음성 품질 레벨보다 더 큰 것으로 판단할 수 있다.
이 경우, 음성 품질 레벨은 외부 인공 지능 기기가 수신한 기동 명령어의 음량 또는 기동 명령어의 음량이 적정 범위 내에 속하는지 여부에 대한 정보를 포함할 수 있다.
도 6은 본 발명의 일 실시 예에 따라, 음성 품질 레벨을 측정하는 예를 설명하는 도면이다.
도 6을 참조하면, 마이크로폰(122)을 통해 입력된 기동 명령어에 대응하는 음성 신호(610) 및 음성 신호(610)의 파워 스펙트럼(430)이 도시되어 있다.
오디오 프로세서(181)는 음성 신호(610)로부터, 키워드 음성(611), 음성 잡음(613, 615), 주변 잡음(617, 619)를 추출할 수 있다.
오디오 프로세서(181)는 음성 신호(610)의 특정 구간의 음성 패턴이 기 설정된 잡음 패턴과 일정 비율 이상 매칭되는 경우, 해당 구간을 음성 잡음으로 분류할 수 있다.
마찬가지로, 오디오 프로세서(181)는 음성 신호(610)의 특정 구간의 음성 패턴이 기 설정된 주변 잡음 패턴과 일정 비율 이상 매칭되는 경우, 해당 구간을 주변 잡음으로 구별할 수 있다.
오디오 프로세서(181)는 음성 신호(610)로부터, 음성 잡음 및 주변 잡음을 제외한 나머지 구간을 키워드 음성으로 결정할 수 있다.
오디오 프로세서(181) 또는 프로세서(180)는 음성 신호(610)부터 추출된 키워드 음성(611), 음성 잡음(613, 615), 주변 잡음(617, 619)을 이용하여, 음성 품질 레벨을 획득할 수 있다.
일 예로, 오디오 프로세서(181) 또는 프로세서(180)는 키워드 음성(611)에 대응하는 파워 대비 주변 잡음(617, 619)에 대응하는 파워의 비율을 측정하고, 측정된 비율을 음성 품질 레벨로 획득할 수 있다. 여기서, 파워는 진폭 또는 진폭을 통해 계산된 파워일 수 있다.
또 다른 예로, 오디오 프로세서(181) 또는 프로세서(180)는 키워드 음성(611)에 대응되는 파워 스펙트럼의 전력 대비 잡음들(613, 615, 617, 619)에 대응하는 파워 스펙트럼의 전력 비율을 측정하고, 측정된 비율을 음성 품질 레벨로 획득할 수 있다.
다시, 도 5를 설명한다.
인공 지능 기기(100-1)의 프로세서(180)는 무선 통신부(110)를 통해 제1 외부 인공 지능 기기(100-2)로부터 제2 음성 품질 레벨을 수신한다(S509).
프로세서(180)는 근거리 통신 모듈(114)을 통해, 제1 외부 인공 지능 기기(100-2)로부터, 제2 음성 품질 레벨을 수신할 수 있다.
인공 지능 기기(100-1)의 프로세서(180)는 제1 음성 품질 레벨과 제2 음성 품질 레벨을 비교하고, 제1 음성 품질 레벨이 제2 음성 품질 레벨보다 큰지를 판단한다(S511).
일 실시 예에서, 프로세서(180)는 인공 지능 기기(100-1)가 수신한 기동명령어의 KSANR과 제1 외부 인공 지능 기기(100-2)가 수신한 기동 명령어의 KSANR을 비교하고, 어느 값이 더 큰지를 판단할 수 있다.
프로세서(180)는 프로세서(180)는 인공 지능 기기(100-1)가 수신한 기동명령어의 KSANR가 제1 외부 인공 지능 기기(100-2)로부터 수신된 KSANR 보다 더 큰 경우, 제1 음성 품질 레벨이 제2 음성 품질 레벨보다 큰 것으로 결정할 수 있다.
반대로, 프로세서(180)는 인공 지능 기기(100-1)가 수신한 기동 명령어의 KSANR가 제1 외부 인공 지능 기기(100-2)로부터 수신된 KSANR 보다 더 작은 경우, 제1 음성 품질 레벨이 제2 음성 품질 레벨보다 작은 것으로 결정할 수 있다.
또 다른 예로, 프로세서(180)는 인공 지능 기기(100-1)가 수신한 기동 명령어의 SNR과 제1 외부 인공 지능 기기(100-2)가 수신한 기동 명령어의 SNR을 비교하고, 어느 값이 더 큰지를 판단할 수 있다.
프로세서(180)는 인공 지능 기기(100-1)가 수신한 기동 명령어의 SNR이 제1 외부 인공 지능 기기(100-2)로부터 수신된 SNR보다 더 큰 경우, 제1 음성 품질 레벨이 제2 음성 품질 레벨보다 큰 것으로 결정할 수 있다.
반대로, 프로세서(180)는 인공 지능 기기(100-1)가 수신한 기동 명령어의 SNR이 제1 외부 인공 지능 기기(100-2)로부터 수신된 SNR보다 더 작은 경우, 제1 음성 품질 레벨이 제2 음성 품질 레벨보다 더 작은 것으로 결정할 수 있다.
인공 지능 기기(100-1)의 프로세서(180)는 제1 음성 품질 레벨이 제2 음성 품질 레벨보다 큰 경우, 인공 지능 기기(100-1)가 제어 대상으로 선택되었음을 나타내는 알림을 출력한다(S513).
프로세서(180)는 제1 음성 품질 레벨이 제2 음성 품질 레벨보다 더 큰 경우, 인공 지능 기기(100-1)가 사용자의 기동 명령어에 따라 선택되었음을 나타내는 알림을 출력할 수 있다.
즉, 인공 지능 기기(100-1)는 기동 명령어에 따라 활성화되었음을 나타내는 알림을 출력할 수 있다.
프로세서(180)는 상기 알림을 음향 출력부(152)를 통해 음성으로 출력하거나, 광출력부(154)를 통해 특정 광을 출력할 수도 있다.
프로세서(180)는 상기 알림을 음성으로 출력하면서, 특정 광을 함께 출력할 수도 있다.
그 후, 인공 지능 기기(100-1)의 마이크로폰(122)은 동작 명령어를 수신하고(S515), 프로세서(180)는 수신된 동작 명령어의 의도를 획득한다(S517).
일 예로, 프로세서(180)는 동작 명령어를 텍스트로 변환하고, 변환된 텍스트를 도 2에 도시된 NLP 서버(20)로 전송할 수 있다.
프로세서(180)는 NLP 서버(20)가 분석한 의도 분석 결과를 NLP 서버(20)로부터 수신할 수 있다.
의도 분석 결과는 동작 명령어를 수행할 외부 인공 지능 기기 및 상기 외부 인공 지능 기기가 수행해야 할 동작을 포함할 수 있다.
또 다른 예로, 프로세서(180)는 동작 명령어의 의도를 자체적으로 획득할 수 있다.
프로세서(180)는 NLP 서버(20)의 기능을 수행할 수 있는 자연어 처리 엔진을 포함할 수 있고, 자연어 처리 엔진을 이용하여, 동작 명령어의 의도를 분석할 수 있다.
인공 지능 기기(100-1)의 프로세서(180)는 획득된 의도에 기초하여, 동작 명령어에 대응하는 동작을 수행할 기기를 결정한다(S519).
프로세서(180)는 복수의 외부 인공 지능 기기들 중 획득된 의도에 따른 동작을 수행할 수 있는 기기를 결정할 수 있다. 복수의 외부 인공 지능 기기들 각각은 인공 지능 기기(100-1)와 연결된 기기 또는 연결 가능한 기기일 수 있다.
프로세서(180)는 인공 지능 기기(100-1), 제1 외부 인공 지능 기기(100-2), 제2 외부 인공 지능 기기(100-3) 중 획득된 의도에 따른 동작을 수행할 수 있는 기기를 선정할 수 있다.
인공 지능 기기(100-1)의 프로세서(180)는 결정된 제2 외부 인공 지능 기기(100-2)에 동작 명령어를 무선 통신부(110)를 통해 전송한다(S521).
제2 외부 인공 지능 기기(100-2)는 인공 지능 기기(100-1)로부터 동작 명령어를 수신하고, 수신된 동작 명령어에 대응하는 동작을 수행할 수 있다.
한편, 인공 지능 기기(100-1)의 프로세서(180)는 제1 음성 품질 레벨이 제2 음성 품질 레벨보다 작다고 판단한 경우, 음성 품질 레벨의 비교 결과를 제1 외부 인공 지능 기기(100-2)에 전송한다(S523).
음성 품질 레벨의 비교 결과는 제1 음성 품질 레벨과 제2 음성 품질 레벨 중 어느 것이 더 큰지를 나타내는 정보를 포함할 수 있다.
프로세서(180)는 음성 품질 레벨의 비교 결과 이외에, 제1 외부 인공 지능 기기(100-2)가 사용자의 발화에 따른 제어 대상 기기로 선정되었음을 알리는 메시지를 제1 외부 인공 지능 기기(100-2)에 전송할 수 있다.
제1 음성 품질 레벨이 제2 음성 품질 레벨보다 작은 경우, 인공 지능 기기(100-1)는 기동 명령어의 수신에 따라, 활성화되지 않고, 비 활성화 상태를 유지할 수 있다.
제1 외부 인공 지능 기기(100-2)는 수신된 음성 품질 레벨의 비교 결과에 기초하여, 제1 외부 인공 지능 기기(100-2)가 제어 대상으로 선택되었음을 나타내는 알림을 출력한다(S525).
도 7은 도 5에 도시된 인공 지능 시스템의 동작 방법에 대한 실제 사용 시나리오를 설명하기 위한 도면이다.
도 7을 참조하면, 인공 지능 기기(100-1)는 스마트 TV이고, 제1 외부 인공 지능 기기(100-2)는 공기 청정기이고, 제2 외부 인공 지능 기기(100-3)는 로봇 청소기임을 가정한다.
또한, 인공 지능 기기(100-1) 및 제1 외부 인공 지능 기기(100-2)는 거실에 위치하고, 제2 외부 인공 지능 기기(100-3)는 안방에 위치함을 가정한다.
제2 외부 인공 지능 기기(100-3)는 사용자와의 거리가 멀어, 사용자가 발화한 음성 명령어를 수신 또는 인식하지 못함을 가정한다.
사용자는 <하이 엘지>라는 기동 명령어를 발화한다.
인공 지능 기기(100-1) 및 제1 외부 인공 지능 기기(100-2)는 사용자가 발화한 <하이 엘지>라는 기동 명령어를 수신한다.
인공 지능 기기(100-1)는 자신이 수신한 기동 명령어에 대한 제1 음성 품질 레벨을 획득할 수 있다.
또한, 인공 지능 기기(100-1)는 제1 외부 인공 지능 기기(100-2)로부터 제1 외부 인공 지능 기기(100-2)가 수신한 기동 명령어에 대한 제2 음성 품질 레벨을 수신할 수 있다.
인공 지능 기기(100-1)는 제1 음성 품질 레벨 및 제2 음성 품질 레벨을 비교하고, 제1 음성 품질 레벨이 더 큰 경우, 자신이 제어 대상으로 선정되었음을 나타내는 알림을 출력할 수 있다.
동시에, 인공 지능 기기(100-1)는 자신이 제어 대상으로 선정되었음을 나타내는 메시지를 제1 외부 인공 지능 기기(100-2)에 전송할 수 있다.
제1 외부 인공 지능 기기(100-2)는 인공 지능 기기(100-1)로부터 수신된 메시지에 따라, 사용자로부터, 기동 명령어를 수신했음에도, 활성화되지 않을 수 있다.
이와 같이, 본 발명의 실시 예에 따르면, 하나의 기동 명령어로 활성화되는 복수의 인공 지능 기기들 중 어느 하나의 기기만이, 제어 대상으로 선택될 수 있다.
이에 따라, 하나의 기동 명령어로 복수의 인공 지능 기기들이 활성화됨에 따라 발생될 수 있는, 혼란이 없어질 수 있다.
도 8은 본 발명의 일 실시 예에 따른 인공 지능 기기의 동작 방법을 설명하기 위한 흐름도이다.
인공 지능 기기(100)의 마이크로폰(122)은 기동 명령어를 수신한다(S801).
인공 지능 기기(100)의 프로세서(180)는 수신된 기동 명령어의 음량을 측정한다(S803).
프로세서(180)는 마이크로폰(122)을 통해 기동 명령어가 입력된 경우, 입력된 기동 명령어의 음량을 측정할 수 있다.
측정된 음량은 데시벨의 단위를 가질 수 있으나, 이는 예시에 불과하다.
인공 지능 기기(100)의 프로세서(180)는 측정된 음량이 적정 범위에 속하는지를 판단한다(S805).
일 실시 예에서, 적정 범위는 인공 지능 기기(100)가 기동 명령어에 따라 활성화 상태로 변경되기 위해 요구되는 음량의 범위일 수 있다.
예를 들어, 적정 범위는 40 내지 60일 수 있으나, 이는 예시에 불과한 범위이다.
적정 범위는 각 인공 지능 기기가 댁 내에 배치될 때, 사용자에 의해 설정될 수 있는 범위일 수 있다. 즉, 사용자 입력에 따라 적정 범위가 각 기기에 등록될 수 있다.
인공 지능 기기(100)의 프로세서(180)는 측정된 음량이 적정 범위에 속한다고 판단한 경우, 자신이 제어 대상으로 선택되었음을 나타내는 알림을 출력한다(S807).
프로세서(180)는 측정된 음량이 적정 범위에 속하는 것으로 판단한 경우, 기동 명령어에 응답하여, 인공 지능 기기(100)의 비활성화 상태를 활성화 상태로 변경할 수 있다.
인공 지능 기기(100)의 비활성화 상태는 사용자가 발화한 동작 명령어에 대해 응답하지 않는 상태일 수 있다.
인공 지능 기기(100)의 활성화 상태는 사용자가 발화한 동작 명령어에 응답하여, 동작 명령어에 대응하는 동작을 수행할 수 있는 상태일 수 있다.
프로세서(180)는 측정된 음량이 적정 범위에 속한다고 판단한 경우, 자신이 제어 대상으로 선택되었음을 나타내는 알림을 음향 출력부(152) 또는 광 출력부(154)를 통해 출력할 수 있다.
한편, 인공 지능 기기(100)의 프로세서(180)는 측정된 음량이 적정 범위에 속하지 않는다고 판단한 경우, 비활성화 상태를 유지한다(S809).
즉, 프로세서(180)는 추후, 사용자가 발화한 동작 명령어가 마이크로폰(122)에 입력되더라도, 아무런 동작을 수행하지 않을 수 있다.
도 9 및 도 10은 본 발명의 실시 예에 따라 복수의 인공 지능 기기들 중 사용자의 기동 명령어에 응답하여, 어느 하나의 기기가 제어 대상으로 선택되는 과정을 설명하는 도면이다.
도 9 및 도 10을 참조하면, 인공 지능 기기(100-1), 제1 외부 인공 지능 기기(100-2) 및 제2 외부 인공 지능 기기(100-3)가 배치되어 있다.
인공 지능 기기(100-1), 제1 외부 인공 지능 기기(100-2) 및 제2 외부 인공 지능 기기(100-3) 각각이 기동 명령어에 따라 활성화 상태로 변경되기 위해 설정된 음량의 적정 범위는 모두 40 내지 60으로, 동일함을 가정한다.
적정 범위는 상한 값(910)과 하한 값(930) 내의 범위일 수 있다.
또한, 사용자와 인공 지능 기기(100-1) 간의 제1 거리는 사용자와 제1 외부 인공 지능 기기(100-2) 간의 제2 거리보다 크고, 사용자와 제2 외부 인공 지능 기기(100-3) 간의 제3 거리는 제2 거리보다 작음을 가정한다.
먼저, 도 9를 참조하면, 사용자가 큰 목소리로, <하이 엘지>라는 기동 명령어(901)를 발화한다.
인공 지능 기기(100-1)는 마이크로폰(122)을 통해 입력된 기동 명령어(901)의 제1 음성 신호(951)의 음량이 상한 값(910)과 하한 값(930)의 사이에 있는지를 판단할 수 있다.
도 9에 도시된 바에 따르면, 인공 지능 기기(100-1)는 기동 명령어(901)의 제1 음성 신호(951)의 음량이 상한 값(910)과 하한 값(930)의 사이에 있으므로, 자신을 기동 명령어(901)에 대한 제어 대상으로 선정할 수 있다.
즉, 인공 지능 기기(100-1)는 기동 명령어(901)에 따라 활성화 될 수 있다.
제1 외부 인공 지능 기기(100-2)는 마이크로폰(122)을 통해 입력된 기동 명령어(901)의 제2 음성 신호(953)의 음량이 하한 값(930) 보다 크나, 상한 값(910)을 초과하는 구간이 있으므로, 제2 음성 신호(953)의 음량이 적정 범위 내에 속하지 않는 것으로 판단할 수 있다.
즉, 제1 외부 인공 지능 기기(100-2)는 기동 명령어(901)의 음량이 적정 범위 내에 있지 않으므로, 마이크로폰(122)에 기동 명령어(901)가 입력되더라도, 활성화 되지 않을 수 있다.
제2 외부 인공 지능 기기(100-3)는 마이크로폰(122)을 통해 입력된 기동 명령어(901)의 제3 음성 신호(955)의 전체 구간에서, 음량이 상한 값(910)을 초과하므로, 제3 음성 신호(955)의 음량이 적정 범위 내에 속하지 않은 것으로 판단할 수 있다.
즉, 제2 외부 인공 지능 기기(100-3)는 기동 명령어(901)의 음량이 적정 범위 내에 있지 않으므로, 마이크로폰(122)에 기동 명령어(901)가 입력되더라도, 활성화 되지 않을 수 있다.
이와 같이, 본 발명의 실시 예에 따르면, 사용자는 제어하고자 하는 기기와의 거리를 시각적으로 판단하고, 제어하고자 하는 기기가 멀리 있는 경우, 큰 목소리로, 기동 명령어를 발화하여, 원하는 기기를 제어 대상으로 손쉽게 선택할 수 있다.
다음으로, 도 10을 참조하면, 사용자가 작은 목소리로 <하이 엘지>라는 기동 명령어(1001)를 발화한다.
각 인공 지능 기기는 마이크로폰을 통해 입력된 기동 명령어(1001)의 음량이 적정 범위 내에 속하는지를 판단할 수 있다.
인공 지능 기기(100-1)는 자신의 마이크로폰(122)에 입력된 기동 명령어(1001)의 제4 음성 신호(1010)의 음량이 하한 값(930)보다 작으므로, 제4 음성 신호(1010)의 음량이 적정 범위 내에 속하지 않는 것으로 판단할 수 있다.
즉, 인공 지능 기기(100-1)는 기동 명령어(1001)에 응답하여, 활성화되지 않을 수 있다.
제1 외부 인공 지능 기기(100-2)는 자신의 마이크로폰(122)에 입력된 기동 명령어(1001)의 제5 음성 신호(1030)의 음량이 하한 값(930)보다 작은 구간이 존재하므로, 제5 음성 신호(1030)의 음량이 적정 범위 내에 속하지 않는 것으로 판단할 수 있다.
즉, 제1 외부 인공 지능 기기(100-2)는 기동 명령어(1001)에 응답하여, 활성화되지 않을 수 있다.
제2 외부 인공 지능 기기(100-3)는 자신의 마이크로폰(122)에 입력된 기동 명령어(1001)의 제6 음성 신호(1050)의 음량이 전체 구간에서, 적정 범위 내에 있으므로, 자신을 기동 명령어(1001)에 대한 제어 대상으로 선정할 수 있다.
이와 같이, 본 발명의 실시 예에 따르면, 사용자는 제어하고자 하는 기기와의 거리를 시각적으로 판단하고, 제어하고자 하는 기기가 가까이 있는 경우, 작은 목소리로, 기동 명령어를 발화하여, 원하는 기기를 제어 대상으로 손쉽게 선택할 수 있다.
또한, 도 9 및 도 10의 실시 예에 따르면, 동일한 기동 명령어의 발화에 따라, 어느 하나의 기기만이 활성화되므로, 복수의 기기가 활성화됨에 따라 발생하는 혼잡이 해소될 수 있다.
도 11은 본 발명의 또 다른 실시 예에 따른 인공 지능 시스템의 동작 방법을 설명하기 위한 래더 다이어 그램이다.
특히, 도 11은 복수의 인공 지능 기기들 중 어느 하나가 마스터 기기가 되어, 기동 명령어에 따른 제어 대상을 선정하는 예를 설명하는 도면이다.
도 11을 참조하면, 인공 지능 기기(100-1), 제1 외부 인공 지능 기기(100-2) 및 제2 외부 인공 지능 기기(100-3) 각각은 마이크로폰(122)을 통해 기동 명령어를 수신한다(S1101, S1103, S1105).
인공 지능 기기(100-1)의 프로세서(180)는 기동 명령어의 제1 음량을 측정하고(S1107), 제1 외부 인공 지능 기기(100-2)는 기동 명령어의 제2 음량을 측정하고(S1109), 제2 외부 인공 지능 기기(100-3)는 기동 명령어의 제3 음량을 측정한다(S1111).
인공 지능 기기(100-1)의 프로세서(180)는 무선 통신부(110)를 통해 제1 외부 인공 지능 기기(100-2)로부터 제2 음량을 포함하는 음량 정보를 수신하고(S1113), 제2 외부 인공 지능 기기(100-3)로부터 제3 음량을 포함하는 음량 정보를 수신한다(S1115).
인공 지능 기기(100-1)의 프로세서(180)는 제1 음량, 제2 음량, 제3 음량 중 적정 범위 내에 속하는 음량이 있는지를 판단한다(S1117).
인공 지능 기기(100-1)의 프로세서(180)는 적정 범위 내에 속하는 음량이 있는 경우, 해당 음량에 대응하는 기기를 제어 대상으로 결정한다(S1119).
인공 지능 기기(100-1)의 프로세서(180)는 무선 통신부(110)를 통해 결정된 기기로, 제어 대상이 선정되었음을 나타내는 메시지를 전송한다(S1121).
예를 들어, 제1 외부 인공 지능 기기(100-2)에 대응하는 제2 음량이 적정 범위 내에 속하는 경우, 프로세서(180)는 무선 통신부(110)를 통해, 제1 외부 인공 지능 기기(100-2)가 제어 대상으로 선정되었음을 나타내는 메시지를 제1 외부 인공 지능 기기(100-2)에 전송할 수 있다.
제1 외부 인공 지능 기기(100-2)는 인공 지능 기기(100-1)로부터 수신된 메시지에 따라 자신의 상태를 활성화 상태로 변경할 수 있다.
만약, 프로세서(180)는 인공 지능 기기(100-1) 자신이 제어 대상으로 선정된 경우, 단계 S1121은 생략될 수 있다.
프로세서(180)는 인공 지능 기기(100-1)가 제어 대상으로 선정된 경우, 이를 나타내는 알림을 출력할 수 있다.
이와 같이, 도 11의 실시 예에 따르면, 마스터 기기가 사용자의 기동 명령어의 발화에 따른 제어 대상이 효율적으로 선정될 수 있다.
한편, 사용자와 인공 지능 기기 사이에 장애물이 존재하는 경우, 기동 명령어의 음성 신호가 장애물에 반사되어, 사용자가 원하는 않는 기기가 활성화될 수 있다.
따라서, 장애물에 의해 반사되는 음성 신호를 고려하여, 제어 대상을 선택할 필요가 있다.
도 12 및 도 13은 사용자와 인공 지능 기기 사이에 장애물이 존재하는 경우, 기동 명령어의 음량 크기를 보정하는 방법을 설명하는 예를 설명하는 도면이다.
도 12는 도 9의 실시 예를 기본으로, 장애물(1200)이 더 배치된 도면이다.
사용자는 인공 지능 기기들 중 가장 멀리 있는 인공 지능 기기(100-1)를 선택하기 위한 큰 목소리로 기동 명령어(901)를 발화한다.
그러나, 장애물(1200)의 존재로 인해, 기동 명령어(901)의 음성 신호가 장애물에 반사되어, 생성된 반사 신호가 제2 외부 인공 지능 기기(100-2)에 입력될 수 있다.
즉, 제2 외부 인공 지능 기기(100-2)의 마이크로폰(122)에는 기동 명령어(901)의 음성 신호(955) 및 음성 신호(955)가 장애물(1200)에 반사되어 생성된 반사 신호(1310)가 입력될 수 있다.
반사 신호(1310)가 적정 범위 내에 속하는 경우, 사용자는 인공 지능 기기(100-1)를 선택하기 위해 큰 목소리로 기동 명령어(901)를 발화하였음에도 불구하고, 제2 외부 인공 지능 기기(100-3)도 활성화되는 문제가 발생한다.
인공 지능 기기(100-1) 및 제2 외부 인공 지능 기기(100-3)가 기동 명령어(901)에 응답하여, 활성화되는 경우, 추후, 사용자의 동작 명령어에 대해 2개의 기기가 반응하게 되어, 혼란이 가중될 수 있다.
이를 위해, 각 인공 지능 기기는 기동 명령어(901)의 잔향 시간을 측정하여, 장애물의 존재를 판단할 수 있다.
잔향 시간은 마이크로폰(122)을 통해 수신된 음성 신호의 크기가 60dB 감소하는데 걸리는 시간이다.
제2 외부 인공 지능 기기(100-3)는 기동 명령어(901)에 대응하는 음성 신호의 잔향 시간이 기 설정된 시간 이상인 경우, 장애물이 검출된 것으로 판단할 수 있다.
실제, 제2 외부 인공 지능 기기(100-3)에 입력된 신호는 음성 신호(955) 및 시간 차를 두고, 장애물(1200)에 반사되어 입력된 반사 신호(1310)를 포함할 수 있다.
음성 신호(955) 및 반사 신호(1310)가 입력된 경우, 일반적은 잔향 시간은 기 설정된 시간을 초과할 수 있다. 시간차를 두고, 입력되는 반사 신호(1310)의 영향 때문이다.
제2 외부 인공 지능 기기(100-3)는 잔향 시간이 기 설정된 시간 이상이어서, 장애물이 검출된 것으로 판단한 경우, 음성 신호(955) 및 반사 신호(1310)가 합쳐진 합성 신호(1330)의 파형을 분석할 수 있다.
제2 외부 인공 지능 기기(100-3)는 합성 신호(1330)로부터, 음성 신호(955)와 반사 신호(1310)의 시간 차로 인해 발생된 시간 차 신호들(1331, 1333)을 추출할 수 있다.
제2 외부 인공 지능 기기(100-3)는 합성 음성(1330)의 음량이 적정 범위 내에 있는지 판단할 시, 추출된 시간 차 신호들(1331, 1333)을 고려하지 않을 수 있다.
즉, 제2 외부 인공 지능 기기(100-3)는 추출된 시간 차 신호들(1331, 1333)을 에러 신호로 판단하고, 추출된 시간 차 신호들(1331, 1333) 제외한 나머지 합성 신호의 음량이 적정 범위 내에 있는지를 판단할 수 있다.
제2 외부 인공 지능 기기(100-3)는 시간 차 신호들(1331, 1333) 제외한 나머지 합성 신호의 일부가 상한 값(910)을 초과하기 때문에, 나머지 합성 신호의 음량이 적정 범위 내에 속하지 않는 것으로 판단할 수 있다.
이에 따라, 제2 외부 인공 지능 기기(100-3)는 기동 명령어(901)의 입력에 따라 활성화되지 않을 수 있다.
이와 같이, 본 발명의 실시 예에 따르면, 장애물이 있는 경우라도, 사용자의 기동 명령어의 음량 크기에 따라, 사용자가 원하는 제어 대상 기기가 선택될 수 있다.
한편, 제어 대상이 선택된 상황에서, 사용자는 이동을 하면서, 동작 명령어를 발화하는 경우가 있다. 사용자가 이동하면서, 동작 명령어의 발화를 하는 경우, 기기가 받아들이는 동작 명령어의 음량 크기가 달라져, 음량이 적정 범위 내에 속하지 않을 수 있다.
따라서, 본 발명에서는, 사용자의 이동을 감지하여, 음량의 적정 범위를 적응적으로, 조절하는 방법을 제안한다.
도 14는 본 발명의 또 다른 실시 예에 따른 인공 지능 기기의 동작 방법을 설명하기 위한 흐름도이다.
도 14는 제어 대상 기기가 선택된 상태에서, 수행되는 과정일 수 있다.
도 14를 참조하면, 인공 지능 기기(100)의 프로세서(180)는 사용자의 이동이 감지되는지를 판단한다(S1401).
일 예로, 인공 지능 기기(100)는 사용자의 이동 감지를 위해, 초음파 센서, 적외선 센서, 레이져 센서 중 하나를 이용하여, 사용자의 이동을 감지할 수 있다.
초음파 센서는 음파를 방출하고, 물체로부터 반사된 음파가 수신되기까지의 시간을 반복하여, 측정할 수 있다.
적외선 센서는 적외선을 방출하고, 물체로부터 반사된 적외선이 수신되기까지의 시간을 반복하여 측정할 수 있다.
레이저 센서는 레이져를 방출하고, 물체로부터 반사된 레이져가 수신되기 까지의 시간을 반복하여 측정할 수 있다.
프로세서(180)는 측정된 시간을 이용하여, 사용자와 인공 지능 기기(100) 간의 거리를 획득할 수 있다. 또한, 프로세서(180)는 측정된 시간의 변화량에 따라 거리의 변화량을 획득하여, 사용자가 인공 지능 기기(100)로부터 멀어지는지, 가까워지는지를 판단할 수 있다.
프로세서(180)는 사용자의 이동이 감지되지 않은 경우, 음량의 적정 범위를 유지한다(S1403).
인공 지능 기기(100)의 프로세서(180)는 사용자의 이동이 감지된 경우, 음량의 적정 범위를 조절한다(S1405).
프로세서(180)는 사용자와 인공 지능 기기(100) 간의 거리에 따라 음량의 적정 범위를 적응적으로(adaptive) 조절할 수 있다.
프로세서(180)는 사용자와 인공 지능 기기(100) 간의 거리가, 멀어지는 경우, 적정 범위의 상한 값 및 하한 값을 감소시킬 수 있다.
반대로, 프로세서(180)는 사용자와 인공 지능 기기(100) 간의 거리가 가까워지는 경우, 적정 범위의 상한 값과 하한 값을 증가시킬 수 있다.
이에 대해서는, 도 15 및 도 16을 참조하여 설명한다.
도 15 및 도 16은 사용자의 이동 감지에 따라, 음량의 적정 범위를 자동으로, 조절하는 과정을 설명하는 도면이다.
도 15를 참조하면, 사용자가 A 위치에 있을 때의, 인공 지능 기기(100-1)가 수신하는 음성의 음량의 적정 범위(상한 값: 910, 하한 값: 930)가 도시되어 있다.
즉, 인공 지능 기기(100-1)는 사용자가 A 위치에 있을 때, 동작 명령어를 수신한 경우, 수신된 동작 명령어에 대응하는 음성 신호(1501)의 음량이 적정 범위 내에 있는지를 판단할 수 있다.
인공 지능 기기(100-1)는 음성 신호(1501)의 음량이 적정 범위 내에 있는 경우, 동작 명령어에 대응하는 동작을 수행할 수 있다.
인공 지능 기기(100-1)는 사용자가 A 위치에서, B 위치로 이동됨을 감지할 수 있다.
인공 지능 기기(100-1)는 B 위치로 이동한 사용자와 인공 지능 기기(100-1)간의 거리를 측정할 수 있다.
인공 지능 기기(100-1)는 측정된 거리를 이용하여, 음량의 적정 범위를 조절할 수 있다.
도 16을 참조하면, 사용자가 A 위치에 있는 경우, 동작 명령어에 대응하는 음성 신호(1501)는 적정 범위 내에 속한다. 적정 범위의 하한 값은 40이고, 상한 값은 60임을 가정한다.
만약, 사용자가 A 위치에서, B 위치로 이동한 상태에서, 동일한 음량 크기를 갖는 동작 명령어를 수신한 경우, 인공 지능 기기(100-1)와 사용자 간의 거리는 더 멀어졌으므로, 음성 신호(1601)의 음량은 적정 범위를 만족할 수 없다.
이 경우, 사용자의 동작 명령어에 대한 동작이 이루어지지 않는다는 점에서, 불편함이 초래될 수 있다.
인공 지능 기기(100-1)는 사용자가 B 위치로 이동한 경우, 사용자와 인공 지능 기기(100-1) 간의 거리를 측정하고, 측정된 거리를 이용하여, 적정 범위의 상한 값과 하한 값을 조절할 수 있다.
예를 들어, 인공 지능 기기(100-1)는 측정된 거리가 기존의 거리보다 더 멀어진 경우, 상한 값을 60에서 45로 변경하고, 하한 값을 40에서 25로 변경할 수 있다.
이에 따라, 사용자가 B 위치에서 동작 명령어(1500)를 발화하는 경우, 동작 명령어(1500)의 음성 신호(1601)가 변경된 적정 범위 내에 속하게 될 수 있다.
인공 지능 기기(100-1)는 상한 값과 하한 값의 차이를 유지하면서, 상한 값과 하한 값을 조절할 수 있다.
이와 같이, 본 발명의 실시 예에 따르면, 사용자의 이동하더라도, 음량의 적정 범위를 그에 따라 조절하여, 사용자가 원하는 제어 대상 기기가 지속적으로, 제어될 수 있다.
사용자는 자신의 이동에 따라 발화 음성의 크기를 조절할 필요 없이, 기존의 발화 음성 크기대로, 제어 대상 기기를 제어할 수 있게 된다.
다시, 도 14를 설명한다.
프로세서(180)는 마이크로폰(122)을 통해 동작 명령어를 수신하고(S1407), 동작 명령어의 음량을 측정한다(S1409).
프로세서(180)는 측정된 음량이 조절된 적정 범위에 속하는지를 판단한다(S1411).
프로세서(180)는 측정된 음량이 적정 범위에 속하는 경우, 동작 명령어에 대응하는 동작을 수행한다(S1413).
도 17은 본 발명의 일 실시 예에 따라, 복수의 인공 지능 기기들이 고정된 위치에 배치되는 경우, 각 기기의 적정 발화 음량 범위를 등록하는 과정을 설명하는 도면이다.
도 17을 참조하면, 인공 지능 기기(100-1), 제1 외부 인공 지능 기기(100-2), 제2 외부 인공 지능 기기(100-3) 각각은 댁 내에서, 고정된 위치에 배치될 수 있다.
사용자와 제1 외부 인공 지능 기기(100-2) 간의 거리는 가장 멀고, 제2 외부 인공 지능 기기(100-3)와의 거리는 가장 가까움을 가정한다.
사용자는 각 기기가 고정된 위치에서, 해당 기기의 적절 발화 음량 범위를 등록할 수 있다.
예를 들어, 사용자가 인공 지능 기기(100-1)의 적정 발화 음량 범위를 등록함을 가정한다.
사용자는 특정 음량 크기를 갖는 기동 명령어(1700)를 발화한다.
인공 지능 기기(100_1)의 프로세서(180)는 수신된 기동 명령어(1700)의 음량을 측정하고, 측정된 음량에 맞는 적정 발화 음량 범위를 설정할 수 있다(S1701).
적정 발화 음량 범위는 상한 값(910) 및 하한 값(930)을 가질 수 있다.
예를 들어, 기동 명령어(1700)의 음량이 50인 경우, 프로세서(180)는 상한 값(910)을 40으로, 하한 값(930)을 60으로, 40 내지 60의 값의 범위를 적정 발화 음량 범위로 등록할 수 있다.
한편, 제1 외부 인공 지능 기기(100-2)는 적절 발화 음량 범위의 하한 값(1730)을 40보다 더 낮게 설정할 수 있다(S1703).
반대로, 제2 외부 인공 지능 기기(100-3)는 상한 값(1710)을 60보다 더 작게 설정할 수 있다(S1705).
S1701, S1703 및 S1705의 각 과정이 사용자의 특정 위치 또는 다른 위치에서, 반복 수행되는 경우, 각 인공 지능 기기는 상한 값들의 평균 값, 하한 값들의 평균 값을 적정 발화 음량 범위로 등록할 수 있다.
도 18은 본 발명의 또 다른 실시 예에 따른 인공 지능 시스템의 동작 방법을 설명하기 위한 래더다이어 그램이다.
특히, 도 18은 사용자의 발화 의도를 분석하고, 분석된 발화 의도에 기반하여, 사용자의 음성 명령어에 대응하는 동작을 수행할 기기를 결정하는 실시 예에 관한 것이다.
또한, 이하의 실시 예에서, 인공 지능 기기(100-1)는 제1 외부 인공 지능 기기(100-2) 및 제2 외부 인공 지능 기기(100-3)의 동작을 제어할 수 있고, 허브 역할을 할 수 있는 허브 기기일 수 있다.
허브 기기는 사용자의 음성 명령어를 수신하고, 수신된 음성 명령어의 의도를 획득하고, 획득된 의도에 맞게 다른 외부 인공 지능 기기의 동작을 제어하는 제어 명령을 전송할 수 있는 기기일 수 있다.
일 실시 예에서, 허브 기기는 사용자가 미리 지정한 기기일 수 있다.
또 다른 예로, 허브 기기는 복수의 인공 지능 기기들 중 가장 많은 인공 지능 기기와 무선으로 연결된 기기일 수 있다.
허브 기기는 자신과 연결된 인공 지능 기기에 대한 정보를 가지고 있을 수 있다.
인공 지능 기기에 대한 정보는 인공 지능 기기를 식별할 수 있는 식별 정보, 인공 지능 기기의 동작 상태를 나타내는 동작 상태 정보를 포함할 수 있다.
인공 지능 기기(100-1)의 마이크로폰(122)는 기동 명령어를 수신한다(S1801).
일 실시 예에서, 기동 명령어는 인공 지능 기기(100-1)의 동작을 활성화시키기 위한 명령어일 수 있다.
기동 명령어는 인공 지능 기기(100-1)의 명칭 및 기 설정된 기동어를 포함할 수 있다.
인공 지능 기기(100-1)의 프로세서(180)는 기동 명령어의 수신에 따라 동작 명령어의 수신을 대기한다(S1803).
인공 지능 기기(100-1)의 마이크로폰(122)은 제1 동작 명령어를 수신한다(S1805).
사용자는 제1 동작 명령어를 발화할 수 있다.
인공 지능 기기(100-1)의 프로세서(180)는 수신된 제1 동작 명령어의 품질을 나타내는 제1 음성 품질 레벨 및 제1 동작 명령어의 의도를 획득한다(S1807).
프로세서(180)는 제1 동작 명령어의 음성 데이터로부터 제1 음성 품질 레벨을 획득할 수 있다.
음성 품질 레벨은 키워드 음성 대비 주변 잡음의 파워 비율(KSNAR)일 수 있다.
또 다른 예에서, 음성 품질 레벨은 키워드 음성 구간의 신호 대비 잡음 구간의 신호 비율(SNR)일 수 있다.
또 다른 예로, 음성 품질 레벨은 음성 명령어의 성량일 수 있다. 음성 명령어의 성량은 음성 명령어에 대응하는 음성 신호의 크기를 나타낼 수 있다.
프로세서(180)는 제1 동작 명령어의 의도를 도 2의 NLP 서버(20)로부터 수신할 수 있다.
프로세서(180)는 제1 동작 명령어의 음성 데이터를 NLP 서버(20)에 전송하고, NLP 서버(20)가 분석한 제1 동작 명령어의 의도를 NLP 서버(20)로부터 수신할 수 있다.
또 다른 예로, 프로세서(180)가 자연어 처리 엔진을 포함하는 경우, 프로세서(180)는 자연어 처리 엔진을 이용하여, 제1 동작 명령어의 의도를 획득할 수 있다.
제1 동작 명령어는 인공 지능 기기의 특정 동작을 수행하도록 하는 명령어일 수 있다.
음성 품질 레벨을 획득하는 과정은 도 5 및 도 6의 설명을 차용한다.
인공 지능 기기(100-1)의 프로세서(180)는 획득된 제1 의도에 상응하는 기기를 결정한다(S1809).
일 실시 예에서, 프로세서(180)는 외부 인공 지능 기기들(100-2, 100-3) 중 제1 의도를 수행할 수 있는 최적의 기기를 결정할 수 있다.
프로세서(180)는 복수의 외부 인공 지능 기기들(100-2, 100-3)의 정보에 기초하여, 제1 의도를 수행할 수 있는 기기를 결정할 수 있다.
외부 인공 지능 기기의 정보는 외부 인공 지능 기기를 식별할 수 있는 식별 정보, 명칭, 외부 인공 지능 기기의 기능 중 하나 이상을 포함할 수 있다.
프로세서(180)는 복수의 외부 인공 지능 기기들(100-2, 100-3)의 정보를 이용하여, 제1 의도에 맞는 기기를 결정할 수 있다.
인공 지능 기기(100-1)의 프로세서(180)는 결정된 기기인 제1 외부 인공 지능 기기(100-2)에 제1 의도에 대응하는 동작을 수행하도록 하기 위한 제1 제어 명령을 근거리 통신 모듈(114)을 통해 전송한다(S1811).
프로세서(180)는 제1 외부 인공 지능 기기(100-2) 및 제2 외부 외부 인공 지능 기기(100-3) 중 제1 의도에 맞는 기기를 제1 외부 인공 지능 기기(100-2)로 결정할 수 있다.
제1 외부 인공 지능 기기(100-2)는 제1 제어 명령을 수신함에 따라 제1 제어 명령에 상응하는 동작을 수행한다(S1813).
한편, 인공 지능 기기(100-1)의 마이크로폰(122)은 제2 동작 명령어를 수신한다(S1815).
제2 동작 명령어는 사용자가 제1 동작 명령어를 발화한 후, 연속적으로 발화된 명령어일 수 있다.
제2 동작 명령어는 제1 동작 명령어가 수신된 1초 이후, 수신된 명령어일 수 있다, 여기서, 1초는 예시에 불과한 수치이다.
인공 지능 기기(100-1)의 프로세서(180)는 수신된 제2 동작 명령어의 품질을 나타내는 제2 음성 품질 레벨 및 제2 동작 명령어의 의도를 획득한다(S1817).
프로세서(180)는 제2 동작 명령어의 음성 데이터에 기초하여, 제2 동작 명령어의 제2 음성 품질 레벨을 획득할 수 있다. 음성 품질 레벨을 획득하는 과정은 도 5 및 도 6의 설명을 차용한다.
또한, 프로세서(180)는 NLP 서버(20) 또는 자체적으로 구비된 자연어 처리 엔진을 이용하여, 제2 동작 명령어의 의도를 획득할 수 있다.
인공 지능 기기(100-1)의 프로세서(180)는 제1 음성 품질 레벨과 제2 음성 품질 레벨을 비교하여, 음성 품질 레벨이 변경되었는지를 판단한다(S1819).
프로세서(180)는 제1 음성 품질 레벨과 제2 음성 품질 레벨이 기 설정된 레벨 범위 이상 차이가 나는 경우, 음성 품질 레벨이 변경된 것으로 판단할 수 있다.
여기서, 기 설정된 레벨 범위는 음성 품질 레벨의 변경을 판단하는데, 기준이 되는 범위일 수 있다.
예를 들어, 음성 품질 레벨이 성량인 경우, 프로세서(180)는 제1 동작 명령어의 제1 성량과 제2 동작 명령어의 제2 성량 간의 차이가 기 설정된 성량 범위 이상인 경우, 음성 품질 레벨이 변경된 것으로 판단할 수 있다.
프로세서(180)는 제1 동작 명령어 및 그 이후에 수신된 제2 동작 명령어의 성량 변화가 발생하는 경우, 제어 대상 기기를 변경하라는 의도로 파악할 수 있다.
인공 지능 기기(100-1)의 프로세서(180)는 음성 품질 레벨이 변경된 경우, 제2 의도에 상응하는 기기를 결정한다(S1821).
프로세서(180)는 복수의 인공 지능 기기들의 정보에 기초하여, 제2 의도를 수행할 수 있는 기기를 결정할 수 있다.
본 실시 예에서는, 제2 의도를 수행할 수 있는 최적의 기기로, 제2 외부 인공 지능 기기(100-3)가 결정된 것을 가정하여 설명한다.
인공 지능 기기(100-1)의 프로세서(180)는 결정된 제2 외부 인공 지능 기기(100-3)에 제2 의도에 맞는 동작을 수행하도록 하기 위한 제2 제어 명령을 근거리 통신 모듈(114)을 통해 전송한다(S1823).
제2 외부 인공 지능 기기(100-3)는 제2 제어 명령을 수신함에 따라 제2 제어 명령에 대응하는 동작을 수행한다(S1825).
도 19 내지 도 21은 본 발명의 실시 예에 따라 AI 허브 기기가 사용자가 발화한 음성 명령어를 수행할 기기를 결정하고, 결정된 기기에 제어 명령을 전송하는 과정을 설명하는 도면이다.
도 19 내지 도 21에서 AI 허브 기기(1900-1)는 도 18의 인공 지능 기기(100-1)이고, TV(1900-2)는 제1 외부 인공 지능 기기(100-2)이고, 공기 청정기(1900-3)는 제2 외부 인공 지능 기기(100-3)임을 가정한다.
또한, 도 19 내지 도 21에서 음성 품질 레벨은 동작 명령어의 성량임을 가정한다.
AI 허브 기기(1900-1)는 TV(1900-2) 및 공기 청정기(1900-3)와 무선 통신을 수행할 수 있다.
AI 허브 기기(1900-1)는 TV(1900-2)로부터, TV(1900-2)의 식별 정보, TV(1900-2)의 명칭, 모델명, TV(1900-3)가 수행할 수 있는 기능들에 대한 정보를 수신할 수 있다.
마찬가지로, AI 허브 기기(1900-1)는 공기 청정기(1900-3)로부터, 공기 청정기(1900-3)의 식별 정보, 명칭, 모델명, 공기 청정기(1900-3)가 수행할 수 있는 기능들에 대한 정보를 수신할 수 있다.
도 20을 참조하면, 사용자가 발화한 음성 명령어의 시간에 따른 성량 변화를 보여주는 그래프이다.
먼저, 사용자는 제1 시간 구간(t1)을 갖는 제1 동작 명령어(2010)를 발화하고, 제2 시간 구간(t2)을 갖는 제2 동작 명령어(2030)를 발화하고, 제3 시간 구간(t3)을 갖는 제3 동작 명령어(2050)를 순차적으로, 발화한다.
AI 허브 기기(1900-1)는 제1 동작 명령어(2010)를 수신하고, 수신된 제1 동작 명령어(2010)의 제1 성량 및 제1 의도를 획득할 수 있다.
AI 허브 기기(1900-1)는 제1 동작 명령어(2010)에 대응하는 음성 데이터를 이용하여, 제1 동작 명령어(2010)의 제1 의도를 획득할 수 있다.
AI 허브 기기(1900-1)는 <turn on air cleaner>의 의도를 공기 청정기(1900-3)의 전원을 온 시키는 것으로 파악할 수 있다.
AI 허브 기기(1900-1)는 자신과 연결된 기기의 정보를 이용하여, 공기 청정기(1900-3)를 검색하고, 도 21에 도시된 바와 같이, 검색된 공기 청정기(1900-3)에 전원을 온 시키기 위한 제어 명령을 전송할 수 있다.
공기 청정기(1900-3)는 AI 허브 기기(1900-1)로부터 수신된 제어 명령에 따라, 자신의 전원을 온 시킬 수 있다.
그 후, AI 허브 기기(1900-1)는 제2 동작 명령어(2030)를 수신하고, 제2 동작 명령어(2030)의 제2 성량 및 제2 의도를 획득할 수 있다.
AI 허브 기기(1900-1)는 제1 성량과 제2 성량을 비교하고, 비교 결과, 제1 성량과 제2 성량의 차이가 기 설정된 성량 범위 이상인지를 판단할 수 있다.
예를 들어, 제1 성량이, 20이고, 제2 성량이 50이고, 기 설정된 성량 범위가 10 내지 20임을 가정한다. 여기서, 기 설정된 성량 범위는 예시에 불과하고, 기준치는 기 설정된 고정된 값일 수 있다.
AI 허브 기기(1900-1)는 제1 성량과 제2 성량의 차이인 30이 기 설정된 성량 범위 내에 속하지 않으므로, 제2 동작 명령어(2030)의 수신을 제어 대상 기기를 변경하는 트리거로 인식할 수 있다.
AI 허브 기기(1900-1)는 제어 대상 기기를 변경하는 의도를 인식하고, 제2 동작 명령어(2030)인 <tell me tomorrow weather>의 의도를 획득할 수 있다.
AI 허브 기기(1900-1)는 내일의 날씨를 원하는 사용자의 의도를 획득할 수 있다.
AI 허브 기기(1900-1)는 제1 동작 명령어의 제1 의도에 상응하는 동작을 수행한 공기 청정기(1900-3)를 제외한 나머지 기기를 검색하여, 나머지 기기인 TV(1900-2)가 제2 의도를 수행할 수 있는 기기인지를 판별할 수 있다.
AI 허브 기기(1900-1)는 미리 저장된 TV(1900-2)의 기능들에 기초하여, 제2 의도를 수행할 수 있는 기기로 판단한 경우, TV(1900-2)를 제2 의도를 수행할 기기로 결정할 수 있다.
AI 허브 기기(1900-1)는 도 21에 도시된 바와 같이, TV(1900-2)에 제2 의도에 상응하는 내일의 날씨를 출력하는 제어 명령을 전송할 수 있다.
TV(1900-2)는 AI 허브 기기(1900-1)로부터 수신된 제어 명령에 따라 내일의 날씨를 출력할 수 있다.
이와 같이, 본 발명의 실시 예에 따르면, 사용자의 음성 명령어의 성량 및 의도를 파악하여, 음성 명령어에 대응하는 동작을 수행할 기기가 명확하게 선정될 수 있다.
따라서, 사용자는 발화 크기를 변경하는 음성 명령어의 단순한 발화만으로도, 원하는 결과를 얻을 수 있다.
또한, 사용자는 기기의 명칭을 발화하지 않고, 자신의 원하는 동작을 수행하도록 하는 명령어만을 발화함에 따라 원하는 결과를 정확하게 얻을 수 있어, 향상된 사용자 경험을 느낄 수 있다.
한편, 도 20을 다시 참조하면, AI 허브 기기(1900-1)는 제3 동작 명령어(2030)를 수신하고, 제3 동작 명령어(2050)의 제3 성량 및 제3 의도를 획득할 수 있다.
AI 허브 기기(1900-1)는 제2 성량과 제3 성량을 비교하고, 비교 결과, 제2 성량과 제3 성량의 차이가 기 설정된 성량 범위 이상인지를 판단할 수 있다.
예를 들어, 제2 성량이 50이고, 제3 성량이 20인 경우, 그 차이는 30이고, 기 설정된 성량 범위 내에 속하지 않는다.
AI 허브 기기(1900-1)는 제2 성량과 제3 성량의 차이가 기 설정된 성량 범위 내에 속하지 않으므로, 제3 동작 명령어(2050)의 수신을 제어 대상 기기를 변경하는 트리거로 인식할 수 있다.
일 실시 예에서, AI 허브 기기(1900-1)는 제3 성량이 제1 성량과 동일한 경우, 제어 대상 기기를 기존의 제어 대상 기기로 변경하는 트리거로 인식할 수 있다.
또 다른 예에서, AI 허브 기기(1900-1)는 제3 성량과 제1 성량 간의 차이가 기 설정된 성량 범위 내에 속하는 경우, 제어 대상 기기를 기존의 제어 대상 기기로 변경하는 트리거로 인식할 수 있다.
AI 허브 기기(1900-1)는 제어 대상 기기를 변경하는 의도를 인식하고, 제3 동작 명령어(2050)인 <go to power mode> 의도를 획득할 수 있다.
즉, AI 허브 기기(1900-1)는 강력 모드로 모드를 변경하라는 사용자의 의도를 획득할 수 있다.
AO 허브 기기(1900-1)는 강력 모드를 갖는 기기를 검색하고, 검색된 공기 청정기(2010)를 제어 대상 기기로 결정할 수 있다.
AI 허브 기기(1900-1)는 강력 모드의 기능을 갖는 공기 청정기(1900-3)를 제3 의도를 수행할 수 있는 기기로 결정하고, 도 21에 도시된 바와 같이, 공기 청정기(1900-3)에 강력 모드로의 전환을 요구하는 제어 명령을 전송할 수 있다.
이에 따라, 공기 청정기(1900-3)는 동작 모드를 강력 모드로 전환할 수 있다.
다음으로, 도 22를 설명한다.
도 22는 본 발명의 실시 예에 따라, 사용자가 발화한 동작 명령어를 수행할 기기가 복수 개 존재하는 경우, 복수의 인공 지능 기기들 중, 동작 명령어를 수행할 기기를 결정하는 예를 설명한다.
도 22에서 동작 명령어는 <turn on the light> 임을 가정한다.
AI 허브 기기는 동작 명령어에 상응하는 의도를 수행할 기기를 검색하는 과정에서, 제1,2 외부 인공 지능 기기가 해당 동작 명령어를 수행할 수 있음을 확인할 수 있다.
이 경우, AI 허브 기기는 제1,2 외부 인공 지능 기기들 중, 자신과 떨어진 거리에 기초하여, 동작 명령어에 대응하는 의도를 수행할 기기를 결정할 수 있다.
예를 들어, AI 허브 기기와 제1 외부 인공 지능 기기 간의 거리가 3m이고, AI 허브 기기와 제2 외부 인공 지능 기기 간의 거리가 5m인 경우, AI 허브 기기는 제1 외부 인공 지능 기기를 동작 명령어의 의도를 수행할 기기로 결정할 수 있다.
즉, AI 허브 기기는 제1 외부 인공 지능 기기를 제1 우선 순위로, 제2 외부 인공 지능 기기를 제2 우선 순위로 결정할 수 있다.
이는 AI 허브 기기와 외부 인공 지능 기기 간의 거리가 가까울수록, AI 허브 기기가 외부 인공 지능 기기에 전송하는 제어 신호가 더 빨리 전달될 수 있기 때문이다.
제어 신호가 더 빨리 전달되는 경우, 사용자의 동작 명령에 상응하는 동작 결과가 더 빠르게 사용자에게 제공될 수 있다.
만약, 제1 외부 인공 지능 기기의 전원이 오프된 경우, AI 허브 기기는 거리와 상관 없이, 제2 외부 인공 지능 기기를 제어 대상 기기로 결정할 수 있다.
즉, AI 허브 기기는 제2 외부 인공 지능 기기로, 사용자의 의도에 맞는 제어 신호를 전송할 수 있다.
한편, 본 발명은 다양한 방식으로 복수의 인공 지능 기기를 제어할 수 있다.
이하에서는 첨부된 도면을 참조하여 복수의 인공 지능 기기를 제어하는 방법에 대하여 살펴본다.
도 23은 본 발명의 다른 실시 예에 따른 인공 지능 기기의 제어방법을 설명하기 위한 개념도이고, 도 24는 본 발명의 다른 실시 예에 따른 인공 지능 기기의 제어 방법을 설명하기 위한 흐름도이며, 도 25, 도 26 및 도 27은 도 24에서 살펴본 제어 방법을 설명하기 위한 개념도이다.
도 23을 참조하면, 본 발명에서는, 복수의 인공 지능 기기(2310, 2320, 2330, 2340, 2350)가 존재하는 상태에서, 발화자가 동작 명령어를 발화하는 경우, 최적화된 방법으로 복수의 인공 지능 기기들 중 적어도 하나를 제어할 수 있따.
예를 들어, 본 발명은, 발화자 근접 우선순위 음성 및 음성 인식 결과, 의도 분석 결과를 이용하여 동작시킬 인공 지능 기기를 선택하고, 미기동 기기를 제어하는 방법을 제공할 수 있다.
일 예로, 본 발명의 인공 지능 기기는, 동일한 명령을 수행할 수 있는 다수의 기기가 존재하는 경우, 사용자와 가장 가까운 기기가 우선 수행할 수 있다.
또한, 본 발명의 인공 지능 기기는, 이 때, 음성 인식 결과의 정확성, 미 기동된 기기를 포함한 의도 분석 결과 수행가능 여부, 사용자 근접 우선 순위에 따라 가장 최적의 기기가 명령을 수행하고 응답할 수 있도록 할 수 있다.
도 24를 참조하여 본 발명의 대표적인 복수의 인공 지능 기기의 제어방법에 대하여 살펴보기로 한다.
본 발명에서는, 복수의 인공 지능 기기에서 동작 명령어를 수신하는 단계가 진행된다(S2410).
도 25에 도시된 것과 같이, 복수의 인공 지능 기기(2510, 2520, 2530, 2540, 2550)는, 다양한 종류의 장치를 포함할 수 있으며, 일 예로, 냉장고, TV, 에어컨, 컴퓨터, 이동 단말기 등 다양한 종류의 장치들을 포함할 수 있다.
또한, 복수의 인공 지능 기기는, 서로 다른 종류의 장치들을 포함할 수도 있고, 같은 종류의 장치들을 포함할 수도 있다.
본 발명에서는, 복수의 인공 지능 기기에서 동작 명령어가 수신되는 것에 근거하여, 상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기를 결정하는 단계가 진행된다(S2420).
일 예로, 프로세서(180)는, 제1 인공 지능 기기를 결정할 때, 상기 복수의 인공 지능 기기에서 동작 명령어가 수신되면, 수신된 동작 명령어의 볼륨 크기에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정할 수 있다.
상기 동작 명령어의 볼륨 크기는, 동작 명령어가 수신된 음성 크기(또는 소리 크기)를 의미할 수 있다.
동작 명령어가 수신된 복수의 인공 지능 기기는, 동작 명령어의 볼륨 크기를 상호 공유하고, 이들 중 가장 큰 볼륨 크기로 인식된 인공 지능 기기를 동작 명령어의 발생지에서 가장 가까운 제1 인공 지능 기기로 결정할 수 있다.
다른 예로, 복수의 인공 지능 기기들 각각은, 동작 명령어의 발생지까지의 거리를 센싱하는 것이 가능한 센서를 더 포함할 수 있다.
이러한 센서는, 도 1에서 설명한 센싱부(140)에 포함된 다양한 센서들을 포함할 수 있다.
프로세서(180)는, 상기 제1 인공 지능 기기를 결정할 때, 상기 센서에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정할 수 있다.
즉, 본 발명의 인공 지능 기기는, 복수의 인공 지능 기기가 존재하는 상태에서 동작 명령어가 수신되면, 가장 가까운 인공 지능 기기를 제1 인공 지능 기기로 결정할 수 있다.
이후, 본 발명에서는, 제1 인공 지능 기기를 통해 동작 명령어에 대응하는 응답(또는 대답)을 출력하는 단계가 진행된다(S2430).
상기 제1 인공 지능 기기는, 동작 명령어의 발생지, 즉 발화자와 가장 가까운 인공 지능 기기로, 발화자와 의사소통을 수행하는 역할을 수행할 수 있다.
즉, 본 발명에서, 동작 명령어에 대응하는 동작이 제1 인공 지능 기기가 아닌 제2 인공 지능 기기에 대한 동작인 경우에도, 상기 동작 명령어에 대응하는 응답은 상기 제1 인공 지능 기기를 통해 출력될 수 있다.
한편, 본 발명에서는, 동작 명령어에 대응하는 동작을 수행할 제2 인공 지능 기기를 결정하고, 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계가 진행된다(S2440).
프로세서(180)는, 상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기가 상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기가 존재하는지 판단할 수 있다.
프로세서(180)는, 상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기를 제2 인공 지능 기기로 결정할 수 있다.
프로세서(180)는, 상기 제1 인공 지능 기기가 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송할 수 있다.
한편, 복수의 인공 지능 기기에서 동작 명령어를 수신하는 경우, 상기 복수의 인공 지능 기기는 각각 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기를 결정할 수 있다.
본 발명에서는, 상기 복수의 인공 지능 기기에서 결정된 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기가 서로 다른 경우, 기 설정된 알고리즘에 근거하여 상기 제2 인공 지능 기기를 결정할 수 있다.
여기서, 상기 기 설정된 알고리즘은, 다수결 및 최근접 인공 지능 기기에서 결정된 결과 중 적어도 하나에 근거하여, 상기 제2 인공 지능 기기를 결정할 수 있다.
즉, 본 발명에서는, 각 인공 지능 기기에서 결정된 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기가 서로 다른 경우, 다수결을 통해 최종적으로 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기를 결정하거나, 발화자에 가장 가까운 제1 인공 지능 기기가 결정환 인공 지능 기기를 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기로 결정할 수 있다.
이를 위해, 복수의 인공 지능 기기는, 각자 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기에 대한 결과를 상호 공유할 수 있다.
한편, 복수의 인공 지능 기기가 존재하는 경우, 동작 명령어에 대응하는 동작을 수행하는 것이 가능한 제2 인공 지능 기기가 복수개일 수 있다.
예를 들어, 어느 동작 명령어에 대응한 동작을 수행하는 것이 가능한 인공 지능 기기가 에어컨이고, 에어컨이 복수 대인 경우가 존재할 수 있다.
즉, 프로세서(180)는, 상기 동작 명령어에 대응하는 동작을 수행하는 것이 가능한 제2 인공 지능 기기가 복수인지 여부를 판단할 수 있다.
프로세서(180)는, 상기 제2 인공 지능 기기가 복수인 경우, 동작 명령어의 발생지와의 거리, 해당 동작 명령어의 수행 이력, 우선순위 및 추가 명령어 수신 중 적어도 하나를 통해 어느 하나의 제2 인공 지능 기기를 선택할 수 있다.
이후, 본 발명에서는, 상기 제2 인공 지능 기기가 상기 제어 명령에 근거하여, 상기 동작 명령어에 대응하는 동작을 수행하는 단계가 진행된다(S2450).
이 때, 본 인공 지능 기기가 동작 명령어에 대응하는 동작을 수행하는 제2 인공 지능 기기로 결정된 경우, 프로세서(180)는, 제어 명령을 수신하면, 수신 여부를 발화자에게 알리도록 알림음을 출력할 수 있다.
이를 통해, 본 발명에서는, 동작 명령어를 수행하는 동작 기기가 어느 기기인지를 발화자가 정확하기 인식할 수 있다.
이상에서 살펴본 내용은 다음의 예를 참조하면 보다 명확해질 것이다.
도 25를 참조하면, 일 예로, 발화자가 복수의 인공 지능 기기 중 어느 하나(예를 들어, 냉장고 1)(2510)에 최근접한 상태에서 동작 명령어(또는 기동어)를 발화할 수 있다.
이 때, 동작 명령어는, 최근접 기기(2510)가 아닌 다른 인공 지능 기기(예를 들어, 거실 에어컨)(2540)의 동작을 위한 동작 명령어일 수 있다.
이 경우, 복수의 인공 지능 기기는, 동작 명령어를 수신하고, 발화자 근접 순위를 결정할 수 있다(S2510).
예를 들어, 복수의 인공 지능 기기에서 획득한 동작 명령어의 음성, 근접 센서 데이터 등을 이용하여, 냉장고 1이 최근접 기기인 것으로 결정할 수 있다.
이후, 본 발명에서는, 음성 인식 결과를 선정하는 단계가 진행될 수 있다(S2520).
예를 들어, 복수의 인공 지능 기기는, 3 개의 기기(2510, 2520, 2530)에서 동작 명령어에 대한 음성 인식 결과가 동일한 경우, 수행 가능한 동작 명령어인 것으로 결정할 수 있다.
이후, 본 발명에서는, 명령 수행 기기를 결정하는 단계가 수행될 수 있다(S2530).
예를 들어, 프로세서(180)는, 동작 명령어를 인식한 기기 및 미인식한 기기를 모두 포함한 근접 기기 리스트에서 동작 명령어에 대응하는 동작이 가능한 기기가 존재하는지 확인할 수 있다.
만약, 프로세서(180)는, 수행 가능한 기기가 다수 존재하는 경우(예를 들어, 거실 에어컨(2540) 및 안방 에어컨(2550)), 최근접 기기(2510)에 가장 근접하게 존재하는 기기(예를 들어, 거실 에어컨(2540))을 명령 수행 기기로 결정하고, 동작 명령어에 대한 제어 명령을 전송할 수 있다.
또한, 본 발명에서는, 응답 기기를 결정하는 단계가 진행되며(S2540). 상기 응답 기기는, 발화자에서 가장 근접한 기기가 될 수 있다.
제어 명령을 수신한 기기는, 동작 명령어에 대응하는 동작을 수행하고, 알림음을 출력할 수 있으며, 발화자에서 가장 근접한 기기는, 명령 수행 기기가 동작을 수행했음을 알리는 정보를 출력할 수 있다.
이러한 동작은, 복수의 인공 지능 기기 중 적어도 하나에서 수행될 수도 있고, 별도의 서버(2500)에서 수행될 수도 있다.
상기 서버는 도 1에서 설명한 구성요소들 중 적어도 하나를 포함할 수 있다.
도 26을 참조하면, 본 발명에서는, 복수의 인공 지능 기기가 동작 명령어를 수신할 수 있다.
이 때, 복수의 인공 지능 기기에서 인식된 음성 인식 결과가 다른 경우(예를 들어, 에어컨(2540) 음성 인식 결과가 나머지 기기(2510, 2520, 2530)의 음성 인식 결과다 상이한 경우), 다수결, 최근접 기기, 컨피덴셜 스코어 중 적어도 하나에 의해 동작 명령어에 대응하는 동작 및 이를 수행할 기기를 결정할 수 있다.
도 27에 도시된 것과 같이, 복수의 인공 지능 기기(2710, 2720, 2730, 2740) 중 복수의 인공 지능 기기에서 동작 명령어가 수신되면, 서버(2700)는, 복수의 인공 지능 기기로부터 인식된 동작 명령어에 대응하는 정보를 수신하고, 앞서 설명한 발화자 근접 순위 결정, 음성 인식 결과 선정, 명령 수행 기기 결정 및 응답 기기 결정의 동작을 수행할 수 있다.
발화자 근접 순위 결정에 대해 보다 구체적으로 살펴보기로 한다.
본 발명에서는, 각 기기에서 획득한 (1) 음성 신호의 특징을 비교하거나 (2) 영상 분석을 통한 발화자의 위치와 발화 방향 등을 고려하거나 (3) 근접센서 신호를 이용하여 발화자 근접 순위를 결정할 수 있다.
프로세서(180)는, 근접 순위 결정에 필요한 음성/영상/근접 신호를 받을 수 없는 기기의 경우 근접 순위를 후 순위로 배치할 수 있다.
(1) 발화자 근접 순위 결정을 위한 음성 처리 방법
본 발명의 인공 지능 기기는, 기동어 신호의 정확한 비교를 위해 각 기기에서 획득한 신호의 동기화(synchronization)를 수행하고, 특징(feature) 분석 후 각 기기에서의 feature를 비교하여 근접 순위 결정할 수 있다.
상기 특징(feature)은 음성 데이터의 제곱평균제곱근 (root mean square), 음성대 잡음 크기 비율 (Keyword Speech to Ambient Noise Ratio), 사전 신호 대 잡음비 (a priori SNR), 명도 (brightness), 도심 (centroid), 포먼트 에너지, 저주파 성분 에너지, 선형 예측 잔여 (Linear prediction residual), 선형 예측 잔여 첨도 (Linear prediction residual kurtosis) 등을 포함할 수 있다.
프로세서(180)는, 기기마다 마이크, ADC, 마이크의 높이, 마이크 홀 깊이 등이 달라서 입력되는 음성 신호의 크기가 다른 경우 특징들 간에 캘리브레이션(calibration)을 수행할 수도 있다.
(2) 발화자 근접 순위 결정을 위한 영상 처리 방법
프로세서(180)는, 기동어가 인식이 되면 각 기기에서 획득한 기동어 인식 시점의 영상을 synchronization을 수행할 수 있다.
예를 들어, 프로세서(180)는, 사물 인식 방법을 이용하여 영상 데이터에서 공간의 구성, 타 가전의 위치, 사람 얼굴을 찾아낼 수 있다.
프로세서(180)는, 기동어가 인식된 공간에 여러 사람이 존재하는 경우 입모양의 변화를 추정하여 발화자를 찾고 공간 내에서 발화자의 위치, 얼굴의 방향을 추정할 수 있다.
프로세서(180)는, 발화자가 근접한 기기가 아닌 먼 거리의 기기를 바라보는 경우, 발화 방향 기기와 근접한 기기에서 발화자까지의 거리를 추정하여 일정 배수 이상 먼 경우는 근접한 기기가 선택될 수 있도록 발화 방향과 발화자의 위치 비율의 캘리브레이션을 수행할 수 있다.
(3) 발화자 근접 순위 결정을 위한 근접 센서 처리 방법
본 발명에서 근접 센서의 경우, 설치 환경에 따라서 근접한 물체가 있다고 판단할 수 있으므로 서버에서 사물이 근처에 없다고 판단되는 경우에 대한 평균값, 표준편차를 서버에 저장할 수 있다.
프로세서(180)는, 근접 센서에서 획득한 사물의 거리가 평균값을 기준으로 표준편차 이상 가까워진 경우에 유의미한 데이터로 판단할 수 있다.
프로세서(180)는, 근접 센서를 포함한 기기에 발화자가 아닌 사람이 근접할 수 있기 때문에, 음성 및 영상 데이터와 함께 판단할 수 있다.
음성 인식 결과 선정에 대하여 보다 구체적으로 살펴보기로 한다.
본 발명에서는, 여러 기기가 wake up 되어 동시에 음성 인식을 시도하는 도중 잡음에 의해 음성이 오염되거나 발화자의 발화 방향에 의해 음성의 명료도가 저하되는 경우 음성 인식의 정확도가 저하될 수 있으며, wake up 되지 않은 기기에 대한 동작 가능 여부 확인을 위해 대표 결과 선정 필요할 수 있다.
이에, 본 발명은 음성 인식 결과 중 다수결 결과를 대표 결과로 선정할 수 있다.
또한, 본 발명은 음성 인식 confidence score를 기반으로 가장 확실한 결과를 대표 결과로 선정할 수 있다.
프로세서(180)는, 발화자와의 거리 및 발화 방향을 기반으로 발화자의 음성을 가장 잘 획득했다고 판단할 수 있는 기기의 결과를 대표 결과 선정할 수 있다.
프로세서(180)는, 대표 결과가 의도 분석 가능한지 확인하여 최종 결정하며 이때 수행할 수 있는 기기를 특정할 수 있는 경우 명령 수행 기기 결정에 반영할 수 있다.
프로세서(180)는, 모든 음성 인식 결과가 의도 분석이 불가능한 경우 명령 수행 기기 결정을 하지 않고 응답 기기를 결정하여 명령 수행 불가를 응답할 수 있다.
명령 수행 기기 결정에 대하여 살펴보면 다음과 같다.
명령 수행 기기는 사용자의 명령을 수행할 기기를 의미한다.
본 발명에서는 명령 수행 기기가 wake up 되지 않은 경우가 있을 수 있기 때문에 DB에서 근접한 가전에 대한 리스트 조회(동일한 공간에 존재하는 기기들에 대한 정보로 사전에 등록)하여 동일 공간에 모든 기기에 대한 수행 가능 여부 확인할 수 있다.
프로세서(180)는, 음성 인식 결과 선정에서 특정 기기에 대한 명령인 경우 (명령에 기기명, 기기별명, 공간 정보 등 하나의 기기를 특정할 수 있는 정보가 포함되어 있는 경우), 특정된 기기를 명령 수행 기기로 결정할 수 있다.
프로세서(180)는, 특정 기기에 대한 명령이 아닌 경우 (기기 및 공간 관련 정보를 발화하지 않았거나 기기명을 발화했지만 기기가 여러대 존재 등), 명령 수행이 가능한 기기가 있는지 확인하여 수행 가능한 기기가 있으면 명령 수행 기기로 결정할 수 있다.
프로세서(180)는, 명령 수행가능 기기가 다수 존재하는 경우, (1) 발화자에 근접해 있거나 (2) 인접한 공간에 위치하거나 (3) 발화자가 주로 사용하거나 (4) 명령수행 우선순위가 높거나 (5) 대화를 통해 특정된 기기를 우선 동작 시킬 수 있다.
명령수행 우선순위는 휴대전화 앱을 통해 사용자가 선택하거나 정책적으로 서버에서 결정할 수 있다.
응답 기기 결정에 대해서 살펴보면 다음과 같다.
응답 기기는 사용자에게 수행 결과를 고지하는 기기를 의미한다.
본 발명에서는, wake up 된 기기 중 발화자 근접 순위가 높은 기기를 응답 기기로 결정할 수 있다.
발화자 근접 순위가 불명확한 경우 wake up된 기기 중 명령수행 우선순위가 가장 높은 기기가 응답할 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 인공 지능 기기의 프로세서(180)를 포함할 수도 있다.

Claims (19)

  1. 복수의 인공 지능 기기에서 동작 명령어를 수신하는 단계;
    복수의 인공 지능 기기에서 동작 명령어가 수신되는 것에 근거하여, 상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기를 결정하는 단계;
    상기 제1 인공 지능 기기를 통해 상기 동작 명령어에 대응하는 응답을 출력하는 단계;
    상기 동작 명령어에 대응하는 동작을 수행할 제2 인공 지능 기기를 결정하고, 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계; 및
    상기 제2 인공 지능 기기가 상기 제어 명령에 근거하여 상기 동작 명령어에 대응하는 동작을 수행하는 단계를 포함하는 인공 지능 기기의 제어방법.
  2. 제 1 항에 있어서,
    상기 제1 인공 지능 기기를 결정하는 단계는,
    상기 복수의 인공 지능 기기에서 동작 명령어가 수신되면, 수신된 동작 명령어의 볼륨 크기에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정하는 것을 특징으로 하는 인공 지능 기기의 제어방법.
  3. 제 1 항에 있어서,
    상기 복수의 인공 지능 기기는, 동작 명령어의 발생지까지의 거리를 센싱하는 것이 가능한 센서를 포함하고,
    상기 제1 인공 지능 기기를 결정하는 단계는,
    상기 센서에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정하는 것을 특징으로 하는 인공 지능 기기의 제어방법.
  4. 제 1 항에 있어서,
    상기 제1 인공 지능 기기를 통해 상기 동작 명령어에 대응하는 응답을 출력하는 단계는,
    동작 명령어에 대응하는 동작이 제1 인공 지능 기기가 아닌 제2 인공 지능 기기에 대한 동작인 경우에도, 상기 동작 명령어에 대응하는 응답은 상기 제1 인공 지능 기기를 통해 출력되는 것을 특징으로 하는 인공 지능 기기의 제어방법.
  5. 제 1 항에 있어서,
    상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계는,
    상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기가 상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기가 존재하는지 판단하는 단계;
    상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기를 제2 인공 지능 기기로 결정하는 단계; 및
    상기 제1 인공 지능 기기가 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계를 포함하는 것을 특징으로 하는 인공 지능 기기의 제어방법.
  6. 제 1 항에 있어서,
    상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계는,
    상기 복수의 인공 지능 기기에서 동작 명령어를 수신하는 단계;
    상기 복수의 인공 지능 기기에서 각각 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기를 결정하는 단계; 및
    상기 복수의 인공 지능 기기에서 결정된 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기가 서로 다른 경우, 기 설정된 알고리즘에 근거하여 상기 제2 인공 지능 기기를 결정하는 단계를 포함하는 것을 특징으로 하는 인공 지능 기기의 제어방법.
  7. 제 6 항에 있어서,
    상기 기 설정된 알고리즘은,
    다수결 및 최근접 인공 지능 기기에서 결정된 결과 중 적어도 하나에 근거하여, 상기 제2 인공 지능 기기를 결정하는 것을 특징으로 하는 인공 지능 기기의 제어방법.
  8. 제 1 항에 있어서,
    상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 단계는,
    상기 동작 명령어에 대응하는 동작을 수행하는 것이 가능한 제2 인공 지능 기기가 복수인지 여부를 판단하는 단계; 및
    상기 제2 인공 지능 기기가 복수인 경우, 동작 명령어의 발생지와의 거리, 해당 동작 명령어의 수행 이력, 우선순위 및 추가 명령어 수신 중 적어도 하나을 통해 어느 하나의 제2 인공 지능 기기를 선택하는 단계를 포함하는 것을 특징으로 하는 인공 지능 기기의 제어방법.
  9. 제 1 항에 있어서,
    상기 제2 인공 지능 기기가 상기 제어 명령에 근거하여 상기 동작 명령어에 대응하는 동작을 수행하는 단계는,
    상기 제2 인공 지능 기기가 상기 제어 명령을 수신하면, 수신 여부를 발화자에게 알리도록 알림음을 출력하는 것을 특징으로 하는 인공 지능 기기의 제어방법.
  10. 사용자가 발화한 명령어를 수신하는 마이크로폰;
    외부 인공 지능 기기와 통신을 수행하는 무선 통신부;
    명령어에 대응하는 응답을 출력하는 음향 출력부; 및
    복수의 인공 지능 기기에서 동작 명령어가 수신되는 것에 근거하여, 상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기를 결정하는 프로세서를 포함하고,
    상기 프로세서는,
    상기 제1 인공 지능 기기인 경우, 상기 제1 인공 지능 기기를 통해 상기 동작 명령어에 대응하는 응답을 출력하고, 상기 동작 명령어에 대응하는 동작을 수행할 제2 인공 지능 기기를 결정하고, 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 것을 특징으로 하는 인공 지능 기기.
  11. 제 10 항에 있어서,
    상기 프로세서는,
    상기 제2 인공 지능 기기인 경우, 상기 제어 명령에 근거하여 상기 동작 명령어에 대응하는 동작을 수행하는 것을 특징으로 하는 인공 지능 기기.
  12. 제 10 항에 있어서,
    상기 프로세서는,
    상기 복수의 인공 지능 기기에서 동작 명령어가 수신되면, 수신된 동작 명령어의 볼륨 크기에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정하는 것을 특징으로 하는 인공 지능 기기.
  13. 제 10 항에 있어서,
    동작 명령어의 발생지까지의 거리를 센싱하는 것이 가능한 센서를 더 포함하고,
    상기 프로세서는,
    상기 센서에 근거하여, 상기 동작 명령어의 발생지에 가장 가까운 제1 인공 지능 기기를 결정하는 것을 특징으로 하는 인공 지능 기기.
  14. 제 10 항에 있어서,
    상기 프로세서는,
    동작 명령어에 대응하는 동작이 제1 인공 지능 기기가 아닌 제2 인공 지능 기기에 대한 동작인 경우에도, 상기 동작 명령어에 대응하는 응답은 상기 제1 인공 지능 기기를 통해 출력되는 것을 특징으로 하는 인공 지능 기기.
  15. 제 10 항에 있어서,
    상기 프로세서는,
    상기 동작 명령어의 발생지에 제일 가까운 제1 인공 지능 기기가 상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기가 존재하는지 판단하고,
    상기 동작 명령어에 대응하는 동작이 가능한 인공 지능 기기를 제2 인공 지능 기기로 결정하며,
    상기 제1 인공 지능 기기가 상기 제2 인공 지능 기기로 상기 동작 명령어에 대응하는 제어 명령을 전송하는 것을 특징으로 하는 인공 지능 기기.
  16. 제 10 항에 있어서,
    상기 프로세서는,
    상기 복수의 인공 지능 기기에서 동작 명령어를 수신하고,
    상기 복수의 인공 지능 기기에서 각각 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기를 결정하며,
    상기 복수의 인공 지능 기기에서 결정된 상기 동작 명령어에 대응하는 동작을 수행할 인공 지능 기기가 서로 다른 경우, 기 설정된 알고리즘에 근거하여 상기 제2 인공 지능 기기를 결정하는 것을 특징으로 하는 인공 지능 기기.
  17. 제 16 항에 있어서,
    상기 기 설정된 알고리즘은,
    다수결 및 최근접 인공 지능 기기에서 결정된 결과 중 적어도 하나에 근거하여, 상기 제2 인공 지능 기기를 결정하는 것을 특징으로 하는 인공 지능 기기.
  18. 제 10 항에 있어서,
    상기 프로세서는,
    상기 동작 명령어에 대응하는 동작을 수행하는 것이 가능한 제2 인공 지능 기기가 복수인지 여부를 판단하고,
    상기 제2 인공 지능 기기가 복수인 경우, 동작 명령어의 발생지와의 거리, 해당 동작 명령어의 수행 이력, 우선순위 및 추가 명령어 수신 중 적어도 하나를 통해 어느 하나의 제2 인공 지능 기기를 선택하는 것을 특징으로 하는 인공 지능 기기.
  19. 제 1 항에 있어서,
    상기 프로세서는,
    상기 제2 인공 지능 기기인 경우, 상기 제어 명령을 수신하면, 수신 여부를 발화자에게 알리도록 알림음을 출력하는 것을 특징으로 하는 인공 지능 기기.
PCT/KR2021/015937 2021-11-04 2021-11-04 인공 지능 기기 및 그것의 제어 방법 WO2023080274A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2021/015937 WO2023080274A1 (ko) 2021-11-04 2021-11-04 인공 지능 기기 및 그것의 제어 방법
US18/052,745 US20230136611A1 (en) 2021-11-04 2022-11-04 Artificial intelligence apparatus and method for controlling the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/015937 WO2023080274A1 (ko) 2021-11-04 2021-11-04 인공 지능 기기 및 그것의 제어 방법

Publications (1)

Publication Number Publication Date
WO2023080274A1 true WO2023080274A1 (ko) 2023-05-11

Family

ID=86145235

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/015937 WO2023080274A1 (ko) 2021-11-04 2021-11-04 인공 지능 기기 및 그것의 제어 방법

Country Status (2)

Country Link
US (1) US20230136611A1 (ko)
WO (1) WO2023080274A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180286400A1 (en) * 2017-03-28 2018-10-04 Samsung Electronics Co., Ltd. Method for operating speech recognition service and electronic device supporting the same
KR20190093528A (ko) * 2019-07-22 2019-08-09 엘지전자 주식회사 인공지능 장치를 이용한 음성 처리 방법
KR20190094307A (ko) * 2019-06-04 2019-08-13 엘지전자 주식회사 다른 기기의 동작을 제어할 수 있는 인공 지능 기기 및 그의 동작 방법
KR20190096308A (ko) * 2019-04-26 2019-08-19 엘지전자 주식회사 전자기기
KR20210045280A (ko) * 2019-10-16 2021-04-26 삼성전자주식회사 IoT 기기를 제어하는 방법 및 이를 위한 전자 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180286400A1 (en) * 2017-03-28 2018-10-04 Samsung Electronics Co., Ltd. Method for operating speech recognition service and electronic device supporting the same
KR20190096308A (ko) * 2019-04-26 2019-08-19 엘지전자 주식회사 전자기기
KR20190094307A (ko) * 2019-06-04 2019-08-13 엘지전자 주식회사 다른 기기의 동작을 제어할 수 있는 인공 지능 기기 및 그의 동작 방법
KR20190093528A (ko) * 2019-07-22 2019-08-09 엘지전자 주식회사 인공지능 장치를 이용한 음성 처리 방법
KR20210045280A (ko) * 2019-10-16 2021-04-26 삼성전자주식회사 IoT 기기를 제어하는 방법 및 이를 위한 전자 장치

Also Published As

Publication number Publication date
US20230136611A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
WO2020246634A1 (ko) 다른 기기의 동작을 제어할 수 있는 인공 지능 기기 및 그의 동작 방법
WO2020196955A1 (ko) 인공 지능 기기 및 인공 지능 기기의 동작 방법
WO2020138624A1 (en) Apparatus for noise canceling and method for the same
WO2020060325A1 (ko) 전자 장치, 시스템 및 음성 인식 서비스 이용 방법
WO2020235696A1 (ko) 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법
WO2019182325A1 (ko) 전자 장치 및 전자 장치의 음성 인식 제어 방법
WO2020222444A1 (en) Server for determining target device based on speech input of user and controlling target device, and operation method of the server
WO2019078576A1 (ko) 음성 신호를 제어하기 위한 전자 장치 및 방법
WO2020218650A1 (ko) 전자기기
WO2019039834A1 (en) METHOD FOR PROCESSING VOICE DATA AND ELECTRONIC DEVICE SUPPORTING SAID METHOD
WO2020230933A1 (ko) 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
WO2020111880A1 (en) User authentication method and apparatus
WO2020085794A1 (en) Electronic device and method for controlling the same
WO2020230926A1 (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
WO2020213758A1 (ko) 음성으로 상호작용하는 인공 지능 장치 및 그 방법
WO2020204221A1 (ko) 공기 조화기
WO2021029627A1 (en) Server that supports speech recognition of device, and operation method of the server
WO2020184748A1 (ko) 교통 정보에 기반한 오토 스탑 시스템을 제어하는 인공 지능 장치 및 그 방법
WO2020226213A1 (ko) 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법
WO2020184747A1 (ko) 오토 스탑 시스템을 제어하는 인공 지능 장치 및 그 방법
WO2019078608A1 (ko) 외부 장치를 이용하여 음성 기반 서비스를 제공하기 위한 전자 장치, 외부 장치 및 그의 동작 방법
WO2019221440A1 (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
WO2019112295A1 (ko) 외부 장치의 네트워크 셋업을 위한 전자 장치 및 그의 동작 방법
WO2020218635A1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
WO2020263016A1 (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21963374

Country of ref document: EP

Kind code of ref document: A1