KR20190096308A

KR20190096308A - 전자기기

Info

Publication number: KR20190096308A
Application number: KR1020190092062A
Authority: KR
Inventors: 김재홍; 김효은
Original assignee: 엘지전자 주식회사
Priority date: 2019-04-26
Filing date: 2019-07-29
Publication date: 2019-08-19
Also published as: WO2020218650A1; US20210383794A1; US11657800B2

Abstract

인공지능 기기가 개시된다. 본 발명의 실시 예에 따른 인공지능 기기는, 음성 입력을 수신하는 입력부, 및, 상기 인공지능 기기를 호출하는 제1 기동어가 인식된 후 동작 모드를 설정하는 제2 기동어가 인식되면 상호 작용 모드로 동작하여, 상기 제2 기동어가 나타내는 동작 모드에 따라 상기 제2 기동어 이후에 수신되는 하나 이상의 명령어를 처리하는 프로세서를 포함한다.

Description

전자기기{electronic device}

본 발명은, 전자 기기를 호출하는 제1 기동어가 인식된 후 제2 기동어의 인식 여부 및 제2 기동어의 종류에 따라, 다양한 모드로 동작할 수 있는 전자 기기에 관한 것이다.

인공 지능(artificial intelligence)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다.

또한, 인공지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.

스마트폰에 시작된 음성인식 기술 경쟁은 사물인터넷(IoT)의 본격 확산과 맞물려 이제 집 안에서 본격적으로 불붙을 전망이다.

특히, 주목할 만 한 점은 그 기기가 음성을 매개로 명령을 내리고, 대화를 나눌 수도 있는 인공지능(AI) 기기라는 점이다.

음성인식 서비스는 막대한 양의 데이터베이스를 활용하여, 사용자의 질문에 최적 답변을 선택하는 구조를 갖고 있다.

음성검색 기능 역시 입력된 음성데이터를 클라우드 서버에서 텍스트로 변환하여 분석하고, 그 결과에 따른 실시간 검색결과를 기기로 재전송하는 방식이다.

클라우드 서버는 수많은 단어들을 성별, 연령별, 억양별로 구분된 음성 데이터로 구분하여, 저장하고 실시간으로 처리할 수 있는 컴퓨팅 능력을 보유하고 있다.

음성 인식은 더 많은 음성데이터가 축적될수록, 인간과 동등한(Human parity) 수준 정도로, 정확해 질 것이다.

한편 종래에는, 사용자는 기동어를 발화하여 음성 에이전트를 호출하고, 기동어에 이어 명령어(요청, 질문 등)를 발화하였다. 이 경우 음성 에이전트는, 기동어를 인식한 후 명령 인식 기능을 활성화 하여 명령어를 인식하였으며, 명령어에 대한 처리 후에 명령 인식 기능을 비활성화 하였다.

즉 사용자는 기동어를 발화, 일회성 요청 또는 질문, 기동어를 재 발화, 이전의 요청 또는 질문과 독립적이고 일회성인 요청 또는 질문을 반복하는 방식으로 음성 인식 서비스를 제공 받았다.

이와 같이 명령어에 대한 처리 후에 명령 인식 기능을 비활성화 하는 이유는, 타 음향(명령어 입력을 위한 발화 외 일상적인 대화를 위한 발화, 텔레비전 소리 등)으로 인한 오 인식을 막기 위함이다.

하지만 이와 같이 획일적인 방식으로 음성 인식을 진행하는 경우, 음성 인식 에이전트는 사용자와 상호작용 하는 형태의 음성 인식 서비스를 제공할 수 없는 문제가 있었다.

본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 전자 기기를 호출하는 제1 기동어가 인식된 후 제2 기동어의 인식 여부 및 제2 기동어의 종류에 따라, 다양한 모드로 동작할 수 있는 전자 기기를 제공하기 위함이다.

본 발명의 일 실시 예에 따른 인공지능 기기는, 음성 입력을 수신하는 입력부, 및, 상기 인공지능 기기를 호출하는 제1 기동어가 인식된 후 동작 모드를 설정하는 제2 기동어가 인식되면 상호 작용 모드로 동작하여, 상기 제2 기동어가 나타내는 동작 모드에 따라 상기 제2 기동어 이후에 수신되는 하나 이상의 명령어를 처리하는 프로세서를 포함한다.

도 1은 본 발명과 관련된 인공 지능 기기를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 음성 시스템을 설명하기 위한 도면이다.
도 2는 본 발명에 따른 변형 가능한 이동 인공 지능 기기의 다른 예를 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시 예에 따라 음성 신호로부터 사용자의 발화 특징을 추출하는 과정을 설명하는 도면이다.
도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.
도 5는 본 발명의 실시 예에 따른 인공지능 기기의 동작 방법을 설명하기 위한 도면이다.
도 6은 종래 기술에서 발생하는 문제점을 설명하기 위한 도면이다.
도 7은 본 발명의 실시 예에 따른, 인공지능 기기의 동작 모드를 설정하는 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 실시 예에 따른 대화 모드를 설명하기 위한 도면이다.
도 9는 본 발명의 실시 예에 따른 다중 요청 모드를 설명하기 위한 도면이다.
도 10은 본 발명의 실시 예에 따른 특정 기기 호출 모드를 설명하기 위한 도면이다.
도 11은 본 발명의 실시 예에 따른, 비밀 모드를 설명하기 위한 도면이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 명세서에서 설명되는 인공 지능 기기에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 인공 지능 기기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 인공 지능 기기 (smartwatch), 글래스형 인공 지능 기기 (smart glass), HMD(head mounted display)) 등이 포함될 수 있다.

그러나, 본 명세서에 기재된 실시 예에 따른 인공 지능 기기(100)는 스마트 TV, 데스크탑 컴퓨터, 디지털사이니지 등과 같은 고정 인공 지능 기기에도 적용될 수도 있다.

또한, 본 발명의 실시 예에 따른 인공 지능 기기(100)는 고정 또는 이동 가능한 로봇에도 적용될 수 있다.

또한, 본 발명의 실시 예에 따른 인공 지능 기기(100)는 음성 에이전트의 기능을 수행할 수 있다. 음성 에이전트는 사용자의 음성을 인식하고, 인식된 사용자의 음성에 적합한 응답을 음성으로 출력하는 프로그램일 수 있다.

인공 지능 기기(100)는 무선 통신부(110), 입력부(120), 러닝 프로세서(130), 센싱부(140), 출력부(150), 인터페이스부(160), 메모리(170), 프로세서(180) 및 전원 공급부(190)를 포함할 수 있다.

무선 통신부(110)는, 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114), 위치정보 모듈(115) 중 적어도 하나를 포함할 수 있다.

방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다.

이동통신 모듈(112)은, 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다.

무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 인공 지능 기기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 모듈(113)은 무선 인터넷 기술들에 따른 통신망에서 무선 신호를 송수신하도록 이루어진다.

무선 인터넷 기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등이 있다.

근거리 통신 모듈(114)은 근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다.

위치정보 모듈(115)은 이동 인공 지능 기기의 위치(또는 현재 위치)를 획득하기 위한 모듈로서, 그의 대표적인 예로는 GPS(Global Positioning System) 모듈 또는 WiFi(Wireless Fidelity) 모듈이 있다. 예를 들어, 인공 지능 기기는 GPS모듈을 활용하면, GPS 위성에서 보내는 신호를 이용하여 이동 인공 지능 기기의 위치를 획득할 수 있다.

입력부(120)는 영상 신호 입력을 위한 카메라(121), 오디오 신호를 수신하기 위한 마이크로폰(122), 사용자로부터 정보를 입력 받기 위한 사용자 입력부(123)를 포함할 수 있다.

입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.

입력부(120)는 영상 정보(또는 신호), 오디오 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 것으로서, 영상 정보의 입력을 위하여, 인공 지능 기기(100)는 하나 또는 복수의 카메라(121)들을 구비할 수 있다.

카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시되거나 메모리(170)에 저장될 수 있다.

마이크로폰(122)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 인공 지능 기기(100)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(122)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.

사용자 입력부(123)는 사용자로부터 정보를 입력 받기 위한 것으로서, 사용자 입력부(123)를 통해 정보가 입력되면,

프로세서(180)는 입력된 정보에 대응되도록 인공 지능 기기(100)의 동작을 제어할 수 있다.

사용자 입력부(123)는 기계식 (mechanical) 입력수단(또는, 메커니컬 키, 예를 들어, 인공 지능 기기(100)의 전/후면 또는 측면에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력수단을 포함할 수 있다. 일 예로서, 터치식 입력수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다.

러닝 프로세서(130)는 데이터 마이닝, 데이터 분석, 지능형 의사 결정, 및 기계 학습 알고리즘 및 기술을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성 될 수 있다.

러닝 프로세서(130)는 인공 지능 기기에 의해 수신, 검출, 감지, 생성, 사전 정의 또는 다른 방식으로 출력되거나 수신, 검출, 감지, 생성, 사전 정의 또는 다른 방식으로 다른 컴포넌트, 디바이스, 인공 지능 기기 또는 인공 지능 기기와 통신하는 장치에 의해 출력되는 데이터를 저장하도록 구성된 하나 이상의 메모리 유닛을 포함 할 수 있다.

러닝 프로세서(130)는 인공 지능 기기에 통합되거나 구현된 메모리를 포함 할 수 있다. 일부 실시 예에서, 러닝 프로세서(130)는 메모리(170)를 사용하여 구현 될 수 있다.

선택적으로 또는 부가 적으로, 러닝 프로세서(130)는 인공 지능 기기에 직접 결합된 외부 메모리 또는 인공 지능 기기와 통신하는 서버에서 유지되는 메모리와 같이 인공 지능 기기와 관련된 메모리를 사용하여 구현 될 수 있다.

다른 실시 예에서, 러닝 프로세서(130)는 클라우드 컴퓨팅 환경에서 유지되는 메모리, 또는 네트워크와 같은 통신 방식을 통해 인공 지능 기기에 의해 액세스 가능한 다른 원격 메모리 위치를 이용하여 구현 될 수 있다.

러닝 프로세서(130)는 일반적으로 감독 또는 감독되지 않은 학습, 데이터 마이닝, 예측 분석 또는 다른 머신에서 사용하기 위해 데이터를 식별, 색인화, 카테고리화, 조작, 저장, 검색 및 출력하기 위해 데이터를 하나 이상의 데이터베이스에 저장하도록 구성될 수 있다.

러닝 프로세서(130)에 저장된 정보는 다양한 상이한 유형의 데이터 분석 알고리즘 및 기계 학습 알고리즘 중 임의의 것을 사용하여 프로세서(180) 또는 인공 지능 기기의 하나 이상의 다른 제어기에 의해 이용될 수 있다.

이러한, 알고리즘의 예로는, k-최근 인접 시스템, 퍼지 논리 (예: 가능성 이론), 신경 회로망, 볼츠만 기계, 벡터 양자화, 펄스 신경망, 지원 벡터 기계, 최대 마진 분류기, 힐 클라이밍, 유도 논리 시스템 베이지안 네트워크, 페리트넷 (예: 유한 상태 머신, 밀리 머신, 무어 유한 상태 머신), 분류기 트리 (예: 퍼셉트론 트리, 지원 벡터 트리, 마코프 트리, 의사 결정 트리 포리스트, 임의의 포리스트), 판돈 모델 및 시스템, 인공 융합, 센서 융합, 이미지 융합, 보강 학습, 증강 현실, 패턴 인식, 자동화 된 계획 등을 포함한다.

프로세서(180)는 데이터 분석 및 기계 학습 알고리즘을 사용하여 결정되거나, 생성된 정보에 기초하여 인공 지능 기기의 적어도 하나의 실행 가능한 동작을 결정 또는 예측할 수 있다. 이를 위해, 프로세서(180)는 러닝 프로세서(130)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 상기 인공 지능 기기를 제어할 수 있다.

프로세서(180)는 지능적 에뮬레이션(즉, 지식 기반 시스템, 추론 시스템 및 지식 획득 시스템)을 구현하는 다양한 기능을 수행 할 수 있다. 이는 적응 시스템, 기계 학습 시스템, 인공 신경망 등을 포함하는, 다양한 유형의 시스템(예컨대, 퍼지 논리 시스템)에 적용될 수 있다.

프로세서(180)는, 또한 I/O 처리 모듈, 환경 조건 모듈, 음성 - 텍스트 (STT) 처리 모듈, 자연어 처리 모듈, 작업 흐름 처리 모듈 및 서비스 처리 모듈과 같이, 음성 및 자연 언어 음성 처리를 수반하는 연산을 가능하게 하는 서브 모듈을 포함할 수 있다.

이들 서브 모듈들 각각은, 인공 지능 기기에서의 하나 이상의 시스템 또는 데이터 및 모델, 또는 이들의 서브셋 또는 수퍼 셋에 대한 액세스를 가질 수 있다. 또한, 이들 서브 모듈들 각각은, 어휘 색인, 사용자 데이터, 작업 흐름 모델, 서비스 모델 및 자동 음성 인식 (ASR) 시스템을 비롯한 다양한 기능을 제공할 수 있다.

다른 실시 예에서, 프로세서(180) 또는 인공 지능 기기의 다른 양태는 상기 서브 모듈, 시스템, 또는 데이터 및 모델로 구현 될 수 있다.

일부 예에서, 러닝 프로세서(130)의 데이터에 기초하여, 프로세서(180)는 사용자 입력 또는 자연 언어 입력으로 표현된 문맥 조건 또는 사용자의 의도에 기초하여 요구 사항을 검출하고 감지하도록 구성 될 수 있다.

프로세서(180)는 문맥 조건 또는 사용자의 의도에 기초하여 요구 사항을 완전히 결정하는데 필요한 정보를 능동적으로 이끌어 내고, 획득할 수 있다. 예를 들어, 프로세서(180)는 역사적 입력 및 출력, 패턴 매칭, 모호하지 않은 단어, 입력 의도 등을 포함하는 과거 데이터를 분석함으로써 요구 사항을 결정하는데, 필요한 정보를 능동적으로 이끌어낼 수 있다.

프로세서(180)는 문맥 조건 또는 사용자의 의도에 기초하여 요구 사항에 응답하는 기능을 실행하기 위한 태스크 흐름을 결정할 수 있다.

프로세서(180)는 러닝 프로세서(130)에서 프로세싱 및 저장을 위한 정보를 수집하기 위해, 인공 지능 기기에서 하나 이상의 감지 컴포넌트를 통해 데이터 분석 및 기계 학습 작업에 사용되는 신호 또는 데이터를 수집, 감지, 추출, 검출 및/또는 수신하도록 구성 될 수 있다.

정보 수집은 센서를 통해 정보를 감지하는 것, 메모리(170)에 저장된 정보를 추출하는 것 또는 통신 수단을 통해 다른 인공 지능 기기, 엔티티 또는 외부 저장 장치로부터 정보를 수신하는 것을 포함 할 수 있다.

프로세서(180)는 인공 지능 기기에서 사용 히스토리 정보를 수집하여, 저장할 수 있다.

프로세서(180)는 저장된 사용 히스토리 정보 및 예측 모델링을 사용하여 특정 기능을 실행하기 위한 최상의 매치를 결정할 수 있다.

프로세서(180)는 센싱부(140)를 통해 주변 환경 정보 또는 기타 정보를 수신하거나 감지 할 수 있다.

프로세서(180)는 무선 통신부(110)을 통해 방송 신호 및/또는 방송 관련 정보, 무선 신호, 무선 데이터를 수신할 수 있다.

프로세서(180)는 입력부(120)로부터 이미지 정보 (또는 해당 신호), 오디오 정보 (또는 해당 신호), 데이터 또는 사용자 입력 정보를 수신 할 수 있다.

프로세서(180)는 정보를 실시간으로 수집하고, 정보 (예를 들어, 지식 그래프, 명령 정책, 개인화 데이터베이스, 대화 엔진 등)를 처리 또는 분류하고, 처리 된 정보를 메모리(170) 또는 러닝 프로세서(130)에 저장할 수 있다.

인공 지능 기기의 동작이 데이터 분석 및 기계 학습 알고리즘 및 기술에 기초하여 결정될 때, 프로세서(180)는 결정된 동작을 실행하기 위해 인공 지능 기기의 구성 요소를 제어 할 수 있다. 그리고 프로세서(180)는 제어 명령에 따라 단말을 제어하여 결정된 동작을 수행 할 수 있다.

프로세서(180)는 특정 동작이 수행되는 경우, 데이터 분석 및 기계 학습 알고리즘 및 기법을 통해 특정 동작의 실행을 나타내는 이력 정보를 분석하고, 분석된 정보에 기초하여 이전에 학습 한 정보의 업데이트를 수행 할 수 있다.

따라서, 프로세서(180)는 러닝 프로세서(130)과 함께, 업데이트 된 정보에 기초하여 데이터 분석 및 기계 학습 알고리즘 및 기법의 미래 성능의 정확성을 향상시킬 수 있다.

센싱부(140)는 이동 인공 지능 기기 내 정보, 이동 인공 지능 기기를 둘러싼 주변 환경 정보 및 사용자 정보 중 적어도 하나를 센싱 하기 위한 하나 이상의 센서를 포함할 수 있다.

예를 들어, 센싱부(140)는 근접센서(141, proximity sensor), 조도 센서(142, illumination sensor), 터치 센서(touch sensor), 가속도 센서(acceleration sensor), 자기 센서(magnetic sensor), 중력 센서(G-sensor), 자이로스코프 센서(gyroscope sensor), 모션 센서(motion sensor), RGB 센서, 적외선 센서(IR 센서: infrared sensor), 지문인식 센서(finger scan sensor), 초음파 센서(ultrasonic sensor), 광 센서(optical sensor, 예를 들어, 카메라(121 참조)), 마이크로폰(microphone, 122 참조), 배터리 게이지(battery gauge), 환경 센서(예를 들어, 기압계, 습도계, 온도계, 방사능 감지 센서, 열 감지 센서, 가스 감지 센서 등), 화학 센서(예를 들어, 전자 코, 헬스케어 센서, 생체 인식 센서 등) 중 적어도 하나를 포함할 수 있다. 한편, 본 명세서에 개시된 이동 인공 지능 기기는, 이러한 센서들 중 적어도 둘 이상의 센서에서 센싱되는 정보들을 조합하여 활용할 수 있다.

출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부(151), 음향 출력부(152), 햅팁 모듈(153), 광 출력부(154) 중 적어도 하나를 포함할 수 있다.

디스플레이부(151)는 인공 지능 기기(100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 디스플레이부(151)는 인공 지능 기기(100)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다.

디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 인공 지능 기기(100)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로써 기능함과 동시에, 인공 지능 기기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.

음향 출력부(152)는 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리(170)에 저장된 오디오 데이터를 출력할 수 있다.

음향 출력부(152)는 리시버(receiver), 스피커(speaker), 버저(buzzer) 중 적어도 하나 이상을 포함할 수 있다.

햅틱 모듈(haptic module)(153)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(153)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 될 수 있다.

광출력부(154)는 인공 지능 기기(100)의 광원의 빛을 이용하여 이벤트 발생을 알리기 위한 신호를 출력한다. 인공 지능 기기(100)에서 발생 되는 이벤트의 예로는 메시지 수신, 호 신호 수신, 부재중 전화, 알람, 일정 알림, 이메일 수신, 애플리케이션을 통한 정보 수신 등이 될 수 있다.

인터페이스부(160)는 인공 지능 기기(100)에 연결되는 다양한 종류의 외부 기기와의 통로 역할을 수행한다. 이러한 인터페이스부(160)는, 유/무선 헤드셋 포트(port), 외부 충전기 포트(port), 유/무선 데이터 포트(port), 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트(port), 오디오 I/O(Input/Output) 포트(port), 비디오 I/O(Input/Output) 포트(port), 이어폰 포트(port)중 적어도 하나를 포함할 수 있다. 인공 지능 기기(100)에서는, 상기 인터페이스부(160)에 외부 기기가 연결되는 것에 대응하여, 연결된 외부 기기와 관련된 적절할 제어를 수행할 수 있다.

한편, 식별 모듈은 인공 지능 기기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(user identify module; UIM), 가입자 인증 모듈(subscriber identity module; SIM), 범용 사용자 인증 모듈(universal subscriber identity module; USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하 '식별 장치')는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서 식별 장치는 상기 인터페이스부(160)를 통하여 인공 지능 기기(100)와 연결될 수 있다.

메모리(170)는 인공 지능 기기(100)의 다양한 기능을 지원하는 데이터를 저장한다.

메모리(170)는 인공 지능 기기(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 인공 지능 기기(100)의 동작을 위한 데이터들, 명령어들을, 러닝 프로세서(130)의 동작을 위한 데이터들(예를 들어, 머신 러닝을 위한 적어도 하나의 알고리즘 정보 등)을 저장할 수 있다.

프로세서(180)는 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 인공 지능 기기(100)의 전반적인 동작을 제어한다. 프로세서(180)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(170)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.

또한, 프로세서(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 도 1와 함께 살펴본 구성요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(180)는 상기 응용프로그램의 구동을 위하여, 인공 지능 기기(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수 있다.

전원공급부(190)는 프로세서(180)의 제어 하에서, 외부의 전원, 내부의 전원을 인가 받아 인공 지능 기기(100)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원공급부(190)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체 가능한 형태의 배터리가 될 수 있다.

한편, 앞서 살펴본 것과 같이, 프로세서(180)는 응용 프로그램과 관련된 동작과, 통상적으로 인공 지능 기기(100)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(180)는 상기 이동 인공 지능 기기의 상태가 설정된 조건을 만족하면, 애플리케이션들에 대한 사용자의 제어 명령의 입력을 제한하는 잠금 상태를 실행하거나, 해제할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 음성 시스템을 설명하기 위한 도면이다.

도 2를 참조하면, 음성 시스템(1)은 인공 지능 기기(100), 음성 텍스트 변환(Speech To Text, STT) 서버(10), 자연어 처리(Natural Language Processing, NLP) 서버(20) 및 음성 합성 서버(30)를 포함할 수 있다.

인공 지능 기기(100)는 음성 데이터를 STT 서버(10)에 전송할 수 있다.

STT 서버(10)는 인공 지능 기기(100)로부터 수신된 음성 데이터를 텍스트 데이터로 변환할 수 있다.

STT 서버(10)는 언어 모델을 이용하여 음성-텍스트 변환의 정확도를 높일 수 있다.

언어 모델은 문장의 확률을 계산하거나, 이전의 단어들이 주어졌을 때 다음 단어가 나올 확률을 계산할 수 있는 모델을 의미할 수 있다.

예컨대, 언어 모델은 유니그램(Unigram) 모델, 바이그램(Bigram) 모델, N-그램(N-gram) 모델 등과 같은 확률론적 언어 모델들을 포함할 수 있다.

유니그램 모델은 모든 단어의 활용이 완전히 서로 독립적이라고 가정하는 모델로, 단어 열의 확률을 각 단어의 확률의 곱으로 계산하는 모델이다.

바이그램 모델은 단어의 활용이 이전 1개의 단어에만 의존한다고 가정하는 모델이다.

N-그램 모델은 단어의 활용이 이전 (n-1)개의 단어에 의존한다고 가정하는 모델이다.

즉, STT 서버(10)는 언어 모델을 이용하여 음성 데이터로부터 변환된 텍스트 데이터가 적합하게 변환된 것인지 판단할 수 있고, 이를 통해 텍스트 데이터로의 변환의 정확도를 높일 수 있다.

NLP 서버(20)는 STT 서버(10)로부터 텍스트 데이터를 수신할 수 있다. NLP 서버(20)는 수신된 텍스트 데이터에 기초하여, 텍스트 데이터에 대한 의도 분석을 수행할 수 있다.

NLP 서버(20)는 의도 분석의 수행 결과를 나타내는 의도 분석 정보를 인공 지능 기기(100)에 전송할 수 있다.

NLP 서버(20)는 텍스트 데이터에 대해, 형태소 분석 단계, 구문 분석 단계, 화행 분석 단계, 대화 처리 단계를 순차적으로, 수행하여, 의도 분석 정보를 생성할 수 있다.

형태소 분석 단계는 사용자가 발화한 음성에 대응하는 텍스트 데이터를 의미를 지닌 가장 작은 단위인 형태소 단위로 분류하고, 분류된 각 형태소가 어떤 품사를 가지는지를 결정하는 단계이다.

구문 분석 단계는 형태소 분석 단계의 결과를 이용하여, 텍스트 데이터를 명사구, 동사구, 형용사 구 등으로 구분하고, 구분된 각 구들 사이에, 어떠한 관계가 존재하는지를 결정하는 단계이다.

구문 분석 단계를 통해, 사용자가 발화한 음성의 주어, 목적어, 수식어들이 결정될 수 있다.

화행 분석 단계는 구문 분석 단계의 결과를 이용하여, 사용자가 발화한 음성에 대한 의도를 분석하는 단계이다. 구체적으로, 화행 분석 단계는 사용자가 질문을 하는 것인지, 요청을 하는 것인지, 단순한 감정 표현을 하는 것인지와 같은 문장의 의도를 결정하는 단계이다.

대화 처리 단계는 화행 분석 단계의 결과를 이용하여, 사용자의 발화에 대해 대답을 할지, 호응을 할지, 추가 정보를 문의하는 질문을 할지를 판단하는 단계이다.

NLP 서버(20)는 대화 처리 단계 후, 사용자가 발화한 의도에 대한 답변, 호응, 추가 정보 문의 중 하나 이상을 포함하는 의도 분석 정보를 생성할 수 있다.

한편, NLP 서버(20)는 인공 지능 기기(100)로부터 텍스트 데이터를 수신할 수도 있다. 예를 들어, 인공 지능 기기(100)가 음성 텍스트 변환 기능을 지원하는 경우, 인공 지능 기기(100)는 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 NLP 서버(20)에 전송할 수 있다.

음성 합성 서버(30)는 기 저장된 음성 데이터들을 조합하여, 합성 음성을 생성할 수 있다.

음성 합성 서버(30)는 모델로 선정된 한 사람의 음성을 녹음하고, 녹음된 음성을 음절 또는 단어 단위로 분할할 수 있다. 음성 합성 서버(30)는 음절 또는 단어 단위로, 분할된 음성을 내부 또는 외부의 데이터 베이스에 저장할 수 있다.

음성 합성 서버(30)는 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.

음성 합성 서버(30)는 복수의 언어들 각각에 대응하는 복수의 음성 언어 그룹들을 저장하고 있을 수 있다.

예를 들어, 음성 합성 서버(30)는 한국어로 녹음된 제1 음성 언어 그룹, 영어로, 녹음된 제2 음성 언어 그룹을 포함할 수 있다.

음성 합성 서버(30)는 제1 언어의 텍스트 데이터를 제2 언어의 텍스트로 번역하고, 제2 음성 언어 그룹을 이용하여, 번역된 제2 언어의 텍스트에 대응하는 합성 음성을 생성할 수 있다.

음성 합성 서버(30)는 생성된 합성 음성을 인공 지능 기기(100)에 전송할 수 있다.

음성 합성 서버(30)는 NLP 서버(20)로부터 의도 분석 정보를 수신할 수 있다.

음성 합성 서버(30)는 의도 분석 정보에 기초하여, 사용자의 의도를 반영한, 합성 음성을 생성할 수 있다.

일 실시 예에서, STT 서버(10), NLP 서버(20) 및 음성 합성 서버(30)는 하나의 서버로 구현될 수 있다.

위에서, 설명된 STT 서버(10), NLP 서버(20) 및 음성 합성 서버(30) 각각의 기능은 인공 지능 기기(100)에서도 수행될 수도 있다. 이를 위해, 인공 지능 기기(100)는 복수의 프로세서들을 포함할 수 있다.

도 3은 본 발명의 일 실시 예에 따라 음성 신호로부터 사용자의 발화 특징을 추출하는 과정을 설명하는 도면이다.

도 1에 도시된, 인공 지능 기기(100)는 오디오 프로세서(181)를 더 포함할 수 있다.

오디오 프로세서(181)는 프로세서(180)와 별도의 칩으로 구현되거나, 프로세서(180)에 포함된 칩으로 구현될 수 있다.

오디오 프로세서(181)는 음성 신호로부터, 잡음을 제거할 수 있다.

오디오 프로세서(181)는 음성 신호를 텍스트 데이터로 변환할 수 있다. 이를 위해, 오디오 프로세서(181)는 STT 엔진을 구비할 수 있다.

오디오 프로세서(181)는 인공 지능 기기(100)의 음성 인식을 활성화시키기 위한 기동어를 인식할 수 있다. 오디오 프로세서(181)는 마이크로폰(121)을 통해 수신된 기동어를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터인 경우, 기동어를 인식한 것으로 판단할 수 있다.

오디오 프로세서(181)는 잡음이 제거된 음성 신호를 파워 스펙트럼으로 변환할 수 있다.

파워 스펙트럼은 시간적으로 변동하는 음성 신호의 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되어 있는지를 나타내는 파라미터일 수 있다.

파워 스펙트럼은 음성 신호의 파형의 주파수에 따른 진폭 제곱 값의 분포를 보여준다.

이에 대해서는 도 4를 참조하여, 설명한다.

도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.

도 4을 참조하면, 음성 신호(410)가 도시되어 있다. 음성 신호(410)는 마이크로폰(121)을 통해 수신되거나, 메모리(170)에 미리 저장된 신호일 수 있다.

음성 신호(410)의 x축은 시간이고, y축은 진폭의 크기를 나타낼 수 있다.

오디오 프로세서(181)는 x축이 시간 축인 음성 신호(410)를 x축이 주파수 축인 파워 스펙트럼(430)으로 변환할 수 있다.

오디오 프로세서(181)는 고속 퓨리에 변환(Fast Fourier Transform, FFT)을 이용하여, 음성 신호(410)를 파워 스펙트럼(430)으로 변환할 수 있다.

파워 스펙트럼(430)의 x축은 주파수, y축은 진폭의 제곱 값을 나타낸다.

다시 도 3을 설명한다.

프로세서(180)는 오디오 프로세서(181)로부터 전달된 텍스트 데이터 또는 파워 스펙트럼(430) 중 하나 이상을 이용하여, 사용자의 발화 특징을 결정할 수 있다.

사용자의 발화 특징은 사용자의 성별, 사용자의 음의 높낮이, 사용자의 음색, 사용자의 발화 주제, 사용자의 발화 속도, 사용자의 성량등을 포함할 수 있다.

프로세서(180)는 파워 스펙트럼(430)을 이용하여, 음성 신호(410)의 주파수 및 주파수에 대응하는 진폭을 획득할 수 있다.

프로세서(180)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성을 발화한 사용자의 성별을 결정할 수 있다.

예를 들어, 프로세서(180)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제1 주파수 대역 범위 내인 경우, 사용자의 성별을 남자로 결정할 수 있다.

프로세서(180)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제2 주파수 대역 범위 내인 경우, 사용자의 성별을 여자로 결정할 수 있다. 여기서, 제2 주파수 대역 범위는 제1 주파수 대역 범위보다 클 수 있다.

프로세서(180)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성의 높낮이를 결정할 수 있다.

예를 들어, 프로세서(180)는 특정 주파수 대역 범위 내에서, 진폭의 크기에 따라 음의 높낮이 정도를 결정할 수 있다.

프로세서(180)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 사용자의 음색(tone)을 결정할 수 있다. 예를 들어, 프로세서(180)는 파워 스펙트럼(430)의 주파수 대역들 중, 진폭의 크기가 일정 크기 이상인 주파수 대역을 사용자의 주요 음역대로 결정하고, 결정된 주요 음역대를 사용자의 음색으로 결정할 수 있다.

프로세서(180)는 변환된 텍스트 데이터로부터, 단위 시간 당 발화된 음절 수를 통해, 사용자의 발화 속도를 결정할 수 있다.

프로세서(180)는 변환된 텍스트 데이터에 대해, Bag-Of-Word Model 기법을 이용하여, 사용자의 발화 주제를 결정할 수 있다.

Bag-Of-Word Model 기법은 문장 내 단어 빈도 수 기반으로, 주로 사용하는 단어를 추출하는 기법이다. 구체적으로, Bag-Of-Word Model 기법은 문장 내에서, 유니크한 단어를 추출하고, 추출된 각 단어의 빈도 수를 벡터로 표현하여, 발화 주제를 특징을 결정하는 기법이다.

예를 들어, 프로세서(180)는 텍스트 데이터에 <달리기>, <체력> 등과 같은 단어가 자주 등장하면, 사용자의 발화 주제를 운동으로 분류할 수 있다.

프로세서(180)는 공지된 텍스트 카테고리화(Text Categorization) 기법을 이용하여, 텍스트 데이터로부터 사용자의 발화 주제를 결정할 수 있다. 프로세서(180)는 텍스트 데이터로부터 키워드를 추출하여, 사용자의 발화 주제를 결정할 수 있다.

프로세서(180)는 전체 주파수 대역에서의 진폭 정보를 고려하여 사용자의 성량을 결정할 수 있다.

예컨대, 프로세서(180)는 파워 스펙트럼의 각 주파수 대역에서의 진폭의 평균 또는 가중치 평균을 기준으로 사용자의 성량을 결정할 수 있다.

도 3 및 도 4에서 설명된 오디오 프로세서(181) 및 프로세서(180)의 기능은 NLP 서버(20), 음성 합성 서버(30) 중 어느 하나의 서버에서도 수행될 수 있다.

예를 들어, NLP 서버(20)는 음성 신호를 이용하여, 파워 스펙트럼을 추출하고, 추출된 파워 스펙트럼을 이용하여, 사용자의 발화 특징을 결정할 수 있다.

도 5는 본 발명의 실시 예에 따른 인공지능 기기의 동작 방법을 설명하기 위한 도면이다.

본 발명의 실시 예에 따른 인공지능 기기의 동작 방법은, 음성 입력을 수신하는 단계(S510), 인공지능 기기를 호출하는 제1 기동어를 인식하는 단계(S520), 제1 기동어가 인식된 후 동작 모드를 설정하는 제2 기동어가 인식되는지 결정하는 단계(S530), 제1 기동어가 인식된 후 명령어가 수신되면 일반 모드로 동작하는 단계(S540), 제1 기동어가 인식된 후 제2 기동어가 인식되면 상호 작용 모드로 동작하여, 제2 기동어가 나타내는 동작 모드에 따라 제2 기동어 이후에 수신되는 하나 이상의 명령어를 처리하는 단계(S550), 상호 작용 모드에서 종료 명령어가 수신되거나 음성 대기 기간이 종료되는지 결정하는 단계(S560), 종료 명령어가 수신되거나 음성 대기 기간이 종료되면 상호 작용 모드를 종료하는 단계(S570)를 포함할 수 있다.

도 6은 종래 기술에서 발생하는 문제점을 설명하기 위한 도면이다.

종래에는, 사용자는 기동어를 발화하여 음성 에이전트를 호출하고, 기동어에 이어 명령어(요청, 질문 등)를 발화하였다.

이 경우 음성 에이전트는 기동어를 인식한 후, 명령 인식 기능을 비 활성화 상태에서 활성화 상태로 변경하고 명령어를 인식하였다. 그리고 나서 음성 에이전트는 명령어를 처리하고, 명령어에 대한 처리 후에 짧은 음성 대기 기간이 종료하면 명령 인식 기능을 다시 비활성화 하였다.

구체적으로 사용자는 기동어(611)를 발화하여 음성 에이전트를 호출하고, 기동어(611)에 이어 제1 명령어(612)을 발화하였다.

이 경우 인공지능 기기(100)는 기동어(611)를 인식한 후 명령 인식 기능을 비 활성화 상태에서 활성화 상태로 변경하여 제1 명령어(612)를 인식하였다. 그리고 인공지능 기기(100)는 제1 명령어(612)를 처리하여 제1 명령어(612)에 대응하는 응답(620)을 출력하고, 제1 명령어(612)에 대한 처리한 후 짧은 음성 대기 기간이 종료하면 명령 인식 기능을 다시 비활성화 하였다.

이 경우 사용자는 다시 기동어(631)를 발화하여 음성 에이전트를 호출하고, 기동어(631)에 이어 제2 명령어(632)을 발화하였다.

이 경우 인공지능 기기(100)는 기동어(631)를 인식한 후 명령 인식 기능을 비 활성화 상태에서 활성화 상태로 변경하여 제2 명령어(632)를 인식하였다. 그리고 인공지능 기기(100)는 제2 명령어(632)를 처리하여 제2 명령어(632)에 대응하는 응답(640)을 출력하고, 제2 명령어(632)에 대한 처리한 후 짧은 음성 대기 기간이 종료하면 명령 인식 기능을 다시 비활성화 하였다.

따라서 이와 같이 획일적인 방식으로 음성 인식을 진행하는 경우, 사용자는 명령어를 입력할 때 마다 기동어(611, 631, 651, 671)을 발화하여야 하는 문제가 발생할 수 있었다.

또한 인공지능 기기(100)는 명령어가 수신되는 경우 수신된 명령어를 이전에 수신된 명령어 및 응답과 독립적으로 처리하였다. 즉 인공지능 기기(100)는 기동어 이후에 명령어가 수신되는 경우, 사용자와 이전에 나누었던 대화의 문맥을 고려하지 않고, 기동어 이후에 수신된 명령어의 의미만을 이해하고 처리하였다.

이러한 문제점들은 사용자와의 자연스럽고 연속적인 의사 소통을 방해하는 요소였으며, 따라서 사용자와 상호작용 하는 형태의 음성 인식 서비스를 제공할 수 없는 문제가 있었다.

한편 이하에서 설명하는 음성 인식 과정은 인공 지능 기기에서 수행될 수도, 인공지능 기기와 통신하는 서버에서 수행될 수 있다. 또한 이하에서 설명하는 음성 인식 과정은 인공 지능 기기 및 서버에서 수행될 수도 있다.

구체적으로 음성 인식 엔진이 인공 지능 기기에 탑재되어, 제1 기동어, 제2 기동어 및 명령어의 인식은 인공지능 기기에 의해 수행될 수 있다.

또한 음성 인식 엔진이 서버에 탑재되어, 제1 기동어, 제2 기동어 및 명령어의 인식은 서버에 의해 수행될 수 있다.

제1 기동어, 제2 기동어 및 명령어의 인식이 서버에 의해 수행되는 경우, 인공지능 기기의 프로세서는 사용자의 음성 입력을 서버로 전송할 수 있다. 이 경우 서버는 사용자의 음성 입력을 수신하여 제1 기동어, 제2 기동어 및 명령어 중 적어도 하나를 인식할 수 있다. 또한 서버는 제1 기동어 및 제2 기동어를 인식하여 인공지능 기기의 동작 모드를 결정하고, 결정된 동작 모드를 인공지능 기기에 전송할 수 있다. 이 경우 프로세서는 수신된 동작 모드에 따라 동작할 수 있다. 또한 서버는 인식된 명령어의 의미를 결정하여 인공지능 기기에 전송할 수 있다. 이 경우 인공지능 기기는 수신된 명령어의 의미에 기초하여 명령어를 처리할 수 있다.

또한 제1 기동어의 인식, 제2 기동어의 인식 및 명령어의 인식 중 일부는 인공 지능 기기에서, 다른 일부는 서버에서 수행될 수도 있다.

이 외에도 아래에서 설명하는 본 발명의 동작은, 인공지능 기기에 의해서만 수행되거나, 서버에 의해서만 수행되거나, 서버와 인공지능 기기에 의해 나뉘어서 수행될 수 있다. 이를 위하여 서버는 도 1에서 설명한 인공지능 기기의 구성을 포함하고 인공지능 기기의 기능을 수행할 수 있다. 또한 서버와 인공지능 기기 간에는, 이하에서 설명하는 동작을 서버와 인공 지능 기기에서 나누어 수행하기 위하여, 상호간에 데이터가 전송될 수 있다.

또한 이하에서 설명하는 기동어가 인식된다는 의미는, 기동어가 인공지능 기기에서 인식되거나 서버에서 인식되는 것 모두를 포함할 수 있다.

또한 이하에서 설명하는 명령어를 처리한다는 의미는, 인공 지능 기기에서 명령어의 의미를 결정하고 인공 지능 기기가 명령어의 의미에 따라 동작한 다는 것 또는 서버에서 명령어의 의미를 결정하고 인공지능 기기가 명령어의 의미에 따라 동작한다는 것 모두를 포함할 수 있다.

도 7은 본 발명의 실시 예에 따른, 인공지능 기기의 동작 모드를 설정하는 방법을 설명하기 위한 도면이다.

용어 인공지능 기기(100)는 용어 인공지능 장치(100)와 혼용되어 사용될 수 있다.

인공지능 기기 (100)는 제1 기동어에 의하여 호출될 수 있다.

여기서 인공지능 기기 (100)가 호출된다는 것의 의미는, 전자기기가 명령 대기 상태로 진입하는 것을 의미할 수 있다.

여기서 명령 대기 상태란, 음향이 수신되는 경우 수신된 음향을 처리함으로써, 음향에 포함된 명령어를 인식할 수 있는 상태를 의미할 수 있다.

구체적으로 인공지능 기기(100)는 평소에 호출 대기 상태로 동작하게 된다. 그리고, 호출 대기 상태에서 음향이 수신되면, 인공지능 장치(100)는 음향을 음성 인식 엔진을 이용하여 처리함으로써 음향에 기동어가 포함되는지 판단하게 된다.

그리고 인공지능 장치(100)는 음향에 제1 기동어가 포함되어 있으면 명령 대기 상태로 동작하고, 음향에 기동어가 포함되어 있지 않으면 호출 대기 상태를 그대로 유지하게 된다.

한편 프로세서(180)는 입력부(120)를 통하여 음성 입력을 수신할 수 있다.

그리고 프로세서(180)는 수신된 음성 입력에 포함된, 인공지능 기기를 호출하는 제1 기동어를 인식할 수 있다.

예를 들어 사용자가 제1 기동어 “하이 에이전트”를 부른 경우, 인공지능 기기(100)는 제1 기동어 “하이 에이전트”를 포함하는 음성 입력을 수신하고 음성 입력의 인식을 통해 음성 입력에 제1 기동어 “하이 에이전트”가 포함된 것으로 판단할 수 있다.

그리고 제1 기동어가 인식되면, 프로세서(180)는 명령 대기 상태로 동작할 수 있다.

한편 인공지능 기기를 호출하는 제1 기동어가 인식된 후 동작 모드를 설정하는 제2 기동어가 수신되면, 프로세서(180)는 상호 작용 모드로 동작할 수 있다.

구체적으로 프로세서는 제1 기동어가 인식된 후 동작 모드를 설정하는 제2 기동어가 인식되는지 결정할 수 있다. 여기서 제2 기동어로 인식될 수 있는 용어는 메모리에 기 저장되어 있을 수 잇다.

그리고 제1 기동어가 인식된 후 동작 모드를 설정하는 제2 기동어가 인식되면, 프로세서는 상호 작용 모드로 동작할 수 있다.

여기서 제2 기동어는, 인공지능 기기의 동작 모드를 일반 모드가 아닌 상호 작용 모드로 설정하는 용어일 수 있다. 또한 제2 기동어는, 상호 작용 모드에 포함되는 복수의 세부 모드 중 어느 하나를 지정하는 용어일 수 있다.

상호 작용 모드는 복수의 세부 모드를 포함할 수 있다. 구체적으로 상호 작용 모드는, 대화 모드, 다중 요청 모드, 비밀 모드, 어플리케이션 설정 모드 및 특정 기기 호출 모드 중 적어도 하나를 포함할 수 있다.

한편 제1 기동어가 인식된 후 연속적으로 제2 기동어가 인식되면, 프로세서는 상호작용 모드로 동작할 수 있다.

구체적으로 제1 기동어가 인식된 후 기 설정된 시간 이내에 제2 기동어가 인식되거나, 제1 기동어가 인식된 후 명령어의 인식 없이 제2 기동어가 인식되거나, 제1 기동어가 인식된 후 명령어의 인식 없이 기 설정된 시간 이내에 제2 기동어가 인식되는 경우, 프로세서는 상호 작용 모드로 동작할 수 있다.

반면에, 제1 기동어가 인식된 후 기 설정된 시간이 경과한 후에 제2 기동어가 인식되거나, 제1 기동어가 인식된 후 명령어가 인식되고 그리고 나서 제2 기동어가 인식되는 경우, 프로세서는 상호 작용 모드로 동작하지 않을 수 있다.

즉 본 발명에 따르면, 제1 기동어가 인식된 후 연속적으로 제2 기동어가 인식되면 상호 작용 모드로 동작함으로써, 상호 작용 모드를 이용하고자 하는 사용자의 의사가 분명할 때에만 상호 작용 모드를 제공하고 각종 오 작동을 방지할 수 있다.

한편 제1 기동어가 인식된 후 제1 명령어가 수신되면, 프로세서(180)는 일반 모드로 동작할 수 있다.

여기서 일반 모드는, 도 6에서 설명한 종래 기술의 동작과 동일할 수 있다.

즉 프로세서는 제1 기동어가 인식된 후 제1 명령어가 수신되면 일반 모드로 동작하여 제1 명령어를 처리할 수 있다. 그리고 제1 명령어를 처리한 후 제1 기동어가 인식되고 제1 기동어가 인식된 후 제2 명령어가 수신되면, 프로세서는 제2 명령어를 처리할 수 있다.

한편 명령어는 서비스의 요청 및 답변의 요청 중 적어도 하나를 포함할 수 있다.

예를 들어 “음악 틀어줘”는 음악을 재생하는 서비스의 요청일 수 있다. 다른 예를 들어 “오늘 날씨가 어때?”는 답변의 요청일 수 있다.

한편 명령어를 처리한다는 것의 의미는, 명령어에 대응하는 서비스의 수행, 명령어에 대응하는 서비스의 수행 후 수행 결과 출력, 답변의 출력 중 적어도 하나를 포함할 수 있다.

또한 명령어에 대응하는 응답을 출력한다는 것의 의미는, 명령어에 대응하는 서비스의 수행 후 수행 결과 출력 및 답변의 출력 중 적어도 하나를 포함할 수 있다.

한편 제1 기동어가 인식된 후 연속적으로 제1 명령어가 수신되면, 프로세서는 일반 모드로 동작하여 제1 명령어를 처리할 수 있다.

구체적으로 제1 기동어가 인식된 후 기 설정된 시간 이내에 제1 명령어가 수신되면, 프로세서는 일반 모드로 동작하여 제1 명령어를 처리할 수 있다.

반면에, 제1 기동어가 인식된 후 기 설정된 시간이 경과한 후에 제1 명령어가 수신되거나 제1 명령어가 수신되지 않으면, 프로세서는 음성 인식 기능을 제공하지 않을 수 잇다.

한편 제1 기동어가 인식된 후 동작 모드를 설정하는 제2 기동어가 인식되면, 프로세서는 상호 작용 모드로 동작하고, 제2 기동어가 나타내는 동작 모드에 따라 제2 기동어 이후에 수신되는 하나 이상의 명령어를 처리할 수 있다.

상호 작용 모드에 대해서는 도 8 내지 11에서 구체적으로 설명한다.

도 8은 본 발명의 실시 예에 따른 대화 모드를 설명하기 위한 도면이다.

대화 모드는, 이전 대화(이전의 명령어 및 응답)를 고려하여 명령어를 처리하는 모드로써, 사용자와의 상호 대화를 유도할 수 있는 모드일 수 있다.

프로세서는 제1 기동어(811)가 인식된 후 대화 모드에 대응하는 제2 기동어(812)를 인식할 수 있다.

구체적으로 제2 기동어는 복수의 용어를 포함할 수 있으며, 복수의 용어는 대화 모드에 대응하는 용어를 포함할 수 있다. 예를 들어 제2 기동어는 “대화 모드 시작”이라는 용어를 포함할 수 있다.

이 경우 “대화 모드 시작”이라는 용어가 인식되면, 프로세서는 제2 기동어가 수신된 것으로 결정할 수 있으며, 또한 상호 작용 모드 중 대화 모드로 동작할 것을 결정할 수 있다.

한편 제1 기동어(811)가 인식된 후 대화 모드에 대응하는 제2 기동어(812)가 인식되면, 프로세서는 제2 기동어(812)가 인식된 이후에 수신된 제3 명령어(830)에 대응하는 응답(840)을 출력할 수 있다.

구체적으로 제1 기동어(811)가 인식된 후 대화 모드에 대응하는 제2 기동어(812)가 인식되면, 프로세서는 대화 모드로 설정되었음을 나타내는 응답(820)을 출력할 수 있다.

그리고 나서 제3 명령어(830)가 수신되면, 프로세서는 제3 명령어(830)에 대응하는 응답(840)을 출력할 수 있다.

또한 제3 명령어(830)에 대응하는 응답(840)을 출력한 후에 새로운 제4 명령어(850)가 수신되면, 프로세서는 새로운 제4 명령어(850)에 대응하는 응답(860)을 출력할 수 있다.

구체적으로 대화 모드에서, 명령어를 처리한 후 음성 대기 기간 이내에 다음 명령어가 수신되면, 프로세서는 기동어의 입력 없이 다음 명령어를 처리할 수 있다.

예를 들어 대화 모드에서, 제3 명령어(830)에 대응하는 응답(840)을 출력한 후 음성 대기 기간 이내에 제4 명령어(850)가 수신되면, 프로세서는 제1 기동어가 입력되지 않아도 제4 명령어(850)를 처리할 수 있다.

여기서 음성 대기 기간은 명령어를 처리한 후 명령 인식 기능의 활성화를 유지하는 기간일 수 있다. 즉 명령어를 처리한 후 음성 대기 기간이 경과하면, 프로세서는 명령 인식 기능을 비활성화 할 수 있다.

한편 대화 모드에서의 음성 대기 기간은, 일반 모드에서의 음성 대기 기간보다 길 수 있다.

예를 들어 일반 모드에서는, 명령어를 처리한 후 5초의 음성 대기 기간이 경과하면, 프로세서는 명령 인식 기능을 비활성화한다. 따라서 명령어를 처리한 후 5초의 음성 대기 기간이 경과하면, 사용자는 다시 제1 기동어를 발화한 후 다음 명령어를 입력해야 한다.

다만 대화 모드에서는, 명령어를 처리한 후 30초의 음성 대기 기간이 경과하면, 프로세서는 명령 인식 기능을 비활성화 할 수 있다. 따라서 명령어를 처리한 이후에도 30초 동안은, 사용자는 다시 제1 기동어를 발화할 필요 없이 다음 명령어를 입력해도 된다.

한편 프로세서는 사용자와 인공지능 기기의 대화, 즉 명령어 및 응답을 데이터베이스에 저장할 수 있다. 여기서 데이터베이스는 인공지능 기기의 메모리에 탑재되거나, 서버의 메모리에 탑재될 수 있다.

한편 제3 명령어(830)에 대응하는 응답(840)을 출력한 후에 새로운 제4 명령어(850)가 수신되면, 프로세서는 이전의 대화를 고려하여 제4 명령어(850)에 대한 응답을 출력할 수 있다.

여기서 이전의 대화라 함은, 제1 기동어(811) 및 제2 기동어(812)가 수신된 이후 현재까지의 명령어 및 응답의 일부 또는 전부일 수 있다.

또한 이전의 대화를 고려한다는 것의 의미는, 이전의 대화의 문맥을 고려하여 명령어를 처리한다는 것을 의미할 수 있다.

구체적으로 제3 명령어(830)에 대응하는 응답(840)을 출력한 후에 새로운 제4 명령어(850)가 수신되면, 프로세서는 새로운 제4 명령어(850)에 대응하고 제3 명령어(830) 및 제3 명령어에 대응하는 응답(840) 중 적어도 하나와 관련된 응답(860)을 출력할 수 있다.

예를 들어 제4 명령어(850)는 “근처 해산물 맛집 알려줘”이다. 그리고 기동어 후에 인식되는 명령어를 독립적으로 처리하던 종래 기술의 방식을 따를 때에는, “근처”의 의미를 해석하지 못하거나, 현재 위치 근처로 해석할 것이다.

다만 대화 모드에서는 앞선 대화를 고려하기 때문에, 프로세서는 “근처”의 의미가 “강남역 근처”인 것으로 결정할 수 있다.

그리고 이전의 대화(“강남역에서 친구 모임이 있습니다.”)를 고려하여, 프로세서는 강남역 근처의 음식점을 추천할 수 있다.

같은 방식으로, 제4 명령어(850)에 대응하는 응답(860)을 출력한 후에 새로운 제5 명령어(870)가 수신되면, 프로세서는 새로운 제5 명령어(870)에 대응하고 이전의 대화(830, 840, 850, 860)의 일부 또는 전부와 관련된 응답(880)을 출력할 수 있다.

예를 들어 제 5 명령어(870)는 “AA 식당으로 5명 예약 부탁해”이다. 그리고 기동어 후에 인식되는 명령어를 독립적으로 처리하던 종래 기술의 방식을 따를 때, 프로세서는 AA 식당이 체인인 경우 어느 지역의 AA 식당을 의미하는 것인지 해석하지 못하며, 예약을 해야 하는 시간을 알지 못한다.

다만 대화 모드에서는 앞선 대화를 고려하기 때문에, 프로세서는 강남역 근처의 AA 식당으로 오후 7시에 예약을 수행할 수 있다.

이와 같이 대화 모드에 따르면, 대화 중간에 기동어를 입력할 필요 없이, 앞선 대화의 문맥을 고려하여 음성 인식 서비스를 제공하기 때문에, 사용자와 자연스럽고도 연속적인 의사 소통이 가능한 장점이 있다.

또한 대화 모드에 따르면, 음성 대기 기간을 연장시켜 대화에 필요한 충분한 시간을 확보함으로써, 매번 기동어를 입력할 필요 없이 대화의 형식으로 음성 에이전트와 대화를 하려고 하는 사용자의 욕구를 충족시킬 수 있는 장점이 있다.

한편 대화 모드에서 종료 명령어(890)가 수신되면, 프로세서는 대화 모드를 종료할 수 있다.

이 외에도 음성 대기 기간이 종료하면, 프로세서는 대화 모드를 종료할 수 있다.

추가적으로, 명령어를 처리한 후 일정 시간 동안 추가적인 명령어가 수신되지 않으면, 프로세서는 대화 종료를 문의하는 메시지를 출력할 수 있다. 그리고 대화 종료를 수락하는 명령어가 수신되면, 프로세서는 대화 모드를 종료할 수 있다.

도 9는 본 발명의 실시 예에 따른 다중 요청 모드를 설명하기 위한 도면이다.

다중 요청 모드는, 복수의 명령어를 일괄적으로 수신하고 복수의 명령어에 대한 처리를 일괄적으로 수행하는 모드일 수 있다.

프로세서는 제1 기동어(911)가 인식된 후 다중 요청 모드에 대응하는 제2 기동어(912)를 인식할 수 있다.

구체적으로 제2 기동어는 복수의 용어를 포함할 수 있으며, 복수의 용어는 다중 요청 모드에 대응하는 용어를 포함할 수 있다. 예를 들어 제2 기동어는 “다중 요청 모드 시작”이라는 용어를 포함할 수 있다.

이 경우 “다중 요청 모드 시작”이라는 용어가 인식되면, 프로세서는 제2 기동어가 수신된 것으로 결정할 수 있으며, 또한 상호 작용 모드 중 다중 요청 모드로 동작할 것을 결정할 수 있다.

한편 제1 기동어(911)가 인식된 후 다중 요청 모드에 대응하는 제2 기동어(912)가 인식되고, 제2 기동어가 인식된 이후에 제5 명령어 및 제6 명령어가 수신되면, 프로세서는 제5 명령어 및 제6 명령어가 수신된 이후에 제5 명령어에 대응하는 응답 및 제6 명령어에 대응하는 응답을 출력할 수 있다.

이 경우 제2 기동어가 인식된 후에 일괄적으로 입력 가능한 명령어의 수는 두개 뿐만 아니라 세개 이상일 수 있다.

예를 들어 제1 기동어(911)가 인식된 후 다중 요청 모드에 대응하는 제2 기동어(912)가 인식되고, 제2 기동어(912)가 인식된 이후에 제5 명령어(931), 제6 명령어(932) 및 제7 명령어(933)가 순차적으로 수신되면, 프로세서는 제5 명령어(931), 제6 명령어(932) 및 제7 명령어(933)가 수신된 이후에 제5 명령어에 대응하는 응답(941), 제6 명령어에 대응하는 응답(942) 및 7 명령어에 대응하는 응답(943)을 순차적으로 출력할 수 있다.

이 경우 프로세서는 제7 명령어(933)가 수신되고 기 설정된 시간이 경과하면 모든 명령어가 수신된 것으로 결정하고, 수신된 복수의 명령어를 처리할 수 있다.

한편 제1 기동어(911)가 인식된 후 다중 요청 모드에 대응하는 제2 기동어(912)가 인식되고, 제2 기동어가 인식된 이후에 복수의 명령어가 수신되면, 프로세서는 복수의 명령어 각각에 포함되는 식별 명령어를 이용하여 복수의 명령어를 구분할 수 있다.

구체적으로 프로세서는 제5 명령어(931)에 포함되는 제1 식별 명령어 및 제6 명령어(932)에 포함되는 제2 식별 명령어를 이용하여 제5 명령어 및 제6 명령어를 구분할 수 있다.

예를 들어 프로세서는, 제5 명령어(931)에 포함되는 “첫번째”와 제6 명령어(932)에 포함되는 “두번째”라는 용어를 이용하여, “첫번째”와 “두번째” 사이의 음성이 제5 명령어(931)에 해당한 다는 것을 인식할 수 있다.

또한 프로세서는, 제6 명령어(932)에 포함되는 “두번째”라는 용어를 이용하여, “두번째”이후의 음성이 제6 명령어(932)에 해당한 다는 것을 인식할 수 있다.

만약 제 7 명령어(933)가 추가적으로 수신되면, 프로세서는 제 7 명령어(933)에 포함되는 “마지막으로”라는 용어를 이용하여, 제6 명령어(932)와 제7 명령어(933)을 구분하고 “마지막으로” 이후의 음성이 제 7 명령어(933)에 해당한 다는 것을 인식할 수 있다.

한편 다중 요청 모드에서는, 기동어의 입력 없이 복수의 명령어가 연속적으로 수신되어도, 프로세서는 복수의 명령어를 처리할 수 있다.

구체적으로 다중 요청 모드에서, 명령어가 수신된 후 기 설정된 시간 이내에 다음 명령어가 수신되면, 프로세서는 기동어의 입력 없이 명령어 및 다음 명령어를 처리할 수 있다.

예를 들어 다중 요청 모드에서, 제5 명령어(931)이 수신된 후 음성 대기 기간 이내에 제6 명령어(932)가 수신되고, 제6 명령어(932)가 수신된 후 음성 대기 기간 이내에 제7 명령어(933)가 수신되면, 프로세서는 앞서 제1 기동어(911)가 입력된 후 추가적으로 제1 기동어가 입력되지 않아도, 제5 명령어(931), 제6 명령어(932) 및 제7 명령어(933)를 처리할 수 있다.

구체적으로 프로세서는 명령어 및 응답을 스피치 투 텍스트(Speech To Text, STT) 변환하여 데이터베이스에 저장할 수 있다.

이 경우 프로세서는 명령어에, 명령어에 대응하는 응답 및 명령어 포함되는 식별 명령어를 매칭한 매칭 정보를 저장할 수 있다.

예를 들어 프로세서는 제5 명령어에, 제5 명령어에 대응하는 응답 및 제5 명령어에 포함되는 제1 식별 명령어를 매칭한 매칭 정보를 저장할 수 있다.

한편 다중 요청 모드에서, 복수의 명령어 중 어느 하나의 명령어에 대한 추가 응답 요청이 수신되면, 프로세서는 추가 응답 요청이 수신된 명령어와 관련된 추가 응답을 출력할 수 있다.

구체적으로 제5 명령어(931), 제6 명령어(932) 및 제7 명령어(933) 중 제5 명령어(931)에 대한 추가 응답 요청(950)이 수신되면, 프로세서는 저장된 제5 명령어(931)를 이용하여 추가 응답 요청(950)에 대응하고 제5 명령어(950)와 관련된 추가 응답(960)을 출력할 수 있다.

한편 추가 응답 요청(950)은, 추가 응답의 대상이 되는 명령어에 포함되는 식별 명령어를 포함할 수 있다.

구체적으로 제5 명령어(931)에 대한 추가 응답 요청은, 제5 명령어(931)에 포함되는 제1 식별 명령어(“첫번 째”)를 포함할 수 있다.

그리고 제1 식별 명령어(“첫번 째”)를 포함하는 추가 응답 요청(950)이 수신되면, 프로세서는 저장된 제5 명령어(931)를 이용하여 제5 명령어와 관련된 추가 응답(960)을 출력할 수 있다.

한편 추가 응답 요청(950)이 수신되면, 프로세서는 추가 응답의 대상이 되는 명령어 또는 추가 응답의 대상이 되는 명령어에 대응하는 응답을 고려하여 추가 응답 요청(950)에 대한 응답을 출력할 수 있다.

구체적으로, 제5 명령어(931), 제6 명령어(932) 및 제7 명령어(933) 중 제5 명령어(931)에 대한 추가 응답 요청(950)이 수신되면, 프로세서는 저장된 제5 명령어(931) 및 제5 명령어에 대한 응답(941) 중 적어도 하나의 의미를 고려하여, 추가 응답 요청(950)을 처리할 수 있다.

예를 들어 제5 명령어(931)에는 “오늘 미팅 스케쥴”이라는 용어가 포함되고, 제5 명령어에 대한 응답(940)에는 “2시”라는 용어가 포함된다.

그리고 참석자들에게 리마인더를 발송해달라는 추가 응답 요청(950)이 수신되면, 프로세서는 제5 명령어(931) 및 제5 명령어에 대한 응답(940)을 고려하여 미팅 참석자에게 미팅이 2시에 열린다는 메시지를 전송하고 처리 결과를 출력할 수 있다.

한편 명령어를 처리한 후 음성 대기 기간 이내에 다음 명령어가 수신되면, 프로세서는 기동어의 입력 없이 다음 명령어를 처리할 수 있다.

예를 들어 다중 요청 모드에서, 제5 명령어 및 제6 명령어가 수신되어 제5 명령어 및 제6 명령어를 처리하고, 제5 명령어 및 제6 명령어를 처리한 후에 음성 대기 기간 이내에 제8 명령어가 수신되면, 프로세서는 제1 기동어의 입력 없이 제8 명령어를 처리할 수 있다.

한편 다중 요청 모드에서의 음성 대기 기간은, 일반 모드에서의 음성 대기 기간보다 길 수 있다.

다만 다중 요청 모드에서는, 명령어를 처리한 후 30초의 음성 대기 기간이 경과하면, 프로세서는 명령 인식 기능을 비활성화 할 수 있다. 따라서 명령어를 처리한 이후에도 30초 동안은, 사용자는 다시 제1 기동어를 발화할 필요 없이 다음 명령어를 입력해도 된다.

이와 같이 다중 요청 모드에 따르면, 대화 중간에 기동어를 입력할 필요 없이 복수의 명령어의 입력 및 응답이 이루어 지기 때문에, 사용자와 자연스럽고도 연속적인 의사 소통이 가능한 장점이 있다.

또한 다중 요청 모드에 따르면, 음성 대기 기간을 연장시켜 대화에 필요한 충분한 시간을 확보함으로써, 매번 기동어를 입력할 필요 없이 대화의 형식으로 음성 에이전트와 대화를 하려고 하는 사용자의 욕구를 충족시킬 수 있는 장점이 있다.

한편 다중 요청 모드에서 종료 명령어(970)가 수신되면, 프로세서는 다중 요청 모드를 종료할 수 있다.

이 외에도 음성 대기 기간이 종료하면, 프로세서는 다중 요청 모드를 종료할 수 있다.

추가적으로, 명령어를 처리한 후 일정 시간 동안 추가적인 명령어가 수신되지 않으면, 프로세서는 대화 종료를 문의하는 메시지를 출력할 수 있다. 그리고 대화 종료를 수락하는 명령어가 수신되면, 프로세서는 다중 요청 모드를 종료할 수 있다.

또한 다중 요청 모드가 종료되면, 프로세서는 제1 기동어 및 제2 기동어의 수신 후 사용자와 인공지능 기기의 대화(명령어 및 응답)을 데이터베이스에서 삭제할 수 있다.

도 10은 본 발명의 실시 예에 따른 특정 기기 호출 모드를 설명하기 위한 도면이다.

특정 기기 호출 모드는, 사용자에 의해 지명된 가전 기기만을 활성화 시키는 모드일 수 있다.

프로세서는 제1 기동어(1011)가 인식된 후 특정 기기 호출 모드에 대응하는 제2 기동어(1012)를 인식할 수 있다.

구체적으로 제2 기동어는 복수의 용어를 포함할 수 있으며, 복수의 용어는 특정 기기 호출 모드에 대응하는 용어를 포함할 수 있다.

한편 제1 기동어(1011)가 인식된 후 특정 기기 호출 모드에 대응하는 제2 기동어(1012)가 인식되면, 프로세서는 제2 기동어가 나타내는 가전 기기의 음성 에이전트를 활성화 시킬 수 있다.

구체적으로 인공 지능 기기(100)는 하나의 공간(예를 들어 집, 사무실)에 배치되는 복수의 가전 기기(1000, 1100, 1200)와 통신할 수 있다.

그리고 복수의 가전 기기(1000, 1100, 1200)은, 음성 에이전트의 기능을 수행할 수 있다. 복수의 가전 기기(1000, 1100, 1200)가 수행하는 음성 에이전트의 기능에는, 앞서 설명한 인공 지능 기기(100)의 설명이 적용될 수 있다.

그리고 제1 기동어(1011)가 인식된 후 특정 기기 호출 모드에 대응하는 제2 기동어(1012)가 인식되면, 프로세서는 제2 기동어가 나타내는 가전 기기에 음성 에이전트 활성화 명령을 전송할 수 있다.

예를 들어 제2 기동어(1012)가 공기 청정기(1100)를 나타내는 경우, 프로세서는 공기 청정기(1100)에 음성 에이전트 활성화 명령을 전송할 수 있다.

한편 제2 기동어가 나타내는 가전 기기는 음성 에이전트 활성화 명령을 수신하고, 음성 에이전트를 활성화 하여 명령 대기 상태로 진입할 수 있다.

한편 사용자는 제1 기동어(1011) 및 제2 기동어(1012)를 발화한 이후에 명령어(1013)를 발화할 수 있다.

이 경우 인공지능 기기의 프로세서는 명령어(1013)를 수신하고, 수신된 명령어를 제2 기동어가 나타내는 가전 기기(음성 에이전트가 활성화된 가전 기기)에 전송할 수 있다.

다만 이에 한정되지 않으며, 제2 기동어가 나타내는 가전 기기(음성 에이전트가 활성화된 가전 기기)는 제2 기동어가 나타내는 가전 기기에 탑재된 마이크로폰을 통하여 사용자가 발화한 명령어(1013)를 직접 수신할 수 있다.

한편 명령어(1013)가 수신되면, 제2 기동어가 나타내는 가전 기기는 명령어(1013)에 대응하는 서비스를 제공할 수 있다.

한편 제1 기동어(1011)가 인식된 후 특정 기기 호출 모드에 대응하는 제2 기동어(1012)가 인식되면, 프로세서는 제2 기동어가 나타내는 가전 기기와 다른 가전 기기의 음성 에이전트를 비활성화 시킬 수 있다.

구체적으로 제1 기동어(1011)가 인식된 후 특정 기기 호출 모드에 대응하는 제2 기동어(1012)가 인식되면, 프로세서는 인공지능 기기(100)와 연결된 복수의 가전 기기 중 제2 기동어가 나타내는 가전 기기에 음성 에이전트 활성화 명령을 전송하고 제2 기동어가 나타내는 가전 기기와 다른 가전 기기에 음성 에이전트 비활성화 명령을 전송할 수 있다.

예를 들어 제2 기동어(1012)가 공기 청정기(1100)를 나타내는 경우, 프로세서는 에어컨(1200)에 음성 에이전트 비 활성화 명령을 전송할 수 있다.

제2 기동어가 나타내는 가전 기기와 다른 가전 기기는 음성 에이전트 비 활성화 명령을 수신하고, 음성 에이전트를 비활성화 할 수 있다. 이 경우 제2 기동어가 나타내는 가전 기기와 다른 가전 기기는 명령 대기 상태에서 나갈 수 있다.

이에 따라 사용자가 제1 기동어(1011) 및 제2 기동어(1012)를 발화한 이후에 명령어(1013)를 발화하더라도, 제2 기동어가 나타내는 가전 기기와 다른 가전 기기는 명령어(1013)에 대응하는 서비스를 제공하지 않을 수 있다.

이와 같이 본 발명에 따르면, 복수의 가전 기기에서 명령어를 수신함에 따라 발생할 수 있는 오 작동을 방지할 수 있다. 또한 본 발명에 따르면, 사용자는 간단한 음성 입력(제2 기동어)을 통하여 특정 기기 호출 모드를 설정함과 동시에 명령어를 수신할 가전 기기까지 지정할 수 있는 장점이 있다.

한편 특정 기기 호출 모드에 대응하는 제2 기동어는, 사용자에 의해 설정된, 복수의 가전 기기에 각각 대응하는 복수의 기기 호출어일 수 있다.

구체적으로 사용자는 단말기에 또는 인공지능 기기(100)에, 가전기기에 대응하는 기기 호출어의 설정을 입력할 수 있다. 단말기가 입력을 수신한 경우, 단말기는 인공 지능 기기(100)에 수신된 입력을 전송할 수 있다.

예를 들어 사용자는 제1 공기 청정기의 기기 호출어를 “침실 공기 청정기”, 제2 공기 청정기의 기기 호출어를 “거실 공기 청정기”, 에어컨의 기기 호출어를 “냉방기”로 입력할 수 있다.

이 경우 프로세서는 사용자에 의해 설정된, 복수의 가전 기기에 각각 대응하는 복수의 기기 호출어와 매칭 정보를 데이터베이스에 저장할 수 있다.

예를 들어 프로세서는 “침실 공기 청정기”라는 기기 호출어 및 “침실 공기 청정기”가 제1 공기 청정기를 지칭하는 것임을 나타내는 매칭 정보, “거실 공기 청정기”라는 기기 호출어 및 “거실 공기 청정기”가 제2 공기 청정기를 지칭하는 것임을 나타내는 매칭 정보, “냉방기”라는 기기 호출어 및 “냉방기”가 에어컨을 지칭하는 것임을 나타내는 매칭 정보를 저장할 수 있다.

그리고 제1 기동어 이후에 복수의 기기 호출어 중 어느 하나가 인식되면, 프로세서는 제2 기동어가 수신되었고, 특정 기기 호출 모드에 대응하는 제2 기동어가 인식되었으며, 인식된 기기 호출어에 대응하는 가전기기를 나타내는 제2 기동어가 인식된 것으로 결정할 수 있다.

그리고 프로세서는 인식된 기기 호출어에 대응하는 가전기기의 음성 에이전트를 활성화 시킬 수 있다.

이와 같이 본 발명에 따르면, 사용자는 자신이 사용하기 쉬운 기기 호출어를 직접 설정하고, 직접 설정한 기기 호출어를 발화 하는 것 만으로, 특정 기기 호출 모드를 설정함과 동시에 명령어를 수신할 가전 기기까지 지정할 수 있는 장점이 있다.

도 11은 본 발명의 실시 예에 따른, 비밀 모드를 설명하기 위한 도면이다.

비밀 모드는 대화 기록을 인공 지능 기기 또는 서버에 남기지 않는 모드일 수 있다.

구체적으로 프로세서는 제1 기동어(1111)가 인식된 후 비밀 모드에 대응하는 제2 기동어(1112)를 인식할 수 있다.

구체적으로 제2 기동어는 복수의 용어를 포함할 수 있으며, 복수의 용어는 비밀 모드에 대응하는 용어를 포함할 수 있다. 예를 들어 제2 기동어는 “비밀 모드 시작”이라는 용어를 포함할 수 있다.

이 경우 “비밀 모드 시작”이라는 용어가 인식되면, 프로세서는 제2 기동어가 수신된 것으로 결정할 수 있으며, 또한 상호 작용 모드 중 비밀 모드로 동작할 것을 결정할 수 있다.

한편 프로세서는 사용자와 인공지능 기기의 대화, 즉 명령어 및 응답을 데이터 베이스에 저장할 수 있다. 여기서 데이터베이스는 인공지능 기기의 메모리에 탑재되거나, 서버의 메모리에 탑재될 수 있다.

그리고 제1 기동어(1111)가 인식된 후 비밀 모드에 대응하는 제2 기동어(1112)가 인식되면, 프로세서는 데이터 베이스에 저장된 대화(명령어 및 응답), 즉 사용자의 대화 기록을 삭제할 수 있다.

구체적으로 제1 기동어(1111)가 인식된 후 비밀 모드에 대응하는 제2 기동어(1112)가 인식되면, 프로세서는 사용자와 인공지능 기기의 대화, 즉 명령어 및 응답을 데이터 베이스에 저장할 수 있다. 또한 비밀 모드가 종료되면, 프로세서는 데이터베이스에 저장된 대화, 즉 사용자의 대화 기록을 삭제할 수 있다.

예를 들어 제1 기동어(1111)가 인식된 후 비밀 모드에 대응하는 제2 기동어(1112)가 인식되면, 프로세서는 명령어(1130) 및 명령어(1130)에 대한 응답을 데이터베이스에 저장할 수 있다. 그리고 비밀 모드가 종료되면, 프로세서는 명령어(1130) 및 명령어(1130)에 대한 응답을 데이터베이스로부터 삭제할 수 있다.

이와 같이 본 발명에 따르면, 제2 기동어를 이용하여 음성으로 비밀 모드를 설정할 수 있는 장점이 있다. 이에 따라 개인적인 대화를 간단한 음성 입력으로 노출시키지 않을 수 있다,

한편 어플리케이션 설정 모드는, 음성 인식 에이전트의 설정을 음성 기반으로 할 수 있는 모드일 수 있다.

구체적으로 음성 인식 에이전트의 설정을 조절하기 위한 어플리케이션이 인공지능 기기나 다른 단말기에 설치되어 있을 수 있다.

그리고 프로세서는 제1 기동어가 인식된 후 어플리케이션 설정 모드에 대응하는 제2 기동어를 인식할 수 있다.

그리고 제1 기동어가 인식된 후 어플리케이션 설정 모드에 대응하는 제2 기동어를 인식되면, 프로세서는 어플리케이션 설정 모드로 동작할 수 있다.

이 경우 제2 기동어 후에 명령어가 수신되면, 프로세서는 명령어에 대응하도록 어플리케이션의 설정 기능을 제어할 수 있다. 이에 따라 명령어에 의해 음성 인식 에이전트의 설정이 조절될 수 있다.

이와 같이 본 발명에 따르면, 제2 기동어를 이용하여 음성으로 음성 인식 에이전트의 설정을 조절할 수 있는 장점이 있다.

한편, 상호 작용 모드에서 종료 명령어가 수신되거나 음성 대기 기간이 종료되면, 프로세서는 상호 작용 모드를 종료할 수 있다.

구체적으로 제1 기동어 및 제2 기동어가 인식된 후 하나 이상의 명령어가 수신되면, 프로세서는 수신된 하나 이상의 명령어를 처리할 수 있다. 그리고 나서 종료 명령어(예를 들어 상호 작용 모드 종료할께)가 수신되면, 프로세서는 명령 인식 기능을 비 활성화 할 수 있다.

또한 상호작용 모드에서 명령어를 처리한 후 음성 대기 기간이 경과하면, 프로세서는 명령 인식 기능을 비 활성화 할 수 있다.

그리고 명령 인식 기능이 비 활성화 되고 나서, 인공 지능 기기를 호출하는 제1 기동어가 인식된 후 동작 모드를 설정하는 제2 기동어가 인식되면, 프로세서는 다시 상호 작용 모드로 동작할 수 있다.

또한 명령 인식 기능이 활성화 되고 나서, 인공지능 기기를 호출하는 제1 기동어가 인식된 후 명령어가 인식되면, 프로세서는 일반 모드로 동작할 수 있다.

본 발명에 따르면, 음성(종료 명령어)을 통하여 간단히 상호 작용 모드를 종료하거나, 일정 시간이 지나면 자동으로 상호 작용 모드를 종료함으로써, 타 음향으로 인한 오 인식을 방지할 수 있다.

또한 이후에 사용자가 다시 음성 인식 에이전트를 이용하는 경우에는 제1 기동어 및 제2 기동어를 이용하여 동작 모드를 다시 설정하게 함으로써, 다음에 음성 인식 에이전트를 이용하면서 발생할 수 있는 혼란을 방지할 수 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 단말기의 제어부(180)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

100: 인공지능 기기

Claims

인공지능 기기에 있어서,
음성 입력을 수신하는 입력부; 및
상기 인공지능 기기를 호출하는 제1 기동어가 인식된 후 동작 모드를 설정하는 제2 기동어가 인식되면 상호 작용 모드로 동작하여, 상기 제2 기동어가 나타내는 동작 모드에 따라 상기 제2 기동어 이후에 수신되는 하나 이상의 명령어를 처리하는 프로세서를 포함하는
인공지능 기기.
제 1항에 있어서,
상기 프로세서는,
상기 제1 기동어가 인식된 후 연속적으로 상기 제2 기동어가 인식되면, 상기 상호 작용 모드로 동작하는
인공지능 기기.
제 1항에 있어서,
상기 프로세서는,
상기 제1 기동어가 인식된 후 제1 명령어가 수신되면 일반 모드로 동작하여 상기 제1 명령어를 처리하고, 상기 제1 명령어를 처리한 후 상기 제1 기동어가 인식되고 상기 제1 기동어가 인식된 후 제2 명령어가 수신되면 상기 제2 명령어를 처리하는
인공지능 기기.
제 1항에 있어서,
상기 프로세서는,
상기 제1 기동어가 인식된 후 대화 모드에 대응하는 상기 제2 기동어가 인식되면, 상기 제2 기동어가 인식된 이후에 수신된 제3 명령어에 대응하는 응답을 출력하고, 상기 제3 명령어에 대응하는 응답을 출력한 후에 새로운 제4 명령어가 수신되면, 상기 새로운 제4 명령어에 대응하고 상기 제3 명령어 및 상기 제3 명령어에 대응하는 응답 중 적어도 하나와 관련된 응답을 출력하는
인공지능 기기.
제 4항에 있어서,
상기 프로세서는,
상기 대화 모드에서, 상기 제3 명령어를 처리한 후 음성 대기 기간 이내에 상기 제4 명령어가 수신되면, 상기 제1 기동어의 입력 없이 상기 제4 명령어를 처리하고,
상기 대화 모드에서의 상기 음성 대기 기간은,
상기 일반 모드에서의 음성 대기 기간보다 긴
인공지능 기기.
제 1항에 있어서,
상기 프로세서는,
상기 제1 기동어가 인식된 후 다중 요청 모드에 대응하는 상기 제2 기동어가 인식되고, 상기 제2 기동어가 인식된 이후에 제5 명령어 및 제6 명령어가 수신되면, 상기 제5 명령어 및 상기 제6 명령어가 수신된 이후에 상기 제5 명령어에 대응하는 응답 및 상기 제6 명령어에 대응하는 응답을 출력하는
인공지능 기기.
제 6항에 있어서,
상기 프로세서는,
상기 제5 명령어에 포함되는 제1 식별 명령어 및 상기 제6 명령어에 포함되는 제2 식별 명령어를 이용하여 상기 제5 명령어 및 상기 제6 명령어를 구분하는
인공지능 기기.
제 7항에 있어서,
상기 프로세서는,
상기 제1 식별 명령어를 포함하는 추가 응답 요청이 수신되면, 저장된 상기 제5 명령어를 이용하여 상기 추가 응답 요청에 대응하고 상기 제5 명령어와 관련된 추가 응답을 출력하는
인공지능 기기.
제 6항에 있어서,
상기 프로세서는,
상기 다중 요청 모드에서, 상기 제5 명령어 및 상기 제6 명령어를 처리한 후 음성 대기 기간 이내에 제7 명령어가 수신되면, 상기 제1 기동어의 입력 없이 상기 제7 명령어를 처리하고,
상기 다중 요청 모드에서의 상기 음성 대기 기간은,
상기 일반 모드에서의 음성 대기 기간보다 긴
인공지능 기기.
제 1항에 있어서,
상기 프로세서는,
상기 상호 작용 모드에서 종료 명령어가 수신되거나 음성 대기 기간이 종료하면, 상기 상호 작용 모드를 종료하는
인공지능 기기.
제 1항에 있어서,
상기 프로세서는,
상기 제1 기동어가 인식된 후 특정 기기 호출 모드에 대응하는 상기 제2 기동어가 인식되면, 상기 제2 기동어가 나타내는 가전 기기의 음성 에이전트를 활성화 시키고, 상기 제2 기동어가 나타내는 가전 기기와 다른 가전기기의 음성 에이전트를 비 활성화 시키는
인공지능 기기.
제 11항에 있어서,
상기 특정 기기 호출 모드에 대응하는 상기 제2 기동어는,
사용자에 의해 설정된, 복수의 가전 기기에 각각 대응하는 복수의 기기 호출어를 포함하는
인공지능 기기.
제 1항에 있어서,
상기 프로세서는,
상기 제1 기동어가 인식된 후 비밀 모드에 대응하는 상기 제2 기동어가 인식되면, 사용자의 대화 기록을 삭제하는
인공지능 기기.