WO2019190082A1

WO2019190082A1 - 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템

Info

Publication number: WO2019190082A1
Application number: PCT/KR2019/002908
Authority: WO
Inventors: 박연묵
Original assignee: 박연묵
Priority date: 2018-03-29
Filing date: 2019-03-13
Publication date: 2019-10-03
Also published as: KR20190119195A

Abstract

본 발명은 인공지능 스마트 디바이스에 관한 것으로서, 케이스부; 상기 케이스부에 설치되며, 외부로부터 음성을 수신하는 마이크부; 상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및 상기 케이스부에 설치되며, 단말기로 상기 제어명령을 전송하며, 외부의 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함한다. 본 발명에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기를 음성을 통해 효과적으로 제어할 수 있다.

Description

인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템

본 발명은 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템에 관한 것이다.

최근 스마트폰 및 태블릿 PC, 데스크탑 PC, PMP(portable multimedia player), MP3 플레이어, 또는 웨어러블 장치(wearable device) 등의 전자 장치가 사용자에게 널리 보급되고 있으며, 사용자는 이러한 다양한 전자 장치를 통하여 다양한 컨텐츠를 접할 수 있다.

특히, 최근에는 AI(Artificial Intellignet) 스피커로 불리우는 음성인식 가능한 스피커가 개발되었다. AI 스피커는 사용자의 음성을 인식하여 음악을 재생할 뿐만 아니라, 각종 정보를 사용자에게 제공하고, 음성에 따라 무선으로 연결된 외부장치를 제어하는 다양한 기능을 수행할 수 있다.

그러나 상술한 AI 스피커는 음성을 수신하는 마이크가 오디오를 출력하는 스피커와 함께 일체되기 때문에, 사용자가 AI 스피커로부터 멀리 떨어진 상태에서 스피커에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다.

또한, 상술한 AI 스피커는 특정한 음악제공업체에서 제공하는 음악서비스를 필수적으로 이용해야 하므로, AI 스피커를 사용하는 경우 사용자는 자신의 단말기 또는 외부장치에 저장된 음악파일을 AI 스피커를 통해 재생할 수 없다는 문제가 있다.

본 발명의 목적은 상술한 종래의 문제점을 해결하기 위한 것으로, 단말기 및 기타 장치를 음성으로 제어하되 스피커와 물리적으로 분리되도록 마련됨으로써 음성인식률을 크게 향상시킬 수 있는 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템을 제공함에 있다.

상기 목적은, 본 발명에 따라, 케이스부; 상기 케이스부에 설치되며, 외부로부터 음성을 수신하는 마이크부; 상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및 상기 케이스부에 설치되며, 단말기로 상기 제어명령을 전송하며, 외부의 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스에 의해 달성된다

또한, 상기 제어부는, 서버로부터 데이터를 수신하거나, 상기 서버로 데이터를 송신할 수 있다.

또한, 상기 단말기로 전달되는 제어명령은, 상기 단말기에 설치된 어플리케이션을 제어할 수 있다.

또한, 상기 단말기로 전달되는 제어명령은, 상기 단말기에 설치된 음악 재생 어플리케이션을 제어하여 상기 단말기의 저장장치에 저장된 음악파일을 제어할 수 있다.

또한, 상기 케이스부는, 음성이 집중되는 공간인 집중공간을 형성하며, 상기 마이크부는, 음성의 수신율이 향상되도록 상기 집중공간을 형성하는 저면에 설치될 수 있다.

또한, 상기 케이스부에는, 상기 집중공간의 상면을 마감하는 제1밀폐부와, 탄성재질로 마련되어 상기 집중공간의 상측에 설치되며 상기 제1밀폐부에 의해 상기 케이스부에 고정되는 제1탄성부와, 매쉬재질로 마련되어 상기 집중공간의 상측 또는 하측에 설치되는 매쉬부와, 탄성재질로 마련되어 상기 마이크부 상측에 설치되는 제2탄성부와, 탄성재질로 마련되어 상기 집중공간의 저면에서 설치되며 상기 제2탄성부 및 상기 마이크부가 수용되도록 상기 케이스부에 설치되는 제3탄성부와, 상기 제3탄성부를 감싸듯이 상기 케이스부의 하측에 설치되어 상기 제3탄성부를 상기 케이스부에 고정하는 제2밀폐부가 설치될 수 있다.

상기 목적은, 본 발명에 따라, 단말기; 오디오를 출력하는 스피커; 케이스부와, 상기 케이스부에 설치되며 외부로부터 음성을 수신하는 마이크부와, 상기 케이스부에 설치되며 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부와, 상기 케이스부에 설치되며 상기 단말기로 상기 제어명령을 전송하며 상기 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스; 상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송하는 서버; 및 상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송함으로서 동작되는 외부장치를 포함하는 인공지능 스마트 디바이스를 이용한 음성제어 시스템에 의해 달성된다.

본 발명에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기를 음성을 통해 효과적으로 제어할 수 있다.

또한, 본 발명에 따르면, 단말기 및 기타 외부장치를 음성으로 제어할 수 있다. 이에 따르면, 특정한 음악제공업체에서 제공하는 음악서비스 이외에도 자신의 단말기 또는 외부장치에 저장된 음악파일 등 각종 미디어 파일을 음성으로 제어하여 재생할 수 있고, 스마트 폰을 포함하는 단말기가 음성으로 제공하는 서비스 컨텐츠(단말기 기본적 또는 선택적으로 설치되는 음성 제어 어플리케이션)를 음성으로 제어하는 것이 가능한 효과가 있다.

또한, 본 발명에 따르면, 스마트 폰을 포함하는 단말기, 이외에 기타 다양한 외부장치를 음성으로 용이하게 제어하는 것이 가능하므로, 본 발명을 응용하면, 정보 검색 서비스, 음성 챗봇 서비스, 게임 및 놀이 서비스, 광고 제공 서비스 등 다양한 서비스가 사용자에게 효과적으로 제공될 수 있다.

도 1은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 도시한 것이고,

도 2는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 구성간 전기적인 연결을 도시한 것이고,

도 3은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부의 세부 구조를 도시한 것이고,

도 4는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부에 형성된 집중공간 주변의 세부 구조를 도시한 것이고,

도 5는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 호출어 음성인식을 수행하는 과정을 도시한 것이고,

도 6 및 도 7은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 고립어 음성인식을 수행하는 과정을 도시한 것이고,

도 8은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고,

도 9는 본 발명의 제1변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고,

도 10은 본 발명의 제2변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이다.

이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다.

그리고 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다.

지금부터 첨부한 도면을 참조하여, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스에 대해서 상세히 설명한다.

도 1은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 도시한 것이고, 도 2는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 구성간 전기적인 연결을 도시한 것이고, 도 3은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부의 세부 구조를 도시한 것이고, 도 4는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부에 형성된 집중공간 주변의 세부 구조를 도시한 것이고, 도 5는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 호출어 음성인식을 수행하는 과정을 도시한 것이고, 도 6 및 도 7은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 고립어 음성인식을 수행하는 과정을 도시한 것이고,

도 1 내지 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)는 케이스부(110)와, 마이크부(120)와, 인식부(130)와, 제어부(140)를 포함한다.

케이스부(110)는 후술하는 마이크부(120)와 인식부(130)와 제어부(140)가 설치되는 공간을 제공하는 것으로써, 건물 내 벽, 천장, 책상, 기타 구조물 등에 쉽게 설치될 수 있도록 후면에는 고정가능한 클립 등의 설치수단이 형성된다.

이러한 케이스부(110)의 형상은 직육면체 또는 구형 등으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니며, 후술하는 마이크부(120)와 인식부(130)와 제어부(140)가 설치되는 공간을 제공하는 것이라면, 어떠한 형태로 마련되더라도 무방하다.

도 3에 도시된 바와 같이, 상술한 케이스부(110)에는 집중공간(S)이 형성되며, 집중공간(S)의 저면에는 후술하는 마이크부(120)가 설치된다. 이러한 케이스부(110)의 구조에 따르면, 외부의 음성이 집중공간(S)으로 집중된 후, 마이크부(120)로 입력될 수 있다. 상술한 집중공간(S)에 따르면, 마이크부(120)에서의 음성 수신율이 크게 향상되므로, 케이스부(110)가 발화자로부터 1.5m 이상 멀리 떨어진 위치에 배치되더라도 마이크부(120)에서 음성이 효과적으로 수집될 수 있다.

이러한 마이크부(120)의 설치구조는, 케이스부(110)에 음향출력수단이 탑제되는 경우, 음향출력수단에서 생성되는 음향이 마이크부(120)로 전달되어 노이즈를 야기하는 문제를 효과적으로 해결할 수 있다.

한편, 마이크부(120)가 설치되는 케이스부(110)의 구조는 보다 상세하게, 도 4에 도시된 바와 같다. 집중공간(S)이 형성되는 케이스부(110)에는 제1밀폐부(110a)와, 제1탄성부(110b)와, 매쉬부(110c)와, 제2탄성부(110d)와, 제3탄성부(110e), 제2밀폐부(110f)가 설치된다.

제1밀폐부(110a)는 집중공간(S)의 상측을 마감하는 것으로서, 후술하는 제1탄성부(110b)가 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생하는 내외부의 소음이나 내외부의 충격에 의해 진동되거나 움직이지 않도록 제1탄성부(110b)를 고정시킨다.

제1탄성부(110b)는 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 소음을 1차적으로 흡수 및 차단하고, 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 집중공간(S)을 봉인(Sealing)하고, 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)를 1차적으로 봉인(Sealing)하는 것으로서 실리콘(Silicon), 고무(Rubber), 쿠션(Curshion), 스펀지(Sponge), 포론(Phorone), 에틸렌비닐아세테이트(Ethylene-Vinyl Acetate) 등과 같은 탄성재질로 마련된다.

이러한 제1탄성부(110b)는 집중공간(S)의 상측에 설치되는데, 상술한 제1밀폐부(110a)에 의해서 케이스부(110)에 고정적으로 설치된다. 매쉬부(110c)는 매쉬재질로 마련되어 외부에서 유입되는 먼지, 이물질 등이 마이크부(120)로 유입되는 것을 차단하는 것으로서, 집중공간(S)의 상측 또는 하측에 설치될 수 있다.

제2탄성부(110d)는 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음을 2차적으로 흡수 및 차단하고, 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)를 2차적으로 봉인(Sealing)하며, 후술하는 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)를 2차적으로 봉인(Sealing)하는 것으로서, 실리콘(Silicon), 고무(Rubber), 쿠션(Cushion), 스펀지(Sponge), 포론(Phorone), 에틸렌비닐아세테이트(Ethylene-Vinyl Acetate) 등과 같은 탄성재질로 마련된다. 이러한 제2탄성부(110d)는 마이크부(120) 상측에 설치된다.

제3탄성부(110e)는 후술하는 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음을 1차적으로 흡수 및 차단하고 후술하는 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)를 1차적으로 봉인하는(Sealing) 것으로서, 실리콘(Silicon), 고무(Rubber), 쿠션(Cushion), 스펀지(Sponge), 포론(Phorone), 에틸렌비닐아세테이트(Ethylene-Vinyl Acetate) 등과 같은 탄성재질로 마련된다. 이러한 제3탄성부(110e)는 마이크부(120)가 수용되는 수용공간을 형성하며, 후술하는 제2밀폐부(110f)에 의해서 고정적으로 케이스부(110)에 설치된다.

제2밀폐부(110f)는 제3탄성부(110e)가 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생하는 내외부의 소음이나 내외부의 충격에 의해 진동되거나 움직이지 않도록 제3탄성부(110e)를 고정시키는 것으로서, 제3탄성부(110e)를 감싸듯이 케이스부(110)의 하측면에 설치된다.

상술한 바와 같은 마이크부(120)가 설치되는 케이스부(110)의 구조에 따르면, 집중공간(S)과 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생하는 내외부의 소음이 효과적으로 흡수 및 차단되고, 집중공간(S)과 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)가 봉인(Sealing)될 수 있으므로, 마이크부(120)에서의 음성인식률이 대폭적으로 향상될 수 있다.

한편, 도면에는 도시되지 않았지만, 케이스부(110)에는 마이크부(120)와, 인식부(130)와, 제어부(140)에 전력을 공급하는 배터리부가 설치될 수 있다. 이러한 배터리부는 충전 및 방전이 가능한 리튬 폴리머 전지 또는 리튬 이온 전지 등으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니다. 한편, 배터리부에는 과충전시 충전을 차단하는 과충전 방지 회로가 탑제될 수 있다.

또한, 도면에는 도시되지 않았지만, 케이스부(110)의 외부에는 후술하는 인식부(130) 및 제어부(140)의 상태를 표시하는 표시장치가 설치될 수 있다. 표시장치는 LED 매트릭스 타입으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니며, 인식부(130) 및 제어부(140)의 상태를 표시할 수 있는 것이라면, 어떠한 것으로 마련되더라도 무방하다.

또한, 도면에는 도시되지 않았지만, 케이스부(110)의 외부에는 영상을 촬영하여 영상정보를 생성할 수 있는 카메라모듈이 설치될 수 있고, 케이스부(110)의 내부에는 LTE 통신 등의 위한 통신모듈이 설치될 수 있다.

또한, 도면에는 도시되지 않았지만, 케이스부(110)의 외면에는 전자파를 흡수하여 전기에너지를 생산할 수 있는 에너지하베스팅층이 도포될 수 있다. 이러한 에너지하베스팅층은 상술한 배터리부에 연결되어 케이스부(110) 주변의 전자파를 흡수, 전기에너지로 전환하여 배터리부를 충전할 수 있다.

또한, 도면에는 도시되지 않았지만, 케이스부(110)에는 주변의 광에너지를 흡수하여 전기에너지를 생산할 수 있는 태양 전지 패널이 설치될 수 있다. 이러한 태양 전지 패널은 상술한 배터리부에 연결되어 케이스부(110) 주변의 광을 흡수, 전기에너지로 전환하여 배터리부를 충전할 수 있다.

마이크부(120)는, 외부로부터 음성을 수신하는 것으로써, 상술한 케이스부(110)의 집중공간(S)에 설치되며, 후술하는 인식부(130)에 전기적으로 연결된다. 마이크부(120)에 의해서 수신된 음성은 후술하는 인식부(130)로 전달되어 음성인식이 실시된다.

한편, 상술한 마이크부(120)에는 에코 캔슬(Echo Cancel) 기능 및 잡음 감쇄(Noside Reduction) 기능이 탑제될 수 있다. 이러한 기능을 탑제하는 마이크부(120)에 따르면, 음성 수신율이 더욱 향상될 수 있다.

한편, 마이크부(120)는 보다 상세하게, 기판부(121)와 마이크모듈(122)을 포함할 수 있다. 기판부(121)는 마이크모듈(122)이 설치되며 마이크모듈(122)로 입력되는 음성 정보를 가공하여 후술하는 인식부(130)로 전달하는데, 마이크모듈(122)이 설치되는 기판부(121)의 일측 부분에는 집중공간(S)에서 마이크모듈(122)로 음성이 유입될 수 있도록 관통홀이 형성될 수 있다. 마이크모듈(122)은 외부에서 전달되는 음성을 수신하는 것으로서, 상술한 기판부(121)에 설치된다.

인식부(130)는 상술한 마이크부(120)에서 수신된 음성을 인식하여 제어명령을 생성하는 것으로써, 상술한 케이스부(110)에 설치되며, 상술한 마이크부(120) 및 제어부(140)에 전기적으로 연결된다.

인식부(130)는 상술한 마이크부(120)에서 전달되는 음성을 기초로 호출어 음성인식과 고립어 음성인식을 수행함으로써, 음성을 인식하여 제어명령을 생성한다.

호출어 음성인식이란, 도 5에 도시된 바와 같이, 연속적으로 입력되는 음성신호로부터 미리 정해진 호출어(Keyword)를 검출하는 과정을 의미한다.

호출어 음성인식은 HMM(Hidden Markov Model) 기반의 연속 음성인식 기법을 변형하여 구현되는데, HMM 기반의 연속 음성인식 기법은 간략하게 다음과 같다.

음성신호가 Markov 모델(시간마다 상태를 바꾸는 Finite State Machine)에 의해 발생되면, 학습단계에서 Markov 모델의 파라메터가 추정된다. 이후, 인식부(130)에서는 추정된 파라메터를 이용해서 미지의 입력 음성에 가장 적합한 도델(음소 또는 단어)를 찾는 과정을 실시한다. 미지의 입력 음성에 대해 가장 적합한 모델이 발견되면, 이를 기초로 인식부(130)는 GMM(Gaussian Mixture Model) 및 DNN(Deep Neural Network)를 HMM과 융합해서 호출어를 인식한다.

상술한 호출어 음성인식에 따르면, Task에 무관하게 적은 계산량으로 연속 음성인식 엔진과 유사한 기능을 수행할 수 있는 효과가 있다.

고립어 음성인식이란, 도 6 및 도 7에 도시된 바와 같이, 호출어 음성인식 이후에 실시되는 단계로써, 음성신호로부터 미리 정해진 명령어(Command Word)와 같은 고립어(Isolated Word)를 검출하는 과정을 의미한다.

즉, 고립어 음성인식은 음성신호에서 관측된 값으로부터 확률이 최대가 되는 단어를 찾는 과정을 의미하는데, 이때, 확률은 Bayesian Rule에 의해서 선험확률과 Likelihood에 의해서 결정되며, Likelihood는 HMM(Hidden Markov Model)에서 연산된다.

한편, 여기서, 단어 단위의 고립어 음성인식은 1개의 단어가 1개의 HMM을 구성하므로, 인식 대상 단어가 많아지면, 파라메터의 크기가 단어 개수에 비례하여 증가한다는 문제가 있고, 인식 대상 단어가 변경되면, 음성 데이터를 새로 녹음 및 학습해야 하므로 모든 인식 대상 단어의 음성 데이터가 필요하다는 문제가 있다.

한편, 여기서, 상술한 음소단위 고립어 음성인식은 GMM 및 DNN을 HMM과 융합하여 고립어를 인식하는 과정으로 실시된다. 음소단위 고립어 음성인식은 단어 단위의 고립어 음성인식과 마찬가지로 1개의 음소가 1개의 HMM을 구성하는데, 음소단위 고립어 음성인식은 임의의 단어를 음소 모델 결합으로 구성할 수 있으므로, 인식 대상 단어가 바뀌는 가변 어휘 인식 엔진이 구현 가능하며, 음성 데이터의 양이 적더라고 같은 음소 환경을 갖는 모델들끼리 파라메터를 공유할 수 있으므로 음성 데이터 양이 적어도 되는 이점이 있다.

상술한 바와 같은 호출어 음성인식과 고립어 음성인식을 수행하는 인식부(130)에 따르면, 마이크부(120)에서 수신된 음성을 기초로 후술하는 제어부(140)에 전달될 제어명령이 용이하게 생성될 수 있다.

제어부(140)는 단말기(10)가 각종 기능을 수행할 수 있도록 상술한 인식부(130)로부터 전달되는 제어명령을 단말기(10)로 전송하며, 외부의 스피커(20)에서 오디오 출력이 실시될 수 있도록 스피커(20)로 데이터를 전송하는 하는 것으로써, 상술한 케이스부(110)에 설치되며, 단말기(10)와 스피커(20)에 전기적으로 연결된다.

제어부(140)로부터 전달되는 제어명령을 받은 단말기(10)는 제어명령에 따른 동작을 수행한다. 여기서, 제어명령은 음악재생, 날씨정보 검색, 지도정보 검색 등이 될 수 있다.

예를 들면, 일반적으로 스마트폰 등의 단말기(10)에는 음악재생을 위한 전용 어플리케이션이 설치되는데, 제어부(140)를 통해 단말기(10)로 전달되는 제어명령은 상술한 전용 어플리케이션을 제어하여, 단말기(10)에 내장된 메모리 또는 SD CARD 등에 저장된 음악파일을 재생할 수 있다.

한편, 여기서, 제어명령은 스마트폰 등의 단말기(10)가 제공하는 서비스 콘텐츠, 즉, 안드로이드의 구글 어시스턴스, 애플의 시리 등과 같은 단말기(10) 내에 기본 또는 선택적으로 설치되는 어플리케이션을 제어하는 명령일 수 있다. 이러한 제어명령에 따르면, 스마트폰 등과 같은 단말기(10)에 설치되는 어플리케이션이나 기타 기능 등을 음성으로 보다 효율적으로 제어할 수 있는 효과가 있다.

또한, 여기서, 제어명령은 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등과 같은 외부장치(40)의 내부에 설치되는 IoT(Internet of Things) 제어 어플리케이션 또는 기타 어플리케이션을 제어하는 명령일 수 있다. 이러한 제어명령에 따르면, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등과 같은 외부장치(40)를 음성으로 보다 효율적으로 제어할 수 있는 효과가 있다.

또한, 제어부(140)로부터 전달되는 제어명령을 받은 스피커(20)는 제어명령에 따른 오디오 출력을 실시한다. 여기서, 제어명령은 음악재생, 날씨정보 검색, 지도정보 검색 등이 될 수 있다.

한편, 제어부(140)는 스마트폰 등의 단말기(10)에 블루투스(Bluetooth)와 같은 무선의 방식으로 연결될 수 있고, 일반 스피커에 AUX 단자와 같은 유선단자를 통해 연결될 수 있고, 블루투스(Bluetooth) 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth)와 같은 무선의 방식으로 연결될 수 있고, 와이파이(Wi-Fi) 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있고, 자동차 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth) 또는 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있다.

자동차 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth) 또는 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있다.

한편, 제어부(140)는 Wi-Fi, Hot-Spot 등의 무선의 방법으로 서버(30)에 직접 접속될 수 있다. 이에 따르면, 제어명령이 서버(30)에 직접 전달되며, 서버(30)는 전달된 제어명령을 기초로 데이터를 수집한 후, 이를 기반으로 응답데이터를 생성하고, 이후, 생성된 응답데이터를 제어부(140)로 전송한다. 전송된 응답데이터는 제어부(140)에 연결되는 스피커(20), 차량용 스피커(20) 등을 통해 외부로 출력된다.

또한, 제어부(140)는 무선 또는 유선의 방법으로 외부장치(40)와 연결되어, 제어명령을 외부장치(40)로 전달함으로써 외부장치(40)를 제어할 수 있다. 이러한 외부장치(40)는 예를 들면, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등으로 마련될 수 있다.

종래의 일반적인 AI 스피커(20)는 음성을 수신하는 마이크가 오디오를 출력하는 스피커(20)와 함께 일체되기 때문에, 스피커(20)에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다.

그러나, 상술한 바와 같은 케이스부(110)와, 마이크부(120)와, 인식부(130)와, 제어부(140)를 포함하는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스는(100) 스피커(20)와 별도로 떨어져 있기 때문에, 음성인식률이 크게 개선되며, 이에 따르면, 각종 스마트 기기가 음성을 통해 효과적으로 제어될 수 있다.

또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에 따르면, 마이크부(120)의 설치구조, 인식부(130)의 음성인식 과정에 따라 음성인식률이 크게 개선되므로, 발화자가 1.5m 이상 멀리 떨어져 있다 하더라도, 발화자의 음성이 효과적인 인식될 수 있는 효과가 있다.

또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에 따르면, 단말기(10) 및 기타 외부장치(40)를 음성으로 제어할 수 있다. 이에 따르면, 특정한 음악제공업체에서 제공하는 음악서비스 이외에도 자신의 단말기(10) 또는 외부장치(40)에 저장된 음악파일 등 각종 미디어 파일을 음성으로 제어하여 재생할 수 있다.

지금부터는 첨부한 도면을 참조하여, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템에 대해서 상세히 설명한다.

도 8은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 9는 본 발명의 제1변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 10은 본 발명의 제2변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이다.

도 8 내지 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)은 단말기(10)와 스피커(20)와, 인공지능 스마트 디바이스(100)와, 서버(30)와, 외부장치(40)를 포함한다.

단말기(10)는 스마트 폰 등으로 마련되는 것으로서, 사용자가 휴대가능하도록 마련되는 것일 수 있다. 이러한 단말기(10)는 외부의 클라우드 서버(30)와 연결되어 정보를 수집, 전달하며, 후술하는 인공지능 스마트 디바이스(100)에 무선으로 연결되어 각종 제어명령에 따른 기능, 즉, 음악재생, 정보검색 등을 수행할 수 있다.

스피커(20)는 후술하는 인공지능 스마트 디바이스로부터 전달되는 데이터를 기초로 음악, 음성 등의 오디오를 출력하는 것으로써, 인공지능 스마트 디바이스(100)에 무선 또는 유선의 방법으로 연결된다.

이러한 스피커(20)는 제어부(140)로부터 제어명령을 전달받은 다음, 제어명령에 따른 오디오 출력을 실시하는데, 이때, 오디오 출력에 따른 음악파일은 외부의 서버(30)로부터 스트리밍 방식으로 전달받거나, 내부의 저장공간에 저장된 것일 수 있다.

한편, 여기서, 스피커(20)는 일반 스피커(20), AI 스피커(20), 블루투스 스피커(20), 차량용 스피커(20) 등으로 마련될 수 있다.

인공지능 스마트 디바이스(100)는 케이스부(110)와, 마이크부(120)와, 인식부(130)와, 제어부(140)를 포함하는 것으로서, 세부구성은 상술한 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에서 설명한 구성과 동일한 것이므로 중복 설명은 생략한다.

종래의 일반적인 AI 스피커(20)는 음성을 수신하는 마이크가 오디오를 출력하는 스피커(20)와 함께 일체되기 때문에, 스피커(20)에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다. 그러나, 상술한 바와 같이, 본 발명의 인공지능 스마트 디바이스는 스피커(20)와 별도로 떨어져 있기 때문에, 음성인식률이 크게 개선된다. 따라서, 본 발명에 따르면, 각종 스마트 기기를 음성을 이용하여 효과적으로 제어할 수 있다.

한편, 본 발명의 인공지능 스마트 디바이스(100)는 도 8에 도시된 바와 같이, 음성정보 뿐만 아니라 영상정보도 입력받을 수 있고, 입력되는 영상정보를 이용하여 서버(30), 외부장치(40), 스피커(20) 등을 제어할 수 있도록 마련될 수 있다.

또한, 본 발명의 인공지능 스마트 디바이스(100)는 도 9에 도시된 바와 같이, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등과 같은 외부장치(40)에 설치되는 형태로 마련될 수 도 있다.

서버(30)는 제어부(140)로부터 데이터를 수신하거나, 제어부(140)로 데이터를 전송하는 것으로서, 제어부(140)에서 전달되는 제어명령을 전달받아 정보를 수집하고, 수집된 정보를 기초로 응답데이터를 형성하여 제어부(140)로 전달한다. 여기서, 응답데이터는 음악정보, 날씨정보, 지도정보 등일 수 있다.

외부장치(40)는 제어부(140)로부터 데이터를 수신하거나, 제어부(140)로 데이터를 전송하여 각종 기능을 수행하는 것으로써, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기 등 가전제품 등으로 마련될 수 있다. 이러한 외부장치(40)는 제어부(140)로부터 전달되는 제어명령을 기초로 각종 서비스 제공, 정보전달, 놀이 실시 등의 기능을 수행한다.

상술한 바와 같은 단말기(10)와 스피커(20)와, 인공지능 스마트 디바이스와, 서버(30)와, 외부장치(40)를 포함하는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기가 음성에 따라 효과적으로 제어될 수 있다.

또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)에 따르면, 다양한 외부장치(40)를 음성으로 용이하게 제어하는 것이 가능하므로, 본 발명을 응용하면, 정보 검색 서비스, 음성 챗봇 서비스, 게임 및 놀이 서비스, 광고 제공 서비스 등 다양한 서비스가 사용자에게 효과적으로 제공될 수 있다.

이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

그리고 이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

케이스부;

상기 케이스부에 설치되며, 외부로부터 음성을 수신하는 마이크부;

상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및

상기 케이스부에 설치되며, 상기 단말기가 작동할 수 있도록 상기 단말기로 상기 제어명령을 전송하며, 외부의 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스.
청구항 1에 있어서,

상기 제어부는,

서버로부터 데이터를 수신하거나, 상기 서버로 데이터를 송신하는 것을 특징으로 하는 인공지능 스마트 디바이스.
청구항 1에 있어서,

상기 단말기로 전달되는 제어명령은,

상기 단말기에 설치된 어플리케이션을 제어하는 것을 특징으로 하는 인공지능 스마트 디바이스.
청구항 1에 있어서,

상기 단말기로 전달되는 제어명령은,

상기 단말기에 설치된 음악 재생 어플리케이션을 제어하여 상기 단말기의 저장장치에 저장된 음악파일을 제어하는 것을 특징으로 하는 인공지능 스마트 디바이스.
청구항 1에 있어서,

상기 케이스부는,

음성이 집중되는 공간인 집중공간을 형성하며,

상기 마이크부는,

음성의 수신율이 향상되도록 상기 집중공간을 형성하는 저면에 설치되는 것을 특징으로 하는 인공지능 스마트 디바이스.
청구항 5에 있어서,

상기 케이스부에는,

상기 집중공간의 상면을 마감하는 제1밀폐부와, 탄성재질로 마련되어 상기 집중공간의 상측에 설치되며 상기 제1밀폐부에 의해 상기 케이스부에 고정되는 제1탄성부와, 매쉬재질로 마련되어 상기 집중공간의 상측 또는 하측에 설치되는 매쉬부와, 탄성재질로 마련되어 상기 마이크부 상측에 설치되는 제2탄성부와, 탄성재질로 마련되어 상기 집중공간의 저면에서 설치되며 상기 제2탄성부 및 상기 마이크부가 수용되도록 상기 케이스부에 설치되는 제3탄성부와, 상기 제3탄성부를 감싸듯이 상기 케이스부의 하측에 설치되어 상기 제3탄성부를 상기 케이스부에 고정하는 제2밀폐부가 설치되는 것을 특징으로 하는 인공지능 스마트 디바이스.
단말기;

오디오를 출력하는 스피커;

케이스부와, 상기 케이스부에 설치되며 외부로부터 음성을 수신하는 마이크부와, 상기 케이스부에 설치되며 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부와, 상기 케이스부에 설치되며 상기 단말기로 상기 제어명령을 전송하며 상기 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스;

상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송하는 서버; 및

상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송함으로서 동작되는 외부장치를 포함하는 인공지능 스마트 디바이스를 이용한 음성제어 시스템.