KR20190119195A - 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템 - Google Patents

인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템 Download PDF

Info

Publication number
KR20190119195A
KR20190119195A KR1020180036488A KR20180036488A KR20190119195A KR 20190119195 A KR20190119195 A KR 20190119195A KR 1020180036488 A KR1020180036488 A KR 1020180036488A KR 20180036488 A KR20180036488 A KR 20180036488A KR 20190119195 A KR20190119195 A KR 20190119195A
Authority
KR
South Korea
Prior art keywords
unit
voice
terminal
smart device
speaker
Prior art date
Application number
KR1020180036488A
Other languages
English (en)
Inventor
박연묵
Original Assignee
박연묵
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박연묵 filed Critical 박연묵
Priority to KR1020180036488A priority Critical patent/KR20190119195A/ko
Priority to PCT/KR2019/002908 priority patent/WO2019190082A1/ko
Publication of KR20190119195A publication Critical patent/KR20190119195A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 인공지능 스마트 디바이스에 관한 것으로서, 케이스부; 상기 케이스부에 설치되며, 외부로부터 음성을 수신하는 마이크부; 상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및 상기 케이스부에 설치되며, 단말기로 상기 제어명령을 전송하며, 외부의 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함한다.
본 발명에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기를 음성을 통해 효과적으로 제어할 수 있다.

Description

인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템{ARTIFICIAL INTELLIGENT SMART DEVICE AND VOICE CONTROL SYSTEM USING THE SAME}
본 발명은 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템에 관한 것이다.
최근 스마트폰 및 태블릿 PC, 데스크탑 PC, PMP(portable multimedia player), MP3 플레이어, 또는 웨어러블 장치(wearable device) 등의 전자 장치가 사용자에게 널리 보급되고 있으며, 사용자는 이러한 다양한 전자 장치를 통하여 다양한 컨텐츠를 접할 수 있다.
특히, 최근에는 AI(Artificial Intellignet) 스피커로 불리우는 음성인식 가능한 스피커가 개발되었다. AI 스피커는 사용자의 음성을 인식하여 음악을 재생할 뿐만 아니라, 각종 정보를 사용자에게 제공하고, 음성에 따라 무선으로 연결된 외부장치를 제어하는 다양한 기능을 수행할 수 있다.
그러나 상술한 AI 스피커는 음성을 수신하는 마이크가 오디오를 출력하는 스피커와 함께 일체되기 때문에, 사용자가 AI 스피커로부터 멀리 떨어진 상태에서 스피커에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다.
또한, 상술한 AI 스피커는 특정한 음악제공업체에서 제공하는 음악서비스를 필수적으로 이용해야 하므로, AI 스피커를 사용하는 경우 사용자는 자신의 단말기 또는 외부장치에 저장된 음악파일을 AI 스피커를 통해 재생할 수 없다는 문제가 있다.
본 발명의 목적은 상술한 종래의 문제점을 해결하기 위한 것으로, 단말기 및 기타 장치를 음성으로 제어하되 스피커와 물리적으로 분리되도록 마련됨으로써 음성인식률을 크게 향상시킬 수 있는 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템을 제공함에 있다.
상기 목적은, 본 발명에 따라, 케이스부; 상기 케이스부에 설치되며, 외부로부터 음성을 수신하는 마이크부; 상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및 상기 케이스부에 설치되며, 단말기로 상기 제어명령을 전송하며, 외부의 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스에 의해 달성된다
또한, 상기 제어부는, 서버로부터 데이터를 수신하거나, 상기 서버로 데이터를 송신할 수 있다.
또한, 상기 단말기로 전달되는 제어명령은, 상기 단말기에 설치된 어플리케이션을 제어할 수 있다.
또한, 상기 단말기로 전달되는 제어명령은, 상기 단말기에 설치된 음악 재생 어플리케이션을 제어하여 상기 단말기의 저장장치에 저장된 음악파일을 제어할 수 있다.
또한, 상기 케이스부는, 음성이 집중되는 공간인 집중공간을 형성하며, 상기 마이크부는, 음성의 수신율이 향상되도록 상기 집중공간을 형성하는 저면에 설치될 수 있다.
상기 목적은, 본 발명에 따라, 단말기; 오디오를 출력하는 스피커; 케이스부와, 상기 케이스부에 설치되며 외부로부터 음성을 수신하는 마이크부와, 상기 케이스부에 설치되며 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부와, 상기 케이스부에 설치되며 상기 단말기로 상기 제어명령을 전송하며 상기 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스; 상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송하는 서버; 및 상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송함으로서 동작되는 외부장치를 포함하는 인공지능 스마트 디바이스를 이용한 음성제어 시스템에 의해 달성된다.
본 발명에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기를 음성을 통해 효과적으로 제어할 수 있다.
또한, 본 발명에 따르면, 단말기 및 기타 외부장치를 음성으로 제어할 수 있다. 이에 따르면, 특정한 음악제공업체에서 제공하는 음악서비스 이외에도 자신의 단말기 또는 외부장치에 저장된 음악파일 등 각종 미디어 파일을 음성으로 제어하여 재생할 수 있고, 스마트 폰을 포함하는 단말기가 음성으로 제공하는 서비스 컨텐츠(단말기 기본적 또는 선택적으로 설치되는 음성 제어 어플리케이션)를 음성으로 제어하는 것이 가능한 효과가 있다.
또한, 본 발명에 따르면, 스마트 폰을 포함하는 단말기, 이외에 기타 다양한 외부장치를 음성으로 용이하게 제어하는 것이 가능하므로, 본 발명을 응용하면, 정보 검색 서비스, 음성 챗봇 서비스, 게임 및 놀이 서비스, 광고 제공 서비스 등 다양한 서비스가 사용자에게 효과적으로 제공될 수 있다.
도 1은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 도시한 것이고,
도 2는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 구성간 전기적인 연결을 도시한 것이고,
도 3은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부의 세부 구조를 도시한 것이고,
도 4는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 호출어 음성인식을 수행하는 과정을 도시한 것이고,
도 5 및 도 6은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 고립어 음성인식을 수행하는 과정을 도시한 것이고,
도 7은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고,
도 8은 본 발명의 제1변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고,
도 9는 본 발명의 제2변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이다.
이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다.
그리고 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다.
지금부터 첨부한 도면을 참조하여, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스에 대해서 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 도시한 것이고, 도 2는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 구성간 전기적인 연결을 도시한 것이고, 도 3은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부의 세부 구조를 도시한 것이고, 도 4는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 호출어 음성인식을 수행하는 과정을 도시한 것이고, 도 5 및 도 6은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 고립어 음성인식을 수행하는 과정을 도시한 것이다.
도 1 내지 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)는 케이스부(110)와, 마이크부(120)와, 인식부(130)와, 제어부(140)를 포함한다.
케이스부(110)는 후술하는 마이크부(120)와 인식부(130)와 제어부(140)가 설치되는 공간을 제공하는 것으로써, 건물 내 벽, 천장, 책상, 기타 구조물 등에 쉽게 설치될 수 있도록 후면에는 고정가능한 클립 등의 설치수단이 형성된다.
이러한 케이스부(110)의 형상은 직육면체 또는 구형 등으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니며, 후술하는 마이크부(120)와 인식부(130)와 제어부(140)가 설치되는 공간을 제공하는 것이라면, 어떠한 형태로 마련되더라도 무방하다.
도 3에 도시된 바와 같이, 상술한 케이스부(110)에는 집중공간(S)이 형성되며, 집중공간(S)의 저면에는 후술하는 마이크부(120)가 설치된다. 이러한 케이스부(110)의 구조에 따르면, 외부의 음성이 집중공간(S)으로 집중된 후, 마이크부(120)로 입력될 수 있다. 상술한 집중공간(S)에 따르면, 마이크부(120)에서의 음성 수신율이 크게 향상되므로, 케이스부(110)가 발화자로부터 1.5m 이상 멀리 떨어진 위치에 배치되더라도 마이크부(120)에서 음성이 효과적으로 수집될 수 있다.
이러한 마이크부(120)의 설치구조는, 케이스부(110)에 음향출력수단이 탑제되는 경우, 음향출력수단에서 생성되는 음향이 마이크부(120)로 전달되어 노이즈를 야기하는 문제를 효과적으로 해결할 수 있다.
한편, 도면에는 도시되지 않았지만, 케이스부(110)에는 마이크부(120)와, 인식부(130)와, 제어부(140)에 전력을 공급하는 배터리부가 설치될 수 있다. 이러한 배터리부는 충전 및 방전이 가능한 리튬 폴리머 전지 또는 리튬 이온 전지 등으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니다. 한편, 배터리부에는 과충전시 충전을 차단하는 과충전 방지 회로가 탑제될 수 있다.
또한, 도면에는 도시되지 않았지만, 케이스부(110)의 외부에는 후술하는 인식부(130) 및 제어부(140)의 상태를 표시하는 표시장치가 설치될 수 있다. 표시장치는 LED 매트릭스 타입으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니며, 인식부(130) 및 제어부(140)의 상태를 표시할 수 있는 것이라면, 어떠한 것으로 마련되더라도 무방하다.
또한, 도면에는 도시되지 않았지만, 케이스부(110)의 외부에는 영상을 촬영하여 영상정보를 생성할 수 있는 카메라모듈이 설치될 수 있고, 케이스부(110)의 내부에는 LTE 통신 등의 위한 통신모듈이 설치될 수 있다.
또한, 도면에는 도시되지 않았지만, 케이스부(110)의 외면에는 전자파를 흡수하여 전기에너지를 생산할 수 있는 에너지하베스팅층이 도포될 수 있다. 이러한 에너지하베스팅층은 상술한 배터리부에 연결되어 케이스부(110) 주변의 전자파를 흡수, 전기에너지로 전환하여 배터리부를 충전할 수 있다.
또한, 도면에는 도시되지 않았지만, 케이스부(110)에는 주변의 광에너지를 흡수하여 전기에너지를 생산할 수 있는 태양 전지 패널이 설치될 수 있다. 이러한 태양 전지 패널은 상술한 배터리부에 연결되어 케이스부(110) 주변의 광을 흡수, 전기에너지로 전환하여 배터리부를 충전할 수 있다.
마이크부(120)는, 외부로부터 음성을 수신하는 것으로써, 상술한 케이스부(110)의 집중공간(S)에 설치되며, 후술하는 인식부(130)에 전기적으로 연결된다. 마이크부(120)에 의해서 수신된 음성은 후술하는 인식부(130)로 전달되어 음성인식이 실시된다.
한편, 상술한 마이크부(120)에는 에코 캔슬(Echo Cancel) 기능 및 잡음 감쇄(Noside Reduction) 기능이 탑제될 수 있다. 이러한 기능을 탑제하는 마이크부(120)에 따르면, 음성 수신율이 더욱 향상될 수 있다.
인식부(130)는 상술한 마이크부(120)에서 수신된 음성을 인식하여 제어명령을 생성하는 것으로써, 상술한 케이스부(110)에 설치되며, 상술한 마이크부(120) 및 제어부(140)에 전기적으로 연결된다.
인식부(130)는 상술한 마이크부(120)에서 전달되는 음성을 기초로 호출어 음성인식과 고립어 음성인식을 수행함으로써, 음성을 인식하여 제어명령을 생성한다.
호출어 음성인식이란, 도 4에 도시된 바와 같이, 연속적으로 입력되는 음성신호로부터 미리 정해진 호출어(Keyword)를 검출하는 과정을 의미한다.
호출어 음성인식은 HMM(Hidden Markov Model) 기반의 연속 음성인식 기법을 변형하여 구현되는데, HMM 기반의 연속 음성인식 기법은 간략하게 다음과 같다.
음성신호가 Markov 모델(시간마다 상태를 바꾸는 Finite State Machine)에 의해 발생되면, 학습단계에서 Markov 모델의 파라메터가 추정된다. 이후, 인식부(130)에서는 추정된 파라메터를 이용해서 미지의 입력 음성에 가장 적합한 도델(음소 또는 단어)를 찾는 과정을 실시한다. 미지의 입력 음성에 대해 가장 적합한 모델이 발견되면, 이를 기초로 인식부(130)는 GMM(Gaussian Mixture Model) 및 DNN(Deep Neural Network)를 HMM과 융합해서 호출어를 인식한다.
상술한 호출어 음성인식에 따르면, Task에 무관하게 적은 계산량으로 연속 음성인식 엔진과 유사한 기능을 수행할 수 있는 효과가 있다.
고립어 음성인식이란, 도 5 및 도 6에 도시된 바와 같이, 호출어 음성인식 이후에 실시되는 단계로써, 음성신호로부터 미리 정해진 명령어(Command Word)와 같은 고립어(Isolated Word)를 검출하는 과정을 의미한다.
즉, 고립어 음성인식은 음성신호에서 관측된 값으로부터 확률이 최대가 되는 단어를 찾는 과정을 의미하는데, 이때, 확률은 Bayesian Rule에 의해서 선험확률과 Likelihood에 의해서 결정되며, Likelihood는 HMM(Hidden Markov Model)에서 연산된다.
한편, 여기서, 단어 단위의 고립어 음성인식은 1개의 단어가 1개의 HMM을 구성하므로, 인식 대상 단어가 많아지면, 파라메터의 크기가 단어 개수에 비례하여 증가한다는 문제가 있고, 인식 대상 단어가 변경되면, 음성 데이터를 새로 녹음 및 학습해야 하므로 모든 인식 대상 단어의 음성 데이터가 필요하다는 문제가 있다.
한편, 여기서, 상술한 음소단위 고립어 음성인식은 GMM 및 DNN을 HMM과 융합하여 고립어를 인식하는 과정으로 실시된다. 음소단위 고립어 음성인식은 단어 단위의 고립어 음성인식과 마찬가지로 1개의 음소가 1개의 HMM을 구성하는데, 음소단위 고립어 음성인식은 임의의 단어를 음소 모델 결합으로 구성할 수 있으므로, 인식 대상 단어가 바뀌는 가변 어휘 인식 엔진이 구현 가능하며, 음성 데이터의 양이 적더라고 같은 음소 환경을 갖는 모델들끼리 파라메터를 공유할 수 있으므로 음성 데이터 양이 적어도 되는 이점이 있다.
상술한 바와 같은 호출어 음성인식과 고립어 음성인식을 수행하는 인식부(130)에 따르면, 마이크부(120)에서 수신된 음성을 기초로 후술하는 제어부(140)에 전달될 제어명령이 용이하게 생성될 수 있다.
제어부(140)는 단말기(10)가 각종 기능을 수행할 수 있도록 상술한 인식부(130)로부터 전달되는 제어명령을 단말기(10)로 전송하며, 외부의 스피커(20)에서 오디오 출력이 실시될 수 있도록 스피커(20)로 데이터를 전송하는 하는 것으로써, 상술한 케이스부(110)에 설치되며, 단말기(10)와 스피커(20)에 전기적으로 연결된다.
제어부(140)로부터 전달되는 제어명령을 받은 단말기(10)는 제어명령에 따른 동작을 수행한다. 여기서, 제어명령은 음악재생, 날씨정보 검색, 지도정보 검색 등이 될 수 있다.
예를 들면, 일반적으로 스마트폰 등의 단말기(10)에는 음악재생을 위한 전용 어플리케이션이 설치되는데, 제어부(140)를 통해 단말기(10)로 전달되는 제어명령은 상술한 전용 어플리케이션을 제어하여, 단말기(10)에 내장된 메모리 또는 SD CARD 등에 저장된 음악파일을 재생할 수 있다.
한편, 여기서, 제어명령은 스마트폰 등의 단말기(10)가 제공하는 서비스 콘텐츠, 즉, 안드로이드의 구글 어시스턴스, 애플의 시리 등과 같은 단말기(10) 내에 기본 또는 선택적으로 설치되는 어플리케이션을 제어하는 명령일 수 있다. 이러한 제어명령에 따르면, 스마트폰 등과 같은 단말기(10)에 설치되는 어플리케이션이나 기타 기능 등을 음성으로 보다 효율적으로 제어할 수 있는 효과가 있다.
또한, 여기서, 제어명령은 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등과 같은 외부장치(40)의 내부에 설치되는 Iot 제어 어플리케이션 또는 기타 어플리케이션을 제어하는 명령일 수 있다. 이러한 제어명령에 따르면, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등과 같은 외부장치(40)를 음성으로 보다 효율적으로 제어할 수 있는 효과가 있다.
또한, 제어부(140)로부터 전달되는 제어명령을 받은 스피커(20)는 제어명령에 따른 오디오 출력을 실시한다. 여기서, 제어명령은 음악재생, 날씨정보 검색, 지도정보 검색 등이 될 수 있다.
한편, 제어부(140)는 스마트폰 등의 단말기(10)에 블루투스(Bluetooth)와 같은 무선의 방식으로 연결될 수 있고, 일반 스피커에 AUX 단자와 같은 유선단자를 통해 연결될 수 있고, 블루투스(Bluetooth) 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth)와 같은 무선의 방식으로 연결될 수 있고, 와이파이(Wi-Fi) 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있고, 자동차 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth) 또는 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있다.
자동차 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth) 또는 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있다.
한편, 제어부(140)는 Wi-Fi, Hot-Spot 등의 무선의 방법으로 서버(30)에 직접 접속될 수 있다. 이에 따르면, 제어명령이 서버(30)에 직접 전달되며, 서버(30)는 전달된 제어명령을 기초로 데이터를 수집한 후, 이를 기반으로 응답데이터를 생성하고, 이후, 생성된 응답데이터를 제어부(140)로 전송한다. 전송된 응답데이터는 제어부(140)에 연결되는 스피커(20), 차량용 스피커(20) 등을 통해 외부로 출력된다.
또한, 제어부(140)는 무선 또는 유선의 방법으로 외부장치(40)와 연결되어, 제어명령을 외부장치(40)로 전달함으로써 외부장치(40)를 제어할 수 있다. 이러한 외부장치(40)는 예를 들면, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등으로 마련될 수 있다.
종래의 일반적인 AI 스피커(20)는 음성을 수신하는 마이크가 오디오를 출력하는 스피커(20)와 함께 일체되기 때문에, 스피커(20)에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다.
그러나, 상술한 바와 같은 케이스부(110)와, 마이크부(120)와, 인식부(130)와, 제어부(140)를 포함하는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스는(100) 스피커(20)와 별도로 떨어져 있기 때문에, 음성인식률이 크게 개선되며, 이에 따르면, 각종 스마트 기기가 음성을 통해 효과적으로 제어될 수 있다.
또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에 따르면, 마이크부(120)의 설치구조, 인식부(130)의 음성인식 과정에 따라 음성인식률이 크게 개선되므로, 발화자가 1.5m 이상 멀리 떨어져 있다 하더라도, 발화자의 음성이 효과적인 인식될 수 있는 효과가 있다.
또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에 따르면, 단말기(10) 및 기타 외부장치(40)를 음성으로 제어할 수 있다. 이에 따르면, 특정한 음악제공업체에서 제공하는 음악서비스 이외에도 자신의 단말기(10) 또는 외부장치(40)에 저장된 음악파일 등 각종 미디어 파일을 음성으로 제어하여 재생할 수 있다.
지금부터는 첨부한 도면을 참조하여, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템에 대해서 상세히 설명한다.
도 7은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 8은 본 발명의 제1변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 9는 본 발명의 제2변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이다.
도 7 내지 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)은 단말기(10)와 스피커(20)와, 인공지능 스마트 디바이스(100)와, 서버(30)와, 외부장치(40)를 포함한다.
단말기(10)는 스마트 폰 등으로 마련되는 것으로서, 사용자가 휴대가능하도록 마련되는 것일 수 있다. 이러한 단말기(10)는 외부의 클라우드 서버(30)와 연결되어 정보를 수집, 전달하며, 후술하는 인공지능 스마트 디바이스(100)에 무선으로 연결되어 각종 제어명령에 따른 기능, 즉, 음악재생, 정보검색 등을 수행할 수 있다.
스피커(20)는 후술하는 인공지능 스마트 디바이스로부터 전달되는 데이터를 기초로 음악, 음성 등의 오디오를 출력하는 것으로써, 인공지능 스마트 디바이스(100)에 무선 또는 유선의 방법으로 연결된다.
이러한 스피커(20)는 제어부(140)로부터 제어명령을 전달받은 다음, 제어명령에 따른 오디오 출력을 실시하는데, 이때, 오디오 출력에 따른 음악파일은 외부의 서버(30)로부터 스트리밍 방식으로 전달받거나, 내부의 저장공간에 저장된 것일 수 있다.
한편, 여기서, 스피커(20)는 일반 스피커(20), AI 스피커(20), 블루투스 스피커(20), 차량용 스피커(20) 등으로 마련될 수 있다.
인공지능 스마트 디바이스(100)는 케이스부(110)와, 마이크부(120)와, 인식부(130)와, 제어부(140)를 포함하는 것으로서, 세부구성은 상술한 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에서 설명한 구성과 동일한 것이므로 중복 설명은 생략한다.
종래의 일반적인 AI 스피커(20)는 음성을 수신하는 마이크가 오디오를 출력하는 스피커(20)와 함께 일체되기 때문에, 스피커(20)에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다. 그러나, 상술한 바와 같이, 본 발명의 인공지능 스마트 디바이스는 스피커(20)와 별도로 떨어져 있기 때문에, 음성인식률이 크게 개선된다. 따라서, 본 발명에 따르면, 각종 스마트 기기를 음성을 이용하여 효과적으로 제어할 수 있다.
한편, 본 발명의 인공지능 스마트 디바이스(100)는 도 8에 도시된 바와 같이, 음성정보 뿐만 아니라 영상정보도 입력받을 수 있고, 입력되는 영상정보를 이용하여 서버(30), 외부장치(40), 스피커(20) 등을 제어할 수 있도록 마련될 수 있다.
또한, 본 발명의 인공지능 스마트 디바이스(100)는 도 9에 도시된 바와 같이, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등과 같은 외부장치(40)에 설치되는 형태로 마련될 수 도 있다.
서버(30)는 제어부(140)로부터 데이터를 수신하거나, 제어부(140)로 데이터를 전송하는 것으로서, 제어부(140)에서 전달되는 제어명령을 전달받아 정보를 수집하고, 수집된 정보를 기초로 응답데이터를 형성하여 제어부(140)로 전달한다. 여기서, 응답데이터는 음악정보, 날씨정보, 지도정보 등일 수 있다.
외부장치(40)는 제어부(140)로부터 데이터를 수신하거나, 제어부(140)로 데이터를 전송하여 각종 기능을 수행하는 것으로써, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기 등 가전제품 등으로 마련될 수 있다. 이러한 외부장치(40)는 제어부(140)로부터 전달되는 제어명령을 기초로 각종 서비스 제공, 정보전달, 놀이 실시 등의 기능을 수행한다.
상술한 바와 같은 단말기(10)와 스피커(20)와, 인공지능 스마트 디바이스와, 서버(30)와, 외부장치(40)를 포함하는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기가 음성에 따라 효과적으로 제어될 수 있다.
또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)에 따르면, 다양한 외부장치(40)를 음성으로 용이하게 제어하는 것이 가능하므로, 본 발명을 응용하면, 정보 검색 서비스, 음성 챗봇 서비스, 게임 및 놀이 서비스, 광고 제공 서비스 등 다양한 서비스가 사용자에게 효과적으로 제공될 수 있다.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
그리고 이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 본 발명의 일실시예에 따른 인공지능 스마트 디바이스
110 : 케이스부
120 : 마이크부
130 : 인식부
140 : 제어부
S : 집중공간
1000 : 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템
10 : 단말기
20 : 스피커
30 : 서버
40 : 외부장치

Claims (6)

  1. 케이스부;
    상기 케이스부에 설치되며, 외부로부터 음성을 수신하는 마이크부;
    상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및
    상기 케이스부에 설치되며, 상기 단말기가 작동할 수 있도록 상기 단말기로 상기 제어명령을 전송하며, 외부의 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스.
  2. 청구항 1에 있어서,
    상기 제어부는,
    서버로부터 데이터를 수신하거나, 상기 서버로 데이터를 송신하는 것을 특징으로 하는 인공지능 스마트 디바이스.
  3. 청구항 1에 있어서,
    상기 단말기로 전달되는 제어명령은,
    상기 단말기에 설치된 어플리케이션을 제어하는 것을 특징으로 하는 인공지능 스마트 디바이스.
  4. 청구항 1에 있어서,
    상기 단말기로 전달되는 제어명령은,
    상기 단말기에 설치된 음악 재생 어플리케이션을 제어하여 상기 단말기의 저장장치에 저장된 음악파일을 제어하는 것을 특징으로 하는 인공지능 스마트 디바이스.
  5. 청구항 1에 있어서,
    상기 케이스부는,
    음성이 집중되는 공간인 집중공간을 형성하며,
    상기 마이크부는,
    음성의 수신율이 향상되도록 상기 집중공간을 형성하는 저면에 설치되는 것을 특징으로 하는 인공지능 스마트 디바이스.
  6. 단말기;
    오디오를 출력하는 스피커;
    케이스부와, 상기 케이스부에 설치되며 외부로부터 음성을 수신하는 마이크부와, 상기 케이스부에 설치되며 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부와, 상기 케이스부에 설치되며 상기 단말기로 상기 제어명령을 전송하며 상기 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스;
    상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송하는 서버; 및
    상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송함으로서 동작되는 외부장치를 포함하는 인공지능 스마트 디바이스를 이용한 음성제어 시스템.
KR1020180036488A 2018-03-29 2018-03-29 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템 KR20190119195A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180036488A KR20190119195A (ko) 2018-03-29 2018-03-29 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템
PCT/KR2019/002908 WO2019190082A1 (ko) 2018-03-29 2019-03-13 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180036488A KR20190119195A (ko) 2018-03-29 2018-03-29 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템

Publications (1)

Publication Number Publication Date
KR20190119195A true KR20190119195A (ko) 2019-10-22

Family

ID=68059311

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180036488A KR20190119195A (ko) 2018-03-29 2018-03-29 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템

Country Status (2)

Country Link
KR (1) KR20190119195A (ko)
WO (1) WO2019190082A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102409281B1 (ko) 2021-11-25 2022-06-15 (주)펜타유니버스 인공지능 기반의 가전기기 인터렉티브 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349337B (zh) * 2020-11-03 2023-06-30 中科创达软件股份有限公司 一种车机检测方法、系统、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5927291B2 (ja) * 2012-03-21 2016-06-01 株式会社巴川製紙所 マイクロホン装置、マイクロホンユニット、マイクロホン構造及びそれらを用いた電子機器
KR102405793B1 (ko) * 2015-10-15 2022-06-08 삼성전자 주식회사 음성 신호 인식 방법 및 이를 제공하는 전자 장치
US10832665B2 (en) * 2016-05-27 2020-11-10 Centurylink Intellectual Property Llc Internet of things (IoT) human interface apparatus, system, and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102409281B1 (ko) 2021-11-25 2022-06-15 (주)펜타유니버스 인공지능 기반의 가전기기 인터렉티브 시스템

Also Published As

Publication number Publication date
WO2019190082A1 (ko) 2019-10-03

Similar Documents

Publication Publication Date Title
US11670302B2 (en) Voice processing method and electronic device supporting the same
US10978048B2 (en) Electronic apparatus for recognizing keyword included in your utterance to change to operating state and controlling method thereof
CN109791763B (zh) 多设备上的热词检测
CN111670471B (zh) 基于对在线语音命令的使用来学习离线语音命令
CN110858481B (zh) 用于处理用户语音话语的系统和用于操作该系统的方法
US20180374482A1 (en) Electronic apparatus for processing user utterance and server
US11537360B2 (en) System for processing user utterance and control method of same
KR102421824B1 (ko) 외부 장치를 이용하여 음성 기반 서비스를 제공하기 위한 전자 장치, 외부 장치 및 그의 동작 방법
KR20160028468A (ko) 멀티 레벨 음성 인식
KR102508863B1 (ko) 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
CN104581221A (zh) 视频直播的方法和装置
CN109003609A (zh) 语音设备、智能语音系统、设备控制方法及装置
US20200075008A1 (en) Voice data processing method and electronic device for supporting same
US10824392B2 (en) Electronic apparatus for processing user utterance for controlling an external electronic apparatus and controlling method thereof
KR20190119195A (ko) 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템
US20200034112A1 (en) Electronic device for performing operation according to user input after partial landing
US11917363B2 (en) Microphone module part structure of artificial intelligence smart device and artificial intelligence smart device having the same
US20230126305A1 (en) Method of identifying target device based on reception of utterance and electronic device therefor
US11670294B2 (en) Method of generating wakeup model and electronic device therefor
CN110351213A (zh) 音频播放方法及设备
CN217426367U (zh) 一种语音识别显示装置
US20230260512A1 (en) Electronic device and method of activating speech recognition service
US20240143920A1 (en) Method and electronic device for processing user utterance based on language model
US20240169982A1 (en) Natural speech detection
US20230127543A1 (en) Method of identifying target device based on utterance and electronic device therefor

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
E601 Decision to refuse application
E801 Decision on dismissal of amendment