WO2019190082A1 - 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템 - Google Patents

인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템 Download PDF

Info

Publication number
WO2019190082A1
WO2019190082A1 PCT/KR2019/002908 KR2019002908W WO2019190082A1 WO 2019190082 A1 WO2019190082 A1 WO 2019190082A1 KR 2019002908 W KR2019002908 W KR 2019002908W WO 2019190082 A1 WO2019190082 A1 WO 2019190082A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
voice
case
smart device
artificial intelligence
Prior art date
Application number
PCT/KR2019/002908
Other languages
English (en)
French (fr)
Inventor
박연묵
Original Assignee
박연묵
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박연묵 filed Critical 박연묵
Publication of WO2019190082A1 publication Critical patent/WO2019190082A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Definitions

  • the present invention relates to an artificial intelligence smart device and a voice control system using the same.
  • AI Artificial Intellignet
  • the AI speaker may not only play music by recognizing the user's voice, but also provide various types of information to the user, and perform various functions of controlling the wirelessly connected external device according to the voice.
  • the above-described AI speaker is integrated with a speaker for outputting audio because the microphone for receiving voice is integrated with the speaker for outputting audio. There is a problem.
  • the AI speaker described above must use a music service provided by a particular music provider, so when using the AI speaker, users can not play music files stored in their terminal or external device through the AI speaker There is.
  • An object of the present invention is to solve the above-mentioned conventional problems, and to control the terminal and other devices by voice, but is provided to be physically separated from the speaker. In providing a system.
  • the case portion A microphone unit installed in the case unit and receiving a voice from the outside; A recognition unit installed in the case unit and recognizing a voice received from the microphone unit to generate a control command; And a control unit installed in the case unit and transmitting the control command to a terminal and transmitting data to the speaker so that an audio output can be performed from an external speaker.
  • the control unit may receive data from a server or transmit data to the server.
  • the control command transmitted to the terminal may control an application installed in the terminal.
  • the control command transmitted to the terminal may control a music file stored in the storage device of the terminal by controlling a music reproduction application installed in the terminal.
  • the case unit may form a concentrated space that is a space where voice is concentrated, and the microphone unit may be installed on a bottom surface of the concentrated space so that the reception rate of the voice is improved.
  • a second elastic part installed in the case part to accommodate the second elastic part and the microphone part, and a second sealing part installed below the case part so as to surround the third elastic part to fix the third elastic part to the case part; An additional can be installed.
  • a speaker for outputting audio A case unit, a microphone unit installed in the case unit and receiving voice from the outside, a recognition unit installed in the case unit and recognizing the voice received from the microphone unit to generate a control command, and installed in the case unit.
  • An artificial intelligence smart device including a control unit which transmits the control command to the terminal and transmits data to the speaker so that audio output can be performed from the speaker; A server receiving data from the control unit or transmitting data to the control unit; And an external device operated by receiving data from the control unit or by transmitting data to the control unit.
  • the terminal and other external devices can be controlled by voice.
  • voice in addition to the music service provided by a particular music provider, it is possible to control and play various media files such as music files stored in its own terminal or an external device by voice, and service contents provided by a voice including a smartphone ( There is an effect that it is possible to control the voice control application installed on the terminal basic or selectively) by voice.
  • the present invention since it is possible to easily control a terminal including a smart phone, and other various external devices by voice, by applying the present invention, information retrieval service, voice chatbot service, games and play services, advertising Various services such as a provided service may be effectively provided to the user.
  • FIG. 1 illustrates an artificial intelligence smart device according to an embodiment of the present invention
  • FIG 2 illustrates an electrical connection between components of an artificial intelligence smart device according to an embodiment of the present invention.
  • FIG. 3 illustrates a detailed structure of a case unit of an artificial intelligence smart device according to an embodiment of the present invention
  • Figure 4 shows a detailed structure around the concentrated space formed in the case portion of the artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 5 illustrates a process of performing caller speech recognition in a recognition unit of an artificial intelligence smart device according to an embodiment of the present invention.
  • 6 and 7 illustrate a process of performing isolated speech recognition in a recognition unit of an artificial intelligence smart device according to an embodiment of the present invention.
  • FIG. 8 illustrates an overall voice control system using an artificial intelligence smart device according to an embodiment of the present invention.
  • FIG. 9 is a diagram schematically illustrating a voice control system using an artificial intelligence smart device according to a first modification of the present invention.
  • FIG. 10 illustrates an overall voice control system using an artificial intelligence smart device according to a second modification of the present invention.
  • first, second, A, B, (a), and (b) may be used. These terms are only for distinguishing the components from other components, and the nature, order or order of the components are not limited by the terms.
  • FIG. 1 illustrates an artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 2 illustrates an electrical connection between components of an artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 4 illustrates a detailed structure of a case unit of an artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 4 illustrates a detailed structure around a concentrated space formed in a case unit of an artificial intelligence smart device according to an embodiment of the present invention
  • 5 is a diagram illustrating a process of performing caller speech recognition in a recognition unit of an artificial intelligence smart device according to an embodiment of the present invention
  • FIGS. 6 and 7 are artificial intelligence according to an embodiment of the present invention. Illustrates a process of performing speech recognition in an isolated part of a smart device
  • the artificial intelligence smart device 100 may include a case unit 110, a microphone unit 120, a recognition unit 130, and a controller ( 140).
  • the case unit 110 provides a space in which the microphone unit 120, the recognition unit 130, and the controller 140, which will be described later, are installed, so that the case unit 110 can be easily installed in a wall, a ceiling, a desk, and other structures in a building.
  • an installation means such as a clip that can be fixed is formed on the rear side.
  • the shape of the case part 110 may be provided as a rectangular parallelepiped or a spherical shape, but is not necessarily limited thereto, and provides a space in which the microphone part 120, the recognition part 130, and the controller 140, which will be described later, are installed. If so, it may be provided in any form.
  • the case part 110 described above is formed with a concentrated space S, and a microphone 120 which will be described later is installed at the bottom of the concentrated space S.
  • a microphone 120 which will be described later is installed at the bottom of the concentrated space S.
  • the voice reception rate in the microphone unit 120 is greatly improved, even if the case unit 110 is located at a position away from the talker 1.5 m or more, the voice in the microphone unit 120 effectively Can be collected.
  • the installation structure of the microphone unit 120 when the sound output means is mounted on the case 110, the sound generated by the sound output means is transmitted to the microphone unit 120 can effectively solve the problem that causes noise have.
  • the structure of the case unit 110 in which the microphone unit 120 is installed in more detail as shown in FIG.
  • the first sealing part 110a, the first elastic part 110b, the mesh part 110c, the second elastic part 110d, and the third An elastic portion 110e and a second sealing portion 110f are provided.
  • the first sealing part 110a finishes the upper side of the concentrated space S, and the first elastic part 110b, which will be described later, may be formed inside or outside the artificial intelligence smart device 100 according to an embodiment of the present invention.
  • the first elastic portion 110b is fixed so as not to vibrate or move by noise or internal and external shocks.
  • the first elastic part 110b primarily absorbs and blocks the noise generated from the inside and the outside of the artificial intelligence smart device 100 according to an embodiment of the present invention introduced into the concentrated space S, and the concentrated space S.
  • Sealing the microphone unit 120 from the internal and external noise generated inside and outside the artificial intelligence smart device 100 according to the embodiment (silicon), rubber (Rubber), cushion (Surshion), sponge (Sponge), poron (Phorone), ethylene vinyl acetate (Ethylene-Vinyl Acetate) and the like is provided with an elastic material.
  • the first elastic portion 110b is installed above the concentrated space S, and is fixedly installed on the case portion 110 by the first sealing portion 110a described above.
  • the mesh unit 110c is provided as a mesh material to block dust, foreign substances, etc. introduced from the outside into the microphone unit 120 and may be installed above or below the concentrated space S.
  • the second elastic unit 110d is a secondary space absorbing and blocking noise generated inside and outside the artificial intelligence smart device 100 according to an embodiment of the present invention introduced into the concentrated space (S), and concentrated space ( Secondly sealing the microphone unit 120 from the internal and external noise generated in and out of the artificial intelligence smart device 100 according to an embodiment of the present invention introduced into the S (Sealing) (to be described later) As the second sealing of the microphone unit 120 from the internal and external noise generated in and out of the artificial intelligence smart device 100 according to an embodiment of the present invention introduced into the microphone unit 120 through 110f). It is made of an elastic material such as silicon, rubber, cushion, sponge, sponge, phorone, and ethylene vinyl acetate.
  • the second elastic portion 110d is installed above the microphone 120.
  • the third elastic part 110e is configured to generate noise inside and outside of the intelligent smart device 100 according to an embodiment of the present invention, which flows into the microphone 120 through the second sealing part 110f, which will be described later.
  • the microphone from the internal and external noise generated inside and outside the artificial intelligence smart device 100 according to an embodiment of the present invention, which is primarily absorbed and blocked and introduced into the microphone unit 120 through the second sealing unit 110f to be described later.
  • Sealing unit 120 as a primary seal (Silic), rubber (Rubber), cushion (Cushion), sponge (Sponge), poron (Phorone), ethylene vinyl acetate (Ethylene-Vinyl Acetate), etc. It is made of the same elastic material.
  • the third elastic part 110e forms an accommodation space in which the microphone part 120 is accommodated, and is fixedly installed in the case part 110 by the second sealing part 110f to be described later.
  • the second sealing part 110f may be configured such that the third elastic part 110e does not vibrate or move due to internal or external noise or internal or external shocks generated in and out of the artificial intelligence smart device 100 according to an embodiment of the present invention. As the third elastic part 110e is fixed, the third elastic part 110e is fixed to the lower side of the case part 110 to surround the third elastic part 110e.
  • one embodiment of the present invention flows into the microphone unit 120 through the concentrated space S and the second sealing unit 110f.
  • the internal and external noise generated in and out of the artificial intelligence smart device 100 is effectively absorbed and blocked, and introduced into the microphone unit 120 through the concentrated space S and the second sealing unit 110f. Since the microphone unit 120 may be sealed from noise inside and outside the AI smart device 100, the voice recognition rate in the microphone unit 120 may be significantly improved. .
  • the case unit 110 may be provided with a microphone unit 120, the recognition unit 130, and a battery unit for supplying power to the controller 140.
  • the battery unit may be provided as a lithium polymer battery or a lithium ion battery capable of charging and discharging, but is not necessarily limited thereto.
  • the battery unit may be equipped with an overcharge protection circuit for blocking the charge during overcharge.
  • a display device for displaying the states of the recognition unit 130 and the controller 140 which will be described later may be installed outside the case unit 110.
  • the display device may be provided as an LED matrix type, but is not necessarily limited thereto. Any display device may be provided as long as the display device may display the states of the recognition unit 130 and the controller 140.
  • a camera module capable of generating image information by capturing an image may be installed outside the case unit 110, and a communication module for LTE communication, etc., inside the case unit 110. This can be installed.
  • an outer surface of the case part 110 may be coated with an energy harvesting layer capable of absorbing electromagnetic waves to produce electrical energy.
  • the energy harvesting layer may be connected to the above-described battery unit to absorb electromagnetic waves around the case unit 110 and convert the electromagnetic wave into electrical energy to charge the battery unit.
  • the case unit 110 may be provided with a solar panel that can absorb the surrounding light energy to produce electrical energy.
  • the solar panel may be connected to the battery unit described above to absorb light around the case unit 110 and convert the light into electrical energy to charge the battery unit.
  • the microphone unit 120 is installed in the concentrated space S of the case unit 110 by receiving a voice from the outside and is electrically connected to the recognition unit 130 described later.
  • the voice received by the microphone unit 120 is transmitted to the recognition unit 130 to be described later, the voice recognition is performed.
  • the above-described microphone unit 120 may be equipped with an echo cancel function and a noise reduction function. According to the microphone unit 120 equipped with such a function, the voice reception rate may be further improved.
  • the microphone unit 120 may include the substrate unit 121 and the microphone module 122 in more detail.
  • the board unit 121 is provided with a microphone module 122 and processes the voice information input to the microphone module 122 and transmits the processed voice information to the recognition unit 130 to be described later.
  • the board unit 121 on which the microphone module 122 is installed is provided. One side portion of the) may be formed through holes so that the voice flows into the microphone module 122 in the concentrated space (S).
  • the microphone module 122 receives the voice transmitted from the outside and is installed in the above-described substrate unit 121.
  • the recognition unit 130 generates a control command by recognizing the voice received from the microphone unit 120 described above, and is installed in the case unit 110 as described above, and the microphone unit 120 and the controller 140 described above. Is electrically connected).
  • the recognition unit 130 recognizes the voice and generates a control command by performing the caller voice recognition and the isolated word voice recognition based on the voice transmitted from the microphone unit 120 described above.
  • Call word speech recognition refers to a process of detecting a predetermined call word from a continuously input voice signal, as shown in FIG. 5.
  • HMM Hidden Markov Model
  • the recognizer 130 performs a process of searching for a dodel (phoneme or word) most suitable for an unknown input voice using the estimated parameter. If the most suitable model is found for the unknown input voice, the recognition unit 130 recognizes the caller by fusing a Gaussian Mixture Model (GMM) and a Deep Neural Network (DNN) with the HMM.
  • GMM Gaussian Mixture Model
  • DNN Deep Neural Network
  • isolated word speech recognition is a step performed after call word speech recognition and means a process of detecting an isolated word such as a predetermined command word from a speech signal. do.
  • isolated word speech recognition means the process of finding the word with the maximum probability from the observed value in the speech signal, where the probability is determined by the prior probability and Likelihood by Bayesian Rule, and Likelihood is HMM (Hidden Markov Model). Is computed from
  • the phoneme-based isolated word speech recognition is performed by a process of recognizing the isolated word by fusing GMM and DNN with the HMM.
  • Phoneme-based isolated word speech recognition like word-based isolated word speech recognition, consists of one phoneme consisting of one HMM.
  • Phoneme-based isolated word speech recognition can consist of any word as a combination of phoneme models.
  • a lexical recognition engine can be implemented, and even if the amount of the voice data is small, models having the same phonetic environment can share parameters, so that the amount of the voice data is at least advantageous.
  • a control command to be transmitted to the control unit 140 to be described later is easily generated based on the voice received from the microphone unit 120. Can be.
  • the controller 140 transmits the control command transmitted from the recognition unit 130 to the terminal 10 so that the terminal 10 can perform various functions, and outputs audio from the external speaker 20.
  • the controller 140 transmits data to the speaker 20 so that the data is transmitted to the speaker 20, it is installed in the case unit 110 and electrically connected to the terminal 10 and the speaker 20.
  • the terminal 10 receiving the control command transmitted from the controller 140 performs an operation according to the control command.
  • the control command may be music playback, weather information search, map information search, and the like.
  • a terminal 10 such as a smartphone is installed with a dedicated application for music playback, and a control command transmitted to the terminal 10 through the controller 140 controls the above-described dedicated application.
  • the music file stored in the built-in memory or the SD card can be played.
  • the control command is a command to control the service content provided by the terminal 10, such as a smartphone, that is, an application installed in the terminal 10, such as Google Assistant of Android, Siri of Apple, etc. Can be. According to such a control command, it is possible to more efficiently control the application or other functions, such as installed in the terminal 10, such as a smart phone by voice.
  • control command is an Internet of Things (IoT) installed in an external device 40 such as a service robot, a learning robot, a toy robot, a kiosk, a refrigerator, a washing machine, an air purifier, and other home appliances. It may be a command to control the control application or other applications. According to the control command, it is possible to effectively control the external device 40 such as a service robot, a learning robot, a toy robot, a kiosk, a refrigerator, a washing machine, an air purifier, and other home appliances by voice. have.
  • IoT Internet of Things
  • the speaker 20 receiving the control command from the controller 140 performs audio output according to the control command.
  • the control command may be music playback, weather information search, map information search, and the like.
  • control unit 140 may be connected to the terminal 10, such as a smartphone in a wireless manner, such as Bluetooth (Bluetooth), can be connected to a general speaker via a wired terminal, such as AUX terminal, Bluetooth (Bluetooth) speaker 20 may be connected via a wired terminal such as an AUX terminal or may be connected in a wireless manner such as Bluetooth, and may be connected to a Wi-Fi speaker 20 through a wired terminal such as an AUX terminal, or It may be connected in a wireless manner such as (Wi-Fi), and may be connected to a car speaker 20 through a wired terminal such as an AUX terminal or in a wireless manner such as Bluetooth or Wi-Fi. have.
  • Bluetooth Bluetooth
  • the vehicle speaker 20 may be connected through a wired terminal such as an AUX terminal, or may be connected in a wireless manner such as Bluetooth or Wi-Fi.
  • the controller 140 may be directly connected to the server 30 by a wireless method such as Wi-Fi, Hot-Spot.
  • a wireless method such as Wi-Fi, Hot-Spot.
  • the control command is directly transmitted to the server 30, the server 30 collects data on the basis of the transmitted control command, generates a response data based on this, and then controls the generated response data Transmit to 140.
  • the transmitted response data is output to the outside through the speaker 20 and the vehicle speaker 20 connected to the controller 140.
  • the controller 140 may be connected to the external device 40 by a wireless or wired method, and control the external device 40 by transmitting a control command to the external device 40.
  • the external device 40 may be provided as, for example, a service robot, a learning robot, a toy robot, a kiosk, a refrigerator, a washing machine, an air cleaner, or other home appliances.
  • the conventional AI speaker 20 is integrated with the speaker 20 for outputting audio, so that the audio reception rate of the microphone is significantly lowered when the audio is output from the speaker 20. There is a problem.
  • the artificial intelligence smart device including the case unit 110, the microphone unit 120, the recognition unit 130, and the controller 140 as described above (100) Since it is separated from the speaker 20, the voice recognition rate is greatly improved, and accordingly, various smart devices can be effectively controlled through voice.
  • the speech recognition rate is greatly improved according to the installation structure of the microphone unit 120 and the speech recognition process of the recognition unit 130, the talker is 1.5. Even if the distance is more than m, the talker's voice can be effectively recognized.
  • the terminal 10 and other external devices 40 may be controlled by voice. Accordingly, in addition to a music service provided by a specific music provider, various media files such as music files stored in the terminal 10 or the external device 40 may be controlled by voice and played.
  • FIG. 8 illustrates an overall voice control system using an artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 9 illustrates an entire voice control system using an artificial intelligence smart device according to a first modification of the present invention
  • 10 is a diagram schematically illustrating a voice control system using an artificial intelligence smart device according to a second modified example of the present invention.
  • the voice control system 1000 using an artificial intelligence smart device includes a terminal 10, a speaker 20, and an artificial intelligence smart device 100. And a server 30 and an external device 40.
  • the terminal 10 is provided as a smart phone or the like, and may be provided to be portable by a user.
  • the terminal 10 is connected to an external cloud server 30 to collect and transmit information, and is wirelessly connected to the artificial intelligence smart device 100 to be described later, and functions according to various control commands, that is, music playback and information. Search and so on.
  • the speaker 20 outputs audio such as music, voice, and the like based on data transmitted from an AI smart device, which will be described later, and is connected to the AI smart device 100 by a wireless or wired method.
  • the speaker 20 receives a control command from the controller 140 and then performs audio output according to the control command. At this time, the music file according to the audio output is received in a streaming manner from an external server 30, It may be stored in an internal storage space.
  • the speaker 20 may be provided as a general speaker 20, an AI speaker 20, a Bluetooth speaker 20, a vehicle speaker 20, or the like.
  • the artificial intelligence smart device 100 includes a case unit 110, a microphone unit 120, a recognition unit 130, and a control unit 140, and the detailed configuration is described in the above-described embodiment of the present invention. Since it is the same as the configuration described in the artificial intelligence smart device 100 according to the above description will be omitted.
  • the conventional AI speaker 20 is integrated with the speaker 20 for outputting audio, so that the audio reception rate of the microphone is significantly lowered when the audio is output from the speaker 20. There is a problem. However, as described above, since the artificial intelligence smart device of the present invention is separated from the speaker 20, the voice recognition rate is greatly improved. Therefore, according to the present invention, various smart devices can be effectively controlled using voice.
  • the artificial intelligence smart device 100 of the present invention can receive not only audio information but also image information, and the server 30 and the external device 40 using the input image information. It may be provided to control the speaker 20 and the like.
  • an external device such as a service robot, a learning robot, a toy robot, a kiosk, a refrigerator, a washing machine, an air cleaner, and other home appliances 40 may be provided in the form of being installed.
  • the server 30 receives data from the control unit 140 or transmits data to the control unit 140, receives the control command transmitted from the control unit 140, collects information, and responds based on the collected information.
  • the data is formed and transmitted to the controller 140.
  • the response data may be music information, weather information, map information, and the like.
  • the external device 40 receives data from the controller 140 or transmits data to the controller 140 to perform various functions, such as a service robot, a learning robot, a toy robot, a kiosk, a refrigerator, It may be provided as a home appliance such as a washing machine or an air purifier.
  • the external device 40 performs various functions such as providing various services, transmitting information, and playing a game based on a control command transmitted from the controller 140.
  • the voice control system 1000 using an artificial intelligence smart device it is possible to easily control various external devices 40 by voice.
  • Various services such as a service, a voice chatbot service, a game and play service, and an advertisement providing service may be effectively provided to the user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 인공지능 스마트 디바이스에 관한 것으로서, 케이스부; 상기 케이스부에 설치되며, 외부로부터 음성을 수신하는 마이크부; 상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및 상기 케이스부에 설치되며, 단말기로 상기 제어명령을 전송하며, 외부의 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함한다. 본 발명에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기를 음성을 통해 효과적으로 제어할 수 있다.

Description

인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템
본 발명은 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템에 관한 것이다.
최근 스마트폰 및 태블릿 PC, 데스크탑 PC, PMP(portable multimedia player), MP3 플레이어, 또는 웨어러블 장치(wearable device) 등의 전자 장치가 사용자에게 널리 보급되고 있으며, 사용자는 이러한 다양한 전자 장치를 통하여 다양한 컨텐츠를 접할 수 있다.
특히, 최근에는 AI(Artificial Intellignet) 스피커로 불리우는 음성인식 가능한 스피커가 개발되었다. AI 스피커는 사용자의 음성을 인식하여 음악을 재생할 뿐만 아니라, 각종 정보를 사용자에게 제공하고, 음성에 따라 무선으로 연결된 외부장치를 제어하는 다양한 기능을 수행할 수 있다.
그러나 상술한 AI 스피커는 음성을 수신하는 마이크가 오디오를 출력하는 스피커와 함께 일체되기 때문에, 사용자가 AI 스피커로부터 멀리 떨어진 상태에서 스피커에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다.
또한, 상술한 AI 스피커는 특정한 음악제공업체에서 제공하는 음악서비스를 필수적으로 이용해야 하므로, AI 스피커를 사용하는 경우 사용자는 자신의 단말기 또는 외부장치에 저장된 음악파일을 AI 스피커를 통해 재생할 수 없다는 문제가 있다.
본 발명의 목적은 상술한 종래의 문제점을 해결하기 위한 것으로, 단말기 및 기타 장치를 음성으로 제어하되 스피커와 물리적으로 분리되도록 마련됨으로써 음성인식률을 크게 향상시킬 수 있는 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템을 제공함에 있다.
상기 목적은, 본 발명에 따라, 케이스부; 상기 케이스부에 설치되며, 외부로부터 음성을 수신하는 마이크부; 상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및 상기 케이스부에 설치되며, 단말기로 상기 제어명령을 전송하며, 외부의 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스에 의해 달성된다
또한, 상기 제어부는, 서버로부터 데이터를 수신하거나, 상기 서버로 데이터를 송신할 수 있다.
또한, 상기 단말기로 전달되는 제어명령은, 상기 단말기에 설치된 어플리케이션을 제어할 수 있다.
또한, 상기 단말기로 전달되는 제어명령은, 상기 단말기에 설치된 음악 재생 어플리케이션을 제어하여 상기 단말기의 저장장치에 저장된 음악파일을 제어할 수 있다.
또한, 상기 케이스부는, 음성이 집중되는 공간인 집중공간을 형성하며, 상기 마이크부는, 음성의 수신율이 향상되도록 상기 집중공간을 형성하는 저면에 설치될 수 있다.
또한, 상기 케이스부에는, 상기 집중공간의 상면을 마감하는 제1밀폐부와, 탄성재질로 마련되어 상기 집중공간의 상측에 설치되며 상기 제1밀폐부에 의해 상기 케이스부에 고정되는 제1탄성부와, 매쉬재질로 마련되어 상기 집중공간의 상측 또는 하측에 설치되는 매쉬부와, 탄성재질로 마련되어 상기 마이크부 상측에 설치되는 제2탄성부와, 탄성재질로 마련되어 상기 집중공간의 저면에서 설치되며 상기 제2탄성부 및 상기 마이크부가 수용되도록 상기 케이스부에 설치되는 제3탄성부와, 상기 제3탄성부를 감싸듯이 상기 케이스부의 하측에 설치되어 상기 제3탄성부를 상기 케이스부에 고정하는 제2밀폐부가 설치될 수 있다.
상기 목적은, 본 발명에 따라, 단말기; 오디오를 출력하는 스피커; 케이스부와, 상기 케이스부에 설치되며 외부로부터 음성을 수신하는 마이크부와, 상기 케이스부에 설치되며 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부와, 상기 케이스부에 설치되며 상기 단말기로 상기 제어명령을 전송하며 상기 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스; 상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송하는 서버; 및 상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송함으로서 동작되는 외부장치를 포함하는 인공지능 스마트 디바이스를 이용한 음성제어 시스템에 의해 달성된다.
본 발명에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기를 음성을 통해 효과적으로 제어할 수 있다.
또한, 본 발명에 따르면, 단말기 및 기타 외부장치를 음성으로 제어할 수 있다. 이에 따르면, 특정한 음악제공업체에서 제공하는 음악서비스 이외에도 자신의 단말기 또는 외부장치에 저장된 음악파일 등 각종 미디어 파일을 음성으로 제어하여 재생할 수 있고, 스마트 폰을 포함하는 단말기가 음성으로 제공하는 서비스 컨텐츠(단말기 기본적 또는 선택적으로 설치되는 음성 제어 어플리케이션)를 음성으로 제어하는 것이 가능한 효과가 있다.
또한, 본 발명에 따르면, 스마트 폰을 포함하는 단말기, 이외에 기타 다양한 외부장치를 음성으로 용이하게 제어하는 것이 가능하므로, 본 발명을 응용하면, 정보 검색 서비스, 음성 챗봇 서비스, 게임 및 놀이 서비스, 광고 제공 서비스 등 다양한 서비스가 사용자에게 효과적으로 제공될 수 있다.
도 1은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 도시한 것이고,
도 2는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 구성간 전기적인 연결을 도시한 것이고,
도 3은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부의 세부 구조를 도시한 것이고,
도 4는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부에 형성된 집중공간 주변의 세부 구조를 도시한 것이고,
도 5는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 호출어 음성인식을 수행하는 과정을 도시한 것이고,
도 6 및 도 7은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 고립어 음성인식을 수행하는 과정을 도시한 것이고,
도 8은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고,
도 9는 본 발명의 제1변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고,
도 10은 본 발명의 제2변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이다.
이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다.
그리고 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다.
지금부터 첨부한 도면을 참조하여, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스에 대해서 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 도시한 것이고, 도 2는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 구성간 전기적인 연결을 도시한 것이고, 도 3은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부의 세부 구조를 도시한 것이고, 도 4는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 케이스부에 형성된 집중공간 주변의 세부 구조를 도시한 것이고, 도 5는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 호출어 음성인식을 수행하는 과정을 도시한 것이고, 도 6 및 도 7은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 고립어 음성인식을 수행하는 과정을 도시한 것이고,
도 1 내지 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)는 케이스부(110)와, 마이크부(120)와, 인식부(130)와, 제어부(140)를 포함한다.
케이스부(110)는 후술하는 마이크부(120)와 인식부(130)와 제어부(140)가 설치되는 공간을 제공하는 것으로써, 건물 내 벽, 천장, 책상, 기타 구조물 등에 쉽게 설치될 수 있도록 후면에는 고정가능한 클립 등의 설치수단이 형성된다.
이러한 케이스부(110)의 형상은 직육면체 또는 구형 등으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니며, 후술하는 마이크부(120)와 인식부(130)와 제어부(140)가 설치되는 공간을 제공하는 것이라면, 어떠한 형태로 마련되더라도 무방하다.
도 3에 도시된 바와 같이, 상술한 케이스부(110)에는 집중공간(S)이 형성되며, 집중공간(S)의 저면에는 후술하는 마이크부(120)가 설치된다. 이러한 케이스부(110)의 구조에 따르면, 외부의 음성이 집중공간(S)으로 집중된 후, 마이크부(120)로 입력될 수 있다. 상술한 집중공간(S)에 따르면, 마이크부(120)에서의 음성 수신율이 크게 향상되므로, 케이스부(110)가 발화자로부터 1.5m 이상 멀리 떨어진 위치에 배치되더라도 마이크부(120)에서 음성이 효과적으로 수집될 수 있다.
이러한 마이크부(120)의 설치구조는, 케이스부(110)에 음향출력수단이 탑제되는 경우, 음향출력수단에서 생성되는 음향이 마이크부(120)로 전달되어 노이즈를 야기하는 문제를 효과적으로 해결할 수 있다.
한편, 마이크부(120)가 설치되는 케이스부(110)의 구조는 보다 상세하게, 도 4에 도시된 바와 같다. 집중공간(S)이 형성되는 케이스부(110)에는 제1밀폐부(110a)와, 제1탄성부(110b)와, 매쉬부(110c)와, 제2탄성부(110d)와, 제3탄성부(110e), 제2밀폐부(110f)가 설치된다.
제1밀폐부(110a)는 집중공간(S)의 상측을 마감하는 것으로서, 후술하는 제1탄성부(110b)가 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생하는 내외부의 소음이나 내외부의 충격에 의해 진동되거나 움직이지 않도록 제1탄성부(110b)를 고정시킨다.
제1탄성부(110b)는 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 소음을 1차적으로 흡수 및 차단하고, 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 집중공간(S)을 봉인(Sealing)하고, 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)를 1차적으로 봉인(Sealing)하는 것으로서 실리콘(Silicon), 고무(Rubber), 쿠션(Curshion), 스펀지(Sponge), 포론(Phorone), 에틸렌비닐아세테이트(Ethylene-Vinyl Acetate) 등과 같은 탄성재질로 마련된다.
이러한 제1탄성부(110b)는 집중공간(S)의 상측에 설치되는데, 상술한 제1밀폐부(110a)에 의해서 케이스부(110)에 고정적으로 설치된다. 매쉬부(110c)는 매쉬재질로 마련되어 외부에서 유입되는 먼지, 이물질 등이 마이크부(120)로 유입되는 것을 차단하는 것으로서, 집중공간(S)의 상측 또는 하측에 설치될 수 있다.
제2탄성부(110d)는 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음을 2차적으로 흡수 및 차단하고, 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)를 2차적으로 봉인(Sealing)하며, 후술하는 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)를 2차적으로 봉인(Sealing)하는 것으로서, 실리콘(Silicon), 고무(Rubber), 쿠션(Cushion), 스펀지(Sponge), 포론(Phorone), 에틸렌비닐아세테이트(Ethylene-Vinyl Acetate) 등과 같은 탄성재질로 마련된다. 이러한 제2탄성부(110d)는 마이크부(120) 상측에 설치된다.
제3탄성부(110e)는 후술하는 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음을 1차적으로 흡수 및 차단하고 후술하는 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)를 1차적으로 봉인하는(Sealing) 것으로서, 실리콘(Silicon), 고무(Rubber), 쿠션(Cushion), 스펀지(Sponge), 포론(Phorone), 에틸렌비닐아세테이트(Ethylene-Vinyl Acetate) 등과 같은 탄성재질로 마련된다. 이러한 제3탄성부(110e)는 마이크부(120)가 수용되는 수용공간을 형성하며, 후술하는 제2밀폐부(110f)에 의해서 고정적으로 케이스부(110)에 설치된다.
제2밀폐부(110f)는 제3탄성부(110e)가 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생하는 내외부의 소음이나 내외부의 충격에 의해 진동되거나 움직이지 않도록 제3탄성부(110e)를 고정시키는 것으로서, 제3탄성부(110e)를 감싸듯이 케이스부(110)의 하측면에 설치된다.
상술한 바와 같은 마이크부(120)가 설치되는 케이스부(110)의 구조에 따르면, 집중공간(S)과 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생하는 내외부의 소음이 효과적으로 흡수 및 차단되고, 집중공간(S)과 제2밀폐부(110f)를 통해 마이크부(120)로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 내외부의 소음으로부터 마이크부(120)가 봉인(Sealing)될 수 있으므로, 마이크부(120)에서의 음성인식률이 대폭적으로 향상될 수 있다.
한편, 도면에는 도시되지 않았지만, 케이스부(110)에는 마이크부(120)와, 인식부(130)와, 제어부(140)에 전력을 공급하는 배터리부가 설치될 수 있다. 이러한 배터리부는 충전 및 방전이 가능한 리튬 폴리머 전지 또는 리튬 이온 전지 등으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니다. 한편, 배터리부에는 과충전시 충전을 차단하는 과충전 방지 회로가 탑제될 수 있다.
또한, 도면에는 도시되지 않았지만, 케이스부(110)의 외부에는 후술하는 인식부(130) 및 제어부(140)의 상태를 표시하는 표시장치가 설치될 수 있다. 표시장치는 LED 매트릭스 타입으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니며, 인식부(130) 및 제어부(140)의 상태를 표시할 수 있는 것이라면, 어떠한 것으로 마련되더라도 무방하다.
또한, 도면에는 도시되지 않았지만, 케이스부(110)의 외부에는 영상을 촬영하여 영상정보를 생성할 수 있는 카메라모듈이 설치될 수 있고, 케이스부(110)의 내부에는 LTE 통신 등의 위한 통신모듈이 설치될 수 있다.
또한, 도면에는 도시되지 않았지만, 케이스부(110)의 외면에는 전자파를 흡수하여 전기에너지를 생산할 수 있는 에너지하베스팅층이 도포될 수 있다. 이러한 에너지하베스팅층은 상술한 배터리부에 연결되어 케이스부(110) 주변의 전자파를 흡수, 전기에너지로 전환하여 배터리부를 충전할 수 있다.
또한, 도면에는 도시되지 않았지만, 케이스부(110)에는 주변의 광에너지를 흡수하여 전기에너지를 생산할 수 있는 태양 전지 패널이 설치될 수 있다. 이러한 태양 전지 패널은 상술한 배터리부에 연결되어 케이스부(110) 주변의 광을 흡수, 전기에너지로 전환하여 배터리부를 충전할 수 있다.
마이크부(120)는, 외부로부터 음성을 수신하는 것으로써, 상술한 케이스부(110)의 집중공간(S)에 설치되며, 후술하는 인식부(130)에 전기적으로 연결된다. 마이크부(120)에 의해서 수신된 음성은 후술하는 인식부(130)로 전달되어 음성인식이 실시된다.
한편, 상술한 마이크부(120)에는 에코 캔슬(Echo Cancel) 기능 및 잡음 감쇄(Noside Reduction) 기능이 탑제될 수 있다. 이러한 기능을 탑제하는 마이크부(120)에 따르면, 음성 수신율이 더욱 향상될 수 있다.
한편, 마이크부(120)는 보다 상세하게, 기판부(121)와 마이크모듈(122)을 포함할 수 있다. 기판부(121)는 마이크모듈(122)이 설치되며 마이크모듈(122)로 입력되는 음성 정보를 가공하여 후술하는 인식부(130)로 전달하는데, 마이크모듈(122)이 설치되는 기판부(121)의 일측 부분에는 집중공간(S)에서 마이크모듈(122)로 음성이 유입될 수 있도록 관통홀이 형성될 수 있다. 마이크모듈(122)은 외부에서 전달되는 음성을 수신하는 것으로서, 상술한 기판부(121)에 설치된다.
인식부(130)는 상술한 마이크부(120)에서 수신된 음성을 인식하여 제어명령을 생성하는 것으로써, 상술한 케이스부(110)에 설치되며, 상술한 마이크부(120) 및 제어부(140)에 전기적으로 연결된다.
인식부(130)는 상술한 마이크부(120)에서 전달되는 음성을 기초로 호출어 음성인식과 고립어 음성인식을 수행함으로써, 음성을 인식하여 제어명령을 생성한다.
호출어 음성인식이란, 도 5에 도시된 바와 같이, 연속적으로 입력되는 음성신호로부터 미리 정해진 호출어(Keyword)를 검출하는 과정을 의미한다.
호출어 음성인식은 HMM(Hidden Markov Model) 기반의 연속 음성인식 기법을 변형하여 구현되는데, HMM 기반의 연속 음성인식 기법은 간략하게 다음과 같다.
음성신호가 Markov 모델(시간마다 상태를 바꾸는 Finite State Machine)에 의해 발생되면, 학습단계에서 Markov 모델의 파라메터가 추정된다. 이후, 인식부(130)에서는 추정된 파라메터를 이용해서 미지의 입력 음성에 가장 적합한 도델(음소 또는 단어)를 찾는 과정을 실시한다. 미지의 입력 음성에 대해 가장 적합한 모델이 발견되면, 이를 기초로 인식부(130)는 GMM(Gaussian Mixture Model) 및 DNN(Deep Neural Network)를 HMM과 융합해서 호출어를 인식한다.
상술한 호출어 음성인식에 따르면, Task에 무관하게 적은 계산량으로 연속 음성인식 엔진과 유사한 기능을 수행할 수 있는 효과가 있다.
고립어 음성인식이란, 도 6 및 도 7에 도시된 바와 같이, 호출어 음성인식 이후에 실시되는 단계로써, 음성신호로부터 미리 정해진 명령어(Command Word)와 같은 고립어(Isolated Word)를 검출하는 과정을 의미한다.
즉, 고립어 음성인식은 음성신호에서 관측된 값으로부터 확률이 최대가 되는 단어를 찾는 과정을 의미하는데, 이때, 확률은 Bayesian Rule에 의해서 선험확률과 Likelihood에 의해서 결정되며, Likelihood는 HMM(Hidden Markov Model)에서 연산된다.
한편, 여기서, 단어 단위의 고립어 음성인식은 1개의 단어가 1개의 HMM을 구성하므로, 인식 대상 단어가 많아지면, 파라메터의 크기가 단어 개수에 비례하여 증가한다는 문제가 있고, 인식 대상 단어가 변경되면, 음성 데이터를 새로 녹음 및 학습해야 하므로 모든 인식 대상 단어의 음성 데이터가 필요하다는 문제가 있다.
한편, 여기서, 상술한 음소단위 고립어 음성인식은 GMM 및 DNN을 HMM과 융합하여 고립어를 인식하는 과정으로 실시된다. 음소단위 고립어 음성인식은 단어 단위의 고립어 음성인식과 마찬가지로 1개의 음소가 1개의 HMM을 구성하는데, 음소단위 고립어 음성인식은 임의의 단어를 음소 모델 결합으로 구성할 수 있으므로, 인식 대상 단어가 바뀌는 가변 어휘 인식 엔진이 구현 가능하며, 음성 데이터의 양이 적더라고 같은 음소 환경을 갖는 모델들끼리 파라메터를 공유할 수 있으므로 음성 데이터 양이 적어도 되는 이점이 있다.
상술한 바와 같은 호출어 음성인식과 고립어 음성인식을 수행하는 인식부(130)에 따르면, 마이크부(120)에서 수신된 음성을 기초로 후술하는 제어부(140)에 전달될 제어명령이 용이하게 생성될 수 있다.
제어부(140)는 단말기(10)가 각종 기능을 수행할 수 있도록 상술한 인식부(130)로부터 전달되는 제어명령을 단말기(10)로 전송하며, 외부의 스피커(20)에서 오디오 출력이 실시될 수 있도록 스피커(20)로 데이터를 전송하는 하는 것으로써, 상술한 케이스부(110)에 설치되며, 단말기(10)와 스피커(20)에 전기적으로 연결된다.
제어부(140)로부터 전달되는 제어명령을 받은 단말기(10)는 제어명령에 따른 동작을 수행한다. 여기서, 제어명령은 음악재생, 날씨정보 검색, 지도정보 검색 등이 될 수 있다.
예를 들면, 일반적으로 스마트폰 등의 단말기(10)에는 음악재생을 위한 전용 어플리케이션이 설치되는데, 제어부(140)를 통해 단말기(10)로 전달되는 제어명령은 상술한 전용 어플리케이션을 제어하여, 단말기(10)에 내장된 메모리 또는 SD CARD 등에 저장된 음악파일을 재생할 수 있다.
한편, 여기서, 제어명령은 스마트폰 등의 단말기(10)가 제공하는 서비스 콘텐츠, 즉, 안드로이드의 구글 어시스턴스, 애플의 시리 등과 같은 단말기(10) 내에 기본 또는 선택적으로 설치되는 어플리케이션을 제어하는 명령일 수 있다. 이러한 제어명령에 따르면, 스마트폰 등과 같은 단말기(10)에 설치되는 어플리케이션이나 기타 기능 등을 음성으로 보다 효율적으로 제어할 수 있는 효과가 있다.
또한, 여기서, 제어명령은 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등과 같은 외부장치(40)의 내부에 설치되는 IoT(Internet of Things) 제어 어플리케이션 또는 기타 어플리케이션을 제어하는 명령일 수 있다. 이러한 제어명령에 따르면, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등과 같은 외부장치(40)를 음성으로 보다 효율적으로 제어할 수 있는 효과가 있다.
또한, 제어부(140)로부터 전달되는 제어명령을 받은 스피커(20)는 제어명령에 따른 오디오 출력을 실시한다. 여기서, 제어명령은 음악재생, 날씨정보 검색, 지도정보 검색 등이 될 수 있다.
한편, 제어부(140)는 스마트폰 등의 단말기(10)에 블루투스(Bluetooth)와 같은 무선의 방식으로 연결될 수 있고, 일반 스피커에 AUX 단자와 같은 유선단자를 통해 연결될 수 있고, 블루투스(Bluetooth) 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth)와 같은 무선의 방식으로 연결될 수 있고, 와이파이(Wi-Fi) 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있고, 자동차 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth) 또는 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있다.
자동차 스피커(20)에 AUX 단자와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth) 또는 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있다.
한편, 제어부(140)는 Wi-Fi, Hot-Spot 등의 무선의 방법으로 서버(30)에 직접 접속될 수 있다. 이에 따르면, 제어명령이 서버(30)에 직접 전달되며, 서버(30)는 전달된 제어명령을 기초로 데이터를 수집한 후, 이를 기반으로 응답데이터를 생성하고, 이후, 생성된 응답데이터를 제어부(140)로 전송한다. 전송된 응답데이터는 제어부(140)에 연결되는 스피커(20), 차량용 스피커(20) 등을 통해 외부로 출력된다.
또한, 제어부(140)는 무선 또는 유선의 방법으로 외부장치(40)와 연결되어, 제어명령을 외부장치(40)로 전달함으로써 외부장치(40)를 제어할 수 있다. 이러한 외부장치(40)는 예를 들면, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등으로 마련될 수 있다.
종래의 일반적인 AI 스피커(20)는 음성을 수신하는 마이크가 오디오를 출력하는 스피커(20)와 함께 일체되기 때문에, 스피커(20)에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다.
그러나, 상술한 바와 같은 케이스부(110)와, 마이크부(120)와, 인식부(130)와, 제어부(140)를 포함하는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스는(100) 스피커(20)와 별도로 떨어져 있기 때문에, 음성인식률이 크게 개선되며, 이에 따르면, 각종 스마트 기기가 음성을 통해 효과적으로 제어될 수 있다.
또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에 따르면, 마이크부(120)의 설치구조, 인식부(130)의 음성인식 과정에 따라 음성인식률이 크게 개선되므로, 발화자가 1.5m 이상 멀리 떨어져 있다 하더라도, 발화자의 음성이 효과적인 인식될 수 있는 효과가 있다.
또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에 따르면, 단말기(10) 및 기타 외부장치(40)를 음성으로 제어할 수 있다. 이에 따르면, 특정한 음악제공업체에서 제공하는 음악서비스 이외에도 자신의 단말기(10) 또는 외부장치(40)에 저장된 음악파일 등 각종 미디어 파일을 음성으로 제어하여 재생할 수 있다.
지금부터는 첨부한 도면을 참조하여, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템에 대해서 상세히 설명한다.
도 8은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 9는 본 발명의 제1변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 10은 본 발명의 제2변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이다.
도 8 내지 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)은 단말기(10)와 스피커(20)와, 인공지능 스마트 디바이스(100)와, 서버(30)와, 외부장치(40)를 포함한다.
단말기(10)는 스마트 폰 등으로 마련되는 것으로서, 사용자가 휴대가능하도록 마련되는 것일 수 있다. 이러한 단말기(10)는 외부의 클라우드 서버(30)와 연결되어 정보를 수집, 전달하며, 후술하는 인공지능 스마트 디바이스(100)에 무선으로 연결되어 각종 제어명령에 따른 기능, 즉, 음악재생, 정보검색 등을 수행할 수 있다.
스피커(20)는 후술하는 인공지능 스마트 디바이스로부터 전달되는 데이터를 기초로 음악, 음성 등의 오디오를 출력하는 것으로써, 인공지능 스마트 디바이스(100)에 무선 또는 유선의 방법으로 연결된다.
이러한 스피커(20)는 제어부(140)로부터 제어명령을 전달받은 다음, 제어명령에 따른 오디오 출력을 실시하는데, 이때, 오디오 출력에 따른 음악파일은 외부의 서버(30)로부터 스트리밍 방식으로 전달받거나, 내부의 저장공간에 저장된 것일 수 있다.
한편, 여기서, 스피커(20)는 일반 스피커(20), AI 스피커(20), 블루투스 스피커(20), 차량용 스피커(20) 등으로 마련될 수 있다.
인공지능 스마트 디바이스(100)는 케이스부(110)와, 마이크부(120)와, 인식부(130)와, 제어부(140)를 포함하는 것으로서, 세부구성은 상술한 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에서 설명한 구성과 동일한 것이므로 중복 설명은 생략한다.
종래의 일반적인 AI 스피커(20)는 음성을 수신하는 마이크가 오디오를 출력하는 스피커(20)와 함께 일체되기 때문에, 스피커(20)에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다. 그러나, 상술한 바와 같이, 본 발명의 인공지능 스마트 디바이스는 스피커(20)와 별도로 떨어져 있기 때문에, 음성인식률이 크게 개선된다. 따라서, 본 발명에 따르면, 각종 스마트 기기를 음성을 이용하여 효과적으로 제어할 수 있다.
한편, 본 발명의 인공지능 스마트 디바이스(100)는 도 8에 도시된 바와 같이, 음성정보 뿐만 아니라 영상정보도 입력받을 수 있고, 입력되는 영상정보를 이용하여 서버(30), 외부장치(40), 스피커(20) 등을 제어할 수 있도록 마련될 수 있다.
또한, 본 발명의 인공지능 스마트 디바이스(100)는 도 9에 도시된 바와 같이, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기, 기타 가전제품 등과 같은 외부장치(40)에 설치되는 형태로 마련될 수 도 있다.
서버(30)는 제어부(140)로부터 데이터를 수신하거나, 제어부(140)로 데이터를 전송하는 것으로서, 제어부(140)에서 전달되는 제어명령을 전달받아 정보를 수집하고, 수집된 정보를 기초로 응답데이터를 형성하여 제어부(140)로 전달한다. 여기서, 응답데이터는 음악정보, 날씨정보, 지도정보 등일 수 있다.
외부장치(40)는 제어부(140)로부터 데이터를 수신하거나, 제어부(140)로 데이터를 전송하여 각종 기능을 수행하는 것으로써, 서비스 로봇, 학습용 로봇, 토이 로봇(Toy robot), 키오스크, 냉장고, 세탁기, 공기청정기 등 가전제품 등으로 마련될 수 있다. 이러한 외부장치(40)는 제어부(140)로부터 전달되는 제어명령을 기초로 각종 서비스 제공, 정보전달, 놀이 실시 등의 기능을 수행한다.
상술한 바와 같은 단말기(10)와 스피커(20)와, 인공지능 스마트 디바이스와, 서버(30)와, 외부장치(40)를 포함하는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기가 음성에 따라 효과적으로 제어될 수 있다.
또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)에 따르면, 다양한 외부장치(40)를 음성으로 용이하게 제어하는 것이 가능하므로, 본 발명을 응용하면, 정보 검색 서비스, 음성 챗봇 서비스, 게임 및 놀이 서비스, 광고 제공 서비스 등 다양한 서비스가 사용자에게 효과적으로 제공될 수 있다.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
그리고 이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (7)

  1. 케이스부;
    상기 케이스부에 설치되며, 외부로부터 음성을 수신하는 마이크부;
    상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및
    상기 케이스부에 설치되며, 상기 단말기가 작동할 수 있도록 상기 단말기로 상기 제어명령을 전송하며, 외부의 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스.
  2. 청구항 1에 있어서,
    상기 제어부는,
    서버로부터 데이터를 수신하거나, 상기 서버로 데이터를 송신하는 것을 특징으로 하는 인공지능 스마트 디바이스.
  3. 청구항 1에 있어서,
    상기 단말기로 전달되는 제어명령은,
    상기 단말기에 설치된 어플리케이션을 제어하는 것을 특징으로 하는 인공지능 스마트 디바이스.
  4. 청구항 1에 있어서,
    상기 단말기로 전달되는 제어명령은,
    상기 단말기에 설치된 음악 재생 어플리케이션을 제어하여 상기 단말기의 저장장치에 저장된 음악파일을 제어하는 것을 특징으로 하는 인공지능 스마트 디바이스.
  5. 청구항 1에 있어서,
    상기 케이스부는,
    음성이 집중되는 공간인 집중공간을 형성하며,
    상기 마이크부는,
    음성의 수신율이 향상되도록 상기 집중공간을 형성하는 저면에 설치되는 것을 특징으로 하는 인공지능 스마트 디바이스.
  6. 청구항 5에 있어서,
    상기 케이스부에는,
    상기 집중공간의 상면을 마감하는 제1밀폐부와, 탄성재질로 마련되어 상기 집중공간의 상측에 설치되며 상기 제1밀폐부에 의해 상기 케이스부에 고정되는 제1탄성부와, 매쉬재질로 마련되어 상기 집중공간의 상측 또는 하측에 설치되는 매쉬부와, 탄성재질로 마련되어 상기 마이크부 상측에 설치되는 제2탄성부와, 탄성재질로 마련되어 상기 집중공간의 저면에서 설치되며 상기 제2탄성부 및 상기 마이크부가 수용되도록 상기 케이스부에 설치되는 제3탄성부와, 상기 제3탄성부를 감싸듯이 상기 케이스부의 하측에 설치되어 상기 제3탄성부를 상기 케이스부에 고정하는 제2밀폐부가 설치되는 것을 특징으로 하는 인공지능 스마트 디바이스.
  7. 단말기;
    오디오를 출력하는 스피커;
    케이스부와, 상기 케이스부에 설치되며 외부로부터 음성을 수신하는 마이크부와, 상기 케이스부에 설치되며 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부와, 상기 케이스부에 설치되며 상기 단말기로 상기 제어명령을 전송하며 상기 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스;
    상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송하는 서버; 및
    상기 제어부로부터 데이터를 수신하거나, 상기 제어부로 데이터를 전송함으로서 동작되는 외부장치를 포함하는 인공지능 스마트 디바이스를 이용한 음성제어 시스템.
PCT/KR2019/002908 2018-03-29 2019-03-13 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템 WO2019190082A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0036488 2018-03-29
KR1020180036488A KR20190119195A (ko) 2018-03-29 2018-03-29 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템

Publications (1)

Publication Number Publication Date
WO2019190082A1 true WO2019190082A1 (ko) 2019-10-03

Family

ID=68059311

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/002908 WO2019190082A1 (ko) 2018-03-29 2019-03-13 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템

Country Status (2)

Country Link
KR (1) KR20190119195A (ko)
WO (1) WO2019190082A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349337A (zh) * 2020-11-03 2021-02-09 中科创达软件股份有限公司 一种车机检测方法、系统、电子设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102409281B1 (ko) 2021-11-25 2022-06-15 (주)펜타유니버스 인공지능 기반의 가전기기 인터렉티브 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140138116A (ko) * 2012-03-21 2014-12-03 가부시키가이샤 도모에가와 세이시쇼 마이크로폰 장치, 마이크로폰 유닛, 마이크로폰 구조 및 이를 이용한 전자 기기
KR20170044426A (ko) * 2015-10-15 2017-04-25 삼성전자주식회사 음성 신호 인식 방법 및 이를 제공하는 전자 장치
US20170345420A1 (en) * 2016-05-27 2017-11-30 Centurylink Intellectual Property Llc Internet of Things (IoT) Human Interface Apparatus, System, and Method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140138116A (ko) * 2012-03-21 2014-12-03 가부시키가이샤 도모에가와 세이시쇼 마이크로폰 장치, 마이크로폰 유닛, 마이크로폰 구조 및 이를 이용한 전자 기기
KR20170044426A (ko) * 2015-10-15 2017-04-25 삼성전자주식회사 음성 신호 인식 방법 및 이를 제공하는 전자 장치
US20170345420A1 (en) * 2016-05-27 2017-11-30 Centurylink Intellectual Property Llc Internet of Things (IoT) Human Interface Apparatus, System, and Method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Have you been Talking with Artificial Intelligence Speaker?", SOFTWARE CENTRAL SOCIETY ARTICLE, 22 December 2017 (2017-12-22), Retrieved from the Internet <URL:http://www.software.kr/um/um03/um0305/um030504/um030504View.do?postId=43113> [retrieved on 20190522] *
"Intelligent AI Secretary, Into the World over the Living Room", TECHM NO.49, 14 May 2017 (2017-05-14) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349337A (zh) * 2020-11-03 2021-02-09 中科创达软件股份有限公司 一种车机检测方法、系统、电子设备和存储介质
CN112349337B (zh) * 2020-11-03 2023-06-30 中科创达软件股份有限公司 一种车机检测方法、系统、电子设备和存储介质

Also Published As

Publication number Publication date
KR20190119195A (ko) 2019-10-22

Similar Documents

Publication Publication Date Title
US11985464B2 (en) Wireless audio output devices
WO2014107076A1 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
US9620116B2 (en) Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
WO2018147687A1 (en) Method and apparatus for managing voice-based interaction in internet of things network system
WO2016099077A1 (en) Acoustic input module and electronic device including the same
CN108550367A (zh) 一种便携式智能语音交互控制设备、方法及系统
WO2019190082A1 (ko) 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템
WO2018208026A1 (ko) 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
WO2020173249A1 (zh) 充电系统、电子设备及充电控制方法
WO2019216579A1 (ko) 스피커 모듈을 이용한 발수 구조를 가진 웨어러블 전자 장치 및 그의 수분 침투 감지 방법
WO2020262938A1 (ko) 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스
WO2020019843A1 (zh) 麦克风堵孔检测方法及相关产品
WO2018117660A1 (en) Security enhanced speech recognition method and device
CN103762390B (zh) 充电方法及行动电子装置
CN206585730U (zh) 一种支持扩展的音箱
WO2021091063A1 (ko) 전자장치 및 그 제어방법
CN207021746U (zh) 移动电源
CN110475175B (zh) 一种为无线耳机充电的方法及装置
WO2023096309A1 (ko) 유해 언어를 필터링하기 위한 전자 장치 및 방법
WO2023136385A1 (ko) 발화인지를 지원하는 이어버드 및 관련 방법
WO2022196955A1 (ko) 인공지능 모델을 사전 학습시키는 방법 및 장치
WO2022260450A1 (ko) 오디오 음질 변환 장치 및 그의 제어방법
KR101999779B1 (ko) 통역방법
CN106249836A (zh) 一种终端控制方法和终端
CN203827327U (zh) 无线信号交互装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19777700

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19777700

Country of ref document: EP

Kind code of ref document: A1