WO2020262938A1 - 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스 - Google Patents

인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스 Download PDF

Info

Publication number
WO2020262938A1
WO2020262938A1 PCT/KR2020/008166 KR2020008166W WO2020262938A1 WO 2020262938 A1 WO2020262938 A1 WO 2020262938A1 KR 2020008166 W KR2020008166 W KR 2020008166W WO 2020262938 A1 WO2020262938 A1 WO 2020262938A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
microphone
speaker
artificial intelligence
smart device
Prior art date
Application number
PCT/KR2020/008166
Other languages
English (en)
French (fr)
Inventor
박연묵
Original Assignee
박연묵
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박연묵 filed Critical 박연묵
Priority to US17/621,703 priority Critical patent/US11917363B2/en
Publication of WO2020262938A1 publication Critical patent/WO2020262938A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/04Structural association of microphone with electric circuitry therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • H04R1/083Special constructions of mouthpieces
    • H04R1/086Protective screens, e.g. all weather or wind screens
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/34Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means
    • H04R1/342Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means for microphones

Definitions

  • the present invention relates to a structure of a microphone module of an artificial intelligence smart device and an artificial intelligence smart device including the same, and more particularly, by blocking internal and external noise, vibration, shock, or sound output from a speaker from being transmitted to a microphone.
  • the present invention relates to a structure of a microphone module of an artificial intelligence smart device that can significantly improve the recognition rate, and an artificial intelligence smart device including the same.
  • AI Artificial Intelligence
  • AI Artificial Intelligence
  • the conventional AI speaker and AI sound bar have a problem that the voice reception rate of the microphone is greatly reduced due to various internal and external noises, vibrations, and shocks in addition to the audio output of the speaker as described above.
  • the elastic portion a first elastic portion installed on the upper side of the concentration space and fixed to the base portion by the first sealing portion, a second elastic portion installed above the microphone portion, and It is installed on the bottom surface and may include a third elastic portion installed in the microphone module portion to accommodate the second elastic portion and the microphone portion.
  • the microphone module unit may further include a second sealing unit installed below the microphone module unit to surround the third elastic unit to fix the third elastic unit to the microphone module unit.
  • FIG. 2 is a diagram showing the appearance of an artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 4 is a diagram showing the structure of a microphone module of an artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 5 is a diagram illustrating a process of transmitting a voice to a microphone unit of an artificial intelligence smart device according to an embodiment of the present invention.
  • FIG. 7 shows a modified example of the structure of the microphone unit and the microphone module unit of the artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 12 is an overall diagram of a voice control system using an artificial intelligence smart device according to a first modified example of the present invention
  • FIG. 13 is an overall view of a voice control system using an artificial intelligence smart device according to a second modified example of the present invention.
  • FIG. 1 is a general diagram of a voice control system using an artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 2 is a view showing the appearance of an artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 4 shows the electrical connection between the components of the artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 4 shows the structure of the microphone module unit of the artificial intelligence smart device according to an embodiment of the present invention
  • FIG. 6 shows a process of transmitting voice to the microphone unit of the artificial intelligence smart device according to an embodiment of the present invention, and FIG. 6 illustrates noise, vibration, and noise in the microphone module unit of the artificial intelligence smart device according to an embodiment of the present invention.
  • the shape of the case part 110 is a button shape, a stud shape, a pin shape, a bar shape, a dish, plate, pan shape, a bowl shape, a pot (Pot) shape, Hexahedron shape, Cube shape, rectangular parallelepiped, Parallelopipedon shape, cylinder shape, cone shape, circle, round shape, sphere, It may be provided in a conglobation, globoid shape, polyhedron shape, etc., but is not necessarily limited thereto, and a space in which the microphone module unit 120, recognition unit 140, and control unit 150 described later are installed is provided. If it is to do, it can be provided in any form.
  • the microphone unit 130 since the voice reception rate in the microphone unit 130 is greatly improved, even if the microphone module unit 120 is disposed at a location that is several meters (eg, 1m) or more away from the talker, the microphone unit ( 130) can be effectively collected.
  • the third elastic part 126 is generated from inside and outside the artificial intelligence smart device 100 according to an embodiment of the present invention and flows into the microphone unit 130 through the second sealing unit 127 to be described later,
  • the shock is absorbed and blocked thirdly, and from the noise introduced from the inside and outside of the artificial intelligence smart device 100 according to an embodiment of the present invention and flowing into the microphone unit 130 through the second sealing unit 127 to be described later.
  • the third elastic part 126 forms an accommodation space in which the microphone part 130 is accommodated, and may be fixedly installed on the base part 121 by a second sealing part 127 to be described later.
  • the second sealing part 127 prevents the third elastic part 126 from vibrating or moving by internal or external noise, vibration, shock, or sound of the speaker 20 installed inside or outside the microphone module unit 120. As to fix the third elastic portion 126, it is installed on the lower side of the microphone module unit 120 as if surrounding the third elastic portion 126.
  • the base portion 121, the first sealing portion 122, the first elastic portion 123, the mesh portion 124, the second elastic portion 125, and the third elastic portion According to the structure of the microphone module unit 120 including the 126 and the second sealing unit 127, the inner and outer sides flowing into the microphone unit 130 through the concentration space (S) and the second sealing unit 127 Noise, shock, vibration and sound, shock, vibration, etc. by the speaker 20 installed inside or outside the microphone module unit 120 are effectively absorbed and blocked, and the concentration space S and the second sealing unit 127 ) Through the microphone unit 130 from internal and external noise, shock, and vibration introduced into the microphone unit 130 and the sound, shock, and vibration by the speaker 20 installed inside or outside the microphone module unit 120. Since can be sealed (sealing), the voice recognition rate in the microphone unit 130 can be significantly improved.
  • the microphone module unit 120 may be provided with a microphone unit 130, a recognition unit 140, and a battery unit supplying power to the control unit 150.
  • a battery unit may be provided as a lithium polymer battery or a lithium ion battery capable of charging and discharging, but is not limited thereto.
  • an overcharge prevention circuit may be mounted on the battery unit to block charging during overcharge.
  • the microphone unit 130 may include a substrate unit 131 and a microphone 132 in more detail.
  • the substrate part 131 is provided with a microphone 132 and processes the voice information input through the microphone 132 and transmits it to a recognition part 140 to be described later.
  • One side of the substrate part 131 on which the microphone 132 is installed A through hole may be formed in the portion to allow voice to flow into the microphone 132 from the concentration space (S).
  • the microphone 132 receives voice transmitted from the outside, and is installed on the above-described substrate part 131.
  • Such a microphone 132 includes a carbon microphone, a ribbon microphone, a moving coil microphone, a crystal microphone, a dynamic microphone, a condenser microphone, Electrostatic Microphone, Velocity Microphone, ECM Microphone, Electric Capacitor Microphone, Analog Micro-Electro Mechanical Systems Microphone, Digital Micro-Electro Mechanical Systems Microphone, etc. Any one or more of the guitar microphones may be provided.
  • the recognition unit 140 generates a control command by recognizing the voice received from the microphone unit 130 described above, and is installed in the microphone module unit 120 or the case unit 110 described above, and It is electrically connected to 130 and the control unit 150.
  • the recognition unit 140 recognizes the voice and generates a control command by performing caller speech recognition and isolated language voice recognition based on the voice transmitted from the microphone unit 130 described above.
  • Call word speech recognition refers to a process of detecting a predetermined key word from a continuously input voice signal.
  • Caller speech recognition is implemented by modifying the continuous speech recognition technique based on HMM (Hidden Markov Model), and the continuous speech recognition technique based on HMM is briefly as follows.
  • HMM Hidden Markov Model
  • the recognition unit 140 When the speech signal is generated by a Markov model (a Finite State Machine that changes state every time), the parameters of the Markov model are estimated in the learning step. Thereafter, the recognition unit 140 performs a process of finding a model (phoneme or word) most suitable for an unknown input voice using the estimated parameter. When the most suitable model for an unknown input voice is found, based on this, the recognition unit 140 recognizes a call word by fusing a Gaussian Mixture Model (GMM) and a Deep Neural Network (DNN) with an HMM.
  • GMM Gaussian Mixture Model
  • DNN Deep Neural Network
  • the isolated word speech recognition is a step performed after the call word speech recognition, as shown in FIGS. 9 and 10, and refers to a process of detecting an isolated word such as a predetermined command word from a voice signal. do.
  • the GMM and DNN are fused with the HMM to recognize the isolated word.
  • one phoneme constitutes one HMM, similar to the word-based isolated word speech recognition. Since the phoneme-based isolated word speech recognition can consist of arbitrary words by combining a phoneme model, the target word for recognition is variable. A vocabulary recognition engine can be implemented, and even though the amount of speech data is small, the parameters can be shared between models having the same phoneme environment, so that the amount of speech data is minimal.
  • a control command to be transmitted to the control unit 150 to be described later is easily generated based on the voice received from the microphone unit 130 Can be.
  • the above-described recognition unit 140 includes an acoustic signal amplification function, an acoustic signal filtering function, an acoustic voice signal extraction function, and an acoustic noise signal extraction function. It may be equipped with an Extraction function, Acoustic Source Separation function, Acoustic Echo Cancellation function, Acoustic Noise Reduction function, and Acoustic Beam Forming function. According to the recognition unit 140 equipped with such a function, the voice reception rate can be further improved.
  • the control unit 150 transmits the control command transmitted from the above-described recognition unit 140 to the terminal 10 so that the terminal 10 can perform various functions, and an audio output from the external speaker 20 is performed.
  • the control unit 150 transmits data to the speaker 20 so that data is transmitted to the speaker 20, it is installed in the microphone module unit 120 or the case unit 110, and is electrically connected to the terminal 10 and the speaker 20, or Bluetooth ) Or by a wireless method such as Wi-Fi.
  • a terminal 10 such as a smartphone is equipped with a dedicated application for music playback, and a control command transmitted to the terminal 10 through the control unit 150 controls the above-described dedicated application, (10) Music files and video files stored in the internal memory or SD CARD can be searched and played, and photo files can be searched and displayed.
  • Display devices Head mounted display devices for virtual reality), Earphones and Earsets worn on the ears, Headphones and Headsets worn on the head, Neckband and Neckset worn on the neck (Neckset) and Neckphone, Wristband and Wristset and Wristphone worn on the wrist, Notebook personal computer, Tablet personal computer, Desktop computer (Desktop personal computer), Electronic book (e-book), Monitor, Industrial robot, Service robot, Teaching robot, Toy robot, Rehabilitation robot, humanoid robot ( Humanoid robot, kiosk, Semiconductors manufacturing equipments and metrology equipments and inspection equipments, Display panels manufacturing equipments and metrology equipments and inspection equipments), PCB boards manufacturing equipments and metrology equipments and inspection equipments, Products manufacturing equipments and metrology equipments and inspection equipments, and various devices Devices manufacturing equipments and metrology equipments and inspection equipments, Automotive, Train, Subway, Ship, Boat, Submarine, Aircraft, Aircraft , Internet of Things (IoT) control application installed inside external devices 40 such as drones,
  • control unit 150 may be directly connected to the server 30 by a wireless method such as Wi-Fi, a hotspot, and a long term evolution (LTE), or a wired method such as Ethernet.
  • a wireless method such as Wi-Fi, a hotspot, and a long term evolution (LTE), or a wired method such as Ethernet.
  • LTE long term evolution
  • Ethernet a wired method such as Ethernet.
  • the control command is directly transmitted to the server 30, and the server 30 collects data based on the transmitted control command, generates response data based on this, and then controls the generated response data.
  • Send to 150 The transmitted response data is output to the outside through a speaker 20 connected to the controller 150, a vehicle speaker 20, and the like.
  • the speech recognition rate is greatly improved according to the installation structure of the microphone unit 130 and the speech recognition process of the recognition unit 140, the number of speakers Even if it is farther than a meter (eg 1m), there is an effect that the speaker's voice can be effectively recognized.
  • the speaker 20 receives a control command from the control unit 150 and then performs audio output according to the control command.
  • the music file according to the audio output is transmitted from the external server 30 in a streaming method, or It may be stored in an internal storage space.
  • An artificial intelligence smart including the terminal 10, the speaker 20, the artificial intelligence smart device 100, the server 30, and the external device 40 as described above. According to the voice control system 1000 using the device, since the voice recognition rate is greatly improved, various smart devices can be effectively controlled according to the voice.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

본 발명은 인공지능 스마트 디바이스의 마이크모듈부 구조에 관한 것으로서, 본 발명에 따르면, 내, 외부의 소음, 진동, 충격 또는 스피커에서 출력되는 소리가 마이크로 전달되는 것을 차단하여, AI 스피커, AI 사운드바 또는 각종 음성인식 장치의 음성인식률이 크게 개선되므로, 각종 스마트 기기를 음성을 통해 효과적으로 제어할 수 있다.

Description

인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스
본 발명은 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스에 관한 것으로서, 보다 상세하게는, 내외부의 소음, 진동, 충격 또는 스피커에서 출력되는 소리가 마이크로 전달되는 것을 차단하여 음성인식률을 대폭적으로 향상시킬 수 있는 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스에 관한 것이다.
최근 스마트폰 및 태블릿 PC, 데스크탑 PC, PMP(portable multimedia player), MP3 플레이어, 또는 웨어러블 장치(wearable device) 등의 전자 장치가 사용자에게 널리 보급되고 있으며, 사용자는 이러한 다양한 전자 장치를 통하여 다양한 컨텐츠를 접할 수 있다.
특히, 최근에는 AI(Artificial Intelligence) 스피커로 불리우는 음성인식이 가능한 스피커가 개발되었고, AI(Artificial Intelligence) 사운드바(Soundbar)로 불리우는 음성인식이 가능한 사운드바가 개발되었다. 상기와 같은 AI 스피커, AI 사운드바는 사용자의 음성을 인식하여 음악 또는 영상을 재생할 뿐만 아니라, 각종 정보를 사용자에게 제공하고, 음성에 따라 무선으로 연결된 외부장치를 제어하는 다양한 기능을 수행할 수 있다.
그러나 상술한 AI 스피커, AI 사운드바는 음성을 수신하는 마이크가 오디오를 출력하는 스피커와 함께 일체되기 때문에, 사용자가 AI 스피커, AI 사운드바로부터 멀리 떨어진 상태에서 스피커에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다.
또한 종래의 AI 스피커, AI 사운드바는 상술한 바와 같은 스피커의 오디오 출력 이외에도 내외부의 기타 여러 소음, 진동, 충격에 의해 마이크의 음성 수신율이 크게 떨어진다는 문제가 있다.
본 발명의 목적은 상술한 종래의 문제점을 해결하기 위한 것으로서, 내외부의 소음, 진동, 충격 또는 스피커에서 출력되는 소리가 마이크로 전달되는 것을 차단하여 음성인식률을 대폭적으로 향상시킬 수 있는 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스를 제공함에 있다.
상기 목적은, 본 발명에 따라, 케이스부와, 상기 케이스부에 설치되는 마이크모듈부와, 상기 마이크모듈부에 설치되며 외부로부터 음성을 수신하는 마이크부와, 상기 케이스부에 설치되며 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부와, 상기 케이스부에 설치되며 상기 단말기가 작동할 수 있도록 상기 단말기로 상기 제어명령을 전송하며 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스에 있어서, 상기 마이크모듈부는, 음성이 집중되는 공간인 집중공간을 형성하며, 상기 마이크부는, 상기 스피커에서 출력되는 오디오 출력이 상기 마이크부로 전달되지 않도록 상기 집중공간에 설치되는 것을 특징으로 하는 인공지능 스마트 디바이스의 마이크모듈부 구조에 의해 달성된다.
상기 목적은, 본 발명에 따라, 케이스부; 상기 케이스부에 설치되는 마이크모듈부; 상기 마이크모듈부에 설치되며, 외부로부터 음성을 수신하는 마이크부; 상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및 상기 케이스부에 설치되며, 상기 단말기가 작동할 수 있도록 상기 단말기로 상기 제어명령을 전송하며, 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하되, 상기 마이크모듈부는, 음성이 집중되는 공간인 집중공간을 형성하며, 상기 마이크부는, 상기 스피커에서 출력되는 오디오 출력이 상기 마이크부로 전달되지 않도록 상기 집중공간에 설치되는 것을 특징으로 하는 인공지능 스마트 디바이스에 의해 달성된다.
또한, 상기 마이크모듈부는, 상기 집중공간이 형성되는 베이스부와, 상기 스피커에서 발생되는 소리 또는 진동 또는 충격이 상기 마이크부로 전달되지 않도록 탄성재질 또는 흡음재질 또는 방진재질 또는 복합재질로 마련되어 상기 집중공간 측에 설치되는 탄성부를 포함할 수 있다.
또한, 상기 마이크모듈부는, 상기 집중공간의 상면을 마감하는 제1밀폐부와, 메시재질로 마련되어 상기 집중공간의 상측 또는 하측 중 어느 하나 이상에 설치되는 메시부를 더 포함할 수 있다.
또한, 상기 탄성부는, 상기 집중공간의 상측에 설치되며 상기 제1밀폐부에 의해 상기 베이스부에 고정되는 제1탄성부와, 상기 마이크부 상측에 설치되는 제2탄성부와, 상기 집중공간의 저면에 설치되며 상기 제2탄성부 및 상기 마이크부가 수용되도록 상기 마이크모듈부에 설치되는 제3탄성부를 포함할 수 있다.
또한, 상기 마이크모듈부는, 상기 제3탄성부를 감싸듯이 상기 마이크모듈부의 하측에 설치되어 상기 제3탄성부를 상기 마이크모듈부에 고정하는 제2밀폐부를 더 포함할 수 있다.
본 발명에 따르면, AI 스피커, AI사운드바 또는 각종 음성인식 장치의 음성인식률이 크게 개선되므로, 각종 스마트 기기를 음성을 통해 효과적으로 제어할 수 있다.
도 1은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고,
도 2는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 외관을 도시한 것이고,
도 3은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 구성간의 전기적 연결을 도시한 것이고,
도 4는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 마이크모듈부 구조를 도시한 것이고,
도 5는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 마이크부로 음성이 전달되는 과정을 도시한 것이고,
도 6은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 마이크모듈부에서 소음, 진동, 충격이 흡수 및 차단되는 과정을 도시한 것이고,
도 7은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 마이크부 및 마이크모듈부 구조의 변형예를 도시한 것이고,
도 8은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 호출어 음성인식을 수행하는 과정을 도시한 것이고,
도 9 및 도 10은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 고립어 음성인식을 수행하는 과정을 도시한 것이고,
도 11은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고,
도 12는 본 발명의 제1변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고,
도 13은 본 발명의 제2변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이다.
도 14 내지 도 23는 본 발명의 추가적인 기타 변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이다.
이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다.
그리고 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다.
지금부터 첨부한 도면을 참조하여, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스에 대해서 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 2는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 외관을 도시한 것이고, 도 3은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 구성간의 전기적 연결을 도시한 것이고, 도 4는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 마이크모듈부 구조를 도시한 것이고, 도 5는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 마이크부로 음성이 전달되는 과정을 도시한 것이고, 도 6은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 마이크모듈부에서 소음, 진동, 충격이 흡수 및 차단되는 과정을 도시한 것이고, 도 7은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 마이크부 및 마이크모듈부 구조의 변형예를 도시한 것이고, 도 8은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 호출어 음성인식을 수행하는 과정을 도시한 것이고, 도 9 및 도 10은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스의 인식부에서 고립어 음성인식을 수행하는 과정을 도시한 것이다.
도 1 내지 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스는 케이스부(110)와, 마이크모듈부(120)와, 마이크부(130)와, 인식부(140)와, 제어부(150)를 포함한다.
케이스부(110)는 후술하는 마이크모듈부(120)와 인식부(140)와 제어부(150)가 설치되는 공간을 제공하는 것으로써, 일반 스피커, 일반 사운드바, AI 스피커, AI 사운드바, 와이파이(Wi-Fi) 스피커, 블루투스(Bluetooth) 스피커, 텔레비전(Television), 셋톱박스(Set-top box), 냉장고(Refrigerator), 공기청정기(Air cleaner, Air purifier), 에어컨(Air conditioner), 세탁기(Washing machine, Washer), 전자레인지(Microwave, Microoven), 스마트폰(smart phone), 스마트 시계(Smart watch), 스마트 안경(Smart glass), 헬멧(Helmet), 사람 또는 동물 또는 사물에 부착하는 웨어러블 디바이스(Wearable devices for human or animal or things), IoT 디바이스(Internet of Things devices), 가상현실용으로 머리에 착용하는 디스플레이 디바이스(Head mounted display devices for virtual reality), 귀에 착용하는 이어폰(Earphone) 및 이어셋(Earset), 머리에 착용하는 헤드폰(Headphone) 및 헤드셋(Headset), 목에 착용하는 넥밴드(Neckband) 및 넥셋(Neckset) 및 넥폰(Neckphone), 손목에 착용하는 손목밴드(Wristband) 및 손목셋(Wristset) 및 손목폰(Wristphone), 노트북 컴퓨터(Notebook personal computer), 테블릿 컴퓨터(Tablet personal computer), 데스크탑 컴퓨터(Desktop personal computer), 전자책(Electronic book, e-book), 모니터(Monitor), 산업용 로봇(Industrial robot), 서비스 로봇(Service robot), 학습용 로봇(Teaching robot), 토이 로봇(Toy robot), 재활 로봇(Rehabilitation robot), 휴머노이드 로봇(Humanoid robot), 키오스크(kiosk), 반도체 제조장비 및 계측장비 및 검사장비(Semiconductors manufacturing equipments and metrology equipments and inspection equipments), 디스플레이 패널 제조장비 및 계측장비 및 검사장비(Display panels manufacturing equipments and metrology equipments and inspection equipments), PCB 보드 제조장비 및 계측장비 및 검사장비(PCB boards manufacturing equipments and metrology equipments and inspection equipments), 각종 제품 제조장비 및 계측장비 및 검사장비(Products manufacturing equipments and metrology equipments and inspection equipments), 각종 디바이스 제조장비 및 검사장비(Devices manufacturing equipments and metrology equipments and inspection equipments), 자동차(Automobile), 기차(Train), 지하철(Subway), 배(Ship, Boat), 잠수함(Submarine), 비행기(Airplane, Aircraft), 드론(Drone), 우주선(Space shuttle, Spacecraft, Spaceship), 우주기지(Space station), 건물 내 벽, 천장, 책상, 기타 구조물, 기타 전자제품, 기타 가전제품 등에 쉽게 설치될 수 있도록 케이스부(110)의 후면 또는 측면 또는 전면에는 고정 또는 연결이 가능한 클립(Clip), 후크(Hook), 나사(Screw), 볼트 및 너트(Bolt and nut) 등의 기계장치 형태의 설치수단이 형성되거나, 고정 또는 연결이 가능한 USB 단자(Universal Serial Bus port), Aux 단자(Auxiliary port), HDMI(High-Definition Multimedia Interface) 단자, 광 커넥터(Optical connector), 동축 커넥터(Coaxial connector), 각종 전자커넥터(Electronic connector), 각종 전자단자(Electronic port, Electronic terminal), 각종 전기선(Electric wire) 등의 전자장치 형태 또는 전기장치 형태의 설치수단이 형성된다.
이러한 케이스부(110)의 형상은 단추(Button) 형상, 스터드(Stud) 형상, 핀(Pin) 형상, 막대기(Bar) 형상, 접시(Dish, Plate, Pan) 형상, 그릇(Bowl) 형상, 냄비(Pot) 형상, 육면체(Hexahedron) 형상, 정육면체(Cube) 형상, 직육면체(Rectangular parallelepiped, Parallelopipedon) 형상, 원기둥(Cylinder) 형상, 원뿔(Cone) 형상, 원형(Circle, Round) 형상, 구형(Sphere, Conglobation, Globoid) 형상, 다면체(Polyhedron) 형상 등으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니며, 후술하는 마이크모듈부(120)와 인식부(140)와 제어부(150)가 설치되는 공간을 제공하는 것이라면, 어떠한 형태로 마련되더라도 무방하다.
마이크모듈부(120)는 상술한 케이스부(110)에 설치되며, 내부에는 후술하는 마이크부(130)가 설치되는 공간을 제공하는 것으로서, 내외부의 소음, 진동, 충격이 마이크부(130)로 전달되는 것을 차단한다.
상술한 마이크모듈부(120)는 보다 상세하게, 베이스부(121)와, 제1밀폐부(122)와, 제1탄성부(123)와, 메시부(124)와, 제2탄성부(125)와, 제3탄성부(126)와, 제2밀폐부(127)를 포함할 수 있다.
베이스부(121)는 도 4 내지 도 7에 도시된 바와 같이, 후술하는 마이크부(130)가 설치되는 공간인 집중공간(S)이 형성되는 것으로서, 후술하는 제1밀폐부(122)와, 제1탄성부(123)와, 메시부(124)와, 제2탄성부(125)와, 제3탄성부(126)와, 제2밀폐부(127)가 설치되는 공간을 제공한다. 이러한 베이스부(121)의 구조에 따르면, 외부의 음성이 집중공간(S)으로 집중된 후, 마이크부(130)로 입력될 수 있다. 상술한 집중공간(S)에 따르면, 마이크부(130)에서의 음성 수신율이 크게 향상되므로, 마이크모듈부(120)가 발화자로부터 수 미터(예 : 1m) 이상 멀리 떨어진 위치에 배치되더라도 마이크부(130)에서 음성이 효과적으로 수집될 수 있다.
제1밀폐부(122)는 집중공간(S)의 상측을 마감하는 것으로서, 후술하는 제1탄성부(123)가 내외부의 소음, 진동, 충격 또는 마이크모듈부(120)의 내부 또는 외부에 설치되는 스피커(20)의 소리에 의해 진동되거나 움직이지 않도록 제1탄성부(123)를 고정시킨다.
제1탄성부(123)는 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 야기되는 소음, 진동, 충격을 1차적으로 흡수 및 차단하고, 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 야기되는 소음으로부터 집중공간(S)을 봉인(Sealing)하고, 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 발생되는 소음으로부터 마이크부(130)를 1차적으로 봉인(Sealing)하는 것으로서, 실리콘(Silicon), 고무(Rubber), 쿠션(Cushion), 스펀지(Sponge), 포론(Phorone), 에틸렌비닐아세테이트(Ethylene-Vinyl Acetate), 코르크(Cork), 나무(Tree), 목재(Wood), 펄프(Pulp), 각종 복합물질(Composite material), 각종 탄성물질(Elastic material), 각종 흡음물질(Acoustic absorbent material, Sound absorbent material), 각종 방진물질(Vibration proof material) 등과 같은 탄성재질 또는 흡음재질 또는 방진재질 또는 복합재질로 마련될 수 있다.
이러한 제1탄성부(123)는 집중공간(S)의 상측에 설치되는데, 상술한 제1밀폐부(122)에 의해서 베이스부(121)에 고정적으로 설치된다.
메시부(124)는 메시재질로 마련되어 외부에서 유입되는 먼지, 이물질 등이 마이크부(130)로 유입되는 것을 차단하는 것으로서, 집중공간(S)의 상측 또는 하측에 설치될 수 있다.
제2탄성부(125)는 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 야기되는 소음, 진동, 충격을 2차적으로 흡수 및 차단하고, 집중공간(S)으로 유입되는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 야기되는 소음으로부터 마이크부(130)를 2차적으로 봉인(Sealing)하며, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 야기되어 후술하는 제2밀폐부(127)를 통해 마이크부(130)로 유입되는 소음으로부터 마이크부(130)를 2차적으로 봉인(Sealing)하는 것으로서, 실리콘(Silicon), 고무(Rubber), 쿠션(Cushion), 스펀지(Sponge), 포론(Phorone), 에틸렌비닐아세테이트(Ethylene-Vinyl Acetate), 코르크(Cork), 나무(Tree), 목재(Wood), 펄프(Pulp), 각종 복합물질(Composite material), 각종 탄성물질(Elastic material), 각종 흡음물질(Acoustic absorbent material, Sound absorbent material), 각종 방진물질(Vibration proof material) 등과 같은 탄성재질 또는 흡음재질 또는 방진재질 또는 복합재질로 마련될 수 있다. 이러한 제2탄성부(125)는 마이크부(130) 상측에 설치되는 것이 바람직하다.
제3탄성부(126)는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 야기되어 후술하는 제2밀폐부(127)를 통해 마이크부(130)로 유입되는 소음, 진동, 충격을 3차적으로 흡수 및 차단하고, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100) 내외부에서 야기되어 후술하는 제2밀폐부(127)를 통해 마이크부(130)로 유입되는 소음으로부터 마이크부(130)를 3차적으로 봉인하는(Sealing) 것으로서, 실리콘(Silicon), 고무(Rubber), 쿠션(Cushion), 스펀지(Sponge), 포론(Phorone), 에틸렌비닐아세테이트(Ethylene-Vinyl Acetate), 코르크(Cork), 나무(Tree), 목재(Wood), 펄프(Pulp), 각종 복합물질(Composite material), 각종 탄성물질(Elastic material), 각종 흡음물질(Acoustic absorbent material, Sound absorbent material), 각종 방진물질(Vibration proof material) 등과 같은 탄성재질 또는 흡음재질 또는 방진재질 또는 복합재질로 마련될 수 있다. 이러한 제3탄성부(126)는 마이크부(130)가 수용되는 수용공간을 형성하며, 후술하는 제2밀폐부(127)에 의해서 고정적으로 베이스부(121)에 설치될 수 있다.
제2밀폐부(127)는 제3탄성부(126)가 내외부의 소음, 진동, 충격 또는 마이크모듈부(120)의 내부 또는 외부에 설치되는 스피커(20)의 소리에 의해 진동되거나 움직이지 않도록 제3탄성부(126)를 고정시키는 것으로서, 제3탄성부(126)를 감싸듯이 마이크모듈부(120)의 하측면에 설치된다.
상술한 바와 같은 베이스부(121)와, 제1밀폐부(122)와, 제1탄성부(123)와, 메시부(124)와, 제2탄성부(125)와, 제3탄성부(126)와, 제2밀폐부(127)를 포함하는 마이크모듈부(120)의 구조에 따르면, 집중공간(S)과 제2밀폐부(127)를 통해 마이크부(130)로 유입되는 내외부의 소음, 충격, 진동과 마이크모듈부(120)의 내부 또는 외부에 설치되는 스피커(20)에 의한 소리, 충격, 진동 등이 효과적으로 흡수 및 차단되고, 집중공간(S)과 제2밀폐부(127)를 통해 마이크부(130)로 유입되는 내외부 소음, 충격, 진동과 마이크모듈부(120)의 내부 또는 외부에 설치되는 스피커(20)에 의한 소리, 충격, 진동 등으로 부터 마이크부(130)가 봉인(Sealing)될 수 있으므로, 마이크부(130)에서의 음성인식률이 대폭적으로 향상될 수 있다.
상술한 바와 같은 마이크부(130)의 설치구조는, 도 6에 도시된 바와 같이, 마이크모듈부(120)에 음향출력수단, 즉, 스피커(20)가 탑재되는 경우, 스피커(20)의 오디오 출력에 의해 마이크모듈부(120)를 타고 집중공간(S)으로 유입되는 소리, 진동, 충격 등이 마이크부(130)로 전달되어 노이즈를 야기하는 문제와 음성인식률을 저하시키는 문제를 효과적으로 해결할 수 있고, 마이크모듈부(120)에 별도의 스피커(20)가 탑재되지 않더라도, 외부의 소음, 진동, 충격에 의해서 집중공간(S)으로 유입되는 소음, 진동, 충격 등이 마이크부(130)로 전달되어 노이즈를 야기하는 문제와 음성인식률을 저하시키는 문제를 효과적으로 해결할 수 있다.
한편, 도면에는 도시되지 않았지만, 마이크모듈부(120)에는 마이크부(130)와, 인식부(140)와, 제어부(150)에 전력을 공급하는 배터리부가 설치될 수 있다. 이러한 배터리부는 충전 및 방전이 가능한 리튬 폴리머 전지 또는 리튬 이온 전지 등으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니다. 한편, 배터리부에는 과충전시 충전을 차단하는 과충전 방지 회로가 탑재될 수 있다.
또한, 도면에는 도시되지 않았지만, 마이크모듈부(120)의 외부에는 후술하는 인식부(140) 및 제어부(150)의 상태를 표시하는 표시장치가 설치될 수 있다. 표시장치는 LED 매트릭스 타입으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니며, 인식부(140) 및 제어부(150)의 상태를 표시할 수 있는 것이라면, 어떠한 것으로 마련되더라도 무방하다.
또한, 도면에는 도시되지 않았지만, 마이크모듈부(120)의 외부에는 영상을 촬영하여 영상정보를 생성할 수 있는 카메라모듈이 설치될 수 있고, 마이크모듈부(120)의 내부에는 외부 장치와 블루투스(Bluetooth) 통신, 와이파이(Wi-Fi) 통신, LTE(Long Term Evolution) 통신 등을 위한 무선통신모듈이 설치될 수 있다.
또한, 도면에는 도시되지 않았지만, 마이크모듈부(120)의 외면에는 전자파를 흡수하여 전기에너지를 생산할 수 있는 에너지하베스팅층이 도포될 수 있다. 이러한 에너지하베스팅층은 상술한 배터리부에 연결되어 마이크모듈부(120) 주변의 전자파를 흡수, 전기에너지로 전환하여 배터리부를 충전할 수 있다.
또한, 도면에는 도시되지 않았지만, 마이크모듈부(120)에는 주변의 광에너지를 흡수하여 전기에너지를 생산할 수 있는 태양 전지 패널이 설치될 수 있다. 이러한 태양 전지 패널은 상술한 배터리부에 연결되어 마이크모듈부(120) 주변의 광을 흡수, 전기에너지로 전환하여 배터리부를 충전할 수 있다.
마이크부(130)는, 외부로부터 음성을 수신하는 것으로써, 상술한 베이스부(121)에 형성된 집중공간(S)에 설치되며, 후술하는 인식부(140)에 전기적으로 연결된다. 마이크부(130)에 의해서 수신된 음성은 후술하는 인식부(140)로 전달되어 음성인식이 실시된다.
한편, 상술한 마이크부(130)에는 음향 신호 증폭(Acoustic Signal Amplification) 기능 및 음향 신호 필터(Acoustic Signal Filtering) 기능 및 음향 음성신호 추출(Acoustic Voice Signal Extraction) 기능 및 음향 잡음신호 추출(Acoustic Noise Signal Extraction) 기능 및 음향 근원 분리(Acoustic Source Separation) 기능 및 음향 반향 제거(Acoustic Echo Cancellation) 기능 및 음향 잡음 감쇄(Acoustic Noise Reduction) 기능 및 음향 빔 형성(Acoustic Beam Forming) 기능 등이 탑재될 수 있다. 이러한 기능을 탑재하는 마이크부(130)에 따르면, 음성 수신율이 더욱 향상될 수 있다.
한편, 마이크부(130)는 보다 상세하게, 기판부(131)와 마이크(132)를 포함할 수 있다. 기판부(131)는 마이크(132)가 설치되며 마이크(132)로 입력되는 음성 정보를 가공하여 후술하는 인식부(140)로 전달하는데, 마이크(132)가 설치되는 기판부(131)의 일측 부분에는 집중공간(S)에서 마이크(132)로 음성이 유입될 수 있도록 관통홀이 형성될 수 있다. 마이크(132)는 외부에서 전달되는 음성을 수신하는 것으로서, 상술한 기판부(131)에 설치된다. 이러한 마이크(132)는 카본 마이크(Carbon Microphone), 리본 마이크(Ribbon Microphone), 가동 코일 마이크(Moving Coil Microphone), 크리스털 마이크(Crystal Microphone), 다이나믹 마이크(Dynamic Microphone), 콘덴서 마이크(Condenser Microphone), 일렉트로 스태틱 마이크(Electrostatic Microphone), 벨로시티 마이크(Velocity Microphone), ECM 마이크(Electric Capacitor Microphone), 아날로그 멤스 마이크(Analog Micro-Electro Mechanical Systems Microphone), 디지털 멤스 마이크(Digital Micro-Electro Mechanical Systems Microphone) 등 기타 마이크 중 어느 하나 이상으로 마련될 수 있다.
인식부(140)는 상술한 마이크부(130)에서 수신된 음성을 인식하여 제어명령을 생성하는 것으로써, 상술한 마이크모듈부(120) 또는 케이스부(110)에 설치되며, 상술한 마이크부(130) 및 제어부(150)에 전기적으로 연결된다.
인식부(140)는 상술한 마이크부(130)에서 전달되는 음성을 기초로 호출어 음성인식과 고립어 음성인식을 수행함으로써, 음성을 인식하여 제어명령을 생성한다.
호출어 음성인식이란, 도 8에 도시된 바와 같이, 연속적으로 입력되는 음성신호로부터 미리 정해진 호출어(Keyword)를 검출하는 과정을 의미한다.
호출어 음성인식은 HMM(Hidden Markov Model) 기반의 연속 음성인식 기법을 변형하여 구현되는데, HMM 기반의 연속 음성인식 기법은 간략하게 다음과 같다.
음성신호가 Markov 모델(시간마다 상태를 바꾸는 Finite State Machine)에 의해 발생되면, 학습단계에서 Markov 모델의 파라메터가 추정된다. 이후, 인식부(140)에서는 추정된 파라메터를 이용해서 미지의 입력 음성에 가장 적합한 모델(음소 또는 단어)를 찾는 과정을 실시한다. 미지의 입력 음성에 대해 가장 적합한 모델이 발견되면, 이를 기초로 인식부(140)는 GMM(Gaussian Mixture Model) 및 DNN(Deep Neural Network)를 HMM과 융합해서 호출어를 인식한다.
상술한 호출어 음성인식에 따르면, Task에 무관하게 적은 계산량으로 연속 음성인식 엔진과 유사한 기능을 수행할 수 있는 효과가 있다.
고립어 음성인식이란, 도 9 및 도 10에 도시된 바와 같이, 호출어 음성인식 이후에 실시되는 단계로써, 음성신호로부터 미리 정해진 명령어(Command Word)와 같은 고립어(Isolated Word)를 검출하는 과정을 의미한다.
즉, 고립어 음성인식은 음성신호에서 관측된 값으로부터 확률이 최대가 되는 단어를 찾는 과정을 의미하는데, 이때, 확률은 Bayesian Rule에 의해서 선험확률과 Likelihood에 의해서 결정되며, Likelihood는 HMM(Hidden Markov Model)에서 연산된다.
한편, 여기서, 단어 단위의 고립어 음성인식은 1개의 단어가 1개의 HMM을 구성하므로, 인식 대상 단어가 많아지면, 파라메터의 크기가 단어 개수에 비례하여 증가한다는 문제가 있고, 인식 대상 단어가 변경되면, 음성 데이터를 새로 녹음 및 학습해야 하므로 모든 인식 대상 단어의 음성 데이터가 필요하다는 문제가 있다.
한편, 여기서, 상술한 음소단위 고립어 음성인식은 GMM 및 DNN을 HMM과 융합하여 고립어를 인식하는 과정으로 실시된다. 음소단위 고립어 음성인식은 단어 단위의 고립어 음성인식과 마찬가지로 1개의 음소가 1개의 HMM을 구성하는데, 음소단위 고립어 음성인식은 임의의 단어를 음소 모델 결합으로 구성할 수 있으므로, 인식 대상 단어가 바뀌는 가변 어휘 인식 엔진이 구현 가능하며, 음성 데이터의 양이 적더라고 같은 음소 환경을 갖는 모델들끼리 파라메터를 공유할 수 있으므로 음성 데이터 양이 적어도 되는 이점이 있다.
상술한 바와 같은 호출어 음성인식과 고립어 음성인식을 수행하는 인식부(140)에 따르면, 마이크부(130)에서 수신된 음성을 기초로 후술하는 제어부(150)에 전달될 제어명령이 용이하게 생성될 수 있다.
한편, 상술한 인식부(140)에는 음향 신호 증폭(Acoustic Signal Amplification) 기능 및 음향 신호 필터(Acoustic Signal Filtering) 기능 및 음향 음성신호 추출(Acoustic Voice Signal Extraction) 기능 및 음향 잡음신호 추출(Acoustic Noise Signal Extraction) 기능 및 음향 근원 분리(Acoustic Source Separation) 기능 및 음향 반향 제거(Acoustic Echo Cancellation) 기능 및 음향 잡음 감쇄(Acoustic Noise Reduction) 기능 및 음향 빔 형성(Acoustic Beam Forming) 기능 등이 탑재될 수 있다. 이러한 기능을 탑재하는 인식부(140)에 따르면, 음성 수신율이 더욱 향상될 수 있다.
제어부(150)는 단말기(10)가 각종 기능을 수행할 수 있도록 상술한 인식부(140)로부터 전달되는 제어명령을 단말기(10)로 전송하며, 외부의 스피커(20)에서 오디오 출력이 실시될 수 있도록 스피커(20)로 데이터를 전송하는 것으로써, 상술한 마이크모듈부(120) 또는 케이스부(110)에 설치되며, 단말기(10)와 스피커(20)에 전기적으로 연결되거나, 블루투스(Bluetooth) 또는 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있다.
제어부(150)로부터 전달되는 제어명령을 받은 단말기(10)는 제어명령에 따른 동작을 수행한다. 여기서, 제어명령은 음악 검색 및 재생, 사진 검색 및 표시(Display), 영상 검색 및 재생, 날씨정보 검색 및 재생, 뉴스정보 검색 및 재생, 지도정보 검색 및 표시(Display), 쇼핑정보 검색 및 표시(Display), 금융정보 검색 및 표시(Display), 금융계좌 조회, 금융이체, 금융결재 등이 될 수 있다.
예를 들면, 일반적으로 스마트폰 등의 단말기(10)에는 음악재생을 위한 전용 어플리케이션이 설치되는데, 제어부(150)를 통해 단말기(10)로 전달되는 제어명령은 상술한 전용 어플리케이션을 제어하여, 단말기(10)에 내장된 메모리 또는 SD CARD 등에 저장된 음악파일과 영상파일을 검색(Search)하고 재생(Play)할 수 있고, 사진파일을 검색(Search)하고 표시(Display)할 수 있다.
한편, 여기서, 제어명령은 스마트폰 등의 단말기(10)가 제공하는 서비스 콘텐츠, 즉, 구글의 음성비서(Google Voice Assistant of Google), 애플의 시리(Siri of Apple), 삼성전자의 빅스비(Bixby of Samsung Electronics) 등과 같은 단말기(10) 내에 기본 또는 선택적으로 설치되는 어플리케이션을 제어하는 명령일 수 있다. 이러한 제어명령에 따르면, 스마트폰 등과 같은 단말기(10)에 설치되는 어플리케이션이나 기타 기능 등을 음성으로 보다 효율적으로 제어할 수 있는 효과가 있다.
또한, 여기서, 제어명령은 일반 스피커, 일반 사운드바, AI 스피커, AI 사운드바, 와이파이(Wi-Fi) 스피커, 블루투스(Bluetooth) 스피커, 텔레비전(Television), 셋톱박스(Set-top box), 냉장고(Refrigerator), 공기청정기(Air cleaner, Air purifier), 에어컨(Air conditioner), 세탁기(Washing machine, Washer), 전자레인지(Microwave, Microoven), 스마트폰(smart phone), 스마트 시계(Smart watch), 스마트 안경(Smart glass), 헬멧(Helmet), 사람 또는 동물 또는 사물에 부착하는 웨어러블 디바이스(Wearable devices for human or animal or things), IoT 디바이스(Internet of Things devices), 가상현실용으로 머리에 착용하는 디스플레이 디바이스(Head mounted display devices for virtual reality), 귀에 착용하는 이어폰(Earphone) 및 이어셋(Earset), 머리에 착용하는 헤드폰(Headphone) 및 헤드셋(Headset), 목에 착용하는 넥밴드(Neckband) 및 넥셋(Neckset) 및 넥폰(Neckphone), 손목에 착용하는 손목밴드(Wristband) 및 손목셋(Wristset) 및 손목폰(Wristphone), 노트북 컴퓨터(Notebook personal computer), 테블릿 컴퓨터(Tablet personal computer), 데스크탑 컴퓨터(Desktop personal computer), 전자책(Electronic book, e-book), 모니터(Monitor), 산업용 로봇(Industrial robot), 서비스 로봇(Service robot), 학습용 로봇(Teaching robot), 토이 로봇(Toy robot), 재활 로봇(Rehabilitation robot), 휴머노이드 로봇(Humanoid robot), 키오스크(kiosk), 반도체 제조장비 및 계측장비 및 검사장비(Semiconductors manufacturing equipments and metrology equipments and inspection equipments), 디스플레이 패널 제조장비 및 계측장비 및 검사장비(Display panels manufacturing equipments and metrology equipments and inspection equipments), PCB 보드 제조장비 및 계측장비 및 검사장비(PCB boards manufacturing equipments and metrology equipments and inspection equipments), 각종 제품 제조장비 및 계측장비 및 검사장비(Products manufacturing equipments and metrology equipments and inspection equipments), 각종 디바이스 제조장비 및 검사장비(Devices manufacturing equipments and metrology equipments and inspection equipments), 자동차(Automobile), 기차(Train), 지하철(Subway), 배(Ship, Boat), 잠수함(Submarine), 비행기(Airplane, Aircraft), 드론(Drone), 우주선(Space shuttle, Spacecraft, Spaceship), 우주기지(Space station), 기타 전자제품, 기타 가전제품 등과 같은 외부장치(40)의 내부에 설치되는 IoT(Internet of Things) 제어 어플리케이션 또는 기타 어플리케이션을 제어하는 명령이거나, 외부장치(40)의 동작기능 또는 구동기능 또는 기타 기능을 제어하는 명령일 수 있다. 이러한 제어명령에 따르면, 상술한 외부장치(40)를 음성으로 보다 효율적으로 제어할 수 있는 효과가 있다.
또한, 제어부(150)로부터 전달되는 제어명령을 받은 스피커(20)는 제어명령에 따른 오디오 출력을 실시한다. 여기서, 제어명령은 음악재생, 날씨정보 검색, 지도정보 검색 등이 될 수 있다.
한편, 제어부(150)는 스마트폰 등의 단말기(10)에 블루투스(Bluetooth)와 같은 무선의 방식으로 연결될 수 있고, 일반 스피커에 Aux 단자(Auxiliary port) 또는 HDMI(High-Definition Multimedia Interface) 단자 또는 광 커넥터(Optical connector) 또는 동축 커넥터(Coaxial connector)와 같은 유선단자를 통해 연결될 수 있고, 블루투스(Bluetooth) 스피커(20)에 Aux 단자(Auxiliary port) 또는 HDMI(High-Definition Multimedia Interface) 단자 또는 광 커넥터(Optical connector) 또는 동축 커넥터(Coaxial connector)와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth)와 같은 무선의 방식으로 연결될 수 있고, 와이파이(Wi-Fi) 스피커(20)에 Aux 단자(Auxiliary port) 또는 HDMI(High-Definition Multimedia Interface) 단자 또는 광 커넥터(Optical connector) 또는 동축 커넥터(Coaxial connector)와 같은 유선단자를 통해 연결되거나 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있고, 자동차 스피커(20)에 Aux 단자(Auxiliary port) 또는 HDMI(High-Definition Multimedia Interface) 단자 또는 광 커넥터(Optical connector) 또는 동축 커넥터(Coaxial connector)와 같은 유선단자를 통해 연결되거나 블루투스(Bluetooth) 또는 와이파이(Wi-Fi)와 같은 무선의 방식으로 연결될 수 있다.
한편, 제어부(150)는 와이파이(Wi-Fi), 핫스팟(Hotspot), LTE(Long Term Evolution) 등과 같은 무선의 방법 또는 이더넷(Ethernet) 등과 같은 유선의 방법으로 서버(30)에 직접 접속될 수 있다. 이에 따르면, 제어명령이 서버(30)에 직접 전달되며, 서버(30)는 전달된 제어명령을 기초로 데이터를 수집한 후, 이를 기반으로 응답데이터를 생성하고, 이후, 생성된 응답데이터를 제어부(150)로 전송한다. 전송된 응답데이터는 제어부(150)에 연결되는 스피커(20), 차량용 스피커(20) 등을 통해 외부로 출력된다.
또한, 제어부(150)는 와이파이(Wi-Fi), 블루투스(Bluetooth) 등과 같은 무선의 방법 또는 이더넷(Ethernet), USB(Universal Serial Bus), Aux(Auxiliary), HDMI(High-Definition Multimedia Interface), 광 커넥터(Optical connector), 동축 커넥터(Coaxial connector), 각종 전자커넥터(Electronic connector), 각종 전자단자(Electronic port, Electronic terminal), 각종 전기선(Electric wire) 등과 같은 유선의 방법으로 외부장치(40)와 연결되어, 제어명령을 외부장치(40)로 전달함으로써 외부장치(40)를 제어할 수 있다. 이러한 외부장치(40)는 예를 들면, 일반 스피커, 일반 사운드바, AI 스피커, AI 사운드바, 와이파이(Wi-Fi) 스피커, 블루투스(Bluetooth) 스피커, 텔레비전(Television), 셋톱박스(Set-top box), 냉장고(Refrigerator), 공기청정기(Air cleaner, Air purifier), 에어컨(Air conditioner), 세탁기(Washing machine, Washer), 전자레인지(Microwave, Microoven), 스마트폰(smart phone), 스마트 시계(Smart watch), 스마트 안경(Smart glass), 헬멧(Helmet), 사람 또는 동물 또는 사물에 부착하는 웨어러블 디바이스(Wearable devices for human or animal or things), IoT 디바이스(Internet of Things devices), 가상현실용으로 머리에 착용하는 디스플레이 디바이스(Head mounted display devices for virtual reality), 귀에 착용하는 이어폰(Earphone) 및 이어셋(Earset), 머리에 착용하는 헤드폰(Headphone) 및 헤드셋(Headset), 목에 착용하는 넥밴드(Neckband) 및 넥셋(Neckset) 및 넥폰(Neckphone), 손목에 착용하는 손목밴드(Wristband) 및 손목셋(Wristset) 및 손목폰(Wristphone), 노트북 컴퓨터(Notebook personal computer), 테블릿 컴퓨터(Tablet personal computer), 데스크탑 컴퓨터(Desktop personal computer), 전자책(Electronic book, e-book), 모니터(Monitor), 산업용 로봇(Industrial robot), 서비스 로봇(Service robot), 학습용 로봇(Teaching robot), 토이 로봇(Toy robot), 재활 로봇(Rehabilitation robot), 휴머노이드 로봇(Humanoid robot), 키오스크(kiosk), 반도체 제조장비 및 계측장비 및 검사장비(Semiconductors manufacturing equipments and metrology equipments and inspection equipments), 디스플레이 패널 제조장비 및 계측장비 및 검사장비(Display panels manufacturing equipments and metrology equipments and inspection equipments), PCB 보드 제조장비 및 계측장비 및 검사장비(PCB boards manufacturing equipments and metrology equipments and inspection equipments), 각종 제품 제조장비 및 계측장비 및 검사장비(Products manufacturing equipments and metrology equipments and inspection equipments), 각종 디바이스 제조장비 및 검사장비(Devices manufacturing equipments and metrology equipments and inspection equipments), 자동차(Automobile), 기차(Train), 지하철(Subway), 배(Ship, Boat), 잠수함(Submarine), 비행기(Airplane, Aircraft), 드론(Drone), 우주선(Space shuttle, Spacecraft, Spaceship), 우주기지(Space station), 기타 전자제품, 기타 가전제품 등으로 마련될 수 있다.
한편, 상술한 제어부(150)에는 음향 신호 증폭(Acoustic Signal Amplification) 기능 및 음향 신호 필터(Acoustic Signal Filtering) 기능 및 음향 음성신호 추출(Acoustic Voice Signal Extraction) 기능 및 음향 잡음신호 추출(Acoustic Noise Signal Extraction) 기능 및 음향 근원 분리(Acoustic Source Separation) 기능 및 음향 반향 제거(Acoustic Echo Cancellation) 기능 및 음향 잡음 감쇄(Acoustic Noise Reduction) 기능 및 음향 빔 형성(Acoustic Beam Forming) 기능 등이 탑재될 수 있다. 이러한 기능을 탑재하는 제어부(150)에 따르면, 음성 수신율이 더욱 향상될 수 있다.
종래의 일반적인 AI 스피커(20) 및 AI 사운드바(20)는 음성을 수신하는 마이크가 오디오를 출력하는 스피커(20)와 함께 일체되기 때문에, 스피커(20)에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다.
그러나, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)가 스피커(20)와 별도로 떨어지는 형태인 경우, 음성인식률이 크게 개선되며, 이에 따르면, 특정한 음악제공 업체가 제공하는 음악파일, 오디오 파일, 음악 스트리밍(Music streaming) 서비스, 오디오 스트리밍(Audio streaming)서비스와, 특정한 영상제공 업체가 제공하는 영상파일, 비디오 파일, 영상 스트리밍(Image streaming) 서비스, 비디오 스트리밍(Video streaming) 서비스, 텔레비전 스트리밍(Television streaming) 서비스, 영화 스트리밍(Movie streaming) 서비스 등 각종 미디어 파일과 각종 서비스 이외에도 각종 스마트 기기가 음성을 통해 효과적으로 제어될 수 있다.
한편, 스피커(20)는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에 내장될 수도 있는데, 이러한 경우, 스피커(20)의 오디오 출력에 의해서, 음성인식률이 크게 떨어질 수 있지만, 앞서 상술한 베이스부(121)와, 제1밀폐부(122)와, 제1탄성부(123)와, 메시부(124)와, 제2탄성부(125)와, 제3탄성부(126)와, 제2밀폐부(127)를 포함하는 마이크모듈부(120)의 구조에 따르면, 스피커(20)의 출력에 의해 마이크모듈부(120)를 타고 집중공간(S)으로 유입되는 소리, 진동, 충격 등이 마이크부(130)로 전달되어 노이즈를 야기하는 문제와 음성인식률을 저하시키는 문제가 효과적으로 해결될 수 있다.
또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에 따르면, 마이크부(130)의 설치구조, 인식부(140)의 음성인식 과정에 따라 음성인식률이 크게 개선되므로, 발화자가 수 미터(예 : 1m) 이상 멀리 떨어져 있다 하더라도, 발화자의 음성이 효과적인 인식될 수 있는 효과가 있다.
또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에 따르면, 단말기(10) 및 기타 외부장치(40)를 음성으로 제어할 수 있다. 이에 따르면, 특정한 음악제공업체에서 제공하는 음악서비스 이외에도 자신의 단말기(10) 또는 외부장치(40)에 저장된 음악파일, 사진파일, 영상파일 등 각종 미디어 파일을 음성으로 제어하여 검색(Search)하고 표시(Display)하고 재생(Play)할 수 있다.
지금부터는 첨부한 도면을 참조하여, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템에 대해서 상세히 설명한다.
도 11은 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 12는 본 발명의 제1변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 13은 본 발명의 제2변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이고, 도 14 내지 도 23은 본 발명의 추가적인 기타 변형예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템을 전체적으로 도시한 것이다.
도 11 내지 도 13에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)은 단말기(10)와 스피커(20)와, 인공지능 스마트 디바이스(100)와, 서버(30)와, 외부장치(40)를 포함한다.
단말기(10)는 스마트 폰 등으로 마련되는 것으로서, 사용자가 휴대가능하도록 마련되는 것일 수 있다. 이러한 단말기(10)는 외부의 클라우드 서버(30)와 연결되어 정보를 수집, 전달하며, 후술하는 인공지능 스마트 디바이스(100)에 무선으로 연결되어 각종 제어명령에 따른 기능, 즉, 음악검색 및 재생, 사진검색 및 표시(Display), 영상검색 및 재생, 날씨정보 검색 및 재생, 뉴스정보 검색 및 재생, 지도정보 검색 및 표시(Display), 쇼핑정보 검색 및 표시(Display), 금융정보 검색 및 표시(Display), 금융계좌이체, 금융결재 등을 수행할 수 있다.
스피커(20)는 후술하는 인공지능 스마트 디바이스로부터 전달되는 데이터를 기초로 음악, 음성 등의 오디오를 출력하는 것으로써, 인공지능 스마트 디바이스(100)에 무선 또는 유선의 방법으로 연결된다.
이러한 스피커(20)는 제어부(150)로부터 제어명령을 전달받은 다음, 제어명령에 따른 오디오 출력을 실시하는데, 이때, 오디오 출력에 따른 음악파일은 외부의 서버(30)로부터 스트리밍 방식으로 전달받거나, 내부의 저장공간에 저장된 것일 수 있다.
한편, 여기서, 스피커(20)는 일반 스피커(20), 일반 사운드바(20), AI 스피커(20), AI 사운드바(20), 와이파이(Wi-Fi) 스피커(20), 블루투스(Bluetooth) 스피커(20), 텔레비전(Television)에 설치되는 스피커(20), 셋톱박스(Set-top box)에 설치되는 스피커(20), 냉장고(Refrigerator)에 설치되는 스피커(20), 공기청정기(Air cleaner, Air purifier)에 설치되는 스피커(20), 에어컨(Air conditioner)에 설치되는 스피커(20), 세탁기(Washing machine, Washer)에 설치되는 스피커(20), 전자레인지(Microwave, Microoven)에 설치되는 스피커(20), 스마트폰(smart phone)에 설치되는 스피커(20), 스마트 시계(Smart watch)에 설치되는 스피커(20), 스마트 안경(Smart glass)에 설치되는 스피커(20), 헬멧(Helmet)에 설치되는 스피커(20), 사람 또는 동물 또는 사물에 부착하는 웨어러블 디바이스(Wearable devices for human or animal or things)에 설치되는 스피커(20), IoT 디바이스(Internet of Things devices)에 설치되는 스피커(20), 가상현실용으로 머리에 착용하는 디스플레이 디바이스(Head mounted display devices for virtual reality)에 설치되는 스피커(20), 귀에 착용하는 이어폰(Earphone) 및 이어셋(Earset)에 설치되는 스피커(20), 머리에 착용하는 헤드폰(Headphone) 및 헤드셋(Headset)에 설치되는 스피커(20), 목에 착용하는 넥밴드(Neckband) 및 넥셋(Neckset) 및 넥폰(Neckphone)에 설치되는 스피커(20), 손목에 착용하는 손목밴드(Wristband) 및 손목셋(Wristset) 및 손목폰(Wristphone)에 설치되는 스피커(20), 노트북 컴퓨터(Notebook personal computer)에 설치되는 스피커(20), 테블릿 컴퓨터(Tablet personal computer)에 설치되는 스피커(20), 데스크탑 컴퓨터(Desktop personal computer)에 설치되는 스피커(20), 전자책(Electronic book, e-book)에 설치되는 스피커(20), 모니터(Monitor)에 설치되는 스피커(20), 산업용 로봇(Industrial robot)에 설치되는 스피커(20), 서비스 로봇(Service robot)에 설치되는 스피커(20), 학습용 로봇(Teaching robot)에 설치되는 스피커(20), 토이 로봇(Toy robot)에 설치되는 스피커(20), 재활 로봇(Rehabilitation robot)에 설치되는 스피커(20), 휴머노이드 로봇(Humanoid robot)에 설치되는 스피커(20), 키오스크(kiosk)에 설치되는 스피커(20), 반도체 제조장비 및 계측장비 및 검사장비(Semiconductors manufacturing equipments and metrology equipments and inspection equipments)에 설치되는 스피커(20), 디스플레이 패널 제조장비 및 계측장비 및 검사장비(Display panels manufacturing equipments and metrology equipments and inspection equipments)에 설치되는 스피커(20), PCB 보드 제조장비 및 계측장비 및 검사장비(PCB boards manufacturing equipments and metrology equipments and inspection equipments)에 설치되는 스피커(20), 각종 제품 제조장비 및 계측장비 및 검사장비(Products manufacturing equipments and metrology equipments and inspection equipments)에 설치되는 스피커(20), 각종 소자 제조장비 및 검사장비(Devices manufacturing equipments and metrology equipments and inspection equipments)에 설치되는 스피커(20), 자동차(Automobile)에 설치되는 스피커(20), 자동차 이외의 각종 이동용 운송장치에 설치되는 스피커(20), 기차(Train)에 설치되는 스피커(20), 지하철(Subway)에 설치되는 스피커(20), 배(Ship, Boat)에 설치되는 스피커(20), 잠수함(Submarine)에 설치되는 스피커(20), 비행기(Airplane, Aircraft)에 설치되는 스피커(20), 드론(Drone)에 설치되는 스피커(20), 우주선(Space shuttle, Spacecraft, Spaceship)에 설치되는 스피커(20), 우주기지(Space station)에 설치되는 스피커(20), 건물 내 벽에 설치되는 스피커(20), 천장에 설치되는 스피커(20), 책상에 설치되는 스피커(20), 기타 구조물에 설치되는 스피커(20), 기타 전자제품에 설치되는 스피커(20), 기타 가전제품에 설치되는 스피커(20) 등으로 마련될 수 있다.
본 발명의 인공지능 스마트 디바이스(100)는 케이스부(110)와, 마이크모듈부(120)와, 마이크부(130)와, 인식부(140)와, 제어부(150)를 포함하는 것으로서, 세부구성은 상술한 본 발명의 일실시예에 따른 인공지능 스마트 디바이스(100)에서 설명한 구성과 동일한 것이므로 중복 설명은 생략한다.
종래의 일반적인 AI 스피커(20)와 AI 사운드바(20)는 음성을 수신하는 마이크가 오디오를 출력하는 스피커(20)와 함께 일체되기 때문에, 스피커(20)에서 오디오가 출력되고 있는 경우 마이크에서의 음성 수신율이 현저하게 낮아지는 문제점이 있다. 그러나, 상술한 바와 같이, 스피커(20)는 본 발명의 인공지능 스마트 디바이스(100)와 별도로 떨어져 있기 때문에, 음성인식률이 크게 개선된다. 따라서, 본 발명에 따르면, 각종 스마트 기기를 음성을 이용하여 효과적으로 제어할 수 있다.
한편, 스피커(20)는 본 발명의 인공지능 스마트 디바이스(100)에 내장될 수도 있는데, 이러한 경우, 스피커(20)의 오디오 출력에 의해서, 음성인식률이 크게 떨어질 수 있지만, 앞서 상술한 베이스부(121)와, 제1밀폐부(122)와, 제1탄성부(123)와, 메시부(124)와, 제2탄성부(125)와, 제3탄성부(126)와, 제2밀폐부(127)를 포함하는 마이크모듈부(120)의 구조에 따르면, 스피커(20)의 오디오 출력에 의해 마이크모듈부(120)를 타고 집중공간(S)으로 유입되는 소리, 진동, 충격 등이 마이크부(130)로 전달되어 노이즈를 야기하는 문제와 음성인식률을 저하시키는 문제가 효과적으로 해결될 수 있다.
한편, 본 발명의 인공지능 스마트 디바이스(100)는 도 12에 도시된 바와 같이, 음성정보 뿐만 아니라 영상정보도 입력받을 수 있고, 입력되는 영상정보를 이용하여 서버(30), 외부장치(40), 스피커(20) 등을 제어할 수 있도록 마련될 수 있다.
또한, 본 발명의 인공지능 스마트 디바이스(100)는 도 12 내지 도 23에 도시된 바와 같이, 일반 스피커, 일반 사운드바, AI 스피커, AI 사운드바, 와이파이(Wi-Fi) 스피커, 블루투스(Bluetooth) 스피커, 텔레비전(Television), 셋톱박스(Set-top box), 냉장고(Refrigerator), 공기청정기(Air cleaner, Air purifier), 에어컨(Air conditioner), 세탁기(Washing machine, Washer), 전자레인지(Microwave, Microoven), 스마트폰(smart phone), 스마트 시계(Smart watch), 스마트 안경(Smart glass), 헬멧(Helmet), 사람 또는 동물 또는 사물에 부착하는 웨어러블 디바이스(Wearable devices for human or animal or things), IoT 디바이스(Internet of Things devices), 가상현실용으로 머리에 착용하는 디스플레이 디바이스(Head mounted display devices for virtual reality), 귀에 착용하는 이어폰(Earphone) 및 이어셋(Earset), 머리에 착용하는 헤드폰(Headphone) 및 헤드셋(Headset), 목에 착용하는 넥밴드(Neckband) 및 넥셋(Neckset) 및 넥폰(Neckphone), 손목에 착용하는 손목밴드(Wristband) 및 손목셋(Wristset) 및 손목폰(Wristphone), 노트북 컴퓨터(Notebook personal computer), 테블릿 컴퓨터(Tablet personal computer), 데스크탑 컴퓨터(Desktop personal computer), 전자책(Electronic book, e-book), 모니터(Monitor), 산업용 로봇(Industrial robot), 서비스 로봇(Service robot), 학습용 로봇(Teaching robot), 토이 로봇(Toy robot), 재활 로봇(Rehabilitation robot), 휴머노이드 로봇(Humanoid robot), 키오스크(kiosk), 반도체 제조장비 및 계측장비 및 검사장비(Semiconductors manufacturing equipments and metrology equipments and inspection equipments), 디스플레이 패널 제조장비 및 계측장비 및 검사장비(Display panels manufacturing equipments and metrology equipments and inspection equipments), PCB 보드 제조장비 및 계측장비 및 검사장비(PCB boards manufacturing equipments and metrology equipments and inspection equipments), 각종 제품 제조장비 및 계측장비 및 검사장비(Products manufacturing equipments and metrology equipments and inspection equipments), 각종 디바이스 제조장비 및 검사장비(Devices manufacturing equipments and metrology equipments and inspection equipments), 자동차(Automobile), 기차(Train), 지하철(Subway), 배(Ship, Boat), 잠수함(Submarine), 비행기(Airplane, Aircraft), 드론(Drone), 우주선(Space shuttle, Spacecraft, Spaceship), 우주기지(Space station), 기타 전자제품, 기타 가전제품 등과 같은 외부장치(40)에 설치되는 형태로 마련될 수도 있다.
서버(30)는 제어부(150)로부터 데이터를 수신하거나, 제어부(150)로 데이터를 전송하는 것으로서, 제어부(150)에서 전달되는 제어명령을 전달받아 정보를 수집하고, 수집된 정보를 기초로 응답데이터를 형성하여 제어부(150)로 전달한다. 여기서, 응답데이터는 음악정보, 영상정보, 뉴스정보, 날씨정보, 지도정보 등일 수 있다.
외부장치(40)는 제어부(150)로부터 데이터를 수신하거나, 제어부(150)로 데이터를 전송하여 각종 기능을 수행하는 것으로써, 도 11 내지 도 22에 도시된 바와 같이, 일반 스피커, 일반 사운드바, AI 스피커, AI 사운드바, 와이파이(Wi-Fi) 스피커, 블루투스(Bluetooth) 스피커, 텔레비전(Television), 셋톱박스(Set-top box), 냉장고(Refrigerator), 공기청정기(Air cleaner, Air purifier), 에어컨(Air conditioner), 세탁기(Washing machine, Washer), 전자레인지(Microwave, Microoven), 스마트폰(smart phone), 스마트 시계(Smart watch), 스마트 안경(Smart glass), 헬멧(Helmet), 사람 또는 동물 또는 사물에 부착하는 웨어러블 디바이스(Wearable devices for human or animal or things), IoT 디바이스(Internet of Things devices), 가상현실용으로 머리에 착용하는 디스플레이 디바이스(Head mounted display devices for virtual reality), 귀에 착용하는 이어폰(Earphone) 및 이어셋(Earset), 머리에 착용하는 헤드폰(Headphone) 및 헤드셋(Headset), 목에 착용하는 넥밴드(Neckband) 및 넥셋(Neckset) 및 넥폰(Neckphone), 손목에 착용하는 손목밴드(Wristband) 및 손목셋(Wristset) 및 손목폰(Wristphone), 노트북 컴퓨터(Notebook personal computer), 테블릿 컴퓨터(Tablet personal computer), 데스크탑 컴퓨터(Desktop personal computer), 전자책(Electronic book, e-book), 모니터(Monitor), 산업용 로봇(Industrial robot), 서비스 로봇(Service robot), 학습용 로봇(Teaching robot), 토이 로봇(Toy robot), 재활 로봇(Rehabilitation robot), 휴머노이드 로봇(Humanoid robot), 키오스크(kiosk), 반도체 제조장비 및 계측장비 및 검사장비(Semiconductors manufacturing equipments and metrology equipments and inspection equipments), 디스플레이 패널 제조장비 및 계측장비 및 검사장비(Display panels manufacturing equipments and metrology equipments and inspection equipments), PCB 보드 제조장비 및 계측장비 및 검사장비(PCB boards manufacturing equipments and metrology equipments and inspection equipments), 각종 제품 제조장비 및 계측장비 및 검사장비(Products manufacturing equipments and metrology equipments and inspection equipments), 각종 디바이스 제조장비 및 검사장비(Devices manufacturing equipments and metrology equipments and inspection equipments), 자동차(Automobile), 기차(Train), 지하철(Subway), 배(Ship, Boat), 잠수함(Submarine), 비행기(Airplane, Aircraft), 드론(Drone), 우주선(Space shuttle, Spacecraft, Spaceship), 우주기지(Space station), 기타 전자제품, 기타 가전제품 등으로 마련될 수 있다. 이러한 외부장치(40)는 제어부(150)로부터 전달되는 제어명령을 기초로 각종 서비스 제공, 정보전달, 놀이 실시 등의 기능을 수행한다.
상술한 바와 같은 단말기(10)와, 스피커(20)와, 인공지능 스마트 디바이스(100)와, 서버(30)와, 외부장치(40)를 포함하는 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)에 따르면, 음성인식률이 크게 개선되므로, 각종 스마트 기기가 음성에 따라 효과적으로 제어될 수 있다.
또한, 본 발명의 일실시예에 따른 인공지능 스마트 디바이스를 이용한 음성제어 시스템(1000)에 따르면, 다양한 외부장치(40)를 음성으로 용이하게 제어하는 것이 가능하므로, 본 발명을 응용하면, 다양한 외부장치의 동작을 음성으로 제어하는 서비스, 각종 정보(음성 정보, 텍스트 정보, 사진 정보, 영상 정보 등)에 대한 검색 및 표시 및 재생 서비스, 음성 챗봇 서비스, 게임 및 놀이 서비스, 광고 제공 서비스 등 다양한 서비스가 사용자에게 효과적으로 제공될 수 있다.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
그리고 이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (6)

  1. 케이스부와, 상기 케이스부에 설치되는 마이크모듈부와, 상기 마이크모듈부에 설치되며 외부로부터 음성을 수신하는 마이크부와, 상기 케이스부에 설치되며 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부와, 상기 케이스부에 설치되며 상기 단말기가 작동할 수 있도록 상기 단말기로 상기 제어명령을 전송하며 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하는 인공지능 스마트 디바이스에 있어서,
    상기 마이크모듈부는,
    음성이 집중되는 공간인 집중공간을 형성하며,
    상기 마이크부는,
    상기 스피커에서 출력되는 오디오 출력이 상기 마이크부로 전달되지 않도록 상기 집중공간에 설치되는 것을 특징으로 하는 인공지능 스마트 디바이스의 마이크모듈부 구조.
  2. 케이스부;
    상기 케이스부에 설치되는 마이크모듈부;
    상기 마이크모듈부에 설치되며, 외부로부터 음성을 수신하는 마이크부;
    상기 케이스부에 설치되며, 상기 마이크부에서 수신된 음성을 인식하여 제어명령을 생성하는 인식부; 및
    상기 케이스부에 설치되며, 상기 단말기가 작동할 수 있도록 상기 단말기로 상기 제어명령을 전송하며, 스피커에서 오디오 출력이 실시될 수 있도록 상기 스피커로 데이터를 전송하는 제어부를 포함하되,
    상기 마이크모듈부는,
    음성이 집중되는 공간인 집중공간을 형성하며,
    상기 마이크부는,
    상기 스피커에서 출력되는 오디오 출력이 상기 마이크부로 전달되지 않도록 상기 집중공간에 설치되는 것을 특징으로 하는 인공지능 스마트 디바이스.
  3. 청구항 2에 있어서,
    상기 마이크모듈부는,
    상기 집중공간이 형성되는 베이스부와, 상기 스피커에서 발생되는 소리 또는 진동 또는 충격이 상기 마이크부로 전달되지 않도록 탄성재질 또는 흡음재질 또는 방진재질 또는 복합재질로 마련되어 상기 집중공간 측에 설치되는 탄성부를 포함하는 인공지능 스마트 디바이스.
  4. 청구항 3에 있어서,
    상기 마이크모듈부는,
    상기 집중공간의 상면을 마감하는 제1밀폐부와, 메시재질로 마련되어 상기 집중공간의 상측 또는 하측 중 어느 하나 이상에 설치되는 메시부를 더 포함하는 인공지능 스마트 디바이스.
  5. 청구항 4에 있어서,
    상기 탄성부는,
    상기 집중공간의 상측에 설치되며 상기 제1밀폐부에 의해 상기 베이스부에 고정되는 제1탄성부와, 상기 마이크부 상측에 설치되는 제2탄성부와, 상기 집중공간의 저면에 설치되며 상기 제2탄성부 및 상기 마이크부가 수용되도록 상기 마이크모듈부에 설치되는 제3탄성부를 포함하는 인공지능 스마트 디바이스.
  6. 청구항 5에 있어서,
    상기 마이크모듈부는,
    상기 제3탄성부를 감싸듯이 상기 마이크모듈부의 하측에 설치되어 상기 제3탄성부를 상기 마이크모듈부에 고정하는 제2밀폐부를 더 포함하는 인공지능 스마트 디바이스.
PCT/KR2020/008166 2019-06-24 2020-06-23 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스 WO2020262938A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/621,703 US11917363B2 (en) 2019-06-24 2020-06-23 Microphone module part structure of artificial intelligence smart device and artificial intelligence smart device having the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0074713 2019-06-24
KR1020190074713A KR102093430B1 (ko) 2019-06-24 2019-06-24 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스

Publications (1)

Publication Number Publication Date
WO2020262938A1 true WO2020262938A1 (ko) 2020-12-30

Family

ID=70001614

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/008166 WO2020262938A1 (ko) 2019-06-24 2020-06-23 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스

Country Status (3)

Country Link
US (1) US11917363B2 (ko)
KR (1) KR102093430B1 (ko)
WO (1) WO2020262938A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863923A (zh) * 2021-01-20 2022-08-05 晶晨半导体(深圳)有限公司 基于Soundbar的语音控制方法、Soundbar以及服务器和语音控制系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102093430B1 (ko) * 2019-06-24 2020-03-25 박연묵 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140138116A (ko) * 2012-03-21 2014-12-03 가부시키가이샤 도모에가와 세이시쇼 마이크로폰 장치, 마이크로폰 유닛, 마이크로폰 구조 및 이를 이용한 전자 기기
KR20160001964A (ko) * 2014-06-30 2016-01-07 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
KR20160112804A (ko) * 2015-03-20 2016-09-28 삼성전자주식회사 에코 제거 방법 및 그 전자 장치
KR20190031167A (ko) * 2017-09-15 2019-03-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR102093430B1 (ko) * 2019-06-24 2020-03-25 박연묵 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3891153B2 (ja) * 2003-07-31 2007-03-14 ソニー株式会社 通話装置
US10555062B2 (en) * 2016-08-31 2020-02-04 Panasonic Intellectual Property Management Co., Ltd. Sound pick up device with sound blocking shields and imaging device including the same
CN109302652B (zh) * 2017-07-24 2022-07-05 法雷奥汽车内部控制(深圳)有限公司 用于机动车辆的具有屏蔽功能的麦克风组件
US10349169B2 (en) * 2017-10-31 2019-07-09 Bose Corporation Asymmetric microphone array for speaker system
US11388516B2 (en) * 2019-02-07 2022-07-12 Thomas STACHURA Privacy device for smart speakers
JP2020178244A (ja) * 2019-04-18 2020-10-29 レノボ・シンガポール・プライベート・リミテッド 電子機器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140138116A (ko) * 2012-03-21 2014-12-03 가부시키가이샤 도모에가와 세이시쇼 마이크로폰 장치, 마이크로폰 유닛, 마이크로폰 구조 및 이를 이용한 전자 기기
KR20160001964A (ko) * 2014-06-30 2016-01-07 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
KR20160112804A (ko) * 2015-03-20 2016-09-28 삼성전자주식회사 에코 제거 방법 및 그 전자 장치
KR20190031167A (ko) * 2017-09-15 2019-03-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR102093430B1 (ko) * 2019-06-24 2020-03-25 박연묵 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863923A (zh) * 2021-01-20 2022-08-05 晶晨半导体(深圳)有限公司 基于Soundbar的语音控制方法、Soundbar以及服务器和语音控制系统

Also Published As

Publication number Publication date
US11917363B2 (en) 2024-02-27
KR102093430B1 (ko) 2020-03-25
US20220248128A1 (en) 2022-08-04

Similar Documents

Publication Publication Date Title
US9620116B2 (en) Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
WO2020262938A1 (ko) 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스
US20180373493A1 (en) Changing companion communication device behavior based on status of wearable device
CN106409021A (zh) 智能故事机及智能交互系统
CN109040920A (zh) 一种发声结构及终端
CN106878849A (zh) 无线耳机装置以及人工智能装置
CN109996161A (zh) 一种移动终端及其出声控制方法、具有存储功能的装置
WO2019216579A1 (ko) 스피커 모듈을 이용한 발수 구조를 가진 웨어러블 전자 장치 및 그의 수분 침투 감지 방법
WO2021098708A1 (zh) 通话方法及终端设备
WO2021118120A1 (en) Electronic device with structure for harvesting energy
WO2020262835A1 (ko) 전자 장치 및 이를 이용한 오디오 신호를 처리하기 위한 음향 장치를 결정하는 방법
WO2015088213A1 (ko) 이미지 정보 표시 방법 및 장치
WO2019198864A1 (ko) 전력 제어를 수행하는 이동 단말기
WO2021091063A1 (ko) 전자장치 및 그 제어방법
CN207638869U (zh) 一种电子设备
WO2020080829A1 (en) Electronic device including a plurality of speakers
CN112380880A (zh) 一种翻译方法与翻译设备
WO2019103382A1 (ko) 전자장치 및 그 제어방법
WO2022260242A1 (ko) 마이크 모듈을 포함하는 전자 장치
CN203445980U (zh) 一种多媒体机
JPH09204430A (ja) 自動通訳等システム
WO2023033602A1 (ko) 소리를 출력하는 전자 장치와 이의 동작 방법
WO2022135155A1 (zh) 扬声器组件及电子设备
WO2022092609A1 (ko) 오디오 데이터 처리 방법 및 그 장치
WO2022203179A1 (ko) 오디오 데이터 처리 방법 및 이를 지원하는 전자 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20832100

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20832100

Country of ref document: EP

Kind code of ref document: A1