WO2022092530A1 - 전자장치 및 그 제어방법 - Google Patents

전자장치 및 그 제어방법 Download PDF

Info

Publication number
WO2022092530A1
WO2022092530A1 PCT/KR2021/011646 KR2021011646W WO2022092530A1 WO 2022092530 A1 WO2022092530 A1 WO 2022092530A1 KR 2021011646 W KR2021011646 W KR 2021011646W WO 2022092530 A1 WO2022092530 A1 WO 2022092530A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
electronic device
user voice
noise level
processor
Prior art date
Application number
PCT/KR2021/011646
Other languages
English (en)
French (fr)
Inventor
복찬식
Original Assignee
삼성전자(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자(주) filed Critical 삼성전자(주)
Priority to EP21886527.7A priority Critical patent/EP4216211A4/en
Priority to US17/505,925 priority patent/US20220139413A1/en
Publication of WO2022092530A1 publication Critical patent/WO2022092530A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Definitions

  • a plurality of electronic devices support voice recognition in one place.
  • a start command Trigger word or Wakeup word
  • a plurality of electronic devices using the same start command recognize it at the same time. It is unclear whether the function will be performed. Therefore, in order to solve this problem, a Multi Device Wakeup (MDW) technology has been developed that selects an electronic device that recognizes the highest level of utterance of the start command and performs a function corresponding to voice recognition.
  • MDW Multi Device Wakeup
  • the voice recognition success rate can be increased by reducing the sound level of the corresponding electronic device.
  • voice recognition Unless all sound levels of a plurality of electronic devices are reduced for this purpose, when one electronic device performs voice recognition, there is still a problem in that the success rate of the voice recognition is lowered by the sound output from the other electronic device. exist.
  • An object of the present disclosure is to provide an electronic device for improving voice recognition efficiency and a control method therefor.
  • An electronic device comprising: an interface unit capable of connecting to an external device; and a first user voice including a start command received by the electronic device, identify a first noise level corresponding to the first user voice received by the electronic device, and use the first user voice as the start command Among the plurality of recognition devices including each identified electronic device and an external device, any one first recognition device having a high first noise level corresponding to the first user voice is identified, and among the plurality of recognition devices, Control operation to perform a control operation to perform a function corresponding to the second user voice received after the first user voice based on any one second recognition device having a high second noise level corresponding to the second user voice It includes a processor that performs
  • the processor may perform a function corresponding to the second user voice based on a natural language processing engine corresponding to the first recognition device among a plurality of natural language processing engines corresponding to each of the plurality of recognition devices.
  • the processor may output a sound through a speaker and, when the electronic device is identified as the first recognition device, control to reduce the level of the sound.
  • the processor may output a sound through a speaker and, when the at least one external device is identified as the first recognition device, control to maintain the sound level.
  • the processor may identify the electronic device as the second recognition device.
  • the processor outputs a sound through the speaker, and when the electronic device is identified as the second recognition device, the second user voice
  • the second user voice may be obtained by removing a signal corresponding to the sound output through the speaker from the signal including.
  • the processor may identify the first noise level based on the utterance level of the first user voice.
  • the processor may identify the second noise level based on the noise level of the second user voice.
  • the processor may receive information corresponding to the second noise level identified by the at least one external device through the interface unit, and a second noise level based on the received information and a second noise identified by the electronic device When the level is similar, the first recognition device may be selected as the second recognition device.
  • the processor may receive information corresponding to the second noise level identified by the at least one external device through the interface unit, and a second noise level based on the received information and a second noise identified by the electronic device
  • a function corresponding to one recognition result may be performed based on a preset criterion among a plurality of recognition results identified by the plurality of recognition apparatuses.
  • the processor corresponds to the first recognition device with information corresponding to a control command for causing the first recognition device to perform a function corresponding to the second user voice.
  • the interface unit may be controlled to transmit to an external device.
  • a method of controlling an electronic device comprising: identifying a first noise level corresponding to the first user voice based on a first user voice including a received start command word; Among a plurality of recognition devices including each electronic device and an external device that have identified the first user voice as the start command, any one recognition device having a high first noise level corresponding to the first user voice is selected. identifying; and performing a function corresponding to a second user voice received after the first user voice based on any one of the plurality of recognition devices having a high second noise level corresponding to the second user voice. and performing a control operation to do so.
  • the performing of the control operation may include performing a function corresponding to the second user voice based on a natural language processing engine corresponding to the first recognition device among a plurality of natural language processing engines corresponding to each of the plurality of recognition devices. may include steps.
  • a method of controlling an electronic device comprising: outputting a sound through the speaker;
  • the method may further include controlling to reduce the level of the sound when the electronic device is identified as the first recognition device.
  • a computer readable code wherein the computer program is stored therein, the computer program including a code for executing a control method of an electronic device, wherein the control method of the electronic device includes a start command received by the electronic device. identifying a first noise level based on the voice; Among a plurality of recognition devices including each electronic device and an external device that have identified the first user voice as the start command, any one recognition device having a high first noise level corresponding to the first user voice is selected. identifying; and performing a function corresponding to a second user voice received after the first user voice based on any one of the plurality of recognition devices having a high second noise level corresponding to the second user voice. It may include the step of performing a control operation to do so.
  • the electronic device can increase the success rate of voice recognition in various situations and device environments, thereby increasing the reliability of voice recognition of the device, and promoting the convenience of using the voice recognition function of the user.
  • the electronic device may increase the usage rate of various functions to be performed through voice recognition by increasing the reliability of voice recognition.
  • FIG. 1 is a diagram illustrating an entire system according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • FIG. 8 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • a 'module' or 'unit' performs at least one function or operation, may be implemented as hardware or software, or may be implemented as a combination of hardware and software, and may be integrated into at least one module and can be implemented.
  • at least one of the plurality of elements refers to all of the plurality of elements, as well as each one or a combination thereof excluding the rest of the plurality of elements.
  • FIG. 1 is a diagram illustrating an entire system according to an embodiment of the present disclosure.
  • FIG. 1 shows a plurality of recognition devices 10 and a user 20 including an electronic device 100, external devices 101, 102, ..., and the like.
  • the plurality of recognition devices 10 are devices in which the voice recognition function is activated by the same start command within the same network. As shown in FIG. 1 , the plurality of recognition devices 10 may be implemented as a display device capable of displaying an image, or may be implemented as a device without a display.
  • the plurality of recognition devices 10 are TVs, AI assistance devices (AI speakers, etc.), computers, smart phones, tablet PCs, notebook PCs, HMD (Head mounted Display), NED (Near Eye Display), LFD ( large format display), Digital Signage (digital signage), DID (Digital Information Display), video wall, projector display, QD (quantum dot) display panel, QLED (quantum dot light-emitting diodes) ⁇ LED (Micro light) -emitting diodes) and various types of displays such as Mini LED, cameras, camcorders, wearable devices, video walls, electronic picture frames, etc. may be included.
  • HMD Head mounted Display
  • NED Near Eye Display
  • LFD large format display
  • Digital Signage digital signage
  • DID Digital Information Display
  • video wall projector display
  • QD Quantum dot
  • QLED quantum dot light-emitting diodes
  • ⁇ LED Micro light
  • various types of displays such as Mini LED, cameras, camcorders, wearable devices, video
  • the plurality of recognition devices 10 may be implemented as various types of devices, such as image processing devices such as set-top boxes without a display, household appliances such as refrigerators, Bluetooth speakers, washing machines, and information processing devices such as computer bodies. there is.
  • the electronic device 100 and the external devices 101 , 102 , ... have the same status and may perform the functions of the present disclosure in the same manner.
  • the electronic device 100 is mainly explained. Accordingly, at least one external device is sufficient to implement the plurality of recognition device systems.
  • the plurality of recognition devices 10 using the uttered start command identifies the start command.
  • a recognition device for recognizing a voice command received later is selected based on the noise level of the start command.
  • the noise level in the present disclosure refers to the utterance level of the uttered start command itself, the non-speech level obtained by measuring the noise between the reception of the start command and the reception of the voice command, or a signal-to-noise ratio (SNR; signal-to-noise ratio) which is a ratio thereof. noise ratio), etc.
  • the electronic device 100 when the electronic device 100 is identified as the most suitable recognition device based on the noise level of the start command among the plurality of recognition devices 10 that have identified the start command of the user 20 in FIG. 1 , the electronic device 100 ) receives the voice command of the user 20 received after the start command.
  • the electronic device 100 receives a voice command, a sound output from an external device 101, 102, ... other than the electronic device 100, for example, music from the external device 101, which is a speaker, or a refrigerator.
  • a voice command from the electronic device 100 is received due to noise emitted from the external device 102 , non-speech may be mixed in addition to the effective utterance. As a result, there is a problem in that the reliability of voice command recognition is lowered.
  • any one of the external devices 101, 102, ... which has a higher success rate of voice recognition than the electronic device 100, recognizes the voice command. suggest a way
  • the optimal voice recognition combination capable of increasing the success rate of voice recognition is found. More specifically, in the present disclosure, a device having an optimal speech recognition rate at the time of performing speech recognition in consideration of the variable speech recognition rates of a plurality of recognition devices in various environments recognizes speech. In addition, various situations participating in the recognition, such as a recognition device located closest to the user, are reflected in the voice recognition to obtain an optimal recognition result. In addition, it is intended to select various recognition results performed by a plurality of recognition devices, or to obtain an optimal recognition result by using them comprehensively. A more detailed technical implementation method will be described later.
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may include an interface unit 110 .
  • the interface unit 110 may include a wired interface unit 111 .
  • the wired interface unit 111 includes a connector or port to which an antenna capable of receiving a broadcast signal according to a broadcasting standard such as terrestrial/satellite broadcasting can be connected, or a cable capable of receiving a broadcast signal according to a cable broadcasting standard can be connected. do.
  • the electronic device 100 may have a built-in antenna capable of receiving a broadcast signal.
  • Wired interface unit 111 is an HDMI port, DisplayPort, DVI port, Thunderbolt, composite video, component (component) video, super video (super video), SCART, such as, such as, video and / or audio transmission standards according to It may include a connector or a port, and the like.
  • the wired interface unit 111 may include a connector or port according to a universal data transmission standard, such as a USB port.
  • the wired interface unit 111 may include a connector or a port to which an optical cable can be connected according to an optical transmission standard.
  • the wired interface unit 111 is connected to an external microphone or an external audio device having a microphone, and may include a connector or port capable of receiving or inputting an audio signal from the audio device.
  • the wired interface unit 111 is connected to an audio device such as a headset, earphone, or external speaker, and may include a connector or port capable of transmitting or outputting an audio signal to the audio device.
  • the wired interface unit 111 may include a connector or port according to a network transmission standard such as Ethernet.
  • the wired interface unit 111 may be implemented as a LAN card connected to a router or a gateway by wire.
  • the wired interface unit 111 is wired through the connector or port in a 1:1 or 1:N (N is a natural number) method with an external device such as a set-top box, an optical media player, or an external display device, speaker, server, etc. By being connected, a video/audio signal is received from the corresponding external device or a video/audio signal is transmitted to the corresponding external device.
  • the wired interface unit 111 may include a connector or port for separately transmitting video/audio signals.
  • the wired interface unit 111 is embedded in the electronic device 100 , but may be implemented in the form of a dongle or a module to be detachably attached to the connector of the electronic device 100 .
  • the interface unit 110 may include a wireless interface unit 112 .
  • the wireless interface unit 112 may be implemented in various ways corresponding to the implementation form of the electronic device 100 .
  • the wireless interface unit 112 is a communication method RF (radio frequency), Zigbee (Zigbee), Bluetooth (bluetooth), Wi-Fi (Wi-Fi), UWB (Ultra WideBand) and NFC (Near Field Communication), etc.
  • Wireless communication can be used.
  • the wireless interface unit 112 may be implemented as a wireless communication module that performs wireless communication with an AP according to a Wi-Fi method, or a wireless communication module that performs one-to-one direct wireless communication such as Bluetooth.
  • the wireless interface unit 112 may transmit and receive data packets to and from the server by wirelessly communicating with the server on the network.
  • the wireless interface unit 112 may include an IR transmitter and/or an IR receiver capable of transmitting and/or receiving an IR (Infrared) signal according to an infrared communication standard.
  • the wireless interface unit 112 may receive or input a remote control signal from a remote control or other external device through an IR transmitter and/or an IR receiver, or transmit or output a remote control signal to another external device.
  • the electronic device 100 may transmit/receive a remote control signal to and from the remote control or other external device through the wireless interface unit 112 of another method such as Wi-Fi or Bluetooth.
  • the electronic device 100 may further include a tuner for tuning the received broadcast signal for each channel.
  • the display unit 120 may be included.
  • the display unit 120 includes a display 121 capable of displaying an image on the screen.
  • the display 121 is provided in a light-receiving structure such as a liquid crystal type or a self-luminous structure such as an OLED type.
  • the display unit 120 may further include additional components according to the structure of the display 121 .
  • the display unit 120 may include a liquid crystal display panel and light. It includes a backlight unit for supplying, and a panel driving substrate for driving the liquid crystal of the liquid crystal display panel.
  • the electronic device 100 may include a user input unit 130 .
  • the user input unit 130 includes various types of input interface related circuits provided to perform user input.
  • the user input unit 130 may be configured in various forms depending on the type of the electronic device 100 , for example, a mechanical or electronic button unit of the electronic device 100 , a remote controller separated from the electronic device 100 , and an electronic device.
  • the electronic device 100 may include a storage unit 140 .
  • the storage unit 140 stores digitized data.
  • the storage unit 140 is a nonvolatile storage capable of preserving data regardless of whether power is supplied or not, and data to be processed by the processor 180 is loaded, and data is stored when power is not provided. This includes memory with volatile properties that cannot be used. Storage includes flash-memory, hard-disc drive (HDD), solid-state drive (SSD), read-only memory (ROM), etc., and memory includes buffer and random access memory (RAM). etc.
  • the storage unit 140 may store information about an artificial intelligence model including a plurality of layers.
  • storing information about the artificial intelligence model means various information related to the operation of the artificial intelligence model, for example, information on a plurality of layers included in the artificial intelligence model, parameters used in each of the plurality of layers (for example, , filter coefficients, bias, etc.) may be stored.
  • the storage 140 may store information on the artificial intelligence model learned to acquire upscaling information (or voice recognition related information, object information in the image, etc.) of the input image according to an embodiment.
  • information about the artificial intelligence model may be stored in the processor's internal memory.
  • the electronic device 100 may include a microphone 150 .
  • the microphone 150 collects sounds of the external environment including the user's voice.
  • the microphone 150 transmits the collected sound signal to the processor 180 .
  • the electronic device 100 may include a microphone 150 for collecting user voices or may receive a voice signal from an external device such as a remote controller having a microphone or a smart phone through the interface unit 110 .
  • a remote controller application may be installed in an external device to control the electronic device 100 or perform functions such as voice recognition. In the case of an external device installed with such an application, a user voice can be received, and the external device can transmit/receive and control data using the electronic device 100 and Wi-Fi/BT or infrared rays, etc.
  • a plurality of interface units 110 that can be implemented may exist in the electronic device 100 .
  • the electronic device 100 may include a speaker 160 .
  • the speaker 160 outputs audio data processed by the processor 180 as sound.
  • the speaker 160 may include a unit speaker provided to correspond to audio data of one audio channel, and may include a plurality of unit speakers to respectively correspond to audio data of a plurality of audio channels.
  • the speaker 160 may be provided separately from the electronic device 100 . In this case, the electronic device 100 may transmit audio data to the speaker 160 through the interface unit 110 .
  • the electronic device 100 may include a sensor 170 .
  • the sensor 170 may detect a state of the electronic device 100 or a state around the electronic device 100 , and transmit the sensed information to the processor 180 .
  • the sensor 170 includes a geomagnetic sensor, an acceleration sensor, a temperature/humidity sensor, an infrared sensor, a gyroscope sensor, a position sensor (eg, GPS), a barometric pressure sensor, a proximity sensor, and an RGB sensor ( illuminance sensor), but is not limited thereto. Since a function of each sensor can be intuitively inferred from the name of a person skilled in the art, a detailed description thereof will be omitted.
  • the processor 180 may store a sensing value defined as a tap between the electronic device 100 and the external device 200 in the storage unit 140 . Later, when a user event is detected, the processor 180 may identify whether the user event has occurred based on whether the sensed sensed value corresponds to a stored sensed value.
  • the electronic device 100 may include a processor 180 .
  • the processor 180 includes one or more hardware processors implemented with a CPU, a chipset, a buffer, a circuit, etc. mounted on a printed circuit board, and may be implemented as a system on chip (SOC) depending on a design method.
  • SOC system on chip
  • the processor 180 includes modules corresponding to various processes such as a demultiplexer, a decoder, a scaler, an audio digital signal processor (DSP), and an amplifier.
  • DSP audio digital signal processor
  • some or all of these modules may be implemented as SOC.
  • a module related to image processing such as a demultiplexer, decoder, and scaler may be implemented as an image processing SOC
  • an audio DSP may be implemented as a chipset separate from the SOC.
  • the processor 180 may control to process input data according to a predefined operation rule or an artificial intelligence model stored in the storage 140 .
  • the processor 180 when it is a dedicated processor (or an artificial intelligence-only processor), it may be designed as a hardware structure specialized for processing a specific artificial intelligence model.
  • hardware specialized for processing a specific artificial intelligence model may be designed as a hardware chip such as an ASIC or FPGA.
  • the output data may have various forms depending on the type of artificial intelligence model.
  • the output data may be an image with improved resolution, object related information included in the image, text corresponding to a voice, and the like, but is not limited thereto.
  • the processor 180 may convert the voice signal into voice data.
  • the voice data may be text data obtained through a speech-to-text (STT) process for converting a voice signal into text data.
  • STT speech-to-text
  • the processor 180 identifies a command indicated by the voice data and performs an operation according to the identified command.
  • the voice data processing process and the command identification and execution process may all be executed in the electronic device 100 .
  • at least a part of the process is performed by at least one server communicatively connected to the electronic device 100 through a network. can be performed.
  • the processor 180 may call at least one command among commands of software stored in a storage medium readable by a machine such as the electronic device 100 and execute it. This enables a device such as the electronic device 100 to be operated to perform at least one function according to the called at least one command.
  • the one or more instructions may include code generated by a compiler or code executable by an interpreter.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' only means that the storage medium is a tangible device and does not include a signal (eg, electromagnetic wave), and this term refers to cases in which data is semi-permanently stored in a storage medium and temporary storage. It does not distinguish between cases where
  • the processor 180 identifies a first noise level corresponding to the first user voice, and identifies the electronic device and at least one of the first user voices as the start command.
  • a first recognition device having a high first noise level is identified among a plurality of recognition devices including an external device, and a second recognition device corresponding to a second user voice received after the first user voice from among the plurality of recognition devices is identified.
  • Rule at least a part of data analysis, processing, and result information generation for performing a control operation so that any one second recognition device having a high noise level performs a function corresponding to the second user voice with respect to the first recognition device
  • a base or artificial intelligence (Artificial Intelligence) algorithm it may be performed using at least one of machine learning, a neural network, or a deep learning algorithm.
  • An artificial intelligence system is a computer system that implements human-level intelligence. It is a system in which a machine learns and judges by itself, and the recognition rate improves the more it is used.
  • Artificial intelligence technology consists of machine learning (deep learning) technology that uses an algorithm that classifies/learns the characteristics of input data by itself, and element technology that uses machine learning algorithms to simulate functions such as cognition and judgment of the human brain.
  • Element technologies are, for example, linguistic understanding technology for recognizing human language/text, visual understanding technology for recognizing objects as from human vision, reasoning/prediction technology for logically reasoning and predicting by judging information, and human experience information It may include at least one of a knowledge expression technology that processes the data as knowledge data, an autonomous driving of a vehicle, and a motion control technology that controls the movement of a robot.
  • Linguistic understanding is a technology for recognizing and applying/processing human language/text, and includes natural language processing, machine translation, dialogue system, question and answer, and speech recognition/synthesis.
  • Visual understanding is a technology for recognizing and processing objects like human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, image improvement, and the like.
  • Inferential prediction is a technology for logically reasoning and predicting by judging information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendation.
  • Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge construction (data generation/classification) and knowledge management (data utilization).
  • the processor 180 may perform the functions of the learning unit and the recognition unit together.
  • the learning unit may perform a function of generating a learned neural network
  • the recognition unit may perform a function of recognizing (or inferring, predicting, estimating, determining) data using the learned neural network.
  • the learning unit may create or update the neural network.
  • the learning unit may acquire learning data to generate a neural network.
  • the learning unit may acquire the learning data from the storage 140 or the outside.
  • the learning data may be data used for learning of the neural network, and the neural network may be trained by using the data obtained by performing the above-described operation as learning data.
  • the learning unit may perform a preprocessing operation on the acquired training data before training the neural network using the training data, or may select data to be used for learning from among a plurality of training data. For example, the learning unit may process the learning data in a preset format, filter it, or add/remove noise to process the learning data into a form suitable for learning. The learner may generate a neural network set to perform the above-described operation by using the preprocessed learning data.
  • the learned neural network network may be composed of a plurality of neural network networks (or layers).
  • the nodes of the plurality of neural networks have weight values, and the neural network operation is performed through the operation between the operation result of the previous layer and the plurality of weights.
  • the plurality of neural networks may be connected to each other so that an output value of one neural network is used as an input value of another neural network.
  • Examples of neural networks include Convolutional Neural Network (CNN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN) and It can include models such as Deep Q-Networks.
  • the recognizer may acquire target data to perform the above-described operation.
  • the target data may be obtained from the storage 140 or from the outside.
  • the target data may be data to be recognized by the neural network.
  • the recognizer may perform preprocessing on the acquired target data before applying the target data to the learned neural network, or select data to be used for recognition from among a plurality of target data.
  • the recognition unit may process the target data into a preset format, filter, or add/remove noise to process the target data into a form suitable for recognition.
  • the recognizer may obtain an output value output from the neural network by applying the preprocessed target data to the neural network.
  • the recognition unit may obtain a probability value or a reliability value together with the output value.
  • the learning of the artificial intelligence model and the generation of training data may be performed through an external server. However, in some cases, learning of the artificial intelligence model is performed in the electronic device, and of course, training data may also be generated in the electronic device.
  • the method for controlling the electronic device 100 according to the present invention may be provided by being included in a computer program product.
  • the computer program product may include instructions for software executed by the processor 180 , as described above.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a machine-readable storage medium (eg, CD-ROM), or via an application store (eg, Play StoreTM) or between two user devices (eg, smartphones). It may be distributed directly, online (eg, downloaded or uploaded). In the case of online distribution, at least a part of the computer program product may be temporarily stored or temporarily generated in a machine-readable storage medium such as a memory of a server of a manufacturer, a server of an application store, or a relay server.
  • a machine-readable storage medium such as a memory of a server of a manufacturer, a server of an application store, or a relay server.
  • FIG. 3 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • the processor 180 identifies a first noise level corresponding to the first user voice ( S310 ).
  • the processor 180 identifies whether the received first user voice is a start command based on information on a signal waveform, length, etc. of the start command. In this case, the processor 180 may use information previously stored in the storage unit 140 or may obtain information through communication with a server or the like.
  • the processor 180 When the processor 180 identifies that the received first user voice is a start command, the processor 180 identifies a first noise level corresponding to the first user voice. At this time, at least one external device that exists in the vicinity of the electronic device 100 and identifies the first user voice as the start command also identifies each first noise level.
  • the noise level in the present disclosure is the same as previously described with reference to FIG. 1 .
  • the processor 180 may identify the first noise level based on the utterance level of the first user voice.
  • the present invention is not limited thereto, and it is sufficient if the first noise level is identified so as to identify an optimal recognition device for performing the voice recognition function.
  • the processor 180 identifies any one first recognition device having a high first noise level among a plurality of recognition devices including an electronic device and at least one external device ( S320 ).
  • a high noise level means that the ignition level of the uttered start command itself is high, the non-ignited level is low, or the signal-to-noise ratio, which is a ratio thereof, is high. Accordingly, as the first noise level is higher, the processor 180 identifies the recognition device corresponding to the first user voice, that is, the recognition device that the user intends to use. In addition, it is determined that the success rate of speech recognition is higher as the first noise level is higher.
  • a technique for identifying any one of the plurality of recognition devices having a high first noise level may be variously implemented.
  • the processor 180 receives the first noise level of the external device from the at least one external device through the interface unit 110 , and the first noise level of the at least one external device and the first noise level identified by the processor 180 . Compared with the first noise level, it is possible to identify a first recognition device having a high first noise level from among the plurality of recognition devices. This can be individually identified by each recognition device to identify whether it is a first recognition device having a high first noise level among a plurality of recognition devices.
  • each recognition device transmits the identified first noise level to the server, the server selects a first recognition device having a high first noise level, and transmits the selected information to each recognition device can be determined by
  • the processor 180 determines that any one of the plurality of recognition devices having a high second noise level corresponding to the second user voice received after the first user voice is selected as the second user voice with respect to the first recognition device.
  • a control operation is performed to perform a function corresponding to (S330).
  • the second user voice is a voice corresponding to a voice command, received after the first user voice, and is ultimately a voice for a function that the user wants to execute in the first recognition device.
  • the first recognition device is a TV, “up the channel”, in the case of a speaker, “up the volume”, in the case of a refrigerator, “lower the temperature”.
  • the first recognition device is identified as a TV, and the processor of the first recognition device wants to receive and recognize the second user voice “Channel Up”, but a sound output from a device other than the first recognition device, for example , the music output from the speaker and the noise from the refrigerator are received together, so it may be difficult to recognize the signal of “Channel Up”.
  • the processor 180 identifies a second noise level of the second user's voice, and identifies any one second recognition device having a high second noise level among a plurality of recognition devices.
  • the method of identifying the second noise level of the second user's voice and the method of identifying the second recognizing apparatus having a high second noise level are the above-mentioned method of identifying the first noise level of the first user's voice and the first method having a high first noise level. As described in the method for identifying a recognition device.
  • the processor 180 sets the non-speech level of the second user's voice.
  • the second noise level may be identified based on .
  • the device serving as the second recognition device has a high level of user utterance and low received noise to increase the recognition rate. Therefore, a device having a high level of user speech and a low non-speech level is preferable.
  • the device Even if the non-ignition level is low, if the device has a very low ignition level compared to the ignition level identified by the first recognition device, the device can be determined to be far from the user, so these devices are excluded from the candidates. . However, like the first noise level, this is not limited thereto, and it is sufficient if the second noise level is identified so as to identify an optimal second recognition device to perform the voice recognition function.
  • the processor of the device identified as the second recognition device performs a control operation to perform a function corresponding to the second user voice with respect to the first recognition device.
  • the present disclosure proposes a method of identifying a suitable voice recognition device according to a real-time voice recognition result of a user's utterance in a voice recognition device. Through this, the reliability of the voice recognition of the electronic device is increased, so that the usage rate of various functions to be performed through the voice recognition can be increased.
  • FIG. 4 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • each processor of device N receives the first user voice (S411), recognizes the first user voice as a start command (S412), and performs the first A first noise level of the user's voice is identified (S413).
  • Each processor of device N shares each identified first noise level (S420). Although it is shown in FIG. 4 as being shared only between device A and device B, this is a simplified representation and all devices share the first noise level identified with each other.
  • the processor of device A compares the first noise level received from device B ... device N with the first noise level identified by the processor of device A. If it is determined that its first noise level is the highest, it selects device A It is identified by the first recognition device (S430). At this time, the processor of the remaining devices B ... device N also compares the first noise level identified by the processor of each device with the first noise level received from another device, and does not determine that its own first noise level is the highest. It does not identify itself as not identified by the first recognition device.
  • the processing of the first user voice and the second user voice is not unconditionally performed sequentially, and the identification operation of the first recognition device and the second recognition device and the voice recognition of the second recognition device are performed within a very short time.
  • the function is performed in the first recognition device, it is difficult to see that the entire operation of the voice recognition is completed even if the user is not identified as the first recognition device. Accordingly, when the voice recognition function is activated through the first user's voice, the reception of the second user's voice regardless of whether the first recognition device identifies the second user's voice is the same for all devices, unless there is a special circumstance.
  • the processor of the device A may control to reduce the level of sound output through the speaker connected to the device A ( S440 ). This is to better receive a voice command received after the first user's voice, that is, the second user's voice.
  • the processor of the TV lowers the level of the sound output by the TV itself in order to receive and recognize the second user voice “up the channel”, but the device B is not the first recognition device.
  • the music output from the speaker and the noise of the refrigerator, which is device C, are received together, and the recognition rate of the signal of “Channel Up” may be lowered.
  • each device A, device B, ... , the processor of the device C identifies a second noise level of the second user voice (S450).
  • an Auto Echo Cancellation (AEC) operation of removing a signal corresponding to a sound output through a speaker within the device from a signal corresponding to the second user voice can be performed.
  • AEC Auto Echo Cancellation
  • step S440 the processor of the device A identified as the first recognition device controlled to reduce the level of the sound output through the speaker connected to the device A, so that the device A has an effect of increasing the second noise level according to the AEC operation. insignificant However, in the case of the other devices, since the sound output from the device A and the sound output through the speaker in the device A can also be removed, the second noise level is increased.
  • the processor of the device A is configured to: When the device A is identified as the first recognition device and the sound level of at least one external device (device B, ..., device N) is lower than a preset value, Device A may be identified as the second recognition device.
  • the fact that the sound level of the external device is lower than the preset value means that the first recognition device receives the second user voice as it is, even if there is no sound output from the external device, but the identified non-utterance level is lower than the preset value for second use This means that it has less effect on the reception of dead voices.
  • Each processor of device N shares each identified second noise level (S460). Although it is shown in FIG. 4 as being shared only between device A and device B, this is simplified and all devices share the identified second noise level with each other.
  • the processor of device B compares the second noise level received from device A ... device N with the second noise level identified by the processor of device B. It is identified by the second recognition device (S470). Similarly, the processor of the other device also identifies whether its own device is a second recognition device.
  • the processor of the device B identifies a control command corresponding to the second user voice with respect to the first recognition device (S480). After all, since the device performing the function corresponding to the second user's voice is the first recognition device identified to perform the function, the processor of the device B identified as the second recognition device performs the second recognition device with respect to the first recognition device A. Identifies a control command corresponding to the user's voice. Detailed information related to step S480 will be described with reference to FIGS. 5 and 6 .
  • the processor of the device B transmits information corresponding to the identified control command to the device A through the interface unit (S490).
  • the processor of the device A performs a control operation corresponding to the control command based on the information received from the device B (S500).
  • FIG. 5 is a diagram illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • This figure describes an example in relation to step S330 of FIG. 3 and step S480 of FIG. 4 . 5 , it is assumed that a plurality of recognition devices, including the electronic device 100 and the external devices 101 and 102 , which share the same network and whose voice recognition function is activated by the same start command, exist in a space.
  • the electronic device 100 is a TV
  • the external device 101 is a speaker
  • the external device 102 is a refrigerator.
  • the processors of the plurality of recognition devices that recognize “Hi, Bixby” as the start command identify each first noise level.
  • the processor 180 of the electronic device 100 compares the first noise level of the external devices 101 and 102 with the first noise level of the electronic device 100 based on that the first noise level of the electronic device 100 is the highest. can be identified as being the first recognition device.
  • the processor of the external device 102 is the first recognition device
  • a control operation may be performed to perform a function corresponding to the second user's voice with respect to the electronic device 100 identified as .
  • the processor of the external device 102 may receive the voice “Turn up the TV volume” and transmit the processed data to the electronic device 100 identified as the first recognition device.
  • the processor 180 may identify a control command corresponding to the voice command based on the received data and perform a control operation. That is, the processor 180 may increase the volume of the speaker connected to the electronic device 100 .
  • the start command was identified, but the first noise level was not identified as the first recognition device, and the second noise level was not identified as the second recognition device by comparing the second noise level. After doing so, the voice recognition operation is terminated.
  • FIG. 6 is a diagram illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • step S330 of FIG. 3 and step S480 of FIG. 4 wherein the processor 180 generates a first recognition device based on a natural language processing engine corresponding to a first recognition device among a plurality of natural language processing engines corresponding to a plurality of recognition devices. 2Describe the point of performing a function corresponding to the user's voice.
  • each recognition device 100 , 101 , 102 , ... may provide each natural language processing engine 610 , 620 , 630 , ... .
  • the natural language processing engine is an engine prepared for Natural Language Understanding (NLU), and the processor 180 may use the natural language processing engine to infer not only the user's speech but also what the user's speech actually means.
  • the natural language processing engine may be prepared through repeated learning using various data by applying artificial intelligence (AI) technology, or may be formed based on a rule base, but is not limited to any one.
  • AI artificial intelligence
  • the processor 180 may obtain text data through a speech-to-text (STT) processing process of receiving a user's voice by the microphone 150 or the like, and converting the received user's voice into text data. .
  • the processor 180 identifies the user's utterance intention using the acquired text data using a natural language processing engine.
  • the processor 180 converts the user's voice into text data to obtain text data "What's interesting these days?" ) can be used to infer the meaning of requesting to view a TV program with a high viewer rating, so the processor 180 identifies a TV program with a high viewer rating and displays the TV program on the display 121 when the TV program is being aired.
  • a graphic user interface including the earliest airing timetable and channel number may be displayed on the display 121 .
  • the user 20 utters the start command “Hi, Bixby” so that the external device 102 having a high first noise level is identified as the first recognition device, and the second user voice “volume up” is It is assumed that the electronic device 100 having a high second noise level is identified as the second recognition device.
  • the processor 180 converts the second user's voice "volume up" into text data through STT processing, and in order to recognize it, natural language processing corresponding to the external device 102 which is a first recognition device among a plurality of natural language processing engines
  • the second user voice is recognized based on the engine 630 .
  • the processor 180 transmits information corresponding to the control command corresponding to the second user voice to the first recognition device to control the first recognition device to perform a function corresponding to the second user voice.
  • the recognition rate may differ even if the same audio format is used because the microphone characteristics are different for each recognition device. It is preferable to perform it in a natural language processing engine corresponding to the first recognition device to be performed. However, if necessary, based on the similarity between the second recognition device and the first recognition device family, the operating characteristics of the natural language processing engine, the difficulty of voice commands, etc. can also be done.
  • the meaning is determined based on the natural language processing engine corresponding to the first recognition device. It is possible to obtain a more accurate control command because it understands and acquires a control command.
  • FIG. 7 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • the processor 180 of the electronic device 100 outputs a sound through a connected speaker (S710).
  • the speaker may be a speaker 160 built-in to the electronic device 100 , but as another embodiment, the speaker 160 is provided separately from the electronic device 100 , and the processor 180 receives audio data. It is possible to control the output to be transmitted to the speaker 160 through the interface unit 110 .
  • the processor 180 identifies whether the electronic device 100 is the first recognition device (S720). When the electronic device 100 is identified as the first recognition device (Yes in S720), the processor 180 controls to reduce the level of the output sound (S730).
  • the processor 180 controls to maintain the output sound level (S740).
  • a user voice corresponding to a voice command is received later by reducing the level of a sound output by a speaker connected to the electronic device 100 .
  • a better environment for voice recognition can be provided.
  • FIG. 8 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure. This figure specifically shows a flowchart of the AEC operation described in step S450 of FIG. 4 , and the operation of this figure shows the sound output because the electronic device 100 is not identified as the first recognition device in step S740 of FIG. 7 . It is applied when the level is maintained, so that the efficiency of voice recognition can be further increased.
  • the electronic device 100 further includes a speaker 160 , and the processor 180 outputs a sound through the speaker 160 ( S810 ).
  • the processor 180 identifies whether the electronic device 100 is the second recognition device (S820). A method of identifying whether it is the second recognition device is the same as described above.
  • the processor 180 When the electronic device 100 is identified as the second recognition device (Yes in S820), the processor 180 removes a signal corresponding to the speaker sound from the signal including the second user voice (S830). When the processor 180 receives the second user's voice, it also receives a sound output from its own device. The processor 180 removes the sound output by the electronic device 100 from the sound including the second user voice. As another example, the processor 180 may set the AEC function to operate in the background so that the sound of its own is removed before reception.
  • the processor 180 obtains the second user voice by removing the sound output by the electronic device 100 from the sound including the second user voice (S840).
  • FIG. 9 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure.
  • FIG. 9 shows another example of an operation of selecting a first recognition device having a high first noise level or a second recognition device having a high second noise level, as described above in step S420 of FIG. 4 . Accordingly, descriptions of operations S911, S912, S913, S940, S970, S980, and S990 of FIG. 9 corresponding to S411, S412, S413, S450, S480, S490, and S500 of FIG. 4 will be omitted.
  • the first and second recognition devices can be individually selected by sharing the first noise level and the second noise level identified by the processor of each recognition device, S920, S930, S950, and S960 of this figure
  • the processor of each recognition device transmits information corresponding to the identified first noise level to the server through the interface unit.
  • the server compares the first noise level based on the received information, and selects a recognition device having the highest first noise level.
  • the processor of each recognition device receives information including the selection result of the first recognition device from the server.
  • the server compares the second noise level based on the received information, and selects the recognition device having the highest second noise level.
  • the processor of each recognition device receives information including a result of selecting the second recognition device from the server.
  • the result of selecting the second recognition device according to the second noise level is the same.
  • 10 is a diagram illustrating an operation flowchart of an electronic device according to an embodiment of the present disclosure. 10 shows a solution when it is difficult to select an appropriate second recognition device because the second noise level is similar as a result of identifying and comparing the second noise level corresponding to the second user voice in a plurality of recognition devices.
  • the processor 180 receives the second noise level identification and information corresponding to the second noise level identified by the at least one external device through the interface unit 110 (S1010).
  • the processor 180 compares the identified second noise level with the second noise level based on the received information ( S1020 ).
  • the processor 180 identifies whether the plurality of second noise levels identified from the plurality of recognition devices are similar to each other (S1030).
  • the processor 180 may select a second recognition device to perform voice recognition in various ways. Specific examples are as follows.
  • the first recognition device may be selected as the second recognition device (S1040).
  • the device selected as the first recognition device to perform the function may be identified as the second recognition device.
  • the speed of voice recognition may be somewhat increased.
  • the processor 180 performs a function corresponding to one recognition result based on a preset criterion among a plurality of recognition results identified by a plurality of recognition devices. It can be done (S1050).
  • the recognition result inferred to correspond to the second user voice uttered by the user 20 may be selected and performed by comprehensively considering information such as the correlation between the operation contents and the degree of correspondence between the received signal and the predefined signal.
  • the processor 180 uses the recognized result ( S1060 ). Apart from that the second noise levels identified by the plurality of recognition devices are similar to each other, when the identified second noise level exceeds a preset value, it is determined that the recognition rate of the second user voice reaches a certain level, and the All recognition results performed by the recognition device having a noise level equal to or greater than a preset value may be used.
  • any method for identifying a second recognition device capable of deriving an optimal voice recognition result may be employed.
  • the processor 180 identifies whether the second noise levels are similar to each other (S1030), and if they are not similar to each other (No in S1030), the processor 180 sets the device having the highest second noise level as the second recognition device. Identifies (S1070).
  • the plurality of recognition devices 10 have been described as devices in which the voice recognition function is activated by the same start command within the same network, but the present disclosure is not limited thereto, and information transmission/reception between recognition devices is possible even between heterogeneous networks. Applicable in possible situations.
  • the same start command is not shared, the operation according to the present disclosure can be performed when a preset start command is input even when it is not a start command to be recognized through presetting or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 개시의 일 실시예에 따른 전자장치에 있어서, 외부장치와 연결할 수 있는 인터페이스부; 및 전자장치로 수신되는 시작명령어를 포함하는 제1사용자음성에 기초하여, 상기 전자장치로 수신된 제1사용자음성에 대응하는 제1잡음레벨을 식별하고, 상기 제1사용자음성을 상기 시작명령어로 식별한 각각의 전자장치 및 외부장치를 포함하는 복수의 인식장치 중에서, 상기 제1사용자음성에 대응하는 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별하고, 상기 복수의 인식장치 중에서, 제2사용자음성에 대응하는 제2잡음레벨이 높은 어느 하나의 제2인식장치에 기초하여 상기 제1사용자음성 이후에 수신되는 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행하도록 제어동작을 수행하는 프로세서를 포함한다.

Description

전자장치 및 그 제어방법
본 출원은 2020년 10월 30일자로 대한민국 특허청에 제출된 대한민국 특허 출원번호 제10-2020-0143186호에 기초한 우선권을 주장하며, 그 개시 내용은 전체가 참조로 본 발명에 포함된다. 본 개시는 음성인식기능을 수행하는 전자장치 및 그 제어방법에 관한 것이다.
음성인식 기술의 대중화로 전자장치의 음성인식 기능 제공이 보편화 됨에 따라 하나의 장소에서 복수의 전자장치가 음성인식을 지원하는 경우가 발생한다. 이 때, 음성인식을 실행하기 위해 사용자가 시작명령어(Trigger word 혹은 Wakeup word)를 발화하면, 동일한 시작명령어를 이용하는 복수의 전자장치가 동시에 이를 인식하므로, 어떤 전자장치가 결과적으로 음성인식에 대응하는 기능을 수행할 것인지 모호하다. 따라서, 이를 해결하기 위해, 시작명령어의 발화 레벨을 가장 높게 인식한 전자장치를 선정하여 음성인식에 대응하는 기능을 수행하는 다중 기기 웨이크업(MDW; Multi Device Wakeup) 기술이 개발되었다.
그러나 하나의 전자장치가 존재하는 공간에서 음성인식을 수행하는 경우, 시작명령어가 인식되면 해당 전자장치의 소리의 레벨을 줄여 음성인식 성공률을 높일 수 있으나, 복수의 전자장치가 존재하는 경우, 음성인식을 위해 복수의 전자장치 소리의 레벨을 모두 줄이지 않는 한, 하나의 전자장치가 음성인식을 수행할 때, 다른 전자장치로부터 출력되는 소리에 의해 그 음성인식의 성공률을 낮추는 결과를 초래하는 문제점이 여전히 존재한다.
본 개시의 목적은 음성인식 효율을 개선하는 전자장치 및 그 제어방법을 제공하는 것이다.
본 개시의 일 실시예에 따른 전자장치에 있어서, 외부장치와 연결할 수 있는 인터페이스부; 및 전자장치로 수신되는 시작명령어를 포함하는 제1사용자음성에 기초하여, 상기 전자장치로 수신된 제1사용자음성에 대응하는 제1잡음레벨을 식별하고, 상기 제1사용자음성을 상기 시작명령어로 식별한 각각의 전자장치 및 외부장치를 포함하는 복수의 인식장치 중에서, 상기 제1사용자음성에 대응하는 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별하고, 상기 복수의 인식장치 중에서, 제2사용자음성에 대응하는 제2잡음레벨이 높은 어느 하나의 제2인식장치에 기초하여 상기 제1사용자음성 이후에 수신되는 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행하도록 제어동작을 수행하는 프로세서를 포함한다.
상기 프로세서는, 상기 복수의 인식장치 각각에 대응하는 복수의 자연어 처리 엔진 중 상기 제1인식장치에 대응하는 자연어 처리 엔진에 기초하여 상기 제2사용자음성에 대응한 기능을 수행할 수 있다.
상기 프로세서는, 스피커를 통해 소리를 출력하고, 상기 전자장치가 상기 제1인식장치로 식별되면, 상기 소리의 레벨을 줄이도록 제어할 수 있다.
상기 프로세서는, 스피커를 통해 소리를 출력하고, 상기 적어도 하나의 외부장치가 상기 제1인식장치로 식별되면, 상기 소리의 레벨을 유지하도록 제어할 수 있다.
상기 프로세서는, 상기 전자장치가 상기 제1인식장치로 식별되고, 상기 적어도 하나의 외부장치의 소리의 레벨이 기설정값보다 낮으면 상기 전자장치를 상기 제2인식장치로 식별할 수 있다.
본 개시의 일 실시예에 따른 전자장치에 있어서, 스피커를 더 포함하고, 상기 프로세서는, 상기 스피커를 통해 소리를 출력하고, 상기 전자장치가 상기 제2인식장치로 식별되면, 상기 제2사용자음성을 포함하는 신호에서 상기 스피커를 통해 출력된 소리에 대응하는 신호를 제거하여 상기 제2사용자음성을 획득할 수 있다.
상기 프로세서는, 상기 제1사용자음성의 발화레벨에 기초하여 상기 제1잡음레벨을 식별할 수 있다.
상기 프로세서는, 상기 제2사용자음성의 노이즈레벨에 기초하여 상기 제2잡음레벨을 식별할 수 있다.
상기 프로세서는, 상기 인터페이스부를 통해 상기 적어도 하나의 외부장치가 식별한 상기 제2잡음레벨에 대응하는 정보를 수신하고, 상기 수신한 정보에 의한 제2잡음레벨과 상기 전자장치가 식별한 제2잡음레벨이 유사한 경우, 상기 제1인식장치를 상기 제2인식장치로 선정할 수 있다.
상기 프로세서는, 상기 인터페이스부를 통해 상기 적어도 하나의 외부장치가 식별한 상기 제2잡음레벨에 대응하는 정보를 수신하고, 상기 수신한 정보에 의한 제2잡음레벨과 상기 전자장치가 식별한 제2잡음레벨이 유사한 경우, 상기 복수의 인식장치가 식별한 복수의 인식결과 중에서 기 설정된 기준에 기초하여 하나의 인식결과에 대응하는 기능을 수행할 수 있다.
상기 프로세서는, 상기 전자장치가 상기 제2인식장치로 식별되면, 상기 제1인식장치가 상기 제2사용자음성에 대응한 기능을 수행하도록 하는 제어명령에 대응하는 정보를 상기 제1인식장치에 대응하는 외부장치로 전송하도록 상기 인터페이스부를 제어할 수 있다.
본 개시의 일 실시예에 따른 전자장치의 제어방법에 있어서, 수신되는 시작명력어를 포함하는 제1사용자음성에 기초하여, 상기 제1사용자음성에 대응하는 제1잡음레벨을 식별하는 단계; 상기 제1사용자음성을 상기 시작명령어로 식별한 각각의 전자장치 및 외부장치를 포함하는 복수의 인식장치 중에서, 상기 제1사용자음성에 대응하는 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별하는 단계; 및 상기 복수의 인식장치 중에서, 제2사용자음성에 대응하는 제2잡음레벨이 높은 어느 하나의 제2인식장치에 기초하여 상기 제1사용자음성 이후에 수신되는 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행하는 단계를 포함한다.
상기 제어동작을 수행하는 단계는, 상기 복수의 인식장치 각각에 대응하는 복수의 자연어 처리 엔진 중 상기 제1인식장치에 대응하는 자연어 처리 엔진에 기초하여 상기 제2사용자음성에 대응한 기능을 수행하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 전자장치의 제어방법에 있어서, 상기 스피커를 통해 소리를 출력하는 단계; 상기 전자장치가 상기 제1인식장치로 식별되면, 상기 소리의 레벨을 줄이도록 제어하는 단계를 더 포함할 수 있다.
컴퓨터가 읽을 수 있는 코드로서, 전자장치의 제어방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서, 상기 전자장치의 제어방법은, 전자장치로 수신되는 시작명령어를 포함하는 제1사용자음성에 기초하여 제1잡음레벨을 식별하는 단계; 상기 제1사용자음성을 상기 시작명령어로 식별한 각각의 전자장치 및 외부장치를 포함하는 복수의 인식장치 중에서, 상기 제1사용자음성에 대응하는 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별하는 단계; 및 상기 복수의 인식장치 중에서, 제2사용자음성에 대응하는 제2잡음레벨이 높은 어느 하나의 제2인식장치에 기초하여 상기 제1사용자음성 이후에 수신되는 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행하는 단계를 포함할 수 있다.
본 개시에 따른 전자장치는 다양한 상황 및 장치 환경에서도 음성인식의 성공률을 높일 수 있어, 장치의 음성인식 신뢰도가 높아지고, 사용자의 음성인식 기능 이용의 편의를 도모할 수 있다.
본 개시에 따른 전자장치는 음성인식의 신뢰도가 높아짐으로써 음성인식을 통해 수행할 다양한 기능의 사용률을 올릴 수 있다.
도 1은 본 개시의 일 실시예에 따른 전체 시스템을 도시한 도면이다.
도 2는 본 개시의 일 실시예에 의한 전자장치의 구성을 도시한 블록도이다.
도 3은 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 4는 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 5는 본 개시의 일 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다.
도 6은 본 개시의 일 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다.
도 7은 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 8은 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 9는 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 10은 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
이하에서는 첨부 도면을 참조하여 본 개시의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 개시의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 개시를 설명함에 있어서 본 개시와 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
본 개시의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 개시의 실시예에서, '구성되다', '포함하다', '가지다' 등의 용어는 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 본 개시의 실시예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 모듈로 일체화되어 구현될 수 있다. 또한, 본 개시의 실시예에서, 복수의 요소 중 적어도 하나(at least one)는, 복수의 요소 전부뿐만 아니라, 복수의 요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.
도 1은 본 개시의 일 실시예에 따른 전체 시스템을 도시한 도면이다.
도 1에는 전자장치(100), 외부장치(101, 102,…)를 포함하는 복수의 인식장치(10)와 사용자(20)가 도시되어 있다.
복수의 인식장치(10)는 동일한 네트워크 내에서 동일한 시작명령어에 의해 음성인식 기능이 활성화되는 장치이다. 도 1에 도시된 바와 같이, 복수의 인식장치(10)는 영상을 표시할 수 있는 디스플레이장치로 구현되거나, 디스플레이를 구비하지 않는 장치로 구현될 수 있다.
일 예로, 복수의 인식장치(10)는 TV, AI어시스턴스기기(AI스피커 등), 컴퓨터, 스마트 폰, 태블릿 PC, 노트북 PC, HMD(Head mounted Display), NED(Near Eye Display), LFD(large format display), Digital Signage(디지털 간판), DID(Digital Information Display), 비디오 월(video wall), 프로젝터 디스플레이, QD(quantum dot) 디스플레이 패널, QLED(quantum dot light-emitting diodes) μLED(Micro light-emitting diodes), Mini LED 등 다양한 형태의 디스플레이 및 카메라, 캠코더, 웨어러블 디바이스, 비디오 월, 전자액자 등을 포함할 수 있다.
또한, 복수의 인식장치(10)는 디스플레이를 구비하지 않는 셋탑박스 등의 영상처리장치, 냉장고, 블루투스 스피커, 세탁기 등의 생활가전, 컴퓨터본체와 같은 정보처리장치 등 다양한 종류의 장치로 구현될 수 있다.
본 개시에서 전자장치(100)와 외부장치(101, 102, …)는 동등한 지위를 가지는 것으로 본 개시의 기능을 동일하게 수행할 수 있으나, 설명의 편의 및 이해를 용이하게 하기 위해 전자장치(100)를 중심으로 설명한다. 따라서, 복수의 인식장치 시스템을 구현하기 위해 외부장치는 적어도 하나 이상이면 족하다.
사용자(20)가 시작명령어를 발화하면, 발화된 시작명령어를 이용하는 복수의 인식장치(10)는 시작명령어를 식별하게 된다. 이 때, 시작명령어의 잡음레벨에 기초하여 이후에 수신되는 음성명령을 인식할 인식장치를 선정한다. 본 개시에서의 잡음레벨이란 발화된 시작명령어 자체의 발화레벨, 시작명령어를 수신 후 음성명령 수신 사이의 소음을 측정한 비발화레벨, 혹은 이들의 비율인 신호 대 잡음 비(SNR; signal-to-noise ratio) 등을 의미한다.
예컨대, 도 1에서 사용자(20)의 시작명령어를 식별한 복수의 인식장치(10) 중에서 시작명령어의 잡음레벨에 기초하여 전자장치(100)가 가장 적합한 인식장치로 식별된 경우, 전자장치(100)는 시작명령어 이후에 수신되는 사용자(20)의 음성명령을 수신한다. 그러나, 전자장치(100)가 음성명령을 수신할 때 전자장치(100) 이외의 외부장치(101, 102,…)로부터 출력되는 소리, 예컨대, 스피커인 외부장치(101)로부터 나오는 음악이나 냉장고인 외부장치(102)로부터 나오는 소음 등에 의해 전자장치(100)의 음성명령 수신 시 유효한 발화 이외에 비발화가 섞여 수신될 수 있다. 이로 인해, 음성명령 인식의 신뢰도가 저하되는 문제가 발생한다.
본 개시에서는 이러한 문제점을 해결하기 위해, 음성명령의 잡음레벨에 기초하여 전자장치(100)보다 음성인식의 성공률이 높은 외부장치(101, 102, …) 중 어느 하나의 장치가 음성명령을 인식하는 방안을 제시한다.
즉, 음성명령을 수행할 장치와 음성명령을 인식할 인식장치를 필요에 따라 분리하여 음성인식의 성공률을 높일 수 있는 최적의 음성인식 조합을 찾아내는 것이다. 보다 구체적으로, 본 개시에서는 다양한 환경에서 복수의 인식장치의 음성의 인식률이 가변됨을 고려하여 음성인식을 수행하는 시점에서 최적의 음성의 인식률을 가지는 장치가 음성을 인식하도록 한다. 또한, 사용자와 가장 가까운 위치에 존재하는 인식장치 등 인식에 참여한 다양한 상황을 음성인식에 반영하여 최적의 인식 결과를 얻는다. 이외에도, 복수의 인식장치가 수행한 다양한 인식 결과를 취사 선택하거나, 이를 종합적으로 활용하여 최적의 인식 결과를 얻고자 한다. 보다 자세한 기술적 구현 방법은 후술한다.
도 2는 본 개시의 일 실시예에 의한 전자장치의 구성을 도시한 블록도이다.
도 2에 도시된 바와 같이, 전자장치(100)는 인터페이스부(110)를 포함할 수 있다.
인터페이스부(110)는 유선 인터페이스부(111)를 포함할 수 있다. 유선 인터페이스부(111)는 지상파/위성방송 등 방송표준에 따른 방송신호를 수신할 수 있는 안테나가 연결되거나, 케이블 방송표준에 따른 방송신호를 수신할 수 있는 케이블이 연결될 수 있는 커넥터 또는 포트를 포함한다. 다른 예로서, 전자장치(100)는 방송신호를 수신할 수 있는 안테나를 내장할 수도 있다. 유선 인터페이스부(111)는 HDMI 포트, DisplayPort, DVI 포트, 썬더볼트, 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART 등과 같이, 비디오 및/또는 오디오 전송표준에 따른 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(111)는 USB 포트 등과 같은 범용 데이터 전송표준에 따른 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(111)는 광 전송표준에 따라 광케이블이 연결될 수 있는 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(111)는 외부 마이크로폰 또는 마이크로폰을 구비한 외부 오디오기기가 연결되며, 오디오기기로부터 오디오 신호를 수신 또는 입력할 수 있는 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(111)는 헤드셋, 이어폰, 외부 스피커 등과 같은 오디오기기가 연결되며, 오디오기기로 오디오 신호를 전송 또는 출력할 수 있는 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(111)는 이더넷 등과 같은 네트워크 전송표준에 따른 커넥터 또는 포트를 포함할 수 있다. 예컨대, 유선 인터페이스부(111)는 라우터 또는 게이트웨이에 유선 접속된 랜카드 등으로 구현될 수 있다.
유선 인터페이스부(111)는 상기 커넥터 또는 포트를 통해 셋탑박스, 광학미디어 재생장치와 같은 외부기기, 또는 외부 디스플레이장치나, 스피커, 서버 등과 1:1 또는 1:N(N은 자연수) 방식으로 유선 접속됨으로써, 해당 외부기기로부터 비디오/오디오 신호를 수신하거나 또는 해당 외부기기에 비디오/오디오 신호를 송신한다. 유선 인터페이스부(111)는, 비디오/오디오 신호를 각각 별개로 전송하는 커넥터 또는 포트를 포함할 수도 있다.
그리고, 본 실시예에 따르면 유선 인터페이스부(111)는 전자장치(100)에 내장되나, 동글(dongle) 또는 모듈(module) 형태로 구현되어 전자장치(100)의 커넥터에 착탈될 수도 있다.
인터페이스부(110)는 무선 인터페이스부(112)를 포함할 수 있다. 무선 인터페이스부(112)는 전자장치(100)의 구현 형태에 대응하여 다양한 방식으로 구현될 수 있다. 예를 들면, 무선 인터페이스부(112)는 통신방식으로 RF(radio frequency), 지그비(Zigbee), 블루투스(bluetooth), 와이파이(Wi-Fi), UWB(Ultra WideBand) 및 NFC(Near Field Communication) 등 무선통신을 사용할 수 있다. 무선 인터페이스부(112)는 와이파이(Wi-Fi) 방식에 따라서 AP와 무선통신을 수행하는 무선통신모듈이나, 블루투스 등과 같은 1대 1 다이렉트 무선통신을 수행하는 무선통신모듈 등으로 구현될 수 있다. 무선 인터페이스부(112)는 네트워크 상의 서버와 무선 통신함으로써, 서버와의 사이에 데이터 패킷을 송수신할 수 있다. 무선 인터페이스부(112)는 적외선 통신표준에 따라 IR(Infrared) 신호를 송신 및/또는 수신할 수 있는 IR송신부 및/또는 IR수신부를 포함할 수 있다. 무선 인터페이스부(112)는 IR송신부 및/또는 IR수신부를 통해 리모컨 또는 다른 외부기기로부터 리모컨신호를 수신 또는 입력하거나, 다른 외부기기로 리모컨신호를 전송 또는 출력할 수 있다. 다른 예로서, 전자장치(100)는 와이파이(Wi-Fi), 블루투스(bluetooth) 등 다른 방식의 무선 인터페이스부(112)를 통해 리모컨 또는 다른 외부기기와 리모컨신호를 송수신할 수 있다.
전자장치(100)는 인터페이스부(110)를 통해 수신하는 비디오/오디오신호가 방송신호인 경우, 수신된 방송신호를 채널 별로 튜닝하는 튜너(tuner)를 더 포함할 수 있다.
전자장치(100)가 디스플레이장치로 구현되는 경우, 디스플레이부(120)를 포함할 수 있다. 디스플레이부(120)는 화면 상에 영상을 표시할 수 있는 디스플레이(121)를 포함한다. 디스플레이(121)는 액정 방식과 같은 수광 구조 또는 OLED 방식과 같은 자발광 구조로 마련된다. 디스플레이부(120)는 디스플레이(121)의 구조에 따라서 부가적인 구성을 추가로 포함할 수 있는데, 예를 들면 디스플레이(121)가 액정 방식이라면, 디스플레이부(120)는 액정 디스플레이 패널과, 광을 공급하는 백라이트유닛과, 액정 디스플레이 패널의 액정을 구동시키는 패널구동기판을 포함한다.
전자장치(100)는 사용자입력부(130)를 포함할 수 있다. 사용자입력부(130)는 사용자의 입력을 수행하기 위해 마련된 다양한 종류의 입력 인터페이스 관련 회로를 포함한다. 사용자입력부(130)는 전자장치(100)의 종류에 따라서 여러 가지 형태의 구성이 가능하며, 예컨대, 전자장치(100)의 기계적 또는 전자적 버튼부, 전자장치(100)와 분리된 리모트 컨트롤러, 전자장치(100)와 연결된 외부기기에서의 입력부, 터치패드, 디스플레이부(120)에 설치된 터치스크린 등이 있다.
전자장치(100)는 저장부(140)를 포함할 수 있다. 저장부(140)는 디지털화된 데이터를 저장한다. 저장부(140)는 전원의 제공 유무와 무관하게 데이터를 보존할 수 있는 비휘발성 속성의 스토리지(storage)와, 프로세서(180)에 의해 처리되기 위한 데이터가 로딩되며 전원이 제공되지 않으면 데이터를 보존할 수 없는 휘발성 속성의 메모리(memory)를 포함한다. 스토리지에는 플래시메모리(flash-memory), HDD(hard-disc drive), SSD(solid-state drive) ROM(Read Only Memory) 등이 있으며, 메모리에는 버퍼(buffer), 램(RAM; Random Access Memory) 등이 있다.
저장부(140)는 복수의 레이어를 포함하는 인공 지능 모델에 관한 정보를 저장할 수 있다. 여기서, 인공 지능 모델에 관한 정보를 저장한다는 것은 인공 지능 모델의 동작과 관련된 다양한 정보, 예를 들어 인공 지능 모델에 포함된 복수의 레이어에 대한 정보, 복수의 레이어 각각에서 이용되는 파라미터(예를 들어, 필터 계수, 바이어스 등)에 대한 정보 등을 저장한다는 것을 의미할 수 있다. 예를 들어, 저장부(140)는 일 실시예에 따라 입력 영상의 업스케일링 정보(또는 음성 인식 관련 정보, 이미지 내의 오브젝트 정보 등)를 획득하도록 학습된 인공 지능 모델에 대한 정보를 저장할 수 있다. 다만, 프로세서가 인공 지능 모델 전용 하드웨어로 구현되는 경우, 인공 지능 모델에 관한 정보는 프로세서 내부 메모리에 저장될 수도 있다.
전자장치(100)는 마이크로폰(150)을 포함할 수 있다. 마이크로폰(150)은 사용자 음성을 비롯한 외부 환경의 소리를 수집한다. 마이크로폰(150)은 수집된 소리의 신호를 프로세서(180)에 전달한다. 전자장치(100)는 사용자 음성을 수집하는 마이크로폰(150)을 구비하거나, 또는 인터페이스부(110)를 통해 마이크로폰을 가진 리모트 컨트롤러, 스마트폰 등의 외부장치로부터 음성신호를 수신할 수 있다. 외부장치에 리모트 컨트롤러 어플리케이션을 설치하여 전자장치(100)를 제어하거나 음성 인식 등의 기능을 수행할 수도 있다. 이와 같은 어플리케이션이 설치된 외부장치의 경우, 사용자 음성을 수신할 수 있으며, 외부장치는 전자장치(100)와 Wi-Fi/BT 또는 적외선 등을 이용하여 데이터 송수신 및 제어가 가능한 바, 상기 통신 방식을 구현할 수 있는 복수의 인터페이스부(110)가 전자장치(100) 내에 존재할 수 있다.
전자장치(100)는 스피커(160)를 포함할 수 있다. 스피커(160)는 프로세서(180)에 의해 처리되는 오디오 데이터를 소리로 출력한다. 스피커(160)는 어느 한 오디오 채널의 오디오 데이터에 대응하게 마련된 단위 스피커를 포함하며, 복수 오디오 채널의 오디오 데이터에 각기 대응하도록 복수의 단위 스피커를 포함할 수 있다. 다른 실시예로서, 스피커(160)는 전자장치(100)와 분리되어 마련될 수 있으며, 이 경우 전자장치(100)는 오디오 데이터를 인터페이스부(110)를 통하여 스피커(160)로 전달할 수 있다.
전자장치(100)는 센서(170)를 포함할 수 있다. 센서(170)는, 전자장치(100)의 상태 또는 전자장치(100) 주변의 상태를 감지하고, 감지된 정보를 프로세서(180)로 전달할 수 있다. 센서(170)는, 지자기 센서(Magnetic sensor), 가속도 센서(Acceleration sensor), 온/습도 센서, 적외선 센서, 자이로스코프 센서, 위치 센서(예컨대, GPS), 기압 센서, 근접 센서, 및 RGB 센서(illuminance sensor) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다. 프로세서(180)는 전자장치(100)와 외부장치(200)간의 탭으로 정의된 센싱값을 저장부(140)에 저장할 수 있다. 추후, 사용자 이벤트가 감지되는 경우, 프로세서(180)는 감지된 센싱값이 저장된 센싱값에 대응하는지 여부에 기초하여 사용자 이벤트의 발생 여부를 식별할 수 있다.
전자장치(100)는 프로세서(180)를 포함할 수 있다. 프로세서(180)는 인쇄회로기판 상에 장착되는 CPU, 칩셋, 버퍼, 회로 등으로 구현되는 하나 이상의 하드웨어 프로세서를 포함하며, 설계 방식에 따라서는 SOC(system on chip)로 구현될 수도 있다. 프로세서(180)는 전자장치(100)가 디스플레이장치로 구현되는 경우에 디멀티플렉서, 디코더, 스케일러, 오디오 DSP(Digital Signal Processor), 앰프 등의 다양한 프로세스에 대응하는 모듈들을 포함한다. 여기서, 이러한 모듈들 중 일부 또는 전체가 SOC로 구현될 수 있다. 예를 들면, 디멀티플렉서, 디코더, 스케일러 등 영상처리와 관련된 모듈이 영상처리 SOC로 구현되고, 오디오 DSP는 SOC와 별도의 칩셋으로 구현되는 것이 가능하다.
프로세서(180)는, 저장부(140)에 저장된 기 정의된 동작 규칙 또는 인공 지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(180)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 인공 지능 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다.
출력 데이터는 인공 지능 모델의 종류에 따라 다양한 형태가 될 수 있다. 예를 들어 출력 데이터는, 해상도가 향상된 이미지, 이미지 내에 포함된 오브젝트 관련 정보, 음성에 대응되는 텍스트 등이 될 수 있고 이에 한정되지 않는다.
프로세서(180)는 마이크로폰(150) 등에 의해 사용자 음성에 대한 음성신호를 획득하면, 음성신호를 음성데이터로 변환할 수 있다. 이 때, 음성데이터는 음성신호를 텍스트 데이터로 변환하는 STT(Speech-to-Text) 처리 과정을 통해 얻어진 텍스트 데이터일 수 있다. 프로세서(180)는 음성데이터가 나타내는 커맨드를 식별하고, 식별된 커맨드에 따라서 동작을 수행한다. 음성데이터 처리 과정과, 커맨드 식별 및 수행 과정은, 전자장치(100)에서 모두 실행될 수도 있다. 그러나, 이 경우에 전자장치(100)에 필요한 시스템 부하 및 소요 저장용량이 상대적으로 커지게 되므로, 적어도 일부의 과정은 네트워크를 통해 전자장치(100)와 통신 가능하게 접속되는 적어도 하나의 서버에 의해 수행될 수 있다.
본 발명에 따른 프로세서(180)는 전자장치(100)와 같은 기기(Machine)가 읽을 수 있는 저장 매체(Storage Medium)에 저장된 소프트웨어의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 전자장치(100)와 같은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(Non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 실재(tangible)하는 장치이고, 신호(예컨대, 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
한편, 프로세서(180)는 수신되는 제1사용자음성이 시작명령어이면, 제1사용자음성에 대응하는 제1잡음레벨을 식별하고, 전자장치 및 상기 제1사용자음성을 시작명령어로 식별한 적어도 하나의 외부장치를 포함하는 복수의 인식장치 중에서, 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별 하고, 복수의 인식장치 중에서, 제1사용자음성 이후에 수신되는 제2사용자음성에 대응하는 제2잡음레벨이 높은 어느 하나의 제2인식장치가 제1인식장치에 관하여 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다.
인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다
인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.
요소기술들은, 예로, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.
언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다.
일 예로, 프로세서(180)는 학습부 및 인식부의 기능을 함께 수행할 수 있다. 학습부는 학습된 신경망 네트워크를 생성하는 기능을 수행하고, 인식부는 학습된 신경망 네트워크를 이용하여 데이터를 인식(또는, 추론, 예측, 추정, 판단)하는 기능을 수행할 수 있다.
학습부는 신경망 네트워크를 생성하거나 갱신할 수 있다. 학습부는 신경망 네트워크를 생성하기 위해서 학습 데이터를 획득할 수 있다. 일 예로, 학습부는 학습 데이터를 저장부(140) 또는 외부로부터 획득할 수 있다. 학습 데이터는, 신경망 네트워크의 학습을 위해 이용되는 데이터일 수 있으며, 상기한 동작을 수행한 데이터를 학습데이터로 이용하여 신경망 네트워크를 학습시킬 수 있다.
학습부는 학습 데이터를 이용하여 신경망 네트워크를 학습시키기 전에, 획득된 학습 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 학습 데이터들 중에서 학습에 이용될 데이터를 선별할 수 있다. 일 예로, 학습부는 학습 데이터를 기 설정된 포맷으로 가공하거나, 필터링하거나, 또는 노이즈를 추가/제거하여 학습에 적절한 데이터의 형태로 가공할 수 있다. 학습부는 전처리된 학습 데이터를 이용하여 상기한 동작을 수행하도록 설정된 신경망 네트워크를 생성할 수 있다.
학습된 신경망 네트워크는, 복수의 신경망 네트워크(또는, 레이어)들로 구성될 수 있다. 복수의 신경망 네트워크의 노드들은 가중치(weight values)를 가지며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 네트워크들은 일 신경망 네트워크의 출력 값이 다른 신경망 네트워크의 입력 값으로 이용되도록 서로 연결될 수 있다. 신경망 네트워크의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks)과 같은 모델을 포함할 수 있다.
한편 인식부는 상기한 동작을 수행하기 위해, 타겟 데이터를 획득할 수 있다. 타겟 데이터는 저장부(140) 또는 외부로부터 획득된 것일 수 있다. 타겟 데이터는 신경망 네트워크의 인식 대상이 되는 데이터일 수 있다. 인식부는 타겟 데이터를 학습된 신경망 네트워크에 적용하기 전에, 획득된 타겟 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 타겟 데이터들 중에서 인식에 이용될 데이터를 선별할 수 있다. 일 예로, 인식부는 타겟 데이터를 기 설정된 포맷으로 가공하거나, 필터링 하거나, 또는 노이즈를 추가/제거하여 인식에 적절한 데이터의 형태로 가공할 수 있다. 인식부는 전처리된 타겟 데이터를 신경망 네트워크에 적용함으로써, 신경망 네트워크로부터 출력되는 출력값을 획득할 수 있다. 인식부는 출력값과 함께, 확률값 또는 신뢰도값을 획득할 수 있다.
인공 지능 모델의 학습 및 훈련 데이터의 생성은 외부 서버를 통해 수행될 수 있다. 다만, 경우에 따라 인공 지능 모델의 학습이 전자 장치에서 이루어지고, 훈련 데이터 또한 전자 장치에서 생성될 수도 있음은 물론이다.
일 예로, 본 발명에 따른 전자장치(100)의 제어방법은 컴퓨터 프로그램 제품 (Computer Program Product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은, 앞서 설명한, 프로세서(180)에 의해 실행되는 소프트웨어의 명령어들을 포함할 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예컨대, CD-ROM)의 형태로 배포되거나, 또는 어플리케이션 스토어(예컨대, 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예컨대, 스마트폰들) 간에 직접, 온라인으로 배포(예컨대, 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
도 3은 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
본 동작 흐름도에서는 앞서 도 1에서 설명한 바와 같이, 동일한 네트워크를 공유하고, 동일한 시작명령어에 의해 음성인식 기능이 활성화되는 복수의 인식장치(10)가 공간 내에 존재한다고 가정한다.
본 개시의 일 실시예에 따르면, 프로세서(180)는 수신되는 제1사용자음성이 시작명령어이면, 제1사용자음성에 대응하는 제1잡음레벨을 식별한다(S310).
프로세서(180)는 시작명령어의 신호 파형, 길이 등에 대한 정보에 기초하여 수신되는 제1사용자음성이 시작명령어인지 여부를 식별한다. 이 때, 프로세서(180)는 저장부(140)에 미리 저장된 정보를 이용하거나, 서버 등과의 통신을 통해 정보를 획득할 수 있다.
프로세서(180)는 수신된 제1사용자음성이 시작명령어인 것으로 식별하면, 제1사용자음성에 대응하는 제1잡음레벨을 식별한다. 이 때, 전자장치(100)의 주변에 존재하고, 제1사용자음성을 시작명령어로 식별한 적어도 하나의 외부장치도 각 제1잡음레벨을 식별한다. 본 개시에서의 잡음레벨은 앞서 도 1에서 설명한 바와 같다.
이 때, 시작명령어의 특성상 비발화레벨의 크기보다 발화레벨의 크기가 더욱 중요한 것에 비추어 프로세서(180)는 제1사용자음성의 발화레벨에 기초하여 제1잡음레벨을 식별할 수 있다. 다만, 이에 한정되지 않으며, 음성인식 기능을 수행하고자 하는 최적의 인식장치를 식별할 수 있도록 제1잡음레벨이 식별되면 족하다.
본 개시의 일 실시예에 따르면, 프로세서(180)는 전자장치와 적어도 하나의 외부장치를 포함하는 복수의 인식장치 중에서 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별한다(S320).
잡음레벨이 높다는 것은 발화된 시작명령어 자체의 발화레벨이 높거나, 비발화레벨이 낮거나, 혹은 이들의 비율인 신호 대 잡음 비가 높은 것을 의미한다. 따라서, 프로세서(180)는 제1잡음레벨이 높을수록 제1사용자음성에 대응하는 인식장치, 즉 사용자가 이용하고자 하는 인식장치로 식별한다. 또한, 제1잡음레벨이 높을수록 음성인식의 성공률이 높다고 판단한다.
복수의 인식장치 중에서 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별하는 기술은 다양하게 구현될 수 있다.
예컨대, 프로세서(180)는 적어도 하나의 외부장치로부터 인터페이스부(110)를 통해 외부장치의 제1잡음레벨을 수신하고, 적어도 하나의 외부장치의 제1잡음레벨과 프로세서(180)가 식별한 제1잡음레벨과 비교하여, 복수의 인식장치 중에서 제1잡음레벨이 높은 제1인식장치를 식별할 수 있다. 이는 각 인식장치에서 개별적으로 식별하여, 복수의 인식장치 중에서 자신이 제1잡음레벨이 높은 제1인식장치인지 식별할 수 있다.
또한, 도 9에 설명하는 바와 같이 각 인식장치는 식별한 제1잡음레벨을 서버로 전송하고, 서버가 제1잡음레벨이 높은 제1인식장치를 선정하여, 선정된 정보를 각 인식장치로 전송하여 결정될 수 있다.
프로세서(180)는 복수의 인식장치 중에서, 제1사용자음성 이후에 수신되는 제2사용자음성에 대응하는 제2잡음레벨이 높은 어느 하나의 제2인식장치가 제1인식장치에 관하여 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행한다(S330).
본 개시에 따르면 제2사용자음성은 음성명령에 대응하는 음성으로써, 제1사용자음성 이후에 수신되며, 궁극적으로 사용자가 제1인식장치에서 실행하고자 하는 기능에 대한 음성이다. 예컨대, 제1인식장치가 TV인 경우 “채널 올려줘”, 스피커인 경우, “볼륨 올려줘”, 냉장고인 경우, “온도 내려줘” 등이 있다.
일 예로, 제1인식장치가 TV로 식별되고, 제1인식장치의 프로세서가 제2사용자음성인 “채널 올려줘”를 수신 및 인식하고자 하나, 제1인식장치가 아닌 다른 장치가 출력하는 소리, 예컨대, 스피커로부터 출력되는 음악, 냉장고의 소음이 함께 수신되어 “채널 올려줘”의 신호 인식이 어려울 수 있다.
이를 해결하기 위해, 프로세서(180)는 제2사용자음성의 제2잡음레벨을 식별하고, 복수의 인식장치 중에서 제2잡음레벨이 높은 어느 하나의 제2인식장치를 식별한다. 제2사용자음성의 제2잡음레벨의 식별방법 및 제2잡음레벨이 높은 제2인식장치를 식별하는 방법은 앞서 제1사용자음성의 제1잡음레벨의 식별방법 및 제1잡음레벨이 높은 제1인식장치를 식별하는 방법에서 설명한 바와 같다.
이 때, 시작명령어에 의해 음성인식 기능이 활성화된 복수의 인식장치 중에서 음성명령을 보다 효율적으로 수신하기 위해, 비발화레벨에 더욱 중점을 두고, 프로세서(180)는 제2사용자음성의 비발화레벨에 기초하여 제2잡음레벨을 식별할 수 있다. 또는, 제2인식장치가 되는 장치는 사용자 발화의 레벨이 크고, 수신되는 소음도 작아야 인식률이 높아지므로, 사용자음성의 발화레벨이 높고, 비발화레벨이 낮은 장치가 바람직하다. 만약, 비발화레벨이 낮더라도, 발화레벨이 제1인식장치가 식별한 발화레벨에 비해 매우 낮은 기기라면 해당 장치는 사용자와의 거리가 멀다고 판단할 수 있기 때문에 이러한 기기들은 후보에서 제외하고 선정한다. 다만, 이 또한 제1잡음레벨과 마찬가지로 이에 한정되지 않으며, 음성인식 기능을 수행하고자 하는 최적의 제2인식장치를 식별할 수 있도록 제2잡음레벨이 식별되면 족하다.
제2인식장치로 식별된 장치의 프로세서는 제1인식장치에 관하여 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행한다.
본 개시는 음성 인식장치에서 사용자 발화의 실시간 음성인식 결과에 따른 적합한 음성 인식장치를 식별하는 방법을 제안한다. 이를 통해 전자장치는 음성인식의 신뢰도가 높아짐으로써 음성인식을 통해 수행할 다양한 기능의 사용률을 올릴 수 있다.
도 4는 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
본 동작 흐름도에서는 앞서 도 1에서 설명한 바와 같이, 동일한 네트워크를 공유하고, 동일한 시작명령어에 의해 음성인식 기능이 활성화되는 복수의 인식장치(10)인 장치 A, 장치 B ... 장치 N이 공간 내에 존재한다고 가정한다. 도 3에서 설명한 부분에 대한 자세한 설명은 생략한다.
장치 A, 장치 B ... 장치 N의 각 프로세서는 도 3의 S310에서 설명한 바와 같이, 제1사용자음성을 수신하고(S411), 제1사용자음성을 시작명령어로 인식(S412)하고, 제1사용자음성의 제1잡음레벨을 식별한다(S413).
장치 A, 장치 B ... 장치 N의 각 프로세서는 각 식별한 제1잡음레벨을 공유한다(S420). 도 4에는 장치 A와 장치 B 사이에서만 공유된 것으로 표시되었으나, 이는 간략하게 표시한 것으로 모든 장치가 서로 식별한 제1잡음레벨을 공유한다.
장치 A의 프로세서는 장치 B ... 장치 N으로부터 수신한 제1잡음레벨을 장치 A의 프로세서가 식별한 제1잡음레벨과 비교하여 자신의 제1잡음레벨이 가장 높다고 판단되는 경우, 장치 A를 제1인식장치로 식별한다(S430). 이 때, 나머지 장치 B ... 장치 N의 프로세서 또한 각 장치의 프로세서가 식별한 제1잡음레벨과 다른 장치로부터 수신한 제1잡음레벨을 비교하고, 자신의 제1잡음레벨이 가장 높다고 판단되지 않는 것으로 식별하여 자신은 제1인식장치로 식별하지 않는다.
다만, 본 개시에서는 제1사용자음성과 제2사용자음성의 처리가 무조건 순차적으로 이루어지지 않고, 아주 짧은 시간 내에서 제1인식장치와 제2인식장치의 식별동작, 제2인식장치의 음성인식 수행, 제1인식장치에서의 기능 수행이 이루어지므로, 자신이 제1인식장치로 식별되지 않았다고 하여 음성인식의 동작전체가 종료된다고 보기 어렵다. 따라서, 제1사용자음성을 통해 음성인식 기능이 활성화된 경우, 제1인식장치로 식별여부와 관계없이 제2사용자음성을 수신하는 것은 특별한 사정이 없는 한 모든 장치가 동일하다.
장치 A가 제1인식장치로 식별되면, 장치 A의 프로세서는 장치 A와 연결된 스피커를 통해 출력되는 소리의 레벨을 줄이도록 제어할 수 있다(S440). 이는 제1사용자음성 이후에 수신되는 음성명령, 즉 제2사용자음성을 더욱 잘 수신하기 위함이다.
이와 같이, 제1인식장치로 식별된 장치 A로부터 출력되는 소리의 레벨 줄였으나, 장지 A의 프로세서는 장치 A를 제외한 다른 장치가 동작함에 따라 음성명령인 제2사용자음성의 인식이 어려운 환경에 놓여있는 경우를 살펴본다.
일 예로, 장치 A가 TV인 경우, 제2사용자음성인 “채널 올려줘”를 수신 및 인식하기 위해 TV의 프로세서는 TV 자체가 출력하는 소리의 레벨을 낮추었으나, 제1인식장치가 아닌 장치 B인 스피커로부터 출력되는 음악, 장치 C인 냉장고의 소음이 함께 수신되어 “채널 올려줘”의 신호의 인식률이 낮아질 수 있다.
이 문제점을 해결하기 위해, 각 장치 A, 장치 B, …, 장치 C의 프로세서는 제2사용자음성의 제2잡음레벨을 식별한다(S450).
이 때, 각 장치의 프로세서는 제2잡음레벨을 식별하는 경우, 제2사용자음성에 대응하는 신호에서 자신의 장치 내 스피커를 통해 출력한 소리에 대응하는 신호를 제거하는 AEC(Auto Echo Cancellation) 동작을 수행할 수 있다.
앞서 S440 단계에서, 제1인식장치로 식별된 장치 A의 프로세서는 장치 A와 연결된 스피커를 통해 출력되는 소리의 레벨을 줄이도록 제어하였으므로, 장치 A는 AEC 동작에 따른 제2잡음레벨이 높아지는 효과가 미미하다. 그러나 나머지 장치의 경우, 장치 A로부터 출력되는 소리도 제거되고, 자신의 장치 내 스피커를 통해 출력되는 소리도 제거할 수 있으므로, 제2잡음레벨이 높아지게 된다.
본 개시의 다른 실시예로, 장치 A의 프로세서는, 장치 A가 제1인식장치로 식별되고, 적어도 하나의 외부장치(장치 B, …, 장치 N)의 소리의 레벨이 기설정값보다 낮으면 장치 A를 제2인식장치로 식별할 수 있다. 외부장치의 소리의 레벨이 기설정값보다 낮다는 것은 외부장치의 소리 출력이 없거나, 있더라도 제1인식장치가 그대로 제2사용자음성을 수신하는데 식별된 비발화레벨이 기설정값보다 낮아 제2사용사음성을 수신하는데 영향을 적게 미치는 것을 의미한다.
장치 A, 장치 B ... 장치 N의 각 프로세서는 각 식별한 제2잡음레벨을 공유한다(S460). 도 4에는 장치 A와 장치 B 사이에서만 공유된 것으로 표시되었으나, 이는 간략하게 표시한 것으로 모든 장치가 서로 식별한 제2잡음레벨을 공유한다.
장치 B의 프로세서는 장치 A ... 장치 N으로부터 수신한 제2잡음레벨을 장치 B의 프로세서가 식별한 제2잡음레벨과 비교하여 자신의 제2잡음레벨이 가장 높다고 판단되는 경우, 장치 B를 제2인식장치로 식별한다(S470). 마찬가지로 나머지 장치의 프로세서도 자신의 장치가 제2인식장치인지 여부를 식별한다.
장치 B의 프로세서는 제1인식장치에 관하여 제2사용자음성에 대응하는 제어명령을 식별한다(S480). 결국 제2사용자음성에 대응하는 기능을 수행하는 장치는 기능을 수행할 것으로 식별된 제1인식장치이므로, 제2인식장치로 식별된 장치 B의 프로세서는 제1인식장치인 장치 A에 관하여 제2사용자음성에 대응하는 제어명령을 식별한다. S480 단계와 관련한 자세한 내용은 도 5 및 도 6에서 서술한다.
장치 B의 프로세서는 식별한 제어명령에 대응하는 정보를 장치 A로 인터페이스부를 통해 전송한다(S490).
장치 A의 프로세서는 장치 B로부터 수신한 정보에 기초하여 제어명령에 대응하는 제어동작을 수행한다(S500).
본 개시의 일 실시예에 따르면, 다양한 상황 및 장치 환경에서도 음성인식의 성공률을 높일 수 있어, 장치의 음성인식 신뢰도가 높아지고, 사용자의 음성인식 기능 이용의 편의를 도모할 수 있다.
도 5는 본 개시의 일 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다.
본 도면은 도 3의 S330 단계, 도 4의 S480 단계와 관련하여 일 예를 서술한다. 도 5는 동일한 네트워크를 공유하고, 동일한 시작명령어에 의해 음성인식 기능이 활성화되는 전자장치(100), 외부장치(101, 102)를 포함하는 복수의 인식장치가 공간 내에 존재한다고 가정한다. 이 때, 도시된 바와 같이 전자장치(100)는 TV이고, 외부장치(101)는 스피커, 외부장치(102)는 냉장고이다.
사용자(20)가 시작명령어로 “Hi, Bixby”를 발화하면, “Hi, Bixby”를 시작명령어로 인식하는 복수의 인식장치의 프로세서는 각 제1잡음레벨을 식별한다.
전자장치(100)의 프로세서(180)는 외부장치(101, 102)의 제1잡음레벨과의 비교를 통해, 전자장치(100)의 제1잡음레벨이 제일 높은 것에 기초하여 전자장치(100)가 제1인식장치인 것으로 식별할 수 있다.
마찬가지로, “Hi, Bixby” 발화 뒤에 수신하는 “TV 볼륨 올려줘”의 제2잡음레벨에 따라 외부장치(102)가 제2인식장치로 식별되는 경우, 외부장치(102)의 프로세서는 제1인식장치로 식별된 전자장치(100)에 관하여 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행할 수 있다. 따라서, 외부장치(102)의 프로세서는 “TV 볼륨 올려줘” 음성을 수신하여 처리한 데이터를 제1인식장치로 식별된 전자장치(100)로 전송할 수 있다. 프로세서(180)는 수신한 데이터를 기초로 하여 음성명령에 대응하는 제어명령을 식별하고, 제어동작을 수행할 수 있다. 즉, 프로세서(180)는 전자장치(100)와 연결된 스피커의 볼륨을 올리는 동작을 수행할 수 있다.
이 때, 외부장치(101)의 경우, 시작명령어를 식별하였으나, 제1잡음레벨을 비교하여 제1인식장치로 식별되지 못하였고, 제2잡음레벨을 비교하여 제2인식장치로 식별되지도 못하였는바, 음성인식 동작을 종료한다.
도 6은 본 개시의 일 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다.
본 도면은 도 3의 S330 단계, 도 4의 S480 단계의 일 예로, 프로세서(180)는 복수의 인식장치에 대응하는 복수의 자연어 처리 엔진 중 제1인식장치에 대응하는 자연어 처리 엔진에 기초하여 제2사용자음성에 대응한 기능을 수행하는 점을 설명한다.
도 6에 따르면, 각 인식장치(100, 101, 102,…)의 프로세서는 각 자연어 처리 엔진(610, 620, 630, …)을 마련할 수 있다. 자연어 처리 엔진이란 자연어 처리 이해(NLU; Natural Language Understanding)를 위해 마련된 엔진으로, 프로세서(180)는 자연어 처리 엔진을 이용하여 사용자의 발화뿐 아니라, 사용자의 발화가 실제로 의미하는 바를 추론할 수 있다. 자연어 처리 엔진은 인공지능(AI; Artificial Intelligence) 기술을 적용하여 다양한 데이터를 이용하여 반복 학습을 통해 마련될 수도 있고, 룰 베이스 기반으로 형성될 수 있으며 어느 하나에 한정된 것은 아니다.
보다 구체적으로, 프로세서(180)는 마이크로폰(150) 등에 의해 사용자음성을 수신하고, 수신한 사용자음성을 텍스트 데이터로 변환하는 STT(Speech-to-Text) 처리 과정을 통해 텍스트 데이터를 획득할 수 있다. 프로세서(180)는 획득한 텍스트 데이터를 자연어 처리 엔진을 이용하여 사용자의 발화 의도를 식별한다.
일 예로, 전자장치(100)가 TV인 경우, 프로세서(180)는 사용자음성을 텍스트 데이터로 변환하여 "요즘 어떤게 재밌어?”라는 텍스트 데이터를 획득한 경우, 프로세서(180)는 자연어 처리 엔진(610)을 이용하여 시청률이 높게 나오는 TV 프로그램의 시청을 요청한다는 의미를 추론할 수 있다. 따라서, 프로세서(180)는 시청률이 높게 나오는 TV 프로그램을 식별하여 해당 TV 프로그램이 방영중인 경우 디스플레이(121)에 프로그램을 표시하거나, 방영하지 않는 경우 가장 빠른 방영시간표 및 채널번호를 포함하는 그래픽 유저 인터페이스(GUI; Graphic User Interface)를 디스플레이(121)에 표시할 수 있다.
나아가 본 개시의 일 실시예에서는, 앞서 설명한 바와 같이 복수의 인식장치가 존재하고, 기능을 수행하는 제1인식장치와 사용자음성을 인식하는 제2인식장치가 다른 경우에 의미가 있다.
도 6에서 사용자(20)가 시작명령어인 “Hi, Bixby”를 발화하여 제1잡음레벨이 높은 외부장치(102)가 제1인식장치로 식별되고, 제2사용자음성인 “볼륨올려줘”의 제2잡음레벨이 높은 전자장치(100)가 제2인식장치로 식별되었다고 가정한다.
프로세서(180)는 제2사용자음성인 “볼륨올려줘”를 STT 처리를 통해 텍스트 데이터로 변환하고, 이를 인식하기 위해서 복수의 자연어 처리 엔진 중 제1인식장치인 외부장치(102)에 대응하는 자연어 처리 엔진(630)에 기초하여 제2사용자음성을 인식한다. 그리고, 프로세서(180)는 제2사용자음성에 대응하는 제어명령에 대응하는 정보를 제1인식장치로 전송하여 제1인식장치가 제2사용자음성에 대응한 기능을 수행하도록 제어한다.
자동 음성 인식(ASR; Automatic Speech Recognition)은 인식장치마다 마이크로폰의 특성이 달라 동일한 오디오 형식을 사용한다고 해도 인식률에서 차이가 있을 수 있고, 자연어 처리 엔진은 각 인식장치의 동작 특성이 다르기 때문에 실제 동작을 수행하는 제1인식장치에 대응하는 자연어 처리 엔진에서 수행하는 것이 바람직하다. 다만, 필요에 따라 제2인식장치와 제1인식장치 제품군의 유사도, 자연어 처리 엔진의 동작 특성, 음성명령의 난이도 등에 기초하여 제2인식장치 혹은 다른 인식장치에 대응하는 자연어 처리 엔진에서 음성인식을 수행할 수도 있다.
본 발명의 일 실시예에 따르면, 음성에 대응하는 기능을 수행하는 제1인식장치와 음성을 인식하는 제2인식장치가 다르더라도, 제1인식장치에 대응하는 자연어 처리 엔진을 기준으로 그 의미를 파악하고 제어명령을 획득하므로 보다 정확한 제어명령의 획득이 가능하다.
도 7은 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
본 도면은 도 4의 S440 와 관련하여 전자장치의 동작을 설명한다. 전자장치(100)의 프로세서(180)는 연결된 스피커를 통해 소리를 출력한다(S710). 이 때, 스피커는 전자장치(100)에 내장된 스피커(160)일 수 있지만, 다른 실시예로서, 스피커(160)는 전자장치(100)와 분리되어 마련되고, 프로세서(180)는 오디오 데이터를 인터페이스부(110)를 통하여 스피커(160)로 전달하여 출력하도록 제어할 수 있다.
본 개시의 일 실시예에 따르면, 프로세서(180)는 전자장치(100)가 제1인식장치인지 여부를 식별한다(S720). 전자장치(100)가 제1인식장치로 식별되면(S720의 Yes), 프로세서(180)는 출력되는 소리의 레벨을 줄이도록 제어한다(S730).
전자장치(100)가 제1인식장치 아닌 것으로 식별되면(S720의 No), 프로세서(180)는 출력되는 소리의 레벨을 유지하도록 제어한다(S740).
본 개시의 일 실시예에 따르면, 전자장치(100)가 제1인식장치로 식별되면, 전자장치(100)와 연결된 스피커가 출력하는 소리의 레벨을 줄임으로써 추후 음성명령에 대응하는 사용자음성을 수신하는 경우 음성인식의 보다 나은 환경을 제공할 수 있다.
도 8은 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다. 본 도면은 도 4의 S450 단계에서 서술한 AEC 동작의 흐름도를 구체적으로 도시하고, 본 도면의 동작은 도 7의 S740 단계에서 전자장치(100)가 제1인식장치로 식별되지 않아 출력하는 소리의 레벨을 유지하는 경우에 적용되어 음성인식의 효율을 더욱 높일 수 있다.
전자장치(100)는 스피커(160)를 더 포함하고, 프로세서(180)는 스피커(160)를 통해 소리를 출력한다(S810).
프로세서(180)는 전자장치(100)가 제2인식장치인지 여부를 식별한다(S820). 제2인식장치인지 여부를 식별하는 방법은 앞서 서술한 바와 같다.
전자장치(100)가 제2인식장치로 식별되면(S820의 Yes), 프로세서(180)는 제2사용자음성을 포함하는 신호에서 스피커 소리에 대응하는 신호를 제거한다(S830). 프로세서(180)는 제2사용자음성을 수신할 때, 자신의 장치에서 출력하는 소리를 함께 수신하게 된다. 프로세서(180)는 제2사용자음성을 포함하는 소리에서 전자장치(100)가 출력하는 소리를 제거한다. 다른 예로, 프로세서(180)는 AEC 기능을 백그라운드에서 동작하게 두어 수신하기 전부터 자신의 소리는 제거하여 수신하도록 설정할 수 있다.
프로세서(180)는 제2사용자음성을 포함하는 소리에서 전자장치(100)가 출력하는 소리를 제거하여 제2사용자음성을 획득한다(S840).
도 9는 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 9는 앞서 도 4의 S420 단계에서 설명한 바와 같이, 제1잡음레벨이 높은 제1인식장치나, 제2잡음레벨이 높은 제2인식장치를 선정하는 동작의 다른 일 예를 도시한다. 따라서 도 4의 S411, S412, S413, S450, S480, S490, S500에 대응하는 도 9의 S911, S912, S913, S940, S970, S980, S990 동작에 대한 설명은 생략한다.
각 인식장치의 프로세서가 식별한 제1잡음레벨과 제2잡음레벨을 인식장치간 공유하여 개별적으로 제1인식장치와 제2인식장치를 선정할 수 있으나, 본 도면의 S920, S930, S950, S960에 도시된 바와 같이, 각 인식장치의 프로세서는 식별한 제1 잡음레벨에 대응하는 정보를 인터페이스부를 통해 서버로 전송한다. 서버는 수신한 정보에 기초하여 제1잡음레벨을 비교하고, 가장 높은 제1잡음레벨을 가지는 인식장치를 선정한다. 각 인식장치의 프로세서는 제1인식장치의 선정결과를 포함하는 정보를 서버로부터 수신한다. 서버는 수신된 정보에 기초하여 제2잡음레벨을 비교하고, 가장 높은 제2잡음레벨이 인식 장치를 선정한다. 각 인식장치의 프로세서는 서버에서 제2인식장치를 선택한 결과를 포함한 정보를 수신한다.
서버로부터 제1잡음레벨이 높은 제1인식장치를 선정하여, 선정된 정보를 각 인식장치로 전송하여 결정될 수 있다. 이하 제2잡음레벨에 따른 제2인식장치 선정결과와 동일하다.
도 10은 본 개시의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다. 도 10은 복수의 인식장치에서 제2사용자음성에 대응하는 제2잡음레벨을 식별하여 비교한 결과, 제2잡음레벨이 유사하여 적절한 제2인식장치를 선정하기 어려운 경우 해결 방안을 제시한다.
프로세서(180)는 제2잡음레벨 식별 및 적어도 하나의 외부장치가 식별한 제2잡음레벨에 대응하는 정보를 인터페이스부(110)를 통해 수신한다(S1010).
프로세서(180)는 식별한 제2잡음레벨과 수신한 정보에 의한 제2잡음레벨을 비교한다(S1020).
프로세서(180)는 복수의 인식장치로부터 식별한 복수의 제2잡음레벨이 서로 유사한지 식별한다(S1030).
이 때, 제2잡음레벨이 서로 유사하다는 것은, 제2잡음레벨 간의 차이가 기설정값을 벗어나지 않는 것을 의미하며, 따라서 어느 인식장치를 제2인식장치로 선택하든 그 음성인식의 결과가 유사할 것으로 예상되는 것을 의미한다.
프로세서(180)는 제2잡음레벨이 서로 유사한 경우(S1030의 Yes), 다양한 방법으로 음성인식을 수행할 제2인식장치를 선택할 수 있다. 구체적인 예시는 다음과 같다.
일 예로, 제1인식장치를 제2인식장치로 선정할 수 있다(S1040).
즉, 복수의 인식장치 중 음성을 보다 효율적으로 인식할 제2인식장치를 식별하지 못한 경우, 기능을 수행할 제1인식장치로 선정된 장치를 제2인식장치로 식별할 수 있다. 이 경우, 해당 장치가 인식하여 바로 동작을 수행할 수 있으므로, 음성인식의 속도가 다소 빨라질 수 있다.
다른 예로, 프로세서(180)는 제2잡음레벨이 서로 유사한 경우(S1030의 Yes), 복수의 인식장치가 식별한 복수의 인식결과 중에서 기설정된 기준에 기초하여 하나의 인식결과에 대응하는 기능을 수행할 수 있다(S1050).
기설정된 기준이란, 프로세서(180)는 식별된 제2잡음레벨 이외에도, 예컨대, 사용자의 사용 이력, 이용 시간대, 주변 환경 온도, “TV 소리 켜줘” 등의 발화 내용 내에 장치를 나타내는 발화 내용과 장치의 동작 내용간의 연관성, 수신한 신호와 기 정의된 신호의 일치 정도 등 정보를 종합적으로 고려하여 사용자(20)가 발화한 제2사용자음성에 대응할 것으로 추론되는 인식결과를 선택하여 수행할 수 있다.
또 다른 예로, 프로세서(180)는 식별된 제2잡음레벨이 기설정값 이상인 경우 인식된 결과를 이용한다(S1060). 복수의 인식장치에서 식별한 제2잡음레벨이 서로 유사한 것은 별론, 식별된 제2잡음레벨이 기설정값을 초과하면 제2사용자음성의 인식률이 일정 수준에 도달하는 것으로 판단하고, 식별된 제2잡음레벨이 기설정값 이상인 인식장치에서 수행한 인식결과를 모두 이용할 수 있다.
이 외에도, 식별된 제2잡음레벨이 유사한 경우, 최적의 음성인식 결과를 도출할 수 있는 제2인식장치를 식별하는 방법이라면 무엇이든 채용 가능하다.
프로세서(180)는 제2잡음레벨이 서로 유사한지 식별하여(S1030), 서로 유사하지 않은 경우(S1030의 No), 프로세서(180)는 제일 높은 제2잡음레벨을 가지는 장치를 제2인식장치로 식별한다(S1070).
이 외에도, 본 개시에서 복수의 인식장치(10)는 동일한 네트워크 내에서 동일한 시작명령어에 의해 음성인식 기능이 활성화되는 장치로 설명하였으나, 이에 한정되지 않고, 이종 네트워크 간에도 인식장치 간 정보 송/수신이 가능한 상황에서 적용이 가능하다. 또한, 동일 시작명령어를 공유하지 않으나, 사전 설정 등을 통해 자신이 인식해야 하는 시작명령어가 아닌 경우에도 사전 설정된 시작명령어가 입력되면 본 개시에 따른 동작을 수행할 수 있다.

Claims (15)

  1. 전자장치에 있어서,
    외부장치와 연결할 수 있는 인터페이스부; 및
    전자장치로 수신되는 시작명령어를 포함하는 제1사용자음성에 기초하여, 상기 전자장치로 수신된 제1사용자음성에 대응하는 제1잡음레벨을 식별하고,
    상기 제1사용자음성을 상기 시작명령어로 식별한 각각의 전자장치 및 외부장치를 포함하는 복수의 인식장치 중에서, 상기 제1사용자음성에 대응하는 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별하고,
    상기 복수의 인식장치 중에서, 제2사용자음성에 대응하는 제2잡음레벨이 높은 어느 하나의 제2인식장치에 기초하여 상기 제1사용자음성 이후에 수신되는 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행하는
    프로세서를 포함하는 전자장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 인식장치 각각에 대응하는 복수의 자연어 처리 엔진 중 상기 제1인식장치에 대응하는 자연어 처리 엔진에 기초하여 상기 제2사용자음성에 대응한 기능을 수행하는 전자장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    스피커를 통해 소리를 출력하고,
    상기 전자장치가 상기 제1인식장치로 식별되면, 상기 소리의 레벨을 줄이도록 제어하는 전자장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 스피커를 통해 소리를 출력하고,
    상기 적어도 하나의 외부장치가 상기 제1인식장치로 식별되면, 상기 소리의 레벨을 유지하도록 제어하는 전자장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 전자장치가 상기 제1인식장치로 식별되고, 상기 적어도 하나의 외부장치의 소리의 레벨이 기설정값보다 낮으면 상기 전자장치를 상기 제2인식장치로 식별하는 전자장치.
  6. 제1항에 있어서,
    스피커를 더 포함하고,
    상기 프로세서는,
    상기 스피커를 통해 소리를 출력하고,
    상기 전자장치가 상기 제2인식장치로 식별되면, 상기 제2사용자음성을 포함하는 신호에서 상기 스피커를 통해 출력된 소리에 대응하는 신호를 제거하여 상기 제2사용자음성을 획득하는 전자장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 제1사용자음성의 발화레벨에 기초하여 상기 제1잡음레벨을 식별하는 전자장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 제2사용자음성의 노이즈레벨에 기초하여 상기 제2잡음레벨을 식별하는 전자장치.
  9. 제1항에 있어서,
    상기 프로세서는,
    상기 인터페이스부를 통해 상기 적어도 하나의 외부장치가 식별한 상기 제2잡음레벨에 대응하는 정보를 수신하고,
    상기 수신한 정보에 의한 제2잡음레벨과 상기 전자장치가 식별한 제2잡음레벨이 유사한 경우, 상기 제1인식장치를 상기 제2인식장치로 선정하는 전자장치.
  10. 제1항에 있어서,
    상기 프로세서는,
    상기 인터페이스부를 통해 상기 적어도 하나의 외부장치가 식별한 상기 제2잡음레벨에 대응하는 정보를 수신하고,
    상기 수신한 정보에 의한 제2잡음레벨과 상기 전자장치가 식별한 제2잡음레벨이 유사한 경우, 상기 복수의 인식장치가 식별한 복수의 인식결과 중에서 기 설정된 기준에 기초하여 하나의 인식결과에 대응하는 기능을 수행하는 전자장치.
  11. 제1항에 있어서,
    상기 프로세서는,
    상기 전자장치가 상기 제2인식장치로 식별되면, 상기 제1인식장치가 상기 제2사용자음성에 대응한 기능을 수행하도록 하는 제어명령에 대응하는 정보를 상기 제1인식장치에 대응하는 외부장치로 전송하도록 상기 인터페이스부를 제어하는 전자장치.
  12. 전자장치의 제어방법에 있어서,
    수신되는 시작명력어를 포함하는 제1사용자음성에 기초하여, 상기 제1사용자음성에 대응하는 제1잡음레벨을 식별하는 단계;
    상기 제1사용자음성을 상기 시작명령어로 식별한 각각의 전자장치 및 외부장치를 포함하는 복수의 인식장치 중에서, 상기 제1사용자음성에 대응하는 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별하는 단계; 및
    상기 복수의 인식장치 중에서, 제2사용자음성에 대응하는 제2잡음레벨이 높은 어느 하나의 제2인식장치에 기초하여 상기 제1사용자음성 이후에 수신되는 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행하는 단계를 포함하는 것을 특징으로 하는 전자장치의 제어방법.
  13. 제12항에 있어서,
    상기 제어동작을 수행하는 단계는,
    상기 복수의 인식장치 각각에 대응하는 복수의 자연어 처리 엔진 중 상기 제1인식장치에 대응하는 자연어 처리 엔진에 기초하여 상기 제2사용자음성에 대응한 기능을 수행하는 단계를 포함하는 것을 특징으로 하는 전자장치의 제어방법.
  14. 제12항에 있어서,
    상기 스피커를 통해 소리를 출력하는 단계;
    상기 전자장치가 상기 제1인식장치로 식별되면, 상기 소리의 레벨을 줄이도록 제어하는 단계를 포함하는 것을 특징으로 하는 전자장치의 제어방법.
  15. 컴퓨터가 읽을 수 있는 코드로서, 전자장치의 제어방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서, 상기 전자장치의 제어방법은,
    전자장치로 수신되는 시작명령어를 포함하는 제1사용자음성에 기초하여 제1잡음레벨을 식별하는 단계;
    상기 제1사용자음성을 상기 시작명령어로 식별한 각각의 전자장치 및 외부장치를 포함하는 복수의 인식장치 중에서, 상기 제1사용자음성에 대응하는 제1잡음레벨이 높은 어느 하나의 제1인식장치를 식별하는 단계; 및
    상기 복수의 인식장치 중에서, 제2사용자음성에 대응하는 제2잡음레벨이 높은 어느 하나의 제2인식장치에 기초하여 상기 제1사용자음성 이후에 수신되는 제2사용자음성에 대응한 기능을 수행하도록 제어동작을 수행하는 단계를 포함하는 것을 특징으로 하는 컴퓨터가 읽을 수 있는 프로그램이 기록된 기록매체.
PCT/KR2021/011646 2020-10-30 2021-08-31 전자장치 및 그 제어방법 WO2022092530A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21886527.7A EP4216211A4 (en) 2020-10-30 2021-08-31 ELECTRONIC DEVICE AND CONTROL METHOD THEREOF
US17/505,925 US20220139413A1 (en) 2020-10-30 2021-10-20 Electronic apparatus and method of controlling the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200143186A KR20220057989A (ko) 2020-10-30 2020-10-30 전자장치 및 그 제어방법
KR10-2020-0143186 2020-10-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/505,925 Continuation US20220139413A1 (en) 2020-10-30 2021-10-20 Electronic apparatus and method of controlling the same

Publications (1)

Publication Number Publication Date
WO2022092530A1 true WO2022092530A1 (ko) 2022-05-05

Family

ID=81382842

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/011646 WO2022092530A1 (ko) 2020-10-30 2021-08-31 전자장치 및 그 제어방법

Country Status (2)

Country Link
KR (1) KR20220057989A (ko)
WO (1) WO2022092530A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150144547A (ko) * 2014-06-17 2015-12-28 엘지전자 주식회사 영상 표시 기기 및 그의 동작 방법
KR20160089145A (ko) * 2015-01-19 2016-07-27 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20180128838A (ko) * 2017-05-24 2018-12-04 하만인터내셔날인더스트리스인코포레이티드 다수의 음성 인식 장치 간 조정
KR20190109341A (ko) * 2019-09-06 2019-09-25 엘지전자 주식회사 노이즈 관리가 가능한 전자기기 및 이의 제어 방법
KR20200051462A (ko) * 2018-11-05 2020-05-13 삼성전자주식회사 전자 장치 및 그 동작방법
KR20200143186A (ko) 2019-06-14 2020-12-23 김태호 압축스프링에 냉온수파이프를 조립한 침대용매트리스

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150144547A (ko) * 2014-06-17 2015-12-28 엘지전자 주식회사 영상 표시 기기 및 그의 동작 방법
KR20160089145A (ko) * 2015-01-19 2016-07-27 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20180128838A (ko) * 2017-05-24 2018-12-04 하만인터내셔날인더스트리스인코포레이티드 다수의 음성 인식 장치 간 조정
KR20200051462A (ko) * 2018-11-05 2020-05-13 삼성전자주식회사 전자 장치 및 그 동작방법
KR20200143186A (ko) 2019-06-14 2020-12-23 김태호 압축스프링에 냉온수파이프를 조립한 침대용매트리스
KR20190109341A (ko) * 2019-09-06 2019-09-25 엘지전자 주식회사 노이즈 관리가 가능한 전자기기 및 이의 제어 방법

Also Published As

Publication number Publication date
KR20220057989A (ko) 2022-05-09

Similar Documents

Publication Publication Date Title
WO2020251074A1 (ko) 음성 인식 기능을 제공하는 인공 지능 로봇 및 그의 동작 방법
WO2020080635A1 (ko) 동작 상태에 기반하여 선택한 마이크를 이용하여 음성 인식을 수행하는 전자 장치 및 그의 동작 방법
WO2022154270A1 (ko) 요약 영상 생성 방법 및 그 전자 장치
WO2021085812A1 (ko) 전자장치 및 그 제어방법
WO2021080290A1 (en) Electronic apparatus and control method thereof
WO2022092530A1 (ko) 전자장치 및 그 제어방법
WO2021256760A1 (ko) 이동 가능한 전자장치 및 그 제어방법
US20220189478A1 (en) Electronic apparatus and method of controlling the same
WO2022102945A1 (ko) 전자장치 및 그 제어방법
WO2022124640A1 (ko) 전자장치 및 그 제어방법
WO2022114482A1 (ko) 전자장치 및 그 제어방법
US20220139413A1 (en) Electronic apparatus and method of controlling the same
WO2022114532A1 (ko) 전자장치 및 그 제어방법
KR20220015306A (ko) 전자장치 및 그 제어방법
WO2022097970A1 (ko) 전자장치 및 그 제어방법
WO2021107464A1 (en) Electronic device and control method thereof
US20220165263A1 (en) Electronic apparatus and method of controlling the same
WO2022255730A1 (ko) 전자장치 및 그 제어방법
WO2022025420A1 (ko) 전자장치 및 그 제어방법
WO2021112391A1 (ko) 전자장치 및 그 제어방법
WO2023075118A1 (ko) 전자 장치 및 그 동작 방법
WO2022055174A1 (ko) 전자장치 및 그 제어방법
WO2022065662A1 (ko) 전자장치 및 그 제어방법
WO2022059978A1 (ko) 전자장치 및 그 제어방법
WO2021149921A1 (ko) 디스플레이 장치 및 그 제어방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21886527

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021886527

Country of ref document: EP

Effective date: 20230418

NENP Non-entry into the national phase

Ref country code: DE