WO2021187653A1 - Electronic device for processing voice input on basis of gesture, and operation method for same - Google Patents

Electronic device for processing voice input on basis of gesture, and operation method for same Download PDF

Info

Publication number
WO2021187653A1
WO2021187653A1 PCT/KR2020/003917 KR2020003917W WO2021187653A1 WO 2021187653 A1 WO2021187653 A1 WO 2021187653A1 KR 2020003917 W KR2020003917 W KR 2020003917W WO 2021187653 A1 WO2021187653 A1 WO 2021187653A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice input
electronic device
image
gesture
information
Prior art date
Application number
PCT/KR2020/003917
Other languages
French (fr)
Korean (ko)
Inventor
야키신예브헨니
시츄르올렉산드르
드쥬블리우크발러리
비아트차니노브올렉산드르
즐로니크마이크하일로
키드러크바렌틴
로마니아크예브헨
스미에로바아나스타시아
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2021187653A1 publication Critical patent/WO2021187653A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Definitions

  • the present disclosure relates to an electronic device that processes a voice input based on a gesture, and an operating method thereof.
  • the user may request the electronic device to perform various operations through a voice command.
  • the user may perform a voice command in a manner of having a conversation with nearby people rather than the electronic device.
  • An object of the present disclosure is to solve the above-described problem, and to provide an electronic device that processes a voice input based on a gesture and an operating method thereof.
  • Another object of the present invention is to provide a computer-readable recording medium in which a program for executing the method in a computer is recorded.
  • the technical problem to be solved is not limited to the technical problems as described above, and other technical problems may exist.
  • FIG. 1 is a diagram illustrating an example of receiving a voice input according to an embodiment.
  • FIG. 2 is a diagram illustrating an example of capturing an image of a surrounding environment according to a direction indicated by a gesture according to an embodiment.
  • FIG. 3 is a diagram illustrating an example in which an image of a surrounding environment is captured according to an embodiment.
  • FIG. 4 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
  • FIG. 5 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
  • FIG. 6 is a flowchart illustrating a method of processing a voice input based on a gesture according to an embodiment.
  • FIG. 7 illustrates an example of obtaining request information from an image based on a gesture according to an embodiment.
  • FIG. 8 is a diagram illustrating an example of acquiring an image including a surrounding environment based on a gesture according to an embodiment.
  • FIG. 9 is a diagram illustrating an example of processing a voice input based on a gesture according to an embodiment.
  • FIG. 10 is a diagram illustrating an example of a gesture according to an embodiment.
  • FIG. 11 is a diagram illustrating an example of obtaining request information corresponding to a voice input from an image according to an embodiment.
  • FIG. 12 is a diagram illustrating an example of processing a voice input based on a gesture.
  • FIG. 13 is a diagram illustrating an example of processing a voice input by acquiring an image based on a gesture according to an embodiment.
  • FIG. 14 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • 15 is a diagram illustrating an example of acquiring surrounding environment information by processing a voice input based on a gesture according to an embodiment.
  • 16 is a diagram illustrating an example of collecting information by processing a voice input based on a gesture and performing an operation based on the collected information, according to an embodiment.
  • 17 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • FIG. 18 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • 19 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
  • 20 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
  • 21 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
  • 22 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • 23 is a diagram illustrating an example of performing an operation of capturing an image by processing a voice input based on a gesture according to an embodiment.
  • 24 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • 25 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • 26 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
  • FIG. 27 is a diagram illustrating an example of controlling an external device by processing a voice input based on a gesture according to an embodiment.
  • a first aspect of the present disclosure is a method of processing a voice input based on a gesture in an electronic device, wherein a voice input and a gesture corresponding to the voice input are obtained to do; acquiring an image including a surrounding environment of the electronic device based on a direction indicated by the gesture; extracting additional information related to the voice input from the image; obtaining request information regarding an operation requested by the electronic device by the voice input based on the additional information; and processing the voice input based on the request information.
  • a second aspect of the present disclosure provides an electronic device for processing a voice input based on a gesture, comprising: an A/V input unit; an output unit for outputting a result of processing the voice input; and controlling the A/V input unit to obtain a voice input, obtain a gesture corresponding to the voice input, and control the A/V input unit to obtain a periphery of the electronic device based on a direction indicated by the gesture.
  • Obtaining an image including an environment, extracting additional information related to the voice input from the image, and obtaining request information about an operation requested by the electronic device by the voice input based on the additional information, , based on the request information may provide an electronic device comprising at least one processor that processes the voice input.
  • a third aspect of the present disclosure may provide a recording medium in which a program for performing the method of the first aspect is stored.
  • the processor may consist of one or a plurality of processors.
  • one or more processors may be a general-purpose processor such as a CPU, an AP, a digital signal processor (DSP), or the like, a graphics-only processor such as a GPU, a VPU (Vision Processing Unit), or an artificial intelligence-only processor such as an NPU.
  • DSP digital signal processor
  • One or a plurality of processors control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory.
  • the AI-only processor may be designed with a hardware structure specialized for processing a specific AI model.
  • the predefined action rule or artificial intelligence model is characterized in that it is created through learning.
  • being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created means burden.
  • Such learning may be performed in the device itself on which the artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system.
  • Examples of the learning algorithm include, but are not limited to, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning.
  • the artificial intelligence model may be composed of a plurality of neural network layers.
  • Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between an operation result of a previous layer and a plurality of weight values.
  • the plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from the artificial intelligence model during the learning process is reduced or minimized.
  • the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), There may be a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a Deep Q-Networks, but is not limited to the above-described example.
  • DNN Deep Neural Network
  • DNN Deep Belief Network
  • BBDNN Bidirectional Recurrent Deep Neural Network
  • Deep Q-Networks Deep Q-Networks
  • FIG. 1 is a diagram illustrating an example of receiving a voice input according to an embodiment.
  • the electronic device 1000 may perform an operation corresponding to the voice input.
  • the electronic device 1000 is an example of a device that provides a response in response to a user's voice input, and may be an electronic device equipped with a voice control function to perform an operation according to the user's input. have.
  • the electronic device 1000 may be implemented in various forms.
  • the electronic device 1000 described herein may include a digital camera, a smart phone, a laptop computer, a tablet PC, an electronic book terminal, a digital broadcasting terminal, and a personal digital assistant (PDA). , a Portable Multimedia Player (PMP), a navigation system, an MP3 player, a vehicle, and the like, but is not limited thereto.
  • PDA personal digital assistant
  • PMP Portable Multimedia Player
  • the electronic device 1000 described herein may be a wearable device that can be worn by a user.
  • Wearable devices include accessory type devices (e.g., watches, rings, wristbands, ankle bands, necklaces, eyeglasses, contact lenses), head-mounted-devices (HMDs), textile or clothing-integrated devices (e.g., electronic clothing), a body attachable device (eg, a skin pad), or a bioimplantable device (eg, an implantable circuit).
  • accessory type devices e.g., watches, rings, wristbands, ankle bands, necklaces, eyeglasses, contact lenses
  • HMDs head-mounted-devices
  • textile or clothing-integrated devices e.g., electronic clothing
  • a body attachable device eg, a skin pad
  • a bioimplantable device eg, an implantable circuit
  • the electronic device 1000 may be a device that receives a user's voice input through an interactive interface and performs an operation on the user's voice input.
  • the interactive interface may be an interface for a user that receives a voice input from the user and provides a response to the voice input from the user.
  • the interactive interface may include, but is not limited to, a virtual assistant, an artificial intelligence assistant, and the like.
  • the virtual assistant or artificial intelligence assistant may be a software agent that processes a task requested by a user and provides a specialized service to the user.
  • the electronic device 1000 may include an image including the user's gestures 121 , 122 , and 123 , and the surrounding area captured based on the direction the user's gesture points in. You can shoot environment videos. According to an embodiment, the gestures 121, 122, 123 and the surrounding environment existing in the direction indicated by the gestures 121, 122, and 123 may be included in one image and photographed together, or a plurality of images each photographed separately. may be included in each.
  • the gestures 121 , 122 , and 123 may refer to various types of motions for the user to apply an input to the electronic device 1000 .
  • the gesture according to an embodiment may include various types of movement of the user, such as movement of various parts such as the user's hand, foot, and head, the user's gaze, and the user's posture.
  • the captured image including the gestures 121 , 122 , and 123 may be used to acquire the gesture performed by the user.
  • the gestures 121 , 122 , and 123 according to an embodiment are not limited to those obtained through a captured image, and may be obtained according to various methods.
  • the gestures 121 , 122 , and 123 according to an embodiment are various means through which a gesture may be input, and include a remote controller, an acceleration sensor, a tilt sensor, and a gyro sensor. ), a magnetic field sensor (3-axis magnetic sensor), a stylus pen, or the like.
  • An image of the surrounding environment including the surrounding environment of the electronic device 1000 may be captured based on a direction indicated by a gesture obtained by the electronic device 1000 .
  • the image of the surrounding environment may be obtained by photographing the work space in the direction indicated by the gesture by the electronic device 1000 .
  • the electronic device 1000 may obtain request information, which is information requested by the electronic device 1000 by the voice input, by extracting additional information related to the voice input from the surrounding environment image. Accordingly, according to an embodiment, as information requested to the electronic device 1000 is clearly determined by a voice input based on an image captured based on a direction indicated by a gesture, an operation corresponding to the user's intention may be performed.
  • the additional information may include information related to a voice input among various types of information that may be extracted from the image of the surrounding environment. For example, when the voice input includes a question asking for the status of “it”, the additional information may include information about “this” extracted from the surrounding environment image. Additional information according to an embodiment is information that can be used to clearly identify “this”, for example, information about a location where “this” exists (eg, on table No. 1 in the center of the living room, or coordinate values indicating a location), information about an area of an image of the surrounding environment corresponding to "this", and the like. Accordingly, the electronic device 1000 according to an embodiment may generate request information corresponding to the voice input by clearly identifying what “this” is, the target of the operation by the voice input, based on the additional information. can
  • the operation to be performed by the electronic device 1000 in response to the voice input may also be determined according to the characteristics of the target. have. For example, when the target of the operation is a home appliance, the operation may be determined by determining an on/off state of the home appliance. Also, when the target of the operation is a person, the operation may be determined to search for a health state of the person. It is not limited to the above-described example, and various operations may be determined according to the object of the operation.
  • the request information includes specific and clear information regarding an operation to be performed by the electronic device 1000 and a target thereof, which is determined based on the additional information, unlike the voice input, which includes ambiguous information. can do.
  • the electronic device 1000 may perform an operation based on the request information.
  • the request information may include information about an operation determined based on the additional information of the image. Accordingly, according to an embodiment, even when the user's request included in the voice input is not clear, an operation to be performed in response to the voice input may be clearly determined based on the gesture and an image captured according to the gesture.
  • FIG. 2 is a diagram illustrating an example of capturing an image of a surrounding environment according to a direction indicated by a gesture according to an embodiment.
  • an image of the surrounding environment captured according to a direction indicated by a gesture is obtained by capturing an image to include a space in the direction indicated by the user's gesture among one space that the user is looking at.
  • the work space the user is looking at may be estimated based on the information about the posture 220 and the information about the angle 210 of the user's gaze uttering the voice input.
  • Information on the angle of gaze 210 may indicate an angle (eg, 15 degrees) with respect to a direction in which the user's gaze is directed with respect to a horizontal plane.
  • the information about the eye angle 210 may be obtained based on various information obtained from the user's movement, such as the movement of the pupil or the direction in which the front of the user's face faces.
  • Information about the angle of gaze 210 according to an embodiment may be obtained based on an image of the user in order to obtain a gesture.
  • information about the posture 220 may include skeleton information indicating the posture of the user.
  • the skeleton information may be obtained by extracting the user's joint movement based on an image of the user's appearance to obtain a gesture.
  • the work space that the user is looking at may be estimated based on the information about the angle of gaze 210 and the information about the posture 220 . It is not limited to the above-described example, and the work space that the user is looking at may be estimated through various methods.
  • the information on the direction 230 of the gesture may include information indicating the direction in which the user's fingertip points based on an image captured by the user to obtain the gesture.
  • the electronic device 1000 may provide information on various movements of a user related to a gesture, such as information on the angle of gaze 210 , information on the posture 220 , and information on the direction 230 of the gesture. Based on the information, an image of the surrounding environment may be captured. For example, an image of the surrounding environment including a work space from which information necessary to perform an operation according to the user's intention can be extracted based on information on various movements of the user may be captured.
  • FIG. 3 is a diagram illustrating an example in which an image of a surrounding environment is captured according to an embodiment.
  • the electronic devices 1000-1, 1000-2, and 1000-3 view the surrounding environment of the electronic devices 1000-1, 1000-2, and 1000-3 based on the direction indicated by the gesture. It is possible to obtain an image containing
  • the electronic devices 1000-1, 1000-2, and 1000-3 according to an embodiment are devices corresponding to the electronic device 1000 of FIG. 1 and are implemented as smart glasses, a smart phone or tablet, a driving robot, and the like, respectively. It is a device that can be
  • the electronic device 1000 - 1 may capture an image including the space 311 based on the direction indicated by the user's gesture.
  • the electronic device 1000 - 1 according to an embodiment, as smart glasses, is worn on a user's head and may capture an image from a first-person viewpoint based on the user's gaze.
  • the electronic device 1000-1 includes a space 311 corresponding to a direction indicated by a user's gesture among several spaces divided by a dotted line, which is a space that can be photographed by the electronic device 1000-1. By capturing the image, an image including the surrounding environment of the electronic device 1000 - 1 may be acquired.
  • the periphery of the electronic device 1000 - 1 is An image including the environment may be acquired.
  • the electronic device 1000 - 1 can be captured by a camera capable of photographing the space 311 according to a direction indicated by a user gesture.
  • An image including the surrounding environment may be acquired.
  • the electronic device 1000 - 1 may acquire an image including a space of 311 according to a direction indicated by a user's gesture through various methods.
  • the electronic device 1000 - 2 may capture an image including the space of 321 based on the direction indicated by the user's gesture.
  • the electronic device 1000 - 2 according to an embodiment is a tablet or a smart phone, and may capture an image from a first-person viewpoint based on the user's viewpoint.
  • the image including the space 321 is captured according to the direction indicated by the user's gesture, thereby An image including the surrounding environment may be acquired.
  • the electronic device 1000 - 2 displays an image of the surrounding environment so that the object 342 existing in the direction indicated by the gesture 341 is included according to the direction of the gesture 341 . can be filmed.
  • an image of a partial region set according to a direction indicated by a gesture among regions of a photographed image may be acquired as an image including the surrounding environment.
  • the user's gesture may be acquired by a camera provided in the electronic device 1000 - 2 or various sensors, but is not limited thereto, and is acquired by a camera or a sensor of an external device (not shown). could be
  • the electronic device 1000 - 3 may capture an image including a space 331 , which is a space indicated by the user's gesture, based on the direction indicated by the user's gesture.
  • the electronic device 1000 - 3 according to an embodiment is a robot cleaner or a traveling robot, and may capture an image from an external viewpoint, that is, a third person viewpoint.
  • the electronic device 1000 - 3 may acquire information about a direction indicated by the user's gesture from the captured image by photographing the user's appearance.
  • the information on the direction indicated by the gesture may be obtained based on various movements of the user extracted from the image, such as the user's gaze, the user's posture, and the direction in which the user's finger points.
  • the electronic device 1000 - 2 captures an image including a space of 331 according to a direction indicated by a user's gesture among spaces that can be photographed by the electronic device 1000 - 2 . By doing so, an image including the surrounding environment of the electronic device 1000 - 2 may be acquired.
  • FIG. 4 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
  • FIG. 5 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
  • the electronic device 1000 may include a processor 1300 , an output unit 1200 , and an A/V input unit 1600 .
  • the electronic device 1000 may be implemented by more components than those illustrated in FIG. 4 , or the electronic device 1000 may be implemented by fewer components than those illustrated in FIG. 4 .
  • the electronic device 1000 includes a user other than the processor 1300 , the output unit 1200 , and the A/V input unit 1600 . It may further include an input unit 1100 , a sensing unit 1400 , a communication unit 1500 , an output unit 1200 , and a memory 1700 .
  • the user input unit 1100 means a means for a user to input data for controlling the electronic device 1000 .
  • the user input unit 1100 includes a key pad, a dome switch, and a touch pad (contact capacitive method, pressure resistance film method, infrared sensing method, surface ultrasonic conduction method, integral type).
  • a tension measurement method a piezo effect method, etc.
  • a jog wheel a jog switch, and the like, but is not limited thereto.
  • the user input unit 1100 may receive various types of input from a user for processing a voice input based on a gesture.
  • the user input unit 1100 may receive a user's touch input or key input for processing a voice input based on a gesture.
  • the user input unit 1100 may receive various types of user inputs.
  • the output unit 1200 may output an audio signal, a video signal, or a vibration signal, and the output unit 1200 may include a display unit 1210 , a sound output unit 1220 , and a vibration motor 1230 . have.
  • the display unit 1210 displays and outputs information processed by the electronic device 1000 .
  • the display 1210 may display a result of processing a voice input based on a gesture.
  • the display unit 1210 may be used as an input device in addition to an output device.
  • the display unit 1210 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, a three-dimensional display ( 3D display) and electrophoretic display (electrophoretic display) may include at least one. Also, depending on the implementation form of the electronic device 1000 , the electronic device 1000 may include two or more display units 1210 .
  • the sound output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700 . According to an embodiment, the sound output unit 1220 may output a result of processing the voice input based on the gesture.
  • the vibration motor 1230 may output a vibration signal. Also, the vibration motor 1230 may output a vibration signal when a touch is input to the touch screen. According to an embodiment, the vibration motor 1230 may output a result of processing a voice input based on a gesture.
  • the processor 1300 generally controls the overall operation of the electronic device 1000 .
  • the processor 1300 executes programs stored in the memory 1700 , and thus the user input unit 1100 , the output unit 1200 , the sensing unit 1400 , the communication unit 1500 , and the A/V input unit 1600 . ) can be controlled in general.
  • the electronic device 1000 may include at least one processor 1300 .
  • the electronic device 1000 may include various types of processors, such as a central processing unit (CPU), a graphics processing unit (GPU), and a neural processing unit (NPU).
  • CPU central processing unit
  • GPU graphics processing unit
  • NPU neural processing unit
  • the processor 1300 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations.
  • the command may be provided to the processor 1300 from the memory 1700 or may be received through the communication unit 1500 and provided to the processor 1300 .
  • the processor 1300 may be configured to execute instructions according to program codes stored in a recording device such as a memory.
  • the processor 1300 may obtain a voice input and a gesture corresponding to the voice input, and may acquire an image including the surrounding environment of the electronic device 1000 based on a direction indicated by the gesture. Also, the processor 1300 may extract additional information related to the voice input from the image. According to an embodiment, the additional information is information that can be extracted from an image for voice input processing, for example, a target (eg, an object, a region of a certain range) on which an operation corresponding to the voice input is performed. It may include information for unambiguous identification.
  • a target eg, an object, a region of a certain range
  • the processor 1300 may acquire request information regarding an operation requested by the electronic device 1000 through a voice input, based on the additional information.
  • the request information according to an embodiment may include clear information for performing an operation as it is obtained based on additional information that is information extracted from an image even when the voice input is inaccurate.
  • the request information according to an embodiment, as information corresponding to the voice input may include clear information in which inaccurate information among information included in the voice input is replaced based on additional information extracted from the image.
  • the processor 1300 may perform an operation for processing a voice input based on the request information.
  • the sensing unit 1400 may detect a state of the electronic device 1000 or a state around the electronic device 1000 , and transmit the sensed information to the processor 1300 .
  • the sensing unit 1400 includes a geomagnetic sensor 1410 , an acceleration sensor 1420 , a temperature/humidity sensor 1430 , an infrared sensor 1440 , a gyroscope sensor 1450 , and a position sensor. (eg, GPS) 1460 , a barometric pressure sensor 1470 , a proximity sensor 1480 , and at least one of an illuminance sensor 1490 , but is not limited thereto.
  • GPS GPS
  • the sensing unit 1400 may be used to acquire a gesture corresponding to a voice input based on information sensed by various sensors.
  • the communication unit 1500 may include one or more components that allow the electronic device 1000 to communicate with the server 2000 or an external device (not shown).
  • the communication unit 1500 may include a short-range communication unit 1510 , a mobile communication unit 1520 , and a broadcast receiving unit 1530 .
  • Short-range wireless communication unit 1510 Bluetooth communication unit, BLE (Bluetooth Low Energy) communication unit, short-range wireless communication unit (Near Field Communication unit), WLAN (Wi-Fi) communication unit, Zigbee (Zigbee) communication unit, infrared ( It may include an IrDA, infrared Data Association) communication unit, a Wi-Fi Direct (WFD) communication unit, an ultra wideband (UWB) communication unit, an Ant+ communication unit, and the like, but is not limited thereto.
  • the mobile communication unit 1520 transmits/receives a radio signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data according to transmission/reception of a voice call signal, a video call signal, or a text/multimedia message.
  • the broadcast receiver 1530 receives a broadcast signal and/or broadcast-related information from the outside through a broadcast channel.
  • the broadcast channel may include a satellite channel and a terrestrial channel.
  • the electronic device 1000 may not include the broadcast receiver 1530 .
  • the communication unit 1500 may transmit/receive various data required to process a voice input based on a gesture. For example, when a gesture corresponding to a voice input is input by an external device (not shown), the communication unit 1500 may receive the gesture input from an external device (not shown).
  • the A/V (Audio/Video) input unit 1600 is for inputting an audio signal or a video signal, and may include a camera 1610 , a microphone 1620 , and the like.
  • the camera 1610 may obtain an image frame such as a still image or a moving image through an image sensor in a video call mode or a shooting mode.
  • the image captured through the image sensor may be processed through the processor 1300 or a separate image processing unit (not shown).
  • the camera 1610 may capture an image including a gesture corresponding to a voice input. According to an embodiment, a gesture corresponding to a voice input may be acquired based on an image captured by the camera 1610 .
  • the camera 1610 may capture an image including the surrounding environment of the electronic device 1000 based on the direction indicated by the gesture.
  • the microphone 1620 may receive a user's voice input. According to an embodiment, as the user's voice input is detected by the microphone 1620 , based on the image including the gesture corresponding to the voice input by the camera 1610 and the direction the gesture points, the electronic device ( 1000), at least one of the images including the surrounding environment may be captured. The microphone 1620 receives an external sound signal and processes it as electrical voice data.
  • At least one of a voice input, an image including a gesture, and an image including the surrounding environment of the electronic device 1000 may be acquired by the A/V input unit 1600 of the electronic device 1000 .
  • the A/V input unit 1600 of the electronic device 1000 is not limited thereto, and may be obtained by an external device (not shown) and received through the communication unit 1500 .
  • the memory 1700 may store a program for processing and control of the processor 1300 , and may also store data input to or output from the electronic device 1000 .
  • the memory 1700 may store data required to process a voice input based on a gesture.
  • the memory 1700 may store a pre-trained AI model in order to extract additional information related to a voice input from an image and obtain requested information based on the additional information.
  • the artificial intelligence model for extracting additional information identifies an object or a region of a certain range from an image, and obtains location information (eg, coordinate values) for the identified object or a region of a certain range, It can be used to obtain additional information.
  • location information eg, coordinate values
  • the memory 1700 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM.
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory magnetic disk
  • magnetic disk may include at least one type of storage medium among optical disks.
  • Programs stored in the memory 1700 may be classified into a plurality of modules according to their functions, for example, may be classified into a UI module 1710 , a touch screen module 1720 , a notification module 1730 , and the like. .
  • the UI module 1710 may provide a specialized UI, GUI, or the like that interworks with the electronic device 1000 for each application.
  • the touch screen module 1720 may detect a touch gesture on the user's touch screen and transmit information about the touch gesture to the processor 1300 .
  • the touch screen module 1720 according to some embodiments may recognize and analyze a touch code.
  • the touch screen module 1720 may be configured as separate hardware including a controller.
  • a tactile sensor is an example of a sensor for detecting a touch of a touch screen.
  • a tactile sensor refers to a sensor that senses a touch of a specific object to the extent or higher than that felt by a human.
  • the tactile sensor may sense various information such as the roughness of the contact surface, the hardness of the contact object, and the temperature of the contact point.
  • the user's touch gesture may include a tap, touch & hold, double tap, drag, pan, flick, drag and drop, swipe, and the like.
  • the notification module 1730 may generate a signal for notifying the occurrence of an event in the electronic device 1000 .
  • FIG. 6 is a flowchart illustrating a method of processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire a voice input and a gesture corresponding to the voice input.
  • a gesture according to an embodiment may be acquired based on a movement by a user who utters a voice input.
  • a gesture according to an embodiment may be obtained based on various types of movements such as the user's gaze and posture as well as movements of various body parts of the user. Even when information included in the voice input is unclear, the electronic device 1000 according to an embodiment obtains additional information by using a gesture to perform an operation according to the user's intention.
  • the electronic device 1000 may acquire a gesture by photographing an image including the user's gesture in order to acquire a gesture corresponding to the voice input as the voice input is detected.
  • the electronic device 1000 may acquire the user's gesture according to various methods other than image capturing.
  • the electronic device 1000 may acquire an image including the surrounding environment based on the direction of the gesture.
  • the electronic device 1000 may identify a space related to a voice input according to a direction indicated by a gesture and capture an image to include a space related to the voice input.
  • the electronic device 1000 may extract additional information related to a voice input from the image captured in operation 620 .
  • the electronic device 1000 may acquire at least one text corresponding to the voice input by performing voice recognition on the voice input, and determine a text representing ambiguous information from among the acquired texts.
  • the additional information may include various types of information that may be used to clarify ambiguous information included in the voice input.
  • the electronic device 1000 determines from the image as a target on which the operation is performed.
  • An object or region may be determined, and at least one of identification information and location information corresponding to the determined object or region may be extracted as additional information.
  • the electronic device 1000 may acquire requested information in which ambiguous information is replaced with clear information, based on the additional information extracted in operation 630 . For example, from the text corresponding to the voice input, request information in which “there” is replaced by “(location information corresponding to that)”, which is information included in the additional information, may be obtained.
  • the request information may include information about an operation requested by the electronic device 1000 by a voice input.
  • the electronic device 1000 may process the voice input based on the request information including clear information.
  • the request information may include information in which ambiguous information is replaced with clear information based on a gesture indicating the user's intention. Accordingly, the electronic device 1000 according to an embodiment may process the voice input by performing an operation according to the user's intention based on the request information.
  • FIG. 7 illustrates an example of obtaining request information from an image based on a gesture according to an embodiment.
  • request information corresponding to a voice input may be obtained based on an image obtained according to a user's gestures 710 , 720 , 730 , and 740 .
  • an image corresponding to the region 711 of the image may be acquired.
  • the voice input is "What color is it?", it is not clear what "it” is in the text of the voice input, so based on the image of 711, "this (it)” Identification information about “ can be obtained as additional information. Since “it” is an expression indicating a relatively short distance object, based on additional information including identification information corresponding to a relatively close “red tomato" among the objects included in the image of 711, request information can be obtained.
  • identification information about “that” may be obtained as additional information. Since “that” is an expression indicating a relatively distant object, based on additional information including identification information corresponding to a relatively distant "yellow tomato" among the objects included in the image of 711, the request Information may be obtained.
  • images corresponding to regions 721 , 731 , and 741 of the images may be acquired according to the directions of each of the gestures 720 , 730 , and 740 . If the voice input is "How many she holds?", it's not clear what "she" is in the text of the voice input, so depending on the area each gesture points to, Based on the image of 721, 731, or 741 of "she" of the voice input, identification information about “she” may be obtained as additional information. According to an embodiment, “she" of the voice input corresponding to the gestures 720, 730, and 740 is added to additional information including identification information indicating the second, third, and fourth girls from the left, respectively. Based on the request information may be obtained.
  • FIG. 8 is a diagram illustrating an example of acquiring an image including a surrounding environment based on a gesture according to an embodiment.
  • an image may be captured to include a space existing in a direction indicated by each gesture.
  • voice input "What is this?", “Is it a lamp or a plant?”, “Is it switched on?” on/off?)” may be received as a voice input.
  • the electronic device 1000 according to an embodiment, as it is not clear what “this, it” is among the information included in the voice input, from the image captured by the surrounding environment, “this, it)” and identification information of the object 811 that may correspond to it may be obtained as additional information. According to an embodiment, request information in which “this, it” of the voice input is replaced with identification information of the object 811 is obtained, based on the additional information, so that the voice input may be processed.
  • the electronic device 1000 by voice input, "How many people is here?”, “These people are men?", “What are these people doing? ( What these people doing?)” may be received as a voice input.
  • the electronic device 1000 according to an exemplary embodiment, as it is not clear what “here” and “these people” are among the information included in the voice input, the surrounding environment is obtained from the captured image. , identification information indicating a region of the image corresponding to “here” and identification information of objects 821 and 822 corresponding to “these people” may be obtained as additional information. According to an embodiment, based on the additional information, "here” and “these people” of the voice input are replaced with identification information of the image area and identification information of objects 821 and 822, respectively. By obtaining the requested information, the voice input can be processed.
  • a voice input "Where is he sitting?", "Where is she's bag?”, etc. may be received as a voice input.
  • Identification information for objects 822 and 821 that may correspond to “he” and “she”, respectively, may be obtained as additional information.
  • request information is obtained, in which "he” and “she” of the voice input are replaced with identification information indicating objects of 822 and 821, so that the voice input This can be processed.
  • the surrounding environment image may be captured to include objects 841 and 842 according to the direction of the gesture.
  • the electronic device 1000 as it is not clear what “these, they” are among the information included in the voice input, from the image captured by the surrounding environment, “these people ( Identification information on objects 831 and 832 that may correspond to "these, they)” may be obtained as additional information. However, depending on the direction of the gesture, the object 843 may be excluded from the acquisition of the additional information. According to an embodiment, based on the additional information, request information in which “these, they” of the voice input is replaced with identification information indicating objects of 831 and 832 is obtained, so that the voice input can be processed. have.
  • FIG. 9 is a diagram illustrating an example of processing a voice input based on a gesture according to an embodiment.
  • an image of the surrounding environment may be captured to include a space in a direction indicated by the moving gesture.
  • an image of the surrounding environment including the space of 911 may be captured according to a direction indicated by a gesture corresponding to the voice input.
  • “here” and “here” and “here” from the captured image Location information on a corresponding 911 space may be obtained as additional information.
  • the voice input may be processed by obtaining request information in which "here" of the voice input is replaced with location information for the 911 space based on the additional information.
  • spaces 912 and 913 are included according to the direction in which the gesture corresponding to the voice input points, respectively.
  • An image of the surrounding environment may be captured.
  • the electronic device 1000 according to an embodiment, as it is not clear what “Here?” is among the information included in the voice input, from the image captured by the surrounding environment, “Here? (Here?)” ?)" and location information for spaces 912 and 913 may be obtained as additional information.
  • request information in which “Here?” of the voice input is replaced with location information for spaces 912 and 913 is obtained, so that the voice input may be processed.
  • additional information may be acquired from the surrounding environment image according to the user's gesture.
  • an image of the surrounding environment including the object 920 may be captured according to the direction indicated by the gesture.
  • Identification information eg, living room TV
  • the object 920 included in the image may be obtained as additional information.
  • “that” represents information related to an operation that can be performed on the object 920 .
  • the gesture of 920 is an operation of adjusting the volume level. Accordingly, by obtaining the requested information, in which "that" is replaced with a value indicating the volume level corresponding to the gesture, the voice input can be processed.
  • additional information may be acquired from the surrounding environment image according to the user's gesture.
  • an image of the surrounding environment including the object 931 may be captured according to the direction indicated by the gesture.
  • the electronic device 1000 As it is not clear what “that” is among the information included in the voice input, as an object related to “that”, the surrounding environment is photographed. Identification information about the object 931 included in the image may be obtained as additional information.
  • “that” represents information related to an operation that may be performed with respect to the object 931 .
  • “that” represents information related to an operation that may be performed with respect to the object 931 .
  • the gesture of 930 represents pizza. Accordingly, by obtaining the requested information in which "that" is replaced with "pizza” corresponding to the gesture, the voice input can be processed.
  • FIG. 10 is a diagram illustrating an example of a gesture according to an embodiment.
  • At least one gesture may be preset to correspond to preset text among voice input.
  • a gesture according to an embodiment may be preset as texts shown in Table 1 below.
  • prepositional qualifiers referent pronoun possessive pronoun quantifier all, all of, half, both, double, twice, quite, more, such, what, etc. this, these, that, those my (my), our (our), your (your), his (his), her (her), its (its), their many, some, no, any, many, enough, several, lot of, plenty of, little, few ), all, both, another, etc.
  • All of the gestures 1010 to 1040 are gestures for pointing a certain object with a hand, and among texts included in the voice input, may be preset as gestures corresponding to texts corresponding to the prepositional qualifiers, referential pronouns, and possessive pronouns of Table 1 . Accordingly, the gestures 1010 to 1040 may be used as gestures for pointing to an object, which may be expressed as prepositional qualifiers, referential pronouns, and possessive pronouns.
  • 1050 and 1060 are gestures that can be expressed as the direction of the head and the direction of the gaze, respectively, and, like 1010 to 1040, the text corresponding to the prepositional qualifiers, referential pronouns and possessive pronouns in Table 1 and corresponding gestures to be preset. can Accordingly, the gestures of 1050 and 1060 may be used as gestures to point to an object, which may be expressed as prepositional qualifiers, referential pronouns, and possessive pronouns.
  • gestures 1070 to 1080 are gestures that can be expressed by moving the hand in the direction of the arrow, and may be preset as gestures corresponding to texts corresponding to quantifiers in Table 1. Accordingly, gestures of 1070 to 1080 may be used as gestures for indicating a quantity.
  • FIG. 11 is a diagram illustrating an example of obtaining request information corresponding to a voice input from an image according to an embodiment.
  • the electronic device 1000 may obtain request information by substituting at least one text corresponding to a voice input based on information extracted from an image. .
  • the electronic device 1000 may provide a text portion to be replaced based on an image among at least one text corresponding to the voice input, “Where is the child sitting?” "child" 1114 can be detected.
  • a text indicating a target on which an operation corresponding to a voice input is to be performed among at least one text may be detected as a text portion to be replaced based on the image.
  • the text portion to be replaced may be detected based on the image, not limited to the above-described example, and according to various criteria and methods.
  • the electronic device 1000 may detect at least one object 1111 , 1112 , and 1113 from an image. Also, the electronic device 1000 corresponds to the “child” 1114 based on at least one of a result of analyzing the characteristics of each detected object 1111 , 1112 , and 1113 and a direction indicated by the gesture. It is possible to determine the object 1111 to be
  • the electronic device 1000 sets a “child” 1114 having information corresponding to the object 1111 based on the object 1111 corresponding to the “child” 1114 .
  • the electronic device 1000 may replace “child” 1114 with a simpler expression “he” 1121 to facilitate text processing.
  • the above-described example is not limited, and text corresponding to the object 1111 may be replaced with various expressions based on the object 1111 .
  • the request information may further include information about an area of the object 1111 corresponding to the text in the image as well as at least one text.
  • the electronic device 1000 may process a voice input by analyzing a feature extracted from an image based on request information corresponding to the voice input.
  • FIG. 12 is a diagram illustrating an example of processing a voice input based on a gesture.
  • the electronic device 1000 includes at least one image 1202 including a surrounding environment, request information 1201 including text corresponding to a voice input, and a gesture ( 1203), an operation of processing a voice input may be performed.
  • the electronic device 1000 may perform an operation of processing the voice input by using an image including the surrounding environment.
  • the electronic device 1000 may display an image including the surrounding environment of the electronic device 1000 including a scene different from the image in order to further acquire information necessary to process the voice input. , can be obtained additionally.
  • the electronic device 1000 according to an embodiment performs an operation of processing the voice input by further using an additionally acquired image including a scene different from the image as well as the image acquired according to the gesture. can do.
  • the electronic device 1000 may determine whether to further acquire an additional image based on the request information. For example, when it is determined that there is a target that is not included in the surrounding environment image among the motion targets included in the request information, an additional image including the target is further acquired, so that the voice input may be processed.
  • the electronic device 1000 processes a voice input based on at least one image 1202 of the surrounding environment obtained by various methods and the request information 1101 corresponding to the voice input. can do.
  • the electronic device 1000 may perform VQA ( Visual Question Answering) technology may be used to extract a response to the request information 1201 .
  • VQA Visual Question Answering
  • the electronic device 1000 may perform the request information 1201 based on a text feature extracted from the text of the request information 1201 and an image feature extracted from the at least one image 1202 . ) can be obtained.
  • the electronic device 1000 according to an embodiment may acquire a response to the request information 1201 by fusion of features extracted from the text and the image 1202 according to the VQA technique.
  • the electronic device 1000 obtains response information corresponding to the request information 1201 based on the request information 1201 and the image 1202 according to various methods other than the VQA technique. can do.
  • the request information 1201 input to 1221 may include at least one text. Also, when the request information 1201 includes information other than text, the information may be converted into text or deleted, and then input as 1221 .
  • the request information 1201 when the request information 1201 includes information on the area of the surrounding environment image related to the operation target, the information is deleted, and instead of the entire area of the 1202 image at 1211, the surrounding environment related to the operation target. An image corresponding to the region of the image may be input. Accordingly, according to an embodiment, when the request information 1201 includes information other than text, the information is deleted from the request information 1201 , and the information is reflected and inputted in the image input to 1211, thereby providing VQA technology. Accordingly, text feature extraction and image feature extraction may be performed at 1221 and 1222 .
  • the request information 1201 may be input to the request information 1201 by including the text converted from information on the area of the surrounding environment image related to the operation target as a voice command in the request information 1201 .
  • the voice command of the request information 1201 location information of an operation target expressed in text is inserted, so that information other than text may be converted into text and then processed.
  • a user's voice command may be directly input to 1221 instead of the request information 1201 .
  • the text feature may be corrected, and the image feature and based on the corrected text features, a combined feature may be extracted, at 1224 .
  • a text from which text features are to be extracted may be identified. For example, among the texts, a text having the characteristics of a question or a command may be determined by a pre-trained pre-trained artificial intelligence model (ex. RNN).
  • RNN pre-trained pre-trained artificial intelligence model
  • response information based on the combined characteristics may be generated from the request information 1201 .
  • response information may be generated according to various methods based on the text of the request information 1201 .
  • the electronic device 1000 may obtain response information to the request information 1201 by combining features detected from the image 1202 and the text of the request information 1201 . have.
  • the electronic device 1000 may extract a text feature from at least one text of the request information 1201 .
  • the electronic device 1000 may detect an object for processing the request information 1201 in the image 1202 .
  • the request information 1201 may include at least one text, and a combined feature may be extracted based on the image feature of the object region corresponding to each text.
  • the electronic device 1000 may detect a region including an object corresponding to at least one text from which the text feature is extracted, from among the request information 1201 , in the image 1202 .
  • At least one object may be detected by a pre-trained artificial intelligence model (ex. Faster Region of Convolutional Neural Network (R-CNN)) to detect the object from the image 1202. .
  • a pre-trained artificial intelligence model ex. Faster Region of Convolutional Neural Network (R-CNN)
  • R-CNN Faster Region of Convolutional Neural Network
  • the electronic device 1000 may extract image features from the area of the object detected in operation 1211 .
  • the electronic device 1000 may extract various features from an image region including an object by using a pre-trained artificial intelligence model (eg, RNN) to extract image features from the image region.
  • a pre-trained artificial intelligence model eg, RNN
  • the electronic device 1000 may acquire a gesture corresponding to the object detected in the images 1202 and 1211 .
  • a weight value to be applied to each of the request information 1201 and the object when combining features may be determined according to the type of gesture.
  • the gesture when the gesture is a pointing gesture that simply points to an object of the image 1202 as shown in 1010 to 1060 of FIG. 10 , the weight of the text feature of 1221 may be determined to be higher.
  • the gesture includes information related to the object of the image 1202, for example, like the gestures of 1070, 1080, and 1090 of FIG.
  • the weight of the image feature acquired in 1222 may be determined to be higher.
  • weights determined in various ways based on a gesture are applied to image features and text features, combined features may be extracted.
  • the electronic device 1000 may extract a combined feature from the weighted image feature and the text feature.
  • the electronic device 1000 according to an embodiment may extract a combined feature from an image feature of a region corresponding to a region indicated by the gesture among image features based on the gesture.
  • a combined feature may be extracted based on image features included in a partial area indicated by the gesture among the area of the object. It is not limited to the above-described example, and from the weighted image features and text features, combined features may be extracted according to various methods.
  • the electronic device 1000 may output response information to the request information 1201 as a result of processing the voice input based on the combined feature.
  • response information may be output.
  • FIG. 13 is a diagram illustrating an example of processing a voice input by acquiring an image based on a gesture according to an embodiment.
  • the voice input may be processed based on the region 1312 of the image according to the direction in which the finger of the gesture 1311 points.
  • a voice input may be processed according to request information obtained based on additional information extracted based on the image region of 1312 .
  • response information is obtained according to the VQA technique, so that the voice input may be processed.
  • Reference numeral 1320 denotes an image in which the gesture 1321 and the surrounding environment of the electronic device 1000 are captured by the electronic device 1000 .
  • the object 1322 included in the image may be extracted as an object related to the voice input according to the direction in which the finger of the gesture 1321 points.
  • additional information may be extracted according to information about the object 1322 , and request information corresponding to the voice input 1323 may be obtained based on the additional information. Also, based on the request information and the image region including the extracted object 1322 , response information is obtained according to the VQA technique, so that the voice input 1323 may be processed.
  • Reference numeral 1330 denotes an image in which the gesture 1334 and the surrounding environment of the electronic device 1000 are captured by the electronic device 1000 .
  • the object 1333 included in the image may be extracted as an object related to the voice input according to the direction 1335 indicated by the finger of the gesture 1334 .
  • a region of interest (ROI) region related to the voice input 1331 may be additionally set. Accordingly, the object 1333 may be identified from the image captured by the electronic device 1000 based on the direction 1335 of the gesture as well as the additionally set ROI area.
  • ROI region of interest
  • additional information may be extracted according to information about the object 1333 , and request information corresponding to the voice input 1331 may be obtained based on the additional information. Also, based on the request information and the image region including the extracted object 1333 , response information is obtained according to the VQA technique, so that the voice input 1331 may be processed. According to an embodiment, the result 1336 according to the response information may be output from the electronic device 1000 with respect to the object 1333 as in the example shown in 1330 .
  • FIG. 14 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 1401 and 1402 based on the user's gaze and the direction of the finger.
  • the electronic device 1000 of FIG. 14 may be a driving robot capable of guiding customers while moving inside a store.
  • the electronic device 1000 may acquire a captured image including the surrounding environment related to the voice input 1404 .
  • the electronic device 1000 may process the user's voice input 1404 based on the acquired image.
  • the electronic device 1000 may acquire, according to the user's voice input 1404 , a photographed image including the appearance 1403 of the guests present in the direction indicated by the user's gestures 1401 and 1402 .
  • the electronic device 1000 may acquire an image region including the appearance 1403 of the customers as an object region corresponding to “those customers” among the voice input 1404 .
  • the electronic device 1000 may obtain request information based on information obtained from the image area.
  • the electronic device 1000 according to an embodiment may move to the location 1403 of the guests according to the request information and perform an operation for entertaining the guests.
  • 15 is a diagram illustrating an example of acquiring surrounding environment information by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 1501 and 1502 based on the user's gaze and the direction of the finger.
  • the electronic device 1000 of FIG. 15 may be a traveling robot capable of collecting various types of information while moving inside a house.
  • the electronic device 1000 may acquire a captured image including the surrounding environment related to the voice input 1503 .
  • the electronic device 1000 may process the user's voice input 1503 based on the acquired image.
  • the electronic device 1000 may acquire a photographed image including the person 1504 present in the direction indicated by the user's gestures 1501 and 1502 . .
  • the electronic device 1000 may acquire an image region including the baby 1504 as an object region corresponding to “son Freddy” among the voice input 1503 .
  • the electronic device 1000 includes the baby 1504 according to the direction indicated by the user's gestures 1501 and 1502 .
  • video can be obtained. Accordingly, the electronic device 1000 may obtain request information based on information obtained from the image.
  • the electronic device 1000 may perform an operation of collecting information according to the user's voice input 1503 according to the request information.
  • the electronic device 1000 may perform an operation of collecting information extracted from an image including the baby 1504 according to the user's voice input 1503 .
  • 16 is a diagram illustrating an example of collecting information by processing a voice input based on a gesture and performing an operation based on the collected information, according to an embodiment.
  • the electronic device 1000 may acquire gestures 1602 and 1603 based on the user's gaze and the direction of the finger.
  • the electronic device 1000 of FIG. 16 may be a traveling robot capable of collecting various types of information while moving inside a house.
  • the electronic device 1000 may acquire a captured image including the surrounding environment related to the voice input 1604 and 1606 .
  • the electronic device 1000 according to an embodiment may collect information about the surrounding environment according to the user's voice inputs 1604 and 1606 based on the acquired image.
  • the electronic device 1000 may be photographed to include objects 1605 and 1607 that exist in the direction indicated by the user's gestures 1602 and 1603, respectively. You can get images.
  • the electronic device 1000 according to an embodiment extracts additional information based on the image, and corresponds to “this” included in the voice inputs 1604 and 1606 based on the extracted additional information.
  • Information about the objects 1605 and 1607 may be obtained as request information.
  • voice inputs 1604 and 1606 may be processed.
  • the electronic device 1000 performs an operation of storing in advance that the object 1605 included in the image is a "dangerous" object according to the user's voice input 1604, Input 1604 may be processed. Also, according to the user's voice input 1606, the electronic device 1000 stores the object 1607 included in the image as a "toy" in advance, thereby receiving the voice input 1606. can be processed
  • the electronic device 1000 may perform an operation based on previously stored information about the objects 1605 and 1607 according to the user's voice input 1604 and 1606 of 1601 .
  • the electronic device 1000 according to an embodiment detects the pre-stored objects 1605 and 1607 in an image photographed of the surrounding environment based on information about the pre-stored objects 1605 and 1607. Accordingly, an operation may be performed.
  • the electronic device 1000 may perform an operation based on the sensed object 1605 as an object 1605 stored as a “dangerous” object among pre-stored objects is detected. For example, when the baby 1612 is detected together with the "dangerous" object 1605, the electronic device 1000 informs the user that the "dangerous" object 1605 and the baby 1612 are nearby. Notification can be performed. Also, the electronic device 1000 may analyze the behavior of the baby 1612 from the captured image, and may additionally perform an operation of notifying the user whether the baby 1612 is currently in a dangerous state.
  • the electronic device 1000 may perform an operation based on the sensed object 1607 as an object 1607 stored as a “toy” among pre-stored objects is detected. For example, when the baby 1613 is detected together with the object 1607 stored as “toy”, the electronic device 1000 may detect that the object 1607 stored as “toy” and the baby 1613 are close. An action to notify the user may be performed. Also, the electronic device 1000 may analyze the behavior of the baby 1613 from the captured image and additionally perform an operation of notifying the information user regarding the current state of the baby 1613 .
  • 17 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 1701 and 1702 based on the user's gaze and the direction of the finger pointing.
  • the electronic device 1000 of FIG. 17 may be a traveling robot capable of collecting various types of information while moving inside a house.
  • the electronic device 1000 may acquire a photographed image including the surrounding environment related to the voice input 1703 .
  • the electronic device 1000 may capture an image so that the region 1704 indicated by the user's gesture is included.
  • the electronic device 1000 may perform an operation according to the user's voice input 1703 based on the acquired image.
  • the electronic device 1000 may display a region 1704 corresponding to “this” and “here” among the voice input 1703 . ) may be acquired as additional information. Accordingly, the electronic device 1000 generates request information to include location information corresponding to “this” and “here” based on the additional information, and performs an operation based on the request information. can be performed.
  • the electronic device 1000 according to an embodiment may perform an operation on the region 1704 according to the request information.
  • the electronic device 1000 may acquire a captured image including the surrounding environment related to the voice input 1705 .
  • the electronic device 1000 may capture an image so that the region 1706 indicated by the user's gesture is included.
  • the electronic device 1000 may provide additional information with location information regarding the region 1706 corresponding to “this” among the voice input 1703 . can be obtained with
  • the electronic device 1000 according to an embodiment may perform an operation on the region 1706 according to the request information corresponding to the voice input 1705 obtained based on the additional information.
  • FIG. 18 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 1801 and 1802 based on the user's gaze and the direction of the finger.
  • the electronic device 1000 of FIG. 18 may be a traveling robot capable of collecting various types of information while moving inside a house.
  • the electronic device 1000 according to an embodiment may acquire gestures 1801 and 1802 corresponding to the voice input 1803 by photographing an image including the gestures 1801 and 1802 while moving inside the house. have.
  • the electronic device 1000 may acquire a captured image including the surrounding environment related to the voice input 1803 .
  • the electronic device 1000 may collect information about the surrounding environment according to the user's voice input 1803 based on the acquired image.
  • the electronic device 1000 may display a region corresponding to “this line” among the voice input 1803 . It is possible to obtain the location information related to the additional information. Accordingly, the electronic device 1000 may generate request information to include location information corresponding to “this line” based on the additional information, and perform an operation based on the request information. .
  • the electronic device 1000 according to an embodiment sets a “line” 1804 in an area corresponding to the location information, and based on the set line 1804 , operates according to the user's voice input 1804 . can be performed.
  • the electronic device 1000 may display a child present near the line 1804. It is determined where the children 1805 (children) exist based on the line 1804, and, according to the determination result, informs the user or children 1805 of information about the area where the children are located based on the line 1804. action can be performed.
  • the electronic device 1000 may set a movement area of the external device 1808 moving inside the house according to a user's voice input.
  • the external device 1808 may be a robot cleaner that moves while cleaning the floor.
  • the electronic device 1000 When the electronic device 1000 according to an embodiment receives a voice input saying “the external device 1808 cannot cross this line 1804”, the electronic device 1000 includes the line 1804 and takes a picture. An operation according to a voice input may be performed based on the image. For example, based on a request received from the electronic device 1000 , the external device 1808 may move in an area within the line 1804 according to an arrow direction.
  • 19 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire a gesture 1902 based on a direction in which the user's finger is pointing.
  • the electronic device 1000 of FIG. 19 may be a portable device including a smart phone that a user can hold and use.
  • the electronic device 1000 according to an embodiment may acquire a gesture 1902 corresponding to the voice input 1901 by photographing an image including the gesture 1902 .
  • the voice input 1901 may include, for example, “What is this?”, “Is it fresh?”, “When did I order this?” I order this?), “Order this?”, "What can be cooked from this?”, "observe amount of this?”
  • a user's input requesting information on food stored in the refrigerator 1905 may be included, such as “, "Is this set temperature to save this?”
  • the electronic device 1000 may acquire a captured image including the surrounding environment related to the voice input 1901 according to the direction indicated by the user's gesture 1902 .
  • the electronic device 1000 may acquire an image including the area 1904 among the images captured by the electronic device 1000 as an image of the surrounding environment.
  • the electronic device 1000 may obtain, as additional information, identification information on “it” of the voice input 1901 based on the acquired surrounding environment image.
  • the electronic device 1000 uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “it” in an image of the surrounding environment, so that “this ( It is possible to obtain identification information for”.
  • a pre-trained artificial intelligence model ex. CNN
  • the electronic device 1000 may provide the user with information about “it”, which is information requested by the voice input 1901 , based on the acquired additional information.
  • the electronic device 1000 according to an embodiment additionally acquires information about the refrigerator 1905 (eg, temperature setting information, stored food information) according to the voice input 1901, if necessary, so that the user requests information can be provided.
  • information about the refrigerator 1905 eg, temperature setting information, stored food information
  • 20 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire a gesture 2011 according to the user's touch input.
  • the electronic device 1000 of FIG. 20 may be a portable device including a smartphone that a user can hold and use.
  • the electronic device 1000 acquires an image region including the beef 2013 among the images captured by the electronic device 1000 as a surrounding environment image based on the point where the user's gesture 2011 is touched. can do.
  • the electronic device 1000 may obtain, as additional information, identification information on “this” of the voice input 2012 based on the surrounding environment image.
  • the electronic device 1000 uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this” in an image of the surrounding environment, so that “this ( As identification information for "this)", identification information about the beef 2013 may be acquired.
  • a pre-trained artificial intelligence model ex. CNN
  • the electronic device 1000 may provide the user with information about “this”, which is information requested by the voice input 2012 , based on the acquired additional information. For example, based on identification information about beef (2013), according to voice input 2012 including "What can we cook from this?", beef (2013) Information on possible dishes may be provided.
  • the electronic device 1000 may additionally receive a voice input 2022 of “If add this?” can As the electronic device 1000 receives the voice input 2022 , the electronic device 1000 may acquire a gesture of the user touching an area corresponding to the potato 2023 .
  • the electronic device 1000 may acquire an image area including the potato 2023 among the images captured by the electronic device 1000 as an image of the surrounding environment based on a point where the user's gesture is touched. .
  • the electronic device 1000 may acquire, as additional information, identification information on “this” of the voice input 2022 based on the surrounding environment image.
  • the electronic device 1000 uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this” in an image of the surrounding environment, so that “this ( As identification information for "this)", it is possible to obtain identification information about the potato 2023.
  • a pre-trained artificial intelligence model ex. CNN
  • the electronic device 1000 may provide the user with information about “this”, which is information requested by the voice input 2022 , based on the acquired additional information. For example, based on the identification information regarding the potato 2023 in addition to the beef 2013, according to the voice input 2022 including "If add this?" ) and information about possible dishes with potatoes 2023 may be provided.
  • the electronic device 1000 after providing response information to the voice input 2022 , the electronic device 1000 according to an embodiment provides a voice saying “The resulting dish is compatible with this”. An input 2032 may be additionally received. As the electronic device 1000 receives the voice input 2032 , the electronic device 1000 may acquire the user's gesture of touching an area corresponding to the rice rice 2033 .
  • the electronic device 1000 may acquire an image area including the rice cooker 2033 among the images captured by the electronic device 1000 as an image of the surrounding environment based on the point where the user's gesture is touched. .
  • the electronic device 1000 may obtain, as additional information, identification information on “this” of the voice input 2032 , based on the surrounding environment image.
  • the electronic device 1000 uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this” in an image of the surrounding environment, so that “this ( As the identification information for "this)", it is possible to obtain identification information about the rice 2033.
  • a pre-trained artificial intelligence model ex. CNN
  • the electronic device 1000 may provide the user with information about “this”, which is information requested by the voice input 2032 , based on the acquired additional information. For example, according to the voice input 2032 including "The resulting dish is compatible with this", the possible dishes with beef 2013 and potatoes 2023 are cooked rice ( 2032) can be provided.
  • 21 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 2112 and 2122 based on the direction the user's finger faces.
  • the electronic device 1000 of FIG. 21 may be a portable device including a smartphone that the user can hold and use.
  • the electronic device 1000 according to an embodiment may acquire gestures 2112 and 2122 corresponding to the voice inputs 2111 and 2121, respectively, by photographing an image including the gestures 2112 and 2122.
  • the electronic device 1000 may acquire a captured image including the surrounding environment related to the voice inputs 2111 and 2121 .
  • the electronic device 1000 may acquire an image including the area 2123 among the images captured by the electronic device 1000 as an image of the surrounding environment according to the direction indicated by the gestures 2112 and 2122 .
  • the electronic device 1000 may obtain, as additional information, identification information on “this, this” of the voice inputs 2111 and 2121 based on the acquired surrounding environment image. have.
  • the electronic device 1000 according to an embodiment uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this,” in an image of the surrounding environment, “ It is possible to obtain identification information for "this, this”.
  • CNN pre-trained artificial intelligence model
  • the electronic device 1000 may provide the user with information about “this, this”, which is information requested by the voice input 1901 , based on the acquired additional information.
  • the electronic device 1000 may provide information about a part of a water pipe indicated by the gesture 2112 according to the voice input 2111 . Also, in 2120 , the electronic device 1000 may provide information about a part of a vehicle engine indicated by the gesture 2122 according to the voice input 2121 .
  • 22 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 2212 and 2222 based on the direction the user's finger faces.
  • the electronic device 1000 of FIG. 22 may be a portable device including a smartphone that a user can hold and use.
  • the electronic device 1000 according to an embodiment may acquire gestures 2212 and 2222 corresponding to the voice inputs 2211 and 2221, respectively, by photographing an image including the gestures 2212 and 2222.
  • the electronic device 1000 may acquire a captured image to include the surrounding environment related to the voice inputs 2211 and 2221 .
  • the electronic device 1000 may acquire an image including a partial region among the images captured by the electronic device 1000 as an image of the surrounding environment according to directions indicated by the gestures 2212 and 2222 .
  • the electronic device 1000 may obtain, as additional information, identification information on “this, this” of the voice inputs 2211 and 2221 , based on the acquired surrounding environment image. have.
  • the electronic device 1000 according to an embodiment uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this,” in an image of the surrounding environment, “ It is possible to obtain identification information for "this, this”.
  • CNN pre-trained artificial intelligence model
  • the electronic device 1000 may obtain, as additional information, information about a result of recognizing a text indicated by the gestures 2212 and 2222 .
  • the electronic device 1000 may perform an operation related to “this” according to the voice inputs 2211 and 2221 based on the acquired additional information.
  • the electronic device 1000 may recognize at least one text indicated by the gesture 2212 according to the voice input 2211 including “copy this text”. .
  • the electronic device 1000 may store the recognized at least one text in the electronic device 1000 and perform various operations using the stored text according to a user's request.
  • the electronic device 1000 may recognize at least one text indicated by the gesture 2222 according to the voice input 2221 including “translate this”.
  • the electronic device 1000 may provide the user with a translation result for the at least one recognized text.
  • 23 is a diagram illustrating an example of performing an operation of capturing an image by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 2313 and 2322 based on the direction the user's finger faces.
  • the electronic device 1000 of FIG. 23 may be a device, such as a smart phone, a digital camera, etc. that a user can hold in his hand and use to capture an image.
  • the electronic device 1000 according to an embodiment may acquire gestures 2313 and 2322 included in the captured image when the image 2312 including the scene the user wants to capture is captured.
  • the electronic device 1000 may acquire a captured image including the surrounding environment related to the voice inputs 2311 and 2321 .
  • the electronic device 1000 acquires an image including the partial regions 2314 and 2323 among the images captured by the electronic device 1000 as an image of the surrounding environment. can do.
  • the electronic device 1000 may acquire, as additional information, identification information about “here” of the voice inputs 2311 and 2321 based on the acquired surrounding environment image.
  • the electronic device 1000 uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “here” in an image of the surrounding environment, thereby providing “here (here)”. Identification information for "here)" can be obtained.
  • CNN pre-trained artificial intelligence model
  • the electronic device 1000 may perform an operation related to “here” according to the voice inputs 2311 and 2321 based on the acquired additional information.
  • the electronic device 1000 may identify the object pointed to by the gesture 2313 according to the voice input 2311 including “Focus here”.
  • the electronic device 1000 may display the image 2312 including the object by adjusting the focus based on the area of the identified object in consideration of the characteristics of the identified object. For example, when the identified object is determined to be a distant object in the electronic device 1000, the image 2312 may be displayed by adjusting the focus so that the distant object can be optimally captured. have.
  • the electronic device 1000 may identify the object pointed to by the gesture 2323 according to the voice input 2321 including “More light here”.
  • the electronic device 1000 may display an image in which the object is captured by adjusting the brightness of a region including the object in consideration of the identified characteristics of the object.
  • the electronic device 1000 may display the captured image by adjusting the brightness so that a portrait can be optimally captured in consideration of the identified object being a person.
  • 24 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire a gesture (not shown) according to the user's touch input as it receives the user's voice inputs 2401 and 2402 .
  • the electronic device 1000 of FIG. 24 may be a traveling robot that moves inside a factory and moves products.
  • the electronic device 1000 is an image including the product 2403 among the images captured by the electronic device 1000 based on the user's gesture acquired together according to the voice inputs 2401 and 2402 .
  • the region may be acquired as an image of the surrounding environment.
  • the electronic device 1000 may ask, "What ID is located there?" and “Transfer this product to there..” voice inputs 2401 and 2402 may be acquired.
  • the electronic device 1000 uses, as additional information, identification information on “there” and “this” of the voice inputs 2401 and 2402, based on the surrounding environment image, can be obtained.
  • the electronic device 1000 according to an embodiment may use a pre-trained artificial intelligence model (ex. CNN) to identify objects corresponding to “there” and “this” in the surrounding environment image. By using , it is possible to obtain identification information about the product 2403 as identification information for “there” and “this”.
  • a pre-trained artificial intelligence model ex. CNN
  • the electronic device 1000 may perform a requested operation according to the voice inputs 2401 and 2402 based on the acquired additional information. For example, the electronic device 1000 may provide information about the ID of the product 2403 to the user or move the product 2403 to a location corresponding to “there”.
  • 25 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 2502 and 2504 based on the direction the user's finger faces.
  • the electronic device 1000 of FIG. 25 may be a moving body (eg, a vehicle, a motorcycle, a bicycle, etc.) on which the user is riding.
  • the electronic device 1000 may perform a voice input including "Keep distance between this car, Keep this speed, What this?"
  • a voice input 2503 including 2501 and "What is the place here? Turn this way" may be received.
  • the electronic device 1000 captures an image including the gestures 2502 and 2504 using the camera device 2505 for photographing the user, thereby corresponding to the voice inputs 2501 and 2503, respectively. Gestures 2502 and 2504 may be obtained.
  • the electronic device 1000 is a camera that captures a captured image including the surrounding environment related to the voice input 2501 and 2503 according to the direction indicated by the user's gestures 2502 and 2504 and the surrounding environment. may be obtained using device 2507 .
  • the electronic device 1000 may include “this car”, “this, this”, and “here” of the voice inputs 2501 and 2503 based on the acquired surrounding environment image. Identification information for "(here)” and “this way” may be obtained as additional information.
  • the electronic device 1000 according to an embodiment includes “this car”, “this, this”, “here”, and “this way” "This car", “this, this” and “here” by using a pre-trained artificial intelligence model (ex. CNN) to identify objects corresponding to " , it is possible to obtain identification information for “this way”.
  • a pre-trained artificial intelligence model ex. CNN
  • the electronic device 1000 may perform an operation corresponding to the voice inputs 2501 and 2503 based on the acquired additional information.
  • the electronic device 1000 identifies, according to the voice input 2501 , a “car”, “a scale of a speedometer”, an “external object”, etc. present in a direction indicated by the gesture 2502 , and identifies Based on the obtained result, it is possible to adjust the driving speed of the vehicle or provide information on “external objects”. Also, according to the voice input 2503 , the electronic device 1000 identifies “building”, “street”, etc. that exist in the direction indicated by the gesture 2504 , and based on the identified result, “building” It can provide information about the vehicle or control the driving direction of the vehicle.
  • 26 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 2602 and 2604 based on the direction the user's finger faces.
  • the electronic device 1000 of FIG. 26 may be wearable glasses, which is a device that a user can wear like glasses.
  • the electronic device 1000 may perform a voice input 2601 including “What is the name of this street?” and “Is this a hotel? What is this building number?” A voice input 2603 including “Is it a hotel? What this building number” may be received.
  • the electronic device 1000 captures images including gestures 2602 and 2604 using a camera (not shown) provided in the electronic device 1000 , thereby receiving voice inputs 2601 and 2603 .
  • Gestures 2602 and 2604 corresponding to , respectively, may be obtained.
  • the electronic device 1000 may acquire an image including the surrounding environment related to the voice inputs 2601 and 2603 according to the direction indicated by the user's gestures 2602 and 2604 .
  • the electronic device 1000 may display “this street”, “this”, and “this building)” can be obtained as additional information.
  • the electronic device 1000 according to an embodiment may identify objects corresponding to “this street”, “this”, and “this building” in the surrounding environment image, By using a pre-trained artificial intelligence model (ex. CNN), identification information for “this street”, “this”, and “this building” can be obtained.
  • a pre-trained artificial intelligence model ex. CNN
  • the electronic device 1000 may provide the user with information requested from the voice inputs 2601 and 2603 based on the acquired additional information.
  • the electronic device 1000 may identify the name of a street in the direction indicated by the gesture 2602 according to the voice input 2601 , and provide the identified result to the user. Also, according to the voice input 2603 , the electronic device 1000 may obtain information about a hotel name or a number of a building existing in a direction indicated by the gesture 2604 , and provide the obtained information to the user. .
  • FIG. 27 is a diagram illustrating an example of controlling an external device by processing a voice input based on a gesture according to an embodiment.
  • the electronic device 1000 may acquire gestures 2702 and 2704 based on the direction the user's finger faces.
  • the electronic device 1000 of FIG. 27 may be wearable glasses, which is a device that a user can wear like glasses.
  • the electronic device 1000 may include a voice input 2701 including “Switch on that lights” and “Put virtual TV on this wall”. may receive a voice input 2703 including
  • the electronic device 1000 captures images including gestures 2702 and 2704 using a camera (not shown) provided in the electronic device 1000 , thereby receiving voice inputs 2701 and 2703 .
  • Gestures 2702 and 2704 corresponding to , respectively, may be obtained.
  • the electronic device 1000 may acquire an image including the surrounding environment related to the voice inputs 2701 and 2703 according to the direction indicated by the user's gestures 2702 and 2704 .
  • the electronic device 1000 may provide identification information on “that lights” and “this wall” of the voice inputs 2701 and 2703 based on the acquired surrounding environment image. may be obtained as additional information.
  • the electronic device 1000 according to an embodiment may include a pre-trained AI model ( ex. CNN), it is possible to obtain identification information for "that lights” and "this wall”.
  • the electronic device 1000 may provide information requested by the voice inputs 2701 and 2703 to the user based on the acquired additional information.
  • the electronic device 1000 may identify at least one light existing in the direction indicated by the gesture 2702 and control the identified light. Also, according to the voice input 2703 , the electronic device 1000 is a beam projector capable of identifying a wall, existing in a direction indicated by the gesture 2704 , and displaying a virtual TV on the identified wall according to the voice input 2703 . can be identified. Accordingly, the electronic device 1000 may control the identified beam projector to display the virtual TV on the identified wall.
  • an operation suitable for the user's intention may be performed by clearly interpreting the voice input based on the user's gesture and surrounding environment.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory storage medium' is a tangible device and only means that it does not contain a signal (eg, electromagnetic wave). It does not distinguish the case where it is stored as
  • the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be provided as included in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play StoreTM) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly, online between smartphones (eg: smartphones).
  • a portion of a computer program product eg, a downloadable app
  • a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
  • unit may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Provided is a method for processing a voice input in an electronic device on the basis of a gesture, wherein the electronic device: acquires a voice input and a gesture corresponding to the voice input; acquires an image including the surrounding environment of the electronic device on the basis of the direction indicated by the gesture; extracts additional information related to the voice input from the image; acquires request information pertaining to an operation requested to the electronic device through the voice input on the basis of the additional information; and processes the voice input on the basis of the request information.

Description

제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법Electronic device processing a voice input based on a gesture and an operating method thereof
본 개시는, 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법에 관한 것이다.The present disclosure relates to an electronic device that processes a voice input based on a gesture, and an operating method thereof.
사용자는 음성 명령을 통해 전자 장치에 다양한 동작을 수행하도록 요청할 수 있다. 예를 들면, 사용자는 전자 장치가 아닌 주변 사람들과 대화하는 방식으로, 음성 명령을 수행할 수 있다.The user may request the electronic device to perform various operations through a voice command. For example, the user may perform a voice command in a manner of having a conversation with nearby people rather than the electronic device.
일상 대화에서, 사용자가 대화에서 요청하고자 하는 대상을 명확하게 지시하지 않더라도, 대화의 상대방은, 사용자의 제스처와 주변 상황을 함께 고려하여, 사용자의 대화에 포함된 요청사항을 명확하게 인식할 수 있다.In everyday conversation, even if the user does not clearly indicate the object that the user wants to request in the conversation, the other party of the conversation can clearly recognize the request included in the user's conversation by considering the user's gesture and surrounding circumstances together .
따라서, 사용자가 일상적으로 대화하는 방식으로 음성 명령을 하는 경우에, 음성 명령에서 요청하는 대상을 명확하게 지시하지 않더라도, 사용자의 음성 명령에 따른 동작을 사용자의 의도에 맞게 수행할 수 있는 방법이 필요하다.Therefore, when a user gives a voice command in a conversational manner, a method is needed to perform an operation according to the user's voice command according to the user's intention even if the target requested by the voice command is not clearly indicated. do.
본 개시가 해결하고자 하는 과제는 전술한 문제를 해결하기 위한 것으로서, 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다. An object of the present disclosure is to solve the above-described problem, and to provide an electronic device that processes a voice input based on a gesture and an operating method thereof.
또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.Another object of the present invention is to provide a computer-readable recording medium in which a program for executing the method in a computer is recorded. The technical problem to be solved is not limited to the technical problems as described above, and other technical problems may exist.
도 1은 일 실시 예에 의한 음성 입력을 수신하는 일 예를 나타내는 도면이다.1 is a diagram illustrating an example of receiving a voice input according to an embodiment.
도 2는 일 실시 예에 의한 제스처가 가리키는 방향에 따라 주변 환경 영상을 촬영하는 일 예를 나타낸 도면이다.2 is a diagram illustrating an example of capturing an image of a surrounding environment according to a direction indicated by a gesture according to an embodiment.
도 3은 일 실시 예에 의한 주변 환경 영상이 촬영되는 일 예를 나타낸 도면이다.3 is a diagram illustrating an example in which an image of a surrounding environment is captured according to an embodiment.
도 4 는 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.4 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
도 5은 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.5 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
도 6은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리하는 방법을 나타낸 순서도이다.6 is a flowchart illustrating a method of processing a voice input based on a gesture according to an embodiment.
도 7은 일 실시 예에 의한 제스처에 기초하여, 영상으로부터 요청 정보를 획득하는 일 예를 나타낸다.7 illustrates an example of obtaining request information from an image based on a gesture according to an embodiment.
도 8은 일 실시 예에 의한 제스처에 기초하여 주변 환경을 포함하는 영상을 획득하는 일 예를 나타내는 도면이다.8 is a diagram illustrating an example of acquiring an image including a surrounding environment based on a gesture according to an embodiment.
도 9는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리하는 일 예를 나타낸 도면이다.9 is a diagram illustrating an example of processing a voice input based on a gesture according to an embodiment.
도 10은 일 실시 예에 의한 제스처의 일 예를 나타낸 도면이다.10 is a diagram illustrating an example of a gesture according to an embodiment.
도 11은 일 실시 예에 의한 영상으로부터 음성 입력과 대응되는 요청 정보를 획득하는 일 예를 나타낸 도면이다.11 is a diagram illustrating an example of obtaining request information corresponding to a voice input from an image according to an embodiment.
도 12는 제스처에 기초하여 음성 입력을 처리하는 일 예를 나타낸 도면이다.12 is a diagram illustrating an example of processing a voice input based on a gesture.
도 13은 일 실시 예에 의한 제스처에 기초하여, 영상을 획득함으로써, 음성 입력을 처리하는 일 예를 나타내는 도면이다.13 is a diagram illustrating an example of processing a voice input by acquiring an image based on a gesture according to an embodiment.
도 14는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.14 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 15는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 주변 환경 정보를 획득하는 일 예를 나타낸 도면이다.15 is a diagram illustrating an example of acquiring surrounding environment information by processing a voice input based on a gesture according to an embodiment.
도 16은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 정보를 수집하고, 수집된 정보에 기초하여 동작을 수행하는 일 예를 나타낸 도면이다.16 is a diagram illustrating an example of collecting information by processing a voice input based on a gesture and performing an operation based on the collected information, according to an embodiment.
도 17은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.17 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 18은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.18 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 19는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.19 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
도 20은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.20 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
도 21은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.21 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
도 22는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.22 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 23은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 영상을 촬영하는 동작을 수행하는 일 예를 나타낸 도면이다.23 is a diagram illustrating an example of performing an operation of capturing an image by processing a voice input based on a gesture according to an embodiment.
도 24는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.24 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 25는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.25 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 26는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.26 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
도 27은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 외부 장치를 제어하는 일 예를 나타낸 도면이다.27 is a diagram illustrating an example of controlling an external device by processing a voice input based on a gesture according to an embodiment.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 전자 장치에서, 제스처에 기초하여, 음성 입력을 처리하는 방법에 있어서, 음성 입력 및 상기 음성 입력과 대응되는 제스처를 획득하는 단계; 상기 제스처가 가리키는 방향에 기초하여, 상기 전자 장치의 주변 환경을 포함하는 영상을 획득하는 단계; 상기 영상으로부터, 상기 음성 입력과 관련된 부가 정보를 추출하는 단계; 상기 부가 정보에 기초하여, 상기 음성 입력에 의해 상기 전자 장치로 요청된 동작에 관한 요청 정보를 획득하는 단계; 및 상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는 단계를 포함하는, 방법을 제공할 수 있다.As a technical means for achieving the above technical problem, a first aspect of the present disclosure is a method of processing a voice input based on a gesture in an electronic device, wherein a voice input and a gesture corresponding to the voice input are obtained to do; acquiring an image including a surrounding environment of the electronic device based on a direction indicated by the gesture; extracting additional information related to the voice input from the image; obtaining request information regarding an operation requested by the electronic device by the voice input based on the additional information; and processing the voice input based on the request information.
또한, 본 개시의 제2 측면은, 제스처에 기초하여, 음성 입력을 처리하는 전자 장치에 있어서, A/V 입력부; 상기 음성 입력을 처리한 결과를 출력하는 출력부; 및 상기 A/V 입력부를 제어하여, 음성 입력을 획득하고, 상기 음성 입력과 대응되는 제스처를 획득하고, 상기 A/V 입력부를 제어하여, 상기 제스처가 가리키는 방향에 기초하여, 상기 전자 장치의 주변 환경을 포함하는 영상을 획득하고, 상기 영상으로부터, 상기 음성 입력과 관련된 부가 정보를 추출하고, 상기 부가 정보에 기초하여, 상기 음성 입력에 의해 상기 전자 장치로 요청된 동작에 관한 요청 정보를 획득하고, 상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는, 적어도 하나의 프로세서를 포함하는, 전자 장치를 제공할 수 있다.In addition, a second aspect of the present disclosure provides an electronic device for processing a voice input based on a gesture, comprising: an A/V input unit; an output unit for outputting a result of processing the voice input; and controlling the A/V input unit to obtain a voice input, obtain a gesture corresponding to the voice input, and control the A/V input unit to obtain a periphery of the electronic device based on a direction indicated by the gesture. Obtaining an image including an environment, extracting additional information related to the voice input from the image, and obtaining request information about an operation requested by the electronic device by the voice input based on the additional information, , based on the request information, may provide an electronic device comprising at least one processor that processes the voice input.
또한, 본 개시의 제3 측면은, 제1 측면의 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 제공할 수 있다.In addition, a third aspect of the present disclosure may provide a recording medium in which a program for performing the method of the first aspect is stored.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement them. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is "connected" with another part, this includes not only the case of being "directly connected" but also the case of being "electrically connected" with another element interposed therebetween. . In addition, when a part "includes" a certain component, this means that other components may be further included, rather than excluding other components, unless otherwise stated.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. Functions related to artificial intelligence according to the present disclosure are operated through a processor and a memory. The processor may consist of one or a plurality of processors. In this case, one or more processors may be a general-purpose processor such as a CPU, an AP, a digital signal processor (DSP), or the like, a graphics-only processor such as a GPU, a VPU (Vision Processing Unit), or an artificial intelligence-only processor such as an NPU. One or a plurality of processors control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory. Alternatively, when one or more processors are AI-only processors, the AI-only processor may be designed with a hardware structure specialized for processing a specific AI model.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.The predefined action rule or artificial intelligence model is characterized in that it is created through learning. Here, being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created means burden. Such learning may be performed in the device itself on which the artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system. Examples of the learning algorithm include, but are not limited to, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.The artificial intelligence model may be composed of a plurality of neural network layers. Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between an operation result of a previous layer and a plurality of weight values. The plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from the artificial intelligence model during the learning process is reduced or minimized. The artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), There may be a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a Deep Q-Networks, but is not limited to the above-described example.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1은 일 실시 예에 의한 음성 입력을 수신하는 일 예를 나타내는 도면이다.1 is a diagram illustrating an example of receiving a voice input according to an embodiment.
도 1을 참조하면, 전자 장치(1000)는 음성 입력을 수신함에 따라, 음성 입력과 대응되는 동작을 수행할 수 있다.Referring to FIG. 1 , upon receiving a voice input, the electronic device 1000 may perform an operation corresponding to the voice input.
일 실시 예에 의한 전자 장치(1000)는 사용자의 음성 입력에 대응하여, 응답을 제공하는 장치의 일 예로서, 음성 제어 기능이 탑재되어 사용자의 입력에 따른 동작을 수행할 수 있는 전자 장치일 수 있다.The electronic device 1000 according to an embodiment is an example of a device that provides a response in response to a user's voice input, and may be an electronic device equipped with a voice control function to perform an operation according to the user's input. have.
일 실시예에 따른 전자 장치(1000)는 다양한 형태로 구현될 수 있다. 예를 들어, 본 명세서에서 기술되는 전자 장치(1000)는, 디지털 카메라, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 차량(vehicle) 등이 있을 수 있으나, 이에 한정되는 것은 아니다. 본 명세서에서 기술되는 전자 장치(1000)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 이하에서는, 설명의 편의상, 전자 장치(1000)가 인공지능 스피커 장치 또는 스마트 폰인 경우를 예로 들어 설명하기로 한다.The electronic device 1000 according to an embodiment may be implemented in various forms. For example, the electronic device 1000 described herein may include a digital camera, a smart phone, a laptop computer, a tablet PC, an electronic book terminal, a digital broadcasting terminal, and a personal digital assistant (PDA). , a Portable Multimedia Player (PMP), a navigation system, an MP3 player, a vehicle, and the like, but is not limited thereto. The electronic device 1000 described herein may be a wearable device that can be worn by a user. Wearable devices include accessory type devices (e.g., watches, rings, wristbands, ankle bands, necklaces, eyeglasses, contact lenses), head-mounted-devices (HMDs), textile or clothing-integrated devices (e.g., electronic clothing), a body attachable device (eg, a skin pad), or a bioimplantable device (eg, an implantable circuit). Hereinafter, for convenience of description, a case in which the electronic device 1000 is an artificial intelligence speaker device or a smart phone will be described as an example.
일 실시 예에 의하면, 전자 장치(1000)는 대화형 인터페이스를 통해 사용자의 음성 입력을 수신하고, 사용자의 음성 입력에 대한 동작을 수행하는 장치일 수 있다. 대화형 인터페이스는 사용자로부터의 음성 입력을 수신하고, 사용자로부터의 음성 입력에 대한 응답을 제공하는 사용자를 위한 인터페이스일 수 있다. 일 실시예에 의하면, 대화형 인터페이스는 가상 비서(Virtual assistant), 인공지능 비서 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 가상 비서 또는 인공지능 비서는 사용자가 요구하는 작업을 처리하고 사용자에게 특화된 서비스를 제공하는 소프트웨어 에이전트일 수 있다.According to an embodiment, the electronic device 1000 may be a device that receives a user's voice input through an interactive interface and performs an operation on the user's voice input. The interactive interface may be an interface for a user that receives a voice input from the user and provides a response to the voice input from the user. According to an embodiment, the interactive interface may include, but is not limited to, a virtual assistant, an artificial intelligence assistant, and the like. The virtual assistant or artificial intelligence assistant may be a software agent that processes a task requested by a user and provides a specialized service to the user.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 음성 입력이 수신될 때, 사용자의 제스처(121, 122, 123)를 포함하는 영상과, 사용자의 제스처가 가리키는 방향에 기초하여 촬영된, 주변 환경 영상을 촬영할 수 있다. 일 실시 예에 의한 제스처(121, 122, 123)와 제스처(121, 122, 123)가 가리키는 방향에 존재하는 주변 환경은 하나의 영상에 함께 포함되어 촬영될 수도 있고, 각각 따로 촬영된 복수 개의 영상에 각각 포함될 수도 있다.When a user's voice input is received, the electronic device 1000 according to an embodiment may include an image including the user's gestures 121 , 122 , and 123 , and the surrounding area captured based on the direction the user's gesture points in. You can shoot environment videos. According to an embodiment, the gestures 121, 122, 123 and the surrounding environment existing in the direction indicated by the gestures 121, 122, and 123 may be included in one image and photographed together, or a plurality of images each photographed separately. may be included in each.
일 실시 예에 의한 제스처(121, 122, 123)는 사용자가 전자 장치(1000)에 입력을 인가하기 위한 다양한 형태의 움직임을 의미할 수 있다. 일 실시 예에 의한 제스처는, 사용자의 손, 발, 머리 등 다양한 부위의 움직임, 사용자의 시선, 사용자의 자세 등 사용자의 다양한 형태의 움직임을 포함할 수 있다.The gestures 121 , 122 , and 123 according to an embodiment may refer to various types of motions for the user to apply an input to the electronic device 1000 . The gesture according to an embodiment may include various types of movement of the user, such as movement of various parts such as the user's hand, foot, and head, the user's gaze, and the user's posture.
일 실시 예에 따라 제스처(121, 122, 123)를 포함하여 촬영된 영상은, 사용자에 의해 수행된 제스처를 획득하는데 이용될 수 있다. 따라서, 일 실시 예에 의한 제스처(121, 122, 123)는, 촬영된 영상을 통해 획득되는 것에 한하지 않고, 다양한 방법에 따라 획득될 수 있다. 예를 들면, 일 실시 예에 의한 제스처(121, 122, 123)는, 제스처가 입력될 수 있는 다양한 수단으로서, 리모콘, 가속도 센서(Acceleration sensor), 기울기 센서(tilt sensor), 자이로 센서(Gyro sensor), 자기장 센서(3-axis Magnetic sensor), 스타일러스 펜 등에 의해 획득될 수도 있다.According to an embodiment, the captured image including the gestures 121 , 122 , and 123 may be used to acquire the gesture performed by the user. Accordingly, the gestures 121 , 122 , and 123 according to an embodiment are not limited to those obtained through a captured image, and may be obtained according to various methods. For example, the gestures 121 , 122 , and 123 according to an embodiment are various means through which a gesture may be input, and include a remote controller, an acceleration sensor, a tilt sensor, and a gyro sensor. ), a magnetic field sensor (3-axis magnetic sensor), a stylus pen, or the like.
일 실시 예에 따른 전자 장치(1000)의 주변 환경을 포함한 주변 환경 영상은, 전자 장치(1000)에서 획득된 제스처가 가리키는 방향에 기초하여 촬영될 수 있다. 예를 들면, 주변 환경 영상은, 제스처가 가리키는 방향에 존재하는 일 공간이 전자 장치(1000)에 의해 촬영됨으로써, 획득될 수 있다. An image of the surrounding environment including the surrounding environment of the electronic device 1000 according to an embodiment may be captured based on a direction indicated by a gesture obtained by the electronic device 1000 . For example, the image of the surrounding environment may be obtained by photographing the work space in the direction indicated by the gesture by the electronic device 1000 .
일 실시 예에 의한 전자 장치(1000)는 주변 환경 영상으로부터 음성 입력과 관련된 부가 정보를 추출함으로써, 음성 입력에 의해 전자 장치(1000)로 요청되는 정보인 요청 정보를 획득할 수 있다. 따라서, 일 실시 예에 의하면, 제스처가 가리키는 방향에 기초하여 촬영된 영상에 기초하여, 음성 입력에 의해 전자 장치(1000)로 요청된 정보가 명확하게 결정됨에 따라서, 사용자 의도에 맞는 동작이 수행될 수 있다.The electronic device 1000 according to an embodiment may obtain request information, which is information requested by the electronic device 1000 by the voice input, by extracting additional information related to the voice input from the surrounding environment image. Accordingly, according to an embodiment, as information requested to the electronic device 1000 is clearly determined by a voice input based on an image captured based on a direction indicated by a gesture, an operation corresponding to the user's intention may be performed. can
일 실시 예에 의한 부가 정보는 상기 주변 환경 영상으로부터 추출될 수 있는 다양한 종류의 정보 중 음성 입력과 관련된 정보를 포함할 수 있다. 예를 들어, 음성 입력이 "이것(it)"의 상태를 묻는 질문을 포함하는 경우, 부가 정보는, 주변 환경 영상으로부터 추출된 "이것"에 관한 정보를 포함할 수 있다. 일 실시 예에 의한 부가 정보는, "이것"을 명확하게 식별하는데 이용될 수 있는 정보로서, 예를 들면, "이것"이 존재하는 위치에 관한 정보(ex. 거실 중앙의 1번 테이블 위, 또는 위치를 나타내는 좌표 값), "이것"과 대응되는 주변 환경 영상의 영역에 관한 정보 등을 포함할 수 있다. 따라서, 일 실시 예에 의한 전자 장치(1000)는, 부가 정보에 기초하여, 음성 입력에 의한 동작의 대상인, "이것"이 무엇인지를 명확하게 식별함으로써, 음성 입력에 대응하는 요청 정보를 생성할 수 있다. The additional information according to an embodiment may include information related to a voice input among various types of information that may be extracted from the image of the surrounding environment. For example, when the voice input includes a question asking for the status of “it”, the additional information may include information about “this” extracted from the surrounding environment image. Additional information according to an embodiment is information that can be used to clearly identify “this”, for example, information about a location where “this” exists (eg, on table No. 1 in the center of the living room, or coordinate values indicating a location), information about an area of an image of the surrounding environment corresponding to "this", and the like. Accordingly, the electronic device 1000 according to an embodiment may generate request information corresponding to the voice input by clearly identifying what “this” is, the target of the operation by the voice input, based on the additional information. can
일 실시 예에 의한 요청 정보를 생성하는데 있어서, 동작의 대상(ex. "이것")이 명확히 결정됨에 따라, 음성 입력에 대응하여 전자 장치(1000)에서 수행될 동작도 대상의 특징에 따라서 결정될 수 있다. 예를 들면, 동작의 대상이, 가전 제품인 경우, 동작은 가전 제품의 온오프 상태를 판단하는 것으로 결정될 수 있다. 또한, 동작의 대상이, 사람인 경우, 동작은, 사람에 대한 건강 상태를 검색하는 것으로 결정될 수 있다. 상술한 예에 한하지 않고, 동작의 대상에 따라 다양한 동작이 결정될 수 있다.In generating the request information according to an embodiment, as the target of the operation (eg, “this”) is clearly determined, the operation to be performed by the electronic device 1000 in response to the voice input may also be determined according to the characteristics of the target. have. For example, when the target of the operation is a home appliance, the operation may be determined by determining an on/off state of the home appliance. Also, when the target of the operation is a person, the operation may be determined to search for a health state of the person. It is not limited to the above-described example, and various operations may be determined according to the object of the operation.
따라서, 일 실시 예에 의한 요청 정보는, 모호한 정보를 포함하는, 음성 입력과는 달리, 부가 정보에 기초하여 결정된, 전자 장치(1000)에서 수행될 동작 및 그 대상에 관한 구체적이고 명확한 정보를 포함할 수 있다. Accordingly, the request information according to an embodiment includes specific and clear information regarding an operation to be performed by the electronic device 1000 and a target thereof, which is determined based on the additional information, unlike the voice input, which includes ambiguous information. can do.
일 실시 예에 의한 전자 장치(1000)는 요청 정보에 기초하여, 동작을 수행할 수 있다. 일 실시 예에 의한 요청 정보는, 영상의 부가 정보에 기초하여, 결정된 동작에 관한 정보를 포함할 수 있다. 따라서, 일 실시 예에 의하면, 음성 입력에 포함된 사용자의 요청이 명확하지 않은 경우에도, 제스처 및 제스처에 따라 촬영된 영상에 기초하여, 음성 입력에 대응하여 수행될 동작이 명확하게 결정될 수 있다.The electronic device 1000 according to an embodiment may perform an operation based on the request information. The request information according to an embodiment may include information about an operation determined based on the additional information of the image. Accordingly, according to an embodiment, even when the user's request included in the voice input is not clear, an operation to be performed in response to the voice input may be clearly determined based on the gesture and an image captured according to the gesture.
도 2는 일 실시 예에 의한 제스처가 가리키는 방향에 따라 주변 환경 영상을 촬영하는 일 예를 나타낸 도면이다.2 is a diagram illustrating an example of capturing an image of a surrounding environment according to a direction indicated by a gesture according to an embodiment.
도 2를 참조하면, 일 실시 예에 의한 제스처가 가리키는 방향에 따라 촬영되는 주변 환경 영상은, 사용자가 바라보고 있는 일 공간 중에서, 사용자의 제스처가 가리키는 방향의 공간이 포함되도록 영상이 촬영됨으로써, 획득될 수 있다. Referring to FIG. 2 , an image of the surrounding environment captured according to a direction indicated by a gesture according to an embodiment is obtained by capturing an image to include a space in the direction indicated by the user's gesture among one space that the user is looking at. can be
일 실시 예에 의하면, 음성 입력을 발화하는 사용자의 시선의 각도(210)에 관한 정보 및 자세(220)에 관한 정보에 기초하여, 사용자가 바라보고 있는 일 공간이 추측될 수 있다. According to an embodiment, the work space the user is looking at may be estimated based on the information about the posture 220 and the information about the angle 210 of the user's gaze uttering the voice input.
일 실시 예에 의한 시선의 각도(210)에 관한 정보는, 수평면을 기준으로, 사용자의 시선이 향하는 방향에 대한 각도(ex. 15도)를 나타낼 수 있다. 예를 들면, 시선의 각도(210)에 관한 정보는, 눈동자의 움직임, 또는 사용자의 얼굴 정면이 향하는 방향 등 사용자의 움직임으로부터 획득된 다양한 정보에 기초하여 획득될 수 있다. 일 실시 예에 의한 시선의 각도(210)에 관한 정보는, 제스처를 획득하기 위하여 사용자의 모습이 촬영된 영상에 기초하여 획득될 수 있다.Information on the angle of gaze 210 according to an embodiment may indicate an angle (eg, 15 degrees) with respect to a direction in which the user's gaze is directed with respect to a horizontal plane. For example, the information about the eye angle 210 may be obtained based on various information obtained from the user's movement, such as the movement of the pupil or the direction in which the front of the user's face faces. Information about the angle of gaze 210 according to an embodiment may be obtained based on an image of the user in order to obtain a gesture.
또한, 일 실시 예에 의한 자세(220)에 관한 정보는, 사용자의 자세를 나타내는 스켈레톤 정보를 포함할 수 있다. 예를 들면, 스켈레톤 정보는, 제스처를 획득하기 위하여 사용자의 모습이 촬영된 영상에 기초하여, 사용자의 관절 움직임이 추출됨으로써, 획득될 수 있다.In addition, information about the posture 220 according to an embodiment may include skeleton information indicating the posture of the user. For example, the skeleton information may be obtained by extracting the user's joint movement based on an image of the user's appearance to obtain a gesture.
일 실시 예에 의하면 시선의 각도(210)에 관한 정보 및 자세(220)에 관한 정보에 기초하여, 사용자가 바라보고 있는 일 공간이 추측될 수 있다. 상술한 예에 한하지 않고, 사용자가 바라보고 있는 일 공간은, 다양한 방법을 통해 추측될 수 있다.According to an embodiment, the work space that the user is looking at may be estimated based on the information about the angle of gaze 210 and the information about the posture 220 . It is not limited to the above-described example, and the work space that the user is looking at may be estimated through various methods.
또한, 일 실시 예에 의한 제스처의 방향(230)에 관한 정보는 제스처를 획득하기 위하여 사용자가 촬영된 영상에 기초하여, 사용자의 손가락 끝이 가리키는 방향을 나타내는 정보를 포함할 수 있다.Also, the information on the direction 230 of the gesture according to an embodiment may include information indicating the direction in which the user's fingertip points based on an image captured by the user to obtain the gesture.
일 실시 예에 의한 전자 장치(1000)는, 시선의 각도(210)에 관한 정보, 자세(220)에 관한 정보 및 제스처의 방향(230)에 관한 정보 등, 제스처와 관련된 사용자의 다양한 움직임에 관한 정보에 기초하여, 주변 환경 영상을 촬영할 수 있다. 예를 들어, 사용자의 다양한 움직임에 관한 정보에 기초하여, 사용자의 의도에 맞는 동작을 수행하는데 필요한 정보를 추출할 수 있는 일 공간을 포함하는 주변 환경 영상이 촬영될 수 있다.The electronic device 1000 according to an embodiment may provide information on various movements of a user related to a gesture, such as information on the angle of gaze 210 , information on the posture 220 , and information on the direction 230 of the gesture. Based on the information, an image of the surrounding environment may be captured. For example, an image of the surrounding environment including a work space from which information necessary to perform an operation according to the user's intention can be extracted based on information on various movements of the user may be captured.
도 3은 일 실시 예에 의한 주변 환경 영상이 촬영되는 일 예를 나타낸 도면이다.3 is a diagram illustrating an example in which an image of a surrounding environment is captured according to an embodiment.
도 3을 참조하면, 전자 장치(1000-1, 1000-2, 1000-3)는, 제스처가 가리키는 방향에 기초하여, 전자 장치(1000-1, 1000-2, 1000-3)의 주변 환경을 포함하는 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000-1, 1000-2, 1000-3)는, 도 1의 전자 장치(1000)와 대응되는 장치로서, 각각 스마트 글래스, 스마트 폰 또는 태블릿, 주행 로봇 등으로 구현될 수 있는 장치이다.Referring to FIG. 3 , the electronic devices 1000-1, 1000-2, and 1000-3 view the surrounding environment of the electronic devices 1000-1, 1000-2, and 1000-3 based on the direction indicated by the gesture. It is possible to obtain an image containing The electronic devices 1000-1, 1000-2, and 1000-3 according to an embodiment are devices corresponding to the electronic device 1000 of FIG. 1 and are implemented as smart glasses, a smart phone or tablet, a driving robot, and the like, respectively. It is a device that can be
310을 참조하면, 전자 장치(1000-1)는 사용자의 제스처가 가리키는 방향에 기초하여, 311의 공간을 포함하는 영상을 촬영할 수 있다. 일 실시 예에 의한 전자 장치(1000-1)는, 스마트 글래스로서, 사용자의 머리에 착용되어, 사용자의 시선을 기준으로 하는, 1인칭 시점으로 영상을 촬영할 수 있다.Referring to 310 , the electronic device 1000 - 1 may capture an image including the space 311 based on the direction indicated by the user's gesture. The electronic device 1000 - 1 according to an embodiment, as smart glasses, is worn on a user's head and may capture an image from a first-person viewpoint based on the user's gaze.
일 실시 예에 의한 전자 장치(1000-1)는, 전자 장치(1000-1)에 의해 촬영 가능한 공간인, 점선으로 나뉘어진 여러 공간 중 사용자의 제스처가 가리키는 방향과 대응되는 311의 공간을 포함하는 영상을 촬영함으로써, 전자 장치(1000-1)의 주변 환경을 포함하는 영상을 획득할 수 있다.The electronic device 1000-1 according to an embodiment includes a space 311 corresponding to a direction indicated by a user's gesture among several spaces divided by a dotted line, which is a space that can be photographed by the electronic device 1000-1. By capturing the image, an image including the surrounding environment of the electronic device 1000 - 1 may be acquired.
예를 들면, 전자 장치(1000-1)에 의해 촬영될 수 있는 공간 중, 사용자의 제스처가 가리키는 방향에 따라, 311의 공간에 대해 확대된 영상을 촬영함으로써, 전자 장치(1000-1)의 주변 환경을 포함하는 영상을 획득할 수 있다. For example, among spaces that can be photographed by the electronic device 1000 - 1 , by capturing an enlarged image for the space 311 according to a direction indicated by a user's gesture, the periphery of the electronic device 1000 - 1 is An image including the environment may be acquired.
또한, 다른 예를 들면, 전자 장치(1000-1)에 구비된 복수 개의 카메라 중에서, 사용자의 제스처가 가리키는 방향에 따라, 311의 공간을 촬영할 수 있는 카메라에 의해, 전자 장치(1000-1)의 주변 환경을 포함하는 영상이 획득될 수 있다. 상술한 예에 한하지 않고, 전자 장치(1000-1)는, 다양한 방법을 통하여, 사용자의 제스처가 가리키는 방향에 따라, 311의 공간을 포함하는, 영상을 획득할 수 있다.Also, as another example, among a plurality of cameras provided in the electronic device 1000 - 1 , the electronic device 1000 - 1 can be captured by a camera capable of photographing the space 311 according to a direction indicated by a user gesture. An image including the surrounding environment may be acquired. Without being limited to the above example, the electronic device 1000 - 1 may acquire an image including a space of 311 according to a direction indicated by a user's gesture through various methods.
320을 참조하면, 전자 장치(1000-2)는 사용자의 제스처가 가리키는 방향에 기초하여 321의 공간을 포함하는 영상을 촬영할 수 있다. 일 실시 예에 의한 전자 장치(1000-2)는 태블릿 또는 스마트폰으로서, 사용자의 시점을 기준으로 하는 1인칭 시점으로 영상을 촬영할 수 있다.Referring to 320 , the electronic device 1000 - 2 may capture an image including the space of 321 based on the direction indicated by the user's gesture. The electronic device 1000 - 2 according to an embodiment is a tablet or a smart phone, and may capture an image from a first-person viewpoint based on the user's viewpoint.
일 실시 예에 의하면, 전자 장치(1000-2)에 의해 촬영될 수 있는 공간 중에서, 사용자의 제스처가 가리키는 방향에 따라, 321의 공간을 포함하는 영상을 촬영함으로써, 전자 장치(1000-2)의 주변 환경을 포함하는 영상을 획득할 수 있다. According to an embodiment, among spaces that can be photographed by the electronic device 1000 - 2 , the image including the space 321 is captured according to the direction indicated by the user's gesture, thereby An image including the surrounding environment may be acquired.
예를 들면, 전자 장치(1000-2)는, 340에 도시된 예와 같이, 제스처(341)의 방향에 따라서, 제스처(341)가 가리키는 방향에 존재하는 오브젝트(342)가 포함되도록 주변 환경 영상을 촬영할 수 있다.For example, as shown in the example shown in 340 , the electronic device 1000 - 2 displays an image of the surrounding environment so that the object 342 existing in the direction indicated by the gesture 341 is included according to the direction of the gesture 341 . can be filmed.
일 실시 예에 의하면, 사용자가 전자 장치(1000-2)에 가하는 움직임에 따라서, 촬영된 영상의 영역 중, 제스처가 가리키는 방향에 따라 설정된 일부 영역의 영상이, 주변 환경을 포함하는 영상으로 획득될 수 있다.According to an embodiment, according to a movement applied by the user to the electronic device 1000 - 2 , an image of a partial region set according to a direction indicated by a gesture among regions of a photographed image may be acquired as an image including the surrounding environment. can
일 실시 예에 의한 사용자의 제스처는, 전자 장치(1000-2)에 구비된 카메라나, 다양한 센서에 의해 획득될 수 있으나, 이에 한하지 않고, 외부 장치(미도시)의 카메라나 센서에 의하여 획득될 수도 있다.The user's gesture according to an embodiment may be acquired by a camera provided in the electronic device 1000 - 2 or various sensors, but is not limited thereto, and is acquired by a camera or a sensor of an external device (not shown). could be
330을 참조하면, 전자 장치(1000-3)는 사용자의 제스처가 가리키는 방향에 기초하여 사용자의 제스처가 가리키는 일 공간인, 331의 공간을 포함하는 영상을 촬영할 수 있다. 일 실시 예에 의한 전자 장치(1000-3)는 로봇 청소기 또는 주행 로봇으로서, 외부의 시점인, 3인칭 시점으로 영상을 촬영할 수 있다.Referring to 330 , the electronic device 1000 - 3 may capture an image including a space 331 , which is a space indicated by the user's gesture, based on the direction indicated by the user's gesture. The electronic device 1000 - 3 according to an embodiment is a robot cleaner or a traveling robot, and may capture an image from an external viewpoint, that is, a third person viewpoint.
일 실시 예에 의한 전자 장치(1000-3)는, 사용자의 모습을 촬영함으로써, 촬영된 영상으로부터 사용자의 제스처가 가리키는 방향에 관한 정보를 획득할 수 있다. 일 실시 예에 의한 제스처가 가리키는 방향에 관한 정보는, 사용자의 시선, 사용자의 자세, 사용자의 손가락이 가리키는 방향 등 영상으로부터 추출된 사용자의 다양한 움직임에 기초하여 획득될 수 있다. The electronic device 1000 - 3 according to an embodiment may acquire information about a direction indicated by the user's gesture from the captured image by photographing the user's appearance. According to an embodiment, the information on the direction indicated by the gesture may be obtained based on various movements of the user extracted from the image, such as the user's gaze, the user's posture, and the direction in which the user's finger points.
따라서, 일 실시 예에 의한 전자 장치(1000-2)는, 전자 장치(1000-2)에 의해 촬영될 수 있는 공간 중에서, 사용자의 제스처가 가리키는 방향에 따라, 331의 공간을 포함하는 영상을 촬영함으로써, 전자 장치(1000-2)의 주변 환경을 포함하는 영상을 획득할 수 있다.Accordingly, the electronic device 1000 - 2 according to an embodiment captures an image including a space of 331 according to a direction indicated by a user's gesture among spaces that can be photographed by the electronic device 1000 - 2 . By doing so, an image including the surrounding environment of the electronic device 1000 - 2 may be acquired.
도 4 는 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.4 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
도 5은 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.5 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
도 4를 참조하면, 전자 장치(1000)는, 프로세서(1300), 출력부(1200) 및 A/V 입력부(1600)을 포함할 수 있다. 그러나, 도 4에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 4에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 도 4에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.Referring to FIG. 4 , the electronic device 1000 may include a processor 1300 , an output unit 1200 , and an A/V input unit 1600 . However, not all of the components shown in FIG. 4 are essential components of the electronic device 1000 . The electronic device 1000 may be implemented by more components than those illustrated in FIG. 4 , or the electronic device 1000 may be implemented by fewer components than those illustrated in FIG. 4 .
예를 들면, 전자 장치(1000)는 도 5에 도시된 바와 같이, 일 실시예에 따른 전자 장치(1000)는, 프로세서(1300), 출력부(1200) 및 A/V 입력부(1600) 이외에 사용자 입력부(1100), 센싱부(1400), 통신부(1500), 출력부(1200) 및 메모리(1700)를 더 포함할 수도 있다.For example, as illustrated in FIG. 5 , the electronic device 1000 according to an exemplary embodiment includes a user other than the processor 1300 , the output unit 1200 , and the A/V input unit 1600 . It may further include an input unit 1100 , a sensing unit 1400 , a communication unit 1500 , an output unit 1200 , and a memory 1700 .
사용자 입력부(1100)는, 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.The user input unit 1100 means a means for a user to input data for controlling the electronic device 1000 . For example, the user input unit 1100 includes a key pad, a dome switch, and a touch pad (contact capacitive method, pressure resistance film method, infrared sensing method, surface ultrasonic conduction method, integral type). There may be a tension measurement method, a piezo effect method, etc.), a jog wheel, a jog switch, and the like, but is not limited thereto.
일 실시 예에 의하면, 사용자 입력부(1100)는, 제스처에 기초하여, 음성 입력을 처리하기 위한 사용자의 다양한 형태의 입력을 수신할 수 있다. 예를 들면, 사용자 입력부(1100)는, 제스처에 기초하여, 음성 입력을 처리하기 위한 사용자의 터치 입력 또는 키 입력을 수신할 수 있다. 상술한 예에 한하지 않고, 사용자 입력부(1100)는 다양한 형태의 사용자 입력을 수신할 수 있다.According to an embodiment, the user input unit 1100 may receive various types of input from a user for processing a voice input based on a gesture. For example, the user input unit 1100 may receive a user's touch input or key input for processing a voice input based on a gesture. Not limited to the above example, the user input unit 1100 may receive various types of user inputs.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.The output unit 1200 may output an audio signal, a video signal, or a vibration signal, and the output unit 1200 may include a display unit 1210 , a sound output unit 1220 , and a vibration motor 1230 . have.
디스플레이부(1210)는 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(1210)는 제스처에 기초하여, 음성 입력을 처리한 결과를 표시할 수 있다.The display unit 1210 displays and outputs information processed by the electronic device 1000 . According to an embodiment, the display 1210 may display a result of processing a voice input based on a gesture.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 전자 장치(1000)의 구현 형태에 따라 전자 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다. On the other hand, when the display unit 1210 and the touch pad form a layer structure to form a touch screen, the display unit 1210 may be used as an input device in addition to an output device. The display unit 1210 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, a three-dimensional display ( 3D display) and electrophoretic display (electrophoretic display) may include at least one. Also, depending on the implementation form of the electronic device 1000 , the electronic device 1000 may include two or more display units 1210 .
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 일 실시 예에 의하면, 음향 출력부(1220)는 제스처에 기초하여, 음성 입력을 처리한 결과를 출력할 수 있다.The sound output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700 . According to an embodiment, the sound output unit 1220 may output a result of processing the voice input based on the gesture.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다. 일 실시 예에 의하면, 진동 모터(1230)는 제스처에 기초하여, 음성 입력을 처리한 결과를 출력할 수 있다.The vibration motor 1230 may output a vibration signal. Also, the vibration motor 1230 may output a vibration signal when a touch is input to the touch screen. According to an embodiment, the vibration motor 1230 may output a result of processing a voice input based on a gesture.
프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. The processor 1300 generally controls the overall operation of the electronic device 1000 . For example, the processor 1300 executes programs stored in the memory 1700 , and thus the user input unit 1100 , the output unit 1200 , the sensing unit 1400 , the communication unit 1500 , and the A/V input unit 1600 . ) can be controlled in general.
전자 장치(1000)는 적어도 하나의 프로세서(1300)를 포함할 수 있다. 예를 들면, 전자 장치(1000)는 CPU(Central Processing Unit), GPU(Graphics Processing Unit), NPU(Neural Processing Unit) 등의 다양한 종류의 프로세서를 포함할 수 있다.The electronic device 1000 may include at least one processor 1300 . For example, the electronic device 1000 may include various types of processors, such as a central processing unit (CPU), a graphics processing unit (GPU), and a neural processing unit (NPU).
프로세서(1300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1700)로부터 프로세서(1300)에 제공되거나, 통신부(1500)를 통해 수신되어 프로세서(1300)로 제공될 수 있다. 예를 들면 프로세서(1300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.The processor 1300 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations. The command may be provided to the processor 1300 from the memory 1700 or may be received through the communication unit 1500 and provided to the processor 1300 . For example, the processor 1300 may be configured to execute instructions according to program codes stored in a recording device such as a memory.
일 실시 예에 의한 프로세서(1300)는 음성 입력 및, 음성 입력과 대응되는 제스처를 획득하고, 제스처가 가리키는 방향에 기초하여, 전자 장치(1000)의 주변 환경을 포함하는 영상을 획득할 수 있다. 또한, 프로세서(1300)는 영상으로부터 음성 입력과 관련된 부가 정보를 추출할 수 있다. 일 실시 예에 의한, 부가 정보는, 음성 입력 처리를 위하여, 영상으로부터 추출될 수 있는 정보로, 예를 들면, 음성 입력과 대응하는 동작이 수행되는 대상(ex. 오브젝트, 일정 범위의 영역)을 명확하게 식별하기 위한 정보를 포함할 수 있다.The processor 1300 according to an embodiment may obtain a voice input and a gesture corresponding to the voice input, and may acquire an image including the surrounding environment of the electronic device 1000 based on a direction indicated by the gesture. Also, the processor 1300 may extract additional information related to the voice input from the image. According to an embodiment, the additional information is information that can be extracted from an image for voice input processing, for example, a target (eg, an object, a region of a certain range) on which an operation corresponding to the voice input is performed. It may include information for unambiguous identification.
일 실시 예에 의한 프로세서(1300)는, 부가 정보에 기초하여, 음성 입력에 의해 전자 장치(1000)로 요청된 동작에 관한 요청 정보를 획득할 수 있다. 일 실시 예에 의한 요청 정보는, 음성 입력이 부정확한 경우에도, 영상으로부터 추출된 정보인 부가 정보에 기초하여 획득됨에 따라서, 동작을 수행하기 위한 명확한 정보를 포함할 수 있다. 일 실시 예에 의한 요청 정보는, 음성 입력과 대응되는 정보로서, 음성 입력에 포함된 정보 중 부정확한 정보가, 영상으로부터 추출된 부가 정보에 기초하여 대체된 명확한 정보를 포함할 수 있다.The processor 1300 according to an embodiment may acquire request information regarding an operation requested by the electronic device 1000 through a voice input, based on the additional information. The request information according to an embodiment may include clear information for performing an operation as it is obtained based on additional information that is information extracted from an image even when the voice input is inaccurate. The request information according to an embodiment, as information corresponding to the voice input, may include clear information in which inaccurate information among information included in the voice input is replaced based on additional information extracted from the image.
일 실시 예에 의한 프로세서(1300)는, 요청 정보에 기초하여, 음성 입력을 처리하기 위한 동작을 수행할 수 있다.The processor 1300 according to an embodiment may perform an operation for processing a voice input based on the request information.
센싱부(1400)는, 전자 장치(1000)의 상태 또는 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다. The sensing unit 1400 may detect a state of the electronic device 1000 or a state around the electronic device 1000 , and transmit the sensed information to the processor 1300 .
센싱부(1400)는, 지자기 센서(Geomagnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. The sensing unit 1400 includes a geomagnetic sensor 1410 , an acceleration sensor 1420 , a temperature/humidity sensor 1430 , an infrared sensor 1440 , a gyroscope sensor 1450 , and a position sensor. (eg, GPS) 1460 , a barometric pressure sensor 1470 , a proximity sensor 1480 , and at least one of an illuminance sensor 1490 , but is not limited thereto.
일 실시 예에 의한 센싱부(1400)는, 다양한 센서에 의해 감지된 정보에 기초하여, 음성 입력과 대응되는 제스처를 획득하는데 이용될 수 있다. The sensing unit 1400 according to an embodiment may be used to acquire a gesture corresponding to a voice input based on information sensed by various sensors.
통신부(1500)는, 전자 장치(1000)가 서버(2000) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다. The communication unit 1500 may include one or more components that allow the electronic device 1000 to communicate with the server 2000 or an external device (not shown). For example, the communication unit 1500 may include a short-range communication unit 1510 , a mobile communication unit 1520 , and a broadcast receiving unit 1530 .
근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. Short-range wireless communication unit 1510, Bluetooth communication unit, BLE (Bluetooth Low Energy) communication unit, short-range wireless communication unit (Near Field Communication unit), WLAN (Wi-Fi) communication unit, Zigbee (Zigbee) communication unit, infrared ( It may include an IrDA, infrared Data Association) communication unit, a Wi-Fi Direct (WFD) communication unit, an ultra wideband (UWB) communication unit, an Ant+ communication unit, and the like, but is not limited thereto.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.The mobile communication unit 1520 transmits/receives a radio signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network. Here, the wireless signal may include various types of data according to transmission/reception of a voice call signal, a video call signal, or a text/multimedia message.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.The broadcast receiver 1530 receives a broadcast signal and/or broadcast-related information from the outside through a broadcast channel. The broadcast channel may include a satellite channel and a terrestrial channel. According to an embodiment, the electronic device 1000 may not include the broadcast receiver 1530 .
일 실시 예에 의한, 통신부(1500)는 제스처에 기초하여 음성 입력을 처리하는데 필요한 다양한 데이터를 송수신할 수 있다. 예를 들어, 외부 장치(미도시)에 의해 음성 입력과 대응되는 제스처가 입력되는 경우, 통신부(1500)는 외부 장치(미도시)로부터 제스처 입력을 수신할 수 있다.According to an embodiment, the communication unit 1500 may transmit/receive various data required to process a voice input based on a gesture. For example, when a gesture corresponding to a voice input is input by an external device (not shown), the communication unit 1500 may receive the gesture input from an external device (not shown).
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다. The A/V (Audio/Video) input unit 1600 is for inputting an audio signal or a video signal, and may include a camera 1610 , a microphone 1620 , and the like. The camera 1610 may obtain an image frame such as a still image or a moving image through an image sensor in a video call mode or a shooting mode. The image captured through the image sensor may be processed through the processor 1300 or a separate image processing unit (not shown).
일 실시 예에 의한 카메라(1610)는 음성 입력과 대응되는 제스처를 포함하는 영상을 촬영할 수 있다. 일 실시 예에 의하면, 카메라(1610)에 의해 촬영된 영상에 기초하여, 음성 입력과 대응되는 제스처가 획득될 수 있다.The camera 1610 according to an embodiment may capture an image including a gesture corresponding to a voice input. According to an embodiment, a gesture corresponding to a voice input may be acquired based on an image captured by the camera 1610 .
또한, 일 실시 예에 의한 카메라(1610)는, 제스처가 가리키는 방향에 기초하여, 전자 장치(1000)의 주변 환경을 포함하는 영상을 촬영할 수 있다.Also, the camera 1610 according to an embodiment may capture an image including the surrounding environment of the electronic device 1000 based on the direction indicated by the gesture.
일 실시 예에 의한 마이크로폰(1620)은 사용자의 음성 입력을 수신할 수 있다. 일 실시 예에 의하면, 마이크로폰(1620)에 의해 사용자의 음성 입력이 감지됨에 따라서, 카메라(1610)에 의해 음성 입력과 대응되는 제스처를 포함하는 영상과, 제스처가 가리키는 방향에 기초하여, 전자 장치(1000)의 주변 환경을 포함하는 영상 중 적어도 하나의 영상이 촬영될 수 있다. 마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. The microphone 1620 according to an embodiment may receive a user's voice input. According to an embodiment, as the user's voice input is detected by the microphone 1620 , based on the image including the gesture corresponding to the voice input by the camera 1610 and the direction the gesture points, the electronic device ( 1000), at least one of the images including the surrounding environment may be captured. The microphone 1620 receives an external sound signal and processes it as electrical voice data.
일 실시 예에 의한 음성 입력, 제스처를 포함하는 영상 및 전자 장치(1000)의 주변 환경을 포함하는 영상 중 적어도 하나는, 전자 장치(1000)의 A/V 입력부(1600)에 의해 획득될 수 있으나, 이에 한하지 않고, 외부 장치(미도시)에 의해 획득되어, 통신부(1500)를 통해 수신될 수도 있다.At least one of a voice input, an image including a gesture, and an image including the surrounding environment of the electronic device 1000 according to an embodiment may be acquired by the A/V input unit 1600 of the electronic device 1000 . , is not limited thereto, and may be obtained by an external device (not shown) and received through the communication unit 1500 .
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. The memory 1700 may store a program for processing and control of the processor 1300 , and may also store data input to or output from the electronic device 1000 .
일 실시 예에 의한 메모리(1700)는 제스처에 기초하여, 음성 입력을 처리하는데 필요한 데이터를 저장할 수 있다. 예를 들면, 메모리(1700)는, 영상으로부터 음성 입력과 관련된 부가 정보를 추출하고, 부가 정보에 기초하여, 요청 정보를 획득하기 위하여, 미리 학습된 인공지능 모델을 저장할 수 있다.The memory 1700 according to an embodiment may store data required to process a voice input based on a gesture. For example, the memory 1700 may store a pre-trained AI model in order to extract additional information related to a voice input from an image and obtain requested information based on the additional information.
일 실시 예에 의한 부가 정보를 추출하기 위한 인공지능 모델은, 영상으로부터 오브젝트 또는 일정 범위의 영역을 식별하고, 식별된 오브젝트 또는 일정 범위의 영역에 대한 위치 정보(ex. 좌표 값)를 획득함으로써, 부가 정보를 획득하는데 이용될 수 있다.The artificial intelligence model for extracting additional information according to an embodiment identifies an object or a region of a certain range from an image, and obtains location information (eg, coordinate values) for the identified object or a region of a certain range, It can be used to obtain additional information.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. The memory 1700 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM. (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , may include at least one type of storage medium among optical disks.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다. Programs stored in the memory 1700 may be classified into a plurality of modules according to their functions, for example, may be classified into a UI module 1710 , a touch screen module 1720 , a notification module 1730 , and the like. .
UI 모듈(1710)은, 애플리케이션 별로 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.The UI module 1710 may provide a specialized UI, GUI, or the like that interworks with the electronic device 1000 for each application. The touch screen module 1720 may detect a touch gesture on the user's touch screen and transmit information about the touch gesture to the processor 1300 . The touch screen module 1720 according to some embodiments may recognize and analyze a touch code. The touch screen module 1720 may be configured as separate hardware including a controller.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.Various sensors may be provided inside or near the touch screen to detect a touch or a proximity touch of the touch screen. A tactile sensor is an example of a sensor for detecting a touch of a touch screen. A tactile sensor refers to a sensor that senses a touch of a specific object to the extent or higher than that felt by a human. The tactile sensor may sense various information such as the roughness of the contact surface, the hardness of the contact object, and the temperature of the contact point.
사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.The user's touch gesture may include a tap, touch & hold, double tap, drag, pan, flick, drag and drop, swipe, and the like.
알림 모듈(1730)은 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.The notification module 1730 may generate a signal for notifying the occurrence of an event in the electronic device 1000 .
도 6은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리하는 방법을 나타낸 순서도이다.6 is a flowchart illustrating a method of processing a voice input based on a gesture according to an embodiment.
도 6을 참조하면, 단계 610에서, 일 실시 예에 의한 전자 장치(1000)는, 음성 입력 및 음성 입력과 대응되는 제스처를 획득할 수 있다. 일 실시 예에 의한 제스처는, 음성 입력을 발화하는 사용자에 의한 움직임에 기초하여 획득될 수 있다.Referring to FIG. 6 , in operation 610 , the electronic device 1000 according to an embodiment may acquire a voice input and a gesture corresponding to the voice input. A gesture according to an embodiment may be acquired based on a movement by a user who utters a voice input.
일 실시 예에 의한 제스처는, 사용자의 여러 신체 부위의 움직임뿐만 아니라, 사용자의 시선, 자세, 등 다양한 형태의 움직임에 기초하여, 획득될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보가 불명확한 경우에도, 제스처를 이용하여, 추가적인 정보를 획득함으로써, 사용자의 의도에 맞는 동작을 수행할 수 있다.A gesture according to an embodiment may be obtained based on various types of movements such as the user's gaze and posture as well as movements of various body parts of the user. Even when information included in the voice input is unclear, the electronic device 1000 according to an embodiment obtains additional information by using a gesture to perform an operation according to the user's intention.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력이 감지됨에 따라서, 음성 입력과 대응되는 제스처를 획득하기 위해, 사용자의 제스처를 포함한 영상을 촬영함으로써, 제스처를 획득할 수 있다. 상술한 예에 한하지 않고, 전자 장치(1000)는, 영상 촬영 이외 다양한 방법에 따라서, 사용자의 제스처를 획득할 수 있다.The electronic device 1000 according to an embodiment may acquire a gesture by photographing an image including the user's gesture in order to acquire a gesture corresponding to the voice input as the voice input is detected. Without being limited to the above-described example, the electronic device 1000 may acquire the user's gesture according to various methods other than image capturing.
단계 620에서, 일 실시 예에 의한 전자 장치(1000)는, 제스처의 방향에 기초하여, 주변 환경을 포함하는 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 제스처가 가리키는 방향에 따라, 음성 입력과 관련된 공간을 식별하고, 음성 입력과 관련된 공간을 포함하도록, 영상을 촬영할 수 있다. In operation 620, the electronic device 1000 according to an embodiment may acquire an image including the surrounding environment based on the direction of the gesture. The electronic device 1000 according to an embodiment may identify a space related to a voice input according to a direction indicated by a gesture and capture an image to include a space related to the voice input.
단계 630에서, 일 실시 예에 의한 전자 장치(1000)는, 단계 620에서 촬영된 영상으로부터 음성 입력과 관련된 부가 정보를 추출할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 대해 음성 인식을 수행함으로써, 음성 입력과 대응되는 적어도 하나의 텍스트를 획득하고, 획득된 텍스트 중에서, 모호한 정보를 나타내는 텍스트를 판단할 수 있다. 일 실시 예에 의한 부가 정보는, 음성 입력에 포함된 모호한 정보를 명확히 하는데 이용될 수 있는 다양한 종류의 정보를 포함할 수 있다.In operation 630 , the electronic device 1000 according to an embodiment may extract additional information related to a voice input from the image captured in operation 620 . The electronic device 1000 according to an embodiment may acquire at least one text corresponding to the voice input by performing voice recognition on the voice input, and determine a text representing ambiguous information from among the acquired texts. . The additional information according to an embodiment may include various types of information that may be used to clarify ambiguous information included in the voice input.
예를 들어, 음성 입력에 포함된 정보 중, 동작이 수행되는 대상이 "이것(this)" 또는 "저곳"과 같이 모호한 경우, 전자 장치(1000)는, 영상으로부터 동작이 수행되는 대상으로 판단되는 오브젝트 또는 영역을 결정하고, 결정된 오브젝트 또는 영역과 대응되는 식별 정보 및 위치 정보 중 적어도 하나를 부가 정보로서 추출할 수 있다.For example, when a target on which an operation is performed among information included in the voice input is ambiguous, such as “this” or “there”, the electronic device 1000 determines from the image as a target on which the operation is performed. An object or region may be determined, and at least one of identification information and location information corresponding to the determined object or region may be extracted as additional information.
단계 640에서, 일 실시 예에 의한 전자 장치(1000)는, 단계 630에서 추출된 부가 정보에 기초하여, 모호한 정보가 명확한 정보로 대체된 요청 정보를 획득할 수 있다. 예를 들어, 음성 입력과 대응되는 텍스트 중에서, "저곳"이 부가 정보에 포함된 정보인, "(저곳과 대응되는 위치 정보)"로 대체된, 요청 정보가 획득될 수 있다. 일 실시 예에 의한 요청 정보는, 음성 입력에 의해 전자 장치(1000)로 요청된 동작에 관한 정보를 포함할 수 있다. In operation 640 , the electronic device 1000 according to an embodiment may acquire requested information in which ambiguous information is replaced with clear information, based on the additional information extracted in operation 630 . For example, from the text corresponding to the voice input, request information in which “there” is replaced by “(location information corresponding to that)”, which is information included in the additional information, may be obtained. The request information according to an embodiment may include information about an operation requested by the electronic device 1000 by a voice input.
따라서, 단계 650에서, 전자 장치(1000)는, 명확한 정보를 포함하는, 요청 정보에 기초하여, 음성 입력을 처리할 수 있다. 일 실시 예에 의한 요청 정보는, 모호한 정보가 사용자의 의도를 나타내는 제스처에 기초하여, 명확한 정보로 대체된 정보를 포함할 수 있다. 따라서, 일 실시 예에 의한 전자 장치(1000)는, 요청 정보에 기초하여, 사용자의 의도에 맞게 동작을 수행함으로써, 음성 입력을 처리할 수 있다.Accordingly, in operation 650 , the electronic device 1000 may process the voice input based on the request information including clear information. The request information according to an embodiment may include information in which ambiguous information is replaced with clear information based on a gesture indicating the user's intention. Accordingly, the electronic device 1000 according to an embodiment may process the voice input by performing an operation according to the user's intention based on the request information.
도 7은 일 실시 예에 의한 제스처에 기초하여, 영상으로부터 요청 정보를 획득하는 일 예를 나타낸다.7 illustrates an example of obtaining request information from an image based on a gesture according to an embodiment.
도 7을 참조하면, 사용자의 제스처(710, 720, 730, 740)에 따라 획득된 영상에 기초하여, 음성 입력과 대응되는 요청 정보가 획득될 수 있다.Referring to FIG. 7 , request information corresponding to a voice input may be obtained based on an image obtained according to a user's gestures 710 , 720 , 730 , and 740 .
일 실시 예에 의하면, 사용자의 제스처(710)의 방향에 따라, 영상 중 711의 영역과 대응되는 영상이 획득될 수 있다. 음성 입력이 "이것이 무슨 색이지?(What color is it?)"인 경우, 음성 입력의 텍스트 중 "이것(it)"이 무엇인지 명확하지 않으므로, 711의 영상에 기초하여, "이것(it)"에 관한 식별 정보가 부가 정보로서 획득될 수 있다. "이것(it)"은, 상대적으로 근거리의 물체를 가리키는 표현이므로, 711의 영상에 포함된 오브젝트들 중, 상대적으로 가까운 "빨간 토마토"와 대응되는 식별 정보를 포함한 부가 정보에 기초하여, 요청 정보가 획득될 수 있다.According to an embodiment, according to the direction of the user's gesture 710, an image corresponding to the region 711 of the image may be acquired. When the voice input is "What color is it?", it is not clear what "it" is in the text of the voice input, so based on the image of 711, "this (it)" Identification information about " can be obtained as additional information. Since "it" is an expression indicating a relatively short distance object, based on additional information including identification information corresponding to a relatively close "red tomato" among the objects included in the image of 711, request information can be obtained.
또한, 일 실시 예에 의한 음성 입력이 "저것이 무슨 색이지?(What color is it?)"인 경우, 음성 입력의 텍스트 중 "저것(that)"이 무엇인지 명확하지 않으므로, "저것(that)"이 711의 영상에 기초하여 "저것(that)"에 관한 식별 정보가 부가 정보로서 획득될 수 있다. "저것(that)"은 상대적으로 원거리의 물체를 가리키는 표현이므로, 711의 영상에 포함된 오브젝트들 중, 상대적으로 먼거리에 위치한 "노란 토마토"와 대응되는 식별 정보를 포함한 부가 정보에 기초하여, 요청 정보가 획득될 수 있다.Also, when the voice input according to an embodiment is “What color is it?”, it is not clear what “that” is in the text of the voice input, so “that (that)” )" based on the image of 711, identification information about "that" may be obtained as additional information. Since "that" is an expression indicating a relatively distant object, based on additional information including identification information corresponding to a relatively distant "yellow tomato" among the objects included in the image of 711, the request Information may be obtained.
일 실시 예에 의하면, 각각의 제스처(720, 730, 740)의 방향에 따라, 영상 중 721, 731, 741의 영역과 각각 대응되는 영상이 획득될 수 있다. 음성 입력이 "그녀는 손에 얼마나 쥐고 있나?(How many she holds?)"인 경우, 음성 입력의 텍스트 중 "그녀(she)"가 무엇인지 명확하지 않으므로, 각각의 제스처가 가리키는 영역에 따라서, 음성 입력의 "그녀(she)"가 721, 731, 또는 741의 영상에 기초하여, "그녀(she)"에 관한 식별 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 제스처(720, 730, 740)에 대응하는 음성 입력의 "그녀(she)"는 각각 차례대로, 왼쪽에서 두번째, 세번째 및 네번째의 여자 아이를 나타내는 식별 정보를 포함한 부가 정보에 기초하여, 요청 정보가 획득될 수 있다.According to an embodiment, images corresponding to regions 721 , 731 , and 741 of the images may be acquired according to the directions of each of the gestures 720 , 730 , and 740 . If the voice input is "How many she holds?", it's not clear what "she" is in the text of the voice input, so depending on the area each gesture points to, Based on the image of 721, 731, or 741 of "she" of the voice input, identification information about "she" may be obtained as additional information. According to an embodiment, "she" of the voice input corresponding to the gestures 720, 730, and 740 is added to additional information including identification information indicating the second, third, and fourth girls from the left, respectively. Based on the request information may be obtained.
도 8은 일 실시 예에 의한 제스처에 기초하여 주변 환경을 포함하는 영상을 획득하는 일 예를 나타내는 도면이다.8 is a diagram illustrating an example of acquiring an image including a surrounding environment based on a gesture according to an embodiment.
도 8을 참조하면, 810, 820 및 830에서, 각각의 제스처가 가리키는 방향에 존재하는 공간이 포함되도록 영상이 촬영될 수 있다. Referring to FIG. 8 , at 810 , 820 , and 830 , an image may be captured to include a space existing in a direction indicated by each gesture.
810에서, 음성 입력으로, "이것은 뭐지?(What is this?)", "이건 램프야, 화분이야?(Is it a lamp or a plant?)", "이거 스위치가 켜져있나?(Is it switch on/off?)" 등이 음성 입력으로 수신될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "이것(this, it)"이 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "이것(this, it)"과 대응될 수 있는 오브젝트(811)의 식별 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "이것(this, it)"이 오브젝트(811)의 식별 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.At 810, by voice input, "What is this?", "Is it a lamp or a plant?", "Is it switched on?" on/off?)" may be received as a voice input. The electronic device 1000 according to an embodiment, as it is not clear what “this, it” is among the information included in the voice input, from the image captured by the surrounding environment, “this, it)" and identification information of the object 811 that may correspond to it may be obtained as additional information. According to an embodiment, request information in which “this, it” of the voice input is replaced with identification information of the object 811 is obtained, based on the additional information, so that the voice input may be processed.
820에서, 음성 입력으로, "얼마나 많은 사람이 여기 있지?(How many people is here?)", "이 사람들은 남자인가?(These people are men?)", "이 사람들은 뭘 하고 있지?(What these people doing?)" 등이 음성 입력으로 수신될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중 "여기(here)"과 "이 사람들(these people)"가 무엇인지 명확하지 않음에 따라서, 주변 환경이 촬영된 영상으로부터, "여기(here)"와 대응되는 영상의 영역을 나타내는 식별 정보와, "이 사람들(these people)"와 대응되는 오브젝트들(821, 822)의 식별 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "여기(here)"과 "이 사람들(these people)"가 각각 영상 영역의 식별 정보와 오브젝트들(821, 822)의 식별 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.At 820, by voice input, "How many people is here?", "These people are men?", "What are these people doing? ( What these people doing?)" may be received as a voice input. The electronic device 1000 according to an exemplary embodiment, as it is not clear what “here” and “these people” are among the information included in the voice input, the surrounding environment is obtained from the captured image. , identification information indicating a region of the image corresponding to “here” and identification information of objects 821 and 822 corresponding to “these people” may be obtained as additional information. According to an embodiment, based on the additional information, "here" and "these people" of the voice input are replaced with identification information of the image area and identification information of objects 821 and 822, respectively. By obtaining the requested information, the voice input can be processed.
820에서, 음성 입력으로, "그는 어디에 앉아있지?(Where is he sitting?)", "그녀의 가방은 어디있지?(Where is she's bag?)" 등이 음성 입력으로 수신될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "그(he)"와 "그녀(she)"이 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "그(he)" 및 "그녀(she)"와 각각 대응될 수 있는 822 및 821의 오브젝트들에 대한 식별 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "그(he)" 및 "그녀(she)"가 822 및 821의 오브젝트들을 나타내는 식별 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.At 820 , as a voice input, "Where is he sitting?", "Where is she's bag?", etc. may be received as a voice input. In the electronic device 1000 according to an embodiment, as it is not clear what “he” and “she” are among the information included in the voice input, from the image captured by the surrounding environment, Identification information for objects 822 and 821 that may correspond to “he” and “she”, respectively, may be obtained as additional information. According to an embodiment, based on the additional information, request information is obtained, in which "he" and "she" of the voice input are replaced with identification information indicating objects of 822 and 821, so that the voice input This can be processed.
830에서, 음성 입력으로, "이 사람들은 부모인가?(These people are parents?)" 및 "이 사람들은 바쁜가?(Is they are busy?)" 등이 음성 입력으로 수신될 수 있다. 일 실시 예에 의하면, 주변 환경 영상은, 제스처의 방향에 따라 841 및 842의 오브젝트가 포함되도록 촬영될 수 있다. At 830 , as a voice input, “These people are parents?” and “Is they busy?” may be received as a voice input. According to an embodiment, the surrounding environment image may be captured to include objects 841 and 842 according to the direction of the gesture.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "이 사람들(these, they)"가 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "이 사람들(these, they)"와 대응될 수 있는 831 및 832의 오브젝트에 대한 식별 정보가 부가 정보로서 획득될 수 있다. 다만, 제스처의 방향에 따라서, 부가 정보의 획득에서, 843의 오브젝트는 제외될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "이 사람들(these, they)"가 831 및 832의 오브젝트들을 나타내는 식별 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.The electronic device 1000 according to an embodiment, as it is not clear what “these, they” are among the information included in the voice input, from the image captured by the surrounding environment, “these people ( Identification information on objects 831 and 832 that may correspond to "these, they)" may be obtained as additional information. However, depending on the direction of the gesture, the object 843 may be excluded from the acquisition of the additional information. According to an embodiment, based on the additional information, request information in which “these, they” of the voice input is replaced with identification information indicating objects of 831 and 832 is obtained, so that the voice input can be processed. have.
도 9는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리하는 일 예를 나타낸 도면이다.9 is a diagram illustrating an example of processing a voice input based on a gesture according to an embodiment.
도 9를 참조하면, 910에서, 사용자의 제스처가 이동하면서 입력됨에 따라, 주변 환경 영상이, 이동하는 제스처가 각각 가리키는 방향의 공간을 포함하도록, 촬영될 수 있다.Referring to FIG. 9 , in 910 , as a user's gesture is input while moving, an image of the surrounding environment may be captured to include a space in a direction indicated by the moving gesture.
일 실시 예에 의하면, 음성 입력으로 "여기 청소해(Clean here)"가 수신되었을 때, 음성 입력과 대응되는 제스처가 가리키는 방향에 따라서, 911의 공간을 포함하는 주변 환경 영상이 촬영될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "여기(here)"가 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "여기(here)"와 대응될 수 있는 911 공간에 대한 위치 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "여기(here)"가 911 공간에 대한 위치 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.According to an embodiment, when "Clean here" is received as a voice input, an image of the surrounding environment including the space of 911 may be captured according to a direction indicated by a gesture corresponding to the voice input. In the electronic device 1000 according to an embodiment, since it is not clear what “here” is among the information included in the voice input, “here” and “here” and “here” from the captured image Location information on a corresponding 911 space may be obtained as additional information. According to an embodiment, the voice input may be processed by obtaining request information in which "here" of the voice input is replaced with location information for the 911 space based on the additional information.
또한, 일 실시 예에 의하면, 제스처가 이동하면서, 음성 입력으로 "여기는?(Here?)"가 수신되었을 때, 음성 입력과 대응되는 제스처가 각각 가리키는 방향에 따라서, 912 및 913의 공간을 포함하는 주변 환경 영상이 촬영될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "여기는?(Here?)"가 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "여기는?(Here?)"와 대응될 수 있는 912 및 913 공간에 대한 위치 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "여기는?(Here?)"가 912 및 913 공간에 대한 위치 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.In addition, according to an embodiment, when "Here?" is received as a voice input while the gesture is moving, spaces 912 and 913 are included according to the direction in which the gesture corresponding to the voice input points, respectively. An image of the surrounding environment may be captured. The electronic device 1000 according to an embodiment, as it is not clear what “Here?” is among the information included in the voice input, from the image captured by the surrounding environment, “Here? (Here?)” ?)" and location information for spaces 912 and 913 may be obtained as additional information. According to an embodiment, based on the additional information, request information in which “Here?” of the voice input is replaced with location information for spaces 912 and 913 is obtained, so that the voice input may be processed.
일 실시 예에 의하면, 920에서, 사용자의 제스처에 따라서, 주변 환경 영상으로부터 부가 정보가 획득될 수 있다. 음성 입력으로 "볼륨을 이정도로?(Volume like that?)"이 수신된 경우, 제스처가 가리키는 방향에 따라 오브젝트(920)를 포함하는 주변 환경 영상이 촬영될 수 있다. According to an embodiment, in 920 , additional information may be acquired from the surrounding environment image according to the user's gesture. When "Volume like that?" is received as a voice input, an image of the surrounding environment including the object 920 may be captured according to the direction indicated by the gesture.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "이정도(that)"이 무엇인지 명확하지 않음에 따라, "이정도(that)"과 관련된 대상으로서, 주변 환경이 촬영된 영상에 포함된 오브젝트(920)에 관한 식별 정보(ex. 거실TV)가, 부가 정보로서 획득될 수 있다. In the electronic device 1000 according to an embodiment, as it is not clear what “that” is among the information included in the voice input, as an object related to “that”, the surrounding environment is photographed. Identification information (eg, living room TV) on the object 920 included in the image may be obtained as additional information.
일 실시 예에 의하면, 부가 정보에 기초하여, "이정도(that)"이 오브젝트(920)에 대해 수행될 수 있는 동작과 관련된 정보를 나타내는 것으로 판단될 수 있다. 예를 들면, 미리 설정된 화살표 방향으로 손가락을 움직이는 제스처에 대응되는 동작에 따라서, 920의 제스처는 음량 크기를 조절하는 동작인 것으로 판단될 수 있다. 따라서, "이정도(that)"이 제스처와 대응되는 음량 크기를 나타내는 값으로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.According to an embodiment, based on the additional information, it may be determined that “that” represents information related to an operation that can be performed on the object 920 . For example, according to an operation corresponding to a gesture of moving a finger in a preset arrow direction, it may be determined that the gesture of 920 is an operation of adjusting the volume level. Accordingly, by obtaining the requested information, in which "that" is replaced with a value indicating the volume level corresponding to the gesture, the voice input can be processed.
일 실시 예에 의하면, 930에서, 사용자의 제스처에 따라서, 주변 환경 영상으로부터 부가 정보가 획득될 수 있다. 음성 입력으로 "이런 피자 주문해(Order that pizza?)"가 수신된 경우, 제스처가 가리키는 방향에 따라 오브젝트(931)를 포함하는 주변 환경 영상이 촬영될 수 있다. According to an embodiment, in 930 , additional information may be acquired from the surrounding environment image according to the user's gesture. When "Order that pizza?" is received as a voice input, an image of the surrounding environment including the object 931 may be captured according to the direction indicated by the gesture.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "이런(that)"이 무엇인지 명확하지 않음에 따라, "이런(that)"과 관련된 대상으로서, 주변 환경이 촬영된 영상에 포함된 오브젝트(931)에 관한 식별 정보가, 부가 정보로서 획득될 수 있다. In the electronic device 1000 according to an embodiment, as it is not clear what “that” is among the information included in the voice input, as an object related to “that”, the surrounding environment is photographed. Identification information about the object 931 included in the image may be obtained as additional information.
일 실시 예에 의하면, 부가 정보에 기초하여, "이런(that)"이 오브젝트(931)에 대하여, 수행될 수 있는 동작과 관련된 정보를 나타내는 것으로 판단될 수 있다. 예를 들면, 미리 설정된 화살표 방향으로 손을 움직이는 제스처에 대응되는 동작에 따라서, 930의 제스처는 피자를 나타내는 것으로 판단될 수 있다. 따라서, "이런(that)"이 제스처와 대응되는 "피자"로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.According to an embodiment, based on the additional information, it may be determined that “that” represents information related to an operation that may be performed with respect to the object 931 . For example, according to an operation corresponding to a gesture of moving a hand in a preset arrow direction, it may be determined that the gesture of 930 represents pizza. Accordingly, by obtaining the requested information in which "that" is replaced with "pizza" corresponding to the gesture, the voice input can be processed.
도 10은 일 실시 예에 의한 제스처의 일 예를 나타낸 도면이다.10 is a diagram illustrating an example of a gesture according to an embodiment.
도 10을 참조하면, 적어도 하나의 제스처에 대해 음성 입력 중 미리 설정된 텍스트와 대응되도록 미리 설정 수 있다. 예를 들어, 일 실시 예에 의한 제스처는 아래 표 1과 같은 텍스트들로 미리 설정될 수 있다.Referring to FIG. 10 , at least one gesture may be preset to correspond to preset text among voice input. For example, a gesture according to an embodiment may be preset as texts shown in Table 1 below.
전치 한정사prepositional qualifiers 지시대명사referent pronoun 소유대명사possessive pronoun 수량사quantifier
모두(all, all of), 반(half), 둘다(both), 두개(double, twice), 꽤(quite), 보다(rather), 이런(such), 어떤(what) 등all, all of, half, both, double, twice, quite, more, such, what, etc. 이것(this, these, that, those)this, these, that, those 나의(my), 우리의(our), 너의(your), 그의(his), 그녀의(her), 그것의(its), 그들의(their)my (my), our (our), your (your), his (his), her (her), its (its), their 많은(much), 적은(some), 없음(no), 어떤(any), 많이(many), 충분(enough), 몇몇의(several), 많은(lot of, plenty of), 적은(little, few), 모두(all), 둘다(both), 다른(another), 등many, some, no, any, many, enough, several, lot of, plenty of, little, few ), all, both, another, etc.
1010 내지 1040은, 모두 손으로 어떤 대상을 포인팅하는 제스처로서, 음성 입력에 포함된 텍스트 중에서, 표 1의 전치 한정사, 지시 대명사 및 소유 대명사에 해당되는 텍스트와 대응되는 제스처로 미리 설정될 수 있다. 따라서, 1010 내지 1040의 제스처들은 전치 한정사, 지시 대명사 및 소유 대명사로 표현될 수 있는, 대상을 가리키기 위한 제스처로서 이용될 수 있다. All of the gestures 1010 to 1040 are gestures for pointing a certain object with a hand, and among texts included in the voice input, may be preset as gestures corresponding to texts corresponding to the prepositional qualifiers, referential pronouns, and possessive pronouns of Table 1 . Accordingly, the gestures 1010 to 1040 may be used as gestures for pointing to an object, which may be expressed as prepositional qualifiers, referential pronouns, and possessive pronouns.
1050 및 1060은, 각각 고개의 방향 및 시선의 방향으로서 표현될 수 있는 제스처로서, 1010 내지 1040과 마찬가지로, 표 1의 전치 한정사, 지시 대명사 및 소유 대명사에 해당되는 텍스트와 대응되는 제스처로 미리 설정될 수 있다. 따라서, 1050 및 1060의 제스처들은 전치 한정사, 지시 대명사 및 소유 대명사로 표현될 수 있는, 대상을 가리키기 위한 제스처로서 이용될 수 있다.1050 and 1060 are gestures that can be expressed as the direction of the head and the direction of the gaze, respectively, and, like 1010 to 1040, the text corresponding to the prepositional qualifiers, referential pronouns and possessive pronouns in Table 1 and corresponding gestures to be preset. can Accordingly, the gestures of 1050 and 1060 may be used as gestures to point to an object, which may be expressed as prepositional qualifiers, referential pronouns, and possessive pronouns.
1070 내지 1080은, 화살표 방향에 따라 손이 이동함으로써 표현될 수 있는 제스처로서, 표 1의 수량사에 해당되는 텍스트와 대응되는 제스처로 미리 설정될 수 있다. 따라서, 1070 내지 1080의 제스처들은 수량을 나타내기 위한 제스처로서 이용될 수 있다.1070 to 1080 are gestures that can be expressed by moving the hand in the direction of the arrow, and may be preset as gestures corresponding to texts corresponding to quantifiers in Table 1. Accordingly, gestures of 1070 to 1080 may be used as gestures for indicating a quantity.
도 11은 일 실시 예에 의한 영상으로부터 음성 입력과 대응되는 요청 정보를 획득하는 일 예를 나타낸 도면이다.11 is a diagram illustrating an example of obtaining request information corresponding to a voice input from an image according to an embodiment.
도 11을 참조하면, 1110에서, 일 실시 예에 의한 전자 장치(1000)는, 영상으로부터 추출된 정보에 기초하여, 음성 입력과 대응되는 적어도 하나의 텍스트를 대체함으로써, 요청 정보를 획득할 수 있다.Referring to FIG. 11 , in 1110 , the electronic device 1000 according to an embodiment may obtain request information by substituting at least one text corresponding to a voice input based on information extracted from an image. .
일 실시 예에 의한 전자 장치(1000)는, 음성 입력과 대응되는 적어도 하나의 텍스트인, "어린이가 어디에 앉아 있지?(Where is the child sitting?)" 중에서, 영상에 기초하여, 대체할 텍스트 부분인 "어린이(child)"(1114)를 검출할 수 있다. 예를 들면, 적어도 하나의 텍스트 중에서, 음성 입력과 대응되는 동작이 수행될 대상을 나타내는 텍스트가, 영상에 기초하여 대체될 텍스트 부분으로 검출될 수 있다. 상술한 예에 한하지 않고, 다양한 기준 및 방법에 따라서, 영상에 기초하여 대체될 텍스트 부분이 검출될 수 있다.The electronic device 1000 according to an embodiment of the present disclosure may provide a text portion to be replaced based on an image among at least one text corresponding to the voice input, “Where is the child sitting?” "child" 1114 can be detected. For example, a text indicating a target on which an operation corresponding to a voice input is to be performed among at least one text may be detected as a text portion to be replaced based on the image. The text portion to be replaced may be detected based on the image, not limited to the above-described example, and according to various criteria and methods.
일 실시 예에 의한 전자 장치(1000)는 영상에서 적어도 하나의 오브젝트(1111, 1112, 1113)를 검출할 수 있다. 또한, 전자 장치(1000)는 검출된 각각의 오브젝트(1111, 1112, 1113)에 대한 특징을 분석한 결과 및 제스처가 가리키는 방향 중 적어도 하나에 기초하여, "어린이(child)"(1114)와 대응되는 오브젝트(1111)를 결정할 수 있다. The electronic device 1000 according to an embodiment may detect at least one object 1111 , 1112 , and 1113 from an image. Also, the electronic device 1000 corresponds to the “child” 1114 based on at least one of a result of analyzing the characteristics of each detected object 1111 , 1112 , and 1113 and a direction indicated by the gesture. It is possible to determine the object 1111 to be
1120에서, 전자 장치(1000)는, "어린이(child)"(1114)와 대응되는 오브젝트(1111)에 기초하여, "어린이(child)"(1114)를 오브젝트(1111)와 대응되는 정보를 가지는 "그(he)"(1121)로 대체함으로써, 요청 정보를 획득할 수 있다. 일 실시 예에 의하면 전자 장치(1000)는 텍스트에 대한 처리가 용이하도록, "어린이(child)"(1114)를 더 간단한 표현인 "그(he)"(1121)로 대체할 수 있다. 상술한 예에 한하지 않고, 오브젝트(1111)와 대응되는 텍스트는, 오브젝트(1111)에 기초하여 다양한 표현으로 대체될 수 있다.In operation 1120 , the electronic device 1000 sets a “child” 1114 having information corresponding to the object 1111 based on the object 1111 corresponding to the “child” 1114 . By substituting "he" 1121, the requested information can be obtained. According to an embodiment, the electronic device 1000 may replace “child” 1114 with a simpler expression “he” 1121 to facilitate text processing. The above-described example is not limited, and text corresponding to the object 1111 may be replaced with various expressions based on the object 1111 .
따라서, 일 실시 예에 의한 요청 정보는, 적어도 하나의 텍스트뿐만 아니라, 영상에서, 텍스트와 대응되는 오브젝트(1111)의 영역에 관한 정보를 더 포함할 수 있다. Accordingly, the request information according to an embodiment may further include information about an area of the object 1111 corresponding to the text in the image as well as at least one text.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력과 대응되는 요청 정보에 기초하여, 영상으로부터 추출된 특징을 분석함으로써, 음성 입력을 처리할 수 있다.The electronic device 1000 according to an embodiment may process a voice input by analyzing a feature extracted from an image based on request information corresponding to the voice input.
도 12는 제스처에 기초하여 음성 입력을 처리하는 일 예를 나타낸 도면이다.12 is a diagram illustrating an example of processing a voice input based on a gesture.
도 12를 참조하면, 일 실시 예에 의한 전자 장치(1000)는, 주변 환경을 포함하는 적어도 하나의 영상(1202)과, 음성 입력과 대응되는 텍스트를 포함하는 요청 정보(1201), 및 제스처(1203)에 관한 정보에 기초하여, 음성 입력을 처리하는 동작을 수행할 수 있다.Referring to FIG. 12 , the electronic device 1000 according to an embodiment includes at least one image 1202 including a surrounding environment, request information 1201 including text corresponding to a voice input, and a gesture ( 1203), an operation of processing a voice input may be performed.
일 실시 예에 의한 전자 장치(1000)는, 주변 환경을 포함하는 영상을 이용하여, 상기 음성 입력을 처리하는 동작을 수행할 수 있다. 다만, 일 실시 예에 의한 전자 장치(1000)는, 상기 음성 입력을 처리하는데 필요한 정보를 더 획득하기 위해서, 상기 영상과는 다른 장면을 포함하는, 전자 장치(1000)의 주변 환경을 포함한 영상을, 추가적으로 획득할 수 있다. 따라서, 일 실시 예에 의한 전자 장치(1000)는, 제스처에 따라 획득된 영상뿐만 아니라, 상기 영상과는 다른 장면을 포함하는, 추가적으로 획득된 영상을 더 이용하여, 음성 입력을 처리하는 동작을 수행할 수 있다. The electronic device 1000 according to an embodiment may perform an operation of processing the voice input by using an image including the surrounding environment. However, the electronic device 1000 according to an embodiment may display an image including the surrounding environment of the electronic device 1000 including a scene different from the image in order to further acquire information necessary to process the voice input. , can be obtained additionally. Accordingly, the electronic device 1000 according to an embodiment performs an operation of processing the voice input by further using an additionally acquired image including a scene different from the image as well as the image acquired according to the gesture. can do.
일 실시 예에 의한 전자 장치(1000)는 요청 정보에 기초하여, 추가적인 영상을 더 획득할 지 여부를 판단할 수 있다. 예를 들어, 요청 정보에 포함된 동작의 대상 중 주변 환경 영상에 포함되어 있지 않은 대상이 존재하는 것으로 판단된 경우, 상기 대상을 포함하는 추가적인 영상이 더 획득됨으로써, 음성 입력이 처리될 수 있다.The electronic device 1000 according to an embodiment may determine whether to further acquire an additional image based on the request information. For example, when it is determined that there is a target that is not included in the surrounding environment image among the motion targets included in the request information, an additional image including the target is further acquired, so that the voice input may be processed.
상술한 예에 한하지 않고, 전자 장치(1000)는, 다양한 방법으로 획득된 적어도 하나의 주변 환경의 영상(1202)과, 음성 입력과 대응되는 요청 정보(1101)에 기초하여, 음성 입력을 처리할 수 있다.Without being limited to the above-described example, the electronic device 1000 processes a voice input based on at least one image 1202 of the surrounding environment obtained by various methods and the request information 1101 corresponding to the voice input. can do.
일 실시 예에 의한 전자 장치(1000)는, 요청 정보(1201)의 적어도 하나의 텍스트로부터 추출된 텍스트 특징과, 상기 요청 정보(1201)와 대응되는 영상으로부터 추출된 영상 특징에 기초하여, VQA(Visual Question Answering) 기술을 이용함으로써, 상기 요청 정보(1201)에 대한 응답을 추출할 수 있다. The electronic device 1000 according to an embodiment may perform VQA ( Visual Question Answering) technology may be used to extract a response to the request information 1201 .
예를 들면, VQA 기술에 따라, 전자 장치(1000)는, 요청 정보(1201)의 텍스트로부터 추출된 텍스트 특징 및 적어도 하나의 영상(1202)으로부터 추출된 영상 특징에 기초하여, 상기 요청 정보(1201)에 대응하는 결과 값을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 텍스트 및 영상(1202)으로부터 추출된 특징들을 VQA 기술에 따라서 결합(fusion)함으로써, 요청 정보(1201)에 대한 응답을 획득할 수 있다.For example, according to the VQA technique, the electronic device 1000 may perform the request information 1201 based on a text feature extracted from the text of the request information 1201 and an image feature extracted from the at least one image 1202 . ) can be obtained. The electronic device 1000 according to an embodiment may acquire a response to the request information 1201 by fusion of features extracted from the text and the image 1202 according to the VQA technique.
상술한 예에 한하지 않고, 전자 장치(1000)는, VQA 기술 이외의 다양한 방법에 따라서, 요청 정보(1201) 및 영상(1202)에 기초하여, 요청 정보(1201)에 대응하는 응답 정보를 획득할 수 있다.Without being limited to the above-described example, the electronic device 1000 obtains response information corresponding to the request information 1201 based on the request information 1201 and the image 1202 according to various methods other than the VQA technique. can do.
일 실시 예에 의하면, 1221로 입력되는 요청 정보(1201)는, 적어도 하나의 텍스트를 포함할 수 있다. 또한, 요청 정보(1201)가 텍스트가 아닌 정보를 포함하는 경우, 상기 정보가 텍스트로 변환되거나 삭제된 후, 1221로 입력될 수 있다. According to an embodiment, the request information 1201 input to 1221 may include at least one text. Also, when the request information 1201 includes information other than text, the information may be converted into text or deleted, and then input as 1221 .
예를 들어, 요청 정보(1201)가, 동작 대상과 관련된 주변 환경 영상의 영역에 관한 정보를 포함하는 경우, 상기 정보는 삭제되고, 1211에 1202 영상 전체의 영역 대신에, 동작 대상과 관련된 주변 환경 영상의 영역과 대응되는 영상이 입력될 수 있다. 따라서, 일 실시 예에 의하면 요청 정보(1201)가 텍스트가 아닌 정보를 포함하는 경우, 상기 정보를 요청 정보(1201)에서 삭제하고, 1211에 입력되는 영상에 상기 정보를 반영하여 입력시킴으로써, VQA 기술에 따라 1221 및 1222에서, 텍스트 특징 추출 및 영상 특징 추출이 수행될 수 있다.For example, when the request information 1201 includes information on the area of the surrounding environment image related to the operation target, the information is deleted, and instead of the entire area of the 1202 image at 1211, the surrounding environment related to the operation target. An image corresponding to the region of the image may be input. Accordingly, according to an embodiment, when the request information 1201 includes information other than text, the information is deleted from the request information 1201 , and the information is reflected and inputted in the image input to 1211, thereby providing VQA technology. Accordingly, text feature extraction and image feature extraction may be performed at 1221 and 1222 .
또한, 동작 대상과 관련된 주변 환경 영상의 영역에 관한 정보가 변환된 텍스트가 요청 정보(1201)에 음성 명령으로서, 포함됨으로써, 1221에 요청 정보(1201)가 입력될 수 있다. 예를 들어, 요청 정보(1201)의 음성 명령에서, 텍스트로 표현된 동작 대상의 위치 정보가 삽입됨으로써, 텍스트가 아닌 정보가 텍스트로 변환된 후 처리될 수 있다.In addition, the request information 1201 may be input to the request information 1201 by including the text converted from information on the area of the surrounding environment image related to the operation target as a voice command in the request information 1201 . For example, in the voice command of the request information 1201 , location information of an operation target expressed in text is inserted, so that information other than text may be converted into text and then processed.
또한 일 실시 예에 의하면, 1221에 요청 정보(1201) 대신, 사용자의 음성 명령이 직접 입력될 수도 있다. 예를 들면, 이하 VQA 기술에 따라서, 결합된 특징을 추출(1224)하여, 결과를 출력(1231)하는 동작에서, 영상 특징으로부터 획득된 정보에 기초하여, 텍스트 특징이 보정될 수 있고, 영상 특징 및 보정된 텍스트 특징에 기초하여, 1224에서, 결합된 특징이 추출될 수 있다.Also, according to an embodiment, a user's voice command may be directly input to 1221 instead of the request information 1201 . For example, in the operation of extracting ( 1224 ) the combined feature and outputting the result ( 1231 ) according to the following VQA technique, based on information obtained from the image feature, the text feature may be corrected, and the image feature and based on the corrected text features, a combined feature may be extracted, at 1224 .
일 실시 예에 의한 요청 정보(1201)의 텍스트 중에서, 텍스트 특징이 추출될 텍스트가 식별될 수 있다. 예를 들어, 텍스트 중, 질문 또는 명령문의 특징을 가지는 텍스트가, 미리 학습된 미리 학습된 인공지능 모델(ex. RNN)에 의하여, 결정할 수 있다. From the text of the request information 1201 according to an embodiment, a text from which text features are to be extracted may be identified. For example, among the texts, a text having the characteristics of a question or a command may be determined by a pre-trained pre-trained artificial intelligence model (ex. RNN).
일 실시 예에 의하면, 질문 또는 명령문의 특징을 가지는 텍스트에 대하여, 결합된 특징에 기초한 응답 정보가 생성될 수 있도록, 요청 정보(1201)로부터 획득될 수 있다. 상술한 예에 한하지 않고, 요청 정보(1201)의 텍스트에 기초하여, 다양한 방법에 따라서 응답 정보가 생성될 수 있다.According to an embodiment, with respect to text having the characteristics of a question or a statement, response information based on the combined characteristics may be generated from the request information 1201 . Not limited to the above-described example, response information may be generated according to various methods based on the text of the request information 1201 .
1221 내지 1224에서, 일 실시 예에 의한 전자 장치(1000)는, 영상(1202) 및 요청 정보(1201)의 텍스트로부터 검출된 특징들을 결합함으로써, 요청 정보(1201)에 대한 응답 정보를 획득할 수 있다.In steps 1221 to 1224 , the electronic device 1000 according to an embodiment may obtain response information to the request information 1201 by combining features detected from the image 1202 and the text of the request information 1201 . have.
1221에서, 일 실시 예에 의한 전자 장치(1000)는, 요청 정보(1201)의 적어도 하나의 텍스트로부터 텍스트 특징을 추출할 수 있다. In 1221 , the electronic device 1000 according to an embodiment may extract a text feature from at least one text of the request information 1201 .
1211에서, 일 실시 예에 의한 전자 장치(1000)는, 영상(1202)에서 요청 정보(1201)를 처리하기 위한 오브젝트를 검출할 수 있다. 일 실시 예에 의한 요청 정보(1201)는, 적어도 하나의 텍스트를 포함할 수 있으며, 각각의 텍스트와 대응되는 오브젝트 영역의 영상 특징에 기초하여, 결합된 특징이 추출될 수 있다.In 1211 , the electronic device 1000 according to an embodiment may detect an object for processing the request information 1201 in the image 1202 . The request information 1201 according to an embodiment may include at least one text, and a combined feature may be extracted based on the image feature of the object region corresponding to each text.
예를 들면, 전자 장치(1000)는, 도 11에 따라, 영상(1202)에서, 요청 정보(1201) 중, 상기 텍스트 특징이 추출된 적어도 하나의 텍스트와 대응되는 오브젝트를 포함하는 영역을 검출할 수 있다. For example, according to FIG. 11 , the electronic device 1000 may detect a region including an object corresponding to at least one text from which the text feature is extracted, from among the request information 1201 , in the image 1202 . can
상술한 예에 한하지 않고, 영상(1202)으로부터 오브젝트를 검출하기 위하여 미리 학습된 인공지능 모델(ex. Faster R-CNN(Region of Convolutional Neural Network))에 의해 적어도 하나의 오브젝트가 검출될 수도 있다. Not limited to the above example, at least one object may be detected by a pre-trained artificial intelligence model (ex. Faster Region of Convolutional Neural Network (R-CNN)) to detect the object from the image 1202. .
1222에서, 일 실시 예에 의한 전자 장치(1000)는, 1211에서 검출된 오브젝트의 영역으로부터 영상 특징을 추출할 수 있다. 예를 들면, 전자 장치(1000)는 영상 영역으로부터 영상 특징을 추출하기 위하여 미리 학습된 인공지능 모델(ex. RNN)을 이용하여, 오브젝트를 포함하는 영상 영역으로부터 여러가지 특징들을 추출할 수 있다.In operation 1222 , the electronic device 1000 according to an embodiment may extract image features from the area of the object detected in operation 1211 . For example, the electronic device 1000 may extract various features from an image region including an object by using a pre-trained artificial intelligence model (eg, RNN) to extract image features from the image region.
1212에서, 일 실시 예에 의한 전자 장치(1000)는 영상(1202) 및 1211에서 검출된 오브젝트와 대응되는 제스처를 획득할 수 있다. 일 실시 예에 의하면 1223에서, 제스처의 종류에 따라, 특징 결합 시 요청 정보(1201) 및 오브젝트에 각각 적용될 가중치 값이 결정될 수 있다. In 1212 , the electronic device 1000 according to an embodiment may acquire a gesture corresponding to the object detected in the images 1202 and 1211 . According to an embodiment, in 1223 , a weight value to be applied to each of the request information 1201 and the object when combining features may be determined according to the type of gesture.
예를 들어, 제스처가, 도 10의 1010 내지 1060과 같이, 단순히, 영상(1202)의 오브젝트를 가리키는 포인팅 제스처인 경우, 1221의 텍스트 특징에 대한 가중치가 더 높게 결정될 수 있다. 반면, 제스처가, 도 10의 1070 내지 1090과 같이, 영상(1202)의 오브젝트와 관련성이 있는 정보를 포함하는 제스처, 예를 들어, 도 10의 1070, 1080, 1090의 제스처와 같이, 제스처 자체에 동작과 관련된 정보(ex. 수량, 형태 정보)를 포함하는 제스처인 경우, 1222에서 획득된 영상 특징에 대한 가중치가 더 높게 결정될 수 있다.For example, when the gesture is a pointing gesture that simply points to an object of the image 1202 as shown in 1010 to 1060 of FIG. 10 , the weight of the text feature of 1221 may be determined to be higher. On the other hand, as in 1070 to 1090 of FIG. 10, the gesture includes information related to the object of the image 1202, for example, like the gestures of 1070, 1080, and 1090 of FIG. In the case of a gesture including motion-related information (eg, quantity and shape information), the weight of the image feature acquired in 1222 may be determined to be higher.
상술한 예에 한하지 않고, 일 실시 예에 의하면, 영상 특징 및 텍스트 특징에 대해, 제스처에 기초하여 다양한 방법으로 결정된 가중치가 적용된 후, 결합된 특징이 추출될 수 있다.Not limited to the above example, according to an embodiment, after weights determined in various ways based on a gesture are applied to image features and text features, combined features may be extracted.
1224에서, 일 실시 예에 의한 전자 장치(1000)는 가중치가 적용된 영상 특징 및 텍스트 특징으로부터, 결합된 특징을 추출할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 제스처에 기초하여, 영상 특징 중 제스처가 가리키는 영역과 대응되는 영역의 영상 특징으로부터 결합된 특징이 추출될 수도 있다. In operation 1224, the electronic device 1000 according to an embodiment may extract a combined feature from the weighted image feature and the text feature. The electronic device 1000 according to an embodiment may extract a combined feature from an image feature of a region corresponding to a region indicated by the gesture among image features based on the gesture.
예를 들어, 1211에서 검출된 오브젝트의 영역이 넓은 경우, 오브젝트의 영역 중 제스처가 가리키는 일부 영역에 포함된 영상 특징에 기초하여, 결합된 특징이 추출될 수 있다. 상술한 예에 한하지 않고, 가중치가 적용된 영상 특징 및 텍스트 특징으로부터, 다양한 방법에 따라 결합된 특징이 추출될 수 있다.For example, when the area of the object detected in 1211 is wide, a combined feature may be extracted based on image features included in a partial area indicated by the gesture among the area of the object. It is not limited to the above-described example, and from the weighted image features and text features, combined features may be extracted according to various methods.
1231에서, 일 실시 예에 의한 전자 장치(1000)는, 결합된 특징에 기초하여, 요청 정보(1201)에 대한 응답 정보를 음성 입력을 처리한 결과로서 출력할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)의 사용자에 대한 상황(context)에 관한 정보, 예를 들면, 사용자의 특징, 선호도, 상태 등에 관한 정보에 더 기초하여, 상기 결합된 특징에 따라 상기 음성 입력이 처리된 결과인 응답 정보가 출력될 수 있다.In 1231 , the electronic device 1000 according to an embodiment may output response information to the request information 1201 as a result of processing the voice input based on the combined feature. According to an embodiment, further based on information about a context for a user of the electronic device 1000, for example, information about a user's characteristics, preferences, status, etc., the voice according to the combined characteristics Response information that is a result of input processing may be output.
도 13은 일 실시 예에 의한 제스처에 기초하여, 영상을 획득함으로써, 음성 입력을 처리하는 일 예를 나타내는 도면이다.13 is a diagram illustrating an example of processing a voice input by acquiring an image based on a gesture according to an embodiment.
도 13의 1310은, 전자 장치(1000)에 의해, 제스처(1311)와 전자 장치(1000)의 주변 환경이 촬영된 영상을 나타낸 것이다. 일 실시 예에 의하면, 제스처(1311)의 손가락이 가리키는 방향에 따라서, 영상 중 1312의 영역에 기초하여, 음성 입력이 처리될 수 있다. 예를 들면, 1312의 영상 영역에 기초하여 추출된 부가 정보에 기초하여 획득된 요청 정보에 따라서, 음성 입력이 처리될 수 있다. 또한, 요청 정보 및 1312의 영상 영역에 기초하여, VQA 기술에 따라 응답 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.1310 of FIG. 13 shows an image in which the gesture 1311 and the surrounding environment of the electronic device 1000 are captured by the electronic device 1000 . According to an embodiment, the voice input may be processed based on the region 1312 of the image according to the direction in which the finger of the gesture 1311 points. For example, a voice input may be processed according to request information obtained based on additional information extracted based on the image region of 1312 . Also, based on the request information and the image area of 1312 , response information is obtained according to the VQA technique, so that the voice input may be processed.
1320은, 전자 장치(1000)에 의해, 제스처(1321)와 전자 장치(1000)의 주변 환경이 촬영된 영상을 나타낸 것이다. 일 실시 예에 의하면, 음성 입력(1323)에 대하여, 제스처(1321)의 손가락이 가리키는 방향에 따라서, 영상에 포함된 오브젝트(1322)가 음성 입력과 관련된 오브젝트로서 추출될 수 있다. 일 실시 예에 의하면, 오브젝트(1322)에 관한 정보에 따라서, 부가 정보가 추출될 수 있고, 부가 정보에 기초하여, 음성 입력(1323)과 대응되는 요청 정보가 획득될 수 있다. 또한, 요청 정보 및 추출된 오브젝트(1322)를 포함하는 영상 영역에 기초하여, VQA 기술에 따라 응답 정보가 획득됨으로써, 음성 입력(1323)이 처리될 수 있다. Reference numeral 1320 denotes an image in which the gesture 1321 and the surrounding environment of the electronic device 1000 are captured by the electronic device 1000 . According to an embodiment, with respect to the voice input 1323 , the object 1322 included in the image may be extracted as an object related to the voice input according to the direction in which the finger of the gesture 1321 points. According to an embodiment, additional information may be extracted according to information about the object 1322 , and request information corresponding to the voice input 1323 may be obtained based on the additional information. Also, based on the request information and the image region including the extracted object 1322 , response information is obtained according to the VQA technique, so that the voice input 1323 may be processed.
1330은, 전자 장치(1000)에 의해, 제스처(1334)와 전자 장치(1000)의 주변 환경이 촬영된 영상을 나타낸 것이다. 일 실시 예에 의하면, 음성 입력(1331)에 대하여, 제스처(1334)의 손가락이 가리키는 방향(1335)에 따라서, 영상에 포함된 오브젝트(1333)가 음성 입력과 관련된 오브젝트로서 추출될 수 있다. 또한, 전자 장치(1000)에 대한 사용자의 터치 입력에 따라서, 상기 영상에서, 음성 입력(1331)과 관련된 ROI(region of interest) 영역이 추가적으로 설정될 수 있다. 따라서, 상기 오브젝트(1333)는 제스처의 방향(1335)뿐만 아니라 추가적으로 설정된 ROI 영역에 기초하여, 전자 장치(1000)에 의해 촬영된 영상에서 식별될 수 있다. 일 실시 예에 의하면, 오브젝트(1333)에 관한 정보에 따라서, 부가 정보가 추출될 수 있고, 부가 정보에 기초하여, 음성 입력(1331)과 대응되는 요청 정보가 획득될 수 있다. 또한, 요청 정보 및 추출된 오브젝트(1333)를 포함하는 영상 영역에 기초하여, VQA 기술에 따라 응답 정보가 획득됨으로써, 음성 입력(1331)이 처리될 수 있다. 일 실시 예에 의한 응답 정보에 따른 결과(1336)는, 1330에 도시된 예와 같이, 오브젝트(1333)에 대하여, 전자 장치(1000)에서 출력될 수 있다. Reference numeral 1330 denotes an image in which the gesture 1334 and the surrounding environment of the electronic device 1000 are captured by the electronic device 1000 . According to an embodiment, with respect to the voice input 1331 , the object 1333 included in the image may be extracted as an object related to the voice input according to the direction 1335 indicated by the finger of the gesture 1334 . Also, according to a user's touch input to the electronic device 1000 , in the image, a region of interest (ROI) region related to the voice input 1331 may be additionally set. Accordingly, the object 1333 may be identified from the image captured by the electronic device 1000 based on the direction 1335 of the gesture as well as the additionally set ROI area. According to an embodiment, additional information may be extracted according to information about the object 1333 , and request information corresponding to the voice input 1331 may be obtained based on the additional information. Also, based on the request information and the image region including the extracted object 1333 , response information is obtained according to the VQA technique, so that the voice input 1331 may be processed. According to an embodiment, the result 1336 according to the response information may be output from the electronic device 1000 with respect to the object 1333 as in the example shown in 1330 .
도 14는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.14 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 14를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1404)을 수신함에 따라서, 사용자의 시선 및 손가락이 향하는 방향에 기초한 제스처(1401, 1402)를 획득할 수 있다. 도 14의 전자 장치(1000)는, 가게 내부를 이동하면서, 손님 안내를 수행할 수 있는 주행 로봇일 수 있다. Referring to FIG. 14 , in response to receiving the user's voice input 1404 , the electronic device 1000 may acquire gestures 1401 and 1402 based on the user's gaze and the direction of the finger. The electronic device 1000 of FIG. 14 may be a driving robot capable of guiding customers while moving inside a store.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1401, 1402)가 가리키는 방향에 따라서 음성 입력(1404)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1404)을 처리할 수 있다.According to the direction indicated by the user's gestures 1401 and 1402 , the electronic device 1000 according to an embodiment may acquire a captured image including the surrounding environment related to the voice input 1404 . The electronic device 1000 according to an embodiment may process the user's voice input 1404 based on the acquired image.
예를 들면, 전자 장치(1000)는, 사용자의 음성 입력(1404)에 따라서, 사용자의 제스처(1401, 1402)가 가리키는 방향에 존재하는 손님들의 모습(1403)을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(1404) 중 "저기 손님들(those customers)"와 대응되는 오브젝트 영역으로서, 손님들의 모습(1403)을 포함하는 영상 영역을 획득할 수 있다. 따라서, 전자 장치(1000)는 상기 영상 영역으로부터 획득된 정보에 기초하여, 요청 정보를 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 요청 정보에 따라서, 손님들의 위치(1403)로 이동하여, 손님 접대를 위한 동작을 수행할 수 있다.For example, the electronic device 1000 may acquire, according to the user's voice input 1404 , a photographed image including the appearance 1403 of the guests present in the direction indicated by the user's gestures 1401 and 1402 . can The electronic device 1000 according to an embodiment may acquire an image region including the appearance 1403 of the customers as an object region corresponding to “those customers” among the voice input 1404 . Accordingly, the electronic device 1000 may obtain request information based on information obtained from the image area. The electronic device 1000 according to an embodiment may move to the location 1403 of the guests according to the request information and perform an operation for entertaining the guests.
도 15는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 주변 환경 정보를 획득하는 일 예를 나타낸 도면이다.15 is a diagram illustrating an example of acquiring surrounding environment information by processing a voice input based on a gesture according to an embodiment.
도 15를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1503)을 수신함에 따라서, 사용자의 시선 및 손가락이 향하는 방향에 기초한 제스처(1501, 1502)를 획득할 수 있다. 도 15의 전자 장치(1000)는, 집 내부를 이동하면서, 다양한 정보를 수집할 수 있는 주행 로봇일 수 있다.Referring to FIG. 15 , in response to receiving the user's voice input 1503 , the electronic device 1000 may acquire gestures 1501 and 1502 based on the user's gaze and the direction of the finger. The electronic device 1000 of FIG. 15 may be a traveling robot capable of collecting various types of information while moving inside a house.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1501, 1502)가 가리키는 방향에 따라서 음성 입력(1503)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1503)을 처리할 수 있다.According to the direction indicated by the user's gestures 1501 and 1502 , the electronic device 1000 according to an embodiment may acquire a captured image including the surrounding environment related to the voice input 1503 . The electronic device 1000 according to an embodiment may process the user's voice input 1503 based on the acquired image.
예를 들면, 전자 장치(1000)는, 사용자의 음성 입력(1503)에 따라서, 사용자의 제스처(1501, 1502)가 가리키는 방향에 존재하는 사람(1504)을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(1503) 중 "아들 프레디(son Freddy)"와 대응되는 오브젝트 영역으로서, 아기(1504)를 포함하는 영상 영역을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 음성 입력(1503) 중 "아들 프레디(son Freddy)"가 발화될 때, 사용자의 제스처(1501, 1502)가 가리키는 방향에 따라서, 아기(1504)를 포함하는 영상을 획득할 수 있다. 따라서, 전자 장치(1000)는 상기 영상으로부터 획득된 정보에 기초하여, 요청 정보를 획득할 수 있다. For example, according to the user's voice input 1503 , the electronic device 1000 may acquire a photographed image including the person 1504 present in the direction indicated by the user's gestures 1501 and 1502 . . The electronic device 1000 according to an embodiment may acquire an image region including the baby 1504 as an object region corresponding to “son Freddy” among the voice input 1503 . For example, when "son Freddy" is uttered among the voice input 1503 , the electronic device 1000 includes the baby 1504 according to the direction indicated by the user's gestures 1501 and 1502 . video can be obtained. Accordingly, the electronic device 1000 may obtain request information based on information obtained from the image.
일 실시 예에 의한 전자 장치(1000)는, 요청 정보에 따라서, 사용자의 음성 입력(1503)에 따른, 정보를 수집하는 동작을 수행할 수 있다. 예를 들면, 전자 장치(1000)는 사용자의 음성 입력(1503)에 따라서, 아기(1504)를 포함하는 영상으로부터 추출된 정보를 수집하는 동작을 수행할 수 있다.The electronic device 1000 according to an embodiment may perform an operation of collecting information according to the user's voice input 1503 according to the request information. For example, the electronic device 1000 may perform an operation of collecting information extracted from an image including the baby 1504 according to the user's voice input 1503 .
도 16은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 정보를 수집하고, 수집된 정보에 기초하여 동작을 수행하는 일 예를 나타낸 도면이다.16 is a diagram illustrating an example of collecting information by processing a voice input based on a gesture and performing an operation based on the collected information, according to an embodiment.
도 16을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1604, 1606)을 수신함에 따라서, 사용자의 시선 및 손가락이 향하는 방향에 기초한 제스처(1602, 1603)를 획득할 수 있다. 도 16의 전자 장치(1000)는, 집 내부를 이동하면서, 다양한 정보를 수집할 수 있는 주행 로봇일 수 있다.Referring to FIG. 16 , in response to receiving the user's voice input 1604 and 1606 , the electronic device 1000 may acquire gestures 1602 and 1603 based on the user's gaze and the direction of the finger. The electronic device 1000 of FIG. 16 may be a traveling robot capable of collecting various types of information while moving inside a house.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1602, 1603)가 가리키는 방향에 따라서 음성 입력(1604, 1606)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1604, 1606)에 따라, 주변 환경에 관한 정보를 수집할 수 있다.According to the direction indicated by the user's gestures 1602 and 1603 , the electronic device 1000 according to an embodiment may acquire a captured image including the surrounding environment related to the voice input 1604 and 1606 . The electronic device 1000 according to an embodiment may collect information about the surrounding environment according to the user's voice inputs 1604 and 1606 based on the acquired image.
예를 들면, 전자 장치(1000)는, 사용자의 음성 입력(1604, 1606)에 따라서, 사용자의 제스처(1602, 1603)가 가리키는 방향에 존재하는 물체들(1605, 1607)을 각각 포함하도록 촬영된 영상들을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 영상에 기초하여, 부가 정보를 추출하고, 추출된 부가 정보에 기초하여, 음성 입력(1604, 1606)에 포함된 "이것(this)"와 대응되는 물체(1605, 1607)에 관한 정보를 요청 정보로서, 획득할 수 있다. 일 실시 예에 의하면, 요청 정보에 기초하여, 음성 입력(1604, 1606)을 처리할 수 있다.For example, according to the user's voice input 1604 and 1606, the electronic device 1000 may be photographed to include objects 1605 and 1607 that exist in the direction indicated by the user's gestures 1602 and 1603, respectively. You can get images. The electronic device 1000 according to an embodiment extracts additional information based on the image, and corresponds to “this” included in the voice inputs 1604 and 1606 based on the extracted additional information. Information about the objects 1605 and 1607 may be obtained as request information. According to an embodiment, based on the request information, voice inputs 1604 and 1606 may be processed.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 음성 입력(1604)에 따라, 영상에 포함된 물체(1605)가 "위험(dangerous)"한 물체인 것으로 미리 저장해두는 동작을 수행함으로써, 음성 입력(1604)을 처리할 수 있다. 또한, 전자 장치(1000)는, 사용자의 음성 입력(1606)에 따라, 영상에 포함된 물체(1607)가 "장난감(toy)"인 것으로 미리 저장해두는 동작을 수행함으로써, 음성 입력(1606)을 처리할 수 있다.The electronic device 1000 according to an embodiment performs an operation of storing in advance that the object 1605 included in the image is a "dangerous" object according to the user's voice input 1604, Input 1604 may be processed. Also, according to the user's voice input 1606, the electronic device 1000 stores the object 1607 included in the image as a "toy" in advance, thereby receiving the voice input 1606. can be processed
1611에서, 전자 장치(1000)는, 1601의 사용자의 음성 입력(1604, 1606)에 따라 미리 저장해둔 물체들(1605, 1607)에 관한 정보에 기초하여, 동작을 수행할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 미리 저장한 물체들(1605, 1607)에 관한 정보에 기초하여, 주변 환경을 촬영한 영상에서, 미리 저장한 물체들(1605, 1607)을 감지함에 따라, 동작을 수행할 수 있다.In operation 1611 , the electronic device 1000 may perform an operation based on previously stored information about the objects 1605 and 1607 according to the user's voice input 1604 and 1606 of 1601 . The electronic device 1000 according to an embodiment detects the pre-stored objects 1605 and 1607 in an image photographed of the surrounding environment based on information about the pre-stored objects 1605 and 1607. Accordingly, an operation may be performed.
일 실시 예에 의한 전자 장치(1000)는, 미리 저장한 물체 중 "위험"한 물체로 저장된 물체(1605)가 감지됨에 따라서, 감지된 물체(1605)에 기초한 동작을 수행할 수 있다. 예를 들어, 전자 장치(1000)는, "위험"한 물체(1605)와 함께 아기(1612)가 감지된 경우, "위험"한 물체(1605)와 아기(1612)가 가까이에 있음을 사용자에게 알리는 동작을 수행할 수 있다. 또한, 전자 장치(1000)는, 촬영된 영상으로부터 아기(1612)의 행동을 분석하여, 아기(1612)가 현재 위험한 상태인지 여부를 사용자에게 알리는 동작을 추가적으로 수행할 수 있다.According to an embodiment, the electronic device 1000 may perform an operation based on the sensed object 1605 as an object 1605 stored as a “dangerous” object among pre-stored objects is detected. For example, when the baby 1612 is detected together with the "dangerous" object 1605, the electronic device 1000 informs the user that the "dangerous" object 1605 and the baby 1612 are nearby. Notification can be performed. Also, the electronic device 1000 may analyze the behavior of the baby 1612 from the captured image, and may additionally perform an operation of notifying the user whether the baby 1612 is currently in a dangerous state.
또한, 일 실시 예에 의한 전자 장치(1000)는, 미리 저장한 물체 중 "장난감"으로 저장된 물체(1607)가 감지됨에 따라서, 감지된 물체(1607)에 기초한 동작을 수행할 수 있다. 예를 들어, 전자 장치(1000)는, "장난감"으로 저장된 물체(1607)와 함께 아기(1613)가 감지된 경우, "장난감"으로 저장된 물체(1607)와 아기(1613)가 가까이에 있음을 사용자에게 알리는 동작을 수행할 수 있다. 또한, 전자 장치(1000)는, 촬영된 영상으로부터 아기(1613)의 행동을 분석하여, 아기(1613)의 현재 상태에 관한 정보 사용자에게 알리는 동작을 추가적으로 수행할 수 있다.Also, according to an embodiment, the electronic device 1000 may perform an operation based on the sensed object 1607 as an object 1607 stored as a “toy” among pre-stored objects is detected. For example, when the baby 1613 is detected together with the object 1607 stored as “toy”, the electronic device 1000 may detect that the object 1607 stored as “toy” and the baby 1613 are close. An action to notify the user may be performed. Also, the electronic device 1000 may analyze the behavior of the baby 1613 from the captured image and additionally perform an operation of notifying the information user regarding the current state of the baby 1613 .
도 17은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.17 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 17을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1703)을 수신함에 따라서, 사용자의 시선 및 손가락잉 향하는 방향에 기초한 제스처(1701, 1702)를 획득할 수 있다. 도 17의 전자 장치(1000)는, 집 내부를 이동하면서, 다양한 정보를 수집할 수 있는 주행 로봇일 수 있다.Referring to FIG. 17 , in response to receiving the user's voice input 1703 , the electronic device 1000 may acquire gestures 1701 and 1702 based on the user's gaze and the direction of the finger pointing. The electronic device 1000 of FIG. 17 may be a traveling robot capable of collecting various types of information while moving inside a house.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1701, 1702)가 가리키는 방향에 따라서, 음성 입력(1703)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처가 가리키는 영역(1704)이 포함되도록 영상을 촬영할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1703)에 따라, 동작을 수행할 수 있다.According to the direction indicated by the user's gestures 1701 and 1702 , the electronic device 1000 according to an embodiment may acquire a photographed image including the surrounding environment related to the voice input 1703 . The electronic device 1000 according to an embodiment may capture an image so that the region 1704 indicated by the user's gesture is included. The electronic device 1000 according to an embodiment may perform an operation according to the user's voice input 1703 based on the acquired image.
예를 들면, 전자 장치(1000)는 제스처가 가리키는 영역(1704)을 포함하는 영상에 기초하여, 음성 입력(1703) 중 "여기(this)" 및 "이곳(here)"와 대응되는 영역(1704)에 관한 위치 정보를 부가 정보로서 획득할 수 있다. 따라서, 전자 장치(1000)는, 상기 부가 정보에 기초하여, "여기(this)" 및 "이곳(here)"과 대응되는 위치 정보를 포함하도록 요청 정보를 생성하고, 요청 정보에 기초하여, 동작을 수행할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 요청 정보에 따라, 영역(1704)에 대한 동작을 수행할 수 있다.For example, based on the image including the region 1704 pointed to by the gesture, the electronic device 1000 may display a region 1704 corresponding to “this” and “here” among the voice input 1703 . ) may be acquired as additional information. Accordingly, the electronic device 1000 generates request information to include location information corresponding to “this” and “here” based on the additional information, and performs an operation based on the request information. can be performed. The electronic device 1000 according to an embodiment may perform an operation on the region 1704 according to the request information.
또한, 일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1707, 1708)가 가리키는 방향에 따라서, 음성 입력(1705)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처가 가리키는 영역(1706)이 포함되도록 영상을 촬영할 수 있다. 또한, 전자 장치(1000)는, 제스처가 가리키는 영역(1706)을 포함하는 영상에 기초하여, 음성 입력(1703) 중 "여기(this)"와 대응되는 영역(1706)에 관한 위치 정보를 부가 정보로 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 부가 정보에 기초하여 획득된 음성 입력(1705)과 대응되는 요청 정보에 따라, 영역(1706)에 대한 동작을 수행할 수 있다.Also, according to the direction indicated by the user's gestures 1707 and 1708 , the electronic device 1000 according to an embodiment may acquire a captured image including the surrounding environment related to the voice input 1705 . The electronic device 1000 according to an embodiment may capture an image so that the region 1706 indicated by the user's gesture is included. Also, based on the image including the region 1706 indicated by the gesture, the electronic device 1000 may provide additional information with location information regarding the region 1706 corresponding to “this” among the voice input 1703 . can be obtained with The electronic device 1000 according to an embodiment may perform an operation on the region 1706 according to the request information corresponding to the voice input 1705 obtained based on the additional information.
도 18은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.18 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 18을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1803)을 수신함에 따라서, 사용자의 시선 및 손가락이 향하는 방향에 기초한 제스처(1801, 1802)를 획득할 수 있다. 도 18의 전자 장치(1000)는, 집 내부를 이동하면서, 다양한 정보를 수집할 수 있는 주행 로봇일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 집 내부를 이동하면서, 제스처(1801, 1802)를 포함하는 영상을 촬영함으로써, 음성 입력(1803)과 대응되는 제스처(1801, 1802)를 획득할 수 있다.Referring to FIG. 18 , in response to receiving the user's voice input 1803 , the electronic device 1000 may acquire gestures 1801 and 1802 based on the user's gaze and the direction of the finger. The electronic device 1000 of FIG. 18 may be a traveling robot capable of collecting various types of information while moving inside a house. The electronic device 1000 according to an embodiment may acquire gestures 1801 and 1802 corresponding to the voice input 1803 by photographing an image including the gestures 1801 and 1802 while moving inside the house. have.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1801, 1802)가 가리키는 방향에 따라서 음성 입력(1803)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1803)에 따라, 주변 환경에 관한 정보를 수집할 수 있다.According to the direction indicated by the user's gestures 1801 and 1802 , the electronic device 1000 according to an embodiment may acquire a captured image including the surrounding environment related to the voice input 1803 . The electronic device 1000 according to an embodiment may collect information about the surrounding environment according to the user's voice input 1803 based on the acquired image.
예를 들면, 전자 장치(1000)는, 제스처(1801, 1802)가 가리키는 영역(1804)을 포함하는 영상에 기초하여, 음성 입력(1803) 중 "이 라인"(this line)과 대응되는 영역에 관한 위치 정보를 부가 정보로서 획득할 수 있다. 따라서, 전자 장치(1000)는, 상기 부가 정보에 기초하여, "이 라인"(this line)과 대응되는 위치 정보를 포함하도록 요청 정보를 생성하고, 요청 정보에 기초하여, 동작을 수행할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 상기 위치 정보와 대응되는 영역에서, "라인"(1804)을 설정하고, 설정된 라인(1804)에 기초하여, 사용자의 음성 입력(1804)에 따른 동작을 수행할 수 있다. 예를 들면, "어린이들은 이 라인(1804)을 넘지 못해(Children can't cross this line)"는 음성 입력(1804)에 따라서, 전자 장치(1000)는, 라인(1804) 근처에 존재하는 어린이들(1805, children)이 라인(1804)을 기준으로 어디에 존재하는지를 판단하고, 판단 결과에 따라 사용자 또는 어린이들(1805)에게, 라인(1804)을 기준으로 어린이들이 위치하는 영역에 관한 정보를 알리는 동작을 수행할 수 있다.For example, based on the image including the region 1804 indicated by the gestures 1801 and 1802 , the electronic device 1000 may display a region corresponding to “this line” among the voice input 1803 . It is possible to obtain the location information related to the additional information. Accordingly, the electronic device 1000 may generate request information to include location information corresponding to “this line” based on the additional information, and perform an operation based on the request information. . The electronic device 1000 according to an embodiment sets a “line” 1804 in an area corresponding to the location information, and based on the set line 1804 , operates according to the user's voice input 1804 . can be performed. For example, according to the voice input 1804 "Children can't cross this line", the electronic device 1000 may display a child present near the line 1804. It is determined where the children 1805 (children) exist based on the line 1804, and, according to the determination result, informs the user or children 1805 of information about the area where the children are located based on the line 1804. action can be performed.
또한, 일 실시 예에 의한 전자 장치(1000)는, 사용자의 음성 입력에 따라 집안 내부에서 이동하는 외부 장치(1808)의 이동 영역을 설정할 수 있다. 예를 들면, 외부 장치(1808)는, 바닥을 청소하며 이동하는, 로봇 청소기일 수 있다. Also, the electronic device 1000 according to an embodiment may set a movement area of the external device 1808 moving inside the house according to a user's voice input. For example, the external device 1808 may be a robot cleaner that moves while cleaning the floor.
일 실시 예에 의한 전자 장치(1000)가 "외부 장치(1808)는 이 라인(1804)을 넘지 못한다"는 음성 입력을 수신하는 경우, 전자 장치(1000)는, 라인(1804)을 포함하여 촬영된 영상에 기초하여, 음성 입력에 따른 동작을 수행할 수 있다. 예를 들면, 외부 장치(1808)는, 전자 장치(1000)로부터 수신된 요청에 기초하여, 라인(1804) 내의 영역에서 화살표 방향에 따라 이동할 수 있다.When the electronic device 1000 according to an embodiment receives a voice input saying “the external device 1808 cannot cross this line 1804”, the electronic device 1000 includes the line 1804 and takes a picture. An operation according to a voice input may be performed based on the image. For example, based on a request received from the electronic device 1000 , the external device 1808 may move in an area within the line 1804 according to an arrow direction.
도 19는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.19 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
도 19를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1901)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(1902)를 획득할 수 있다. 도 19의 전자 장치(1000)는, 사용자가 손에 들고 이용할 수 있는 스마트폰을 포함한 휴대 장치일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 제스처(1902)를 포함하는 영상을 촬영함으로써, 음성 입력(1901)과 대응되는 제스처(1902)를 획득할 수 있다.Referring to FIG. 19 , in response to receiving a user's voice input 1901 , the electronic device 1000 may acquire a gesture 1902 based on a direction in which the user's finger is pointing. The electronic device 1000 of FIG. 19 may be a portable device including a smart phone that a user can hold and use. The electronic device 1000 according to an embodiment may acquire a gesture 1902 corresponding to the voice input 1901 by photographing an image including the gesture 1902 .
일 실시 예에 의한 음성 입력(1901)은, 예를 들면, "이것은 무엇인가?(What is this?)", "이것은 신선한가?(Is it fresh?)", "이걸 내가 언제 주문했지?(When I order this?), "이거 주문했나?(Order this?)", "이걸로 어떤 음식을 만들 수 있지?(What can be cooked from this?)", "이거 얼마나 있지?(observe amount of this?)", "이거 보관 온도에 맞게 설정이 되었나?(set temperature to save this?)" 등 냉장고(1905)에 보관된 음식물에 관한 정보를 요청하는 사용자의 입력을 포함할 수 있다.The voice input 1901 according to an embodiment may include, for example, “What is this?”, “Is it fresh?”, “When did I order this?” I order this?), "Order this?", "What can be cooked from this?", "observe amount of this?" A user's input requesting information on food stored in the refrigerator 1905 may be included, such as ", "Is this set temperature to save this?"
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1902)가 가리키는 방향에 따라서 음성 입력(1901)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 제스처(1902)가 가리키는 방향에 따라서, 전자 장치(1000)에서 촬영된 영상 중 1904 영역을 포함하는 영상을 주변 환경 영상으로 획득할 수 있다. The electronic device 1000 according to an embodiment may acquire a captured image including the surrounding environment related to the voice input 1901 according to the direction indicated by the user's gesture 1902 . For example, according to the direction indicated by the gesture 1902 , the electronic device 1000 may acquire an image including the area 1904 among the images captured by the electronic device 1000 as an image of the surrounding environment.
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(1901)의 "이것(it)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이것(it)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이것(it)"에 대한 식별 정보를 획득할 수 있다. The electronic device 1000 according to an embodiment may obtain, as additional information, identification information on “it” of the voice input 1901 based on the acquired surrounding environment image. The electronic device 1000 according to an embodiment uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “it” in an image of the surrounding environment, so that “this ( It is possible to obtain identification information for".
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(1901)에 의해 요청된 정보인 "이것(it)"에 관한 정보를 사용자에게 제공할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(1901)에 따라서, 필요한 경우, 냉장고(1905)에 관한 정보(ex. 온도 설정 정보, 보관된 음식물 정보)를 추가적으로 획득함으로써, 사용자가 요청한 정보를 제공할 수 있다.The electronic device 1000 according to an embodiment may provide the user with information about “it”, which is information requested by the voice input 1901 , based on the acquired additional information. The electronic device 1000 according to an embodiment additionally acquires information about the refrigerator 1905 (eg, temperature setting information, stored food information) according to the voice input 1901, if necessary, so that the user requests information can be provided.
도 20은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.20 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
도 20을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2012)을 수신함에 따라서, 사용자의 터치 입력에 따른 제스처(2011)를 획득할 수 있다. 도 20의 전자 장치(1000)는, 사용자가 손에 들고 이용할 수 있는 스마트폰을 포함한 휴대 장치일 수 있다. Referring to FIG. 20 , in response to receiving a user's voice input 2012, the electronic device 1000 may acquire a gesture 2011 according to the user's touch input. The electronic device 1000 of FIG. 20 may be a portable device including a smartphone that a user can hold and use.
일 실시 예에 의한 전자 장치(1000)는 사용자의 제스처(2011)가 터치된 지점에 기초하여, 전자 장치(1000)에서 촬영된 영상 중 쇠고기(2013)를 포함하는 영상 영역을 주변 환경 영상으로 획득할 수 있다.The electronic device 1000 according to an embodiment acquires an image region including the beef 2013 among the images captured by the electronic device 1000 as a surrounding environment image based on the point where the user's gesture 2011 is touched. can do.
일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에 기초하여, 음성 입력(2012)의 "이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이것(this)"에 대한 식별 정보로서, 쇠고기(2013)에 관한 식별 정보를 획득할 수 있다.The electronic device 1000 according to an embodiment may obtain, as additional information, identification information on “this” of the voice input 2012 based on the surrounding environment image. The electronic device 1000 according to an embodiment uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this” in an image of the surrounding environment, so that “this ( As identification information for "this)", identification information about the beef 2013 may be acquired.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2012)에 의해 요청된 정보인 "이것(this)"에 관한 정보를 사용자에게 제공할 수 있다. 예를 들어, "이걸로 어떤 요리를 할 수 있지?(What can we cook from this?)"를 포함하는 음성 입력(2012)에 따라서, 쇠고기(2013)에 관한 식별 정보에 기초하여, 쇠고기(2013)로 가능한 요리에 관한 정보가 제공될 수 있다.The electronic device 1000 according to an embodiment may provide the user with information about “this”, which is information requested by the voice input 2012 , based on the acquired additional information. For example, based on identification information about beef (2013), according to voice input 2012 including "What can we cook from this?", beef (2013) Information on possible dishes may be provided.
또한, 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(2012)에 대한 응답 정보를 제공한 후, "이걸 추가하면?(If add this?)"이란 음성 입력(2022)을 추가적으로 수신할 수 있다. 전자 장치(1000)는 음성 입력(2022)을 수신함에 따라, 감자(2023)와 대응되는 영역을 터치하는 사용자의 제스처를 획득할 수 있다. Also, after providing response information to the voice input 2012, the electronic device 1000 according to an embodiment may additionally receive a voice input 2022 of “If add this?” can As the electronic device 1000 receives the voice input 2022 , the electronic device 1000 may acquire a gesture of the user touching an area corresponding to the potato 2023 .
일 실시 예에 의한 전자 장치(1000)는 사용자의 제스처가 터치된 지점에 기초하여, 전자 장치(1000)에서 촬영된 영상 중 감자(2023)를 포함하는 영상 영역을 주변 환경 영상으로 획득할 수 있다.The electronic device 1000 according to an embodiment may acquire an image area including the potato 2023 among the images captured by the electronic device 1000 as an image of the surrounding environment based on a point where the user's gesture is touched. .
일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에 기초하여, 음성 입력(2022)의 "이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이것(this)"에 대한 식별 정보로서, 감자(2023)에 관한 식별 정보를 획득할 수 있다.The electronic device 1000 according to an embodiment may acquire, as additional information, identification information on “this” of the voice input 2022 based on the surrounding environment image. The electronic device 1000 according to an embodiment uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this” in an image of the surrounding environment, so that “this ( As identification information for "this)", it is possible to obtain identification information about the potato 2023.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2022)에 의해 요청된 정보인 "이것(this)"에 관한 정보를 사용자에게 제공할 수 있다. 예를 들어, "이걸 더 추가하면?(If add this?)"를 포함하는 음성 입력(2022)에 따라서, 쇠고기(2013)에 더해, 감자(2023)에 관한 식별 정보에 기초하여, 쇠고기(2013) 및 감자(2023)로 가능한 요리에 관한 정보가 제공될 수 있다.The electronic device 1000 according to an embodiment may provide the user with information about “this”, which is information requested by the voice input 2022 , based on the acquired additional information. For example, based on the identification information regarding the potato 2023 in addition to the beef 2013, according to the voice input 2022 including "If add this?" ) and information about possible dishes with potatoes 2023 may be provided.
또한, 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(2022)에 대한 응답 정보를 제공한 후, "요리가 이것과 같이 먹을만 할까?(The resulting dish is compatible with this)"이란 음성 입력(2032)을 추가적으로 수신할 수 있다. 전자 장치(1000)는 음성 입력(2032)을 수신함에 따라, 공기밥(2033)와 대응되는 영역을 터치하는 사용자의 제스처를 획득할 수 있다. Also, after providing response information to the voice input 2022 , the electronic device 1000 according to an embodiment provides a voice saying “The resulting dish is compatible with this”. An input 2032 may be additionally received. As the electronic device 1000 receives the voice input 2032 , the electronic device 1000 may acquire the user's gesture of touching an area corresponding to the rice rice 2033 .
일 실시 예에 의한 전자 장치(1000)는 사용자의 제스처가 터치된 지점에 기초하여, 전자 장치(1000)에서 촬영된 영상 중 공기밥(2033)를 포함하는 영상 영역을 주변 환경 영상으로 획득할 수 있다.The electronic device 1000 according to an embodiment may acquire an image area including the rice cooker 2033 among the images captured by the electronic device 1000 as an image of the surrounding environment based on the point where the user's gesture is touched. .
일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에 기초하여, 음성 입력(2032)의 "이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이것(this)"에 대한 식별 정보로서, 공기밥(2033)에 관한 식별 정보를 획득할 수 있다.The electronic device 1000 according to an embodiment may obtain, as additional information, identification information on “this” of the voice input 2032 , based on the surrounding environment image. The electronic device 1000 according to an embodiment uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this” in an image of the surrounding environment, so that “this ( As the identification information for "this)", it is possible to obtain identification information about the rice 2033.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2032)에 의해 요청된 정보인 "이것(this)"에 관한 정보를 사용자에게 제공할 수 있다. 예를 들어, "요리가 이것과 같이 먹을만 할까?(The resulting dish is compatible with this)"를 포함하는 음성 입력(2032)에 따라서, 쇠고기(2013) 및 감자(2023)로 가능한 요리가 공기밥(2032)과 함께 먹기 괜찮은지에 관한 정보가 제공될 수 있다.The electronic device 1000 according to an embodiment may provide the user with information about “this”, which is information requested by the voice input 2032 , based on the acquired additional information. For example, according to the voice input 2032 including "The resulting dish is compatible with this", the possible dishes with beef 2013 and potatoes 2023 are cooked rice ( 2032) can be provided.
도 21은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.21 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
도 21을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2111, 2121)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2112, 2122)를 획득할 수 있다. 도 21의 전자 장치(1000)는, 사용자가 손에 들고 이용할 수 있는 스마트폰을 포함한 휴대 장치일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 제스처(2112, 2122)를 포함하는 영상을 촬영함으로써, 음성 입력(2111, 2121)과 각각 대응되는 제스처(2112, 2122)를 획득할 수 있다.Referring to FIG. 21 , as the electronic device 1000 receives the user's voice input 2111 and 2121 , the electronic device 1000 may acquire gestures 2112 and 2122 based on the direction the user's finger faces. The electronic device 1000 of FIG. 21 may be a portable device including a smartphone that the user can hold and use. The electronic device 1000 according to an embodiment may acquire gestures 2112 and 2122 corresponding to the voice inputs 2111 and 2121, respectively, by photographing an image including the gestures 2112 and 2122.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2112, 2122)가 가리키는 방향에 따라서 음성 입력(2111, 2121)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 제스처(2112, 2122)가 가리키는 방향에 따라서, 전자 장치(1000)에서 촬영된 영상 중 2123 영역을 포함하는 영상을 주변 환경 영상으로 획득할 수 있다. According to the direction indicated by the user's gestures 2112 and 2122 , the electronic device 1000 according to an embodiment may acquire a captured image including the surrounding environment related to the voice inputs 2111 and 2121 . For example, the electronic device 1000 may acquire an image including the area 2123 among the images captured by the electronic device 1000 as an image of the surrounding environment according to the direction indicated by the gestures 2112 and 2122 .
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2111, 2121)의 "이, 이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이, 이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이, 이것(this)"에 대한 식별 정보를 획득할 수 있다. The electronic device 1000 according to an embodiment may obtain, as additional information, identification information on “this, this” of the voice inputs 2111 and 2121 based on the acquired surrounding environment image. have. The electronic device 1000 according to an embodiment uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this,” in an image of the surrounding environment, “ It is possible to obtain identification information for "this, this".
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(1901)에 의해 요청된 정보인 "이, 이것(this)"에 관한 정보를 사용자에게 제공할 수 있다. The electronic device 1000 according to an embodiment may provide the user with information about “this, this”, which is information requested by the voice input 1901 , based on the acquired additional information.
예를 들면, 전자 장치(1000)는, 2110에서, 음성 입력(2111)에 따라서, 제스처(2112)가 가리키는 수도관의 부품에 관한 정보를 제공할 수 있다. 또한, 전자 장치(1000)는, 2120에서, 음성 입력(2121)에 따라, 제스처(2122)가 가리키는 자동차 엔진의 부품에 관한 정보를 제공할 수 있다.For example, in 2110 , the electronic device 1000 may provide information about a part of a water pipe indicated by the gesture 2112 according to the voice input 2111 . Also, in 2120 , the electronic device 1000 may provide information about a part of a vehicle engine indicated by the gesture 2122 according to the voice input 2121 .
도 22는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.22 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 22를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2211, 2221)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2212, 2222)를 획득할 수 있다. 도 22의 전자 장치(1000)는, 사용자가 손에 들고 이용할 수 있는 스마트폰을 포함한 휴대 장치일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 제스처(2212, 2222)를 포함하는 영상을 촬영함으로써, 음성 입력(2211, 2221)과 각각 대응되는 제스처(2212, 2222)를 획득할 수 있다.Referring to FIG. 22 , in response to receiving the user's voice input 2211 and 2221 , the electronic device 1000 may acquire gestures 2212 and 2222 based on the direction the user's finger faces. The electronic device 1000 of FIG. 22 may be a portable device including a smartphone that a user can hold and use. The electronic device 1000 according to an embodiment may acquire gestures 2212 and 2222 corresponding to the voice inputs 2211 and 2221, respectively, by photographing an image including the gestures 2212 and 2222.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2212, 2222)가 가리키는 방향에 따라서 음성 입력(2211, 2221)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 제스처(2212, 2222)가 가리키는 방향에 따라서, 전자 장치(1000)에서 촬영된 영상 중 일부 영역을 포함하는 영상을 주변 환경 영상으로 획득할 수 있다. According to the direction indicated by the user's gestures 2212 and 2222 , the electronic device 1000 according to an embodiment may acquire a captured image to include the surrounding environment related to the voice inputs 2211 and 2221 . For example, the electronic device 1000 may acquire an image including a partial region among the images captured by the electronic device 1000 as an image of the surrounding environment according to directions indicated by the gestures 2212 and 2222 .
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2211, 2221)의 "이, 이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이, 이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이, 이것(this)"에 대한 식별 정보를 획득할 수 있다.The electronic device 1000 according to an embodiment may obtain, as additional information, identification information on “this, this” of the voice inputs 2211 and 2221 , based on the acquired surrounding environment image. have. The electronic device 1000 according to an embodiment uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “this,” in an image of the surrounding environment, “ It is possible to obtain identification information for "this, this".
예를 들면, 2210 및 2220에서, 전자 장치(1000)는, 제스처(2212, 2222)가 가리키는, 텍스트를 인식한 결과에 관한 정보를 부가 정보로서 획득할 수 있다.For example, in 2210 and 2220 , the electronic device 1000 may obtain, as additional information, information about a result of recognizing a text indicated by the gestures 2212 and 2222 .
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2211, 2221)에 따라 "이것(this)"에 관한 동작을 수행할 수 있다.The electronic device 1000 according to an embodiment may perform an operation related to “this” according to the voice inputs 2211 and 2221 based on the acquired additional information.
예를 들면, 2210에서, 전자 장치(1000)는, "이 텍스트 복사해(copy this text)"를 포함한 음성 입력(2211)에 따라서, 제스처(2212)가 가리키는 적어도 하나의 텍스트를 인식할 수 있다. 전자 장치(1000)는 상기 인식된 적어도 하나의 텍스트를 전자 장치(1000)에 저장해두고, 사용자의 요청에 따라서, 저장된 텍스트를 이용한 다양한 동작을 수행할 수 있다.For example, in 2210 , the electronic device 1000 may recognize at least one text indicated by the gesture 2212 according to the voice input 2211 including “copy this text”. . The electronic device 1000 may store the recognized at least one text in the electronic device 1000 and perform various operations using the stored text according to a user's request.
또한, 2220에서, 전자 장치(1000)는 "이거 번역해(translate this)"를 포함한 음성 입력(2221)에 따라서, 제스처(2222)가 가리키는 적어도 하나의 텍스트를 인식할 수 있다. 전자 장치(1000)는, 상기 인식된 적어도 하나의 텍스트에 대한 번역 결과를 사용자에게 제공할 수 있다.Also, in 2220 , the electronic device 1000 may recognize at least one text indicated by the gesture 2222 according to the voice input 2221 including “translate this”. The electronic device 1000 may provide the user with a translation result for the at least one recognized text.
도 23은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 영상을 촬영하는 동작을 수행하는 일 예를 나타낸 도면이다.23 is a diagram illustrating an example of performing an operation of capturing an image by processing a voice input based on a gesture according to an embodiment.
도 23을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2311, 2321)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2313, 2322)를 획득할 수 있다. 도 23의 전자 장치(1000)는, 사용자가 손에 들고 영상을 촬영하는데 이용할 수 있는 스마트폰, 디지털 카메라 등의 장치일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 사용자가 촬영하고자 하는 장면을 포함하는 영상(2312)을 촬영할 때, 촬영된 영상에 포함된 제스처(2313, 2322)를 획득할 수 있다. Referring to FIG. 23 , in response to receiving the user's voice input 2311 and 2321 , the electronic device 1000 may acquire gestures 2313 and 2322 based on the direction the user's finger faces. The electronic device 1000 of FIG. 23 may be a device, such as a smart phone, a digital camera, etc. that a user can hold in his hand and use to capture an image. The electronic device 1000 according to an embodiment may acquire gestures 2313 and 2322 included in the captured image when the image 2312 including the scene the user wants to capture is captured.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2313, 2322)가 가리키는 방향에 따라서 음성 입력(2311, 2321)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 제스처(2313, 2322)가 가리키는 방향에 따라서, 전자 장치(1000)에서 촬영된 영상 중 일부 영역(2314, 2323)을 포함하는 영상을 주변 환경 영상으로 획득할 수 있다. According to the direction indicated by the user's gestures 2313 and 2322 , the electronic device 1000 according to an embodiment may acquire a captured image including the surrounding environment related to the voice inputs 2311 and 2321 . For example, according to the direction indicated by the gestures 2313 and 2322 , the electronic device 1000 acquires an image including the partial regions 2314 and 2323 among the images captured by the electronic device 1000 as an image of the surrounding environment. can do.
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2311, 2321)의 "여기(here)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "여기(here)"와 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "여기(here)"에 대한 식별 정보를 획득할 수 있다.The electronic device 1000 according to an embodiment may acquire, as additional information, identification information about “here” of the voice inputs 2311 and 2321 based on the acquired surrounding environment image. The electronic device 1000 according to an embodiment uses a pre-trained artificial intelligence model (ex. CNN) to identify an object corresponding to “here” in an image of the surrounding environment, thereby providing “here (here)”. Identification information for "here)" can be obtained.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2311, 2321)에 따라 "여기(here)"에 관한 동작을 수행할 수 있다.The electronic device 1000 according to an embodiment may perform an operation related to “here” according to the voice inputs 2311 and 2321 based on the acquired additional information.
예를 들면, 2310에서, 전자 장치(1000)는, "여기에 포커스를 맞춰(Focus here)"를 포함한 음성 입력(2311)에 따라서, 제스처(2313)가 가리키는 오브젝트를 식별할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 식별된 오브젝트의 특징을 고려하여, 식별된 오브젝트의 영역을 기준으로 초점을 조절함으로써, 오브젝트를 포함한 영상(2312)을 표시할 수 있다. 예를 들어, 식별된 오브젝트가 전자 장치(1000)에서, 먼 거리에 존재하는 물체인 것으로 판단된 경우, 먼거리의 오브젝트가 최적으로 촬영될 수 있도록 초점을 조절하여, 영상(2312)을 표시할 수 있다. For example, in 2310 , the electronic device 1000 may identify the object pointed to by the gesture 2313 according to the voice input 2311 including “Focus here”. The electronic device 1000 according to an embodiment may display the image 2312 including the object by adjusting the focus based on the area of the identified object in consideration of the characteristics of the identified object. For example, when the identified object is determined to be a distant object in the electronic device 1000, the image 2312 may be displayed by adjusting the focus so that the distant object can be optimally captured. have.
또한, 2321에서, 전자 장치(1000)는, "여기를 더 밝게 해(More light here)"를 포함한 음성 입력(2321)에 따라서, 제스처(2323)가 가리키는 오브젝트를 식별할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 식별된 오브젝트의 특징을 고려하여, 오브젝트가 포함된 영역의 밝기를 조절함으로써, 오브젝트가 촬영된 영상을 표시할 수 있다. 예를 들어, 전자 장치(1000)는, 식별된 오브젝트가 사람임을 고려하여, 인물 사진이 최적으로 촬영될 수 있도록, 밝기를 조절함으로써, 촬영된 영상을 표시할 수 있다.Also, in 2321 , the electronic device 1000 may identify the object pointed to by the gesture 2323 according to the voice input 2321 including “More light here”. The electronic device 1000 according to an embodiment may display an image in which the object is captured by adjusting the brightness of a region including the object in consideration of the identified characteristics of the object. For example, the electronic device 1000 may display the captured image by adjusting the brightness so that a portrait can be optimally captured in consideration of the identified object being a person.
도 24는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.24 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 24를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2401, 2402)을 수신함에 따라서, 사용자의 터치 입력에 따른 제스처(미도시)를 획득할 수 있다. 도 24의 전자 장치(1000)는, 공장 내부를 주행하며, 제품들을 옮기는 주행 로봇일 수 있다. Referring to FIG. 24 , the electronic device 1000 may acquire a gesture (not shown) according to the user's touch input as it receives the user's voice inputs 2401 and 2402 . The electronic device 1000 of FIG. 24 may be a traveling robot that moves inside a factory and moves products.
일 실시 예에 의한 전자 장치(1000)는 음성 입력(2401, 2402)에 따라 함께 획득된 사용자의 제스처에 기초하여, 전자 장치(1000)에서 촬영된 영상 중 제품(2403, product)을 포함하는 영상 영역을 주변 환경 영상으로 획득할 수 있다. The electronic device 1000 according to an embodiment is an image including the product 2403 among the images captured by the electronic device 1000 based on the user's gesture acquired together according to the voice inputs 2401 and 2402 . The region may be acquired as an image of the surrounding environment.
예를 들면, 전자 장치(1000)는 각각 "저기 ID는 뭐지?(What ID is located there)?" 및 "이 제품을 저기로 옮겨..(Transfer this product to there..)"를 포함한 음성 입력(2401, 2402)을 획득할 수 있다.For example, the electronic device 1000 may ask, "What ID is located there?" and “Transfer this product to there..” voice inputs 2401 and 2402 may be acquired.
일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에 기초하여, 음성 입력(2401, 2402)의 "저기(there)" 및 "이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "저기(there)" 및 "이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "저기(there)" 및 "이것(this)"에 대한 식별 정보로서, 제품(2403)에 관한 식별 정보를 획득할 수 있다.The electronic device 1000 according to an embodiment uses, as additional information, identification information on “there” and “this” of the voice inputs 2401 and 2402, based on the surrounding environment image, can be obtained The electronic device 1000 according to an embodiment may use a pre-trained artificial intelligence model (ex. CNN) to identify objects corresponding to “there” and “this” in the surrounding environment image. By using , it is possible to obtain identification information about the product 2403 as identification information for “there” and “this”.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2401, 2402)에 따라 요청된 동작을 수행할 수 있다. 예를 들면, 전자 장치(1000)는, 제품(2403)의 ID에 관한 정보를 사용자에게 제공하거나, 제품(2403)을 옮겨 "저기(there)"와 대응되는 위치로 이동시킬 수 있다.The electronic device 1000 according to an embodiment may perform a requested operation according to the voice inputs 2401 and 2402 based on the acquired additional information. For example, the electronic device 1000 may provide information about the ID of the product 2403 to the user or move the product 2403 to a location corresponding to “there”.
도 25는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.25 is a diagram illustrating an example of performing an operation by processing a voice input based on a gesture according to an embodiment.
도 25를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2501, 2503)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2502, 2504)를 획득할 수 있다. 도 25의 전자 장치(1000)는, 사용자가 탑승 중인 이동체(vehicle, ex. 자동차, 오토바이, 자전거 등)일 수 있다. Referring to FIG. 25 , in response to receiving the user's voice input 2501 and 2503 , the electronic device 1000 may acquire gestures 2502 and 2504 based on the direction the user's finger faces. The electronic device 1000 of FIG. 25 may be a moving body (eg, a vehicle, a motorcycle, a bicycle, etc.) on which the user is riding.
예를 들면, 전자 장치(1000)는, "이차와의 거리를 유지하고.. 이 속도를 유지해, 이건 뭐지?(Keep distance between this car, Keep this speed, What this?)"를 포함하는 음성 입력(2501)과, "여기는 어디지? 이 길로 가자(What is the place here? Turn this way)"를 포함하는 음성 입력(2503)을 수신할 수 있다.For example, the electronic device 1000 may perform a voice input including "Keep distance between this car, Keep this speed, What this?" A voice input 2503 including 2501 and "What is the place here? Turn this way" may be received.
일 실시 예에 의한 전자 장치(1000)는, 사용자를 촬영하는 카메라 장치(2505)를 이용하여, 제스처(2502, 2504)를 포함하는 영상을 촬영함으로써, 음성 입력(2501, 2503)과 각각 대응되는 제스처(2502, 2504)를 획득할 수 있다.The electronic device 1000 according to an embodiment captures an image including the gestures 2502 and 2504 using the camera device 2505 for photographing the user, thereby corresponding to the voice inputs 2501 and 2503, respectively. Gestures 2502 and 2504 may be obtained.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2502, 2504)가 가리키는 방향에 따라서 음성 입력(2501, 2503)과 관련된 주변 환경을 포함하도록 촬영된 영상을, 주변 환경을 촬영하는 카메라 장치(2507)를 이용하여 획득할 수 있다. The electronic device 1000 according to an embodiment is a camera that captures a captured image including the surrounding environment related to the voice input 2501 and 2503 according to the direction indicated by the user's gestures 2502 and 2504 and the surrounding environment. may be obtained using device 2507 .
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2501, 2503)의 "이 차(this car)", "이, 이것(this)"과, "여기(here)", "이 길(this way)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이 차(this car)", "이, 이것(this)"과, "여기(here)", "이 길(this way)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이 차(this car)", "이, 이것(this)"과, "여기(here)", "이 길(this way)"에 대한 식별 정보를 획득할 수 있다. The electronic device 1000 according to an embodiment may include “this car”, “this, this”, and “here” of the voice inputs 2501 and 2503 based on the acquired surrounding environment image. Identification information for "(here)" and "this way" may be obtained as additional information. In the image of the surrounding environment, the electronic device 1000 according to an embodiment includes “this car”, “this, this”, “here”, and “this way” "This car", "this, this" and "here" by using a pre-trained artificial intelligence model (ex. CNN) to identify objects corresponding to " , it is possible to obtain identification information for “this way”.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2501, 2503)에 대응하는 동작을 수행할 수 있다.The electronic device 1000 according to an embodiment may perform an operation corresponding to the voice inputs 2501 and 2503 based on the acquired additional information.
예를 들면, 전자 장치(1000)는, 음성 입력(2501)에 따라, 제스처(2502)가 가리키는 방향에 존재하는 "차", "속도계의 눈금", "외부의 물체" 등을 식별하고, 식별된 결과에 기초하여, 자동차의 주행 속도를 조절하거나, "외부의 물체"에 관한 정보를 제공할 수 있다. 또한, 전자 장치(1000)는, 음성 입력(2503)에 따라, 제스처(2504)가 가리키는 방향에 존재하는, "건물", "거리" 등을 식별하고, 식별된 결과에 기초하여, "건물"에 관한 정보를 제공하거나, 자동차의 주행 방향을 조절할 수 있다.For example, the electronic device 1000 identifies, according to the voice input 2501 , a “car”, “a scale of a speedometer”, an “external object”, etc. present in a direction indicated by the gesture 2502 , and identifies Based on the obtained result, it is possible to adjust the driving speed of the vehicle or provide information on “external objects”. Also, according to the voice input 2503 , the electronic device 1000 identifies “building”, “street”, etc. that exist in the direction indicated by the gesture 2504 , and based on the identified result, “building” It can provide information about the vehicle or control the driving direction of the vehicle.
도 26는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.26 is a diagram illustrating an example of providing information requested by a user by processing a voice input based on a gesture according to an embodiment.
도 26을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2601, 2603)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2602, 2604)를 획득할 수 있다. 도 26의 전자 장치(1000)는, 사용자가 안경과 같이 착용할 수 있는 장치인, 웨어러블 글래스일 수 있다.Referring to FIG. 26 , in response to receiving the user's voice input 2601 and 2603 , the electronic device 1000 may acquire gestures 2602 and 2604 based on the direction the user's finger faces. The electronic device 1000 of FIG. 26 may be wearable glasses, which is a device that a user can wear like glasses.
예를 들면, 전자 장치(1000)는, "이 거리 이름이 뭐지? (What is the name of this street?)"를 포함하는 음성 입력(2601)과, "이거 호텔인가? 이 빌딩 번호가 뭐지? (Is it a hotel? What this building number)"를 포함하는 음성 입력(2603)을 수신할 수 있다.For example, the electronic device 1000 may perform a voice input 2601 including “What is the name of this street?” and “Is this a hotel? What is this building number?” A voice input 2603 including “Is it a hotel? What this building number” may be received.
일 실시 예에 의한 전자 장치(1000)는, 전자 장치(1000)에 구비된 카메라(미도시)를 이용하여, 제스처(2602, 2604)를 포함하는 영상을 촬영함으로써, 음성 입력(2601, 2603)과 각각 대응되는 제스처(2602, 2604)를 획득할 수 있다.The electronic device 1000 according to an embodiment captures images including gestures 2602 and 2604 using a camera (not shown) provided in the electronic device 1000 , thereby receiving voice inputs 2601 and 2603 . Gestures 2602 and 2604 corresponding to , respectively, may be obtained.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2602, 2604)가 가리키는 방향에 따라서 음성 입력(2601, 2603)과 관련된 주변 환경을 포함하는 영상을 획득할 수 있다. The electronic device 1000 according to an embodiment may acquire an image including the surrounding environment related to the voice inputs 2601 and 2603 according to the direction indicated by the user's gestures 2602 and 2604 .
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2601, 2603)의 "이 거리(this street)", "이거(this)", "이 빌딩(this building)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이 거리(this street)", "이거(this)", "이 빌딩(this building)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이 거리(this street)", "이거(this)", "이 빌딩(this building)"에 대한 식별 정보를 획득할 수 있다. The electronic device 1000 according to an embodiment may display “this street”, “this”, and “this building)" can be obtained as additional information. The electronic device 1000 according to an embodiment may identify objects corresponding to “this street”, “this”, and “this building” in the surrounding environment image, By using a pre-trained artificial intelligence model (ex. CNN), identification information for “this street”, “this”, and “this building” can be obtained.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2601, 2603)에서 요청된 정보를 사용자에게 제공할 수 있다.The electronic device 1000 according to an embodiment may provide the user with information requested from the voice inputs 2601 and 2603 based on the acquired additional information.
예를 들어, 전자 장치(1000)는, 음성 입력(2601)에 따라, 제스처(2602)가 가리키는 방향에 존재하는 거리의 이름을 식별하고, 식별된 결과를 사용자에게 제공할 수 있다. 또한, 전자 장치(1000)는, 음성 입력(2603)에 따라, 제스처(2604)가 가리키는 방향에 존재하는 호텔 이름 또는 빌딩의 번호에 관한 정보를 획득하고, 획득된 정보를 사용자에게 제공할 수 있다.For example, the electronic device 1000 may identify the name of a street in the direction indicated by the gesture 2602 according to the voice input 2601 , and provide the identified result to the user. Also, according to the voice input 2603 , the electronic device 1000 may obtain information about a hotel name or a number of a building existing in a direction indicated by the gesture 2604 , and provide the obtained information to the user. .
도 27은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 외부 장치를 제어하는 일 예를 나타낸 도면이다.27 is a diagram illustrating an example of controlling an external device by processing a voice input based on a gesture according to an embodiment.
도 27을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2701, 2703)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2702, 2704)를 획득할 수 있다. 도 27의 전자 장치(1000)는, 사용자가 안경과 같이 착용할 수 있는 장치인, 웨어러블 글래스일 수 있다.Referring to FIG. 27 , in response to receiving the user's voice input 2701 and 2703 , the electronic device 1000 may acquire gestures 2702 and 2704 based on the direction the user's finger faces. The electronic device 1000 of FIG. 27 may be wearable glasses, which is a device that a user can wear like glasses.
예를 들면, 전자 장치(1000)는, "저기 불을 켜 (Switch on that lights)"를 포함하는 음성 입력(2701)과, "이 벽에 가상 TV를 놓자(Put virtual TV on this wall)"를 포함하는 음성 입력(2703)을 수신할 수 있다.For example, the electronic device 1000 may include a voice input 2701 including “Switch on that lights” and “Put virtual TV on this wall”. may receive a voice input 2703 including
일 실시 예에 의한 전자 장치(1000)는, 전자 장치(1000)에 구비된 카메라(미도시)를 이용하여, 제스처(2702, 2704)를 포함하는 영상을 촬영함으로써, 음성 입력(2701, 2703)과 각각 대응되는 제스처(2702, 2704)를 획득할 수 있다.The electronic device 1000 according to an embodiment captures images including gestures 2702 and 2704 using a camera (not shown) provided in the electronic device 1000 , thereby receiving voice inputs 2701 and 2703 . Gestures 2702 and 2704 corresponding to , respectively, may be obtained.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2702, 2704)가 가리키는 방향에 따라서 음성 입력(2701, 2703)과 관련된 주변 환경을 포함하는 영상을 획득할 수 있다. The electronic device 1000 according to an embodiment may acquire an image including the surrounding environment related to the voice inputs 2701 and 2703 according to the direction indicated by the user's gestures 2702 and 2704 .
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2701, 2703)의 "저기 불(that lights)", "이 벽(this wall)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "저기 불(that lights)", "이 벽(this wall)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "저기 불(that lights)", "이 벽(this wall)"에 대한 식별 정보를 획득할 수 있다. The electronic device 1000 according to an embodiment may provide identification information on “that lights” and “this wall” of the voice inputs 2701 and 2703 based on the acquired surrounding environment image. may be obtained as additional information. The electronic device 1000 according to an embodiment may include a pre-trained AI model ( ex. CNN), it is possible to obtain identification information for "that lights" and "this wall".
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2701, 2703)에서 요청된 정보를 사용자에게 제공할 수 있다.The electronic device 1000 according to an embodiment may provide information requested by the voice inputs 2701 and 2703 to the user based on the acquired additional information.
예를 들어, 전자 장치(1000)는, 음성 입력(2701)에 따라, 제스처(2702)가 가리키는 방향에 존재하는, 적어도 하나의 전등(light)을 식별하고, 식별된 전등을 제어할 수 있다. 또한, 전자 장치(1000)는, 음성 입력(2703)에 따라, 제스처(2704)가 가리키는 방향에 존재하는, 벽을 식별하고, 식별된 벽에 가상 TV를 표시할 수 있는 빔 프로젝터(beam projector)를 식별할 수 있다. 따라서, 전자 장치(1000)는 식별된 벽에 가상 TV를 표시할 수 있도록, 식별된 빔 프로젝터를 제어할 수 있다.For example, according to the voice input 2701 , the electronic device 1000 may identify at least one light existing in the direction indicated by the gesture 2702 and control the identified light. Also, according to the voice input 2703 , the electronic device 1000 is a beam projector capable of identifying a wall, existing in a direction indicated by the gesture 2704 , and displaying a virtual TV on the identified wall according to the voice input 2703 . can be identified. Accordingly, the electronic device 1000 may control the identified beam projector to display the virtual TV on the identified wall.
일 실시 예에 의하면 음성 입력에 포함된 정보가 명확하지 않은 경우에도, 사용자의 제스처 및 주변 환경에 기초하여, 음성 입력을 명확하게 해석함으로써, 사용자 의도에 맞는 동작이 수행될 수 있다.According to an embodiment, even when information included in the voice input is not clear, an operation suitable for the user's intention may be performed by clearly interpreting the voice input based on the user's gesture and surrounding environment.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.The device-readable storage medium may be provided in the form of a non-transitory storage medium. Here, 'non-transitory storage medium' is a tangible device and only means that it does not contain a signal (eg, electromagnetic wave). It does not distinguish the case where it is stored as For example, the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.According to one embodiment, the method according to various embodiments disclosed in this document may be provided as included in a computer program product. Computer program products may be traded between sellers and buyers as commodities. The computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play Store™) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly, online between smartphones (eg: smartphones). In the case of online distribution, at least a portion of a computer program product (eg, a downloadable app) is stored at least in a machine-readable storage medium, such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.Also, in this specification, “unit” may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustration, and those of ordinary skill in the art to which the present invention pertains can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a dispersed form, and likewise components described as distributed may be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.

Claims (15)

  1. 전자 장치에서, 제스처에 기초하여, 음성 입력을 처리하는 방법에 있어서,A method of processing a voice input based on a gesture in an electronic device, the method comprising:
    음성 입력 및 상기 음성 입력과 대응되는 제스처를 획득하는 단계;acquiring a voice input and a gesture corresponding to the voice input;
    상기 제스처가 가리키는 방향에 기초하여, 상기 전자 장치의 주변 환경을 포함하는 영상을 획득하는 단계;acquiring an image including a surrounding environment of the electronic device based on a direction indicated by the gesture;
    상기 영상으로부터, 상기 음성 입력과 관련된 부가 정보를 추출하는 단계;extracting additional information related to the voice input from the image;
    상기 부가 정보에 기초하여, 상기 음성 입력에 의해 상기 전자 장치로 요청된 동작에 관한 요청 정보를 획득하는 단계; 및 obtaining request information regarding an operation requested by the electronic device by the voice input based on the additional information; and
    상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는 단계를 포함하는, 방법.based on the request information, processing the voice input.
  2. 제1항에 있어서, 상기 부가 정보는,According to claim 1, wherein the additional information,
    상기 영상으로부터 추출된, 상기 음성 입력과 관련된 적어도 하나의 오브젝트 또는 영역에 관한 식별 정보 및 위치 정보 중 적어도 하나를 포함하는, 방법.The method comprising at least one of identification information and location information about at least one object or region related to the voice input extracted from the image.
  3. 제1항에 있어서, 상기 요청 정보를 획득하는 단계는The method of claim 1, wherein obtaining the request information comprises:
    상기 음성 입력과 대응되는 적어도 하나의 텍스트를 획득하는 단계;obtaining at least one text corresponding to the voice input;
    상기 부가 정보에 기초하여, 상기 적어도 하나의 텍스트 중 적어도 하나를 다른 텍스트로 대체하는 단계; 및replacing at least one of the at least one text with another text based on the additional information; and
    상기 대체된 텍스트를 포함하는, 상기 적어도 하나의 텍스트에 기초하여, 상기 요청 정보를 획득하는 단계를 포함하는, 방법.and obtaining the request information based on the at least one text, including the replaced text.
  4. 제3항에 있어서, 상기 다른 텍스트로 대체하는 단계는4. The method of claim 3, wherein the replacing with another text comprises:
    상기 제스처에 더 기초하여, 상기 적어도 하나의 텍스트 중 적어도 하나를 다른 텍스트로 대체하는 단계를 포함하는, 방법.further based on the gesture, replacing at least one of the at least one text with another text.
  5. 제1항에 있어서, 상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는 단계는,The method of claim 1, wherein the processing of the voice input based on the request information comprises:
    상기 요청 정보와 대응되는 적어도 하나의 텍스트로부터 텍스트 특징을 추출하는 단계;extracting a text feature from at least one text corresponding to the request information;
    상기 영상에 포함된, 상기 적어도 하나의 텍스트와 대응되는 오브젝트의 영역에 기초하여, 영상 특징을 추출하는 단계; extracting image features based on an area of an object corresponding to the at least one text included in the image;
    상기 텍스트 특징 및 상기 영상 특징에 기초하여, 결합된 특징을 획득하는 단계; 및 obtaining a combined feature based on the text feature and the image feature; and
    상기 결합된 특징에 기초하여, 상기 음성 입력을 처리하는 단계를 포함하는, 방법.and processing the speech input based on the combined characteristics.
  6. 제5항에 있어서, 상기 결합된 특징을 획득하는 단계는The method of claim 5, wherein the obtaining the combined feature comprises:
    상기 제스처의 종류에 따라 상기 텍스트 특징 및 상기 영상 특징에 대한 가중치를 결정하는 단계; determining weights for the text feature and the image feature according to the type of the gesture;
    상기 텍스트 특징 및 상기 영상 특징에 각각 대응되는 가중치를 적용하는 단계; 및applying weights corresponding to the text features and the image features, respectively; and
    상기 가중치가 각각 적용된 상기 텍스트 특징 및 상기 영상 특징에 기초하여, 상기 결합된 특징을 획득하는 단계를 포함하는, 방법.and obtaining the combined feature based on the text feature and the image feature to which the weight is applied, respectively.
  7. 제1항에 있어서, 상기 부가 정보는, 상기 영상에서 상기 음성 입력과 대응되는 오브젝트가 식별됨으로써, 추출되고,The method of claim 1, wherein the additional information is extracted by identifying an object corresponding to the audio input from the image,
    상기 오브젝트는, 상기 제스처가 가리키는 방향 및 상기 영상에서 사용자의 입력에 따라 설정된 ROI 영역에 기초하여, 상기 영상에서 식별되는, 방법.The object is identified in the image based on a direction indicated by the gesture and an ROI area set according to a user input in the image.
  8. 제스처에 기초하여, 음성 입력을 처리하는 전자 장치에 있어서,An electronic device for processing a voice input based on a gesture, the electronic device comprising:
    A/V 입력부;A/V input;
    상기 음성 입력을 처리한 결과를 출력하는 출력부; 및an output unit for outputting a result of processing the voice input; and
    상기 A/V 입력부를 제어하여, 음성 입력을 획득하고, 상기 음성 입력과 대응되는 제스처를 획득하고, by controlling the A/V input unit to obtain a voice input and a gesture corresponding to the voice input;
    상기 A/V 입력부를 제어하여, 상기 제스처가 가리키는 방향에 기초하여, 상기 전자 장치의 주변 환경을 포함하는 영상을 획득하고, controlling the A/V input unit to obtain an image including a surrounding environment of the electronic device based on a direction indicated by the gesture;
    상기 영상으로부터, 상기 음성 입력과 관련된 부가 정보를 추출하고,extracting additional information related to the voice input from the image,
    상기 부가 정보에 기초하여, 상기 음성 입력에 의해 상기 전자 장치로 요청된 동작에 관한 요청 정보를 획득하고,Obtaining request information regarding an operation requested by the electronic device by the voice input based on the additional information,
    상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는, 적어도 하나의 프로세서를 포함하는, 전자 장치.and at least one processor configured to process the voice input based on the request information.
  9. 제8항에 있어서, 상기 부가 정보는,The method of claim 8, wherein the additional information,
    상기 영상으로부터 추출된, 상기 음성 입력과 관련된 적어도 하나의 오브젝트 또는 영역에 관한 식별 정보 및 위치 정보 중 적어도 하나를 포함하는, 전자 장치.The electronic device comprising at least one of identification information and location information on at least one object or region related to the voice input extracted from the image.
  10. 제8항에 있어서, 상기 적어도 하나의 프로세서는9. The method of claim 8, wherein the at least one processor comprises:
    상기 음성 입력과 대응되는 적어도 하나의 텍스트를 획득하고,obtaining at least one text corresponding to the voice input;
    상기 부가 정보에 기초하여, 상기 적어도 하나의 텍스트 중 적어도 하나를 다른 텍스트로 대체하고,replacing at least one of the at least one text with another text based on the additional information;
    상기 대체된 텍스트를 포함하는, 상기 적어도 하나의 텍스트에 기초하여, 상기 요청 정보를 획득하는, 전자 장치.Obtaining the request information based on the at least one text including the replaced text.
  11. 제10항에 있어서, 상기 제스처에 더 기초하여, 상기 적어도 하나의 텍스트 중 적어도 하나를 다른 텍스트로 대체하는, 전자 장치.The electronic device of claim 10 , further based on the gesture, replacing at least one of the at least one text with another text.
  12. 제8항에 있어서, 상기 적어도 하나의 프로세서는9. The method of claim 8, wherein the at least one processor comprises:
    상기 요청 정보와 대응되는 적어도 하나의 텍스트로부터 텍스트 특징을 추출하고,extracting text features from at least one text corresponding to the request information;
    상기 영상에 포함된, 상기 적어도 하나의 텍스트와 대응되는 오브젝트의 영역에 기초하여, 영상 특징을 추출하고,extracting image features based on the area of the object corresponding to the at least one text included in the image,
    상기 텍스트 특징 및 상기 영상 특징에 기초하여, 결합된 특징을 획득하고,obtaining a combined feature based on the text feature and the image feature,
    상기 결합된 특징에 기초하여, 상기 음성 입력을 처리하는, 전자 장치.processing the voice input based on the combined characteristic.
  13. 제12항에 있어서, 상기 적어도 하나의 프로세서는13. The method of claim 12, wherein the at least one processor comprises:
    상기 제스처의 종류에 따라 상기 텍스트 특징 및 상기 영상 특징에 대한 가중치를 결정하고,determining a weight for the text feature and the image feature according to the type of the gesture;
    상기 텍스트 특징 및 상기 영상 특징에 각각 대응되는 가중치를 적용하고,applying a weight corresponding to each of the text feature and the image feature,
    상기 가중치가 각각 적용된 상기 텍스트 특징 및 상기 영상 특징에 기초하여, 상기 결합된 특징을 획득하는, 전자 장치.and obtaining the combined feature based on the text feature and the image feature to which the weight is applied, respectively.
  14. 제8항에 있어서, 상기 부가 정보는, 상기 영상에서 상기 음성 입력과 대응되는 오브젝트가 식별됨으로써, 추출되고,The method of claim 8, wherein the additional information is extracted by identifying an object corresponding to the voice input from the image,
    상기 오브젝트는, 상기 제스처가 가리키는 방향 및 상기 영상에서 사용자의 입력에 따라 설정된 ROI 영역에 기초하여, 상기 영상에서 식별되는, 전자 장치.The object is identified in the image based on a direction indicated by the gesture and an ROI area set according to a user input in the image.
  15. 제1항 내지 제7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.A computer-readable recording medium in which a program for implementing the method of any one of claims 1 to 7 is recorded.
PCT/KR2020/003917 2020-03-17 2020-03-23 Electronic device for processing voice input on basis of gesture, and operation method for same WO2021187653A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200032848A KR20210116838A (en) 2020-03-17 2020-03-17 Electronic device and operating method for processing a voice input based on a gesture
KR10-2020-0032848 2020-03-17

Publications (1)

Publication Number Publication Date
WO2021187653A1 true WO2021187653A1 (en) 2021-09-23

Family

ID=77771064

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/003917 WO2021187653A1 (en) 2020-03-17 2020-03-23 Electronic device for processing voice input on basis of gesture, and operation method for same

Country Status (2)

Country Link
KR (1) KR20210116838A (en)
WO (1) WO2021187653A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120054743A (en) * 2010-11-22 2012-05-31 엘지전자 주식회사 Method for controlling using voice and gesture in multimedia device and multimedia device thereof
KR20140086302A (en) * 2012-12-28 2014-07-08 현대자동차주식회사 Apparatus and method for recognizing command using speech and gesture
US20140371955A1 (en) * 2013-02-26 2014-12-18 Edge 3 Technologies Llc System And Method For Incorporating Gesture And Voice Recognition Into A Single System
KR20160071732A (en) * 2014-12-12 2016-06-22 삼성전자주식회사 Method and apparatus for processing voice input
US20190228217A1 (en) * 2018-01-22 2019-07-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus and device for waking up voice interaction function based on gesture, and computer readable medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120054743A (en) * 2010-11-22 2012-05-31 엘지전자 주식회사 Method for controlling using voice and gesture in multimedia device and multimedia device thereof
KR20140086302A (en) * 2012-12-28 2014-07-08 현대자동차주식회사 Apparatus and method for recognizing command using speech and gesture
US20140371955A1 (en) * 2013-02-26 2014-12-18 Edge 3 Technologies Llc System And Method For Incorporating Gesture And Voice Recognition Into A Single System
KR20160071732A (en) * 2014-12-12 2016-06-22 삼성전자주식회사 Method and apparatus for processing voice input
US20190228217A1 (en) * 2018-01-22 2019-07-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus and device for waking up voice interaction function based on gesture, and computer readable medium

Also Published As

Publication number Publication date
KR20210116838A (en) 2021-09-28

Similar Documents

Publication Publication Date Title
WO2017043857A1 (en) Method for providing application, and electronic device therefor
WO2018143630A1 (en) Device and method for recommending product
WO2016175412A1 (en) Mobile terminal and controlling method thereof
WO2016048102A1 (en) Image display method performed by device including switchable mirror and the device
WO2021029529A1 (en) Virtual fitting provision device and provision method therefor
WO2019031707A1 (en) Mobile terminal and method for controlling mobile terminal using machine learning
WO2017082508A1 (en) Watch-type terminal and method for controlling same
WO2019132518A1 (en) Image acquisition device and method of controlling the same
WO2016089079A1 (en) Device and method for outputting response
WO2016105166A1 (en) Device and method of controlling wearable device
WO2018084577A1 (en) Data recognition model construction apparatus and method for constructing data recognition model thereof, and data recognition apparatus and method for recognizing data thereof
EP3198376A1 (en) Image display method performed by device including switchable mirror and the device
WO2018084576A1 (en) Electronic device and controlling method thereof
WO2016108660A1 (en) Method and device for controlling home device
WO2016190458A1 (en) System and method for displaying virtual image through hmd device
WO2016064132A1 (en) Wearable device and method of transmitting content
EP3238012A1 (en) Device and method of controlling wearable device
WO2019240562A1 (en) Electronic device and operating method thereof for outputting response to user input, by using application
WO2017171137A1 (en) Hearing aid, portable device and control method therefor
WO2015194723A1 (en) Mobile terminal and control method therefor
EP3532990A1 (en) Data recognition model construction apparatus and method for constructing data recognition model thereof, and data recognition apparatus and method for recognizing data thereof
WO2016089075A1 (en) Wearable device and method of transmitting message from the same
WO2016175424A1 (en) Mobile terminal and method for controlling same
WO2016200150A1 (en) Method and apparatus for providing content
WO2017090833A1 (en) Photographing device and method of controlling the same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20926286

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20926286

Country of ref document: EP

Kind code of ref document: A1