WO2022158847A1 - 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법 - Google Patents

멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
WO2022158847A1
WO2022158847A1 PCT/KR2022/000977 KR2022000977W WO2022158847A1 WO 2022158847 A1 WO2022158847 A1 WO 2022158847A1 KR 2022000977 W KR2022000977 W KR 2022000977W WO 2022158847 A1 WO2022158847 A1 WO 2022158847A1
Authority
WO
WIPO (PCT)
Prior art keywords
sub
information
type
feature information
layers
Prior art date
Application number
PCT/KR2022/000977
Other languages
English (en)
French (fr)
Inventor
구정회
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US17/711,316 priority Critical patent/US20220237434A1/en
Publication of WO2022158847A1 publication Critical patent/WO2022158847A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • Various embodiments relate to an electronic device that processes multi-modal data, and more particularly, to an electronic device that performs a specific task using different types of input data, and an operating method thereof.
  • Deep learning is a machine learning technology that enables computing systems to perform human-like actions.
  • As deep learning network technology develops research on technology for performing a specific task by receiving various types of inputs (eg, image mode input, text mode input, etc.) is being actively conducted. Recently, technologies that can improve network performance by considering the importance of each type for various types of input are being discussed. In order to accurately and quickly perform tasks for various types of inputs, a device capable of generating weights reflecting the importance of each type is required.
  • an electronic device for performing a preset task using a deep neural network includes an input interface for receiving first type input data and second type input data; A memory storing the above instructions, and a processor executing the one or more instructions stored in the memory, include first sub-characteristic information corresponding to the first type of input data and second sub-characteristic information corresponding to the second type of input data.
  • DNN deep neural network
  • obtaining sub-feature information inputting the first sub-feature information and the second sub-feature information to the DNN, to obtain feature information from each of a plurality of layers of the DNN, and obtaining the feature information and the first sub feature information Corresponding to the preset task by calculating a weight for each type corresponding to each of the plurality of layers based on the characteristic information and the second sub characteristic information, and applying the weight for each type in each of the plurality of layers to obtain the final output value.
  • the processor is configured to obtain the first sub-feature information by inputting the first type of input data to a pre-learned first sub-network, and inputting the second type of input data to a pre-learned second sub-network. and may be further configured to obtain the second sub-characteristic information.
  • the processor encodes the first sub-characteristic information and the second sub-characteristic information based on type identification information capable of distinguishing a type of input data, and the encoded first sub-characteristic information and the second sub-characteristic information It may be further configured to input information into the DNN.
  • the processor may be further configured to perform encoding by concatenating the first sub-characteristic information and the second sub-characteristic information.
  • the processor is configured to obtain first query information corresponding to each of the plurality of layers based on the first sub-feature information and a pre-learned query matrix corresponding to each of the plurality of layers, and the first query information represents a weight of the first sub-feature information, and may acquire second query information corresponding to each of the plurality of layers based on the second sub-feature information and a pre-learned query matrix, and the second The query information may indicate a weight of the second sub-feature information, and the pre-learned query matrix may be further configured to include parameters related to the first sub-feature information and the second sub-feature information.
  • the processor may be further configured to obtain key information corresponding to each of the plurality of layers based on feature information extracted from each of the plurality of layers and a pre-learned key matrix corresponding to each of the plurality of layers can
  • the processor indicates a correlation between the first query information and the key information, obtains first context information corresponding to each of the plurality of layers, and indicates a correlation between the second query information and the key information, It may be further configured to obtain second context information corresponding to each of the plurality of layers.
  • the processor may be further configured to calculate a weight for each type corresponding to each of the plurality of layers, based on the first context information and the second context information corresponding to each of the plurality of layers.
  • the first type of input data and the second type of input data may include at least one of image data, text data, sound data, and image data.
  • a method of operating an electronic device for performing a preset task by using a deep neural network comprising: receiving input data of a first type and input data of a second type; , obtaining first sub feature information corresponding to the first type of input data and second sub feature information corresponding to the second type of input data, the first sub feature information and the second sub feature information inputting into the DNN to obtain feature information from each of a plurality of layers of the DNN;
  • the method may include calculating a weight corresponding to each type, and obtaining a final output value corresponding to the preset task by applying the weight for each type to each of the plurality of layers.
  • the obtaining of the first sub-feature information corresponding to the first type of input data and the second sub-feature information corresponding to the second type of input data may include:
  • the method may include obtaining the first sub-feature information by inputting input data and obtaining the second sub-feature information by inputting the second type of input data into a pre-learned second sub-network.
  • the step of inputting the first sub-characteristic information and the second sub-characteristic information into the DNN includes: encoding the first sub-characteristic information and the second sub-characteristic information The encoded first sub-characteristic information and the and inputting the encoded second sub-feature information into the DNN.
  • the encoding of the first sub-characteristic information and the second sub-characteristic information may include encoding by concatenating the first sub-characteristic information and the second sub-characteristic information.
  • the calculating of a weight for each type corresponding to each of the plurality of layers may include: based on the first sub-feature information and a pre-learned query matrix corresponding to each of the plurality of layers, to each of the plurality of layers. obtaining corresponding first query information; and obtaining second query information corresponding to each of the plurality of layers based on the second sub-feature information and the pre-learned query matrix.
  • the first query information includes the first query information 1 represents a weight of sub-feature information
  • the second query information represents a weight of the second sub-feature information
  • the pre-learned query matrix includes parameters related to the first sub-feature information and the second sub-feature information.
  • the calculating of a weight for each type corresponding to each of the plurality of layers may include: based on feature information extracted from each of the plurality of layers and a pre-learned key matrix corresponding to each of the plurality of layers, the plurality of The method may further include obtaining key information corresponding to each of the layers of .
  • Calculating the weight for each type corresponding to each of the plurality of layers may include: indicating a correlation between the first query information and the key information, and obtaining first context information corresponding to each of the plurality of layers and indicating a correlation between the second query information and the key information, and obtaining second context information corresponding to each of the plurality of layers.
  • the calculating of a weight for each type corresponding to each of the plurality of layers may include: corresponding to each of the plurality of layers based on the first context information and the second context information corresponding to each of the plurality of layers
  • the method may further include calculating a weight for each type.
  • the first type of input data and the second type of input data may include at least one of image data, text data, sound data, and image data.
  • a computer-readable recording medium may be a recording medium recording a program for executing a multi-modal data processing method in a computer.
  • FIG. 1 is a diagram illustrating an electronic device that generates output values for a plurality of inputs, according to an exemplary embodiment.
  • FIG. 2 is a block diagram illustrating an internal configuration of an electronic device according to an exemplary embodiment.
  • 3A is a diagram for describing an operation performed by a processor according to an exemplary embodiment.
  • FIG. 3B is a diagram illustrating in more detail the operation of the components included in FIG. 3A .
  • FIG. 4 is a block diagram illustrating an internal configuration of a weight generator according to an exemplary embodiment.
  • FIG. 5 is a diagram for describing a detailed operation of a query information calculator according to an embodiment.
  • FIG. 6 is a diagram for explaining a specific operation of the key information calculation unit according to an embodiment.
  • FIG. 7 is a diagram for describing a specific operation of a context information calculator according to an embodiment.
  • FIG. 8 is a diagram for describing a detailed operation of a weight calculator for each mode according to an embodiment.
  • FIG. 9 is a flowchart illustrating a method of obtaining, by an electronic device, first sub feature information, second sub feature information, and feature information for each layer to obtain a final output value, according to an embodiment.
  • FIG. 10 is a flowchart specifically illustrating the steps of FIG. 9 .
  • FIG. 1 is a diagram illustrating an example in which an electronic device generates output values for a plurality of inputs, according to an embodiment.
  • a typical deep learning network can receive one type of input and perform a specific task.
  • the general deep learning network may be a Convolution Neural Network (CNN) network that receives and processes an image as an input or a Long Short-Term Memory models (LSTM) network that receives and processes text as an input.
  • CNN Convolution Neural Network
  • LSTM Long Short-Term Memory models
  • a CNN network can receive an image as an input and perform a task such as image classification.
  • a deep learning network may receive various different types of inputs to perform a specific task.
  • a deep learning network that receives and processes a plurality of types of inputs may be referred to as a multi-modal deep learning network.
  • the multi-modal deep learning network may perform a specific task based on the input data.
  • text-type input data may include texts constituting a question related to image-type input data
  • the multi-modal deep learning network performs a task (eg, For example, Visual Question Answering (VQA)) may be performed.
  • VQA Visual Question Answering
  • an electronic device may include a sub-network 130 and a deep neural network (DNN) network 160 .
  • the sub-network 130 may receive a plurality of different types of input data and extract feature values, and may include different types of sub-networks according to each input type.
  • the plurality of different types of input data may include, for example, image type data, text type data, sound type data, or image type data. However, it is not limited to the above-mentioned example.
  • the image-type data 110 may be input to the CNN sub-network 131 , and the first sub-feature information 140 may be extracted (obtained) from the CNN sub-network 131 .
  • text-type data 120 may be input to the BLSTM 132 , and the second sub-feature information 150 may be extracted from the BLSTM 132 .
  • the extracted first sub-feature information 140 and second sub-feature information 150 are input to a DNN network (eg, an LSTM network, 160 ), and an output value 170 for a specific task from the DNN network 160 . this can be obtained.
  • a DNN network eg, an LSTM network, 160
  • image-type data 110 and text-type data 120 may be input to the subnetwork 130 , and the text-type data 120 is the image-type data 110 . It may be a related question.
  • the text-type data 120 may include a plurality of words 121 , 122 , 123 , and 124 constituting a question related to the image-type data 110 .
  • the sub-network 130 may extract the first sub-characteristic information 140 and the second sub-characteristic information 150 based on the input information.
  • the first sub-characteristic information 140 may be image-related feature information, and for example, may include information for distinguishing a specific object from a background in the image.
  • the second sub-characteristic information 150 may be characteristic information related to a plurality of words constituting the question, for example, information for distinguishing the interrogative word 121 and the object 124 from the plurality of words constituting the question. may include
  • the extracted first sub-feature information 140 and second sub-feature information 150 are input to a DNN network (eg, an LSTM network, 160 ), and an output value 170 for a specific task from the DNN network 160 . ), for example, an answer to a question can be obtained.
  • a DNN network eg, an LSTM network, 160
  • an output value 170 for a specific task from the DNN network 160 for example, an answer to a question can be obtained.
  • the electronic device may receive various different types of inputs, extract feature values for each type required to perform a specific task, and perform a task by combining the extracted feature values for each type.
  • learning for
  • different types of input data may have different levels of importance in performing a task. For example, in performing a particular task, image input data may be more important than text input data. Accordingly, in a multi-modal deep learning network, when a specific task is performed by reflecting a weight for each type indicating the importance of a plurality of variable multi-modal inputs, the performance of the multi-modal deep learning network can be improved.
  • the electronic device may perform a specific task based on a weight for each type of input data of different types.
  • FIG. 2 is a block diagram illustrating an internal configuration of an electronic device according to an exemplary embodiment.
  • the electronic device 200 may include an input interface 210 , a processor 220 , a memory 230 , and an output interface 240 .
  • the input interface 210 means a means for a user to input data for controlling the electronic device 200 .
  • the input interface 210 includes a camera, a microphone, a key pad, a dome switch, and a touch pad (contact capacitive method, pressure resistance film method, infrared sensing method, surface ultrasonic conduction). method, integral tension measurement method, piezo effect method, etc.), a jog wheel, a jog switch, etc., but is not limited thereto.
  • the input interface 210 may receive a user input required for the electronic device 200 to perform a specific task.
  • the user input includes image data and sound data
  • the input interface 210 may receive the user's image data input and sound data input through a camera and a microphone, respectively.
  • the input interface 210 may receive various types of user inputs through various means.
  • the output interface 240 may output an audio signal, a video signal, or a vibration signal, and the output interface 240 may include at least one of a display unit, a sound output device, and a vibration motor.
  • the output interface 240 may output an output value obtained by performing a specific task according to input data. For example, when the input data is image data and data including a question related to the image data (eg, text data or sound data), the answer to the question is displayed in text through the display unit or an audio output device is used. can be output as sound.
  • the processor 220 may control the overall operation of the electronic device 200 . Also, the processor 220 may control other components included in the electronic device 200 to perform a predetermined operation.
  • the processor 220 may execute one or more programs stored in the memory 230 .
  • the processor 220 may include a single core, a dual core, a triple core, a quad core, and multiple cores thereof. Also, the processor 220 may include a plurality of processors.
  • the processor 220 may include an AI-only processor designed with a hardware structure specialized for processing a neural network model.
  • the processor 220 may generate a neural network model, learn a neural network model, or perform an operation based on input data received using the neural network model and generate output data.
  • Neural network models include, for example, Convolutional Neural Network (CNN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Long Short-Term Memory (LSTM). models), BLSTM (Bidirectional LSTM), BRDNN (Bidirectional Recurrent Deep Neural Network), or deep Q-Networks may include various types of neural network models, but is not limited thereto.
  • the processor 220 may calculate the importance of different types of inputs, and may output a final output value corresponding to a preset task by applying a weight for each type in which the calculated importance is reflected.
  • the processor 220 may receive input data of different types and extract sub-feature information for each of the input data.
  • the processor 220 may encode the extracted sub-feature information and transmit it to the DNN network.
  • the processor 220 may acquire feature information extracted from each of a plurality of layers of the DNN network.
  • the processor 220 may calculate a weight for each type using the extracted sub-feature information and the feature information extracted from the DNN network.
  • the processor 220 may output a final output value corresponding to a preset task by applying the calculated weight for each type to the DNN network.
  • the memory 230 may store various data, programs, or applications for driving and controlling the electronic device 200 .
  • a program stored in the memory 230 may include one or more instructions.
  • a program (one or more instructions) or an application stored in the memory 230 may be executed by the processor 220 .
  • the memory 230 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM.
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory magnetic disk
  • magnetic disk may include at least one type of storage medium among optical disks.
  • 3A is a diagram for describing an operation performed by a processor according to an exemplary embodiment.
  • the electronic device 200 may generate a weight for each type in which the importance of each type of input data of different types is reflected.
  • the electronic device 200 according to an embodiment may include a sub-network 320 , an encoder 340 , a weight generator for each type 350 , and a DNN network 360 .
  • the sub-network 320 may receive the plurality of input data 310 and extract sub-characteristic information 330 for each of the plurality of input data.
  • the plurality of input data 310 may be different types of input data
  • the sub-network 320 may include different types of sub-networks according to the type of each input data 310 .
  • the sub-network 320 may include a CNN network and a BLSTM network.
  • a plurality of input data 310 will be described as including image data (V) and sound data (S).
  • V image data
  • S sound data
  • the present invention is not limited thereto, and the plurality of input data 310 may include image data, text data, sound data, and the like.
  • the sub-feature information 330 which is feature information for the plurality of input data 310 extracted from the sub-network 320 , may be transmitted (or input) to the encoder 340 and the weight generator 350 for each type.
  • the sub feature information for the image data V and the sub feature information for the sound data S may be transmitted (or input) to the encoder 340 and the weight generator 350 for each type.
  • type identification information capable of distinguishing the type of the input data 310 is to be transmitted (or input) to the encoder 340 and the weight generator 350 for each type along with the sub-feature information 330 . can
  • the encoder 340 may encode the sub-characteristic information 330 based on type identification information capable of distinguishing the type of input data transmitted from the sub-network 320 .
  • the encoder 340 may encode the sub feature information 330 by concatenating the sub feature information 330 based on the type identification information.
  • the encoder 340 may transmit the encoded sub-feature information 370 to the DNN network 360 .
  • the DNN network 360 may be a network including a plurality of layers.
  • the DNN network 360 may receive the encoded sub-feature information 370 and extract feature information 380 from each of a plurality of layers, and the extracted feature information 380 may be used as a weight generator 350 for each type. ) can be transferred.
  • the weight generation unit 350 for each type is configured for each type of each of the plurality of layers based on the sub-feature information 330 received from the sub-network 320 and the feature information 380 extracted from each of the plurality of layers.
  • a weight 390 may be calculated.
  • the weight 390 for each type calculated by the type weight generator 350 may be a value that is multiplied by a preset weight value for each layer by reflecting the importance of each type for different types of data. Through this, a more accurate output value may be obtained by reflecting the importance of each type with respect to a specific task performed by the electronic device.
  • sub-feature information for an image type, sub-feature information for a sound type, and feature information extracted from each of a plurality of layers of the DNN network 360 are provided for each type. It may be input to the weight generator 350 .
  • the weight generation unit 350 for each type may calculate the weight 390 for each type based on the sub-feature information for the input image type, the sub-feature information for the sound type, and the feature information extracted from each of the plurality of layers. have.
  • the weight 390 for each type may be a value indicating the importance of each of the input data when the input data according to an embodiment includes different types of input data.
  • the type-specific weight generator 350 may calculate type-specific weights corresponding to each of the plurality of layers.
  • the DNN network 360 may obtain a final output value corresponding to a preset task by applying the weight 390 for each type calculated by the type weight generator 350 in each of the plurality of layers. For example, the DNN network 360 may apply this by multiplying preset weight values for a plurality of layers of the network by a weight 390 for each type calculated by the type weight generator 350 for each type.
  • FIG. 3B is a diagram illustrating in more detail the operation of the components included in FIG. 3A .
  • the electronic device 200 calculates a weight for each type in which the importance of each type for the input first type input data 311 and the second type input data 312 is reflected.
  • the type of input data is not limited to the above, and may include three or more types.
  • the electronic device 200 may include a sub-network 320 , an encoder 340 , a weight generator for each type 350 , and a DNN network 360 .
  • the sub-network 320 may receive the first type of input data 311 and extract the first sub characteristic information 331 , and receive the second type of input data 312 to receive the second sub characteristic information ( 332) can be extracted.
  • the first sub feature information 331 and the second sub feature information 332 extracted from the sub network 320 may be transmitted (or input) to the encoder 340 and the weight generator 350 for each type.
  • the type identification information for distinguishing the types of the first type of input data 311 and the second type of input data 312 is the first sub characteristic information 331 and the second sub characteristic information. It may be transmitted (or input) to the encoder 340 and the type-specific weight generator 350 together with 332 .
  • the encoder 340 uses the first sub-features based on the type identification information capable of distinguishing the types of the first type of input data 311 and the second type of input data 312 transmitted from the sub-network 320 .
  • the information 331 and the second sub-characteristic information 332 may be encoded and transmitted to the DNN network 360 .
  • the DNN network 360 may be a network including a plurality of layers.
  • the DNN network 360 may receive the encoded sub-feature information 370 and extract feature information 380 from each of the plurality of layers.
  • the feature information 381 on the first layer may be extracted from the first layer
  • the feature information 382 on the second layer may be extracted from the second layer.
  • Feature information 383 for the i layer may be extracted.
  • the extracted feature information 380 may be transmitted to the weight generator 350 for each type.
  • the feature information 380 is a preset weight value ( ) may be multiplied by
  • the weight generation unit 350 for each type is based on the first sub-feature information 331 and the second sub-feature information 332 received from the sub-network 320 and the feature information 380 extracted from each of the plurality of layers.
  • a weight 390 for each type of each of the plurality of layers may be calculated.
  • a weight 391 for each type corresponding to the first layer may be calculated
  • a weight 392 for each type corresponding to the second layer may be calculated
  • a weight 393 for each type corresponding to the i-th layer may be calculated.
  • the weight 390 for each type calculated by the type weight generator 350 may be a value in which the importance of each type with respect to the first type of input data 311 and the second type of input data 312 is reflected. have.
  • the DNN network 360 may obtain a final output value corresponding to a preset task by applying a weight 390 for each type in each of the plurality of layers.
  • FIG. 4 is a block diagram illustrating an internal configuration of a weight generator for each type according to an embodiment.
  • the weight generation unit 350 for each type includes a query information calculation unit 410 , a key information calculation unit 440 , a context information calculation unit 460 , and a weight calculation unit for each type ( 480) may be included.
  • the query information calculation unit 410 may calculate query information for each type indicating new characteristic information of the sub characteristic information for each type.
  • the query information calculation unit 410 includes the first sub-characteristic information ( ) and the second sub-characteristic information ( ) can be entered.
  • the first sub-characteristic information ( ) is sub feature information for the image input data (V)
  • the second sub feature information ( ) is sub-characteristic information for the sound input data (S).
  • the input data is not limited thereto and may include image input data, text input data, sound input data, or image input data.
  • the query information calculation unit 410 includes the first sub-characteristic information ( ) to receive the first query information ( ) can be calculated, and the second sub-feature information ( ) to receive the second query information ( ) can be calculated.
  • the query information calculation unit 410 includes the first sub-characteristic information ( ) and the pre-trained query matrix corresponding to the i-th layer of the DNN network ( ) using the first query information ( ), and the second sub-feature information ( ) and the pre-trained query matrix corresponding to the i-th layer ( ) using the second query information ( ) can be calculated.
  • first query information ( ) and the second query information ( ) indicates query information corresponding to the i-th layer of the DNN network.
  • the first query information ( ) is the first sub-feature information ( ) and the second sub-characteristic information ( ) for the first sub-characteristic information ( )
  • the second query information ( ) is the first sub-feature information ( ) and the second sub-characteristic information ( ) for the second sub-characteristic information ( ) can be characterized.
  • the first query information ( ) is the sub-feature information of the image type ( ) and sub-characteristic information of the sound type ( ) for sub-feature information of the image type ( ) can be characterized.
  • the second query information ( ) is the sub-feature information of the image type ( ) and sub-characteristic information of the sound type ( ) for sub-characteristic information of the sound type ( ) can be characterized.
  • the key information calculator 440 may calculate key information based on feature information extracted from each of a plurality of layers of the DNN network.
  • the key information calculation unit 440 includes feature information ( ) can be entered. At this time, the feature information extracted from each of the plurality of layers ( ) may have a mixture of image type and sound type characteristics.
  • the key information calculation unit 440 includes feature information ( ) to receive key information ( ) can be calculated.
  • the key information calculation unit 420 includes feature information extracted from the i-th layer of the DNN network ( ) and the pre-learned key matrix corresponding to the i-th layer of the DNN network ( ), the key information corresponding to the i-th layer of the DNN network ( ) can be calculated.
  • the key information ( ) is the feature information extracted from the i-th layer of the DNN network ( ), it may be a value reflecting the relative importance of the image type and the sound type.
  • the context information calculator 460 may calculate context information, which is a value indicating a correlation between query information and key information.
  • the context calculator 460 includes the first query information calculated by the query information calculator 410 ( ), the second query information ( ) and the key information calculated by the key information calculation unit 440 ( ) can be entered.
  • the first query information ( ), the second query information ( ) and key information ( ) may be a value corresponding to the i-th layer among a plurality of layers of the DNN network.
  • the context calculator 460 may include the first query information ( ) and key information ( ) using the first context information ( ) can be calculated, and the second query information ( ) and key information ( ) using the second context information ( ) can be calculated.
  • the first context information ( ) and the second context information ( ) may be a value corresponding to the i-th layer among a plurality of layers of the DNN network.
  • the first context information ( ) is the first query information ( ) and key information ( ) may be a value indicating the correlation of
  • the second context information ( ) is the second query information indicating the relative importance of the sound type (S) in the ith layer of the DNN network ( ) and key information ( ) may be a value indicating the correlation of
  • the weight calculation unit 480 for each type may calculate a weight for each type capable of assigning a weight to an important type of input data from a plurality of types of input data.
  • the weight calculation unit 480 for each type includes the first context information ( ) and the second context information ( ) to weight by type ( ) can be calculated. Weights for each type ( ) may be a value corresponding to the i-th layer among a plurality of layers of the DNN network.
  • the weight calculation unit 480 for each type is configured to calculate one type of weight ( ) can be calculated.
  • the first context information ( ) and the second context information ( ) using the maximum value among the weights ( ) can be calculated.
  • the weight calculation unit 480 for each type may include a plurality of weights for each type per plurality of layers of the DNN network ( , ) can be calculated.
  • the first context information ( ) for each type weight for the first type of image type ( ), and the second context information ( ) for each type weight for the second type of sound type ( ) can be calculated.
  • FIG. 5 is a diagram for describing a detailed operation of a query information calculator according to an embodiment.
  • the query information calculation unit 410 includes the first sub-characteristic information ( ) and the pre-trained query matrix ( ) using the first query information ( ) can be calculated, and the second sub-feature information ( ) and the pre-trained query matrix ( ) using the second query information ( ) can be calculated.
  • the pre-learned query matrix ( ), the first query information ( ) and the second query information ( ) may be a value corresponding to the i-th layer 510 among a plurality of layers of the DNN network.
  • first query information ( ) and the second query information ( ) can be calculated through Equation 1 below.
  • Equation 1 means the first sub-feature information, means the second sub-characteristic information, means the first query information, means the second query information, is a pre-learned query matrix.
  • a pre-learned query matrix is the first sub-feature information ( ) is the second sub-feature information ( ) to indicate the relative importance of the first sub-feature information ( ) and a value that performs the dot product.
  • the pre-learned query matrix ( ) is the second sub-feature information ( ) is the first sub-feature information ( ) to indicate the relative importance of the second sub-feature information ( ) and a value that performs the dot product.
  • a pre-learned query matrix is the first sub-characteristic information ( ) and the second sub-characteristic information ( ) may be a matrix including parameters related to ), and may be a value previously learned to correspond to the i-th layer among a plurality of layers of the DNN network.
  • the electronic device 200 may calculate a weight for each type in which the importance of input of various different types (eg, V and S) is reflected.
  • the query matrix used to calculate the weight for each type can be learned to have an optimal value, and the trained query matrix to have an optimal value is converted to a pre-learned query matrix ( ) can be defined as
  • the query information calculator 410 uses a pre-learned query matrix corresponding to each of the plurality of layers of the DNN network to perform a first query corresponding to each of the plurality of layers of the DNN network.
  • information and second query information may be calculated.
  • the query information calculation unit 410 includes the first sub-feature information ( ) and the pre-trained query matrix defined in the first layer 520 of the DNN network ( ) by performing the dot product of the first query information for the first layer 520 of the DNN network ( ) can be calculated.
  • the query information calculation unit 410 is the second sub-feature information ( ) and the pre-trained query matrix defined in the first layer 520 of the DNN network ( ) by performing the dot product of the second query information for the first layer 520 of the DNN network ( ) can be calculated.
  • FIG. 6 is a diagram for explaining a specific operation of the key information calculation unit according to an embodiment.
  • the key information calculation unit 420 includes feature information ( ) and the pre-learned key matrix ( ) to key information ( ) can be calculated.
  • the characteristic information ( ), the pre-trained key matrix ( ) and key information ( ) may be a value corresponding to the i-th layer 610 among a plurality of layers of the DNN network.
  • Equation 1 means feature information, means key information, is a pre-learned key matrix.
  • a pre-learned key matrix according to an embodiment ( ) is the feature information ( ), so that the relative importance of image type (V) and sound type (S) can be shown, ) and a value that performs the dot product.
  • a pre-learned key matrix according to an embodiment ( ) may be a matrix including parameters related to the image type (V) and the sound type (S), and may be a value previously learned to correspond to an i-th layer among a plurality of layers of a DNN network.
  • the electronic device 200 may calculate a weight for each type in which the importance of input of various different types (eg, V and S) is better reflected.
  • the key matrix used to calculate the weight for each type can be learned to have an optimal value, and the key matrix that has been trained to have an optimal value is replaced with the pre-learned key matrix ( ) can be defined as
  • the key information calculator 420 calculates key information corresponding to each of the plurality of layers of the DNN network by using a pre-learned key matrix corresponding to each of the plurality of layers of the DNN network. can be calculated
  • the key information calculation unit 420 includes the feature information ( ) and the pre-learned key matrix defined in the first layer 620 of the DNN network ( ) by performing the dot product of the key information for the first layer 620 of the DNN network ( ) can be calculated.
  • FIG. 7 is a diagram for describing a specific operation of a context information calculator according to an embodiment.
  • the context information calculation unit 430 performs first query information ( ) and key information ( ) using the first context information ( ) can be calculated, and the second query information ( ) and key information ( ) using the second context information ( ) can be calculated.
  • the first query information ( ), the second query information ( ), the first context information ( ), the second context information ( ) and key information ( ) may be a value corresponding to the i-th layer among a plurality of layers of the DNN network.
  • first context information ( ) and the second context information ( ) can be calculated through Equation 3 below.
  • Equation 3 means the first query information, means the second query information, means key information, means the first context information, is second context information.
  • the first query information indicating the relative importance of the image type (V) ( ) and key information ( ), the first query information ( ) and key information ( ), which is a value indicating the correlation of the first context information ( ) can be calculated.
  • the second query information indicating the relative importance of the sound type (S) ( ) and key information ( ), the second query information ( ) and key information ( ), which is a value indicating the correlation of the second context information ( ) can be calculated.
  • the first context information ( ) is the second context information ( ), the first query information ( ) and key information ( ) may be determined to be greater, and the relative importance of the first type (V) may be determined to be greater than that of the second type (S).
  • the context information calculator 430 uses the first query information, the second query information, and key information corresponding to each of the plurality of layers of the DNN network to form a plurality of layers of the DNN network. First context information and second context information corresponding to each may be calculated.
  • the context information calculator 430 may include first query information ( ) and key information for the first layer of the DNN network ( ) by performing the dot product of the first context information for the first layer of the DNN network ( ) can be calculated.
  • the context information calculation unit 430 provides the second query information for the first layer of the DNN network ( ) and key information for the first layer of the DNN network ( ) by performing the dot product of the second context information for the first layer of the DNN network ( ) can be calculated.
  • FIG. 8 is a diagram for describing a detailed operation of a weight calculator for each type according to an exemplary embodiment.
  • the weight calculation unit 440 for each type provides first context information ( ) and the second context information ( ) to weight by type ( ) can be calculated.
  • the first context information ( ), the second context information ( ) and weights by type ( ) may be a value corresponding to the i-th layer 810 among a plurality of layers of the DNN network.
  • the weight calculation unit 440 for each type is configured to calculate one type of weight ( ) can be calculated, and the weight ( ) can be calculated through Equation 4 below.
  • Equation 4 means the first context information, means the second context information, is the weight for each type
  • the normalized maximum value of context information for the i-th layer among the plurality of layers is weighted ( ) can be used as The weight calculation unit 440 for each type performs the first context information ( ) and the second context information ( ) of the first context information ( ) and the second context information ( ) by dividing by the sum of weights ( ) can be calculated.
  • the calculated weight for each type ( ) may be a value capable of assigning a weight to input data of an important type in input data having a plurality of types.
  • the electronic device 200 calculates a weight ( ) is the preset weight value of the DNN network ( ) can be applied by multiplying
  • the weight calculation unit 440 for each type is configured for a plurality of type weights ( , ) can be calculated, and the weights for each of the plurality of types can be calculated through Equation 5 below.
  • Equation 5 means the first context information, means the second context information, denotes the weight for each first type, denotes a weight for each second type.
  • the weight calculation unit 440 for each type may use a normalized value of context information for an i-th layer among a plurality of layers as a weight for each type.
  • the weight calculation unit 440 for each type performs the first context information ( ) to the first context information ( ) and the second context information ( ) by dividing by the sum of the first type weight ( ) can be calculated, and the second context information ( ) to the first context information ( ) and the second context information ( ) by dividing by the sum of the weights ( ) can be calculated.
  • the calculated weight for each first type ( ) and weights by type 2 ( ) may be a value capable of assigning a weight to input data of an important type in input data having a plurality of types.
  • the electronic device 200 may include a plurality of calculated weights ( and ) is the preset weight value of the DNN network ( ) can be applied by multiplying
  • the weight calculation unit 440 for each type is applied to each of the plurality of layers of the DNN network by using the first context information and the second context information corresponding to each of the plurality of layers of the DNN network.
  • a weight for each corresponding type can be calculated.
  • the weight calculation unit 440 for each type calculates the weight for each type for the first layer 820 of the DNN network ( or and ) can be calculated.
  • FIG. 9 is a flowchart illustrating a method of obtaining, by an electronic device, first sub feature information, second sub feature information, and feature information for each layer to obtain a final output value, according to an embodiment.
  • the electronic device 200 may obtain first sub-feature information and second sub-feature information.
  • the first sub-characteristic information ( ) may be information extracted by receiving the first type of input data V by the subnetwork.
  • the second sub-characteristic information ( ) may be information extracted by receiving the second type of input data (S) from the subnetwork.
  • the first type is an image type (V)
  • the second type is a sound type (S) as an example, but is not limited thereto.
  • the input data is input in two types as an example, the present invention is not limited thereto, and may exist in two or more types.
  • the electronic device may input the obtained first sub-feature information and second sub-feature information to the DNN network.
  • the obtained first sub-feature information and second sub-feature information may be transmitted (or input) to the encoder.
  • type identification information capable of distinguishing the type of input data may be transmitted (or input) to the encoder together with sub-feature information.
  • the encoder may encode the first sub-feature information and the second sub-feature information based on the transmitted type identification information and transmit it to the DNN network.
  • the encoder may encode and transmit the first sub-feature information and the second sub-feature information to the DNN network by concatenating them based on the type identification information.
  • the electronic device 200 may obtain feature information extracted from each of a plurality of layers of the DNN network.
  • the DNN network 360 may receive the encoded first sub-feature information and the second sub-feature information and extract feature information 370 from each of the plurality of layers.
  • the feature information 370 is a preset weight value ( ) may be multiplied by
  • the first layer includes encoded first sub-feature information ( ) and the second sub-characteristic information ( ) can be entered.
  • Feature information about the first layer ( ) may be a value obtained by multiplying the encoded first and second sub-feature information input to the first layer by a preset weight value w 1 of the first layer.
  • the second layer includes feature information about the first layer ( ) can be entered.
  • the feature information (K 2 (V,S)) for the second layer is the feature information (K 2 (V,S)) for the first layer input to the second layer. ) multiplied by a preset weight value w 2 of the second layer.
  • the feature information (K i (V,S)) for the i-th layer among the plurality of layers of the DNN network is the feature information (K i-1 (V, V, S)) may be a value obtained by multiplying a preset weight value w i of the i-th layer.
  • the electronic device 200 may calculate a weight for each type corresponding to each of the plurality of layers based on the obtained first sub-feature information, second sub-feature information, and feature information.
  • a weight ( ) may be calculated by the weight generator 350 for each type.
  • the weight generation unit 350 for each type includes the first sub-characteristic information ( ) and the second sub-characteristic information ( ) and feature information ( ) based on the weight ( ) can be calculated.
  • the weight ( ) may be a value reflecting the relative importance of the first type (V) and the second type (S), and may be a value corresponding to each of a plurality of layers of the DNN network.
  • the electronic device 200 may obtain a final output value corresponding to a preset task by applying a weight for each type calculated in each of a plurality of layers of the DNN network.
  • the DNN network calculates the weight ( ) may be applied to each of the plurality of layers to obtain a final output value corresponding to a preset task.
  • the DNN network has a preset weight value ( ) for each type weight for the i-th layer ( ) can be applied by multiplying
  • step 940 S940
  • step 940 S940
  • step S1010 may be performed after step S930 of FIG. 9 .
  • the electronic device 200 may obtain first query information and second query information corresponding to each of the plurality of layers of the DNN network.
  • the first query information ( ) and the second query information ( ) may be calculated by the query information calculation unit 410 .
  • the query information calculation unit 410 includes the first sub-characteristic information ( ) and the pre-trained query matrix ( ) using the first query information ( ) can be calculated. Similarly, in an embodiment, the query information calculation unit 410 includes the second sub-characteristic information ( ) and the pre-trained query matrix ( ) using the second query information ( ) can be calculated.
  • the pre-learned query matrix, the first query information, and the second query information may be values corresponding to each of a plurality of layers of the DNN network.
  • the query information calculation unit 410 includes the first sub-characteristic information ( ) and the pre-trained query matrix ( ) by performing the dot product of the first query information ( ) can be calculated. Similarly, the query information calculation unit 410 is the second sub-characteristic information ( ) and the pre-trained query matrix ( ) by performing the dot product of the second query information ( ) can be calculated.
  • the pre-learned query matrix ( ) is the first sub-feature information ( ) is the second sub-feature information ( ) may be a pre-learned value to indicate the relative importance compared to .
  • the pre-learned query matrix ( ) is the second sub feature information ( ) is the first sub-feature information ( ) may be a pre-learned value to indicate the relative importance compared to .
  • the pre-learned query matrix ( ) is the first sub-characteristic information ( ) and the second sub-characteristic information ( ) may be a matrix including parameters related to ), and may be a value previously learned to correspond to each of a plurality of layers of a DNN network.
  • the electronic device 200 may obtain key information corresponding to each of a plurality of layers of the DNN network.
  • key information corresponding to each of a plurality of layers ( ) may be calculated by the key information calculation unit 420 .
  • the key information calculation unit 420 includes feature information ( ) and the pre-learned key matrix ( ) using the key information ( ) can be calculated.
  • the feature information, the pre-learned key matrix, and the key information may be values corresponding to each of a plurality of layers of the DNN network.
  • the key information calculation unit 420 includes feature information ( ) and the pre-learned key matrix ( ) by performing the dot product of the key information ( ) can be calculated.
  • the pre-learned key matrix ( ) is the feature information extracted from the i-th layer of the DNN network ( ), it may be a pre-learned value so that the relative importance of the image type (V) and the sound type (S) can be shown.
  • the pre-learned key matrix ( ) may be a matrix including parameters related to the image type (V) and the sound type (S), and may be a value previously learned to correspond to each of a plurality of layers of a DNN network.
  • the electronic device 200 may obtain first context information and second context information corresponding to each of a plurality of layers of the DNN network.
  • the first context information ( ) and the second context information ( ) may be calculated by the context information calculation unit 430 .
  • the context information calculation unit 430 is the first query information ( ) and key information ( ) using the first context information ( ) can be calculated.
  • the context information calculation unit 430 may include the second query information ( ) and key information ( ) using the second context information ( ) can be calculated.
  • the first query information, the second query information, the first context information, the second context information, and the key information may be values corresponding to each of the plurality of layers of the DNN network.
  • the context information calculation unit 430 is the first query information ( ) and key information ( ) by performing the dot product of the first context information ( ) can be calculated.
  • the context information calculation unit 430 may include the second query information ( ) and key information ( ) by performing the dot product of the second context information ( ) can be calculated.
  • the first context information ( ) is the first query information ( ) and key information ( ) may be a value indicating the correlation of the second context information ( ) is the second query information ( ) and key information ( ) may be a value indicating the correlation of
  • the first context value ( ) is the second context value ( ), it may be determined that the correlation between the first query information and the key information is greater than the correlation between the second query information and the key information, and the relative importance of the first type (V) is greater than that of the second type (S). can be judged to be
  • the electronic device 200 may calculate a weight for each type corresponding to each of a plurality of layers of the DNN network.
  • a weight ( ) may be calculated by the weight calculation unit 440 for each type.
  • the weight calculation unit 440 for each type includes the first context information ( ) and the second context information ( ) for one type-specific weight per multiple layers of the DNN network ( ) can be calculated.
  • the weight calculation unit 440 for each type includes the first context information ( ) and the second context information ( ) for a plurality of types of weights per a plurality of layers of the DNN network (for example, , the second type of weight can be calculated.
  • the first context information, the second context information, and the weight for each type may be values corresponding to each of a plurality of layers of the DNN network.
  • the first context information ( ) and the second context information ( ) of the first context information ( ) and the second context information ( ) by dividing by the sum of one type of weight ( ) can be calculated.
  • first context information ( ) to the first context information ( ) and the second context information ( ) by dividing by the sum of the first type weight ( ) can be calculated, and the second context information ( ) to the first context information ( ) and the second context information ( ) by dividing by the sum of the weights ( ) can be calculated.
  • the electronic device 200 may obtain a final output value corresponding to a preset task by applying a weight for each type calculated in each of a plurality of layers of the DNN network.
  • the DNN network calculates the weight ( ) may be applied to each of the plurality of layers to obtain a final output value corresponding to a preset task.
  • the DNN network has a preset weight value ( ) for each type weight for the i-th layer ( ) can be applied by multiplying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

Deep Neural Network(DNN)을 이용하여, 기 설정된 태스크(task)를 수행하는 전자 장치에 관한 것으로, 제1 유형의 입력 데이터 및 제2 유형의 입력 데이터를 입력 받는 입력 인터페이스, 하나 이상의 인스트럭션들을 저장하는 메모리, 및 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서는, 제1 유형의 입력 데이터에 대응하는 제1 서브 특징 정보 및 제2 유형의 입력 데이터에 대응하는 제2 서브 특징 정보를 획득하고, 제1 서브 특징 정보 및 제2 서브 특징 정보를 DNN으로 입력하여, DNN의 복수의 레이어들 각각으로부터 특징 정보를 획득하고, 특징 정보와 제1 서브 특징 정보 및 제2 서브 특징 정보에 기초하여, 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하고, 복수의 레이어들 각각에서, 유형 별 가중치를 적용함으로써, 기 설정된 태스크에 대응하는 최종 출력 값을 획득하는, 전자 장치.

Description

멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
다양한 실시예들은 멀티 모달 데이터를 처리하는 전자 장치에 관한 것으로서, 보다 상세하게는 서로 다른 유형의 입력 데이터들을 이용하여, 특정 태스크를 수행하는 전자 장치 및 그 동작 방법에 관한 것이다.
딥러닝(deep learning)은 컴퓨팅 시스템이 인간과 유사한 동작을 수행할 수 있도록 하는 기계학습(machine learning) 기술이다. 딥러닝 네트워크 기술이 발전함에 따라, 다양한 유형의 입력(예를 들어, 이미지 모드의 입력, 텍스트 모드의 입력 등)을 받아서 특정 태스크(task)를 수행하는 기술에 대한 연구가 활발히 진행되고 있다. 최근에는 다양한 유형의 입력에 대해 각 유형 별 중요도를 고려해서 네트워크의 성능을 개선할 수 있는 기술들이 논의되고 있다. 다양한 유형의 입력에 대해, 정확하고 빠른 태스크의 수행을 위해서는, 각 유형 별 중요도가 반영된 가중치를 생성할 수 있는 장치가 필요하다.
서로 다른 유형의 입력에 대한 중요도를 산출하고, 산출된 중요도가 반영된 유형 별 가중치를 생성하여 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법을 제공된다.
본 개시의 일 측면에 따르면, Deep Neural Network(DNN)을 이용하여 기 설정된 태스크(task)를 수행하는 전자 장치는, 제1 유형의 입력 데이터 및 제2 유형의 입력 데이터를 입력 받는 입력 인터페이스, 하나 이상의 인스트럭션들을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서는, 상기 제1 유형의 입력 데이터에 대응하는 제1 서브 특징 정보 및 상기 제2 유형의 입력 데이터에 대응하는 제2 서브 특징 정보를 획득하고, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 상기 DNN으로 입력하여, 상기 DNN의 복수의 레이어들 각각으로부터 특징 정보를 획득하고, 상기 특징 정보와 상기 제1 서브 특징 정보 및 제2 서브 특징 정보에 기초하여, 상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하고, 상기 복수의 레이어들 각각에서, 상기 유형 별 가중치를 적용함으로써, 상기 기 설정된 태스크에 대응하는 최종 출력 값을 획득할 수 있다.
프로세서는, 기학습된 제1 서브 네트워크에 상기 제1 유형의 입력 데이터를 입력함으로써 상기 제1 서브 특징 정보를 획득하고, 기학습된 제2 서브 네트워크에 상기 제2 유형의 입력 데이터를 입력함으로써 상기 제2 서브 특징 정보를 획득하도록 더 구성될 수 있다.
프로세서는, 입력 데이터의 유형을 구분할 수 있는 유형 식별 정보에 기초하여, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 부호화하고, 상기 부호화된 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 상기 DNN으로 입력할 수 있도록 더 구성될 수 있다.
프로세서는, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 연쇄(concatenation)함으로써 부호화할 수 있도록 더 구성될 수 있다.
프로세서는, 상기 제1 서브 특징 정보 및 상기 복수의 레이어들 각각에 대응하는 기학습된 쿼리 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 제1 쿼리 정보를 획득하고, 상기 제1 쿼리 정보는 상기 제1 서브 특징 정보의 가중치를 나타내며, 상기 제2 서브 특징 정보 및 기학습된 쿼리 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 제2 쿼리 정보를 획득할 수 있으며, 상기 제2 쿼리 정보는 상기 제2 서브 특징 정보의 가중치를 나타내며, 상기 기학습된 쿼리 행렬은, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보와 관련된 파라미터들을 포함하도록 더 구성될 수 있다.
프로세서는, 상기 복수의 레이어들 각각에서 추출되는 특징 정보 및 상기 복수의 레이어들 각각에 대응하는 기학습된 키 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 키 정보를 획득하도록 더 구성될 수 있다.
프로세서는, 상기 제1 쿼리 정보와 상기 키 정보의 상관 관계를 나타내고, 상기 복수의 레이어들 각각에 대응되는 제1 콘텍스트 정보를 획득하고, 상기 제2 쿼리 정보와 상기 키 정보의 상관 관계를 나타내고, 상기 복수의 레이어들 각각에 대응되는 제2 콘텍스트 정보를 획득하도록 더 구성될 수 있다.
프로세서는, 상기 복수의 레이어들 각각에 대응되는 상기 제1 콘텍스트 정보 및 상기 제2 콘텍스트 정보에 기초하여, 상기 복수의 레이어들 각각에 대응되는 상기 유형 별 가중치를 계산하도록 더 구성될 수 있다.
상기 제1 유형의 입력 데이터 및 상기 제2 유형의 입력 데이터는, 이미지 데이터, 텍스트 데이터, 사운드 데이터 및 영상 데이터 중 적어도 하나를 포함할 수 있다.
본 개시의 다른 측면에 따르면 Deep Neural Network(DNN)을 이용하여, 기 설정된 태스크(task)를 수행하는 전자 장치의 동작방법은, 제1 타입의 입력 데이터 및 제2 타입의 입력 데이터를 입력 받는 단계, 상기 제1 타입의 입력 데이터에 대응하는 제1 서브 특징 정보 및 상기 제2 타입의 입력 데이터에 대응하는 제2 서브 특징 정보를 획득하는 단계, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 상기 DNN으로 입력하여, 상기 DNN의 복수의 레이어들 각각으로부터 특징 정보를 획득하는 단계, 상기 특징 정보와 상기 제1 서브 특징 정보 및 제2 서브 특징 정보에 기초하여, 상기 복수의 레이어들 각각에 대응하는 타입 별 가중치를 계산하는 단계, 및 상기 복수의 레이어들 각각에서, 상기 타입 별 가중치를 적용함으로써, 상기 기 설정된 태스크에 대응하는 최종 출력 값을 획득하는 단계를 포함할 수 있다.
상기 제1 유형의 입력 데이터에 대응하는 제1 서브 특징 정보 및 상기 제2 유형의 입력 데이터에 대응하는 제2 서브 특징 정보를 획득하는 단계는, 기학습된 제1 서브 네트워크에 상기 제1 유형의 입력 데이터를 입력함으로써 상기 제1 서브 특징 정보를 획득하는 단계 및 기학습된 제2 서브 네트워크에 상기 제2 유형의 입력 데이터를 입력함으로써 상기 제2 서브 특징 정보를 획득하는 단계를 포함할 수 있다.
상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 상기 DNN으로 입력하는 단계는, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 부호화하는 단계 상기 부호화된 상기 제1 서브 특징 정보 및 상기 부호화된 제2 서브 특징 정보를 상기 DNN으로 입력하는 단계를 포함할 수 있다.
상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 부호화하는 단계는, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 연쇄(concatenation)함으로써 부호화하는 단계를 포함할 수 있다.
상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하는 단계는, 상기 제1 서브 특징 정보 및 상기 복수의 레이어들 각각에 대응하는 기학습된 쿼리 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 제1 쿼리 정보를 획득하는 단계; 및 상기 제2 서브 특징 정보 및 상기 기학습된 쿼리 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 제2 쿼리 정보를 획득하는 단계를 포함할 수 있다.. 상기 제1 쿼리 정보는 상기 제1 서브 특징 정보의 가중치를 나타내고, 상기 제2 쿼리 정보는 상기 제2 서브 특징 정보의 가중치를 나타내며, 상기 기학습된 쿼리 행렬은, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보와 관련된 파라미터들을 포함할 수 있다.
상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하는 단계는, 상기 복수의 레이어들 각각에서 추출되는 특징 정보 및 상기 복수의 레이어들 각각에 대응하는 기학습된 키 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 키 정보를 획득하는 단계를 더 포함할 수 있다.
상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하는 단계는, 상기 제1 쿼리 정보와 상기 키 정보의 상관 관계를 나타내고, 상기 복수의 레이어들 각각에 대응되는 제1 콘텍스트 정보를 획득하는 단계 및 상기 제2 쿼리 정보와 상기 키 정보의 상관 관계를 나타내고, 상기 복수의 레이어들 각각에 대응되는 제2 콘텍스트 정보를 획득하는 단계를 더 포함할 수 있다.
상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하는 단계는, 상기 복수의 레이어들 각각에 대응되는 상기 제1 콘텍스트 정보 및 상기 제2 콘텍스트 정보에 기초하여, 상기 복수의 레이어들 각각에 대응되는 상기 유형 별 가중치를 계산하는 단계를 더 포함할 수 있다.
상기 제1 유형의 입력 데이터 및 상기 제2 유형의 입력 데이터는, 이미지 데이터, 텍스트 데이터, 사운드 데이터 및 영상 데이터 중 적어도 하나를 포함할 수 있다.
본 개시의 또 다른 측면에 따르면, 본 발명의 또 다른 양태에 따르면, 컴퓨터로 읽을 수 있는 기록매체는 멀티모달 데이터 처리방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체일 수 있다.
도 1은 일 실시예에 따른 복수의 입력에 대한 출력 값을 생성하는 전자 장치를 나타낸 도면이다.
도 2는 일 실시예에 따른 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 3a는 일 실시예에 따른 프로세서에서 수행되는 동작을 설명하기 위한 도면이다.
도 3b는 도 3a에 포함된 구성들의 동작을 더 상세하게 나타내는 도면이다.
도 4는 일 실시예에 따른 가중치 생성부의 내부 구성을 설명하기 위한 블록도이다.
도 5는 일 실시예에 따른 쿼리 정보 계산부의 구체적인 동작을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 키 정보 계산부의 구체적인 동작을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 컨텍스트 정보 계산부의 구체적인 동작을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 모드 별 가중치 계산부의 구체적인 동작을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 전자 장치가 제1 서브 특징 정보, 제2 서브 특징 정보 및 레이어 별 특징 정보를 획득하여, 최종 출력 값을 획득하는 방법을 나타내는 흐름도이다.
도 10은 도 9의 단계를 구체적으로 나타내는 흐름도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명의 일 실시예에 대해 구체적으로 설명하기로 한다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이하, 본 개시의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 일 실시예에 따른 전자 장치가 복수의 입력에 대한 출력 값을 생성하는 일 예를 나타낸 도면이다.
일반적인 딥러닝 네트워크는 한가지 유형의 입력을 받아 특정 태스크(task)를 수행할 수 있다. 예를 들어 상기 일반적인 딥러닝 네트워크는 이미지를 입력으로 받아 처리하는 CNN(Convolution Neural Network) 네트워크 또는 텍스트를 입력으로 받아 처리하는 LSTM(Long Short-Term Memory models) 네트워크일 수 있다. 일례로 CNN 네트워크는 이미지를 입력으로 받아 이미지 분류와 같은 태스크를 수행할 수 있다.
일 실시예에 따른 딥러닝 네트워크는 여러가지 다른 유형의 입력을 받아 특정 태스크를 수행할 수 있다. 이와 같이 복수의 유형의 입력을 받아 처리하는 딥러닝 네트워크를 멀티 모달(multi-modal) 딥러닝 네트워크로 칭할 수 있다. 예를 들어, 일 실시예에 따른 멀티 모달 딥러닝 네트워크는 이미지 데이터 및 텍스트 데이터가 입력되면, 입력된 데이터들에 기초하여, 특정 태스크를 수행할 수 있다. 예를 들어, 텍스트 유형의 입력 데이터는 이미지 유형의 입력 데이터와 관련된 질문을 구성하는 텍스트들을 포함할 수 있으며, 멀티 모달 딥러닝 네트워크는 상기 질문에 대한 답변을 구성하는 텍스트들을 출력하는 태스크(예를 들어, Visual Question Answering(VQA))를 수행할 수 있다.
도 1을 참조하면, 일 실시예에 따른 전자 장치는 서브 네트워크(130) 및 DNN(Deep Neural Network) 네트워크(160)를 포함할 수 있다. 서브 네트워크(130)는 복수의 다른 유형의 입력 데이터를 받아 특징 값을 추출할 수 있고, 각 입력의 유형에 따라 다른 종류의 서브 네트워크가 포함되어 구성될 수 있다. 이때 복수의 다른 유형의 입력 데이터는 예를 들어 이미지 유형의 데이터, 텍스트 유형의 데이터, 사운드 유형의 데이터, 또는 영상 유형의 데이터를 포함할 수 있다. 다만, 전술한 예에 한정되지 않는다.
일 실시예에 따르면, 이미지 유형의 데이터(110)는 CNN 서브 네트워크(131)에 입력되고, CNN 서브 네트워크(131)로부터 제 1 서브 특징 정보(140)가 추출(획득)될 수 있다. 또한, 텍스트 유형의 데이터(120)는 BLSTM(132)에 입력되고, BLSTM(132)으로부터 제 2 서브 특징 정보(150)가 추출될 수 있다. 추출된 제 1 서브 특징 정보(140) 및 제 2 서브 특징 정보(150)는 DNN 네트워크(예를 들어 LSTM 네트워크, 160)로 입력되고, DNN 네트워크(160)로부터 특정 태스크에 대한 출력 값(170)이 획득될 수 있다.
도시된 예에 따르면, 이미지 유형의 데이터(110) 및 텍스트 유형의 데이터(120)가 서브 네트워크(130)에 입력될 수 있으며, 상기 텍스트 유형의 데이터(120)는 상기 이미지 유형의 데이터(110)에 관련된 질문일 수 있다. 예를 들어, 텍스트 유형의 데이터(120)는 상기 이미지 유형의 데이터(110)에 관련된 질문을 구성하는 복수의 단어(121, 122, 123, 124)를 포함할 수 있다.
서브 네트워크(130)는 상기 입력된 정보에 기반하여 제 1 서브 특징 정보(140) 및 제 2 서브 특징 정보(150)를 추출할 수 있다.
예를 들어, 제 1 서브 특징 정보 (140)는 이미지와 관련된 특징 정보일 수 있으며, 일례로 이미지에서 특정 객체와 배경을 구분하는 정보를 포함할 수 있다. 또한, 제 2 서브 특징 정보 (150)는 질문을 구성하는 복수의 단어와 관련된 특징 정보일 수 있으며, 일례로 질문을 구성하는 복수의 단어에서 의문사(121)와 목적어(124)를 구분하는 정보를 포함할 수 있다.
상기 추출된 제 1 서브 특징 정보 (140) 및 제 2 서브 특징 정보 (150)는 DNN 네트워크 (예를 들어 LSTM 네트워크, 160)로 입력되며, DNN 네트워크(160)로부터 특정 태스크에 대한 출력 값(170), 예를 들어 질문에 대한 답이 획득될 수 있다.
일 실시예에 따른 전자 장치는 여러가지 다른 유형의 입력을 받아, 특정 태스크 수행에 필요한 각 유형 별 특징 값(feature)을 추출할 수 있으며, 추출된 각 유형 별 특징 값들을 조합(fusion)하여 태스크를 위한 학습 (또는 훈련)을 수행할 수 있다. 이때 서로 다른 유형의 입력 데이터는 태스크를 수행함에 있어, 서로 다른 중요도를 가질 수 있다. 예를 들어, 특정 태스크를 수행함에 있어서, 이미지 입력 데이터가 텍스트 입력 데이터보다 더 중요할 수 있다. 이에 따라, 멀티 모달 딥러닝 네트워크에서, 다수의 가변적인 멀티 모달 입력에 대한 중요도를 나타내는 유형 별 가중치가 반영되어 특정 태스크가 수행되는 경우, 멀티 모달 딥러닝 네트워크의 성능이 개선될 수 있다.
일 실시예에 따른 전자 장치는 서로 다른 유형의 입력 데이터들에 대한 유형 별 가중치에 기초하여, 특정 태스크를 수행할 수 있다. 이하, 도면들을 참조하여, 자세히 설명하기로 한다.
도 2는 일 실시예에 따른 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 일 실시예에 따른 전자 장치(200)는 입력 인터페이스(210), 프로세서(220), 메모리(230), 출력 인터페이스(240)를 포함할 수 있다.
일 실시예에 따른 입력 인터페이스(210)는, 사용자가 전자 장치(200)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 입력 인터페이스(210)에는 카메라, 마이크, 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
일 실시예에 따르면, 입력 인터페이스(210)는, 전자 장치(200)가 특정 태스크를 수행하기 위해 필요한 사용자의 입력을 수신할 수 있다. 일 실시예에 따른 사용자 입력이 이미지 데이터 및 사운드 데이터를 포함하는 경우, 입력 인터페이스(210)는 카메라 및 마이크를 통해 사용자의 이미지 데이터 입력 및 사운드 데이터 입력을 각각 수신할 수 있다. 상술한 예에 한하지 않고, 입력 인터페이스(210)는 다양한 수단을 통하여 다양한 형태의 사용자 입력을 수신할 수 있다.
출력 인터페이스(240)는 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력 인터페이스(240)는 디스플레이부, 음향 출력기, 또는 진동 모터 중 적어도 하나를 포함할 수 있다. 일 실시예에 따른 출력 인터페이스(240)는 입력된 데이터에 따라 특정 태스크를 수행한 출력 값을 출력할 수 있다. 예를 들어, 입력된 데이터가 이미지 데이터 및 이미지 데이터와 관련된 질문을 포함하는 데이터(예를 들어, 텍스트 데이터 또는 사운드 데이터)인 경우, 상기 질문에 대한 답변은 디스플레이부를 통해 텍스트로 표시되거나 음향 출력기를 통해 사운드로 출력될 수 있다.
일 실시예에 따른 프로세서(220)는 전자 장치(200)의 동작을 전반적으로 제어할 수 있다. 또한, 프로세서(220)는 소정 동작이 수행되도록 전자 장치(200)에 포함되는 다른 구성들을 제어할 수 있다.
일 실시예에 따른 프로세서(220)는 메모리(230)에 저장되는 하나 이상의 프로그램들을 실행할 수 있다. 프로세서(220)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다. 또한, 프로세서(220)는 복수의 프로세서를 포함할 수 있다.
일 실시예에 따른 프로세서(220)는 뉴럴 네트워크 모델의 처리에 특화된 하드웨어 구조로 설계된 인공지능 전용 프로세서를 포함할 수 있다. 프로세서(220)는 뉴럴 네트워크 모델을 생성하거나, 뉴럴 네트워크 모델을 학습하거나, 뉴럴 네트워크 모델을 이용하여 수신되는 입력 데이터를 기초로 연산을 수행하고 출력 데이터를 생성할 수 있다. 뉴럴 네트워크 모델은 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), LSTM(Long Short-Term Memory models), BLSTM(Bidirectional LSTM), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등 다양한 종류의 뉴럴 네트워크 모델들을 포함할 수 있으나 이에 한정되는 것은 아니다.
일 실시예에 따른 프로세서(220)는 서로 다른 유형의 입력에 대한 중요도를 산출하고, 산출된 중요도가 반영된 유형 별 가중치를 적용함으로써, 기 설정된 태스크에 대응하는 최종 출력 값을 출력할 수 있다. 일 실시예에 따른 프로세서(220)는 서로 다른 유형의 입력 데이터들을 입력 받아 입력 데이터들 각각에 대한 서브 특징 정보를 추출할 수 있다. 일 실시예에 따른 프로세서(220)는 추출된 서브 특징 정보를 부호화하여 DNN 네트워크로 전달할 수 있다.
일 실시예에 따른 프로세서(220)는 DNN 네트워크의 복수의 레이어들 각각에서 추출되는 특징 정보를 획득할 수 있다. 일 실시예에 따른 프로세서(220)는 상기 추출된 서브 특징 정보 및 상기 DNN 네트워크에서 추출된 특징 정보를 이용하여 유형 별 가중치를 계산할 수 있다. 일 실시예에 따른 프로세서(220)는 계산된 유형 별 가중치를 DNN 네트워크에 적용하여 기 설정된 태스크에 대응하는 최종 출력 값을 출력할 수 있다.
도 3a 내지 도 8을 참고하여, 일 실시예에 따른 프로세서(220)의 동작을 상세하게 후술하기로 한다.
일 실시예에 따른 메모리(230)는 전자 장치(200)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다.
또한, 메모리(230)에 저장되는 프로그램은 하나 이상의 인스트럭션들을 포함할 수 있다. 메모리(230)에 저장된 프로그램(하나 이상의 인스트럭션들) 또는 어플리케이션은 프로세서(220)에 의해 실행될 수 있다.
메모리(230)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
도 3a는 일 실시예에 따른 프로세서에서 수행되는 동작을 설명하기 위한 도면이다.
도 3a를 참조하면, 일 실시예에 따른 전자 장치(200)는 입력된 서로 다른 유형의 데이터에 대한 유형 별 중요도가 반영된 유형 별 가중치를 생성할 수 있다. 일 실시예에 따른 전자 장치(200)는 서브 네트워크(320), 인코더(340), 유형 별 가중치 생성부(350) 및 DNN 네트워크 (360)를 포함할 수 있다.
서브 네트워크(320)는 복수의 입력 데이터들(310)을 받아 복수의 입력 데이터들 각각에 대한 서브 특징 정보(330)를 추출할 수 있다. 이때, 복수의 입력 데이터들(310)은 서로 다른 유형의 입력 데이터일 수 있으며, 서브 네트워크(320)는 각 입력 데이터(310)의 유형에 따라 다른 종류의 서브 네트워크를 포함할 수 있다. 예를 들어, 입력 데이터(310)가 이미지 데이터 및 텍스트 데이터인 경우, 서브 네트워크(320)는 CNN 네트워크 및 BLSTM 네트워크를 포함할 수 있다.
이하에서는 설명의 편의를 위하여, 일 실시예에 따른 복수의 입력 데이터들(310)이 이미지 데이터(V) 및 사운드 데이터(S)를 포함하는 것으로 설명하기로 한다. 다만, 이에 한정되지 않으며, 복수의 입력 데이터들(310)은 이미지 데이터, 텍스트 데이터, 사운드 데이터 등을 포함할 수 있다.
서브 네트워크(320)에서 추출된 상기 복수의 입력 데이터들(310)에 대한 특징 정보인 서브 특징 정보(330)는 인코더(340) 및 유형 별 가중치 생성부(350)로 전달(또는 입력)될 수 있다. 상술한 예에 따르면 이미지 데이터(V)에 대한 서브 특징 정보 및 사운드 데이터(S)에 대한 서브 특징 정보는 인코더(340) 및 유형 별 가중치 생성부(350)로 전달(또는 입력)될 수 있다. 또한, 일 실시예에 따르면 입력 데이터(310)의 유형을 구분할 수 있는 유형 식별 정보가 서브 특징 정보(330)와 함께 인코더(340) 및 유형 별 가중치 생성부(350)로 전달(또는 입력)될 수 있다.
인코더(340)는 서브 네트워크(320)에서 전달된 입력 데이터의 유형을 구분할 수 있는 유형 식별 정보를 기초로 하여 상기 서브 특징 정보(330)를 부호화할 수 있다. 예를 들어, 인코더(340)는 유형 식별 정보를 기초로 하여 상기 서브 특징 정보(330)를 연쇄(concatenation)함으로써 서브 특징 정보(330)를 부호화할 수 있다. 인코더(340)는 부호화된 서브 특징 정보(370)를 DNN 네트워크(360)로 전달할 수 있다.
DNN 네트워크(360)는 복수의 레이어를 포함하는 네트워크일 수 있다. DNN 네트워크(360)는 부호화된 서브 특징 정보(370)를 입력 받아 복수의 레이어들 각각에서 특징 정보(380)를 추출할 수 있으며, 상기 추출된 특징 정보(380)는 유형 별 가중치 생성부(350)로 전달될 수 있다.
유형 별 가중치 생성부(350)는 서브 네트워크(320)로부터 전달 받은 서브 특징 정보(330)와 복수의 레이어들 각각에서 추출된 특징 정보(380)를 기초로 하여 복수의 레이어들 각각에 대한 유형 별 가중치(390)를 계산할 수 있다. 이때, 유형 별 가중치 생성부(350)에서 계산된 유형 별 가중치(390)는, 서로 다른 유형의 데이터에 대한 유형 별 중요도가 반영되어, 각 레이어에 대한 기설정된 가중치 값에 곱해지는 값일 수 있다. 이를 통해 전자 장치에서 수행되는 특정 태스크에 대하여 각 유형 별 중요도를 반영함으로써 보다 정확한 출력 값이 획득될 수 있다.
예를 들어, 이미지 데이터와 사운드 데이터를 입력으로 받은 경우, 이미지 유형에 대한 서브 특징 정보, 사운드 유형에 대한 서브 특징 정보 및 DNN 네트워크(360)의 복수의 레이어들 각각에서 추출된 특징 정보가 유형 별 가중치 생성부(350)로 입력될 수 있다. 유형 별 가중치 생성부(350)는 입력된 이미지 유형에 대한 서브 특징 정보, 사운드 유형에 대한 서브 특징 정보, 복수의 레이어들 각각에서 추출된 특징 정보를 기초로 하여 유형 별 가중치(390)를 계산할 수 있다. 상기 유형 별 가중치(390)는, 일 실시예에 따른 입력 데이터가 서로 다른 유형의 입력 데이터들을 포함하는 경우, 입력 데이터들 각각의 중요도를 나타내는 값일 수 있다. 유형 별 가중치 생성부(350)는 복수의 레이어들 각각에 대응하는 유형 별 가중치들을 계산할 수 있다.
DNN 네트워크(360)는 복수의 레이어들 각각에서 유형 별 가중치 생성부(350)에서 계산된 유형 별 가중치(390)를 적용하여 기 설정된 태스크에 대응하는 최종 출력 값을 획득할 수 있다. 예를 들어, DNN 네트워크(360)는 네트워크의 복수의 레이어에 대한 기설정된 가중치 값에 유형을 별 가중치 생성부(350)에서 계산된 유형 별 가중치(390)를 곱함으로써 이를 적용할 수 있다.
도 3b는 도 3a에 포함된 구성들의 동작을 더 상세하게 나타내는 도면이다.
도 3b를 참조하면, 일 실시예에 따른 전자 장치(200)는 입력된 제1 유형의 입력 데이터(311) 및 제2 유형의 입력 데이터(312)에 대한 각 유형 별 중요도가 반영된 유형 별 가중치를 생성할 수 있다. 그러나, 입력 데이터의 유형은 전술한 바에 한정되지 않고, 3 이상의 유형을 포함할 수 있다.
일 실시예에 따른 전자 장치(200)는 서브 네트워크(320), 인코더(340), 유형 별 가중치 생성부(350) 및 DNN 네트워크(360)를 포함할 수 있다.
서브 네트워크(320)는 제1 유형의 입력 데이터(311)를 입력 받아 제1 서브 특징 정보(331)를 추출할 수 있고, 제2 유형의 입력 데이터(312)를 입력 받아 제2 서브 특징 정보(332)를 추출할 수 있다. 서브 네트워크(320)에서 추출된 제1 서브 특징 정보(331) 및 제2 서브 특징 정보(332)는 인코더(340) 및 유형 별 가중치 생성부(350)로 전달(또는 입력)될 수 있다. 또한, 일 실시예에 따르면 제1 유형의 입력 데이터(311) 및 제2 유형의 입력 데이터(312)의 유형을 구분할 수 있는 유형 식별 정보가 제1 서브 특징 정보(331) 및 제2 서브 특징 정보(332)와 함께 인코더(340) 및 유형 별 가중치 생성부(350)로 전달(또는 입력)될 수 있다.
인코더(340)는 서브 네트워크(320)에서 전달된 제1 유형의 입력 데이터(311) 및 제2의 유형의 입력 데이터(312)의 유형을 구분할 수 있는 유형 식별 정보를 기초로 하여 제1 서브 특징 정보(331) 및 제2 서브 특징 정보(332)를 부호화하여 DNN 네트워크(360)로 전달할 수 있다.
DNN 네트워크(360)는 복수의 레이어를 포함하는 네트워크일 수 있다. 예를 들어, DNN 네트워크(360)는 i개의 레이어(i=1~L)를 포함하는 네트워크일 수 있다. DNN 네트워크(360)는 부호화된 서브 특징 정보(370)를 입력 받아 복수의 레이어들 각각에서 특징 정보(380)를 추출할 수 있다. 예를 들어, 제1 레이어에서 제1 레이어에 대한 특징 정보(381)를 추출할 수 있으며, 제2 레이어에서 제2 레이어에 대한 특징 정보(382)를 추출할 수 있으며, 마찬가지로 제 i 레이어에서 제i 레이어에 대한 특징 정보(383)를 추출할 수 있다. 상기 추출된 특징 정보(380)는 유형 별 가중치 생성부(350)로 전달될 수 있다.
상기 특징 정보(380)는 DNN 네트워크의 i개의 레이어(i=1~L) 각각으로 들어오는 입력에 레이어의 기설정된 가중치 값(
Figure PCTKR2022000977-appb-img-000001
)을 곱한 값일 수 있다.
유형 별 가중치 생성부(350)는 서브 네트워크(320)로부터 전달 받은 제1 서브 특징 정보(331) 및 제2 서브 특징 정보(332)와 복수의 레이어들 각각에서 추출된 특징 정보(380)를 기초로 하여 복수의 레이어들 각각에 대한 유형 별 가중치(390)를 계산할 수 있다. 예를 들어, 제1 레이어에 대응하는 유형 별 가중치(391)를 계산할 수 있으며, 제2 레이어에 대응하는 유형 별 가중치(392)를 계산할 수 있으며, 마찬가지로 제i 레이어에 대응하는 유형 별 가중치(393)를 계산할 수 있다.
이때, 유형 별 가중치 생성부(350)에서 계산된 유형 별 가중치(390)는, 제1 유형의 입력 데이터(311) 및 제2 유형의 입력 데이터(312)에 대한 각 유형 별 중요도가 반영된 값일 수 있다.
DNN 네트워크(360)는 복수의 레이어들 각각에서 유형 별 가중치(390)를 적용하여 기 설정된 태스크에 대응하는 최종 출력 값을 획득할 수 있다. 예를 들어, DNN 네트워크(360)는 네트워크의 i번째 레이어(i=1~L)에 대한 기설정된 가중치 값(
Figure PCTKR2022000977-appb-img-000002
, i=1~L)에 유형 별 가중치 생성부(350)로부터 전달 받은 i번째 레이어에 대한 유형 별 가중치(393)를 곱함으로써 이를 적용할 수 있다.
이를 통해, 전자 장치(200)에서 수행되는 특정 태스크에 대하여 각 유형 별 중요도를 고려함으로써, 보다 정확한 출력 값이 획득될 수 있다.
도 4는 일 실시예에 따른 유형 별 가중치 생성부의 내부 구성을 설명하기 위한 블록도이다.
도 4를 참조하면, 일 실시예에 따른 유형 별 가중치 생성부(350)는 쿼리 정보 계산부(410), 키 정보 계산부(440), 컨텍스트 정보 계산부(460) 및 유형 별 가중치 계산부(480)를 포함할 수 있다.
일 실시예에 따른 쿼리 정보 계산부(410)는 유형 별 서브 특징 정보의 새로운 특징 정보를 나타내는 유형 별 쿼리 정보를 계산할 수 있다.
일 실시예에 따른 쿼리 정보 계산부(410)는 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000003
) 및 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000004
)를 입력 받을 수 있다. 이때, 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000005
)는 이미지 입력 데이터(V)에 대한 서브 특징 정보이고, 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000006
) 는 사운드 입력 데이터(S)에 대한 서브 특징 정보인 것을 예를 들어 설명한다. 다만, 상기 입력 데이터는 이에 한정되지 않으며 이미지 입력 데이터, 텍스트 입력 데이터, 사운드 입력 데이터 또는 영상 입력 데이터 등을 포함할 수 있다.
일 실시예에 따른 쿼리 정보 계산부(410)는 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000007
)를 입력 받아 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000008
)를 계산할 수 있고, 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000009
)를 입력 받아 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000010
)를 계산할 수 있다. 쿼리 정보 계산부(410)는 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000011
)와 DNN 네트워크의 i번째 레이어에 대응하는 기 학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000012
)을 이용하여, 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000013
)를 계산하고, 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000014
)와 i번째 레이어에 대응하는 기 학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000015
)을 이용하여, 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000016
)를 계산할 수 있다. 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000017
) 및 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000018
)는 DNN 네트워크의 i번째 레이어에 대응하는 쿼리 정보를 나타낸다.
여기서, 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000019
)는 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000020
) 및 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000021
)에 대한 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000022
)의 특징을 나타낼 수 있으며, 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000023
)는 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000024
) 및 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000025
)에 대한 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000026
)의 특징을 나타낼 수 있다.
예를 들어, 입력 데이터가 이미지 입력 데이터(V) 및 사운드 입력 데이터(S)인 경우, 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000027
)는 이미지 유형의 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000028
) 및 사운드 유형의 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000029
)에 대한 이미지 유형의 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000030
)의 특징을 나타낼 수 있다.
또한, 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000031
) 는 이미지 유형의 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000032
) 및 사운드 유형의 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000033
)에 대한 사운드 유형의 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000034
)의 특징을 나타낼 수 있다.
일 실시예에 따른 키 정보 계산부(440)는 DNN 네트워크의 복수의 레이어들 각각에서 추출된 특징 정보에 기초하여 키 정보를 계산할 수 있다.
일 실시예에 따른 키 정보 계산부(440)는 DNN 네트워크의 복수의 레이어들 각각에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000035
)를 입력 받을 수 있다. 이때, 복수의 레이어들 각각에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000036
)에는 이미지 유형 및 사운드 유형의 특징이 혼재되어 있을 수 있다.
일 실시예에 따른 키 정보 계산부(440)는 복수의 레이어들 각각에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000037
)를 입력 받아 키 정보(
Figure PCTKR2022000977-appb-img-000038
)를 계산할 수 있다. 키 정보 계산부(420)는 DNN 네트워크의 i번째 레이어에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000039
)와 DNN 네트워크의 i번째 레이어에 대응하는 기 학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000040
)을 이용하여, DNN 네트워크의 i번째 레이어에 대응하는 키 정보(
Figure PCTKR2022000977-appb-img-000041
)를 계산할 수 있다.
여기서, 키 정보(
Figure PCTKR2022000977-appb-img-000042
)는 DNN 네트워크의 i번째 레이어에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000043
)에서, 이미지 유형과 사운드 유형의 상대적인 중요도가 반영된 값일 수 있다.
일 실시예에 따른 컨텍스트 정보 계산부(460)는 쿼리 정보와 키 정보의 상관 관계를 나타내는 값인 컨텍스트 정보를 계산할 수 있다.
일 실시예에 따른 컨텍스트 계산부(460)는 쿼리 정보 계산부(410)에서 계산한 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000044
), 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000045
) 및 키 정보 계산부(440)에서 계산한 키 정보(
Figure PCTKR2022000977-appb-img-000046
)를 입력 받을 수 있다. 이때, 상기 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000047
), 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000048
) 및 키 정보(
Figure PCTKR2022000977-appb-img-000049
)는 DNN 네트워크의 복수의 레이어들 중 i번째 레이어에 대응하는 값일 수 있다.
일 실시예에 따른 컨텍스트 계산부(460)는 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000050
) 및 키 정보(
Figure PCTKR2022000977-appb-img-000051
)를 이용하여 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000052
)를 계산할 수 있고, 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000053
) 및 키 정보(
Figure PCTKR2022000977-appb-img-000054
)를 이용하여 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000055
)를 계산할 수 있다. 상기 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000056
) 및 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000057
)는 DNN 네트워크의 복수의 레이어들 중 i번째 레이어에 대응하는 값일 수 있다.
여기서, 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000058
)는 DNN 네트워크의 i번째 레이어에서 이미지 유형(V)의 상대적인 중요도를 나타내는 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000059
)와 DNN 네트워크의 i번째 레이어에서 이미지 유형(V)와 사운드 유형(S)의 상대적인 중요도가 반영된 키 정보(
Figure PCTKR2022000977-appb-img-000060
)의 상관성을 나타내는 값일 수 있다.
또한, 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000061
)는 DNN 네트워크의 i번째 레이어에서 사운드 유형(S)의 상대적인 중요도를 나타내는 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000062
)와 DNN 네트워크의 i번째 레이어에서 이미지 유형(V)와 사운드 유형(S)의 상대적인 중요도가 반영된 키 정보(
Figure PCTKR2022000977-appb-img-000063
)의 상관성을 나타내는 값일 수 있다.
일 실시예에 따른 유형 별 가중치 계산부(480)는 복수의 유형의 입력 데이터에서 중요한 유형의 입력 데이터에 가중치를 부여할 수 있는 유형 별 가중치를 계산할 수 있다.
일 실시예에 따른 유형 별 가중치 계산부(480)는 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000064
) 및 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000065
)를 이용하여 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000066
)를 계산할 수 있다. 상기 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000067
)는 DNN 네트워크의 복수의 레이어들 중 i번째 레이어에 대응하는 값일 수 있다.
일 실시예에 따른 유형 별 가중치 계산부(480)는 DNN 네트워크의 복수의 레이어 당 하나의 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000068
)를 계산할 수 있다. 이 경우, 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000069
) 및 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000070
) 중에서 최대값을 이용하여 하나의 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000071
)를 계산할 수 있다.
다른 실시예에 따른 유형 별 가중치 계산부(480)는 DNN 네트워크의 복수의 레이어 당 복수의 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000072
,
Figure PCTKR2022000977-appb-img-000073
)를 계산할 수 있다. 이 경우, 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000074
)를 이용하여 제1 유형인 이미지 유형에 대한 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000075
)를 계산하고, 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000076
)를 이용하여 제2 유형인 사운드 유형에 대한 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000077
)를 계산할 수 있다.
도 5는 일 실시예에 따른 쿼리 정보 계산부의 구체적인 동작을 설명하기 위한 도면이다.
도 5를 참조하면, 쿼리 정보 계산부(410)는 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000078
)와 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000079
)을 이용하여 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000080
)를 계산할 수 있고, 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000081
)와 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000082
)을 이용하여 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000083
)를 계산할 수 있다.
이때, 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000084
), 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000085
) 및 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000086
)는 DNN 네트워크의 복수의 레이어들 중 i번째 레이어(510)에 대응하는 값일 수 있다.
제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000087
) 및 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000088
)는 하기의 수학식 1을 통해 계산될 수 있다.
[수학식 1]
Figure PCTKR2022000977-appb-img-000089
Figure PCTKR2022000977-appb-img-000090
수학식 1에서,
Figure PCTKR2022000977-appb-img-000091
는 제1 서브 특징 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000092
는 제2 서브 특징 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000093
는 제1 쿼리 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000094
는 제2 쿼리 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000095
는 기학습된 쿼리 행렬을 의미한다.
일 실시예에 따른 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000096
)은 DNN 네트워크의 복수의 레이어들 중 i번째 레이어(510)에서 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000097
)가 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000098
)에 비해 가지는 상대적인 중요도를 나타낼 수 있도록, 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000099
)와 내적을 수행하는 값일 수 있다.
또한, 마찬가지로 일 실시예에 따른 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000100
)은 DNN 네트워크의 복수의 레이어들 중 i번째 레이어(510)에서 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000101
)가 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000102
)에 비해 가지는 상대적인 중요도를 나타낼 수 있도록, 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000103
)와 내적을 수행하는 값일 수 있다.
일 실시예에 따른 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000104
)은 상기 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000105
) 및 상기 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000106
)와 관련된 파라미터들을 포함하는 행렬일 수 있으며, DNN 네트워크의 복수의 레이어들 중 i번째 레이어에 대응되도록 미리 학습된 값일 수 있다.
일 실시예에 따른 전자 장치(200)는 정확한 출력 값을 출력하기 위해 여러가지 서로 다른 유형(예를 들어 V, S)의 입력에 대한 중요도가 반영된, 유형 별 가중치를 계산할 수 있다. 여기서, 유형 별 가중치의 계산에 이용되는 쿼리 행렬은 최적의 값을 갖도록 학습될 수 있으며, 최적의 값을 갖도록 학습이 완료된 쿼리 행렬을 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000107
)로 정의할 수 있다.
도 5에 도시된 것과 마찬가지로, 쿼리 정보 계산부(410)는 DNN 네트워크의 복수의 레이어들 각각에 대응되는 기학습된 쿼리 행렬을 이용하여, DNN 네트워크의 복수의 레이어들 각각에 대응되는 제1 쿼리 정보 및 제2 쿼리 정보를 계산할 수 있다.
예를 들어, 쿼리 정보 계산부(410)는 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000108
)와 DNN 네트워크의 제1 레이어(520)에서 정의된 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000109
)의 내적을 수행하여, DNN 네트워크의 제1 레이어(520)에 대한 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000110
)를 계산할 수 있다. 또한, 쿼리 정보 계산부(410)는 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000111
)와 DNN 네트워크의 제1 레이어(520)에서 정의된 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000112
)의 내적을 수행하여, DNN 네트워크의 제1 레이어(520)에 대한 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000113
)를 계산할 수 있다.
도 6은 일 실시예에 따른 키 정보 계산부의 구체적인 동작을 설명하기 위한 도면이다.
도 6을 참조하면, 키 정보 계산부(420)는 특징 정보(
Figure PCTKR2022000977-appb-img-000114
)와 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000115
)을 이용하여 키 정보(
Figure PCTKR2022000977-appb-img-000116
)를 계산할 수 있다.
이때, 특징 정보(
Figure PCTKR2022000977-appb-img-000117
), 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000118
) 및 키 정보(
Figure PCTKR2022000977-appb-img-000119
)는 DNN 네트워크의 복수의 레이어들 중 i번째 레이어(610)에 대응하는 값일 수 있다.
키 정보(
Figure PCTKR2022000977-appb-img-000120
)는 하기의 수학식 2를 통해 계산될 수 있다.
[수학식 2]
Figure PCTKR2022000977-appb-img-000121
수학식 1에서,
Figure PCTKR2022000977-appb-img-000122
는 특징 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000123
는 키 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000124
는 기학습된 키 행렬을 의미한다.
일 실시예에 따른 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000125
)은 DNN 네트워크의 복수의 레이어들 중 i번째 레이어에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000126
)에서, 이미지 유형(V)와 사운드 유형(S)의 상대적인 중요도가 나타날 수 있도록, 특징 정보(
Figure PCTKR2022000977-appb-img-000127
)와 내적을 수행하는 값일 수 있다.
일 실시예에 따른 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000128
)은 상기 이미지 유형(V) 및 상기 사운드 유형(S)와 관련된 파라미터들을 포함하는 행렬일 수 있으며, DNN 네트워크의 복수의 레이어들 중 i번째 레이어에 대응되도록 미리 학습된 값일 수 있다.
일 실시예에 따른 전자 장치(200)는 정확한 출력 값을 출력하기 위해 여러가지 서로 다른 유형(예를 들어 V, S)의 입력에 대한 중요도가 보다 잘 반영된, 유형 별 가중치를 계산할 수 있다. 여기서, 유형 별 가중치의 계산에 이용되는 키 행렬은 최적의 값을 갖도록 학습될 수 있으며, 최적의 값을 갖도록 학습이 완료된 키 행렬을 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000129
)로 정의할 수 있다.
도 6에 도시된 것과 마찬가지로, 키 정보 계산부(420)는 DNN 네트워크의 복수의 레이어들 각각에 대응되는 기학습된 키 행렬을 이용하여, DNN 네트워크의 복수의 레이어들 각각에 대응되는 키 정보를 계산할 수 있다.
예를 들어, 키 정보 계산부(420)는 DNN 네트워크의 제1 레이어(620)에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000130
)와 DNN 네트워크의 제1 레이어(620)에서 정의된 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000131
)의 내적을 수행하여, DNN 네트워크의 제1 레이어(620)에 대한 키 정보(
Figure PCTKR2022000977-appb-img-000132
)를 계산할 수 있다.
도 7은 일 실시예에 따른 컨텍스트 정보 계산부의 구체적인 동작을 설명하기 위한 도면이다.
도 7을 참조하면, 컨텍스트 정보 계산부(430)는 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000133
)와 키 정보(
Figure PCTKR2022000977-appb-img-000134
)를 이용하여 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000135
)를 계산할 수 있고, 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000136
)와 키 정보(
Figure PCTKR2022000977-appb-img-000137
)를 이용하여 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000138
)를 계산할 수 있다.
이때, 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000139
), 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000140
), 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000141
), 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000142
) 및 키 정보(
Figure PCTKR2022000977-appb-img-000143
)는 DNN 네트워크의 복수의 레이어들 중 i번째 레이어에 대응하는 값일 수 있다.
제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000144
) 및 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000145
)는 하기의 수학식 3을 통해 계산될 수 있다.
[수학식 3]
Figure PCTKR2022000977-appb-img-000146
Figure PCTKR2022000977-appb-img-000147
수학식 3에서,
Figure PCTKR2022000977-appb-img-000148
는 제1 쿼리 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000149
는 제2 쿼리 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000150
는 키 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000151
는 제1 컨텍스트 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000152
는 제2 컨텍스트 정보를 의미한다.
일 실시예에서, 이미지 유형(V)의 상대적인 중요도를 나타내는 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000153
)와 이미지 유형(V)와 사운드 유형(S)의 상대적인 중요도가 반영된 키 정보(
Figure PCTKR2022000977-appb-img-000154
)의 내적을 수행하면, 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000155
)와 키 정보(
Figure PCTKR2022000977-appb-img-000156
)의 상관성을 나타내는 값인 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000157
)를 계산할 수 있다.
또한, 일 실시예에서, 사운드 유형(S)의 상대적인 중요도를 나타내는 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000158
)와 이미지 유형(V)와 사운드 유형(S)의 상대적인 중요도가 반영된 키 정보(
Figure PCTKR2022000977-appb-img-000159
)의 내적을 수행하면, 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000160
)와 키 정보(
Figure PCTKR2022000977-appb-img-000161
)의 상관성을 나타내는 값인 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000162
)를 계산할 수 있다.
이때, 예를 들어, 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000163
)가 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000164
)보다 큰 경우, 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000165
)와 키 정보(
Figure PCTKR2022000977-appb-img-000166
)의 상관성이 보다 큰 것으로 판단될 수 있으며, 제1 유형(V)의 상대적인 중요도가 제2 유형(S)보다 큰 것으로 판단될 수 있다.
도 7에 도시된 것과 마찬가지로, 컨텍스트 정보 계산부(430)는 DNN 네트워크의 복수의 레이어들 각각에 대응되는 제1 쿼리 정보, 제2 쿼리 정보, 키 정보를 이용하여, DNN 네트워크의 복수의 레이어들 각각에 대응되는 제1 컨텍스트 정보 및 제2 컨텍스트 정보를 계산할 수 있다.
예를 들어, 컨텍스트 정보 계산부(430)는 DNN 네트워크의 제1 레이어에 대한 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000167
)와 DNN 네트워크의 제1 레이어에 대한 키 정보(
Figure PCTKR2022000977-appb-img-000168
)의 내적을 수행하여, DNN 네트워크의 제1 레이어에 대한 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000169
)를 계산할 수 있다. 또한, 컨텍스트 정보 계산부(430)는 DNN 네트워크의 제1 레이어에 대한 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000170
)와 DNN 네트워크의 제1 레이어에 대한 키 정보(
Figure PCTKR2022000977-appb-img-000171
)의 내적을 수행하여, DNN 네트워크의 제1 레이어에 대한 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000172
)를 계산할 수 있다.
도 8는 일 실시예에 따른 유형 별 가중치 계산부의 구체적인 동작을 설명하기 위한 도면이다.
도 8을 참조하면, 유형 별 가중치 계산부(440)는 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000173
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000174
)를 이용하여 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000175
)를 계산할 수 있다.
이때, 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000176
), 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000177
) 및 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000178
)는 DNN 네트워크의 복수의 레이어들 중 i번째 레이어(810)에 대응하는 값일 수 있다.
일 실시예에 따른 유형 별 가중치 계산부(440)는 DNN 네트워크의 복수의 레이어들 중 i번째 레이어에 대해 하나의 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000179
)를 계산할 수 있고, 상기 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000180
)는 하기의 수학식 4를 통해 계산될 수 있다.
[수학식 4]
Figure PCTKR2022000977-appb-img-000181
수학식 4에서,
Figure PCTKR2022000977-appb-img-000182
는 제1 컨텍스트 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000183
는 제2 컨텍스트 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000184
는 유형 별 가중치를 의미한다
일 실시예에 따르면, 복수의 레이어들 중 i번째 레이어에 대한 컨텍스트 정보의 정규화된 최대 값을 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000185
)로 사용할 수 있다. 유형 별 가중치 계산부(440)는 컨텍스트 정보의 정규화를 위해, 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000186
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000187
)의 최대 값을 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000188
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000189
)의 합으로 나눔으로써 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000190
)를 계산할 수 있다.
일 실시예에 따르면, 계산된 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000191
)는 복수의 유형을 가지는 입력 데이터에서 중요한 유형의 입력 데이터에 가중치를 부여할 수 있는 값일 수 있다. 일 실시예에 따른 전자 장치(200)는 계산된 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000192
)를 DNN 네트워크의 기설정된 가중치 값(
Figure PCTKR2022000977-appb-img-000193
)에 곱함으로써 이를 적용할 수 있다.
다른 실시예에 따른 유형 별 가중치 계산부(440)는 DNN 네트워크의 복수의 레이어들 중 i번째 레이어에 대해 복수의 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000194
,
Figure PCTKR2022000977-appb-img-000195
)를 계산할 수 있고, 상기 복수의 유형 별 가중치는 하기의 수학식 5를 통해 계산될 수 있다.
[수학식 5]
Figure PCTKR2022000977-appb-img-000196
Figure PCTKR2022000977-appb-img-000197
수학식 5에서,
Figure PCTKR2022000977-appb-img-000198
제1 컨텍스트 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000199
는 제2 컨텍스트 정보를 의미하고,
Figure PCTKR2022000977-appb-img-000200
는 제1 유형 별 가중치를 의미하고,
Figure PCTKR2022000977-appb-img-000201
는 제2 유형 별 가중치를 의미한다.
다른 실시예에 따르면, 유형 별 가중치 계산부(440)는 복수의 레이어들 중 i번째 레이어에 대한 컨텍스트 정보의 정규화된 값을 유형 별 가중치로 사용할 수 있다. 유형 별 가중치 계산부(440)는 컨텍스트 정보의 정규화를 위해, 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000202
)를 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000203
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000204
)의 합으로 나눔으로써 제1 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000205
)를 계산할 수 있고, 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000206
)를 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000207
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000208
)의 합으로 나눔으로써 제2 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000209
)를 계산할 수 있다.
다른 실시예에 따르면, 계산된 제1 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000210
) 및 제2 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000211
)는 복수의 유형을 가지는 입력 데이터에서 중요한 유형의 입력 데이터에 가중치를 부여할 수 있는 값일 수 있다. 일 실시예에 따른 전자 장치(200)는 계산된 복수의 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000212
Figure PCTKR2022000977-appb-img-000213
)를 DNN 네트워크의 기설정된 가중치 값(
Figure PCTKR2022000977-appb-img-000214
)에 곱함으로써 이를 적용할 수 있다.
도 8에 도시된 것과 마찬가지로, 유형 별 가중치 계산부(440)는 DNN 네트워크의 복수의 레이어들 각각에 대응되는 제1 컨텍스트 정보, 제2 컨텍스트 정보를 이용하여, DNN 네트워크의 복수의 레이어들 각각에 대응되는 유형 별 가중치를 계산할 수 있다.
예를 들어, DNN 네트워크의 제1 레이어(820)에 대한 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000215
)와 DNN 네트워크의 제1 레이어(820)에 대한 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000216
)를 이용하여, 유형 별 가중치 계산부(440)는 DNN 네트워크의 제1 레이어(820)에 대한 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000217
또는
Figure PCTKR2022000977-appb-img-000218
Figure PCTKR2022000977-appb-img-000219
)를 계산할 수 있다.
도 9는 일 실시예에 따른 전자 장치가 제1 서브 특징 정보, 제2 서브 특징 정보 및 레이어 별 특징 정보를 획득하여, 최종 출력 값을 획득하는 방법을 나타내는 흐름도이다.
단계 S910에서, 전자 장치(200)는 제1 서브 특징 정보 및 제2 서브 특징 정보를 획득할 수 있다.
일 실시예에 따르면 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000220
)는 서브 네트워크가 제1 유형의 입력 데이터(V)를 입력 받아 추출한 정보일 수 있다. 일 실시예에 따르면 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000221
)는 서브 네트워크가 제2 유형의 입력 데이터(S)를 입력 받아 추출한 정보일 수 있다.
여기에서, 제1 유형은 이미지 유형(V), 제2 유형은 사운드 유형(S)인 것을 예를 들어 설명하지만, 이에 한정되지 않는다. 또한, 상기 입력 데이터는 두가지 유형으로 입력되는 것을 예를 들어 설명하지만, 이에 한정되지 않으며, 2 이상의 복수의 유형으로 존재할 수 있다.
단계 S920에서, 전자 장치는 획득된 제1 서브 특징 정보 및 제2 서브 특징 정보를 DNN 네트워크로 입력할 수 있다.
일 실시예에 따르면 획득된 제1 서브 특징 정보 및 제2 서브 특징 정보는 인코더로 전달(또는 입력)될 수 있다. 또한, 일 실시예에 따르면 입력 데이터의 유형을 구분할 수 있는 유형 식별 정보가 서브 특징 정보와 함께 인코더로 전달(또는 입력)될 수 있다.
일 실시예에 따른 인코더는 전달된 유형 식별 정보를 기초로 하여 제1 서브 특징 정보 및 제2 서브 특징 정보를 부호화하여 DNN 네트워크로 전달할 수 있다. 예를 들어, 인코더는 유형 식별 정보를 기초로 하여 제1 서브 특징 정보 및 제2 서브 특징 정보를 연쇄(concatenation)함으로써 부호화하여 DNN 네트워크로 전달할 수 있다.
단계 S930에서, 전자 장치(200)는 DNN 네트워크의 복수의 레이어들 각각에서 추출되는 특징 정보를 획득할 수 있다.
일 실시예에 따르면 DNN 네트워크(360)는 부호화된 제1 서브 특징 정보 및 제2 서브 특징 정보를 입력 받아 복수의 레이어들 각각에서 특징 정보(370)를 추출할 수 있다. 상기 특징 정보(370)는 DNN 네트워크의 복수의 레이어들 각각으로 들어오는 입력에 레이어의 기설정된 가중치 값(
Figure PCTKR2022000977-appb-img-000222
)을 곱한 값일 수 있다.
예를 들어, DNN 네트워크가 복수의 레이어를 포함하는 네트워크인 경우, 제1 레이어는 부호화된 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000223
) 및 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000224
)를 입력 받을 수 있다. 제1 레이어에 대한 특징 정보(
Figure PCTKR2022000977-appb-img-000225
)는 제1 레이어로 입력된 부호화된 제1 서브 특징 정보 및 제2 서브 특징 정보에 제1 레이어의 기설정된 가중치 값(w1)을 곱한 값일 수 있다.
제2 레이어는 제1 레이어에 대한 특징 정보(
Figure PCTKR2022000977-appb-img-000226
)를 입력 받을 수 있다. 제2 레이어에 대한 특징 정보(K2(V,S))는 제2 레이어로 입력된 제1 레이어에 대한 특징 정보(
Figure PCTKR2022000977-appb-img-000227
)에 제2 레이어의 기설정된 가중치 값(w2)을 곱한 값일 수 있다.
마찬가지로, DNN 네트워크의 복수의 레이어들 중 제i 레이어에 대한 특징 정보(Ki(V,S))는 제i 레이어로 입력된 제i-1 레이어에 대한 특징 정보(Ki-1(V,S))에 제i 레이어의 기설정된 가중치 값(wi)을 곱한 값일 수 있다.
단계 S940에서, 전자 장치(200)는 획득된 제1 서브 특징 정보, 제2 서브 특징 정보 및 특징 정보에 기초하여, 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산할 수 있다.
일 실시예에서, 복수의 레이어들 각각에 대응하는 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000228
)는 유형 별 가중치 생성부(350)에서 계산될 수 있다. 유형 별 가중치 생성부(350)는 서브 네트워크로부터 획득된 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000229
) 및 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000230
)와 복수의 레이어들 각각에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000231
)를 기초로 하여 복수의 레이어들 각각에 대한 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000232
)를 계산할 수 있다.
이때, 유형 별 가중치 생성부(350)에서 계산된 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000233
)는 제1 유형(V)와 제2 유형(S)에 대한 상대적인 중요도가 반영된 값일 수 있으며, DNN 네트워크의 복수의 레이어들 각각에 대응하는 값일 수 있다.
단계 S950에서, 전자 장치(200)는 DNN 네트워크의 복수의 레이어들 각각에서 계산된 유형 별 가중치를 적용함으로써, 기 설정된 태스크에 대응하는 최종 출력 값을 획득할 수 있다.
일 실시예에서, DNN 네트워크는 유형 별 가중치 생성부(350)에서 계산된 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000234
)를 복수의 레이어들 각각에 적용하여 기 설정된 태스크에 대응하는 최종 출력 값을 획득할 수 있다.
예를 들어, DNN 네트워크는 네트워크의 복수의 레이어들 중 제i 레이어에 대한 기설정된 가중치 값(
Figure PCTKR2022000977-appb-img-000235
)에 제i 레이어에 대한 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000236
)를 곱함으로써 이를 적용할 수 있다.
도 10은 도 9의 940 단계(S940)를 구체적으로 나타내는 흐름도이다.
도 10을 참조하면, 단계 S1010은 도 9의 단계 S930 이후에 수행될 수 있다.
단계 S1010에서, 전자 장치(200)는 DNN 네트워크의 복수의 레이어들 각각에 대응하는 제1 쿼리 정보 및 제2 쿼리 정보를 획득할 수 있다.
일 실시예에서 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000237
) 및 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000238
)는 쿼리 정보 계산부(410)에서 계산될 수 있다.
일 실시예에서 쿼리 정보 계산부(410)는 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000239
)와 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000240
)을 이용하여 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000241
)를 계산할 수 있다. 마찬가지로, 일 실시예에서 쿼리 정보 계산부(410)는 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000242
)와 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000243
)을 이용하여 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000244
)를 계산할 수 있다.
이때, 기학습된 쿼리 행렬, 제1 쿼리 정보 및 제2 쿼리 정보는 DNN 네트워크의 복수의 레이어들 각각에 대응하는 값일 수 있다.
일 실시예에서 쿼리 정보 계산부(410)는 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000245
)와 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000246
)의 내적을 수행하여 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000247
)를 계산할 수 있다. 마찬가지로, 쿼리 정보 계산부(410)는 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000248
)와 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000249
)의 내적을 수행하여 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000250
)를 계산할 수 있다.
일 실시예에서 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000251
)은 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000252
)가 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000253
)에 비해 가지는 상대적인 중요도를 나타낼 수 있도록 미리 학습된 값일 수 있다. 마찬가지로, 일 실시예에서 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000254
)은 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000255
)가 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000256
)에 비해 가지는 상대적인 중요도를 나타낼 수 있도록 미리 학습된 값일 수 있다.
일 실시예에서 기학습된 쿼리 행렬(
Figure PCTKR2022000977-appb-img-000257
)은 상기 제1 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000258
) 및 상기 제2 서브 특징 정보(
Figure PCTKR2022000977-appb-img-000259
)와 관련된 파라미터들을 포함하는 행렬일 수 있으며, DNN 네트워크의 복수의 레이어들 각각에 대응되도록 미리 학습된 값일 수 있다.
단계 S1020에서, 전자 장치(200)는 DNN 네트워크의 복수의 레이어들 각각에 대응하는 키 정보를 획득할 수 있다.
일 실시예에서 복수의 레이어들 각각에 대응하는 키 정보(
Figure PCTKR2022000977-appb-img-000260
)는 키 정보 계산부(420)에서 계산될 수 있다.
일 실시예에서 키 정보 계산부(420)는 복수의 레이어들 각각에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000261
)와 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000262
) 이용하여 키 정보(
Figure PCTKR2022000977-appb-img-000263
)를 계산할 수 있다. 이때, 특징 정보, 기학습된 키 행렬 및 키 정보는 DNN 네트워크의 복수의 레이어들 각각에 대응하는 값일 수 있다.
일 실시예에서 키 정보 계산부(420)는 복수의 레이어들 각각에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000264
)와 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000265
)의 내적을 수행하여, 키 정보(
Figure PCTKR2022000977-appb-img-000266
)를 계산할 수 있다.
일 실시예에서 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000267
)은 DNN 네트워크의 i번째 레이어에서 추출된 특징 정보(
Figure PCTKR2022000977-appb-img-000268
)에서, 이미지 유형(V)와 사운드 유형(S)의 상대적인 중요도가 나타날 수 있도록, 미리 학습된 값일 수 있다.
일 실시예에서 기학습된 키 행렬(
Figure PCTKR2022000977-appb-img-000269
)은 상기 이미지 유형(V) 및 상기 사운드 유형(S)와 관련된 파라미터들을 포함하는 행렬일 수 있으며, DNN 네트워크의 복수의 레이어들 각각에 대응되도록 미리 학습된 값일 수 있다.
단계 S1030에서, 전자 장치(200)는 DNN 네트워크의 복수의 레이어들 각각에 대응하는 제1 컨텍스트 정보 및 제2 컨텍스트 정보를 획득할 수 있다.
일 실시예에서 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000270
) 및 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000271
)는 컨텍스트 정보 계산부(430)에서 계산될 수 있다.
일 실시예에서 컨텍스트 정보 계산부(430)는 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000272
)와 키 정보(
Figure PCTKR2022000977-appb-img-000273
)를 이용하여 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000274
)를 계산할 수 있다. 마찬가지로, 일 실시예에서 컨텍스트 정보 계산부(430)는 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000275
)와 키 정보(
Figure PCTKR2022000977-appb-img-000276
)를 이용하여 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000277
)를 계산할 수 있다.이때, 제1 쿼리 정보, 제2 쿼리 정보, 제1 컨텍스트 정보, 제2 컨텍스트 정보 및 키 정보는 DNN 네트워크의 복수의 레이어들 각각에 대응하는 값일 수 있다.
일 실시예에서 컨텍스트 정보 계산부(430)는 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000278
)와 키 정보(
Figure PCTKR2022000977-appb-img-000279
)의 내적을 수행하여 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000280
)를 계산할 수 있다.
마찬가지로, 일 실시예에서 컨텍스트 정보 계산부(430)는 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000281
)와 키 정보(
Figure PCTKR2022000977-appb-img-000282
)의 내적을 수행하여 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000283
)를 계산할 수 있다.
일 실시예에서 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000284
)는 제1 쿼리 정보(
Figure PCTKR2022000977-appb-img-000285
)와 키 정보(
Figure PCTKR2022000977-appb-img-000286
)의 상관성을 나타내는 값일 수 있으며, 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000287
)는 제2 쿼리 정보(
Figure PCTKR2022000977-appb-img-000288
)와 키 정보(
Figure PCTKR2022000977-appb-img-000289
)의 상관성을 나타내는 값일 수 있다.
이때, 예를 들어, 제1 컨텍스트 값(
Figure PCTKR2022000977-appb-img-000290
)이 제2 컨텍스트 값(
Figure PCTKR2022000977-appb-img-000291
)보다 큰 경우, 제1 쿼리 정보와 키 정보의 상관성이 제2 쿼리 정보와 키 정보의 상관성 보다 큰 것으로 판단될 수 있으며, 제1 유형(V)의 상대적인 중요도가 제2 유형(S)보다 큰 것으로 판단될 수 있다.
단계 S1040에서, 전자 장치(200)는 DNN 네트워크의 복수의 레이어들 각각에 대응되는 유형 별 가중치를 계산할 수 있다.
일 실시예에서 복수의 레이어들 각각에 대응하는 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000292
)는 유형 별 가중치 계산부(440)에서 계산될 수 있다.
일 실시예에서 유형 별 가중치 계산부(440)는 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000293
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000294
)를 이용하여 DNN 네트워크의 복수의 레이어 당 하나의 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000295
)를 계산할 수 있다. 다른 실시예에서 유형 별 가중치 계산부(440)는 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000296
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000297
)를 이용하여 DNN 네트워크의 복수의 레이어 당 복수의 유형 별 가중치(예를 들어, 제1 유형 별 가중치인
Figure PCTKR2022000977-appb-img-000298
, 제2 유형 별 가중치인
Figure PCTKR2022000977-appb-img-000299
를 계산할 수 있다.
이때, 제1 컨텍스트 정보, 제2 컨텍스트 정보 및 유형 별 가중치는 DNN 네트워크의 복수의 레이어들 각각에 대응하는 값일 수 있다.
일 실시예에서 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000300
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000301
)의 최대 값을 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000302
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000303
)의 합으로 나눔으로써 복수의 레이어 당 하나의 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000304
)를 계산할 수 있다.
다른 실시예에서 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000305
)를 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000306
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000307
)의 합으로 나눔으로써 제1 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000308
)를 계산할 수 있고, 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000309
)를 제1 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000310
)와 제2 컨텍스트 정보(
Figure PCTKR2022000977-appb-img-000311
)의 합으로 나눔으로써 제2 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000312
)를 계산할 수 있다.
단계 S1050에서, 전자 장치(200)는 DNN 네트워크의 복수의 레이어들 각각에서 계산된 유형 별 가중치를 적용함으로써, 기 설정된 태스크에 대응하는 최종 출력 값을 획득할 수 있다.
일 실시예에서 DNN 네트워크는 유형 별 가중치 계산부(440)에서 계산된 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000313
)를 복수의 레이어들 각각에 적용하여 기 설정된 태스크에 대응하는 최종 출력 값을 획득할 수 있다.
예를 들어, DNN 네트워크는 네트워크의 복수의 레이어들 중 제i 레이어에 대한 기설정된 가중치 값(
Figure PCTKR2022000977-appb-img-000314
)에 제i 레이어에 대한 유형 별 가중치(
Figure PCTKR2022000977-appb-img-000315
)를 곱함으로써 이를 적용할 수 있다.

Claims (15)

  1. Deep Neural Network(DNN)을 이용하여, 기 설정된 태스크(task)를 수행하는 전자 장치에 있어서,
    제1 유형의 입력 데이터 및 제2 유형의 입력 데이터를 입력 받는 입력 인터페이스;
    하나 이상의 인스트럭션들을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서는,
    상기 제1 유형의 입력 데이터에 대응하는 제1 서브 특징 정보 및 상기 제2 유형의 입력 데이터에 대응하는 제2 서브 특징 정보를 획득하고,
    상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 상기 DNN으로 입력하여, 상기 DNN의 복수의 레이어들 각각으로부터 특징 정보를 획득하고,
    상기 특징 정보와 상기 제1 서브 특징 정보 및 제2 서브 특징 정보에 기초하여, 상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하고,
    상기 복수의 레이어들 각각에서, 상기 유형 별 가중치를 적용함으로써, 상기 기 설정된 태스크에 대응하는 최종 출력 값을 획득하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    기학습된 제1 서브 네트워크에 상기 제1 유형의 입력 데이터를 입력함으로써 상기 제1 서브 특징 정보를 획득하고,
    기학습된 제2 서브 네트워크에 상기 제2 유형의 입력 데이터를 입력함으로써 상기 제2 서브 특징 정보를 획득하는, 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    입력 데이터의 유형를 구분할 수 있는 유형 식별 정보에 기초하여,
    상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 부호화하고,
    상기 부호화된 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 상기 DNN으로 입력하는, 전자 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 서브 특징 정보 및 상기 복수의 레이어들 각각에 대응하는 기학습된 쿼리 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 제1 쿼리 정보를 획득하고, 상기 제1 쿼리 정보는 상기 제1 서브 특징 정보의 가중치를 나타내며,
    상기 제2 서브 특징 정보 및 상기 기학습된 쿼리 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 제2 쿼리 정보를 획득하고, 상기 제2 쿼리 정보는 상기 제2 서브 특징 정보의 가중치를 나타내며,
    상기 기학습된 쿼리 행렬은, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보와 관련된 파라미터들을 포함하는, 전자 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 복수의 레이어들 각각에서 추출되는 특징 정보 및 상기 복수의 레이어들 각각에 대응하는 기학습된 키 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 키 정보를 획득하는, 전자 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 제1 쿼리 정보와 상기 키 정보의 상관 관계를 나타내고, 상기 복수의 레이어들 각각에 대응되는 제1 콘텍스트 정보를 획득하고,
    상기 제2 쿼리 정보와 상기 키 정보의 상관 관계를 나타내고, 상기 복수의 레이어들 각각에 대응되는 제2 콘텍스트 정보를 획득하는, 전자 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 복수의 레이어들 각각에 대응되는 상기 제1 콘텍스트 정보 및 상기 제2 콘텍스트 정보에 기초하여, 상기 복수의 레이어들 각각에 대응되는 상기 유형 별 가중치를 계산하는, 전자 장치.
  8. Deep Neural Network(DNN)을 이용하여, 기 설정된 태스크(task)를 수행하는 전자 장치의 동작방법에 있어서,
    제1 유형의 입력 데이터 및 제2 유형의 입력 데이터를 입력 받는 단계;
    상기 제1 유형의 입력 데이터에 대응하는 제1 서브 특징 정보 및 상기 제2 유형의 입력 데이터에 대응하는 제2 서브 특징 정보를 획득하는 단계;
    상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 상기 DNN으로 입력하여, 상기 DNN의 복수의 레이어들 각각으로부터 특징 정보를 획득하는 단계;
    상기 특징 정보와 상기 제1 서브 특징 정보 및 제2 서브 특징 정보에 기초하여, 상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하는 단계; 및
    상기 복수의 레이어들 각각에서, 상기 유형 별 가중치를 적용함으로써, 상기 기 설정된 태스크에 대응하는 최종 출력 값을 획득하는 단계를 포함하는, 전자 장치의 동작방법.
  9. 제8항에 있어서,
    상기 제1 유형의 입력 데이터에 대응하는 제1 서브 특징 정보 및 상기 제2 유형의 입력 데이터에 대응하는 제2 서브 특징 정보를 획득하는 단계는,
    기학습된 제1 서브 네트워크에 상기 제1 유형의 입력 데이터를 입력함으로써 상기 제1 서브 특징 정보를 획득하는 단계; 및
    기학습된 제2 서브 네트워크에 상기 제2 유형의 입력 데이터를 입력함으로써 상기 제2 서브 특징 정보를 획득하는 단계를 포함하는, 전자 장치의 동작 방법.
  10. 제8항에 있어서,
    상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 상기 DNN으로 입력하는 단계는,
    상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보를 부호화하는 단계; 및
    상기 부호화된 상기 제1 서브 특징 정보 및 상기 부호화된 제2 서브 특징 정보를 상기 DNN으로 입력하는 단계를 포함하는, 전자 장치의 동작 방법.
  11. 제8항에 있어서,
    상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하는 단계는,
    상기 제1 서브 특징 정보 및 상기 복수의 레이어들 각각에 대응하는 기학습된 쿼리 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 제1 쿼리 정보를 획득하는 단계; 및
    상기 제2 서브 특징 정보 및 상기 기학습된 쿼리 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 제2 쿼리 정보를 획득하는 단계를 포함하고,
    상기 제1 쿼리 정보는 상기 제1 서브 특징 정보의 가중치를 나타내고, 상기 제2 쿼리 정보는 상기 제2 서브 특징 정보의 가중치를 나타내며,
    상기 기학습된 쿼리 행렬은, 상기 제1 서브 특징 정보 및 상기 제2 서브 특징 정보와 관련된 파라미터들을 포함하는, 전자 장치의 동작방법.
  12. 제11항에 있어서,
    상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하는 단계는,
    상기 복수의 레이어들 각각에서 추출되는 특징 정보 및 상기 복수의 레이어들 각각에 대응하는 기학습된 키 행렬에 기초하여, 상기 복수의 레이어들 각각에 대응하는 키 정보를 획득하는 단계를 더 포함하는, 전자 장치의 동작방법.
  13. 제12항에 있어서,
    상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하는 단계는,
    상기 제1 쿼리 정보와 상기 키 정보의 상관 관계를 나타내고, 상기 복수의 레이어들 각각에 대응되는 제1 콘텍스트 정보를 획득하는 단계; 및
    상기 제2 쿼리 정보와 상기 키 정보의 상관 관계를 나타내고, 상기 복수의 레이어들 각각에 대응되는 제2 콘텍스트 정보를 획득하는 단계를 더 포함하는, 전자 장치의 동작방법.
  14. 제13에 있어서,
    상기 복수의 레이어들 각각에 대응하는 유형 별 가중치를 계산하는 단계는,
    상기 복수의 레이어들 각각에 대응되는 상기 제1 콘텍스트 정보 및 상기 제2 콘텍스트 정보에 기초하여, 상기 복수의 레이어들 각각에 대응되는 상기 유형 별 가중치를 계산하는 단계를 더 포함하는, 전자 장치의 동작방법.
  15. 상기 제8항 내지 제17항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2022/000977 2021-01-25 2022-01-19 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법 WO2022158847A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/711,316 US20220237434A1 (en) 2021-01-25 2022-04-01 Electronic apparatus for processing multi-modal data, and operation method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210010353A KR20220107575A (ko) 2021-01-25 2021-01-25 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
KR10-2021-0010353 2021-01-25

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/711,316 Continuation US20220237434A1 (en) 2021-01-25 2022-04-01 Electronic apparatus for processing multi-modal data, and operation method thereof

Publications (1)

Publication Number Publication Date
WO2022158847A1 true WO2022158847A1 (ko) 2022-07-28

Family

ID=82548838

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/000977 WO2022158847A1 (ko) 2021-01-25 2022-01-19 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법

Country Status (2)

Country Link
KR (1) KR20220107575A (ko)
WO (1) WO2022158847A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US9971958B2 (en) * 2016-06-01 2018-05-15 Mitsubishi Electric Research Laboratories, Inc. Method and system for generating multimodal digital images
KR20180101959A (ko) * 2017-03-06 2018-09-14 서강대학교산학협력단 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
KR20190119863A (ko) * 2018-04-13 2019-10-23 인하대학교 산학협력단 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US9971958B2 (en) * 2016-06-01 2018-05-15 Mitsubishi Electric Research Laboratories, Inc. Method and system for generating multimodal digital images
KR20180101959A (ko) * 2017-03-06 2018-09-14 서강대학교산학협력단 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
KR20190119863A (ko) * 2018-04-13 2019-10-23 인하대학교 산학협력단 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MOHLA SATYAM; PANDE SHIVAM; BANERJEE BIPLAB; CHAUDHURI SUBHASIS: "FusAtNet: Dual Attention based SpectroSpatial Multimodal Fusion Network for Hyperspectral and LiDAR Classification", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW), IEEE, 14 June 2020 (2020-06-14), pages 416 - 425, XP033798952, DOI: 10.1109/CVPRW50498.2020.00054 *

Also Published As

Publication number Publication date
KR20220107575A (ko) 2022-08-02

Similar Documents

Publication Publication Date Title
WO2019117466A1 (ko) 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법
WO2017099555A1 (ko) 시간분할 세그먼트 블록 기반 수기서명 인증 시스템 및 방법
WO2020153552A1 (ko) 기록된 거래의 수정이 가능한 블록체인을 위한 방법 및 장치
WO2010114259A2 (en) Semi-lagrangian cip fluid solver without dimensional splitting
WO2020242090A1 (en) Apparatus for deep representation learning and method thereof
WO2018097439A1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
WO2020045852A1 (ko) 시편 두께 측정 장치 및 시편 두께 측정 방법
WO2023128083A1 (ko) 그레디언트 독립적인 업데이트를 추가하여 그레디언트-기반 학습의 한계점을 보완하는 신경망의 양자화 인식 학습 방법
WO2020004686A1 (ko) 블록체인 dPoC 합의알고리즘 기반 합의 인증 수행 방법
WO2022158847A1 (ko) 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
WO2019112117A1 (ko) 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
WO2018151356A1 (ko) 다중 스케일 곡률 기반 가시적 벡터 모델 해싱 방법
EP2532185A2 (en) Apparatus and method for allocating channel and power in communication system
WO2019074185A1 (en) ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF
EP3659073A1 (en) Electronic apparatus and control method thereof
WO2023229094A1 (ko) 행동 예측 방법 및 장치
WO2014104481A1 (ko) 구들의 교집합을 이용한 바운딩 볼륨 생성 장치 및 방법
WO2017142299A1 (ko) 공간분할 세그먼트에 대한 동적이동 추적 기반 수기서명 인증 시스템 및 방법
WO2010131899A2 (ko) 알파벳 입력 방법 및 장치
WO2017206866A1 (zh) 一种应用程序的关闭方法、装置、存储介质及电子设备
WO2019240434A1 (en) Electronic device and method of controlling thereof
WO2024014797A1 (ko) 강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법
WO2021112647A1 (en) Method, apparatus and electronic device for determining word representation vector
WO2017171142A1 (ko) 얼굴의 특징점 검출 시스템 및 방법
WO2021158040A1 (ko) 대화의 맥락에 대응하는 발화를 제공하는 전자 장치 및 이의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22742823

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22742823

Country of ref document: EP

Kind code of ref document: A1