WO2020256339A1 - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
WO2020256339A1
WO2020256339A1 PCT/KR2020/007554 KR2020007554W WO2020256339A1 WO 2020256339 A1 WO2020256339 A1 WO 2020256339A1 KR 2020007554 W KR2020007554 W KR 2020007554W WO 2020256339 A1 WO2020256339 A1 WO 2020256339A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
feature data
intelligence model
artificial intelligence
image
Prior art date
Application number
PCT/KR2020/007554
Other languages
English (en)
French (fr)
Inventor
김경수
김성진
정윤재
권인소
김다훈
우상현
Original Assignee
삼성전자주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190108907A external-priority patent/KR20200144445A/ko
Application filed by 삼성전자주식회사, 한국과학기술원 filed Critical 삼성전자주식회사
Publication of WO2020256339A1 publication Critical patent/WO2020256339A1/ko
Priority to US17/554,142 priority Critical patent/US20220108550A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means

Definitions

  • the present disclosure relates to an electronic device and a method for controlling the same, and more particularly, to an electronic device for acquiring a key frame of an image and a text for a key frame, and a control method thereof.
  • AI systems are computer systems that implement human-level intelligence, and unlike existing rule-based smart systems, machines learn, judge, and become smarter. As the artificial intelligence system is used, the recognition rate improves and users' tastes can be understood more accurately, and the existing rule-based smart system is gradually being replaced by a deep learning-based artificial intelligence system.
  • Machine learning for example, deep learning
  • component technologies using machine learning.
  • Machine learning is an algorithm technology that classifies/learns the features of input data by itself
  • element technology is a technology that simulates functions such as cognition and judgment of the human brain using machine learning algorithms such as deep learning. It consists of technical fields such as understanding, reasoning/prediction, knowledge expression, and motion control.
  • linguistic understanding is a technology that recognizes and applies/processes human language/text, and includes natural language processing, machine translation, dialogue systems, question and answer, and speech recognition/synthesis.
  • the present disclosure is conceived according to the above-described necessity, and the present disclosure acquires a key frame of an image based on action and scene feature data of a plurality of images included in the image, and based on a key frame excluding at least one of the key frames.
  • an electronic device for acquiring text of an entire key frame and a method for controlling the same are provided.
  • An electronic device includes a memory for storing at least one instruction, and a processor connected to the memory to control the electronic device, wherein the processor includes the at least one By executing the instruction of, an image is input to a first artificial intelligence model to obtain feature data of a plurality of images included in the image, and a plurality of key frames of the image are obtained based on the feature data of the plurality of images.
  • the remaining key frames excluding at least one of the plurality of key frames into the first artificial neural network of the second artificial intelligence model to obtain first feature data of the remaining key frames, and the remaining key frames
  • the plurality of features are obtained based on the second feature data. You can get the text for the key frame of.
  • the step of obtaining feature data of a plurality of images included in the image by inputting an image into a first artificial intelligence model, Acquiring a plurality of key frames of the image based on feature data, and inputting the remaining key frames excluding at least one of the plurality of key frames into a first artificial neural network of a second artificial intelligence model A second step of acquiring first feature data of a key frame, including information on a relationship between the remaining key frames by inputting the first feature data of the remaining key frames into a second artificial neural network of the second artificial intelligence model It may include obtaining feature data and obtaining texts for the plurality of key frames based on the second feature data.
  • the electronic device acquires a key frame of an image based on action feature data and scene feature data of the image in the image, and uses all key frames except at least one of the key frames.
  • the user can efficiently receive text describing the image.
  • FIG. 1 is a diagram illustrating an overall operation of an electronic device according to an embodiment of the present disclosure
  • FIG. 2A is a block diagram schematically illustrating a configuration of an electronic device according to an embodiment of the present disclosure
  • 2B is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure
  • 3A is a diagram illustrating an operation of a first artificial intelligence model included in an electronic device according to an embodiment of the present disclosure
  • 3B is a diagram illustrating a second artificial neural network of a first artificial intelligence model of an electronic device according to an embodiment of the present disclosure
  • FIG. 4 is a diagram illustrating an operation of a second artificial intelligence model included in an electronic device according to an embodiment of the present disclosure
  • FIG. 5 is a diagram for describing a method of controlling an electronic device according to an exemplary embodiment of the present disclosure.
  • FIG. 1 is a diagram illustrating an overall operation of an electronic device 100 according to an embodiment of the present disclosure.
  • the electronic device 100 inputs an image 10 into the first artificial intelligence model 20 to provide features of a plurality of images included in the image 10.
  • Data can be acquired.
  • the electronic device 100 inputs the image 10 to the first artificial neural network of the first artificial intelligence model 20 to include action feature data and scene feature data of a plurality of images.
  • Feature data of a plurality of images may be obtained.
  • an artificial neural network included in each artificial intelligence model included in the electronic device 100 of the present disclosure may be composed of a plurality of layers.
  • Each layer has a plurality of weight values, and an operation of a layer may be performed through an operation result of a previous layer and a plurality of weights.
  • the weight is a parameter that controls the degree of influence of the input signal on the result output.
  • the first artificial neural network of the first artificial intelligence model 20 may be an artificial neural network in which a recurrent neural network is connected to a convolutional neural network, but this is only an embodiment, and DNN ( Deep Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network), etc. can also be implemented.
  • DNN Deep Neural Network
  • RBM Restricted Boltzmann Machine
  • DBN Deep Belief Network
  • BRDNN Bidirectional Recurrent Deep Neural Network
  • the action feature data may include data related to a motion feature of an object included in the image.
  • the electronic device 100 may use the first artificial It is possible to obtain action feature data including image feature data when is stopped and image feature data when it is moved.
  • the scene feature data may include data related to features of a place or environment displayed on the image.
  • the electronic device 100 uses the image feature data when the place is a basketball court through the first artificial neural network of the first artificial intelligence model. And when the place is in the audience seat, scene feature data including image feature data may be obtained.
  • the electronic device 100 inputs action feature data and scene feature data of a plurality of images into a second artificial neural network of the first artificial intelligence model to obtain a frame level score of each of the plurality of images. Can be obtained.
  • the electronic device 100 compares action feature data and scene feature data of each image through a second artificial neural network of the first artificial intelligence model 20 to determine whether each image is a key frame representing the main features of the image. It is possible to obtain a numerical value to determine whether or not. That is, the electronic device 100 may obtain a key frame representing a major feature among a plurality of images included in the image through action features and scene features of the plurality of images included in the image.
  • the second artificial neural network of the first artificial intelligence model may be a neural network connected to a non-local neural network.
  • the non-local neural network performs an operation (or non-local operation) on the entire area of the input data, not a specific area, to obtain feature data of the input data and data on the relationship between each feature data. It is an artificial neural network that can be acquired. A detailed description of the non-local neural network will be described in detail with reference to FIG. 3B.
  • the frame level score is a value that can determine whether each image is a key frame of an image.
  • the key frame is an image representing the start and end of a single motion of an object in the image, and is an image capable of representing important characteristics of the image. That is, the key frame may include an image indicating when the movement of the object or the change in the location where the object starts or ends among a plurality of images included in the image.
  • the electronic device 100 may identify a key frame of an image among a plurality of images based on the frame level score of each of the acquired images. As an example, the electronic device 100 identifies and acquires an image having a frame level score exceeding a threshold value among a plurality of images as a plurality of key frames 30-1, 30-2, ... 30-5 of the image. can do. In FIG. 1, a plurality of key frames 30-1, 30-2, ... 30-5 of an acquired image are shown as five, but this is only an example.
  • the electronic device 100 may train the first artificial intelligence model based on the acquired action feature data and scene feature data of the key frame. That is, the electronic device 100 may train the first artificial intelligence model based on two feature data of the key frame. Specifically, the electronic device 100 compares each of the acquired key frame action feature data and scene feature data with action feature data and scene feature data of a key frame of an actual image (or a key frame of an image input from a user). Thus, the first artificial intelligence model can be trained.
  • the electronic device 100 may train the first artificial intelligence model by applying a backpropagation algorithm to the acquired key frame, but this is only an embodiment and various algorithms (for example, probabilistic
  • the first artificial intelligence model 20 may be trained by applying a stochastic gradient descent, momentum algorithm, adagrad algorithm, adam algorithm, etc.).
  • the electronic device 100 selects the remaining key frames except for at least one (30-2) among the plurality of key frames (30-1, 30-2, ... 30-5) of the second artificial intelligence model (40). 1 By inputting into an artificial neural network, first feature data of the remaining key frames may be obtained. In the case of FIG. 1, one of the plurality of key frames 30-1, 30-2, ... 30-5 is excluded, but this is only an example, and two or more key frames may be excluded. As an example, the electronic device 100 may change the number of key frames to be excluded according to the number of times the second artificial intelligence model 40 is trained. Meanwhile, the first artificial neural network of the second artificial intelligence model 40 may be a convolutional neural network, but this is only an example.
  • the electronic device 100 inputs the first feature data of the remaining key frames into the second artificial neural network of the second artificial intelligence model 40 to obtain second feature data including information on the relationship between the remaining key frames.
  • the second artificial neural network of the second artificial intelligence model 40 may be a neural network in which a non-local neural network is connected to a recurrent neural network.
  • the second feature data of the remaining key frames may include data related to an association relationship between the first feature data of the remaining key frames, and the like.
  • the electronic device 100 may obtain texts 50-1, 50-2, ... 50-5 for a plurality of key frames based on the second feature data of the remaining key frames. Specifically, the electronic device 100 inputs data obtained by adding the first feature data and the second feature data of the remaining key frames to the second artificial neural network of the second artificial intelligence model 40, and inputs at least one excluded key frame ( Third feature data including feature data of 30-2) may be obtained. That is, the electronic device 100 may infer and obtain the second feature data representing the relationship between the remaining key frames and the feature data of the excluded image 30-2 through the first feature data of the remaining key frames.
  • the third artificial neural network of the second artificial intelligence model 40 may be a neural network structure in which a non-local neural network is connected to a recurrent neural network identical to the structure of the second artificial neural network, but may include different parameters from the second artificial neural network. have.
  • the electronic device 100 inputs the third feature data into the fourth artificial neural network of the second artificial intelligence model 40 to provide text 50-1, 50-2, ... 50-5 for all of the plurality of key frames. ) Can be obtained. That is, the electronic device 100 obtains the text (50-1, 50-2,... 50-5) for all key frames even if at least one of the plurality of key frames is excluded through the second artificial intelligence model 40 can do. As an example, as shown in FIG. 1, the electronic device 100 excludes one of a plurality of key frames 30-2, but is excluded through the second artificial intelligence model 40. A text for 2) (eg, It was a formal cap and gown event) 50-2 may be obtained. Meanwhile, as an example, the fourth artificial neural network of the second artificial intelligence model 40 may be a recurrent neural network.
  • the electronic device 100 may train the second artificial intelligence model 40 based on the acquired texts 50-1, 50-2, ... 50-5 for a plurality of key frames.
  • the electronic device 100 includes text 50-1, 50-2, ... 50-5 for the acquired key frame and text for the actual key frame (or text for the key frame input from the user). Information), and a second artificial intelligence model can be trained.
  • the electronic device 100 may train the first artificial intelligence model by applying a backpropagation algorithm to texts 50-1, 50-2, ... 50-5 for the acquired key frames.
  • a second artificial intelligence model 40 is applied by applying various algorithms (for example, stochastic gradient descent, momentum algorithm, adagrad algorithm, adam algorithm, etc.). Can learn.
  • FIG. 2 is a block diagram schematically illustrating a configuration of an electronic device 100 according to an embodiment of the present disclosure.
  • the electronic device 100 may include a memory 110 and a processor 120.
  • the configurations shown in FIG. 2A are exemplary diagrams for implementing embodiments of the present disclosure, and appropriate hardware/software configurations, which are obvious to a person skilled in the art, may be additionally included in the electronic device 100.
  • the memory 110 may store an instruction or data related to at least one other component of the electronic device 100.
  • An instruction is an action statement for the electronic device 100 in a programming language, and is a minimum unit of a program that the electronic device 100 can directly execute.
  • the memory 110 may be implemented as a non-volatile memory, a volatile memory, a flash-memory, a hard disk drive (HDD), a solid state drive (SSD), or the like.
  • the memory 110 is accessed by the processor 120, and data read/write/edit/delete/update by the processor 120 may be performed.
  • the term memory refers to a memory 110, a ROM (not shown) in the processor 120, a RAM (not shown), or a memory card (not shown) mounted in the electronic device 100 (for example, micro SD Card, memory stick).
  • the memory 110 may store a first artificial intelligence model capable of obtaining a key frame from an image and a second artificial intelligence model capable of obtaining a text for the key frame.
  • the memory 110 may store data input and output from a plurality of artificial neural networks included in each artificial intelligence model.
  • the processor 120 is electrically connected to the memory 110 to control overall operations and functions of the electronic device 100.
  • the processor 120 may input an image to the first artificial intelligence model to obtain feature data of a plurality of images included in the image.
  • the processor 120 may obtain feature data including action feature data and scene feature data of a plurality of images of a plurality of images by inputting an image to the first artificial neural network of the first artificial intelligence model.
  • the processor 120 may obtain a frame level score of each of the plurality of images by inputting action feature data and scene feature data of a plurality of images into a second artificial neural network of the first artificial intelligence model. Specifically, the processor 120 may compare action features and scene features included in a plurality of images to obtain a frame level score, which is a numerical value indicating whether each image can represent a change of an object included in the image.
  • the processor 120 may identify and obtain a key frame of an image among a plurality of images based on the frame level score of each image. As an example, the processor 120 may identify and acquire an image having a frame level score exceeding a threshold value among a plurality of images as a key frame of the image.
  • the processor 120 may train the first artificial intelligence model based on the acquired action feature data and scene feature data of the key frame. Specifically, the processor 120 compares the action and scene feature data of an actual key frame (or key frame information of an image input from the user) with the action and scene feature data of the acquired key frame to generate a first artificial intelligence model. You can learn.
  • the learning algorithm applied to the key frame acquired by the processor 120 may be a backpropagation algorithm, but this is only an example.
  • the processor 120 may obtain first feature data of the remaining key frames by inputting the remaining key frames excluding at least one of the acquired key frames into the first artificial neural network of the second artificial intelligence model.
  • the processor 120 may adjust the number of key frames to be excluded from among a plurality of key frames according to the number of times of learning. Specifically, as the number of learning of the second artificial intelligence model increases, the processor 120 may increase the number of key frames to be excluded from among the plurality of key frames.
  • the processor 120 may acquire second feature data including information on a relationship between the remaining key frames by inputting the first feature data of the remaining key frames into the second artificial neural network of the second artificial intelligence model.
  • the second feature data may include correlation information of the first feature data of the remaining key frames, information on a change ratio between the remaining key frames, and the like.
  • the processor 120 may obtain text for all of the plurality of key frames based on the second feature data.
  • the processor 120 includes feature data of at least one key frame excluded by inputting data obtained by adding the first feature data and the second feature data of the remaining key frames to the third artificial neural network of the second artificial intelligence model. It is possible to obtain the third feature data. That is, the processor 120 may infer and obtain the feature data of the excluded key frame based on the relationship information between the remaining key frames and the first feature data of the remaining key frames.
  • the processor 120 may acquire text for all of the plurality of key frames by inputting third feature data including feature data of the remaining key frames into the fourth artificial neural network of the second artificial intelligence model.
  • the processor 120 may train the second artificial intelligence model based on the text for the acquired key frame. Specifically, the processor 120 may train the second artificial intelligence model by comparing the acquired text for the key frame with the text for the actual key frame (or the text for the key frame input from the user).
  • the algorithm applied to the text for the key frame acquired by the processor 120 may be a backpropagation algorithm, but this is only an embodiment, and a second artificial intelligence model may be trained by applying various algorithms.
  • the processor 120 may be configured with one or a plurality of processors.
  • one or more processors 120 may be a general-purpose processor such as a CPU (Central Processing Unit), an AP (Application Processor), a graphics-processing unit (GPU), a graphics-processing unit (VPU), or an NPU ( It may be a processor dedicated to artificial intelligence such as Neural Processing Unit).
  • CPU Central Processing Unit
  • AP Application Processor
  • GPU graphics-processing unit
  • VPU graphics-processing unit
  • NPU It may be a processor dedicated to artificial intelligence such as Neural Processing Unit).
  • One or more processors control to process input data according to a predefined operation rule or an artificial intelligence model stored in the memory 110. It is characterized in that a predefined motion rule or an artificial intelligence model is created through learning.
  • being made through learning means that a predefined operation rule or an artificial intelligence model of a desired characteristic is created by applying a learning algorithm to a plurality of training data.
  • Such learning may be performed in the device itself on which artificial intelligence according to the present disclosure is performed, or may be performed through a separate server/system.
  • the learning algorithm is a method in which a predetermined target device (eg, a robot) is trained using a plurality of pieces of learning data so that a predetermined target device can make a decision or make a prediction by itself.
  • Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, and the learning algorithm in this disclosure is specified. It is not limited to the above-described example except for.
  • FIG. 2B is a block diagram illustrating a detailed configuration of the electronic device 100 according to an exemplary embodiment of the present disclosure.
  • the electronic device 100 may include a memory 110, a processor 120, a communication unit 130, a display 140, and an input unit 150.
  • the memory 110 and the processor 20 have been described in FIG. 2A, redundant descriptions will be omitted.
  • the communication unit 130 may communicate with an external device through various communication methods.
  • the communication connection between the communication unit 140 and an external device may include communication through a third device (eg, a repeater, a hub, an access point, a server, or a gateway).
  • a third device eg, a repeater, a hub, an access point, a server, or a gateway.
  • the communication unit 140 may include various communication modules to perform communication with an external device.
  • the communication unit 140 may include a wireless communication module.
  • LTE Long Term Evolution
  • LTE-A Long Term Evolution Advance
  • CDMA code division multiple access
  • WCDMA wideband CDMA
  • UMTS universal mobile telecommunications
  • WiBro Wireless Broadband
  • GSM Global System for Mobile Communications
  • the wireless communication module may include at least one of, for example, wireless fidelity (WiFi), Bluetooth, Bluetooth low power (BLE), and Zigbee.
  • the display 140 may display various information according to the control of the processor 120.
  • the display 140 may display an image, a key frame, and text corresponding to the key frame under the control of the processor 120.
  • the display 140 may be implemented as a touch screen together with a touch panel. However, it is not limited to the above-described implementation, and the display 140 may be implemented differently according to the type of the electronic device 100.
  • the input unit 150 may receive various user inputs and transmit them to the processor 120.
  • the input unit 150 may include a touch sensor, a (digital) pen sensor, a pressure sensor, a key, or a microphone.
  • the touch sensor may use at least one of, for example, a capacitive type, a pressure sensitive type, an infrared type, or an ultrasonic type.
  • the (digital) pen sensor may be part of, for example, a touch panel, or may include a separate recognition sheet.
  • the input unit 150 A signal for text may be received and transmitted to the processor 120.
  • the audio output unit 160 is a component that outputs not only various audio data on which various processing tasks such as decoding, amplification, and noise filtering have been performed by an audio processing unit (not shown), but also various notification sounds or voice messages.
  • the audio output unit 160 may output a notification sound indicating that text corresponding to a plurality of key frames has been output.
  • the audio output unit 160 may be implemented as a speaker, but this is only an example, and may be implemented as another output terminal capable of outputting audio data.
  • FIG. 3A is a diagram illustrating a configuration of a first artificial intelligence model 20 included in the electronic device 100 according to an embodiment of the present disclosure.
  • the first artificial intelligence model 20 shown in FIG. 3A may be controlled by the processor 120.
  • the first artificial neural network 320 of the first artificial intelligence model 20 may output feature data of a plurality of images included in the image.
  • the first artificial neural network 320 of the first artificial intelligence model 20 may classify the acquired feature data of a plurality of images into action feature data and scene feature data.
  • the first artificial neural network 320 of the first artificial intelligence model 20 may be implemented as an artificial neural network in which a recurrent neural network is connected to a convolutional neural network.
  • feature data of a plurality of images may be implemented in the form of a vector or matrix.
  • the first artificial neural network 320 of the first artificial intelligence model 20 converts the feature data of a plurality of images classified into action feature data and scene feature data to the second artificial neural network 330 of the first artificial intelligence model 20. You can enter in The second artificial neural network 330 of the first artificial intelligence model 20 may be implemented as a non-local artificial neural network.
  • the second artificial neural network 330 of the first artificial intelligence model 20 may output a frame level score of each of the plurality of images based on the input action feature data and scene feature data. Specifically, the second artificial neural network 330 of the first artificial intelligence model 20 compares feature data of a plurality of images to indicate a change in an object included in the image of each image. Can be printed.
  • the processor 130 may identify and obtain a key frame 340 of an image among a plurality of images based on the frame level score. Specifically, the processor 130 may obtain an image having a frame level score exceeding a threshold value among the plurality of images by identifying as the key frame 340 of the image.
  • the processor 120 may train the first artificial intelligence model 20 based on the acquired action feature data and scene feature data of the key frame.
  • the process of training the first artificial intelligence model 20 by the processor 120 has been described with reference to FIG. 2A, and thus redundant descriptions will be omitted.
  • 3B is a diagram illustrating a second artificial neural network of a first artificial intelligence model of the electronic device 100 according to an embodiment of the present disclosure.
  • the second artificial neural network of the first artificial intelligence model may be implemented as a non-local artificial neural network.
  • Each of the action feature data 360-1 and the scene feature data 360-2 of a plurality of images may be implemented as a matrix (for one implementation, in the form of a T (preset value) X 512 matrix).
  • the action feature data 360-1 and the scene feature data 360-2 of each of the plurality of images are a plurality of layers 370-1 and 370-2 included in the second artificial neural network of the first artificial intelligence model. Can be entered respectively. Since non-local operation of a non-local artificial neural network is a known technique, the operation process is omitted.
  • the second artificial neural network of the first artificial intelligence model may output feature vectors 380-1 and 380-2 for each of the input action feature data 360-1 and scene feature data 360-2. have.
  • the second artificial neural network of the first artificial intelligence model may compare feature vectors 380-1 and 380-2 of each of the acquired images to output a frame level score of each of the plurality of images.
  • FIG 4 is a diagram for describing a configuration of a second artificial neural network 40 included in the electronic device 100 according to an exemplary embodiment of the present disclosure.
  • the second artificial neural network 40 may be controlled by the processor 120.
  • a plurality of key frames 400-1, 400-2, ... 400-5 of an image acquired through the first artificial intelligence model may be input to the second artificial neural network 40.
  • FIG. 4 shows that the plurality of key frames acquired through the first artificial intelligence model is 5, but this is only an exemplary embodiment.
  • the first of the second artificial intelligence model 40 may output first feature data of each of the remaining key frames.
  • the first artificial neural network 410 of the second artificial intelligence model 40 may be implemented as a convolutional neural network, but this is only an example.
  • the second artificial neural network 420 of the second artificial intelligence model 40 outputs second feature data including information on the relationship between the remaining key frames.
  • the second feature data may include information on a relationship between the remaining key frames.
  • the second artificial neural network 420 of the second artificial intelligence model 40 may be a neural network in which a non-local neural network is connected to a recurrent neural network, but this is only an exemplary embodiment.
  • the third artificial neural network 430 of the second artificial intelligence model 40 when the data obtained by adding the second feature data and the first feature data is input, the third artificial neural network 430 of the second artificial intelligence model 40 is excluded, and the third artificial neural network 430 includes feature data of at least one key frame. Feature data can be output. That is, the third artificial neural network 430 of the second artificial intelligence model 40 may infer and output the feature data of the excluded key frame through the correlation information of the remaining key frames and the first feature data of the remaining key frames. have.
  • the third artificial neural network 420 of the second artificial intelligence model 40 may be a neural network structure in which a non-local neural network is connected to the same recurrent neural network as the second artificial neural network 420 of the second artificial intelligence model 40. It can contain different parameters.
  • the fourth artificial neural network 440 of the second artificial intelligence model 40 outputs texts 450-1, 450-2... 450-5 for all of the plurality of key frames. can do. That is, a key frame in which at least one of the plurality of key frames 400-2 is excluded is input, but the second artificial intelligence model 40 uses the correlation information of the remaining key frames and the first feature data of the remaining key frames. Feature data of the excluded key frame 400-2 may be inferred, and a text (It was a formal cap and gown event) 450-2 corresponding thereto may be output.
  • the fourth artificial neural network 440 of the second artificial intelligence model 40 may be implemented as a recurrent neural network.
  • the fourth artificial neural network 440 of the second artificial intelligence model 40 may decode the third feature data to obtain text for each key frame.
  • the processor 120 may train the second artificial intelligence model 40 through the text of the acquired key frame. Since the process of training the second artificial intelligence model 40 by the processor 120 has been described with reference to FIG. 2A, a duplicate description will be omitted.
  • the processor 120 may increase the number of key frames excluded from among the plurality of key frames 400-1, 400-2, ... 400-5 according to the number of times the second artificial intelligence model 40 is trained. have.
  • the processor 120 may exclude two key frames.
  • FIG. 5 is a diagram for describing a method of controlling the electronic device 100 according to an embodiment of the present disclosure.
  • the electronic device 100 may acquire feature data of a plurality of images included in the image by inputting the image into the first artificial intelligence model (S510). Specifically, the electronic device 100 may acquire feature data of a plurality of images by inputting it into the first artificial neural network of the first artificial intelligence model. In addition, the electronic device 100 may classify feature data of a plurality of images into action feature data and scene feature data. That is, the feature data of the plurality of images may include action feature data and scene feature data of the plurality of images.
  • the electronic device 100 may acquire a plurality of key frames of an image based on feature data of the plurality of images (S520). Specifically, the electronic device 100 may obtain a frame level score of each of a plurality of images by inputting action feature data and scene feature data into a second artificial neural network of the first artificial intelligence model. As an example, the electronic device 100 compares action feature data and scene feature data of a plurality of images through a second artificial neural network of the first artificial intelligence model to determine whether an object included in the image can well represent a changing feature. You can get a number for.
  • the electronic device 100 may acquire a plurality of key frames of an image based on the frame level score. Specifically, the electronic device 100 may obtain an image having a frame level score exceeding a threshold value among a plurality of images by identifying as a key frame of the image.
  • the electronic device 100 may train the first artificial intelligence model based on the acquired action feature data and scene feature data of the key frame. Specifically, the electronic device 100 compares the action feature data and scene feature data of the acquired key frame with the action feature data of the key frame of the predefined image input from the user, and the first artificial intelligence model. Can learn.
  • the electronic device 100 may obtain first feature data of the remaining key frames by inputting the remaining key frames except at least one of the plurality of key frames into the first artificial neural network of the second artificial intelligence model (S530). .
  • the electronic device 100 may increase the number of key frames to be excluded among the plurality of key frames according to the number of times the second artificial intelligence model is trained.
  • the electronic device 100 may acquire second feature data including information on a relationship between the remaining key frames by inputting the first feature data of the remaining key frames into the second artificial neural network of the second artificial intelligence model. (S540).
  • the electronic device 100 may obtain texts for a plurality of key frames based on the second feature data (S550). Specifically, the electronic device 100 inputs data obtained by adding second feature data including information on the relationship between the first feature data of the remaining key frames and the other key frames into the third artificial neural network of the second artificial intelligence model. Third feature data including feature data of at least one excluded key frame may be obtained. That is, the electronic device 100 may infer and obtain feature data for the excluded key frame based on the data for the remaining key frames.
  • the electronic device 100 may acquire texts for a plurality of key frames by inputting the third feature data into the fourth artificial neural network of the second artificial intelligence model.
  • the electronic device 100 may train a second artificial intelligence model based on a plurality of acquired key frames.
  • the electronic device 100 may train the second artificial intelligence model by comparing text for a plurality of key frames with text for a plurality of predefined key frames input by a user.
  • expressions such as “A or B,” “at least one of A or/and B,” or “one or more of A or/and B” may include all possible combinations of items listed together .
  • “A or B,” “at least one of A and B,” or “at least one of A or B” includes (1) at least one A, (2) at least one B, Or (3) it may refer to all cases including both at least one A and at least one B.
  • Some component eg, a first component
  • another component eg, a second component
  • the certain component may be directly connected to the other component or may be connected through another component (eg, a third component).
  • a component eg, a first component
  • the component and the It may be understood that no other component (eg, a third component) exists between the different components.
  • the expression "a device configured to” may mean that the device “can” along with other devices or parts.
  • a processor configured (or configured) to perform A, B, and C means a dedicated processor (eg, an embedded processor) for performing the operation, or by executing one or more software programs stored in a memory device.
  • the'module' or'unit' performs at least one function or operation, and may be implemented as hardware or software, or a combination of hardware and software.
  • a plurality of'modules' or a plurality of'units' are integrated into at least one module except for'modules' or'units' that need to be implemented as specific hardware, and implemented as at least one processor (not shown). Can be.
  • the electronic device 100 or the user terminal device 200 includes, for example, a smart phone, a tablet PC, a mobile phone, a video phone, an e-book reader, a desktop PC, a laptop PC, and a netbook computer. , A workstation, a server, a PDA, and a portable multimedia player (PMP).
  • a smart phone for example, a smart phone, a tablet PC, a mobile phone, a video phone, an e-book reader, a desktop PC, a laptop PC, and a netbook computer.
  • a workstation a server, a PDA, and a portable multimedia player (PMP).
  • PMP portable multimedia player
  • Various embodiments of the present disclosure may be implemented as software including instructions stored in a machine-readable storage medium (eg, a computer).
  • the device receives instructions stored from the storage medium.
  • a device capable of making a call and operating according to the called command may include an electronic device (for example, the display device 100) according to the disclosed embodiments.
  • the processor directly or the above-mentioned
  • a function corresponding to the instruction may be performed using other components under the control of the processor, and the instruction may include a code generated or executed by a compiler or an interpreter. It may be provided in the form of a non-transitory storage medium, where'non-transitory' means that the storage medium does not contain a signal and is tangible, and the data is semi-permanent or Do not distinguish between temporary storage.
  • Each of the constituent elements may be composed of a singular or a plurality of entities, and some sub-elements of the aforementioned sub-elements are omitted, or other sub-elements are various. It may be further included in the embodiment. Alternatively or additionally, some constituent elements (eg, a module or a program) may be integrated into one entity, and functions performed by each corresponding constituent element prior to the consolidation may be performed identically or similarly. Operations performed by modules, programs, or other components according to various embodiments may be sequentially, parallel, repetitively or heuristically executed, or at least some operations may be executed in a different order, omitted, or other operations may be added. I can.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

전자 장치 및 이의 제어 방법이 제공된다. 본 전자 장치는 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써, 영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하고, 상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하고, 상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하고, 상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하고, 상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득할 수 있다.

Description

전자 장치 및 이의 제어 방법
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로서, 더욱 상세하게는 영상의 키 프레임(key frame)을 획득하고, 키 프레임에 대한 텍스트를 획득하는 전자 장치 및 이의 제어 방법에 관한 것이다.
인공 지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.
인공 지능 기술은 기계학습(예로, 딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습시키는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다. 특히, 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다.
한편, 최근에는 시각적 이해와 언어적 이해 기술을 통합하여 이미지에 대한 설명 문장을 생성하는 비디오 캡셔닝(Video captioning) 또는 스토리 텔링(storytelling) 기술에 대한 연구가 활발히 진행되고 있다.
기존의 기술의 경우, 복수의 이미지 전체에 대해 학습한 뒤에 학습한 이미지에 대한 텍스트를 획득하는 기술이 연구되었다. 다만, 기존의 기술을 활용하여 비디오 캡셔닝 또는 스토리 텔링을 수행할 경우, 이미지 간에 문맥적 흐름(contextual flow)에 맞도록 문장을 생성하기 위하여, 현재 이미지에 나타나지 않는 특징에 대한 문장이 생성되는 등 실제 이미지에 맞는 텍스트가 생성되지 않는 한계가 존재하였다.
본 개시는 상술한 필요성에 따라 안출된 것으로서, 본 개시는 영상에 포함된 복수의 이미지의 액션 및 장면 특징 데이터를 바탕으로 영상의 키 프레임을 획득하고, 키 프레임 중 적어도 하나를 제외한 키 프레임을 바탕으로 전체 키 프레임의 텍스트를 획득하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 실시 예에 따른 전자 장치는, 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써, 영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하고, 상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하고, 상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하고, 상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하고, 상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득할 수 있다.
한편, 상술한 목적을 달성하기 위한 실시 예에 따른 전자 장치의 제어 방법은 영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하는 단계, 상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하는 단계, 상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하는 단계, 상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하는 단계 및 상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득하는 단계를 포함할 수 있다.
상술한 바와 같이 본 개시의 다양한 실시 예에 의해, 전자 장치는 영상 속 이미지의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 영상의 키 프레임을 획득하고, 키 프레임 중 적어도 하나를 제외한 키 프레임을 통해 전체 키 프레임에 대한 텍스트를 획득함으로써, 사용자는 영상을 설명하는 텍스트를 효율적으로 제공받을 수 있게 된다.
도 1은 본 개시의 일 실시 예에 따른, 전자 장치의 전체적인 동작을 설명하기 위한 도면,
도 2a는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 간략히 도시한 블록도,
도 2b는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 상세히 도시한 블록도,
도 3a는 본 개시의 일 실시 예에 따른, 전자 장치에 포함된 제1 인공 지능 모델의 동작을 설명하기 위한 도면,
도 3b는 본 개시의 일 실시 예에 따른, 전자 장치의 제1 인공 지능 모델의 제2 인공 신경망을 설명하기 위한 도면,
도 4는 본 개시의 일 실시 예에 따른, 전자 장치에 포함된 제2 인공 지능 모델의 동작을 설명하기 위한 도면,
도 5는 본 개시의 일 실시 예에 따른, 전자 장치의 제어 방법을 설명하기 위한 도면이다.
이하, 도면을 참조하여 본 개시에 대해 구체적으로 설명하도록 한다.
도 1은 본 개시의 일 실시 예에 따른, 전자 장치(100)의 전체적인 동작을 설명하기 위한 도면이다.
도 1에 도시된 바와 같이, 본 개시의 일 실시 예에 따른 전자 장치(100)는 영상(10)을 제1 인공 지능 모델(20)에 입력하여 영상(10)에 포함된 복수의 이미지의 특징 데이터를 획득할 수 있다. 구체적으로, 전자 장치(100)는 영상(10)을 제1 인공 지능 모델(20)의 제1 인공 신경망에 입력하여 복수의 이미지의 액션(action) 특징 데이터 및 장면(scene) 특징 데이터를 포함하는 복수의 이미지의 특징 데이터를 획득할 수 있다.
한편, 본 개시의 전자 장치(100)에 포함된 각 인공 지능 모델에 포함된 인공 신경망은 복수의 레이어(layer)들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행할 수 있다. 가중치는 입력 신호가 결과 출력에 주는 영향도를 조절하는 매개 변수이다.
그리고, 제1 인공 지능 모델(20)의 제1 인공 신경망은 컨볼루션 신경망(Convolutional Neural Network)에 순환 신경망(Recurrent Neural Network)을 연결한 인공 신경망일 수 있으나 이는 일 실시 예에 불과하며, DNN (Deep Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 등 으로도 구현될 수 있다.
그리고, 액션 특징 데이터는 이미지 속에 포함된 개체의 움직임에 대한 특징과 관련된 데이터를 포함할 수 있다. 일 실시 예로, 영상에 포함된 복수의 이미지 중 개체가 정지한 이미지 및 개체가 정지했다가 움직이는 이미지가 포함되어 있는 경우, 전자 장치(100)는 제1 인공 지능 모델의 제1 인공 신경망을 통해 개체가 정지했을 때의 이미지 특징 데이터 및 움직였을 때의 이미지 특징 데이터를 포함하는 액션 특징 데이터를 획득할 수 있다.
그리고, 장면 특징 데이터는 이미지에 표시되는 장소 또는 환경의 특징과 관련된 데이터를 포함할 수 있다. 일 실시 예로, 복수의 이미지 중 농구 코트에 대한 이미지 및 관중석에 대한 이미지가 포함된 경우, 전자 장치(100)는 제1 인공 지능 모델의 제1 인공 신경망을 통해 장소가 농구 코트일 때 이미지 특징 데이터 및 장소가 관중석일 때 이미지 특징 데이터를 포함하는 장면 특징 데이터를 획득할 수 있다.
일 실시 예에 따른, 전자 장치(100)는 복수의 이미지의 액션 특징 데이터 및 장면 특징 데이터를 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 복수의 이미지 각각의 프레임 레벨 스코어(frame level score)를 획득할 수 있다. 일 실시 예로, 전자 장치(100)는 제1 인공 지능 모델(20)의 제2 인공 신경망을 통해 이미지 각각의 액션 특징 데이터 및 장면 특징 데이터를 비교하여 각 이미지가 영상의 주요한 특징을 나타내는 키 프레임인지 여부를 판단할 수 있는 수치를 획득할 수 있다. 즉, 전자 장치(100)는 영상에 포함된 복수의 이미지의 액션 특징 및 장면 특징을 통해 영상에 포함된 복수의 이미지 중 주요한 특징을 나타내는 키 프레임을 획득할 수 있다.
제1 인공 지능 모델의 제2 인공 신경망은 비 지역 신경망(Non-local neural network)을 연결한 신경망일 수 있다. 비 지역 신경망은 입력된 데이터의 특정 영역이 아닌 전체 영역에 대해 연산(또는, 비 지역 연산(non-local operation))을 수행하여 입력된 데이터의 특징 데이터 및 각 특징 데이터들간의 관계에 대한 데이터를 획득할 수 있는 인공 신경망이다. 비 지역 신경망에 대한 구체적인 설명은 도 3b를 참조하여 구체적으로 설명하도록 한다.
프레임 레벨 스코어는 각 이미지가 영상의 키 프레임(Key frame)인지 여부를 판단할 수 있는 수치이다. 그리고, 키 프레임은 영상에서 개체의 단일 동작의 시작 및 끝을 나타내는 이미지로 영상의 중요한 특징을 나타낼 수 있는 이미지이다. 즉, 키 프레임은 영상에 포함된 복수의 이미지 중 개체의 움직임 또는 개체가 위치하는 장소의 변화를 시작하거나 끝날 때를 나타내는 이미지를 포함할 수 있다.
그리고, 전자 장치(100)는 획득한 이미지 각각의 프레임 레벨 스코어를 바탕으로 복수의 이미지 중 영상의 키 프레임을 식별할 수 있다. 일 실시 예로, 전자 장치(100)는 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 영상의 복수의 키 프레임(30-1,30-2, … 30-5)으로 식별하여 획득할 수 있다. 도 1에는 획득된 영상의 복수의 키 프레임(30-1,30-2, … 30-5)을 5장으로 도시하였으나 이는 일 실시 예에 불과하다.
그리고, 전자 장치(100)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 제1 인공 지능 모델을 학습시킬 수 있다. 즉, 전자 장치(100)는 키 프레임의 두 가지 특징 데이터를 바탕으로 제1 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 전자 장치(100)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터 각각을 실제 영상의 키 프레임(또는, 사용자로부터 입력된 영상의 키 프레임)의 액션 특징 데이터 및 장면 특징 데이터와 비교하여 제1 인공 지능 모델을 학습시킬 수 있다. 일 실시 예로, 전자 장치(100)는 획득한 키 프레임에 역 전파(backpropagation) 알고리즘을 적용하여 제1 인공 지능 모델을 학습시킬 수 있으나 이는 일 실시 예에 불과하며 다양한 알고리즘(예를 들어, 확률적 경사 하강법(Stochastic Gradient Descent), 모멘텀(Momentum) 알고리즘, adagrad 알고리즘, adam 알고리즘 등)을 적용하여 제1 인공 지능 모델(20)을 학습시킬 수 있다.
한편, 전자 장치(100)는 복수의 키 프레임(30-1,30-2, … 30-5) 중 적어도 하나(30-2)를 제외한 나머지 키 프레임을 제2 인공 지능 모델(40)의 제1 인공 신경망에 입력하여 나머지 키 프레임의 제1 특징 데이터를 획득할 수 있다. 도 1의 경우, 복수의 키 프레임(30-1,30-2, … 30-5) 중 하나를 제외하였으나 이는 일 실시 예에 불과하며 2개 또는 그 이상의 키 프레임을 제외할 수 있다. 일 실시 예로, 전자 장치(100)는 제2 인공 지능 모델(40)의 학습 횟수에 따라 제외하는 키 프레임의 개수를 변경할 수 있다. 한편, 제2 인공 지능 모델(40)의 제1 인공 신경망은 컨볼루션 신경망일 수 있으나 이는 일 실시 예에 불과하다.
그리고, 전자 장치(100)는 나머지 키 프레임의 제1 특징 데이터를 제2 인공 지능 모델(40)의 제2 인공 신경망에 입력하여 나머지 키 프레임 간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득할 수 있다. 일 실시 예로, 제2 인공 지능 모델(40)의 제2 인공 신경망은 순환 신경망에 비 지역 신경망을 연결한 신경망일 수 있다. 그리고, 나머지 키 프레임의 제2 특징 데이터는 나머지 키 프레임의 제1 특징 데이터 간의 연관 관계와 관련된 데이터 등을 포함할 수 있다.
그리고, 전자 장치(100)는 나머지 키 프레임의 제2 특징 데이터를 바탕으로 복수의 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)를 획득할 수 있다. 구체적으로, 전자 장치(100)는 나머지 키 프레임의 제1 특징 데이터와 제2 특징 데이터를 더한 데이터를 제2 인공 지능 모델(40)의 제2 인공 신경망에 입력하여 제외된 적어도 하나의 키 프레임(30-2)의 특징 데이터를 포함하는 제3 특징 데이터를 획득할 수 있다. 즉, 전자 장치(100)는 나머지 키 프레임의 연관 관계를 나타내는 제2 특징 데이터와 나머지 키 프레임의 제1 특징 데이터를 통해 제외된 이미지(30-2)의 특징 데이터를 추론하여 획득할 수 있다. 한편, 제2 인공 지능 모델(40)의 제3 인공 신경망은 제2 인공 신경망의 구조와 동일한 순환 신경망에 비 지역 신경망을 연결한 신경망 구조일 수 있으나, 제2 인공 신경망과 상이한 파라미터를 포함할 수 있다.
그리고, 전자 장치(100)는 제3 특징 데이터를 제2 인공 지능 모델(40)의 제4 인공 신경망에 입력하여 복수의 키 프레임 전체에 대한 텍스트(50-1,50-2, … 50-5)를 획득할 수 있다. 즉, 전자 장치(100)는 제2 인공 지능 모델(40)을 통해 복수의 키 프레임 중 적어도 하나를 제외하더라도 전체 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)를 획득할 수 있다. 일 실시 예로, 도 1에 도시된 바와 같이, 전자 장치(100)는 복수의 키 프레임 중 하나(30-2)를 제외하였으나, 제2 인공 지능 모델(40)을 통해 제외된 키 프레임(30-2)에 대한 텍스트(예를 들면, It was a formal cap and gown event)(50-2)를 획득할 수 있다. 한편, 일 실시 예로, 제2 인공 지능 모델(40)의 제4 인공 신경망은 순환 신경망일 수 있다.
한편, 전자 장치(100)는 획득한 복수의 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)를 바탕으로 제2 인공 지능 모델(40)을 학습시킬 수 있다. 구체적으로, 전자 장치(100)는 획득한 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)와 실제 키 프레임에 대한 텍스트(혹은, 사용자로부터 입력된 키 프레임에 대한 텍스트에 대한 정보)와 비교하여 제2 인공 지능 모델을 학습시킬 수 있다. 일 실시 예로, 전자 장치(100)는 획득한 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)에 역 전파(backpropagation) 알고리즘을 적용하여 제1 인공 지능 모델을 학습시킬 수 있으나 이는 일 실시 예에 불과하며 다양한 알고리즘(예를 들어, 확률적 경사 하강법(Stochastic Gradient Descent), 모멘텀(Momentum) 알고리즘, adagrad 알고리즘, adam 알고리즘 등)을 적용하여 제2 인공 지능 모델(40)을 학습시킬 수 있다.
도 2는 본 개시의 일 실시 예에 따른, 전자 장치(100)의 구성을 간략히 도시한 블록도이다. 도 2a에 도시된 바와 같이, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함할 수 있다. 도 2a에 도시된 구성들은 본 개시의 실시 예들을 구현하기 위한 예시도이며, 통상의 기술자에게 자명한 수준의 적절한 하드웨어/소프트웨어 구성들이 전자 장치(100)에 추가로 포함될 수 있다.
메모리(110)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 인스트럭션(Instruction) 또는 데이터를 저장할 수 있다. 인스트럭션은 프로그래밍 언어(programming language)에서 전자 장치(100)에 대한 하나의 동작 문장(action statement)이며, 전자 장치(100)가 직접 수행할 수 있는 프로그램의 최소 단위이다.
특히, 메모리(110-)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(110)는 프로세서(120)에 의해 액세스되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(110), 프로세서(120) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다.
특히, 메모리(110)는 영상에서 키 프레임을 획득할 수 있는 제1 인공 지능 모델과 키 프레임에 대한 텍스트를 획득할 수 있는 제2 인공 지능 모델을 저장할 수 있다. 그리고, 메모리(110)는 각 인공 지능 모델에 포함되어 있는 복수의 인공 신경망에서 입력 및 출력되는 데이터를 저장할 수 있다.
프로세서(120)는 메모리(110)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(120)는 메모리(110)에 저장되어 있는 적어도 하나의 인스트럭션을 실행함으로써, 영상을 제1 인공 지능 모델에 입력하여 영상에 포함된 복수의 이미지의 특징 데이터를 획득할 수 있다. 구체적으로, 프로세서(120)는 영상을 제1 인공 지능 모델의 제1 인공 신경망에 입력하여 복수의 이미지의 복수의 이미지의 액션 특징 데이터 및 장면 특징 데이터를 포함한 특징 데이터를 획득할 수 있다.
한편, 프로세서(120)는 복수의 이미지의 액션 특징 데이터 및 장면 특징 데이터를 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 복수의 이미지 각각의 프레임 레벨 스코어를 획득할 수 있다. 구체적으로, 프로세서(120)는 복수의 이미지에 포함된 액션 특징 및 장면 특징을 비교하여 각 이미지가 영상에 포함된 객체의 변화를 나타낼 수 있는지에 대한 수치인 프레임 레벨 스코어를 획득할 수 있다.
그리고, 프로세서(120)는 각 이미지의 프레임 레벨 스코어를 바탕으로 복수의 이미지 중 영상의 키 프레임을 식별하여 획득할 수 있다. 일 실시 예로, 프로세서(120)는 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 영상의 키 프레임으로 식별하고 획득할 수 있다.
한편, 프로세서(120)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 제1 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 프로세서(120)는 실제 키 프레임(혹은, 사용자로부터 입력된 영상의 키 프레임 정보)의 액션 및 장면 특징 데이터와 획득한 키 프레임의 액션 및 장면 특징 데이터를 비교하여 제1 인공 지능 모델을 학습시킬 수 있다. 프로세서(120)가 획득한 키 프레임에 적용하는 학습 알고리즘은 역전파 알고리즘일 수 있으나 이는 일 실시 예에 불과하다.
한편, 프로세서(120)는 획득한 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 나머지 키 프레임의 제1 특징 데이터를 획득할 수 있다. 일 실시 예로, 프로세서(120)는 학습 횟수에 따라 복수의 키 프레임 중 제외하는 키 프레임의 개수를 조절할 수 있다. 구체적으로, 프로세서(120)는 제2 인공 지능 모델의 학습 횟수가 증가할 수록 복수의 키 프레임 중 제외하는 키 프레임의 개수를 증가시킬 수 있다.
그리고, 프로세서(120)는 나머지 키 프레임의 제1 특징 데이터를 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득할 수 있다. 제2 특징 데이터는 나머지 키 프레임의 제1 특징 데이터의 연관 관계 정보, 각 나머지 키 프레임 간의 변화 비율에 대한 정보 등을 포함할 수 있다.
그리고, 프로세서(120)는 제2 특징 데이터를 바탕으로 복수의 키 프레임 전체에 대한 텍스트를 획득할 수 있다. 구체적으로, 프로세서(120)는 나머지 키 프레임의 제1 특징 데이터와 제2 특징 데이터를 더한 데이터를 제2 인공 지능 모델의 제3 인공 신경망에 입력하여 제외된 적어도 하나의 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 획득할 수 있다. 즉, 프로세서(120)는 나머지 키 프레임간의 관계 정보 및 나머지 키 프레임의 제1 특징 데이터를 바탕으로 제외된 키 프레임의 특징 데이터를 추론하여 획득할 수 있다. 그리고, 프로세서(120)는 나머지 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 제2 인공 지능 모델의 제4 인공 신경망에 입력하여 복수의 키 프레임 전체에 대한 텍스트를 획득할 수 있다.
한편, 프로세서(120)는 획득한 키 프레임에 대한 텍스트를 바탕으로 제2 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 프로세서(120)는 획득한 키 프레임에 대한 텍스트와 실제 키 프레임에 대한 텍스트(또는, 사용자로부터 입력된 키 프레임에 대한 텍스트)와 비교하여 제2 인공 지능 모델을 학습시킬 수 있다. 그리고, 프로세서(120)가 획득한 키 프레임에 대한 텍스트에 적용하는 알고리즘은 역전파 알고리즘일 수 있으나 이는 일 실시 예에 불과하며 다양한 알고리즘을 적용하여 제2 인공 지능 모델을 학습시킬 수 있다.
한편, 프로세서(120)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서(120)는 CPU(Central Processing Unit), AP(Application Processor) 등과 같은 범용 프로세서, GPU(graphics-processing Unit), VPU (Visual Processing Unit) 등과 같은 그래픽 전용 프로세서 또는 NPU(Neural Processing Unit)와 같은 인공지능 전용 프로세서일 수 있다.
하나 또는 복수의 프로세서는, 메모리(110)에 저장된 기정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.
여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.
학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
도 2b는 본 개시의 일 실시 예에 따른, 전자 장치(100)의 구성을 상세히 도시한 블록도이다. 도 2b에 도시된 바와 같이 전자 장치(100)는 메모리(110), 프로세서(120), 통신부(130), 디스플레이(140) 및 입력부(150)를 포함할 수 있다. 한편, 메모리(110) 및 프로세서(20)는 도 2a에서 설명하였으므로, 중복되는 설명은 생략하도록 한다.
통신부(130)는 다양한 통신 방식을 통해 외부 장치와 통신을 수행할 수 있다. 통신부(140)가 외부 장치와 통신 연결되는 것은 제3 기기(예로, 중계기, 허브, 엑세스 포인트, 서버 또는 게이트웨이 등)를 거쳐서 통신하는 것을 포함할 수 있다.
한편, 통신부(140)는 외부 장치와 통신을 수행하기 위해 다양한 통신 모듈을 포함할 수 있다. 일 예로, 통신부(140)는 무선 통신 모듈을 포함할 수 있으며, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신 모듈을 포함할 수 있다. 또 다른 예로, 무선 통신 모듈은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), 중 적어도 하나를 포함할 수 있다.
디스플레이(140)는 프로세서(120)의 제어에 따라 다양한 정보를 표시할 수 있다. 특히, 디스플레이(140)는 프로세서(120) 제어에 따라 영상, 키 프레임 및 키 프레임에 대응되는 텍스트를 표시할 수 있다.
그리고, 디스플레이(140)는 터치 패널과 함께 터치 스크린으로도 구현될 수 있다. 그러나 상술한 구현으로 한정되는 것은 아니며, 디스플레이(140)는 전자 장치(100)의 유형에 따라 다르게 구현될 수 있다.
입력부(150)는 다양한 사용자 입력을 수신하여 프로세서(120)로 전달할 수 있다. 특히, 입력부(150)는 터치 센서, (디지털) 펜 센서, 압력 센서, 키, 또는 마이크를 포함할 수 있다. 터치 센서는, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. (디지털) 펜 센서는, 예를 들면, 터치 패널의 일부이거나, 별도의 인식용 쉬트를 포함할 수 있다.
일 실시 예로, 사용자로부터 메모리(110)에 저장되어 있는 각 인공 지능 모델의 학습을 위해 영상의 키 프레임 및 키 프레임에 대한 텍스트가 입력되면, 입력부(150)는 입력된 키 프레임 및 키 프레임에 대한 텍스트에 대한 신호를 수신하여 프로세서(120)로 전달할 수 있다.
오디오 출력부(160)는 오디오 처리부(미도시)에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 일 실시 예로, 오디오 출력부(160)는 복수의 키 프레임에 대응되는 텍스트가 출력되었다는 알림음을 출력할 수 있다.
오디오 출력부(160)는 스피커로 구현될 수 있으나 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 다른 출력 단자로 구현될 수도 있다.
도 3a는 본 개시의 일 실시 예에 따른, 전자 장치(100)에 포함된 제1 인공 지능 모델(20)의 구성을 설명하기 위한 도면이다. 도 3a에 도시된 제1 인공 지능 모델(20)은 프로세서(120)에 의해 제어될 수 있다.
우선, 영상(310)이 입력되면, 제1 인공 지능 모델(20)의 제1 인공 신경망(320)는 영상에 포함된 복수의 이미지의 특징 데이터를 출력할 수 있다. 일 실시 예로, 제1 인공 지능 모델(20)의 제1 인공 신경망(320)은 획득한 복수의 이미지의 특징 데이터를 액션 특징 데이터 및 장면 특징 데이터로 분류할 수 있다.
한편, 제1 인공 지능 모델(20)의 제1 인공 신경망(320)이 컨볼루션 신경망에 순환 신경망이 연결된 인공 신경망으로 구현될 수 있다. 그리고, 복수의 이미지의 특징 데이터는 벡터 또는 행렬의 형태로 구현될 수 있다.
제1 인공 지능 모델(20)의 제1 인공 신경망(320)은 액션 특징 데이터 및 장면 특징 데이터로 분류된 복수의 이미지의 특징 데이터를 제1 인공 지능 모델(20)의 제2 인공 신경망(330)에 입력할 수 있다. 제1 인공 지능 모델(20)의 제2 인공 신경망(330)은 비 지역 인공 신경망으로 구현될 수 있다.
제1 인공 지능 모델(20)의 제2 인공 신경망(330)은 입력된 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 복수의 이미지 각각의 프레임 레벨 스코어를 출력할 수 있다. 구체적으로, 제1 인공 지능 모델(20)의 제2 인공 신경망(330)은 복수의 이미지의 특징 데이터를 비교하여 각 이미지의 영상에 포함된 객체의 변화를 나타낼 수 있는지에 대한 수치인 프레임 레벨 스코어를 출력할 수 있다.
그리고, 프로세서(130)는 프레임 레벨 스코어를 바탕으로 복수의 이미지 중 영상의 키 프레임(340)를 식별하여 획득할 수 있다. 구체적으로, 프로세서(130)는 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 영상의 키 프레임(340)으로 식별하여 획득할 수 있다.
한편, 프로세서(120)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 제1 인공 지능 모델(20)를 학습시킬 수 있다. 프로세서(120)가 제1 인공 지능 모델(20)를 학습시키는 과정은 도 2a를 참조하여 설명하였으므로 중복되는 설명은 생략하도록 한다.
도 3b는 본 개시의 일 실시 예에 따른, 전자 장치(100)의 제1 인공 지능 모델의 제2 인공 신경망을 설명하기 위한 도면이다.
도 3b에 도시된 바와 같이, 제1 인공 지능 모델의 제2 인공 신경망은 비 지역 인공 신경망으로 구현될 수 있다. 복수의 이미지의 액션 특징 데이터(360-1) 및 장면 특징 데이터(360-2) 각각은 행렬(일 실시 에로, T(기설정된 값)X 512 행렬 형태)로 구현될 수 있다. 그리고, 복수의 이미지 각각의 액션 특징 데이터(360-1) 및 장면 특징 데이터(360-2)는 제1 인공 지능 모델의 제2 인공 신경망에 포함된 복수의 레이어(370-1, 370-2)에 각각 입력될 수 있다. 비 지역 인공 신경망의 비 지역 연산(non-local operation)은 공지의 기술이므로 연산 과정은 생략하도록 한다.
한편, 제1 인공 지능 모델의 제2 인공 신경망은 입력된 액션 특징 데이터(360-1) 및 장면 특징 데이터(360-2) 각각에 대한 특징 벡터(380-1, 380-2)를 출력할 수 있다. 그리고, 제1 인공 지능 모델의 제2 인공 신경망은 획득한 복수의 이미지 각각의 특징 벡터(380-1, 380-2)를 비교하여 복수의 이미지 각각의 프레임 레벨 스코어를 출력할 수 있다.
도 4는 본 개시의 일 실시 예에 따른, 전자 장치(100)에 포함된 제2 인공 신경망(40)의 구성을 설명하기 위한 도면이다. 제2 인공 신경망(40)은 프로세서(120)에 의해 제어될 수 있다.
일 실시 예로, 제2 인공 신경망(40)에 제1 인공 지능 모델을 통해 획득된 영상의 복수의 키 프레임(400-1, 400-2, … 400-5)이 입력될 수 있다. 도 4에는 제1 인공 지능 모델을 통해 획득된 복수의 키 프레임이 5인 것으로 도시되어 있으나 이는 일 실시 예에 불과하다.
한편, 프로세서(120) 제어에 의해 복수의 키 프레임(400-1, 400-2, … 400-5)중 적어도 하나가 제외된 키 프레임이 입력되면, 제2 인공 지능 모델(40)의 제1 인공 신경망(410)은 나머지 키 프레임 각각의 제1 특징 데이터를 출력할 수 있다. 제2 인공 지능 모델(40)의 제1 인공 신경망(410)은 컨볼루션 신경망으로 구현될 수 있으나 이는 일 실시 예에 불과하다.
그리고, 나머지 키 프레임 각각의 제1 특징 데이터가 입력되면, 제2 인공 지능 모델(40)의 제2 인공 신경망(420)은 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 출력할 수 있다. 제2 특징 데이터는 나머지 키 프레임간의 연관 관계 정보 등을 포함할 수 있다. 제2 인공 지능 모델(40)의 제2 인공 신경망(420)은 순환 신경망에 비 지역 신경망이 연결된 신경망일 수 있으나 이는 실시 예에 불과하다.
그리고, 제2 특징 데이터 및 제1 특징 데이터를 더한 데이터가 입력되면, 제2 인공 지능 모델(40)의 제3 인공 신경망(430)은 제외된 적어도 하나의 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 출력할 수 있다. 즉, 제2 인공 지능 모델(40)의 제3 인공 신경망(430)은 나머지 키 프레임의 연관 관계 정보 및 나머지 키 프레임의 제1 특징 데이터를 통해 제외된 키 프레임의 특징 데이터를 추론하여 출력할 수 있다. 제2 인공 지능 모델(40)의 제3 인공 신경망(420)은 제2 인공 지능 모델(40)의 제2 인공 신경망(420)과 동일한 순환 신경망에 비 지역 신경망이 연결된 신경망 구조일 수 있으나, 서로 상이한 파라미터를 포함할 수 있다.
그리고, 제3 특징 데이터가 입력되면, 제2 인공 지능 모델(40)의 제4 인공 신경망(440)은 복수의 키 프레임 전체에 대한 텍스트(450-1, 450-2 … 450-5)를 출력할 수 있다. 즉, 복수의 키 프레임 중 적어도 하나(400-2)가 제외된 키 프레임이 입력되었으나, 제2 인공 지능 모델(40)은 나머지 키 프레임의 연관 관계 정보 및 나머지 키 프레임의 제1 특징 데이터를 통해 제외된 키 프레임(400-2)의 특징 데이터를 추론하고, 그에 대응되는 텍스트(It was a formal cap and gown event)(450-2)를 출력할 수 있다.
한편, 일 실시 예로 제2 인공 지능 모델(40)의 제4 인공 신경망(440)은 순환 신경망으로 구현될 수 있다. 그리고, 제2 인공 지능 모델(40)의 제4 인공 신경망(440)는 제3 특징 데이터를 디코딩하여 각 키 프레임에 대한 텍스트를 획득할 수 있다.
한편, 프로세서(120)는 획득한 키 프레임에 대한 텍스트를 통해 제2 인공 지능 모델(40)를 학습시킬 수 있다. 프로세서(120)가 제2 인공 지능 모델(40)를 학습시키는 과정은 도 2a를 참조하여 설명하였으므로 중복되는 설명은 생략하도록 한다.
그리고, 프로세서(120)는 제2 인공 지능 모델(40)을 학습시킨 횟수에 따라 복수의 키 프레임(400-1, 400-2, … 400-5) 중 제외하는 키 프레임의 개수를 증가시킬 수 있다. 일 실시 예로, 프로세서(120)는 복수의 키 프레임 중 하나를 제외하다가 제2 인공 지능 모델(40)이 기설정된 이폭(epoch)만큼 학습되면, 두 개의 키 프레임을 제외할 수 있다.
도 5는 본 개시의 일 실시 예에 따른, 전자 장치(100)의 제어 방법을 설명하기 위한 도면이다.
우선, 전자 장치(100)는 영상을 제1 인공 지능 모델에 입력하여 영상에 포함된 복수의 이미지의 특징 데이터를 획득할 수 있다(S510). 구체적으로, 전자 장치(100)는 제1 인공 지능 모델의 제1 인공 신경망에 입력하여 복수의 이미지의 특징 데이터를 획득할 수 있다. 그리고, 전자 장치(100)는 복수의 이미지의 특징 데이터를 액션(action) 특징 데이터 및 장면(scene) 특징 데이터로 분류할 수 있다. 즉, 복수의 이미지의 특징 데이터는 복수의 이미지의 액션(action) 특징 데이터 및 장면(scene) 특징 데이터를 포함할 수 있다.
한편, 전자 장치(100)는 복수의 이미지의 특징 데이터를 바탕으로 영상의 복수의 키 프레임을 획득할 수 있다(S520). 구체적으로, 전자 장치(100)는 액션 특징 데이터 및 장면 특징 데이터를 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 복수의 이미지 각각의 프레임 레벨 스코어(frame level score)를 획득할 수 있다. 일 실시 예로, 전자 장치(100)는 제1 인공 지능 모델의 제2 인공 신경망을 통해 복수의 이미지의 액션 특징 데이터 및 장면 특징 데이터를 비교하여 영상에 포함된 객체가 변화하는 특징을 잘 나타낼 수 있는지에 대한 수치를 획득할 수 있다.
그리고, 전자 장치(100)는 프레임 레벨 스코어를 바탕으로 영상의 복수의 키 프레임을 획득할 수 있다. 구체적으로, 전자 장치(100)는 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 영상의 키 프레임으로 식별하여 획득할 수 있다.
한편, 전자 장치(100)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 제1 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 전자 장치(100)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 사용자로부터 입력된 기정의된 영상의 키 프레임의 액션 특징 데이터와 장면 특징 데이터 각각을 비교하여 제1 인공 지능 모델을 학습시킬 수 있다.
그리고, 전자 장치(100)는 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 나머지 키 프레임의 제1 특징 데이터를 획득할 수 있다(S530). 일 실시 예로, 전자 장치(100)는 제2 인공 지능 모델을 학습시킨 횟수에 따라 복수의 키 프레임 중 제외하는 키 프레임의 개수를 증가 시킬 수 있다.
그리고, 전자 장치(100)는 나머지 키 프레임의 제1 특징 데이터를 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 나머지 키 프레임 간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득할 수 있다(S540).
또한, 전자 장치(100)는 제2 특징 데이터를 바탕으로 복수의 키 프레임에 대한 텍스트를 획득할 수 있다(S550). 구체적으로, 전자 장치(100)는 나머지 키 프레임의 제1 특징 데이터와 나머지 키 프레임의 관계에 대한 정보를 포함하는 제2 특징 데이터를 더한 데이터를 제2 인공 지능 모델의 제3 인공 신경망에 입력하여 제외된 적어도 하나의 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 획득할 수 있다. 즉, 전자 장치(100)는 나머지 키 프레임에 대한 데이터를 바탕으로 제외된 키 프레임에 대한 특징 데이터를 추론하여 획득할 수 있다.
그리고, 전자 장치(100)는 제3 특징 데이터를 제2 인공 지능 모델의 제4 인공 신경망에 입력하여 복수의 키 프레임에 대한 텍스트를 획득할 수 있다.
한편, 전자 장치(100)는 획득한 복수의 키 프레임을 바탕으로 제2 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 전자 장치(100)는 복수의 키 프레임에 대한 텍스트와 사용자로부터 입력된 기정의된 복수의 키 프레임에 대한 텍스트와 비교하여 제2 인공 지능 모델을 학습시킬 수 있다.
본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.
대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
본 개시의 다양한 실시 예들에 따른 전자 장치(100) 또는 사용자 단말 장치(200)는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player) 중 적어도 하나를 포함할 수 있다.
본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 디스플레이 장치(100))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    적어도 하나의 인스트럭션(instruction)을 저장하는 메모리; 및
    상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하고,
    상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써,
    영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하고,
    상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하고,
    상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하고,
    상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하고,
    상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득하는 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 영상을 상기 제1 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 복수의 이미지의 액션(action) 특징 데이터 및 장면(scene) 특징 데이터를 포함하는 상기 복수의 이미지의 특징 데이터를 획득하는 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 액션 특징 데이터 및 상기 장면 특징 데이터를 상기 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 복수의 이미지 각각의 프레임 레벨 스코어(frame level score)를 획득하고,
    상기 프레임 레벨 스코어를 바탕으로 상기 복수의 이미지 중 상기 영상의 키 프레임을 식별하는 전자 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 상기 영상의 키 프레임으로 식별하는 전자 장치.
  5. 제3항에 있어서,
    상기 제1 인공 지능 모델의 제1 인공 신경망은 컨볼루션 신경망(Convolutional Neural Network)에 순환 신경망(Recurrent Neural Network)을 연결한 인공 신경망이고,
    상기 제1 인공 지능 모델의 제2 인공 신경망은 비 지역 신경망(Non-local neural network)을 연결한 신경망인 것을 특징으로 하는 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 상기 제1 인공 지능 모델을 학습시키는 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 나머지 키 프레임의 제1 특징 데이터와 상기 제2 특징 데이터를 더한 데이터를 상기 제2 인공 지능 모델의 제3 인공 신경망에 입력하여 상기 제외된 적어도 하나의 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 획득하고,
    상기 제3 특징 데이터를 상기 제2 인공 지능 모델의 제4 인공 신경망에 입력하여 상기 복수의 키 프레임에 대한 텍스트를 획득하는 전자 장치.
  8. 제7항에 있어서,
    상기 학습된 인공 지능 모델은
    상기 제2 인공 지능 모델의 제1 인공 신경망은 컨볼루션 신경망(Convolutional Neural Network)이고,
    상기 제2 인공 지능 모델의 제2 인공 신경망 및 제3 인공 신경망은 순환 신경망(Recurrent Neural Network)에 비 지역 신경망(Non-local neural network)을 연결한 신경망이고,
    상기 제2 인공 지능 모델의 제4 인공 신경망은 순환 신경망인 것을 특징으로 하는 전자 장치.
  9. 제7항에 있어서,
    상기 제2 인공 지능 모델의 제2 인공 신경망은 상기 제3 인공 신경망과 구조는 동일하나 상이한 파라미터를 포함하는 것을 특징으로 하는 전자 장치.
  10. 제1항에 있어서,
    상기 프로세서는,
    상기 획득한 키 프레임 이미지에 대한 텍스트를 바탕으로 상기 제2 인공 지능 모델을 학습시키는 전자 장치.
  11. 전자 장치의 제어 방법에 있어서,
    영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하는 단계;
    상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하는 단계;
    상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하는 단계;
    상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하는 단계; 및
    상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득하는 단계;를 포함하는 전자 장치의 제어 방법.
  12. 제11항에 있어서,
    상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하는 단계는
    상기 영상을 상기 제1 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 복수의 이미지의 액션(action) 특징 데이터 및 장면(scene) 특징 데이터를 포함하는 상기 복수의 이미지의 특징 데이터를 획득하는 단계;를 포함하는 전자 장치의 제어 방법.
  13. 제12항에 있어서,
    상기 영상의 복수의 키 프레임(key frame)을 획득하는 단계는,
    상기 액션 특징 데이터 및 상기 장면 특징 데이터를 상기 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 복수의 이미지 각각의 프레임 레벨 스코어(frame level score)를 획득하는 단계; 및
    상기 프레임 레벨 스코어를 바탕으로 상기 복수의 이미지 중 상기 영상의 키 프레임을 식별하는 단계;를 포함하는 전자 장치의 제어 방법.
  14. 제13항에 있어서,
    상기 영상의 복수의 키 프레임(key frame)을 획득하는 단계는,
    상기 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 상기 영상의 키 프레임으로 식별하는 단계;를 포함하는 전자 장치의 제어 방법.
  15. 제13항에 있어서,
    상기 제1 인공 지능 모델의 제1 인공 신경망은 컨볼루션 신경망(Convolutional Neural Network)에 순환 신경망(Recurrent Neural Network)을 연결한 인공 신경망이고,
    상기 제1 인공 지능 모델의 제2 인공 신경망은 비 지역 신경망(Non-local neural network)을 연결한 신경망인 것을 특징으로 하는 전자 장치의 제어 방법.
PCT/KR2020/007554 2019-06-18 2020-06-11 전자 장치 및 이의 제어 방법 WO2020256339A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/554,142 US20220108550A1 (en) 2019-06-18 2021-12-17 Electronic device and control method of same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962862783P 2019-06-18 2019-06-18
US62/862,783 2019-06-18
KR1020190108907A KR20200144445A (ko) 2019-06-18 2019-09-03 전자 장치 및 이의 제어 방법
KR10-2019-0108907 2019-09-03

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/554,142 Continuation US20220108550A1 (en) 2019-06-18 2021-12-17 Electronic device and control method of same

Publications (1)

Publication Number Publication Date
WO2020256339A1 true WO2020256339A1 (ko) 2020-12-24

Family

ID=74037348

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/007554 WO2020256339A1 (ko) 2019-06-18 2020-06-11 전자 장치 및 이의 제어 방법

Country Status (2)

Country Link
US (1) US20220108550A1 (ko)
WO (1) WO2020256339A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697762B (zh) * 2022-04-07 2023-11-28 脸萌有限公司 一种处理方法、装置、终端设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140112839A (ko) * 2013-03-14 2014-09-24 삼성전자주식회사 연역적 추론과 귀납적 추론을 결합한 상황 인지 장치 및 방법
US20160104077A1 (en) * 2014-10-10 2016-04-14 The Trustees Of Columbia University In The City Of New York System and Method for Extracting Table Data from Text Documents Using Machine Learning
KR101787613B1 (ko) * 2017-01-20 2017-11-15 주식회사 더디엔에이시스템 딥 러닝 기반의 자가 적응 학습 기술을 이용한 인공지능 플랫폼 시스템
KR20180080098A (ko) * 2017-01-03 2018-07-11 삼성전자주식회사 전자 장치 및 그 동작 방법
KR20190062030A (ko) * 2017-11-28 2019-06-05 삼성전자주식회사 영상 표시 장치 및 그 동작 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140112839A (ko) * 2013-03-14 2014-09-24 삼성전자주식회사 연역적 추론과 귀납적 추론을 결합한 상황 인지 장치 및 방법
US20160104077A1 (en) * 2014-10-10 2016-04-14 The Trustees Of Columbia University In The City Of New York System and Method for Extracting Table Data from Text Documents Using Machine Learning
KR20180080098A (ko) * 2017-01-03 2018-07-11 삼성전자주식회사 전자 장치 및 그 동작 방법
KR101787613B1 (ko) * 2017-01-20 2017-11-15 주식회사 더디엔에이시스템 딥 러닝 기반의 자가 적응 학습 기술을 이용한 인공지능 플랫폼 시스템
KR20190062030A (ko) * 2017-11-28 2019-06-05 삼성전자주식회사 영상 표시 장치 및 그 동작 방법

Also Published As

Publication number Publication date
US20220108550A1 (en) 2022-04-07

Similar Documents

Publication Publication Date Title
WO2019182346A1 (ko) 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
WO2016175354A1 (ko) 인공지능 대화 장치 및 방법
JP6719739B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
WO2020166896A1 (en) Electronic apparatus and controlling method thereof
US11776544B2 (en) Artificial intelligence apparatus for recognizing speech of user and method for the same
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
CN110234018A (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
WO2024090713A1 (ko) 공감 심리학 기반의 챗봇 서비스를 통한 유저 심리 관리 시스템
Zhou et al. ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge
CN111260075A (zh) 机器模拟待模拟目标学习和工作的人工智能方法及系统
EP3785180A1 (en) Electronic apparatus and control method thereof
WO2018212584A2 (ko) 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
CN108073572A (zh) 信息处理方法及其装置、同声翻译系统
Mihoub et al. Learning multimodal behavioral models for face-to-face social interaction
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2020256339A1 (ko) 전자 장치 및 이의 제어 방법
Feng et al. Enhancing privacy through domain adaptive noise injection for speech emotion recognition
JPH10228295A (ja) 階層的感情認識装置
WO2024090712A1 (ko) 공감대 형성을 통한 심리 치료용 인공지능 대화 시스템
WO2021045434A1 (ko) 전자 장치 및 이의 제어 방법
KR20190133579A (ko) 사용자와 대화하며 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 시스템
WO2022015005A1 (ko) 대화기반 정신장애선별방법 및 그 장치
Lee et al. AEGIS: A real-time multimodal augmented reality computer vision based system to assist facial expression recognition for individuals with autism spectrum disorder
JP7418106B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR20200144445A (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20825795

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20825795

Country of ref document: EP

Kind code of ref document: A1