WO2020184828A1 - 영상 분석 장치, 방법 및 이에 이용되는 영상 분석 모델의 생성 방법 - Google Patents
영상 분석 장치, 방법 및 이에 이용되는 영상 분석 모델의 생성 방법 Download PDFInfo
- Publication number
- WO2020184828A1 WO2020184828A1 PCT/KR2020/000291 KR2020000291W WO2020184828A1 WO 2020184828 A1 WO2020184828 A1 WO 2020184828A1 KR 2020000291 W KR2020000291 W KR 2020000291W WO 2020184828 A1 WO2020184828 A1 WO 2020184828A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- expert
- target image
- image
- input
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/60—Memory management
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Definitions
- the present invention relates to an apparatus and a method for analyzing an input image, and a method for generating an image analysis model used therein.
- Computer Vision refers to a technology that generates useful information by analyzing the properties of surrounding objects and environments from images received through visual media such as cameras and scanners.
- computer vision technology has been applied to CCTV or mobile phone cameras, and it is possible to detect and classify desired objects such as people, cars, and animals.
- object detection Prior to the introduction of machine learning technologies such as Deep Learning, objects were detected by searching for various features in images. Representative characteristics used in object detection include Histogram of Oriented Gradients (HOG) and Aggregated Channel (ACF). Features) and LBP (Local Binary Pattern). A desired object can be detected from an input image based on these characteristics, and a feature-based object detection method is still widely used due to the high hardware cost and legacy of the deep learning-based object detection method.
- HOG Histogram of Oriented Gradients
- ACF Aggregated Channel
- LBP Local Binary Pattern
- the problem to be solved by the present invention is an image analysis apparatus and method for determining whether to classify a target image into a new category according to a probability that the target image belongs to at least one expert's input category of the image analysis model, and It is to provide an image analysis model generation method.
- An image analysis method includes the steps of: inputting a target image into an image analysis model including at least one expert generated by learning a training image; Analyzing the target image based on an output value output from the at least one expert; Determining validity of an analysis result for the target image based on a probability that the input target image belongs to the input category of the at least one expert; And if it is determined that the analysis result for the target image is not valid, classifying the target image into a new category.
- the validity of the analysis result for the target image may be randomly determined based on a probability that the input target image belongs to the input category of the at least one expert.
- determining the validity of the analysis result of the target image may include: obtaining an input for each of the at least one expert and a likelihood of a class; Obtaining a prior probability for each of the at least one expert; And obtaining a probability that the input target image belongs to the input category of the at least one expert based on a product of the obtained likelihood and the prior probability.
- the step of obtaining the likelihood of the input and the class for each of the at least one expert may include the input target image and each of the at least one expert by using a discriminative model of each of the at least one expert. Obtaining a first probability of a class of for; Obtaining a second probability of an input for each of the at least one expert by using a generative model of each of the at least one expert; And obtaining a likelihood of an input and a class for each of the at least one expert based on a product of the first probability and the second probability.
- obtaining the second probability may include estimating a lower bound of the second probability as the second probability.
- generating an expert for the new category may include labeling a target image stored in the memory; And generating an expert for the new category by learning the labeled target image.
- An image analysis apparatus includes an image analysis unit configured to analyze a target image based on an image analysis model composed of at least one expert generated by learning a training image; And a determination unit for determining a validity of an analysis result for the target image based on a probability that the target image belongs to an input category of the at least one expert, wherein the image analysis unit comprises: If it is determined that it is not valid, the target image is classified into a new category.
- a memory for storing the target image classified into the new category may be further included.
- a learning unit for generating an expert for the new category by learning the target image stored in the memory may be further included.
- the step of sequentially receiving a first training image during a first input period The first training image is trained during a first training period immediately after the first input period to generate a first expert composed of a discriminative model and a generative model for a first category.
- Step to do Sequentially receiving second training images during a second input period immediately after the first learning period; Determining whether to learn each of the second training images for the first expert based on a probability that the second training images belong to the first category; And generating a second expert for a second category by learning a training image determined not to learn about the first expert among the second training images during a second training period immediately after the second input period. do.
- an image analysis model capable of analyzing various target images in a real-world environment may be managed by classifying a target image that does not belong to an input category of an expert constituting an image analysis model into a new category.
- the input target image may be acquired under an acquisition condition different from that of the training image, or may include objects that have not been learned through the training image.
- the image analysis model not only lowers the accuracy of analysis, but also cannot operate adaptively to the necessity of detecting a new object generated in the process of use.
- the image analysis apparatus by classifying the target image into a new category and using it to generate a new expert, it is possible to analyze the target image in various cases that may be input in an actual use environment.
- the image analysis apparatus is an incremental learning and sequential learning method of adding new information to an image analysis model previously generated by machine learning such as deep learning. By employing a, it is possible to operate adaptively to an input target image, and as a result, it is possible to increase the usability in an actual use environment.
- IVA Intelligent Video Analytics
- FIG. 1 is a functional block diagram of an image analysis apparatus according to an embodiment of the present invention.
- FIG. 2 is a diagram illustrating a process of outputting an output value of an image analysis model according to an embodiment of the present invention.
- FIG. 3 is a diagram illustrating an expert of an image analysis model according to an embodiment of the present invention.
- 4 to 6 are diagrams for explaining a method of generating an expert for a new category performed by an image analysis apparatus according to an exemplary embodiment.
- FIG. 7 is a flowchart of an image analysis method according to an embodiment of the present invention.
- FIG. 8 is a flowchart of a method of generating an image analysis model according to an embodiment of the present invention.
- FIG. 9 is a diagram for explaining an input composed of a handwritten image in an experiment for verifying the effect of an image analysis method according to an embodiment of the present invention.
- FIG. 10 is a graph showing analysis accuracy in an experiment to verify the effect of the image analysis method according to an embodiment of the present invention on the input of FIG. 9.
- FIG. 11 is a graph showing the analysis accuracy of a conventional image analysis method as a control group of FIG. 10.
- FIG. 12 is a diagram for explaining an input composed of a CCTV image in an experiment for verifying the effect of an image analysis method according to an embodiment of the present invention.
- FIG. 13 is a graph showing analysis accuracy in an experiment for verifying the effect of the image analysis method according to an embodiment of the present invention on the input of FIG. 12.
- FIG. 1 is a functional block diagram of an image analysis apparatus according to an embodiment of the present invention.
- the image analysis device means a device that analyzes an input target image.
- the target image is an image to be analyzed for an image, and may include a still image and a moving image implemented as a stream of still images.
- image analysis refers to all processes of acquiring information about an object in a target image and a background other than the object, and may include classification and/or detection of objects in the image.
- An image analysis model to which a deep learning technology is applied needs to learn a learning database (DB) collected for a long time in order to classify and/or detect a limited number of objects.
- DB learning database
- a learning database suitable for the environment must be built in advance, and the built learning database contains at least tens of thousands of learning images per object. Should be.
- the image analysis model provided for practical use may be able to classify and/or detect only a limited number of objects.
- the first method is to learn and generate an image analysis model for a vehicle, separate from the image analysis model for a person. For example, by collecting and learning various vehicle images, a'automobile detection' deep learning network model may be generated as an image analysis model. In this case, image analysis for both a person and a vehicle is possible, but hardware resources may be doubled or more because both the image analysis model for the person and the image analysis model for the vehicle must be operated.
- the second method is to collect a new car training DB together with the training DB used for training the existing human image analysis model, and learn an image analysis model using both people and cars as objects.
- This method is similar to the first method in that it collects a new car learning DB, but there is a limitation that it can be used only when there is a training DB used for training a human image analysis model. In addition, there is a possibility that the human analysis performance of the image analysis model decreases compared to that of the first image analysis model after completion of training.
- the third method is to learn a car DB on the existing human image analysis model.
- the advantage of this method is that it does not require a training DB for a previously used person.
- the result is that a catastrophic forgetting phenomenon occurs that deteriorates the analysis ability for a person.
- the learning DB of a new object which is a vehicle
- the image analysis model based on the learning result improves the image analysis performance of the vehicle, while the image analysis performance of the person is It can be degraded.
- the third method has advantages over the first and second methods in that it uses only the previously generated image analysis model regardless of the training DB used to create the image analysis model. As the learning is performed, the image analysis performance of the existing object is degraded, so it is difficult to apply it to the actual environment.
- the image analysis apparatus may employ a basic concept of a Dirichlet Process Mixture Model (DPMM), which is one of clustering algorithms.
- DPMM Dirichlet Process Mixture Model
- DPMM refers to a clustering algorithm that performs clustering without pre-determining the number of clusters. Unlike the k-means clustering algorithm, which is a representative clustering algorithm, the number of clusters k is a hyper-parameter, whereas the hyper-parameter of DPMM is sensitivity ⁇ . In DPMM, the clustering result is determined according to sensitivity and data, and the number of clusters tends to increase as the value of ⁇ increases.
- the representative method of learning DPMM is the Gibbs Sampling method. Initially, when N data is given, the cluster is randomly allocated to each data and initialization is performed. In this case, the method of allocating clusters does not affect the results if sufficient learning time is given. When the initialization is complete, one data is randomly selected for each step and the cluster is reassigned. At this time, the randomly selected data may be allocated to a new cluster or may be allocated to an existing cluster. If the data to be re-allocated is x i , the probability P 1 that x i will be allocated to the existing cluster c and the probability P 2 that will be allocated to the new cluster are defined by Equations 1 and 2.
- ⁇ denotes sensitivity
- b denotes a normalization constant
- N denotes the total number of data
- N c denotes the number of data allocated to cluster c.
- ⁇ c is a parameter of cluster c, and may mean an average and a variance when each cluster follows a normal distribution.
- F(x i , ⁇ c ) means the likelihood of data x i for ⁇ c , Denotes a prior probability for cluster c.
- G 0 ( ⁇ ) is another hyperparameter, Base Distribution, which may mean a prior probability for the distribution of ⁇ .
- the parameter ⁇ c of each cluster can be adjusted.
- the maximum likelihood estimation (MLE) or maximum posteriori (MAP) using data allocated to the corresponding cluster ⁇ c can be adjusted according to the estimation.
- the image analysis apparatus may automatically determine the number of experts constituting the image analysis model based on an input training image.
- an image analysis device 100 may include an image analysis unit 110, a determination unit 120, a memory 130, and a learning unit 140.
- the image analysis unit 110 may analyze a target image based on an image analysis model composed of at least one expert.
- the expert may mean an individual model for image analysis.
- the image analysis model used by the image analysis unit 110 is composed of at least one expert generated by learning a training image, and the image analysis device 100 applies a target image to each of at least one expert corresponding to the input target image. By inputting, the target image may be analyzed based on the output value.
- the accuracy of the image analysis result may be improved.
- the more experts generated by learning a learning image similar to the target image the more effectively the target image can be analyzed.
- a Mixture of Experts combining at least one expert and a gate network may be used as an image analysis model.
- the gate network may determine an expert to obtain an output value based on the input data and the performance of each expert.
- MoE models the probability p(y
- x) of Expert E k can be modeled.
- MoE can obtain the class y for the input value x according to Equation 3.
- the gate network may perform a role of a classifier to find the expert corresponding to the input value x.
- the above-described Catastrophic Forgetting phenomenon may occur.
- the image analysis model may forget the previously learned content.
- the image analysis unit 110 may use an image analysis model different from that of the gate-based MoE.
- an image analysis model according to an embodiment of the present invention will be described with reference to FIGS. 2 and 3.
- FIG. 2 is a diagram for explaining a process of outputting an output value of an image analysis model according to an embodiment of the present invention
- FIG. 3 is a diagram for explaining an expert of an image analysis model according to an embodiment of the present invention.
- the image analysis unit 110 may set an input value x and a class y as one data point and use an image analysis model to which the DPMM clustering algorithm described above is applied. .
- Such an image analysis model may be operated to find an appropriate cluster by clustering data in charge of each expert.
- DPMoE Disrichlet Process Mixture of Experts
- the DPMoE image analysis model may input an input value x to each of at least one expert.
- 2 illustrates a case where the DPMoE image analysis model is composed of E 1 as the first expert, E 2 as the second expert, and E 3 as the third expert, and input to each of the three experts E 1 , E 2 and E 3 .
- the value x can be entered.
- the DPMoE image analysis model uses F(x i , ⁇ c ) in Equation 1 as an input value x for the k-th expert E k and a probability P(x,y
- each of the at least one expert of the DPMoE image analysis model is a discriminative model that predicts the probability p(y
- the k-th expert E k may be composed of a classification model C k and a generation model V k .
- the classification model C k may be implemented as a classifier and/or a detector that classifies and/or detects the class y corresponding to the input input value x, and the probability p(y
- the classification model C k is learned through machine learning such as deep learning, so that CNN (Convolution Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), BRDNN (Bidirectional Recurrent Deep Neural Network) It can be implemented with a neural network model such as
- the generated model V k can be implemented with VAE (Variational Auto Encoder), etc. to obtain a similarity with the input value x used for the k-th expert E k training, and outputs the probability p(x
- the generation model V k of the DPMoE image analysis model according to an embodiment of the present invention is the lower limit of the probability p(x
- the generated model V k may be implemented as a neural network model such as CNN, DNN, RNN, and BRDNN by learning by machine learning such as deep learning.
- At least one expert of the DPMoE image analysis model multiplies the probability p(y
- experts E 1, E 2, and E 3 constituting the DPMoE image analysis model are probabilities p(y
- the DPMoE image analysis model is May be substituted with the k-th expert E k day prior probability P(E k ).
- the prior probability P(E k ) may be determined to be proportional to the number of data learned by the k-th expert E k , similar to DPMM, and specifically, Equation 4 may be followed.
- N denotes the total number of data
- N k denotes the number of data learned in the k-th expert E k
- ⁇ denotes sensitivity
- the DPMoE image analysis model can output the probability p(y
- the image analysis unit 110 may acquire an input value x, that is, a class y for the input target image, that is, a probability of an analysis result of the target image. If the image analysis model is implemented as a classifier, the image analysis unit 110 may obtain a target image classification result according to the type of object in the target image. In contrast, when the image analysis model is implemented as a detector, the image analysis unit 110 may obtain a result of detecting an object in the target image according to the existence and location of a specific object in the target image.
- the determiner 120 may determine the validity of the analysis result for the target image based on the image analysis model. Specifically, the determiner 120 may determine the validity of the analysis result for the target image based on a probability that the target image belongs to the input category of at least one expert.
- the input category means a category that can be determined as an image of the same kind as the training image used for learning of the corresponding expert, and may be determined by the type of object, the location of the object, and an image acquisition environment.
- the determiner 120 may classify the target image into a new category. Furthermore, the determiner 120 may store the target image classified into a new category in the memory 130. In addition, the learning unit 140 may generate a new expert for a new category by learning a target image stored in the memory 130.
- 4 to 6 are diagrams for explaining a method of generating an expert for a new category performed by an image analysis apparatus according to an exemplary embodiment.
- the determiner 120 may determine whether the target image belongs to an input category of at least one expert of the image analysis model or a new category. To this end, the determiner 120 may obtain a probability P 11 that the target image belongs to an input category and a probability P 22 that the target image belongs to a new category.
- the probability to belong to the image analysis model according to an embodiment of the invention is a bar
- a target picture input to adopt the DPMM clustering algorithm category P 11 is a probability of x i Equation (1) is assigned to an existing cluster
- P 1 corresponds to the probability P 22 is the target image belongs to a new category may correspond to the probability P 2 be x i of equation (2) assigned to the new cluster. Therefore, the determination unit 120 determines the probability P 11 that the target image belongs to the input category.
- N denotes the total number of data
- N k denotes the number of data learned in the k-th expert E k
- ⁇ denotes sensitivity.
- the probability of belonging to P 22 (Here, N denotes the total number of data, ⁇ denotes sensitivity, and E 0 denotes a new expert having a new category).
- the determination unit 120 has a probability P 11 belonging to the input category of one expert E 1 Using proportional to, the probability of belonging to the new category P 22 is An example of using proportionality to
- the determination unit 120 may randomly determine the validity of the analysis result for the input target image based on the determined probability. In FIG. 4, if the probability P 11 is higher than the probability P 22 , the determination unit 120 has a high probability of determining that the analysis result for the target image is valid, but after determining that the analysis result is not valid, it may be classified into a new category. have. On the contrary, if the probability P 22 is higher than the probability P 11 , there is a high possibility that the determination unit 120 determines that the analysis result of the target image is not valid, but may determine the analysis result as valid.
- the analysis result itself may be provided to the user, or a related service may be provided to the user by utilizing the analysis result.
- the determination unit 120 may store it in the memory 130. If the input target image is in the form of a data stream in which a frame image is input every frame, the determination unit 120 determines the validity of the analysis result for the target image every frame, and then determines that the analysis result is not valid. Target images may be sequentially stored in the memory 130. Referring to FIG. 5, the memory 130 may accumulate and store target images for new categories that are sequentially input.
- the memory 130 includes a random access memory (RAM), a static random access memory (SRAM), a read-only memory (ROM), and a programmable read-only memory (PROM). ), may be implemented as a storage medium such as EEPROM (Electrically Erasable Programmable Read-Only Memory), or may be implemented as a virtual storage space by a cloud server. Unlike this, the memory 130 may be implemented as a shortterm memory device.
- RAM random access memory
- SRAM static random access memory
- ROM read-only memory
- PROM programmable read-only memory
- EEPROM Electrical Erasable Programmable Read-Only Memory
- the memory 130 may be implemented as a shortterm memory device.
- the learning unit 140 may generate an expert for a new category by learning a target image stored in the memory 130.
- the learning unit 140 may learn the target image stored in the memory 130 when the accumulated capacity of the target image stored in the memory 130 is greater than or equal to a predetermined reference capacity.
- the reference capacity may mean a minimum value of a target image accumulation capacity sufficient to generate a new expert.
- the learning unit 140 may learn a target image stored in the memory 130 when a predetermined reference time elapses.
- the reference time may mean a minimum value of a target image accumulation time sufficient to generate a new expert.
- the learning unit 140 according to another embodiment may learn the target image stored in the memory 130 only when the accumulated capacity of the target image stored in the memory 130 is greater than or equal to the reference capacity when the above-described reference time elapses. have.
- the learning unit 140 may generate a new expert according to supervised learning. Since the supervised learning method is performed by learning a labeled input, the target image accumulated in the memory 130 needs to be labeled before the supervised learning. According to an embodiment of the present invention, labeling may be performed on each of the accumulated target images based on an external input. Alternatively, labeling may be automatically performed by inputting the accumulated target image to a separate model for labeling, for example, a classifier and/or a detector for an object in the input image.
- the learning unit 140 may learn the target image by taking the target image accumulated in the memory 130 as an input to the convolution layer and correlating the input with a predetermined class for the label. . That is, the learning unit 140 may generate a new expert capable of analyzing the object of the input target image by learning the relationship between the input target image and the correct answer object.
- the learning unit 140 may generate a new expert through Semisupervised Learning, which learns by using some of the labeled target images for the object and the remaining unlabeled target images together.
- the learning unit 140 may generate a new expert through reinforcement learning using feedback on whether the learning result is correct.
- FIG. 6 illustrates a case in which the learning unit 140 generates a new expert E 2 based on the target image accumulated in the memory 130 after being classified into a new category.
- the image analysis unit 110 may analyze the newly input target image using an image analysis model including the new expert E 2 .
- the determiner 120 may determine the validity of the analysis result for the new target image. Specifically, the determiner 120 may obtain a probability P 11 that the new target image belongs to the input category and a probability P 22 that the target image belongs to the new category. In this case, the determiner 120 may obtain a probability P 11 that the input target image belongs to the input category of each expert E 1 and E 2 , respectively. Based on the obtained probability, the determination unit 120 may randomly determine the validity of the analysis result.
- the image analysis apparatus 100 may omit the configuration of the separate memory 130 and immediately learn the target image as a new category to generate a new expert.
- each component of the image analysis apparatus 100 may be implemented as a computing device including a microprocessor, for example, a central processing unit (Central Processing). Unit, CPU) and a graphic processing unit (GPU).
- a microprocessor for example, a central processing unit (Central Processing). Unit, CPU) and a graphic processing unit (GPU).
- CPU central processing unit
- GPU graphic processing unit
- at least two of each of the components of the image analysis apparatus 100 may be implemented as a system on chip (SOC).
- SOC system on chip
- FIG. 7 is a flowchart of an image analysis method according to an embodiment of the present invention.
- the image analysis apparatus 100 may input a target image to an image analysis model composed of at least one expert generated by learning a training image (S100).
- the image analysis model refers to all processes of acquiring information about the object in the target image and the background other than the object, and performing image analysis including classification and/or detection of objects in the image.
- the image analysis model can be generated by learning a training image by machine learning such as deep learning.
- the image analysis model according to an embodiment may be implemented to set an input value and a class as one data point, and to apply a DPMM clustering algorithm thereto.
- the image analysis apparatus 100 may analyze the target image based on an output value output from at least one expert (S110). If the image analysis model is implemented as a classifier, the image analysis apparatus 100 may obtain a target image classification result according to the type of object in the target image. In contrast, when the image analysis model is implemented as a detector, the image analysis apparatus 100 may obtain a result of detecting an object in the target image according to the existence and location of a specific object in the target image.
- the image analysis apparatus 100 may acquire a probability that the input target image belongs to the input category of at least one expert (S120). To this end, the image analysis apparatus 100 may first obtain an input for each of at least one expert and a likelihood of a class. Specifically, the image analysis apparatus 100 acquires a first probability of a target image and a class for the expert using the expert's classification model, and acquires a second probability of an input for each expert using the expert's generation model. Thereafter, the likelihood of the input and the class for each of the at least one expert may be obtained based on the product of the first probability and the second probability. This is as described with reference to FIGS. 2 and 3.
- the image analysis apparatus 100 may determine the validity of the analysis result for the input target image (S130). In this case, the image analysis apparatus 100 may randomly determine whether to analyze the input target image based on a probability that the input target image belongs to the input category of at least one expert. That is, the probability of whether or not to analyze the target image will vary depending on the probability, but even if the probability that the target image belongs to the input category is high, it may be determined not to analyze the target image, and even if the probability that the target image belongs to the new category is high It may be determined by analyzing the target image.
- the image analysis apparatus 100 may output a valid image analysis result (S140).
- the image analysis apparatus 100 may output an analysis result of a target image and provide it to a user directly, or may utilize this to provide a related service to a service provider.
- the image analysis apparatus 100 may classify the target image into a new category (S150). Further, the image analysis apparatus 100 may store a target image classified into a new category and then learn it to generate a new expert for a new category.
- the image analysis apparatus 100 can easily create a new category for when a target image for a new category is input after the generation of the image analysis model or a target image with an acquisition condition different from that of the training image is input. I can.
- the image analysis model can newly provide the analysis performance for the target image in the new category while maintaining the analysis performance for the target image in the existing category.
- FIG. 8 is a flowchart of a method of generating an image analysis model according to an embodiment of the present invention.
- the image analysis apparatus 100 may sequentially receive a first training image during a first input period (S200).
- the image analysis apparatus 100 may learn the first training image during the first training period to generate a first expert including a classification model and a generation model for the first category ( S210).
- the first learning period may start from the end time of the first input period.
- the second learning images may be sequentially input (S220).
- the second input period may start from the end of the first learning period.
- the image analysis apparatus 100 may obtain a probability that each of the second training images belong to the first category (S230). Based on this, the image analysis apparatus 100 may determine whether to learn each second training image for the first expert (S240).
- the image analysis apparatus 100 may learn a learning image determined to be learned for the first expert among the second training images for the first expert during the second learning period (S240).
- the second learning period may start from an end point of the second input period.
- the image analysis apparatus 100 may generate a second expert for a second category by learning a training image determined not to learn about the first expert among the second training images during the second training period (S250). .
- the image analysis apparatus 100 may automatically cluster training images and generate experts for each cluster without a separate classification process. That is, the input cycle and the learning cycle occur repeatedly, and the image analysis apparatus 100 may classify the learning images of a new category in the input cycle, and learn the classified learning images in the learning cycle to generate a new category. As a result, the image analysis accuracy of the image analysis model may increase.
- the data analysis device includes a speech analysis device capable of analyzing a target speech using a speech analysis model generated by learning of a learning speech, and a text analysis model generated by the learning text. It may include a text analysis device that can analyze the target text by using.
- FIG. 9 is a diagram for explaining an input composed of a handwritten image in an experiment for verifying the effect of an image analysis method according to an embodiment of the present invention
- FIG. 10 is an embodiment of the present invention for the input of FIG. 9
- a graph showing the analysis accuracy in an experiment for verifying the effect of the image analysis method according to FIG. 11 is a graph showing the analysis accuracy of the conventional image analysis method as a control of FIG.
- the x-axis represents the learning progress time
- the y-axis represents performance, that is, accuracy.
- an input target image is composed of an MNIST data set obtained from a Modified National Institute of Standards and Technology database (MNIST), which is composed of a total of five subsets.
- the first subset consists of 0, and 1, the second subset 2 and 3, the third subset 4 and 5, the fourth subset 6 and 7, and the fifth subset consists of 8 and 9 target images do.
- MNIST Modified National Institute of Standards and Technology database
- Each expert of the generated image analysis model is designed to have an MLP-based Classifier as a classification model and a VAE as a generation model.
- the classifier consists of a simple 3-layer MLP.
- FIG. 12 is a diagram for explaining an input composed of CCTV images in an experiment for verifying the effect of an image analysis method according to an embodiment of the present invention
- FIG. 13 is an embodiment of the present invention for the input of FIG. 12 It is a graph showing the analysis accuracy in an experiment to verify the effect of the image analysis method according to.
- the x-axis represents the learning progress time
- the y-axis represents performance, that is, accuracy.
- the input target image is composed of two subsets obtained from the HDA Person data set.
- the first subset (Camera 02) is composed of Top-View images directed from the top of a person's head to the bottom, and this is an image that corresponds to the CCTV angle, which is photographed around the person's head and is often used for counting people.
- the second subset (Camera 17) is composed of Slanted-View images, which are images of not only a person's face but also a part of the body, and many CCTVs actually shoot images at this angle.
- the left graph is a performance graph for a subset of Camera02
- the right graph is a performance graph for a subset of Camera17.
- the performance of a conventional baseline detector and a DPMoE image analysis model according to an embodiment of the present invention Each change was observed twice. Looking at the graph on the left, it can be seen that when a subset of Camera17 is input, the accuracy of the conventional detector that showed the high performance above suddenly decreases. On the other hand, the DPMoE image analysis model according to an embodiment of the present invention shows that even if a subset of Camera17 is input, the accuracy of the subset of Camera02 does not decrease. Looking at the graph on the right, it can be seen that the accuracy of the conventional detector as well as the DPMoE image analysis model increases in the subset of Camera17 input later, but the difference in accuracy is noticeable in the subset of Camera02.
- the image analysis model generation method used therein by classifying target images that do not belong to the input category of the expert configuring the image analysis model into a new category, the actual use environment It is possible to manage an image analysis model capable of analyzing various target images of.
- the input target image may be acquired under an acquisition condition different from that of the training image, or may include objects that have not been learned through the training image.
- the image analysis model not only lowers the accuracy of analysis, but also cannot operate adaptively to the necessity of detecting a new object generated in the process of use.
- the image analysis apparatus by classifying the target image into a new category and using it to generate a new expert, it is possible to analyze the target image in various cases that may be input in an actual use environment.
- the image analysis apparatus is an incremental learning and sequential learning method of adding new information to an image analysis model previously generated by machine learning such as deep learning. By employing a, it is possible to operate adaptively to an input target image, and as a result, it is possible to increase the usability in an actual use environment.
- IVA Intelligent Video Analytics
- each step included in the image analysis method according to the above-described embodiment and the image analysis model generation method used therein is implemented in a computer program programmed to perform these steps or a computer-readable recording medium recording the computer program. Can be.
- the above-described image analysis apparatus, method, and method of generating an image analysis model used therein may be used in various fields such as indoors or industrial sites, and thus may be used in the industry.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Image Analysis (AREA)
Abstract
일 실시예에 따른 영상 분석 방법은, 학습 영상을 학습하여 생성된 분류 모델(Discriminative Model) 및 생성 모델(Generative Model)로 구성되는 적어도 하나의 엑스퍼트(Expert)에 타겟 영상을 입력하는 단계; 상기 적어도 하나의 엑스퍼트로부터 출력된 출력 값을 기초로 상기 타겟 영상을 분석하는 단계; 상기 입력된 타겟 영상이 상기 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 기초하여, 상기 타겟 영상에 대한 분석 결과의 유효성을 결정하는 단계; 및 상기 타겟 영상에 대한 분석 결과가 유효하지 않은 것으로 결정되면, 상기 타겟 영상을 신규 카테고리로 분류하는 단계를 포함한다.
Description
본 발명은 입력된 영상을 분석하는 장치, 방법 및 이에 이용되는 영상 분석 모델의 생성 방법에 관한 것이다.
컴퓨터 비전(Computer Vision)은 카메라, 스캐너 등의 시각 매체를 통해 입력 받은 영상에서 주변 물체와 환경 속성을 분석하여 유용한 정보를 생성하는 기술을 의미한다. 최근에는 컴퓨터 비전 기술이 CCTV나 휴대폰 카메라 등에 적용되어, 사람, 자동차, 동물 등 원하는 객체를 검출하고, 분류할 수 있게 되었다.
딥러닝(Deep Learning)과 같은 기계 학습 기술이 소개되기 전에는 영상 내 다양한 특성(Feature)을 찾아 객체를 검출하였으며, 객체 검출에 이용된 대표적 특성으로는 HOG(Histogram of Oriented Gradients), ACF(Aggregated Channel Features), LBP(Local Binary Pattern) 등이 있다. 이러한 특성을 기반으로 입력된 영상으로부터 원하는 객체를 검출할 수 있으며, 딥러닝 기반의 객체 검출 방법의 높은 하드웨어 비용 및 레거시(Legacy) 등을 이유로 현재까지도 특징 기반의 객체 검출 방법이 널리 사용되고 있다.
그럼에도 불구하고, 다양한 객체 검출 환경에서 보다 정확한 객체 검출 결과를 얻기 위해, 딥러닝 기반의 다양한 컴퓨터 비전 또는 영상 처리 기술에 대한 연구가 활발히 진행되고 있다.
본 발명이 해결하고자 하는 과제는, 타겟 영상이 영상 분석 모델의 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 따라, 타겟 영상을 신규 카테고리로 분류할지 여부를 결정하는 영상 분석 장치, 방법 및 이에 이용되는 영상 분석 모델 생성 방법을 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
일 실시예에 따른 영상 분석 방법은, 학습 영상을 학습하여 생성된 적어도 하나의 엑스퍼트(Expert)로 구성되는 영상 분석 모델에 타겟 영상을 입력하는 단계; 상기 적어도 하나의 엑스퍼트로부터 출력된 출력 값을 기초로 상기 타겟 영상을 분석하는 단계; 상기 입력된 타겟 영상이 상기 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 기초하여, 상기 타겟 영상에 대한 분석 결과의 유효성을 결정하는 단계; 및 상기 타겟 영상에 대한 분석 결과가 유효하지 않은 것으로 결정되면, 상기 타겟 영상을 신규 카테고리로 분류하는 단계를 포함한다.
또한, 상기 입력된 타겟 영상이 상기 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 기초하여, 상기 타겟 영상에 대한 분석 결과의 유효성을 랜덤(Random)하게 결정할 수 있다.
또한, 상기 타겟 영상에 대한 분석 결과의 유효성을 결정하는 단계는, 상기 적어도 하나의 엑스퍼트 각각에 대한 입력 및 클래스(Class)의 우도(Likelihood)를 획득하는 단계; 상기 적어도 하나의 엑스퍼트 각각에 대한 사전 확률(Prior Probability)를 획득하는 단계; 및 상기 획득된 우도와 상기 사전 확률의 곱을 기초로 상기 입력된 타겟 영상이 상기 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률을 획득하는 단계를 포함할 수 있다.
또한, 상기 적어도 하나의 엑스퍼트 각각에 대한 입력 및 클래스의 우도를 획득하는 단계는, 상기 적어도 하나의 엑스퍼트 각각의 분류 모델(Discriminative Model)을 이용하여, 상기 입력된 타겟 영상 및 상기 적어도 하나의 엑스퍼트 각각에 대한 클래스의 제 1 확률을 획득하는 단계; 상기 적어도 하나의 엑스퍼트 각각의 생성 모델(Generative Model)을 이용하여, 상기 적어도 하나의 엑스퍼트 각각에 대한 입력의 제 2 확률을 획득하는 단계; 및 상기 제 1 확률 및 상기 제 2 확률의 곱을 기초로 상기 적어도 하나의 엑스퍼트 각각에 대한 입력 및 클래스의 우도를 획득하는 단계를 포함할 수 있다.
또한, 상기 제 2 확률을 획득하는 단계는, 상기 제 2 확률의 하한(Lower Bound)을 상기 제 2 확률로서 추정하는 단계를 포함할 수 있다.
또한, 상기 신규 카테고리로 분류된 상기 타겟 영상을 메모리에 저장하는 단계; 및 상기 메모리에 저장된 타겟 영상의 누적 용량이 미리 정해진 기준 용량 이상이면, 상기 메모리에 저장된 타겟 영상을 학습하여 상기 신규 카테고리에 대한 엑스퍼트를 생성하는 단계를 더 포함할 수 있다.
또한, 상기 신규 카테고리에 대한 엑스퍼트를 생성하는 단계는, 상기 메모리에 저장된 타겟 영상에 레이블링(Labeling)을 수행하는 단계; 및 상기 레이블링된 타겟 영상을 학습하여 상기 신규 카테고리에 대한 엑스퍼트를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 영상 분석 장치는, 학습 영상을 학습하여 생성된 적어도 하나의 엑스퍼트(Expert)로 구성되는 영상 분석 모델을 기초로 타겟 영상을 분석하는 영상 분석부; 및 상기 타겟 영상이 상기 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 기초하여, 상기 타겟 영상에 대한 분석 결과의 유효성을 결정하는 결정부를 포함하고, 상기 영상 분석부는, 상기 타겟 영상에 대한 분석 결과가 유효하지 않은 것으로 결정되면, 상기 타겟 영상을 신규 카테고리로 분류한다.
또한, 상기 신규 카테고리로 분류된 상기 타겟 영상을 저장하는 메모리를 더 포함할 수 있다.
또한, 상기 메모리에 저장된 타겟 영상의 누적 용량이 미리 정해진 기준 용량 이상이면, 상기 메모리에 저장된 타겟 영상을 학습하여 상기 신규 카테고리에 대한 엑스퍼트를 생성하는 학습부를 더 포함할 수 있다.
또한, 제 1 입력 주기 동안 제 1 학습 영상을 순차적으로 입력 받는 단계; 상기 제 1 입력 주기 직후의 제 1 학습 주기 동안 상기 제 1 학습 영상을 학습하여, 제 1 카테고리에 대한 분류 모델(Discriminative Model) 및 생성 모델(Generative Model)로 구성되는 제 1 엑스퍼트(Expert)를 생성하는 단계; 상기 제 1 학습 주기 직후의 제 2 입력 주기 동안 제 2 학습 영상을 순차적으로 입력 받는 단계; 상기 제 2 학습 영상이 상기 제 1 카테고리에 속할 확률에 기초하여, 상기 제 1 엑스퍼트에 대하여 상기 제 2 학습 영상 각각을 학습할지 여부를 결정하는 단계; 및 상기 제 2 입력 주기 직후의 제 2 학습 주기 동안, 상기 제 2 학습 영상 중 상기 제 1 엑스퍼트에 대하여 학습하지 않을 것으로 결정된 학습 영상을 학습하여 제 2 카테고리에 대한 제 2 엑스퍼트를 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 영상 분석 모델을 구성하는 엑스퍼트의 입력 카테고리에 속하지 않는 타겟 영상을 신규 카테고리로 분류함으로써, 실사용 환경의 다양한 타겟 영상의 분석이 가능한 영상 분석 모델을 관리할 수 있다.
학습 영상을 학습하여 생성된 영상 분석 모델을 실사용 환경에서 이용할 경우, 입력되는 타겟 영상은 학습 영상과는 상이한 획득 조건에서 획득되거나, 학습 영상을 통해 학습하지 못한 객체를 포함할 수 있다. 그 결과, 영상 분석 모델은 분석의 정확도가 낮아질 뿐 아니라, 사용 과정에서 발생된 신규 객체 검출의 필요성에 적응적으로 동작할 수 없다.
그러나, 본 발명의 일 실시예에서는 타겟 영상을 신규 카테고리로 분류하고, 이를 신규 엑스퍼트 생성에 이용함으로써, 실사용 환경에서 입력될 수 있는 다양한 경우의 타겟 영상의 분석이 가능할 수 있다. 구체적으로, 본 발명의 일 실시예에 따른 영상 분석 장치는 딥러닝과 같은 기계 학습에 의해 기 생성된 영상 분석 모델 상에 새로운 정보를 추가하는 점진적 학습(Incremental Learning) 및 순차적 학습(Continual Learning) 방법을 채용함으로써, 입력되는 타겟 영상에 적응적으로 동작할 수 있고, 그 결과 실사용 환경에서의 활용성을 높일 수 있다.
특히, 카메라가 거의 움직이지 않는 고정형 CCTV 환경에서 본 발명의 일 실시예에 따른 IVA(Intelligent Video Analytics) 기술을 상용화할 경우, 설치된 카메라의 위치 및 각도와 무관하게 획득된 영상에 대한 정확한 분석이 수행될 수 있다.
도 1 은 본 발명의 일 실시예에 따른 영상 분석 장치의 기능 블록도이다.
도 2는 본 발명의 일 실시예에 따른 영상 분석 모델의 출력 값 출력 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 영상 분석 모델의 엑스퍼트를 설명하기 위한 도면이다.
도 4 내지 도 6은 일 실시예에 따른 영상 분석 장치에 의해 수행되는 신규 카테고리에 대한 엑스퍼트 생성 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 영상 분석 방법의 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 영상 분석 모델 생성 방법의 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 영상 분석 방법의 효과를 검증하기 위한 실험에서 손글씨 영상으로 구성되는 입력을 설명하기 위한 도면이다.
도 10은 도 9의 입력에 대한 본 발명의 일 실시예에 따른 영상 분석 방법의 효과를 검증하기 위한 실험에서 분석 정확도를 나타낸 그래프이다.
도 11은 도 10의 대조군으로서, 종래 영상 분석 방법의 분석 정확도를 나타낸 그래프이다.
도 12는 본 발명의 일 실시예에 따른 영상 분석 방법의 효과를 검증하기 위한 실험에서 CCTV 영상으로 구성되는 입력을 설명하기 위한 도면이다.
도 13은 도 12의 입력에 대한 본 발명의 일 실시예에 따른 영상 분석 방법의 효과를 검증하기 위한 실험에서 분석 정확도를 나타낸 그래프이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1 은 본 발명의 일 실시예에 따른 영상 분석 장치의 기능 블록도이다.
영상 분석 장치는 입력된 타겟 영상에 대한 분석을 수행하는 장치를 의미한다. 여기서, 타겟 영상이란 영상 분석의 대상이 되는 영상으로서, 정지 영상 및 정지 영상의 스트림(Stream)으로 구현되는 동영상을 포함할 수 있다. 또한, 영상 분석이란 타겟 영상 내 객체와 객체 이외의 배경에 대한 정보를 획득하는 모든 과정을 의미하며, 영상 내 객체의 분류(Classification) 및/또는 검출(Detection)을 포함할 수 있다.
영상 분석의 정확도를 높이기 위해, 최근에는 영상 분석에 있어 딥러닝과 같은 기계 학습을 적용하려는 시도가 활발히 진행되고 있다. 딥러닝 기술이 적용된 영상 분석 모델의 예로 R-CNN, Faster R-CNN, Mask R-CNN, SSD, DSSD, Yolo 등이 있다.
딥러닝 기술이 적용된 영상 분석 모델은 한정된 수의 객체를 분류 및/또는 검출하기 위해 오랜 시간 동안 수집된 학습 데이터베이스(DB)를 학습할 필요가 있다. 그러나, CCTV 서비스, 자율 주행 등과 같이 실제 서비스에 딥러닝 기반 영상 분석 모델을 적용하기 위해서는 그 환경에 맞는 학습 데이터베이스가 사전 구축되어야 하고, 구축되는 학습 데이터베이스는 한 객체 당 적어도 수만 장 이상의 학습 영상을 포함해야 한다.
이와 같이, 분석 가능한 객체의 수에 비례하여 학습 영상의 수도 증가하므로, 실제 서비스에 적용되는 영상 분석 모델이 모든 객체를 분류 및/또는 검출하도록 학습되는 것은 현실적으로 불가능하다. 따라서, 실 사용에 제공되는 영상 분석 모델은 제한된 수의 객체에 대해서만 분류 및/또는 검출이 가능할 수 있다.
만약, 소정 개수의 객체에 대하여 동작하는 영상 분석 모델을 이용하여 영상 분석 서비스를 제공하는 중 신규 객체에 대한 영상 분석이 필요한 경우, 다음의 세 가지 방법을 따를 수 있다. 이하에서는 사람을 객체로 하는 영상 분석 모델에 대하여 신규 객체인 자동차를 추가하고자 하는 경우를 가정하여 설명한다.
첫 번째 방법은 사람에 대한 영상 분석 모델과는 별개로 자동차에 대한 영상 분석 모델을 학습하여 생성하는 것이다. 예를 들어, 다양한 자동차 영상을 수집, 학습하여 영상 분석 모델로서 '자동차 검출' 딥러닝 네트워크 모델을 생성할 수 있다. 이 경우, 사람과 자동차 모두에 대한 영상 분석이 가능하지만, 사람에 대한 영상 분석 모델과 자동차에 대한 영상 분석 모델 모두를 가동시켜야 하기 때문에, 하드웨어 리소스가 2배 이상 발생할 수 있다.
두 번째 방법은 기존의 사람에 대한 영상 분석 모델의 학습에 이용된 학습 DB와 함께 새로운 자동차 학습 DB를 수집하여, 사람 및 자동차 모두를 객체로 하는 영상 분석 모델을 학습하는 것이다. 이 방법은 새롭게 자동차 학습 DB를 수집한다는 점이 첫 번째 방법과 유사하지만, 사람에 대한 영상 분석 모델의 학습에 이용된 학습 DB가 존재하는 경우에만 이용할 수 있다는 제약이 존재한다. 또한, 학습 완료 후 영상 분석 모델의 사람에 대한 분석 성능이 최초의 영상 분석 모델의 성능보다 감소할 가능성이 있다.
세 번째 방법은 기존의 사람에 대한 영상 분석 모델 상에 자동차 DB를 학습하는 것이다. 이 방법은 기 사용된 사람에 대한 학습 DB가 필요 없다는 것이 장점이나, 사람에 대한 영상 분석 모델에 자동차 DB를 학습 시 결과물은 사람에 대한 분석 능력이 저하되는 Catastrophic Forgetting 현상이 발생한다는 점이다. 즉, 이미 생성된 사람에 대한 영상 분석 모델 상에 새로운 객체인 자동차의 학습 DB를 학습 시키면, 학습 결과에 따른 영상 분석 모델은 자동차에 대한 영상 분석 성능이 우수해지는 반면, 사람에 대한 영상 분석 성능은 저하될 수 있다.
이처럼 영상 분석 모델의 생성에 이용된 학습 DB와는 상이한 환경에서의 영상이 입력될 경우 상술한 세가지 방법 모두 분석 결과의 정확성을 담보하기 어렵다. 특히, 세 번째 방법의 경우 영상 분석 모델의 생성에 이용된 학습 DB와는 무관하게 기 생성된 영상 분석 모델만을 이용한다는 점에서 첫 번째 및 두 번째 방법에 비해 장점을 가짐에도 불구하고, 신규 객체에 대한 학습을 수행할수록 기존 객체에 대한 영상 분석 성능이 저하되므로 실사용 환경에 적용하기 어렵다.
이를 해결하기 위해, 본 발명의 일 실시예에 따른 영상 분석 장치는 클러스터링 알고리즘 중 하나인 DPMM(Dirichlet Process Mixture Model)의 기본 개념을 차용할 수 있다. 이하에서는 DPMM 에 대하여 간략히 설명한다.
DPMM은 클러스터의 수를 미리 정하지 않은 상태에서 클러스터링을 하는 클러스터링 알고리즘을 의미한다. 대표적인 클러스터링 알고리즘인 k-means 클러스터링 알고리즘이 클러스터의 수 k를 하이퍼파라미터(Hyper-Parameter)로 두는 것과 달리, DPMM의 하이퍼파라미터는 민감도 α이다. DPMM은 민감도와 데이터에 따라 클러스터링 결과가 결정되며, α의 값이 클수록 클러스터의 개수가 증가하는 경향이 있다.
DPMM을 학습하는 대표적인 방법은 Gibbs Sampling 방법이다. 처음에 N개의 데이터가 주어지면 먼저 각각의 데이터에 임의로 클러스터를 할당하여 초기화를 진행한다. 이 때, 클러스터를 할당하는 방식은 학습 시간만 충분히 주어진다면 결과에 영향을 주지 않는다. 초기화가 완료되면 매 스텝마다 하나의 데이터를 임의로 선택하여 클러스터를 재할당한다. 이 때, 임의로 선택된 데이터는 새로운 클러스터에 할당이 될 수도 있고, 이미 존재하는 클러스터에 할당될 수도 있다. 다시 할당할 데이터를 xi 라 하면, xi 가 기존 클러스터 c에 할당될 확률 P1과 새로운 클러스터에 할당될 확률 P2는 수학식 1 및 수학식 2에 의해 정의된다.
여기서, α 는 민감도를 의미하고, b 는 정규화 상수를 의미하고, N은 전체 데이터의 개수를 의미하고, Nc는 클러스터 c에 할당되어 있는 데이터의 개수를 의미할 수 있다. 또한, Φc는 클러스터 c의 파라미터로서, 각 클러스터가 정규 분포를 따를 때 평균과 분산을 의미할 수 있다.
F(xi, Φc)는 Φc 에 대한 데이터 xi의 우도(Likelihood)를 의미하고, 는 클러스터 c에 대한 사전 확률(Prior Probability)을 의미한다. 나아가, G0(Φ)는 또 다른 하이퍼파라미터인 Base Distribution으로서, Φ의 분포에 대한 사전 확률을 의미할 수 있다.
상술한 확률에 따라 새로운 클러스터가 할당되면, 각 클러스터의 파라미터 Φc를 조정할 수 있다. 구체적으로, EM(Expectation maximization) 알고리즘의 최대화 단계(Maximization Step)와 같이, 해당 클러스터에 할당되어 있는 데이터들을 이용하여 최대 우도 추정(Maximum Likelihood Estimate, MLE) 또는 최대 사후 확률 (Maximum A Posteriori, MAP) 추정에 따라 Φc를 조정할 수 있다.
이러한 DPMM 클러스터링 알고리즘이 클러스터의 수를 자동으로 결정하는 것처럼, 본 발명의 일 실시예에 따른 영상 분석 장치는 영상 분석 모델을 구성하는 엑스퍼트의 개수를 입력되는 학습 영상에 기초하여 자동으로 결정할 수 있다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 영상 분석 장치(100)는 영상 분석부(110), 결정부(120), 메모리(130) 및 학습부(140)를 포함할 수 있다.
영상 분석부(110)는 적어도 하나의 엑스퍼트(Expert)로 구성되는 영상 분석 모델을 기초로 타겟 영상을 분석할 수 있다. 여기서, 엑스퍼트는 영상 분석을 위한 개별 모델을 의미할 수 있다.
영상 분석부(110)가 이용하는 영상 분석 모델은 학습 영상을 학습하여 생성된 적어도 하나의 엑스퍼트로 구성되고, 영상 분석 장치(100)는 입력된 타겟 영상에 대응되는 적어도 하나의 엑스퍼트 각각에 타겟 영상을 입력하여, 출력된 출력 값을 기초로 타겟 영상을 분석할 수 있다.
영상 분석 모델을 구성하는 적어도 하나의 엑스퍼트 중 입력된 타겟 영상에 대응되는 엑스퍼트를 이용하면, 영상 분석 결과의 정확도를 높일 수 있다. 특히, 타겟 영상과 유사한 학습 영상을 학습하여 생성된 엑스퍼트일수록, 효과적으로 타겟 영상을 분석할 수 있다.
이에 기초하여, 적어도 하나의 엑스퍼트와 게이트 네트워크(Gate Network)를 결합한 MoE(Mixture of Experts)가 영상 분석 모델로 이용될 수 있다. 게이트 네트워크는 입력 데이터와 각각의 엑스퍼트의 성능을 기초로, 출력 값을 획득할 엑스퍼트를 결정할 수 있다. 구체적으로, MoE는 k번째 엑스퍼트에서 입력 값 x와 k번째 엑스퍼트 Ek에 대한 클래스(Class) y의 확률 p(y|x,Ek)를 모델링하고, 게이트 네트워크에서 입력 값 x에 대한 k번째 엑스퍼트 Ek의 확률 p(Ek|x)를 모델링할 수 있다. 그 결과, MoE는 수학식 3에 따라 입력 값 x에 대한 클래스 y를 구할 수 있다.
수학식 3을 참조하면, 게이트 네트워크는 엑스퍼트가 입력 값 x를 입력 받기에 앞서, 입력 값 x에 대응되는 엑스퍼트를 찾는 일종의 분류기(Classifier) 역할을 수행할 수 있다. 이 때, 특정 시점에 새로운 엑스퍼트를 생성하기 위해서는 해당 엑스퍼트에 대응되는 입력 값들을 새로 학습할 필요가 있으므로, 상술한 Catastrophic Forgetting 현상이 발생할 가능성이 있다. 다시 말해, 새로운 엑스퍼트에 대응되는 데이터를 학습하느라 영상 분석 모델이 기존에 학습한 내용을 잊어버릴 수 있다는 것이다.
이를 해결 하기 위해, 본 발명의 일 실시예에 따른 영상 분석부(110)는 게이트 기반 MoE와 상이한 영상 분석 모델을 이용할 수 있다. 이하에서는 도 2 및 도 3을 참조하여, 본 발명의 일 실시예에 따른 영상 분석 모델을 설명한다.
도 2는 본 발명의 일 실시예에 따른 영상 분석 모델의 출력 값 출력 과정을 설명하기 위한 도면이고, 도 3은 본 발명의 일 실시예에 따른 영상 분석 모델의 엑스퍼트를 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 영상 분석부(110)는 입력 값 x와 클래스 y를 하나의 데이터 포인트(Data Point)로 설정하고, 이에 상술한 DPMM 클러스터링 알고리즘을 적용하는 영상 분석 모델을 이용할 수 있다. 이와 같은 영상 분석 모델은 각각의 엑스퍼트가 담당하는 데이터들을 클러스터링 하여, 적절한 클러스터를 찾도록 동작할 수 있다.
이하에서는 이와 같은 영상 분석 모델을 DPMoE(Dirichlet Process Mixture of Experts) 영상 분석 모델이라 명명한다.
DPMoE 영상 분석 모델은 적어도 하나의 엑스퍼트 각각에 입력 값 x를 입력할 수 있다. 도 2에서는 DPMoE 영상 분석 모델이 첫 번째 엑스퍼트인 E1, 두 번째 엑스퍼트인 E2 및 세 번째 엑스퍼트인 E3로 구성되는 경우를 예시하며, 세 개의 엑스퍼트 E1, E2 및 E3 각각에 입력 값 x가 입력될 수 있다.
상술한 DPMM 클러스터링 알고리즘을 적용하기 위해, DPMoE 영상 분석 모델은 수학식 1의 F(xi, Φc)를 k번째 엑스퍼트 Ek에 대한 입력 값 x 및 클래스 y의 확률 P(x,y|Ek)로 치환할 수 있다. 이를 위해, DPMoE 영상 분석 모델의 적어도 하나의 엑스퍼트 각각은 입력 값 x와 k번째 엑스퍼트 Ek에 대한 클래스 y의 확률 p(y|x,Ek)를 예측하는 분류 모델(Discriminative Model)과 k번째 엑스퍼트 Ek에 대한 입력 값 x의 확률 p(x|Ek)를 예측하는 생성 모델(Generative Model)로 구성될 수 있다.
도 2를 참조하면, k번째 엑스퍼트 Ek는 분류 모델 Ck와 생성 모델 Vk로 구성될 수 있다. 분류 모델 Ck는 입력된 입력 값 x에 대응되는 클래스 y를 분류 및/또는 검출하는 분류기(Classifier) 및/또는 검출기(Detector)로 구현될 수 있으며, 출력 값으로서 확률 p(y|x,Ek)를 출력할 수 있다.
일 실시예에 따른 분류 모델 Ck는 딥러닝과 같은 기계 학습을 통해 학습됨으로써, CNN(Convolution Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 신경망 모델로 구현될 수 있다.
생성 모델 Vk는 k번째 엑스퍼트 Ek의 학습에 이용된 입력 값 x와의 유사도를 획득하기 위해 VAE(Variational Auto Encoder) 등으로 구현될 수 있으며, 출력 값으로서 확률 p(x|Ek)를 출력할 수 있다. 이 때, 확률 p(x|Ek)를 정확히 예측하는 것이 어려울 수 있으므로, 본 발명의 일 실시예에 따른 DPMoE 영상 분석 모델의 생성 모델 Vk는 확률 p(x|Ek)의 하한, 예를 들어 ELBO(Evidence Lower Bound)를 구한 후, 구해진 하한 값을 확률 p(x|Ek)로 추정할 수 있다.
다른 실시예에 따른 생성 모델 Vk는 딥러닝과 같은 기계 학습에 의해 학습됨으로써, CNN, DNN, RNN, BRDNN과 같은 신경망 모델로 구현될 수 있다.
그 결과, DPMoE 영상 분석 모델의 적어도 하나의 엑스퍼트는 분류 모델 Ck에 의해 출력된 확률 p(y|x,Ek)과 생성 모델 Vk에 의해 출력된 확률 p(x|Ek)를 곱하여, 각각의 엑스퍼트 Ek에 대한 입력 값 x 및 클래스 y의 확률 P(x,y|Ek)를 출력할 수 있다. 도 2에서는, DPMoE 영상 분석 모델을 구성하는 엑스퍼트 E1, E2 및 E3가 분류 모델 C1, C2 및 C3 각각에 의해 출력된 확률 p(y|x,E1), p(y|x,E2) 및 p(y|x,E3) 각각과 생성 모델 Vk, V2 및 V3 각각에 의해 출력된 확률 p(x|E1), p(x|E2) 및 p(x|E3) 각각을 곱하여, 엑스퍼트 E1에 대한 입력 값 x 및 클래스 y의 확률 P(x,y|E1), 엑스퍼트 E2에 대한 입력 값 x 및 클래스 y의 확률 P(x,y|E2) 및 엑스퍼트 E3에 대한 입력 값 x 및 클래스 y의 확률 P(x,y|E3)를 출력하는 경우를 예시한다.
또한, DPMoE 영상 분석 모델은 수학식 1의 은 k번째 엑스퍼트 Ek일 사전 확률 P(Ek)로 치환할 수 있다. 이 때, 사전 확률 사전 확률 P(Ek)는 DPMM과 유사하게 k번째 엑스퍼트 Ek가 학습한 데이터에 수에 비례하도록 결정될 수 있으며, 구체적으로 수학식 4를 따를 수 있다.
여기서, N은 전체 데이터 수를 의미하고, Nk는 k번째 엑스퍼트 Ek에서 학습한 데이터의 수를 의미하고, α 는 민감도를 의미할 수 있다.
상술한 바에 따라 DPMM 클러스터링 알고리즘을 적절히 변형하면, DPMoE 영상 분석 모델은 입력 값 x에 대한 클래스 y의 확률 p(y|x)을 출력 값으로서 출력할 수 있다. 구체적으로, DPMoE 영상 분석 모델은 이렇게 획득된 각각의 엑스퍼트에 대한 확률 P(x,y|Ek)과 p(Ek)을 곱한 후, 모두 더함으로써 입력 값 x 및 클래스 y의 확률 P(x,y)를 구할 수 있다. 이렇게 구해진 P(x,y)을 이용하여, DPMoE 영상 분석 모델은 수학식 5에 따라 입력 값 x에 대한 클래스 y의 확률 p(y|x)을 출력 값으로서 출력할 수 있다.
최종적으로, 영상 분석부(110)는 입력 값 x, 즉 입력된 타겟 영상에 대한, 클래스 y, 즉 타겟 영상의 분석 결과의 확률을 획득할 수 있다. 만약, 영상 분석 모델이 분류기로 구현되는 경우, 영상 분석부(110)는 타겟 영상 내 객체의 종류에 따라 타겟 영상 분류 결과를 획득할 수 있다. 이와는 달리, 영상 분석 모델이 검출기로 구현되면, 영상 분석부(110)는 타겟 영상 내 특정 객체의 존재와 위치에 따라 타겟 영상 내 객체 검출 결과를 획득할 수 있다.
결정부(120)는 영상 분석 모델에 의해 타겟 영상에 대한 분석 결과의 유효성을 결정할 수 있다. 구체적으로, 결정부(120)는 타겟 영상이 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 기초하여, 타겟 영상에 대한 분석 결과의 유효성을 결정할 수 있다. 여기서, 입력 카테고리란 해당 엑스퍼트의 학습에 이용된 학습 영상과 동종 영상으로 판단할 수 있는 카테고리를 의미하며, 객체의 종류, 객체의 위치, 영상 획득 환경 등에 의해 결정될 수 있다.
또한, 결정부(120)는 타겟 영상에 대한 분석 결과가 유효하지 않은 것으로 결정되면, 타겟 영상을 신규 카테고리로 분류할 수 있다. 나아가, 결정부(120)는 신규 카테고리로 분류된 타겟 영상을 메모리(130)에 저장할 수 있다. 아울러, 학습부(140)는 메모리(130)에 저장된 타겟 영상을 학습하여 신규 카테고리에 대한 신규 엑스퍼트를 생성할 수 있다.
이하에서는 도 4 내지 도 6을 참조하여, 신규 카테고리에 대한 엑스퍼트를 생성하는 방법을 설명한다.
도 4 내지 도 6은 일 실시예에 따른 영상 분석 장치에 의해 수행되는 신규 카테고리에 대한 엑스퍼트 생성 방법을 설명하기 위한 도면이다.
타겟 영상의 분석이 완료되면, 결정부(120)는 타겟 영상이 영상 분석 모델의 적어도 하나의 엑스퍼트의 입력 카테고리에 속하는지, 아니면 신규 카테고리에 속하는지 판단할 수 있다. 이를 위해, 결정부(120)는 타겟 영상이 입력 카테고리에 속할 확률 P11과 타겟 영상이 신규 카테고리에 속할 확률 P22를 구할 수 있다.
이 때, 본 발명의 일 실시예에 따른 영상 분석 모델은 DPMM 클러스터링 알고리즘을 채용하는 바, 타겟 영상이 입력 카테고리에 속할 확률 P11은 수학식 1의 xi 가 기존 클러스터 c에 할당될 확률 P1에 대응되고, 타겟 영상이 신규 카테고리에 속할 확률 P22는 수학식 2의 xi 가 새로운 클러스터에 할당될 확률 P2에 대응될 수 있다. 따라서, 결정부(120)는 타겟 영상이 입력 카테고리에 속할 확률 P11을 (여기서, N은 전체 데이터 수를 의미하고, Nk는 k번째 엑스퍼트 Ek에서 학습한 데이터의 수를 의미하고, α 는 민감도를 의미함.)에 비례하여 결정하고, 타겟 영상이 신규 카테고리에 속할 확률 P22를 (여기서, N은 전체 데이터 수를 의미하고, α 는 민감도를 의미하고, E0는 신규 카테고리를 가지는 신규 엑스퍼트를 의미함) 에 비례하여 결정할 수 있다. 도 4의 경우, 결정부(120)는 하나의 엑스퍼트 E1의 입력 카테고리에 속할 확률 P11이 에 비례함을 이용하고, 신규 카테고리에 속할 확률 P22가 에 비례함을 이용하는 경우를 예시한다.
확률 P11과 확률 P22가 결정되면, 결정부(120)는 결정된 확률을 기초로 입력된 타겟 영상에 대한 분석 결과의 유효성을 랜덤(Random)하게 결정할 수 있다. 도 4에서 확률 P11이 확률 P22보다 높다면, 결정부(120)는 타겟 영상에 대한 분석 결과를 유효한 것으로 결정할 가능성이 높으나, 분석 결과가 유효하지 않은 것으로 결정한 후, 신규 카테고리로 분류할 수도 있다. 이와는 달리, 확률 P22가 확률 P11보다 높다면, 결정부(120)는 타겟 영상에 대한 분석 결과를 유효하지 않은 것으로 결정할 가능성이 높으나, 분석 결과를 유효한 것으로 결정할 수도 있다.
결정부(120)에 의해 타겟 영상에 대한 분석 결과가 유효한 것으로 결정되면, 분서 결과 자체를 사용자에게 제공하거나, 이를 활용하여 관련 서비스를 사용자에게 제공할 수 있다.
반면, 타겟 영상에 대한 분석 결과가 유효하지 않은 것으로 결정되어, 해당 타겟 영상이 신규 카테고리로 분류되면, 결정부(120)는 이를 메모리(130)에 저장할 수 있다. 만약, 입력되는 타겟 영상이 매 프레임마다 프레임 영상이 입력되는 데이터 스트림 형태인 경우, 결정부(120)는 매 프레임마다 타겟 영상에 대한 분석 결과의 유효성을 결정한 후, 분석 결과가 유효하지 않은 것으로 결정된 타겟 영상을 메모리(130)에 순차적으로 저장할 수 있다. 도 5를 참조하면, 메모리(130)는 순차적으로 입력되는 신규 카테고리에 대한 타겟 영상을 누적하여 저장할 수 있다.
이를 위해, 본 발명의 일 실시예에 따른 메모리(130)는 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), PROM(Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory)와 같은 저장매체로 구현되거나, 클라우드 서버(Cloud Server)에 의해 가상 저장 공간으로서 구현될 수 있다. 이와는 달리 메모리(130)는 단기 기억 장치(Shortterm Memory)로 구현될 수 있다.
학습부(140)는 메모리(130)에 저장된 타겟 영상을 학습하여 신규 카테고리에 대한 엑스퍼트를 생성할 수 있다. 이를 위해, 일 실시예에 따른 학습부(140)는 메모리(130)에 저장된 타겟 영상의 누적 용량이 미리 정해진 기준 용량 이상인 경우, 메모리(130)에 저장된 타겟 영상을 학습할 수 있다. 여기서, 기준 용량이란 신규 엑스퍼트를 생성하기에 충분한 타겟 영상 누적 용량의 최소 값을 의미할 수 있다.
이와는 달리, 다른 실시예에 따른 학습부(140)는 미리 정해진 기준 시간이 도과하면, 메모리(130)에 저장된 타겟 영상을 학습할 수도 있다. 여기서, 기준 시간이란 신규 엑스퍼트를 생성하기에 충분한 타겟 영상 누적 시간의 최소 값을 의미할 수 있다. 또 다른 실시예에 따른 학습부(140)는 상술한 기준 시간이 도과하면, 메모리(130)에 저장된 타겟 영상의 누적 용량이 기준 용량 이상인 경우에만, 메모리(130)에 저장된 타겟 영상을 학습할 수도 있다.
일 실시예에 따른 학습부(140)는 지도 학습(Supervised Learning)에 따라, 신규 엑스퍼트를 생성할 수 있다. 지도 학습 방법은 레이블링(Labeling)된 입력을 학습함으로써 수행되므로, 지도 학습에 앞서 메모리(130)에 누적된 타겟 영상에 객체에 대한 레이블링이 선행될 필요가 있다. 본 발명의 일 실시예에 따르면, 누적된 타겟 영상 각각에 대하여 외부의 입력을 기초로 레이블링이 수행될 수 있다. 이와는 달리, 누적된 타겟 영상을 레이블링을 위한 별도의 모델, 예를 들어 입력된 영상 내 객체에 대한 분류기 및/또는 검출기에 입력하여, 자동으로 레이블링이 수행될 수도 있다.
지도 학습 방법을 따를 때, 학습부(140)는 메모리(130)에 누적된 타겟 영상을 컨볼루션 층에 대한 입력으로 하고, 레이블에 대한 미리 정해진 클래스와 입력을 대응시킴으로써 타겟 영상을 학습할 수 있다. 즉, 학습부(140)는 입력인 타겟 영상과 정답인 객체 사이의 관계를 학습함으로써, 입력되는 타겟 영상의 객체를 분석할 수 있는 신규 엑스퍼트를 생성할 수 있다.
이와는 달리, 학습부(140)는 객체에 대한 레이블링이 된 일부 타겟 영상과 레이블링 되지 않은 나머지 타겟 영상을 함께 이용하여 학습하는 반지도 학습(Semisupervised Learning)에 의해 신규 엑스퍼트를 생성할 수도 있다. 또는, 학습부(140)는 학습 결과가 올바른지에 대한 피드백을 이용하는 강화 학습(Reinforcement Learning)에 의해 신규 엑스퍼트를 생성할 수도 있다.
도 6에서는 학습부(140)가 신규 카테고리로 분류되어 메모리(130)에 누적된 타겟 영상을 기초로 신규 엑스퍼트 E2를 생성한 경우를 예시한다.
신규 엑스퍼트 E2가 생성된 후, 영상 분석부(110)는 새롭게 입력되는 타겟 영상을 신규 엑스퍼트 E2를 포함하는 영상 분석 모델을 이용하여 분석할 수 있다. 영상 분석 이후, 결정부(120)는 새로운 타겟 영상에 대한 분석 결과의 유효성을 결정할 수 있다. 구체적으로, 결정부(120)는 새로운 타겟 영상이 입력 카테고리에 속할 확률 P11과 타겟 영상이 신규 카테고리에 속할 확률 P22를 구할 수 있다. 이 때, 결정부(120)는 입력된 타겟 영상이 각각의 엑스퍼트 E1 및 E2의 입력 카테고리에 속할 확률 P11을 각각 구할 수 있다. 이렇게 구해진 확률에 기초하여, 결정부(120)는 분석 결과의 유효성을 랜덤하게 결정할 수 있다.
지금까지는 신규 카테고리로 분류된 타겟 영상을 메모리(130)에 누적하였다가, 학습부(140)가 이를 일시에 학습하는 경우를 설명하였다. 이와는 달리, 다른 실시예에 따른 영상 분석 장치(100)는 별도의 메모리(130) 구성을 생략하고, 타겟 영상이 신규 카테고리로 분류되면 곧바로 이를 학습하여 신규 엑스퍼트를 생성하는 것도 가능할 수 있다.
다시 도 1을 참조하면, 본 발명의 일 실시예에 따른 영상 분석 장치(100)의 각 구성은 마이크로프로세서(Microprocessor)를 포함하는 연산 장치로 구현될 수 있고, 예를 들어 중앙 처리 장치(Central Processing Unit, CPU) 및 그래픽 처리 장치(Graphic Processing Unit, GPU) 중 적어도 하나로 구현될 수 있다. 이와는 달리, 영상 분석 장치(100)의 각각의 구성 중 적어도 두 개가 SOC(System On Chip)으로 구현되는 것도 가능할 수 있다.
지금까지는 영상 분석 장치(100)의 구성에 대하여 설명하였다. 이하에서는 상술한 영상 분석 장치(100)에 의해 수행되는 영상 분석 방법과 이에 이용되는 영상 분석 모델 생성 방법을 설명한다.
도 7은 본 발명의 일 실시예에 따른 영상 분석 방법의 흐름도이다.
먼저, 영상 분석 장치(100)는 학습 영상을 학습하여 생성된 적어도 하나의 엑스퍼트로 구성되는 영상 분석 모델에 타겟 영상을 입력할 수 있다(S100). 여기서, 영상 분석 모델은 타겟 영상 내 객체와 객체 이외의 배경에 대한 정보를 획득하는 모든 과정을 의미하며, 영상 내 객체의 분류(Classification) 및/또는 검출(Detection)을 포함하는 영상 분석을 수행하는 모델로서, 학습 영상을 딥러닝과 같은 기계 학습에 의해 학습함으로써 생성될 수 있다. 이 때, 일 실시예에 따른 영상 분석 모델은 입력 값과 클래스를 하나의 데이터 포인트로 설정하고, 이에 DPMM 클러스터링 알고리즘을 적용하도록 구현될 수 있다.
영상 분석 모델에 타겟 영상을 입력한 후, 영상 분석 장치(100)는 적어도 하나의 엑스퍼트로부터 출력된 출력 값을 기초로 타겟 영상을 분석할 수 있다(S110). 만약, 영상 분석 모델이 분류기로 구현되는 경우, 영상 분석 장치(100)는 타겟 영상 내 객체의 종류에 따라 타겟 영상 분류 결과를 획득할 수 있다. 이와는 달리, 영상 분석 모델이 검출기로 구현되면, 영상 분석 장치(100)는 타겟 영상 내 특정 객체의 존재와 위치에 따라 타겟 영상 내 객체 검출 결과를 획득할 수 있다.
그 다음, 영상 분석 장치(100)는 입력된 타겟 영상이 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률을 획득할 수 있다(S120). 이를 위해, 영상 분석 장치(100)는 먼저 적어도 하나의 엑스퍼트 각각에 대한 입력 및 클래스의 우도를 획득할 수 있다. 구체적으로, 영상 분석 장치(100)는 엑스퍼트의 분류 모델을 이용하여 타겟 영상 및 엑스퍼트에 대한 클래스의 제 1 확률을 획득하고, 엑스퍼트의 생성 모델을 이용하여 엑스퍼트 각각에 대한 입력의 제 2 확률을 획득한 후, 제 1 확률 및 제 2 확률의 곱을 기초로 적어도 하나의 엑스퍼트 각각에 대한 입력 및 클래스의 우도를 획득할 수 있다. 이에 대해서는 도 2 및 3을 통해 설명한 바와 같다.
타겟 영상이 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률을 획득한 후, 영상 분석 장치(100)는 입력된 타겟 영상에 대한 분석 결과의 유효성을 결정할 수 있다(S130). 이 때, 영상 분석 장치(100)는 입력된 타겟 영상이 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 기초하여, 입력된 타겟 영상의 분석 여부를 랜덤(Random)하게 결정할 수 있다. 즉, 확률에 따라 타겟 영상의 분석 여부의 가능성이 달라지겠으나, 타겟 영상이 입력 카테고리에 속할 확률이 높더라도 타겟 영상을 분석하지 않는 것으로 결정될 수 있고, 타겟 영상이 신규 카테고리에 속할 확률이 높더라도 타겟 영상을 분석하는 것으로 결정될 수도 있다.
만약, 타겟 영상에 대한 분석 결과가 유효한 것으로 결정되면, 영상 분석 장치(100)는 유효한 영상 분석 결과를 출력할 수 있다(S140). 일 실시예에 따른 영상 분석 장치(100)는 타겟 영상에 대한 분석 결과를 출력하여 직접 사용자에게 제공하거나, 이를 활용하여 관련 서비스를 제공하는 사업자에게 제공할 수 있다.
반면, 타겟 영상에 대한 분석 결과가 유효하지 않은 것으로 결정되면, 영상 분석 장치(100)는 타겟 영상을 신규 카테고리로 분류할 수 있다(S150). 나아가, 영상 분석 장치(100)는 신규 카테고리로 분류된 타겟 영상을 저장한 후, 이를 학습하여 신규 카테고리에 대한 신규 엑스퍼트를 생성할 수 있다.
이를 통해, 영상 분석 장치(100)는 영상 분석 모델의 생성 이후 신규 카테고리에 대한 타겟 영상이 입력되거나, 학습 영상과는 상이한 획득 조건의 타겟 영상이 입력되는 경우, 이에 대한 신규 카테고리를 용이하게 생성할 수 있다. 특히, Catastrophic Forgetting 현상이 발생하지 않으므로, 영상 분석 모델은 기존의 카테고리 내 타겟 영상에 대한 분석 성능을 유지하면서도, 신규 카테고리 내 타겟 영상에 대한 분석 성능을 새롭게 구비할 수 있다.
도 8은 본 발명의 일 실시예에 따른 영상 분석 모델 생성 방법의 흐름도이다.
먼저, 영상 분석 장치(100)는 제 1 입력 주기 동안 제 1 학습 영상을 순차적으로 입력 받을 수 있다(S200). 제 1 학습 영상이 입력되면, 영상 분석 장치(100)는 제 1 학습 주기 동안 제 1 학습 영상을 학습하여, 제 1 카테고리에 대한 분류 모델 및 생성 모델로 구성되는 제 1 엑스퍼트를 생성할 수 있다(S210). 여기서, 제 1 학습 주기는 제 1 입력 주기 종료 시점으로부터 시작될 수 있다.
그 다음, 제 2 입력 주기 동안 제 2 학습 영상을 순차적으로 입력 받을 수 있다(S220). 여기서, 제 2 입력 주기는 제 1 학습 주기 종료 시점으로부터 시작될 수 있다. 제 2 학습 영상이 입력되면, 영상 분석 장치(100)는 제 2 학습 영상 각각이 제 1 카테고리에 속할 확률을 획득할 수 있다(S230). 이에 기초하여, 영상 분석 장치(100)는 제 1 엑스퍼트에 대하여 제 2 학습 영상 각각을 학습할지 여부를 결정할 수 있다(S240).
학습 여부가 결정되면, 영상 분석 장치(100)는 제 2 학습 영상 중 제 1 엑스퍼트에 대하여 학습할 것으로 결정된 학습 영상을 제 2 학습 주기 동안 제 1 엑스퍼트에 대하여 학습할 수 있다(S240). 여기서, 제 2 학습 주기는 제 2 입력 주기의 종료 시점으로부터 시작될 수 있다.
반면, 영상 분석 장치(100)는 제 2 학습 영상 중 제 1 엑스퍼트에 대하여 학습하지 않을 것으로 결정된 학습 영상을 제 2 학습 주기 동안 학습하여 제 2 카테고리에 대한 제 2 엑스퍼트를 생성할 수 있다(S250).
이와 같은 과정을 반복하여 수행함으로써, 영상 분석 장치(100)는 별도의 분류 과정 없이도, 학습 영상을 자동으로 클러스터링 하여 각각의 클러스터 별 엑스퍼트를 생성할 수 있다. 즉, 입력 주기와 학습 주기가 반복적으로 발생하며, 영상 분석 장치(100)는 입력 주기에서 신규 카테고리의 학습 영상을 분류하고, 학습 주기에서 분류된 학습 영상을 학습하여 신규 카테고리를 생성할 수 있다. 그 결과, 영상 분석 모델의 영상 분석 정확도가 상승할 수 있다.
지금까지는 학습 영상의 학습에 의해 생성된 영상 분석 모델을 이용하여 타겟 영상을 분석하는 장치 및 방법에 대하여 설명하였다. 그러나, 영상을 각종 데이터로 대체하면, 본 발명은 데이터 분석 장치와 방법으로 확장될 수 있다. 예를 들어, 본 발명의 일 실시예에 따른 데이터 분석 장치는 학습 음성의 학습에 의해 생성된 음성 분석 모델을 이용하여 타겟 음성을 분석할 수 있는 음성 분석 장치, 학습 텍스트에 의해 생성된 텍스트 분석 모델을 이용하여 타겟 텍스트를 분석할 수 있는 텍스트 분석 장치 등을 포함할 수 있다.
지금까지는 상술한 영상 분석 장치(100)에 의해 수행되는 영상 분석 방법과 이에 이용되는 영상 분석 모델 생성 방법에 대하여 설명하였다. 이하에서는 상술한 영상 분석 방법의 효과에 대하여 설명한다.
도 9는 본 발명의 일 실시예에 따른 영상 분석 방법의 효과를 검증하기 위한 실험에서 손글씨 영상으로 구성되는 입력을 설명하기 위한 도면이고, 도 10은 도 9의 입력에 대한 본 발명의 일 실시예에 따른 영상 분석 방법의 효과를 검증하기 위한 실험에서 분석 정확도를 나타낸 그래프이고, 도 11은 도 10의 대조군으로서, 종래 영상 분석 방법의 분석 정확도를 나타낸 그래프이다. 도 10 및 도 11에서 x 축은 학습 진행 시간이고, y 축은 성능, 즉 정확도를 의미한다.
도 9를 참조하면, 입력되는 타겟 영상은 MNIST 데이터베이스(Modified National Institute of Standards and Technology database)로부터 획득된 MNIST 데이터 세트로 구성되고, 이는 총 5개의 서브 세트(subset)로 이루어진다. 첫 번째 서브 세트는 0, 및 1, 두 번째 서브 세트는 2 및 3, 세 번째 서브 세트는 4 및 5, 네 번째 서브 세트는 6 및 7, 다섯 번째 서브 세트는 8 및 9의 타겟 영상으로 구성된다.
본 실험에서는 상술한 복수의 서브 세트를 순차적으로 3000 단계씩 학습하여, 본 발명의 일 실시예에 따른 영상 분석 방법을 적용하였다. 생성된 영상 분석 모델의 엑스퍼트 각각은 분류 모델로서 MLP 기반의 분류기(Classifier)를 가지고, 생성 모델로서 VAE를 갖도록 설계된다. 또한, 분류기는 단순한 3-layer MLP로 이루어진다.
상술한 실험군과 비교하기 위한 대조군으로서, 종래 딥러닝 기반 실시간 객체 검출 네트워크 중 하나인 YOLO ver.2 에 대해서도 동일한 실험을 진행한다.
도 10을 참조하면, 본 발명의 일 실시예에 따른 영상 분석 모델을 적용할 경우, 각 객체를 학습한 이후에도 이전 객체의 분류 정확도가 거의 떨어지지 않는 것을 확인할 수 있으며, 전체 정확도가 0.87까지 꾸준히 상승하는 것을 볼 수 있다.
반면, 도 11을 참조하면, 종래의 영상 분석 방법의 경우, 현재 학습 중인 서브 세트 만을 높은 정확도로 예측하고, 이전에 학습했던 서브 세트들에 대해서는 Catastrophic Forgetting 현상이 발생하는 것을 확인할 수 있다. 그 결과, 전체 정확도가 0.2 부근에서 형성되고 있다.
도 12는 본 발명의 일 실시예에 따른 영상 분석 방법의 효과를 검증하기 위한 실험에서 CCTV 영상으로 구성되는 입력을 설명하기 위한 도면이고, 도 13은 도 12의 입력에 대한 본 발명의 일 실시예에 따른 영상 분석 방법의 효과를 검증하기 위한 실험에서 분석 정확도를 나타낸 그래프이다. 도 13에서 x 축은 학습 진행 시간이고, y 축은 성능, 즉 정확도를 의미한다.
도 12를 참조하면, 입력되는 타겟 영상은 HDA Person 데이터 세트로부터 획득된 두 개의 서브 세트로 구성된다. 첫 번째 서브 세트(Camera 02)는 사람의 머리 위에서 아래 방향으로 향하는 Top-View 영상으로 구성되며, 이는 사람의 머리 위주로 촬영되어 사람 계수 등에 많이 이용되는 CCTV 각도에 대응되는 영상이다. 두 번째 서브 세트(Camera 17)는 Slanted-View 영상으로 구성되며, 이는 사람의 얼굴뿐만 아니라 몸의 일부가 함께 촬영된 영상으로서, 실제 많은 CCTV가 이와 같은 각도로 영상을 촬영하고 있다.
본 실험에서는 먼저 Camera02에 대한 서브 세트를 이용하여 Top-View에서의 사람 객체 검출 네트워크를 학습 후, Camera17에 대한 서브 세트를 이용하여 Slanted-View에서도 사람이 검출될 수 있게 딥러닝 네트워크를 생성하고자 한다. 종래의 검출기는 Top-View에서 사람을 잘 검출하나, 이러한 검출기 상에 Slanted-View 영상을 학습할 경우, Top-View에서는 다시 사람 객체 검출 성능이 매우 저하되는 Catastrophic Forgetting 현상이 발생한 가능성이 높다.
도 13에서 좌측 그래프는 Camera02에 대한 서브 세트에 대한 성능 그래프이고, 우측 그래프는 Camera17에 대한 서브 세트에 대한 성능 그래프로, 종래의 Baseline 검출기와 본 발명의 일 실시예에 따른 DPMoE 영상 분석 모델의 성능 변화를 각각 두 번씩 관찰하였다. 좌측 그래프를 보면, Camera17의 서브 세트가 입력되는 시점에서 위의 높은 성능을 보이던 종래 검출기의 정확도가 갑자기 낮아지는 것을 확인할 수 있다. 반면, 본 발명의 일 실시예에 따른 DPMoE 영상 분석 모델은 Camera17의 서브 세트가 입력되더라도, Camera02의 서브 세트에 대한 정확도가 저하되지 않음을 보인다. 우측 그래프를 보면, 추후 입력된 Camera17의 서브 세트에서는 DPMoE 영상 분석 모델뿐만 아니라 종래의 검출기도 정확도가 상승하나, Camera02의 서브 세트에서는 정확도의 차이가 확연하게 나는 것을 확인할 수 있다.
상술한 여러 가지 실시예에 따른 영상 분석 장치, 방법 및 이에 이용되는 영상 분석 모델 생성 방법에 따르면, 영상 분석 모델을 구성하는 엑스퍼트의 입력 카테고리에 속하지 않는 타겟 영상을 신규 카테고리로 분류함으로써, 실사용 환경의 다양한 타겟 영상의 분석이 가능한 영상 분석 모델을 관리할 수 있다.
학습 영상을 학습하여 생성된 영상 분석 모델을 실사용 환경에서 이용할 경우, 입력되는 타겟 영상은 학습 영상과는 상이한 획득 조건에서 획득되거나, 학습 영상을 통해 학습하지 못한 객체를 포함할 수 있다. 그 결과, 영상 분석 모델은 분석의 정확도가 낮아질 뿐 아니라, 사용 과정에서 발생된 신규 객체 검출의 필요성에 적응적으로 동작할 수 없다.
그러나, 본 발명의 일 실시예에서는 타겟 영상을 신규 카테고리로 분류하고, 이를 신규 엑스퍼트 생성에 이용함으로써, 실사용 환경에서 입력될 수 있는 다양한 경우의 타겟 영상의 분석이 가능할 수 있다. 구체적으로, 본 발명의 일 실시예에 따른 영상 분석 장치는 딥러닝과 같은 기계 학습에 의해 기 생성된 영상 분석 모델 상에 새로운 정보를 추가하는 점진적 학습(Incremental Learning) 및 순차적 학습(Continual Learning) 방법을 채용함으로써, 입력되는 타겟 영상에 적응적으로 동작할 수 있고, 그 결과 실사용 환경에서의 활용성을 높일 수 있다.
특히, 카메라가 거의 움직이지 않는 고정형 CCTV 환경에서 본 발명의 일 실시예에 따른 IVA(Intelligent Video Analytics) 기술을 상용화할 경우, 설치된 카메라의 위치 및 각도와 무관하게 획득된 영상에 대한 정확한 분석이 수행될 수 있다.
한편, 상술한 실시예에 따른 영상 분석 방법 및 이에 이용되는 영상 분석 모델 생성 방법에 포함된 각각의 단계는, 이러한 단계를 수행하도록 프로그램된 컴퓨터 프로그램 또는 컴퓨터 프로그램을 기록하는 컴퓨터 판독가능한 기록매체에서 구현될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
일 실시예에 따르면, 상술한 영상 분석 장치, 방법 및 이에 이용되는 영상 분석 모델의 생성 방법은 댁내 또는 산업 현장 등 다양한 분야에서 이용될 수 있으므로 산업상 이용 가능성이 있다.
Claims (12)
- 학습 영상을 학습하여 생성된 적어도 하나의 엑스퍼트(Expert)로 구성되는 영상 분석 모델에 타겟 영상을 입력하는 단계;상기 적어도 하나의 엑스퍼트로부터 출력된 출력 값을 기초로 상기 타겟 영상을 분석하는 단계;상기 입력된 타겟 영상이 상기 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 기초하여, 상기 타겟 영상에 대한 분석 결과의 유효성을 결정하는 단계; 및상기 타겟 영상에 대한 분석 결과가 유효하지 않은 것으로 결정되면, 상기 타겟 영상을 신규 카테고리로 분류하는 단계를 포함하는영상 분석 방법.
- 제 1 항에 있어서,상기 타겟 영상에 대한 분석 결과의 유효성을 결정하는 단계는,상기 입력된 타겟 영상이 상기 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 기초하여, 상기 타겟 영상에 대한 분석 결과의 유효성을 랜덤(Random)하게 결정하는영상 분석 방법.
- 제 1 항에 있어서,상기 타겟 영상에 대한 분석 결과의 유효성을 결정하는 단계는,상기 적어도 하나의 엑스퍼트 각각에 대한 입력 및 클래스(Class)의 우도(Likelihood)를 획득하는 단계;상기 적어도 하나의 엑스퍼트 각각에 대한 사전 확률(Prior Probability)를 획득하는 단계; 및상기 획득된 우도와 상기 사전 확률을 기초로 상기 입력된 타겟 영상이 상기 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률을 획득하는 단계를 포함하는영상 분석 방법.
- 제 3 항에 있어서,상기 적어도 하나의 엑스퍼트 각각에 대한 입력 및 클래스의 우도를 획득하는 단계는,상기 적어도 하나의 엑스퍼트 각각의 분류 모델(Discriminative Model)을 이용하여, 상기 입력된 타겟 영상 및 상기 적어도 하나의 엑스퍼트 각각에 대한 클래스의 제 1 확률을 획득하는 단계;상기 적어도 하나의 엑스퍼트 각각의 생성 모델(Generative Model)을 이용하여, 상기 적어도 하나의 엑스퍼트 각각에 대한 입력의 제 2 확률을 획득하는 단계; 및상기 제 1 확률 및 상기 제 2 확률을 기초로 상기 적어도 하나의 엑스퍼트 각각에 대한 입력 및 클래스의 우도를 획득하는 단계를 포함하는영상 분석 방법.
- 제 4 항에 있어서,상기 제 2 확률을 획득하는 단계는,상기 제 2 확률의 하한(Lower Bound)을 상기 제 2 확률로서 추정하는 단계를 포함하는영상 분석 방법.
- 제 1 항에 있어서,상기 신규 카테고리로 분류된 상기 타겟 영상을 메모리에 저장하는 단계; 및상기 메모리에 저장된 타겟 영상의 누적 용량이 미리 정해진 기준 용량 이상이면, 상기 메모리에 저장된 타겟 영상을 학습하여 상기 신규 카테고리에 대한 엑스퍼트를 생성하는 단계를 더 포함하는영상 분석 방법.
- 제 6 항에 있어서,상기 신규 카테고리에 대한 엑스퍼트를 생성하는 단계는,상기 메모리에 저장된 타겟 영상에 레이블링(Labeling)을 수행하는 단계; 및상기 레이블링된 타겟 영상을 학습하여 상기 신규 카테고리에 대한 엑스퍼트를 생성하는 단계를 포함하는영상 분석 방법.
- 학습 영상을 학습하여 생성된 적어도 하나의 엑스퍼트(Expert)로 구성되는 영상 분석 모델을 기초로 타겟 영상을 분석하는 영상 분석부; 및상기 타겟 영상이 상기 적어도 하나의 엑스퍼트의 입력 카테고리에 속할 확률에 기초하여, 상기 타겟 영상에 대한 분석 결과의 유효성을 결정부를 포함하고,상기 영상 분석부는상기 타겟 영상에 대한 분석 결과가 유효하지 않은 것으로 결정되면, 상기 타겟 영상을 신규 카테고리로 분류하는영상 분석 장치.
- 제 8 항에 있어서,상기 신규 카테고리로 분류된 상기 타겟 영상을 저장하는 메모리를 더 포함하는영상 분석 장치.
- 제 8 항에 있어서,상기 메모리에 저장된 타겟 영상의 누적 용량이 미리 정해진 기준 용량 이상이면, 상기 메모리에 저장된 타겟 영상을 학습하여 상기 신규 카테고리에 대한 엑스퍼트를 생성하는 학습부를 더 포함하는영상 분석 장치.
- 제 1 입력 주기 동안 제 1 학습 영상을 순차적으로 입력 받는 단계;상기 제 1 입력 주기 직후의 제 1 학습 주기 동안 상기 제 1 학습 영상을 학습하여, 제 1 카테고리에 대한 분류 모델(Discriminative Model) 및 생성 모델(Generative Model)로 구성되는 제 1 엑스퍼트(Expert)를 생성하는 단계;상기 제 1 학습 주기 직후의 제 2 입력 주기 동안 제 2 학습 영상을 순차적으로 입력 받는 단계;상기 제 2 학습 영상이 상기 제 1 카테고리에 속할 확률에 기초하여, 상기 제 1 엑스퍼트에 대하여 상기 제 2 학습 영상 각각을 학습할지 여부를 결정하는 단계; 및상기 제 2 입력 주기 직후의 제 2 학습 주기 동안, 상기 제 2 학습 영상 중 상기 제 1 엑스퍼트에 대하여 학습하지 않을 것으로 결정된 학습 영상을 학습하여 제 2 카테고리에 대한 제 2 엑스퍼트를 생성하는 단계를 포함하는영상 분석 모델 생성 방법.
- 제 1 항 내지 제 7 항 중 어느 한 항에 기재된 방법에 따른 각각의 단계를 수행하는 명령어를 포함하는 프로그램이 기록된 컴퓨터 판독 가능 기록매체.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202080019387.9A CN113614773A (zh) | 2019-03-08 | 2020-01-07 | 图像分析装置和方法以及用于生成用于图像分析装置和方法的图像分析模型的方法 |
| US17/466,400 US12189720B2 (en) | 2019-03-08 | 2021-09-03 | Image analysis device and method, and method for generating image analysis model used for same |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2019-0026852 | 2019-03-08 | ||
| KR1020190026852A KR102887357B1 (ko) | 2019-03-08 | 2019-03-08 | 영상 분석 장치, 방법 및 이에 이용되는 영상 분석 모델의 생성 방법 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| US17/466,400 Continuation US12189720B2 (en) | 2019-03-08 | 2021-09-03 | Image analysis device and method, and method for generating image analysis model used for same |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2020184828A1 true WO2020184828A1 (ko) | 2020-09-17 |
Family
ID=72427593
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2020/000291 Ceased WO2020184828A1 (ko) | 2019-03-08 | 2020-01-07 | 영상 분석 장치, 방법 및 이에 이용되는 영상 분석 모델의 생성 방법 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US12189720B2 (ko) |
| KR (1) | KR102887357B1 (ko) |
| CN (1) | CN113614773A (ko) |
| WO (1) | WO2020184828A1 (ko) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI904714B (zh) * | 2024-06-12 | 2025-11-11 | 威盛電子股份有限公司 | 影像監視方法、影像監視系統以及終端裝置 |
| CN119169331B (zh) * | 2024-11-20 | 2025-03-25 | 电子科技大学(深圳)高等研究院 | 一种增量深度的多视图聚类方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20090131626A (ko) * | 2008-06-18 | 2009-12-29 | 삼성전자주식회사 | 영상 데이터내의 특정 클래스의 오브젝트를 세그멘테이션하기 위한 시스템 및 방법 |
| US20100158332A1 (en) * | 2008-12-22 | 2010-06-24 | Dan Rico | Method and system of automated detection of lesions in medical images |
| US20110255759A1 (en) * | 2005-12-28 | 2011-10-20 | Olympus Medical Systems Corp. | Image processing device and image processing method in image processing device |
| KR20150107579A (ko) * | 2014-03-13 | 2015-09-23 | 오므론 가부시키가이샤 | 화상 처리 장치 및 화상 처리 방법 |
| KR20150108673A (ko) * | 2014-03-18 | 2015-09-30 | 삼성전자주식회사 | 사용자 인식 방법 및 장치 |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20120064581A (ko) | 2010-12-09 | 2012-06-19 | 한국전자통신연구원 | 영상 분류 방법 및 이를 위한 장치 |
| US9087297B1 (en) * | 2010-12-17 | 2015-07-21 | Google Inc. | Accurate video concept recognition via classifier combination |
| US8548828B1 (en) * | 2012-05-09 | 2013-10-01 | DermTap | Method, process and system for disease management using machine learning process and electronic media |
| JP5880454B2 (ja) * | 2013-01-11 | 2016-03-09 | 富士ゼロックス株式会社 | 画像識別装置及びプログラム |
| US9519686B2 (en) * | 2014-04-09 | 2016-12-13 | International Business Machines Corporation | Confidence ranking of answers based on temporal semantics |
| US10318552B2 (en) | 2014-05-15 | 2019-06-11 | International Business Machines Corporation | Probability mapping model for location of natural resources |
| US20160070972A1 (en) * | 2014-09-10 | 2016-03-10 | VISAGE The Global Pet Recognition Company Inc. | System and method for determining a pet breed from an image |
| CN107305636A (zh) * | 2016-04-22 | 2017-10-31 | 株式会社日立制作所 | 目标识别方法、目标识别装置、终端设备和目标识别系统 |
| CN107358264A (zh) * | 2017-07-14 | 2017-11-17 | 深圳市唯特视科技有限公司 | 一种基于机器学习算法进行图像分析的方法 |
| US10679330B2 (en) * | 2018-01-15 | 2020-06-09 | Tata Consultancy Services Limited | Systems and methods for automated inferencing of changes in spatio-temporal images |
| CN108416370B (zh) * | 2018-02-07 | 2022-03-22 | 深圳大学 | 基于半监督深度学习的图像分类方法、装置和存储介质 |
-
2019
- 2019-03-08 KR KR1020190026852A patent/KR102887357B1/ko active Active
-
2020
- 2020-01-07 CN CN202080019387.9A patent/CN113614773A/zh active Pending
- 2020-01-07 WO PCT/KR2020/000291 patent/WO2020184828A1/ko not_active Ceased
-
2021
- 2021-09-03 US US17/466,400 patent/US12189720B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20110255759A1 (en) * | 2005-12-28 | 2011-10-20 | Olympus Medical Systems Corp. | Image processing device and image processing method in image processing device |
| KR20090131626A (ko) * | 2008-06-18 | 2009-12-29 | 삼성전자주식회사 | 영상 데이터내의 특정 클래스의 오브젝트를 세그멘테이션하기 위한 시스템 및 방법 |
| US20100158332A1 (en) * | 2008-12-22 | 2010-06-24 | Dan Rico | Method and system of automated detection of lesions in medical images |
| KR20150107579A (ko) * | 2014-03-13 | 2015-09-23 | 오므론 가부시키가이샤 | 화상 처리 장치 및 화상 처리 방법 |
| KR20150108673A (ko) * | 2014-03-18 | 2015-09-30 | 삼성전자주식회사 | 사용자 인식 방법 및 장치 |
Also Published As
| Publication number | Publication date |
|---|---|
| US12189720B2 (en) | 2025-01-07 |
| KR102887357B1 (ko) | 2025-11-14 |
| KR20200107555A (ko) | 2020-09-16 |
| CN113614773A (zh) | 2021-11-05 |
| US20210397902A1 (en) | 2021-12-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111967429B (zh) | 一种基于主动学习的行人重识别模型训练方法及装置 | |
| WO2017213398A1 (en) | Learning model for salient facial region detection | |
| WO2011096651A2 (ko) | 얼굴 식별 방법 및 그 장치 | |
| US11501482B2 (en) | Anonymization apparatus, surveillance device, method, computer program and storage medium | |
| CN111523559B (zh) | 一种基于多特征融合的异常行为检测方法 | |
| WO2022228325A1 (zh) | 行为检测方法、电子设备以及计算机可读存储介质 | |
| CN112348011B (zh) | 一种车辆定损方法、装置及存储介质 | |
| WO2022213540A1 (zh) | 目标检测、属性识别与跟踪方法及系统 | |
| CN110490171B (zh) | 一种危险姿态识别方法、装置、计算机设备及存储介质 | |
| Yang et al. | Distributed multi-camera multi-target association for real-time tracking | |
| Rezaee et al. | Deep-transfer-learning-based abnormal behavior recognition using internet of drones for crowded scenes | |
| WO2020184828A1 (ko) | 영상 분석 장치, 방법 및 이에 이용되는 영상 분석 모델의 생성 방법 | |
| CN114693742B (zh) | 一种监控视频中运动目标的自动标注方法 | |
| Ma et al. | Real-time driver monitoring systems through modality and view analysis | |
| CN110298302B (zh) | 一种人体目标检测方法及相关设备 | |
| WO2023080667A1 (ko) | Ai 기반 객체인식을 통한 감시카메라 wdr 영상 처리 | |
| WO2023282500A1 (ko) | 슬라이드 스캔 데이터의 자동 레이블링 방법, 장치 및 프로그램 | |
| CN114429612B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
| Patel et al. | Vehicle tracking and monitoring in surveillance video | |
| CN111027482B (zh) | 基于运动向量分段分析的行为分析方法及装置 | |
| CN114399724A (zh) | 行人重识别方法、装置、电子设备及存储介质 | |
| Xiaoyu et al. | Infrared human face auto locating based on SVM and a smart thermal biometrics system | |
| Li et al. | Fast visual tracking using motion saliency in video | |
| WO2020045903A1 (ko) | Cnn을 이용하여 크기 독립적으로 물체를 검출하는 방법 및 장치 | |
| CN108596068B (zh) | 一种动作识别的方法和装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20770611 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 20770611 Country of ref document: EP Kind code of ref document: A1 |