WO2021125539A1 - 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램 - Google Patents

영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
WO2021125539A1
WO2021125539A1 PCT/KR2020/014513 KR2020014513W WO2021125539A1 WO 2021125539 A1 WO2021125539 A1 WO 2021125539A1 KR 2020014513 W KR2020014513 W KR 2020014513W WO 2021125539 A1 WO2021125539 A1 WO 2021125539A1
Authority
WO
WIPO (PCT)
Prior art keywords
cam
classification
image
classifying
objects
Prior art date
Application number
PCT/KR2020/014513
Other languages
English (en)
French (fr)
Inventor
김광중
박진욱
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Publication of WO2021125539A1 publication Critical patent/WO2021125539A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Definitions

  • the present invention relates to an apparatus, a method and a computer program for classifying an object included in an image.
  • an event detection method based on motion detection is mainly used. According to this, since an object classifier must be separately used to determine whether an object whose motion is detected corresponds to a person or a specific object, there is a problem in that unnecessary cost and time are required.
  • CNN Convolutional Neural Networks
  • object detection and classification methods have been widely used.
  • deep learning-based algorithms have limitations in that they require a lot of operator resources and take a relatively long processing time.
  • the conventional object classification method is shadow. There is a problem in that objects cannot be classified due to occlusion between objects, or when a plurality of objects exist, each cannot be classified.
  • Korean Patent Application Laid-Open No. 2016-0037643 discloses a configuration for setting an object candidate region for object recognition.
  • An apparatus, method, and computer program for classifying objects by clearly distinguishing objects and non-objects in an image are provided.
  • Another object of the present invention is to provide an apparatus, method, and computer program capable of classifying each of a plurality of objects when an image includes a plurality of objects.
  • an embodiment of the present invention provides an object classification apparatus for classifying an object included in an image, comprising: an image input unit for receiving an image; and extracting a foreground object from the received image
  • a foreground object extraction unit generates a segmentation-class activation map (S-CAM) from the extracted foreground object based on a deep learning algorithm, and extracts a classification area using the S-CAM to extract a classification area
  • S-CAM segmentation-class activation map
  • the classification region extractor may include a CAM generator that generates a Class Activation Map (CAM) using a channel corresponding to at least one category into which the object is to be classified.
  • CAM Class Activation Map
  • the classification region extractor may further include an S-CAM generator configured to generate the S-CAM by dividing the generated CAM.
  • the S-CAM generator divides the CAM into a plurality of sections, derives a weight distribution for each of the plurality of sections, derives a section having a minimum value among the derived weight variances, and the derived
  • the S-CAM can be generated by binary classification of the CAM of the section.
  • the S-CAM generator may derive the maximum and minimum values of the CAM, and divide a section between the derived maximum value and the derived minimum value into the plurality of sections.
  • the classification region extractor may separate and extract a plurality of classification regions corresponding to each of the plurality of objects by using the S-CAM.
  • the object classifier may classify the object by determining the category of the object by determining the object included in the classification area as any one of a person, a car, and an animal.
  • the storage unit may further include a storage unit for storing metadata of objects classified by the object classification unit.
  • Another embodiment of the present invention provides an object classification method for classifying an object included in an image, the step of receiving an image, extracting an object region from the received image, and the extracted object region based on a deep learning algorithm generating a class activation map (CAM) from the CAM, generating a segmented CAM based on the generated CAM, extracting a classification area using the segmented CAM, and an object from the extracted classification area
  • CAM class activation map
  • Another embodiment of the present invention is a computer program stored in a medium including a sequence of instructions for classifying an object included in an image, wherein when the computer program is executed by a computing device, the object region is extracted from the image, and the A computer stored in a medium including a sequence of instructions for generating a Segmentation-Class Activation Map (S-CAM) from the extracted object region based on a learning algorithm and classifying an object included in an image using the S-CAM program can be provided.
  • S-CAM Segmentation-Class Activation Map
  • an object classification apparatus, method, and computer program for separating a plurality of objects and extracting a classification area corresponding to each.
  • FIG. 2 is a block diagram of an object classification apparatus according to an embodiment of the present invention.
  • FIG. 3 exemplarily illustrates a process in which the object classification apparatus according to an embodiment of the present invention performs object classification.
  • CAM 4 exemplarily illustrates a problem that occurs when a classification region is extracted using only a class activation map (CAM).
  • FIG. 5 exemplarily illustrates another problem that occurs when a classification region is extracted using only a class activation map (CAM).
  • CAM class activation map
  • S-CAM segmentation class activation map
  • S-CAM 7 exemplarily illustrates a classification area extracted by the object classification apparatus according to an embodiment of the present invention using a segmentation class activation map (S-CAM).
  • S-CAM segmentation class activation map
  • FIG. 8 exemplarily illustrates a process in which the object classification apparatus extracts a classification area for one object according to an embodiment of the present invention.
  • FIG. 9 exemplarily illustrates a process of separating and extracting classification areas for a plurality of objects by the object classification apparatus according to an embodiment of the present invention.
  • FIG. 10 exemplarily illustrates a classification region extracted using a class activation map (CAM) and a classification region extracted using a segmented class activation map (S-CAM).
  • CAM class activation map
  • S-CAM segmented class activation map
  • FIG. 11 exemplarily illustrates a service that can be used by the object classification apparatus according to an embodiment of the present invention.
  • FIG. 12 is a flowchart of a method for classifying an object according to an embodiment of the present invention.
  • a "part” includes a unit realized by hardware, a unit realized by software, and a unit realized using both.
  • one unit may be implemented using two or more hardware, and two or more units may be implemented by one hardware.
  • ' ⁇ unit' is not limited to software or hardware, and ' ⁇ unit' may be configured to be in an addressable storage medium or may be configured to reproduce one or more processors.
  • ' ⁇ ' denotes components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, and procedures. , subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables.
  • components and ' ⁇ units' may be combined into a smaller number of components and ' ⁇ units' or further separated into additional components and ' ⁇ units'.
  • components and ' ⁇ units' may be implemented to play one or more CPUs in a device or secure multimedia card.
  • Some of the operations or functions described as being performed by the terminal or device in the present specification may be instead performed by a server connected to the terminal or device. Similarly, some of the operations or functions described as being performed by the server may also be performed in a terminal or device connected to the server.
  • FIG. 1 exemplarily shows a problem that occurs in a conventional method for classifying an object.
  • a conventional method for classifying an object an object is classified by extracting a region in which an object is estimated to exist based on motion in an image.
  • FIG. 1A and 1B show a case in which a large number of non-object parts are included in a region in which object classification is performed according to a conventional method. Since motion is detected not only in the region where the object (person) exists in the image, but also in the region where the shadow exists, it appears that the region in which object classification is performed includes a large number of background parts, not objects. Therefore, as a result of performing object classification on the corresponding area, there was a problem that the object included in the image was not classified as a person.
  • FIG. 1C illustrates a case in which a plurality of objects cannot be distinguished according to a conventional method when a plurality of objects exist in an image.
  • a plurality of objects exist in the image, it is not possible to determine whether the plurality of objects are included in the image, and object classification cannot be performed for each of the plurality of objects.
  • the object classification apparatus 200 may include an image input unit 210 , a foreground object extraction unit 220 , a classification region extraction unit 230 , and an object classification unit 240 .
  • the object classification apparatus 200 may include a server, a desktop, a laptop computer, a kiosk (KIOSK) and a smartphone, and a tablet PC.
  • the object classification apparatus 200 is not limited to those exemplified above. That is, the object classification apparatus 200 may include any apparatus equipped with a processor for performing a method of classifying an object included in an image to be described later.
  • the object classification apparatus 200 may classify an object included in an image. In an embodiment, the object classification apparatus 200 may clearly distinguish an object from a non-object part in an image. In an embodiment, when a plurality of objects are included in an image, the object classification apparatus 200 may separate and detect a plurality of objects and perform object classification on each.
  • the image input unit 210 may receive an image.
  • the image input unit 210 may receive an image from an external device such as a user terminal.
  • the image input unit 210 may receive an image through communication with an external server.
  • the image input unit 210 may perform preprocessing, such as point noise removal, on the received image.
  • the foreground object extractor 220 may extract a foreground object from the received image.
  • the foreground object extractor 220 may extract a foreground object, which is a region in which an object is estimated to exist, from the received image.
  • the foreground object extractor 220 may extract a foreground object from the input image by using a background subtraction extraction method.
  • the difference image extraction method may use, for example, any one or more algorithms of K-Nearest Neighbor (KNN), Mixture of Gaussian (MOG), and Global Minimum with a Guarantee (GMG), but is not limited thereto.
  • FIG. 3A exemplarily illustrates a process of extracting a foreground object by the foreground object extracting unit 220 .
  • the foreground object 303 can be extracted.
  • the classification region extraction unit 230 may generate a segmentation-class activation map (S-CAM) from the foreground object extracted based on a deep learning algorithm, and extract the classification region using the S-CAM. .
  • S-CAM segmentation-class activation map
  • the classification region extractor 230 may include a CAM generator 231 .
  • the CAM generator 231 may generate a class activation map (CAM) from the foreground object extracted by the foreground object extractor 220 .
  • the position of the object may be estimated using the class activation map CAM generated by the CAM generator 231 .
  • a typical CNN (Convolutional Neural Networks) algorithm consists of a feature extraction part and a classification part.
  • the feature extraction part of CNN is configured to stack a stack by alternately repeating the convolution layer and the pooling layer
  • the classification part consists of the fully connected layer and the last It is configured to include a softmax layer in the output layer.
  • the CAM generator 231 may generate a class activation map (CAM) using a global average pooling (GAP) layer without using a fully connected layer, unlike the above-described CNN algorithm. have.
  • CAM class activation map
  • GAP global average pooling
  • the CAM generator 231 may generate a class activation map (CAM) by using a convolutional layer having the same number of channels as the number of categories into which objects are to be classified. That is, the CAM generator 231 may generate the class activation map CAM by using a channel corresponding to at least one category into which an object is to be classified.
  • CAM class activation map
  • the CAM generator 231 may use a convolutional layer having five channels corresponding to each category. Accordingly, a feature map derived after the convolutional layer may have 5 channels. An average value derived from the five channels based on each channel may be a value corresponding to each category, and object classification may be performed based on the category having the largest value.
  • the CAM generator 231 may generate a class activation map CAM using Equation 1 below.
  • c is the category (discrimination class) into which the object is to be classified
  • k is each channel
  • M is the class activation map (CAM)
  • w is the weight of the discrimination layer for each channel
  • f may be a feature map.
  • the CAM generator 231 may generate the class activation map CAM by multiplying the n x n matrix that has passed through the convolutional layer and the pooling layer by the weight of the last discrimination layer.
  • 3B exemplarily illustrates a class activation map (CAM) 312 generated by the CAM generator 231 from the extracted foreground object 311 .
  • CAM class activation map
  • FIG. 4A to 4D exemplarily illustrate a problem that occurs when a classification region is extracted using only a class activation map (CAM).
  • CAM class activation map
  • 5A to 5D exemplarily show another problem that occurs when a classification region is extracted using only a class activation map (CAM).
  • CAM class activation map
  • FIGS. 5 (b) and (c). the misclassified portion may be extracted as the classification area.
  • the classification region extracting unit 230 may further include an S-CAM generating unit 232 .
  • the S-CAM generating unit 232 may generate the S-CAM by dividing the generated CAM.
  • the S-CAM generator 232 may generate a segmented class activation map (S-CAM) from the class activation map (CAM) using a segmentation algorithm.
  • the S-CAM generator 232 may divide the class activation map CAM into a plurality of sections.
  • the S-CAM generator 232 may derive the maximum and minimum values of the class activation map CAM, and divide a section between the derived maximum value and the derived minimum value into a plurality of sections.
  • the S-CAM generator 232 may derive a weight distribution for each of a plurality of sections.
  • the S-CAM generator 232 may derive a weight distribution for each number of sections using Equation 2 below.
  • ⁇ w 2 is a weight distribution for any one section among a plurality of sections, and a and b may each mean any one of binary classification.
  • a may be a foreground and b may be a background.
  • W a may be the weight of a
  • ⁇ a may be the average of a
  • ⁇ a 2 may be the variance of a.
  • W b may be the weight of b
  • ⁇ b may be the average of b
  • ⁇ b 2 may be the variance of b.
  • ego, ego when deriving the weight distribution ⁇ w 2 of the section s, ego, ego, can be Also, ego, ego, can be X i may be the number of values belonging to the i-th section when the real value of the class activation map CAM is divided into a plurality of sections based on the minimum and maximum values. For example, if all real values of CAM belonging to 4 sections (0.4 to 0.5) are obtained, X 4 may be 3 when 0.44, 0.41, and 0.46 are obtained.
  • the S-CAM generator 232 may derive a section having a minimum value among weight distributions among a plurality of sections.
  • the S-CAM generator 232 may generate a divided class activation map (S-CAM) by binary classification of the class activation map (CAM) of the derived section.
  • the section from 0.0 to 1.0 of the class activation map CAM may be divided by an interval of 0.1. Accordingly, the class activation map CAM may be divided into a total of 10 sections, such as a first section from 0.0 to 0.1, a second section from 0.1 to 0.2, and the like. In this case, the weight distribution for each of the plurality of sections may be derived as shown in Table 1 below.
  • the S-CAM generator 232 may generate a divided class activation map S-CAM by binary classification of the class activation map CAM of the fourth section.
  • segmentation class activation maps S-CAM 321 , 322 , and 323 generated by the S-CAM generator 232 .
  • Reference numerals 321, 322, and 323 denote segmented class activation maps (S-CAMs) generated by binary classification of class activation maps (CAMs) of different sections, respectively.
  • S-CAMs segmented class activation maps
  • CAMs binary classification of class activation maps
  • the classification region extractor 230 may extract the classification region using a segmented class activation map (S-CAM).
  • S-CAM segmented class activation map
  • the classification region extraction unit 230 is, for example, in the classification region 332 from the segmentation class activation map (S-CAM) 331 of the section in which the weight variance has the minimum value as shown in (d) of FIG. 3 . marked part) can be extracted.
  • S-CAM segmentation class activation map
  • the classification region extractor 230 may separate and extract a plurality of classification regions corresponding to each of the plurality of objects by using a segmented class activation map (S-CAM). .
  • S-CAM segmented class activation map
  • Fig. 6 (a) is a segmented class activation map (S-CAM) generated by binary classification of a class activation map (CAM) of a section having a weight variance of 0.750
  • Fig. 6 (b) is a segmentation of (a) A classification area extracted using a class activation map (S-CAM) is shown.
  • Fig. 6 (c) is a segmented class activation map (S-CAM) generated by binary classification of a class activation map (CAM) of a section having a weight variance of 0.409
  • Fig. 6 (d) is a segmentation of (c) A classification area extracted using a class activation map (S-CAM) is shown.
  • Fig. 6 (e) is a segmented class activation map (S-CAM) generated by binary classification of a class activation map (CAM) of a section having a weight variance of 2.280
  • Fig. 6 (f) is a segmentation of (e) A classification area extracted using a class activation map (S-CAM) is shown.
  • Fig. 7 (a) is a segmented class activation map (S-CAM) generated by binary classification of a class activation map (CAM) of a section having a weight variance of 0.579
  • Fig. 7 (b) is a segmentation of (a) A classification area extracted using a class activation map (S-CAM) is shown.
  • Fig. 7 (c) is a segmented class activation map (S-CAM) generated by binary classification of a class activation map (CAM) of a section having a weight variance of 0.345
  • Fig. 7 (d) is a segmentation of (c) A classification area extracted using a class activation map (S-CAM) is shown.
  • Fig. 7(e) is a segmented class activation map (S-CAM) generated by binary classification of a class activation map (CAM) of a section having a weight variance of 2.067
  • Fig. 7(f) is a segmentation of (e) A classification area extracted using a class activation map (S-CAM) is shown.
  • the object classifier 240 may classify objects included in the extracted classification area.
  • the object classifier 240 may determine whether an object included in the input image corresponds to one category.
  • the object classifier 240 may determine whether an object included in the input image corresponds to any one of a plurality of categories at once.
  • the object classifier 240 may determine the category of the object using a convolutional neural network (CNN) classifier.
  • CNN convolutional neural network
  • the convolutional neural network classifier may include a part for extracting features of an image and a part for discriminating (classifying) the class of an object.
  • the part for extracting the features of the image includes a plurality of convolution layers and a plurality of pooling layers, and the part for determining the class of the object is a layer for image classification, for example, fully connected It may include a fully connected layer.
  • the CAM generator 231 generates a class activation map (CAM) based on a value obtained by multiplying the weight w of the discrimination layer for each channel and the feature map f (refer to Equation 1), the convolutional neural network classifier and The class activation map (CAM) must have the same structure as the convolutional layer and previous layers.
  • images of objects of a plurality of categories may be learned. For example, when an image of a person, a car, and an animal is trained in the convolutional neural network classifier, the learned convolutional neural network classifier derives the probability that an object included in the classification area corresponds to each category, and the highest probability value Objects can be classified based on
  • the object classifier 240 may classify the object by determining the category of the object by determining the object included in the classification area as any one of a person, a car, and an animal. In another embodiment, the object classifier 240 may derive a probability that an object included in the classification area corresponds to one of a plurality of categories, respectively.
  • the object classification unit 240 determines whether the object included in the classification area as shown in (e) of FIG. 3 is a person, and can derive that the probability that the object corresponds to a person is 98%. have. Accordingly, the object may be classified as a person.
  • the image input unit 210 may receive an image as shown in FIG. 8A , and the foreground object extractor 220 may extract a foreground object from the received image.
  • the classification region extractor 230 may generate a segmentation class activation map (S-CAM) as shown in FIG. 8(b) and extract the classification region as shown in FIG.
  • S-CAM segmentation class activation map
  • the object classifier 240 may classify an object included in the classification area shown in FIG. 8D as a person.
  • the image input unit 210 may receive an image including a plurality of objects as shown in FIG. 9A , and the foreground object extractor 220 may extract a foreground object from the received image.
  • the classification region extraction unit 230 generates a segmentation class activation map (S-CAM) as shown in FIG. 9(b), and uses this to create a plurality of classifications corresponding to each of a plurality of objects as shown in FIG. 9(c). The regions can be separated and extracted.
  • the object classifier 240 may classify objects included in each classification area shown in FIG. 9(d) as people.
  • Fig. 10(a) shows a classification region extracted using only the class activation map (CAM), and Fig. 10(b) shows a classification region extracted using the segmented class activation map (S-CAM).
  • the object classifier 240 may derive a 56% probability that the object included in the classification area of (a) of FIG. 10 is a human, but It can be derived that the probability that the object is a person is 98%.
  • the object classification apparatus 200 may further include a storage unit (not shown) for storing metadata of objects classified by the object classification unit 240 .
  • the object classification apparatus 200 may transmit metadata of the object classified by the object classification unit 240 to an external device.
  • 11A to 11C exemplarily show services that can be provided by using the object classification apparatus 200 according to an embodiment of the present invention.
  • the object classification apparatus 200 may be used to provide a service for detecting whether an object has invaded from an image. It is possible to detect the position of an object moving in a specific area and classify what the object is. An object included in an image captured by a plurality of cameras or a real-time image may be classified. It can determine whether an intrusion has occurred by classifying pets, cars, and people.
  • the object classification apparatus 200 may be used to provide a service for determining whether a specific object exists in an image. For example, it is possible to derive the number of cars existing inside the parking lot, or to determine whether there is a parking space.
  • the object classification apparatus 200 may be used to determine the number of objects included in an image, in particular, a population density, and the like. Also, the object classification apparatus 200 may be used to detect the density of atypical objects, such as water and fog.
  • the method 1200 of classifying an object performed by the apparatus 200 illustrated in FIG. 12 includes steps that are time-series processed by the apparatus 200 according to the embodiment illustrated in FIG. 2 . Therefore, even if omitted below, it is also applied to the method of classifying an object performed by the apparatus 200 according to the embodiment shown in FIG. 2 .
  • step S1201 the device 200 may receive an image.
  • the device 200 may extract an object region from the received image.
  • the device 200 may generate a class activation map (CAM) from the extracted object area based on the deep learning algorithm.
  • CAM class activation map
  • step S1204 the device 200 may generate a divided CAM based on the generated CAM.
  • step S1205 the apparatus 200 may extract a classification region using the segmented CAM.
  • step S1206 the device 200 may classify an object in the extracted classification area.
  • step S1204 of generating a segmented CAM a segmented CAM that clarifies object estimation by separating objects and removing noise by dividing the CAM may be generated.
  • steps S1201 to S1206 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present invention.
  • some steps may be omitted if necessary, and the order between the steps may be switched.
  • the method of classifying an object in the object classification apparatus described with reference to FIGS. 1 to 12 may be implemented in the form of a computer program stored in a medium executed by a computer or a recording medium including instructions executable by the computer. Also, the method for classifying an object in the object classifying apparatus described with reference to FIGS. 1 to 12 may be implemented in the form of a computer program stored in a medium executed by a computer.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer-readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

영상에 포함된 객체를 분류하는 객체 분류 장치는 영상을 입력받는 영상 입력부, 상기 입력받은 영상으로부터 전경 객체를 추출하는 전경 객체 추출부, 딥러닝 알고리즘에 기초하여 상기 추출한 전경 객체로부터 분할 클래스 활성화 맵(S-CAM, Segmentation-Class Activation Map)을 생성하고, 상기 S-CAM을 이용하여 분류 영역을 추출하는 분류 영역 추출부 및 상기 추출된 분류 영역에 포함된 객체를 분류하는 객체 분류부를 포함한다.

Description

영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램
본 발명은 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.
보안 관리, 교통 상황 분석 등 여러 분야에서 영상을 이용한 감시 시스템이 활용되고 있다. 그러나 기상 변화, 조명 변화, 벌레 등의 이물질 등 실제 환경에 존재하는 여러 가지 원인으로 인해 영상 감시 시스템의 성능이 현저히 저하될 수 있다.
현재 영상 감시 시스템에서는, 움직임 검출 기반의 이벤트 탐지 방식이 주로 이용되고 있다. 이에 의하면, 움직임이 검출된 물체가 사람 또는 특정 사물에 해당하는지 여부를 판단하기 위해 별도로 객체 분류기를 사용해야 하므로 불필요한 비용 및 시간이 소요되는 문제점이 있다.
최근에는 딥러닝의 CNN(Convolutional Neural Networks) 기반의 객체 검출 및 분류 방법들이 많이 활용되고 있다. 그러나 딥러닝 기반의 알고리즘은 많은 연산자원을 필요로 하고, 처리시간이 비교적 길게 소요된다는 한계를 가진다.
또한, 종래의 객체 분류 방법은 그림자. 객체 간의 가려짐 등으로 인해 객체를 분류하지 못하거나, 복수의 객체가 존재하는 경우에 각각을 분류하지 못하는 문제점이 있다.
한국공개특허 제2016-0037643호는 객체 인식을 위해 객체 후보영역을 설정하는 구성을 개시하고 있다.
영상에서 객체와 객체가 아닌 부분을 명확히 구분하여 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다. 또한, 영상에 복수의 객체가 포함된 경우에 복수의 객체 각각을 분류할 수 있는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 영상에 포함된 객체를 분류하는 객체 분류 장치에 있어서, 영상을 입력받는 영상 입력부, 상기 입력받은 영상으로부터 전경 객체를 추출하는 전경 객체 추출부, 딥러닝 알고리즘에 기초하여 상기 추출한 전경 객체로부터 분할 클래스 활성화 맵(S-CAM, Segmentation-Class Activation Map)을 생성하고, 상기 S-CAM을 이용하여 분류 영역을 추출하는 분류 영역 추출부 및 상기 추출된 분류 영역에 포함된 객체를 분류하는 객체 분류부를 포함하는 객체 분류 장치를 제공할 수 있다.
일 실시예에서, 상기 분류 영역 추출부는 상기 객체가 분류될 적어도 하나의 카테고리와 대응되는 채널을 이용하여 클래스 활성화 맵(CAM, Class Activation Map)을 생성하는 CAM 생성부를 포함할 수 있다.
일 실시예에서, 상기 분류 영역 추출부는 상기 생성된 CAM을 분할 처리하여 상기 S-CAM을 생성하는 S-CAM 생성부를 더 포함할 수 있다.
일 실시예에서, 상기 S-CAM 생성부는 상기 CAM을 복수의 구간으로 나누고, 상기 복수의 구간 각각에 대한 가중치 분산을 도출하고, 상기 도출된 가중치 분산 중 최솟값을 가지는 구간을 도출하고, 상기 도출된 구간의 CAM을 2진 분류하여 상기 S-CAM을 생성할 수 있다.
일 실시예에서, 상기 S-CAM 생성부는 상기 CAM의 최댓값 및 최솟값을 도출하고, 상기 도출된 최댓값 및 상기 도출된 최솟값 간의 구간을 상기 복수의 구간으로 나누는 것일 수 있다.
일 실시예에서, 상기 분류 영역 추출부는 상기 입력받은 영상에 복수의 객체가 존재하는 경우에 상기 S-CAM을 이용하여 상기 복수의 객체 각각에 대응하는 복수의 분류 영역을 분리하여 추출할 수 있다.
일 실시예에서, 상기 객체 분류부는 상기 분류 영역에 포함된 객체를 사람, 자동차, 동물 중 어느 하나로 판단하여 상기 객체의 카테고리를 결정함으로써 상기 객체를 분류할 수 있다.
일 실시예에서, 상기 객체 분류부에서 분류한 객체의 메타데이터를 저장하는 저장부를 더 포함할 수 있다.
본 발명의 다른 실시예는, 영상에 포함된 객체를 분류하는 객체 분류 방법에 있어서, 영상을 입력받는 단계, 상기 입력받은 영상으로부터 객체 영역을 추출하는 단계, 딥러닝 알고리즘에 기초하여 상기 추출한 객체 영역으로부터 클래스 활성화 맵(CAM, Class Activation Map)을 생성하는 단계, 상기 생성된 CAM에 기초하여 분할 CAM을 생성하는 단계, 상기 분할 CAM을 이용하여 분류 영역을 추출하는 단계 및 상기 추출된 분류 영역에서 객체 분류를 수행하는 단계를 포함하는 객체 분류 방법을 제공할 수 있다.
본 발명의 다른 실시예는, 영상에 포함된 객체를 분류하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 영상으로부터 객체 영역을 추출하고, 딥러닝 알고리즘에 기초하여 상기 추출한 객체 영역으로부터 S-CAM(Segmentation-Class Activation Map)을 생성하고, 상기 S-CAM을 이용하여 영상에 포함된 객체를 분류하도록 하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 분류 영역을 정확히 추출하여 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
또한, 복수의 객체를 분리하여 각각에 대응하는 분류 영역을 추출하는 객체 분류 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
또한, 객체 분류에 소요되는 비용과 시간을 절감할 수 있다.
도 1은 종래의 객체를 분류하는 방법에서 발생하는 문제점을 예시적으로 나타낸다.
도 2는 본 발명의 일 실시예에 따른 객체 분류 장치의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 객체 분류 장치가 객체 분류를 수행하는 과정을 예시적으로 나타낸다.
도 4는 클래스 활성화 맵(CAM)만을 이용하여 분류 영역을 추출하는 경우 발생하는 문제점을 예시적으로 나타낸다.
도 5는 클래스 활성화 맵(CAM)만을 이용하여 분류 영역을 추출하는 경우 발생하는 다른 문제점을 예시적으로 나타낸다.
도 6은 본 발명의 일 실시예에 따른 객체 분류 장치가 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 예시적으로 나타낸다.
도 7은 본 발명의 일 실시예에 따른 객체 분류 장치가 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 예시적으로 나타낸다.
도 8은 본 발명의 일 실시예에 따른 객체 분류 장치가 하나의 객체에 대한 분류 영역을 추출하는 과정을 예시적으로 나타낸다.
도 9는 본 발명의 일 실시예에 따른 객체 분류 장치가 복수의 객체에 대한 분류 영역을 분리하여 추출하는 과정을 예시적으로 나타낸다.
도 10은 클래스 활성화 맵(CAM)을 이용하여 추출한 분류 영역 및 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 예시적으로 나타낸다.
도 11은 본 발명의 일 실시예에 따른 객체 분류 장치가 이용될 수 있는 서비스를 예시적으로 나타낸다.
도 12는 본 발명의 일 실시예에 따른 객체 분류 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 종래의 객체를 분류하는 방법에서 발생하는 문제점을 예시적으로 나타낸다. 종래의 객체를 분류하는 방법은 영상 내 움직임을 기반으로 객체가 존재하는 것으로 추정되는 영역을 추출하여 객체 분류를 수행한다.
도 1a 및 도 1b는 종래의 방법에 따라 객체 분류가 수행되는 영역에 객체가 아닌 부분이 많이 포함된 경우를 나타낸다. 영상에서 객체(사람)가 존재하는 영역뿐 아니라, 그림자가 존재하는 영역에도 움직임이 검출되기 때문에, 객체 분류가 수행되는 영역에 객체가 아닌 배경 부분이 많이 포함된 것이 나타난다. 따라서, 해당 영역에 대하여 객체 분류를 수행한 결과, 영상에 포함된 객체가 사람으로 분류되지 않는 문제점이 발생하였다.
도 1c는 영상에 복수의 객체가 존재하는 경우에, 종래의 방법에 의하면 복수의 객체를 구분하지 못하는 경우를 나타낸다. 영상에서 복수의 객체가 존재하는 경우에, 영상에 복수의 객체가 포함되어 있는지 여부를 판단하지 못하였으며, 복수의 객체 각각에 대하여 객체 분류를 수행하지 못하는 문제점이 발생하였다.
도 2는 본 발명의 일 실시예에 따른 객체 분류 장치의 구성도이다. 도 2를 참조하면, 객체 분류 장치(200)는 영상 입력부(210), 전경 객체 추출부(220), 분류 영역 추출부(230) 및 객체 분류부(240)를 포함할 수 있다.
객체 분류 장치(200)는 서버, 데스크탑, 노트북, 키오스크(KIOSK) 및 스마트폰(smartphone), 태블릿 PC를 포함할 수 있다. 다만, 객체 분류 장치(200)는 앞서 예시된 것들로 한정 해석되는 것은 아니다. 즉, 객체 분류 장치(200)는 후술하는 영상에 포함되는 객체를 분류하는 방법을 수행하는 프로세서를 탑재한 모든 장치를 포함할 수 있다.
객체 분류 장치(200)는 영상에 포함된 객체를 분류할 수 있다. 일 실시예에서, 객체 분류 장치(200)는 영상에서 객체와 객체가 아닌 부분을 명확히 구분할 있다. 일 실시예에서, 객체 분류 장치(200)는 영상에 복수의 객체가 포함된 경우에 복수의 객체를 분리하여 검출하고, 각각에 대하여 객체 분류를 수행할 수 있다.
영상 입력부(210)는 영상을 입력받을 수 있다. 예를 들어, 영상 입력부(210)는 사용자 단말과 같은 외부 장치로부터 영상을 입력받을 수 있다. 영상 입력부(210)는 외부 서버와의 통신을 통해 영상을 입력받을 수 있다. 영상 입력부(210)는 입력받은 영상에 대하여 점 잡음 제거 등의 전처리를 수행할 수 있다.
전경 객체 추출부(220)는 입력받은 영상으로부터 전경 객체(Foreground Object)를 추출할 수 있다. 전경 객체 추출부(220)는 입력받은 영상에서 객체가 존재하는 것으로 추정되는 영역인 전경 객체를 추출할 수 있다.
전경 객체 추출부(220)는 차영상(Background Subtraction) 추출 방법을 이용하여 입력받은 영상으로부터 전경 객체를 추출할 수 있다. 차영상 추출 방법은 예를 들어, KNN(K-Nearest Neighbor), MOG(Mixture of Gaussian), GMG(Global Minimum with a Guarantee) 중 어느 하나 이상의 알고리즘을 이용할 수 있으나, 이에 제한되지 않는다.
도 3의 (a)는 전경 객체 추출부(220)에 의하여 전경 객체를 추출하는 과정을 예시적으로 나타낸다. 도 3의 (a)에 도시된 예와 같이, 입력받은 영상(301)에서, 차영상 추출 알고리즘을 이용하여 배경(302)을 제거하면, 전경 객체(303)를 추출할 수 있다.
분류 영역 추출부(230)는 딥러닝 알고리즘에 기초하여 추출한 전경 객체로부터 분할 클래스 활성화 맵(S-CAM, Segmentation-Class Activation Map)을 생성하고, S-CAM을 이용하여 분류 영역을 추출할 수 있다.
다시 도 2를 참조하면, 분류 영역 추출부(230)는 CAM 생성부(231)를 포함할 수 있다. CAM 생성부(231)는 전경 객체 추출부(220)에서 추출된 전경 객체로부터 클래스 활성화 맵(CAM, Class Activation Map)을 생성할 수 있다. CAM 생성부(231)에서 생성된 클래스 활성화 맵(CAM)을 이용하여 객체의 위치를 추정할 수 있다.
전형적인 CNN(Convolutional Neural Networks) 알고리즘은, 특징 추출(Feature Extraction) 부분 및 분류(Classification) 부분으로 구성된다. 일반적으로 CNN의 특징 추출 부분은 콘볼루션 레이어(Convolution Layer)와 풀링 레이어(Pooling Layer)를 교대로 반복하여 스택(Stack)을 쌓도록 구성되며, 분류 부분은 완전 연결 레이어(Fully Connected Layer)와 마지막 출력층에 소프트맥스 레이어(Softmax layer)를 포함하도록 구성된다.
일 실시예에서 CAM 생성부(231)는, 전술한 CNN 알고리즘과 달리, 완전 연결 레이어를 이용하지 않고 글로벌 애버리지 풀링(GAP, Global Average Pooling) 레이어를 이용하여 클래스 활성화 맵(CAM)을 생성할 수 있다.
또한, 일 실시예에서 CAM 생성부(231)는, 객체가 분류될 카테고리의 수와 같은 수의 채널을 가지는 콘볼루션 레이어를 이용하여 클래스 활성화 맵(CAM)을 생성할 수 있다. 즉, CAM 생성부(231)는 객체가 분류될 적어도 하나의 카테고리와 대응되는 채널을 이용하여 클래스 활성화 맵(CAM)을 생성할 수 있다.
예를 들어, 객체를 카테고리 1 내지 5로 분류하는 장치의 경우에, CAM 생성부(231)는 각 카테고리에 대응되는 5개의 채널을 가지는 콘볼루션 레이어를 이용할 수 있다. 이에 따라, 콘볼루션 레이어 이후에 도출되는 특징 맵(Feature Map)이 5개의 채널을 가질 수 있다. 5개의 채널에서 각 채널을 기준으로 도출한 평균값이 각 카테고리에 대응하는 값이 될 수 있고, 가장 큰 값을 가지는 카테고리를 기준으로 객체 분류가 수행될 수 있다.
CAM 생성부(231)는 다음의 수학식 1을 이용하여 클래스 활성화 맵(CAM)을 생성할 수 있다.
Figure PCTKR2020014513-appb-M000001
여기서 x, y는 좌표값이고, c는 객체가 분류될 카테고리(판별 클래스)이고, k는 각 채널이고, M은 클래스 활성화 맵(CAM)이고, w는 각 채널별 판별 레이어의 가중치이고, f는 특징 맵일 수 있다. CAM 생성부(231)는 콘볼루션 레이어와 풀링 레이어를 거친 n x n 행렬에 마지막 판별 레이어의 가중치(weight)를 곱하여 클래스 활성화 맵(CAM)을 생성할 수 있다.
도 3의 (b)는 추출된 전경 객체(311)로부터 CAM 생성부(231)에 의하여 생성된 클래스 활성화 맵(CAM)(312)을 예시적으로 나타낸다.
CAM 생성부(231)에서 생성된 클래스 활성화 맵(CAM)을 이용하여 바로 객체 분류를 수행하는 경우, 분류 영역이 제대로 추출되지 않는 문제점이 발생할 수 있다.
도 4의 (a) 내지 (d)는 클래스 활성화 맵(CAM)만을 이용하여 분류 영역을 추출하는 경우 발생하는 문제점을 예시적으로 나타낸다. 입력받은 영상에 복수의 객체가 포함된 경우에, 특히 도 4의 (a)에 도시된 바와 같이 복수의 객체 간의 간격이 좁은 경우에, 도 4의 (b) 및 (c)의 결과와 같이 복수의 객체를 분리하지 않은 클래스 활성화 맵(CAM)이 생성될 수 있다. 이에 의하여, 도 4의 (d)에 도시된 바와 같이 복수의 객체 각각에 대응하는 복수의 분류 영역이 분리하여 추출되지 않을 수 있다.
도 5의 (a) 내지 (d)는 클래스 활성화 맵(CAM)만을 이용하여 분류 영역을 추출하는 경우 발생하는 다른 문제점을 예시적으로 나타낸다. 도 5의 (a)와 같은 영상을 입력받은 경우에, 도 5의 (b) 및 (c)의 결과와 같이 객체가 아닌 부분을 객체로 오분류한 클래스 활성화 맵(CAM)이 생성될 수 있다. 이에 의하여, 도 5의 (d)에 도시된 바와 같이 오분류된 부분이 분류 영역으로 추출될 수 있다.
상술한 바와 같은 클래스 활성화 맵(CAM)만을 이용하여 분류 영역을 추출하는 경우 발생하는 문제점을 해결하기 위하여, 일 실시예에서 분할 클래스 활성화 맵(S-CAM)을 이용할 수 있다. 다시 도 2를 참조하면, 분류 영역 추출부(230)는 S-CAM 생성부(232)를 더 포함할 수 있다.
S-CAM 생성부(232)는 생성된 CAM을 분할 처리하여 S-CAM을 생성할 수 있다. S-CAM 생성부(232)는 분할 알고리즘을 이용하여 클래스 활성화 맵(CAM)으로부터 분할 클래스 활성화 맵(S-CAM)을 생성할 수 있다.
S-CAM 생성부(232)는 클래스 활성화 맵(CAM)을 복수의 구간으로 나눌 수 있다. S-CAM 생성부(232)는 클래스 활성화 맵(CAM)의 최댓값 및 최솟값을 도출하고, 상기 도출된 최댓값 및 상기 도출된 최솟값 간의 구간을 복수의 구간으로 나눌 수 있다.
S-CAM 생성부(232)는 복수의 구간 각각에 대한 가중치 분산을 도출할 수 있다. S-CAM 생성부(232)는 다음의 수학식 2를 이용하여 수의 구간 각각에 대한 가중치 분산을 도출할 수 있다.
Figure PCTKR2020014513-appb-M000002
여기서 σw 2는 복수의 구간 중 어느 한 구간에 대한 가중치 분산이고, a 및 b는 각각 2진 분류의 어느 하나를 의미할 수 있다. 예를 들어, a는 전경이고, b는 배경일 수 있다. Wa는 a의 가중치이고, μa는 a의 평균이고, σa 2은 a의 분산일 수 있다. Wb는 b의 가중치이고, μb는 b의 평균이고, σb 2은 b의 분산일 수 있다.
예를 들어, 복수의 구간이 총 10 구간인 경우에, s 구간의 가중치 분산 σw 2을 도출할 때,
Figure PCTKR2020014513-appb-I000001
이고,
Figure PCTKR2020014513-appb-I000002
이고,
Figure PCTKR2020014513-appb-I000003
일 수 있다. 또한,
Figure PCTKR2020014513-appb-I000004
이고,
Figure PCTKR2020014513-appb-I000005
이고,
Figure PCTKR2020014513-appb-I000006
일 수 있다. Xi는 클래스 활성화 맵(CAM)의 실수형 값을 최솟값 및 최댓값을 기준으로 복수의 구간으로 나누었을 때, i번째 구간에 속하는 값들의 개수일 수 있다. 예를 들어, 4 구간(0.4~0.5)에 속하는 CAM의 실수형 값을 모두 구하면 0.44, 0.41, 0.46일 때, X4는 3일 수 있다.
S-CAM 생성부(232)는 복수의 구간 중에서, 가중치 분산 중 최솟값을 가지는 구간을 도출할 수 있다. S-CAM 생성부(232)는 도출된 구간의 클래스 활성화 맵(CAM)을 2진 분류하여 분할 클래스 활성화 맵(S-CAM)을 생성할 수 있다.
예를 들어, 클래스 활성화 맵(CAM)의 최솟값이 0.0이고, 최댓값이 1.0인 경우에 클래스 활성화 맵(CAM)의 0.0부터 1.0까지의 구간을 0.1의 간격으로 나눌 수 있다. 이에 의하여 0.0부터 0.1까지의 제 1 구간, 0.1부터 0.2까지의 제 2 구간 등과 같이 클래스 활성화 맵(CAM)이 총 10개의 구간으로 나눠질 수 있다. 이 경우에 복수의 구간 각각에 대한 가중치 분산이 다음의 표 1과 같이 도출될 수 있다.
Figure PCTKR2020014513-appb-T000001
표 1에서 가중치 분산은 제 4 구간에서 최솟값을 가지는 것으로 나타난다. 따라서, S-CAM 생성부(232)는 제 4 구간의 클래스 활성화 맵(CAM)을 2진 분류하여 분할 클래스 활성화 맵(S-CAM)을 생성할 수 있다.
도 3의 (c)는 S-CAM 생성부(232)에 의하여 생성되는 분할 클래스 활성화 맵(S-CAM)(321, 322, 323)을 예시적으로 나타낸다. 도면 부호 321, 322 및 323은 각각 다른 구간의 클래스 활성화 맵(CAM)을 2진 분류하여 생성된 분할 클래스 활성화 맵(S-CAM)을 나타낸다. 도 3의 (c)을 참조하면, 클래스 활성화 맵(CAM)의 복수의 구간 각각으로부터 생성되는 분할 클래스 활성화 맵(S-CAM)이 다른 것을 확인할 수 있다.
분류 영역 추출부(230)는 분할 클래스 활성화 맵(S-CAM)을 이용하여 분류 영역을 추출할 수 있다.
분류 영역 추출부(230)는 예를 들어, 도 3의 (d)에 도시된 바와 같이 가중치 분산이 최솟값을 가지는 구간의 분할 클래스 활성화 맵(S-CAM)(331)으로부터 분류 영역(332에 박스 표시된 부분)을 추출할 수 있다.
분류 영역 추출부(230)는 입력받은 영상에 복수의 객체가 존재하는 경우에 분할 클래스 활성화 맵(S-CAM)을 이용하여 복수의 객체 각각에 대응하는 복수의 분류 영역을 분리하여 추출할 수 있다.
도 6의 (a)는 가중치 분산이 0.750인 구간의 클래스 활성화 맵(CAM)을 2진 분류하여 생성된 분할 클래스 활성화 맵(S-CAM)이고, 도 6의 (b)는 (a)의 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 도시한다.
도 6의 (c)는 가중치 분산이 0.409인 구간의 클래스 활성화 맵(CAM)을 2진 분류하여 생성된 분할 클래스 활성화 맵(S-CAM)이고, 도 6의 (d)는 (c)의 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 도시한다.
도 6의 (e)는 가중치 분산이 2.280인 구간의 클래스 활성화 맵(CAM)을 2진 분류하여 생성된 분할 클래스 활성화 맵(S-CAM)이고, 도 6의 (f)는 (e)의 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 도시한다.
도 6을 참조하면, 복수의 객체가 포함되는 영상에서 가중치 분산이 최솟값을 가지는 구간인 (c), (d)의 경우에 복수의 객체 각각에 대응하는 복수의 분류 영역이 가장 적절하게 분리해 추출되었다. 즉, 도 4에 도시된, 클래스 활성화 맵(CAM)만을 이용하여 분류 영역을 추출하는 경우 복수의 객체를 분리하지 못하는 문제점이 분할 클래스 활성화 맵(S-CAM)을 이용함으로써 해결된 것을 확인할 수 있다.
도 7의 (a)는 가중치 분산이 0.579인 구간의 클래스 활성화 맵(CAM)을 2진 분류하여 생성된 분할 클래스 활성화 맵(S-CAM)이고, 도 7의 (b)는 (a)의 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 도시한다.
도 7의 (c)는 가중치 분산이 0.345인 구간의 클래스 활성화 맵(CAM)을 2진 분류하여 생성된 분할 클래스 활성화 맵(S-CAM)이고, 도 7의 (d)는 (c)의 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 도시한다.
도 7의 (e)는 가중치 분산이 2.067인 구간의 클래스 활성화 맵(CAM)을 2진 분류하여 생성된 분할 클래스 활성화 맵(S-CAM)이고, 도 7의 (f)는 (e)의 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 도시한다.
도 7을 참조하면, 가중치 분산이 최솟값을 가지는 구간인 (c), (d)의 경우에 객체와 객체가 아닌 부분을 명확하게 구분하여, 노이즈가 없는 가장 적절한 분류 영역이 추출되었다. 즉, 도 5에 도시된, 클래스 활성화 맵(CAM)만을 이용하여 분류 영역을 추출하는 경우 노이즈를 제거하지 못하는 문제점이 분할 클래스 활성화 맵(S-CAM)을 이용함으로써 해결된 것을 확인할 수 있다.
객체 분류부(240)는 추출된 분류 영역에 포함된 객체를 분류할 수 있다. 객체 분류부(240)는 입력받은 영상에 포함된 객체가 하나의 카테고리에 해당하는지 여부를 판단할 수 있다. 객체 분류부(240)는 입력받은 영상에 포함된 객체가 복수의 카테고리 중 어느 하나에 해당하는지 여부를 한 번에 판단할 수 있다.
객체 분류부(240)는 합성곱 신경망(Convolutional Neural Network, CNN) 분류기를 사용하여 객체의 카테고리를 결정할 수 있다. 합성곱 신경망 분류기는 영상의 특징을 추출하는 부분과 객체의 클래스를 판별(분류)하는 부분을 포함할 수 있다.
영상의 특징을 추출하는 부분은 복수의 콘볼루션 레이어(Convolution Layer)와 복수의 풀링 레이어(Pooling Layer)를 포함하고, 객체의 클래스를 판별하는 부분은 이미지 분류를 위한 레이어, 예를 들어 풀리 커넥티드 레이어(Fully Connected Layer)를 포함할 수 있다. CAM 생성부(231)는 각 채널별 판별 레이어의 가중치(w)와 특징 맵(f)을 곱한 값에 기초하여 클래스 활성화 맵(CAM)을 생성하므로(수학식 1 참조), 합성곱 신경망 분류기와 클래스 활성화 맵(CAM)은 콘볼루션 레이어 및 이전 레이어들의 구조가 동일해야 한다.
상술한 바와 같은 구조의 합성곱 신경망 분류기에 대하여, 복수의 카테고리의 객체의 영상을 학습시킬 수 있다. 예를 들어, 합성곱 신경망 분류기에 사람, 자동차, 동물 각각의 영상을 학습시킨 경우, 학습된 합성곱 신경망 분류기는 분류 영역에 포함된 객체를, 각 카테고리에 해당할 확률을 도출하고, 가장 높은 확률값에 기초하여 객체를 분류할 수 있다.
일 실시예에서, 객체 분류부(240)는 분류 영역에 포함된 객체를 사람, 자동차, 동물 중 어느 하나로 판단하여 객체의 카테고리를 결정함으로써 객체를 분류할 수 있다. 다른 실시예에서, 객체 분류부(240)는 분류 영역에 포함된 객체가 복수의 카테고리 중 어느 하나의 카테고리에 해당할 확률을 각각 도출할 수 있다.
예를 들어, 객체 분류부(240)는 도 3의 (e)에 도시된 바와 같은 분류 영역에 포함된 객체가 사람인지 여부를 판단하여, 객체가 사람에 해당할 확률이 98%라고 도출할 수 있다. 이에 따라, 객체를 사람으로 분류할 수 있다.
도 8의 (a) 내지 (d)는 본 발명의 일 실시예에 따른 객체 분류 장치(200)가 하나의 객체에 대한 분류 영역을 추출하는 과정을 예시적으로 나타낸다. 영상 입력부(210)는 도 8의 (a)에 도시된 것과 같은 영상을 입력받을 수 있고, 전경 객체 추출부(220)는 입력받은 영상으로부터 전경 객체를 추출할 수 있다. 분류 영역 추출부(230)는 도 8의 (b)와 같이 분할 클래스 활성화 맵(S-CAM)을 생성하고, 이를 이용하여 도 8의 (c)와 같이 분류 영역을 추출할 수 있다. 객체 분류부(240)는 도 8의 (d)에 나타나는 분류 영역에 포함된 객체를 사람으로 분류할 수 있다.
도 9의 (a) 내지 (d)는 본 발명의 일 실시예에 따른 객체 분류 장치(200)가 복수의 객체에 대한 분류 영역을 추출하는 과정을 예시적으로 나타낸다. 영상 입력부(210)는 도 9의 (a)에 도시된 것과 같이 복수의 객체를 포함하는 영상을 입력받을 수 있고, 전경 객체 추출부(220)는 입력받은 영상으로부터 전경 객체를 추출할 수 있다. 분류 영역 추출부(230)는 도 9의 (b)와 같이 분할 클래스 활성화 맵(S-CAM)을 생성하고, 이를 이용하여 도 9의 (c)와 같이 복수의 객체 각각에 대응하는 복수의 분류 영역을 분리하여 추출할 수 있다. 객체 분류부(240)는 도 9의 (d)에 나타나는 각 분류 영역에 포함된 객체를 각각 사람으로 분류할 수 있다.
도 10의 (a)는 클래스 활성화 맵(CAM)만을 이용하여 추출한 분류 영역을 나타내고, 도 10의 (b)는 분할 클래스 활성화 맵(S-CAM)을 이용하여 추출한 분류 영역을 나타낸다. 예를 들어, 객체 분류부(240)는 도 10의 (a)의 분류 영역에 포함된 객체가 사람일 확률이 56%라고 도출할 수 있으나, 도 10의 (b)의 각 분류 영역에 포함된 객체가 사람일 확률이 98%라고 도출할 수 있다.
객체 분류 장치(200)는 객체 분류부(240)에서 분류한 객체의 메타데이터를 저장하는 저장부(미도시)를 더 포함할 수 있다. 다른 실시예에서, 객체 분류 장치(200)는 객체 분류부(240)에서 분류한 객체의 메타데이터를 외부 장치로 전송할 수 있다.
도 11의 (a) 내지 (c)는 본 발명의 일 실시예에 따른 객체 분류 장치(200)를 이용하여 제공할 수 있는 서비스를 예시적으로 나타낸다.
도 11의 (a)에 도시된 바와 같이, 영상으로부터 객체의 침입 여부를 탐지하는 서비스를 제공하는 데에 객체 분류 장치(200)가 이용될 수 있다. 특정 영역에 움직이는 물체의 위치를 검출하고, 해당 물체가 무엇인지 분류할 수 있다. 복수 개의 카메라를 이용하여 촬영한 영상 또는 실시간 영상에 포함된 객체를 분류할 수 있다. 애완동물, 자동차, 사람 등을 구분하여 침입 여부를 판단할 수 있다.
도 11의 (b)에 도시된 바와 같이, 영상 내에 특정 객체가 존재하는지 여부를 판단하는 서비스를 제공하는 데에 객체 분류 장치(200)가 이용될 수 있다. 예를 들어, 주차장 내부에 존재하는 자동차의 수를 도출하거나, 또는 주차 공간이 있는지 여부를 판단할 수 있다.
도 11의 (c)에 도시된 바와 같이, 영상에 포함되는 객체의 수, 특히 인구 밀집도 등을 파악하는 데에 객체 분류 장치(200)가 이용될 수 있다. 또한, 물, 안개 등 비정형 객체의 밀집도를 검출하는 데에 객체 분류 장치(200)가 이용될 수 있다.
도 12는 본 발명의 일 실시예에 따른 객체 분류 방법의 순서도이다. 도 12에 도시된 장치(200)에서 수행되는 객체를 분류하는 방법(1200)은 도 2에 도시된 실시예에 따라 장치(200)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 2에 도시된 실시예에 따른 장치(200)에서 수행되는 객체를 분류하는 방법에도 적용된다.
단계 S1201에서 장치(200)는 영상을 입력받을 수 있다.
단계 S1202에서 장치(200)는 입력받은 영상으로부터 객체 영역을 추출할 수 있다.
단계 S1203에서 장치(200)는 딥러닝 알고리즘에 기초하여 추출한 객체 영역으로부터 클래스 활성화 맵(CAM, Class Activation Map)을 생성할 수 있다.
단계 S1204에서 장치(200)는 생성된 CAM에 기초하여 분할 CAM을 생성할 수 있다.
단계 S1205에서 장치(200)는 분할 CAM을 이용하여 분류 영역을 추출할 수 있다.
단계 S1206에서 장치(200)는 추출된 분류 영역에서 객체 분류를 수행할 수 있다.
분할 CAM을 생성하는 단계 S1204는, CAM을 분할 처리하여 객체 간 분리 및 노이즈 제거로 객체 추정을 명확히 하는 분할 CAM을 생성할 수 있다.
상술한 설명에서, 단계 S1201 내지 S1206은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
도 1 내지 도 12를 통해 설명된 객체 분류 장치에서 객체를 분류하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 12를 통해 설명된 객체 분류 장치에서 객체를 분류하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (16)

  1. 영상에 포함된 객체를 분류하는 객체 분류 장치에 있어서,
    영상을 입력받는 영상 입력부;
    상기 입력받은 영상으로부터 전경 객체를 추출하는 전경 객체 추출부;
    딥러닝 알고리즘에 기초하여 상기 추출한 전경 객체로부터 분할 클래스 활성화 맵(S-CAM, Segmentation-Class Activation Map)을 생성하고, 상기 S-CAM을 이용하여 분류 영역을 추출하는 분류 영역 추출부; 및
    상기 추출된 분류 영역에 포함된 객체를 분류하는 객체 분류부
    를 포함하는 것인, 객체 분류 장치.
  2. 제 1 항에 있어서,
    상기 분류 영역 추출부는 상기 객체가 분류될 적어도 하나의 카테고리와 대응되는 채널을 이용하여 클래스 활성화 맵(CAM, Class Activation Map)을 생성하는 CAM 생성부를 포함하는 것인, 객체 분류 장치.
  3. 제 2 항에 있어서,
    상기 분류 영역 추출부는 상기 생성된 CAM을 분할 처리하여 상기 S-CAM을 생성하는 S-CAM 생성부를 더 포함하는 것인, 객체 분류 장치.
  4. 제 3 항에 있어서,
    상기 S-CAM 생성부는 상기 CAM을 복수의 구간으로 나누고, 상기 복수의 구간 각각에 대한 가중치 분산을 도출하고, 상기 도출된 가중치 분산 중 최솟값을 가지는 구간을 도출하고, 상기 도출된 구간의 CAM을 2진 분류하여 상기 S-CAM을 생성하는 것인, 객체 분류 장치.
  5. 제 4 항에 있어서,
    상기 S-CAM 생성부는 상기 CAM의 최댓값 및 최솟값을 도출하고, 상기 도출된 최댓값 및 상기 도출된 최솟값 간의 구간을 상기 복수의 구간으로 나누는 것인, 객체 분류 장치.
  6. 제 3 항에 있어서,
    상기 분류 영역 추출부는 상기 입력받은 영상에 복수의 객체가 존재하는 경우에 상기 S-CAM을 이용하여 상기 복수의 객체 각각에 대응하는 복수의 분류 영역을 분리하여 추출하는 것인, 객체 분류 장치.
  7. 제 1 항에 있어서,
    상기 객체 분류부는 상기 분류 영역에 포함된 객체를 사람, 자동차, 동물 중 어느 하나로 판단하여 상기 객체의 카테고리를 결정함으로써 상기 객체를 분류하는 것인, 객체 분류 장치.
  8. 제 1 항에 있어서,
    상기 객체 분류부에서 분류한 객체의 메타데이터를 저장하는 저장부를 더 포함하는 것인, 객체 분류 장치.
  9. 영상에 포함된 객체를 분류하는 객체 분류 방법에 있어서,
    영상을 입력받는 단계;
    상기 입력받은 영상으로부터 객체 영역을 추출하는 단계;
    딥러닝 알고리즘에 기초하여 상기 추출한 객체 영역으로부터 클래스 활성화 맵(CAM, Class Activation Map)을 생성하는 단계;
    상기 생성된 CAM에 기초하여 분할 CAM을 생성하는 단계;
    상기 분할 CAM을 이용하여 분류 영역을 추출하는 단계; 및
    상기 추출된 분류 영역에서 객체 분류를 수행하는 단계
    를 포함하는 것인, 객체 분류 방법.
  10. 제 9 항에 있어서,
    상기 CAM을 생성하는 단계는 상기 객체가 분류될 적어도 하나의 카테고리와 대응되는 채널을 이용하는 것인, 객체 분류 방법.
  11. 제 10 항에 있어서,
    상기 분할 CAM을 생성하는 단계는 상기 CAM을 분할 처리하여 객체 간 분리 및 노이즈 제거로 객체 추정을 명확히 하는 상기 분할 CAM을 생성하는 것인, 객체 분류 방법.
  12. 제 11 항에 있어서,
    상기 분할 CAM을 생성하는 단계는 상기 CAM을 복수의 구간으로 나누는 단계;
    상기 복수의 구간 각각에 대한 가중치 분산을 도출하는 단계;
    상기 도출된 가중치 분산 중 최솟값을 가지는 구간을 도출하는 단계; 및
    상기 도출된 구간의 CAM을 2진 분류하여 상기 분할 CAM을 생성하는 단계를 포함하는 것인, 객체 분류 방법.
  13. 제 11 항에 있어서,
    상기 분류 영역을 추출하는 단계는 상기 입력받은 영상에 복수의 객체가 존재하는 경우에 상기 분할 CAM을 이용하여 상기 복수의 객체 각각에 대응하는 복수의 분류 영역을 분리하여 추출하는 것인, 객체 분류 방법.
  14. 제 9 항에 있어서,
    상기 객체를 분류하는 단계는 상기 분류 영역에 포함된 객체를 사람, 자동차, 동물 중 어느 하나로 판단하여 상기 객체의 카테고리를 결정함으로써 상기 객체를 분류하는 것인, 객체 분류 방법.
  15. 제 9 항에 있어서,
    상기 객체를 분류하는 단계에서 분류한 객체의 메타데이터를 저장하는 단계를 더 포함하는 것인, 객체 분류 방법.
  16. 영상에 포함된 객체를 분류하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
    영상으로부터 객체 영역을 추출하고,
    딥러닝 알고리즘에 기초하여 상기 추출한 객체 영역으로부터 S-CAM(Segmentation-Class Activation Map)을 생성하고,
    상기 S-CAM을 이용하여 영상에 포함된 객체를 분류하도록 하는 명령어들의 시퀀스를 포함하는, 매체에 저장된 컴퓨터 프로그램.
PCT/KR2020/014513 2019-12-20 2020-10-22 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램 WO2021125539A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0172178 2019-12-20
KR1020190172178A KR102566614B1 (ko) 2019-12-20 2019-12-20 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
WO2021125539A1 true WO2021125539A1 (ko) 2021-06-24

Family

ID=76477741

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/014513 WO2021125539A1 (ko) 2019-12-20 2020-10-22 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램

Country Status (2)

Country Link
KR (1) KR102566614B1 (ko)
WO (1) WO2021125539A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152575A (zh) * 2023-04-18 2023-05-23 之江实验室 基于类激活采样引导的弱监督目标定位方法、装置和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101889725B1 (ko) * 2018-07-04 2018-08-20 주식회사 루닛 악성 종양 진단 방법 및 장치
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
US20190370598A1 (en) * 2018-06-05 2019-12-05 Hrl Laboratories, Llc Method and system for detecting change of context in video streams
KR20190136577A (ko) * 2018-05-31 2019-12-10 주식회사 뷰노 심층 신경망을 이용하여 영상을 분류하는 방법 및 이를 이용한 장치
KR20190138434A (ko) * 2018-06-05 2019-12-13 삼성전자주식회사 기계 학습 장치 및 기계 학습 장치의 학습 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
KR20190136577A (ko) * 2018-05-31 2019-12-10 주식회사 뷰노 심층 신경망을 이용하여 영상을 분류하는 방법 및 이를 이용한 장치
US20190370598A1 (en) * 2018-06-05 2019-12-05 Hrl Laboratories, Llc Method and system for detecting change of context in video streams
KR20190138434A (ko) * 2018-06-05 2019-12-13 삼성전자주식회사 기계 학습 장치 및 기계 학습 장치의 학습 방법
KR101889725B1 (ko) * 2018-07-04 2018-08-20 주식회사 루닛 악성 종양 진단 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152575A (zh) * 2023-04-18 2023-05-23 之江实验室 基于类激活采样引导的弱监督目标定位方法、装置和介质

Also Published As

Publication number Publication date
KR20210079922A (ko) 2021-06-30
KR102566614B1 (ko) 2023-08-14

Similar Documents

Publication Publication Date Title
WO2011096651A2 (ko) 얼굴 식별 방법 및 그 장치
US20070292029A1 (en) Cascade plate recognition system
WO2013048159A1 (ko) 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체
WO2021100919A1 (ko) 행동 시퀀스 기반으로 이상행동 여부를 판단하는 방법, 프로그램 및 시스템
US20200364479A1 (en) Face recognition system, method for establishing data of face recognition, and face recognizing method thereof
WO2020027513A1 (ko) 압축영상에 대한 신택스 기반의 영상분석 시스템과 연동 처리 방법
WO2022213540A1 (zh) 目标检测、属性识别与跟踪方法及系统
WO2021040287A1 (ko) 사람 재식별 장치 및 방법
WO2021125539A1 (ko) 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램
WO2022114895A1 (ko) 영상 정보를 활용한 맞춤형 컨텐츠 서비스 제공 시스템 및 방법
Park et al. Robust thermal infrared pedestrian detection by associating visible pedestrian knowledge
WO2021225296A1 (en) Method for explainable active learning, to be used for object detector, by using deep encoder and active learning device using the same
KR101547255B1 (ko) 지능형 감시 시스템의 객체기반 검색방법
Kroneman et al. Accurate pedestrian localization in overhead depth images via Height-Augmented HOG
Asghar et al. Deep learning based effective identification of eu-gdpr compliant privacy safeguards in surveillance videos
WO2022231053A1 (ko) 복수의 동적객체인식 처리가 가능한 다중해상도 영상처리장치 및 방법
WO2017155315A1 (ko) 국부지역별 크기 특정 차량 분류 방법 및 이를 이용한 차량검출방법
Simonyan Hidden and Unknown Object Detection in Video
CN111353438A (zh) 一种基于ai的公共场所应急医疗寻人方法
CN110852203A (zh) 一种基于视频特征学习的多要素可疑人员识别方法
Dammalapati et al. An efficient criminal segregation technique using computer vision
KR20210108018A (ko) 이동경로 기반 객체 매핑 방법 및 장치
WO2019088673A2 (ko) 이미지 분류장치 및 방법
He et al. Dynamic Residual Distillation Network for Face Anti-Spoofing With Feature Attention Learning
WO2023113421A1 (ko) 드론을 통한 딥러닝 기반의 실종자 검출 및 수색 경로 관리 방법 및 이를 수행하는 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20901342

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20901342

Country of ref document: EP

Kind code of ref document: A1