WO2022114731A1 - 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법 - Google Patents

딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법 Download PDF

Info

Publication number
WO2022114731A1
WO2022114731A1 PCT/KR2021/017282 KR2021017282W WO2022114731A1 WO 2022114731 A1 WO2022114731 A1 WO 2022114731A1 KR 2021017282 W KR2021017282 W KR 2021017282W WO 2022114731 A1 WO2022114731 A1 WO 2022114731A1
Authority
WO
WIPO (PCT)
Prior art keywords
abnormal behavior
deep learning
behavior
detection method
image data
Prior art date
Application number
PCT/KR2021/017282
Other languages
English (en)
French (fr)
Inventor
조영임
만교월
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Publication of WO2022114731A1 publication Critical patent/WO2022114731A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to an abnormal behavior detection system and detection method for detecting and recognizing deep learning-based abnormal behavior, and more particularly, to detecting and recognizing abnormal behavior based on deep learning that detects and recognizes abnormal behavior of a moving human body. It relates to a behavior detection system and a detection method.
  • Conventional intelligent video surveillance systems first extract individual humans from an image, track the extracted individuals to obtain a trajectory, and analyze the trajectory to estimate individual human behavior.
  • An object of the present invention to solve the problems of the prior art as described above is to analyze human behavior to detect normal behavior and abnormal behavior from human behavior, It is to provide an abnormal behavior detection system and detection method that can detect and recognize abnormal behavior based on deep learning that can detect and recognize humans performing abnormal behavior with
  • the abnormal behavior detection system for detecting and recognizing abnormal behavior based on deep learning performs a convolution calculation on the image data provided by the photographing unit to measure the behavior of pedestrians.
  • a first step of analyzing characterized in that it includes.
  • the abnormal behavior detection method for detecting and recognizing abnormal behavior based on deep learning performs a convolution calculation on the image data provided by the photographing unit to determine the behavior of pedestrians. a first step of analyzing; and a second step of analyzing the pedestrian's behavior in detail through an Attention Mechanism Model.
  • the convolution operation is performed by a dense convolutional network, and the image data has a 224 ⁇ 22 image size.
  • the RGB 3 channel format of is input to the dense convolutional neural network through feature block processing.
  • the dense convolutional neural network receives each of the input image data It is characterized in that it is input to the transform block and continues the learning process.
  • the feature block and the transform block are a convolution layer and a pooling layer.
  • the attention mechanism model unit includes a channel attention model unit and a special attention model unit (Spatial Attention Model).
  • the attention mechanism model unit is characterized in that the attention performs learning to ignore irrelevant information and focus on key information.
  • the channel attention model unit samples a picture of a point requiring attention in the image, and a behavior image of a pedestrian from the sampled picture characterized by processing.
  • the channel attention model unit is characterized in that it has continuity between specific channels.
  • the special dimension of the input feature map is compressed using a combination of the maximum pooling layer and the average pooling layer to increase the efficiency of channel attention. characterized in that
  • a hidden layer of a multi-layer perceptron is added after two pooling layers to reduce parameter overhead.
  • two descriptors are characterized in that the channel attention map transmitted to the hidden layer is generated.
  • the special attention model unit is characterized in that the analysis is concentrated on the location.
  • the behavior of pedestrians is divided into normal behavior and abnormal behavior through semantic analysis, and the abnormal behavior is classified into unintentional normal behavior and intentional abnormal behavior. It is characterized in that it includes; a fifth step of analyzing as
  • an abnormal behavior detection system for detecting and recognizing a deep learning-based abnormal behavior includes: a receiving unit for receiving input image data; a calculation unit that performs a convolution operation on the image data to analyze a pedestrian's behavior; an attention mechanism model unit for detailed analysis of the pedestrian's behavior; and a semantic analysis unit that classifies the pedestrian's behavior into normal behavior and abnormal behavior through semantic analysis, and analyzes the abnormal behavior into unintentional normal behavior and intentional abnormal behavior; characterized in that it includes a clouding server comprising a.
  • the abnormal behavior detection system for detecting and recognizing abnormal behavior based on deep learning includes: a camera unit for collecting image data of pedestrians in a corresponding area; a resolution adjusting unit for adjusting the resolution of the image data; and a communication unit for transmitting the image data to the clouding server; characterized in that it comprises a photographing unit comprising a.
  • the present invention when human behavior is analyzed to detect normal behavior and abnormal behavior from human behavior, it is possible to detect and recognize genuinely abnormal humans and falsely abnormal behaviors among humans performing abnormal behaviors. It has the effect of detecting and recognizing abnormal behavior based on deep learning.
  • 1 is a block diagram showing a connection structure of complex features in a dense block.
  • Fig. 2 is a block diagram showing the overall architecture of a dense neural network with four blocks.
  • FIG. 3 is a conceptual diagram illustrating an overall concept of an abnormal behavior detection method for detecting and recognizing a deep learning-based abnormal behavior according to an embodiment of the present invention.
  • FIG. 4 is a block diagram showing an overall architecture based on a channel attention model 3D dense convolutional neural network.
  • FIG. 5 is a block diagram illustrating a channel attention module
  • FIG. 6 is a block diagram illustrating a special attention module
  • FIG. 7 is a flow chart showing the flow of the pre-processing step of the abnormal behavior detection system for detecting and recognizing the deep learning-based abnormal behavior according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating an overall flow of an abnormal behavior detection method for detecting and recognizing a deep learning-based abnormal behavior according to an embodiment of the present invention.
  • FIG. 9 is a block diagram showing the overall configuration of an abnormal behavior detection system for detecting and recognizing a deep learning-based abnormal behavior according to an embodiment of the present invention.
  • FIG. 10 is a block diagram illustrating a configuration of a photographing unit in an abnormal behavior detection system for detecting and recognizing a deep learning-based abnormal behavior according to an embodiment of the present invention
  • FIG. 11 is a block diagram illustrating the configuration of a clouding server in an abnormal behavior detection system that detects and recognizes a deep learning-based abnormal behavior according to an embodiment of the present invention.
  • the present invention analyzes human behavior and detects and recognizes normal behavior and abnormal behavior from human behavior. To provide an abnormal behavior detection system and detection method that can detect and recognize deep learning-based abnormal behavior.
  • a component when it is described that a component is "exists in or is connected to" of another component, this component may be directly connected to or installed in contact with another component, and a certain It may be installed spaced apart at a distance, and in the case of being installed spaced apart by a certain distance, a third component or means for fixing or connecting the corresponding component to another component may exist, and now It should be noted that the description of the components or means of 3 may be omitted.
  • moving image comprehension requires a more stable motion function to reflect the dynamic changes that occur in the movie.
  • the descriptor is aggregated into a video-level representation.
  • 1 is a block diagram illustrating a connection structure of complex features in a dense block.
  • a 3D convolutional neural network uses a 3D convolution kernel to extract features from a series of dense RGB frames.
  • the I3D neural network is a two-stream CNN with 3D convolutions dilated in both dense RGB and optical flow sequences. to achieve state-of-the-art performance on kinetic data sets.
  • CNN neural networks classify video by combining spatiotemporal effects, optical flow estimation, and fusion of two streams for behavioral recognition.
  • FIG. 2 is a block diagram showing the overall architecture of a dense neural network with four blocks.
  • a dense convolutional neural network is used as a basic neural network.
  • Dense neural networks directly connect all layers of a neural network using feature maps of the same size, ensuring maximum information flow between layers.
  • Each layer needs information from all previous layers as input, and then passes a feature map.
  • the structure can be confirmed with reference to FIG. 1 .
  • Each layer has direct access to the loss function and gradients from the original input signal, leading to implicit deep monitoring.
  • the dense neural network Due to the dense block layer, the dense neural network has a narrower network and fewer parameters than the ResNet.
  • this connection makes the transmission of features and gradients more efficient and easier to train the network.
  • FIG. 3 is a conceptual diagram illustrating an overall concept of an abnormal behavior detection method for detecting and recognizing a deep learning-based abnormal behavior according to an embodiment of the present invention.
  • a dense convolution network combined with an attention mechanism model unit (Attention Mechanism Model) ) is used.
  • This enhanced model for feature extraction improves the extraction of motion features from image data.
  • FIG. 4 is a block diagram illustrating an overall architecture based on a channel attention model 3D dense convolutional neural network.
  • FIG. 4 it is based on a 3D dense convolutional neural network, and the original neural network is modified by adding an attention model.
  • an effective attention mechanism is used based on a combination of channel attention and special attention.
  • Using deep convolutional neural networks can improve the overall performance of both streaming methods.
  • a 3D dense neural network is formed by using the dense neural network as a main network branch and adding a corresponding 3D module.
  • an attention module is added to the transformation layer between dense blocks to improve the feature recognition effect.
  • a denser dense block can make the neural network deeper and better, but it increases the parameters and complexity of the network.
  • the selected density block is too small, the number of layers of the neural network decreases, affecting the accuracy of the model.
  • Each density block contains several complex functions connected in a Feed-Forward Manner.
  • FIG. 4 For its structure, refer to FIG. 4 .
  • An attention module is added between two adjacent dense blocks to enhance the feature recognition effect.
  • a 2D dense neural network similar to a 3D dense block is used.
  • the complex function H l is the value of all previous (l-1) layers. Receives a 3D feature map as an input.
  • Equation 1 The feature map of H l in the l-th layer is given by Equation 1 below.
  • the spatial size of the feature map is the same.
  • H l is a complex function of the BN-ReLU-3DConv operation.
  • an attention model that combines channel attention and special attention (Spatial Attention) is used.
  • FIG. 5 is a block diagram illustrating a channel attention module.
  • the channel attention map is a map utilizing the inter-channel relationship of features.
  • the structure can be confirmed with reference to FIG. 5 .
  • each channel in the feature map is considered a feature detector, the channel attention focuses on a meaningful 'What' given in the input image.
  • the special dimension of the input feature map is compressed.
  • the average pooling and maximum pooling features are used simultaneously.
  • Mc which is a channel attention map.
  • the channel attention is calculated by the following Equation (2).
  • FIG. 6 is a block diagram illustrating a special attention module.
  • the special attention map generates a special attention map by using the relationship between specials of features.
  • the structure can be confirmed with reference to FIG. 6 .
  • a convolution layer is applied to the connected feature descriptor to generate a special attention map, Ms(F).
  • Equation 3 the special attention is calculated by Equation 3 below.
  • sigmoid function denotes a convolution operation with a filter size of 7 ⁇ 7.
  • the two attention modules Channel and Special, calculate complementary attention by focusing on 'what' and 'where', respectively.
  • two modules can be arranged in parallel or sequentially.
  • FIG. 7 is a flowchart illustrating a flow of a pre-processing step of an abnormal behavior detection system for detecting and recognizing a deep learning-based abnormal behavior according to an embodiment of the present invention.
  • image data of a pedestrian in the corresponding area is collected by the photographing unit 100 .
  • the resolution of the image data is adjusted.
  • the image data is transmitted to the clouding server 200.
  • the photographing unit 100 adjusts the resolution of the photographed data, and then provides it to the clouding server 200 .
  • FIG. 8 is a flowchart illustrating an overall flow of an abnormal behavior detection method for detecting and recognizing a deep learning-based abnormal behavior according to an embodiment of the present invention.
  • an abnormal behavior detection method for detecting and recognizing an abnormal behavior based on deep learning includes five steps.
  • the behavior of the pedestrian is analyzed by performing a convolution calculation on the image data provided by the photographing unit 100 .
  • the convolution operation is performed by a dense convolutional network, and image data is input to the dense convolutional neural network in RGB 3-channel format with a 224 ⁇ 22 image size through feature block processing.
  • the convolutional neural network is a kind of multilayer feed-forward artificial neural network used to analyze visual images.
  • It is classified as a deep neural network in deep learning, and is mainly applied to visual image analysis.
  • SIANNs mutagenic or spatially invariant artificial neural networks
  • a convolutional neural network is a normalized version of a multilayer perceptron.
  • a multilayer perceptron is usually a fully connected network, i.e. a neural network structure in which each neuron in one layer connects to all neurons in the next layer.
  • connection structure of the convolutional neural network is extremely low compared to multilayer perceptrons with similar functions.
  • Convolutional neural networks are inspired by the fact that the pattern of connections between neurons resembles the organization of the animal visual cortex.
  • the receptive fields of different neurons partially overlap to see the entire field of view.
  • Image classification using a convolutional neural network uses relatively little preprocessing compared to other image classification algorithms.
  • the main advantage of a convolutional neural network is that there is no process in which the designer understands the characteristics of the image in advance and creates the algorithm in the existing image classification algorithm.
  • a convolutional neural network is largely composed of a convolution layer and a pooling layer.
  • the behavior of the pedestrian is analyzed in detail through the attention mechanism model unit (Attention Mechanism Model: 230).
  • the dense convolutional neural network When each image data is input to the dense convolutional neural network, the dense convolutional neural network connects each input image data and is input to a transform block to continue the learning process.
  • the feature block and the transform block may be a convolution layer and a pooling layer.
  • the attention mechanism model unit 230 includes a channel attention model unit (Channel Attention Model: 231) and a special attention model unit (Spatial Attention Model: 232).
  • the attention mechanism model unit 230 performs learning such that the attention ignores irrelevant information and concentrates on the core information.
  • a general convolution operation uses only local information, but the channel attention module applies global average pooling (GAP) to make use of non-local information as well.
  • GAP global average pooling
  • the channel attention model unit 231 samples a picture of a point requiring attention in the image, and the behavior of a pedestrian from the sampled picture process the image.
  • Such a channel attention model unit 231 has continuity between specific channels.
  • the special dimension of the input feature map is compressed using a combination of the maximum pooling layer and the average pooling layer to increase the efficiency of channel attention.
  • a hidden layer of a multi-layer perceptron can be added to reduce parameter overhead.
  • the abnormal behavior detection method for detecting and recognizing the deep learning-based abnormal behavior according to the present invention, two descriptors are characterized in that the channel attention map transmitted to the hidden layer is generated.
  • the fourth step ( S400 ) it is analyzed whether the pedestrian's behavior is normal through the channel attention model unit 231 related to the special attention model unit 232 .
  • the special attention model unit 232 analyzes by focusing on the location.
  • the pedestrian's behavior is divided into normal behavior and abnormal behavior through semantic analysis, and the abnormal behavior is analyzed into unintentional normal behavior and intentional abnormal behavior.
  • FIG. 9 is a block diagram illustrating the overall configuration of an abnormal behavior detection system for detecting and recognizing a deep learning-based abnormal behavior according to an embodiment of the present invention.
  • the abnormal behavior detection system 1000 for detecting and recognizing deep learning-based abnormal behavior includes a photographing unit 100 and a clouding server 200 .
  • the photographing unit 100 provides the photographed image data to the clouding server 200 so that an unspecified number of humans can be extracted by analyzing the image data photographed through a camera, etc., and whether there is an abnormal behavior by analyzing the behavior perform the role
  • the clouding server 200 performs a role of analyzing the image data provided from the photographing unit 100 to extract a large number of unspecified humans and analyzing the behavior to analyze whether there is an abnormal behavior.
  • FIG. 10 is a block diagram showing the configuration of a photographing unit in the abnormal behavior detection system for detecting and recognizing abnormal behavior based on deep learning according to an embodiment of the present invention.
  • the photographing unit 100 includes a camera unit 110 , a resolution adjusting unit 120 , and a communication unit. (130).
  • the camera unit 110 serves to collect image data of pedestrians in the corresponding area.
  • the resolution adjusting unit 120 serves to adjust the resolution of the image data captured and collected by the camera unit 110 .
  • the communication unit 130 serves to transmit the image data whose resolution is adjusted by the resolution adjustment unit 120 to the clouding server 200 .
  • FIG. 11 is a block diagram illustrating the configuration of a clouding server in an abnormal behavior detection system that detects and recognizes a deep learning-based abnormal behavior according to an embodiment of the present invention.
  • the clouding server 200 includes a receiving unit 210 , a calculating unit 220 , and an attention mechanism model unit. 230 , a semantic analysis unit 240 , and an output unit 250 .
  • the receiving unit 210 serves to receive the image data photographed by the photographing unit 100 by the communication unit 130 .
  • the receiving unit 210 receives input image data.
  • the calculator 220 analyzes the behavior of the pedestrian by performing a convolution operation on the image data received by the receiver 210 .
  • the attention mechanism model unit 230 performs a role of detailed analysis of the pedestrian's behavior.
  • the attention mechanism model of the attention mechanism model unit 230 performs learning so that the attention ignores irrelevant information and concentrates on the core information.
  • the attention mechanism model unit 230 includes a channel attention model unit 231 and a special attention model unit 232 .
  • the channel attention model of the channel attention model unit 231 analyzes whether the pedestrian's behavior is normal in the image data as a time period.
  • the channel attention model of the channel attention model unit 231 samples a picture of a point requiring attention in such an image, and processes a behavior image of a pedestrian from the sampled picture.
  • the channel attention model of the channel attention model unit 231 has continuity between specific channels.
  • the special attention model unit 232 analyzes whether the pedestrian's behavior is normal through the channel attention model.
  • the special attention model unit 232 performs analysis by focusing on the location.
  • the semantic analysis unit 240 classifies the pedestrian's behavior into a normal behavior and an abnormal behavior through semantic analysis, and analyzes the abnormal behavior into an unintentional normal behavior and an intentional abnormal behavior.
  • the output unit 250 serves to output the final result data on which the semantic analysis is performed by the semantic analysis unit 240 .
  • the present invention analyzes human behavior and detects and recognizes normal behavior and abnormal behavior from human behavior. Deep learning-based abnormal behavior can be detected and recognized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 목적은 인간의 행동을 분석하여 인간의 행동으로부터 정상 행동과 비정상 행동을 탐지시, 비정상 행동을 행하는 인간 중 진실로 비정상 행동을 행하는 인간과, 거짓으로 비정상 행동을 행하는 인간들을 탐지하여 인식할 수 있는 딥러닝 기반 비정상 행동을 탐지하여 인식할 수 있는 비정상 행동 탐지 시스템 및 탐지 방법을 제공하는 것이다. 상기 목적을 달성하기 위해, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템은, 촬영부에 의해 제공된 영상 데이터에 대한 컨볼루션 연산(Convolution Calculation)을 수행하여 보행자의 행동을 분석하는 제 1 단계;를 포함하는 것을 특징으로 한다.

Description

딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법
본 발명은 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법에 관한 것으로, 더욱 상세하게는 동작하는 인체의 비정상적인 행동을 탐지하여 인식하는 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법에 관한 것이다.
대규모 CCTV 시스템의 경우, 수십 개에서 수백 개에 이르는 영상들을 관리 요원들이 모니터링하여야 하므로 대단히 많은 인원이 소요되면서도 감시 요원의 집중력 저하나 피로, 임의적인 판단에 따라 중요한 상황을 놓치는 경우가 종종 있을 뿐 아니라, 엄청난 시간의 영상을 저장하는 문제에서도 곤란한 점이 많다.
따라서, 공공 장소를 감시하기 위해 CCTV 카메라로 공공 장소를 촬영하고 자동으로 영상을 분석하여 불특정 다수의 인간들을 추출하고 행동을 분석하여 비정상적인 행동이 감지될 경우 자동으로 관리자에게 경고하거나 그 밖의 연계된 자동화 시스템에 정보를 전달하는 지능형 영상 감시 시스템에 대한 요구가 점점 커지고 있다.
종래의 지능형 영상 감시 시스템들은 먼저 영상으로부터 개별적인 인간들을 추출하고 추출된 개별 인간들을 추적하여 궤적을 획득하며, 궤적을 분석하여 개별 인간의 행동을 추정한다.
이어서, 인간의 추정된 행동이 정상적인지 아닌지 여부가 분석된다.
이러한 종래의 시스템들은 인간의 추출, 추적, 궤적 분석 및 행동 추정 단계를 거치면서 대단히 많은 연산이 필요하고 오류도 적지 않다.
예를 들어, 광장이나 공원, 기차역, 운동장 등 군중들이 밀집하는 곳을 감시하는 경우에, 종래의 지능형 영상 감시 시스템들로써 오브젝트들을 추출하고 분석하는 것은 용이하지 않다.
특히, 인간의 행동으로부터 정상 행동과 비정상 행동을 탐지시, 비정상 행동을 행하는 인간 중 진실로 비정상 행동을 행하는 인간과, 거짓으로 비정상 행동을 행하는 인간들을 탐지하여 인식하기가 용이하지 않은 문제점이 있었다.
상기한 바와 같은 종래의 문제점을 해결하기 위한 본 발명의 목적은 인간의 행동을 분석하여 인간의 행동으로부터 정상 행동과 비정상 행동을 탐지시, 비정상 행동을 행하는 인간 중 진실로 비정상 행동을 행하는 인간과, 거짓으로 비정상 행동을 행하는 인간들을 탐지하여 인식할 수 있는 딥러닝 기반 비정상 행동을 탐지하여 인식할 수 있는 비정상 행동 탐지 시스템 및 탐지 방법을 제공하는 것이다.
상기 목적을 달성하기 위해, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템은, 촬영부에 의해 제공된 영상 데이터에 대한 컨볼루션 연산(Convolution Calculation)을 수행하여 보행자의 행동을 분석하는 제 1 단계;를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위해, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법은, 촬영부에 의해 제공된 영상 데이터에 대한 컨볼루션 연산(Convolution Calculation)을 수행하여 보행자의 행동을 분석하는 제 1 단계; 및 어텐션 매커니즘 모델부(Attention Mechanism Model)를 통해 상기 보행자의 행동을 상세 분석하는 제 2 단계;를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 상기 컨볼루션 연산은 덴스 콘볼루션 신경망(Dense Convolutional Network)에 의해 수행되며, 상기 영상 데이터가 224 × 22 이미지 크기의 RGB 3 채널 형식이 특징 블록 처리를 통해 상기 덴스 콘볼루션 신경망에 입력되는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 각각의 상기 영상 데이터가 상기 덴스 콘볼루션 신경망에 입력되면, 상기 덴스 콘볼루션 신경망은 입력된 각각의 상기 영상 데이터를 이어맞추고 변환 블록으로 입력되어 학습 처리를 지속하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 상기 특징 블록과, 상기 변환 블록은 콘볼루션 레이어(Convolution Layer) 및 풀링 레이어(Pooling Layers)인 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 상기 어텐션 매커니즘 모델부는 채널 어텐션 모델부(Channel Attention Model)와, 스페셜 어텐션 모델부(Spatial Attention Model)를 포함하며, 상기 어텐션 매커니즘 모델부는 어텐션이 관련없는 정보를 무시하고 핵심 정보에 집중하도록 학습을 수행하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 상기 채널 어텐션 모델부를 통해 상기 영상 데이터에서 보행자의 행동의 정상 여부를 타임 페리어드로 분석하는 제 3 단계;를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 상기 채널 어텐션 모델부는 상기 영상에서 어텐션이 요구되는 지점의 사진을 샘플링하고, 샘플링된 사진으로부터 보행자의 행동 이미지를 처리하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 상기 채널 어텐션 모델부는 특정 채널 사이의 연속성을 갖는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 최대 풀링 레이어와 평균 풀링 레이어의 조합을 사용하여 입력 특성 맵의 스페셜 차원을 압축하여 채널 어텐션의 효율을 증가시키는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 2개의 풀링 레이어 뒤에 다층 퍼셉트론(Perceptron)의 히든층이 추가되어 매개 변수의 오버 헤드를 감소시키는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 2개의 디스크립터(Descriptor)는 히든층으로 전송된 채널 어텐션 맵을 생성하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 스페셜 어텐션 모델부와 관련된 상기 채널 어텐션 모델부를 통해 상기 보행자의 행동의 정상 여부에 대해 분석하는 제 4 단계;를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 상기 스페셜 어텐션 모델부는 위치에 집중하여 분석하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 의미 분석을 통해 보행자의 행동을 정상 행동과 비정상 행동으로 구분하고, 비정상 행동을 비의도적 정상 행동과 의도적 비정상 행동으로 분석하는 제 5 단계;를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 상기 제 1 단계 이전에, 촬영부에 의해 해당 지역 보행자의 영상 데이터를 수집하는 제 1 전처리 단계; 상기 영상 데이터의 해상도를 조정하는 제 2 전처리 단계; 및 상기 영상 데이터를 클라우딩 서버로 전송하는 제 3 전처리 단계;를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위해, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템은, 입력되는 영상 데이터를 수신하는 수신부; 상기 영상 데이터에 대한 컨볼루션 연산을 수행하여 보행자의 행동을 분석하는 연산부; 상기 보행자의 행동을 상세 분석하는 어텐션 매커니즘 모델부; 및 의미 분석을 통해 보행자의 행동을 정상 행동과 비정상 행동으로 구분하고, 비정상 행동을 비의도적 정상 행동과 의도적 비정상 행동으로 분석하는 의미 분석부;를 포함하는 클라우딩 서버를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템은, 해당 지역 보행자의 영상 데이터를 수집하는 카메라부; 상기 영상 데이터의 해상도를 조정하는 해상도 조정부; 및 상기 영상 데이터를 클라우딩 서버로 전송하는 통신부;를 포함하는 촬영부를 포함하는 것을 특징으로 한다.
기타 실시 예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시 예를 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 각 실시 예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시 예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.
본 발명에 의하면, 인간의 행동을 분석하여 인간의 행동으로부터 정상 행동과 비정상 행동을 탐지시, 비정상 행동을 행하는 인간 중 진실로 비정상 행동을 행하는 인간과, 거짓으로 비정상 행동을 행하는 인간들을 탐지하여 인식할 수 있는 딥러닝 기반 비정상 행동을 탐지하여 인식할 수 있는 효과가 있다.
도 1은 덴스 블록에서 복합 특징의 연결 구조를 나타내는 블록도.
도 2는 4개의 블록이 있는 덴스 신경망의 전체 아키텍처를 나타내는 블록도.
도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법의 전체 개념을 나타내는 개념도.
도 4는 채널 어텐션 모델 3D 덴스 컨볼루션 신경망에 기반한 전체 아키텍처를 나타내는 블록도.
도 5는 채널 어텐션 모듈을 나타내는 블록도.
도 6은 스페셜 어텐션 모듈을 나타내는 블록도.
도 7은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템의 전처리 단계의 흐름을 나타내는 플로우 차트.
도 8은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법의 전체 흐름을 나타내는 플로우 차트.
도 9는 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템의 전체 구성을 나타내는 블록도.
도 10은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템에서 촬영부의 구성을 나타내는 블록도.
도 11은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템에서 클라우딩 서버의 구성을 나타내는 블록도.
본 발명은 인간의 행동을 분석하여 인간의 행동으로부터 정상 행동과 비정상 행동을 탐지시, 비정상 행동을 행하는 인간 중 진실로 비정상 행동을 행하는 인간과, 거짓으로 비정상 행동을 행하는 인간들을 탐지하여 인식할 수 있는 딥러닝 기반 비정상 행동을 탐지하여 인식할 수 있는 비정상 행동 탐지 시스템 및 탐지 방법을 제공하는 것이다.
본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있고, 더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.
즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시 예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니며, 이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.
또한, 본 명세서에서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있으며, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.
본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.
더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"라고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있고, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결하기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있으며, 이 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.
반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.
마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어가, 사용된다면, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용되며, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.
또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어가, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 하며, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니된다.
또한, 본 명세서에서는 각 도면의 각 구성 요소에 대해서 그 도면 부호를 명기함에 있어서, 동일한 구성 요소에 대해서는 이 구성 요소가 비록 다른 도면에 표시되더라도 동일한 도면 부호를 가지고 있도록, 즉 명세서 전체에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지시하고 있다.
본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.
또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대해 상세한 설명은 생략될 수도 있다.
이하, 본 발명의 실시 예에 대해 관련 도면들을 참조하여 상세히 설명하기로 한다.
최근 몇 년 동안 딥 러닝의 발전과 함께 동영상에서 동작 인식이 주목받고 있다.
강력한 기능은 감시, 로봇 공학, 의료, 비디오 검색, 가상 현실 및 인간-컴퓨터 상호 작용과 같은 다수의 애플리케이션에서 입증되었다.
정적 이미지 이해와 달리 동영상 이해에는 동영상에서 발생하는 동적 변화를 반영하기 위해 보다 안정적인 동작 기능이 필요하다.
행위 인식을 수작업과 딥 러닝 기반 방법의 두 가지 카테고리로 간략하게 나누었습니다. 수작업의 표현 학습 방법에서는, 일반적으로 시공간적 관심 지점을 감지하고, 이러한 지점을 STIP(Space-Time Interest Points), 그래디언트 히스토그램 및 광학 흐름의 히스토그램, 그래디언트의 3D 히스토그램, 최첨단 수공예 방법의 밀도 궤적(iDT)과 같은 로컬 표현으로 설명한다.
덴스 궤적을 따라 풍부한 디스크립터를 풀링하여 움직임 특징을 명시적으로 고려하고 카메라 모션을 보정다.
이후, 인코딩 방법에 의해, 디스크립터가 비디오 수준 표현으로 집계된다.
도 1은 덴스 블록에서 복합 특징의 연결 구조를 나타내는 블록도이다.
도 1을 참조하면, 최근 몇 년 동안 심층 학습, 특히 CNN 신경망의 출현과 강력하고 우수한 처리 능력의 출현으로, 점점 더 많은 CNN 신경망을 사용하여 비디오에서 행동 인식에 대한 연구가 이루어지고 있다.
예를 들어, 3D 컨볼루션 신경망(C3D)은 3D 컨볼루션 커널을 사용하여 일련의 덴스 RGB 프레임에서 특징을 추출한다.
활동 인식을 위한 정보를 추출하기 위해 서로 다른 시간 세그먼트에 대한 TSN(Temporal Segment Networks) 샘플 프레임 및 광학 흐름에서, I3D 신경망은 덴스 RGB 및 광학 흐름 시퀀스 모두에서 팽창된 3D 컨볼루션이 있는 2개의 스트림 CNN을 사용하여 카이네틱(Kinetics) 데이터 세트에서 최첨단 성능을 달성한다.
그리고 최근에 널리 사용되는 CNN 신경망에서는 행동 인식에 대해 시공간 효과, 광학 흐름 추정, 두 스트림 융합을 결합하여 비디오를 분류한다.
또한 전이 학습을 사용하여 사전 훈련된 네트워크 모델을 추가하면 양식 내에서 또는 양식간에 지식을 전달하는 것이 효과적이며 성능이 크게 향상된다.
도 2는 4개의 블록이 있는 덴스 신경망의 전체 아키텍처를 나타내는 블록도이다.
도 2를 참조하면, 딥 러닝 신경망에서, 신경망 깊이가 깊어짐에 따라 그래디언트 소멸 문제가 점점 더 분명해질 것이다.
본 발명에서는 덴스 컨벌루션 신경망을 기본 신경망으로 사용한다.
덴스 신경망은 동일한 크기의 특징 맵을 사용하여 신경망의 모든 레이어를 직접 연결하여 레이어 간의 최대 정보 흐름을 보장한다.
각 레이어는 입력으로 모든 이전 레이어의 정보를 필요로 하며, 그 후 특징 맵을 전달한다.
그 구조는 도 1을 참조하여 확인할 수 있다.
기존의 컨볼루션 신경망에서 L 레이어가 있으면 L 연결이 있지만, 덴스 신경망에서는 L(L + 1) / 2 연결이 있다.
각 레이어는 손실 함수과 오리지널 입력 신호로부터 그래디언트에 직접 액세스할 수 있어, 묵시적인 심층 감시로 리드할 수 있다.
입력 근처 레이어와 출력 근처 레이어 간의 연결이 짧을수록 컨볼루션 신경망은 더 깊고 정확하며 효과적일 수 있다.
덴스 블록 레이어로 인해 덴스 신경망은 레스 신경망(ResNet)보다 좁은 네트워크와 적은 매개 변수를 가진다.
동시에, 이 연결은 특징과 기울기의 전송을 더 효율적으로 만들고 네트워크를 훈련하기 더 용이하다.
오리지널 덴스 신경망 프레임 워크의 표준 변환 레이어를 대체하고, 컨볼루션 후 특징 영역에 집중하고, 신경망 훈련 매개 변수를 감소시키고, 더 나은 결과를 획득할 수 있도록 어텐션 모델을 추가한다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법의 전체 개념을 나타내는 개념도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서는, 어텐션 매커니즘 모델부(Attention Mechanism Model)와 결합된 덴스 콘볼루션 신경망(Dense Convolution Network)을 이용한다.
단일 어텐션 매커니즘 모델부의 경우 정보량이 많은 영상 정보의 움직임 특징을 추출하는데 효과적이지 않다.
따라서, 시간과 공간의 이중 채널 어텐션 모델부(Channel Attention Model)를 채택하여 이용한다.
특징 추출을 위해 이와 같이 강화된 모델은 영상 데이터에서 움직임 특징의 추출을 개선한다.
도 4는 채널 어텐션 모델 3D 덴스 컨볼루션 신경망에 기반한 전체 아키텍처를 나타내는 블록도이다.
도 4를 참조하면, 3D 덴스 컨볼루션 신경망을 기반으로 하며, 어텐션 모델을 추가하여 오리지널 신경망를 수정한다.
어텐션 모델에서, 채널 어텐션과, 스페셜 어텐션의 조합을 기반으로 효과적인 어텐션 매커니즘을 이용한다.
- 3D 덴스 신경망 -
딥 컨볼루션 신경망을 사용하면 양쪽의 스트리밍 방법의 전반적인 성능을 향상시킬 수 있다.
본 발명에서는 덴스 신경망을 주요 네트워크 분기(Branch)로 사용하고 대응하는 3D 모듈을 추가하여 3D 덴스 신경망을 형성한다.
오리지널 3D 덴스 네트워크를 기반으로 덴스 블록 사이의 변환 레이어에, 어텐션 모듈을 추가하여 특징 인식 효과를 향상시킨다.
그리고 조밀하게 연결된 다중 덴스 블록을 가져온다.
더욱 밀집된 덴스 블록은 신경망을 더 깊고 더 양호하게 할 수 있지만, 네트워크의 매개 변수와 복잡성을 증가시킨다.
반대로 선택된 덴스 블록이 너무 작을 경우, 신경망의 레이어 수가 감소하여 모델의 정확도에 영향을 미친다.
본 발명에서는 일례로 4개의 덴스 블록을 사용한다.
각 덴스 블록은 피드 포워드 방식(Feed-Forward Manner)으로 연결된 여러 복합 함수가 포함되어 있다.
그 구조는 도 4를 참조하도록 한다.
어텐션 모듈은 특징 인식 효과를 높이기 위해 인접한 2개의 덴스 블록 사이에 추가된다.
본 신경망에서, 3D 덴스 블록과 유사한 2D 덴스 신경망을 사용한다.
이는 어떤 레이어의 3D 출력을 3D 덴스 블록의 모든 후속 레이어에 직접 연결한다.
l번째 레이어에서 복합 함수 Hl은 모든 이전 (l-1) 레이어의
Figure PCTKR2021017282-appb-img-000001
3D 특징 맵(Map)을 입력으로 수신한다.
l번째 레이어에서 Hl의 특징 맵은 하기 수학식 1로 주어진다.
[수학식 1]
Figure PCTKR2021017282-appb-img-000002
여기서,
Figure PCTKR2021017282-appb-img-000003
는 특징 맵과 연결되도록 표시된다.
Figure PCTKR2021017282-appb-img-000004
특징 맵의 공간 사이즈는 동일하다.
Hl은 BN-ReLU-3DConv 연산의 복합 함수이다.
- 어텐션 모델 -
어텐션은 인간의 지각에 중요한 역할을 한다.
최근 몇 년 동안, 이미지 인식에 탁월하였다.
어텐션 매커니즘은 원하는 결과를 더 잘 캡처하기 위해 특정 영역에 선택적 초점을 사용하기 때문에, 비디오 인식 작업에 어텐션 매커니즘을 적용한다.
어텐션 모델에서는, 채널 어텐션과 스페셜 어텐션(Spatial Attention)을 결합한 어텐션 모델을 사용한다.
- 채널 어텐션 모듈 -
도 5는 채널 어텐션 모듈을 나타내는 블록도이다.
도 5를 참조하면, 채널 어텐션 맵은 특징의 채널간 관계를 활용하는 맵이다.
그 구조는 도 5를 참조하면 확인할 수 있다.
특징 맵의 각 채널은 특징 탐지기로 고려되므로, 채널 어텐션은 입력 이미지에서 주어진 의미있는 '무엇(What)'에 초점을 맞춘다.
채널 어텐션을 효율적으로 계산하기 위해, 입력 특징 맵의 스페셜 차원을 압축한다.
이때, 평균 풀링과 최대 풀링 특징을 동시에 사용한다.
평균 풀링 특징인
Figure PCTKR2021017282-appb-img-000005
와, 최대 풀링 특징인
Figure PCTKR2021017282-appb-img-000006
의 두 가지 다른 스페셜 컨텍트 디스크립터(Descriptor)를 생성하여, 양쪽 특징을 모두 활용하면 신경망의 표현력이 크게 향상된다.
두 개의 풀링 레이어 뒤에, 다층 퍼셉트론(Multilayer Perceptron)의 히든층이 추가되어 매개 변수의 오버 헤드를 감소시킨다.
두 개의 디스크립터는 히든층으로 전송된 다음 채널 어텐션 맵인 Mc를 생성한다.
요컨대, 채널 어텐션은 하기 수학식 2로 계산된다.
[수학식 2]
Figure PCTKR2021017282-appb-img-000007
(2)
여기서,
Figure PCTKR2021017282-appb-img-000008
는 시그모이드 함수(Sigmoid Function)이다.
- 스페셜 어텐션 모듈(Spatial Attention Model) -
도 6은 스페셜 어텐션 모듈을 나타내는 블록도이다.
도 6을 참조하면, 스페셜 어텐션 맵은 특징의 스페셜 간 관계를 활용하여 스페셜 어텐션 맵을 생성한다.
그 구조는 도 6을 참조하여 확인할 수 있다.
채널 어텐션과 달리, 스페셜 어텐션은 채널 어텐션을 보완하는 정보 부분인 '어디(Where)'에 초점을 맞춘다.
우선 채널축을 따라 평균 풀링 및 최대 풀링 연산을 적용하고, 이를 연결하여 효율적인 특징 디스크립터를 생성한다.
연결된 특징 디스크립터에, 컨볼루션 레이어를 적용하여 스페셜 어텐션 맵인 Ms(F)를 생성합니다.
다음, 평균 풀링 및 최대 풀링을 사용하여 두 개의 풀링 특징
Figure PCTKR2021017282-appb-img-000009
을 획득하고, 두 개의 풀링은 특징 맵의 채널 정보 연산을 집계하여 두 개의 2D 맵을 생성한다.
이후, 표준 컨볼루션 레이어에 의해 연결되고 컨볼루션되어 2D 스페셜 어텐션 맵이 생성된다.
요컨대, 스페셜 어텐션은 하기 수학식 3으로 계산된다.
[수학식 3]
Figure PCTKR2021017282-appb-img-000010
(3)
여기서,
Figure PCTKR2021017282-appb-img-000011
는 시그모이드 함수이고,
Figure PCTKR2021017282-appb-img-000012
은 필터 크기가 7 × 7 사이즈를 갖는 컨볼루션 연산을 나타낸다.
채널과 스페셜이라는 두 개의 어텐션 모듈은 각각 '무엇'과 '어디'에 초점을 맞추어 보완 어텐션을 계산한다.
이를 고려하여 두 개의 모듈을 병렬 또는 순차적으로 배치할 수 있다.
본 발명에서, 채널 어텐션과 스페셜 어텐션을 결합하기 위해 연결 접근법을 사용하는데, 이는 병렬보다 더 나은 효과를 가진다.
도 7은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템의 전처리 단계의 흐름을 나타내는 플로우 차트이다.
본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 촬영부(100)에 의해 제공된 영상 데이터에 대한 컨볼루션 연산(Convolution Calculation)을 수행하여 보행자의 행동을 분석하는 제 1 단계 이전에, 3개의 전처리 단계를 포함한다.
제 1 전처리 단계(S10)에서는, 촬영부(100)에 의해 해당 지역 보행자의 영상 데이터를 수집한다.
제 2 전처리 단계(S20)에서는, 영상 데이터의 해상도를 조정한다.
제 3 전처리 단계(S30)에서는, 영상 데이터를 클라우딩 서버(200)로 전송한다.
이와 같은 전처리 단계에 의해, 촬영부(100)는 촬영한 데이터의 해상도를 조정한 후, 클라우딩 서버(200)에 제공하게 된다.
도 8은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법의 전체 흐름을 나타내는 플로우 차트이다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법은 5개의 단계를 포함한다.
제 1 단계(S100)에서는, 촬영부(100)에 의해 제공된 영상 데이터에 대한 컨볼루션 연산(Convolution Calculation)을 수행하여 보행자의 행동을 분석한다.
여기서, 컨볼루션 연산은 덴스 콘볼루션 신경망(Dense Convolutional Network)에 의해 수행되며, 영상 데이터가 224 × 22 이미지 크기의 RGB 3 채널 형식이 특징 블록 처리를 통해 덴스 콘볼루션 신경망에 입력된다.
여기서, 콘볼루션 신경망은 시각적 영상을 분석하는데 사용되는 다층의 피드-포워드적인 인공 신경망의 한 종류이다.
딥 러닝에서 심층 신경망으로 분류되며, 시각적 영상 분석에 주로 적용된다.
또한, 공유 가중치 구조와 변환 불변성 특성에 기초하여 변이 불변 또는 공간 불변 인공 신경망(SIANN)으로도 알려져 있다.
영상 및 동영상 인식, 추천 시스템, 영상 분류, 의료 영상 분석 및 자연어 처리 등에 응용된다.
콘볼루션 신경망은 정규화된 버전의 다층 퍼셉트론이다.
다층 퍼셉트론은 일반적으로 완전히 연결된 네트워크, 즉 한 계층의 각 뉴런이 다음 계층의 모든 뉴런에 연결되는 신경망 구조이다.
이와 같이 네트워크가 완전 연결된 경우 주어진 데이터에 과적합 되는 경향이 있다.
일반적인 정규화를 위해 최적화 함수에 특정 척도를 추가하는 방법이 흔이 쓰이지만, 콘볼루션 신경망 정규화를 위한 다른 접근 방식을 취한다.
데이터에서 계층적 패턴을 활용하고 더 작고 간단한 패턴을 사용하여 더 복잡한 패턴을 표현함으로써 정규화와 같은 효과를 내는 것이다.
따라서, 콘볼루션 신경망의 연결 구조의 복잡성은 유사한 기능의 다층 퍼셉트론에 비해 극단적으로 낮다.
콘볼루션 신경망은 뉴런 사이의 연결 패턴이 동물 시각 피질의 조직과 유사하다는 점에 영감을 받았다.
개별 피질 뉴런은 수용장(receptive field)으로 알려진 시야의 제한된 영역에서만 자극에 반응한다.
상이한 뉴런의 수용 필드는 전체 시야를 볼 수 있도록 부분적으로 중첩된다.
콘볼루션 신경망을 이용한 영상 분류는 다른 영상 분류 알고리즘에 비해 상대적으로 전처리를 거의 사용하지 않는다.
이는 신경망이 기존 알고리즘에서 수작업으로 제작된 필터를 학습한다는 것을 의미한다.
기존 영상 분류 알고리듬에서 설계자가 영상의 특징들을 미리 이해해 알고리듬을 만드는 과정이 없는 것이 합성곱 신경망의 주요한 장점이다.
콘볼루션 신경망은 크게 콘볼루션 레이어(Convolution Layer)와 풀링 레이어(Pooling Layer)로 구성된다.
제 2 단계(S200)에서는, 어텐션 매커니즘 모델부(Attention Mechanism Model: 230)를 통해 보행자의 행동을 상세 분석한다.
각각의 영상 데이터가 덴스 콘볼루션 신경망에 입력되면, 덴스 콘볼루션 신경망은 입력된 각각의 영상 데이터를 이어맞추고 변환 블록으로 입력되어 학습 처리를 지속하게 된다.
이때, 특징 블록과, 변환 블록은 콘볼루션 레이어(Convolution Layer) 및 풀링 레이어(Pooling Layers) 일 수 있다.
또한, 어텐션 매커니즘 모델부(230)는 채널 어텐션 모델부(Channel Attention Model: 231)와, 스페셜 어텐션 모델부(Spatial Attention Model: 232)를 포함한다.
여기서, 어텐션 매커니즘 모델부(230)는 어텐션이 관련없는 정보를 무시하고 핵심 정보에 집중하도록 학습을 수행한다.
또한, 채널 어텐션 모델은 Hu et al.이 처음으로 squeeze-and-excitation block이란 이름으로 제안하였다.
일반적인 컨볼루션 연산은 국부적 정보만 이용하지만, 채널 어텐션 모듈은 GAP(Global Average Pooling)를 적용하여 비국부적인 정보까지 이용할 수 있게 한다.
제 3 단계(S300)에서는, 채널 어텐션 모델부(231)를 통해 영상 데이터에서 보행자의 행동의 정상 여부를 타임 페리어드로 분석한다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 채널 어텐션 모델부(231)는 영상에서 어텐션이 요구되는 지점의 사진을 샘플링하고, 샘플링된 사진으로부터 보행자의 행동 이미지를 처리한다.
이와 같은 채널 어텐션 모델부(231)는 특정 채널 사이의 연속성을 가진다.
또한, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 최대 풀링 레이어와 평균 풀링 레이어의 조합을 사용하여 입력 특성 맵의 스페셜 차원을 압축하여 채널 어텐션의 효율을 증가시킬 수 있다.
이러한 2개의 풀링 레이어 뒤에 다층 퍼셉트론(Perceptron)의 히든층이 추가되어 매개 변수의 오버 헤드를 감소시킬 수 있다.
한편, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 2개의 디스크립터(Descriptor)는 히든층으로 전송된 채널 어텐션 맵을 생성하는 것을 특징으로 한다.
제 4 단계(S400)에서는, 스페셜 어텐션 모델부(232)와 관련된 채널 어텐션 모델부(231)를 통해 보행자의 행동의 정상 여부에 대해 분석한다.
특히, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법에서, 스페셜 어텐션 모델부(232)는 위치에 집중하여 분석한다.
제 5 단계(S500)에서는, 의미 분석을 통해 보행자의 행동을 정상 행동과 비정상 행동으로 구분하고, 비정상 행동을 비의도적 정상 행동과 의도적 비정상 행동으로 분석한다.
도 9는 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템의 전체 구성을 나타내는 블록도이다.
도 9를 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템(1000)은 촬영부(100)와, 클라우딩 서버(200)를 포함한다.
촬영부(100)는 카메라 등을 통해 촬영한 영상 데이터를 분석하여 불특정 다수의 인간들을 추출하고 행동을 분석하여 비정상적인 행동의 여부를 분석할 수 있도록 클라우딩 서버(200)에 촬영한 영상 데이터를 제공하는 역할을 수행한다.
클라우딩 서버(200)는 촬영부(100)로부터 제공받은 영상 데이터를 분석하여 불특정 다수의 인간들을 추출하고 행동을 분석하여 비정상적인 행동의 여부를 분석하는 역할을 수행한다.
도 10은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템에서 촬영부의 구성을 나타내는 블록도이다.
도 10을 참조하면, 본 발명에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템(1000)에서, 촬영부(100)는 카메라부(110)와, 해상도 조정부(120)와, 통신부(130)를 포함한다.
여기서, 카메라부(110)는 해당 지역 보행자의 영상 데이터를 수집하는 역할을 수행한다.
해상도 조정부(120)는 카메라부(110)에 의해 촬영되어 수집된 영상 데이터의 해상도를 조정하는 역할을 수행한다.
통신부(130)는 해상도 조정부(120)에 의해 해상도가 조정된 영상 데이터를 클라우딩 서버(200)로 전송하는 역할을 수행한다.
도 11은 본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템에서 클라우딩 서버의 구성을 나타내는 블록도이다.
본 발명의 일 실시예에 따른 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템(1000)에서, 클라우딩 서버(200)는 수신부(210)와, 연산부(220)와, 어텐션 매커니즘 모델부(230)와, 의미 분석부(240)와, 출력부(250)를 포함한다.
여기서, 수신부(210)는 촬영부(100)에 의해 촬영된 영상 데이터를 통신부(130)에 의해 수신하는 역할을 수행한다.
즉, 수신부(210)는 입력되는 영상 데이터를 수신한다.
연산부(220)는 수신부(210)에 의해 수신된 영상 데이터에 대한 컨볼루션 연산을 수행하여 보행자의 행동을 분석한다.
어텐션 매커니즘 모델부(230)는 보행자의 행동을 상세 분석하는 역할을 수행한다.
즉, 어텐션 매커니즘 모델부(230)의 어텐션 매커니즘 모델은 어텐션이 관련없는 정보를 무시하고 핵심 정보에 집중하도록 학습을 수행한다.
이러한 어텐션 매커니즘 모델부(230)는 채널 어텐션 모델부(231)와, 스페셜 어텐션 모델부(232)를 포함한다.
채널 어텐션 모델부(231)의 채널 어텐션 모델은 영상 데이터에서 보행자의 행동의 정상 여부를 타임 페리어드로 분석한다.
채널 어텐션 모델부(231)의 채널 어텐션 모델은 이러한 영상에서 어텐션이 요구되는 지점의 사진을 샘플링하고, 샘플링된 사진으로부터 보행자의 행동 이미지를 처리한다.
이러한 채널 어텐션 모델부(231)의 채널 어텐션 모델은 특정 채널 사이의 연속성을 가진다.
스페셜 어텐션 모델부(232)는 채널 어텐션 모델을 통해 보행자의 행동의 정상 여부에 대해 분석한다.
이러한 스페셜 어텐션 모델부(232)는 위치에 집중하여 분석을 수행한다.
의미 분석부(240)는 의미 분석을 통해 보행자의 행동을 정상 행동과 비정상 행동으로 구분하고, 비정상 행동을 비의도적 정상 행동과 의도적 비정상 행동으로 분석한다.
출력부(250)는 의미 분석부(240)에 의해 의미 분석이 수행된 최종 결과 데이터를 출력하는 역할을 수행한다.
이와 같이 본 발명에 의하면, 인간의 행동을 분석하여 인간의 행동으로부터 정상 행동과 비정상 행동을 탐지시, 비정상 행동을 행하는 인간 중 진실로 비정상 행동을 행하는 인간과, 거짓으로 비정상 행동을 행하는 인간들을 탐지하여 인식할 수 있는 딥러닝 기반 비정상 행동을 탐지하여 인식할 수 있는 효과가 있다.
이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시 예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시 예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.
또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.
본 발명은 인간의 행동을 분석하여 인간의 행동으로부터 정상 행동과 비정상 행동을 탐지시, 비정상 행동을 행하는 인간 중 진실로 비정상 행동을 행하는 인간과, 거짓으로 비정상 행동을 행하는 인간들을 탐지하여 인식할 수 있는 딥러닝 기반 비정상 행동을 탐지하여 인식할 수 있다.

Claims (18)

  1. 촬영부에 의해 제공된 영상 데이터에 대한 컨볼루션 연산(Convolution Calculation)을 수행하여 보행자의 행동을 분석하는 제 1 단계;를 포함하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  2. 촬영부에 의해 제공된 영상 데이터에 대한 컨볼루션 연산(Convolution Calculation)을 수행하여 보행자의 행동을 분석하는 제 1 단계; 및
    어텐션 매커니즘 모델부(Attention Mechanism Model)를 통해 상기 보행자의 행동을 상세 분석하는 제 2 단계;를 포함하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  3. 제 2 항에 있어서,
    상기 컨볼루션 연산은 덴스 콘볼루션 신경망(Dense Convolutional Network)에 의해 수행되며,
    상기 영상 데이터가 224 × 22 이미지 크기의 RGB 3 채널 형식이 특징 블록 처리를 통해 상기 덴스 콘볼루션 신경망에 입력되는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  4. 제 3 항에 있어서,
    각각의 상기 영상 데이터가 상기 덴스 콘볼루션 신경망에 입력되면, 상기 덴스 콘볼루션 신경망은 입력된 각각의 상기 영상 데이터를 이어맞추고 변환 블록으로 입력되어 학습 처리를 지속하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  5. 제 4 항에 있어서,
    상기 특징 블록과, 상기 변환 블록은 콘볼루션 레이어(Convolution Layer) 및 풀링 레이어(Pooling Layers)인 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  6. 제 5 항에 있어서,
    상기 어텐션 매커니즘 모델부는 채널 어텐션 모델부(Channel Attention Model)와, 스페셜 어텐션 모델부(Spatial Attention Model)를 포함하며,
    상기 어텐션 매커니즘 모델부는 어텐션이 관련없는 정보를 무시하고 핵심 정보에 집중하도록 학습을 수행하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  7. 제 6 항에 있어서,
    상기 채널 어텐션 모델부를 통해 상기 영상 데이터에서 보행자의 행동의 정상 여부를 타임 페리어드로 분석하는 제 3 단계;를 포함하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  8. 제 7 항에 있어서,
    상기 채널 어텐션 모델부는 상기 영상에서 어텐션이 요구되는 지점의 사진을 샘플링하고, 샘플링된 사진으로부터 보행자의 행동 이미지를 처리하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  9. 제 8 항에 있어서,
    상기 채널 어텐션 모델부는 특정 채널 사이의 연속성을 갖는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  10. 제 9 항에 있어서,
    최대 풀링 레이어와 평균 풀링 레이어의 조합을 사용하여 입력 특성 맵의 스페셜 차원을 압축하여 채널 어텐션의 효율을 증가시키는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  11. 제 10 항에 있어서,
    2개의 풀링 레이어 뒤에 다층 퍼셉트론(Perceptron)의 히든층이 추가되어 매개 변수의 오버 헤드를 감소시키는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  12. 제 11 항에 있어서,
    2개의 디스크립터(Descriptor)는 히든층으로 전송된 채널 어텐션 맵을 생성하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  13. 제 7 항에 있어서,
    스페셜 어텐션 모델부와 관련된 상기 채널 어텐션 모델부를 통해 상기 보행자의 행동의 정상 여부에 대해 분석하는 제 4 단계;를 포함하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  14. 제 13 항에 있어서,
    상기 스페셜 어텐션 모델부는 위치에 집중하여 분석하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  15. 제 13 항에 있어서,
    의미 분석을 통해 보행자의 행동을 정상 행동과 비정상 행동으로 구분하고, 비정상 행동을 비의도적 정상 행동과 의도적 비정상 행동으로 분석하는 제 5 단계;를 포함하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  16. 제 2 항에 있어서,
    상기 제 1 단계 이전에,
    촬영부에 의해 해당 지역 보행자의 영상 데이터를 수집하는 제 1 전처리 단계;
    상기 영상 데이터의 해상도를 조정하는 제 2 전처리 단계; 및
    상기 영상 데이터를 클라우딩 서버로 전송하는 제 3 전처리 단계;를 포함하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 방법.
  17. 입력되는 영상 데이터를 수신하는 수신부;
    상기 영상 데이터에 대한 컨볼루션 연산을 수행하여 보행자의 행동을 분석하는 연산부;
    상기 보행자의 행동을 상세 분석하는 어텐션 매커니즘 모델부; 및
    의미 분석을 통해 보행자의 행동을 정상 행동과 비정상 행동으로 구분하고, 비정상 행동을 비의도적 정상 행동과 의도적 비정상 행동으로 분석하는 의미 분석부;를 포함하는 클라우딩 서버를 포함하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템.
  18. 제 17 항에 있어서,
    해당 지역 보행자의 영상 데이터를 수집하는 카메라부;
    상기 영상 데이터의 해상도를 조정하는 해상도 조정부; 및
    상기 영상 데이터를 클라우딩 서버로 전송하는 통신부;를 포함하는 촬영부를 포함하는 것을 특징으로 하는,
    딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템.
PCT/KR2021/017282 2020-11-27 2021-11-23 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법 WO2022114731A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0162900 2020-11-27
KR1020200162900A KR102309111B1 (ko) 2020-11-27 2020-11-27 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법

Publications (1)

Publication Number Publication Date
WO2022114731A1 true WO2022114731A1 (ko) 2022-06-02

Family

ID=78077093

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/017282 WO2022114731A1 (ko) 2020-11-27 2021-11-23 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법

Country Status (2)

Country Link
KR (1) KR102309111B1 (ko)
WO (1) WO2022114731A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102309111B1 (ko) * 2020-11-27 2021-10-06 가천대학교 산학협력단 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법
KR102438189B1 (ko) 2021-06-14 2022-08-30 주식회사 마키나락스 비정상 데이터 검출 방법 및 장치
KR102647139B1 (ko) * 2021-11-03 2024-03-13 국민대학교산학협력단 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법
CN116110006B (zh) * 2023-04-13 2023-06-20 武汉商学院 一种用于智慧旅游系统的景区游客异常行为识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160133676A (ko) * 2015-05-13 2016-11-23 한국전자통신연구원 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치 및 분석방법
KR101695127B1 (ko) * 2016-03-10 2017-01-10 (주)디지탈라인 영상을 이용한 집단 행동 분석 방법
KR101842488B1 (ko) * 2017-07-11 2018-03-27 한국비전기술주식회사 원거리 동적 객체의 검지 및 추적을 기반으로 한 행동패턴인식기법이 적용된 지능형 감지시스템
KR102309111B1 (ko) * 2020-11-27 2021-10-06 가천대학교 산학협력단 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140076815A (ko) * 2012-12-13 2014-06-23 한국전자통신연구원 픽셀 기반 비정상 움직임 검출 방법 및 장치
KR101472674B1 (ko) 2013-05-07 2014-12-15 성균관대학교산학협력단 군중 궤적 추출을 이용한 비정상 행동 검출에 기초한 영상 감시 방법 및 영상 감시 장치
KR20150065370A (ko) * 2013-12-05 2015-06-15 한국전자통신연구원 행동 인식 장치 및 그 방법
KR102440385B1 (ko) * 2017-11-28 2022-09-05 영남대학교 산학협력단 멀티 인식모델의 결합에 의한 행동패턴 인식방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160133676A (ko) * 2015-05-13 2016-11-23 한국전자통신연구원 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치 및 분석방법
KR101695127B1 (ko) * 2016-03-10 2017-01-10 (주)디지탈라인 영상을 이용한 집단 행동 분석 방법
KR101842488B1 (ko) * 2017-07-11 2018-03-27 한국비전기술주식회사 원거리 동적 객체의 검지 및 추적을 기반으로 한 행동패턴인식기법이 적용된 지능형 감지시스템
KR102309111B1 (ko) * 2020-11-27 2021-10-06 가천대학교 산학협력단 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KHALED SALEH; MOHAMMED HOSSNY; SAEID NAHAVANDI: "Real-time Intent Prediction of Pedestrians for Autonomous Ground Vehicles via Spatio-Temporal DenseNet", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 22 April 2019 (2019-04-22), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081172192 *
XU QIN, XIAO YONG, WANG DONGYUE, LUO BIN: "CSA-MSO3DCNN: Multiscale Octave 3D CNN with Channel and Spatial Attention for Hyperspectral Image Classification", REMOTE SENSING, MOLECULAR DIVERSITY PRESERVATION INTERNATIONAL (MDPI), CH, vol. 12, no. 1, 1 January 2020 (2020-01-01), CH , pages 188, XP055935499, ISSN: 2072-4292, DOI: 10.3390/rs12010188 *

Also Published As

Publication number Publication date
KR102309111B9 (ko) 2022-04-11
KR102309111B1 (ko) 2021-10-06

Similar Documents

Publication Publication Date Title
WO2022114731A1 (ko) 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법
WO2020159232A1 (en) Method, apparatus, electronic device and computer readable storage medium for image searching
WO2019103484A1 (ko) 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
WO2020105948A1 (en) Image processing apparatus and control method thereof
WO2015102361A1 (ko) 얼굴 구성요소 거리를 이용한 홍채인식용 이미지 획득 장치 및 방법
WO2017213398A1 (en) Learning model for salient facial region detection
WO2012005387A1 (ko) 다중 카메라와 물체 추적 알고리즘을 이용한 광범위한 지역에서의 물체 이동 감시 방법 및 그 시스템
WO2019151735A1 (en) Vision inspection management method and vision inspection system
WO2020138745A1 (en) Image processing method, apparatus, electronic device and computer readable storage medium
WO2022139111A1 (ko) 초분광 데이터에 기반하는 해상객체 인식 방법 및 시스템
WO2020130747A1 (ko) 스타일 변환을 위한 영상 처리 장치 및 방법
WO2013165048A1 (ko) 영상 검색 시스템 및 영상 분석 서버
WO2022071695A1 (ko) 영상을 처리하는 디바이스 및 그 동작 방법
WO2021006404A1 (ko) 인공지능 서버
WO2021006482A1 (en) Apparatus and method for generating image
WO2023171981A1 (ko) 감시카메라 관리 장치
WO2019168323A1 (ko) 이상 개체 검출 장치 및 방법, 이를 포함하는 촬상 장치
WO2020017814A1 (ko) 이상 개체 검출 시스템 및 방법
WO2020085653A1 (ko) 교사-학생 랜덤 펀을 이용한 다수의 보행자 추적 방법 및 시스템
WO2020091253A1 (ko) 전자 장치 및 전자 장치의 제어 방법
WO2019017720A1 (ko) 사생활 보호를 위한 카메라 시스템 및 그 방법
WO2023158205A1 (ko) Ai 기반 객체인식을 통한 감시 카메라 영상의 노이즈 제거
WO2022225375A1 (ko) 병렬처리 파이프라인을 이용한 다중 dnn 기반 얼굴 인식 방법 및 장치
WO2022225102A1 (ko) Ai 기반 객체인식을 통한 감시 카메라의 셔터값 조절
WO2022039575A1 (ko) 딥 러닝 기반 실시간 공정 감시 시스템 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21898557

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21898557

Country of ref document: EP

Kind code of ref document: A1