WO2023068441A1 - 딥러닝을 이용한 행동 인식 방법 및 그 장치 - Google Patents

딥러닝을 이용한 행동 인식 방법 및 그 장치 Download PDF

Info

Publication number
WO2023068441A1
WO2023068441A1 PCT/KR2021/017921 KR2021017921W WO2023068441A1 WO 2023068441 A1 WO2023068441 A1 WO 2023068441A1 KR 2021017921 W KR2021017921 W KR 2021017921W WO 2023068441 A1 WO2023068441 A1 WO 2023068441A1
Authority
WO
WIPO (PCT)
Prior art keywords
deep learning
feature map
temporal
map
sampled
Prior art date
Application number
PCT/KR2021/017921
Other languages
English (en)
French (fr)
Inventor
백준기
박하실
신중철
하진솔
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Publication of WO2023068441A1 publication Critical patent/WO2023068441A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Definitions

  • the present invention relates to a behavior recognition method and apparatus using deep learning.
  • Behavior recognition is being studied for use in various fields such as real-time intelligent monitoring systems, human-computer interaction, and autonomous driving systems. Therefore, action recognition can be seen as a very important task in the field of video, and it is indispensable to proceed in real time to respond according to action recognition.
  • Action recognition is a study of recognizing movements in video sequences and classifying them into matching action classes. Actions in a video sequence may or may not continue for an entire frame. Thus, we treat video as frames made up of image sequences.
  • a 2D convolutional neural network using a conventional 2D convolutional feature map can effectively recognize object features.
  • Alexnet which has significant performance in early 2D CNNs, is composed of 8 layers including a convolution layer, a max-pooling layer, a dropout layer, and a fully connected layer. Afterwards, models to construct deeper layers to improve classification performance were studied.
  • VGG16-net is an architecture with 16 layers and has a convolution layer, a pooling layer, and a fully connected layer, and maintains a 3x3 filter size.
  • 2D CNN networks with various structures have been studied for high-performance feature classification such as Googlenet and Densenet.
  • the present invention is to provide a behavior recognition method and apparatus using deep learning.
  • the present invention is to provide a behavior recognition method using deep learning capable of quickly and accurately recognizing behavior through a deep learning model capable of applying spatio-temporal information to an input image, and an apparatus therefor.
  • the present invention increases the importance of temporal correlation by confusion of 2D deep learning model and 3D deep learning model, and assigns high weight to important action sections to increase the accuracy of action recognition.
  • a behavior recognition method using deep learning is provided.
  • a method comprising: (a) sampling a video to create a video clip composed of sampled frames, and generating a difference image set between the sampled frames; (b) extracting a first feature map including spatial features and a second feature map including temporal features by applying the sampled frames and the difference image set to a learned deep learning-based action recognition model, respectively; combining the first feature map and the second feature map to generate a space-time combined feature map for each of the sampled frames; (c) adjusting weights of the spatio-temporal combined feature maps of the sampled frames after calculating a bidirectional exponential moving average using the spatio-temporal combined feature maps; (d) generating a temporal correlation importance map by applying the video clip to the learned deep learning-based action recognition model; and (e) classifying a behavior after late fusion by applying the weight-adjusted spatio-temporal combined feature map and the temporal correlation importance map to the learned deep learning-based behavior recognition model.
  • a behavior recognition method using deep learning may be provided
  • the bidirectional exponential moving average value has a frame order for the sampled frames.
  • weights may be adjusted by dividing symmetrically around the spatio-temporal combined feature map.
  • the bidirectional exponential moving average is calculated using the following equation,
  • n represents an index having a temporal order for a sampled frame
  • n represents a value between 0 and 1 and represents a constant value for adjusting the ratio of the bidirectional exponential moving average.
  • the deep learning-based action recognition model includes a plurality of 2D CNN models and a 3D CNN model, the first feature map and the second feature map are generated by the plurality of 2D CNN models, and the temporal correlation importance map It can be created by the 3D CNN model.
  • the softmax value which is the activation function of the weight-adjusted spatio-temporal combined feature map
  • the softmax value which is the activation function of the temporal correlation importance map
  • an apparatus for recognizing a behavior using deep learning is provided.
  • a pre-processing unit which samples a video to generate a video clip composed of sampled frames, and creates a difference image set between the sampled frames; After applying the sampled frames and the difference image set to a deep learning-based action recognition model, a spatio-space combined feature map having temporal and spatial features is generated, and then a two-way exponential moving average is calculated to spatio-space combined feature map.
  • An action recognition device using deep learning may be provided including an action classification unit configured to classify actions by adjusting weights of the sampled frames and fusing them with a temporal correlation importance map having a three-dimensional feature.
  • the deep learning-based action recognition model generates a first feature map including spatial features by applying the sampled frames to a first 2D CNN model, and applies the difference image set to a second 2D CNN model to generate temporal features.
  • a feature extraction unit that extracts a second feature map including and then combines the first feature map and the second feature map to generate a space-time combined feature map for each of the sampled frames;
  • a 3D CNN model unit generating a temporal correlation importance map by applying the video clip to the learned deep learning-based action recognition model;
  • a weight adjustment unit for adjusting weights of the spatio-temporal combined feature maps of the sampled frames after calculating a bidirectional exponential moving average using the spatio-temporal combined feature maps; and a fusion classification unit configured to apply the weight-adjusted time-space combined feature map and the temporal correlation importance map to the learned deep learning-based action recognition model, perform late fusion, and then classify the action.
  • a fusion classification unit configured to apply the weight-adjuste
  • the feature extraction unit and the 3D CNN model unit are connected by a plurality of fully connected layers (FC layers), and the weight adjustment unit is disposed at the rear end of the plurality of fully connected layers (FC layers), and the plurality of fully connected layers ( FC layer), the weight of the sampled spatio-temporal combined feature map may be adjusted.
  • the bidirectional exponential moving average value has a frame order for the sampled frames.
  • weights may be adjusted by dividing symmetrically around the spatio-temporal combined feature map.
  • the fusion classification unit fuses the softmax value, which is the activation function of the weight-adjusted space-time combined feature map, and the softmax value, which is the activation function of the temporal correlation importance map, with the same weight, and the fused result value can be used to classify behavior.
  • a learning unit configured to learn the deep learning-based action recognition model using a training data set may be further included.
  • the present invention has the advantage of increasing the importance of temporal correlation by confusion of a 2D deep learning model and a 3D deep learning model, and increasing the accuracy of action recognition by assigning a high weight to an important action section.
  • FIG. 1 is a flowchart illustrating a behavior recognition method using deep learning according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a difference image set according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating the configuration of a deep learning-based action recognition model according to an embodiment of the present invention.
  • FIG. 5 is a view showing a behavior recognition result according to the prior art and an embodiment of the present invention.
  • FIG. 7 and 8 are diagrams showing the results of comparing behavior recognition accuracy according to the prior art and an embodiment of the present invention.
  • FIG. 9 is a diagram showing the configuration of a deep learning-based behavior recognition device according to an embodiment of the present invention.
  • FIG. 1 is a flowchart illustrating a behavior recognition method using deep learning according to an embodiment of the present invention
  • FIG. 2 is a diagram illustrating a difference image set according to an embodiment of the present invention
  • FIG. 4 is a diagram for explaining weight adjustment according to an embodiment of the present invention
  • FIG. 6 is for weight adjustment according to an embodiment of the present invention.
  • 7 and 8 are diagrams showing results according to changes
  • FIGS. 7 and 8 are results of comparing behavior recognition accuracy according to an embodiment of the present invention and the conventional one.
  • step 110 the deep learning-based behavior recognition apparatus 100 samples a video frame.
  • a short video clip may be generated by sampling a frame of a video in order to reduce the amount of computation.
  • a video frame sampling method can be expressed as Equation 1.
  • the sampled video frames have equal intervals, and there is continuity between each frame.
  • N 16 is set for efficient calculation and high performance, and each frame is resized to 112x112.
  • step 115 the deep learning-based action recognition apparatus 100 generates a difference image set for the sampled video frames.
  • the RGB space of sampled video frames contains spatial information, and each frame sequence contains temporal information.
  • a difference image may be generated using the sampled video frame.
  • a difference image is generated as a difference between pixels of neighboring frames. If this is expressed as an equation, it is the same as equation (2).
  • I denotes a video frame
  • x and y denote the position of each pixel in the frame
  • n denotes a temporal parameter for each frame.
  • FIG. 2 is a diagram showing the difference image result of a part of the UCF101 data set. It can be seen that a difference image is generated by removing the background and the object using the difference between the adjacent video frames and leaving only the motion.
  • 2(g) is a video in which a person mixes using their hands, and when a difference image is generated from a video taken with a fixed camera, the upper body of a person with strong movement and the hand mixing It can be confirmed that only feature information remains.
  • step 120 the deep learning-based action recognition apparatus 100 creates a first feature map and a second feature map using the sampled video frame and the difference image set, and then combines them to create a spatiotemporal combined feature map. .
  • the deep learning-based action recognition model 300 includes a feature extraction unit 310, a 3D CNN model unit 320, two fully connected layers 330, and a weight adjustment unit. 340 and a fusion classification unit 350.
  • the feature extractor 310 has a plurality of 2D CNN models.
  • first 2D CNN model and the second 2D CNN model will be referred to and described.
  • each of the first 2D CNN model and the second 2D CNN model may be plural.
  • the first 2D CNN model is a means for generating a first feature map having spatial features through a convolution operation on sampled video frames. Since the 2D CNN structure is obvious to those skilled in the art, and a method for generating a feature map through convolution is also obvious, a detailed description thereof will be omitted.
  • the sampled video frames are RGB-based images, and a first feature map having spatial information (features) of an object may be generated by a convolution operation using a first 2D CNN model.
  • the first feature map may be generated using Equation 3.
  • the sampled video frames are RGB-based frames, where the RGB space contains spatial information and each frame sequence contains temporal information.
  • the second 2D CNN model is a means for generating a second feature map having temporal features (information) through a convolution operation after receiving a difference image set.
  • the bottlerack feature map may be returned through the VGG 16 network model, which is the backbone, in the same manner as in generating the first feature map.
  • a spatio-temporal combination feature map may be generated by combining a first feature map including spatial information and a second feature map including temporal information.
  • a first sampled video frame, a second sampled video frame, and a primary image and a secondary image corresponding to the first sampled video frame exist when a spatiotemporal combined feature map is generated.
  • the first sampled video frame and the second sampled video frame may be applied to the 2D CNN model to generate RGB-based feature maps 1a feature maps and 1b feature maps.
  • the first image and the second image may be applied to the 2D CNN model to generate the 2a feature map and the 2b feature map.
  • the space-time combined feature map may be generated by combining feature maps corresponding to the same video frame. That is, the 1a feature map generated based on the first sampled video frame and the 2a feature map generated based on the 1st image, which is a difference image of the first sampled video frame, are combined to obtain a first spatio-temporal combination.
  • a feature map may be created.
  • the 1b feature map generated based on the second sampled video frame and the 2b feature map generated based on the secondary image, which is the difference image of the second sampled video frame, are combined to generate the second time- A spatial joint feature map may be created.
  • Each spatio-temporal combined feature map generated in this way is transferred to the first and second fully connected layers 330 connected to the rear end of the feature extraction unit 310, and is then transferred to the feature vector. can be computed.
  • the 3D CNN model unit 320 is a means for generating a temporal correlation importance map through a convolution operation after receiving the sampled frames as 3D data.
  • the weight adjustment unit 340 is a means for adjusting the weights based on the derivation of bidirectional exponential moving average values based on the spatio-temporal combined feature maps for the sampled frames, as will be described in more detail below.
  • the fusion classification unit 350 is a means for fusion of the time-spatial combined feature map and the temporal correlation importance map and then classifying the action based on the fusion result. This will also be described in more detail below.
  • step 125 the deep learning-based action recognition apparatus 100 calculates a bidirectional exponential moving average value using the space-time joint feature map for the sampled frames, and adjusts the weights using the calculated bidirectional exponential moving average value.
  • a bidirectional exponential moving average is used to further weight important intervals of action within the sampled frames.
  • FIG. 4 is a diagram illustrating an action process, and it can be seen that when frames are arranged in a row, actions proceed in the same order as a preparation process, an execution process, and a completion process. Therefore, there is a section requiring concentration in the action sequence.
  • the weight of the video information of the middle frame is increased by applying a bidirectional exponential moving average in which the weight is lowered from the middle frame to the positive pole in the video clip.
  • the bidirectional exponential moving average may undergo a recursive calculation process based on a weight of a feature map (ie, a spatio-temporal combined feature map) for an intermediate frame among sampled frames.
  • the bidirectional exponential moving average can be calculated using Equation 6.
  • Equation 7 The two-way exponential moving average calculated recursively in Equation 6 is calculated as in Equation 7 to calculate the final loss for classification.
  • class is a value at both ends of the sampled frames weighted based on the center frame (middle frame), and is ultimately in the form of a fully connected layer.
  • step 130 the deep learning-based action recognition apparatus 100 applies the sampled frames as 3D data to a 3D CNN model to generate a temporal correlation importance map through a convolution operation.
  • a temporal correlation importance map may be generated by applying the sampled frames to a 3D CNN model with a size of 3 x 16 x 112 x 112.
  • step 135 the deep learning-based action recognition apparatus 100 applies the weighted time-spatial combined feature map and the temporal correlation importance map to the learned deep learning-based action recognition model, performs late fusion, and then classifies the action (classification).
  • a softmax value which is an activation function
  • a softmax value which is an activation function
  • a softmax value which is an activation function of the temporal correlation importance map
  • the behavior is classified using the fused result value. can do.
  • Equation 11 is an objective function for motion recognition for sampled video clips (frames).
  • the objective function may perform an operation for each label for classifying behavior through least squares as shown in Equation 11. Behavior can be classified as the label with the smallest loss value.
  • RGB is the result of using only the RGB image of the input image with VGG16-net as the backbone
  • RGB+Diff is the result of using the RGB image and the difference image
  • RGB+Diff+Moving avg is the result of using the RGB image and It shows the result of weighting the result using the difference image with the bidirectional moving average value
  • RGB+Diff+Moving avg.+C3D shows the result according to an embodiment of the present invention.
  • FIGS. 7 and 8 are results of comparing the accuracy of behavior recognition according to the prior art and an embodiment of the present invention. As shown in FIGS. 7 and 8 , it can be seen that the behavior recognition classification accuracy according to an embodiment of the present invention is improved compared to conventional techniques.
  • FIG. 10 is a block diagram schematically showing the internal configuration of a deep learning-based behavior recognition device according to an embodiment of the present invention.
  • the deep learning-based behavior recognition apparatus 100 includes a pre-processing unit 910, a learning unit 920, a behavior classification unit 930, a memory 940, and a processor ( 950).
  • the pre-processing unit 910 is a means for generating a video clip by sampling a video and generating a difference image set for the video clip.
  • the pre-processing unit 910 may convert the video clip into a format for applying the 3D CNN model of the deep learning-based action recognition model 300.
  • the learning unit 920 is a means for learning a deep learning-based action recognition model using a training set.
  • the action classification unit 930 applies the sampled frames and the difference image set to the learned deep learning-based action recognition model to generate a space-time combined feature map having temporal and spatial features, and then calculates a bidirectional exponential moving average value. It is a means for classifying behaviors by calculating and adjusting the weights of the spatio-temporal combined feature maps and fusing them with temporal correlation importance maps having 3-dimensional features for the sampled frames.
  • the deep learning-based action recognition model includes a feature extraction unit 310, a 3D CNN model unit 320, a plurality of fully connected layers 330, a weight adjustment unit 340, and a fusion classification unit 350.
  • the feature extractor 310 generates a first feature map including spatial features by applying the sampled frames to the first 2D CNN model, and applies the difference image set to the second 2D CNN model to generate a first feature map including temporal features. After extracting the 2 feature maps, the first feature map and the second feature map may be combined to generate a space-time combined feature map for each of the sampled frames.
  • the 3D CNN model unit 320 may generate a temporal correlation importance map by applying the video clip to the learned deep learning-based action recognition model.
  • the weight adjuster 340 may adjust the weight of the spatio-temporal combined feature map of the sampled frames after calculating the bi-directional exponential moving average using the spatio-temporal combined feature map.
  • the fusion classification unit 350 applies the weighted spatio-temporal combined feature map and the temporal correlation importance map to the learned deep learning-based action recognition model, performs late fusion, and then classifies the action.
  • the memory 940 is a means for storing various commands required to perform the deep learning-based behavior recognition method according to an embodiment of the present invention.
  • the processor 950 includes internal components (eg, a pre-processing unit 910, a learning unit 920, and a behavior classification unit 930) of the deep learning-based behavior recognition apparatus 100 according to an embodiment of the present invention. , memory 940, etc.).
  • internal components eg, a pre-processing unit 910, a learning unit 920, and a behavior classification unit 930 of the deep learning-based behavior recognition apparatus 100 according to an embodiment of the present invention. , memory 940, etc.).
  • Computer readable media may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on a computer readable medium may be specially designed and configured for the present invention, or may be known and usable to those skilled in the art in the field of computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

딥러닝을 이용한 행동 인식 방법 및 그 장치가 개시된다. 딥러닝을 이용한 행동 행동 인식 방법은, 비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하며, 상기 샘플링된 프레임들과 상기 차영상 세트를 딥러닝 기반 행동 인식 모델에 적용하여 시간적 특징과 공간적 특징을 가지는 시-공간 결합 특징맵을 생성한 후 양방향 지수 이동 평균값을 계산하여 시-공간 결합 특징맵의 가중치를 조정하여 상기 샘플링된 프레임들에 대한 3차원 특징을 가지는 시간적 연관성 중요도 맵과 융합하여 행동을 분류할 수 있다.

Description

딥러닝을 이용한 행동 인식 방법 및 그 장치
본 발명은 딥러닝을 이용한 행동 인식 방법 및 그 장치에 관한 것이다.
행동 인식은 실시간 지능형 감시 시스템, human-computer interaction, 자율 주행 시스템 등 다양한 분야에서 사용되기 위해 많은 연구가 이루어지고 있다. 따라서, 행동 인식은 비디오 분야에서 매우 중요한 과제라 볼 수 있으며, 행동 인식에 따른 대응을 위해 실시간으로 진행됨이 필수 불가결하다.
행동인식은 비디오 시퀀스에서 움직임을 인식하고 매칭되는 행동 class로 분류하는 연구이다. 비디오 시퀀스에서 행동은 전체 프레임 동안 이어지거나 이어지지 않을 수 있다. 따라서 비디오를 이미지 시퀀스로 이루어진 프레임으로 다룬다.
효율적인 행동 인식을 위해 딥러닝 을 사용한 많은 방법들이 연구되었다. 특히 행동인식은 이미지 분류 태스크의 연장선이라 볼수 있다는 점에서 CNN 특징맵을 사용한 많은 방법이 제안되었다. 종래의 2D 콘볼루션 특징맵을 사용한 2D 콘볼루션 신경망은 객체의 특징을 효과적으로 인식할 수 있다. 초기 2D CNN에서 의미 있는 성능을 가지는 Alexnet은 convolution layer, max-pooling layer, dropout layer, fully connected layer등을 포함한 8개의 layer로 구성되어 있다. 이후, 분류 성능을 높이기 위해 레이어를 더 깊게 구성하려는 모델들이 연구되었다. VGG16-net은 16개의 레이어를 가진 아케텍쳐로 convolution layer, pooling layer 그리고 fully connected layer를 가지며 3x3 필터 사이즈를 유지한다. 마찬가지로 Googlenet, Densenet등 높은 성능의 특징 분류를 위해 다양한 구조의 2D CNN 네트워크가 연구되었다.
그러나, 2D CNN의 특징은 공간적 특징만을 학습하기 때문에 구조적으로 시간적 특징을 반영하는데 한계가 있다.
본 발명은 딥러닝을 이용한 행동 인식 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 입력 영상에 대한 시-공간적 정보 적용이 가능한 딥러닝 모델을 통해 빠르고 정확하게 행동 인식이 가능한 딥러닝을 이용한 행동 인식 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 2D 딥러닝 모델과 3D 딥러닝 모델을 컨퓨전하여 시간적 연관성의 중요도를 높이고, 중요 행동 구간에 대한 가중치를 높게 부여하여 행동 인식의 정확도를 높일 수 있는 딥러닝을 이용한 행동 인식 방법 및 그 장치를 제공하기 위한 것이다.
본 발명의 일 측면에 따르면, 딥러닝을 이용한 행동 인식 방법이 제공된다.
본 발명의 일 실시예에 따르면, (a) 비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하는 단계; (b) 상기 샘플링된 프레임들과 상기 차영상 세트를 각각 학습된 딥러닝 기반 행동 인식 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵과 시간적 특징을 포함하는 제2 특징맵을 추출하고, 상기 제1 특징맵과 상기 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성하는 단계; (c) 상기 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 상기 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 각각 조정하는 단계; (d) 상기 비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성하는 단계; 및 (e) 상기 가중치 조정된 시-공간 결합 특징맵과 상기 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)하는 단계를 포함하는 딥러닝을 이용한 행동 인식 방법이 제공될 수 있다.
상기 양방향 지수 이동 평균값은 상기 샘플링된 프레임들에 대해 프레임 순서가
Figure PCTKR2021017921-appb-I000001
일 때 시-공간 결합 특징맵을 중심으로 대칭적으로 나뉘어 가중치가 조정될 수 있다.
상기 양방향 지수 이동 평균값은 하기 수학식을 이용하여 계산되되,
Figure PCTKR2021017921-appb-I000002
여기서,
Figure PCTKR2021017921-appb-I000003
는 샘플링된 프레임에 대한 시-공간 결합 특징맵에 대한 특징벡터를 나타내고, n은 샘플링된 프레임에 대한 시간적 순서를 가지는 인덱스를 나타내고,
Figure PCTKR2021017921-appb-I000004
는 0과 1 사이의 값으로 양방상 지수 이동 평균의 비율 조정을 위한 상수값을 나타낸다.
상기 딥러닝 기반 행동 인식 모델은 복수의 2D CNN 모델과 3D CNN 모델을 포함하되, 상기 제1 특징맵과 상기 제2 특징맵은 상기 복수의 2D CNN 모델에 의해 생성되고, 상기 시간적 연관성 중요도 맵은 상기 3D CNN 모델에 의해 생성될 수 있다.
상기 (e) 단계는, 상기 가중치 조정된 시-공간 결합 특징맵의 활성화 함수인 소프트 맥스값과 상기 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값은 동일한 가중치로 융합(fusion)되며, 융합된 결과값을 이용하여 행동을 분류할 수 있다.
본 발명의 다른 측면에 따르면, 딥러닝을 이용한 행동 인식 장치가 제공된다.
본 발명의 일 실시예에 따르면, 비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하는 전처리부; 상기 샘플링된 프레임들과 상기 차영상 세트를 딥러닝 기반 행동 인식 모델에 적용하여 시간적 특징과 공간적 특징을 가지는 시-공간 결합 특징맵을 생성한 후 양방향 지수 이동 평균값을 계산하여 시-공간 결합 특징맵의 가중치를 조정하여 상기 샘플링된 프레임들에 대한 3차원 특징을 가지는 시간적 연관성 중요도 맵과 융합하여 행동을 분류하는 행동 분류부를 포함하는 딥러닝을 이용한 행동 인식 장치가 제공될 수 있다.
상기 딥러닝 기반 행동 인식 모델은, 상기 샘플링된 프레임들을 제1 2D CNN 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵을 생성하고, 상기 차영상 세트를 제2 2D CNN 모델에 적용하여 시간적 특징을 포함하는 제2 특징맵을 추출한 후 상기 제1 특징맵과 상기 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성하는 특징 추출부; 상기 비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성하는 3D CNN 모델부; 상기 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 상기 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 조정하는 가중치 조정부; 및 상기 가중치 조정된 시-공간 결합 특징맵과 상기 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)하는 융합 분류부를 포함할 수 있다.
상기 특징 추출부와 상기 3D CNN 모델부는 복수의 완전 연결층(FC layer)에 의해 연결되며, 상기 가중치 조정부는 상기 복수의 완전 연결층(FC layer) 후단에 배치되되, 상기 복수의 완전 연결층(FC layer)에 연결되어 상기 샘플링된 시-공간 결합 특징맵의 가중치가 조정될 수 있다.
상기 양방향 지수 이동 평균값은 상기 샘플링된 프레임들에 대해 프레임 순서가
Figure PCTKR2021017921-appb-I000005
일 때 시-공간 결합 특징맵을 중심으로 대칭적으로 나뉘어 가중치가 조정될 수 있다.
상기 융합 분류부는, 상기 가중치 조정된 시-공간 결합 특징맵의 활성화 함수인 소프트 맥스값과 상기 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값은 동일한 가중치로 융합(fusion)하되, 융합된 결과값을 이용하여 행동을 분류할 수 있다.
훈련 데이터 세트를 이용하여 상기 딥러닝 기반 행동 인식 모델을 학습하는 학습부를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 딥러닝을 이용한 행동 인식 방법 및 그 장치를 제공함으로써, 입력 영상에 대한 시-공간적 정보 적용이 가능한 딥러닝 모델을 통해 빠르고 정확하게 행동 인식이 가능한 이점이 있다.
또한, 본 발명은 2D 딥러닝 모델과 3D 딥러닝 모델을 컨퓨전하여 시간적 연관성의 중요도를 높이고, 중요 행동 구간에 대한 가중치를 높게 부여하여 행동 인식의 정확도를 높일 수 있는 이점도 있다.
도 1은 본 발명의 일 실시예에 따른 딥러닝을 이용한 행동 인식 방법을 나타낸 순서도.
도 2는 본 발명의 일 실시예에 따른 차영상 세트를 예시한 도면.
도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 모델의 구성을 예시한 도면.
도 4는 본 발명의 일 실시예에 따른 가중치 조정을 설명하기 위해 도시한 도면.
도 5는 종래와 본 발명의 일 실시예에 따른 행동 인식 결과를 나타낸 도면.
도 6은 본 발명의 일 실시예에 따른 가중치 조정을 위한
Figure PCTKR2021017921-appb-I000006
변화에 따른 결과를 나타낸 도면.
도 7 및 도 8은 종래와 본 발명의 일 실시예에 따른 행동 인식 정확도를 비교한 결과를 나타낸 도면.
도 9는 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 장치의 구성을 나타낸 도면.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 딥러닝을 이용한 행동 인식 방법을 나타낸 순서도이고, 도 2는 본 발명의 일 실시예에 따른 차영상 세트를 예시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 모델의 구성을 예시한 도면이고, 도 4는 본 발명의 일 실시예에 따른 가중치 조정을 설명하기 위해 도시한 도면이고, 도 5는 종래와 본 발명의 일 실시예에 따른 행동 인식 결과를 나타낸 도면이고, 도 6은 본 발명의 일 실시예에 따른 가중치 조정을 위한
Figure PCTKR2021017921-appb-I000007
변화에 따른 결과를 나타낸 도면이며, 도 7 및 도 8은 종래와 본 발명의 일 실시예에 따른 행동 인식 정확도를 비교한 결과이다.
단계 110에서 딥러닝 기반 행동 인식 장치(100)는 비디오 프레임을 샘플링한다.
예를 들어, 일반적인 비디오의 프레임 레이트가 30frame/s일때, 행동하는 시간이 10초라고 가정하면 300 프레임의 입력이 요구된다. 행동 인식을 위해 비디오내의 모든 프레임을 이용하는 경우, 방대한 양의 연산량으로 인해 실제 구현하기 어려운 문제점이 있다.
따라서, 본 발명의 일 실시예에서는 연산량을 줄이기 위해 비디오의 프레임을 샘플링하여 짧은 비디오 클립을 생성할 수 있다.
이에 대해 보다 상세히 설명하기로 한다.
Figure PCTKR2021017921-appb-I000008
를 초기 비디오 프레임이라고 할 때, 샘플링된 비디오 프레임은
Figure PCTKR2021017921-appb-I000009
와 같다.
비디오 프레임 샘플링 방법은 수학식 1과 같이 나타낼 수 있다.
Figure PCTKR2021017921-appb-M000001
샘플링 된 비디오프레임은 동일한 간격을 가지며, 각 프레임 사이에는 연속성이 존재한다. 본 발명의 일 실시예에서는 효율적인 계산과 높은 성능을 위해 N=16으로 설정하며, 각 프레임은 112x112으로 사이즈를 조정하였다.
단계 115에서 딥러닝 기반 행동 인식 장치(100)는 샘플링된 비디오 프레임들에 대한 차영상 세트를 생성한다.
샘플링된 비디오 프레임의 RGB 공간은 공간적 정보를 포함하며, 각 프레임 순서는 시간적 정보를 포함한다. 본 발명의 일 실시예에서는 샘플링된 비디오 프레임을 이용하여 차영상을 생성할 수 있다.
차 영상은 이웃 프레임의 픽셀 간의 차분으로 생성된다. 이를 수학식으로 나타내면, 수학식 2와 같다.
Figure PCTKR2021017921-appb-M000002
여기서, I는 비디오 프레임을 나타내고, x, y는 프레임내의 각 픽셀의 위치를 나타내고, n은 각 프레임에 대한 시간 파라미터(temporal parameter)를 나타낸다.
도 2에는 UCF101 데이터 셋 일부의 차 영상 결과를 도시한 도면이다. 인접한 비디오 프레임의 차분을 이용하여 배경과 객체는 제거되고 움직임만 남은 차영상이 생성되는 것을 알 수 있다.
도 2의 (g)는 사람이 손을 사용하여 믹싱(mixing)하는 비디오이며, 고정된 카메라로 촬영한 비디오에서 차영상을 생성하는 경우, 움직임이 강한 사람의 상체와 믹싱(mixing) 하는 손의 특징(feature) 정보만 남는 것을 확인 할 수 있다.
카메라가 고정되지 않은 도 2의 (a), (f)의 경우 카메라의 움직임으로 인해 일부 배경이 제거되지 않았지만, 움직임이 강한 사람의 픽셀 값이 강력하게 남는 것을 확인할 수 있다.
단계 120에서 딥러닝 기반 행동 인식 장치(100)는 샘플링된 비디오 프레임과 차영상 세트를 이용하여 제1 특징맵과 제2 특징맵을 각각 생성한 후 이를 결합하여 시-공간 결합 특징맵을 생성한다.
이해와 설명의 편의를 도모하기 위해 도 3을 참조하여 딥러닝 기반 행동 인식 모델에 대해 우선 설명하기로 한다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 모델(300)은 특징 추출부(310), 3D CNN 모델부(320), 2개의 완전 연결층(330), 가중치 조정부(340) 및 융합 분류부(350)를 포함하여 구성된다.
특징 추출부(310)는 도 3에 도시된 바와 같이, 복수의 2D CNN 모델을 가진다.
이해와 설명의 편의를 도모하기 위해 제1 2D CNN 모델, 제2 2D CNN 모델이라 칭하여 설명하기로 한다. 여기서, 제1 2D CNN 모델과 제2 2D CNN 모델은 각각 복수일 수 있다.
제1 2D CNN 모델은 샘플링된 비디오 프레임들에 대한 콘볼루션 연산을 통해 공간적 특징을 가지는 제1 특징맵을 생성하기 위한 수단이다. 2D CNN 구조는 당업자에게는 자명한 사항이며, 콘볼루션 연산을 통한 특징맵을 생성하는 방법 또한 자명한 사항이므로 이에 대한 상세한 설명은 생략하기로 한다.
샘플링된 비디오 프레임들은 RGB 기반 영상들로, 제1 2D CNN 모델을 통한 콘볼루션 연산에 의해 객체의 공간적 정보(특징)을 가지는 제1 특징맵이 생성될 수 있다.
여기서, 제1 특징맵은 수학식 3을 이용하여 생성될 수 있다.
Figure PCTKR2021017921-appb-M000003
여기서,
Figure PCTKR2021017921-appb-I000010
는 백본 VGG16 네트워크의 보틀넥 특징맵(bottle neck feature map)을 나타낸다.
샘플링된 비디오 프레임은 RGB기반 프레임으로, RGB 공간은 공간적 정보를 포함하며, 각 프레임 순서는 시간적 정보를 포함한다.
제2 2D CNN 모델은 차영상 세트를 입력받은 후 콘볼루션 연산을 통해 시간적 특징(정보)를 가지는 제2 특징맵을 생성하기 위한 수단이다.
이를 수학식으로 나타내면, 수학식 4와 같다.
Figure PCTKR2021017921-appb-M000004
제2 특징맵은 제1 특징맵 생성과 동일하게 백본인 VGG 16 네트워크 모델을 통해 보틀랙 특징맵이 반환될 수 있다.
행동 인식을 위한 비디오 학습에서, 행동의 공간적 정보와 시간적 정보를 학습하는 것은 매우 중요하다. 따라서, 본 발명의 일 실시예에서는 공간적 정보를 포함하는 제1 특징맵과 시간적 정보를 포함하는 제2 특징맵을 결합하여 시-공간 결합 특징맵을 생성할 수 있다.
도 3을 참조하여 시-공간 결합 특징맵 생성시, 제1 샘플링된 비디오 프레임, 제2 샘플링된 비디오 프레임과 이에 대응하는 제1 차영상 및 제2 차영상이 존재한다고 가정하기로 한다.
제1 샘플링된 비디오 프레임, 제2 샘플링된 비디오 프레임이 각각 2D CNN 모델에 적용되어 RGB 기반 특징맵인 제1a 특징맵, 제1b 특징맵이 생성될 수 있다. 또한, 제1 차영상 및 제2 차영상이 2D CNN 모델에 적용되어 제2a 특징맵과 제2b 특징맵이 생성될 수 있다. 이때, 시-공간 결합 특징맵은 동일한 비디오 프레임에 상응하는 특징맵들을 결합하여 생성될 수 있다. 즉, 제1 샘플링된 비디오 프레임을 기준으로 생성된 제1a 특징맵, 제1 샘플링된 비디오 프레임의 차영상인 제1 차영상을 기준으로 생성된 제2a 특징맵이 결합되어 제1 시-공간 결합 특징맵이 생성될 수 있다. 또한, 즉, 제2 샘플링된 비디오 프레임을 기준으로 생성된 제1b 특징맵, 제2 샘플링된 비디오 프레임의 차영상인 제2 차영상을 기준으로 생성된 제2b 특징맵이 결합되어 제2 시-공간 결합 특징맵이 생성될 수 있다.
이와 같이 생성된 각각의 시-공간 결합 특징맵은 특징 추출부(310) 후단에 연결된 제1 및 제2 완전 연결층(330)으로 전달되어 특징 벡터
Figure PCTKR2021017921-appb-I000011
가 연산될 수 있다.
이를 수학식으로 나타내면 수학식 5와 같다.
Figure PCTKR2021017921-appb-M000005
여기서,
Figure PCTKR2021017921-appb-I000012
는 결합을 위한 특징맵 연결 연산자를 나타내고,
Figure PCTKR2021017921-appb-I000013
는 특징맵의 n번째에 대한 완전 연결층(FC layer)를 나타낸다.
3D CNN 모델부(320)은 샘플링된 프레임들을 3차원 데이터로 입력받은 후 콘볼루션 연산을 통해 시간적 연관성 중요도 맵을 생성하기 위한 수단이다.
가중치 조정부(340)는 하기에서 보다 상세히 설명되겠지만, 샘플링된 프레임들에 대한 시-공간 결합 특징맵을 기초로 양방향 지수 이동 평균값을 도출한 후 이를 기반으로 가중치를 조정하기 위한 수단이다.
융합 분류부(350)는 가중치 조정된 시-공간 결합 특징맵과 시간적 연관성 중요도 맵을 융합(fusion)한 후 융합된 결과를 기초로 행동을 분류하기 위한 수단이다. 이에 대해서도 하기에서 보다 상세히 설명하기로 한다.
단계 125에서 딥러닝 기반 행동 인식 장치(100)는 샘플링된 프레임들에 대한 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산하고, 이를 이용하여 가중치를 조정한다.
이에 대해 보다 상세히 설명하기로 한다.
양방향 지수 이동 평균값은 샘플링된 프레임들내에서 행동의 중요 구간에 가중치를 더 부여하기 위해 이용된다.
도 4는 행동 과정을 예시한 도면으로, 프레임을 일렬로 배치했을 때 행동은 준비 과정, 실행 과정 및 완료 과정과 같은 순서로 진행되는 것을 알 수 있다. 따라서, 행동 시퀀스는 집중이 필요한 구간이 존재한다.
본 발명의 일 실시예에서는 학습시, 행동을 시행하는 영상의 프레임 중간 부분(실행 과정)에 중요한 정보를 포함하는 것을 가정하였다.
따라서, 본 발명의 일 실시예에서는 비디오 클립에서 가운데 프레임에서 양극으로 가중치가 낮아지는 양방향 지수 이동 평균을 적용시켜, 가운데 프레임의 영상 정보의 가중치를 높였다. 양방향 지수 이동 평균은 샘플링된 프레임들 중 중간 프레임에 대한 특징맵(즉, 시-공간 결합 특징맵)의 가중치를 중심으로 재귀적인 계산과정을 거칠 수 있다. 양방향 지수 이동 평균값은 수학식 6을 이용하여 계산될 수 있다.
Figure PCTKR2021017921-appb-M000006
여기서,
Figure PCTKR2021017921-appb-I000014
는 샘플링된 프레임에 대한 시-공간 결합 특징맵에 대한 특징벡터를 나타내고,
Figure PCTKR2021017921-appb-I000015
는 0과 1 사이의 값으로 양방상 지수 이동 평균의 비율 조정을 위한 상수값을 나타낸다.
도 6에는
Figure PCTKR2021017921-appb-I000016
을 변경하며 실험한 결과가 도시되어 있다. 도 6에서 보여지는 바와 같이,
Figure PCTKR2021017921-appb-I000017
가 1에 가까워질수록 행동 인식 정확도가 향상되는 것을 알 수 있다. 따라서, 본 발명의 일 실시예에서는
Figure PCTKR2021017921-appb-I000018
을 실험적으로 0.9로 설정하기로 한다.
수학식 6에서 재귀적으로 연산된 양방향 지수 이동 평균값은 분류를 위해 최종 손실을 연산하기 위해 수학식 7과 같이 계산된다.
Figure PCTKR2021017921-appb-M000007
여기서,
Figure PCTKR2021017921-appb-I000019
Figure PCTKR2021017921-appb-I000020
는 샘플링된 프레임들 중 중심 프레임(가운데 프레임)을 기준으로 가중치를 부여한 양 끝의 값으로, 최정적으로 완전 연결층 형식이다.
단계 130에서 딥러닝 기반 행동 인식 장치(100)는 샘플링된 프레임들을 3차원 데이터로써 3D CNN 모델에 적용하여 콘볼루션 연산을 통해 시간적 연관성 중요도 맵을 생성한다.
예를 들어, 샘플링된 프레임들을 3 x 16 x 112 x 112의 크기로 하여 3D CNN 모델에 적용하여 시간적 연관성 중요도 맵을 생성할 수 있다.
단계 135에서 딥러닝 기반 행동 인식 장치(100)는 가중치 조정된 시-공간 결합 특징맵과 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)한다.
이에 대해 보다 상세히 설명하기로 한다.
도 3에 도시된 바와 같이, 가중치 조정된 시-공간 결합 특징맵은 활성화 함수(activation function)인 소프트 맥스(softmax)값이 도출될 수 있다. 또한, 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값이 도출될 수 있다.
이를 수학식으로 나타내면 수학식 8 및 수학식 9와 같다.
Figure PCTKR2021017921-appb-M000008
Figure PCTKR2021017921-appb-M000009
여기서,
Figure PCTKR2021017921-appb-I000021
는 3D CNN 모델의 마지막 완전 연결층을 나타낸다.
이와 같이, 소프트 맥스 적용된 결과값을 동일한 가중치로 융합하면 수학식 10과 같이 나타낼 수 있다.
Figure PCTKR2021017921-appb-M000010
본 발명의 일 실시예에 따르면, 가중치 조정된 시-공간 결합 특징맵과 시간적 연관성 중요도 맵을 각각 소프트맥스 적용한 결과값을 동일한 가중치로 융합(fusion)한 후 융합된 결과값을 이용하여 행동을 분류할 수 있다.
이를 수학식으로 나타내면 수학식 11과 같다.
Figure PCTKR2021017921-appb-M000011
따라서, 상술한 수학식 11은 샘플링된 비디오 클림(프레임들)에 대한 행동 인식을 위한 목적함수이다. 걀과적으로, 목적함수는 수학식 11과 같이 최소제곱을 통해 행동 분류를 위한 각 라벨에 대한 연산을 수행할 수 있다. 손실값이 최소인 라벨로 행동이 분류될 수 있다.
도 5는 종래와 본 발명의 일 실시예에 따른 행동 분류 정확도 결과를 비교한 표이다.
도 5에서 "RGB"는 VGG16-net을 backbone으로 입력 영상의 RGB 영상만 사용한 결과이며, "RGB+Diff"는 RGB 영상과 차영상을 이용한 결과이며, RGB+Diff+Moving avg"은 RGB 영상과 차영상을 이용한 결과에 양방향 이동 평균값으로 가중치를 부여한 결과를 나타내며, RGB+Diff+Moving avg.+C3D"는 본 발명의 일 실시예에 따른 결과를 나타낸 것이다.
도 5에서 보여지는 바와 같이, 본 발명의 일 실시예에 따른 행동 인식 결과가 종래의 다른 기술들에 비해 행동 인식 정확도가 향상되는 것을 알 수 있다.
도 7 및 도 8은 종래와 본 발명의 일 실시예에 따른 행동 인식에 대한 정확도를 비교한 결과이다. 도 7 및 도 8에서 보여지는 바와 같이, 종래의 기술들에 비해 본 발명의 일 실시예에 따른 행동 인식 분류 정확도가 향상된 것을 알 수 있다.
도 10은 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 10을 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 장치(100)는 전처리부(910), 학습부(920), 행동 분류부(930), 메모리(940) 및 프로세서(950)를 포함하여 구성된다.
전처리부(910)는 비디오를 샘플링하여 비디오 클립을 생성하고, 비디오 클립에 대한 차영상 세트를 생성하기 위한 수단이다.
또한, 전처리부(910)는 비디오 클립을 딥러닝 기반 행동 인식 모델(300)의 3D CNN 모델에 적용하기 위한 포맷으로 변환할 수 있다.
학습부(920)는 트레이닝 세트를 이용하여 딥러닝 기반 행동 인식 모델을 학습하기 위한 수단이다.
행동 분류부(930)는 샘플링된 프레임들과 상기 차영상 세트를 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 특징과 공간적 특징을 가지는 시-공간 결합 특징맵을 생성한 후 양방향 지수 이동 평균값을 계산하여 시-공간 결합 특징맵의 가중치를 조정하여 상기 샘플링된 프레임들에 대한 3차원 특징을 가지는 시간적 연관성 중요도 맵과 융합하여 행동을 분류하기 위한 수단이다.
딥러닝 기반 행동 인식 모델은 특징 추출부(310), 3D CNN 모델부(320), 복수의 완전 연결층(330), 가중치 조정부(340) 및 융합 분류부(350)를 포함한다.
특징 추출부(310)는 샘플링된 프레임들을 제1 2D CNN 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵을 생성하고, 차영상 세트를 제2 2D CNN 모델에 적용하여 시간적 특징을 포함하는 제2 특징맵을 추출한 후 상기 제1 특징맵과 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성할 수 있다.
3D CNN 모델부(320)비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성할 수 있다.
가중치 조정부(340)는 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 조정할 수 있다.
융합 분류부(350)는 가중치 조정된 시-공간 결합 특징맵과 시간적 연관성 중요도 맵을 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)할 수 있다.
딥러닝 기반 행동 인식 모델은 도 3을 참조하여 설명한 바와 동일하므로 상세한 설명은 생략하기로 한다.
메모리(940)는 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 방법을 수행하기 위해 필요한 다양한 명령어를 저장하기 위한 수단이다.
프로세서(950)는 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 장치(100)의 내부 구성 요소들(예를 들어, 전처리부(910), 학습부(920), 행동 분류부(930), 메모리(940) 등)을 제어하기 위한 수단이다.
본 발명의 실시 예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (12)

  1. (a) 비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하는 단계;
    (b) 상기 샘플링된 프레임들과 상기 차영상 세트를 각각 학습된 딥러닝 기반 행동 인식 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵과 시간적 특징을 포함하는 제2 특징맵을 추출하고, 상기 제1 특징맵과 상기 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성하는 단계;
    (c) 상기 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 상기 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 각각 조정하는 단계;
    (d) 상기 비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성하는 단계; 및
    (e) 상기 가중치 조정된 시-공간 결합 특징맵과 상기 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)하는 단계를 포함하는 딥러닝을 이용한 행동 인식 방법.
  2. 제1 항에 있어서,
    상기 양방향 지수 이동 평균값은 상기 샘플링된 프레임들에 대해 프레임 순서가
    Figure PCTKR2021017921-appb-I000022
    일 때 시-공간 결합 특징맵을 중심으로 대칭적으로 나뉘어 가중치가 조정되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 방법.
  3. 제2 항에 있어서,
    상기 양방향 지수 이동 평균값은 하기 수학식을 이용하여 계산되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 방법.
    Figure PCTKR2021017921-appb-I000023
    여기서,
    Figure PCTKR2021017921-appb-I000024
    는 샘플링된 프레임에 대한 시-공간 결합 특징맵에 대한 특징벡터를 나타내고, n은 샘플링된 프레임에 대한 시간적 순서를 가지는 인덱스를 나타내고,
    Figure PCTKR2021017921-appb-I000025
    는 0과 1 사이의 값으로 양방상 지수 이동 평균의 비율 조정을 위한 상수값을 나타냄.
  4. 제1 항에 있어서,
    상기 딥러닝 기반 행동 인식 모델은
    복수의 2D CNN 모델과 3D CNN 모델을 포함하되,
    상기 제1 특징맵과 상기 제2 특징맵은 상기 복수의 2D CNN 모델에 의해 생성되고,
    상기 시간적 연관성 중요도 맵은 상기 3D CNN 모델에 의해 생성되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 방법.
  5. 제1 항에 있어서,
    상기 (e) 단계는,
    상기 가중치 조정된 시-공간 결합 특징맵의 활성화 함수인 소프트 맥스값과 상기 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값은 동일한 가중치로 융합(fusion)되며, 융합된 결과값을 이용하여 행동을 분류하는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 방법.
  6. 제1 항 내지 제 5 항 중 어느 하나의 항에 따른 방법을 수행하기 위한 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체.
  7. 비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하는 전처리부;
    상기 샘플링된 프레임들과 상기 차영상 세트를 딥러닝 기반 행동 인식 모델에 적용하여 시간적 특징과 공간적 특징을 가지는 시-공간 결합 특징맵을 생성한 후 양방향 지수 이동 평균값을 계산하여 시-공간 결합 특징맵의 가중치를 조정하여 상기 샘플링된 프레임들에 대한 3차원 특징을 가지는 시간적 연관성 중요도 맵과 융합하여 행동을 분류하는 행동 분류부를 포함하는 딥러닝을 이용한 행동 인식 장치.
  8. 제7 항에 있어서,
    상기 딥러닝 기반 행동 인식 모델은,
    상기 샘플링된 프레임들을 제1 2D CNN 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵을 생성하고, 상기 차영상 세트를 제2 2D CNN 모델에 적용하여 시간적 특징을 포함하는 제2 특징맵을 추출한 후 상기 제1 특징맵과 상기 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성하는 특징 추출부;
    상기 비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성하는 3D CNN 모델부;
    상기 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 상기 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 조정하는 가중치 조정부; 및
    상기 가중치 조정된 시-공간 결합 특징맵과 상기 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)하는 융합 분류부를 포함하는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 장치.
  9. 제8 항에 있어서,
    상기 특징 추출부와 상기 3D CNN 모델부는 복수의 완전 연결층(FC layer)에 의해 연결되며,
    상기 가중치 조정부는 상기 복수의 완전 연결층(FC layer) 후단에 배치되되, 상기 복수의 완전 연결층(FC layer)에 연결되어 상기 샘플링된 시-공간 결합 특징맵의 가중치가 조정되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 장치.
  10. 제9 항에 있어서,
    상기 양방향 지수 이동 평균값은 상기 샘플링된 프레임들에 대해 프레임 순서가
    Figure PCTKR2021017921-appb-I000026
    일 때 시-공간 결합 특징맵을 중심으로 대칭적으로 나뉘어 가중치가 조정되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 장치.
  11. 제8 항에 있어서,
    상기 융합 분류부는,
    상기 가중치 조정된 시-공간 결합 특징맵의 활성화 함수인 소프트 맥스값과 상기 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값은 동일한 가중치로 융합(fusion)하되, 융합된 결과값을 이용하여 행동을 분류하는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 장치.
  12. 제7 항에 있어서,
    훈련 데이터 세트를 이용하여 상기 딥러닝 기반 행동 인식 모델을 학습하는 학습부를 더 포함하는 딥러닝을 이용한 행동 인식 장치.
PCT/KR2021/017921 2021-10-20 2021-11-30 딥러닝을 이용한 행동 인식 방법 및 그 장치 WO2023068441A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210140340A KR20230056366A (ko) 2021-10-20 2021-10-20 딥러닝을 이용한 행동 인식 방법 및 그 장치
KR10-2021-0140340 2021-10-20

Publications (1)

Publication Number Publication Date
WO2023068441A1 true WO2023068441A1 (ko) 2023-04-27

Family

ID=86059230

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/017921 WO2023068441A1 (ko) 2021-10-20 2021-11-30 딥러닝을 이용한 행동 인식 방법 및 그 장치

Country Status (2)

Country Link
KR (1) KR20230056366A (ko)
WO (1) WO2023068441A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853738A (zh) * 2024-03-06 2024-04-09 贵州健易测科技有限公司 一种用于对茶叶分级的图像处理方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036093A (ko) * 2018-09-21 2020-04-07 네이버웹툰 주식회사 비디오 영상 내의 행동 인식 방법 및 장치
KR20200068545A (ko) * 2018-03-30 2020-06-15 네이버 주식회사 컨벌루션 신경망을 트레이닝하고 트레이닝된 컨벌루션 신경망을 이용하여 비디오의 대상에 의해 수행되는 행동을 분류하기 위한 시스템 및 방법
KR20200092509A (ko) * 2019-01-15 2020-08-04 포항공과대학교 산학협력단 3d cnn을 이용한 고속 영상 인식 방법 및 장치
KR20210090238A (ko) * 2019-07-19 2021-07-19 저지앙 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 비디오 처리 방법 및 장치, 전자 기기, 및 기억 매체

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200068545A (ko) * 2018-03-30 2020-06-15 네이버 주식회사 컨벌루션 신경망을 트레이닝하고 트레이닝된 컨벌루션 신경망을 이용하여 비디오의 대상에 의해 수행되는 행동을 분류하기 위한 시스템 및 방법
KR20200036093A (ko) * 2018-09-21 2020-04-07 네이버웹툰 주식회사 비디오 영상 내의 행동 인식 방법 및 장치
KR20200092509A (ko) * 2019-01-15 2020-08-04 포항공과대학교 산학협력단 3d cnn을 이용한 고속 영상 인식 방법 및 장치
KR20210090238A (ko) * 2019-07-19 2021-07-19 저지앙 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 비디오 처리 방법 및 장치, 전자 기기, 및 기억 매체

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HA JINSOL, SHIN JOONGCHOL, PARK HASIL, PAIK JOONKI: "Action Recognition Network Using Stacked Short-Term Deep Features and Bidirectional Moving Average", APPLIED SCIENCES, vol. 11, no. 12, 16 June 2021 (2021-06-16), pages 5563, XP093059325, DOI: 10.3390/app11125563 *
HA, JINSOL; SHIN, JOONGCHOL; PARK, HASIL; JEONG, DASOL; KANG, KEONWOO; PAIK, JOONKI: "Action Recognition method using Deep Feature map and Bidirectional Exponentional Moving average Neural network", ANNUAL CONFERENCE OF IEIE, KR, 1 August 2020 (2020-08-01), KR, pages 2613 - 2615, XP009545670 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853738A (zh) * 2024-03-06 2024-04-09 贵州健易测科技有限公司 一种用于对茶叶分级的图像处理方法及设备
CN117853738B (zh) * 2024-03-06 2024-05-10 贵州健易测科技有限公司 一种用于对茶叶分级的图像处理方法及设备

Also Published As

Publication number Publication date
KR20230056366A (ko) 2023-04-27

Similar Documents

Publication Publication Date Title
WO2021201422A1 (ko) Ar에 적용 가능한 의미적인 분할 방법 및 시스템
WO2021085848A1 (ko) 강화학습 기반 신호 제어 장치 및 신호 제어 방법
WO2018212494A1 (ko) 객체를 식별하는 방법 및 디바이스
WO2019098414A1 (ko) 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
WO2021230457A1 (en) Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
WO2011096651A2 (ko) 얼굴 식별 방법 및 그 장치
WO2020196985A1 (ko) 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
WO2016002986A1 (ko) 시선 추적 장치 및 방법, 이를 수행하기 위한 기록매체
WO2020130309A1 (ko) 영상 마스킹 장치 및 영상 마스킹 방법
WO2013012150A1 (ko) 에지의 방향 성분을 검출하는 영상 필터링 방법 및 이를 이용한 영상 인식 방법
WO2023068441A1 (ko) 딥러닝을 이용한 행동 인식 방법 및 그 장치
WO2021241804A1 (ko) 다중 플로우 기반 프레임 보간 장치 및 방법
WO2020017871A1 (ko) 영상 처리 장치 및 그 동작방법
WO2017142311A1 (ko) 다중 객체 추적 시스템 및 이를 이용한 다중 객체 추적 방법
WO2019050297A1 (ko) 뉴럴 네트워크 학습 방법 및 장치
WO2020149601A1 (ko) 3d cnn을 이용한 고속 영상 인식 방법 및 장치
WO2020141907A1 (ko) 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법
WO2021177628A1 (en) Method and apparatus for action recognition
WO2022045485A1 (ko) 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
WO2017115937A1 (ko) 가중치 보간 맵을 이용한 표정 합성 장치 및 방법
WO2021201569A1 (ko) 강화학습 기반 신호 제어 장치 및 신호 제어 방법
WO2020246655A1 (ko) 상황 인지 방법 및 이를 수행하는 장치
WO2021235682A1 (en) Method and device for performing behavior prediction by using explainable self-focused attention
WO2021230574A1 (en) Learning method and learning device for updating object detector, based on deep learning, of autonomous vehicle to adapt the object detector to driving circumstance, and updating method and updating device using the same
WO2019035544A1 (ko) 학습을 이용한 얼굴 인식 장치 및 방법

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE