KR102658344B1 - Action recognition method and system using multiple classifiers according to viewpoints - Google Patents
Action recognition method and system using multiple classifiers according to viewpoints Download PDFInfo
- Publication number
- KR102658344B1 KR102658344B1 KR1020210183640A KR20210183640A KR102658344B1 KR 102658344 B1 KR102658344 B1 KR 102658344B1 KR 1020210183640 A KR1020210183640 A KR 1020210183640A KR 20210183640 A KR20210183640 A KR 20210183640A KR 102658344 B1 KR102658344 B1 KR 102658344B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- viewpoint
- action recognition
- action
- recognition
- Prior art date
Links
- 230000009471 action Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000006399 behavior Effects 0.000 claims description 24
- 238000013136 deep learning model Methods 0.000 claims description 6
- 230000035582 behavioral recognition Effects 0.000 claims 2
- 230000008859 change Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/87—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
- G06T2207/20044—Skeletonization; Medial axis transform
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Social Psychology (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
시점에 따른 다중 분류기를 이용한 행동 인식 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 행동 인식 방법은, 영상을 획득하고, 획득한 영상으로부터 사용자의 시점을 인식하며, 인식된 시점에 따라 각기 다른 행동 인식 모델을 이용하여 사용자의 행동을 인식한다. 이에 의해, 카메라의 시점 또는 사람의 방향 변화에 따른 외형 변화가 발생하더라도 입력 영상으로부터 사람의 행동을 정확하게 인식할 수 있게 된다.A behavior recognition method and system using multiple classifiers according to viewpoints are provided. The action recognition method according to an embodiment of the present invention acquires an image, recognizes the user's viewpoint from the acquired image, and recognizes the user's action using different action recognition models depending on the recognized viewpoint. As a result, it is possible to accurately recognize a person's behavior from the input image even if the appearance changes due to a change in the camera's viewpoint or the person's direction.
Description
본 발명은 행동 인식 기술에 관한 것으로, 더욱 상세하게는 카메라의 시점 변화 또는 사용자의 방향 변화가 있는 경우에도 강인하게 사용자의 행동을 인식할 수 있는 방법 및 시스템에 관한 것이다.The present invention relates to behavior recognition technology, and more specifically, to a method and system that can robustly recognize a user's behavior even when there is a change in the camera's viewpoint or a change in the user's direction.
도 1은 동일한 행동 데이터를 다양한 카메라 시점으로 촬영한 사진들이다. 도 1을 통해 짐작할 수 있듯이, 같은 행동에 대해서도 카메라의 시점 변화 또는 사람의 방향의 변화에 따라서 행동 인식을 위한 학습 데이터가 필요하다.Figure 1 shows photos of the same behavioral data taken from various camera viewpoints. As can be inferred from Figure 1, even for the same action, learning data for action recognition is needed depending on a change in the camera's viewpoint or a change in the person's direction.
하지만, 여러 방향에 대한 학습 데이터를 하나의 행동 인식 모델이 동시에 학습할 경우, 같은 행동에 대해서 다양한 시점의 사람 영상이 획득 되므로 인식 성능이 높지 않다는 문제가 있다.However, when one action recognition model learns learning data for multiple directions simultaneously, there is a problem that recognition performance is not high because human images from various viewpoints are acquired for the same action.
이에, 카메라의 시점 변화 또는 사람의 방향의 변화에 강인한 행동 인식 기술이 요청되고 있다.Accordingly, there is a need for action recognition technology that is robust to changes in the camera's viewpoint or the person's direction.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 카메라의 시점 또는 사람의 방향에 따른 외형 변화가 발생하더라도 입력 영상으로부터 사람의 행동을 정확하게 인식할 수 있는 방법 및 시스템을 제공함에 있다.The present invention was created to solve the above problems, and the purpose of the present invention is to provide a method and system that can accurately recognize human behavior from an input image even if the appearance changes depending on the camera's viewpoint or the person's direction. In providing.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 행동 인식 방법은, 영상을 획득하는 단계; 획득한 영상으로부터 사용자의 시점을 인식하는 단계; 및 인식된 시점에 따라, 각기 다른 행동 인식 모델을 이용하여 사용자의 행동을 인식하는 단계;를 포함한다.In order to achieve the above object, a behavior recognition method according to an embodiment of the present invention includes the steps of acquiring an image; Recognizing the user's viewpoint from the acquired image; and recognizing the user's behavior using different behavior recognition models according to the recognized time point.
행동 인식 단계는, 다수의 시점들 각각에 매칭되어 있는 행동 인식 모델들 중 인식된 시점에 매칭되어 있는 행동 인식 모델을 이용할 수 있다.The action recognition step may use an action recognition model that matches the recognized view point among action recognition models that match each of a plurality of view points.
시점 인식 단계는, 입력되는 영상에서 사용자를 검출하고 검출된 사용자의 시점을 인식하도록 학습된 딥러닝 모델인 시점 인식 모델을 이용하여, 사용자의 시점을 인식할 수 있다.In the viewpoint recognition step, the user's viewpoint can be recognized using a viewpoint recognition model, which is a deep learning model learned to detect the user in the input image and recognize the detected user's viewpoint.
시점 인식 모델은, 객체 인식 모듈에서 분류하는 객체의 클래스를 객체의 시점으로 변경하여 구현할 수 있다.The viewpoint recognition model can be implemented by changing the class of the object classified in the object recognition module to the viewpoint of the object.
시점 인식 모델은, 사용자가 기준 시점을 향하는 상태로 취하는 행동들을 다수의 카메라들을 이용하여 다수의 시점들에서 촬영하여 생성한 영상들로 학습될 수 있다.A viewpoint recognition model can be learned from images generated by capturing actions taken by a user while facing a reference viewpoint from multiple viewpoints using multiple cameras.
시점들은, 정해진 각도 만큼씩 떨어져 있을 수 있다.The viewpoints may be separated by a set angle.
본 발명의 실시예에 따른 행동 인식 방법은, 획득한 영상으로부터 사용자의 관절 정보를 생성하는 단계;를 더 포함할 수 있다.The action recognition method according to an embodiment of the present invention may further include generating user's joint information from the acquired image.
행동 인식 단계는, 생성된 사용자의 관절 정보로부터 사용자의 행동을 인식할 수 있다.In the action recognition step, the user's action may be recognized from the generated user's joint information.
관절 정보는, 획득된 영상으로부터 생성한 2D 관절 정보와 2D 관절 정보로부터 생성한 3D 관절 정보를 포함할 수 있다.The joint information may include 2D joint information generated from the acquired image and 3D joint information generated from the 2D joint information.
한편, 본 발명의 다른 실시예에 따른, 행동 인식 시스템은, 영상을 획득하는 카메라; 카메라에 의해 획득한 영상으로부터 사용자의 시점을 인식하는 시점 인식부; 및 인식된 시점에 따라, 각기 다른 행동 인식 모델을 이용하여 사용자의 행동을 인식하는 행동 인식부;를 포함한다.Meanwhile, according to another embodiment of the present invention, a behavior recognition system includes a camera that acquires an image; a viewpoint recognition unit that recognizes the user's viewpoint from an image acquired by a camera; and a behavior recognition unit that recognizes the user's behavior using different behavior recognition models, depending on the recognized time point.
한편, 본 발명의 다른 실시예에 따른, 행동 인식 방법은, 영상으로부터 사용자의 시점을 인식하는 단계; 획득한 영상으로부터 사용자의 관절 정보를 생성하는 단계; 및 인식된 시점에 따라, 각기 다른 행동 인식 모델을 이용하여 사용자의 관절 정보로부터 사용자의 행동을 인식하는 단계;를 포함한다.Meanwhile, according to another embodiment of the present invention, an action recognition method includes the steps of recognizing the user's viewpoint from an image; Generating user joint information from the acquired image; And, depending on the recognized viewpoint, recognizing the user's action from the user's joint information using different action recognition models.
한편, 본 발명의 다른 실시예에 따른, 행동 인식 시스템은, 영상으로부터 사용자의 시점을 인식하는 시점 인식부; 획득한 영상으로부터 사용자의 관절 정보를 생성하는 관절 정보 생성부; 및 인식된 시점에 따라, 각기 다른 행동 인식 모델을 이용하여 사용자의 관절 정보로부터 사용자의 행동을 인식하는 행동 인식부;를 포함한다.Meanwhile, according to another embodiment of the present invention, an action recognition system includes a viewpoint recognition unit that recognizes the user's viewpoint from an image; a joint information generator that generates joint information of the user from the acquired image; and an action recognition unit that recognizes the user's action from the user's joint information using different action recognition models, depending on the recognized viewpoint.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 카메라의 시점 또는 사람의 방향 변화에 따른 외형 변화가 발생하더라도 입력 영상으로부터 사람의 행동을 정확하게 인식할 수 있게 된다.As described above, according to embodiments of the present invention, it is possible to accurately recognize a person's behavior from an input image even if the appearance changes due to a change in the camera's viewpoint or the person's direction.
도 1은 카메라 시점에 따른 행동 데이터,
도 2는 본 발명의 일 실시예에 따른 행동 인식 방법의 설명에 제공되는 흐름도,
도 3은 2D EDM과 3D EDM을 예시한 도면,
도 4는 다양한 시점으로 사용자를 촬영하여 획득한 학습 영상들, 그리고,
도 5는 본 발명의 다른 실시예에 따른 행동 인식 시스템의 블럭도이다.Figure 1 shows behavioral data according to camera viewpoint,
Figure 2 is a flowchart provided to explain a behavior recognition method according to an embodiment of the present invention;
Figure 3 is a diagram illustrating 2D EDM and 3D EDM;
Figure 4 shows learning images obtained by filming the user from various viewpoints, and
Figure 5 is a block diagram of an action recognition system according to another embodiment of the present invention.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.Hereinafter, the present invention will be described in more detail with reference to the drawings.
하나의 시점에서 학습된 분류기(Classifier)의 경우 다른 시점에서 획득한 사용자의 행동을 인식할 경우 성공률이 현저히 떨어진다. 그러므로 이를 보완할 수 있는 시점 변화에 강인한 행동 인식을 위해, 본 발명의 실시예에서는 시점에 따라 구분되어 있는 다중 분류기를 이용한 행동 인식 방법을 제시한다.In the case of a classifier learned from one viewpoint, the success rate drops significantly when recognizing user behavior acquired from another viewpoint. Therefore, for action recognition that is robust to changes in viewpoint that can compensate for this, an embodiment of the present invention proposes an action recognition method using multiple classifiers classified according to viewpoint.
도 2는 본 발명의 일 실시예에 따른 행동 인식 방법의 설명에 제공되는 흐름도이다.Figure 2 is a flowchart provided to explain a behavior recognition method according to an embodiment of the present invention.
자세 인식을 위해, 도시된 바와 같이, 먼저 카메라로 사용자를 촬영하여 영상을 획득한다(S110). 영상 획득을 위한 카메라의 대수에 대한 제한은 없다. 1대의 카메라를 이용하여도 무방하다.For posture recognition, as shown, first, an image is obtained by photographing the user with a camera (S110). There is no limit to the number of cameras for image acquisition. It is okay to use only one camera.
다음, S110단계에서 획득된 영상을 이용하여 사용자의 관절 정보를 생성한다(S120).Next, the user's joint information is generated using the image acquired in step S110 (S120).
S120단계에서는 'S110단계에서 획득된 영상을 분석하여 사용자의 2D 관절 정보를 생성하도록 학습된 딥러닝 모델인 2D 관절 생성 모델'과 '사용자의 2D 관절 정보를 3D 관절 정보로 변환하도록 학습된 딥러닝 모델인 변환 모델'을 이용하여, 2D 관절 정보와 3D 관절 정보를 각각 생성한다.In step S120, '2D joint creation model, which is a deep learning model learned to generate the user's 2D joint information by analyzing the image acquired in step S110' and 'deep learning learned to convert the user's 2D joint information into 3D joint information. Using the model ‘transformation model’, 2D joint information and 3D joint information are generated respectively.
다음, 생성된 2D 관절 정보를 2D EDM(Euclidean Distance Matrix)로 변환하고, 3D 관절 정보는 3D EDM으로 변환한다. 도 3에는 2D EDM과 3D EDM을 예시하였다. 이후, 2D EDM과 3D EDM의 Upper Triangular 성분들을 각각 벡터화하여, 2D 관절 특징 벡터와 3D 관절 특징 벡터를 생성한다.Next, the generated 2D joint information is converted to a 2D Euclidean Distance Matrix (EDM), and the 3D joint information is converted to a 3D EDM. Figure 3 illustrates 2D EDM and 3D EDM. Afterwards, the Upper Triangular components of 2D EDM and 3D EDM are vectorized, respectively, to generate 2D joint feature vectors and 3D joint feature vectors.
한편, S110단계에서 획득된 영상에서 사용자를 검출하고, 검출된 사용자의 시점(방향)을 인식한다(S130). 구체적으로, 사용자의 시점은 다음과 같이 구분하여 인식한다.Meanwhile, the user is detected in the image obtained in step S110, and the viewpoint (direction) of the detected user is recognized (S130). Specifically, the user's viewpoint is recognized as follows.
1) 사용자가 12시 방향을 바라보고 있을 때의 시점 : 0°1) View point when the user is looking at 12 o'clock: 0°
2) 사용자가 1.5시 방향을 바라보고 있을 때의 시점 : 45°2) View point when the user is looking at 1.5 o'clock: 45°
3) 사용자가 3시 방향을 바라보고 있을 때의 시점 : 90°3) View point when the user is looking at 3 o'clock: 90°
4) 사용자가 4.5시 방향을 바라보고 있을 때의 시점 : 135°4) View when the user is looking at 4.5 o'clock: 135°
5) 사용자가 6시 방향을 바라보고 있을 때의 시점 : 180°5) View when the user is looking at 6 o'clock: 180°
6) 사용자가 7.5시 방향을 바라보고 있을 때의 시점 : 225°6) View when the user is looking at 7.5 o'clock: 225°
7) 사용자가 9시 방향을 바라보고 있을 때의 시점 : 270°7) View when the user is looking at 9 o'clock: 270°
8) 사용자가 10.5시 방향을 바라보고 있을 때의 시점 : 315°8) View when the user is looking at 10.5 o'clock: 315°
S120단계에서의 시점 인식은 'S110단계에서 획득된 영상에서 사용자를 검출하고, 검출된 사용자의 시점을 인식하도록 학습된 딥러닝 모델인 시점 인식 모델을 이용하여 수행된다.Viewpoint recognition in step S120 is performed using a viewpoint recognition model, which is a deep learning model learned to detect the user in the image acquired in step S110 and recognize the detected user's viewpoint.
시점 인식 모델은 기존의 객체 인식 모듈, 이를 테면, YOLO 모델을 활용하여 구현할 수 있는데, 객체 인식 모듈이 검출 후에 분류하는 객체의 클래스를 객체의 시점으로 취급한다면, 객체 인식 모듈로 시점 인식 모델을 구현할 수 있다.The viewpoint recognition model can be implemented using an existing object recognition module, such as the YOLO model. If the object recognition module treats the class of the object classified after detection as the viewpoint of the object, the viewpoint recognition model can be implemented using the object recognition module. You can.
그리고, S130단계에서 인식된 시점을 기초로 행동 인식 모델을 결정하고, 결정된 행동 인식 모델을 이용하여 S120단계에서 생성된 관절 정보로부터 사용자의 행동을 인식한다(S140).Then, an action recognition model is determined based on the recognized viewpoint in step S130, and the user's action is recognized from the joint information generated in step S120 using the determined action recognition model (S140).
여기서, 행동 인식 모델은 사용자의 관절 정보를 분석하여 사용자의 행동을 인식하도록 학습된 딥러닝 모델이다. 행동 인식 모델은 Random Forest를 이용한 행동 인식 분류기로 구현할 수 있지만, 그 밖의 다른 인공지능 모델을 이용하여 구현할 수 있음은 물론이다.Here, the action recognition model is a deep learning model learned to recognize the user's actions by analyzing the user's joint information. The action recognition model can be implemented as an action recognition classifier using Random Forest, but of course it can also be implemented using other artificial intelligence models.
한편, 본 발명의 실시예에서 행동 인식 모델은 시점 마다 구분되어 있다. 즉, 행동 인식 모델은 전부 8개, 구체적으로, 1) 사용자의 시점이 0°인 경우에 사용자의 행동을 인식하기 위한 행동 인식 모델-1(RF0°), 2) 사용자의 시점이 45°인 경우에 사용자의 행동을 인식하기 위한 행동 인식 모델-2(RF45°), 3) 사용자의 시점이 90°인 경우에 사용자의 행동을 인식하기 위한 행동 인식 모델-3(RF90°), ..., 8) 사용자의 시점이 315°인 경우에 사용자의 행동을 인식하기 위한 행동 인식 모델-8(RF315°)로 구성된 다중 모델이다.Meanwhile, in the embodiment of the present invention, the action recognition model is divided for each viewpoint. In other words, there are a total of 8 action recognition models. Specifically, 1) Action Recognition Model-1 (RF 0°) for recognizing the user's action when the user's view point is 0°, 2) 2) Action Recognition Model-1 (RF 0° ) for recognizing the user's action when the user's view point is 45° Action Recognition Model-2 (RF 45° ) to recognize the user's action in the case where 3) Action Recognition Model-3 (RF 90° ) to recognize the user's action in the case where the user's viewpoint is 90°, ..., 8) This is a multi-model consisting of Action Recognition Model-8 (RF 315° ) to recognize the user's actions when the user's viewpoint is 315°.
즉, S140단계에서는 인식된 방향에 매칭되어 있는 행동 인식 모델을 이용하여, 사용자의 관절 정보로부터 사용자의 자세를 인식한다고 할 수 있다.That is, in step S140, it can be said that the user's posture is recognized from the user's joint information using an action recognition model that matches the recognized direction.
본 발명의 실시예에서 이용되는 딥러닝 모델은, 1) S110단계에서 획득된 영상을 분석하여 사용자의 2D 관절 정보를 생성하는 2D 관절 생성 모델, 2) 사용자의 2D 관절 정보를 3D 관절 정보로 변환하는 변환 모델, 3) S110단계에서 획득된 영상을 분석하여 사용자의 시점을 인식하는 시점 인식 모델, 4) 사용자의 관절 정보를 분석하여 사용자의 행동을 인식하는 8개의 행동 인식 모델들이다.The deep learning model used in the embodiment of the present invention is 1) a 2D joint creation model that generates the user's 2D joint information by analyzing the image acquired in step S110, and 2) converts the user's 2D joint information into 3D joint information. 3) a viewpoint recognition model that recognizes the user's viewpoint by analyzing the image acquired in step S110, and 4) eight action recognition models that recognize the user's behavior by analyzing the user's joint information.
이들은 모두 지도 학습을 통해 학습시킬 수 있다. 이하에서는, 시점 인식 모델을 학습시키기 위한 학습 데이터를 생성하는 과정에 대해 상세히 설명한다.These can all be learned through supervised learning. Below, the process of generating learning data for training a viewpoint recognition model will be described in detail.
시점 인식 모델을 학습시키기 위한 학습 영상은, 8개의 시점(0°, 45°, 90°, ..., 315°)으로 사용자를 촬영할 수 있도록 설치된 8대의 카메라들을 이용하여 생성할 수 있다. 이 상태에서 사용자로 하여금 여러 가지 행동을 취하도록 유도하면, 각 행동에 대해 시점 별로 학습 영상을 획득할 수 있게 된다. 이와 같은 방법으로 획득한 학습 영상을 도 4에 예시하였다.Training images for training a viewpoint recognition model can be created using 8 cameras installed to capture the user from 8 viewpoints (0°, 45°, 90°, ..., 315°). In this state, if the user is encouraged to take various actions, learning images can be obtained at each time point for each action. The learning image obtained in this way is shown in Figure 4.
다음, 학습 영상들에 대한 라벨링 작업을 수행한다. 구체적으로, 학습 영상에서 사용자 영역을 나타내는 BBox(Bounding Box)에 대한 정보와 사용자의 시점(방향) 정보를 학습 영상에 라벨링하는 것이다. 라벨링된 학습 영상들은 시점 인식 모델의 학습에 활용된다.Next, labeling work is performed on the training images. Specifically, information about the BBox (Bounding Box) representing the user area in the learning image and the user's viewpoint (direction) information are labeled in the learning image. Labeled training videos are used to learn a viewpoint recognition model.
도 5는 본 발명의 다른 실시예에 따른 행동 인식 시스템의 블럭도이다. 본 발명의 실시예에 따른 행동 인식 시스템은, 도시된 바와 같이, 카메라(210), 관절 정보 생성부(220), 시점 인식부(230) 및 행동 인식부(240)를 포함하여 구성된다.Figure 5 is a block diagram of an action recognition system according to another embodiment of the present invention. As shown, the action recognition system according to an embodiment of the present invention includes a camera 210, a joint information generator 220, a viewpoint recognition unit 230, and an action recognition unit 240.
카메라(210)는 사용자를 촬영하여 영상을 생성하고, 관절 정보 생성부(220)는 카메라(210)에서 생성된 영상으로부터 사용자의 관절 정보를 생성한다.The camera 210 captures the user and generates an image, and the joint information generator 220 generates the user's joint information from the image generated by the camera 210.
시점 인식부(230)는 카메라(210)에서 생성된 영상으로부터 사용자를 검출하고, 검출된 사용자의 시점을 인식한다. The viewpoint recognition unit 230 detects the user from the image generated by the camera 210 and recognizes the detected user's viewpoint.
행동 인식부(240)는 시점 인식부(230)에 의해 인식된 사용자의 시점을 기초로 8개의 행동 인식 모델들 중 하나를 선택하고, 선택된 행동 인식 모델을 이용하여 관절 정보 생성부(220)가 생성한 사용자의 관절 정보로부터 사용자의 행동을 인식한다.The action recognition unit 240 selects one of eight action recognition models based on the user's viewpoint recognized by the viewpoint recognition unit 230, and the joint information generation unit 220 uses the selected action recognition model. The user's behavior is recognized from the generated user's joint information.
지금까지, 시점에 따른 다중 분류기를 이용한 행동 인식 방법 및 시스템에 대해 바람직한 실시예를 들어 상세히 설명하였다.So far, the behavior recognition method and system using multiple classifiers according to viewpoints have been described in detail with preferred embodiments.
위 실시예에서는 행동 인식을 위한 행동 인식 모델을 다중으로 설계하고, 입력 영상으로부터 사용자의 시점을 인식하여, 인식한 시점의 행동을 학습한 행동 인식 모델을 이용하여 행동을 인식함으로써, 시점 변화에 강인한 행동 인식이 가능하도록 하였다.In the above embodiment, multiple action recognition models for action recognition are designed, the user's viewpoint is recognized from the input image, and the action is recognized using an action recognition model that has learned the behavior at the recognized viewpoint, making it robust to viewpoint changes. Action recognition was made possible.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.Meanwhile, of course, the technical idea of the present invention can be applied to a computer-readable recording medium containing a computer program that performs the functions of the device and method according to this embodiment. Additionally, the technical ideas according to various embodiments of the present invention may be implemented in the form of computer-readable code recorded on a computer-readable recording medium. A computer-readable recording medium can be any data storage device that can be read by a computer and store data. For example, of course, computer-readable recording media can be ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, etc. Additionally, computer-readable codes or programs stored on a computer-readable recording medium may be transmitted through a network connected between computers.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.In addition, although preferred embodiments of the present invention have been shown and described above, the present invention is not limited to the specific embodiments described above, and the technical field to which the invention pertains without departing from the gist of the present invention as claimed in the claims. Of course, various modifications can be made by those skilled in the art, and these modifications should not be understood individually from the technical idea or perspective of the present invention.
210 : 카메라
220 : 관절 정보 생성부
230 : 시점 인식부
240 : 행동 인식부210: camera
220: Joint information generation unit
230: viewpoint recognition unit
240: Behavior recognition unit
Claims (12)
획득한 영상으로부터 사용자의 시점을 인식하는 단계; 및
인식된 시점에 따라, 각기 다른 행동 인식 모델을 이용하여 사용자의 행동을 인식하는 단계;를 포함하고,
행동 인식 단계는,
다수의 시점들 각각에 매칭되어 있는 행동 인식 모델들 중 인식된 시점에 매칭되어 있는 행동 인식 모델 하나만을 이용하는 것을 특징으로 하는 행동 인식 방법.
Acquiring an image;
Recognizing the user's viewpoint from the acquired image; and
Recognizing the user's behavior using different behavior recognition models, depending on the recognized time point,
The action recognition stage is,
An action recognition method characterized by using only one action recognition model that is matched to a recognized view point among action recognition models that are matched to each of a plurality of view points.
시점 인식 단계는,
입력되는 영상에서 사용자를 검출하고 검출된 사용자의 시점을 인식하도록 학습된 딥러닝 모델인 시점 인식 모델을 이용하여, 사용자의 시점을 인식하는 것을 특징으로 하는 행동 인식 방법.
In claim 1,
The viewpoint recognition stage is,
An action recognition method characterized by detecting a user in an input video and recognizing the user's viewpoint using a viewpoint recognition model, which is a deep learning model learned to recognize the detected user's viewpoint.
시점 인식 모델은,
객체 인식 모듈에서 분류하는 객체의 클래스를 객체의 시점으로 변경하여 구현하는 것을 특징으로 하는 행동 인식 방법.
In claim 3,
The viewpoint recognition model is,
An action recognition method characterized by being implemented by changing the class of the object classified in the object recognition module to the object's viewpoint.
시점 인식 모델은,
사용자가 기준 시점을 향하는 상태로 취하는 행동들을 다수의 카메라들을 이용하여 다수의 시점들에서 촬영하여 생성한 영상들로 학습되는 것을 특징으로 하는 행동 인식 방법.
In claim 3,
The viewpoint recognition model is,
An action recognition method characterized in that actions taken by a user while facing a reference viewpoint are learned from images generated by filming from multiple viewpoints using multiple cameras.
시점들은,
정해진 각도 만큼씩 떨어져 있는 것을 특징으로 하는 행동 인식 방법.
In claim 1,
The viewpoints are,
An action recognition method characterized by being spaced apart at a predetermined angle.
획득한 영상으로부터 사용자의 관절 정보를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 행동 인식 방법.
In claim 1,
An action recognition method further comprising: generating joint information of the user from the acquired image.
행동 인식 단계는,
생성된 사용자의 관절 정보로부터 사용자의 행동을 인식하는 것을 특징으로 하는 행동 인식 방법.
In claim 7,
The action recognition stage is,
An action recognition method characterized by recognizing a user's action from the generated user's joint information.
관절 정보는,
획득된 영상으로부터 생성한 2D 관절 정보와 2D 관절 정보로부터 생성한 3D 관절 정보를 포함하는 것을 특징으로 하는 행동 인식 방법.
In claim 1,
Joint information,
An action recognition method comprising 2D joint information generated from acquired images and 3D joint information generated from 2D joint information.
카메라에 의해 획득한 영상으로부터 사용자의 시점을 인식하는 시점 인식부; 및
인식된 시점에 따라, 각기 다른 행동 인식 모델을 이용하여 사용자의 행동을 인식하는 행동 인식부;를 포함하고,
행동 인식부는,
다수의 시점들 각각에 매칭되어 있는 행동 인식 모델들 중 인식된 시점에 매칭되어 있는 행동 인식 모델 하나만을 이용하는 것을 특징으로 하는 행동 인식 시스템.
A camera that acquires images;
a viewpoint recognition unit that recognizes the user's viewpoint from an image acquired by a camera; and
It includes a behavior recognition unit that recognizes the user's behavior using different behavior recognition models, depending on the recognized time point,
Behavioral recognition department,
An action recognition system characterized by using only one action recognition model that matches the recognized view point among action recognition models that are matched to each of a plurality of view points.
획득한 영상으로부터 사용자의 관절 정보를 생성하는 단계; 및
인식된 시점에 따라, 각기 다른 행동 인식 모델을 이용하여 사용자의 관절 정보로부터 사용자의 행동을 인식하는 단계;를 포함하고,
행동 인식 단계는,
다수의 시점들 각각에 매칭되어 있는 행동 인식 모델들 중 인식된 시점에 매칭되어 있는 행동 인식 모델 하나만을 이용하는 것을 특징으로 하는 행동 인식 방법.
Recognizing the user's viewpoint from the image;
Generating user joint information from the acquired image; and
According to the recognized viewpoint, recognizing the user's action from the user's joint information using different action recognition models;
The action recognition stage is,
An action recognition method characterized by using only one action recognition model that is matched to a recognized view point among action recognition models that are matched to each of a plurality of view points.
획득한 영상으로부터 사용자의 관절 정보를 생성하는 관절 정보 생성부; 및
인식된 시점에 따라, 각기 다른 행동 인식 모델을 이용하여 사용자의 관절 정보로부터 사용자의 행동을 인식하는 행동 인식부;를 포함하고,
행동 인식부는,
다수의 시점들 각각에 매칭되어 있는 행동 인식 모델들 중 인식된 시점에 매칭되어 있는 행동 인식 모델 하나만을 이용하는 것을 특징으로 하는 행동 인식 시스템.
A viewpoint recognition unit that recognizes the user's viewpoint from the image;
a joint information generator that generates joint information of the user from the acquired image; and
An action recognition unit that recognizes the user's action from the user's joint information using different action recognition models, depending on the recognized time point,
The behavioral recognition department,
An action recognition system characterized by using only one action recognition model that matches the recognized view point among action recognition models that are matched to each of a plurality of view points.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210183640A KR102658344B1 (en) | 2021-12-21 | 2021-12-21 | Action recognition method and system using multiple classifiers according to viewpoints |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210183640A KR102658344B1 (en) | 2021-12-21 | 2021-12-21 | Action recognition method and system using multiple classifiers according to viewpoints |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230094446A KR20230094446A (en) | 2023-06-28 |
KR102658344B1 true KR102658344B1 (en) | 2024-04-17 |
Family
ID=86994628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210183640A KR102658344B1 (en) | 2021-12-21 | 2021-12-21 | Action recognition method and system using multiple classifiers according to viewpoints |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102658344B1 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190117838A (en) * | 2018-03-26 | 2019-10-17 | 한국전자통신연구원 | System and method for recognizing object |
KR102170888B1 (en) * | 2018-12-19 | 2020-10-28 | 한국전자기술연구원 | Apparatus and Method for Image based Human Posture and Shape Model Reconstruction with Inter Joint Distance Information |
KR102260120B1 (en) * | 2019-11-04 | 2021-06-03 | 주식회사 넥스트케이 | Apparatus for Performing Recognition of Activity Based on Deep Learning and Driving Method Thereof |
-
2021
- 2021-12-21 KR KR1020210183640A patent/KR102658344B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20230094446A (en) | 2023-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ranjan et al. | Hyperface: A deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition | |
Dibeklioglu et al. | Like father, like son: Facial expression dynamics for kinship verification | |
Yang et al. | Discovering motion primitives for unsupervised grouping and one-shot learning of human actions, gestures, and expressions | |
Motiian et al. | Online human interaction detection and recognition with multiple cameras | |
KR20190054702A (en) | Method and apparatus for detecting action of object in viedio stream | |
KR102111667B1 (en) | Apparatus of generating 2d image data set for deep learning through 3d design drawing data processing and system for searching simillar design drawing data based on deep learning using the same | |
CN109063626B (en) | Dynamic face recognition method and device | |
Chen et al. | TriViews: A general framework to use 3D depth data effectively for action recognition | |
CN112528902B (en) | Video monitoring dynamic face recognition method and device based on 3D face model | |
CN111753764A (en) | Gesture recognition method of edge terminal based on attitude estimation | |
Samadiani et al. | Happy emotion recognition from unconstrained videos using 3D hybrid deep features | |
JP2017228224A (en) | Information processing device, information processing method, and program | |
KR20210051473A (en) | Apparatus and method for recognizing video contents | |
Afshar et al. | Facial expression recognition in the wild using improved dense trajectories and fisher vector encoding | |
Gammulle et al. | Coupled generative adversarial network for continuous fine-grained action segmentation | |
KR102277929B1 (en) | Real time face masking system based on face recognition and real time face masking method using the same | |
Bertasius et al. | Learning discriminative motion features through detection | |
KR102138681B1 (en) | Apparatus and method for detecting object based on heterogeneous sensor | |
Li et al. | Web front-end realtime face recognition based on TFJS | |
Perveen et al. | Configural Representation of Facial Action Units for Spontaneous Facial Expression Recognition in the Wild. | |
KR102658344B1 (en) | Action recognition method and system using multiple classifiers according to viewpoints | |
CN111143544A (en) | Histogram information extraction method and device based on neural network | |
Xiong et al. | Coaction discovery: segmentation of common actions across multiple videos | |
Ladjailia et al. | Encoding human motion for automated activity recognition in surveillance applications | |
Noor et al. | Model generation for video-based object recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |