KR20200030947A - 4d rig reconstructing device and a method thereof - Google Patents
4d rig reconstructing device and a method thereof Download PDFInfo
- Publication number
- KR20200030947A KR20200030947A KR1020180109797A KR20180109797A KR20200030947A KR 20200030947 A KR20200030947 A KR 20200030947A KR 1020180109797 A KR1020180109797 A KR 1020180109797A KR 20180109797 A KR20180109797 A KR 20180109797A KR 20200030947 A KR20200030947 A KR 20200030947A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- rigging information
- rigging
- unit
- deep learning
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 109
- 238000013136 deep learning model Methods 0.000 claims description 105
- 239000013589 supplement Substances 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 6
- 210000001503 joint Anatomy 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 9
- 210000000988 bone and bone Anatomy 0.000 description 8
- 238000005259 measurement Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 210000000629 knee joint Anatomy 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 210000000544 articulatio talocruralis Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 210000002310 elbow joint Anatomy 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 210000000323 shoulder joint Anatomy 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G06T5/001—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
- G06T2207/20044—Skeletonization; Medial axis transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
본 발명의 실시예들은 4D리깅정보 복원장치 및 방법에 관한 것으로서, 더욱 상세하게는, 단안 카메라로부터 촬영된 영상 시퀀스로 하나 이상의 객체의 2D리깅정보를 추정하고 추정된 2D리깅정보를 3D리깅정보로 변환한 후에 변환된 3D리깅정보를 2D리깅정보로 변환하여 새로 추정된 2D리깅정보를 보완하는 4D리깅정보 복원장치 및 방법에 관한 것이다.Embodiments of the present invention relates to an apparatus and method for restoring 4D rigging information, and more specifically, estimating 2D rigging information of one or more objects from an image sequence taken from a monocular camera and converting the estimated 2D rigging information to 3D rigging information. After conversion, the converted 3D rigging information is converted into 2D rigging information, and a 4D rigging information restoration apparatus and method for supplementing newly estimated 2D rigging information.
리깅(rigging)이란 2D 또는 3D로 모델링이 된 데이터에 뼈(skeleton)를 붙이는 것을 의미할 수 있고 리깅정보란 관절위치정보, 관절간거리정보 또는 뼈대정보를 의미할 수 있다.Rigging may mean attaching a skeleton to data modeled in 2D or 3D, and rigging information may mean joint location information, inter-articular distance information, or skeleton information.
여기에서, 관절위치정보란 각 관절별로 관절이 위치하는 좌표를 의미할 수 있고 관절간거리정보란 각 관절별로 다른 관절과의 거리를 의미할 수 있으며 뼈대정보란 인접한 관절을 연결한 각 뼈의 길이나 각도 등을 의미할 수 있다.Here, the joint position information may refer to the coordinates where the joint is located for each joint, and the inter-joint distance information may mean a distance from another joint for each joint, and the skeleton information may refer to the length of each bone connecting adjacent joints or the like. It may mean an angle or the like.
리깅정보 복원이란 영상 시퀀스로부터 시간에 따라 변하는 객체의 리깅정보를 산출하는 것을 의미할 수 있다.Rigging information restoration may mean calculating rigging information of an object that changes over time from an image sequence.
한편, 리깅정보를 통해 객체의 자세를 알 수 있으므로 리깅정보는 자세정보와 동일한 의미로 사용될 수 있고 리깅정보 복원을 통해 객체의 자세변화를 알 수 있으므로 리깅정보 복원은 자세인식, 자세추정 또는 동작인식과 동일한 의미로 사용될 수 있다.On the other hand, since the posture of the object can be known through the rigging information, the rigging information can be used in the same sense as the posture information, and the change in the posture of the object can be known by restoring the rigging information, so that the rigging information restoration is posture recognition, posture estimation, or motion recognition. It can be used in the same sense as.
리깅정보 복원은 영상분석을 통한 동작인식 기술분야에서 이용되고 있고 이러한 분야에서는 주로 재활치료, 체감형 게임 또는 스포츠 동작 연습 등에 활용되고 있다.Rigging information restoration is used in the field of motion recognition technology through image analysis, and is mainly used in rehabilitation therapy, haptic games, or sports movement exercises in these fields.
이 때에, 대부분의 종래기술은 객체를 촬영한 영상과 함께 객체에 대한 깊이 정보를 이용하여 리깅정보 복원을 하고 있는데 깊이 정보를 측정하여 리깅정보 복원을 하기 위해서는 다시점 영상이나 깊이 측정 센서가 요구된다.At this time, most of the prior art restores the rigging information using the depth information on the object together with the image of the object, but to measure the depth information and restore the rigging information, a multi-view image or depth measurement sensor is required. .
그런데, 다시점 영상을 얻기 위해서는 객체를 다양한 각도에서 촬영할 수 있도록 배치된 복수의 카메라가 필요하여 카메라 배치 공간이 필요하고 비용이 증가하는 문제가 있고 깊이 측정 센서를 사용하는 경우에는 깊이 측정거리나 측정범위가 제한되고 조명 등에 의한 노이즈로 인하여 깊이 측정 오차가 커지는 문제가 있다.However, in order to obtain a multi-view image, a plurality of cameras arranged to shoot an object from various angles is required, so there is a problem that a space for the camera is required and the cost increases, and when using a depth measurement sensor, depth measurement distance or measurement There is a problem that the range is limited and the depth measurement error is increased due to noise caused by lighting.
한편, 다시점 영상이 아닌 스테레오 영상을 통해 깊이 정보를 측정할 수도 있는데 이 경우에는 양안(스테레오) 카메라가 필요하므로 일반적인 단안(모노) 카메라를 사용할 수 없다는 문제가 있다.On the other hand, depth information may be measured through a stereo image rather than a multi-view image. In this case, since a binocular (stereo) camera is required, a general monocular (mono) camera cannot be used.
이와 관련하여 종래기술을 살펴보면 다음과 같다.In this regard, the prior art is as follows.
한국등록특허 제10-1784410호는 운동 자세 인식 방법에 관한 것으로, 더욱 상세하게는 제시된 특정 운동 자세를 취하는 사용자의 신체 관절 부분의 위치 정보를 구하는 단계, 상기 위치 정보를 이용해 3차원 공간에서의 벡터를 구하는 단계, 상기 벡터로부터 신체 관절 부분의 각도를 계산하는 단계, 상기 각도를 이용해 상기 특정 운동 자세에 대한 상기 사용자의 실제 자세의 일치율을 계산하는 단계를 포함하는 운동 자세 인식 방법에 관한 것이다.Korean Registered Patent No. 10-1784410 relates to a method for recognizing an exercise posture, and more specifically, obtaining position information of a user's body joint part taking a specific exercise posture, and using the position information, a vector in a 3D space It is related to a method of recognizing an exercise posture, comprising: obtaining, calculating an angle of a body joint part from the vector, and calculating a matching rate of the actual posture of the user with respect to the specific exercise posture using the angle.
그러나, 종래기술은 3차원 자세를 계산하기 위해 깊이 측정 센서(IR 프로젝터)를 사용하므로 깊이 정보 없이 단안 카메라로 촬영된 영상 시퀀스로부터 리깅정보를 복원하는 방법을 제시하지 못한다.However, the prior art uses a depth measurement sensor (IR projector) to calculate a three-dimensional attitude, and therefore does not propose a method of restoring rigging information from an image sequence taken with a monocular camera without depth information.
전술한 문제점을 해결하기 위하여, 본 발명의 실시예들은 단안 카메라로부터 하나 이상의 객체를 촬영한 영상 시퀀스를 입력받는 영상획득부, 영상 시퀀스의 각 프레임별로 객체를 검출하고 객체의 2D관절위치를 기초로 2D리깅정보를 추정하는 2D리깅정보추정부, 2D리깅정보를 3D리깅정보로 변환하는 3D리깅정보변환부, 변환된 3D리깅정보를 2D리깅정보로 변환하는 2D리깅정보변환부 및 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 2D리깅정보를 보완하는 데이터연관부를 포함하는 4D리깅정보 복원장치를 제공하는데 그 목적이 있다.In order to solve the above-described problems, embodiments of the present invention is an image acquisition unit that receives an image sequence obtained by capturing one or more objects from a monocular camera, detects an object for each frame of the image sequence, and based on the 2D joint position of the object. From the 2D rigging information estimator for estimating 2D rigging information, the 3D rigging information conversion unit for converting 2D rigging information into 3D rigging information, the 2D rigging information conversion unit for converting the converted 3D rigging information into 2D rigging information, and subsequent frames. An object of the present invention is to provide a 4D rigging information restoration apparatus including a data connection unit that complements 2D rigging information by comparing the estimated 2D rigging information with the converted 2D rigging information.
또한, 본 발명의 실시예들은 변환된 3D리깅정보로부터 특정시간 경과 후의 3D리깅정보를 예측하는 3D리깅정보예측부를 포함하고, 2D리깅정보변환부는 예측된 3D리깅정보를 2D리깅정보로 변환하는 4D리깅정보 복원장치를 제공하는데 그 목적이 있다.In addition, embodiments of the present invention includes a 3D rigging information prediction unit that predicts 3D rigging information after a specific time from the converted 3D rigging information, and the 2D rigging information conversion unit converts the predicted 3D rigging information into 2D rigging information. The purpose is to provide a device for restoring rigging information.
또한, 본 발명의 실시예들은 데이터연관부가 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 객체별로 2D리깅정보를 보완하는 4D리깅정보 복원장치를 제공하는데 그 목적이 있다.In addition, embodiments of the present invention has an object to provide a 4D rigging information restoration apparatus that complements 2D rigging information for each object by comparing the 2D rigging information estimated from the subsequent frame with the converted 2D rigging information.
또한, 본 발명의 실시예들은 2D리깅정보가 2D관절간거리정보 또는 2D관절위치정보를 포함하고, 데이터연관부는 이후의 프레임으로부터 추정된 2D리깅정보 또는 이후의 프레임의 2D관절위치 주변의 영상패치와 변환된 2D리깅정보 또는 변환된 2D리깅정보와 관련된 2D관절위치 주변의 영상패치를 비교하여 객체별로 2D리깅정보를 보완하는 4D리깅정보 복원장치를 제공하는데 그 목적이 있다.In addition, in the embodiments of the present invention, the 2D rigging information includes 2D joint distance information or 2D joint position information, and the data connection unit includes 2D rigging information estimated from a subsequent frame or a video patch around a 2D joint position of a subsequent frame. An object of the present invention is to provide a 4D rigging information restoration device that complements 2D rigging information for each object by comparing image patches around 2D joint positions related to the converted 2D rigging information or the converted 2D rigging information.
또한, 본 발명의 실시예들은 데이터연관부가 칼만필터 또는 LSTM을 이용하여 2D리깅정보를 보완하는 4D리깅정보 복원장치를 제공하는데 그 목적이 있다.In addition, embodiments of the present invention has an object to provide a 4D rigging information restoration apparatus that complements 2D rigging information using a Kalman filter or LSTM by the data connection unit.
또한, 본 발명의 실시예들은 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부는 2D리깅정보를 3D리깅정보로 변환하거나 변환된 3D리깅정보로부터 3D리깅정보를 예측하거나 3D리깅정보를 2D리깅정보로 변환하기 위해서 딥러닝모델을 이용하는 4D리깅정보 복원장치를 제공하는데 그 목적이 있다.In addition, embodiments of the present invention, a 3D rigging information conversion unit, the 3D rigging information prediction unit or the 2D rigging information conversion unit converts 2D rigging information into 3D rigging information or predicts 3D rigging information from the converted 3D rigging information or 3D The purpose of the present invention is to provide a 4D rigging information restoration apparatus using a deep learning model to convert rigging information into 2D rigging information.
또한, 본 발명의 실시예들은 딥러닝모델이 2D관절간거리정보 또는 3D관절간거리정보를 이용하여 학습되고, 3D리깅정보변환부, 3D리깅정보예측부 또는 2D리깅정보변환부는 2D리깅정보 또는 3D리깅정보를 2D관절간거리정보 또는 3D관절간거리정보로 인코딩하여 학습된 딥러닝모델에 입력하는 4D리깅정보 복원장치를 제공하는데 그 목적이 있다.In addition, in the embodiments of the present invention, a deep learning model is learned using 2D joint distance information or 3D joint distance information, and the 3D rigging information conversion unit, 3D rigging information prediction unit, or 2D rigging
또한, 본 발명의 실시예들은 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부가 인코딩된 2D관절간거리정보 또는 3D관절간거리정보를 다차원척도법(MDS)을 이용하여 2D리깅정보 또는 3D리깅정보로 디코딩하는 4D리깅정보 복원장치를 제공하는데 그 목적이 있다.In addition, embodiments of the present invention is a 3D rigging information conversion unit, the 3D rigging information prediction unit or the 2D rigging information conversion unit encoding the 2D joint distance information or 3D joint distance information using the multidimensional scaling method (MDS) 2D rigging information Another object is to provide a 4D rigging information restoration apparatus that decodes 3D rigging information.
또한, 본 발명의 실시예들은 딥러닝모델을 학습시키는 딥러닝모델부를 포함하는 4D리깅정보 복원장치를 제공하는데 그 목적이 있다.In addition, embodiments of the present invention has an object to provide a 4D rigging information restoration apparatus including a deep learning model unit for learning a deep learning model.
또한, 본 발명의 실시예들은 단안 카메라로부터 하나 이상의 객체를 촬영한 영상 시퀀스를 입력받는 영상획득단계, 영상 시퀀스의 각 프레임별로 객체를 검출하고 객체의 2D관절위치를 기초로 2D리깅정보를 추정하는 2D리깅정보추정단계, 2D리깅정보를 3D리깅정보로 변환하는 3D리깅정보변환단계, 변환된 3D리깅정보를 2D리깅정보로 변환하는 2D리깅정보변환단계 및 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 2D리깅정보를 보완하는 데이터연관단계를 포함하는 4D리깅정보 복원방법을 제공하는데 그 목적이 있다.In addition, embodiments of the present invention, an image acquisition step of receiving an image sequence of one or more objects taken from a monocular camera, detecting an object for each frame of the image sequence, and estimating 2D rigging information based on the 2D joint position of the
전술한 목적을 달성하기 위한 본 발명의 일 실시예는 단안 카메라로부터 하나 이상의 객체를 촬영한 영상 시퀀스를 입력받는 영상획득부; 상기 영상 시퀀스의 각 프레임별로 객체를 검출하고 상기 객체의 2D관절위치를 기초로 2D리깅정보를 추정하는 2D리깅정보추정부; 상기 2D리깅정보를 3D리깅정보로 변환하는 3D리깅정보변환부; 변환된 상기 3D리깅정보를 2D리깅정보로 변환하는 2D리깅정보변환부; 및 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 상기 2D리깅정보를 비교하여 상기 2D리깅정보를 보완하는 데이터연관부를 포함하는 4D리깅정보 복원장치를 제공한다.One embodiment of the present invention for achieving the above object is an image acquisition unit for receiving an image sequence of one or more objects taken from a monocular camera; 2D rigging information estimation for detecting an object for each frame of the image sequence and estimating 2D rigging information based on the 2D joint position of the object; A 3D rigging information conversion unit converting the 2D rigging information into 3D rigging information; A 2D rigging information conversion unit converting the converted 3D rigging information into 2D rigging information; And it provides a 4D rigging information recovery apparatus including a data connection unit that complements the 2D rigging information by comparing the converted 2D rigging information with the 2D rigging information estimated from a subsequent frame.
일 실시예에서, 상기 4D리깅정보 복원장치는, 변환된 상기 3D리깅정보로부터 특정시간 경과 후의 3D리깅정보를 예측하는 3D리깅정보예측부를 포함하고, 상기 2D리깅정보변환부는 예측된 상기 3D리깅정보를 2D리깅정보로 변환할 수 있다.In one embodiment, the apparatus for restoring 4D rigging information includes a 3D rigging information prediction unit for predicting 3D rigging information after a specific time has elapsed from the converted 3D rigging information, and the 2D rigging information conversion unit is the predicted 3D rigging information Can be converted into 2D rigging information.
일 실시예에서, 상기 데이터연관부는 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 상기 2D리깅정보를 비교하여 객체별로 상기 2D리깅정보를 보완할 수 있다.In one embodiment, the data connection unit may complement the 2D rigging information for each object by comparing 2D rigging information estimated with 2D rigging information estimated from a subsequent frame.
일 실시예에서, 상기 2D리깅정보는 2D관절간거리정보 또는 2D관절위치정보를 포함하고, 상기 데이터연관부는 이후의 프레임으로부터 추정된 2D리깅정보 또는 이후의 프레임의 2D관절위치 주변의 영상패치와 변환된 상기 2D리깅정보 또는 변환된 상기 2D리깅정보와 관련된 2D관절위치 주변의 영상패치를 비교하여 객체별로 상기 2D리깅정보를 보완할 수 있다.In one embodiment, the 2D rigging information includes 2D joint distance information or 2D joint position information, and the data connection unit converts 2D rigging information estimated from a subsequent frame or an image patch around a 2D joint position of a subsequent frame. The 2D rigging information may be supplemented for each object by comparing an image patch around a 2D joint position related to the 2D rigging information or the converted 2D rigging information.
일 실시예에서, 상기 데이터연관부는 칼만필터 또는 LSTM을 이용하여 상기 2D리깅정보를 보완할 수 있다.In one embodiment, the data connection unit may supplement the 2D rigging information using a Kalman filter or LSTM.
일 실시예에서, 상기 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부는 2D리깅정보를 3D리깅정보로 변환하거나 변환된 3D리깅정보로부터 3D리깅정보를 예측하거나 3D리깅정보를 2D리깅정보로 변환하기 위해서 딥러닝모델을 이용할 수 있다.In one embodiment, the 3D rigging information conversion unit, the 3D rigging information prediction unit or the 2D rigging information conversion unit converts 2D rigging information into 3D rigging information or predicts 3D rigging information from the converted 3D rigging information or 3D rigging information A deep learning model can be used to convert the data into 2D rigging information.
일 실시예에서, 상기 딥러닝모델은 2D관절간거리정보 또는 3D관절간거리정보를 이용하여 학습되고, 상기 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부는 2D리깅정보 또는 3D리깅정보를 2D관절간거리정보 또는 3D관절간거리정보로 인코딩하여 학습된 상기 딥러닝모델에 입력할 수 있다.In one embodiment, the deep learning model is learned using 2D joint distance information or 3D joint distance information, and the 3D rigging information conversion unit, the 3D rigging information prediction unit or the 2D rigging information conversion unit is 2D rigging information or 3D The rigging information may be encoded into 2D joint distance information or 3D joint distance information and input into the learned deep learning model.
일 실시예에서, 상기 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부는 인코딩된 2D관절간거리정보 또는 3D관절간거리정보를 다차원척도법(MDS)을 이용하여 2D리깅정보 또는 3D리깅정보로 디코딩할 수 있다.In one embodiment, the 3D rigging information conversion unit, the 3D rigging information prediction unit or the 2D rigging information conversion unit encodes the encoded 2D joint distance information or 3D joint distance information using 2D rigging information (MDS) or 2D rigging information. It can be decoded into rigging information.
일 실시예에서, 상기 4D리깅정보 복원장치는, 상기 딥러닝모델을 학습시키는 딥러닝모델부를 포함할 수 있다.In one embodiment, the apparatus for restoring 4D rigging information may include a deep learning model unit for learning the deep learning model.
또한, 전술한 목적을 달성하기 위한 본 발명의 다른 실시예는 단안 카메라로부터 하나 이상의 객체를 촬영한 영상 시퀀스를 입력받는 영상획득단계; 상기 영상 시퀀스의 각 프레임별로 객체를 검출하고 상기 객체의 2D관절위치를 기초로 2D리깅정보를 추정하는 2D리깅정보추정단계; 상기 2D리깅정보를 3D리깅정보로 변환하는 3D리깅정보변환단계; 변환된 상기 3D리깅정보를 2D리깅정보로 변환하는 2D리깅정보변환단계; 및 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 상기 2D리깅정보를 비교하여 상기 2D리깅정보를 보완하는 데이터연관단계를 포함하는 4D리깅정보 복원방법을 제공한다.In addition, another embodiment of the present invention for achieving the above object is an image acquisition step of receiving an image sequence of one or more objects taken from a monocular camera; A 2D rigging information estimation step of detecting an object for each frame of the image sequence and estimating 2D rigging information based on the 2D joint position of the object; A 3D rigging information conversion step of converting the 2D rigging information into 3D rigging information; A 2D rigging information conversion step of converting the converted 3D rigging information into 2D rigging information; And a data linking step of compensating for the 2D rigging information by comparing the 2D rigging information estimated with the 2D rigging information estimated from a subsequent frame.
이상과 같이, 본 발명의 실시예들은 단안 카메라로부터 하나 이상의 객체를 촬영한 영상 시퀀스를 입력받는 영상획득부, 영상 시퀀스의 각 프레임별로 객체를 검출하고 객체의 2D관절위치를 기초로 2D리깅정보를 추정하는 2D리깅정보추정부, 2D리깅정보를 3D리깅정보로 변환하는 3D리깅정보변환부, 변환된 3D리깅정보를 2D리깅정보로 변환하는 2D리깅정보변환부 및 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 2D리깅정보를 보완하는 데이터연관부를 포함하는 4D리깅정보 복원장치를 제공함으로써, 단안 카메라에 의해 촬영된 영상으로부터 객체의 리깅정보를 정확하게 복원할 수 있다.As described above, embodiments of the present invention, an image acquisition unit that receives an image sequence obtained by capturing one or more objects from a monocular camera, detects an object for each frame of the image sequence, and provides 2D rigging information based on the 2D joint position of the object. Estimation of 2D rigging information, 3D rigging information conversion unit for converting 2D rigging information into 3D rigging information, 2D rigging information conversion unit for converting converted 3D rigging information into 2D rigging information, and 2D rigging estimated from subsequent frames By providing the 4D rigging information restoration apparatus including a data connection unit that complements the 2D rigging information by comparing the information with the converted 2D rigging information, it is possible to accurately restore the rigging information of an object from an image photographed by a monocular camera.
또한, 본 발명의 실시예들은 변환된 3D리깅정보로부터 특정시간 경과 후의 3D리깅정보를 예측하는 3D리깅정보예측부를 포함하고, 2D리깅정보변환부는 예측된 3D리깅정보를 2D리깅정보로 변환하는 4D리깅정보 복원장치를 제공함으로써, 객체의 리깅정보를 정확하게 복원할 수 있다.In addition, embodiments of the present invention includes a 3D rigging information prediction unit that predicts 3D rigging information after a specific time from the converted 3D rigging information, and the 2D rigging information conversion unit converts the predicted 3D rigging information into 2D rigging information. By providing the rigging information restoring apparatus, the rigging information of the object can be accurately restored.
또한, 본 발명의 실시예들은 데이터연관부가 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 객체별로 2D리깅정보를 보완하는 4D리깅정보 복원장치를 제공함으로써, 객체별로 리깅정보를 정확하게 복원할 수 있다.In addition, embodiments of the present invention provides a 4D rigging information restoration apparatus that complements 2D rigging information for each object by comparing the 2D rigging information estimated from a subsequent frame and the converted 2D rigging information by the data association unit. Can be accurately restored.
또한, 본 발명의 실시예들은 2D리깅정보가 2D관절간거리정보 또는 2D관절위치정보를 포함하고, 데이터연관부는 이후의 프레임으로부터 추정된 2D리깅정보 또는 이후의 프레임의 2D관절위치 주변의 영상패치와 변환된 2D리깅정보 또는 변환된 2D리깅정보와 관련된 2D관절위치 주변의 영상패치를 비교하여 객체별로 2D리깅정보를 보완하는 4D리깅정보 복원장치를 제공함으로써, 객체별로 리깅정보를 정확하게 복원할 수 있다.In addition, in the embodiments of the present invention, the 2D rigging information includes 2D joint distance information or 2D joint position information, and the data connection unit includes 2D rigging information estimated from a subsequent frame or a video patch around a 2D joint position of a subsequent frame. By providing a 4D rigging information restoration apparatus that complements 2D rigging information for each object by comparing image patches around 2D joint positions related to the converted 2D rigging information or the converted 2D rigging information, rigging information can be accurately restored for each object. .
또한, 본 발명의 실시예들은 데이터연관부가 칼만필터 또는 LSTM을 이용하여 2D리깅정보를 보완하는 4D리깅정보 복원장치를 제공함으로써, 단안 카메라에 의해 촬영된 영상으로부터 객체의 리깅정보를 정확하게 복원할 수 있다.In addition, embodiments of the present invention by providing a 4D rigging information recovery device that complements the 2D rigging information using the Kalman filter or LSTM by the data connection unit, it is possible to accurately restore the rigging information of the object from the image taken by the monocular camera. have.
또한, 본 발명의 실시예들은 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부는 2D리깅정보를 3D리깅정보로 변환하거나 변환된 3D리깅정보로부터 3D리깅정보를 예측하거나 3D리깅정보를 2D리깅정보로 변환하기 위해서 딥러닝모델을 이용하는 4D리깅정보 복원장치를 제공함으로써, 단안 카메라에 의해 촬영된 영상으로부터 객체의 리깅정보를 정확하게 복원할 수 있다.In addition, embodiments of the present invention, a 3D rigging information conversion unit, the 3D rigging information prediction unit or the 2D rigging information conversion unit converts 2D rigging information into 3D rigging information or predicts 3D rigging information from the converted 3D rigging information or 3D By providing a 4D rigging information restoration apparatus using a deep learning model to convert rigging information into 2D rigging information, it is possible to accurately restore rigging information of an object from an image photographed by a monocular camera.
또한, 본 발명의 실시예들은 딥러닝모델이 2D관절간거리정보 또는 3D관절간거리정보를 이용하여 학습되고, 3D리깅정보변환부, 3D리깅정보예측부 또는 2D리깅정보변환부는 2D리깅정보 또는 3D리깅정보를 2D관절간거리정보 또는 3D관절간거리정보로 인코딩하여 학습된 딥러닝모델에 입력하는 4D리깅정보 복원장치를 제공함으로써, 딥러닝 학습을 효율적으로 할 수 있고 단안 카메라에 의해 촬영된 영상으로부터 객체의 리깅정보를 정확하게 복원할 수 있다.In addition, in the embodiments of the present invention, a deep learning model is learned using 2D joint distance information or 3D joint distance information, and the 3D rigging information conversion unit, 3D rigging information prediction unit, or 2D rigging
또한, 본 발명의 실시예들은 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부가 인코딩된 2D관절간거리정보 또는 3D관절간거리정보를 다차원척도법(MDS)을 이용하여 2D리깅정보 또는 3D리깅정보로 디코딩하는 4D리깅정보 복원장치를 제공함으로써, 딥러닝 학습을 효율적으로 할 수 있고 단안 카메라에 의해 촬영된 영상으로부터 객체의 리깅정보를 정확하게 복원할 수 있다.In addition, embodiments of the present invention is a 3D rigging information conversion unit, the 3D rigging information prediction unit or the 2D rigging information conversion unit encoding the 2D joint distance information or 3D joint distance information using the multidimensional scaling method (MDS) 2D rigging information Alternatively, by providing a 4D rigging information restoration apparatus for decoding into 3D rigging information, deep learning can be efficiently performed and object rigging information can be accurately restored from an image captured by a monocular camera.
또한, 본 발명의 실시예들은 딥러닝모델을 학습시키는 딥러닝모델부를 포함하는 4D리깅정보 복원장치를 제공함으로써, 단안 카메라에 의해 촬영된 영상으로부터 객체의 리깅정보를 정확하게 복원할 수 있다.In addition, embodiments of the present invention by providing a 4D rigging information recovery apparatus including a deep learning model unit for learning a deep learning model, it is possible to accurately restore the rigging information of the object from the image taken by the monocular camera.
또한, 본 발명의 실시예들은 단안 카메라로부터 하나 이상의 객체를 촬영한 영상 시퀀스를 입력받는 영상획득단계, 영상 시퀀스의 각 프레임별로 객체를 검출하고 객체의 2D관절위치를 기초로 2D리깅정보를 추정하는 2D리깅정보추정단계, 2D리깅정보를 3D리깅정보로 변환하는 3D리깅정보변환단계, 변환된 3D리깅정보를 2D리깅정보로 변환하는 2D리깅정보변환단계 및 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 2D리깅정보를 보완하는 데이터연관단계를 포함하는 4D리깅정보 복원방법을 제공함으로써, 단안 카메라에 의해 촬영된 영상으로부터 객체의 리깅정보를 정확하게 복원할 수 있다.In addition, embodiments of the present invention, an image acquisition step of receiving an image sequence of one or more objects taken from a monocular camera, detecting an object for each frame of the image sequence, and estimating 2D rigging information based on the 2D joint position of the
이상의 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있다.It is not limited to the above-mentioned effects, other effects are not mentioned can be clearly understood by those skilled in the art from the following description.
도 1은 본 발명의 일 실시예에 따른 4D리깅정보 복원시스템을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 4D리깅정보 복원장치를 나타낸 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 관절 및 골격을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 2D관절위치정보를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 관절간거리정보를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 딥러닝모델을 나타낸 도면이다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 4D리깅정보 복원장치를 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 4D리깅정보 복원방법을 나타낸 순서도이다.1 is a view showing a 4D rigging information restoration system according to an embodiment of the present invention.
2 is a block diagram showing a 4D rigging information restoration apparatus according to an embodiment of the present invention.
3 is a view showing a joint and a skeleton according to an embodiment of the present invention.
4 is a view showing 2D joint position information according to an embodiment of the present invention.
5 is a view showing inter-articular distance information according to an embodiment of the present invention.
6 is a diagram illustrating a deep learning model according to an embodiment of the present invention.
7 and 8 are views illustrating a 4D rigging information restoration apparatus according to an embodiment of the present invention.
9 is a flowchart illustrating a method for restoring 4D rigging information according to an embodiment of the present invention.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예들에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예들에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 본 실시예들은 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.Since the description of the present invention is merely embodiments for structural or functional description, the scope of the present invention should not be interpreted as being limited by the embodiments described in the text. That is, since the present embodiments can be variously changed and have various forms, it should be understood that the scope of the present invention includes equivalents capable of realizing technical ideas. In addition, the purpose or effect presented in the present invention does not mean that a specific embodiment should include all of them or only such an effect, and the scope of the present invention should not be understood as being limited thereby.
또한, 이하에 첨부되는 도면들은 본 발명의 이해를 돕기 위한 것으로, 상세한 설명과 함께 실시예들을 제공한다. 다만, 본 발명의 기술적 특징이 특정 도면에 한정되는 것은 아니며, 각 도면에서 개시하는 특징들은 서로 조합되어 새로운 실시예로 구성될 수 있다.In addition, the accompanying drawings are provided to help understanding of the present invention, and provide embodiments with detailed description. However, the technical features of the present invention are not limited to specific drawings, and the features disclosed in each drawing may be combined with each other to form a new embodiment.
이하의 실시예들에서 개시되는 4D리깅정보 복원장치 및 방법에 대해 각 도면을 참조하여 보다 구체적으로 살펴보기로 한다.The 4D rigging information restoration apparatus and method disclosed in the following embodiments will be described in more detail with reference to each drawing.
도 1은 본 발명의 일 실시예에 따른 4D리깅정보 복원시스템을 나타낸 도면이다.1 is a view showing a 4D rigging information restoration system according to an embodiment of the present invention.
도 1을 참조하면, 일 실시예에 따른 4D리깅정보 복원시스템(100)은 객체(200), 카메라(300), 4D리깅정보 복원장치(400)를 포함하여 구성될 수 있다.Referring to FIG. 1, the 4D rigging
객체(200)는 카메라(300)에 의해 촬영되고 자세를 바꾸면서 움직일 수 있으며 스포츠 선수일 수 있다. 또한, 객체(200)는 복수일 수 있다.The
카메라(300)는 단안(모노) 카메라일 수 있고 통신 네트워크를 통해 4D리깅정보 복원장치(400)와 연결될 수 있다. 카메라(300)는 하나 이상의 객체(200)를 촬영한 영상 시퀀스를 통신 네트워크를 통해 4D리깅정보 복원장치(400)에 전송할 수 잇다.The
여기에서, 통신 네트워크는 유선 또는 무선 통신망을 포함하는 넓은 개념의 네트워크를 의미할 수 있다.Here, the communication network may mean a wide-concept network including a wired or wireless communication network.
또한, 카메라(300)는 객체(200)의 움직임을 추적하면서 촬영할 수 있는 PTZ 카메라일 수 있다.Further, the
여기에서, PTZ 카메라는 회전(PAN), 수직방향기울기(Tilt), 줌(Zoom) 조정이 가능한 카메라를 의미할 수 있다.Here, the PTZ camera may mean a camera capable of rotation (PAN), vertical tilt (Tilt), and zoom (Zoom) adjustment.
4D리깅정보 복원장치(400)는 통신 네트워크를 통해 카메라(300)와 연결되고 서버, PC, 노트북, 휴대폰, 스마트 폰(2G/3G/4G/LET, smart phone), PMP(Portable Media Player), PDA(Personal Digital Assistant) 및 타블렛 PC(Tablet PC) 중 어느 하나일 수 있다. 4D리깅정보 복원장치(400)의 세부적인 구성은 도 2와 관련하여 살펴본다.The 4D rigging
도 2는 본 발명의 일 실시예에 따른 4D리깅정보 복원장치를 나타낸 블록 구성도이다.2 is a block diagram showing a 4D rigging information restoration apparatus according to an embodiment of the present invention.
도 2를 참조하면, 일 실시예에 따른 4D리깅정보 복원장치(400)는 영상획득부(410), 2D리깅정보추정부(420), 3D리깅정보변환부(430), 3D리깅정보예측부(440), 2D리깅정보변환부(450), 데이터연관부(460), 딥러닝모델부(470), 송수신부(480), 데이터베이스(490) 및 제어부(495)를 포함하여 구성될 수 있다.Referring to FIG. 2, the 4D rigging
영상획득부(410)는 단안(모노) 카메라(300)에 의해 촬영된 영상 시퀀스를 송수신부(480)를 통해 카메라(300)로부터 전송받거나 상기 영상 시퀀스가 저장된 데이터베이스(490)로부터 영상 시퀀스를 입력받을 수 있다.The
여기에서, 영상 시퀀스란 일련의 프레임을 의미할 수 있고 프레임이란 동영상(일련의 프레임)을 구성하는 복수의 이미지(프레임)들 중의 하나를 의미할 수 있다. 영상 시퀀스에는 현재의 프레임과 이후의 프레임이 포함될 수 있다.Here, the video sequence may mean a series of frames, and the frame may mean one of a plurality of images (frames) constituting a video (a series of frames). The video sequence may include the current frame and subsequent frames.
2D리깅정보추정부(420)는 영상획득부(410)로부터 영상 시퀀스를 전달받아서 영상 시퀀스의 각 프레임별로 객체(200)를 검출하고 상기 객체(200)의 2D관절위치를 기초로 2D리깅정보를 추정할 수 있다.The 2D rigging
여기에서, 각 프레임별로 객체(200)를 검출한다는 것은 2D리깅정보추정부(420)가 영상획득부(410) 또는 데이터베이스(490)로부터 전달받은 모든 프레임에 대해 객체(200)를 검출한다는 것을 의미하는 것은 아니고 전달받은 영상 시퀀스의 일부의 프레임에 대해 각 프레임별로 객체(200)를 검출한다는 것을 의미할 수 있다.Here, detecting the
또한 여기에서, 2D관절위치란 관절의 종류별 2차원 위치 좌표를 의미할 수 있다. 예컨대, 왼쪽 무릎 관절의 2차원 위치 좌표 또는 오른쪽 팔꿈치 관절의 2차원 위치 좌표를 의미할 수 있다.In addition, here, 2D joint position may mean two-dimensional position coordinates for each type of joint. For example, it may mean a 2D position coordinate of a left knee joint or a 2D position coordinate of a right elbow joint.
또한 여기에서, 리깅(rigging)이란 2D 또는 3D로 모델링이 된 데이터에 뼈(skeleton)를 붙이는 것을 의미할 수 있다.Also, here, rigging may mean attaching a skeleton to data modeled in 2D or 3D.
또한 여기에서, 리깅정보란 관절위치정보, 관절간거리정보 또는 뼈대정보를 의미할 수 있고 2D리깅정보란 2차원상에서의 리깅정보를 의미하고 3D리깅정보란 3차원상에서의 리깅정보를 의미할 수 있다.Also, here, the rigging information may mean joint position information, inter-articular distance information, or skeleton information, 2D rigging information may mean rigging information in two dimensions, and 3D rigging information may mean rigging information in three dimensions. .
여기에서, 관절위치정보란 관절의 종류별로 관절이 위치하는 좌표를 의미할 수 있고 관절간거리정보란 각 관절별로 다른 관절과의 거리를 의미할 수 있으며 뼈대정보란 인접한 관절을 연결한 각 뼈의 길이나 각도 등을 의미할 수 있다.Here, the joint position information may refer to the coordinates where the joint is located for each type of joint, and the inter-joint distance information may mean the distance from each joint to each joint, and the skeleton information is the length of each bone connecting adjacent joints. It can mean or angle.
그런데, 관절간거리정보 또는 뼈대정보는 관절위치정보를 기초로 생성될 수 있으므로 리깅정보는 그 의미와 관계없이 기본적으로 관절위치정보를 기초로 추정될 수 있다.However, since the inter-articular distance information or the skeleton information may be generated based on the joint position information, the rigging information may be estimated based on the joint position information basically regardless of its meaning.
도 3은 본 발명의 일 실시예에 따른 관절 및 골격을 나타낸 도면이다.3 is a view showing a joint and a skeleton according to an embodiment of the present invention.
도 3은 일 실시예에 따른 관절 및 골격의 일례를 예시적으로 나타낸 도면이다.3 is a view showing an example of a joint and a skeleton according to an embodiment.
도 3을 참조하면, 객체(200)는 어깨관절(J1, J4), 팔꿈치관절(J2, J5), 무릎관절(J8, J11), 발목관절(J9, J12) 등의 관절을 포함할 수 있고 무릎관절(J8, J11)과 발목관절(J9, J12)과 같은 인접한 관절을 연결하면 하부다리뼈대(B1, B2)와 같은 뼈대를 구할 수 있다. 즉, 관절로부터 뼈대를 구할 수 있다.Referring to FIG. 3, the
도 4는 본 발명의 일 실시예에 따른 2D관절위치정보를 나타낸 도면이다.4 is a view showing 2D joint position information according to an embodiment of the present invention.
도 4를 참조하면, 2D관절위치정보는 관절(J1 내지 J14)의 종류별 2차원 위치 좌표(X, Y)에 해당할 수 있다. 여기에서, X 및 Y는 하나의 프레임에서 각 관절이 위치하는 픽셀의 X축과 Y축의 좌표값일 수 있다.Referring to FIG. 4, the 2D joint position information may correspond to two-dimensional position coordinates (X, Y) for each type of joints J1 to J14. Here, X and Y may be coordinate values of the X-axis and the Y-axis of the pixel where each joint is located in one frame.
전술한 바와 같이, 리깅정보는 관절위치정보를 의미할 수 있으므로 2D리깅정보는 도 4의 2D관절위치정보를 의미할 수 있고 3D리깅정보는 도 4에서 Z축의 좌표를 더 부가한 관절(J1 내지 J14)의 종류별 3차원 위치 좌표(X축, Y축 및 Z축의 좌표)를 의미할 수 있다.As described above, since the rigging information may mean joint position information, the 2D rigging information may mean the 2D joint position information in FIG. 4, and the 3D rigging information may include joints (J1 to J1) in FIG. J14) may mean three-dimensional position coordinates (coordinates of the X-axis, Y-axis, and Z-axis).
한편, 리깅정보는 각 뼈의 길이나 각도 등을 나타내는 뼈대정보를 의미할 수도 있는데 뼈대정보는 도 3에서 살펴본 바와 같이 인접하는 관절의 관절위치정보를 기초로 용이하게 계산될 수 있다.On the other hand, the rigging information may refer to bone information indicating the length or angle of each bone, and the bone information can be easily calculated based on the joint position information of adjacent joints as shown in FIG. 3.
즉, 인접하는 두 관절을 잇는 직선의 길이가 뼈의 길이에 해당할 수 있고 직선의 기울기가 뼈의 각도에 해당할 수 있다.That is, the length of the straight line connecting two adjacent joints may correspond to the length of the bone, and the slope of the straight line may correspond to the angle of the bone.
도 5는 본 발명의 일 실시예에 따른 관절간거리정보를 나타낸 도면이다.5 is a view showing inter-articular distance information according to an embodiment of the present invention.
도 5를 참조하면, 관절간거리정보는 각 관절(J1 내지 J14)로부터 다른 모든 관절(J1 내지 J14)까지의 거리에 해당할 수 있고 두 개의 관절간 거리는 두 개의 관절위치정보를 기초로 계산할 수 있다. 여기에서, 거리는 유클리드 거리(Euclidean Distance)일 수 있다.Referring to FIG. 5, the inter-articular distance information may correspond to a distance from each joint (J1 to J14) to all other joints (J1 to J14), and the distance between the two joints may be calculated based on two joint position information. . Here, the distance may be the Euclidean distance.
전술한 바와 같이, 리깅정보는 도 5의 관절간거리정보를 의미할 수 있고 리깅정보가 2D리깅정보 또는 3D리깅정보 중 어느 것인지에 관계없이(즉, 차원에 관계없이) 도 5의 관절간거리정보의 형식(n행 n열, n은 관절의 개수)을 가질 수 있다.As described above, the rigging information may mean inter-articular distance information in FIG. 5 and the format of the inter-articular distance information in FIG. 5 regardless of whether the rigging information is 2D rigging information or 3D rigging information (that is, regardless of dimensions). (n rows n columns, n is the number of joints).
다만, 2차원에서의 관절간거리정보의 값들은 2D관절위치정보를 기초로 계산되고 3차원에서의 관절간거리정보의 값들은 3D관절위치정보를 기초로 계산되므로 2차원에서의 관절간거리정보의 값들은 3차원에서의 관절간거리정보의 값들보다 작거나 같을 수 있다.However, the values of the inter-articular distance information in 2D are calculated based on the 2D joint position information, and the values of the inter-articular distance information in 3D are calculated based on the 3D joint position information. It may be less than or equal to the values of the inter-articular distance information in 3D.
다시 도 2로 돌아와서, 2D리깅정보추정부(420)는 예를 들면 보행자 검출 방법 중에서 보행자의 머리, 팔, 다리, 상반신 등을 따로 검출하는 방법을 이용하여 영상정보에서 객체(200)의 각 신체 부위를 검출한 후에 신체 부위 간 연결지점을 2D관절위치로 추정할 수 있다.Returning to FIG. 2 again, the 2D rigging
다만, 2D리깅정보추정부(420)는 2D관절위치를 추정하기 위해 상기 방법에 한정되지 않고 다양한 다른 방법을 사용할 수 있다.However, the 2D rigging
또한, 2D리깅정보추정부(420)는 리깅정보가 관절위치정보인 경우에는 상기 방법으로 추정한 2D관절위치를 2D리깅정보로 그대로 사용할 수 있고 리깅정보가 뼈대정보 또는 관절간거리정보인 경우에는 상기 방법으로 추정한 2D관절위치를 기초로 뼈대정보 또는 관절간거리정보를 계산하여 2D리깅정보로 사용할 수 있다.In addition, the 2D rigging
3D리깅정보변환부(430)는 2D리깅정보추정부(420)에 의해 추정되거나 후술할 데이터연관부(460)에 의해 보완된 2D리깅정보를 전달받아서 3D리깅정보로 변환할 수 있다.The 3D rigging
3D리깅정보예측부(440)는 3D리깅정보변환부(430)에 의해 변환된 3D리깅정보로부터 특정시간 경과 후의 3D리깅정보를 예측할 수 있다. 여기에서, 특정시간이란 현재 프레임의 촬영 시각과 리깅정보를 복원할 이후 프레임의 촬영 시각의 차를 의미할 수 있다.The 3D rigging
2D리깅정보변환부(450)는 3D리깅정보변환부(430)에 의해 변환되거나 3D리깅정보예측부(440)에 의해 예측된 3D리깅정보를 전달받아서 2D리깅정보로 변환할 수 있다.The 2D rigging
이 때에, 리깅정보 중에서 깊이(Z축)와 관련된 정보에 손실이 발생할 수 있는데 손실되는 깊이 정보는 카메라의 촬영 방향에 의해 결정되고 카메라의 정면 방향이 깊이(Z축)에 해당할 수 있다.At this time, a loss may occur in the information related to the depth (Z-axis) among the rigging information. The lost depth information may be determined by the photographing direction of the camera, and the front direction of the camera may correspond to the depth (Z-axis).
3D리깅정보변환부(430), 3D리깅정보예측부(440) 또는 2D리깅정보변환부(450)는 2D리깅정보를 3D리깅정보로 변환하거나 변환된 3D리깅정보로부터 3D리깅정보를 예측하거나 3D리깅정보를 2D리깅정보로 변환하기 위해서 딥러닝모델을 이용할 수 있다.The 3D rigging
딥러닝모델과 관련하여, 후술할 딥러닝모델부(470)에서 구체적으로 살펴본다.In relation to the deep learning model, the deep
이와 같이, 3D리깅정보변환부(430), 3D리깅정보예측부(440) 및 2D리깅정보변환부(450)는 2D리깅정보를 3D리깅정보로 변환하고 특정시간 이후의 3D리깅정보를 예측하고 변환되거나 예측된 3D리깅정보를 2D리깅정보로 변환함으로써 이후의 프레임으로부터 리깅정보의 정확도를 높일 수 있다.As such, the 3D rigging
데이터연관부(460)는 2D리깅정보추정부(420) 및 2D리깅정보변환부(450)와 연결되고 2D리깅정보추정부(420) 및 2D리깅정보변환부(450)로부터 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 전달받고 두 개의 2D리깅정보를 비교하여 2D리깅정보를 보완할 수 있다.The
여기에서, 이후의 프레임으로부터 추정된 2D리깅정보란 2D리깅정보추정부(420)가 이후의 프레임으로부터 객체(200)를 검출하고 객체(200)의 2D관절위치를 기초로 추정한 2D리깅정보를 의미할 수 있다.Here, the 2D rigging information estimated from the subsequent frame is the 2D rigging
또한 여기에서, 변환된 2D리깅정보란 2D리깅정보추정부(420)에 의해 현재프레임으로부터 추정된 2D리깅정보가 데이터연관부(460), 3D리깅정보변환부(430) 및 2D리깅정보변환부(450)를 거쳐서 변환된 2D리깅정보를 의미할 수 있다. 이 때에, 3D리깅정보변환부(430)와 2D리깅정보변환부(450) 사이에 3D리깅정보예측부(440)를 더 거칠 수도 있다.In addition, here, the converted 2D rigging information includes 2D rigging information estimated from the current frame by the 2D rigging
또한 여기에서, 데이터연관부(460)에 의해 보완되는 2D리깅정보는 이후의 프레임으로부터 추정된 2D리깅정보일 수도 있고 변환된 2D리깅정보일 수도 있는데 어느 경우이든지 데이터연관부(460)에 의해 보완된 2D리깅정보가 3D리깅정보변환부(430)에 전달되어 3D리깅정보로 변환될 수 있다는 점은 공통된다.In addition, here, the 2D rigging information supplemented by the
또한, 데이터연관부(460)는 칼만필터 또는 LSTM 등을 이용하여 2D리깅정보를 보완할 수 있다.In addition, the
첫번째로, 데이터연관부(460)가 칼만필터를 이용하여 2D리깅정보를 보완하는 방법을 살펴본다.First, a method of complementing the 2D rigging information using the Kalman filter by the
여기에서, 칼만필터는 시간에 따라 관측되는 일련의 측정치를 기반으로 하는 알고리즘으로, 잡음이 포함된 측정치로부터 상태에 대한 정확한 추정치를 산출할 수 있다.Here, the Kalman filter is an algorithm based on a series of measurements observed over time, and can calculate an accurate estimate of the state from measurements that include noise.
칼만필터 알고리즘은 예측단계와 업데이트단계의 두 단계로 나뉠 수 있는데 예측단계에서는 이전 시간에 추정된 상태로부터 예상되는 상태를 계산하고 업데이트단계에서는 앞서 계산된 예측 상태와 실제로 측정된 상태를 토대로 정확한 상태를 계산할 수 있다.The Kalman filter algorithm can be divided into two phases: the prediction phase and the update phase. The prediction phase calculates the expected state from the estimated state at the previous time, and the update phase calculates the correct state based on the predicted state and the actual measured state. Can be calculated.
구체적으로, 데이터연관부(460)는 칼만필터를 사용하여 예측단계에서는 현재 프레임으로부터 구한 2D리깅정보를 기초로 이후에 예상되는 2D리깅정보를 예측하고 업데이트단계에서는 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 2D리깅정보를 보완할 수 있다.Specifically, the
이 때에, 데이터연관부(460)는 2D리깅정보 예측을 위해서 각 관절점의 속도를 이용할 수 있다.At this time, the
또한, 데이터연관부(460)는 칼만필터의 예측단계 또는 보완단계를 3D리깅정보변환부(430), 3D리깅정보예측부(440) 또는 2D리깅정보변환부(450)에서의 변환 또는 예측과 독립적으로 수행할 수도 있고 3D리깅정보변환부(430), 3D리깅정보예측부(440) 또는 2D리깅정보변환부(450)에서의 변환 또는 예측과 연동하여 수행할 수도 있다.In addition, the
두번째로, 데이터연관부(460)가 LSTM을 이용하여 2D리깅정보를 보완하는 방법을 살펴본다.Second, a method of supplementing 2D rigging information using LSTM by the
여기에서, LSTM(Long Short-Term Memory)은 순환 신경망(RNN)의 단위로서 셀, 입력 게이트, 출력 게이트 및 망각 게이트로 구성될 수 있다. 셀은 임의의 시간 간격에 걸쳐 값을 기억하며 세 개의 게이트는 셀 안팎으로의 정보 흐름을 조절할 수 있다.Here, a long short-term memory (LSTM) is a unit of a cyclic neural network (RNN) and may be composed of a cell, an input gate, an output gate, and an oblivion gate. The cell remembers values over an arbitrary time interval, and the three gates can control the flow of information into and out of the cell.
구체적으로, 데이터연관부(460)는 LSTM을 구성단위로 하는 딥러닝(RNN)모델을 사용하여 현재 프레임으로부터 구한 2D리깅정보를 기초로 이후에 예상되는 2D리깅정보를 예측할 수 있고 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 2D리깅정보를 보완할 수 있다.Specifically, the
여기에서, 딥러닝모델 및 RNN에 관해서는 딥러닝모델부(470)에서 살펴본다.Here, the deep learning model and the RNN will be described in the deep
한편, 데이터연관부(460)는 칼만필터 및 LSTM을 사용할 수도 있는데, 구체적으로 데이터연관부(460)는 예측단계에서는 LSTM을 구성단위로 하는 딥러닝모델을 사용하여 현재 프레임으로부터 구한 2D리깅정보를 기초로 예상되는 2D리깅정보 및 칼만필터에 사용될 변수를 예측할 수 있고 업데이트단계에서는 칼만필터를 사용하여 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 2D리깅정보를 보완할 수 있다.On the other hand, the
또한, 데이터연관부(460)는 LSTM을 구성단위로 하는 딥러닝모델을 3D리깅정보변환부(430), 3D리깅정보예측부(440) 또는 2D리깅정보변환부(450)에서의 변환 또는 예측과 독립적으로 사용할 수도 있고 3D리깅정보변환부(430), 3D리깅정보예측부(440) 또는 2D리깅정보변환부(450)에서의 변환 또는 예측과 연동하여 사용할 수도 있다.In addition, the
이와 같이, 데이터연관부(460)는 칼만필터 또는 LSTM을 사용하여 2D리깅정보의 시간적 변화를 기초로 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 상기 2D리깅정보를 비교하여 상기 2D리깅정보를 보완함으로써 리깅정보의 정확도를 높일 수 있다.As described above, the
한편, 영상정보에 복수의 객체(200)가 촬영된 경우에는 객체(200)별로 구별하여 리깅정보를 복원해야 하는데 이와 관련된 방법을 살펴본다.On the other hand, when a plurality of
데이터연관부(460)는 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 객체(200)별로 2D리깅정보를 보완할 수 있다.The
이 때에, 데이터연관부(460)는 이후의 프레임으로부터 추정된 2D리깅정보 또는 이후의 프레임의 2D관절위치 주변의 영상패치와 변환된 2D리깅정보 또는 변환된 2D리깅정보와 관련된 2D관절위치 주변의 영상패치를 비교하여 객체(200)별로 2D리깅정보를 보완할 수 있다.At this time, the
구체적으로, 데이터연관부(460)는 이후의 프레임으로부터 추정된 2D리깅정보를 현재프레임으로부터 객체(200)별로 구별되어 2D리깅정보변환부(450)에 의해 변환된 2D리깅정보와 비교하여 객체(200)별로 구별하여 2D리깅정보를 보완할 수 있다.Specifically, the
즉, 2D리깅정보추정부(420)가 이후의 프레임으로부터 두 객체(200)의 리깅정보를 잘못 구별하여 두 객체(200)의 관절이 서로 바뀐 채로 2D리깅정보를 추정한 경우에 데이터연관부(460)는 현재프레임으로부터 객체(200)별로 올바로 구별되어 변환된 2D리깅정보와 비교하여 이후의 프레임의 2D리깅정보를 보완할 수 있다.That is, when the 2D rigging
이 때에, 데이터연관부(460)는 2D관절위치정보, 2D관절간거리정보 또는 2D관절위 주변의 영상패치를 비교하여 객체(200)를 구별하여 2D리깅정보를 보완할 수 있다. 여기에서, 영상패치란 특정한 크기의 2D 이미지를 의미할 수 있다.At this time, the
이와 같이, 데이터연관부(460)는 객체(200)를 구별하여 2D리깅정보를 보완함으로써 리깅정보의 정확도를 높일 수 있다. 특히, 데이터연관부(460)는 2D관절간거리정보를 비교하여 객체(200)를 구별함으로써 빠르고 정확하게 리깅정보를 보완할 수 있다.As described above, the
딥러닝모델부(470)는 3D리깅정보변환부(430), 3D리깅정보예측부(440), 2D리깅정보변환부(450) 또는 데이터연관부(460)와 연결될 수 있고 후술할 딥러닝모델을 제공할 수 있다.The deep
딥러닝모델부(470)는 딥러닝모델을 생성할 수 있고 데이터베이스(490)에 미리 저장된 학습데이터를 이용하여 딥러닝모델을 학습시킬 수 있다. 여기에서, 딥러닝이란 데이터 표현을 학습하는 기계학습 방법의 일종으로서 대표적으로 DNN, CNN, RNN 등이 이에 해당될 수 있다. 다만, DBN 등 다른 딥러닝 방법도 사용될 수 있다.The deep
여기에서, DNN(Deep Neural Network, 심층신경망)은 입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이루어진 인공신경망(Artificial Neural Network)이다.Here, the deep neural network (DNN) is an artificial neural network composed of several hidden layers between an input layer and an output layer.
또한 여기에서, CNN(Convolutional Neural Network, 합성곱 신경망)은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류로서 하나 또는 여러개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용할 수 있다.Also here, the Convolutional Neural Network (CNN) is a kind of multi-layer perceptrons designed to use minimal preprocessing, and one or more convolutional layers and common artificial objects on it. It consists of neural network layers, and weights and pooling layers can be additionally used.
또한 여기에서, RNN(Recurrent Neural Network, 순환 신경망)은 인공신경망을 구성하는 유닛 사이의 연결이 Directed cycle을 구성하는 신경망으로서 임의의 입력을 처리하기 위해 신경망 내부의 메모리를 활용할 수 있다. 순환 신경망을 구성하는 구조로 완전 순환망(Fully Recurrent Network), LSTM(Long short term memory network) 등 여러가지 방식이 사용될 수 있다.Also, here, the recurrent neural network (RNN) is a neural network in which connections between units constituting an artificial neural network constitute a Directed cycle, and can utilize memory inside the neural network to process arbitrary input. As a structure constituting a cyclic neural network, various methods such as a fully recurrent network (LSTM) and a long short term memory network (LSTM) can be used.
딥러닝모델부(470)는 3D리깅정보변환부(430), 3D리깅정보예측부(440), 2D리깅정보변환부(450) 또는 데이터연관부(460)의 기능에 맞는 딥러닝모델을 생성하고 학습시켜서 제공할 수 있는데 이하 살펴본다.The deep
첫번째로, 3D리깅정보변환부(430)와 관련하여 살펴본다.First, the 3D rigging
딥러닝모델부(470)는 2D리깅정보를 3D리깅정보로 변환하기 위한 3D변환딥러닝모델을 생성할 수 있다. 이 때에, 딥러닝모델부(470)는 2D리깅정보를 입력값으로 하고 3D리깅정보를 출력값으로 하는 3D변환딥러닝모델을 생성할 수 있는데 입력값과 출력값이 비교적 간단하고 현재의 출력값이 이전의 입출력 값에 영향을 받지 않을 수 있으므로 3D변환딥러닝모델은 DNN 모델이 바람직할 수 있다. 다만, RNN, CNN 등 다른 방식도 사용될 수 있다.The deep
또한, 딥러닝모델부(470)는 다양한 2D리깅정보와 각 2D리깅정보에 대응하는 3D리깅정보로 구성된 트레이닝데이터를 데이터베이스(490)로부터 전달받아서 3D변환딥러닝모델을 학습시킬 수 있다.In addition, the deep
또한, 딥러닝모델부(470)는 학습이 완료된 3D변환딥러닝모델을 3D리깅정보변환부(430)에 제공할 수 있다.Also, the deep
두번째로, 3D리깅정보예측부(440)와 관련하여 살펴본다.Second, look at the 3D rigging
딥러닝모델부(470)는 3D리깅정보로부터 특정시간 경과 후의 3D리깅정보를 예측하기 위한 3D예측딥러닝모델을 생성할 수 있다. 이 때에, 딥러닝모델부(470)는 3D리깅정보를 입력값으로 하고 3D리깅정보를 출력값으로 하는 3D예측딥러닝모델을 생성할 수 있는데 입력값과 출력값이 비교적 간단하고 현재의 예측된 출력값이 이전의 출력값에 영향을 받을 수 있으므로, 3D예측딥러닝모델은 RNN 모델이 바람직할 수 있다. 다만, DNN, CNN 등 다른 방식도 사용될 수 있는데 이러한 경우에 3D예측딥러닝모델은 관절별 속도를 계산하기 위해 이전의 관절위치정보 또는 관절별 속도와 같은 추가적인 정보를 입력해야 할 필요가 있을 수 있다.The deep
또한, 딥러닝모델부(470)는 다양한 3D리깅정보와 각 3D리깅정보에 대응하는 예측된 3D리깅정보로 구성된 트레이닝데이터를 데이터베이스(490)로부터 전달받아서 3D예측딥러닝모델을 학습시킬 수 있다.In addition, the deep
또한, 딥러닝모델부(470)는 학습이 완료된 3D예측딥러닝모델을 3D리깅정보예측부(440)에 제공할 수 있다.In addition, the deep
세번째로, 2D리깅정보변환부(450)와 관련하여 살펴본다.Third, look at the 2D rigging
딥러닝모델부(470)는 3D리깅정보를 2D리깅정보로 변환하기 위한 2D변환딥러닝모델을 생성할 수 있다. 이 때에, 딥러닝모델부(470)는 3D리깅정보를 입력값으로 하고 2D리깅정보를 출력값으로 하는 2D변환딥러닝모델을 생성할 수 있는데 입력값과 출력값이 비교적 간단하고 현재의 출력값이 이전의 입출력 값에 영향을 받지 않을 수 있으므로 2D변환딥러닝모델은 DNN 모델이 바람직할 수 있다. 다만, RNN, CNN 등 다른 방식도 사용될 수 있다.The deep
또한, 딥러닝모델부(470)는 다양한 3D리깅정보와 각 3D리깅정보에 대응하는 2D리깅정보로 구성된 트레이닝데이터를 데이터베이스(490)로부터 전달받아서 2D변환딥러닝모델을 학습시킬 수 있다.In addition, the deep
또한, 딥러닝모델부(470)는 학습이 완료된 2D변환딥러닝모델을 2D리깅정보변환부(450)에 제공할 수 있다.Also, the deep
네번째로, 데이터연관부(460)와 관련하여 살펴본다.Fourth, it looks at in relation to the
딥러닝모델부(470)는 현재 프레임으로부터 구한 2D리깅정보를 기초로 이후에 예상되는 2D리깅정보를 예측하기 위한 2D예측딥러닝모델을 생성할 수 있다. 이 때에, 딥러닝모델부(470)는 2D리깅정보를 입력값으로 하고 2D리깅정보를 출력값으로 하는 2D예측딥러닝모델을 생성할 수 있는데 입력값과 출력값이 비교적 간단하고 이후의 예측된 출력값이 현재의 출력값에 영향을 받을 수 있으므로, 2D예측딥러닝모델은 RNN 모델이 바람직할 수 있다. 다만, DNN, CNN 등 다른 방식도 사용될 수 있는데 이러한 경우에 2D예측딥러닝모델은 관절별 속도를 계산하기 위해 이전의 관절위치정보 또는 관절별 속도와 같은 추가적인 정보를 입력해야 할 필요가 있을 수 있다.The deep
또한, 딥러닝모델부(470)는 다양한 2D리깅정보와 각 2D리깅정보에 대응하는 예측된 2D리깅정보로 구성된 트레이닝데이터를 데이터베이스(490)로부터 전달받아서 2D예측딥러닝모델을 학습시킬 수 있다.In addition, the deep
또한, 딥러닝모델부(470)는 학습이 완료된 2D예측딥러닝모델을 데이터연관부(460)에 제공할 수 있다.In addition, the deep
이와 같이, 딥러닝모델부(470)는 딥러닝모델을 학습시켜서 제공하고 3D리깅정보변환부(430), 3D리깅정보예측부(440), 2D리깅정보변환부(450) 또는 데이터연관부(460)는 딥러닝모델부(470)에 의해 제공된 딥러닝모델을 이용함으로써 리깅정보의 정확도를 높일 수 있다.As such, the deep
한편, 딥러닝모델부(470)는 3D변환딥러닝모델, 3D예측딥러닝모델, 2D변환딥러닝모델 또는 2D예측딥러닝모델을 학습시킬 경우에 2D관절간거리정보 또는 3D관절간거리정보를 이용할 수 있다.Meanwhile, the deep
즉, 3D변환딥러닝모델, 3D예측딥러닝모델, 2D변환딥러닝모델 또는 2D예측딥러닝모델의 입력값 및 출력값이 2D관절간거리정보 또는 3D관절간거리정보에 해당할 수 있다.That is, the input and output values of the 3D transformed deep learning model, 3D predicted deep learning model, 2D transformed deep learning model, or 2D predicted deep learning model may correspond to 2D joint distance information or 3D joint distance information.
도 6은 본 발명의 일 실시예에 따른 딥러닝모델을 나타낸 도면이다.6 is a diagram illustrating a deep learning model according to an embodiment of the present invention.
도 6을 참조하면, 딥러닝모델은 관절간거리정보를 입력값 및 출력값으로 하여 딥러닝모델부(470)에 의해 학습될 수 있고 학습이 완료된 후에 3D리깅정보변환부(430), 3D리깅정보예측부(440), 2D리깅정보변환부(450) 또는 데이터연관부(460)에 제공될 수도 있다.Referring to FIG. 6, the deep learning model may be trained by the deep
도 6의 입력값 및 출력값에 해당하는 14행 14열의 행렬은 도 3의 J1 내지 J14의 14개 관절에 대한 관절간 유클리드 거리(Euclidean Distance)를 의미할 수 있고 도 5의 관절간거리정보와 동일한 의미일 수 있다.The matrix of 14 rows and 14 columns corresponding to the input value and the output value of FIG. 6 may mean an inter-Euclidean distance for 14 joints of J1 to J14 of FIG. 3 and the same meaning as the inter-articular distance information of FIG. 5 Can be
이와 같이, 딥러닝모델부(470)는 관절간거리정보를 이용하여 딥러닝모델을 학습시키고 제공함으로써 영상의 회전(rotation) 및 변환(translation)에 영향을 받지 않고 2차원과 3차원 리깅정보를 같은 차원(n행 n열, n은 관절의 개수)으로 표현할 수 있으며 2차원 또는 3차원 좌표를 사용하지 않아서 딥러닝 학습 시 솔루션 스페이스를 감축하므로 딥러닝 학습을 효율적으로 할 수 있도록 한다.As described above, the deep
한편, 딥러닝모델이 관절간거리정보를 이용하여 학습된 경우에는 3D리깅정보변환부(430), 3D리깅정보예측부(440), 2D리깅정보변환부(450) 또는 데이터연관부(460)는 학습된 딥러닝모델을 이용하기 위해서 2D리깅정보 또는 3D리깅정보를 2D관절간거리정보 또는 3D관절간거리정보로 인코딩해야 할 수 있다.On the other hand, when the deep learning model is learned using the inter-articular distance information, the 3D rigging
또한, 3D리깅정보변환부(430), 3D리깅정보예측부(440), 2D리깅정보변환부(450) 또는 데이터연관부(460)는 인코딩된 2D관절간거리정보 또는 3D관절간거리정보를 이용하여 딥러닝모델을 사용한 후에는 인코딩된 2D관절간거리정보 또는 3D관절간거리정보을 2D리깅정보 또는 3D리깅정보로 디코딩해야 할 수 있는데 이 때에 다차원 척도법(Multi-Dimensional Scaling)을 이용할 수 있다.In addition, the 3D rigging
여기에서, 다차원 척도법이란 데이터들의 유사정도를 시각화 하는 수단으로서 유클리드 거리 행렬(Euclidean Distance Matrix)을 시각화하기 위해 사용될 수 있다. 시각화는 주로 2차원 또는 3차원 공간상에 점으로 표현하는 방법이 사용된다.Here, the multi-dimensional scaling method can be used to visualize the Euclidean distance matrix as a means of visualizing the similarity of data. In the visualization, a method of expressing a point in a 2D or 3D space is mainly used.
다만, 2D리깅정보 또는 3D리깅정보가 2D관절간거리정보 또는 3D관절간거리정보인 경우에는 인코딩이나 디코딩 없이 그대로 사용될 수 있다.However, when 2D rigging information or 3D rigging information is 2D joint distance information or 3D joint distance information, it may be used without encoding or decoding.
데이터베이스(490)는 카메라(300)로부터 수신한 영상 시퀀스 및 3D변환딥러닝모델, 3D예측딥러닝모델, 2D변환딥러닝모델 또는 2D예측딥러닝모델을 학습시키기 위한 트레이닝데이터 등을 저장할 수 있다.The
이러한 데이터베이스(490)는 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라, 파일 시스템에 기반한 데이터 기록 등을 포함하는 넓은 의미의 데이터베이스도 포함하여 지칭하며, 단순한 로그의 집합이라도 이를 검색하여 데이터를 추출할 수 있다면 본 발명에서 말하는 데이터베이스의 범주안에 포함된다.The
마지막으로, 제어부(495)는 영상획득부(410), 2D리깅정보추정부(420), 3D리깅정보변환부(430), 3D리깅정보예측부(440), 2D리깅정보변환부(450), 데이터연관부(460), 딥러닝모델부(470), 송수신부(480), 데이터베이스(490) 간의 제어 흐름 또는 데이터 흐름을 제어할 수 있다.Finally, the
도 7 및 도 8은 본 발명의 일 실시예에 따른 4D리깅정보 복원장치를 나타낸 도면이다.7 and 8 are views illustrating a 4D rigging information restoration apparatus according to an embodiment of the present invention.
도 7 및 도 8을 참조하면, 일 실시예에 따른 4D리깅정보 복원장치(400)는 영상획득부(410), 2D리깅정보추정부(420), 3D리깅정보변환부(430), 3D리깅정보예측부(440), 2D리깅정보변환부(450), 데이터연관부(460)를 포함하여 구성될 수 있다.7 and 8, the 4D rigging
도 7에서, A는 이후의 프레임이고 B는 현재의 프레임이며 데이터연관부(460)는 이후의 프레임(A)으로부터 추정된 2D리깅정보를 전달받으면 현재의 프레임(B)으로부터 변환된 2D리깅정보와 비교하여 객체별로 2D리깅정보를 보완할 수 있다.In FIG. 7, A is a subsequent frame, B is a current frame, and the
이 때에, 데이터연관부(460)는 이후의 프레임(A)으로부터 추정된 2D리깅정보 또는 이후의 프레임(A)의 2D관절위치 주변의 영상패치와 현재의 프레임(B)으로부터 변환된 2D리깅정보 또는 현재의 프레임(B)으로부터 변환된 2D리깅정보와 관련된 2D관절위치 주변의 영상패치를 비교하여 A 및 B에서 매칭점을 찾고 객체(200)별로 2D리깅정보를 보완할 수 있다.At this time, the
도 8에서, 3D리깅정보변환부(430), 3D리깅정보예측부(440) 및 2D리깅정보변환부(450)가 관절간거리정보로 학습된 딥러닝모델을 사용할 수 있도록 3D리깅정보변환부(430)는 2D리깅정보를 2D관절간거리정보로 인코딩(C)하고 2D리깅정보변환부(450)는 3D관절간거리정보를 3D리깅정보로 디코딩(D)할 수 있다.In FIG. 8, the 3D rigging
도 9는 본 발명의 일 실시예에 따른 4D리깅정보 복원방법을 나타낸 순서도이다.9 is a flowchart illustrating a method for restoring 4D rigging information according to an embodiment of the present invention.
도 9를 참조하면, 일 실시예에 따른 4D리깅정보 복원방법(500)은 영상획득단계(S510), 2D리깅정보추정단계(S520), 3D리깅정보변환단계(S530), 3D리깅정보예측단계(S540), 2D리깅정보변환단계(S550) 및 데이터연관단계(S560)를 포함하여 구성될 수 있다.Referring to FIG. 9, the method for restoring
영상획득단계(S510)에서, 4D리깅정보 복원장치(400)는 단안(모노) 카메라(300)에 의해 촬영된 영상 시퀀스를 카메라(300)로부터 전송받거나 상기 영상 시퀀스가 저장된 데이터베이스(490)로부터 영상 시퀀스를 입력받을 수 있다.In the image acquisition step (S510), the 4D rigging
2D리깅정보추정단계(S520)에서, 4D리깅정보 복원장치(400)는 영상 시퀀스를 전달받아서 영상 시퀀스의 각 프레임별로 객체(200)를 검출하고 상기 객체(200)의 2D관절위치를 기초로 2D리깅정보를 추정할 수 있다.In the 2D rigging information estimation step (S520), the 4D rigging
3D리깅정보변환단계(S530)에서, 4D리깅정보 복원장치(400)는 2D리깅정보추정단계(S520)에서 추정되거나 후술할 데이터연관단계(S560)에서 보완된 2D리깅정보를 전달받아서 3D리깅정보로 변환할 수 있다.In the 3D rigging information conversion step (S530), the 4D rigging
3D리깅정보예측단계(S540)에서, 4D리깅정보 복원장치(400)는 변환된 3D리깅정보로부터 특정시간 경과 후의 3D리깅정보를 예측할 수 있다.In the 3D rigging information prediction step (S540), the 4D rigging
2D리깅정보변환단계(S550)에서, 4D리깅정보 복원장치(400)는 3D리깅정보변환단계(S530)에서 변환되거나 3D리깅정보예측단계(S540)에서 예측된 3D리깅정보를 전달받아서 2D리깅정보로 변환할 수 있다.In the 2D rigging information conversion step (S550), the 4D rigging
데이터연관단계(S560)에서, 4D리깅정보 복원장치(400)는 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 전달받고 두 개의 2D리깅정보를 비교하여 2D리깅정보를 보완할 수 있다.In the data linking step (S560), the 4D rigging
또한, 4D리깅정보 복원장치(400)는 칼만필터 또는 LSTM 등을 이용하여 2D리깅정보를 보완할 수 있다.In addition, the 4D rigging
또한, 4D리깅정보 복원장치(400)는 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 2D리깅정보를 비교하여 객체(200)별로 2D리깅정보를 보완할 수 있다.In addition, the 4D rigging
이 때에, 4D리깅정보 복원장치(400)는 이후의 프레임으로부터 추정된 2D리깅정보 또는 이후의 프레임의 2D관절위치 주변의 영상패치와 변환된 2D리깅정보 또는 변환된 2D리깅정보와 관련된 2D관절위치 주변의 영상패치를 비교하여 객체(200)별로 2D리깅정보를 보완할 수 있다.At this time, the 4D rigging
또한, 4D리깅정보 복원장치(400)는 3D리깅정보변환단계(S530)로 되돌아가서 데이터연관단계(S560)에서 보완된 2D리깅정보를 3D리깅정보로 변환함으로써 순환적으로 리깅정보를 복원할 수 있다.In addition, the 4D rigging
한편, 4D리깅정보 복원장치(400)는 3D리깅정보변환단계(S530), 3D리깅정보예측단계(S540), 2D리깅정보변환단계(S550) 또는 데이터연관단계(S560)에서 2D리깅정보를 3D리깅정보로 변환하거나 변환된 3D리깅정보로부터 3D리깅정보를 예측하거나 3D리깅정보를 2D리깅정보로 변환하거나 2D리깅정보로부터 2D리깅정보를 예측하기 위해서 딥러닝모델을 이용할 수 있다.On the other hand, the 4D rigging
또한, 4D리깅정보 복원장치(400)는 딥러닝모델이 관절간거리정보를 이용하여 학습된 경우에는 3D리깅정보변환단계(S530), 3D리깅정보예측단계(S540), 2D리깅정보변환단계(S550) 또는 데이터연관단계(S560)에서 학습된 딥러닝모델을 이용하기 위해서 2D리깅정보 또는 3D리깅정보를 2D관절간거리정보 또는 3D관절간거리정보로 인코딩 또는 디코딩해야 할 수 있다.In addition, the 4D rigging
이상에서와 같이, 본 출원의 바람직한 실시예 들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 출원을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.As described above, although described with reference to preferred embodiments of the present application, those skilled in the art variously modify the present application without departing from the spirit and scope of the present invention as set forth in the claims below. And can be changed.
100 : 4D리깅정보 복원시스템
200 : 객체 300 : 카메라
400 : 4D리깅정보 복원장치
410 : 영상획득부 420 : 2D리깅정보추정부
430 : 3D리깅정보변환부 440 : 3D리깅정보예측부
450 : 2D리깅정보변환부 460 : 데이터연관부
470 : 딥러닝모델부 480 : 송수신부
490 : 데이터베이스 495 : 제어부
500 : 4D리깅정보 복원방법100: 4D rigging information restoration system
200: object 300: camera
400: 4D rigging information restoration device
410: image acquisition unit 420: 2D rigging information estimation
430: 3D rigging information conversion unit 440: 3D rigging information prediction unit
450: 2D rigging information conversion unit 460: Data connection unit
470: deep learning model unit 480: transceiver
490: database 495: control unit
500: 4D rigging information restoration method
Claims (10)
상기 영상 시퀀스의 각 프레임별로 객체를 검출하고 상기 객체의 2D관절위치를 기초로 2D리깅정보를 추정하는 2D리깅정보추정부;
상기 2D리깅정보를 3D리깅정보로 변환하는 3D리깅정보변환부;
변환된 상기 3D리깅정보를 2D리깅정보로 변환하는 2D리깅정보변환부; 및
이후의 프레임으로부터 추정된 2D리깅정보와 변환된 상기 2D리깅정보를 비교하여 상기 2D리깅정보를 보완하는 데이터연관부를 포함하여 구성되는 4D리깅정보 복원장치.
An image acquisition unit that receives an image sequence of one or more objects taken from a monocular camera;
2D rigging information estimation for detecting an object for each frame of the image sequence and estimating 2D rigging information based on the 2D joint position of the object;
A 3D rigging information conversion unit converting the 2D rigging information into 3D rigging information;
A 2D rigging information conversion unit converting the converted 3D rigging information into 2D rigging information; And
A 4D rigging information reconstruction device comprising a data linkage unit that complements the 2D rigging information by comparing the 2D rigging information estimated with the 2D rigging information estimated from a subsequent frame.
상기 4D리깅정보 복원장치는,
변환된 상기 3D리깅정보로부터 특정시간 경과 후의 3D리깅정보를 예측하는 3D리깅정보예측부를 포함하고,
상기 2D리깅정보변환부는 예측된 상기 3D리깅정보를 2D리깅정보로 변환하는 4D리깅정보 복원장치.
According to claim 1,
The 4D rigging information recovery device,
And a 3D rigging information prediction unit for predicting 3D rigging information after a specific time has elapsed from the converted 3D rigging information,
The 2D rigging information conversion unit is a 4D rigging information restoration apparatus for converting the predicted 3D rigging information into 2D rigging information.
상기 데이터연관부는 이후의 프레임으로부터 추정된 2D리깅정보와 변환된 상기 2D리깅정보를 비교하여 객체별로 상기 2D리깅정보를 보완하는 4D리깅정보 복원장치.
According to claim 1,
The data association unit compares the 2D rigging information estimated from a subsequent frame with the converted 2D rigging information, and a 4D rigging information restoration apparatus that complements the 2D rigging information for each object.
상기 2D리깅정보는 2D관절간거리정보 또는 2D관절위치정보를 포함하고,
상기 데이터연관부는 이후의 프레임으로부터 추정된 2D리깅정보 또는 이후의 프레임의 2D관절위치 주변의 영상패치와 변환된 상기 2D리깅정보 또는 변환된 상기 2D리깅정보와 관련된 2D관절위치 주변의 영상패치를 비교하여 객체별로 상기 2D리깅정보를 보완하는 4D리깅정보 복원장치.
According to claim 3,
The 2D rigging information includes 2D joint distance information or 2D joint location information,
The data connection unit compares the 2D rigging information estimated from the subsequent frame or the image patch around the 2D joint position of the subsequent frame with the image patch around the 2D joint position related to the converted 2D rigging information or the converted 2D rigging information. 4D rigging information restoration device to complement the 2D rigging information for each object.
상기 데이터연관부는 칼만필터 또는 LSTM을 이용하여 상기 2D리깅정보를 보완하는 4D리깅정보 복원장치.
According to claim 1,
The data connection unit is a 4D rigging information recovery device that supplements the 2D rigging information using a Kalman filter or LSTM.
상기 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부는 2D리깅정보를 3D리깅정보로 변환하거나 변환된 3D리깅정보로부터 3D리깅정보를 예측하거나 3D리깅정보를 2D리깅정보로 변환하기 위해서 딥러닝모델을 이용하는 4D리깅정보 복원장치.
The method according to claim 1 or 2,
The 3D rigging information conversion unit, the 3D rigging information prediction unit or the 2D rigging information conversion unit converts 2D rigging information into 3D rigging information or predicts 3D rigging information from the converted 3D rigging information or converts 3D rigging information into 2D rigging information. 4D rigging information restoration device using deep learning model to convert.
상기 딥러닝모델은 2D관절간거리정보 또는 3D관절간거리정보를 이용하여 학습되고,
상기 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부는 2D리깅정보 또는 3D리깅정보를 2D관절간거리정보 또는 3D관절간거리정보로 인코딩하여 학습된 상기 딥러닝모델에 입력하는 4D리깅정보 복원장치.
The method of claim 6,
The deep learning model is learned using 2D joint distance information or 3D joint distance information,
The 3D rigging information conversion unit, the 3D rigging information prediction unit or the 2D rigging information conversion unit encodes 2D rigging information or 3D rigging information into 2D joint distance information or 3D joint distance information, and inputs it to the learned deep learning model. Rigging information restoration device.
상기 3D리깅정보변환부, 상기 3D리깅정보예측부 또는 상기 2D리깅정보변환부는 인코딩된 2D관절간거리정보 또는 3D관절간거리정보를 다차원척도법(MDS)을 이용하여 2D리깅정보 또는 3D리깅정보로 디코딩하는 4D리깅정보복원 장치.
The method of claim 7,
The 3D rigging information conversion unit, the 3D rigging information prediction unit, or the 2D rigging information conversion unit decodes the encoded 2D joint distance information or 3D joint distance information into 2D rigging information or 3D rigging information using a multidimensional scaling method (MDS). 4D rigging information restoration device.
상기 4D리깅정보 복원장치는,
상기 딥러닝모델을 학습시키는 딥러닝모델부를 포함하는 4D리깅정보 복원장치.
The method of claim 6,
The 4D rigging information recovery device,
4D rigging information restoration apparatus including a deep learning model unit for learning the deep learning model.
상기 영상 시퀀스의 각 프레임별로 객체를 검출하고 상기 객체의 2D관절위치를 기초로 2D리깅정보를 추정하는 2D리깅정보추정단계;
상기 2D리깅정보를 3D리깅정보로 변환하는 3D리깅정보변환단계;
변환된 상기 3D리깅정보를 2D리깅정보로 변환하는 2D리깅정보변환단계; 및
이후의 프레임으로부터 추정된 2D리깅정보와 변환된 상기 2D리깅정보를 비교하여 상기 2D리깅정보를 보완하는 데이터연관단계를 포함하여 구성되는 4D리깅정보 복원방법.An image acquisition step of receiving an image sequence of one or more objects taken from a monocular camera;
A 2D rigging information estimation step of detecting an object for each frame of the image sequence and estimating 2D rigging information based on the 2D joint position of the object;
A 3D rigging information conversion step of converting the 2D rigging information into 3D rigging information;
A 2D rigging information conversion step of converting the converted 3D rigging information into 2D rigging information; And
A method of restoring 4D rigging information comprising a data linking step of compensating for the 2D rigging information by comparing the 2D rigging information estimated with the 2D rigging information estimated from a subsequent frame.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180109797A KR102181828B1 (en) | 2018-09-13 | 2018-09-13 | 4d rig reconstructing device and a method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180109797A KR102181828B1 (en) | 2018-09-13 | 2018-09-13 | 4d rig reconstructing device and a method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200030947A true KR20200030947A (en) | 2020-03-23 |
KR102181828B1 KR102181828B1 (en) | 2020-11-23 |
Family
ID=69998685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180109797A KR102181828B1 (en) | 2018-09-13 | 2018-09-13 | 4d rig reconstructing device and a method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102181828B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11450053B1 (en) * | 2021-04-13 | 2022-09-20 | Sony Group Corporation | Efficient 5G transmission of volumetric data using 3D character rigging techniques |
KR20220144186A (en) * | 2021-04-19 | 2022-10-26 | 고려대학교 세종산학협력단 | Biometric identification system based on individual gait patterns and method of the same |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0894320A (en) * | 1994-09-28 | 1996-04-12 | Nec Corp | Traveling object-measuring instrument |
JP2013020578A (en) * | 2011-07-14 | 2013-01-31 | Nippon Telegr & Teleph Corp <Ntt> | Three-dimensional posture estimation device, three-dimensional posture estimation method and program |
-
2018
- 2018-09-13 KR KR1020180109797A patent/KR102181828B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0894320A (en) * | 1994-09-28 | 1996-04-12 | Nec Corp | Traveling object-measuring instrument |
JP2013020578A (en) * | 2011-07-14 | 2013-01-31 | Nippon Telegr & Teleph Corp <Ntt> | Three-dimensional posture estimation device, three-dimensional posture estimation method and program |
Non-Patent Citations (1)
Title |
---|
Bruce Xiaohan Nie ET AL:"Monocular 3D Human Pose Estimation by Predicting Depth on Joints", 2017 IEEE International Conference on Computer Vision (ICCV), pp.3447-3455, 22-29 Oct. 2017(2017.10.22.) 1부.* * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11450053B1 (en) * | 2021-04-13 | 2022-09-20 | Sony Group Corporation | Efficient 5G transmission of volumetric data using 3D character rigging techniques |
KR20220144186A (en) * | 2021-04-19 | 2022-10-26 | 고려대학교 세종산학협력단 | Biometric identification system based on individual gait patterns and method of the same |
Also Published As
Publication number | Publication date |
---|---|
KR102181828B1 (en) | 2020-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881887A (en) | Multi-camera-based motion attitude monitoring and guiding method and device | |
Joo et al. | Panoptic studio: A massively multiview system for social motion capture | |
Shiratori et al. | Motion capture from body-mounted cameras | |
CN109377513B (en) | Global three-dimensional human body posture credible estimation method for two views | |
CN110544301A (en) | Three-dimensional human body action reconstruction system, method and action training system | |
CN111414797B (en) | System and method for estimating pose and pose information of an object | |
Shuai et al. | Adaptive multi-view and temporal fusing transformer for 3d human pose estimation | |
KR20160003066A (en) | Monocular visual slam with general and panorama camera movements | |
CN110544302A (en) | Human body action reconstruction system and method based on multi-view vision and action training system | |
CN113255522B (en) | Personalized motion attitude estimation and analysis method and system based on time consistency | |
CN112434679B (en) | Rehabilitation exercise evaluation method and device, equipment and storage medium | |
CN110751100A (en) | Auxiliary training method and system for stadium | |
CN114529605A (en) | Human body three-dimensional attitude estimation method based on multi-view fusion | |
CN113711276A (en) | Scale-aware monocular positioning and mapping | |
Gouidis et al. | Accurate hand keypoint localization on mobile devices | |
CN111191630A (en) | Performance action identification method suitable for intelligent interactive viewing scene | |
Chen et al. | Camera networks for healthcare, teleimmersion, and surveillance | |
CN114782661B (en) | Training method and device for lower body posture prediction model | |
KR102181828B1 (en) | 4d rig reconstructing device and a method thereof | |
CN113989928B (en) | Motion capturing and redirecting method | |
Yu et al. | Multiview human body reconstruction from uncalibrated cameras | |
Roy et al. | On triangulation as a form of self-supervision for 3D human pose estimation | |
Li et al. | Sparse-to-local-dense matching for geometry-guided correspondence estimation | |
Mehta et al. | Single-shot multi-person 3d body pose estimation from monocular rgb input | |
Dong et al. | YH-Pose: Human pose estimation in complex coal mine scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
E601 | Decision to refuse application | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |