WO2021261687A1 - 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법 - Google Patents

영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법 Download PDF

Info

Publication number
WO2021261687A1
WO2021261687A1 PCT/KR2020/017835 KR2020017835W WO2021261687A1 WO 2021261687 A1 WO2021261687 A1 WO 2021261687A1 KR 2020017835 W KR2020017835 W KR 2020017835W WO 2021261687 A1 WO2021261687 A1 WO 2021261687A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
latent region
latent
model
encoding
Prior art date
Application number
PCT/KR2020/017835
Other languages
English (en)
French (fr)
Inventor
윤주홍
박민규
김제우
김성제
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Publication of WO2021261687A1 publication Critical patent/WO2021261687A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present invention relates to image processing technology using artificial intelligence, and more particularly, to an apparatus and method for restoring 3D posture and shape information of a person from image information using an unsupervised learning autoencoder among deep learning technologies. .
  • the present invention has been devised to solve the above problems, and an object of the present invention is to use an unsupervised learning method that is relatively free from label data by using the existing supervised learning 3D human posture estimation method that was dependent on input and label data. , to provide a method and apparatus for estimating a three-dimensional human posture and shape by extracting a latent region including three-dimensional information from a single image.
  • a 3D model restoration method comprising: encoding an input image into a latent region including image characteristics using an encoding network; converting the encoded latent region into a latent region containing geometric information; and estimating a 3D model of the input image by using the transformed latent region.
  • the encoded latent region may be transformed into a latent region for an image having a different viewpoint from the input image.
  • the transformation step by applying a camera rotation matrix to the encoded latent region, it may be transformed into a latent region for an image from a viewpoint different from the input image.
  • a three-dimensional model reconstruction method comprises: reconstructing an image from a transformed latent region; encoding the reconstructed image into a latent region including image characteristics using an encoding network; applying an inverse matrix of the camera rotation matrix to the encoded latent region to transform it into a latent region for an image of the same viewpoint as the input image; reconstructing an image from the transformed latent region;
  • the method may further include optimizing the encoding network by calculating a loss function between the reconstructed image and the input image.
  • the estimation step may include estimating a Skinned Multi-Person Linear Model (SMPL) parameter from the transformed latent domain using the estimation network; It may further include; estimating a three-dimensional human posture and shape from the estimated SMPL parameters.
  • SMPL Skinned Multi-Person Linear Model
  • a 3D model restoration method using a classification network, the steps of discriminating whether the SMPL parameter estimated from the transformed latent region is correct; and training the estimation network by using the classification result.
  • the learning step may train the estimation network until the discrimination result becomes 'true'.
  • the classification network may be implemented as a Generative Adversarial Network (GAN).
  • GAN Generative Adversarial Network
  • the input image may be a single image.
  • a three-dimensional model restoration apparatus using an encoding network, encoding unit for encoding an input image into a latent region including image characteristics; a transform unit that transforms the encoded latent region into a latent region including geometric information; and an estimator for estimating a 3D model of the input image by using the transformed latent region.
  • a method for restoring a 3D model encoding an input image into a latent region including image characteristics using an encoding network; converting the encoded latent region into a latent region containing geometric information; training an encoding network using an image reconstructed from the transformed latent region; and estimating a 3D model of the input image by using the transformed latent region.
  • a three-dimensional model restoration apparatus using an encoding network, encoding unit for encoding an input image into a latent region including image characteristics; a transform unit that transforms the encoded latent region into a latent region including geometric information; and an estimator for estimating a three-dimensional model of the input image by using the transformed latent region, wherein the encoding unit trains an encoding network using the image reconstructed from the transformed latent region.
  • 1 is a conceptual diagram of supervised deep learning for posture estimation
  • FIG. 2 is a conceptual diagram of an unsupervised learning autoencoder to which an embodiment of the present invention is applicable;
  • FIG. 3 is a block diagram of a three-dimensional human posture and shape model restoration apparatus according to an embodiment of the present invention.
  • 4 is an algorithm configuration diagram of an encoding unit provided in an autoencoder
  • 5 is an algorithm configuration diagram of a conversion unit provided in the autoencoder
  • FIG. 6 is an algorithm configuration diagram of a restoration unit provided in the autoencoder
  • FIG. 7 is a view provided for explanation of an unsupervised learning process using a restoration unit and a classifier
  • FIG. 8 is a block diagram of an algorithm of an SMPL estimator provided in a three-dimensional estimator
  • 9 is a block diagram of an algorithm of a classifier provided in a 3D estimator.
  • 1 is a conceptual diagram of supervised deep learning for posture estimation.
  • Supervised learning derives optimal results by estimating the loss function between the results of the network and the label data. Therefore, the network can be trained only if the input and the label exist as a pair.
  • FIG. 2 is a conceptual diagram of an unsupervised learning autoencoder to which an embodiment of the present invention is applicable.
  • an unsupervised learning autoencoder network since the loss function between the input and the restoration result is optimized after the input is restored through the network, the network optimization can be performed only with the input data without label data.
  • FIG. 3 is a block diagram of a 3D human posture and shape model restoration apparatus (hereinafter, abbreviated as '3D model restoration apparatus') according to an embodiment of the present invention.
  • 3 is a 3D model restoration apparatus according to an embodiment of the present invention by utilizing unsupervised learning using an autoencoder and latent region characteristics to restore a 3D human posture and shape model from a single image.
  • the apparatus for restoring a 3D model according to an embodiment of the present invention for performing such a function is configured to include an autoencoder 110 and a 3D estimator 120 as shown.
  • the auto-encoder 110 is an artificial intelligence model that generates a latent region containing geometric information by rotating a latent space extracted from an image, an encoding unit 111, a transformation unit 112 and a restoration unit 113. is comprised of
  • the encoding unit 111 extracts the latent region from the image
  • the transformation unit 112 converts the latent region extracted by the encoding unit 111 into the latent region of a new viewpoint
  • the restoration unit 113 converts the transformation unit 112 )
  • the image of the new viewpoint is restored from the latent region of the new viewpoint transformed in ).
  • the 3D estimator 120 includes a Skinned Multi-Person Linear Model (SMPL) estimator 121 and a classifier 122 .
  • SMPL Skinned Multi-Person Linear Model
  • the SMPL estimator 121 is an artificial intelligence model for estimating a three-dimensional human posture and shape using the latent region generated by the autoencoder 110, and the classifier 122 is an artificial intelligence model that determines whether the SMPL parameter is accurately estimated. intelligence model.
  • the encoding unit 111 encodes the input image A (represented as 'input A' in FIG. 4 ) into a latent region A in which image information (image characteristics) is implied by using the encoding network.
  • image information image characteristics
  • Resnet and Unet which have good image feature extraction performance, can be used as basic models.
  • the transform unit 112 applies the camera rotation matrix to the latent region A extracted by the encoding unit 111 to transform it into the latent region B of a new viewpoint.
  • the transform unit 112 rotates the latent region A of the image A to the latent region B of the image B, which is a different viewpoint from the image A. To this end, the transform unit 112 multiplies the camera rotation matrix and the latent region A by a matrix.
  • the camera rotation matrix is a matrix for converting a specific camera viewpoint into another camera viewpoint.
  • the latent region B which is the latent region rotated by the transform unit 112, includes geometric information due to the rotation. That is, the transform unit 112 encodes geometric information in the latent region using the camera rotation matrix.
  • the restoration unit 113 reconstructs the image B (represented as 'reconstruction B' in FIG. 6 ) from the latent region B generated by the transformation unit 112 by using the decoding network.
  • the image A input to the auto-encoder 110 was the view A, but the image B (restored B) of the view B is obtained by the restoration unit 113 .
  • the image B (reconstruction B) obtained by the restoration unit 113 is used for unsupervised learning.
  • the image B restored by the restoration unit 113 (represented as 'restore B' in FIG. 7) is an auto-encoding process [encoding unit 111 ⁇ converting unit 112 ⁇ restoration 113], the restored image A (represented as 'restored A' in FIG. 7) is restored to have a viewpoint A, which is the same viewpoint as the original viewpoint.
  • the transform unit 112 converts the latent region extracted by the encoding unit 111 into an inverse matrix of the camera rotation matrix, and converts it from the B viewpoint to the A viewpoint.
  • the encoding unit 111 may optimize the encoding network without label data by calculating a loss function between the image A (reconstructed A) and the original image (represented as 'input A' in FIG. 7).
  • the autoencoder 110 After optimizing the encoding network, the autoencoder 110 has the ability to extract a latent region containing geometric information, which enables the ultimate goal of 3D human posture and shape parameter estimation.
  • the restoration unit 113 is a configuration necessary for learning the encoding network of the encoding unit 111, and is unnecessary in the reasoning process.
  • the SMPL estimator 121 estimates the SMPL parameter from the latent region transformed by the transform unit 112 of the autoencoder 110 using the estimation network.
  • the SMPL estimator 121 passes the estimated SMPL parameter through the SMPL estimation layer to estimate the 3D human posture and shape.
  • geometric information is encoded in the latent region transformed by the transformation unit 112 of the autoencoder 110 .
  • the SMPL parameter is estimated using the latent region characteristic of the autoencoder 110 as a means to replace the existing intermediate stage expression characteristic, and a 3D human posture and shape are generated accordingly.
  • the classifier 122 is a means for making the SMPL parameter more accurate from the latent region.
  • the classifier 122 receives the latent region transformed by the transformation unit 112 of the autoencoder 110 and the SMPL parameter estimated by the SMPL estimator 121, and classifies whether the SMPL parameter estimated from the latent region is correct.
  • Zhu is an artificial intelligence model that can be implemented as a Generative Adversarial Network (GAN).
  • the classification result of the classifier 122 is a configuration necessary for learning the estimation network of the SMPL estimator 121 and is unnecessary in the reasoning process.
  • the estimation network is trained until the classification result of the classifier 122 becomes 'true'.
  • the three-dimensional human posture and shape information predicted using a GAN that learns the distribution of data in the deep learning model and creates a similar result value maintains a more human-like joint motion range. made it possible
  • a method and apparatus for reconstructing three-dimensional human posture and shape information from a single image using unsupervised learning are presented. After converting to , the three-dimensional posture and shape of a person were restored.
  • SMPL parameters for estimating a three-dimensional human posture and shape in the latent region are predicted, and the SMPL estimated using GAN and the existing data distribution are learned to maintain a human-like joint range of motion. made it possible
  • the technical idea of the present invention can be applied to a computer-readable recording medium containing a computer program for performing the functions of the apparatus and method according to the present embodiment.
  • the technical ideas according to various embodiments of the present invention may be implemented in the form of computer-readable codes recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be any data storage device readable by the computer and capable of storing data.
  • the computer-readable recording medium may be a ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, or the like.
  • the computer-readable code or program stored in the computer-readable recording medium may be transmitted through a network connected between computers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 방법은, 인코딩 네트워크를 이용하여 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하고, 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하며, 변환된 잠재 영역을 이용하여 입력 영상의 3차원 모델을 추정한다. 이에 의해, 비지도 학습으로 다른 중간매체 표현특성을 사용할 필요 없이 잠재 영역으로부터 3차원 사람 자세 및 형상 정보를 추정 할 수 있게 된다.

Description

영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법
본 발명은 인공지능을 이용한 영상처리 기술에 관한 것으로, 더욱 상세하게는 딥 러닝 기술 중 비지도 학습 오토인코더를 사용하여 이미지 정보에서 사람의 3차원 자세 및 형상 정보를 복원하는 장치 및 방법에 관한 것이다.
기존 3차원 사람의 자세 및 형상 정보 복원 기술은 주로 센서를 사람에게 부착하여 각 관절의 3차원 위치를 복원하는 방식을 주로 사용하였으나, 여러 개의 센서를 사람에게 직접 부착하여 사용해야 된다는 단점으로 인해 실생활에 사용하기에는 부적합하다.
근래에는 컴퓨터 성능 향상과 데이터 수의 증가에 따라 딥 러닝의 성능이 폭발적으로 향상 되었고, 3차원 사람 자세 및 형상 정보 복원에도 딥 러닝 기술이 도입되어 특정 데이터 환경에서 준수한 결과를 보여주었다.
이러한 딥 러닝 기술들은 입력 데이터와 정답(레이블) 데이터를 쌍으로 비교하여 그 손실 차이를 구해 모델의 성능을 향상 시키지만 현실적 사용에는 몇 가지 문제점이 존재한다.
첫 째, 지도학습 모델 학습 시 레이블 데이터가 없는 경우 모델을 학습 시킬 수 가 없다.
둘 째, 3차원 사람 자세 및 형상 정보에 사용되는 3차원 데이터 같은 경우 레이블 데이터를 만드는데 있어 많은 시간과 자원이 소요된다.
셋 째, 전세계적으로 공개된 데이터의 수 자체가 적고, 딥 러닝 모델을 훈련시키는데 한정적인 데이터만 존재한다.
지도학습 딥 러닝 기술의 경우, 데이터에 매우 의존적이기 때문에 레이블 데이터가 없는 경우 그 성능을 발휘 할 수가 없기 때문이다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 입력, 레이블 데이터에 의존적이던 기존 지도학습 3차원 사람 자세 추정 방식을 레이블 데이터로부터 비교적 자유로운 비지도학습 방식을 사용하여, 한 장의 영상으로부터 3차원 정보가 포함된 잠재 영역을 추출하여 3차원 사람 자세 및 형상을 추정하는 방법 및 장치를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 3차원 모델 복원 방법은, 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계; 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 단계; 및 변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 단계;를 포함한다.
변환 단계는, 인코딩된 잠재 영역을 입력 영상과 다른 시점의 영상에 대한 잠재 영역으로 변환할 수 있다.
변환 단계는, 인코딩된 잠재 영역에 카메라 회전 행렬을 적용하여, 입력 영상과 다른 시점의 영상에 대한 잠재 영역으로 변환할 수 있다.
본 발명의 실시예에 따른 3차원 모델 복원 방법은, 변환된 잠재 영역으로부터 영상을 복원하는 단계; 인코딩 네트워크를 이용하여, 복원된 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계; 인코딩된 잠재 영역에 카메라 회전 행렬의 역행렬을 적용하여, 입력 영상과 같은 시점의 영상에 대한 잠재 영역으로 변환하는 단계; 변환된 잠재 영역으로부터 영상을 복원하는 단계; 복원된 영상과 입력 영상 간의 손실 함수를 계산하여, 인코딩 네트워크를 최적화하는 단계;를 더 포함할 수 있다.
추정 단계는, 추정 네트워크를 이용하여, 변환된 잠재 영역으로부터 SMPL(Skinned Multi-Person Linear Model) 파라미터를 추정하는 단계; 추정된 SMPL 파라미터로부터 3차원 사람 자세 및 형상을 추정하는 단계;를 더 포함할 수 있다.
본 발명의 실시예에 따른 3차원 모델 복원 방법은, 분별 네트워크를 이용하여, 변환된 잠재 영역로부터 추정된 SMPL 파라미터가 정확한지 분별하는 단계; 및 분별 결과를 이용하여, 추정 네트워크를 학습시키는 단계;를 더 포함할 수 있다.
학습 단계는, 분별 결과가 '참'이 될 때까지, 추정 네트워크를 학습시킬 수 있다.
분별 네트워크는, GAN(Generative Adversarial Network)으로 구현될 수 있다.
입력 영상은, 한 장의 영상일 수 있다.
한편, 본 발명의 다른 실시예에 따른, 3차원 모델 복원 장치는, 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 인코딩부; 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 변환부; 및 변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 추정부;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 3차원 모델 복원 방법은, 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계; 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 단계; 변환된 잠재 영역으로부터 복원한 영상을 이용하여, 인코딩 네트워크를 학습시키는 단계; 및 변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 단계;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 3차원 모델 복원 장치는, 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 인코딩부; 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 변환부; 변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 추정부;를 포함하고, 인코딩부는, 변환된 잠재 영역으로부터 복원한 영상을 이용하여, 인코딩 네트워크를 학습시킨다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 비지도 학습 방식의 알고리즘을 이용하여, 레이블 데이터에 의존적이었던 3차원 사람 자세 및 형상 추정을 입력 데이터만 가지고 수행할 수 있게 된다.
본 발명의 실시예들에 따르면, 카메라 회전 행렬을 사용하여 잠재 영역에 3차원 정보(기하학적)를 인코딩(내포)함으로써, 다른 중간매체 표현특성을 사용할 필요 없이 잠재 영역으로부터 3차원 사람 자세 및 형상 정보를 추정 할 수 있게 된다.
본 발명의 실시예들에 따르면, GAN을 사용하여 추정된 3차원 사람 자세 및 형상을 기존보다 사실적으로 복원 할 수 있게 된다.
도 1은 자세 추정을 위한 지도학습 딥 러닝의 개념도,
도 2는 본 발명의 실시예가 적용가능한 비지도 학습 오토인코더의 개념도,
도 3은 본 발명의 일 실시예에 따른 3차원 사람 자세 및 형상 모델 복원 장치의 블록도,
도 4는 오토인코더에 구비되는 인코딩부의 알고리즘 구성도,
도 5는 오토인코더에 구비되는 변환부의 알고리즘 구성도,
도 6은 오토인코더에 구비되는 복원부의 알고리즘 구성도,
도 7은 복원부와 분별기를 이용한 비지도 학습 과정의 설명에 제공되는 도면,
도 8은 3차원 추정기에 구비되는 SMPL 추정부의 알고리즘 구성도,
도 9는 3차원 추정기에 구비되는 분별기의 알고리즘 구성도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 자세 추정을 위한 지도학습 딥 러닝의 개념도이다. 지도학습은 네트워크의 결과와 레이블 데이터 사이의 손실 함수를 추정하여 최적의 결과를 도출한다. 따라서 입력과 레이블이 쌍으로 존재해야만 네트워크를 학습시킬 수 있다.
도 2는 본 발명의 실시예가 적용가능한 비지도 학습 오토인코더의 개념도이다. 비지도 학습 오토인코더 네트워크의 경우, 입력을 네트워크를 통해 복원한 후 입력과 복원 결과 사이의 손실 함수를 최적화하기 때문에, 레이블 데이터 없이 입력 데이터만 가지고 네트워크 최적화를 할 수 있다.
도 3은 본 발명의 일 실시예에 따른 3차원 사람 자세 및 형상 모델 복원 장치(이하, '3차원 모델 복원 장치'로 약칭)의 블록도이다.
도 3은 본 발명의 실시예에 따른 3차원 모델 복원 장치는 오토인코더를 활용한 비지도 학습과 잠재 영역 특성을 활용하여, 한 장의 영상으로부터 3차원 사람 자세 및 형상 모델을 복원한다.
이와 같은 기능을 수행하는 본 발명의 실시예에 따른 3차원 모델 복원 장치는, 도시된 바와 같이, 오토인코더(110)와 3차원 추정기(120)를 포함하여 구성된다.
오토인코더(110)는 영상으로부터 추출한 잠재 영역(Latent space)을 회전시켜 기하학적 정보를 내포한 잠재 영역을 생성하는 인공지능 모델로, 인코딩부(111), 변환부(112) 및 복원부(113)를 포함하여 구성된다.
인코딩부(111)는 영상으로부터 잠재 영역을 추출하고, 변환부(112)는 인코딩부(111)에서 추출된 잠재 영역을 새로운 시점의 잠재 영역으로 변환하며, 복원부(113)는 변환부(112)에서 변환된 새로운 시점의 잠재 영역으로부터 새로운 시점의 영상을 복원한다.
3차원 추정기(120)는 SMPL(Skinned Multi-Person Linear Model) 추정부(121) 및 분별기(122)를 포함하여 구성된다.
SMPL 추정부(121)는 오토인코더(110)에 의해 생성된 잠재 영역을 이용하여 3차원 사람 자세 및 형상을 추정하는 인공지능 모델이고, 분별기(122)는 SMPL 파라미터가 정확하게 추정되었는지 분별하는 인공지능 모델이다.
도 4는 오토인코더(110)에 구비되는 인코딩부(111)의 알고리즘 구성도이다. 인코딩부(111)는 인코딩 네트워크를 이용하여, 입력되는 영상 A(도 4에서는 '입력A'로 표기)를 영상 정보(영상 특성)가 함축된 잠재 영역 A로 인코딩한다. 인코딩 네트워크는 영상 특성 추출 성능이 좋은 Resnet과 Unet을 기본 모델로 사용할 수 있다.
도 5는 오토인코더(110)에 구비되는 변환부(112)의 알고리즘 구성도이다. 변환부(112)는 인코딩부(111)에 의해 추출된 잠재 영역 A에 카메라 회전 행렬을 적용하여 새로운 시점의 잠재 영역 B로 변환한다.
구체적으로, 변환부(112)는 영상 A에 대한 잠재 영역 A를 영상 A와 다른 시점인 영상 B에 대한 잠재 영역 B로 회전시켜 준다. 이를 위해, 변환부(112)는 카메라 회전 행렬과 잠재 영역 A를 행렬 곱한다.
카메라 회전 행렬은 특정 카메라 시점을 다른 카메라 시점으로 변환하기 위한 행렬이다.
변환부(112)에 의해 회전된 잠재 영역인 잠재 영역 B는 회전으로 인해 기하학적 정보를 포함하게 된다. 즉, 변환부(112)는 카메라 회전 행렬을 이용하여 잠재 영역에 기하학적 정보를 인코딩하게 된다.
기존 방법들은 여러 시점에서 촬영된 영상들을 사용하여 많은 3차원 정보를 추가하였다. 하지만, 본 발명의 실시예에서는, 잠재 영역을 임의의 카메라 회전 행렬로 회전 시켜 새로운 방향의 3차원 정보를 추가하도록 하였다. 회전된 잠재 영역 특성은 기하학적 정보를 포함하고 있는 200개의 점군(Point Cloud)으로 표현 가능하다. 따라서 3차원 사람 자세 및 형상을 추정할 때 보다 정확한 정보를 제공할 수 있다.
도 6은 오토인코더(110)에 구비되는 복원부(113)의 알고리즘 구성도이다. 복원부(113)는 디코딩 네트워크를 이용하여, 변환부(112)에 의해 생성된 잠재 영역 B로부터 영상 B(도 6에서는 '복원B'로 표기)를 복원한다.
오토인코더(110)에 입력된 영상 A는 A 시점이었지만, 복원부(113)에 의해 B 시점의 영상 B(복원B)가 획득되는 것이다. 복원부(113)에 의해 획득된 영상 B(복원B)는 비지도 학습에 이용된다.
구체적으로, 도 7에 나타난 바와 같이, 복원부(113)에 의해 복원된 영상 B(도 7에는 '복원B'로 표기)는 오토인코딩 과정[인코딩부(111) → 변환부(112) → 복원부(113)]을 거처 원래 시점과 같은 시점인 A 시점을 갖도록 복원된 영상 A(도 7에는 '복원A'로 표기)로 복원된다. 이 과정에서, 변환부(112)는 인코딩부(111)에 의해 추출된 잠재 영역을 카메라 회전 행렬의 역행렬로 변환하여, B 시점에서 A 시점으로 변환한다.
인코딩부(111)는 이렇게 복원된 영상 A(복원A)와 원래 영상(도 7에는 '입력A'로 표기) 사이의 손실 함수를 계산함으로서 레이블 데이터 없이 인코딩 네트워크를 최적화할 수 있다.
인코딩 네트워크 최적화가 끝나면, 오토인코더(110)는 기하학적 정보를 내포한 잠재 영역을 추출할 수 있는 능력이 생기게 되며, 이는 궁극적 목표인 3차원 사람 자세 및 형상 파라미터 추정을 가능하게 하여 준다.
한편, 복원부(113)는 인코딩부(111)의 인코딩 네트워크를 학습시키기 위해 필요한 구성으로, 추론 과정에서는 불필요하다.
도 8은 3차원 추정기(120)에 구비되는 SMPL 추정부(121)의 알고리즘 구성도이다. SMPL 추정부(121)는 추정 네트워크를 이용하여, 오토인코더(110)의 변환부(112)에서 변환된 잠재 영역으로부터 SMPL 파라미터를 추정한다.
다음, SMPL 추정부(121)는 추정된 SMPL 파라미터를 SMPL 추정 레이어에 통과시켜 3차원 사람 자세 및 형상을 추정한다.
기존의 지도 학습 방법들은 영상에서 중간단계 표현특성을 추정하여 사용한다. 즉, Heatmaps, Silhouette 등을 사용하여 3차원 사람 자세 및 형상을 추정하는 방식을 주로 사용했지만, 높은 차원의 크기 때문에 더 많은 양의 메모리를 필요로 하고 레이블 데이터가 존재해야만 중간단계 표현 특성을 생성할 수가 있다.
하지만, 본 발명의 실시예의 경우, 오토인코더(110)의 변환부(112)에서 변환된 잠재 영역은 기하학적 정보가 인코딩되어 있다. 본 발명의 실시예에서는 기존 중간단계 표현 특성을 대체할 수단으로 오토인코더(110)의 잠재 영역 특성을 사용하여 SMPL 파라미터를 추정하고 이에 따른 3차원 사람 자세 및 형상을 생성하도록 한 것이다.
이는 보다 낮은 차원의 크기와 함축된 기하학적 정보를 통해 기존 지도학습 방식 보다 정확한 파라미터 추정을 가능하게 한다.
도 9는 3차원 추정기(120)에 구비되는 분별기(122)의 알고리즘 구성도이다. 분별기(122)는 잠재 영역으부터 SMPL 파라미터를 보다 정확하게 만들어 주기 위한 수단이다.
분별기(122)는 오토인코더(110)의 변환부(112)에서 변환된 잠재 영역과 SMPL 추정부(121)에 의해 추정된 SMPL 파라미터를 입력받아, 잠재 영역으로부터 추정된 SMPL 파라미터가 정확한지 분별하여 주는 인공지능 모델로, GAN(Generative Adversarial Network)으로 구현가능하다.
분별기(122)의 분별 결과는 SMPL 추정부(121)의 추정 네트워크를 학습시키기 위해 필요한 구성으로, 추론 과정에서는 불필요하다. 분별기(122)의 분별 결과가 '참'이 될 때까지 추정 네트워크가 학습된다.
기존의 방법들은 중간단계 표현 특성을 사용하여 3차원 사람 자세 및 형상 정보를 추정한다고 전술한 바 있다. 이러한 추정 방법의 문제점은 예측한 3차원 자세나 형상이 사람의 관절 가동 범위까지 완벽하게 추정 하진 않기 때문에, 사람이 할 수 없는 자세를 예측 할 수도 있다.
하지만, 본 발명의 실시예에서는, 딥 러닝 모델 중 데이터의 분포를 학습하여 그와 유사한 결과값을 만들어 주는 GAN을 사용하여 예측된 3차원 사람 자세 및 형상 정보가 보다 사람과 같은 관절 가동 범위를 유지 할 수 있도록 하였다.
지금까지, 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.
본 발명의 실시예에서는, 비지도 학습을 이용하여 한 장의 영상으로부터 3차원 사람 자세 및 형상 정보를 복원하는 방법 및 장치를 제시하였는데, 영상으로부터 기하학 정보를 포함한 잠재 영역을 만들고, 잠재 영역을 SMPL 파라미터로 변환 후 사람의 3차원 자세 및 형상을 복원하였다.
입력, 레이블 데이터에 의존적이던 기존 지도학습 3차원 사람 자세 추정 방식에서 벗어나, 본 발명의 실시예에서는 레이블 데이터로부터 비교적 자유로운 비지도학습 방식을 사용하여 한 장의 영상으로부터 3차원 정보가 포함된 잠재 영역을 만들었다.
또한, 본 발명의 실시예에서는, 잠재 영역에서 3차원 사람 자세 및 형상을 추정하기 위한 SMPL 파라미터를 예측하고, GAN을 이용하여 추정된 SMPL과 기존 데이터 분포를 학습시켜 사람과 같은 관절 가동 범위를 유지할 수 있도록 하였다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (12)

  1. 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계;
    인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 단계; 및
    변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
  2. 청구항 1에 있어서,
    변환 단계는,
    인코딩된 잠재 영역을 입력 영상과 다른 시점의 영상에 대한 잠재 영역으로 변환하는 것을 특징으로 하는 3차원 모델 복원 방법.
  3. 청구항 2에 있어서,
    변환 단계는,
    인코딩된 잠재 영역에 카메라 회전 행렬을 적용하여, 입력 영상과 다른 시점의 영상에 대한 잠재 영역으로 변환하는 것을 특징으로 하는 3차원 모델 복원 방법.
  4. 청구항 3에 있어서,
    변환된 잠재 영역으로부터 영상을 복원하는 단계;
    인코딩 네트워크를 이용하여, 복원된 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계;
    인코딩된 잠재 영역에 카메라 회전 행렬의 역행렬을 적용하여, 입력 영상과 같은 시점의 영상에 대한 잠재 영역으로 변환하는 단계;
    변환된 잠재 영역으로부터 영상을 복원하는 단계;
    복원된 영상과 입력 영상 간의 손실 함수를 계산하여, 인코딩 네트워크를 최적화하는 단계;를 더 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
  5. 청구항 1에 있어서,
    추정 단계는,
    추정 네트워크를 이용하여, 변환된 잠재 영역으로부터 SMPL(Skinned Multi-Person Linear Model) 파라미터를 추정하는 단계;
    추정된 SMPL 파라미터로부터 3차원 사람 자세 및 형상을 추정하는 단계;를 더 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
  6. 청구항 5에 있어서,
    분별 네트워크를 이용하여, 변환된 잠재 영역로부터 추정된 SMPL 파라미터가 정확한지 분별하는 단계; 및
    분별 결과를 이용하여, 추정 네트워크를 학습시키는 단계;를 더 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
  7. 청구항 6에 있어서,
    학습 단계는,
    분별 결과가 '참'이 될 때까지, 추정 네트워크를 학습시키는 것을 특징으로 하는 3차원 모델 복원 방법.
  8. 청구항 7에 있어서,
    분별 네트워크는,
    GAN(Generative Adversarial Network)으로 구현되는 것을 특징으로 하는 3차원 모델 복원 방법.
  9. 청구항 1에 있어서,
    입력 영상은,
    한 장의 영상인 것을 특징으로 하는 3차원 모델 복원 방법.
  10. 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 인코딩부;
    인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 변환부; 및
    변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 추정부;를 포함하는 것을 특징으로 하는 3차원 모델 복원 장치.
  11. 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계;
    인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 단계;
    변환된 잠재 영역으로부터 복원한 영상을 이용하여, 인코딩 네트워크를 학습시키는 단계; 및
    변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
  12. 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 인코딩부;
    인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 변환부;
    변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 추정부;를 포함하고,
    인코딩부는,
    변환된 잠재 영역으로부터 복원한 영상을 이용하여, 인코딩 네트워크를 학습시키는 것을 특징으로 하는 3차원 모델 복원 장치.
PCT/KR2020/017835 2019-12-11 2020-12-08 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법 WO2021261687A1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20190164283 2019-12-11
KR1020200077013A KR102338491B1 (ko) 2019-12-11 2020-06-24 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법
KR10-2020-0077013 2020-06-24

Publications (1)

Publication Number Publication Date
WO2021261687A1 true WO2021261687A1 (ko) 2021-12-30

Family

ID=76599999

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/017835 WO2021261687A1 (ko) 2019-12-11 2020-12-08 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법

Country Status (2)

Country Link
KR (1) KR102338491B1 (ko)
WO (1) WO2021261687A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102459293B1 (ko) 2022-04-20 2022-10-27 국방과학연구소 사람 또는 4족 보행 동물에 대한 메쉬 모델 생성 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4667900B2 (ja) * 2005-02-17 2011-04-13 株式会社ユニメック 二次元画像からの三次元解析方法とそれを実行するシステム
KR20130138658A (ko) * 2012-06-11 2013-12-19 삼성전자주식회사 부분 포즈 추정에 의하여 개략적인 전체 초기설정을 사용하는 머리 포즈 추정 방법 및 장치
US20180315230A1 (en) * 2015-06-24 2018-11-01 Max-Planck-Gesellschaft Zur Förderung Dur Wissenschaften E.V. Skinned multi-person linear model
KR20190062283A (ko) * 2017-11-28 2019-06-05 한국전자통신연구원 선택적 손실 함수를 이용한 생성적 적대 네트워크의 학습을 위한 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4667900B2 (ja) * 2005-02-17 2011-04-13 株式会社ユニメック 二次元画像からの三次元解析方法とそれを実行するシステム
KR20130138658A (ko) * 2012-06-11 2013-12-19 삼성전자주식회사 부분 포즈 추정에 의하여 개략적인 전체 초기설정을 사용하는 머리 포즈 추정 방법 및 장치
US20180315230A1 (en) * 2015-06-24 2018-11-01 Max-Planck-Gesellschaft Zur Förderung Dur Wissenschaften E.V. Skinned multi-person linear model
KR20190062283A (ko) * 2017-11-28 2019-06-05 한국전자통신연구원 선택적 손실 함수를 이용한 생성적 적대 네트워크의 학습을 위한 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MIN XIN, SUN SHOUQIAN, WANG HONGLIE, ZHANG XURUI, LI CHAO, ZHANG XIANFU: "Motion Capture Research: 3D Human Pose Recovery Based on RGB Video Sequences", APPLIED SCIENCES, vol. 9, no. 17, 2 September 2019 (2019-09-02), pages 1 - 22, XP055885594, DOI: 10.3390/app9173613 *

Also Published As

Publication number Publication date
KR20210074166A (ko) 2021-06-21
KR102338491B1 (ko) 2021-12-13

Similar Documents

Publication Publication Date Title
US20110221769A1 (en) Robust object recognition by dynamic modeling in augmented reality
WO2021208601A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN111768336A (zh) 人脸图像处理方法、装置、计算机设备和存储介质
CN109635783A (zh) 视频监控方法、装置、终端和介质
CN110490959B (zh) 三维图像处理方法及装置、虚拟形象生成方法以及电子设备
CN110335299A (zh) 一种基于对抗网络的单目深度估计系统实现方法
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
WO2020139054A1 (en) Apparatus and method for generating a virtual avatar
WO2021261687A1 (ko) 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법
JP2022100299A (ja) 画像処理の方法、デバイス及びコンピュータ可読記憶媒体
CN111640172A (zh) 一种基于生成对抗网络的姿态迁移方法
CN113989928B (zh) 一种动作捕捉和重定向方法
WO2021256640A1 (ko) 관절 간 상대 거리 정보를 이용한 다시점 영상 기반 사람 자세 및 형상 모델 복원 장치 및 방법
WO2022108275A1 (ko) 인공지능을 활용한 가상 얼굴 생성 방법 및 장치
Saif et al. Aggressive action estimation: a comprehensive review on neural network based human segmentation and action recognition
WO2023080266A1 (ko) 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
Wang et al. Convolution-Based Design for Real-Time Pose Recognition and Character Animation Generation
CN112766120B (zh) 基于深度点云的三维人体姿态估计方法与系统
CN114783017A (zh) 基于逆映射的生成对抗网络优化方法及装置
CN115170706A (zh) 一种人工智能神经网络学习模型构建系统及构建方法
CN114742890A (zh) 一种基于图像内容和风格解耦的6d姿态估计数据集迁移方法
WO2022131390A1 (ko) 다중 시점 이미지를 사용한 자가지도 학습 기반 3차원 사람 자세 추정 방법
WO2020175729A1 (ko) 가우시안 특징점맵과 회귀 기법을 이용한 얼굴 특징점 검출 장치 및 방법
CN112149631A (zh) 图像处理的方法、装置、设备和介质
Dreschler et al. On the frame-to-frame correspondence between greyvalue characteristics in the images of moving objects

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20941694

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20941694

Country of ref document: EP

Kind code of ref document: A1