KR20230150867A - 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측 - Google Patents

얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측 Download PDF

Info

Publication number
KR20230150867A
KR20230150867A KR1020237033483A KR20237033483A KR20230150867A KR 20230150867 A KR20230150867 A KR 20230150867A KR 1020237033483 A KR1020237033483 A KR 1020237033483A KR 20237033483 A KR20237033483 A KR 20237033483A KR 20230150867 A KR20230150867 A KR 20230150867A
Authority
KR
South Korea
Prior art keywords
images
neural network
image
human
mesh
Prior art date
Application number
KR1020237033483A
Other languages
English (en)
Inventor
칭 장
한위안 샤오
Original Assignee
소니그룹주식회사
소니 코포레이션 오브 아메리카
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/701,991 external-priority patent/US11961266B2/en
Application filed by 소니그룹주식회사, 소니 코포레이션 오브 아메리카 filed Critical 소니그룹주식회사
Publication of KR20230150867A publication Critical patent/KR20230150867A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • G06T17/205Re-meshing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/16Cloth

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

신경 사람 활동 캡처 프레임워크(MVS-PERF)는 교정된 멀티뷰 이미지들의 세트로부터 골격, 신체 형상 및 의류 변위, 및 사람의 외관을 캡처한다. 이것은 단안(monocular) 사람 메쉬 복구에서 절대 위치를 예측하는 모호성을 해결하고, NeRF로부터의 볼륨 표현과 애니메이션-친화적 퍼포먼스 캡처에 가교 역할을 한다. MVS-PERF는 멀티뷰 이미지들로부터 피쳐 맵들을 추출하고 이들을 피쳐 볼륨에 융합하고, 피쳐 볼륨을 벌거벗은 사람 파라미터 벡터로 회귀시켜, 골격 자세, 신체 형상, 및 표정을 갖는 SMPL-X 피부 밀착 신체 메쉬를 생성하며, 신경 래디언스 필드 및 변형 필드를 활용하여, 구별 가능한 렌더링을 사용함으로써 벌거벗은 신체 상의 변위로서 의류를 추론하기 위한 3개의 모듈을 포함한다. SMPL-X 피부 밀착 신체 메쉬 정점들에 보간된 변위 벡터들을 추가함으로써 의류를 입은 신체 메쉬가 취득된다. 획득된 래디언스 필드는 입력 피사체의 프리-뷰(free-view) 볼륨 렌더링을 위해 사용된다.

Description

얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측
관련 출원(들)에 대한 상호 참조
본 출원은 35 U.S.C. §119(e) 하에, "얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측(MULTIVIEW NEURAL HUMAN PREDICTION USING IMPLICIT DIFFERENTIABLE RENDERER FOR FACIAL EXPRESSION, BODY POSE SHAPE AND CLOTHES PERFORMANCE CAPTURE)"라는 명칭으로 2021년 11월 16일에 출원된 미국 가특허 출원 제63/279,916호, 및 "얼굴 표정, 신체 자세 형상 및 의류 변위를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측(MULTIVIEW NEURAL HUMAN PREDICTION USING IMPLICIT DIFFERENTIABLE RENDERER FOR FACIAL EXPRESSION, BODY POSE SHAPE AND CLOTHES DISPLACEMENT)"라는 명칭으로 2021년 3월 31일에 출원된 미국 가특허 출원 제63/168,467호의 우선권을 주장하며, 이들 모두는 모든 목적을 위해 그 전체가 본 명세서에 참조로 포함된다.
발명의 분야
본 발명은 엔터테인먼트 산업을 위한 3차원 컴퓨터 비전 및 그래픽에 관한 것이다. 더 구체적으로, 본 발명은 영화, TV, 음악 및 게임 콘텐츠 생성을 위한 3차원 컴퓨터 비전 및 그래픽을 취득하고 처리하는 것에 관한 것이다.
이전의 시스템들, 예를 들어, 페이스북 프랭크모캡(Facebook FrankMocap)은 단일 이미지로부터 벌거벗은 신체 형상 및 자세만을 예측한다. 이러한 시스템들은 의류 표면을 예측 할 수 없다. 이러한 시스템들은 2D 이미지 변환 접근법이고 멀티뷰 입력을 취급할 수 없다.
암시적 파트 네트워크(Implicit Part Network)는 스캔된 또는 재구성된 포인트 클라우드로부터 신체와 의류 양쪽 모두를 예측하지만, 3D 스캔을 요구하고 RGB 이미지를 입력이나 얼굴 표정 및 외관으로서 취급할 수 없다. 또한, 암시적 파트 네트워크는 복셀(voxel)을 신체 또는 의류로서 식별하기 위한 표지만을 예측하고, 이어서 사람을 이전 모델에 명시적으로 끼워 맞추는데, 이는 속도가 느리다. 뉴럴 바디(Neural Body) 및 애니메이션 가능한 NeRF(Animatable NeRF)는 신경 래디언스 필드(neural radiance field)(NeRF)를 사용하여 얼굴 표정 없이 의류 사람 신체를 예측한다. 그러나, 이들은 밀집된 잠재 코드 볼륨을 생성할 것을 요구하는데, 이는 낮은 해상도로 제한되고 대강의 사람 기하구조를 초래한다. 그리고 이들은 메쉬 정점 대응 없이 볼륨 사람 모델만을 복구할 수 있다.
멀티뷰 신경 사람 예측은 카메라 보정이 주어진 멀티뷰 이미지들의 세트로부터 골격, 신체 형상 및 의류 변위(clothes displacement) 및 외관(appearance)을 포함하는 3D 사람 모델을 예측하는 것을 포함한다.
일 양태에서, 신경 네트워크는 상이한 뷰들로부터, 단일 이미지 또는 다수의 이미지일 수 있는 이미지들의 입력 세트를 취하고, 계층화된 3D 사람 모델을 예측한다. 이미지들의 세트는 크기 의 4D 텐서(tensor)를 포함하고, 여기서 N은 뷰들의 수이고, w는 이미지의 폭이고, h는 이미지의 높이이고, c는 이미지의 채널이다. 이미지들의 세트에 대한 카메라 정보는 알려져 있다. 출력 모델은 내부로부터 외부로의 3개의 층을 포함한다: 예측 자세에서의 골격; 얼굴 표정을 갖는 예측 형상의 벌거벗은 3D 신체(예를 들어, 혼합형상(blendshapes) 및 관절 회전에 의해 파라미터화된 SMPL-X 모델); 및 입력 이미지들로부터 추론된 의류 변위의 3D 필드 및 외관 RGB 색상. 의류 변위 필드에 따라 벌거벗은 3D 신체 메쉬를 변형시킴으로써 의류를 입은 신체 메쉬가 취득된다.
다른 양태에서, 신경 네트워크는 3개의 서브-네트워크로 피쳐들된다: 입력 이미지 세트를 피쳐들로 인코딩하는 멀티뷰 스테레오 3D 컨볼루셔널 신경 네트워크(multiview stereo 3D convolutional neural network)(MVS-3DCNN), 피쳐들을 사람 파라미터들로 회귀시키는 사람 메쉬 복구 다층 퍼셉트론(human mesh recovery multilayer perceptron)(HMR MLP), 및 MVS-3DCNN을 미세-조정하고 쿼리(query) 3D 광선(3D 위치 및 방향)을 RGB 색상 및 의류-대-신체 변위로 디코딩하는 신경 래디언스 필드 다층 퍼셉트론(neural radiance field multilayer perceptron)(NeRF MLP).
다른 양태에서, 시험/추론 모드에서, 훈련 데이터 내의 카메라의 뷰 범위 내에서, 계층화된 3D 사람 모델의 예측은 임의의 명시적 수치 최적화 없이 작은 입력 세트에 대해 디바이스 애그노스틱(device agnostic), 완전 자동 및 실시간이다. 훈련된 신경 네트워크로 예측할 때, MVS-3DCNN은 멀티뷰 이미지 세트를 입력으로서 취하고, 정면 뷰를 기준 뷰로서 선택하고 피쳐 볼륨을 추출한다. HMR MLP는 모든 피쳐 볼륨을 사람의 자세, 형상, 얼굴 표정 파라미터들로 회귀시킨다. SMPL-X 모델은 파라미터들에 따라 사람의 벌거벗은 신체 메쉬를 생성한다. 그 다음, 벌거벗은 신체 메쉬는 그것의 바운딩 박스(bounding box)에서 점유 필드로 변환된다. 뷰의 각각의 중심으로부터의 광선 방향들에 연관된, 신체 메쉬 근처의 임의의 3D 포인트에 대해, 훈련된 NeRF MLP는 RGB 색상 및 벌거벗은 신체의 표면을 가리키는 3D 변위 벡터를 생성한다. 카메라 뷰(입력 뷰 또는 임의의 새로운 뷰와 동일)의 모든 픽셀로부터 방사(shooting)한 모든 광선을 쿼리함으로써, 의류를 입은 사람 신체의 외관은 RGB 이미지로서 렌더링될 수 있다. 샘플링된 포인트들로부터 3D 변위 벡터들을 사용하여 벌거벗은 신체를 변형시킴으로써, SMPL-X 모델과 동일한 정점 대응의 의류를 입은 신체 메쉬, 예를 들어, SMPL-X+D를 취득할 수 있다.
또 다른 양태에서, 신경 네트워크를 훈련하는 것은 2가지 경우: 감독(supervision) 및 자체-감독(self-supervision)을 포함한다. 감독의 경우에, 알려진 사람 파라미터들을 갖는 표지된 데이터세트, 예를 들어, H36M 데이터세트가 주어진다. 실측 자료(ground truth)(GT) 파라미터들 및 형상들은 CNN 회귀 파라미터들 및 형상들과 비교된다. 차이는 형상 손실로서 계산된다. 한편, 광선은 입력 이미지 세트 내의 샘플링된 픽셀로부터 투사(cast)되고, NeRF MLP는 광선들을 렌더링하고 파라미터들을 색상들 및 밀도들로 회귀시키며, 이는 벌거벗은 신체의 밀도 및 3D 의류 변위의 함수이다. 색상 손실은 샘플링된 픽셀 색상들과 렌더링된 색상들의 차이들의 합에 의해 계산된다. 한편, GT 사람 파라미터들이 알려지지 않은 대부분의 기존 데이터세트, 예를 들어, 모션 캡처 데이터세트에서, 자체 감독/자체 개선 훈련이 이용된다. 각각의 훈련 반복에서, 파라미터들이 MVS 3DCNN으로부터 회귀된 후에, 이들은 SMPLifyX와 같은 최적화-기반 사람 예측 알고리즘으로 전송되고 명시적 수치 최적화 접근법에 의해 최적화된다. 최적화된 파라미터들은 CNN-회귀 파라미터들과 비교되고 형상 손실이 된다. 나머지 단계들은 감독 훈련과 동일하지만, 자체-개선 훈련은 감독된 경우보다 더 많은 에포크(epoch) 및 더 긴 시간이 걸린다. 전체 신경 네트워크의 훈련은 아담(Adam)과 같은 병렬 최적화 알고리즘에 의해 수행되며, 이는 형상 및 색상 손실 모두를 최소화하고, 최적화된 네트워크 가중치들을 출력한다.
도 1은 일부 실시예에 따른 신경 사람 예측의 흐름도를 나타낸다.
도 2는 일부 실시예에 따른, 모든 네트워크 MVS 3DCNN, HMR MLP 및 NeRF MLP의 가중치들이 알려져 있는, 텐서 표기법에 의해 표현되는 순방향 예측의 워크플로를 나타낸다.
도 3은 일부 실시예에 따른 감독을 이용하여 네트워크를 훈련시키는 워크플로를 나타낸다.
도 4는 일부 실시예에 따른 자체-개선 전략에서 네트워크를 훈련시키는 워크플로를 나타낸다.
도 5는 일부 실시예에 따른 NeRF MLP에 대한 각각의 뷰의 MVS 3DCNN의 정렬을 나타낸다.
신경 사람 예측은 한 세트의 이미지(단일 이미지 또는 멀티뷰 이미지)로부터 골격의 자세, 신체 형상 및 의류 변위 및 외관을 포함하는 3D 사람 모델을 예측 하는 것을 포함한다. 신경 사람 예측의 실시예들은 신경 네트워크를 사용하기 위한 방법들을 설명한다. 멀티뷰 신경 사람 예측은 품질 및 견고함에서 단일 이미지-기반 모캡 및 사람 리프팅을 능가하고, 스파스 포인트 클라우드(sparse point cloud)를 무거운 메모리 비용으로 입력으로서 취하고 천천히 수행하는 암시적 파트 네트워크와 같은 신체 의류 예측 네트워크의 아키텍처(architecture)를 단순화하며, 전체 3D 볼륨을 인코딩하는 뉴럴 신체(Neural Body)와 같은 잠재 코드-기반 네트워크의 해상도 제한을 회피한다.
도 1은 일부 실시예에 따른 신경 사람 예측의 흐름도를 나타낸다. 단계(100)에서, 단일 이미지 또는 멀티뷰 이미지인 이미지들의 입력 세트 I, 예를 들어, 피사체 주위에서 촬영된 사진들의 세트가 입력으로서 취득된다. 입력 I은 크기 의 4D 텐서로서 표시되고, N은 뷰들의 수고, w, h, c는 각각 이미지 폭, 높이 및 채널이다. 카메라들은 이미 보정되어 있으므로, 모든 카메라 정보(예를 들어, 카메라 파라미터들)가 알려져 있다. 이미지 전처리는 덱트론2(Detectron2) 및 이미지 그랩-컷(Grab-Cut)과 같은 기존의 접근법을 사용하여 피사체의 바운딩 박스 및 전경 마스크를 추출한다. 이미지들은 바운딩 박스에 의해 잘리게 되고 동일한 종횡비로 의 크기로 확대된다. 이미지 경계들은 흑색으로 채워진다.
신경 네트워크(MVS-PERF)(102)는 3개의 구성요소를 포함한다: 이미지들의 입력 세트를 피쳐들로 인코딩하는 멀티뷰 스테레오 3D 컨볼루셔널 신경 네트워크(MVS-3DCNN)(104); 피쳐들을 사람 파라미터들로 회귀시키는 사람 메쉬 복구 다층 퍼셉트론(HMR MLP)(106); 및 MVS-3DCNN을 미세-조정하고 쿼리 3D 광선(3D 위치 및 방향)을 RGB 색상 및 의류-대-신체 변위로 디코딩하는 신경 래디언스 필드 다층 퍼셉트론(NeRF MLP)(108).
단계(104)에서, 심층 2D CNN은 각각의 뷰로부터 이미지 피쳐들을 추출한다. 각각의 컨볼루셔널 층에 이어서 배치-정규화(batch-normalization)(BN) 층 및 마지막 층을 제외한 정류된 선형 유닛(ReLU)이 이어진다. 2개의 다운샘플링(downsampling) 층이 또한 배치된다. 2D CNN의 출력은 크기 의 피쳐 맵이다.
그 다음, 뷰가 먼저 기준 뷰로서 선택되고, 그 뷰 절두체가 원근 투영(perspective projection)에 따라 그리고 피사체의 전체 작업 공간을 포함하도록 가까운 원거리 평면들에 따라 설정된다. 가까운 것부터 먼 것까지, 절두체는 가까운 평면 및 먼 평면 모두에 평행한 d 깊이 평면들에 의해 샘플링된다. 모든 피쳐 맵들은 각각의 깊이 평면에 변환되고 혼합된다. 임의의 뷰 i, i = 1, 2, ..., N에 대해, 기준 뷰에 대한 3x3 호모그래피 이미지 워핑 행렬(homography image warping matrix)(1로서 인덱스)은 다음과 같이 주어진다.
여기서, K, [R, t]는 카메라 고유 및 외부 파라미터들을 나타내고, z는 기준 뷰의 깊이 평면으로부터 카메라 중심까지의 거리이고, n은 깊이 평면의 수직 방향이다.
모든 이미지가 깊이 평면으로 워핑된 후에, 좌표 (u, v, z)에서의 비용은 모든 피쳐들의 분산 에 의해 결정된다. 는 모든 뷰 사이의 평균 피쳐 값이다. 비용 볼륨의 크기는 이다.
단계(106)에서, 사람 메쉬 복구 다층 퍼셉트론(HMR MLP)은 평탄화 및 드롭아웃(dropout) 층에 의해 분리된 선형 회귀의 3개의 층을 포함한다. 그것은 피쳐 볼륨을 MVS 3DCNN으로부터 사람 신체 파라미터들 (114)로 회귀시킨다.
사람 신체 파라미터들 는 사람 파라메트릭 모델, 예를 들어, SMPL-X를 3D 벌거벗은 신체 메쉬(202)로 조작할 수 있다. 전형적으로, SMPL-X 표현 는 골격 자세들(각각의 관절의 3D 회전 각도들), 신체 형상, 예를 들어, 높이, 무게, 그리고 다른 것들 등을 제어하기 위한 신체 혼합형상 파라미터들, 및 얼굴의 표정을 제어하기 위한 얼굴 혼합형상 파라미터들을 포함한다. 이는 혼합형상 파라미터들을 사용하여 T-자세 메쉬를 구축하고, 이를 선형 스키닝(skinning) 모델의 골격 자세에 의해 자세 메쉬로 변형시킨다.
한편, 단계(108)에서, 비용 볼륨은 신경 래디언스 필드(NeRF)와 같은 구별 가능한 렌더링(MLP)으로 전송된다. NeRF MLP는 3D 위치 x 및 방향 φ에 의해 표현되는 쿼리 광선을 4-채널 색상 RGBσ에 매핑하는 함수 M, c(x,φ)=M(x,φ,f;Γ)으로서 공식화된다. f는 절두체 MVS 3DCNN(104)의 비용 볼륨으로부터 NeRF 볼륨까지의 피쳐 맵이고, Γ는 NeRF MLP 네트워크의 가중치이다. σ는 3D 포인트가 메쉬 내부에 있는 경우의 확률의 점유 밀도를 나타낸다. 벌거벗은 신체의 점유 밀도 필드 σ b 는 절두체(104) 내의 메쉬(202)(도 2)를 변환함으로써 바로 취득될 수 있다. 이어서, 의류를 입은 신체의 밀도 필드 σ가 3D 변위 벡터 필드 D 및 피쳐 맵 f:σ(D, f)의 함수로서 표현될 수 있다. 3D 변위 벡터 필드 D(116)는 의류를 입은 신체 표면(204) 상의 포인트가 벌거벗은 신체 표면 상의 포인트와 어떻게 관련되는지를 나타낸다. NeRF MLP가 훈련될 때, 변위 벡터 필드 D도 최적화된다.
도 2는 일부 실시예에 따른, 모든 네트워크 MVS 3DCNN, HMR MLP 및 NeRF MLP의 가중치가 훈련되고 고정되는, 텐서 표기법에 의해 표현되는 순방향 예측의 워크플로를 도시한다. 원근 투영 이미지의 픽셀의 모든 광선(200)에 대해 쿼리함으로써, 외관 이미지(112)가 렌더링된다. 일부 실시예에서, 3D 사람 예측(110)이 구현된다. 사람 신체 근처의 샘플링된 포인트들에 대해 쿼리함으로써, 변위 필드 D(116)가 취득된다. 의류를 입은 출력 메쉬가 템플릿과 동일한 토폴로지(topology)를 갖는 사람 퍼포먼스 캡처 작업에 대해, 벌거벗은 신체 메쉬 (202)는 각각의 정점에 보간된 변위 벡터를 추가함으로써 의류 신체 메쉬 (204)로 변형될 수 있다.
도 3은 일부 실시예에 따른 감독을 이용하여 네트워크를 훈련시키는 워크플로를 나타낸다. 감독된 훈련 데이터세트, 예를 들어, Human3.6M은 이미지 입력 I(100)뿐만 아니라 센서들 또는 기존의 접근법들에 의해 통상적으로 취득되는 실측 자료 사람 파라미터들 (300) 및 벌거벗은 신체 메쉬 V b,gt (302)를 포함한다. 이 경우, 형상 손실(304)은 예측된 벌거벗은 신체와 실측 자료의 차이를 합산함으로써 바로 취득된다.
여기서, J는 벌거벗은 신체의 관절들이고, Π는 각각의 카메라 뷰에 대한 3D 포인트의 원근 투영을 나타낸다. 네트워크를 효과적으로 훈련하기 위해, 각각의 훈련 단계에서, 모든 뷰가 차례대로 MVS 3DCNN에 대한 기준 뷰로서 선택되게 된다.
한편, 광선들(306)은 통상적으로 이미지 현출성(image saliency)에 비례하는 불균일한 샘플링 전략을 이용하여 입력 이미지 세트(100)로부터 샘플링된다. 현출성이 높은 영역들에서 더 많은 광선이 샘플링되고, 평범한(plain) 또는 배경 영역들로부터 더 적은 광선이 샘플링된다. 이러한 광선들은 피쳐 맵과 함께 MVS 3DCNN(104)으로부터 NeRF MLP(106)로 전송되며, 이는 샘플 외관 RGBσ 색상들(308)을 렌더링한다. 색상 손실(310)은 입력 이미지 내의 샘플링된 색상과 렌더링된 색상들(308)의 모든 차이를 합산함으로써 계산된다.
병렬화된 확률론적 최적화 알고리즘, 예를 들어, 아담(Adam)이 적용되어 형상 및 색상 손실들 모두를 최소화함으로써 모든 네트워크들 MVS 3DCNN, HMR MLP, NeRF MLP의 가중치를 훈련한다.
도 4는 일부 실시예에 따른 자체-개선 전략으로 네트워크를 훈련하는 워크플로를 나타낸다. 이 경우, 훈련 데이터세트는 임의의 주석 또는 사람 실측 자료 파라미터들 없이 사람 이미지들만을 제공한다. 입력 세트(100) 내의 각각의 이미지에 대해, 재귀된 파라미터들 (114)를 초기 추측으로서 취함으로써 최적화-기반 예측(400), 예를 들어, SMPLifyX 알고리즘이 적용된다. 최적화 기반 예측은 먼저 각각의 이미지 상의 사람 2D 키 포인트들을 검출하고 3D 사람에 맞도록 비선형 최적화를 적용한다.
이들 2D 키 포인트들에 대한 ((402)에 의해 파라미터화된) 메쉬 Vb,opt(404).
여기서, K는 키 포인트의 검출된 2D 위치를 나타내고, 합은 모든 대응하는 키 포인트 및 모든 뷰를 받아들인다.
비선형 최소 제곱 최적화가 수치적으로 느리고, 피팅(fitting) 정확도가 초기 추측 에 의존하지만, 신뢰성이 있다. 피팅(fitting)의 충분한 반복 후에, 는 실측 자료에 가까울 것이다. 그로 인하여, 자체-개선 훈련 워크플로는 다음에 요약되는 바와 같이 실측 자료 쪽으로 를 효율적으로 개선시킬 수 있다.
자체-개선 훈련 워크플로:
MVS-3DCNN으로부터 , 그리고 입력 I로부터 HMR MLP를 계산한다
초기 추측으로서 를 취하고 입력으로서 I를 취하여 SMPLifyX로부터 를 계산한다
I로부터 광선들을 샘플링하고 NeRF MLP로부터의 샘플링된 색 c를 계산한다
형상손실(shapeloss) 및 색상손실(colorloss)을 계산한다
형상손실 및 색상손실을 최소화함으로써 MVS 3DCNN, HMR MLP 및 NeRF MLP의 네트워크 가중치를 업데이트한다
모든 훈련 데이터에 대해 그리고 가중치가 수렴할 때까지 반복한다.
도 5는 일부 실시예에 따른 NeRF MLP에 대한 각각의 뷰의 MVS 3DCNN의 정렬을 나타낸다.
동작 시에, 신경 사람 예측은 상업적 및/또는 개인적 마커리스(markerless) 퍼포먼스 캡처 애플리케이션들, 예를 들어, 게임 스튜디오에서의 마커리스 모션 캡처, 또는 사람 3D 표면 재피쳐들 RGB 카메라 설정 둘 다에 바로 적용될 수 있다. 멀티뷰 신경 사람 예측의 실시예의 다른 응용은 임의의 확장, 예를 들어, 3D 모델링, 깊이 감지의 입력을 조합하는 것, 또는 새로운 애니메이션을 생성하기 위해 출력을 사용하는 것과 조합될 수 있는 실시간 백본(backbone) 기술일 수 있다. 멀티뷰 신경 사람 예측은 또한 게임, VR/AR 및 임의의 실시간 사람 상호작용 애플리케이션에 적용될 수 있다. 사용되는 하드웨어(예를 들어, GPU 프로세서들의 속도 및 GPU 메모리들의 크기)에 따라, 멀티뷰 신경 사람 예측은 예측을 위해 더 드문드문한 뷰를 처리할 때 실시간이고, 더 많은 뷰(예를 들어, 20)에 대해, 거의 실시간 처리 및 예측이 구현될 수 있다.
본 명세서에 설명된 방법들은 임의의 컴퓨팅 디바이스 상에서 구현될 수 있다. 적합한 컴퓨팅 디바이스들의 예들은 개인용 컴퓨터, 랩톱 컴퓨터(laptop computer), 컴퓨터 워크스테이션(computer workstation), 서버(server), 메인프레임 컴퓨터(mainframe computer), 핸드헬드 컴퓨터(handheld computer), 개인용 정보 단말기, 셀룰러/모바일 전화, 스마트 용구, 게임 콘솔, 디지털 카메라, 디지털 캠코더, 카메라 폰, 스마트 폰, 휴대용 음악 플레이어, 태블릿 컴퓨터, 모바일 디바이스, 비디오 플레이어, 비디오 디스크 라이터/플레이어(예를 들어, DVD 라이터/플레이어, 고화질 디스크 라이터/플레이어, 초고화질 디스크 라이터/플레이어), 텔레비전, 홈 엔터테인먼트 시스템, 증강 현실 디바이스, 가상 현실 디바이스, 스마트 장신구(예를 들어, 스마트 시계), 운송수단(예를 들어, 자율 주행 운송수단) 또는 임의의 다른 적합한 컴퓨팅 디바이스를 포함한다.
실시예
1. 디바이스의 비일시적 방법으로 프로그래밍되는 방법으로서:
이미지들의 세트를 입력으로서 취득하는 단계; 및
신경 네트워크를 이용하여 이미지들의 세트를 처리하는 단계
를 포함하고, 처리하는 단계는:
이미지들의 세트를 하나 이상의 피쳐(feature)로 인코딩하는 단계;
피쳐들을 사람 파라미터들로 회귀(regressing)시키는 단계;
신경 네트워크를 미세-조정하는 단계; 및
쿼리(query) 3D 광선을 RGB 색상 및 의류-대-신체 변위(clothes-to-body displacement)로 디코딩하는 단계 - RGB 색상은 이미지들의 세트에 기초함 -
를 포함하는, 방법.
2. 제1절에 있어서, 이미지들의 세트는 크기 의 4D 텐서(tensor)를 포함하고, N은 뷰들의 수, w는 이미지의 폭, h는 이미지의 높이, 그리고 c는 이미지의 채널인, 방법.
3. 제1절에 있어서, 신경 네트워크는 이미지들의 세트로부터 기준 뷰로서 정면 뷰를 선택하고 피쳐 볼륨을 추출하는, 방법.
4. 제3절에 있어서, 신경 네트워크는 모든 피쳐 볼륨들을 사람의 자세, 형상, 얼굴 표정 파라미터들로 회귀시키는, 방법.
5. 제4절에 있어서, 신경 네트워크는 파라미터들에 따라 사람의 벌거벗은 신체 메쉬(human naked body mesh)를 생성하는, 방법.
6. 제5절에 있어서, 벌거벗은 신체 메쉬는 바운딩 박스(bounding box)에서 점유 필드로 변환되는, 방법.
7. 제6절에 있어서, 신경 네트워크는, 각각의 뷰 중심으로부터의 광선 방향들과 연관된, 신체 메쉬 근처의 임의의 3D 포인트에 대해 벌거벗은 신체의 표면을 가리키는 3D 변위 벡터 및 RGB 색상을 생성하는, 방법.
8. 제7절에 있어서, 의류를 입은 사람 신체(clothed human body)의 외관(appearance)은 카메라 뷰의 모든 픽셀들로부터 방사(shooting)한 모든 광선을 쿼리함으로써 RGB 이미지로서 렌더링되고, 의류를 입은 신체 메쉬는 샘플링된 포인트들로부터 3D 변위 벡터들을 이용하여 벌거벗은 신체를 변형시킴으로써 획득되는, 방법.
9. 제1절에 있어서, 신경 네트워크는 감독 모드(supervision mode) 또는 자체-감독 모드(self-supervision mode)로 구현되는, 방법.
10. 장치로서:
애플리케이션을 저장하도록 구성된 비일시적인 메모리; 및
애플리케이션을 처리하도록 구성된 프로세서를 포함하고, 어플리케이션은:
이미지들의 세트를 입력으로서 취득하고;
신경 네트워크를 이용하여 이미지들의 세트를 처리하도록 구성되고, 처리는:
이미지들의 세트를 하나 이상의 피쳐로 인코딩하는 단계;
피쳐들을 사람 파라미터들로 회귀시키는 단계;
신경 네트워크를 미세-조정하는 단계; 및
쿼리 3D 광선을 RGB 색상 및 의류-대-신체 변위로 디코딩하는 단계 - RGB 색상은 상기 이미지의 세트에 기초함 -
를 포함하는, 장치.
11. 제10절에 있어서, 이미지들의 세트는 크기 의 4D 텐서를 포함하고, N은 뷰들의 수고, w는 이미지의 폭이고, h는 이미지의 높이이고, c는 이미지의 채널인, 장치.
12. 제10절에 있어서, 신경 네트워크는 이미지들의 세트로부터 기준 뷰로서 정면 뷰를 선택하고 피쳐 볼륨을 추출하는, 장치.
13. 제12절에 있어서, 신경 네트워크는 모든 피쳐 볼륨을 사람의 자세, 형상, 얼굴 표정 파라미터들로 회귀시키는, 장치.
14. 제13절에 있어서, 신경 네트워크는 파라미터들에 따라 사람의 벌거벗은 신체 메쉬를 생성하는, 장치.
15. 제14절에 있어서, 벌거벗은 신체 메쉬는 바운딩 박스에서 점유 필드로 변환되는, 장치.
16. 제15절에 있어서, 신경 네트워크는 각각의 뷰 중심으로부터의 광선 방향들과 연관된, 신체 메쉬 근처의 임의의 3D 포인트에 대해 벌거벗은 신체의 표면을 가리키는 3D 변위 벡터 및 RGB 색상을 생성하는, 장치.
17. 제16절에 있어서, 의류를 입은 사람 신체의 외관은 카메라 뷰의 모든 픽셀로부터 방사한 모든 광선을 쿼리함으로써 RGB 이미지로서 렌더링되고, 의류를 입은 신체 메쉬는 샘플링된 포인트들로부터 3D 변위 벡터들을 이용하여 벌거벗은 신체를 변형시킴으로써 획득되는, 장치.
18. 제10절에 있어서, 신경 네트워크는 감독 모드 또는 자체-감독 모드로 구현되는, 장치.
19. 장치로서:
애플리케이션을 저장하도록 구성된 비일시적인 메모리; 및
애플리케이션을 처리하도록 구성된 프로세서를 포함하고, 상기 어플리케이션은:
입력 이미지 세트를 피쳐들로 인코딩하도록 구성된 멀티뷰 스테레오 3D 컨볼루셔널 신경 네트워크(multiview stereo 3D convolutional neural network) (MVS-3DCNN);
피쳐들을 사람 파라미터들로 회귀시키도록 구성된 사람 메쉬 복구 다층 퍼셉트론(human mesh recovery multilayer perceptron) (HMR MLP); 및
MVS-3DCNN을 미세-조정하도록 구성되고 쿼리 3D 광선(3D 위치 및 방향)을 RGB 색상 및 의류-대-신체 변위로 디코딩하는 신경 래디언스 필드 다층 퍼셉트론(neural radiance field multilayer perceptron)(NeRF MLP);
을 포함하는, 장치.
20. 제19절에 있어서, 이미지들의 세트는 크기 의 4D 텐서를 포함하고, N은 뷰들의 수고, w는 이미지의 폭이고, h는 이미지의 높이이고, c는 이미지의 채널인, 장치.
21. 제20절에 있어서, MVS-3DCNN은 이미지들의 세트로부터 기준 뷰로서 정면 뷰를 선택하고 피쳐 볼륨을 추출하는, 장치.
22. 제21절에 있어서, HMR MLP는 모든 피쳐 볼륨을 사람의 자세, 형상, 얼굴 표정 파라미터들로 회귀시키는, 장치.
23. 제22절에 있어서, 파라미터들에 따라 사람의 벌거벗은 신체 메쉬를 생성하도록 구성된 모델을 더 포함하는, 장치.
24. 제23절에 있어서, 벌거벗은 신체 메쉬는 바운딩 박스에서 점유 필드로 변환되는, 장치.
25. 제24절에 있어서, NeRF MLP는, 각각의 뷰 중심으로부터의 광선 방향들과 연관된, 신체 메쉬 근처의 임의의 3D 포인트에 대해 벌거벗은 신체의 표면을 가리키는 3D 변위 벡터 및 RGB 색상을 생성하는, 장치.
26. 제25절에 있어서, 의류를 입은 사람 신체의 외관은 카메라 뷰의 모든 픽셀로부터 촬영한 모든 광선들을 쿼리함으로써 RGB 이미지로서 렌더링되고, 의류를 입은 신체 메쉬는 샘플링된 포인트들로부터 3D 변위 벡터들을 이용하여 벌거벗은 신체를 변형시킴으로써 획득되는, 장치.
본 발명은 본 발명의 피쳐들 및 동작의 원리의 이해를 용이하게 하기 위해 상세 사항들을 포함하는 특정 실시예의 관점에서 설명되었다. 본 명세서에서 특정 실시예 및 그것의 상세 사항에 대한 그러한 참조는 본원의 첨부된 청구항들의 범위를 제한하도록 의도되지 않는다. 청구항들에 의해 정의된 바와 같은 본 발명의 사상 및 범위로부터 벗어나지 않고서, 예시를 위해, 선택된 실시예에서 다른 다양한 수정이 이루어질 수 있다는 것이 본 기술분야의 통상의 기술자에게 용이하게 명백할 것이다.

Claims (26)

  1. 디바이스의 비일시적으로 프로그래밍되는 방법으로서,
    이미지들의 세트를 입력으로서 취득하는 단계; 및
    신경 네트워크를 이용하여 상기 이미지들의 세트를 처리하는 단계
    를 포함하고, 상기 처리하는 단계는:
    상기 이미지들의 세트를 하나 이상의 피쳐(feature)로 인코딩하는 단계;
    상기 피쳐들을 사람 파라미터들로 회귀(regressing)시키는 단계;
    상기 신경 네트워크를 미세 조정하는 단계; 및
    쿼리(query) 3D 광선을 RGB 색상 및 의류-대-신체 변위(clothes-to-body displacement)로 디코딩하는 단계 - 상기 RGB 색상은 상기 이미지들의 세트에 기초함 -
    를 포함하는, 방법.
  2. 제1항에 있어서, 상기 이미지들의 세트는 크기 의 4D 텐서(tensor)를 포함하고, N은 뷰들의 수이고, w는 이미지의 폭이고, h는 상기 이미지의 높이이고, c는 상기 이미지의 채널인, 방법.
  3. 제1항에 있어서, 상기 신경 네트워크는 상기 이미지들의 세트로부터 기준 뷰로서 정면 뷰를 선택하고 피쳐 볼륨을 추출하는, 방법.
  4. 제3항에 있어서, 상기 신경 네트워크는 모든 피쳐 볼륨들을 사람의 자세, 형상, 얼굴 표정 파라미터들로 회귀시키는, 방법.
  5. 제4항에 있어서, 상기 신경 네트워크는 상기 파라미터들에 따라 사람의 벌거벗은 신체 메쉬(human naked body mesh)를 생성하는, 방법.
  6. 제5항에 있어서, 상기 벌거벗은 신체 메쉬는 바운딩 박스(bounding box)에서 점유 필드(occupancy field)로 변환되는, 방법.
  7. 제6항에 있어서, 상기 신경 네트워크는 각각의 뷰 중심으로부터의 광선 방향들과 연관된, 상기 신체 메쉬 근처의 임의의 3D 포인트에 대해 벌거벗은 신체의 표면을 가리키는 3D 변위 벡터 및 RGB 색상을 생성하는, 방법.
  8. 제7항에 있어서, 의류를 입은 사람 신체(clothed human body)의 외관(appearance)은 카메라 뷰의 모든 픽셀들로부터 방사(shooting)한 모든 광선을 쿼리함으로써 RGB 이미지로서 렌더링되고, 상기 의류를 입은 신체 메쉬는 샘플링된 포인트들로부터 상기 3D 변위 벡터들을 이용하여 상기 벌거벗은 신체를 변형시킴으로써 획득되는, 방법.
  9. 제1항에 있어서, 상기 신경 네트워크는 감독 모드(supervision mode) 또는 자체-감독 모드(self-supervision mode)로 구현되는, 방법.
  10. 장치로서,
    애플리케이션을 저장하도록 구성된 비일시적인 메모리; 및
    상기 애플리케이션을 처리하도록 구성된 프로세서를 포함하고, 상기 어플리케이션은:
    이미지들의 세트를 입력으로서 취득하고;
    신경 네트워크를 이용하여 상기 이미지들의 세트를 처리하도록 구성되고, 상기 처리는:
    상기 이미지들의 세트를 하나 이상의 피쳐로 인코딩하는 단계;
    상기 피쳐들을 사람 파라미터들로 회귀시키는 단계;
    상기 신경 네트워크를 미세 조정하는 단계; 및
    쿼리 3D 광선을 RGB 색상 및 의류-대-신체 변위로 디코딩하는 단계 - 상기 RGB 색상은 상기 이미지들의 세트에 기초함 -
    를 포함하는, 장치.
  11. 제10항에 있어서, 상기 이미지들의 세트는 크기 의 4D 텐서를 포함하고, N은 뷰들의 수고, w는 이미지의 폭이고, h는 상기 이미지의 높이이고, c는 상기 이미지의 채널인, 장치.
  12. 제10항에 있어서, 상기 신경 네트워크는 상기 이미지들의 세트로부터 기준 뷰로서 정면 뷰를 선택하고 피쳐 볼륨을 추출하는, 장치.
  13. 제12항에 있어서, 상기 신경 네트워크는 모든 피쳐 볼륨들을 사람의 자세, 형상, 얼굴 표정 파라미터들로 회귀시키는, 장치.
  14. 제13항에 있어서, 상기 신경 네트워크는 상기 파라미터들에 따라 사람의 벌거벗은 신체 메쉬를 생성하는, 장치.
  15. 제14항에 있어서, 상기 벌거벗은 신체 메쉬는 바운딩 박스에서 점유 필드로 변환되는, 장치.
  16. 제15항에 있어서, 상기 신경 네트워크는 각각의 뷰 중심으로부터의 광선 방향들과 연관된, 상기 신체 메쉬 근처의 임의의 3D 포인트에 대해 벌거벗은 신체의 표면을 가리키는 3D 변위 벡터 및 RGB 색상을 생성하는, 장치.
  17. 제16항에 있어서, 의류를 입은 사람 신체의 외관은 카메라 뷰의 모든 픽셀로부터 방사한 모든 광선을 쿼리함으로써 RGB 이미지로서 렌더링되고, 상기 의류를 입은 신체 메쉬는 샘플링된 포인트들로부터 상기 3D 변위 벡터들을 이용하여 상기 벌거벗은 신체를 변형시킴으로써 획득되는, 장치.
  18. 제10항에 있어서, 상기 신경 네트워크는 감독 모드 또는 자체-감독 모드로 구현되는, 장치.
  19. 장치로서,
    애플리케이션을 저장하도록 구성된 비일시적인 메모리; 및
    상기 애플리케이션을 처리하도록 구성된 프로세서를 포함하고, 상기 어플리케이션은:
    입력 이미지 세트를 피쳐들로 인코딩하도록 구성된 멀티뷰 스테레오 3D 컨볼루셔널 신경 네트워크(multiview stereo 3D convolutional neural network) (MVS-3DCNN);
    상기 피쳐들을 사람 파라미터들로 회귀시키도록 구성된 사람 메쉬 복구 다층 퍼셉트론(human mesh recovery multilayer perceptron)(HMR MLP);
    상기 MVS-3DCNN을 미세-조정하도록 구성되고 쿼리 3D 광선(3D 위치 및 방향)을 RGB 색상 및 의류-대-신체 변위로 디코딩하는 신경 래디언스 필드 다층 퍼셉트론(neural radiance field multilayer perceptron)(NeRF MLP);
    을 포함하는, 장치.
  20. 제19항에 있어서, 상기 이미지들의 세트는 크기 의 4D 텐서를 포함하고, N은 뷰들의 수고, w는 이미지의 폭이고, h는 상기 이미지의 높이이고, c는 상기 이미지의 채널인, 장치.
  21. 제20항에 있어서, 상기 MVS-3DCNN은 상기 이미지들의 세트로부터 기준 뷰로서 정면 뷰를 선택하고 피쳐 볼륨을 추출하는, 장치.
  22. 제21항에 있어서, 상기 HMR MLP는 모든 피쳐 볼륨들을 사람의 자세, 형상, 얼굴 표정 파라미터들로 회귀시키는, 장치.
  23. 제22항에 있어서, 상기 파라미터들에 따라 사람의 벌거벗은 신체 메쉬를 생성하도록 구성된 모델을 더 포함하는, 장치.
  24. 제23항에 있어서, 상기 벌거벗은 신체 메쉬는 바운딩 박스에서 점유 필드로 변환되는, 장치.
  25. 제24항에 있어서, 상기 NeRF MLP는 각각의 뷰 중심으로부터의 광선 방향들과 연관된, 상기 신체 메쉬 근처의 임의의 3D 포인트에 대해 벌거벗은 신체의 표면을 가리키는 3D 변위 벡터 및 RGB 색상을 생성하는, 장치.
  26. 제25항에 있어서, 의류를 입은 사람 신체의 외관은 카메라 뷰의 모든 픽셀로부터 방사한 모든 광선을 쿼리함으로써 RGB 이미지로서 렌더링되고, 상기 의류를 입은 신체 메쉬는 샘플링된 포인트들로부터 상기 3D 변위 벡터들을 이용하여 상기 벌거벗은 신체를 변형시킴으로써 획득되는, 장치.
KR1020237033483A 2021-03-31 2022-03-31 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측 KR20230150867A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202163168467P 2021-03-31 2021-03-31
US63/168,467 2021-03-31
US202163279916P 2021-11-16 2021-11-16
US63/279,916 2021-11-16
US17/701,991 US11961266B2 (en) 2021-03-31 2022-03-23 Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
US17/701,991 2022-03-23
PCT/IB2022/053034 WO2022208440A1 (en) 2021-03-31 2022-03-31 Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture

Publications (1)

Publication Number Publication Date
KR20230150867A true KR20230150867A (ko) 2023-10-31

Family

ID=81328451

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237033483A KR20230150867A (ko) 2021-03-31 2022-03-31 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측

Country Status (5)

Country Link
EP (1) EP4292059A1 (ko)
JP (1) JP2024510230A (ko)
KR (1) KR20230150867A (ko)
CN (1) CN116134491A (ko)
WO (1) WO2022208440A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824092B (zh) * 2023-08-28 2023-12-19 深圳星坊科技有限公司 三维模型生成方法、装置、计算机设备和存储介质
CN117238420A (zh) * 2023-11-14 2023-12-15 太原理工大学 一种极薄带力学性能预测方法及装置

Also Published As

Publication number Publication date
WO2022208440A1 (en) 2022-10-06
CN116134491A (zh) 2023-05-16
JP2024510230A (ja) 2024-03-06
EP4292059A1 (en) 2023-12-20

Similar Documents

Publication Publication Date Title
Li et al. Monocular real-time volumetric performance capture
CN108154550B (zh) 基于rgbd相机的人脸实时三维重建方法
CN107980150B (zh) 对三维空间建模
KR102562378B1 (ko) 입력 영상에 포함된 객체의 3차원 포즈를 추정하기 위한 데이터를 생성하는 방법 및 장치와 3차원 포즈 추정을 위한 추론 모델
Cao et al. 3D shape regression for real-time facial animation
US11941831B2 (en) Depth estimation
KR20210042942A (ko) 비디오 데이터를 이용한 객체 인스턴스 매핑
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
JP2023549821A (ja) 変形可能なニューラル放射輝度場
KR20230150867A (ko) 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측
CN113689539A (zh) 基于隐式光流场的动态场景实时三维重建方法与装置
US20210374986A1 (en) Image processing to determine object thickness
Zhi et al. Dual-space nerf: Learning animatable avatars and scene lighting in separate spaces
Fan et al. Large-scale dense mapping system based on visual-inertial odometry and densely connected U-Net
JP2023079022A (ja) 情報処理装置及び情報生成方法
US20230126829A1 (en) Point-based modeling of human clothing
WO2023159517A1 (en) System and method of capturing three-dimensional human motion capture with lidar
Hao et al. VT‐NeRF: Neural radiance field with a vertex‐texture latent code for high‐fidelity dynamic human‐body rendering
Liu et al. Deep learning for 3D human pose estimation and mesh recovery: A survey
Jian et al. Realistic face animation generation from videos
CN113850900B (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
Dalal et al. Gaussian Splatting: 3D Reconstruction and Novel View Synthesis, a Review
Kim et al. Complex-Motion NeRF: Joint Reconstruction and Pose Optimization With Motion and Depth Priors
Ji et al. Dynamic visual sequence prediction with motion flow networks
Li et al. Multi-view neural surface reconstruction with structured light