KR20220143721A - 볼류메트릭 캡처 및 메시 추적 기반 머신 학습 - Google Patents

볼류메트릭 캡처 및 메시 추적 기반 머신 학습 Download PDF

Info

Publication number
KR20220143721A
KR20220143721A KR1020227032175A KR20227032175A KR20220143721A KR 20220143721 A KR20220143721 A KR 20220143721A KR 1020227032175 A KR1020227032175 A KR 1020227032175A KR 20227032175 A KR20227032175 A KR 20227032175A KR 20220143721 A KR20220143721 A KR 20220143721A
Authority
KR
South Korea
Prior art keywords
animation
mesh
machine learning
capture
deformation
Prior art date
Application number
KR1020227032175A
Other languages
English (en)
Inventor
겐지 다시로
칭 장
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20220143721A publication Critical patent/KR20220143721A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • Processing Or Creating Images (AREA)

Abstract

머신 학습 변형 훈련을 위한 메시 추적 기반 동적 4D 모델링은: 고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템을 사용하는 것, 메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하는 것, 메시 등록을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시와 3D CG 물리적 시뮬레이터 사이의 공간적 대응들을 확립하는 것, 및 머신 학습을 사용하여 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키는 것을 포함한다. 자연스러운 애니메이션을 위한 변형은 표준 MoCAP 애니메이션 워크플로를 사용하여 예측 및 합성되는 것이 가능하다. 표준 MoCAP 애니메이션 워크플로를 사용하는 머신 학습 기반 변형 합성 및 애니메이션은, MoCAP 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하는 것, 애니메이션을 위해 3D 모델 파라미터들을 해석(3D 해석)하는 것(변형은 포함되지 않음), 및 3D 해석에 의해 해석된 3D 모델 파라미터들이 주어지면, ML 훈련으로부터 4D 표면 변형을 예측하는 것을 포함한다.

Description

볼류메트릭 캡처 및 메시 추적 기반 머신 학습
관련 출원(들)에 대한 상호 참조
본 출원은, 2020년 3월 31일자로 출원되고 발명의 명칭이 "VOLUMETRIC CAPTURE AND MESH-TRACKING BASED MACHINE LEARNING 4D FACE/BODY DEFORMATION TRAINING"인 미국 가특허 출원 제63/003,097호의 35 U.S.C. §119(e) 하의 우선권을 주장하고, 이 미국 가특허 출원은 이로써 모든 목적들을 위해 그 전체가 참조로 포함된다.
발명의 분야
본 발명은 엔터테인먼트 산업을 위한 3차원 컴퓨터 비전 및 그래픽스에 관한 것이다. 더 구체적으로는, 본 발명은 영화, TV, 음악 및 게임 콘텐츠 작성을 위한 3차원 컴퓨터 비전 및 그래픽스를 취득 및 프로세싱하는 것에 관한 것이다.
가상 인간 작성은 고도로 수동적이고 시간 소모적이며 고비용이다. 처음부터 CG 아트워크(artwork)를 손으로 만드는 것보다는 오히려, 최근 트렌드는 멀티-뷰 카메라 3D/4D 스캐너들에 의해 사실적인 디지털 인간 모델을 효율적으로 작성하는 것이다. 다양한 3D 스캐너 스튜디오들(3Lateral, Avatta, TEN24, Pixel Light Effect, Eisko) 및 4D 스캐너 스튜디오(4DViews, Microsoft, 8i, DGene)가 카메라 캡처 기반 인간 디지털화를 위해 전세계적으로 존재한다.
사진 기반 3D 스캐너 스튜디오가 다수의 어레이의 고해상도 사진 카메라들로 구성된다. 3D 스캔의 선행 기술은 전형적으로, 리깅된 모델링(rigged modeling)을 작성하는 데 사용되고 애니메이션을 위해 손으로 만들 것을 요구하는데, 이는 그것이 변형을 캡처하지 않기 때문이다. 비디오 기반 4D 스캐너(4D = 3D + 시간) 스튜디오가 다수의 어레이의 고 프레임 레이트 머신 비전 카메라(high frame rate machine vision camera)들로 구성된다. 그것은 자연스러운 표면 역학을 캡처하지만, 고정된 비디오들 및 액션들로 인해, 그것은 신규한 얼굴 표정 또는 신체 액션을 작성할 수 없다. 더미 액터(dummy actor)들이 많은 시퀀스들의 액션들을 수행할 필요가 있는데, 이는 액터에 대한 엄청난 작업 부하를 의미한다.
머신 학습 변형 훈련을 위한 메시 추적 기반 동적 4D 모델링(mesh-tracking based dynamic 4D modeling)은: 고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템(volumetric capture system)을 사용하는 것, 메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응(temporal correspondence)들을 확립하는 것, 메시 등록을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시와 3D CG 물리적 시뮬레이터(3D CG physical simulator) 사이의 공간적 대응들을 확립하는 것, 및 머신 학습을 사용하여 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키는 것을 포함한다. 자연스러운 애니메이션을 위한 변형은 표준 MoCAP 애니메이션 워크플로(workflow)를 사용하여 예측 및 합성되는 것이 가능하다. 표준 MoCAP 애니메이션 워크플로를 사용하는 머신 학습 기반 변형 합성 및 애니메이션은, MoCAP 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하는 것, 애니메이션을 위해 3D 모델 파라미터들을 해석(solving)(3D 해석)하는 것(변형은 포함되지 않음), 및 3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, ML 훈련으로부터 4D 표면 변형을 예측하는 것을 포함한다.
하나의 양태에서, 디바이스의 비일시적인 것에서 프로그래밍되는 방법은, 메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하는 단계, 메시 등록을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스와 3D 컴퓨터 그래픽스 물리적 시뮬레이터 사이의 공간적 대응들을 확립하는 단계, 및 머신 학습을 사용하여 3D 컴퓨터 그래픽스 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키는 단계를 포함한다. 이 방법은, 고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템을 사용하는 단계를 더 포함한다. 볼류메트릭 캡처 시스템은 고품질 사진들 및 비디오를 동시에 캡처하도록 구성된다. 이 방법은, 다수의 별개의 3D 스캔을 취득하는 단계를 더 포함한다. 이 방법은, 표준 모션 캡처 애니메이션을 사용하여 자연스러운 애니메이션을 위해 변형을 예측 및 합성하는 단계를 더 포함한다. 이 방법은, 모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하는 단계, 애니메이션을 위해 3D 모델 파라미터들을 해석하는 단계, 및 3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하는 단계를 더 포함한다.
다른 양태에서, 장치는, 애플리케이션을 저장하기 위한 비일시적 메모리 - 애플리케이션은: 메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하고, 메시 등록을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스와 3D 컴퓨터 그래픽스 물리적 시뮬레이터 사이의 공간적 대응들을 확립하고, 머신 학습을 사용하여 3D 컴퓨터 그래픽스 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키기 위한 것임 -, 및 메모리에 커플링되는 프로세서를 포함하고, 프로세서는 애플리케이션을 프로세싱하도록 구성된다. 애플리케이션은 고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템을 사용하도록 추가로 구성된다. 볼류메트릭 캡처 시스템은 고품질 사진들 및 비디오를 동시에 캡처하도록 구성된다. 애플리케이션은 다수의 별개의 3D 스캔을 취득하도록 추가로 구성된다. 애플리케이션은 표준 모션 캡처 애니메이션을 사용하여 자연스러운 애니메이션을 위해 변형을 예측 및 합성하도록 추가로 구성된다. 애플리케이션은 추가로: 모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하고, 애니메이션을 위해 3D 모델 파라미터들을 해석하고, 3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하도록 구성된다.
다른 양태에서, 시스템은: 고품질 4D 스캐닝을 위한 볼류메트릭 캡처 시스템, 및 컴퓨팅 디바이스를 포함하고, 이 컴퓨팅 디바이스는: 메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하고, 메시 등록을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스와 3D 컴퓨터 그래픽스 물리적 시뮬레이터 사이의 공간적 대응들을 확립하고, 머신 학습을 사용하여 3D 컴퓨터 그래픽스 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키도록 구성된다. 컴퓨팅 디바이스는 표준 모션 캡처 애니메이션을 사용하여 자연스러운 애니메이션을 위해 변형을 예측 및 합성하도록 추가로 구성된다. 컴퓨팅 디바이스는 추가로: 모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하고, 애니메이션을 위해 3D 모델 파라미터들을 해석하고, 3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하도록 구성된다. 볼류메트릭 캡처 시스템은 고품질 사진들 및 비디오를 동시에 캡처하도록 구성된다.
다른 양태에서, 디바이스의 비일시적인 것에서 프로그래밍되는 방법은, 모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하는 단계, 애니메이션을 위해 3D 모델 파라미터들을 해석하는 단계, 및 3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하는 단계를 포함한다.
도 1a 및 도 1b는 일부 실시예들에 따른 시간/비용 효율적인 게임 캐릭터의 자연스러운 애니메이션을 위한 볼류메트릭 캡처 및 메시 추적 기반 머신 학습 4D 얼굴/신체 변형 훈련을 구현하는 방법의 흐름도를 예시한다.
도 2는 일부 실시예들에 따른 변형 훈련 방법을 구현하도록 구성되는 예시적인 컴퓨팅 디바이스의 블록 다이어그램을 예시한다.
선행 기술의 3D 스캔 기술과는 달리, 본 명세서에서 설명되는 변형 훈련 구현은, 얼굴 표정 또는 신체 언어의 임의 신규 액션과 자연스러운 변형의 합성인, 머신 학습(machine learning)(ML)에 의한 암시적 변형들에 따른 동적 얼굴 및 전신 모델링을 생성하는 것이 가능하다.
본 명세서에서 설명되는 접근법은 "사진-비디오 볼류메트릭 캡처 시스템"으로부터의 사진-비디오 캡처에 기초한다. 사진-비디오 기반 캡처는, 2019년 12월 20일자로 출원되고 발명의 명칭이 "PHOTO-VIDEO BASED SPATIAL-TEMPORAL VOLUMETRIC CAPTURE SYSTEM FOR DYNAMIC 4D HUMAN FACE AND BODY DIGITIZATION"인 PCT 특허 출원 PCT/US2019/068151호에 설명되어 있고, 이 PCT 특허 출원은 이로써 모든 목적들을 위해 그 전체가 참조로 포함된다. 설명된 바와 같이, 사진-비디오 캡처 시스템은 희소 시간(sparse time)에 높은 충실도의 텍스처를 캡처하는 것이 가능하고, 사진 캡처들 사이에, 비디오가 캡처되고, 비디오는 희소 사진들 사이의 대응(예를 들어, 전이)을 확립하는 데 사용되는 것이 가능하다. 대응 정보는 메시 추적을 구현하는 데 사용되는 것이 가능하다.
게임 스튜디오들은 애니메이션 워크플로에서 모션 캡처(Motion Capture)(MoCAP)(이상적으로는 자연스러운 모션 캡처로서 단일화된 얼굴/신체)를 사용하지만, 그것은 자연스러운 표면 변형(예를 들어, 육체 역학)에 따른 애니메이션을 자동으로 생성하지 않는다. 전형적으로, 게임 컴퓨터 그래픽스(Computer Graphics)(CG) 디자이너들은 3D 리깅된 모델 위에 손으로 만든 변형(4D)을 추가하고, 이것은 시간 소모적이다.
다른 시스템들은 변형에 따른 자연스러운 애니메이션을 생성하지만, 여전히 높은 레벨의 수동(손으로 만든) 작업을 갖는다. 그러한 시스템들은 머신 학습(ML) 훈련에 의해 자동화되지 않는다. 다른 시스템들은 얼굴 애니메이션의 변형을 합성할 수도 있지만, 새로운 워크플로를 요구한다(예를 들어, 표준 MoCAP 워크플로에 친숙하지 않다).
본 명세서에서는 ML 변형 훈련을 위한 메시 추적 기반 동적 4D 모델링이 설명된다. ML 변형 훈련을 위한 메시 추적 기반 동적 4D 모델링은: 고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템을 사용하는 것, 메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하는 것, 메시 등록을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시와 3D CG 물리적 시뮬레이터 사이의 공간적 대응들을 확립하는 것, 및 머신 학습을 사용하여 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키는 것을 포함한다. 자연스러운 애니메이션을 위한 변형은 표준 MoCAP 애니메이션 워크플로를 사용하여 예측 및 합성되는 것이 가능하다. 표준 MoCAP 애니메이션 워크플로를 사용하는 머신 학습 기반 변형 합성 및 애니메이션은, MoCAP 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하는 것, 애니메이션을 위해 3D 모델 파라미터들을 해석(3D 해석)하는 것(변형은 포함되지 않음), 및 3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, ML 훈련으로부터 4D 표면 변형을 예측하는 것을 포함한다.
모델링할 때, 얼굴 프로세스와 신체 프로세스가 있다. 본 명세서에서 설명되는 바와 같이, 일부 실시예들에서, 얼굴 프로세스와 신체 프로세스 양측 모두는 사진 기반인데, 이는 비디오 카메라 대신에, 사진 카메라가 입력을 위한 콘텐츠를 취득하는 데 사용된다는 것을 의미한다. 사진 카메라를 사용하여 입력이 취득되면, 근육 변형에 따른 많은 상이한 포즈들(예를 들어, 팔들을 위로, 팔들을 아래로, 신체 비틀기, 팔들을 옆으로, 다리들을 곧게 펴기)을 캡처함으로써 모델이 생성된다. 포즈에 따라, 가장 가까운 형상 또는 형상들이 (예를 들어, 매칭 기술을 사용하여) 결정된다. 그 후에, 다수의 형상들이 융합되어 근육 변형이 더 사실적으로 된다. 일부 실시예들에서, 캡처된 정보가 희소하게 채워진다. 희소 감지로부터, 시스템은 모델 모션이 어떠해야 하는지를 역으로 매핑시키는 것이 가능하다. 희소 감지는 조밀 모델링 매핑에 매핑되는 것이 가능하여, 반복 프로세스가 다수 회 발생한다. 모델링 디자이너는 사진(예를 들어, 3D 스캔)으로부터 모델을 생성하고, 그 디자이너는, 4D(3D + 시간)인 애니메이션을 모방하려고 시도한다. 애니메이션 그룹은 희소 모션 캡처로부터 애니메이션되지만, 감지가 희소하므로, 매핑이 어려울 수도 있어서, 많은 반복들이 발생한다. 그러나, 이 구현은 개선되는 것이 가능하다.
얼굴 및 신체 모델링은 블랭크 형상(blank shape)에 기초하고; 블랭크 형상은 사진에 기초하며; 사진은 3D 기반이다(예를 들어, 변형 정보 없음). 표면의 전이 상태가 없는데, 이는 각각의 상태가 희소 3D 스캔이기 때문이다. 감지가 또한 희소하지만, 고품질 모델이 제시간에 애니메이션된다.
2017년 7월 18일자로 출원되고 발명의 명칭이 ROBUST MESH TRACKING AND FUSION BY USING PART-BASED KEY FRAMES AND PRIORI MODEL인 미국 특허 제10,431,000호와 같은 메시 추적 기법들의 많은 예들이 있다. 다른 예는, 텍스처링된 3D 스캔의 시퀀스를 입력으로서 취급하고 일관된 토폴로지를 갖는 메시들의 시퀀스를 출력으로서 생성하는 Wrap4D이다.
캡처 시간 동안, 4D 캡처(예를 들어, 얼굴 및/또는 신체를 보는 것이 가능함)가 있고, 근육들이 어떻게 움직이는지를 보는 것이 가능하다. 예를 들어, 타깃 대상이 움직이도록 요청받는 것이 가능하고, 근육이 변형될 것이다. 매우 복잡한 상황의 경우, 이것은 애니메이터가 행하기가 매우 어렵다. 임의의 복잡한 근육 변형이 모델링 스테이지 동안 학습된다. 이것은 애니메이션 스테이지에서 합성을 가능하게 한다. 이것은 또한 수정들이 현재 MoCAP 워크플로에 포함되게 하는 것을 가능하게 한다. ML을 사용하면, 생성 스테이지 동안 모션이 캡처되는 경우, 감지가 희소하므로, 시스템은 모션(예를 들어, 변형)을 조밀화한다. 일부 실시예들에서, 변형은 사진-비디오 캡처로부터 이미 알려져 있다.
도 1a 및 도 1b는 일부 실시예들에 따른 시간/비용 효율적인 게임 캐릭터의 자연스러운 애니메이션을 위한 볼류메트릭 캡처 및 메시 추적 기반 머신 학습 4D 얼굴/신체 변형 훈련을 구현하는 방법의 흐름도를 예시한다.
단계 100에서, 고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템이 이용된다. PCT 특허 출원 PCT/US2019/068151호에 설명된 바와 같이, 볼류메트릭 캡처 시스템은 고품질 4D 스캐닝을 위해 사진들 및 비디오들을 동시에 취득하는 것이 가능하다. 고품질 4D 스캐닝은, 고품질 모델링을 위한 더 조밀한 카메라 뷰들을 포함한다. 일부 실시예들에서, 볼류메트릭 캡처 시스템을 이용하는 대신에, 3D 콘텐츠 및 시간 정보를 취득하기 위한 다른 시스템이 이용된다. 예를 들어, 적어도 2개의 별개의 3D 스캔이 취득된다. 더 예를 들면, 별개의 3D 스캔이 캡처 및/또는 다운로드되는 것이 가능하다.
단계 102에서, 정적 3D 모델링이 구현된다. 일단 스캐닝을 위해 고품질 정보가 캡처되면, 정적 3D 모델을 사용하여 선형 모델링이 구현된다. 그러나, 4D 캡처(사진 및 비디오 캡처 그리고 시간)가 구현되기 때문에, 대응이 신속하게 확립되는 것이 가능한데, 이 대응은 캐릭터 모델을 생성하는 데 사용되는 것이 가능하다. 정적 3D 모델링은 원시 이미지로 시작한 후에, 이미지가 클린 업되고, 스타일/개성 피처들이 적용되며, 텍스처링이 수행되어 변형 없는 프레임당 고품질이 생성된다. 높은 빈도의 세부사항들이 또한 적용된다.
단계 104에서, 리깅이 수행된다. 리깅은, 2개의 부분: 캐릭터를 그리는 데 사용되는 표면 표현(예를 들어, 메시 또는 스킨), 및 계층적 세트의 상호연결된 부분들(예를 들어, 골격을 형성하는 뼈들)로 캐릭터가 표현되는 컴퓨터 애니메이션의 기법이다. 리깅은 임의의 방식으로 수행되는 것이 가능하다.
단계 108에서, ML 변형 훈련을 위한 메시 추적 기반 동적 4D 모델링이 구현된다. 저품질 비디오가 시간적 대응들에 대한 메시 추적을 개선시키는 데 사용되는 것이 가능하다. 캐릭터 모델 대 4D 캡처 사이의 델타가 생성되는 것이 가능하다. 델타는 ML 변형 훈련을 위해 사용되는 것이 가능하다. 델타 훈련 기법의 일 예는: 심지어 의복이 존재하는 상태에서도 제어가능하고 정확하게 유지되는 사람들의 3D 모델들을 재구축하기 위해, 세부사항이 풍부한 음함수들과 파라메트릭 표현(parametric representation)들을 조합하는 암시적 부분 네트워크(Implicit Part Network)(IP-Net)를 포함한다. 옷을 입은 사람의 표면에 대해 샘플링된 희소 3D 포인트 클라우드들이 주어지면, 옷을 입은 사람의 외부 3D 표면, 그리고 내부 신체 표면, 및 파라메트릭 신체 모델에 대한 의미론적 대응들을 공동으로 예측하기 위해 암시적 부분 네트워크(IP-Net)가 사용된다. 이에 후속하여, 대응들은 신체 모델을 내부 표면에 피팅시킨 후에, 의복, 얼굴 및 머리카락 세부사항을 캡처하기 위해 (파라메트릭 신체 + 변위 모델 하에서) 그것을 외부 표면에 대해 비강성으로 변형하는 데 사용된다. 예시적인 IP-Net은 문헌(Bharat Lal Bhatnagar et al., "Combining Implicit Function Learning and Parametric Models for 3D Human Reconstruction", (Cornell University, 2020))에 의해 추가로 설명되어 있다.
일단 메시 추적이 구현되면(예를 들어, 프레임들 사이의 대응을 확립함), 델타 정보가 결정되는 것이 가능하다. 델타 정보로, 훈련이 구현되는 것이 가능하다. 훈련 지식에 기초하여, 그것은 MoCAP 워크플로 동안 합성하는 것이 가능하다.
단계 110에서, MoCAP 정보가 취득된다. MoCAP 정보는 임의의 방식으로 취득되는 것이 가능하다. 예를 들어, 타깃이, 마킹들을 갖는 특수화된 슈트를 입는 표준 모션 캡처가 구현된다. 얼굴/신체 단일화된 MoCap가 구현되는 것이 가능하다. 얼굴과 신체를 함께 캡처함으로써, 핏이 더 자연스러워진다.
단계 112에서, 2D 비디오들로부터 4D 애니메이션으로의 ML 4D 해석 및 변형 합성이 구현된다. MoCAP 정보는 4D ML 해석 및 변형 합성을 위해 사용되는 것이 가능하다. 일부 실시예들에서, 역 매핑이 적용된다. 해석은, MoCap 정보를 모델에 매핑시키는 것을 수반한다. 입력은 희소하지만, 조밀 매핑이 해석된다. 볼류메트릭 캡처된 데이터를 사용하는 ML은 암시적 4D 해석을 위해 사용되는 것이 가능하다.
단계 114에서, 캐릭터 모델이 자연스러운 변형으로 4D 애니메이션에 적용되는 리타깃팅(retargeting)이 적용된다. 리타깃팅은, 얼굴 리타깃팅 및 전신 리타깃팅을 포함한다.
단계 116에서, 셰이딩 및 리라이팅(relighting)을 포함하는 렌더링이 구현되어 최종 비디오를 렌더링한다.
일부 실시예들에서, 보다 적은 또는 추가적인 단계들이 구현된다. 일부 실시예들에서, 단계들의 순서가 수정된다.
타깃 대상의 얼굴에 가까운 조밀 카메라 셋업을 이용하는 이전 구현들과는 달리, 본 명세서에서 설명되는 시스템은 모션에 초점을 맞추고, 타깃 대상으로부터 멀리 있는 카메라 셋업을 사용하여 희소 모션(예를 들어, 골격 모션)을 캡처한다. 추가적으로, 본 명세서에서 설명되는 시스템을 이용하면, 더 많은 신체 및 얼굴 애니메이션으로 더 큰 시야가 가능하다.
도 2는 일부 실시예들에 따른 변형 훈련 방법을 구현하도록 구성되는 예시적인 컴퓨팅 디바이스의 블록 다이어그램을 도시한다. 컴퓨팅 디바이스(200)는 이미지들 및 비디오들과 같은 정보를 취득, 저장, 컴퓨팅, 프로세싱, 통신 및/또는 디스플레이하는 데 사용되는 것이 가능하다. 컴퓨팅 디바이스(200)는 변형 훈련 양태들 중 임의의 것을 구현하는 것이 가능하다. 일반적으로, 컴퓨팅 디바이스(200)를 구현하는 데 적합한 하드웨어 구조체는 네트워크 인터페이스(202), 메모리(204), 프로세서(206), I/O 디바이스(들)(208), 버스(210) 및 스토리지 디바이스(212)를 포함한다. 충분한 속도를 갖는 적합한 프로세서가 선정되는 한 프로세서의 선정은 중요하지 않다. 메모리(204)는 본 기술분야에 알려진 임의의 종래의 컴퓨터 메모리인 것이 가능하다. 스토리지 디바이스(212)는 하드 드라이브, CDROM, CDRW, DVD, DVDRW, 고선명 디스크/드라이브, 울트라-HD 드라이브, 플래시 메모리 카드 또는 임의의 다른 스토리지 디바이스를 포함하는 것이 가능하다. 컴퓨팅 디바이스(200)는 하나 이상의 네트워크 인터페이스(202)를 포함하는 것이 가능하다. 네트워크 인터페이스의 일 예는 이더넷 또는 다른 타입의 LAN에 연결되는 네트워크 카드를 포함한다. I/O 디바이스(들)(208)는 다음의 것: 키보드, 마우스, 모니터, 스크린, 프린터, 모뎀, 터치스크린, 버튼 인터페이스 및 다른 디바이스들 중 하나 이상을 포함하는 것이 가능하다. 변형 훈련 방법을 구현하는 데 사용되는 변형 훈련 애플리케이션(들)(230)은 스토리지 디바이스(212) 및 메모리(204)에 저장되고 애플리케이션들이 전형적으로 프로세싱되는 것처럼 프로세싱될 가능성이 있다. 도 2에 도시된 것보다 더 많은 또는 더 적은 컴포넌트들이 컴퓨팅 디바이스(200)에 포함되는 것이 가능하다. 일부 실시예들에서, 변형 훈련 하드웨어(220)가 포함된다. 도 2의 컴퓨팅 디바이스(200)가 변형 훈련 방법을 위한 애플리케이션들(230) 및 하드웨어(220)를 포함하지만, 변형 훈련 방법은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합으로 컴퓨팅 디바이스 상에서 구현되는 것이 가능하다. 예를 들어, 일부 실시예들에서, 변형 훈련 애플리케이션들(230)은 메모리에 프로그래밍되고 프로세서를 사용하여 실행된다. 다른 예에서, 일부 실시예들에서, 변형 훈련 하드웨어(220)는, 변형 훈련 방법을 구현하도록 특정적으로 설계되는 게이트들을 포함하는 프로그래밍된 하드웨어 로직이다.
일부 실시예들에서, 변형 훈련 애플리케이션(들)(230)은 수 개의 애플리케이션들 및/또는 모듈들을 포함한다. 일부 실시예들에서, 모듈들은 하나 이상의 서브-모듈을 또한 포함한다. 일부 실시예들에서, 보다 적은 또는 추가적인 모듈들이 포함되는 것이 가능하다.
적합한 컴퓨팅 디바이스들의 예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 컴퓨터 워크스테이션, 서버, 메인프레임 컴퓨터, 핸드헬드 컴퓨터, 개인 휴대 정보 단말기(personal digital assistant), 셀룰러/모바일 전화기, 스마트 어플라이언스, 게이밍 콘솔, 디지털 카메라, 디지털 캠코더, 카메라 폰, 스마트 폰, 휴대용 뮤직 플레이어, 태블릿 컴퓨터, 모바일 디바이스, 비디오 플레이어, 비디오 디스크 라이터/플레이어(video disc writer/player)(예를 들어, DVD 라이터/플레이어, 고선명 디스크 라이터/플레이어, 초고선명 디스크 라이터/플레이어), 텔레비전, 홈 엔터테인먼트 시스템, 증강 현실 디바이스, 가상 현실 디바이스, 스마트 쥬얼리(예를 들어, 스마트 워치), 차량(예를 들어, 셀프-드라이빙 차량) 또는 임의의 다른 적합한 컴퓨팅 디바이스를 포함한다.
본 명세서에서 설명되는 변형 훈련 방법을 이용하기 위해, 디지털 카메라들/캠코더들/컴퓨터들과 같은 디바이스들이 사용되어 콘텐츠를 취득한 후에 동일한 디바이스들 또는 하나 이상의 추가 디바이스가 콘텐츠를 분석한다. 변형 훈련 방법은 변형 훈련을 수행하기 위해 사용자 지원으로 또는 사용자 개입 없이 자동으로 구현되는 것이 가능하다.
동작 시에, 변형 훈련 방법은 더 정확하고 효율적인 변형 및 애니메이션 방법을 제공한다.
메시 추적 동적 4D 모델을 사용하면, 그것은 ML 훈련을 가능하게 하는 대응들을 생성하는 것이 가능하다. 대응 정보가 없으면, 그것은 변형 정보(예를 들어, 어깨 근육이 움직일 때 어떻게 변형되는지)를 결정하는 것이 가능하지 않을 수도 있다. 4D 볼류메트릭 캡처에 대해 메시 추적을 사용하면, 변형 정보가 결정되는 것이 가능하다. 일단 ML이 발생하면, 얼굴과 신체에 대한 델타가 있고, 그 후에 정보가 애니메이션을 위해 사용되는 것이 가능하다. 애니메이터가 스토리텔링을 위해 캐릭터를 사용한다. 그러나 세부사항 정보가 너무 많을 수도 있으므로, 세부화된 정보가 추후의 사용을 위해 별도로 세이빙(save)된다. 애니메이터는 초기에는 "가벼운" 모델(예를 들어, 세부화된 정보 없음)을 사용한다.
표준 MoCAP 애니메이션 워크플로를 사용하는 머신 학습 기반 변형 합성 및 애니메이션이 희소 감지를 사용한다. 희소 감지를 이용하면, 더 넓은 시야가 가능하여, 얼굴과 신체가 함께 캡처되는 것이 가능하다. 시간 소모적이고 손으로 만든 정보를 사용하여 희소 감지의 갭들을 채우는 대신에, 표면 역학 변형이 사진-비디오 볼류메트릭 캡처를 사용하여 모델링 스테이지 동안 학습된 후에, 애니메이션 스테이지 동안 사용된다. 게임 스튜디오가 이들의 표준 MoCap 워크플로를 사용하는 것이 가능하다. 이것은 프로세스의 많은 양태들에서 효율성 및 품질 개선들을 제공한다.
볼류메트릭 캡처 및 메시 추적 기반 머신 학습 4D 얼굴/신체 변형 훈련의 일부 실시예들
1. 디바이스의 비일시적인 것에서 프로그래밍되는 방법으로서,
메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하는 단계;
메시 등록을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스와 3D 컴퓨터 그래픽스 물리적 시뮬레이터 사이의 공간적 대응들을 확립하는 단계; 및
머신 학습을 사용하여 3D 컴퓨터 그래픽스 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키는 단계
를 포함하는, 방법.
2. 조항 1에 있어서, 고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템을 사용하는 단계를 더 포함하는, 방법.
3. 조항 2에 있어서, 볼류메트릭 캡처 시스템은 고품질 사진들 및 비디오를 동시에 캡처하도록 구성되는, 방법.
4. 조항 1에 있어서, 다수의 별개의 3D 스캔을 취득하는 단계를 더 포함하는, 방법.
5. 조항 1에 있어서, 표준 모션 캡처 애니메이션을 사용하여 자연스러운 애니메이션을 위해 변형을 예측 및 합성하는 단계를 더 포함하는, 방법.
6. 조항 1에 있어서,
모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하는 단계;
애니메이션을 위해 3D 모델 파라미터들을 해석하는 단계; 및
3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하는 단계
를 더 포함하는, 방법.
7. 장치로서,
애플리케이션을 저장하기 위한 비일시적 메모리 - 애플리케이션은:
메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하고;
메시 등록을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스와 3D 컴퓨터 그래픽스 물리적 시뮬레이터 사이의 공간적 대응들을 확립하고;
머신 학습을 사용하여 3D 컴퓨터 그래픽스 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키기 위한 것임 -; 및
메모리에 커플링되는 프로세서
를 포함하고,
프로세서는 애플리케이션을 프로세싱하도록 구성되는, 장치.
8. 조항 7에 있어서, 애플리케이션은 고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템을 사용하도록 추가로 구성되는, 장치.
9. 조항 8에 있어서, 볼류메트릭 캡처 시스템은 고품질 사진들 및 비디오를 동시에 캡처하도록 구성되는, 장치.
10. 조항 7에 있어서, 애플리케이션은 다수의 별개의 3D 스캔을 취득하도록 추가로 구성되는, 장치.
11. 조항 7에 있어서, 애플리케이션은 표준 모션 캡처 애니메이션을 사용하여 자연스러운 애니메이션을 위해 변형을 예측 및 합성하도록 추가로 구성되는, 장치.
12. 조항 7에 있어서, 애플리케이션은 추가로:
모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하고;
애니메이션을 위해 3D 모델 파라미터들을 해석하고;
3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하도록
구성되는, 장치.
13. 시스템으로서,
고품질 4D 스캐닝을 위한 볼류메트릭 캡처 시스템; 및
컴퓨팅 디바이스
를 포함하고,
컴퓨팅 디바이스는:
메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하고;
메시 등록을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스와 3D 컴퓨터 그래픽스 물리적 시뮬레이터 사이의 공간적 대응들을 확립하고;
머신 학습을 사용하여 3D 컴퓨터 그래픽스 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키도록
구성되는, 시스템.
14. 조항 13에 있어서, 컴퓨팅 디바이스는 표준 모션 캡처 애니메이션을 사용하여 자연스러운 애니메이션을 위해 변형을 예측 및 합성하도록 추가로 구성되는, 시스템.
15. 조항 13에 있어서, 컴퓨팅 디바이스는 추가로:
모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하고;
애니메이션을 위해 3D 모델 파라미터들을 해석하고;
3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하도록
구성되는, 시스템.
16. 조항 13에 있어서, 볼류메트릭 캡처 시스템은 고품질 사진들 및 비디오를 동시에 캡처하도록 구성되는, 시스템.
17. 디바이스의 비일시적인 것에서 프로그래밍되는 방법으로서,
모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하는 단계;
애니메이션을 위해 3D 모델 파라미터들을 해석하는 단계; 및
3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하는 단계
를 포함하는, 방법.
본 발명은 본 발명의 구축 및 동작의 원리들의 이해를 용이하게 하기 위해 세부사항들을 포함하는 특정 실시예들의 관점에서 설명되었다. 특정 실시예들 및 그의 세부사항들에 대한 본 명세서의 그러한 언급은 여기에 첨부된 청구범위의 범주를 제한하려고 의도되지 않는다. 청구범위에 의해 정의된 바와 같은 본 발명의 사상 및 범주로부터 벗어남이 없이 예시를 위해 선정된 실시예에서 다른 다양한 수정들이 이루어질 수도 있다는 것이 본 기술분야의 통상의 기술자에게 쉽게 명백할 것이다.

Claims (17)

  1. 디바이스의 비일시적인 것에서 프로그래밍되는 방법으로서,
    메시 추적(mesh-tracking)을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응(temporal correspondence)들을 확립하는 단계;
    메시 등록을 사용하여 상기 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스와 3D 컴퓨터 그래픽스 물리적 시뮬레이터(3D computer graphics physical simulator) 사이의 공간적 대응들을 확립하는 단계; 및
    머신 학습을 사용하여 상기 3D 컴퓨터 그래픽스 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템(volumetric capture system)을 사용하는 단계를 더 포함하는, 방법.
  3. 제2항에 있어서,
    상기 볼류메트릭 캡처 시스템은 고품질 사진들 및 비디오를 동시에 캡처하도록 구성되는, 방법.
  4. 제1항에 있어서,
    다수의 별개의 3D 스캔을 취득하는 단계를 더 포함하는, 방법.
  5. 제1항에 있어서,
    표준 모션 캡처 애니메이션을 사용하여 자연스러운 애니메이션을 위해 상기 변형을 예측 및 합성하는 단계를 더 포함하는, 방법.
  6. 제1항에 있어서,
    모션 캡처 액터(motion capture actor)들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하는 단계;
    애니메이션을 위해 3D 모델 파라미터들을 해석(solving)하는 단계; 및
    3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하는 단계
    를 더 포함하는, 방법.
  7. 장치로서,
    애플리케이션을 저장하기 위한 비일시적 메모리 - 상기 애플리케이션은:
    메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하고;
    메시 등록을 사용하여 상기 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스와 3D 컴퓨터 그래픽스 물리적 시뮬레이터 사이의 공간적 대응들을 확립하고;
    머신 학습을 사용하여 상기 3D 컴퓨터 그래픽스 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키기 위한 것임 -; 및
    상기 메모리에 커플링되는 프로세서
    를 포함하고,
    상기 프로세서는 상기 애플리케이션을 프로세싱하도록 구성되는, 장치.
  8. 제7항에 있어서,
    상기 애플리케이션은 고품질 4D 스캐닝을 위해 볼류메트릭 캡처 시스템을 사용하도록 추가로 구성되는, 장치.
  9. 제8항에 있어서,
    상기 볼류메트릭 캡처 시스템은 고품질 사진들 및 비디오를 동시에 캡처하도록 구성되는, 장치.
  10. 제7항에 있어서,
    상기 애플리케이션은 다수의 별개의 3D 스캔을 취득하도록 추가로 구성되는, 장치.
  11. 제7항에 있어서,
    상기 애플리케이션은 표준 모션 캡처 애니메이션을 사용하여 자연스러운 애니메이션을 위해 상기 변형을 예측 및 합성하도록 추가로 구성되는, 장치.
  12. 제7항에 있어서,
    상기 애플리케이션은 추가로:
    모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하고;
    애니메이션을 위해 3D 모델 파라미터들을 해석하고;
    3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하도록
    구성되는, 장치.
  13. 시스템으로서,
    고품질 4D 스캐닝을 위한 볼류메트릭 캡처 시스템; 및
    컴퓨팅 디바이스
    를 포함하고, 상기 컴퓨팅 디바이스는:
    메시 추적을 사용하여 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스에 걸쳐 시간적 대응들을 확립하고;
    메시 등록을 사용하여 상기 4D 스캐닝된 인간 얼굴 및 전신 메시 시퀀스와 3D 컴퓨터 그래픽스 물리적 시뮬레이터 사이의 공간적 대응들을 확립하고;
    머신 학습을 사용하여 상기 3D 컴퓨터 그래픽스 물리적 시뮬레이터로부터의 델타로서 표면 변형을 훈련시키도록
    구성되는, 시스템.
  14. 제13항에 있어서,
    상기 컴퓨팅 디바이스는 표준 모션 캡처 애니메이션을 사용하여 자연스러운 애니메이션을 위해 상기 변형을 예측 및 합성하도록 추가로 구성되는, 시스템.
  15. 제13항에 있어서,
    상기 컴퓨팅 디바이스는 추가로:
    모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하고;
    애니메이션을 위해 3D 모델 파라미터들을 해석하고;
    3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하도록
    구성되는, 시스템.
  16. 제13항에 있어서,
    상기 볼류메트릭 캡처 시스템은 고품질 사진들 및 비디오를 동시에 캡처하도록 구성되는, 시스템.
  17. 디바이스의 비일시적인 것에서 프로그래밍되는 방법으로서,
    모션 캡처 액터들의 싱글-뷰 또는 멀티-뷰 2D 비디오들을 입력으로서 사용하는 단계;
    애니메이션을 위해 3D 모델 파라미터들을 해석하는 단계; 및
    3D 해석에 의해 해석된 3D 모델 파라미터들에 기초하여, 머신 학습 훈련으로부터 4D 표면 변형을 예측하는 단계
    를 포함하는, 방법.
KR1020227032175A 2020-03-31 2021-03-31 볼류메트릭 캡처 및 메시 추적 기반 머신 학습 KR20220143721A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063003097P 2020-03-31 2020-03-31
US63/003,097 2020-03-31
PCT/US2021/025263 WO2021202803A1 (en) 2020-03-31 2021-03-31 Volumetric capture and mesh-tracking based machine learning

Publications (1)

Publication Number Publication Date
KR20220143721A true KR20220143721A (ko) 2022-10-25

Family

ID=77856401

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227032175A KR20220143721A (ko) 2020-03-31 2021-03-31 볼류메트릭 캡처 및 메시 추적 기반 머신 학습

Country Status (6)

Country Link
US (2) US11640687B2 (ko)
EP (1) EP4094229A4 (ko)
JP (1) JP7446566B2 (ko)
KR (1) KR20220143721A (ko)
CN (1) CN114730480A (ko)
WO (1) WO2021202803A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102547358B1 (ko) * 2022-11-15 2023-06-23 엠앤앤에이치 주식회사 볼류메트릭 동영상을 이용한 아바타 퍼포밍 장치 및 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220319114A1 (en) * 2021-04-01 2022-10-06 Sony Group Corporation Automatic blending of human facial expression and full-body poses for dynamic digital human model creation using integrated photo-video volumetric capture system and mesh-tracking
WO2022208442A1 (en) * 2021-04-01 2022-10-06 Sony Group Corporation Automatic blending of human facial expression and full-body poses for dynamic digital human model creation using integrated photo-video volumetric capture system and mesh-tracking

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0004125L (sv) 2000-11-10 2002-05-11 Ericsson Telefon Ab L M Distanshållande dielektriskt skikt
US8466913B2 (en) 2007-11-16 2013-06-18 Sportvision, Inc. User interface for accessing virtual viewpoint animations
US8384714B2 (en) 2008-05-13 2013-02-26 The Board Of Trustees Of The Leland Stanford Junior University Systems, methods and devices for motion capture using video imaging
US11127163B2 (en) * 2015-06-24 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Skinned multi-infant linear body model
US10880470B2 (en) * 2015-08-27 2020-12-29 Accel Robotics Corporation Robotic camera system
US10937182B2 (en) 2017-05-31 2021-03-02 Google Llc Non-rigid alignment for volumetric performance capture
US10431000B2 (en) 2017-07-18 2019-10-01 Sony Corporation Robust mesh tracking and fusion by using part-based key frames and priori model
CN108022278B (zh) * 2017-12-29 2020-12-22 清华大学 基于视频中运动跟踪的人物动画绘制方法及系统
WO2019207176A1 (es) * 2018-04-25 2019-10-31 Seddi, Inc. Modelado de dinámica de tejido blando no lineal para avatares interactivos
US11158121B1 (en) * 2018-05-11 2021-10-26 Facebook Technologies, Llc Systems and methods for generating accurate and realistic clothing models with wrinkles
WO2020023788A1 (en) 2018-07-27 2020-01-30 Magic Leap, Inc. Pose space dimensionality reduction for pose space deformation of a virtual character
US11069144B2 (en) * 2018-09-14 2021-07-20 Mirrorar Llc Systems and methods for augmented reality body movement guidance and measurement
CN112739436A (zh) 2018-09-27 2021-04-30 英特尔公司 体积内容创建系统中的精彩时刻标识技术

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102547358B1 (ko) * 2022-11-15 2023-06-23 엠앤앤에이치 주식회사 볼류메트릭 동영상을 이용한 아바타 퍼포밍 장치 및 방법

Also Published As

Publication number Publication date
US11640687B2 (en) 2023-05-02
EP4094229A4 (en) 2023-07-05
US20230230304A1 (en) 2023-07-20
EP4094229A1 (en) 2022-11-30
WO2021202803A1 (en) 2021-10-07
JP2023519846A (ja) 2023-05-15
JP7446566B2 (ja) 2024-03-11
US20210304478A1 (en) 2021-09-30
CN114730480A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
Achenbach et al. Fast generation of realistic virtual humans
Ichim et al. Dynamic 3D avatar creation from hand-held video input
Raj et al. Anr: Articulated neural rendering for virtual avatars
US11640687B2 (en) Volumetric capture and mesh-tracking based machine learning 4D face/body deformation training
Bao et al. High-fidelity 3d digital human head creation from rgb-d selfies
EP3912085A1 (en) Systems and methods for face reenactment
CN113272870A (zh) 用于逼真的实时人像动画的系统和方法
KR102577966B1 (ko) 포토-비디오 기반 공간적-시간적 체적 측정 캡처 시스템
KR102353556B1 (ko) 사용자 얼굴기반 표정 및 포즈 재현 아바타 생성장치
CN117315211B (zh) 数字人合成及其模型训练方法、装置、设备及存储介质
Richter et al. Real-time reshaping of humans
Beacco et al. Automatic 3d character reconstruction from frontal and lateral monocular 2d rgb views
Dai et al. PBR-Net: Imitating physically based rendering using deep neural network
WO2022192992A1 (en) Methods and systems for markerless facial motion capture
WO2022248042A1 (en) Neural radiance field rig for human 3d shape and appearance modelling
Huang et al. A process for the semi-automated generation of life-sized, interactive 3D character models for holographic projection
Eisert et al. Hybrid human modeling: making volumetric video animatable
US20220319114A1 (en) Automatic blending of human facial expression and full-body poses for dynamic digital human model creation using integrated photo-video volumetric capture system and mesh-tracking
KR20230116902A (ko) 통합 사진-비디오 볼류메트릭 캡처 시스템 및 메시-트래킹을 사용하여 동적인 디지털 인간 모델 생성을 위한 인간 얼굴 표정 및 전신 포즈들의 자동 블렌딩
Niklaus Novel View Synthesis in Time and Space
CN116529766A (zh) 使用集成的照片-视频体积捕获系统和网格跟踪的用于动态数字人体模型创建的人类面部表情和全身姿势的自动混合
Magnor Reconstructing 3D Human Avatars from Monocular Images
Choi et al. Study on 2D Sprite* 3. Generation Using the Impersonator Network.
Kumar Digital Image Art Style Transfer Algorithm and Simulation Based on Deep Learning Model
de Aguiar et al. Video-driven animation of human body scans