KR20220117324A - 다양한 초상화들로부터 학습 조명 - Google Patents

다양한 초상화들로부터 학습 조명 Download PDF

Info

Publication number
KR20220117324A
KR20220117324A KR1020227025292A KR20227025292A KR20220117324A KR 20220117324 A KR20220117324 A KR 20220117324A KR 1020227025292 A KR1020227025292 A KR 1020227025292A KR 20227025292 A KR20227025292 A KR 20227025292A KR 20220117324 A KR20220117324 A KR 20220117324A
Authority
KR
South Korea
Prior art keywords
images
image
lighting
prediction engine
reference objects
Prior art date
Application number
KR1020227025292A
Other languages
English (en)
Inventor
클로이 레전드르
폴 데베벡
완-춘 마
로히트 판디
션 라이언 프란체스코 파넬로
크리스티나 통
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20220117324A publication Critical patent/KR20220117324A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/741Circuitry for compensating brightness variation in the scene by increasing the dynamic range of the image compared to the dynamic range of the electronic image sensors
    • H04N5/23219
    • H04N5/2355

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)
  • Image Generation (AREA)
  • Image Analysis (AREA)

Abstract

초상화들로부터 조명을 추정하는 기술들은 다수의 양방향 반사율 분포 함수들(BRDFs)을 사용하는 머신 학습(ML)시스템에 기초하여 단일의 얼굴 이미지로부터 조명 추정을 생성하는 것을 포함한다. ML 시스템은 LDR 이미지로부터 계산된 HDR 조명으로 형성된 얼굴들의 이미지들을 사용하여 트레이닝된다. 이 기술적 솔루션은 초상화들의 데이터 세트와 이들의 대응하는 실제 조명을 사용하여 지도 학습 방식으로 조명 추정 모델을 트레이닝하는 것을 포함한다.

Description

다양한 초상화들로부터 학습 조명
관련 출원에 대한 상호 참조
본 출원은 발명의 명칭 "초상화들로부터 학습 조명(LEARNING ILLUMINATION FROM PORTRAITS")으로 2020년 5월 20일에 출원된 미국 가특허출원 제62/704,657호의 정식 특허출원으로서 이의 우선권을 주장하며, 그 개시내용 전체가 여기에 참조로 포함된다.
본 설명은 예를 들어 증강 현실 애플리케이션에서 사용하기 위해 초상화로부터 조명을 결정하는 것에 관한 것이다.
정지 사진 및 비디오 애플리케이션들 둘 다에서의 문제는 렌더링된 가상 콘텐츠가 실제 장면의 모양(appearance)과 그럴듯하게 일치되도록 그 실제 장면의 조명을 일치시키는 것이다. 예를 들어, 모바일 장치의 후방 카메라(rear-facing camera)에서 처럼 전방위 카메라(world-facing camera)를 사용하여 증강 현실(AR) 사용 사례를 위한 조명 체계를 설계할 수 있으며, 누군가는 한점의 가구와 같은 합성 객체를 실제 장면의 라이브 카메라 피드(live camera feed)로 렌더링하길 원할지도 모른다.
본 명세서에 개시된 구현들은 임의의 실내 또는 실외 조명 조건하에서 캡처된 단일의 낮은 동적 범위(low dynamic range: LDR) 초상화 이미지로부터 높은 동적 범위(high dynamic range: HDR)의 전방향 조명(omnidirectional illumination)을 추정하기 위한 학습 기반 기술을 제공한다. 이러한 기술은 그라운드 트루스(ground truth) 환경 조명과 쌍을 이루는 초상화 사진들을 사용하여 모델을 트레이닝시키는 것을 포함한다. 이 트레이닝은 광 스테이지(light stage)를 사용하여 70개의 다양한 피사체들의 반사율 필드 및 알파 매트를 다양한 표정으로 기록하고 이어서 100만개의 HDR 조명 환경의 데이터베이스와 함께 이미지 기반 재조명을 사용하여 피사체들을 재조명하고, 조명 획득 중에 기록된 짝을 이루는 고해상도 배경 이미지에 재조명된 피사체들을 합성함으로써 그러한 사진들의 풍부한 세트를 생성하는 것을 포함한다. 조명 추정 모델의 트레이닝은 렌더링 기반 손실 함수를 사용하고 추가로 일부 경우에서 다중 스케일의 대립적 손실을 사용하여 그럴듯한 고주파 조명 세부 사항을 추정한다. 이 학습 기반 기술은 전반적인 조명 강도와 표면 알베도 사이의 고유한 모호성을 신뢰적으로 처리하여 다양한 피부 피그먼테이션을 가진 피사체에 대해 유사한 조명 스케일을 복구한다. 이 기술은 또한 가상 객체들과 디지털 캐릭터들이 일관된 조명으로 초상화 사진에 추가될 수 있게 한다. 이 조명 추정은 스마트폰에서 실시간으로 실행될 수 있으므로 증강 현실(AR) 애플리케이션들을 위해 라이브 비디오로 가상 객체들의 사실적 렌더링 및 합성을 할 수 있게 한다.
하나의 일반적인 양태에서, 방법은 복수의 이미지를 나타내는 이미지 트레이닝 데이터를 수신하는 단계를 포함하며, 상기 복수의 이미지 각각은 복수의 인간 얼굴들 중 적어도 하나를 포함하고, 상기 복수의 인간 얼굴 각각은 물리적 또는 가상 환경에서 복수의 조명 소스들 중 적어도 하나에 의해 조명되는 하나 이상의 얼굴의 이미지들을 결합함으로써 형성되고, 상기 복수의 조명 소스들 각각은 상기 물리적 또는 가상 환경 내에서 복수의 배향들(orientations) 각각의 배향에 위치된다. 이 방법은 또한 상기 복수의 이미지에 기초하여 예측 엔진을 생성하는 단계를 포함하며, 상기 예측 엔진은 입력 이미지 데이터로부터 예측 조명 프로파일을 생성하도록 구성되며, 상기 입력 이미지 데이터는 하나의 입력 인간 얼굴을 나타낸다.
다른 일반적인 양태에서, 컴퓨터 프로그램 제품은 비-일시적인 저장 매체를 포함하고, 이 컴퓨터 프로그램 제품은 컴퓨팅 장치의 처리 회로에 의해 실행될 때 상기 처리 회로로 하여금 방법을 수행하게 하는 코드를 포함하고, 이 방법은 복수의 이미지를 나타내는 이미지 트레이닝 데이터를 수신하는 단계를 포함할 수 있으며, 상기 복수의 이미지 각각은 복수의 인간 얼굴들 중 적어도 하나를 포함하고, 상기 복수의 인간 얼굴 각각은 물리적 또는 가상 환경에서 복수의 조명 소스들 중 적어도 하나에 의해 조명되는 하나 이상의 얼굴의 이미지들을 결합함으로써 형성되고, 상기 복수의 조명 소스들 각각은 상기 물리적 또는 가상 환경 내에서 복수의 배향들 각각의 배향에 위치된다. 이 방법은 또한 상기 복수의 이미지에 기초하여 예측 엔진을 생성하는 단계를 포함할 수 잇으며, 상기 예측 엔진은 입력 이미지 데이터로부터 예측 조명 프로파일을 생성하도록 구성되며, 상기 입력 이미지 데이터는 하나의 입력 인간 얼굴을 나타낸다.
또 다른 일반적인 양태에서, 전자 장치는 메모리 및 상기 메모리에 결합된 제어 회로를 포함한다. 이 제어 회로는 복수의 이미지를 나타내는 이미지 트레이닝 데이터를 수신하도록 구성될 수 있고, 상기 복수의 이미지 각각은 복수의 인간 얼굴들 중 적어도 하나를 포함하고, 상기 복수의 인간 얼굴 각각은 물리적 또는 가상 환경에서 복수의 조명 소스들 중 적어도 하나에 의해 조명되는 하나 이상의 얼굴의 이미지들을 결합함으로써 형성되고, 상기 복수의 조명 소스들 각각은 상기 물리적 또는 가상 환경 내에서 복수의 배향들 각각의 배향에 위치된다. 이 제어 회로는 또한 상기 복수의 이미지에 기초하여 예측 엔진을 생성하도록 구성될 수 있으며, 상기 예측 엔진은 입력 이미지 데이터로부터 예측 조명 프로파일을 생성하도록 구성되며, 상기 입력 이미지 데이터는 하나의 입력 인간 얼굴을 나타낸다.
하나 이상의 구현들의 세부 사항들이 첨부 도면 및 아래의 상세한 설명에 제시된다. 다른 특징들은 상세한 설명, 도면 및 청구의 범위로부터 분명해질 것이다.
도 1은 여기에 설명된 개선된 기술이 구현될 수 있는 예시적인 전자 환경을 도시하는 도면이다.
도 2는 개시된 구현들에 따른, 초상화로부터 조명을 추정하는 예시적인 방법을 도시하는 흐름도이다.
도 3은 개시된 구현들에 따른, 초상화로부터 조명을 추정하도록 구성된 예시적인 시스템을 도시하는 도면이다.
도 4는 도 3에 도시된 예시적인 시스템 내의 예시적인 컨볼루션 신경망(convolutional neural network: CNN)을 도시하는 도면이다.
도 5는 도 3에 도시된 예시적인 시스템 내의 예시적인 판별기를 도시하는 도면이다.
도 6은 설명된 기술을 구현하는 데 사용될 수 있는 컴퓨터 디바이스 및 모바일 컴퓨터 디바이스의 예를 도시하는 도면이다.
증강 현실(AR)과 같은 비디오 애플리케이션들에서의 한 가지 과제는 합성 객체를 실제 장면으로 렌더링하여 물체가 실제로 장면에 있는 것처럼 보이도록 하는 것을 포함한다. 한 가지 문제는 렌더링된 가상 콘텐츠가 실제 장면의 모양과 그럴듯하게 일치되도록 그 실제 장면의 조명을 일치시키는 것이다. 예를 들어, 모바일 장치의 후방 카메라에서 처럼 전방위 카메라를 사용하여 증강 현실(AR) 사용 사례를 위한 조명 체계를 설계할 수 있으며, 누군가는 한점의 가구와 같은 합성 객체를 실제 장면의 라이브 카메라 피드로 렌더링하길 원할지도 모른다.
그러나, 전방위 카메라용으로 설계된 이러한 조명 방식은 전면 카메라용(예를 들어, 설피 이미지들용)으로 설계된 조명 방식과 다를 가능성이 있다. 예를 들어 초상화 사진에서 조명은 주어진 샷의 모양과 느낌에 영향을 미친다. 사진 작가들은 특정한 미적 감성과 감정적 톤을 전달하기 위해 피사체들을 조명한다. 실제 조명 방식을 캡처하기 위해 영화 시각 효과 실무자들이 사용하는 한 가지 접근 방식은 다중 노출을 사용하여 미러 구체를 촬영하여 전방향 조명의 컬러와 강도를 기록하는 것을 포함한다. 이러한 종래의 접근 방식의 결과는 가상 콘텐츠를 실제 사진으로 사실적으로 렌더링하는 데 사용되는 HDR "이미지 기반 조명(IBL)" 환경이다.
AR은 가상 콘텐츠와 실제 이미지를 사실적으로 혼합하는 목표를 영화 시각 효과와 공유한다. 그러나 실시간 AR에서, 특수 캡처 하드웨어로부터의 조명 측정은 일반 휴대전화나 헤드셋 사용자들에게 획득이 비현실적일 수 있으므로 사용할 수 없다. 마찬가지로, 영화에서의 후반 제작 시각 효과의 경우, 현장 조명 측정은 항상 사용할 수 있는 것은 아니지만 조명 아티스트들은 여전히 장면에서 큐를 사용하여 조명에 관해 추론해야 한다.
따라서, 과제는 조명 환경 내에 사람의 얼굴 이미지가 주어지면 전방 카메라들에 대한 조명 방식을 결정하는 것이다. 일부 개념들은 초상화로부터의 조명을 해결하기 위해 얼굴로부터의 강한 기하학적 구조와 반사율을 활용했다. 일부 연구자들이 초상화 역광을 도입한 이후로 대부분의 이러한 기술은 얼굴 기하학과 일반적으로 최대 2차 구면 조화(SH) 기반을 사용하여 표현되는 거리 장면 조명의 저주파 근사 모두를 복구하려고 했다. 이 근사에 대한 정당성은 피부 반사율이 지배적으로 확산(램버시안)이고 따라서 입사 조명에 대한 저역 통과 필터로서 역할을 한다는 것이다. 확산 물질의 경우, 조도는 실제로 이 기준으로 잘 표현되는 9-차원 부분공간에 매우 가깝다.
그럼에도 불구하고, 캡처 시간에서의 조명은 피부의 난반사를 통해서 뿐만 아니라 투사된 그림자의 방향 및 범위, 정반사 하이라이트의 강도 및 위치를 통해서도 드러날 수 있다. 이러한 단서에서 영감을 얻은 일부 접근 방식은 초상화로부터 역조명을 수행하도록 신경망을 트레이닝하여 특정 피부 반사 모델을 가정함이 없이 전방향 HDR 조명을 추정한다. 이러한 접근 방식은 오프라인 조명 측정을 사용할 수 없을 때 시각 효과와 AR 모두의 애플리케이션들을 사용하여 새로운 피사체들을 실제 초상화들로 설득력 있게 렌더링하는 데 사용할 수 있는 보다 높은 고주파조명을 생성할 수 있다.
얼굴의 LDR 이미지가 주어졌을때 조명을 추정하기 위한 종래의 접근 방식은 얼굴에서의 입사광 조도와 반사광 방사 사이의 관계를 정의하는 모델링된 BRDF(양방향 반사율 분포 함수)에 기초하여 이러한 조명 추정치를 생성하는 것을 포함한다. BDRF는 광선에 수직인 단위 투영 면적당 입사 광선 방향에 대한 광 방사의 미분 또는 단위 입체각 당 파워 대 출사되는 광 방사의 미분 또는 단위 표면적 당 파워의 비율로 표현될 수 있다.
얼굴 이미지에서 조명을 추정하는 위에서 설명한 종래의 접근 방식의 기술적 문제는 단일 반사율 함수(예를 들어, 램버시안 또는 퐁 모델)를 기반으로 조명을 추정하는 것인데, 이는 피부 반사가 훨씬 더 복잡하고 서브 표면 산란 및 거칠음을 포함하므로 존재 시 조명 추정의 강건성 및 예를 들어 다양한 피부 피그먼테이션의 존재에서 프레넬 반사를 제한할 수 있다. 또한, 광원 강도와 표면 알베도 사이의 고유한 모호성은 간단한 램버시안 모델이 피부 반사를 정확하게 예측할 수 있더라도 다양한 피부 피그먼테이션의 피사체들에 대한 정확한 조명 스케일의 간단한 복구를 방해한다.
본 명세서에 기술된 구현에 따르면, 전술한 기술적 문제에 대한 기술적 솔루션은 다중 양방향 반사율 분포 함수들(BRDFs)을 손실 함수로서 사용하는 머신 러닝(ML) 시스템에 기초하여 얼굴의 단일 이미지로부터 조명 추정치를 생성하는 것을 포함한다. 일부 구현에서, ML 시스템은 LDR 조명 획득 방법을 사용하여 캡처된 HDR 조명으로 형성된 얼굴의 이미지를 사용하여 트레이닝된다. 이 기술적 솔루션은초상화들의 데이터 세트와 이들의 대응하는 실제 조명을 사용하여 지도 학습 방식(supervised manner)으로 조명 추정 모델을 트레이닝하는 것을 포함한다. 예시적인 데이터 세트에서, 70개의 다양한 피사체들이 구체에 기저(basis)를 형성하는 331개의 지향성 광원에 의해 조명되는 조명 스테이지 시스템에서 촬영되어, 캡처된 피사체는 이미지 기반 재조명으로 피사체들이 어떤 장면에 있는 것처럼 나타나도록 재조명될 수 있다. 통상적인 HDR 파노라마 촬영 기술을 사용하여 캡처된 실제 조명 환경의 몇 가지 데이터베이스들이 공개적으로 이용 가능하지만 일부 구현에서 사용된 LDR 조명 수집 기술은 대신에 100만개의 실내 및 실외 조명 환경을 캡처하도록 확장되어, 재조명을 위해 이들을 사용하기전 신규한 음이 아닌(non-negative) 최소 제곱 솔버 공식을 통해 이들을 HDR로 승격시킨다.
개시된 구현의 기술적 이점은 입력 이미지에서 얼굴의 피부 피그먼테이션에 관계없이 정확한 스케일 또는 노출 값에서 본질적으로 동일한 조명 추정을 생성하는 ML 시스템이다. 조명 추정에 대한 모든 시도는 표면 반사율(알베도)과 광원 강도 사이의 고유한 모호성으로 인해 복잡하다. 달리 말하면, 픽셀의 셰이딩은 광원 강도가 2배인 동안 알베도가 절반이면 변경되지 않고 렌더링된다. 위에서 설명한 개선된 기술은 다양한 피부 피그먼테이션을 가진 다양한 피사체들에서 이 모델의 성능을 명시적으로 평가한다. 주어진 조명 조건에 대해 개선된 기술은 다양한 피사체들에 대해 유사한 스케일로 조명을 복구할 수 있다.
또한, ML 시스템은 HDR 조명을 사용하여 생성된 LDR 초상화 이미지들에 대해 학습되는 경우에도 HDR 조명을 추정할 수 있다. 최근 몇 가지 작업은 임의의 장면과 태양이 내포된 실외 장면에 대한 딥 러닝(deep learning) 방법을 포함하여 저주파 조명 기반 또는 BRDF 모델에 의존함이 없이 초상화들로부터 조명을 복구하려 했다. 여기에 설명된 기술적 솔루션은 이러한 2가지 방법을 모두 능가하며 임의의 실내 또는 실외 장면으로 보편화하고 있다. 이들 모델들은 트레이닝 데이터로서 컴퓨터 생성 휴머노이드 모델에 의존하며, 따라서 추론 시간에 실제의 인-더-와일드 초상화(in-the-wild portraits)로 보편화하지 않는다.
도 1은 전술한 기술 솔루션이 구현될 수 있는 예시적인 전자 환경(100)을 도시하는 다이어그램이다. 컴퓨터(120)는 초상화들로부터 조명을 추정하도록 구성된 예측 엔진을 트레이닝 및 동작시키도록 구성된다.
컴퓨터(120)는 네트워크 인터페이스(122), 하나 이상의 처리 유닛(124), 및 메모리(126)를 포함한다. 네트워크 인터페이스(122)는 예를 들어, 네트워크(150)로부터 수신된 전자 및/또는 광학 신호들을 컴퓨터(120)에 의해 사용하기 위한 전자 형태로 변환하기 위한 이더넷 어댑터, 토큰 링 어댑터 등을 포함한다. 처리 유닛(124)들의 세트는 하나 이상의 처리 칩 및/또는 어셈블리를 포함한다. 메모리(126)는 휘발성 메모리(예를 들어, RAM)와 하나 이상의 ROM, 디스크 드라이브, 솔리드 스테이트 드라이브 등과 같은 비휘발성 메모리 둘 다를 포함한다. 처리유닛(124)들의 세트와 메모리(126)는 함께 제어 회로를 형성하며, 이는 여기에서 설명된 바와 같은 다양한 방법 및 기능을 수행하도록 구성 및 배열된다.
일부 구현에서, 컴퓨터(120)의 하나 이상의 컴포넌트는 메모리(126)에 저장된 명령어를 처리하도록 구성된 프로세서(예를 들어, 처리 유닛(124))일 수 있거나 이를 포함할 수 있다. 도 1에 도시된 바와 같은 그러한 명령어들의 예들은 이미지 획득 매니저(130) 및 예측 엔진 트레이닝 매니저(140)를 포함한다. 또한, 도 1에 도시된 바와 같이, 메모리(126)는 다양한 데이터를 저장하도록 구성되며, 이에 대해서는 이러한 데이터를 사용하는 각각의 매니저들에 관하여 설명된다.
이미지 획득 매니저(130)는 이미지 트레이닝 데이터(131) 및 기준 객체 데이터(136)를 수신하도록 구성된다. 일부 구현에서, 이미지 획득 매니저(130)는 네트워크 인터페이스(122)를 통해 즉, (네트워크(90)와 같은)네트워크를 통해 디스플레이 디바이스(170)로부터 이미지 트레이닝 데이터(131) 및 기준 객체 데이터(136)를 수신한다. 일부 구현에서, 이미지 획득 매니저(130)는 로컬 저장소(예를 들어, 디스크 드라이브, 플래시 드라이브, SSD, 또는 이와 유사한 것)로부터 이미지 트레이닝 데이터(131) 및 기준 객체 데이터(136)를 수신한다.
일부 구현에서, 이미지 획득 매니저(130)는 표준 크기의 초상화들을 생성하기 위해 이미지 트레이닝 데이터(131)로부터 얼굴 이미지를 자르고 크기를 조정하도록 더 구성된다. 이미지를 자르고 크기를 표준 크기로 조정함으로써, ML 시스템의 트레이닝이 더욱 강건해진다.
이미지 트레이닝 데이터(131)는 다양한 조명 배열로 촬영된 얼굴들의 초상화 세트를 나타낸다. 일부 구현들에서, 이미지 트레이닝 데이터(131)는 낮은 다이내믹 레인지(LDR) 조명 환경 캡처로부터 복구된 HDR 조명으로 형성된 얼굴의 이미지들 즉, 초상화들을 포함한다. 도 1에 도시된 바와 같이, 이미지 트레이닝 데이터(131)는 다수의 이미지(132(1),...132(M))를 포함하며, 여기서 M은 이미지 트레이닝 데이터(131)에서의 이미지들의 수이다. 각각의 이미지 즉, 이미지(132(1))는 광 방향 데이터 134(1) 및 포즈 데이터 135(1)를 포함한다.
광 방향 데이터(134(1...M))는 이미지 트레이닝 데이터(131)에 사용되는 초상화에 대해 얼굴을 조명하는 특정 수의 방향들(예를 들어, 331) 중 하나를 나타낸다. 일부 구현에서, 광 방향 데이터(134(1))는 극각(polar angle) 및 방위각(azimutal angle), 즉 단위 구체 상의 좌표들을 포함한다. 일부 구현에서, 광 방향 데이터(134(1))는 방향 코사인의 삼중항을 포함한다. 일부 구현들에서, 광 방향 데이터(134(1))는 오일러 각도들의 세트를 포함한다. 위에서 설명된 예에서 그리고 일부 구현에서, 광 방향 데이터(134(1))에 의해 표현되는 각도 구성은 ML 시스템을 트레이닝하는 데 사용되는 331개의 구성들 중 하나이다.
포즈 데이터(135(1...M))는 얼굴의 이미지를 캡처하는 다수(예를 들어, 9개) 의 특정 포즈들 중 하나를 나타낸다. 일부 구현에서, 포즈는 얼굴 표정을 포함한다. 일부 구현에서, 고정된 수의 얼굴 표정(예를 들어, 3, 6, 9, 12 또는 그 이상)이 있다.
4-차원 반사율 필드
Figure pct00001
는 광 방향 데이터(134)(1...M)에 따라 각 이미지 픽셀( x, y)에 대해 임의의 조명 방향
Figure pct00002
으로부터 조명된 피사체를 나타낼 수 있다.
Figure pct00003
에 의해 유사하게 파라미터화된 HDR 조명 환경에서 이 반사율 필드의 내적을 취하는 것은 그 장면에서와 같이 나타나도록 피사체를 재조명하는 것으로 입증되었다. 피사체의 반사율 필드를 촬영하기 위해 컴퓨터로 제어할 수 있는 화이트 LED 광원의 구체가 적도에서 12°간격으로 이격된 조명과 함께 사용된다. 그러한 구현에서, 반사율 필드는 반사율 기반 이미지들의 세트로부터 형성되고, 각각의 지향성 LED 광원들이 구형 장비 내에서 한 번에 하나씩 개별적으로 켜질 때 피사체를 촬영한다. 일부 구현에서, 이들 OLAT(One-Light-at-a-Time) 이미지들은 다중 카메라 뷰포인트들에 대해 캡처된다. 일부 구현에서, 331개의 OLAT 이미지들은 피사체로부터 1.7미터 떨어진, 12메가픽셀 해상도의 6개의 컬러 머신 비전 카메라를 사용하여 각 피사체에 대해 캡처되지만 이들 값과 OLAT 이미지들의 수 및 사용된 카메라 유형은 일부 구현에서 다를 수 있다. 일부 구현에서, 카메라들은 피사체의 대략 앞에 위치하며, 35mm 렌즈를 갖는 5개의 카메라가 서로 다른 각도로부터 피사체의 상체를 캡처하고, 50mm 렌즈를 갖는 하나의 추가 카메라가 보다 엄격한 프레이밍(tighter framing)으로 얼굴의 클로즈업 이미지를 캡처한다.
일부 구현에서, 각각 포즈 데이터(135(1...M))에 따라 9개의 서로 다른 얼굴 표정을 짓고 서로 다른 액세서리를 착용하는 70명의 다양한 피사체들에 대한 반사율 필드는 총 3780개의 고유한 OLAT 시퀀스에 대해 6개의 서로 다른 카메라 뷰포인트로부터 약 630 세트의 OLAT 시퀀스들을 생성한다. 다른 양의 OLAT 시퀀스 세트가 사용될 수 있다. 광범위한 피부 피그먼테이션에 걸쳐 피사체들이 촬영되었다.
피사체에 대한 전체 OLAT 시퀀스를 획득하는 데 약간의 시간(예컨대, 약 6초)이 걸리므로, 프레임 간에 약간의 피사체 움직임이 있을 수 있다. 일부 구현에서, 광학 흐름 기술이 이미지들을 정렬하는 데 사용되며, 광학 흐름에 대한 밝기 일정성 제약을 충족하도록 균일하고 일관된 조명으로 하나의 추가의 "추적(tracking)" 프레임을 때때로(예를 들어, 11번째 OLAT 프레임마다) 산재(interspering)시킨다. 이 단계는 정렬된 OLAT 이미지들을 선형적으로 결합하는 재조명 동작을 수행할 때 이미지 특징들(image features)의 선명도를 유지할 수 있다.
촬영된 반사율 필드로 피사체를 재조명하기 위해, 일부 구현에서, 광원이 클리핑되지 않은 HDR 조명 환경의 대규모 데이터베이스가 사용된다. 수천 개 정도의 실내 파노라마 또는 실외 파노라마의 상반구를 포함하는 데이터 세트가 일부 있지만, 일반적으로 딥 러닝 모델은 더 많은 양의 트레이닝 데이터로 증강된다. 따라서, 100만 개 정도의 실내외 조명 환경이 수집되었다. 일부 구현에서, 휴대폰 캡처 장비(rig)가 사용되어 서로 다른 반사율(확산, 미러 유사 및 거친 정반사를 갖는 매트 실버(matte silver))의 3개의 구체들의 대응하는 LDR 모양과 함께 고해상도 배경 이미지의 자동 노출 및 화이트 밸런스 LDR 비디오들이 동시에 캡처될 수 있다. 이들 3개의 구체는 장면 조명에 관한 서로 다른 단서들을 나타낸다. 미러 볼은 전방향 고주파 조명을 반사하지만, 밝은 광원들은 종종 단일 노출 이미지에서 클립핑되므로 이들의 강도와 컬러가 정확치 않게 된다. 대조적으로, 확산 볼의 램버시안에 가까운 BRDF는 입사 조명에 대한 저역 통과 필터로서 역할을 하여 전체 장면 광채(scene radiance)의 흐릿하지만 비교적 완전한 기록을 캡처한다.
여기에서의 구현은 대략적인 3개의 구체 모양을 HDR 조명 환경으로 명시적으로 승격시킨 후 피사체를 재조명하는 데 사용할 장면 조명의 진정한 HDR 기록을 가질 수 있다.
기준 객체 데이터(136)는 기준 객체, 예를 들어 상이한 반사율의 구체를 나타낸다. 이러한 기준 객체는 ML 시스템에서 그라운드 트루스 조명을 제공하는 데 사용된다. 도 1에 도시된 바와 같이. 기준 객체 데이터(136)는 복수의 기준 세트(137(1),..., 137(N))를 포함하며, 여기서 N은 고려되는 HDR 조명 환경의 수이다. 기준 세트(137(1...N)) 각각은, 예를 들어 기준 세트(137(1))는 미러(138(1)), 매트 실버(matte silver)(139(1)), 및 확산 그레이(141(1))에 대한 BRDF 데이터를 포함한다. 일부 구현들에서, BRDF 데이터(138(1), 139(1), 및 141(1))는 BRDF 값들의 어레이를 포함한다. 일부 구현들에서, BRDF 데이터(138(1), 139(1), 및 141(1))는 SH 확장의 계수들의 세트를 포함한다.
지도 학습 방식으로 이미지 트레이닝 데이터(131)로부터 조명을 추정하기 위한 모델을 트레이닝하기 위해, 일부 구현들은 이미지 트레이닝 데이터(131)에 의해 표현된 초상화는 예를 들어 기준 객체 데이터(136)와 같은 실제 조명으로 라벨링된다. 일부 구현에서, 데이터로 구동되는 이미지 기반 재조명의 기술을 사용하는 초상화들이 합성되며, 어떤 경우에는 사람의 얼굴에 대해 실제적인 재조명 결과를 생성하기 위해 표시되며, 사람의 피부와 머리카락에 대한 복잡한 광 전달 현상(표면 아래 및 돌기 산란 및 프레넬 반사)을 적절하게 캡처한다. 이러한 합성은 종종 이러한 복잡한 현상을 나타내지 못하는 3D 얼굴 모델의 렌더링과 대조된다.
예측 엔진 트레이닝 매니저(140)는 초상화로부터 조명을 추정하는데 사용되는 전술한 ML 시스템을 나타내는 예측 엔진 데이터(150)를 생성하도록 구성된다. 도 1에 도시된 바와 같이, 예측 엔진 트레이닝 매니저(140)는 인코더(142), 디코더(143) 및 판별기(144)를 포함한다.
인코더(142)는 이미지 트레이닝 데이터(131)로부터 입력으로서, 클립핑된 초상화(즉, 이미지 132(1...M) 및 광 방향 데이터(134(1...L))로부터의) 디코더(143)에 입력될 완전 연결된 계층에서 파라메트릭 값을 생성하도록 구성된다. 디코더(143)는 인코더(142)에 의해 생성된 파라메트릭 값을 입력으로 취하고 예측된 HDR 조명 추정치를 나타내는 조명 프로파일 데이터(153)를 생성하도록 구성된다. 판별기(144)는 조명 프로파일 데이터(153) 및 기준 객체 데이터(136)를 입력으로서 취하고, 디코더(143)로 피드백되는 비용 함수 데이터(154)를 생성하여 컨볼루션 계층 데이터(151) 및 블러 풀링 데이터(152)를 생성하도록 구성된다. ML 시스템에서 사용되는 비용 함수는 ML 시스템에 의해 최소화되는 함수임이 주목된다. 이 경우에, 비용 함수는 예를 들어 다수의 BRDF에 대한 실제 구체 이미지들과 예측된 조명으로 조명된 대응하는 네트워크 렌더링 구체들 간의 차이를 반영한다. ML 시스템에 대한 추가 세부사항은 도 3과 관련하여 설명된다.
기준 객체 데이터(136)로 되돌아가서, 가능하게는 클립핑된 픽셀을 갖는 3개의 반사 구체의 캡처된 이미지가 주어지면, 일부 구현은 이러한 3개의 구체 모양을 그럴듯하게 생성할 수 있는 HDR 조명의 답을 구한다. 일부 구현에서, 다시 광 스테이지 시스템을 사용하여 확산 및 매트 실버 볼에 대한 반사율 필드를 먼저 촬영할 수 있다. 일부 구현은 반사율 기반 이미지들을 동일한 상대적 방사 측정 공간으로 변환하여 입사 광원 컬러에 기초하여 정규화한다. 그런 다음, 일부 구현은 반사율 기반 이미지를 미러 볼 맵핑(램버트 방위각 동일 영역 투영)에 투영하여, 일부 구현에서와 같이 예를 들어 32 x 32 미러 이미지의 각각의 새로운 조명 방향
Figure pct00004
에 대한 입력 이미지로부터 에너지를 축적하거나, 반사율 필드
Figure pct00005
를 형성하거나 또는 개별 픽셀로 슬라이싱한다.
컬러 채널 c에 대한 클리핑 없이 캡처된 미러 볼 이미지의 조명 방향
Figure pct00006
에 대해, 일부 구현은 미러 볼 이미지 픽셀 값들을 측정된 미러 볼 반사율(82.7%)의 역으로 간단히 스케일링함으로써 장면 조명
Figure pct00007
을 복구한다. 오리지널 미러 볼 이미지에서 클립핑된 픽셀이 있는 조명 방향
Figure pct00008
에 대해, 일부 구현은 픽셀 값들을 1.0으로 설정하고, 이를 장면 조명
Figure pct00009
을 형성하는 측정된 반사율의 역으로 스케일링한 다음, 음이 아닌 최소 제곱 솔버 공식을 사용하여 잔여 누락 조명 강도
Figure pct00010
의 답을 구한다. 오리지널 이미지 픽셀 값
Figure pct00011
BRDF 인덱스 k(예: 확산 또는 매트 실버), 컬러 채널 c 및 측정된 반사율 필드
Figure pct00012
에 대한 오리지널 이미지 픽셀 값
Figure pct00013
가 주어지면, 광의 중첩 원리로 인해 다음 식이 충족된다.
Figure pct00014
식(1)은 반사율 기반 이미지들의 구체 픽셀들의 수와 동일하며 n개의 알려지지 않은 잔류 광 강도를 갖는, 각 BRDF k 및 컬러 채널 c에 대한 m개의 선형 방정식의 세트를 나타낸다. 클립핑이 없는 조명 방향들의 경우,
Figure pct00015
이다. km > n인 각 컬러 채널에 대해 음이 아닌 최소 제곱을 사용하여 알려지지 않은
Figure pct00016
의 값을 구할 수 있으며, 이는 광을 제거함이 없이 추가하기만 하면 되게 해준다. 실제로, 일부 구현은, 답을 구하는데 있어 클립핑된 픽셀
Figure pct00017
을 배제한다. 일부 방법은 촬영된 확산 구체의 픽셀 값들을 클립핑된 파노라마의 확산 컨볼루션과 비교함으로써 클립핑된 광원 강도를 복구했지만 이러한 구현은 촬영된 반사율 기반 및 다중 BRDF를 사용하는 최초의 구현이다.
일부 구현에서,
Figure pct00018
에 대한 답을 구하는데 있어 각 컬러 채널을 독립적으로 처리할 때, 밝은 색조의 레드, 그린 및 블루 광원들이 생성되는 것이 관찰되며, 이들은 종종 3개의 컬러 채널 모두에서 더 큰 강도의 단일 광원보다는 기하학적으로 가까운 조명 방향에서 생성되었다. 더 그럴듯하고 중간 컬러의 광원들로 결과를 복구하기 위해, 일부 구현은 촬영된 확산 그레이 볼의 컬러가 장면에서 밝은 광원들의 평균 컬러 균형
Figure pct00019
을 나타낸다는 통찰력에 기초한 교차 컬러 채널 정규화를 추가한다. 일부 구현은 식의 체계에 가중치
Figure pct00020
를 갖는 새로운 세트의 선형 방정식을 추가한다.
Figure pct00021
이들 정규화 항들은 타겟 확산 볼과 다른 컬러 균형의 강한 색조 광원들의 복구에 불이익을 준다. 일부 구현은, 비록 필연적으로 강한 색조의 조명을 복구하는 것을 방해하지는 않지만, 기하학적으로 가까운 조명 방향에 대해 유사한 강도를 장려하기 위해 정규화 항을 추가한다. 일부 구현은 Ceres 솔버를 사용하여
Figure pct00022
를 복구하여 100만 개의 캡처된 구체 모양을 HDR 조명으로 승격한다. 이 비디오-레이트 데이터 수집 방법으로부터의 LDR 이미지들은 8비트이고 가능하게는 로컬 피그먼테이션 맵핑과 함께 sRGB로 인코딩됨에 따라, 일부 구현은 먼저, 선형 시스템 공식화에 포함된
Figure pct00023
의 감마 값을 가정하여 구체 이미지를 선형화한다.
각 피사체에 대한 촬영된 반사율 필드 및 HDR-승격 조명을 사용하여, 일부 구현은 트레이닝 데이터로서 서비스하도록 실제 조명으로 재조명된 초상화를 생성한다. 일부 구현은 반사율 기반 이미지를 동일한 상대적 방사 측정 공간으로 다시 변환하여 입사된 광원 컬러를 기반으로 보정을 행한다. 조명 환경들은 예를 들어 32 x 32 미러 볼 이미지들로서 표현되기 때문에, 일부 구현은 반사율 필드들을 이 러한 기준에 투영하고, 일부 구현에서와 같이 각각의 새로운 조명 방향
Figure pct00024
에 대한 입력 이미지들로부터 에너지를 다시 축적한다. 각각의 새로운 기준 이미지는 원본 331개의 OLAT 이미지들의 선형 조합이다.
조명 캡처 기술은 또한 3개의 구체 모양에 해당하는 고해상도 배경 이미지를 생성한다. 임의의 이미지들이 조명 추정치를 추출하는 데 유용한 단서를 포함하고 있기 때문에 일부 구현은 일부 구현에서처럼 블랙 프레임이 아닌, 배경에 피사체를 합성한다. 배경 이미지들은 8비트 sRGB일 수 있기 때문에, 일부 구현은 합성 전에 재조명된 피사체 이미지에 이 전달 함수를 클리핑하여 적용한다. 인더 와일드 초상화들은 클립핑된 픽셀들을 포함할 가능성이 높기 때문에(특히 모바일 AR용 8비트 라이브 비디오의 경우) 일부 구현은 예상되는 추론 시간 입력과 일치하도록 재조명 피사체들에 대한 HDR 데이터를 버린다.
배경 이미지가 조명 추정에 도움이 되는 상황적 단서를 제공할 수 있지만, 일부 구현은 각 입력에 대한 얼굴 바운딩 박스를 계산하고, 트레이닝 및 추론 동안 일부 구현은 바운딩 박스를 25% 확장하여 각 이미지를 자른다. 트레이닝 동안, 일부 구현은 위치와 범위를 무작위로 변경하면서 약간의 자르기 영역 변형을 추가한다.
사용자 디바이스(120)의 컴포넌트들(예를 들어, 모듈, 처리 유닛(124))은 하나 이상의 유형의 하드웨어, 소프트웨어, 펌웨어, 운영 체제, 런타임 라이브러리 등을 포함할 수 있는 하나 이상의 플랫폼(예를 들어, 하나 이상의 유사하거나 상이한 플랫폼)에 기초하여 동작하도록 구성될 수 있다. 일부 구현에서, 컴퓨터(120)의 컴포넌트들은 디바이스들의 클러스터(예를 들어, 서버 팜) 내에서 동작하도록 구성될 수 있다. 이러한 구현에서, 컴퓨터(120)의 컴포넌트들의 기능 및 처리는 디바이스들의 클러스터의 여러 디바이스들에 분산될 수 있다.
컴퓨터(120)의 컴포넌트들은 속성을 처리하도록 구성된 임의의 유형의 하드웨어 및/또는 소프트웨어일 수 있거나 이를 포함할 수 있다. 일부 구현에서, 도 1의 컴퓨터(120)의 컴포넌트들에 도시된 컴포넌트들의 하나 이상의 부분들은 하드웨어 기반 모듈(예를 들어, 디지털 신호 프로세서(DSP), FPGA(Field Programmable Gate Array), 메모리, 펌웨어 모듈 및/또는 소프트웨어 기반 모듈(예를 들어, 컴퓨터 코드의 모듈, 컴퓨터에서 실행될 수 있는 컴퓨터 판독 가능 명령어 세트)일 수 있거나 이를 포함할 수 있다. 예를 들어, 일부 구현에서, 컴퓨터(120)의 컴포넌트들의 하나 이상의 부분은 적어도 하나의 프로세서(미도시)에 의한 실행을 위해 구성된 소프트웨어 모듈일 수 있거나 이를 포함할 수 있다. 일부 구현에서, 컴포넌트들의 기능은 2개의 컴포넌트로 설명된 기능을 단일 컴포넌트로 결합하는 것을 비롯한 도 1에 도시된 것과 상이한 모듈들 및/또는 상이한 컴포넌트들에 포함될 수 있다.
도시되지는 않았지만, 일부 구현들에서, 컴퓨터(120)의 컴포넌트들(또는 그의 부분들)은, 예를 들어, 데이터 센터(예를 들어, 클라우드 컴퓨팅 환경), 컴퓨터 시스템, 하나 이상의 서버/호스트 장치 등 내에서 동작하도록 구성될 수 있다. 일부 구현에서, 컴퓨터(120)의 컴포넌트들(또는 그 일부)은 네트워크 내에서 동작하도록 구성될 수 있다. 따라서, 컴퓨터(120)의 컴포넌트(또는 그 일부)는 하나 이상의 디바이스 및/또는 하나 이상의 서버 디바이스를 포함할 수 있는 다양한 유형의 네트워크 환경 내에서 기능하도록 구성될 수 있다. 예를 들어, 네트워크는 근거리 통신망(LAN), 광역 통신망(WAN) 등일 수 있거나 이를 포함할 수 있다. 네트워크는 예를 들어 게이트웨이 디바이스, 브리지, 스위치 등을 사용하여 구현되는 무선 네트워크 및/또는 무선 네트워크일 수 있거나 이를 포함할 수 있다. 네트워크는 하나 이상의 세그먼트를 포함할 수 있고/있거나 인터넷 프로토콜(IP) 및/또는 독점 프로토콜과 같은 다양한 프로토콜에 기반한 부분들을 가질 수 있다. 네트워크는 인터넷의 적어도 일부를 포함할 수 있다.
일부 구현에서, 컴퓨터(120)의 컴포넌트들 중 하나 이상은 메모리에 저장된 명령어들을 처리하도록 구성된 프로세서일 수 있거나 이를 포함할 수 있다. 예를 들어, 이미지 획득 매니저(130)(및/또는 그 일부) 및 예측 이미지 트레이닝 매니저(140)(및/또는 그 일부는 하나 이상의 기능을 구현하기 위한 프로세스와 관련된 명령어들을 실행하도록 구성된 프로세서 및 메모리의 조합일 수 있다.
일부 구현에서, 메모리(126)는 랜덤 액세스 메모리, 디스크 드라이브 메모리, 플래시 메모리 등과 같은 임의의 유형의 메모리일 수 있다. 일부 구현에서, 메모리(126)는 VR 서버 컴퓨터(120)의 컴포넌트와 연관된 하나 이상의 메모리 컴포넌트(예를 들어, 하나 이상의 RAM 컴포넌트 또는 디스크 드라이브 메모리)로서 구현될 수 있다. 일부 구현에서, 메모리(126)는 데이터베이스 메모리일 수 있다. 일부 구현에서, 메모리(126)는 비-로컬 메모리일 수 있거나 이를 포함할 수 있다. 예를 들어, 메모리(126)는 다수의 디바이스(미도시)에 의해 공유되는 메모리일 수 있거나 이를 포함할 수 있다. 일부 구현에서, 메모리(126)는 네트워크 내의 서버 디바이스(미도시)와 연관될 수 있고, 컴퓨터(120)의 컴포넌트들에 서비스를 제공하도록 구성될 수 있다. 도 1에 도시된 바와 같이, 메모리(126)는 이미지 트레이닝 데이터(131), 기준 객체 데이터(136) 및 예측 엔진 데이터(150)를 포함하는 다양한 데이터를 저장하도록 구성된다.
도 2는 전술한 개선된 기술에 따라 시각적 검색을 수행하는 예시적인 방법(200)을 도시하는 흐름도이다. 방법(200)은 도 1과 관련하여 설명되었으며, 컴퓨터(120)의 메모리(126)에 상주하고 처리 유닛(124)의 세트에 의해 실행되는 소프트웨어 구성에 의해 수행될 수 있다.
202에서, 이미지 획득 매니저(130)는 물리적 환경에서 복수의 인간 얼굴의 복수의 이미지(예를 들어, 이미지 트레이닝 데이터(131))를 수신한다. 복수의 인간의 얼굴 각각은 복수의 배향(예를 들어, 광 방향 데이터(134(1...M)))중 적어도 하나에 따라 물리적 환경 내에서 배향된 복수의 조명 소스들 중 적어도 하나에 의해 조명된다.
204에서, 예측 엔진 트레이닝 매니저(140)는 복수의 사람 얼굴의 복수의 이미지에 기초하여 예측된 조명 프로파일을 생성하도록 구성된 예측 엔진(예를 들어, 예측 엔진 데이터(150))을 생성한다. 예측 엔진은 입력 이미지 데이터에 기초하여 예측된 조명 프로파일을 생성하도록 구성된다. 입력 이미지 데이터는 적어도 하나의 사람 얼굴을 나타낸다. 예측 엔진은 기준 객체(예를 들어, 기준 객체 데이터(136)) 각각에 대응하는 복수의 양방향 반사율 분포 함수(BRDF)에 기초하는 비용 함수(예를 들어, 판별기(144) 및 비용 함수 데이터(154))를 포함한다. 예측 조명 프로파일은 초상화의 피사체에 입사되는 조명의 공간적 분포를 나타낸다. 예측된 조명의 예시적인 표현은 각도의 조명 함수의 구면 조화 확장 계수를 포함한다. 예측된 조명의 다른 예시적인 표현은 각각 입체각의 조명 함수 값을 갖는 픽셀들의 그리드를 포함한다.
도 3은 초상화로부터 조명을 추정하도록 구성된 예시적인 ML 시스템(300)을 예시하는 도면이다. 도 3에 도시된 바와 같이, ML 시스템(300)은 생성기 네트워크(314) 및 보조 대립적 판별기(312)를 포함한다. 생성기 네트워크(314)에 대한 입력은, 얼굴 검출기(304)에 의해 검출되고, 256 x 256의 입력 해상도로 크기가 조정되고, [-0.5, 0.5] 범위로 정규화된 각 이미지의 얼굴 영역의 일부 클립핑된 부분(306)을 갖는 sRGB 인코딩된 LDR 이미지 (예를 들어 LDR 초상화(302))이다. 도 3에 도시된 바와 같이, 생성기 네트워크(314)는 병목 지점에서 크기 1024의 로그 공간 HDR 조명의 레이턴트 벡터(latent vector) 표현을 갖는 인코더(142) 및 디코더(143)를 포함하는 인코더/디코더 아키텍처를 구비한다. 일부 구현에서, 인코더(142) 및 디코더(143)는 컨볼루션 신경망(CNN)으로서 구현된다. 생성기 네트워크(314)의 최종 출력은 로그 공간 전방향 조명을 나타내는 미러 볼의 32 x 32 HDR 이미지를 포함한다. 인코더(142) 및 디코더(143)에 대한 추가적인 세부사항은 도 4와 관련하여 설명된다. 보조 대립적 판별기(312)에 대한 추가 세부사항은 도 5와 관련하여 설명된다.
도 4는 인코더(142) 및 디코더(143)에 대한 예시적인 세부사항을 예시하는 다이어그램이다. 도 4에 도시된 바와 같이, 인코더(142)는 각각 16, 32, 64, 128 및 256의 연속적인 필터 깊이와 함께 블러-풀링 연산이 뒤따르고, 8 x 8의 필터 크기 및 깊이 256을 갖는 하나의 마지막 컨볼루션이 뒤따르는 5개의 3 x 3 컨볼루션및 마지막으로 완전 연결된 레이어를 포함한다. 디코더(143)는 필터 깊이(64, 32, 16)의 3 x 3 컨볼루션의 3개 세트를 포함하고, 각각에는 쌍선형 업샘플링 연산이 뒤따른다.
도 5는 예시적인 보조 대립적 판별기(312)를 예시하는 도면이다. 보조 대립적 판별기(312)는 그럴듯한 고주파 조명의 추정을 시행하는 대립적 손실 항을 제공하도록 구성된다. 도 5에 도시된 바와 같이, 보조 대립적 판별기(312)는 메인 모델로부터 실제 및 예측 조명의 클립핑된 이미지들을 입력으로 취하고 실제 및 생성된 예들간의 판별을 시도한다. 판별기는 3개의 3 x 3 컨볼루션을 포함하는 인코더를 구비하며, 최대 풀링 연산이 뒤따르고, 필터 깊이는 64, 128, 256이며, 그 다음에는 최종 출력 레이어 이전에 크기 1024의 완전 연결 레이어가 뒤따른다. 메인 네트워크의 디코더는 여러 가지 업샘플링 작업을 포함하므로, 네트워크는 다중 스케일에서 암시적으로 정보를 학습한다. 일부 구현은 MSG-GAN의 다중 스케일 그래디언트 기술을 사용하여, 이 다중 스케일 출력을 활용하여 전체 해상도 32x32로 클리핑된 조명 이미지뿐만 아니라 각 스케일(4 x 4, 8 x 8 및 16 x 16)의 조명 이미지의 입력을 판별기에 제공한다. 생성기 네트워크에 의해 생성된 저해상도 특징 맵은 3개 이상의 채널을 갖기 때문에 일부 구현은 각 스케일에서 컨볼루션 연산을 네트워크의 추가 브랜치로서 추가하여 판별기에 공급할 3-채널 조명 이미지의 다중 스케일을 생성한다.
도 3으로 되돌아가서, 생성기 네트워크(314) 및 보조 대립적 판별기(312)는 예측 엔진을 구축하고 실제 및 생성된 조명 추정치를 구별하기 위해 다양한 비용 함수를 사용한다. 일부 구현은 비-제한적인 이미지로부터 HDR 조명
Figure pct00025
을 추정하기 위해 네트워크를 트레이닝하는 데 사용되는 미분 이미지-기반 재조명 렌더링 손실을 설명한다. 이 접근 방식은 여러 BRDF에 대한 실제 구체 이미지
Figure pct00026
와 예측된 조명으로 조명된 대응하는 네트워크 렌더링 구체
Figure pct00027
사이의 재구성 손실을 최소화한다. 일부 구현은 이 기술을 사용하여 다양한 BRDF의 가상 객체들을 렌더링하는 데 유용한 조명을 학습하기 위해 이들 구체 렌더링에 의존하여 초상화들로부터의 역광에 대해 이 모델을 트레이닝 시킨다. 일부 구현은 BRDF 인덱스 k(미러, 매트 실버 또는 확산)의 각 구체에 대해 이미지 기반 재조명 및 사진 반사율 필드 및 방향
Figure pct00028
에 대한 광의 강도로서
Figure pct00029
와 함께 컬러 채널 c를 사용하여 네트워크에서 구체 렌더링
Figure pct00030
Figure pct00031
을 생성한다.
Figure pct00032
일부 구현에서와 같이, 이 네트워크는 유사하게 픽셀 값
Figure pct00033
과 함께 HDR 조명의 로그 공간 이미지
Figure pct00034
를 출력하므로 구체 이미지들은 다음과 같이 렌더링된다.
Figure pct00035
각 구체의 모서리를 마스킹하기 위한 이진 마스크
Figure pct00036
, 각 BRDF에 대한 선택적 가중치로서 감마 인코딩을 위한
Figure pct00037
, 일부 구현에서와 같이 미분 소프트 클리핑 함수
Figure pct00038
, 실제 이미지들
Figure pct00039
을 비교하는 최종 LDR 이미지 재구성 손실 Lrec 네트워크 렌더링된 이미지
Figure pct00040
Figure pct00041
여기서, 이항 연산자
Figure pct00042
는 요소별 곱셈을 나타낸다.
비디오 레이트 데이터 수집에서 캡처된 LDR 구체 이미지를 기준 이미지 Ik로서 사용하기 보다는, 일부 구현은 대신에 선형 솔버(예를 들어, 식 (1)),
Figure pct00043
로 렌더링들을 감마 인코딩으로부터 복구된 HDR 조명으로 구체들을 렌더링한다. 이는 동일한 조명을 사용하여 입력 초상화로서 "실제" 구체들을 렌더링할 수 있게 함으로써 HDR 조명 복구로부터 모델 트레이닝 단계로 잔여 에러가 전파되는 것을 방지해준다.
일부 구현은 최종적으로, 디코더의 다중 스케일 특징 맵을 연속 스케일에서 로그 공간 HDR 조명을 나타내는 3-채널 이미지들로 변환하기 위해 추가의 컨볼루션 브랜치들을 추가한다. 그런 다음, 일부 구현은 일부 구현(식(6))의 렌더링 손실 함수를 다중 스케일 도메인으로 확장하여, 4 x 4, 8 x 8, 16 x 16 및 32 x 32 크기로 트레이닝하는 동안 미러, 매트 실버 및 확산 볼을 렌더링한다. 스케일 인덱스가 s로 표시되고 각각에 대한 선택적 가중치가
Figure pct00044
인 경우, 다중 스케일 이미지 재구성 손실은 다음과 같이 나타낼 수 있다.
Figure pct00045
비-제약 조명 추정에서의 최근 작업은 대립적 손실 항들이 이미지 재구성 손실만을 사용하는 것과 비교하여 고주파수 정보의 복구를 향상시킨다는 것을 보여 주었다. 따라서, 일부 구현은, 일부 구현에서와 같이, 가중치
Figure pct00046
를 갖는대립적 손실 항을 추가한다. 그러나 이 기술과 대조적으로, 일부 구현은 판별기로부터 생성기 네트워크로 다중 스케일로 그래디언트를 흐르게 하는 다중 스케일 GAN 아키텍처를 사용하여 판별기에 실제 및 생성된 클립핑된 미러 볼 이미지들의 서로 다른 크기를 제공한다.
일부 구현들은
Figure pct00047
, 생성기 네트워크에 대해 0.00015의 학습률, 및 일반적으로 생성기와 판별기 사이에서 교번하는 판별기 네트워크에 대해 100x 더 낮음을 갖는 텐서플로우(tensorflow) 및 ADAM 최적화기를 사용한다. 일부 구현들은 미러, 확산 및 매트 실버 BRDF에 대해 각각
Figure pct00048
로 설정하고, 모든 이미지 스케일에 대해 동일하게
Figure pct00049
을 설정하고,
Figure pct00050
로 설정하고, 32의 배치 크기(batch size)를 사용한다. 조명 환경의 수는 피사체들의 수보다 수십 배 더 클 수 있으므로, 1.2 에포치들에서 조기 중지는 일부 구현의 경우에서 트레이닝 세트에서의 피사체들에 과대 적합(over-fitting)되는 것을 방지한다. 일부 구현은 생성기 네트워크에 대해 ReLU 활성화 함수를 사용하고 판별기에 대해 ELU 활성화 함수를 사용한다. 데이터 세트를 증가(augment)시키기 위해, 일부 구현은 세로 축을 가로질러 입력 이미지와 조명 환경 모두를 플립(flip)한다. 일부 구현은 이미지 평면에서 입력 이미지들의 약간의 이미지 회전(+/- 15도)으로 데이터세트를 증가시킨다.
일부 구현들은 70개의 피사체를 2개의 그룹, 즉 트레이닝을 위한 63개 및 평가를 위한 7개로 분할하여 주어진 피사체에 대한 모든 표정들 및 카메라 뷰들이 동일한 서브세트에 속하는 것을 보장한다. 일부 구현들은 다양한 피부 피그멘테이션을 포함하도록 7개의 피사체를 수동으로 선택하는 것을 포함한다. 전체적으로, 100만 개의 조명 환경 각각에 대해 일부 구현들은 (피사체들, 얼굴 표정들 및 카메라 뷰들에 걸친) 트레이닝 세트로부터 재조명할 8개의 OLAT 시퀀스를 무작위로 선택하고 실제 조명을 사용하여 800만 개의 초상화로 구성된 트레이닝 데이터 세트를 생성하는 것을 포함한다. 동일한 방법을 사용하여 일부 구현들은 트레이닝에서 볼 수 없는 실내 및 실외 위치의 조명 환경을 캡처하여 평가에 사용하고, 이들을 평가 피사체들과만 페어링(pairing)한다.
정확히 추정된 조명은 임의의 반사율 속성을 가진 객체들을 올바르게 렌더링해야만하며, 따라서 모델의 성능이 Lrec를 사용하여 테스트된다. 이 메트릭은 실제와 예상 조명으로 렌더링된 3개의 구체(확산, 매트 실버 및 미러)의 모양들을 비교한다.
LDR 이미지 재구성 손실에 대해, 이 모델은 확산 및 매트 실버 볼에 대한 일부 구현을 능가한다. 그러나 일부 구현들은 미러 구체에 대해 이 구현을 능가할 수 있다. 실제 조명의 2차 SH 근사는 확산 볼을 위한 Lrec에 대해 이 모델을 능가일 수 있는데, 이는 램버시안 재료를 렌더링하기 위해서는 조명의 저주파 표현으로 충분하기 때문이다. 그러나 이 구현은 비-램버시안 BRDF를 사용하여 매트 실버와 미러 볼 모두를 위한 Lrec에 대해 2차 SH 분해를 수행할 수 있다. 이는 이 구현에 의해 생성된 조명이 다양한 재료를 렌더링하는 데 더 적합하다는 것을 암시한다.
일부 구현들은 제1 사람 얼굴로부터의 제1 예측 조명 프로파일과 제2 사람 얼굴로부터의 제2 예측 조명 프로파일 간의 차이에 기초하여 피사체에 걸친 일관성 기반 손실 함수(cross-subject-consitency-based loss function)를 추가한다. 이러한 손실 함수는 다양한 피부 피그먼테이션들 및 머리 포즈들에 대한 조명 일관성의 척도를 제공할 수 있다.
도 6은 본 명세서에서 설명된 기술들과 함께 사용될 수 있는 일반적인 컴퓨터 디바이스(600) 및 일반적인 모바일 컴퓨터 디바이스(650)의 예를 도시한다. 컴퓨터 디바이스(600)는 도 1 및 도 2의 컴퓨터(120)의 하나의 예시적인 구성이다.
도 6에 보인 바와 같이, 컴퓨터 시스템(600)은 랩탑, 데스크탑, 워크스테이션, PDA(Personal Digital Assistant), 서버, 블레이드(blade) 서버, 메인프레임, 및 기타 적절한 컴퓨터들과 같은 다양한 형태의 디지털 컴퓨터를 나타내고자 의도된 것이다. 컴퓨팅 디바이스(650)는 PDA, 셀룰라 전화, 스마트폰, 및 기타 유사한 컴퓨팅 디바이스와 같은 다양한 형태의 모바일 디바이스를 나
타내고자 의도된 것이다. 본 명세서에 보인 컴포넌트들, 그들의 연결 및 관계, 및 그들의 기능들은 단지 예시적인 것을 의미하고, 본 명세서에서 설명하거나 또는 청구된 발명의 구현들을 한정하는 것을 의미하지 않는다.
컴퓨팅 디바이스(600)는 프로세서(602), 메모리(604), 저장 디바이스(606), 메모리(604)와 고속 확장 포트(610)에 연결되는 고속 인터페이스(608), 및 저속 버스(614)와 저장 디바이스(606)에 연결되는 저속 인터페이스(612)를 포함한다. 각 컴포넌트(602, 604, 606, 608, 610, 및 612)는 다양한 버스들을 사용하여 서로 연결되고, 공통 마더보드에 탑재되거나 또는 적절한 경우 다른 방식으로 탑재될 수 있다. 프로세서(602)는 컴퓨팅 디바이스(600) 내에서 실행하기 위한 명령어들을 처리할 수 있으며, 이러한 명령어들에는, 고속 인터페이스(608)에 연결된 디스플레이(616)와 같은 외장 입/출력 디바이스 상에서 GUI용 그래픽 정보를 디스플레이하기 위해, 메모리(604) 또는 저장 디바이스(606)에 저장되는 명령어들이 있다. 다른 구현들에서, 다중 프로세서 및/또는 다중 버스는 적절한 경우, 다중 메모리 및 메모리 타입과 함께 사용될 수 있다. 또한, 다중 컴퓨팅 디바이스(600)들이 연결될 수 있으며, 각 디바이스는 (예를 들어, 서버 뱅크, 블레이드 서버의 그룹, 또는 다중 프로세서 시스템으로서) 필요한 동작들의 부분들을 제공한다.
메모리(604)는 컴퓨팅 디바이스(600) 내에 정보를 저장한다. 하나의 구현에서, 메모리(604)는 휘발성 메모리 유닛 또는 유닛들이다. 다른 구현에서, 메모리(604)는 비휘발성 메모리 유닛 또는 유닛들이다. 또한, 메모리(604)는 마그네틱 또는 광 디스크와 같은 다른 형태의 컴퓨터 판독가능 매체일 수 있다.
저장 디바이스(606)는 컴퓨팅 디바이스(600)를 위한 대용량 저장소(mass storage)를 제공할 수 있다. 하나의 구현에서, 저장 디바이스(606)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래쉬 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성에 존재하는 디바이스를 포함하는 디바이스 어레이일 수 있다. 컴퓨터 프로그램 제품은 정보 캐리어 (information carrier) 내에 유형적으로 수록될 수 있다. 또한, 컴퓨터 프로그램 제품은 실행될 때, 상술한 것과 같은 하나 이상의 방법을 수행하는 명령어를 포함할 수 있다. 정보 캐리어는 메모리(604), 저장 디바이스(606), 또는 프로세서(602) 상의 메모리와 같은 컴퓨터 또는 머신 판독가능 매체이다.
저속 제어기(612)가 저대역-집약적 동작(lower bandwidth-intensive operations)을 관리하는 반면, 고속 제어기(608)는 컴퓨팅 디바이스(600)에 대한 대역-집약적 동작을 관리한다. 이러한 기능들의 배치는 단지 예시적인 것이다. 일 구현에서, 고속 제어기(608)는 메모리(604), 디스플레이(616)(예를 들어, 그래픽 프로세서 또는 가속기를 통함)에 연결되고, 다양한 확장 카드(도시되지 않음)을 수용할 수 있는 고속 확장 포트(610)에 연결된다. 일부 구현들에서, 저속 제어기(612)는 저장 디바이스(606) 및 저속 확장 포트(614)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입/출력 디바이스들에 연결되거나, 또는 예컨대 네트워크 어댑터를 통하여, 스위치나 라우터와 같은 네트워킹 디바이스에 연결될 수 있다.
컴퓨팅 디바이스(600)는 도면에 도시된 바와 같이, 복수의 서로 다른 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(600)는 표준 서버(1420)로 구현되거나 이러한 서버들의 그룹에서 여러 번 구현될 수 있다. 또한, 컴퓨팅 디바이스(600)는 랙 서버 시스템(1424)의 부분으로서 구현될 수 있다. 이에 더하여, 컴퓨팅 디바이스(600)는 랩탑 컴퓨터(622)와 같은 개인용 컴퓨터내에 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(600)로부터의 컴포넌트는 디바이스(650)와 같은 모바일 디바이스(도시되지 않음)내 다른 컴포넌트와 조합될 수 있다. 이러한 디바이스 각각은 하나 이상의 컴퓨팅 디바이스(600, 650)를 포함하고, 전체 시스템은 서로 통신하는 다중 컴퓨팅 디바이스(600, 650)로 구성될 수 있다.
본 명세서에 기재된 시스템의 다양한 구현과 기술들은 디지털 전자 회로, 집적 회로, 특별하게 설계된 ASIC, 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 그것의 조합물로 실현될 수 있다. 이러한 다양한 구현은 하나 이상의 컴퓨터 프로그램으로 된 구현를 포함하며, 이 컴퓨터 프로그램은 적어도 하나의 프로그램 가능한 프로세서를 포함하는 프로그램 가능한 시스템에서 실행가능하고 및/또는 해석가능하다. 또한, 전용 또는 범용 프로세서일 수 있는 이 프로그램 가능한 프로세서는 데이터와 명령어를 송수신하기 위해, 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스에 연결된다.
이들 컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로 알려짐)은 프로그램 가능 한 프로세서를 위한 머신 명령어를 포함하고, 고-레벨 절차 및/또는 객체 지향 프로그램 언어(object-oriented programming language) 및/또는 어셈블리/머신 언어로 구현될 수 있다. 본 명세서에서 사용되는 용어 "머신 판독가능 매체(machine-readable medium)"와 "컴퓨터 판독가능 매체(computer-readable medium)"는 머신 명령어 및/또는 데이터를 프로그램 가능한 프로세서에 제공하기 위해 이용되는 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, 마그네틱 디스크, 광학 디스크, 메모리, PLDs(Programmable Logic Devices))를 가리키며, 머신 판독가능 신호와 같은 머신 명령어를 수신하는 머신 판독가능 매체를 포함한다. 용어 "머신 판독가능 신호(machine-readable signal)"는 머신 명령어 및/또는 데이터를 프로그램 가능한 프로세서에 제공하기 위해 사용되는 임의의 신호를 가리킨다.
사용자와의 상호작용을 제공하기 위하여, 본 명세서에 기술된 시스템과 기술들은 정보를 사용자에게 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD 모니터)와 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비한 컴퓨터 상에서 구현될 수 있다. 사용자와의 상호작용을 제공하기 위하여 다른 종류의 디바이스가 또한 사용될 수 있다; 예를 들어, 사용자에게 제공되는 피드백(feedback)은 임의의 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 사용자로부터의 입력은 음향(acoustic), 음성(speech) 또는 촉각(tactile) 입력을 포함하는 임의의 형태로 수신될 수 있다.
본 명세서에서 설명한 시스템과 기술은, 백 엔드(back end) 컴포넌트(예를 들어, 데이터 서버와 같은), 또는 미들웨어 컴포넌트(예를 들어, 애플리케이션 서버), 또는 프론트 엔드(front end) 컴포넌트(예를 들어, 본 명세서에서 설명된 시스템 및 기술의 구현와 사용자가 상호작용할 수 있는 그래픽 사용자 인터페이스 또는 웹브라우저를 구비한 클라이언트 컴퓨터), 또는 이러한 백 엔드, 미들웨어, 또는 프론트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템으로 구현될 수 있다. 시스템의 컴포넌트는 디지털 데이터 통신의 임의의 형태 또는 매체(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예로서, 근거리 네트워크 ("LAN"), 광역 네트워크("WAN"), 및 인터넷이 있다.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 보통 서로 떨어져 있으며, 일반적으로는 통신 네트워크를 통하여 상호작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터 상에서 실행되고 상호 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의하여 일어난다.
다수의 구현들이 설명되었다. 그럼에도 불구하고, 본 명세서의 사상 및 범위를 벗어나지 않으면서 다양한 변형이 이루어질 수 있음이 이해될 것이다.
또한, 한 요소가 다른 요소에 연결되거나, 결합되거나, 전기적으로 연결되거나, 전기적으로 결합되는 것으로 언급될 때 다른 요소에 바로 있거나, 다른 요소에 직접 연결되거나 결합될 수 있음을 이해해야 한다. 또는 하나 이상의 중간 요소가 존재할 수 있다. 대조적으로, 한 요소가 다른 요소에 바로 있거나 다른 요소에 직접 연결되거나 결합되어 있다고 언급되는 경우에는 중간 요소가 존재하지 않는다. 상세한 설명 전체에서 직접적으로 연결되거나 직접 결합된다는 용어는 사용되지 않을 수 있지만, 바로 있거나, 직접 연결 또는 직접 결합된 컴포넌트는 그렇게 지칭될 수 있다. 본 출원의 청구범위는 명세서에 기술되거나 도면에 도시된 예시적인 관계를 인용하도록 수정될 수 있다.
설명된 구현들의 일부 특징들이 본 명세서에 설명된 바와 같이 예시되었지만, 이제 많은 수정, 대체, 변경 및 균등물이 당업자에게서 일어날 수 있을 것이다. 따라서, 첨부된 청구범위는 구현의 범위 내에 속하는 모든 그러한 수정 및 변경을 포함하도록 의도된 것으로 이해되어야 한다. 이들은 제한이 아니라 예시로서 제시되었으며, 형태 및 세부사항에서 다양한 변경이 이루어질 수 있음을 이해해야 한다. 여기에 설명된 장치 및/또는 방법의 모든 부분은 상호 배타적인 조합을 제외하고는 임의의 조합으로 결합될 수 있다. 여기에 설명된 구현은 설명된 다른 구현의 기능, 컴포넌트 및/또는 특징의 다양한 조합 및/또는 서브 조합을 포함할 수 있다.
또한, 도면에 도시된 논리 흐름은 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차적인 순서를 필요로 하지 않는다. 또한, 설명된 흐름에서 다른 단계들이 제공되거나 제거될 수 있으며, 설명된 시스템에 다른 컴포넌트들이 추가되거나 제거될 수 있다. 따라서, 다른 구현들은 다음 청구항의 범위 내에 있다.
다음에서는 일부 예들을 기술한다.
예 1:
복수의 이미지를 나타내는 이미지 트레이닝 데이터를 수신하는 단계와, 상기 복수의 이미지 각각은 복수의 인간 얼굴들 중 적어도 하나를 포함하고, 상기 복수의 인간 얼굴 각각은 물리적 또는 가상 환경에서 복수의 조명 소스들 중 적어도 하나에 의해 조명되는 하나 이상의 얼굴의 이미지들을 결합함으로써 형성되고, 상기 복수의 조명 소스들 각각은 상기 물리적 또는 가상 환경 내에서 복수의 배향들(orientations) 각각의 배향에 위치되며; 그리고
상기 복수의 이미지에 기초하여 예측 엔진을 생성하는 단계를 포함하며, 상기 예측 엔진은 입력 이미지 데이터로부터 예측 조명 프로파일을 생성하도록 구성되며, 상기 입력 이미지 데이터는 하나의 입력 인간 얼굴을 나타내는, 방법.
예 2:
예 1에 있어서,
상기 복수의 인간 얼굴들 각각이 높은 동적 범위(high dynamic range: HDR) 조명 환경에 의해 조명된 것처럼 보이도록 합성 렌더링(synthetically rendering)하기 위해 상기 복수의 조명 소스들 중 적어도 하나에 의해 조명된 하나 이상의 인간 얼굴의 이미지들을 결합하는 단계를 더 포함하는, 방법.
예 3:
예 2에 있어서,
상기 이미지들을 결합하는 단계는 기준 객체들 세트의 낮은 동적 범위(low dynamic range: LDR) 이미지들에 기초하여 상기 HDR 조명 환경을 생성하는 단계를 포함하고, 상기 기준 객체들 세트 각각은 각각의 양방향 반사율 분포 함수(bidirectional reflectance distribution function: BRDF)를 갖는, 방법.
예 4:
예 3에 있어서,
상기 기준 객체들 세트는 미러 볼, 매트(matte) 실버 볼, 및 그레이 확산 볼을 포함하는, 방법.
예 5:
예 1에 있어서,
상기 예측 엔진을 생성하는 단계는,
기준 객체들 세트의 렌더링된 이미지를 생성하기 위해 상기 예측 조명 프로파일을 사용하여 상기 기준 객체들 세트의 미분 렌더링(differential rendering)을 수행하는 단계와, 상기 기준 객체들 세트 각각은 각각의 양방향 반사율 분포 함수(BRDF)를 가지며; 그리고
예측 엔진의 비용 함수로서, 상기 기준 객체들 세트의 렌더링된 이미지와 상기 기준 객체들 세트의 그라운드 트루스 이미지(ground truth image) 사이의 차이를 생성하는 단계를 포함하는, 방법.
예 6:
예 5에 있어서,
상기 비용 함수는 상기 기준 객체들 세트의 렌더링된 이미지에 대한 BRDF-가중 LI 손실(BRDF-weighted L1 loss)을 포함하는, 방법.
예 7:
예 5에 있어서,
상기 비용 함수는 제1 비용 함수이고,
상기 예측 엔진은 제2 비용 함수를 포함하고, 상기 제2 비용 함수는 미러 볼로부터의 고주파수 정반사들(high frequency specular reflections)에 기초한 대립적 손실 함수(adversarial loss function)인, 방법.
예 8:
예 5에 있어서,
상기 미분 렌더링은 HDR 조명 이미지를 생성하기 위해 이미지 기반 재조명(image-based relighting:IBRL)을 사용하여 수행되는, 방법.
예 9:
예 5에 있어서,
상기 비용 함수는 제1 비용 함수이고,
상기 예측 엔진은 제2 비용 함수를 포함하고, 상기 제2 비용 함수는 제1 인간 얼굴로부터의 제1 예측 조명 프로파일과 제2 인간 얼굴로부터의 제2 예측 조명 프로파일간의 차이에 기초한 피사체에 걸친 일관성 기반 손실 함수(cross-subject-consistency-based loss function)인, 방법.
예 10
예 1에 있어서,
상기 예측 엔진을 생성하는 단계는 상기 예측 엔진의 생성 동안 얼굴 특징점(facial keypoints)을 식별하는 얼굴 특징점 식별자를 생성하기 위해 이미지 트레이닝 데이터에 대해 얼굴 특징점 검출 동작을 수행하는 단계를 포함하는, 방법.
예 11
예 1에 있어서,
상기 예측 엔진을 생성하는 단계는 복수의 사람 얼굴 중 한 사람 얼굴 이미지의 각 픽셀을 공통 UV 공간에 투영하는 단계를 포함하는, 방법.
예 12
예 1에 있어서,
상기 복수의 이미지 각각은 감마 인코딩되는, 방법.
예 13
비-일시적 저장 매체를 포함하는 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 제품은 서버 컴퓨팅 장치의 처리 회로에 의해 실행될 때 상기 처리 회로로 하여금 방법을 수행하게 하는 코드를 포함하고, 상기 방법은,
복수의 이미지를 나타내는 이미지 트레이닝 데이터를 수신하는 단계와, 상기 복수의 이미지 각각은 복수의 인간 얼굴들 중 적어도 하나를 포함하고, 상기 복수의 인간 얼굴 각각은 물리적 또는 가상 환경에서 복수의 조명 소스들 중 적어도 하나에 의해 조명되는 하나 이상의 얼굴의 이미지들을 결합함으로써 형성되고, 상기 복수의 조명 소스들 각각은 상기 물리적 또는 가상 환경 내에서 복수의 배향들(orientations) 각각의 배향에 위치되며; 그리고
상기 복수의 이미지에 기초하여 예측 엔진을 생성하는 단계를 포함하며, 상기 예측 엔진은 입력 이미지 데이터로부터 예측 조명 프로파일을 생성하도록 구성되며, 상기 입력 이미지 데이터는 하나의 입력 인간 얼굴을 나타내는, 컴퓨터 프로그램 제품.
예 14
예 13에 있어서,
상기 예측 엔진을 생성하는 단계는 상기 복수의 인간 얼굴들 각각이 높은 동적 범위(high dynamic range: HDR) 조명 환경에 의해 조명된 것처럼 보이도록 합성 렌더링(synthetically rendering)하기 위해 상기 복수의 조명 소스들 중 적어도 하나에 의해 조명된 하나 이상의 인간 얼굴의 이미지들을 결합하는 단계를 포함하는, 컴퓨터 프로그램 제품.
예 15
예 14에 있어서,
상기 이미지들을 결합하는 단계는 기준 객체들 세트의 낮은 동적 범위(low dynamic range: LDR) 이미지들에 기초하여 상기 HDR 조명 환경을 생성하는 단계를 포함하고, 상기 기준 객체들 세트 각각은 각각의 양방향 반사율 분포 함수(bidirectional reflectance distribution function: BRDF)를 갖는, 컴퓨터 프로그램 제품.
예 16
예 15에 있어서,
상기 기준 객체들 세트는 미러 볼, 매트(matte) 실버 볼, 및 그레이 확산 볼을 포함하는, 컴퓨터 프로그램 제품.
예 17
예 13에 있어서,
상기 예측 엔진을 생성하는 단계는,
기준 객체들 세트의 렌더링된 이미지를 생성하기 위해 상기 예측 조명 프로파일을 사용하여 상기 기준 객체들 세트의 미분 렌더링(differential rendering)을 수행하는 단계와, 상기 기준 객체들 세트 각각은 각각의 양방향 반사율 분포 함수(BRDF)를 가지며; 그리고
예측 엔진의 비용 함수로서, 상기 기준 객체들 세트의 렌더링된 이미지와 상기 기준 객체들 세트의 그라운드 트루스 이미지(ground truth image) 사이의 차이를 생성하는 단계를 포함하는, 컴퓨터 프로그램 제품.
예 18
예 14에 있어서,
상기 비용 함수는 상기 기준 객체들 세트의 렌더링된 이미지에 대한 BRDF-가중 LI 손실(BRDF-weighted L1 loss)을 포함하는, 컴퓨터 프로그램 제품.
예 19
예 17에 있어서,
상기 미분 렌더링은 HDR 조명 이미지를 생성하기 위해 이미지 기반 재조명(image-based relighting:IBRL)을 사용하여 수행되는, 컴퓨터 프로그램 제품.
예 20
메모리 및 상기 메모리에 결합된 제어 회로를 포함하는 전자 장치로서,
상기 제어 회로는,
복수의 이미지를 나타내는 이미지 트레이닝 데이터를 수신하도록 구성되고, 상기 복수의 이미지 각각은 복수의 인간 얼굴들 중 적어도 하나를 포함하고, 상기 복수의 인간 얼굴 각각은 물리적 또는 가상 환경에서 복수의 조명 소스들 중 적어도 하나에 의해 조명되는 하나 이상의 얼굴의 이미지들을 결합함으로써 형성되고, 상기 복수의 조명 소스들 각각은 상기 물리적 또는 가상 환경 내에서 복수의 배향들(orientations) 각각의 배향에 위치되며; 그리고
상기 복수의 이미지에 기초하여 예측 엔진을 생성하도록 구성되며, 상기 예측 엔진은 입력 이미지 데이터로부터 예측 조명 프로파일을 생성하도록 구성되며, 상기 입력 이미지 데이터는 하나의 입력 인간 얼굴을 나타내는, 전자 장치.
302: LDR 초상화 304: 얼굴 검출
306: 일부 클립핑된 초상화 308: 예측 HDR 조명
310: 기준 구체들 310(1): 미러볼
310(2): 매트 실버볼 310(3): 확산 그레이 볼
312: 보조 대립적 판별기 314: 발생기 네트워크
142: 인코더 143: 디코더

Claims (20)

  1. 복수의 이미지를 나타내는 이미지 트레이닝 데이터를 수신하는 단계 -상기 복수의 이미지 각각은 복수의 인간 얼굴 중 적어도 하나를 포함하고, 상기 복수의 인간 얼굴 각각은 물리적 또는 가상 환경에서 복수의 조명 소스 중 적어도 하나에 의해 조명되는 하나 이상의 얼굴의 이미지들을 결합함으로써 형성되고, 상기 복수의 조명 소스 각각은 상기 물리적 또는 가상 환경 내에서 복수의 배향들(orientations)의 각각의 배향에 위치됨-; 그리고
    상기 복수의 이미지에 기초하여 예측 엔진을 생성하는 단계를 포함하며, 상기 예측 엔진은 입력 이미지 데이터로부터 예측 조명 프로파일을 생성하도록 구성되며, 상기 입력 이미지 데이터는 하나의 입력 인간 얼굴을 나타내는, 방법.
  2. 제1항에 있어서, 상기 방법은,
    상기 복수의 인간 얼굴 각각이 높은 동적 범위(high dynamic range: HDR) 조명 환경에 의해 조명된 것처럼 보이도록 합성 렌더링(synthetically rendering)하기 위해 상기 복수의 조명 소스 중 적어도 하나에 의해 조명된 하나 이상의 인간 얼굴의 이미지들을 결합하는 단계를 더 포함하는, 방법.
  3. 제2항에 있어서,
    상기 이미지들을 결합하는 단계는,
    기준 객체들 세트의 낮은 동적 범위(low dynamic range: LDR) 이미지들에 기초하여 상기 HDR 조명 환경을 생성하는 단계를 포함하고, 상기 기준 객체들 세트 각각은 각각의 양방향 반사율 분포 함수(bidirectional reflectance distribution function: BRDF)를 갖는, 방법.
  4. 제3항에 있어서,
    상기 기준 객체들 세트는 미러 볼, 매트(matte) 실버 볼, 및 그레이 확산 볼을 포함하는, 방법.
  5. 제1항에 있어서, 상기 예측 엔진을 생성하는 단계는,
    기준 객체들 세트의 렌더링된 이미지를 생성하기 위해 상기 예측 조명 프로파일을 사용하여 상기 기준 객체들 세트의 미분 렌더링(differential rendering)을 수행하는 단계 -상기 기준 객체들 세트 각각은 각각의 양방향 반사율 분포 함수(BRDF)를 가짐-; 그리고
    예측 엔진의 비용 함수로서, 상기 기준 객체들 세트의 렌더링된 이미지와 상기 기준 객체들 세트의 그라운드 트루스 이미지(ground truth image) 사이의 차이를 생성하는 단계를 포함하는, 방법.
  6. 제5항에 있어서,
    상기 비용 함수는 상기 기준 객체들 세트의 렌더링된 이미지에 대한 BRDF-가중 LI 손실(BRDF-weighted L1 loss)을 포함하는, 방법.
  7. 제5항에 있어서, 상기 비용 함수는 제1 비용 함수이고,
    상기 예측 엔진은 제2 비용 함수를 포함하고, 상기 제2 비용 함수는 미러 볼로부터의 고주파수 정반사들(high frequency specular reflections)에 기초한 대립적 손실 함수(adversarial loss function)인, 방법.
  8. 제5항에 있어서, 상기 미분 렌더링은 HDR 조명 이미지를 생성하기 위해 이미지 기반 재조명(image-based relighting:IBRL)을 사용하여 수행되는, 방법.
  9. 제5항에 있어서, 상기 비용 함수는 제1 비용 함수이고,
    상기 예측 엔진은 제2 비용 함수를 포함하고, 상기 제2 비용 함수는 제1 인간 얼굴로부터의 제1 예측 조명 프로파일과 제2 인간 얼굴로부터의 제2 예측 조명 프로파일간의 차이에 기초한 피사체에 걸친 일관성 기반 손실 함수(cross-subject-consistency-based loss function)인, 방법.
  10. 제1항에 있어서, 상기 예측 엔진을 생성하는 단계는,
    상기 예측 엔진의 생성 동안 얼굴 특징점(facial keypoints)을 식별하는 얼굴 특징점 식별자를 생성하기 위해 이미지 트레이닝 데이터에 대해 얼굴 특징점 검출 동작을 수행하는 단계를 포함하는, 방법.
  11. 제1항에 있어서, 상기 예측 엔진을 생성하는 단계는 복수의 인간 얼굴 중 한 인간 얼굴의 이미지의 각 픽셀을 공통 UV 공간에 투영하는 단계를 포함하는, 방법.
  12. 제1항에 있어서,
    상기 복수의 이미지 각각은 감마 인코딩되는, 방법.
  13. 비-일시적 저장 매체를 포함하는 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 제품은 서버 컴퓨팅 장치의 처리 회로에 의해 실행될 때 상기 처리 회로로 하여금 방법을 수행하게 하는 코드를 포함하고, 상기 방법은,
    복수의 이미지를 나타내는 이미지 트레이닝 데이터를 수신하는 단계 -상기 복수의 이미지 각각은 복수의 인간 얼굴 중 적어도 하나를 포함하고, 상기 복수의 인간 얼굴 각각은 물리적 또는 가상 환경에서 복수의 조명 소스 중 적어도 하나에 의해 조명되는 하나 이상의 얼굴의 이미지들을 결합함으로써 형성되고, 상기 복수의 조명 소스 각각은 상기 물리적 또는 가상 환경 내에서 복수의 배향들(orientations)의 각각의 배향에 위치됨-; 그리고
    상기 복수의 이미지에 기초하여 예측 엔진을 생성하는 단계를 포함하며, 상기 예측 엔진은 입력 이미지 데이터로부터 예측 조명 프로파일을 생성하도록 구성되며, 상기 입력 이미지 데이터는 하나의 입력 인간 얼굴을 나타내는, 컴퓨터 프로그램 제품.
  14. 제13항에 있어서, 상기 예측 엔진을 생성하는 단계는 상기 복수의 인간 얼굴 각각이 높은 동적 범위(high dynamic range: HDR) 조명 환경에 의해 조명된 것처럼 보이도록 합성 렌더링(synthetically rendering)하기 위해 상기 복수의 조명 소스 중 적어도 하나에 의해 조명된 하나 이상의 인간 얼굴의 이미지들을 결합하는 단계를 포함하는, 컴퓨터 프로그램 제품.
  15. 제14항에 있어서,
    상기 이미지들을 결합하는 단계는 기준 객체들 세트의 낮은 동적 범위(low dynamic range: LDR) 이미지들에 기초하여 상기 HDR 조명 환경을 생성하는 단계를 포함하고, 상기 기준 객체들 세트 각각은 각각의 양방향 반사율 분포 함수(bidirectional reflectance distribution function: BRDF)를 갖는, 컴퓨터 프로그램 제품.
  16. 제15항에 있어서,
    상기 기준 객체들 세트는 미러 볼, 매트(matte) 실버 볼, 및 그레이 확산 볼을 포함하는, 컴퓨터 프로그램 제품.
  17. 제13항에 있어서,
    상기 예측 엔진을 생성하는 단계는,
    기준 객체들 세트의 렌더링된 이미지를 생성하기 위해 상기 예측 조명 프로파일을 사용하여 상기 기준 객체들 세트의 미분 렌더링(differential rendering)을 수행하는 단계 -상기 기준 객체들 세트 각각은 각각의 양방향 반사율 분포 함수(BRDF)를 가짐-; 그리고
    예측 엔진의 비용 함수로서, 상기 기준 객체들 세트의 렌더링된 이미지와 상기 기준 객체들 세트의 그라운드 트루스 이미지(ground truth image) 사이의 차이를 생성하는 단계를 포함하는, 컴퓨터 프로그램 제품.
  18. 제17항에 있어서,
    상기 비용 함수는 상기 기준 객체들 세트의 렌더링된 이미지에 대한 BRDF-가중 LI 손실(BRDF-weighted L1 loss)을 포함하는, 컴퓨터 프로그램 제품.
  19. 제17항에 있어서,
    상기 미분 렌더링은 HDR 조명 이미지를 생성하기 위해 이미지 기반 재조명(image-based relighting:IBRL)을 사용하여 수행되는, 컴퓨터 프로그램 제품.
  20. 전자 장치로서,
    메모리; 그리고
    상기 메모리에 결합된 제어 회로를 포함하며,
    상기 제어 회로는,
    복수의 이미지를 나타내는 이미지 트레이닝 데이터를 수신하도록 구성되고 -상기 복수의 이미지 각각은 복수의 인간 얼굴 중 적어도 하나를 포함하고, 상기 복수의 인간 얼굴 각각은 물리적 또는 가상 환경에서 복수의 조명 소스 중 적어도 하나에 의해 조명되는 하나 이상의 얼굴의 이미지들을 결합함으로써 형성되고, 상기 복수의 조명 소스 각각은 상기 물리적 또는 가상 환경 내에서 복수의 배향들(orientations)의 각각의 배향에 위치됨-; 그리고
    상기 복수의 이미지에 기초하여 예측 엔진을 생성하도록 구성되며, 상기 예측 엔진은 입력 이미지 데이터로부터 예측 조명 프로파일을 생성하도록 구성되며, 상기 입력 이미지 데이터는 하나의 입력 인간 얼굴을 나타내는, 전자 장치.
KR1020227025292A 2020-05-20 2020-09-21 다양한 초상화들로부터 학습 조명 KR20220117324A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062704657P 2020-05-20 2020-05-20
US62/704,657 2020-05-20
PCT/US2020/070558 WO2021236175A1 (en) 2020-05-20 2020-09-21 Learning illumination from diverse portraits

Publications (1)

Publication Number Publication Date
KR20220117324A true KR20220117324A (ko) 2022-08-23

Family

ID=72752560

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227025292A KR20220117324A (ko) 2020-05-20 2020-09-21 다양한 초상화들로부터 학습 조명

Country Status (6)

Country Link
US (1) US20220027659A1 (ko)
EP (1) EP3939011A1 (ko)
JP (1) JP2023521270A (ko)
KR (1) KR20220117324A (ko)
CN (1) CN114846521A (ko)
WO (1) WO2021236175A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020102771A1 (en) * 2018-11-15 2020-05-22 Google Llc Deep light design
CN112132832B (zh) * 2020-08-21 2021-09-28 苏州浪潮智能科技有限公司 一种增强图像实例分割的方法、系统、设备及介质
US20220108434A1 (en) * 2020-10-07 2022-04-07 National Technology & Engineering Solutions Of Sandia, Llc Deep learning for defect detection in high-reliability components
US11908233B2 (en) * 2020-11-02 2024-02-20 Pinscreen, Inc. Normalization of facial images using deep neural networks
CN115294263B (zh) * 2022-10-08 2023-02-03 武汉大学 一种光照估计方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417824B2 (en) * 2014-03-25 2019-09-17 Apple Inc. Method and system for representing a virtual object in a view of a real environment
US9860453B2 (en) * 2014-11-26 2018-01-02 Disney Enterprises, Inc. Systems and methods for estimating sky light probes for outdoor images
US10430978B2 (en) * 2017-03-02 2019-10-01 Adobe Inc. Editing digital images utilizing a neural network with an in-network rendering layer
US10609286B2 (en) * 2017-06-13 2020-03-31 Adobe Inc. Extrapolating lighting conditions from a single digital image
CN109427080A (zh) * 2017-08-31 2019-03-05 爱唯秀股份有限公司 快速生成大量复杂光源人脸图像的方法
WO2019171124A1 (en) * 2018-03-06 2019-09-12 Omron Corporation Method, device, system and program for setting lighting condition and storage medium
US10692276B2 (en) * 2018-05-03 2020-06-23 Adobe Inc. Utilizing an object relighting neural network to generate digital images illuminated from a target lighting direction
WO2020036782A2 (en) * 2018-08-10 2020-02-20 University Of Connecticut Methods and systems for object recognition in low illumination conditions
US10936909B2 (en) * 2018-11-12 2021-03-02 Adobe Inc. Learning to estimate high-dynamic range outdoor lighting parameters
CN111541840B (zh) * 2019-02-06 2022-03-22 佳能株式会社 确定照明效果候选的信息处理设备、方法及存储介质
JP7292905B2 (ja) * 2019-03-06 2023-06-19 キヤノン株式会社 画像処理装置及び画像処理方法、及び撮像装置
US11538216B2 (en) * 2019-09-03 2022-12-27 Adobe Inc. Dynamically estimating light-source-specific parameters for digital images using a neural network
CN110765923A (zh) * 2019-10-18 2020-02-07 腾讯科技(深圳)有限公司 一种人脸活体检测方法、装置、设备及存储介质
KR20210126934A (ko) * 2020-04-13 2021-10-21 삼성전자주식회사 광원 정보를 출력하는 방법 및 장치
KR102441171B1 (ko) * 2020-05-26 2022-09-08 한국전자통신연구원 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법
US11330196B2 (en) * 2020-10-12 2022-05-10 Microsoft Technology Licensing, Llc Estimating illumination in an environment based on an image of a reference object
CN112529097B (zh) * 2020-12-23 2024-03-26 北京百度网讯科技有限公司 样本图像生成方法、装置以及电子设备
US20220207819A1 (en) * 2020-12-31 2022-06-30 Snap Inc. Light estimation using neural networks

Also Published As

Publication number Publication date
CN114846521A (zh) 2022-08-02
US20220027659A1 (en) 2022-01-27
EP3939011A1 (en) 2022-01-19
WO2021236175A1 (en) 2021-11-25
JP2023521270A (ja) 2023-05-24

Similar Documents

Publication Publication Date Title
LeGendre et al. Deeplight: Learning illumination for unconstrained mobile mixed reality
Pandey et al. Total relighting: learning to relight portraits for background replacement.
Song et al. Neural illumination: Lighting prediction for indoor environments
US10979640B2 (en) Estimating HDR lighting conditions from a single LDR digital image
AU2018292610B2 (en) Method and system for performing simultaneous localization and mapping using convolutional image transformation
CN110910486B (zh) 室内场景光照估计模型、方法、装置、存储介质以及渲染方法
KR20220117324A (ko) 다양한 초상화들로부터 학습 조명
CN110148204B (zh) 用于在真实环境的视图中表示虚拟对象的方法和系统
Kán et al. Deeplight: light source estimation for augmented reality using deep learning
Calian et al. From faces to outdoor light probes
CN113688907B (zh) 模型训练、视频处理方法,装置,设备以及存储介质
Lalonde Deep learning for augmented reality
US20230368459A1 (en) Systems and methods for rendering virtual objects using editable light-source parameter estimation
CN116740261A (zh) 图像重建方法和装置、图像重建模型的训练方法和装置
WO2021151380A1 (en) Method for rendering virtual object based on illumination estimation, method for training neural network, and related products
Song et al. Real-time shadow-aware portrait relighting in virtual backgrounds for realistic telepresence
Boss et al. Single image brdf parameter estimation with a conditional adversarial network
Cheng et al. Fast and accurate illumination estimation using LDR panoramic images for realistic rendering
WO2020082626A1 (zh) 一种移动设备上的实时人脸三维重建系统及方法
Yuan et al. Illumination consistency based on single low dynamic range images
US20230289930A1 (en) Systems and Methods for Lightweight Machine Learning for Image Illumination Control
WO2022231582A1 (en) Photo relighting and background replacement based on machine learning models
Jiddi et al. Photometric Registration using Specular Reflections and Application to Augmented Reality
Jiddi Photometric registration of indoor real scenes using an RGB-D camera with application to mixed reality
Raut et al. LiteAR: A Framework to Estimate Lighting for Mixed Reality Sessions for Enhanced Realism

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal