KR20240053555A

KR20240053555A - 디지털 이미지 데이터를 처리하기 위한 방법 및 장치

Info

Publication number: KR20240053555A
Application number: KR1020230138403A
Authority: KR
Inventors: 위멍 리; 안나 코레바; 단 장
Original assignee: 로베르트 보쉬 게엠베하
Priority date: 2022-10-17
Filing date: 2023-10-17
Publication date: 2024-04-24
Also published as: CN117911236A; US20240135515A1; JP2024059101A; EP4358015A1

Abstract

디지털 이미지 데이터를 처리하는 방법, 예를 들어 컴퓨터에 의해 구현되는 방법은 제1 디지털 이미지를 생성적 적대 네트워크(GAN) 시스템의 생성기에 연관된 확장된 잠재 공간에 매핑하도록 구성된 인코더에 의해, 제1 디지털 이미지에 연관된 잡음 예측을 결정하는 단계; GAN 시스템의 생성기에 의해, 제1 디지털 이미지에 연관된 잡음 예측, 및 확장된 잠재 공간에 연관된 복수의 잠재 변수에 기초하여 적어도 하나의 추가 디지털 이미지를 결정하는 단계를 포함한다.

Description

디지털 이미지 데이터를 처리하기 위한 방법 및 장치{METHOD OF AND APPARATUS FOR PROCESSING DIGITAL IMAGE DATA}

본 개시내용은 디지털 이미지 데이터를 처리하는 방법에 관한 것이다.

본 개시내용은 또한 디지털 이미지 데이터를 처리하기 위한 장치에 관한 것이다.

생성적 적대 네트워크들(generative adversarial networks)(GAN)이 공지되어 있으며, 예를 들어 이미지 데이터를 생성하기 위해 사용될 수 있는 생성적 모델링의 접근법을 특징화한다.

예시적인 실시예들은 디지털 이미지 데이터를 처리하는 방법, 예를 들어 컴퓨터에 의해 구현되는 방법으로서, 제1 디지털 이미지를 생성적 적대 네트워크(GAN) 시스템의 생성기에 연관된 확장된 잠재 공간(extended latent space)에 매핑하도록 구성된 인코더에 의해, 제1 디지털 이미지에 연관된 잡음 예측(noise prediction)을 결정하는 단계; GAN 시스템의 생성기에 의해, 제1 디지털 이미지에 연관된 잡음 예측 및 확장된 잠재 공간에 연관된 복수의 잠재 변수에 기초하여 적어도 하나의 추가 디지털 이미지를 결정하는 단계를 포함하는 방법에 관한 것이다. 일부 예시적인 실시예들에서, 이는 제1 디지털 이미지와 유사하거나 동일한 콘텐츠를 포함하지만, 임의적으로(optionally), 예를 들어 복수의 잠재 변수의 적어도 일부에 의해 특징화되는 수정된 스타일(modified style)을 갖는 추가 디지털 이미지들을 결정, 예를 들어 생성하는 것을 가능하게 할 수 있다.

일부 예시적인 실시예들에서, 디지털 이미지 데이터 및/또는 (제1) 디지털 이미지는 a) 적어도 하나의 디지털 이미지, b) 비디오 스트림의 이미지 또는 프레임, c) RADAR 시스템, 예를 들어 이미징 RADAR 시스템에 연관된 데이터, 예를 들어 RADAR 이미지, c) LIDAR 시스템에 연관된 데이터, 예를 들어 LIDAR 이미지, d) 초음파 이미지, e) 모션 이미지, f) 예를 들어 열 이미징 시스템으로부터 획득되는 것과 같은 열 이미지 중 적어도 하나를 포함할 수 있지만, 이에 제한되지는 않는다.

일부 예시적인 실시예들에서, 확장된 잠재 공간에 연관된 복수의 잠재 변수의 적어도 일부는 제1 디지털 이미지의 이하의 양태들: a) 스타일, 예를 들어 비-시멘틱 외관(non-semantic appearance), b) 텍스처, c) 색상 중 적어도 하나를 특징화한다. 일부 예시적인 실시예들에서, 디지털 이미지의 스타일은 디지털 이미지의 적어도 일부분들의 텍스처 및 디지털 이미지의 적어도 일부분들의 색상의 조합에 의해 특징화될 수 있다.

일부 예시적인 실시예들에서, 방법은 a) 예를 들어 인코더를 사용하여, 제1 디지털 이미지와 상이한 제2 디지털 이미지, b) 예를 들어 일부 예시적인 실시예들에서 데이터 세트에 기초하여 획득될 수 있는 것과 같은 복수의 확률 분포 중 적어도 하나에 기초하여 복수의 잠재 변수를 결정하는 단계를 포함한다.

일부 예시적인 실시예들에서, 방법은 a) 제1 디지털 이미지에 기초하여 복수의, 예를 들어 계층적인, 피쳐 맵(feature map)을 결정하는 단계; b) 복수의, 예를 들어 계층적인, 피쳐 맵에 기초하여 제1 디지털 이미지에 대한 확장된 잠재 공간에 연관된 복수의 잠재 변수를 결정하는 단계; c) 복수의, 예를 들어 계층적인, 피쳐 맵 중 적어도 하나에 기초하여, 예를 들어 부가적인, 잡음 맵을 결정하는 단계 중 적어도 하나를 포함한다.

일부 예시적인 실시예들에서, 방법은 제1 디지털 이미지에 연관된 잡음 예측의 적어도 일부분을 무작위로 및/또는 의사-무작위로 마스킹하는 단계를 포함한다. 추가의 예시적인 실시예들에 따르면, 실시예들에 따른 원리에 따라, 스타일을 수정하기 위해, 예를 들어 스타일 증강을 위해 마스킹이 요구되지 않는다는 점에 유의해야 한다.

일부 예시적인 실시예들에서, 방법은 예를 들어 무작위 및/또는 의사 무작위 방식으로 잡음 맵을 마스킹하는 단계를 포함한다.

일부 예시적인 실시예들에서, 방법은 잡음 맵을 복수의, 예를 들어 P×P의 다수의, 예를 들어 비-중첩의 패치로 분할, 예를 들어 공간적으로 분할하는 단계; 패치들의 서브세트를 무작위 및/또는 의사 무작위 방식으로 선택하는 단계; 패치들의 서브세트를 예를 들어 동일한 크기의, 예를 들어 단위 가우시안(unit Gaussian)의 무작위 변수들의 패치들로 대체하는 단계를 포함한다.

일부 예시적인 실시예들에서, 방법은 제1 디지털 이미지에 연관된 잡음 예측을 제2 디지털 이미지의 또는 상기 제2 디지털 이미지의 스타일 예측과 결합하는 단계; 결합된, 제1 디지털 이미지에 연관된 잡음 예측 및 제2 디지털 이미지의 스타일 예측에 기초하여 생성기를 사용하여 추가 디지털 이미지를 생성하는 단계를 포함한다. 일부 예시적인 실시예들에서, 이는 제2 디지털 이미지의 스타일, 또는 예를 들어 스타일의 적어도 일부 양태들, 및 예를 들어 제1 디지털 이미지의 콘텐츠를 갖는 추가 디지털 이미지를 제공하는 것을 가능하게 한다.

일부 예시적인 실시예들에서, 방법은 제1 디지털 이미지에 연관된 잡음 예측을 제공하는 단계; 제1 디지털 이미지의 예를 들어 시멘틱의, 콘텐츠에 적용될 상이한 스타일들을 특징화하는 잠재 변수들의 상이한 세트들을 제공하는 단계; 제1 디지털 이미지에 연관된 잡음 예측 및 상이한 스타일들을 특징화하는 잠재 변수들의 상이한 세트들에 기초하여 생성기를 사용하여 상이한 스타일들을 갖는 복수의 디지털 이미지를 생성하는 단계를 포함한다.

일부 예시적인 실시예에서, 방법은 제1 도메인에 연관된, 예를 들어 하나 이상의 디지털 이미지를 포함하는 이미지 데이터를 제공하는 단계; 제2 도메인에 연관된, 예를 들어 하나 이상의 디지털 이미지를 포함하는 이미지 데이터를 제공하는 단계; 제1 도메인에 연관된 이미지 데이터에 제2 도메인의 스타일을 적용하는 단계를 포함한다.

일부 예시적인 실시예에서, 제1 도메인에 연관된 이미지 데이터는 레이블들을 포함하고, 예를 들어, 제1 도메인에 연관된 이미지 데이터에 제2 도메인의 스타일을 적용하는 단계는 레이블들을 보존하는 단계를 포함한다. 이러한 방식으로, 제1 도메인의 디지털 이미지들의 스타일이 수정되는 동시에 레이블들을 보존할 수 있고, 따라서 상이한 스타일(들)을 갖는 추가 레이블 지정된 이미지 데이터를 제공할 수 있다.

일부 예시적인 실시예에서, 방법은 제1 콘텐츠 정보를 갖는 제1 이미지 데이터를 제공하는 단계; 제2 이미지 데이터를 제공하는 단계 - 예를 들어 제2 이미지 데이터는 제1 콘텐츠 정보와는 상이한 제2 콘텐츠 정보를 포함함 - ; 제2 이미지 데이터의 스타일 정보를 추출하는 단계; 제2 이미지 데이터의 스타일 정보의 적어도 일부를 제1 이미지 데이터에 적용하는 단계를 포함한다.

일부 예시적인 실시예에서, 방법은 예를 들어 적어도 하나의 신경망 및/또는 기계 학습 시스템을 훈련하기 위한 훈련 데이터를 생성하는 단계 - 생성하는 단계는 예를 들어 소스 도메인의 이미지 데이터에 기초하고 소스 도메인의 수정된 이미지 데이터에 기초하며, 예를 들어, 수정된 이미지 데이터는 예를 들어 실시예들의 원리에 따라, 예를 들어 추가 이미지 데이터의 스타일에 기초하여, 이미지 스타일에 관련하여 수정되고/거나 수정되어 있음 - ; 및 임의적으로 훈련 데이터에 기초하여 적어도 하나의 신경망 시스템을 훈련하는 단계를 포함한다.

추가의 예시적인 실시예들은 실시예들에 따른 방법을 수행하기 위한 장치에 관한 것이다.

추가의 예시적인 실시예들은 프로그램이 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 실시예들에 따른 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 프로그램에 관한 것이다.

추가의 예시적인 실시예들은 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 실시예들에 따른 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 판독가능 저장 매체에 관한 것이다.

추가의 예시적인 실시예들은 실시예들에 따른 컴퓨터 프로그램을 운반하고/거나 그것을 특징화하는 데이터 캐리어 신호에 관한 것이다.

추가의 예시적인 실시예들은 실시예들에 따른 방법 및/또는 실시예들에 따른 장치 및/또는 실시예들에 따른 컴퓨터 프로그램 및/또는 실시예들에 따른 컴퓨터 판독가능 저장 매체 및/또는 실시예들에 따른 데이터 캐리어 신호의 용도로서, a) 제1 디지털 이미지에 연관된 잡음 예측 및 확장된 잠재 공간에 연관된 복수의 잠재 변수에 기초하여 적어도 하나의 추가 디지털 이미지를 결정하는 것 - 복수의 잠재 변수의 적어도 일부는 제1 디지털 이미지 외의 다른 데이터 및/또는 다른 이미지에 연관됨 - , b) 예를 들어 제1 디지털 이미지의 콘텐츠를 보존하면서, 제2 디지털 이미지로부터 제1 디지털 이미지로 스타일을 전사(transferring)하는 것, c) 적어도 하나의 디지털 이미지의 스타일과 콘텐츠를 구분하는 것, d) 예를 들어 제1 디지털 이미지, 및 적어도 하나의 추가의, 예를 들어 제2의 디지털 이미지의 스타일에 기초하여, 변경되지 않은 콘텐츠를 갖는 상이하게 스타일화된 디지털 이미지들을 생성하는 것, e) 스타일화된 이미지들에 대한 레이블 지정된 주석들을 사용하는 것, 예를 들어 재사용하는 것, f) 적어도 하나의 디지털 이미지의 스타일을 변경할 때 주석 작업을 방지하는 것, g) 예를 들어 상이한 스타일들을 갖는, 예를 들어 지각적으로 사실적인 디지털 이미지들을 생성하는 것, h) 예를 들어, 예를 들어 신경망 시스템의 분포 외 일반화를 테스트하기 위해 프록시 검증 세트를 제공하는 것, i) 기계 학습 시스템을 훈련하는 것, j) 기계 학습 시스템을 테스트하는 것, k) 기계 학습 시스템을 확인(verifying)하는 것, l) 기계 학습 시스템을 검증(validating)하는 것, m) 예를 들어 기계 학습 시스템을 위해 훈련 데이터를 생성하는 것, n) 예를 들어 기존 이미지 데이터의 데이터 증강, o) 기계 학습 시스템의 일반화 성능을 개선하는 것, p) 예를 들어 복수의 데이터 세트에 연관된 훈련 없이, 이미지 스타일들을 조작하는 것, 예를 들어 유연하게(flexibly) 조작하는 것, q) 이미지 스타일들을 조작하기 위해 인코더 GAN 파이프라인을 이용하는 것, r) 인코더에 의해, 이미지 스타일에 연관된 정보를, 예를 들어 중간의, 잠재 변수들에 임베딩하는 것, s) 예를 들어 혼합하는 것에 기초한 스타일을 포함하는 적어도 하나의 추가 디지털 이미지를 생성하기 위해 디지털 이미지들의 스타일들을 혼합하는 것 중 적어도 하나를 위한 것인 용도에 관한 것이다.

이제 일부 예시적인 실시예들이 첨부 도면들을 참조하여 설명될 것이다.
도 1은 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 2는 예시적인 실시예들에 따른 단순화된 블록도를 개략적으로 도시한다.
도 3은 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 4는 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 5는 예시적인 실시예들에 따른 단순화된 블록도를 개략적으로 도시한다.
도 6a는 예시적인 실시예들에 따른 단순화된 블록도를 개략적으로 도시한다.
도 6b는 예시적인 실시예들에 따른 단순화된 블록도를 개략적으로 도시한다.
도 7은 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 8은 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 9는 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 10은 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 11은 예시적인 실시예들에 따른 단순화된 블록도를 개략적으로 도시한다.
도 12는 예시적인 실시예들에 따른 단순화된 블록도를 개략적으로 도시한다.
도 13은 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 14는 예시적인 실시예들에 따른 단순화된 블록도를 개략적으로 도시한다.
도 15는 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 16은 예시적인 실시예들에 따른 단순화된 흐름도를 개략적으로 도시한다.
도 17a는 예시적인 실시예들에 따른 이미지 데이터를 개략적으로 도시한다.
도 17b는 예시적인 실시예들에 따른 도 17a의 임의적인 예시적인 컬러 버전을 개략적으로 도시한다.
도 18은 예시적인 실시예들에 따른 이미지 데이터를 개략적으로 도시한다.
도 19는 예시적인 실시예들에 따른 단순화된 블록도를 개략적으로 도시한다.
도 20은 예시적인 실시예들에 따른 용도의 양태들을 개략적으로 도시한다.

예를 들어, 도 1 및 도 2를 참조하면, 예시적인 실시예들은 예를 들어 적어도 하나의 디지털 이미지에 연관된 디지털 이미지 데이터를 처리하는 방법, 예를 들어 컴퓨터에 의해 구현되는 방법으로서, 제1 디지털 이미지(x1)를 생성적 적대 네트워크(GAN) 시스템(10)의 생성기(14)에 연관된 확장된 잠재 공간(SP-W+)에 매핑하도록 구성된 인코더(12)(도 2)에 의해, 제1 디지털 이미지(x1)에 연관된 잡음 예측(PRED-NOISE-x1)을 결정하는 단계(100)(도 1); GAN 시스템(10)의 생성기(14)에 의해, 제1 디지털 이미지(x1)에 연관된 잡음 예측(PRED-NOISE-x1), 및 확장된 잠재 공간(SP-W+)에 연관된 복수의 잠재 변수(LAT-VAR)에 기초하여 적어도 하나의 추가 디지털 이미지(x')를 결정하는 단계(102)(도 1)를 포함하는 방법에 관한 것이다. 일부 예시적인 실시예들에서, 이는 제1 디지털 이미지(x1)와 유사하거나 동일한 콘텐츠를 포함하지만, 임의적으로, 예를 들어 복수의 잠재 변수의 적어도 일부에 의해 특징화되는 수정된 스타일(modified style)을 갖는 추가 디지털 이미지들(x')을 결정, 예를 들어 생성하는 것을 가능하게 할 수 있다.

일부 예시적인 실시예들에서, 디지털 이미지 데이터 및/또는 (제1) 디지털 이미지(x1)는 a) 적어도 하나의 디지털 이미지, b) 비디오 스트림의 이미지 또는 프레임, c) RADAR 시스템, 예를 들어 이미징 RADAR 시스템에 연관된 데이터, 예를 들어 RADAR 이미지, c) LIDAR 시스템에 연관된 데이터, 예를 들어 LIDAR 이미지, d) 초음파 이미지, e) 모션 이미지, f) 예를 들어 열 이미징 시스템으로부터 획득되는 것과 같은 열 이미지 중 적어도 하나를 포함할 수 있지만, 이에 제한되지는 않는다.

일부 예시적인 실시예들에서, 확장된 잠재 공간(SP-W+)에 연관된 복수의 잠재 변수(LAT-VAR)의 적어도 일부는 제1 디지털 이미지의 이하의 양태들: a) 스타일, 예를 들어 비-시멘틱 외관, b) 텍스처, c) 색상 중 적어도 하나를 특징화한다. 일부 예시적인 실시예들에서, 디지털 이미지의 스타일은 디지털 이미지의 적어도 일부분들의 텍스처 및 디지털 이미지의 적어도 일부분들의 색상의 조합에 의해 특징화될 수 있다.

도 3의 일부 예시적인 실시예들에서, 방법은 a) 예를 들어 GAN 시스템(10)의 인코더(12)를 사용하여, 제1 디지털 이미지(x1)와 상이한 제2 디지털 이미지(x2)(도 2), b) 예를 들어 일부 실시예들에서 데이터 세트(도시되지 않음)에 기초하여 획득될 수 있는 복수의 확률 분포(DISTR) 중 적어도 하나에 기초하여 복수의 잠재 변수(LAT-VAR), 예를 들어 복수의 잠재 변수(LAT-VAR)의 특정 값들을 결정하는 단계(110)를 포함한다. 도 3의 임의적 블록(112)은 예를 들어, 예를 들어 생성기(14)를 사용하여 추가 디지털 이미지(x')를 생성하기 위해 복수의 잠재 변수(LAT-VAR), 예를 들어 복수의 잠재 변수(LAT-VAR)의 특정 값들을 사용하는 것을 상징한다.

일부 예시적인 실시예들에서, GAN 시스템(10)은 임의적인 판별기(16)를 포함할 수 있으며, 이는 일부 추가의 예시적인 실시예들에서, 예를 들어, 본 기술분야에 공지된 바와 같이 GAN 시스템의 적어도 하나의 컴포넌트를 훈련하기 위해 사용될 수 있다.

일부 예시적인 실시예들은 GAN 반전(inversion)의 양태들을 활용할 수 있고, 이는 예를 들어 사전 훈련된, GAN, 예를 들어 도 2의 GAN 시스템(10)의 잠재 공간에서 잠재 변수들을 찾는 것, 예를 들어 결정하는 것에 관련되고, 이는 일부 예시적인 실시예들에서, 주어진 이미지를 예를 들어 충실하게 재구성하기 위해, 예를 들어 GAN 시스템(10)에 의해 사용될 수 있다.

일부 예시적인 실시예들에서, GAN 시스템(10)의 생성기(14)는 예를 들어 무작위(또는 의사-무작위) 잠재 변수들과 같은 잠재 변수들로부터 디지털 이미지들, 예를 들어 실사 디지털 이미지들(photorealistic digital images)을 생성하도록 구성 및/또는 훈련된다.

일부 예시적인 실시예들에서, 도 2의 GAN 시스템(10)은 매핑 네트워크(도 2에 도시되지 않음)를 포함할 수 있고, 예를 들어 z∈Z로 표시될 수 있는 무작위 잠재 벡터를 중간 "스타일" 잠재 변수들, 예를 들어 ω∈W에 매핑하도록 구성될 수 있으며, 이는 일부 예시적인 실시예들에서, 예를 들어 상이한 해상도 블록들에서, 예를 들어 피쳐들을 변조하기 위해 사용될 수 있다.

일부 예시적인 실시예들에서, 예를 들어 "스타일"에 더하여, 예를 들어 가우시안 분포로부터 예를 들어 무작위로 샘플링되는 공간 확률적 잡음(spatial stochastic noise)이 예를 들어 적어도 하나의, 예를 들어 일부의, 예를 들어 각각의 피쳐 변조(들) 후에 추가될 수 있다.

일부 예시적인 실시예들에서, 인코더(12)(도 2)는 확장된 잠재 공간(SP-W+)("W⁺ 공간")에서 예를 들어 "스타일" 잠재들과 함께, 공간 잡음들을 예측하도록 구성, 예를 들어 훈련되고, 이는 일부 예시적인 실시예들에서 잠재 공간 W의 확장으로서 고려될 수 있다.

일부 예시적인 실시예들에서, W⁺ 공간 내에서, 상이한 레이어들에서의 "스타일들"은 예를 들어 상이할 수 있다. 일부 예시적인 실시예들에서, 예를 들어 일부 예시적인 실시예들에 따라 잡음을 무작위로 마스킹함으로써 훈련되는, 예를 들어 적절하게, 훈련된 인코더(12)는 예를 들어 비감독 방식(unsupervised way)으로 텍스처 및 구조 정보를 구분할 수 있다. 더 구체적으로, 일부 예시적인 실시예들에서, 인코더(12)는 텍스처 정보를 "스타일" 잠재들(잠재 변수들)로 인코딩하고 콘텐츠 정보를 잡음(들)으로 인코딩할 것이다. 그러나, 추가의 예시적인 실시예들에 따르면, 실시예들에 따른 원리에 따라 스타일을 수정하기 위해, 예를 들어 스타일 증강을 위해 마스킹이 (반드시) 요구되는 것은 아니라는 점에 유의해야 한다. 즉, 일부 예시적인 실시예들에서, 스타일 혼합, 예를 들어 스타일 증강은 예를 들어 마스킹 없이 수행될 수 있다.

일부 예시적인 실시예들에서, 예를 들어 매핑: Z→X를 학습하는 하나의 GAN 모델, 예를 들어 GAN 시스템(10)의 (예를 들어 도 2의 생성기(12)와 같은) 예를 들어 미리 훈련된 생성기(G)가 주어지면, GAN 반전은 주어진, 예를 들어 디지털의 이미지(x)를 그것의 잠재 표현(z)에 다시 매핑하는 것을 목표로 한다. 형식적으로, 이는 다음과 같이 설명될 수 있다:

여기서, d(·)는 예를 들어 원본 이미지(x)와 재구성된 이미지(G(z)) 사이의 유사성을 측정하기 위한 거리 메트릭이다.

일부 예시적인 실시예들에서, L2 및 LPIPS(예를 들어 2018년 4월 10일자 arXiv:1801.03924v2 [cs.CV]에 의해 정의됨)가 거리 메트릭 d(·)으로서 공동으로 사용될 수 있다.

일부 예시적인 실시예들에서, 확장된 (중간) 잠재 공간은 W⁺는 비교적 양호한 재구성 품질을 장려한다. 일부 예시적인 실시예들에서, 예를 들어 중간 잠재 예측에 더하여, 공간적 잡음들도 예측될 수 있으며, 이는 일부 예시적인 실시예들에서, 예를 들어 주어진 이미지 내의 상세 정보를 더 잘 보존할 수 있다. 일부 예시적인 실시예들에서, 형식적으로, 인코더(E) 및 생성기(G)는 다음과 같이 설명될 수 있다:

x 및 x*는 각각 주어진 원본 이미지 및 재구성된 이미지이고, 여기서 ω는 예측된 중간 잠재 변수들을 특징화하고, ε는 예측된 잡음들을 특징화한다. 일부 예시적인 실시예들에서, 인코더는 예를 들어, 주어진 이미지(x)를 예를 들어 충실하게 재구성하도록 훈련될 수 있다.

도 4의 일부 예시적인 실시예들에서, 방법은 a) 제1 디지털 이미지(x1)에 기초하여 복수의, 예를 들어 계층적인, 피쳐 맵(feature map)(FM)을 결정하는 단계(120); b) 복수의, 예를 들어 계층적인, 피쳐 맵(FM)에 기초하여 제1 디지털 이미지(x1)에 대한 확장된 잠재 공간(SP-W+)(도 2)에 연관된 복수의 잠재 변수(LAT-VAR-x1)(예를 들어, 복수의 잠재 변수(LAT-VAR-x1)의 값들)를 결정하는 단계(122)(도 4); c) 복수의, 예를 들어 계층적인, 피쳐 맵(FM) 중 적어도 하나에 기초하여, 예를 들어 부가적인, 잡음 맵(NOISE-MAP)을 결정하는 단계(124) 중 적어도 하나를 포함한다.

도 5는 일부 예시적인 실시예들에 따른 GAN 시스템(10)(도 2)의 양태들을 개략적으로 도시한다. 요소(12a)는 예를 들어 도 2의 인코더(12)와 유사한 인코더를 상징한다. 일부 예시적인 실시예들에서, 도 2의 인코더(12)는 도 5의 인코더(12a)의 구성을 포함할 수 있다. 요소(14a)는 예를 들어 도 2의 생성기(14)와 유사한 생성기를 상징한다. 일부 예시적인 실시예들에서, 도 2의 생성기(14)는 도 5의 생성기(14a)의 구성을 포함할 수 있다. 요소(14a)는 예를 들어 도 2의 생성기(14)와 유사한 생성기를 상징한다.

도 4의 블록(120)을 참조하면, 요소(E1)는 예를 들어 제1 디지털 이미지(x1)에 기초하여 복수의, 예를 들어 계층적인, 피쳐 맵(FM)을 결정하는 단계(120)를 수행하도록 구성되는, 일부 예시적인 실시예들에 따른 피쳐 피라미드를 상징화한다. 즉, 일부 예시적인 실시예들에서, 피쳐 피라미드(E1)는 피쳐 추출기로 동작하도록 구성된다.

일부 예시적인 실시예들에서, 피쳐 피라미드(E1)는 복수의, 예를 들어 계층적인, 피쳐 맵(FM)을 제공하기 위해, 예를 들어 복수의 컨볼루션 레이어를 포함할 수 있다.

일부 예시적인 실시예들에서, 피쳐 피라미드(E1)는 예를 들어 2017년 4월 19일자 arXiv:1612.03144v2[cs.CV]("Feature Pyramid Networks for Object Detection")의 도 3에 의해 묘사된 구조에 기초할 수 있으며, 예를 들면 그와 유사하거나 동일할 수 있다.

일부 예시적인 실시예들에서, 피쳐 피라미드(E1)에 대한 다른 토폴로지들도 가능하다.

도 5의 요소들(E2-1, …, E2-n, …)은 예를 들어 도 4의 블록(122)과 유사하거나 동일하게 복수의(현재 k개의 다수의) 잠재 변수(w¹, …, w^k)를 결정하도록 구성되는 블록들을 상징화한다. 일부 예시적인 실시예들에서, 다양한 블록들(E2-1, …, E2-n, …)은 상이한 계층 레벨의 피쳐 맵들(FM)을 수신하고, 예를 들어 생성기(14a)로의 출력을 위해, 그에 기초하여 잠재 변수들(w¹, …, w^k), 예를 들어 잠재 변수들(w¹, …, w^k)의 값들을 제공한다. 즉, 일부 예시적인 실시예들에서, 피쳐 피라미드(E1)의 다중-스케일 피쳐들은 각각 예를 들어 생성기(14a)의 대응하는 스케일들에서, 블록들(E2-1, …, E2-n)에 의해 잠재 벡터들 또는 코드들({w^k})에 매핑된다.

도 5의 요소(E3)는 피쳐 피라미드(E1)로부터 적어도 하나의 피쳐 맵을 수신하고, 적어도 하나의 피쳐 맵에 기초하여, 예를 들어 도 4의 블록(124)에 따라 잡음 맵(ε)을 제공하도록 구성되는 잡음 매핑기(noise mapper)를 상징화한다. 일부 예시적인 실시예들에서, 잡음 매핑기(E3)는 피쳐 피라미드(E1)의 계층구조의 (예를 들어, 최고 또는 최저 이외의) 중간 스케일에서 잡음 맵(ε)을 예측하도록 구성된다.

일부 예시적인 실시예들에서, 잡음 매핑기(E3)는 예를 들어, h×w×c 피쳐 맵을 입력으로 취하고 h×w×c' 피쳐 맵을 출력하도록 구성되는, 예를 들어 1×1의 컨볼루션 레이어들의 스택을 포함할 수 있다.

도 7의 일부 예시적인 실시예들에서, 방법은 제1 디지털 이미지(x1)에 연관된 잡음 예측(NOISE-PRED)의 적어도 일부분을 무작위로 및/또는 의사-무작위로 마스킹하는 단계(130)를 포함하고, 이에 의해 마스킹된 잡음 맵(NOISE-PRED-M)이 획득된다.

도 7의 일부 예시적인 실시예들에서, 방법은 예를 들어 무작위 및/또는 의사 무작위 방식으로 잡음 맵(ε)(도 5)을 마스킹하는 단계(132)를 포함하고, 이에 의해 마스킹된 잡음 맵(NOISE-MAP-M)이 획득되고, 이는 예를 들어 도 7의 블록들(130, 132) 중 적어도 하나에 따라 마스킹을 수행하도록 구성되는 마스킹 블록(M)의 출력에서 도 5의 요소(ε_m)에 의해 상징화된다.

도 5의 일부 예시적인 실시예들에서, 마스킹된 잡음 맵(ε_m)은 예를 들어 잠재 변수들(w¹, …, w^k)과 유사하게 생성기(14a)에 출력되며, 여기서 생성기(14a)는 잠재 변수들(w¹, …, w^k) 및 마스킹된 잡음 맵(ε_m)에 기초하여 적어도 하나의 디지털 이미지를 출력하도록 구성, 예를 들어 훈련된다.

일부 예시적인 실시예들에서, 도 5의 생성기(14a)는 잠재 변수들(w¹, …, w^k) 및 마스킹된 잡음 맵(ε_m)에 기초하여 출력 디지털 이미지를 생성하기 위해, 하나 이상의 합성 블록(E4-1, …, E4-k) 및 결합기, 예를 들어 가산기(도 5에서 개별적으로 참조되지 않음)를 포함할 수 있다.

일부 예시적인 실시예들에서, 생성기(14a)는 예를 들어 이하의 출판물들 중 적어도 하나에 개시된 바와 같이, 예를 들어 StyleGAN 유형 또는 StyleGAN2 유형일 수 있다:

a) 2021년 4월 21일자 arXiv: 2008.00951v2 [cs.CV],

b) Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen 및 Timo Aila. Analyzing and improving the image quality of stylegan. CVPR, 2020(또한, arXiv:1912.04958v2를 참조).

예로서, 일부 예시적인 실시예들에서, 생성기(14a)는 위에서 언급된 출판물 b)의 도 2(d)에 예시적으로 표시된 바와 같은 아키텍처를 포함할 수 있다(또한, arXiv:1912.04958v2를 참조).

도 6a는 도 5의 블록들(E2-1, …, E2-n) 중 적어도 하나의 예시적인 구조를 개략적으로 도시한다. 요소(E10)는 피쳐 피라미드(E1)에 의해 특정 계층구조 레벨에서 예시적으로 획득되는 피쳐 맵을 상징화하고, 요소들(E11, E12)은 피쳐 맵(E10)에 기초하여, 일부 경우들에서 예를 들어 또한 wⁱ, i = 1, …, k로서 표시되는 잠재 벡터(E13)를 제공하도록 구성되는, 예를 들어 훈련되는, 예를 들어 컨볼루션 신경망(CNN) 유형의, 예를 들어 완전 연결된 CNN인 신경망의 하나 이상의 요소, 예를 들어 레이어를 상징화한다. 일부 예시적인 실시예들에서, 잠재 벡터는 1×1×512 유형, 예를 들어 512개의 컴포넌트를 포함하는 1차원 벡터이다.

도 6b는 예를 들어 블록(E3)에 의해 획득되는 도 5의 잡음 맵(ε)의 묘사 - 마스킹 블록(M)은 도 7의 블록들(130, 132)의 마스킹 기술들 중 적어도 하나를 수행하도록 구성됨 - , 및 마스킹된 잡음 맵(ε_m)의 예시적인 묘사를 개략적으로 도시한다.

도 8의 일부 예시적인 실시예들에서, 방법은 잡음 맵(ε)을 복수의, 예를 들어 P×P의 다수의, 예를 들어 비-중첩의 패치(PATCH)로 분할, 예를 들어 공간적으로 분할하는 단계(132a); 패치들(PATCH)의 서브세트(PATCH-SUB)를 무작위 및/또는 의사 무작위 방식으로 선택하는 단계(132b); 패치들(PATCH)의 서브세트(PATCH-SUB)를 예를 들어 동일한 크기의, 예를 들어 단위 가우시안의 무작위 변수들의 패치들(PATCH-RND)로 대체하는 단계(132c)를 포함한다. 즉, 일부 예시적인 실시예들에서, 잡음 맵(ε)의 일부 콘텐츠는 예를 들어 단위 가우시안의 무작위 변수들의 패치들로 대체된다.

일부 예시적인 실시예들에서, 예를 들어 GAN 시스템(10)의 인코더(12, 12a)를 사용하여, 디지털 이미지(x1)의 스타일은 예를 들어 디지털 이미지(x1)의 스타일의 양태들을 특징화하는 중간 잠재들(w)을 변경함으로써 수정될 수 있다.

이와 관련하여, 도 11은 추가의 예시적인 실시예들에 따른 블록도를 개략적으로 도시한다. 요소(x₁)는 예를 들어 도 5의 인코더(12a)와 유사하거나 동일한 인코더의 제1 인스턴스(12b-1)에 제공되는 제1 디지털 이미지를 상징화한다. 요소(x₂)는 예를 들어 도 5의 인코더(12a)와 유사하거나 동일한 인코더의 제2 인스턴스(12b-2)에 제공되는 제2 디지털 이미지를 상징화한다. 인스턴스들(12b-1, 12b-2) 둘 다는 동일한 인코더에 기초하여 제공될 수 있고, 동시에 및/또는 시간적으로 부분적으로 중첩되거나 중첩되지 않는(예를 들어, 순차적) 방식으로 평가될 수 있다.

도 11의 요소들(E21)은 예를 들어 도 5의 피쳐 피라미드(E1)의 형태로 피쳐 추출을 수행하도록 구성되는 인코더의 블록들을 상징화한다.

예를 들어 도 5의 요소들(w¹, …, w^k)을 참조하면, 요소들(E22)은 예를 들어 위에서 설명된 것과 같은 잠재 변수들(w)에 의해 특징화되는 각각의 입력 이미지(x₁, x₂)의 스타일을 특징화하는 정보를 결정하도록 구성되는 인코더의 블록들을 상징화한다. 일부 예시적인 실시예들에서, 도 11의 블록들(E22)은 예를 들어 도 5의 블록들(E2-1, …, E2-k)을 집합적으로 나타낼 수 있다. 예로서, 인코더 인스턴스(12b-2)의 블록(E22)은 제2 디지털 이미지(x₂)의 스타일을 특징화하는 잠재 변수들(w₂)을 제공한다.

도 11의 요소들(E23)은 예를 들어 도 5의 블록(E3)과 유사하거나 동일한 잡음 맵을 결정하도록 구성되는 인코더의 블록들을 상징화한다. 예로서, 인코더 인스턴스(12b-1)의 블록(E23)은 제1 디지털 이미지(x₁)에 기초하여 잡음 맵(ε₁)을 제공한다.

도 11의 요소(14b)는 예를 들어 도 2 또는 도 5의 생성기(14, 14a)와 유사하거나 동일한 GAN 시스템의 생성기를 상징화한다. 현재, 도 11의 생성기(14b)는 (예를 들어, 잡음 맵(ε₁)에 의해 특징화되는) 제1 디지털 이미지(x₁)의 콘텐츠, 예를 들어 시멘틱 콘텐츠, 및 (예를 들어, 잠재 변수들(w¹, …, w^k)에 의해 특징화되는) 제2 디지털 이미지(x₂)의 스타일(예를 들어, 텍스처 및/또는 색상 및/또는 다른 비-시멘틱 콘텐츠)을 포함하는 디지털 출력 이미지(x_mix)를 결정, 예를 들어 생성하여, 예를 들어 각각의 입력 이미지들(x₁, x₂)의 경쟁-관련 및 스타일-관련 양태들을 혼합한다.

즉, 일부 예시적인 실시예들은 예를 들어 제1 디지털 이미지(x₁)로부터의 잡음 예측(ε₁) 및 제2 디지털 이미지(x₂)의 (예를 들어, 중간) 잠재 변수들(w₂)을 결합함으로써, 제1 디지털 이미지(x₁)의 콘텐츠를 유지, 예를 들어 보존하고, 제2 디지털 이미지(x₂)의 스타일 정보를 제1 디지털 이미지(x₁)에 전사할 수 있다. 일부 예시적인 실시예들에서, 예를 들어 StyleGAN 유형 또는 StyleGAN2 유형의, 예를 들어 고정된 생성기(14b)는 컴포넌트들(ε₁, w₂)을 입력으로 취하고 혼합 이미지(x_mix)를 생성한다.

도 6b로 되돌아가면, 일부 예시적인 실시예들은 예를 들어 잡음 맵의 무작위 마스킹에 의해 인코더(12, 12a)의 잡음 예측을 정규화하는 것을 제안한다.

일부 예시적인 실시예들에서, 그리고 위에서 적어도 부분적으로 이미 언급된 바와 같이, 잡음 맵은 예를 들어 도 6b의 블록(M)에 의해 영향을 받는 비-중첩 P×P 패치들(PATCH)로 공간적으로 분할된다(또한 도 8의 블록(132a)을 참조).

일부 예시적인 실시예들에서, 예를 들어 미리 정의된 비율(ρ)에 기초하여, 패치들의 서브세트(PATCH-SUB)는 예를 들어 무작위로 선택되고, 동일한 크기의 단위 가우시안 무작위 변수들(ε)∼N(0, 1)의 패치로 대체되며, 여기서 예를 들어 N(0, 1)은 예를 들어 (예를 들어 StyleGAN2 유형일 수 있는) 생성기(14, 14a)의 훈련에서의 잡음 맵의 사전 분포이다.

일부 예시적인 실시예들에서, 인코더(12, 12a)는 "마스킹된 잡음 인코더"로 표시될 수 있는데, 이는 일부 예시적인 실시예들에서, 그것이 예를 들어 잡음 맵을 예측하기 위해, 무작위 마스킹으로 훈련되기 때문이다.

일부 예시적인 실시예들에서, 제안된 무작위 마스킹은 잡음 맵의 인코딩 용량을 감소시킬 수 있으며, 이에 따라 인코더(12, 12a)가 재구성을 위해 잠재 코드들({wk})을 공동으로 활용하도록 장려할 수 있다. 따라서, 일부 예시적인 실시예들에서, 인코더(12, 12a)는 각각 콘텐츠 및 스타일 이미지들로부터 잡음 맵 및 잠재 코드들을 취한다. 다음으로, 일부 예시적인 실시예들에서, 그것들은 생성기(14, 14a)(예를 들어, StyleGAN2 유형)에 공급되어, 예를 들어 새로운 이미지를 합성할 수 있다.

일부 예시적인 실시예들에서, 인코더(12, 12a)가 무작위 마스킹으로 훈련되지 않으면, 새로운 이미지는 콘텐츠 이미지에 비교하여, 예를 들어 임의의, 인지가능한 차이(들)를 갖지 않을 수 있다. 일부 예시적인 실시예들에서, 이는 잠재 코드들({wk})이 이미지의 무시가능한 정보를 인코딩한다는 것을 의미한다. 대조적으로, 일부 예시적인 실시예들에서, 마스킹으로 훈련될 때, 인코더는 두 개의 상이한 이미지로부터 콘텐츠 및 스타일을 취하는 신규 이미지를 생성한다. 일부 예시적인 실시예들에서, 이러한 관찰은 일부 예시적인 실시예들에 따른 콘텐츠 및 스타일 구분을 위한 마스킹의 중요한 역할을 확인시켜주고, 따라서 예를 들어 개선된, 스타일 혼합 능력을 확인시켜준다.

일부 예시적인 실시예들에서, 잡음 맵은 스타일 및 콘텐츠를 포함하여 이미지의 모든 인지가능한 정보를 예를 들어 더 이상, 인코딩하지 않는다. 일부 예시적인 실시예들에서, 사실상, 잠재 코드들({wk})은 스타일을 제어하는 데에 있어서 더 적극적인 역할을 한다.

이하에서는, 일부 예시적인 실시예들에 따른 인코더 훈련 손실에 관련된 양태들 및 정보가 제공된다.

일부 예시적인 실시예들에서, 마스킹된 잡음 인코더(E^M)를 사용하는 GAN 반전, 예를 들어 일부 예시적인 실시예들에 따른 StyleGAN2 반전에 관련된 실시예들에 따른 원리는 다음과 같이 공식화될 수 있다:

.

일부 예시적인 실시예들에서, 마스킹된 잡음 인코더(E^M)는 주어진 이미지(x)를 잠재 코드들({wk}) 및 잡음 맵(ε)에 매핑한다.

일부 예시적인 실시예들에서, 생성기 G(또한 도 2, 도 5의 요소(14, 14a)를 참조), 예를 들어 Style-GAN2 유형 생성기는 {w^k} 및 잡음 맵(ε) 둘 다를 입력으로 취하고 이미지(x^*)를 생성한다. 일부 예시적인 실시예들에서, 예를 들어 이상적으로, x^*는 x, 즉 완벽한 재구성과 동일할 수 있다.

일부 예시적인 실시예들에서, 인코더(12, 12), 예를 들어 마스킹된 잡음 인코더(E^M)는 예를 들어 원본 이미지(x)를 재구성하도록 훈련된다.

일부 예시적인 실시예들에서, 원본 이미지(x)를 재구성하기 위해 인코더(12, 12), 예를 들어 마스킹된 잡음 인코더(E^M)를 훈련할 때, 원본 잡음 맵(ε)은 예를 들어, 예를 들어 사전 훈련된, 생성기(G)에 공급되기 전에, 마스킹되고, 여기서 마스킹은 예를 들어 다음에 의해 특징화될 수 있다:

여기서, M_noise는 예를 들어 무작위 바이너리 마스크이고, 는 하다마드 곱(Hadamard product)을 나타내고, 는 마스킹된 잡음(ε_M)을 갖는 재구성된 이미지를 나타낸다.

일부 예시적인 실시예들에서, 인코더에 대한 훈련 손실은 다음에 의해 특징화될 수 있다:

여기서, 는 가중 인자들이다. 처음 3개의 항은 픽셀별 MSE 손실, (예를 들어, Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman 및 Oliver Wang: The unreasonable effectiveness of deep features as a perceptual metric. CVPR, 2018에 따른) 학습된 지각 이미지 패치 유사성(learned perceptual image patch similarity)(LPIPS) 손실, 및 (예를 들어, Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozair, Aaron Courville 및 Yoshua Bengio의 Generative adversarial nets. NeurIPS, 2014에 따른) 적대적 손실이다:

일부 예시적인 실시예들에서, 마스킹은 특정 공간 위치들에서, 주어진 이미지(x)의 정보를 제거하므로, 이러한 위치들에 대한 재구성 요건은 완화되어야 한다는 점에 유의해야 한다. 일부 예시적인 실시예들에서, M_img 및 M_feat는 예를 들어, 예를 들어 VGG 기반의 피쳐 추출기의 피쳐 크기 및 이미지 크기로 잡음 마스크(M_noise)를 업샘플링 및 다운샘플링함으로써 획득될 수 있다.

일부 예시적인 실시예들에서, 적대적 손실은 재구성된 이미지와 실제 이미지를 구별하도록 훈련되는 판별기(D)(또한 도 2의 임의적 요소(16)를 참조)를 이용하는 적대적 게임으로서 인코더 훈련을 공식화함으로써 획득된다.

일부 예시적인 실시예들에서, 마지막 정규화 항은 다음과 같이 정의된다:

일부 예시적인 실시예들에서, L1 놈(norm)은 희소 잡음 예측을 유도하는 데 도움이 된다. 일부 예시적인 실시예들에서, 이는 무작위 마스킹을 보완하여 잡음 맵의 용량을 감소시킨다. 일부 예시적인 실시예들에서, 제2 항은 (예를 들어, Xu Yao, Alasdair Newson, Yann Gousseau, 및 Pierre Hellier. Feature-Style Encoder for Style-Based GAN Inversion, arXiv preprint, 2022에 따라) 잠재 코드 예측()을 훈련하기 위해 합성 이미지들()의 실측 잠재 코드들(ground truth latent codes)(w_gt)을 사용함으로써 획득된다. 일부 예시적인 실시예들에서, 이는 생성기의 원래 잠재 공간에 가깝게 유지되도록 인코더를 안내하여, 수렴 속도를 높인다.

도 9의 일부 예시적인 실시예들에서, 방법은 제1 디지털 이미지(x1)에 연관된 잡음 예측(PRED-NOISE-x1)(도 2)을 (예를 들어, 제2 디지털 이미지(x2)에 연관된 잠재 변수들에 의해 특징화되는) 제2 디지털 이미지(x2)의 스타일 예측(PRED-STYLE-x2)과 결합하는 단계(140); 결합된, 제1 디지털 이미지(x1)에 연관된 잡음 예측 및 제2 디지털 이미지(x2) 또는 상기 제2 디지털 이미지(x2)의 스타일 예측(PRED-STYLE-x2)에 기초하여 생성기(14a)(도 5)를 사용하여 추가 디지털 이미지(x12)를 생성하는 단계(142)를 포함한다. 일부 예시적인 실시예들에서, 이는 추가 디지털 이미지(들)(x12)에 제2 디지털 이미지(x2)의 스타일, 또는 예를 들어 스타일의 적어도 일부 양태들, 및 예를 들어 제1 디지털 이미지(x1)의 콘텐츠를 제공하는 것을 가능하게 한다.

도 10의 일부 예시적인 실시예들에서, 방법은 제1 디지털 이미지(x1)에 연관된 잡음 예측(PRED-NOISE-x1)을 제공하는 단계(150); 제1 디지털 이미지(x1)의 예를 들어 시멘틱의 콘텐츠에 적용될 상이한 스타일들을 특징화하는 잠재 변수들의 상이한 세트들(SET-LAT-VAR)을 제공하는 단계(152); 제1 디지털 이미지(x1)에 연관된 잡음 예측(PRED-NOISE-x1) 및 상이한 스타일들을 특징화하는 잠재 변수들의 상이한 세트들(SET-LAT-VAR)에 기초하여 생성기(14b)(도 5)를 사용하여 상이한 스타일들을 갖는 복수의 디지털 이미지(PLUR-x)를 생성하는 단계(154)를 포함한다.

일부 예시적인 실시예들에서, 하나 이상의 디지털 이미지 및/또는 데이터 세트로부터 스타일 정보를 획득하기 위한 복수의 방식이 존재한다. 예를 들어, 도 17a, 도 17b에 예시적으로 도시된 바와 같이, 맑은 날의 장면을 소스 도메인(SD)으로 고려하면, 실시예들에 따른 원리를 사용하여 소스 도메인(SD)의 훈련 세트로부터 스타일들이 추출될 수 있다. 예시적인 실시예들에서, 유리하게도 이는 기존 데이터(세트) 내의 정보의 사용을 최대화하는 것으로서 해석될 수 있으므로, 예를 들어 다른 데이터세트들로부터의 추가 정보를 필요로 하지 않는다. 도 17a, 도 17b의 브라켓(BR1)은 스타일을 상징화하고, 도 17a, 도 17b의 브라켓(BR2)은 콘텐츠를 상징화하며, 브라켓(TD)은 다양한 타겟 도메인들을 상징화한다.

일부 예시적인 실시예들에서, 타겟 도메인(TD)(도 17a, 도 17b)로부터의 하나의, 예를 들어 단일의, 예를 들어 레이블이 지정되지 않은 이미지, 예를 들어 "밤", "안개" 또는 "눈이 내리는" 장면들이 사용될 수 있고, 그 스타일은 예를 들어, 소스 도메인(SD)에 전사될 수 있으며, 이는 각각 도 17a, 도 17b의 제2 내지 제4 열(참조 부호(TD)로 표시됨)에 의해 표시된다.

일부 예시적인 실시예들에서, 예를 들어 실시예들에 따른 원리에 기초하여, 예를 들어 하나 이상의 디지털 이미지로부터 추출된 스타일들은 또한 보간될 수 있다. 도 18에 예시적으로 도시된 바와 같이, 원본 디지털 이미지(x-a)는 (수평) 중간에 있고, 이는 예를 들어 콘텐츠 정보를 제공할 것이다. 2개의 추가 디지털 이미지(x-b, x-c)는 각각 도 18의 좌측 및 우측에 제공된다. 브라켓(x-ab)은 이미지들(x-a, x-b)에 기초하여 보간된 스타일들을 갖는 3개의 디지털 이미지를 나타내고, 브라켓(x-ac)은 이미지들(x-a, x-c)에 기초하여 보간된 스타일들을 갖는 3개의 디지털 이미지를 나타낸다. 알 수 있는 바와 같이, 보간된 이미지들(x-ab, x-ac)에 대한 콘텐츠 정보는 디지털 이미지(x-a)에 의해 제공되는 반면, 보간된 이미지들(x-ab, x-ac)에 대한 각각의 스타일 정보는 추가 이미지들(x-b, x-c)에 의해 제공된다.

일부 예시적인 실시예들에서, 도 12에 도시된 바와 같이, 주어진 데이터세트의 분포(DISTR)가 학습될 수 있다. 일부 예시적인 실시예들에서, 하나의 가우시안 분포는 주어진 소스 데이터세트의 잠재 w 예측에 기초하여, W⁺ 공간에서 예를 들어 각각의 스케일 wⁱ; i = 1, …, k에서 각각 예를 들어 피팅될 수 있다. 일부 예시적인 실시예들에서, 이후에, 예를 들어 하나의 특정 디지털 이미지(x)가 주어지면, 잡음 예측, 예를 들어 잡음 맵(ε)이 결정될 수 있고, 예를 들어, 회귀된(또는 다르게 결정된), 예를 들어 가우시안의 분포(DISTR)로부터 샘플링된 스타일들과 결합될 수 있다. 이러한 방식으로, 일부 예시적인 실시예들에서, 수많은 소스-유사(source-like)(예를 들어, 시멘틱 콘텐츠에 관한) 샘플 이미지들(x_sampled)이, 예를 들어 주어진 이미지(x)로부터의 잘 보존된 시멘틱 콘텐츠를 사용하여 생성될 수 있다. 일부 예시적인 실시예들에서, 소스 데이터세트는 반드시 인코더(12, 12a, 12b)가 그에 대해 훈련되는 데이터세트일 필요는 없다.

도 13의 일부 예시적인 실시예들에서, 방법은 제1 도메인(DOM-1)(도 14)에 연관된, 예를 들어 하나 이상의 디지털 이미지를 포함하는 이미지 데이터(IMG-DAT-DOM-1)를 제공하는 단계(160); 제2 도메인(DOM-2)에 연관된, 예를 들어 하나 이상의 디지털 이미지를 포함하는 이미지 데이터(IMG-DAT-DOM-2)를 제공하는 단계(162)(도 13); 제1 도메인(DOM-1)에 연관된 이미지 데이터(IMG-DAT-DOM-1)에 제2 도메인(DOM-2)의 스타일(STYLE-2)을 적용하는 단계(164)를 포함하고, 여기서 예를 들어 하나 이상의 디지털 "스타일 혼합" 이미지(x-CONT-1-STYLE-2)의 형태로 된 이미지 데이터가 획득된다.

도 13의 일부 예시적인 실시예들에서, 제1 도메인(DOM-1)에 연관된 이미지 데이터(IMG-DAT-DOM-1)는 레이블들(LAB)을 포함하고, 여기서, 예를 들어, 제1 도메인에 연관된 이미지 데이터에 제2 도메인의 스타일을 적용하는 단계(164)는 레이블들(LAB)을 보존하는 단계(164a)를 포함한다. 이러한 방식으로, 제1 도메인의 디지털 이미지들의 스타일이 수정되는 동시에 레이블들(LAB)을 보존할 수 있고, 따라서, 상이한 스타일(들)을 갖는 추가의 레이블 지정된 이미지 데이터(x-CONT-1-STYLE-2)를 제공한다.

일부 예시적인 실시예들에서, 예를 들어 도 11, 도 12, 도 13 중 적어도 하나에 따라(또는 위에 설명된 예시적인 실시예들 중 임의의 다른 실시예에 따라) 획득된 스타일-혼합 이미지들(x)은 예를 들어, 예를 들어 하나 이상의 신경망을 포함하는, 기계 학습 시스템의 훈련 동안, 예를 들어 데이터 증강(data augmentation)을 위해 사용될 수 있다.

예를 들어, 도 14는 예시적인 실시예들에 따라 시멘틱 분할 네트워크(E30)를 훈련하기 위한 예시적인 사용 사례를 도시한다. 요소(E31)는 훈련 손실을 상징화한다.

도 15의 일부 예시적인 실시예들에서, 방법은: (예를 들어, 도 14의 인코더 인스턴스(12b-1)에 의해 결정될 수 있는) 제1 콘텐츠 정보(I-CONT-1)를 갖는 제1 이미지 데이터(IMG-DAT-1)를 제공하는 단계(170); 제2 이미지 데이터(IMG-DAT-2)를 제공하는 단계(172) - 예를 들어 제2 이미지 데이터(IMG-DAT-2)는 제1 콘텐츠 정보(I-CONT-1)와는 상이한 제2 콘텐츠 정보(I-CONT-2)를 포함함 - ; 제2 이미지 데이터(IMG-DAT-2)의 스타일 정보(I-STYLE-2)를 추출하는 단계(174); 예를 들어 도 14의 인코더(14b)를 사용하여, 제2 이미지 데이터(IMG-DAT-2)의 스타일 정보(I-STYLE-2)의 적어도 일부를 제1 이미지 데이터(IMG-DAT-1)에 적용하는 단계(176)를 포함한다.

예시적인 실시예들에 따르면, 콘텐츠 정보(I-CONT-1)는 예를 들어 생성기(14b)를 사용하는 처리 동안 변경되지 않고 유지되므로, 제1 도메인 또는 소스 도메인(DOM-1)의 레이블들(LAB)이 사용될 수 있으며, 그들은 스타일-혼합 이미지들(x-CONT-1-STYLE-2)의 생성 전체에 걸쳐 보존된다. 일부 예시적인 실시예들에서, 디지털 이미지들의 스타일 정보는 예를 들어 레이블들 없이, 임의의 타겟 도메인(들)으로부터 예를 들어 변환될 수 있다. 예시적인 실시예들에 따른 이러한 데이터 증강은 예를 들어 일반화 성능을 향상시키는 데 도움이 될 수 있다.

예를 들어, 일부 예시적인 실시예들에서, 단독으로 낮 장면들(즉, 하나의 단일한 특정 도메인 또는 스타일)에 대해서만 훈련된 (기계 학습) 모델은 예를 들어 밤 장면들과 같은 다른 장면에서는 제대로 수행되지 않을 수 있다. 예시적인 실시예들에 따른 제안된 스타일-혼합 데이터 증강으로, 낮 장면들과 밤 장면들 간의 성능 갭이 크게 감소될 수 있다.

흥미롭게도, 일부 예시적인 실시예들에서, 소스 도메인 내의 스타일 혼합은, 예를 들어 더 많은 데이터세트들에 대한 액세스 없이, 도메인 외부(out-of-domain)("ood") 일반화를 향상, 예를 들어 강화할 수 있다는 것이 관찰될 수 있다. 일부 예시적인 실시예들에서, 일부 예시적인 실시예들에 따른 내부-혼합 스타일화(intra-mix stylization)는 예를 들어, 예를 들어 더 나은 일반화 능력으로 이어질 수 있는, 예를 들어 편평한 최적조건(flat optimum)의 가까운 솔루션을 찾는 데 도움이 될 수 있다는 가설이 세워진다.

더욱이, 일부 예시적인 실시예들에서, 실시예들에 따른 원리를 적용하여 획득될 수 있는 스타일-혼합 이미지들은 또한 검증을 위해 사용될 수 있으며, 여기서 테스트 성능은 예를 들어 모델들을 선택하기 위한 일반화의 프록시 지표의 역할을 할 수 있다. 일부 종래의 접근법들에서, 예를 들어 오직, 소스 데이터세트만 주어지면, 최상의 일반화 능력을 갖는 모델을 선험적으로(a-priori) 선택하기 위한 좋은 또는 바람직한 방식이 존재하지 않을 수 있다. 그러므로, 일부 예시적인 실시예들에서, 실시예들에 따른 원리를 적용하는 것에 의한 스타일 혼합은 예를 들어 타겟 데이터세트들을 요구하지 않고서, 최상의 모델을 선택하는 데 도움이 될 수 있다.

일부 예시적인 실시예들에서, 하나의 단일한, 예를 들어 레이블 지정되지 않은 이미지는 예를 들어, 예를 들어 인코더(12, 12a)를 사용하는 것에 의한 스타일 추출을 위해 사용될 수 있고, 예를 들어 그에 충분하고, 스타일은 예를 들어 소스 데이터세트에 전사될 수 있다. 일부 예시적인 실시예들에서, 소스 데이터세트는 레이블 지정될 수 있으므로, 모델은 스타일 혼합 데이터세트에 대해 테스트될 수 있다. 이렇게 결정된 테스트 정확도에 기초하여, 일부 예시적인 실시예들에서, 타겟 데이터세트에 대한 모델의 일반화 성능이 근사화될 수 있다.

도 16의 일부 예시적인 실시예들에서, 방법은 예를 들어 적어도 하나의 신경망 및/또는 기계 학습 시스템을 훈련하기 위한 (예를 들어, 하나 이상의 훈련 데이터 세트를 포함하는) 훈련 데이터(TRAIN-DAT)를 생성하는 단계(180)를 포함하고, 여기서, 생성하는 단계(180)는 예를 들어 소스 도메인의 이미지 데이터(IMG-DAT-SRC)에 기초하고 소스 도메인의 수정된 이미지 데이터(IMG-DAT-SRC')에 기초하며, 여기서, 예를 들어, 수정된 이미지 데이터(IMG-DAT-SRC')는 예를 들어 추가 이미지 데이터(IMG-DAT')의 스타일에 기초하여, 예를 들어 실시예들의 원리에 따라, 이미지 스타일에 관련하여 수정되고/거나 수정되어 있다. 일부 예시적인 실시예들에서, 임의적으로, 적어도 하나의 신경망 시스템(NNS)을 훈련하는 단계(182)는 훈련 데이터(TRAIN-DAT)에 기초하여 수행될 수 있다.

일부 예시적인 양태들을 요약하면, 일부 예시적인 실시예들에서, 예를 들어 도 11 및 도 12를 참조하면, 예를 들어 증강된 이미지들(x_mix, x_sampled)을 생성하기 위해, 실시예들의 원리에 따른 스타일 혼합 및/또는 스타일 샘플링이 적용된다. 위에서 이미 설명된 바와 같이, 도 14는 시멘틱 분할 훈련을 위한 제안된 시멘틱 데이터 증강 파이프라인의 예시적인 사용 사례를 개략적으로 도시한다. 스타일 혼합의 시각적 예들은 예를 들어 도 17a, 도 17b(도 17a의 컬러 버전)에 제시되고, 여기서 스타일들은 예를 들어, 소스 도메인(SD)의 훈련 세트로부터, 및/또는 타겟 도메인(TD)의 이미지, 예를 들어 단일 이미지로부터 추출될 수 있다. 또한 위에서 이미 설명된 바와 같이, 일부 예시적인 실시예들에 따른 예시적인 스타일 보간에 의해 획득될 수 있는 이미지들이 도 18에 도시된다.

도 19의 추가의 예시적인 실시예들은 실시예들에 따른 방법을 수행하기 위한 장치(200)에 관한 것이다.

일부 예시적인 실시예들에서, 장치(200)는 적어도 하나의 계산 유닛, 예를 들어 프로세서(202), 및 예를 들어 컴퓨터 프로그램(PRG) 및/또는 데이터(DAT)를 적어도 일시적으로 저장하기 위한, 적어도 하나의 계산 유닛(202)에 연관된(즉, 그에 의해 사용가능한) 적어도 하나의 메모리 유닛(204)을 포함하고, 여기서 컴퓨터 프로그램(PRG)은 예를 들어 GAN 시스템(10)(도 2), 예를 들어 인코더(12) 및/또는 생성기(14)의 적어도 일부 양태들을 구현하기 위해, 예를 들어 장치(200)의 동작을 적어도 일시적으로 제어하도록 구성된다.

일부 예시적인 실시예들에서, 적어도 하나의 계산 유닛(202)은, 예를 들어 실시예들에 따른 방법 또는 적어도 하나 이상의 단계 및/또는 그것의 다른 양태들을 실행하기 위해 컴퓨터 프로그램(PRG) 또는 그 적어도 일부분들을 실행하기 위한 적어도 하나의 코어(도시되지 않음)를 포함한다.

추가의 예시적인 실시예들에 따르면, 적어도 하나의 계산 유닛(202)은 이하의 요소들: 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 프로세서(DSP), 프로그래밍가능한 로직 요소(예를 들어, FPGA(field programmable gate array)(필드 프로그래밍가능 게이트 어레이), ASIC(주문형 집적 회로)), 하드웨어 회로부, 텐서 프로세서, 그래픽 처리 유닛(GPU) 중 적어도 하나를 포함할 수 있다. 더 바람직한 실시예에 따르면, 이러한 요소들 중 둘 이상의 임의의 조합도 가능하다.

추가의 예시적인 실시예들에 따르면, 메모리 유닛(204)은 이하의 요소들: 휘발성 메모리(204a), 예를 들어 랜덤 액세스 메모리(RAM), 비휘발성 메모리(204b), 예를 들어 플래시-EEPROM 중 적어도 하나를 포함한다.

일부 예시적인 실시예들에서, 컴퓨터 프로그램(PRG)은 비휘발성 메모리(204b)에 적어도 일시적으로 저장된다. 예를 들어, 예를 들어 일부 예시적인 실시예들에 따른 방법을 실행하기 위해 사용될 수 있는 a) 디지털 이미지(들), b) GAN 시스템(10)의 파라미터들 및/또는 하이퍼파라미터들, c) 잠재 변수들, d) 예를 들어 잡음 맵을 마스킹하기 위한 무작위 데이터, e) 분포(들)(DISTR), f) 콘텐츠 정보(I-CONT-1), g) 스타일 정보(I-STYLE-2) 및 그와 유사한 것 중 적어도 하나에 연관된 데이터(DAT)는 RAM(204a) 내에 적어도 일시적으로 저장될 수 있다.

일부 예시적인 실시예들에서, 예를 들어 추가 컴퓨터 프로그램(PRG')의 형태로 명령어들을 포함하는 임의적 컴퓨터 판독가능 저장 매체(SM)가 제공될 수 있고, 여기서 추가 컴퓨터 프로그램(PRG')은 컴퓨터에 의해, 즉 계산 유닛(202)에 의해 실행될 때, 컴퓨터(202)로 하여금 실시예들에 따른 방법을 수행하게 할 수 있다. 예로서, 저장 매체(SM)는 반도체 메모리 디바이스(예를 들어, 솔리드 스테이트 드라이브(SSD))와 같은 디지털 저장 매체 및/또는 디스크 또는 하드디스크 드라이브(HDD)와 같은 자기 저장 매체 및/또는 컴팩트 디스크(CD) 또는 DVD(디지털 다목적 디스크)와 같은 광학 저장 매체 또는 그와 유사한 것을 포함하거나 나타낼 수 있다.

일부 예시적인 실시예들에서, 장치(200)는 예를 들어 외부 디바이스(도시되지 않음)와의 양방향 데이터 교환을 위한 임의적 데이터 인터페이스(206)를 포함할 수 있다. 예로서, 데이터 인터페이스(206)에 의해, 데이터 캐리어 신호(DCS)는 예를 들어 외부 디바이스로부터, 예를 들어 유선 또는 무선 데이터 전송 매체를 통해, 예를 들어 (가상) 사설 컴퓨터 네트워크, 및/또는 예를 들어 인터넷과 같은 공용 컴퓨터 네트워크를 통해 수신될 수 있다.

일부 예시적인 실시예들에서, 데이터 캐리어 신호(DCS)는 실시예들에 따른 컴퓨터 프로그램(PRG, PRG') 또는 그것의 적어도 일부를 나타내거나 운반할 수 있다.

추가의 예시적인 실시예들은, 프로그램이 컴퓨터(202)에 의해 실행될 때, 컴퓨터(202)로 하여금 실시예들에 따른 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 프로그램(PRG, PRG')에 관한 것이다.

도 20의 추가의 예시적인 실시예들은 실시예들에 따른 방법 및/또는 실시예들에 따른 장치(200) 및/또는 실시예들에 따른 컴퓨터 프로그램(PRG, PRG') 및/또는 실시예들에 따른 컴퓨터 판독가능 저장 매체(SM) 및/또는 실시예들에 따른 데이터 캐리어 신호(DCS)의 용도(30)로서, a) 제1 디지털 이미지에 연관된 잡음 예측 및 확장된 잠재 공간에 연관된 복수의 잠재 변수에 기초하여 적어도 하나의 추가 디지털 이미지를 결정하는 것(301) - 복수의 잠재 변수의 적어도 일부는 제1 디지털 이미지 외의 다른 데이터 및/또는 다른 이미지에 연관됨 - , b) 예를 들어 제1 디지털 이미지의 콘텐츠를 보존하면서, 제2 디지털 이미지로부터 제1 디지털 이미지로 스타일을 전사하는 것(302), c) 적어도 하나의 디지털 이미지의 스타일과 콘텐츠를 구분하는 것(303), d) 예를 들어 제1 디지털 이미지, 및 적어도 하나의 추가의, 예를 들어 제2의 디지털 이미지의 스타일에 기초하여, 변경되지 않은 콘텐츠를 갖는 상이하게 스타일화된 디지털 이미지들을 생성하는 것(304)(예를 들어, 도 18 참조), e) 스타일화된 이미지들에 대한 레이블 지정된 주석들을 사용하는 것(305), 예를 들어 재사용하는 것, f) 적어도 하나의 디지털 이미지의 스타일을 변경할 때 주석 작업을 방지하는 것(306), g) 예를 들어 상이한 스타일들을 갖는, 예를 들어 지각적으로 사실적인 디지털 이미지들을 생성하는 것(307), h) 예를 들어, 예를 들어 신경망 시스템의 분포 외 일반화(out-of-distribution generalization)를 테스트하기 위해 프록시 검증 세트를 제공하는 것(308), i) 기계 학습 시스템을 훈련하는 것(309), j) 기계 학습 시스템을 테스트하는 것(310), k) 기계 학습 시스템을 확인하는 것(311), l) 기계 학습 시스템을 검증하는 것(312), m) 예를 들어 기계 학습 시스템을 위해 훈련 데이터를 생성하는 것(313), n) 예를 들어 기존 이미지 데이터의 데이터 증강(314), o) 기계 학습 시스템의 일반화 성능을 개선하는 것(315), p) 예를 들어 복수의 데이터 세트에 연관된 훈련 없이, 이미지 스타일들을 조작하는 것(316), 예를 들어 유연하게 조작하는 것, q) 이미지 스타일들을 조작하기 위해 인코더 GAN 파이프라인(12, 14)을 이용하는 것(317), r) 인코더(12)에 의해, 이미지 스타일에 연관된 정보를 예를 들어 중간의 잠재 변수들에 임베딩하는 것(318), s) 예를 들어 혼합에 기초한 스타일을 포함하는 적어도 하나의 추가 디지털 이미지를 생성하기 위해 디지털 이미지들의 스타일들을 혼합하는 것(319) 중 적어도 하나를 위한 것인 용도에 관한 것이다.

이하에서는, 일부 예시적인 실시예들에서, 서로 및/또는 위에서 설명된 예시적인 양태들 중 적어도 하나와 결합될 수 있는 추가의 예시적인 실시예들에 따른 추가의 양태들 및 이점들이 제공된다.

일부 종래의 접근법들에서는, 딥 러닝에 대해 i.i.d(독립적이고 동일한 분포(independent and identically distributed)) 가정이 이루어졌는데, 즉, 예를 들어 디지털 이미지들과 같은 훈련 및 테스트 데이터는 동일한 분포로부터 추출되어야 한다. 그러나, 실제 생활에서는 i.i.d 가정이 쉽게 위반될 수 있다. 예를 들어, 상이한 기상 조건들, 상이한 도시들은 분포 시프트들을 야기할 수 있다. 적어도 일부 종래의 접근법들에서, 이러한 데이터 시프트들은 심각한 성능 저하로 이어질 수 있다. 적어도 일부 종래의 접근법들에서, 비감독 도메인 적응 또는 도메인 일반화는 이러한 쟁점을 완화하는 것을 목표로 한다.

일부 종래의 접근법들에서, 예를 들어 색상 변환 및 CutMix(https://arxiv.org/pdf/1912.04958.pdf)와 같은 데이터 증강 기술들이 제안되는데, 이는 데이터세트의 외양(appearance)을 무작위로 수정할 수 있지만 다른 데이터세트의 외양들/스타일들을 소스 데이터세트에 전사할 수는 없다. 일부 종래의 접근법들에서, 도메인 적응을 위한 이미지 대 이미지 변환은 이러한 타겟화된 변환을 수행할 수 있지만, 이미지 대 이미지 변환 모델이 소스 및 타겟 도메인 둘 다에 대해 훈련될 것을 요구한다.

일부 예시적인 실시예에서, 예를 들어, 실시예들에 따른 원리는 Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation(pSp)(https://arxiv.org/pdf/2008.00951.pdf)와 같이, 인코더-GAN 아키텍처에 대한 향상으로서 보여지고/거나 사용될 수 있다. 특히, 종래의 접근법들과는 대조적으로, 실시예들에 따른 원리는 예를 들어 다중-데이터세트 훈련 없이, 이미지 스타일들을 유연하게 조작할 수 있다. 일부 예시적인 실시예들에서, 실시예에 따른 원리를 적용함으로써 획득된 이미지들, 예를 들어 합성 이미지들은 예를 들어 모델 일반화 성능을 향상시키기 위해, 네트워크 훈련 동안 데이터 증강을 위해 사용될 수 있다.

일부 예시적인 실시예들에서, 예를 들어 실시예들에 따른 원리를 적용함으로써 획득되는, 스타일화된 이미지들은 예를 들어 모델의 분포 외(ood) 일반화 능력을 나타내기 위한, 검증을 위해 사용될 수 있다.

일부 예시적인 실시예들에서, 인코더-GAN 파이프라인은 이미지 스타일들을 조작하기 위해 사용된다. 일부 예시적인 실시예들에서, 예를 들어 적절하게 훈련된 인코더가 비감독 방식으로 스타일과 콘텐츠 정보를 구분할 수 있다는 것이 관찰될 수 있다. 보다 구체적으로, 일부 예시적인 실시예에서, 인코더는 스타일 정보를 중간 잠재 변수들에 임베딩하고, 콘텐츠 정보를 잡음들에 임베딩할 수 있다. 더욱이, 일부 예시적인 실시예들에서, 이 파이프라인은 보이지 않는 데이터세트들(unseen datasets)에 대해 잘 일반화된다.

일부 예시적인 실시예들에서, 실시예들에 따른 원리에 관련된 인코더 GAN 파이프라인의 이러한 매력적인 속성들을 활용하여, 예를 들어 훈련 및/또는 검증 동안, 예를 들어 이미지 스타일들을 조작하기 위해 및/또는 추가 용도들을 위해, 복수의 응용이 제안된다.

일부 예시적인 실시예들에서, 실시예들에 따른 원리는 다른 데이터세트들의 스타일들을 소스 데이터세트에 전사하고, 원본 이미지들의 잘 보존된 콘텐츠 정보로 스타일화된 이미지를 생성하는 것을 가능하게 한다.

일부 예시적인 실시예들에서, 실시예들에 따른 원리는 스타일들을 보간하고/하거나, 스타일 분포를 학습하고 스타일 분포로부터 샘플링하는 것을 가능하게 한다. 일부 예시적인 실시예들에서, 실시예들에 따른 원리를 적용함으로써 획득된 스타일화된 이미지들은 예를 들어 훈련 동안, 예를 들어 데이터 증강을 위해 사용될 수 있다.

일부 예시적인 실시예들에서, 실시예들에 따른 원리를 적용함으로써 획득된 스타일화된 이미지들은 예를 들어, 예를 들어 분포 외(ood) 데이터에 대한 프록시 검증 세트로서 사용될 수 있으며, 여기서 스타일화된 합성 이미지들에 대한 테스트 정확도는 ood 일반화 성능을 특정 정도까지 예측할 수 있다. 일부 예시적인 실시예들에서, 이는 모델 선택에 유용할 수 있다. 예를 들어, 맑은 날 장면들(소스 도메인)에 대해 훈련된 모델에 대해, 밤, 안개, 눈 및 다른 상이한 기상 조건들 하에서의 임의의 장면들이 ood 샘플들로 간주된다. 일부 예시적인 실시예들에서, 소스 이미지들의 콘텐츠를 보존하면서 ood 샘플들의 스타일들이 소스 도메인에 전사될 수 있다. 일부 예시적인 실시예들에서, 소스 도메인 이미지들이 레이블 지정될 수 있기 때문에, 모델들은 스타일화된 소스 이미지들에 대해 테스트될 수 있고, 테스트 정확도는 모델의 ood 일반화 능력을 나타낼 수 있다.

일부 예시적인 실시예들에서, 예를 들어 인코더(12, 12a)의 스타일-콘텐츠 구분 덕분에, 예시적인 실시예들은 이미지들의 콘텐츠가 변경되지 않은 채로, 예를 들어 원본 이미지에서와 동일한 콘텐츠를 유지하면서, 상이한 스타일화된 이미지들을 생성할 수 있다. 따라서, 일부 예시적인 실시예들에서, 원본 이미지들의 레이블 지정된 주석들이 스타일화된 이미지들을 위해 또한 사용될 수 있다.

일부 종래의 접근법들에서, 기존 데이터에 의해 커버되지 않는 분포로부터 샘플들을 추출할 때, 수집된 샘플들이 레이블 지정되도록 요구되는데, 예시적인 실시예들에서는 레이블 보존으로 인해 그렇지 않다. 따라서, 일부 예시적인 실시예들에서, 예를 들어 추가적인 주석 작업을 위한 시간 및/또는 비용이 절약될 수 있다.

또한, 일부 예시적인 실시예들에서, 실시예들의 원리를 적용함으로써 획득될 수 있는 스타일-혼합 이미지들은 지각적으로 사실적이며, 예를 들어 타겟 데이터세트들에 가깝다. 따라서, 일부 예시적인 실시예들에서, 이들은 분포 외 일반화를 테스트하기 위한 프록시 검증 세트로서 사용될 수 있다.

일부 예시적인 실시예들에서, 실시예들의 원리에 따른 인코더-GAN 파이프라인은 예를 들어 일부 종래의 이미지 대 이미지 변환 방법들과 같이, 타겟 데이터세트들에 대한 훈련을 필요로 하지 않는다. 일부 예시적인 실시예들에서, 단일 데이터세트 훈련 모델(single dataset trained model)은 보이지 않는 데이터세트들에 대해 잘 일반화되며, 이는 더 유연한 스타일 혼합 및 조작을 가능하게 한다.

일부 예시적인 실시예들에서, 실시예들의 원리는 예를 들어 기계 학습(ML) 시스템을 훈련하는 것, 이 훈련을 위한 훈련 데이터를 생성하는 것, 예를 들어 훈련된 ML 시스템이 다음으로 안전하게 작동될 수 있는지를 검사하기 위해 테스트 데이터를 생성하는 것 중 적어도 하나를 위해 사용될 수 있다.

일부 예시적인 실시예들에서, 실시예들의 양태들은 예를 들어 훈련 또는 테스트 데이터를 생성하기 위한 생성적 모델, 및 생성적 모델을 훈련하는 방법에 관한 것이고/거나 그를 특징화한다.

일부 예시적인 실시예들에서, 실시예들에 따른 원리는 예를 들어 a) 데이터 분석, 예를 들어 디지털 이미지 및/또는 비디오 데이터의 분석, b) 디지털 이미지 데이터의 분류, c) 데이터 내의 객체들의 존재의 검출, d) 예를 들어 d1) 교통 표지판, d2) 도로 표면, d3) 보행자, d4) 차량, d5) 예를 들어 시멘틱 분할 태스크에서 표시될 수 있는 객체 클래스들, 예를 들어, 나무, 하늘, … 중 적어도 하나에 관한, 그러나 이에 제한되지는 않는 데이터에 대한 시멘틱 분할의 수행 중 적어도 하나를 위해 사용될 수 있지만, 이에 제한되지는 않는다.

Claims

디지털 이미지 데이터를 처리하는 방법, 예를 들어 컴퓨터에 의해 구현되는 방법으로서,
제1 디지털 이미지(x1)를 생성적 적대 네트워크(generative adversarial network)(GAN) 시스템(10)의 생성기(14; 14a)에 연관된 확장된 잠재 공간(extended latent space)(SP-W+)에 매핑하도록 구성된 인코더(12; 12a)에 의해, 상기 제1 디지털 이미지(x1)에 연관된 잡음 예측(noise prediction)(PRED-NOISE-x1)을 결정하는 단계(100); 상기 GAN 시스템(10)의 상기 생성기(14)에 의해, 상기 제1 디지털 이미지(x1)에 연관된 상기 잡음 예측(PRED-NOISE-x1), 및 상기 확장된 잠재 공간(SP-W+)에 연관된 복수의 잠재 변수(LAT-VAR)에 기초하여, 적어도 하나의 추가 디지털 이미지(x')를 결정하는 단계(102)를 포함하는, 방법.
제1항에 있어서, a) 예를 들어 상기 인코더(12)를 사용하여, 상기 제1 디지털 이미지(x1)와 상이한 제2 디지털 이미지(x2), b) 복수의 확률 분포(DISTR) 중 적어도 하나에 기초하여 상기 복수의 잠재 변수(LAT-VAR)를 결정하는 단계(110)를 포함하는, 방법.
제1항 또는 제2항에 있어서, 상기 확장된 잠재 공간(SP-W+)에 연관된 상기 복수의 잠재 변수(LAT-VAR)의 적어도 일부는 상기 제1 디지털 이미지(x1)의 이하의 양태들: a) 스타일, 예를 들어 비-시멘틱 외관(non-semantic appearance), b) 텍스처, c) 색상 중 적어도 하나를 특징화하는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, a) 상기 제1 디지털 이미지(x1)에 기초하여 복수의, 예를 들어 계층적인, 피쳐 맵(feature map)(FM)을 결정하는 단계(120); b) 상기 복수의, 예를 들어 계층적인, 피쳐 맵(FM)에 기초하여 상기 제1 디지털 이미지(x1)에 대한 상기 확장된 잠재 공간(SP-W+)에 연관된 복수의 잠재 변수(LAT-VAR-x1)를 결정하는 단계(122); c) 상기 복수의, 예를 들어 계층적인, 피쳐 맵(FM) 중 적어도 하나에 기초하여, 예를 들어 부가적인, 잡음 맵(NOISE-MAP)을 결정하는 단계(124) 중 적어도 하나를 포함하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 제1 디지털 이미지(x1)에 연관된 상기 잡음 예측(PRED-NOISE-x1)의 적어도 일부분을 무작위로 및/또는 의사-무작위로 마스킹하는 단계(130)를 포함하는, 방법.
제4항 또는 제5항에 있어서, 예를 들어 무작위 및/또는 의사 무작위 방식으로 상기 잡음 맵(NOISE-MAP)을 마스킹하는 단계(132)를 포함하는, 방법.
제6항에 있어서, 상기 잡음 맵(NOISE-MAP; ε)을 복수의, 예를 들어 P×P의 다수의, 예를 들어 비-중첩의 패치(PATCH)로 분할, 예를 들어 공간적으로 분할하는 단계(132a); 상기 패치들(PATCH)의 서브세트(PATCH-SUB)를 무작위 및/또는 의사 무작위 방식으로 선택하는 단계(132b); 상기 패치들(PATCH)의 상기 서브세트(PATCH-SUB)를 예를 들어 동일한 크기의, 예를 들어 단위 가우시안(unit Gaussian)의 무작위 변수들의 패치들(PATCH-RND)로 대체하는 단계(132c)를 포함하는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 제1 디지털 이미지(x1)에 연관된 상기 잡음 예측(PRED-NOISE-x1)을 제2 디지털 이미지(x2) 또는 상기 제2 디지털 이미지(x2)의 스타일 예측(PRED-STYLE-x2)과 결합하는 단계(140); 결합된, 상기 제1 디지털 이미지(x1)에 연관된 상기 잡음 예측(PRED-NOISE-x1) 및 상기 제2 디지털 이미지(x2)의 스타일 예측(PRED-STYLE-x2)에 기초하여 상기 생성기(14)를 사용하여 추가 디지털 이미지(x12)를 생성하는 단계(142)를 포함하는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 제1 디지털 이미지(x1)에 연관된 상기 잡음 예측(PRED-NOISE-x1)을 제공하는 단계(150); 상기 제1 디지털 이미지(x1)의, 예를 들어 시멘틱의, 콘텐츠에 적용될 상이한 스타일들을 특징화하는 잠재 변수들의 상이한 세트들(SET-LAT-VAR)을 제공하는 단계(152); 상기 제1 디지털 이미지(x1)에 연관된 상기 잡음 예측(PRED-NOISE-x1) 및 상기 상이한 스타일들을 특징화하는 상기 잠재 변수들의 상이한 세트들(SET-LAT-VAR)에 기초하여 상기 생성기(14)를 사용하여 상이한 스타일들을 갖는 복수의 디지털 이미지(PLUR-x)를 생성하는 단계(154)를 포함하는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 제1 도메인(DOM-1)에 연관된, 예를 들어 하나 이상의 디지털 이미지를 포함하는 이미지 데이터(IMG-DAT-DOM-1)를 제공하는 단계(160); 제2 도메인(DOM-2)에 연관된, 예를 들어 하나 이상의 디지털 이미지를 포함하는 이미지 데이터(IMG-DAT-DOM-2)를 제공하는 단계(162); 상기 제1 도메인(DOM-1)에 연관된 상기 이미지 데이터(IMD-DAT-DOM-1)에 상기 제2 도메인(DOM-2)의 스타일(STYLE-2)을 적용하는 단계(164)를 포함하는, 방법.
제10항에 있어서, 상기 제1 도메인(DOM-1)에 연관된 상기 이미지 데이터(IMG-DAT-DOM-1)는 레이블들(LAB)을 포함하고, 예를 들어, 상기 제1 도메인(DOM-1)에 연관된 상기 이미지 데이터(IMD-DAT-DOM-1)에 상기 제2 도메인(DOM-2)의 스타일(STYLE-2)을 적용하는 단계(164)는 상기 레이블들(LAB)을 보존하는 단계(164a)를 포함하는, 방법.
제1항 내지 제11항 중 어느 한 항에 있어서, 제1 콘텐츠 정보(I-CONT-1)를 갖는 제1 이미지 데이터(IMG-DAT-1)를 제공하는 단계(170); 제2 이미지 데이터(IMG-DAT-2)를 제공하는 단계(172) - 예를 들어 상기 제2 이미지 데이터(IMG-DAT-2)는 상기 제1 콘텐츠 정보(I-CONT-1)와는 상이한 제2 콘텐츠 정보(I-CONT-2)를 포함함 - ; 상기 제2 이미지 데이터(IMG-DAT-2)의 스타일 정보(I-STYLE-2)를 추출하는 단계(174); 상기 제2 이미지 데이터(IMG-DAT-2)의 상기 스타일 정보(I-STYLE-2)의 적어도 일부를 상기 제1 이미지 데이터(IMG-DAT-1)에 적용하는 단계(176)를 포함하는, 방법.
제1항 내지 제12항 중 어느 한 항에 있어서, 예를 들어 적어도 하나의 신경망 시스템(neural network system)(NNS)을 훈련하기 위한 훈련 데이터(TRAIN-DAT)를 생성하는 단계(180) - 상기 생성하는 단계(180)는 예를 들어 소스 도메인의 이미지 데이터(IMG-DAT-SRC)에 기초하고 상기 소스 도메인의 수정된 이미지 데이터(IMG-DAT-SRC')에 기초하며, 예를 들어, 상기 수정된 이미지 데이터(IMG-DAT-SRC')는 예를 들어 추가 이미지 데이터(IMG-DAT')의 스타일에 기초하여, 이미지 스타일에 관련하여 수정되고/거나 수정되어 있음 - ; 및 임의적으로(optionally) 상기 훈련 데이터(TRAIN-DAT)에 기초하여 상기 적어도 하나의 신경망 시스템(NNS)을 훈련하는 단계(182)를 포함하는, 방법.
장치(200)로서,
제1항 내지 제13항 중 어느 한 항에 따른 방법을 수행하기 위한, 장치.
컴퓨터 프로그램(PRG; PRG')으로서,
상기 프로그램(PRG; PRG')이 컴퓨터(202)에 의해 실행될 때, 상기 컴퓨터(202)로 하여금 제1항 내지 제13항 중 어느 한 항에 따른 방법을 수행하게 하는 명령어들을 포함하는, 컴퓨터 프로그램.
컴퓨터 판독가능 저장 매체(SM)로서,
컴퓨터(202)에 의해 실행될 때, 상기 컴퓨터(202)로 하여금 제1항 내지 제13항 중 어느 한 항에 따른 방법을 수행하게 하는 명령어들(PRG')을 포함하는, 컴퓨터 판독가능 저장 매체(SM).
데이터 캐리어 신호(DCS)로서,
제15항의 컴퓨터 프로그램(PRG; PRG')을 운반하고/거나 상기 컴퓨터 프로그램(PRG; PRG')을 특징화하는, 데이터 캐리어 신호.
제1항 내지 제13항 중 어느 한 항에 따른 방법 및/또는 제14항에 따른 장치(200) 및/또는 제15항에 따른 컴퓨터 프로그램(PRG; PRG) 및/또는 제16항에 따른 컴퓨터 판독가능 저장 매체(SM) 및/또는 제17항에 따른 데이터 캐리어 신호(DCS)의 용도(300)로서,
a) 상기 제1 디지털 이미지(x1)에 연관된 상기 잡음 예측(PRED-NOISE-x1) 및 상기 확장된 잠재 공간(SP-W+)에 연관된 복수의 잠재 변수(LAT-VAR)에 기초하여 적어도 하나의 추가 디지털 이미지(x')를 결정하는 것(301) - 상기 복수의 잠재 변수(LAT-VAR)의 적어도 일부는 상기 제1 디지털 이미지(x1) 외의 다른 데이터 및/또는 다른 이미지에 연관됨 - , b) 예를 들어 상기 제1 디지털 이미지의 콘텐츠를 보존하면서, 제2 디지털 이미지로부터 상기 제1 디지털 이미지로 스타일을 전사(transferring)하는 것(302), c) 적어도 하나의 디지털 이미지의 스타일과 콘텐츠를 구분(disentangling)하는 것(303), d) 예를 들어 상기 제1 디지털 이미지, 및 적어도 하나의 추가의, 예를 들어 제2의 디지털 이미지의 스타일에 기초하여, 변경되지 않은 콘텐츠를 갖는 상이하게 스타일화된 디지털 이미지들을 생성하는 것(304), e) 스타일화된 이미지들에 대한 레이블 지정된 주석들(labelled annotations)을 사용하는 것(305), 예를 들어 재사용하는 것, f) 적어도 하나의 디지털 이미지의 스타일을 변경할 때 주석 작업을 방지하는 것(306), g) 예를 들어 상이한 스타일들을 갖는, 예를 들어 지각적으로 사실적(perceptually realistic)인 디지털 이미지들을 생성하는 것(307), h) 예를 들어 신경망 시스템의 예를 들어 분포 외 일반화(out-of-distribution generalization)를 테스트하기 위해 프록시 검증 세트(들)를 제공하는 것(308), i) 기계 학습 시스템을 훈련하는 것(309), j) 기계 학습 시스템을 테스트하는 것(310), k) 기계 학습 시스템을 확인(verifying)하는 것(311), l) 기계 학습 시스템을 검증(validating)하는 것(312), m) 예를 들어 기계 학습 시스템을 위해 훈련 데이터를 생성하는 것(313), n) 예를 들어 기존 이미지 데이터의 데이터 증강(314), o) 기계 학습 시스템의 일반화 성능을 개선하는 것(315), p) 예를 들어 복수의 데이터 세트에 연관된 훈련 없이, 이미지 스타일들을 조작하는 것(316), 예를 들어 유연하게(flexibly) 조작하는 것, q) 이미지 스타일들을 조작하기 위해 인코더 GAN 파이프라인을 이용하는 것(317), r) 상기 인코더(12)에 의해, 이미지 스타일에 연관된 정보를, 예를 들어 중간의, 잠재 변수들에 임베딩하는 것(318), s) 예를 들어 혼합하는 것(319)에 기초한 스타일을 포함하는 적어도 하나의 추가 디지털 이미지를 생성하기 위해 디지털 이미지들의 스타일들을 혼합하는 것(319) 중 적어도 하나를 위한 것인, 용도.