KR102602112B1

KR102602112B1 - 얼굴 이미지 생성을 위한 데이터 프로세싱 방법 및 디바이스, 및 매체

Info

Publication number: KR102602112B1
Application number: KR1020217020518A
Authority: KR
Inventors: 융 장; 레이 리; 지레이 리우; 바오위안 우; 옌보 판; 즈펑 리; 웨이 류
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2019-04-26
Filing date: 2020-04-02
Publication date: 2023-11-13
Also published as: US11854247B2; EP3961486A4; CN110084193A; KR20210095696A; US20210279515A1; JP2022513858A; WO2020216033A1; EP3961486A1; CN110084193B; JP7246811B2

Abstract

얼굴 이미지 생성을 위한 데이터 프로세싱 방법 및 디바이스, 매체 및 컴퓨터 디바이스가 개시된다. 데이터 프로세싱 방법은: 제1 얼굴 이미지(I_MA) 및 제2 얼굴 이미지(I_FA)를 획득하는 단계; 제1 얼굴 이미지(I_MA)에서 얼굴 특징(facial feature)들에 대응하는 M개의 제1 이미지 블록들을 획득하고, 제2 얼굴 이미지(I_FA)에서 얼굴 특징들에 대응하는 N개의 제2 이미지 블록들을 획득하는 단계; M개의 제1 이미지 블록들 및 N개의 제2 이미지 블록들을 특징 공간으로 변환하여 M개의 제1 특징 블록들 및 N개의 제2 특징 블록들을 생성하는 단계; 특정 제어 벡터에 따라 제1 특징 블록들 중 일부 및 제2 특징 블록들 중 일부를 선택하는 단계; 선택된 일부 제1 특징 블록 및 선택된 일부 제2 특징 블록에 기초하여 제1 합성 특징 맵을 생성하는 단계; 및 제1 합성 특징 맵을 다시 이미지 공간으로 역변환하여 제3 얼굴 이미지를 생성하는 단계를 포함하며, M 및 N은 자연수들이다.

Description

얼굴 이미지 생성을 위한 데이터 프로세싱 방법 및 디바이스, 및 매체

본 출원은 2019년 4월 26일자로 중국 특허청에 출원된 “얼굴 이미지 생성을 위한 데이터 프로세싱 방법 및 디바이스, 및 매체”라는 명칭의 중국 특허 출원 201910345276.6호를 우선권으로 주장하며, 이는 전체가 인용에 본원에 포함된다.

본 출원은 이미지 프로세싱 분야에 관한 것으로, 보다 구체적으로는, 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법 및 디바이스, 매체 및 컴퓨터 디바이스에 관한 것이다.

신흥 연구 분야로서, 얼굴 이미지 생성 기술은, 아동 얼굴 예측, 범죄 수사시 범죄자 이미지 복원 및 가상 캐릭터 구축과 같은 측면들에서 폭 넓은 적용 가능성들을 갖는다. 예를 들어, 얼굴 이미지를 입력함으로써, 얼굴 이미지와 유사하지만 상이한 다른 브랜-뉴(bran-new) 얼굴 이미지를 타겟 이미지로서 생성할 수 있다.

기존 얼굴 이미지 생성 솔루션에서는, 타겟 이미지를 생성하기 위해 범용 프로세싱 네트워크가 사용된다. 예를 들어, 트레이닝된 인코딩 네트워크 및 디코딩 네트워크에 얼굴 이미지가 입력된 다음, 타겟 이미지가 출력된다. 그러나, 이러한 이미지 생성 솔루션의 문제점은, 범용 프로세싱 네트워크에 의해 출력되는 합성 얼굴 이미지의 조화와 자연스러움이 불량하여, 사용자가 그것이 실제 얼굴 이미지라고 믿기 어렵게 된다는 점이다.

위의 관점에서, 본 출원의 실시예들은, 실제 얼굴 이미지에 더 가까운 합성 얼굴 이미지를 생성하기 위한, 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법 및 디바이스, 매체 및 컴퓨터 디바이스를 제공한다.

본 출원의 측면에 따르면, 컴퓨터 디바이스에 의해 수행되는 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법이 제공된다. 이 방법은: 제1 얼굴 이미지 및 제2 얼굴 이미지를 획득하는 단계; 제1 얼굴 이미지(I_MA)로부터 얼굴 특징(facial feature)들에 대응하는 M개의 제1 이미지 블록들을 획득하고, 제2 얼굴 이미지(I_FA)로부터 얼굴 특징들에 대응하는 N개의 제2 이미지 블록들을 획득하는 단계; M개의 제1 이미지 블록들 및 N개의 제2 이미지 블록들을 특징 공간으로 변환하여 M개의 제1 특징 블록들 및 N개의 제2 특징 블록들을 생성하는 단계; 지정된 제어 벡터에 따라 제1 특징 블록들의 서브세트 및 제2 특징 블록들의 서브세트를 선택하는 단계; 선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트에 기초하여 제1 합성 특징 맵을 생성하는 단계; 및 제1 합성 특징 맵을 다시 이미지 공간으로 역변환하여 제3 얼굴 이미지를 생성하는 단계를 포함하며, M 및 N은 자연수들이다.

본 출원의 다른 측면에 따르면, 얼굴 이미지를 생성하기 위한 데이터 프로세싱 디바이스가 제공되며, 이는, 입력된 제1 얼굴 이미지로부터 얼굴 특징들에 대응하는 M개의 제1 이미지 블록들을 획득하고, 입력된 제2 얼굴 이미지로부터 얼굴 특징들에 대응하는 N개의 제2 이미지 블록들을 획득하도록 구성된 분할 장치(segmentation apparatus); M개의 제1 이미지 블록들 및 N개의 제2 이미지 블록들을 특징 공간으로 변환하여 M개의 제1 특징 블록들 및 N개의 제2 특징 블록들을 생성하도록 구성된 제1 변환 장치; 지정된 제어 벡터에 따라 제1 특징 블록들의 서브세트 및 제2 특징 블록들의 서브세트를 선택하도록 구성된 선택 장치; 선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트에 기초하여 제1 합성 특징 맵을 생성하도록 구성된 제1 합성 장치; 및 제1 합성 특징 맵을 다시 이미지 공간으로 역변환하여 제3 얼굴 이미지를 생성하도록 구성된 제1 역변환 장치를 포함한다.

본 출원의 또 다른 측면에 따르면, 컴퓨터 프로그램을 저장하는 컴퓨터-판독가능 기록 매체가 제공되며, 프로세서는, 컴퓨터 프로그램을 실행할 때, 전술한 실시예들에서의 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법을 수행한다.

본 출원의 또 다른 측면에 따르면, 컴퓨터 디바이스가 제공된다. 컴퓨터 디바이스는 메모리 및 프로세서를 포함하고, 메모리는 컴퓨터 프로그램을 저장하도록 구성되고, 프로세서는, 컴퓨터 프로그램을 실행하여 전술한 실시예들에서의 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법을 구현하도록 구성된다.

도 1은, 본 출원의 일 실시예에 따른, 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법의 프로세스의 흐름도이다.
도 2는, 본 출원의 실시예에 따른, 상속 네트워크(inheritance network)의 데이터 스트림의 개략도이다.
도 3은, 본 출원의 실시예에 따른, 상이한 제어 벡터들에 기초한 얼굴 이미지 생성 결과들을 도시한다.
도 4는, 본 출원의 일 실시예에 따른, 입력된 얼굴 이미지에 랜덤 인자(random factor)가 추가된 경우의 얼굴 이미지 생성 결과를 도시한다.
도 5는, 본 출원의 실시예에 따른, 속성 향상 네트워크(attribute enhancement network)의 데이터 스트림의 개략도이다.
도 6은 지정된 제어 벡터에 기초하여 생성된 상이한 연령들의 얼굴 이미지들을 도시한다.
도 7은 지정된 제어 벡터에 기초하여 생성된 상이한 연령들 및 상이한 성별들을 갖는 얼굴 이미지들을 도시한다.
도 8은, 본 출원의 실시예에 따른, 상속 네트워크의 트레이닝 프로세스의 흐름도이다.
도 9는 상속 네트워크의 트레이닝 프로세스에서 2개의 얼굴 특징 교환들에 대한 프로세스의 개략도이다.
도 10은, 본 출원의 실시예에 따른, 상속 네트워크의 트레이닝 프로세스에서 데이터 스트림의 개략도이다.
도 11은, 본 출원의 실시예에 따른, 속성 향상 네트워크의 트레이닝 프로세스의 흐름도이다.
도 12는, 본 출원의 실시예에 따른, 속성 향상 네트워크의 트레이닝 프로세스에서 데이터 스트림의 다이어그램이다.
도 13은, 본 출원의 실시예에 따른, 적용 환경의 개략도이다.
도 14는, 본 출원의 실시예에 따른, 얼굴 이미지를 생성하기 위한 데이터 프로세싱 디바이스의 구성의 기능 블록도이다.
도 15는, 본 출원의 실시예에 따른, 하드웨어 엔티티로서의 얼굴 이미지를 생성하기 위한 데이터 프로세싱 디바이스의 예를 도시한다.
도 16은, 본 출원의 실시예에 따른, 컴퓨터-판독가능 기록 매체의 개략도이다.

본 출원의 구현들은 첨부된 도면들을 참조하여 아래에서 설명된다. 첨부된 도면을 참조로, 하기의 설명은 청구항들 및 이의 등가물들에 의해 정의되는 본 출원의 예시적인 구현의 이해를 돕기 위해 제공된다. 설명은 이해를 돕기 위한 특정 세부사항들을 포함하고 있지만, 특정 세부사항들은 단지 예시일 뿐이다. 따라서, 당업자는, 본 출원의 범위 및 정신을 벗어남 없이, 본원에서 설명되는 구현들에 대해 다양한 변경들 및 수정들이 이루어질 수 있음을 알고 있다. 또한 본 명세서를 보다 명확하고 간결하게 하기 위해, 당업계에 잘 알려진 기능들 및 구성들에 대한 상세한 설명들은 생략된다.

배경기술 섹션에서 설명된 바와 같이, 종래 기술에 따르면 얼굴 생성 솔루션은 범용 프로세싱 네트워크를 사용하기 때문에, 출력되는 얼굴 이미지와 실제 얼굴 이미지 간의 차는 상대적으로 크다. 또한, 종래 기술에 따른 얼굴 생성 솔루션에서는, 출력된 합성 얼굴 이미지에 대한 수퍼비전 정보(supervision information)를 제공하기 위해, 범용 프로세싱 네트워크에서 인코딩 네트워크 및 디코딩 네트워크를 트레이닝시키기 위한 실제 얼굴 데이터베이스가 수집되고 구축되어야 한다. 예를 들어, 아이 얼굴 예측의 적용 시나리오에서는, 아버지/어머니와 아이 간의 관계로 얼굴 데이터베이스를 수집하고 구축하는 것이 필요하다. 실제 아이 얼굴 이미지가 아버지 또는 어머니 얼굴 이미지를 기초로 프로세싱 네트워크에 의해 출력되는 합성 아이 얼굴 이미지의 수퍼비전 정보로 사용되어 프로세싱 네트워크의 파라미터들이 조정되고, 이로써, 트레이닝된 프로세싱 네트워크가 입력된 얼굴 이미지와 같고 실제 이미지와 유사한 합성 얼굴 이미지를 출력할 수 있다. 그러나, 실제로, 그러한 데이터베이스를 수집하고 구축하는 데는 비교적 많은 비용이 요구된다.

따라서, 본 출원의 일부 실시예들에서는, 얼굴 이미지를 합성하도록 특화된 상속 네트워크가 제공되며, 이는 범용 프로세싱 네트워크에 비해, 실제 이미지에 더 가까운 합성 얼굴 이미지를 출력할 수 있으며 합성 얼굴 이미지가 상속하는 2개의 입력된 얼굴 이미지들에서 얼굴 특징들을 정확하게 제어할 수 있다. 더욱이, 본 출원의 실시예들은 추가로, 상속 네트워크에 의해 출력되는 합성 얼굴 이미지에 기초하여, 비교적 넓은 범위 내에서 합성 얼굴 이미지의 속성들(이를테면, 연령 및 성별)을 조정할 수 있는 속성 향상 네트워크를 제공한다. 또한, 본 출원의 실시예들에서는, 아버지/어머니와 자식 간의 관계로 얼굴 데이터베이스 없이 상속 네트워크 및 속성 향상 네트워크를 트레이닝시키는 방법이 제공된다. 본 출원의 실시예들에 따라 상속 네트워크 및 속성 향상 네트워크를 트레이닝시키는 프로세스에서, 프로세싱 네트워크들은 아버지/어머니와 자식 간의 관계로 얼굴 데이터베이스를 구축하지 않고 임의의 기존의 얼굴 데이터베이스를 바로 사용함으로써 트레이닝될 수 있다.

본 출원을 더 잘 이해하기 위해, 다음에서 언급되는 용어들의 구체적인 의미가 다음과 같이 정의된다:

제1 얼굴 이미지는 적용 모드에서 상속 네트워크에 입력되는 이미지이며, I_MA로 표현된다.

제2 얼굴 이미지는 적용 모드에서 상속 네트워크에 입력되는 또 다른 이미지이며, I_FA로 표현된다.

제3 얼굴 이미지는 적용 모드에서 상속 네트워크에 의해 출력되는 이미지이며, I_o1로 표현된다.

제4 얼굴 이미지는 적용 모드에서 상속 네트워크에 의해 출력되는 추가 이미지이며, I_o2로 표현된다.

제5 얼굴 이미지는 트레이닝 모드에서 상속 네트워크에 입력되는 이미지이며, I_M으로 표현된다.

제6 얼굴 이미지는 트레이닝 모드에서 상속 네트워크에 입력되는 또 다른 이미지이며, I_F로 표현된다.

제7 얼굴 이미지는 트레이닝 모드에서 상속 네트워크에 의해 출력되는 이미지이며, I'_M으로 표현되고, 제5 얼굴 이미지(I_M)가 수퍼비전 이미지로 사용된다.

제8 얼굴 이미지는 트레이닝 모드에서 상속 네트워크에 의해 출력되는 이미지이며, I'_F로 표현되고, 제6 얼굴 이미지(I_F)가 수퍼비전 이미지로 사용된다.

제9 얼굴 이미지는 트레이닝 모드에서 속성 향상 네트워크에 의해 출력되는 이미지이며, 로 표현되고, 제7 얼굴 이미지(I'_M)가 수퍼비전 이미지로 사용된다.

제10 얼굴 이미지는 트레이닝 모드에서 속성 향상 네트워크에 의해 출력되는 이미지이며, 로 표현되고, 제8 얼굴 이미지(I'_F)가 수퍼비전 이미지로 사용된다.

그 다음, 본 출원에 따른 실시예들이 첨부 도면들을 참조하여 상세히 설명된다. 먼저, 본 출원의 실시예에 따라 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법이 도 1을 참조로 설명된다. 방법은 서버는 의해 수행된다. 도 1에 도시된 바와 같이, 데이터 프로세싱 방법은 다음의 단계들을 포함한다:

단계(S101)에서, 제1 얼굴 이미지(I_MA) 및 제2 얼굴 이미지(I_FA)가 획득된다.

그런 다음, 단계(S102)에서, 얼굴 특징들에 대응하는 M개의 제1 이미지 블록들이 제1 얼굴 이미지(I_MA)로부터 획득되고, 얼굴 특징들에 대응하는 N개의 제2 이미지 블록들이 제2 얼굴 이미지(I_FA)로부터 획득된다. 여기서, 얼굴 특징들은 기관(organ)(이를테면, 눈썹들, 눈들, 코, 입 및 얼굴 윤곽), 조직 또는 국소 특징들(이를테면, 이마, 얼굴 및 피부에 있는 특징들) 등일 수 있다. M개의 제1 이미지 블록들은 각각 상이한 얼굴 특징들에 대응하고, 유사하게, N개의 제2 이미지 블록들은 각각 상이한 얼굴 특징들에 대응한다. M과 N은 자연수들이다.

예를 들어, 제1 얼굴 이미지와 제2 얼굴 이미지는 성별들이 상이한 사람들의 얼굴 이미지들, 예를 들면, 남성 얼굴 이미지와 여성 얼굴 이미지들일 수 있다. 대안적으로, 제1 얼굴 이미지와 제2 얼굴 이미지는 성별이 동일한 사람들의 얼굴 이미지들일 수 있다.

또한, 예를 들어, 제1 얼굴 이미지와 제2 얼굴 이미지는 카메라에 의해 촬영된 실제 얼굴 이미지들일 수 있다. 대안적으로, 제1 얼굴 이미지와 제2 얼굴 이미지는 기존의 얼굴 특징 데이터베이스로부터 선택된 얼굴 특징 이미지들에 기초하여 생성된 합성 이미지들일 수 있다. 구체적으로, 제1 얼굴 이미지는, 사람의 원래 얼굴 특징을 얼굴 특징 데이터베이스로부터 무작위로 선택된 얼굴 특징으로 교체함으로써 생성되는 합성 이미지일 수 있고, 제2 얼굴 이미지는 유사한 방식으로 생성된 합성 이미지일 수 있다. 대안적으로, 제1 얼굴 이미지는, 얼굴 특징 데이터베이스로부터 무작위로 선택되어 결합된 모든 얼굴 특징들로 생성된 합성 이미지일 수 있고, 제2 얼굴 이미지는 유사한 방식으로 생성된 합성 이미지일 수 있다.

다른 예에서, 제1 얼굴 이미지와 제2 얼굴 이미지는 대안적으로 만화 얼굴 이미지들일 수 있다. 본 출원의 이 실시예에서, 제1 얼굴 이미지와 제2 얼굴 이미지의 유형들이 특별히 제한되지 않는다는 것을 알 수 있다. 입력으로 사용될 수 있는 임의의 2개의 얼굴 이미지들이 본 출원의 실시예들에 유사하게 적용될 수 있으며 본 출원의 범위에 속한다.

입력된 얼굴 이미지에 대해, 먼저 얼굴 특징들이 얼굴 보정을 통해 포지셔닝된 다음, 얼굴 이미지들이 얼굴 특징들에 대응하는 이미지 블록들로 분할된다. 새로운 얼굴 이미지를 생성하는 데 필요한 상이한 얼굴 특징들의 총 수량은 미리설정되며 L로 표현되고, L은 자연수이다. 예를 들어, 가능한 구현에서, 얼굴 특징들은 왼쪽 눈 및 왼쪽 눈썹, 오른쪽 눈 및 오른쪽 눈썹, 코, 입 및 얼굴 윤곽을 포함할 수 있다. 이 경우, 새로운 얼굴 이미지를 생성하는 데 필요한 상이한 얼굴 특징들의 총 수량은 5이다. 입력된 얼굴 이미지들이 완전한 정면 이미지인 경우, 분할을 통해 획득된 이미지 블록들의 수량은 상이한 얼굴 특징들의 총 수량과 동일하다. 즉, 필요한 모든 상이한 얼굴 특징들이 얼굴 이미지로부터 검출될 수 있다. 이 구현에서, 입력된 얼굴 이미지는 5개의 이미지 블록들: 왼쪽 눈과 왼쪽 눈썹에 대응하는 이미지 블록, 오른쪽 눈과 오른쪽 눈썹에 대응하는 이미지 블록, 코에 대응하는 이미지 블록, 입에 대응하는 이미지 블록 및 얼굴 윤곽에 대응하는 이미지 블록으로 분할될 수 있다. 물론, 이러한 분할은 단지 예일뿐이며, 다른 분할들도 또한 가능하다. 예를 들어, 입력된 얼굴 이미지는 대안적으로, 눈들에 대응하는 이미지 블록, 눈썹들에 대응하는 이미지 블록, 코에 대응하는 이미지 블록, 입에 대응하는 이미지 블록 및 얼굴 윤곽에 대응하는 이미지 블록으로 분할될 수 있다. 그러나, 입력된 얼굴 이미지가 특정 각도에서의 측면 이미지이거나 또는 입력된 얼굴 이미지가 불완전한 정면 이미지인 경우, 이러한 얼굴 이미지로부터 분할된 이미지 블록들의 수량은 필요한 상이한 얼굴 특징들의 총 수량보다는 적다. 즉, 일부 얼굴 특징들이 얼굴 이미지로부터 검출되지 않을 수 있다. 새로운 얼굴 이미지는 제1 얼굴 이미지로부터 일부 얼굴 특징들을 그리고 제2 얼굴 이미지에서 일부 얼굴 특징들을 선택함으로써 후속 단계에서 합성될 수 있기 때문에, 2개의 입력된 얼굴 이미지들로부터 획득된 모든 얼굴 특징들이 함께 맞춰져 새로운 얼굴 이미지를 생성할 수 있다면, 하나의 입력된 얼굴 이미지로부터 새로운 얼굴 이미지를 생성하는 데 필요한 모든 얼굴 특징들을 얻을 필요가 없다.

요약하면, 제1 이미지 블록들의 수량(M)과 제2 이미지 블록들의 수량(N) 둘 다는, 새로운 얼굴 이미지를 생성하는 데 필요한 상이한 얼굴 특징들의 총 수량(L)과 동일할 수 있다. 대안적으로, 제1 이미지 블록들의 수량(M)과 제2 이미지 블록들의 수량(N) 중 하나는 새로운 얼굴 이미지를 생성하는 데 필요한 상이한 얼굴 특징들의 총 수량(L)과 동일할 수 있지만, 나머지 하나는 L보다 적을 수 있다. 대안적으로, 제1 이미지 블록들의 수량(M)과 제2 이미지 블록들의 수량(N)은 둘 다 L보다 작을 수 있고, M과 N은 동일할 수도 또는 동일하지 않을 수도 있다.

그 다음, 단계(S103)에서, M개의 제1 이미지 블록들과 N개의 제2 이미지 블록들이 특징 공간으로 변환되어 M개의 제1 특징 블록들 및 N개의 제2 특징 블록들이 생성된다.

이미지 공간으로부터 특징 공간으로의 변환은 변환 네트워크, 예를 들어, 인코딩 네트워크를 사용함으로써 구현될 수 있다. 얼굴 특징이 상이한 이미지 블록들에 대해 동일한 인코딩 네트워크가 제공될 수 있다. 대안적으로, 다른 가능한 구현에서, 외관상 얼굴 특징들 간의 차이들로 인해, 각각의 얼굴 특징에 대해 독점적 특징(exclusive feature)이 획득된다. 구체적으로, 각각의 얼굴 특징에 대응하는 이미지 블록에 인코딩 네트워크가 제공될 수 있다. 예를 들어, 인코딩 네트워크들의 그룹이 제공된다. 인코딩 네트워크(E1)는 왼쪽 눈과 왼쪽 눈썹에 대응하는 이미지 블록에 사용되며, 인코딩 네트워크(E2)는 오른쪽 눈과 오른쪽 눈썹에 대응하는 이미지 블록에 사용되며, 인코딩 네트워크(E3)는 코에 대응하는 이미지 블록에 사용되며, 인코딩 네트워크(E4)는 입에 대응하는 이미지 블록에 사용되며, 인코딩 네트워크(E5)는 얼굴 윤곽에 대응하는 이미지 블록에 사용된다. 인코딩 네트워크들(E1 내지 E5)의 파라미터들은 서로 상이하다. M개의 제1 이미지 블록들은 대응하는 인코딩 네트워크들(E1 내지 E5)을 통해 각각 특징 공간으로 변환되고, 유사하게, N개의 제2 이미지 블록들은 대응하는 인코딩 네트워크들(E1 내지 E5)을 통해 각각 특징 공간으로 변환된다. 예를 들어, 2-차원 이미지 블록은 인코딩 네트워크를 통해 길이, 폭 및 높이를 포함하는 3-차원 특징 블록으로 변환될 수 있다.

그런 다음, 단계(S104)에서, 제1 특징 블록들의 서브세트와 제2 특징 블록들의 서브세트가 지정된 제어 벡터에 따라 선택된다.

지정된 제어 벡터는 얼굴 특징들에 대응하는 L개의 정보 비트들을 포함하다. 여기서, 정보 비트들의 수량은 새로운 얼굴 이미지를 생성하는 데 필요한 상이한 얼굴 특징들의 총 수량(L)과 동일하다. 또한, 위에서 설명된 바와 같이, L은 자연수이며, M ≤ L이고 N ≤ L이다. 예를 들어, 얼굴 특징들이 왼쪽 눈과 왼쪽 눈썹, 오른쪽 눈과 오른쪽 눈썹, 코, 입 및 얼굴 윤곽을 포함하는 경우, 제어 벡터는 5개의 정보 비트들을 포함하고, 5개의 정보 비트들은 왼쪽 눈과 왼쪽 눈썹, 오른쪽 눈과 오른쪽 눈썹, 코, 입 및 얼굴 윤곽에 각각 대응한다. 또한, 지정된 제어 벡터는 사용자에 의해 수동으로 설정되거나 무작위로 자동 설정될 수 있다.

구체적으로, 지정된 제어 벡터에 따라 제1 특징 블록들의 서브세트 및 제2 특징 블록들의 서브세트를 선택하는 단계, 지정된 제어 벡터의 정보 비트가 제1 값인 경우, M개의 제1 특징 블록들로부터 정보 비트에 대응하는 얼굴 특징의 특징 블록을 선택하고, 그리고 지정된 제어 벡터의 정보 비트가 제2 값인 경우, N개의 제2 특징 블록들로부터의 정보 비트에 대응하는 얼굴 특징의 특징 블록을 선택하는 단계를 포함한다. 선택은, L개의 특징 블록을 획득하기 위해, 제어 벡터의 정보 비트들에 따라 순차적으로 수행된다. 특징 블록들은, 제1 특징 블록들의 서브세트 및 제2 특징 블록들의 서브세트를 포함하는 하이브리드 특징 블록들이다.

예를 들어, 제어 벡터(v)가 10010이면, 이는, 왼쪽 눈과 왼쪽 눈썹에 대응하는 특징 블록과 입에 대응하는 특징 블록이 제1 특징 블록들로부터 선택되고 그리고 오른쪽 눈과 오른쪽 눈썹에 대응하는 특징 블록, 코에 대응하는 특징 블록 및 얼굴 윤곽에 대응하는 특징 블록이 제2 특징 블록들로부터 선택된다는 것을 의미한다.

그 다음, 단계(S105)에서, 선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트에 기초하여 제1 합성 특징 맵이 생성된다.

전술한 예에서, 제어 벡터(v)가 10010이면, 제1 특징 블록들에 있는, 왼쪽 눈과 왼쪽 눈썹에 대응하는 특징 블록과 입에 대응하는 특징 블록, 그리고 제2 특징 블록들에 있는, 오른쪽 눈과 오른쪽 눈썹에 대응하는 특징 블록, 코에 대응하는 특징 블록, 및 얼굴 윤곽에 대응하는 특징 블록에 기초하여 제1 합성 특징 맵이 생성될 수 있다. 즉, 특징 공간에서, 상이한 소스들로부터의 얼굴 특징들의 특징 블록들이 얼굴 특징들을 포함하는 새로운 합성 특징 맵으로 재결합된다.

또한, 출력되는 제3 얼굴 이미지의 속성들(예를 들어, 연령, 성별 등)이 제어될 수 있다. 예를 들어, 출력될 것으로 예상되는 제3 얼굴 이미지의 성별이 지정될 수 있다. 또한, 입력된 제1 얼굴 이미지와 제2 얼굴 이미지의 속성 정보 간에 상대적으로 큰 차이가 있을 수 있다. 구체적으로, 제1 얼굴 이미지의 연령은 제2 얼굴 이미지의 연령과 크게 다를 수 있다. 예를 들어, 제1 얼굴 이미지는 20세이고 제2 얼굴 이미지는 60세이다. 출력된 제3 얼굴 이미지의 속성들을 제어하고 최종적으로 생성된 제3 얼굴 이미지의 부조화를 방지하기 위해, 다른 가능한 구현에서, 선택된 특징 블록들에 기초하여 속성 특징이 추가로 중첩된다(superimposed). 예를 들어, 출력될 것으로 예상되는 제3 얼굴 이미지가 여성 얼굴 이미지인 경우, 여성의 속성 특징이 추가로 중첩되어, 수염과 같은 남성 특징들이 제거될 수 있다. 대안적으로, 입력된 얼굴 이미지들의 연령이 밸런싱될 것으로 예상되는 경우, 평균 연령(전술한 예에서는 40세일 수 있음)의 속성 특징이 추가로 중첩될 수 있다.

구체적으로, 선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트에 기초하여 제1 합성 특징 맵을 생성하는 단계는 다음의 단계들을 포함할 수 있다. 첫째, 지정된 속성 정보가 특징 공간의 속성 특징 블록으로 확장된다. 2-차원 이미지 블록이 길이, 폭 및 높이를 포함하는 3-차원 특징 블록으로 변환되는 경우, 속성 정보는 특징 블록과 길이와 폭은 같지만 높이는 상이한 특징 블록으로 확장될 수 있다. 그런 다음, 선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트 및 속성 특징 블록에 기초하여 제1 합성 특징 맵이 생성된다.

마지막으로, 단계(S106)에서, 제1 합성 특징 맵이 다시 이미지 공간으로 역변환되어 제3 얼굴 이미지(I_o1)가 생성된다. 특징 공간으로부터 이미지 공간으로의 역변환은 역변환 네트워크, 예를 들어 디코딩 네트워크(D)를 사용하여 구현될 수 있다.

상속 네트워크가, M개의 제1 이미지 블록들과 N개의 제2 이미지 블록들을 기초로 제3 얼굴 이미지를 생성한다는 것이 고려될 수 있다. 상속 네트워크는 인코딩 네트워크들(E1 내지 E5)과 디코딩 네트워크(D)를 포함할 수 있으며, 다양한 뉴럴 네트워크들을 사용함으로써 구현될 수 있다. 상속 네트워크가 함수(f_inh)로 표현되는 경우, 함수의 입력은 제1 얼굴 이미지(I_MA), 제2 얼굴 이미지(I_FA) 및 제어 벡터(v)를 포함하고, 출력은 제3 얼굴 이미지(I_o1)이다. 구체적인 식은 다음과 같다:

(1)

대안적으로, 속성 특징이 추가된 경우, 함수의 입력은, 출력될 것으로 예상되는 제3 얼굴 이미지의 연령(y_a)과 성별(y_g)을 더 포함한다. 구체적인 식은 다음과 같다:

(2)

도 2는, 본 출원의 실시예에 따른, 상속 네트워크의 데이터 스트림의 다이어그램이다. 도 2에 도시된 바와 같이, 얼굴 특징들에 대응하는 이미지 블록들은, 입력 소스들로서의 제1 얼굴 이미지(I_MA)와 제2 얼굴 이미지(I_FA)로부터 분할된 다음, 인코딩 네트워크들(E1 내지 E5)의 그룹을 통해 특징 공간의 특징 블록들로 변환되며, 특징 블록들은, 제어 벡터(v)에 따라 특징 블록을 선택되고 교환된 다음, 디코딩 네트워크(D)를 통해 최종적으로 이미지 공간으로 다시 변환되는 속성 특징 블록으로 스플라이싱되어(spliced), 제3 얼굴 이미지(I_o1)를 생성한다.

제3 얼굴 이미지는, 제1 얼굴 이미지에서 얼글 특징들의 서브세트를 그리고 제2 얼굴 이미지에서 얼글 특징들의 서브세트를 상속하는 합성 얼굴 이미지이다. 제1 얼굴 이미지와 제2 얼굴 이미지가 성별들이 상이한 두 사람들의 얼굴 이미지들인 경우, 생성된 제3 얼굴 이미지는, 두 사람들이 부모들이라는 가정하에, 자식 얼굴 이미지일 수 있다. 제1 얼굴 이미지와 제2 얼굴 이미지가 성별이 같은 두 사람들의 얼굴 이미지들인 경우, 생성된 제3 얼굴 이미지는 두 사람들의 얼굴 특징 장점들을 모아 합성한 가상적인(hypothetical) 얼굴 이미지일 수 있다. 제1 얼굴 이미지와 제2 얼굴 이미지가 복수의 사람들의 얼굴 특징을 함께 맞춰져 생성된 합성 영상들인 경우, 생성된 제3 얼굴 이미지로부터 특정 사람의 얼굴 이미지가 유추될 수 있다. 이는 범죄 수사에서 증인의 신원확인에 특히 중요하다. 예를 들어, 증인이 얼굴 특징 데이터베이스로부터 용의자와 유사한 얼굴 특징들을 선택한 후, 얼굴 특징들은 결합되어 실제 이미지와 달리 품질이 낮은 합성 얼굴 이미지가 생성된다. 합성 얼굴 이미지를 제1 얼굴 이미지로 사용하고, 제2 얼굴 이미지를 임의로 선택하고 그리고 지정된 제어 벡터를 11111(즉, 제1 얼굴 이미지로부터 모든 얼굴 특징 이미지들이 선택됨)로 설정함으로써, 실제 이미지와 유사한 제3 얼굴 이미지가 출력되어, 용의자를 결정하는 것을 도울 수 있다.

본 출원의 실시예들에 따른 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법에서, 도 1의 프로세싱 단계들을 참조로, 제1 얼굴 이미지에서 얼글 특징들의 서브세트를 그리고 제2 얼굴 이미지에서 얼글 특징들의 서브세트를 상속하는 제3 얼굴 이미지가, 얼굴 특징 이미지들의 분할 및 특징 공간에서의 재결합을 통해 생성될 수 있다는 것을 알 수 있다. 종래 기술의 범용 프로세싱 네트워크를 사용하는 솔루션에 비해, 출력된 제3 얼굴 이미지와 입력 소스들로서의 얼굴 이미지들 간의 유사성을 보장할 수 있으면서, 출력된 제3 얼굴 이미지는 실제 이미지에 가깝다. 즉, 사용자가 제3 얼굴 이미지를 볼 때, 이미지가 실제 이미지인지 합성 이미지인지 구별하기 어렵다.

또한, 제어 벡터를 설정함으로써, 제3 얼굴 이미지가 상속하는 2개의 입력된 얼굴 이미지들에서의 얼굴 특징들이 정확하게 제어될 수 있다. 도 3은 상이한 제어 벡터들에 기초한 얼굴 이미지 생성 결과들을 도시한다. 상이한 제어 벡터들을 설정함으로써, 생성된 제3 얼굴 이미지에서의 얼굴 부분들과 입력 소스들로서의 2개의 얼굴 이미지들 간의 상속 관계를 정확하게 제어될 수 있다는 것을 도 3으로부터 알 수 있다.

도 4는, 입력된 얼굴 이미지에 랜덤 인자가 추가된 경우의 얼굴 이미지 생성 결과를 도시하는데, 즉, 앞서 설명된 바와 같이, 입력된 얼굴 이미지가 얼굴 특징 데이터베이스로부터 무작위로 선택된 얼굴 특징으로 사람의 원래 얼굴 특징을 교체함으로써 생성된 합성 이미지인 경우 생성되는 얼굴 이미지 생성 결과를 도시한다. 도 4에서, 위에서 아래로의 행(row)은, 랜덤 인자들이 눈들과 눈썹들, 코, 입, 및 얼굴 윤곽에 각각 추가된 경우의 생성 결과들을 도시한다.

또한, 특징 공간에서 속성 특징 블록의 중첩을 통해, 제3 얼굴 이미지의 속성들이 지정되고, 제3 얼굴 이미지의 조화와 자연스러움이 더욱 향상될 수 있다.

상속 네트워크의 주요 목적은 얼굴 특징들에서 제1 얼굴 이미지 및 제2 얼굴 이미지와 유사한 제3 얼굴 이미지를 출력하는 것이다. 따라서, 그 안에 포함된 속성 특징 블록의 중첩은 유사성을 확보한다는 전제하에 미세-조정된다. 즉, 상속 네트워크에 의해 출력되는 제3 얼굴 이미지는, 연령과 같은 속성들에 대한 입력 소스들로서의 제1 얼굴 이미지와 제2 얼굴 이미지를 근사화시킨다.

출력된 얼굴 이미지의 속성들을 더 큰 범위 내에서 조정하기 위해, 다른 가능한 구현에서, 다시 도 1을 참조하여, 단계(S106) 이후, 방법은 다음의 단계들을 더 포함할 수 있다.

단계(S107)에서, 제3 얼굴 이미지가 특징 공간으로 변환되어 제3 특징 맵이 생성된다. 예를 들어, 이미지 공간으로부터 특징 공간으로의 변환은 인코딩 네트워크(E0)를 사용함으로써 구현될 수 있다. 물론, 본원에서 인코딩 네트워크(E0)의 파라미터들은 인코딩 네트워크들(E1 내지 E5)의 파라미터들과 상이하다.

그런 다음, 단계(S108)에서, 지정된 속성 정보가 특징 공간의 속성 특징 맵으로 확장된다. 예를 들어, 단계(S107)에서, 2-차원 이미지가 길이, 폭 및 높이를 포함하는 3-차원 특징 맵으로 변환되는 경우, 속성 정보는 3-차원 특징 맵과 길이 및 폭은 갖지만 높이는 다른 특징 맵으로 확장될 수 있다.

그 다음, 단계(S109)에서, 속성 특징 맵 및 제3 특징 맵에 기초하여 제2 합성 특징 맵이 생성된다.

마지막으로, 단계(S110)에서, 제2 합성 특징 맵이 다시 이미지 공간으로 역변환되어 제4 얼굴 이미지가 생성된다. 예를 들어, 특징 공간으로부터 이미지 공간으로의 역변환은 디코딩 네트워크(D0)를 사용함으로써 구현될 수 있다. 여기서, 디코딩 네트워크(D0)의 파라미터들은 단계(S105)에서 언급된 디코딩 네트워크(D)의 파라미터들과도 또한 상이하다.

단계(S107) 내지 단계(S110)는 선택적이므로, 도 1에서 점선 박스로 도시되어 있다.

속성 향상 네트워크는 제3 얼굴 이미지를 기초로 제4 얼굴 이미지를 생성한다고 고려될 수 있다. 속성 향상 네트워크는, 인코딩 네트워크들(E0)와 디코딩 네트워크(D0)를 포함할 수 있으며, 다양한 뉴럴 네트워크들을 사용함으로써 구현될 수 있다. 속성 향상 네트워크가 함수(f_att)로 표현되는 경우, 함수의 입력은, 출력될 것으로 예상되는, 제3 얼굴 이미지(I_o1), 및 제4 얼굴 이미지의 연령(y_a) 및 연령(y_g)를 포함하며, 출력은 제4 얼굴 이미지(I_o2)이다. 구체적인 식은 다음과 같다:

(3)

도 5는, 본 출원의 실시예에 따른, 속성 향상 네트워크의 데이터 스트림의 다이어그램이다. 도 5에 도시된 바와 같이, 제3 얼굴 이미지(I_o1)는 인코딩 네트워크(E0)를 통해 특징 공간에서 제3 특징 맵(Z₁)으로 변환된 다음, Z₁은 특징 공간의 속성 정보(y_a 및 y_g)로 스플라이싱되고, 이들은 디코딩 네트워크(D0)를 통해 이미지 공간으로 다시 역변환되어, 제4 얼굴 이미지(I_o2)가 획득된다.

제3 얼굴 이미지와 비교하여, 제4 얼굴 이미지는 속성들에서 큰 변화가 있을 수 있다. 예를 들어, 입력된 20세의 제3 얼굴 이미지에 기초하여 5세의 제4 얼굴 이미지가 출력될 수 있다.

도 6은 지정된 제어 벡터에 기초하여 생성된 상이한 연령들의 얼굴 이미지들을 도시한다. 상속 네트워크와 속성 향상 네트워크를 통해, 상이한 연령들의 얼굴 이미지들이 생성될 수 있으며, 각각의 연령의 얼굴이 분명히 다르다는 것을 도 6으로부터 알 수 있다.

도 7은 지정된 제어 벡터에 기초하여 생성된 상이한 연령들 및 상이한 성별들을 갖는 얼굴 이미지들을 도시한다. 동일한 제어 벡터에 기초하더라도, 상속 네트워크와 속성 향상 네트워크를 통해, 성별과 연령으로 인해 생성된 얼굴 이미지들 간의 차이가 얼굴 일부들, 예를 들어 볼들, 눈썹들, 팔자 주름들, 입술 색상에 여전히 반영될 수 있다는 것을 도 7로부터 알 수 있다.

본 출원의 실시예들에 따른 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법의 구체적인 프로세스가 도 1 내지 도 7을 참조로 앞서 설명되었다. 데이터 프로세싱 방법은 상속 네트워크 또는 상속 네트워크와 속성 향상 네트워크를 사용함으로써 구현된다. 데이터 프로세싱 방법은 상속 네트워크와 속성 향상 네트워크의 적용 프로세스에서 수행되는 프로세싱이다. 앞서 설명된 바와 같이, 상속 네트워크와 속성 향상 네트워크는 인코딩 네트워크와 디코딩 네트워크를 포함할 수 있고, 인코딩 네트워크와 디코딩 네트워크는 둘 다는 복수의 결정될 타겟 파라미터들을 포함한다. 파라미터들은, 상속 네트워크와 속성 향상 네트워크를 구성하기 위해, 트레이닝 프로세스를 통해 결정된다. 이러한 방식으로, 상속 네트워크와 속성 향상 네트워크는 얼굴 이미지를 생성하는 기능을 구현할 수 있다. 즉, 상속 네트워크와 속성 향상 네트워크의 적용 전에, 먼저, 상속 네트워크와 속성 향상 네트워크가 트레이닝되어야 한다. 그 다음, 상속 네트워크의 트레이닝 프로세스가 도 8을 참조로 먼저 설명된다. 상속 네트워크는 도 8에 도시된 다음의 트레이닝 단계들을 수행함으로써 획득될 수 있다.

전술한 적용 프로세스에서 제1 내지 제4 얼굴 이미지들을 구별하기 위해, 트레이닝 프로세스에 수반되는 얼굴 이미지들은 다음에서 제5 내지 제10 얼굴 이미지들로 정의된다.

먼저, 단계(S801)에서, 얼굴 특징들에 대응하는 L개의 제5 이미지 블록들이 제5 얼굴 이미지(I_M)로부터 획득되고, 얼굴 특징들에 대응하는 L개의 제6 이미지 블록들이 제6 얼굴 이미지(I_F)로부터 획득된다.

전술한 적용 프로세스에서, 입력 소스들로서의 2개의 얼굴 이미지들에 기초하여 오직 하나의 새로운 얼굴 이미지만이 생성되어야 하기 때문에, 2개의 입력된 얼굴 이미지들로부터 획득된 모든 얼굴 특징들이 함께 맞춰져서 새로운 얼굴 이미지를 생성할 수 있다면, 얼굴 특징들에 해당하는 L개(L은 새로운 얼굴 이미지를 생성하는 데 필요한 상이한 얼굴 특징들의 총 수량임) 이하의 이미지 블록들이 2개의 입력된 얼굴 이미지들로부터 획득될 수 있다. 그러나, 전술한 적용 프로세스와 달리, 트레이닝 프로세스에서, 입력 소스들로서의 2개의 얼굴 이미지들에 기초하여 2개의 새로운 얼굴 이미지들을 생성해야 하기 때문에, 입력 소스들로서의 제5 얼굴 이미지와 제6 얼굴 이미지로부터 획득된 이미지 블록들 수량은 둘 다 L개이다. 위에서 설명된 바와 같이, L은 새로운 얼굴 이미지를 생성하는 데 필요한 상이한 얼굴 특징들의 총 수량이다.

그런 다음, 단계(S802)에서, 제1 합성 이미지()를 생성하기 위해, 제1 제어 벡터(ν₁)에 따라 제5 이미지 블록들의 서브세트 및 제6 이미지 블록들의 서브세트가 선택되고, 제2 합성 이미지()를 생성하기 위해, 제2 제어 벡터(v₂)에 따라 다른 제5 이미지 블록들의 서브세트 및 다른 제6 이미지 블록들의 서브세트가 선택된다.

얼굴 특징 교환에 대응하는 함수가 f_syn라고 가정하면, 얼굴 특징 교환의 합성 프로세스는 다음 식을 사용하여 표현될 수 있다:

(4)

후속 트레이닝 효과를 보장하기 위해, 얼굴 특징 교환 후의 합성 이미지는 추가로, 합성 이미지에서 일관되지 않은 색상 블록들을 피하기 위해 색상 정정 방법을 사용하여 융합된다. 전술한 적용 프로세스에서, 제1 얼굴 이미지와 제2 얼굴 이미지는 기존의 얼굴 특징 데이터베이스로부터 선택된 얼굴 특징 이미지에 기초하여 생성된 합성 이미지들일 있다는 것이 또한 언급되었다. 그러나, 적용 프로세스에서, 상속 네트워크가 트레이닝되었기 때문에, 합성 이미지들에 대해 색상 정정 프로세싱이 수행되지 않을 수도 있다.

그 다음, 단계(S803)에서, 얼굴 특징들에 대응하는 L개의 제7 이미지 블록들이 제1 합성 이미지()로부터 획득되고, 얼굴 특징들에 대응하는 L개의 제8 이미지 블록들이 제2 합성 이미지()로부터 획득된다.

단계(S804)에서, L개의 제7 이미지 블록들 및 L개의 제8 이미지 블록들이 상속 네트워크에 입력된다.

그런 다음, 단계(S805)에서, 상속 네트워크를 통해, 제1 제어 벡터에 따라 선택되는, 제7 이미지 블록들의 서브세트와 제8 이미지 블록들의 서브세트에 기초하여 생성된 제7 얼굴 이미지(I'_M)가 출력되고, 제2 제어 벡터에 따라 선택되는, 다른 제7 이미지 블록들의 서브세트와 다른 제8 이미지 블록들의 서브세트에 기초하여 생성된 제8 얼굴 이미지(I'_F)가 출력되며, 제5 얼굴 이미지는 제7 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이고, 제6 얼굴 이미지는 제8 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이고, 그리고 제5 얼굴 이미지 내지 제8 얼굴 이미지는 상속 트레이닝 데이터 그룹으로 사용된다.

상속 네트워크에 대응하는 함수가 f_inh라고 가정하면, 상속 네트워크의 생성 프로세스는 다음의 식을 사용하여 표현될 수 있다:

(5)

여기서, 와 은, 각각, 제5 얼굴 이미지의 속성과 성별을 표현하며, 과 은, 각각, 제6 얼굴 이미지의 속성과 성별을 표현한다. 트레이닝 프로세스에서, 출력될 것으로 예상되는 얼굴 이미지의 속성은 입력 소스로서의 얼굴 이미지의 속성과 동일하게 설정되어, 손실 함수의 후속 계산을 가능하게 하다.

상속 네트워크의 적용 프로세스와 비교할 때, 입력 소스들이 상속 네트워크에 입력됨에 따라, 얼굴 이미지들에 앞서 미리 얼굴 특징 교환이 수행된다는 점에서, 상속 네트워크의 트레이닝 프로세스가 다르다는 것을 전술한 단계들로부터 알 수 있다. 교환의 목적은, 상속 네트워크에 의해 출력되는 얼굴 이미지에 대한 수퍼비전 정보를 제공하는 것이다.

구체적으로, 입력 소스들이 상속 네트워크에 제공됨에 따라 제5 얼굴 이미지 및 제6 얼굴 이미지 이전에 제어 벡터를 사용하여 얼굴 특징 교환이 먼저 수행되고, 그리고 얼굴 특징 교환 후 합성 이미지들이 상속 네트워크에 제공되면, 상속 네트워크의 파라미터들이 정확하게 설정된 경우 동일한 제어 벡터를 사용하여 다른 얼굴 특징 교환을 수행함으로써, 원래의 제5 얼굴 이미지 또는 제6 얼굴 이미지가 획득될 수 있다.

이해의 편의를 위해, 도 9는, 상속 네트워크의 트레이닝 프로세스에서 2개의 얼굴 특징 교환들의 개략적 프로세스를 도시한다. 도 9에서, 입력 소스로서의 제5 얼굴 이미지(I_M)에서의 얼굴 특징들의 이미지 블록들은 문자 A로 표현되고, 입력 소스로서의 제6 얼굴 이미지(I_F)에서의 얼굴 특징들의 이미지 블록들은 문자 B로 표현된다. 제5 얼굴 이미지(I_M)에 대해, 제1 제어 벡터(v₁ = 01010)를 사용함으로써 하나의 얼굴 특징 교환이 수행된 다음 동일한 제1 제어 벡터(v₁ = 01010)을 사용함으로써 다른 얼굴 특징 교환이 수행되면, 원래의 제5 얼굴 이미지(I_M)와 동일한 이미지가 획득된다. 유사하게, 제6 얼굴 이미지(I_F)에 대해, 제2 제어 벡터(v₂ = 10101)를 사용함으로써 하나의 얼굴 특징 교환이 수행된 다음 동일한 제2 제어 벡터(v₂ = 10101)를 사용함으로써 다른 얼굴 특징 교환이 수행되면, 원래의 제6 얼굴 이미지(I_F)와 동일한 이미지가 획득된다. 여기서, 제1 제어 벡터(v₁)와 제2 제어 벡터(v₂)는 서로 반대이어야 한다.

따라서, 상속 네트워크에 의해 출력되는 제7 얼굴 이미지(I'_M)의 수퍼비전 이미지로서 제5 얼굴 이미지(I_M)를 사용하고 그리고 상속 네트워크에 의해 출력되는 제8 얼굴 이미지(I'_F)의 수퍼비전 이미지로서 제6 얼굴 이미지(I_F)를 사용함으로써, 상속 네트워크의 트레이닝 프로세스가 아버지/어머니와 자식 간의 관계로 얼굴 데이터베이스를 구축하지 않고 임의의 기존의 얼굴 데이터베이스를 바로 사용함으로써 완료될 수 있다.

본 출원의 실시예들에 따른 상속 네트워크의 트레이닝 프로세스에서, 학습을 위해 GAN(generative adversarial network)가 사용된다. GAN은 생성 네트워크와 판별 네트워크(discriminative network)를 포함하며, 데이터 분포는 생성 네트워크와 판별 네트워크 간의 새로운 게이밍 방식으로 학습된다. 생성 네트워크의 목적은 가능한 많은 실제 데이터 분포를 학습하기 위한 것인 반면, 판별 네트워크의 목적은, 입력된 데이터가 실제 데이터에서 발생된 것인지 아니면 생성 네트워크로부터 발생한 것인지 가능한 한 정확하게 판별하는 것이다. 트레이닝 프로세스에서, 생성 네트워크와 판별 네트워크는 생성 능력과 판별 능력을 각각 향상시키기 위해 지속적으로 최적화되어야 한다.

여기서, 상속 네트워크가 생성 네트워크로 간주될 수 있다. 또한, 제1 판별 네트워크에 입력된 이미지가 참(true)인지 아니면 거짓(false)인지를 결정하기 위해, 상속 네트워크에 의해 출력되는 이미지에 대해 판별 네트워크, 예를 들어, 제2 판별 네트워크가 제공되어야 한다. 참은, 출력된 얼굴 이미지가 실제 이미지임을 의미하다. 거짓은, 출력된 얼굴 이미지가 상속 네트워크에 의해 출력되는 이미지임을 의미한다.

따라서, 그 다음, 단계(S806)에서, 적어도 하나의 상속 트레이닝 데이터 그룹이 제1 판별 네트워크에 입력되고, 제1 판별 네트워크는, 이미지가 제1 판별 네트워크에 입력되는 경우, 이미지가 실제 이미지인 확률 값을 출력하도록 구성된다.

마지막으로, 단계(S807)에서, 제1 손실 함수가 수렴될 때까지, 상속 네트워크 및 제1 판별 네트워크가 제1 손실 함수에 기초하여 교대로 트레이닝된다.

도 10은, 본 출원의 실시예에 따른, 상속 네트워크의 트레이닝 프로세스에서 데이터 스트림의 다이어그램이다. 트레이닝 프로세스에서, 앞서 설명된 바와 같이, 입력 소스로서의 2개의 얼굴 이미지들은 각각 상속 네트워크에서 출력되는 2개의 얼굴 이미지들을 수퍼비전 이미지들로 사용되기 때문에, 상속 네트워크의 2개의 출력 채널들 둘 다가 비교의 편의를 위해 10에 도시되어 있다. 실제로, 도 2를 참조로 앞서 설명된 바와 같이, 2개의 얼굴 이미지들이 상속 네트워크에 입력으로 제공될 때마다, 오직 하나의 얼굴 이미지만이 출력된다.

도 10에 도시된 바와 같이, 제7 얼굴 이미지(I'_M)는 동일한 제어 벡터(v₁)를 사용하여 제5 얼굴 이미지(I_M)에 대해 2번의 교환들이 수행된 후 획득되며, I_M은 I'_M의 수퍼비전 이미지로 사용된다. 마찬가지로, 동일한 제어 벡터(v₂)를 사용하여 제6 얼굴 이미지(I_F)에 대해 2번의 교환들이 수행된 후 제8 얼굴 이미지(I'_F)가 획득되고, I_F는 I'_F의 수퍼비전 이미지로 사용된다.

가능한 구현에서, 제1 손실 함수는, 적어도 하나의 상속 트레이닝 데이터 그룹에 대해 제1 판별 네트워크에 의해 출력되는 확률 값, 및 적어도 하나의 상속 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들과 얼굴 이미지들 간의 픽셀 차이들에 기초하여 결정된다.

구체적으로, 제1 손실 함수는 적대적 손실(adversarial loss)과 픽셀 손실인 두 부분들의 합을 포함하다. 적대적 손실()은, 상속 네트워크에 의해 생성된 얼굴 이미지를 실제 이미지에 가깝게 분포시키며, 다음의 식을 사용하여 계산될 수 있다:

(6)

여기서, D_I는 제1 판별 네트워크를 표현하고, 는, 상속 네트워크에 의해 출력되는 이미지가 제1 판별 네트워크에 입력된 경우 제1 판별 네트워크의 출력(확률 값)이며, 는, 실제 이미지가 제1 판별 네트워크에 입력되는 경우 제1 판별 네트워크의 출력(확률 값)이다. 은, 얼굴 이미지()가 입력된 경우 제1 판별 네트워크에 의해 출력되는 평균 값을 표현하며, 는 상속 네트워크에 의해 출력되는 얼굴 이미지이다. 은, 얼굴 이미지(I_s)가 입력된 경우 제1 판별 네트워크에 의해 출력되는 평균 값을 표현하며, I_s는 실제 얼굴 데이터베이스로부터의 얼굴 이미지이다.

또한, 다른 가능한 구현에서, 제1 손실 함수를 보다 안정적으로 만들기 위해, 노이즈 성분이 WGAN(Wasserstein GAN) 프레임워크에 기초하여 추가될 수 있다. 구체적인 식은 다음과 같다:

(7)

여기서, 는 WGAN의 하이퍼-파라미터이고, 은, 노이즈()가 제1 판별 네트워크에 입력된 경우 제1 판별 네트워크의 출력이고, 은, 의 기울기(gradient)가 획득된 후의 2-노름(two-norm)을 표현한다.

픽셀 손실()은, 상속 네트워크에 의해 생성된 얼굴 이미지와 입력 소스로서의 얼굴 이미지 간의 유사성을 보장하는 데 사용되고, 상속 네트워크에 의해 생성된 얼굴 이미지와 실제 얼굴 이미지 간의 픽셀 손실, 즉, 두 이미지들의 픽셀 값들 간의 차이들의 절대 값의 합으로 표현된다. 구체적인 식은 다음과 같다:

(8)

따라서, 제1 손실 함수는 다음과 같이 표현될 수 있다:

(9)

여기서, λ₁₁및 λ₁₂는 가중 계수(weight coefficient)들이다.

상속 네트워크와 제1 판별 네트워크는 제1 손실 함수를 기초로 교대로 트레이닝된다. 구체적으로, 상속 네트워크가 먼저 고정될 수 있고, 제1 판별 네트워크가 트레이닝된다. 이 경우, 제1 손실 함수의 값은 가능한 한 작을 것으로 예상된다. 그런 다음, 제1 판별 네트워크가 고정될 수 있고, 상속 네트워크가 트레이닝된다. 이 경우, 제1 손실 함수의 값은 가능한 한 클 것으로 예상된다. 복수의 라운드 트레이닝 이후, 제1 손실 함수가 상이한 상속 트레이닝 데이터에서 거의 변동이 없는 경우, 즉 제1 손실 함수가 수렴되면, 상속 네트워크의 트레이닝이 완료된다.

다른 가능한 구현에서, 적대적 손실 및 픽셀 손실에 부가하여, 제1 손실 함수 추가로, 적어도 하나의 상속 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 속성들과 얼굴 이미지들의 속성들 간의 차이들 및 적어도 하나의 상속 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 특징들과 얼굴 이미지들의 특징들 간의 차이들 중 적어도 하나에 기초하여 결정될 수 있다.

구체적으로, 제1 손실 함수는 속성 손실을 더 포함할 수 있다. 속성 손실은, 상속 네트워크에 의해 출력되는 얼굴 이미지의 속성과 입력 소스로서의 실제 얼굴 이미지의 속성 간의 차이에 따라 결정된다. 연령과 성별의 손실 함수들은 다음의 식들을 사용함으로써 각각 계산될 수 있다:

(10)

(11)

여기서, D_a와 D_g는 이미지의 연령과 성별을 각각 판별하는 네트워크들이다. 예를 들어, ResNet을 사용함으로써 연령과 성별의 회귀 모델이 사전-트레이닝될 수 있어, 이미지()가 모델에 입력되는 경우, 이미지의 연령 및 성별 정보가 출력될 수 있다. 은 D_a를 사용함으로써 결정된 얼굴 이미지()의 연령을 표현하며, 은 을 사용함으로써 결정된 얼굴 이미지()의 성별을 표현한다. 은 입력 소스로서의 실제 얼굴 이미지의 연령을 표현하며, 은 입력 소스로서의 실제 얼굴 이미지의 성별을 표현한다.

또한, 제1 손실 함수는 지각 손실(perceptual loss)을 더 포함할 수 있다. 예를 들어, 지각 손실(), 즉, 상속 네트워크에 의해 출력되는 얼굴 이미지의 VGG 특징과 입력 소스로서의 실제 얼굴 이미지의 VGG 특징 간의 거리를 계산하기 위해 19 레이어들의 VGG 특징들이 사용될 수 있다. 구체적인 식은 다음과 같다:

(12)

여기서, 과 은, VGG 19에서 i번째 풀링 레이어(pooling layer)와 j번째 컨볼루셔널 레이어(convolutional layer)에서의 얼굴 이미지들(I_S 및 )의 특징들로 참조된다.

예를 들어, 다른 가능한 구현에서, 제1 손실 함수는 대안적으로 다음과 같이 표현될 수 있다:

(13)

여기서, λ₁₁, λ₁₂, λ₁₃, λ₁₄ 및 λ₁₅는 서로 다른 가중 계수들이며, 손실 함수들의 중요도에 따라 할당될 수 있다.

그 다음, 속성 향상 네트워크의 트레이닝 프로세스가 도 11을 참조로 설명된다. 속성 향상 네트워크는 도 11에 도시된 다음의 트레이닝 단계들을 수행함으로써 획득될 수 있다.

본 출원의 실시예들에 따른 속성 향상 네트워크의 트레이닝 프로세스에서, GAN이 학습을 위해 또한 사용된다.

여기서, 속성 향상 네트워크가 생성 네트워크로 간주될 수 있다. 또한, 제1 판별 네트워크에 입력된 이미지가 참인지 아니면 거짓인지를 결정하기 위해, 속성 향상 네트워크에 의해 출력되는 이미지에 대해 판별 네트워크, 예를 들어, 제1 판별 네트워크가 제공되어야 한다. 참은 출력된 얼굴 이미지가 실제 이미지임을 의미하다. 거짓은, 출력된 얼굴 이미지가 속성 향상 네트워크에 의해 출력되는 이미지임을 의미한다.

앞서 설명된 바와 같이, 제4 얼굴 이미지는, 제3 얼굴 이미지를 속성 향상 네트워크에 입력함으로써 생성되며, 속성 향상 네트워크는 도 11에 도시된 다음의 트레이닝 단계들을 수행함으로써 획득된다.

먼저, 단계(S1101)에서, 제7 얼굴 이미지(I'_M) 및 제8 얼굴 이미지(I'_F)가 속성 향상 네트워크에 입력된다.

그런 다음, 단계(S1102)에서, 속성 향상 네트워크를 통해, 제7 얼굴 이미지에 대응하는 제9 얼굴 이미지() 및 제8 얼굴 이미지에 대응하는 제10 얼굴 이미지()가 출력되고, 제7 얼굴 이미지는 제9 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이고, 제8 얼굴 이미지는 제10 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이며, 제7 얼굴 이미지 내지 제10 얼굴 이미지는 속성 트레이닝 데이터 그룹으로 사용된다.

속성 향상 네트워크에 대응하는 함수가 f_att라고 가정하면, 속성 향상 네트워크의 생성 프로세스는 다음의 식을 사용하여 표현될 수 있다:

(14)

여기서, 과 은 각각 제5 얼굴 이미지의 속성과 성별을 표현하며, 과 는 각각 제6 얼굴 이미지의 속성과 성별을 표현한다. 트레이닝 프로세스에서, 출력될 것으로 예상되는 얼굴 이미지의 속성은 입력 소스로서의 얼굴 이미지의 속성과 동일하게 설정되어, 손실 함수의 후속 계산을 가능하게 하다.

그 다음, 단계(S1103)에서, 적어도 하나의 속성 트레이닝 데이터 그룹이 제2 판별 네트워크에 입력되고, 제2 판별 네트워크는, 이미지가 제2 판별 네트워크에 입력될 때, 이미지가 실제 이미지인 확률 값을 출력하도록 구성된다.

마지막으로, 단계(S1104)에서, 제2 손실 함수가 수렴될 때까지, 속성 향상 네트워크 및 제2 판별 네트워크가 제2 손실 함수에 기초하여 교대로 트레이닝된다.

도 12는, 본 출원의 실시예에 따른, 속성 향상 네트워크의 트레이닝 프로세스에서 데이터 스트림의 다이어그램이다. 도 10과 유사하게, 속성 향상 네트워크의 출력들의 2개 채널들이 도 12에 도시되어 있다.

도 12에 도시된 바와 같이, 제7 얼굴 이미지(I'_M) 및 제8 얼굴 이미지(I'_F)가 속성 향상 네트워크에 입력되고 특징 공간으로 변환되어, 각각, 특징 맵들(Z_M 및 Z_F)가 획득되고, 특징 맵들은 특징 공간에서 속성 특징으로 스플라이싱되며, 이는 이미지 공간으로 역변환되어 제9 얼굴 이미지()와 제10 얼굴 이미지()가 획득되고, 제7 얼굴 이미지(I'_M)와 제8 얼굴 이미지(I'_F)는 각각 제9 얼굴 이미지()와 제10 얼굴 이미지()의 수퍼비전 이미지들로 사용된다.

가능한 구현에서, 제2 손실 함수는, 적어도 하나의 속성 트레이닝 데이터 그룹에 대해 제2 판별 네트워크에 의해 출력되는 확률 값, 및 적어도 하나의 속성 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들과 얼굴 이미지들 간의 픽셀 차이들에 기초하여 결정된다.

구체적으로, 제2 손실 함수는 적대적 손실과 픽셀 손실인 두 부분들의 합을 포함하다. 적대적 손실()은, 속성 향상 네트워크에 의해 생성된 얼굴 이미지를 실제 이미지에 가깝게 분포시키며, 다음의 식을 사용하여 계산될 수 있다:

(15)

여기서, 는 제2 판별 네트워크를 표현하고, 는, 속성 향상 네트워크에 의해 출력되는 이미지가 제2 판별 네트워크에 입력된 경우 제2 판별 네트워크의 출력(확률 값)이며, 는, 실제 이미지가 제2 판별 네트워크에 입력되는 경우 제2 판별 네트워크의 출력(확률 값)이다. 는, 얼굴 이미지()가 입력된 경우 제2 판별 네트워크에 의해 출력되는 평균 값을 표현하며,는 속성 향상 네트워크에 의해 출력되는 얼굴 이미지이다. 는, 얼굴 이미지(I_s)가 입력된 경우 제2 판별 네트워크에 의해 출력되는 알고리즘들의 평균 값을 표현하며, I_s는 실제 얼굴 데이터베이스로부터의 얼굴 이미지이다.

또한, 다른 가능한 구현에서, 제2 손실 함수를 보다 안정적으로 만들기 위해, 노이즈 성분이 WGAN 프레임워크에 기초하여 추가될 수 있다. 구체적인 식은 다음과 같다:

(16)

여기서, 는 WGAN의 하이퍼-파라미터이고, 은, 노이즈()가 제2 판별 네트워크에 입력된 경우 제2 판별 네트워크의 출력이고, 은, 의 기울기가 획득된 후의 2-노름을 표현한다.

픽셀 손실()은, 속성 향상 네트워크에 의해 생성된 얼굴 이미지와 상속 네트워크에 의해 출력되는 얼굴 이미지 간의 유사성을 보장하는 데 사용되고, 속성 향상 네트워크에 의해 생성된 얼굴 이미지와 상속 네트워크에 의해 출력되는 이미지 간의 픽셀 손실, 즉, 두 이미지들의 픽셀 값들 간의 차이들의 절대 값의 합으로 표현된다. 구체적인 식은 다음과 같다:

(17)

따라서, 제2 손실 함수는 다음과 같이 표현될 수 있다:

(18)

여기서, λ₂₁ 및 λ₂₂는 가중 계수들이다.

다른 가능한 구현에서, 적대적 손실 및 픽셀 손실에 부가하여, 제2 손실 함수는 추가로, 적어도 하나의 속성 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 속성들과 얼굴 이미지들의 속성들 간의 차이들 및 적어도 하나의 속성 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 특징들과 얼굴 이미지들의 특징들 간의 차이들 중 적어도 하나에 기초하여 결정될 수 있다.

구체적으로, 제2 손실 함수는 속성 손실을 더 포함할 수 있다. 속성 손실은, 속성 향상 네트워크에 의해 출력되는 얼굴 이미지의 속성과 상속 네트워크에 의해 출력되는 얼굴 이미지의 속성 간의 차이에 따라 결정된다. 연령과 성별의 손실 함수들은 다음의 식들을 사용함으로써 각각 계산될 수 있다:

(19)

(20)

여기서, D_a와 D_g는 각각 이미지의 연령와 성별을 판별하는 네트워크들이다. 예를 들어, ResNet을 사용함으로써 연령과 성별의 회귀 모델이 사전-트레이닝될 수 있어, 이미지()가 모델에 입력되는 경우 이미지의 연령 및 성별 정보가 출력될 수 있다. 는 D_a를 사용함으로써 결정된 얼굴 이미지()의 연령을 표현하고, 는 D_g를 사용함으로써 결정된 얼굴 이미지()의 성별을 표현한다. 는 상속 네트워크의 출력으로서 얼굴 이미지의 연령을 표현하고, 는 상속 네트워크의 출력으로서 얼굴 이미지의 성별을 표현한다. 상속 네트워크에 의해 출력되는 얼굴 이미지의 연령과 성별은 입력 소스로서의 실제 얼굴 이미지의 연령과 성별이 동일하므로, 실제 얼굴 이미지의 연령과 성별을 여기서, 및 로 바로 사용될 수 있다.

또한, 제1 손실 함수는 지각 손실을 더 포함할 수 있다. 예를 들어, 지각 손실(), 즉, 속성 향상 네트워크에 의해 출력되는 얼굴 이미지의 VGG 특징과 상속 네트워크에 의해 출력되는 얼굴 이미지의 VGG 특징 간의 거리를 계산하기 위해 19 레이어들의 VGG 특징들이 사용될 수 있다. 구체적인 식은 다음과 같다:

(21)

여기서, 과 은, VGG 19에서 i번째 풀링 레이어와 j번째 컨볼루셔널 레이어에서의 얼굴 이미지들( 및 I'_S)의 특징들로 참조된다.

예를 들어, 다른 가능한 구현에서, 제2 손실 함수는 대안적으로 다음과 같이 표현될 수 있다:

(22)

여기서, λ₂₁, λ₂₂, λ₂₃, λ₂₄ 및 λ₂₅는 서로 다른 가중 계수들이며, 손실 함수들의 중요도에 따라 할당될 수 있다.

속성 향상 네트워크와 제2 판별 네트워크는 제2 손실 함수를 기초로 교대로 트레이닝된다. 구체적으로, 속성 향상 네트워크가 먼저 고정될 수 있고, 제2 판별 네트워크가 트레이닝된다. 이 경우, 제2 손실 함수의 값은 가능한 한 작을 것으로 예상된다. 그런 다음, 제2 판별 네트워크가 고정될 수 있고, 속성 향상 네트워크가 트레이닝된다. 이 경우, 제2 손실 함수의 값은 가능한 한 클 것으로 예상된다. 복수의 라운드 트레이닝 이후, 제2 손실 함수가 상이한 속성 트레이닝 데이터에서 거의 변동이 없는 경우, 즉 제2 손실 함수가 수렴되면, 속성 향상 네트워크의 트레이닝이 완료된다.

속성 향상 네트워크의 적용 프로세스에서 원래 입력된 얼굴 이미지의 속성(예를 들어, 연령)이 크게 변경될 수 있지만, 수퍼비전 정보를 제공하기 위해, 속성 향상 네트워크의 트레이닝 프로세스에서 원래 입력된 얼굴 이미지와 동일한 속성이 선택된다.

상속 네트워크와 속성 향상 네트워크의 트레이닝 프로세스들은 앞서 별도로 설명했다. 또 다른 가능한 구현에서, 상속 네트워크와 속성 향상 네트워크의 별도의 트레이닝에 더해, 글로벌 최적 솔루션을 찾기 위해 2개의 네트워크들에 대해 공동 트레이닝(joint training)이 추가로 수행될 수 있다.

구체적으로, 상속 네트워크와 속성 향상 네트워크는 다음의 공동 트레이닝 동작들을 수행함으로써 추가로 최적화된다: 제1 손실 함수 및 제2 손실 함수에 기초하여 총 손실 함수를 결정하는 동작; 및 총 손실 함수가 수렴될 때까지, 총 손실 함수에 기초하여, 상속 네트워크, 속성 향상 네트워크, 제1 판별 네트워크 및 제2 판별 네트워크를 교대로 트레이닝시키는 동작.

구체적으로, 제1 손실 함수와 제2 손실 함수의 가중 합이 총 손실 함수(L)로 사용될 수 있다. 구체적인 식은 다음과 같다:

(23)

여기서, λ₀₁ 및 λ₀₂는 서로 다른 가중 계수들이며, 손실 함수들의 중요도에 따라 할당될 수 있다.

예를 들어, 공동 트레이닝 프로세스에서, 상속 네트워크와 속성 향상 네트워크는 먼저 고정될 수 있고, 제1 판별 네트워크와 제2 판별 네트워크가 트레이닝될 수 있다. 이 경우, 제1 판별 네트워크와 제2 판별 네트워크의 파라미터를 균일하게 조정하기 위해, 총 손실 함수의 값은 가능한 작을 것으로 예상된다. 그런 다음, 제1 판별 네트워크와 제2 판별 네트워크가 고정될 수 있고 상속 네트워크와 속성 향상 네트워크가 트레이닝된다. 이 경우, 상속 네트워크과 속성 향상 네트워크의 파라미터들을 균일하게 조정하기 위해, 총 손실 함수의 값은 가능한 클 것으로 예상된다. 복수의 라운드의 트레이닝 이후, 총 손실 함수가 수렴되면, 두 네트워크에 대한 공동 트레이닝이 완료된다.

본 출원의 실시예들에 따른 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법이 도 1 내지 도 12를 참조로 앞서 설명되었다. 본 출원의 실시예들에 따라 얼굴 이미지를 생성하기 위한 데이터 프로세싱 디바이스가 아래에 설명된다.

먼저, 본 출원의 실시예들의 적용 환경이 간략하게 설명된다. 도 13에 도시된 바와 같이, 서버(10)는 네트워크(30)를 통해 복수의 단말 디바이스들(20)에 연결된다. 복수의 단말 디바이스들(20)은, 입력 소스들로서의 제1 얼굴 이미지 및 제2 얼굴 이미지를 제공하기 위한 디바이스들이다. 단말은, 스마트 단말, 예를 들어 스마트폰, PDA(Personal Digital Assistant), 데스크톱 컴퓨터, 노트북 컴퓨터 또는 태블릿 컴퓨터일 수 있거나, 또는 다른 유형들의 단말들일 수 있다. 서버(10)는 기존의 얼굴 데이터베이스에 기초하여 상속 네트워크와 속성 향상 네트워크를 트레이닝시키도록 구성된 디바이스이다. 또한, 서버는 트레이닝된 상속 네트워크와 속성 향상 네트워크를 얼굴 이미지 생성에 적용하는 디바이스이기도 하다. 구체적으로, 서버(10)는 단말 디바이스(20)에 연결되어, 단말 디바이스(20)로부터 제1 얼굴 이미지 및 제2 얼굴 이미지를 수신하고, 트레이닝된 상속 네트워크 및 속성 향상 네트워크에 기초하여 서버(10)상에서 제3 얼굴 이미지 또는 제4 얼굴 이미지를 생성하여, 생성된 얼굴 이미지를 단말 디바이스(20)로 전송한다. 서버(10)는 아래에서 설명되는 데이터 프로세싱 디바이스일 수 있다. 네트워크(30)는 임의의 유형의 유선 또는 무선 네트워크, 예를 들어 인터넷일 수 있다. 도 13에 도시된 단말 디바이스들(20)의 수량은 예시적인 것이며 제한되지 않는다는 것이 인식되어야 한다. 물론, 본 출원의 실시예들에 따른 얼굴 이미지를 생성하기 위한 데이터 프로세싱 디바이스는 대안적으로 네트워크에 연결되지 않은 독립형 디바이스일 수 있다.

도 14는 본 출원의 실시예에 따라 얼굴 이미지를 생성하기 위한 데이터 프로세싱 디바이스를 도시한다. 도 14에 도시된 바와 같이, 데이터 프로세싱 디바이스(1400)는 분할 장치(1401), 제1 변환 장치(1402), 선택 장치(1403), 제1 합성 장치(1404) 및 제1 역변환 장치(1405)를 포함한다.

분할 장치(1401)는, 입력된 제1 얼굴 이미지로부터 얼굴 특징들에 대응하는 M개의 제1 이미지 블록들을 획득하고, 입력된 제2 얼굴 이미지로부터 얼굴 특징들에 대응하는 N개의 제2 이미지 블록들을 획득하도록 구성된다.

제1 변환 장치(1402)는, M개의 제1 이미지 블록들 및 N개의 제2 이미지 블록들을 특징 공간으로 변환하여 M개의 제1 특징 블록들 및 N개의 제2 특징 블록들을 생성하도록 구성된다. 제1 변환 장치(1402)는 제1 변환 네트워크(예를 들어, 인코딩 네트워크)를 사용하여 변환을 수행할 수 있다.

선택 장치(1403)는 지정된 제어 벡터에 따라 제1 특징 블록들의 서브세트 및 제2 특징 블록들의 서브세트를 선택하도록 구성된다.

본 출원의 이 실시예에서, 지정된 제어 벡터는 얼굴 특징들에 대응하는 L개의 정보 비트들을 포함하고, 선택 장치(1403)는 추가로, 지정된 제어 벡터의 정보 비트가 제1 값인 경우, M개의 제1 특징 블록들로부터 정보 비트에 대응하는 얼굴 특징의 특징 블록을 선택하고, 그리고 지정된 제어 벡터의 정보 비트가 제2 값인 경우, N개의 제2 특징 블록들로부터의 정보 비트에 대응하는 얼굴 특징의 특징 블록을 선택하도록 구성된다. L은 자연수이며, M ≤ L이고 N ≤ L이다.

제1 합성 장치(1404)는 선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트에 기초하여 제1 합성 특징 맵을 생성하도록 구성된다.

또한, 출력된 제3 얼굴 이미지의 속성들(예를 들어, 연령 및 성별)이 제어될 수 있다. 예를 들어, 출력될 것으로 예상되는 제3 얼굴 이미지의 성별이 지정될 수 있다. 또한, 입력된 제1 얼굴 이미지와 제2 얼굴 이미지의 속성 정보 간에 상대적으로 큰 차이가 있을 수 있다. 따라서, 다른 가능한 구현에서, 제1 합성 장치(1404)는 추가로, 지정된 속성 정보를 특징 공간의 속성 특징 블록으로 확장시키고; 그리고 선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트 및 속성 특징 블록에 기초하여 제1 합성 특징 맵을 생성하도록 구성된다.

제1 역변환 장치(1405)는 제1 합성 특징 맵을 다시 이미지 공간으로 역변환하여 제3 얼굴 이미지를 생성하도록 구성된다. 제1 역변환 장치(1405)는 제1 역변환 네트워크(예를 들어, 디코딩 네트워크)를 사용하여 역변환을 수행할 수 있다. 제1 변환 네트워크와 제1 역변환 네트워크는 상속 네트워크를 구성한다.

본 출원의 실시예들에 따른 얼굴 이미지를 생성하기 위한 데이터 프로세싱 디바이스에서, 제1 얼굴 이미지에서 얼글 특징들의 서브세트를 그리고 제2 얼굴 이미지에서 얼글 특징들의 서브세트를 상속하는 제3 얼굴 이미지가, 얼굴 특징 이미지들의 분할 및 특징 공간에서의 재결합을 통해 생성될 수 있다. 종래 기술의 범용 프로세싱 네트워크를 사용하는 솔루션에 비해, 출력된 제3 얼굴 이미지와 입력 소스들로서의 얼굴 이미지들 간의 유사성을 보장할 수 있으면서, 출력된 제3 얼굴 이미지는 실제 이미지에 가깝다. 즉, 사용자가 제3 얼굴 이미지를 볼 때, 이미지가 실제 이미지인지 합성 이미지인지 구별하기 어렵다. 또한, 제어 벡터를 설정함으로써, 제3 얼굴 이미지가 상속하는 2개의 입력된 얼굴 이미지들에서의 얼굴 특징들이 정밀하게 제어될 수 있다. 또한, 특징 공간에서 속성 특징 블록의 중첩을 통해, 제3 얼굴 이미지의 속성들이 지정되고, 제3 얼굴 이미지의 조화와 자연스러움이 더욱 향상될 수 있다.

출력된 얼굴 이미지의 속성을 더 큰 범위 내에서 조정하기 위해, 다른 가능한 구현에서, 데이터 프로세싱 디바이스(1400)는 제2 변환 장치(1406), 확장 장치(1407), 제2 합성 모듈(1408) 및 제2 역변환 장치(1409)를 더 포함할 수 있다.

제2 변환 장치(1406)는 제3 얼굴 이미지를 특징 공간으로 변환하여 제3 특징 맵을 생성하도록 구성된다. 제2 변환 장치는 제2 변환 네트워크(예를 들어, 인코딩 네트워크)를 사용하여 변환을 수행할 수 있으며, 여기서, 제2 변환 네트워크는 제1 변환 네트워크와 상이하다.

확장 장치(1407)는 지정된 속성 정보를 특징 공간의 속성 특징 맵으로 확장시키도록 구성된다.

제2 합성 모듈(1408)은 속성 특징 맵 및 제3 특징 맵에 기초하여 제2 합성 특징 맵을 생성하도록 구성된다.

제2 역변환 장치(1409)는 제2 합성 특징 맵을 다시 이미지 공간으로 역변환하여 제4 얼굴 이미지를 생성하도록 구성된다. 제2 역변환 장치는 제2 역변환 네트워크(예를 들어, 디코딩 네트워크)를 사용하여 변환을 수행할 수 있으며, 여기서, 제2 변환 네트워크는 제1 역변환 네트워크와 상이하다. 제2 변환 네트워크와 제2 역변환 네트워크는 속성 향상 네트워크를 구성한다.

제2 변환 장치(1406), 확장 장치(1407), 제2 합성 모듈(1408) 및 제2 역변환 장치(1409)는 선택적이므로, 도 14에서 점선 박스로 도시되어 있다.

제3 얼굴 이미지와 비교하여, 제4 얼굴 이미지는 속성들에 큰 변화가 있을 수 있다. 예를 들어, 입력된 20세의 제3 얼굴 이미지에 기초하여 5세의 제4 얼굴 이미지가 출력될 수 있다.

앞서 설명된 바와 같이, 상속 네트워크와 속성 향상 네트워크는 인코딩 네트워크와 디코딩 네트워크를 포함할 수 있고, 인코딩 네트워크와 디코딩 네트워크는 둘 다는 복수의 결정될 타겟 파라미터들을 포함한다. 파라미터들은, 상속 네트워크와 속성 향상 네트워크를 구성하기 위해, 트레이닝 프로세스를 통해 결정된다. 이러한 방식으로, 상속 네트워크와 속성 향상 네트워크는 얼굴 이미지를 생성하는 기능을 구현할 수 있다. 즉, 상속 네트워크와 속성 향상 네트워크의 적용 전에, 먼저, 상속 네트워크와 속성 향상 네트워크가 트레이닝되어야 한다.

따라서, 데이터 프로세싱 디바이스(1400)는 트레이닝 장치(1410)를 더 포함한다.

트레이닝 장치(1410)는 트레이닝 모드에서 상속 네트워크를 트레이닝시키도록 구성된다. 구체적으로, 트레이닝 장치(1410)는 사전-교환 모듈, 제1 판별 모듈 및 제1 트레이닝 모듈을 포함한다.

사전-교환 모듈은, 제5 얼굴 이미지(I_M)로부터 얼굴 특징들에 대응하는 L개의 제5 이미지 블록들을 획득하고, 제6 얼굴 이미지(I_F)로부터 얼굴 특징들에 대응하는 L개의 제6 이미지 블록들을 획득하고, 제1 합성 이미지()를 생성하기 위해, 제1 제어 벡터에 따라 제5 이미지 블록의 서브 세트 및 제 6 이미지 블록의 서브 세트를 선택하고, 제2 합성 이미지()를 생성하기 위해, 제2 제어 벡터에 따라 다른 제5 이미지 블록들의 서브세트 및 다른 제6 이미지 블록들의 서브세트를 선택하도록 구성된다. 트레이닝 모드에서, 분할 장치는 추가로, 제1 합성 이미지()로부터 얼굴 특징들에 대응하는 L개의 제7 이미지 블록들을 획득하고, 제2 합성 이미지()로부터 얼굴 특징들에 대응하는 L개의 제8 이미지 블록들을 획득하고, 그리고 L개의 제7 이미지 블록들과 L개의 제8 이미지 블록들을 상속 네트워크에 입력하도록 구성된다. L은 자연수이며, M ≤ L이고 N ≤ L이다.

제1 판별 모듈은, 적어도 하나의 상속 트레이닝 데이터 그룹을 수신하고, 그리고 제1 판별 네트워크를 통해, 입력된 상속 트레이닝 데이터가 실제 이미지인지 판별하는 데 사용되는 확률 값을 출력하도록 구성된다. 적어도 하나의 상속 트레이닝 데이터 그룹은 제5 얼굴 이미지 내지 제8 얼굴 이미지를 포함하고,

제7 얼굴 이미지(I'_M)는, 제1 제어 벡터에 따라 선택되는, 제7 이미지 블록들의 서브세트 및 제8 이미지 블록들의 서브세트에 기초하여 상속 네트워크를 통해 생성되고, 그리고 제8 얼굴 이미지(I'_F)는, 제2 제어 벡터에 따라 선택되는, 다른 제7 이미지 블록들의 서브세트 및 다른 제8 이미지 블록들의 서브세트에 기초하여 상속 네트워크를 통해 생성된다. 제5 얼굴 이미지는 제7 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이고, 제6 얼굴 이미지는 제8 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이다.

제1 트레이닝 모듈은, 제1 손실 함수가 수렴될 때까지, 제1 손실 함수에 기초하여 상속 네트워크와 제1 판별 네트워크를 교대로 트레이닝시키도록 구성된다.

제1 손실 함수는, 적어도 하나의 상속 트레이닝 데이터 그룹에 대해 제1 판별 네트워크에 의해 출력되는 확률 값, 및 적어도 하나의 상속 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들과 얼굴 이미지들 간의 픽셀 차이들에 기초하여 결정된다.

대안적으로, 다른 가능한 구현에서, 제1 손실 함수는 추가로, 적어도 하나의 상속 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 속성들과 얼굴 이미지들의 속성들 간의 차이들 및 적어도 하나의 상속 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 특징들과 얼굴 이미지들의 특징들 간의 차이들 중 적어도 하나에 기초하여 결정된다.

또한, 트레이닝 장치(1410)는 트레이닝 모드에서 속성 향상 네트워크를 트레이닝시키도록 구성된다.

구체적으로, 트레이닝 장치(1410)는 제2 판별 모듈 및 제2 트레이닝 모듈을 더 포함한다.

제2 판별 모듈은, 적어도 하나의 속성 트레이닝 데이터 그룹을 수신하고, 그리고 제2 판별 네트워크를 통해, 입력된 속성 트레이닝 데이터가 실제 이미지인지 판별하는 데 사용되는 확률 값을 출력하도록 구성된다. 적어도 하나의 속성 트레이닝 데이터 그룹은 제7 얼굴 이미지 내지 제10 얼굴 이미지를 포함하고, 제9 얼굴 이미지()는 제7 얼굴 이미지에 기초하여 속성 향상 네트워크를 통해 출력되고, 제10 얼굴 이미지()는 제8 얼굴 이미지에 기초하여 속성 향상 네트워크를 통해 출력된다. 제7 얼굴 이미지는 제9 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이고, 제8 얼굴 이미지는 제10 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이다.

제2 트레이닝 모듈은, 제2 손실 함수가 수렴될 때까지, 제2 손실 함수에 기초하여 속성 향상 네트워크와 제2 판별 네트워크를 교대로 트레이닝시키도록 구성된다.

제2 손실 함수는, 적어도 하나의 속성 트레이닝 데이터 그룹에 대해 제2 판별 네트워크에 의해 출력되는 확률 값, 및 적어도 하나의 속성 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들과 얼굴 이미지들 간의 픽셀 차이들에 기초하여 결정된다.

대안적으로, 다른 가능한 구현에서, 제2 손실 함수는 추가로, 적어도 하나의 속성 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 속성들과 얼굴 이미지들의 속성들 간의 차이들 및 적어도 하나의 속성 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 특징들과 얼굴 이미지들의 특징들 간의 차이들 중 적어도 하나에 기초하여 결정된다.

또한, 트레이닝 장치는 공동 트레이닝 모듈을 더 포함할 수 있으며, 공동 트레이닝 모듈은, 제1 손실 함수 및 제2 손실 함수에 기초하여 총 손실 함수를 결정하고; 및 총 손실 함수가 수렴될 때까지, 총 손실 함수에 기초하여, 상속 네트워크, 속성 향상 네트워크, 제1 판별 네트워크 및 제2 판별 네트워크를 교대로 트레이닝시키도록 구성된다.

본 출원의 실시예들에 따른 데이터 프로세싱 디바이스의 장치의 특정 동작들은 본 출원의 실시예들에 따른 데이터 프로세싱 방법의 단계들과 완전히 대응하기 때문에, 중복을 피하기 위해, 특정 동작들의 세부사항들은 여기에서 설명되지 않는다. 당업자는, 본 출원의 실시예들에 따른 데이터 프로세싱 방법의 단계들이 본 출원의 실시예들에 따른 데이터 프로세싱 디바이스의 장치들에 유사하게 적용가능함을 있음을 이해할 수 있다.

도 15는, 본 출원의 실시예에 따른, 하드웨어 엔티티로서의 얼굴 이미지를 생성하기 위한 데이터 프로세싱 디바이스의 예를 도시한다. 데이터 프로세싱 디바이스는 프로세서(1501), 메모리(1502) 및 적어도 하나의 외부 통신 인터페이스(1503)를 포함한다. 프로세서(1501), 메모리(1502) 및 외부 통신 인터페이스(1503)는 통신 버스(1504)를 사용하여 연결된다.

데이터 프로세싱을 위해 프로세서(1501)는 마이크로프로세서, CPU(central processing unit), DSP(digital signal processor) 또는 FPGA(field-programmable gate array)를 사용하여 구현될 수 있다. 메모리(1502)는 동작 명령들을 포함한다. 동작 명령들은 컴퓨터 실행가능 코드일 수 있다. 본 출원의 전술한 실시예들에서 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법의 단계들은 동작 명령들을 사용하여 구현된다.

도 16은 본 출원의 실시예에 따른 컴퓨터-판독가능 기록 매체의 개략도이다. 도 16에 도시된 바와 같이, 본 출원의 실시예에 따른 컴퓨터-판독가능 기록 매체(1600)는 컴퓨터 프로그램 명령들(1601)을 저장한다. 컴퓨터 프로그램 명령들(1601)은, 프로세서에 의해 실행될 때, 전술한 첨부 도면들을 참조로 설명된 본 출원의 실시예들에 따라 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법을 수행한다.

본 출원의 실시예들은, 메모리 및 프로세서를 포함하는 컴퓨터 디바이스를 추가로 제공한다. 메모리는. 프로세서상에서 실행가능한 컴퓨터 프로그램을 저장하며, 프로세서는, 컴퓨터 프로그램을 실행할 때, 전술한 실시예들에서 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법을 구현할 수 있다. 컴퓨터 디바이스는 데이터 프로세싱을 수행할 수 있는 서버 또는 임의의 디바이스일 수 있다.

지금까지, 본 출원의 실시예들에 따른 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법 및 디바이스 및 매체가 도 1 내지 도 16을 참조로 상세히 설명되었다. 본 출원의 실시예들에 따른 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법 및 디바이스 및 매체에서, 제1 얼굴 이미지에서 얼글 특징들의 서브세트를 그리고 제2 얼굴 이미지에서 얼글 특징들의 서브세트를 상속하는 제3 얼굴 이미지가, 얼굴 특징 이미지들의 분할 및 특징 공간에서의 재결합을 통해 생성될 수 있다. 종래 기술의 범용 프로세싱 네트워크를 사용하는 솔루션에 비해, 출력된 제3 얼굴 이미지와 입력 소스들로서의 얼굴 이미지들 간의 유사성을 보장할 수 있으면서, 출력된 제3 얼굴 이미지는 실제 이미지에 가깝다. 즉, 사용자가 제3 얼굴 이미지를 볼 때, 이미지가 실제 이미지인지 합성 이미지인지 구별하기 어렵다.

또한, 상속 네트워크에서, 제어 벡터를 설정함으로써, 제3 얼굴 이미지가 상속하는 2개의 입력된 얼굴 이미지들에서의 얼굴 특징들이 정확하게 제어될 수 있다. 특징 공간에서 속성 특징 블록의 중첩을 통해, 제3 얼굴 이미지의 속성들이 지정되고, 제3 얼굴 이미지의 조화와 자연스러움이 더욱 향상될 수 있다. 또한, 추가적인 속성 향상 네트워크를 사용함으로써, 생성된 얼굴 이미지의 속성들이 더 넓은 범위 내에서 변경될 수 있다. 또한, 트레이닝 프로세스에서 두 번의 얼굴 특징 교환들을 통해, 아버지/어머니와 자식 간의 관계로 얼굴 데이터베이스를 구축하지 않고 임의의 기존의 얼굴 데이터베이스를 바로 사용함으로써 상속 네트워크의 트레이닝 프로세스가 완료될 수 있어, 비용 및 구현 어려움이 크게 감소될 수 있다.

본 명세서에서, "포함하다(include", "comprise")라는 용어, 또는 임의의 다른 변형은 비 배타적인 것을 커버하도록 의도되며, 일련의 엘리먼트들을 포함하는 그리고 이러한 엘리먼트들을 포함할 뿐만 아니라 다른 엘리먼트들을 포함하는 프로세스, 방법, 물품 또는 디바이스가 명시적으로 나열되지 않거나, 또는 프로세스, 방법, 물품 또는 디바이스에 고유한 엘리먼트를 더 포함할 수 있다. 달리 명시되지 않는 한, “포함하다(include)"로 제한되는 엘리먼트는, 엘리먼트를 포함하는 프로세스, 방법, 물품 또는 디바이스에 존재하는 다른 동일한 엘리먼트를를 제외하지 않는다.

또한, 전술한 일련의 프로세싱은, 시간 시퀀스에 따라 본원에서 설명된 순서로 수행되는 프로세싱을 포함할 뿐만 아니라, 시간 시퀀스에 따라 수행되기 보다는 병렬로 또는 개별적으로 수행되는 프로세싱을 포함한다.

전술한 구현의 설명에 기초하여, 당업자는, 본 출원의 실시예들이 필요한 하드웨어 플랫폼에 추가하여 소프트웨어를 사용함으로써 구현될 수 있거나, 물론 소프트웨어만을 사용함으로써 구현될 수 있음을 명확하게 이해할 수 있다. 이러한 이해에 기초하여, 배경 부분에서의 기술에 기여하는 본 출원의 실시예들의 기술적 솔루션들의 전부 또는 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체, 이를테면 ROM/RAM, 자기 디스크(disk) 또는 광학 디스크(disc)에 저장될 수 있으며, 컴퓨터 디바이스(개인용 컴퓨터, 서버 또는 네트워크 디바이스)에게 본 출원의 실시예들의 일부 부분들 또는 실시예들에 설명된 방법을 수행하도록 명령하기 위한 몇 개의 명령들을 포함한다.

본 출원의 실시예들은 앞서 상세히 설명되었다. 본 출원의 원리들 및 구현들이 본 명세서의 특정 예들을 사용하여 설명되었지만, 전술한 실시예들의 설명은 단지 본 출원의 방법 및 방법의 핵심 아이디어를 이해하는 것을 돕기 위한 것이다. 한편, 당업자는 본 출원의 아이디어에 따라 특정 구현들 및 적용 범위를 수정할 수 있다. 결론적으로, 본 명세서의 내용은 본 출원에 대한 제한으로 해석되지 않는다.

Claims

컴퓨터 디바이스에 의해 수행되는, 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법으로서,
제1 얼굴 이미지(I_MA) 및 제2 얼굴 이미지(I_FA)를 획득하는 단계;
상기 제1 얼굴 이미지(I_MA)로부터 얼굴 특징(facial feature)들에 대응하는 M개의 제1 이미지 블록들을 획득하고, 상기 제2 얼굴 이미지(I_FA)로부터 얼굴 특징들에 대응하는 N개의 제2 이미지 블록들을 획득하는 단계;
상기 M개의 제1 이미지 블록들 및 상기 N개의 제2 이미지 블록들을 특징 공간(feature space)으로 변환하여 M개의 제1 특징 블록들 및 N개의 제2 특징 블록들을 생성하는 단계;
지정된 제어 벡터에 따라 제1 특징 블록들의 서브세트 및 제2 특징 블록들의 서브세트를 선택하는 단계;
선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트에 기초하여 제1 합성 특징 맵을 생성하는 단계; 및
상기 제1 합성 특징 맵을 다시 이미지 공간으로 역변환하여 제3 얼굴 이미지(I_o1)를 생성하는 단계
를 포함하며, M 및 N은 자연수들이고,
상기 제3 얼굴 이미지는 상기 M개의 제1 이미지 블록들 및 상기 N개의 제2 이미지 블록들을 상속 네트워크(inheritance network)에 입력함으로써 생성되고,
상기 상속 네트워크는 트레이닝 동작들을 수행함으로써 획득되며, 상기 트레이닝 동작들은,
제5 얼굴 이미지(I_M)로부터 얼굴 특징들에 대응하는 L개의 제5 이미지 블록들을 획득하고, 제6 얼굴 이미지(I_F)로부터 얼굴 특징들에 대응하는 L개의 제6 이미지 블록들을 획득하는 동작 ―L은 자연수이며, M ≤ L이고 N ≤ L임―;
제1 합성 이미지()를 생성하기 위해, 제1 제어 벡터에 따라 상기 제5 이미지 블록들의 서브세트 및 상기 제6 이미지 블록들의 서브세트를 선택하고, 제2 합성 이미지()를 생성하기 위해, 제2 제어 벡터에 따라 상기 제5 이미지 블록들의 다른 서브세트 및 상기 제6 이미지 블록들의 다른 서브세트를 선택하는 동작;
상기 제1 합성 이미지()로부터 얼굴 특징들에 대응하는 L개의 제7 이미지 블록들을 획득하고, 상기 제2 합성 이미지()로부터 얼굴 특징들에 대응하는 L개의 제8 이미지 블록들을 획득하는 동작;
상기 L개의 제7 이미지 블록들 및 상기 L개의 제8 이미지 블록들을 상기 상속 네트워크에 입력하는 동작;
상기 상속 네트워크를 통해, 상기 제1 제어 벡터에 따라 선택되는, 상기 제7 이미지 블록들의 서브세트와 상기 제8 이미지 블록들의 서브세트에 기초하여 생성된 제7 얼굴 이미지(I'_M)를 출력하고, 그리고 상기 제2 제어 벡터에 따라 선택되는, 상기 제7 이미지 블록들의 다른 서브세트와 상기 제8 이미지 블록들의 다른 서브세트에 기초하여 생성된 제8 얼굴 이미지(I'_F)를 출력하는 동작 ―상기 제5 얼굴 이미지는 상기 제7 얼굴 이미지에 대한 수퍼비전 정보(supervision information)를 제공하기 위한 수퍼비전 이미지이고, 상기 제6 얼굴 이미지는 상기 제8 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이고, 그리고 상기 제5 얼굴 이미지 내지 상기 제8 얼굴 이미지는 상속 트레이닝 데이터 그룹으로 사용됨―;
적어도 하나의 상속 트레이닝 데이터 그룹을 제1 판별 네트워크(discriminative network)에 입력하는 동작 ―상기 제1 판별 네트워크는, 이미지가 상기 제1 판별 네트워크에 입력되는 경우, 상기 이미지가 실제 이미지인 확률 값을 출력하도록 구성됨―; 및
제1 손실 함수가 수렴될 때까지, 상기 제1 손실 함수에 기초하여 상기 상속 네트워크와 상기 제1 판별 네트워크를 교대로 트레이닝시키는 동작인, 데이터 프로세싱 방법.
제1항에 있어서,
상기 지정된 제어 벡터는 얼굴 특징들에 대응하는 L개의 정보 비트들을 포함하고, L은 자연수이고, M ≤ L이며 N ≤ L이고,
상기 지정된 제어 벡터에 따라 제1 특징 블록들의 서브세트 및 제2 특징 블록들의 서브세트를 선택하는 단계는,
상기 지정된 제어 벡터의 정보 비트가 제1 값이라는 결정에 따라, 상기 M개의 제1 특징 블록들로부터 상기 정보 비트에 대응하는 얼굴 특징의 특징 블록을 선택하는 단계; 및
상기 지정된 제어 벡터의 정보 비트가 제2 값이라는 결정에 따라, 상기 N개의 제2 특징 블록들로부터 상기 정보 비트에 대응하는 얼굴 특징의 특징 블록을 선택하는 단계
를 포함하는, 데이터 프로세싱 방법.
제1항에 있어서,
상기 선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트에 기초하여 제1 합성 특징 맵을 생성하는 단계는,
지정된 속성 정보를 상기 특징 공간의 속성 특징 블록으로 확장시키는 단계; 및
상기 선택된 제1 특징 블록들의 서브세트, 상기 선택된 제2 특징 블록들의 서브세트 및 상기 속성 특징 블록에 기초하여 제1 합성 특징 맵을 생성하는 단계
를 포함하는, 데이터 프로세싱 방법.
제1항에 있어서,
상기 제1 손실 함수는, 상기 적어도 하나의 상속 트레이닝 데이터 그룹에 대해 상기 제1 판별 네트워크에 의해 출력되는 확률 값, 및 상기 적어도 하나의 상속 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들과 얼굴 이미지들 간의 픽셀 차이들에 기초하여 결정되는, 데이터 프로세싱 방법.
제4항에 있어서,
상기 제1 손실 함수는 추가로, 상기 적어도 하나의 상속 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 속성들과 얼굴 이미지들의 속성들 간의 차이들 및 상기 적어도 하나의 상속 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 특징들과 상기 얼굴 이미지들의 특징들 간의 차이들 중 하나 이상에 기초하여 결정되는, 데이터 프로세싱 방법.
제1항에 있어서,
상기 제3 얼굴 이미지(I_o1)를 상기 특징 공간으로 변환하여 제3 특징 맵을 생성하는 단계;
지정된 속성 정보를 상기 특징 공간의 속성 특징 맵으로 확장시키는 단계; 및
상기 속성 특징 맵 및 상기 제3 특징 맵에 기초하여 제2 합성 특징 맵을 생성하는 단계; 및
상기 제2 합성 특징 맵을 다시 상기 이미지 공간으로 역변환하여 제4 얼굴 이미지(I_o2)를 생성하는 단계
를 더 포함하는, 데이터 프로세싱 방법.
제6항에 있어서,
상기 제4 얼굴 이미지는 속성 향상 네트워크(attribute enhancement network)에 상기 제3 얼굴 이미지를 입력함으로써 생성되고,
상기 속성 향상 네트워크는 트레이닝 동작들을 수행함으로써 획득되며,
상기 트레이닝 동작들은,
상기 제7 얼굴 이미지(I'_M) 및 상기 제8 얼굴 이미지(I'_F)를 상기 속성 향상 네트워크에 입력하는 동작;
상기 속성 향상 네트워크를 통해, 상기 제7 얼굴 이미지에 대응하는 제9 얼굴 이미지() 및 상기 제8 얼굴 이미지에 대응하는 제10 얼굴 이미지()를 출력하는 동작 ―상기 제7 얼굴 이미지는 상기 제9 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이고, 상기 제8 얼굴 이미지는 상기 제10 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이며, 상기 제7 얼굴 이미지 내지 상기 제10 얼굴 이미지는 속성 트레이닝 데이터 그룹으로 사용됨―;
적어도 하나의 속성 트레이닝 데이터 그룹을 제2 판별 네트워크에 입력하는 동작 ―상기 제2 판별 네트워크는, 이미지가 제2 판별 네트워크에 입력되는 경우, 상기 이미지가 실제 이미지인 확률 값을 출력하도록 구성됨―; 및
제2 손실 함수가 수렴될 때까지, 상기 제2 손실 함수에 기초하여 상기 속성 향상 네트워크와 상기 제2 판별 네트워크를 교대로 트레이닝시키는 동작인,
데이터 프로세싱 방법.
제7항에 있어서,
상기 제2 손실 함수는, 상기 적어도 하나의 속성 트레이닝 데이터 그룹에 대해 상기 제2 판별 네트워크에 의해 출력되는 확률 값, 및 상기 적어도 하나의 속성 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들과 얼굴 이미지들 간의 픽셀 차이들에 기초하여 결정되는, 데이터 프로세싱 방법.
제8항에 있어서,
상기 제2 손실 함수는 추가로, 상기 적어도 하나의 속성 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 속성들과 얼굴 이미지들의 속성들 간의 차이들 및 상기 적어도 하나의 속성 트레이닝 데이터 그룹에서 대응하는 수퍼비전 이미지들의 특징들과 상기 얼굴 이미지들의 특징들 간의 차이들 중 하나 이상에 기초하여 결정되는, 데이터 프로세싱 방법.
제7항에 있어서,
상기 상속 네트워크 및 상기 속성 향상 네트워크는 추가로, 공동 트레이닝 동작들을 수행함으로써 최적화되며,
상기 공동 트레이닝 동작들은,
상기 제1 손실 함수 및 상기 제2 손실 함수에 기초하여 총 손실 함수를 결정하는 동작; 및
상기 총 손실 함수가 수렴될 때까지, 상기 총 손실 함수에 기초하여, 상기 상속 네트워크, 상기 속성 향상 네트워크, 상기 제1 판별 네트워크 및 상기 제2 판별 네트워크를 교대로 트레이닝시키는 동작인, 데이터 프로세싱 방법.
얼굴 이미지를 생성하기 위한 데이터 프로세싱 디바이스로서,
입력된 제1 얼굴 이미지로부터 얼굴 특징들에 대응하는 M개의 제1 이미지 블록들을 획득하고, 입력된 제2 얼굴 이미지로부터 얼굴 특징들에 대응하는 N개의 제2 이미지 블록들을 획득하도록 구성된 분할 장치(segmentation apparatus);
상기 M개의 제1 이미지 블록들 및 상기 N개의 제2 이미지 블록들을 특징 공간으로 변환하여 M개의 제1 특징 블록들 및 N개의 제2 특징 블록들을 생성하도록 구성된 제1 변환 장치;
지정된 제어 벡터에 따라 제1 특징 블록들의 서브세트 및 제2 특징 블록들의 서브세트를 선택하도록 구성된 선택 장치;
선택된 제1 특징 블록들의 서브세트 및 선택된 제2 특징 블록들의 서브세트에 기초하여 제1 합성 특징 맵을 생성하도록 구성된 제1 합성 장치; 및
상기 제1 합성 특징 맵을 다시 이미지 공간으로 역변환하여 제3 얼굴 이미지를 생성하도록 구성된 제1 역변환 장치
를 포함하고,
상기 제3 얼굴 이미지는 상기 M개의 제1 이미지 블록들 및 상기 N개의 제2 이미지 블록들을 상속 네트워크(inheritance network)에 입력함으로써 생성되고,
상기 상속 네트워크는 트레이닝 동작들을 수행함으로써 획득되며, 상기 트레이닝 동작들은,
제5 얼굴 이미지(I_M)로부터 얼굴 특징들에 대응하는 L개의 제5 이미지 블록들을 획득하고, 제6 얼굴 이미지(I_F)로부터 얼굴 특징들에 대응하는 L개의 제6 이미지 블록들을 획득하는 동작 ―L은 자연수이며, M ≤ L이고 N ≤ L임―;
제1 합성 이미지()를 생성하기 위해, 제1 제어 벡터에 따라 상기 제5 이미지 블록들의 서브세트 및 상기 제6 이미지 블록들의 서브세트를 선택하고, 제2 합성 이미지()를 생성하기 위해, 제2 제어 벡터에 따라 상기 제5 이미지 블록들의 다른 서브세트 및 상기 제6 이미지 블록들의 다른 서브세트를 선택하는 동작;
상기 제1 합성 이미지()로부터 얼굴 특징들에 대응하는 L개의 제7 이미지 블록들을 획득하고, 상기 제2 합성 이미지()로부터 얼굴 특징들에 대응하는 L개의 제8 이미지 블록들을 획득하는 동작;
상기 L개의 제7 이미지 블록들 및 상기 L개의 제8 이미지 블록들을 상기 상속 네트워크에 입력하는 동작;
상기 상속 네트워크를 통해, 상기 제1 제어 벡터에 따라 선택되는, 상기 제7 이미지 블록들의 서브세트와 상기 제8 이미지 블록들의 서브세트에 기초하여 생성된 제7 얼굴 이미지(I'_M)를 출력하고, 그리고 상기 제2 제어 벡터에 따라 선택되는, 상기 제7 이미지 블록들의 다른 서브세트와 상기 제8 이미지 블록들의 다른 서브세트에 기초하여 생성된 제8 얼굴 이미지(I'_F)를 출력하는 동작 ―상기 제5 얼굴 이미지는 상기 제7 얼굴 이미지에 대한 수퍼비전 정보(supervision information)를 제공하기 위한 수퍼비전 이미지이고, 상기 제6 얼굴 이미지는 상기 제8 얼굴 이미지에 대한 수퍼비전 정보를 제공하기 위한 수퍼비전 이미지이고, 그리고 상기 제5 얼굴 이미지 내지 상기 제8 얼굴 이미지는 상속 트레이닝 데이터 그룹으로 사용됨―;
적어도 하나의 상속 트레이닝 데이터 그룹을 제1 판별 네트워크(discriminative network)에 입력하는 동작 ―상기 제1 판별 네트워크는, 이미지가 상기 제1 판별 네트워크에 입력되는 경우, 상기 이미지가 실제 이미지인 확률 값을 출력하도록 구성됨―; 및
제1 손실 함수가 수렴될 때까지, 상기 제1 손실 함수에 기초하여 상기 상속 네트워크와 상기 제1 판별 네트워크를 교대로 트레이닝시키는 동작인, 데이터 프로세싱 디바이스
컴퓨터-판독가능 기록 매체로서,
컴퓨터 프로그램을 저장하며,
프로세서가 상기 컴퓨터 프로그램을 실행할 때, 제1항 내지 제10항 중 어느 한 항에 따른 방법을 수행하는, 컴퓨터-판독가능 기록 매체.
컴퓨터 디바이스로서,
메모리 및 프로세서를 포함하고,
상기 메모리는 컴퓨터 프로그램을 저장하도록 구성되며, 상기 프로세서는, 컴퓨터 프로그램을 실행하여, 제1항 내지 제10항 중 어느 한 항에 따른 얼굴 이미지를 생성하기 위한 데이터 프로세싱 방법을 구현하도록 구성되는, 컴퓨터 디바이스.
삭제