KR20210057133A

KR20210057133A - 이미지 처리 방법 및 장치, 프로세서, 전자 기기 및 저장 매체

Info

Publication number: KR20210057133A
Application number: KR1020217010771A
Authority: KR
Inventors: 웨 허; 윈쉬엔 짱; 시웨이 짱; 청 리
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2019-07-30
Filing date: 2019-09-12
Publication date: 2021-05-20
Also published as: JP2022504579A; TW202213265A; CN113569789B; TWI779969B; SG11202103930TA; CN110399849B; CN113569790B; TW202213275A; WO2021017113A1; TWI753327B; TWI779970B; CN113569791A; TW202105238A; CN113569791B; CN113569790A; US20210232806A1; CN113569789A; JP7137006B2; CN110399849A

Abstract

본 발명은 이미지 처리 방법 및 장치, 프로세서, 전자 기기 및 저장 매체에 관한 것이다. 상기 방법은, 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 획득하는 단계; 상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하고, 상기 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 상기 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하는 단계; 및 상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하는 단계를 포함한다. 또한 이에 상응하는 장치를 개시하였다. 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지에 기반하여 타깃 이미지를 생성하는 것을 구현한다.

Description

이미지 처리 방법 및 장치, 프로세서, 전자 기기 및 저장 매체

본 출원은 출원 번호가 CN201910694065.3이고 출원인이 2019년 7월 30일인 중국 특허 출원에 기반하여 제출한 발명의 명칭이 "이미지 처리 방법 및 장치, 프로세서, 전자 기기 및 저장 매체"인 중국 특허 출원의 우선권을 주장하는 바, 그 모든 내용은 참조로서 본 출원에 인용된다.

본 발명은 이미지 처리 기술분야에 관한 것으로서, 특히 이미지 처리 방법 및 장치, 프로세서, 전자 기기 및 저장 매체에 관한 것이다.

인공 지능(artificial intelligence, AI) 기술의 발전에 따라, AI 기술의 응용도 점점 더 많아지며, 예를 들어, AI 기술을 통해 비디오 또는 이미지에서의 인물에 대해 "얼굴 체인지"를 수행한다. "얼굴 체인지"는 비디오 또는 이미지에서의 얼굴 포즈를 유지하고, 타깃 인물의 얼굴 무늬 데이터로 비디오 또는 이미지에서의 얼굴 무늬 데이터를 대체하는 것을 통해, 비디오 또는 이미지에서의 인물의 얼굴을 타깃 인물의 얼굴로 변경하는 것을 구현한다. 여기서, 얼굴 포즈는 얼굴 윤곽의 위치 정보, 오관의 위치 정보 및 안면 표정 정보를 포함하고, 얼굴 무늬 데이터는 얼굴 피부의 광택 정보, 얼굴 피부의 피부색 정보, 얼굴의 주름 정보 및 얼굴 피부의 무늬 정보를 포함한다.

종래 방법은 타깃 인물의 얼굴을 대량으로 포함하는 이미지를 훈련 세트로 사용하는 것을 통해 신경 네트워크를 훈련하고, 훈련된 신경 네트워크에 기준 얼굴 포즈 이미지(즉 얼굴 포즈 정보를 포함하는 이미지) 및 타깃 인물의 얼굴을 포함하는 기준 얼굴 이미지를 입력하는 것을 통해 하나의 타깃 이미지를 획득할 수 있으며, 상기 타깃 이미지에서의 얼굴 포즈는 기준 얼굴 이미지에서의 얼굴 포즈이며, 상기 타깃 이미지에서의 얼굴 무늬는 타깃 인물의 얼굴 무늬이다.

본 발명은 이미지 처리 방법 및 장치, 프로세서, 전자 기기 및 저장 매체를 제공한다.

제1 측면에 있어서, 이미지 처리 방법을 제공하고, 상기 방법은, 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 획득하는 단계; 상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하고, 상기 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 상기 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하는 단계; 및 상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하는 단계를 포함한다. 상기 측면에 있어서, 기준 얼굴 이미지에 대해 인코딩 처리를 수행하는 것을 통해 기준 얼굴 이미지 중 타깃 인물의 얼굴 무늬 데이터를 획득할 수 있고, 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하는 것을 통해 얼굴 마스크를 획득할 수 있으며, 또한 얼굴 무늬 데이터 및 얼굴 마스크에 대해 융합 처리, 인코딩 처리를 수행하는 것을 통해 타깃 이미지를 획득할 수 있어, 임의의 타깃 인물의 얼굴 포즈의 변경을 구현한다.

한 가지 구현 가능한 방식에 있어서, 상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하는 단계는, 상기 얼굴 무늬 데이터에 대해 디코딩 처리를 수행하여, 제1 얼굴 무늬 데이터를 획득하는 단계; 및 상기 제1 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 n 레벨의 타깃 처리를 수행하여, 상기 타깃 이미지를 획득하는 단계 - 상기 n 레벨의 타깃 처리는 제m-1 레벨의 타깃 처리 및 제m 레벨의 타깃 처리를 포함하고, 상기 n 레벨의 타깃 처리에서의 제1 레벨의 타깃 처리의 입력 데이터는 상기 얼굴 무늬 데이터이며, 상기 제m-1 레벨의 타깃 처리의 출력 데이터는 상기 제m 레벨의 타깃 처리의 입력 데이터이며, 상기 n 레벨의 타깃 처리에서의 제i 레벨의 타깃 처리는 상기 제i 레벨의 타깃 처리의 입력 데이터 및 상기 제1 얼굴 마스크의 사이즈를 조정 후 획득된 데이터에 대한 순차적인 융합 처리 및 디코딩 처리를 포함하며, 상기 n은 2보다 크거나 같은 양의 정수이며; 상기 m은 2보다 크거나 같고 상기 n보다 작거나 같은 양의 정수이며, 상기 i는 1보다 크거나 같고 상기 n보다 작거나 같은 양의 정수임 - 를 포함한다. 상기 구현 가능한 방식에 있어서, 제1 얼굴 마스크 및 제1 얼굴 무늬 데이터에 대해 n 레벨의 타깃 처리를 수행하는 과정에서 타깃 처리의 입력 데이터와 사이즈가 조정된 제1 얼굴 마스크를 융합하는 것을 통해 제1 얼굴 마스크와 제1 얼굴 무늬 데이터의 융합 효과를 향상시킬 수 있음으로써, 얼굴 무늬 데이터에 대한 디코딩 처리 및 타깃 처리에 기반하여 획득된 타깃 이미지의 품질을 향상시킨다.

다른 한 가지 구현 가능한 방식에 있어서, 상기 제i 레벨의 타깃 처리의 입력 데이터 및 상기 제1 얼굴 마스크의 사이즈를 조정한 후 획득된 데이터에 대해 순차적으로 융합 처리 및 디코딩 처리를 수행하는 단계는, 상기 제i 레벨의 타깃 처리의 입력 데이터에 따라, 상기 제i 레벨의 타깃 처리의 융합된 데이터를 획득하는 단계; 상기 제i 레벨의 타깃 처리의 융합된 데이터 및 제i 레벨의 얼굴 마스크에 대해 융합 처리를 수행하여, 제i 레벨의 융합된 데이터를 획득하는 단계 - 상기 제i 레벨의 얼굴 마스크는 상기 제1 얼굴 마스크에 대해 다운 샘플링 처리를 수행하는 것을 통해 획득되고, 상기 제i 레벨의 얼굴 마스크의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일함 - ; 및 상기 제i 레벨의 융합된 데이터에 대해 디코딩 처리를 수행하여, 상기 제i 레벨의 타깃 처리의 출력 데이터를 획득하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 상이한 사이즈의 얼굴 마스크와 상이한 레벨의 타깃 처리의 입력 데이터를 융합하는 것을 통해, 얼굴 마스크와 얼굴 무늬 데이터의 융합을 구현하고, 융합의 효과를 향상시킬 수 있음으로써, 타깃 이미지의 품질을 향상시킨다.

또 한 가지 구현 가능한 방식에 있어서, 상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득한 후, 상기 방법은, 상기 얼굴 무늬 데이터에 대해 j 레벨의 디코딩 처리를 수행하는 단계를 더 포함하고; 상기 j 레벨의 디코딩 처리에서의 제1 레벨의 디코딩 처리의 입력 데이터는 상기 얼굴 무늬 데이터이며; 상기 j 레벨의 디코딩 처리는 제k-1 레벨의 디코딩 처리 및 제k 레벨의 디코딩 처리를 포함하며; 상기 제k-1 레벨의 디코딩 처리의 출력 데이터는 상기 제k 레벨의 디코딩 처리의 입력 데이터이며; 상기 j는 2보다 크거나 같은 양의 정수이며; 상기 k는 2보다 크거나 같고 상기 j보다 작거나 같은 양의 정수이며; 상기 제i 레벨의 타깃 처리의 입력 데이터에 따라, 상기 제i 레벨의 타깃 처리의 융합된 데이터를 획득하는 단계는, 상기 제i 레벨의 타깃 처리의 융합된 데이터로서, 상기 j 레벨의 디코딩 처리에서의 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 병합하여, 제i 레벨의 병합된 데이터를 획득하는 단계 - 상기 제r 레벨의 디코딩 처리의 출력 데이터의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일하며, 상기 r은 1보다 크거나 같고 상기 j보다 작거나 같은 양의 정수임 - 를 포함한다. 상기 구현 가능한 방식에 있어서, 제r 레벨의 디코딩 처리가 수행된 데이터 및 제i 레벨의 타깃 처리의 입력 데이터를 병합하는 것을 통해 제i 레벨의 타깃 처리의 융합된 데이터를 획득함으로써, 제i 레벨의 타깃 처리의 융합된 데이터와 제i 레벨의 얼굴 마스크를 융합할 경우, 얼굴 무늬 데이터와 제1 얼굴 마스크의 융합 효과를 추가로 향상시킬 수 있다.

또 한 가지 구현 가능한 방식에 있어서, 상기 j 레벨의 디코딩 처리에서의 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 병합하여, 제i 레벨의 병합된 데이터를 획득하는 단계는, 상기 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 채널 차원에서 병합하여, 상기 제i 레벨의 병합된 데이터를 획득하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 제r 레벨의 디코딩 처리의 출력 데이터 및 제i 레벨의 타깃 처리의 입력 데이터를 채널 차원에서 병합하는 것을 통해 제r 레벨의 디코딩 처리의 입력 데이터의 정보와 제i 레벨의 타깃 처리의 입력 데이터의 정보의 병합을 구현하므로, 후속 제i 레벨의 병합된 데이터에 기반하여 획득된 타깃 이미지의 품질을 향상시키는데 유리하다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제r 레벨의 디코딩 처리는, 상기 제r 레벨의 디코딩 처리의 입력 데이터에 대해 순차적으로 활성화 처리, 디컨볼루션 처리, 정규화 처리를 수행하여, 상기 제r 레벨의 디코딩 처리의 출력 데이터를 획득하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 얼굴 무늬 데이터에 대해 단계적인 디코딩 처리를 수행하는 것을 통해, 상이한 사이즈 하의 얼굴 무늬 데이터(즉 상이한 디코딩층의 출력 데이터)를 획득하여, 후속 처리 과정 중 상이한 사이즈의 얼굴 무늬 데이터와 상이한 레벨의 타깃 처리의 입력 데이터를 융합하도록 한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제i 레벨의 타깃 처리의 융합된 데이터 및 상기 제i 레벨의 얼굴 마스크에 대해 융합 처리를 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하는 단계는, 제1 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제1 특징 데이터를 획득하고, 제2 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제2 특징 데이터를 획득하는 단계; 상기 제1 특징 데이터 및 상기 제2 특징 데이터에 따라 정규화 형태를 결정하는 단계; 및 상기 정규화 형태에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 정규화 처리를 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 제1 소정 사이즈의 컨볼루션 코어 및 제2 소정 사이즈의 컨볼루션 코어를 각각 사용하여 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여, 제1 특징 데이터 및 제2 특징 데이터를 획득한다. 또한 제1 특징 데이터 및 제2 특징 데이터에 따라 제i 레벨의 타깃 처리의 융합된 데이터에 대해 정규화 처리를 수행하여, 얼굴 무늬 데이터와 얼굴 마스크의 융합 효과를 향상시킨다.

또 한 가지 구현 가능한 방식에 있어서, 상기 정규화 형태는 타깃 아핀 변환을 포함하고; 상기 정규화 형태에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 정규화 처리를 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하는 단계는, 상기 타깃 아핀 변환에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 아핀 변환을 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 상기 정규화 형태는 아핀 변환이고, 제1 특징 데이터 및 제2 특징 데이터를 통해 아핀 변환의 형태를 결정하며, 아핀 변환의 형태에 따라 제i 레벨의 타깃 처리의 융합된 데이터에 대해 아핀 변환을 수행하여, 제i 레벨의 타깃 처리의 융합된 데이터에 대한 정규화 처리를 구현한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하는 단계는, 상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 융합 처리를 수행하여, 타깃 융합 데이터를 획득하는 단계; 및 상기 타깃 융합 데이터에 대해 디코딩 처리를 수행하여, 상기 타깃 이미지를 획득하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 먼저 얼굴 무늬 데이터 및 얼굴 마스크에 대해 융합 처리를 수행하는 것을 통해 타깃 융합 데이터를 획득한 다음, 타깃 융합 데이터에 대해 디코딩 처리를 수행하여, 타깃 이미지를 획득할 수 있다.

또 한 가지 구현 가능한 방식에 있어서, 상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하는 단계는, 다중 계층 인코딩층을 통해 상기 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하여, 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하는 단계를 포함하고; 상기 다중 계층 인코딩층은 s 번째 층의 인코딩층 및 s+1 번째 층의 인코딩층을 포함하며; 상기 다중 계층 인코딩층에서의 첫 번째 층의 인코딩층의 입력 데이터는 상기 기준 얼굴 이미지이며; 상기 s 번째 층의 인코딩층의 출력 데이터는 상기 s+1 번째 층의 인코딩층의 입력 데이터이며; 상기 s는 1보다 크거나 같은 양의 정수이다. 상기 구현 가능한 방식에 있어서, 다중 계층 인코딩층을 통해 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하고, 단계적으로 기준 얼굴 이미지로부터 특징 정보를 추출하여, 얼굴 무늬 데이터를 최종적으로 획득한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 다중 계층 인코딩층에서의 각 층의 인코딩층은 컨볼루션 처리층, 정규화 처리층, 활성화 처리층을 포함한다. 상기 구현 가능한 방식에 있어서, 각 층의 인코딩층의 인코딩 처리는 컨볼루션 처리, 정규화 처리, 활성화 처리를 포함하고, 각 층의 인코딩층의 입력 데이터에 대해 순차적으로 컨볼루션 처리, 정규화 처리, 활성화 처리를 수행하는 것을 통해 각 층의 인코딩층의 입력 데이터로부터 특징 정보를 추출할 수 있다.

또 한 가지 구현 가능한 방식에 있어서, 상기 방법은, 각각 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여, 상기 기준 얼굴 이미지의 제2 얼굴 마스크 및 상기 타깃 이미지의 제3 얼굴 마스크를 획득하는 단계; 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 사이의 픽셀값의 차이에 따라, 제4 얼굴 마스크를 결정하는 단계 - 상기 기준 얼굴 이미지에서의 제1 픽셀 포인트의 픽셀값과 상기 타깃 이미지에서의 제2 픽셀 포인트의 픽셀값 사이의 차이는 상기 제4 얼굴 마스크에서의 제3 픽셀 포인트의 값과 양의 상관 관계를 구비하며, 상기 제1 픽셀 포인트가 상기 기준 얼굴 이미지에서의 위치, 상기 제2 픽셀 포인트가 상기 타깃 이미지에서의 위치 및 상기 제3 픽셀 포인트가 상기 제4 얼굴 마스크에서의 위치는 동일함 - ; 및 상기 제4 얼굴 마스크, 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 융합 처리를 수행하여, 새로운 타깃 이미지를 획득하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 제2 얼굴 마스크 및 제3 얼굴 마스크를 통해 제4 얼굴 마스크를 획득하고, 제4 얼굴 마스크에 따라 기준 얼굴 이미지 및 타깃 이미지를 융합하여 타깃 이미지에서의 세부 정보를 향상시킬 수 있는 동시에, 타깃 이미지에서의 오관 위치 정보, 얼굴 윤곽 위치 정보 및 표정 정보를 유지할 수 있음으로써, 타깃 이미지의 품질을 향상시킨다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 사이의 픽셀값의 차이에 따라, 제4 얼굴 마스크를 결정하는 단계는, 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 평균값, 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 분산에 따라, 아핀 변환 형태를 결정하는 단계; 및 상기 아핀 변환 형태에 따라 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크에 대해 아핀 변환을 수행하여, 상기 제4 얼굴 마스크를 획득하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 제2 얼굴 마스크 및 제3 얼굴 마스크에 따라 아핀 변환 형태를 결정한 다음, 아핀 변환 형태에 따라 제2 얼굴 마스크 및 제3 얼굴 마스크에 대해 아핀 변환을 수행하여, 제2 얼굴 마스크와 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값의 차이를 결정할 수 있으므로, 후속 픽셀 포인트에 대한 맞춤형 처리를 수행하는데 유리하다.

또 한 가지 구현 가능한 방식에 있어서, 상기 방법은 얼굴 생성 네트워크에 적용되고; 상기 얼굴 생성 네트워크의 훈련 과정은, 훈련 샘플을 상기 얼굴 생성 네트워크에 입력하여, 상기 훈련 샘플의 제1 생성 이미지 및 상기 훈련 샘플의 제1 재구축 이미지를 획득하는 단계 - 상기 훈련 샘플은 샘플 얼굴 이미지 및 제1 샘플 얼굴 포즈 이미지를 포함하고, 상기 제1 재구축 이미지는 상기 샘플 얼굴 이미지를 인코딩한 후 디코딩 처리를 수행하는 것을 통해 획득됨 - ; 상기 샘플 얼굴 이미지 및 상기 제1 생성 이미지의 얼굴 특징 매칭도에 따라 제1 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지에서의 얼굴 무늬 정보 및 상기 제1 생성 이미지에서의 얼굴 무늬 정보의 차이에 따라 제2 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제4 픽셀 포인트의 픽셀값 및 상기 제1 생성 이미지 중 제5 픽셀 포인트의 픽셀값의 차이에 따라 제3 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제6 픽셀 포인트의 픽셀값 및 상기 제1 재구축 이미지 중 제7 픽셀 포인트의 픽셀값의 차이에 따라 제4 손실을 획득하는 단계; 상기 제1 생성 이미지의 진실도에 따라 제5 손실을 획득하는 단계 - 상기 제4 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제5 픽셀 포인트가 상기 제1 생성 이미지에서의 위치는 동일하고, 상기 제6 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제7 픽셀 포인트가 상기 제1 재구축 이미지에서의 위치는 동일하며, 상기 제1 생성 이미지의 진실도가 높을 수록 상기 제1 생성 이미지가 실제 이미지인 확률이 높음을 나타냄 - ; 상기 제1 손실, 상기 제2 손실, 상기 제3 손실, 상기 제4 손실 및 상기 제5 손실에 따라, 상기 얼굴 생성 네트워크의 제1 네트워크 손실을 획득하는 단계; 및 상기 제1 네트워크 손실에 기반하여 상기 얼굴 생성 네트워크의 파라미터를 조정하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 얼굴 생성 네트워크를 통해 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지에 기반하여 타깃 이미지를 획득하고, 제1 샘플 얼굴 이미지, 제1 재구축 이미지 및 제1 생성 이미지에 따라 제1 손실, 제2 손실, 제3 손실, 제4 손실 및 제5 손실을 획득한 다음, 상기 5 개의 손실에 따라 얼굴 생성 네트워크의 제1 네트워크 손실을 결정하고, 제1 네트워크 손실에 따라 얼굴 생성 네트워크에 대한 훈련을 완료한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 훈련 샘플은 제2 샘플 얼굴 포즈 이미지를 더 포함하고; 상기 제2 샘플 얼굴 포즈 이미지는 상기 제2 샘플 얼굴 이미지에 랜덤 섭동을 추가하여 상기 제2 샘플 이미지의 오관 위치 및 얼굴 윤곽 위치 중 적어도 하나를 변경하는 것을 통해 획득되며; 상기 얼굴 생성 네트워크의 훈련 과정은, 상기 제2 샘플 얼굴 이미지 및 제2 샘플 얼굴 포즈 이미지를 상기 얼굴 생성 네트워크에 입력하여, 상기 훈련 샘플의 제2 생성 이미지 및 상기 훈련 샘플의 제2 재구축 이미지를 획득하는 단계 - 상기 제2 재구축 이미지는 상기 제2 샘플 얼굴 이미지를 인코딩한 후 디코딩 처리를 수행하는 것을 통해 획득됨 - ; 상기 제2 샘플 얼굴 이미지 및 상기 제2 생성 이미지의 얼굴 특징 매칭도에 따라 제6 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지에서의 얼굴 무늬 정보 및 상기 제2 생성 이미지에서의 얼굴 무늬 정보의 차이에 따라 제7 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지 중 제8 픽셀 포인트의 픽셀값 및 상기 제2 생성 이미지 중 제9 픽셀 포인트의 픽셀값의 차이에 따라 제8 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지 중 제10 픽셀 포인트의 픽셀값 및 상기 제2 재구축 이미지 중 제11 픽셀 포인트의 픽셀값의 차이에 따라 제9 손실을 획득하는 단계; 상기 제2 생성 이미지의 진실도에 따라 제10 손실을 획득하는 단계 - 상기 제8 픽셀 포인트가 상기 제2 샘플 얼굴 이미지에서의 위치 및 상기 제9 픽셀 포인트가 상기 제2 생성 이미지에서의 위치는 동일하며, 상기 제10 픽셀 포인트가 상기 제2 샘플 얼굴 이미지에서의 위치 및 상기 제11 픽셀 포인트가 상기 제2 재구축 이미지에서의 위치는 동일하며, 상기 제2 생성 이미지의 진실도가 높을 수록 상기 제2 생성 이미지가 실제 이미지인 확률이 높음을 나타냄 - ; 상기 제6 손실, 상기 제7 손실, 상기 제8 손실, 상기 제9 손실 및 상기 제10 손실에 따라, 상기 얼굴 생성 네트워크의 제2 네트워크 손실을 획득하는 단계; 및 상기 제2 네트워크 손실에 기반하여 상기 얼굴 생성 네트워크의 파라미터를 조정하는 단계를 더 포함한다. 상기 구현 가능한 방식에 있어서, 제2 샘플 얼굴 이미지 및 제2 샘플 얼굴 포즈 이미지를 훈련 세트로 사용하는 것을 통해, 얼굴 생성 네트워크 훈련 세트 중 이미지의 다양성을 증가시킬 수 있으므로, 얼굴 생성 네트워크의 훈련 효과를 향상시키는데 유리하여, 훈련으로 획득된 얼굴 생성 네트워크에 의해 생성된 타깃 이미지의 품질을 향상시킬 수 있다.

또 한 가지 구현 가능한 방식에 있어서, 상기 기준 얼굴 이미지 및 기준 포즈 이미지를 획득하는 단계는, 사용자가 단말에 입력한 처리될 얼굴 이미지를 수신하는 단계; 처리될 비디오를 획득하는 단계 - 상기 처리될 비디오는 얼굴을 포함함 - ; 및 상기 처리될 얼굴 이미지를 상기 기준 얼굴 이미지로 사용하고, 상기 처리될 비디오의 이미지를 상기 얼굴 포즈 이미지로 사용하여, 타깃 비디오를 획득하는 단계를 포함한다. 상기 구현 가능한 방식에 있어서, 단말은 사용자가 입력한 처리될 얼굴 이미지를 기준 얼굴 이미지로 사용할 수 있고, 획득된 처리될 비디오에서의 이미지를 기준 얼굴 포즈 이미지로 사용할 수 있으며, 전술한 어느 한 가지 구현 가능한 방식에 기반하여, 타깃 비디오를 획득할 수 있다.

제2 측면에 있어서, 이미지 처리 장치를 제공하고, 상기 장치는, 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 획득하기 위한 획득 유닛; 상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하고, 상기 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 상기 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하기 위한 제1 처리 유닛; 및 상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하기 위한 제2 처리 유닛을 포함한다.

한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛은, 상기 얼굴 무늬 데이터에 대해 디코딩 처리를 수행하여, 제1 얼굴 무늬 데이터를 획득하고; 상기 제1 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 n 레벨의 타깃 처리를 수행하여, 상기 타깃 이미지를 획득하기 위한 것이며; 상기 n 레벨의 타깃 처리는 제m-1 레벨의 타깃 처리 및 제m 레벨의 타깃 처리를 포함하고; 상기 n 레벨의 타깃 처리에서의 제1 레벨의 타깃 처리의 입력 데이터는 상기 얼굴 무늬 데이터이며; 상기 제m-1 레벨의 타깃 처리의 출력 데이터는 상기 제m 레벨의 타깃 처리의 입력 데이터이며; 상기 n 레벨의 타깃 처리에서의 제i 레벨의 타깃 처리는 상기 제i 레벨의 타깃 처리의 입력 데이터 및 상기 제1 얼굴 마스크의 사이즈를 조정 후 획득된 데이터에 대한 순차적인 융합 처리 및 디코딩 처리를 포함하며; 상기 n은 2보다 크거나 같은 양의 정수이며; 상기 m은 2보다 크거나 같고 상기 n보다 작거나 같은 양의 정수이며; 상기 i는 1보다 크거나 같고 상기 n보다 작거나 같은 양의 정수이다.

다른 한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛은, 상기 제i 레벨의 타깃 처리의 입력 데이터에 따라, 상기 제i 레벨의 타깃 처리의 융합된 데이터를 획득하고; 상기 제i 레벨의 타깃 처리의 융합된 데이터 및 제i 레벨의 얼굴 마스크에 대해 융합 처리를 수행하여, 제i 레벨의 융합된 데이터를 획득하며 - 상기 제i 레벨의 얼굴 마스크는 상기 제1 얼굴 마스크에 대해 다운 샘플링 처리를 수행하는 것을 통해 획득되고, 상기 제i 레벨의 얼굴 마스크의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일함 - ; 상기 제i 레벨의 융합된 데이터에 대해 디코딩 처리를 수행하여, 상기 제i 레벨의 타깃 처리의 출력 데이터를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 장치는, 상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득한 후, 상기 얼굴 무늬 데이터에 대해 j 레벨의 디코딩 처리를 수행하기 위한 디코딩 처리 유닛 - 상기 j 레벨의 디코딩 처리에서의 제1 레벨의 디코딩 처리의 입력 데이터는 상기 얼굴 무늬 데이터이고, 상기 j 레벨의 디코딩 처리는 제k-1 레벨의 디코딩 처리 및 제k 레벨의 디코딩 처리를 포함하며, 상기 제k-1 레벨의 디코딩 처리의 출력 데이터는 상기 제k 레벨의 디코딩 처리의 입력 데이터이며, 상기 j는 2보다 크거나 같은 양의 정수이며, 상기 k는 2보다 크거나 같고 상기 j보다 작거나 같은 양의 정수임 - ; 및 상기 제i 레벨의 타깃 처리의 융합된 데이터로서, 상기 j 레벨의 디코딩 처리에서의 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 병합하여, 제i 레벨의 병합된 데이터를 획득하기 위한 제2 처리 유닛 - 상기 제r 레벨의 디코딩 처리의 출력 데이터의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일하며, 상기 r은 1보다 크거나 같고 상기 j보다 작거나 같은 양의 정수임 - 을 더 포함한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛은 상기 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 채널 차원에서 병합하여, 상기 제i 레벨의 병합된 데이터를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제r 레벨의 디코딩 처리는, 상기 제r 레벨의 디코딩 처리의 입력 데이터에 대해 순차적으로 활성화 처리, 디컨볼루션 처리, 정규화 처리를 수행하여, 상기 제r 레벨의 디코딩 처리의 출력 데이터를 획득하는 단계를 포함한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛은, 제1 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제1 특징 데이터를 획득하고, 제2 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제2 특징 데이터를 획득하고; 상기 제1 특징 데이터 및 상기 제2 특징 데이터에 따라 정규화 형태를 결정하며; 상기 정규화 형태에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 정규화 처리를 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 정규화 형태는 타깃 아핀 변환을 포함하고; 상기 제2 처리 유닛은, 상기 타깃 아핀 변환에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 아핀 변환을 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛은, 상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 융합 처리를 수행하여, 타깃 융합 데이터를 획득하고; 상기 타깃 융합 데이터에 대해 디코딩 처리를 수행하여, 상기 타깃 이미지를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제1 처리 유닛은, 다중 계층 인코딩층을 통해 상기 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하여, 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하기 위한 것이고; 상기 다중 계층 인코딩층은 s 번째 층의 인코딩층 및 s+1 번째 층의 인코딩층을 포함하며; 상기 다중 계층 인코딩층에서의 첫 번째 층의 인코딩층의 입력 데이터는 상기 기준 얼굴 이미지이며; 상기 s 번째 층의 인코딩층의 출력 데이터는 상기 s+1 번째 층의 인코딩층의 입력 데이터이며; 상기 s는 1보다 크거나 같은 양의 정수이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 다중 계층 인코딩층에서의 각 층의 인코딩층은 컨볼루션 처리층, 정규화 처리층, 활성화 처리층을 포함한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 장치는, 각각 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여, 상기 기준 얼굴 이미지의 제2 얼굴 마스크 및 상기 타깃 이미지의 제3 얼굴 마스크를 획득하기 위한 얼굴 키 포인트 추출 처리 유닛; 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 사이의 픽셀값의 차이에 따라, 제4 얼굴 마스크를 결정하기 위한 결정 유닛 - 상기 기준 얼굴 이미지에서의 제1 픽셀 포인트의 픽셀값과 상기 타깃 이미지에서의 제2 픽셀 포인트의 픽셀값 사이의 차이는 상기 제4 얼굴 마스크에서의 제3 픽셀 포인트의 값과 양의 상관 관계를 구비하며, 상기 제1 픽셀 포인트가 상기 기준 얼굴 이미지에서의 위치, 상기 제2 픽셀 포인트가 상기 타깃 이미지에서의 위치 및 상기 제3 픽셀 포인트가 상기 제4 얼굴 마스크에서의 위치는 동일함 - ; 및 상기 제4 얼굴 마스크, 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 융합 처리를 수행하여, 새로운 타깃 이미지를 획득하기 위한 융합 처리 유닛을 더 포함한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 결정 유닛은, 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 평균값, 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 분산에 따라, 아핀 변환 형태를 결정하고; 상기 아핀 변환 형태에 따라 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크에 대해 아핀 변환을 수행하여, 상기 제4 얼굴 마스크를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 장치에 의해 실행된 이미지 처리 방법은 얼굴 생성 네트워크에 적용되며; 상기 이미지 처리 장치는 상기 얼굴 생성 네트워크 훈련 과정을 실행하기 위한 것이며; 상기 얼굴 생성 네트워크의 훈련 과정은, 훈련 샘플을 상기 얼굴 생성 네트워크에 입력하여, 상기 훈련 샘플의 제1 생성 이미지 및 상기 훈련 샘플의 제1 재구축 이미지를 획득하는 단계 - 상기 훈련 샘플은 샘플 얼굴 이미지 및 제1 샘플 얼굴 포즈 이미지를 포함하고, 상기 제1 재구축 이미지는 상기 샘플 얼굴 이미지를 인코딩한 후 디코딩 처리를 수행하는 것을 통해 획득됨 - ; 상기 샘플 얼굴 이미지 및 상기 제1 생성 이미지의 얼굴 특징 매칭도에 따라 제1 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지에서의 얼굴 무늬 정보 및 상기 제1 생성 이미지에서의 얼굴 무늬 정보의 차이에 따라 제2 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제4 픽셀 포인트의 픽셀값 및 상기 제1 생성 이미지 중 제5 픽셀 포인트의 픽셀값의 차이에 따라 제3 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제6 픽셀 포인트의 픽셀값 및 상기 제1 재구축 이미지 중 제7 픽셀 포인트의 픽셀값의 차이에 따라 제4 손실을 획득하는 단계; 상기 제1 생성 이미지의 진실도에 따라 제5 손실을 획득하는 단계 - 상기 제4 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제5 픽셀 포인트가 상기 제1 생성 이미지에서의 위치는 동일하고, 상기 제6 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제7 픽셀 포인트가 상기 제1 재구축 이미지에서의 위치는 동일하며, 상기 제1 생성 이미지의 진실도가 높을 수록 상기 제1 생성 이미지가 실제 이미지인 확률이 높음을 나타냄 - ; 상기 제1 손실, 상기 제2 손실, 상기 제3 손실, 상기 제4 손실 및 상기 제5 손실에 따라, 상기 얼굴 생성 네트워크의 제1 네트워크 손실을 획득하는 단계; 및 상기 제1 네트워크 손실에 기반하여 상기 얼굴 생성 네트워크의 파라미터를 조정하는 단계를 포함한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 훈련 샘플은 제2 샘플 얼굴 포즈 이미지를 더 포함하고; 상기 제2 샘플 얼굴 포즈 이미지는 상기 제2 샘플 얼굴 이미지에 랜덤 섭동을 추가하여 상기 제2 샘플 이미지의 오관 위치 및 얼굴 윤곽 위치 중 적어도 하나를 변경하는 것을 통해 획득되며; 상기 얼굴 생성 네트워크의 훈련 과정은, 상기 제2 샘플 얼굴 이미지 및 제2 샘플 얼굴 포즈 이미지를 상기 얼굴 생성 네트워크에 입력하여, 상기 훈련 샘플의 제2 생성 이미지 및 상기 훈련 샘플의 제2 재구축 이미지를 획득하는 단계 - 상기 제2 재구축 이미지는 상기 제2 샘플 얼굴 이미지를 인코딩한 후 디코딩 처리를 수행하는 것을 통해 획득됨 - ; 상기 제2 샘플 얼굴 이미지 및 상기 제2 생성 이미지의 얼굴 특징 매칭도에 따라 제6 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지에서의 얼굴 무늬 정보 및 상기 제2 생성 이미지에서의 얼굴 무늬 정보의 차이에 따라 제7 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지 중 제8 픽셀 포인트의 픽셀값 및 상기 제2 생성 이미지 중 제9 픽셀 포인트의 픽셀값의 차이에 따라 제8 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지 중 제10 픽셀 포인트의 픽셀값 및 상기 제2 재구축 이미지 중 제11 픽셀 포인트의 픽셀값의 차이에 따라 제9 손실을 획득하는 단계; 상기 제2 생성 이미지의 진실도에 따라 제10 손실을 획득하는 단계 - 상기 제8 픽셀 포인트가 상기 제2 샘플 얼굴 이미지에서의 위치 및 상기 제9 픽셀 포인트가 상기 제2 생성 이미지에서의 위치는 동일하며, 상기 제10 픽셀 포인트가 상기 제2 샘플 얼굴 이미지에서의 위치 및 상기 제11 픽셀 포인트가 상기 제2 재구축 이미지에서의 위치는 동일하며, 상기 제2 생성 이미지의 진실도가 높을 수록 상기 제2 생성 이미지가 실제 이미지인 확률이 높음을 나타냄 - ; 상기 제6 손실, 상기 제7 손실, 상기 제8 손실, 상기 제9 손실 및 상기 제10 손실에 따라, 상기 얼굴 생성 네트워크의 제2 네트워크 손실을 획득하는 단계; 및 상기 제2 네트워크 손실에 기반하여 상기 얼굴 생성 네트워크의 파라미터를 조정하는 단계를 더 포함한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 획득 유닛은, 사용자가 단말에 입력한 처리될 얼굴 이미지를 수신하고; 처리될 비디오를 획득하며 - 상기 처리될 비디오는 얼굴을 포함함 - ; 상기 처리될 얼굴 이미지를 상기 기준 얼굴 이미지로 사용하고, 상기 처리될 비디오의 이미지를 상기 얼굴 포즈 이미지로 사용하여, 타깃 비디오를 획득하기 위한 것이다.

제3 측면에 있어서, 프로세서를 제공하고, 상기 프로세서는 상기 제1 측면 및 어느 한 가지 구현 가능한 방식과 같은 방법을 실행하기 위한 것이다.

제4 측면에 있어서, 프로세서 및 메모리를 포함하는 전자 기기를 더 제공하고, 상기 메모리는 컴퓨터 프로그램 코드를 저장하기 위한 것이며, 상기 컴퓨터 프로그램 코드는 컴퓨터 명령어를 포함하며, 상기 프로세서가 상기 컴퓨터 명령어를 실행할 경우, 상기 전자 기기는 상기 제1 측면 및 어느 하나의 구현 가능한 방식과 같은 방법을 실행한다.

제5 측면에 있어서, 컴퓨터 판독 가능한 저장 매체를 더 제공하고, 상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되어 있으며, 상기 컴퓨터 프로그램은 프로그램 명령어를 포함하고, 상기 프로그램 명령어가 전자 기기의 프로세서에 의해 실행될 경우, 상기 프로세서가 상기 제1 측면 및 어느 하나의 구현 가능한 방식과 같은 방법을 실행하도록 한다.

제6 측면에 있어서, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동될 경우, 상기 전자 기기에서의 프로세서는 상기 제1 측면 및 어느 한 가지 구현 가능한 방식을 구현하기 위한 방법을 실행한다.

이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 한정적인 것이며 본 발명을 한정하지 않는다.

본 발명의 실시예 또는 배경 기술에서의 기술방안을 더 명확하게 설명하기 위해, 아래에 본 발명의 실시예 또는 배경 기술에서 사용되어야 하는 첨부 도면을 설명한다.
아래의 도면은 본 명세서의 일부분으로서 명세서 전체를 구성하며, 이러한 도면은 본 발명에 맞는 실시예를 예시하여, 명세서와 함께 본 발명의 기술방안을 설명하기 위한것이다.
도 1은 본 발명의 실시예에서 제공한 이미지 처리 방법의 흐름 예시도이다.
도 2는 본 발명의 실시예에서 제공한 얼굴 키 포인트의 예시도이다.
도 3은 본 발명의 실시예에서 제공한 디코딩층 및 융합 처리의 아키텍처 예시도이다.
도 4는 본 발명의 실시예에서 제공한 상이한 이미지 중 동일 위치의 요소의 예시도이다.
도 5는 본 발명의 실시예에서 제공한 다른 이미지 처리 방법의 흐름 예시도이다.
도 6은 본 발명의 실시예에서 제공한 또 다른 이미지 처리 방법의 흐름 예시도이다.
도 7은 본 발명의 실시예에서 제공한 디코딩층 및 타깃 처리의 아키텍처 예시도이다.
도 8은 본 발명의 실시예에서 제공한 다른 디코딩층 및 타깃 처리의 아키텍처 예시도이다.
도 9는 본 발명의 실시예에서 제공한 또 다른 이미지 처리 방법의 흐름 예시도이다.
도 10은 본 발명의 실시예에서 제공한 얼굴 생성 네트워크의 아키텍처 예시도이다.
도 11은 본 발명의 실시예에서 제공한 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지에 기반하여 획득된 타깃 이미지의 예시도이다.
도 12는 본 발명의 실시예에서 제공한 이미지 처리 장치의 구조 예시도이다.
도 13은 본 발명의 실시예에서 제공한 이미지 처리 장치의 하드웨어 구조 예시도이다.

본 기술 분야의 기술자가 본 발명의 방안을 더 잘 이해할 수 있도록 하기 위해, 아래에 본 발명의 실시예에서의 도면을 결합하여, 본 발명의 실시예에서의 기술 방안을 명확하고 완전하게 설명하며, 설명된 실시예는 본 발명의 실시예 중 일부일 뿐이며, 모든 실시예가 아님은 자명한 것이다. 본 발명의 실시예에 기반하여, 본 분야 기술자가 창조성 노동 없이 얻은 다른 실시예는 전부 본 발명의 보호 범위에 속해야 한다. 본 발명의 명세서 및 청구 범위 및 상기 도면에서 "제1", "제2" 등 용어는 상이한 대상을 구별하기 위한 것이지, 특정 순서를 설명하기 위한 것은 아니다. 또한, 용어 "포함" 및 "갖는" 및 그것들의 임의의 변형은 비배타적인 포함을 포함하도록 의도된다. 예를 들어, 일련의 단계 또는 유닛이 포함된 과정, 방법, 시스템, 제품 또는 기기는 나열된 단계 또는 유닛에 한정되지 않으며, 선택적으로 나열되지 않은 단계 또는 유닛을 더 포함하거나, 선택적으로 이러한 과정, 방법, 제품 또는 기기에 고유한 다른 단계 또는 유닛을 더 포함한다.

본 명세서에서 용어 " 및 /또는"은 다만 관련 대상의 상관 관계를 설명하기 위한 것일 뿐, 세 가지의 관계가 존재함을 나타내며, 예를 들어, A 및/또는 B는, A가 단독적으로 존재, A 및 B가 동시에 존재, B가 단독적으로 존재하는 세 가지 상황을 나타낸다. 또한, 본 문에서 용어 "적어도 하나"는 복수의 어느 하나 또는 복수의 둘 중 어느 하나의 조합을 의미하고, 예를 들어, A, B, C 중 적어도 하나를 포함하여, A, B 및 C로 구성된 조합에서 선택된 어느 하나 또는 복수 개의 요소를 나타낼 수 있다. 본 명세서에서 "실시예"에 대한 언급은, 실시예와 결합하여 설명된 특정 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함될 수 있음을 의미한다. 명세서에서의 각 위치에서 상기 문구의 출현은 반드시 동일한 실시예를 가리키는 것은 아니며, 다른 실시예와 상호 배타적인 독립적이거나 대안적인 실시예도 아니다. 본 기술 분야의 기술자는 본문에 설명된 실시예가 다른 실시예에 결합될 수 있음을 명백하고 암시적으로 이해한다.

본 발명의 실시예에서 제공한 기술방안을 응용하면 기준 얼굴 이미지 중 타깃 인물의 안면 표정, 오관 및 얼굴 윤곽을 기준 얼굴 포즈 이미지의 안면 표정, 얼굴 윤곽 및 오관으로 변경하고, 기준 얼굴 이미지에서의 얼굴 무늬 데이터를 유지하여, 타깃 이미지를 얻는 것을 구현할 수 있다. 여기서, 타깃 이미지에서의 안면 표정, 오관 및 얼굴 윤곽과 기준 얼굴 포즈 이미지에서의 안면 표정, 오관 및 얼굴 윤곽의 매칭도가 높은 것은, 타깃 이미지의 품질이 높음을 나타낸다. 이와 동시에, 타깃 이미지에서의 얼굴 무늬 데이터와 기준 얼굴 이미지에서의 얼굴 무늬 데이터의 매칭도가 높은 것 또한, 타깃 이미지의 품질이 높음을 나타낸다. 아래에, 본 발명의 실시예에서의 도면을 결합하여 본 발명의 실시예를 설명한다.

도 1을 참조하면, 도 1은 본 발명의 실시예에서 제공한 이미지 처리 방법의 흐름 예시도이다. 본 발명의 실시예에서 제공한 이미지 처리 방법은 단말 기기 또는 서버 또는 다른 처리 기기에 의해 실행될 수 있고, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드 헬드 기기, 컴퓨팅 기기, 차량용 기기, 웨어러블 기기 등일 수 있다. 일부 가능한 구현 방식에 있어서, 상기 이미지 처리 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다.

단계 101에 있어서, 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 획득한다.

본 발명의 실시예에 있어서, 기준 얼굴 이미지는 타깃 인물의 얼굴 이미지를 포함하고, 여기서, 타깃 인물은 표정 및 얼굴 윤곽이 변경될 인물을 가리킨다. 예를 들어, 미스터 장이 자신의 셀카 사진 a에서의 표정 및 얼굴 윤곽을 이미지 b에서의 표정 및 얼굴 윤곽으로 변경하기를 원하면, 셀카 사진 a는 기준 얼굴 이미지이고, 미스터 장은 타깃 인물이다.

본 발명의 실시예에 있어서, 기준 얼굴 포즈 이미지는 얼굴을 포함하는 임의의 한 장의 이미지일 수 있다. 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지 중 적어도 하나를 획득하는 방식은 사용자가 입력 컴포넌트를 통해 입력한 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지 중 적어도 하나를 수신하는 것일 수 있고, 여기서, 입력 컴포넌트는, 키보드, 마우스, 터치 스크린, 터치 보드 및 오디오 입력 장치 등을 포함한다. 상기 방식은 단말에 의해 송신된 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지 중 적어도 하나를 수신하는 것일 수도 있고, 여기서, 단말은 핸드폰, 컴퓨터, 태블릿 컴퓨터, 서버 등을 포함한다. 본 발명에서 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 획득하는 방식을 한정하지 않는다.

단계 102에 있어서, 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하고, 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득한다.

본 발명의 실시예에 있어서, 인코딩 처리는 컨볼루션 처리일 수 있고, 컨볼루션 처리, 정규화 처리 및 활성화 처리의 조합일 수도 있다.

한 가지 구현 가능한 방식에 있어서, 순차적으로 다중 계층 인코딩층을 통해 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하며, 여기서, 각 층의 인코딩층은 컨볼루션 처리, 정규화 처리 및 활성화 처리를 포함하며, 컨볼루션 처리, 정규화 처리 및 활성화 처리는 순차적으로 연결되며, 즉 컨볼루션 처리의 출력 데이터는 정규화 처리의 입력 데이터이며, 정규화 처리의 출력 데이터는 활성화 처리의 입력 데이터이다. 컨볼루션 처리는 컨볼루션 코어가 입력 인코딩층에 대한 데이터를 컨볼루션하는 것을 통해 구현될 수 있고, 인코딩층의 입력 데이터에 대해 컨볼루션 처리를 수행하는 것을 통해, 인코딩층의 입력 데이터로부터 특징 정보를 추출할 수 있으며, 인코딩층의 입력 데이터의 사이즈를 축소하여, 후속 처리의 계산량을 감소시킨다. 컨볼루션 처리된 데이터에 대해 정규화 처리를 수행하는 것을 통해, 컨볼루션 처리된 데이터 중 상이한 데이터 사이의 연관성을 제거할 수 있고, 컨볼루션 처리된 데이터 중 상이한 데이터 사이의 분포 차이를 돌출시키므로, 후속 처리를 통해 정규화 처리된 데이터로부터 특징 정보를 계속 추출하는데 유리하다. 활성화 처리는 정규화 처리된 데이터를 활성화 함수에 대입하는 것을 통해 구현될 수 있고, 선택적으로, 활성화 함수는 정류 선형 유닛(rectified linear unit, ReLU)이다.

본 발명의 실시예에 있어서, 얼굴 무늬 데이터는 얼굴 피부의 피부색 정보, 얼굴 피부의 광택도 정보, 얼굴 피부의 주름 정보, 얼굴 피부의 무늬 정보를 적어도 포함한다.

본 발명의 실시예에 있어서, 얼굴 키 포인트 추출 처리는 기준 얼굴 포즈 이미지에서의 얼굴 윤곽의 위치 정보, 오관의 위치 정보 및 안면 표정 정보를 추출하는 것을 가리키고, 여기서, 얼굴 윤곽의 위치 정보는 얼굴 윤곽에서의 키 포인트가 기준 얼굴 포즈 이미지 좌표계에서의 좌표, 오관의 위치 정보는 오관 키 포인트가 기준 얼굴 포즈 이미지 좌표계에서의 좌표를 포함한다.

예를 들어, 도 2에 도시된 바와 같이, 얼굴 키 포인트는 얼굴 윤곽 키 포인트 및 오관 키 포인트를 포함한다. 오관 키 포인트는 눈썹 영역의 키 포인트, 눈 영역의 키 포인트, 코 영역의 키 포인트, 입술 영역의 키 포인트, 귀 영역의 키 포인트를 포함한다. 얼굴 윤곽 키 포인트는 얼굴 윤곽 라인에서의 키 포인트를 포함한다. 이해해야 할 것은, 도 2에 도시된 얼굴 키 포인트의 개수 및 위치는 다만 본 발명의 실시예에서 제공한 하나의 예시일 뿐이고, 본 발명에 대한 한정이 아니다.

상기 얼굴 윤곽 키 포인트 및 오관 키 포인트는 사용자가 본 발명의 실시예를 실시하는 실제 효과에 따라 조정될 수 있다. 상기 얼굴 키 포인트 추출 처리는 임의의 얼굴 키 포인트 추출 알고리즘을 통해 구현될 수 있고, 본 발명은 이에 대해 한정하지 않는다.

본 발명의 실시예에 있어서, 제1 얼굴 마스크는 얼굴 윤곽 키 포인트의 위치 정보 및 오관 키 포인트의 위치 정보 및 안면 표정 정보를 포함한다. 표현의 편의를 위해, 아래에 얼굴 키 포인트의 위치 정보와 안면 표정 정보를 얼굴 포즈로 지칭한다.

이해해야 할 것은, 본 발명의 실시예에 있어서, 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하는 과정 및 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하는 두 개의 처리 과정 사이에는 앞뒤 순서가 존재하지 않으며, 기준 얼굴 이미지의 얼굴 무늬 데이터를 먼저 획득한 다음 기준 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하는 것일 수 있다. 기준 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득한 다음 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하는 것일 수도 있다. 또한 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하는 동시에, 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하는 것일 수 있다.

단계 103에 있어서, 얼굴 무늬 데이터 및 제1 얼굴 마스크에 따라, 타깃 이미지를 획득한다.

동일한 사람의 경우, 얼굴 무늬 데이터가 고정적인 것이므로, 즉 상이한 이미지에 포함된 인물이 동일하면, 상이한 이미지에 대해 인코딩 처리를 수행하여 획득된 얼굴 무늬 데이터는 동일하며, 다시 말해, 지문 정보, 홍채 정보는 한 사람의 신원 정보로 사용될 수 있고, 얼굴 무늬 데이터도 한 사람의 신원 정보로 간주될 수 있다. 따라서, 동일 인물을 대량으로 포함하는 이미지를 훈련 세트로 사용하는 것을 통해 신경 네트워크를 훈련하면, 상기 신경 네트워크는 훈련을 통해 이미지에서의 인물의 얼굴 무늬 데이터를 학습하여, 훈련된 신경 네트워크를 얻는다. 훈련된 신경 네트워크가 이미지에서의 인물의 얼굴 무늬 데이터를 포함하므로, 훈련된 신경 네트워크 생성 이미지를 사용할 경우, 상기 인물의 얼굴 무늬 데이터를 포함하는 이미지를 얻을 수도 있다. 예를 들어, 미스터 리의 얼굴을 포함하는 2000 장의 이미지를 훈련 세트로 사용하여 신경 네트워크를 훈련하면, 신경 네트워크는 훈련 과정에서 이 2000 장의 이미지로부터 미스터 리의 얼굴 무늬 데이터를 학습한다. 훈련된 신경 네트워크 생성 이미지를 적용할 경우, 입력된 기준 얼굴 이미지에 포함된 인물이 미스터 리인지 여부와 관계없이, 최종적으로 얻은 타깃 이미지에서의 얼굴 무늬 데이터는 모두 미스터 리의 얼굴 무늬 데이터이고, 즉 타깃 이미지에서의 인물은 미스터 리이다.

단계 102에 있어서, 본 발명의 실시예는 기준 얼굴 이미지로부터 얼굴 포즈를 추출하는 것이 아니라, 기준 얼굴 이미지에 대해 인코딩 처리를 수행하는 것을 통해 기준 얼굴 이미지에서의 얼굴 무늬 데이터를 획득하여, 어느 한 장의 기준 얼굴 이미지로부터 타깃 인물 얼굴 무늬 데이터를 획득하는 것을 구현하며, 타깃 인물의 얼굴 무늬 데이터는 타깃 인물의 얼굴 포즈를 포함하지 않는다. 다음 기준 얼굴 포즈 이미지로부터 얼굴 무늬 데이터를 추출하는 것이 아니라, 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하는 것을 통해 기준 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하여, 임의의 타깃 얼굴 포즈(기준 얼굴 이미지에서의 인물의 얼굴 포즈를 대체하기 위한 것임)를 획득하는 것을 구현하며, 타깃 얼굴 포즈는 기준 얼굴 포즈 이미지에서의 얼굴 무늬 데이터를 포함하지 않는다. 이로써, 또한 얼굴 무늬 데이터 및 제1 얼굴 마스크에 대해 디코딩, 융합 등 처리를 수행하는 것을 통해 획득된 타깃 이미지에서의 인물의 얼굴 무늬 데이터와 기준 얼굴 이미지의 얼굴 무늬 데이터의 매칭도를 향상시킬 수 있고, 타깃 이미지에서의 얼굴 포즈와 기준 얼굴 포즈 이미지에서의 얼굴 포즈의 매칭도를 향상시킬 수 있음으로써, 타깃 이미지의 품질을 향상시킨다. 여기서, 타깃 이미지의 얼굴 포즈와 기준 얼굴 포즈 이미지의 얼굴 포즈의 매칭도가 높을 수록, 타깃 이미지에서의 인물의 오관, 윤곽 및 안면 표정과 기준 얼굴 포즈 이미지에서의 인물의 오관, 윤곽 및 안면 표정의 유사도가 더욱 높은 것을 나타낸다. 타깃 이미지에서의 얼굴 무늬 데이터와 기준 얼굴 이미지에서의 얼굴 무늬 데이터의 매칭도가 높을 수록, 타깃 이미지에서의 얼굴 피부의 피부색, 얼굴 피부의 광택도 정보, 얼굴 피부의 주름 정보, 얼굴 피부의 무늬 정보와 기준 얼굴 이미지에서의 얼굴 피부의 피부색, 얼굴 피부의 광택도 정보, 얼굴 피부의 주름 정보, 얼굴 피부의 무늬 정보의 유사도가 더욱 높은 것(사용자가 시각적으로, 타깃 이미지에서의 인물과 기준 얼굴 이미지에서의 인물이 더욱 동일한 인물과 비슷하다고 느낀 것)을 나타낸다.

한 가지 구현 가능한 방식에 있어서, 얼굴 무늬 데이터 및 제1 얼굴 마스크를 융합하여, 타깃 인물의 얼굴 무늬 데이터도 포함하고 타깃 얼굴 포즈도 포함하는 융합 데이터를 획득한 다음, 융합 데이터에 대해 디코딩 처리를 수행하는 것을 통해, 타깃 이미지를 획득할 수 있다. 여기서, 디코딩 처리는 디컨볼루션 처리일 수 있다.

다른 한 가지 구현 가능한 방식에 있어서, 다중 계층 디코딩층을 통해 얼굴 무늬 데이터에 대해 단계적인 디코딩 처리를 수행하여, 상이한 사이즈 하의 디코딩된 얼굴 무늬 데이터(즉 상이한 디코딩층에 의해 출력된 디코딩된 얼굴 무늬 데이터의 사이즈는 상이함)를 획득할 수 있으며, 다음 각 층의 디코딩층의 출력 데이터와 제1 얼굴 마스크를 융합하는 것을 통해, 얼굴 무늬 데이터와 제1 얼굴 마스크가 상이한 사이즈 하의 융합 효과를 향상시킬 수 있으므로, 최종적으로 획득된 타깃 이미지의 품질을 향상시키는데 유리하다. 예를 들어, 도 3에 도시된 바와 같이, 얼굴 무늬 데이터가 순차적으로 첫 번째 층의 디코딩층, 두 번째 층의 디코딩층, …, 8 번째 층의 디코딩층의 디코딩 처리를 거쳐 타깃 이미지가 획득된다. 여기서, 첫 번째 층의 디코딩층의 출력 데이터와 제1 레벨의 얼굴 마스크가 융합된 데이터를 두 번째 층의 디코딩층의 입력 데이터로 사용하고, 두 번째 층의 디코딩층의 출력 데이터와 제2 레벨의 얼굴 마스크가 융합된 데이터를 3 번째 층의 디코딩층의 입력 데이터로 사용하며, …, 7 번째 층의 디코딩층의 출력 데이터와 제7 레벨의 얼굴 마스크가 융합된 데이터를 8 번째 층의 디코딩층의 입력 데이터로 사용하며, 최종적으로 8 번째 층의 디코딩층의 출력 데이터를 타깃 이미지로 사용한다. 상기 제7 레벨의 얼굴 마스크는 기준 얼굴 포즈 이미지의 제1 얼굴 마스크이고, 제1 레벨의 얼굴 마스크, 제2 레벨의 얼굴 마스크, …, 제6 레벨의 얼굴 마스크는 모두 기준 얼굴 포즈 이미지의 제1 얼굴 마스크에 대해 다운 샘플링 처리를 수행하는 것을 통해 획득될 수 있다. 제1 레벨의 얼굴 마스크의 사이즈와 첫 번째 층의 디코딩층의 출력 데이터의 사이즈는 동일하고, 제2 레벨의 얼굴 마스크의 사이즈와 두 번째 층의 디코딩층의 출력 데이터의 사이즈는 동일하며, …, 제7 레벨의 얼굴 마스크의 사이즈와 7 번째 층의 디코딩층의 출력 데이터의 사이즈는 동일하다. 상기 다운 샘플링 처리는 선형 보간, 최근접 보간, 쌍 선형 보간일 수 있다.

이해해야 할 것은, 도 3에서의 디코딩층의 개수는 다만 본 실시예에서 제공한 하나의 예시일 뿐이고, 본 발명에 대한 한정이 아니다.

상기 융합은 융합될 두 개의 데이터를 채널 차원에서 병합(concatenate)하는 것일 수 있다. 예를 들어, 제1 레벨의 얼굴 마스크의 채널수가 3이고, 첫 번째 층의 디코딩층의 출력 데이터의 채널수가 2이면, 제1 레벨의 얼굴 마스크와 첫 번째 층의 디코딩층의 출력 데이터를 융합하여 얻은 데이터의 채널수는 5이다.

상기 융합은 융합될 두 개의 데이터에서의 동일 위치의 요소를 더하는 것일 수도 있다. 여기서, 두 개의 데이터에서의 동일 위치의 요소는 도 4를 참조할 수 있고, 요소 a가 데이터 A에서의 위치와 요소 e가 데이터 B에서의 위치는 동일하며, 요소 b가 데이터 A에서의 위치와 요소 f가 데이터 B에서의 위치는 동일하며, 요소 c가 데이터 A에서의 위치와 요소 g가 데이터 B에서의 위치는 동일하며, 요소 d가 데이터 A에서의 위치와 요소 h가 데이터 B에서의 위치는 동일하다.

본 실시예는 기준 얼굴 이미지에 대해 인코딩 처리를 수행하는 것을 통해 기준 얼굴 이미지 중 타깃 인물의 얼굴 무늬 데이터를 획득할 수 있고, 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하는 것을 통해 제1 얼굴 마스크를 획득할 수 있으며, 다음 얼굴 무늬 데이터 및 제1 얼굴 마스크에 대해 융합 처리 및 디코딩 처리를 수행하는 것을 통해 타깃 이미지를 획득할 수 있으므로, 임의의 타깃 인물의 얼굴 포즈를 변경하는 것을 구현한다.

도 5를 참조하면, 도 5는 본 발명의 실시예에서 제공한 상기 단계 102의 한 가지 가능한 구현 방식이다.

단계 501에 있어서, 다중 계층 인코딩층을 통해 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하여, 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하고, 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득한다.

기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 기준 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하는 과정은 단계 102를 참조할 수 있으며, 여기서 더이상 반복하여 설명하지 않는다.

본 실시예에 있어서, 인코딩층의 개수는 2보다 크거나 같고, 다중 계층 인코딩층에서의 각 인코딩층은 순차적으로 연결되며, 즉 이전 층의 인코딩층의 출력 데이터는 다음 층의 인코딩층의 입력 데이터이다. 다중 계층 인코딩층에 s 번째 층의 인코딩층 및 s+1 번째 층의 인코딩층이 포함되는 것으로 가정하면, 다중 계층 인코딩층에서의 첫 번째 층의 인코딩층의 입력 데이터는 기준 얼굴 이미지이고, s 번째 층의 인코딩층의 출력 데이터는 s+1 번째 층의 인코딩층의 입력 데이터이며, 마지막 층의 인코딩층의 출력 데이터는 기준 얼굴 이미지의 얼굴 무늬 데이터이다. 여기서, 각 층의 인코딩층은 컨볼루션 처리층, 정규화 처리층, 활성화 처리층을 포함하고, s는 1보다 작거나 같은 양의 정수이다. 다중 계층 인코딩층을 통해 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하여 기준 얼굴 이미지로부터 얼굴 무늬 데이터를 추출할 수 있으며, 여기서, 각 층의 인코딩층에 의해 추출된 얼굴 무늬 데이터는 상이하다. 구체적으로, 다중 계층 인코딩층의 인코딩 처리를 통해 단계적으로 기준 얼굴 이미지에서의 얼굴 무늬 데이터를 추출하는 동시에, 상대적인 2차 정보(여기서의 상대적인 2차 정보는 얼굴 무늬 데이터가 아니라, 얼굴의 모발 정보, 윤곽 정보를 포함함)를 점층적으로 제거한다. 따라서, 뒤로 갈수록 추출된 얼굴 무늬 데이터의 사이즈는 더욱 작고, 얼굴 무늬 데이터에 포함된 얼굴 피부의 피부색 정보, 얼굴 피부의 광택도 정보, 얼굴 피부의 주름 정보 및 얼굴 피부의 무늬 정보는 더욱 집중적이다. 이로써, 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하는 동시에, 이미지의 사이즈를 축소시키고, 시스템의 계산량을 감소시키며, 연산 속도를 향상시킨다.

한 가지 구현 가능한 방식에 있어서, 각 층의 인코딩층은 컨볼루션 처리층, 정규화 처리층, 활성화 처리층을 포함하고, 이 3 개의 처리층은 순차적으로 연결되며, 즉 컨볼루션 처리층의 입력 데이터는 인코딩층의 입력 데이터이며, 컨볼루션 처리층의 출력 데이터는 정규화 처리층의 입력 데이터이며, 정규화 처리층의 출력 데이터는 활성화 처리층의 출력 데이터이며, 최종적으로 정규화 처리층을 통해 인코딩층의 출력 데이터를 획득한다. 컨볼루션 처리층의 기능 구현 과정은, 인코딩층의 입력 데이터에 대해 컨볼루션 처리를 수행하고, 즉 컨볼루션 코어를 이용하여 인코딩층의 입력 데이터에서 슬라이딩하며, 인코딩층의 입력 데이터 중 요소의 값을 각각 컨볼루션 코어 중 모든 요소의 값과 곱한 다음, 곱하여 얻은 모든 적의 합을 상기 요소의 값으로 사용하며, 최종적으로 인코딩층의 입력 데이터 중 모든 요소를 슬라이딩 처리 완료하여, 컨볼루션 처리된 데이터를 얻는 것이다. 정규화 처리층은 컨볼루션 처리된 데이터를 배치 정규화 처리(batch norm, BN)층에 입력하는 것을 통해 구현될 수 있고, BN 층을 통해 컨볼루션 처리된 데이터에 대해 배치 정규화 처리를 수행하여 컨볼루션 처리된 데이터가 평균값이 0이고 분산이 1인 정규 분포에 부합되도록 하여, 컨볼루션 처리된 데이터 중 데이터 사이의 연관성을 제거하고, 컨볼루션 처리된 데이터 중 데이터 사이의 분포 차이를 돌출시킨다. 이전의 컨볼루션 처리층 및 정규화 처리층이 데이터로부터 복잡한 맵핑을 학습하는 능력이 작으므로, 컨볼루션 처리층 및 정규화 처리층만 통해서는 이미지 등과 같은 복잡한 타입의 데이터를 처리할 수 없다. 따라서, 정규화 처리된 데이터에 대해 비선형 변환을 수행하는 것을 통해, 이미지 등과 같은 복잡한 데이터를 처리해야 한다. BN 층 이후에 비선형 활성화 함수로 연결하여, 비선형 활성화 함수를 통해 정규화 처리된 데이터에 대해 비선형 변환을 수행하여 정규화 처리된 데이터에 대한 활성화 처리를 구현함으로써, 기준 얼굴 이미지의 얼굴 무늬 데이터를 추출한다. 선택적으로, 상기 비선형 활성화 함수는 ReLU이다.

본 실시예는 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하는 것을 통해, 기준 얼굴 이미지의 사이즈를 축소하여 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하여, 후속 얼굴 무늬 데이터에 기반하여 처리되는 데이터 처리량을 감소시킬 수 있고, 처리 속도를 향상시키며, 후속 처리는 임의의 기준 얼굴 이미지의 얼굴 무늬 데이터 및 임의의 얼굴 포즈(즉 제1 얼굴 마스크)타깃 이미지를 획득하여, 기준 얼굴 이미지에서의 인물이 임의의 얼굴 포즈 하의 이미지를 획득할 수 있다.

도 6을 참조하면, 도 6은 본 발명의 실시예에서 제공한 상기 단계 103의 한 가지 구현 가능한 방식의 흐름 예시도이다.

단계 601에 있어서, 얼굴 무늬 데이터에 대해 디코딩 처리를 수행하여, 제1 얼굴 무늬 데이터를 획득한다.

디코딩 처리는 인코딩 처리의 역 과정을서, 얼굴 무늬 데이터에 대해 디코딩 처리를 수행하는 것을 통해 기준 얼굴 이미지를 획득하지만, 얼굴 마스크와 얼굴 무늬 데이터의 융합을 위해, 타깃 이미지를 획득하며, 본 실시예는 얼굴 무늬 데이터에 대해 다중 레벨의 디코딩 처리를 수행하고, 다중 레벨의 디코딩 처리의 과정 중 얼굴 마스크와 얼굴 무늬 데이터를 융합한다.

한 가지 구현 가능한 방식에 있어서, 도 7에 도시된 바와 같이, 얼굴 무늬 데이터는 순차적으로 첫 번째 층의 생성 디코딩층, 두 번째 층의 생성 디코딩층(즉 제1 레벨의 타깃 처리에서의 생성 디코딩층), …, 7 번째 층의 생성 디코딩층의 디코딩 처리(즉 제6 레벨의 타깃 처리에서의 생성 디코딩층)을 통해, 타깃 이미지를 최종적으로 획득한다. 여기서, 얼굴 무늬 데이터를 첫 번째 층의 생성 디코딩층에 입력하고 디코딩 처리를 수행하여, 제1 얼굴 무늬 데이터를 획득한다. 다른 실시예에 있어서, 얼굴 무늬 데이터는 먼저 상위 몇 층(예를 들어 상위 두 개의 층)의 생성 디코딩층을 통해 디코딩 처리가 수행되어, 제1 얼굴 무늬 데이터를 획득할 수도 있다.

단계 602에 있어서, 제1 얼굴 무늬 데이터 및 제1 얼굴 마스크에 대해 n 레벨의 타깃 처리를 수행하여, 타깃 이미지를 획득한다.

본 실시예에 있어서, n은 2보다 크거나 같은 양의 정수이고, 타깃 처리는 융합 처리 및 디코딩 처리를 포함하며, 제1 얼굴 무늬 데이터는 제1 레벨의 타깃 처리의 입력 데이터이며, 즉 제1 얼굴 무늬 데이터를 제1 레벨의 타깃 처리의 융합된 데이터로 사용하여, 제1 레벨의 타깃 처리의 융합된 데이터와 제1 레벨의 얼굴 마스크에 대해 융합 처리를 수행하여 제1 레벨의 융합된 데이터를 획득한 다음, 제1 레벨의 융합된 데이터에 대해 디코딩 처리를 수행하여 제1 레벨의 타깃 처리의 출력 데이터를 획득하여, 제2 레벨의 타깃 처리의 융합된 데이터로 사용하며, 제2 레벨의 타깃 처리는 제2 레벨의 타깃 처리의 입력 데이터와 제2 레벨의 얼굴 마스크에 대해 융합 처리를 수행하여 제2 레벨의 융합된 데이터를 획득한 다음, 제2 레벨의 융합된 데이터에 대해 디코딩 처리를 수행하여 제2 레벨의 타깃 처리의 출력 데이터를 획득하여, 제3 레벨의 타깃 처리의 융합된 데이터로 사용하며, …, 타깃 이미지로서, 제n 레벨의 타깃 처리의 데이터를 획득할 때까지 계속된다. 상기 제n 레벨의 얼굴 마스크는 기준 얼굴 포즈 이미지의 제1 얼굴 마스크이고, 제1 레벨의 얼굴 마스크, 제2 레벨의 얼굴 마스크, …, 제n-1 레벨의 얼굴 마스크는 모두 기준 얼굴 포즈 이미지의 제1 얼굴 마스크에 대해 다운 샘플링 처리를 수행하는 것을 통해 획득될 수 있다. 또한 제1 레벨의 얼굴 마스크의 사이즈와 제1 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일하고, 제2 레벨의 얼굴 마스크의 사이즈와 제2 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일하며, …, 제n 레벨의 얼굴 마스크의 사이즈와 제n 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일하다.

선택적으로, 본 실시예에서의 디코딩 처리는 디컨볼루션 처리 및 정규화 처리를 포함한다. n 레벨의 타깃 처리에서의 어느 한 레벨의 타깃 처리는 상기 타깃 처리의 입력 데이터 및 제1 얼굴 마스크의 사이즈를 조정한 후 획득된 데이터에 대해 순차적으로 융합 처리 및 디코딩 처리를 수행하는 것을 통해 구현된다. 예를 들어, n 레벨의 타깃 처리에서의 제i 레벨의 타깃 처리는 제i 레벨의 타깃 처리의 입력 데이터 및 제1 얼굴 마스크의 사이즈를 조정한 후 획득된 데이터에 대해 융합 처리를 먼저 수행하는 것을 통해 제i 레벨의 타깃 융합 데이터를 획득한 다음, 제i 레벨의 타깃 융합 데이터에 대해 디코딩 처리를 수행하여, 제i 레벨의 타깃 처리의 출력 데이터를 획득하고, 즉 제i 레벨의 타깃 처리의 입력 데이터에 대한 제i 레벨의 타깃 처리를 완료한다.

상이한 사이즈의 얼굴 마스크(즉 제1 얼굴 마스크의 사이즈를 조정한 후 획득된 데이터)와 상이한 레벨의 타깃 처리의 입력 데이터를 융합하는 것을 통해 얼굴 무늬 데이터와 제1 얼굴 마스크의 융합 효과를 향상시킬 수 있어, 최종적으로 획득된 타깃 이미지의 품질을 향상시키는데 유리하다.

상기 제1 얼굴 마스크의 사이즈를 조정하는 것은 제1 얼굴 마스크에 대해 업 샘플링 처리를 수행하는 것일 수 있고, 제1 얼굴 마스크에 대해 다운 샘플링 처리를 수행하는 것일 수도 있으며, 본 발명은 이에 대해 한정하지 않는다.

한 가지 구현 가능한 방식에 있어서, 도 7에 도시된 바와 같이, 제1 얼굴 무늬 데이터는 순차적으로 제1 레벨의 타깃 처리, 제2 레벨의 타깃 처리, …, 제6 레벨의 타깃 처리를 거쳐 타깃 이미지를 획득한다. 직접 상이한 사이즈의 얼굴 마스크와 상이한 레벨의 타깃 처리의 입력 데이터를 융합한 다음, 디코딩 처리에서의 정규화 처리를 통해 융합된 데이터에 대해 정규화 처리를 수행할 경우 상이한 사이즈의 얼굴 마스크에서의 정보가 유실되도록 하므로, 최종적으로 얻은 타깃 이미지의 품질을 저하시킨다. 본 실시예는 상이한 사이즈의 얼굴 마스크에 따라 정규화 형태를 결정하고, 정규화 형태에 따라 타깃 처리의 입력 데이터에 대해 정규화 처리를 수행하여, 제1 얼굴 마스크와 타깃 처리의 데이터를 융합하는 것을 구현한다. 이로써 제1 얼굴 마스크 중 각 요소에 포함된 정보와 타깃 처리의 입력 데이터 중 동일 위치의 요소에 포함된 정보를 더욱 잘 융합하여, 타깃 이미지 중 각 픽셀 포인트의 품질을 향상시키는데 유리하다. 선택적으로, 제1 소정 사이즈의 컨볼루션 코어를 사용하여 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제1 특징 데이터를 획득하고, 제2 소정 사이즈의 컨볼루션 코어를 사용하여 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제2 특징 데이터를 획득한다. 다음 제1 특징 데이터 및 상기 제2 특징 데이터에 따라 정규화 형태를 결정한다. 여기서, 제1 소정 사이즈 및 제2 소정 사이즈는 상이하고, i는 1보다 크거나 같고 n보다 작거나 같은 양의 정수이다.

한 가지 구현 가능한 방식에 있어서, 제i 레벨의 타깃 처리의 입력 데이터에 대해 아핀 변환을 수행하는 것을 통해 제i 레벨의 타깃 처리에 대한 비선형 변환을 구현할 수 있어, 더욱 복잡한 맵핑을 구현하여, 후속 비선형 정규화된 데이터에 기반하여 이미지를 생성하는데 유리하다. 제i 레벨의 타깃 처리의 입력 데이터가

이고, 총 m 개의 데이터이며, 출력이

이면, 제i 레벨의 타깃 처리의 입력 데이터에 대해 아핀 변환을 수행하며 즉 제i 레벨의 타깃 처리의 입력 데이터에 대해 아래와 같은 동작을 수행한다. 먼저, 상기 i 레벨의 타깃 처리의 입력 데이터(

)의 평균값을 구하며, 즉

이다. 다음 상기 평균값(

)에 따라, 상기 i 레벨의 타깃 처리의 입력 데이터의 분산을 결정하며, 즉

이다. 다음 상기 평균값(

) 및 분산(

)에 따라, 상기 i 레벨의 타깃 처리의 입력 데이터에 대해 아핀 변환을 수행하여,

를 얻는다. 마지막으로, 스케일링 변수(γ) 및 평행 이동 변수(δ)에 기반하여, 아핀 변환의 결과를 얻으며, 즉

이다. 여기서 γ 및 δ는 제1 특징 데이터 및 제2 특징 데이터에 따라 획득될 수 있다. 예를 들어, 제1 특징 데이터를 스케일링 변수(γ)로 사용하고, 제2 특징 데이터를 δ로 사용한다. 정규화 형태를 결정한 후, 정규화 형태에 따라 제i 레벨의 타깃 처리의 입력 데이터에 대해 정규화 처리를 수행하여, 제i 레벨의 융합된 데이터를 획득할 수 있다. 다음 제i 레벨의 융합된 데이터에 대해 디코딩 처리를 수행하여, 제i 레벨의 타깃 처리의 출력 데이터를 획득할 수 있다.

제1 얼굴 마스크 및 얼굴 무늬 데이터를 더욱 잘 융합하기 위해, 기준 얼굴 이미지의 얼굴 무늬 데이터에 대해 단계적인 디코딩 처리를 수행하여, 상이한 사이즈의 얼굴 무늬 데이터를 획득한 다음, 동일한 사이즈의 얼굴 마스크 및 타깃 처리의 출력 데이터를 융합하여, 제1 얼굴 마스크 및 얼굴 무늬 데이터의 융합 효과를 향상시키고, 타깃 이미지의 품질을 향상시킨다. 본 실시예에 있어서, 기준 얼굴 이미지의 얼굴 무늬 데이터에 대해 j 레벨의 디코딩 처리를 수행하여, 상이한 사이즈의 얼굴 무늬 데이터를 획득한다. 상기 j 레벨의 디코딩 처리에서의 제1 레벨의 디코딩 처리의 입력 데이터는 얼굴 무늬 데이터이고, j 레벨의 디코딩 처리는 제k-1 레벨의 디코딩 처리 및 제k 레벨의 디코딩 처리를 포함하며, 제k-1 레벨의 디코딩 처리의 출력 데이터는 상기 제k 레벨의 디코딩 처리의 입력 데이터이다. 각 레벨의 디코딩 처리는 활성화 처리, 디컨볼루션 처리, 정규화 처리를 포함하고, 즉 디코딩 처리의 입력 데이터에 대해 순차적으로 활성화 처리, 디컨볼루션 처리, 정규화 처리를 수행하여 디코딩 처리의 출력 데이터를 획득할 수 있다. 여기서, j는 2보다 크거나 같은 양의 정수이고, k는 2보다 크거나 같고 j보다 작거나 같은 양의 정수이다.

한 가지 구현 가능한 방식에 있어서, 도 8에 도시된 바와 같이, 재구축 디코딩층의 개수와 타깃 처리의 개수는 동일하고, 제r 레벨의 디코딩 처리의 출력 데이터(즉 제r 레벨의 재구축 디코딩층의 출력 데이터)의 사이즈와 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일하다. 제r 레벨의 디코딩 처리의 출력 데이터와 제i 레벨의 타깃 처리의 입력 데이터를 병합하는 것을 통해, 제i 레벨의 병합된 데이터를 획득하고, 이때 제i 레벨의 병합된 데이터를 제i 레벨의 타깃 처리의 융합된 데이터로 사용한 다음, 제i 레벨의 융합된 데이터에 대해 제i 레벨의 타깃 처리를 수행하여, 제i 레벨의 타깃 처리의 출력 데이터를 획득한다. 상기 방식을 통해, 상이한 사이즈 하의 기준 얼굴 이미지의 얼굴 무늬 데이터를 타깃 이미지를 획득하는 과정에 더욱 잘 이용할 수 있어, 획득된 타깃 이미지의 품질을 향상시키는데 유리하다. 선택적으로, 상기 병합은 채널 차원에서 병합(concatenate)하는 것을 포함한다. 여기서 제i 레벨의 융합된 데이터에 대해 제i 레벨의 타깃 처리를 수행하는 과정은 이전 구현 가능한 방식을 참조할 수 있다.

이해해야 할 것은, 도 7에서의 타깃 처리 중 제i 레벨의 융합된 데이터는 제i 레벨의 타깃 처리의 입력 데이터이지만, 도 8에서 제i 레벨의 융합된 데이터는 제i 레벨의 타깃 처리의 입력 데이터와 제r 레벨의 디코딩 처리의 출력 데이터를 병합한 후 획득된 데이터이지만, 후속 제i 레벨의 융합된 데이터 및 제i 레벨의 얼굴 마스크에 대해 융합 처리를 수행하는 과정은 동일하다.

이해해야 할 것은, 도 7 및 도 8 중 타깃 처리의 개수 및 도 8에서 병합된 횟수는 본 발명의 실시예에서 제공한 예시이며, 본 발명에 대한 한정이 아니다. 예를 들어, 도 8은 6 회의 병합을 포함하고, 즉 각 층의 디코딩층의 출력 데이터는 동일한 사이즈의 타깃 처리의 입력 데이터와 병합된다. 비록 매 회의 병합이 최종적으로 획득된 타깃 이미지의 품질을 향상시키지만(즉 병합된 횟수가 많을 수록, 타깃 이미지의 품질이 더욱 좋음), 매 회의 병합은 비교적 큰 데이터 처리량을 가져다 주며, 소비해야 하는 처리 자원(여기서는 본 실시예의 실행 주체의 계산 자원임)도 증가되므로, 병합된 횟수는 사용자의 실제 사용 상황에 따라 조정할 수 있으며, 예를 들어 일부(예를 들어 마지막 층 또는 다중 계층) 재구축 디코딩층의 출력 데이터를 사용하여 상이한 사이즈의 타깃 처리의 입력 데이터와 병합할 수 있다.

본 실시예는 얼굴 무늬 데이터에 대해 단계적인 타깃 처리를 수행하는 과정에서, 제1 얼굴 마스크의 사이즈를 조정하여 획득된 상이한 사이즈의 얼굴 마스크를 통해 타깃 처리의 입력 데이터를 융합하여, 제1 얼굴 마스크와 얼굴 무늬 데이터의 융합 효과를 향상시킴으로써, 타깃 이미지의 얼굴 포즈와 기준 얼굴 포즈 이미지의 얼굴 포즈의 매칭도를 향상시킨다. 기준 얼굴 이미지의 얼굴 무늬 데이터에 대해 단계적인 디코딩 처리를 수행하여, 상이한 사이즈의 디코딩된 얼굴 무늬 데이터(즉 상이한 재구축 디코딩층의 출력 데이터의 사이즈는 상이함)를 획득하고, 동일한 사이즈의 디코딩된 얼굴 무늬 데이터 및 타깃 처리의 입력 데이터를 융합하는 것을 통해, 제1 얼굴 마스크와 얼굴 무늬 데이터의 융합 효과를 추가로 향상시킬 수 있음으로써, 타깃 이미지의 얼굴 무늬 데이터와 기준 얼굴 이미지의 얼굴 무늬 데이터의 매칭도를 향상시킨다. 본 실시예에서 제공한 방법을 통해 이상 두 개의 매칭도를 향상시키는 경우, 타깃 이미지의 품질을 향상시킬 수 있다.

본 발명의 실시예는 기준 얼굴 이미지의 얼굴 마스크 및 타깃 이미지의 얼굴 마스크를 처리하는 방안을 더 제공하는 것을 통해, 타깃 이미지에서의 세부 사항(수염 정보, 주름 정보 및 피부의 무늬 정보를 포함함)을 풍부화시킴으로써, 타깃 이미지의 품질을 향상시킨다. 도 9를 참조하면, 도 9는 본 발명의 실시예에서 제공한 다른 이미지 처리 방법의 흐름 예시도이다.

단계 901에 있어서, 각각 기준 얼굴 이미지 및 타깃 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여, 기준 얼굴 이미지의 제2 얼굴 마스크 및 타깃 이미지의 제3 얼굴 마스크를 획득한다.

본 실시예에 있어서, 얼굴 키 포인트 추출 처리는 이미지로부터 얼굴 윤곽의 위치 정보, 오관의 위치 정보 및 안면 표정 정보를 추출할 수 있다. 각각 기준 얼굴 이미지 및 타깃 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하는 것을 통해, 기준 얼굴 이미지의 제2 얼굴 마스크 및 타깃 이미지의 제3 얼굴 마스크를 획득할 수 있다. 제2 얼굴 마스크의 사이즈 및 제3 얼굴 마스크의 사이즈 및 기준 얼굴 이미지의 사이즈 및 기준 타깃 이미지의 사이즈는 동일하다. 제2 얼굴 마스크는 기준 얼굴 이미지에서의 얼굴 윤곽 키 포인트의 위치 정보 및 오관 키 포인트의 위치 정보 및 안면 표정을 포함하고, 제3 얼굴 마스크는 타깃 이미지에서의 얼굴 윤곽 키 포인트의 위치 정보 및 오관 키 포인트의 위치 정보 및 안면 표정을 포함한다.

단계 902에 있어서, 제2 얼굴 마스크 및 제3 얼굴 마스크 사이의 픽셀값의 차이에 따라, 제4 얼굴 마스크를 결정한다.

제2 얼굴 마스크 및 제3 얼굴 마스크 사이의 픽셀값의 차이(예를 들어 평균값, 분산, 연관도 등 통계 데이터)를 비교하는 것을 통해, 기준 얼굴 이미지 및 타깃 이미지 사이의 세부 사항 차이를 획득할 수 있고, 상기 세부 사항 차이에 기반하여 제4 얼굴 마스크를 결정할 수 있다.

한 가지 구현 가능한 방식에 있어서, 제2 얼굴 마스크 및 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 평균값(아래에 픽셀 평균값으로 지칭됨), 및 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 분산(아래에 픽셀 분산으로 지칭됨)에 따라, 아핀 변환 형태를 결정한다. 다음 상기 아핀 변환 형태에 따라 제2 얼굴 마스크 및 제3 얼굴 마스크에 대해 아핀 변환을 수행하여, 제4 얼굴 마스크를 획득할 수 있다. 여기서, 픽셀 평균값을 아핀 변환의 스케일링 변수로 사용하고, 픽셀 분산을 아핀 변환의 평행 이동 변수로 사용할 수 있다. 픽셀 평균값을 아핀 변환의 평행 이동 변수로 사용하고, 픽셀 분산을 아핀 변환의 스케일링 변수로 사용할 수도 있다. 스케일링 변수 및 평행 이동 변수의 의미는 단계 602를 참조할 수 있다. 본 실시예에 있어서, 제4 얼굴 마스크의 사이즈는 제2 얼굴 마스크의 사이즈 및 제3 얼굴 마스크의 사이즈와 동일하다. 제4 얼굴 마스크 중 각 픽셀 포인트는 하나의 값이 존재한다. 선택적으로, 상기 값의 값의 범위는 0 내지 1이다. 여기서, 픽셀 포인트의 값이 1에 가까울 수록, 상기 픽셀 포인트가 위치하는 위치에서, 기준 얼굴 이미지의 픽셀 포인트의 픽셀값과 타깃 이미지의 픽셀 포인트의 픽셀값 차이가 더욱 큰 것을 나타낸다. 예를 들어, 제1 픽셀 포인트가 기준 얼굴 이미지에서의 위치 및 제2 픽셀 포인트가 타깃 이미지에서의 위치 및 제3 픽셀 포인트가 제4 얼굴 마스크에서의 위치는 동일하고, 제1 픽셀 포인트의 픽셀값과 제2 픽셀 포인트의 픽셀값 사이의 차이가 클수록, 제3 픽셀 포인트의 값은 더욱 크다.

단계 903에 있어서, 제4 얼굴 마스크, 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 융합 처리를 수행하여, 새로운 타깃 이미지를 획득한다.

타깃 이미지와 기준 얼굴 이미지 중 동일 위치의 픽셀 포인트의 픽셀값의 차이가 클수록, 타깃 이미지에서의 얼굴 무늬 데이터와 기준 얼굴 이미지에서의 얼굴 무늬 데이터의 매칭도는 더욱 크다. 그러나 단계 902의 처리를 통해, 기준 얼굴 이미지와 타깃 이미지 중 동일 위치의 픽셀 포인트의 픽셀값의 차이(아래에 픽셀값 차이로 지칭됨)를 결정할 수 있다. 따라서, 제4 얼굴 마스크에 따라 타깃 이미지 및 기준 얼굴 이미지를 융합하도록 할 수 있어, 융합된 이미지와 기준 얼굴 이미지의 동일 위치의 픽셀 포인트의 픽셀값의 차이를 감소시켜, 융합된 이미지와 기준 얼굴 이미지의 세부 사항의 매칭도가 더욱 높아지도록 한다. 한 가지 구현 가능한 방식에 있어서, 아래의 공식을 통해 기준 얼굴 이미지 및 타깃 이미지를 융합할 수 있다.

…공식(1)

여기서,

는 융합된 이미지이고,

는 타깃 이미지이며,

는 기준 얼굴 이미지이며, mask는 제4 얼굴 마스크이다.

는 사이즈가 제4 얼굴 마스크의 사이즈와 동일하고, 각 픽셀 포인트의 값이 모두 1인 한 장의 얼굴 마스크를 사용하여 제4 얼굴 마스크 중 동일 위치의 픽셀 포인트의 값과 빼기하는 것을 가리킨다.

는

에서 획득된 얼굴 마스크와 기준 얼굴 이미지 중 동일 위치의 값의 곱셈을 가리킨다.

는 제4 얼굴 마스크와 기준 얼굴 이미지 중 동일 위치의 픽셀 포인트의 값의 곱셈을 가리킨다.

를 통해 타깃 이미지 중 기준 얼굴 이미지의 픽셀값과 차이가 작은 위치의 픽셀값을 강화할 수 있고, 타깃 이미지 중 기준 얼굴 이미지의 픽셀값과 차이가 큰 위치의 픽셀값을 약화시킬 수 있다.

를 통해 기준 얼굴 이미지 중 타깃 이미지의 픽셀값과 차이가 큰 위치의 픽셀값을 강화시킬 수 있고, 기준 얼굴 이미지 중 타깃 이미지의 픽셀값과 차이가 작은 위치의 픽셀값을 약화시킬 수 있다. 다음

에서 획득된 이미지를

에서 획득된 이미지 중 동일 위치의 픽셀 포인트의 픽셀값과 덧셈하여, 타깃 이미지의 세부 사항을 강화시킬 수 있고, 타깃 이미지의 세부 사항과 기준 얼굴 이미지의 세부 사항 매칭도를 향상시킨다.

예를 들어, 픽셀 포인트 a가 기준 얼굴 이미지에서의 위치 및 픽셀 포인트 b가 타깃 이미지에서의 위치 및 픽셀 포인트 c가 제4 얼굴 마스크에서의 위치가 동일하고, 픽셀 포인트 a의 픽셀값이 255이며, 픽셀 포인트 b의 픽셀값이 0이며, 픽셀 포인트 c의 값이 1인 것으로 가정한다.

를 통해 획득된 이미지에서의 픽셀 포인트 d의 픽셀값은 255(픽셀 포인트 d가

를 통해 획득된 이미지에서의 위치와 픽셀 포인트 a가 기준 얼굴 이미지에서의 위치는 동일함)이고,

를 통해 획득된 이미지에서의 픽셀 포인트 e의 픽셀값은 0(픽셀 포인트 d가

를 통해 획득된 이미지에서의 위치와 픽셀 포인트 a가 기준 얼굴 이미지에서의 위치는 동일함)이다. 다음 픽셀 포인트 d의 픽셀값 및 픽셀 포인트 e의 픽셀값를 덧셈하여 융합된 이미지 중 픽셀 포인트 f의 픽셀값은 255이고, 다시 말해, 상기 융합 처리를 통해 획득된 이미지 중 픽셀 포인트 f의 픽셀값과 기준 얼굴 이미지 중 픽셀 포인트 a의 픽셀값은 동일하다.

본 실시예에 있어서, 새로운 타깃 이미지는 상기 융합된 이미지이다. 본 실시예는 제2 얼굴 마스크 및 제3 얼굴 마스크를 통해 제4 얼굴 마스크를 획득하고, 제4 얼굴 마스크에 따라 기준 얼굴 이미지 및 타깃 이미지를 융합하여 타깃 이미지에서의 세부 정보를 향상시킬 수 있는 동시에, 타깃 이미지에서의 오관 위치 정보, 얼굴 윤곽 위치 정보 및 표정 정보를 유지할 수 있음으로써, 타깃 이미지의 품질을 향상시킨다.

본 발명의 실시예는 본 발명에서 제공한 상기 실시예에서의 방법을 구현하기 위한 얼굴 생성 네트워크를 더 제공한다. 도 10을 참조하면, 도 10은 본 발명의 실시예에서 제공한 얼굴 생성 네트워크의 구조 예시도이다. 도 10에 도시된 바와 같이, 얼굴 생성 네트워크의 입력은 기준 얼굴 포즈 이미지 및 기준 얼굴 이미지이다. 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여, 얼굴 마스크를 획득한다. 얼굴 마스크에 대해 다운 샘플링 처리를 수행하여 제1 레벨의 얼굴 마스크, 제2 레벨의 얼굴 마스크, 제3 레벨의 얼굴 마스크, 제4 레벨의 얼굴 마스크, 제5 레벨의 얼굴 마스크를 획득하고, 얼굴 마스크를 제6 레벨의 얼굴 마스크로 사용한다. 여기서, 제1 레벨의 얼굴 마스크, 제2 레벨의 얼굴 마스크, 제3 레벨의 얼굴 마스크, 제4 레벨의 얼굴 마스크, 제5 레벨의 얼굴 마스크는 상이한 다운 샘플링 처리를 통해 획득된 것이고, 상기 다운 샘플링 처리는 쌍선형 보간, 최근접 보간, 상위 계급 보간, 컨볼루션 처리, 풀링화 처리 중 어느 하나의 방법을 통해 구현될 수 있다.

다중 계층 인코딩층을 통해 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하여, 얼굴 무늬 데이터를 획득한다. 다음 다중 계층 디코딩층을 통해 얼굴 무늬 데이터에 대해 단계적인 디코딩 처리를 수행하여, 재구축 이미지를 획득할 수 있다. 재구축 이미지 및 기준 얼굴 이미지 중 동일 위치 사이의 픽셀값의 차이를 통해, 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 먼저 수행한 다음 단계적인 디코딩 처리를 수행하여 획득된 재구축 이미지와 생성 이미지 사이의 차이를 가늠할 수 있으며, 상기 차이가 작을 수록, 기준 얼굴 이미지에 대한 인코딩 처리 및 디코딩 처리를 통해 획득된 상이한 사이즈의 얼굴 무늬 데이터(도면에서의 얼굴 무늬 데이터 및 각 디코딩층의 출력 데이터를 포함함)의 품질이 높은 것(여기서의 품질이 높은 것은 상이한 사이즈의 얼굴 무늬 데이터에 포함된 정보와 기준 얼굴 이미지에 포함된 얼굴 무늬 정보의 매칭도가 높은 것을 가리킴)을 나타낸다.

얼굴 무늬 데이터에 대해 단계적인 디코딩 처리를 수행하는 과정에서, 제1 레벨의 얼굴 마스크, 제2 레벨의 얼굴 마스크, 제3 레벨의 얼굴 마스크, 제4 레벨의 얼굴 마스크, 제5 레벨의 얼굴 마스크, 제6 레벨의 얼굴 마스크를 각각 상응하는 데이터와 융합하는 것을 통해, 타깃 이미지를 획득할 수 있다. 여기서, 융합은 적응적인 아핀 변환을 포함하고, 즉 제1 소정 사이즈의 컨볼루션 코어 및 제2 소정 사이즈의 컨볼루션 코어를 각각 사용하여 제1 레벨의 얼굴 마스크 또는 제2 레벨의 얼굴 마스크 또는 제3 레벨의 얼굴 마스크 또는 제4 레벨의 얼굴 마스크 또는 제5 레벨의 얼굴 마스크 또는 제6 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여, 제3 특징 데이터 및 제4 특징 데이터를 획득한 다음, 제3 특징 데이터 및 제4 특징 데이터에 따라 아핀 변환의 형태를 결정하고, 마지막으로 아핀 변환의 형태에 따라 상응하는 데이터에 대해 아핀 변환을 수행한다. 이로써 얼굴 마스크와 얼굴 무늬 데이터의 융합 효과를 향상시킬 수 있어, 생성 이미지(즉 타깃 이미지)의 품질을 향상시키는데 유리하다.

얼굴 무늬 데이터에 대해 단계적인 디코딩 처리를 수행하여 재구축 이미지를 획득하는 과정 중 디코딩층의 출력 데이터와 얼굴 무늬 데이터에 대해 단계적인 디코딩 처리를 수행하여 타깃 이미지를 획득하는 과정 중 디코딩층의 출력 데이터에 대해 병합 처리를 수행하는 것을 통해, 얼굴 마스크와 얼굴 무늬 데이터의 융합 효과를 추가로 향상시킬 수 있고, 타깃 이미지의 품질을 더 추가적으로 향상시킨다.

본 발명의 실시예로부터 알다시피, 본 발명은 기준 얼굴 포즈 이미지로부터 얼굴 마스크를 획득하는 것 및 기준 얼굴 이미지로부터 얼굴 무늬 데이터를 획득하는 것을 분리 처리하는 것을 통해, 기준 얼굴 포즈 이미지 중 임의의 인물의 얼굴 포즈 및 기준 얼굴 이미지에서의 임의의 인물의 얼굴 무늬 데이터를 획득할 수 있다. 이로써 후속 얼굴 마스크 및 얼굴 무늬 데이터에 기반하여 처리함으로써 얼굴 포즈가 기준 얼굴 이미지에서의 얼굴 포즈이고, 얼굴 무늬 데이터가 기준 얼굴 이미지에서의 얼굴 무늬 데이터인 타깃 이미지를 획득할 수 있으며, 즉 임의의 인물에 대한"얼굴 체인지"를 구현한다.

상기 구현 사상 및 구현 방식에 기반하여, 본 발명은 얼굴 생성 네트워크의 훈련 방법을 제공하여, 훈련된 얼굴 생성 네트워크가 기준 얼굴 포즈 이미지로부터 고품질의 얼굴 마스크(즉 얼굴 마스크에 포함된 얼굴 포즈 정보와 기준 얼굴 포즈 이미지에 포함된 얼굴 포즈 정보의 매칭도가 높음)를 획득하도록 하고, 기준 얼굴 이미지로부터 고품질의 얼굴 무늬 데이터(즉 얼굴 무늬 데이터에 포함된 얼굴 무늬 정보와 기준 얼굴 이미지에 포함된 얼굴 무늬 정보의 매칭도가 높음)를 획득하도록 하며, 얼굴 마스크 및 얼굴 무늬 데이터에 기반하여 고품질의 타깃 이미지를 획득할 수 있다. 얼굴 생성 네트워크를 훈련하는 과정에 있어서, 제1 샘플 얼굴 이미지 및 제1 샘플 얼굴 포즈 이미지를 생성 네트워크에 입력하여, 제1 생성 이미지 및 제1 재구축 이미지를 획득할 수 있다. 여기서, 제1 샘플 얼굴 이미지에서의 인물과 제1 샘플 얼굴 포즈 이미지에서의 인물은 상이하다.

제1 생성 이미지는 얼굴 무늬 데이터를 디코딩하는 것에 기반하여 획득된 것이고, 다시 말해, 제1 샘플 얼굴 이미지로부터 추출된 얼굴 무늬 특징의 효과가 좋을 수록(즉 추출된 얼굴 무늬 특징에 포함된 얼굴 무늬 정보와 제1 샘플 얼굴 이미지에 포함된 얼굴 무늬 정보의 매칭도가 높음), 후속으로 획득된 제1 생성 이미지의 품질은 더욱 높다(즉 제1 생성 이미지에 포함된 얼굴 무늬 정보와 제1 샘플 얼굴 이미지에 포함된 얼굴 무늬 정보의 매칭도가 높음). 따라서, 본 실시예는 각각 제1 샘플 얼굴 이미지 및 제1 생성 이미지에 대해 얼굴 특징 추출 처리를 수행하는 것을 통해, 제1 샘플 얼굴 이미지의 특징 데이터 및 제1 생성 이미지의 얼굴 특징 데이터를 획득한 다음, 얼굴 특징 손실 함수를 통해 제1 샘플 얼굴 이미지의 특징 데이터 및 제1 생성 이미지의 얼굴 특징 데이터의 차이를 가늠하여, 제1 손실을 획득한다. 상기 얼굴 특징 추출 처리는 얼굴 특징 추출 알고리즘을 통해 구현될 수 있고, 본 발명은 이에 대해 한정하지 않는다.

단계 102에 기재된 바와 같이, 얼굴 무늬 데이터는 인물 신원 정보로 간주될 수 있고, 다시 말해, 제1 생성 이미지에서의 얼굴 무늬 정보와 제1 샘플 얼굴 이미지에서의 얼굴 무늬 정보의 매칭도가 높을 수록, 제1 생성 이미지에서의 인물과 제1 샘플 얼굴 이미지에서의 인물의 유사도가 더욱 높다(사용자가 시각적으로, 타깃 이미지에서의 인물과 기준 얼굴 이미지에서의 인물이 더욱 동일한 인물과 비슷하다고 느낀 것). 따라서, 본 실시예는 감지 손실 함수를 통해 제1 생성 이미지의 얼굴 무늬 정보 및 제1 샘플 얼굴 이미지의 얼굴 무늬 정보의 차이를 가늠하여, 제2 손실을 획득한다. 제1 생성 이미지와 제1 샘플 얼굴 이미지의 전체적인 유사도가 높을 수록(여기서의 전체적인 유사도는 두 장의 이미지 중 동일 위치의 픽셀값의 차이, 두 장의 이미지의 전체적인 색상의 차이, 두 장의 이미지 중 얼굴 영역 이외의 배경 영역의 매칭도를 포함함), 획득된 제1 생성 이미지의 품질도 더욱 높으며(사용자의 시각적으로, 제1 생성 이미지와 제1 샘플 얼굴 이미지는 인물의 표정 및 윤곽이 상이한 것 외에, 다른 모든 이미지 내용의 유사도가 높을 수록, 제1 생성 이미지에서의 인물과 제1 샘플 얼굴 이미지에서의 인물은 동일한 인물과 더욱 비슷하며, 제1 생성 이미지 중 얼굴 영역 이외의 이미지 내용과 제1 샘플 얼굴 이미지 중 얼굴 영역 이외의 이미지 내용의 유사도도 더욱 높음). 따라서, 본 실시예는 재구축 손실 함수를 통해 제1 샘플 얼굴 이미지 및 제1 생성 이미지의 전체적인 유사도를 가늠하여, 제3 손실을 획득한다. 얼굴 무늬 데이터 및 얼굴 마스크에 기반하여 제1 생성 이미지를 획득하는 과정 중 상이한 사이즈의 디코딩 처리된 얼굴 무늬 데이터(즉 얼굴 무늬 데이터에 기반하여 제1 재구축 이미지 과정 중 각 층의 디코딩층의 출력 데이터를 획득함)와 얼굴 무늬 데이터에 기반하여 제1 생성 이미지를 획득하는 과정 중 각 층의 디코딩층의 출력 데이터에 대해 병합 처리를 수행하는 것을 통해, 얼굴 무늬 데이터와 얼굴 마스크의 융합 효과를 향상시킨다. 다시 말해, 얼굴 무늬 데이터에 기반하여 제1 재구축 이미지를 획득하는 과정 중 각 층의 디코딩층의 출력 데이터의 품질이 높을 수록(여기서 디코딩층의 출력 데이터에 포함된 정보와 제1 샘플 얼굴 이미지에 포함된 정보의 매칭도가 높은 것을 가리킴), 획득된 제1 생성 이미지의 품질은 더욱 높고, 획득된 제1 재구축 이미지와 제1 샘플 얼굴 이미지의 유사도도 더욱 높다. 따라서, 본 실시예는 재구축 손실 함수를 통해 제1 재구축 이미지와 제1 샘플 얼굴 이미지 사이의 유사도를 가늠하여, 제4 손실을 획득한다. 설명해야 할 것은, 상기 얼굴 생성 네트워크의 훈련 과정 중, 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 생성 네트워크에 입력하여, 제1 생성 이미지 및 제1 재구축 이미지를 획득하고, 상기 손실 함수를 통해 제1 생성 이미지의 얼굴 포즈가 최대한 제1 샘플 얼굴 이미지의 얼굴 포즈와 일치하도록 유지하게 하며, 훈련된 얼굴 생성 네트워크에서의 다중 계층 인코딩층이 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하여 얼굴 무늬 데이터를 획득할 경우 기준 얼굴 이미지로부터 얼굴 포즈 특징을 추출하는 것이 아니라, 더욱 집중적으로 기준 얼굴 이미지로부터 얼굴 무늬 특징을 추출할 수 있도록 하여, 얼굴 포즈 정보를 획득한다. 이로써 훈련된 얼굴 생성 네트워크를 응용하여 타깃 이미지를 생성할 경우, 획득된 얼굴 무늬 데이터에 포함된 기준 얼굴 이미지의 얼굴 포즈 정보를 감소시킬 수 있어, 타깃 이미지의 품질을 향상시키는데 더욱 유리하다.

본 실시예에서 제공한 얼굴 생성 네트워크는 생성적 적대 네트워크의 생성 네트워크에 속하고, 제1 생성 이미지는 얼굴 생성 네트워크를 통해 생성된 이미지이며, 즉 제1 생성 이미지는 실제 이미지(즉 촬영 기기를 통해 촬영하여 얻은 이미지)가 아니며, 획득된 제1 생성 이미지의 진실도(제1 생성 이미지의 진실도가 높을 수록, 사용자의 시각적으로, 제1 생성 이미지는 실제 이미지와 더욱 비슷함)를 향상시키기 위해, 생성적 적대 네트워크 손실(generative adversarial networks, GAN) 함수를 통해 타깃 이미지의 진실도를 가늠하여 제5 손실을 획득할 수 있다. 상기 제1 손실, 제2 손실, 제3 손실, 제4 손실, 제5 손실에 기반하여, 얼굴 생성 네트워크의 제1 네트워크 손실을 획득할 수 있고, 구체적으로 아래의 공식을 참조할 수 있다.

…공식 (2)

여기서, L_total은 네트워크 손실이고, L₁은 제1 손실이며, L₂는 제2 손실이며, L₃은 제3 손실이며, L₄는 제4 손실이며, L₅는 제5 손실이다. α₁, α₂, α₃, α₄, α₅은 임의의 자연수이다. 선택적으로, α₄=25, α₃=25, α₁=α₂=α₅=1이다. 공식 (2)에서 획득된 제1 네트워크 손실에 기반하여, 훈련 완료할 때까지, 역방향 전송을 통해 얼굴 생성 네트워크를 훈련하여, 훈련된 얼굴 생성 네트워크를 획득할 수 있다. 선택적으로, 얼굴 생성 네트워크를 훈련하는 과정에서, 훈련 샘플은 또한 제2 샘플 얼굴 이미지 및 제2 샘플 포즈 이미지를 포함할 수 있다. 여기서, 제2 샘플 포즈 이미지는 제2 샘플 얼굴 이미지에 랜덤 섭동을 추가하는 것을 통해, 제2 샘플 얼굴 이미지의 얼굴 포즈(예를 들어, 제2 샘플 얼굴 이미지에서의 오관의 위치 및 제2 샘플 얼굴 이미지에서의 얼굴 윤곽 위치 중 적어도 하나가 이동되도록 함)를 변경시켜, 제2 샘플 얼굴 포즈 이미지를 획득할 수 있다. 제2 샘플 얼굴 이미지 및 제2 샘플 얼굴 포즈 이미지를 얼굴 생성 네트워크에 입력하여 훈련하여, 제2 생성 이미지 및 제2 재구축 이미지를 획득한다. 다음 제2 샘플 얼굴 이미지 및 제2 생성 이미지에 따라 제6 손실(제6 손실을 획득하는 과정은 제1 샘플 얼굴 이미지 및 제1 생성 이미지에 따라 제1 손실을 획득하는 과정을 참조할 수 있음)을 획득하고, 제2 샘플 얼굴 이미지 및 제2 생성 이미지에 따라 제7 손실(제7 손실을 획득하는 과정은 제1 샘플 얼굴 이미지 및 제1 생성 이미지에 따라 제2 손실을 획득하는 과정을 참조할 수 있음)을 획득하며, 제2 샘플 얼굴 이미지 및 제2 생성 이미지에 따라 제8 손실(제8 손실을 획득하는 과정은 제1 샘플 얼굴 이미지 및 제1 생성 이미지에 따라 제3 손실을 획득하는 과정을 참조할 수 있음)을 획득하며, 제2 샘플 얼굴 이미지 및 제2 재구축 이미지에 따라 제9 손실(제9 손실을 획득하는 과정은 제1 샘플 얼굴 이미지 및 제1 재구축 이미지에 따라 제4 손실을 획득하는 과정을 참조할 수 있음)을 획득하며, 제2 생성 이미지에 따라 제10 손실(제10 손실을 획득하는 과정은 제1 생성 이미지에 따라 제5 손실을 획득하는 과정을 참조할 수 있음)을 획득한다. 다음 상기 제6 손실, 제7 손실, 제8 손실, 제9 손실, 제10 손실 및 공식 (3)에 기반하여, 얼굴 생성 네트워크의 제2 네트워크 손실을 획득할 수 있고, 구체적인 것은 아래의 공식을 참조할 수 있다.

…공식 (3)

여기서, L_total2는 제2 네트워크 손실이고, L₆은 제6 손실이며, L₇은 제7 손실이며, L₈은 제8 손실이며, L₉는 제9 손실이며, L₁₀은 제10 손실이다. α₆, α₇, α₈, α₉, α₁₀는 임의의 자연수이다. 선택적으로, α₉=25, α₈=25, α₆=α₇=α₁₀=1이다.

제2 샘플 얼굴 이미지 및 제2 샘플 얼굴 포즈 이미지를 훈련 세트로 사용하는 것을 통해, 얼굴 생성 네트워크 훈련 세트 중 이미지의 다양성을 추가할 수 있어, 얼굴 생성 네트워크의 훈련 효과를 향상시키는데 유리하며, 훈련으로 획득된 얼굴 생성 네트워크에 의해 생성된 타깃 이미지의 품질을 향상시킬 수 있다.

상기 훈련 과정에서, 제1 생성 이미지에서의 얼굴 포즈와 제1 샘플 얼굴 포즈 이미지에서의 얼굴 포즈가 동일하도록 하거나, 제2 생성 이미지에서의 얼굴 포즈와 제2 샘플 얼굴 포즈 이미지에서의 얼굴 포즈가 동일하도록 하는 것을 통해, 훈련된 얼굴 생성 네트워크가 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 얼굴 무늬 데이터를 획득할 경우 더욱 집중적으로 기준 얼굴 이미지로부터 얼굴 무늬 특징을 추출하도록 하여, 얼굴 무늬 데이터를 획득할 수 있으며, 기준 얼굴 이미지로부터 얼굴 포즈 특징을 추출하여, 얼굴 포즈 정보를 획득하는 것이 아니다. 이로써 훈련된 얼굴 생성 네트워크를 응용하여 타깃 이미지를 생성할 경우, 획득된 얼굴 무늬 데이터에 포함된 기준 얼굴 이미지의 얼굴 포즈 정보를 감소시킬 수 있어, 타깃 이미지의 품질을 향상시키는데 더욱 유리하다. 이해해야 할 것은, 본 실시예에서 제공한 얼굴 생성 네트워크 및 얼굴 생성 네트워크 훈련 방법에 기반하여, 훈련하는 이미지 개수는 한 장일 수 있다. 즉 한 장의 인물을 포함하는 이미지를 샘플 얼굴 이미지로서 어느 한 장의 샘플 얼굴 포즈 이미지와 함께 얼굴 생성 네트워크에 입력하여, 상기 훈련 방법을 이용하여 얼굴 생성 네트워크에 대한 훈련을 완료함으로써, 훈련된 얼굴 생성 네트워크를 획득한다.

또한 설명해야 할 것은, 본 실시예에서 제공한 얼굴 생성 네트워크를 응용하여 획득된 타깃 이미지는 기준 얼굴 이미지에서의 "누락 정보"를 포함할 수 있다. 상기 "누락 정보"는 기준 얼굴 이미지 중 인물의 안면 표정 및 기준 얼굴 포즈 이미지 중 인물의 안면 표정 사이의 차이로 인해 생성된 정보를 가리킨다. 예를 들어, 기준 얼굴 이미지 중 인물의 안면 표정은 눈을 감는 것이고, 기준 얼굴 포즈 이미지 중 인물의 안면 표정은 눈을 뜨는 것이다. 타깃 이미지에서의 얼굴 안면 표정이 기준 얼굴 포즈 이미지 중 인물의 안면 표정과 일치하도록 유지해야 하지만, 기준 얼굴 이미지에 눈이 없으므로, 다시 말해, 기준 얼굴 이미지에서의 눈 영역의 정보는 "누락 정보"이다.

또 예를 들어(예 1), 도 11에 도시된 바와 같이, 기준 얼굴 이미지 d에서의 인물의 안면 표정은 입을 닫는 것이며, 다시 말해 d에서의 치아 영역의 정보는 "누락 정보"이다. 기준 얼굴 포즈 이미지 c에서의 인물의 안면 표정은 입을 여는 것이다.

본 발명의 실시예에서 제공한 얼굴 생성 네트워크는 훈련 과정을 통해 "누락 정보"와 얼굴 무늬 데이터의 맵핑 관계를 학습한다. 훈련된 얼굴 생성 네트워크를 이용하여 타깃 이미지를 획득할 경우, 기준 얼굴 이미지에 "누락 정보"가 존재하면, 기준 얼굴 이미지의 얼굴 무늬 데이터 및 상기 맵핑 관계에 따라, 타깃 이미지를 위해 상기 "누락 정보"를 "추정"한다.

계속하여 예 1을 예로 들면, c 및 d를 얼굴 생성 네트워크에 입력하여, 얼굴 생성 네트워크는 d로부터 d의 얼굴 무늬 데이터를 획득하고, 타깃 얼굴 무늬 데이터로서, 훈련 과정에서 학습된 얼굴 무늬 데이터로부터 d의 얼굴 무늬 데이터와 매칭도가 가장 높은 얼굴 무늬 데이터를 결정한다. 다음 치아 정보와 얼굴 무늬 데이터의 맵핑 관계에 따라, 타깃 얼굴 무늬 데이터에 대응되는 타깃 치아 정보를 결정한다. 또한 타깃 치아 정보에 따라 타깃 이미지 e에서의 치아 영역의 이미지 내용을 결정한다.

본 실시예는 제1 손실, 제2 손실, 제3 손실, 제4 손실 및 제5 손실에 기반하여 얼굴 생성 네트워크를 훈련하여, 훈련된 얼굴 생성 네트워크가 임의의 기준 얼굴 포즈 이미지로부터 얼굴 마스크를 획득할 수 있도록 하고, 임의의 기준 얼굴 이미지로부터 얼굴 무늬 데이터를 획득할 수 있도록 한 다음, 얼굴 마스크 및 얼굴 무늬 데이터에 기반하여 타깃 이미지를 획득할 수 있다. 즉 본 실시예에서 제공한 얼굴 생성 네트워크 및 얼굴 생성 네트워크의 훈련 방법을 통해 획득된 훈련된 얼굴 생성 네트워크는, 임의의 인물의 얼굴을 임의의 이미지에 대체하는 것을 구현할 수 있으며, 즉 본 발명에서 제공한 기술방안은 보편성(즉 임의의 인물을 타깃 인물로 사용할 수 있음)을 구비한다. 본 발명의 실시예에서 제공한 이미지 처리 방법, 및 본 발명의 실시예에서 제공한 얼굴 생성 네트워크 및 얼굴 생성 네트워크의 훈련 방법에 기반하여, 본 발명의 실시예는 몇 가지 구현 가능한 응용 시나리오를 더 제공한다. 사람들이 인물을 촬영할 경우, 외부 인소(예를 들어 피촬영 인물의 이동, 촬영 기기의 흔들림, 촬영 환경의 빛의 세기가 약한 것)의 영향으로 인해, 촬영으로 획득된 인물 사진에 블러(본 실시예는 얼굴 영역 블러를 가리킴), 빛의 세기가 좋지 못한(본 실시예는 얼굴 영역 빛의 세기가 좋지 못한 것을 가리킴) 등 문제가 존재할 수 있다. 단말(예를 들어 핸드폰, 컴퓨터 등)은 본 발명의 실시예에서 제공한 기술방안을 이용하여, 블러 이미지 또는 빛의 세기가 좋지 못한 이미지(즉 블러 문제가 존재하는 인물 이미지)에 대해 얼굴 키 포인트 추출 처리를 수행하여, 얼굴 마스크를 획득할 수 있고, 다음 블러 이미지에서의 인물을 포함하는 선명한 이미지에 대해 인코딩 처리를 수행하여 상기 인물의 얼굴 무늬 데이터를 획득할 수 있으며, 마지막으로 얼굴 마스크 및 얼굴 무늬 데이터에 기반하여 타깃 이미지를 획득할 수 있다. 여기서, 타깃 이미지에서의 얼굴 포즈는 블러 이미지 또는 빛의 세기가 좋지 못한 이미지에서의 얼굴 포즈이다.

이 외에, 사용자는 또한 본 발명에서 제공한 기술방안을 통해 다양한 표정 의 이미지를 획득할 수 있다. 예를 들어, A가 이미지 a에서의 인물의 표정이 재미있어 보여, 자신이 상기 표정을 하는 경우의 한 장의 이미지를 획득하기를 원하면, 자신의 사진 및 이미지 a를 단말에 입력할 수 있다. 단말은 A의 사진을 기준 얼굴 이미지로 사용하고 이미지 a를 기준 포즈 이미지로 사용하며, 본 발명에서 제공한 기술방안을 이용하여 A의 사진 및 이미지 a를 처리하여, 타깃 이미지를 획득한다. 상기 타깃 이미지에서, A의 표정은 이미지 a에서의 인물의 표정이다.

다른 한 가지 구현 가능한 시나리오에 있어서, B는 영화에서의 비디오 세그먼트가 재미있다고 느껴지고, 또한 영화에서 연기자의 얼굴을 자신의 얼굴로 대체한 후의 효과를 보고싶어 한다. B는 자신의 사진(즉 처리될 얼굴 이미지) 및 상기 비디오 세그먼트(즉 처리될 비디오)를 단말에 입력할 수 있고, 단말은 B의 사진을 기준 얼굴 이미지로 사용할 수 있으며, 비디오 중 각 프레임의 이미지에서 기준 얼굴 포즈 이미지로서, 본 발명에서 제공한 기술방안을 이용하여 B의 사진 및 비디오 중 각 프레임의 이미지를 처리하여, 타깃 비디오를 획득한다. 타깃 비디오에서의 연기자는 B로 "대체"된다. 또 한 가지 구현 가능한 시나리오에 있어서, C가 이미지 c에서의 얼굴 포즈로 이미지 d에서의 얼굴 포즈를 대체하기를 원하면, 도 11에 도시된 바와 같이, 이미지 c를 기준 얼굴 포즈 이미지로 사용하고, 이미지 d를 기준 얼굴 이미지로 사용하여 단말에 입력할 수 있다. 단말은 본 발명에서 제공한 기술방안에 따라 c 및 d를 처리하여, 타깃 이미지 e를 획득한다.

이해해야 할 것은, 본 발명의 실시예에서 제공한 방법 또는 얼굴 생성 네트워크를 사용하여 타깃 이미지를 획득할 경우, 동시에 한 장 또는 여러 장의 얼굴 이미지를 기준 얼굴 이미지로 사용할 수 있고, 동시에 한 장 또는 여러 장의 얼굴 이미지를 기준 얼굴 포즈 이미지로 사용할 수도 있다.

예를 들어, 이미지 f, 이미지 g, 이미지 h를 얼굴 포즈 이미지로서 단말에 순차적으로 입력하고, 이미지 i, 이미지 j, 이미지 k를 얼굴 포즈 이미지로서 단말에 순차적으로 입력하면, 단말은 본 발명에서 제공한 기술방안을 이용하여 이미지 f 및 이미지 i에 기반하여 타깃 이미지 m을 생성하며, 이미지 g 및 이미지 j에 기반하여 타깃 이미지 n을 생성하며, 이미지 h 및 이미지 k에 기반하여 타깃 이미지 p를 생성한다.

또 예를 들어, 이미지 q, 이미지 r를 얼굴 포즈 이미지로서 단말에 순차적으로 입력하고, 이미지 s를, 얼굴 포즈 이미지로서 단말에 입력하면, 단말은 본 발명에서 제공한 기술방안을 이용하여 이미지 q 및 이미지 s에 기반하여 타깃 이미지 t를 생성하며, 이미지 r 및 이미지 s에 기반하여 타깃 이미지 u를 생성한다.

본 발명의 실시예에서 제공한 일부 응용 시나리오로부터 알다시피, 본 발명에서 제공한 기술방안을 응용하면 임의의 인물의 얼굴을 임의의 이미지 또는 비디오에 대체하는 것을 구현할 수 있어, 타깃 인물(즉 기준 얼굴 이미지에서의 인물)이 임의의 얼굴 포즈 하의 이미지 또는 비디오를 획득한다.

본 분야의 기술자는 구체적인 실시형태의 상기 방법에서, 각 단계의 기록 순서는 엄격한 실행 순서를 의미하지 않고 실시 과정에 대한 임의의 제한을 구성하며, 각 단계의 구체적인 실행 순서는 그 기능 및 가능한 내부 논리에 의해 결정된다.

이상 본 발명의 실시예의 방법을 상세하게 설명하고, 아래에 본 발명의 실시예의 장치를 제공한다.

도 12를 참조하면, 도 12는 본 발명의 실시예에서 제공한 이미지 처리 장치의 구조 예시도이고, 상기 장치(1)는, 획득 유닛(11), 제1 처리 유닛(12) 및 제2 처리 유닛(13)을 포함하며; 선택적으로, 상기 장치(1)는 또한, 디코딩 처리 유닛(14), 얼굴 키 포인트 추출 처리 유닛(15), 결정 유닛(16) 및 융합 처리 유닛(17) 중 적어도 하나의 유닛을 포함할 수 있다. 여기서,

획득 유닛(11)은, 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 획득하기 위한 것이고;

제1 처리 유닛(12)은, 상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하고, 상기 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 상기 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하기 위한 것이며;

제2 처리 유닛(13)은, 상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하기 위한 것이다.

한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛(13)은, 상기 얼굴 무늬 데이터에 대해 디코딩 처리를 수행하여, 제1 얼굴 무늬 데이터를 획득하고; 상기 제1 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 n 레벨의 타깃 처리를 수행하여, 상기 타깃 이미지를 획득하기 위한 것이며; 상기 n 레벨의 타깃 처리는 제m-1 레벨의 타깃 처리 및 제m 레벨의 타깃 처리를 포함하고; 상기 n 레벨의 타깃 처리에서의 제1 레벨의 타깃 처리의 입력 데이터는 상기 얼굴 무늬 데이터이며; 상기 제m-1 레벨의 타깃 처리의 출력 데이터는 상기 제m 레벨의 타깃 처리의 입력 데이터이며; 상기 n 레벨의 타깃 처리에서의 제i 레벨의 타깃 처리는 상기 제i 레벨의 타깃 처리의 입력 데이터 및 상기 제1 얼굴 마스크의 사이즈를 조정 후 획득된 데이터에 대한 순차적인 융합 처리 및 디코딩 처리를 포함하며; 상기 n은 2보다 크거나 같은 양의 정수이며; 상기 m은 2보다 크거나 같고 상기 n보다 작거나 같은 양의 정수이며; 상기 i는 1보다 크거나 같고 상기 n보다 작거나 같은 양의 정수이다.

다른 한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛(13)은, 상기 제i 레벨의 타깃 처리의 입력 데이터에 따라, 상기 제i 레벨의 타깃 처리의 융합된 데이터를 획득하고; 상기 제i 레벨의 타깃 처리의 융합된 데이터 및 제i 레벨의 얼굴 마스크에 대해 융합 처리를 수행하여, 제i 레벨의 융합된 데이터를 획득하며 - 상기 제i 레벨의 얼굴 마스크는 상기 제1 얼굴 마스크에 대해 다운 샘플링 처리를 수행하는 것을 통해 획득되고, 상기 제i 레벨의 얼굴 마스크의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일함 - ; 상기 제i 레벨의 융합된 데이터에 대해 디코딩 처리를 수행하여, 상기 제i 레벨의 타깃 처리의 출력 데이터를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 장치(1)는, 상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득한 후, 상기 얼굴 무늬 데이터에 대해 j 레벨의 디코딩 처리를 수행하기 위한 디코딩 처리 유닛(14) - 상기 j 레벨의 디코딩 처리에서의 제1 레벨의 디코딩 처리의 입력 데이터는 상기 얼굴 무늬 데이터이고, 상기 j 레벨의 디코딩 처리는 제k-1 레벨의 디코딩 처리 및 제k 레벨의 디코딩 처리를 포함하며, 상기 제k-1 레벨의 디코딩 처리의 출력 데이터는 상기 제k 레벨의 디코딩 처리의 입력 데이터이며, 상기 j는 2보다 크거나 같은 양의 정수이며, 상기 k는 2보다 크거나 같고 상기 j보다 작거나 같은 양의 정수임 - ; 및 상기 제i 레벨의 타깃 처리의 융합된 데이터로서, 상기 j 레벨의 디코딩 처리에서의 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 병합하여, 제i 레벨의 병합된 데이터를 획득하기 위한 제2 처리 유닛(13) - 상기 제r 레벨의 디코딩 처리의 출력 데이터의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일하며, 상기 r은 1보다 크거나 같고 상기 j보다 작거나 같은 양의 정수임 - 을 더 포함한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛(13)은 상기 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 채널 차원에서 병합하여, 상기 제i 레벨의 병합된 데이터를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛(13)은, 제1 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제1 특징 데이터를 획득하고, 제2 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제2 특징 데이터를 획득하고; 상기 제1 특징 데이터 및 상기 제2 특징 데이터에 따라 정규화 형태를 결정하며; 상기 정규화 형태에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 정규화 처리를 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 정규화 형태는 타깃 아핀 변환을 포함하고; 상기 제2 처리 유닛(13)은, 상기 타깃 아핀 변환에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 아핀 변환을 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제2 처리 유닛(13)은, 상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 융합 처리를 수행하여, 타깃 융합 데이터를 획득하고; 상기 타깃 융합 데이터에 대해 디코딩 처리를 수행하여, 상기 타깃 이미지를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 제1 처리 유닛(12)은, 다중 계층 인코딩층을 통해 상기 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하여, 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하기 위한 것이고; 상기 다중 계층 인코딩층은 s 번째 층의 인코딩층 및 s+1 번째 층의 인코딩층을 포함하며; 상기 다중 계층 인코딩층에서의 첫 번째 층의 인코딩층의 입력 데이터는 상기 기준 얼굴 이미지이며; 상기 s 번째 층의 인코딩층의 출력 데이터는 상기 s+1 번째 층의 인코딩층의 입력 데이터이며; 상기 s는 1보다 크거나 같은 양의 정수이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 장치(1)는, 각각 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여, 상기 기준 얼굴 이미지의 제2 얼굴 마스크 및 상기 타깃 이미지의 제3 얼굴 마스크를 획득하기 위한 얼굴 키 포인트 추출 처리 유닛(15); 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 사이의 픽셀값의 차이에 따라, 제4 얼굴 마스크를 결정하기 위한 결정 유닛(16) - 상기 기준 얼굴 이미지에서의 제1 픽셀 포인트의 픽셀값과 상기 타깃 이미지에서의 제2 픽셀 포인트의 픽셀값 사이의 차이는 상기 제4 얼굴 마스크에서의 제3 픽셀 포인트의 값과 양의 상관 관계를 구비하며, 상기 제1 픽셀 포인트가 상기 기준 얼굴 이미지에서의 위치, 상기 제2 픽셀 포인트가 상기 타깃 이미지에서의 위치 및 상기 제3 픽셀 포인트가 상기 제4 얼굴 마스크에서의 위치는 동일함 - ; 및 상기 제4 얼굴 마스크, 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 융합 처리를 수행하여, 새로운 타깃 이미지를 획득하기 위한 융합 처리 유닛(17)을 더 포함한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 결정 유닛(16)은, 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 평균값, 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 분산에 따라, 아핀 변환 형태를 결정하고; 상기 아핀 변환 형태에 따라 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크에 대해 아핀 변환을 수행하여, 상기 제4 얼굴 마스크를 획득하기 위한 것이다.

또 한 가지 구현 가능한 방식에 있어서, 상기 장치(1)에 의해 실행된 이미지 처리 방법은 얼굴 생성 네트워크에 적용되며; 상기 이미지 처리 장치(1)는 상기 얼굴 생성 네트워크 훈련 과정을 실행하기 위한 것이며; 상기 얼굴 생성 네트워크의 훈련 과정은, 훈련 샘플을 상기 얼굴 생성 네트워크에 입력하여, 상기 훈련 샘플의 제1 생성 이미지 및 상기 훈련 샘플의 제1 재구축 이미지를 획득하는 단계 - 상기 훈련 샘플은 샘플 얼굴 이미지 및 제1 샘플 얼굴 포즈 이미지를 포함하고, 상기 제1 재구축 이미지는 상기 샘플 얼굴 이미지를 인코딩한 후 디코딩 처리를 수행하는 것을 통해 획득됨 - ; 상기 샘플 얼굴 이미지 및 상기 제1 생성 이미지의 얼굴 특징 매칭도에 따라 제1 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지에서의 얼굴 무늬 정보 및 상기 제1 생성 이미지에서의 얼굴 무늬 정보의 차이에 따라 제2 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제4 픽셀 포인트의 픽셀값 및 상기 제1 생성 이미지 중 제5 픽셀 포인트의 픽셀값의 차이에 따라 제3 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제6 픽셀 포인트의 픽셀값 및 상기 제1 재구축 이미지 중 제7 픽셀 포인트의 픽셀값의 차이에 따라 제4 손실을 획득하는 단계; 상기 제1 생성 이미지의 진실도에 따라 제5 손실을 획득하는 단계 - 상기 제4 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제5 픽셀 포인트가 상기 제1 생성 이미지에서의 위치는 동일하고, 상기 제6 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제7 픽셀 포인트가 상기 제1 재구축 이미지에서의 위치는 동일하며, 상기 제1 생성 이미지의 진실도가 높을 수록 상기 제1 생성 이미지가 실제 이미지인 확률이 높음을 나타냄 - ; 상기 제1 손실, 상기 제2 손실, 상기 제3 손실, 상기 제4 손실 및 상기 제5 손실에 따라, 상기 얼굴 생성 네트워크의 제1 네트워크 손실을 획득하는 단계; 및 상기 제1 네트워크 손실에 기반하여 상기 얼굴 생성 네트워크의 파라미터를 조정하는 단계를 포함한다.

또 한 가지 구현 가능한 방식에 있어서, 상기 획득 유닛(11)은, 사용자가 단말에 입력한 처리될 얼굴 이미지를 수신하고; 처리될 비디오를 획득하며 - 상기 처리될 비디오는 얼굴을 포함함 - ; 상기 처리될 얼굴 이미지를 상기 기준 얼굴 이미지로 사용하고, 상기 처리될 비디오의 이미지를 상기 얼굴 포즈 이미지로 사용하여, 타깃 비디오를 획득하기 위한 것이다.

본 실시예는 기준 얼굴 이미지에 대해 인코딩 처리를 수행하는 것을 통해 기준 얼굴 이미지 중 타깃 인물의 얼굴 무늬 데이터를 획득할 수 있고, 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하는 것을 통해 얼굴 마스크를 획득할 수 있으며, 다음 얼굴 무늬 데이터 및 얼굴 마스크에 대해 융합 처리, 인코딩 처리를 수행하는 것을 통해 타깃 이미지를 획득할 수 있으므로, 임의의 타깃 인물의 얼굴 포즈를 변경하는 것을 구현한다.

일부 실시예에 있어서, 본 발명의 실시예에서 제공한 장치가 갖고 있는 기능 또는 포함하는 모듈은 전술한 방법 실시예에서 설명한 방법을 실행하는데 사용될 수 있고, 그 구체적인 구현은 전술한 방법 실시예의 설명을 참조할 수 있으며, 간결함을 위해, 여기서 더이상 반복하여 설명하지 않는다.

도 13은 본 발명의 실시예에서 제공한 이미지 처리 장치의 하드웨어 구조 예시도이다. 상기 이미지 처리 장치(2)는 프로세서(21) 및 메모리(22)를 포함한다. 선택적으로, 상기 이미지 처리 장치(2)는 또한, 입력 장치(23), 출력 장치(24)를 포함할 수 있다. 상기 프로세서(21), 메모리(22), 입력 장치(23) 및 출력 장치(24)는 커넥터를 통해 서로 커플링되고, 상기 커넥터는 각 타입의 인터페이스, 전송 라인 또는 버스 등을 포함하며, 본 발명의 실시예는 이에 대해 한정하지 않는다. 이해해야 할 것은, 본 발명의 각 실시예에 있어서, 커플링은 특정한 방식을 통한 상호 연결을 가리키고, 직접 연결 또는 다른 기기를 통한 간접 연결을 포함하며, 예를 들어 각 타입의 인터페이스, 전송 라인, 버스 등을 통해 연결할 수 있다.

프로세서(21)는 하나 또는 복수 개의 그래픽 처리 장치(Graphics Processing Unit, GPU)일 수 있고, 프로세서(21)가 하나의 GPU일 경우, 상기 GPU는 단일 코어 GPU일 수 있고, 다중 코어 GPU일 수도 있다. 선택적으로, 프로세서(21)는 복수 개의 GPU로 구성된 프로세서 그룹일 수 있고, 복수 개의 프로세서 사이는 하나 또는 복수 개의 버스를 통해 서로 커플링된다. 선택적으로, 상기 프로세서는 또한 다른 타입의 프로세서 등일 수 있고, 본 발명의 실시예는 한정하지 않는다. 메모리(22)는 컴퓨터 프로그램 명령어 및 본 발명의 방안의 프로그램 코드를 포함하는 각 타입의 컴퓨터 프로그램 코드를 저장하는데 사용될 수 있다. 선택적으로, 메모리는 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read-Only Memory, ROM), 제거 가능한 프로그래머블 판독 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 또는 시디 롬(Compact Disc Read-Only Memory, CD-ROM)을 포함하지만 이에 한정되지 않으며, 상기 메모리는 관련 명령어 및 데이터를 저장하기 위한 것이다. 입력 장치(23)는 데이터 및 신호 중 적어도 하나를 입력하기 위한 것이고, 출력 장치(24)는 데이터 및 신호 중 적어도 하나를 출력하기 위한 것이다. 출력 장치(23) 및 입력 장치(24)는 독립적인 장치일 수 있고, 하나의 완전한 장치일 수도 있다.

이해할 수 있는 것은, 본 발명의 실시예에서, 메모리(22)는 연관된 명령어를 저장하는데 사용될 수 있을 뿐만 아니라, 또한 연관된 이미지를 저장하는데 사용될 수 있으며, 예를 들어 상기 메모리(22)는 입력 장치(23)를 통해 획득된 기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 저장하는데 사용될 수 있고, 또는 상기 메모리(22)는 또한 프로세서(21)를 통해 검색하여 획득된 타깃 이미지 등을 저장하는데 사용될 수 있으며, 본 발명의 실시예는 상기 메모리에 구체적으로 저장된 데이터를 한정하지 않는다. 이해할 수 있는 것은, 도 13은 다만 이미지 처리 장치의 간략화 설계를 도시할 뿐이다. 실제 응용에서, 이미지 처리 장치는 또한 필요한 다른 부품을 각각 포함할 수 있고, 임의의 개수의 입력/출력 장치, 프로세서, 메모리 등을 포함하지만 이에 한정되지 않으며, 본 발명의 실시예를 구현 가능한 모든 이미지 처리 장치는 본 발명의 보호 범위 내에 모두 속한다.

본 발명의 실시예는 프로세서를 더 제공하고, 상기 프로세서는 상기 이미지 처리 방법을 실행하기 위한 것이다.

본 발명의 실시예는 또한 전자 기기를 제공하고, 프로세서; 및 프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하며; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령어를 호출하여, 상기 이미지 처리 방법을 실행하도록 구성된다.

본 발명의 실시예는 또한 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 경우 상기 이미지 처리 방법을 구현한다. 컴퓨터 판독 가능한 저장 매체는 휘발성 컴퓨터 판독 가능한 저장 매체 또는 비휘발성 컴퓨터 판독 가능한 저장 매체일 수 있다.

본 발명의 실시예는 또한 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하고, 컴퓨터 판독 가능한 코드가 기기에서 작동될 경우, 기기에서의 프로세서는 전술한 어느 한 실시예에서 제공한 이미지 처리 방법을 구현하기 위한 명령어를 실행한다.

본 발명의 실시예는 또한 컴퓨터 판독 가능한 명령어를 저장하기 위한 다른 컴퓨터 프로그램 제품을 제공하고, 명령어가 실행될 경우 컴퓨터가 전술한 어느 한 실시예에서 제공한 이미지 처리 방법의 동작을 실행하도록 한다.

본 기술분야의 통상의 기술자는 본 명세서에서 개시된 실시예에서 설명한 각 예시적 유닛 및 알고리즘 단계를 결합하여, 전자 하드웨어 또는 컴퓨터 소프트웨어와 전자 하드웨어의 결합으로 구현될 수 있음을 이해할 것이다. 이러한 기능이 하드웨어 형태로 실행될지 아니면 소프트웨어 형태로 실행될지는 기술 방안의 특정 응용 및 설계 제약 조건에 따라 결정된다. 전문 기술자는 각 특정 응용에 대해 상이한 방법을 사용하여 설명된 기능을 구현할 수 있으나, 이러한 구현은 본 발명의 범위를 벗어나는 것으로 간주되어서는 안된다.

본 기술분야의 통상의 기술자는 설명의 편의 및 간결함을 위해, 상기 설명된 시스템, 장치 및 유닛의 구체적인 동작 과정이, 전술된 방법 실시예 중 대응되는 과정을 참조할 수 있음을 이해할 수 있으며, 여기서 반복적으로 설명하지 않는다. 본 기술분야의 통상의 기술자는 또한, 본 발명의 각 실시예의 설명은 그 자체에 초점을 두고 있으며, 설명의 편의와 간편함을 위해, 동일하거나 유사한 부분은 상이한 실시예에서 반복하여 설명하지 않았으므로, 특정한 실시예에서 설명하지 않았거나 상세하게 설명되지 않은 부분은 다른 실시예의 기재를 참조할 수 있음을 명백하게 이해할 수 있을 것이다.

본 발명에서 제공된 몇 개의 실시예에 있어서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 한다. 전술된 장치 실시예는 다만 예시적이며, 예를 들어, 상기 유닛에 대한 분할은 다만 논리적 기능 분할이고, 실제로 구현될 경우 다른 분할 방식이 있을 수 있으며, 예를 들어 복수 개의 유닛 또는 컴포넌트는 다른 시스템에 결합되거나 통합될 수 있거나, 일부 특징을 무시하거나 실행하지 않을 수 있다. 또한, 나타내거나 논의된 상호간의 결합 또는 직접 결합 또는 통신 연결은, 일부 인터페이스를 통해 구현되며, 장치 또는 유닛을 통한 간접 결합 또는 통신 연결은, 전기, 기계 또는 다른 형태일 수 있다.

상기 분리 부재로서 설명된 유닛은, 물리적으로 분리된 것이거나 아닐 수 있고, 유닛으로서 나타낸 부재는 물리적 유닛이거나 아닐 수 있고, 즉 한 곳에 위치할 수 있거나, 복수 개의 네트워크 유닛에 분포될 수도 있다. 실제 필요에 따라 유닛의 일부 또는 전부를 선택하여 본 실시예 방안의 목적을 구현할 수 있다.

또한, 본 발명의 각 실시예에서의 각 기능 유닛은 하나의 처리 유닛에 통합될 수 있고, 각 유닛이 독립적인 물리적 존재일 수도 있고, 두 개 또는 두 개 이상의 유닛이 한 유닛에 통합될 수도 있다.

상기 실시예에서, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합을 통해 전체적으로 또는 부분적으로 구현할 수 있다. 소프트웨어로 구현될 경우, 컴퓨터 프로그램 제품의 형태로 전체적으로 또는 부분적으로 구현될 수 있다. 상기 컴퓨터 프로그램 제품은 하나 또는 복수 개의 컴퓨터 명령어를 포함한다. 컴퓨터에서 상기 컴퓨터 프로그램 명령어가 로딩 및 실행될 경우, 본 발명의 실시예에 따라 설명된 프로세스 또는 기능은 전체적으로 또는 부분적으로 생성된다. 상기 컴퓨터는 범용 컴퓨터, 특수 목적 컴퓨터, 컴퓨터 네트워크 또는 다른 프로그래머블 장치일 수 있다. 상기 컴퓨터 명령어는 컴퓨터 판독 가능한 저장 매체에 저장될 수 있거나, 상기 컴퓨터 판독 가능한 저장 매체를 통해 전송될 수 있다. 상기 컴퓨터 명령어는 하나의 웹 사이트, 컴퓨터, 서버 또는 데이터 센터에서 유선(예를 들어, 동축 케이블, 광섬유, 디지털 가입자 회선(Digital Subscriber Line, DSL)) 또는 무선(예를 들어 적외선, 무선, 마이크로파 등) 형태로 다른 웹 사이트, 컴퓨터, 서버 또는 데이터 센터로 전송될 수 있다. 상기 컴퓨터 판독 가능한 저장 매체는 컴퓨터가 액세스 가능한 임의의 사용 가능한 매체 또는 하나 또는 복수 개의 사용 가능한 매체로 통합된 서버, 데이터 센터 등을 포함하는 데이터 저장 기기일 수 있다. 상기 사용 가능한 매체는 자기 매체(예를 들어, 플로피 디스크, 하드 디스크, 자기 테이프), 광학 매체(예를 들어, 디지털 범용 디스크(Digital Versatile Disc, DVD)), 또는 반도체 매체(예를 들어, 솔리드 스테이트 디스크(Solid State Disk, SSD)) 등일 수 있다.

본 기술분야의 통상의 기술자는 상기 실시예 방법에서의 전부 또는 일부 플로우를 구현하는 것을 이해할 수 있고, 상기 플로우는 컴퓨터 프로그램의 명령어와 관련된 하드웨어를 통해 완료될 수 있고, 상기 프로그램은 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 경우, 상기 각 방법 실시예와 같은 플로우를 포함할 수 있다. 전술한 저장 매체는 휘발성 저장 매체 또는 비휘발성 저장 매체일 수 있고, 상기 저장 매체는, 판독 전용 메모리(read-only memory, ROM) 또는 랜덤 액세스 메모리(random access memory, RAM), 자기 디스크 또는 광 디스크 등 다양한 프로그램 코드를 저장 가능한 매체를 포함한다.

Claims

이미지 처리 방법으로서,
기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 획득하는 단계;
상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하고, 상기 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 상기 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하는 단계; 및
상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제1항에 있어서,
상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하는 단계는,
상기 얼굴 무늬 데이터에 대해 디코딩 처리를 수행하여, 제1 얼굴 무늬 데이터를 획득하는 단계; 및
상기 제1 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 n 레벨의 타깃 처리를 수행하여, 상기 타깃 이미지를 획득하는 단계 - 상기 n 레벨의 타깃 처리는 제m-1 레벨의 타깃 처리 및 제m 레벨의 타깃 처리를 포함하고, 상기 n 레벨의 타깃 처리에서의 제1 레벨의 타깃 처리의 입력 데이터는 상기 얼굴 무늬 데이터이며, 상기 제m-1 레벨의 타깃 처리의 출력 데이터는 상기 제m 레벨의 타깃 처리의 입력 데이터이며, 상기 n 레벨의 타깃 처리에서의 제i 레벨의 타깃 처리는 상기 제i 레벨의 타깃 처리의 입력 데이터 및 상기 제1 얼굴 마스크의 사이즈를 조정 후 획득된 데이터에 대한 순차적인 융합 처리 및 디코딩 처리를 포함하며, 상기 n은 2보다 크거나 같은 양의 정수이며, 상기 m은 2보다 크거나 같고 상기 n보다 작거나 같은 양의 정수이며, 상기 i는 1보다 크거나 같고 상기 n보다 작거나 같은 양의 정수임 - 를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제2항에 있어서,
상기 제i 레벨의 타깃 처리의 입력 데이터 및 상기 제1 얼굴 마스크의 사이즈를 조정한 후 획득된 데이터에 대해 순차적으로 융합 처리 및 디코딩 처리를 수행하는 단계는,
상기 제i 레벨의 타깃 처리의 입력 데이터에 따라, 상기 제i 레벨의 타깃 처리의 융합된 데이터를 획득하는 단계;
상기 제i 레벨의 타깃 처리의 융합된 데이터 및 제i 레벨의 얼굴 마스크에 대해 융합 처리를 수행하여, 제i 레벨의 융합된 데이터를 획득하는 단계 - 상기 제i 레벨의 얼굴 마스크는 상기 제1 얼굴 마스크에 대해 다운 샘플링 처리를 수행하는 것을 통해 획득되고, 상기 제i 레벨의 얼굴 마스크의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일함 - ; 및
상기 제i 레벨의 융합된 데이터에 대해 디코딩 처리를 수행하여, 상기 제i 레벨의 타깃 처리의 출력 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제3항에 있어서,
상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득한 후, 상기 이미지 처리 방법은,
상기 얼굴 무늬 데이터에 대해 j 레벨의 디코딩 처리를 수행하는 단계 - 상기 j 레벨의 디코딩 처리에서의 제1 레벨의 디코딩 처리의 입력 데이터는 상기 얼굴 무늬 데이터이고, 상기 j 레벨의 디코딩 처리는 제k-1 레벨의 디코딩 처리 및 제k 레벨의 디코딩 처리를 포함하며, 상기 제k-1 레벨의 디코딩 처리의 출력 데이터는 상기 제k 레벨의 디코딩 처리의 입력 데이터이며, 상기 j는 2보다 크거나 같은 양의 정수이며, 상기 k는 2보다 크거나 같고 상기 j보다 작거나 같은 양의 정수임 - 를 더 포함하고;
상기 제i 레벨의 타깃 처리의 입력 데이터에 따라, 상기 제i 레벨의 타깃 처리의 융합된 데이터를 획득하는 단계는,
상기 제i 레벨의 타깃 처리의 융합된 데이터로서, 상기 j 레벨의 디코딩 처리에서의 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 병합하여, 제i 레벨의 병합된 데이터를 획득하는 단계 - 상기 제r 레벨의 디코딩 처리의 출력 데이터의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일하며, 상기 r은 1보다 크거나 같고 상기 j보다 작거나 같은 양의 정수임 - 를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제4항에 있어서,
상기 j 레벨의 디코딩 처리에서의 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 병합하여, 제i 레벨의 병합된 데이터를 획득하는 단계는,
상기 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 채널 차원에서 병합하여, 상기 제i 레벨의 병합된 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제4항 또는 제5항에 있어서,
상기 제r 레벨의 디코딩 처리는,
상기 제r 레벨의 디코딩 처리의 입력 데이터에 대해 순차적으로 활성화 처리, 디컨볼루션 처리, 정규화 처리를 수행하여, 상기 제r 레벨의 디코딩 처리의 출력 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제3항 내지 제6항 중 어느 한 항에 있어서,
상기 제i 레벨의 타깃 처리의 융합된 데이터 및 상기 제i 레벨의 얼굴 마스크에 대해 융합 처리를 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하는 단계는,
제1 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제1 특징 데이터를 획득하고, 제2 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제2 특징 데이터를 획득하는 단계;
상기 제1 특징 데이터 및 상기 제2 특징 데이터에 따라 정규화 형태를 결정하는 단계; 및
상기 정규화 형태에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 정규화 처리를 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제7항에 있어서,
상기 정규화 형태는 타깃 아핀 변환을 포함하고;
상기 정규화 형태에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 정규화 처리를 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하는 단계는,
상기 타깃 아핀 변환에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 아핀 변환을 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제1항에 있어서,
상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하는 단계는,
상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 융합 처리를 수행하여, 타깃 융합 데이터를 획득하는 단계; 및
상기 타깃 융합 데이터에 대해 디코딩 처리를 수행하여, 상기 타깃 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하는 단계는,
다중 계층 인코딩층을 통해 상기 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하여, 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하는 단계 - 상기 다중 계층 인코딩층은 s 번째 층의 인코딩층 및 s+1 번째 층의 인코딩층을 포함하며, 상기 다중 계층 인코딩층에서의 첫 번째 층의 인코딩층의 입력 데이터는 상기 기준 얼굴 이미지이며, 상기 s 번째 층의 인코딩층의 출력 데이터는 상기 s+1 번째 층의 인코딩층의 입력 데이터이며, 상기 s는 1보다 크거나 같은 양의 정수임 - 를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제10항에 있어서,
상기 다중 계층 인코딩층에서의 각 층의 인코딩층은, 컨볼루션 처리층, 정규화 처리층, 활성화 처리층을 포함하는 것을 특징으로 하는 이미지 처리 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 이미지 처리 방법은,
각각 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여, 상기 기준 얼굴 이미지의 제2 얼굴 마스크 및 상기 타깃 이미지의 제3 얼굴 마스크를 획득하는 단계;
상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 사이의 픽셀값의 차이에 따라, 제4 얼굴 마스크를 결정하는 단계 - 상기 기준 얼굴 이미지에서의 제1 픽셀 포인트의 픽셀값과 상기 타깃 이미지에서의 제2 픽셀 포인트의 픽셀값 사이의 차이는 상기 제4 얼굴 마스크에서의 제3 픽셀 포인트의 값과 양의 상관 관계를 구비하며, 상기 제1 픽셀 포인트가 상기 기준 얼굴 이미지에서의 위치, 상기 제2 픽셀 포인트가 상기 타깃 이미지에서의 위치 및 상기 제3 픽셀 포인트가 상기 제4 얼굴 마스크에서의 위치는 동일함 - ; 및
상기 제4 얼굴 마스크, 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 융합 처리를 수행하여, 새로운 타깃 이미지를 획득하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
제12항에 있어서,
상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 사이의 픽셀값의 차이에 따라, 제4 얼굴 마스크를 결정하는 단계는,
상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 평균값, 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 분산에 따라, 아핀 변환 형태를 결정하는 단계; 및
상기 아핀 변환 형태에 따라 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크에 대해 아핀 변환을 수행하여, 상기 제4 얼굴 마스크를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제1항 내지 제13항 중 어느 한 항에 있어서,
상기 방법은 얼굴 생성 네트워크에 적용되고;
상기 얼굴 생성 네트워크의 훈련 과정은,
훈련 샘플을 상기 얼굴 생성 네트워크에 입력하여, 상기 훈련 샘플의 제1 생성 이미지 및 상기 훈련 샘플의 제1 재구축 이미지를 획득하는 단계 - 상기 훈련 샘플은 샘플 얼굴 이미지 및 제1 샘플 얼굴 포즈 이미지를 포함하고, 상기 제1 재구축 이미지는 상기 샘플 얼굴 이미지를 인코딩한 후 디코딩 처리를 수행하는 것을 통해 획득됨 - ;
상기 샘플 얼굴 이미지 및 상기 제1 생성 이미지의 얼굴 특징 매칭도에 따라 제1 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지에서의 얼굴 무늬 정보 및 상기 제1 생성 이미지에서의 얼굴 무늬 정보의 차이에 따라 제2 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제4 픽셀 포인트의 픽셀값 및 상기 제1 생성 이미지 중 제5 픽셀 포인트의 픽셀값의 차이에 따라 제3 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제6 픽셀 포인트의 픽셀값 및 상기 제1 재구축 이미지 중 제7 픽셀 포인트의 픽셀값의 차이에 따라 제4 손실을 획득하는 단계; 상기 제1 생성 이미지의 진실도에 따라 제5 손실을 획득하는 단계 - 상기 제4 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제5 픽셀 포인트가 상기 제1 생성 이미지에서의 위치는 동일하고, 상기 제6 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제7 픽셀 포인트가 상기 제1 재구축 이미지에서의 위치는 동일하며, 상기 제1 생성 이미지의 진실도가 높을 수록 상기 제1 생성 이미지가 실제 이미지인 확률이 높음을 나타냄 - ;
상기 제1 손실, 상기 제2 손실, 상기 제3 손실, 상기 제4 손실 및 상기 제5 손실에 따라, 상기 얼굴 생성 네트워크의 제1 네트워크 손실을 획득하는 단계; 및
상기 제1 네트워크 손실에 기반하여 상기 얼굴 생성 네트워크의 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제14항에 있어서,
상기 훈련 샘플은 제2 샘플 얼굴 포즈 이미지를 더 포함하고; 상기 제2 샘플 얼굴 포즈 이미지는 상기 제2 샘플 얼굴 이미지에 랜덤 섭동을 추가하여 상기 제2 샘플 이미지의 오관 위치 및 얼굴 윤곽 위치 중 적어도 하나를 변경하는 것을 통해 획득되며;
상기 얼굴 생성 네트워크의 훈련 과정은,
상기 제2 샘플 얼굴 이미지 및 제2 샘플 얼굴 포즈 이미지를 상기 얼굴 생성 네트워크에 입력하여, 상기 훈련 샘플의 제2 생성 이미지 및 상기 훈련 샘플의 제2 재구축 이미지를 획득하는 단계 - 상기 제2 재구축 이미지는 상기 제2 샘플 얼굴 이미지를 인코딩한 후 디코딩 처리를 수행하는 것을 통해 획득됨 - ;
상기 제2 샘플 얼굴 이미지 및 상기 제2 생성 이미지의 얼굴 특징 매칭도에 따라 제6 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지에서의 얼굴 무늬 정보 및 상기 제2 생성 이미지에서의 얼굴 무늬 정보의 차이에 따라 제7 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지 중 제8 픽셀 포인트의 픽셀값 및 상기 제2 생성 이미지 중 제9 픽셀 포인트의 픽셀값의 차이에 따라 제8 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지 중 제10 픽셀 포인트의 픽셀값 및 상기 제2 재구축 이미지 중 제11 픽셀 포인트의 픽셀값의 차이에 따라 제9 손실을 획득하는 단계; 상기 제2 생성 이미지의 진실도에 따라 제10 손실을 획득하는 단계 - 상기 제8 픽셀 포인트가 상기 제2 샘플 얼굴 이미지에서의 위치 및 상기 제9 픽셀 포인트가 상기 제2 생성 이미지에서의 위치는 동일하며, 상기 제10 픽셀 포인트가 상기 제2 샘플 얼굴 이미지에서의 위치 및 상기 제11 픽셀 포인트가 상기 제2 재구축 이미지에서의 위치는 동일하며, 상기 제2 생성 이미지의 진실도가 높을 수록 상기 제2 생성 이미지가 실제 이미지인 확률이 높음을 나타냄 - ;
상기 제6 손실, 상기 제7 손실, 상기 제8 손실, 상기 제9 손실 및 상기 제10 손실에 따라, 상기 얼굴 생성 네트워크의 제2 네트워크 손실을 획득하는 단계; 및
상기 제2 네트워크 손실에 기반하여 상기 얼굴 생성 네트워크의 파라미터를 조정하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
제1항 내지 제15항 중 어느 한 항에 있어서,
상기 기준 얼굴 이미지 및 기준 포즈 이미지를 획득하는 단계는,
사용자가 단말에 입력한 처리될 얼굴 이미지를 수신하는 단계;
처리될 비디오를 획득하는 단계 - 상기 처리될 비디오는 얼굴을 포함함 - ; 및
상기 처리될 얼굴 이미지를 상기 기준 얼굴 이미지로 사용하고, 상기 처리될 비디오의 이미지를 상기 얼굴 포즈 이미지로 사용하여, 타깃 비디오를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
이미지 처리 장치로서,
기준 얼굴 이미지 및 기준 얼굴 포즈 이미지를 획득하기 위한 획득 유닛;
상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하고, 상기 기준 얼굴 포즈 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여 상기 얼굴 포즈 이미지의 제1 얼굴 마스크를 획득하기 위한 제1 처리 유닛; 및
상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 따라, 타깃 이미지를 획득하기 위한 제2 처리 유닛을 포함하는 것을 특징으로 하는 이미지 처리 장치.
제17항에 있어서,
상기 제2 처리 유닛은,
상기 얼굴 무늬 데이터에 대해 디코딩 처리를 수행하여, 제1 얼굴 무늬 데이터를 획득하고;
상기 제1 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 n 레벨의 타깃 처리를 수행하여, 상기 타깃 이미지를 획득하기 위한 것이며; 상기 n 레벨의 타깃 처리는 제m-1 레벨의 타깃 처리 및 제m 레벨의 타깃 처리를 포함하고; 상기 n 레벨의 타깃 처리에서의 제1 레벨의 타깃 처리의 입력 데이터는 상기 얼굴 무늬 데이터이며; 상기 제m-1 레벨의 타깃 처리의 출력 데이터는 상기 제m 레벨의 타깃 처리의 입력 데이터이며; 상기 n 레벨의 타깃 처리에서의 제i 레벨의 타깃 처리는 상기 제i 레벨의 타깃 처리의 입력 데이터 및 상기 제1 얼굴 마스크의 사이즈를 조정 후 획득된 데이터에 대한 순차적인 융합 처리 및 디코딩 처리를 포함하며; 상기 n은 2보다 크거나 같은 양의 정수이며; 상기 m은 2보다 크거나 같고 상기 n보다 작거나 같은 양의 정수이며; 상기 i는 1보다 크거나 같고 상기 n보다 작거나 같은 양의 정수인 것을 특징으로 하는 이미지 처리 장치.
제18항에 있어서,
상기 제2 처리 유닛은,
상기 제i 레벨의 타깃 처리의 입력 데이터에 따라, 상기 제i 레벨의 타깃 처리의 융합된 데이터를 획득하고;
상기 제i 레벨의 타깃 처리의 융합된 데이터 및 제i 레벨의 얼굴 마스크에 대해 융합 처리를 수행하여, 제i 레벨의 융합된 데이터를 획득하며 - 상기 제i 레벨의 얼굴 마스크는 상기 제1 얼굴 마스크에 대해 다운 샘플링 처리를 수행하는 것을 통해 획득되고, 상기 제i 레벨의 얼굴 마스크의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일함 - ;
상기 제i 레벨의 융합된 데이터에 대해 디코딩 처리를 수행하여, 상기 제i 레벨의 타깃 처리의 출력 데이터를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
제19항에 있어서,
상기 이미지 처리 장치는,
상기 기준 얼굴 이미지에 대해 인코딩 처리를 수행하여 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득한 후, 상기 얼굴 무늬 데이터에 대해 j 레벨의 디코딩 처리를 수행하기 위한 디코딩 처리 유닛 - 상기 j 레벨의 디코딩 처리에서의 제1 레벨의 디코딩 처리의 입력 데이터는 상기 얼굴 무늬 데이터이고, 상기 j 레벨의 디코딩 처리는 제k-1 레벨의 디코딩 처리 및 제k 레벨의 디코딩 처리를 포함하며, 상기 제k-1 레벨의 디코딩 처리의 출력 데이터는 상기 제k 레벨의 디코딩 처리의 입력 데이터이며, 상기 j는 2보다 크거나 같은 양의 정수이며, 상기 k는 2보다 크거나 같고 상기 j보다 작거나 같은 양의 정수임 - ; 및
상기 제i 레벨의 타깃 처리의 융합된 데이터로서, 상기 j 레벨의 디코딩 처리에서의 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 병합하여, 제i 레벨의 병합된 데이터를 획득하기 위한 상기 제2 처리 유닛 - 상기 제r 레벨의 디코딩 처리의 출력 데이터의 사이즈와 상기 제i 레벨의 타깃 처리의 입력 데이터의 사이즈는 동일하며, 상기 r은 1보다 크거나 같고 상기 j보다 작거나 같은 양의 정수임 - 을 더 포함하는 것을 특징으로 하는 이미지 처리 장치.
제20항에 있어서,
상기 제2 처리 유닛은,
상기 제r 레벨의 디코딩 처리의 출력 데이터와 상기 제i 레벨의 타깃 처리의 입력 데이터를 채널 차원에서 병합하여, 상기 제i 레벨의 병합된 데이터를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
제20항 또는 제21항에 있어서,
상기 제r 레벨의 디코딩 처리는,
상기 제r 레벨의 디코딩 처리의 입력 데이터에 대해 순차적으로 활성화 처리, 디컨볼루션 처리, 정규화 처리를 수행하여, 상기 제r 레벨의 디코딩 처리의 출력 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 장치.
제19항 내지 제22항 중 어느 한 항에 있어서,
상기 제2 처리 유닛은,
제1 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제1 특징 데이터를 획득하고, 제2 소정 사이즈의 컨볼루션 코어를 사용하여 상기 제i 레벨의 얼굴 마스크에 대해 컨볼루션 처리를 수행하여 제2 특징 데이터를 획득하며;
상기 제1 특징 데이터 및 상기 제2 특징 데이터에 따라 정규화 형태를 결정하며;
상기 정규화 형태에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 정규화 처리를 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
제23항에 있어서,
상기 정규화 형태는 타깃 아핀 변환을 포함하고;
상기 제2 처리 유닛은, 상기 타깃 아핀 변환에 따라 상기 제i 레벨의 타깃 처리의 융합된 데이터에 대해 아핀 변환을 수행하여, 상기 제i 레벨의 융합된 데이터를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
제17항에 있어서,
상기 제2 처리 유닛은,
상기 얼굴 무늬 데이터 및 상기 제1 얼굴 마스크에 대해 융합 처리를 수행하여, 타깃 융합 데이터를 획득하고;
상기 타깃 융합 데이터에 대해 디코딩 처리를 수행하여, 상기 타깃 이미지를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
제17항 내지 제25항 중 어느 한 항에 있어서,
상기 제1 처리 유닛은,
다중 계층 인코딩층을 통해 상기 기준 얼굴 이미지에 대해 단계적인 인코딩 처리를 수행하여, 상기 기준 얼굴 이미지의 얼굴 무늬 데이터를 획득하기 위한 것이고; 상기 다중 계층 인코딩층은 s 번째 층의 인코딩층 및 s+1 번째 층의 인코딩층을 포함하며; 상기 다중 계층 인코딩층에서의 첫 번째 층의 인코딩층의 입력 데이터는 상기 기준 얼굴 이미지이며; 상기 s 번째 층의 인코딩층의 출력 데이터는 상기 s+1 번째 층의 인코딩층의 입력 데이터이며; 상기 s는 1보다 크거나 같은 양의 정수인 것을 특징으로 하는 이미지 처리 장치.
제26항에 있어서,
상기 다중 계층 인코딩층에서의 각 층의 인코딩층은, 컨볼루션 처리층, 정규화 처리층, 활성화 처리층을 포함하는 것을 특징으로 하는 이미지 처리 장치.
제17항 내지 제27항 중 어느 한 항에 있어서,
상기 이미지 처리 장치는,
각각 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 얼굴 키 포인트 추출 처리를 수행하여, 상기 기준 얼굴 이미지의 제2 얼굴 마스크 및 상기 타깃 이미지의 제3 얼굴 마스크를 획득하기 위한 얼굴 키 포인트 추출 처리 유닛;
상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 사이의 픽셀값의 차이에 따라, 제4 얼굴 마스크를 결정하기 위한 결정 유닛 - 상기 기준 얼굴 이미지에서의 제1 픽셀 포인트의 픽셀값과 상기 타깃 이미지에서의 제2 픽셀 포인트의 픽셀값 사이의 차이는 상기 제4 얼굴 마스크에서의 제3 픽셀 포인트의 값과 양의 상관 관계를 구비하며, 상기 제1 픽셀 포인트가 상기 기준 얼굴 이미지에서의 위치, 상기 제2 픽셀 포인트가 상기 타깃 이미지에서의 위치 및 상기 제3 픽셀 포인트가 상기 제4 얼굴 마스크에서의 위치는 동일함 - ; 및
상기 제4 얼굴 마스크, 상기 기준 얼굴 이미지 및 상기 타깃 이미지에 대해 융합 처리를 수행하여, 새로운 타깃 이미지를 획득하기 위한 융합 처리 유닛을 더 포함하는 것을 특징으로 하는 이미지 처리 장치.
제28항에 있어서,
상기 결정 유닛은,
상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 평균값, 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크 중 동일 위치의 픽셀 포인트의 픽셀값 사이의 분산에 따라, 아핀 변환 형태를 결정하고;
상기 아핀 변환 형태에 따라 상기 제2 얼굴 마스크 및 상기 제3 얼굴 마스크에 대해 아핀 변환을 수행하여, 상기 제4 얼굴 마스크를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
제17항 내지 제29항 중 어느 한 항에 있어서,
상기 이미지 처리 장치에 의해 실행된 이미지 처리 방법은 얼굴 생성 네트워크에 적용되며; 상기 이미지 처리 장치는 상기 얼굴 생성 네트워크 훈련 과정을 실행하기 위한 것이며;
상기 얼굴 생성 네트워크의 훈련 과정은,
훈련 샘플을 상기 얼굴 생성 네트워크에 입력하여, 상기 훈련 샘플의 제1 생성 이미지 및 상기 훈련 샘플의 제1 재구축 이미지를 획득하는 단계 - 상기 훈련 샘플은 샘플 얼굴 이미지 및 제1 샘플 얼굴 포즈 이미지를 포함하고, 상기 제1 재구축 이미지는 상기 샘플 얼굴 이미지를 인코딩한 후 디코딩 처리를 수행하는 것을 통해 획득됨 - ;
상기 샘플 얼굴 이미지 및 상기 제1 생성 이미지의 얼굴 특징 매칭도에 따라 제1 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지에서의 얼굴 무늬 정보 및 상기 제1 생성 이미지에서의 얼굴 무늬 정보의 차이에 따라 제2 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제4 픽셀 포인트의 픽셀값 및 상기 제1 생성 이미지 중 제5 픽셀 포인트의 픽셀값의 차이에 따라 제3 손실을 획득하는 단계; 상기 제1 샘플 얼굴 이미지 중 제6 픽셀 포인트의 픽셀값 및 상기 제1 재구축 이미지 중 제7 픽셀 포인트의 픽셀값의 차이에 따라 제4 손실을 획득하는 단계; 상기 제1 생성 이미지의 진실도에 따라 제5 손실을 획득하는 단계 - 상기 제4 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제5 픽셀 포인트가 상기 제1 생성 이미지에서의 위치는 동일하고, 상기 제6 픽셀 포인트가 상기 제1 샘플 얼굴 이미지에서의 위치 및 상기 제7 픽셀 포인트가 상기 제1 재구축 이미지에서의 위치는 동일하며, 상기 제1 생성 이미지의 진실도가 높을 수록 상기 제1 생성 이미지가 실제 이미지인 확률이 높음을 나타냄 - ;
상기 제1 손실, 상기 제2 손실, 상기 제3 손실, 상기 제4 손실 및 상기 제5 손실에 따라, 상기 얼굴 생성 네트워크의 제1 네트워크 손실을 획득하는 단계; 및
상기 제1 네트워크 손실에 기반하여 상기 얼굴 생성 네트워크의 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 장치.
제30항에 있어서,
상기 훈련 샘플은 제2 샘플 얼굴 포즈 이미지를 더 포함하고; 상기 제2 샘플 얼굴 포즈 이미지는 상기 제2 샘플 얼굴 이미지에 랜덤 섭동을 추가하여 상기 제2 샘플 이미지의 오관 위치 및 얼굴 윤곽 위치 중 적어도 하나를 변경하는 것을 통해 획득되며;
상기 얼굴 생성 네트워크의 훈련 과정은,
상기 제2 샘플 얼굴 이미지 및 제2 샘플 얼굴 포즈 이미지를 상기 얼굴 생성 네트워크에 입력하여, 상기 훈련 샘플의 제2 생성 이미지 및 상기 훈련 샘플의 제2 재구축 이미지를 획득하는 단계 - 상기 제2 재구축 이미지는 상기 제2 샘플 얼굴 이미지를 인코딩한 후 디코딩 처리를 수행하는 것을 통해 획득됨 - ;
상기 제2 샘플 얼굴 이미지 및 상기 제2 생성 이미지의 얼굴 특징 매칭도에 따라 제6 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지에서의 얼굴 무늬 정보 및 상기 제2 생성 이미지에서의 얼굴 무늬 정보의 차이에 따라 제7 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지 중 제8 픽셀 포인트의 픽셀값 및 상기 제2 생성 이미지 중 제9 픽셀 포인트의 픽셀값의 차이에 따라 제8 손실을 획득하는 단계; 상기 제2 샘플 얼굴 이미지 중 제10 픽셀 포인트의 픽셀값 및 상기 제2 재구축 이미지 중 제11 픽셀 포인트의 픽셀값의 차이에 따라 제9 손실을 획득하는 단계; 상기 제2 생성 이미지의 진실도에 따라 제10 손실을 획득하는 단계 - 상기 제8 픽셀 포인트가 상기 제2 샘플 얼굴 이미지에서의 위치 및 상기 제9 픽셀 포인트가 상기 제2 생성 이미지에서의 위치는 동일하며, 상기 제10 픽셀 포인트가 상기 제2 샘플 얼굴 이미지에서의 위치 및 상기 제11 픽셀 포인트가 상기 제2 재구축 이미지에서의 위치는 동일하며, 상기 제2 생성 이미지의 진실도가 높을 수록 상기 제2 생성 이미지가 실제 이미지인 확률이 높음을 나타냄 - ;
상기 제6 손실, 상기 제7 손실, 상기 제8 손실, 상기 제9 손실 및 상기 제10 손실에 따라, 상기 얼굴 생성 네트워크의 제2 네트워크 손실을 획득하는 단계; 및
상기 제2 네트워크 손실에 기반하여 상기 얼굴 생성 네트워크의 파라미터를 조정하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 장치.
제17항 내지 제31항 중 어느 한 항에 있어서,
상기 획득 유닛은,
사용자가 단말에 입력한 처리될 얼굴 이미지를 수신하고;
처리될 비디오를 획득하며 - 상기 처리될 비디오는 얼굴을 포함함 - ;
상기 처리될 얼굴 이미지를 상기 기준 얼굴 이미지로 사용하고, 상기 처리될 비디오의 이미지를 상기 얼굴 포즈 이미지로 사용하여, 타깃 비디오를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
프로세서로서,
상기 프로세서는 제1항 내지 제16항 중 어느 한 항에 따른 이미지 처리 방법을 실행하기 위한 것임을 특징으로 하는 프로세서.
전자 기기로서,
프로세서 및 메모리를 포함하고, 상기 메모리는 컴퓨터 프로그램 코드를 저장하기 위한 것이며, 상기 컴퓨터 프로그램 코드는 컴퓨터 명령어를 포함하며, 상기 프로세서가 상기 컴퓨터 명령어를 실행할 경우, 상기 전자 기기는 제1항 내지 제16항 중 어느 한 항에 따른 이미지 처리 방법을 실행하는 것을 특징으로 하는 전자 기기.
컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 프로그램 명령어를 포함하며, 상기 프로그램 명령어가 전자 기기의 프로세서에 의해 실행될 경우, 상기 프로세서가 제1항 내지 제16항 중 어느 한 항에 따른 이미지 처리 방법을 실행하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
컴퓨터 프로그램으로서,
컴퓨터 판독 가능한 코드를 포함하고, 상기 컴퓨터 판독 가능한 코드는 전자 기기에서 작동될 경우, 상기 전자 기기에서의 프로세서는 제1항 내지 제16항 중 어느 한 항에 따른 이미지 처리 방법을 실행하는 것을 특징으로 하는 컴퓨터 프로그램.