KR102353837B1

KR102353837B1 - 고해상도 얼굴 영상 복원 방법 및 장치

Info

Publication number: KR102353837B1
Application number: KR1020200066459A
Authority: KR
Inventors: 박인규; 윤정언
Original assignee: 인하대학교 산학협력단
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2022-01-20
Also published as: KR20210149426A

Abstract

고해상도 얼굴 영상 복원 방법 및 장치가 제시된다. 일 실시예에 따른 컴퓨터로 구현된 고해상도 얼굴 영상 복원 장치를 이용한 고해상도 얼굴 영상 복원 방법은, 저화질의 얼굴 영상을 입력 받는 단계; 및 입력 받은 상기 저화질의 얼굴 영상을 CNN(Convolutional Neural Network)의 생성자를 통해 블러(blur)가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성하여, 블러와 저해상도가 동시에 존재하는 얼굴 영상을 고해상도 얼굴 영상으로 복원하는 단계를 포함하여 이루어질 수 있다.

Description

고해상도 얼굴 영상 복원 방법 및 장치{METHOD AND APPARATUS FOR RESTORING HIGH RESOLUTION FACIAL IMAGE}

아래의 실시예들은 고해상도 얼굴 영상 복원 방법 및 장치에 관한 것으로, 더욱 상세하게는 저해상도와 블러(blur)가 복합적으로 존재하는 얼굴 영상에 대해 GAN(Generative Adversarial Network) 기반의 고해상도 얼굴 영상 복원 방법 및 장치에 관한 것이다.

2D 영상 내 랜드마크 추정 혹은 얼굴 정렬과 같은 얼굴 영상 분석과 3차원 얼굴 복원을 위한 저해상도 얼굴 영상에서 고해상도 얼굴 영상으로의 복원에 대해 다양한 기법들이 연구되어 왔다. 특히, 최근 CNN(Convolutional Neural Network)의 발전으로 저해상도 영상과 고해상도 영상의 쌍을 이용하여 매핑 관계를 학습하여 우수한 성능을 보였다.

하지만, CNN을 이용한 고해상도 영상 복원 결과는 PSNR(Peak Signal-to-Noise Ratio) 및 SSIM(Structural Similarity Index Map)을 높이는 것을 목표로 하였기 때문에 복원 영상이 현실적이지 않고 2배 혹은 4배의 공간 해상도 복원에 연구가 집중되어 있는 단점이 있다. 또한, 실제 저화질 영상은 블러를 같이 갖고 있다.

L. Ziwei and L. Ping and W. Xiaogang and T. Xiaoou, "Deep learning face attributes in the wild," Proc. of IEEE International Conference on Computer Vision, 2015. G. Dong, et al., "From motion blur to motion flow: a deep learning solution for removing heterogeneous motion blur," Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2017. L. Christian et al., "Photo-realistic single image super-resolution using a generative adversarial network," Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2017. C. Yu et al., "Fsrnet: End-to-end learning face super-resolution with facial priors," Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2018. S. Karen and Z. Andrew, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.

실시예들은 고해상도 얼굴 영상 복원 방법 및 장치에 관하여 기술하며, 보다 구체적으로 블러가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성함으로써, 블러와 저해상도가 복합적으로 있는 얼굴 영상을 고해상도 얼굴 영상으로 복원하는 고해상도 얼굴 영상 복원 방법 및 장치를 제공하는데 있다.

또한, 실시예들은 전역적 구별자와 지역적 구별자를 사용함으로써 생성된 고해상도 얼굴 영상이 통계적 일관성을 갖고 현실적인 얼굴 구조를 갖도록 하는 고해상도 얼굴 영상 복원 방법 및 장치를 제공하는데 있다.

일 실시예에 따른 컴퓨터로 구현된 고해상도 얼굴 영상 복원 장치를 이용한 고해상도 얼굴 영상 복원 방법은, 저화질의 얼굴 영상을 입력 받는 단계; 및 입력 받은 상기 저화질의 얼굴 영상을 CNN(Convolutional Neural Network)의 생성자를 통해 블러(blur)가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성하여, 블러와 저해상도가 동시에 존재하는 얼굴 영상을 고해상도 얼굴 영상으로 복원하는 단계를 포함하여 이루어질 수 있다.

입력 받은 상기 저화질의 얼굴 영상을 5층(layer)의 상기 CNN을 통해 특징 이미지(feature image)를 추출한 후, 추출된 상기 특징 이미지를 사용하여 상기 CNN을 훈련하는 단계를 더 포함하고, 구별자(discriminator)를 통해 상기 CNN의 입력 특징 이미지와 출력 특징 이미지를 비교하여 진실(real) 또는 거짓(fake)을 판단할 수 있다.

상기 고해상도 얼굴 영상으로 복원하는 단계는, 상기 고해상도 얼굴 영상을 얼굴 사전 정보로 알고 있는 얼굴 영역 마스크를 곱해 마스킹된 고해상도 영상을 구하는 단계; 및 GT 영상에 상기 얼굴 영역 마스크를 곱해 마스킹된 GT 영상을 구하는 단계를 포함할 수 있다.

상기 CNN을 훈련하는 단계는, 지역적 구별자(local discriminator) 및 전역적 구별자(global discriminator)를 사용하여 상기 CNN을 훈련하며, 상기 지역적 구별자는 상기 마스킹된 고해상도 얼굴 영상과 상기 마스킹된 GT 영상을 입력 받아 얼굴 영역의 특징을 강화하는 단계; 및 상기 전역적 구별자는 생성된 상기 고해상도 얼굴 영상과 상기 GT 영상에 각각 저화질 얼굴 영상을 결합하여 입력 받아 통계적 일관성을 갖도록 하는 단계를 포함할 수 있다.

상기 고해상도 얼굴 영상으로 복원하는 단계는, 픽셀 손실(pixel loss)을 이용하여 복원된 상기 고해상도 얼굴 영상과 상기 GT 영상의 모든 픽셀 값을 비교하여 복원된 상기 고해상도 얼굴 영상이 상기 GT 영상과 같도록 할 수 있다.

다른 실시예에 따른 고해상도 얼굴 영상 복원 장치는, 입력 받은 저화질의 얼굴 영상을 블러(blur)가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성하여, 블러와 저해상도가 동시에 존재하는 얼굴 영상을 고해상도 얼굴 영상으로 복원하는 CNN(Convolutional Neural Network) 기반의 생성자; 및 상기 CNN을 훈련하는 얼굴 영역의 특징을 강화하는 지역적 구별자(local discriminator) 및 통계적 일관성을 갖도록 하는 전역적 구별자(global discriminator)를 포함하는 구별자를 포함하여 이루어질 수 있다.

실시예들에 따르면 블러가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성함으로써, 블러와 저해상도가 복합적으로 있는 얼굴 영상을 고해상도 얼굴 영상으로 복원하는 고해상도 얼굴 영상 복원 방법 및 장치를 제공할 수 있다.

또한, 실시예들에 따르면 전역적 구별자와 지역적 구별자를 사용함으로써 생성된 고해상도 얼굴 영상이 통계적 일관성을 갖고 현실적인 얼굴 구조를 갖도록 하는 고해상도 얼굴 영상 복원 방법 및 장치를 제공할 수 있다.

도 1은 일 실시예에 따른 고해상도 얼굴 영상 복원 장치의 네트워크 구조를 나타내는 도면이다.
도 2는 일 실시예에 따른 고해상도 얼굴 영상 복원 방법을 나타내는 흐름도이다.
도 3은 일 실시예에 따른 훈련에 이용된 데이터 셋의 예시를 나타내는 도면이다.
도 4는 일 실시예에 따른 정성적 평가 결과의 예시를 나타내는 도면이다.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

아래의 실시예들은 저해상도와 블러(blur)가 복합적으로 존재하는 얼굴 영상에 대해 생성적 대립 신경망(Generative Adversarial Network, GAN) 기반의 새로운 고해상도 얼굴 영상 복원 네트워크를 제시한다. 제안하는 네트워크는 5층(layer)의 CNN(Convolutional Neural Network)을 이용하여 입력 영상의 공간 해상도를 8배 키우는 것을 포함하며, 얼굴 영역의 사전 정보, 두 갈래의 길을 갖도록 변형된 U-Net 구조의 생성자와 전역적 및 지역적 구분자를 사용할 수 있다. 변형된 U-Net 구조의 생성자로부터 블러가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성함으로써 저해상도와 블러가 복합적으로 있는 얼굴 영상에 대한 고해상도 영상을 복원할 수 있다.

도 1은 일 실시예에 따른 고해상도 얼굴 영상 복원 장치의 네트워크 구조를 나타내는 도면이다.

도 1을 참조하면, 일 실시예에 따른 고해상도 얼굴 영상 복원 장치(100)의 네트워크는 GAN 기반의 CNN을 이용할 수 있다. 변형된 네트워크는 하나의 변형된 U-Net 구조의 생성자(generator)(110)와 두 개의 구별자(discriminator)(121, 122)로 이루어질 수 있다.

일 실시예에 따른 고해상도 얼굴 영상 복원 장치(100)는, 입력 받은 저화질의 얼굴 영상을 블러(blur)가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성하여, 블러와 저해상도가 동시에 존재하는 얼굴 영상을 고해상도 얼굴 영상으로 복원하는 CNN(Convolutional Neural Network) 기반의 생성자(110), 및 CNN을 훈련하는 얼굴 영역의 특징을 강화하는 지역적 구별자(local discriminator)(121) 및 통계적 일관성을 갖도록 하는 전역적 구별자(global discriminator)(122)를 포함하는 구별자(121, 122)를 포함하여 이루어질 수 있다.

아래에서 일 실시예에 따른 고해상도 얼굴 영상 복원 장치(100)에 대해 보다 상세히 설명한다.

일 실시예에 따른 고해상도 얼굴 영상 복원 장치(100)는 하나의 생성자(110)와 두 개의 구별자(121, 122)로 이루어질 수 있다. 여기서, 구별자(121, 122)는 지역적 구별자(121) 및 전역적 구별자(122)를 포함할 수 있다. 이 때, 생성자(110), 지역적 구별자(121) 및 전역적 구별자(122)는 네트워크로 구성될 수 있고, 예컨대 CNN으로 구성될 수 있다. 한편, 일 실시예에 따른 고해상도 얼굴 영상 복원 장치(100)는 저화질의 얼굴 영상을 입력 받는 입력부를 더 포함할 수 있다.

입력 영상은 5층의 CNN을 통해 공간 해상도를 8배가 증가된 특징 맵이 생성되며, 이를 네트워크에 입력할 수 있다. 여기서, 네트워크는 CNN이 될 수 있다. 생성된 특징 맵은 인코더를 통과한 후 블러가 있는 고해상도 복원 가지와 블러가 없는 고해상도 복원 가지로 나누어지며, 지역적 구별자(121) 및 전역적 구별자(122)를 사용하여 훈련할 수 있다.

전역적 구별자(122)는 복원된 결과 영상 전체에 대해 실제 영상인지 생성된 영상인지 구별하며, 지역적 구별자(121)는 복원된 결과 영상의 얼굴 영역에 대해 실제 영상인지 생성된 영상인지 구별할 수 있다. 지역적 구별자(121)와 얼굴 영역 사전 정보 사용으로 얼굴 영역에 대한 고해상도 영상을 성공적으로 복원할 수 있다.

저화질과 블러는 기본적인 영상 열화이다. 저화질은 CCTV나 오래된 휴대전화로부터 취득한 영상을 예로 들 수 있다. 블러는 기본적인 영상 열화이며 노출 시간(exposure time) 동안의 카메라 혹은 객체의 움직임으로 인한 모션 블러나 초점 조절로 인한 블러(defocus blur)는 실제로 영상 취득 시 많이 일어나는 열화 현상이다. 저화질이면서 블러된 영상의 고해상도 복원을 통해 기존 영상에서는 불가능 했던 객체 검출(object detection)과 얼굴 인식(face recognition) 등이 가능하게 된다.

생성자(110)는 CNN 기반으로 구성되며, 입력 받은 저화질의 얼굴 영상을 블러(blur)가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성하여, 블러와 저해상도가 동시에 존재하는 얼굴 영상을 고해상도 얼굴 영상으로 복원할 수 있다. 또한, 생성자(110)는 고해상도 얼굴 영상을 얼굴 사전 정보로 알고 있는 얼굴 영역 마스크를 곱해 마스킹된 고해상도 영상을 구하고, GT 영상에 얼굴 영역 마스크를 곱해 마스킹된 GT 영상을 구할 수 있다. 그리고, 생성자(110)는 픽셀 손실(pixel loss)을 이용하여 복원된 고해상도 얼굴 영상과 GT 영상의 모든 픽셀 값을 비교하여 복원된 고해상도 얼굴 영상이 GT 영상과 같도록 할 수 있다.

보다 구체적으로, 생성자(110)는 변형된 U-Net 구조의 인코더-디코더(encoder-decoder)로, 저화질의 얼굴 영상을 5층의 CNN을 통해 저화질 얼굴 영상 특징 맵을 생성한 뒤, 블러가 있는 고해상도 얼굴 영상과 블러가 없는 고해상도 얼굴 영상을 동시에 복원할 수 있다. 정보 손실을 방지하기 위해 저화질 얼굴 영상 특징 맵을 복원하는 가지에 각각 스킵 커넥션을 사용할 수 있다. 생성된 블러가 있는 고해상도 얼굴 영상과 블러가 있는 고해상도 GT 영상, 생성된 고해상도 얼굴 영상과 고해상도 GT 영상의 L1 손실(loss)를 통해 훈련할 수 있다.

구별자(121, 122)는 생성자(110)가 저화질의 얼굴 영상으로부터 복원한 고해상도 얼굴 영상이 실제인지 아닌지를 판별하여 합성한 고해상도 얼굴 영상이 실제와 같도록 피드백을 제공한다. 여기서, 구별자(121, 122)는 지역적 구별자(121) 및 전역적 구별자(122)로 구성될 수 있으며, 지역적 구별자(121)는 마스킹된 고해상도 얼굴 영상과 마스킹된 GT 영상을 입력 받아 CNN을 훈련하는 얼굴 영역의 특징을 강화하고, 전역적 구별자(122)는 생성된 고해상도 얼굴 영상과 GT 영상에 각각 저화질 얼굴 영상을 결합하여 입력 받아 통계적 일관성을 갖도록 할 수 있다.

도 2는 일 실시예에 따른 고해상도 얼굴 영상 복원 방법을 나타내는 흐름도이다.

도 2를 참조하면, 일 실시예에 따른 컴퓨터로 구현된 고해상도 얼굴 영상 복원 장치(100)를 이용한 고해상도 얼굴 영상 복원 방법은, 저화질의 얼굴 영상을 입력 받는 단계(S110), 및 입력 받은 저화질의 얼굴 영상을 CNN(Convolutional Neural Network)의 생성자(110)를 통해 블러(blur)가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성하여, 블러와 저해상도가 동시에 존재하는 얼굴 영상을 고해상도 얼굴 영상으로 복원하는 단계(S120)를 포함하여 이루어질 수 있다.

또한, 입력 받은 저화질의 얼굴 영상을 5층(layer)의 CNN을 통해 특징 이미지(feature image)를 추출한 후, 추출된 특징 이미지를 사용하여 CNN을 훈련하는 단계를 더 포함하고, 구별자(discriminator)(121, 122)를 통해 CNN의 입력 특징 이미지와 출력 특징 이미지를 비교하여 진실(real) 또는 거짓(fake)을 판단할 수 있다.

실제 저화질 영상은 블러를 같이 갖고 있기 때문에 본 실시예에서는 얼굴 영역의 사전 정보, 변형된 U-Net 구조의 생성자(110)와 전역적 및 지역적 구분자를 사용하여 블러를 내포한 저해상도 영상의 고해상도 복원을 수행할 수 있다. 제안하는 네트워크는 블러가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성함으로써 블러와 저해상도가 복합적으로 있는 얼굴 영상을 고해상도 얼굴 영상으로 복원할 수 있다.

아래에서 일 실시예에 따른 고해상도 얼굴 영상 복원 방법의 각 단계를 설명한다.

일 실시예에 따른 컴퓨터로 구현된 고해상도 얼굴 영상 복원 장치(100)를 이용한 고해상도 얼굴 영상 복원 방법은 도 1에서 설명한 일 실시예에 따른 고해상도 얼굴 영상 복원 장치(100)를 이용하여 보다 구체적으로 설명할 수 있다.

앞에서 설명한 바와 같이, 일 실시예에 따른 고해상도 얼굴 영상 복원 장치(100)는 생성자(110) 및 구별자(121, 122)를 포함할 수 있고, 구별자(121, 122)는 지역적 구별자(121) 및 전역적 구별자(122)를 포함할 수 있다.

단계(S110)에서, 생성자(110)는 저화질의 얼굴 영상을 입력 받을 수 있다. 이 때, 별도의 입력부가 구성되어 저화질의 얼굴 영상을 입력 받을 수도 있다.

단계(S120)에서, 생성자(110)는 저화질의 얼굴 영상을 입력 받아, 입력 받은 저화질의 얼굴 영상을 블러(blur)가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성하여, 블러와 저해상도가 동시에 존재하는 얼굴 영상을 고해상도 얼굴 영상으로 복원할 수 있다. 이 때, 생성자(110)는 CNN(Convolutional Neural Network) 기반으로 구성될 수 있으며, 예컨대 5층(layer)의 CNN으로 이루어질 수 있다.

생성자(110)는 고해상도 얼굴 영상으로 복원하기 위해, 고해상도 얼굴 영상을 얼굴 사전 정보로 알고 있는 얼굴 영역 마스크를 곱해 마스킹된 고해상도 영상을 구할 수 있다. 또한, 생성자(110)는 GT 영상에 얼굴 영역 마스크를 곱해 마스킹된 GT 영상을 구할 수 있다.

또한, 생성자(110)는 픽셀 손실(pixel loss)을 이용하여 복원된 고해상도 얼굴 영상과 GT 영상의 모든 픽셀 값을 비교하여 복원된 고해상도 얼굴 영상이 GT 영상과 같도록 할 수 있다.

단계(S130)에서, 생성자(110)는 입력 받은 저화질의 얼굴 영상을 5층(layer)의 CNN을 통해 특징 이미지(feature image)를 추출한 후, 추출된 특징 이미지를 사용하여 CNN을 훈련할 수 있다. 즉, 구별자(121, 122)를 통해 CNN의 입력 특징 이미지와 출력 특징 이미지를 비교하여 진실(real) 또는 거짓(fake)을 판단할 수 있다. 이에 따라 구별자(121, 122)를 훈련시킬 수 있다.

구별자(121, 122)는 지역적 구별자(121) 및 전역적 구별자(122)로 이루어질 수 있고, 지역적 구별자(121) 및 전역적 구별자(122)를 사용하여 CNN을 훈련할 수 있다.

CNN을 훈련하기 위해, 지역적 구별자(121)는 마스킹된 고해상도 얼굴 영상과 마스킹된 GT 영상을 입력 받아 얼굴 영역의 특징을 강화할 수 있다. 또한, CNN을 훈련하기 위해, 전역적 구별자(122)는 생성된 고해상도 얼굴 영상과 GT 영상에 각각 저화질 얼굴 영상을 결합하여 입력 받아 통계적 일관성을 갖도록 할 수 있다. 이와 같이, 일 실시예에 따르면 전역적 구별자(122)와 지역적 구별자(121)를 사용함으로써 생성된 고해상도 얼굴 영상이 통계적 일관성을 갖고 현실적인 얼굴 구조를 갖도록 하였다.

기존 기법들이 이중선형보간법(bilinear interpolation) 등과 같은 단순한 업샘플링(upsampling)을 한 뒤 네트워크의 입력으로 사용하는 것과는 달리, 실시예들은 저화질의 얼굴 영상을 5층의 CNN을 통해 특징 이미지를 뽑아낸 뒤 해당 특징을 사용하여 네트워크 훈련을 진행할 수 있다. 구별자(121, 122)는 입력 특징 이미지와 출력 특징 이미지를 비교하여 real/fake의 판단을 더 잘할 수 있다. 한편, 입력이 이중선형보간법(bilinear interpolation)과 같은 업샘플링(upsampling)일 때에는 이미지의 변화가 적어 상대적으로 구별자(121, 122)의 훈련이 쉽다.

고해상도 얼굴 영상 복원 장치의 네트워크

생성자는 입력 영상을 5층의 CNN으로 공간 해상도를 8배로 키우는 것을 포함하며, 블러가 있는 고해상도 복원 가지와 블러가 없는 고해상도 복원 가지로 나누어질 수 있다. 블러가 있는 고해상도 복원을 위해 얻은 특징은 블러가 없는 고해상도 복원 가지에 사용되어 블러와 저화질이 동시에 존재하는 영상을 복원할 수 있다. 제안하는 네트워크는 BCE 손실(Binary Cross Entropy Loss)을 LSGAN(Least Square Generative Adversarial Network)의 평균 제곱 오차 손실(Mean Squared Error Loss)로 대체하였고, 구별자의 시그모이드(sigmoid) 함수를 제외하여 수렴과 학습 속도가 느려지는 것을 방지하였다.

제안하는 네트워크의 구별자는 지역적 구별자 D_l와 전역적 구별자 D_g를 포함할 수 있다. 저화질의 얼굴 영상 I_LR은 생성자를 통해 고해상도 얼굴 영상

를 합성하며, 이에 얼굴 사전 정보로 알고 있는 얼굴 영역 마스크를 곱해 마스킹된 고해상도 영상

을 구할 수 있다. GT(Ground Truth) 영상 I_HR에도 얼굴 영역 마스크를 곱해 마스킹된 GT 영상 I_HRm을 구할 수 있다. 지역적 구별자는 마스킹된 고해상도 얼굴 영상

과 마스킹된 GT 영상 I_HRm을 입력으로 받을 수 있다. 전역적 구별자는 생성된 고해상도 얼굴 영상

과 GT 영상 I_HR에 각각 저화질 얼굴 영상을 결합하여 입력으로 받을 수 있다. 전역적 구별자는 통계적 일관성을 갖도록 하며, 지역적 구별자는 얼굴 영역의 특징을 강화할 수 있다.

손실 함수

도 2는 일 실시예에 따른 훈련에 이용된 데이터 셋의 예시를 나타내는 도면이다.

도 2를 참조하면, (a)는 GT 영상, (b)는 전경 마스크, (c)는 모션 필드, (d)는 블러 영상, 그리고 (e)는 저화질의 블러 영상을 나타낸다.

제안하는 네트워크에서 사용한 adversarial loss에 대한 목적 함수는 다음 식과 같이 나타낼 수 있다.

[수학식 1]

[수학식 2]

여기서,

은 전역적 구별자에 대한 adversarial loss를 나타내며,

은 지역적 구별자에 대한 adversarial loss를 나타낸다.

픽셀 손실(pixel loss)은 복원된 영상과 GT 영상의 모든 픽셀 값을 비교하여 복원된 영상이 GT 영상과 같도록 하는 것을 목적으로 한다. 복원된 블러 고해상도 얼굴 영상

과 블러 고해상도 GT 영상

, 복원된 고해상도 얼굴 영상

과 고해상도 GT 영상

, 마스킹된 고해상도 얼굴 영상

과 마스킹된 GT 영상 I_HRm에 L1 거리를 정의하였으며 다음 식과 같이 나타낼 수 있다.

[수학식 3]

또한, 복원된 영상이 더욱더 현실적으로 보이게 하기 위해 판단 손실(perceptual loss)을 추가하였다. 판단 손실은 사전 훈련된 VGG-19의 가중치(weight)를 통해 얻어지며 다음 식과 같이 나타낼 수 있다.

[수학식 4]

여기서, f는 VGG-19 네트워크로부터 추출된 i번째 특징을 나타낸다. 이를 통해 전체 손실 함수는 다음 식과 같이 정의될 수 있다.

[수학식 5]

여기서, 가중치

,

은 각 손실 함수 값이 균형을 이루기 위해 사용되었다.

실험 결과

본 실시예에서는 훈련과 테스트를 CelebA-HQ 데이터 셋(비특허문헌 1)의 고화질 얼굴 영상과 얼굴 성분 마스크를 사용하였다. 실제 블러된 저화질의 얼굴 영상 생성을 위해 얼굴 영역 마스크를 이용해 얼굴을 전경으로 분류하였고, 전경에 Gong et al(비특허문헌 2)의 모션 플로우를 이용하여 블러를 생성하였다. 그 후, 8 배의 다운 샘플링을 통해 저화질을 적용하였다.

도 3은 일 실시예에 따른 훈련에 이용된 데이터 셋의 예시를 나타내는 도면이다. 도 3을 참조하면, 훈련에 이용된 데이터 셋의 예시를 보였다. 총 28,800장을 훈련에 사용하였으며 테스트에 1,200장을 사용하였다. 제안하는 네트워크는 0.0002의 학습률을 갖는ADAM optimizer와 64의 배치 크기를 갖도록 하여 Titan X GPU에서 훈련되었다.

최신 기법들인 SRResNet, SRGAN(비특허문헌 3), FSRNet, FSRGAN(비특허문헌 4), Pix2Pix(비특허문헌 5)과 결과 비교 분석을 하였다. FSRNet과 FSRGAN은 훈련 코드를 제공하지 않기 때문에 저자들이 제공하는 테스트 코드를 이용하였다. 정량적 평가를 위해 PSNR, SSIM과 FID를 사용하였으며, 표 1을 통해 제안하는 기법이 높은 PSNR, SSIM과 낮은 FID를 나타냄을 알 수 있다.

표 1은 정량적 평가 결과를 나타낸다.

[표 1]

도 4는 일 실시예에 따른 정성적 평가 결과의 예시를 나타내는 도면이다.

도 4를 참조하면, 일 실시예에 따른 정성적 평가 결과를 나타내며, 여기서 입력 영상 해상도는 32x32이고, 결과 영상 해상도는 256x256이다. 따라서 제안하는 네트워크가 얼굴 성분인 눈, 코와 입을 더 사실적으로 복원함을 알 수 있다.

본 실시예에서는 블러와 저해상도가 복합적으로 존재하는 얼굴 영상의 동시 복원을 위한 GAN 기반의 네트워크를 제안하였다. 실험 결과를 통해 제안하는 기법이 최신 기법들보다 정량적, 정성적으로 가장 높은 성능을 나타내는 것을 볼 수 있다. CNN을 통한 업 스케일, 블러가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 복원하는 생성자, 전역적 및 지역적 구별자를 통해 블러가 있는 저해상도 영상을 고해상도로 성공적으로 복원하였다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터로 구현된 고해상도 얼굴 영상 복원 장치를 이용한 고해상도 얼굴 영상 복원 방법에 있어서,
저화질의 얼굴 영상을 입력 받는 단계; 및
입력 받은 상기 저화질의 얼굴 영상을 CNN(Convolutional Neural Network)의 생성자를 통해 블러(blur)가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성하여, 블러와 저해상도가 동시에 존재하는 얼굴 영상을 고해상도 얼굴 영상으로 복원하는 단계
를 포함하고,
입력 받은 상기 저화질의 얼굴 영상을 복수개의 층(layer)의 상기 CNN을 통해 특징 이미지(feature image)를 추출한 후, 추출된 상기 특징 이미지를 사용하여 상기 CNN을 훈련하는 단계
를 더 포함하고,
구별자(discriminator)를 통해 상기 CNN의 입력 특징 이미지와 출력 특징 이미지를 비교하여 진실(real) 또는 거짓(fake)을 판단하며,
상기 고해상도 얼굴 영상으로 복원하는 단계는,
상기 고해상도 얼굴 영상을 얼굴 사전 정보로 알고 있는 얼굴 영역 마스크를 곱해 마스킹된 고해상도 영상을 구하는 단계; 및
GT 영상에 상기 얼굴 영역 마스크를 곱해 마스킹된 GT 영상을 구하는 단계
를 포함하는, 고해상도 얼굴 영상 복원 방법.
삭제
삭제
제1항에 있어서,
상기 CNN을 훈련하는 단계는,
지역적 구별자(local discriminator) 및 전역적 구별자(global discriminator)를 사용하여 상기 CNN을 훈련하며,
상기 지역적 구별자는 상기 마스킹된 고해상도 얼굴 영상과 상기 마스킹된 GT 영상을 입력 받아 얼굴 영역의 특징을 강화하는 단계; 및
상기 전역적 구별자는 생성된 상기 고해상도 얼굴 영상과 상기 GT 영상에 각각 저화질 얼굴 영상을 결합하여 입력 받아 통계적 일관성을 갖도록 하는 단계
를 포함하는, 고해상도 얼굴 영상 복원 방법.
제1항에 있어서,
상기 고해상도 얼굴 영상으로 복원하는 단계는,
픽셀 손실(pixel loss)을 이용하여 복원된 상기 고해상도 얼굴 영상과 상기 GT 영상의 모든 픽셀 값을 비교하여 복원된 상기 고해상도 얼굴 영상이 상기 GT 영상과 같도록 하는 것
을 특징으로 하는, 고해상도 얼굴 영상 복원 방법.
입력 받은 저화질의 얼굴 영상을 블러(blur)가 있는 고해상도 영상과 블러가 없는 고해상도 영상을 동시에 생성하여, 블러와 저해상도가 동시에 존재하는 얼굴 영상을 고해상도 얼굴 영상으로 복원하는 CNN(Convolutional Neural Network) 기반의 생성자; 및
상기 CNN을 훈련하는 얼굴 영역의 특징을 강화하는 지역적 구별자(local discriminator) 및 통계적 일관성을 갖도록 하는 전역적 구별자(global discriminator)를 포함하는 구별자
를 포함하고,
상기 생성자는,
입력 받은 상기 저화질의 얼굴 영상을 복수개의 층(layer)의 상기 CNN을 통해 특징 이미지(feature image)를 추출한 후, 추출된 상기 특징 이미지를 사용하여 상기 CNN을 훈련하며, 구별자(discriminator)를 통해 상기 CNN의 입력 특징 이미지와 출력 특징 이미지를 비교하여 진실(real) 또는 거짓(fake)을 판단하며, 상기 고해상도 얼굴 영상을 얼굴 사전 정보로 알고 있는 얼굴 영역 마스크를 곱해 마스킹된 고해상도 영상을 구하고, GT 영상에 상기 얼굴 영역 마스크를 곱해 마스킹된 GT 영상을 구하는 것
을 특징으로 하는, 고해상도 얼굴 영상 복원 장치.