WO2023149649A1

WO2023149649A1 - 전자 장치 및 이미지 화질 개선 방법

Info

Publication number: WO2023149649A1
Application number: PCT/KR2022/020254
Authority: WO
Inventors: 이정민; 강태근; 배기현; 백상욱; 이상원
Original assignee: 삼성전자 주식회사
Priority date: 2022-02-07
Filing date: 2022-12-13
Publication date: 2023-08-10

Abstract

본 개시의 기술적 사상에 따른 입력 이미지의 화질을 개선하기 위한 전자 장치에 있어서, 적어도 하나의 인스트럭션이 저장된 메모리, 및 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여, 상기 입력 이미지의 열화도를 계산하고, 상기 입력 이미지의 열화도가 정해진 값보다 큰 것으로 결정함에 대응하여 상기 입력 이미지에 포함된 적어도 하나의 얼굴 이미지를 검출하고, 상기 적어도 하나의 얼굴 이미지에 포함된 적어도 하나의 영역의 위치 및 종류를 지시하는 영역 정보를 생성하고, 상기 입력 이미지 및 상기 영역 정보를 입력으로 하는 인공 신경망(Artificial Neural Network; ANN)을 이용하여, 화질이 개선된 얼굴 이미지를 생성하고, 및 상기 화질이 개선된 얼굴 이미지 및 상기 입력 이미지를 합성하여 출력 이미지를 생성할 수 있다.

Description

전자 장치 및 이미지 화질 개선 방법

본 개시의 기술적 사상은 전자 장치에 관한 것이며, 더욱 상세하게는, 전자 장치를 이용하여 이미지 화질을 개선하는 방법에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 목적하는 결과를 도출하거나 목적하는 동작을 수행하는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다. 기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 딥러닝 등의 기계학습 알고리즘을 활용하여, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술을 구현하기 위한 요소 기술들은, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.

한편, 인공 신경망(Artificial Neural Network)을 이용하여 열화된 이미지의 화질을 개선하는 기술의 경우, 인물의 얼굴 부분에 대한 복원이 어려우며, 배경 부분과의 블랜딩(blending)이 부자연스럽게 이루어져 아티팩트(artifact)가 발생할 수 있다. 이에 따라, 얼굴 화질을 효과적으로 향상시키며 배경과 자연스럽게 합성되어 이질감을 느끼지 않을 수 있는 기술이 요구된다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 상기 입력 이미지의 색상 정보 및 노이즈 정보를 포함하는 특성 정보에 기초하여 상기 적어도 하나의 얼굴 이미지 각각의 화질을 지시하는 적어도 하나의 열화도를 계산하고, 및 계산한 상기 적어도 하나의 열화도에 기반하여 상기 입력 이미지의 화질 개선이 필요한지 여부를 결정할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 상기 적어도 하나의 열화도를 합산한 값과 상기 적어도 하나의 얼굴 이미지의 총 개수의 비율이 정해진 값보다 큰 것으로 계산함에 대응하여, 상기 입력 이미지의 화질 개선이 필요한 것으로 결정할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 열화도가 정해진 값보다 큰 것으로 결정함에 대응하여, 상기 열화도에 대응하는 얼굴 이미지를 화질 개선이 필요한 것으로 결정할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 상기 화질 개선이 필요한 것으로 결정한 얼굴 이미지의 수와 상기 적어도 하나의 얼굴 이미지의 총 개수의 비율이 정해진 값보다 크면 상기 입력 이미지의 화질 개선이 필요한 것으로 결정할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 입력 이미지의 각 픽셀의 RGB 정보를 포함하는 컬러 데이터와 같은 크기를 갖고, 모든 요소의 값이 0인 어레이 데이터를 생성하고, 상기 얼굴 이미지에 포함된 적어도 하나의 영역에 대응하는 상기 어레이 데이터의 적어도 하나의 요소에 1 값을 부여하여 영역 정보를 생성할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 상기 얼굴 이미지의 적어도 하나의 영역의 종류를 결정하고, 상기 컬러 데이터와 같은 크기를 갖고, 모든 요소의 값이 0인 어레이 데이터를 생성하고, 상기 얼굴 이미지에 포함된 적어도 하나의 영역에 대응하는 상기 어레이 데이터의 적어도 하나의 요소에, 상기 결정한 적어도 하나의 영역의 종류를 지시하는 값을 부여하여 영역 정보를 생성할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 상기 적어도 하나의 얼굴 이미지에 포함된 적어도 하나의 영역의 윤곽 및 상기 적어도 하나의 영역의 내부 중 적어도 하나를 지시하는 영역 정보를 생성할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 상기 입력 이미지에서 상기 적어도 하나의 얼굴 이미지를 제외한 배경 이미지를 검출하고, 및 상기 화질이 개선된 얼굴 이미지 및 상기 배경 이미지의 합성 비율을 결정하고, 상기 합성 비율에 기초하여, 상기 화질이 개선된 얼굴 이미지 및 상기 배경이미지를 합성하여 출력 이미지를 생성할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 상기 합성 비율을 사용자 입력에 기초하여 결정할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 컬러 데이터는, 상기 입력 이미지의 각 픽셀의 R, G, B에 대한 정보를 포함할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, GT(ground truth) 영상을 획득하고, 상기 GT 영상에 노이즈를 추가한 테스트 영상을 생성하고, 상기 테스트 영상을 정해진 웨이트를 갖는 적대적 생성 신경망에 입력하여 출력 영상을 획득하고, 상기 출력 영상 및 상기 테스트 영상의 색상 도메인을 변환하고, 상기 색상 도메인을 변환한 출력 영상 및 테스트 영상의 픽셀와이즈 에러(pixel-wise error)를 계산하고, 상기 픽셀와이즈 에러에 기초하여 상기 웨이트를 변경할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 적어도 하나의 프로세서는, 상기 색상 도메인을 변환한 출력 영상의 크로마 채널(chroma channel)의 TV(total variance) 값을 계산하고, 상기 크로마 채널의 TV 값이 정해진 값보다 큰 것으로 확인함에 대응하여 상기 웨이트를 변경할 수 있다.

본 개시의 기술적 사상에 따른 입력 이미지의 화질을 개선하기 위한 전자 장치를 이용한 이미지 화질 개선 방법에 있어서, 상기 입력 이미지의 열화도를 계산하고, 상기 입력 이미지의 열화도가 정해진 값보다 큰 것으로 결정함에 대응하여, 상기 입력 이미지에 포함된 적어도 하나의 얼굴 이미지를 검출하는 동작, 상기 적어도 하나의 얼굴 이미지에 포함된 적어도 하나의 영역의 위치 및 종류를 지시하는 영역 정보를 생성하는 동작, 상기 입력 이미지 및 상기 영역 정보를 입력으로 하는 인공 신경망(Artificial Neural Network; ANN)을 이용하여, 화질이 개선된 얼굴 이미지를 생성하는 동작, 및 상기 화질이 개선된 얼굴 이미지 및 상기 입력 이미지를 합성하여 출력 이미지를 생성하는 동작을 포함할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 출력 이미지를 생성하는 동작은, 상기 입력 이미지의 색상 정보 및 노이즈 정보를 포함하는 특성 정보에 기초하여 상기 적어도 하나의 얼굴 이미지 각각의 화질을 지시하는 적어도 하나의 열화도를 계산하는 동작, 및

계산한 적어도 하나의 열화도에 기반하여 상기 입력 이미지의 화질 개선이 필요한지 여부를 결정하는 동작을 포함할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 영역 정보를 생성하는 동작은, 입력 이미지의 각 픽셀의 RGB 정보를 포함하는 컬러 데이터와 같은 크기를 갖고, 모든 요소의 값이 0인 어레이 데이터를 생성하고, 상기 얼굴 이미지에 포함된 적어도 하나의 영역에 대응하는 상기 어레이 데이터의 적어도 하나의 요소에 1 값을 부여하여 영역 정보를 생성하는 동작을 더 포함할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 영역 정보를 생성하는 동작은, 상기 얼굴 이미지의 적어도 하나의 영역의 종류를 결정하고, 상기 컬러 데이터와 같은 크기를 갖고, 모든 요소의 값이 0인 어레이 데이터를 생성하고, 상기 얼굴 이미지에 포함된 적어도 하나의 영역에 대응하는 상기 어레이 데이터의 적어도 하나의 요소에, 상기 결정한 적어도 하나의 영역의 종류를 지시하는 값을 부여하여 영역 정보를 생성하는 동작을 더 포함할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, 상기 출력 이미지를 생성하는 동작은, 상기 입력 이미지에서 상기 적어도 하나의 얼굴 이미지를 제외한 배경 이미지를 검출하는 동작, 및 상기 화질이 개선된 얼굴 이미지 및 상기 배경 이미지를 합성하여 출력 이미지를 생성하는 동작을 더 포함할 수 있다.

또한, 본 개시의 기술적 사상에 따르면, GT(ground truth) 영상을 획득하는 동작, 상기 GT 영상에 노이즈를 추가한 테스트 영상을 생성하는 동작, 상기 테스트 영상을 정해진 웨이트를 갖는 적대적 생성 신경망에 입력하여 출력 영상을 획득하는 동작, 상기 출력 영상 및 상기 테스트 영상의 색상 도메인을 변환하는 동작, 상기 색상 도메인을 변환한 출력 영상 및 테스트 영상의 픽셀와이즈 에러(pixel-wise error)를 계산하는 동작, 상기 픽셀와이즈 에러에 기초하여 상기 웨이트를 변경하는 동작을 더 포함할 수 있다.

도 1은 본 개시의 일 실시예에 따른 전자 장치가 열화된 이미지의 화질을 개선하는 방법에 대한 순서도이다.

도 2는 본 개시의 일 실시예에 따른 전자 장치가 입력 이미지를 열화된 이미지로 판단하는 과정을 설명하기 위한 순서도이다.

도 3a 및 도 3b는 본 개시의 일 실시예에 따른 전자 장치가 열화된 이미지를 입력 받아 화질이 개선된 이미지를 출력하는 방법을 설명하기 위한 도면이다.

도 4는 본 개시의 일 실시예에 따른 전자 장치가 얼굴 영역 및 배경 영역을 합성하는 방법을 설명하기 위한 도면이다.

도 5는 본 개시의 일 실시예에 따른 전자 장치가 생성하는 영역 정보에 대한 실시예를 설명하기 위한 도면이다.

도 6은 본 개시의 일 실시예에 따른 전자 장치가 생성하는 영역 정보에 대한 실시예를 설명하기 위한 도면이다.

도 7은 본 개시의 일 실시예에 따른 열화된 이미지의 화질을 개선하는 전자 장치의 블록도이다.

도 8은 본 개시의 일 실시예에 따른 분류 네트워크를 나타내는 도면이다.

도 9는 본 개시의 일 실시예에 따른 전자 장치가 컬러 손실된 이미지를 출력하는 방법을 설명하기 위한 도면이다.

도 10은 본 개시의 일 실시예에 따른 전자 장치가 화질이 개선된 얼굴 이미지 및 배경 이미지를 합성하는 비율을 조절하는 실시예를 설명하기 위한 도면이다.

도 11은 본 개시의 일 실시예에 따른 전자 장치가 제2 입력 이미지를 이용하여 이미지 화질을 개선하는 방법을 설명하기 위한 도면이다.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들 전반에 걸친 내용을 토대로 정의되어야 한다.

본 실시예들은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 일부 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 실시예들을 특정한 개시형태에 대해 한정하려는 것이 아니며, 본 실시예들의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 명세서에서 사용한 용어들은 단지 실시예들의 설명을 위해 사용된 것으로, 본 실시예들을 한정하려는 의도가 아니다.

본 실시예들에 사용되는 용어들은 다르게 정의되지 않는 한, 본 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 실시예들에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.

이하에서는 후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다. 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 따라서 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

전자 장치는 프로세서, 인공 신경망 모듈 및 메모리를 포함할 수 있다. 인공 신경망 모듈은 로컬에서 수집된 데이터를 이용하여, 신경망 모델의 추론 및/또는 패턴 매칭 기능 등의 신경망 연산을 수행할 수 있다. 인공 신경망 모듈은 AI 알고리즘을 효율적으로 수행하기 위한 칩(chip)일 수 있다. 인공지능 가속기는 예를 들어, CPU(Central Processing Units), GPU(Graphics Processing Units), FPGA(Field-Programmable Gate Arrays), SoC(System-on-Chips), ASIC(Application-Specific Integrated Circuits), VPC(Vision Processing Units), 뉴로모픽 IC 등일 수 있으나, 이에 한정되는 것은 아니다.

다양한 실시예에 따르면, 메모리는 휘발성 메모리 및 비휘발성 메모리를 포함하여, 다양한 데이터들을 일시적 또는 영구적으로 저장할 수 있다. 메모리는 프로세서에서 수행될 수 있는 다양한 인스트럭션(instruction)들을 저장할 수 있다. 이와 같은 인스트럭션들은 프로세서에 의해 인식될 수 있는 산술 및 논리 연산, 데이터 이동, 입출력 등과 같은 제어 명령을 포함할 수 있다.

프로세서는, 예를 들면, 소프트웨어를 실행하여 프로세서에 연결된 전자 장치의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서는 다른 구성요소로부터 수신된 명령 또는 데이터를 휘발성 메모리에 저장하고, 휘발성 메모리에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리에 저장할 수 있다. 일 실시예에 따르면, 프로세서는 메인 프로세서(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 일 실시예에 따르면, 프로세서는 PCIe(peripheral component interconnect express) 신호를 출력할 수 있는 임베디드 CPU(embedded CPU) 또는 어플리케이션 프로세서(application processor)일 수 있다.

다양한 실시예에 따르면, 프로세서는 전자 장치 각 구성요소들(예: 인공 신경망 모듈 및 메모리)과 작동적으로(operatively), 기능적으로(functionally), 및/또는 전기적으로(electrically) 연결되어, 각 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 수행할 수 있는 구성일 수 있다.

프로세서가 전자 장치 상에서 구현할 수 있는 연산 및 데이터 처리 기능에는 한정됨이 없을 것이나, 이하에서는 입력 이미지의 열화된 화질을 개선하는 방법에 대한 다양한 실시예에 대해 설명하기로 한다.

전자 장치는 입력 이미지를 획득할 수 있다. 전자 장치는 획득한 입력 이미지가 열화된 이미지인지 여부를 결정할 수 있다. 획득한 입력 이미지를 열화된 이미지로 결정한 경우, 전자 장치는 입력 이미지에 포함된 적어도 하나의 얼굴 이미지의 영역 정보를 생성할 수 있다. 전자 장치는 생성한 영역 정보를 이용하여 화질이 개선된 얼굴 이미지를 생성할 수 있다. 전자 장치는 화질이 개선된 얼굴 이미지 및 입력 이미지를 합성하여 출력 이미지를 생성할 수 있다. 이하, 전자 장치의 동작에 대하여 상세히 설명하도록 한다.

동작 100에서, 전자 장치는, 입력 이미지를 획득할 수 있다. 일 실시예에서, 전자 장치는 카메라를 이용하여 사진을 촬영하여 입력 이미지를 획득할 수 있다. 전자 장치가 획득한 입력 이미지는 열화된 사진을 촬영한 것일 수 있다. 일 실시예에서, 열화된 사진은 사진이 물리적/화학적 손상을 입어 훼손된 것을 의미한다. 일 실시예에서, 사용자는 열화된 사진의 이미지를 복원하기 위하여, 전자 장치를 이용하여 열화된 사진을 촬영하여 열화된 이미지를 획득 할 수 있다. 일 실시예에 따르면, 전자 장치는 과도한 압축 또는 다운사이징을 거쳐서 열화된 이미지를 획득할 수도 있다. 예를 들어, 디지털 상태에서도 과도한 압축 또는 다운사이징을 거치면 이미지가 열화 될 수 있다.

일 실시예에서, 전자 장치가 획득할 수 있는 입력 이미지는 정해진 크기(예: 512X512px)의 어레이 형태인 데이터일 수 있고, 어레이의 각 요소는 RGB정보 (예: Red 값, Green 값, Blue 값)를 포함할 수 있다. 어레이 데이터는 정해진 개수의 열과 행으로 이루어지고, 각 열과 행이 만나는 요소(element)마다 데이터를 담고 있는 데이터 구조(data structure)를 의미한다. 입력 이미지와 영역 정보는 512개의 행과 512개의 열을 갖고, 512*512개의 요소로 이루어진 어레이 데이터로 표현될 수 있다. 또는, 입력 이미지의 어레이 데이터의 각 요소는 RGB 정보에 대응하는 색상 코드를 포함할 수 있다. 예를 들어, 입력 이미지의 데이터는 각 픽셀에 할당된 Red 값, Green 값, Blue 값을 포함하거나, 또는 각 픽셀에 할당된 Red 값, Green 값, Blue 값에 대응하는 색상 코드를 포함할 수 있다. 입력 이미지는 적어도 하나의 얼굴(또는 인물) 이미지를 포함할 수 있다. 얼굴 이미지는 인물의 얼굴 전체를 포함하거나, 또는 얼굴의 적어도 일부를 포함할 수 있다.

동작 110에서, 전자 장치는 입력 이미지가 열화된 이미지인지 여부를 결정할 수 있다. 일 실시예에서, 열화되지 않은 이미지를 화질 개선 알고리즘에 입력하는 경우 의도하지 않은 오류가 발생할 수 있기 때문에, 화질 개선 프로세스에 앞서 열화된 이미지인지 여부를 결정 한다. 예를 들어, 전자 장치는 열화된 이미지의 화질 개선을 위한 동작을 수행하므로, 열화되지 않은 이미지를 획득한 경우에는 화질 개선 프로세스를 수행하지 않는다.

일 실시예에서, 전자 장치는 입력 이미지에 포함된 적어도 하나의 얼굴 이미지를 분석하여, 입력 이미지가 열화된 이미지이기 때문에 화질 개선이 필요한지 여부를 결정할 수 있다.

일 실시예에서, 전자 장치는 입력 이미지가 열화된 이미지인지 여부를 결정하기 위하여 입력 이미지에 포함된 적어도 하나의 얼굴 이미지에 대한 열화도를 계산할 수 있다. 일 실시예에서, 열화도는 얼굴 이미지의 화질이 떨어진 정도를 나타낼 수 있다. 따라서, 열화도가 높을수록 이미지의 화질 개선이 필요하다는 것을 나타낼 수 있다.

전자 장치는 입력 이미지에 대한 영상 처리를 수행하여, 입력 이미지에 빛 바램이 포함되는지 여부, 입력 이미지의 노이즈 정보를 포함하는 이미지의 특성 정보를 획득할 수 있다. 전자 장치는 획득한 특성 정보 및 분류 네트워크를 이용하여, 입력 이미지가 열화된 이미지인지 아닌지 결정할 수 있다. 분류 네트워크는 입력 이미지를 2가지로 분류하는 Old/New 2-class classifier일 수 있다. 예를 들어, 분류 네트워크는 복수의 레이어를 포함하는 VGG 네트워크(Visual Geometry Group Network; VGGNet)를 포함할 수 있다. VGG 네트워크는 네트워크의 깊이(depth)를 증가시킨 CNN 알고리즘의 주요 모델로, 다양한 수(예: 11, 13, 16, 19)의 레이어를 가질 수 있다. 전자 장치는 커널 사이즈를 최소 단위인 3x3으로 고정하고 컨볼루션 연산의 개수를 늘린 VGG 네트워크를 사용하여 이미지의 특징(feature)을 더 잘 추출할 수 있으며, 높은 정확도로 이미지를 분류할 수 있다. 예를 들어, 전자 장치는 VGG 네트워크를 이용하여, 입력 이미지가 열화된 이미지인지 여부를 결정할 수 있다.

일 실시예에서, 전자 장치는 입력 이미지에 포함된 각 얼굴 이미지에 대하여 열화도를 별도로 계산할 수 있다. 예를 들어, 입력 이미지에 제1 얼굴 이미지, 제2 얼굴 이미지 및 제3 얼굴 이미지가 포함되어 있는 경우, 전자 장치는 제1 얼굴 이미지에 대응하는 제1 열화도, 제2 얼굴 이미지에 대응하는 제2 열화도 및 제3 얼굴 이미지에 대응하는 제3 열화도를 각각 계산할 수 있다. 예를 들어, 제1 얼굴 이미지가 제2 얼굴 이미지보다 열화되었고, 제2 얼굴 이미지가 제3 얼굴 이미지보다 열화된 경우, 전자 장치가 계산한 제1 열화도는 제2 열화도보다 높고, 제2 열화도는 제3 열화도보다 높을 수 있다. 전자 장치는 계산 방식에 따라서 다양한 값으로 열화도를 계산할 수 있으나, 이하에서는 편의상 열화도가 0에서 1 사이의 값을 갖는 것으로 설명한다.

전자 장치는 계산한 각 얼굴 이미지의 열화도에 기반하여 입력 이미지의 화질 개선이 필요한지 여부를 결정할 수 있다. 전자 장치는 다양한 로직을 이용하여 입력 이미지의 화질 개선 필요 여부를 결정할 수 있다. 예를 들어, 전자 장치는 Old/New 2-class classifier를 이용하여 입력 이미지의 화질 개선 필요 여부를 결정할 수 있다. Old/New 2-class classifier는 입력 이미지에 포함된 적어도 하나의 얼굴 이미지의 열화도에 기반하여, 입력 이미지를 열화된 이미지(Old) 또는 일반 이미지(New)로 결정할 수 있다.

일 실시예에 따르면, 전자 장치는 열화된 얼굴 이미지의 개수가 입력 이미지에 포함된 얼굴 이미지의 총 개수의 절반보다 크면, 입력 이미지를 열화된 이미지로 결정할 수 있다. 일 실시예에서, 열화된 얼굴 이미지는 입력 이미지에 포함된 얼굴 이미지 중에서 열화된 것으로 결정한 얼굴 이미지를 의미할 수 있다. 전자 장치는 다양한 방식으로 입력 이미지에 포함된 얼굴 이미지들 중 적어도 일부를 열화된 얼굴 이미지로 결정할 수 있다.

일 실시예에 따르면, 전자 장치는 얼굴 이미지의 열화도가 정해진 값보다 크면 해당 얼굴 이미지를 열화된 얼굴 이미지로 결정할 수 있다. 예를 들어, 제1 열화도 및 제2 열화도는 정해진 값보다 크고 제3 열화도는 정해진 값보다 작은 경우, 전자 장치는 제1 얼굴 이미지 및 제2 얼굴 이미지를 열화된 얼굴 이미지로 결정할 수 있다. 열화된 얼굴 이미지의 개수가 얼굴 이미지의 총 개수의 절반보다 크므로, 전자 장치는 입력 이미지를 열화된 이미지로 결정할 수 있다. 반대로, 제1 열화도만 정해진 값보다 크고 제2 열화도 및 제3 열화도는 정해진 값보다 작은 경우, 전자 장치는 제1 얼굴 이미지만을 열화된 얼굴 이미지로 결정할 수 있다. 열화된 얼굴 이미지의 개수가 얼굴 이미지의 총 개수의 절반보다 작으므로, 전자 장치는 입력 이미지를 열화된 이미지가 아닌 것으로 결정할 수 있다.

일 실시예에 따르면, 전자 장치는 계산한 열화도의 총 합에 기반하여 입력 이미지가 열화된 이미지인지 결정할 수 있다. 예를 들어, 전자 장치는 계산한 열화도의 총 합이 입력 이미지에 포함된 얼굴 이미지의 개수의 절반보다 크면, 입력 이미지를 열화된 이미지로 결정할 수 있다.

일 실시예에 따르면, 전자 장치는 다양한 조건을 결합하여 입력 이미지가 열화된 이미지인지 결정할 수 있다. 예를 들어, 전자 장치는 열화된 얼굴 이미지의 개수가 얼굴 이미지의 총 개수의 절반보다 큰 조건 및, 계산한 열화도의 총 합이 입력 이미지에 포함된 얼굴 이미지의 개수의 절반보다 큰 조건을 동시에 만족하는 경우에 입력 이미지를 열화된 이미지로 결정할 수 있다. 전자 장치가 입력 이미지를 열화된 이미지로 결정하는 조건은 상기 설명한 바에 제한되지 않으며, 입력 이미지에 포함된 각 얼굴 이미지의 열화도에 기반하여 다양한 방식으로 열화된 이미지로 결정할 수 있다.

동작 120에서, 전자 장치는, 입력 이미지에 포함된 적어도 하나의 얼굴 이미지에 대한 정보를 포함하는 영역 정보를 생성할 수 있다. 일 실시예에서, 영역 정보는 입력 이미지와 동일한 크기(예: 512X512px)를 갖는 어레이 데이터이며, 입력 이미지에 포함된 적어도 하나의 얼굴 이미지의 신체 부위(예: 눈, 눈썹, 코, 입, 귀, 턱, 머리)가 포함된 영역 및 그 윤곽에 대한 정보를 포함할 수 있다. 일 실시예에서, 영역 정보는 얼굴 이미지에 포함된 신체 부위의 종류 및 위치를 지시할 수 있다. 일 실시예에 따르면, 전자 장치는 얼굴 이미지에 포함된 신체 부위의 윤곽에 대응하는 어레이 데이터의 각 픽셀에 정해진 값을 부여하여 영역 정보를 생성할 수 있다. 예를 들어, 전자 장치는 어레이 데이터에서, 입력 이미지의 눈, 코, 입, 귀, 턱의 윤곽에 대응하는 각 요소에 1 값을 부여하고, 나머지 요소에는 0 값을 부여하여 영역 정보를 생성할 수 있다. 상기와 같은 방식으로 생성된 영역 정보는 얼굴 이미지에서 각 신체 부위가 위치하는 영역의 윤곽을 나타내어 얼굴의 화질 개선에 사용될 수 있다.

일 실시예에 따르면, 전자 장치는 얼굴 이미지에 포함된 신체 부위의 윤곽 및 그 내부에 대응하는 어레이 데이터의 각 픽셀에 정해진 값을 부여하여 영역 정보를 생성할 수 있다. 예를 들어, 전자 장치는 어레이 데이터에서, 입력 이미지의 눈, 코, 입, 귀, 턱의 윤곽 및 그 내부에 대응하는 각 요소에 신체 부위별로 정해진 값을 부여하고, 나머지 요소에는 0 값을 부여하여 영역 정보를 생성할 수 있다. 전자 장치가 영역 정보를 생성하는 방법은 이에 제한되지 않는다. 전자 장치가 영역 정보를 생성하는 방법에 대해서는 추후 도 5 및 도 6에서 자세하게 설명하도록 한다.

동작 130에서, 전자 장치는 동작 120에서 생성한 영역 정보를 이용하여 화질이 개선된 얼굴 이미지를 생성할 수 있다. 전자 장치는 인공 신경망에 입력 이미지의 각 픽셀의 RGB값 및 영역 정보를 입력하여, 화질이 개선된 얼굴 이미지를 생성할 수 있다. 전자 장치는 영역 정보를 이용하여 얼굴 이미지의 각 신체 부위가 포함되는 영역을 결정할 수 있기 때문에 화질이 개선된 얼굴 이미지를 생성할 수 있다.

동작 140에서, 전자 장치는, 화질이 개선된 얼굴 이미지 및 입력 이미지를 합성하여 출력 이미지를 생성할 수 있다. 일 실시예에서, 입력 이미지는 얼굴 이미지 및 배경 이미지를 포함할 수 있다. 입력 이미지는 2D 어레이 형태의 데이터 형식을 갖기 때문에, 입력 이미지는 얼굴 이미지와 배경 이미지를 포함할 수 있다. 배경 이미지는 입력 이미지에서 얼굴 이미지를 제외한 부분을 의미한다. 일 실시예에서, 전자 장치는 화질이 개선된 얼굴 이미지를 배경 이미지와 합성하여 출력 이미지를 생성할 수 있다. 전자 장치가 화질이 개선된 얼굴 이미지를 배경 이미지와 자연스럽게 합성하여 출력 이미지를 생성하는 방법에 대해서는 추후 도 4에서 상세하게 설명하도록 한다.

동작 200에서, 전자 장치는 입력 이미지에서 적어도 하나의 얼굴 이미지를 검출할 수 있다. 입력 이미지는 적어도 하나의 인물 및/또는 얼굴을 포함할 수 있다. 일 실시예에서, 전자 장치는 정해진 알고리즘을 이용하여, 입력 이미지에 포함되어 있는 적어도 하나의 얼굴 이미지를 검출할 수 있다.

동작 210에서, 전자 장치는, 검출한 각 얼굴 이미지의 열화도를 계산할 수 있다. 전자 장치는 다양한 방식으로 적어도 하나의 얼굴 이미지의 열화도를 계산할 수 있다. 열화도는 각 얼굴 이미지의 화질 개선이 필요한 정도를 나타낼 수 있다. 전자 장치는 검출한 얼굴 이미지 각각에 대한 열화도를 계산할 수 있다.

동작 220에서, 전자 장치는, 입력 이미지의 화질 개선이 필요한지 여부를 결정할 수 있다. 전자 장치는 동작 210에서 계산한 얼굴 이미지 각각에 대한 열화도에 기반하여, 입력 이미지의 화질 개선이 필요한지 여부를 결정할 수 있다. 예를 들어, 전자 장치는 적어도 하나의 얼굴 이미지의 열화도를 합산한 값이, 얼굴 이미지의 총 개수를 반으로 나눈 값보다 크면, 입력 이미지의 화질 개선이 필요한 것으로 결정할 수 있다. 예를 들어, 전자 장치는 화질 개선이 필요한 것으로 결정한 얼굴 이미지의 수가 얼굴 이미지의 총 개수를 반으로 나눈 값보다 크면, 입력 이미지의 화질 개선이 필요한 것으로 결정할 수 있다.

적대적 생성 신경망(generative adversarial network; GAN)은 생성기(generator), 판별기(discriminator), 및 손실 함수(loss function)을 포함할 수 있다. GAN은 학습을 통해 생성기와 판별기가 서로의 성능을 개선해 적대적으로 경쟁해 나가는 모델이다. 생성기 및 판별기 각각은 적어도 하나의 레이어를 포함할 수 있다. 레이어는 입력 데이터로부터 특징을 추출하기 위한 가중치 정보들로 구성된 필터를 포함할 수 있다.

생성기는 데이터 셋(Data Set: DS)을 입력으로 하여, 가짜 데이터(Fake Data: FD)를 출력하도록 학습될 수 있다. 데이터 셋은 이미지, 텍스트, 및 음성 중 적어도 하나를 포함하는 데이터의 집합일 수 있다. 가짜 데이터는 가짜 이미지 데이터, 가짜 텍스트 데이터 또는 가짜 음성 데이터일 수 있다.

실제 데이터(Real Data: RD) DB는 실제 데이터의 집합을 포함할 수 있다. 실제 데이터는 가짜 데이터에 대응할 수 있다. 예를 들어, 가짜 데이터가 가짜 이미지 데이터인 경우, 실제 데이터는 실제 이미지 데이터일 수 있다.

판별기는 가짜 데이터 또는 실제 데이터를 입력으로 하여, 가짜 데이터 또는 실제 데이터의 가짜 여부를 판별하도록 학습될 수 있다.

손실 함수는 판별 결과에 기초하여 손실 함수 값을 계산할 수 있다. 손실 함수 값은 역전파를 통해 판별기 및 생성기에 전달될 수 있다. 판별기 및 생성기에 포함되는 적어도 하나의 레이어의 가중치는 손실 함수 값에 기초하여 업데이트될 수 있다.

일 실시 예에 있어서, 생성기는 데이터 셋의 유형 및 출력 데이터에 따라 복수 개의 서브 생성기들을 포함할 수 있다. 예를 들어, 제1 서브 생성기는 이미지 데이터의 집합인 데이터 셋을 입력으로 하여, 가짜 음성 데이터를 출력하도록 학습될 수 있다. 예를 들어, 제2 서브 생성기는 이미지 데이터의 집합인 데이터 셋을 입력으로 하여, 가짜 텍스트 데이터를 출력하도록 학습될 수 있다. 예를 들어, 제3 서브 생성기는 이미지 데이터 및 텍스트 데이터의 집합인 데이터 셋을 입력으로 하여, 가짜 음성 데이터를 출력하도록 학습될 수 있다. 그러나 본 개시는 이에 제한되지 않으며, 생성기는, 데이터 셋의 유형(예컨대, 이미지, 텍스트, 및 음성 중 적어도 하나를 포함하는 데이터의 집합) 및 출력 데이터(예컨대, 가짜 이미지 데이터, 가짜 텍스트 데이터 또는 가짜 음성 데이터)의 임의의 조합을 특징으로 하는 서브 생성기들을 포함할 수 있다.

일 실시 예에 있어서, 판별기는 생성기가 출력하는 출력 데이터, 즉 가짜 데이터의 유형에 따라 복수 개의 서브 판별기들을 포함할 수 있다. 예를 들어, 제1 서브 판별기는 가짜 음성 데이터 또는 실제 음성 데이터를 입력으로 하여, 가짜 음성 데이터 또는 실제 음성 데이터의 가짜 여부를 판별하도록 학습될 수 있다. 제2 서브 판별기는 가짜 이미지 데이터 또는 실제 이미지 데이터를 입력으로 하여, 가짜 이미지 데이터 또는 실제 이미지 데이터의 가짜 여부를 판별하도록 학습될 수 있다. 제3 서브 판별기는 가짜 텍스트 데이터 또는 실제 텍스트 데이터를 입력으로 하여, 가짜 텍스트 데이터 또는 실제 텍스트 데이터의 가짜 여부를 판별하도록 학습될 수 있다. 생성기는 상술한 GAN의 학습 과정을 통해 학습될 수 있다.

도 3a는 일 실시 예에 따른 전자 장치가 적대적 생성 신경망을 이용하여 얼굴 정보를 압축 및 복원하여 개선된 얼굴 이미지를 생성하는 방법을 설명하기 위한 도면이다.

적대적 생성 신경망은 압축 모듈(310), 컨볼루션 모듈(320) 및 복원 모듈(330)을 포함할 수 있다. 적대적 생성 신경망의 압축 모듈(310) 및 복원 모듈(330)이 포함할 수 있는 단(stage)의 개수는 제한되지 않으나, 이하에서는 편의상 3개의 압축단 및 복원단을 포함하는 것으로 설명한다.

적대적 생성 신경망은 열화된 이미지를 입력 이미지(300)로 획득하고, 여러 단을 거쳐 입력 이미지(300)를 압축할 수 있다. 예를 들어, 압축 모듈(310)은 제1 압축단, 제2 압축단, 및 제3 압축단을 포함할 수 있다. 적대적 생성 신경망은 복수의 압축단을 거치며, 입력 이미지(300)를 순차적으로 압축할 수 있다. 예를 들어, 적대적 생성 신경망은 제1 압축단에서 입력 이미지(300)를 입력 받아 제1 압축 이미지를 출력하고, 제2 압축단에서 제1 압축 이미지를 입력 받아 제2 압축 이미지를 출력하고, 제3 압축단에서 제3 압축 이미지를 출력할 수 있다.

일 실시예에서, 적대적 생성 신경망은 각 압축단에서, 입력 이미지(300) 또는 압축 이미지의 시멘틱 정보를 추출할 수 있다. 예를 들어, 제1 압축단에서 제1 압축 이미지의 제1 시멘틱 정보를 추출하고, 제2 압축단에서 제2 압축 이미지의 제2 시멘틱 정보를 추출하고, 제3 압축단에서 제3 압축 이미지의 제3 시멘틱 정보를 추출할 수 있다. 각 압축단은 추출한 시멘틱 정보를 복원 모듈(330)의 각 복원단으로 전송할 수 있다. 예를 들어, 제3 압축단은 제1 복원단으로 제3 시멘틱 정보를 전송하고, 제2 압축단은 제2 복원단으로 제2 시멘틱 정보를 전송하고, 제1 압축단은 제3 복원단으로 제1 시멘틱 정보를 전송할 수 있다.

일 실시예에서, 컨볼루션 모듈(320)은 입력 이미지(300)에 대하여 컨볼루션 연산을 수행한 결과를 제1 복원단으로 전송할 수 있다. 제1 복원단은 입력 이미지(300)에 대한 컨볼루션 연산을 수행한 결과에 기반하여 압축된 이미지의 복원을 수행할 수 있다.

일 실시예에서, 적대적 생성 신경망의 복원 모듈(330)은 여러 단을 거쳐, 압축된 이미지를 복원하여 개선된 이미지를 출력할 수 있다. 예를 들어, 복원 모듈(330)은 제1 복원단, 제2 복원단 및 제3 복원단을 포함할 수 있다. 적대적 생성 신경망은 복수의 복원단을 거치며, 압축된 이미지를 순차적으로 복원할 수 있다. 예를 들어, 적대적 생성 신경망은 제1 복원단에서 제3 압축 이미지를 입력 받아 제1 복원 이미지를 생성하고, 제2 복원단에서 제1 복원 이미지를 입력 받아 제2 복원 이미지를 생성하고, 제3 복원단에서 제2 복원 이미지를 입력 받아 출력 이미지(340)를 생성할 수 있다.

일 실시예에서, 적대적 생성 신경망은 각 복원단에서, 각 압축단으로부터 수신한 시멘틱 정보에 기반하여 이미지를 복원할 수 있다. 예를 들어, 제1 복원단은 수신한 제3 시멘틱 정보에 기반하여 제1 복원 이미지를 출력하고, 제2 복원단은 수신한 제2 시멘틱 정보에 기반하여 제2 복원 이미지를 출력하고, 제3 복원단은 수신한 제1 시멘틱 정보에 기반하여 출력 이미지(340)를 출력할 수 있다.

도 3b는 본 개시의 일 실시예에 따른 전자 장치가 도 3a에서 설명한 알고리즘에 4개의 채널을 입력하여 입력 이미지(300)의 화질 개선을 수행하는 과정을 도시한 것이다. 도 3b 알고리즘의 이미지 화질 개선 동작에서 도 3a 알고리즘과 유사한 부분에 대한 설명은 생략하도록 한다. 도 3a의 알고리즘에는 압축 모듈(310)에 입력 이미지(300)의 R값, G값, B값의 3 채널을 입력할 수 있다. 도 3b의 알고리즘에는 입력 이미지(300)의 R값, G값, B값 및 영역 정보의 4 채널이 입력될 수 있다. 적대적 생성 신경망은 4 채널 정보를 이용하여, 3 채널 정보를 활용한 도 3a의 알고리즘보다 더 개선된 출력 이미지(340)를 생성할 수 있다.

전자 장치는 입력 이미지에서 적어도 하나의 얼굴 이미지를 검출하고, 입력 이미지에서 얼굴 이미지가 포함되지 않은 영역을 배경 이미지로 결정할 수 있다. 전자 장치는 얼굴 이미지에 대해 화질 개선 프로세스를 수행한 이후, 얼굴 이미지의 경계 영역에 대하여 아래 수학식 1에 따라 화질이 개선된 얼굴 이미지와 배경 이미지를 합성할 수 있다.

: 출력 이미지

: 얼굴 이미지

: 배경 이미지

: 합성 비율

전자 장치는 화질이 개선된 얼굴 이미지 및 배경 이미지의 자연스러운 합성을 위한 합성 비율(

)을 결정할 수 있다. 합성 비율은 출력 이미지에서 화질이 개선된 얼굴 이미지가 반영된 비율을 의미할 수 있다. 합성 비율이 클수록 출력 이미지에서 화질이 개선된 얼굴 이미지가 반영된 비율이 증가하고, 배경 이미지가 반영된 비율이 감소할 수 있다. 전자 장치는 화질이 개선된 얼굴 이미지와 배경 이미지 사이의 경계를 자연스럽게 처리하기 위하여, 합성 비율이 개선된 얼굴 이미지의 경계로 갈수록 감소하도록 설정할 수 있다. 예를 들어, 전자 장치는 화질이 개선된 얼굴 이미지의 가운데를 포함하는 영역을 중앙 영역으로 결정하고, 얼굴 이미지의 가장자리를 포함하는 영역을 테두리 영역으로 결정할 수 있다. 전자 장치는 중앙 영역에서는 합성 비율을 1로 설정(개선된 얼굴 이미지를 반영)하고, 테두리 영역에서는 배경 이미지와 가까워질수록 합성 비율을 감소시켜 배경 이미지와의 경계 부분에서는 합성 비율이 0에 가깝게 되도록 설정(배경 이미지를 반영)할 수 있다. 기존 기술의 경우 얼굴의 윤곽이 확실하지 않아 얼굴의 경계로 갈수록 합성 비율이 감소하는 속도가 작았다(400). 즉, 중앙 영역(402)의 크기가 작고 테두리 영역(404)이 넓었다. 따라서 출력 이미지에서 얼굴 이미지와 배경 이미지가 중첩되는 영역이 넓게 생겨나 아티팩트가 발생하는 문제가 있었다. 그러나 본 개시에 따른 전자 장치는 영역 정보를 활용하여 얼굴의 윤곽을 명확하게 파악할 수 있으므로, 개선된 얼굴 이미지의 경계로 갈수록 합성 비율이 감소하는 속도를 증가시킬 수 있다(410). 예를 들어, 중앙 영역(412)의 크기가 크고 테두리 영역(414)이 좁은 출력 이미지를 생성할 수 있다. 따라서 본 개시에 따른 전자 장치는 화질이 개선된 얼굴 이미지와 배경 이미지가 중첩되는 영역이 최소화된 출력 이미지를 생성할 수 있다. 전자 장치는 얼굴 이미지와 배경 이미지 사이의 경계를 명확하게 반영하면서도 아티팩트가 발생하지 않도록 자연스럽게 합성할 수 있다.

전자 장치는 입력 이미지의 영역 정보를 생성할 수 있다. 입력 이미지의 영역 정보는 입력 이미지에 포함된 적어도 하나의 얼굴 이미지에 포함된 신체 부위에 대한 정보를 포함할 수 있다. 전자 장치가 생성할 수 있는 영역 정보는 신체 부위에 대한 정보에 제한되지 않고 입력 이미지에 포함될 수 있는 다양한 오브젝트(예: 배경, 동물, 사물)에 대한 정보를 포함할 수 있으나, 이하에서는 신체 부위에 대한 정보에 한하여 설명하도록 한다.

일 실시예에 따르면, 전자 장치는 얼굴 이미지에 포함된 신체 부위의 위치 및 종류에 대한 정보를 포함하는 얼굴 영역 정보(face-segmentation information)를 생성할 수 있다. 전자 장치는 영역 정보를 생성하기 위하여 입력 이미지에서 적어도 하나의 신체 부위를 인식할 수 있다. 예를 들어, 도 5를 참조하면, 전자 장치는 얼굴 이미지에 포함된 눈썹(502), 눈(504), 코(506), 입(508)의 위치 및 종류에 대한 정보를 포함하는 영역 정보를 생성할 수 있다.

일 실시예에 따르면, 전자 장치는 입력 이미지와 같은 크기의 어레이 데이터를 생성하고, 인식한 신체 부위를 포함하는 영역에 대응하는 어레이 데이터의 각 요소에 정해진 값을 부여할 수 있다. 전자 장치는 각 신체 부위의 종류에 따라 서로 다른 값을 어레이 데이터의 각 요소에 부여할 수 있다. 예를 들어, 전자 장치는 눈썹(502)이 포함된 영역에 대응하는 어레이 데이터의 각 요소에는 1, 눈(504)이 포함된 영역에 대응하는 어레이 데이터의 각 요소에는 2, 코(506)가 포함된 영역에 대응하는 어레이 데이터의 각 요소에는 3, 입(508)이 포함된 영역에 대응하는 어레이 데이터의 각 요소에는 4를 부여할 수 있다. 전자 장치는 신체 부위가 인식되지 않은 영역에 대응하는 어레이 데이터의 각 요소에는 0을 부여할 수 있다. 인공 신경망은 영역 정보를 입력 받아 얼굴 이미지에서 각 신체 부위의 위치 및 종류를 인식할 수 있다.

전자 장치는 얼굴 이미지(600)의 적어도 하나의 영역의 윤곽(602)을 지시하는 영역 정보를 생성할 수 있다. 예를 들어, 전자 장치는 얼굴에 포함된 적어도 하나의 신체 부위의 윤곽(602)을 지시하는 영역 정보를 생성할 수 있다. 도 6을 참조하면, 전자 장치는 생성한 어레이 데이터에서 눈썹, 눈, 코, 입, 턱의 윤곽(602)에 대응하는 요소에 정해진 값을 부여하여 영역 정보를 생성할 수 있다. 예를 들어, 전자 장치는 어레이 데이터에서 눈썹, 눈, 코, 입, 턱의 윤곽(602)에 대응하는 요소들에 1을 부여하고, 어레이 데이터의 나머지 요소들에 0을 부여하여 영역 정보를 생성할 수 있다.

일 실시예에 따르면, 전자 장치는 얼굴의 전체적인 윤곽을 영역 정보에 반영하기 위하여, 턱 윤곽을 연장하여 얼굴의 전체적인 윤곽을 임의로 생성할 수 있다. 예를 들어, 전자 장치는 턱 윤곽의 양 끝 점을 지름으로 하는 반원을 이마 쪽으로 그리고, 그린 반원과 턱 윤곽을 합친 부분을 얼굴의 전체적인 윤곽으로 설정할 수 있다. 전자 장치는 데이터 어레이에서 얼굴의 전체적인 윤곽 및 얼굴 내부의 신체 부위의 윤곽에 대응하는 요소들에 정해진 값을 부여하여 영역 정보를 생성할 수 있다.

전자 장치는 도 5 및 도 6에서 설명한 바와 같이 생성한 영역 정보를 인공 신경망에 입력하여, RGB값만을 이용한 이미지 화질 개선보다 더 화질이 개선된 출력 이미지를 생성할 수 있다.

도 7을 참조하면, 일 실시예에 따른 전자 장치는 입력부(700), 열화된 이미지 검출부(710) 및, 얼굴 이미지 검출부(722), 얼굴 이미지 복원부(724), 배경 복원부(726) 및 영역 합성부(728)를 포함하는 열화된 이미지 처리부(720)를 포함할 수 있다.

입력부(700)는 입력 이미지를 수신한다.

열화된 이미지 검출부(710)는 수신된 입력 이미지가 열화된 이미지인지 아닌지를 결정할 수 있다. 예를 들어, 열화된 이미지 검출부(710)는 입력 이미지에 대한 영상 처리를 수행하여, 입력 이미지에 빛 바램이 포함되는 지 여부, 입력 이미지의 색상 분포 정보, 입력 이미지의 노이즈 정보 등을 포함하는 입력 이미지의 특성 정보를 획득할 수 있다. 열화된 이미지 검출부(710)는 획득한 입력 이미지의 특성 정보에 기초하여, 입력 이미지가 열화된 이미지인지 아닌지를 결정할 수 있다.

또는, 열화된 이미지 검출부(710)는 분류 네트워크(도시되지 않음)를 이용하여, 입력 이미지가 열화된 이미지인지 아닌지를 결정할 수 있다. 분류 네트워크에 대해서는 도 8을 참조하여 자세히 설명하기로 한다.

일 실시예에 따른 분류 네트워크(810)는 입력 이미지를 2가지로 분류하는 2-class 분류 모델일 수 있다. 예를 들어, 입력 이미지를 열화된 이미지 또는 일반 이미지로 분류하는 모델일 수 있다. 예를 들어, 도 8을 참조하면, 분류 네트워크(810)는 복수의 컨볼루션 레이어들(convolutional layers, 812), 복수의 풀링 레이어들(pooling layers, 814) 및 복수의 완전 연결 레이어들(fully connected layers, 816)을 포함하는 VGG 네트워크를 포함할 수 있다. 분류 네트워크(810)는 이에 한정되지 않으며 다양한 구조를 포함할 수 있다.

다시 도 7을 참조하면, 열화된 이미지 검출부(710)에서 입력 이미지가 열화된 이미지로 분류되는 경우, 입력 이미지는 열화된 이미지 처리부(720)에 의해 영상 처리가 수행될 수 있다. 일 실시예에서, 열화된 이미지 처리부(720)는 인공지능 알고리즘으로 구현될 수 있으며, 예를 들어, 적대적 생성 신경망(GAN)을 이용하여 구현될 수 있다.

일 실시예에 따른 열화된 이미지 처리부(720)는 얼굴 이미지 검출부(722), 얼굴 이미지 복원부(724), 배경 복원부(726), 및 영역 합성부(728)를 포함할 수 있다.

얼굴 이미지 검출부(722)는 다양한 알고리즘, 다양한 모델을 이용하여, 얼굴 영역을 검출할 수 있다. 예를 들어, 얼굴 이미지 검출부(722)는 HoG(Histogram of Oriented Gradient) 기반 특징 검출 알고리즘을 이용하여, 얼굴 영역을 검출할 수 있다. 일 실시예에서, 얼굴 이미지 검출부(722)는 입력된 영상을 일정한 크기의 영역들로 분할하고, 영역 별로 픽셀들의 그래디언트를 계산할 수 있다. 예를 들어, 얼굴 이미지 검출부(722)는 각 영역에 대하여, 하나의 영역에 포함된 픽셀들 중 그래디언트가 일정 값 이상인 픽셀들의 방향에 대한 히스토그램을 계산하고, 계산된 히스토그램에 기초하여, 해당 영역이 얼굴 영역인지 결정할 수 있다. 일 실시예에서, 얼굴 이미지 검출부(722)는 분류 네트워크(810)를 이용하여, 얼굴 영역을 검출할 수 있으며, 이에 한정되지 않는다.

입력 이미지에 얼굴 영역이 포함되는 경우, 얼굴 이미지 복원부(724)는 얼굴 복원 모델을 이용하여, 입력 이미지에 포함되는 얼굴 영역의 화질을 복원하는 영상 처리를 수행하고, 화질이 복원된 얼굴 영역을 출력할 수 있다.

배경 복원부(726)는 배경 복원 모델을 이용하여, 입력 이미지에 포함된 얼굴 영역이 아닌 배경 영역의 화질을 복원하는 영상 처리를 수행하여, 화질이 복원된 배경 영역을 출력 할 수 있다.

영역 합성부(728) 는 얼굴 이미지 복원부(724)에서 화질이 복원된 얼굴 영역과 배경 복원부(726)에서 화질이 복원된 배경 영역을 합성하여, 복원된 이미지 획득할 수 있다.

한편, 열화된 이미지 검출부(710)에서 입력 이미지가 열화된 이미지가 아닌 일반 이미지로 분류되는 경우, 입력 이미지는 열화된 이미지 처리부(720)에 입력되지 않을 수 있다.

일 실시예에 따른 열화된 이미지 복원 모델, 얼굴 복원 모델, 배경 복원 모델들은 동일 유사한 구조를 가지는 영상 처리 네트워크를 포함할 수 있으며, 상기 영상 처리 네트워크는 하나 이상의 네트워크들로 구성될 수 있다.

도 9를 참조하면, 전자 장치가 열화된 이미지를 복원하는 과정에서 의도하지 않은 색상 노이즈가 발생할 수 있다. 예를 들어, 전자 장치는 열화된 이미지인 제1 이미지(900)를 복원하여 제2 이미지(910)를 생성할 수 있다. 전자 장치의 이미지 복원 과정에서 제2 이미지(910)의 중간 부분에 의도하지 않은 색상 노이즈(912)가 나타날 수 있다. 전자 장치는 의도적으로 컬러 손실을 발생시켜, 색상 노이즈(912)가 없는 제3 이미지(920)를 생성할 수 있다. 이하, 전자 장치가 색상 노이즈(912)가 없는 이미지를 출력하는 방법을 설명하도록 한다.

전자 장치는 열화된 이미지를 복원하기 위하여 적대적 생성 신경망을 학습할 수 있다. 일 실시예에 따르면, 전자 장치는 열화된 이미지를 효과적으로 복원하기 위하여 적대적 생성 신경망의 적어도 하나의 노드에 대한 가중치를 결정할 수 있다. 예를 들어, 전자 장치는 열화도가 매우 낮은 GT(ground truth) 영상을 이용하여 적대적 생성 신경망의 가중치를 결정할 수 있다. GT 영상은 열화도가 매우 낮은 임의의 영상으로, 적대적 생성 신경망의 출력값을 훈련 및 테스트하기 위한 실제 환경의 데이터일 수 있다.

일 실시예에서, 전자 장치는 GT 영상에 인위적으로 노이즈를 추가한 테스트 영상을 생성하고, 테스트 영상을 적대적 생성 신경망에 입력할 수 있다. 전자 장치는 테스트 영상을 적대적 생성 신경망에 입력해서 생성된 출력 영상을 원본인 GT 영상과 비교하고, 출력 영상과 GT 영상의 픽셀와이즈 에러(pixel-wise error)(예: L1 loss, L2 loss)를 계산할 수 있다. 픽셀와이즈 에러는 출력 영상 및 GT 영상이 각 픽셀에서 갖는 값의 차이를 반영한 값이다. 예를 들어, L1 loss는 출력 영상 및 GT 영상이 각 픽셀에서 갖는 값의 차이를 모두 더하여 계산할 수 있고, L2 loss는 출력 영상 및 GT 영상이 각 픽셀에서 갖는 값의 차이의 제곱을 모두 더하여 계산할 수 있다.

일 실시예에 따르면, 전자 장치는 출력 영상 및 GT 영상의 색상 도메인을 변환하고, 색상 도메인이 변환된 출력 영상 및 GT 영상의 픽셀와이즈 에러를 계산할 수 있다. 예를 들어, 전자 장치는 원래 RGB 포맷이었던 출력 영상 및 GT 영상을 YUV 포맷(또는 HSV 포맷)으로 변경하고, YUV 포맷 상에서 출력 영상 및 GT 영상의 픽셀와이즈 에러를 계산할 수 있다.

일 실시예에서, 전자 장치는 출력 영상 및 GT 영상의 총 변동(total variation: TV)값을 계산할 수 있다. 총 변동값은 각 영상의 색 편차(variance)를 나타내는 값으로, 자연 영상(예: GT 영상)의 경우 정해진 값 미만일 수 있다. 반면, 편집된 사진이거나 복원 과정에서 에러가 발생한 경우에는 총 변동값이 정해진 값보다 크게 계산될 수 있다. 전자 장치는 색상 도메인이 변환된 출력 영상의 총 변동 값을 계산할 수 있다. 일 실시예에 따르면, 전자 장치는 크로마 채널(chroma channel)의 정보를 이용하여 총 변동 값을 계산할 수 있다. 크로마 채널은 영상의 3개 채널 중 색에 대한 정보를 포함하는 채널로, YUV 포맷의 경우 UV 채널, HSV 포맷의 경우 H 채널일 수 있다.

전자 장치는 계산된 픽셀와이즈 에러 및 총 변동 값에 기초하여 적대적 생성 신경망의 가중치를 결정할 수 있다. 전자 장치는 픽셀와이즈 에러 및 TV값이 작아지도록 가중치를 결정(또는 수정)할 수 있다.

도 10은 본 개시의 일 실시예에 따른 전자 장치가 화질이 개선된 얼굴 이미지 및 배경 이미지를 합성하는 비율을 조절하는 실시예를 설명하기 위한 도면이다. 설명의 간략을 위해, 도 7에서 이미 설명된 기능 블록에 대한 설명은 생략하도록 한다.

전자 장치는 화질이 개선된 얼굴 이미지 및 배경 이미지를 합성하기 위한 합성 비율(1010)을 결정할 수 있다.

일 실시예에 따르면, 영역 합성부(728)는 사용자 입력에 기초하여 합성 비율(1010)을 결정할 수 있다. 예를 들어, 영역 합성부(728)는 합성 비율(1010)을 선택할 수 있는 사용자 인터페이스(1000)를 제공하고, 인터페이스(1000)에 대한 사용자의 터치 입력에 기초하여 합성 비율(1010)을 결정할 수 있다. 예를 들어, 사용자가 인터페이스(1000)를 통하여 합성 비율(1010)의 최대값을 0.5로 결정하면, 영역 합성부(728)는 화질이 개선된 얼굴 이미지 및 배경 이미지를 합성할 때 0.5 이하의 합성 비율로 출력 이미지를 생성할 수 있다. 전자 장치는 화질이 개선된 얼굴 이미지 및 배경 이미지의 합성을 위한 합성 비율의 최적값을 0.7로 결정했다고 하더라도 합성 비율을 0.5로 결정할 수 있다.

도 11은 본 개시의 일 실시예에 따른 전자 장치가 제2 입력 이미지를 이용하여 이미지 화질을 개선하는 방법을 설명하기 위한 도면이다. 설명의 간략을 위해, 도 7 및 도 8에서 설명한 내용과 중복되는 내용은 생략하도록 한다.

일 실시예에서, 얼굴 이미지 복원부(724)는 제2 입력 이미지(1110)를 획득할 수 있다. 제2 입력 이미지(1110)는 입력부(700)로 입력된 입력 이미지와 다른 이미지로, 동일 인물의 다른 사진이거나, 다른 인물의 사진일 수 있다. 일 실시예에서, 얼굴 이미지 복원부(724)는 제2 입력 이미지(1110)를 참조하여 입력 이미지의 얼굴 이미지를 복원할 수 있다. 얼굴 이미지 복원부(724)는 사용자 인터페이스(1100)를 제공하고, 사용자 인터페이스(1100)에 대한 사용자 입력에 기초하여 제2 입력 이미지(1110)를 획득할 수 있다.

일 실시예에 따르면, 얼굴 이미지 복원부(724)는 입력부(700)에 입력 이미지가 입력되기 이전에 제2 입력 이미지(1110)를 획득하고, 제2 입력 이미지(1110)를 반영한 얼굴 복원 모델을 학습할 수 있다. 얼굴 이미지 복원부(724)는 얼굴 복원 모델을 학습할 때 제2 입력 이미지(1110)의 스타일과 비슷하게 얼굴을 복원할 수 있도록 하는 새로운 손실 함수를 이용할 수 있다. 얼굴 이미지 복원부(724)는 제2 입력 이미지(1110)의 얼굴 영역에 대한 특징을 추출하고, 아래 수학식 2를 이용하여 새로운 손실 함수를 계산할 수 있다.

: 제2 입력 이미지의 스타일을 반영한 새로운 손실 함수

: 기존 손실 함수

: 제2 입력 이미지의 스타일에 대한 손실 함수

예를 들어, 얼굴 이미지 복원부(724)는 새로운 손실 함수를 활용하여, 열화된 이미지인 입력 이미지를 제2 입력 이미지(1110)의 이목구비 또는 텍스처와 유사한 방향으로 복원할 수 있다.

이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

입력 이미지의 화질을 개선하기 위한 전자 장치에 있어서,

적어도 하나의 인스트럭션이 저장된 메모리; 및

적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여,

상기 입력 이미지의 열화도를 계산하고,

상기 입력 이미지의 열화도가 정해진 값보다 큰 것으로 결정함에 대응하여 상기 입력 이미지에 포함된 적어도 하나의 얼굴 이미지를 검출하고,

상기 적어도 하나의 얼굴 이미지에 포함된 적어도 하나의 영역의 위치 및 종류를 지시하는 영역 정보를 생성하고,

상기 입력 이미지 및 상기 영역 정보를 입력으로 하는 인공 신경망(Artificial Neural Network; ANN)을 이용하여, 화질이 개선된 얼굴 이미지를 생성하고, 및

상기 화질이 개선된 얼굴 이미지 및 상기 입력 이미지를 합성하여 출력 이미지를 생성하는 전자 장치.
제1 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 입력 이미지의 색상 정보 및 노이즈 정보를 포함하는 특성 정보에 기초하여 상기 적어도 하나의 얼굴 이미지 각각의 화질을 지시하는 적어도 하나의 열화도를 계산하고, 및

계산한 상기 적어도 하나의 열화도에 기반하여 상기 입력 이미지의 화질 개선이 필요한지 여부를 결정하는 전자 장치.
제2 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 적어도 하나의 열화도를 합산한 값과 상기 적어도 하나의 얼굴 이미지의 총 개수의 비율이 정해진 값보다 큰 것으로 계산함에 대응하여, 상기 입력 이미지의 화질 개선이 필요한 것으로 결정하는 전자 장치.
제2 항 또는 제3 항에 있어서,

상기 적어도 하나의 프로세서는,

열화도가 정해진 값보다 큰 것으로 결정함에 대응하여, 상기 열화도에 대응하는 얼굴 이미지를 화질 개선이 필요한 것으로 결정하는 전자 장치.
제4 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 화질 개선이 필요한 것으로 결정한 얼굴 이미지의 수와 상기 적어도 하나의 얼굴 이미지의 총 개수의 비율이 정해진 값보다 크면 상기 입력 이미지의 화질 개선이 필요한 것으로 결정하는 전자 장치.
제1 항 내지 제5 항 중 어느 한 항에 있어서,

상기 적어도 하나의 프로세서는,

입력 이미지의 각 픽셀의 RGB 정보를 포함하는 컬러 데이터와 같은 크기를 갖고, 모든 요소의 값이 0인 어레이 데이터를 생성하고,

상기 얼굴 이미지에 포함된 적어도 하나의 영역에 대응하는 상기 어레이 데이터의 적어도 하나의 요소에 1 값을 부여하여 영역 정보를 생성하는 전자 장치.
제1 항 내지 제6 항 중 어느 한 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 얼굴 이미지의 적어도 하나의 영역의 종류를 결정하고,

상기 컬러 데이터와 같은 크기를 갖고, 모든 요소의 값이 0인 어레이 데이터를 생성하고,

상기 얼굴 이미지에 포함된 적어도 하나의 영역에 대응하는 상기 어레이 데이터의 적어도 하나의 요소에, 상기 결정한 적어도 하나의 영역의 종류를 지시하는 값을 부여하여 영역 정보를 생성하는 전자 장치.
제1 항 내지 제7 항 중 어느 한 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 적어도 하나의 얼굴 이미지에 포함된 적어도 하나의 영역의 윤곽 및 상기 적어도 하나의 영역의 내부 중 적어도 하나를 지시하는 영역 정보를 생성하는 전자 장치.
제1 항 내지 제8 항 중 어느 한 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 입력 이미지에서 상기 적어도 하나의 얼굴 이미지를 제외한 배경 이미지를 검출하고, 및

상기 화질이 개선된 얼굴 이미지 및 상기 배경 이미지의 합성 비율을 결정하고,

상기 합성 비율에 기초하여, 상기 화질이 개선된 얼굴 이미지 및 상기 배경이미지를 합성하여 출력 이미지를 생성하는 전자 장치.
제1 항 내지 제9 항 중 어느 한 항에 있어서,

상기 적어도 하나의 프로세서는,

GT(ground truth) 영상을 획득하고,

상기 GT 영상에 노이즈를 추가한 테스트 영상을 생성하고,

상기 테스트 영상을 정해진 웨이트를 갖는 적대적 생성 신경망에 입력하여 출력 영상을 획득하고,

상기 출력 영상 및 상기 테스트 영상의 색상 도메인을 변환하고,

상기 색상 도메인을 변환한 출력 영상 및 테스트 영상의 픽셀와이즈 에러(pixel-wise error)를 계산하고,

상기 픽셀와이즈 에러에 기초하여 상기 웨이트를 변경하는 전자 장치.
제10 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 색상 도메인을 변환한 출력 영상의 크로마 채널(chroma channel)의 TV(total variance) 값을 계산하고,

상기 크로마 채널의 TV 값이 정해진 값보다 큰 것으로 확인함에 대응하여 상기 웨이트를 변경하는 전자 장치.
입력 이미지의 화질을 개선하기 위한 전자 장치를 이용한 이미지 화질 개선 방법에 있어서,

상기 입력 이미지의 열화도를 계산하고, 상기 입력 이미지의 열화도가 정해진 값보다 큰 것으로 결정함에 대응하여, 상기 입력 이미지에 포함된 적어도 하나의 얼굴 이미지를 검출하는 동작,

상기 적어도 하나의 얼굴 이미지에 포함된 적어도 하나의 영역의 위치 및 종류를 지시하는 영역 정보를 생성하는 동작,

상기 입력 이미지 및 상기 영역 정보를 입력으로 하는 인공 신경망(Artificial Neural Network; ANN)을 이용하여, 화질이 개선된 얼굴 이미지를 생성하는 동작, 및

상기 화질이 개선된 얼굴 이미지 및 상기 입력 이미지를 합성하여 출력 이미지를 생성하는 동작을 포함하는 방법.
제12 항에 있어서,

상기 출력 이미지를 생성하는 동작은,

상기 입력 이미지의 색상 정보 및 노이즈 정보를 포함하는 특성 정보에 기초하여 상기 적어도 하나의 얼굴 이미지 각각의 화질을 지시하는 적어도 하나의 열화도를 계산하는 동작, 및

계산한 적어도 하나의 열화도에 기반하여 상기 입력 이미지의 화질 개선이 필요한지 여부를 결정하는 동작을 포함하는 방법.
제12 항 또는 제13 항 에 있어서,

상기 영역 정보를 생성하는 동작은,

입력 이미지의 각 픽셀의 RGB 정보를 포함하는 컬러 데이터와 같은 크기를 갖고, 모든 요소의 값이 0인 어레이 데이터를 생성하고,

상기 얼굴 이미지에 포함된 적어도 하나의 영역에 대응하는 상기 어레이 데이터의 적어도 하나의 요소에 1 값을 부여하여 영역 정보를 생성하는 동작을 더 포함하는 방법.
제12 항 내지 제14 항 중 어느 한 항의 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.