KR102614662B1 - 화소 단위 사영 판별자를 이용한 영상 노이즈 제거 방법 및 장치 - Google Patents

화소 단위 사영 판별자를 이용한 영상 노이즈 제거 방법 및 장치 Download PDF

Info

Publication number
KR102614662B1
KR102614662B1 KR1020230012395A KR20230012395A KR102614662B1 KR 102614662 B1 KR102614662 B1 KR 102614662B1 KR 1020230012395 A KR1020230012395 A KR 1020230012395A KR 20230012395 A KR20230012395 A KR 20230012395A KR 102614662 B1 KR102614662 B1 KR 102614662B1
Authority
KR
South Korea
Prior art keywords
image
face image
network
pixel
weight
Prior art date
Application number
KR1020230012395A
Other languages
English (en)
Inventor
허용석
한수지
이태복
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020230012395A priority Critical patent/KR102614662B1/ko
Application granted granted Critical
Publication of KR102614662B1 publication Critical patent/KR102614662B1/ko

Links

Images

Classifications

    • G06T5/002
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • G06T5/003
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 개시의 일 실시예에 따른 얼굴 영상 노이즈 제거 방법은, 제1 얼굴 영상을 수신하는 단계; 및 얼굴의 주요 부위별 분할 맵(segmentation label map)을 반영하여 학습된 생성자 네트워크(Generator)를 이용하여, 상기 제1 얼굴 영상에서 노이즈를 제거함으로써, 상기 노이즈가 제거된 제1 얼굴 영상을 복원하는 단계를 포함한다.

Description

화소 단위 사영 판별자를 이용한 영상 노이즈 제거 방법 및 장치 {METHOD AND APPARATUS FOR REMOVING NOISE OF IMAGE USING PIXEL WISE PROJECTION DISCRIMINATOR}
본 개시는 영상 노이즈 제거 기술에 관한 것이며, 보다 구체적으로 화소 단위 사영 판별자를 이용하여 영상에서 노이즈 예를 들어, 흐릿함 등을 제거함으로써, 선명한 영상을 복원할 수 있는 영상 노이즈 제거 방법 및 장치에 대한 것이다.
기존의 얼굴 영상에서 흐릿함을 제거하는 방법은 얼굴 3차원 지도(face 3D map), 얼굴의 부위별 분할 지도(semantic label map), 영상 생성 모델(generative adversarial networks) 등 얼굴에 대한 사전 정보를 복원 과정에서 다양하게 이용한다. 특히, 영상 생성 모델은 생성자(generator)와 판별자(discriminator) 사이의 최소극대화(min-max game)로 학습 데이터의 분포를 학습하여 사실적인 데이터를 생성한다. 판별자는 학습 데이터의 영상을 사실로 판단하고 생성자가 생성한 영상을 거짓으로 판단하는 것을 목적으로 한다. 반면, 생성자는 판별자가 학습 데이터의 영상과 구분할 수 없도록 학습 데이터의 확률 분포를 따르는 영상 생성을 목적으로 한다.
영상 생성 모델을 활용하는 기존 방식들은 선명한 얼굴 영상만의 확률 분포를 모델링하기에, 얼굴 영상과 추가 정보의 결합확률분포(joint distribution)는 모델링하지 못한다는 공통점이 있다. 판별자가 입력에 대해 사실/거짓(또는 참/거짓) 판단을 하는 과정에서 얼굴의 구성요소 정보(segmentation label map)를 활용하지 않으면 얼굴의 주요 부위가 아닌 상대적으로 덜 중요한 부분의 영향을 받을 가능성이 있다. 또한, 입력 영상에 대해 전역적인(global) 판단을 하므로 화소 단위의 디테일이 저하되어 영상의 부정확한 복원 결과를 초래한다.
영상 생성 분야에서는 조건 영상 생성 모델(conditional generative adversarial networks)이 영상과 추가 정보의 결합확률분포를 모델링한다. 특히, 사영 생성 네트워크는 결합확률분포를 marginal 분포와 conditional 분포로 분해한다는 특징이 있으나 화소 단위의 결합확률분포는 모델링하지 못한다는 단점이 있다. 또한, U-Net 구조의 영상 생성 네트워크는 인코더-디코더 구조의 판별자로 영상 전체에 대한 사실/거짓 뿐만 아니라 화소 단위의 사실/거짓을 판단하지만, 입력으로 추가 정보를 받을 수 없는 구조이고, 화소 단위의 사실/거짓 판단 출력을 평균하는 과정에서 사실과 거짓 중 지배적인 클래스에 편중된다는 문제가 있다.
본 개시의 기술적 과제는, 화소 단위 사영 판별자를 이용하여 영상에서 노이즈 예를 들어, 흐릿함 등을 제거함으로써, 선명한 영상을 복원할 수 있는 영상 노이즈 제거 방법 및 장치를 제공하는데 그 목적이 있다.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 실시예에 따른 얼굴 영상 노이즈 제거 방법은, 제1 얼굴 영상을 수신하는 단계; 및 얼굴의 주요 부위별 분할 맵(segmentation label map)을 반영하여 학습된 생성자 네트워크(Generator)를 이용하여, 상기 제1 얼굴 영상에서 노이즈를 제거함으로써, 상기 노이즈가 제거된 제1 얼굴 영상을 복원하는 단계를 포함한다.
이때, 상기 생성자 네트워크는, 학습 데이터셋에 포함된 얼굴 영상 또는 상기 생성자 네트워크에서 출력되는 얼굴 영상과 상기 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 화소 단위의 참과 거짓을 판단하는 판별자 네트워크(Discriminator)와의 학습을 통해 학습될 수 있다.
이때, 상기 판별자 네트워크는, 정답 얼굴 영상 또는 상기 생성자 네트워크의 출력 얼굴 영상을 입력으로 하여 얼굴 영상 전체에 대한 참과 거짓을 판단하는 인코더 네트워크; 및 상기 인코더 네트워크에서 생성되는 특징 맵(feature map)과 상기 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 상기 화소 단위의 참과 거짓을 판단하는 디코더 네트워크를 포함할 수 있다.
이때, 상기 디코더 네트워크는, 상기 정답 얼굴 영상의 상기 화소 단위의 판단 결과 값에 기초하여 상기 정답 얼굴 영상에 대한 상기 화소 단위의 가중치를 조절하는 제1 가중치 팩터와 상기 생성자 네트워크의 출력 얼굴 영상의 상기 화소 단위의 판단 결과 값에 기초하여 상기 출력 얼굴 영상에 대한 상기 화소 단위의 가중치를 조절하는 제2 가중치 팩터를 포함하는 손실 함수에 기초하여 학습될 수 있다.
이때, 상기 디코더 네트워크는, 상기 정답 얼굴 영상에 대하여 거짓으로 판단한 화소의 기여도를 높이도록 상기 제1 가중치 팩터의 가중치를 조절하고, 상기 출력 얼굴 영상에 대하여 참으로 판단한 화소의 기여도를 높이도록 상기 제2 가중치 팩터의 가중치를 조절하는 방향으로 학습될 수 있다.
이때, 상기 제1 가중치 팩터의 가중치는, 모든 화소의 가중치 합이 '1'이 되도록 정규화(normalization)되고, 상기 제2 가중치 팩터의 가중치는, 모든 화소의 가중치 합이 '1'이 되도록 정규화될 수 있다.
이때, 상기 생성자 네트워크는, 적대적 손실 함수를 포함하는 손실 함수에 의해 학습되고, 상기 적대적 손실 함수는, 상기 인코더 네트워크에서 상기 출력 얼굴 영상을 판단하는 제1 적대적 손실 함수, 상기 디코더 네트워크에서 상기 출력 얼굴 영상을 상기 화소 단위로 판단하는 제2 적대적 손실 함수 및 상기 제1 적대적 손실 함수와 상기 제2 적대적 손실 함수의 비율을 조절하는 균형 계수(balancing coefficient)를 포함할 수 있다.
이때, 상기 균형 계수는, 학습을 위한 전체 학습 단계 횟수와 현재 학습 단계 횟수에 따라 상이하게 조절될 수 있다.
이때, 상기 생성자 네트워크는, 상기 얼굴 영상과 상기 얼굴의 주요 부위별 분할 맵의 결합확률분포(joint distribution)가 모델링된 학습 모델을 학습할 수 있다.
본 개시의 다른 실시예에 따른 영상 노이즈 제거 방법은, 영상을 수신하는 단계; 및 상기 영상에 포함된 대상 객체의 주요 부위별 분할 맵을 반영하여 학습된 생성자 네트워크(Generator)를 이용하여, 상기 영상에서 노이즈를 제거함으로써, 상기 노이즈가 제거된 영상을 복원하는 단계를 포함한다.
본 개시의 또 다른 실시예에 따른 얼굴 영상 노이즈 제거 장치는, 제1 얼굴 영상을 수신하는 수신부; 및 얼굴의 주요 부위별 분할 맵(segmentation label map)을 반영하여 학습된 생성자 네트워크(Generator)를 이용하여, 상기 제1 얼굴 영상에서 노이즈를 제거함으로써, 상기 노이즈가 제거된 제1 얼굴 영상을 복원하는 복원부를 포함한다.
본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.
본 개시에 따르면, 화소 단위 사영 판별자를 이용하여 영상에서 노이즈 예를 들어, 흐릿함 등을 제거함으로써, 선명한 영상을 복원할 수 있는 영상 노이즈 제거 방법 및 장치를 제공할 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 얼굴 영상 노이즈 제거 장치를 설명하기 위한 예시도를 나타낸 것이다.
도 2는 본 개시의 일 실시예에 따른 얼굴 영상 노이즈 제거 장치에 대한 구성을 나타낸 것이다.
도 3은 본 개시에서 사용하는 화소 단위 사영 판별자에 대한 일 실시예의 구조를 나타낸 것이다.
도 4는 생성자와 판별자를 학습시키기 위한 프레임워크에 대한 일 실시예의 구조를 나타낸 것이다.
도 5는 정답 얼굴 영상과 가짜 얼굴 영상의 화소 단위 가중치를 조절하는 방식을 설명하기 위한 예시도를 나타낸 것이다.
도 6은 MSPL 데이터셋에 대하여 정략적 비교 결과를 나타낸 것이다.
도 7은 MSPL-Center 데이터셋에 대하여 얼굴 영상 복원 결과를 비교한 예시도를 나타낸 것이다.
도 8은 MSPL-Random 데이터셋에 대하여 얼굴 영상 복원 결과를 비교한 예시도를 나타낸 것이다.
도 9는 본 개시의 다른 실시예에 따른 얼굴 영상 노이즈 제거 방법에 대한 동작 흐름도를 나타낸 것이다.
도 10은 본 개시의 방법에서 생성자와 판별자를 학습시키는 과정에 대한 일 실시예의 동작 흐름도를 나타낸 것이다.
도 11은 본 개시의 일 실시예에 따른 얼굴 영상 노이즈 제거 장치가 적용되는 디바이스의 구성도를 나타낸 도면이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
본 개시의 실시예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결 관계 뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들 간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시예에서의 제1 구성요소는 다른 실시예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시예에서의 제2 구성요소를 다른 실시예에서 제1 구성요소라고 칭할 수도 있다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시예도 본 개시의 범위에 포함된다. 또한, 다양한 실시예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 본 명세서에 사용되는 위치 관계의 표현, 예컨대 상부, 하부, 좌측, 우측 등은 설명의 편의를 위해 기재된 것이고, 본 명세서에 도시된 도면을 역으로 보는 경우에는, 명세서에 기재된 위치 관계는 반대로 해석될 수도 있다.
본 개시에 있어서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다.
흐릿한 얼굴 영상 복원 문제는 영상 처리 분야에서 오래 연구된 분야 중 하나이다. 흐릿한 얼굴 영상 복원은 얼굴 검출, 얼굴 인식 등 중요 얼굴 영상 관련 알고리즘들의 성능을 크게 저하하는 원인이 된다.
본 개시의 실시예들은, 화소 단위의 참(또는 사실)과 거짓을 판단하는 화소 단위 사영 판별자를 이용하여 얼굴 영상 등의 영상에서 흐릿함 등과 같은 노이즈를 제거함으로써, 선명한 영상을 복원하는 것을 그 요지로 한다.
화소 단위 사영 판별자(Pixel-Wise Projection Discriminator)(이하, “판별자”라 칭함)는, 정답 얼굴 영상 또는 생성자(또는 생성자 네트워크)에서 노이즈가 제거된 출력 얼굴 영상(또는 가짜 얼굴 영상)과 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 입력 얼굴 영상 별 참과 거짓을 판별할 뿐만 아니라 화소별 참과 거짓을 판별할 수 있다.
도 1은 본 개시의 얼굴 영상 노이즈 제거 장치를 설명하기 위한 예시도를 나타낸 것으로, 도 1에 도시된 바와 같이, 얼굴 영상 노이즈 제거 장치(100)는, 입력 영상(Iblur)에서 흐릿함, 아티팩트 등의 노이즈를 제거함으로써, 노이즈가 제거된 선명한 영상(Ideblur)을 복원 또는 생성한다.
본 개시의 얼굴 영상 노이즈 제거 장치(100)는, 얼굴의 주요 부위별 분할 맵(segmentation label map)을 반영하여 학습된 생성자 네트워크(Generator)를 이용하여, 입력 얼굴 영상(Iblur)에 포함된 노이즈를 제거함으로써, 선명한 영상(Ideblur)을 생성할 수 있으며, 생성자는, 정답 얼굴 영상 또는 생성자에서 출력되는 얼굴 영상과 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 화소 단위의 참과 거짓을 판단하는 판별자(Discriminator)(또는 판별자 네트워크)와의 학습을 통해 학습될 수 있다.
즉, 본 개시의 얼굴 영상 노이즈 제거 장치(100)는, 생성자와 판별자를 정답 얼굴 영상과 가짜 얼굴 영상 그리고, 얼굴의 주요 부위별 분할 맵을 이용하여 동시에 학습하고, 각 네트워크의 손실 함수를 이용하여 학습될 수 있다. 판별자는 인코더(encoder)와 디코더(decoder)를 포함할 수 있으며, 인코더는 정답 얼굴 영상 또는 생성자의 출력 얼굴 영상을 입력으로 하여 얼굴 영상 전체에 대한 참과 거짓을 판단하고, 디코더는 인코더에서 생성되는 특징 맵(feature map)과 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 화소 단위의 참과 거짓을 판단한다.
본 개시의 얼굴 영상 노이즈 제거 장치(100)는, 상술한 학습 과정을 통해 최종적으로 학습된 생성자를 이용하여 입력 얼굴 영상에서 노이즈를 제거할 수 있으며, 이러한 본 개시의 장치에 대하여 도 2 내지 도 8을 참조하여 설명하면 다음과 같다.
도 2는 본 개시의 일 실시예에 따른 얼굴 영상 노이즈 제거 장치에 대한 구성을 나타낸 것이다.
도 2를 참조하면, 본 개시의 일 실시예에 따른 얼굴 영상 노이즈 제거 장치(100)는, 수신부(110), 복원부(120)와 저장부(130)를 포함한다.
수신부(110)는, 흐릿함 등의 노이즈를 제거하기 위한 입력 얼굴 영상을 수신한다.
복원부(120)는, 얼굴의 주요 부위별 분할 맵을 반영하여 학습된 생성자를 이용하여, 입력 얼굴 영상에서 노이즈를 제거함으로써, 노이즈가 제거된 선명한 얼굴 영상을 복원한다.
여기서, 생성자는, 학습 데이터셋에 포함된 얼굴 영상 또는 생성자에서 출력되는 얼굴 영상과 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 영상에 대한 참과 거짓을 판단하고, 화소 단위의 참과 거짓을 판단하는 판별자와의 학습을 통해 학습될 수 있으며, 학습되는 생성자의 학습 모델은, 얼굴 영상과 얼굴의 주요 부위별 분할 맵의 결합확률분포(joint distribution)가 모델링된 학습 모델을 포함할 수 있다.
실시예에 따라, 판별자는, 정답 얼굴 영상 또는 생성자 네트워크의 출력 얼굴 영상을 입력으로 하여 얼굴 영상 전체에 대한 참과 거짓을 판단하는 인코더(또는 인코더 네트워크)와 인코더에서 생성되는 특징 맵(feature map)과 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 화소 단위의 참과 거짓을 판단하는 디코더(또는 디코더 네트워크)를 포함할 수 있다.
여기서, 디코더는, 정답 얼굴 영상의 화소 단위의 판단 결과 값(또는 판단 확률 맵)에 기초하여 정답 얼굴 영상에 대한 화소 단위의 가중치를 조절하는 제1 가중치 팩터와 생성자의 출력 얼굴 영상의 화소 단위의 판단 결과 값에 기초하여 출력 얼굴 영상에 대한 화소 단위의 가중치를 조절하는 제2 가중치 팩터를 포함하는 손실 함수에 기초하여 학습될 수 있다. 실시예에 따라, 디코더는, 정답 얼굴 영상에 대하여 거짓으로 판단한 화소의 기여도를 높이도록 제1 가중치 팩터의 가중치를 조절하고, 출력 얼굴 영상에 대하여 참으로 판단한 화소의 기여도를 높이도록 제2 가중치 팩터의 가중치를 조절하는 방향으로 학습될 수 있다.
이러한, 제1 가중치 팩터의 가중치와 제2 가중치 팩터의 가중치는, 모든 화소의 가중치 합이 '1'이 되도록 정규화(normalization)될 수 있다.
복원부(120)에서 얼굴 영상을 복원하는데 사용되는 생성자는, 적대적 손실 함수를 포함하는 손실 함수에 의해 학습될 수 있으며, 적대적 손실 함수는, 인코더에서 출력 얼굴 영상을 판단하는 제1 적대적 손실 함수, 디코더에서 출력 얼굴 영상을 화소 단위로 판단하는 제2 적대적 손실 함수 및 제1 적대적 손실 함수와 제2 적대적 손실 함수의 비율을 조절하는 균형 계수(balancing coefficient)를 포함할 수 있다. 실시예에 따라, 균형 계수는, 학습을 위한 전체 학습 단계 횟수와 현재 학습 단계 횟수에 따라 상이하게 조절될 수 있다.
저장부(130)는, 본 개시의 장치에서 사용되는 모든 데이터를 저장하는 수단으로, 생성자의 학습 모델, 얼굴의 주요 부위별 분할 맵, 입력 얼굴 영상 데이터, 출력 얼굴 영상 데이터 등과 같이 본 개시의 장치와 관련된 모든 종류의 데이터를 저장한다.
상술한 생성자와 판별자를 학습하는 과정에 대하여 도 3 내지 도 5를 참조하여 설명한다.
도 3은 본 개시에서 사용하는 화소 단위 사영 판별자에 대한 일 실시예의 구조를 나타낸 것이다.
도 3에 도시된 바와 같이, 판별자(200)는 생성적 적대 네트워크(Generative Adversarial Network, GAN)를 포함할 수 있으며, U-Net GAN과 사영 GAN을 활용하여 형성될 수 있다. 판별자(200)는 얼굴의 주요 부위별 의미 레이블 맵(Semantic label map) 정보와 일치하는 화소 레이블을 모델링하고, 영상별 확률(per-image probability) 뿐만 아니라 입력 영상에 대한 실제의 화소별 확률 맵(per-pixel probability)을 생성한다.
판별자(200)는 얼굴의 주요 부위별 분할 맵을 조건 정보로 사용함으로써, 학습 중에 화소 단위의 참과 거짓을 판단할 때 얼굴 주요 구성 요소를 고려할 수 있다.
의미 인식 화소 단위의 판단 결과 값을 토대로 생성자는 높은 지각 품질로 얼굴 영상에서 노이즈를 제거함으로써, 보다 정확하게 선명한 얼굴 영상을 복원할 수 있다.
또한, 디코더는 화소 단위의 판단 결과 값에서 잘못 판단된 화소에 초점을 맞추기 위하여 잘못 판단된 화소의 가중치를 조절할 수 있다. 즉, 디코더는 화소별 참과 거짓 확률 맵을 활용하여 디코더에서 각 화소의 기여도를 재가중함으로써, 생성자 분포와 타겟 분포를 보다 정확하게 구분할 수 있으므로, 생성자가 보다 강력하고 정확한 피드백을 획득할 수 있다.
도 4는 생성자와 판별자를 학습시키기 위한 프레임워크에 대한 일 실시예의 구조를 나타낸 것이다.
본 개시의 장치는 노이즈를 포함하는 얼굴 영상 예를 들어, 흐릿한 얼굴 영상(Iblur)을 일력 받아 얼굴의 흐릿함을 제거함으로써, 선명한 얼굴 영상(Ideblur)을 출력 또는 복원하는 것이다. 도 4에 도시된 바와 같이, 본 개시의 프레임워크는 노이즈를 제거하기 위한 네트워크인 생성자(G)(400)와 판별자(D)(200)로 이루어져 있다.
생성자(400)는 노이즈를 포함하는 얼굴 영상(Iblur)(410)에서 노이즈를 제거한 얼굴 영상(Ideblur)(420)을 복원 또는 생성하는 네트워크로, 판별자(200)와 함께 학습된다.
판별자(200)는 하위 네트워크인 인코더(Denc)(210)와 디코더(Ddec)(220)로 구성된다.
인코더(Denc)(210)는 얼굴 영상 예를 들어, 정답 얼굴 영상(IGT)(430) 또는 생성자(400)의 출력 얼굴 영상(Ideblur)(420)을 입력으로 받아 얼굴 영상 전체에 대한 참과 거짓을 판단(penc)하고, 디코더(Ddec)(220)는 인코더(210)에서 생성한 특징 맵(feature map)(Z)과 얼굴의 주요 부위별 분할 맵(ys)(440)을 입력으로 받아 화소 단위의 참과 거짓을 판단(Qdec)한다. 여기서, penc는 입력 영상(x)가 참일 전역적인 확률 값을 의미할 수 있으며, Dhead enc(Z)로 나타낼 수 있다.
인코더(Denc)(210)는, 3×3 컨볼루션 레이어, ReLU, 3×3 컨볼루션 레이어, 2×2 평균 풀링 레이어를 포함할 수 있으며, Dhead enc(Z)는 전역적 합 풀링 레이어(global sum pooling layer)와 FCL(Fully Connected Layer)의 시리즈 일 수 있다.
디코더(Ddec)(220)는, 바디 네트워크(Dbody dec), 레이블 임베딩 행렬 V과 헤드 레이어 Dhead dec로 구성될 수 있으며, 인코더(Denc)(210)와 스킵 연결(skip connection)을 통해 연결될 수 있다. 도 4에 도시된 L은, 바디 네트워크(Dbody dec)를 통해 출력된 특성 맵을 의미할 수 있으며, Dbody dec(Z)와 같이 나타낼 수 있고, V는 얼굴의 주요 부위별 분할 맵(ys)을 화소 단위로 특징 맵 F에 임베딩하고, 화소 레벨에서 F와 L의 내적을 통해 화소별 조건 확률 맵 M을 획득할 수 있다. 최종적으로 디코더(220)는, L을 입력으로 하여 영상에 대한 화소 단위의 참과 거짓의 확률 맵을 출력하는 Dhead dec와 화소별 조건 확률 맵 M의 합에 의해 계산되는 Qdec를 출력할 수 있다. 여기서, Qdec는 얼굴의 주요 부위별 분할 맵이 반영된 얼굴 영상에 대한 화소 단위의 참과 거짓의 판단 결과 값일 수 있다.
판별자(200)는, 판단 가중 디코더 손실 함수(prediction-weighted loss)를 포함할 수 있으며, 판별자 내 인코더 손실 함수와 디코더 손실 함수는 아래 <수학식 1> 및 <수학식 2>와 같이 나타낼 수 있다.
[수학식 1]
[수학식 2]
여기서, Denc()와 Ddec()는 각각 인코더와 디코더의 출력을 의미하며, LDenc는 인코더 네트워크의 손실 함수를 의미하고, IGT는 정답 얼굴 영상을 의미하며, Iblur는 흐릿한 얼굴 영상(또는 노이즈를 포함하는 얼굴 영상)을 의미하고, ys는 얼굴의 주요 부위별 분할 맵을 의미하며, I, j는 화소의 위치를 의미하고, W, H는 영상의 폭(width)과 높이(height)를 의미할 수 있다. 그리고, A(t)는 log(1+exp(t))로, SoftPlus 활성화 함수를 의미하며, ξ()는 정규화(normalization) 함수를 의미하고, pr은 학습 데이터셋이 판별자의 입력으로 사용되었을 때 판별자의 화소 단위의 참과 거짓의 판단 결과 값(또는 참과 거짓의 확률 맵)을 의미하며, pf는 생성자가 생성한 얼굴 영상 즉, 생성자의 출력 얼굴 영상이 판별자의 입력으로 사용되었을 때 판별자의 화소 단위의 참과 거짓의 판단 결과 값을 의미할 수 있다. 이때, pr과 pf는 아래 <수학식 3>과 같이 계산될 수 있다.
[수학식 3]
학습 데이터셋의 얼굴 영상 즉, 정답 얼굴 영상이 판별자의 입력으로 사용되었을 때, 판별자의 출력은 모두 1(사실)에 가까워야 한다. 하지만, 판별자의 출력이 1에 가깝지 않고 잘못 판단된 경우, 예를 들어, 정답 얼굴 영상에 대하여 거짓으로 판단한 화소의 경우 해당 화소의 손실 함수에 대한 기여도를 높이도록 정답 얼굴 영상에 대한 화소 단위의 가중치를 조절할 수 있으며, 정답 얼굴 영상에 대한 화소 단위의 가중치를 제1 가중치 팩터라 명명한다. 예컨대, 도 5에 도시된 바와 같이, 판별자(200)에서 정답 얼굴 영상(430)과 얼굴의 주요 부위별 분할 맵(440)을 입력으로 하여, 정답 얼굴 영상(430)에 대한 화소 단위의 참과 거짓의 판단 결과 값(또는 참과 거짓의 확률 맵)(510)을 출력할 수 있으며, 화소 단위의 참과 거짓의 판단 결과 값(510)을 이용하여 제1 가중치 팩터의 가중치(520)를 조절 또는 결정할 수 있다. 여기서, 제1 가중치 팩터의 가중치(520)는 도 5에 도시된 바와 같이, 거짓으로 판단된 화소의 가중치를 높이는 방향으로 조절될 수 있으며, 모든 화소에 대한 가중치의 합이 '1'이 되도록 정규화할 수 있다. 즉, 제1 가중치 팩터의 가중치(520)는, 화소 단위의 참과 거짓의 판단 결과 값(pr)에 반대되는 판단 결과 값(1-pr)을 설정한 후 정규화함으로써, 모든 화소에 대한 가중치의 합이 '1'이 되도록 제1 가중치 팩터의 가중치 즉, ξ(1-pr)를 조절할 수 있다.
반면, 생성자의 출력 얼굴 영상이 판별자의 입력으로 사용되었을 때, 판별자의 출력은 모두 0(거짓)에 가까워야 한다. 하지만, 판별자의 출력이 0에 가깝지 않고 잘못 판단된 경우, 예를 들어, 생성자의 출력 얼굴 영상에 대하여 참으로 판단한 화소의 경우 해당 화소의 손실 함수에 대한 기여도를 높이도록 출력 얼굴 영상에 대한 화소 단위의 가중치를 조절할 수 있으며, 출력 얼굴 영상에 대한 화소 단위의 가중치를 제2 가중치 팩터라 명명한다. 예컨대, 도 5에 도시된 바와 같이, 판별자(200)에서 생성자의 출력 얼굴 영상(420)과 얼굴의 주요 부위별 분할 맵(440)을 입력으로 하여, 출력 얼굴 영상(420)에 대한 화소 단위의 참과 거짓의 판단 결과 값(530)을 출력할 수 있으며, 화소 단위의 참과 거짓의 판단 결과 값(530)을 이용하여 제2 가중치 팩터의 가중치(540)를 조절 또는 결정할 수 있다. 여기서, 제2 가중치 팩터의 가중치(540)는 도 5에 도시된 바와 같이, 참으로 판단된 화소의 가중치를 높이는 방향으로 조절될 수 있으며, 모든 화소에 대한 가중치의 합이 '1'이 되도록 정규화할 수 있다. 즉, 제2 가중치 팩터의 가중치(540)는, 화소 단위의 참과 거짓의 판단 결과 값(pf)을 그대로 설정한 후 정규화함으로써, 모든 화소에 대한 가중치의 합이 '1'이 되도록 제2 가중치 팩터의 가중치 즉, ξ(pf)를 조절할 수 있다.
생성자의 손실 함수는, 복원 손실 함수(reconstruction loss), 이전 특징 손실 함수(prior feature loss)와 적대적 손실 함수(adversarial loss)를 포함할 수 있다. 복원 손실 함수는 정답 얼굴 영상과 생성자의 출력 얼굴 영상 간의 L1 거리로 정의될 수 있으며, 이전 특징 손실 함수는 정답 얼굴 영상에 대한 특징과 생성자의 출력 얼굴 영상의 특징 간 L2 거리를 최소화하는 것으로 정의될 수 있다.
그리고, 생성자의 적대적 손실 함수(Ladv)는, 아래 <수학식 4>와 같이 정의될 수 있다.
[수학식 4]
여기서, Ladv,enc는, 판별자 내 인코더에서 생성자의 출력 얼굴 영상에 대한 판단을 활용한 손실 함수를 의미하고, Ladv,dec는, 판별자 내 디코더에서 생성자의 출력 얼굴 영상에 대한 화소 단위의 판단을 활용한 손실 함수를 의미하며, α는 Ladv,enc와 Ladv,dec를 현재 학습 단계(epoch)에 따라 조절하는 균형 계수(balancing coefficient)를 의미할 수 있다.
Ladv,enc와 Ladv,dec는, 아래 <수학식 5>와 같이 나타낼 수 있다.
[수학식 5]
α는 현재 학습 단계와 학습을 위한 총 학습 단계로 정의될 수 있으며, 아래 <수학식 6>과 같이 나타낼 수 있다.
[수학식 6]
여기서, ηt는 학습을 위한 총 학습 단계 횟수를 의미하고, ηc는 현재 학습 단계 횟수를 의미할 수 있다. 본 개시의 프레임워크는, 상기 α를 활용하여 두 개의 적대적 손실 함수의 비율을 조절함으로써, 생성자가 학습 초반에는 전역적인 얼굴 영상의 분포 학습에 집중하고, 후반에는 얼굴의 구조적 특징과 텍스처에 집중할 수 있도록 한다.
상술한 바와 같이, 본 개시의 프레임워크는 상술한 생성자의 손실 함수와 판별자의 손실 함수를 이용하여 생성자와 판별자를 학습할 수 있으며, 얼굴의 주요 부위별 분할 맵을 이용한 화소 단위의 참과 거짓에 대한 판단 결과 값(확률 맵)을 이용하여 정답 얼굴 영상의 각 화소에 대한 가중치와 생성자의 출력 얼굴 영상의 각 화소에 대한 가중치를 조절함으로써, 잘못 판단된 화소에 대한 기여도를 높이고, 이를 통해 생성자 분포와 타겟 분포를 보다 정확하게 구분할 수 있어, 생성자에게 보다 강력하고 정확한 피드백을 제공할 수 있다.
이러한 본 개시의 프레임워크에 의해 생성자와 판별자가 학습되면, 얼굴 영상과 얼굴의 주요 부위별 분할 맵의 결합확률분포가 모델링된 학습 모델의 생성자를 이용하여 노이즈를 제거하고자 하는 입력 얼굴 영상에서 노이즈를 제거함으로써, 선명한 얼굴 영상을 복원할 수 있다.
도 6은 MSPL 데이터셋에 대하여 정략적 비교 결과를 나타낸 것으로, MSPL-Center 및 MSPL-Random 테스트셋에 대한 정량적 평가 결과를 나타낸 것이다. 여기서, 최고의 결과는 굵은 글씨로 표시되고, 그 다음으로 좋은 결과는 밑줄로 표시된다.
도 6을 통해 알 수 있듯이, 본 개시의 실시예에 따른 기술(Ours)은, LPIPS, dVGG 및 dARC와 같은 지각 메트릭 측면에서 기존 방식보다 성능이 뛰어난 것을 알 수 있다. 특히, 본 개시의 기술은, 지각적으로 만족스러운 영상을 복원하기 위해 개발된 최근 GAN 기반 SFID 방법들인 Shen et al.( Z. Shen, W.-S. Lai, T. Xu, J. Kautz, and M.-H. Yang, “Deep semantic face deblurring,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.), Lee et al.( T. B. Lee, S. H. Jung, and Y. S. Heo, “Progressive semantic face deblurring,” IEEE Access, vol. 8, pp. 223 548-223 561, 2020.), Jung et al.( S. H. Jung, T. B. Lee, and Y. S. Heo, “Deep feature prior guided face deblurring,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), January 2022, pp. 3531-3540.)에 비해 지각 메트릭에서 상당히 개선된 것을 알 수 있다. 또한, 본 개시의 기술은, 얼굴 영상과 얼굴의 주요 부위별 분할 맵의 결합 확률을 추정하고, 생성자에 화소 수준 및 전력 피드백을 제공함으로써, 얼굴 영상을 복원하는데 있어서 뛰어난 성능을 가질 수 있다.
도 7은 MSPL-Center 데이터셋에 대하여 얼굴 영상 복원 결과를 비교한 예시도를 나타낸 것이고, 도 8은 MSPL-Random 데이터셋에 대하여 얼굴 영상 복원 결과를 비교한 예시도를 나타낸 것이다.
도 7과 도 8에 도시된 바와 같이, GAN을 기반으로 하지 않는 Yasarla et al.(R. Yasarla, F. Perazzi, and V. M. Patel, “Deblurring face images using uncertainty guided multi-stream semantic networks,” IEEE Trans. Image Process., Apr. 2020.)의 결과 영상은 지나치게 매끄럽고 선명한 디테일이 부족하지만, GAN 기반 모델 예를 들어, Lee et al, Jung et al.와 본 개시의 기술은, 사실적인 얼굴의 상세한 복원에서 다른 방법보다 뛰어난 성능을 보이는 것을 알 수 있다. 이 중 본 개시의 기술(Ours)은, 부위별 상세함과 사실적인 텍스처로 영상의 품질을 크게 향상시키는 것을 알 수 있으며, 특히 얼굴의 주요 구성 요소인 눈, 코, 입, 귀 등에서 텍스처 복원 능력이 뛰어난 것을 알 수 있다. 예를 들어, 본 개시의 기술은, 도 7의 3, 4, 8행과 도 8의 1, 3, 7행에서 눈에 대한 복원 능력이 뛰어나고, 도 7의 1, 6, 7행과 도 8의 1, 2, 3행에서 코에 대한 복원 능력이 뛰어나며, 도 7의 3, 6, 7행과 도 8의 3, 5, 8행에서 입과 치아에 대한 복원 능력이 뛰어나고, 도 7의 5, 7, 8행과 도 8의 4, 8행에서 귀에 대한 복원 능력이 뛰어난 것을 알 수 있다. 또한, 본 개시의 기술은, 주름과 수염 등에 대한 사실적인 피부 텍스처를 생성 또는 복원하는 것을 알 수 있다. 예를 들어, 본 개시의 기술은, 도 7의 1, 3, 5, 6, 7행과 도 8의 3, 7, 8행에서 주름에 대한 복원 능력이 뛰어나고, 도 7의 1, 2, 8행과 도 8의 5행에서 수염에 대한 복원 능력이 뛰어난 것을 알 수 있다.
이와 같이, 본 개시의 실시예에 따른 장치는, 화소 단위의 참(또는 사실)과 거짓을 판단하는 화소 단위 사영 판별자를 이용하여 얼굴 영상 등의 영상에서 흐릿함 등과 같은 노이즈를 제거함으로써, 선명한 영상을 복원할 수 있다.
또한, 본 개시의 실시예에 따른 장치는, 얼굴 영상과 얼굴의 주요 구성 요소 정보의 결합 분포를 학습함으로써, 얼굴의 각 구성 요소에 맞는 특징와 텍스처에 집중하여 선명한 얼굴 영상을 복원할 수 있다.
도 9는 본 개시의 다른 실시예에 따른 얼굴 영상 노이즈 제거 방법에 대한 동작 흐름도를 나타낸 것으로, 도 1 내지 도 8에서 설명한 얼굴 영상 노이즈 제거 장치에서의 동작 흐름도를 나타낸 것이다.
도 9를 참조하면, 본 개시의 다른 실시예예 따른 얼굴 영상 노이즈 제거 방법은, 노이즈를 제거하고자 하는 얼굴 영상을 수신하는 단계(S910)와 얼굴의 주요 부위별 분할 맵을 반영하여 학습된 생성자 네트워크(또는 생성자)를 이용하여, 수신된 얼굴 영상에서 노이즈를 제거함으로써, 노이즈가 제거된 얼굴 영상을 복원하는 단계(S920)를 포함한다.
단계 S910은, 미리 설정된 폭과 높이를 가지는 얼굴 영상을 수신할 수 있으며, 상이한 폭과 높이를 가지는 얼굴 영상이 수신되는 경우에는 미리 설정된 폭과 높이를 가지도록 변환될 수도 있다.
단계 S920은, 얼굴 영상과 얼굴의 주요 부위별 분할 맵의 결합확률분포가 모델링된 학습 모델의 생성자 네트워크를 이용하여 수신된 얼굴 영상에서 노이즈를 제거함으로써, 노이즈가 제거된 선명한 얼굴 영상을 복원할 수 있다.
실시예에 따라, 생성자 네트워크는, 학습 데이터셋에 포함된 얼굴 영상(예를 들어, 정답 얼굴 영상) 또는 생성자 네트워크에서 출력되는 얼굴 영상과 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 화소 단위의 참과 거짓을 판단하는 판별자 네트워크와의 학습을 통해 학습될 수 있으며, 판별자 네트워크는, 정답 얼굴 영상 또는 생성자 네트워크의 출력 얼굴 영상을 입력으로 하여 얼굴 영상 전체에 대한 참과 거짓을 판단하는 인코더 네트워크 및 인코더 네트워크에서 생성되는 특징 맵과 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 화소 단위의 참과 거짓을 판단하는 디코더 네트워크를 포함할 수 있다.
생성자 네트워크와 판별자 네트워크를 학습하는 과정에 대하여, 도 10을 참조하여 설명한다.
도 10은 본 개시의 방법에서 생성자와 판별자를 학습시키는 과정에 대한 일 실시예의 동작 흐름도를 나타낸 것으로, 도 4의 프레임워크에 의한 학습 과정의 동작 흐름도를 나타낸 것이다.
도 10을 참조하면, 본 개시의 방법에서의 생성자와 판별자 학습 과정은, 판별자 네트워크의 디코더에서 정답 얼굴 영상 또는 생성자의 출력 얼굴 영상의 특징 맵과 얼굴의 주요 부위별 분할 맵을 수신하고, 특징 맵과 얼굴의 주요 부위별 분할 맵을 이용하여 정답 얼굴 영상 또는 생성자의 출력 얼굴 영상에 대한 화소 단위의 참과 거짓의 판단 결과 값을 출력한다(S1010, S1020).
단계 S1020에 의해 얼굴 영상에 대한 화소 단위의 판단 결과 값이 출력되면, 정답 얼굴 영상의 화소 단위의 판단 결과 값과 출력 얼굴 영상의 화소 단위의 판단 결과 값에 기초하여 각 얼굴 영상의 화소 단위 가중치를 조절한다(S1030).
실시예에 따라, 단계 S1030은, 정답 얼굴 영상의 화소 단위의 판단 결과 값에 기초하여 정답 얼굴 영상에 대한 화소 단위의 가중치를 포함하는 제1 가중치 팩터를 조절할 수 있고, 생성자 네트워크의 출력 얼굴 영상의 화소 단위의 판단 결과 값에 기초하여 출력 얼굴 영상에 대한 화소 단위의 가중치를 포함하는 제2 가중치 팩터를 조절할 수 있다.
이때, 단계 S1030은, 정답 얼굴 영상에 대하여 거짓으로 판단한 화소의 기여도를 높이도록 제1 가중치 팩터의 가중치를 조절하고, 출력 얼굴 영상에 대하여 참으로 판단한 화소의 기여도를 높이도록 제2 가중치 팩터의 가중치를 조절할 수 있으며, 제1 가중치 팩터의 가중치는, 모든 화소의 가중치 합이 '1'이 되도록 정규화되고, 제2 가중치 팩터의 가중치는, 모든 화소의 가중치 합이 '1'이 되도록 정규화될 수 있다.
상기 단계 S1010 내지 S1030은, 판별자 네트워크에서의 과정을 나타낸 것이며, 상술한 학습 과정이 이루어질 때 생성자 네트워크는 현재 학습 단계에 따른 균형 계수를 조절하고, 판별자 네트워크로부터 화소 단위의 피드백과 균형 계수 조절을 수행함으로써, 판별자 네트워크와 생성자 네트워크를 함께 학습하며, 이러한 과정을 학습이 종료될 때까지 반복 수행한다(S1040, S1050).
여기서, 균형 계수는, 상기 수학식 4에서 설명한 바와 같이, 생성자의 적대적 손실 함수에 포함되는 상수로, 학습을 위한 전체 학습 단계 횟수와 현재 학습 단계 횟수에 따라 상이하게 조절될 수 있다.
비록, 본 개시의 방법에서 그 설명이 생략되더라도, 본 개시의 실시예에 따른 방법은 도 1 내지 도 8의 장치에서 설명한 모든 내용을 포함할 수 있으며, 이는 해당 기술 분야에 종사하는 당업자에게 있어서 자명하다.
본 개시의 실시예에 따른 장치와 방법에 대하여, 얼굴 영상으로 한정하여 설명하였지만, 본 개시의 실시예에 따른 장치와 방법은, 얼굴 영상에 제한되거나 한정되지 않으며, 노이즈 제거가 요구되는 모든 영상 분야에 적용될 수 있다.
일 예로, 본 개시의 또 다른 실시예에 따른 장치와 방법은, 특정 객체 예를 들어, 자동차, 자동차 번호판 등에서 노이즈를 제거할 수도 있으며, 자동차를 타겟으로 하는 영상에서 노이즈를 제거하기 위하여, 자동차의 주요 요소에 대한 분할 맵을 통해 생성자와 판별자를 학습함으로써, 학습된 생성자를 통해 노이즈를 포함하는 자동차 영상에서 노이즈를 제거하여 자동차를 복원할 수 있다.
다른 일 예로, 본 개시의 또 다른 실시예에 따른 장치와 방법은, 의료 영상에서 노이즈를 제거할 수도 있다. 실시예에 따라, 본 개시의 기술은, X-ray 영상, MRI 영상, CT 영상 등의 각 의료 영상에서 해당 의료 영상에 포함된 노이즈를 제거하는데 사용될 수도 있다. 이때, 주요 부위별 분할 맵은, 해당 의료 영상의 관심 영역 각각의 분할 맵일 수 있으며, 예를 들어, 폐, 심장 등의 장기 영역에 대한 분할 맵일 수 있다.
물론, 본 개시의 기술이, 상술한 분야 뿐만 아니라 CCTV 등의 영상 등에도 적용됨으로써, 사람의 외형에 대한 주요 부위 예를 들어, 얼굴, 팔, 상체, 하체 등에 대한 분할 맵을 이용하여 사람의 전체 모습에 포함된 노이즈를 제거함으로써, 사람의 모습을 선명하게 복원할 수도 있다. 이 경우, 본 개시의 기술은, 특정 사람의 이동 경로를 추적하기 위한 기술에도 적용될 수 있다.
도 11은 본 개시의 일 실시예에 따른 얼굴 영상 노이즈 제거 장치가 적용되는 디바이스의 구성도를 나타낸 도면이다.
예를 들어, 도 2의 본 개시의 일 실시예에 따른 얼굴 영상 노이즈 제거 장치(100)는 도 11의 디바이스(1600)가 될 수 있다. 도 11을 참조하면, 디바이스(1600)는 메모리(1602), 프로세서(1603), 송수신부(1604) 및 주변 장치(1601)를 포함할 수 있다. 또한, 일 예로, 디바이스(1600)는 다른 구성을 더 포함할 수 있으며, 상술한 실시예로 한정되지 않는다. 이때, 상기 디바이스(1600)는 예를 들어 이동 가능한 사용자 단말기(예를 들어, 스마트 폰, 노트북, 웨어러블 기기 등) 이거나 고정된 관리 장치(예를 들어, 서버, PC 등) 일 수 있다.
보다 상세하게는, 도 11의 디바이스(1600)는 영상 복원 장치, 영상 처리 장치 등과 같은 예시적인 하드웨어/소프트웨어 아키텍처일 수 있다. 이때, 일 예로, 메모리(1602)는 비이동식 메모리 또는 이동식 메모리일 수 있다. 또한, 일 예로, 주변 장치(1601)는 디스플레이, GPS 또는 다른 주변기기들을 포함할 수 있으며, 상술한 실시예로 한정되지 않는다.
또한, 일 예로, 상술한 디바이스(1600)는 상기 송수신부(1604)와 같이 통신 회로를 포함할 수 있으며, 이에 기초하여 외부 디바이스와 통신을 수행할 수 있다.
또한, 일 예로, 프로세서(1603)는 범용 프로세서, DSP(digital signal processor), DSP 코어, 제어기, 마이크로제어기, ASIC들(Application Specific Integrated Circuits), FPGA(Field Programmable Gate Array) 회로들, 임의의 다른 유형의 IC(integrated circuit) 및 상태 머신과 관련되는 하나 이상의 마이크로프로세서 중 적어도 하나 이상일 수 있다. 즉, 상술한 디바이스(1600)를 제어하기 위한 제어 역할을 수행하는 하드웨어적/소프트웨어적 구성일 수 있다. 또한 상기 프로세서(1603)는 전술한 도 2의 복원부(120)의 기능을 모듈화하여 수행할 수 있다.
이때, 프로세서(1603)는 얼굴 영상 노이즈 제거 장치의 다양한 필수 기능들을 수행하기 위해 메모리(1602)에 저장된 컴퓨터 실행가능한 명령어들을 실행할 수 있다. 일 예로, 프로세서(1603)는 신호 코딩, 데이터 처리, 전력 제어, 입출력 처리 및 통신 동작 중 적어도 어느 하나를 제어할 수 있다. 또한, 프로세서(1603)는 물리 계층, MAC 계층, 어플리케이션 계층들을 제어할 수 있다. 또한, 일 예로, 프로세서(1603)는 액세스 계층 및/또는 어플리케이션 계층 등에서 인증 및 보안 절차를 수행할 수 있으며, 상술한 실시예로 한정되지 않는다.
일 예로, 프로세서(1603)는 송수신부(1604)를 통해 다른 장치들과 통신을 수행할 수 있다. 일 예로, 프로세서(1603)는 컴퓨터 실행가능한 명령어들의 실행을 통해 얼굴 영상 노이즈 제거 장치가 네트워크를 통해 다른 장치들과 통신을 수행하게 제어할 수 있다. 즉, 본 개시에서 수행되는 통신이 제어될 수 있다. 일 예로, 송수신부(1604)는 안테나를 통해 RF 신호를 전송할 수 있으며, 다양한 통신망에 기초하여 신호를 전송할 수 있다.
또한, 일 예로, 안테나 기술로서 MIMO 기술, 빔포밍 등이 적용될 수 있으며, 상술한 실시예로 한정되지 않는다. 또한, 송수신부(1604)를 통해 송수신한 신호는 변조 및 복조되어 프로세서(1603)에 의해 제어될 수 있으며, 상술한 실시예로 한정되지 않는다.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 개시의 다양한 실시예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 개시의 범위는 다양한 실시예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
100 얼굴 영상 노이즈 제거 장치
110 수신부
120 복원부
130 저장부
200 판별자(Discriminator)
400 생성자(Generator)

Claims (20)

  1. 제1 얼굴 영상을 수신하는 단계; 및
    얼굴의 주요 부위별 분할 맵(segmentation label map)을 반영하여 학습된 생성자 네트워크(Generator)를 이용하여, 상기 제1 얼굴 영상에서 노이즈를 제거함으로써, 상기 노이즈가 제거된 제1 얼굴 영상을 복원하는 단계를 포함하고,
    상기 생성자 네트워크는, 학습 데이터셋에 포함된 얼굴 영상 또는 상기 생성자 네트워크에서 출력되는 얼굴 영상과 상기 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 화소 단위의 참과 거짓을 판단하는 판별자 네트워크(Discriminator)와의 학습을 통해 함께 학습되며,
    상기 판별자 네트워크는,
    정답 얼굴 영상 또는 출력 얼굴 영상을 입력으로 하여 얼굴 영상 전체에 대한 참과 거짓을 판단하는 인코더 네트워크; 및
    상기 인코더 네트워크에서 생성되는 특징 맵(feature map)을 입력하고, 상기 얼굴의 주요 부위별 분할 맵을 조건 정보로 하여, 상기 화소 단위의 참과 거짓을 판단하는 디코더 네트워크를 포함하는, 얼굴 영상 노이즈 제거 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 디코더 네트워크는,
    상기 정답 얼굴 영상의 상기 화소 단위의 판단 결과 값에 기초하여 상기 정답 얼굴 영상에 대한 상기 화소 단위의 가중치를 조절하는 제1 가중치 팩터와 상기 생성자 네트워크의 출력 얼굴 영상의 상기 화소 단위의 판단 결과 값에 기초하여 상기 출력 얼굴 영상에 대한 상기 화소 단위의 가중치를 조절하는 제2 가중치 팩터를 포함하는 손실 함수에 기초하여 학습되는, 얼굴 영상 노이즈 제거 방법.
  5. 제4항에 있어서,
    상기 디코더 네트워크는,
    상기 정답 얼굴 영상에 대하여 거짓으로 판단한 화소의 기여도를 높이도록 상기 제1 가중치 팩터의 가중치를 조절하고, 상기 출력 얼굴 영상에 대하여 참으로 판단한 화소의 기여도를 높이도록 상기 제2 가중치 팩터의 가중치를 조절하는 방향으로 학습되는, 얼굴 영상 노이즈 제거 방법.
  6. 제5항에 있어서,
    상기 제1 가중치 팩터의 가중치는,
    모든 화소의 가중치 합이 '1'이 되도록 정규화(normalization)되고,
    상기 제2 가중치 팩터의 가중치는,
    모든 화소의 가중치 합이 '1'이 되도록 정규화되는, 얼굴 영상 노이즈 제거 방법.
  7. 제1항에 있어서,
    상기 생성자 네트워크는,
    적대적 손실 함수를 포함하는 손실 함수에 의해 학습되고,
    상기 적대적 손실 함수는,
    상기 인코더 네트워크에서 상기 출력 얼굴 영상을 판단하는 제1 적대적 손실 함수, 상기 디코더 네트워크에서 상기 출력 얼굴 영상을 상기 화소 단위로 판단하는 제2 적대적 손실 함수 및 상기 제1 적대적 손실 함수와 상기 제2 적대적 손실 함수의 비율을 조절하는 균형 계수(balancing coefficient)를 포함하는, 얼굴 영상 노이즈 제거 방법.
  8. 제7항에 있어서,
    상기 균형 계수는,
    학습을 위한 전체 학습 단계 횟수와 현재 학습 단계 횟수에 따라 상이하게 조절되는, 얼굴 영상 노이즈 제거 방법.
  9. 제1항에 있어서,
    상기 생성자 네트워크는,
    상기 얼굴 영상과 상기 얼굴의 주요 부위별 분할 맵의 결합확률분포(joint distribution)가 모델링된 학습 모델을 학습하는, 얼굴 영상 노이즈 제거 방법.
  10. 영상을 수신하는 단계;
    상기 영상에 포함된 대상 객체의 주요 부위별 분할 맵을 반영하여 학습된 생성자 네트워크(Generator)를 이용하여, 상기 영상에서 노이즈를 제거함으로써, 상기 노이즈가 제거된 영상을 복원하는 단계를 포함하고,
    상기 생성자 네트워크는, 학습 데이터셋에 포함된 정답 영상 또는 상기 생성자 네트워크에서 출력되는 영상과 상기 대상 객체의 주요 부위별 분할 맵을 입력으로 하여, 화소 단위의 참과 거짓을 판단하는 판별자 네트워크(Discriminator)와의 학습을 통해 함께 학습되며,
    상기 판별자 네트워크는,
    정답 영상 또는 상기 생성자 네트워크에서 출력되는 영상을 입력으로 하여 영상 전체에 대한 참과 거짓을 판단하는 인코더 네트워크; 및
    상기 인코더 네트워크에서 생성되는 특징 맵(feature map)을 입력하고, 대상 객체의 주요 부위별 분할 맵을 조건 정보로 하여, 상기 화소 단위의 참과 거짓을 판단하는 디코더 네트워크를 포함하는, 영상 노이즈 제거 방법.
  11. 삭제
  12. 제10항에 있어서,
    상기 디코더 네트워크는,
    상기 정답 영상의 상기 화소 단위의 판단 결과 값에 기초하여 상기 정답 영상에 대한 상기 화소 단위의 가중치를 조절하는 제1 가중치 팩터와 상기 생성자 네트워크에서 출력되는 영상의 상기 화소 단위의 판단 결과 값에 기초하여 상기 출력되는 영상에 대한 상기 화소 단위의 가중치를 조절하는 제2 가중치 팩터를 포함하는 손실 함수에 기초하여 학습되는, 영상 노이즈 제거 방법.
  13. 제12항에 있어서,
    상기 디코더 네트워크는,
    상기 정답 영상에 대하여 거짓으로 판단한 화소의 기여도를 높이도록 상기 제1 가중치 팩터의 가중치를 조절하고, 상기 출력되는 영상에 대하여 참으로 판단한 화소의 기여도를 높이도록 상기 제2 가중치 팩터의 가중치를 조절하는 방향으로 학습되는, 영상 노이즈 제거 방법.
  14. 제1 얼굴 영상을 수신하는 수신부; 및
    얼굴의 주요 부위별 분할 맵(segmentation label map)을 반영하여 학습된 생성자 네트워크(Generator)를 이용하여, 상기 제1 얼굴 영상에서 노이즈를 제거함으로써, 상기 노이즈가 제거된 제1 얼굴 영상을 복원하는 복원부를 포함하고,
    상기 생성자 네트워크는, 학습 데이터셋에 포함된 얼굴 영상 또는 상기 생성자 네트워크에서 출력되는 얼굴 영상과 상기 얼굴의 주요 부위별 분할 맵을 입력으로 하여, 화소 단위의 참과 거짓을 판단하는 판별자 네트워크(Discriminator)와의 학습을 통해 함께 학습되며,
    상기 판별자 네트워크는,
    정답 얼굴 영상 또는 출력 얼굴 영상을 입력으로 하여 얼굴 영상 전체에 대한 참과 거짓을 판단하는 인코더 네트워크; 및
    상기 인코더 네트워크에서 생성되는 특징 맵(feature map)을 입력하고, 상기 얼굴의 주요 부위별 분할 맵을 조건 정보로 하여, 상기 화소 단위의 참과 거짓을 판단하는 디코더 네트워크를 포함하는, 얼굴 영상 노이즈 제거 장치.
  15. 삭제
  16. 삭제
  17. 제14항에 있어서,
    상기 디코더 네트워크는,
    상기 정답 얼굴 영상의 상기 화소 단위의 판단 결과 값에 기초하여 상기 정답 얼굴 영상에 대한 상기 화소 단위의 가중치를 조절하는 제1 가중치 팩터와 상기 생성자 네트워크의 출력 얼굴 영상의 상기 화소 단위의 판단 결과 값에 기초하여 상기 출력 얼굴 영상에 대한 상기 화소 단위의 가중치를 조절하는 제2 가중치 팩터를 포함하는 손실 함수에 기초하여 학습되는, 얼굴 영상 노이즈 제거 장치.
  18. 제17항에 있어서,
    상기 디코더 네트워크는,
    상기 정답 얼굴 영상에 대하여 거짓으로 판단한 화소의 기여도를 높이도록 상기 제1 가중치 팩터의 가중치를 조절하고, 상기 출력 얼굴 영상에 대하여 참으로 판단한 화소의 기여도를 높이도록 상기 제2 가중치 팩터의 가중치를 조절하는 방향으로 학습되는, 얼굴 영상 노이즈 제거 장치.
  19. 제14항에 있어서,
    상기 생성자 네트워크는,
    적대적 손실 함수를 포함하는 손실 함수에 의해 학습되고,
    상기 적대적 손실 함수는,
    상기 인코더 네트워크에서 상기 출력 얼굴 영상을 판단하는 제1 적대적 손실 함수, 상기 디코더 네트워크에서 상기 출력 얼굴 영상을 상기 화소 단위로 판단하는 제2 적대적 손실 함수 및 상기 제1 적대적 손실 함수와 상기 제2 적대적 손실 함수의 비율을 조절하는 균형 계수(balancing coefficient)를 포함하는, 얼굴 영상 노이즈 제거 장치.
  20. 제19항에 있어서,
    상기 균형 계수는,
    학습을 위한 전체 학습 단계 횟수와 현재 학습 단계 횟수에 따라 상이하게 조절되는, 얼굴 영상 노이즈 제거 장치.
KR1020230012395A 2023-01-31 2023-01-31 화소 단위 사영 판별자를 이용한 영상 노이즈 제거 방법 및 장치 KR102614662B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230012395A KR102614662B1 (ko) 2023-01-31 2023-01-31 화소 단위 사영 판별자를 이용한 영상 노이즈 제거 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230012395A KR102614662B1 (ko) 2023-01-31 2023-01-31 화소 단위 사영 판별자를 이용한 영상 노이즈 제거 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102614662B1 true KR102614662B1 (ko) 2023-12-20

Family

ID=89376812

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230012395A KR102614662B1 (ko) 2023-01-31 2023-01-31 화소 단위 사영 판별자를 이용한 영상 노이즈 제거 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102614662B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210040302A (ko) * 2020-06-17 2021-04-13 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 얼굴 초해상도 실현 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램
KR102328029B1 (ko) * 2021-06-02 2021-11-17 아주대학교산학협력단 블러 이미지 처리 방법 및 장치
KR20210149426A (ko) * 2020-06-02 2021-12-09 인하대학교 산학협력단 고해상도 얼굴 영상 복원 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210149426A (ko) * 2020-06-02 2021-12-09 인하대학교 산학협력단 고해상도 얼굴 영상 복원 방법 및 장치
KR20210040302A (ko) * 2020-06-17 2021-04-13 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 얼굴 초해상도 실현 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램
KR102328029B1 (ko) * 2021-06-02 2021-11-17 아주대학교산학협력단 블러 이미지 처리 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAE BOK LEE et al, Continuous Facial Motion Deblurring, IEEE Access, 25 July 2000(2022.07.25.) 1부.* *

Similar Documents

Publication Publication Date Title
Pan et al. Physics-based generative adversarial models for image restoration and beyond
Xu et al. State-of-the-art in 360 video/image processing: Perception, assessment and compression
JP6929047B2 (ja) 画像処理装置、情報処理方法及びプログラム
CN108921782B (zh) 一种图像处理方法、装置及存储介质
US11043011B2 (en) Image processing method, apparatus, terminal, and storage medium for fusing images of two objects
WO2022001509A1 (zh) 图像优化方法、装置、计算机存储介质以及电子设备
US10198624B2 (en) Segmentation-guided real-time facial performance capture
CN111754415B (zh) 人脸图像处理方法及装置、图像设备及存储介质
CN106682632B (zh) 用于处理人脸图像的方法和装置
US20130129205A1 (en) Methods and Apparatus for Dynamic Color Flow Modeling
CN114900643A (zh) 视频会议中的背景修改
JP2008547097A (ja) イメージセグメンテーション
CN110838084B (zh) 一种图像的风格转移方法、装置、电子设备及存储介质
KR102095443B1 (ko) 구조텐서를 이용한 딥러닝 기반의 영상 개선 방법 및 장치
CN112581370A (zh) 人脸图像的超分辨率重建模型的训练及重建方法
US20230014448A1 (en) Methods for handling occlusion in augmented reality applications using memory and device tracking and related apparatus
Liu et al. Learning hadamard-product-propagation for image dehazing and beyond
CN113343878A (zh) 基于生成对抗网络的高保真人脸隐私保护方法和系统
CN111353336B (zh) 图像处理方法、装置及设备
CN111985281A (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
JP2019219928A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
US20230237630A1 (en) Image processing method and apparatus
Swami et al. Candy: Conditional adversarial networks based fully end-to-end system for single image haze removal
CN116205820A (zh) 图像增强方法、目标识别方法、设备及介质
CN111476151A (zh) 眼球检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant