KR102592890B1 - 이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치 - Google Patents

이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치 Download PDF

Info

Publication number
KR102592890B1
KR102592890B1 KR1020230075846A KR20230075846A KR102592890B1 KR 102592890 B1 KR102592890 B1 KR 102592890B1 KR 1020230075846 A KR1020230075846 A KR 1020230075846A KR 20230075846 A KR20230075846 A KR 20230075846A KR 102592890 B1 KR102592890 B1 KR 102592890B1
Authority
KR
South Korea
Prior art keywords
image
artificial intelligence
learning model
intelligence learning
mask
Prior art date
Application number
KR1020230075846A
Other languages
English (en)
Inventor
조영재
설현우
권세아
박하윤
장성균
Original Assignee
(주)디오비스튜디오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)디오비스튜디오 filed Critical (주)디오비스튜디오
Priority to KR1020230075846A priority Critical patent/KR102592890B1/ko
Application granted granted Critical
Publication of KR102592890B1 publication Critical patent/KR102592890B1/ko
Priority to US18/389,810 priority patent/US20240212244A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06T5/002
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2211/00Image generation
    • G06T2211/40Computed tomography
    • G06T2211/416Exact reconstruction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치가 개시된다. 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법은 원본 이미지에 대하여 기 설정된 복수의 부위들 각각에 대응하는 마스크 영역을 설정하는 단계, 재구성 이미지 생성용 인공지능 학습 모델에 기초하여, 상기 복수의 부위들 중 어느 하나인 제1 부위에 대응하는 제1 이미지를 생성하는 단계, 상기 제1 이미지에 상기 제1 부위에 대한 마스크를 적용하여 제3 이미지를 생성하는 단계, 상기 원본 이미지 및 상기 제3 이미지의 차이에 대응하는 손실함수를 산출하는 단계 및 상기 손실함수를 기초로 역전파를 수행하여 상기 제1 부위에 대응하는 잠재 코드 출력용 인공지능 학습 모델에 대한 학습을 수행하는 단계를 포함할 수 있다.

Description

이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치 {METHOD AND APPARATUS FOR LEARNING ARTIFICIAL INTELLIGENCE LEARNING MODEL FOR IMAGE RECONSTRUCTION}
본 발명은 이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치에 관한 것이다.
이하에 기술되는 내용은 단순히 본 발명에 따른 일 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것은 아니다.
인공 지능(AI, Artificial Intelligence)은 학습, 문제 해결, 패턴 인식 등과 같이 주로 인간 지능과 연결된 인지 문제를 해결하는 데 주력하는 컴퓨터 공학 분야이다. 이 중에서도 기계 학습은 기록된 데이터에서 학습하고 이를 기반으로 예측하며, 불확실성 하에서 기본 유틸리티 기능을 최적화하고, 데이터에서 숨겨진 구조를 추출하고, 데이터를 간결한 설명으로 분류할 수 있는 알고리즘의 모음이다. 더 세분화하여 딥 러닝은 데이터를 좀 더 심층적으로 이해하기 위해 알고리즘을 계층화하는 것과 관련된 기계 학습의 한 분야이다. 딥 러닝은 비선형 알고리즘 계층을 사용하여 일련의 요소를 기반으로 상호 작용하는 분산 표상을 생성한다. 또한 충분한 학습 뒤에는 사람이 인지할 수 없을지도 모르는 관계를 파악하거나, 쉽게 해결할 수 없는 문제를 간단하게 풀어낼 수 있다. 이미 일상, 의료, 자율주행 등 다양한 분야에 적용되어 많은 성과를 달성하고 있으며, 대체불가능한 기술의 한 영역으로 자리잡고 있다.
이미지 생성 모델의 한 종류인 Generative Adversarial Networks(GAN)은 최근 매우 많은 분야에 다양하게 사용되고 있다. 주 분야인 이미지 생성 및 복원뿐만 아니라, 음성 생성 또는 편집, 신약 개발, 예측 등 이미지가 아닌 분야에도 광범위하게 응용되고 있다.
그러나 매우 높은 수준의 이미지를 생성할 수 있는 GAN의 Generator에도 불구하고 이미지를 상세하게 생성하는 것은 여전히 어려운 과제로 남아있다. 특히, 눈이나 치아와 같이 상대적으로 좁은 영역에서 높은 주파수를 갖는 영역에 대한 GAN Inversion은 아직도 부자연스러운 면을 보인다. 따라서, 좁은 영역에 대한 GAN Inversion이 자연스러워질 수 있도록 인공지능 학습 모델을 학습시키는 방법이 요구된다.
본 발명은 이미지 재구성을 위한 인공지능 학습 모델을 학습시키는 것을 목적으로 한다.
또한, 본 발명은 복수의 인공지능 학습 모델을 이용하여 출력된 이미지들을 결합하여 재구성된 이미지를 출력하는 것을 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법은 원본 이미지에 대하여 기 설정된 복수의 부위들 각각에 대응하는 마스크 영역을 설정하는 단계, 재구성 이미지 생성용 인공지능 학습 모델에 기초하여, 상기 복수의 부위들 중 어느 하나인 제1 부위에 대응하는 제1 이미지를 생성하는 단계, 상기 제1 이미지에 상기 제1 부위에 대한 마스크를 적용하여 제3 이미지를 생성하는 단계, 상기 원본 이미지 및 상기 제3 이미지의 차이에 대응하는 손실함수를 산출하는 단계 및 상기 손실함수를 기초로 역전파를 수행하여 상기 제1 부위에 대응하는 잠재 코드 출력용 인공지능 학습 모델에 대한 학습을 수행하는 단계를 포함하고, 상기 잠재 코드 출력용 인공지능 학습 모델은 상기 원본 이미지를 입력 받아, 상기 부위들 중 적어도 하나에 대응하는 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 제1 인공지능 학습 모델이고, 상기 재구성 이미지 생성용 인공지능 학습 모델은 상기 잠재 코드를 입력 받아, 재구성된 이미지를 출력하는 제2 인공지능 학습 모델일 수 있다.
상기 마스크 영역을 설정하는 단계는 상기 원본 이미지의 분할에 따른 경계가 서로 겹치도록 상기 마스크별 영역을 확장하여 설정하는 단계 및 상기 확장에 따라 상기 제1 이미지의 결합 시 서로 겹치는 영역에 대하여 자연스러운 결합이 수행되도록 상기 마스크 별로 블러 처리하는 단계를 포함할 수 있다.
상기 마스크 영역을 설정하는 단계 후, 상기 제1 인공지능 학습 모델에 기초하여, 상기 원본 이미지로부터 상기 복수의 부위 별로 재구성된 제1 이미지를 생성하기 위한 잠재 코드를 출력하는 단계, 상기 제2 인공지능 학습 모델에 기초하여, 상기 복수의 부위 별로 상기 잠재 코드로부터 재구성된 상기 제1 이미지들을 생성하는 단계 및 상기 복수의 부위 별로 생성된 상기 제1 이미지들에 상기 마스크를 각각 적용하고, 마스크가 적용된 상기 제1 이미지들을 결합하여 상기 원본 이미지에 대하여 재구성된 제2 이미지를 생성하는 단계를 포함할 수 있다.
상기 제1 인공지능 학습 모델은 상기 복수의 부위 별로 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 복수의 인공지능 학습 모델을 포함하고, 상기 잠재 코드를 출력하는 단계, 상기 제1 이미지들을 생성하는 단계 및 상기 인공지능 학습 모델에 대한 학습을 수행하는 단계는 상기 원본 이미지 및 상기 제1 이미지들의 차이에 대응하는 손실값이 기 설정된 값 이내로 감소할 때까지 반복하여 학습할 수 있다.
상기 제1 이미지들을 생성하는 단계는 상기 원본 이미지에 대하여 상기 복수의 부위별 이미지 재구성을 위한 스타일 값을 조정하여 상기 복수의 부위 별로 상기 제1 이미지들을 생성하는 단계를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 장치는 원본 이미지에 대하여 복수의 부위에 대한 마스크를 설정하는 마스크 설정부, 복수의 부위들 중 어느 하나인 제1 부위에 대응하는 제1 이미지를 생성하는 제1 이미지 생성부, 상기 제1 이미지에 상기 제1 부위에 대한 마스크를 적용하여 제3 이미지를 생성하는 제3 이미지 생성부 및 인공지능 학습 모델을 학습시키는 인공지능 학습부를 포함할 수 있다.
상기 마스크 설정부는 상기 원본 이미지에 대하여 기 설정된 복수의 부위들 각각에 대응하는 마스크 영역을 설정하고, 상기 제1 이미지 생성부는 재구성 이미지 생성용 인공지능 학습 모델에 기초하여, 상기 복수의 부위들 중 어느 하나인 제1 부위에 대응하는 제1 이미지를 생성하고, 상기 제3 이미지 생성부는 상기 제1 이미지에 상기 제1 부위에 대한 마스크를 적용하여 제3 이미지를 생성하고, 상기 인공지능 학습부는 상기 원본 이미지 및 상기 제3 이미지의 차이에 대응하는 손실함수를 산출하고, 상기 손실함수를 기초로 역전파를 수행하여 상기 제1 부위에 대응하는 잠재 코드 출력용 인공지능 학습 모델에 대한 학습을 수행하고, 상기 잠재 코드 출력용 인공지능 학습 모델은 상기 원본 이미지를 입력 받아, 상기 부위들 중 적어도 하나에 대응하는 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 제1 인공지능 학습 모델이고, 상기 재구성 이미지 생성용 인공지능 학습 모델은 상기 잠재 코드를 입력 받아, 재구성된 이미지를 출력하는 제2 인공지능 학습 모델일 수 있다.
상기 마스크 설정부는 상기 원본 이미지의 분할에 따른 경계가 서로 겹치도록 상기 마스크별 영역을 확장하여 설정하고, 상기 확장에 따라 상기 제1 이미지의 결합 시 서로 겹치는 영역에 대하여 자연스러운 결합이 수행되도록 상기 마스크 별로 블러 처리할 수 있다.
상기 원본 이미지로부터 잠재 코드를 출력하는 잠재 코드 출력부, 상기 잠재 코드로부터 재구성된 이미지들을 생성하는 제2 이미지 생성부 및 상기 재구성된 이미지들을 결합하는 이미지 결합부를 더 포함하고, 상기 잠재 코드 출력부는 상기 제1 인공지능 학습 모델에 기초하여, 상기 원본 이미지로부터 상기 복수의 부위 별로 재구성된 제1 이미지를 생성하기 위한 잠재 코드를 출력하고, 상기 제2 이미지 생성부는 상기 제2 인공지능 학습 모델에 기초하여, 상기 복수의 부위 별로 상기 잠재 코드로부터 재구성된 상기 제1 이미지들을 생성하고, 상기 이미지 결합부는 상기 복수의 부위 별로 생성된 상기 제1 이미지들에 상기 마스크를 각각 적용하고, 마스크가 적용된 상기 제1 이미지들을 결합하여 상기 원본 이미지에 대하여 재구성된 제2 이미지를 생성할 수 있다.
상기 제1 인공지능 학습 모델은 상기 복수의 부위 별로 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 복수의 인공지능 학습 모델을 포함하고, 상기 인공지능 학습부는 상기 원본 이미지 및 상기 제1 이미지들의 차이에 대응하는 손실값이 기 설정된 값 이내로 감소할 때까지 반복하여 학습하고, 상기 제2 이미지 생성부는 상기 원본 이미지에 대하여 상기 복수의 부위별 이미지 재구성을 위한 스타일 값을 조정하여 상기 복수의 부위 별로 상기 제1 이미지들을 생성할 수 있다.
본 발명에 따르면, 이미지 재구성을 위한 인공지능 학습 모델을 학습시킬 수 있다.
또한, 본 발명에 따르면, 복수의 인공지능 학습 모델을 이용하여 출력된 이미지들을 결합하여 재구성된 이미지를 출력할 수 있다.
도 1은 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법을 나타낸 동작 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법을 나타낸 동작 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법을 나타낸 동작 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 장치의 구성을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 장치의 구성을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 특정 부위에 대한 인공지능 학습 모델의 학습 과정을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 각 부위 별 학습을 적용하여 학습한 모델로부터 출력된 이미지를 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 복수의 부위에 대한 마스크 생성 결과를 나타낸 도면이다.
도 10은 원본 이미지와 인코더를 기반으로 출력된 이미지를 나타낸 도면이다.
도 11은 원본 이미지와 출력된 이미지의 세부 영역을 확대하여 나타낸 도면이다.
도 12는 Celeba Dataset의 무작위 10장을 대상으로 측정한 결과 차트를 나타낸 도면이다.
도 13은 Celeba Dataset의 무작위 50장을 대상으로 측정한 결과 차트를 나타낸 도면이다.
도 14는 Celeba Dataset의 무작위 100장을 대상으로 측정한 결과 차트를 나타낸 도면이다.
도 15는 인코더에 적용된 편집 방법에 따라 출력된 편집 이미지를 나타낸 도면이다.
도 16은 StyleGAN3를 디코더로 사용하는 Restyle_pSp를 통해 출력된 이미지를 나타낸 도면이다.
도 17은 Celeba Dataset의 무작위 100장을 대상으로 StyleGAN3로 동일한 디코더를 사용하는 Restyle_pSp의 재구성 결과와 본 발명에서의 재구성 결과를 나타낸 도면이다.
도 18은 원본 이미지, 합성 이미지 및 그 결합에 대한 결과를 나타낸 도면이다.
도 19는 원본 이미지 및 편집된 이미지를 나타낸 도면이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법을 나타낸 동작 흐름도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법은 먼저, 원본 이미지에 대하여 기 설정된 복수의 부위들 각각에 대응하는 마스크 영역을 설정할 수 있다(S110).
여기서, 상기 마스크는 원본 이미지에 대해서 변하지 않을 수 있는 기준을 가지고 나누어야 하며, 원본 이미지를 의미를 가지면서 분할할 수 있는 최대로 분할하되, 쌍을 갖는 부위는 예외로 나누지 않을 수 있다.
다음으로, 재구성 이미지 생성용 인공지능 학습 모델에 기초하여, 상기 복수의 부위들 중 어느 하나인 제1 부위에 대응하는 제1 이미지를 생성할 수 있다(S120).
다음으로, 상기 제1 이미지에 상기 제1 부위에 대한 마스크를 적용하여 제3 이미지를 생성할 수 있다(S130).
다음으로, 상기 원본 이미지 및 상기 제3 이미지의 차이에 대응하는 손실함수를 산출할 수 있다(S140).
다음으로, 상기 손실함수를 기초로 역전파를 수행하여 상기 제1 부위에 대응하는 잠재 코드 출력용 인공지능 학습 모델에 대한 학습을 수행할 수 있다(S150).
여기서, 상기 잠재 코드 출력용 인공지능 학습 모델은 상기 원본 이미지를 입력 받아, 상기 부위들 중 적어도 하나에 대응하는 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 제1 인공지능 학습 모델이고, 상기 재구성 이미지 생성용 인공지능 학습 모델은 상기 잠재 코드를 입력 받아, 재구성된 이미지를 출력하는 제2 인공지능 학습 모델을 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법을 나타낸 동작 흐름도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법은 먼저, 상기 원본 이미지의 분할에 따른 경계가 서로 겹치도록 상기 마스크별 영역을 확장하여 설정할 수 있다(S210).
다음으로, 상기 확장에 따라 상기 제1 이미지의 결합 시 서로 겹치는 영역에 대하여 자연스러운 결합이 수행되도록 상기 마스크 별로 블러 처리할 수 있다(S220).
예컨대, 블러 처리에 사용되는 방법으로는 가우시안 블러(Gaussian Blur)가 적용될 수 있다.
이를 통해, 출력된 이미지를 결합하는 경우, 인공적인 아티팩트가 발생하지 않고 마스크의 경계 영역이 자연스럽게 결합하도록 할 수 있다.
도 3은 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법을 나타낸 동작 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 방법은 상기 마스크 영역을 설정하는 단계 후, 상기 제1 인공지능 학습 모델에 기초하여, 상기 원본 이미지로부터 상기 복수의 부위 별로 재구성된 제1 이미지를 생성하기 위한 잠재 코드를 출력할 수 있다(S310).
다음으로, 상기 제2 인공지능 학습 모델에 기초하여, 상기 복수의 부위 별로 상기 잠재 코드로부터 재구성된 상기 제1 이미지들을 생성할 수 있다(S320).
다음으로, 상기 복수의 부위 별로 생성된 상기 제1 이미지들에 상기 마스크를 각각 적용하고, 마스크가 적용된 상기 제1 이미지들을 결합하여 상기 원본 이미지에 대하여 재구성된 제2 이미지를 생성할 수 있다(S330).
여기서, 상기 제1 인공지능 학습 모델은 상기 복수의 부위 별로 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 복수의 인공지능 학습 모델을 포함할 수 있다.
일 실시예에 따르면, 상기 S320 단계는 상기 원본 이미지에 대하여 상기 복수의 부위별 이미지 재구성을 위한 스타일 값을 조정하여 상기 복수의 부위 별로 상기 제1 이미지들을 생성할 수 있다.
또한, 상기 S150 단계, 상기 S310 단계 및 상기 S320 단계는 상기 원본 이미지 및 상기 제1 이미지들의 차이에 대응하는 손실값이 기 설정된 값 이내로 감소할 때까지 반복하여 학습할 수 있다.
여기서, 인공지능 학습 모델은 딥러닝을 이용한 지도학습을 통해 학습하는 모델일 수 있다. 딥러닝은 컴퓨터가 스스로 외부 데이터를 조합, 분석하여 학습하는 기술을 의미한다. 이는 머신러닝에 인간의 뇌와 유사하게 뉴런과 시냅스의 구조를 모방한 인공신경망을 이용하고, 다양한 신경망을 중첩하여 예측 정확도를 상승시키는 방법이다.
또한, 지도학습은 답이 정해져 있는 데이터를 이용하여 모델을 학습시킨 후, 새로운 데이터에 대한 결과를 예측하는 학습 방법을 의미한다.
일반적인 딥러닝의 과정은 먼저, 파라미터를 초기화하고, 하이퍼 파라미터를 정의할 수 있다. 여기서, 파라미터는 인공지능 학습 모델 내부에서 결정되는 변수로 데이터를 통해서 산출이 가능한 값을 의미하고, 하이퍼 파라미터는 알고리즘 사용자가 경험에 의해 직접 설정하는 값을 의미한다. 하이퍼 파라미터는 정해진 최적의 값이 없고, 학습 모델이나 데이터에 따라 달라질 수 있다.
다음으로, 설정된 횟수만큼 반복하여 학습할 수 있다. 학습 과정이 진행되는 경우, 학습의 순서는 먼저, 인공신경망을 통해 순방향으로 전파할 수 있다. 다음으로, 손실함수를 계산할 수 있다. 여기서, 손실함수는 입력에 따른 기대값과 실제 값의 차이를 계산하는 함수를 의미한다. 다음으로, 인공신경망을 통해 역방향으로 전파할 수 있다. 다음으로, 파라미터를 업데이트할 수 있다. 위 과정을 설정된 횟수만큼 반복하여 학습된 모델을 생성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 장치의 구성을 나타낸 도면이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 장치(400)는 원본 이미지에 대하여 복수의 부위에 대한 마스크를 설정하는 마스크 설정부(410), 복수의 부위들 중 어느 하나인 제1 부위에 대응하는 제1 이미지를 생성하는 제1 이미지 생성부(420), 상기 제1 이미지에 상기 제1 부위에 대한 마스크를 적용하여 제3 이미지를 생성하는 제3 이미지 생성부(430) 및 인공지능 학습 모델을 학습시키는 인공지능 학습부(440)를 포함할 수 있다.
이 때, 상기 마스크 설정부는 상기 원본 이미지에 대하여 기 설정된 복수의 부위들 각각에 대응하는 마스크 영역을 설정하고, 상기 제1 이미지 생성부는 재구성 이미지 생성용 인공지능 학습 모델에 기초하여, 상기 복수의 부위들 중 어느 하나인 제1 부위에 대응하는 제1 이미지를 생성하고, 상기 제3 이미지 생성부는 상기 제1 이미지에 상기 제1 부위에 대한 마스크를 적용하여 제3 이미지를 생성하고, 상기 인공지능 학습부는 상기 원본 이미지 및 상기 제3 이미지의 차이에 대응하는 손실함수를 산출하고, 상기 손실함수를 기초로 역전파를 수행하여 상기 제1 부위에 대응하는 잠재 코드 출력용 인공지능 학습 모델에 대한 학습을 수행할 수 있다.
여기서, 상기 잠재 코드 출력용 인공지능 학습 모델은 상기 원본 이미지를 입력 받아, 상기 부위들 중 적어도 하나에 대응하는 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 제1 인공지능 학습 모델이고, 상기 재구성 이미지 생성용 인공지능 학습 모델은 상기 잠재 코드를 입력 받아, 재구성된 이미지를 출력하는 제2 인공지능 학습 모델일 수 있다.
또한, 상기 마스크 설정부는 상기 원본 이미지의 분할에 따른 경계가 서로 겹치도록 상기 마스크별 영역을 확장하여 설정하고, 상기 확장에 따라 상기 제1 이미지의 결합 시 서로 겹치는 영역에 대하여 자연스러운 결합이 수행되도록 상기 마스크 별로 블러 처리할 수 있다.
도 5는 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 장치의 구성을 나타낸 도면이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 장치(400)는 상기 원본 이미지로부터 잠재 코드를 출력하는 잠재 코드 출력부(510), 상기 잠재 코드로부터 재구성된 이미지들을 생성하는 제2 이미지 생성부(520) 및 상기 재구성된 이미지들을 결합하는 이미지 결합부(530)를 더 포함할 수 있다.
이 때, 상기 잠재 코드 출력부는 상기 제1 인공지능 학습 모델에 기초하여, 상기 원본 이미지로부터 상기 복수의 부위 별로 재구성된 제1 이미지를 생성하기 위한 잠재 코드를 출력하고, 상기 제2 이미지 생성부는 상기 제2 인공지능 학습 모델에 기초하여, 상기 복수의 부위 별로 상기 잠재 코드로부터 재구성된 상기 제1 이미지들을 생성하고, 상기 이미지 결합부는 상기 복수의 부위 별로 생성된 상기 제1 이미지들에 상기 마스크를 각각 적용하고, 마스크가 적용된 상기 제1 이미지들을 결합하여 상기 원본 이미지에 대하여 재구성된 제2 이미지를 생성할 수 있다.
여기서, 상기 제1 인공지능 학습 모델은 상기 복수의 부위 별로 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 복수의 인공지능 학습 모델을 포함할 수 있다.
또한, 상기 인공지능 학습부는 상기 원본 이미지 및 상기 제1 이미지들의 차이에 대응하는 손실값이 기 설정된 값 이내로 감소할 때까지 반복하여 학습하고, 상기 제2 이미지 생성부는 상기 원본 이미지에 대하여 상기 복수의 부위별 이미지 재구성을 위한 스타일 값을 조정하여 상기 복수의 부위 별로 상기 제1 이미지들을 생성할 수 있다.
도 6은 본 발명의 일 실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.
본 발명의 일 실시예에 따른 이미지 재구성을 위한 인공지능 학습 모델 학습 장치는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다.
도 6을 참조하면, 컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들어, 메모리는 ROM(1031)이나 RAM(1032)을 포함할 수 있다.
도 7은 본 발명의 일 실시예에 따른 특정 부위에 대한 인공지능 학습 모델의 학습 과정을 나타낸 도면이다.
도 7을 참조하면, 본 발명의 일 실시예에 따른 특정 부위에 대한 인공지능 학습 모델의 학습 과정은 사전 학습된 인코더를 통해 원본 이미지에 대응하는 잠재 코드를 출력하고, StyleGAN 생성기(Generator)를 이용하여 이미지를 출력할 수 있다. 출력된 이미지는 특정 부위에 대한 마스크와 결합하여 해당 부위의 이미지만 남게 되고, 나머지 부분은 원본 이미지로 대체되어 재구성된 이미지를 출력할 수 있다. 결합 시 보다 자연스러운 결합을 위해 가우시안 블러(Gaussian Blur)가 적용될 수 있다. 인코더는 재구성된 이미지를 이용하여 해당 특정 부위에 대한 학습을 수행할 수 있다.
이 때, 사전 학습된 인코더는 특정 부위에 대한 마스크를 이용하여 학습할 수 있다. 학습 범위가 마스크 범위로 제한됨에 따라 마스크에 해당하는 영역은 원본과 더 유사하게 출력하고, 그 외 영역은 전혀 상관없는 결과를 출력할 수 있다. 인코더는 복수의 부위에 대하여 각각 학습된 복수의 인코더가 존재할 수 있다. 복수의 인코더를 통해 각 부위에 대하여 재구성된 이미지들을 출력하고, 각 부위에 대하여 재구성된 이미지들을 결합하여 원본 이미지를 재구성한 이미지를 출력할 수 있다.
여기서, 각 부위에 대하여 재구성된 이미지들을 결합하는 경우, 마스크의 경계 영역이 자연스럽게 결합되어야 하며, 이는 인공적인 아티팩트(artifact)가 없고 실제 이미지 및 합성 이미지의 경계 영역에 대한 유사도가 70% 이상 달성하는 것으로 정의할 수 있다.
도 8은 본 발명의 일 실시예에 따른 각 부위 별 학습을 적용하여 학습한 모델로부터 출력된 이미지를 나타낸 도면이다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 각 부위 별 학습을 적용하여 학습한 모델로부터 출력된 이미지는 학습되지 않은 영역에 대해서는 원본 이미지와 전혀 다른 이미지를 생성하고, 학습된 영역에 대해서는 높은 품질의 결과를 생성할 수 있다.
도 9는 본 발명의 일 실시예에 따른 복수의 부위에 대한 마스크 생성 결과를 나타낸 도면이다.
도 9를 참조하면, 마스크는 인코더가 학습한 후 재구성하는 정보가 최대한 많아지도록 하는 것이 목표일 수 있다. 이를 위해 마스크를 나누는 경우, 이미지에 대해서 변하지 않을 수 있는 기준을 가지고 나누어야 하며, 원본 이미지를 의미를 가지면서 분할할 수 있는 최대로 분할하되, 쌍을 갖는 부위는 예외로 나누지 않을 수 있다. 본 발명의 일 실시예에 따르면 배경, 피부, 눈, 코 및 입 부위 등 5개의 영역에 대하여 마스크를 생성할 수 있다. 이를 통해 얼굴을 포함하는 원본 이미지를 5개의 영역으로 구분하고, 각 부위에 해당하는 마스크()를 생성할 수 있다. 생성된 마스크의 합으로 입력 이미지 P(x)를 나타낼 수 있다.
일 실시예에 따르면, 마스크를 이용하여 재구성된 이미지를 출력하는 방법은 먼저 모든 학습의 기초가 될 학습 모델 를 정의할 수 있다.
여기서, 는 pSp, e4e 및 Restyle을 포함할 수 있고, 디코더는 StyleGAN3를 포함할 수 있다.
다음으로, 가 원본 이미지에서 획득할 수 있는 정보만으로 StyleGAN3에서 원본 이미지를 높은 퀄리티로 표현할 수 없기 때문에 추가 학습을 수행할 수 있다. 추가 학습의 파라미터 및 학습 과정은 의 학습 과정과 동일하게 수행되며, 출력된 이미지에 서로 다른 마스크를 결합하여 생성되는 이미지는 서로 다를 수 있다. 추가 학습을 통해 각 부위 별 학습 모델()을 생성할 수 있다.
다음으로, 각 부위 별 학습 모델()은 원본 이미지를 입력으로 하여 재구성된 이미지를 출력하고, 부위 별 학습 모델에 대응하는 마스크()를 원본 이미지로 대체할 수 있다. 각 부위 별 학습 모델의 출력은 아래 식으로 표현할 수 있다.
여기서, x는 원본 이미지, G는 생성기(Generator), 는 i번째 부위에 대응하는 인코더, 는 i번째 부위에 대응하여 출력된 이미지를 의미한다. 총 k개의 각 부위 별 학습 모델의 출력을 종합하여 생성할 수 있는 재구성된 이미지()는 아래 식으로 표현할 수 있다.
일 실시예에 따르면, 인코더에 대한 학습을 진행하는 경우, pSp, e4e 및 Restyle을 포함하는 방법을 이용하여 학습을 수행할 수 있다. 이 때, 픽셀 단위에서의 이미지 재구성에 대한 손실을 줄이기 위한 L2 손실함수, 지각적 재구성 손실을 위한 LPIPS 손실함수를 이용하여 W 공간에 근접한 잠재 코드를 생성할 수 있다. e4e의 경우, 추가적으로 w_regularization 손실함수를 이용할 수 있다.
원본 이미지를 재구성하는 경우, 얼굴의 핵심 정보를 보존하는 것은 GAN Inversion에서 매우 중요하다. 따라서 주어진 얼굴을 ArcFace(Additive Angular Margin Loss function, 가산 각도 여백 손실함수)를 사용하여 인코딩하고, 원본 이미지와 출력된 이미지 간의 코사인 유사도를 비교할 수 있다. 일반적으로 사용되는 것과 다르게 Baseline에서 언급된 해상도에 따른 결과를 전부 사용함으로써, 출력층을 포함한 5개의 Feature map이 모두 사용되는 손실함수를 계산할 수 있다. 해상도 크기에 따라 재구성된 이미지와 원본 이미지 간의 식별 정보의 의미적 정렬을 더 잘 감독하기 위해 5가지 다른 수준의 기능을 감독으로 선택할 수 있다.
여기서, cos은 코사인 유사도를 의미하고, 는 입력 영상 x의 얼굴 인식 네트워크 R에서 i번째 계층에 해당하는 특징을 나타낼 수 있다. 최종적으로, 인코더 학습을 위한 손실함수는 아래 식으로 나타낼 수 있다.
도 10 내지 도 19는 인코더 및 StyleGAN을 이용하여 재구성된 이미지를 생성하는 실험 과정 및 실험 결과를 나타낸 도면이다. 실험에는 Encoder Backbone은 Restyle이 사용하는 SE-ResNet50 Backbone이 사용되었으며, Generator로 FFHQ Dataset으로 사전 학습된 StyleGAN3-config-R 모델이 사용되었다. 손실함수 중 LPIPS 손실함수에 Alex, Id 손실함수에 ArcFace가 사용되었다. 인코더의 학습 또한 생성기와 같이 FFHQ Dataset으로 수행되며, 평가는 CelebA-HQ Dataset을 사용하며 10개, 50개, 100개의 랜덤한 이미지를 선택하여 이들을 대상으로 진행된다.
도 10은 원본 이미지와 인코더를 기반으로 출력된 이미지를 나타낸 도면이다.
도 11은 원본 이미지와 출력된 이미지의 세부 영역을 확대하여 나타낸 도면이다.
도 10 및 도 11을 참조하면, 본 발명에 따른 인코더 방법(SSE)과 pSp 및 Restyle과 같은 기존의 인코더에 사용되는 방법을 정성적으로 비교할 수 있다.
본 발명에 따른 인코더 방법은 pSp 및 Restyle과 비교했을 때, 더 정확한 색감과 전체적인 인상을 재구성할 수 있다.
또한, 얼굴 영역에서의 눈동자 위치, 치아 등 세부적인 정보를 Restyle 방법보다 더 정확하고 세밀하게 구성할 수 있다.
도 11의 1행에서 좌측 인물의 Input 이미지 및 SSE 이미지는 시선이 정면을 향하고 있으나, Restyle의 시선은 우측을 향하고 있는 것을 확인할 수 있다. 영상에서 인물의 시선은 매우 중요한 정보로 약간의 픽셀차이에도 전혀 다른 시선을 갖게 되는데, 본 발명에 따른 인코더 방법은 세밀한 영역의 높은 재구성 성능으로 왜곡 없는 시선을 갖는 이미지를 생성할 수 있다. 2행은 각 1행의 눈을 확대한 이미지인데, 세부적인 눈의 모양, 동공에서 눈의 테두리까지의 간격, 속눈썹 등 전체적으로 본 발명에 따른 인코더 방법이 Restyle에 비해 월등히 유사한 이미지를 생성할 수 있다. 우측 인물의 3행에서도 볼 수 있듯, Restyle의 입모양은 전체적으로 평탄한 반면, 본 발명에 따른 인코더 방법은 더 굴곡진 입모양을 생성할 수 있다. 이처럼 세부적인 영역에서 본 발명에 따른 인코더 방법이 Restyle에 비해 더 높은 정확도를 보일 수 있다.
도 12는 Celeba Dataset의 무작위 10장을 대상으로 측정한 결과 차트를 나타낸 도면이다.
도 13은 Celeba Dataset의 무작위 50장을 대상으로 측정한 결과 차트를 나타낸 도면이다.
도 14는 Celeba Dataset의 무작위 100장을 대상으로 측정한 결과 차트를 나타낸 도면이다.
도 12 내지 도 14를 참조하면, 본 발명에 따른 인코더 방법(SSE)과 pSp 및 Restyle과 같은 기존의 인코더에 사용되는 방법을 정량적으로 비교할 수 있다. 인코더에 사용되는 각 방법에 대해 SSIM (Structural Similarity Index Map), PSNR(Peak Signal-to-Noise Ratio) 점수, LPIPS 거리, ID를 각각 계산할 수 있다.
도 12 내지 도 14에서 볼 수 있듯이, 본 발명에 따른 인코더 방법(SSE)은 pSp, Restyle-pSp보다 LPIPS 거리를 제외한 SSIM, PSNR, ID 지표에서 더 높은 지표를 달성할 수 있다. LPIPS 또한 도 13에서는 더 높게 측정되었으며 나머지 결과도 비슷한 결과를 보인다. 이러한 분석은 본 발명에 따른 인코더 방법(SSE)이 Restyle보다 더 높은 재구성 성능을 가지고 있음을 증명한다. StyleGAN2 Inversion에 비해 StyleGAN3의 Inversion의 성능은 약 10%가량 떨어지는데, 이를 극복하고 높은 지표를 달성했다는 것은 매우 긍정적인 결과라고 볼 수 있다. 반면 한 번의 추론에 다수의 모델을 사용하기 때문에, 다른 Encoder 기반 방법에 비해 더 많은 비용을 사용하는 단점이 있다.
SSIM↑ PSNR↑ LPIPS↓ ID Runtime(s)
pSp 0.42 61.84 0.16 0.79 0.17s
Restyle(pSp) 0.45 62.48 0.13 0.84 0.75s
SSE(SG3) 0.50 63.45 0.14 0.90 2.24s
도 12 및 [표 1]을 참조하면, [표 1]은 Celeba Dataset의 무작위 10장을 대상으로 측정한 결과이다. 본 발명에 따른 인코더 방법(SSE)을 Restyle_pSp(SG2)와 비교했을 경우, SSIM, PSNR, ID 에서는 더 우수한 성능을 보이고, LPIPS에서는 더 낮은 성능을 갖는다. 도 12는 [표 1]을 그래프로 나타낸 도면이다.
SSIM↑ PSNR↑ LPIPS↓ ID Runtime(s)
pSp 0.47 62.81 0.15 0.80 0.16s
Restyle(pSp) 0.51 63.69 0.12 0.88 0.75s
SSE(SG3) 0.55 64.65 0.12 0.92 2.24s
도 13 및 [표 2]를 참조하면, [표 2]는 Celeba Dataset의 무작위 50장을 대상으로 측정한 결과이다. Restyle은 생성기로 StyleGAN2를 사용한다. 본 발명에 따른 인코더 방법(SSE)은 대부분의 경우에 Restyle보다 높은 성능을 보인다. 도 13은 [표 2]를 그래프로 나타낸 도면이다.
SSIM↑ PSNR↑ LPIPS↓ ID Runtime(s)
pSp 0.47 62.99 0.15 0.81 0.16s
Restyle(pSp) 0.50 63.92 0.12 0.89 0.74s
SSE(SG3) 0.54 64.58 0.13 0.93 2.24s
도 14 및 [표 3]을 참조하면, [표 3]은 Celeba Dataset의 무작위 100장을 대상으로 측정한 결과이다. 본 발명에 따른 인코더 방법(SSE)을 Restyle_pSp(SG2)와 비교했을 때, SSIM, PSNR, ID 에서는 더 우수한 성능을 보이고, LPIPS에서는 더 낮은 성능을 갖는다. 도 14는 [표 3]을 그래프로 나타낸 면이다.
도 15는 인코더에 적용된 편집 방법에 따라 출력된 편집 이미지를 나타낸 도면이다.
도 15를 참조하면, 편집 성능에 대하여 정성적으로 평가할 수 있다.
원본 이미지에 대한 편집은 각각 디코더를 StyleGAN3로 사용하는 Restyle-pSp, Restyle-e4e 모델과 비교하며 이 비교군은 the charm의 가중치를 따른다. StyleSpace 편집을 사용하여 같은 속성에 대해서는 같은 채널에 적용하지만 값은 모델에 따라 다른 값을 적용한다. Restyle-pSp의 경우 도 15의 3행에서 볼 수 있듯, 편집이 얼굴의 명암을 해치는 경우가 존재할 수 있다. Restyle-e4e의 경우 전반적으로 낮은 재구성 성능으로 인해 편집된 이미지가 원본의 속성을 충분히 보존하지 못하지만, 재구성된 이미지에서는 올바르게 편집을 진행한다. 그러나 1행의 Straight Brow 속성이 두드러지게 적용되지 않는다. 본 발명에 따른 인코더 방법(SSE)은 비교군에 비해 재구성 성능이 눈에 띄게 뛰어나며, 편집 성능 또한 기존의 속성을 보존한 채로 수정하는 것을 확인할 수 있다. 따라서 재구성 성능을 향상시키며 동시에 편집 성능도 향상시킬 수 있다.
도 16은 StyleGAN3를 디코더로 사용하는 Restyle_pSp를 통해 출력된 이미지를 나타낸 도면이다.
도 17은 Celeba Dataset의 무작위 100장을 대상으로 StyleGAN3로 동일한 디코더를 사용하는 Restyle_pSp의 재구성 결과와 본 발명에서의 재구성 결과를 나타낸 도면이다.
도 16 및 도 17을 참조하면, 본 발명에 따른 인코더 방법(SSE)을 검증하기 위해서 먼저 Segment Learning을 사용하지 않는 경우와 사용하는 경우를 비교한다. 여기서, Segment Learning은 원본 이미지를 복수의 부위로 나누어 각 부위 별로 학습하는 것을 의미한다. 도 16에서는 극적으로 재구성 성능이 향상된 것을 볼 수 있는데, 특히 눈동자와 치아에서 더욱 부각되는 것을 확인할 수 있다. Segment Learning을 사용하지 않은 경우(도 16의 2열)에는 시선을 올바르게 복원하지 못했지만, 사용한 경우(도 16의 3열)에는 완벽하게 복원하는 것을 확인할 수 있다.
SSIM↑ PSNR↑ LPIPS↓ ID↑ Runtime(s)
Restyle-pSp(SG3) 0.46 62.76 0.17 0.85 0.70s
SSE(SG3) 0.54 64.58 0.13 0.93 2.23s
도 17 및 [표 4]를 참조하면, [표 4]는 StyleGAN3로 동일한 디코더를 사용하는 Restyle_pSp의 재구성 결과와 본 발명에 따른 인코더 방법(SSE)의 재구성 결과를 비교한 것이다. 본 발명에 따른 인코더 방법(SSE)은 정량적인 지표 또한 LPIPS, ID, PSNR, SSIM 네가지 영역 모두에서 크게 증가하였으며 Segment Learning은 인코더의 성능 향상에 큰 도움이 된다는 것을 알 수 있다. 도 17은 [표 4]를 그래프로 나타낸 도면이다.
도 18은 원본 이미지, 합성 이미지 및 그 결합에 대한 결과를 나타낸 도면이다.
도 18을 참조하면, 1열은 원본 이미지, 2열은 원본 이미지에 합성 영역의 경계를 표시한 이미지, 3열은 원본 이미지와 합성 이미지를 결합한 이미지, 4열은 합성 이미지 간의 결합을 통해 생성된 이미지를 나타낸 도면이다. 위 실험 결과에도 보이듯이, 본 발명에 따른 인코더 방법(SSE)을 이용하여 충분히 학습된 모델이 생성하는 출력은 Mask 영역을 원본 이미지와 교환했을 때 눈으로 확인할 수 있는 아티팩트가 발생하지 않는다. 더 상세한 분석을 위해서 전제조건을 만족하는지 확인한다.
먼저, 첫 번째 전제조건은 "합성 이미지와 원본 이미지가 경계를 생성하지 않고 결합되는가"이다. 이는 합성 이미지와 원본 이미지를 결합하여 확인할 수 있다. 먼저 정성적인 측면으로 볼 때, 도 18의 3열에서 볼 수 있듯 합성된 이미지는 눈에 보이는 경계선을 생성하지 않는다. 또한 정량적인 측면으로 보았을 때, 본 발명에 따른 인코더 방법(SSE)이 가장 뛰어난 성능을 보이는 것은 물론이고 Restyle-pSp(SG3)과 Restyle-pSp(SG2)의 차이보다 훨씬 큰 차이로 우수한 결과를 생성했다. 단순 재구성 성능차이는 Restyle-pSp(SG3)와 Restyle-pSp(SG2) 사이가 더 컸다는 것을 고려하면 이는 Segment Learning이 마스크 경계에 특화되어 자연스러운 결합을 유도한다는 것을 알 수 있다.
두 번째 전제조건은 "서로 다른 합성 이미지가 경계를 생성하지 않고 결합되는가"이다. 이는 합성 이미지 간의 결합을 통해 확인할 수 있다. 도 18의 4열과 같이 눈에 보이는 경계선을 생성하지 않는다. 원본 이미지에 기존보다 더 가깝게 재구성 가능하도록 학습된 각각의 Segment에 대한 학습 모델들은 다른 출력끼리 결합하여도 특별한 아티팩트 없이 이미지를 결합할 수 있다. 이는 특별한 이미지 합성 로직 없이, 단순 BitMask 연산만으로도 충분히 자연스러운 이미지를 생성할 수 있으며 입력 이미지를 매우 높은 유사도로 재구성함을 증명한다.
도 19는 원본 이미지 및 편집된 이미지를 나타낸 도면이다.
도 19를 참조하면, 본 발명에 따른 인코더 방법(SSE)은 단순히 한 장의 이미지 전체를 재구성하는 것이 아니라, 원하는 특정 부위만을 재구성하고 편집할 수 있다. 이러한 프로세스는 특정 부위만을 교환해도 눈에 보이는 경계를 생성하지 않고 자연스럽게 결합이 가능하기 때문인데, 도 19를 보았을 때 편집 이후에도 이러한 속성을 유지하고 있다. 그러나 경계영역의 색상을 크게 변경하는 편집은 특수한 편집기법을 함께 사용할 필요가 있다.
본 발명에서 설명하는 특정 실행들은 일 실시예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
500: 이미지 재구성 장치
510: 마스크 설정부 520: 잠재 코드 출력부
530: 이미지 생성부 540: 이미지 결합부
1000: 컴퓨터 시스템 1010: 프로세서
1020: 버스 1030: 메모리
1031: 롬 1032: 램
1040: 사용자 인터페이스 입력 장치
1050: 사용자 인터페이스 출력 장치
1060: 스토리지 1070: 네트워크 인터페이스
1080: 네트워크

Claims (10)

  1. 원본 이미지에 대하여 기 설정된 복수의 부위들 각각에 대응하는 마스크 영역을 설정하는 단계;
    재구성 이미지 생성용 인공지능 학습 모델에 기초하여, 상기 복수의 부위들 중 어느 하나인 제1 부위에 대응하는 제1 이미지를 생성하는 단계;
    상기 제1 이미지에 상기 제1 부위에 대한 마스크를 적용하여 제3 이미지를 생성하는 단계;
    상기 원본 이미지 및 상기 제3 이미지의 차이에 대응하는 손실함수를 산출하는 단계; 및
    상기 손실함수를 기초로 역전파를 수행하여 상기 제1 부위에 대응하는 잠재 코드 출력용 인공지능 학습 모델에 대한 학습을 수행하는 단계
    를 포함하고,
    상기 잠재 코드 출력용 인공지능 학습 모델은,
    상기 원본 이미지를 입력 받아, 상기 부위들 중 적어도 하나에 대응하는 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 제1 인공지능 학습 모델이고,
    상기 재구성 이미지 생성용 인공지능 학습 모델은,
    상기 잠재 코드를 입력 받아, 재구성된 이미지를 출력하는 제2 인공지능 학습 모델이고,
    상기 마스크 영역을 설정하는 단계는,
    상기 원본 이미지를 얼굴 부위 별로 마스크를 설정하되, 한 쌍으로 이루어진 부위는 단일 마스크로 설정하는 단계를 포함하고,
    상기 제1 이미지를 생성하는 단계는,
    상기 제1 부위에 대응하는 부분이 상기 제1 부위를 제외한 나머지 부분에 비해 상기 원본 이미지에 더 유사한 상기 제1 이미지를 생성하는 단계를 포함하고,
    상기 제3 이미지를 생성하는 단계는,
    상기 제1 이미지에서 상기 제1 부위를 제외한 나머지 부분을 상기 원본 이미지로 대체한 제3 이미지를 생성하는 단계를 포함하고,
    상기 손실함수를 산출하는 단계는,
    상기 마스크의 적용에 따라, 실질적으로 상기 제1 부위에 대응하는 부분에 한해서 상기 손실함수를 산출하는 단계를 포함하는, 이미지 재구성을 위한 인공지능 학습 모델 학습 방법.
  2. 제1 항에 있어서,
    상기 마스크 영역을 설정하는 단계는,
    상기 원본 이미지의 분할에 따른 경계가 서로 겹치도록 상기 마스크별 영역을 확장하여 설정하는 단계; 및
    상기 확장에 따라 상기 제1 이미지의 결합 시 서로 겹치는 영역에 대하여 자연스러운 결합이 수행되도록 상기 마스크 별로 블러 처리하는 단계
    를 포함하는, 이미지 재구성을 위한 인공지능 학습 모델 학습 방법.
  3. 제2 항에 있어서,
    상기 마스크 영역을 설정하는 단계 후,
    상기 제1 인공지능 학습 모델에 기초하여, 상기 원본 이미지로부터 상기 복수의 부위 별로 재구성된 제1 이미지를 생성하기 위한 잠재 코드를 출력하는 단계;
    상기 제2 인공지능 학습 모델에 기초하여, 상기 복수의 부위 별로 상기 잠재 코드로부터 재구성된 상기 제1 이미지들을 생성하는 단계; 및
    상기 복수의 부위 별로 생성된 상기 제1 이미지들에 상기 마스크를 각각 적용하고, 마스크가 적용된 상기 제1 이미지들을 결합하여 상기 원본 이미지에 대하여 재구성된 제2 이미지를 생성하는 단계
    를 포함하는, 이미지 재구성을 위한 인공지능 학습 모델 학습 방법.
  4. 제3 항에 있어서,
    상기 제1 인공지능 학습 모델은,
    상기 복수의 부위 별로 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 복수의 인공지능 학습 모델을 포함하고,
    상기 잠재 코드를 출력하는 단계, 상기 제1 이미지들을 생성하는 단계 및 상기 인공지능 학습 모델에 대한 학습을 수행하는 단계는,
    상기 원본 이미지 및 상기 제1 이미지들의 차이에 대응하는 손실값이 기 설정된 값 이내로 감소할 때까지 반복하여 학습하는, 이미지 재구성을 위한 인공지능 학습 모델 학습 방법.
  5. 제4 항에 있어서,
    상기 제1 이미지들을 생성하는 단계는,
    상기 원본 이미지에 대하여 상기 복수의 부위별 이미지 재구성을 위한 스타일 값을 조정하여 상기 복수의 부위 별로 상기 제1 이미지들을 생성하는 단계
    를 포함하는, 이미지 재구성을 위한 인공지능 학습 모델 학습 방법.
  6. 원본 이미지에 대하여 복수의 부위에 대한 마스크를 설정하는 마스크 설정부;
    복수의 부위들 중 어느 하나인 제1 부위에 대응하는 제1 이미지를 생성하는 제1 이미지 생성부;
    상기 제1 이미지에 상기 제1 부위에 대한 마스크를 적용하여 제3 이미지를 생성하는 제3 이미지 생성부; 및
    인공지능 학습 모델을 학습시키는 인공지능 학습부
    를 포함하고,
    상기 마스크 설정부는,
    상기 원본 이미지를 얼굴 부위 별로 마스크를 설정하되, 한 쌍으로 이루어진 부위는 단일 마스크로 설정하고,
    상기 제1 이미지 생성부는,
    재구성 이미지 생성용 인공지능 학습 모델에 기초하여, 상기 제1 부위에 대응하는 부분이 상기 제1 부위를 제외한 나머지 부분에 비해 상기 원본 이미지에 더 유사한 상기 제1 이미지를 생성하고,
    상기 제3 이미지 생성부는,
    상기 제1 이미지에서 상기 제1 부위를 제외한 나머지 부분을 상기 원본 이미지로 대체한 제3 이미지를 생성하고,
    상기 인공지능 학습부는,
    상기 원본 이미지 및 상기 제3 이미지의 차이에 기초하여, 실질적으로 상기 제1 부위에 대응하는 부분에 한해서 손실함수를 산출하고,
    상기 손실함수를 기초로 역전파를 수행하여 상기 제1 부위에 대응하는 잠재 코드 출력용 인공지능 학습 모델에 대한 학습을 수행하고,
    상기 잠재 코드 출력용 인공지능 학습 모델은,
    상기 원본 이미지를 입력 받아, 상기 부위들 중 적어도 하나에 대응하는 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 제1 인공지능 학습 모델이고,
    상기 재구성 이미지 생성용 인공지능 학습 모델은,
    상기 잠재 코드를 입력 받아, 재구성된 이미지를 출력하는 제2 인공지능 학습 모델인, 이미지 재구성을 위한 인공지능 학습 모델 학습 장치.
  7. 삭제
  8. 제6 항에 있어서,
    상기 마스크 설정부는,
    상기 원본 이미지의 분할에 따른 경계가 서로 겹치도록 상기 마스크별 영역을 확장하여 설정하고,
    상기 확장에 따라 상기 제1 이미지의 결합 시 서로 겹치는 영역에 대하여 자연스러운 결합이 수행되도록 상기 마스크 별로 블러 처리하는, 이미지 재구성을 위한 인공지능 학습 모델 학습 장치.
  9. 제8 항에 있어서,
    상기 원본 이미지로부터 잠재 코드를 출력하는 잠재 코드 출력부;
    상기 잠재 코드로부터 재구성된 이미지들을 생성하는 제2 이미지 생성부; 및
    상기 재구성된 이미지들을 결합하는 이미지 결합부
    를 더 포함하고,
    상기 잠재 코드 출력부는,
    상기 제1 인공지능 학습 모델에 기초하여, 상기 원본 이미지로부터 상기 복수의 부위 별로 재구성된 제1 이미지를 생성하기 위한 잠재 코드를 출력하고,
    상기 제2 이미지 생성부는,
    상기 제2 인공지능 학습 모델에 기초하여, 상기 복수의 부위 별로 상기 잠재 코드로부터 재구성된 상기 제1 이미지들을 생성하고,
    상기 이미지 결합부는,
    상기 복수의 부위 별로 생성된 상기 제1 이미지들에 상기 마스크를 각각 적용하고, 마스크가 적용된 상기 제1 이미지들을 결합하여 상기 원본 이미지에 대하여 재구성된 제2 이미지를 생성하는, 이미지 재구성을 위한 인공지능 학습 모델 학습 장치.
  10. 제9 항에 있어서,
    상기 제1 인공지능 학습 모델은,
    상기 복수의 부위 별로 재구성된 이미지를 생성하기 위한 잠재 코드를 출력하는 복수의 인공지능 학습 모델을 포함하고,
    상기 인공지능 학습부는,
    상기 원본 이미지 및 상기 제1 이미지들의 차이에 대응하는 손실값이 기 설정된 값 이내로 감소할 때까지 반복하여 학습하고,
    상기 제2 이미지 생성부는,
    상기 원본 이미지에 대하여 상기 복수의 부위별 이미지 재구성을 위한 스타일 값을 조정하여 상기 복수의 부위 별로 상기 제1 이미지들을 생성하는, 이미지 재구성을 위한 인공지능 학습 모델 학습 장치.
KR1020230075846A 2022-12-21 2023-06-13 이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치 KR102592890B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020230075846A KR102592890B1 (ko) 2023-06-13 2023-06-13 이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치
US18/389,810 US20240212244A1 (en) 2022-12-21 2023-12-20 Method and apparatus for learning artificial intelligence learning model for image reconstruction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230075846A KR102592890B1 (ko) 2023-06-13 2023-06-13 이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102592890B1 true KR102592890B1 (ko) 2023-10-24

Family

ID=88515043

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230075846A KR102592890B1 (ko) 2022-12-21 2023-06-13 이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102592890B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200014280A (ko) * 2017-05-31 2020-02-10 소니 주식회사 화상 처리 장치, 화상 처리 시스템, 및 화상 처리 방법, 그리고 프로그램
US20210264207A1 (en) * 2020-02-26 2021-08-26 Adobe Inc. Image editing by a generative adversarial network using keypoints or segmentation masks constraints
KR20220116423A (ko) * 2019-11-15 2022-08-23 삼성전자주식회사 자연스러운 데이스케일 타임랩스 생성 방법 및 컴퓨팅 장치
KR20220145707A (ko) * 2021-04-22 2022-10-31 주식회사 엔씨소프트 인물 이미지의 평준화를 수행하는 장치 및 이의 동작 방법
KR102490060B1 (ko) * 2022-09-08 2023-01-18 주식회사 비브스튜디오스 신경망 모델을 활용한 부분적인 이미지 변환 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200014280A (ko) * 2017-05-31 2020-02-10 소니 주식회사 화상 처리 장치, 화상 처리 시스템, 및 화상 처리 방법, 그리고 프로그램
KR20220116423A (ko) * 2019-11-15 2022-08-23 삼성전자주식회사 자연스러운 데이스케일 타임랩스 생성 방법 및 컴퓨팅 장치
US20210264207A1 (en) * 2020-02-26 2021-08-26 Adobe Inc. Image editing by a generative adversarial network using keypoints or segmentation masks constraints
KR20220145707A (ko) * 2021-04-22 2022-10-31 주식회사 엔씨소프트 인물 이미지의 평준화를 수행하는 장치 및 이의 동작 방법
KR102490060B1 (ko) * 2022-09-08 2023-01-18 주식회사 비브스튜디오스 신경망 모델을 활용한 부분적인 이미지 변환 방법

Similar Documents

Publication Publication Date Title
US11055828B2 (en) Video inpainting with deep internal learning
US11875491B2 (en) Method and system for image processing
CN109754403A (zh) 一种ct图像内的肿瘤自动分割方法及系统
CN113658051A (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
CN114241070B (zh) Ct图像去金属伪影以及模型训练的方法和装置
DE102021206286A1 (de) Tiefer hierarchischer variational autocodierer
WO2023202265A1 (zh) 用于伪影去除的图像处理方法、装置、设备、产品和介质
Popescu et al. Retinal blood vessel segmentation using pix2pix gan
Dogan et al. Semi-supervised image attribute editing using generative adversarial networks
Sun et al. Contrast, attend and diffuse to decode high-resolution images from brain activities
DE102021124769A1 (de) Latente-variable generatives modell mit einem rauschkontrastgebenden prior
DE102020209853A1 (de) Vorrichtung und system für das lernen unüberwachter geordneter darstellung mit einem residual-variational-autoencoder
CN114943656A (zh) 一种人脸图像修复方法及系统
KR102592890B1 (ko) 이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치
Yahia et al. Frame interpolation using convolutional neural networks on 2d animation
KR20240098610A (ko) 인공지능 학습 모델을 이용한 이미지 재구성 방법 및 장치
US20240212244A1 (en) Method and apparatus for learning artificial intelligence learning model for image reconstruction
DE212020000466U1 (de) System, um eine computermodifizierte Visualisierung des erwünschten Gesichts einer Person bereitzustellen
Eguchi et al. The visually guided development of facial representations in the primate ventral visual pathway: A computer modeling study.
CN112529949B (zh) 一种基于t2图像生成dwi图像的方法及系统
Khan et al. Multi-class artefact detection in video endoscopy via convolution neural networks
DE102021124428A1 (de) Trainieren energiebasierter variational autoencoder
Singla et al. Applications of reinforcement learning to image enhancement: A survey
da Rocha et al. Extraction of geometric attributes based on GAN for anatomic prosthesis modeling
US20230342921A1 (en) Methods and related aspects for medical image generation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant