KR20210063171A

KR20210063171A - 이미지 변환 장치 및 이미지 변환 방법

Info

Publication number: KR20210063171A
Application number: KR1020190151751A
Authority: KR
Inventors: 강현우; 김민재; 김준호
Original assignee: 주식회사 엔씨소프트
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-06-01

Abstract

본 발명의 일실시예에 따르면, 이미지 변환 장치에 있어서, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 소스 이미지 및 타겟 이미지 각각에서 특징을 추출하여 상기 소스 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 생성하고, 상기 소스 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 기초로 어텐션 피처 맵(attention feature map)을 생성하고, 상기 생성한 어텐션 피처 맵(attention feature map)을 기초로 상기 소스 이미지를 상기 타겟 이미지의 콘텐트(content) 또는 스타일(style)로 변환한다.

Description

이미지 변환 장치 및 이미지 변환 방법{DEVICE AND METHOD FOR IMAGE TRANSLATION}

아래의 실시예들은 이미지 변환 장치 및 이미지 변환 방법에 관한 것이다.

머신 러닝(machine learning)은 인공 지능의 한 분야로, 패턴인식과 컴퓨터 학습 이론의 연구로부터 진화한 분야이며, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다.

머신 러닝의 핵심은 표현(representation)과 일반화(generalization)에 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다. 이는 전산 학습 이론 분야이기도 하다.

딥 러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 머신 러닝(machine learning) 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 머신 러닝의 한 분야라고 이야기할 수 있다.

생성적 적대 신경망(Generative Adversarial Network, GAN)은 두 신경망 모델의 경쟁을 통해 학습하고 결과물을 만들어낸다. 두 모델은 ‘생성자(Generator)’와 ‘감별자(Discriminator)’로 불리는데 상반된 목적을 갖고 있다. 생성자는 실제 데이터를 학습하고 이를 바탕으로 거짓 데이터를 생성한다. 실제에 가까운 거짓 데이터를 생성하는 게 목적이다. 감별자는 생성자가 내놓은 데이터가 실제인지 거짓인지 판별하도록 학습한다.

본 발명의 실시예에 따르면, 데이터 셋의 종류와 관계없이 모델의 구조를 고정시킬 수 있는 이미지 변환 장치 및 이미지 변환 방법을 제공할 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 소스 이미지 및 타겟 이미지 각각에 대한 피처 맵(feature map)을 기초로 어텐션 피처 맵(attention feature map)을 생성할 수 있는 이미지 변환 장치 및 이미지 변환 방법을 제공할 수 있다.

또한, 본 발명의 또 다른 실시예에 따르면, 두개의 정규화 함수(normalization functions)를 기초로 이미지를 변환할 수 있는 이미지 변환 장치 및 이미지 변환 방법을 제공할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 소스 이미지 및 상기 타겟 이미지로 분류하고, 상기 소스 이미지의 피처 맵(feature map)과 상기 타겟 이미지의 피처 맵(feature map)을 기초로 가중치를 생성하고, 상기 생성한 가중치를 상기 소스 이미지의 피처 맵(feature map)에 결합할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 소스 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제1 확률 분포를 생성하고, 상기 타겟 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제2 확률 분포를 생성하고, 상기 생성한 제1 확률 분포 및 상기 생성한 제2 확률 분포를 기초로 가중치를 생성할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 학습에 의해 생성된 파라미터와 적어도 한개의 정규화(normalization)를 결합할 수 있다.

또한, 상기 학습에 의해 생성된 파라미터는, 값이 가변일 수 있다.

또한, 상기 적어도 한개의 정규화(normalization)는, 레이어 정규화(layer normalization) 및 인스턴스 정규화(instance normalization) 중 적어도 어느 하나일 수 있다.

본 발명의 다른 실시예에 따르면, 소스 이미지 및 타겟 이미지 각각에서 특징을 추출하여 상기 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 생성하는 동작, 상기 소스 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 기초로 어텐션 피처 맵(attention feature map)을 생성하는 동작 및 상기 생성한 어텐션 피처 맵(attention feature map)을 기초로 상기 소스 이미지를 상기 타겟 이미지의 콘텐트(content) 또는 스타일(style)로 변환하는 동작을 포함한다.

또한, 상기 어텐션 피처 맵(attention feature map)을 생성하는 동작은, 상기 소스 이미지 및 상기 타겟 이미지로 분류하는 동작, 상기 소스 이미지의 피처 맵(feature map)과 상기 타겟 이미지의 피처 맵(feature map)을 기초로 가중치를 생성하는 동작 및 상기 생성한 가중치를 상기 소스 이미지의 피처 맵(feature map)에 결합하는 동작을 포함할 수 있다.

또한, 상기 가중치를 생성하는 동작은, 상기 소스 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제1 확률 분포를 생성하는 동작, 상기 타겟 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제2 확률 분포를 생성하는 동작 및 상기 생성한 제1 확률 분포 및 상기 생성한 제2 확률 분포를 기초로 가중치를 생성하는 동작을 포함할 수 있다.

또한, 상기 생성한 어텐션 피처 맵(attention feature map)을 기초로 상기 소스 이미지를 상기 타겟 이미지의 콘텐트(content) 또는 스타일(style)로 변환하는 동작은, 학습에 의해 생성된 파라미터와 적어도 한개의 정규화(normalization)를 결합하는 동작을 포함할 수 있다.

본 발명의 일실시예에 따르면, 데이터 셋의 종류와 관계없이 모델의 구조를 고정시킬 수 있는 효과가 있다.

또한, 소스 이미지 및 타겟 이미지 각각에 대한 피처 맵(feature map)을 기초로 어텐션 피처 맵(attention feature map)을 생성할 수 있는 효과가 있다.

또한, 두개의 정규화 함수(normalization functions)를 기초로 이미지를 변환할 수 있는 효과가 있다.

도 1은 일실시예에 따른 이미지 변환 장치의 구성을 나타내는 도면이다.
도 2는 일실시예에 따른 이미지 변환 방법을 나타내는 플로우 차트이다.
도 3은 일실시예에 따라 데이터 셋의 종류에 관계없이 구조가 고정된 이미지 변환 장치를 나타내는 도면이다.
도 4는 일실시예에 따라 소스 이미지, 소스 이미지가 변환되어야 할 부분이 표시된 이미지 및 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환된 이미지를 나타내는 도면이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소는 제1구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하의 설명에서 동일한 식별 기호는 동일한 구성을 의미하며, 불필요한 중복적인 설명 및 공지 기술에 대한 설명은 생략하기로 한다.

본 발명의 실시 예에서 '통신', '통신망' 및 '네트워크'는 동일한 의미로 사용될 수 있다. 상기 세 용어들은, 파일을 사용자 단말, 다른 사용자들의 단말 및 다운로드 서버 사이에서 송수신할 수 있는 유무선의 근거리 및 광역 데이터 송수신망을 의미한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.

도 1은 일실시예에 따른 이미지 변환 장치의 구성을 나타내는 도면이다.

도 1을 참조하면, 이미지 변환 장치(100)는 프로세서(110), 입출력 인터페이스 모듈(120) 및 메모리(130)를 포함한다.

이미지 변환 장치(100)를 프로세서(110), 입출력 인터페이스 모듈(120) 및 메모리(130)는 상호 연결되어 있으며, 상호 데이터를 전송하는 것이 가능하다.

프로세서(110)는 메모리(130)에 저장된 프로그램들 또는 명령들을 실행시킬 수 있다. 이때, 메모리(130)에는 이미지 변환 장치(100)를 동작시키기 위한 동작프로그램(예컨대, OS)이 저장될 수 있다.

프로세서(110)는 이미지 변환 장치(100)에 대한 정보를 관리하기 위한 프로그램을 실행시킬 수 있다.

프로세서(110)는 이미지 변환 장치(100)의 동작을 관리하기 위한 프로그램을 실행시킬 수 있다.

프로세서(110)는 입출력 인터페이스 모듈(120)의 동작을 관리하기 위한 프로그램을 실행시킬 수 있다.

ⅰ) 어텐션 피처 맵(attention feature map)

프로세서(110)는 입출력 인터페이스 모듈(120)를 통해 소스 이미지(예컨대, 얼굴이 표현된 인물 사진) 및 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)를 획득할 수 있다.

프로세서(110)는 상기 획득한 소스 이미지와 타겟 이미지를 분류할 수 있다.

프로세서(110)는 소스 이미지를 타겟 이미지의 콘텐트(content) 또는 스타일(style)로 변환할 때, 인코더(예컨대, 딥 뉴럴 네트워크(Deep Neural Network, DNN))를 이용하여 상기 소스 이미지가 변환되어야 할 영역을 검출하고, 상기 검출한 영역을 집중해서 변환시키기 위한 값(들)(예컨대, 가중치 값들)을 생성할 수 있다.

프로세서(110)는 소스 이미지를 타겟 이미지의 콘텐트(content) 또는 스타일(style)로 변환할 때, 인코더(예컨대, 딥 뉴럴 네트워크(Deep Neural Network, DNN))를 이용하여 상기 소스 이미지가 변환되어야 할 영역을 검출하고, 상기 검출한 영역이 변환되어야 할 정도를 표시한 이미지를 생성할 수 있다.

일실시예에 따라, 프로세서(110)는 인코더(예컨대, 딥 뉴럴 네트워크(Deep Neural Network, DNN))를 이용하여 소스 이미지 및 타겟 이미지 각각에서 특징을 추출하여 상기 소스 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 생성할 수 있다. 이때, 상기 인코더는 합성곱 신경망 (Convolutional Neural Network, CNN)을 포함할 수 있으나, 상기 인코더에 포함된 신경망(Neural Network)이 이에 한정되는 것은 아니다.

일실시예에 따라, 프로세서(110)는 미리 설정된 방법을 이용하여 상기 소스 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제1 확률 분포를 생성할 수 있다. 이때, 상기 미리 설정된 방법은 클래스 액티베이션 맵(Class Activation Map)일 수 있으나, 상기 미리 설정된 방법이 이에 한정되는 것은 아니다. 또한, 상기 클래스 액티베이션 맵(Class Activation Map)은 글로벌 에버리지 풀링(global average pooling) 또는 글로벌 맥스 풀링(global max pooling)을 사용할 수 있으나, 상기 클래스 액티베이션 맵(Class Activation Map)이 사용할 수 있는 풀링(pooling) 방법이 이에 한정되는 것은 아니다.

일실시예에 따라, 프로세서(110)는 미리 설정된 방법을 이용하여 상기 타겟 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제2 확률 분포를 생성할 수 있다. 이때, 상기 미리 설정된 방법은 클래스 액티베이션 맵(Class Activation Map)일 수 있으나, 상기 미리 설정된 방법이 이에 한정되는 것은 아니다. 또한, 상기 클래스 액티베이션 맵(Class Activation Map)은 글로벌 에버리지 풀링(global average pooling) 또는 글로벌 맥스 풀링(global max pooling)을 사용할 수 있으나, 상기 클래스 액티베이션 맵(Class Activation Map)이 사용할 수 있는 풀링(pooling) 방법이 이에 한정되는 것은 아니다.

일실시예에 따라, 프로세서(110)는 상기 생성한 제1 확률 분포 및 상기 생성한 제2 확률 분포를 기초로 가중치를 생성할 수 있다.

일실시예에 따라, 프로세서(110)는 상기 생성한 제1 확률 분포가 상기 생성한 제2 확률 분포와 유사해지기 위해서 상기 소스 이미지의 피처 맵(feature map)과 결합해야 할 값(들)을 생성할 수 있다.

프로세서(110)는 상기 생성한 값(들)을 기초로 가중치(들)를 생성할 수 있다.

프로세서(110)는 상기 생성한 가중치를 상기 소스 이미지의 피처 맵(feature map)에 결합하여 어텐션 피처 맵(attention feature map)을 생성할 수 있다.

ⅱ) 이미지 변환

프로세서(110)는 디코더(예컨대, 딥 뉴럴 네트워크(Deep Neural Network, DNN))를 이용하여 어텐션 피처 맵(attention feature map)을 기초로 이미지(예컨대, 얼굴이 표현된 인물 사진)를 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환할 수 있다. 이때, 상기 디코더는 어댑티브 레이어-인스턴스 노멀라이제이션(Adaptive Layer-Instance Normalization, AdaLIN)을 포함하는 레지듀얼 블록(residual blocks)을 포함할 수 있다.

일실시예에 따라, 프로세서(110)는 하기 [수학식 1] 내지 하기 [수학식 3]을 이용하여 어텐션 피처 맵(attention feature map)으로부터 어댑티브 레이어-인스턴스 노멀라이제이션(Adaptive Layer-Instance Normalization, AdaLIN)의 파라미터를 계산할 수 있다.

여기서,

는 채널-와이즈(channel-wise), 레이어-와이즈(layer-wise) 평균이고,

는 채널-와이즈(channel-wise), 레이어-와이즈(layer-wise) 표준 편차이고,

와

는 풀리 커넥티드 레이어(fully connected layer)에 의해 생성된 파라미터들이고,

는 러닝 레이트(learning rate)이고,

는 옵티마이저(optimizer)에 의해 결정된 파라미터 업데이트 벡터(예컨대, 그래디언트)이다. 또한,

값은 [0,1] 범위로 제한된다. 또한,

값이 1에 가까워지면 인스턴스 정규화(instance normalization)가 중요하고,

값이 0에 가까워지면 레이어 정규화(layer normalization)가 중요하다.

일실시예에 따라, 프로세서(110)는 머신 러닝을 통해 파라미터

를 생성할 수 있다. 이때, 상기 생성한 파라미터

의 값은 가변이다.

일실시예에 따라, 프로세서(110)는 레이어 정규화(layer normalization) 및 인스턴스 정규화(instance normalization)을 상기 생성한

를 이용하여 결합할 수 있다. 이때, 상기 레이어 정규화(layer normalization)는 소스 이미지의 콘텐트(content)는 잘 유지되지 않지만, 타겟 이미지 스타일(style)로의 변환에 매우 유리하며, 인스턴스 정규화(instance normalization)는 소스 이미지의 콘텐트(content)는 잘 유지되지만 타겟 이미지 스타일(style)로의 변환에 불리하다.

일실시예에 따라, 프로세서(110)는 소스 이미지(예컨대, 얼굴이 표현된 인물 사진)를 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환할 때, 변환 품질을 높이기 위하여 상기 생성한

를 조절하여 레이어 정규화(layer normalization) 및 인스턴스 정규화(instance normalization)가 적용되는 비율을 조절할 수 있다.

일실시예에 따라, 프로세서(110)는 어댑티브 레이어-인스턴스 노멀라이제이션(Adaptive Layer-Instance Normalization, AdaLIN)이 적용된 어텐션 피처 맵(attention feature map)에 합성곱 신경망 (Convolutional Neural Network, CNN)을 적용하여 소스 이미지(예컨대, 얼굴이 표현된 인물 사진)를 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환할 수 있다. 이때, 상기 어텐션 피처 맵(attention feature map)에 적용되는 신경망(Neural Network, DNN)이 이에 한정되는 것은 아니다.

프로세서(110)는 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환한 이미지를 입출력 인터페이스 모듈(120)을 통해 출력할 수 있다.

입출력 인터페이스 모듈(120)은 네트워크를 통하여 외부 장치(예컨대, 서버)와 연결될 수 있다.

입출력 인터페이스 모듈(120)은 소스 이미지를 획득할 수 있다.

입출력 인터페이스 모듈(120)은 타겟 이미지를 획득할 수 있다.

입출력 인터페이스 모듈(120)은 프로세서(110)가 변환한 이미지를 디스플레이 할 수 있다.

입출력 인터페이스 모듈(120)은 학습 데이터를 획득할 수 있다.

입출력 인터페이스 모듈(120)은 사용자의 입력을 획득할 수 있다.

입출력 인터페이스 모듈(120)은 이미지 변환 장치(100)와 일체형으로 제공될 수 있다.

입출력 인터페이스 모듈(120)은 이미지 변환 장치(100)에서 분리되어 제공될 수 있다.

입출력 인터페이스 모듈(120)은 이미지 변환 장치(100)와 통신적으로 연결될 별도의 장치일 수 있다.

입출력 인터페이스 모듈(120)은 외부 장치와 연결되기 위한 포트(예컨대, USB 포트)를 포함할 수 있다.

입출력 인터페이스 모듈(120)은 모니터, 터치스크린, 마우스, 전자펜, 마이크로폰, 키보드, 스피커, 이어폰, 헤드폰 또는 터치패드를 포함할 수 있다.

메모리(130)는 입출력 인터페이스 모듈(120)을 통해 획득한 소스 이미지를 저장할 수 있다.

메모리(130)는 입출력 인터페이스 모듈(120)을 통해 획득한 타겟 이미지를 저장할 수 있다.

메모리(130)는 프로세서(110)가 생성한 피처 맵(feature map)을 저장할 수 있다.

메모리(130)는 프로세서(110)가 검출한 변환되어야 할 영역을 저장할 수 있다.

메모리(130)는 프로세서(110)가 생성한 가중치를 저장할 수 있다.

메모리(130)는 프로세서(110)가 생성한 어텐션 피처 맵(attention feature map)을 저장할 수 있다.

메모리(130)는 프로세서(110)가 생성한 확률 분포를 저장할 수 있다.

메모리(130)는 프로세서(110)가 생성한 파라미터를 저장할 수 있다.

메모리(130)는 프로세서(110)가 조절한 파라미터 값을 저장할 수 있다.

메모리(130)는 프로세서(110)가 변환한 이미지를 저장할 수 있다.

메모리(130)는 프로세서(110)가 생성한 이미지를 저장할 수 있다.

메모리(130)는 학습 데이터를 생성하기 위해 입출력 인터페이스 모듈(120)을 통해 획득한 데이터를 저장할 수 있다.

메모리(130)는 프로세서(110)가 생성한 학습 데이터를 저장할 수 있다.

메모리(130)는 입력 받은 학습 데이터를 저장할 수 있다.

메모리(130)는 사용자의 입력을 저장할 수 있다.

여기서 사용된 '모듈'이라는 용어는 논리적인 구성 단위를 나타내는 것으로서, 반드시 물리적으로 구분되는 구성 요소가 아니라는 점은 본 발명이 속하는 기술분야의 당업자에게 자명한 사항이다.

도 2는 일실시예에 따른 이미지 변환 방법을 나타내는 플로우 차트이다.

도 2를 참조하면, 이미지 변환 장치가 소스 이미지 및 타겟 이미지 각각에서 특징을 추출하여 상기 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 생성한다(200).

이때, 이미지 변환 장치는 인코더(예컨대, 딥 뉴럴 네트워크(Deep Neural Network, DNN))를 이용하여 소스 이미지 및 타겟 이미지 각각에서 특징을 추출하여 상기 소스 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 생성할 수 있다.

이미지 변환 장치가 소스 이미지와 타겟 이미지를 분류한다(210).

이때, 이미지 변환 장치는 풀리 커넥티드 레이어(fully connected layer)를 이용하여 상기 소스 이미지와 상기 타겟 이미지를 분류할 수 있다.

이미지 변환 장치가 상기 소스 이미지의 피처 맵(feature map)과 상기 타겟 이미지의 피처 맵(feature map)을 기초로 가중치를 생성한다(220).

이때, 이미지 변환 장치는 상기 소스 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제1 확률 분포를 생성할 수 있다.

또한, 이미지 변환 장치는 상기 타겟 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제2 확률 분포를 생성할 수 있다.

또한, 이미지 변환 장치는 상기 생성한 제1 확률 분포가 상기 생성한 제2 확률 분포와 유사해지기 위해서 상기 소스 이미지의 피처 맵(feature map)과 결합해야 할 값(들)을 생성할 수 있다.

또한, 이미지 변환 장치는 상기 생성한 값(들)을 기초로 가중치(들)를 생성할 수 있다.

이미지 변환 장치가 상기 생성한 가중치를 기초로 어텐션 피처 맵(attention feature map)을 생성한다(230).

이때, 이미지 변환 장치는 상기 생성한 가중치를 상기 소스 이미지의 피처 맵(feature map)에 결합하여 어텐션 피처 맵(attention feature map)을 생성할 수 있다.

이미지 변환 장치가 학습에 의해 생성된 파라미터와 적어도 한개의 정규화(normalization)를 결합한다(240).

이때, 상기 학습에 의해 생성된 파라미터는 [0,1]의 범위에서 변할 수 있다.

또한, 상기 적어도 한개의 정규화(normalization)는 레이어 정규화(layer normalization) 및 인스턴스 정규화(instance normalization) 중 적어도 어느 하나일 수 있다.

이미지 변환 장치가 소스 이미지를 타겟 이미지의 콘텐트(content) 또는 스타일(style)로 변환한다(250).

이때, 이미지 변환 장치는 어댑티브 레이어-인스턴스 노멀라이제이션(Adaptive Layer-Instance Normalization, AdaLIN)이 적용된 어텐션 피처 맵(attention feature map)에 합성곱 신경망 (Convolutional Neural Network, CNN)을 적용하여 소스 이미지를 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환할 수 있다.

이미지 변환 장치가 변환한 이미지를 출력한다(260).

이때, 이미지 변환 장치는 이미지 변환 장치는 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환한 이미지와 타겟 이미지를 동시에 출력할 수 있다.

도 3은 일실시예에 따라 데이터 셋의 종류에 관계없이 구조가 고정된 이미지 변환 장치를 나타내는 도면이다.

도 3을 참조하면, 이미지 변환 장치는 소스 이미지(301) 및 타겟 이미지(302)를 획득(300)할 수 있다.

이미지 변환 장치는 다운 샘플링(Down sampling)이 가능한 딥 뉴럴 네트워크(Deep Neural Network, DNN)(예컨대, 합성곱 신경망 (Convolutional Neural Network, CNN)) 및 레지듀얼 블록(Residual Blocks)을 포함하는 인코더(310)를 이용하여 소스 이미지(301) 및 타겟 이미지(302) 각각에서 특징을 추출하여 소스 이미지(301) 및 타겟 이미지(302) 각각에 대한 피처 맵(feature map)(320)을 생성할 수 있다.

이미지 변환 장치는 풀리 커넥티드 레이어(fully connected layer)를 포함하는 어질러리 클래스파이어(Auxiliary Classifier)(330)를 이용하여 소스 이미지(301) 및 타겟 이미지(302) 각각에 대한 피처 맵(feature map)(320)에서 소스 이미지와 타겟 이미지를 분류할 수 있다.

이미지 변환 장치는 소스 이미지(301) 및 타겟 이미지(302) 각각에 대한 피처 맵(feature map)(320)을 기초로 소스 이미지가 변환되어야 할 영역을 검출하고, 상기 검출한 영역을 집중해서 변환시키기 위한 가중치들(340)을 생성할 수 있다.

이미지 변환 장치는 생성한 가중치들(340)를 소스 이미지의 피처 맵(feature map)에 결합(350)할 수 있다.

이미지 변환 장치는 소스 이미지가 변환되어야 할 영역을 검출하고, 상기 검출한 영역이 변환되어야 할 정도를 표시한 이미지(351)를 생성할 수 있다.

이미지 변환 장치는 생성한 가중치들(340)을 소스 이미지의 피처 맵(feature map)에 결합(350)한 피처 맵(feature map)을 기초로 어텐션 피처 맵(attention feature map)(360)을 생성할 수 있다.

이미지 변환 장치는 풀리 커넥티드 레이어(fully connected layer)(370)를 이용하여 어댑티브 레이어-인스턴스 노멀라이제이션(Adaptive Layer-Instance Normalization, AdaLIN)의 파라미터 중

와

를 생성할 수 있다.

이미지 변환 장치는 어댑티브 레이어-인스턴스 노멀라이제이션(Adaptive Layer-Instance Normalization, AdaLIN)을 포함하는 레지듀얼 블록(Residual Blocks) 및 업 샘플링(Up sampling)이 가능한 딥 뉴럴 네트워크(Deep Neural Network, DNN)(예컨대, 합성곱 신경망 (Convolutional Neural Network, CNN))를 포함하는 디코더(380)를 이용하여 상기 생성한 중

,

및 어텐션 피처 맵(attention feature map)(360)을 기초로 소스 이미지를 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환(380)할 수 있다.

이미지 변환 장치는 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환한 이미지(381)와 타겟 이미지(382)를 동시에 출력할 수 있다.

도 4는 일실시예에 따라 소스 이미지, 소스 이미지가 변환되어야 할 부분이 표시된 이미지 및 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환된 이미지를 나타내는 도면이다.

도 4를 참조하면, 이미지 변환 장치는 소스 이미지(400)를 획득할 수 있다. 이때, 소스 이미지(400)는 얼굴이 표현된 인물 사진, 동물이 표현된 사진, 사람과 풍경이 표현된 사진 등 일 수 있으나, 소스 이미지(400)가 이에 한정되는 것은 아니다.

이미지 변환 장치는 소스 이미지(400)를 타겟 이미지(예컨대, 애니메이션 캐릭터의 얼굴 이미지)의 콘텐트(content) 또는 스타일(style)로 변환(410)할 수 있다. 이때, 상기 타겟 이미지는 애니메이션, 사진, 그림 등일 수 있으나, 상기 타겟 이미지가 이에 한정되는 것은 아니다.

이미지 변환 장치는 소스 이미지가 변환되어야 할 부분이 표시된 이미지(420)를 생성할 수 있다.

이미지 변환 장치는 소스 이미지가 변환되어야 할 영역을 검출하고, 상기 검출한 영역이 변환되어야 할 정도를 표시할 수 있다. 이때, 상기 이미지 변환 장치는 상기 변환되어야 할 정도를 표시하기 위하여 색 변화를 이용할 수 있다.

일실시예에 따라, 이미지 변환 장치는 소스 이미지에서 많이 변환되어야 하는 영역의 경우 제1색(예컨대, 빨간색)으로 표시하고, 적게 변환되어야 하는 영역의 경우 제2색(예컨대, 파란색)으로 표시(420)할 수 있다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 적어도 하나로 선택적으로 결합하여 동작할 수도 있다.

또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다.

이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 등이 포함될 수 있다.

또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다.

기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명에서 개시된 방법들은 상술된 방법을 달성하기 위한 하나 이상의 동작들 또는 단계들을 포함한다. 방법 동작들 및/또는 단계들은 청구항들의 범위를 벗어나지 않으면서 서로 상호 교환될 수도 있다. 다시 말해, 동작들 또는 단계들에 대한 특정 순서가 명시되지 않는 한, 특정 동작들 및/또는 단계들의 순서 및/또는 이용은 청구항들의 범위로부터 벗어남이 없이 수정될 수도 있다.

본 발명에서 이용되는 바와 같이, 아이템들의 리스트 중 "그 중 적어도 하나" 를 지칭하는 구절은 단일 멤버들을 포함하여, 이들 아이템들의 임의의 조합을 지칭한다. 일 예로서, "a, b, 또는 c: 중의 적어도 하나" 는 a, b, c, a-b, a-c, b-c, 및 a-b-c 뿐만 아니라 동일한 엘리먼트의 다수의 것들과의 임의의 조합 (예를 들어, a-a, a-a-a, a-a-b, a-a-c, a-b-b, a-c-c, b-b, b-b-b, b-b-c, c-c, 및 c-c-c 또는 a, b, 및 c 의 다른 임의의 순서 화한 것) 을 포함하도록 의도된다.

본 발명에서 이용되는 바와 같이, 용어 "결정하는"는 매우 다양한 동작들을 망라한다. 예를 들어, "결정하는"는 계산하는, 컴퓨팅, 프로세싱, 도출하는, 조사하는, 룩업하는 (예를 들어, 테이블, 데이터베이스, 또는 다른 데이터 구조에서 룩업하는), 확인하는 등을 포함할 수도 있다. 또한, "결정하는"은 수신하는 (예를 들면, 정보를 수신하는), 액세스하는 (메모리의 데이터에 액세스하는) 등을 포함할 수 있다. 또한, "결정하는"은 해결하는, 선택하는, 고르는, 확립하는 등을 포함할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100... 이미지 변환 장치

Claims

이미지 변환 장치에 있어서,
적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
소스 이미지 및 타겟 이미지 각각에서 특징을 추출하여 상기 소스 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 생성하고,
상기 소스 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 기초로 어텐션 피처 맵(attention feature map)을 생성하고,
상기 생성한 어텐션 피처 맵(attention feature map)을 기초로 상기 소스 이미지를 상기 타겟 이미지의 콘텐트(content) 또는 스타일(style)로 변환하는 이미지 변환 장치.
제1항에 있어서,
상기 적어도 하나의 프로세서는,
상기 소스 이미지 및 상기 타겟 이미지로 분류하고,
상기 소스 이미지의 피처 맵(feature map)과 상기 타겟 이미지의 피처 맵(feature map)을 기초로 가중치를 생성하고,
상기 생성한 가중치를 상기 소스 이미지의 피처 맵(feature map)에 결합하는 이미지 변환 장치.
제2항에 있어서,
상기 적어도 하나의 프로세서는,
상기 소스 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제1 확률 분포를 생성하고,
상기 타겟 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제2 확률 분포를 생성하고,
상기 생성한 제1 확률 분포 및 상기 생성한 제2 확률 분포를 기초로 가중치를 생성하는 이미지 변환 장치.
제1항에 있어서,
상기 적어도 하나의 프로세서는,
학습에 의해 생성된 파라미터와 적어도 한개의 정규화(normalization)를 결합하는 이미지 변환 장치.
제4항에 있어서,
상기 학습에 의해 생성된 파라미터는,
값이 가변인 이미지 변환 장치.
제4항에 있어서,
상기 적어도 한개의 정규화(normalization)는,
레이어 정규화(layer normalization) 및 인스턴스 정규화(instance normalization) 중 적어도 어느 하나인 이미지 변환 장치.
소스 이미지 및 타겟 이미지 각각에서 특징을 추출하여 상기 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 생성하는 동작;
상기 소스 이미지 및 상기 타겟 이미지 각각에 대한 피처 맵(feature map)을 기초로 어텐션 피처 맵(attention feature map)을 생성하는 동작; 및
상기 생성한 어텐션 피처 맵(attention feature map)을 기초로 상기 소스 이미지를 상기 타겟 이미지의 콘텐트(content) 또는 스타일(style)로 변환하는 동작
을 포함하는 이미지 변환 방법.
제7항에 있어서,
상기 어텐션 피처 맵(attention feature map)을 생성하는 동작은,
상기 소스 이미지 및 상기 타겟 이미지로 분류하는 동작;
상기 소스 이미지의 피처 맵(feature map)과 상기 타겟 이미지의 피처 맵(feature map)을 기초로 가중치를 생성하는 동작; 및
상기 생성한 가중치를 상기 소스 이미지의 피처 맵(feature map)에 결합하는 동작
을 포함하는 이미지 변환 방법.
제8항에 있어서,
상기 가중치를 생성하는 동작은,
상기 소스 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제1 확률 분포를 생성하는 동작;
상기 타겟 이미지의 피처 맵(feature map)에 포함된 특징들과 관련된 제2 확률 분포를 생성하는 동작; 및
상기 생성한 제1 확률 분포 및 상기 생성한 제2 확률 분포를 기초로 가중치를 생성하는 동작
을 포함하는 이미지 변환 방법.
제7항에 있어서,
상기 생성한 어텐션 피처 맵(attention feature map)을 기초로 상기 소스 이미지를 상기 타겟 이미지의 콘텐트(content) 또는 스타일(style)로 변환하는 동작은,
학습에 의해 생성된 파라미터와 적어도 한개의 정규화(normalization)를 결합하는 동작
을 포함하는 이미지 변환 방법.
제10항에 있어서,
상기 학습에 의해 생성된 파라미터는,
값이 가변인 이미지 변환 방법.
제10항에 있어서,
상기 적어도 한개의 정규화(normalization)는,
레이어 정규화(layer normalization) 및 인스턴스 정규화(instance normalization) 중 적어도 어느 하나인 이미지 변환 방법.