KR20210037406A

KR20210037406A - 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법

Info

Publication number: KR20210037406A
Application number: KR1020190120015A
Authority: KR
Inventors: 최현철; 김민성
Original assignee: 영남대학교 산학협력단
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2021-04-06
Also published as: KR102248150B1

Abstract

본 발명은 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법에 관한 것으로서, 특히 입력 이미지의 스타일을 임의의 목표 스타일로 변형하는 기술에 관한 것이다. 본 발명은, 사용자로부터 입력되는 입력 이미지와 스타일 이미지를 확인하여 멀티스케일의 특징 벡터를 추출하는 제1 단계; 상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합치는 제2 단계; 및 상기 특징 벡터의 크기를 조절해서 변형된 특징 벡터들을 이용하여 상기 멀티스케일이 적용된 출력이미지를 생성하는 제3 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법을 제공한다.

Description

단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법{TOTAL STYLE TRANSFER WITH A SINGLE FEED-FORWARD NETWORK}

본 발명은 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법에 관한 것으로서, 특히 입력 이미지의 스타일을 임의의 목표 스타일로 변형하는 기술에 관한 것이다.

최근 이미지 스타일 전송 방법은 입력 컨텐츠 및 스타일 이미지로 임의의 스타일화를 달성했다. 임의의 이미지 스타일을 컨텐츠 이미지로 전송하기 위해, 이러한 방법들은 가장 낮은 스케일 형상의 변형기를 가진 피드-포워드 네트워크 또는 해당 스케일의 형상 변형기가 있는 네트워크의 캐스케이드를 사용했다.

이와 관련하여, 종래의 US2018-0357800(다중-RESOLUTION 스타일에서 입출력 이미지로의 스타일 기능 적용을 위한 멀티모듈식 계층)은, 입력 이미지에 대한 스타일 변형 시스템에 관한 것으로, 저해상도 기반의 서브넷(subnet)을 통해 입력 이미지에 대해 제 1 스타일 특징을 적용하여 중간 이미지를 생성하고, 고해상도 기반의 서브넷을 통해 중간 이미지에 대해 제 2 스타일 특징을 적용하여 변형 이미지를 생성하는 기술을 개시하고 있다.

그러나 이들의 접근방식은 다중 스케일링을 고려하지 않고, 단순히 컬러, 휘도 등을 기반으로 한 특징 맵을 계산하고, 해상도를 기준으로 하는 스타일 특징을 컨볼루션하여 출력 이미지를 생성한다는 내용을 개시하고 있다.

종래의 기술은, 단일 피드 네트워크의 스타일 또는 계단식 네트워크에서 생성된 영상에서 부분적으로 부정확하게 전송된 스타일을 생성하는 결과를 낳으며, 전체적으로 프로세싱을 진행하는데 있어 메모리의 점유율이 증가하고, 처리 속도가 지연되는 문제점이 있다.

미국공개특허 US2018-0357800

본 발명은 메모리의 점유율을 낮추며 처리 속도를 향상시키기 위해 멀티 스케일 특징에 대한 사이즈 조정 및 병합에 관한 특징과 단일 네트워크 구조를 통한 멀티 스케일 특징들의 연결에 관한 특징을 갖는 스타일 변형 방법을 제공하는 것을 목적으로 한다.

상기 목적을 달성하기 위하여 본 발명은, 사용자로부터 입력되는 입력 이미지와 스타일 이미지를 확인하여 멀티스케일의 특징 벡터를 추출하는 제1 단계; 상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합치는 제2 단계; 및 상기 특징 벡터의 크기를 조절해서 변형된 특징 벡터들을 이용하여 상기 멀티스케일이 적용된 출력이미지를 생성하는 제3 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법을 제공한다.

실시 예에 따라, 상기 제2 단계는, 상기 멀티스케일의 특징 벡터 중 가장 큰 특징 벡터의 크기를 기준으로 각 특징 벡터의 사이즈를 동일한 크기로 조절하는 단계; 및 상기 동일한 크기의 특징 벡터를 채널 축으로 합치는 단계를 포함할 수 있다.

실시 예에 따라. 상기 제2 단계는, 상기 특징 벡터 들의 평균과 분산이 적용된 상관 매트릭스를 산출하는 단계; 및 상기 상관 매트릭스를 토대로 상기 멀티스케일의 특징 벡터들 각각을 변형하여 합치는 단계를 포함할 수 있다.

실시 예에 따라, 상기 제2 단계는, 상기 채널 축으로 합쳐진 특징 벡터를 변에 AdaIN, WCT(Whitening Coloring Transformer) 또는 decorator 중 적어도 어느 하나를 적용하여 상기 특징 벡터의 분포를 변형하는 단계를 더 포함할 수 있다.

실시 예에 따라, 상기 제3 단계는, 상기 입력 이미지 대비 상기 출력 이미지의 스타일 로스를 산출하는 단계를 포함하고, 상기 스타일 로스는, 상기 특징 벡터 들의 평균과 분산 매트릭스의 L2 Loss인 것을 특징으로 한다.

실시 예에 따라, 상기 제3 단계는, 상기 스타일 로스를 산출 시, 상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 싱글 스케일 스타일의 변형 후 상기 스타일 로스를 산출할 수 있다.

실시 예에 따라, 상기 제3 단계는, 상기 스타일 로스를 산출 시, 상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 상기 특징 벡터의 크기를 조절하여 채널 축으로 합쳐진 특징 벡터의 평균과 공분산 행렬들의 L2 로스를 계산하여 상기 스타일 로스를 산출할 수 있다.

본 발명의 실시 예에 따른 상기 멀티스케일 특징 벡터의 변형은, 단일 피드 포워드 방식의 순차적인 구조에 처리 과정마다 공백을 두고, 상기 공백을 더하여 대칭되는 거울(mirrored) 구조로 변형을 수행하는 스킵 커넥션 방식으로 컨벌루션 신경망(CNN: Convolution Neural Network) 레이어를 배열하는 것을 특징으로 할 수 있다.

전술한 바와 같은 구성을 갖는 본 발명에 따르면, 멀티스케일 특징들을 이용한 네트워크 구조 및 학습 방법을 제공하여 입력 이미지에 대한 스타일의 다양한 크기의 texture pattern을 적용하여 변형시키는 이점이 있다.

또한 본 발명은, 단일 피드 포워드 네트워크 상에서 멀티스케일의 특징 벡터의 상관관계를 고려하여 각 특징 벡터를 변형하기 때문에 기존 캐스케이드 네트워크 구조보다 빠른 포워드 시간 및 처리 속도를 갖는 변형 방법을 제공하는 이점이 있다.

또한 본 발명은, 기존보다 더 적은 스타일 로스를 발생시켜 스타일 품질 면에서 고품질의 출력 이미지를 생성하는 이점이 있다.

도 1은 종래의 단일 특징을 이용한 이미지 변환으로 출력 이미지를 생성하는 모습이다.
도 2는 도 1의 스케일 별 복수 번의 포워드 패스를 통한 출력 이미지를 생성하는 모습이다.
도 3은 본 발명의 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법을 나타낸다.
도 4는 도 3의 업샘플링 및 결합의 도식화.
도 5는 도 3의 분할 및 다운샘플링의 도식화.
도 6은 본 발명의 실시 예에 따른 인코더 및 디코더의 스킵 커넥션에 대한 도식화.
도 7은 본 발명의 실시 예에 따른 입력 이미지의 멀티스케일 특징 벡터 간 상관관계를 나타낸다.
도 8은 본 발명의 실시 예에 따른 인트라 스케일과 인터 스케일의 변형 결과를 비교한 모습이다.
도 9는 본 발명의 실시 예에 따른 스킵 커넥션의 횟수에 따른 출력 이미지의 스타일 로스를 비교한 모습이다.
도 10은 본 발명의 실시 예에 따른 스킵 커넥션 과정에서의 컨벌루션에서 [relu_2_2]와 [relu_1_2]의 스타일 로스에 대한 진폭을 나타낸다.
도 11은 본 발명의 실시 예에 따른 출력 이미지를 종래의 기술과 비교한 모습이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 명세서 전체에서 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, "그 중간에 다른 구성을 사이에 두고" 연결되어 있는 경우도 포함한다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 종래의 단일 특징을 이용한 이미지 변환으로 출력 이미지를 생성하는 모습이고, 도 2는 도 1의 스케일 별 복수 번의 포워드 패스를 통한 출력 이미지를 생성하는 모습이다.

도 1과 도 2를 참조하면, 캐스케이드 네트워크 체계는 스케일을 기준으로 단일 스케일 변형기(SST) 배율을 사용하여 이미지 스타일을 대상 스타일 이미지의 스타일로 변형한다.

다만, 종래의 기술은, 단일 피드 네트워크의 스타일 또는 계단식 네트워크에서 생성된 영상에서 부분적으로 부정확하게 전송된 스타일을 생성하는 결과를 낳으며, 전체적으로 프로세싱을 진행하는데 있어 메모리의 점유율이 증가하고, 처리 속도가 지연되는 문제점이 있다.

도 3은 본 발명의 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법을 나타낸다. 도 4 및 도 5는 도 3의 변환 방법을 각 구간별로 도식화한 모습을 나타낸다.

도 4 및 도 5의 설명은 생략하고 전체적인 구조를 나타내는 도 3으로 이하 본 발명을 설명한다.

도 3을 참조하면, 본 발명은, 단일 피드 포워드 네트워크를 통한 다중 스케일 스타일 전송을 통해 스킵 커넥션을 사용하여 멀티스케일의 특징 벡터를 처리한다. 즉, 각 계층에 해당하는 스케일 스타일과 지금까지의 전송된 멀티스케일 스타일은 레이어 형태로 최적으로 병합될 수 있다.

본 발명은, '토탈 스타일 트랜스퍼'로 불릴 수 있으며, 단일 피드 포워드 경로 상에서 모든 스케일의 스타일 변형을 진행할 수 있다.

콘텐츠 이미지에 다른 이미지의 스타일을 적용하는 것을 이미지 스타일 변형이라고 한다. 스타일 변형을 위해 주로 VGG network 가 사용되며, 본 발명의 실시 예에서는 VGG-16을 사용할 수 있다. 본 발명의 실시 예에서 사용된 VGG-16의 경우, 기존의 VGG-19에 소요되는 메모리와 연산량이 줄어드는 이점이 있다.

본 발명은, 사용자로부터 입력되는 입력 이미지와 스타일 이미지를 확인하여 멀티스케일의 특징 벡터를 추출하는 제1 단계; 상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합치는 제2 단계; 및 상기 특징 벡터의 크기를 조절해서 변형된 특징 벡터들을 이용하여 상기 멀티스케일이 적용된 출력이미지를 생성하는 제3 단계를 포함할 수 있다.

이하, 제1 단계 내지 제3 단계의 내용을 각 항목에 대한 설명과 함께 도면을 덧붙여 설명한다.

<멀티스케일 특징 변형>

컨벌루션 뉴럴 네트워크(CNN)의 각 스케일 특성은 이미지의 다른 스타일 특성을 나타낸다. 그래서 한 이미지의 전체 스타일 특성을 전달하기 위해 각 척도 형상에 대해 복수의 형상 변형기를 활용한다.

상술한 본 발명의 제2 단계는, 상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합쳐서 수행될 수 있다.

단일 피드-포워드 네트워크를 통해 전체 스타일 전송, 즉 인트라 스케일 변형 및 인터 스케일 변형의 두 가지 체계는 아래와 같다.

<인트라 스케일 특징 변형>

인트라 스케일 변형은 독립적인 싱글 스케일 스타일 변형으로 기존에 비해 확장된 멀티스케일 변형이다.

상기 제2 단계는, 상기 멀티스케일의 특징 벡터 중 가장 큰 특징 벡터의 크기를 기준으로 각 특징 벡터의 사이즈를 동일한 크기로 조절하는 단계; 및 상기 동일한 크기의 특징 벡터를 채널 축으로 합치는 단계를 포함할 수 있다.

상기 제2 단계는, 상기 채널 축으로 합쳐진 특징 벡터를 변에 AdaIN, WCT(Whitening Coloring Transformer) 또는 decorator 중 적어도 어느 하나를 적용하여 상기 특징 벡터의 분포를 변형하는 단계를 더 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.

입력 이미지의 i번째 스케일 특징 벡터는

이고, 스타일 이미지의

표현될 수 있으며, 여기서

는 채널의 수, 공간의 높이 i번째 스케일 특징 벡터의 폭을 나타낸다.

이러한 특징으로 단일 스케일 스타일 변형을 수행하는 경우, WCT(Whitening Coloring Transformer)는 순차적으로 아래의 수학식1 및 수학식2와 같이 스타일 정규화를 수행할 수 있다.

스타일 정규화 단계에서 입력 이미지

의 첫 번째 특징 벡터

가 계산되고, 그 후 스타일 이미지

는 수학식1에서와 같이 상관관계 매트릭스

를 이용하여

로 정규화 될 수 있다.

스타일링이 수행되는 정규화 과정에서

는 제로 중심 스타일 특징인

의 상관관계 매트릭스

와 수학식2에 따라 적용된 스타일 특징

의 공간 평균

를 이용하여

로 변환된다.

인트라 스케일의 변환 방법은,

레이어에 해당하는 i=1..3의 각 형상에 독립적으로 적용될 수 있다. 그리고, 변환된 형상

를 스킵 커넥션을 통해 디코더에 삽입할 수 있다.

도 6은 본 발명의 실시 예에 따른 인코더 및 디코더의 스킵 커넥션에 대한 도식화를 나타낸다.

도 6을 참조하면, 각 특징들을 디코더 네트워크에 결합하는 모습을 알 수 있다. 본 발명에 있어서, 상기 멀티스케일 특징 벡터의 변형은, 단일 피드 포워드 방식의 순차적인 구조에 처리 과정마다 공백을 두고, 상기 공백을 더하여 대칭되는 거울(mirrored) 구조로 변형을 수행하는 스킵 커넥션 방식으로 컨벌루션 신경망(CNN: Convolution Neural Network) 레이어를 배열하는 것을 특징으로 한다.

<인터 스케일 특징 변형>

도 7은 본 발명의 실시 예에 따른 입력 이미지의 멀티스케일 특징 벡터 간 상관관계를 나타낸다.

도 7을 참조하면, 대각선을 기준으로 각 레이어의 상관관계를 도출할 수 있다. 컨벌루션 신경망(CNN:Convolutional Neural Network)의 레이어를 대각선으로 대칭시켜 배열하고, 각 레이어 간 상관관계를 고려할 수 있고, 이들의 크기를 합친 스케일 단위로 각 상관관계를 고려할 수 있다.

상기 제2 단계는, 상기 특징 벡터 들의 평균과 분산이 적용된 상관 매트릭스를 산출하는 단계; 및 상기 상관 매트릭스를 토대로 상기 멀티스케일의 특징 벡터들 각각을 변형하여 합치는 단계를 포함할 수 있다.

채널 간 스케일 간 상관관계를 모두 고려한 형상 변환을 수행하기 위해 아래 수학식3을 적용하여 입력 이미지의 결합된 특징

와 스타일 이미지의

를 적용할 수 있다.

수학식3에서와 같이, 입력 이미지 즉, 컨텐츠 이미지

와 스타일 이미지

는 공간적으로

와

로 보통의 크기로 업샘플링 될 수 있다(여기서 {relu_1_2}에 대응하는 가장 큰 형태인

와

를 적용하고, 채널 축으로 각각

와

로 결합할 수 있다.

변형을 진행한 후, 변형된

는 아래의 수학식4와 같이 원래의 사이즈인

로 다운샘플링 될 수 있다.

(여기서,

는 공간적으로

를

로 다운샘플하는 함수)

도 8은 본 발명의 실시 예에 따른 인트라 스케일과 인터 스케일의 변형 결과를 비교한 모습이다.

도 8을 참조하면, 본 발명의 실시 예에 따라, 다양한 수의 교육 스타일 이미지에 대한 멀티스케일 변형의 효과를 검증하기 위해, 두 개의 네트워크를 훈련한 모습을 나타낸다. (a)입력 이미지(컨텐츠 이미지)와 (b)스타일 이미지는 각 작은 세트(small set) 또는 큰 세트(large set)으로 구성된 인트라 스케일 또는 인터 스케일로 변형될 수 있다.

작은 세트는 77개의 이미지로 구성된 작은 스타일 이미지 세트로 구성되고, 큰 세트는 약 80,000개의 이미지로 구성된 큰 스타일 이미지 세트를 가지고 있다. 다음의 네트워크의 출력 스타일 이미지를 비교했다.

도 8을 다시 참조하면, 작은 세트에 의해 훈련된 네트워크를 통해, 인트라 스케일 변형에 의한 출력 이미지는 목표 스타일 영상과 매우 유사한 모습을 보여주고, 인터 스케일 변형에 의한 출력은 훨씬 더 나은 질감을 보여줄 수 있다. 큰 세트에 의해 네트워크 훈련을 받은 결과, 출력 이미지는 대상 스타일의 질감을 표현하는데 있어 인터 스케일이 더 낫다는 경향을 보여준다.

<스타일 로스>

상기 제3 단계는, 상기 입력 이미지 대비 상기 출력 이미지의 스타일 로스를 산출하는 단계를 포함하고, 상기 스타일 로스는, 상기 특징 벡터 들의 평균과 분산 매트릭스의 L2 Loss인 것을 특징으로 한다.

본 발명의 스타일 로스는 평균 로스, 분산 로스로 계산될 수 있으며, 출력 이미지의 특징 맵의 분산 매트릭스 간의 거리로 표현되며, 아래 수학식5와 같이 계산될 수 있다.

상기 제3 단계는, 상기 스타일 로스를 산출 시, 상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 싱글 스케일 스타일의 변형 후 상기 스타일 로스를 산출할 수 있다.

상기 제3 단계는, 상기 스타일 로스를 산출 시, 상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 상기 특징 벡터의 크기를 조절하여 채널 축으로 합쳐진 특징 벡터의 평균과 공분산 행렬들의 L2 로스를 계산하여 상기 스타일 로스를 산출할 수 있다.

인터 스케일 특징 변형의 사용의 경우, 수학식 6과 같이 결합된 특징의 평균 및 분산 로스의 합이 스타일 손실로서 사용될 수 있다.

(여기서,첨자 O는 Output 이미지로서, 본 발명의 실시 예에 따라 출력 이미지를 나타낸다.

도 9는 본 발명의 실시 예에 따른 스킵 커넥션의 횟수에 따른 출력 이미지의 스타일 로스를 비교한 모습이다.

도 10은 본 발명의 실시 예에 따른 스킵 커넥션 과정에서의 컨벌루션에서 [relu_2_2]와 [relu_1_2]의 스타일 로스에 대한 진폭을 나타낸다.

도 11은 본 발명의 실시 예에 따른 출력 이미지를 종래의 기술과 비교한 모습이다.

전술한 바와 같은 구성을 갖는 본 발명에 따르면, 멀티스케일 특징들을 이용한 네트워크 구조 및 학습 방법을 제공하여 입력 이미지에 대한 스타일의 다양한 크기의 texture pattern을 적용하여 변형시키며, 단일 피드 포워드 네트워크 상에서 멀티스케일의 특징 벡터의 상관관계를 고려하여 각 특징 벡터를 변형하기 때문에 기존 캐스케이드 네트워크 구조보다 빠른 포워드 시간 및 처리 속도를 갖는 변형 방법을 제공하는 이점이 있다.

실시 예에 따라, 멀티 스케일 특징을 적용하기 위한 기존 네트워크 케스케이드 구조 대비 4% 더 적은 메모리 사용량을 보이며, 기존보다 더 적은 스타일 로스를 발생시켜 스타일 품질 면에서 고품질의 출력 이미지를 생성하는 이점이 있다.

이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.

Claims

사용자로부터 입력되는 입력 이미지와 스타일 이미지를 확인하여 멀티스케일의 특징 벡터를 추출하는 제1 단계;
상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합치는 제2 단계; 및
상기 특징 벡터의 크기를 조절해서 변형된 특징 벡터들을 이용하여 상기 멀티스케일이 적용된 출력이미지를 생성하는 제3 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
제 1 항에 있어서,
상기 제2 단계는,
상기 멀티스케일의 특징 벡터 중 가장 큰 특징 벡터의 크기를 기준으로 각 특징 벡터의 사이즈를 동일한 크기로 조절하는 단계; 및
상기 동일한 크기의 특징 벡터를 채널 축으로 합치는 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
제 1 항에 있어서,
상기 제2 단계는,
상기 특징 벡터 들의 평균과 분산이 적용된 상관 매트릭스를 산출하는 단계; 및
상기 상관 매트릭스를 토대로 상기 멀티스케일의 특징 벡터들 각각을 변형하여 합치는 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
제 1 항에 있어서,
상기 제2 단계는,
상기 채널 축으로 합쳐진 특징 벡터를 변에 AdaIN, WCT(Whitening Coloring Transformer) 또는 decorator 중 적어도 어느 하나를 적용하여 상기 특징 벡터의 분포를 변형하는 단계를 더 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
제 1 항에 있어서,
상기 제3 단계는,
상기 입력 이미지 대비 상기 출력 이미지의 스타일 로스를 산출하는 단계를 포함하고,
상기 스타일 로스는,
상기 특징 벡터 들의 평균과 분산 매트릭스의 L2 Loss인 것을 특징으로 하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
제 2 항에 있어서,
상기 제3 단계는,
상기 스타일 로스를 산출 시,
상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 싱글 스케일 스타일의 변형 후 상기 스타일 로스를 산출하는 것을 특징으로 하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
제 3 항에 있어서,
상기 제3 단계는,
상기 스타일 로스를 산출 시,
상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 상기 특징 벡터의 크기를 조절하여 채널 축으로 합쳐진 특징 벡터의 평균과 공분산 행렬들의 L2 로스를 계산하여 상기 스타일 로스를 산출하는 것을 특징으로 하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 멀티스케일 특징 벡터의 변형은,
단일 피드 포워드 방식의 순차적인 구조에 처리 과정마다 공백을 두고, 상기 공백을 더하여 대칭되는 거울(mirrored) 구조로 변형을 수행하는 스킵 커넥션 방식으로 컨벌루션 신경망(CNN: Convolution Neural Network) 레이어를 배열하는 것을 특징으로 하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.