KR20210037406A - 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법 - Google Patents

단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법 Download PDF

Info

Publication number
KR20210037406A
KR20210037406A KR1020190120015A KR20190120015A KR20210037406A KR 20210037406 A KR20210037406 A KR 20210037406A KR 1020190120015 A KR1020190120015 A KR 1020190120015A KR 20190120015 A KR20190120015 A KR 20190120015A KR 20210037406 A KR20210037406 A KR 20210037406A
Authority
KR
South Korea
Prior art keywords
style
image
feature vectors
loss
scale
Prior art date
Application number
KR1020190120015A
Other languages
English (en)
Other versions
KR102248150B1 (ko
Inventor
최현철
김민성
Original Assignee
영남대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 영남대학교 산학협력단 filed Critical 영남대학교 산학협력단
Priority to KR1020190120015A priority Critical patent/KR102248150B1/ko
Publication of KR20210037406A publication Critical patent/KR20210037406A/ko
Application granted granted Critical
Publication of KR102248150B1 publication Critical patent/KR102248150B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법에 관한 것으로서, 특히 입력 이미지의 스타일을 임의의 목표 스타일로 변형하는 기술에 관한 것이다. 본 발명은, 사용자로부터 입력되는 입력 이미지와 스타일 이미지를 확인하여 멀티스케일의 특징 벡터를 추출하는 제1 단계; 상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합치는 제2 단계; 및 상기 특징 벡터의 크기를 조절해서 변형된 특징 벡터들을 이용하여 상기 멀티스케일이 적용된 출력이미지를 생성하는 제3 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법을 제공한다.

Description

단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법{TOTAL STYLE TRANSFER WITH A SINGLE FEED-FORWARD NETWORK}
본 발명은 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법에 관한 것으로서, 특히 입력 이미지의 스타일을 임의의 목표 스타일로 변형하는 기술에 관한 것이다.
최근 이미지 스타일 전송 방법은 입력 컨텐츠 및 스타일 이미지로 임의의 스타일화를 달성했다. 임의의 이미지 스타일을 컨텐츠 이미지로 전송하기 위해, 이러한 방법들은 가장 낮은 스케일 형상의 변형기를 가진 피드-포워드 네트워크 또는 해당 스케일의 형상 변형기가 있는 네트워크의 캐스케이드를 사용했다.
이와 관련하여, 종래의 US2018-0357800(다중-RESOLUTION 스타일에서 입출력 이미지로의 스타일 기능 적용을 위한 멀티모듈식 계층)은, 입력 이미지에 대한 스타일 변형 시스템에 관한 것으로, 저해상도 기반의 서브넷(subnet)을 통해 입력 이미지에 대해 제 1 스타일 특징을 적용하여 중간 이미지를 생성하고, 고해상도 기반의 서브넷을 통해 중간 이미지에 대해 제 2 스타일 특징을 적용하여 변형 이미지를 생성하는 기술을 개시하고 있다.
그러나 이들의 접근방식은 다중 스케일링을 고려하지 않고, 단순히 컬러, 휘도 등을 기반으로 한 특징 맵을 계산하고, 해상도를 기준으로 하는 스타일 특징을 컨볼루션하여 출력 이미지를 생성한다는 내용을 개시하고 있다.
종래의 기술은, 단일 피드 네트워크의 스타일 또는 계단식 네트워크에서 생성된 영상에서 부분적으로 부정확하게 전송된 스타일을 생성하는 결과를 낳으며, 전체적으로 프로세싱을 진행하는데 있어 메모리의 점유율이 증가하고, 처리 속도가 지연되는 문제점이 있다.
미국공개특허 US2018-0357800
본 발명은 메모리의 점유율을 낮추며 처리 속도를 향상시키기 위해 멀티 스케일 특징에 대한 사이즈 조정 및 병합에 관한 특징과 단일 네트워크 구조를 통한 멀티 스케일 특징들의 연결에 관한 특징을 갖는 스타일 변형 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위하여 본 발명은, 사용자로부터 입력되는 입력 이미지와 스타일 이미지를 확인하여 멀티스케일의 특징 벡터를 추출하는 제1 단계; 상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합치는 제2 단계; 및 상기 특징 벡터의 크기를 조절해서 변형된 특징 벡터들을 이용하여 상기 멀티스케일이 적용된 출력이미지를 생성하는 제3 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법을 제공한다.
실시 예에 따라, 상기 제2 단계는, 상기 멀티스케일의 특징 벡터 중 가장 큰 특징 벡터의 크기를 기준으로 각 특징 벡터의 사이즈를 동일한 크기로 조절하는 단계; 및 상기 동일한 크기의 특징 벡터를 채널 축으로 합치는 단계를 포함할 수 있다.
실시 예에 따라. 상기 제2 단계는, 상기 특징 벡터 들의 평균과 분산이 적용된 상관 매트릭스를 산출하는 단계; 및 상기 상관 매트릭스를 토대로 상기 멀티스케일의 특징 벡터들 각각을 변형하여 합치는 단계를 포함할 수 있다.
실시 예에 따라, 상기 제2 단계는, 상기 채널 축으로 합쳐진 특징 벡터를 변에 AdaIN, WCT(Whitening Coloring Transformer) 또는 decorator 중 적어도 어느 하나를 적용하여 상기 특징 벡터의 분포를 변형하는 단계를 더 포함할 수 있다.
실시 예에 따라, 상기 제3 단계는, 상기 입력 이미지 대비 상기 출력 이미지의 스타일 로스를 산출하는 단계를 포함하고, 상기 스타일 로스는, 상기 특징 벡터 들의 평균과 분산 매트릭스의 L2 Loss인 것을 특징으로 한다.
실시 예에 따라, 상기 제3 단계는, 상기 스타일 로스를 산출 시, 상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 싱글 스케일 스타일의 변형 후 상기 스타일 로스를 산출할 수 있다.
실시 예에 따라, 상기 제3 단계는, 상기 스타일 로스를 산출 시, 상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 상기 특징 벡터의 크기를 조절하여 채널 축으로 합쳐진 특징 벡터의 평균과 공분산 행렬들의 L2 로스를 계산하여 상기 스타일 로스를 산출할 수 있다.
본 발명의 실시 예에 따른 상기 멀티스케일 특징 벡터의 변형은, 단일 피드 포워드 방식의 순차적인 구조에 처리 과정마다 공백을 두고, 상기 공백을 더하여 대칭되는 거울(mirrored) 구조로 변형을 수행하는 스킵 커넥션 방식으로 컨벌루션 신경망(CNN: Convolution Neural Network) 레이어를 배열하는 것을 특징으로 할 수 있다.
전술한 바와 같은 구성을 갖는 본 발명에 따르면, 멀티스케일 특징들을 이용한 네트워크 구조 및 학습 방법을 제공하여 입력 이미지에 대한 스타일의 다양한 크기의 texture pattern을 적용하여 변형시키는 이점이 있다.
또한 본 발명은, 단일 피드 포워드 네트워크 상에서 멀티스케일의 특징 벡터의 상관관계를 고려하여 각 특징 벡터를 변형하기 때문에 기존 캐스케이드 네트워크 구조보다 빠른 포워드 시간 및 처리 속도를 갖는 변형 방법을 제공하는 이점이 있다.
또한 본 발명은, 기존보다 더 적은 스타일 로스를 발생시켜 스타일 품질 면에서 고품질의 출력 이미지를 생성하는 이점이 있다.
도 1은 종래의 단일 특징을 이용한 이미지 변환으로 출력 이미지를 생성하는 모습이다.
도 2는 도 1의 스케일 별 복수 번의 포워드 패스를 통한 출력 이미지를 생성하는 모습이다.
도 3은 본 발명의 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법을 나타낸다.
도 4는 도 3의 업샘플링 및 결합의 도식화.
도 5는 도 3의 분할 및 다운샘플링의 도식화.
도 6은 본 발명의 실시 예에 따른 인코더 및 디코더의 스킵 커넥션에 대한 도식화.
도 7은 본 발명의 실시 예에 따른 입력 이미지의 멀티스케일 특징 벡터 간 상관관계를 나타낸다.
도 8은 본 발명의 실시 예에 따른 인트라 스케일과 인터 스케일의 변형 결과를 비교한 모습이다.
도 9는 본 발명의 실시 예에 따른 스킵 커넥션의 횟수에 따른 출력 이미지의 스타일 로스를 비교한 모습이다.
도 10은 본 발명의 실시 예에 따른 스킵 커넥션 과정에서의 컨벌루션에서 [relu_2_2]와 [relu_1_2]의 스타일 로스에 대한 진폭을 나타낸다.
도 11은 본 발명의 실시 예에 따른 출력 이미지를 종래의 기술과 비교한 모습이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 명세서 전체에서 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, "그 중간에 다른 구성을 사이에 두고" 연결되어 있는 경우도 포함한다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 종래의 단일 특징을 이용한 이미지 변환으로 출력 이미지를 생성하는 모습이고, 도 2는 도 1의 스케일 별 복수 번의 포워드 패스를 통한 출력 이미지를 생성하는 모습이다.
최근 이미지 스타일 전송 방법은 입력 컨텐츠 및 스타일 이미지로 임의의 스타일화를 달성했다. 임의의 이미지 스타일을 컨텐츠 이미지로 전송하기 위해, 이러한 방법들은 가장 낮은 스케일 형상의 변형기를 가진 피드-포워드 네트워크 또는 해당 스케일의 형상 변형기가 있는 네트워크의 캐스케이드를 사용했다.
도 1과 도 2를 참조하면, 캐스케이드 네트워크 체계는 스케일을 기준으로 단일 스케일 변형기(SST) 배율을 사용하여 이미지 스타일을 대상 스타일 이미지의 스타일로 변형한다.
다만, 종래의 기술은, 단일 피드 네트워크의 스타일 또는 계단식 네트워크에서 생성된 영상에서 부분적으로 부정확하게 전송된 스타일을 생성하는 결과를 낳으며, 전체적으로 프로세싱을 진행하는데 있어 메모리의 점유율이 증가하고, 처리 속도가 지연되는 문제점이 있다.
도 3은 본 발명의 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법을 나타낸다. 도 4 및 도 5는 도 3의 변환 방법을 각 구간별로 도식화한 모습을 나타낸다.
도 4 및 도 5의 설명은 생략하고 전체적인 구조를 나타내는 도 3으로 이하 본 발명을 설명한다.
도 3을 참조하면, 본 발명은, 단일 피드 포워드 네트워크를 통한 다중 스케일 스타일 전송을 통해 스킵 커넥션을 사용하여 멀티스케일의 특징 벡터를 처리한다. 즉, 각 계층에 해당하는 스케일 스타일과 지금까지의 전송된 멀티스케일 스타일은 레이어 형태로 최적으로 병합될 수 있다.
본 발명은, '토탈 스타일 트랜스퍼'로 불릴 수 있으며, 단일 피드 포워드 경로 상에서 모든 스케일의 스타일 변형을 진행할 수 있다.
콘텐츠 이미지에 다른 이미지의 스타일을 적용하는 것을 이미지 스타일 변형이라고 한다. 스타일 변형을 위해 주로 VGG network 가 사용되며, 본 발명의 실시 예에서는 VGG-16을 사용할 수 있다. 본 발명의 실시 예에서 사용된 VGG-16의 경우, 기존의 VGG-19에 소요되는 메모리와 연산량이 줄어드는 이점이 있다.
본 발명은, 사용자로부터 입력되는 입력 이미지와 스타일 이미지를 확인하여 멀티스케일의 특징 벡터를 추출하는 제1 단계; 상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합치는 제2 단계; 및 상기 특징 벡터의 크기를 조절해서 변형된 특징 벡터들을 이용하여 상기 멀티스케일이 적용된 출력이미지를 생성하는 제3 단계를 포함할 수 있다.
이하, 제1 단계 내지 제3 단계의 내용을 각 항목에 대한 설명과 함께 도면을 덧붙여 설명한다.
<멀티스케일 특징 변형>
컨벌루션 뉴럴 네트워크(CNN)의 각 스케일 특성은 이미지의 다른 스타일 특성을 나타낸다. 그래서 한 이미지의 전체 스타일 특성을 전달하기 위해 각 척도 형상에 대해 복수의 형상 변형기를 활용한다.
상술한 본 발명의 제2 단계는, 상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합쳐서 수행될 수 있다.
단일 피드-포워드 네트워크를 통해 전체 스타일 전송, 즉 인트라 스케일 변형 및 인터 스케일 변형의 두 가지 체계는 아래와 같다.
<인트라 스케일 특징 변형>
인트라 스케일 변형은 독립적인 싱글 스케일 스타일 변형으로 기존에 비해 확장된 멀티스케일 변형이다.
상기 제2 단계는, 상기 멀티스케일의 특징 벡터 중 가장 큰 특징 벡터의 크기를 기준으로 각 특징 벡터의 사이즈를 동일한 크기로 조절하는 단계; 및 상기 동일한 크기의 특징 벡터를 채널 축으로 합치는 단계를 포함할 수 있다.
상기 제2 단계는, 상기 채널 축으로 합쳐진 특징 벡터를 변에 AdaIN, WCT(Whitening Coloring Transformer) 또는 decorator 중 적어도 어느 하나를 적용하여 상기 특징 벡터의 분포를 변형하는 단계를 더 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
입력 이미지의 i번째 스케일 특징 벡터는
Figure pat00001
이고, 스타일 이미지의
Figure pat00002
Figure pat00003
Figure pat00004
표현될 수 있으며, 여기서
Figure pat00005
는 채널의 수, 공간의 높이 i번째 스케일 특징 벡터의 폭을 나타낸다.
이러한 특징으로 단일 스케일 스타일 변형을 수행하는 경우, WCT(Whitening Coloring Transformer)는 순차적으로 아래의 수학식1 및 수학식2와 같이 스타일 정규화를 수행할 수 있다.
Figure pat00006
Figure pat00007
스타일 정규화 단계에서 입력 이미지
Figure pat00008
의 첫 번째 특징 벡터
Figure pat00009
가 계산되고, 그 후 스타일 이미지
Figure pat00010
는 수학식1에서와 같이 상관관계 매트릭스
Figure pat00011
를 이용하여
Figure pat00012
로 정규화 될 수 있다.
스타일링이 수행되는 정규화 과정에서
Figure pat00013
는 제로 중심 스타일 특징인
Figure pat00014
의 상관관계 매트릭스
Figure pat00015
Figure pat00016
와 수학식2에 따라 적용된 스타일 특징
Figure pat00017
의 공간 평균
Figure pat00018
를 이용하여
Figure pat00019
로 변환된다.
인트라 스케일의 변환 방법은,
Figure pat00020
레이어에 해당하는 i=1..3의 각 형상에 독립적으로 적용될 수 있다. 그리고, 변환된 형상
Figure pat00021
를 스킵 커넥션을 통해 디코더에 삽입할 수 있다.
도 6은 본 발명의 실시 예에 따른 인코더 및 디코더의 스킵 커넥션에 대한 도식화를 나타낸다.
도 6을 참조하면, 각 특징들을 디코더 네트워크에 결합하는 모습을 알 수 있다. 본 발명에 있어서, 상기 멀티스케일 특징 벡터의 변형은, 단일 피드 포워드 방식의 순차적인 구조에 처리 과정마다 공백을 두고, 상기 공백을 더하여 대칭되는 거울(mirrored) 구조로 변형을 수행하는 스킵 커넥션 방식으로 컨벌루션 신경망(CNN: Convolution Neural Network) 레이어를 배열하는 것을 특징으로 한다.
<인터 스케일 특징 변형>
도 7은 본 발명의 실시 예에 따른 입력 이미지의 멀티스케일 특징 벡터 간 상관관계를 나타낸다.
도 7을 참조하면, 대각선을 기준으로 각 레이어의 상관관계를 도출할 수 있다. 컨벌루션 신경망(CNN:Convolutional Neural Network)의 레이어를 대각선으로 대칭시켜 배열하고, 각 레이어 간 상관관계를 고려할 수 있고, 이들의 크기를 합친 스케일 단위로 각 상관관계를 고려할 수 있다.
상기 제2 단계는, 상기 특징 벡터 들의 평균과 분산이 적용된 상관 매트릭스를 산출하는 단계; 및 상기 상관 매트릭스를 토대로 상기 멀티스케일의 특징 벡터들 각각을 변형하여 합치는 단계를 포함할 수 있다.
채널 간 스케일 간 상관관계를 모두 고려한 형상 변환을 수행하기 위해 아래 수학식3을 적용하여 입력 이미지의 결합된 특징
Figure pat00022
와 스타일 이미지의
Figure pat00023
를 적용할 수 있다.
Figure pat00024
Figure pat00025
수학식3에서와 같이, 입력 이미지 즉, 컨텐츠 이미지
Figure pat00026
와 스타일 이미지
Figure pat00027
는 공간적으로
Figure pat00028
Figure pat00029
로 보통의 크기로 업샘플링 될 수 있다(여기서 {relu_1_2}에 대응하는 가장 큰 형태인
Figure pat00030
Figure pat00031
를 적용하고, 채널 축으로 각각
Figure pat00032
Figure pat00033
로 결합할 수 있다.
변형을 진행한 후, 변형된
Figure pat00034
는 아래의 수학식4와 같이 원래의 사이즈인
Figure pat00035
로 다운샘플링 될 수 있다.
Figure pat00036
Figure pat00037
(여기서,
Figure pat00038
는 공간적으로
Figure pat00039
Figure pat00040
로 다운샘플하는 함수)
도 8은 본 발명의 실시 예에 따른 인트라 스케일과 인터 스케일의 변형 결과를 비교한 모습이다.
도 8을 참조하면, 본 발명의 실시 예에 따라, 다양한 수의 교육 스타일 이미지에 대한 멀티스케일 변형의 효과를 검증하기 위해, 두 개의 네트워크를 훈련한 모습을 나타낸다. (a)입력 이미지(컨텐츠 이미지)와 (b)스타일 이미지는 각 작은 세트(small set) 또는 큰 세트(large set)으로 구성된 인트라 스케일 또는 인터 스케일로 변형될 수 있다.
작은 세트는 77개의 이미지로 구성된 작은 스타일 이미지 세트로 구성되고, 큰 세트는 약 80,000개의 이미지로 구성된 큰 스타일 이미지 세트를 가지고 있다. 다음의 네트워크의 출력 스타일 이미지를 비교했다.
도 8을 다시 참조하면, 작은 세트에 의해 훈련된 네트워크를 통해, 인트라 스케일 변형에 의한 출력 이미지는 목표 스타일 영상과 매우 유사한 모습을 보여주고, 인터 스케일 변형에 의한 출력은 훨씬 더 나은 질감을 보여줄 수 있다. 큰 세트에 의해 네트워크 훈련을 받은 결과, 출력 이미지는 대상 스타일의 질감을 표현하는데 있어 인터 스케일이 더 낫다는 경향을 보여준다.
<스타일 로스>
상기 제3 단계는, 상기 입력 이미지 대비 상기 출력 이미지의 스타일 로스를 산출하는 단계를 포함하고, 상기 스타일 로스는, 상기 특징 벡터 들의 평균과 분산 매트릭스의 L2 Loss인 것을 특징으로 한다.
본 발명의 스타일 로스는 평균 로스, 분산 로스로 계산될 수 있으며, 출력 이미지의 특징 맵의 분산 매트릭스 간의 거리로 표현되며, 아래 수학식5와 같이 계산될 수 있다.
상기 제3 단계는, 상기 스타일 로스를 산출 시, 상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 싱글 스케일 스타일의 변형 후 상기 스타일 로스를 산출할 수 있다.
상기 제3 단계는, 상기 스타일 로스를 산출 시, 상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 상기 특징 벡터의 크기를 조절하여 채널 축으로 합쳐진 특징 벡터의 평균과 공분산 행렬들의 L2 로스를 계산하여 상기 스타일 로스를 산출할 수 있다.
인터 스케일 특징 변형의 사용의 경우, 수학식 6과 같이 결합된 특징의 평균 및 분산 로스의 합이 스타일 손실로서 사용될 수 있다.
Figure pat00041
(여기서,첨자 O는 Output 이미지로서, 본 발명의 실시 예에 따라 출력 이미지를 나타낸다.
Figure pat00042
(여기서,첨자 O는 Output 이미지로서, 본 발명의 실시 예에 따라 출력 이미지를 나타낸다.
도 9는 본 발명의 실시 예에 따른 스킵 커넥션의 횟수에 따른 출력 이미지의 스타일 로스를 비교한 모습이다.
도 10은 본 발명의 실시 예에 따른 스킵 커넥션 과정에서의 컨벌루션에서 [relu_2_2]와 [relu_1_2]의 스타일 로스에 대한 진폭을 나타낸다.
도 11은 본 발명의 실시 예에 따른 출력 이미지를 종래의 기술과 비교한 모습이다.
본 발명은 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법에 관한 것으로서, 특히 입력 이미지의 스타일을 임의의 목표 스타일로 변형하는 기술에 관한 것이다.
전술한 바와 같은 구성을 갖는 본 발명에 따르면, 멀티스케일 특징들을 이용한 네트워크 구조 및 학습 방법을 제공하여 입력 이미지에 대한 스타일의 다양한 크기의 texture pattern을 적용하여 변형시키며, 단일 피드 포워드 네트워크 상에서 멀티스케일의 특징 벡터의 상관관계를 고려하여 각 특징 벡터를 변형하기 때문에 기존 캐스케이드 네트워크 구조보다 빠른 포워드 시간 및 처리 속도를 갖는 변형 방법을 제공하는 이점이 있다.
실시 예에 따라, 멀티 스케일 특징을 적용하기 위한 기존 네트워크 케스케이드 구조 대비 4% 더 적은 메모리 사용량을 보이며, 기존보다 더 적은 스타일 로스를 발생시켜 스타일 품질 면에서 고품질의 출력 이미지를 생성하는 이점이 있다.
이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.

Claims (8)

  1. 사용자로부터 입력되는 입력 이미지와 스타일 이미지를 확인하여 멀티스케일의 특징 벡터를 추출하는 제1 단계;
    상기 멀티스케일의 특징 벡터들을 동일한 사이즈로 크기를 조정하여 상기 특징 벡터를 변형하거나 각각의 특징 벡터들을 변형 후 합치는 제2 단계; 및
    상기 특징 벡터의 크기를 조절해서 변형된 특징 벡터들을 이용하여 상기 멀티스케일이 적용된 출력이미지를 생성하는 제3 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
  2. 제 1 항에 있어서,
    상기 제2 단계는,
    상기 멀티스케일의 특징 벡터 중 가장 큰 특징 벡터의 크기를 기준으로 각 특징 벡터의 사이즈를 동일한 크기로 조절하는 단계; 및
    상기 동일한 크기의 특징 벡터를 채널 축으로 합치는 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
  3. 제 1 항에 있어서,
    상기 제2 단계는,
    상기 특징 벡터 들의 평균과 분산이 적용된 상관 매트릭스를 산출하는 단계; 및
    상기 상관 매트릭스를 토대로 상기 멀티스케일의 특징 벡터들 각각을 변형하여 합치는 단계를 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
  4. 제 1 항에 있어서,
    상기 제2 단계는,
    상기 채널 축으로 합쳐진 특징 벡터를 변에 AdaIN, WCT(Whitening Coloring Transformer) 또는 decorator 중 적어도 어느 하나를 적용하여 상기 특징 벡터의 분포를 변형하는 단계를 더 포함하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
  5. 제 1 항에 있어서,
    상기 제3 단계는,
    상기 입력 이미지 대비 상기 출력 이미지의 스타일 로스를 산출하는 단계를 포함하고,
    상기 스타일 로스는,
    상기 특징 벡터 들의 평균과 분산 매트릭스의 L2 Loss인 것을 특징으로 하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
  6. 제 2 항에 있어서,
    상기 제3 단계는,
    상기 스타일 로스를 산출 시,
    상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 싱글 스케일 스타일의 변형 후 상기 스타일 로스를 산출하는 것을 특징으로 하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
  7. 제 3 항에 있어서,
    상기 제3 단계는,
    상기 스타일 로스를 산출 시,
    상기 멀티스케일 특징 벡터는 각 스케일의 평균과 공분산 행렬들의 L2 로스로서, 상기 특징 벡터의 크기를 조절하여 채널 축으로 합쳐진 특징 벡터의 평균과 공분산 행렬들의 L2 로스를 계산하여 상기 스타일 로스를 산출하는 것을 특징으로 하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 멀티스케일 특징 벡터의 변형은,
    단일 피드 포워드 방식의 순차적인 구조에 처리 과정마다 공백을 두고, 상기 공백을 더하여 대칭되는 거울(mirrored) 구조로 변형을 수행하는 스킵 커넥션 방식으로 컨벌루션 신경망(CNN: Convolution Neural Network) 레이어를 배열하는 것을 특징으로 하는 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법.
KR1020190120015A 2019-09-27 2019-09-27 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법 KR102248150B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190120015A KR102248150B1 (ko) 2019-09-27 2019-09-27 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190120015A KR102248150B1 (ko) 2019-09-27 2019-09-27 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법

Publications (2)

Publication Number Publication Date
KR20210037406A true KR20210037406A (ko) 2021-04-06
KR102248150B1 KR102248150B1 (ko) 2021-05-04

Family

ID=75473232

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190120015A KR102248150B1 (ko) 2019-09-27 2019-09-27 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법

Country Status (1)

Country Link
KR (1) KR102248150B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102409988B1 (ko) * 2021-11-03 2022-06-16 주식회사 클레온 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170093496A (ko) * 2016-02-05 2017-08-16 (주)한양정보통신 벡터 및 컬러 비트맵 오버레이 폰트 제공 시스템 및 방법
US20180144509A1 (en) * 2016-09-02 2018-05-24 Artomatix Ltd. Systems and Methods for Providing Convolutional Neural Network Based Image Synthesis Using Stable and Controllable Parametric Models, a Multiscale Synthesis Framework and Novel Network Architectures
US20180357800A1 (en) 2017-06-09 2018-12-13 Adobe Systems Incorporated Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images
US20190026870A1 (en) * 2017-07-19 2019-01-24 Petuum Inc. Real-time Intelligent Image Manipulation System
JP2019032821A (ja) * 2017-06-26 2019-02-28 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術
US20190236814A1 (en) * 2016-10-21 2019-08-01 Google Llc Stylizing input images

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170093496A (ko) * 2016-02-05 2017-08-16 (주)한양정보통신 벡터 및 컬러 비트맵 오버레이 폰트 제공 시스템 및 방법
US20180144509A1 (en) * 2016-09-02 2018-05-24 Artomatix Ltd. Systems and Methods for Providing Convolutional Neural Network Based Image Synthesis Using Stable and Controllable Parametric Models, a Multiscale Synthesis Framework and Novel Network Architectures
US10424087B2 (en) * 2016-09-02 2019-09-24 Artomatix Ltd. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
US20190236814A1 (en) * 2016-10-21 2019-08-01 Google Llc Stylizing input images
US20180357800A1 (en) 2017-06-09 2018-12-13 Adobe Systems Incorporated Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images
JP2019032821A (ja) * 2017-06-26 2019-02-28 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術
US20190026870A1 (en) * 2017-07-19 2019-01-24 Petuum Inc. Real-time Intelligent Image Manipulation System

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Gatys, et al, "Image style transfer using convolutional neural networks", IEEE Conference on Computer Vision and Pattern Recognition(CVPR)(2016.06.)* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102409988B1 (ko) * 2021-11-03 2022-06-16 주식회사 클레온 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
WO2023080266A1 (ko) * 2021-11-03 2023-05-11 주식회사 클레온 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치

Also Published As

Publication number Publication date
KR102248150B1 (ko) 2021-05-04

Similar Documents

Publication Publication Date Title
Sheng et al. Avatar-net: Multi-scale zero-shot style transfer by feature decoration
US5506998A (en) Parallel data processing system using a plurality of processing elements to process data and a plurality of trays connected to some of the processing elements to store and transfer data
US5544336A (en) Parallel data processing system which efficiently performs matrix and neurocomputer operations, in a negligible data transmission time
US10565757B2 (en) Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images
JP2022500734A (ja) 畳み込みニューラルネットワークを利用したコンピュータ実現方法、合成画像生成用の装置及びコンピュータプログラム製品
KR102555057B1 (ko) 웨이트 매트릭스를 포맷하는 방법, 포맷된 데이터를 사용하는 가속기 및 이를 포함하는 시스템
CN109308679A (zh) 一种图像风格转换方及装置、设备、存储介质
DE60222163T2 (de) Akkumulations-(mac-)einheit für einzelanweisungs-/ mehrfachdaten-(simd-) anweisungen
CN110889416B (zh) 一种基于级联改良网络的显著性物体检测方法
CN112233012B (zh) 一种人脸生成系统及方法
DE102021107050A1 (de) Gradientenkomprimierung für verteiltes training
KR102248150B1 (ko) 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법
Kinoshita et al. Fixed smooth convolutional layer for avoiding checkerboard artifacts in cnns
DE102021107509A1 (de) Multi-modell-trainingspipeline in verteilten systemen
WO2022242122A1 (zh) 一种视频优化方法、装置、终端设备及存储介质
Jang et al. A variational u-net for motion retargeting
CN114648787A (zh) 人脸图像的处理方法及相关设备
CN111401117A (zh) 基于双流卷积神经网络的新生儿疼痛表情识别方法
JP6990580B2 (ja) カラー情報推定モデル生成装置、動画像カラー化装置およびそれらのプログラム
CN113762483B (zh) 一种用于心电信号分割的1D U-net神经网络处理器
CN110956575B (zh) 转变图像风格的方法和装置、卷积神经网络处理器
CN114640885A (zh) 视频插帧方法、训练方法、装置和电子设备
CN106296614B (zh) 图像处理装置及图像处理方法
CN110111252A (zh) 基于投影矩阵的单幅图像超分辨率方法
CN114627161A (zh) 源图片到驱动图片的运动迁移的方法和系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant