KR20200065433A

KR20200065433A - 스타일 변환 모델 및 포토 몽타주 기반 합성 이미지의 스타일 변환 장치

Info

Publication number: KR20200065433A
Application number: KR1020180151907A
Authority: KR
Inventors: 이광희; 박대영
Original assignee: 주식회사 인공지능연구원
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-09

Abstract

본 발명은 포토 몽타주 기반 합성 이미지의 스타일 변환 장치로, 창작자에 의해 입력된 콘텐츠 정보 기반으로 검색된 적어도 둘 이상의 이미지들을 합성하여 토대 이미지를 생성하는 포토 몽타주 생성부와, 생성된 토대 이미지를 창작자가 선택한 스타일로 변환하는 스타일 변환부를 포함한다.

Description

스타일 변환 모델 및 포토 몽타주 기반 합성 이미지의 스타일 변환 장치{Style Trasnfer Model and Apparatus for Style Trasnfer of Composite Image based on Photo Montage}

본 발명은 이미지 처리 기술에 관한 것으로, 특히 딥러닝 기반으로 이미지를 창작자가 원하는 화풍으로 스타일 변환시켜주는 기술에 관한 것이다.

스타일 변환(Style Transfer)은 주어진 콘텐츠 이미지를 특정 화풍으로 변환시켜 주는 기술로, 이와 관련하여 논문 1, "A Neural Algorithm of Artistic Style", Leon A. Gatys et al.이 발표된 이후, 다수의 스타트업 기업들에 의해 "Multistyle Pastiche Generator"와 같이 기존 화풍을 무작위적으로 모방하는 포스트 모더니즘의 대표 기법인 패스티쉬(Pastiche) 앱을 개발된 바 있다. 그런데, 종래의 스타일 변환 기술은 대부분 이미 생성된 이미지의 스타일을 변환시켜주는 것으로, 창작자가 의도한 대로 창착된 컨텐츠에 대한 스타일 변환을 해주는 기능은 없었다.

따라서, "Vincent AI"와 같이 이용자가 스타일러스 펜을 사용해 간단히 스케치한 그림을 실시간으로 유화나 네온 색상의 팝 아트 등 7가지의 예술 작품으로 변환시켜 주는 앱이 개발된 바 있다. 그러나, 이러한 창작자 스케치 기반의 스타일 변환 기술은 그 변환 결과가 창작자의 스케치 실력에 의존적이다. 즉, 스케치에 능숙하지 않은 창작자가 스케치한 그림을 변환할 경우 디테일하지 못할 스타일 변환 결과가 생성되어, 만족도가 저하될 수 있다.

본 발명은 창작자의 의도대로 창착된 콘텐츠를 스타일 변환시켜 줄 수 있는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치를 제공한다.

본 발명은 스케치에 능숙하지 않은 창작자에게도 디테일한 스타일 변환 결과를 제공해 줄 수 있는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치를 제공한다.

본 발명은 스타일 변환 모델로, 입력된 콘텐츠 이미지 및 스타일 이미지 각각에 대한 특징맵을 추출하는 인코더와, 두 개의 특징맵들 간의 임베딩을 수행하여 하나의 통합 특징맵을 출력하되, 콘텐츠 이미지와 스타일 이미지 사이의 로컬 매핑(local mapping)을 수행하는 스타일 결합부와, 통합 특징맵을 디코딩하여 스타일 변환 이미지를 출력하는 디코더부를 포함한다.

본 발명에 따라, 창작자의 의도대로 창착된 콘텐츠를 예술 작품의 화풍으로 스타일 변환시켜 줄 수 있다. 이로써, 예술 분야 전공의 학생들이 기존 화풍의 특징을 상호 작용을 통해 학습할 수 있도록 활용될 수 있다.

또한, 본 발명에 따라, 창작자가 입력한 스케치를 바로 예술 작품으로 변환하는 것이 아니라, 스케치로부터 포토 몽타주를 생성한 후, 생성된 포토 몽타주를 예술 작품으로 변환하므로, 창작자의 스케치 숙달도에 상관없이 스케치에서 표현하지 못하는 디테일한 표현도 가능하도록 할 수 있다.

도 1은 본 발명이 적용되는 단말기의 개략적이 구성도이다.
도 2는 본 발명의 일 실시 예에 따른 포토 몽타주 기반 합성 이미지의 스타일 변환 장치의 개략적인 블록 구성도이다.
도 3은 본 발명에 따른 포토 몽타주 기반 합성 이미지 스타일 변환 예를 도시한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 포토 몽타주 생성부의 개략적인 내부 블록 구성도이다.
도 5a는 본 발명의 일 실시 예에 따른 스타일 변환부의 개략적인 내부 블록 구성도이다.
도 5b는 본 발명에 따른 스타일 변환 예를 도시한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 본 발명 스타일 변환 모델의 블록 구성도이다.
도 7은 본 발명의 일 실시 예에 따른 아이덴티티 손실 함수 계산을 설명하기 위한 블록 구성도이다.
도 8은 본 발명의 일 실시 예에 따른 스타일 결합부의 내부 블록 구성도이다.

이하 첨부된 도면을 참조하여, 바람직한 실시 예에 따른 스타일 변환 모델 및 스타일 변환 모델을 이용한 포토 몽타주 기반 합성 이미지의 스타일 변환 장치에 대해 상세히 설명하면 다음과 같다. 여기서, 동일한 구성에 대해서는 동일부호를 사용하며, 반복되는 설명, 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다. 발명의 실시형태는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.

이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.

본 발명은 창작자의 대략적인 스케치를 입력으로 받아서 실사 이미지를 생성함으로써 원하는 컨텐츠를 쉽게 생성 가능하고, 생성된 토대 이미지에 화풍(art style) 또는 사진 스타일(photo style)을 변화시켜 작품 창작이나 원하는 스타일의 사진을 생성 가능한 포토 몽타주 기반 합성 이미지 스타일 변환 장치를 제안한다. 이러한 포토 몽타주 기반 합성 이미지 스타일 변환 장치는 스마트 폰 또는 스마트 패드 등의 이동 통신 단말기 뿐만 아니라, 데스크 탑 컴퓨터, 노트북 등과 같은 개인용 컴퓨터와 같은 단말기에서 응용 프로그램으로 설치되어 사용될 수 있다.

도 1은 본 발명이 적용되는 단말기의 개략적이 구성도이다.

도 1을 참조하면, 단말기는 제어부(10), 메모리(20), 통신부(30) 및 터치 스크린(40)을 포함한다.

메모리(20)는 단말기 내에 내장되거나 혹은 USB 포트 등을 통하여 연결될 수 있는 형태의 저장 장치를 모두 포함하여, 본 발명의 일 실시 예에 따른 포토 몽타주 기반 이미지 스타일 변환 애플리케이션을 저장한다. 또한, 메모리(20)에 저장된 포토 몽타주 기반 이미지 스타일 변환 애플리케이션은 업데이트될 수 있다.

이를 위해 통신부(130)는 제어부(110)의 제어에 의해 외부의 데이터베이스(미도시)로부터 포토 몽타주 기반 이미지 스타일 변환 애플리케이션 업데이트 정보를 획득하여 메모리(110)에 저장할 수 있다. 통신부(130)는 무선 통신망을 통해 외부로부터 수신된 신호와 내부 출력 신호를 처리하는 것으로, 주지된 구성이다.

터치 스크린(140)은 정지 이미지 또는 동영상 이미지를 출력하고, 출력된 이미지에서의 창작자의 손가락 누름을 센싱하여 그에 상응하는 키데이터를 제어부(110)에 발생시키는, 조작부와 표시부가 통합된 형태의 사용자 인터페이스이다.

제어부(110)는 각부의 제어를 위한 핸드폰 O/S로, 단말기의 주 제어부를 구성하는 프로세서라고 할 수 있다. 핸드폰 O/S로는 마치 퍼스널 컴퓨터 본체의 중앙처리장치(CPU)와 같은 역할을 단말기 내에서 담당한다. 이러한 제어부(110)는 전술한 바와 같은 각 구성 요소들을 제어하여, 포토 몽타주 기반 이미지 스타일 변환 장치가 제공하는 서비스들에 상응하는 동작을 수행하는 모듈들이 호출되어 동작되도록 한다.

도 2는 본 발명의 일 실시 예에 따른 포토 몽타주 기반 합성 이미지의 스타일 변환 장치의 개략적인 블록 구성도이고, 도 3은 본 발명에 따른 포토 몽타주 기반 합성 이미지 스타일 변환 예를 도시한 도면이다.

도 2를 참조하면, 포토 몽타주 기반 합성 이미지 스타일 변환 장치(이하 '장치'로 기재함)(1)는 크게 포토 몽타주 생성부(100) 및 스타일 변환부(200)를 포함한다. 여기서, 포토 몽타주 생성부(100)는 도 3의 (a) 내지 (d)에 도시된 바와 같이, 창작자와의 상호 작용을 통해 포토 몽타주 기반으로 합성된 토대 이미지를 생성하고, 스타일 변환부(200)는 도 3의 (e)에 도시된 바와 같이, 생성된 토대 이미지를 선택된 스타일 이미지의 스타일로 변환하여 출력한다.

도 4는 본 발명의 일 실시 예에 따른 포토 몽타주 생성부의 개략적인 내부 블록 구성도이다.

도 4를 참조하면, 포토 몽타주 생성부(100)는 콘텐츠 저작 모듈(110), 객체 리스트 생성 모듈(120), 이미지 검색 모듈(130), 이미지 선택 모듈(140) 및 이미지 합성 모듈(150)을 포함한다.

콘텐츠 저작 모듈(110)는 단말기의 터치 스크린(40)을 통해 창작자가 의도하는 이미지에 대한 콘텐츠 정보가 제작될 수 있는 그래픽 유저 인터페이스(Graphic User Interface : GUI) 화면을 제공하고, GUI 화면을 통해 창작자에 의해 저작된 콘텐츠 정보를 획득한다.

일 양상에 따라, 콘텐츠 정보는 창작자에 의해 레이블된 객체 형상 스케치일 수 있고, 객체는 둘 이상일 수 있다. 즉, 도 3의 (a)에 예시된 바와 같이, 콘텐츠 정보는 소정 영역에 위치한 객체 형상 스케치(310)와, 객체 형상 스케치(310)에 인접 영역에 '나무', '던지는 사람'과 같이 각각의 객체를 지칭/설명하는 단어, 구절 또는 문장인 레이블이 포함될 수 있다.

다른 양상에 따라, 콘텐츠 정보는 창작자가 원하는 이미지에 대한 설명 정보로, 단어, 구절 또는 문장일 수 있다. 예컨대, 도 3의 (a)에 예시된 스케치 대신에, 이를 설명하는 '왼쪽에 있는 사람이 오른쪽에 있는 나무를 향해 프리스비를 던지고 있고, 개가 프리스비를 향해 달려가고 있다'와 같은 문장이 콘텐츠 정보로 입력될 수도 있다.

객체 리스트 추출 모듈(120)은 콘텐츠 저작 모듈(110)을 통해 작성된 콘텐츠 정보로부터 검색 대상이 되는 객체 리스트를 추출한다. 일 양상에 따라, 콘텐츠 정보가 레이블된 객체 형상 스케치일 경우, 인식된 객체 형상 및 객체에 매핑된 레이블이 리스트업될 수 있다. 다른 양상에 따라, 콘텐츠 정보가 설명 정보일 경우, 설명문을 분석하여 '사람', '나무', '프리스비', '개' 등의 객체를 지칭하는 명사들로 객체 리스트를 추출해낼 수도 있다.

이미지 검색 모듈(130)은 객체 리스트 추출 모듈(120)로부터 전달된 객체 리스트에 포함된 객체들이 포함되는 이미지 및 객체들이 놓여질 배경 이미지를 검색한다. 이때, 이미지 검색 모듈(120)은 미리 구축된 데이터베이스(미도시)로부터 사진을 검색할 수도 있고, 통신부(20)를 통해 웹에 접속하여 객체 사진을 검색해낼 수 있다. 이때, 객체 및 배경에 상응하는 수많은 이미지들이 검색될 수 있으므로, 이미지 검색 모듈(130)은 검색된 이미지들을 필터링할 수 있다. 예컨대, 도 3의 (b)에 예시된 바와 같이 '나무'에 해당하는 수많은 이미지들이 검색될 수 있다. 따라서, 이미지 검색 모듈(130)은 사일런시 디텍션(saliency detection)과 컬러 세그멘테이션(color segmentation)을 활용하여 복잡한 배경을 갖는 이미지를 제거하거나, Grabcut을 수행해서 배경을 제거하는 사일런시 필터링(Saliency filtering) 방식, 사용자 스케치와 검색된 이미지의 해당 객체의 윤곽(Contour) 일치도가 낮은 경우 제거하는 윤곽 필터링(Contour filtering) 방식 및 검색된 이미지들 각각에 대한 특징 벡터(feature vector)의 클러스터링(clustering)을 수행한 후, 작은 클러스터에 대응하는 이미지를 제거하는 콘텐츠 필터링(Content filtering) 방식을 포함하는 다양한 방식들 중 하나를 사용하여 구현될 수 있다. 또한, 본 발명의 일 양상에 따라, 이미지 검색 모듈(130)은 딥러닝 기반 객체 검출(Object Detection), 세그멘테이션(Segmentation) 기법(ex. YOLO, Mask R-CNN 등)을 활용하여 각 이미지에서 객체(object) 영역 박스와 해당 세그먼트(segment)의 마스크를 추출하고, 해당 검색어에 해당하지 않는 경우 이미지 제거하고, 추출된 마스크와 창작자 스케치 윤곽으로 생성한 마스크의 매칭을 통해 가장 유사한 순서로 후보 이미지들을 검색해낸다.

이미지 선택 모듈(140)은 객체별 후보 이미지들 중 토대 이미지를 생성하는데 사용될 하나의 이미지를 선택한다. 일 양상에 따라, 이미지 선택 모듈(140)은 이미지 검색 모듈(130)에 의해 검색된 배경 및 객체별 후보 이미지들을 터치 스크린(40)을 통해 출력하고, 창작자로부터 선택 정보를 입력받는다. 예컨대, 도 3의 (c)를 참조하면, '배경', '나무', '정자' 각각에 대한 후보 이미지들을 출력하고, 창작자로부터 후보 이미지들 중 하나를 선택받는다. 이때, 이미지 선택 모듈(140)은 선택된 배경 이미지에서 창작자가 원하지 않는 영역을 인페인팅(inpainting) 기술로 제거할 수도 있다. 다른 양상에 따라, 이미지 선택 모듈(140)는 배경 및 객체별 후보 사진 리스트을 다양한 조합으로 자동 선택할 수 있다.

이미지 합성 모듈(150)는 결정된 배경 이미지 및 객체별 이미지들을 합성하여 몽타주를 생성한다. 이때, 이미지 합성 모듈(150)는 콘텐츠 저작 모듈(110)에 의해 획득된 콘텐츠 정보에 포함된 객체들 각각의 위치 정보를 기반으로, 배경 이미지에 배경이 제거된 객체 이미지를 위치시킨 후, 배경 이미지 및 객체 이미지들을 합성한다.

여기서, 이미지 합성 모듈(150)는 딥러닝 기반으로 학습되어 합성 이미지가 입력됨에 따라 이미지들 간의 경계 영역의 블렌딩, 그림자 및 컬러톤을 한번에 보정하여 출력하는 하나의 이미지 보정 모델을 포함하여, 합성된 이미지의 보정을 수행할 수 있다. 다른 양상에 따라, 이미지 합성 모듈(150)는 딥러닝 기반으로 학습되어 합성 이미지가 입력됨에 따라 이미지들 간의 경계 영역을 보정 처리하는 모델들, 즉, 블렌딩 처리 모델, 그림자 처리 모델 및 컬러톤 처리 모델 중 적어도 하나를 포함할 수 있다.

포토 몽타주 생성부(100)는 합성된 이미지에 만족하지 않는 창작자의 요청에 의해, 콘텐츠 저작 모듈(110), 객체 리스트 생성 모듈(120), 이미지 검색 모듈(130) 및 이미지 선택 모듈(140) 중 적어도 하나의 모듈이 선택적으로 동작된 후, 이미지 합성을 재수행할 수도 있다.

다시 도 1을 참조하면, 포토 몽타주 생성부(100)에 의해 배경 이미지 및 객체 이미지들이 합성되어 생성된 토대 이미지는 스타일 변환부(200)에 의해 창작자가 원하는 스타일로 변환된다.

도 5a는 본 발명의 일 실시 예에 따른 스타일 변환부의 개략적인 내부 블록 구성도이고, 도 5b는 본 발명에 따른 스타일 변환 예를 도시한 도면이다.

도 5a를 참조하면, 스타일 변환부(200)는 스타일 선택부(210) 및 스타일 변환 모델(220)을 포함한다.

스타일 선택부(210)는 도 5b에 도시된 바와 같이, 터치 스크린(40)을 통해 다양한 스타일 이미지들의 리스트(520)를 출력하고, 창작자로부터 스타일 선택 정보를 입력받아, 상응하는 스타일 이미지를 검출하여 스타일 변환 모델(220)에 입력시켜준다.

스타일 변환 모델(220)은 스타일 이미지와 포토 몽타주 생성부(100)로부터 출력된 토대 이미지, 즉 콘텐츠 이미지가 입력됨에 따라, 도 5b에 도시된 바와 같은 콘텐츠 이미지(510)를 스타일 이미지의 화풍으로 변환하여 한 장의 스타일 변환 이미지(530)를 출력하도록 딥러닝 기반으로 학습된 인공 지능망이다. 여기서, 스타일 변환 이미지는 콘텐츠 이미지의 구조적(의미적)인 특징은 유지하면서 스타일 이미지의 텍스쳐와 컬러 분포 등을 갖도록 생성된다. 여기서, 스타일 변환 모델(220)의 학습을 위해 CycleGAN, GANMOOK, StarGAN, Real-time Style Transfer 모델 학습 알고리즘, 학습 데이터의 양에 따라 Generative Adversarial Network 또는 Style Transfer 모델을 포함하는 다양한 학습 알고리즘으로 구현될 수 있다. 그런데, 일 실시 예에 따라, 스타일 변환 모델(220)은 논문 2, "Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization", Xun Huang et al.의 문제점을 보완하여 본 발명에 의해 제안된 딥러닝 기반 인공 지능 모델일 수 있다. 즉, 논문 2에 기재된 Arbitrary Style Transfer의 콘텐츠 특징(content feature)과 스타일 특징(style feature)을 임베딩(embedding)하는 AdaIN(Adaptive Instance Normalization)에 의해 콘텐츠 이미지의 스타일 남는 문제 뿐만 아니라, global/local style의 적절한 반영이 어렵다는 문제점이 있다. 따라서, 일 실시 예에 따른 스타일 변환 모델(220)은 AdaIN 대신에 본 발명에 의해 제안되는 SANet(Style-attentional network)를 사용한다. SANet은 통해 콘텐츠 이미지와 스타일 이미지 사이의 로컬 매핑(local mapping)을 수행함으로써 스타일 이미지의 global/local 반영을 가능하게 한다. 한편, 일 실시 예에 따른 스타일 변환 모델(220)은 본 발명의 의해 제안되는 아이덴티티 손실 함수(identity loss function)를 이용하여 손실을 계산한다. 이러한 아이덴티티 손실 함수(identity loss function)는 콘텐츠-스타일(content-style) 매핑시 의미적으로 유사한 영역을 선택함으로써 콘텐츠의 구조를 훼손하지 않으면서 스타일 변환을 가능하게 한다.

또한, 본 발명에 의해 제안되는 스타일 변환 모델(220)은 WCT, AvartarNet가 가지는 문제점, 즉 스타일을 많이 반영할수록 콘텐츠 이미지의 구조가 무너지는 문제를 해결하고, AvatarNet과 비교했을 때 계산량이 적고, 스타일 매핑(style mapping)시에 whitening을 통한 maximally align을 하지 않고도 SANet의 학습을 통해 보다 유연한 로컬 스타일 매핑(local style mapping)이 가능하다.

그러면, 본 발명의 일 실시 예에 따른 스타일 변환 모델(220)에 대해 도 6 내지 도 8을 참조하여 상세히 설명하기로 한다.

도 6은 본 발명의 일 실시 예에 따른 본 발명 스타일 변환 모델의 블록 구성도이고, 도 7은 본 발명의 일 실시 예에 따른 아이덴티티 손실 함수 계산을 설명하기 위한 블록 구성도이다.

도 6을 참조하면, 스타일 변환 모델(220)은 크게 인코더(Encoder)(221), 전술한 SANet에 해당하는 스타일 결합부(222) 및 디코더(Decoder)(223)로 구성되어, 콘텐츠 이미지(content image)

및 스타일 이미지(style image)

를 입력받아 스타일 변환 이미지

를 출력한다.

인코더(221)는 입력된 콘텐츠

및 스타일 이미지

각각으로부터 다음의 <수학식 1>에 정의된 바와 같은 특징 맵

및

를 추출한다.

스타일 결합부(222)는 인코더(221)로부터 출력된 특징 맵

및

간의 임베딩(embedding)을 수행한 후, 다음의 <수학식 2>에 정의된 바와 같은 겹합된 하나의 특징맵

를 출력한다. 스타일 결합부(222)의 상세 구성에 대해서는 도 8을 참조하여 후술하기로 한다.

본 발명의 일 실시 예에 따라, 스타일 변환 모델(220)은 콘볼루션부(224) 및 결합부(225)를 더 포함한다. 즉, 변환된 특징

은 콘볼루션부(224)를 거친 콘텐츠 특징

과 다음의 <수학식 3>에 정의된 바와 같이 결합(concat)되어, 결합 결과인 특징

를 출력한다.

디코더(223)는 결합부(225)에 의해 출력된 특징

을 다음의 <수학식 4>에 정의된 바와 같이 디코딩된 후 스타일 변환 이미지

를 출력한다.

한편, 스타일 변환 모델(220)은 학습시 스타일 결합부(222) 및 디코더(223)의 학습을 위해 다음의 <수학식 5>에 정의된 바와 같은 손실 함수(Loss Function)를 계산하는 미리 학습된 인코더(226)를 사용한다.

<수학식 5>에서

은 콘텐츠 손실(content loss)이고,

는 스타일 손실(style loss)이고,

는 아이덴티티 손실(identity loss)이고,

및

는 손실들 각각의 가중치(weight)들이다.

여기서, 콘텐츠 손실(content loss)

는 다음의 <수학식 6>에 의해 정의되고, 스타일 손실(style loss)는 다음의 <수학식 7>에 의해 정의된다.

<수학식 6>에서

는 channel wise normalized target features이고,

는 출력 이미지의 VGG features의 channel wise normalized features로,콘텐츠 손실(content loss)

는

및

간의 유클리드 거리(Euclidean distance)이다.

<수학식 7>에서

는 인코더(226)에서의 레이어(layer)를 의미한다.

한편, 본 발명에 따라 <수학식 5>에 의해 정의되는 손실 함수(Loss Function)에는

가 더 포함되는데, global statistics 및 콘텐츠 특징들 및 스타일 특징들 간의 의미적 로컬 매핑을 고려하여 다음의 <수학식 8>과 같이 정의된다.

<수학식 8>에서

(또는

)는 두 개의 동일한 콘텐츠 (또는 스타일) 이미지들로부터 합성된 출력 이미지이고,

는 인코더의 레이어를 의미하고,

는 아이덴티티 손실 가중치(identity loss weight)를 의미한다. 즉, 도 7에 도시된 바와 같이,

는

및

간의 차이 또는

및

간의 차이를 계산한다.

여기서,

및

는 콘텐츠 이미지의 구조 및 스타일 패턴들 간의 트레이드 오프(trade-off)를 제어하는 역할을 수행하고,

는 스타일 통계(style statistics)를 변경하기보다는 콘텐츠 이미지의 구조를 유지하는데 집중한다. 결과적으로,

는 콘텐츠 이미지의 구조 및 참조 이미지의 스타일 특징을 동시에 유지하는 것을 가능하게 한다.

도 8은 본 발명의 일 실시 예에 따른 스타일 결합부의 내부 블록 구성도이다.

도 8을 참조하면, 스타일 결합부(222)는 인코더(222)로부터 출력된 특징 맵

및

을 입력받아

및

간의 attention은 계산하기 위해 다음의 <수학식 10>과 같은 연산을 수행한다.

<수학식 10>에서

은

의 channel wise normalized version을 의미하는 것으로, 입력된

및

각각은 정규화된 후에 1x1 콘볼루션(convolution)을 통해 다음의 <수학식 11>에 정의된 바와 같이 변환된다.

<수학식 10>에서

는 다음의 <수학식 12>와 같이 정의되고,

는 다음의 <수학식 13>과 같이 정의된다.

<수학식 10> 내지 <수학식 13>에서

는 출력 위치의 인덱스를 나타내고,

는 모든 가능한 위치를 열거하는 인덱스를 나타내고,

는 각각 1x1 콘볼루션에서 사용되는 가중치 매트리스를 나타낸다.

Claims

창작자에 의해 입력된 콘텐츠 정보 기반으로 검색된 적어도 둘 이상의 이미지들을 합성하여 토대 이미지를 생성하는 포토 몽타주 생성부와,
생성된 토대 이미지를 창작자가 선택한 스타일로 변환하는 스타일 변환부를 포함하는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
제1 항에 있어서, 콘텐츠 정보는
창작자에 의해 레이블된 객체 형상 스케치 또는 창작자가 원하는 이미지에 대한 설명 정보 중 적어도 하나인 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
제1 항에 있어서, 포토 몽타주 생성부는
창작자가 의도하는 이미지 콘텐츠가 제작될 수 있는 그래픽 유저 인터페이스를 제공하는 콘텐츠 저작 모듈과,
작성된 콘텐츠 정보로부터 검색 대상이 되는 객체 리스트를 추출하는 객체 리스트 추출 모듈과,
객체 리스트에 포함된 적어도 하나의 객체 이미지 및 적어도 하나의 객체가 놓여질 배경 이미지를 검색하는 이미지 검색 모듈과,
적어도 하나의 객체 각각이 포함되는 이미지 및 적어도 하나의 객체가 놓여질 배경 이미지를 콘텐츠 정보에 포함되는 객체 위치 정보를 기반으로 합성하는 이미지 합성 모듈을 포함하는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
제 3항에 있어서, 이미지 검색 모듈은
딥러닝 기반으로 검색된 이미지에서 객체 영역 박스와 해당 세그먼트의 마스크를 추출하고, 검색 이미지 마스크와 스케치 윤곽 마스크의 매칭을 통해 가장 유사한 순서로 후보 이미지들을 검색해내는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
제3 항에 있어서,
이미지 검색부에 의해 검색된 복수의 객체 이미지들 및 배경 이미지들 중 합성 대상 이미지를 선택하는 이미지 선택 모듈을 더 포함하는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
제 3항에 있어서, 이미지 합성 모듈은
딥러닝 기반으로 학습되어 합성 이미지의 이미지들 간의 경계 영역의 블렌딩, 그림자 및 컬러톤 중 적어도 하나를 보정하는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
제1 항에 있어서, 스타일 변환부는
창작자로부터 복수의 스타일 이미지들 중 하나를 선택받아 해당 스타일 이미지를 스타일 변환 모델에 입력시키는 스타일 선택부와,
콘텐츠 이미지 및 스타일 이미지가 입력됨에 따라, 콘텐츠 이미지를 스타일 이미지의 화풍으로 변환하도록 딥러닝 기반으로 학습된 스타일 변환 모델을 포함하는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
제7 항에 있어서, 스타일 변환 모델은
입력된 콘텐츠 이미지 및 스타일 이미지 각각에 대한 특징맵을 추출하는 인코더와,
두 개의 특징맵들 간의 임베딩을 수행하여 하나의 통합 특징맵을 출력하되, 콘텐츠 이미지와 스타일 이미지 사이의 로컬 매핑(local mapping)을 수행하는 스타일 결합부와,
통합 특징맵을 디코딩하여 스타일 변환 이미지를 출력하는 디코더부를 포함하는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
제8 항에 있어서, 스타일 변환 모델은
통합 특징맵을 디코딩하기 전에 콘볼루션된 콘텐츠 이미지의 특징맵을 결합하는 결합부를 더 포함하는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
제8 항에 있어서, 스타일 변환 모델은
스타일 결합부 및 디코더를 훈련시키기 위한 손실 함수(Loss Function)를 계산을 위한 미리 훈련된 인코더를 더 포함하되,
손실 함수는
콘텐츠 이미지의 구조를 유지하는데 집중하기 위한 아이덴티티 손실을 포함하는 포토 몽타주 기반 합성 이미지의 스타일 변환 장치.
입력된 콘텐츠 이미지 및 스타일 이미지 각각에 대한 특징맵을 추출하는 인코더와,
두 개의 특징맵들 간의 임베딩을 수행하여 하나의 통합 특징맵을 출력하되, 콘텐츠 이미지와 스타일 이미지 사이의 로컬 매핑(local mapping)을 수행하는 스타일 결합부와,
통합 특징맵을 디코딩하여 스타일 변환 이미지를 출력하는 디코더부를 포함하는 스타일 변환 모델.
제11 항에 있어서,
통합 특징맵을 디코딩하기 전에 콘볼루션된 콘텐츠 이미지의 특징맵을 결합하는 결합부를 더 포함하는 스타일 변환 모델.
제11 항에 있어서,
스타일 결합부 및 디코더를 훈련시키기 위한 손실 함수(Loss Function)를 계산을 위한 미리 훈련된 인코더를 더 포함하되,
손실 함수는
콘텐츠 이미지의 구조를 유지하는데 집중하기 위한 아이덴티티 손실을 포함하는 스타일 변환 모델.