KR20230068062A

KR20230068062A - 스타일 이미지를 생성하는 장치

Info

Publication number: KR20230068062A
Application number: KR1020210153975A
Authority: KR
Inventors: 조형래; 박구만
Original assignee: 서울과학기술대학교 산학협력단
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2023-05-17

Abstract

스타일 이미지를 생성하는 장치는 텍스트 및 원본 이미지를 입력하는 수신부, 텍스트를 컨텐츠 이미지로 변환하고, 컨텐츠 이미지를 임베딩처리하여 다운 샘플링하는 처리부 및 컨텐츠 이미지 및 다운 샘플링된 이미지에 기초하여 적어도 하나의 스타일 이미지를 생성하는 스타일 이미지 생성부를 포함할 수 있다.

Description

스타일 이미지를 생성하는 장치{DEVICE FOR GENERATING STYLE IMAGE}

본 발명은 스타일 이미지를 생성하는 장치에 관한 것이다.

종래의 스타일 이미지 생성 기술은 창작자의 목적의식을 고려하지 않고, 단순히 스타일만 이미지에 매핑시키는 방식이다. 즉, 종래의 스타일 이미지 생성 기술은 주로 하나의 문장이나 이미지에 해당하는 스타일 이미지를 생성한다.

한국등록특허공보 제10-1571240호 (2015.11.17. 등록)

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 텍스트 및 원본 이미지를 입력받고, 입력된 텍스트 및 원본 이미지에 기초하여 창작자의 제작 목적과 스타일이 최대한 반영된 적어도 하나의 스타일 이미지를 생성하고자 한다.

또한, 본 발명은 입력된 텍스트의 문맥과 의미를 추론하여 보다 정확한 창작자의 생각을 스타일 이미지로 표현하고자 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 스타일 이미지를 생성하는 장치는 텍스트 및 원본 이미지를 입력하는 수신부; 상기 텍스트를 컨텐츠 이미지로 변환하고, 상기 컨텐츠 이미지를 임베딩처리하여 다운 샘플링하는 처리부; 및 상기 컨텐츠 이미지 및 상기 다운 샘플링된 이미지에 기초하여 적어도 하나의 스타일 이미지를 생성하는 스타일 이미지 생성부를 포함할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 텍스트 및 원본 이미지를 입력받고, 입력된 텍스트 및 원본 이미지에 기초하여 창작자의 제작 목적과 스타일이 최대한 반영된 적어도 하나의 스타일 이미지를 생성할 수 있다.

이를 통해, 본 발명은 창작자가 전체 작업 공정에서 영감을 얻는데 할애하는 시간을 단축하고, 영감을 받을 수 있는 다양한 스타일 이미지를 생성하는 어플리케이션을 제공할 수 있다.

또한, 창작자는 제작 목적과 유사한 고화질의 이미지와 동영상을 제공받고, 이를 통해 영감을 받아 작업을 수행하기 때문에 작업시간을 단축할 수 있고, 이를 통해 작업의 질이 향상될 수 있다.

도 1은 본 발명의 일 실시예에 따른, 스타일 이미지 생성 장치의 블록도이다.
도 2a 내지 2c는 본 발명의 일 실시예에 따른, 스타일 이미지를 생성하는 방법을 설명하기 위한 도면이다.
도 3a 내지 3e는 본 발명의 일 실시예에 따른, 스타일 이미지를 생성하는 방법을 설명하기 위한 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 장치에서 대신 수행될 수도 있다. 이와 마찬가지로, 장치가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 장치와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른, 스타일 이미지 생성 장치(10)의 블록도이다.

도 1을 참조하면, 스타일 이미지 생성 장치(10)는 수신부(100), 처리부(110), 스타일 이미지 생성부(120) 및 동영상 생성부(130)를 포함할 수 있다. 다만, 도 1에 도시된 스타일 이미지 생성 장치(10)는 본 발명의 하나의 구현 예에 불과하며, 도 1에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.

도 2a는 스타일 이미지의 생성 과정을 도식화한 도면이다. 이하에서는 도 2a를 함께 참조하여 도 1을 설명하기로 한다.

수신부(100)는 사용자의 사용자 단말로부터 텍스트 및 원본 이미지를 입력할 수 있다. 여기서, 텍스트는 사용자의 작업 목적이 반영된 문장들로 구성될 수 있다. 원본 이미지는 텍스트의 내용과 유사한 스타일 정보가 반영된 이미지일 수 있다

처리부(110)는 텍스트를 컨텐츠 이미지로 변환할 수 있다.

구체적으로, 처리부(110)는 텍스트의 문맥과 의미를 추론하고, 추론된 텍스트의 문맥 및 의미에 기초하여 텍스트를 컨텐츠 이미지로 변환할 수 있다. 여기서, 컨텐츠 이미지는 사용자의 작업 목적에 최대한으로 가까운 이미지일 수 있다.

예를 들어, 처리부(110)는 텍스트 어그먼테이션 기법을 활용하여 텍스트와 유사성을 갖는 컨텐츠 이미지로 변환할 수 있다. 예를 들어, 처리부(110)는 '눈 내리는 골목'을 포함하는 텍스트를 눈 내리는 골목이 연상되는 컨텐츠 이미지로 변환할 수 있다.

예를 들어, 처리부(110)는 텍스트를 코드 블록으로 변환하고, 변환된 코드 블록을 포함하는 코드북에 기초하여 이전 텍스트를 통해 다음 텍스트를 예측하고, 예측 결과에 기초하여 텍스트를 컨텐츠 이미지로 변환할 수 있다.

예를 들어, 처리부(110)는 키워드를 모아 놓은 코드북 학습을 통해 이전 텍스트 및 다음 텍스트 간의 손실값이 최소화되도록 하는 컨텐츠 이미지로 변환할 수 있다.

처리부(110)는 원본 이미지를 임베딩처리하여 다운 샘플링할 수 있다.

스타일 이미지 생성부(120)는 다운 샘플링된 이미지 및 컨텐츠 이미지에 기초하여 적어도 하나의 스타일 이미지를 생성할 수 있다. 여기서, 스타일 이미지는 16*16 패치 단위의 이미지로 구성될 수 있다.

스타일 이미지 생성부(120)는 다운 샘플링된 이미지 및 컨텐츠 이미지 간의 교차 검증을 통해 스타일 이미지를 생성할 수 있다. 여기서, 교차 검증은 텍스트로부터 이미지를 생성하고, 이미지로부터 텍스트를 생성하는 과정을 반복하여 서로 가장 가까운 유사성을 탐색하는 방법을 의미한다.

도 2b를 참조하면, 스타일 이미지 생성부(120)는 CLIP(Connecting Text and Images) 모델을 통해 생성된 스타일 이미지를 다양한 스타일 이미지로 업데이트할 수 있다. CLIP은 텍스트에 해당하는 이미지를 검색하는 사전 학습된 모델이다.

처리부(110)는 컨텐츠 이미지를 코드 블록화할 수 있다.

스타일 이미지 생성부(120)는 코드 블록화된 컨텐츠 이미지의 코드 블록을 구성하는 복수의 패치 및 스타일 이미지 간 비교를 통해 스타일 정보를 검색할 수 있다.

구체적으로, 스타일 이미지 생성부(120)는 코드 블록화된 컨텐츠 이미지의 코드 블록을 구성하는 복수의 패치 및 스타일 이미지의 복수의 패치 간의 유사성을 비교하여 양자화(Quantization)하고, 이를 통해 유사성이 높은 스타일 정보를 검색할 수 있다.

스타일 이미지 생성부(120)는 컨텐츠 이미지 및 스타일 이미지 간의 거리를 조절하여 스타일 이미지를 업데이트할 수 있다.

스타일 이미지 생성부(120)는 컨텐츠 이미지와의 거리가 가까운 스타일 이미지(즉, 컨텐츠 이미지와 유사한 스코어가 높은 스타일 이미지)를 탐색하고, 탐색된 신규 스타일 이미지에 기초하여 기존 스타일 이미지를 업데이트할 수 있다.

스타일 이미지 생성부(120)는 코드 블록화된 컨텐츠 이미지의 코드 블록의 의미(즉, 코드 블록에 있는 문장의 의미)와 가장 유사해질 때까지 스타일 이미지를 업데이트할 수 있다.

이와 간치, 본 발명은 텍스트의 문맥을 충분히 고려하여 다양한 스타일 이미지를 생성할 수 있다.

동영상 생성부(130)는 슬라이딩 어텐션 윈도우(Sliding Attention Window) 방식을 통해 스타일 이미지를 업샘플링하여 동영상을 생성할 수 있다.

잠시 도 3a를 참조하여 슬라이딩 어텐션 윈도우를 설명하기로 한다. 도 3a를 참조하면 슬라이딩 어텐션 윈도우는 연산량을 감소시키면서도 고해상도의 이미지를 생성하는 기법으로 인접한 패치들 간의 연산을 진행하여 다음 패치를 찾아내는 방법으로 학습한다. 동영상 생성부(130)는 슬라이딩 어텐션 윈도우 방식을 통해 시퀀스 정보에 따라 스타일 이미지들을 병합하면서 고해상도의 동영상을 생성할 수 있다.

본 발명은 코드 블록에 있는 2차원 텍스트를 3차원의 정수 값으로 양자화한 후 슬라이딩 어텐션 윈도우 방식으로 넓은 범위의 문맥을 보면서 텍스트의 의미를 해석하고, 이에 가장 스코어 값이 높은 스타일 이미지를 탐색하고, 스타일 이미지가 적용된 애니메이션(동영상)을 생성할 수 있다.

스타일 이미지는 슬라이딩 어텐션 윈도우를 통해 높은 해상도로 업샘플링될 수 있다. 업샘플링된 스타일 이미지는 예를 들어, 8K(7680*2160) 이상으로 업샘플링된 이미지일 수 있고, 업샘플링된 스타일로 구성된 동영상은 예를 들어, 4K(3840*2160) 이상으로 생성된 동영상일 수 있다. 동영상은 텍스트에 포함된 문장과 일치되도록 생성될 수 있다.

이와 같이, 본 발명은 코드 블록에 있는 문장의 의미를 충분히 고려한 고해상도의 다양한 스타일 이미지로 구성된 동영상을 생성할 수 있다.

본 발명의 스타일 이미지는 사용자의 생각을 반영한다. 즉, 스타일 이미지는 사용자가 입력한 문장의 전후 문맥을 고려하여 다시 업데이트될 수 있다. 이를 통해, 보다 정확하고 다양한 스타일 이미지가 생성될 수 있다.

예를 들어, 도 2c를 참조하면, '연예계를 통해 활발하게 벌어지고 있는 부캐(Sub Charater) 문화에서 영감을 얻었습니다'를 포함하는 제 1 문장으로부터 스타일 이미지의 키워드로 '연예인', '부캐', '영감'가 추출되고, 추출된 키워드들에 대한 문맥에 기초하여 스타일 이미지가 업데이트될 수 있다. 이를 통해, 본 발명은 키워드 간의 문맥에 따라 변화되는 스타일 이미지가 반영된 동영상을 생성할 수 있다.

식별자(미도시)는 생성된 스타일 이미지가 원본 이미지와 얼마만큼의 유사성과 다양성이 있는지를 판별할 수 있다. 이 때, 식별자(미도시)는 스타일 이미지와 원본 이미지가 서로 유사하면 참(real(1))을 설정하고, 다르면 거짓(fake(0))을 설정할 수 있다.

도 3b는 Text-to-Image의 단계별 학습 분포를 나타낸 도면이다. 도 3b를 참조하면, 도 3b에서 x와 z는 도메인을 나타내며, 화살표가 x=G(z)의 맵핑을 보여주고, 검은 점선(Date Generating Distribution)은 Text-to-Image로 생성된 데이터이고, 파란 점선(Discriminator Distribution)은 텍스트의 키워드를 나타내고, 빨간 점선(Generative Distribution)은 컨텐츠 이미지를 나타내는 텍스트를 나타낸다. 처음 시작할 때는 (a)와 같이 텍스트와, 원본 이미지가 생성된 데이터와 전혀 다르게 생긴 것을 확인할 수 있고, 이 상태에서 텍스트와, 원본 이미지가 순환적인 학습(text-to image, image-text)를 통해 (b)와 같이 좀더 비슷해지고 이런 식으로 반복하다 보면, 결국 잘 구별할 수 없는 (d)와 같은 분포가 만들어진다. 즉, 식별자(미도시)가 둘을 전혀 구별하지 못하는 D(x)=1/2인 상태가 된다.

제공부(미도시)는 생성된 적어도 하나의 스타일 이미지를 사용자 단말에게 제공하고, 스타일 이미지로 구성된 동영상을 사용자 단말에게 제공할 수 있다.

사용자 단말로부터 스타일 이미지의 수정과 관련된 정보를 수신한 경우, 수정부(미도시)는 수정과 관련된 정보에 기초하여 스타일 이미지를 수정할 수 있다.

제공부(미도시)는 수정된 스타일 이미지를 사용자 단말에게 제공할 수 있다.

예를 들어, 도 3c를 참조하면, 사용자 단말은 스타일 이미지 생성 장치(10)가 운용하는 웹 사이트(어플리케이션)에 접속하여 좌측의 스타일 이미지(30)를 우측의 이미지(32)와 같이 보정할 수 있다. 이 때, 사용자 단말이 스타일 이미지 생성 장치(100로 텍스트 및 원본 이미지를 업로드하면, 스타일 이미지 생성 장치(10)는 입력된 텍스트 및 원본 이미지의 파인 튜닝 학습을 통해 스타일 이미지(30)의 생성을 위한 파라미터를 수정할 수 있다. 여기서, 파인 튜닝 학습은 예를 들어, 도 3d와 같이 사용자 단말에 의해 설정된 값들(파인 튜닝을 위한 파라미터)에 기초하여 스타일 이미지(30)의 생성 과정이 학습될 수 있다.

사용자는 파인 튜닝 학습을 위한 파라미터를 조정함으로써 사용자가 원하는 스타일 이미지를 스타일 이미지 생성 장치(10)로부터 제공받을 수 있다.

사용자 단말은 스타일 이미지(30)를 수정하기 위한 인터페이스(예컨대, 부위별 색을 선택하는 파레트 등의 도구모음)을 통해 스타일 이미지(30)의 색상을 보정할 수 있다.

사용자 단말이 스타일 이미지(30)에 합성할 추가 이미지를 스타일 이미지 생성 장치(10)에게 전송할 경우, 스타일 이미지 생성 장치(10)는 하모니제이션 기법을 통해 추가 이미지를 스타일 이미지(30)에 합성하여 사용자 단말에게 제공할 수 있다.

예를 들어, 스타일 이미지 생성 장치(10)는 인터페이스에 있는 다양한 옵션 조정을 통해 생성된 스타일 이미지(30)가 포함된 동영상을 보정할 수 있다. 예를 들어, 스타일 이미지 생성 장치(10)는 인터페이스를 통해 배경과 오브젝트 간 분리(Panoptic Segmentation) 기능을 제공하여 스타일 이미지에서 명암, 채도, 블러, 투명도, 색 혼합 등의 디테일한 변화가 가능하도록 할 수 있다.

예를 들어, 스타일 이미지 생성 장치(10)는 콜라주기법 조작 프레임워크를 제공할 수 있다. 여기서, 콜라주기법 조작 프레임워크는 도 3e와 같이 유저 조작으로 다양한 결과를 생성할 수 있는 객체 분할 정보에 콜라주 기법을 조작할 수 있는 기능을 제공한다.

콜라주기법 조작 프레임워크를 이용함으로써 세그먼테이션과 함께 GAN의 합성시 나타나는 블러링 현상을 개선할 수 있다.

한편, 당업자라면, 수신부(100), 처리부(110), 스타일 이미지 생성부(120) 및 동영상 생성부(130) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10: 스타일 이미지 생성 장치
100: 수신부
110: 처리부
120: 스타일 이미지 생성부
130: 동영상 생성부

Claims

스타일 이미지를 생성하는 장치에 있어서,
텍스트 및 원본 이미지를 입력하는 수신부;
상기 텍스트를 컨텐츠 이미지로 변환하고, 상기 컨텐츠 이미지를 임베딩처리하여 다운 샘플링하는 처리부; 및
상기 컨텐츠 이미지 및 상기 다운 샘플링된 이미지에 기초하여 적어도 하나의 스타일 이미지를 생성하는 스타일 이미지 생성부
를 포함하는 것인, 장치.
제 1 항에 있어서,
상기 스타일 이미지 생성부는 상기 컨텐츠 이미지 및 상기 다운 샘플링된 이미지 간의 교차 검증을 통해 상기 스타일 이미지를 생성하는 것인, 장치.
제 1 항에 있어서,
상기 처리부는 상기 컨텐츠 이미지를 코드 블록화하되,
상기 스타일 이미지 생성부는 상기 코드 블록화된 컨텐츠 이미지의 코드 블록을 구성하는 복수의 패치 및 상기 스타일 이미지 간 비교를 통해 스타일 정보를 검색하는 것인, 장치.
제 3 항에 있어서,
슬라이딩 어텐션 윈도우(Sliding Attention Window) 방식을 통해 상기 스타일 이미지를 업샘플링하여 동영상을 생성하는 동영상 생성부를 더 포함하는 것인, 장치.
제 1 항에 있어서,
상기 스타일 이미지 생성부는 상기 컨텐츠 이미지 및 상기 스타일 이미지 간의 거리를 조절하여 상기 스타일 이미지를 업데이트하는 것인, 장치.