KR20220120082A - Gan을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법 - Google Patents

Gan을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법 Download PDF

Info

Publication number
KR20220120082A
KR20220120082A KR1020210023751A KR20210023751A KR20220120082A KR 20220120082 A KR20220120082 A KR 20220120082A KR 1020210023751 A KR1020210023751 A KR 1020210023751A KR 20210023751 A KR20210023751 A KR 20210023751A KR 20220120082 A KR20220120082 A KR 20220120082A
Authority
KR
South Korea
Prior art keywords
image
layout
gan
text
emotion
Prior art date
Application number
KR1020210023751A
Other languages
English (en)
Inventor
왕덕원
최민기
김가을
Original Assignee
부산가톨릭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산가톨릭대학교 산학협력단 filed Critical 부산가톨릭대학교 산학협력단
Priority to KR1020210023751A priority Critical patent/KR20220120082A/ko
Publication of KR20220120082A publication Critical patent/KR20220120082A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템이 개시된다. 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템은, 이미지 데이터를 수집하고, 상기 이미지 데이터를 감정 텍스트에 근거하여 라벨링 한 뒤 데이터셋을 구축하는 데이터셋 서버; 사용자가 입력한 입력 텍스트로부터 상기 입력 텍스트의 감정에 대응되는 신규 이미지를 생성하고, 상기 입력 텍스트의 감정에 대응되는 제1레이아웃을 생성한 뒤 제1레이아웃 이미지를 추출하고 판별자를 학습시키며 이미지 시안을 생성하는 GAN서버; 사용자 단말에 설치된 애플리케이션을 통해 사용자의 요구사항을 상기 GAN 서버에 전달하고, 상기 이미지 시안을 상기 사용자 단말로 전송하는 서비스 제공부;를 포함한다. 본 발명에 의하면, GAN을 활용한 인공지능을 통해 사용자가 원하는 감정에 맞는 새로운 이미지 시안을 생성하는, GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템이 개시된다.

Description

GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법{SYSTEM AND METHOD FOR CREATING IMAGE DRAFT BASED ON A ARTIFICIAL INTELLIGENT USING GAN}
본 발명은 이미지 시안 생성 시스템 및 방법에 관한 것으로서, 보다 상세하게는, GAN을 활용한 인공지능을 통해 사용자가 원하는 감정에 맞는 새로운 이미지 시안을 생성하는, GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법에 관한 것이다.
감각적인 이미지 제작은 작가의 감정과 경험을 활용한 작가 고유의 영역이라고 볼 수 있다. 이 경우 작가의 노력과 경험을 요구하며 자신의 감정을 잘 파악해야 한다. 역량이 부족한 경우 단 번에 결과물이 도출되는 경우는 흔치 않으며 직접 수정하며 생각했던 결과와는 다르게 나오는 경우도 발생한다.
종래에 자신이 디자인 역량이 부족하다고 느끼는 사람들은 전문가들에게 의뢰하여 이미지를 제작하거나, 이미지 플랫폼 사이트에서 자신이 원하는 감정과 상황에 맞는 시안을 사용료를 내고 사용하는 것이 일반적이다.
전문가에게 이미지 제작 의뢰를 하는 경우, 원하는 시안이 아닌 경우 수정을 반복하며 비용이 증가할 수도 있으며 작가의 역량에 따라 시안의 품질이 떨어질 수도 있다. 이미지 플랫폼 사이트의 시안을 이용하는 경우에는 사용자들이 요구하는 시안이 바로 안 나오기에 시안을 확실히 정하는데 시간이 꽤 지연되고 직접 찾는 번거로움도 존재한다.
한편, 최근 인공지능을 접목하여 이미지를 생성하는 기술이 개시된 바 있다. 멀티 미디어 기술 및 컴퓨터 기술이 발전함에 따라 딥러닝 기법을 이용한 이미지 생성 기술이 개발되고 있으나, 학습 속도가 현저히 느리고 연산 복잡도가 높으며 생성된 이미지의 해상도가 낮다는 문제점이 있다.
대한민국 공개특허 제10-2020-0120970호(2020.10.23.공개) "Gan 기반 딥러닝 모델을 이용한 이미지 생성 방법 및 장치" 대한민국 공개특허 제10-2018-0004898호(2018.01.15.공개) "딥러닝 기반의 이미지 처리 기술 및 그 방법" 대한민국 공개특허 제10-2020-0144957호(2020.12.30.공개) "학습 기반의 문장 시각화 장치 및 방법" 대한민국 등록특허 제10-2081229호(2020.02.19.등록) "텍스트 입력에 따른 실시간 이미지 출력 장치 및 방법"
본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법은, GAN을 활용한 인공지능을 통해 사용자가 원하는 감정에 맞는 새로운 이미지 시안을 생성하는 것을 목적으로 한다.
본 발명의 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템은, 이미지 데이터를 수집하고, 상기 이미지 데이터를 감정 텍스트에 근거하여 라벨링 한 뒤 데이터셋을 구축하는 데이터셋 서버; 사용자가 입력한 입력 텍스트로부터 상기 입력 텍스트의 감정에 대응되는 신규 이미지를 생성하고, 상기 입력 텍스트의 감정에 대응되는 제1레이아웃을 생성한 뒤 제1레이아웃 이미지를 추출하고 판별자를 학습시키며 이미지 시안을 생성하는 GAN서버; 사용자 단말에 설치된 애플리케이션을 통해 사용자의 요구사항을 상기 GAN 서버에 전달하고, 상기 이미지 시안을 상기 사용자 단말로 전송하는 서비스 제공부;를 포함한다.
여기서, 상기 GAN서버는, 상기 감정 텍스트가 인코딩되어 생성된 텍스트 임베딩과 일치하는 이미지를 이용해 GAN학습하고, 상기 신규 이미지를 생성하는 신규 이미지 생성부;와, 상기 제1레이아웃을 생성한 뒤 상기 제1레이아웃 이미지를 추출하고 상기 판별자를 학습시키는 레이아웃 생성부;를 포함할 수 있다.
여기서, 상기 레이아웃 생성부는, 상기 서비스 제공부로부터 제1레이아웃의 배치 변경 신호를 수신하면, 상기 제1레이아웃이 변경되어 생성된 제2레이아웃에 대응되는 감정을 재분석하고, 상기 제2레이아웃에 대응되는 이미지인 제2레이아웃 이미지를 추출할 수 있다.
본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법은, 이미지 데이터를 수집하는 단계; 상기 이미지 데이터를 감정 텍스트에 근거하여 데이터 라벨링을 하고, 데이터셋을 구축하는 단계; 상기 감정 텍스트가 인코딩되어 생성된 텍스트 임베딩과 일치하는 이미지를 이용해 GAN학습하고, 사용자가 입력한 입력 텍스트로부터 상기 입력 텍스트의 감정에 대응되는 신규 이미지를 생성하는 단계; 상기 입력 텍스트로부터 상기 입력 텍스트의 감정에 대응되는 제1레이아웃을 생성하며, 상기 신규 이미지로부터 상기 제1레이아웃에 대응되는 이미지인 제1레이아웃 이미지를 추출하고 판별자가 학습하는 레이아웃 이미지 생성단계; 상기 레이아웃 이미지로부터 이미지 시안을 생성하는 단계;를 포함한다.
여기서, 상기 레이아웃 이미지 생성단계는, 상기 제1레이아웃의 배치 변경 신호를 수신하는 단계; 상기 제1레이아웃이 변경되어 생성된 제2레이아웃에 대응되는 감정을 분석하는 단계; 상기 제2레이아웃에 대응되는 이미지인 제2레이아웃 이미지를 추출하는 단계;를 더 포함할 수 있다.
본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.
본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법은, GAN을 활용한 인공지능을 통해 사용자가 원하는 감정에 맞는 새로운 이미지 시안을 생성할 수 있다.
또한, 감정에 기반한 신규 이미지를 생성한 후 오브젝트의 배치에 따라 변화되는 사용자의 감정을 예측할 수 있다.
또한, 생성된 이미지로부터 사용자에게 어떠한 감정이 전달될지 미리 예측하고 이미지를 제작할 수 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.
도 1은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템의 개략적인 장치도
도 2는 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법의 순서도
도 3은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 이미지 시안의 형태를 선택하는 화면
도 4는 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 템플릿 형태를 선택하는 화면
도 5는 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 사용자가 입력 텍스트를 입력하는 단계를 설명하는 화면
도 6은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 제1레이아웃이 생성되어 사용자에게 제공된 화면
도 7은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 사용자가 제2레이아웃을 생성한 화면
도 8은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 이미지 시안이 생성되어 사용자에게 제공된 화면이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예를 도면에 예시하고 이에 대해 상세한 설명에 상세하게 설명한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
설명에 앞서 상세한 설명에 기재된 용어에 대해 설명한다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
이하, 본 발명에 따른 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면 부호를 부여하고 이에 대해 중복되는 설명은 생략한다.
본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템은, GAN을 활용한 인공지능을 통해 사용자가 원하는 감정에 맞는 새로운 이미지 시안을 생성하는 시스템에 관한 것이다.
도 1은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템의 개략적인 장치도이며, 도 2는 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법의 순서도이다.
본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템(1000)은, 데이터셋 서버(100)와, GAN 서버(200) 및 서비스 제공부(300)를 포함한다.
데이터셋 서버(100)는 이미지 데이터를 수집하고, 상기 이미지 데이터를 감정 텍스트에 근거하여 라벨링 한 뒤 데이터셋을 구축하는 구성이다. 데이터셋 서버(100)는 데이터 수집부(110)와, 데이터 가공부(120)와 데이터셋 구축부(130)를 포함한다.
데이터 수집부(110)는 이미지 데이터를 수집하는데, 여기서 이미지 데이터는 일반 이미지, 시네마그래프, 포스터, 전단, 이벤트페이지, 홍보페이지, 썸네일(Thumbnail), 배너, 현수막 등의 이미지 데이터를 수집하는 단계이다. 시네마그래프는 사진과 동영상의 중간단계로 사진의 일부 영역이 동영상으로 끊임없이 재생되는 데이터를 의미한다. 즉, 이미지의 특정 부분만 움직이는 GIF 파일을 만드는 기술이다. 여기서 이미지 데이터를 수집하는 것은 사용자가 데이터 수집부(110)에 이미지 데이터를 입력하는 것을 포함한다.
데이터 가공부(120)는 데이터 수집부(110)가 수집한 이미지 데이터를 감정 텍스트에 근거하여 데이터 라벨링을 한다.
여기서 감정 텍스트는 러셀(Russell)의 감정원형모델(Circumplex Model)에 기초한 28가지의 감정 형용사와, 6개의 환기성 척도로 구성된다. 환기성 척도란 어떤 대상에 대한 시각적, 청각적, 미각적, 후각적, 촉각적 경험과 같은 오감 경험이 사용자의 심상에 얼마나 영향을 미치는지 측정한 정도를 말한다.
데이터 라벨링은 이미지 데이터를 인공지능(AI)이 인식할 수 있도록 데이터 라벨러를 통해 이미지 데이터를 정제, 가공하는 것이다. 즉, 이미지 데이터가 감정 텍스트로 라벨링된다.
데이터셋 구축부(130)는 라벨링된 데이터를 대상으로 데이터 셋을 구축한다. 데이터 셋은 클라우드 기반 서버에 전송될 수 있다.
GAN 서버(200)는 GAN을 활용하여 사용자에게 제공될 이미지 시안을 생성하는 구성이다.
GAN 서버(200)는 신규 이미지 생성부(210)와 레이아웃 생성부(220)를 포함한다.
여기서 GAN(Generative Adversarial Network, 적대적 생성 신경망)이란 이미지를 생성하는 생성자(Generator)와 생성자가 만든 이미지의 진위여부를 판별하는 판별자(Discriminator)를 두고 비지도학습 방법인 적대적 학습법(adversarial training)을 진행하여 생성자가 만든 이미지가 판별자의 판별 정확도를 절반가량으로 낮춰 생성자가 실제 이미지와 구분이 어려운 이미지를 만들어내도록 하는 알고리즘이다.
GAN은 한 개의 인공 신경망을 학습시켜서 활용하는 기존의 방법과는 다르게 두 개의 인공 신경망을 활용한다. 하나는 이미지를 생성하는 생성(Generative) 신경망, 다른 하나는 생성 신경망이 만든 이미지를 진짜인지, 가짜인지 판별하는 판별(Discriminative) 신경망이다. 생성 신경망은 판별 신경망이 자신이 만든 이미지를 진짜 이미지로 판별하도록 학습되어야 하고, 판별 신경망은 생성 신경망이 만든 이미지가 입력으로 들어오면 가짜라고 판별하고 실제 이미지가 입력으로 들어오면 진짜라고 판별하도록 학습되어야 한다. 따라서 이 두 개의 신경망은 서로 적대적인 관계에 있으므로 이를 학습시키는 방법을 이른바 adversarial training이라고 한다.
학습의 방향은 생성 신경망과 판별 신경망이 서로 반대가 된다. 생성 신경망은 자신이 만든 최종 결과가 판별 신경망이 진짜 이미지라고 판별하도록 학습 방향이 진행되고, 판별 신경망은 반대로 생성 신경망이 만든 결과가 가짜 이미지라고 판별하도록 학습 방향이 진행되게 된다. 이러한 adversarial training이 충분히 진행되면 최종적으로는, 판별 신경망이 생성 신경망이 만든 이미지가 진짜인지 가짜인지를 알아맞히게 되는 확률이 약 50%가 되고, 따라서 생성 신경망이 만든 이미지는 진짜와 거의 구분되지 않는 이미지가 된다.
신규 이미지 생성부(210)는 감정 텍스트를 인코딩하여 텍스트 임베딩을 생성하고, 생성된 텍스트 임베딩과 일치하는 이미지를 이용하여 GAN 학습한다. 인코더에 의해 감정 텍스트가 인코딩되어 텍스트 임베딩이 생성된다. 신규 이미지 생성부(210)는 생성된 텍스트 임베딩과 유사한 이미지를 통해 판별자를 학습시킨다.
도 3은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 이미지 시안의 형태를 선택하는 화면이며, 도 4는 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 템플릿 형태를 선택하는 화면이며, 도 5는 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 사용자가 입력 텍스트를 입력하는 단계를 설명하는 화면이다.
한편, 신규 이미지 생성부(210)는 사용자가 선택한 이미지 시안의 형태와, 이미지 시안의 템플릿 형태 및 사용자가 입력한 입력 텍스트로부터 신규 이미지를 생성한다. 사용자는 사용자 단말의 어플리케이션 등을 통해 입력 텍스트를 입력한다. 여기서 입력 텍스트는 감정 텍스트와 동일하다. 즉, 감정 텍스트 중 일부를 사용자가 선택하여 입력한다. 다시 말해, 사용자는 생성하고자 하는 이미지 시안이 갖고자하는 하나 이상의 감정을 선택하여 입력하는데, 이 입력되는 텍스트가 입력 텍스트이며, 입력 텍스트는 감정 텍스트 중에서 선택된 것이다.
사용자가 입력한 입력 텍스트는 서비스 제공부(300)에 의해 신규 이미지 생성부(210)로 전송된다.
신규 이미지 생성부(210)는 데이터셋 구축부(130)에서 생성된 데이터셋을 활용하여, 입력 텍스트로부터 입력 텍스트가 갖는 감정에 대응되는 신규 이미지를 생성한다. 이 때 입력 텍스트가 갖는 감정과 대응되는 이미지를 스스로 학습하여 생성한다.
신규 이미지 생성부(210)의 이미지 생성 알고리즘은 Stack-GAN알고리즘일 수 있다.
도 6은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 제1레이아웃이 생성되어 사용자에게 제공된 화면이며, 도 7은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 사용자가 제2레이아웃을 생성한 화면이며, 도 8은 본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법을 실행하는 어플리케이션에서 이미지 시안이 생성되어 사용자에게 제공된 화면이다.
레이아웃 생성부(220)는, 입력 텍스트로부터 입력 텍스트의 감정에 대응되는 제1레이아웃을 생성하고 제1레이아웃 이미지를 생성한다.
먼저, 레이아웃 생성부(220)는, 사용자가 입력한 입력 텍스트가 갖는 감정에 대응되는 제1레이아웃을 생성한다. 즉, 해당 감정을 느낄 수 있는 제1레이아웃을 스스로 학습하여 생성한다. 제1레이아웃은 서비스 제공부(300)에 의해 사용자 단말을 통해 사용자에게 제시된다.
이 후, 신규 이미지로부터 제1레이아웃에 대응되는 이미지인 제1레이아웃 이미지를 추출한다. 구체적으로, 신규 이미지에서 특정 부분들을 제1레이아웃 형태로 추출한 뒤 특정 단어로 라벨링하여 개별 학습하고, 다시 제1레이아웃 형태에 학습된 이미지들을 선별하여 새로운 이미지들을 생성해낸다.
레이아웃 생성부(220)는 제1레이아웃을 생성하는데, 이는 이미지 내의 오브젝트의 위치만 명시하고 오브젝트의 형태에 대한 정보는 제공하지 않는다. 즉, 레이아웃 생성부(220)는 제1레이아웃을 이용해 이미지를 만들어내는 동시에 오브젝트의 형태도 예측하여 제1레이아웃 이미지를 생성한다.
한편, 만일 사용자가 사용자 단말을 통해 레이아웃들의 배치를 변경하는 경우, 해당 신호는 서비스 제공부(300)에 의해 사용자 단말로부터 레이아웃 생성부(220)로 전송된다. 제1레이아웃은 이미지 내에 포함되는 복수 개의 오브젝트의 배치(위치)가 정의된 것인데, 사용자가 원하는 바에 따라 배치를 변경할 수 있다. 사용자가 제1레이아웃의 배치를 변경하면 해당 신호가 레이아웃 생성부(220)로 전송된다.
레이아웃 생성부(220)는 배치 변경 신호를 수신하면, 사용자가 제1레이아웃의 배치를 변경하여 생성된 제2레이아웃에 대응되는 감정을 재분석한다. 상술한 바와 같이, 제1레이아웃은 입력 텍스트가 갖는 감정에 대응되어 생성된 것이므로, 제1레이아웃이 변경된 제2레이아웃은 입력 텍스트와는 다른 감정을 갖게 된다. 이에 레이아웃 생성부(220)는 제2레이아웃에 대응되는 감정을 재분석한 뒤 서비스 제공부(300)를 통해 사용자에게 전송하고, 사용자가 최종적으로 레이아웃을 결정한다.
사용자가 최종적으로 레이아웃을 결정하면, 레이아웃 생성부(220)는 신규 이미지로부터 다시 제2레이아웃을 이용해 이미지를 만들어 내는 동시에 형태도 예측하여 제2레이아웃 이미지를 생성한다.
여기서 레이아웃 생성부(220)의 레이아웃 생성 알고리즘은 Lost-GAN알고리즘일 수 있다.
한편, GAN 서버(200)는 판별자 분류부와 판별자 DB를 더 포함할 수 있다. 판별자 분류부는 신규 이미지 생성부(210)에서 학습된 판별자를 감정 텍스트를 기반으로 분류하는 구성이며, 판별자 DB는 판별자 분류부에서 분류된 판별자에 쉽게 접근할 수 있도록 저장되는 데이터베이스이다. 판별자 DB는 클라우드 데이터베이스일 수 있다.
이 후 GAN 서버(200)는 최종적으로 이미지 시안을 생성한다. 즉, 이미지 시안은, 사용자가 제1레이아웃의 배치를 변경하는 경우에는 제2레이아웃 이미지의 조합이 이미지 시안이 되며, 제1레이아웃의 배치를 변경하지 않는 경우에는 제1레이아웃 이미지의 조합이 이미지 시안이 된다.
서비스 제공부(300)는 상설한 바와 같이, 사용자 단말에 설치된 애플리케이션을 통해 사용자의 요구사항을 상기 GAN 서버(200)에 전달하고, 상기 이미지 시안을 상기 사용자 단말로 전송하는 구성이다.
서비스 제공부(300)는 앱 등록과 앱 정보, 회원정보를 관리할 수 있다.
서비스 제공부(300)는 서비스 이용자가 직접적으로 서비스를 제공받을 애플리케이션부와, 애플리케이션에 대한 서비스 이용자의 인적사항 데이터를 클라우드 DB에 저장하는 애플리케이션DB와, 애플리케이션DB와 연계하여 서비스 이용자에게 제공할 서비스의 범위를 설정하고, 서비스 이용자가 특정 감정 텍스트와 관련된 시안을 요청 시 GAN 서버(200)와 연계하여 판별자 DB에서 상기 특정 감정형용사와 관련된 판별자를 이용하여 이미지, 템플릿, 각종 디자인 시안을 생성해 서비스 이용자에게 제공해주는 제어서버를 포함한다.
본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법은, GAN을 활용한 인공지능을 통해 사용자가 원하는 감정에 맞는 새로운 이미지 시안을 생성하는 방법에 관한 것이다.
본 발명의 일 실시예에 따른 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법(S1000)은, 이미지 데이터 수집단계(S100)와, 데이터셋 구축단계(S200)와, 신규 이미지 생성단계(S300)와, 레이아웃 이미지 생성단계(S400) 및 이미지 시안 생성단계(S500)를 포함한다.
이미지 데이터 수집단계(S100)는, 데이터셋 서버(100)가 이미지 데이터를 수집하는 단계이다. 여기서 이미지 데이터는 일반 이미지, 시네마그래프, 포스터, 전단, 이벤트페이지, 홍보페이지, 썸네일(Thumbnail), 배너, 현수막 등의 이미지 데이터를 수집하는 단계이다. 시네마그래프는 사진과 동영상의 중간단계로 사진의 일부 영역이 동영상으로 끊임없이 재생되는 데이터를 의미한다. 즉, 이미지의 특정 부분만 움직이는 GIF 파일을 만드는 기술이다.
데이터셋 구축단계(S200)는, 데이터셋 서버(100)가 이미지 데이터 수집단계(S100)에서 수집된 이미지 데이터를 감정 텍스트에 근거하여 데이터 라벨링을 하여 데이터 셋을 구축하는 단계이다.
여기서 감정 텍스트는 러셀(Russell)의 감정원형모델(Circumplex Model)에 기초한 28가지의 감정 형용사와, 6개의 환기성 척도로 구성된다. 여기서 환기성이란 어떤 대상에 대한 시각적, 청각적, 미각적, 후각적, 촉각적 경험과 같은 오감 경험이 사용자의 심상에 얼마나 영향을 미치는지 측정한 정도를 말한다.
이미지 데이터 수집단계(S100)에서 수집된 이미지 데이터는 인공지능(AI)이 인식할 수 있도록 데이터 라벨러를 통해 이미지 데이터가 정제, 가공된다. 즉, 이미지 데이터가 감정 텍스트로 라벨링된다.
신규 이미지 생성단계(S300)는 사용자가 입력한 입력 텍스트에 대응되는 신규 이미지를 생성하는 단계이다.
GAN 서버(200)는 GAN을 활용하여 이미지를 생성한다.
여기서 GAN(Generative Adversarial Network, 적대적 생성 신경망)이란 이미지를 생성하는 생성자(Generator)와 생성자가 만든 이미지의 진위여부를 판별하는 판별자(Discriminator)를 두고 비지도학습 방법인 적대적 학습법(adversarial training)을 진행하여 생성자가 만든 이미지가 판별자의 판별 정확도를 절반가량으로 낮춰 생성자가 실제 이미지와 구분이 어려운 이미지를 만들어내도록 하는 알고리즘이다.
GAN은 한 개의 인공 신경망을 학습시켜서 활용하는 기존의 방법과는 다르게 두 개의 인공 신경망을 활용한다. 하나는 이미지를 생성하는 생성(Generative) 신경망, 다른 하나는 생성 신경망이 만든 이미지를 진짜인지, 가짜인지 판별하는 판별(Discriminative) 신경망이다. 생성 신경망은 판별 신경망이 자신이 만든 이미지를 진짜 이미지로 판별하도록 학습되어야 하고, 판별 신경망은 생성 신경망이 만든 이미지가 입력으로 들어오면 가짜라고 판별하고 실제 이미지가 입력으로 들어오면 진짜라고 판별하도록 학습되어야 한다. 따라서 이 두 개의 신경망은 서로 적대적인 관계에 있으므로 이를 학습시키는 방법을 이른바 adversarial training이라고 한다.
학습의 방향은 생성 신경망과 판별 신경망이 서로 반대가 된다. 생성 신경망은 자신이 만든 최종 결과가 판별 신경망이 진짜 이미지라고 판별하도록 학습 방향이 진행되고, 판별 신경망은 반대로 생성 신경망이 만든 결과가 가짜 이미지라고 판별하도록 학습 방향이 진행되게 된다. 이러한 adversarial training이 충분히 진행되면 최종적으로는, 판별 신경망이 생성 신경망이 만든 이미지가 진짜인지 가짜인지를 알아맞히게 되는 확률이 약 50%가 되고, 따라서 생성 신경망이 만든 이미지는 진짜와 거의 구분되지 않는 이미지가 된다.
신규 이미지 생성단계(S300)는 GAN 학습단계와, 이미지 생성단계를 포함한다.
GAN 학습단계는, 감정 텍스트가 인코딩되어 텍스트 임베딩이 생성되고, 생성된 텍스트 임베딩과 일치하는 이미지를 이용하여 GAN 학습하는 단계이다.
감정 텍스트는 인코더에 의해 인코딩되어 텍스트 임베딩이 생성된다. 생성된 텍스트 임베딩과 유사한 이미지를 통해 판별자를 학습시킨다.
이미지 생성단계는 사용자가 입력한 입력 텍스트로부터 신규 이미지를 생성하는 단계이다. 사용자는 사용자 단말의 어플리케이션 등을 통해 입력 텍스트를 입력한다. 여기서 입력 텍스트는 감정 텍스트와 동일하다. 즉, 감정 텍스트 중 일부를 사용자가 선택하여 입력한다. 다시 말해, 사용자는 생성하고자 하는 이미지 시안이 갖고자하는 감정들을 선택하여 입력하는데, 이 입력되는 텍스트가 입력 텍스트이며, 입력 텍스트는 감정 텍스트 중에서 선택된 것이다.
신규 이미지 생성부(210)는 데이터셋 구축부(130)에서 생성된 데이터셋을 활용하여 입력 텍스트로부터 입력 텍스트가 갖는 감정에 대응되는 신규 이미지를 생성한다. 신규 이미지 생성부(210)는 입력 텍스트가 갖는 감정과 대응되는 이미지를 스스로 학습하여 생성한다.
신규 이미지 생성부(210)의 이미지 생성 알고리즘은 Stack-GAN알고리즘일 수 있다.
레이아웃 이미지 생성단계(S400)는, 입력 텍스트로부터 입력 텍스트의 감정에 대응되는 제1레이아웃을 생성하고 제1레이아웃 이미지를 생성하는 단계이다. 본 실시예는 이미지 생성단계에서 생성된 이미지를 그대로 사용하지 않는다.
레이아웃 이미지 생성단계(S400)는, 제1레이아웃 생성단계와, 제1레이아웃 이미지 생성단계와, 변경 신호 수신단계와, 감정 재분석 단계 및 제2레이아웃 이미지 생성단계를 포함한다.
제1레이아웃 이미지 생성단계는, 레이아웃 생성부(220)가 사용자가 입력한 입력 텍스트가 갖는 감정에 대응되는 제1레이아웃을 생성한다. 즉, 해당 감정을 느낄 수 있는 제1레이아웃을 스스로 학습하여 생성한다. 제1레이아웃은 사용자 단말을 통해 사용자에게 제시된다.
이 후, 이미지 생성단계에서 생성된 신규 이미지로부터 제1레이아웃에 대응되는 이미지인 제1레이아웃 이미지를 추출한다. 구체적으로, 신규 이미지에서 특정 부분들을 제1레이아웃 형태로 추출한 뒤 특정 단어로 라벨링하여 개별 학습하고, 다시 제1레이아웃 형태에 학습된 이미지들을 선별하여 새로운 이미지들을 생성해낸다.
레이아웃 생성부(220)는 제1레이아웃을 생성하는데, 이는 이미지 내의 오브젝트의 위치만 명시하고 오브젝트의 형태에 대한 정보는 제공하지 않는다. 즉, 레이아웃 생성부(220)는 제1레이아웃을 이용해 이미지를 만들어내는 동시에 오브젝트의 형태도 예측하여 제1레이아웃 이미지를 생성한다.
변경 신호 수신단계는 사용자가 사용자 단말을 통해 레이아웃들의 배치를 변경하는 경우 이에 대한 신호를 수신하는 단계이다. 즉, 제1레이아웃은 이미지 내에 포함되는 복수 개의 오브젝트의 배치(위치)가 정의된 것인데, 사용자가 원하는 바에 따라 배치를 변경할 수 있다. 사용자가 제1레이아웃의 배치를 변경하면 해당 신호가 레이아웃 생성부(220)로 전송된다.
감정 재분석 단계는 레이아웃 생성부(220)가 사용자가 제1레이아웃의 배치를 변경하여 생성된 제2레이아웃에 대응되는 감정을 재분석하는 단계이다. 상술한 바와 같이, 제1레이아웃은 입력 텍스트가 갖는 감정에 대응되어 생성된 것이므로, 제1레이아웃이 변경된 제2레이아웃은 입력 텍스트와는 다른 감정을 갖게 된다.
이에 레이아웃 생성부(220)는 제2레이아웃에 대응되는 감정을 재분석한 뒤 사용자에게 전송하고, 사용자가 최종적으로 레이아웃을 결정한다.
제2레이아웃 이미지 추출단계에서 신규 이미지로부터 다시 제2레이아웃을 이용해 이미지를 만들어 내는 동시에 형태도 예측하여 제2레이아웃 이미지를 생성한다.
이미지 시안 생성단계(S500)는 최종적으로 이미지 시안을 생성하는 단계이다. 즉, 이미지 시안은, 사용자가 제1레이아웃의 배치를 변경하는 경우에는 제2레이아웃 이미지의 조합이 이미지 시안이 되며, 제1레이아웃의 배치를 변경하지 않는 경우에는 제1레이아웃 이미지의 조합이 이미지 시안이 된다.
따라서 본 발명에 의하면 GAN을 활용한 인공지능을 통해 사용자가 원하는 감정에 맞는 새로운 이미지 시안을 생성하는, GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법이 제공된다.
본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다.
본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위 뿐만 아니라, 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
1000 : GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템
100 : 데이터셋 서버 110 : 데이터 수집부
120 : 데이터 가공부 130 : 데이터셋 구축부
200 : GAN서버 210 : 신규 이미지 생성부
220 : 레이아웃 생성부 300 : 서비스 제공부
S1000 : GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법
S100 : 이미지 데이터 수집단계 S200 : 데이터셋 구축단계
S300 : 신규 이미지 생성단계 S400 : 레이아웃 이미지 생성단계
S500 : 이미지 시안단계

Claims (5)

  1. 이미지 데이터를 수집하고, 상기 이미지 데이터를 감정 텍스트에 근거하여 라벨링 한 뒤 데이터셋을 구축하는 데이터셋 서버;
    사용자가 입력한 입력 텍스트로부터 상기 입력 텍스트의 감정에 대응되는 신규 이미지를 생성하고, 상기 입력 텍스트의 감정에 대응되는 제1레이아웃을 생성한 뒤 제1레이아웃 이미지를 추출하고 판별자를 학습시키며 이미지 시안을 생성하는 GAN서버;
    사용자 단말에 설치된 애플리케이션을 통해 사용자의 요구사항을 상기 GAN 서버에 전달하고, 상기 이미지 시안을 상기 사용자 단말로 전송하는 서비스 제공부;
    를 포함하는 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템.
  2. 제1항에 있어서,
    상기 GAN서버는,
    상기 감정 텍스트가 인코딩되어 생성된 텍스트 임베딩과 일치하는 이미지를 이용해 GAN학습하고, 상기 신규 이미지를 생성하는 신규 이미지 생성부;와,
    상기 제1레이아웃을 생성한 뒤 상기 제1레이아웃 이미지를 추출하고 상기 판별자를 학습시키는 레이아웃 생성부;
    를 포함하는 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템.
  3. 제2항에 있어서,
    상기 레이아웃 생성부는,
    상기 서비스 제공부로부터 제1레이아웃의 배치 변경 신호를 수신하면, 상기 제1레이아웃이 변경되어 생성된 제2레이아웃에 대응되는 감정을 재분석하고, 상기 제2레이아웃에 대응되는 이미지인 제2레이아웃 이미지를 추출하는 GAN을 활용한 인공지능 기반의 이미지 시안 생성 시스템.
  4. 이미지 데이터를 수집하는 단계;
    상기 이미지 데이터를 감정 텍스트에 근거하여 데이터 라벨링을 하고, 데이터셋을 구축하는 단계;
    상기 감정 텍스트가 인코딩되어 생성된 텍스트 임베딩과 일치하는 이미지를 이용해 GAN학습하고, 사용자가 입력한 입력 텍스트로부터 상기 입력 텍스트의 감정에 대응되는 신규 이미지를 생성하는 단계;
    상기 입력 텍스트로부터 상기 입력 텍스트의 감정에 대응되는 제1레이아웃을 생성하며, 상기 신규 이미지로부터 상기 제1레이아웃에 대응되는 이미지인 제1레이아웃 이미지를 추출하고 판별자가 학습하는 레이아웃 이미지 생성단계;
    상기 레이아웃 이미지로부터 이미지 시안을 생성하는 단계;
    를 포함하는 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법.
  5. 제1항에 있어서,
    상기 레이아웃 이미지 생성단계는,
    상기 제1레이아웃의 배치 변경 신호를 수신하는 단계;
    상기 제1레이아웃이 변경되어 생성된 제2레이아웃에 대응되는 감정을 분석하는 단계;
    상기 제2레이아웃에 대응되는 이미지인 제2레이아웃 이미지를 추출하는 단계;
    를 더 포함하는 GAN을 활용한 인공지능 기반의 이미지 시안 생성 방법.


KR1020210023751A 2021-02-23 2021-02-23 Gan을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법 KR20220120082A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210023751A KR20220120082A (ko) 2021-02-23 2021-02-23 Gan을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210023751A KR20220120082A (ko) 2021-02-23 2021-02-23 Gan을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20220120082A true KR20220120082A (ko) 2022-08-30

Family

ID=83114244

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210023751A KR20220120082A (ko) 2021-02-23 2021-02-23 Gan을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20220120082A (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180004898A (ko) 2016-07-05 2018-01-15 주식회사 와플앱스 딥러닝 기반의 이미지 처리 기술 및 그 방법
KR102081229B1 (ko) 2013-06-24 2020-02-26 한국전자통신연구원 텍스트 입력에 따른 실시간 이미지 출력 장치 및 방법
KR20200120970A (ko) 2019-04-03 2020-10-23 조선대학교산학협력단 Gan 기반 딥러닝 모델을 이용한 이미지 생성 방법 및 장치
KR20200144957A (ko) 2019-06-20 2020-12-30 민 정 고 학습 기반의 문장 시각화 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102081229B1 (ko) 2013-06-24 2020-02-26 한국전자통신연구원 텍스트 입력에 따른 실시간 이미지 출력 장치 및 방법
KR20180004898A (ko) 2016-07-05 2018-01-15 주식회사 와플앱스 딥러닝 기반의 이미지 처리 기술 및 그 방법
KR20200120970A (ko) 2019-04-03 2020-10-23 조선대학교산학협력단 Gan 기반 딥러닝 모델을 이용한 이미지 생성 방법 및 장치
KR20200144957A (ko) 2019-06-20 2020-12-30 민 정 고 학습 기반의 문장 시각화 장치 및 방법

Similar Documents

Publication Publication Date Title
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN108351871B (zh) 通用翻译
CN106973244A (zh) 使用弱监督为图像配字幕
US20110282646A1 (en) Translating paralinguistic indicators
CN112307773B (zh) 机器阅读理解系统的自定义问题数据自动生成方法
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
Shen et al. A joint model for multimodal document quality assessment
CN114416995A (zh) 信息推荐方法、装置及设备
Götzelmann et al. Blindweb maps–an interactive web service for the selection and generation of personalized audio-tactile maps
CN113158674A (zh) 一种人工智能领域文档关键信息抽取方法
Guo et al. Steganographic visual story with mutual-perceived joint attention
Ouali et al. An augmented reality for an arabic text reading and visualization assistant for the visually impaired
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
Kawabe et al. Application of deep learning to classification of braille dot for restoration of old braille books
CN113569068B (zh) 描述内容生成方法、视觉内容的编码、解码方法、装置
CN112632950A (zh) Ppt生成方法、装置、设备及计算机可读存储介质
CN117171303A (zh) 一种基于自适应注意力融合的联合多模态方面级情感分析方法
KR20220120082A (ko) Gan을 활용한 인공지능 기반의 이미지 시안 생성 시스템 및 방법
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
Clayton et al. Hindustani raga and singer classification using 2D and 3D pose estimation from video recordings
Ding et al. AI and global AAC symbol communication
Lizarralde et al. Authorless AI-Assisted Productions: Recent Developments Impacting Their Protection in the European Union
US20240086452A1 (en) Tracking concepts within content in content management systems and adaptive learning systems
CN116894089B (zh) 摘要生成方法、装置、设备、存储介质及产品
Ding A Systematic Literature Review on Image Captioning

Legal Events

Date Code Title Description
E601 Decision to refuse application