KR102490503B1 - 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치 및 방법 - Google Patents

순환형 적대적 생성 신경망을 이용한 이미지 처리 장치 및 방법 Download PDF

Info

Publication number
KR102490503B1
KR102490503B1 KR1020220085648A KR20220085648A KR102490503B1 KR 102490503 B1 KR102490503 B1 KR 102490503B1 KR 1020220085648 A KR1020220085648 A KR 1020220085648A KR 20220085648 A KR20220085648 A KR 20220085648A KR 102490503 B1 KR102490503 B1 KR 102490503B1
Authority
KR
South Korea
Prior art keywords
discriminator
loss
generator
style
target image
Prior art date
Application number
KR1020220085648A
Other languages
English (en)
Inventor
정진훈
Original Assignee
프로메디우스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프로메디우스 주식회사 filed Critical 프로메디우스 주식회사
Priority to KR1020220085648A priority Critical patent/KR102490503B1/ko
Application granted granted Critical
Publication of KR102490503B1 publication Critical patent/KR102490503B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

일 실시예에 따른 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치는, 순환형 적대적 생성 신경망에 제 1 스타일을 갖는 제 1 입력 이미지를 입력하여, 상기 순환형 적대적 생성 신경망의 출력으로서 제 2 스타일을 갖도록 변환된 제 1 목표 이미지를 출력하되 상기 제 1 목표 이미지가 제 1 스타일을 갖도록 복구 가능한 만큼만 변환하는 제 1 생성자와, 상기 제 1 생성자에 의해 변환된 제 1 목표 이미지를 제 2 입력 이미지로서 상기 순환형 적대적 생성 신경망에 입력하여, 상기 순환형 적대적 생성 신경망의 출력으로서 제 1 스타일을 갖도록 변환된 제 2 목표 이미지를 출력해 상기 제 1 입력 이미지로서 상기 제 1 생성기에 제공하되 상기 제 2 목표 이미지가 제 2 스타일을 갖도록 복구 가능한 만큼만 변환하는 제 2 생성자와, 상기 제 1 생성자가 출력하는 제 1 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별하는 제 1 판별자와, 상기 제 1 생성자의 손실 및 상기 제 1 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 1 판별자를 증강시키는 제 1 능동적 판별자 증강기와, 상기 제 2 생성자가 출력하는 제 2 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별하는 제 2 판별자와, 상기 제 2 생성자의 손실 및 상기 제 2 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 2 판별자를 증강시키는 제 2 능동적 판별자 증강기를 포함한다.

Description

순환형 적대적 생성 신경망을 이용한 이미지 처리 장치 및 방법{METHOD AND APPARATUS FOR PROCESSING IMAGE USING CYCLE GENERATIVE ADVERSARIAL NETWORK}
본 발명은 순환형 적대적 생성 신경망을 이용하여 이미지를 처리하는 장치와 그 방법에 관한 것이다.
최근 인공지능 기술의 발달은 이미지 스타일을 전이하는 작업에도 쓰이고 있다. 스타일을 전이하는 것은 각 이미지의 주된 형태는 유지하면서 스타일만 다르게 변환하는 것이다. 예를 들어, 얼룩말을 갈색말로 바꾸거나 평범한 사진을 화가가 그린 것처럼 변형하는 것 등이 있다.
이러한 이미지 스타일 전이 작업에는 적대적 생성 신경망(GAN, generative adversarial networks) 구조를 활용한 알고리즘을 이용하기로 한다. 이러한 적대적 생성 신경망 구조를 활용한 이미지 스타일 전이 작업은 생성자(generator)와 판별자(discriminator)가 동시에 적대적인 과정으로 학습한다. 생성자는 판별자에 의한 판별이 어려워 지도록 학습하고, 판별자는 생성자에 의해 생성된 이미지를 제대로 구분하도록 학습한다.
그러나, 적대적 생성 신경망 구조를 활용한 이미지 스타일 전이 작업은 훈련 데이터의 량이 충분하지 않을 경우에 특정 모델에 대해서만 많이 학습되어 학습되지 않은 데이터에 대해서는 분석 정확도가 현저히 떨어지는 과적합(overfitting)의 문제가 있었다.
한국공개특허 제10-2021-0088656호, 공개일자 2021년 7월 14일.
실시예에 따르면, 능동적 판별자 증강을 통해 순환형 적대적 생성 신경망의 판별자가 지나치게 빠르게 학습되지 않도록 하여 과적합을 막아 줌으로써 적은 훈련 데이터로도 이미지 스타일 전이 작업의 성능이 향상되도록 한 이미지 처리 장치 및 그 방법을 제공한다.
본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
제 1 관점에 따른 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치는, 순환형 적대적 생성 신경망에 제 1 스타일을 갖는 제 1 입력 이미지를 입력하여, 상기 순환형 적대적 생성 신경망의 출력으로서 제 2 스타일을 갖도록 변환된 제 1 목표 이미지를 출력하되 상기 제 1 목표 이미지가 제 1 스타일을 갖도록 복구 가능한 만큼만 변환하는 제 1 생성자와, 상기 제 1 생성자에 의해 변환된 제 1 목표 이미지를 제 2 입력 이미지로서 상기 순환형 적대적 생성 신경망에 입력하여, 상기 순환형 적대적 생성 신경망의 출력으로서 제 1 스타일을 갖도록 변환된 제 2 목표 이미지를 출력해 상기 제 1 입력 이미지로서 상기 제 1 생성기에 제공하되 상기 제 2 목표 이미지가 제 2 스타일을 갖도록 복구 가능한 만큼만 변환하는 제 2 생성자와, 상기 제 1 생성자가 출력하는 제 1 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별하는 제 1 판별자와, 상기 제 1 생성자의 손실 및 상기 제 1 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 1 판별자를 증강시키는 제 1 능동적 판별자 증강기와, 상기 제 2 생성자가 출력하는 제 2 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별하는 제 2 판별자와, 상기 제 2 생성자의 손실 및 상기 제 2 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 2 판별자를 증강시키는 제 2 능동적 판별자 증강기를 포함한다.
제 2 관점에 따른 이미지 처리 장치가 수행하는 이미지 처리 방법은, 순환형 적대적 생성 신경망의 제 1 생성자에 제 1 스타일을 갖는 제 1 입력 이미지를 입력하여, 상기 제 1 생성자의 출력으로서 제 2 스타일을 갖도록 변환된 제 1 목표 이미지를 출력하되 상기 제 1 목표 이미지가 제 1 스타일을 갖도록 복구 가능한 만큼만 변환하는 단계와, 상기 제 1 생성자에 의해 변환된 제 1 목표 이미지를 제 2 입력 이미지로서 상기 순환형 적대적 생성 신경망의 제 2 생성자에 입력하여, 상기 제 2 생성자의 출력으로서 제 1 스타일을 갖도록 변환된 제 2 목표 이미지를 출력해 상기 제 1 입력 이미지로서 상기 제 1 생성기에 제공하되 상기 제 2 목표 이미지가 제 2 타일을 갖도록 복구 가능한 만큼만 변환하는 단계와, 상기 제 1 생성자가 출력하는 제 1 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별하는 단계와, 상기 제 1 생성자의 손실 및 상기 제 1 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 1 판별자를 증강시키는 단계와, 상기 제 2 생성자가 출력하는 제 2 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별하는 단계와, 상기 제 2 생성자의 손실 및 상기 제 2 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 2 판별자를 증강시키는 단계를 포함한다.
제 3 관점에 따라 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램은, 상기 컴퓨터 프로그램이, 프로세서에 의해 실행되면, 상기 이미지 처리 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함한다.
제 4 관점에 따라 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체는, 상기 컴퓨터 프로그램이, 프로세서에 의해 실행되면, 상기 이미지 처리 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함한다.
일 실시예에 따르면, 능동적 판별자 증강을 통해 순환형 적대적 생성 신경망의 판별자가 지나치게 빠르게 학습되지 않도록 하여 과적합을 막아 줌으로써 적은 훈련 데이터로도 이미지 스타일 전이 작업의 성능이 향상되도록 한다.
도 1은 본 발명의 일 실시예에 따른 이미지 처리 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 이미지 처리 장치에 의한 훈련 데이터 학습 과정을 나타낸 개념도이다.
도 3은 본 발명의 일 실시예에 따른 이미지 처리 장치에 의한 훈련 데이터 학습 과정을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 이미지 처리 장치에 의한 훈련 데이터 학습 과정 중 증강 기법 결정 과정을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 이미지 처리 장치에 의한 이미지 처리 과정을 설명하기 위한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 능동적 판별자 증강을 적용한 모델과 적용하지 모델의 손실함수 학습곡선을 나타낸 그래프이다.
도 7 본 발명의 일 실시예에 따른 능동적 판별자 증강을 적용한 모델과 적용하지 모델의 이미지 처리 결과를 비교한 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
또한, 명세서에서 사용되는 '부'라는 용어는 소프트웨어 또는 FPGA나 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.
도 1은 본 발명의 일 실시예에 따른 이미지 처리 장치의 구성도이다.
도 1을 참조하면 이미지 처리 장치(100)는 제 1 생성자(110), 제 2 생성자(120), 제 1 판별자(130), 제 2 판별자(140), 제 1 능동적 판별자 증강기(150), 제 2 능동적 판별자 증강기(160) 및 컨트롤러(170)를 포함한다.
제 1 생성자(110)는 순환형 적대적 생성 신경망에 제 1 스타일을 갖는 제 1 입력 이미지를 입력하여, 순환형 적대적 생성 신경망의 출력으로서 제 2 스타일을 갖도록 변환된 제 1 목표 이미지를 출력하되 제 1 목표 이미지가 제 1 스타일을 갖도록 복구 가능한 만큼만 변환한다. 여기서, 순환형 적대적 생성 신경망은 복수의 배치을 통해 훈련 데이터를 입력 받고, 복수의 배치별로 복수의 증강 기법 중 적어도 하나의 증강 기법이 적용되어 훈련 데이터가 학습된다.
제 2 생성자(120)는 제 1 생성자(110)에 의해 변환된 제 1 목표 이미지를 제 2 입력 이미지로서 순환형 적대적 생성 신경망에 입력하여, 순환형 적대적 생성 신경망의 출력으로서 제 1 스타일을 갖도록 변환된 제 2 목표 이미지를 출력해 제 1 입력 이미지로서 제 1 생성기(110)에 제공하되 제 2 목표 이미지가 제 2 스타일을 갖도록 복구 가능한 만큼만 변환한다.
제 1 판별자(130)는 제 1 생성자(110)가 출력하는 제 1 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별한다.
제 2 판별자(140)는 제 2 생성자(120)가 출력하는 제 2 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별한다.
제 1 능동적 판별자 증강기(150)는 제 1 생성자(110)의 손실 및 제 1 판별자(130)의 손실이 감소하는 방향으로 능동적으로 제 1 판별자(130)를 증강시킨다.
제 2 능동적 판별자 증강기(160)는 제 2 생성자(120)의 손실 및 제 2 판별자(140)의 손실이 감소하는 방향으로 능동적으로 제 2 판별자(140)를 증강시킨다.
컨트롤러(170)는 제 1 생성자(110)의 손실, 제 1 판별자(130)의 손실, 제 2 생성자(120)의 손실 및 제 2 판별자(140)의 손실 중 적어도 하나에 기초하여 복수의 배치별로 적어도 하나의 증강 기법을 결정하고, 제 1 판별자(130) 및 제 2 판별자(140)가 증강될 확률을 제 1 판별자(130)의 손실 및 제 2 판별자(140)의 손실에 기초하여 결정해 준다. 여기서, 컨트롤러(170)는 학습을 위한 복수의 에폭 중 초반에는 복수의 증강 기법 중 적용될 적어도 하나의 증강 기법을 다양하게 결정할 수 있고, 초반의 결과 중 제 1 생성자(110)의 손실, 제 1 판별자(130)의 손실, 제 2 생성자(120)의 손실 및 제 2 판별자(140)의 손실에 기초하여 한 가지의 증강 기법을 택일하여 초반 이후의 증강 기법으로서 결정할 수 있다. 또한, 컨트롤러(170)는 증강 기법의 강도를 베이지안 최적화를 통해 결정해 줄 수 있다.
도 2는 본 발명의 일 실시예에 따른 이미지 처리 장치(100)에 의한 훈련 데이터 학습 과정을 나타낸 개념도이고, 도 3은 본 발명의 일 실시예에 따른 이미지 처리 장치(100)에 의한 훈련 데이터 학습 과정을 설명하기 위한 흐름도이며, 도 4는 본 발명의 일 실시예에 따른 이미지 처리 장치(100)에 의한 훈련 데이터 학습 과정 중 증강 기법 결정 과정을 설명하기 위한 흐름도이고, 도 5는 본 발명의 일 실시예에 따른 이미지 처리 장치(100)에 의한 이미지 처리 과정을 설명하기 위한 흐름도이며, 도 6은 본 발명의 일 실시예에 따른 능동적 판별자 증강을 적용한 모델과 적용하지 모델의 손실함수 학습곡선을 나타낸 그래프이고, 도 7 본 발명의 일 실시예에 따른 능동적 판별자 증강을 적용한 모델과 적용하지 모델의 이미지 처리 결과를 비교한 것이다.
이하, 도 1 내지 도 7을 참조하여 본 발명의 일 실시예에 따른 이미지 처리 장치(100)에 의한 훈련 데이터 학습 과정과 학습된 이미지 처리 장치(100)에 의한 이미지 처리 과정에 대해 자세히 살펴보기로 한다.
먼저, 이미지 처리 장치(100)의 컨트롤러(170)는 복수의 배치별로 복수의 증강 기법 중 적어도 하나의 증강 기법을 결정해 준다(S310). 여기서, 컨트롤러(170)는 학습을 위한 복수의 에폭 중 초반에는 복수의 증강 기법(예컨대, flip, brightness, rotation 등) 중 적용될 적어도 하나의 증강 기법을 다양하게 결정할 수 있다(S410, S420). 예를 들어 매 에폭마다 25가지의 증강 기법 중 다른 증강 기법을 결정해 줄 수 있다. 그리고, 컨트롤러(170)는 에폭 초반의 결과를 관측한 결과, 예를 들어 제 1 생성자(110)의 손실, 제 1 판별자(130)의 손실, 제 2 생성자(120)의 손실 및 제 2 판별자(140)의 손실에 기초하여 한 가지의 증강 기법을 택일한 후, 택일한 증강 기법을 초반 이후의 증강 기법으로서 결정해 줄 수 있다(S430).
그리고, 컨트롤러(170)는 제 1 판별자(130) 및 제 2 판별자(140)가 증강될 확률을 제 1 판별자(130)의 손실 및 제 2 판별자(140)의 손실에 기초하여 결정해 준다. 예를 들어, 컨트롤러(170)는 제 1 판별자(130) 및 제 2 판별자(140)가 증강될 확률 p를 제 1 판별자(130)의 손실 및 제 2 판별자(140)의 손실을 관찰한 결과에 기초하여 0과 1 사이의 값으로 결정 및 갱신할 수 있다(S320).
또한, 컨트롤러(170)는 증강 기법의 강도를 공지의 베이지안 최적화(bayesian optimizer)를 통해 결정해 준다(S330).
이로써, 순환형 적대적 생성 신경망은 복수의 배치를 통해 입력 받는 훈련 데이터가 복수의 배치별로 적용된 증강 기법을 통해 학습된다(S340).
훈련 데이터가 학습된 순환형 적대적 생성 신경망을 포함하는 이미지 처리 장치(110)의 제 1 생성자(110)는 순환형 적대적 생성 신경망에 제 1 스타일을 갖는 제 1 입력 이미지를 입력하여, 순환형 적대적 생성 신경망의 출력으로서 제 2 스타일을 갖도록 변환된 제 1 목표 이미지를 출력하되 제 1 목표 이미지가 제 1 스타일을 갖도록 복구 가능한 만큼만 변환한다(S510).
그리고, 훈련 데이터가 학습된 순환형 적대적 생성 신경망을 포함하는 이미지 처리 장치(110)의 제 2 생성자(120)는 제 1 생성자(110)에 의해 변환된 제 1 목표 이미지를 제 2 입력 이미지로서 순환형 적대적 생성 신경망에 입력하여, 순환형 적대적 생성 신경망의 출력으로서 제 1 스타일을 갖도록 변환된 제 2 목표 이미지를 출력해 제 1 입력 이미지로서 제 1 생성기(110)에 제공하되 제 2 목표 이미지가 제 2 스타일을 갖도록 복구 가능한 만큼만 변환한다(S520).
그리고, 훈련 데이터가 학습된 순환형 적대적 생성 신경망을 포함하는 이미지 처리 장치(110)의 제 1 판별자(130)는 제 1 생성자(110)가 출력하는 제 1 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별한다(S530).
그리고, 훈련 데이터가 학습된 순환형 적대적 생성 신경망을 포함하는 이미지 처리 장치(110)의 제 1 능동적 판별자 증강기(150)는 제 1 생성자(110)의 손실 및 제 1 판별자(130)의 손실이 감소하는 방향으로 능동적으로 제 1 판별자(130)를 증강시킨다(S540).
그리고, 훈련 데이터가 학습된 순환형 적대적 생성 신경망을 포함하는 이미지 처리 장치(110)의 제 2 판별자(140)는 제 2 생성자(120)가 출력하는 제 2 목표 이미지가 제 1 스타일을 갖는지 또는 제 2 스타일을 갖는지 판별한다(S550).
그리고, 훈련 데이터가 학습된 순환형 적대적 생성 신경망을 포함하는 이미지 처리 장치(110)의 제 2 능동적 판별자 증강기(160)는 제 2 생성자(120)의 손실 및 제 2 판별자(140)의 손실이 감소하는 방향으로 능동적으로 제 2 판별자(140)를 증강시킨다(S560).
제 1 판별자(130) 및 제 2 판별자(140)가 제 1 능동적 판별자 증강기(150) 및 제 2 능동적 판별자 증강기(160)에 의해 증강될 확률 p은 제 1 판별자(130) 및 제 2 판별자(140)의 성능이 과도하게 좋아지거나 나빠지지 않도록 제 1 판별자(130)의 손실 및 제 2 판별자(140)의 손실을 관찰한 결과에 기초하여 0과 1 사이의 값으로 결정 및 갱신되기 때문에 과적합이 방지된다.
도 6은 본 발명의 일 실시예에 따른 능동적 판별자 증강을 적용한 모델(G_B, D_B)과 적용하지 모델(G_A, D_A)의 손실함수 학습곡선을 나타낸 그래프이다. 생성자(G)와 판별자(D) 모두 능동적 판별자 증강을 적용한 모델(G_B, D_B)이 적용하지 모델(G_A, D_A)보다 더 낮은 학습 손실을 보여준다.
도 7 본 발명의 일 실시예에 따른 능동적 판별자 증강을 적용한 모델과 적용하지 모델의 이미지 처리 결과를 비교한 것이다. 능동적 판별자 증강을 적용하지 않은 A모델과 능동적 판별자 증강을 적용한 B모델을 비교한 결과로서, A모델에 비하여 B모델이 더 뛰어난 성능을 보여주었다.
지금까지 설명한 바와 같이, 본 발명의 실시예들에 따르면, 능동적 판별자 증강을 통해 순환형 적대적 생성 신경망의 판별자가 지나치게 빠르게 학습되지 않도록 하여 과적합을 막아 줌으로써 적은 훈련 데이터로도 이미지 스타일 전이 작업의 성능이 향상되도록 한다.
한편, 전술한 실시예에 따른 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치(100)를 구성하는 각각의 구성요소들은 하나 이상의 마이크로프로세서를 포함하여 구현될 수 있다.
그리고, 전술한 실시예에 따른 순환형 적대적 생성 신경망을 이용한 이미지 처리 방법에 포함된 각각의 단계는, 이러한 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 기록하는 컴퓨터 판독가능한 기록매체에서 구현될 수 있다.
또한, 전술한 실시예에 따른 순환형 적대적 생성 신경망을 이용한 이미지 처리 방법에 포함된 각각의 단계는, 이러한 단계를 수행하도록 프로그램된, 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램의 형태로 구현될 수 있다.
본 발명에 첨부된 각 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 기록매체에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 기록매체에 저장된 인스트럭션들은 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 이미지 처리 장치
110, 120: 생성자
130, 140: 판별자
150, 160: 능동적 판별자 증강기
170: 컨트롤러

Claims (10)

  1. 순환형 적대적 생성 신경망에 제 1 스타일을 갖는 제 1 입력 이미지를 입력하여, 상기 순환형 적대적 생성 신경망의 출력으로서 제 2 스타일을 갖도록 변환된 제 1 목표 이미지를 출력하는 제 1 생성자와,
    상기 제 1 목표 이미지를 제 2 입력 이미지로서 상기 순환형 적대적 생성 신경망에 입력하여, 상기 순환형 적대적 생성 신경망의 출력으로서 상기 제 1 스타일을 갖도록 변환된 제 2 목표 이미지를 출력하는 제 2 생성자와,
    상기 제 1 목표 이미지가 상기 제 1 스타일을 갖는지 또는 상기 제 2 스타일을 갖는지 판별하는 제 1 판별자와,
    상기 제 1 생성자의 손실 및 상기 제 1 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 1 판별자를 증강시키는 제 1 능동적 판별자 증강기와,
    상기 제 2 목표 이미지가 상기 제 1 스타일을 갖는지 또는 상기 제 2 스타일을 갖는지 판별하는 제 2 판별자와,
    상기 제 2 생성자의 손실 및 상기 제 2 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 2 판별자를 증강시키는 제 2 능동적 판별자 증강기와,
    상기 제 1 생성자의 손실, 상기 제 1 판별자의 손실, 상기 제 2 생성자의 손실 및 상기 제 2 판별자의 손실에 기초하여 복수의 배치(batch)별로 증강 기법을 결정하고, 상기 제 1 판별자 및 상기 제 2 판별자가 증강될 확률을 상기 제 1 판별자의 손실 및 상기 제 2 판별자의 손실에 기초하여 결정하는 컨트롤러를 포함하고,
    상기 제 1 생성자에 의해 출력되고 상기 제 2 생성자로 입력되는 상기 제 1 목표 이미지는, 상기 제 1 스타일로 복구 가능하도록 변환되고,
    상기 제 2 생성자에 의해 출력되고 상기 제 1 생성자로 입력되는 상기 제 2 목표 이미지는, 상기 제 2 스타일로 복구 가능하도록 변환되고,
    상기 순환형 적대적 생성 신경망은, 복수의 에폭(epoch)을 통해 훈련 데이터가 학습되되, 상기 복수의 에폭(epoch)은 제 1 에폭과 상기 제 1 에폭 이후에 수행되는 제 2 에폭을 포함하고,
    상기 컨트롤러는,
    상기 제 1 에폭에서, 상기 복수의 배치별로 2개 이상의 증강 기법을 결정하여 학습되도록 제어하고,
    상기 제 2 에폭에서, 상기 제 1 에폭에서 발생된 상기 제 1 생성자의 손실, 상기 제 1 판별자의 손실, 상기 제 2 생성자의 손실 및 상기 제 2 판별자의 손실에 기초하여, 상기 복수의 배치별로 상기 2개 이상의 증강 기법 중에서 하나의 증강 기법을 택일하여 학습되도록 제어하고,
    상기 증강 기법의 강도를 베이지안 최적화(bayesian optimizer)를 통해 결정하는,
    순환형 적대적 생성 신경망을 이용한 이미지 처리 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 이미지 처리 장치가 수행하는 이미지 처리 방법으로서,
    순환형 적대적 생성 신경망의 제 1 생성자에 제 1 스타일을 갖는 제 1 입력 이미지를 입력하여, 상기 제 1 생성자의 출력으로서 제 2 스타일을 갖도록 변환된 제 1 목표 이미지를 출력하는 단계와,
    상기 제 1 목표 이미지를 제 2 입력 이미지로서 상기 순환형 적대적 생성 신경망의 제 2 생성자에 입력하여, 상기 제 2 생성자의 출력으로서 상기 제 1 스타일을 갖도록 변환된 제 2 목표 이미지를 출력하는 단계와,
    상기 순환형 적대적 생성 신경망의 제 1 판별자를 통해 상기 제 1 목표 이미지가 상기 제 1 스타일을 갖는지 또는 상기 제 2 스타일을 갖는지 판별하는 단계와,
    상기 제 1 생성자의 손실 및 상기 제 1 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 1 판별자를 증강시키는 단계와,
    상기 순환형 적대적 생성 신경망의 제 2 판별자를 통해 상기 제 2 목표 이미지가 상기 제 1 스타일을 갖는지 또는 상기 제 2 스타일을 갖는지 판별하는 단계와,
    상기 제 2 생성자의 손실 및 상기 제 2 판별자의 손실이 감소하는 방향으로 능동적으로 상기 제 2 판별자를 증강시키는 단계를 포함하고,
    상기 제 1 목표 이미지를 출력하는 단계는,
    상기 제 1 생성자에 의해 출력되고 상기 제 2 생성자로 입력되는 상기 제 1 목표 이미지가 상기 제 1 스타일로 복구 가능하도록 변환하는 단계를 포함하고,
    상기 제 2 목표 이미지를 출력하는 단계는,
    상기 제 2 생성자에 의해 출력되고 상기 제 1 생성자로 입력되는 상기 제 2 목표 이미지가 상기 제 2 스타일로 복구 가능하도록 변환하는 단계를 포함하고,
    상기 순환형 적대적 생성 신경망은, 복수의 에폭(epoch)을 통해 훈련 데이터가 학습되되, 상기 복수의 에폭(epoch)은 제 1 에폭과 상기 제 1 에폭 이후에 수행되는 제 2 에폭을 포함하고,
    상기 이미지 처리 방법은,
    상기 제 1 생성자의 손실, 상기 제 1 판별자의 손실, 상기 제 2 생성자의 손실 및 상기 제 2 판별자의 손실에 기초하여 복수의 배치(batch)별로 증강 기법을 결정하고, 상기 제 1 판별자 및 상기 제 2 판별자가 증강될 확률을 상기 제 1 판별자의 손실 및 상기 제 2 판별자의 손실에 기초하여 결정하고,
    상기 제 1 에폭에서, 상기 복수의 배치별로 2개 이상의 증강 기법을 결정하여 학습을 수행하고,
    상기 제 2 에폭에서, 상기 제 1 에폭에서 발생된 상기 제 1 생성자의 손실, 상기 제 1 판별자의 손실, 상기 제 2 생성자의 손실 및 상기 제 2 판별자의 손실에 기초하여, 상기 복수의 배치별로 상기 2개 이상의 증강 기법 중에서 하나의 증강 기법을 택일하여 학습을 수행하고,
    상기 증강 기법의 강도는, 베이지안 최적화(bayesian optimizer)를 통해 결정되는,
    순환형 적대적 생성 신경망을 이용한 이미지 처리 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 제5항의 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는, 컴퓨터 판독 가능한 기록매체.
  10. 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 제5항의 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는, 컴퓨터 프로그램.
KR1020220085648A 2022-07-12 2022-07-12 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치 및 방법 KR102490503B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220085648A KR102490503B1 (ko) 2022-07-12 2022-07-12 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220085648A KR102490503B1 (ko) 2022-07-12 2022-07-12 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102490503B1 true KR102490503B1 (ko) 2023-01-19

Family

ID=85078189

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220085648A KR102490503B1 (ko) 2022-07-12 2022-07-12 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102490503B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7344501B1 (ja) * 2023-03-29 2023-09-14 AI inside株式会社 プログラム、方法、情報処理装置、システム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210088656A (ko) 2019-06-24 2021-07-14 센스타임 그룹 리미티드 이미지 생성 및 신경망 트레이닝 방법, 장치, 기기 및 매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210088656A (ko) 2019-06-24 2021-07-14 센스타임 그룹 리미티드 이미지 생성 및 신경망 트레이닝 방법, 장치, 기기 및 매체

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Nazrul Ismail et al., Real-time visual inspection system for grading fruits using computer vision and deep learning techniques, INFORMATION PROCESSING IN AGRICULTURE 9 (2022), 24-37pages (2022. 3.) *
김진용 등., 적대적 생성 신경망을 이용한 얼굴 감정인식 데이터 증강, Journal of KIISE, Vol. 48, No. 4, 398-404pages (2021. 4.) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7344501B1 (ja) * 2023-03-29 2023-09-14 AI inside株式会社 プログラム、方法、情報処理装置、システム

Similar Documents

Publication Publication Date Title
US11270188B2 (en) Joint optimization of ensembles in deep learning
US11354578B2 (en) Mixture of generators model
Yi et al. On learning contrastive representations for learning with noisy labels
CN111581343A (zh) 基于图卷积神经网络的强化学习知识图谱推理方法及装置
KR102347496B1 (ko) 방사선 치료 계획 수립을 위한 인공지능 기반의 장기 및 종양 이미지 분할 시스템 및 방법
US11010670B2 (en) Building a deep neural network with diverse strata
KR102490503B1 (ko) 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치 및 방법
KR20210116923A (ko) 디노이징 네트워크의 학습 방법, 및 이미지 처리 방법 및 그 장치 방법
CN112507159B (zh) 哈希网络训练方法、广告图像素材检索方法及相关装置
US20230214719A1 (en) Method for performing continual learning using representation learning and apparatus thereof
CN114037666B (zh) 一种数据集扩充和阴影图像分类辅助的阴影检测方法
CN115311550A (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
US20230281981A1 (en) Methods, devices, and computer readable media for training a keypoint estimation network using cgan-based data augmentation
Ye et al. Low-quality image object detection based on reinforcement learning adaptive enhancement
KR102652117B1 (ko) 이미지 보정 방법 및 이미지 보정 시스템
Larres et al. Using unrestricted loops in genetic programming for image classification
KR20220046351A (ko) 미리 학습된 이미지 인페인팅 신경망을 파인튜닝하기 위한 장치 및 방법
KR20210012464A (ko) 보조 식별기가 추가된 기계학습을 통해 이미지의 생성을 가능하게 하는 생성적 적대 신경망 기반의 이미지 생성 처리 장치 및 방법
US20240046624A1 (en) Image processing apparatus, image processing method, and recording medium
WO2023228290A1 (ja) 学習装置、学習方法、及びプログラム
WO2022195762A1 (ja) 学習装置、学習方法、及び、記録媒体
US20240242085A1 (en) Method for training deep learning model using self-knowledge distillation algorithm, inferring apparatus using deep learning model, and storage medium storing instructions to perform method for training deep learning model
JP2023028232A (ja) 学習装置および学習方法
US20220237412A1 (en) Method for modelling synthetic data in generative adversarial networks
JP6674393B2 (ja) 特徴量登録装置、方法及びプログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant