KR20200093975A

KR20200093975A - 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법

Info

Publication number: KR20200093975A
Application number: KR1020190011377A
Authority: KR
Inventors: 권준석; 박성우
Original assignee: 중앙대학교 산학협력단
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-08-06
Also published as: KR102188732B1

Abstract

본 발명은 판별 네트워크의 특징공간을 구라고 가정하여 그 위에서 다차 모멘트를 최소화시켜 그레디언트 제약에 대한 문제를 해결할 수 있도록 한 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법에 관한 것으로, 랜덤한 노이즈 z로부터 값을 받아들여 가짜 데이터를 생성하고 생성된 가짜 데이터를 판별기로 전달하는 생성기;실제 데이터 및 가짜 데이터를 받아 훈련하는 판별기;상기 판별기로부터 최종 데이터를 받아 n 차원 유클리드(Euclidean) 특징 공간에 매핑하고, 각각 가짜 데이터와 실제 데이터의 특징점을 기하학적 변환에 의해 n 차원 초구(hypersphere)로 다시 매핑하고, 매핑된 점을 사용하여 구형 GAN으로 초구(hypersphere)의 중심점(north pole)을 중심으로 하는 기하학적 모멘트를 계산하는 기하학적 모멘트 매칭부;를 포함하고, 상기 판별기는 실제 및 가짜 데이터 간의 확률 측정의 모멘트 차이를 최대화하려고 시도하고, 생성기는 모멘트 차이를 최소화하여 판별기를 간섭하려고 시도하여 훈련하는 것을 특징으로 한다.

Description

기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법{System and Method for Data Processing using Sphere Generative Adversarial Network Based on Geometric Moment Matching}

본 발명은 머신러닝 및 컴퓨터비전의 하위분야인 생성 모델에 관한 것으로, 구체적으로 판별 네트워크의 특징공간을 구라고 가정하여 그 위에서 다차 모멘트를 최소화시켜 그레디언트 제약에 대한 문제를 해결할 수 있도록 한 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법에 관한 것이다.

적대적 생성망(Generative Adversarial Networks;GANs)은 이미지 생성, 수퍼 해상도, 비디오 예측, 스타일 전송, 시각적 추적, 3D 재구성, 세그먼테이션, 객체 감지, 보강 학습 및 의료 이미징과 같은 다양한 기능을 제공하기 위한 광범위한 컴퓨터 비전 애플리케이션에서 높은 성능을 달성하기 위하여 사용되고 있다.

이와 같은 적대적 생성망은 2014년 이안 굿펠로우(Ian J. Goodfellow)가 처음 소개한 이후 지금까지 많은 관심을 받고 있다.

GAN은 기존 CNN, RNN 등 딥러닝 알고리즘과 달리 비교사 학습방법으로 이미지와 음성 데이터를 생성한다.

작동원리는 생성기와 판별기로 구성된 서로 다른 주체가 적대적으로 경쟁하며 각자의 성능을 최대화한다. 이 과정을 통해 실제 데이터에 가까운 가짜 데이터를 생성하는 원리다.

GAN을 활용하면 저화질의 이미지를 복원하거나 간단한 스케치만으로 완성된 이미지를 만들 수 있다. 현실적으로 학습에 필요한 데이터가 절대적으로 부족한 재난사고 점검 자동화 등에 GAN 모델을 활용할 수 있다.

종래 기술의 GAN은 가짜 데이터와 실제 데이터 간의 분포 차이를 최소화하려고 시도하는데, 이를 위해 생성기(generator)는 실제 데이터처럼 보이는 원하는 샘플을 생성하려고 시도하고, 판별자(discriminator)는 실제 데이터와 구별을 시도한다.

이와 같은 GAN은 다양한 업무에 성공적으로 적용되었지만 이를 훈련하는 것은 매우 어렵다. 따라서 GAN을 사용하여 보다 복잡한 문제를 해결하는 것은 어렵다.

이와 같이, 적대적 생성망(Generative Adversarial Networks;GANs)은 머신러닝 및 컴퓨터비전의 하위분야인 생성 모델을 위한 네트워크로, 실제의 이미지와 유사한 생성된 이미지의 품질을 높이기 위해서 여러 연구가 진행되고 있다.

최초의 GAN의 문제점을 해결하기 위해서 DCGAN, LSGAN, WGAN등 여러 가지 기술들이 제시되었다. 이렇게 발전되어 가는 GAN은 학계에서뿐만 아니라 실제 IT 산업 전반에서 사용되고 있으며 특히 영상 처리 분야에서 다양한 가치를 창출하고 있다.

그러나 실제 데이터를 표현하는 확률 측도와 생성 네트워크가 만들어낸 확률 측도 사이의 차이를 줄이기 위해서 웨서스테인 거리(Wesserstein distance)가 사용되는데 이를 위해서 판별 네트워크의 그레디언트에 제약이 가해진다.

이는 훈련에는 도움이 될 수 있지만, 네트워크의 용량을 제한하게 되어 신경망의 특성을 전부 살리지 못하여 성능히 떨어지게 된다.

따라서, 그레디언트 제약에 대한 문제를 해결하기 위한 새로운 기술의 적대적 생성망을 이용하는 데이터 처리 기술의 개발이 요구되고 있다.

대한민국 등록특허 제10-1843066호 대한민국 공개특허 제10-2018-0120478호

본 발명은 종래 기술의 적대적 생성망을 이용하는 데이터 처리 기술의 문제점을 해결하기 위한 것으로, 판별 네트워크의 특징공간을 구라고 가정하여 그 위에서 다차 모멘트를 최소화시켜 그레디언트 제약에 대한 문제를 해결할 수 있도록 한 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 일반적인 IPM 기반 GAN에 비해 몇 가지 장점을 제공하는 새로운 개념의 구 GAN(sphere GAN)으로, 수학적으로 잘 정의된 측도간의 메트릭(metric)을 새롭게 정의하여 훈련되는 네트워크의 거동을 예측할 수 있도록 한 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 GAN 목적 함수에서 IPM(integral probability metrics)을 정의하기 위해 리만 매니폴드(Riemannian manifolds) 사용하여, 그레디언트 패널티 또는 가상 데이터 샘플링 기술을 사용하지 않고 안정적 훈련이 가능하도록 한 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 Sphere GAN에서 대수 함수를 사용하여 목적 함수에서 IPM을 바인딩하여 안정적으로 훈련될 수 있도록 하고, 기하학적 모멘트 매칭을 사용하여 고차원 데이터 통계 정보를 활용하여 더 정확한 결과를 제공할 수 있도록 한 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명에 따른 Sphere GAN은 특징 공간에서 고차 모멘트를 효율적으로 매칭시켜 정확도를 크게 향상시켜 CIFAR-10, STL-10등 현실의 객체에 대한 이미지셋에서 생성 네트워크를 통해 실사와 거의 비슷한 이미지를 생성할 수 있도록 한 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치는 랜덤한 노이즈 z로부터 값을 받아들여 가짜 데이터를 생성하고 생성된 가짜 데이터를 판별기로 전달하는 생성기;실제 데이터(x) 및 가짜 데이터를 받아 훈련하는 판별기;상기 판별기로부터 최종 데이터를 받아 n 차원 유클리드(Euclidean) 특징 공간에 매핑하고, 각각 가짜 데이터와 실제 데이터의 특징점을 기하학적 변환에 의해 n 차원 초구(hypersphere)로 다시 매핑하고, 매핑된 점을 사용하여 구형 GAN으로 초구(hypersphere)의 중심점(north pole)을 중심으로 하는 기하학적 모멘트를 계산하는 기하학적 모멘트 매칭부;를 포함하고, 상기 판별기는 실제 및 가짜 데이터 간의 확률 측정의 모멘트 차이를 최대화하려고 시도하고, 생성기는 모멘트 차이를 최소화하여 판별기를 간섭하려고 시도하여 훈련하는 것을 특징으로 한다.

다른 목적을 달성하기 위한 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 방법은 판별 네트워크의 특징공간을 구라고 가정하여 그 위에서 다차 모멘트를 최소화시켜 수학적으로 정의된 측도간의 메트릭을 새롭게 정의하여 훈련되는 네트워크의 거동을 예측할 수 있도록 하는 구형 GAN을 이용하여, 생성기에서 랜덤한 노이즈 z로부터 값을 받아들여 실제와 유사한 가짜 데이터를 생성하는 단계;생성기에서 생성된 가짜 데이터를 판별기로 전달하는 단계;판별기가 실제 데이터 및 가짜 데이터를 받아 훈련하고 n 차원 유클리드(Euclidean) 특징 공간에 매핑하는 단계;각각 가짜 데이터와 실제 데이터의 특징점을 기하학적 변환에 의해 n 차원 초구(hypersphere)로 다시 매핑하는 단계;매핑된 점을 사용하여 구형 GAN은 초구(hypersphere)의 중심점(north pole)을 중심으로 하는 기하학적 모멘트를 계산하는 단계;구형 GAN의 판별기는 실제 및 가짜 샘플 간의 확률 측정의 모멘트 차이를 최대화하려고 시도하고, 생성기는 모멘트 차이를 최소화하여 판별자를 간섭하려고 시도하여 훈련하는 단계;를 포함하는 것을 특징으로 한다.

이상에서 설명한 바와 같은 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법은 다음과 같은 효과가 있다.

첫째, 판별 네트워크의 특징공간을 구라고 가정하여 그 위에서 다차 모멘트를 최소화시켜 그레디언트 제약에 대한 문제를 해결할 수 있도록 한다.

둘째, 일반적인 IPM 기반 GAN에 비해 몇 가지 장점을 제공하는 새로운 개념의 구 GAN(sphere GAN)의 사용으로 수학적으로 잘 정의된 측도간의 메트릭(metric)을 새롭게 정의하여 훈련되는 네트워크의 거동을 예측할 수 있도록 한다.

셋째, GAN 목적 함수에서 IPM(integral probability metrics)을 정의하기 위해 리만 매니폴드(Riemannian manifolds) 사용하여, 그레디언트 패널티 또는 가상 데이터 샘플링 기술을 사용하지 않고 안정적 훈련이 가능하도록 한다.

넷째, Sphere GAN에서 대수 함수를 사용하여 목적 함수에서 IPM을 바인딩하여 안정적으로 훈련될 수 있도록 하고, 기하학적 모멘트 매칭을 사용하여 고차원 데이터 통계 정보를 활용하여 더 정확한 결과를 제공할 수 있도록 한다.

다섯째, Sphere GAN이 특징 공간에서 고차 모멘트를 효율적으로 매칭시켜 정확도를 크게 향상시켜 CIFAR-10, STL-10등 현실의 객체에 대한 이미지셋에서 생성 네트워크를 통해 실사와 거의 비슷한 이미지를 생성할 수 있도록 한다.

도 1은 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치의 전체 구성도
도 2는 본 발명에 따른 기하학적 변환 함수의 일 예인 스테레오그래픽 투영(stereographic projection)을 설명하기 위한 구성도
도 3은 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 방법을 나타낸 플로우 차트
도 4는 IS(Inception scores)를 이용한 초구(hypersphere)의 차원 및 매칭모드에 따른 평가 결과 그래프
도 5는 Sphere GAN 및 WGAN-GP 판별기 네트워크의 그레디언트 특성 그래프
도 6은 서로 다른 GAN 변형에 대해 100 회 반복하는 평균 계산 시간 비교 그래프
도 7a와 도 7b는 LSUN- bedroom 데이터 세트의 구형 GAN의 정성적 결과 및 STL-10 데이터 세트에 대한 구형 GAN의 정성적 결과 구성도

이하, 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

도 1은 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치의 전체 구성도이다.

본 발명은 판별 네트워크의 특징공간을 구라고 가정하여 그 위에서 다차 모멘트를 최소화시켜 수학적으로 잘 정의된 측도간의 metric을 새롭게 정의하여 훈련되는 네트워크의 거동을 예측할 수 있도록 한 것으로, CIFAR-10, STL-10등 현실의 객체에 대한 이미지셋에서 생성 네트워크를 통해 실사와 거의 비슷한 이미지를 생성할 수 있도록 하는 것이다.

이와 같은 본 발명은 머신러닝 및 컴퓨터비전의 하위분야인 생성 모델의 하나인 적대적 생성망(generative adversarial network)에 관한 것으로, 실제 데이터(real data)와 가짜 데이터(fake data)를 구분하는 GAN의 판별기(discriminator)는 최종 데이터를 구(sphere)에 맵핑하는 구성 및, 최종 데이터를 구(sphere)에 맵핑하여 거리를 계산하는 구성을 포함하고 거리(distance)의 바운드(bound)가 존재하는 것을 이용하여 안정적인 GAN 학습을 할 수 있도록 하는 것이다.

본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치는 도 1에서와 같이, 랜덤한 noise z로부터 값을 받아들여 실제와 비슷한 이미지(가짜 데이터)를 생성하여 생성된 가짜 데이터를 판별기(200)로 전달하는 생성기(100)와, 실제 데이터 및 가짜 데이터를 받아 훈련하는 판별기(200)와, n 차원 유클리드(Euclidean) 특징 공간에 매핑하고, 각각 가짜 샘플과 실제 샘플의 특징점이 기하학적 변환에 의해 n 차원 초구(hypersphere)로 다시 매핑하고, 매핑된 점을 사용하여 구형 GAN은 초구(hypersphere)의 중심점(north pole)을 중심으로 하는 기하학적 모멘트를 계산하는 기하학적 모멘트 매칭부(300)를 포함하고, 구형 GAN의 판별기(200)는 실제 및 가짜 샘플 간의 확률 측정의 모멘트 차이를 최대화하려고 시도하고, 생성기(100)는 모멘트 차이를 최소화하여 판별자를 간섭하려고 시도하여 훈련하는 것이다.

첫번째로 z가 생성기(100)에 들어가게 되면, 가짜 이미지를 만들어내어 판별기(200)의 입력으로 전달한다.

이후에, LReLu(31), Avg Pooling(32), Dense(33)를 거쳐 ISP(Inver stereographic projection)을 통해서 위의 노란색과 같이 구(34)에 맵핑한다.

이때, ISP는 Dense의 output인 평면의 점들을 구 위의 점으로 맵핑하는 역할을 한다.

도 1은 구형 GAN의 파이프 라인 구조를 나타낸 것으로, 가짜 데이터는 생성기에 의해 잡음 입력으로부터 생성된다.

그리고 실제 및 가짜 데이터는 판별기(discriminator)에 보내져 그 출력을 n 차원 유클리드(Euclidean) 특징 공간(즉, 황색 평면)에 매핑한다.

평면(plane)의 녹색과 보라색 원은 각각 가짜 샘플과 실제 샘플의 특징점을 나타낸다. 기하학적 변환에 의해, 이들 특징점은 n 차원 초구(hypersphere)(즉, 황색 구)로 다시 매핑된다.

이러한 매핑된 점을 사용하여 구형 GAN은 초구(hypersphere)의 중심점(north pole)을 중심으로 하는 기하학적 모멘트를 계산한다.

구형 GAN의 판별기는 실제 및 가짜 샘플 간의 확률 측정의 모멘트 차이를 최대화하려고 시도하지만, 생성기는 모멘트 차이를 최소화하여 판별자를 간섭하려고 시도한다.

초구(hypersphere)에 정의된 기하학적 모멘트를 사용하여 생성자와 판별기는 2 인용 미니 맥스 게임을 통해 성능을 향상시키는 것이다.

본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망에 관하여 구체적으로 설명하면 다음과 같다.

웨서스테인 메트릭을 기반으로 하는 목적 함수는 1 차원 특징 공간에서의 첫번째 모멘트는 다음과 같이 정의된다.

여기서, G와 D는 각각 생성자와 판별자를 나타내며 P와 N은 실제 데이터와 잠재 코드 분포를 각각 나타내는 것이고, 수학식 1에서 판별기 (D)는 데이터 (x)를 실수 (R)로 맵핑하고, 이는

여기서, D는 1-Lipschitz 조건 D ∈ Lip1을 만족해야하며, X ⊂ Rn은 n 차원 유클리드 이미지 공간이다.

기존의 IPM 기반 GAN에서와 마찬가지로 구형 GAN의 목적 함수는 수학식 1을 기반으로 한다.

1 차원 특징 공간의 첫 번째 모멘트와 직접 매칭되는 기존 GAN과는 달리, 구형 GAN은 3차원보다 큰 차원으로 확장한 초구(hypersphere)에 정의된 고차원 및 다중 모멘트와 매칭된다.

이를 위해, 본 발명에 따른 판별기의 출력은 다음과 같이 정의된다.

수학식 1은 기존 WGAN(Sphere GAN의 baseline)의 목적함수 형태를 나타낸 것이다.

여기서 x는 실제 이미지 데이터, z는 랜덤한 노이즈이다.

생성기(Generator G)는 랜덤한 노이즈 z로부터 값을 받아들여 실제와 비슷한 이미지를 생성하고 판별기(Discriminator D)는 실제 데이터 x를 받아 훈련을 한다.

위와 같이 표현된 차이 값을 최소화(min)하는 방식으로 생성기는 작동을 하여 실제 판별기가 훈련한 '판별'을 최소화하려고 노력하고, 판별기는 그것을 판별하기 위해서 최대화(max) 하려고 노력하도록 훈련이 이루어진다.

구형 GAN(sphere GAN)의 목적함수는 다음과 같이 정리된다.

r = 1, ..., R 인 경우 함수

는 각 샘플과 hypersphere N의 north pole사이의 r 번째 모멘트 거리를 측정하는 것을 나타내고, 아래 첨자 s는

가

상에서 정의되어 있음을 나타낸다.

수학식 4의 새로운 목적 함수를 사용하면 구형 GAN이 초구(hypersphere)상에 IPM을 정의하여, 판별기에 부과된 몇 가지 제약을 완화할 수 있다.

하지만, 이상에서 설명한 목적함수에서 만족해야 할 조건이, D가 1-Lipschitz function이어야 한다는 것이다.

이 조건을 만족시키기 위해서 WGAN을 기반으로 한 WGAN-GP, CT, LP 세 기술들은 다음과 같은 gradient penalty들을 사용한다.

여기서, G*는 고정된 생성기를 나타내고 C는 표 1에 정의된 추가 제약 조건을 나타낸다.

수학식 5에서 모든 그레디언트 놈(gradient norm)은 반복될 때마다 계산되어야하고, 이는 계산상의 복잡성을 증가시킨다.

이러한 그레디언트 제약(gradient penalty)은 판별기(discriminator)의 커패시티(capacity)를 제한하기 때문에 Lipschitz condition을 만족시키기 위해서 성능 감소를 감수해야 하고 본 발명은 이와 같은 문제를 해결할 수 있도록 한 것이다.

기존의 접근 방식과 달리 구형 GAN은 판별기가 원하는 함수 공간에 위치하도록하는 추가적인 제약 조건을 필요로하지 않는다. 기하학적 변환을 사용하여 구형 GAN은 거리 함수가 원하는 함수 공간에 있음을 보장한다.

판별기(discriminator)의 새로운 목적 함수는 다음과 같다.

표 2의 알고리즘은 본 발명에 따른 구형 GAN의 의사 코드(pseudo-code)를 나타낸 것이다.

3차원보다 큰 차원으로 확장한 초구(hypersphere)에 관하여 설명하면 다음과 같다.

수학식 4에서와 같이, 구형 GAN은 초구(hypersphere)

에서 정의된 특징 공간을 통해 여러 모멘트를 매칭한다.

구형 GAN은 임의의 리만 매니폴드 M 대신에 초구(hypersphere)를 사용하여 다음과 같은 장점을 제공한다.

첫째, 초구(hypersphere)의 거리 함수

는 바운드를 형성하고 구현하기가 매우 용이하다.

둘째, 그레디언트 놈(gradient norm)은 거리 함수로 잘 작동하며, 이는 안정적인 학습에 중요하다.

셋째, 초구(hypersphere)의 리만 구조(Riemannian structure)는 GAN 객체를 정의하는데 적합하다.

이에 비하여, 일반적인 GAN은 유클리드 거리를 갖는 유클리드 공간

을 전형적으로 고려한다. 이러한 GAN은 임의의 리만 매니폴드를 모델링하여 확장할 수 있다. 그러나 이러한 매니폴드는 컴팩트하지 않고 거리 함수가 바운드되지 않고, 그레디언트 폭발(gradient explosion)과 불안정한 학습을 유발할 수 있다.

이러한 문제를 해결하기 위해 구형 GAN은 유클리드 공간

을 초구(hypersphere)

으로 변환하는 기하학 인식 변환 함수를 사용한다.

이 함수는 판별기의 마지막 컨볼루셔널 레이어(last convolutional layer)에 의해 구현된다.

이와 같은 본 발명에 따른 변환 함수는

에서

에 이르는 미분동형사상(diffeomorphism)에 의해 설계된다. 따라서, 변환 함수는 미분 가능하고 특징 공간의 모든 점에서 차원을 보존할 수 있다.

다음은 기하학적 변환 함수로서 스테레오그래픽 투영(stereographic projection)을 설명한다.

도 2는 본 발명에 따른 기하학적 변환 함수의 일 예인 스테레오그래픽 투영(stereographic projection)을 설명하기 위한 구성도이다.

스테레오그래픽 투영(stereographic projection)의 역함수는 유클리드 공간

을 초구(hypersphere)

으로의 미분동형사상(diffeomorphism)이다.

직관적으로, 스테레오그래픽 투영(stereographic projection)의 역함수는 초평면(hyperplane)에 투영하는 방법으로 간주될 수 있다.

의 좌표계를 p = (p1, ..., pn)이라고 하고, 초구(hypersphere)의 중심점(north pole)을 N = (0, ..., 1)이라고 하면,

스테레오그래픽 투영(stereographic projection)의 역함수

은 다음과 같이 정의된다.

스테레오그래픽 투영(stereographic projection)의 역함수를 통해 두 점

을 투영한 후, 두 점 사이의 거리를 초구(hypersphere) 메트릭 측면에서 측정한다.

여기서,

는

에 정의되는 거리함수이다. 기하학적으로

는 측지 거리로 고려될 수 있다.

도 2에서와 같이, 초구(hypersphere)상의 두 점 사이의 측지 거리(geodesic distance)는 유클리드 거리보다 훨씬 짧으며 초평면(즉, 노란색 구)에 바운드되어 있기 때문에 수학식 4에서의 목적 함수를 갖는 구형 GAN을 사용할 때 안정적인 학습이 가능하다.

(보조정리 1) 수학식 8의 거리함수는 미분가능하고 바운드되어 있다.

수학식 8의 거리함수는 음이 아닌 값, 대칭 값, 삼각형 부등식을 만족하므로 미분 가능하다.

초구(hypersphere)는 컴팩트 매니폴드이므로 두 점 사이의 거리는 바운드되어 있다.

예를들어, 예를 들어, 두 점 0 = (0, ..., 0)과 q = (t, ..., t) 사이의 유클리드 거리가 발산한다.(

)

대조적으로, 수학식 8에서 초구(hypersphere)에 정의된 거리는 수렴한다.

(

)

구형 GAN의 기하학 - 인식 변환 함수는 판별기 출력의 경계 발산을 제한하여 안정적인 훈련 동력을 강화하고, 특징 공간의 차원을 보존하고 차별성을 유지한다.

구형 GAN에 관한 수학적 분석을 하면 다음과 같다.

먼저, IPM에 연결에 관하여 설명하면 다음과 같다.

수학식 4의 목적 함수를 최소화하는 것이 IPM을 최소화하는 것임을 증명한다.

이를 위하여 리만 매니폴드(Riemannian manifold)에 대한 기하학적 중심 모멘트를 정의한다.

M은 보렐 σ 대수학, Σ을 가진 작고, 연결되어 있고, 측지학적으로 완전한 리만 매니폴드라 한다.

와

는 모두 측정 가능한 공간 (M, Σ)에 정의된 확률 측정치이다.

IPM은 다음과 같이 정의된다.

(정의 1)IPM은 두 확률 측정치

와

사이의 거리 측정값이다.

여기서, F는 M에 대한 실제 값의 경계 측정 가능 함수의 클래스이다.

M에 대한 기하학적 모멘트를 정의하면 다음과 같다.

(정의 2)주어진 점 p₀에 관한 (M, Σ)상의

의 r 번째 중심 모멘트는 다음과 같다.

여기서,

및

이다.

은 M에서의 리만 거리 함수(Riemannian distance function)이다.

구형 GAN에서

와

사이의 새로운 IPM을 다음과 같이 정의한다.

(정의 3)

모멘트 차이를 기반으로 한 IPM은 다음과 같다.

여기서,

은 주어진 점 p₀에서 다른 점으로부터의 유한 거리 함수(bounded distance functions)의 클래스이다.

(정의 1)과 (정의 3)을 비교할 때, 이전의 IPM과 구형 GAN의 IPM 사이의 관계를 고려한다.

수학식 11의

는 수학식 4의

에 해당하지만, M은

으로 대체될 수 있고,

는 중심점(north pole) N으로 설정할 수 있다.

그런 다음 수학식 4와 같은 방정식을 얻는다. 이는 수학식 4의 목적 함수를 최소화하는 것이 수학식 11에서 IPM을 최소화하는 것임을 의미한다.

그러나 이전의 IPM과 구형 GAN의 IPM에는 몇 가지 차이가 있다.

본 발명에 따른 IPM의 함수 공간은

을 중심으로 한 M상의 한정된 거리 함수의 집합이다.

따라서, 구형 GAN은 거리 함수를 매개 변수화하면 다음과 같다.

여기서, {xi}는 이미지 집합이다. 대조적으로, WGAN의 IPM의 함수 공간은 1-Lipschitz 판별자의 집합이다.

따라서 판별자를 매개 변수화하면 다음과 같다.

여기서,

이다.

그리고 웨서스테인(Wesserstein) 거리 링크에 관하여 설명하면 다음과 같다.

은 수학식 11에서 정의된 구형 GAN의 IPM이며, 여기서

이다.

구형 GAN의 생성기는

를 감소시키는 것을 목적로 하는데, 이는

에 정의된 두 가지 확률 측정

와

사이의 고차 중심 모멘트를 매칭시키는 것과 상응한다.

(명제 1)

가 약하게

에 수렴한다.

를

에 정의된 확률 측정의 r-웨서스테인 거리라 한다.

그런 다음

을 최소화하는 것은 모든 r에 대해 r-웨서스테인 거리의 합계를 최소화하는 것과 같다.

(명제 2)

이 0으로 수렴한다.

웨서스테인 거리를 기반으로 하는 기존의 GAN에서 목적 함수는 Kantorovich-Rubinstein 이중성 정리에 의해 이중 형태로 설계된다. 이중 형태에서는 GAN의 효율적인 학습을 위해 1-Wesserstein 거리로만 구현할 수 있다.

기존의 GAN과 달리 구형 GAN 영역은 보다 일반적인 r-Wesserstein 거리를 사용할 수 있으므로 함수 공간이 훨씬 넓다.

그리고 그레디언트 분석에 관하여 설명하면 다음과 같다.

다른 IPM보다

을 사용하면, 구형 GAN은

의 다른 모멘트를 선택하여 손실 함수(loss functions)의 그레디언트를 계산할 수 있다.

서로 다른 모멘트를 선택하면 그레디언트가 서로 다른 학습 행동으로 이어진다. 따라서, 구형 GAN을 사용하여 어떠한 모멘트에 관해서도 안정적인 학습이 가능하다.

(보조 정리 2)

(보조 정리 2)는 초구(hypersphere)를 사용하는 것이 GAN을 안정적으로 학습하기 위한 합리적인 선택이라는 것을 의미한다.

이상의 설명에서 WGAN의 W는 'Wasserstein'으로 웨서스테인 거리(Wasserstein distance)를 사용하여 실제 이미지의 확률측도와 생성된 이미지의 확률측도의 거리를 비교하는 메트릭(metric)으로 사용된다.

본 발명에서는 이와 같은 기술들이 가지고 있는 문제점을 해결하기 위해서 조금 더 큰 범위의 메트릭을 정의한다.

본 발명에서 사용되는 메트릭은 IPM(Integral Probability Metrics)으로 상기한 수학식 9에서와 같은 형식으로 정의된다.

수학식 9에서 f가 1-Lipschitz function이라고 보면 Wasserstein distance는 IPM의 한 종류라고 생각될 수 있다.

본 발명에서는 f가 수학식 12에서와 같이 정의되는 거리함수(distance function)이다. 이때 거리함수는 구 위의 두 점사이의 거리함수이다.

이는 더 이상 1-Lipschitz condition을 만족하지 않아도 되는 것을 뜻하는 것으로, 그레디언트 제약(gradient penalty)를 사용하지 않아도 된다는 의미이다.

수학식 12를 보면 이전의 WGAN 기반의 기술들에서는 판별기(discriminator)를 훈련을 할 때, 수학식 5의 C(x)의 term이 추가가 되어 capacity가 제한이 되는것에 반해 본 발명에서는 수학식 6에서와 같이 추가적인 term이 아무것도 없기에 기존의 방식보다 discriminator network에 constraint가 적고 이에 따라서 같은 신경망 모양이라도 성능이 더 우수하다.

본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 방법을 구체적으로 설명하면 다음과 같다.

도 3은 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 방법을 나타낸 플로우 차트이다.

먼저, 생성기에서 랜덤한 noise z로부터 값을 받아들여 실제와 비슷한 이미지(가짜 데이터)를 생성한다.(S301)

이어, 생성기에서 생성된 가짜 데이터를 판별기로 전달한다.(S302)

그리고 판별기가 실제 데이터 및 가짜 데이터를 받아 훈련하고 n 차원 유클리드(Euclidean) 특징 공간에 매핑한다.(S303)

이어, 각각 가짜 샘플과 실제 샘플의 특징점이 기하학적 변환에 의해 n 차원 초구(hypersphere)로 다시 매핑한다.(S304)

그리고 매핑된 점을 사용하여 구형 GAN은 초구(hypersphere)의 중심점(north pole)을 중심으로 하는 기하학적 모멘트를 계산한다.(S305)

이어, 구형 GAN의 판별기는 실제 및 가짜 샘플 간의 확률 측정의 모멘트 차이를 최대화하려고 시도하고, 생성기는 모멘트 차이를 최소화하여 판별자를 간섭하려고 시도하여 훈련한다.(S306)

이상에서 설명한 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법의 성능 평가 결과는 다음과 같다.

도 4는 IS(Inception scores)를 이용한 초구(hypersphere)의 다른 차원 및 모멘트 매칭모드에 따른 평가 결과 그래프이다.

빨간색, 노란색 및 파란색 막대는 각각

,

모멘트 매칭모드를 나타낸 것이고, 가로축은 초구(hypersphere)

의 차원을 나타낸 것으로,n = 16, 64, 256, 1024이다.

도 5는 Sphere GAN 및 WGAN-GP 판별기 네트워크의 그레디언트 특성 그래프이다.

아래의 표 3은 CIFAR-10의 감독되지 않은 이미지 생성 결과를 나타낸 것으로, IS(Inception Scores)는 높으면 높을수록, FID(Frechet Inception Distance)는 낮을수록 우수한 결과로 해석된다.

CIFAR-10에서의 정량적 결과를 나타낸 표 3에서와 같이 구형 GAN-ResNet은 최신의 기록을 보관한 것으로, IS와 FID 모두 큰 차이가 있음을 알 수 있고, 구형 GAN-Conv이 WGAN-GP 및 MMD GAN보다 아주 우수한 결과를 보여주고 있다.

아래의 표 4는 STL-10에서 감독되지 않은 이미지 생성 결과를 나타낸 것이다.

STL-10 실험에서 원래의 네트워크에 비해 네트워크 매개 변수의 수의 약 절반을 사용하였고, 적은 수의 네트워크 매개 변수에도 불구하고 구형 GAN-ResNet는 표 4에서와 같이, SN-GAN 및 기타 IPM 기반 GAN보다 탁월한 성능을 보여주고 있다.

아래의 표 5는 LSUN bedroom에서 감독되지 않은 이미지 생성 결과를 나타낸 것이다.

LSUN bedroom 실험에서는 IS는 의미가 없으므로 FID만 나타낸 것으로, 구형 GAN-ResNet이 최첨단 GAN보다 성능이 우수함을 보여주고 있다.

그리고 도 6은 서로 다른 GAN 변형에 대해 100 회 반복하는 평균 계산 시간 비교 그래프이다.

노란색과 빨간색 막대는 생성기와 판별기의 업데이트 비율이 각각 1 : 1과 1 : 5 인 경우의 평균 계산 시간을 나타낸 것이다.

도 7a와 도 7b는 LSUN- bedroom 데이터 세트의 구형 GAN의 정성적 결과 및 STL-10 데이터 세트에 대한 구형 GAN의 정성적 결과 구성도이다.

이와 같은 평가 결과에서 알 수 있듯이, 본 발명에서 제시한 네트워크는 머신러닝 및 컴퓨터비전의 하위분야인 생성 모델의 일환인 적대적 생성망으로, 종래 기술들이 갖는 문제점을 수학적 모델링을 통하여 해결하여 빠른 훈련 속도와 확장성을 갖는다.

이에 따라 산업 현장에서 본 발명에서 제시한 기술을 통하여 현장에 알맞은 데이터를 생성할 수 있고, 빠른 실행속도를 갖는 것에 의해 특히 3D, 음성 처리 등 영상 데이터 외의 다른 목적으로 사용될 때에도 단순한 구조에 의해 우수한 확장성을 갖는다.

이상에서 설명한 본 발명에 따른 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법은 머신러닝 및 컴퓨터비전의 하위분야인 생성 모델의 하나인 적대적 생성망(generative adversarial network)에 관한 것으로, 실제 데이터(real data)와 가짜 데이터(fake data)를 구분하는 GAN의 판별기(discriminator)는 최종 데이터를 구(sphere)에 맵핑하는 구성 및, 최종 데이터를 구(sphere)에 맵핑하여 거리를 계산하는 구성을 포함하고 거리(distance)의 바운드(bound)가 존재하는 것을 이용하여 안정적인 GAN 학습을 할 수 있도록 하는 것이다.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100. 생성기
200. 판별기
300. 기하학적 모멘트 매칭부

Claims

랜덤한 노이즈 z로부터 값을 받아들여 가짜 데이터를 생성하고 생성된 가짜 데이터를 판별기로 전달하는 생성기;
실제 데이터(x) 및 가짜 데이터를 받아 훈련하는 판별기;
상기 판별기로부터 최종 데이터를 받아 n 차원 유클리드(Euclidean) 특징 공간에 매핑하고, 각각 가짜 데이터와 실제 데이터의 특징점을 기하학적 변환에 의해 n 차원 초구(hypersphere)로 다시 매핑하고, 매핑된 점을 사용하여 구형 GAN으로 초구(hypersphere)의 중심점(north pole)을 중심으로 하는 기하학적 모멘트를 계산하는 기하학적 모멘트 매칭부;를 포함하고,
상기 판별기는 실제 및 가짜 데이터 간의 확률 측정의 모멘트 차이를 최대화하려고 시도하고, 생성기는 모멘트 차이를 최소화하여 판별기를 간섭하려고 시도하여 훈련하는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 1 항에 있어서, 구형 GAN은, 판별 네트워크의 특징공간을 구라고 가정하여 그 위에서 다차 모멘트를 최소화시켜 수학적으로 정의된 측도간의 메트릭을 새롭게 정의하여 훈련되는 네트워크의 거동을 예측할 수 있도록 하는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 1 항에 있어서, 상기 기하학적 모멘트 매칭부는,
1 차원 특징 공간에서의 첫번째 모멘트가

으로 정의되고,
여기서, G와 D는 각각 생성자와 판별자를 나타내며 P와 N은 실제 데이터와 잠재 코드 분포를 각각 나타내는 것이고,
판별기 (D)는 데이터 (x)를 실수 (R)로 맵핑하고,
으로 정의되고,
여기서, D는 1-Lipschitz 조건 D ∈ Lip1을 만족해야하며, X ⊂ Rn은 n 차원 유클리드 이미지 공간인 것을 기반으로 구형 GAN은 3차원보다 큰 차원으로 확장한 초구(hypersphere)에 정의된 고차원 및 다중 모멘트와 매칭되도록 하는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 3 항에 있어서, 판별기의 출력은,

으로 정의되고,
여기서 x는 실제 이미지 데이터, z는 랜덤한 노이즈인 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 4 항에 있어서, 구형 GAN(sphere GAN)의 목적함수는,

으로 정의되고,
r = 1, ..., R 인 경우 함수
는 각 샘플과 초구(hypersphere) N의 중심점(north pole) 사이의 r 번째 모멘트 거리를 측정하는 것을 나타내고, 아래 첨자 s는
가
상에서 정의되어 있음을 나타내는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 5 항에 있어서, 구형 GAN은 판별기가 원하는 함수 공간에 위치하도록하는 추가적인 제약 조건을 필요로하지 않도록 하고,
기하학적 변환을 사용하여 구형 GAN은 거리 함수가 원하는 함수 공간에 있음을 보장하기 위하여,
판별기(discriminator)의 새로운 목적 함수를

으로 정의하는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 6 항에 있어서, 구형 GAN은 초구(hypersphere)
에서 정의된 특징 공간을 통해 여러 모멘트를 매칭하고,
구형 GAN은 임의의 리만 매니폴드 M 대신에 초구(hypersphere)를 사용하여,
초구(hypersphere)의 거리 함수
는 바운드를 형성하는 것과,
그레디언트 놈(gradient norm)은 거리 함수로 작동하는 것과,
초구(hypersphere)의 리만 구조(Riemannian structure)를 통하여 GAN 객체를 정의하는 것을 이용하는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 6 항에 있어서, 구형 GAN은 유클리드 공간
을 초구(hypersphere)
으로 변환하는 기하학적 변환 함수를 사용하고,
변환 함수는
에서
에 이르는 미분동형사상(diffeomorphism)에 의해 설계되어 미분 가능하고 특징 공간의 모든 점에서 차원을 보존할 수 있도록 하는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 8 항에 있어서, 기하학적 변환 함수로 스테레오그래픽 투영(stereographic projection)을 사용하고,
스테레오그래픽 투영(stereographic projection)의 역함수는 유클리드 공간
을 초구(hypersphere)
으로의 미분동형사상(diffeomorphism)이고,

의 좌표계를 p = (p1, ..., pn)이라고 하고, 초구(hypersphere)의 중심점(north pole)을 N = (0, ..., 1)이라고 하면,
스테레오그래픽 투영(stereographic projection)의 역함수
은,

으로 정의되는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 9 항에 있어서, 스테레오그래픽 투영(stereographic projection)의 역함수를 통해 두 점
을 투영한 후, 두 점 사이의 거리를 초구(hypersphere) 메트릭 측면에서 측정하면,

으로 정의되고,
여기서,
는
에 정의되는 거리함수이다. 기하학적으로
는 측지 거리로 고려되는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 10 항에 있어서, 구형 GAN에서 사용되는 메트릭 IPM(Integral Probability Metrics)을 최소화하기 위하여,
리만 매니폴드(Riemannian manifold)에 대한 기하학적 중심 모멘트를 정의하고, M은 보렐 σ 대수학, Σ을 가진 작고, 연결되어 있고, 측지 학적으로 완전한 리만 매니폴드라 하면,

와
는 모두 측정 가능한 공간 (M, Σ)에 정의된 확률 측정치이고, 두 확률 측정치
와
사이의 거리 측정값인 IPM은,

으로 정의되고,
F는 M에 대한 실제 값의 경계 측정 가능 함수의 클래스인 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 11 항에 있어서, M에 대한 기하학적 모멘트를 정의하면.
주어진 점 p₀에 관한 (M, Σ)상의
의 r 번째 중심 모멘트는,

으로 정의되고,
여기서,
및
이고,
은 M에서의 리만 거리 함수(Riemannian distance function)인 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 12 항에 있어서, 구형 GAN에서
와
사이의 새로운 IPM을 정의하면,
모멘트 차이를 기반으로 한 IPM은,

으로 정의되고,
여기서,
은 주어진 점 p₀에서 다른 점으로부터의 유한 거리 함수(bounded distance functions)의 클래스인 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
제 13 항에 있어서, IPM의 함수 공간은
을 중심으로 한 M상의 한정된 거리 함수의 집합이고, 구형 GAN은 거리 함수를 매개 변수화하면,

이고,
여기서, {xi}는 이미지 집합이고,
판별자를 매개 변수화하면,
이고,
여기서,
인 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치.
판별 네트워크의 특징공간을 구라고 가정하여 그 위에서 다차 모멘트를 최소화시켜 수학적으로 정의된 측도간의 메트릭을 새롭게 정의하여 훈련되는 네트워크의 거동을 예측할 수 있도록 하는 구형 GAN을 이용하여,
생성기에서 랜덤한 노이즈 z로부터 값을 받아들여 실제와 유사한 가짜 데이터를 생성하는 단계;
생성기에서 생성된 가짜 데이터를 판별기로 전달하는 단계;
판별기가 실제 데이터 및 가짜 데이터를 받아 훈련하고 n 차원 유클리드(Euclidean) 특징 공간에 매핑하는 단계;
각각 가짜 데이터와 실제 데이터의 특징점을 기하학적 변환에 의해 n 차원 초구(hypersphere)로 다시 매핑하는 단계;
매핑된 점을 사용하여 구형 GAN은 초구(hypersphere)의 중심점(north pole)을 중심으로 하는 기하학적 모멘트를 계산하는 단계;
구형 GAN의 판별기는 실제 및 가짜 샘플 간의 확률 측정의 모멘트 차이를 최대화하려고 시도하고, 생성기는 모멘트 차이를 최소화하여 판별자를 간섭하려고 시도하여 훈련하는 단계;를 포함하는 것을 특징으로 하는 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 방법.