KR20180132487A

KR20180132487A - 신경망에 복수의 태스크를 순차 학습시키는 방법

Info

Publication number: KR20180132487A
Application number: KR1020170087336A
Authority: KR
Inventors: 이정권; 신하늘; 김재홍; 김지원
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2017-06-02
Filing date: 2017-07-10
Publication date: 2018-12-12
Also published as: KR102391452B1

Abstract

신경망에 복수의 태스크를 순차 학습시키는 방법을 개시한다.
본 발명에서, 생성기 및 연산기로 구성되는 학자 모델을 제안한다. 제안된 학자 모델은 기학습한 태스크를 재현하기 위해 입력-타겟 데이터 쌍을 재현하고, 재현된 입력-타겟 데이터 및 새로운 태스크의 입력-타겟 데이터를 학습시켜 학자 모델을 업데이트 한다. 따라서 기학습한 태스크에 대한 실제 데이터에 접근할 수 없는 경우에도 기학습한 태스크에 대한 지식을 유지하면서 새로운 태스크를 학습할 수 있다.

Description

신경망에 복수의 태스크를 순차 학습시키는 방법{Method for Sequentially Training a Neural Network on Multiple Tasks}

본 발명은 인공 신경망의 학습 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

인간을 비롯한 영장류는 일생을 살아가는 동안 지속적으로 새로운 기술을 익히고 지식을 축적한다. 심지어 설치류와 같은 작은 척추 동물에게서도 뉴런 사이의 관계는 1년 이상 지속되는 것으로 알려져 있다. 또한, 영장류는 기존에 습득한 기억을 교란시키지 않고도 새로운 정보를 결합하여 그들의 인식 수준을 확장할 수 있다. 이러한 유연한 기억 시스템은 시냅스의 유연성과 안정성 사이의 적절한 균형으로부터 기인한다.

반면, 심층 신경망(deep neural networks)을 이용한 계속 학습(continual learning)에서는, 새로운 태스크를 학습하는 경우에 이전에 학습한 태스크를 수행하는 능력이 급격히 떨어지게 되는 'catastrophic forgetting'이라는 현상이 발생하게 된다. 인공 신경망에서는 입력과 출력간의 관계가 암시적(implicit) 매개 변수로 표현된다. 따라서 새로운 목적으로 신경망을 학습시키는 경우 이전에 습득한 지식을 거의 대부분 잊어버리는 결과를 초래할 수 있다. 이러한 문제점은 심층 신경망이 순차적인 학습을 통해 복수의 태스크를 학습하는 데에 장애가 되어 왔다.

'catastrophic forgetting' 또는 'catastrophic interference'라는 용어는 McCloskey와 Cohen에 의해 1980년대에 처음 소개되었다. 그들은 catastrophic interference는 신경망의 근본적인 한계이며, 신경망의 높은 일반화 능력으로 인한 단점이라고 주장했다. 현상의 원인에 대해 분석적으로 연구된 바는 없지만, 신경망은 입력이 갖는 고유의 특징을 매개변수화 하는 것이므로, 새로운 샘플을 학습하는 경우에는 이미 특징지어진 매개변수가 변경되어야 한다. 몇몇 연구들은 순차 학습 설정을 통해 도출된 경험적 결과를 설명하고, 과거의 데이터를 모두 재현하는 것과 같은 원시적인 해결책을 제공하기도 한다.

관련 연구는 그 범위를 현재의 태스크에 대해서만 데이터 접근이 가능한 특정한 상황으로 가정한다. 이러한 연구들은 이미 결정된 가중치에 대한 변경을 최소화하면서 네트워크 매개변수를 최적화하는 데에 포커스를 맞춘다. dropout 및 L2 regularization과 같은 정규화 방법이 새로운 학습에 대한 간섭을 줄이는 것으로 제안된 바 있다. Google에 의해 제안된 elastic weight consolidation(EWC) 또한 이전 태스크에 대한 중요도에 기반하여 특정 가중치를 보호함으로써 성능 손실을 완화할 수 있다는 것을 보여주고 있다.

다른 시도로써, 태스크 별로 특정된 매개변수로 신경망을 증대시키기도 한다. 일반적으로 입력과 가까운 레이어들은 보편적인 특징을 캡쳐하기 위해 공유되며, 독립적으로 구성된 출력 레이어들은 태스크 별로 구분되는 출력을 생성한다. 하지만, 별도로 구성된 출력 층위는 간섭에서는 자유로울 수 있으나, 앞선 레이어에서의 변경으로 인해 여전히 이전에 학습한 태스크에 대한 성능 손실이 발생한다. 일부 매개변수에 대해 학습율(learning rates)을 낮추는 것 또한 망각을 낮추는 것으로 알려져 있다. 최근에 제안된 방법인 Learning without Forgetting(LwF)는 공유된 신경망 매개변수에 대한 변경을 최소화함으로써 이미지 분류 작업에서의 순차 학습에 대한 문제점을 처리한다. 이 프레임워크에서, 새로운 태스크의 입력에 대한 신경망의 미세 조정 전 응답이, 간접적으로, 오래된 태스크에 대한 지식을 나타내며 학습 과정 전반에 걸쳐 유지된다.

비특허문헌 1: I. J. Goodfellow. NIPS 2016 tutorial: Generative adversarial networks. CoRR, abs/1701.00160, 2017. 비특허문헌 2: Z. Li and D. Hoiem. Learning without forgetting. In European Conference on Computer Vision, pages 614-629. Springer, 2016. 비특허문헌 3: J. Kirkpatrick, R. Pascanu, N. Rabinowitz, J. Veness, G. Desjardins, A. A. Rusu, K. Milan, J. Quan, T. Ramalho, A. Grabska-Barwinska, et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences, 114(13):3521-3526, 2017.

본 발명은 이미 학습한 태스크의 학습 데이터를 참조하지 않으면서, 복수의 태스크를 학습할 수 있는 신경망 기반 시스템을 제안한다. 특히, 이전에 학습한 태스크를 수행하는 성능을 유지하면서 새로운 태스크를 학습할 수 있는 신경망 기반 시스템을 제안한다.

본 발명의 일 실시예에 의하면, 학습한 태스크의 입력 데이터를 재현(replay)하는 생성기 및 입력 데이터에 대한 적절한 타겟 데이터를 연산하여 출력하는 연산기(solver)로 구성된 신경망 기반 시스템에 복수의 태스크를 순차 학습시키는 방법으로서, 기학습된 생성기 및 기학습된 연산기로부터 재현된 입력-타겟 데이터 쌍을 획득하는 과정 재현된 입력 데이터 및 새로운 태스크의 입력 데이터를 생성기에 학습시키는 과정 및 상기 재현된 입력-타겟 데이터 쌍 및 새로운 태스크의 입력-타겟 데이터 쌍을 연산기에 학습시키는 과정을 포함하는 복수의 태스크를 순차 학습시키는 방법을 제공한다.

본 발명의 다른 실시예에 의하면, 복수의 태스크를 학습하는 신경망 기반 시스템으로서, 기학습된 생성기로부터 이전에 학습한 태스크의 입력 데이터를 재현한 재현된 입력 데이터를 획득하고, 상기 재현된 입력 데이터 및 현재 태스크의 입력 데이터를 학습하여, 학습한 데이터를 재현하는 생성기 및 기학습된 연산기로부터 상기 재현된 입력 데이터를 입력으로 하여 출력된 재현된 타겟 데이터를 획득하고, 재현된 입력-타겟 데이터 및 현재 태스크의 입력-타겟 데이터를 학습하여, 학습한 태스크를 수행하는 연산기를 포함하는 신경망 기반 시스템을 제공한다.

본 발명의 다른 실시예에 의하면, 기존에 학습한 태스크를 재현하는 신경망 기반 시스템으로서, 입력 데이터를 학습하여 재현하는 생성기 및 입력-타겟 데이터를 학습하고, 상기 생성기로부터 재현된 입력 데이터에 대한 적절한 타겟 데이터를 연산하여 출력하는 연산기를 포함하는 신경망 기반 시스템을 제공한다.

본 발명에 의하면, 신경망이 복수의 태스크를 학습하는 경우에 과거의 데이터에 접근하기 어렵더라도 이전에 학습한 태스크에 대한 지식을 유지하면서 새로운 태스크를 학습할 수 있으며, 과거의 데이터에 대한 접근이 어려운 다양한 실제 상황에 적용하기 용이한 효과가 있다.

또한, 본 발명에 의한 신경망 기반 모델은 기존에 학습한 태스크를 재현할 수 있어, 기학습한 학습 데이터를 보존하고 있지 않더라도 다른 신경망에 동일한 태스크를 학습시킬 수 있는 효과가 있다.

도 1은 일련의 태스크에 대한 학자 모델의 전체 학습 과정을 도시한 도면이다.
도 2는 학자 모델에 포함된 생성기가 새로운 태스크를 학습하는 방법을 도시한 도면이다.
도 3은 학자 모델에 포함된 연산기가 새로운 태스크를 학습하는 방법을 도시한 도면이다.
도 4는 독립적인 태스크를 학습한 연산기에 대한 성능 실험 결과를 나타내는 도면이다.
도 5는 도메인이 서로 관련된 두 개의 태스크를 학습한 연산기에 대한 성능 실험 결과를 나타내는 도면이다.
도 6은 MNIST와 SVHN을 순차로 학습한 생성기로부터 생성된 샘플을 도시한 도면이다.
도 7은 LwF 알고리즘의 성능과 LwF-GR의 성능을 비교한 실험 결과를 나타내는 도면이다.
도 8은 서로 편향된 5개의 태스크를 순차적으로 학습한 연산기에 대한 성능 실험 결과를 나타내는 도면이다.
도 9는 1, 2, 3, 4 및 5에 대한 태스크를 학습한 생성기가 생성한 샘플을 나타내는 도면이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명은, 과거의 학습 데이터를 참조하지 않고도 순차적으로 심층 신경망(deep neural networks)을 학습시킬 수 있는 대안적인 방법을 제안한다. 본 발명에서 구현하는 심층 생성적 재현 프레임워크(deep generative replay framework)에서, 일련의 태스크를 순차적으로 학습하는 신경망 기반 시스템은 기학습한 데이터를 재현함으로써 이전에 습득한 지식을 유지한다. 특히, 본 발명에서, 과거 데이터를 모방하기 위한 심층 생성적 모델(deep generative model)을 생성적 대립 네트워크(Generative Adversarial Networks: GANs) 프레임워크를 통해 학습시킬 수 있다. 이하, 생성기(generator)는 생성적 모델과 같은 의미로, 혼용하여 기재된다. 생성기로부터 생성된 데이터는 이에 상응하는 연산기(solver)의 응답과 쌍을 이루어 이전 태스크를 나타내게 된다. 본 발명이 제안하는 시스템의 생성기-연산기 쌍은 모방 데이터와 이에 대한 적절한 타겟 데이터 쌍을 원하는 만큼 생산할 수 있고, 새로운 태스크를 학습할 때, 새로운 학습 데이터 사이에 생산된 데이터 쌍을 끼워 넣음으로써 생성기 및 연산기의 네트워크를 업데이트시킨다. 이하, 이러한 생산기-연산기 쌍으로 구성된 시스템을 학자(scholar) 모델이라 칭한다. 학자 모델은 이미 습득한 지식을 망각하지 않으면서 새로운 태스크를 배울 수 있을 뿐 아니라, 입력-타겟 쌍을 생성하여, 네트워크 구성이 다른 경우라 할지라도, 자신이 학습한 태스크를 다른 모델에게 학습시킬 수 있다. 본 발명의 학자 모델을 구성하는 생성기 및 연산기는 각각 별개의 심층 신경망을 통해 구현되는 학습 모델에 해당한다.

본 발명의 학자 모델은, 심층 생성적 재현 구조로, 실제의 과거 데이터를 다시 찾지 않고도 이미 습득한 지식을 유지하므로, 프라이버시 문제가 수반될 수 있는 다양한 실제적인 상황에도 적용 가능하다. 최근 GANs에 대한 기술적 진보를 통해 넓은 범위의 도메인에 대해서도 실제 데이터 분포를 재현해 낼 수 있음이 제안되고 있다. 비록 본 명세서에서는 학자 모델에 대한 테스트를 이미지 분류 태스크에 대해서만 논의하고 있으나, 본 발명의 학자 모델은 학습된 생성기가 태스크의 입력 데이터를 적절하게 재생산해 낼 수만 있으면 어떠한 경우라도 적용할 수 있다.

기존에도 catastrophic forgetting을 극복하기 위해 보완적인 네트워크 구조를 설계하려는 연구들이 진행된 바 있다. 이전에 학습한 태스크의 학습 데이터에 접근할 수 없는 경우, 태스크 네트워크에는 메모리 네트워크에서 생성된 모조 입력(pseudo-data) 및 이에 대한 모조 타겟(pseudo-target)이 주어진다. pseudorehearsal라고 불리는 이 방법에 의하면, 실제 데이터에 대한 접근 없이 모조 입력 및 모조 타겟을 통해 이전의 입력-출력 패턴을 유지한다. 태스크가 두 개의 바이너리 패턴을 결합하는 것과 같이 기초적인 것일 때에는, 랜덤 노이즈를 공급하고 그에 상응하는 응답을 얻는 것으로도 충분하다. 보다 최근의 연구는 작은 바이너리 픽셀 이미지와 같이 더 복잡한 데이터에 대한 계속 학습을 용이하게 하는 해마의 구조와 유사한 아키텍쳐를 제안한다. 그러나, 어떠한 연구도 추가적인 지도(supervision) 없이 의미있는 고차원 유사 입력을 생성해내기 어렵기 때문에 실제적인 문제로의 확장성을 입증하지는 못하고 있다.

본 발명에 따른 생성적 재현 프레임워크는 앞서 설명한 방법과는 달리, 이미 학습한 과거의 입력 분포를 이용하여 모조 입력들을 생성한다. 생성적 재현 구조는 실제의 현재 데이터뿐 아니라 생성된 과거 데이터(재현된 데이터)까지 모두 이용하여 네트워크를 공동으로(jointly) 최적화 한다는 점에서 다른 접근법과는 다른 장점이 존재한다. 따라서, 본 발명의 생성기가 과거 입력 데이터의 분포를 적절히 구현해내는 한, 복수의 태스크에 대한 수행 능력은 과거 및 현재의 실제 데이터를 축적하여 학습한 경우와 동일하게 된다.

본 발명의 생성적 모델은 식별할 수 있는(observable) 샘플을 생성해내는 어떠한 모델로도 구현될 수 있다. 구체적으로, 본 발명에서는, 실제로 주어지는 데이터 분포와 생성되는 샘플들의 데이터 분포 간의 유사도를 최대화하도록 학습된 심층 신경망에 기반한 심층 생성적 모델을 사용한다. 예컨대, 이미지와 같은 복잡한 샘플을 모방해낼 수 있는 GANs과 같은 심층 생성적 모델을 사용할 수 있다. GANs에 대해서는 비특허문헌 1에 상세하게 설명되어 있으므로 자세한 설명은 생략한다.

이하 본 발명에서 제안하는 심층 생성적 재현 프레임워크 및 학자 모델에 대해 설명한다.

먼저, 몇몇 용어에 대해 정의한다. 계속 학습 프레임워크(continual learning framework)에서, 수행해야 하는 N개의 일련의 태스크는, 태스크 시퀀스 T=(T₁, T₂, …, T_N)와 같이 정의된다.

<정의 1> 태스크 T_i는 학습 데이터 예제 (x _i, y _i)로부터 얻은 데이터 분포 D_i에 대해서 모델을 최적화 하는 것이다.

다음으로, 본 발명에서 제안하는 시스템은 새로운 태스크를 배울 수 있을 뿐 아니라 다른 네트워크에 지식을 전달할 수 있기 때문에 학자 모델이라 칭한다. 학자 모델은 기존에 제안된 선생님-학생 프레임워크의 표준 개념과는 다른 것으로, 기존에 제안된 모델은 가르치거나 배우는 것 중 어느 하나만 가능하다는 점에서 본 발명에서 제안된 모델과 차이가 있다.

<정의 2> 학자 H는 튜플 <G,S>이며, 생성기 G는 실제와 같은 샘플들을 생산하는 생성적 모델이고, 연산기 S는 θ에 의해 매개변수화 되어지는 태스크 연산 모델이다.

연산기는 태스크 시퀀스 T에 포함된 모든 태스크를 연산해야 한다. 따라서, 태스크 시퀀스에 포함된 모든 태스크에 대한 손실의 불균일한(unbiased) 합을 최소화하는 것을 목적으로 하며, 태스크에 대한 손실은 다음의 수학식 1로 표현된다.

여기서, D은 전체 데이터의 분포이고 L은 손실 함수이다. 태스크 T_i에 대해 학습하는 동안에는, 연산기 모델에는 D_i로부터 도출된 샘플들이 주어진다.

도 1은 복수의 태스크에 대한 학자 모델의 전체 학습 과정을 도시한 도면이다.

도 2는 학자 모델에 포함된 생성기가 새로운 태스크를 학습하는 방법을 도시한 도면이다.

도 3은 학자 모델에 포함된 연산기가 새로운 태스크를 학습하는 방법을 도시한 도면이다.

이하, 본 발명의 학자 모델의 순차 학습에 대해 설명한다.

하나의 학자 모델에 대한 학습을 진행하는 과정, 즉, 최신 학자 모델을 복사한 뒤 복사된 모델을 참조하여 학자 모델을 학습시키는 과정은, 도 1과 같이, n-번째 학자 H_n(n>1)가 현재 태스크 T_n 및 이전 학자 H_n-1의 지식을 학습하는 방식을 통해 일련의 학자 모델

을 순차로 학습시키는 것과 같다.

학자 모델로부터 다른 학자 모델을 학습시키는 것은 생성기와 연산기를 각각 학습시키는 독립적인 과정을 포함한다. 먼저, 도 2를 참조하면, 새로운 생성기는 현재 태스크의 입력 x 및 이전 태스크로부터 재현된 입력 x'을 수신한다. 실제 데이터 및 재현된 샘플 데이터는 새로운 태스크 및 기학습한 태스크의 중요도에 따라 적절한 비율로 섞인다. 생성기는 실제 데이터와 재현 데이터의 입력을 재구성하도록 학습하고, 새로운 연산기는 실제 데이터와 재현 데이터가 섞여있는 데이터를 이용해 입력과 타겟을 연결하도록 학습한다. 도 3을 참조하면, 새로운 연산기는 실제 입력-타겟 쌍(x,y) 및 재현된 입력-타겟 쌍(x', y')을 학습하며, 여기서 재현된 응답 y'는 이전에 학습된 연산기(이전 학자 모델의 연산기)에 생성된 입력이 주어진 경우에 얻는 응답이다. 즉, 재현된 타겟은 재현된 입력 데이터에 대한 기학습된 연산기의 출력에 해당한다.

i 번째 연산기의 학습 손실은 다음 수학식 2와 같은 공식으로 주어진다.

여기서, θ _i 는 i번째 학자의 네트워크 매개변수이고, r은 전체 데이터에서 실제 데이터가 차지하는 비율이다.

본 발명은 이전에 학습한 모든 태스크에 대한 수행 능력을 평가하는 것을 목적으로 하므로, 테스트 손실은 학습 손실과는 다르게 다음 수학식 3과 같이 주어진다.

여기서, D_past는 기학습한 데이터의 축적된 분포이다.

두 손실 함수에서 i=1인 경우 두 번째 손실 항은 무시하며, 이는 첫 번째 연산기의 경우에는 재현된 데이터를 사용하지 않기 때문이다.

이하 본 발명에서 제안하는 학자 모델에 대한 학습 능력 및 태스크 수행 성능을 검증하기 위해 진행한 실험 결과들에 대해 설명한다.

주요 실험에 앞서, 본 발명에 의한 학자 모델만으로도 빈 네트워크를 학습 시킬 수 있다는 것을 보여주기 위해 실험한 결과를 표를 통해 나타낸다. MNIST 필기 숫자 데이터베이스를 분류하는 태스크를 테스트하였다. 일련의 학자 모델은 이전 학자 모델의 생성적 재현 구조를 통해 학습하였다. 전체 테스트 데이터에 대한 분류의 정확성에 대한 결과가 다음의 표 1에 나타나 있다.

	Solver1	Solver2	Solver3	Solver4	Solver5
Accuracy(%)	98.81%	98.64%	98.58%	98.53%	98.56%

표 1의 실험 결과를 통해 학자 모델이 습득한 지식을 다른 모델에게 전달할 수 있음을 확인할 수 있다. 구체적으로, 첫 번째 연산기는 실제 MNIST 데이터베이스에 포함된 데이터를 학습하였고, 이어지는 연산기들은 이전의 학자 네트워크를 통해 학습하였다. 성능 측정은 MNIST 데이터베이스의 모든 데이터를 이용하여 진행되었다.

다음의 실험은, 본 발명의 생성적 재현 프레임워크가 다양한 순차 학습 설정에 적용 가능함을 보여준다. 학자 네트워크에 기반한 생성적 재현 구조는, 다른 계속 학습 방법과는 달리, 생성적 모델의 성능이 태스크 수행 성능의 유일한 제약(constraint)이라는 점에 장점이 있다. 즉, 생성적 재현 프레임워크로 학습된 네트워크는 생성적 재현 구조가 최적의 모델인 경우에 전체 데이터에 대해 공동으로 학습하는 것과 동일한 성능을 보여준다. 본 실험에서는 최선의 결과를 도출하기 위해, WGAN-GP를 사용하여 생성기를 학습시켰다.

가장 기초적인 실험으로, 생성적 재현 구조가 이전 태스크 또는 새로운 태스크에 대한 수행 능력을 저하시키지 않으면서 순차적으로 학습할 수 있는지를 테스트하였다. 먼저, 망각의 범위에 대해 조사하기 위해 독립적인 태스크들을 순차적으로 학습시키는 테스트를 진행하였다. 다음으로, 도메인이 서로 관련된 두 개의 태스크에 대해 네트워크를 학습시켰다. 이를 통해 생성적 재현 구조가 계속 학습을 가능하게 할 뿐만 아니라 알려진 다른 계속 학습 구조와 호환될 수 있음을 입증하였다. 마지막으로, 본 발명의 학자 모델이 서로 관련성이 없는 태스크에 대한 지식을 습득하여 메타-태스크를 수행할 수 있음을 보인다.

이하 설명하고자 하는 실험에서는 여러 재현 방법을 통해 연산기를 학습시키고 그 성능을 비교하였다. 도면에서 본 발명이 제안하는 생성적 재현 구조는 GR로 표기된다. 생성기가 완벽한 경우를 가정하여 이를 태스크 수행 성능에 대한 상한으로 구체화한다. 생성기가 완벽한 경우를 가정하기 위해, 본 실험에서는 실제 과거 데이터 및 이전의 연산기 네트워크에서 예측한 타겟을 재현 데이터로 사용하였다. 이 경우를 정확한 재현(exact replay)을 의미하는 ER로 표기한다. 또한, 생성된 샘플이 실제 분포와 전혀 유사하지 않은 반대의 경우를 고려하여 Noise로 표기하였다. 단순하게 새로운 데이터를 학습한 경우는 None으로 표기하였다. 도 4 내지 도5 및 도 7 내지 도 8에서는 설명한 표기가 공통으로 사용된다.

먼저, 각 태스크가 독립적인 경우에 대해 설명한다.

도 4는 독립적인 태스크를 학습한 연산기에 대한 성능 실험 결과를 나타내는 도면이다. 도 4의 (a)는 순차적인 학습이 이루어지는 동안에 각 태스크에 대한 성능을 실험한 결과를 나타내는 도면이다. 도 4의 (b)는 학습한 태스크에 대한 평균 테스트 정확도를 나타내는 도면이다.

계속 학습에 대한 기존의 연구에서 사용되는 가장 일반적인 실험은 입력이 MNIST 필기 숫자 데이터베이스로부터 이미지를 추출하고 각 태스크마다 입력 이미지의 픽셀 값을 고유한 무작위 순열 시퀀스에 의해 섞어 단순 분류하는 것이다. 연산기는 이러한 변형된 입력 이미지를 원래의 클래스로 분류해야 한다. 이 경우 대부분의 태스크는 기술적으로 서로 독립적이게 되므로 메모리의 보존 정도를 측정할 수 있다.

실험 결과, 생성적 재현 구조는 이전의 태스크의 학습 데이터를 상기하면서 이전의 지식을 유지하는 것을 확인할 수 있었다.

도 4의 (a)를 참조하면, 본 발명의 생성적 재현 구조에 의한 연산기는 복수의 태스크에 대한 순차 학습 과정 전반에서 이전에 학습한 태스크에 대한 수행 능력을 유지하고 있지만(GR), 단순하게 순차 학습한 연산기의 경우에는 그렇지 않다(None). 즉, 재현 데이터 또는 모방 데이터에 대한 학습이 없는 경우 이전 태스크에 대한 수행 능력이 현저하게 떨어진다.

도 4의 (b)는 반복되는 태스크 수행에서 보여지는 평균적인 정확도를 나타낸다. 본 발명의 생성적 재현 구조를 통해 학습한 연산기는 학습한 태스크에 대해서 거의 완전한 성능을 달성하는 반면에(GR), 단순히 연산기 하나만을 이용해 순차학습한 경우에는 catastrophic forgetting이 발생하는 것을 확인할 수 있다(None). 랜덤 가우시안 노이즈를 입력하고 이와 쌍을 이루는 응답을 재현한 경우에도 성능 손실을 개선하는데 도움이 되지 않았다(Noise). 즉, 재현된 데이터가 과거의 실제 데이터와 유사한 경우 더 높은 정확도를 보여준다.

동일한 네트워크에서 독립적인 태스크를 학습하는 것은 태스크 간에 공유되는 정보가 없기 때문에 비효율적이다. 따라서, 다음으로는 복수의 태스크에 대한 학습이 서로 도움이 되는 합리적인 설정을 통해 본 발명에서 제안하는 모델의 장점을 설명한다. 특히, 의미론적으로(semantically) 같은 클래스를 공유하는 새로운 도메인까지 클래스를 확장한다.

복수의 도메인 상에서 동작하는 모델은 단일 도메인에서 동작하는 모델에 비해 몇 가지 장점을 갖는다. 먼저, 도메인들이 완전히 독립적인 것이 아니라면, 한 도메인에 대한 지식이 다른 도메인을 빠르고 정확하게 학습하는데 도움이 된다. 또한, 복수의 도메인 영역에 대한 일반화는 보이지 않는 도메인에 대해서도 적용할 수 있는 보편적인(universal) 지식이 될 수 있다. 이러한 현상은 객체를 분류하는 법을 배우는 유아에게서도 관찰된다. 비슷한 다양한 객체를 마주치게 되면, 유아는 해당 범주 내에서 공유되는 특성을 추론하고, 새로운 객체가 어떠한 범주에 속해야 하는지를 추론할 수 있다.

본 실험에서는, 학자 모델이 생성적 재현 구조에 새로운 도메인에 대한 지식을 포함시킬 수 있는지를 확인하였다. 특히, 본 학자 모델에 대해 MNIST 데이터 셋 및 SVHN 데이터 셋에 대한 분류를 순차적으로 학습하도록 하였고, 반대의 순서로도 학습을 진행하였다. 자세한 결과는 도 5 및 도 6을 참조하여 설명한다.

도 5는 도메인이 서로 관련된 두 개의 태스크를 학습한 연산기에 대한 성능 실험 결과를 나타내는 도면이다. 도 5의 (a)는 MNIST를 먼저 학습하고 SVHN 데이터를 다음에 학습한 결과를 도시한 것이며, (b)는 반대의 경우를 도시한 것이다.

도 6은 MNIST와 SVHN을 순차로 학습한 생성기로부터 생성된 샘플을 도시한 도면이다. 각각은 SVHN 데이터 셋에 대한 학습을 1000번, 2000번, 5000번, 10000번 및 20000번 반복한 결과를 나타낸다. 도면을 참조하면, 생성기로부터 생성된 샘플들은 SVHN 또는 MNIST의 실제 입력 데이터와 매우 유사한 유사 데이터에 해당한다.

도시된 바와 같이, 생성적 재현 구조에 의해 이전의 데이터를 상기하여 학습한 경우(GR(M/S))에, 실제 입력을 통해 예측한 응답처럼(ER(M/S)), 먼저 학습한 도메인에 대한 지식이 유지되었다. 연산기 하나만을 이용하여 순차학습 한 경우에는 이전에 학습한 도메인에 대한 망각이 발생하였으며, 평균적인 성능 결과 또한 낮게 나타났다(None(M/S)).

도 5를 참조하면, 이전의 태스크에 대한 성능과 새로운 태스크에 대한 성능을 확인할 수 있다. 어떠한 재현 데이터도 없이 단일 연산기만을 이용하여 학습한 경우에는 이전의 태스크에 대한 수행 능력이 떨어지는 것으로 나타났다. MNIST와 SVHN는 입력 데이터가 유사한 공간적인 구조를 공유하기 때문에, 앞선 태스크에 대한 성능이 완전히 0으로 떨어지지는 않았지만, 하락폭은 크게 나타났다(None). 대조적으로 생성적 재현 구조를 통해 학습한 연산기는 이전의 태스크에 대한 성능을 유지하면서 다음 태스크에 대해서도 학습이 이루어졌다(GR(M/S)). 실제 입력 데이터 및 이전 연산기의 예측 데이터를 재현 데이터로 이용한 경우(ER(M/S))와 비교해보았을 때도 성능이 전혀 뒤쳐지지 않는 것을 확인할 수 있다. 두 케이스 모두에서, 재현 데이터 없이 학습한 모델은 새로운 태스크에 대해 전적으로 최적화되었으므로 새로운 태스크에 대해서 근소하게 성능이 더 우수한 것으로 나타났다.

생성적 재현 구조는 다른 계속 학습 모델과도 호환이 가능하다. 예컨대, Learning without Forgetting(LwF)와 같은 재현 모델과도 호환 가능하다. LwF는 작업 별 출력 레이어를 사용하기 위해서 어떤 태스크가 수행되고 있는지를 나타내는 컨텍스트 정보를 필요로 하기 때문에, 각 태스크에 대해서 별도의 성능 테스트를 실시하였다. 그러나 본 발명과 같이 생성적 재생 구조의 학자 모델의 경우에는 태스크 별 컨텍스트를 요구하지 않는다. 비특허문헌 2에서 LwF에 대한 상세한 설명을 참조할 수 있다.

도 7은 LwF 알고리즘의 성능과 LwF-GR의 성능을 비교한 실험 결과를 나타내는 도면이다. 본 실험에서 네트워크는 SVHN과 MNIST 데이터베이스를 순차적으로 학습하였다.

도 7을 참조하면, LwF 알고리즘의 성능과 LwF-GR의 성능을 비교하였고, 태스크 별로 각각 입력 데이터를 생성하여 이전의 네트워크로부터 결과 데이터를 얻었다. 본 실험에서는 본래의 문헌에서 제안된 것과 동일한 학습 구조(regime)를 사용하였다. 즉, 새로운 태스크 학습을 위해 네트워크의 헤드 부분에 준비과정(Warm-up)을 거친 뒤, 전체 네트워크에 대해 미세 조정(Fine-tune)하였다. 원래의 LwF 알고리즘으로 학습한 연산기는 미세 조정이 시작된 이후에는 공유된 네트워크에서 변경이 이루어져, 먼저 학습한 태스크에 대한 수행 능력에 현저한 손실이 있었다(LwF(S)). 그러나, 생성적 재현 구조에 의해 학습된 네트워크는 대부분의 이전 지식을 유지했다(LwF-GR(S)).

도 8은 서로 편향된 5개의 태스크를 순차적으로 학습한 연산기에 대한 성능 실험 결과를 나타내는 도면이다.

도 9는 1, 2, 3, 4 및 5에 대한 태스크를 학습한 생성기가 생성한 샘플을 나타내는 도면이다. 도면과 같이, 생성기는 학습을 통해 누적적으로 태스크의 입력 데이터 분포를 재생산하도록 학습한다.

각 태스크의 입력과 타겟이 고도로 편향되어 있는 경우에도 생성적 재현 구조가 과거의 지식을 기억할 수 있음을 설명하기 위해서, 네트워크가 학습할 데이터가 서로 다른 범주에 속하는 경우에 대한 실험을 수행하였다. 특히, 한 번에 적은 수의 클래스에 대해서만 접근이 가능한 경우를 가정하였다. 클래스 간 서로 배타적인 부분 집합(subsets)에 대해서 순차적으로 학습하고, 모든 클래스를 정확하게 분류해야 한다. NMIST 데이터베이스를 사용하여 진행되었다.

네트워크 응답이 새로운 타겟 분포에 맞춰 변경되기 때문에, 표준 설정에서는 복수의 클래스 마다 독립적으로 인공 신경망을 학습시키는 것이 어렵다. 따라서 각 태스크를 균형적으로 네트워크에 훈련시키기 위해서는 이전의 입력과 타겟 분포를 나태는 입력-출력 데이터를 재현하는 것이 필수적이다. 앞서 설정한 실험 비교군에 대해서 누적된 입력-타겟 분포의 복원 정도를 비교한다. ER 모델 및 GR 모델의 입력-타겟 분포는 모두 누적된 분포를 나타낸다. 잡음 모델은 누적 타겟 분포를 유지하지만, 입력 분포는 현재 분포만을 반영한다. None 모델은 입력-타겟 분포 모두 현재 분포만을 나타낸다.

본 실험에서, 네트워크는 최초 0과 1을 구분하는 태스크를 학습하고, 다음으로 2와 3을 구분하는 태스크를 학습하고, 같은 방식으로 총 5개의 태스크를 학습한다. 과거의 데이터는 완전히 버려지는 것으로 가정하였기 때문에, 생성기는 이전 생성기에서 생성된 샘플과 현재의 입력을 모두 모방하도록 학습한다. 따라서 생성기는 지금까지 학습한 모든 예제의 누적적인 입력 데이터 분포를 재생산한다. 도 9에 도시된 바와 같이, 학습된 생성기로부터 생성된 샘플들은 기존에 학습한 클래스와 동일한 예제들을 포함하고 있다.

도 8에서, MNIST 데이터 셋은 5개의 분리된 부분집합으로 나누어지고, 각각은 2개의 클래스에서 추출된 샘플만을 포함한다. 도면을 참조하면, 본 발명에서 제안된 네트워크(GR)만이 상한(ER)에 가까운 테스트 결과를 보여준다. 네트워크가 순차적으로 부분집합에 대한 학습을 진행하였을 때, 단순히 연산기만을 학습시킨 경우 이전에 학습한 클래스에 대해서는 완전히 망각하며 새롭게 학습한 데이터에 대한 부분 집합에 대해서만 배운 것을 확인할 수 있었다(None). 입력 분포에 대한 의미있는 데이터 없이 출력 분포만을 재현하는 경우에는 지식을 유지하는 것에 도움이 되지 않는다는 것을 확인할 수 있다(Noise). 입력과 출력 분포가 모두 재구성될 때, 생성적 재현 구조는 이전에 학습한 클래스를 모두 상기시키고 모든 클래스를 구별할 수 있었다.

본 발명은 이전에 학습한 예제를 모방하는 모조 데이터를 생성하고 재현함으로써, 복수의 태스크에 대한 순차 학습을 가능하게 하는 심층 생성적 재현 프레임 워크를 제안하였다. 학습된 학자 모델은 태스크의 지식 기반 역할을 하는 생성기와 연산기로 구성된다. 비록 학자 모델이 이전의 학자 모델을 참조하여 순차적으로 지식을 습득하는 것으로 서술하고 있지만, 관련된 다른 문제들을 해결하기 위해 구성에 변경을 가할 수 있다.

본 발명에서 제안하는 방법과 비교 가능한 것으로 기존에 제안된 EWC와 같은 정규화 접근법과 LwF와 같이 공유 매개 변수를 조정하는 방법이 있다. 그러나 정규화 접근법의 경우 가중치를 보호하는 설정으로 인해 추가적인 손실이 생기기 때문에, 필연적으로 새로운 태스크와 과거의 태스크에 대한 수행 성능 간에 트레이드오프(tradeoff)가 존재한다. 모든 태스크에서 좋은 성능을 보장하기 위해서는 일반적으로 요구되는 것보다 더 큰 네트워크에 학습시켜야 한다. 또한, EWC와 같이 각 매개 변수에 특정한 제약 조건을 설정하는 경우에는 전체 태스크 학습을 통틀어 동일한 구조를 유지해야 하는 단점도 있다. LwF 또한, 성능이 태스크 간 관련성에 높게 의존하고, 새로운 태스크에 대한 학습 시간은 이전 태스크의 수에 따라서 선형적으로 증가하는 단점이 있다. EWC에 대한 상세한 사항은 비특허문헌 3에서 확인할 수 있다.

아래 표 2는 EWC, LwF 및 본 발명의 생성적 재현 구조를 비교한 것이다. 다른 두 모델과는 달리 생성적 재현 구조만이 실제 데이터를 공동으로 학습한 것과 동일한 결과를 보여준다.

	EWC	LwF	Generative Replay
성능 의존도	포화시까지	태스크의 유사성에 의존	생성기에 의존
네트워크 사이즈	큼	증가	보통
태스크간 균형	어려움	중간	쉬움
이전 태스크 수행 성능	절충	절충	최적
새로운 태스크 수행 성능	절충	최적	최적
네트워크 유연성	없음	조금	높음

표 2에서, 현재까지 catastrophic forgetting을 극복하기 위한 연구 분야에서 가장 최선의 결과를 보이는 EWC, LwF와 본 발명의 생성적 재현 구조를 비교하여 나타내었다. 본 발명에 의한 방법은 이전의 접근법과는 완전히 다른 것으로, 생성된 입력-타겟 쌍을 이용하여 이전에 습득한 지식을 유지한다. 따라서 이전에 학습한 태스크와 새로 학습한 태스크에 대한 수행 능력이 잘 유지되며, 모델간 지식 전달이 가능한 유연한 모델을 제시한다. 중요한 점은, 태스크 학습의 목적(손실 함수 합의 최소화)에 따라 공동으로 네트워크를 최적화하기 때문에 이전 태스크의 입력이 생성기에 의해 재현되어야만 완벽한 성능을 보장한다는 것이다. 본 생성적 재현 프레임워크의 단점은, 생성기의 성능에 알고리즘의 효용성이 의존한다는 점이다.

앞서 비교된 세 가지 접근법이 서로 다른 차원에서 이전에 습득한 지식을 유지하기 때문에 서로 배타적인 것은 아니다. 여전히, 세가지 프레임 워크를 적절히 조합하는 경우에 계속 학습에서의 만성적인 문제에 대해 더 좋은 해결책을 얻을 수 있을 것이다.

생성적 재현 구조에 대한 앞으로의 연구에는, 강화 학습 도메인의 확장이나 자신의 복사본으로부터의 지식을 유지하면서 지속적으로 진화하는 네트워크를 개발하는 것이 포함될 수 있다. 또한, 심층 생성적 모델을 개선하면, 더 복잡한 도메인에 대한 생성적 재생 프레임워크의 성능을 직접적으로 향상시킬 수 있다.

이상에서 설명한 신경망 기반 시스템에 일련의 태스크를 순차적으로 학습시키는 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 즉, 컴퓨터가 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

학습한 태스크의 입력 데이터를 재현(replay)하는 생성기 및 입력 데이터에 대한 적절한 타겟 데이터를 연산하여 출력하는 연산기(solver)로 구성된 시스템을 통해 신경망에 복수의 태스크를 순차 학습시키는 방법으로서,
기학습된 생성기 및 기학습된 연산기로부터 재현된 입력-타겟 데이터 쌍을 획득하는 과정;
재현된 입력 데이터 및 새로운 태스크의 입력 데이터를 생성기에 학습시키는 과정; 및
상기 재현된 입력-타겟 데이터 쌍 및 새로운 태스크의 입력-타겟 데이터 쌍을 연산기에 학습시키는 과정
을 포함하는 신경망에 복수의 태스크를 순차 학습시키는 방법.
제 1항에 있어서,
상기 재현된 입력-타겟 데이터 쌍을 획득하는 과정은,
상기 기학습된 생성기로부터 재현된 입력 데이터를 획득하는 과정; 및
상기 기학습된 연산기로부터 상기 재현된 입력 데이터를 입력으로 하여 출력된 재현된 타겟 데이터를 획득하는 과정
을 포함하는 것을 특징으로 하는 신경망에 복수의 태스크를 순차 학습시키는 방법.
제 1항에 있어서,
상기 기학습된 생성기 및 기학습된 연산기는,
과거의 태스크를 학습한 생성기 및 연산기를 복사하여 생성된 네트워크들인 것임을 특징으로 하는 신경망에 복수의 태스크를 순차 학습시키는 방법.
제 1항에 있어서,
상기 생성기에 학습시키는 과정은,
생성적 대립 네트워크(Generative Adversarial Networks: GANs) 프레임워크를 통해 수행되는 것을 특징으로 하는 신경망에 복수의 태스크를 순차 학습시키는 방법.
신경망에 복수의 태스크를 순차 학습시키는 신경망 기반 시스템으로서,
기학습된 생성기로부터 이전에 학습한 태스크의 입력 데이터를 재현한 재현된 입력 데이터를 획득하고, 상기 재현된 입력 데이터 및 현재 태스크의 입력 데이터를 학습하여, 학습한 데이터를 재현하는 생성기; 및
기학습된 연산기로부터 상기 재현된 입력 데이터를 입력으로 하여 출력된 재현된 타겟 데이터를 획득하고, 재현된 입력-타겟 데이터 쌍 및 현재 태스크의 입력-타겟 데이터 쌍을 학습하여, 학습한 태스크를 수행하는 연산기
를 포함하는 신경망 기반 시스템.
제 5항에 있어서,
상기 기학습된 생성기 및 상기 기학습된 연산기는,
과거의 태스크를 학습한 생성기 및 연산기를 복사하여 생성된 네트워크들인 것임을 특징으로 하는 신경망 기반 시스템.
제 5항에 있어서,
상기 생성기는,
생성적 대립 네트워크(Generative Adversarial Networks: GANs) 프레임워크를 통해 학습하는 것을 특징으로 하는 신경망 기반 시스템.
학습한 태스크를 재현하는 신경망 기반 시스템으로서,
입력 데이터를 학습하여 재현하는 생성기; 및
입력-타겟 데이터 쌍을 학습하고, 상기 생성기로부터 재현된 입력 데이터에 대한 적절한 타겟 데이터를 연산하여 출력하는 연산기
를 포함하는 신경망 기반 시스템.