WO2021153864A1

WO2021153864A1 - 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템

Info

Publication number: WO2021153864A1
Application number: PCT/KR2020/009823
Authority: WO
Inventors: 백인영; 오상준; 곽태영
Original assignee: 주식회사 딥바이오
Priority date: 2020-01-28
Filing date: 2020-07-24
Publication date: 2021-08-05
Also published as: EP4099223A4; US20230072274A1; JP2023510837A; JP7431473B2; KR20210096342A; CN115023708A; EP4099223A1

Abstract

인공신경망에서 파국적인 망각 이슈(issue of catastrophic forgetting)를 해결하기 위하여, 뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)라고 불리는 간단하고 효과적이며 새로운 솔루션이 제안된다. 제안된 방법은 새루은 태스크를 학습하는 동안 연결 수준이 아닌 신경 수준에서 네트워크의 가소성을 제어하여 기존 지식을 보존한다. 뉴런-레벨 가소성 제어는 각 뉴런이 중요성을 평가하고 낮은 학습 속도를 적용하여 중요한 뉴런을 통합한다. 또한 스케쥴된 NPC(scheduled NPC; SNPC)라고 하는 NPC의 확장이 제안된다. 이 확장은 학습 스케줄 정보를 이용하여 중요한 뉴런을 보다 명확하게 보호한다. 점진적인 MNIST(incremental MNIST; iMNIST) 및 점진적인 CIFAR100(incremental CIFAR100) 데이터 세트에 대한 실험 결과는 NPC 및 SNPC가 연결 수준 통합 접근 방식에 비해 월등히 효과적임을 보이며, 특히 SNPC는 두 데이터 세트에서 탁월한 성능을 보여준다.

Description

뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템

인공신경망에서 파국적인 망각(catastrophic forgetting) 이슈를 해결하기 위하여, 뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)라고 불리는 간단하고 효과적이며 새로운 솔루션이 제안된다.

심층 신경망으로 인공 일반 지능을 실현하는 과정에서 파국적인 망각(atastrophic forgetting)은 여전히 가장 근본적인 도전 중 하나이다. 가장 많이 사용되는 학습 알고리즘인 경사하강법(gradient descent)은 여러 작업에 대한 신경망을 순차적으로 훈련시키기 위해 적용될 때 문제를 일으키게 된다. 경사하강법(gradient descent)이 현재 작업에 대한 신경망을 최적화 할 때, 이전 작업에 대한 지식은 새로운 지식에 의해 파국적으로(catastrophically) 덮어 써지게 된다.

문제의 최초 발견 [McCloskey Cohen (1989) McCloskey and Cohen] 이후 인공 신경망에서 파국적인 망각을 완화하기 위한 다양한 접근법이 제안되었다. 이러한 접근 방식 중 하나는 모든 미니 배치에 여러 작업의 데이터를 포함시키는 것이다. 이러한 방법은 이전 작업의 성능을 유지하는 데 효과적일 수 있지만 이전 작업에 대한 트레이닝 데이터를 유지해야 하는 오버 헤드가 발생한다. 이전 데이터의 제한된 일부만을 이용하거나 [Gepperth Karaoguz(2016)Gepperth and Karaoguz, Lopez-Paz(2017)] 이전 데이터를 사용하지 않고 [Li Hoiem(2018)Li and Hoiem, Shin et~al.(2017)Shin, Lee, Kim, and Kim, Kamra et~al.(2017)Kamra, Gupta, and Liu, Zacarias Alexandre(2018)Zacarias and Alexandre, Kim et~al.(2018)Kim, Kim, and Lee] 유사한 효과를 달성하려는 몇 가지 시도가 있었다.

또 다른 방법은 이전 지식이 포함된 신경망의 일부를 분리하고 네트워크의 다른 부분을 사용하여 새로운 작업을 배우는 것이다. 여기에는 네트워크의 다른 부분을 새 작업에 할당하여 새로운 작업을 학습할 수 있는 신경망을 위한 동적 아키텍처 설계가 포함된다. [Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra, Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars, Lee et~al.(2017)Lee, Yun, Hwang, and Yang] 제안된 알고리즘은 네트워크의 다른 부분을 사용하여 여러 작업을 학습하기 때문에 우리의 작업은 이러한 접근과 밀접하게 관련되어 있다. 여기서 부분의 단위는 개별 뉴런이다.

탄력적 가중치 통합(Elastic weight consolidation; EWC) [Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al.] 은 이 분야에서 만들어진 주목할 만한 발전이다. Fisher 정보 매트릭스의 대각선을 사용하여 EWC는 이전 작업에 중요한 신경망의 연결 가중치에 해당하는 매개 변수를 식별하고 통합한다. 이러한 방식으로 네트워크는 이전에 배운 지식을 유지하면서 덜 중요한 매개 변수를 사용하여 새로운 작업을 학습 할 수 있다. EWC는 많은 관심을 끌었으므로 많은 연구에서 채택되었다 [Lee et al. (2017) Lee, Kim, Jun, Ha, Zhang, Nguyen et al. (2017) Nguyen, Li, Bui, and Turner, Liu et al. (2018) Liu, Masana, Herranz, Van ~ de Weijer, Lopez 및 Bagdanov, Zenke et al. (2017) Zenke, Poole, Ganguli], EWC 단독의 성능은 상당한 개선의 여자가 있다 [Parisi et al. (2018) Parisi, Kemker, Part, Kanan, Wermter]. 최근 연구에서는 EWC를 정규화의 수단으로서 다른 방법과 결합하여 사용되었다 [Kim et~al.(2018)Kim, Kim, and Lee, Lee et~al.(2017)Lee, Yun, Hwang, and Yang].

* 선행기술문헌

- 비특허문헌 :

References

[Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars] Aljundi, R., Chakravarty, P., and Tuytelaars, T. Expert gate: Lifelong learning with a network of experts. pp. 3366-3375, 2017.

[De~Vries et~al.(2017)De~Vries, Strub, Mary, Larochelle, Pietquin, and Courville] De Vries, H., Strub, F., Mary, J., Larochelle, H., Pietquin, O., and Courville, A. C. Modulating early visual processing by language. pp. 6594-6604, 2017.

[Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra] Fernando, C., Banarse, D., Blundell, C., Zwols, Y., Ha, D., Rusu, A. A., Pritzel, A., and Wierstra, D. PathNet: Evolution channels gradient descent in super neural networks. arXiv preprint arXiv:1701.08734, 2017.

[Gepperth Karaoguz(2016)Gepperth and Karaoguz] Gepperth, A. and Karaoguz, C. A bio-inspired incremental learning architecture for applied perceptual problems. Cognitive Computation, 80 (5):0 924-934, 2016.

[He et~al.(2016)He, Zhang, Ren, and Sun] He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. pp. 770-778, 2016.

[Ioffe Szegedy(2015)Ioffe and Szegedy] Ioffe, S. and Szegedy, C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.

[Kamra et~al.(2017)Kamra, Gupta, and Liu] Kamra, N., Gupta, U., and Liu, Y. Deep generative dual memory network for continual learning. arXiv preprint arXiv:1710.10368, 2017.

[Kim et~al.(2018)Kim, Kim, and Lee] Kim, H.-E., Kim, S., and Lee, J. Keep and learn: Continual learning by constraining the latent space for knowledge preservation in neural networks. arXiv preprint arXiv:1805.10784, 2018.

[Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al.] Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A. A., Milan, K., Quan, J., Ramalho, T., Grabska-Barwinska, A., et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the national academy of sciences, pp. 201611835, 2017.

[Krizhevsky Hinton(2009)Krizhevsky and Hinton] Krizhevsky, A. and Hinton, G. Learning multiple layers of features from tiny images. 2009.

[LeCun et~al.(1998)LeCun, Bottou, Bengio, and Haffner] LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 860 (11):0 2278-2324, 1998.

[Lee et~al.(2017)Lee, Yun, Hwang, and Yang] Lee, J., Yun, J., Hwang, S., and Yang, E. Lifelong learning with dynamically expandable networks. arXiv preprint arXiv:1708.01547, 2017 a .

[Lee et~al.(2017)Lee, Kim, Jun, Ha, and Zhang] Lee, S.-W., Kim, J.-H., Jun, J., Ha, J.-W., and Zhang, B.-T. Overcoming catastrophic forgetting by incremental moment matching. pp. 4652-4662, 2017 b .

[Liu et~al.(2018)Liu, Masana, Herranz, Van~de Weijer, Lopez, and Bagdanov] Liu, X., Masana, M., Herranz, L., Van de Weijer, J., Lopez, A. M., and Bagdanov, A. D. Rotate your networks: Better weight consolidation and less catastrophic forgetting. arXiv preprint arXiv:1802.02950, 2018.

[Li Hoiem(2018)Li and Hoiem] Li, Z. and Hoiem, D. Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 400 (12):0 2935-2947, 2018.

[Lopez-Paz(2017)] Lopez-Paz, D. Gradient episodic memory for continual learning. Advances in Neural Information Processing Systems, pp. 6467-6476, 2017.

[Luo Wu(2017)Luo and Wu] Luo, J.-H. and Wu, J. An entropy-based pruning method for cnn compression. arXiv preprint arXiv:1706.05791, 2017.

[Luo et~al.(2017)Luo, Wu, and Lin] Luo, J.-H., Wu, J., and Lin, W. Thinet: A filter level pruning method for deep neural network compression. pp. 5068-5076, 2017.

[McCloskey Cohen(1989)McCloskey and Cohen] McCloskey, M. and Cohen, N. J. Catastrophic interference in connectionist networks: The sequential learning problem. 24:0 109-165, 1989.

[Mermillod et~al.(2013)Mermillod, Bugaiska, and Bonin] Mermillod, M., Bugaiska, A., and Bonin, P. The stability-plasticity dilemma: Investigating the continuum from catastrophic forgetting to age-limited learning effects. Frontiers in psychology, 4:0 504, 2013.

[Molchanov et~al.(2016)Molchanov, Tyree, Karras, Aila, and Kautz] Molchanov, P., Tyree, S., Karras, T., Aila, T., and Kautz, J. Pruning convolutional neural networks for resource efficient inference. arXiv preprint arXiv:1611.06440, 2016.

[Nguyen et~al.(2017)Nguyen, Li, Bui, and Turner] Nguyen, C. V., Li, Y., Bui, T. D., and Turner, R. E. Variational continual learning. arXiv preprint arXiv:1710.10628, 2017.

[Parisi et~al.(2018)Parisi, Kemker, Part, Kanan, and Wermter] Parisi, G. I., Kemker, R., Part, J. L., Kanan, C., and Wermter, S. Continual lifelong learning with neural networks: A review. arXiv preprint arXiv:1802.07569, 2018.

[Real et~al.(2018)Real, Aggarwal, Huang, and Le] Real, E., Aggarwal, A., Huang, Y., and Le, Q. V. Regularized evolution for image classifier architecture search. arXiv preprint arXiv:1802.01548, 2018.

[Salimans et~al.(2016)Salimans, Goodfellow, Zaremba, Cheung, Radford, and Chen] Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., and Chen, X. Improved techniques for training GANs. pp. 2234-2242, 2016.

[Shin et~al.(2017)Shin, Lee, Kim, and Kim] Shin, H., Lee, J. K., Kim, J., and Kim, J. Continual learning with deep generative replay. pp. 2990-2999, 2017.

[Simonyan Zisserman(2014)Simonyan and Zisserman] Simonyan, K. and Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.

[Ulyanov et~al.(2016)Ulyanov, Vedaldi, and Lempitsky] Ulyanov, D., Vedaldi, A., and Lempitsky, V. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016.

[Wikipedia contributors(2018)] Wikipedia contributors. Error function ― Wikipedia, the free encyclopedia, 2018. URL https://en.wikipedia.org/wiki/Error_function . [Online; accessed 23-Jan-2019].

[Yu et~al.(2018)Yu, Li, Chen, Lai, Morariu, Han, Gao, Lin, and Davis] Yu, R., Li, A., Chen, C.-F., Lai, J.-H., Morariu, V. I., Han, X., Gao, M., Lin, C.-Y., and Davis, L. S. NISP: Pruning networks using neuron importance score propagation. pp. 9194-9203, 2018.

[Zacarias Alexandre(2018)Zacarias and Alexandre] Zacarias, A. S. and Alexandre, L. A. Overcoming catastrophic forgetting in convolutional neural networks by selective network augmentation. arXiv preprint arXiv:1802.08250, 2018.

[Zenke et~al.(2017)Zenke, Poole, and Ganguli] Zenke, F., Poole, B., and Ganguli, S. Continual learning through synaptic intelligence. arXiv preprint arXiv:1703.04200, 2017.

본 연구에서 우리는 EWC의 한계를 보이고 뉴런-레벨의 가소성 제어 (NPC)라는 개선된 알고리즘을 제안한다. 이름에서 알 수 있듯이 NPC는 CNN(Convolutional Neural Network)에서 각 뉴런 또는 각 필터의 가소성을 제어하여 기존 지식을 유지한다. 이는 개별적인 연결 가중치를 통합하여 작동하는 EWC와 대조적이다. NPC의 또 다른 주요 특징은 중요한 매개 변수를 특정 값에 가깝게 유지하는 대신 학습률(learning rate)을 조정하여 중요한 뉴런을 안정화시키는 것이다. 이러한 특성은 NPC의 효율성을 높이는 것 외에도 작업 수에 관계없이 메모리 효율성을 높일 수 있다. 즉, NPC는 작업 별 매개 변수 값 집합 대신 뉴런 당 단일 중요도 값만 저장하면 되므로 작업 수에 관계없이 메모리 사용량이 일관되게 유지될 수 있다.

이전의 연구에서는 일반적으로 작업 전환의 정확한 타이밍이 알려져 있다고 가정했다. 따라서 학습 알고리즘은 작업이 변경될 때마다 여러 파라미터(매개 변수) 값 세트와 같은 컨텍스트를 명시적으로 유지하고 컨텍스트로 전환할 수 있었다. 반면 NPC는 정보를 유지하지 않고 각 뉴런의 중요성을 지속적으로 평가하고 중요도의 이동 평균에 따라 학습률을 간단히 조정하여 뉴런의 가소성을 제어한다. 따라서 NPC는 분류 손실(classification loss)을 계산하는 데 필수적으로 필요한 현재 작업의 식별자(ID)를 제외하고 학습 스케줄에 관한 정보를 요구하지 않는다. 한편, 미리 정해진 학습 스케줄이 있으면 NPC를 더욱 향상시킬 수 있다. 이를 위해 스케줄된 NPC(SNPC)라고 하는 NPC의 확장을 제안하여 학습 스케줄에 따라 중요한 뉴런을 보다 명확하게 보존한다. 각 작업에 대해 SNPC는 중요한 뉴런을 식별하고 다른 작업을 훈련하는 동안 이를 통합한다. 실험 결과는 NPC와 SNPC가 연결 수준 통합 접근 방식보다 치명적인 망각을 줄이는 데 실질적으로 더 효과적이라는 것을 보여준다. 특히, iMNIST 데이터 세트에 대한 SNPC 평가에서 파국적 망각의 영향은 거의 사라졌다.

뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)를 통한 파국적인 망각을 극복하기 위한 방법이 제공된다.

뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)를 통한 파국적인 망각을 극복하기 위한 방법을 수행하는 컴퓨팅 시스템이 제공된다.

점진적인 MNIST(incremental MNIST; iMNIST) 및 점진적인 CIFAR100(incremental CIFAR100) 데이터 세트에 대한 실험 결과는 NPC 및 SNPC가 연결 수준 통합 접근 방식에 비해 월등히 효과적임을 보이며, 특히 SNPC는 두 데이터 세트에서 탁월한 성능을 보여준다.

도 1은 연결-레벨과 뉴런-레벨 통합을 비교하기 위한 도면이다. 도 1(a)는 Task 1에 중요한 뉴런 및 연결을 나타낸다. 도 1(b)는 연결-레벨 통합이다. 중요한 연결이 통합되어 있으나 뉴런은 Task 2를 학습하는 동안 변경될 수 있는 다른 인커밍 연결에 의해 영향을 받을 수 있다. 도 1(c)는 뉴런-레벨 통합이다. NPC는 중요 뉴런의 모든 인커밍 연결을 통합하며 이는 뉴런의 지식을 보존하는데 더 효과적이다.

도 2는 중요도 값 C_i의 히스토그램의 예를 나타낸다. 도 2(a)는 균등화 전의 원래 분포이며, 도 2(b)는 균등화된 분포이다.

도 3은 iMNIST 데이터 세트에서 연속적인 학습 알고리즘의 검증 정확도를 나타낸다. 도 3(a)는 각 순간까지 훈련된 작업의 평균 검증 정확성을 나타내며, 도 3(b)는 학습 알고리즘에 따른 5 가지 작업의 훈련 곡선을 나타낸다. SNPC와 NPC는 연속적인 학습 알고리즘 중에서 각각 최고의 성능을 보여준다.

도 4는 iCIFAR100 데이터 세트에서 연속적인 학습 알고리즘의 유효성 검증 정확도를 나타낸다. 도 4(a)는 각 순간까지 훈련된 작업의 평균 검증 정확성을 나타내며, 도 3(b)는 학습 알고리즘에 따른 5 가지 과제의 훈련 곡선을 나타낸다. SNPC와 NPC는 연속적인 학습 알고리즘 중에서 각각 최고의 성능을 보여준다. 훈련 곡선 간의 차이는 iMNIST보다 iCIFAR100에서 더 두드러진다.

도 5는 서로 다른 설정 하에서의 다섯 번째 iCIFAR100 작업의 훈련 곡선을 나타낸다. 도 5의 (a)는 T₁에서 T₄까지 학습한 후의 SNPC 학습 T₅의 훈련 곡선이며, 도 5의 (b)는 무작위로 초기화된 파라미터로부터 뉴런의 14.33%(= r₅)만이 변화하도록 허용된 완전 VGG 네트(full VGG net)의 부분 훈련의 훈련 곡선이며, 도 5의 (c)는 무작위로 초기화된 파라미터에서 시작하여, 오리지널 모델의 14.33%만을 갖도록 축소된 부분 VGG 네트의 훈련의 훈련 곡선이다.

도 6은 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 개략적인 구성을 나타내는 블록도이다.

도 7은 본 발명의 일 실시예에 따른 컴퓨팅 시스템이 수행하는 뉴런-레벨 가소성 제어 방법을 나타내는 흐름도이다.

도 8은 본 발명의 일 실시예에 따른 컴퓨팅 시스템이 수행하는 스케줄된 뉴런-레벨 가소성 제어 방법을 나타내는 흐름도이다.

I. 이론적 배경이 되는 연구

본 발명의 이해를 돕기 위하여 이하에서는 먼저 본 발명의 이론적 배경이 되는 연구에 관하여 소개한다.

Abstract

인공신경망에서 파국적인 망각 이슈(issue of catastrophic forgetting)를 해결하기 위하여, 뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)라고 불리는 간단하고 효과적이며 새로운 솔루션이 제안된다. 제안된 방법은 새로운 태스크를 학습하는 동안 연결 수준이 아닌 신경 수준에서 네트워크의 가소성을 제어하여 기존 지식을 보존한다. 뉴런-레벨 가소성 제어는 각 뉴런이 중요성을 평가하고 낮은 학습 속도를 적용하여 중요한 뉴런을 통합한다.

또한 스케쥴된 NPC(scheduled NPC; SNPC)라고 하는 NPC의 확장이 제안된다. 이 확장은 학습 스케줄 정보를 이용하여 중요한 뉴런을 보다 명확하게 보호한다. 점진적인 MNIST(incremental MNIST; iMNIST) 및 점진적인 CIFAR100(incremental CIFAR100) 데이터 세트에 대한 실험 결과는 NPC 및 SNPC가 연결 수준 통합 접근 방식에 비해 월등히 효과적임을 보이며, 특히 SNPC는 두 데이터 세트에서 탁월한 성능을 보여준다.

1. 개요(Introduction)

문제의 초기 발견 [McCloskey Cohen (1989) McCloskey and Cohen] 이후 인공 신경망에서 파국적인 망각을 완화하기 위한 다양한 접근법이 제안되었다. 이러한 접근 방식 중 하나는 모든 미니 배치에 여러 작업의 데이터를 포함시키는 것이다. 이러한 방법은 이전 작업의 성능을 유지하는 데 효과적일 수 있지만 이전 작업에 대한 트레이닝 데이터를 유지해야 하는 오버 헤드가 발생한다. 이전 데이터의 제한된 일부만을 이용하거나 [Gepperth Karaoguz(2016)Gepperth and Karaoguz, Lopez-Paz(2017)] 이전 데이터를 사용하지 않고 [Li Hoiem(2018)Li and Hoiem, Shin et~al.(2017)Shin, Lee, Kim, and Kim, Kamra et~al.(2017)Kamra, Gupta, and Liu, Zacarias Alexandre(2018)Zacarias and Alexandre, Kim et~al.(2018)Kim, Kim, and Lee] 유사한 효과를 달성하려는 몇 가지 시도가 있었다.

또 다른 방법은 이전 지식이 포함된 신경망의 일부를 분리하고 네트워크의 다른 부분을 사용하여 새로운 작업을 배우는 것입니다. 여기에는 네트워크의 다른 부분을 새 작업에 할당하여 새로운 작업을 학습할 수 있는 신경망을 위한 동적 아키텍처 설계가 포함된다. [Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra, Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars, Lee et~al.(2017)Lee, Yun, Hwang, and Yang] 제안된 알고리즘은 네트워크의 다른 부분을 사용하여 여러 작업을 학습하기 때문에 우리의 작업은 이러한 접근과 밀접하게 관련되어 있다. 여기서 부분의 단위는 개별 뉴런이다.

탄력적 가중치 통합(Elastic weight consolidation; EWC) [Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al.] 은 이 분야에서 만들어진 주목할 만한 발전이다. Fisher 정보 매트릭스의 대각선을 사용하여 EWC는 이전 작업에 중요한 신경망의 연결 가중치에 해당하는 매개 변수를 식별하고 통합한다. 이러한 방식으로 네트워크는 이전에 배운 지식을 유지하면서 덜 중요한 매개 변수를 사용하여 새로운 작업을 학습할 수 있다. EWC는 많은 관심을 끌었으므로 많은 연구에서 채택되었다 [Lee et al. (2017) Lee, Kim, Jun, Ha, Zhang, Nguyen et al. (2017) Nguyen, Li, Bui, and Turner, Liu et al. (2018) Liu, Masana, Herranz, Van ~ de Weijer, Lopez 및 Bagdanov, Zenke et al. (2017) Zenke, Poole, Ganguli], EWC 단독의 성능은 상당한 개선의 여지가 있다 [Parisi et al. (2018) Parisi, Kemker, Part, Kanan, Wermter]. 최근 연구에서는 EWC를 정규화의 수단으로서 다른 방법과 결합하여 사용되었다 [Kim et~al.(2018)Kim, Kim, and Lee, Lee et~al.(2017)Lee, Yun, Hwang, and Yang].

2 뉴런-레벨 Vs. 연결-레벨 통합 (Neuron-level Versus Connection-level Consolidation)

EWC와 그 후속 연구[Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al., Lee et~al.(2017)Lee, Kim, Jun, Ha, and Zhang, Nguyen et~al.(2017)Nguyen, Li, Bui, and Turner, Liu et~al.(2018)Liu, Masana, Herranz, Van~de Weijer, Lopez, and Bagdanov, Zenke et~al.(2017)Zenke, Poole, and Ganguli]는 신경망의 연결 가중치에 지식이 저장된다는 개념에 중점을 두지만, 이러한 연결 간의 상관관계는 강조되지 않는다. EWC의 손실 함수는 아래 수식 (1)과 같이 정의된다. 여기서 T_n은 n번째 작업을 나타낸다.

(1)

신경망의 가중치는 대략 독립적이며 신경망은 그 가중치에 의해 선형 적으로 근사 될 수 있다는 암시적인 가정이 있다. 그러나 심층 신경망의 구조는 본질적으로 계층적이며 매개 변수 간에는 강한 상관관계가 있다. 따라서 매개 변수 값이 다른 값의 중요성에 영향을 줄 수 있으므로 연결 가중치를 독립적으로 고려하는 것은 적절하지 않다.

우리는 뉴런 또는 CNN 필터가 인공 신경망의 통합에 대한 지식의 기본 단위에 대한 개별 연결보다 더 적절하다고 주장합니다. 기존의 연결-레벨 알고리즘은 뉴런에 의해 표현되는 중요한 지식의 보존을 보장하지 않는다. 학습 알고리즘이 중요한 뉴런에 대한 연결 중 일부를 통합하더라도, 뉴런은 자유로운 수신 연결을 유지했을 수 있으며, 이 연결의 변경은 뉴런에 의해 전달되는 지식에 심각한 영향을 줄 수 있다.

도 1은 심층 신경망의 연결 수준 통합의 한계를 보다 명확하게 보여준다. 도 1에서 연결 가중치

과

의 값은 0에 가까우며 이는 학습 알고리즘이 그들의 중요도를 최소로 평가하도록 한다. 즉,

과

값을 개별적으로 변경하는 것이 Task 1의 출력에 중요한 영향을 미치지 않는다. 이러한 상황에서, 최소한의 중요성으로 인해, 연결 수준 알고리즘은 두 연결 파라미터를 통합하지 않는다. 그러나 후속 학습 중에 두 파라미터가 모두 빠르게 증가하면 Task 1에 심각한 영향을 줄 수 있다. 이들이 서로 밀접하게 연관되어 있기 때문이다. 이 문제점은 동일한 필터가 다른 위치의 여러 출력 노드 간에 공유되는 컨볼루션 레이어에서 특히 심각할 수 있다. 따라서, 연결 수준 통합 개념을 완벽하게 구현할 수 있더라도, 파국적인 망각을 완전히 제거할 수는 없다.

이 문제를 극복하기 위해 도 1(c)와 같이 연결-레벨이 아닌 뉴런-레벨에서 가소성을 제어 할 것을 제안한다. 제안된 알고리즘인 NPC는 개별적으로는 중요하게 평가되지 않을 수 있는 연결을 포함한 중요한 뉴런의 모든 인커밍 연결을 통합한다. 결과적으로 NPC는, 연결-레벨 통합 알고리즘보다 더 효과적으로, 중요하지 않은 뉴런의 변경으로부터 더 중요한 뉴런을 보호한다.

중요하지 않은 뉴런 Y에서 중요한 뉴런 X으로의 연결은 작을 수 있다. 그렇지 않으면 평가 알고리즘이 Y를 중요한 뉴런으로 결정하기 때문이다. 도 1의 예에서 NPC는 X의 모든 인커밍 연결을 통합하므로 결과적으로

의 값이 작게 유지되어

의 변경이 X에 심각한 영향을 미치지 않는다. 반면, NPC는 개별적으로 중요하더라도 목적지 뉴런(destination neuron)이 중요하지 않은 연결은 통합하지 않는다. 따라서, 전체적으로, 통합된 연결의 총 개수는 허용가능하다.

3. 뉴런-레벨 가소성 제어(Neuron-level Plasticity Control)

3.1 중요도 평가(Importance Evaluation)

각 뉴런의 중요성을 평가하기 위해 네트워크 프루닝 분야에서 사용되는 Taylor 확장에 기초하여 기준(criterion)을 조정한다[Molchanov et al. (2016) Molchanov, Tyree, Karras, Aila 및 Kautz]. 네트워크 정리에서 성능이 더 우수하다고 주장하는 다른 방법이 있지만 [Yu et ~ al. (2018) Yu, Li, Chen, Lai, Morariu, Han, Gao, Lin, Davis, Luo Wu (2017) Luo and Wu Luo et al. (2017) Luo, Wu, Lin]은 계산 효율성으로 인해 Taylor 기준을 선택하였다. 테일러 기준(Taylor criterion)은 역-전파(back-propagation) 동안 계산되는 뉴런에 대한 손실 함수의 경사도(gradient)로부터 계산된다. 따라서 이는 최소한의 추가 계산으로 훈련 과정에 쉽게 통합될 수 있다.

이 연구에서, 우리는 아래 수식 (4)로 표시된 정규화된 Taylor 기준의 이동 평균으로 시간 t에 i번째 뉴런n_i의 중요도 C_i ^(t)를 정의한다. 여기서 N_layer는 레이어의 노드 수이다.

(2)

(3)

(4)

만약 노드가 여러 위치(예를 들어, CNN의 컨볼루션 필터)에서 공유된다면, 우리는 원래 논문 [Molchanov et al. (2016) Molchanov, Tyree, Karras, Aila 및 Kautz]에 따라, 절대 값을 고려하기 전에 모든 위치의 중요도 값을 평균한다. 그러나 우리는 다른 수의 뉴런으로 구성된 층들 사이에서 더 엄격한 균형을 유지하기 위해, L2-norm 대신 수식 (3) 에서와 같은 2 차 평균(quadratic mean)을 사용한다.

우리의 초기 실험에서, 우리는 도 2(a)에서와 같이 분포가 대략 가우시안임을 발견했다. 우리는 상대적인 중요성을 더 잘 구별하기 위해, 아래 수식 (5)를 사용하여 분포를 균일 분포로 균등화하였다. 여기서,

는 보완 오차 함수(complementary error function)[Wikipedia contributors (2018)]이다. 그림 2 (b)는 이퀄라이제이션 후의 중요도 분포를 나타낸다.

(5)

3.2 가소성 제어(Plasticity Control)

안정성-가소성 딜레마(stability-plasticity dilemma)는 인공 및 생물학적 신경 시스템 모두에서 잘 알려진 제약이다[Mermillod et al. (2013) Mermillod, Bugaiska, Bonin]. 파국적인 망각(catastrophic forgetting)은 동일한 트레이드-오프 문제(즉, 다중 작업을 위한 신경망의 성능을 최대화하는 최적의 지점을 결정하려고 시도하는 것)의 결과로 볼 수 있다. 우리는 각 뉴런 n_i에 대해 다른 학습율(learning rate)

를 적용하여 각 뉴런의 가소성을 제어한다. 만약

가 높다면, 뉴런은 기존 지식을 빠르게 잃는 대신 새로운 지식을 적극적으로 배우게 된다. 반면에

가 낮으면 기존의 지식(knowledge)을 더 잘 보존할 수 있다. 그러나 그 뉴런은 새로운 지식을 배우기를 꺼려할 것이다.

신경망이 좋은 안정성-가소성 균형을 찾도록 장려하기 위해, 우리는 반대 역할을 하는

의 함수로 두 개의 손실을 정의하며, 그 후 우리는 그것들을 결합한다. 첫 번째는 기존 지식의 잊어버림을 최소화하기 위한 안정성 측면의 손실이다. 그것은

=0에서 시작하는 단조 증가 함수이며 현재의 지식의 양에 의해 제한되어야 한다. 우리는

를 사용하여 현재 지식의 상한을 휴리스틱하게 근사한다(여기서 a₁는 스케일링 상수이며

은 현재 트레이닝 단계임). 여기서, 우리의 실험에서는 일정한 속도(rate)로 새로운 작업(task)을 제공하기 때문에, 지식의 총량이 트레이닝 시간에 정비례한다고 가정한다.

의 단조 증가 함수를 만들기 위해,

를 상한(upper bound)과 결합한다. 여기서 b₁는 tanh함수의 기울기를 제어하기 위한 또 다른 상수이다. 결과적으로 안정성 손실(stability-loss)은

로 정의된다.

두 번째 함수는 새로운 지식에 대한 꺼림(reluctance)을 줄이기 위한 가소성 측면의 손실이다. 상한

=0에서 시작하여 0까지 단조로 감소하는

의 감소함수이다. 이 경우 상한은 기존 지식을 고려하지 않으며, 따라서, C_i혹은 t와는 관련이 없다. 따라서 가소성 손실(plasticity-wise loss)은

로 정의된다. 여기서 a₂와 b₂는 스케일과 경사를 제어하기 위한 상수이다.

안정성과 가소성의 균형을 찾기 위해 아래 수식 (6)의 결합 손실 함수를 최소화하는

을 선택한다.

=0으로 세팅하여, 우리는 아래 수식 (7)을 얻는다. 여기서

이다.

함수

의 성질은

혹은

인가 여부에 따라 크게 좌우된다. 만약

라면, 최적의

은 단순 계단 함수(simple step function)가 된다. 따라서, 우리는

를 제약 조건으로 설정한다.

만약

라면,

은

에 대해 엄격히 증가하고, 최적의

는 최소 값, 즉,

=0이다.

인 경우에 대하여, 우리는 위 수식 (7)을 풀기 위하여 Taylor 근사를 적용한다.

의 닫힌 형태의 역함수가 존재하지 않기 때문이다. cosh가 우함수(even function)라면, 아래 수식 (9)에서 볼 수 있는 바와 같이, 짝수 차수(even degree term)만이 남게 된다.

작은

에 대하여

라고 가정하면, 수식 (9)의 풀이는 아래 수식(10)과 같다. 이때

이다.

위 수식 (10)에서

일 때

=0이며, 이는 두 함수를 연속적으로 연결되도록 만든다. 각각

이고

일 때, 두 케이스를 결합하면, 수식 (7)의 솔루션은 아래 수식 (11)과 같이 주어진다. 이때 α,β>0는 하이퍼파라미터이다.

(11)

수식 (11)에서 C_i이 클수록

가 작아지므로 그 다음 학습에서 중요한 뉴런이 통합(consolidating)된다. 그러나 만약 C_i=0라면,

은 발산(diverge)한다. 이는 가소성-안정성 딜레마의 관점에서 설명할 수 있다. 만약 뉴런이 전혀 지식이 없다면, 기존 지식의 손실을 고려하지 않고 가능한 한 새로운 지식을 배우는 것이 바람직하다. 그러나 뉴런이 잃을 지식이 없더라도 학습 속도가 크지 않는 않지만 학습 효율을 높이는 적절한 학습률이기 때문에 이것은 실제로 잘못된 것이다. 따라서 큰 학습률로 인해 문제가 발생하지 않도록 학습률의 상한을 설정하였다. 수식 (7)의 최종 해는 아래 수식 (12)이다.

(12)

아래의 Algorithm 1은 NPC 알고리즘을 나타낸다. NPC는 미리 정해진 학습 스케줄 없이 실행되도록 설계되었지만 현재의 트레이닝 샘플이 속한 작업에 대한 지식이 필요하므로 각 작업의 손실을 계산하는 것이 불가피하다. 그러나 각 작업에 최적화된 최신 파라미터 세트와 같은 추가적인 작업-특화(task-specific) 정보가 필요하지는 않다. 역 전파 알고리즘에 의해 계산되는 활성화 및 경사도로부터 간단히 계산되는 것을 고려하면, NPC를 구현하는 오버 헤드는 최소가 된다.

3.3 인스턴스 정규화(Instance Normalization)

배치 정규화(Batch Normalization; BN)은 심층 신경망(deep neural network) 훈련에 중요한 역할을 한다 [Ioffe Szegedy (2015) Ioffe and Szegedy]. 그러나 평균 및 분산이 작업 전환에 크게 영향을 받기 때문에 연속적인 학습 환경에서는 바닐라 배치 정규화가 제대로 작동하지 않는다. 이 경우 조건부 일괄 처리 정규화 [De ~ Vries et al. (2017) De ~ Vries, Strub, Mary, Larochelle, Pietquin 및 Courville] 및 가상 일괄 정규화 [Salimans et al. (2016) Salimans, Goodfellow, Zaremba, Cheung, Radford 및 Chen]와 같은 몇 가지 대안이 있다. 그러나 이 두 가지 방법은 SNPC에 적용 할 수 있지만 작업-특화 정보를 유지 관리하므로 NPC에는 적합하지 않다. 따라서 아핀 변환(affine transform)과 이동 평균이 제거되는 인스턴스 정규화의 단순화된 버전 [Ulyanov et al. (2016) Ulyanov, Vedaldi 및 Lempitsky]을 적용한다. 인스턴스 정규화가 각 샘플에 독립적으로 적용될 수 있다는 것을 감안하면, 트레이닝 시간뿐만 아니라 테스트 시간에도 모델 파라미터를 특별한 조작 없이 작동한다.

4. 스케줄된 NPC (Scheduled NPC)

4.1 학습 스케줄을 이용하는 NPC (NPC Using Learning Schedule)

NPC는 미리 정해진 학습 스케줄에 의존하지 않는다. 그러나, 작업 전환 스케줄이 이용 가능할 때, 성능을 개선하기 위해 그 정보를 적극적으로 이용하는 것이 바람직하다. 학습 스케줄이 실제로 미리 정해진 것은 아니지만, 최근 연속적인 학습에 관한 연구는 비슷한 상황에서 평가된 바 있다. [Li Hoiem(2018)Li and Hoiem, Shin et~al.(2017)Shin, Lee, Kim, and Kim, Kamra et~al.(2017)Kamra, Gupta, and Liu, Gepperth Karaoguz(2016)Gepperth and Karaoguz, Lopez-Paz(2017), Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra, Lee et~al.(2017)Lee, Yun, Hwang, and Yang, Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars, Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al., Lee et~al.(2017)Lee, Kim, Jun, Ha, and Zhang, Nguyen et~al.(2017)Nguyen, Li, Bui, and Turner, Liu et~al.(2018)Liu, Masana, Herranz, Van~de Weijer, Lopez, and Bagdanov, Zenke et~al.(2017)Zenke, Poole, and Ganguli, Zacarias Alexandre(2018)Zacarias and Alexandre, Kim et~al.(2018)Kim, Kim, and Lee]

아래의 Algorithm 2는 작업 전환 스케줄에 대한 지식을 보다 적극적으로 활용하도록 설계된 NPC의 확장인 스케줄된 뉴런-레벨 가소성 제어 (Scheduled Neuron-level Plasticity Control; SNPC) 알고리즘을 제시한다.

학습이 시작되면 특정한 작업에 할당된 뉴런이 없기 때문에 모든 뉴런은 자유롭다(즉, 어떠한 작업이든 학습할 수 있다). 스케줄이 주어지면 SNPC는 각 작업에 가장 중요한 자유 뉴런의 부분 집합을 선택하여 해당 작업에 할당한다. 그런 다음 다른 작업을 배우면서 예측할 수 없는 방식으로 수정될 수 있는 자유 뉴런의 영향으로부터 선택된 뉴런을 보호한다. 이는 자유 뉴런으로부터 선택된 뉴런으로의 연결 가중치를 0으로 동결시킴으로써 달성된다. 그러나, 이러한 방식으로 자유 뉴런에서 선택된 뉴런으로의 연결을 제거하면 잠재적인 문제가 발생할 수 있다. 첫째, 신경망의 용량이 줄어들 수 있다. 둘째, 새로운 지식이 이전 작업에 대한 네트워크 성능을 향상시키지 못하게 할 수 있다. 첫 번째 문제는 모든 작업의 총합에 대해 모델 용량이 충분하지 않을 때 성능에 심각한 영향을 줄 수 있지만 더 큰 신경망에서는 비교적 쉽게 완화 할 수 있다. 두 번째 문제는 원격 가능성이 있지만 실제로 이러한 현상은 거의 예상 할 수 없다. 이전 작업에 대한 지식이 어떤 식으로도 유지되지 않으면 통합되지 않은 뉴런의 변경으로 인해 거의 항상 파국적인 망각을 야기할 수 있다.

4.2 작업별 뉴런 할당 (Per-task Neuron Allocation)

SNPC는 r_k×N_layer에 의해 각 작업에 할당 할 뉴런 수를 결정한다(여기서 r_k는 T_k에 할당되는 뉴런의 비율이며.

임). SNPC는 모든 계층에서 동일한 값을 공유하여 작업 간의 균형과 단순성을 향상시킨다.

그러나, 이전에 통합된 뉴런으로부터의 연결의 유용성이 해당 작업에 직접 할당된 뉴런에 필적하지 않는다는 점을 고려할 때, 작업별로 r_k를 균등하게 분배(r₁=r₂=...=r_k)해서는 안 된다. 전자가 후자보다 μ<1배만큼 유용하다면, 작업 T_k에 사용 가능한 연결의 총 유용성은 아래 수식 (13)에 따른 V_k에 비례하게 된다. 여기서, 첫 번째 항은 T_k에 할당된 뉴런 간 연결의 총 유용성을 나타내고, 두 번째 항은 이전에 통합된 뉴런에서 T_k에 대한 뉴런으로의 연결의 총 유용성을 나타낸다.

(13)

따라서 공정한 분배를 위해서는 모든 V_k가 모든 작업에 대해 동일해야 한다. 이 제약 조건은 일반적으로 닫힌 형태의 솔루션이 없는 비선형 관계를 나타내므로 우리는 수치적으로 해를 찾았다. 5개의 작업을 학습할 때(k=5), μ=0.5이고 r_k의 값이 각각 0.2862, 0.2235, 0.1859, 0.1610 및 0.1433 인 경우 신경망은 균형 잡힌 결과를 나타낸다. 최적의 분포는 작업의 어려움 또는 작업 간의 유사성과 같은 다른 요인에 의해 영향을 받을 수 있다. 그러나 이 연구에서는 이러한 작업-특화 요소를 고려하지 않는다.

5 실험(Experiments)

5.1 데이터셋 및 구현 세부사항(Datasets and Implementation Detail)

우리는 MNIST [LeCun et~al.(1998)LeCun, Bottou, Bengio, and Haffner] 및 CIFAR100 [Krizhevsky Hinton(2009)Krizhevsky and Hinton] 데이터 세트의 증분 버전을 실험하였다. 여기서 L 클래스를 포함하는 데이터 세트는 L/K 클래스의 K 서브 세트로 나뉘며, 각각은 k 번째 작업으로 분류된다. MNIST 및 CIFAR100의 경우 K를 5로 설정하였다. 사전 처리를 위해, 두 데이터 세트 모두에 패딩 크기가 4 인 임의 자르기(random cropping)를 적용하고, 증분 CIFAR100 (iCIFAR100) 데이터 세트에 대한 추가적인 임의 수평 뒤집기(random horizontal flip)를 적용했습니다. 또한 일관성을 유지하기 위해, 모든 실험에서 하나의 에폭(epoch) 단위를 총 트레이닝 데이터 수가 표시되는 주기로 재정의하였다. 예를 들어, 원래 MNIST 데이터 세트에 60,000 개의 트레이닝 샘플이 있으므로, 12,000 개의 샘플을 5 번 처리하는 것으로 iMNIST 데이터 세트의 한 에폭을 정의하였다. 이러한 에폭의 새로운 정의와 함께, 우리는 iMNIST의 각 작업에 대한 하위 집합에서는 10 에폭만큼 모델을 학습하였으며, iCIFAR100의 각 하위 집합에서는 30 에폭만큼 모델을 학습했습니다. 우리는 실험에서 iCIFAR100의 첫 5 개의 부분 집합을 사용하였다. 우리는 모든 작업에 미니 배치 사이즈 256을 사용하였다.

우리는 VGG-16 [Simonyan Zisserman(2014)Simonyan and Zisserman] 네트워크를 약간 수정하여 사용하였다. 앞에서 설명한 것처럼 모든 배치 정규화 레이어를 인스턴스 정규화 레이어로 교체하였다. 최종 분류 계층(final classification layer)의 경우 각 대상 작업에 대해 완전 연결 계층(fully-connected layer)을 배치했습니다. 각 작업에 대한 교차 엔트로피 손실(cross-entropy loss)은 현재 작업에 속하는 출력 노드에서만 계산되었다.

우리는 모든 실험에서 α=0.1,

=0.1로 설정하였다. NPC의 경우 β를 200으로 설정하였다. 그러나 SNPC에서는 중요한 노드의 학습률을 0으로 완전히 떨어뜨릴 필요가 없었기 때문에 SNPC에 대서는 더 큰 값인 500을 설정하였다. 모든 실험에서 미니 배치 사이즈가 256 인 플레인 SGD 옵티마이저(plain SGD optimizer)를 사용하였다.

비교를 위해 EWC, L2 정규화 및 기준선 SGD라는 세 가지 기존 학습 알고리즘을 구현하였다. EWC의 경우 λ=1000으로 설정하여 실험 환경에서 최고의 성능을 보여주도록 하였다. NPC 알고리즘을 사용하지 않은 경우 학습률을 0.01로 설정하였다.

5.2 실험 결과(Experimental Results)

도 3 및 도 4는 각각 iMNIST와 iCIFAR100에서 5 가지 연속 학습 알고리즘 (NPC, SNPC, EWC, L2 정규화 및 SGD)의 성능을 나타낸다. 도 3에서 NPC 및 SNPC는 평균 정확도(accuracy) 측면에서 EWC 및 L2reg보다 우수한 성능을 보인다. 그들의 훈련 곡선은 네트워크가 NPC 또는 SNPC에 의해 훈련될 때 먼저 학습한 지식이 나중에 학습한 지식에 의해 훨씬 영향을 덜 받았다는 것을 보여준다. 특히 SNPC의 경우 첫 번째 작업의 성능은 후속 학습의 거의 영향을 받지 않는다. 그 결과는 SNPC가 그 영향이 사라지는 시점까지 iMNIST에 대해 파국적인 망각을 완화시킨다는 것을 보여준다.

우리는 iMNIST 데이터 세트에 대한 추가 구성을 테스트하였다. 매개 변수 별 가소성 제어 (parameter-wise plasticity control; PPC)는 뉴런 레벨이 아닌 연결 레벨에서 가소성을 제어한다. NPC와 마찬가지로, 우리는 테일러 기준을 사용하여 중요성을 평가하였다. 우리는 β=300을 사용했는데, 이는 PPC가 iMNIST 알고리즘의 마지막 작업을 충분히 배울 수 있도록 하는 β의 최소값이다. PPC의 성능은 NPC보다 나빴으며 이는 뉴런이 신경망 통합의 단위로서 연결보다 더 적절하다는 것을 확인시켜준다.

도 4는 NPC 및 SNPC가 iCIFAR100에서 다른 알고리즘보다 높은 평균 정확도를 제공하며 iMNIST보다 달성하기가 더 어렵다는 것을 보여준다. 그러나 NPC는 이전 작업보다 마지막 작업의 정확도가 낮다. 다른 알고리즘에서도 동일한 문제가 관찰되었지만 NPC에서는 더 심각하다. 우리는 주된 이유가 신경망의 부분적 통합이 모델의 학습 능력(learning capacity)을 소비하기 때문이라고 가정한다. 이러한 이슈는 iMNIST에서 명확하게 관찰되지 않았다. 그 단순성 덕분에 VGG 네트워크가 나머지 뉴런이 제공하는 최소 용량으로 이후 작업을 마스터 할 수 있었기 때문이다. NPC와 SNPC의 이러한 차이는 NPC가 기존 지식을 더 잘 보존하지만 모델의 학습 능력을 더 빨리 소비한다는 것을 보여준다. 즉, NPC는 작업 당 할당된 뉴런 수에 대한 제한이나 정규화가 없으므로 모델은 일반적으로 이전 작업에 대부분의 뉴런을 사용하는 경향이 있다. 따라서, NPC는 이전 작업에 대한 지식을 치명적인 망각으로부터 보호하기 위해 뉴런의 상당 부분을 통합하며, 그 결과로, 도 4에 표시된 것처럼, 마지막 작업에서 성능이 저하된다. 그러나 SNPC는 각 작업에 대해 r_k×N_layer 개의 뉴런만을 통합하고 이후의 작업이 특정 수의 뉴런을 활용하는 것을 보장하기 때문에 용량 소진 문제로 인해 어려움이 덜하다.

또한 우리는 신경망이 연속적인 학습을 위한 이전 작업보다 이후 작업을 더 빨리 학습한다는 것을 관찰하였다. 그 이유는 신경망이 이전 작업에서 배운 지식을 활용하므로 나중 작업이 전달 된 지식으로부터 이익을 얻을 수 있기 때문이다. 이를 명확하게 하기 위해, 우리는 SNPC가 마지막 작업을 배우면서 이전 작업에서 사전 훈련된 지식을 재사용하는지를 테스트하기 위한 간단한 실험을 수행하였다. 우리는 다른 설정에서 뉴런의 14.33%(r₅과 같은 비율)만 사용하여 iCIFAR100에서 3 개의 VGG 네트워크 인스턴스를 훈련하였다. 도 5에서 선 (a)은 4 가지 선행 작업 후의 SNPC 훈련 T₅의 학습 곡선을 나타낸다. 점선 (b)은 무작위로 초기화되고 고정된 다른 뉴런에 연결된 뉴런의 14.33%만 학습한 것을 나타낸다. 마지막으로, 점선 (c)은 네트워크가 무작위로 초기화된 매개 변수에서 시작하여 뉴런의 14.33%만을 학습할 때의 학습 곡선이다. 도 5는 SNPC가 다른 두 설정보다 훨씬 빠르게 작업을 학습함을 보여준다. 이는 SNPC가 이전 작업에서 얻은 지식을 적극적으로 재사용한다는 것을 확인한다.

6 결론(Conclusion)

본 연구에서는 뉴런 레벨에서 신경망의 가소성을 제어하는 NPC와 SNPC라는 두 개의 연속적인 학습 알고리즘을 제안했다. NPC는 각 작업에 최적화된 최신 매개 변수 세트와 같은 정보를 유지하지 않는다. 따라서 사전 정의된 학습 스케줄없이 실행할 수 있다. 반면, SNPC는 학습 스케줄이 미리 정의되어 있고 중요한 뉴런을 보다 명시적으로 보호하기 위해 적극적으로 활용한다. iMNIST 및 iCIFAR100 데이터 세트의 실험 결과에 따르면 NPC 및 SNPC는 연결 간의 관계를 고려하지 않는 기존의 연결 레벨 통합 알고리즘보다 훨씬 더 효과적이다. 특히, iMNIST 데이터 세트에 대한 SNPC의 결과에서는 파국적인 망각이 거의 사라졌다.

NPC와 SNPC는 연속적인 학습에서 눈에 띄게 개선되었지만 여전히 도전 과제가 남아 있다. 정보에 대한 NPC의 종속성은 최소이지만 분류 손실을 계산하려면 작업을 식별해야한다는 사실에 의해 여전히 제한된다. 또한 NPC는 가소성을 제어하는 단위와 방법을 정의하지만 각 뉴런의 중요성을 평가하고 관리하기 위한 전략은 탐색해 볼 여지가 있다.

실험하는 동안, 우리는 분류에서 최고의 성능을 보여주는 것이 아니라 지속적인 학습 환경에서 개념을 입증하는 데 더 집중하였다. 예를 들어, AmoebaNetReal et~al.(2018)Real, Aggarwal, Huang, and Le]과 같은 최신의 분류 모델은 단일 작업 환경에서 VGG보다 훨씬 높은 용량을 보여준다. 단순성을 선호하는 또 다른 선택은 인스턴스 정규화인데, 이는 성능을 위한 최선의 선택이 아닐 수도 있다.

보다 다양한 아키텍처에 NPC를 적용하기 위해 잔류 연결(residual connection)[He et~al.(2016)He, Zhang, Ren, and Sun]은 해결해야 할 장애물 중 하나이다. 여러 뉴런 출력의 합산을 해석하고 어떤 뉴런을 보존해야하는지 결정하는 것은, 특히 중요하고 중요하지 않은 뉴런이 추가 될 때에, 비-자명한 문제다.

iCIFAR100과 같은 일반적인 온라인 학습 벤치 마크는 동일한 작업을 다시 방문하지 않으므로 모델이 구절(passage)을 단순히 블록하여 파국적인 망각을 유발할 수 있다. 그러나 작업을 두 번 이상 훈련 할 수 있는 상황에서는 차후 작업를 학습하는 동안 획득한 지식을 통합하여 모델을 더욱 향상시키는 것이 바람직하다. 이것은 NPC에는 문제가 되지 않지만, SNPC에게는 나중 작업에 대한 뉴런이 이전 작업에 대한 뉴런에 의존하여 커질 수 있다는 점을 고려하면 문제가 될 수 있다. 충분히 작은 학습 속도를 사용하는 것 외에, 간단한 해결책 중 하나는 재검토 된 작업을 마치 새로운 작업 인 것처럼 취급하는 것이다. 그러나 이것은 파국적인 망각의 영향을 완화시킬 수 있지만, 모델의 용량이 훨씬 커야하므로 장기적인 관점에서 실제적인 문제를 일으킬 수 있다.

중요도 평가에 사용한 Taylor 기준과 유사하게 네트워크 정리에 대한 연구는 딥 러닝 모델이 놀랍도록 작은 크기로 복잡한 지식을 배울 수 있는 방법을 보여준다. 그러나 명시적인 개입이 없으면 심층 신경망은 실제로 필요한 것보다 더 많은 용량을 소비하는 경향이 있다. SNPC는 작업 별 뉴런 할당으로 이 문제를 피하지만 작업이 누적될 때 모델 용량이 소진되므로 NPC는 이 문제에서 제외되지 않는다. 모델의 크기에 관계없이 처음 몇 가지 작업이 대부분의 모델을 차지하는 경향이 있음을 관찰하였다. 우리는 모델이 작업 당 최소 용량을 사용하도록 강제하는 방법이 있다면 NPC가 큰 이익을 얻을 것이라고 생각한다.

II. 본 발명에서 제안하는 방법 및 시스템

상술한 위 연구에 따른 뉴런-레벨 가소성 제어(NPC) 또는 스케쥴된 NPC(SNPC)를 통해 파국적인 망각을 극복하기 위한 방법은 컴퓨팅 시스템에 의해 수행될 수 있다.

상기 컴퓨팅 시스템은 본 발명의 기술적 사상을 구현하기 위한 연산능력을 가진 데이터 처리장치를 의미하며, 일반적으로 네트워크를 통해 클라이언트가 접속 가능한 서버 등의 데이터 처리장치뿐만 아니라 개인용 컴퓨터, 휴대 단말 등과 같이 특정 서비스를 수행할 수 있는 어떠한 장치도 컴퓨팅로 정의될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

한편, 상기 컴퓨팅 시스템은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 컴퓨팅 시스템은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 컴퓨팅 시스템은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 상기 예측 모형 생성 시스템은 다수의 모듈의 형태로 구현될 수 있다.

본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.

도 6은 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 구성을 나타내는 도면이다.

도 6을 참조하면, 상기 컴퓨팅 시스템(100)은 입력모듈(110), 출력모듈(120), 저장모듈(130), 제어모듈(140)을 포함할 수 있다.

상기 입력모듈(110)은 본 발명의 기술적 사상을 구현하는데 필요한 각종 데이터를 상기 컴퓨팅 장치(110)의 외부로부터 입력받을 수 있다. 예를 들어, 상기 입력모듈(110)은 트레이닝 데이터셋, 각종 파라미터 및 /또는 하이퍼파라미터를 입력받을 수 있다.

상기 출력모듈(120)은 상기 컴퓨팅 시스템(100)에 저장되어 있거나 상기 컴퓨팅 시스템(100)이 생성한 데이터를 외부로 출력할 수 있다.

상기 저장모듈(130)은 본 발명의 기술적 사상을 구현하는데 필요한 각종 정보 및/또는 데이터를 저장할 수 있다. 예를 들어 상기 저장모듈(130)은 신경망 모델(neural network model), 트레이닝 데이터, 각종 파라미터 및/또는 하이퍼파라미터를 저장할 수 있다. 상기 저장모듈(130)은 RAM(Ramdom Access Memory)과 같은 휘발성 메모리나 HDD(Hard Disk Drive)난 SSD(Solid State Disk)와 같은 비휘발성 메모리를 포함할 수 있다.

상기 제어모듈(140)은 상기 컴퓨팅 시스템(100)에 포함된 다른 구성요소(예를 들면, 입력모듈(110), 출력모듈(120) 및/또는 저장모듈(130))을 제어할 수 있다. 상기 제어모듈(140)은 싱글코어 CPU나 멀티코어 CPU, GPU과 같은 프로세서를 포함할 수 있다.

또한 상기 제어모듈(140)은 상술한 연구에 따른 뉴런-레벨 가소성 제어(NPC) 또는 스케쥴된 NPC(SNPC)를 수행할 수 있다. 예를 들어, 상기 제어모듈(140)은 상기 저장모듈(130)에 저장된 신경망 모델 및 트레이닝 데이터를 상술한 NPC 알고리즘 또는 SNPC 알고리즘에 적용할 수 있다.

도 7은 상기 제어모듈(140)이 수행하는 뉴런-레벨 가소성 제어 방법을 나타내는 흐름도이다.

도 8은 상기 제어모듈(140)이 수행하는 스케줄된 뉴런-레벨 가소성 제어 방법을 나타내는 흐름도이다.

한편, 구현 예에 따라서, 상기 컴퓨팅 시스템(100)은 적어도 하나의 프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함할 수 있다. 상기 프로세서는 싱글 코어 CPU 혹은 멀티 코어 CPU를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체상태 메모리 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 프로세서 및 기타 구성 요소에 의한 메모리로의 액세스는 메모리 컨트롤러에 의해 제어될 수 있다.

한편, 본 발명의 실시예에 따른 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 메모리 혹은 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

본 발명은 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템에 이용될 수 있다.

Claims

제1뉴런 내지 제N뉴런(여기서, N은 2 이상의 정수)으로 구성되는 인공 신경망 모델에 대한 뉴런-레벨 가소성 제어 방법으로서,

컴퓨팅 시스템이, 소정의 트레이닝 데이터 세트에 포함된 복수의 개별 데이터 각각에 대하여(여기서, 상기 복수의 개별 데이터 각각에는 그에 상응하는 정답 레이블이 부여됨), 상기 개별 데이터에 기초하여 가중치 조절 프로세스를 수행하는 단계를 포함하되,

상기 개별 데이터에 기초하여 가중치 조절 프로세스를 수행하는 단계는,

상기 인공 신경망 모델에 상기 개별 데이터를 입력하여, 상기 개별 데이터에 상응하는 예측 값을 획득하는 단계;

상기 예측 값 및 상기 개별 데이터에 부여된 정답 레이블에 기초하여 교차 엔트로피(Cross Entropy)를 산출하는 단계; 및

상기 인공 신경망 모델에 포함된 각각의 뉴런 n_i에 대하여(여기서, i는 1<=i<=N인 정수), 상기 뉴런 n_i를 인커밍 노드로 하는 모든 연결의 가중치를 조절하는 단계를 포함하며,

상기 뉴런 n_i를 인커밍 노드로 하는 모든 연결의 가중치를 조절하는 단계는,

정규화된 Taylor 기준의 이동 평균인 뉴런 n_i의 중요도 C_i를 산출하는 단계;

하기 [수식 1]에 기초하여 뉴런 n_i의 학습률
를 산출하는 단계; 및

산출된 상기 학습률
를 적용한 경사하강법(gradient descent)를 통하여 상기 뉴런 n_i를 인커밍 노드로 하는 모든 연결의 가중치를 업데이트하는 단계를 포함하는 뉴런-레벨 가소성 제어 방법.

[수식 1]

(여기서, α 및 β는 미리 정의된 상기 인공 신경망 모델의 하이퍼파라미터이며,
는 미리 정의된 학습률의 상한이며, t는 상기 트레이닝 데이터 세트 내에서의 상기 개별 데이터의 순번임)
인공 신경망 모델에 대한 스케줄된 뉴런-레벨 가소성 제어 방법으로서,

컴퓨팅 시스템이, 연속 학습(continual learning)의 대상이 되는 복수의 작업 각각에 상응하는 트레이닝 데이터 세트를 획득하는 단계; 및

상기 컴퓨팅 시스템이, 상기 복수의 작업 각각에 대하여, 상기 작업에 상응하는 학습 프로세스를 수행하는 단계를 포함하되,

상기 작업에 상응하는 학습 프로세스를 수행하는 단계는,

상기 컴퓨팅 시스템이, 상기 작업에 상응하는 트레이닝 데이터 세트로 제1항에 기재된 뉴런-레벨 가소성 제어 방법을 수행하는 단계;

상기 컴퓨팅 시스템이, 상기 인공 신경망을 구성하는 복수의 레이어 각각에 대하여, 상기 레이어에 포함된 자유 뉴런 중 중요도가 가장 큰 일부인 중요 뉴런을 선택하는 단계;

상기 인공 신경망 내의 자유 뉴런에서 상기 중요 뉴런으로 향하는 모든 연결의 가중치를 0으로 고정하는 단계;

상기 컴퓨팅 시스템이, 상기 작업에 상응하는 트레이닝 데이터 세트로 제1항에 기재된 뉴런-레벨 가소성 제어 방법을 2 이상의 에폭(epoch)만큼 반복 수행하는 단계; 및

상기 중요 뉴런을 인커밍 노드로 하는 모든 연결의 가중치를 고정하는 단계를 포함하는 스케줄된 뉴런-레벨 가소성 제어 방법.
데이터 처리장치에 설치되며 제1항에 기재된 방법을 수행하기 위하여 기록매체에 저장된 컴퓨터 프로그램.
데이터 처리장치에 설치되며 제2항에 기재된 방법을 수행하기 위하여 기록매체에 저장된 컴퓨터 프로그램.
컴퓨팅 시스템으로서,

프로세서; 및

상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며,

상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 상기 컴퓨팅 시스템이, 제1항에 기재된 방법을 수행하도록 하는 컴퓨팅 시스템.
컴퓨팅 시스템으로서,

프로세서; 및

상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며,

상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 상기 컴퓨팅 시스템이, 제2항에 기재된 방법을 수행하도록 하는 컴퓨팅 시스템.