KR102466482B1

KR102466482B1 - 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템 및 방법

Info

Publication number: KR102466482B1
Application number: KR1020200044159A
Authority: KR
Inventors: 문호원; 송환준; 김민석; 김선동; 이재길
Original assignee: 한화시스템 주식회사; 한국과학기술원
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2022-11-11
Also published as: KR20210126390A

Abstract

본 발명은 딥 뉴럴 네트워크 학습 가속 시스템 및 방법에 관한 것으로, 상세하게는, 기존 어려운 학습 표본들로 인한 딥 뉴럴 네트워크의 과적합(overfitting) 현상을 완화하여 성능 저하 문제를 해결하고, 학습 속도를 개선할 수 있는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템 및 방법에 관한 것이다.
본 발명에 의하면, 기존에 문제가 되었던 학습 모델의 지나치게 어려운 학습 표본들에 대한 과적합을 해결하여 학습 속도를 가속하면서도 학습 표본들에 대해 높은 성능을 보이는 최종 모델을 얻을 수 있다. 따라서, 딥 뉴럴 네트워크 학습의 고질적인 문제인 느린 학습 속도를 모델의 성능 저하없이 개선하여 이미지 분류 및 객체 탐색과 같은 다양한 응용 및 데이터 분석적 업무의 효율성을 획기적으로 증진시킬 수 있다.

Description

적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템 및 방법{SYSTEM AND METHOD FOR ACCELERATING DEEP NEURAL NETWORK TRAINING USING ADAPTIVE BATCH SELECTION}

본 발명은 딥 뉴럴 네트워크 학습 가속 시스템 및 방법에 관한 것으로, 상세하게는, 기존 어려운 학습 표본들로 인한 딥 뉴럴 네트워크의 과적합(overfitting) 현상을 완화하여 성능 저하 문제를 해결하고, 학습 속도를 개선할 수 있는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템 및 방법에 관한 것이다.

본 발명은 다음과 같은 과제에 의하여 출원된 특허이며, 과제 정보는 하기와 같다.

과제번호: G01180061

과제관리(전문)기관명: 한화시스템(주)

연구사업명: 산업체연구개발사업

연구과제명: AI 기반 지휘 결심지원체계 연구

과제수행기관: 한국과학기술원

연구기간: 2018-03-01 ~ 2020-02-29

최근 인공지능의 기반기술 중 하나인 딥 러닝(deep learning)은 텍스트 번역이나 이미지 분류에 적합한 새로운 수준의 뉴럴 네트워크(neural network)가 개발되면서 눈부신 혁신을 거듭하고 있고, 딥 뉴럴 네트워크 학습을 통해 이미지 분류 및 객체 탐지를 포함하는 다양한 작업에서 매우 정확한 모델을 만드는 것이 가능해졌다.

하지만 보편적으로 최종적인 고성능 모델을 얻기 위해서는 대규모의 학습 표본들에 대한 뉴럴 네트워크의 오랜 학습이 필수적으로 요구된다. 이는 딥 뉴럴 네트워크를 적용하는 다양한 응용이나 데이터 분석업무에서 상당한 문제를 야기하고 있다.

이에 딥 뉴럴 네트워크의 학습 시간을 가속하기 위한 선행방법들로서, 커리큘럼 학습(Curriculum Learning)('Bengio, Y., Louradour, J., Collobert, R., & Weston, J. (2009). Curriculum learning. In Proceedings of international conference on machine learning (ICML)' 참조), 자기보속 학습(Self-paced Learning)('Kumar, M. P., Packer, B., & Koller, D. (2010). Self-paced learning for latent variable models. In Advances in Neural Information Processing Systems (NeurIPS)' 참조), 온라인 배치 선택(Online Batch Selecion)('Ilya Loshchilov & Frank Hutter, Univesity of Freiburg Freiburg, Germany, "ONLINE BATCH SELECTION FOR FASTER TRAINING OF NEURAL NETWORKS' 참조) 등이 제안되었다.

커리큘럼 학습은 머신 러닝(machine learning) 방법론을 더욱 효과적으로 학습하는 방법으로 학습 표본의 난이도를 학습 초반에는 쉬운 것을 위주로, 그리고 학습 후반에는 어려운 것을 위주로 학습하게 하는 방법이다. 하지만 이 방법의 경우, 학습 표본들의 난이도를 근사적으로 알고 있어야 할 뿐만 아니라 수작업으로 표본들의 학습 절차를 설계해야 하므로 실제 응용에서는 적용하기 힘든 문제점이 있다.

자기보속 학습은 커리큘럼 학습과 같이 머신러닝 방법론을 효과적으로 학습하는 방법으로 학습 난이도가 어려운 표본들 보다는 학습 난이도가 쉬운 표본들이 더욱 학습에 도움이 된다는 것을 가정하여 쉬운 표본들을 학습에서 강조하는 방법론이다. 이 방법의 경우 기존 전통적인 머신 러닝기법인 'SVM'과 'Naive Bayes'와 같은 방법에는 좋은 성능을 보였으나, 딥 뉴럴 네트워크 학습에 있어서는 대부분 학습 표본들이 쉬운 표본들이라는 점에서 오히려 학습 속도를 늦추는 경향을 보였다.

온라인 배치 선택방법은 딥 뉴럴 네트워크의 학습을 가속하기 위해 학습이 어려운 표본을 강조하는 방법론으로, 선택된 미니배치의 표본들의 손실값을 활용해 학습의 어려움을 평가하고, 이렇게 평가된 어려움을 기준으로 다음 학습을 위한 미니배치 표본으로 어려운 표본들이 선택될 확률을 상대적으로 높여준다. 이러한 어려운 표본 위주의 학습은 딥 뉴럴 네트워크의 학습 표본들에 대한 전체적인 학습 속도를 향상시켰다. 하지만, 지나치게 어려운 표본들만을 강조하기 때문에 그러한 학습 표본들에게 모델이 과적합(Overfittings) 현상이 발생하였고, 이는 테스트 표본들에 대한 일반화 성능을 저하시켜 최종적인 모델의 성능이 저하되는 원인이 되었다.

이와 같이, 딥 러닝 학습에 효과적이라고 알려진 온라인 배치 선택방법의 경우에 학습 속도를 개선하였으나, 너무 어려운 표본들에 모델이 과적합되는 문제가 부각되었다. 즉, 학습 표본들에 대한 빠른 학습은 달성했으나 실제 응용에서 사용되는 테스트 표본들에 대한 모델의 성능을 오히려 저하시키는 문제가 발생하였다. 이에 따라, "빠른 학습" 뿐만 아니라 "테스트 표본들에 대한 성능저하"를 유발시키지 않는 새로운 딥 뉴럴 네트워크 학습 가속방법에 대한 기술개발이 요구되고 있다.

KR 10-2019-0076916 A, 2019. 07. 02. KR 10-2058697 B1, 2019. 12. 17.

Bengio, Y., Louradour, J., Collobert, R., & Weston, J. (2009). Curriculum learning. In Proceedings of international conference on machine learning (ICML). Kumar, M. P., Packer, B., & Koller, D. (2010). Self-paced learning for latent variable models. In Advances in Neural Information Processing Systems (NeurIPS). Ilya Loshchilov & Frank Hutter, Univesity of Freiburg Freiburg, Germany, "ONLINE BATCH SELECTION FOR FASTER TRAINING OF NEURAL NETWORKS (ICLR 2016).

본 발명은 기존에 제안된 딥 뉴럴 네트워크의 학습 시간을 가속하는 방법들에서 문제점으로 대두된 "테스트 표본들에 대한 성능 저하 문제"를 해결하면서 "딥 러닝 학습 가속"을 달성하여 여러 응용에서 더욱 효율적인 학습을 가능하게 하고, 이를 통해 기존의 어려운 학습 표본들에 딥 뉴럴 네트워크의 과적합(overfitting) 현상을 완화하여 성능 저하 문제를 해결하고, 학습 속도를 개선할 수 있는 새로운 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템 및 방법을 제공한다.

상기한 목적을 달성하기 위한 일 측면에 따른 본 발명은 주어진 전체 학습 표본들을 입력받는 데이터 입력모듈; 상기 데이터 입력모듈로부터 학습 표본들을 입력받고, 입력받은 학습 표본들을 딥 러닝 학습의 기본 단위인 미니배치 표본으로 분할 선택하는 미니배치 선택모듈; 상기 미니배치 선택모듈로부터 분할 선택된 미니배치 표본을 입력받고, 입력받은 상기 미니배치 표본에 대해 딥 뉴럴 네트워크 학습을 진행하는 네트워크 학습모듈; 상기 네트워크 학습모듈로부터 출력되는 각 학습 표본에 대한 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 기록 및 누적하는 학습 기록모듈; 및 상기 학습 기록모듈로부터 학습 로그 정보를 입력받아 학습 표본별 중요도를 평가하고, 상기 학습 표본별 중요도를 상기 미니배치 선택모듈로 전송하는 표본 중요도 평가모듈을 포함하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템을 제공한다.

또한, 상기 데이터 입력모듈로 입력되는 전체 학습 표본들은 각각 다차원 벡터와 실제 라벨을 포함할 수 있다.

또한, 상기 미니배치 표본은 상기 데이터 입력모듈로 입력되는 전체 학습 표본들의 부분 집합으로서, 전체 학습 표본들로부터 얻어지는 총 미니배치 표본의 개수는 하기 [수학식 1]로 결정할 수 있다.

[수학식 1]

여기서, 'batch_size'는 사용자로부터 입력받은 미니배치 당 학습 표본의 숫자, 'N'은 전체 학습 표본 수, 'B'는 전체 학습 표본들로부터 얻어진 총 미니배치 표본의 개수임.

또한, 상기 미니배치 선택모듈은 상기 표본 중요도 평가모듈에서 학습 표본에 대한 중요도가 주어지지 않으면, 전체 학습 표본들 중 무작위로 미니배치 표본으로 분할 선택하고, 상기 표본 중요도 평가모듈에서 학습 표본별 중요도가 평가되어 학습 표본별 중요도가 주어지면, 해당 학습 표본별 중요도에 기반해 학습 표본별로 선택될 확률을 할당할 수 있다.

또한, 상기 네트워크 학습부는 상기 미니배치 선택모듈에서 전송된 미니배치 표본 각각에 대해서 네트워크의 파라미터들을 업데이트하고, 각각의 파라미터 업데이트에서는 각 미니배치 표본의 학습 손실도와 해당 미니배치 표본이 복수 개의 라벨 중 어떠한 라벨에 해당하는지에 대한 소프트 맥스 확률(softmax probability)을 출력으로 제공할 수 있다.

또한, 상기 표본 중요도 평가모듈은 상기 학습 기록모듈에 누적 저장된 전체 학습 표본들에 대한 소프트 맥스 확률을 기반으로 예측이 불확실한 학습 표본이 무엇인지를 평가할 수 있다.

또한, 상기 예측이 불확실한 학습 표본은 현재까지 학습된 학습 모델에서 주어진 학습 표본이 어떤 라벨인지 확실하게 예측하지 못하는 학습 표본을 나타낼 수 있다.

또한, 상기 표본 중요도 평가모듈은 모든 라벨에 대한 소프트 맥스 확률의 표준 편차(std)로서 상기 예측이 불확실한 학습 표본의 불확실도를 하기 [수학식 2]를 이용하여 측정하고, 이때, 측정된 해당 값이 높으면 학습 표본의 예측이 불확실한 것으로 평가할 수 있다.

[수학식 2]

여기서, '

'는 예측이 불확실한 학습 표본의 예측 불확실도이고, '

'는 실제 라벨이 '

' 인 학습 표본이고, '

'는 현재 파라미터를

로 하는 뉴럴 네트워크가 예측한 학습 표본

의 라벨

에 해당하는 소프트 맥스 확률임.

또한, 상기 표본 중요도 평가모듈은 상기 예측이 불확실한 학습 표본의 불확실도

를 양자화하여 양자화 지수

를 얻고, 이를 활용하여 학습 표본

가 다음 미니배치 표본으로 선택될 학습 표본 중요도

를 하기 [수학식 3]을 이용하여 계산할 수 있다.

[수학식 3]

여기서,

는 학습 표본 중 선택확률이 가장 높은 것과 가장 낮은 것의 차이를 조절하는 계수임.

또한, 상기한 목적을 달성하기 위한 다른 측면에 따른 본 발명은 전체 학습 표본들을 입력받는 과정; 입력받은 학습 표본들을 딥 러닝 학습의 기본 단위인 미니배치 표본으로 분할 선택하는 과정; 분할 선택된 미니배치 표본에 대해 딥 뉴럴 네트워크 학습을 진행하는 과정; 상기 딥 뉴럴 네트워크 학습을 통해 얻어진 각 미니배치 표본의 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 집계하여 기록 저장하는 과정; 전체 학습 표본들에 대해 예측이 불확실한 예측 불확실도를 평가하는 과정; 및 딥 뉴럴 네트워크 학습을 가속화하는 동시에 어려운 학습 표본들에 대해 학습 모델이 과적합되지 않게 하기 위해 예측 불확실도가 높은 학습 표본들을 딥 뉴럴 네트워크 학습에 강조하는 과정을 포함하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법을 제공한다.

또한, 상기 입력받은 학습 표본들을 딥 러닝 학습의 기본 단위인 미니배치 표본으로 분할 선택하는 과정에서는 분할 선택된 미니배치 표본이 상기 데이터 입력모듈로 입력되는 전체 학습 표본들의 부분 집합으로서, 전체 학습 표본들로부터 얻어지는 총 미니배치 표본의 개수는 하기 [수학식 1]로 결정할 수 있다.

[수학식 1]

또한, 전체 학습 표본들에 대해 예측이 불확실한 예측 불확실도를 평가하는 과정은, 기록 저장된 소프트 맥스 확률을 기반으로 예측 불확실도를 계산하는 과정; 및 상기 계산된 예측 불확실도가 높으면 학습 표본의 예측이 불확실한 것으로 평가하는 과정을 포함할 수 있다.

또한, 상기 딥 뉴럴 네트워크 학습을 통해 얻어진 각 미니배치 표본의 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 집계하여 기록 저장하는 과정은, 각 미니배치 표본에 대한 소프트 맥스 확률을 계산하는 과정; 및 모든 미니배치 표본에 대한 소프트 맥스 확률을 집계하는 과정을 포함할 수 있다.

또한, 상기 기록 저장된 소프트 맥스 확률을 기반으로 예측 불확실도를 계산하는 과정은, 모든 라벨에 대한 소프트 맥스 확률의 표준 편차(std)로서 예측 불확실도를 하기 [수학식 2]를 이용하여 계산할 수 있다.

[수학식 2]

여기서, '

'는 예측이 불확실한 학습 표본의 예측 불확실도이고, '

'는 실제 라벨이 '

' 인 학습 표본이고, '

'는 현재 파라미터를

로 하는 뉴럴 네트워크가 예측한 학습 표본

의 라벨

에 해당하는 소프트 맥스 확률임.

또한, 상기 예측 불확실도가 높은 학습 표본들을 딥 뉴럴 네트워크 학습에 강조하는 과정은, 상기 예측 불확실도를 기반으로 표본 중요도를 계산하는 과정; 계산된 표본 중요도를 활용하여 학습의 기본 단위인 미니배치 표본을 분할 선택하는 과정; 및 해당 미니배치 표본을 통해 딥 뉴럴 네트워크를 업데이트하는 과정을 포함할 수 있다.

또한, 상기 예측 불확실도를 기반으로 표본 중요도를 계산하는 과정은, 상기 예측 불확실도를 양자화하여 양자화 지수를 계산하는 과정; 상기 양자화 지수에 해당하는 표본 중요도를 계산하는 과정; 및 계산된 표본 중요도를 활용하여 학습 표본이 다음 미니배치 표본으로 선택될 표본 선택 확률로 할당하는 과정을 포함할 수 있다.

또한, 상기 양자화 지수에 해당하는 표본 중요도를 계산하는 과정은, 하기 [수학식 3]을 이용하여 계산할 수 있다.

[수학식 3]

여기서,'

'는 예측 불확실도이고, '

'는 표본 중요도이고, '

'는 양자화 지수이고,

또한, 상기한 목적을 달성하기 위한 또 다른 측면에 따른 본 발명은 프로세서에 의해 실행되는 것을 통하여 상기한 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법을 실현하는 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램을 제공한다.

본 발명에 의하면, 기존에 문제가 되었던 학습 모델의 지나치게 어려운 학습 표본들에 대한 과적합을 해결하여 학습 속도를 가속하면서도 학습 표본들에 대해 높은 성능을 보이는 최종 모델을 얻을 수 있다. 따라서, 딥 뉴럴 네트워크 학습의 고질적인 문제인 느린 학습 속도를 모델의 성능 저하없이 개선하여 이미지 분류 및 객체 탐색과 같은 다양한 응용 및 데이터 분석적 업무의 효율성을 획기적으로 증진시킬 수 있다.

도 1은 본 발명의 실시예에 따른 딥 뉴럴 네트워크 학습 가속 시스템을 도시한 도면.
도 2는 본 발명의 실시예에 따른 딥 뉴럴 네트워크 학습 가속 방법을 도시한 도면.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예들을 상세히 설명하기로 한다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 발명의 실시 예들은 본 발명의 개시가 완전하도록 하며, 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 도면상에서 동일 부호는 동일한 요소를 지칭한다.

도 1은 본 발명의 실시예에 따른 딥 뉴럴 네트워크 학습 가속 시스템을 도시한 도면이다.

도 1을 참조하면, 본 발명의 실시예에 따른 딥 뉴럴 네트워크 학습 가속 시스템(10)은 기존의 어려운 학습 표본들로 인한 딥 뉴럴 네트워크의 과적합(overfitting) 현상을 완화하여 성능 저하 문제를 해결하면서 학습 속도를 개선하기 위해 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법을 제공한다.

이를 위해, 본 발명의 실시예에 따른 딥 뉴럴 네트워크 학습 가속 시스템(10)은 도 1과 같이, 데이터 입력모듈(11), 미니배치 선택모듈(12), 네트워크 학습모듈(13), 학습 기록모듈(14), 중요도 평가모듈(15) 및 학습모듈 출력모듈(16)을 포함한다.

데이터 입력모듈(11)은 학습 표본들을 입력받아 처리하는 모듈로서, 전체 학습 표본들을 입력받은 후 입력받은 학습 표본들을 미니배치 선택모듈(12)로 전송한다.

이때, 데이터 입력모듈(11)로 입력되는 주어진 학습 표본들은 각각 해당 학습 표본에 대한 다차원 벡터(feature)와 실제 라벨(label)을 포함한다. 예를 들어, 작업이 이미지 분류작업인 경우, 학습 표본에는 해당 이미지에 대한 R, G, B 값들에 대한 벡터와 해당 이미지가 어떤 분류에 속하는지에 대한 실레 라벨을 포함한다.

미니배치 선택모듈(12)은 데이터 입력모듈(11)로부터 학습 표본들을 수신한 후 딥 러닝 학습의 기본 단위(최소 단위)인 미니배치(mB1~mBB)(여기서, B는 자연수임)로 분할한다.

이때, 미니배치 선택모듈(12)에서 분할된 미니배치(mB1~mBB)는 전체 학습 표본들의 부분 집합이다. 사용자(user)로부터 입력받은 미니배치 당 학습 표본의 숫자를 'batch_size', 그리고 전체 학습 표본 수를 'N'라 할 때, 전체 학습 표본들로부터 얻어진 총 미니배치(mB1~mBB)의 개수 'B'는 하기 [수학식 1]과 같이 결정된다.

각 미니배치(mB1~mBB)에 포함되는 학습 표본은 다음과 같이 선택될 수 있다.

먼저, 학습 표본에 대한 중요도(불확실도)가 주어지지 않으면, 전체 학습 표본 중 무작위로 학습 표본은 선택되고, 이때 선택된 표본은 다른 미니배치의 표본으로 다시 뽑힐 수도 있다(uniformly at random with replacement). 반면, 학습 표본에 대한 중요도(불확실도)가 주어지면, 해당 중요도에 기반해 학습 표본별로 선택될 확률이 할당된다. 이에 대한 자세한 내용은 후술하는 표본 난이도 평가에서 설명한다.

미니배치 선택모듈(12)은 전체 학습 표본들로부터 선택된 B개의 미니배치를 미니배치학습(Mini-batch Gradient Descent)을 위해 네트워크 학습모듈(13)로 전송한다.

네트워크 학습모듈(13)은 미니배치 선택모듈(12)에서 분할 선택된 미니배치(mB1~mBB)에 대한 딥 뉴럴 네트워크 학습을 진행하는 네트워크 학습부(131)를 포함한다.

네트워크 학습부(131)는 미니배치 선택모듈(12)에서 전송된 B개의 미니배치(mB1~mBB) 각각에 대해서 네트워크의 파라미터들을 업데이트한다. 즉, 총 미니배치 B개가 주어진 경우, 파라미터들은 총 B번 업데이트된다. 그리고, 각 파라미터 업데이트에서는 각 표본의 학습 손실도(loss)와 해당 학습 표본이 k개의 라벨 중 어떠한 라벨에 해당하는지에 대한 소프트 맥스 확률(softmax probability)을 출력한다. 이때, 각 학습 표본에 대한 소프트 맥스 확률은 학습 기록모듈(14)로 전송된다.

학습 기록모듈(14)은 네트워크 학습부(131)로부터 출력되는 각 학습 표본에 대한 소프트 맥스 확률을 집계하여 저장한다. 즉, 모든 학습 표본에 대한 라벨 예측 확률인 소프트 맥스 확률을 집계하여 저장한다. 예를 들어, 라벨 수 'k=4'일 때, 학습 표본 2개의 각 라벨에 대한 소프트 맥스 확률은 하기 [표 1]로 나타낼 수 있다.

	Label 1	Label 2	Label 3	Label 4
Sample 1	0.2	0.3	0.3	0.2
Sample 2	0.8	0.1	0.0	0.1

여기서, 각 학습 표본의 모든 라벨에 대한 소프트 맥스 확률의 합은 '1'이다.

학습 기록모듈(14)은 모든 학습 표본 N개에 대해 저장된 소프트 맥스 확률들을 학습 표본에 대한 중요도를 평가하기 위해 표본 중요도 평가모듈(15)로 전송한다.

표본 중요도 평가모듈(15)은 학습 기록모듈(14)에서 얻어진 전체 N개의 학습 표본들에 대한 소프트 맥스 확률을 기반으로 예측이 불확실한 표본이 무엇인지 평가한다. 여기서, '불확실한 표본'이라 함은 주어진 학습 표본이 특정 라벨일 확률이 모두 비슷한 학습 표본을 말한다. 즉, '불확실한 표본'은 현재까지 학습된 모델이 주어진 학습 표본이 어떤 라벨인지 확실하게 예측하지 못하는 학습 표본을 의미한다.

이를 수식으로 나타내면, 하기 [수학식 2]와 같다.

실제 라벨이

인 학습 표본

가 있다고 가정 하자. 그리고, 현재 파라미터를

로 하는 뉴럴 네트워크가 예측한 학습 표본

의 라벨

에 해당하는 소프트 맥스 확률을

라 하자. 그러면, 해당 학습 표본

의 불확실도

는 하기 [수학식 2]와 같이 모든 라벨에 대한 소프트 맥스 확률의 표준 편차(std)로서 측정될 수 있고, 이때, 해당 값이 높으면 표본의 예측이 불확실하다.

이후, 상기 예측 불확실도를 바탕으로 주어진 학습 표본을 다음 미니배치로 선택할 확률(표본 중요도)을 계산한다. 먼저, 학습 표본의 불확실도를 양자화하여 양자화 지수

를 얻고, 이를 활용하여 표본 선택확률을 계산한다. 이때, 표본 불확실도가 높을수록 양자화 지수가 낮아지고, 표본 선택확률이 지수적으로 증가한다.

이를 수식으로 표현하면, 학습 표본

가 다음 미니배치 표본으로 선택될 중요도(표준화된 확률)

는 하기 [수학식 3]과 같다. 하기 [수학식 3]에서

는 학습 표본 중 선택확률이 가장 높은 것과 가장 낮은 것의 차이를 조절하는 계수이다.

표본 중요도 평가모듈(15)은 이렇게 측정된 표본 중요도

를 미니배치 선택모듈(12)로 전송하고, 미니배치 선택모듈(12)은 표본 중요도 평가모듈(15)에서 전송된 표본 중요도를 수신하고, 이렇게 수신된 표본 중요도에 따라 데이터 입력모듈(11)에서 수신된 학습 표본을 미니배치 선택과정에서 미니배치 표본으로 선택한다.

도 2는 본 발명의 실시예에 따른 딥 뉴럴 네트워크 학습 가속 방법을 도시한 도면이다.

도 1과 같이, 본 발명의 실시예에 따른 딥 뉴럴 네트워크 학습 가속 방법은 전체 학습 표본들을 입력받는 과정과, 입력받은 학습 표본들을 딥 러닝 학습의 기본 단위인 미니배치 표본으로 분할 선택하는 과정과, 분할 선택된 미니배치 표본에 대해 딥 뉴럴 네트워크 학습을 진행하는 과정과, 상기 딥 뉴럴 네트워크 학습을 통해 얻어진 각 미니배치 표본의 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 집계하여 기록 저장하는 과정과, 전체 학습 표본들에 대해 예측이 불확실한 예측 불확실도를 평가하는 과정과, 딥 뉴럴 네트워크 학습을 가속화하는 동시에 어려운 학습 표본들에 대해 학습 모델이 과적합되지 않게 하기 위해 예측 불확실도가 높은 학습 표본들을 딥 뉴럴 네트워크 학습에 강조하는 과정을 포함한다.

이하, 각 과정에 대해 구체적으로 설명한다.

먼저, 도 1 및 도 2와 같이, 데이터 입력모듈(11)을 통해 전체 학습 표본들(데이터)을 입력받고, 입력받은 전체 학습 표본들은 미니배치 선택모듈(12)로 전송한다.

이후, 미니배치 선택모듈(12)은 데이터 입력모듈(11)에서 전송된 전체 학습 표본들을 수신받아 딥 러닝 학습의 기본 단위인 미니배치(mB1~mBB)로 각각 분할하고, 이렇게 분할된 미니배치(mB1~mBB)의 집합을 네트워크 학습모듈(13)로 전송한다.

미니배치 선택모듈(12)은 입력받은 학습 표본들을 딥 러닝 학습의 기본 단위인 미니배치 표본으로 분할 선택한다. 즉, 입력받은 학습 표본들을 딥 러닝 학습의 기본 단위인 미니배치 표본으로 분할 선택하는 과정은 분할 선택된 미니배치 표본이 상기 데이터 입력모듈로 입력되는 전체 학습 표본들의 부분 집합으로서, 전체 학습 표본들로부터 얻어지는 총 미니배치 표본의 개수는 상기 [수학식 1]로 결정한다.

이때, 미니배치 선택모듈(12)은 보통 랜덤 방식으로 전체 학습 표본들 중에 선택하고 있으나, 본 발명에서는 예측이 '불확실한 표본'을 더욱 높은 확률로 선택한다.

이후, 네트워크 학습모듈(13)은 미니배치 선택모듈(12)에서 전송된 미니배치(mB1~mBB)에 대해 딥 뉴럴 네트워크 학습을 진행하고, 학습에서 얻어진 각 표본의 라벨 예측 확률 등을 포함하는 학습 로그 정보들을 학습 기록모듈(14)로 전송한다.

이때, 네트워크 학습모듈(13)은 딥 뉴럴 네트워크 학습을 통해 얻어진 각 미니배치 표본의 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 집계하여 학습 기록모듈(14)에 기록 저장한다. 즉, 딥 뉴럴 네트워크 학습을 통해 얻어진 각 미니배치 표본의 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 집계하여 기록 저장하는 과정은 각 미니배치 표본에 대한 소프트 맥스 확률을 계산하는 과정과, 모든 미니배치 표본에 대한 소프트 맥스 확률을 집계하는 과정을 포함한다.

이후, 학습 기록모듈(14)은 네트워크 학습모듈(13)에서 전송된 학습 로그 정보를 누적하여 저장하고, 누적된 학습 로그 정보를 표본 중요도 평가모듈(15)로 전송한다.

이후, 표본 중요도 평가모듈(15)은 학습 기록모듈(14)에서 전송된 학습 로그 정보를 이용하여 학습 표본별 중요도를 평가한다. 이때, 표본 중요도 평가모듈(15)은 상기 [수학식 2] 및 [수학식 3]을 이용하여 해당 학습 표본의 불확실도와 중요도(다음 미니배치 표본으로 선택될 중요도)를 측정하여 학습 표본별 중요도를 평가한다.

즉, 표본 중요도 평가모듈(15)은 전체 학습 표본들에 대해 예측이 불확실한 예측 불확실도를 각각 평가한다. 이때, 표본 중요도 평가모듈(15)에서 수행되는 전체 학습 표본들에 대해 예측이 불확실한 예측 불확실도를 평가하는 과정은 딥 뉴럴 네트워크 학습을 통해 얻어진 각 미니배치 표본의 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 집계하여 학습 기록모듈(14)에 기록 저장된 소프트 맥스 확률을 기반으로 예측 불확실도를 계산하는 과정과, 이렇게 계산된 예측 불확실도가 높으면 학습 표본의 예측이 불확실한 것으로 평가하는 과정을 포함한다.

상기 기록 저장된 소프트 맥스 확률을 기반으로 예측 불확실도를 계산하는 과정은 모든 라벨에 대한 소프트 맥스 확률의 표준 편차(std)로서 예측 불확실도를 상기 [수학식 2]를 이용하여 계산한다.

이때, 상기 예측 불확실도가 높은 학습 표본들을 딥 뉴럴 네트워크 학습에 강조하는 과정은 상기 예측 불확실도를 기반으로 표본 중요도를 계산하는 과정과, 계산된 표본 중요도를 활용하여 학습의 기본 단위인 미니배치 표본을 분할 선택하는 과정과, 해당 미니배치 표본을 통해 딥 뉴럴 네트워크를 업데이트하는 과정을 포함한다.

그리고, 상기 예측 불확실도를 기반으로 표본 중요도를 계산하는 과정은 상기 예측 불확실도를 양자화하여 양자화 지수를 계산하는 과정과, 상기 양자화 지수에 해당하는 표본 중요도를 계산하는 과정과, 이렇게 계산된 표본 중요도를 활용하여 학습 표본이 다음 미니배치 표본으로 선택될 표본 선택 확률로 할당하는 과정을 포함한다.

그리고, 상기 양자화 지수에 해당하는 표본 중요도를 계산하는 과정은 하기 [수학식 3]을 이용하여 계산한다.

이후, 표본 중요도 평가모듈(15)은 평가된 학습 표본별 중요도를 미니배치 선택모듈(12)로 전송하고, 미니배치 선택모듈(12)은 표본 중요도 평가모듈(15)에서 전송된 학습 표본별 중요도를 이용하여 데이터 입력모듈(11)에서 전송된 학습 표본들을 선택하여 미니배치를 구성한다. 이때, 미니배치 선택모듈(12)은 다음 학습을 위해 중요도 기반으로 예측이 불확실한 표본들을 높은 확률로 미니배치로 선택한다.

이후, 전체 학습 과정을 모델 학습이 종료될 때까지 반복적으로 실시하고, 마지막으로 학습이 종료되면, 학습모듈 출력모듈(16)을 통해 최종 학습된 모델이 저장된다.

이상에서 설명한 본 발명의 실시예에 따른 딥 뉴럴 네트워크 학습 가속 방법은 딥 뉴럴 네트워크 학습 가속 시스템에서 실행될 수 있다. 예를 들어, 컴퓨터 판독 가능 매체에 저장되어 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 기록 매체의 형태(또는 컴퓨터 프로그램 제품)로 구현될 수 있다.

여기서, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)를 포함할 수 있다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있는데, 예를 들어, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다.

또한, 본 발명의 실시예에 따른 딥 뉴럴 네트워크 학습 가속 방법은 전체 또는 일부가 컴퓨터에 의해 실행 가능한 명령어를 포함하며, 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다.

상기에서, 본 발명의 바람직한 실시 예가 특정 용어들을 사용하여 설명 및 도시되었지만 그러한 용어는 오로지 본 발명을 명확하게 설명하기 위한 것일 뿐이며, 본 발명의 실시 예 및 기술된 용어는 다음의 청구범위의 기술적 사상 및 범위로부터 이탈되지 않고서 여러 가지 변경 및 변화가 가해질 수 있는 것은 자명한 일이다. 이와 같이 변형된 실시 예들은 본 발명의 사상 및 범위로부터 개별적으로 이해되어져서는 안 되며, 본 발명의 청구범위 안에 속한다고 해야 할 것이다.

10 : 딥 뉴럴 네트워크 학습 가속 시스템
11 : 데이터 입력모듈
12 : 미니배치 선택모듈
13 : 네트워크 학습모듈
14 : 학습 기록모듈
15 : 표본 중요도 평가모듈
16 : 학습모듈 출력모듈
131 : 네트워크 학습부
mB1~mBB : 미니배치(미니배치 표본)

Claims

주어진 전체 학습 표본들을 입력받는 데이터 입력모듈;
상기 데이터 입력모듈로부터 학습 표본들을 입력받고, 입력받은 학습 표본들을 딥 러닝 학습의 기본 단위인 미니배치 표본으로 분할 선택하는 미니배치 선택모듈;
상기 미니배치 선택모듈로부터 분할 선택된 미니배치 표본을 입력받고, 입력받은 상기 미니배치 표본에 대해 딥 뉴럴 네트워크 학습을 진행하는 네트워크 학습모듈;
상기 네트워크 학습모듈로부터 출력되는 각 학습 표본에 대한 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 기록 및 누적하는 학습 기록모듈; 및
상기 학습 기록모듈로부터 학습 로그 정보를 입력받아 학습 표본별 중요도를 평가하고, 상기 학습 표본별 중요도를 상기 미니배치 선택모듈로 전송하는 표본 중요도 평가모듈;을 포함하고,
상기 표본 중요도 평가모듈은 상기 학습 기록모듈에 누적 저장된 전체 학습 표본들에 대한 소프트 맥스 확률을 기반으로 예측이 불확실한 학습 표본이 무엇인지를 평가하며,
상기 표본 중요도 평가모듈은 모든 라벨에 대한 소프트 맥스 확률의 표준 편차(std)로서 상기 예측이 불확실한 학습 표본의 불확실도를 하기 [수학식 2]를 이용하여 측정하고, 이때, 측정된 해당 값이 높으면 학습 표본의 예측이 불확실한 것으로 평가하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템.
[수학식 2]

여기서, '
'는 예측이 불확실한 학습 표본의 예측 불확실도이고, '
'는 실제 라벨이 '
' 인 학습 표본이고, '
'는 현재 파라미터를
로 하는 뉴럴 네트워크가 예측한 학습 표본
의 라벨
에 해당하는 소프트 맥스 확률임.
제 1 항에 있어서,
상기 데이터 입력모듈로 입력되는 전체 학습 표본들은 각각 다차원 벡터와 실제 라벨을 포함하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템.
제 1 항에 있어서,
상기 미니배치 표본은 상기 데이터 입력모듈로 입력되는 전체 학습 표본들의 부분 집합으로서, 전체 학습 표본들로부터 얻어지는 총 미니배치 표본의 개수는 하기 [수학식 1]로 결정하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템.
[수학식 1]

여기서, 'batch_size'는 사용자로부터 입력받은 미니배치 당 학습 표본의 숫자, 'N'은 전체 학습 표본 수, 'B'는 전체 학습 표본들로부터 얻어진 총 미니배치 표본의 개수임.
제 1 항에 있어서,
상기 미니배치 선택모듈은 상기 표본 중요도 평가모듈에서 학습 표본에 대한 중요도가 주어지지 않으면, 전체 학습 표본들 중 무작위로 미니배치 표본으로 분할 선택하고, 상기 표본 중요도 평가모듈에서 학습 표본별 중요도가 평가되어 학습 표본별 중요도가 주어지면, 해당 학습 표본별 중요도에 기반해 학습 표본별로 선택될 확률을 할당하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템.
제 1 항에 있어서,
상기 네트워크 학습 모듈은 상기 미니배치 선택모듈에서 전송된 미니배치 표본 각각에 대해서 네트워크의 파라미터들을 업데이트하고, 각각의 파라미터 업데이트에서는 각 미니배치 표본의 학습 손실도와 해당 미니배치 표본이 복수 개의 라벨 중 어떠한 라벨에 해당하는지에 대한 소프트 맥스 확률(softmax probability)을 출력으로 제공하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템.
삭제
제 1 항에 있어서,
상기 예측이 불확실한 학습 표본은 현재까지 학습된 학습 모델에서 주어진 학습 표본이 어떤 라벨인지 확실하게 예측하지 못하는 학습 표본을 나타내는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템.
삭제
제 1 항에 있어서,
상기 표본 중요도 평가모듈은 상기 예측이 불확실한 학습 표본의 불확실도
를 양자화하여 양자화 지수
를 얻고, 이를 활용하여 학습 표본
가 다음 미니배치 표본으로 선택될 학습 표본 중요도
를 하기 [수학식 3]을 이용하여 계산하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템.
[수학식 3]

여기서,
는 학습 표본 중 선택확률이 가장 높은 것과 가장 낮은 것의 차이를 조절하는 계수임.
데이터 입력모듈을 통해, 전체 학습 표본들을 입력받는 과정;
미니배치 선택모듈을 통해, 입력받은 학습 표본들을 딥 러닝 학습의 기본 단위인 미니배치 표본으로 분할 선택하는 과정;
네트워크 학습모듈을 통해, 분할 선택된 미니배치 표본에 대해 딥 뉴럴 네트워크 학습을 진행하는 과정;
학습 기록모듈을 통해, 상기 딥 뉴럴 네트워크 학습을 통해 얻어진 각 미니배치 표본의 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 집계하여 기록 저장하는 과정;
표본 중요도 평가모듈을 통해, 전체 학습 표본들에 대해 예측이 불확실한 예측 불확실도를 평가하는 과정; 및
상기 표본 중요도 평가모듈을 통해, 딥 뉴럴 네트워크 학습을 가속화하는 동시에 어려운 학습 표본들에 대해 학습 모델이 과적합되지 않게 하기 위해 예측 불확실도가 높은 학습 표본들을 딥 뉴럴 네트워크 학습에 강조하는 과정;을 포함하고,
전체 학습 표본들에 대해 예측이 불확실한 예측 불확실도를 평가하는 과정은,
기록 저장된 소프트 맥스 확률을 기반으로 예측 불확실도를 계산하는 과정; 및
상기 계산된 예측 불확실도가 높으면 학습 표본의 예측이 불확실한 것으로 평가하는 과정;을 포함하며,
상기 기록 저장된 소프트 맥스 확률을 기반으로 예측 불확실도를 계산하는 과정은,
모든 라벨에 대한 소프트 맥스 확률의 표준 편차(std)로서 예측 불확실도를 하기 [수학식 2]를 이용하여 계산하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법.
[수학식 2]

여기서, '
'는 예측이 불확실한 학습 표본의 예측 불확실도이고, '
'는 실제 라벨이 '
' 인 학습 표본이고, '
'는 현재 파라미터를
로 하는 뉴럴 네트워크가 예측한 학습 표본
의 라벨
에 해당하는 소프트 맥스 확률임.
제 10 항에 있어서,
상기 입력받은 학습 표본들을 딥 러닝 학습의 기본 단위인 미니배치 표본으로 분할 선택하는 과정에서는,
분할 선택된 미니배치 표본이 입력되는 전체 학습 표본들의 부분 집합으로서, 전체 학습 표본들로부터 얻어지는 총 미니배치 표본의 개수는 하기 [수학식 1]로 결정하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법.
[수학식 1]

여기서, 'batch_size'는 사용자로부터 입력받은 미니배치 당 학습 표본의 숫자, 'N'은 전체 학습 표본 수, 'B'는 전체 학습 표본들로부터 얻어진 총 미니배치 표본의 개수임.
삭제
제 10 항에 있어서,
상기 딥 뉴럴 네트워크 학습을 통해 얻어진 각 미니배치 표본의 라벨 예측 확률인 소프트 맥스 확률을 포함하는 학습 로그 정보를 집계하여 기록 저장하는 과정은,
각 미니배치 표본에 대한 소프트 맥스 확률을 계산하는 과정; 및
모든 미니배치 표본에 대한 소프트 맥스 확률을 집계하는 과정;
을 포함하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법.
삭제
제 10 항에 있어서,
상기 예측 불확실도가 높은 학습 표본들을 딥 뉴럴 네트워크 학습에 강조하는 과정은,
상기 예측 불확실도를 기반으로 표본 중요도를 계산하는 과정;
계산된 표본 중요도를 활용하여 학습의 기본 단위인 미니배치 표본을 분할 선택하는 과정; 및
해당 미니배치 표본을 통해 딥 뉴럴 네트워크를 업데이트하는 과정;
을 포함하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법.
제 15 항에 있어서,
상기 예측 불확실도를 기반으로 표본 중요도를 계산하는 과정은,
상기 예측 불확실도를 양자화하여 양자화 지수를 계산하는 과정;
상기 양자화 지수에 해당하는 표본 중요도를 계산하는 과정; 및
계산된 표본 중요도를 활용하여 학습 표본이 다음 미니배치 표본으로 선택될 표본 선택 확률로 할당하는 과정;
을 포함하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법.
제 16 항에 있어서,
상기 양자화 지수에 해당하는 표본 중요도를 계산하는 과정은,
하기 [수학식 3]을 이용하여 계산하는 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법.
[수학식 3]

여기서,'
'는 예측 불확실도이고, '
'는 표본 중요도이고, '
'는 양자화 지수이고,
는 학습 표본 중 선택확률이 가장 높은 것과 가장 낮은 것의 차이를 조절하는 계수임.
프로세서에 의해 실행되는 것을 통하여 제 10 항 내지 제 11 항, 제 13 항, 제 15 항 내지 제 17 항 중 어느 한 항의 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 방법을 실현하는 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.