KR20200040185A - 적응적 학습률로 뉴럴 네트워크를 학습하는 방법 및 장치, 이를 이용한 테스트 방법 및 장치 - Google Patents
적응적 학습률로 뉴럴 네트워크를 학습하는 방법 및 장치, 이를 이용한 테스트 방법 및 장치 Download PDFInfo
- Publication number
- KR20200040185A KR20200040185A KR1020190105488A KR20190105488A KR20200040185A KR 20200040185 A KR20200040185 A KR 20200040185A KR 1020190105488 A KR1020190105488 A KR 1020190105488A KR 20190105488 A KR20190105488 A KR 20190105488A KR 20200040185 A KR20200040185 A KR 20200040185A
- Authority
- KR
- South Korea
- Prior art keywords
- learning
- kth
- gamma
- neural network
- loss
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 214
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 157
- 238000012360 testing method Methods 0.000 title claims abstract description 42
- 230000003044 adaptive effect Effects 0.000 title abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 138
- 230000001186 cumulative effect Effects 0.000 claims abstract description 98
- 238000012549 training Methods 0.000 claims abstract description 96
- 230000008859 change Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 10
- 238000010998 test method Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 8
- 230000001537 neural effect Effects 0.000 claims description 6
- 230000001902 propagating effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000035508 accumulation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G06N7/005—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Feedback Control In General (AREA)
- Complex Calculations (AREA)
Abstract
Description
도 1a는 종래의 학습 방법에 따라 학습률을 변경시킨 상태를 개략적으로 도시한 도면이다.
도 1b는 종래의 학습 방법에 따라 변경된 학습률을 이용하여, 뉴럴 네트워크를 학습할 때 로스가 변경된 상태를 개략적으로 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 뉴럴 네트워크를 학습하는 학습 장치를 개략적으로 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 뉴럴 네트워크를 학습하는 상태를 개략적으로 도시한 도면이다.
도 4a는 본 발명의 일 실시예에 따른 학습률의 변동 상태를 개략적으로 도시한 도면이다.
도 4b는 본 발명의 일 실시예에 따른 로스의 변경 상태를 개략적으로 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따라 객체 디텍션을 수행할 수 있는 뉴럴 네트워크를 학습하는 상태를 개략적으로 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따라 뉴럴 네트워크를 테스트하는 테스트 장치를 개략적으로 도시한 도면이다.
Claims (30)
- 학습의 이터레이션(iteration) 누적 횟수가 제1 내지 제n 특정 값 중 하나에 다다를 때마다 학습률을 조정하여, 뉴럴 네트워크(neural network)를 학습시키는 방법에 있어서,
(a) 학습 장치가, 학습률 변경 비율 조정을 위한 상수인 제1 감마를 기설정한 상태에서, (i) 상기 이터레이션 누적 횟수가 제1 특정 값 이하를 만족하는 동안에는, 트레이닝 데이터 중 일부를 이용하여 제1 기설정된 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제1 학습 프로세스를 수행하고, (ii) 상기 제1 학습 프로세스에 의해 획득된 상기 뉴럴 네트워크의 제1 로스를 참조하여 상기 제1 감마를 제2 감마로 변경하는 단계;
(b) 상기 학습 장치가, k를 2부터 (n-1)까지 증가시켜가면서, (b1) 상기 이터레이션 누적 횟수가 제(k-1) 특정 값 초과 및 제k 특정 값 이하를 만족하는 동안에는, 상기 트레이닝 데이터 중 일부를 이용하여 제k 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제k 학습 프로세스를 수행하고, (b2) (i) 상기 제k 학습 프로세스에 의해 획득된 상기 뉴럴 네트워크의 제k 로스를 참조하여 제k 감마를 제(k+1) 감마로 변경하고, (ii) 상기 제(k+1) 감마를 이용하여 제k 학습률을 제(k+1) 학습률로 변경하며, (b3) 상기 이터레이션 누적 횟수가 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안에는, 상기 트레이닝 데이터 중 일부를 이용하여 제(k+1) 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제(k+1) 학습 프로세스를 수행하는 단계;
를 포함하는 것을 특징으로 하는 학습 방법. - 제1항에 있어서,
상기 (b) 단계에서,
상기 학습 장치는, 제k 로스 그래디언트를 참조하여 상기 제k 감마를 제(k+1) 감마로 변경하되, 상기 제k 로스 그래디언트는, 상기 뉴럴 네트워크의 (i) 상기 제k 로스 및 (ii) 제(k-1) 로스를 참조하여 산출되되, 상기 제(k-1) 로스는, 상기 이터레이션 누적 횟수가 제(k-2) 특정 값 초과 및 제(k-1) 특정 값 이하를 만족하는 동안, 상기 트레이닝 데이터 중 일부를 이용하여 상기 뉴럴 네트워크의 상기 학습을 반복하는 제(k-1) 학습 프로세스에 의해 획득되는 것을 특징으로 하는 학습 방법. - 제2항에 있어서,
상기 학습 장치는, 상기 제k 로스 그래디언트가 기설정된 최소 로스 그래디언트 이상일 경우, 상기 제k 감마와 상기 제k 로스 그래디언트를 곱 연산하여 산출된 결과를 참조로 하여, 상기 제(k+1) 감마를 결정하는 것을 특징으로 하는 학습 방법. - 제2항에 있어서,
상기 학습 장치는, 상기 제k 로스 그래디언트가 기설정된 최소 로스 그래디언트 미만일 경우, 상기 제(k+1) 감마가 상기 제k 감마로 결정되는 것을 특징으로 하는 학습 방법. - 제2항에 있어서,
상기 학습 장치는, 상기 제(k-1) 로스들의 합에 대한 상기 제k 로스들의 합의 비를 상기 제k 로스 그래디언트로 결정하는 것을 특징으로 하는 학습 방법. - 제1항에 있어서,
상기 (b) 단계에서,
상기 학습 장치는, 상기 제k 학습률과 상기 제(k+1) 감마를 곱 연산하여 산출된 결과를 상기 제(k+1) 학습률로 결정하는 것을 특징으로 하는 학습 방법. - 제1항에 있어서,
상기 트레이닝 데이터 중 상기 일부 각각이 배치 데이터이며,
상기 이터레이션 누적 횟수가 상기 제1 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제1 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되며,
상기 이터레이션 누적 횟수가 상기 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제(k+1) 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되는 것을 특징으로 하는 학습 방법. - 제7항에 있어서,
상기 이터레이션 누적 횟수가 상기 제1 특정 값 이하를 만족하는 동안 사용된 상기 배치 데이터 수는, 상기 이터레이션 누적 횟수가 상기 제k 특정 값 초과 및 상기 (k+1) 특정 값 이하를 만족하는 동안 사용된 배치 데이터의 수와 동일한 것을 특징으로 하는 학습 방법. - 제1항에 있어서,
상기 뉴럴 네트워크는, (i) 트레이닝 데이터에 적어도 하나의 컨벌루션 연산을 적용하여, 적어도 하나의 특징맵을 출력하도록 하는 적어도 하나의 컨벌루션 레이어(convolutional layer), (ii) 상기 특징맵 상에서의 ROI(Region Of Interest)에 대응하는 영역을 풀링하여 산출된 적어도 하나의 특징 벡터에 적어도 하나의 FC(Fully connected) 연산을 적용하여, 상기 트레이닝 데이터에 포함된 적어도 하나의 객체에 대응하는 확률값을 산출하도록 하는 적어도 하나의 FC 레이어(FC layer), 및 (iii) 상기 FC 레이어로부터 산출된 상기 확률값에 대응하는 적어도 하나의 클래스 스코어 및 적어도 하나의 리그레션 델타를 산출하는 출력 레이어(output layer)를 포함하고,
상기 학습 장치가, 상기 출력 레이어의 적어도 하나의 산출 결과와 이에 대응되는 GT(Ground Truth)를 참조하여 계산한 로스를 이용하여 백프로파게이션함으로써 상기 FC 레이어 및 상기 컨벌루션 레이어를 학습할 경우, 상기 학습 장치는, 상기 제1 학습률 내지 상기 제k 학습률을 참조하여 상기 FC 레이어 및 상기 컨벌루션 레이어의 적어도 하나의 파라미터의 변동폭을 결정하는 것을 특징으로 하는 학습 방법. - 제9항에 있어서,
(i) 상기 트레이닝 데이터 중 상기 일부 각각이 배치 데이터이고, (ii) 상기 이터레이션 누적 횟수가 상기 제1 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제1 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되며, (iii) 상기 이터레이션 누적 횟수가 상기 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제(k+1) 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되는 경우, 상기 학습 장치는, 상기 각각의 배치 데이터에 대응되는 상기 출력 레이어의 적어도 하나의 각 산출결과와 이에 대응되는 상기 GT를 참조하여 계산한 로스를 이용하여 백프로파게이션함으로써 상기 FC 레이어 및 상기 컨벌루션 레이어를 학습하는 것을 특징으로 하는 학습 방법. - 학습의 이터레이션 누적 횟수가 제1 내지 제n 특정 값 중 하나에 다다를 때마다 학습률을 조정하여, 뉴럴 네트워크(neural network)를 테스트하는 방법에 있어서,
(a) 학습 장치가, (I) 학습률 변경 비율 조정을 위한 상수인 제1 감마를 기설정한 상태에서, (i) 상기 이터레이션 누적 횟수가 제1 특정 값 이하를 만족하는 동안에는, 트레이닝 데이터 중 일부를 이용하여 제1 기설정된 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제1 학습 프로세스를 수행하고, (ii) 상기 제1 학습 프로세스에 의해 획득된 상기 뉴럴 네트워크의 제1 로스를 참조하여 상기 제1 감마를 제2 감마로 변경하는 프로세스; (II) 상기 학습 장치가, k를 2부터 (n-1)까지 증가시켜가면서, (i) 상기 이터레이션 누적 횟수가 제(k-1) 특정 값 초과 및 제k 특정 값 이하를 만족하는 동안에는, 상기 트레이닝 데이터 중 일부를 이용하여 제k 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제k 학습 프로세스를 수행하고, (ii) (ii-1) 상기 제k 학습 프로세스에 의해 획득된 상기 뉴럴 네트워크의 제k 로스를 참조하여 제k 감마를 제(k+1) 감마로 변경하고, (ii-2) 상기 제(k+1) 감마를 이용하여 제k 학습률을 제(k+1) 학습률로 변경하며, (iii) 상기 이터레이션 누적 횟수가 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안에는, 상기 트레이닝 데이터 중 일부를 이용하여 제(k+1) 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제(k+1) 학습 프로세스;를 거쳐 상기 학습 장치의 파라미터를 획득한 상태에서, 상기 학습 장치의 파라미터를 이용한 테스트 장치가, 상기 뉴럴 네트워크에 테스트 데이터를 입력하는 단계; 및
(b) 상기 테스트 장치가, 상기 뉴럴 네트워크로 하여금, 제1 학습률 내지 제(k+1) 학습률에 따라 학습된 파라미터를 이용하여 테스트 데이터의 연산한 결과를 출력하는 단계;
를 포함하는 것을 특징으로 하는 테스트 방법. - 제11항에 있어서,
상기 (II) 프로세스에서,
상기 학습 장치는, 제k 로스 그래디언트를 참조하여 상기 제k 감마를 제(k+1) 감마로 변경하되, 상기 제k 로스 그래디언트는, 상기 뉴럴 네트워크의 (i) 상기 제k 로스 및 (ii) 제(k-1) 로스를 참조하여 산출되되, 상기 제(k-1) 로스는, 상기 이터레이션 누적 횟수가 제(k-2) 특정 값 초과 및 제(k-1) 특정 값 이하를 만족하는 동안, 상기 트레이닝 데이터 중 일부를 이용하여 상기 뉴럴 네트워크의 상기 학습을 반복하는 제(k-1) 학습 프로세스에 의해 획득되는 것을 특징으로 하는 테스트 방법. - 제12항에 있어서,
상기 학습 장치는, 상기 제k 로스 그래디언트가 기설정된 최소 로스 그래디언트 이상일 경우, 상기 제k 감마와 상기 제k 로스 그래디언트를 곱 연산하여 산출된 결과를 참조로 하여, 상기 제(k+1) 감마를 결정하는 것을 특징으로 하는 테스트 방법. - 제11항에 있어서,
상기 뉴럴 네트워크는, (i) 트레이닝 데이터에 적어도 하나의 컨벌루션 연산을 적용하여, 적어도 하나의 특징맵을 출력하도록 하는 적어도 하나의 컨벌루션 레이어(convolutional layer), (ii) 상기 특징맵 상에서의 ROI(Region Of Interest)에 대응하는 영역을 풀링하여 산출된 적어도 하나의 특징 벡터에 적어도 하나의 FC(Fully connected) 연산을 적용하여, 상기 트레이닝 데이터에 포함된 적어도 하나의 객체에 대응하는 확률값을 산출하도록 하는 적어도 하나의 FC 레이어(FC layer), 및 (iii) 상기 FC 레이어로부터 산출된 상기 확률값에 대응하는 적어도 하나의 클래스 스코어 및 적어도 하나의 리그레션 델타를 산출하는 출력 레이어(output layer)를 포함하고,
상기 출력 레이어의 적어도 하나의 산출 결과와 이에 대응되는 GT(Ground Truth)를 참조하여 계산한 로스를 이용하여 백프로파게이션함으로써 상기 FC 레이어 및 상기 컨벌루션 레이어를 학습할 경우, 상기 학습 장치는, 상기 제1 학습률 내지 상기 제k 학습률을 참조하여 상기 FC 레이어 및 상기 컨벌루션 레이어의 적어도 하나의 파라미터의 변동폭을 결정하는 것을 특징으로 하는 테스트 방법. - 제14항에 있어서,
(i) 상기 트레이닝 데이터 중 상기 일부 각각이 배치 데이터이고, (ii) 상기 이터레이션 누적 횟수가 상기 제1 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제1 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되며, (iii) 상기 이터레이션 누적 횟수가 상기 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제(k+1) 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되는 경우, 상기 학습 장치는, 상기 각각의 배치 데이터에 대응되는 상기 출력 레이어의 적어도 하나의 각 산출결과와 이에 대응되는 상기 GT를 참조하여 계산한 로스를 이용하여 백프로파게이션함으로써 상기 FC 레이어 및 상기 컨벌루션 레이어를 학습하는 것을 특징으로 하는 테스트 방법. - 학습의 이터레이션 누적 횟수가 제1 내지 제n 특정 값 중 하나에 다다를 때마다 학습률을 조정하여, 뉴럴 네트워크(neural network)를 학습시키는 학습 장치에 있어서,
트레이닝 데이터를 획득하는 통신부; 및
(I) 학습률 변경 비율 조정을 위한 상수인 제1 감마를 기설정한 상태에서, (i) 상기 이터레이션 누적 횟수가 제1 특정 값 이하를 만족하는 동안에는, 트레이닝 데이터 중 일부를 이용하여 제1 기설정된 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제1 학습 프로세스를 수행하고, (ii) 상기 제1 학습 프로세스에 의해 획득된 상기 뉴럴 네트워크의 제1 로스를 참조하여 상기 제1 감마를 제2 감마로 변경하는 프로세스, (II) k를 2부터 (n-1)까지 증가시켜가면서, (II-1) 상기 이터레이션 누적 횟수가 제(k-1) 특정 값 초과 및 제k 특정 값 이하를 만족하는 동안에는, 상기 트레이닝 데이터 중 일부를 이용하여 제k 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제k 학습 프로세스를 수행하고, (II-2) (i) 상기 제k 학습 프로세스에 의해 획득된 상기 뉴럴 네트워크의 제k 로스를 참조하여 제k 감마를 제(k+1) 감마로 변경하고, (ii) 상기 제(k+1) 감마를 이용하여 제k 학습률을 제(k+1) 학습률로 변경하며, (II-3) 상기 이터레이션 누적 횟수가 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안에는, 상기 트레이닝 데이터 중 일부를 이용하여 제(k+1) 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제(k+1) 학습 프로세스를 수행하는 프로세스를 수행하는 프로세서;
를 포함하는 것을 특징으로 하는 학습 장치. - 제16항에 있어서,
상기 (II) 프로세스에서,
상기 프로세서는, 제k 로스 그래디언트를 참조하여 상기 제k 감마를 제(k+1) 감마로 변경하되, 상기 제k 로스 그래디언트는, 상기 뉴럴 네트워크의 (i) 상기 제k 로스 및 (ii) 제(k-1) 로스를 참조하여 산출되되, 상기 제(k-1) 로스는, 상기 이터레이션 누적 횟수가 제(k-2) 특정 값 초과 및 제(k-1) 특정 값 이하를 만족하는 동안, 상기 트레이닝 데이터 중 일부를 이용하여 상기 뉴럴 네트워크의 상기 학습을 반복하는 제(k-1) 학습 프로세스에 의해 획득되는 것을 특징으로 하는 학습 장치. - 제17항에 있어서,
상기 프로세서는, 상기 제k 로스 그래디언트가 기설정된 최소 로스 그래디언트 이상일 경우, 상기 제k 감마와 상기 제k 로스 그래디언트를 곱 연산하여 산출된 결과를 참조로 하여, 상기 제(k+1) 감마를 결정하는 것을 특징으로 학습 장치. - 제17항에 있어서,
상기 프로세서는, 상기 제k 로스 그래디언트가 기설정된 최소 로스 그래디언트 미만일 경우, 상기 제(k+1) 감마가 상기 제k 감마로 결정되는 것을 특징으로 하는 학습 장치. - 제17항에 있어서,
상기 프로세서는, 상기 제(k-1) 로스들의 합에 대한 상기 제k 로스들의 합의 비를 상기 제k 로스 그래디언트로 결정하는 것을 특징으로 하는 학습 장치. - 제16항에 있어서,
상기 (II) 프로세스에서,
상기 프로세서는, 상기 제k 학습률과 상기 제(k+1) 감마를 곱 연산하여 산출된 결과를 상기 제(k+1) 학습률로 결정하는 것을 특징으로 하는 학습 장치. - 제16항에 있어서,
상기 트레이닝 데이터 중 상기 일부 각각이 배치 데이터이며,
상기 이터레이션 누적 횟수가 상기 제1 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제1 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되며,
상기 이터레이션 누적 횟수가 상기 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제(k+1) 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되는 것을 특징으로 하는 학습 장치. - 제22항에 있어서,
상기 이터레이션 누적 횟수가 상기 제1 특정 값 이하를 만족하는 동안 사용된 상기 배치 데이터 수가, 상기 이터레이션 누적 횟수가 상기 제k 특정 값 초과 및 상기 (k+1) 특정 값 이하를 만족하는 동안 사용된 배치 데이터의 수와 동일한 것을 특징으로 하는 학습 장치. - 제16항에 있어서,
상기 뉴럴 네트워크는, (i) 트레이닝 데이터에 적어도 하나의 컨벌루션 연산을 적용하여, 적어도 하나의 특징맵을 출력하도록 하는 적어도 하나의 컨벌루션 레이어(convolutional layer), (ii) 상기 특징맵 상에서의 ROI(Region Of Interest)에 대응하는 영역을 풀링하여 산출된 적어도 하나의 특징 벡터에 적어도 하나의 FC(Fully connected) 연산을 적용하여, 상기 트레이닝 데이터에 포함된 적어도 하나의 객체에 대응하는 확률값을 산출하도록 하는 적어도 하나의 FC 레이어(FC layer), 및 (iii) 상기 FC 레이어로부터 산출된 상기 확률값에 대응하는 적어도 하나의 클래스 스코어 및 적어도 하나의 리그레션 델타를 산출하는 출력 레이어(output layer)를 포함하고,
상기 프로세서가, 상기 출력 레이어의 적어도 하나의 산출 결과와 이에 대응되는 GT(Ground Truth)를 참조하여 계산한 로스를 이용하여 백프로파게이션함으로써 상기 FC 레이어 및 상기 컨벌루션 레이어를 학습할 경우, 상기 프로세서는, 상기 제1 학습률 내지 상기 제k 학습률을 참조하여 상기 FC 레이어 및 상기 컨벌루션 레이어의 적어도 하나의 파라미터의 변동폭을 결정하는 것을 특징으로 하는 학습 장치. - 제24항에 있어서,
(i) 상기 트레이닝 데이터 중 상기 일부 각각이 배치 데이터이고, (ii) 상기 이터레이션 누적 횟수가 상기 제1 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제1 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되며, (iii) 상기 이터레이션 누적 횟수가 상기 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제(k+1) 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되는 경우, 상기 프로세서는, 상기 각각의 배치 데이터에 대응되는 상기 출력 레이어의 적어도 하나의 각 산출결과와 이에 대응되는 상기 GT를 참조하여 계산한 로스를 이용하여 백프로파게이션함으로써 상기 FC 레이어 및 상기 컨벌루션 레이어를 학습하는 것을 특징으로 하는 학습 장치. - 학습의 이터레이션 누적 횟수가 제1 내지 제n 특정 값 중 하나에 다다를 때마다 학습률을 조정하여, 뉴럴 네트워크(neural network)를 학습시키는 테스트 장치에 있어서,
트레이닝 데이터를 획득하는 통신부; 및
(I) 학습률 변경 비율 조정을 위한 상수인 제1 감마를 기설정한 상태에서, (i) 상기 이터레이션 누적 횟수가 제1 특정 값 이하를 만족하는 동안에는, 트레이닝 데이터 중 일부를 이용하여 제1 기설정된 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제1 학습 프로세스를 수행하고, (ii) 상기 제1 학습 프로세스에 의해 획득된 상기 뉴럴 네트워크의 제1 로스를 참조하여 상기 제1 감마를 제2 감마로 변경하는 프로세스, (II) k를 2부터 (n-1)까지 증가시켜가면서, (i) 상기 이터레이션 누적 횟수가 제(k-1) 특정 값 초과 및 제k 특정 값 이하를 만족하는 동안에는, 상기 트레이닝 데이터 중 일부를 이용하여 제k 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제k 학습 프로세스를 수행하고, (ii) (ii-1) 상기 제k 학습 프로세스에 의해 획득된 상기 뉴럴 네트워크의 제k 로스를 참조하여 제k 감마를 제(k+1) 감마로 변경하고, (ii-2) 상기 제(k+1) 감마를 이용하여 제k 학습률을 제(k+1) 학습률로 변경하며, (iii) 상기 이터레이션 누적 횟수가 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안에는, 상기 트레이닝 데이터 중 일부를 이용하여 제(k+1) 학습률로 상기 뉴럴 네트워크의 상기 학습을 반복하는 제(k+1) 학습 프로세스를 수행하는 프로세스; 를 거쳐 상기 학습 장치의 파라미터를 획득한 상태에서, 상기 학습 장치의 파라미터를 이용하여, 상기 뉴럴 네트워크에 테스트 데이터를 입력하는 프로세스; 및 상기 뉴럴 네트워크로 하여금, 제1 학습률 내지 제(k+1) 학습률에 따라 학습된 파라미터를 이용하여 테스트 데이터의 연산한 결과를 출력하는 프로세스;를 수행하는 프로세서;
를 포함하는 것을 특징으로 하는 테스트 장치. - 제26항에 있어서,
상기 (II) 프로세스에서,
상기 프로세서는, 제k 로스 그래디언트를 참조하여 상기 제k 감마를 제(k+1) 감마로 변경하되, 상기 제k 로스 그래디언트는, 상기 뉴럴 네트워크의 (i) 상기 제k 로스 및 (ii) 제(k-1) 로스를 참조하여 산출되되, 상기 제(k-1) 로스는, 상기 이터레이션 누적 횟수가 제(k-2) 특정 값 초과 및 제(k-1) 특정 값 이하를 만족하는 동안, 상기 트레이닝 데이터 중 일부를 이용하여 상기 뉴럴 네트워크의 상기 학습을 반복하는 제(k-1) 학습 프로세스에 의해 획득되는 것을 특징으로 하는 테스트 장치. - 제27항에 있어서,
상기 프로세서는, 상기 제k 로스 그래디언트가 기설정된 최소 로스 그래디언트 이상일 경우, 상기 제k 감마와 상기 제k 로스 그래디언트를 곱 연산하여 산출된 결과를 참조로 하여, 상기 제(k+1) 감마를 결정하는 것을 특징으로 테스트 장치. - 제26항에 있어서,
상기 뉴럴 네트워크는, (i) 트레이닝 데이터에 적어도 하나의 컨벌루션 연산을 적용하여, 적어도 하나의 특징맵을 출력하도록 하는 적어도 하나의 컨벌루션 레이어(convolutional layer), (ii) 상기 특징맵 상에서의 ROI(Region Of Interest)에 대응하는 영역을 풀링하여 산출된 적어도 하나의 특징 벡터에 적어도 하나의 FC(Fully connected) 연산을 적용하여, 상기 트레이닝 데이터에 포함된 적어도 하나의 객체에 대응하는 확률값을 산출하도록 하는 적어도 하나의 FC 레이어(FC layer), 및 (iii) 상기 FC 레이어로부터 산출된 상기 확률값에 대응하는 적어도 하나의 클래스 스코어 및 적어도 하나의 리그레션 델타를 산출하는 출력 레이어(output layer)를 포함하고,
상기 출력 레이어의 적어도 하나의 산출 결과와 이에 대응되는 GT(Ground Truth)를 참조하여 계산한 로스를 이용하여 백프로파게이션함으로써 상기 FC 레이어 및 상기 컨벌루션 레이어를 학습할 경우, 상기 학습 장치는, 상기 제1 학습률 내지 상기 제k 학습률을 참조하여 상기 FC 레이어 및 상기 컨벌루션 레이어의 적어도 하나의 파라미터의 변동폭을 결정하는 것을 특징으로 하는 테스트 장치. - 제29항에 있어서,
(i) 상기 트레이닝 데이터 중 상기 일부 각각이 배치 데이터이고, (ii) 상기 이터레이션 누적 횟수가 상기 제1 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제1 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되며, (iii) 상기 이터레이션 누적 횟수가 상기 제k 특정 값 초과 및 제(k+1) 특정 값 이하를 만족하는 동안 사용되는 상기 배치 데이터의 수는, 상기 제(k+1) 학습 프로세스 동안의 이터레이션 횟수와 동일하게 결정되는 경우, 상기 학습 장치는, 상기 각각의 배치 데이터에 대응되는 상기 출력 레이어의 적어도 하나의 각 산출결과와 이에 대응되는 상기 GT를 참조하여 계산한 로스를 이용하여 백프로파게이션함으로써 상기 FC 레이어 및 상기 컨벌루션 레이어를 학습하는 것을 특징으로 하는 테스트 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/154,060 US10528867B1 (en) | 2018-10-08 | 2018-10-08 | Learning method and learning device for neural network at adaptive learning rate, and testing method and testing device using the same |
US16/154,060 | 2018-10-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200040185A true KR20200040185A (ko) | 2020-04-17 |
KR102349898B1 KR102349898B1 (ko) | 2022-01-12 |
Family
ID=67211605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190105488A KR102349898B1 (ko) | 2018-10-08 | 2019-08-27 | 적응적 학습률로 뉴럴 네트워크를 학습하는 방법 및 장치, 이를 이용한 테스트 방법 및 장치 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10528867B1 (ko) |
EP (1) | EP3637329A1 (ko) |
JP (1) | JP6998067B2 (ko) |
KR (1) | KR102349898B1 (ko) |
CN (1) | CN111008690B (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210136314A (ko) * | 2020-05-07 | 2021-11-17 | 주식회사 하나금융티아이 | 멀티 모델 및 점진적 배치를 이용한 학습률 결정 장치 및 방법 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10733511B1 (en) * | 2019-01-30 | 2020-08-04 | StradVision, Inc. | Learning method and learning device for updating HD map by reconstructing 3D space by using depth estimation information and class information on each object, which have been acquired through V2X information integration technique, and testing method and testing device using the same |
CN111260079B (zh) * | 2020-01-17 | 2023-05-19 | 南京星火技术有限公司 | 电子设备和智能体自训练装置 |
JP7436830B2 (ja) * | 2020-04-06 | 2024-02-22 | 富士通株式会社 | 学習プログラム、学習方法、および学習装置 |
CN112183750A (zh) * | 2020-11-05 | 2021-01-05 | 平安科技(深圳)有限公司 | 神经网络模型训练方法、装置、计算机设备及存储介质 |
US20230068874A1 (en) * | 2021-08-31 | 2023-03-02 | Samsung Electronics Co., Ltd. | Optimal learning rate selection through step sampling |
JP2023046868A (ja) | 2021-09-24 | 2023-04-05 | 富士通株式会社 | 機械学習プログラム、機械学習方法および情報処理装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6269351B1 (en) * | 1999-03-31 | 2001-07-31 | Dryken Technologies, Inc. | Method and system for training an artificial neural network |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715372A (en) * | 1995-01-10 | 1998-02-03 | Lucent Technologies Inc. | Method and apparatus for characterizing an input signal |
CN106228512A (zh) * | 2016-07-19 | 2016-12-14 | 北京工业大学 | 基于学习率自适应的卷积神经网络图像超分辨率重建方法 |
CN106295800B (zh) * | 2016-07-28 | 2019-03-05 | 北京工业大学 | 一种基于递归自组织rbf神经网络的出水总氮tn智能检测方法 |
JP6854344B2 (ja) * | 2016-11-15 | 2021-04-07 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 直方体検出のための深層機械学習システム |
-
2018
- 2018-10-08 US US16/154,060 patent/US10528867B1/en active Active
-
2019
- 2019-07-08 EP EP19184966.0A patent/EP3637329A1/en active Pending
- 2019-08-27 KR KR1020190105488A patent/KR102349898B1/ko active IP Right Grant
- 2019-09-29 CN CN201910936106.5A patent/CN111008690B/zh active Active
- 2019-10-03 JP JP2019182935A patent/JP6998067B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6269351B1 (en) * | 1999-03-31 | 2001-07-31 | Dryken Technologies, Inc. | Method and system for training an artificial neural network |
Non-Patent Citations (2)
Title |
---|
Ross Girshick, "Fast R-CNN," arXiv:1504.08083v2 [cs.CV] (2015.09.27.)* * |
Tomoumi Takase et al., "Effective neural network training with adaptive learning rate based on training loss." Neural Networks 101 (2018.02.13.)* * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210136314A (ko) * | 2020-05-07 | 2021-11-17 | 주식회사 하나금융티아이 | 멀티 모델 및 점진적 배치를 이용한 학습률 결정 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US10528867B1 (en) | 2020-01-07 |
JP2020077392A (ja) | 2020-05-21 |
JP6998067B2 (ja) | 2022-01-18 |
CN111008690A (zh) | 2020-04-14 |
EP3637329A1 (en) | 2020-04-15 |
CN111008690B (zh) | 2023-08-18 |
KR102349898B1 (ko) | 2022-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102349898B1 (ko) | 적응적 학습률로 뉴럴 네트워크를 학습하는 방법 및 장치, 이를 이용한 테스트 방법 및 장치 | |
KR102280414B1 (ko) | 고 정밀도로 이미지를 분석하기 위한 딥 러닝 네트워크를 사용하기 위해 트레이닝 이미지를 오토 라벨링하는 오토 라벨링 장치의 하이퍼파라미터를 최적화하는 방법 및 이를 이용한 최적화 장치 | |
JP6865364B2 (ja) | エッジロスを利用して歩行者イベント、自動車イベント、フォーリングイベント、フォールンイベントを含むイベントを検出するにおいて利用されるセグメンテーション性能向上のための学習方法及び学習装置、並びにそれを利用したテスト方法及びテスト装置 | |
JP6912835B2 (ja) | 自律走行自動車のレベル4を満たすために要求されるhdマップアップデートに利用される、少なくとも一つのアダプティブロス重み付け値マップを利用したアテンションドリブン・イメージセグメンテーション学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置 | |
KR20200094622A (ko) | 뉴럴 네트워크 학습에 이용될 오토 라벨링된 이미지 중에서 라벨 검수를 위한 샘플 이미지를 획득하는 방법 및 이를 이용한 샘플 이미지 획득 장치 | |
US11113574B1 (en) | Methods for performing self-supervised learning of deep-learning based detection network by using deep Q-network and devices using the same | |
JP2020119500A (ja) | ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置 | |
EP2068263A3 (en) | Method and apparatus for estimating the physical state of a physical system | |
CN113825978B (zh) | 用于定义路径的方法和设备、存储装置 | |
JP6916549B2 (ja) | 軍事的目的、ドローンまたはロボットに利用されるために一つ以上の以前のバッチをさらに参照してモバイル装置またはiot装置に適用可能なオンラインバッチ正規化、オンデバイス学習、及び連続学習を遂行する方法と装置、並びにそれを利用したテスト方法及びテスト装置 | |
CN111178520A (zh) | 一种低计算能力处理设备的数据处理方法及装置 | |
US20180314978A1 (en) | Learning apparatus and method for learning a model corresponding to a function changing in time series | |
US20200151545A1 (en) | Update of attenuation coefficient for a model corresponding to time-series input data | |
CN110033081A (zh) | 一种确定学习率的方法和装置 | |
KR102320995B1 (ko) | 객체의 스케일에 따라 모드 전환이 가능한 cnn 기반의 감시용 객체 검출기의 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치 | |
CN111695687A (zh) | 训练用于图像识别的神经网络的方法和装置 | |
JP6970460B2 (ja) | モバイルデバイスまたは高精度の小型ネットワークに適用可能なハードウェアを最適化するために利用されるCNNパラメータ及び特徴値を量子化するために、重み量子化ロス値を利用してFL(Fractional Length)値を決定する方法及び装置{METHOD AND DEVICE FOR DETERMINING FL VALUE BY USING WEIGHTED QUANTIZATION LOSS VALUES TO THEREBY QUANTIZE CNN PARAMETERS AND FEATURE VALUES TO BE USED FOR OPTIMIZING HARDWARE APPLICABLE TO MOBILE DEVICES OR COMPACT NETWORKS WITH HIGH PRECISION} | |
CN113837378A (zh) | 一种基于代理模型和梯度优化的卷积神经网络压缩方法 | |
KR20220088497A (ko) | 서브-커널 써칭 모듈을 사용하여 온-디바이스 뉴럴 네트워크 모델을 최적화하는 방법 및 장치 | |
CN109657800A (zh) | 基于参数噪声的强化学习模型优化方法及装置 | |
KR20190129422A (ko) | 뉴럴 네트워크를 이용한 변분 추론 방법 및 장치 | |
US6813390B2 (en) | Scalable expandable system and method for optimizing a random system of algorithms for image quality | |
KR20220032861A (ko) | 하드웨어에서의 성능을 고려한 뉴럴 아키텍처 서치 방법 빛 장치 | |
US10635941B1 (en) | Method and device for on-device continual learning of neural network which analyzes input data by optimized sampling of training images, and method and device for testing the neural network for smartphones, drones, vessels, or military purpose | |
CN118297143A (zh) | 一种自适应测试策略调整方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190827 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210128 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20211111 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220106 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220107 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |