KR102400610B1 - 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법 - Google Patents
평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법 Download PDFInfo
- Publication number
- KR102400610B1 KR102400610B1 KR1020200116991A KR20200116991A KR102400610B1 KR 102400610 B1 KR102400610 B1 KR 102400610B1 KR 1020200116991 A KR1020200116991 A KR 1020200116991A KR 20200116991 A KR20200116991 A KR 20200116991A KR 102400610 B1 KR102400610 B1 KR 102400610B1
- Authority
- KR
- South Korea
- Prior art keywords
- layer
- mean square
- current time
- square deviation
- learning rate
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computational Mathematics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
본 발명은 평균 제곱 편차 분석 기반의 적응형 학습률을 갖는 역전파 신경망 학습방법에 관한 것으로, 각 층 내부 신경망의 역전파 에러 신호가 해당 층의 가중치 오차에 의해 발생한다는 새로운 개념을 도입하여 가중치 오차를 최소화하는 방향으로 실시간 에러에 따라 학습률을 적응적으로 업데이트하기 위한 것이다.
이를 위하여 본 발명은 신경망 알고리즘에서 필수적으로 유도되는 n번째 층의 j번째 뉴런에 존재하며, n-1번째와 n번째 층 사이에 연결되어 있는 가중치의 오차의 영향으로 발생하는 역전파 오차를 산출하는 제1과정, 현재 시간의 n-1번째 층과 n번째 층 사이에 존재하는 가중치의 평균제곱편차를 분석하여 이 분석결과를 바탕으로 가중치의 평균제곱편차를 최소화할 수 있는 현재 시간의 적응형 학습률을 업데이트하는 제2과정을 포함하여, 충격 소음이나 잘못된 학습 데이터에 대해 강인한 역전파 신경망을 구축할 수 있게 한다.
이를 위하여 본 발명은 신경망 알고리즘에서 필수적으로 유도되는 n번째 층의 j번째 뉴런에 존재하며, n-1번째와 n번째 층 사이에 연결되어 있는 가중치의 오차의 영향으로 발생하는 역전파 오차를 산출하는 제1과정, 현재 시간의 n-1번째 층과 n번째 층 사이에 존재하는 가중치의 평균제곱편차를 분석하여 이 분석결과를 바탕으로 가중치의 평균제곱편차를 최소화할 수 있는 현재 시간의 적응형 학습률을 업데이트하는 제2과정을 포함하여, 충격 소음이나 잘못된 학습 데이터에 대해 강인한 역전파 신경망을 구축할 수 있게 한다.
Description
본 발명은 평균제곱편차(Mean Square Deviation) 분석기반의 적응형 학습률을 갖는 역전파(backpropagation) 신경망 알고리즘에 관한 것으로서, 보다 상세하게는 인공지능(Artificial Intelligence) 알고리즘의 가장 기본적 분야인 신경망 구조의 역전파알고리즘 분야에서 고정된 학습률(learning rate)값을 가지는 역전파 알고리즘이 아닌 실시간 에러에 따라 학습률이 변화하는 적응형 학습률 값을 갖는 역전파 신경망 학습방법에 관한 것이다.
일반적으로 AI 알고리즘의 가장 기본적 분야인 신경망 구조의 역전파(backpropagation) 알고리즘은 고정된 학습률(learning rate) 값을 가지는 역전파 알고리즘으로서, 기존 대부분의 적응형 역전파 신경망 알고리즘 분야가 에러 신호를 직접적으로 최소화하는 것에 기반하여 개발되어 있으므로 새로운 환경, 즉 충격 소음 발생시 또는 학습에 잘못된 데이터(bad data)가 섞일 경우 이러한 충격 소음이나 잘못된 학습 데이터에 의해서도 가중치를 업데이트하게 되는 문제점이 있었다.
따라서 본 발명은 상기의 문제점을 해결하기 위한 것으로, 본 발명이 해결하고자 하는 기술적 과제는, 역전파 알고리즘에서 보편적으로 사용하는 각 층 내부 신경망의 역전파 에러 신호가 해당 층의 가중치 오차(weight deviation)에 의해 발생한다는 새로운 개념을 도입함으로써 이러한 가중치 오차를 최소화하는 방향으로 실시간 에러에 따라 학습률을 업데이트하는 평균제곱편차(MSD) 분석 기반의 적응형 학습률을 갖는 역전파 신경망 학습방법을 제공하고자 하는 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시 형태는, 신경망 알고리즘에서 필수적으로 유도되는 n번째 층의 j번째 뉴런에 존재하며, n-1번째 층과 n번째 층 사이에 연결되어 있는 가중치의 오차의 영향으로 발생하는 역전파 오차를 산출하는 제1과정, 현재 시간의 n-1번째 층과 n번째 층 사이에 존재하는 가중치의 평균제곱편차를 분석하여 이 분석결과를 바탕으로 가중치의 평균제곱편차를 최소화할 수 있는 현재 시간의 적응형 학습률을 업데이트하는 제2과정을 포함하는, 평균 제곱 편차 분석 기반의 적응형 학습률을 갖는 역전파 신경망 학습방법이다.
상기 본 발명에 의한 역전파 신경망 학습방법에서 제2과정은, n-1번째 층과 n번째 층 사이의 가중치를 업데이트하기 위한 현재 시간의 적응형 학습률을 산출하는 제1단계, 제1단계에서 산출된 현재 시간의 적응형 학습률과 현재 시간의 임의로 주어진 현재 시간의 역전파 오차와 n-1번째 층의 입력값의 정규화 값을 통해 n-1번째 층과 n번째 층 사이에 존재하는 현재 시간의 가중치를 이용하여 n-1번째 층과 n번째 층 사이에 존재하는 다음 시간의 가중치를 산출하는 제2단계, 제1단계에서 산출된 현재 시간의 적응형 학습률을 이용하여 n-1번째 층과 n번째 층 사이에 존재하는 가중치를 위한 다음시간의 평균제곱편차 분석치를 산출하는 제3단계, 및 제1단계 내지 제3단계를 반복 수행하여 각 은닉층에 대한 가중치를 업데이트하는 제4단계를 포함하여 이루어질 수 있다.
본 발명에 의하면, 현재시간의 n-1번째 층과 n번째 층 사이에 존재하는 가중치의 평균제곱편차를 분석하여 이 분석결과를 바탕으로 가중치의 평균제곱편차를 최소화할 수 있도록 현재시간의 적응형 학습률을 업데이트하게 되므로, 새로운 환경이나 충격 소음 발생시 또는 학습에 잘못된 데이터가 섞일 경우에도 이러한 충격 소음이나 잘못된 학습 데이터에 의해서 가중치를 업데이트하는 것을 방지할 수 있어 견고한 신경망을 구축할 수 있게 된다.
도 1은 본 발명에 의한 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법을 설명하기 위한 역전파 신경망의 토폴로지 예시도이다.
도 2는 본 발명에 의한 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습과정을 예시한 흐름도이다.
도 2는 본 발명에 의한 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습과정을 예시한 흐름도이다.
이하, 본 발명의 바람직한 실시 형태에 따른 평균제곱편차(MSD) 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법의 구성 및 그에 의한 작용 효과를 첨부 도면을 참조하여 상세히 설명한다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명에 의한 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법을 설명하기 위한 역전파 신경망의 토폴로지 예시도이고, 도 2는 본 발명에 의한 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습 과정을 예시한 흐름도로서, 본 발명에 의한 평균제곱편차(MSD) 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법은 도면에 예시된 바와 같은 역전파 신경망 알고리즘에서 필수적으로 유도되는 n번째 층의 j번째 뉴런에 존재하며, n-1번째 층과 n번째 층 사이에 연결되어 있는 가중치의 오차의 영향으로 발생하는 역전파 오차를 산출하는 제1과정(a), 현재 시간의 n-1번째 층과 n번째 층 사이에 존재하는 가중치의 평균제곱편차를 분석하여, 이 분석결과를 바탕으로 가중치의 평균제곱편차를 최소화할 수 있는 현재시간의 적응형 학습률을 업데이트하는 제2과정(b;b1-b4)를 포함하여 구성될 수 있다. 여기서 제2과정은 n-1번째 층과 n번째 층 사이의 가중치를 업데이트하기 위한 현재시간의 적응형 학습률을 산출하는 제1단계(b1), 제1단계에서 산출된 현재 시간의 적응형 학습률과 현재 시간의 임의로 주어진 현재 시간의 역전파 오차와 n-1번째 층의 입력값의 정규화값을 통해 n-1번째 층과 n번째 층 사이에 존재하는 현재 시간의 가중치를 이용하여 n-1번째 층과 n번째 층 사이에 존재하는 다음 시간의 가중치를 산출하는 제2단계(b2), 제1단계에서 산출된 현재 시간의 적응형 학습률을 이용하여 n-1번째 층과 n번째 층 사이에 존재하는 가중치를 위한 다음 시간의 평균제곱편차 분석치를 산출하는 제3단계(b3), 및 제1단계 내지 제3단계을 반복 수행하여 각 은닉층에 대한 가중치를 업데이트하는 제4단계(b4)를 포함하여 이루어질 수 있다.
제1과정에서 산출되는 역전파 오차()는 n-1번째 층의 각 뉴런에서 발생하는 최종값으로 수렴된 입력값(), n-1번째와 n번째 사이에 연결된 가중치가 최종값으로 수렴되었을 때의 값(), n-1번째 층의 각 뉴런에서 발생하는 현재시간 k에서의 입력값(), 각 뉴런에서 발생할 수 있는 외란(), 및 일종의 외란의 일부로서 u_t를 u(k)로 변경할 때 발생하는 차이의 값()으로 정의되는 파라미터들에 의하여, 아래의 수학식 1로 산출된다.
[수학식 1]
여기서 t는 그 변수들이 수렴해야 할 목표(target) 값이 된다.
제1단계에서 적응형 학습률()은 임의로 설정되는 정수값()과 n-번째 층의 뉴런개수()와 최종 에러의 변화량() 및 초기 평균제곱편차 분석치()에 대하여, 아래의 수학식 2에 의해 산출한다.
[수학식 2]
제2단계에서 다음 시간의 가중치()는 제1단계에서 산출된 현재시간(k)의 적응형 학습률()과 제1과정에서 설정된 임의로 주어진 현재시간(k)의 역전파 오차()와 n-1번째 층의 입력값의 제1정규화값()을 통해 n-1번째 층과 n번째 층 사이에 존재하는 현재 시간(k)의 가중치()를 이용하여, 아래의 수학식 3에 의해 산출한다.
[수학식 3]
제1단계에서 산출된 현재 시간(k)의 적응형 학습률()과, 1보다 큰 정수로 설정되는 임의의 값()과 n-번째 층의 뉴런개수()와 최종 에러의 변화량()과 n-1번째 층의 입력값의 제2정규화값() 및 현재 시간의 평균제곱편차 분석치()를 이용하여, 아래의 수학식 4에 의해 산출한다.
[수학식 4]
이상의 본 발명에 의한 평균제곱편차(MSD) 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법에서는 적응형 학습률()을 수학식 2와 같이 업데이트할 수 있게 되므로 각 역전파 오차가 크게 되어 평균제곱편차 분석값(TrP)이 크게 되면 적응형 학습률의 값이 거의 1에 가까워져 신경망의 업데이트 속도가 매우 빨라지고, 역전파 오차가 작아지면 적응형 학습률이 0에 가까워져 정상상태 오차(steady state error)를 작게 만들어줄 수 있게 된다. 또한 갑작스러운 충격 소음이나 잘못된 학습 데이터가 들어오는 경우에는 최종 에러의 변화량()의 값이 매우 크게 변하기 때문에 적응형 학습률은 매우 작아져 잘못된 가중치의 업데이트를 방지할 수 있게 된다.
이와 같은 본 발명에 의한 평균제곱편차(MSD) 분석 기반의 적응형 학습률을 갖는 역전파 신경망 학습방법에서는 역전파 알고리즘에서 보편적으로 사용하는 각 층 내부 뉴런의 역전파 에러 신호 발생 원인을 각 층에 존재하는 가중치가 최종적으로 학습되기를 원하는 가상의 목표 가중치와의 차이인 가중치 오차에 의해 발생한다는 새로운 개념을 도입하여 이러한 가중치 오차(deviation)를 최소화하는 방향으로 학습률을 실시간 업데이트할 수 있게 되므로, AI 알고리즘의 가장 기본적 분야인 신경망 구조의 역전파 알고리즘 분야에서 고정된 학습률(learning rate)값을 가지는 역전파 알고리즘이 아닌 실시간 에러에 따라 학습률이 변화하는 적응형 학습률을 갖는 역전파 신경망을 구축할 수 있게 된다.
이와 같은 본 발명의 적응형 학습률를 갖는 역전파 신경망 알고리즘이 적용된 역전파 신경망에서는 새로운 환경(충격소음 발생시 또는 학습에 bad data가 섞일 경우)에도 강인한 AI 알고리즘들을 추가적으로 응용 및 개발할 수 있게 하는 이점도 제공할 수 있게 된다.
Claims (6)
- (a) 신경망 알고리즘에서 필수적으로 유도되는 n번째 층의 j번째 뉴런에 존재하며, n-1번째 층과 n번째 층 사이에 연결되어 있는 가중치의 오차의 영향으로 발생하는 역전파 오차를 산출하는 제1과정;
(b) 현재 시간의 n-1번째 층과 n번째 층 사이에 존재하는 가중치의 평균제곱편차를 분석하여, 이 분석결과를 바탕으로 가중치의 평균제곱편차를 최소화할 수 있는 현재 시간의 적응형 학습률을 업데이트하는 제2과정;을 포함하되,
상기 역전파 오차()는,
n-1번째 층의 각 뉴런에서 발생하는 최종값으로 수렴된 입력값(), n-1번째와 n번째 사이에 연결된 가중치가 최종값으로 수렴되었을 때의 값(), n-1번째 층의 각 뉴런에서 발생하는 현재 시간 k에서의 입력값(), 각 뉴런에서 발생할 수 있는 외란(), 및 일종의 외란의 일부로서 u_t를 u(k)로 변경할 때 발생하는 차이의 값()으로 정의되는 파라미터들에 의하여,
아래의 수학식 1
[수학식 1]
로 산출되는 것을 특징으로 하는 평균 제곱 편차 분석 기반의 적응형 학습률을 이용한 역전파 신경망의 학습방법. - 제1항에 있어서, 상기 제2과정(b)은,
(b1) n-1번째 층과 n번째 층 사이의 가중치를 업데이트하기 위한 현재시간의 적응형 학습률을 산출하는 제1단계;
(b2) 상기 제1단계(b1)에서 산출된 현재 시간의 적응형 학습률과 현재 시간의 임의로 주어진 현재시간의 역전파 오차와 n-1번째 층의 입력값의 정규화값을 통해 n-1번째 층과 n번째 층 사이에 존재하는 현재 시간의 가중치를 이용하여 n-1번째 층과 n번째 층 사이에 존재하는 다음 시간의 가중치를 산출하는 제2단계;
(b3) 상기 제1단계에서 산출된 현재 시간의 적응형 학습률을 이용하여 n-1번째 층과 n번째 층 사이에 존재하는 가중치를 위한 다음 시간의 평균제곱편차 분석치를 산출하는 제3단계; 및
(b4) 상기 제1단계(b1) 내지 제3단계(b3)을 반복 수행하여 각 은닉층에 대한 가중치를 업데이트하는 제4단계;을 포함하여 이루어지는 것을 특징으로 하는 평균 제곱 편차 분석 기반의 적응형 학습률을 이용한 역전파 신경망의 학습방법. - 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200116991A KR102400610B1 (ko) | 2020-09-11 | 2020-09-11 | 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200116991A KR102400610B1 (ko) | 2020-09-11 | 2020-09-11 | 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220034517A KR20220034517A (ko) | 2022-03-18 |
KR102400610B1 true KR102400610B1 (ko) | 2022-05-19 |
Family
ID=80936849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200116991A KR102400610B1 (ko) | 2020-09-11 | 2020-09-11 | 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102400610B1 (ko) |
-
2020
- 2020-09-11 KR KR1020200116991A patent/KR102400610B1/ko active IP Right Grant
Non-Patent Citations (2)
Title |
---|
Matthew D. Zeiler, ADADELTA: AN ADAPTIVE LEARNING RATE METHOD, arXiv:1212.5701v1, 1-6pages (2012. 12. 22.)* |
Saeid Iranmanesh et al., A Differential Adaptive Learning Rate Method for Back-Propagation Neural Networks, World Academy of Science, Engineering and Technology 50, 285-288pages (2009. 2.)* |
Also Published As
Publication number | Publication date |
---|---|
KR20220034517A (ko) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Back et al. | FIR and IIR synapses, a new neural network architecture for time series modeling | |
US10832123B2 (en) | Compression of deep neural networks with proper use of mask | |
Chen | Back-propagation neural networks for nonlinear self-tuning adaptive control | |
US4912647A (en) | Neural network training tool | |
US4914603A (en) | Training neural networks | |
CN108764540B (zh) | 基于并行lstm串联dnn的供水管网压力预测方法 | |
US4912649A (en) | Accelerating learning in neural networks | |
US4912654A (en) | Neural networks learning method | |
CN108490965A (zh) | 基于遗传算法优化神经网络的旋翼飞行器姿态控制方法 | |
CN107103359A (zh) | 基于卷积神经网络的大服务系统在线可靠性预测方法 | |
CN112269729A (zh) | 面向网络购物平台大规模服务器集群的负载智能分析方法 | |
CN112422493B (zh) | SDN网络架构下基于多层感知神经网络MLDNN的DDoS攻击检测方法 | |
Zilouchian | Fundamentals of neural networks | |
KR102400610B1 (ko) | 평균제곱편차 분석기반의 적응형 학습률을 갖는 역전파 신경망 학습방법 | |
Heskes et al. | Learning-parameter adjustment in neural networks | |
US20190065935A1 (en) | Computational method for feedback in a hierarchical neural network | |
CN111582461B (zh) | 神经网络训练方法、装置、终端设备和可读存储介质 | |
Lin et al. | Approach to adaptive neural net-based H∞ control design | |
Aksu et al. | Training the multifeedback-layer neural network using the Particle Swarm Optimization algorithm | |
Sorheim | A combined network architecture using ART2 and back propagation for adaptive estimation of dynamical processes | |
Bhatia et al. | Feed forward neural network optimization using self adaptive differential evolution for pattern classification | |
Su et al. | Neural network based fusion of global and local information in predicting time series | |
CN111582470A (zh) | 基于stdp的自适应非监督学习图像识别方法及系统 | |
Sheel et al. | Accelerated learning in MLP using adaptive learning rate with momentum coefficient | |
US5438645A (en) | Neural network which uses a monitor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |