KR101738825B1 - 비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템 - Google Patents

비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템 Download PDF

Info

Publication number
KR101738825B1
KR101738825B1 KR1020160147329A KR20160147329A KR101738825B1 KR 101738825 B1 KR101738825 B1 KR 101738825B1 KR 1020160147329 A KR1020160147329 A KR 1020160147329A KR 20160147329 A KR20160147329 A KR 20160147329A KR 101738825 B1 KR101738825 B1 KR 101738825B1
Authority
KR
South Korea
Prior art keywords
layer
learning
probability
ncsfnn
stochastic
Prior art date
Application number
KR1020160147329A
Other languages
English (en)
Inventor
신진우
정송
이기민
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020160147329A priority Critical patent/KR101738825B1/ko
Priority to US15/365,641 priority patent/US20180129930A1/en
Application granted granted Critical
Publication of KR101738825B1 publication Critical patent/KR101738825B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • G06N3/0472
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법이 개시된다. 학습 방법은, 복수의 히든 레이어(hidden layer)를 포함하는 학습 모델로서 비연속적인 확률 뉴런(non-consecutive stochastic neural)을 가지는 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및 상기 NCSFNN을 학습시키는 단계를 포함한다.

Description

비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템{METHOD AND SYSTEM FOR LEARINIG USING STOCHASTIC NEURAL AND KNOWLEDGE TRANSFER}
아래의 설명은 사물의 인지와 분류와 같은 지도 학습(supervised learning)을 위한 학습 모델에 관한 것이다.
최근 인식 시스템에서의 딥러닝(deep learning) 연구에서는 배경 분리나 특징 추출 알고리즘을 사람의 경험적 노하우를 이용하여 설계하는 대신, 많은 데이터를 수집하여 직접 해당 역할을 하는 모델을 학습시킴으로써 좋은 성능을 내고 있다.
특히, 컴퓨터 비전, 음성 인식, 자연어 처리, 신호 처리와 같은 기계학습 분야에서 딥러닝이 최근 혁신적인 성능을 보여주고 있다.
딥러닝 기술의 일례로서 한국공개특허공보 제10-2016-0069834호(공개일 2016년 06월 17일)에는 빠른 시간에 영상 데이터를 분류할 수 있도록 CNN(convolutional neural network)을 근사화 하기 위한 학습 장치 및 방법이 개시되어 있다.
딥러닝 모델이 1940년대에 처음 제안되었음에도 불고하고 최근에 들어서야 주목 받은 주요 원인 중 하나는 확률적인 요소에 기반한 학습 알고리즘의 발전을 둘 수 있다.
이와 같은 확률적인 요소를 강력하게 적용할 수 있는 방법 중 하나는 확률적인 딥러닝 모델을 디자인 하는 것이다.
하지만, 현재 확률 기반 딥러닝 모델들은 비지도 학습에만 국한되어 있다. 이는 지도 학습에 확률 기반 모델들을 어떻게 디자인해야 할 지가 불분명하고 복잡도 때문에 효율적인 학습 알고리즘 개발이 쉽지 않기 때문이다.
사물의 인식과 분류와 같은 지도 학습 상황에서 기존의 딥러닝 모델과 같은 개수의 변수를 가지면서도 좋은 성능을 낼 수 있도록 새로운 딥러닝 모델을 디자인하는 기법과 해당 모델을 빠르게 학습시킬 수 있는 효율적인 학습 기법을 제공한다.
복수의 히든 레이어(hidden layer)를 포함하는 학습 모델로서 비연속적인 확률 뉴런(non-consecutive stochastic neural)을 가지는 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및 상기 NCSFNN을 학습시키는 단계를 포함하는 학습 방법을 제공한다.
일 측면에 따르면, 상기 구성하는 단계는, 상기 NCSFNN의 마지막 레이어를 비확률 뉴런으로 구성할 수 있다.
다른 측면에 따르면, 상기 구성하는 단계는, DNN(deep neural network)에서 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 상기 NCSFNN을 구성할 수 있다.
또 다른 측면에 따르면, 상기 구성하는 단계는, 상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성할 수 있다.
또 다른 측면에 따르면, 상기 구성하는 단계는, 상기 확률 레이어의 출력에 연결되는 레이어를 결정 레이어(deterministic layer)로 구성할 수 있다.
또 다른 측면에 따르면, 상기 확률 레이어는 수학식 1의 주변 분포(marginal distribution)을 가지는 이진 확률 벡터(binary random vector)로 정의될 수 있다.
수학식 1:
Figure 112016108429577-pat00001
(x는 학습할 데이터, N1은 확률 레이어의 히든 유닛의 개수,
Figure 112016108429577-pat00002
은 확률 레이어의 i번째 가중치 행렬(weight matrix),
Figure 112016108429577-pat00003
은 확률 레이어의 i번째 바이어스(bias),
Figure 112016108429577-pat00004
은 음이 아닌(non-negative) 활성화 함수,
Figure 112016108429577-pat00005
,
Figure 112016108429577-pat00006
는 확률 레이어의 파라미터)
또 다른 측면에 따르면, 상기 비확률 레이어는 수학식 2와 같은 결정 벡터(deterministic vector)로 정의될 수 있다.
수학식 2:
Figure 112016108429577-pat00007
(x는 학습할 데이터, N2는 비확률 레이어의 히든 유닛의 개수,
Figure 112016108429577-pat00008
는 비확률 레이어의 i번째 가중치 행렬(weight matrix),
Figure 112016108429577-pat00009
는 비확률 레이어의 i번째 바이어스(bias),
Figure 112016108429577-pat00010
은 음이 아닌(non-negative) 활성화 함수,
Figure 112016108429577-pat00011
는 비확률 레이어의 파라미터,
Figure 112016108429577-pat00012
는 비선형 활성화 함수)
또 다른 측면에 따르면, 상기 학습시키는 단계는, 지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시킬 수 있다.
또 다른 측면에 따르면, 상기 학습시키는 단계는, 상기 DNN의 파라미터를 이용하여 선형 변환(linear transformation)을 통해 상기 NCSFNN의 파라미터를 설정할 수 있다.
또 다른 측면에 따르면, 상기 학습시키는 단계는, 2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습할 수 있다.
또 다른 측면에 따르면, 상기 NCSFNN은 사물 인지나 음성 인식을 위한 지도 학습(supervised learning)에 이용될 수 있다.
복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및 지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시키는 단계를 포함하는 학습 방법을 제공한다.
복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및 2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습시키는 단계를 포함하는 학습 방법을 제공한다.
컴퓨터로 구현되는 학습 시스템에 있어서, 상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 것을 특징으로 하는 학습 시스템을 제공한다.
사물의 인식과 분류와 같은 지도 학습 상황에서 기존의 딥러닝 모델과 같은 개수의 변수를 가지면서도 좋은 성능을 낼 수 있도록 새로운 딥러닝 모델을 디자인하는 기법과 해당 모델을 빠르게 학습시킬 수 있는 효율적인 학습 기법을 제공할 수 있다.
비확률 모델과 확률 모델 사이의 지식 전파를 이용함으로써 학습 시간을 단축시킬 수 있으며, 비확률 모델의 파라미터를 이용하여 학습 모델의 초기값을 설정함으로써 빠르고 좋은 성능을 낼 수 있다.
도 1 내지 도 2는 본 발명의 일 실시예에 있어서 NCSFNN(non-consecutive stochastic feedforward neural network)의 구성을 설명하기 위한 예시 도면이다.
도 3 내지 도 4는 본 발명의 일 실시예에 있어서 NCSFNN의 구조적 제한을 설명하기 위한 예시 도면이다.
도 5는 본 발명의 일 실시예에 있어서 두 개의 히든 레이어를 가지는 NCSFNN의 구조를 설명하기 위한 예시 도면이다.
도 6은 본 발명의 일 실시예에 있어서 네 개의 히든 레이어를 가지는 NCSFNN의 구조를 설명하기 위한 예시 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들은 확률 기반 딥러닝 모델 및 학습 알고리즘에 관한 것이며, 이는 사물의 인지와 분류, 음성 인식과 같은 지도 학습 분야(예컨대, 학교나 기업 등)에 적용 가능하다.
대부분의 비지도 학습이 확률 기반 딥러닝 모델을 통해 이루어짐에도 불구하고 대부분의 지도 학습에서는 비확률 기반 딥러닝 모델들이 적용된다. 이는 지도 학습 및 지식 표현을 위하여 확률 기반 모델들을 어떻게 디자인해야 할 지가 불분명하며, 설사 특정 모델을 디자인한다고 해도 그 복잡도 때문에 효율적인 학습 알고리즘 개발이 쉽지 않기 때문이다.
이러한 문제를 해결하기 위해 본 발명에서는 비연속적으로 확률 뉴런을 가지는 확률 기반 딥러닝 모델을 디자인 하고 이와 같은 구조적인 제한을 통해 동일한 구조의 비확률 기반 딥러닝 모델로부터 지식 전파가 가능하다. 또한, 본 발명에서는 지식 전파와 몬테 카를로(Monte Carlo) 근사에 기반한 모델 학습법을 제공함으로써 효율적으로 학습이 가능하면서도 좋은 성능을 내는 것이 가능한 새로운 딥러닝 모델을 제공할 수 있다.
음성 인식이나 객체 인식과 같은 지도형 AI(인공지능) 태스크에서 DNN(deep neural network)이 좋은 성능을 내고 있다. DNN이 좋은 성능을 낼 수 있는 것은 드롭 아웃(drop out)이나 드롭 커넥트(drop connect)와 같이 확률적인 특성을 가진다는 것이다. 확률적인 특성을 가장 적극적으로(aggressive) 적용할 수 있는 방법 중 하나는 확률 기반 모델을 디자인 하는 것이다.
확률 기반 모델은 더 복잡한 모델도 표현이 가능하고 데이터로부터 보다 유용한 특성들을 효과적으로 추출할 수 있는 장점이 있다. 그러나, 확률 기반 모델이 최근까지도 비지도 학습에만 국한될 뿐 지도 학습에 적용되지 못하고 있다.
따라서, 본 발명에서는 지도 학습에서 더 향상된 성능을 보일 수 있는 새로운 확률 기반 모델로서 NCSFNN(non-consecutive stochastic feedforward neural network)를 제공한다.
본 발명은 지도 학습 상황에서 사용 가능한 (1) 비연속적으로 확률 뉴런을 가지는 새로운 형태의 딥러닝 모델과, (2) 지식 전파에 기반하여 새롭게 디자인 된 모델을 빠르게 학습시킬 수 있는 효율적인 학습 방법에 관한 것을 포함한다.
도 1은 본 발명의 일 실시예에 있어서 NCSFNN의 구성을 설명하기 위한 예시 도면이다.
도 1에 도시한 바와 같이, 본 발명에 따른 확률 기반 모델 NCSFNN(100)은 기존의 DNN(110)에서 일부 레이어를 확률 레이어(stochastic layer)(101)로 대체함으로써 구성될 수 있다.
본 발명에 따른 확률 기반 모델 NCSFNN(100)의 가장 큰 특징은 도 2에 도시한 바와 같이 확률 레이어(101) 위에 있는 레이어를 결정 레이어(deterministic layer)(203)로 구성하는 것이다. 다시 말해, 확률 레이어(101)의 출력에 연결되는 레이어는 결정 레이어(203)로 구성될 수 있다. 결정 레이어(203)는 두 개의 비선형 활성화 함수(non-linear activation function)인 f와 s, 그리고 기대 값(expectation)을 이용하여 정의할 수 있다.
본 발명에 따른 확률 기반 모델 NCSFNN(100)은 도 3에 도시한 바와 같이 확률 레이어(101)가 연속해서 구성되는 것과, 도 4에 도시한 바와 같이 마지막 레이어가 확률 레이어(101)로 구성되는 것을 제한한다. 이러한 구조적인 제한을 통해서 DNN으로부터 지식 전파(knowledge transfer)가 가능한 NCSFNN(100)을 설계할 수 있다.
따라서, 본 발명에 따른 확률 기반 모델 NCSFNN(100)은 비확률 뉴런과 확률 뉴런을 모두 가지는 하이브리드 네트워크(hybrid network)로 구성될 수 있으며, 다음과 같은 구조적인 제한을 가진다: (1) 비연속적으로 확률 뉴런을 가지고, (2) 마지막 레이어는 항상 비확률 뉴런으로 구성된다.
DNN의 파라미터가 주어질 때 NCSFNN(100)의 파라미터를 특정 변환(transformation)을 통해 설정하는 경우 NCSFNN(100)이 DNN과 똑같은 함수 값(function value)을 표현할 수 있다. 또한, NCSFNN(100)의 지식 전파가 가능하다는 점을 고려하여 NCSFNN(100)을 훈련하는데 2단계 학습(two-stage learning) 방식을 이용할 수 있다. 2단계 학습 방식을 이용하여 NCSFNN(100)을 훈련함으로써 샘플링으로 인해 훈련 속도가 느린 NCSFNN(100)의 훈련 시간을 단축할 뿐만 아니라 NCSFNN(100)이 DNN보다 더 좋은 성능을 기대할 수 있다.
이하에서는 NCSFNN(100)의 구체적인 모델에 대해 설명하기로 한다.
도 5는 본 발명의 일실시예에 있어서 NCSFNN(100)의 예시 모델을 도시한 것이다. 도 5는 두 개의 히든 레이어(hidden layer)를 가지는 NCSFNN(100)을 나타내고 있다.
NCSFNN(100)의 첫 번째 히든 레이어는 확률 레이어(101)로 구성되고 두 번째 히든 레이어는 결정 레이어(203)로 구성될 수 있다.
첫 번째 히든 레이어는 수학식 1과 같은 확률 분포를 가지는 이진 확률 벡터(binary random vector)(즉,
Figure 112016108429577-pat00013
)로 정의될 수 있다.
Figure 112016108429577-pat00014
여기서, x는 학습할 데이터, N1은 첫 번째 레이어의 히든 유닛의 개수,
Figure 112016108429577-pat00015
은 첫 번째 레이어의 i번째 가중치 행렬(weight matrix),
Figure 112016108429577-pat00016
은 첫 번째 레이어의 i번째 바이어스(bias),
Figure 112016108429577-pat00017
은 음이 아닌(non-negative) 활성화 함수(예컨대, ReLU, sigmoid),
Figure 112016108429577-pat00018
,
Figure 112016108429577-pat00019
는 첫 번째 레이어의 하이퍼 파라미터(hyper parameter)를 의미한다.
두 번째 히든 레이어는 수학식 2와 같이 결정 벡터(deterministic vector)(즉,
Figure 112016108429577-pat00020
)로 정의될 수 있다.
Figure 112016108429577-pat00021
여기서,
Figure 112016108429577-pat00022
는 두 번째 레이어의 하이퍼 파라미터,
Figure 112016108429577-pat00023
는 비선형 활성화 함수(예컨대, sigmoid, tanh)를 의미한다.
상기한 NCSFNN(100)에서 첫 번째 히든 레이어는 수학식 1과 같이 정의된 주변 분포(marginal distribution)을 가지는 이진 확률 벡터로 정의할 수 있다. 각각의 히든 유닛들은 독립적인 특성을 가지고 히든 유닛이 1이 될 확률은 ReLU나 sigmoid와 같은 음이 아닌 활성화 함수 f와, 함수 값을 0에서 1로 바운드(bound) 시켜주는 함수
Figure 112016108429577-pat00024
로 구성된다.
그리고, 두 번째 히든 레이어의 경우는 추가적인 활성화 함수
Figure 112016108429577-pat00025
와 확률 뉴런들의 기대 값으로 정의함으로써 더 복잡한 관계를 표현할 수 있도록 모델을 디자인할 수 있다.
다음으로, 히든 레이어가 3개 이상인 멀티-히든 레이어(multi-hidden layer) 모델의 경우는 수학식 3과 같이 정의되는 DNN에서 일부 레이어를 수학식 1과 같이 정의되는 확률 레이어(101)로 대체하고 확률 레이어(101) 위에 있는 레이어를 수학식 2와 같이 정의되는 비확률 레이어인 결정 레이어(203)로 대체함으로써 정의될 수 있다.
Figure 112016108429577-pat00026
도 6은 본 발명의 일 실시예에 있어서 멀티-히든 레이어의 예시를 도시한 것이다. 도 6은 4개의 히든 레이어를 가지는 NCSFNN(100-1, 100-2, 100-3, 100-4)을 나타내고 있다.
히든 레이어 중 적어도 하나를 확률 레이어(101)로 구성하고 나머지를 비확률 레이어(203)로 구성할 수 있다. 이때, NCSFNN(100-1, 100-2, 100-3, 100-4)을 구성하는 확률 레이어(101)가 연속해서 오면 안되고 마지막 레이어는 항상 비확률 레이어(203)로 구성되어야 한다는 구조적 제한을 둔다. 예를 들어, 도 6에 도시한 바와 같이, 히든 레이어 중 첫 번째 레이어와 세 번째 레이어를 확률 레이어(101)로 구성하거나(100-1), 첫 번째 레이어만을 확률 레이어(101)로 구성하거나(100-2), 두 번째 레이어만을 확률 레이어(101)로 구성하거나(100-3), 세 번째 레이어만을 확률 레이어(101)로 구성할 수 있다(100-4). 상기한 경우(100-1, 100-2, 100-3, 100-4) 모두 마지막 레이어는 비확률 레이어(203)로 구성되어야 한다.
이와 같은 구조적 제한을 통해 기존의 DNN와 NCSFNN 사이의 지식 전파가 가능하다.
본 발명은 기존의 DNN과 NCSFNN이 똑같은 네트워크 구조를 가진다고 할 때 수학식 4와 같은 선형 변환을 통해서 NCSFNN 안에 있는 모든 확률 레이어
Figure 112016108429577-pat00027
의 파라미터를 설정한 경우 수학식 5와 같이 바운드 되는 에러 범위 안에서 DNN과 같은 함수 값을 표현할 수 있다.
Figure 112016108429577-pat00028
여기서,
Figure 112016108429577-pat00029
이다.
Figure 112016108429577-pat00030
DNN의 파라미터가 주어졌을 때 이를 이용하여 NCSFNN의 파라미터를 선형 변환을 통해 설정해 줄 경우 NCSFNN이 DNN과 똑 같은 함수 값을 가질 수 있다. 이는 NCSFNN와 DNN 사이의 지식 전파가 가능하다는 것을 의미한다.
또한, DNN와 NCSFNN 사이의 지식 전파가 가능하다는 점을 이용하여 (1) 먼저 학습을 빠르게 할 수 있는 DNN을 학습하고, (2) 학습한 DNN의 파라미터를 수학식 4를 이용하여 NCSFNN의 파라미터로 설정해주고 NCSFNN을 학습하는 2단계 학습 방식을 적용할 수 있다. 이러한 2단계 학습 방식의 장점은 빠르게 학습되는 DNN을 이용함으로써 NCSFNN의 학습 시간을 단축시킬 수 있고 NCSFNN의 성능을 향상시킬 수 있다.
다음으로, NCSFNN의 학습은 기존의 DNN과 마찬가지로 그라디언트(gradient)를 이용한 오차역전파법(back-propagation)을 통해서 이루어진다. NCSFNN의 경우 수학식 2에 나와 있는 기대 값에 대한 정확한 그라디언트를 구하는 것이 불가능하기 때문에 수학식 6 및 수학식 7과 같은 몬테 카를로 근사에 기반한 그라디언트 근사를 이용할 수 있다.
Figure 112016108429577-pat00031
Figure 112016108429577-pat00032
여기서,
Figure 112016108429577-pat00033
이다.
사물의 인식과 분류와 같은 지도 학습 상황에서 기존의 딥러닝 모델과 같은 개수의 변수를 가지면서도 좋은 성능을 낼 수 있도록 새로운 딥러닝 모델을 디자인하는 기법과 해당 모델을 빠르게 학습시킬 수 있는 효율적인 학습 기법을 제공할 수 있다.
본 발명의 실시예들에 따르면, 비확률 모델과 확률 모델 사이의 지식 전파를 이용함으로써 학습 시간을 단축시킬 수 있으며, 비확률 모델의 파라미터를 이용하여 학습 모델의 초기값을 설정함으로써 빠르고 좋은 성능을 낼 수 있다.
본 발명에 따른 학습 방법은 도 1 내지 도 6을 통해 설명한 상세 내용을 바탕으로 둘 이상의 동작들을 포함할 수 있다. 본 발명에 따른 학습 시스템은 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함할 수 있으며, 이때 적어도 하나의 프로세서는 도 1 내지 도 6을 통해 설명한 학습 방법을 실행할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 컴퓨터로 구현되는 학습 시스템에서 수행되는 학습 방법에 있어서,
    상기 학습 시스템의 프로세서가, 복수의 히든 레이어(hidden layer)를 포함하는 학습 모델로서 비연속적인 확률 뉴런(non-consecutive stochastic neural)을 가지는 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및
    상기 프로세서가, 상기 NCSFNN을 학습시키는 단계
    를 포함하고,
    상기 구성하는 단계는,
    상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
    상기 확률 레이어는 수학식 1의 주변 분포(marginal distribution)을 가지는 이진 확률 벡터(binary random vector)로 정의되는 것
    을 특징으로 하는 학습 방법.
    수학식 1:
    Figure 112017034595705-pat00052

    (x는 학습할 데이터, N1은 확률 레이어의 히든 유닛의 개수,
    Figure 112017034595705-pat00053
    은 확률 레이어의 i번째 가중치 행렬(weight matrix),
    Figure 112017034595705-pat00054
    은 확률 레이어의 i번째 바이어스(bias),
    Figure 112017034595705-pat00055
    은 음이 아닌(non-negative) 활성화 함수,
    Figure 112017034595705-pat00056
    ,
    Figure 112017034595705-pat00057
    는 확률 레이어의 파라미터)
  2. 제1항에 있어서,
    상기 구성하는 단계는,
    상기 NCSFNN의 마지막 레이어를 비확률 뉴런으로 구성하는 것
    을 특징으로 하는 학습 방법.
  3. 제1항에 있어서,
    상기 구성하는 단계는,
    DNN(deep neural network)에서 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 상기 NCSFNN을 구성하는 것
    을 특징으로 하는 학습 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 구성하는 단계는,
    상기 확률 레이어의 출력에 연결되는 레이어를 결정 레이어(deterministic layer)로 구성하는 것
    을 특징으로 하는 학습 방법.
  6. 삭제
  7. 컴퓨터로 구현되는 학습 시스템에서 수행되는 학습 방법에 있어서,
    상기 학습 시스템의 프로세서가, 복수의 히든 레이어(hidden layer)를 포함하는 학습 모델로서 비연속적인 확률 뉴런(non-consecutive stochastic neural)을 가지는 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및
    상기 프로세서가, 상기 NCSFNN을 학습시키는 단계
    를 포함하고,
    상기 구성하는 단계는,
    상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
    상기 비확률 레이어는 수학식 2와 같은 결정 벡터(deterministic vector)로 정의되는 것
    을 특징으로 하는 학습 방법.
    수학식 2:
    Figure 112017034595705-pat00058

    (x는 학습할 데이터, N2는 비확률 레이어의 히든 유닛의 개수,
    Figure 112017034595705-pat00059
    는 비확률 레이어의 i번째 가중치 행렬(weight matrix),
    Figure 112017034595705-pat00060
    는 비확률 레이어의 i번째 바이어스(bias),
    Figure 112017034595705-pat00061
    은 음이 아닌(non-negative) 활성화 함수,
    Figure 112017034595705-pat00062
    는 비확률 레이어의 파라미터,
    Figure 112017034595705-pat00063
    는 비선형 활성화 함수)
  8. 제1항에 있어서,
    상기 학습시키는 단계는,
    지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시키는 것
    을 특징으로 하는 학습 방법.
  9. 제3항에 있어서,
    상기 학습시키는 단계는,
    상기 DNN의 파라미터를 이용하여 선형 변환(linear transformation)을 통해 상기 NCSFNN의 파라미터를 설정하는 단계
    를 포함하는 학습 방법.
  10. 제3항에 있어서,
    상기 학습시키는 단계는,
    2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습하는 것
    을 특징으로 하는 학습 방법.
  11. 제1항에 있어서,
    상기 NCSFNN은 사물 인지나 음성 인식을 위한 지도 학습(supervised learning)에 이용되는 것
    을 특징으로 하는 학습 방법.
  12. 컴퓨터로 구현되는 학습 시스템에서 수행되는 학습 방법에 있어서,
    상기 학습 시스템의 프로세서가, 복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및
    상기 프로세서가, 지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시키는 단계
    를 포함하고,
    상기 구성하는 단계는,
    상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
    상기 확률 레이어는 수학식 3의 주변 분포(marginal distribution)을 가지는 이진 확률 벡터(binary random vector)로 정의되는 것
    을 특징으로 하는 학습 방법.
    수학식 3:
    Figure 112017034595705-pat00064

    (x는 학습할 데이터, N1은 확률 레이어의 히든 유닛의 개수,
    Figure 112017034595705-pat00065
    은 확률 레이어의 i번째 가중치 행렬(weight matrix),
    Figure 112017034595705-pat00066
    은 확률 레이어의 i번째 바이어스(bias),
    Figure 112017034595705-pat00067
    은 음이 아닌(non-negative) 활성화 함수,
    Figure 112017034595705-pat00068
    ,
    Figure 112017034595705-pat00069
    는 확률 레이어의 파라미터)
  13. 컴퓨터로 구현되는 학습 시스템에서 수행되는 학습 방법에 있어서,
    상기 학습 시스템의 프로세서가, 복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및
    상기 프로세서가, 2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습시키는 단계
    를 포함하고,
    상기 구성하는 단계는,
    상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
    상기 비확률 레이어는 수학식 4와 같은 결정 벡터(deterministic vector)로 정의되는 것
    을 특징으로 하는 학습 방법.
    수학식 4:
    Figure 112017034595705-pat00070

    (x는 학습할 데이터, N2는 비확률 레이어의 히든 유닛의 개수,
    Figure 112017034595705-pat00071
    는 비확률 레이어의 i번째 가중치 행렬(weight matrix),
    Figure 112017034595705-pat00072
    는 비확률 레이어의 i번째 바이어스(bias),
    Figure 112017034595705-pat00073
    은 음이 아닌(non-negative) 활성화 함수,
    Figure 112017034595705-pat00074
    는 비확률 레이어의 파라미터,
    Figure 112017034595705-pat00075
    는 비선형 활성화 함수)
  14. 삭제
  15. 제12항 또는 제13항에 있어서,
    상기 구성하는 단계는,
    상기 확률 레이어의 출력에 연결되는 레이어를 결정 레이어(deterministic layer)로 구성하는 것
    을 특징으로 하는 학습 방법.
  16. 제12항 또는 제13항에 있어서,
    상기 NCSFNN은 사물 인지나 음성 인식을 위한 지도 학습(supervised learning)에 이용되는 것
    을 특징으로 하는 학습 방법.
  17. 컴퓨터로 구현되는 학습 시스템에 있어서,
    상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하고,
    상기 적어도 하나의 프로세서는, 상기 NCSFNN을 구성하기 위해,
    상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
    상기 확률 레이어는 수학식 5의 주변 분포(marginal distribution)을 가지는 이진 확률 벡터(binary random vector)로 정의되는 것
    을 특징으로 하는 학습 시스템.
    수학식 5:
    Figure 112017034595705-pat00076

    (x는 학습할 데이터, N1은 확률 레이어의 히든 유닛의 개수,
    Figure 112017034595705-pat00077
    은 확률 레이어의 i번째 가중치 행렬(weight matrix),
    Figure 112017034595705-pat00078
    은 확률 레이어의 i번째 바이어스(bias),
    Figure 112017034595705-pat00079
    은 음이 아닌(non-negative) 활성화 함수,
    Figure 112017034595705-pat00080
    ,
    Figure 112017034595705-pat00081
    는 확률 레이어의 파라미터)
  18. 삭제
  19. 제17항에 있어서,
    상기 적어도 하나의 프로세서는,
    지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시키되,
    2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습시키는 것
    을 특징으로 하는 학습 시스템.
  20. 제17항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 NCSFNN을 사물 인지나 음성 인식을 위한 지도 학습(supervised learning)에 이용하는 것
    을 특징으로 하는 학습 시스템.
KR1020160147329A 2016-11-07 2016-11-07 비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템 KR101738825B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160147329A KR101738825B1 (ko) 2016-11-07 2016-11-07 비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템
US15/365,641 US20180129930A1 (en) 2016-11-07 2016-11-30 Learning method based on deep learning model having non-consecutive stochastic neuron and knowledge transfer, and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160147329A KR101738825B1 (ko) 2016-11-07 2016-11-07 비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
KR101738825B1 true KR101738825B1 (ko) 2017-05-23

Family

ID=59050299

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160147329A KR101738825B1 (ko) 2016-11-07 2016-11-07 비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템

Country Status (2)

Country Link
US (1) US20180129930A1 (ko)
KR (1) KR101738825B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200052446A (ko) 2018-10-30 2020-05-15 삼성에스디에스 주식회사 딥러닝 모델 학습 장치 및 방법
KR20200052453A (ko) 2018-10-31 2020-05-15 삼성에스디에스 주식회사 딥러닝 모델 학습 장치 및 방법
KR20200063330A (ko) 2018-11-21 2020-06-05 한국과학기술원 메타학습에 기반한 임의의 목표 데이터셋과 모델 구조로의 전이학습 방법 및 시스템
KR20210048187A (ko) 2019-10-23 2021-05-03 삼성에스디에스 주식회사 객체 분류 및 검출을 위한 모델 학습 방법 및 장치
KR20210048315A (ko) 2019-10-23 2021-05-03 삼성에스디에스 주식회사 통합 특징 벡터 생성 방법 및 장치
KR20210051627A (ko) 2019-10-31 2021-05-10 삼성에스디에스 주식회사 학습 마스크 선별 방법 및 장치

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
US10984507B2 (en) 2019-07-17 2021-04-20 Harris Geospatial Solutions, Inc. Image processing system including training model based upon iterative blurring of geospatial images and related methods
US11068748B2 (en) 2019-07-17 2021-07-20 Harris Geospatial Solutions, Inc. Image processing system including training model based upon iteratively biased loss function and related methods
US11417087B2 (en) 2019-07-17 2022-08-16 Harris Geospatial Solutions, Inc. Image processing system including iteratively biased training model probability distribution function and related methods

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chen, Tianqi, Ian Goodfellow, and Jonathon Shlens. "Net2net: Accelerating learning via knowledge transfer." arXiv:1511.05641v4. 2016.4.23.*
Tang, Yichuan, and Ruslan R. Salakhutdinov. "Learning stochastic feedforward neural networks." Advances in Neural Information Processing Systems. 2013.*

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200052446A (ko) 2018-10-30 2020-05-15 삼성에스디에스 주식회사 딥러닝 모델 학습 장치 및 방법
KR20200052453A (ko) 2018-10-31 2020-05-15 삼성에스디에스 주식회사 딥러닝 모델 학습 장치 및 방법
KR20200063330A (ko) 2018-11-21 2020-06-05 한국과학기술원 메타학습에 기반한 임의의 목표 데이터셋과 모델 구조로의 전이학습 방법 및 시스템
KR20210048187A (ko) 2019-10-23 2021-05-03 삼성에스디에스 주식회사 객체 분류 및 검출을 위한 모델 학습 방법 및 장치
KR20210048315A (ko) 2019-10-23 2021-05-03 삼성에스디에스 주식회사 통합 특징 벡터 생성 방법 및 장치
KR20210051627A (ko) 2019-10-31 2021-05-10 삼성에스디에스 주식회사 학습 마스크 선별 방법 및 장치

Also Published As

Publication number Publication date
US20180129930A1 (en) 2018-05-10

Similar Documents

Publication Publication Date Title
KR101738825B1 (ko) 비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템
US11699004B2 (en) Method and system for quantum computing
KR102483639B1 (ko) 뉴럴 네트워크 구조 확장 방법, 디멘션 리덕션 방법, 및 그 방법을 이용한 장치
US11836610B2 (en) Concurrent training of functional subnetworks of a neural network
KR102492318B1 (ko) 모델 학습 방법 및 장치, 및 데이터 인식 방법
KR102415506B1 (ko) 뉴럴 네트워크 간소화 방법 및 장치
CN110462639B (zh) 信息处理设备、信息处理方法及计算机可读存储介质
JP7325414B2 (ja) 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとの訓練
KR20200045128A (ko) 모델 학습 방법 및 장치, 및 데이터 인식 방법
TW201947464A (zh) 用於離散化深度神經網路的量化的連續鬆弛
WO2017116924A1 (en) Neural network training performance optimization framework
CN113204988B (zh) 小样本视点估计
KR20200128938A (ko) 모델 학습 방법 및 장치
KR20160112186A (ko) 뉴럴 네트워크에서 이벤트에 기반한 학습 방법 및 장치
KR20200077321A (ko) 약한 지도학습 객체 검출기에 기반한 의미론적 객체 영역 분할 방법 및 시스템
CN113272829A (zh) 迁移学习的硬件加速器扩展—将训练扩展/完成到边缘
CN111931939A (zh) 一种单振幅量子计算模拟方法
TW202338668A (zh) 用於神經網路訓練的稀疏性掩蔽方法
KR20230141828A (ko) 적응형 그래디언트 클리핑을 사용하는 신경 네트워크들
KR20220089939A (ko) 모델에 관계없이 적용 가능한 메타러닝을 사용한 발작 예측 방법
KR20190041388A (ko) 전자 장치 및 그 제어 방법
KR20210103912A (ko) 뉴럴 네트워크를 학습시키는 학습 방법 및 장치, 뉴럴 네트워크를 이용한 데이터 처리 방법 및 장치
CN112132281A (zh) 一种基于人工智能的模型训练方法、装置、服务器及介质
Liu et al. SuperPruner: automatic neural network pruning via super network
US20200272904A1 (en) Forming an artificial neural network by generating and forming of tunnels

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant