KR101738825B1

KR101738825B1 - 비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템

Info

Publication number: KR101738825B1
Application number: KR1020160147329A
Authority: KR
Inventors: 신진우; 정송; 이기민
Original assignee: 한국과학기술원
Priority date: 2016-11-07
Filing date: 2016-11-07
Publication date: 2017-05-23
Also published as: US20180129930A1

Abstract

비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법이 개시된다. 학습 방법은, 복수의 히든 레이어(hidden layer)를 포함하는 학습 모델로서 비연속적인 확률 뉴런(non-consecutive stochastic neural)을 가지는 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및 상기 NCSFNN을 학습시키는 단계를 포함한다.

Description

비연속적으로 확률 뉴런을 가지는 딥러닝 모델 및 지식 전파에 기반한 학습 방법 및 그 시스템{METHOD AND SYSTEM FOR LEARINIG USING STOCHASTIC NEURAL AND KNOWLEDGE TRANSFER}

아래의 설명은 사물의 인지와 분류와 같은 지도 학습(supervised learning)을 위한 학습 모델에 관한 것이다.

최근 인식 시스템에서의 딥러닝(deep learning) 연구에서는 배경 분리나 특징 추출 알고리즘을 사람의 경험적 노하우를 이용하여 설계하는 대신, 많은 데이터를 수집하여 직접 해당 역할을 하는 모델을 학습시킴으로써 좋은 성능을 내고 있다.

특히, 컴퓨터 비전, 음성 인식, 자연어 처리, 신호 처리와 같은 기계학습 분야에서 딥러닝이 최근 혁신적인 성능을 보여주고 있다.

딥러닝 기술의 일례로서 한국공개특허공보 제10-2016-0069834호(공개일 2016년 06월 17일)에는 빠른 시간에 영상 데이터를 분류할 수 있도록 CNN(convolutional neural network)을 근사화 하기 위한 학습 장치 및 방법이 개시되어 있다.

딥러닝 모델이 1940년대에 처음 제안되었음에도 불고하고 최근에 들어서야 주목 받은 주요 원인 중 하나는 확률적인 요소에 기반한 학습 알고리즘의 발전을 둘 수 있다.

이와 같은 확률적인 요소를 강력하게 적용할 수 있는 방법 중 하나는 확률적인 딥러닝 모델을 디자인 하는 것이다.

하지만, 현재 확률 기반 딥러닝 모델들은 비지도 학습에만 국한되어 있다. 이는 지도 학습에 확률 기반 모델들을 어떻게 디자인해야 할 지가 불분명하고 복잡도 때문에 효율적인 학습 알고리즘 개발이 쉽지 않기 때문이다.

사물의 인식과 분류와 같은 지도 학습 상황에서 기존의 딥러닝 모델과 같은 개수의 변수를 가지면서도 좋은 성능을 낼 수 있도록 새로운 딥러닝 모델을 디자인하는 기법과 해당 모델을 빠르게 학습시킬 수 있는 효율적인 학습 기법을 제공한다.

복수의 히든 레이어(hidden layer)를 포함하는 학습 모델로서 비연속적인 확률 뉴런(non-consecutive stochastic neural)을 가지는 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및 상기 NCSFNN을 학습시키는 단계를 포함하는 학습 방법을 제공한다.

일 측면에 따르면, 상기 구성하는 단계는, 상기 NCSFNN의 마지막 레이어를 비확률 뉴런으로 구성할 수 있다.

다른 측면에 따르면, 상기 구성하는 단계는, DNN(deep neural network)에서 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 상기 NCSFNN을 구성할 수 있다.

또 다른 측면에 따르면, 상기 구성하는 단계는, 상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성할 수 있다.

또 다른 측면에 따르면, 상기 구성하는 단계는, 상기 확률 레이어의 출력에 연결되는 레이어를 결정 레이어(deterministic layer)로 구성할 수 있다.

또 다른 측면에 따르면, 상기 확률 레이어는 수학식 1의 주변 분포(marginal distribution)을 가지는 이진 확률 벡터(binary random vector)로 정의될 수 있다.

수학식 1:

(x는 학습할 데이터, N¹은 확률 레이어의 히든 유닛의 개수,

은 확률 레이어의 i번째 가중치 행렬(weight matrix),

은 확률 레이어의 i번째 바이어스(bias),

은 음이 아닌(non-negative) 활성화 함수,

,

는 확률 레이어의 파라미터)

또 다른 측면에 따르면, 상기 비확률 레이어는 수학식 2와 같은 결정 벡터(deterministic vector)로 정의될 수 있다.

수학식 2:

(x는 학습할 데이터, N²는 비확률 레이어의 히든 유닛의 개수,

는 비확률 레이어의 i번째 가중치 행렬(weight matrix),

는 비확률 레이어의 i번째 바이어스(bias),

은 음이 아닌(non-negative) 활성화 함수,

는 비확률 레이어의 파라미터,

는 비선형 활성화 함수)

또 다른 측면에 따르면, 상기 학습시키는 단계는, 지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시킬 수 있다.

또 다른 측면에 따르면, 상기 학습시키는 단계는, 상기 DNN의 파라미터를 이용하여 선형 변환(linear transformation)을 통해 상기 NCSFNN의 파라미터를 설정할 수 있다.

또 다른 측면에 따르면, 상기 학습시키는 단계는, 2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습할 수 있다.

또 다른 측면에 따르면, 상기 NCSFNN은 사물 인지나 음성 인식을 위한 지도 학습(supervised learning)에 이용될 수 있다.

복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및 지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시키는 단계를 포함하는 학습 방법을 제공한다.

복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및 2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습시키는 단계를 포함하는 학습 방법을 제공한다.

컴퓨터로 구현되는 학습 시스템에 있어서, 상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 것을 특징으로 하는 학습 시스템을 제공한다.

사물의 인식과 분류와 같은 지도 학습 상황에서 기존의 딥러닝 모델과 같은 개수의 변수를 가지면서도 좋은 성능을 낼 수 있도록 새로운 딥러닝 모델을 디자인하는 기법과 해당 모델을 빠르게 학습시킬 수 있는 효율적인 학습 기법을 제공할 수 있다.

비확률 모델과 확률 모델 사이의 지식 전파를 이용함으로써 학습 시간을 단축시킬 수 있으며, 비확률 모델의 파라미터를 이용하여 학습 모델의 초기값을 설정함으로써 빠르고 좋은 성능을 낼 수 있다.

도 1 내지 도 2는 본 발명의 일 실시예에 있어서 NCSFNN(non-consecutive stochastic feedforward neural network)의 구성을 설명하기 위한 예시 도면이다.
도 3 내지 도 4는 본 발명의 일 실시예에 있어서 NCSFNN의 구조적 제한을 설명하기 위한 예시 도면이다.
도 5는 본 발명의 일 실시예에 있어서 두 개의 히든 레이어를 가지는 NCSFNN의 구조를 설명하기 위한 예시 도면이다.
도 6은 본 발명의 일 실시예에 있어서 네 개의 히든 레이어를 가지는 NCSFNN의 구조를 설명하기 위한 예시 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 확률 기반 딥러닝 모델 및 학습 알고리즘에 관한 것이며, 이는 사물의 인지와 분류, 음성 인식과 같은 지도 학습 분야(예컨대, 학교나 기업 등)에 적용 가능하다.

대부분의 비지도 학습이 확률 기반 딥러닝 모델을 통해 이루어짐에도 불구하고 대부분의 지도 학습에서는 비확률 기반 딥러닝 모델들이 적용된다. 이는 지도 학습 및 지식 표현을 위하여 확률 기반 모델들을 어떻게 디자인해야 할 지가 불분명하며, 설사 특정 모델을 디자인한다고 해도 그 복잡도 때문에 효율적인 학습 알고리즘 개발이 쉽지 않기 때문이다.

이러한 문제를 해결하기 위해 본 발명에서는 비연속적으로 확률 뉴런을 가지는 확률 기반 딥러닝 모델을 디자인 하고 이와 같은 구조적인 제한을 통해 동일한 구조의 비확률 기반 딥러닝 모델로부터 지식 전파가 가능하다. 또한, 본 발명에서는 지식 전파와 몬테 카를로(Monte Carlo) 근사에 기반한 모델 학습법을 제공함으로써 효율적으로 학습이 가능하면서도 좋은 성능을 내는 것이 가능한 새로운 딥러닝 모델을 제공할 수 있다.

음성 인식이나 객체 인식과 같은 지도형 AI(인공지능) 태스크에서 DNN(deep neural network)이 좋은 성능을 내고 있다. DNN이 좋은 성능을 낼 수 있는 것은 드롭 아웃(drop out)이나 드롭 커넥트(drop connect)와 같이 확률적인 특성을 가진다는 것이다. 확률적인 특성을 가장 적극적으로(aggressive) 적용할 수 있는 방법 중 하나는 확률 기반 모델을 디자인 하는 것이다.

확률 기반 모델은 더 복잡한 모델도 표현이 가능하고 데이터로부터 보다 유용한 특성들을 효과적으로 추출할 수 있는 장점이 있다. 그러나, 확률 기반 모델이 최근까지도 비지도 학습에만 국한될 뿐 지도 학습에 적용되지 못하고 있다.

따라서, 본 발명에서는 지도 학습에서 더 향상된 성능을 보일 수 있는 새로운 확률 기반 모델로서 NCSFNN(non-consecutive stochastic feedforward neural network)를 제공한다.

본 발명은 지도 학습 상황에서 사용 가능한 (1) 비연속적으로 확률 뉴런을 가지는 새로운 형태의 딥러닝 모델과, (2) 지식 전파에 기반하여 새롭게 디자인 된 모델을 빠르게 학습시킬 수 있는 효율적인 학습 방법에 관한 것을 포함한다.

도 1은 본 발명의 일 실시예에 있어서 NCSFNN의 구성을 설명하기 위한 예시 도면이다.

도 1에 도시한 바와 같이, 본 발명에 따른 확률 기반 모델 NCSFNN(100)은 기존의 DNN(110)에서 일부 레이어를 확률 레이어(stochastic layer)(101)로 대체함으로써 구성될 수 있다.

본 발명에 따른 확률 기반 모델 NCSFNN(100)의 가장 큰 특징은 도 2에 도시한 바와 같이 확률 레이어(101) 위에 있는 레이어를 결정 레이어(deterministic layer)(203)로 구성하는 것이다. 다시 말해, 확률 레이어(101)의 출력에 연결되는 레이어는 결정 레이어(203)로 구성될 수 있다. 결정 레이어(203)는 두 개의 비선형 활성화 함수(non-linear activation function)인 f와 s, 그리고 기대 값(expectation)을 이용하여 정의할 수 있다.

본 발명에 따른 확률 기반 모델 NCSFNN(100)은 도 3에 도시한 바와 같이 확률 레이어(101)가 연속해서 구성되는 것과, 도 4에 도시한 바와 같이 마지막 레이어가 확률 레이어(101)로 구성되는 것을 제한한다. 이러한 구조적인 제한을 통해서 DNN으로부터 지식 전파(knowledge transfer)가 가능한 NCSFNN(100)을 설계할 수 있다.

따라서, 본 발명에 따른 확률 기반 모델 NCSFNN(100)은 비확률 뉴런과 확률 뉴런을 모두 가지는 하이브리드 네트워크(hybrid network)로 구성될 수 있으며, 다음과 같은 구조적인 제한을 가진다: (1) 비연속적으로 확률 뉴런을 가지고, (2) 마지막 레이어는 항상 비확률 뉴런으로 구성된다.

DNN의 파라미터가 주어질 때 NCSFNN(100)의 파라미터를 특정 변환(transformation)을 통해 설정하는 경우 NCSFNN(100)이 DNN과 똑같은 함수 값(function value)을 표현할 수 있다. 또한, NCSFNN(100)의 지식 전파가 가능하다는 점을 고려하여 NCSFNN(100)을 훈련하는데 2단계 학습(two-stage learning) 방식을 이용할 수 있다. 2단계 학습 방식을 이용하여 NCSFNN(100)을 훈련함으로써 샘플링으로 인해 훈련 속도가 느린 NCSFNN(100)의 훈련 시간을 단축할 뿐만 아니라 NCSFNN(100)이 DNN보다 더 좋은 성능을 기대할 수 있다.

이하에서는 NCSFNN(100)의 구체적인 모델에 대해 설명하기로 한다.

도 5는 본 발명의 일실시예에 있어서 NCSFNN(100)의 예시 모델을 도시한 것이다. 도 5는 두 개의 히든 레이어(hidden layer)를 가지는 NCSFNN(100)을 나타내고 있다.

NCSFNN(100)의 첫 번째 히든 레이어는 확률 레이어(101)로 구성되고 두 번째 히든 레이어는 결정 레이어(203)로 구성될 수 있다.

첫 번째 히든 레이어는 수학식 1과 같은 확률 분포를 가지는 이진 확률 벡터(binary random vector)(즉,

)로 정의될 수 있다.

여기서, x는 학습할 데이터, N¹은 첫 번째 레이어의 히든 유닛의 개수,

은 첫 번째 레이어의 i번째 가중치 행렬(weight matrix),

은 첫 번째 레이어의 i번째 바이어스(bias),

은 음이 아닌(non-negative) 활성화 함수(예컨대, ReLU, sigmoid),

,

는 첫 번째 레이어의 하이퍼 파라미터(hyper parameter)를 의미한다.

두 번째 히든 레이어는 수학식 2와 같이 결정 벡터(deterministic vector)(즉,

)로 정의될 수 있다.

여기서,

는 두 번째 레이어의 하이퍼 파라미터,

는 비선형 활성화 함수(예컨대, sigmoid, tanh)를 의미한다.

상기한 NCSFNN(100)에서 첫 번째 히든 레이어는 수학식 1과 같이 정의된 주변 분포(marginal distribution)을 가지는 이진 확률 벡터로 정의할 수 있다. 각각의 히든 유닛들은 독립적인 특성을 가지고 히든 유닛이 1이 될 확률은 ReLU나 sigmoid와 같은 음이 아닌 활성화 함수 f와, 함수 값을 0에서 1로 바운드(bound) 시켜주는 함수

로 구성된다.

그리고, 두 번째 히든 레이어의 경우는 추가적인 활성화 함수

와 확률 뉴런들의 기대 값으로 정의함으로써 더 복잡한 관계를 표현할 수 있도록 모델을 디자인할 수 있다.

다음으로, 히든 레이어가 3개 이상인 멀티-히든 레이어(multi-hidden layer) 모델의 경우는 수학식 3과 같이 정의되는 DNN에서 일부 레이어를 수학식 1과 같이 정의되는 확률 레이어(101)로 대체하고 확률 레이어(101) 위에 있는 레이어를 수학식 2와 같이 정의되는 비확률 레이어인 결정 레이어(203)로 대체함으로써 정의될 수 있다.

도 6은 본 발명의 일 실시예에 있어서 멀티-히든 레이어의 예시를 도시한 것이다. 도 6은 4개의 히든 레이어를 가지는 NCSFNN(100-1, 100-2, 100-3, 100-4)을 나타내고 있다.

히든 레이어 중 적어도 하나를 확률 레이어(101)로 구성하고 나머지를 비확률 레이어(203)로 구성할 수 있다. 이때, NCSFNN(100-1, 100-2, 100-3, 100-4)을 구성하는 확률 레이어(101)가 연속해서 오면 안되고 마지막 레이어는 항상 비확률 레이어(203)로 구성되어야 한다는 구조적 제한을 둔다. 예를 들어, 도 6에 도시한 바와 같이, 히든 레이어 중 첫 번째 레이어와 세 번째 레이어를 확률 레이어(101)로 구성하거나(100-1), 첫 번째 레이어만을 확률 레이어(101)로 구성하거나(100-2), 두 번째 레이어만을 확률 레이어(101)로 구성하거나(100-3), 세 번째 레이어만을 확률 레이어(101)로 구성할 수 있다(100-4). 상기한 경우(100-1, 100-2, 100-3, 100-4) 모두 마지막 레이어는 비확률 레이어(203)로 구성되어야 한다.

이와 같은 구조적 제한을 통해 기존의 DNN와 NCSFNN 사이의 지식 전파가 가능하다.

본 발명은 기존의 DNN과 NCSFNN이 똑같은 네트워크 구조를 가진다고 할 때 수학식 4와 같은 선형 변환을 통해서 NCSFNN 안에 있는 모든 확률 레이어

의 파라미터를 설정한 경우 수학식 5와 같이 바운드 되는 에러 범위 안에서 DNN과 같은 함수 값을 표현할 수 있다.

여기서,

이다.

DNN의 파라미터가 주어졌을 때 이를 이용하여 NCSFNN의 파라미터를 선형 변환을 통해 설정해 줄 경우 NCSFNN이 DNN과 똑 같은 함수 값을 가질 수 있다. 이는 NCSFNN와 DNN 사이의 지식 전파가 가능하다는 것을 의미한다.

또한, DNN와 NCSFNN 사이의 지식 전파가 가능하다는 점을 이용하여 (1) 먼저 학습을 빠르게 할 수 있는 DNN을 학습하고, (2) 학습한 DNN의 파라미터를 수학식 4를 이용하여 NCSFNN의 파라미터로 설정해주고 NCSFNN을 학습하는 2단계 학습 방식을 적용할 수 있다. 이러한 2단계 학습 방식의 장점은 빠르게 학습되는 DNN을 이용함으로써 NCSFNN의 학습 시간을 단축시킬 수 있고 NCSFNN의 성능을 향상시킬 수 있다.

다음으로, NCSFNN의 학습은 기존의 DNN과 마찬가지로 그라디언트(gradient)를 이용한 오차역전파법(back-propagation)을 통해서 이루어진다. NCSFNN의 경우 수학식 2에 나와 있는 기대 값에 대한 정확한 그라디언트를 구하는 것이 불가능하기 때문에 수학식 6 및 수학식 7과 같은 몬테 카를로 근사에 기반한 그라디언트 근사를 이용할 수 있다.

여기서,

이다.

본 발명의 실시예들에 따르면, 비확률 모델과 확률 모델 사이의 지식 전파를 이용함으로써 학습 시간을 단축시킬 수 있으며, 비확률 모델의 파라미터를 이용하여 학습 모델의 초기값을 설정함으로써 빠르고 좋은 성능을 낼 수 있다.

본 발명에 따른 학습 방법은 도 1 내지 도 6을 통해 설명한 상세 내용을 바탕으로 둘 이상의 동작들을 포함할 수 있다. 본 발명에 따른 학습 시스템은 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함할 수 있으며, 이때 적어도 하나의 프로세서는 도 1 내지 도 6을 통해 설명한 학습 방법을 실행할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터로 구현되는 학습 시스템에서 수행되는 학습 방법에 있어서,
상기 학습 시스템의 프로세서가, 복수의 히든 레이어(hidden layer)를 포함하는 학습 모델로서 비연속적인 확률 뉴런(non-consecutive stochastic neural)을 가지는 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및
상기 프로세서가, 상기 NCSFNN을 학습시키는 단계
를 포함하고,
상기 구성하는 단계는,
상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
상기 확률 레이어는 수학식 1의 주변 분포(marginal distribution)을 가지는 이진 확률 벡터(binary random vector)로 정의되는 것
을 특징으로 하는 학습 방법.
수학식 1:

(x는 학습할 데이터, N¹은 확률 레이어의 히든 유닛의 개수,
은 확률 레이어의 i번째 가중치 행렬(weight matrix),
은 확률 레이어의 i번째 바이어스(bias),
은 음이 아닌(non-negative) 활성화 함수,
,
는 확률 레이어의 파라미터)
제1항에 있어서,
상기 구성하는 단계는,
상기 NCSFNN의 마지막 레이어를 비확률 뉴런으로 구성하는 것
을 특징으로 하는 학습 방법.
제1항에 있어서,
상기 구성하는 단계는,
DNN(deep neural network)에서 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 상기 NCSFNN을 구성하는 것
을 특징으로 하는 학습 방법.
삭제
제1항에 있어서,
상기 구성하는 단계는,
상기 확률 레이어의 출력에 연결되는 레이어를 결정 레이어(deterministic layer)로 구성하는 것
을 특징으로 하는 학습 방법.
삭제
컴퓨터로 구현되는 학습 시스템에서 수행되는 학습 방법에 있어서,
상기 학습 시스템의 프로세서가, 복수의 히든 레이어(hidden layer)를 포함하는 학습 모델로서 비연속적인 확률 뉴런(non-consecutive stochastic neural)을 가지는 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및
상기 프로세서가, 상기 NCSFNN을 학습시키는 단계
를 포함하고,
상기 구성하는 단계는,
상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
상기 비확률 레이어는 수학식 2와 같은 결정 벡터(deterministic vector)로 정의되는 것
을 특징으로 하는 학습 방법.
수학식 2:

(x는 학습할 데이터, N²는 비확률 레이어의 히든 유닛의 개수,
는 비확률 레이어의 i번째 가중치 행렬(weight matrix),
는 비확률 레이어의 i번째 바이어스(bias),
은 음이 아닌(non-negative) 활성화 함수,
는 비확률 레이어의 파라미터,
는 비선형 활성화 함수)
제1항에 있어서,
상기 학습시키는 단계는,
지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시키는 것
을 특징으로 하는 학습 방법.
제3항에 있어서,
상기 학습시키는 단계는,
상기 DNN의 파라미터를 이용하여 선형 변환(linear transformation)을 통해 상기 NCSFNN의 파라미터를 설정하는 단계
를 포함하는 학습 방법.
제3항에 있어서,
상기 학습시키는 단계는,
2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습하는 것
을 특징으로 하는 학습 방법.
제1항에 있어서,
상기 NCSFNN은 사물 인지나 음성 인식을 위한 지도 학습(supervised learning)에 이용되는 것
을 특징으로 하는 학습 방법.
컴퓨터로 구현되는 학습 시스템에서 수행되는 학습 방법에 있어서,
상기 학습 시스템의 프로세서가, 복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및
상기 프로세서가, 지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시키는 단계
를 포함하고,
상기 구성하는 단계는,
상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
상기 확률 레이어는 수학식 3의 주변 분포(marginal distribution)을 가지는 이진 확률 벡터(binary random vector)로 정의되는 것
을 특징으로 하는 학습 방법.
수학식 3:

(x는 학습할 데이터, N¹은 확률 레이어의 히든 유닛의 개수,
은 확률 레이어의 i번째 가중치 행렬(weight matrix),
은 확률 레이어의 i번째 바이어스(bias),
은 음이 아닌(non-negative) 활성화 함수,
,
는 확률 레이어의 파라미터)
컴퓨터로 구현되는 학습 시스템에서 수행되는 학습 방법에 있어서,
상기 학습 시스템의 프로세서가, 복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하는 단계; 및
상기 프로세서가, 2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습시키는 단계
를 포함하고,
상기 구성하는 단계는,
상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
상기 비확률 레이어는 수학식 4와 같은 결정 벡터(deterministic vector)로 정의되는 것
을 특징으로 하는 학습 방법.
수학식 4:

(x는 학습할 데이터, N²는 비확률 레이어의 히든 유닛의 개수,
는 비확률 레이어의 i번째 가중치 행렬(weight matrix),
는 비확률 레이어의 i번째 바이어스(bias),
은 음이 아닌(non-negative) 활성화 함수,
는 비확률 레이어의 파라미터,
는 비선형 활성화 함수)
삭제
제12항 또는 제13항에 있어서,
상기 구성하는 단계는,
상기 확률 레이어의 출력에 연결되는 레이어를 결정 레이어(deterministic layer)로 구성하는 것
을 특징으로 하는 학습 방법.
제12항 또는 제13항에 있어서,
상기 NCSFNN은 사물 인지나 음성 인식을 위한 지도 학습(supervised learning)에 이용되는 것
을 특징으로 하는 학습 방법.
컴퓨터로 구현되는 학습 시스템에 있어서,
상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
복수의 히든 레이어(hidden layer)를 포함하는 DNN(deep neural network)에서 비연속적인(non-consecutive) 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 대체함으로써 NCSFNN(non-consecutive stochastic feedforward neural network)를 구성하고,
상기 적어도 하나의 프로세서는, 상기 NCSFNN을 구성하기 위해,
상기 복수의 히든 레이어 중 적어도 하나의 레이어를 확률 레이어(stochastic layer)로 구성하고 마지막 레이어를 비확률 레이어로 구성하고,
상기 확률 레이어는 수학식 5의 주변 분포(marginal distribution)을 가지는 이진 확률 벡터(binary random vector)로 정의되는 것
을 특징으로 하는 학습 시스템.
수학식 5:

(x는 학습할 데이터, N¹은 확률 레이어의 히든 유닛의 개수,
은 확률 레이어의 i번째 가중치 행렬(weight matrix),
은 확률 레이어의 i번째 바이어스(bias),
은 음이 아닌(non-negative) 활성화 함수,
,
는 확률 레이어의 파라미터)
삭제
제17항에 있어서,
상기 적어도 하나의 프로세서는,
지식 전파(knowledge transfer)와 그라디언트(gradient) 근사에 기반하여 상기 NCSFNN을 학습시키되,
2단계 학습(two-stage learning) 방식으로서 상기 DNN을 학습하고 학습한 DNN의 파라미터를 이용하여 상기 NCSFNN의 파라미터를 설정한 후 상기 NCSFNN을 학습시키는 것
을 특징으로 하는 학습 시스템.
제17항에 있어서,
상기 적어도 하나의 프로세서는,
상기 NCSFNN을 사물 인지나 음성 인식을 위한 지도 학습(supervised learning)에 이용하는 것
을 특징으로 하는 학습 시스템.