KR102184655B1

KR102184655B1 - 비대칭 tanh 활성 함수를 이용한 예측 성능의 개선

Info

Publication number: KR102184655B1
Application number: KR1020180129587A
Authority: KR
Inventors: 한용희
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2020-11-30
Also published as: US20210295136A1; CN112889075B; CN112889075A; WO2020091259A1; KR20200048002A

Abstract

본 발명의 일 측면에 의하면, 뉴럴 네트워크의 구조에 상관 없이 활성 함수(activation function)로 사용가능한 비대칭의 하이퍼볼릭 탄젠트 함수(asymmetric tanh function)를 제공한다. 제안된 활성 함수는 그 출력 범위를 예측하고자 하는 변수의 최대값과 최소값 사이로 제한한다. 제안된 활성 함수는 입력 데이터에 따라 넓은 범위의 실수값을 예측해야 하는 회귀 문제에 적합하다.

Description

비대칭 tanh 활성 함수를 이용한 예측 성능의 개선{Improvement Of Regression Performance Using Asymmetric tanh Activation Function}

본 발명은 인공 뉴럴 네트워크(artificial neural network)에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 발명에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

전력 사용량 예측, 날씨 예측과 같이 연속 값(continuous target variable)을 예측하는 회귀 분석(regression analysis)은 인공 뉴럴 네트워크의 주요 활용 분야 중 하나이다.

회귀 분석에서 예측하는 값은 뉴럴 네트워크에 입력되는 데이터의 특성에 따라 [0, 1] 또는 [-1, 1] 범위 내의 값이 되거나 특별한 제한이 없는 음수를 포함한 실수가 되기도 한다.

뉴럴 네트워크를 구성하는 요소들 중에서 활성 함수(activation function)는 입력 데이터에 선형(linear) 또는 비선형(non-linear) 변환(transform)을 수행하는 요소이다. 예측값의 범위에 따라 뉴럴 네트워크의 종단에 적용할 적절한 활성 함수를 선택하여 사용되게 되는데, 예측 값과 동일한 출력 범위를 갖는 활성 함수를 사용하면 예측 오차를 줄이는 효과를 제공할 수 있다. 예를 들어, 입력 값이 어떻게 변하여도, sigmoid 함수는 출력 값을 [0, 1]로 제한(suppression, squash)시키며, tanh 함수는 [-1, 1]로 제한시킨다. 따라서, [0, 1]의 범위를 갖는 경우에는 sigmoid 함수(도 1의 (a) 참조)를, [-1, 1]의 범위를 갖는 경우에는 tanh 함수(도 1의 (b) 참조)를, 그 밖에 범위의 제한이 없는 실수를 예측할 경우에는 linear 함수(도 1의 (c) 참조)를 종단 활성 함수로 사용하는 것이 일반적이다. 그런데, linear 함수는 함수값의 범위에 제한이 없어서, sigmoid 함수나 tanh 함수와 달리, 출력층의 뉴런들을 위한 활성 함수로 사용되는 경우에 예측 오차가 커질 수 있다.

예측 범위가 사용하고자 하는 활성 함수의 출력 범위를 넘어서는 경우에는, 그 예측값의 범위가 [0, 1] 혹은 [-1, 1]과 같이 한정될 수 있도록, 입력 데이터의 범위를 스케일링하여 예측범위를 줄이는 정규화(Normalization)와 같은 데이터 전처리(Data preprocessing)가 고려될 수도 있다. 그러나 스케일링은 데이터 분산에 심한 왜곡을 가져올 수 있어서, 많은 경우에 예측값의 범위를 [0, 1] 혹은 [-1, 1]로 제한하기 어려워, 결과적으로, 예측값의 범위가 사실상 실수가 되는 경우가 많이 발생하게 된다.

따라서, 회귀분석에 있어서, 입력 데이터에 따라 넓은 범위의 실수값을 예측해야 하는 상황에 자주 직면하게 된다.

본 발명은 이러한 예측 범위가 넓은 데이터에 대해, 기존의 활성 함수에 비해, 예측 오차를 줄일 수 있는 새로운 활성 함수의 도입을 제안한다.

본 발명의 일 측면에 의하면, 실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 사용하여, 실제 현상을 나타내는 데이터를 처리하는 컴퓨터 구현 방법에 있어서, 상기 뉴럴 네트워크의 출력층의 각 노드에서 입력 값의 가중합을 계산하는 단계, 상기 출력층의 각 노드에서의 상기 입력 값은 상기 뉴럴 네트워크의 적어도 하나의 은닉층의 마지막 은닉층의 노드들로부터의 출력 값들임; 및 상기 뉴럴 네트워크의 출력층의 각 노드에서 상기 입력 값의 가중합에 비선형 활성화 함수를 적용하여 출력 값을 생성하는 단계;를 포함하고, 상기 비선형 활성화 함수는 상기 뉴럴 네트워크의 입력층의 노드들에 입력되는 데이터의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가지는 것을 특징으로 하는 방법을 제공한다.

본 실시예의 다른 측면에 의하면, 적어도 하나의 프로세서와 명령어들이 기록된 프로그램이 저장된 적어도 하나의 메모리를 포함하는, 실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 사용하여, 실제 현상을 나타내는 데이터를 처리하는 장치를 제공한다. 상기 명령어들은 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 상기 방법을 수행하도록 구성된다.

본 실시예의 또 다른 측면에 의하면, 실제 현상을 나타내는 데이터를 처리하기 위해 실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 위한 뉴럴 네트워크 연산을 수행하기 위한 장치에 있어서, 상기 뉴럴 네트워크의 출력층의 노드들에 대한 입력 값들과 가중치들을 수신하고, 수신된 입력 값들과 가중치들을 기초로 상기 뉴럴 네트워크의 출력층의 노드들에 대한 복수의 가중합들을 생성하는 가중합 연산부, 상기 뉴럴 네트워크의 출력층의 각 노드에서의 상기 입력 값들은 상기 뉴럴 네트워크의 적어도 하나의 은닉층의 마지막 은닉층의 노드들에 대한 출력 값들임; 및 상기 뉴럴 네트워크의 출력층의 각 노드의 가중합에 비선형 활성화 함수를 적용하여, 상기 뉴럴 네트워크의 출력층의 각 노드에 대한 출력 값을 생성하는 출력 연산부;를 포함하며, 상기 비선형 활성화 함수는 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가지는 것을 특징으로 하는, 장치를 제공한다.

일부 실시예에서, 상기 비선형 활성화 함수는,

혹은

로 표현될 수 있다. 여기서, x는 상기 뉴럴 네트워크의 출력층의 관련 노드에서의 상기 입력 값들의 가중합이고, max와 min은 각각 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값이며, s는 상기 비선형 활성화 함수의 경사(derivative)를 조절하는 파라미터(parameter)이다. 상기 파라미터 's'는, 개발자에 의해 선험적 지식으로 세팅 혹은 튜닝될 수는 하이퍼-파라미터(hyper-parameter)로 설정될 수도 있으며, 뉴럴 네트워크의 트레이닝을 통해 주 변수(즉, 각 노드의 가중치 셋(weight set))과 함께 최적화(즉, 학습)될 수도 있다.

이와 같이, 본 발명은 예측하고자 하는 변수의 최소값과 최대값을 반영할 수 있는 비대칭 tanh 함수를 활성 함수로써 사용한다. 이에 따르면, 예측 값의 범위를 예측 변수의 최소값과 최대값으로 제한함으로써, 예측 오차를 줄일 수 있다.

또한, 본 발명의 일 측면에 따르면, 활성 함수는 활성 함수의 경사(derivative)를 조절할 수 있는 파라미터 's'를 포함하며, 경사가 급할수록 뉴럴 네트워크의 가중치가 작은 범위를 갖게 하므로, 상기 파라미터 's'는 뉴럴 네트워크에 대한 정규화(regularization) 기능을 수행할 수 있다. 이러한 정규화(regularization)는 학습한 데이터에만 좋은 예측 결과를 보여 주는 오버피팅(overfitting) 문제를 줄이는 효과를 나타낸다.

도 1은 활성함수의 일 예들로 잘 알려진 sigmoid, tanh 및 linear 함수를 도시한다.
도 2는 가장 간단한 형태의 대표적인 오토인코더를 보여준다.
도 3은 [-5, 3]의 범위에서 변동하는 변수 x에 대해 본 발명이 제안하는 예시적인 최종 활성 함수를 보인다.
도 4는 "credit card fraud detection" 데이터 셋의 일부에 대한 통계 분석 결과를 보인다.
도 5는 "credit card fraud detection"을 위해 사용한 Stacked autoencoder의 개략적인 구조를 도시한다.
도 6은 오토인코더의 최종 활성 함수에 선형 함수를 적용한 종래 방식과 asymmetric tanh 함수를 적용한 본 발명의 방식에 따를 때, 신용카드 사기 거래 검출 성능 결과를 보인다.
도 7은 하이퍼-파라미터의 값이 변화함에 따른 asymmetric tanh의 그래프를 도시한다.
도 8은 하이퍼-파라미터의 값에 따른 뉴런의 가중치와 인코딩된 데이터의 분산을 나타낸 표이다.
도 9는 하이퍼-파라미터의 변화에 대한 정규화(regularization) 효과를 시각화 한 맵이다.
도 10은 본 발명의 예시적인 실시예가 구현될 수도 있는 시스템을 도시한다.
도 11은 실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 사용하여, 실제 현상을 나타내는 데이터를 처리하는 방법을 나타내는 흐름도이다.
도 12는 뉴럴 네트워크 연산을 수행하기 위한 뉴럴 네트워크 프로세싱 장치의 예시적인 기능 블록도를 도시한다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '...부,' '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

본 발명의 일 측면에 따르면, 오토인코더(autoencoder), CNN(Convolutional Neural Network), RNN(Recurrent neural network), Fully-Connected NN 등 뉴럴 네트워크의 구조에 상관 없이 활성 함수로서 사용가능한 비대칭의 하이퍼볼릭 탄젠트 함수(asymmetric tanh function)를 제공한다. 이하에서는, 뉴럴 네트워크의 하나인 오토인코더(autoencoder)를 예시하여, 본 발명에서 제안하는 활성 함수를 정의하고 실제적인 응용에서의 그 유용성을 보인다.

도 2는 가장 간단한 형태의 대표적인 오토인코더를 보여준다.

오토인코더는 입력과 출력의 차원이 같으며, 학습의 목표는 출력을 가능한 한 입력에 근사시키는 것이다. 도 2에 예시된 바와 같이, 오토인코더는 인코더(encoder)와 디코더(decoder)로 구성되어 있다. 인코더는 고차원 데이터를 입력받아 저차원 데이터로 인코딩한다. 디코더는 저차원 데이터를 디코딩하여 원래의 고차원 데이터를 복원(reconstruction)하는 역할을 수행한다. 이 과정에서 오토인코더는 원래 입력 데이터와 복원된 데이터 간의 차이가 적도록 학습해 나가게 된다. 즉, 오토인코더는 입력된 데이터를 저차원 데이터로 압축한 후 다시 원래의 데이터로 회귀(regression)하는 네트워크가 되는 것이다.

오토인코더는 학습이 진행될수록 입력 데이터의 분포 및 특성을 재현할 수 있는 네트워크로 수렴(converge)될 수 있다. 수렴된 네트워크는 크게 2가지 용도로 사용될 수 있다.

첫 번째 용도는 차원 축소(dimension reduction)이다. 도 2의 예시에서, 고차원(D차원) 데이터가 인코더를 거쳐 저차원(d차원) 데이터로 축소되었다. 이렇게 축소된 데이터가 다시 고차원 데이터로 디코더에 의해 회귀(regression) 될 수 있다는 것은 낮은 차원임에도 입력 데이터를 다시 재현할 수 있는 중요 정보(이를 흔히 'latent information'라 한다)를 포함한다는 것을 의미한다. 즉, 입력층에서 은닉층으로 인코딩되는 과정에서 정보가 압축되는 이와 같은 성질을 이용하여 오토인코더를 특징 추출기(Feature extracter)로 사용하기도 한다. 이렇게 인코딩된 데이터(즉, 추출된 특징들)는 낮은 차원을 갖기에, 클러스터링(clustering)과 같은 추가적 데이터 분석에서, 고차원의 원래 데이터에 비해, 높은 정확도를 얻을 수 있게 한다. 이 때 뉴럴 네트워크는 데이터에 대해 대표성(generalization)을 갖추었다고 간주될 수 있다.

두 번째 용도는 이상 탐지(anomaly detection)이다. 예를 들어, 불량률이 대략 0.1% 정도인 제조장비에 장착된 다양한 센서 데이터를 입력으로 사용하는 경우와 같이, 오토인코더는 데이터에서 각 클래스의 개수가 현저하게 차이가 나는 클래스 불균형 문제(class imbalance problem)를 풀기 위해 널리 사용되고 있다. 제조장비의 정상 가동시 취득된 센서 데이터만을 사용하여 오토인코더를 트레이닝했다면, 만약 고장시 데이터가 입력될 경우 오토인코더의 regression 오류(즉, 입력 데이터와 디코딩된 데이터 간의 차이)는 정상시 보다 상대적으로 크게 되어 고장 상태(anomaly)임을 탐지할 수 있게 된다. 이는 오토인코더가 정상 데이터만을 잘 재현(regression)하도록 학습되었기 때문이다.

오토인코더가 변수 x를 인코딩하고 다시 디코딩하는 것은 변수 x가 변동하는 범위 내의 값을 예측(regression) 하는 것으로 볼 수 있다. [발명의 배경이 되는 기술]에 언급한 바와 같이, 예측값의 범위에 따라 오토인코더의 출력층에 예측 값과 동일한 출력 범위를 갖는 활성 함수를 사용하면 예측 오차를 줄이는 효과를 제공할 수 있다.

본 발명의 일 측면에 따르면, 예측 범위가 넓은 데이터에 대해, 기존의 linear 활성 함수에 비해 예측 오차를 줄일 수 있는 새로운 활성 함수를 도입한다. 새로운 활성 함수는 예측하고자 하는 변수의 최대값과 최소값 사이로 그 출력범위를 제한한다.

제안하는 활성 함수는 다음과 같다.

여기서, max와 min은 각각 관련 노드(뉴런)에서 예측하고자 하는 변수의 최대값과 최소값이고, x는 관련 노드의 입력값들의 가중합이다.

수학식 1에 따르면, x가 0보다 크면 tanh(x/max)에 변수의 최대값(max)을 곱하므로, 활성 함수의 출력 범위의 상한은 변수 x의 최대값(max)이 된다. x가 0보다 작거나 같을 경우 tanh(x/min)에 변수 x의 최소값(min)을 곱하므로 활성 함수의 출력 범위의 하한은 변수 x의 최소값(min)이 된다. 여기서, tanh()의 입력에 x 대신 x/max과 x/min을 사용하는 것은 x=0 근방의 경사(derivative)가 기존의 tanh 함수와 동일한 값(대략 1)을 갖게 하기 위함이다.

[-5, 3]의 범위에서 변동하는 변수 x가 있다고 가정하자. 수학식 1을 참조하면, [-5, 3]의 범위에서 변동하는 변수 x에 대해 본 발명이 제안하는 예시적인 최종 활성 함수는 다음과 같이 표현될 수 있다.

도 3은 [-5, 3]의 범위에서 변동하는 변수 x에 대해 본 발명이 제안하는 예시적인 최종 활성 함수를 보인다. 0을 중심으로 -1과 1 사이의 값으로 반대칭적(anti-symmetric)으로 출력하는 도 1의 (b)에 예시된 tanh 함수와 달리, 도 3에 예시된 활성 함수는 출력 범위의 상한과 하한이 비대칭이다. 즉, 본 발명이 제안하는 활성 함수는, 예측하고자 하는 변수의 최대값과 최소값이 같지 않은 이상, 0을 중심으로 비대칭(asymmetric)이다. 따라서, 제안된 활성 함수는 비대칭의 하이퍼볼릭 탄젠트 함수(asymmetric tanh function)로 지칭될 수 있다.

이하에서는, 이상 탐지(anomaly detection)와 관련된 실제적인 응용에서, 본 발명이 제안하는 비대칭의 하이퍼볼릭 탄젠트 함수의 유용성을 설명한다. 사기성 거래 데이터를 일종의 이상(anomaly) 데이터로 간주하여, 오토인코더를 사용하여 사기 거래를 검출하려는 다양한 시도들이 진행되고 있다. 즉, 정상 거래 데이터만으로 트레이닝된 오토인코더에 사기 거래 데이터가 입력되면, 회귀(regression) 오류가 정상 거래 대비 크게 나오게 되므로, 이 경우 사기 거래로 판단하게 되는 것이다.

도 4는 "credit card fraud detection" 데이터 셋의 일부에 대한 통계 분석 결과를 보인다. "credit card fraud detection" 데이터 셋은 사기성 거래 데이터와 정상 거래 데이터가 혼재되어 있는 신용카드 거래 데이터로서, "https://www.kaggle.com/mlg-ulb/creditcardfraud"에 연구용으로 공개되어 있다.

도 5는 "credit card fraud detection"을 위해 사용한 Stacked autoencoder의 개략적인 구조를 도시한다. Stacked autoencoder는 은닉층이 여러 개 있는 구조로, 도 2의 구조보다 훨씬 다양한 함수를 표현할 수 있게 된다. 도 5에 예시된 Stacked autoencoder는 30 차원의 변수를 입력받아 각각 20, 10차원으로 축소(인코딩)하는 인코더들과 10 차원의 인코딩된 데이터를 다시 각각 20, 30차원으로 복원(reconstruction)하는 디코더들로 구성되어 있다. 가장 낮은 차원을 가지는 10차원(즉, 10개의 노드)로 구성된 두 번째 은닉층은 3개의 은닉층들 중에서 가장 낮은 차원을 가지며, 흔히 '보틀넥 은닉층(bottleneck hidden layer)'라고 불린다. 이러한 뉴럴 네트워크에서 보틀넥 은닉층의 출력 값들은, 가장 추상화된 피쳐들(features)로서, 보틀넥 피쳐(bottleneck features)라고도 지칭된다.

본 발명에 따르면, 각 변수별 최소값과 최대값을 고려하여 결정된 asymmetric tanh 함수를 관련된 최종 노드들(뉴런들)에 적용되는 활성 함수로 사용한다.

도 4에 보인 데이터 통계에서, 변수 V1의 최소값(min)과 최대값(max)은 각각 -5.640751e+01과 2.45930이다. 이를 수학식 1에 적용하면, 변수 V1과 관련된 최종 노드에 적용되는 본 발명에 따른 활성 함수는 수학식 3으로 표현될 수 있다.

위와 같은 방식으로, 30 개의 변수별 asymmetric tanh 함수를 오토인코더의 최종 노드의 활성 함수에 적용하게 된다.

도 6은 오토인코더의 최종 활성 함수에 선형 함수를 적용한 종래 방식과 asymmetric tanh 함수를 적용한 본 발명의 방식에 따를 때, 신용카드 사기 거래 검출 성능 결과를 보인다.

도 6의 (a)에 보인 혼동 행렬(confusion matrix)은 최종 활성 함수로 선형 함수를 사용한 stacked 오토인코더의 성능 결과이며, 도 6의 (b)에 보인 혼동 행렬은 최종 활성 함수로 asymmetric tanh 함수를 사용한 stacked 오토인코더의 성능 결과이다. 정상거래를 사기 거래로 검출하는 "false positive error"의 경우, 종래 방식은 712개인데 반해, 본 발명에 따른 방식은 이보다 134개 적은 578개이다. 이는 "false positive error"가 약 18.8% 크게 감소한 것을 확인할 수 있다. 사기거래를 정상거래로 검출하는 "false negative error"는 본 발명에 의해 19개에서 18개로 소폭 감소하였고 사기 거래를 제대로 검출한 횟수는 79개에서 80개로 소폭 증가하였다. 참고로, 사기 검출 방법은 학습된 각 오토인코더 모델에 대해 비사기 데이터(정상거래들)에 대한 복원 에러(reconstruction error)의 평균과 표준 편차의 합을 구하여 이를 사기/비사기를 결정하는 임계치(threshold)로 사용하였다. 즉, 복원에러가 이 임계치 보다 클 경우 사기 거래로 판단하게 된다. 이 때 사용한 복원 에러는 평균제곱오차(mean squared error, MSE)를 사용하였다.

앞서 설명한 것처럼, 오토인코더의 주요 용도 중의 하나는 차원 축소(dimension reduction)이다. 인코더의 출력이 입력 데이터에 비해 낮은 차원(dimension)을 갖고 있다. 오토인코더가 입력 데이터에 대해 대표성 있게 학습되었다면, 낮은 차원의 중간 출력도 입력 데이터를 대표할 수 있는 중요 정보를 갖게 된다.

중간 출력(즉, 인코딩된 데이터)이 대표성을 갖게 하기 위해 일반적으로 사용하는 방법에는 L1, L2 정규화(regularization)가 있다. 이는, 뉴런의 가중치(weight; w)가 가급적 작은 범위 값들로 모여 있게 하여, 오버피팅(overfitting)을 막고, 모델을 보다 대표성 있도록 일반화(generalization) 하고자 함이다.

본 발명은 asymmetric tanh 함수의 경사(derivative)를 조절할 수 있는 파라미터를 새로운 정규화(regularization) 수단으로 제안한다. 수학식 4는 파라미터 's'를 추가한 asymmetric tanh를 정의한다.

여기서, max와 min은 각각 출력층의 관련 노드에서 예측하고자 하는 변수 x의 최대값과 최소값이다. 따라서, 오토인코더의 경우, max와 min은 각각 상기 오토인코더의 입력층의 관련 노드에 입력되는 데이터의 최대값과 최소값이다. s는 비선형 활성화 함수의 경사(derivative)를 조절하는 파라미터이다.

수학식 4에 따르면, tanh 연산의 입력이 되는 x가 0보다 클 경우 x대신 x/(max/s)를 입력으로 대체하고, x가 0과 같거나 작을 경우에는 x 대신 x/(min/s)로 입력을 대체하여 tanh 연산을 수행하게 한다.

도 7은 파라미터 's'의 값이 변화함에 따른 asymmetric tanh의 그래프를 나타내고 있다. 's'가 커질수록 그래프의 경사(derivative)가 가파라지며, 이는 유용한 범위(useful range)가 그 만큼 좁아지게 하여 뉴런의 가중치(weight: w)도 좁게 분포(low variance)하게 한다. 결국 기존의 L1,L2 regularization과 유사한 효과를 얻을 수 있게 된다.

정규화(regularization)의 효과는 뉴런의 가중치(weight: w)와 인코더의 출력의 분산으로 판단할 수 있다. 분산이 낮을수록 정규화(regularization)의 효과가 크다고 볼수 있다. 도 8에 보인 표를 참조하면, s가 1일 때보다 s가 2일 때 가중치(w)와 인코딩된 데이터 모두 분산(variance)이 낮아진 것을 확인할 수 있다.

도 9는 파라미터 's' 의 변화에 대한 정규화(regularization) 효과를 시각화 한 맵이다. 도 9의 시각화는 인코딩된 10차원의 데이터를 t-SNE 처리하여 얻어졌다. 's'가 1인 도 9의 (a)는 사기 거래와 정상 거래가 구분(clustering)하기 어렵게 많이 혼합되어 있는 반면에, 's'가 2인 도 9의 (b)는 비교적 구분이 용이한 구조로 개선되어 있음을 보인다. 즉, 파라미터 's' 의 튜닝 혹은 최적화를 통해 보다 대표성 있는 저차원의 인코딩된 데이터를 확보할 수 있음을 알 수 있다.

이러한 파라미터 's'는, 개발자에 의해 선험적 지식으로 세팅 혹은 튜닝될 수는 하이퍼-파라미터(hyper-parameter)로 설정될 수 있으며, 뉴럴 네트워크의 트레이닝을 통해 주 변수(즉, 각 노드의 가중치 셋(weight set))과 함께 최적화(즉, 학습)될 수도 있다. 도 9의 (c)는 뉴럴 네트워크에 의해 학습된 's'에 따른 시각화 맵이며, (a), (b)에 비해 훨씬 더 구분이 용이한 형태로 정규화되었음을 알 수 있다.

도 10은 본 발명의 예시적인 실시예가 구현될 수도 있는 시스템을 도시한다.

상기 시스템은 데이터 소스(1010)를 포함한다. 데이터 소스(1010)는 예를 들어 데이터베이스, 통신 네트워크 등일 수 있다. 입력 데이터(1015)는 처리를 위해 데이터 소스(1010)로부터 서버(1020)로 전송된다. 입력 데이터(1015)는 예를 들어 수치, 음성, 텍스트, 이미지 데이터 등일 수 있다. 서버(1020)는 뉴럴 네트워크(1025)을 포함한다. 입력 데이터(1015)는 처리를 위해 뉴럴 네트워크(1025)에 공급된다. 뉴럴 네트워크(1025)는 예측되거나 디코딩된 출력(1030)을 제공한다. 뉴럴 네트워크(1025)는 입력 데이터(1015)와 예측된 출력(1030) 사이의 관계를 특징 짓는 모델을 표현한다.

본 발명의 예시적인 실시예에 따르면, 뉴럴 네트워크(1025)는 입력층과 적어도 하나의 은닉층과 출력층을 포함하며, 적어도 하나의 은닉층의 마지막 은닉층의 노드들로부터의 출력값들은 출력층의 각 노드에 입력된다. 출력층의 각 노드는 입력 값들의 가중합에 비선형 활성화 함수를 적용하여 출력값을 생성한다. 여기서, 비선형 활성화 함수는 뉴럴 네트워크의 입력층의 관련된 노드에 입력되는 입력 데이터의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가진다. 비선형 활성화 함수는 전술한 수학식 1 혹은 수학식 4로 표현될 수 있다. 특징 추출과 관련된 응용에서, 뉴럴 네트워크의 어느 하나의 은닉층의 노드들로부터의 출력값들은 뉴럴 네트워크의 입력층의 노드들에 입력되는 데이터의 압축된 표현인 특징들로 사용될 수 있다.

도 11은 실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 사용하여, 실제 현상을 나타내는 데이터를 처리하는 방법을 나타내는 흐름도이다. 도 11은 뉴럴 네트워크의 출력층의 각 노드와 관련된 처리를 예시하며, 뉴럴 네트워크의 적어도 하나의 은닉층의 각 노드와 관련된 처리를 생략되어 있다.

S1110에서, 뉴럴 네트워크의 출력층의 각 노드에서 입력 값의 가중합이 계산된다. 출력층의 각 노드에서의 입력 값은 뉴럴 네트워크의 적어도 하나의 은닉층의 마지막 은닉층의 노드들로부터의 출력 값들이다.

S1120에서, 뉴럴 네트워크의 출력층의 각 노드에서 상기 입력 값의 가중합에 비선형 활성화 함수를 적용하여 출력값을 생성된다. 여기서, 비선형 활성화 함수는 뉴럴 네트워크의 입력층의 관련된 노드에 입력되는 입력 데이터의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가진다. 비선형 활성화 함수는 전술한 수학식 1 혹은 수학식 4로 표현될 수 있다.

이상 탐지(anomaly detection)와 관련된 응용에서, 상기 방법은 뉴럴 네트워크의 입력층의 각 노드에 입력되는 데이터와 뉴럴 네트워크의 출력층의 각 노드에 생성된 출력값 간의 차이를 기초로, 상기 실제 현상을 나타내는 데이터에서 이상 데이터(anomaly data)를 검출하는 단계(S1130)를 더 포함할 수 있다.

일부 예들에서, 본 개시에서 설명된 프로세스들은 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적의 논리 회로(logic circuitry)에 의해 수행될 수 있고, 본 개시에서 설명된 장치들은 특수 목적의 논리 회로로 구현될 수 있다. 도 12를 참조하여 그러한 구현의 일 예를 설명한다.

도 12는 뉴럴 네트워크 연산을 수행하기 위한 뉴럴 네트워크 프로세싱 장치의 예시적인 기능 블록도를 도시한다. 뉴럴 네트워크 연산은, 실제 현상을 나타내는 데이터를 처리하기 위해, 실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 위한 연산일 수 있다. 도 12에 예시된 장치는 가중합 연산부(1210), 출력 연산부(1220), 버퍼(1230), 및 메모리(1340)를 포함한다.

가중합 연산부(1210)는, 뉴럴 네트워크(예컨대 도 5와 같은 오토엔코더)의 복수의 층들(layers)에 대해 순차적으로, 복수의 입력 값들과 가중치들을 수신하고, 복수의 입력 값들과 복수의 가중치들에 기초하여 복수의 누적 값(즉, 해당 층의 각 노드에 대한 입력 값들의 가중합)을 생성하도록 구성된다. 특히, 가중합 연산부(1210)는, 뉴럴 네트워크의 출력층의 노드들에 대한 입력 값들과 가중치들에 기초하여 출력층의 노드들에 대한 누적 값을 생성할 수 있다. 여기서, 뉴럴 네트워크의 출력층의 각 노드에 대한 입력 값들은 뉴럴 네트워크의 적어도 하나의 은닉층의 마지막 은닉층의 노드들로부터의 출력값이다. 가중합 연산부(1210)는 복수의 곱셈 회로와 복수의 합산 회로를 포함할 수 있다.

출력 연산부(1220)는, 뉴럴 네트워크의 복수의 층들(layers)에 대해 순차적으로, 가중합 연산부(1210)에 의해 생성된 각 누적 값에 활성 함수를 적용하여 각 층에 대한 출력 값들을 생성하도록 구성된다. 특히, 출력 연산부(1220)는 뉴럴 네트워크의 출력층의 각 노드의 누적 합에 비선형 활성화 함수를 적용하여 출력값을 생성한다. 여기서, 비선형 활성화 함수는 뉴럴 네트워크의 입력층의 노드들에 입력되는 데이터의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가진다. 비선형 활성화 함수는 전술한 수학식 1 혹은 수학식 4로 표현될 수 있다.

버퍼(1230)는 출력 연산부로부터의 출력을 수신하고 저장하도록 구성되며, 그 수신된 출력을 가중합 연산부(1210)에 입력으로서 전송하도록 구성된다. 메모리(1240)는 뉴럴 네트워크의 각 층(layer)에 대한 복수의 가중치들을 저장하도록 구성되며, 그 저장된 가중치들을 가중합 연산부(1210)에 전송하도록 구성된다. 메모리(1240)는 뉴럴 네트워크 연산을 통해 처리될 실제 현상을 나타내는 데이터 셋을 저장하도록 구성될 수 있다.

전술한 예시적인 실시예는 많은 다른 방식으로 구현될 수 있다는 것을 이해해야 한다. 일부 예들에서, 본 개시에서 설명된 다양한 방법들 및 장치들은 프로세서, 메모리, 디스크 또는 다른 대용량 스토리지, 통신 인터페이스, 입/출력(I/O) O) 디바이스들 및 기타 주변 장치들을 가지는 범용 컴퓨터에 의해 구현될 수도 있다. 범용 컴퓨터는 소프트웨어 명령어들을 프로세서에 로딩한 다음, 본 개시에 설명된 기능을 수행하기 위해 명령들의 실행함으로써 상술한 방법을 실행하는 장치로 기능할 수 있다.

한편, 도 11에 도시된 단계들은 하나 이상의 프로세서에 의해 판독되고 실행될 수 있는 비일시적 기록매체에 저장된 명령어들로 구현될 수 있다. 비일시적 기록매체는, 예를 들어, 컴퓨터 시스템에 의하여 판독가능한 형태로 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 예를 들어, 비일시적 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

삭제
실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 사용하여, 실제 현상을 나타내는 데이터를 처리하는 컴퓨터 구현 방법에 있어서,
상기 뉴럴 네트워크의 출력층의 각 노드에서, 입력 값들의 가중합을 계산하는 단계, 상기 뉴럴 네트워크의 출력층의 각 노드에서의 상기 입력 값들은 상기 뉴럴 네트워크의 적어도 하나의 은닉층의 마지막 은닉층의 노드들로부터의 출력 값들임; 및
상기 뉴럴 네트워크의 출력층의 각 노드에서, 상기 입력 값들의 가중합에 비선형 활성화 함수를 적용하여 출력 값을 생성하는 단계;
를 포함하고, 상기 비선형 활성화 함수는 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가지며,
상기 비선형 활성화 함수는 다음의 수학식으로 표현되는 것을 특징으로 하는, 방법.

여기서, x는 상기 뉴럴 네트워크의 출력층의 관련 노드에서의 상기 입력 값들의 가중합이고, max와 min은 각각 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값이며, s는 상기 비선형 활성화 함수의 경사(derivative)를 조절하는 파라미터(parameter)임.
제2항에 있어서,
상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수는,
상기 뉴럴 네트워크의 입력층의 관련 노드에 입력되는 데이터인 것을 특징으로 하는, 방법.
제2항에 있어서,
상기 파라미터는,
하이퍼-파라미터(hyper-parameter) 또는 트레이닝 데이터로부터 학습되도록 설정된 것을 특징으로 하는, 방법.
실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 사용하여, 실제 현상을 나타내는 데이터를 처리하는 컴퓨터 구현 방법에 있어서,
상기 뉴럴 네트워크의 출력층의 각 노드에서, 입력 값들의 가중합을 계산하는 단계, 상기 뉴럴 네트워크의 출력층의 각 노드에서의 상기 입력 값들은 상기 뉴럴 네트워크의 적어도 하나의 은닉층의 마지막 은닉층의 노드들로부터의 출력 값들임; 및
상기 뉴럴 네트워크의 출력층의 각 노드에서, 상기 입력 값들의 가중합에 비선형 활성화 함수를 적용하여 출력 값을 생성하는 단계;
를 포함하고, 상기 비선형 활성화 함수는 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가지며,
상기 비선형 활성화 함수는 다음의 수학식으로 표현되는 것을 특징으로 하는, 방법.

여기서, max와 min은 각각 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값임.
제2항 또는 제5항에 있어서,
상기 뉴럴 네트워크의 입력층의 각 노드에 입력되는 데이터와 상기 뉴럴 네트워크의 출력층의 각 노드에 생성된 출력 값 간의 차이를 기초로, 상기 실제 현상을 나타내는 데이터에서 이상 데이터(anomaly data)를 검출하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
제2항 또는 제5항에 있어서,
상기 뉴럴 네트워크의 적어도 하나의 은닉층 중 어느 하나의 은닉층의 노드들로부터의 출력 값들을 상기 뉴럴 네트워크의 입력층의 노드들에 입력되는 데이터의 압축된 표현으로 사용하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
삭제
실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 사용하여, 실제 현상을 나타내는 데이터를 처리하는 장치에 있어서,
적어도 하나의 프로세서; 및
명령어들이 기록된 프로그램이 저장된 적어도 하나의 메모리를 포함하고,
상기 명령어들은 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금,
상기 뉴럴 네트워크의 출력층의 각 노드에서, 입력 값들의 가중합을 계산하는 단계, 상기 뉴럴 네트워크의 출력층의 각 노드에서의 상기 입력 값들은 상기 뉴럴 네트워크의 적어도 하나의 은닉층의 마지막 은닉층의 노드들로부터의 출력 값들임; 및
상기 뉴럴 네트워크의 출력층의 각 노드에서, 상기 입력 값들의 가중합에 비선형 활성화 함수를 적용하여 출력 값을 생성하는 단계;
를 수행하도록 하며, 상기 비선형 활성화 함수는 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가지며,
상기 비선형 활성화 함수는 다음의 수학식으로 표현되는 것을 특징으로 하는, 장치.

여기서, x는 상기 출력층의 관련 노드에서의 상기 입력 값들의 가중합이고, max와 min은 각각 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값이며, s는 상기 비선형 활성화 함수의 경사(derivative)를 조절하는 파라미터(parameter)임.
실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 사용하여, 실제 현상을 나타내는 데이터를 처리하는 장치에 있어서,
적어도 하나의 프로세서; 및
명령어들이 기록된 프로그램이 저장된 적어도 하나의 메모리를 포함하고,
상기 명령어들은 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금,
상기 뉴럴 네트워크의 출력층의 각 노드에서, 입력 값들의 가중합을 계산하는 단계, 상기 뉴럴 네트워크의 출력층의 각 노드에서의 상기 입력 값들은 상기 뉴럴 네트워크의 적어도 하나의 은닉층의 마지막 은닉층의 노드들로부터의 출력 값들임; 및
상기 뉴럴 네트워크의 출력층의 각 노드에서, 상기 입력 값들의 가중합에 비선형 활성화 함수를 적용하여 출력 값을 생성하는 단계;
를 수행하도록 하며, 상기 비선형 활성화 함수는 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가지며,
상기 비선형 활성화 함수는 다음의 수학식으로 표현되는 것을 특징으로 하는, 장치.

여기서, max와 min은 각각 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값임.
실제 현상을 나타내는 데이터를 처리하기 위해 실제 데이터 패턴을 모델링하도록 구성된 뉴럴 네트워크를 위한 뉴럴 네트워크 연산을 수행하기 위한 장치에 있어서,
상기 뉴럴 네트워크의 출력층의 노드들에 대한 입력 값들과 가중치들을 수신하고, 수신된 입력 값들과 가중치들을 기초로 상기 뉴럴 네트워크의 출력층의 노드들에 대한 복수의 가중합들을 생성하는 가중합 연산부, 상기 뉴럴 네트워크의 출력층의 각 노드에서의 상기 입력 값들은 상기 뉴럴 네트워크의 적어도 하나의 은닉층의 마지막 은닉층의 노드들에 대한 출력 값들임; 및
상기 뉴럴 네트워크의 출력층의 각 노드의 가중합에 비선형 활성화 함수를 적용하여, 상기 뉴럴 네트워크의 출력층의 각 노드에 대한 출력 값을 생성하는 출력 연산부;
를 포함하며, 상기 비선형 활성화 함수는 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값을 각각 상한과 하한으로 하는 출력범위를 가지며,
상기 비선형 활성화 함수는 다음의 수학식으로 표현되는 것을 특징으로 하는, 장치.

여기서, x는 상기 출력층의 관련 노드에서의 상기 입력 값들의 가중합이고, max와 min은 각각 상기 뉴럴 네트워크의 출력층의 관련 노드에서 예측하고자 하는 변수의 최대값과 최소값이며, s는 상기 비선형 활성화 함수의 경사(derivative)를 조절하는 파라미터(parameter)임.