KR20190036672A - 게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체 - Google Patents

게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체 Download PDF

Info

Publication number
KR20190036672A
KR20190036672A KR1020170125841A KR20170125841A KR20190036672A KR 20190036672 A KR20190036672 A KR 20190036672A KR 1020170125841 A KR1020170125841 A KR 1020170125841A KR 20170125841 A KR20170125841 A KR 20170125841A KR 20190036672 A KR20190036672 A KR 20190036672A
Authority
KR
South Korea
Prior art keywords
hidden state
gate
neural network
candidate
gated
Prior art date
Application number
KR1020170125841A
Other languages
English (en)
Other versions
KR102051706B1 (ko
Inventor
준타니
정민주
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020170125841A priority Critical patent/KR102051706B1/ko
Publication of KR20190036672A publication Critical patent/KR20190036672A/ko
Application granted granted Critical
Publication of KR102051706B1 publication Critical patent/KR102051706B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체가 제공된다. 본 컨볼루션 게이티드 순환유닛 디트렌딩방법에 따르면, 입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하고, 산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하여 출력할 수 있게 되어, 기존의 정규화 방법과 강력한 시너지 효과를 보임과 동시에 추가 오버 헤드가 거의없이 트레이닝을 가속화함으로써, 컨볼루션 게이티드 순환유닛(ConvGRU)의 계산 부담을 실질적으로 완화줄 수 있는 적응형 디트렌딩을 구현할 수 있게 된다.

Description

게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체 {Method, Device and Recording medium for detrending gated recurrent neural network}
본 발명은 디트렌딩방법, 디트렌딩 장치 및 기록매체에 관한 것으로, 더욱 상세하게는 게이트 방식이 적용된 순환 신경망(Recurrent Neural Network)에 적용되는 순환 신경망 디트렌딩 방법 및 기록매체에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
비디오 영상 인식은 최근 급속한 진보와 함께 광범위하게 연구되어왔다. 그러나 대부분의 기존 방법은 장기간보다는 단기간에 초점을 맞춘 명목상의 비디오 인식이라고 볼 수 있다. 컨볼루션 순환 신경망 (Convolutional recurrent neural network, ConvRNN)은 상황에 맞는 비디오 인식을 위한 강력한 시공간 정보 처리 능력을 제공하지만, 광범위한 계산이 필요하기 때문에 트레이닝이 느리다.
CNN (Convolution Neural Network)은 1000 클래스와 120만 개의 트레이닝 이미지로 구성된 ImageNet 챌린지 데이터 세트에서 탁월한 성능을 보여준다. 이러한 성공에 힘입어 비디오 인식 작업에서 CNN(Convolution Neural Network)의 공간 처리 기능을 활용하는 몇 가지 접근법이 있다. 2-스트림 CNN 및 컨볼루션 3D (C3D) 네트워크가 가장 보편적으로 사용되는 신경망 네트워크이다. 2-스트림 CNN은 개별적인 RGB 프레임을 처리하는 공간 스트림 네트워크와 여러 프레임에 걸쳐 스택된 옵티컬 플로우를 처리하는 시간 스트림 네트워크로 구성되고 공간 및 시간 스트림 네트워크의 분류 기능을 결합한다. C3D 네트워크는 스택된 연속 RGB 프레임을 처리하면서 시간을 세번째 차원으로 추가함으로써 2D 컨볼루션을 3D 컨볼루션으로 확장하게 된다. 그러나 이 두 가지 네트워크는 비디오를 인식하기 위해 스택 프레임 사이의 제한된 시간 상관(temporal correlation)만 사용하는 스태킹 전략을 사용한다. 시간 윈도우(temporal window)가 다음 위치로 진행하면, 이전 스택의 정보가 완전히 삭제된다. 이것은 문맥 인식(contextual recognition)의 문제를 야기하는데, 이는 긴 시간 상관관계(long-range temporal correlation)의 추출을 필요로 한다.
CNN(Convolution Neural Network) 및 RNN(Recurrent Neural Network)의 공간 및 시간 정보 처리 능력을 활용하기 위해 RNN의 가중치 곱(weight multiplication)을 컨볼루션으로 대체한 Convolutional Recurrent Neural Network (ConvRNN)를 사용하여 이러한 한계를 극복할 수 있다. 공간 - 시간적 특징을 계층적으로 추출함으로써, ConvRNN은 강수 예보, 비디오 인식, 비디오 예측과 같은 시공간 영역에서 복잡한 문제를 다룰 수 있게 된다. 또한, 공간 도메인 문제 역시 반복적인 방식으로 ConvRNN에 의해 처리될 수 있다. 예를 들어, instance segmentation에서 ConvRNN은 한 번에 하나의 이미지 인스턴스를 순차적으로 세그먼트화하게 된다.
하지만, 순환 연결(recurrent connection)은 추가적인 계산이 필요하기 때문에, ConvRNN을 트레이닝하는 것은 단일 프레임을 수신하거나 비디오 인식을 위해 여러 프레임을 스택하는 피드 포워드 CNN을 학습하는 것보다 매우 느리다. 또한, ConvRNN은 시간이 지남 영역 내의 계산을 병렬화하는 것이 어려워진다. 따라서, ConvRNN을 실제 개발함에 있어, 빠른 학습 수렴을 달성하는 방법을 찾는 것이 중요한 문제이다.
내부 공변량 변이(Internal Covariate Shift)가 다중 층 퍼셉트론 (multi-layer perceptron, MLP)과 CNN을 포함한 피드 포워드 신경망의 트레이닝 시간을 증가시키므로, 트레이닝 시간을 최소화하기 위해, 각각의 미니 배치에 대해 뉴런의 입력 분포를 정규화하는 배치 정규화(BN : Batch Normalization)가 제안되었다. BN은 내부 공변량 이동을 성공적으로 제거함으로써 트레이닝을 크게 가속화하고 피드- 포워드 신경망의 트레이닝 표준이 되었다. RNN은 피드 포워드 신경망이 시간 축으로 확장된 모델로 BN을 RNN에도 적용할 수 있다. 그러나 BN은 전체 시간영역에서 계산된 글로벌 통계(global statistics) 또는 각 시간 단계마다 계산된 로컬 통계모두 RNN과 잘 맞지 않는다는 점이 있다. 글로벌 통계를 사용하면 각 시간 단계마다 다른 로컬 통계가 무시되고, 로컬 통계를 사용하면 서로 다른 길이의 트레이닝 시퀀스를 다룰 수 없게 된다. 대안으로 계층 정규화(Layer Normalization : LN)는 BN을 RNN에 적용하기 어렵게 만드는 미니 배치 샘플 간의 종속성을 제거한다. LN은 단일 샘플을 이용하여 각 계층의 모든 뉴런에 대한 통계를 계산하고 RNN 및 MLP의 트레이닝을 성공적으로 가속화하지만 CNN의 경우에는 그 정도가 미미하다. 때문에 BN과 LN 모두 일반적으로 ConvRNN에 적용하기 어렵다.
이에 따라, 더욱 빠른 트레이닝 속도를 가지면서 순환 신경망에 일반적으로 적용이 가능한 정규화 방안의 모색이 요청된다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하고, 산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하여 출력하는 게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체를 제공함에 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 게이트 방식이 적용된 순환 신경망(Recurrent Neural Network)에 적용되는 디트렌딩방법은, 입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하는 단계; 산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하는 단계; 및 디트렌딩된 결과를 출력값으로 출력하는 단계;를 포함한다.
그리고, 디트렌딩을 수행하는 단계는, 후보 히든상태와 히든상태를 벡터 연산함으로써 디트렌딩을 수행할 수도 있다.
또한, 순환 신경망은, 리셋 게이트(reset gate) 및 업데이트 게이트(update gate)를 포함할 수도 있다.
그리고, 산출단계는, 업데이트 게이트를 가중치로하여 이전의 히든 상태와 후보 히든 상태 사이를 선형보간(linear interpolation)함으로써 히든 상태를 산출할 수도 있다.
또한, 산출단계는, 업데이트 게이트 zt 및 히든상태 ht를 아래의 수식을 이용하여 산출할 수도 있다.
Figure pat00002
그리고, 후보 히든 상태는, 이전 히든 상태가 미치는 영향의 정도가 리셋 게이트에 의해 결정될 수도 있다.
또한, 산출단계는, 리셋 게이트 rt 및 후보 히든상태
Figure pat00003
를 아래의 수식을 이용하여 산출할 수도 있다.
Figure pat00004
Figure pat00005
그리고, 디트렌딩을 수행하는 단계는, 아래의 수식을 이용하여 디트렌딩을 수행할 수도 있다.
Figure pat00006
또한, 업데이트 게이트는, 바이어스(bias) 초기값이 음의 값으로 설정될 수도 있다.
그리고, 게이트 방식이 적용된 순환 신경망은 위의 실시예로 사용된 컨볼루션 게이티드 순환유닛 (convolutional gated recurrent unit, ConvGRU)로 한정되지 않고, 게이티드 순환유닛(gated recurrent unit, GRU), 롱숏텀 메모리(long short term memory, LSTM), 및 컨볼루션 롱숏텀 메모리(convolutional long short term memory, ConvLSTM) 및 게이트 방식이 적용된 임의의 순환 신경망 중 어느 하나일 수도 있다.
한편 본 발명의 일 실시예에 따른, 컴퓨터로 읽을 수 있는 기록매체는, 게이트 방식이 적용된 순환 신경망(Recurrent Neural Network)에 적용되는 디트렌딩방법에 있어서, 입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하는 단계; 산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하는 단계; 및 디트렌딩된 결과를 출력값으로 출력하는 단계;를 포함하는 게이티드 순환 신경망 디트렌딩방법을 수행하는 컴퓨터 프로그램이 수록된다.
게이트 방식이 적용된 순환 신경망(Recurrent Neural Network)에 적용되는 신경망 디트렌딩장치는, 입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하고, 산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하는 게이트 방식이 적용되는 순환유닛(Recurrent Unit); 및 디트렌딩된 결과를 출력값으로 출력하는 출력부;를 포함한다.
본 발명의 다양한 실시예에 따르면, 입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하고, 산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하여 출력하는 게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체를 제공할 수 있게 되어, 기존의 정규화 방법과 강력한 시너지 효과를 보임과 동시에 추가 오버 헤드가 거의없이 트레이닝을 가속화함으로써, 컨볼루션 게이티드 순환유닛(ConvGRU)의 계산 부담을 실질적으로 완화줄 수 있는 적응형 디트렌딩을 구현할 수 있게 된다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에 서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시 예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른, 디트렌딩의 개념을 도시한 그래프,
도 2는 본 발명의 일 실시예에 따른, 컨볼루션 게이티드 순환유닛 디트렌딩방법을 설명하기 위해 제공되는 흐름도,
도 3은 본 발명의 일 실시예에 따른, 적응형 디트렌딩이 적용된 컨볼루션 게이티드 순환유닛 장치의 구조를 도시한 도면,
도 4는 본 발명의 일 실시예에 따른, 바이어스 초기화 트릭의 효과를 비교한 그래프이다.
본 발명의 과제 해결 수단의 특징 및 이점을 보다 명확히 하기 위하여, 첨부된 도면에 도시된 본 발명의 특정 실시 예를 참조하여 본 발명을 더 상세하게 설명한다.
다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하의 설명 및 도면에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을의미한다.
다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 기술되는 "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
본 발명에서는 정규화 및 디트렌딩(detrending) 방법에 영감을 얻어 컨볼루션 순환 신경망(Convolution Recurrent Neural Network, ConvRNN), 특히 컨볼루션 게이티드 순환유닛 (Convolutional Gated Recurrent Unit, ConvGRU)의 학습을 가속화하기 위해 시간 정규화를 위한 "적응적 디트렌딩(adaptive detrending, AD)"을 제안한다. 순환 신경망(Recurrent Neural Network, RNN)의 각 뉴런에 대해 적응적 디트렌딩은 시퀀스 내의 추세 변화를 식별하고 이를 차감하여 내부 공변량 변이(Internal Covariate Shift)을 제거한다. ConvGRU로 문맥 인식을 테스트하는 실험에서 결과는 (1) ConvGRU가 피드 포워드 신경망보다 인식 성능이 월등히 우수하며, (2) 적응적 디트렌딩은 큰 폭으로 트레이닝이 속도가 가속화되고 일반화 성능이 개선되었으며, (3) 적응적 디트렌딩이 다른 다른 정규화 방법과 결합되었을 때 퍼포먼스가 더 증가되었다.
본 실시예는 컨볼루션 ConvRNN의 트레이닝을 가속화하기 위해 시간 영역에 초점을 맞추고 있다. 많은 시계열 분석과 많은 예측 방법은 정상상태(stationary) 시계열에만 적용될 수 있다. 디트렌딩(Detrending)은 시계열 내의 추세를 식별하고 제거함으로써 비정상(non-stationary) 상태인 시계열을 정상(stationary) 상태의 시계열로 변환하는 방법이다. 이 방법은 간단하며 도 1의 브라질 국내 총생산의 맥락(context)에서 참고하여 확인할 수 있다. 도 1은 본 발명의 일 실시예에 따른, 디트렌딩의 개념을 도시한 그래프이다. 도 1은 브라질 GDP을 이용한 전형적인 디트렌딩 사례를 도시하고 있다. 디트렌딩 출력은 원래 입력에서 트렌드를 뺀 값이다. 도 1에서는 트렌드를 정의하기 위해 0.95의 고정 된 감쇠 계수를 갖는 지수 이동 평균 (EMA)을 사용한 경우이다.
본 실시예에서는 이 방법을 RNN의 뉴런의 시퀀스를 정상화하는데 적용한다. 본 실시예는, gated recurrent unit (GRU)의 히든 상태(hidden state)가 적응적으로 변화하는 감쇠 계수(decay factor)를 갖는 지수 이동 평균(exponential moving average)의 형태로 근사화될 수 있기 때문에 이를 트랜드로 간주할 수 있다. 이를 통해, 본 실시예에서는, GRU에서 확장된 ConvRNN의 변종인 컨볼루션 게이티드 순환유닛(ConvGRU)와 함께 사용하기 위한 새로운 시간 영역 정규화 방법인 "적응형 디트렌딩 (adaptive detrending, AD)"이 제안된다. AD를 통해 다음과 같은 효과를 얻을 수 있다.
AD는 경쟁 방식보다 저렴한 계산 비용과 적은 메모리 소비로 구현하기 쉽다.
AD는 시간 경과에 따른 내부 공변량 이동을 제거한다.
AD는 감쇠 계수 적응성을 통해 디트렌딩(또는 정규화) 정도를 제어한다.
AD는 ConvGRU의 기존 정규화 방법과 강력한 시너지 효과를 나타낸다.
1. 배치 정규화(Batch Normalization)
내부 공변량 변이(Internal Covariate Shift)는 하위 계층 매개 변수가 업데이트되면 각 계층의 입력 분포가 지속적으로 변경되기 때문에 깊은 신경 네트워크의 학습을 느리게 만든다. BN(Batch Normalization)은 네트워크 내 뉴런들의 활성값들을 정규화하여 내부 공변량 변이를 줄이기 위해 다음과 같은 공식으로 제안된다.
Figure pat00007
여기서 x는 사이즈 m의 미니 배치에서 뉴런의 활성값(Activation)이고,μ와 σ2는 각각 미니 배치의 평균과 분산을 나타내며,
Figure pat00008
는 정규화 된 입력이고,
Figure pat00009
는 수치적 안정성을 위한 매우 작은 상수이며, y는 정규화된 입력
Figure pat00010
의 아핀 변환(affine transformation) 후 출력을 나타낸다. 트레이닝 도중에, 계층에 대한 입력 분포는 하위 계층의 매개 변수 변화에 관계없이 평균이 0이고 분산이 1인 표준정규분포로 변환된다. 또한, 필요한 경우 원래의 활성화를 복구하기 위해 2 개의 학습 가능한 매개 변수
Figure pat00011
Figure pat00012
를 가진 아핀(affine) 변환을 수행한다. BN은 트레이닝을 가속화하고 ImageNet 분류 작업에서 CNN(Convolution Neural Network)의 일반화(generalization) 성능을 개선시키는 것으로 확인된다.
피드 포워드 신경 네트워크에서의 BN의 효과에 따라, BN은 RNN의 트레이닝 속도를 높이고 일반화 성능을 개선시키기 위해 크게 두가지 방법으로 적용되고 있다. 한가지 방법은 BN에 의한 수평 연결의 반복적인 스케일 재조정이 사라지거나 폭발하는 그래디언트(gradient) 문제를 야기하기 때문에, BN은 수직 연결(또는 input-to-hidden)에만 적용되고, 수평 연결(또는 hidden-to-hidden연결)에는 적용되지 않는다. 또한, BN에 사용되는 평균 및 분산은 미니 배치 축뿐만 아니라 시간 축을 포함하여 계산되고 이를 이용하여 정규화를 수행하기 때문에 이를 "시퀀스별 정규화(sequence-wise normalization)"라고 불린다. 반면에, 다른 한 가지 방법인 "단계별 정규화(Step-wise normalization)"는 (1) 아핀 변환의 매개변수들을 적절하게 초기화함으로써 수직 연결뿐만 아니라 수직 연결에도 BN을 적용할 수 있고 이는 시간 경과에 따른 내부 공변량 변이를 줄이는 데 도움이 되고, (2) 각 시간 단계마다 계산되는 로컬 통계를 사용하여 초기 과도 위상 정보가 보존된다. 그러나, 이 방법에 있어서, 각 시간 단계에서 통계 추정은 트레이닝 및 테스트 시퀀스들의 길이가 다르기 때문에 시간이 지남에 따라 통계 추정의 정확도가 나빠진다. 트레이닝 중에, 미니 배치 구성을 위해 더 짧은 시퀀스에 대해서는 시퀀스가 끝난 뒤 0 또는 마지막 프레임을 패딩한다. 또한, 각 시간 단계에 대한 통계는 가장 긴 트레이닝 시퀀스 Tmax의 길이까지만 추정된다. 트레이닝 후에, 가장 긴 트레이닝 시퀀스 Tmax보다 긴 테스트 시퀀스에 대한 정확한 통계는 생성될 수 없게 된다. 이러한 한계점들을 성능 저하로 이어진다.
2. 계층 정규화(Layer Normalization)
"계층 정규화(Layer Normalizaiton, LN)"는 RNN에 적용할 때 BN의 한계를 극복하기 위해 도입되었다. LN은 단계별 정규화(step-wise normalization)와 동일한 형태이며, LN은 미니 배치가 아닌 공간 축에 대해 정규화된다는 점에서 차이가 있다. LN의 핵심은 한 레이어의 출력 변화가 다음 레이어의 합계 입력 변화와 밀접한 관련이 있다는 것이다. 따라서 LN은 각 계층의 모든 활성값(activation)를 사용하여 단일 트레이닝 데이터에 대한 통계를 추정한다. 미니배치가 아닌 계층에 대한 통계를 예측함으로써, LN은 미니배치의 시퀀스 길이 변화에 관계없이 각 시간 단계에서 통계를 적절하게 추정할 수 있게 된다. RNN을 사용한 실험에서 LN은, 특히, 긴 시퀀스 및 작은 미니 배치에 대해, 베이스 라인(baseline) 및 기타 정규화 방법보다 빠른 수렴과 좋은 성능의 일반화를 달성할 수 있게 되었다.
그러나 LN은 CNN(Convolution Neural Network)에는 잘 작동하지 않는다. LN은 정규화가 없는 베이스라인(baseline)보다 좋지만 BN보다 좋지는 않다. 그 이유는 레이어 내의 뉴런들은 특징지도의 공간 토폴로지로 인해 각각 가지고 있는 통계가 다르므로, 같은 레이어 내에 존재하는 뉴런들이 비슷한 통계를 가진다는 LN의 중심 가정은 CNN에서는 맞지 않기 때문이라고 추정된다.
3. 모델
A. 게이티드 순환유닛(Gated Recurrent Unit, GRU)
순환 연결을 추가하여 피드 포워드 네트워크에서 확장된 순환 신경망(Recurrent Neural network, RNN)은 순차적 데이터를 처리할 수 있다. RNN은 입력 레이어(input layer) x, 히든 레이어(hidden layer) h 및 출력 레이어(output layer) y의 3 개의 계층으로 구성된다. RNN은 순차적 데이터를 처리 할 수 있다. 왜냐하면, 히든 레이어는 다음 식과 같이 순환 연결(recurrent connection)을 통해 입력 레이어로부터 현재 입력과 이전 상태에 대한 정보를 모두 받기 때문이다.
Figure pat00013
여기서
Figure pat00014
Figure pat00015
는 각각 히든 레이어와 출력 레이어에 대한 요소별 비선형 활성화 함수(element-wise non-linear activation function)이고, W, U 및 b는 RNN의 학습가능한 파라미터로써, 각각 순방향 연결 가중치(forward connection weight), 순환 연결 가중치(recurrent connection weight) 및 바이어스(biases)를 나타낸다.
그러나 표준 RNN은 그래디언트(gradient)의 소멸 및 폭발적 발산의 문제 때문에 장기 종속성(long-term dependencies)을 잘 포착하지 못한다. Gated Recurrent Unit(GRU)는 사라지는 그래디언트 문제를 극복하기 위해서 적용되는 모델로, LSTM (long shortterm memory)과 동일한 게이팅 메커니즘을 사용하지만, 출력 게이트를 제거하고 LSTM의 다른 부분을 수정하여 더욱 단순한 아키텍처를 가지고 있다. 구체적으로, GRU는 리셋 게이트(reset gate) r 및 업데이트 게이트(update gate) z라는 2 개의 게이팅 유닛(gating unit)을 갖는다. 각 시간 단계 t에서의 히든 상태(hidden state) ht는 업데이트 게이트 zt에 의해 결정된 적응적 시간 상수(adaptive time constant)를 갖는 리키 적분기(leaky integrator)를 통해 계산된다. 다시 말하면, 히든 상태 ht는 업데이트 게이트 z를 가중치로하여 이전의 히든 상태 ht-1과 후보 히든 상태(candidate)사이의 선형 보간(linear interpolation)을 하여 산출되는 값이며, 다음과 같은 수식으로 정의된다.
Figure pat00016
Figure pat00017
여기에서,
Figure pat00018
는 시그모이드(sigmoid) 함수이고,
Figure pat00019
는 요소별 곱셈(element-wise multiplication)을 나타낸다.
각 시간단계 t에서의 후보 히든 상태
Figure pat00020
는 수식(5)의 표준 RNN에서의 히든 레이어의 경우와 유사하게 계산된다. 그러나, 표준 RNN과 다른 점은, 이전 히든 상태 ht-1가 후보 히든 상태
Figure pat00021
에 얼마나 영향을 미치는지가 리셋 게이트 r에 의해 결정된다는 점이며, 이는 아래의 수식으로 표현된다.
Figure pat00022
B. 공간 도메인에서 게이티드 순환유닛의 정규화 (Gated Recurrent Unit Normalization in the Spatial domain)
본 실시예에서는 순환 배치 정규화(순환 BN)와 계층 정규화(LN)를 GRU에 적용한다. 위에서 검토한 시간 영역에서 정규화와 구별을 위해, 본 실시예에서는 순환 BN 및 LN이 "공간적" 정규화 방법으로 언급된다. 아래의 방정식은 공간 영역에서 GRU 정규화를 나타낸다.
Figure pat00023
여기서
Figure pat00024
은 순환 BN 및 LN에 대해 2 개의 학습 가능한 파라미터(게인
Figure pat00025
및 바이어스
Figure pat00026
)에 대한 아핀 변환에 따른 정규화(normalization)을 나타내고,
Figure pat00027
Figure pat00028
와 유사하지만 같은 수식 내 바이어스의 중복을 피하기 위해 게인(gain)
Figure pat00029
에 대해서만 아핀변환을 한 것이다. 이와 같은 이유로, 원래의 GRU 방정식에서 바이어스는 제거되게 된다.
C. 적응형 디트렌딩(Adaptive Detrending)
단계별 방식(step-wise manner)으로 정규화함으로써, 공간 영역 정규화 방법이 언어 모델링과 같은 복잡한 순차적 태스크에서 학습을 가속화하고 성능을 향상이 가능해진다. 그러나 공간 정규화 방법에는 한계가 있다. 초기 과도 현상(transient)을 포착하기 위해 각 시간별 통계는 현재 뉴런 활성값만을 기반으로 추정된다. 현재 단계의 RNN의 실제 통계는 본질적으로 이전 단계의 통계에 의존하기 때문에, 이와 같은 방식은 RNN에는 적합하지 않다. 따라서, RNN에 대한 통계 추정(statistics estimation)은 RNN이 시간에 따라 통계를 생성하는 방법을 고려해야 한다. 특히 현재 추정(current estimation)은 다음 추정에 영향을 주어야 한다. 이것은 이동 평균(Moving Average, MA)와 유사한 형태이다.
통계에서, MA는 변동(fluctuation)을 필터링하여 잡음 시계열(noisy time series)에서 장기 추세(long-term trend)를 추출하는데 사용된다. 단순 이동 평균 (Simple Moving Average, SMA) 및 지수 이동 평균 (Exponential Moving Average, EMA)을 포함하여 MA의 많은 변형이 있다. 이러한 변형 중에서 EMA는 과거 데이터가 시간이 지남에 따라 기하 급수적으로 감소하기 때문에 MA가 최근 데이터에 신속하게 응답해야 할 때 사용된다. 또한 SMA와 달리, EMA는 윈도우 쉬프팅(Window Shifting)으로 인한 중복 계산을 필요로 하지 않으며 재귀적 공식화(recursive formulation)로 인해 시계열(time series)의 모든 과거 이력을 포함하게 된다. 시간 단계 t에서의 EMA
Figure pat00030
의 값은 다음과 같이 계산된다.
Figure pat00031
여기에서,
Figure pat00032
는 현재 입력값을 나타내고,
Figure pat00033
는 0과 1사이의 감쇠계수(decay factor) 또는 평활계수(smoothing factor)이다.
디트렌딩(Detrending)는 시계열을 정상상태(stationary) 시계열로 만들기 위해 천천히 변화하는 구성 요소, 즉, "트렌드(trend)"를 제거하는 방법이다. 시간 경과에 따른 내부 공변량 변이(Internal Covariate Shift)의 제거를 위해 RNN에 디트렌딩을 적용할 수 있다. 수식 (8)의 업데이트 게이트 값이 감쇠계수
Figure pat00034
가 고정되어 있지 않고 각 시간 단계에서 연속적으로 변화하는 값처럼 취급하면, 수식 (15)의 EMA의 정의는 수식 (7)의 GRU의 히든 상태(hidden state) h의 정의와 동일해지게 된다. 따라서, 히든 상태 h를 후보 히든 상태(candidate hidden state)
Figure pat00035
의 트렌드인 것으로 취급함으로써, 다음과 같이 시간 정규화(temporal normalization)를 위한 디트렌딩을 수행할 수 있게 된다.
Figure pat00036
여기에서, yt는 시간 단계 t에서의 디트렌딩된 출력이며 동시에 다음 계층의 입력이 된다.
위와 같은 공식에 의한 트렌드 분석 방법을 "적응형 디트렌딩(Adaptive Detrending, AD)라고 명명하였으며, 이는 추세를 예측하기 위해 사전 정의 된 설정을 사용하는 기존의 트렌드 추정 방법과 차이가 있다. AD는 다음과 같은 이점이 있다. 첫째, 통계 추정(Statistics Estimation)이 이미 GRU 계산의 일부로 포함되어 있기 때문에 추가적인 계산 및 메모리 요구 사항이 거의 필요하지 않다. 둘째, AD는 완전히 미분가능하다. 모델 폭발(model explosion)을 방지하기 위해 그래디언트 디센트 최적화(gradient descent optimization)에 통계 추정과 정규화가 포함되어야하기 때문에, 미분가능성은 신경망의 활성값를 정규화하기 위해 필요하다. 셋째, AD는 각 시간 단계 및 각 샘플에서 감쇠 계수를 적용하여 트렌드의 모양(shape)을 자동으로 추정한다. 따라서, 트렌드 피팅 함수를 정의하는 방법(예 : 선형, 다항식 또는 이동 평균)이나 트렌드 피팅 함수의 매개 변수를 설정하는 방법 (예 : 이동 평균의 윈도우 크기)을 고려할 필요가 없어지게 된다. 또한 AD에 의해 추정된 트렌드는 시간, 뉴런 및 샘플에 대한 디트렌딩도(degree of detrending)의 컨트롤(control)로 작동하게 된다. 이는 고정된 디트렌딩도(fixed degree of detrending)가 시간, 뉴런 및 표본에 따라 변화하는 유의미한 주파수(informative frequency) 성분의 손실을 유발할 수 있기 때문에 중요하다. 마지막으로, AD는 정규화를 위해 시간 도메인을 사용하여 샘플단위(sample-wise) 및 뉴런단위(neuron-wise) 정규화를 할 수 있게 된다. BN과 달리, AD의 샘플단위 정규화(sample-wise normalization)는 미니 배치(mini-batch)의 샘플 간의 종속성을 제거하므로, AD는 제약없이 RNN에 적용될 수 있다. 또한, LN과 달리, AD의 뉴런 단위 정규화(neuron-wise normalization)는 뉴런이 유사한 통계(예 : MLP)를 가지고 있는지, 아니면 유사하지 않은 통계(예 : CNN)를 가지고 있는지 여부에 상관없이 신경망에 적용될 수 있다.
다른 공간 정규화 방법과 달리, AD 후에는 아핀 변환(affin transformation)을 적용할 필요가 없다. AD는 그 자체로 시간에 따라 그리고 샘플들 사이에서 변화하는 게인
Figure pat00037
및 바이어스
Figure pat00038
를 갖는 각 뉴런에 대한 아핀 변환을 따르는 시간 정규화기(temporal normalizer)로 작용하기 때문이다.
D. 컨볼루션 게이티드 순환유닛 (Convolutional Gated Recurrent Unit, ConvGRU)
컨볼루션 게이티드 순환유닛(ConvGRU)은 CNN(Convolution Neural Network)의 컨벌루션 특성을 이용한 GRU의 자연스러운 확장(natural extension)이며 다음과 같이 정의된다.
Figure pat00039
여기에서, *는 컨벌루션 연산을 나타낸다. ConvGRU와 GRU의 주요 차이점은 ConvGRU가 공간 토폴로지(spatial topology)를 보존한다는 점이며, 이는 2D 특징맵(feature map) 상에서 2D 가중치 커널(weight kernel)을 이용한 컨볼루션 연산자를 이용한다는 점 때문이다. 또한 ConvGRU는 공간 도메인에 직접 적용될 때 GRU와 비교하여 파라미터의 갯수가 대폭 줄어든다. 공간 정규화 방법(spatial normalization method)과 AD는 모두 GRU와 동일한 방식으로 ConvGRU에 적용될 수 있다
4. 컨볼루션 순환유닛 디트렌딩 방법 및 컨볼루션 순환유닛 장치
도 2는 본 발명의 일 실시예에 따른, 컨볼루션 게이티드 순환유닛장치(100)에 의한 컨볼루션 게이티드 순환유닛 디트렌딩방법을 설명하기 위해 제공되는 흐름도이다. 컨볼루션 게이티드 순환유닛장치(100)는 리셋 게이트(reset gate) 및 업데이트 게이트(update gate)를 포함한다.
컨볼루션 게이티드 순환유닛장치(100)는 앞서 설명한 것과 같이 먼저 입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출한다(S210).
앞에서 설명한 바와 같이, 컨볼루션 게이티드 순환유닛장치(100)는 업데이트 게이트를 가중치로하여 이전의 히든 상태와 후보 히든 상태 사이를 선형보간(linear interpolation)함으로써 히든 상태를 산출하며, 업데이트 게이트 zt 및 히든상태 ht를 수식 (18) 및 수식 (20)을 이용하여 산출한다.
또한, 컨볼루션 게이티드 순환유닛장치(100)는 후보 히든상태가 이전 히든 상태가 미치는 영향의 정도가 리셋 게이트에 의해 결정되게 한다. 이 때, 컨볼루션 게이티드 순환유닛장치(100)는 리셋 게이트 rt 및 후보 히든상태
Figure pat00040
를 수식(17) 및 수식 (19)를 이용하여 산출하게 된다.
그 다음, 컨볼루션 게이티드 순환유닛장치(100)는 산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행한다(S220). 구체적으로, 컨볼루션 게이티드 순환유닛장치(100)는 후보 히든상태와 히든상태의 차를 구하는 벡터 연산을 함으로써 디트렌딩을 수행하게 되며, 이 때 수식 (16)을 이용하게 된다.
그 후에, 컨볼루션 게이티드 순환유닛장치(100)는 디트렌딩된 결과를 출력값으로 출력하게 된다(S230).
이하에서는 도 3을 참고하여, 컨볼루션 게이티드 순환유닛장치(100)의 구성을 설명한다. 도 3은 본 발명의 일 실시예에 따른, 적응형 디트렌딩이 적용된 컨볼루션 게이티드 순환유닛장치(100)의 구조를 도시한 도면이다.
도 3에 도시된 바와 같이, 컨볼루션 게이티드 순환유닛장치(100)는 입력부(110), 이전 히든상태부(120), 리셋 게이트(130), 업데이트 게이트(140), 후보 히든상태부(150), 히든상태부(160), 및 출력부(170)를 포함한다.
도 3에서, 회색 모듈과 검정색 라인은 게이티드 순환유닛의 표준에 해당되는 부분이고, 빨간색 모듈 및 빨간색 라인은 적응형 디트렌딩을 위해 추가된 부분을 나타낸다. 또한, 실선은 가중 곱셈 연산자(weight multiplication operation)을 나타내고, 점선은 요소별 곱셈(element-wise multiplication) 연산자를 나타낸다.
도 3에 따르면, 입력부(110)의 입력값과 이전 히든상태부(120)의 이전 히든상태를 이용하여, 리셋 게이트부(130)와 업데이트 게이트부(140)의 값들이 결정되는 것을 확인할 수 있다.
그리고, 후보 히든상태부(150)에는 입력부(110)의 값이 입력되고, 리셋게이트부(130)와 이전 히든상태부(120)의 값이 곱해져서 입력되는 것을 확인할 수 있다. 또한, 히든상태부(160)에는 후보 히든상태부(150)의 값과 업데이트 게이트부(140)의 값이 곱해져서 입력되고, 이전 히든상태부(120)의 값과 업데이트 게이트부(140)의 값이 곱해져서 입력되는 것을 확인할 수 있다.
즉, 리셋게이트부(130)에서는 수식 (17)이 수행되고, 업데이트 게이트부(140)에서는 수식 (18)이 수행되며, 후보 히든상태부(150)에서는 수식 (19)가 수행되며, 히든상태부(160)에서는 수식 (20)이 수행된다.
또한, 출력부(170)의 값은 후보 히든상태부(150)의 값과 히든 상태부(160)의 값의 차가 되는 것을 확인할 수 있으며, 이 과정이 디트랜딩이 수행되는 부분임을 확인할 수 있다. 즉, 출력부(170)에서는 수식 (16)이 수행되게 된다.
이와 같이, 리셋 게이트(130), 업데이트 게이트(140), 후보 히든상태부(150), 히든상태부(160)를 포함하는 게이트 방식이 적용되는 순환유닛(Recurrent Unit)은 입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하고, 산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하게 된다.
그리고, 출력부(170)는 디트렌딩된 결과를 출력값으로 출력하게 된다.
이와 같은 구성의 컨볼루션 게이티드 순환유닛장치(100)가 앞서 설명한 적응형 디트렌딩이 적용될 수 있음을 확인할 수 있다.
5. 업데이트 게이트 바이어스의 초기화
LSTM(long short term memory)의 가중치 및 바이어스를 작은 난수로 초기화 할 때 포겟 게이트 바이어스(Forget Gate bias)를 큰 양수 값(일반적으로 1 또는 2)으로 초기화하는 것은 LSTM에서 널리 사용되는 트릭(trick)이다. 반면, LSTM의 포켓 게이트 바이어스를 작은 난수로 초기화하여 포겟 게이트(forget gate)가 0.5로 설정되면 초기 정보는 시간이 지남에 따라 기하 급수적으로 감소하게 된다. 이와 같은 바이어스 초기화 트릭(bias initialization trick)을 사용하면 LSTM의 성능과 수렴 속도가 향상된다. 특히 장기 종속성(long-term dependencies)이 주요한 경우에는 더욱 중요하다.
게이티드 순환유닛(GRU)의 경우, 큰 음의 값으로 업데이트 게이트 바이어스(update gate bias)를 초기화하면 LSTM의 바이어스 초기화 트릭과 동일한 효과를 얻을 수 있다. 바이어스 초기화 트릭의 효과를 확인하기 위해 베이스라인 모델 (정규화가 없는 ConvGRU)과 적응형 디트렌딩(AD)에서 서로 다른 초기값(0과 -2)의 업데이트 게이트 바이어스를 적용하여 수렴 속도를 비교하여 도 4와 같은 그래프를 얻을 수 있었다. 도 4는 본 발명의 일 실시예에 따른, 바이어스 초기화 트릭의 효과를 비교한 그래프이다. 베이스라인 모델과 적응형 디트렌딩(AD) 모두 업데이트 게이트 바이어스가 0이 아닌 -2로 초기화된 경우에 수렴 속도가 향상된 것으로 확인된다. 하지만, 도 4에 도시된 바와 같이, 베이스라인 모델의 경우보다 적응형 디트렌딩(AD)이 적용된 경우가 초기값에 -2를 적용함으로써 수렴 속도가 더 빨라진 것을 확인할 수 있다. 즉, 바이어스 초기화 트릭의 효과는 적응형 디트렌딩을 적용한 경우 그 효과가 더 뛰어나다는 것을 확인할 수 있다.
또한, 도 4에서 확인할 수 있듯이, 3개의 상이한 스플릿에 대해 트레이닝된 수렴 그래프의 분산은 0의 바이어스 초기값을 적용한 적응형 디트렌딩(AD)의 경우가 0 및 음의 바이어스 초기값을 적용한 베이스 라인 모델의 경우 및 음의 바이어스 초기값을 적용한 적응형 디트렌딩(AD)의 경우보다 크다.
이 결과는 (1) 업데이트 게이트의 바이어스 무작위 초기화(Random initialization)가 적응형 디트렌딩(AD)에서 매우 느리고 불안정한 학습을 야기하며, (2) 업데이트 게이트 바이어스를 음의 값으로 초기화하는 바이어스 초기화 트릭이 적응형 디트렌딩(AD)의 성능에 베이스라인의 경우보다 더 큰 영향을 미친다는 것을 나타낸다.
따라서, 컨볼루션 게이티드 순환유닛장치(100)는 업데이트 게이트의 바이어스 초기값을 음의 값(특히, -2)로 설정하게 된다.
6. 결론
본 발명은 시간 경과에 따른 내부 공변량 변이를 제거하여 순환 신경망 (RNN)의 트레이닝을 가속화하기 위한 새로운 시간 정규화(temporal normalization) 방법인 "적응형 디트렌딩 (adaptive detrending, AD)"이 적용된 컨볼루션 게이티드 순환유닛장치(100)를 제안하였다. RNN의 트레이닝을 가속화하기 위해 배치 정규화(BN)를 확장하는 몇 가지 정규화 방법이 제안되었지만, 이러한 방법은 공간 영역만을 사용하고 통계 추정을 위해 시간 영역을 무시하기 때문에 문제가 있었다. 하지만, 본 실시예에 따른, AD는 gated recurrent unit(GRU)의 히든 상태(hidden state)를 기하 급수적인 이동 평균(exponential moving average)을 가진 트렌드로 취급하였다. 이러한 방식에 간단한 수정을 통해 GRU에 AD를 구현할 수 있게 되었다. AD는 다른 정규화 방법에 비해 몇 가지 장점이 있다. AD는 계산 및 메모리 요구 사항 측면에서 매우 효율적이고; 수동 매개 변수 설정이 필요한 기존의 디트렌딩 분석 방법과 달리, 트렌드가 학습을 통해 자동으로 추정되며; 배치 정규화(BN) 또는 계층 정규화(LN)와 달리, AD는 GRU 및 ConvGRU 모두에 일반적으로 적용 할 수 있다.
본 실시예에 따른 AD를 영상인식에 적용한 실험에 따르면, (1) 컨볼루션 GRU(ConvGRU)는 문맥 인식(contextual recognition)에 매우 중요한 능력인 시간 정보처리 능력(temporal processing capability)이 피드 포워드 신경망(feed-forward neural network)보다 더 높고 (2) AD는 베이스라인(baseline) 및 공간 정규화 방법(spatial normalization method)보다 지속적으로 빠른 수렴(convergence)과 더 나은 일반화(generalization) 성능을 제공한다는 것을 확인할 수 있었다. 또한, 바이어스 초기화 트릭(bias initialization trick), 특히 GRU의 업데이트 게이트(update gate)에 대한 마이너스 바이어스 초기화가 적응형 디트렌딩(AD)를 사용했을때 발생되는 느리고 불안정한 학습 문제를 해결하는 데 도움이 된다는 것을 재발견하였다. 정성 분석 결과, AD는 내부 공변량 변이을 제거하여 가속화된 트레이닝을 제공할 수 있음을 확인할 수 있다. 마찬가지로 AD는 성능 향상을 위해 시간, 뉴런 및 샘플에 대한 디트렌딩도(degree of detrending)를 제어할 수도 있게 된다. 또한 AD는 공간 정규화 방법과도 잘 작동한다. 특히 CNN의 경우, LN과 AD를 같이 사용하면 AD에 의한 뉴런단위 정규화(neuron-wise normalization)가 LN의 한계를 극복할 수 있게 해준다.
결론적으로, AD는 기존의 정규화 방법과 강력한 시너지 효과를 보임과 동시에 추가 오버 헤드가 거의없이 트레이닝을 가속화함으로써, ConvGRU의 계산 부담을 실질적으로 완화해주게 된다. 이에 따라, AD는 ConvGRU 및 변형 모델들이 가지는 풍부한 시공간 처리 능력을 활용하려는 연구에 도움이 될 수 있다. 또한, AD는 음성 인식에도 적용될 수 있다. 스텝단위(step-wise) BN과 LN은 음성 신호의 동적 특성(dynamics)을 잃을 수 있기 때문에 음성 인식에 적용하기가 어렵다. 시퀀스단위(sequence-wise) BN 접근법은 음성 신호의 동적 특성을 보존함으로써 음성 인식에서의 훈련 및 성능 향상을 가속화할 수는 있으나, 시간에 관계없이 고정된 정규화도만을 제공하므로 내부 공변량 변이 제거에 한계가 있다. 하지만, AD는 디트렌딩도(degree of detrending)에 대한 자동 제어가 가능하므로 음성 신호의 동적특성의 보존과 내부 공변량 변이의 감소 사이의 균형을 유지하여, 음성 인식에서도 더 나은 정규화를 제공할 수 있게 된다.
한편, 본 실시예에서는 신경망이 컨볼루션 게이티드 순환유닛 (convolutional gated recurrent unit, ConvGRU)에 적용되는 디트렌딩 장치 및 디트렌딩 방법의 경우에 대해 설명하였으나, 이는 일 실시예에 불과하며, 게이트 방식이 적용된 순환 신경망에 적용되는 디트렌딩 장치 및 디트렌딩 방법이라면 모두 적용될 수 있음은 물론이다. 예를 들어, 게이트 방식이 적용된 순환 신경망은 게이티드 순환유닛(gated recurrent unit, GRU), 컨볼루션 게이티드 순환유닛 (convolutional gated recurrent unit, ConvGRU), 롱숏텀 메모리(long short term memory, LSTM) 및 컨볼루션 롱숏텀 메모리((convolutional long short term memory, ConvLSTM) 중 어느 하나가 될 수 있다.
한편, 본 실시예에 따른 장치의 기능 및 방법을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 프로그래밍 언어 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 플래시 메모리, 솔리드 스테이트 디스크(SSD) 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물은 다른 유형의 디지털 전자 회로로구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다.
따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 본 발명이속하는 분야의 통상의 기술자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 컨볼루션 게이티드 순환유닛장치
110 : 입력부
120 : 이전 히든상태부
130 : 리셋 게이트
140 : 업데이트 게이트
150 : 후보 히든상태부
160 : 히든상태부
170 : 출력부

Claims (12)

  1. 게이트 방식이 적용된 순환 신경망(Recurrent Neural Network)에 적용되는 디트렌딩방법에 있어서,
    입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하는 단계;
    산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하는 단계; 및
    디트렌딩된 결과를 출력값으로 출력하는 단계;를 포함하는 게이티드 순환 신경망 디트렌딩방법.
  2. 청구항 1에 있어서,
    디트렌딩을 수행하는 단계는,
    후보 히든상태와 히든상태를 벡터 연산함으로써 디트렌딩을 수행하는 것을 특징으로 하는 게이티드 순환 신경망 디트렌딩방법.
  3. 청구항 2에 있어서,
    게이티드 순환 신경망은, 리셋 게이트(reset gate) 및 업데이트 게이트(update gate)를 포함하는 것을 특징으로 하는 게이티드 순환 신경망 디트렌딩방법.
  4. 청구항 3에 있어서,
    산출단계는,
    업데이트 게이트를 가중치로하여 이전의 히든 상태와 후보 히든 상태 사이를 선형보간(linear interpolation)함으로써 히든 상태를 산출하는 것을 특징으로 하는 게이티드 순환 신경망 디트렌딩방법.
  5. 청구항 4에 있어서,
    산출단계는,
    업데이트 게이트 zt 및 히든상태 ht를 아래의 수식을 이용하여 산출하는 것을 특징으로 하는 게이티드 순환 신경망 디트렌딩방법.
    Figure pat00041

    Figure pat00042

  6. 청구항 5에 있어서,
    후보 히든 상태는,
    이전 히든 상태가 미치는 영향의 정도가 리셋 게이트에 의해 결정되는 것을 특징으로 하는 게이티드 순환 신경망 디트렌딩방법.
  7. 청구항 6에 있어서,
    산출단계는,
    리셋 게이트 rt 및 후보 히든상태
    Figure pat00043
    를 아래의 수식을 이용하여 산출하는 것을 특징으로 하는 게이티드 순환 신경망 디트렌딩방법.
    Figure pat00044

    Figure pat00045

  8. 청구항 7에 있어서,
    디트렌딩을 수행하는 단계는,
    아래의 수식을 이용하여 디트렌딩을 수행하는 것을 특징으로 하는 게이티드 순환 신경망 디트렌딩방법.
    Figure pat00046

  9. 청구항 3에 있어서,
    업데이트 게이트는, 바이어스(bias) 초기값이 음의 값으로 설정되는 것을 특징으로 하는 게이티드 순환 신경망 디트렌딩방법.
  10. 청구항 1에 있어서,
    게이트 방식이 적용된 순환 신경망은,
    게이티드 순환유닛(gated recurrent unit, GRU), 컨볼루션 게이티드 순환유닛 (convolutional gated recurrent unit, ConvGRU), 롱숏텀 메모리(long short term memory, LSTM), 컨볼루션 롱숏텀 메모리(convolutional long short term memory, ConvLSTM) 및 게이티드 방식이 적용된 순환 신경망 중 어느 하나인 것을 특징으로 하는 게이티드 순환 신경망 디트렌딩방법.
  11. 게이트 방식이 적용된 순환 신경망(Recurrent Neural Network)에 적용되는 디트렌딩방법에 있어서,
    입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하는 단계;
    산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하는 단계; 및
    디트렌딩된 결과를 출력값으로 출력하는 단계;를 포함하는 게이티드 순환 신경망 디트렌딩방법을 수행하는 컴퓨터 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체.
  12. 게이트 방식이 적용된 순환 신경망(Recurrent Neural Network)에 적용되는 디트렌딩장치에 있어서,
    입력값을 이용하여 히든 상태(hidden state) 및 후보 히든상태(candidate hidden state)를 산출하고, 산출된 히든 상태와 후보 히든상태를 이용하여 디트렌딩(detrending)을 수행하는 게이트 방식이 적용되는 순환유닛(Recurrent Unit); 및
    디트렌딩된 결과를 출력값으로 출력하는 출력부;를 포함하는 게이티드 순환 신경망 디트렌딩장치.
KR1020170125841A 2017-09-28 2017-09-28 게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체 KR102051706B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170125841A KR102051706B1 (ko) 2017-09-28 2017-09-28 게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170125841A KR102051706B1 (ko) 2017-09-28 2017-09-28 게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체

Publications (2)

Publication Number Publication Date
KR20190036672A true KR20190036672A (ko) 2019-04-05
KR102051706B1 KR102051706B1 (ko) 2019-12-05

Family

ID=66103879

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170125841A KR102051706B1 (ko) 2017-09-28 2017-09-28 게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체

Country Status (1)

Country Link
KR (1) KR102051706B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223517A (zh) * 2019-06-20 2019-09-10 青岛科技大学 基于时空相关性的短时交通流量预测方法
CN110334845A (zh) * 2019-04-30 2019-10-15 江南大学 一种基于gru溶解氧长时间预测方法
CN112001482A (zh) * 2020-08-14 2020-11-27 佳都新太科技股份有限公司 振动预测及模型训练方法、装置、计算机设备和存储介质
CN113792860A (zh) * 2021-09-15 2021-12-14 中国人民解放军陆军军医大学第二附属医院 基于常微分方程的gru网络模型及特征提取方法、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chung, Junyoung, et al. "Empirical evaluation of gated recurrent neural networks on sequence modeling." arXiv preprint arXiv:1412.3555. 2014.12.11.* *
Dai, Xingyuan, et al. Deeptrend: A deep hierarchical neural network for traffic flow prediction. arXiv preprint arXiv:1707.03213. 2017.7.11.* *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334845A (zh) * 2019-04-30 2019-10-15 江南大学 一种基于gru溶解氧长时间预测方法
CN110223517A (zh) * 2019-06-20 2019-09-10 青岛科技大学 基于时空相关性的短时交通流量预测方法
CN110223517B (zh) * 2019-06-20 2021-05-18 青岛科技大学 基于时空相关性的短时交通流量预测方法
CN112001482A (zh) * 2020-08-14 2020-11-27 佳都新太科技股份有限公司 振动预测及模型训练方法、装置、计算机设备和存储介质
CN112001482B (zh) * 2020-08-14 2024-05-24 佳都科技集团股份有限公司 振动预测及模型训练方法、装置、计算机设备和存储介质
CN113792860A (zh) * 2021-09-15 2021-12-14 中国人民解放军陆军军医大学第二附属医院 基于常微分方程的gru网络模型及特征提取方法、装置

Also Published As

Publication number Publication date
KR102051706B1 (ko) 2019-12-05

Similar Documents

Publication Publication Date Title
JP6877558B2 (ja) 音声ウェイクアップ方法、装置及び電子デバイス
US20200293890A1 (en) One-shot learning for neural networks
CN109190537B (zh) 一种基于掩码感知深度强化学习的多人物姿态估计方法
KR20190036672A (ko) 게이티드 순환 신경망 디트렌딩방법, 디트렌딩 장치 및 기록매체
Jung et al. Adaptive detrending to accelerate convolutional gated recurrent unit training for contextual video recognition
Han et al. Sequential kernel density approximation through mode propagation: Applications to background modeling
US11270124B1 (en) Temporal bottleneck attention architecture for video action recognition
CN111274789B (zh) 文本预测模型的训练方法及装置
KR102093577B1 (ko) 학습네트워크를 이용한 예측 영상 생성 방법 및 예측 영상 생성 장치
CN113168559A (zh) 机器学习模型的自动化生成
US20190114532A1 (en) Apparatus and method for convolution operation of convolution neural network
US10334202B1 (en) Ambient audio generation based on visual information
US11450096B2 (en) Systems and methods for progressive learning for machine-learned models to optimize training speed
US11574193B2 (en) Method and system for training of neural networks using continuously differentiable models
Xu et al. Temporally adaptive restricted Boltzmann machine for background modeling
Jie et al. Anytime recognition with routing convolutional networks
KR20200010971A (ko) 광학 흐름 추정을 이용한 이동체 검출 장치 및 방법
WO2022205416A1 (zh) 一种基于生成式对抗网络的人脸表情生成方法
Zheng et al. Hand segmentation based on improved gaussian mixture model
KR20220011208A (ko) 신경망 트레이닝 방법, 비디오 인식 방법 및 장치
CN113537455A (zh) 突触权重训练方法、电子设备和计算机可读介质
CN117173607A (zh) 多层级融合多目标跟踪方法、系统及计算机可读存储介质
CN110147768B (zh) 一种目标跟踪方法及装置
Munir et al. Background subtraction in videos using LRMF and CWM algorithm
CN110874553A (zh) 一种识别模型训练方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right