KR20180065498A

KR20180065498A - 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법

Info

Publication number: KR20180065498A
Application number: KR1020160166455A
Authority: KR
Inventors: 최영식; 신민규; 황금별
Original assignee: 한국항공대학교산학협력단
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2018-06-18

Abstract

딥 신경망 학습 방법에 관한 것이며, 딥 신경망 학습 방법은, (a) 모바일 에이전트에 입력된 현재 입력 영상 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상 각각을 입력 값으로 하는 복수의 컨볼루션 신경망(CNN) 각각에 대하여 CNN 출력 값을 산출하는 단계, (b) 상기 현재 입력 영상 직전의 이전 시퀀스 입력 영상에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(Convolution LSTM)에 대한 LSTM 출력 값과 상기 현재 입력 영상에 대한 CNN 출력 값을 입력 값으로 하여, 상기 현재 입력 영상에 대한 LSTM 출력 값을 산출하는 단계 및 (c) 상기 현재 입력 영상에 대한 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN)를 통해, 상기 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성하는 단계를 포함할 수 있다.

Description

딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법 {METHOD FOR DEEP LEARNING AND METHOD FOR GENERATING NEXT PREDICTION IMAGE USING THE SAME}

본원은 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법에 관한 것이다.

모바일 에이전트는 사용자의 목적에 따라 작업을 수행하기 위해 프로그램 자체가 네트워크를 통해 동적으로 이동하는 구조의 에이전트로서, 최근에는 이러한 모바일 에이전트를 이용한 무인기, 차량 등의 자율 운행(비행, 주행)에 대해 많은 연구가 이루어지고 있다.

이와 관련하여, 최근에는 모바일 에이전트의 자체 움직임(자세, 속도) 데이터와 영상 입력을 지도학습으로 맵핑시키는 방법(P. Agrawal, et al., "Learning to See by Moving", ICCV (International Conference on Computer Vision), Dec, 2015.)이 제안된 바 있으나, 이는 영상으로부터 직접적으로 자세와 속도를 구하는 것의 정확도가 떨어지는 문제가 있다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 모바일 에이전트의 자율적 운동(예를 들어, 비행, 주행)에 필요한 시각적 특징을 실제 영상과 제어 신호 데이터만을 이용하여 비지도 학습(unsupervised learning) 방식으로 추출할 수 있는 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법을 제공하려는 것을 목적으로 한다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 모바일 에이전트가 움직일 때 다음 영상을 예측함으로써 예측된 결과를 모바일 에이전트의 다음 움직임에 대한 의사 결정시 사용하려는 것을 목적으로 한다.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 딥 신경망 학습 방법은, (a) 모바일 에이전트에 입력된 현재 입력 영상 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상 각각을 입력 값으로 하는 복수의 컨볼루션 신경망(CNN) 각각에 대하여 CNN 출력 값을 산출하는 단계, (b) 상기 현재 입력 영상 직전의 이전 시퀀스 입력 영상에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(Convolution LSTM)에 대한 LSTM 출력 값과 상기 현재 입력 영상에 대한 CNN 출력 값을 입력 값으로 하여, 상기 현재 입력 영상에 대한 LSTM 출력 값을 산출하는 단계 및 (c) 상기 현재 입력 영상에 대한 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN)를 통해, 상기 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성하는 단계를 포함할 수 있다.

또한, 상기 현재 입력 영상보다 n만큼 이전의 시퀀스 입력 영상을 Ⅰ_t-n이라 할 때, 상기 (b) 단계에서, 상기 Ⅰ_t-n의 LSTM 출력 값은 Ⅰ_t-n-1에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(Convolution LSTM)에 대한 LSTM 출력 값과 상기 Ⅰ_t-n에 대한 CNN 출력 값을 입력 값으로 하여 산출될 수 있다.

또한, 상기 현재 입력 영상에 대한 LSTM 출력 값은, 상기 현재 입력 영상 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상에 대응하는 상기 모바일 에이전트의 움직임에 대한 정보를 포함하는 시각적 특징 벡터일 수 있다.

또한, 상기 컨볼루션 신경망의 출력 값은, 특징 맵의 크기를 줄이고, 상기 컨볼루션 신경망에 입력되는 입력 영상의 정보를 포함하는 시각적 특징 벡터일 수 있다.

또한, 상기 (c) 단계는, (c1) 상기 (b) 단계에서 산출된 상기 현재 입력 영상에 대한 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력 값으로 하여, 상기 공간 변형 네트워크에 포함된 로컬라이저를 통해 상기 현재 입력 영상과 상기 모바일 에이전트의 다음 입력 영상 간의 영상 움직임 차이를 나타내는 어파인(Affine) 행렬을 생성하는 단계, (c2) 상기 어파인 행렬 및 상기 현재 입력 영상을 그리드 제너레이터(grid generator)의 입력 값으로 하여 상기 현재 입력 영상과 상기 다음 입력 영상 간의 픽셀 위치를 맵핑하는 단계 및 (c3) 상기 공간 변형 네트워크에 포함된 샘플러를 통해 상기 맵핑에 따라 상기 다음 예측 영상을 생성하는 단계를 포함할 수 있다.

또한, 상기 복수의 컨볼루션 신경망 각각에는 동일한 가중치가 부여되고, 상기 복수의 컨볼루션 장단기기억 각각에는 동일한 가중치가 부여될 수 있다.

또한, 본원의 일 실시예에 따른 딥 신경망 학습 방법은, (d) 상기 (c) 단계에서 생성된 다음 예측 영상 및 상기 모바일 에이전트의 다음 입력 영상을 상호 대비한 결과를 이용하여 상기 딥 신경망 학습시 이용되는 가중치를 업데이트하는 단계를 더 포함할 수 있다.

또한, 상기 업데이트된 가중치에 의해, 상기 (c) 단계에서 상기 다음 예측 영상이 상기 다음 입력 영상에 보다 가깝게 생성되도록 어파인(Affine) 행렬이 보정될 수 있다.

한편, 본원의 일 실시예에 따른 딥 신경망 학습 기반의 다음 예측 영상 생성 방법은, (a) 모바일 에이전트에 입력된 현재 입력 영상을 입력 값으로 하는 컨볼루션 신경망(CNN)에 대한 CNN 출력 값을 산출하는 단계, (b) 상기 CNN 출력 값을 컨볼루션 장단기기억(Convolution LSTM)에 대한 입력 값으로 하여, 상기 현재 입력 영상에 대한 LSTM 출력 값을 산출하는 단계 및 (c) 상기 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN)를 통해, 상기 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성하는 단계를 포함할 수 있다.

또한, 상기 컨볼루션 신경망의 출력 값은, 특징 맵의 크기를 줄이고, 상기 현재 입력 영상의 정보를 포함하는 시각적 특징 벡터일 수 있다.

또한, 상기 (a) 단계에서, 상기 CNN 출력 값은 딥 신경망 학습에 의하여 상기 현재 입력 영상에 대응하는 컨볼루션 신경망에 대해 업데이트된 CNN 가중치를 사용하여 산출되고, 상기 (b) 단계에서, 상기 LSTM 출력 값은 딥 신경망 학습에 의하여 상기 현재 입력 영상에 대응하는 컨볼루션 장단기기억에 대해 업데이트된 LSTM 가중치를 사용하여 산출될 수 있다.

또한, 상기 현재 입력 영상에 대응하는 CNN 가중치는, 하나 이상의 이전 시퀀스 입력 영상에 대응하는 컨볼루션 신경망 각각의 가중치와 동일하게 부여된 가중치이고, 상기 현재 입력 영상에 대응하는 LSTM 가중치는, 하나 이상의 이전 시퀀스 입력 영상에 대응하는 컨볼루션 장단기기억 각각의 가중치와 동일하게 부여된 가중치일 수 있다.

한편, 본원의 일 실시예에 따른 딥 신경망 학습 장치는, 모바일 에이전트에 입력된 현재 입력 영상 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상 각각을 입력 값으로 하는 복수의 컨볼루션 신경망(CNN) 각각에 대하여 CNN 출력 값을 산출하는 CNN 출력 값 산출부, 상기 현재 입력 영상 직전의 이전 시퀀스 입력 영상에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(Convolution LSTM)에 대한 LSTM 출력 값과 상기 현재 입력 영상에 대한 CNN 출력 값을 입력 값으로 하여, 상기 현재 입력 영상에 대한 LSTM 출력 값을 산출하는 LSTM 출력 값 산출부 및 상기 현재 입력 영상에 대한 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN)를 통해, 상기 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성하는 다음 예측 영상 생성부를 포함할 수 있다.

또 다른 한편, 본원의 일 실시예에 따른 딥 신경망 학습 기반의 다음 예측 영상 생성 장치는, 모바일 에이전트에 입력된 현재 입력 영상을 입력 값으로 하는 컨볼루션 신경망(CNN)에 대한 CNN 출력 값을 산출하는 CNN 출력 값 산출부, 상기 CNN 출력 값을 컨볼루션 장단기기억(Convolution LSTM)에 대한 입력 값으로 하여, 상기 현재 입력 영상에 대한 LSTM 출력 값을 산출하는 LSTM 출력 값 산출부 및 상기 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN)를 통해, 상기 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성하는 다음 예측 영상 생성부를 포함할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법을 제공함으로써, 모바일 에이전트의 자율적 운동(예를 들어, 비행, 주행)에 필요한 시각적 특징을 실제 영상과 제어 신호 데이터만을 이용하여 비지도 학습(unsupervised learning) 방식으로 추출할 수 있는 효과가 있다.

전술한 본원의 과제 해결 수단에 의하면, 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법을 통해 모바일 에이전트가 움직일 때 다음 영상을 예측하고 예측된 결과를 모바일 에이전트의 다음 움직임에 대한 의사 결정시 사용함으로써 신속하게 움직일 수 있는 효과가 있다.

전술한 본원의 과제 해결 수단에 의하면, 딥 신경망 학습을 통해 모바일 에이전트가 스스로 운동에 필요한 시각적 특징을 추출하고 다음 영상을 예측할 수 있는 효과가 있다.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.

도 1은 본원의 일 실시예에 따른 딥 신경망 학습 장치를 개략적으로 나타낸 블록도이다.
도 2는 본원의 일 실시예에 따른 딥 신경망 학습 장치에 의한 딥 신경망 학습 방법을 설명하기 위한 도면이다.
도 3은 본원의 일 실시예에 따른 딥 신경망 학습 장치에 의한 딥 신경망 학습에 기초하여 다음 예측 영상을 생성하는 방법을 설명하기 위한 도면이다.
도 4는 본원의 일 실시예에 따른 딥 신경망 학습 방법에 대한 동작 흐름도이다.
도 5는 본원의 일 실시예에 따른 딥 신경망 학습 기반의 다음 예측 영상 생성 방법에 대한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

본원은 모바일 에이전트의 카메라로부터 입력된 현재 입력 영상과 현재 입력 영상에 대응하는 모바일 에이전트의 제어 신호(control signal)를 이용하여, 모바일 에이전트에 입력되는 다음 입력 영상을 예측할 수 있는 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법에 관한 기술이다.

도 1은 본원의 일 실시예에 따른 딥 신경망 학습 장치(100)를 개략적으로 나타낸 블록도이다.

도 1 및 도 2를 참조하면, 본원의 일 실시예에 따른 딥 신경망 학습 장치(100)는 CNN 출력 값 산출부(110), LSTM 출력 값 산출부(120) 및 다음 예측 영상 생성부(130)를 포함할 수 있다.

본격적인 설명에 앞서 간단히 살펴보면, 본원의 일 실시예에 따른 딥 신경망 학습 장치(100)는, 제안하는 딥 신경망의 구조에 컨볼루션 장단기기억(Convolution LSTM)의 요소가 포함됨에 따라, 신경망 학습이 수행될 때에는 신경망의 구조가 일예로 도 2와 같을 수 있고, 모바일 에이전트로부터 수신되는 현재 입력 영상에 대한 다음 입력 영상을 실시간으로 예측하고자 하는 경우에는 신경망의 구조가 일예로 도 3과 같을 수 있다.

본원의 일 실시예에 따른 딥 신경망 학습 장치(100)는 딥 신경망 학습을 수행하기 위해, 후술할 도 3과 같은 상태의 딥 신경망 구조에서 컨볼루션 장단기기억(41')을 언폴드(unfold)함으로써 도 2와 같은 상태의 딥 신경망 구조를 유지할 수 있다. 이를 통해, 딥 신경망 학습 장치(100)는 다음 예측 영상(60)과 모바일 에이전트에 입력되는 다음 입력 영상(70) 간의 차이를 역전파(backpropagation)할 수 있다.

딥 신경망 학습을 위해 컨볼루션 장단기기억(41')을 언폴드하는 경우, 딥 신경망 학습 장치(100)는 컨볼루션 신경망(CNN)과 컨볼루션 장단기기억(LSTM) 각각을 모바일 에이전트로부터 획득한 복수의 입력 영상(21, …, 29)의 수에 대응하는 개수만큼 생성할 수 있다. 즉, 딥 신경망 학습 장치(100)는 복수의 입력 영상(21, …, 29) 각각에 대응하는 복수의 컨볼루션 신경망(

, …,

) 및 복수의 컨볼루션 장단기기억(

, …,

)을 생성할 수 있다. 여기서, 복수의 컨볼루션 신경망 각각은 복수의 입력 영상 각각을 입력 값으로 하고, 복수의 컨볼루션 장단기기억 각각은 해당 입력 영상에 대응하는 컨볼루션 신경망의 출력 값과 해당 입력 영상의 이전 입력 영상에 대응하는 컨볼루션 장단기기억의 출력 값을 입력 값으로 할 수 있다. 다만, 복수의 입력 영상 중 가장 먼저 입력된 입력 영상에 대응하는 컨볼루션 장단기기억은 해당 입력 영상에 대응하는 컨볼루션 신경망의 출력 값만을 입력 값으로 할 수 있다. 또한, 여기서, 딥 신경망 학습 장치(100)는 복수의 컨볼루션 신경망 각각에 동일하게 부여된 가중치 및 복수의 컨볼루션 장단기기억 각각에 동일하게 부여된 가중치에 기초하여, 신경망 학습을 수행할 수 있다. 또한, 딥 신경망 학습 장치(100)는 복수의 입력 영상 중 가장 마지막에 입력된 입력 영상(즉, 현재 입력 영상)에 대응하는 컨볼루션 장단기기억의 출력 값과 마지막에 입력된 입력 영상에 대응하는 모바일 에이전트의 제어 신호를 공간 변형 네트워크(STN)의 입력 값으로 하여, 현재 입력 영상의 다음 입력 영상을 예측한 다음 예측 영상을 생성할 수 있다. 이후, 모바일 에이전트로부터 실시간으로 수신되는 현재 입력 영상에 대한 다음 입력 영상을 예측하고자 하는 경우에는 딥 신경망 구조에 포함된 컨볼루션 장단기기억(41')이 도 3과 같이 언폴드(unfold)하지 않은 상태에서 다음 입력 영상에 대한 예측을 수행할 수 있다. 보다 구체적인 설명은 다음과 같다.

도 2는 본원의 일 실시예에 따른 딥 신경망 학습 장치(100)에 의한 딥 신경망 학습 방법을 설명하기 위한 도면이다.

도 2를 참조하면, CNN 출력 값 산출부(110)는 컨볼루션 신경망(Convolutional Neural Network, CNN)에 대한 출력 값을 산출하며, CNN 출력 값 산출부(110)는 딥 신경망 학습을 수행할 때, 모바일 에이전트의 카메라(10)를 통해 입력된 현재 입력 영상(21) 및 하나 이상의 이전 시퀀스 입력 영상(22, …, 29)을 포함하는 복수의 입력 영상(21, …, 29) 각각을 입력 값으로 하는 복수의 컨볼루션 신경망(Convolutional Neural Network, CNN)(31, …, 39) 각각에 대하여 CNN 출력 값을 산출할 수 있다. 여기서, 컨볼루션 신경망(31, …, 39) 각각의 출력 값은, 향후 사용할 특징 맵(feature map)의 크기를 줄이고, 컨볼루션 신경망(31, …, 39)에 입력되는 각각의 입력 영상의 정보를 포함하는 시각적 특징 벡터(

)를 나타낼 수 있다.

LSTM 출력 값 산출부(120)는 컨볼루션 장단기기억(Convolution Long Short Term Memory, Convolution LSTM)에 대한 출력 값을 산출하며, LSTM 출력 값 산출부(120)는 현재 입력 영상(21) 직전의 이전 시퀀스 입력 영상(22)에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억에 대한 LSTM 출력 값과 현재 입력 영상(21)에 대한 CNN 출력 값을 입력 값으로 하여, 현재 입력 영상(21)에 대한 LSTM 출력 값을 산출할 수 있다. 즉, LSTM 출력 값 산출부(120)는 현재 입력 영상(21) 직전의 이전 시퀀스 입력 영상(22)에 대한 컨볼루션 신경망(32)의 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(42)의 출력 값과 현재 입력 영상(21)에 대한 컨볼루션 신경망(31)의 출력 값을 입력 값으로 하여, 현재 입력 영상(21)에 대한 컨볼루션 장단기기억(41)의 출력 값을 산출할 수 있다.

달리 표현하여, LSTM 출력 값 산출부(120)는, 딥 신경망 학습을 수행함에 있어서 복수의 입력 영상(21, …, 29) 중 일예로 t 시간에 입력된 입력 영상(21)에 대응하는 컨볼루션 장단기기억(41)의 출력 값을 산출할 때, t-1 시간에 입력된 입력 영상(22)에 대응하는 컨볼루션 장단기기억(42)의 출력 값과 t 시간에 입력된 입력 영상(21)에 대응하는 컨볼루션 신경망(31)의 출력 값을 컨볼루션 장단기기억(41)의 입력 값으로 하여 산출할 수 있다.

또한, 현재 입력 영상보다 n만큼 이전의 시퀀스 입력 영상을 Ⅰ_t-n(24)이라 할 때, LSTM 출력 값 산출부(120)는 Ⅰ_t-n(24)의 LSTM 출력 값(즉, 컨볼루션 장단기기억(44)의 출력 값)을 산출할 때, Ⅰ_t-n-1(25)에 대한 CNN 출력 값(즉, 컨볼루션 신경망(35)의 출력 값)을 입력 값으로 하는 컨볼루션 장단기기억에 대한 LSTM 출력 값(즉, 컨볼루션 장단기기억(45)의 출력 값)과 Ⅰ_t-n(24)에 대한 CNN 출력 값(즉, 컨볼루션 신경망(34)의 출력 값)을 입력 값으로 하여 산출할 수 있다.

다만, 이때, Ⅰ_t-n(25)가 복수의 입력 영상 중 가장 앞선 입력 영상일 경우에는, Ⅰ_t-n(25) 보다 이전의 시퀀스 입력 영상이 존재하지 않을 수 있다. 이러한 경우, LSTM 출력 값 산출부(120)는 Ⅰ_t-n(25)에 대한 CNN 출력 값을 입력 값으로 하여 Ⅰ_t-n(25)의 LSTM 출력 값을 산출할 수 있다. 달리 말해, 도 2와 같은 경우에는

(29)가 복수의 입력 영상(21, …, 29) 중 가장 앞선 입력 영상일 수 있으며, 이러한 경우,

(29) 보다 이전의 시퀀스 입력 영상은 존재하지 않을 수 있다. 이때, LSTM 출력 값 산출부(120)는

(29)에 대한 컨볼루션 신경망(39)의 출력 값을 컨볼루션 장단기기억(49)의 입력 값으로 하여

(29)에 대한 컨볼루션 장단기기억(49)의 출력 값을 산출할 수 있다.

또한, 현재 입력 영상(21)에 대한 LSTM 출력 값(즉, 컨볼루션 장단기기억(41)의 출력 값)은, 현재 입력 영상(21) 및 하나 이상의 이전 시퀀스 입력 영상(22, …, 29)을 포함하는 복수의 입력 영상(21, …, 29)에 대응하는 모바일 에이전트의 움직임에 대한 정보를 포함하는 시각적 특징 벡터를 나타낼 수 있다. 달리 표현하여, 컨볼루션 장단기기억(41, …, 49) 각각의 출력 값은 현재 입력 영상과 이전 시퀀스 입력 영상에 대한 정보를 포함하는 시각적 특징 벡터(

)를 나타낼 수 있으며, 이는 모바일 에이전트의 움직임에 대한 정보를 포함할 수 있다.

다음 예측 영상 생성부(130)는 현재 입력 영상(21)에 대한 LSTM 출력 값(즉, 컨볼루션 장단기기억(41)의 출력 값)과 현재 입력 영상(21)을 수신할 때의 모바일 에이전트의 제어 신호(control signal)(a, 5)를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN, 50)를 통해, 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성할 수 있다.

구체적으로, 공간 변형 네트워크(50)는 로컬라이저(localizer, 51), 그리드 제너레이터(grid generator, GG, 53) 및 샘플러(Sampler, 54)를 포함할 수 있다.

로컬라이저(51)는 현재 입력 영상(21)에 대응하는 컨볼루션 장단기기억(41)의 출력 값과 현재 입력 영상(21)을 수신할 때의 모바일 에이전트의 제어 신호(5)를 입력 값으로 수신할 수 있으며, 이를 통해 현재 입력 영상(21)과 모바일 에이전트로부터 입력되는 다음 입력 영상(Ⅰ_t+1, 70) 간의 영상 움직임 차이(예를 들어, 회전, 이동, 기울기 등)를 나타내는 어파인 변환 행렬(Affine transformation matrix , T_t, 52)을 생성할 수 있다.

로컬라이저(51)는, 모바일 에이전트에 입력된 현재 입력 영상(21)이 다음에 입력될 다음 입력 영상(70)과 얼마나 다른지를 하기 수학식 1과 같은 어파인 변환 행렬(52)로 나타낼 수 있다.

[수학식 1]

또한, 로컬라이저(51)는 상기 수학식 1을 통해 어파인 변환 행렬(52)을 현재 입력 영상(21)의 정보를 포함하는 시각적 특징 벡터(

)로서 출력할 수 있다.

이후, 그리드 제너레이터(53)는, 생성된 어파인 변환 행렬(52)과 현재 입력 영상(21)을 입력 값으로 수신할 수 있으며, 이를 통해 현재 입력 영상(21)과 다음 입력 영상(

, 70) 간의 픽셀 위치를 하기 수학식 2와 같이 맵핑할 수 있다.

[수학식 2]

이후, 샘플러(54)는 그리드 제너레이터(53)의 맵핑에 따라 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상(60)을 하기 수학식 3과 같이 생성할 수 있으며, 샘플러(54)는 공간 변형 네트워크(50)의 출력 값으로서 다음 예측 영상(60)을 출력할 수 있다.

[수학식 3]

한편, 본원의 일 실시예에 따른 딥 신경망 학습 장치(100)는, 딥 신경망 학습을 수행함에 있어서, 복수의 컨볼루션 신경망(31, …, 39) 각각에 동일한 가중치를 부여하고, 복수의 컨볼루션 장단기기억(41, …, 49) 각각에 동일한 가중치를 부여할 수 있다. 또한, 본원의 일 실시예에 따른 딥 신경망 학습 장치(100)는 후술할 가중치 업데이트부(미도시)를 통해 가중치를 업데이트할 때에도 복수의 컨볼루션 신경망 각각에 동일한 가중치가 부여되도록 가중치를 보정하면서 딥 신경망 학습을 수행하고, 복수의 컨볼루션 장단기기억 각각에도 동일한 가중치가 부여되도록 가중치를 보정하면서 딥 신경망 학습을 수행할 수 있다. 이에 따라, 딥 신경망 학습 장치(100)는 모바일 에이전트로부터 실시간으로 수신되는 현재 입력 영상에 대한 다음 입력 영상을 예측하고자 하는 경우에는 도 3과 같이 컨볼루션 장단기기억(41')을 언폴드할 필요 없이, 현재 입력 영상과 현재 입력 영상에 대응하는 모바일 에이전트의 제어 신호에, 딥 신경망 학습에 의하여 업데이트된 가중치 값을 적용함으로써, 모바일 에이전트에 현재 입력 영상의 다음으로 입력될 다음 입력 영상을 예측한 다음 입력 영상을 비지도 학습(unsupervised learning) 방식으로 생성할 수 있다.

본원의 일 실시예에 따른 딥 신경망 학습 장치(100)는 다음 예측 영상 생성부(130)에서 생성된 다음 예측 영상(60) 및 모바일 에이전트의 다음 입력 영상(70)을 상호 대비한 결과(즉, 상호 영상 간의 차)를 이용하여 딥 신경망 학습시 이용되는 가중치를 업데이트하는 가중치 업데이트부(미도시)를 포함할 수 있다. 이때, 가중치 업데이트부를 통해 업데이트된 가중치에 의하여, 다음 예측 영상 생성부(130)를 통해 생성되는 다음 예측 영상(60)이 모바일 에이전트에 입력되는 다음 입력 영상(70)에 보다 가깝게 생성되도록 어파인 변환 행렬(52)이 보정될 수 있다.

이러한 본원의 일 실시예에 따른 딥 신경망 학습 장치(100)는 현재 입력 영상(21)과 다음 입력 영상(70) 간의 차이를 올바르게 나타낼 수 있는 어파인 변환 행렬(52)을 추정할 수 있도록 딥 신경망 학습이 수행될 수 있다. 또한, 본원의 일 실시예에 따른 딥 신경망 학습 장치(100)는 올바른 어파인 변환 행렬(52)을 추정하기 위해, 복수의 입력 영상(21, …, 29)에 대한 영상 시퀀스로부터 모바일 에이전트의 움직임을 표현할 수 있는 시각 특징 벡터를 추출할 수 있도록 딥 신경망 학습이 수행될 수 있다.

이하에서는, 상기의 내용에 기초하여 딥 신경망 학습에 기초하여 다음 예측 영상을 생성하는 방법에 대하여 설명하기로 한다. 이때, 다음 예측 영상 생성 방법은 딥 신경망 학습 기반의 다음 예측 영상 생성 장치(100)에 의하여 수행될 수 있으며, 다음 예측 영상 생성 장치(100)는 상기에 설명한 딥 신경망 학습 장치(100)와 동일한 장치일 수 있다. 따라서, 다음 예측 영상 생성 장치(100)의 구성은 딥 신경망 학습 장치(100)의 구성과 동일할 수 있으며, 다만, 일부 구성의 역할이 상이할 수 있다. 이하 중복되는 내용에 대해서는 간단히 설명하기로 한다.

도 3은 본원의 일 실시예에 따른 딥 신경망 학습 장치(100)에 의한 딥 신경망 학습 에 기초하여 다음 예측 영상을 생성하는 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 본원의 일 실시예에 따른 딥 신경망 학습 기반의 다음 예측 영상 생성 장치(100)는 CNN 출력 값 산출부(110), LSTM 출력 값 산출부(120) 및 다음 예측 영상 생성부(130)를 포함할 수 있다.

CNN 출력 값 산출부(110)는 모바일 에이전트의 카메라(10)를 통해 입력된 현재 입력 영상(21')을 입력 값으로 하는 컨볼루션 신경망(31)에 대한 CNN 출력 값을 산출할 수 있다. 여기서, 컨볼루션 신경망(31)의 출력 값은, 특징 맵의 크기를 줄이고, 현재 입력 영상(21')의 정보를 포함하는 시각적 특징 벡터를 나타낼 수 있다.

또한, CNN 출력 값 산출부(110)를 통해 산출되는 CNN 출력 값은, 딥 신경망 학습에 의하여 현재 입력 영상(21')에 대응하는 컨볼루션 신경망(31)에 대해 업데이트된 CNN 가중치를 사용하여 산출될 수 있다. 다시 말해, CNN 출력 값 산출부(110)는 현재 입력 영상(21')에 대한 컨볼루션 신경망(31)의 출력 값을 산출할 때, 딥 신경망 학습에 의하여 업데이트된 CNN 가중치 값을 이용하여 산출할 수 있다. 여기서, 현재 입력 영상에 대응하는 CNN 가중치(즉, 딥 신경망 학습에 의하여 업데이트된 CNN 가중치)는, 하나 이상의 이전 시퀀스 입력 영상에 대응하는 컨볼루션 신경망 각각의 가중치와 동일하게 부여된 가중치일 수 있다.

LSTM 출력 값 산출부(120)는 CNN 출력 값 산출부(110)를 통해 산출된 현재 입력 영상(21')에 대한 컨볼루션 신경망(31)의 출력 값(즉, CNN 출력 값)을 입력 값으로 하여, 현재 입력 영상(21')에 대한 컨볼루션 장단기기억(41')의 출력 값(즉, LSTM 출력 값)을 산출할 수 있다. 이때, 컨볼루션 장단기기억(41')은 언폴드되지 않은 컨볼루션 장단기기억을 나타낸다. 또한, 현재 입력 영상(21')에 대한 LSTM 출력 값은, 현재 입력 영상(21') 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상에 대응하는 모바일 에이전트의 움직임에 대한 정보를 포함하는 시각적 특징 벡터를 나타낼 수 있다.

또한, LSTM 출력 값 산출부(120)를 통해 산출되는 LSTM 출력 값은, 딥 신경망 학습에 의하여 현재 입력 영상(21')에 대응하는 컨볼루션 장단기기억(41')에 대해 업데이트된 LSTM 가중치를 사용하여 산출될 수 있다. 다시 말해, LSTM 출력 값 산출부(120)는 현재 입력 영상(21')에 대한 컨볼루션 장단기기억(41')의 출력 값을 산출할 때, 딥 신경망 학습에 의하여 업데이트된 LSTM 가중치 값을 이용하여 산출할 수 있다. 여기서, 현재 입력 영상에 대응하는 LSTM 가중치(즉, 딥 신경망 학습에 의하여 업데이트된 LSTM 가중치)는, 하나 이상의 이전 시퀀스 입력 영상에 대응하는 컨볼루션 장단기기억 각각의 가중치와 동일하게 부여된 가중치일 수 있다.

다음 예측 영상 생성부(130)는 LSTM 출력 값 산출부(120)를 통해 산출된 LSTM 출력 값과 현재 입력 영상(21')을 수신할 때의 모바일 에이전트의 제어 신호(5')를 입력으로 하는 공간 변형 네트워크(50)를 통해, 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상(60')을 생성할 수 있다. 여기서, 공간 변형 네트워크(50)에 대한 설명은 앞서 자세히 설명했으므로, 이하에서는 간단히 살펴보기로 한다.

다음 예측 영상 생성부(130)에서 현재 입력 영상(21')과 모바일 에이전트의 제어 신호(5')에 기초하여 다음 예측 영상(60')을 생성하기 위해, 공간 변형 네트워크(50)에 포함된 로컬라이저(51)는 LSTM 출력 값 산출부(120)를 통해 산출된 LSTM 출력 값과 현재 입력 영상(21')을 수신할 때의 모바일 에이전트의 제어 신호(5')를 입력 값으로 수신할 수 있다. 이후, 로컬라이저(51)는 입력 값에 기초하여, 현재 입력 영상(21')과 모바일 에이전트의 다음 입력 영상 간의 영상 움직임 차이를 나타내는 어파인 변환 행렬(52)을 생성할 수 있다.

다음으로, 공간 변형 네트워크(50)에 포함된 그리드 제너레이터(53)는 생성된 어파인 변환 행렬(52)과 현재 입력 영상(21')을 입력 값으로 수신할 수 있으며, 수신된 입력 값에 기초하여 현재 입력 영상(21')과 모바일 에이전트의 다음 입력 영상 간의 픽셀 위치를 맵핑할 수 있다.

다음으로, 공간 변형 네트워크(50)에 포함된 샘플러(54)는 그리드 제너레이터(53)에 의한 맵핑에 따라 다음 예측 영상(60')을 생성할 수 있다.

이처럼, 본원의 일 실시예에 따른 딥 신경망 학습 기반의 다음 예측 영상 생성 장치(100)는 딥 신경망 학습에 의하여 업데이트된 가중치 값을 기반으로 하여, 현재 입력 영상(21')과 현재 입력 영상(21')을 수신할 때의 모바일 에이전트의 제어 신호(5')만을 이용하여 모바일 에이전트에 입력될 다음 입력 영상을 예측한 다음 예측 영상(60')을 생성할 수 있다.

본원의 일 실시예에 따른 딥 신경망 학습 장치(100)는 무인기, 자율 주행차 등의 모바일 에이전트가 입력된 영상으로부터 자율적 운동(예를 들어, 비행, 주행 등)에 필요한 시각적 특징을 추출하기 위하여, 현재 입력 영상과 현재 입력 영상이 입력되었을 때의 모바일 에이전트의 제어 신호를 이용하여 모바일 에이전트의 다음 입력 영상을 예측할 수 있는 딥 신경망 구조 및 그의 학습 방법을 제공한다. 또한, 본원의 일 실시예에 따른 딥 신경망 학습 기반의 다음 예측 영상 생성 장치(100)는 이렇게 학습된 딥 신경망에 기초하여 현재 입력 영상과 현재 입력 영상이 입력되었을 때의 모바일 에이전트의 제어 신호만을 이용하여 비지도 학습 방식으로 현재 입력 영상에서 시각적 특징을 자연스럽게 추출할 수 있다. 이러한 본원의 일 실시예에 따른 다음 예측 영상 생성 장치(100)는 모바일 에이전트가 움직일 때 다음 입력 영상이 어떻게 될 것인지를 예측할 수 있다. 또한, 딥 신경망 학습 장치(100)에 의하여 산출된 시각적 특징 벡터(예를 들어, 컨볼루션 신경망의 출력 값, 컨볼루션 장단기기억의 출력 값, 어파인 변환 행렬)는 모바일 에이전트의 제어 신호를 결정하기 위해 사용될 수 있으며, 또한, 모바일 에이전트가 움직일 때 다음 입력 영상을 예측할 때 사용하거나 예측한 다음 입력 영상(즉, 다음 예측 영상)을 통해 모바일 에이전트의 다음 움직임을 결정(즉, 모바일 에이전트의 다음 제어 신호를 결정)하는데 사용할 수 있다. 또한, 본원의 일 실시예에 따른 딥 신경망 학습 기반의 다음 예측 영상 생성 장치(100)는 모바일 에이전트가 스스로 운동에 필요한 시각적 특징을 추출하고 다음 입력 영상을 예측할 수 있도록 할 수 있다.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.

도 4는 본원의 일 실시예에 따른 딥 신경망 학습 방법에 대한 동작 흐름도이다.

도 4에 도시된 딥 신경망 학습 방법은 앞서 설명된 딥 신경망 학습 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 딥 신경망 학습 장치(100)에 대하여 설명된 내용은 도 4에도 동일하게 적용될 수 있다.

도 4를 참조하면, 단계S41에서는, 모바일 에이전트에 입력된 현재 입력 영상(21) 및 하나 이상의 이전 시퀀스 입력 영상(22, …, 29)을 포함하는 복수의 입력 영상(21, …, 29) 각각을 입력 값으로 하는 복수의 컨볼루션 신경망(31, …, 39) 각각에 대하여 CNN 출력 값을 산출할 수 있다. 여기서, 컨볼루션 신경망의 출력 값은, 특징 맵의 크기를 줄이고, 컨볼루션 신경망에 입력되는 입력 영상의 정보를 포함하는 시각적 특징 벡터를 의미할 수 있다. 또한, 복수의 컨볼루션 신경망(31, …, 39) 각각에는 동일한 가중치가 부여될 수 있다.

다음으로, 단계S42에서는, 복수의 컨볼루션 장단기기억(41, …, 49) 각각에 대하여 LSTM 출력 값을 산출할 수 있으며, 특히, 현재 입력 영상(21) 직전의 이전 시퀀스 입력 영상(22)에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(Convolution LSTM, 42)에 대한 LSTM 출력 값과 현재 입력 영상(21)에 대한 CNN 출력 값을 입력 값으로 하여, 현재 입력 영상(21)에 대한 LSTM 출력 값을 산출할 수 있다. 여기서, 복수의 컨볼루션 장단기기억(41, …, 49) 각각에는 동일한 가중치가 부여될 수 있다.

한편, 현재 입력 영상보다 n만큼 이전의 시퀀스 입력 영상을 Ⅰ_t-n(24)라 할 때, 단계S42에서, Ⅰ_t-n(24)의 LSTM 출력 값은 Ⅰ_t-n-1(25)에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(Convolution LSTM, 45)에 대한 LSTM 출력 값과 Ⅰ_t-n(24)에 대한 CNN 출력 값을 입력 값으로 하여 산출될 수 있다.

또한, 단계S42에서, 현재 입력 영상(21)에 대한 LSTM 출력 값은, 현재 입력 영상(21) 및 하나 이상의 이전 시퀀스 입력 영상(22, …, 29)을 포함하는 복수의 입력 영상(21, …, 29)에 대응하는 모바일 에이전트의 움직임에 대한 정보를 포함하는 시각적 특징 벡터를 의미할 수 있다.

다음으로, 단계S43에서는, 현재 입력 영상(21)에 대한 LSTM 출력 값과 모바일 에이전트의 제어 신호(5)를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN, 50)를 통해, 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상(60)을 생성할 수 있다.

이때, 단계S43에서는, 단계S42에서 산출된 현재 입력 영상(21)에 대한 LSTM 출력 값과 모바일 에이전트의 제어 신호(5)를 입력 값으로 하여, 공간 변형 네트워크(50)에 포함된 로컬라이저(51)를 통해 현재 입력 영상(21)과 모바일 에이전트의 다음 입력 영상(70) 간의 영상 움직임 차이를 나타내는 어파인 변환 행렬(52)을 생성할 수 있다. 또한, 단계S43에서는, 어파인 변환 행렬(52) 및 현재 입력 영상(21)을 그리드 제너레이터(53)의 입력 값으로 하여 현재 입력 영상(21)과 다음 입력 영상(70) 간의 픽셀 위치를 맵핑할 수 있다. 또한, 단계S43에서는, 공간 변형 네트워크(50)에 포함된 샘플러(54)를 통해 상기 맵핑에 따라 다음 예측 영상(60)을 생성할 수 있다.

또한, 도면에 도시하지는 않았으나, 단계S43이후에는 단계S43에서 생성된 다음 예측 영상(60) 및 모바일 에이전트의 다음 입력 영상(70)을 상호 대비한 결과를 이용하여 딥 신경망 학습시 이용되는 가중치를 업데이트할 수 있다. 이때, 업데이트된 가중치에 의해, 단계S43에서는, 다음 예측 영상(60)이 다음 입력 영상(70)에 보다 가깝게 생성되도록 어파인 변환 행렬(52)이 보정될 수 있다.

상술한 설명에서, 단계 S41 내지 S43은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 5는 본원의 일 실시예에 따른 딥 신경망 학습 기반의 다음 예측 영상 생성 방법에 대한 동작 흐름도이다.

도 5에 도시된 딥 신경망 학습 기반의 다음 예측 영상 생성 방법은 앞서 설명된 딥 신경망 학습 기반의 다음 예측 영상 생성 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 딥 신경망 학습 기반의 다음 예측 영상 생성 장치(100)에 대하여 설명된 내용은 도 5에도 동일하게 적용될 수 있다.

도 5를 참조하면, 단계S51에서는, 모바일 에이전트에 입력된 현재 입력 영상(21')을 입력 값으로 하는 컨볼루션 신경망(CNN, 31)에 대한 CNN 출력 값을 산출할 수 있다. 이때, 컨볼루션 신경망(31)의 출력 값은, 특징 맵의 크기를 줄이고, 현재 입력 영상(21')의 정보를 포함하는 시각적 특징 벡터일 수 있다.

또한, 단계S51에서 CNN 출력 값은, 딥 신경망 학습에 의하여 현재 입력 영상(21')에 대응하는 컨볼루션 신경망(31)에 대해 업데이트된 CNN 가중치를 사용하여 산출될 수 있으며, 이때, 현재 입력 영상에 대응하는 CNN 가중치는, 하나 이상의 이전 시퀀스 입력 영상에 대응하는 컨볼루션 신경망 각각의 가중치와 동일하게 부여된 가중치일 수 있다.

다음으로, 단계S52에서는, 단계S51에서 산출된 CNN 출력 값을 컨볼루션 장단기기억(Convolution LSTM, 41')에 대한 입력 값으로 하여, 현재 입력 영상(21')에 대한 LSTM 출력 값을 산출할 수 있다. 이때, 컨볼루션 장단기기억(41')은 언폴드되지 않은 상태의 컨볼루션 장단기기억을 나타낸다. 또한, 여기서, 현재 입력 영상(21')에 대한 LSTM 출력 값은, 현재 입력 영상(21') 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상에 대응하는 모바일 에이전트의 움직임에 대한 정보를 포함하는 시각적 특징 벡터일 수 있다.

또한, 단계S52에서 LSTM 출력 값은, 딥 신경망 학습에 의하여 현재 입력 영상(21')에 대응하는 컨볼루션 장단기기억(41')에 대해 업데이트된 LSTM 가중치를 사용하여 산출될 수 있으며, 이때, 현재 입력 영상에 대응하는 LSTM 가중치는, 하나 이상의 이전 시퀀스 입력 영상에 대응하는 컨볼루션 장단기기억 각각의 가중치와 동일하게 부여된 가중치일 수 있다.

다음으로, 단계S53에서는, 단계S52에서 출력된 LSTM 출력 값과 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(50)를 통해, 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상(60')을 생성할 수 있다.

이때, 단계S53에서는, 단계S52에서 산출된 현재 입력 영상(21')에 대한 LSTM 출력 값과 모바일 에이전트의 제어 신호(5')를 입력 값으로 하여, 공간 변형 네트워크(50)에 포함된 로컬라이저(51)를 통해 현재 입력 영상(21')과 모바일 에이전트의 다음 입력 영상 간의 영상 움직임 차이를 나타내는 어파인 변환 행렬(52)을 생성할 수 있다. 또한, 단계S53에서는, 어파인 변환 행렬(52) 및 현재 입력 영상(21')을 그리드 제너레이터(53)의 입력 값으로 하여 현재 입력 영상(21')과 다음 입력 영상 간의 픽셀 위치를 맵핑할 수 있다. 또한, 단계S53에서는, 공간 변형 네트워크(50)에 포함된 샘플러(54)를 통해 상기 맵핑에 따라 다음 예측 영상(60')을 생성할 수 있다.

상술한 설명에서, 단계 S51 내지 S53은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

본원의 일 실시 예에 따른 딥 신경망 학습 방법 및 딥 신경망 학습 기반의 다음 예측 영상 생성 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

또한, 전술한 딥 신경망 학습 방법 및 딥 신경망 학습 기반의 다음 예측 영상 생성 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

100: 딥 신경망 학습 장치
110: CNN 출력 값 산출부
120: LSTM 출력 값 산출부
130: 다음 예측 영상 생성부

Claims

딥 신경망 학습 방법에 있어서,
(a) 모바일 에이전트에 입력된 현재 입력 영상 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상 각각을 입력 값으로 하는 복수의 컨볼루션 신경망(CNN) 각각에 대하여 CNN 출력 값을 산출하는 단계;
(b) 상기 현재 입력 영상 직전의 이전 시퀀스 입력 영상에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(Convolution LSTM)에 대한 LSTM 출력 값과 상기 현재 입력 영상에 대한 CNN 출력 값을 입력 값으로 하여, 상기 현재 입력 영상에 대한 LSTM 출력 값을 산출하는 단계; 및
(c) 상기 현재 입력 영상에 대한 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN)를 통해, 상기 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성하는 단계,
를 포함하는 딥 신경망 학습 방법.
제1항에 있어서,
상기 현재 입력 영상보다 n만큼 이전의 시퀀스 입력 영상을 Ⅰ_t-n이라 할 때,
상기 (b) 단계에서, 상기 Ⅰ_t-n의 LSTM 출력 값은 Ⅰ_t-n-1에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(Convolution LSTM)에 대한 LSTM 출력 값과 상기 Ⅰ_t-n에 대한 CNN 출력 값을 입력 값으로 하여 산출되는 것인, 딥 신경망 학습 방법.
제1항에 있어서,
상기 현재 입력 영상에 대한 LSTM 출력 값은, 상기 현재 입력 영상 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상에 대응하는 상기 모바일 에이전트의 움직임에 대한 정보를 포함하는 시각적 특징 벡터인 것인, 딥 신경망 학습 방법.
제1항에 있어서,
상기 컨볼루션 신경망의 출력 값은, 특징 맵의 크기를 줄이고, 상기 컨볼루션 신경망에 입력되는 입력 영상의 정보를 포함하는 시각적 특징 벡터인 것인, 딥 신경망 학습 방법.
제1항에 있어서,
상기 (c) 단계는,
(c1) 상기 (b) 단계에서 산출된 상기 현재 입력 영상에 대한 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력 값으로 하여, 상기 공간 변형 네트워크에 포함된 로컬라이저를 통해 상기 현재 입력 영상과 상기 모바일 에이전트의 다음 입력 영상 간의 영상 움직임 차이를 나타내는 어파인(Affine) 행렬을 생성하는 단계;
(c2) 상기 어파인 행렬 및 상기 현재 입력 영상을 그리드 제너레이터(grid generator)의 입력 값으로 하여 상기 현재 입력 영상과 상기 다음 입력 영상 간의 픽셀 위치를 맵핑하는 단계; 및
(c3) 상기 공간 변형 네트워크에 포함된 샘플러를 통해 상기 맵핑에 따라 상기 다음 예측 영상을 생성하는 단계,
를 포함하는 딥 신경망 학습 방법.
제1항에 있어서,
상기 복수의 컨볼루션 신경망 각각에는 동일한 가중치가 부여되고,
상기 복수의 컨볼루션 장단기기억 각각에는 동일한 가중치가 부여되는 것인, 딥 신경망 학습 방법.
제1항에 있어서,
(d) 상기 (c) 단계에서 생성된 다음 예측 영상 및 상기 모바일 에이전트의 다음 입력 영상을 상호 대비한 결과를 이용하여 상기 딥 신경망 학습시 이용되는 가중치를 업데이트하는 단계를 더 포함하는 딥 신경망 학습 방법.
제7항에 있어서,
상기 업데이트된 가중치에 의해, 상기 (c) 단계에서 상기 다음 예측 영상이 상기 다음 입력 영상에 보다 가깝게 생성되도록 어파인(Affine) 행렬이 보정되는 것인, 딥 신경망 학습 방법.
딥 신경망 학습 기반의 다음 예측 영상 생성 방법에 있어서,
(a) 모바일 에이전트에 입력된 현재 입력 영상을 입력 값으로 하는 컨볼루션 신경망(CNN)에 대한 CNN 출력 값을 산출하는 단계;
(b) 상기 CNN 출력 값을 컨볼루션 장단기기억(Convolution LSTM)에 대한 입력 값으로 하여, 상기 현재 입력 영상에 대한 LSTM 출력 값을 산출하는 단계; 및
(c) 상기 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN)를 통해, 상기 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성하는 단계,
를 포함하는 다음 예측 영상 생성 방법.
제9항에 있어서,
상기 현재 입력 영상에 대한 LSTM 출력 값은, 상기 현재 입력 영상 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상에 대응하는 상기 모바일 에이전트의 움직임에 대한 정보를 포함하는 시각적 특징 벡터인 것인, 다음 예측 영상 생성 방법.
제9항에 있어서,
상기 컨볼루션 신경망의 출력 값은, 특징 맵의 크기를 줄이고, 상기 현재 입력 영상의 정보를 포함하는 시각적 특징 벡터인 것인, 다음 예측 영상 생성 방법.
제9항에 있어서,
상기 (c) 단계는,
(c1) 상기 (b) 단계에서 산출된 상기 현재 입력 영상에 대한 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력 값으로 하여, 상기 공간 변형 네트워크에 포함된 로컬라이저를 통해 상기 현재 입력 영상과 상기 모바일 에이전트의 다음 입력 영상 간의 영상 움직임 차이를 나타내는 어파인(Affine) 행렬을 생성하는 단계;
(c2) 상기 어파인 행렬 및 상기 현재 입력 영상을 그리드 제너레이터(grid generator)의 입력 값으로 하여 상기 현재 입력 영상과 상기 다음 입력 영상 간의 픽셀 위치를 맵핑하는 단계; 및
(c3) 상기 공간 변형 네트워크에 포함된 샘플러를 통해 상기 맵핑에 따라 상기 다음 예측 영상을 생성하는 단계,
를 포함하는 다음 예측 영상 생성 방법.
제9항에 있어서,
상기 (a) 단계에서, 상기 CNN 출력 값은 딥 신경망 학습에 의하여 상기 현재 입력 영상에 대응하는 컨볼루션 신경망에 대해 업데이트된 CNN 가중치를 사용하여 산출되고,
상기 (b) 단계에서, 상기 LSTM 출력 값은 딥 신경망 학습에 의하여 상기 현재 입력 영상에 대응하는 컨볼루션 장단기기억에 대해 업데이트된 LSTM 가중치를 사용하여 산출되는 것인, 다음 예측 영상 생성 방법.
제13항에 있어서,
상기 현재 입력 영상에 대응하는 CNN 가중치는, 하나 이상의 이전 시퀀스 입력 영상에 대응하는 컨볼루션 신경망 각각의 가중치와 동일하게 부여된 가중치이고,
상기 현재 입력 영상에 대응하는 LSTM 가중치는, 하나 이상의 이전 시퀀스 입력 영상에 대응하는 컨볼루션 장단기기억 각각의 가중치와 동일하게 부여된 가중치인 것인, 다음 예측 영상 생성 방법.
딥 신경망 학습 장치에 있어서,
모바일 에이전트에 입력된 현재 입력 영상 및 하나 이상의 이전 시퀀스 입력 영상을 포함하는 복수의 입력 영상 각각을 입력 값으로 하는 복수의 컨볼루션 신경망(CNN) 각각에 대하여 CNN 출력 값을 산출하는 CNN 출력 값 산출부;
상기 현재 입력 영상 직전의 이전 시퀀스 입력 영상에 대한 CNN 출력 값을 입력 값으로 하는 컨볼루션 장단기기억(Convolution LSTM)에 대한 LSTM 출력 값과 상기 현재 입력 영상에 대한 CNN 출력 값을 입력 값으로 하여, 상기 현재 입력 영상에 대한 LSTM 출력 값을 산출하는 LSTM 출력 값 산출부; 및
상기 현재 입력 영상에 대한 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN)를 통해, 상기 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성하는 다음 예측 영상 생성부,
를 포함하는 딥 신경망 학습 장치.
딥 신경망 학습 기반의 다음 예측 영상 생성 장치에 있어서,
모바일 에이전트에 입력된 현재 입력 영상을 입력 값으로 하는 컨볼루션 신경망(CNN)에 대한 CNN 출력 값을 산출하는 CNN 출력 값 산출부;
상기 CNN 출력 값을 컨볼루션 장단기기억(Convolution LSTM)에 대한 입력 값으로 하여, 상기 현재 입력 영상에 대한 LSTM 출력 값을 산출하는 LSTM 출력 값 산출부; 및
상기 LSTM 출력 값과 상기 모바일 에이전트의 제어 신호를 입력으로 하는 공간 변형 네트워크(Spatial Transformer Networks, STN)를 통해, 상기 모바일 에이전트에 입력되는 다음 입력 영상으로 예측되는 다음 예측 영상을 생성하는 다음 예측 영상 생성부,
를 포함하는 다음 예측 영상 생성 장치.
제1항 내지 제14항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체.