KR20200132665A

KR20200132665A - 집중 레이어를 포함하는 생성기를 기반으로 예측 이미지를 생성하는 장치 및 그 제어 방법

Info

Publication number: KR20200132665A
Application number: KR1020200020271A
Authority: KR
Inventors: 장준익; 정재일; 홍종희
Original assignee: 삼성전자주식회사
Priority date: 2019-05-17
Filing date: 2020-02-19
Publication date: 2020-11-25
Also published as: US20210326650A1

Abstract

전자 장치가 개시된다. 본 전자 장치는, 입력된 하나 이상의 이미지를 기반으로 예측 이미지를 생성하도록 훈련된 생성기(Generator)가 저장된 메모리, 시간 별로 입력된 복수의 이미지 프레임을 생성기에 입력하여 예측 이미지 프레임을 생성하는 프로세서를 포함하고, 프로세서는, 생성기에 포함된 적어도 하나의 레이어를 통해 입력된 복수의 이미지 프레임으로부터 특징 데이터를 획득하고, 생성기에 포함된 집중 레이어를 통해 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터를 추출하고, 추출된 특징 데이터를 생성기에 포함된 적어도 하나의 다른 레이어에 입력하여 예측 이미지 프레임을 획득한다.

Description

집중 레이어를 포함하는 생성기를 기반으로 예측 이미지를 생성하는 장치 및 그 제어 방법 { ATTENTION LAYER INCLUDED GENERATOR BASED PREDICTION IMAGE GENERATING APPARATUS AND CONTROLLING METHOD THEREOF }

입력된 복수의 (과거) 이미지를 기반으로 예측 이미지를 생성하는 전자 장치가 개시된다. 보다 상세하게는, 집중 레이어를 자체적으로 포함하는 생성기 모델을 이용하는 전자 장치가 개시된다.

종래 과거의 순차적인 이미지 프레임들을 기반으로 다음에 이어질 예측 이미지 프레임을 생성하기 위한 인공지능 모델들이 고안되었다.

예를 들어, 생성적 적대 신경망(GAN. Generative Adversarial Network)을 통해 예측 이미지 프레임을 생성하는 생성기(Generator) 모델을 훈련시킬 수 있었다. 본 생성기 모델은, 예를 들어 CCTV를 통해 촬영된 비디오의 이상 감지(Anomaly Detection) 등에 사용될 수 있었다.

다만, 생성된 예측 이미지를 실제 이미지와 비교한 결과에 따라 재훈련되는 생성기 모델의 경우, 이미지 내 감시하고자 하는 타겟이 명확하게 특정되지 않는다는 문제가 있었다.

이를 해결하기 위해, 더 정확한 모션 패턴을 모델링하기 위한 Optical Flow 기반의 모델을 생성기 모델과 함께 사용하는 솔루션이 제안된 바 있다.([8], [9], [10])

다만, Optical Flow 기반의 모델을 이용하는 경우, 상황별로 달라지는 이미지들의 특성(예를 들어, 사람 중심의 상황과 자연 재해 중심의 상황 간 타겟의 차이)에 유연하게 대처하기 어려워 범용성이 떨어지고, 생성기 모델 외에 별도의 모델을 독립적으로 학습시켜야 하는 문제가 있었다.

[1] Vincent, P, Larochelle, H, Lajoie, I, Bengio, Y, & Manzagol, P. A (2010) Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion Journal of machine learning research, 11(Dec), 3371-3408 [2] O Ronneberger, P Fischer, and T Brox U-net: Convolutional networks for biomedical image segmentation In International Conference on Medical image computing and computer-assisted intervention, pages 234-241 Springer, 2015 [3] Goodfellow, I, Pouget-Abadie, J, Mirza, M, Xu, B, Warde-Farley, D, Ozair, S, & Bengio, Y (2014) Generative adversarial nets In Advances in neural information processing systems (pp 2672-2680) [4] M Ravanbakhsh, M Nabi, E Sangineto, L Marcenaro, C Regazzoni, and N Sebe Abnormal event detection in videos using generative adversarial nets In 2017 IEEE International Conference on Image Processing (ICIP), pages 1577-1581 IEEE, 2017.

[5] Bergmann, P, Lwe, S, Fauser, M, Sattlegger, D, & S t e g e r , C (2018) Improving Unsupervised Defect Segmentation by Applying Structural Similarity to Autoencoders arXiv preprint arXiv:180702011 [6] T Schlegl, P Seeb¨ock, S MWaldstein, U Schmidt-Erfurth, and G Langs Unsupervised anomaly detection with generative adversarial networks to guide marker discovery In International Conference on Information Processing in Medical Imaging, pages 146-157 Springer, 2017 [7] B Chen, W Wang, and J Wang Video imagination from a single image with transformation generation In Proceedings of the on Thematic Workshops of ACM Multimedia 2017, pages 358-366 ACM, 2017. [8] T-W Hui, X Tang, and C Change Loy Liteflownet: A lightweight convolutional neural network for optical flow estimation In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8981-89, 2018 [9] E Ilg, N Mayer, T Saikia, M Keuper, A Dosovitskiy, and T Brox Flownet 20: Evolution of optical flow estimation with deep networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2462- 2470, 2017. [10] A Dosovitskiy, P Fischer, E Ilg, P Hausser, C Hazirbas, V Golkov, P Van Der Smagt, D Cremers, and T Brox Flownet: Learning optical flow with convolutional networks In Proceedings of the IEEE international conference on computer vision, pages 2758-2766, 2015 [11] K Simonyan and A Zisserman Two-stream convolutional networks for action recognition in videos In Advances in neural information processing systems, pages 568-576, 2014 [12] W Liu,W Luo, D Lian, and S Gao Future frame prediction for anomaly detection-a new baseline. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6536-6545, 2018 [13] H Zhang, I Goodfellow, D Metaxas, and A Odena Selfattention generative adversarial networks arXiv preprint arXiv:1805.08318, 2018 [14] X Wang, R Girshick, A Gupta, and K He Non-local neural networks In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7794- 7803, 2018 [15] Zeng, K, Yu, J, Wang, R, Li, C, & Tao, D (2015) Coupled deep autoencoder for single image super-resolution IEEE transactions on cybernetics, 47(1), 27-37 [16] H Cai, C Bai, Y-W Tai, and C-K Tang. Deep video generation, prediction and completion of human action sequences. In Proceedings of the European Conference on Computer Vision (ECCV), pages 366-382, 2018. [17] Y S Chong and Y H Tay. Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks, pages 189-196 Springer, 2017 [18] W Luo,W Liu, and S Gao. Remembering history with convolutional lstm for anomaly detection. In 2017 IEEE International Conference on Multimedia and Expo (ICME), pages 439-444 IEEE, 2017 [19] C Lu, J Shi, and J Jia Abnormal event detection at 150 fps in matlab In Proceedings of the IEEE international conference on computer vision, pages 2720-2727, 2013. [20] V Mahadevan, W Li, V Bhalodia, and N Vasconcelos Anomaly detection in crowded scenes In 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 1975-1981 IEEE, 2010 [21] M Mathieu, C Couprie, and Y LeCun Deep multi-scale video prediction beyond mean square error arXiv preprint arXiv:1511.05440, 2015. [22] A Hore and D Ziou Image quality metrics: Psnr vs ssim. In 2010 20th International Conference on Pattern Recognition, pages 2366-2369 IEEE, 2010 [23] J Van Amersfoort, A Kannan, M Ranzato, A Szlam, D Tran, and S Chintala Transformation-based models of video sequences. arXiv preprint arXiv:1701.08435, 2017. [24] C Vondrick, H Pirsiavash, and A Torralba. Generating videos with scene dynamics. In Advances In Neural Information Processing Systems, pages 613-621, 2016 [25] C Vondrick and A Torralba. Generating the future with adversarial transformers. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1020-1028, 2017 [26] T Xue, J Wu, K Bouman, and B Freeman Visual dynamics: Probabilistic future frame synthesis via cross convolutional networks. In Advances in Neural Information Processing Systems, pages 91-99, 2016 [27] Y Yoo, S Yun, H Jin Chang, Y Demiris, and J Young Choi Variational autoencoded regression: high dimensional regression of visual data on complex manifold. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3674-3683, 2017 [28] M Hasan, J Choi, J Neumann, A K Roy-Chowdhury, and L.S Davis Learning temporal regularity in video sequences. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 733-742, 2016 [29] S Smeureanu, R T Ionescu, M Popescu, and B Alexe Deep appearance features for abnormal behavior detection in video. In International Conference on Image Analysis and Processing, pages 779-789 Springer, 2017 [30] R Hinami, T Mei, and S Satoh Joint detection and recounting of abnormal events by learning deep generic knowledge. In Proceedings of the IEEE International Conference on Computer Vision, pages 3619-3627, 2017 [31] R Tudor Ionescu, S Smeureanu, B Alexe, and M Popescu. Unmasking the abnormal events in video. In Proceedings of the IEEE International Conference on Computer Vision, pages 2895-2903, 2017 [32] W Luo,W Liu, and S Gao A revisit of sparse coding based anomaly detection in stacked rnn framework In Proceedings of the IEEE International Conference on Computer Vision, pages 341-349, 2017 [33] Christiansen, P, Nielsen, L, Steen, K, Jørgensen, R, & Karstoft, H (2016) DeepAnomaly: Combining background subtraction and deep learning for detecting obstacles and anomalies in an agricultural field Sensors, 16(11), 1904 [34] Basharat, A, Gritai, A, & Shah, M (2008, June). Learning object motion patterns for anomaly detection and improved object detection. In 2008 IEEE Conference on Computer Vision and Pattern Recognition (pp 1-8) IEEE.

본 개시는 집중 레이어를 자체적으로 포함하는 생성기 모델을 이용하여 예측 이미지 프레임을 생성하는 전자 장치를 제공한다.

구체적으로, 본 개시는, 과거의 순차적인 이미지 프레임들이 입력되기만 하면, End-to-End 방식으로 예측 이미지 프레임이 생성될 수 있도록 하는 생성기 모델을 이용하는 전자 장치를 제공한다.

본 개시의 일 실시 예에 따른 전자 장치는, 입력된 하나 이상의 이미지를 기반으로 예측 이미지를 생성하도록 훈련된 생성기(Generator)가 저장된 메모리, 시간 별로 입력된 복수의 이미지 프레임을 상기 생성기에 입력하여 예측 이미지 프레임을 생성하는 프로세서를 포함하고, 상기 프로세서는, 상기 생성기에 포함된 적어도 하나의 레이어를 통해 상기 입력된 복수의 이미지 프레임으로부터 특징 데이터를 획득하고, 상기 생성기에 포함된 집중 레이어(Attention Layer)를 통해 상기 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터를 추출하고, 상기 추출된 특징 데이터를 상기 생성기에 포함된 적어도 하나의 다른 레이어에 입력하여 상기 예측 이미지 프레임을 획득한다.

이때, 상기 프로세서는, 상기 복수의 이미지 프레임 다음으로 입력된 이미지 프레임 및 상기 예측 이미지 프레임을 비교한 결과를 기반으로, 상기 집중 레이어를 포함하는 상기 생성기를 훈련시킬 수 있다.

이 경우, 상기 복수의 이미지 프레임 각각은, 복수의 픽셀로 구성되고, 상기 집중 레이어는, 상기 적어도 하나의 레이어로부터 출력된 복수의 픽셀 별 특징 데이터 중 시간에 따른 변화가 나타날 것으로 예측되는 픽셀들의 특징 데이터를 추출하도록 훈련될 수 있다.

한편, 상기 메모리는, 입력된 이미지 프레임이 리얼(real) 이미지 프레임인지 또는 페이크(fake) 이미지 프레임인지 여부를 판단하도록 훈련된 판별기(Discriminator)를 포함할 수 있다. 이 경우, 상기 프로세서는, 상기 예측 이미지 프레임을 상기 판별기에 입력하여 획득된 출력을 기반으로, 상기 생성기를 훈련시킬 수 있다.

이때, 상기 복수의 이미지 프레임은 정상 상황(normal situation)에 대응되고, 상기 프로세서는, 시간 별로 촬영되는 복수의 이미지 프레임을 상기 생성기에 입력하여 예측 이미지 프레임을 생성하고, 상기 촬영된 복수의 이미지 프레임 다음에 촬영된 이미지 프레임 및 상기 생성된 예측 이미지 프레임을 기반으로, 이상 상황(abnormal situation)이 발생했는지 여부를 식별할 수 있다.

한편, 상기 생성기는, 상기 입력된 복수의 이미지 프레임에 대한 인코딩(Encoding)을 수행하기 위한 제1 신경망 및 상기 제1 신경망과 연결되어 상기 제1 신경망을 통해 인코딩된 데이터에 대한 디코딩(Decoding)을 수행하기 위한 제2 신경망을 포함하고, 상기 제1 신경망은 제1 집중 레이어를 포함하고, 상기 제2 신경망은 제2 집중 레이어를 포함하며, 상기 프로세서는, 상기 제1 집중 레이어를 통해 Max-pooling을 수행하고, 상기 제2 집중 레이어를 통해 Deconvolution을 수행할 수 있다.

여기서, 상기 생성기는, 상기 제1 신경망의 복수의 레이어 중 출력 레이어를 제외한 적어도 하나의 출력이 상기 제2 신경망의 복수의 레이어 중 입력 레이어를 제외한 적어도 하나에 입력되는 U-net으로 구성될 수 있다.

본 개시의 일 실시 예에 따라, 입력된 하나 이상의 이미지를 기반으로 예측 이미지를 생성하도록 훈련된 생성기(Generator)가 저장된 메모리를 포함하는 전자 장치의 제어 방법은, 시간 별로 입력된 복수의 이미지 프레임을 상기 생성기에 입력하는 단계, 상기 생성기를 이용하여 상기 복수의 이미지 프레임 다음의 예측 이미지 프레임을 생성하는 단계를 포함할 수 있다. 이때, 상기 예측 이미지 프레임을 생성하는 단계는, 상기 생성기에 포함된 적어도 하나의 레이어를 통해 상기 입력된 복수의 이미지 프레임으로부터 특징 데이터를 획득하고, 상기 생성기에 포함된 집중 레이어를 통해 상기 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터를 추출하고, 상기 추출된 특징 데이터를 상기 생성기에 포함된 적어도 하나의 다른 레이어에 입력하여 상기 예측 이미지 프레임을 획득할 수 있다.

그리고, 본 제어 방법은, 상기 복수의 이미지 프레임 다음으로 입력된 이미지 프레임 및 상기 예측 이미지 프레임을 비교한 결과를 기반으로, 상기 집중 레이어를 포함하는 상기 생성기를 훈련시키는 단계를 더 포함할 수 있다.

이때, 상기 복수의 이미지 프레임 각각은, 복수의 픽셀로 구성되고, 상기 생성기를 훈련시키는 단계는, 상기 적어도 하나의 레이어로부터 출력된 복수의 픽셀 별 특징 데이터 중 시간에 따른 변화가 나타날 것으로 예측되는 픽셀들의 특징 데이터를 추출하도록 상기 집중 레이어를 훈련시킬 수도 있다.

한편, 상기 메모리는, 입력된 이미지 프레임이 리얼 이미지 프레임인지 또는 페이크 이미지 프레임인지 여부를 판단하도록 훈련된 판별기(Discriminator)를 포함할 수 있다. 이 경우, 상기 훈련시키는 단계는, 상기 예측 이미지 프레임을 상기 판별기에 입력하여 획득된 출력을 기반으로, 상기 생성기를 훈련시킬 수 있다.

여기서, 상기 복수의 이미지 프레임은 정상 상황에 대응되고, 상기 제어 방법은, 시간 별로 촬영되는 복수의 이미지 프레임을 상기 생성기에 입력하여 예측 이미지 프레임을 생성하는 단계, 상기 촬영된 복수의 이미지 프레임 다음에 촬영된 이미지 프레임 및 상기 생성된 예측 이미지 프레임을 기반으로, 이상 상황이 발생했는지 여부를 식별하는 단계를 더 포함할 수 있다.

한편, 상기 생성기는, 제1 집중 레이어를 포함하는 제1 신경망 및 제2 집중 레이어를 포함하는 제2 신경망을 포함하고, 상기 예측 이미지 프레임을 생성하는 단계는, 상기 제1 신경망을 통해 상기 입력된 복수의 이미지 프레임에 대한 인코딩(Encoding)을 수행하는 단계, 상기 제2 신경망을 통해, 상기 제1 신경망을 통해 인코딩된 데이터에 대한 디코딩(Decoding)을 수행하는 단계를 포함하고, 상기 인코딩을 수행하는 단계는, 상기 제1 집중 레이어를 통해 Max-pooling을 수행하고, 상기 디코딩을 수행하는 단계는, 상기 제2 집중 레이어를 통해 Deconvolution을 수행할 수 있다.

본 개시의 일 실시 예에 따른 컴퓨터 판독 가능 매체에는, 입력된 하나 이상의 이미지를 기반으로 예측 이미지를 생성하도록 훈련된 생성기(Generator)가 저장된 메모리를 포함하는 전자 장치의 프로세서에 의해 실행되어, 상기 전자 장치로 하여금, 시간 별로 입력된 복수의 이미지 프레임을 상기 생성기에 입력하는 단계, 상기 생성기를 이용하여 상기 복수의 이미지 프레임 다음의 예측 이미지 프레임을 생성하는 단계를 포함하고, 상기 예측 이미지 프레임을 생성하는 단계는, 상기 생성기에 포함된 적어도 하나의 레이어를 통해 상기 입력된 복수의 이미지 프레임으로부터 특징 데이터를 획득하고, 상기 생성기에 포함된 집중 레이어를 통해 상기 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터를 추출하고, 상기 추출된 특징 데이터를 상기 생성기에 포함된 적어도 하나의 다른 레이어에 입력하여 상기 예측 이미지 프레임을 획득하는, 동작을 수행하도록 하는 적어도 하나의 인스트럭션이 저장되어 있다.

본 개시에 따른 전자 장치는, 종래의 생성기와 달리 집중 레이어를 포함한 생성기를 이용함으로써 더욱 정밀한 예측 이미지 프레임을 생성할 수 있다.

본 개시에 따른 전자 장치는, Optical Flow를 예측하도록 훈련된 별도의 모델이 이용되지 않더라도, 생성기 자체 구성을 통해 시간에 따른 모션 패턴이 고려될 수 있으므로, 연산량 및 데이터량을 줄이면서도 정확한 예측 이미지 프레임을 생성할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 2는 본 개시의 일 실시 예에 따른 생성기의 구성을 기능적으로 설명하기 위한 도면,
도 3은 본 개시에 따른 생성기 내 각각의 레이어를 거쳐 획득되는 이미지 데이터 블록들의 처리 과정을 설명하기 위한 도면,
도 4는 본 개시의 일 실시 예에 따라 생성기에 포함되는 집중 레이어의 구성을 설명하기 위한 블록도,
도 5는 본 개시의 일 실시 예에 따라 생성기로부터 생성된 이미지 프레임의 진위 여부를 판단하는 판별기를 설명하기 위한 블록도,
도 6은 집중 레이어가 자체적으로 포함된 본 개시의 생성기의 효과를 설명하기 위한 표,
도 7은 본 개시의 다양한 실시 예에 따른 전자 장치의 보다 상세한 구성을 설명하기 위한 블록도, 그리고
도 8은 본 개시의 일 실시 예에 다른 전자 장치의 제어 방법을 설명하기 위한 순서도이다.

본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.

먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.

또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.

본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 첨부된 도면을 이용하여 본 개시에 대해 구체적으로 설명한다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.

도 1을 참조하면, 전자 장치(10)는 메모리(110) 및 프로세서(120)를 포함할 수 있다. 전자 장치(10)는 서버 장치, 스마트폰, 그밖에 다양한 PC 내지는 단말 장치로 구현될 수 있다.

메모리(110)는 전자 장치(10)의 구성요소들의 전반적인 동작을 제어하기 위한 운영체제(OS: Operating System) 및 전자 장치(10)의 구성요소와 관련된 다양한 데이터를 저장하기 위한 구성이다. 메모리(110)에는 전자 장치(10)의 하나 이상의 구성요소와 관련된 적어도 하나의 인스트럭션이 저장될 수 있다.

이를 위해, 메모리(110)는 비휘발성 메모리(ex: 하드 디스크, SSD(Solid state drive), 플래시 메모리), 휘발성 메모리 등으로 구현될 수 있다.

메모리(110)에는 생성기(Generator. 200)가 저장될 수 있다. 생성기(200)는 입력된 하나 이상의 이미지를 기반으로 예측 이미지를 생성하기 위한 모델이다. 생성기(200)는 순차적인 복수의 이미지 및 복수의 이미지 다음에 이어지는 이미지를 기반으로 훈련될 수 있다.

생성기(200)는 복수의 신경망 레이어들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행한다.

본 개시의 일 실시 예에 따른 생성기(200)는 부분적으로 CNN(Convolutional Neural Network)를 포함하는 Generative Model로 구현될 수 있으나 이에 한정되지 않는다.

생성기(200)에는 집중 레이어(Attention Layer. 215)가 포함될 수 있다. 집중 레이어(215)는 생성기(200)의 일부 레이어로부터 출력된 특징 데이터로부터 시간에 따른 모션과 관련된 특징 데이터를 추출하기 위한 레이어이다.

생성기(200) 및 집중 레이어(215)의 구체적인 구성은 도 2 내지 도 4를 통해 후술한다.

프로세서(120)는 전자 장치(10)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(120)는 메모리(110)와 연결되어 전자 장치(100)를 제어할 수 있다.

이를 위해, 프로세서(120)는 하드웨어적으로 CPU(central processing unit), GPU(Graphic processing unit), NPU(neural processing unit) 등을 포함할 수 있으며, 전자 장치(100)에 포함된 다른 구성요소들의 제어에 관한 연산이나 데이터 처리를 실행할 수 있다.

프로세서(120)는 MPU(Micro Processing Unit)로 구현되거나, 또는 RAM(Random Access Memory) 및 ROM(Read Only Memory) 등이 CPU 등과 시스템 버스를 통해 연결된 컴퓨터에 해당할 수도 있다.

프로세서(120)는 전자 장치(10)에 포함된 하드웨어적 구성요소뿐만 아니라, 전자 장치(10)에 포함되는 하나 이상의 소프트웨어 모듈을 제어할 수도 있으며, 프로세서(120)가 소프트웨어 모듈을 제어한 결과가 하드웨어 구성들의 동작으로 도출될 수도 있다.

프로세서(120)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP 등과 같은 범용 프로세서, GPU. VPU 등과 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다.

하나 또는 복수의 프로세서는, 메모리에 저장된 기정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기정의된 동작 규칙 또는 인공지능 모델은 학습(훈련)을 통해 만들어진 것을 특징으로 한다.

여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.

학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

본 개시의 일 실시 예에 따른 프로세서(120)는 시간 별로 입력된 복수의 이미지 프레임을 생성기에 입력하여 예측 이미지 프레임을 생성할 수 있다. 시간 별로 입력된 복수의 이미지 프레임은, 과거에 시간 순서에 따라 순차적으로 입력된 복수의 이미지 프레임일 수 있다. 예를 들어, 복수의 이미지 프레임은 시간 순서에 따라 순차적으로 촬영된 이미지들로서 비디오를 구성할 수 있다. 또는 복수의 이미지 프레임은 애니메이션 또는 가상의 영상을 구성하는 순차적인 이미지 프레임들일 수 도 있다.

예측 이미지 프레임은, 복수의 이미지 프레임 바로 다음에 나타날 것으로 예측되는 이미지 프레임을 의미한다.

구체적으로, 프로세서(120)는 생성기(200)에 포함된 적어도 하나의 레이어를 통해, 입력된 복수의 이미지 프레임으로부터 특징 데이터를 획득할 수 있다. 복수의 이미지 프레임이 생성기(200)의 입력 레이어에 입력되어 하나 이상의 레이어를 거친 결과, 특징 데이터가 획득될 수 있다.

그리고, 프로세서(120)는 생성기(200)에 포함된 집중 레이어(215)를 통해, 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터를 추출할 수 있다. 즉, 앞서 획득된 특징 데이터가 집중 레이어(215)에 입력된 결과, 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터가 추출될 수 있다.

예를 들어, 복수의 이미지 프레임 각각이 복수의 픽셀로 구성된 경우를 가정할 수 있다. 이 경우, 획득된 특징 데이터는, 복수의 픽셀 별 특징 데이터일 수 있다. 여기서, 복수의 픽셀 별 특징 데이터가 집중 레이어(215)에 입력된 결과, 복수의 픽셀 별 특징 데이터 중 일부 픽셀들의 특징 데이터만이 추출될 수 있다. 일부 픽셀들은, 관념적으로 시간에 따른 변화가 나타날 것으로 예측되는 픽셀들로 정의될 수 있으나 이에 한정되지 않는다.

그리고, 프로세서(120)는 추출된 특징 데이터를 생성기(200)에 포함된 적어도 하나의 다른 레이어에 입력하여 예측 이미지 프레임을 획득할 수 있다.

프로세서(120)는, 실제 이미지 프레임을 예측 이미지 프레임과 비교한 결과를 기반으로 생성기(200)를 훈련시킬 수 있다.

실제 이미지 프레임은, 실제로 복수의 이미지 프레임 바로 다음으로 촬영되거나 입력된 이미지 프레임일 수 있다. 실제 이미지 프레임은, 복수의 이미지 프레임과 함께 하나의 비디오를 구성할 수 있다.

구체적인 예로, 프로세서(120)는 실제 이미지 프레임과 예측 이미지 프레임 간의 Residual Loss 및/또는 Gradient Loss가 감소되도록 생성기(200)를 훈련시킬 수 있다. Gradient Loss가 최소화될수록, 생성된 예측 이미지 프레임 내 블러링 등이 감소될 수 있다.

여기서, 집중 레이어(215)는, 적어도 하나의 레이어로부터 출력된 복수의 픽셀 별 특징 데이터 중 시간에 따른 변화가 나타날 것으로 예측되는 픽셀들의 특징 데이터를 추출하도록 훈련될 수 있다.

한편, 프로세서(120)는 판별기(Discriminator)의 피드백을 기반으로 생성기(200)를 훈련시킬 수도 있는바, 도 5를 통해 후술한다.

도 2는 본 개시의 일 실시 예에 따른 생성기의 구성을 기능적으로 설명하기 위한 도면이다.

도 2를 참조하면, 본 개시의 일 실시 예에 따른 생성기(200)는, 입력된 복수의 이미지 프레임에 대한 인코딩(Encoding)을 수행하기 위한 제1 신경망(Encoder. 210)를 포함할 수 있다.

또한, 생성기(200)는 제1 신경망(Encoder. 210)과 연결되어 제1 신경망(Encoder. 210)을 통해 인코딩된 데이터에 대한 디코딩(Decoding)을 수행하기 위한 제2 신경망(Decoder. 220)을 포함할 수 있다.

도 2를 참조하면, Encoder(210)는 제1 집중 레이어(215)를 포함하고, Decoder(220)는 제2 집중 레이어(225)를 포함할 수 있다.

순차적인 복수의 이미지 프레임(20)이 Encoder(210) 및 Decoder(220)를 포함하는 생성기(200)에 입력된 결과, 복수의 이미지 프레임(20) 바로 다음에 이어질 예측 이미지 프레임(21)이 생성될 수 있다.

도 2와 관련하여, 도 3은 본 개시에 따른 생성기 내 각각의 레이어를 거쳐 획득되는 이미지 데이터 블록들의 처리 과정을 설명하기 위한 도면이다. 도 3은 생성기(200) 내 복수의 레이어들을 각각 거친 중간 결과물들을 이미지 데이터 블록들로서 도시한 것이다.

도 3은, 생성기(200) 내 첫 번째 레이어에 해상도 256 X 256의 이미지 프레임들에 대한 이미지 데이터 블록(31)이 입력된 상황을 가정한다. 't'는 이미지 프레임들의 수를 의미한다.

도 3을 참조하면, 이미지 데이터 블록(31)이 복수의 레이어를 거친 결과 다수의 Convolution 및 Max-pooling이 수행될 수 있고, 그 결과 출력된 이미지 데이터 블록(32)이 집중 레이어(215)에 입력될 수 있다.

Convolution은 입력된 데이터에 하나 이상의 필터 값 내지는 웨이트 값을 적용하여 새로운 출력을 획득하는 동작으로, 하나 이상의 레이어에 의해 수행될 수 있다.

Pooling은 입력 데이터를 샘플링 또는 리사이징(resizing)하는 동작으로 하나 이상의 레이어를 통해 수행될 수 있다. Max-pooling은 입력된 데이터 중 최대값을 추출하는 동작을 의미한다.

Convolution 및 Max-pooling이 수행된 결과, 이미지 데이터 블록(32)은 기존의 픽셀 수보다 줄어든 해상도 128 X 128에 대한 특징 데이터를 포함할 수 있다.

이미지 데이터 블록(32)이 제1 집중 레이어(215)에 입력된 결과, 다시 Max-pooling이 수행될 수 있다. 구체적으로, 집중 레이어(215)는 이미지 데이터 블록(32)을 구성하는 복수의 픽셀들 중 시간에 따른 모션이 비교적 크게 반영된 픽셀들의 특징 데이터를 출력할 수 있다.

그 결과, 해상도 64 X 64에 대한 특징 데이터를 포함하는 이미지 데이터 블록(33)이 획득될 수 있다.

한편, 도 3을 참조하면, 이후 이미지 데이터 블록(33)에는 Convolution, Max-pooling 및 Deconvolution 등이 추가로 수행될 수 있다. 그 결과, 이미지 데이터 블록(34)이 획득될 수 있다.

Deconvolution은 Convolution 또는 Pooling이 수행되어 사이즈가 변경 내지는 축소된 데이터를 다시 입력 당시의 사이즈로 되돌리기 위해 필요한 동작이다. Deconvolution은 업샘플링(Upsampling)에 해당할 수 있으나, 이에 한정되는 것은 아니다.

도 3을 참조하면, 해상도 64 X 64의 이미지 데이터(또는 특징 데이터)를 256개 이미지 프레임 수만큼 포함하는 이미지 데이터 블록(34)이 제2 집중 레이어(225)에 입력되면, Deconvolution이 수행될 수 있다. 구체적으로, 제2 집중 레이어(225)는 이미지 데이터 블록(34) 중 시간에 따른 모션의 변화에 대응되는 이미지 데이터를 포함하는 이미지 데이터 블록(35)을 획득할 수 있다. 도 3을 참조하면, 이미지 데이터 블록(35)은 해상도 128 X 128의 이미지 프레임 128개에 대응될 수 있다.

여기서, 이미지 데이터 블록(35)에 상술한 이미지 데이터 블록(32)을 연결하는 Concatenation이 수행될 수 있다.

Concatenation은 합침 내지는 연결 등을 의미할 수 있으며, 도 3의 경우, 각각 128개 이미지 프레임 수에 대응되는 이미지 데이터 블록(32) 및 이미지 데이터 블록(35)이 연결되어 더 큰 이미지 데이터 블록(: 256개 이미지 프레임 수에 대응됨)이 형성되었다.

이후 Convolution 및 Deconvolution이 수행된 결과, 최종적으로 하나의 예측 이미지 프레임(36)이 출력될 수 있다.

한편, 도 3을 통해 확인하였듯, Encoder(210)의 적어도 일부 레이어로부터 출력된 Encoder 블록에 해당하는 이미지 데이터 블록(32)은, Decoder 블록에 해당하는 이미지 데이터 블록(35)과 함께, Decoder(220)의 적어도 일부 레이어에 입력될 수 있다.

이렇듯, 생성기(200) 내 Encoder(210)의 출력이 Decoder(220)의 입력에 연결되는 것 외에, Encoder(210)의 복수의 레이어 중 출력 레이어를 제외한 적어도 하나의 출력이 Decoder(220)의 복수의 레이어 중 입력 레이어를 제외한 적어도 하나에 입력될 수 있다. 즉, 생성기(200)는 U-net으로 구성될 수 있다.

한편, 상술한 도 3의 실시 예와 관련하여, Convolution/Decovolution/Max-pooling/Concatenation 등의 횟수나 순서 등은 통상의 기술자에 의해 얼마든지 변형될 수 있으며, 생성기(200) 내 레이어들 각각의 입력 또는 출력이 되는 이미지 데이터 블록들 각각의 해상도 및 이미지 프레임 수 역시 다양하게 정의될 수 있다.

도 4는 본 개시의 일 실시 예에 따라 생성기에 포함되는 집중 레이어의 구성을 설명하기 위한 블록도이다.

도 4를 참조하면, 특징 맵(410)이 집중 레이어(215)에 입력될 수 있다. 특징 맵(410)은, 생성기(200)에 입력된 복수의 이미지 프레임이 생성기(200) 내 적어도 하나의 레이어를 거친 결과 획득된 픽셀 별 특징 데이터를 포함할 수 있다. 구체적으로, 특징 맵(410)은 입력된 복수의 이미지 프레임 내 시간 및/또는 공간에 대한 정보를 포함할 수 있다. 예로, 도 3의 이미지 데이터 블록(32)에 특징 맵(410)이 포함될 수 있다.

도 4를 참조하면, 특징 맵(410)은 집중 레이어(215) 내 서로 다른 컨볼루션 레이어들(215-1, 215-2)에 각각 입력될 수 있다. 그리고, 서로 다른 컨볼루션 레이어들(215-1, 215-2)로부터 출력된 특징 맵들(411, 412)에 대한 행렬 곱이 수행되고 소프트맥스가 적용된 결과 Attention Map(415)이 출력될 수 있다.

Attention Map(415)의 각 엘리먼트는, 입력된 특징 맵(410) 내 특정한 공간 포인트 및/또는 시간 포인트에 대한 집중 확률을 나타낸다.

한편, 도 4를 참조하면 특징 맵(410)이 컨볼루션 레이어(215-3)에 입력된 결과 특징 맵(413)이 획득될 수 있다.

그리고, 특징 맵(413) 및 Attention Map(415)에 대한 행렬 곱이 수행되고 γ가 곱해질 수 있다. 그리고, 최초에 입력된 특징 맵(410)과 다시 더해진 결과, 집중 레이어(215)의 출력 데이터(420)가 생성될 수 있다.

γ는 훈련 가능한 스케일 파라미터로서, non-local evidence를 할당하기 위한 것이다.

도 4와 같이 구성된 집중 레이어(215)는, 입력된 복수의 이미지 프레임의 공간적/시간적 연관성에 대해 훈련될 수 있다. 훈련된 집중 레이어(215)를 통해 출력되는 공간적/시간적 연관성을 기반으로, 본 개시의 생성기(200)는 복수의 이미지 프레임 다음의 예측 이미지 프레임을 생성함에 있어 종래에 비해 더 좋은 성능을 발휘할 수 있다.

한편, 도 2 및 도 3 등을 통해 설명하였듯, 생성기(200)는 두 개 이상의 집중 레이어들을 포함할 수 있으며, 제1 집중 레이어(215) 뿐만 아니라 제2 집중 레이어(225) 역시 도 4에 준하는 구성을 가질 수 있음은 물론이다.

메모리(110)는, 입력된 이미지 프레임이 리얼(real) 이미지 프레임인지 또는 페이크(fake) 이미지 프레임인지 여부를 판단하도록 훈련된 판별기(Discriminator)를 더 포함할 수 있다. 판별기 역시 신경망 모델로 구현될 수 있다.

이때, 프로세서(120)는 예측 이미지 프레임을 판별기에 입력하여 획득된 출력을 기반으로, 생성기(300)를 훈련시킬 수 있다.

관련하여, 도 5는 본 개시의 일 실시 예에 따라 생성기로부터 생성된 이미지 프레임의 진위 여부를 판단하는 판별기를 설명하기 위한 블록도이다.

판별기(300)는 입력된 이미지 프레임이 리얼 이미지 프레임인지 또는 페이크 이미지 프레임인지 식별할 수 있는 분류기로 동작할 수 있다. 페이크 이미지 프레임은 생성기(200) 등을 통해 가상으로 만들어진 이미지 프레임을 의미하며, 리얼 이미지 프레임은 가상으로 만들어지지 않은 실제 영상 내 이미지를 의미한다.

이를 위해, 프로세서(120)는 복수의 이미지 프레임 및 복수의 이미지 프레임 다음에 이어지는 이미지 프레임으로 구성된 훈련 데이터를 기반으로 판별기(300)를 훈련시킬 수 있다.

도 5를 참조하면, 프로세서(120)는 복수의 이미지 프레임(50)을 생성기(200)에 입력하여 복수의 이미지 프레임(50) 다음의 예측 이미지 프레임(51')을 생성할 수 있다.

이때, 프로세서(120)는 예측 이미지 프레임(51')를 판별기(Discriminator. 300)에 입력할 수 있다. 그 결과, 판별기(300)는 예측 이미지 프레임(51')이 리얼 이미지 프레임인지 페이크 이미지 프레임인지 식별할 수 있다.

프로세서(120)는 실제로 복수의 이미지 프레임(50) 다음에 이어지는 실제 이미지 프레임(51) 역시 판별기(300)에 입력할 수 있다.

이때, 프로세서(120)는 판별기(300)가 실제 이미지 프레임(51)을 '리얼 이미지 프레임'으로 식별하고, 예측 이미지 프레임(51')을 '페이크 이미지 프레임'으로 식별하도록 판별기(300)를 훈련 내지는 업데이트 시킬 수 있다.

또한, 프로세서(120)는 판별기(300)가 생성기(200)를 통해 생성된 예측 이미지 프레임을 '리얼 이미지 프레임'으로 식별할 확률이 높아지도록, 생성기(200)를 훈련 내지는 업데이트 시킬 수 있다.

이렇듯, 도 5의 생성기(200)는 판별기(300)와 함께 GAN을 구성하여 상호 적대적으로 훈련된 결과, 그 성능이 향상될 수 있다.

프로세서(120)는 상술한 도 5의 실시 예와 같이 훈련된 생성기(200)를 이용하여, 이상 상황(Abnormal Situation)을 감지할 수 있다. 이상 상황은, 정상 상황(Normal Situation)과 배치되는 상황을 의미하는 것으로, 예를 들어, 테러 발생, 자연 재해, 사고 발생, 환자 발생, 기기/시설의 파손/고장 등 개인 내지는 공공의 안전을 위해 빠른 발견 및 대처가 필요한 상황을 의미할 수 있으나 이에 한정되지 않는다.

구체적으로, 프로세서(120)는 정상 상황에 대응되는 복수의 이미지 프레임을 기반으로 생성기(200) 및 판별기(300)를 훈련시킬 수 있다. 구체적으로, 프로세서(120)는 이상 상황을 포함하지 않는 것으로 (인간에 의해) 판단된 하나 이상의 영상을 구성하는 복수의 이미지 프레임을 이용하여 생성기(200) 및 판별기(300)를 훈련시킬 수 있다.

이후, 프로세서(120)는 시간 별로 촬영되는 복수의 이미지 프레임을 생성기(200)에 입력하여 예측 이미지 프레임을 생성하고, 촬영된 복수의 이미지 프레임 다음에 촬영된 이미지 프레임 및 생성된 예측 이미지 프레임을 기반으로, 이상 상황이 발생했는지 여부를 식별할 수 있다.

구체적인 예로, 프로세서(120)는 실제 촬영된 이미지 프레임 및 예측 이미지 프레임 간의 이미지 데이터 차이가 기설정된 값을 넘는 경우, 이상 상황이 발생한 것으로 식별할 수 있다. 다만 이에 한정되지는 않는다.

도 6은 집중 레이어가 자체적으로 포함된 본 개시의 생성기의 효과를 설명하기 위한 표이다.

도 6은, CUHK 데이터셋[19] 및 UCSD 데이터셋[20] 각각에 대한, 종래의 딥 러닝 모델들 및 본 개시에 따른 생성기(200)와 관련된 AUC(Area Under Curve)를 나타낸 것이다.

AUC는, ROC(Receiver Opreation Characteristic) 커브의 면적을 나타내는 값이다.

ROC 커브는, PSNR(Peak Signal-to-Noise ratio) 스코어들의 임계값들을 점차 변경한 경우, 'False Positive'(ex. 가상 이미지 프레임이지만 실제 이미지 프레임으로 판별됨) 비율에 대한 'True Positive'(ex. 실제 이미지 프레임이고, 실제 이미지 프레임으로 판별됨) 비율을 나타내는 커브이다.

AUC가 클수록, 예측 이미지 프레임을 생성하는 생성기의 성능이 더 좋다는 것을 의미한다.

도 6을 참조하면, CUHK 데이터셋 및 UCSD 데이터셋 각각에 대하여, 종래의 딥 러닝 모델들에 비해 본 개시에 따른 생성기(200)의 AUC가 대체로 더 높다.

특히, 생성기 뿐만 아니라 Optical Flow를 예측하기 위해 훈련된 별도의 모델을 추가로 이용하는 'Unet with OF[12]'와 비교하더라도, 집중 레이어(215)를 자체적으로 포함한 하나의 모델로 구현된 본 개시의 생성기(200)의 퍼포먼스가 수치상 뒤떨어지지 않는다.

도 7은 본 개시의 다양한 실시 예에 따른 전자 장치의 보다 상세한 구성을 설명하기 위한 블록도이다.

도 7을 참조하면, 본 개시에 따른 전자 장치(10)는 메모리(110) 및 프로세서(120) 외에도 카메라(130), 통신부(140) 등을 더 포함할 수 있다.

도 7을 참조하면, 메모리(110)는 생성기(200) 외에 도 5의 판별기(300)를 더 포함할 수 있다.

카메라(130)는 적어도 하나의 이미지를 촬영하기 위한 구성이다. 프로세서(120)는 카메라(130)를 통해 순차적으로 촬영된 복수의 이미지 프레임을 생성기(200)에 입력하여 예측 이미지 프레임을 생성할 수 있다.

카메라(130)는 RGB 카메라, 3D 카메라 등으로 구현될 수 있다.

프로세서(120)는 통신부(140)를 통해 외부 전자 장치로부터 수신되는 복수의 이미지 프레임을 생성기(200)에 입력할 수 있다.

예를 들어, 외부 카메라 시스템을 통해 촬영된 비디오가 통신부(140)를 통해 수신되면, 수신된 비디오를 구성하는 복수의 이미지 프레임을 생성기(200)에 입력할 수 있다. 이때, 프로세서(120)는 생성기(200)를 통해 출력된 예측 이미지 프레임을 실제 이미지 프레임과 비교하여, 이상 상황이 발생했는지 여부를 식별할 수도 있다. 그리고, 이상 상황이 발생한 경우, 프로세서(120)는 통신부(140)를 통해 외부 서버에 이상 상황이 발생했음을 알릴 수 있다.

통신부(140)는 유선 통신 및/또는 무선 통신을 통해 외부 전자 장치와 직적접/간접적으로 연결될 수 있다. 통신부(140)는 유선 통신 및/또는 무선 통신을 통해 구현된 네트워크를 기반으로 외부 전자 장치와 직접적/간접적으로 연결될 수도 있다.

여기에서, 무선 통신은 LTE(long-term evolution), LTE-A(LTE Advance), 5G(5th Generation) 이동통신, CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), GSM(Global System for Mobile Communications), DMA(Time Division Multiple Access), WiFi(Wi-Fi), WiFi Direct, Bluetooth, NFC(near field communication), Zigbee 등의 통신 방식 중 적어도 하나를 포함할 수 있다.

유선 통신은 이더넷(Ethernet), 광 네트워크(optical network), USB(Universal Serial Bus), 선더볼트(ThunderBolt) 등의 통신 방식 중 적어도 하나를 포함할 수 있다.

네트워크는 영역 또는 규모에 따라 개인 통신망(PAN; Personal Area Network), 근거리 통신망(LAN; Local Area Network), 광역 통신망(WAN; Wide Area Network) 등일 수 있으며, 네트워크의 개방성에 따라 인트라넷(Intranet), 엑스트라넷(Extranet), 또는 인터넷(Internet) 등일 수 있다.

통신부(140)는 상술한 유무선 통신 방식에 따른 네트워크 인터페이스(Network Interface) 또는 네트워크 칩을 포함할 수 있다. 한편, 통신 방식은 상술한 예에 한정되지 아니하고, 기술의 발전에 따라 새롭게 등장하는 통신 방식을 포함할 수 있다.

이하 도 8을 통해서는 본 개시에 따른 전자 장치의 제어 방법을 설명한다.

도 8은 본 개시의 일 실시 예에 다른 전자 장치의 제어 방법을 설명하기 위한 순서도이다. 전자 장치는, 입력된 하나 이상의 이미지를 기반으로 예측 이미지를 생성하도록 훈련된 생성기(Generator)가 저장된 메모리를 포함할 수 있다.

도 8을 참조하면, 본 제어 방법은, 시간 별로 입력된 복수의 이미지 프레임을 상기 생성기에 입력할 수 있다(S810). 복수의 이미지 프레임은 시간에 따라 순차적으로 입력된 이미지 프레임들일 수 있으며, 하나의 영상에 포함될 수 있다.

그리고, 생성기를 이용하여 복수의 이미지 프레임 다음의 예측 이미지 프레임을 생성할 수 있다(S820).

이때, 생성기에 포함된 적어도 하나의 레이어를 통해 입력된 복수의 이미지 프레임으로부터 특징 데이터를 획득할 수 있다. 여기서, 생성기에 포함된 집중 레이어를 통해, 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터를 추출하고, 추출된 특징 데이터를 생성기에 포함된 적어도 하나의 다른 레이어에 입력하여 예측 이미지 프레임을 획득할 수 있다.

생성기는 제1 집중 레이어를 포함하는 제1 신경망 및 제2 집중 레이어를 포함하는 제2 신경망을 포함할 수 있다. 이 경우, S820 단계는, 제1 신경망을 통해 입력된 복수의 이미지 프레임에 대한 인코딩(Encoding)을 수행하고, 제2 신경망을 통해, 제1 신경망을 통해 인코딩된 데이터에 대한 디코딩(Decoding)을 수행할 수 있다.

이때, 인코딩을 수행하는 과정에서는, 제1 집중 레이어를 통해 Max-pooling을 수행하고, 디코딩을 수행하는 과정에서는, 제2 집중 레이어를 통해 Deconvolution을 수행할 수 있다.

한편, 본 제어 방법은, 복수의 이미지 프레임 다음으로 입력된 이미지 프레임 및 예측 이미지 프레임을 비교한 결과를 기반으로, 집중 레이어를 포함하는 생성기를 훈련시킬 수 있다.

구체적으로, 복수의 이미지 프레임 각각이 복수의 픽셀로 구성된 경우, 적어도 하나의 레이어로부터 출력된 복수의 픽셀 별 특징 데이터 중 시간에 따른 변화가 나타날 것으로 예측되는 픽셀들의 특징 데이터를 추출하도록 집중 레이어를 훈련시킬 수 있다.

한편, 메모리에, 입력된 이미지 프레임이 리얼 이미지 프레임인지 또는 페이크 이미지 프레임인지 여부를 판단하도록 훈련된 판별기(Discriminator)가 포함된 경우, 예측 이미지 프레임을 판별기에 입력하여 획득된 출력을 기반으로, 생성기를 훈련시킬 수도 있다.

만약, 생성기 및 판별기의 훈련에 이용된 복수의 이미지 프레임이 정상 상황에 대응되는 경우, 본 제어 방법은, 시간 별로 촬영되는 복수의 이미지 프레임을 생성기에 입력하여 예측 이미지 프레임을 생성하고, 촬영된 복수의 이미지 프레임 다음에 촬영된 이미지 프레임 및 생성된 예측 이미지 프레임을 기반으로, 이상 상황이 발생했는지 여부를 식별할 수도 있다.

상술한 본 개시의 제어 방법은, 도 1 및 도 7을 통해 도시 및 설명한 전자 장치(10)를 통해 수행될 수 있다. 또는, 상술한 본 개시의 제어 방법은, 전자 장치(10) 및 하나 이상의 외부 전자 장치를 포함하는 시스템을 통해 수행될 수도 있다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다.

일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(10)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 상술한 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

본 발명의 실시 예들에 대한 전술한 설명들은 예시적인 것이고, 본 명세서의 기술적 범위 내에서 구성들 및 구현 예들에 대한 수정이 가능하다. 예를 들어, 도 1 내지 도 8에 도시된 실시 예들이 일반적이기는 하지만, 이는 단지 예들에 해당할 뿐이다.

비록 본 개시의 실시 예들은 구조적 특징들 또는 방법의 동작들로 서술되었으나, 청부된 청구범위에서 한정된 주제는 반드시 상술한 특징 및 동작에만 제한되는 것은 아니다. 오히려, 상술한 구조적 특징들 및 동작들은 청구범위를 도입하기 위한 예들에 해당할 뿐이다.

또한, 본 개시에 따른 방법들에 있어 각 단계들의 순서가 상술한 예들에만 제한되지 않는다. 순서는 자명한 범위 내에서 통상의 기술자가 특별한 노력 없이도 수정할 수 있다. 각 방법에 속하는 단계들 중 적어도 일부는 순차적으로 또는 동시에 수행될 수 있다. 특정 단계는 생략될 수도 있다. 본 발명의 기술적 사상은 이하 청구항들을 통해서만 제한될 수 있다.

10: 전자 장치 110: 메모리
120: 프로세서 130: 카메라
140: 통신부

Claims

전자 장치에 있어서,
입력된 하나 이상의 이미지를 기반으로 예측 이미지를 생성하도록 훈련된 생성기(Generator)가 저장된 메모리; 및
시간 별로 입력된 복수의 이미지 프레임을 상기 생성기에 입력하여 예측 이미지 프레임을 생성하는 프로세서;를 포함하고,
상기 프로세서는,
상기 생성기에 포함된 적어도 하나의 레이어를 통해 상기 입력된 복수의 이미지 프레임으로부터 특징 데이터를 획득하고,
상기 생성기에 포함된 집중 레이어(Attention Layer)를 통해 상기 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터를 추출하고,
상기 추출된 특징 데이터를 상기 생성기에 포함된 적어도 하나의 다른 레이어에 입력하여 상기 예측 이미지 프레임을 획득하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 복수의 이미지 프레임 다음으로 입력된 이미지 프레임 및 상기 예측 이미지 프레임을 비교한 결과를 기반으로, 상기 집중 레이어를 포함하는 상기 생성기를 훈련시키는, 전자 장치.
제2항에 있어서,
상기 복수의 이미지 프레임 각각은, 복수의 픽셀로 구성되고,
상기 집중 레이어는,
상기 적어도 하나의 레이어로부터 출력된 복수의 픽셀 별 특징 데이터 중 시간에 따른 변화가 나타날 것으로 예측되는 픽셀들의 특징 데이터를 추출하도록 훈련되는, 전자 장치.
제2항에 있어서,
상기 메모리는, 입력된 이미지 프레임이 리얼(real) 이미지 프레임인지 또는 페이크(fake) 이미지 프레임인지 여부를 판단하도록 훈련된 판별기(Discriminator)를 포함하고,
상기 프로세서는,
상기 예측 이미지 프레임을 상기 판별기에 입력하여 획득된 출력을 기반으로, 상기 생성기를 훈련시키는, 전자 장치.
제4항에 있어서,
상기 복수의 이미지 프레임은 정상 상황(normal situation)에 대응되고,
상기 프로세서는,
시간 별로 촬영되는 복수의 이미지 프레임을 상기 생성기에 입력하여 예측 이미지 프레임을 생성하고,
상기 촬영된 복수의 이미지 프레임 다음에 촬영된 이미지 프레임 및 상기 생성된 예측 이미지 프레임을 기반으로, 이상 상황(abnormal situation)이 발생했는지 여부를 식별하는, 전자 장치.
제1항에 있어서,
상기 생성기는,
상기 입력된 복수의 이미지 프레임에 대한 인코딩(Encoding)을 수행하기 위한 제1 신경망 및 상기 제1 신경망과 연결되어 상기 제1 신경망을 통해 인코딩된 데이터에 대한 디코딩(Decoding)을 수행하기 위한 제2 신경망을 포함하고,
상기 제1 신경망은 제1 집중 레이어를 포함하고, 상기 제2 신경망은 제2 집중 레이어를 포함하며,
상기 프로세서는,
상기 제1 집중 레이어를 통해 Max-pooling을 수행하고, 상기 제2 집중 레이어를 통해 Deconvolution을 수행하는, 전자 장치.
제6항에 있어서,
상기 생성기는,
상기 제1 신경망의 복수의 레이어 중 출력 레이어를 제외한 적어도 하나의 출력이 상기 제2 신경망의 복수의 레이어 중 입력 레이어를 제외한 적어도 하나에 입력되는 U-net으로 구성되는, 전자 장치.
입력된 하나 이상의 이미지를 기반으로 예측 이미지를 생성하도록 훈련된 생성기(Generator)가 저장된 메모리를 포함하는 전자 장치의 제어 방법에 있어서,
시간 별로 입력된 복수의 이미지 프레임을 상기 생성기에 입력하는 단계; 및
상기 생성기를 이용하여 상기 복수의 이미지 프레임 다음의 예측 이미지 프레임을 생성하는 단계;를 포함하고,
상기 예측 이미지 프레임을 생성하는 단계는,
상기 생성기에 포함된 적어도 하나의 레이어를 통해 상기 입력된 복수의 이미지 프레임으로부터 특징 데이터를 획득하고,
상기 생성기에 포함된 집중 레이어를 통해 상기 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터를 추출하고,
상기 추출된 특징 데이터를 상기 생성기에 포함된 적어도 하나의 다른 레이어에 입력하여 상기 예측 이미지 프레임을 획득하는, 제어 방법.
제8항에 있어서,
상기 복수의 이미지 프레임 다음으로 입력된 이미지 프레임 및 상기 예측 이미지 프레임을 비교한 결과를 기반으로, 상기 집중 레이어를 포함하는 상기 생성기를 훈련시키는 단계;를 더 포함하는, 제어 방법.
제9항에 있어서,
상기 복수의 이미지 프레임 각각은, 복수의 픽셀로 구성되고,
상기 생성기를 훈련시키는 단계는,
상기 적어도 하나의 레이어로부터 출력된 복수의 픽셀 별 특징 데이터 중 시간에 따른 변화가 나타날 것으로 예측되는 픽셀들의 특징 데이터를 추출하도록 상기 집중 레이어를 훈련시키는, 제어 방법.
제9항에 있어서,
상기 메모리는, 입력된 이미지 프레임이 리얼 이미지 프레임인지 또는 페이크 이미지 프레임인지 여부를 판단하도록 훈련된 판별기(Discriminator)를 포함하고,
상기 훈련시키는 단계는,
상기 예측 이미지 프레임을 상기 판별기에 입력하여 획득된 출력을 기반으로, 상기 생성기를 훈련시키는, 제어 방법.
제11항에 있어서,
상기 복수의 이미지 프레임은 정상 상황에 대응되고,
상기 제어 방법은,
시간 별로 촬영되는 복수의 이미지 프레임을 상기 생성기에 입력하여 예측 이미지 프레임을 생성하는 단계; 및
상기 촬영된 복수의 이미지 프레임 다음에 촬영된 이미지 프레임 및 상기 생성된 예측 이미지 프레임을 기반으로, 이상 상황이 발생했는지 여부를 식별하는 단계;를 더 포함하는, 제어 방법.
제8항에 있어서,
상기 생성기는, 제1 집중 레이어를 포함하는 제1 신경망 및 제2 집중 레이어를 포함하는 제2 신경망을 포함하고,
상기 예측 이미지 프레임을 생성하는 단계는,
상기 제1 신경망을 통해 상기 입력된 복수의 이미지 프레임에 대한 인코딩(Encoding)을 수행하는 단계; 및
상기 제2 신경망을 통해, 상기 제1 신경망을 통해 인코딩된 데이터에 대한 디코딩(Decoding)을 수행하는 단계;를 포함하고,
상기 인코딩을 수행하는 단계는, 상기 제1 집중 레이어를 통해 Max-pooling을 수행하고,
상기 디코딩을 수행하는 단계는, 상기 제2 집중 레이어를 통해 Deconvolution을 수행하는, 제어 방법.
입력된 하나 이상의 이미지를 기반으로 예측 이미지를 생성하도록 훈련된 생성기(Generator)가 저장된 메모리를 포함하는 전자 장치의 프로세서에 의해 실행되어, 상기 전자 장치로 하여금,
시간 별로 입력된 복수의 이미지 프레임을 상기 생성기에 입력하는 단계; 및
상기 생성기를 이용하여 상기 복수의 이미지 프레임 다음의 예측 이미지 프레임을 생성하는 단계;를 포함하고,
상기 예측 이미지 프레임을 생성하는 단계는,
상기 생성기에 포함된 적어도 하나의 레이어를 통해 상기 입력된 복수의 이미지 프레임으로부터 특징 데이터를 획득하고,
상기 생성기에 포함된 집중 레이어를 통해 상기 획득된 특징 데이터 중 시간에 따른 변화에 대응되는 특징 데이터를 추출하고,
상기 추출된 특징 데이터를 상기 생성기에 포함된 적어도 하나의 다른 레이어에 입력하여 상기 예측 이미지 프레임을 획득하는, 동작을 수행하도록 하는 적어도 하나의 인스트럭션이 저장된 컴퓨터 판독 가능 매체.