KR20210031269A

KR20210031269A - 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법

Info

Publication number: KR20210031269A
Application number: KR1020190113023A
Authority: KR
Inventors: 장서우; 이상웅
Original assignee: 삼성전자주식회사
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2021-03-19
Also published as: WO2021049730A1; US11908175B2; US20220198786A1

Abstract

가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하고, DVS 영상에 대하여, 영상 인식 모델에 의해 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하고, 영상 인식 모델에 의해 DVS 영상이 인식된 결과와 레이블 정보 간 차이가 최소화되도록, 영상 인식 모델을 수정함으로써, 영상 인식 모델을 학습하는 방법이 개시된다.

Description

영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법 {Electronic device and operating method for training an image recognition model}

본 개시는, 영상을 인식하기 위한 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법에 관한 것이다.

DVS(dynamic vision sensor)에 의해 촬영된 DVS 영상은, 영상의 전체 영역에 대한 이미지 데이터를 포함하는 기존 영상과는 달리, 움직이는 물체에 의해 감지된 빛의 변화량을 나타내는 픽셀 데이터들을 포함할 수 있다. 따라서, DVS 영상은 기존 영상과는 달리 처리할 데이터의 양이 적어 처리 속도가 빠른 장점을 가지며, 움직이는 물체를 감지하여 수행될 수 있는 다양한 동작에서 활용될 수 있다.

영상 인식 모델은 DVS 영상을 인식하기 위한 인공지능 모델로, 예를 들면, DVS 영상에서 촬영된 움직이는 물체를 인식하고, 움직이는 물체와 관련된 데이터를 추출하는데 이용될 수 있다. 영상 인식 모델은, 다수의 DVS 영상에 관한 데이터 기초하여 학습될 수 있다.

그러나, 영상 인식 모델을 학습시키기 위한 데이터 양이 충분하지 않은 경우, 영상 인식 모델의 정확도 및 성능이 낮아질 수 있다. 따라서, 영상 인식 모델을 학습시키기 위한 DVS 영상에 관한 데이터 양이 부족한 경우에도, 높은 정확도 및 성능을 가지는 영상 인식 모델을 구축할 수 있는 방법이 필요하다.

본 개시가 해결하고자 하는 과제는 전술한 문제를 해결하기 위한 것으로서, 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다.

또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하는 단계; 상기 DVS 영상에 대하여, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하는 단계; 및 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과와 상기 레이블 정보 간 차이가 최소화되도록, 상기 영상 인식 모델을 수정함으로써, 상기 영상 인식 모델을 학습하는 단계를 포함하는 영상 인식 모델을 학습하는 방법을 제공할 수 있다.

또한, 본 개시의 제2 측면은, 영상 인식 모델을 학습하는 전자 장치에 있어서, 영상 인식 모델을 저장하는 메모리; 및 가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하고, 상기 DVS 영상에 대하여, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하고, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과와 상기 레이블 정보 간 차이가 최소화되도록, 상기 영상 인식 모델을 수정함으로써, 상기 영상 인식 모델을 학습하는 적어도 하나의 프로세서를 포함하는, 전자 장치를 제공할 수 있다.

또한, 본 개시의 제3 측면은, 제1 측면 또는 제2 측면의 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 제공할 수 있다.

일 실시 예에 의하면, 영상 인식 모델을 학습시키기 위한 데이터가 영상 인식 모델이 학습되기에 충분하지 않은 경우에도, 가상 시뮬레이터를 이용하여 생성된 DVS 영상 및 레이블 정보의 쌍에 기초하여, 영상 인식 모델이 충분히 학습될 수 있다.

도 1은 일 실시 예에 의한 영상 인식 모델을 학습하는 일 예를 나타낸 도면이다.
도 2 는 일 실시 예에 의한 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 3은 일 실시 예에 의한 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 4는 일 실시 예에 의한 영상 인식 모델을 학습하는 방법을 나타낸 순서도이다.
도 5는 일 실시 예에 의한 가상 시뮬레이터에 의해 생성된 가상 환경의 일 예를 나타낸 도면이다.
도 6은 일 실시 예에 의한 가상 데이터에 기초하여, 영상 인식 모델을 학습하는 방법을 나타낸 순서도이다.
도 7은 일 실시 예에 의한 전자 장치 및 외부 장치의 일 예를 나타낸 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 일 실시 예에 의한 영상 인식 모델을 학습하는 일 예를 나타낸 도면이다.

도 1을 참조하면, 일 실시 예에 따라 영상 인식 모델을 학습하는, 전자 장치(1000)는, 가상 시뮬레이터(110)를 통해 가상의 DVS 영상과, 상기 가상의 DVS 영상에 대한 레이블 정보(120)를 획득하고, 획득된 가상의 DVS 영상 및 레이블 정보(120)에 기초하여, 영상 인식 모델(130)을 학습할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 가상의 DVS 영상이 영상 인식 모델에 의해 인식된 결과와 레이블 정보 간 차이가 최소화 되도록, 영상 인식 모델을 수정함으로써, 영상 인식 모델(130)을 학습할 수 있다.

일 실시 예에 의한 영상 인식 모델을 학습하는 방법은, DVS 영상뿐만 아니라, 다양한 종류의 영상에 대하여도 수행될 수 있다. 예를 들면, 가상 시뮬레이터(110)를 통해 생성된 다양한 종류의 영상 및 레이블 정보에 기초하여, 영상 인식 모델이 학습될 수도 있다.

일 실시 예에 의한 전자 장치(1000)는 일 실시 예에 따라 학습된 영상 인식 모델(130)을 이용하여, 적어도 하나의 DVS 영상을 인식할 수 있다. 예를 들면, 전자 장치(1000)는 영상 인식 모델(130)을 이용하여, DVS 영상을 인식한 결과, DVS 영상에 관한 정보(ex. DVS 영상에 포함된 객체의 크기, 위치, 식별 정보, 이동 방향, 이동 속도, 상태 등)를 획득하고, 획득된 정보에 기초하여, 다양한 동작을 수행할 수 있다.

일 실시 예에 의한 전자 장치(1000)는 다양한 형태로 구현될 수 있다. 예를 들어, 본 명세서에서 기술되는 전자 장치(1000)는, 디지털 카메라, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어 등이 있을 수 있으나, 이에 한정되는 것은 아니다.

본 명세서에서 기술되는 전자 장치(1000)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시 예에 의한 DVS 영상은, DVS 센서에 의해 생성된 영상이다. 일 실시 예에 따른 DVS 센서는 사람의 홍채가 정보를 받아들이는 방식을 채택한 이미지 센서로, 움직이는 객체에 대한 이미지 데이터를 획득할 수 있는 센서이다. 예를 들어, DVS 센서는 픽셀 단위에서 움직임에 의해 국소적인 변화가 있을 때에만 이미지 데이터를 프로세서로 전송하게 된다. 일 실시 예에 의한 DVS 센서는 움직이는 이벤트가 발생할 때만 이미지 데이터를 프로세서에 전송할 수 있다. 따라서, 일 실시 예에 의한 DVS 센서는 객체가 멈춰 있는 경우에 데이터 처리를 하지 않고, 객체가 움직이는 경우에만 움직이는 객체를 측정하여 데이터를 프로세서로 전송함으로써, 일반적인 이미지 센서들이 프레임들을 이미지 프로세서로 계속 보내 발생하는 데이터의 낭비를 막을 수 있다.

일 실시 예에 의한 DVS 센서는 일반적인 시각 인식 시스템이 빠른 움직임에 취약하다는 문제점을 해결할 수 있다. 또한, DVS 센서는 프레임 단위로 데이터를 받는 것이 아니라 낱낱의 픽셀 기준(per-pixel basis)으로 데이터를 받기 때문에 블러(blur) 현상을 극복할 수 있다.

일 실시 예에 의한 DVS 센서는 마이크로 초 단위의 해상도를 가질 수 있다. 상기 DVS 센서는 1초당 수천 프레임을 찍는 초고속 카메라보다 더 뛰어난 시간 분해능을 가질 수 있다(예컨대, 초고속 프레임 >1K FPS). 또한, DVS 센서에 의하면, 전력 소모 및 데이터 저장 요구 조건 또한 매우 줄어드므로, dynamic range(센서가 구분할 수 있는 밝기의 범위) 또한 획기적으로 늘어날 수 있다.

일 실시 예에 따라, DVS 센서에 의해 획득되는 이미지는 움직이는 객체의 윤곽선 정도만 표현되므로, 모니터링되는 객체의 사생활(privacy) 보호에도 유리할 수 있다. 또한, DVS 센서는 어두운 곳에서도 약간의 빛만 있으면 객체의 움직임을 감지하여, DVS 영상을 생성할 수 있다.

일 실시 예에 따른 DVS 영상을 인식하기 위한 영상 인식 모델은, DVS 센서에 의해 생성된 DVS 영상과, 상기 DVS 영상에 대한 레이블 정보에 기초하여 학습될 수 있다.

일 실시 예에 의한 레이블 정보는, DVS 영상이 영상 인식 모델에 의해 인식된 결과에 대한 정답에 관한 정보를 포함할 수 있다. 또한, 일 실시 예에 의한 레이블 정보는, DVS 영상으로부터 인식하고자 하는 정보의 종류에 따라 서로 다른 복수의 정보를 포함할 수 있다. 예를 들어, 레이블 정보는 동일한 DVS 영상에 대해 인식될 수 있는 정보로, 객체의 상태, 객체의 이동 방향 등의 서로 다른 종류의 정보를 포함할 수 있다.

일 실시 예에 의하면, 적어도 하나의 DVS 영상과, 각 DVS 영상과 대응되는 레이블 정보의 쌍에 기초하여, 영상 인식 모델이 학습될 수 있다. 예를 들면, DVS 영상이 영상 인식 모델에 의해 인식된 결과와 상기 DVS 영상에 대한 레이블 정보 간 차이가 최소화되도록, 영상 인식 모델이 수정됨으로써, 영상 인식 모델이 학습될 수 있다.

예를 들어, 레이블 정보가, "사람이 걸어가고 있는 상태"를 나타내는 정보를 포함하는 경우, 영상 인식 모델에 의한, DVS 영상의 인식 결과로, "사람이 걸어가고 있는 상태"와 동일 유사한 결과가 출력될 수 있도록, 영상 인식 모델이 학습될 수 있다.

그러나, 영상 인식 모델을 학습시키기 위한 DVS 영상 및 레이블 정보의 쌍이 영상 인식 모델이 학습되기에 충분하지 않은 경우, 영상 인식 모델의 성능이 저하될 수 있는 문제점이 존재한다.

예를 들면, 레이블 정보가, 사람에 의해 직접 입력되어야 해서, 레이블 정보가 존재하는 DVS 영상의 개수가 절대적으로 적은 경우, 영상 인식 모델이 충분히 학습될 수 없어, 영상 인식 모델의 정확도 및 성능이 저하될 수 있다.

그러나, 일 실시 예에 의하면, 영상 인식 모델을 학습시키기 위한 DVS 영상 및 레이블 정보의 쌍이 적은 경우에도, 전자 장치(1000)는 가상 시뮬레이터(110)를 이용하여 가상의 DVS 영상 및 레이블 정보의 쌍을 충분히 생성함으로써, 영상 인식 모델을 충분히 학습할 수 있다.

또한, 일 실시 예에 의한 DVS 영상은, 움직이는 객체의 외곽선 정도만 표현되므로, 가상으로 생성된 DVS 영상과 실제 DVS 센서에 의하여 촬영된 DVS 영상은 외관상 거의 유사할 수 있다. 따라서, 일 실시 예에 따라 가상 시뮬레이터(110)를 이용하여 생성된 DVS 영상 및 레이블 정보의 쌍에 기초하여, 학습된 영상 인식 모델에 의하면, 실제 촬영된 DVS 영상에 대해서도 높은 성능 및 정확도로 영상 인식이 수행될 수 있다.

일 실시 예에 의한 가상 시뮬레이터(110)는, DVS 영상이 촬영될 수 있는 다양한 종류의 가상 환경을 생성할 수 있다. 예를 들면, 가상 시뮬레이터(110)는, 집안, 사무실, 도로 등 다양한 가상 환경을 생성할 수 있다.

또한, 일 실시 예에 의한 가상 시뮬레이터(110)는, 가상 환경에 존재할 수 있는 다양한 종류의 가상 객체를 생성하고, 생성된 가상 객체를 가상 환경에 배치할 수 있다. 일 실시 예에 의하면, 가상 환경과 대응되는 실제 환경에서, 실제 DVS 영상으로 촬영될 수 있는 객체가, 가상 환경에서 가상 객체로서 배치될 수 있다. 예를 들면, 집안에 대한 가상 환경에는, 사람, 가구, 가전제품, 애완동물 등의 가상 객체가 배치될 수 있다. 또한, 도로에 대한 가상 환경에는, 표지판, 자동차, 차선 등의 가상 객체가 배치될 수 있다.

따라서, 일 실시 예에 의한 가상의 DVS 영상은, 가상 시뮬레이터(110)에 의해 생성된 가상 환경 및 가상 환경에 배치된 적어도 하나의 가상 객체에 기초하여 생성될 수 있다. 또한, 일 실시 예에 의한 가상의 DVS 영상은, 시간 흐름에 따라, 가상 객체가 이동하거나 변화되는 장면이 촬영된 복수 개의 영상 시퀀스로서, 획득될 수도 있다.

일 실시 예에 의한 가상 시뮬레이터(110)는, 가상 환경에서, DVS 센서에 의해 촬영될 수 있는, 가상의 DVS 영상을 생성할 수 있다. 일 실시 예에 의한 가상 시뮬레이터(110)는 가상 환경에서, 실제 DVS 센서가 위치할 수 있는, 적어도 하나의 카메라 시점을 결정하고, 각 카메라 시점에서 촬영된 적어도 하나의 가상의 DVS 영상을 생성할 수 있다. 상기 적어도 하나의 가상의 DVS 영상은, 각 카메라 시점에서 동시에 촬영된 영상일 수 있다.

예를 들면, 가상 시뮬레이터(110)는 가상 환경에서, 적어도 하나의 카메라 시점에서 촬영될 수 있는 비전 영상을 생성하고, 비전 영상으로부터 DVS 영상을 생성함으로써, 가상 환경에서 촬영된 가상의 DVS 영상을 생성할 수 있다. 비전 영상에 한하지 않고, 다른 종류의 영상으로부터 DVS 영상이 생성될 수도 있다. 또한, 상술한 예에 한하지 않고, 가상 시뮬레이터(110)는 다양한 방법을 통해 가상 환경에서 촬영된 가상의 DVS 영상을 생성할 수 있다.

일 실시 예에 의한 가상의 DVS 영상에 대한 레이블 정보는, 가상 환경 및 가상 환경에 배치된 적어도 하나의 가상 객체 중 적어도 하나에 관한 정보에 기초하여, 생성될 수 있다. 일 실시 예에 의한 레이블 정보는, 가상 환경 및 적어도 하나의 가상 객체가 생성되는데 이용된, 상기 가상 환경 및 상기 적어도 하나의 가상 객체에 대하여 미리 설정된 정보에 기초하여 획득될 수 있다.

일 실시 예에 의한, 가상 시뮬레이터(110)는, 미리 설정된 정보에 따라 가상 객체가 배치되거나 이동하도록, 가상 환경에 가상 객체를 배치할 수 있다. 일 실시 예에 의한 레이블 정보는, 가상 환경 및 가상 객체 중 적어도 하나에 대하여 미리 정의된 특성 정보에 관한 정보에 기초하여, 획득될 수 있다.

예를 들어, 가상 시뮬레이터(110)는, 가상 환경에서 미리 지정한 경로로 자동차가 이동하도록, 자동차를 가상 환경에 배치할 수 있다. 또한, 미리 지정한 경로에 따라 이동하는 자동차의 위치 및 속도도 가상 시뮬레이터(110)에 의해 미리 설정된 후, 상기 설정된 정보에 따라 자동차가 가상 환경에 배치될 수 있다. 따라서, 상기 자동차가 촬영된 가상의 DVS 영상에 대한 레이블 정보는, 가상 시뮬레이터(110)가 자동차를 배치하기 위하여 미리 설정한, 자동차의 특성 정보에 관한 정보인, 경로, 위치, 속도 등에 기초하여 획득될 수 있다.

일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(110)가, 가상 환경 및 가상 객체의 생성 시 미리 정의한 특성 정보에 기초하여, 획득될 수 있다. 따라서, 실제 영상에 대하여 사람에 의해 직접 입력된 레이블 정보에 비해, 일 실시 예에 의한 가상 DVS 영상에 대한 레이블 정보는, 더 정확한 정보를 포함할 수 있다.

또한, 일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(110)에 의해 미리 정의한 특성 정보에 기초하여, 자동으로 획득될 수 있다. 일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(110)에 의해 가상 환경 또는 가상 객체가 생성될 때, 미리 정의한 특성 정보에 기초하여, 레이블 정보가 자동으로 획득될 수 있다. 따라서, 일 실시 예에 의한 레이블 정보는 전자 장치(1000)에 의하여, 쉽고 빠르게 획득될 수 있다.

일 실시 예에 의한, 레이블 정보가, 가상 시뮬레이터(110)에 의해 미리 정의한 특성 정보에 기초하여, 가상의 DVS 영상이 생성될 때마다 자동으로 획득될 수 있다. 따라서, 일 실시 예에 의하면, 영상 인식 모델(130)을 학습하기 위한 데이터로서, 단시간에 많은 수의 가상의 DVS 영상 및 레이블 정보의 쌍이 빠르고 정확하게 생성될 수 있다.

일 실시 예에 의한 영상 인식 모델(130)은, 가상 시뮬레이터(110)에 의해 생성된 가상의 DVS 영상과 가상의 DVS 영상에 대한 레이블 정보에 기초하여, 학습될 수 있다.

일 실시 예에 의한 전자 장치(1000)는 상기 DVS 영상이 영상 인식 모델(130)에 의해 인식된 결과에 관한 정보와 상기 레이블 정보 간 차이가 최소화되도록, 영상 인식 모델(130)을 구성하는 적어도 하나의 구성 요소를 수정함으로써, 영상 인식 모델(130)을 학습할 수 있다. 예를 들면, 영상 인식 모델(130)을 구성하는 노드의 구조, 가중치 값, 바이어스 값 등이, 영상 인식 모델(130)이 학습됨에 따라, 수정될 수 있다.

일 실시 예에 의한 영상 인식 모델(130)은, 영상 내의 객체를 분류하고 탐지하는데 이용되는 CNN(convolutional neural network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), MLP(Multi layer Perceptron) 등의 뉴럴 네트워크(Neural Network)를 기반으로 하는 데이터 인식 모델일 수 있다. 상술한 예에 한하지 않고, 일 실시 예에 의한 영상 인식 모델(130)은, 다양한 종류의 인공지능 모델을 포함할 수 있다.

일 실시 예에 따라 영상 인식 모델(130)에 기초하여, 영상이 인식된 결과는 예를 들면, 영상에서 인식된 객체에 관한 정보, 영상에서 인식된 객체의 위치에 관한 정보, 영상에서 인식된 객체의 움직임에 관한 정보 등을 포함할 수 있다. 예를 들어, 데이터 인식 모델에 입력된 영상이 "자동차"가 촬영된 DVS 영상인 경우, 데이터 인식 모델의 영상의 인식 결과는 "자동차"을 포함할 수 있다.

따라서, 일 실시 예에 의하면, "자동차"를 포함하는 가상의 DVS 영상과, 레이블 정보에 기초하여, 상기 가상의 DVS 영상과 유사한 실제 DVS 영상이 영상 인식 모델(130)에 입력되는 경우, "자동차"에 가까운 결과가 출력될 수 있도록, 영상 인식 모델(130)이 학습될 수 있다.

일 실시 예에 의하면, 가상 시뮬레이터(110)에 의하여, 빠르고 정확하게 생성된 많은 수의 가상의 DVS 영상 및 레이블 정보의 쌍에 기초하여, 영상 인식 모델(130)이 학습될 수 있다. 따라서, 일 실시 예에 의한 전자 장치(1000)는, 영상 인식 모델(130)을 학습하기 위한 실제 DVS 영상 및 레이블 정보가 부족한 경우에도, 가상의 DVS 영상 및 레이블 정보의 쌍에 기초하여, 정확도 및 성능이 높은 영상 인식 모델(130)을 빠르게 획득할 수 있다.

일 실시 예에 의한 전자 장치(1000)는, DVS 영상을 인식하기 위한 영상 인식 모델(130)을 학습하기 위하여, 외부 서버(미도시)를 이용할 수 있다.

일 실시 예에 의한 외부 서버는 적어도 하나의 컴퓨터 장치로 구현될 수 있다. 외부 서버는 클라우드 형태로 분산될 수 있으며, 명령, 코드, 파일, 컨텐츠 등을 제공할 수 있다.

외부 서버는 전자 장치(1000)가 실행할 수 있는 동작들을 수행할 수 있다. 예컨대, 외부 서버는 전자 장치(1000)의 요청에 따라, 영상 인식 모델(130)을 학습하기 위한 가상의 DVS 영상 및 레이블 정보를 생성할 수 있다. 또한, 외부 서버는, 생성된 가상의 DVS 영상 및 레이블 정보에 기초하여, 영상 인식 모델(130)을 학습하고, 학습된 영상 인식 모델(130)을 전자 장치(1000)로 전송할 수 있다. 또한, 외부 서버는, 일 실시 예에 따라 학습된 영상 인식 모델(130)에 의하여, 실제 DVS 영상이 인식된 결과를 전자 장치(1000)로 전송할 수 있다.

일 실시 예에 의하면, 온 디바이스(on-device) AI 기술에 따라서, 외부 서버(미도시)와의 데이터 송수신 없이, 전자 장치(1000) 상에서, 영상 인식 모델(130)이 학습되고, 영상 인식 모델(130)에 의해 영상이 인식된 결과가 출력될 수 있다. 예를 들면, 전자 장치(1000)는 외부 서버에 저장된 빅 데이터를 이용할 필요없이, 실시간으로 전자 장치(1000)에서 수집된 다양한 정보에 기초하여, 생성된 가상의 DVS 영상에 따라 일 실시 예에 의한 영상 인식 모델(130)이 학습될 수 있다.

온 디바이스 AI 기술에 의하면, 전자 장치(1000)는 스스로 수집한 데이터에 기초하여, 스스로 학습하고, 학습된 AI 모델에 기초하여, 스스로 결정을 내릴 수 있다. 온 디바이스 AI 기술에 의한, 전자 장치(1000)는 수집된 데이터를 외부로 전달하지 않고, 스스로 운용하므로, 사용자의 개인 정보 보호 및 데이터 처리 속도 면에서, 장점이 존재한다.

예를 들면, 전자 장치(1000)의 네트워크 환경이 불안정하거나, 빅 데이터를 이용할 필요 없이, 전자 장치(1000)에서 수집된 정보만으로, 전자 장치(1000)에서 학습된 AI 모델에 따라 일 실시 예에 의한 동작을 수행하기에 충분한지 여부에 따라, 전자 장치(1000)는 온 디바이스 AI 기술을 이용하여, 외부 서버와의 연결 없이, 동작할 수 있다.

다만, 전자 장치(1000)는, 온 디바이스 AI 기술에 따라 동작하는 것에 한하지 않고, 외부 서버 또는 외부 장치와의 데이터 송수신을 통해, 일 실시 예에 의한 동작을 수행할 수도 있다. 또한, 전자 장치(1000)는 상술한 온 디바이스 AI 기술 및 외부 서버와의 데이터 송수신을 통한 방식을 조합하여 일 실시 예에 의한 동작을 수행할 수도 있다.

예를 들어, 네트워크 환경 및 전자 장치(1000)의 연산 능력에 따라, 외부 서버를 통한 동작이 데이터 처리 속도 면에서 더 유리하거나, 사용자의 개인 정보를 포함하지 않는 데이터가 외부 서버로 전달되는 경우 등, 외부 서버를 통한 방식이 온 디바이스 AI 기술보다 유리한 경우에는, 외부 서버를 통한 방식에 따라, 일 실시 예에 의한 동작이 수행될 수 있다.

도 2 는 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.

도 3은 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.

도 2를 참조하면, 전자 장치(1000)는, 프로세서(1300) 및 메모리(1700)를 포함할 수 있다. 그러나, 도 2에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 2에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 도 2에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.

예를 들면, 전자 장치(1000)는 도 3에 도시된 바와 같이, 일부 실시예에 따른 전자 장치(1000)는, 프로세서(1300) 및 메모리(1700) 이외에 통신부(1520), 출력부(1020), 사용자 입력부(1100), 센싱부(1400) 및 A/V 입력부(1600)를 더 포함할 수도 있다.

사용자 입력부(1100)는, 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.

일 실시 예에 의하면, 사용자 입력부(1100)는, 영상 인식 모델(130)을 학습하기 위한 사용자 입력을 수신할 수 있다.

출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.

디스플레이부(1210)는 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(1210)는 가상 시뮬레이터(110)에 의해 생성된 가상의 DVS 영상을 표시할 수 있다. 또한, 일 실시 예에 의한 디스플레이부(1210)는 영상 인식 모델(130)에 의해 DVS 영상이 인식된 결과를 표시할 수 있다.

한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 전자 장치(1000)의 구현 형태에 따라 전자 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다.

음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다.

진동 모터(1230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다.

일 실시 예에 의한 음향 출력부(1220) 및 진동 모터(1230)는 영상 인식 모델(130)이 가상의 DVS 영상 및 레이블 정보에 의하여 학습된 결과, 또는 상기 영상 인식 모델(130)에 의해 DVS 영상이 인식된 결과와 관련된 정보를 출력할 수 있다.

프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다.

전자 장치(1000)는 적어도 하나의 프로세서(1300)를 포함할 수 있다. 예를 들면, 전자 장치(1000)는 CPU(Central Processing Unit), GPU(Graphics Processing Unit), NPU(Neural Processing Unit) 등의 다양한 종류의 프로세서를 포함할 수 있다.

프로세서(1300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1700)로부터 프로세서(1300)에 제공되거나, 통신부(1500)를 통해 수신되어 프로세서(1300)로 제공될 수 있다. 예를 들면 프로세서(1300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.

일 실시 예에 의한 프로세서(1300)는 가상 시뮬레이터(110)를 이용하여, 가상의 DVS 영상을 생성하고, 상기 DVS 영상에 대한 레이블 정보를 생성할 수 있다. 일 실시 예에 의한 레이블 정보는, 영상 인식 모델(130)에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함할 수 있다. 일 실시 예에 의한 레이블 정보는, DVS 영상 생성 시 가상 시뮬레이터(110)에 의해 미리 설정된, 가상 환경 및 가상 환경에 배치된 가상 객체 중 적어도 하나에 대한 미리 정의한 특성 정보에 기초하여, DVS 영상이 생성될 때 마다 획득될 수 있다.

일 실시 예에 의한 프로세서(1300)는 상기 DVS 영상이 영상 인식 모델(130)에 의해 인식된 결과에 관한 정보와 상기 레이블 정보 간 차이가 최소화되도록, 영상 인식 모델(130)을 수정함으로써, 영상 인식 모델(130)을 학습할 수 있다.

또한, 일 실시 예에 의한 프로세서(1300)는 가상 시뮬레이터(110)에 의해 생성된 가상 환경에서, 적어도 하나의 카메라 시점을 결정하고, 적어도 하나의 카메라 시점에서 동시에 촬영된 적어도 하나의 가상의 DVS 영상을 생성할 수 있다. 따라서, 일 실시 예에 의한 영상 인식 모델은, 적어도 하나의 카메라 시점에 대한 적어도 하나의 가상의 DVS 영상에 기초하여, 학습될 수 있다.

또한, 일 실시 예에 의한 프로세서(1300)는 영상 인식 모델에 의해 인식될 수 있는 실제 DVS 영상이 촬영될 수 있는, 주변 환경에 관한 정보에 기초하여 가상 환경을 생성하고, 상기 가상 환경에 기초하여, 가상의 DVS 영상을 생성할 수 있다. 일 실시 예에 의한 가상의 DVS 영상은, 주변 환경에 관한 정보가 기준 값 이상 변경될 때마다, 상기 변경된 주변 환경에 관한 정보에 기초하여 생성될 수 있다.

일 실시 예에 의한 프로세서(1300)는, 영상 인식 모델(130)을 이용하여, DVS 영상을 인식하고, 그 결과를 출력할 수 있다.

센싱부(1400)는, 전자 장치(1000)의 상태 또는 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다.

센싱부(1400)는, 지자기 센서(Geomagnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시 예에 의한 센싱부(1400)는, DVS 영상을 촬영하기 위한 DVS 센서를 더 포함할 수 있다.

일 실시 예에 의하면, 센싱부(1400)에 의해 감지된 정보에 기초하여, 가상 환경이 생성되거나, 가상 환경의 객체가 생성되고 배치될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 센싱부(1400)에 의해 감지된 정보에 기초하여, 전자 장치(1000)의 DVS 센서에 의하여, 실제 DVS 영상으로 촬영될 수 있는 가능성이 높은, 가상 환경 및 객체를 생성할 수 있다. 예를 들면, 전자 장치(1000)의 정보에 기초하여, 전자 장치(1000)는 현재 전자 장치(1000)가 놓인 환경을 예측하고, 예측된 환경에 기초하여, 실제 DVS 영상으로 촬영될 수 있는 가능성이 높은, 가상 환경과, 가상 환경의 객체를 생성할 수 있다.

따라서, 일 실시 예에 의하면, 실제 DVS 영상으로 촬영될 가능성이 높은 가상의 DVS 영상에 기초하여, 영상 인식 모델(130)이 학습될 수 있다.

통신부(1500)는, 전자 장치(1000)가 서버(2000) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.

근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.

일 실시 예에 의한, 통신부(1500)는 영상 인식 모델(130)을 학습하는데 필요한 데이터를 송수신할 수 있다.

A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.

마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다.

메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다.

일 실시 예에 의한 메모리(1700)는 가상의 DVS 영상 및 레이블 정보를 생성하고, 영상 인식 모델(130)을 학습하는데 필요한 정보를 저장할 수 있다. 예를 들면, 메모리(1700)는, 영상 인식 모델(130)을 저장할 수 있다. 또한, 일 실시 예에 의한 메모리(1700)는, 가상의 DVS 영상을 생성하는 가상 시뮬레이터(110)에 관한 정보를 저장할 수 있다.

메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.

UI 모듈(1710)은, 애플리케이션 별로 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.

터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.

사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.

알림 모듈(1730)은 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.

도 4는 일 실시 예에 의한 영상 인식 모델(130)을 학습하는 방법을 나타낸 순서도이다.

도 4를 참조하면, 단계 410에서, 일 실시 예에 의한 전자 장치(1000)는 가상 시뮬레이터(310)를 이용하여 가상의 DVS 영상을 생성할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 가상 시뮬레이터(310)를 통해, 가상 환경을 생성하고, 가상 환경에 기초하여, 가상의 DVS 영상을 생성할 수 있다.

일 실시 예에 의한 가상 시뮬레이터(310)는, 영상 인식 모델에서 인식될 수 있는 실제 DVS 영상이 촬영될 수 있는 주변 환경에 관한 정보에 기초하여 가상 환경을 생성할 수 있다. 예를 들면, 전자 장치(1000)에 구비된 다양한 센서에 의해 감지된 정보에 기초하여, 전자 장치(1000)는 주변 환경에 관한 정보를 획득하고, 주변 환경에 관한 정보를 가상 시뮬레이터(310)로 전달할 수 있다.

일 실시 예에 의한 주변 환경에 관한 정보는, DVS 영상을 촬영하는 DVS 센서를 구비한 전자 장치(1000) 또는, 전자 장치(1000) 이외 다른 장치의 주변 환경에 관한 정보일 수 있다.

따라서, 일 실시 예에 의한, 가상 시뮬레이터(310)는 전자 장치(1000)의 주변 환경에 관한 정보에 기초하여, 가상 환경을 생성하고, 생성된 가상 환경에 기초하여 가상의 DVS 영상을 생성할 수 있다.

일 실시 예에 의한 주변 환경에 관한 정보는, 전자 장치(1000)의 위치, 이동 상태, 전자 장치(1000) 주변의 객체에 관하여 감지된 정보 등 전자 장치(1000)의 센서에 의해 감지될 수 있는 다양한 정보를 포함할 수 있다.

또한, 일 실시 예에 의한 전자 장치(1000)는, 전자 장치(1000)에서 획득된 주변 환경에 관한 정보가 기준값 이상 변경되었는지 여부를 판단할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경에 관한 정보가 기준값 이상 변경될 때마다 가상 시뮬레이터(310)로, 변경된 주변 환경에 관한 정보를 전달할 수 있다.

일 실시 예에 의한 가상 시뮬레이터(310)는, 전자 장치(1000)로부터 변경된 주변 환경에 관한 정보를 획득할 때마다, 가상 환경을 생성하고, 생성된 가상 환경에 기초하여 가상의 DVS 영상을 생성할 수 있다. 따라서, 일 실시 예에 의하면, 가상의 DVS 영상은, 주변 환경에 관한 정보가 기준값 이상 변경될 때 마다, 상기 변경된 주변 환경에 관한 정보에 기초하여, 생성될 수 있다. 또한, 일 실시 예에 의하면, 전자 장치(1000)의 변경된 주변 환경에 관한 정보에 기초하여, 영상 인식 모델이 지속적으로 학습될 수 있다.

단계 420에서, 일 실시 예에 의한 전자 장치(1000)는 가상의 DVS 영상에 대한 레이블 정보를 생성할 수 있다. 일 실시 예에 의한 레이블 정보는, 영상 인식 모델에 의하여, 가상의 DVS 영상이 인식된 결과에 대한 적어도 하나의 정답에 관한 정보를 포함할 수 있다. 일 실시 예에 의한 영상 인식 모델은, 영상 인식 모델에 의한 결과와, 상기 정답 정보 간 차이가 최소화되도록, 수정됨으로써, 영상 인식 모델이 갱신될 수 있다.

일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(310)에 의해 생성된 가상 환경에 관한 정보에 기초하여, 결정될 수 있다. 일 실시 예에 의한 가상 환경에 관한 정보는, 가상 환경이 생성된 후, 가상 객체가 가상 환경에 배치될 때, 상기 가상 환경 및 가상 객체에 대해 미리 정의된 특성 정보에 따라서 결정될 수 있다.

예를 들어, 가상 객체가 가상 환경에서 일정한 속도로 움직이도록 배치된 경우, 가상 객체의 식별 정보, 이동 정보 등에 기초하여, 레이블 정보가 결정될 수 있다.

일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(310)에 의해 미리 설정된 정보에 따라 구현되는 가상 환경 및 가상 객체에 기초하여 생성되므로, 가상 DVS 영상이 생성될 때마다 자동으로 생성될 수 있다. 또한, 레이블 정보는, 가상 시뮬레이터(310)에 의해 미리 설정된 정보에 따라 결정될 수 있으므로, 정확하고 상세한 정보를 포함할 수 있다.

단계 430에서, 일 실시 예에 의한 전자 장치(1000)는 가상의 DVS 영상 및 상기 가상의 DVS 영상과 대응되는 레이블 정보에 기초하여, 실제의 DVS 영상을 인식하기 위한 영상 인식 모델을 학습할 수 있다.

일 실시 예에 의하면, 영상 인식 모델의 학습을 위한 DVS 영상 데이터가 부족하더라도, 가상 시뮬레이터(310)에 의해 생성된 가상의 DVS 영상에 기초하여 영상 인식 모델이 충분히 학습될 수 있다. 또한, 일 실시 예에 의한 가상의 DVS 영상에 대한 레이블 정보는, 가상 시뮬레이터(310)에 의해 미리 설정된 정확하고 상세한 정보에 따라 결정될 수 있으므로, 상기 레이블 정보에 기초하여 영상 인식 모델이 학습됨에 따라서, 영상 인식 모델의 성능이 더 좋아질 수 있다.

도 5는 일 실시 예에 의한 가상 시뮬레이터(310)에 의해 생성된 가상 환경의 일 예를 나타낸 도면이다.

도 5를 참조하면, 일 실시 예에 의한 가상 시뮬레이터(310)는, 집 안 내부 환경이 구현된 가상 환경(500)을 생성하고, 가상 환경(500)에 복수의 객체들(511, 512, 520)을 배치할 수 있다.

일 실시 예에 있어서, 가상 환경(500)에 배치될 수 있는 복수의 객체들(511, 512, 520)은, 상기 가상 환경(500)과 대응되는 실제 환경에서, 실제 DVS 영상으로 촬영될 가능성이 있는 객체일 수 있다.

일 실시 예에 의한 가상 환경(500)에는, 고정된 객체인, 쇼파(512) 및 탁자(511)와, 이동하면서 가상의 DVS 영상을 촬영하는 객체인, 로봇 청소기(520)가 배치될 수 있다. 쇼파(512), 탁자(511) 및 로봇 청소기(520)는, 가상 환경(500)에서 미리 지정된 위치에 배치될 수 있다. 또한, 로봇 청소기(520)는, 미리 지정된 경로 및 속도에 따라 가상 환경(500)에서 이동하도록 배치될 수 있다.

일 실시 예에 의한 가상의 DVS 영상은, 가상 환경(500)에 배치된 복수 개의 DVS 센서(521, 522, 523)를 기준으로 하는 각각의 카메라 시점에서 생성될 수 있다. 일 실시 예에 의하면, 가상 환경(500)에서, 서로 다른 카메라 시점(view point)에서 동시에 촬영된 복수 개의 가상의 DVS 영상에 기초하여, 영상 인식 모델(330)이 학습될 수 있다. 또한, 일 실시 예에 의한 가상의 DVS 영상은, 시간 흐름에 따라, 로봇 청소기(520)가 이동하는 장면이 서로 다른 카메라 시점에서 촬영된 복수 개의 영상 시퀀스로서, 획득될 수 있다.

고정된 위치에 배치된 DVS 센서(522, 523)는, 고정된 객체인 탁자(511) 및 쇼파(512)를 제외한, 움직이는 객체인, 로봇 청소기(520)가 감지된 가상의 DVS 영상을 획득할 수 있다. 반면, 이동하는 로봇 청소기(520)에 배치된 DVS 센서(521)는, DVS 센서(521)의 이동으로 인해, 고정된 객체도 DVS 영상에서는 움직이는 객체로 감지될 수 있다. 따라서, 로봇 청소기(520)에 배치된 DVS 센서(521)는, 움직이는 객체뿐만 아니라, 고정된 객체인 탁자(511) 및 쇼파(512)도 감지된 가상의 DVS 영상을 획득할 수 있다.

따라서, 일 실시 예에 의하면, 다른 시점 및 다른 이동 상태에서 촬영된 복수 개의 가상의 DVS 영상에 기초하여, 더 정밀하고 많은 데이터에 기초한, 영상 인식 모델(330) 학습이 가능하다.

도 6은 일 실시 예에 의한 가상 데이터에 기초하여, 영상 인식 모델을 학습하는 방법을 나타낸 순서도이다.

일 실시 예에 의한 가상 데이터는, 가상 환경에 기초하여 생성된, 가상의 DVS 영상 및 레이블 정보의 쌍을 포함할 수 있다.

단계 610에서, 일 실시 예에 의한 전자 장치(1000)는, 가상의 DVS 영상을 획득하기 위해, DVS 영상에 대한 가상 환경을 생성할 수 있다. 일 실시 예에 의한 가상 환경은, 가상 환경의 특성 정보(ex. 가상 환경의 크기, 객체, 밝기 등)이 미리 정의됨으로써, 생성될 수 있다. 예를 들면, 전자 장치(1000)에 의해 감지된 주변 환경 정보에 기초하여, 가상 환경과 관련된 특성 정보가 미리 설정될 수 있다.

단계 620에서, 일 실시 예에 의한 전자 장치(1000)는, 가상 환경에 기초하여, 가상의 DVS 영상을 생성할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 가상 환경을 생성한 후, 가상의 DVS 영상이 촬영되는 적어도 하나의 시점(view point)을 결정할 수 있다.

일 실시 예에 의한 가상의 DVS 영상이 촬영되는 적어도 하나의 시점은, 고정 또는 이동될 수 있다. 일 실시 예에 의한, 가상의 DVS 영상이 촬영되는 적어도 하나의 시점이 이동하는 시점인 경우, 이동 경로 및 속도 등, 이동에 관한 정보가 설정되고, 설정된 정보에 따라 가상의 DVS 영상이 생성될 수 있다.

예를 들어, 가상의 DVS 영상이, 가상 환경에 배치된, 집안에서 이동하는 로봇 청소기에 포함된 DVS 센서에 의하여 촬영되는 경우, 상기 로봇 청소기의 특성 정보에 기초하여 로봇 청소기의 이동 경로 및 속도가 설정될 수 있다. 상기 설정된 이동 정보에 따라서, 로봇 청소기의 DVS 센서에 의해 촬영된, 가상의 DVS 영상이 생성될 수 있다.

단계 630에서, 일 실시 예에 의한 전자 장치(1000)는 가상 환경에 기초하여, 단계 620에서 생성된 가상의 DVS 영상에 대한 레이블 정보를 생성할 수 있다. 일 실시 예에 의한 레이블 정보는, 영상 인식 모델에 의해 상기 가상의 DVS 영상이 인식된 결과에 대한 정답을 나타내는 정답 정보를 포함할 수 있다.

일 실시 예에 의한 레이블 정보는, 상술한 가상 환경에 대해 미리 설정된 특성 정보, DVS 영상을 촬영하는 DVS 센서의 이동 경로 및 속도에 대해 미리 설정된 정보, DVS 영상에 포함된 가상 객체와 관련하여 미리 설정된 특성 정보(ex. 위치, 이동 속도, 이동 경로, 식별 정보, 상태) 등에 기초하여, 상기 정답 정보가 결정됨에 따라, 획득될 수 있다.

일 실시 예에 의한 레이블 정보는, 가상 환경을 생성하고, 가상 객체를 배치하기 위하여, 미리 설정되어야 하는 정보에 기초하여, 결정될 수 있다. 따라서, 가상의 DVS 영상이 생성된 시점(time point)에서, 상기 레이블 정보가 결정되는데 이용되는 정보는, 가상 환경을 생성하고, 가상 객체를 배치하기 위하기 위해 이미 전자 장치(1000)에 저장되어 있는 정보일 수 있다. 일 실시 예에 의한 레이블 정보는, 전자 장치(1000)에 가상 환경과 관련하여 이미 저장된 정보에 기초하여, 사용자의 다른 입력 없이, 자동으로 결정될 수 있다.

또한, 일 실시 예에 의한 레이블 정보는, 영상 인식 모델에 의해 출력될 수 있는 정보에 대한 정답을 나타내는, 적어도 하나의 정답 정보를 포함할 수 있다. 예를 들어, 영상 인식 모델에 의해, 영상 인식 결과로서, 영상에서 인식된 객체에 대한 식별 정보, 상태 정보, 이동 정보 등이 출력될 수 있는 경우, 레이블 정보는, 상술한 객체 인식 정보, 객체 상태 정보, 객체 이동 정보 등과 각각 대응되는 적어도 하나의 정답 정보를 포함할 수 있다.

단계 640에서, 일 실시 예에 의한 전자 장치(1000)는, 적어도 하나의 가상의 DVS 영상 및 각 DVS 영상과 대응되는 레이블 정보를 포함하는, 가상 데이터를 생성할 수 있다. 또한, 단계 650에서, 일 실시 예에 의한 전자 장치(1000)는, 가상 데이터에 기초하여, 영상 인식 모델을 학습할 수 있다.

일 실시 예에 의하면, 가상의 DVS 영상에 대한 영상 인식 모델에 의한 인식 결과가 레이블 정보의 정답 정보에 가까운 값을 가지도록, 영상 인식 모델이 수정됨으로써, 영상 인식 모델에 대한 학습이 수행될 수 있다.

도 7은 일 실시 예에 의한 전자 장치(1000) 및 외부 장치(700)의 일 예를 나타낸 도면이다.

도 7을 참조하면, 일 실시 예에 의한 전자 장치(1000)에 의해 학습된 영상 인식 모델이 외부 장치(700)로 전달될 수 있다.

일 실시 예에 의한 외부 장치(700)는, 전자 장치(1000)에 의해 학습된 영상 인식 모델을 탑재하고, 영상 인식 모델에 기초하여, 외부 장치(700)에서 획득된 실제 DVS 영상을 인식할 수 있는 장치를 포함할 수 있다. 예를 들면, 외부 장치(700)는, 전자 장치(1000)와 연결될 수 있는, 로봇 청소기, 스마트 냉장고, 스마트 TV, 카메라 등을 포함할 수 있으며, 상술한 예에 한하지 않고, 다양한 종류의 장치를 포함할 수 있다.

일 실시 예에 의한 전자 장치(1000)는, 각각의 외부 장치(700)에서 촬영될 수 있는, 가상의 DVS 영상을 생성하고, 가상의 DVS 영상에 기초하여 영상 인식 모델을 학습할 수 있다. 예를 들어, 전자 장치(1000)는, 외부 장치(700) 중 로봇 청소기의 이동 경로 및 속도에 따라 로봇 청소기에 구비된 DVS 센서에 의하여 촬영될 수 있는 가상의 DVS 영상을 생성할 수 있다. 또한, 전자 장치(1000)는, 외부 장치(700) 중 스마트 TV, 스마트 냉장고 등의 위치에 따라, 스마트 TV, 스마트 냉장고 각각에 구비된 DVS 센서에 의하여 촬영될 수 있는 가상의 DVS 영상을 생성할 수 있다.

일 실시 예에 의한 전자 장치(1000)는, 상기 각각의 외부 장치(700)에 의하여 촬영될 수 있는 가상의 DVS 영상에 대한 레이블 정보를, 가상 환경을 생성하기 위하여, 미리 설정된 정보에 기초하여 획득할 수 있다. 상기 미리 설정된 정보는, 가상 환경 및 가상 환경의 가상 객체 중 적어도 하나에 대하여 미리 정의된 특성 정보일 수 있다.

일 실시 예에 의한 전자 장치(1000)는, 적어도 하나의 외부 장치(700)에 대해 생성된 가상의 DVS 영상 및 레이블 정보에 기초하여, 영상 인식 모델을 학습하고, 학습된 영상 인식 모델을 적어도 하나의 외부 장치(700)로 전달할 수 있다.

일 실시 예에 의한 적어도 하나의 외부 장치(700)는, 전자 장치(1000)로부터 수신된 영상 인식 모델에 기초하여, 각 외부 장치(700)에서 획득된 DVS 영상을 인식할 수 있다.

예를 들어, 외부 장치(700) 중 스마트 TV는, 영상 인식 모델을 이용하여, 스마트 TV에서 촬영된 DVS 영상으로부터, 사용자의 움직임을 감지하고, 사용자의 TV 시청 여부를 결정할 수 있다. 일 실시 예에 의한 스마트 TV는 사용자의 TV 시청 여부에 기초하여, 다양한 동작, 예를 들면, 스마트 TV의 전원을 끄거나 켜는 동작을 수행할 수 있다.

또 다른 예로, 외부 장치(700) 중 로봇 청소기는, 영상 인식 모델을 이용하여, 로봇 청소기에서 촬영된 DVS 영상으로부터, 사용자의 이동 경로를 예측할 수 있다. 일 실시 예에 의한 로봇 청소기는 사용자의 이동 경로에 기초하여, 로봇 청소기의 이동 경로를 결정하고, 결정된 경로에 따라 이동하면서 바닥 청소를 수행할 수 있다.

또한, 일 실시 예에 의한 전자 장치(1000)는, 적어도 하나의 외부 장치(700)로, 영상 인식 모델을 전달하는 대신, 전자 장치(1000)에서, 각 외부 장치(700)에서 획득된 DVS 영상을 수신할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 각 외부 장치(700)로부터 수신된 DVS 영상을, 일 실시 예에 따라 학습된 영상 인식 모델에 기초하여, 인식할 수 있다. 또한, 전자 장치(1000)는, 각 외부 장치(700)로부터 수신된 DVS 영상이 인식된 결과에 따라, 동작을 수행하거나 각 외부 장치(700)로 상기 결과와 관련된 정보를 전송할 수 있다.

일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 또는 프로그램 모듈을 포함하며, 임의의 정보 전달 매체를 포함한다.

또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

영상 인식 모델을 학습하는 방법에 있어서,
가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하는 단계;
상기 DVS 영상에 대하여, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하는 단계; 및
상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과와 상기 레이블 정보 간 차이가 최소화되도록, 상기 영상 인식 모델을 수정함으로써, 상기 영상 인식 모델을 학습하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 가상의 DVS 영상은
상기 가상 시뮬레이터에 의해 생성된 가상 환경 및 상기 가상 환경에 배치된 가상 객체에 기초하여 생성되는, 방법.
제2항에 있어서, 상기 레이블 정보는,
상기 가상 환경 및 상기 가상 객체 중 적어도 하나에 대하여 미리 정의된 특성 정보에 기초하여 획득되는, 방법.
제2항에 있어서,
상기 가상 환경과 대응되는 실제 환경에서, 상기 영상 인식 모델에 의해 인식될 수 있는, 실제 DVS 영상으로 촬영될 수 있는 객체가, 상기 가상 객체로서, 상기 가상 환경에서 배치되는, 방법.
제1항에 있어서, 상기 가상의 DVS 영상을 생성하는 단계는
상기 가상 시뮬레이터에 의해 생성된 가상 환경에서, 적어도 하나의 카메라 시점을 결정하는 단계; 및
상기 적어도 하나의 카메라 시점에서 동시에 촬영된 적어도 하나의 가상의 DVS 영상을 생성하는 단계를 포함하고,
상기 영상 인식 모델은, 상기 적어도 하나의 가상의 DVS 영상에 기초하여, 학습되는, 방법.
제1항에 있어서, 상기 가상 시뮬레이터에 의해,
상기 영상 인식 모델에 의해 인식될 수 있는, 실제 DVS 영상이 촬영될 수 있는, 주변 환경에 관한 정보에 기초하여, 가상 환경이 생성되고, 상기 가상 환경에 기초하여, 상기 가상의 DVS 영상이 생성되는, 방법.
제6항에 있어서, 상기 가상의 DVS 영상은,
상기 주변 환경에 관한 정보가 기준 값 이상 변경될 때마다, 상기 변경된 주변 환경에 관한 정보에 기초하여, 생성되는, 방법.
영상 인식 모델을 학습하는 전자 장치에 있어서,
영상 인식 모델을 저장하는 메모리; 및
가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하고, 상기 DVS 영상에 대하여, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하고, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과와 상기 레이블 정보 간 차이가 최소화되도록, 상기 영상 인식 모델을 수정함으로써, 상기 영상 인식 모델을 학습하는 적어도 하나의 프로세서를 포함하는, 전자 장치.
제8항에 있어서, 상기 가상의 DVS 영상은
상기 가상 시뮬레이터에 의해 생성된 가상 환경 및 상기 가상 환경에 배치된 가상 객체에 기초하여 생성되는, 전자 장치.
제9항에 있어서, 상기 레이블 정보는,
상기 가상 환경 및 상기 가상 객체 중 적어도 하나에 대하여 미리 정의된 특성 정보에 기초하여 획득되는, 전자 장치.
제9항에 있어서,
상기 가상 환경과 대응되는 실제 환경에서, 상기 영상 인식 모델에 의해 인식될 수 있는 실제 DVS 영상으로 촬영될 수 있는 객체가, 상기 가상 객체로서, 상기 가상 환경에서 배치되는, 전자 장치.
제8항에 있어서, 상기 적어도 하나의 프로세서는
상기 가상 시뮬레이터에 의해 생성된 가상 환경에서, 적어도 하나의 카메라 시점을 결정하고, 상기 적어도 하나의 카메라 시점에서 동시에 촬영된 적어도 하나의 가상의 DVS 영상을 생성하고,
상기 영상 인식 모델은, 상기 적어도 하나의 가상의 DVS 영상에 기초하여, 학습되는, 전자 장치.
제8항에 있어서, 상기 가상 시뮬레이터에 의해,
상기 영상 인식 모델에 의해 인식될 수 있는, 실제 DVS 영상이 촬영될 수 있는, 주변 환경에 관한 정보에 기초하여, 가상 환경이 생성되고, 상기 가상 환경에 기초하여, 상기 가상의 DVS 영상이 생성되는, 전자 장치.
제13항에 있어서, 상기 가상의 DVS 영상은,
상기 주변 환경에 관한 정보가 기준 값 이상 변경될 때마다, 상기 변경된 주변 환경에 관한 정보에 기초하여, 생성되는, 전자 장치.
제1항 내지 제7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.