KR20200138668A - 동작 정보를 이용한 고해상도 동영상 생성 방법 및 장치 - Google Patents

동작 정보를 이용한 고해상도 동영상 생성 방법 및 장치 Download PDF

Info

Publication number
KR20200138668A
KR20200138668A KR1020200063777A KR20200063777A KR20200138668A KR 20200138668 A KR20200138668 A KR 20200138668A KR 1020200063777 A KR1020200063777 A KR 1020200063777A KR 20200063777 A KR20200063777 A KR 20200063777A KR 20200138668 A KR20200138668 A KR 20200138668A
Authority
KR
South Korea
Prior art keywords
video
resolution
time
generating
transmission
Prior art date
Application number
KR1020200063777A
Other languages
English (en)
Other versions
KR102313160B1 (ko
Inventor
임수철
고대관
이동한
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to PCT/KR2020/006917 priority Critical patent/WO2020242221A1/ko
Publication of KR20200138668A publication Critical patent/KR20200138668A/ko
Application granted granted Critical
Publication of KR102313160B1 publication Critical patent/KR102313160B1/ko

Links

Images

Classifications

    • H04N5/23232
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • H04N5/145Movement estimation

Abstract

동작 정보를 이용한 고해상도 동영상 생성 방법 및 장치가 개시된다. 동영상 생성 방법은 고해상도의 원본 동영상에 기초한 저해상도의 전송 동영상을 수신하는 단계; 상기 전송 동영상에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치의 동작 정보, 및 상기 오브젝트들, 또는 제어 장치의 위치 정보를 수신하는 단계; 상기 전송 동영상과 상기 동작 정보 및 상기 위치 정보를 이용하여 상기 원본 동영상에 포함되어 있으나 상기 전송 동영상에 누락된 프레임에서의 상기 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성하는 단계; 및 상기 예측 이미지들 중에 진짜 이미지(real image)를 판별하여 상기 원본 동영상에 대응되는 고해상도의 출력 동영상을 생성하는 단계를 포함할 수 있다.

Description

동작 정보를 이용한 고해상도 동영상 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING HIGH-RESOLUTION VIDEO USING MOTION INFORMATION}
본 발명은 동영상 생성 장치 및 방법에 관한 것으로, 보다 구체적으로는 동작 정보를 이용하여 저해상도의 전송 동영상으로부터 고해상도 동영상을 생성하는 방법 및 장치에 관한 것이다.
시스템의 네트워크 부하를 절감하기 위하여 카메라에서 생성된 고해상도의 원본 동영상에서 일부 프레임을 추출한 저해상도의 동영상을 전송하고, 수신 장치가 수신한 저해상도의 동영상에서 원본 동영상과 동일한 고해상도의 출력 동영상을 생성하는 기술이 개발되었다.
종래의 고해상도 동영상 생성 기술은 저해상도 영상에 포함된 프레임들만으로 전송되지 않은 프레임들을 예측하여 고해상도 동영상을 생성하고 있으므로, 예측 정확도에 따라 고해상도 영상의 손실 여부가 결정된다. 그러나, 예측 정확도는 예측하는 시간에 반비례하므로, 예측해야 하는 시간이 증가할수록 예측 정확도가 감소하여 생성된 고해상도 영상의 손실도 증가하는 문제가 있었다.
또한, 카메라에서 동영상을 생성한 후, 수신 장치로 전송하면, 동영상이 전송되는 시간에 의하여 지연이 발생하여 수신 장치가 수신한 동영상은 일정 시간 전에 카메라에서 촬영된 영상일 수 있다. 즉, 수신 장치가 수신한 동영상은 이전 시간의 동영상이므로, 수신 장치가 현재 시간의 동영상을 표시하지 못하는 실정이다.
따라서, 수신한 동영상을 이용하여 현재 시간의 동영상 및 고해상도 동영상을 생성하는 방법이 요청되고 있다.
본 발명은 오브젝트를 제어하는 제어 장치의 동작 정보, 및 오브젝트들, 또는 제어 장치의 위치 정보를 이용하여 고해상도의 원본 동영상의 프레임들 중 일부로 구성된 저해상도의 전송 동영상으로부터 고해상도의 출력 동영상을 생성하는 장치 및 방법을 제공할 수 있다.
또한, 본 발명은 이미지에 비하여 데이터가 작은 동작 정보 및 위치 정보를 이용하여 저해상도의 전송 동영상에 따른 예측 이미지의 정확도를 증가시킴으로써, 고해상도의 출력 동영상과 카메라에서 촬영된 고해상도의 원본 동영상 간의 유사도를 높이면서 동영상 전송에 소요되는 데이터의 증가를 최소화하는 장치 및 방법을 제공할 수 있다.
그리고, 본 발명은 전송 과정에 따라 지연되어 수신한 이전 시간의 동영상과 실시간으로 수신하는 동작 정보 및 위치 정보를 이용하여, 카메라에서 촬영되었으나 아직 수신하지 못한 현재 시간의 동영상을 생성함으로써, 오브젝트와 관련된 동영상을 실시간으로 출력하는 장치 및 방법을 제공할 수 있다.
본 발명의 일실시예에 따른 동영상 생성 방법은 고해상도의 원본 동영상에 기초한 저해상도의 전송 동영상을 수신하는 단계; 상기 전송 동영상에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치의 동작 정보, 및 상기 오브젝트들, 또는 제어 장치의 위치 정보를 수신하는 단계; 상기 전송 동영상과 상기 동작 정보 및 상기 위치 정보를 이용하여 상기 원본 동영상에 포함되어 있으나 상기 전송 동영상에 누락된 프레임에서의 상기 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성하는 단계; 및 상기 예측 이미지들 중에 진짜 이미지(real image)를 판별하여 상기 원본 동영상에 대응되는 고해상도의 출력 동영상을 생성하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 동영상 생성 방법의 전송 동영상은, 오브젝트들 간의 상호 작용을 촬영하여 생성한 고해상도의 원본 동영상에서 추출한 일부의 프레임들로 구성된 동영상일 수 있다.
본 발명의 일실시예에 따른 동영상 생성 방법의 동작 정보는, 상기 제어 장치가 상기 오브젝트에 가하는 힘, 상기 오브젝트에 대한 상기 제어 장치의 그립 각도 중 적어도 하나를 포함할 수 있다.
본 발명의 일실시예에 따른 동영상 생성 방법은 상기 원본 동영상의 프레임들 중에서 상기 전송 동영상에 포함되지 않은 프레임을 상기 진짜 이미지로 판별된 예측 이미지들과 비교하는 단계; 및 비교 결과에 따라 판별 모델을 학습하는 단계를 더 포함하는 고해상도 동영상 생성 방법.
본 발명의 일실시예에 따른 동영상 생성 방법의 고해상도 동영상을 생성하는 단계는, 판별 모델을 이용하여 상기 예측 이미지들을 진짜 이미지 또는 가짜 이미지(fake image)로 판별하고, 진짜 이미지로 판별된 예측 이미지들을 결합하여 상기 출력 동영상을 생성할 수 있다.
본 발명의 일실시예에 따른 동영상 생성 방법의 진짜 이미지는, 상기 원본 동영상의 프레임들 중에서 전송 동영상으로 추출되지 않은 프레임과의 유사도가 임계값 이상인 예측 이미지이고, 상기 가짜 이미지는, 상기 원본 동영상의 프레임들 중에서 전송 동영상으로 추출되지 않은 프레임과의 유사도가 임계값 미만인 예측 이미지일 수 있다.
본 발명의 일실시예에 따른 동영상 생성 방법의 판별 모델은, 테스트용 전송 동영상들, 상기 테스트용 전송 동영상들에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치의 동작 정보, 및 상기 오브젝트들, 또는 제어 장치의 위치 정보를 이용하여 상기 오브젝트들 간의 상호 작용 힘의 변화에 대한 테스트 예측 이미지들을 생성하고, 테스트용 전송 동영상과 검증 정보를 이용하여 상기 테스트 예측 이미지들 중에서 진짜 이미지를 판별하기 위한 진짜 특징 정보를 학습하며, 상기 테스트용 전송 동영상과 상기 예측 이미지를 이용하여 상기 테스트 예측 이미지들 중에서 가짜 이미지를 판별하기 위한 가짜 특징 정보를 학습할 수 있다.
본 발명의 일실시예에 따른 동영상 생성 방법의 판별 모델은, 상기 동작 정보, 및 상기 위치 정보를 LSTM-FC(Long Short Term Memory - Fully Connected) 네트워크에 입력하여 제1 특징 맵을 생성하고, 상기 테스트용 전송 동영상들이 촬영된 시간과 상기 테스트용 전송 동영상들을 획득한 시간 간의 차이를 나타내는 시간 정보를 상기 제1 특징 맵과 병합하여 제2 특징 맵을 생성하며, 상기 테스트용 전송 동영상들을 부호화하여 제3 특징 맵을 생성하고, 상기 제3 특징 맵과 상기 제2 특징 맵을 병합하여 제4 특징 맵을 생성하며, 상기 제4 특징 맵을 복호화하여 상기 예측 이미지들을 생성하는 고해상도 동영상 생성 방법.
본 발명의 일실시예에 따른 동영상 생성 방법의 판별 모델은, 상기 테스트 예측 이미지와 검증 정보를 이용하여 MSE(Mean squared error) 손실 함수, GDL(Gradient Difference loss) 손실 함수, 및 적대적(Adversarial) 손실 함수를 결정하고, 상기 MSE 손실 함수, 상기 GDL 손실 함수, 및 상기 적대적 손실 함수를 조합하여 진짜 특징 정보 및 가짜 특징 정보를 학습하는 판별기의 손실 함수를 결정할 수 있다.
본 발명의 일실시예에 따른 동영상 생성 방법의 전송 동영상은, 상기 고해상도의 원본 동영상이 촬영된 시점으로부터 일정 시간 이상 지연된 시간에 수신되는 이전 시간의 동영상이고, 상기 예측 이미지들을 생성하는 단계는, 상기 동작 정보 및 상기 위치 정보를 이용하여 상기 전송 동영상에 누락된 프레임 및 상기 전송 동영상에 포함된 프레임의 현재 시간에서의 상기 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성할 수 있다.
본 발명의 일실시예에 따른 실시간 동영상 생성 방법은 전송 과정에서의 지연에 따라 이전 시간의 동영상을 수신하는 단계; 상기 동영상에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치의 현재 동작 정보, 및 상기 오브젝트들, 또는 제어 장치의 현재 위치 정보를 수신하는 단계; 상기 이전 시간의 동영상과 상기 현재 동작 정보 및 상기 현재 위치 정보를 이용하여 현재 시간에서의 상기 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성하는 단계; 및 상기 예측 이미지들 중에 진짜 이미지(real image)를 판별하여 현재 시간의 동영상을 생성하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 실시간 동영상 생성 방법의 이전 시간의 동영상은, 카메라가 이전 시간에 오브젝트들 간의 상호 작용을 촬영하여 생성한 동영상이 전송 과정에서 지연되어 현재 시간에 수신한 동영상일 수 있다.
본 발명의 일실시예에 따른 실시간 동영상 생성 방법의 상기 이전 시간의 동영상은, 카메라가 이전 시간에 오브젝트들 간의 상호 작용을 촬영하여 생성한 고해상도의 원본 동영상에서 추출한 일부의 프레임들로 구성된 저해상도의 전송 동영상일 수 있다.
본 발명의 일실시예에 따른 실시간 동영상 생성 방법의 예측 이미지들을 생성하는 단계는, 상기 원본 동영상에 포함되어 있으나 상기 전송 동영상에 누락된 프레임의 현재 시간에서의 상기 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성할 수 있다.
본 발명의 일실시예에 따른 동영상 생성 장치는 고해상도의 원본 동영상에 기초한 저해상도의 전송 동영상을 수신하는 이미지 수신부; 상기 전송 동영상에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치의 동작 정보, 및 상기 오브젝트들, 또는 제어 장치의 위치 정보를 수신하는 동작 정보 수신부; 상기 전송 동영상과 상기 동작 정보 및 상기 위치 정보를 이용하여 상기 원본 동영상에 포함되어 있으나 상기 전송 동영상에 누락된 프레임에서의 상기 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성하는 예측 이미지 생성부; 및 상기 예측 이미지들 중에 진짜 이미지(real image)를 판별하여 상기 원본 동영상에 대응되는 고해상도의 출력 동영상을 생성하는 동영상 생성부를 포함할 수 있다.
본 발명의 일실시예에 의하면, 오브젝트를 제어하는 제어 장치의 동작 정보, 및 오브젝트들, 또는 제어 장치의 위치 정보를 이용하여 고해상도의 원본 동영상의 프레임들 중 일부로 구성된 저해상도의 전송 동영상으로부터 고해상도의 출력 동영상을 생성할 수 있다.
또한, 본 발명의 일실시예에 의하면, 이미지에 비하여 데이터가 작은 동작 정보 및 위치 정보를 이용하여 저해상도의 전송 동영상에 따른 예측 이미지의 정확도를 증가시킴으로써, 고해상도의 출력 동영상과 카메라에서 촬영된 고해상도의 원본 동영상 간의 유사도를 높이면서 동영상 전송에 소요되는 데이터의 증가를 최소화할 수 있다.
그리고, 본 발명의 일실시예에 의하면, 전송 과정에 따라 지연되어 수신한 이전 시간의 동영상과 실시간으로 수신하는 동작 정보 및 위치 정보를 이용하여, 카메라에서 촬영되었으나 아직 수신하지 못한 현재 시간의 동영상을 생성함으로써, 오브젝트와 관련된 동영상을 실시간으로 출력할 수 있다.
도 1은 본 발명의 일실시예에 따른 동영상 생성 장치를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따라 저해상도의 전송 동영상에서 고해상도의 출력 동영상을 생성하는 과정을 나타내는 도면이다.
도 3은 본 발명의 일실시예에 따른 동영상 생성 장치의 동작을 나타내는 도면이다.
도 4는 본 발명의 일실시예에 따른 동영상 생성 장치의 일례이다.
도 5는 도 4에 도시된 생성기의 상세 도면이다.
도 6은 도 5에 도시된 U-net의 상세 도면이다.
도 7은 도 4에 도시된 판별기의 상세 도면이다.
도 8은 본 발명의 일실시예에 따른 제어 장치의 일례이다.
도 9는 본 발명의 일실시예에 따른 판별 모델을 학습하기 위하여 사용한 테스트 세트의 일례이다.
도 10은 본 발명의 일실시예에 따른 학습 네트워크에 대한 테스트 세트의 재구성 과정을 나타내는 도면이다.
도 11은 본 발명의 일실시예에 따라 오브젝트 별로 생성한 예측 이미지 및 원본 동영상의 일례이다.
도 12은 본 발명의 일실시예에 따라 생성한 동영상과 기존 방법에 따라 생성한 동영상 및 원본 동영상의 일례이다.
도 13은 본 발명의 일실시예에 따른 RMSE, PSNR 및 SSIM의 일례이다.
도 14는 본 발명의 일실시예에 따른 고해상도 동영상 생성 방법을 도시한 플로우차트이다.
도 15는 본 발명의 일실시예에 따른 실시간 동영상 생성 방법을 도시한 플로우차트이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 동영상 생성 장치를 나타내는 도면이다.
동영상 생성 장치(100)는 도 1에 도시된 바와 같이 이미지 수신부(110), 동작 정보 수신부(120), 예측 이미지 생성부(130), 판별부(140), 및 동영상 생성부(150)를 포함할 수 있다. 이때, 예측 이미지 생성부(130), 판별부(140), 및 동영상 생성부(150)는 서로 다른 프로세서이거나, 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다.
이미지 수신부(110)는 카메라(101)와 유무선으로 연결된 통신 인터페이스를 포함할 수 있다. 이때, 카메라(101)는 오브젝트들 간의 상호 작용을 촬영하여 고해상도의 원본 동영상을 생성할 수 있다. 그리고, 카메라(101)는 고해상도의 원본 동영상에 기초한 저해상도의 전송 동영상을 생성할 수 있다. 예를 들어, 전송 동영상은 고해상도의 원본 동영상의 프레임들 중 기 설정된 시간 간격으로 추출된 일부의 프레임들로 구성될 수 있다. 다음으로, 카메라(101)는 저해상도의 전송 동영상을 이미지 수신부(110)로 전송할 수 있다.
오브젝트들 간의 상호 작용은 타겟이 되는 오브젝트와 제어 장치(102)를 포함한 다른 오브젝트가 접촉함으로써, 오브젝트들 각각의 위치가 이동하거나, 오브젝트들 중 적어도 하나의 형상이 변형되는 것을 의미할 수 있다.
이때, 이미지 수신부(110)는 통신 인터페이스를 통하여 카메라(101)로부터 수신한 저해상도의 전송 동영상을 예측 이미지 생성부(130)로 전달할 수 있다. 또한, 이미지 수신부(110)와 카메라(101) 간의 유무선 상태에 따라 카메라(101)가 전송한 저해상도의 전송 동영상이 이미지 수신부(110)에 수신될 때까지 일정 시간이 경과될 수 있다. 따라서, 이미지 수신부(110)가 수신한 저해상도의 전송 동영상은 카메라(101)가 고해상도 동영상을 촬영된 시각보다 일정 시간이 지연된 시각에 수신될 수 있다. 그러므로, 이미지 수신부(110)가 수신한 전송 동영상은 현재 시간의 동영상이 아니라 현지 시간을 기준으로 일정 시간 이전에 카메라(101)에서 촬영된 이전 시간의 동영상일 수 있다.
동작 정보 수신부(120)는 오브젝트들 간의 상호 작용과 관련된 제어 장치(102)과 유무선으로 연결된 통신 인터페이스를 포함할 수 있다. 이때, 제어 장치(102)는 오브젝트들의 위치, 또는 상태를 제어할 수 있는 장치일 수 있다. 예를 들어, 제어 장치(102)는 오브젝트를 잡아서 이동 시키거나, 오브젝트에 힘을 가할 수 있는 로봇 팔일 수 있다. 이때, 제어 장치(102)는 로봇 팔이 오브젝트들 간의 상호 작용을 발생시키기 위하여 오브젝트들에 가한 힘, 또는 로봇 팔이 오브젝트들 간의 상호 작용을 발생시키기 위하여 가동한 관절들의 이동 범위 및 관절들에 가한 힘 중 적어도 하나가 포함된 동작 정보를 동작 정보 수신부(120)로 전송할 수 있다. 예를 들어, 동작 정보는 로봇 팔과 같은 제어 장치(102)가 오브젝트에 가하는 힘, 오브젝트에 대한 제어 장치(102)의 그립 각도 중 적어도 하나를 포함할 수 있다.
또한, 카메라(101)가 차량의 충돌 실험을 촬영하는 경우, 제어 장치(102)는 차량 및 차량과 관련된 센서일 수 있다. 이때, 차량의 엑셀 및 브레이크의 상태를 측정하는 센서는 차량의 엑셀, 또는 브레이크에 가해진 힘이 포함된 동작 정보를 동작 정보 수신부(120)로 전송할 수 있다.
그리고, 제어 장치(102), 또는 제어 장치(102)의 외부에 장착된 위치 센서는 오브젝트들 간의 상호 작용에 의하여 변경된 오브젝트들의 위치, 및 제어 장치(102)의 위치 중 적어도 하나가 포함된 위치 정보를 동작 정보 수신부(120)로 전송할 수 있다.
이때, 동작 정보 수신부(120)는 통신 인터페이스를 통하여 제어 장치(102)로부터 수신한 동작 정보 및 위치 정보를 예측 이미지 생성부(130)로 전달할 수 있다.
예측 이미지 생성부(130)는 이미지 수신부(110)로부터 전달받은 저해상도의 전송 동영상과 동작 정보 수신부(120)로부터 수신한 동작 정보 및 위치 정보를 이용하여 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성할 수 있다. 이때, 예측 이미지 생성부(130)는 원본 동영상에 포함되어 있으나 전송 동영상에 누락된 프레임에서의 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성할 수 있다.
구체적으로, 예측 이미지 생성부(130)는 누락된 프레임에 대응하는 시간의 동작 정보 및 위치 정보를 사용하여 제어 장치(102)의 동작과 오브젝트의 위치를 실시간으로 확인할 수 있다. 그리고, 예측 이미지 생성부(130)는 확인한 제어 장치(102)의 동작과 오브젝트의 위치를 누락된 프레임에 대한 예측 이미지들을 생성하는 과정에 적용함으로써, 전송 동영상에 포함된 프레임에서 예측하지 못하는 방향이나 크기로 오브젝트의 위치 변화 또는 오브젝트의 형상 변화가 발생하더라도, 오브젝트의 위치 변화, 또는 오브젝트의 형상 변화에 대응하는 예측 이미지를 생성할 수 있다.
또한, 예측 이미지 생성부(130)는 이전 시간의 동영상과 현재 시간의 동작 정보 및 위치 정보를 이용하여 현재 시간에서의 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성할 수도 있다. 이때, 이전 시간의 동영상은 카메라(101)가 이전 시간에 촬영된 원본 동영상, 또는 카메라(101)가 이전 시간에 생성한 전송 동영상일 수 있다. 그리고, 이전 시간의 동영상은 전송 과정의 지연에 의하여 현재 시간에 수신된 상태일 수 있다.
동영상은 동작 정보 및 위치 정보에 비하여 용량이 크므로, 동영상의 용량이나, 동영상을 전송하는 네트워크의 성능에 따라 카메라(101)에서 동영상을 전송하는 시간과 동영상 생성 장치(100)가 동영상을 수신하는 시간 사이에 지연이 발생할 수 있다. 이때, 동영상의 용량이 클수록 동영상의 전송에 필요한 시간이 증가하므로, 지연 시간도 증가할 수 있다. 따라서, 카메라(101)는 고해상도의 원본 동영상에서 일부의 프레임들을 추출하여 저해상도이며 원본 동영상보다 용량이 감소된 전송 동영상을 생성하여 동영상 생성 장치(100)로 전송함으로써, 카메라(101)에서 동영상을 촬영한 시간과 동영상 생성 장치(100)가 동영상을 수신하는 시간 사이의 지연을 최소화할 수 있다.
다만, 전송 동영상은 원본 동영상보다는 용량이 감소되었으나, 복수의 이미지들로 구성된 정보이므로, 오브젝트에 가한 포스, 오브젝트의 각도와 같은 값(value)들로 구성된 동작 정보 및 오브젝트의 위치를 나타내는 위치 정보보다 용량이 클 수 있다. 따라서, 전송 동영상이 원본 동영상보다 지연 시간은 감소하였으나, 실시간으로 수신 가능한 동작 정보 및 위치 정보와 달리 일정 시간의 지연은 발생할 수 있다. 그러므로, 동영상 생성 장치(100)는 카메라(101)가 촬영한 동영상을 실시간으로 수신하지 못할 수 있다. 즉, 이미지 수신부(110)가 수신한 전송 동영상은 카메라(101)에서 고해상도의 원본 동영상이 촬영된 시점으로부터 일정 시간 이상 지연된 시간에 수신되는 이전 시간의 전송 동영상일 수 있다.
이때, 예측 이미지 생성부(130)는 현재 시간에 수신한 이전 시간의 동영상과 현재 동작 정보 및 위치 정보를 이용하여 현재 시간에서의 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성할 수 있다. 그리고, 동영상 생성부(150)는 예측 이미지들을 이용하여 현재 시간의 동영상을 생성함으로써, 카메라(101)가 촬영한 원본 동영상과 동일한 해상도를 가지며 최대한 높은 유사도를 가지는 출력 동영상을 실시간으로 출력할 수 있다.
판별부(140)는 판별 모델을 이용하여 예측 이미지 생성부(130)가 생성한 예측 이미지들 중에 진짜 이미지(real image)를 판별할 수 있다. 이때, 판별기(140)는 판별 모델을 이용하여 예측 이미지들을 진짜 이미지 또는 가짜 이미지(fake image)로 판별할 수 있다. 또한, 판별 모델은 테스트용 전송 동영상과 검증 정보를 이용하여 학습될 수 있다. 이때, 진짜 이미지는 원본 동영상의 프레임들 중에서 전송 동영상으로 추출되지 않은 프레임과의 유사도가 임계값 이상인 예측 이미지이고, 가짜 이미지는, 원본 동영상의 프레임들 중에서 전송 동영상으로 추출되지 않은 프레임과의 유사도가 임계값 미만인 예측 이미지일 수 있다.
또한, 예측 이미지 생성부(130)가 시간(t-1)의 동영상과 시간(t)의 동작 정보 및 시간(t)의 위치 정보를 이용하여 시간(t)에서의 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성하고, 판별부(140)가 해당 예측 이미지들 중에 진짜 이미지를 판별할 수 있다. 이때, 이미지 수신부(110)는 시간 (t+1)에서 시간(t)의 동영상을 수신할 수 있다.
그리고, 판별부(140)는 시간(t)에서의 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들 중에서 진짜 이미지로 판별된 예측 이미지를 시간(t)의 동영상과 비교하여 판별 모델을 학습할 수 있다. 예를 들어, 시간(t)의 동영상과 진짜 이미지로 판별된 예측 이미지가 상이한 경우, 판별부(140)는 진짜 이미지로 판별되었던 예측 이미지가 가짜 이미지로 판별하도록 판별 모델을 학습할 수 있다.
모델 학습 장치(103)는 예측 모델을 학습하여 예측 이미지 생성부(130)에 전달하고, 판별 모델을 학습하여 판별부(140)에 전달할 수 있다. 이때, 모델 학습 장치(103)는 이미지 수신부; 동작 정보 수신부; 예측 이미지 생성부; 및 판별부를 포함할 수 있다.
모델 학습 장치(103)의 이미지 수신부는 테스트용 전송 동영상들을 수신하거나 입력받을 수 있다.
모델 학습 장치(103)의 동작 정보 수신부는 테스트용 전송 동영상들에 포함된 오브젝트들 간의 상호 작용과 관련된 오브젝트 제어 장치의 동작 정보, 및 오브젝트들, 또는 오브젝트 제어 장치의 위치 정보를 수신하거나, 입력받을 수 있다.
모델 학습 장치(103)의 예측 이미지 생성부는 테스트용 전송 동영상과 동작 정보 및 위치 정보를 이용하여 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성할 수 있다.
모델 학습 장치(103)의 판별부는 테스트용 전송 동영상과 검증 정보를 이용하여 예측 이미지들 중에서 진짜 이미지를 판별하기 위한 진짜 특징 정보를 학습하고, 테스트용 전송 동영상과 예측 이미지를 이용하여 예측 이미지들 중에서 가짜 이미지를 판별하기 위한 가짜 특징 정보를 학습할 수 있다.
또한, 동영상 생성 장치(100)의 이미지 수신부(110), 동작 정보 수신부(120), 예측 이미지 생성부(130), 및 판별부(140)가 모델 학습 장치(103)의 이미지 수신부, 동작 정보 수신부, 예측 이미지 생성부, 및 판별부의 동작을 수행하여 판별 모델을 학습시킬 수도 있다.
이때, 예측 이미지 생성부(130)는 진짜 이미지로 판별된 예측 이미지에 따라 예측 모델을 학습할 수 있다. 예를 들어, 예측 이미지 생성부(130)는 진짜 이미지로 판별된 예측 이미지를 생성하기 위하여 사용한 특징에 가중치를 부여함으로써, 생성한 예측 이미지들 중에 진짜 이미지로 판별된 예측 이미지가 증가하도록 할 수 있다.
동영상 생성부(150)는 진짜 이미지로 판별된 예측 이미지들을 이용하여 카메라(101)에서 촬영된 원본 동영상과 해상도가 동일한 고해상도의 출력 동영상을 생성할 수 있다.
동영상 생성 장치(100)는 오브젝트를 제어하는 제어 장치의 동작 정보, 및 오브젝트들, 또는 제어 장치의 위치 정보를 이용하여 고해상도의 원본 동영상의 프레임들 중 일부로 구성된 저해상도의 전송 동영상으로부터 고해상도의 출력 동영상을 생성할 수 있다.
이때, 동영상 생성 장치(100)는 이미지에 비하여 데이터가 작은 동작 정보 및 위치 정보를 이용하여 저해상도의 전송 동영상에 따른 예측 이미지의 정확도를 증가시킴으로써, 고해상도의 출력 동영상과 카메라에서 촬영된 고해상도의 원본 동영상 간의 유사도를 높이면서 동영상 전송에 소요되는 데이터의 증가를 최소화할 수 있다.
또한, 동영상 생성 장치(100)는 전송 과정에 따라 지연되어 수신한 이전 시간의 동영상과 실시간으로 수신하는 동작 정보 및 위치 정보를 이용하여, 카메라에서 촬영되었으나 아직 수신하지 못한 현재 시간의 동영상을 생성함으로써, 오브젝트와 관련된 동영상을 실시간으로 출력할 수 있다.
도 2는 본 발명의 일실시예에 따라 저해상도의 전송 동영상에서 고해상도의 출력 동영상을 생성하는 과정을 나타내는 도면이다.
카메라 및 제어 장치(로봇 팔)를 포함하는 슬레이브(210)는 도 2에 도시된 바와 같이 고해상도의 원본 동영상(211), 로봇 팔의 동작 정보(Force) 및 로봇 팔의 위치 정보(Pos: position)(212)를 생성할 수 있다. 예를 들어, 원본 동영상은 IGT(ground truth image)로 정의될 수 있다. 또한, 동작 정보는 로봇 팔과 같은 제어 장치가 오브젝트에 가하는 힘(force)(SHR_f: robot grip force), 및 로봇 팔이 오브젝트를 잡는 각도(SHR_g: robot grip angle)를 포함할 수 있다.
동영상의 용량이 증가할수록 동영상의 전송에 따른 지연 시간이 증가하므로, 슬레이브(210)는 전송하는 동영상의 용량을 감소시키기 위하여 IGT로부터 일부의 프레임을 추출하여 저해상도의 전송 동영상(221)(ILR: low-update-rate image)을 생성할 수 있다. 이때, 전송 동영상(221)은 ILR(low-update-rate image)로 정의될 수 있다. 예를 들어, 슬레이브(210)는 원본 동영상(211)(IGT)의 6 프레임 중에서 하나의 프레임을 추출하여 전송 동영상(221)(ILR)으로 생성할 수 있다.
그리고, 슬레이브(210)는 인터넷과 같은 네트워크를 통하여 마스터(230)에게 전송 동영상(221)(ILR)와 로봇 팔의 동작 정보(Force) 및 로봇 팔의 위치 정보(Pos: position)(212)를 전송할 수 있다.
동영상 생성 장치(100)를 포함하는 마스터(230)는 도 2에 도시된 바와 같이 수신한 전송 동영상(221)(ILR)와 로봇 팔의 동작 정보(Force) 및 로봇 팔의 위치 정보(Pos: position)(212)를 이용하여 수신하지 못한 원본 동영상(211)(IGT)의 5 프레임에 해당하는 예측 이미지를 생성함으로써, 원본 동영상(211)(IGT)과 해상도가 동일한 고해상도 동영상인 출력 동영상(231)를 생성할 수 있다.
도 3은 본 발명의 일실시예에 따른 동영상 생성 장치의 동작을 나타내는 도면이다.
동영상 생성 장치(100)는 도 3에 도시된 바와 같이 카메라(101)로부터 전송 동영상(320)을 수신할 수 있다. 이때, 카메라(101)가 전송한 전송 동영상(320)이 동영상 생성 장치(100)로 전송하는 과정에 시간이 소요되므로, 동영상 생성 장치(100)가 수신한 전송 동영상(320)은 이전 시간에 카메라(101)에서 촬영된 이미지일 수 있다.
예를 들어, 시간 0s에서 카메라(101)가 로봇 팔과 오브젝트를 촬영하여 원본 동영상(310)을 생성하고, 원본 동영상(310)에서 일부 프레임을 추출하여 전송 동영상(320)(t=0s)를 생성하며, 생성한 전송 동영상(320)(t=0s)를 동영상 생성 장치(100)로 전송할 수 있다.
시간 1s에서 동영상 생성 장치(100)는 전송 동영상(320) (t=0s)을 수신하였으나, 카메라(101)는 전송 동영상(t=1s)를 생성한 상태일 수 있다. 로봇 팔이 이동 중인 경우, 도 3에 도시된 바와 같이 전송 동영상(t=1s)은 전송 동영상(320) (t=0s)보다 로봇 팔이 오브젝트에서 더 이격된 상태일 수 있다.
즉, 시간 1s에서 동영상 생성 장치(100)가 수신한 전송 동영상(320)(t=0s)과 카메라(101)가 로봇 팔을 촬영하여 생성한 전송 동영상(t=1s)은 상이하므로, 사용자가 전송 동영상(320)(t=0s)을 참조하여 로봇 팔을 제어하면 오작동을 할 가능성이 있다.
따라서, 동영상 생성 장치(100)는 수신한 전송 동영상(320)(t=0s)와 현재 시간의 로봇 팔의 동작 정보(force), 로봇 팔의 위치 정보(position)을 이용하여 전송 동영상(t=1s)와 유사도가 임계값 이상인 예측 이미지(324)를 생성하여 표시할 수 있다. 이때, 동작 정보는 로봇 팔의 관절들 각각이 움직이는 각도(322)(SHR_g) 및 제어 장치가 오브젝트에 가하는 힘(321)(SHR_f)을 포함할 수 있다. 또한, 동영상 생성 장치(100)는 전송 동영상이 전송 과정에서 지연된 시간을 나타내는 시간 정보(323)를 수신할 수 있다. 이때, 시간 정보(323)는 현재 시간과 마지막으로 수신한 전송 동영상이 촬영된 이전 시간 간의 간격을 나타내는 지연 시간(TD: delay time)일 수 있다. 예를 들어, 도 3에서 지연 시간은 1초일 수 있다.
그리고, 동영상 생성 장치(100)는 예측 이미지(324)들 중에서 진짜 이미지들로 판별된 예측 이미지들과 전송 동영상(320)을 결합하여 원본 동영상(310)에 대응되는 고해상도의 출력 동영상(33)을 생성할 수 있다.
도 4는 본 발명의 일실시예에 따른 동영상 생성 장치의 일례이다.
동영상 생성 장치(100)는 생성기(Generator)(410)와 판별기(Discriminator)(420)를 포함할 수 있다. 이때, 생성기(410)는 예측 이미지 생성부(130)의 일례이고, 판별기(420)는 판별부(140)의 일례이다.
생성기(410)는 도 4에 도시된 바와 같이 카메라(101)로부터 수신한 전송 동영상(401)(ILR), 제어 장치(102)로부터 수신한 동작 정보, 및 시간 정보(404)를 이용하여 예측 이미지(411)(IHR)를 생성할 수 있다. 이때, 동작 정보는 제어 장치(로봇 팔)이 오브젝트에 가하는 힘(402)(SHR_f), 및 로봇 팔이 오브젝트를 잡는 각도(403)(SHR_g)를 포함할 수 있다. 이때, 로봇 팔이 오브젝트에 가하는 힘(402)(SHR_f)은 로봇 팔과 오브젝트 간에 작용하는 상호 작용 힘을 측정하여 결정된 상호 작용력일 수 있다 또한, 로봇 팔이 오브젝트를 잡는 각도(403)(SHR_g)는 로봇 팔의 위치를 나타내며, 각도만이 아니라 로봇 팔이 오브젝트를 잡은 위치, 또는 오브젝트와 접촉한 로봇 팔이 측정한 오브젝트의 위치를 포함할 수도 있다.
구체적으로, 생성기(410)는 이전 시간의 전송 동영상(401)(ILR)과 현재 시간의 동작 정보 및 이전 시간과 현재 시간 간의 차이를 나타내는 시간 정보(404)를 이용하여 현재 시간의 전송 동영상에 대응되는 예측 이미지(411)(IHR: High-update-rate image)를 생성할 수 있다.
또한, 생성기(410)는 동작 정보와 시간 정보(404)를 처리하기 위한 LSTM-FC(Long Short Term Memory- Fully connected) 네트워크 및 LSTM-FC 네트워크의 출력과 전송 동영상(401)를 이용하여 예측 이미지(411)(IHR)를 생성하는 U net을 포함할 수 있다.
이때, 판별기(420)는 예측 이미지(411)(IHR)와 전송 동영상(401)(ILR)를 매칭한 페이크 페어(Fake pair)(405)를 이용하여 가짜 이미지를 판별하기 위한 페이크 로스(Fake loss)를 학습하는 판별기(421) 및 검증 정보(413)와 전송 동영상(401)(ILR)를 매칭한 리얼 페어(Real pair)(406)를 이용하여 진짜 이미지를 판별하기 위한 리얼 로스(Real loss)를 학습하는 판별기(422)를 포함할 수 있다. 예를 들어, 판별기(421), 및 판별기(422)는 오토 인코더(Auto Encoder)일 수 있다. 또한, 검증 정보(413)은 현재 시간의 전송 동영상 또는 원본 동영상(IGT)일 수 있다. 그리고, 페이크 로스는 페이크 페어에 대한 오토 인코더(판별기(421))의 손실인
Figure pat00001
이고, 리얼 로스는 리얼 페어에 대한 오토 인코더(판별기(422))의 손실인
Figure pat00002
일 수 있다.
이때, 동영상 생성 장치(100)는 판별기(420)를 학습하기 위하여 이전 시간에 생성된 전송 동영상(401)에 대응하는 테스트용 전송 동영상 및 현재 시간의 전송 동영상에 대응하는 검증 정보(413)를 수신할 수 있다.
또한, 생성기(410)는 판별기(420)가 페이크 로스를 용이하게 학습할 수 있도록 동작 정보나 시간 정보(404)에 임의의 가중치를 부여함으로써, 고의적으로 전송 동영상(401)(ILR)과 상이한 예측 이미지(411)를 생성할 수 있다. 이때, 판별기(421)는 전송 동영상(401)(ILR)과 상이하게 생성한 예측 이미지를 이용하여 페이크 로스를 학습할 수 있다.
그리고, 생성기(410)는 판별기(420)에서 페이크 로스의 학습이 완료되면, 이전에 생성한 예측 이미지에 비하여 전송 동영상(401)(ILR)과 유사도가 더 높은 예측 이미지들을 생성하는 과정을 반복할 수 있다. 이때, 판별기(421)는 생성기(410)가 반복하여 생성하는 예측 이미지들과 전송 동영상을 이용하여 페이크 로스를 학습함으로써, 현재 시간의 전송 동영상과 차이가 있는 예측 이미지를 가짜 이미지로 판단할 가능성을 높일 수 있다.
또한, 판별기(422)는 검증 정보(413)와 전송 동영상(401)(ILR)의 차이점에 따라 리얼 로스를 학습함으로써, 현재 시간의 전송 동영상과 유사도가 임계값 이상으로 높은 예측 이미지를 진짜 이미지로 판단할 가능성을 높일 수 있다.
또한, 판별기(420)는 검증 정보(413)을 타겟으로 예측 이미지(411)(IHR)를 생성하는 방법을 학습할 수 있다. 이때, 판별기(420)는 Wasserstein 거리를 최적화하는 것을 목표로 손실 함수들을 학습할 수 있다. 예를 들어, 판별기(420)는 L1 손실 함수(LL1:L1 loss), GDL(Image Gradient Difference loss) 손실 함수, 및 적대적 손실 함수(Adversarial loss) 중 적어도 하나를 학습할 수 있다. 이때, 적대적 손실 함수는 페이크 로스
Figure pat00003
및 리얼 로스
Figure pat00004
를 포함할 수 있다.
또한, 생성기(410)는 판별기(420)가 학습한 손실 함수들을 결합하여 예측 모델에 적용할 수 있다. 예를 들어, 생성기(410)는 예측 모델을 학습시키기 위한 생성 손실 함수(Generator loss)를 수학식 1과 같이 정의할 수 있다.
Figure pat00005
예를 들어, 손실 계수인 λL1은 0.8이고, λGDL은 1이며, λadv는 0.2일 수 있다. 이때, 손실 계수는 복수의 샘플들에 의한 경험으로 결정되며, 실시예, 또는 샘플에 따라 다른 값을 가질 수도 있다. 또한, L1 손실 함수(LL1)는 검증 정보(413)와 예측 이미지(411)(IHR) 간의 차이에 따라 결정될 수 있다. 그리고, LGDL은 GDL(Image Gradient Difference loss) 손실 함수이며, 예측 이미지(411)(IHR)와 검증 정보(413)인 원본 동영상 (IGT) 사이의 경계에서 손실을 최소화하기 위하여 사용될 수 있다. 예를 들어, LGDL은 수학식 2와 같이 정의될 수 있다.
Figure pat00006
이때, i , j 는 예측 이미지(411)(IHR) 및 원본 동영상 (IGT)의 픽셀 위치일 수 있다. 또한,
Figure pat00007
는 기 설정된 상수이며, 2, 또는 다른 정수일 수 있다. 이때, GDL 손실 함수는 이미지의 edge에 강점을 부여하여 보다 명확한 이미지를 생성하도록 할 수 있다.
그리고, 페이크 로스
Figure pat00008
는 수학식 3과 같이 정의할 수 있다.
Figure pat00009
이때, RIfake는 예측 이미지(411)(IHR)와 전송 동영상(401)(ILR)를 입력받은 판별기(421)의 출력일 수 있다.
또한, 리얼 로스
Figure pat00010
는 수학식 4와 같이 정의할 수 있다.
Figure pat00011
이때, RIreal는 전송 동영상(401)(ILR)과 검증 정보(413)를 입력받은 판별기(422)의 출력일 수 있다. 이때, 검증 정보(413)은 원본 동영상(IGT)일 수 있다.
판별기(420)는 리얼 로스
Figure pat00012
를 최소화하고, 페이크 로스
Figure pat00013
를 최대화하도록 학습될 수 있다. 예를 들어, 판별기(420)의 판별기 손실(Discriminator loss)는 수학식 5와 같이 정의될 수 있다.
Figure pat00014
이때, Kt는 리얼 로스
Figure pat00015
와 페이크 로스
Figure pat00016
사이의 균형(equilibrium)을 제어하는 업데이트 속도의 하이퍼 파라미터일 수 있다. 예를 들어, Kt의 초기값은 0이며, 수학식 6에 따라 결정될 수 있다.
Figure pat00017
이때, Kt는 0 내지 1 사이의 값을 가질 수 있다. 또한,
Figure pat00018
Figure pat00019
는 판별기(420)이 업데이트되기 전까지 Kt의 업데이트에 사용되는 하이퍼 파라미터일 수 있다. 예를 들어,
Figure pat00020
는 0.005이고,
Figure pat00021
는 0.7이나 실시예에 따라 다르게 결정될 수도 있다.
도 5는 도 4에 도시된 생성기의 상세 도면이다.
생성기(410)는 도 5에 도시된 바와 같이 U net(510) 및 LSTM-FC 네트워크(520)를 포함할 수 있다.
LSTM-FC 네트워크(520)는 시계열 센서 데이터인 동작 정보, 및 시간 정보(404)를 예측 이미지(411)를 생성하기 위하여 필요한 특징 맵으로 매핑하기 위하여 사용될 수 있다. 이때, 동작 정보는 120x2 포맷의 로봇 팔이 오브젝트에 가하는 힘(402)(SHR_f), 및 로봇 팔이 오브젝트를 잡는 각도(403)(SHR_g)를 포함할 수 있다. 또한, 시간 정보는 전송 동영상(401)(ILR)와 예측 이미지(411) 간의 시간 차를 의미하는 값이며, 시간 정보의 포맷은 1x1 특징(feature)일 수 있다.
LSTM-FC 네트워크(520)는 도 5에 도시된 바와 같이 LSTM layer 2층에 fully connected layer 1층으로 구성됩니다. 그리고, LSTM-FC 네트워크(520)는 4x4x64 포맷의 특징 맵(feature map)을 U net(510)으로 출력할 수 있다.
이때, 2층 구조 LSTM layers는 각각 64 ,128 weight 가질 수 있다. 그리고, 2층 구조 LSTM layers는 시간 순으로 입력 받은 동작 정보(402)에 따라 시간 순으로 1x 1218 포맷의 특징(feature)을 출력할 수 있다. 또한, 2층 구조 LSTM layers는 모두 tanh을 active function으로 사용할 수 있다.
Fully Connected layer는 2층 구조 LSTM layers에서 마지막으로 출력된 1x 1218 포맷의 특징과 시간 정보(404)를 병합한 1x129 포맷의 특징을 입력 받을 수 있다. 그리고, Fully Connected layer는 입력받은 1x129 포맷의 특징에 따라 1x1024 포맷의 특징을 출력할 수 있다.
이때, Fully Connected layer의 출력은 로봇 팔이 오브젝트에 가하는 힘(402)(SHR_f), 및 로봇 팔이 오브젝트를 잡는 각도(403)(SHR_g)의 특징 벡터일 수 있다. 또한, LSTM-FC 네트워크(520)는 Fully Connected layer에서 출력된 1x1024 포맷의 특징을 U net(510)의 인코더의 출력의 포맷에 따라 4x4x64 특징 맵으로 변환(reshape)하여 U net(510)에 전달함으로써, Fully Connected layer의 출력이 U net(510)의 인코더(Encoder)의 출력과 병합될 수 있도록 할 수 있다,
U net(510)은 Encoder-decoder network에 skip-connections를 추가한 구조로 생성될 수 있다.
그리고, U net(510)은 128x128x3 포맷의 전송 동영상(401)과 LSTM-FC 네트워크(520)에서 출력된 4x4x64 포맷의 특징 맵을 입력받아 128x128x3 포맷의 예측 이미지(411)를 생성할 수 있다.
U net(510)의 인코더(Encoder)는 도 5에 도시된 바와 같이 일렬로 나열된 5개의 부호화 블록(Encoder Block)들로 구성될 수 있다. 이때, 부호화 블록들 각각에 표시된 숫자 n(42,48,64,96,128)은 각각의 부호화 블록에서 출력되는 특징의 채널 수일 수 있다. 그리고, 인코더(610)는128x128x3 포맷의 전송 동영상(401)를 부호화하여 4x4x128 포맷의 특징 맵(feature map)을 출력할 수 있다.
U net(510)의 디코더(Decoder)(620)는 도 5에 도시된 바와 같이 5개의 복호화 블록(Decoder Block)들로 구성될 수 있다. 이때, 복호화 블록들 각각에 표시된 숫자 n(96,64,48,32,3)은 각각의 복호화 블록에서 출력되는 특징의 채널 수일 수 있다. 이때, 디코더(620)는 인코더(610)에서 출력된 4x4x128 포맷의 특징 맵과 LSTM-FC 네트워크(520)에서 출력된 4x4x64 포맷의 특징 맵이 병합된 4x4x192 포맷의 특징 맵을 입력받을 수 있다. 그리고, 디코더(620)는 입력받은 특징 맵을 복호화하여 128x128x3 포맷의 예측 이미지(411)를 출력할 수 있다.
이때, 도 5에 도시된 바와 같이 인코더(610)의 부호화 블록들 중에서 마지막의 부호화 블록을 제외한 나머지 부호화 블록들은 스킵 커낵션즈(skip connections)을 통해 입력 크기가 동일한 디코더의 복호화 블록으로 출력 특징 맵(output feature map)를 전달 할 수 있다. 예를 들어, 4번째 부호화 블록은 96 채널의 특징을 출력하고, 2번째 복호화 블록은 1번째 복호화 블록에서 출력되는 96 채널의 특징을 수신할 수 있다. 따라서, 도 5에 도시된 바와 같이 4번째 부호화 블록이 상단에 64가 표시된 2번째 복호화 블록으로 출력 특징 맵을 전달할 수 있다.
따라서, 1번째 복호화 블록을 제외한 나머지 복호화 블록들은 이전 복호화 블록에서 출력되는 출력 특징 맵과 스킵 커낵션즈(skip connections)을 통해 전달된 부호화 블록의 출력 특징 맵이 병합된 입력 특징 맵(input feature map)을 입력 받을 수 있다.
도 6는 도 5에 도시된 U-net의 상세 도면이다.
인코더에 포함된 부호화 블록(610)들 각각은 도 6에 도시된 바와 같이 그림 5에서 볼 수 있는 Encoder Block은 H(height) x W(width) x C(channel) 입력 특징 맵(Input feature map)을 입력 받고, 크기가 1/4만큼 준 H/2 x W/2 x n 입력 특징 맵(Input feature map)을 출력할 수 있다.
이때, 부호화 블록은 컨볼루션 레이어(Conv: Convolution layer)와 Concat 레이어, 및 2개의 모듈로 구성될 수 있다. 이때, 모듈들은 도 6에 도시된 바와 같이 Conv(Convolution), BN(Batch normalization), Leaky Relu layer가 순차적으로 연결된 구조일 수 있다.
그리고, 부호화 블록(610)은 도 6에 도시된 바와 같이 Resnet의 스킵 커넥션(skip connection)을 통해 부호화 블록(610)이 입력받은 입력 특징 맵(input feature map)을 출력 직전으로 전달함으로써, 부호화 블록(610)에서 부호화된 특징 맵과 부호화 블록(610)이 입력받은 입력 특징 맵을 병합하여 출력할 수 있다.
디코더에 포함된 복호화 블록(620)들 각각은 H(height) x W(width) x C(channel) 포맷의 특징 맵(feature map)을 입력받아 2H x 2W x n 포맷의 특징 맵을 출력할 수 잇다.
이때, 복호화 블록(620)들 각각은 컨볼루션 레이어와 2개의 모듈로 구성될 수 있다. 이때, 도 6에 도시된 바와 같이 첫번째 모듈은 Transpose Convolution layer, BN(Batch normalization), Leaky Relu layer가 순차적으로 연결된 구조일 수 있다. 또한, 두번째 모듈은 Conv(Convolution), BN(Batch normalization), Leaky Relu layer가 순차적으로 연결된 구조일 수 있다.
또한, 복호화 블록(620)의 마지막 레이어는 디코더 블록의 마지막 계층은 1x1 커널 크기 및 1 보폭을 갖는 컨볼루션 레이어일 수 있다. 그리고, 도 6에서 복호화 블록(620)의 앞에 배치된 Concat 레이어는 이전 디코더 블록의 출력 특성을 U-net 스킵 연결을 통해 동일한 픽셀 해상도를 갖는 인코더 블록의 출력 특성과 연결할 수 있다.
도 7은 도 4에 도시된 판별기의 상세 도면이다.
판별기(420)의 판별 모델은 도 6에 도시된 바와 같이 conditional BEGAN을 기반으로 설계될 수 있다. conditional BEGAN는 웨서스테인 거리(Wasserstein distance) 기반으로 손실 함수를 계산하므로, 판별기(420)는 자동 인코더(Auto-Encoder) 구조(architecture)로 생성될 수 있다.
판별기(420)는 예측 이미지(411)와 전송 동영상(401)이 매칭된 페이크 페어(405), 또는 검증 정보(413)와 전송 동영상(401)이 매칭된 리얼 페어(406)를 입력받고, 가짜 이미지를 나타내는 가짜 특징 맵(fake feature map)(710), 또는 진짜 이미지를 나타내는 진짜 특징 맵(real feature map)(720)을 출력할 수 있다. 이때, 페이크 페어(405) 및 리얼 페어(406)는 128X128X6 포맷이고, 가짜 특징 맵(710), 및 진짜 특징 맵(720)은 128x128x3 포맷의 RGB일 수 있다.
또한, 판별 모델은 도 7에 도시된 바와 같이 생성기(410)의 인코더 및 디코더와 동일한 블록 구조로 형성되며, 인코더와 디코더 사이에 1x1 kernal size가지는 컨볼루션 레이더(convolution layer)로 연결될 수 있다.
도 8은 본 발명의 일실시예에 따른 제어 장치의 일례이다.
제어 장치(102)는 도 8에 도시된 바와 같이 오브젝트(820)을 잡고 이동시킬 수 있는 로봇 팔(810)일 수 있다. 이때, 로봇 팔(810)에는 오브젝트(820)를 촬영하는 카메라(830)이 결합될 수 있다. 이때, 카메라(830)는 도 1에 도시된 카메라(101)일 수 있다. 또한, 카메라(101)에는 카메라(830) 이외에 로봇 팔(810)이 아닌 다른 위치, 또는 장치에 배치되어 카메라(830)과 다른 각도에서 오브젝트(820)를 촬영하는 카메라를 더 포함할 수도 있다.
로봇 팔(810)은 도 8에 도시된 바와 같이 오브젝트(820)를 잡기 위한 그립(840)과 그립(840) 안에 설치되며, 그립(840)과 오브젝트(820) 간의 상호 작용 힘을 측정하는 힘 센서(850)를 포함할 수 있다. 그리고, 그립(840)는 모터(845)에 의하여 오브젝트(820)가 위치한 방향으로 이동하여 오브젝트(820)를 잡고 오브젝트(820)에 힘을 가하거나, 오브젝트(820)의 반대 방향으로 이동하여 오브젝트(820)를 놓을 수 있다.
또한, 도 8에서 로봇 팔(810)는 6관절을 가지고 있으나, 실시예에 따라 로봇 팔에 포함되는 관절의 개수는 변경될 수 있다. 또한, 로봇 팔(810)은 내장된 센서를 이용하여 관절들 각각의 각도 및 그립(840)의 그립 각도를 측정할 수 있다.
도 9는 본 발명의 일실시예에 따른 판별 모델을 학습하기 위하여 사용한 테스트 세트의 일례이다.
제어 장치(102)가 오브젝트(910)에 동일한 힘을 가하더라도, 오브젝트(910)의 타입, 배경, 조명, 오브젝트(910)의 배치 각도에 따라 원본 이미지가 다르게 생성될 수 있다.
따라서, 판별 모델을 학습하기 위하여 사용하는 테스트 세트에는 서로 다른 타입의 오브젝트(910), 배경, 조명, 오브젝트(910)의 배치 각도에 따라 촬영한 테스트용 원본 동영상과, 각각의 조건에 대응하는 동작 정보 및 위치 정보가 포함될 수 있다.
예를 들어, 제어 장치(102)가 오브젝트(910)를 잡고 있는 상태에서 추가적으로 오브젝트(910)에 힘을 가할 수 있다. 이때, 오브젝트(910)가 종이 컵(911)인 경우, 제어 장치(102)가 종이 컵(911)을 잡은 위치에 따라 종이 컵(911)의 변형이 다르게 발생할 수 있다. 예를 들어, 종이 컵(911)의 측면 중 하단은 종이 컵(911)의 바닥에 의하여 형상이 고정되어 있으므로, 일정 이하의 힘에 의해서는 변형이 발생하지 않을 수 있다. 반면, 종이 컵(911)의 측면 중 상단은 형상을 고정하기 위한 별도의 구성이 없으므로, 일정 이하의 힘에 의해서도 용이하게 변형이 발생할 수 있다.
또한, 오브젝트(910)가 유리 병(912)인 경우, 종이 컵(911)이 변형할 정도의 힘을 가하더라도 유리 병(912)은 변형이 발생하지 않을 수 있다. 이때, 유리 병(912)은 힘이 가해짐에 따라 힘의 방향에 대응하는 움직임이 발생할 수 있다.
그리고, 오브젝트(910)가 스펀지(913)인 경우, 종이 컵(911)이 변형하지 않을 정도의 힘에 의해서도 변형이 발생하며, 제어 장치(102)가 가하는 힘의 크기 및 방향에 따라 형상이 다양하게 변형될 수 있다.
따라서, 테스트 세트에는 제어 장치(102)의 동작 정보 및 동작 정보에 따라 동작한 제어 장치(102)에 의한 오브젝트(910)의 변형, 또는 이동을 촬영한 원본 동영상을 오브젝트(910)의 타입별로 포함할 수 있다.
또한, 테스트 세트에는 도 9의 케이스 1(Case 1)에 도시된 바와 같이 다른 오브젝트가 배경으로 촬영된 원본 동영상 및 도 9의 케이스 3(Case 3)에 도시된 바와 같이 날씨, 조명의 위치 별로 촬영된 원본 동영상이 포함될 수 있다.
그리고, 앞서 설명한 바와 같이 오브젝트(910)가 종이 컵(911)인 경우, 제어 장치(102)가 종이 컵(911)을 잡은 위치에 따라 변형 여부가 결정될 수도 있다. 따라서, 테스트 세트에는 도 9의 케이스 2(Case 2)에 도시된 바와 같이 제어 장치(102)가 오브젝트(910)을 잡은 위치 별로 촬영된 원본 동영상, 및 도 9의 케이스 2(Case 2)에 도시된 바와 같이 제어 장치(102)가 오브젝트(910)을 잡은 방향 별로 촬영된 원본 동영상이 포함될 수 있다.
도 10은 본 발명의 일실시예에 따른 학습 네트워크에 대한 테스트 세트의 재구성 과정을 나타내는 도면이다.
현재 시간(시간 t)에서 카메라(101)는 오브젝트를 촬영하여 테스트용 동영상(1010)(IGT)을 생성할 수 있다. 그리고, 제어 장치(102)는 제어 장치(102)가 오브젝트에 가하는 힘(1040)(SHR_f), 및 제어 장치(102)가 오브젝트를 잡는 각도(1050)(SHR_g)를 측정하여 테스트 세트 생성 장치로 전송할 수 있다.
이때, 테스트 세트 생성 장치는 이전 시간(시간 t-1)의 동영상(1020)을 수신할 수 있다. 예를 들어, 이전 시간(시간 t-1)의 동영상(1020)은 이전 시간(시간 t-1)의 테스트용 원본 동영상에서 일부의 프레임들을 추출하여 생성된 이전 시간(시간 t-1)의 테스트용 전송 동영상 ILR일 수 있다.
그리고, 일정 시간이 경과한 시간 t+1에서, 테스트 세트 생성 장치는 현재 시간(시간 t)의 테스트용 동영상(1010)을 수신할 수 있다. 이때, 테스트 세트 생성 장치는 이전 시간(시간 t-1)의 동영상(1020), 오브젝트에 가하는 힘(1040)(SHR_f), 및 제어 장치(102)가 오브젝트를 잡는 각도(1050)(SHR_g)을 수신한 시간 t와 현재 시간(시간 t)의 테스트용 동영상(1010)(IGT)을 수신한 시간 t+1 간의 차이를 시간 정보인 지연 시간 TD(1060)로 저장할 수 있다.
그리고, 테스트 세트 생성 장치는 시간 t의 테스트용 동영상(1010)(IGT), 이전 시간(시간 t-1)의 동영상(1020), 오브젝트에 가하는 힘(1040)(SHR_f), 제어 장치(102)가 오브젝트를 잡는 각도(1050)(SHR_g), 지연 시간 TD(1060)을 그룹화하여 테스트 세트(1000)를 생성할 수 있다.
도 11은 본 발명의 일실시예에 따라 오브젝트 별로 생성한 예측 이미지 및 원본 동영상의 일례이다.
도 11에서 원본 동영상(Ground Truth)은 초당 120 프레임을 가지는 동영상이며, 전송 동영상(IGT)는 원본 동영상에서 25프레임 마다 1프레임씩 추출하여 생성된 동영상일 수 있다. 지연 시간은 1초일 수 있다. 따라서, 동영상 생성 장치(100)는 1초 전의 전송 동영상(IGT)을 이용하여 현재 시간의 예측 이미지를 생성할 수 있다.
도 11의 케이스 1(Case 1)은 오브젝트가 종이 컵인 경우의 원본 동영상(1112)과 예측 이미지(1111)의 일례이다.
또한, 도 11의 케이스 2(Case 2)은 오브젝트가 스폰지인 경우의 원본 동영상(1122)과 예측 이미지(1121)의 일례이다.
그리고, 도 11의 케이스 3(Case 3)은 오브젝트가 유리병인 경우의 원본 동영상(1132)과 예측 이미지(1131)의 일례이다.
도 11에 따르면 동영상 생성 장치(100)는 전송 동영상에 포함되지 않은 15 프레임, 40프레임, 65 프레임, 90 프레임, 115 프레임에 대하여 카메라(101)에서 실시간으로 촬영되고 있는 원본 동영상과 동일하거나, 유사도가 임계값 이상인 예측 이미지를 생성할 수 있다. 따라서, 동영상 생성 장치(100)가 예측 이미지들을 사용하여 생성하는 출력 동영상도 원본 동영상과 동일하거나, 유사도가 임계값 이상인 동영상일 수 있다.
도 12은 본 발명의 일실시예에 따라 생성한 동영상과 기존 방법에 따라 생성한 동영상 및 원본 동영상의 일례이다.
도 12에서 (a)(1220)는 동영상 생성 장치(100)가 생성한 예측 이미지들이고, (b)(1230)는 WithoutSensor 방법에 따라 생성된 예측 이미지들일 수 있다. 또한, (c)(1240)는 오토 인코더 방법에 따라 생성된 예측 이미지들이고, (d)(1250)는 DCGAN(deep convolutional GAN) 방법에 따라 생성된 예측 이미지들일 수 있다. 그리고, (e)(1260)는 BEGAN 방법에 따라 생성된 예측 이미지들일 수 있다.
이때, WithoutSensor 방법에 따라 생성된 예측 이미지들인 (b)(1230)는 동작 정보 및 위치 정보를 사용하지 않았으므로 도 12에 도시된 바와 같이 로봇 팔의 움직임이나 오브젝트의 변형을 반영하지 못할 수 있다. 또한, 오토 인코더 방법에 따라 생성된 예측 이미지들인 (c)(1240)는 오브젝트의 변형, 또는 이동이 있는 프레임에서 이미지의 퀄리티가 감소할 수 있다.
그리고, DCGAN 방법에 따라 생성된 예측 이미지들인 (d)(1250)는 로봇 팔이 오브젝트를 잡는 동작은 나타내고 있으나, 이미지의 텍스처 및 엣지에 블러 현상이 발생할 수 있다. 또한, (d)(1250)는 로봇 팔의 움직임이 원본 동영상(Ground Truth)(1270)보다 늦는 지연 현상이 발생하고, 로봇 팔의 압력에 의한 오브젝트의 변형이 표시되지 않을 수 있다.
그리고, BEGAN 방법에 따라 생성된 예측 이미지들인 (d)(1250)는 도 12에 도시된 바와 같이 오브젝트와 로봇 팔의 형상만 형성될 뿐, 오브젝트의 변형, 또는 이동이 표시되지 않을 수 있다.
즉, 도 12에 도시된 바와 같이 동영상 생성 장치(100)가 생성한 예측 이미지들인 (a)(1220)는 다른 방법에 따라 생성된 예측 이미지들 보다 원본 동영상(Ground Truth)(1270)과의 유사도가 높을 수 있다.
도 13은 본 발명의 일실시예에 따른 RMSE, PSNR 및 SSIM의 일례이다.
도 13의 그래프들에서 선(1310)는 동영상 생성 장치(100)의 성능을 측정하여 결정된 RMSE (root mean squared error), PSNR (peak signal-to noise ratio) 및 SSIM (structure similarity index)의 일례이다. 또한, 선(1320)는 WithoutSensor 방법의 성능을 측정하여 결정된 RMSE, PSNR 및 SSIM의 일례이다.
그리고, 선(1330)는 오토 인코더 방법의 성능을 측정하여 결정된 RMSE, PSNR 및 SSIM의 일례이다. 또한, 선(1340)는 DCGAN 방법의 성능을 측정하여 결정된 RMSE, PSNR 및 SSIM의 일례이다. 그리고, 선(1350)는 BEGAN 방법의 성능을 측정하여 결정된 RMSE, PSNR 및 SSIM의 일례이다.
또한, 표 1은 동영상 생성 장치(100)와 다른 방법들의 결정된 RMSE, PSNR 및 SSIM의 측정 일례를 나타내는 표이다. 표 1에서 Proposed는 동영상 생성 장치(100)가 수행하는 본 발명의 일실시예에 따른 동영상 생성 방법일 수 있다.
Figure pat00022
도 13 및 표 1에 따르면 본 발명의 일실시예에 따른 동영상 생성 방법은 WithoutSensor 방법, 오토 인코더 방법, DCGAN 방법, 및 BEGAN 방법에 따른 동영상 생성보다 원본 동영상과의 차이가 적은 출력 동영상을 생성할 수 있다.
도 14는 본 발명의 일실시예에 따른 고해상도 동영상 생성 방법을 도시한 플로우차트이다.
단계(1410)에서 이미지 수신부(110)는 카메라(101)로부터 고해상도의 원본 동영상에 기초한 저해상도의 전송 동영상을 수신할 수 있다. 이때, 전송 동영상은 오브젝트들 간의 상호 작용을 촬영하여 생성한 고해상도의 원본 동영상에서 추출한 일부의 프레임들로 구성된 동영상일 수 있다. 또한, 전송 동영상은, 고해상도의 원본 동영상이 촬영된 시점으로부터 일정 시간 이상 지연된 시간에 수신되는 이전 시간의 동영상일 수 있다.
단계(1420)에서 동작 정보 수신부(120)는 전송 동영상에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치(102)로부터 제어 장치(102)의 동작 정보, 및 오브젝트들, 또는 제어 장치(102)의 위치 정보를 수신할 수 있다.
단계(1430)에서 예측 이미지 생성부(130)는 단계(1410)에서 수신한 전송 동영상과 단계(1410)에서 수신한 동작 정보 및 위치 정보를 이용하여 원본 동영상에 포함되어 있으나 상기 전송 동영상에 누락된 프레임에서의 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성할 수 있다. 이때, 예측 이미지 생성부(130)는 단계(1410)에서 수신한 동작 정보 및 위치 정보를 이용하여 전송 동영상에 누락된 프레임 및 전송 동영상에 포함된 프레임의 현재 시간에서의 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성할 수 있다.
단계(1440)에서 판별부(140)는 판별 모델을 이용하여 예측 이미지들을 진짜 이미지 또는 가짜 이미지(fake image)로 판별할 수 있다.
단계(1450)에서 동영상 생성부(150)는 단계(1440)에서 진짜 이미지로 판별된 예측 이미지들을 결합하여 원본 동영상에 대응되는 고해상도의 출력 동영상을 생성할 수 있다.
도 15는 본 발명의 일실시예에 따른 현재 시간의 동영상 생성 방법을 도시한 플로우차트이다.
단계(1510)에서 이미지 수신부(110)는 카메라(101)로부터 전송 과정에서의 지연에 따라 이전 시간의 동영상을 수신할 수 있다. 이때, 이전 시간의 동영상은, 카메라가 이전 시간에 오브젝트들 간의 상호 작용을 촬영하여 생성한 고해상도의 원본 동영상에서 추출한 일부의 프레임들로 구성된 저해상도의 전송 동영상일 수 있다.
단계(1520)에서 동작 정보 수신부(120)는 제어 장치(102)로부터 제어 장치(102)의 현재 동작 정보, 및 오브젝트들, 또는 제어 장치(102)의 현재 위치 정보를 수신할 수 있다.
단계(1530)에서 예측 이미지 생성부(130)는 이전 시간의 동영상과 현재 동작 정보 및 현재 위치 정보를 이용하여 현재 시간에서의 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성할 수 있다. 이때, 예측 이미지 생성부(130)는 원본 동영상에 포함되어 있으나 전송 동영상에 누락된 프레임의 현재 시간에서의 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성할 수 있다.
단계(1540)에서 판별부(140)는 판별 모델을 이용하여 예측 이미지들을 진짜 이미지 또는 가짜 이미지(fake image)로 판별할 수 있다.
단계(1550)에서 동영상 생성부(150)는 단계(1540)에서 진짜 이미지로 판별된 예측 이미지들을 결합하여 이미지 수신부(110)가 아직 수신하지 못한 현재 시간의 동영상을 생성함으로써, 실시간으로 동영상을 출력할 수 있다.
본 발명은 오브젝트를 제어하는 제어 장치의 동작 정보, 및 오브젝트들, 또는 제어 장치의 위치 정보를 이용하여 고해상도의 원본 동영상의 프레임들 중 일부로 구성된 저해상도의 전송 동영상으로부터 고해상도의 출력 동영상을 생성할 수 있다.
이때, 본 발명은 이미지에 비하여 데이터가 작은 동작 정보 및 위치 정보를 이용하여 저해상도의 전송 동영상에 따른 예측 이미지의 정확도를 증가시킴으로써, 고해상도의 출력 동영상과 카메라에서 촬영된 고해상도의 원본 동영상 간의 유사도를 높이면서 동영상 전송에 소요되는 데이터의 증가를 최소화할 수 있다.
또한, 본 발명은 전송 과정에 따라 지연되어 수신한 이전 시간의 동영상과 실시간으로 수신하는 동작 정보 및 위치 정보를 이용하여, 카메라에서 촬영되었으나 아직 수신하지 못한 현재 시간의 동영상을 생성함으로써, 오브젝트와 관련된 동영상을 실시간으로 출력할 수 있다.
본 출원은 아래의 지원을 통하여 도출된 발명에 관한 것이다.
[과제고유번호] SRFC-TB1703-02
[부 처 명] 삼성전자 미래기술육성센터
[연구 사업명] ICT 창의 과제
[연구 과제명]영상 학습에 기반한 물리적 감각 재현을 위한 Interaction Force 예측 기술 개발
[주 관 기 관] 삼성전자㈜
[연 구 기 간] 2017. 09. 01. ~ 2020. 08. 31.
한편, 본 발명에 따른 동영상 생성 장치 또는 동영상 생성 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체)에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
101: 카메라
102: 제어 장치
110: 이미지 수신부
120: 동작 정보 수신부
130: 예측 이미지 생성부
140: 판별부
150: 동영상 생성부

Claims (15)

  1. 고해상도의 원본 동영상에 기초한 저해상도의 전송 동영상을 수신하는 단계;
    상기 전송 동영상에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치의 동작 정보, 및 상기 오브젝트들, 또는 제어 장치의 위치 정보를 수신하는 단계;
    상기 전송 동영상과 상기 동작 정보 및 상기 위치 정보를 이용하여 상기 원본 동영상에 포함되어 있으나 상기 전송 동영상에 누락된 프레임에서의 상기 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성하는 단계; 및
    상기 예측 이미지들 중에 진짜 이미지(real image)를 판별하여 상기 원본 동영상에 대응되는 고해상도의 출력 동영상을 생성하는 단계
    를 포함하는 고해상도 동영상 생성 방법.
  2. 제1항에 있어서,
    상기 전송 동영상은,
    오브젝트들 간의 상호 작용을 촬영하여 생성한 고해상도의 원본 동영상에서 추출한 일부의 프레임들로 구성된 동영상인 고해상도 동영상 생성 방법.
  3. 제1항에 있어서,
    상기 동작 정보는,
    상기 제어 장치가 상기 오브젝트에 가하는 힘, 상기 오브젝트에 대한 상기 제어 장치의 그립 각도 중 적어도 하나를 포함하는 고해상도 동영상 생성 방법.
  4. 제1항에 있어서,
    상기 원본 동영상의 프레임들 중에서 상기 전송 동영상에 포함되지 않은 프레임을 상기 진짜 이미지로 판별된 예측 이미지들과 비교하는 단계; 및
    비교 결과에 따라 판별 모델을 학습하는 단계
    를 더 포함하는 고해상도 동영상 생성 방법.
  5. 제1항에 있어서,
    상기 고해상도 동영상을 생성하는 단계는,
    판별 모델을 이용하여 상기 예측 이미지들을 진짜 이미지 또는 가짜 이미지(fake image)로 판별하고, 진짜 이미지로 판별된 예측 이미지들을 결합하여 상기 출력 동영상을 생성하는 고해상도 동영상 생성 방법.
  6. 제5항에 있어서,
    상기 진짜 이미지는,
    상기 원본 동영상의 프레임들 중에서 전송 동영상으로 추출되지 않은 프레임과의 유사도가 임계값 이상인 예측 이미지이고,
    상기 가짜 이미지는,
    상기 원본 동영상의 프레임들 중에서 전송 동영상으로 추출되지 않은 프레임과의 유사도가 임계값 미만인 예측 이미지인 고해상도 동영상 생성 방법.
  7. 제5항에 있어서,
    상기 판별 모델은,
    테스트용 전송 동영상들, 상기 테스트용 전송 동영상들에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치의 동작 정보, 및 상기 오브젝트들, 또는 제어 장치의 위치 정보를 이용하여 상기 오브젝트들 간의 상호 작용 힘의 변화에 대한 테스트 예측 이미지들을 생성하고,
    테스트용 전송 동영상과 검증 정보를 이용하여 상기 테스트 예측 이미지들 중에서 진짜 이미지를 판별하기 위한 진짜 특징 정보를 학습하며,
    상기 테스트용 전송 동영상과 상기 예측 이미지를 이용하여 상기 테스트 예측 이미지들 중에서 가짜 이미지를 판별하기 위한 가짜 특징 정보를 학습하는 고해상도 동영상 생성 방법.
  8. 제5항에 있어서,
    상기 판별 모델은,
    상기 동작 정보, 및 상기 위치 정보를 LSTM-FC(Long Short Term Memory - Fully Connected) 네트워크에 입력하여 제1 특징 맵을 생성하고,
    테스트용 전송 동영상들이 촬영된 시간과 상기 테스트용 전송 동영상들을 획득한 시간 간의 차이를 나타내는 시간 정보를 상기 제1 특징 맵과 병합하여 제2 특징 맵을 생성하며,
    상기 테스트용 전송 동영상들을 부호화하여 제3 특징 맵을 생성하고,
    상기 제3 특징 맵과 상기 제2 특징 맵을 병합하여 제4 특징 맵을 생성하며,
    상기 제4 특징 맵을 복호화하여 상기 예측 이미지들을 생성하는 고해상도 동영상 생성 방법.
  9. 제5항에 있어서,
    상기 판별 모델은,
    테스트 예측 이미지와 검증 정보를 이용하여 MSE(Mean squared error) 손실 함수, GDL(Gradient Difference loss) 손실 함수, 및 적대적(Adversarial) 손실 함수를 결정하고,
    상기 MSE 손실 함수, 상기 GDL 손실 함수, 및 상기 적대적 손실 함수를 조합하여 진짜 특징 정보 및 가짜 특징 정보를 학습하는 판별기의 손실 함수를 결정하는 고해상도 동영상 생성 방법.
  10. 제1항에 있어서,
    상기 전송 동영상은,
    상기 고해상도의 원본 동영상이 촬영된 시점으로부터 일정 시간 이상 지연된 시간에 수신되는 이전 시간의 동영상이고,
    상기 예측 이미지들을 생성하는 단계는,
    상기 동작 정보 및 상기 위치 정보를 이용하여 상기 전송 동영상에 누락된 프레임 및 상기 전송 동영상에 포함된 프레임의 현재 시간에서의 상기 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성하는 동영상 생성 방법.
  11. 전송 과정에서의 지연에 따라 이전 시간의 동영상을 수신하는 단계;
    상기 동영상에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치의 현재 동작 정보, 및 상기 오브젝트들, 또는 제어 장치의 현재 위치 정보를 수신하는 단계;
    상기 이전 시간의 동영상과 상기 현재 동작 정보 및 상기 현재 위치 정보를 이용하여 현재 시간에서의 상기 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성하는 단계; 및
    상기 예측 이미지들 중에 진짜 이미지(real image)를 판별하여 현재 시간의 동영상을 생성하는 단계
    를 포함하는 실시간 동영상 생성 방법.
  12. 제11항에 있어서,
    상기 이전 시간의 동영상은,
    카메라가 이전 시간에 오브젝트들 간의 상호 작용을 촬영하여 생성한 동영상이 전송 과정에서 지연되어 현재 시간에 수신한 동영상인 실시간 동영상 생성 방법.
  13. 제11항에 있어서,
    상기 이전 시간의 동영상은,
    카메라가 이전 시간에 오브젝트들 간의 상호 작용을 촬영하여 생성한 고해상도의 원본 동영상에서 추출한 일부의 프레임들로 구성된 저해상도의 전송 동영상인 실시간 동영상 생성 방법.
  14. 제13항에 있어서,
    상기 예측 이미지들을 생성하는 단계는,
    상기 원본 동영상에 포함되어 있으나 상기 전송 동영상에 누락된 프레임의 현재 시간에서의 상기 오브젝트들 간의 상호 작용 힘의 변화에 대한 예측 이미지들을 생성하는 실시간 동영상 생성 방법.
  15. 고해상도의 원본 동영상에 기초한 저해상도의 전송 동영상을 수신하는 이미지 수신부;
    상기 전송 동영상에 포함된 오브젝트들 간의 상호 작용과 관련된 제어 장치의 동작 정보, 및 상기 오브젝트들, 또는 제어 장치의 위치 정보를 수신하는 동작 정보 수신부;
    상기 전송 동영상과 상기 동작 정보 및 상기 위치 정보를 이용하여 상기 원본 동영상에 포함되어 있으나 상기 전송 동영상에 누락된 프레임에서의 상기 오브젝트들 간의 상호 작용 힘(Interaction force)의 변화에 대한 예측 이미지들을 생성하는 예측 이미지 생성부; 및
    상기 예측 이미지들 중에 진짜 이미지(real image)를 판별하여 상기 원본 동영상에 대응되는 고해상도의 출력 동영상을 생성하는 동영상 생성부
    를 포함하는 동영상 생성 장치.
KR1020200063777A 2019-05-31 2020-05-27 동작 정보를 이용한 고해상도 동영상 생성 방법 및 장치 KR102313160B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/006917 WO2020242221A1 (ko) 2019-05-31 2020-05-28 동작 정보를 이용한 고해상도 동영상 생성 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190064635 2019-05-31
KR20190064635 2019-05-31

Publications (2)

Publication Number Publication Date
KR20200138668A true KR20200138668A (ko) 2020-12-10
KR102313160B1 KR102313160B1 (ko) 2021-10-19

Family

ID=73790445

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200063777A KR102313160B1 (ko) 2019-05-31 2020-05-27 동작 정보를 이용한 고해상도 동영상 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102313160B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657462A (zh) * 2021-07-28 2021-11-16 讯飞智元信息科技有限公司 用于训练车辆识别模型的方法、车辆识别方法和计算设备
WO2023075370A1 (en) * 2021-10-25 2023-05-04 Samsung Electronics Co., Ltd. Method and system for generating high resolution peak action frame

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190044683A (ko) * 2016-09-15 2019-04-30 구글 엘엘씨 로봇 에이전트용 제어 정책
KR101975186B1 (ko) * 2018-07-04 2019-05-07 광운대학교 산학협력단 객체 검출을 위한 생성적 적대 신경망 기반의 데이터 생성 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190044683A (ko) * 2016-09-15 2019-04-30 구글 엘엘씨 로봇 에이전트용 제어 정책
KR101975186B1 (ko) * 2018-07-04 2019-05-07 광운대학교 산학협력단 객체 검출을 위한 생성적 적대 신경망 기반의 데이터 생성 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657462A (zh) * 2021-07-28 2021-11-16 讯飞智元信息科技有限公司 用于训练车辆识别模型的方法、车辆识别方法和计算设备
WO2023075370A1 (en) * 2021-10-25 2023-05-04 Samsung Electronics Co., Ltd. Method and system for generating high resolution peak action frame

Also Published As

Publication number Publication date
KR102313160B1 (ko) 2021-10-19

Similar Documents

Publication Publication Date Title
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
KR20210006971A (ko) 지오로케이션 예측을 위한 시스템 및 방법
CN109426782B (zh) 对象检测方法和用于对象检测的神经网络系统
AU2017324923B2 (en) Predicting depth from image data using a statistical model
US7916977B2 (en) Data processing apparatus, data processing method and recording medium
CN108230354B (zh) 目标跟踪、网络训练方法、装置、电子设备和存储介质
KR102093577B1 (ko) 학습네트워크를 이용한 예측 영상 생성 방법 및 예측 영상 생성 장치
CN112651292A (zh) 基于视频的人体动作识别方法、装置、介质及电子设备
KR20210025942A (ko) 종단간 컨볼루셔널 뉴럴 네트워크를 이용한 스테레오 매칭 방법
KR102313160B1 (ko) 동작 정보를 이용한 고해상도 동영상 생성 방법 및 장치
WO2022174198A1 (en) Self-supervised depth estimation framework for indoor environments
CN109697387A (zh) 运动方向预测方法、装置、电子设备及存储介质
KR102387357B1 (ko) 바운딩 박스를 시공간상으로 매칭하여 영상 내 객체를 검출하는 방법 및 장치
CN114758068A (zh) 空间几何信息估计模型的训练方法及装置
JP2005072726A (ja) 動きベクトル検出装置及び動きベクトル検出方法
CN111639591B (zh) 轨迹预测模型生成方法、装置、可读存储介质及电子设备
CN112396167B (zh) 一种外观相似度与空间位置信息融合的回环检测方法
US9299000B2 (en) Object region extraction system, method and program
EP4224860A1 (en) Processing a time-varying signal using an artificial neural network for latency compensation
KR102323671B1 (ko) 동영상내의 이상 물체 탐지 방법 및 그 장치
CN113191301B (zh) 融合时序和空间信息的视频密集人群计数方法及系统
CN115222769A (zh) 轨迹预测方法、装置和智能体
KR102462966B1 (ko) Yolo 알고리즘을 사용하는 장치의 성능 향상 방법
CN114972465A (zh) 图像目标深度的检测方法、装置、电子设备和存储介质
CN114596475A (zh) 单应性流估计模型的训练方法、单应性流估计方法和装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right