KR102468718B1 - 심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법 - Google Patents

심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR102468718B1
KR102468718B1 KR1020210147051A KR20210147051A KR102468718B1 KR 102468718 B1 KR102468718 B1 KR 102468718B1 KR 1020210147051 A KR1020210147051 A KR 1020210147051A KR 20210147051 A KR20210147051 A KR 20210147051A KR 102468718 B1 KR102468718 B1 KR 102468718B1
Authority
KR
South Korea
Prior art keywords
reference image
digital twin
image frames
unit
twin space
Prior art date
Application number
KR1020210147051A
Other languages
English (en)
Inventor
김화성
신현규
Original Assignee
(주)넥스트빅스튜디오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)넥스트빅스튜디오 filed Critical (주)넥스트빅스튜디오
Priority to KR1020210147051A priority Critical patent/KR102468718B1/ko
Priority to KR1020220152625A priority patent/KR102572415B1/ko
Application granted granted Critical
Publication of KR102468718B1 publication Critical patent/KR102468718B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

심층 신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법이 개시된다. 사용자 단말로부터 획득된 동영상을 구성하는 복수의 이미지 프레임들 중에서 3차원 디지털 트윈 공간을 구성하는데 사용할 레퍼런스 이미지 프레임들을 선정하는 프레임 선택부; 적어도 둘의 레퍼런스 이미지 프레임에서 객체영상을 검출하고, 해당 객체영상을 추출하는 객체영상 추출부; 적어도 둘의 레퍼런스 이미지 프레임의 객체영상으로부터 특징점을 추출하고, 각 객체영상에서 각각 매칭되는 특징점들을 찾아 연결하여 특징점을 매칭하는 특징점 매칭부; 매칭된 특징점을 이용하여 특징점의 속성을 결정하고, 결정된 특징점의 속성에 기초하여 카메라 정보를 결정하는 카메라 정보 결정부; 상기 카메라 정보에 포함된 각각의 레퍼런스 이미지 프레임의 카메라간 상대적인 위치에 기초하여 프레임 선택부가 영상처리에 적합한 프레임을 선택하였는지 여부를 판단하는 레퍼런스 이미지 프레임 검증부; 선정된 레퍼런스 이미지 프레임들을 기반으로 3차원 복원(3D reconstruction)을 수행하여 3차원 디지털 트윈 공간을 생성하는 3차원 디지털 트윈 공간 생성부; 및 생성된 3차원 디지털 트윈 공간에 사용자 단말의 접근을 관리하는 3차원 디지털 트윈 공간 관리부를 포함한다.

Description

심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법{METHOD AND DEVICE FOR PROVIDING 3D DIGITAL TWIN SPACE USING DEEP NEURAL NETWORK}
본 발명은 3차원 디지털 트윈 공간을 제공하는 기술에 관한 것으로, 더욱 상세하게는 심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법에 관한 것이다.
본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.
영상 콘텐츠 제작 분야는 노동집약적 작업 방식으로 효율성이 매우 낮다. 예를 들어, 배우가 연기하는 배경을 실제로 제작하기 위해서는 많은 시간과 비용이 소모된다.
이를 해결하기 위해, 영상 산업의 혁신적 흐름으로 "가상 제작(Virtual Production)"이 대두되고 있다. LED 판넬벽에 가상으로 제작한 배경을 띄워 촬영하는 방식이 사용되고 있다.
그러나, 가상 배경을 제작하는 데에도, 3차원 형상 복원을 하는 데 필요한 스캔 데이터의 품질을 육안으로 검수하는 등 노동집약적 작업 방식으로 그 효율성이 매우 낮다.
따라서, 사용자가 촬영한 동영상에 기초하여 자동적으로 디지털 트윈 공간을 생성하여, 이를 제공하는 기술의 필요성이 대두되었다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 심층 신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법을 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 측면은, 심층 신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치를 제공한다.
상기 장치는, 사용자 단말로부터 획득된 동영상을 구성하는 복수의 이미지 프레임들 중에서 3차원 디지털 트윈 공간을 구성하는데 사용할 레퍼런스 이미지 프레임들을 선정하는 프레임 선택부; 선정된 적어도 둘의 레퍼런스 이미지 프레임들에서 객체영상을 검출하고, 해당 객체영상을 추출하는 객체영상 추출부; 적어도 둘의 레퍼런스 이미지 프레임들 각각의 객체영상으로부터 특징점을 추출하고, 추출된 특징점들을 서로 매칭시키는 특징점 매칭부; 매칭된 특징점들을 이용하여 특징점들 각각의 속성을 결정하고, 결정된 특징점들 각각의 속성에 기초하여 카메라 정보를 결정하는 카메라 정보 결정부; 상기 카메라 정보에 포함된 각각의 레퍼런스 이미지 프레임와 대응하는 카메라들 사이의 상대적인 위치에 기초하여 상기 레퍼런스 이미지 프레임들을 검증하는 레퍼런스 이미지 프레임 검증부; 검증된 레퍼런스 이미지 프레임들을 기반으로 3차원 복원(3D reconstruction)을 수행하여 3차원 디지털 트윈 공간을 생성하는 3차원 디지털 트윈 공간 생성부; 및 생성된 3차원 디지털 트윈 공간에 대한 사용자 단말의 접근을 관리하는 3차원 디지털 트윈 공간 관리부를 포함한다.
상기 객체영상 추출부는, 적어도 둘의 레퍼런스 이미지 프레임 각각에서 색상의 차이를 이용하여 전경과 배경을 분리하여 상기 객체영상을 추출할 수 있다.
상기 프레임 선택부는, 상기 동영상을 구성하고 연속한 시간으로 연결되는 상기 복수의 이미지 프레임들의 집합에서 일정한 제1 시간 간격과 대응하는 이미지 프레임들을 레퍼런스 이미지 프레임들로 선택할 수 있다.
상기 레퍼런스 이미지 프레임 검증부는, 복수의 레퍼런스 이미지들 중 객체와 가장 가까운 거리의 레퍼런스 이미지 프레임에 해당하는 카메라의 위치를 기준 위치로 정하고, 상기 기준 위치와 객체의 기준점을 이은 선분을 반지름으로 갖는 2차원 원을 상기 기준점을 중심으로 그리고, 나머지 레퍼런스 이미지들에 대응하는 카메라의 위치들을 상기 기준점을 원점으로 갖는 좌표계에 나타내고,
상기 그려진 원을 균등하게 n(n은 4 이상의 자연수)등분하고, 각각의 상기 카메라의 위치와 상기 기준점을 이은 선분들과 상기 n등분된 원을 구성하는 n개의 호들 각각과의 교점의 개수를 비교하고,
비교 결과에 기초하여 레퍼런스 이미지 프레임의 재선정 여부를 결정할 수 있다.
상기 레퍼런스 이미지 프레임 검증부는, 상기 동영상에서 연속한 시간으로 연결되는 상기 복수의 이미지 프레임들의 집합에서 상기 제1 시간 간격보다 작은 제2 시간 간격마다 레퍼런스 이미지 프레임들을 재선정할 수 있다.
상기 레퍼런스 이미지 프레임 검증부는, 하기의 수학식을 만족하는 경우, 선택된 레퍼런스 이미지 프레임들이 영상처리에 부적합하게 선택되었다고 판단하며,
Figure 112021124942896-pat00001
상기의 수학식에서, 교점의 개수가 평균 교점보다 적은 호의 개수는, n등분된 호 중에서 카메라의 위치와 기준점을 이은 선분들과의 교점의 개수가 평균 교점보다 적은 호의 개수를 의미하고, 평균 교점은 (선택된 레퍼런스 이미지들의 개수)/n으로 계산될 수 있다.
상기 레퍼런스 이미지 프레임 검증부는, 부적합한 프레임을 선택하였다고 판단한 경우, 사용자 단말로부터 획득된 동영상을 구성하는 복수의 이미지 프레임들 중에서 3차원 디지털 트윈 공간을 구성하는데 사용할 레퍼런스 이미지 프레임들을 재선정할 수 있다.
상기 레퍼런스 이미지 프레임 검증부는, 하기의 수학식을 만족하도록 사용자 단말로부터 획득된 동영상을 구성하는 복수의 이미지 프레임들 중에서 3차원 디지털 트윈 공간을 구성하는데 사용할 레퍼런스 이미지 프레임들을 재선정하며,
Figure 112021124942896-pat00002
상기의 수학식에서, 교점의 개수가 평균 교점보다 적은 호의 개수는, n등분된 호 중에서 카메라의 위치와 기준점을 이은 선분들과의 교점의 개수가 평균 교점보다 적은 호의 개수를 의미하고, 평균 교점은 (선택된 레퍼런스 이미지들의 개수)/n으로 계산될 수 있다.
본 발명의 실시예들에 따른 디지털 트윈 공간 제공 서비스를 통해 사용자가 동영상을 입력하면, 사용자에게 동영상에 대응하는 디지털 트윈 공간을 제공하는 효과가 있다.
또한, 동영상을 구성하는 복수의 프레임들 중에서 영상처리에 적합한 프레임들을 재선정하는 과정을 통하여, 디지털 트윈 공간을 정확하게 생성하는 효과를 극대화할 수 있다.
실시예들로부터 얻을 수 있는 효과들은 이상에서 언급된 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 이하의 상세한 설명을 기반으로 당해 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다.
실시예들에 대한 이해를 돕기 위해 상세한 설명의 일부로 포함된, 첨부 도면은 다양한 실시예들을 제공하고, 상세한 설명과 함께 다양한 실시예들의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법에 대한 개요도이다.
도 2는 도 1에 따른 디지털 트윈 공간 제공 서버의 기능적 모듈을 예시적으로 나타낸 블록도이다.
도 3은 레퍼런스 이미지들을 이용하여 3차원 좌표를 결정하는 개념을 나타낸 도면이다.
도 4는 레퍼런스 이미지 프레임 검증부가 영상처리에 적합한 레퍼런스 이미지 프레임을 선택하였는지 여부를 판단하는 개념도이다.
도 5는 본 발명의 일 실시예를 나타낸 도면이다.
도 6은 일 실시예에 따른 제1 심층 신경망의 구조를 예시적으로 나타낸 도면이다.
도 7는 일 실시예에 따른 제2 심층 신경망의 구조를 예시적으로 나타낸 도면이다.
도 8은 일 실시예에 따른 디지털 트윈 공간 제공 서버에 대한 하드웨어 구성을 예시적으로 나타낸 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법에 대한 개요도이다.
도 1을 참조하면, 3차원 디지털 트윈 공간을 제공하기 위한 방법은 디지털 트윈 공간 제공 서버(100, 3차원 디지털 트윈 공간을 제공하기 위한 장치와 혼용하여 지칭될 수 있음), 및 사용자 단말(200)을 이용하여 수행될 수 있다. 이때, 디지털 트윈 공간 제공 서버(100), 및 사용자 단말(200)을 제공 시스템으로 지칭할 수도 있다.
디지털 트윈 공간 제공 서버(100)는 사용자 단말로부터 획득된 동영상에 기초하여 3차원 디지털 공간을 생성하여, 이를 제공하는 서버일 수 있다. 또한, 디지털 트윈 공간 제공 서버(100)는 중앙 서버, 관리 서버, 클라우드 서버, 웹서버, 클라이언트 서버 등의 형태로 구현될 수 있다.
사용자 단말(200)은, 3차원 디지털 공간 제공 서비스를 이용하기 위해 등록된 사용자가 사용하는 사용자 단말로서, 사용자 등록을 위한 데이터를 디지털 트윈 공간 제공 서버(100)에 제공할 수 있다.
사용자 단말(200)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.
도 2는 도 1에 따른 디지털 트윈 공간 제공 서버의 기능적 모듈을 예시적으로 나타낸 블록도이다. 도 3은 레퍼런스 이미지들을 이용하여 3차원 좌표를 결정하는 개념을 나타낸 도면이다.
도 2를 참조하면, 디지털 트윈 공간 제공 서버(100)는, 제1 심층 신경망 기반 프레임 선택부(101), 객체영상 추출부(102), 특징점 매칭부(103), 카메라 정보 결정부(104), 3차원 좌표 결정부(105), 깊이정보 결정부(106), 레퍼런스 이미지 프레임 검증부(106), 3차원 디지털 트윈 공간 생성부(107), 및 3차원 디지털 트윈 공간 관리부(108)를 포함할 수 있다.
제1 심층 신경망 기반 프레임 선택부(101)는, 사용자 단말로부터 획득된 동영상을 구성하는 복수의 이미지 프레임들 중에서 3차원 디지털 트윈 공간을 구성하는데 사용할 레퍼런스 이미지 프레임들을 선정할 수 있다.
이때, 사용자 단말로부터 획득되는 동영상은, 4K 또는 8K 동영상으로서 고화질 영상인 것이 바람직하며, 디지털 트윈 공간을 생성하기 위한 실제 공간을 다양한 각도와 방향에서 시간의 흐름에 따라 이동하면서 촬영한 영상에 해당할 수 있다.
본 발명의 일실시예는, 제1 심층 신경망 기반 프레임 선택부(101)는, 동영상에서 연속한 시간으로 연결되는 복수의 이미지 프레임들의 집합에서 일정한 제1 시간 간격과 대응하는 이미지 프레임들을 레퍼런스 이미지 프레임들로 선택할 수 있다. 예를 들어, 2초 사이의 시간 간격마다 이미지 프레임들을 선택하는 방식으로, 레퍼런스 이미지 프레임들을 선택할 수 있다.
만약, 제1 심층 신경망 기반 프레임 선택부(101)가 영상처리에 적합한 레퍼런스 이미지 프레임을 선택하지 못한 경우, 본 발명의 일실시예에서, 프레임 선택부는 촬영된 영상으로부터 3차원 깊이정보를 얻어낼 수 없음을 사용자 단말에게 전송하고, 사용자 단말로부터 영상처리에 적합한 레퍼런스 이미지 프레임들을 획득하기 위해 복수의 프레임의 동영상을 추가적으로 요구할 수 있다.
제1 심층 신경망 기반 프레임 선택부(101)는, 미리 지도학습된 제1 심층 신경망(10)을 이용하여, 사용자 단말로부터 획득된 동영상을 구성하는 복수의 이미지 프레임들 중에서 레퍼런스 이미지 프레임으로 선정하기에 적합하지 않은 이미지 프레임을 필터링할 수 있다.
예를 들어, 제1 심층 신경망(10)은 CNN(Convolutional Neural Network) 기반의 심층 신경망일 수 있다.
구체적으로, 제1 심층 신경망(10)은, 이미지 프레임들 중에서 블러(blur)나 역광이 있는 이미지 프레임을 분류하도록 지도학습되거나, 이미지 프레임들 중에서 화이트밸런스(White Balance)가 맞지않은 이미지 프레임을 분류하도록 지도학습될 수 있다.
여기서, 화이트밸런스가 맞지않은 이미지 프레임은 빛의 온도(또는 색 온도)에 따라 피사체의 색감이 원래 갖고 있는 색감과 상이하게 표현된 이미지 프레임을 의미할 수 있다.
이를 위해, 제1 심층 신경망(10)은, 미리 수집된 훈련 데이터를 이용하여 지도학습될 수 있다.
훈련 데이터는, 블러나 역광이 있는 이미지 프레임 및 화이트밸런스가 맞지않은 이미지 프레임으로 라벨링되어 있지 않은 이미지들을 훈련입력값으로하고, 블러나 역광이 있는 이미지 프레임 및 화이트밸런스가 맞지않은 이미지 프레임으로 라벨링되어 있는 이미지들을 훈련출력값으로 하는 데이터들의 집합일 수 있다.
제1 심층 신경망 기반 프레임 선택부(101)는, 이러한 훈련입력값을 제1 심층 신경망(10)에 입력데이터로 제공하고, 제1 심층 신경망(10)의 출력값을 훈련출력값과 비교하여 제1 심층 신경망(10)을 구성하는 파라미터들을 미세튜닝(fine-tuning)하는 방식으로 제1 심층 신경망(10)을 지도학습시킬 수 있다.
객체영상 추출부(102)는, 적어도 둘의 레퍼런스 이미지 프레임에서 객체를 검출하고, 색상의 차이를 이용하여 전경(foreground)과 배경(background)을 분리하여 객체영상을 추출할 수 있다. 전경과 배경을 분리하는 기술은, 클러스터링(clustering), 쓰레쉬홀드(threshold), 영역확장(region growing), 엣지 검출(edge detection) 등 다양한 방법이 이용될 수 있다. 각각의 내용에 대해서는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명하다 할 것이므로, 그 상세한 설명은 생략하기로 하겠다.
특징점 매칭부(103)는 적어도 둘의 레퍼런스 이미지 프레임의 객체영상으로부터 특징점을 추출하고, 각 객체영상에서 각각 매칭되는 특징점들을 찾아 연결하여 특징점을 매칭할 수 있다. 이때 특징점 매칭부(103)는 적어도 둘의 레퍼런스 이미지 프레임들 중 기준이 되는 기준 이미지 프레임의 객체영상으로부터 특징점을 추출할 수 있으며, 해리스 코너(Harris corner)를 이용하여 특징점을 추출할 수 있으나, 본 발명이 이에 한정되는 것은 아니며, 다양한 방식에 의해 특징점을 추출할 수 있다.
다음으로, 특징점 매칭부(103)는 나머지 적어도 하나의 레퍼런스 이미지 프레임의 객체영상을 추적하여 기준이 되는 기준 프레임의 객체영상에 대응하는 각 레퍼런스 이미지 프레임의 객체영상의 대응점을 추출할 수 있다. 이때의 특징점 매칭부(32)는 Kande-Lucas-Tomashi(KLT) 추적기(tracker)를 이용하여 나머지 적어도 하나의 레퍼런스 이미지 프레임의 객체영상을 추적할 수 있지만 본 발명은 이에 한정되는 것은 아니며, 다양한 방식에 의해 나머지 적어도 하나의 프레임의 객체영상을 추적할 수 있다.
본 발명의 일실시예에서, 객체영상에서 추출되는 특징점을 정확하게 연결하여, 레퍼런스 이미지 프레임에서 관찰되는 2차원 특징과 복원하고자 하는 3차원 구조와의 초기관계를 결정할 수 있는 것이다.
카메라 정보 결정부(104)는 매칭된 특징점을 이용하여 특징점의 속성(특징점의 움직이는 방향, 움직인 거리, 속도 등)을 결정하고, 특징점의 속성에 기초하여 카메라 정보를 결정할 수 있다. 여기서, 특징점의 속성은, 특징점의 움직임 벡터를 포함할 수 있다. 예를 들어, 움직임 벡터는 특징점이 연속된 레퍼런스 이미지 프레임 사이에서 이동된 방향과 거리, 및/또는 속도를 지시할 수 있다.
즉, 카메라 정보 결정부(104)는, 특징점의 속성을 기반으로 카메라의 3차원의 물체가 2차원의 이미지에 투영되는 방식을 결정하는 카메라의 내부변수(intrinsic parameter) 및 카메라의 상대적인 위치와 방향을 포함하는 카메라 정보를 결정하는 것으로서, 카메라 내부변수는 초점거리, 주점, 비대칭계수 및 왜곡변수를 포함할 수 있다.
이는 투영 기하정보를 유클리드 기하정보로 변환하기 위해 필요한 것으로서, 2차원 영상정보의 기하학적인 특성을 이용하여 투영기하에서 유클리드 기하로 3차원 구조를 변환하는 동시에 실세계에서의 카메라의 내부변수와 카메라간 상대적인 위치를 계산하는 것이다.
3차원 좌표 결정부(105)는 카메라 정보 결정부(104)가 결정한 카메라 정보를 기반으로, 특징점에 삼각측량 기법 등을 이용하여 특징점의 3차원 공간상에서의 좌표를 결정할 수 있다. 특징점의 3차원 공간상 좌표를 결정하는 방식은 삼각측량 기법에 한정되는 것은 아니고, 더욱 다양한 방식으로 결정될 수 있을 것이다.
특징점 매칭부(103), 카메라 정보 결정부(104) 및 3차원 좌표 결정부(105)의 동작은 SFM(Structure from Motion)으로 알려진 알고리즘으로, 동영상 또는 연속된 영상의 입력으로부터 3차원 정보를 추정하는 기술에 해당할 수 있다. 즉, 이러한 SFM 방식은 추출된 특징점의 궤도를 이용하여 카메라의 움직임 및 객체의 3차원 위치 좌표를 결정하는 것이다.
본 발명의 일실시예는, 이러한 SFM 방식을 이용하는 것으로서, SFM 방식에 의하면, 카메라 정보와 각 레퍼런스 이미지 프레임의 카메라간 상대적인 위치를 계산하고, 이를 이용하여 도 3에서와 같이 2차원 이미지인 레퍼런스 이미지 프레임(image k-1 ~ k+1)의 특징점들 사이의 매칭 과정을 통해 3차원 구조를 계산할 수 있다.
디지털 트윈 공간 제공 서버(100)는, 제2 심층 신경망 기반 보간부(109)를 더 포함할 수 있다.
제2 심층 신경망 기반 보간부(109)는, 제2 심층 신경망을 이용하여 3차원 디지털 트윈 공간 생성부(107)에 의해 생성된 3차원 디지털 트윈 공간을 구성하는 포인트 클라우드의 포인트들에 대해 보간(interpolation)을 수행하여 노이즈 포인트들을 제거하거나, 포인트들을 포인트 클라우드에 새롭게 추가할 수 있다. 여기서 보간은 선형 또는 비선형 보간일 수 있다.
예를 들어, 노이즈 포인트들은 객체를 구성하는 포인트들 중에서 급격하게 돌출된 좌표에 해당하는 포인트이거나, 객체를 구성하는 주변 포인트들과 비교하여 상대적으로 색상값이 크게 상이한 포인트일 수 있다.
또한, 제2 심층 신경망 기반 보간부(109)는, 포인트 클라우드를 구성하는 포인트들 각각을 인접한 주변 포인트들과 서로 비교하여 상대적으로 주변 포인트들의 수가 적은 포인트를 선정하고, 선정된 포인트와 인접하는 포인트를 새롭게 포인트 클라우드에 추가할 수도 있다.
제2 심층 신경망은, 포인트 클라우드를 구성하는 포인트들을 입력받고, 상술한 노이즈 포인트들의 제거나 포인트를 추가하는 비선형 보간을 수행하여 보간된 포인트들을 출력할 수 있고, 제2 심층 신경망 기반 보간부(109)는, 이러한 제2 심층 신경망을 이용하여 비선형 보간을 수행할 수 있다.
도 4는 레퍼런스 이미지 프레임 검증부가 영상처리에 적합한 레퍼런스 이미지 프레임가 선택되었는지 여부를 검증하는 개념도이다. 도 4를 참조하면, 7개의 레퍼런스 이미지 프레임이 선택되었음을 알 수 있다.
레퍼런스 이미지 프레임 검증부(106)는, 선택된 레퍼런스 이미지 프레임들이 3차원 디지털 트윈 공간을 구성하는 데 적합한지 여부를 검증할 수 있다.
예를 들어, 레퍼런스 이미지 프레임 검증부(106)는, 레퍼런스 이미지 프레임들 각각에서 역광의 유무와 정도, 흔들림의 유무와 정도, 화이트 밸런스, 의도하지 않은 객체(예를 들어 사람)이 촬영되어 있는지 여부 등을 판단하고, 판단 결과에 따라 레퍼런스 이미지 프레임을 보정하거나, 선택된 레퍼런스 이미지들 중 일부를 레퍼런스 이미지에서 제외할 수 있다.
또한, 도 4를 참조하면, 레퍼런스 이미지 프레임 검증부(106)는, 복수의 레퍼런스 이미지들 중 객체와 가장 가까운 거리의 레퍼런스 이미지 프레임과 대응하는 카메라의 위치를 기준 위치(A)로 정하고, 기준 위치와 객체의 기준점을 이은 선분을 반지름으로 갖는 2차원 원을 상기 기준점을 중심으로 그리고, 나머지 레퍼런스 이미지들에 대응하는 카메라들의 위치를 객체의 기준점을 원점으로 갖는 좌표계에 나타낼 수 있다.
예를 들어, 객체의 기준점이 (0, 0, 0)이고, 기준 위치 A가 (Rx, Ry, Rz)인 경우,
Figure 112021124942896-pat00003
를 반지름으로 하는 원을 객체의 기준점으로부터 그릴 수 있다. 이때, 객체의 기준점은 객체의 중심점이나 기준 위치의 레퍼런스 이미지 프레임 중에 임의의 점일 수 있고, 카메라의 위치에 대하여는 Z값은 고려하지 않고, X값과 Y값만을 기준으로 나타낼 수 있다.
이후, 일 실시예에서, 레퍼런스 이미지 프레임 검증부(106)는, 그려진 원을 4등분하고, 각각의 카메라의 위치와 기준점을 이은 선분들과 4등분된 호와의 교점의 개수를 비교하여 디지털 트윈을 구성하는데 적합한 프레임을 선택하였는지 여부를 판단할 수 있다.
예를 들어, 레퍼런스 이미지 프레임 검증부(106)는 상기 선분과 상기 호의 평균 교점의 개수에 기초하여 선택된 레퍼런스 이미지 프레임들이 영상처리에 적합한 지 여부를 판단할 수 있다.
도 4를 참고하면, 4 등분된 호 중 하나인 제1 호(270도 내지 360도 사이의 반경과 대응)에는 B 위치의 카메라와 C 위치의 카메라 각각이 기준점에 이은 선분들과 제1 호의 교점은 2개임을 확인할 수 있고, 마찬가지로 제2 호(0도 내지 90도 사이의 반경과 대응)는 1개, 제3 호(90도 내지 180도 사이의 반경과 대응)는 3개, 제4 호(180도 내지 270 사이의 반경과 대응)는 0개임을 알 수 있다. 그리고 각 호마다 교점의 평균 개수를 나타내는 평균 교점의 수은 7/4=1.75개임을 알 수 있다.
레퍼런스 이미지 프레임 검증부(106)는, 교점의 개수가 평균 교점의 수보다 적은 호의 개수가 2개 이상인 경우, 선택된 레퍼런스 이미지 프레임들이 영상처리에 부적합하게 선택되었다고 판단할 수 있다.
본 발명의 다른 실시예에서, 레퍼런스 이미지 프레임 검증부(106)는, 그려진 원을 균등하게 n(n은 4 이상의 자연수)등분하여 n개의 호들을 결정하고, 각각의 카메라의 위치와 기준점을 이은 선분들과 n등분된 호와의 교점의 개수를 비교하여 영상처리에 적합한 프레임을 선택하였는지 여부를 판단할 수 있다. 예를 들어, 레퍼런스 이미지 프레임 검증부(106)는 수학식 1을 만족하는 경우, 선택된 레퍼런스 이미지 프레임들이 3차원 디지털 트윈 공간을 생성하는데 부적합한 것으로 판단할 수 있다.
Figure 112021124942896-pat00004
수학식 1에서, 교점의 개수가 평균 교점보다 적은 호의 개수는, n등분된 호 중에서 카메라의 위치와 기준점을 이은 선분들과의 교점의 개수가 평균 교점보다 적은 호의 개수를 의미하고, 평균 교점은
Figure 112021124942896-pat00005
로 계산될 수 있다.
레퍼런스 이미지 프레임 검증부(106)가 부적합한 프레임을 선택하였다고 판단한 경우, 레퍼런스 이미지 프레임 검증부는 사용자 단말로부터 획득된 동영상을 구성하는 복수의 이미지 프레임들 중에서 3차원 디지털 트윈 공간을 구성하는데 사용할 레퍼런스 이미지 프레임들을 재선정할 수 있다.
레퍼런스 이미지 프레임 검증부(106)는 수학식 2를 만족하도록 사용자 단말로부터 획득된 동영상을 구성하는 복수의 이미지 프레임들 중에서 3차원 디지털 트윈 공간을 구성하는데 사용할 레퍼런스 이미지 프레임들을 재선정할 수 있다.
Figure 112021124942896-pat00006
수학식 2에서, 교점의 개수가 평균 교점보다 적은 호의 개수는, n등분된 호 중에서 카메라의 위치와 기준점을 이은 선분들과의 교점의 개수가 평균 교점보다 적은 호의 개수를 의미하고, 평균 교점은
Figure 112021124942896-pat00007
로 계산될 수 있다.
즉, 레퍼런스 이미지 프레임 검증부(106)는 교점의 개수가 평균 교점보다 적은 호의 개수를, 전체 레퍼런스 이미지의 개수인 n개 중 과반 수 미만으로 유지하도록 하여 영상처리에 적합한 레퍼런스 이미지 프레임들을 선택하게 할 수 있다. 이를 통하여, 객체의 전방위적으로 균등하게 레퍼런스 이미지 프레임들을 선정함으로써 3차원 디지털 트윈 공간의 일부가 부적절하게 생성되는 것을 방지할 수 있다.
또한, 레퍼런스 이미지 프레임 검증부(106)는, 레퍼런스 이미지들을 재선정할 때, 동영상에서 연속한 시간으로 연결되는 복수의 이미지 프레임들의 집합에서 일정한 제1 시간 간격보다 작은 제2 시간 간격마다 레퍼런스 이미지 프레임들을 재선택할 수 있다. 여기서, 제2 시간 간격은 제1 시간 간격에서 미리 설정된 값만큼 작은 값으로 결정될 수 있다.
또한, 레퍼런스 이미지 프레임 검증부(106)는, 제2 시간 간격마다 재선택된 레퍼런스 이미지 프레임들 중에서, 교점의 개수가 평균 교점의 수보다 적은 호의 외곽에 위치하는 카메라들 각각과 대응하는 레퍼런스 이미지 프레임들을 탐색하고, 탐색된 레퍼런스 이미지 프레임들 사이의 시간 간격에 해당하는 제2 시간 간격 내에 있는 이미지 프레임들 중에서 적어도 일부를 기존의 동영상을 구성하는 이미지 프레임들의 집합에서 추가로 레퍼런스 이미지 프레임으로서 선정할 수 있다.
구체적으로, 레퍼런스 이미지 프레임 검증부(106)는, 탐색된 레퍼런스 이미지 프레임들 사이의 시간 간격에 해당하는 제2 시간 간격 내에 있는 이미지 프레임들 중에서 하기 수학식 3을 만족하는 제3 시간 간격마다 추가로 레퍼런스 이미지 프레임을 선정할 수 있다.
Figure 112021124942896-pat00008
수학식 3에서, k는 레퍼런스 이미지 프레임을 추가로 선정하기 위한 보정 계수로서, 관리자에 의해 미리 설정되는 값에 해당하며, 예를 들어 0.926 으로 설정될 수 있다.
레퍼런스 이미지 프레임 검증부(106)가 레퍼런스 이미지 프레임들을 재선정하는 경우, 특징점 매칭부(103), 카메라 정보 결정부(104) 및 3차원 좌표 결정부(105)가 상기 기술된 동작을 다시 수행하여, 객체의 3차원 위치정보를 다시 결정할 수 있다.
3차원 디지털 트윈 공간 생성부(107)는 선정된 레퍼런스 이미지 프레임들을 기반으로 3차원 복원(3D reconstruction)을 수행하여 3차원 디지털 트윈 공간을 생성할 수 있다. 이때, 디지털 트윈 공간은, 실제 공간을 가상 세계에 쌍둥이처럼 똑같이 구현하는 기술을 의미한다. 또한, 디지털 트윈은 특정 공간에 발생할 수 있는 문제를 시뮬레이션으로 미리 파악할 수 있다.
자세하게는, 3차원 디지털 트윈 공간 생성부(107)는 선정된 레퍼런스 이미지 프레임들과, 깊이 정보를 기초로 3차원 가상공간에 물리공간의 실제객체들에 대응되는 가상객체들을 복수의 포인트들로 구성된 포인트 클라우드(point cloud)로 모델링한 3차원 디지털 트윈 공간을 생성할 수 있다.
또한, 3차원 디지털 트윈 공간 생성부(107)는, 사용자 단말로부터의 입력을 반영하면서 3차원 디지털 트윈 공간을 실시간으로 생성할 수 있다. 예를 들어, 3차원 디지털 트윈 공간 생성부(107)는, 사용자 단말로부터 실제객체를 측정한 센서 데이터를 실시간으로 수신하고, 수신된 센서 데이터를 가상 컨텐츠로 변환한 후 3차원 디지털 트윈 공간의 가상객체 이미지 주변에 상기 가상 컨텐츠를 삽입한 3차원 디지털 트윈 공간을 생성함으로써, 생성된 디지털 트윈 공간을 통해 사용자가 실제 객체와 비교하여 디지털 트윈 공간을 효과적으로 모니터링할 수 있다.
3차원 디지털 트윈 공간 관리부(108)는 생성된 3차원 디지털 트윈 공간에 사용자 단말의 접근을 관리할 수 있다. 3차원 디지털 트윈 공간 관리부(108)는 생성된 3차원 디지털 트윈 공간을 사용자 단말의 디스플레이에서 출력하도록 제어할 수 있다.
또한, 3차원 디지털 트윈 공간 관리부(108)는, 사용자 단말에 3차원 디지털 트윈 공간을 구성하는 점군(point cloud)을 편집할 수 있는 온라인 상의 툴(tool)을 제공할 수 있다. 예를 들어, 3차원 디지털 트윈 공간 관리부(108)는, 사용자 단말이 디지털 트윈 공간을 구성하는 점군에 포인트를 추가하거나 삭제할 수 있는 사용자 인터페이스를 사용자 단말에 제공할 수 있다.
도 5는 본 발명의 일 실시예를 나타낸 도면이다.
도 5를 참조하면, 디지털 트윈 공간 제공 서버(100)는 생성된 3차원 디지털 트윈 공간을 사용자 단말(예; LED 판넬벽)에 출력하도록 제어할 수 있다. 이를 통해, 영화 콘텐츠 제작 시 배우가 연기하는 배경을 3차원 가상 공간인 디지털 트윈 공간으로 대체하여 배경 제작 비용과 시간을 절약할 수 있다.
특히, 3차원 디지털 트윈 공간의 경우, 노동집약적인 작업을 통해 3차원 공간 상에서 포인트 클라우드를 생성하고, 편집을 통해 수작업으로 보정하는 것이 일반적이며, 이 때문에 초기에 유의미한 3차원 디지털 트윈 공간이 생성되어야 보정작업이 최소화될 수 있다.
본 발명의 상술한 일 실시예에 따른 레퍼런스 이미지 검증부를 통해 레퍼런스 이미지를 평가하고 재구성하는 방식으로 노동집약적 작업을 큰 폭으로 줄여 생산성 향상을 도모하고 더욱 나은 3차원 복원 결과를 획득할 수 있다.
도 6은 일 실시예에 따른 제1 심층 신경망의 구조를 예시적으로 나타낸 도면이다.
도 6을 참조하면, 일 실시예에 따른 제1 심층 신경망(neural network, 10)은, 미리 설정된 크기의 이미지 프레임들을 입력 이미지로 입력받아, 특징 맵을 추출하는 컨볼루셔널 계층(11), 추출된 특징에 대해 활성화 함수를 이용해 출력을 활성화할지 여부를 결정하는 활성화 계층(12), 활성화 계층(12)에 따른 출력에 대해 샘플링을 수행하는 풀링 계층(13), 클래스에 따른 분류를 수행하는 완전 연결 계층(14), 완전 연결 계층(14)에 따른 출력을 최종적으로 출력하는 출력 계층(15)을 포함할 수 있다.
컨볼루셔널 계층(11)은 입력 이미지와 필터를 서로 합성곱함으로써 입력 데이터의 특징을 추출하는 계층일 수 있다. 여기서 필터는 입력 이미지의 특징적 부분을 검출하는 함수로서, 일반적으로 행렬로 표현되며 학습 데이터에 의해 지속적으로 학습됨에 따라 결정되는 함수일 수 있다. 컨볼루셔널 계층(11)에 의해 추출된 특징은 특징 맵(feature map)으로 지칭될 수도 있다. 또한, 합성곱을 수행하는 간격 값을 스트라이드(stride)라고 지칭할 수 있는데, 스트라이드 값에 따라 다른 크기의 특징 맵이 추출될 수 있다. 이때, 특징 맵은 필터의 크기가 입력 이미지보다 작으면, 기존의 입력 이미지보다 더 작은 크기를 갖게 되는데, 여러 단계를 거쳐 특징이 소실되는 것을 방지하기 위하여 패딩 과정이 추가로 수행될 수 있다. 이때, 패딩 과정은 생성된 특징 맵의 외곽에 미리 설정된 값(예를 들면 0이나 1)을 추가함으로써 입력 이미지의 크기와 특징 맵의 크기를 동일하게 유지하는 과정일 수 있다.
여기서 본 발명의 일 실시예에 따른 컨볼루셔널 계층(11)은, 1Х1 컨볼루셔널 계층과 3Х3 컨볼루셔널 계층을 순차로 반복 연결한 구조를 사용할 수 있으나 이에 한정되는 것은 아니다.
활성화 계층(12)는 어떠한 값(또는 행렬)으로 추출된 특징을 활성화 함수에 따라 비선형 값으로 바꾸어 활성화 여부를 결정하는 계층으로, 활성화 함수로는 시그모이드(sigmoid) 함수, ReLU 함수, 소프트맥스(softmax) 함수 등이 사용될 수 있다. 예를 들어, 소프트맥스 함수는 입력된 값을 0~1사이의 값으로 모두 정규화하며 출력 값들의 총합은 항상 1이 되는 특성을 가진 함수일 수 있다.
풀링 계층(130)은 활성화 계층(12)의 출력에 대하여 서브 샘플링(subsampling) 또는 풀링(pooling)을 수행하여 특징맵을 대표하는 특징을 선정하는 계층으로서, 특징맵의 일정 영역에 대하여 가장 큰 값을 추출하는 맥스 풀링(max pooling), 평균값을 추출하는 애버리지 풀링(average pooling) 등이 수행될 수 있다. 이때, 풀링 계층은 활성화 함수 이후에 반드시 수행되는 것이 아니라 선택적으로 수행될 수 있다.
또한, 여기서 제1 심층 신경망(10)은, 컨볼루셔널 계층(11), 활성화 계층(12), 풀링 계층(13)의 연결 구조가 복수개 포함될 수도 있다.
예를 들어, 제1 심층 신경망(10)은, CNN 기반의 YOLO(You Look Only Once), SSD(Single Shot MultiBox Detector), Faster R-CNN 등이거나 이를 기반으로 개량된 형태의 심층 신경망일 수 있으나 이에 한정되는 것은 아니다.
도 7는 일 실시예에 따른 제2 심층 신경망의 구조를 예시적으로 나타낸 도면이다.
도 7을 참조하면, 제2 심층 신경망(20)은, 입력 벡터들 각각을 순차적으로 입력받고, 입력 벡터들 각각의 성분값 개수와 동일한 개수(n)의 입력 노드들로 구성되는 입력층(21), 입력층(21)으로부터 전달받은 출력값들을 이용하여 얻어지는 출력 벡터(Y`)를 출력층(23)에 전달하는 은닉층(22), 및 출력 벡터(Y`)에 활성화 함수를 적용하여 출력 벡터(Y`)에 대응하는 확률(p)을 출력하는 출력층(23)을 포함할 수 있다.
이때, 제2 심층 신경망(20)은, 미리 수집된 훈련 데이터를 이용하여 미리 지도학습되며, 훈련 데이터 셋은, 특정 포인트 클라우드를 구성하는 포인트들에 대응하는 입력 벡터들을을 훈련 입력값으로 하고, 해당 포인트 클라우드를 구성하는 포인트들에 대하여 보간이 완료된 포인트들과 대응하는 목표 출력 벡터(Y)를 제2 심층 신경망(20)의 훈련 출력값으로 하는 데이터의 집합일 수 있다.
제2 심층 신경망(20)의 동작을 설명하면, 제2 심층 신경망(20)은, 훈련 입력값으로 제공된 입력 벡터들(D1~Dn)을 순차적으로 입력받으면, 은닉층(22)의 출력으로서 획득되는 출력 벡터(Y`)와 훈련 출력값으로 제공받은 목표 출력 벡터(Y)를 이용하여 손실함수(loss function)을 연산하고, 연산된 손실함수의 결과값이 최소화되도록 지도학습된다.
예를 들어, 손실 함수(H(Y,Y`))는, 크로스 엔트로피(Cross Entropy) 함수일 수 있다. 출력 벡터(Y`)와 목표 출력 벡터(Y) 사이의 크로스 엔트로피(H(Y,Y`))는 다음의 수학식 4와 같이 정의될 수 있다.
Figure 112021124942896-pat00009
수학식 4에서 Ym은 목표 출력 벡터(Y)의 m(m은 1 이상의 자연수)번째 성분이고, Y`m은 출력 벡터(Y`)의 m번째 성분일 수 있다.
입력층(11)은 입력 벡터들(D1~Dn)을 순차적으로 입력받고, 입력받은 입력 벡터의 성분값들에 대하여, 입력 노드들과 대응하는 하나 이상의 연결 강도값들을 적용하여 은닉층(12)에 전달할 수 있다.
예를 들어, 입력 노드들 각각에 대응하는 하나 이상의 연결 강도값들은 NХn의 크기를 갖는 제1 연결강도 행렬(WNХn)로 표현할 수 있다. 이때, N은 입력노드들과 동일한 개수인 N일 수 있고, n은 입력 벡터(D1~Dn)의 성분 개수인 n과 동일하게 설정된다. 제1 연결강도 행렬(WNХn)은 임의의 초기값으로 설정된 후 지도학습을 통해 지속적으로 갱신될 수 있다.
종합하면, 입력층(11)은 순차적으로 입력받은 입력 벡터(D1~Dn)에 제1 연결강도 행렬(WNХn)을 행렬곱 연산하여 얻어진 중간 연산 벡터(X)을 은닉층(12)에 전달할 수 있다.
은닉층(12)은, 입력층(11)으로부터 전달받은 중간 연산 벡터(X)에 은닉 노드들 각각에 대응하는 하나 이상의 연결 강도를 적용하여 출력 벡터(Y`)를 생성하고, 생성된 출력 벡터(Y`)를 출력층(13)에 전달할 수 있다.
이때, 은닉 노드들 각각에 대응하는 하나 이상의 연결 강도값들은 nХN의 크기를 갖는 제2 연결강도 행렬(UnХN)로 표현할 수 있다. 즉, 제2 연결강도 행렬(UnХN)은 n개의 차원으로 사상된 중간 연산 벡터(X)를 다시 N개의 차원으로 복원한다.
한편, 제2 연결강도 행렬(UnХN)의 초기값은 임의의 값으로 설정된 후, 출력 벡터(Y`)가 훈련 출력값인 목표 출력 벡터(Y)가 되도록 지속적으로 갱신될 수 있다. 즉, 제2 연결강도 행렬(UnХN)은 훈련 데이터를 지속적으로 지도학습함에 따라 갱신될 수 있다.
출력층(13)은, 은닉층(12)으로부터 전달받은 출력 벡터(Y`)에 활성화 함수를 적용함으로써 출력 벡터(Y`)에 대응하는 확률(p)을 출력할 수 있다. 활성화 함수는 다양한 범위를 가지는 값들을 0과 1 사이의 값으로 확대 또는 축소함으로써 확률로 변환하는 효과가 있다. 예를 들어, 활성화 함수는, LeRU 함수 또는 Softmax 함수일 수 있으나 이에 한정되는 것은 아니다.
예를 들어, 제2 심층 신경망(20)은 RNN, Fast RNN, AutoEncoder 등일 수 있으나 이에 한정되는 것은 아니다.
제2 심층 신경망 기반 보간부(109)는, 출력층(13)을 통해 출력되는 확률(p)이 가장 높은 값과 대응하는 출력 벡터(Y`)에 의해 지시되는 포인트들을 보간된 포인트들로서 획득할 수 있다.
도 8은 일 실시예에 따른 디지털 트윈 공간 제공 서버에 대한 하드웨어 구성을 예시적으로 나타낸 도면이다.
도 8을 참조하면, 디지털 트윈 공간 제공 서버(100, 3차원 디지털 트윈 공간을 제공하기 위한 장치로 혼용하여 지칭될 수 있음)는, 적어도 하나의 프로세서(110); 및 상기 적어도 하나의 프로세서(110)가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함할 수 있다.
상기 적어도 하나의 동작은, 도 1 내지 도 5를 참조하여 설명한 디지털 트윈 공간 제공 서버(100)의 동작이나 기능부들의 동작 중 적어도 일부를 포함할 수 있다.
여기서 적어도 하나의 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다.
메모리(120)는 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.
저장 장치(160)는, 예를 들어 HDD(hard disk drive), SSD(solid state drive) 등일 수 있다.
또한, 디지털 트윈 공간 제공 서버(100)는, 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver)(130)를 포함할 수 있다. 또한, 디지털 트윈 공간 제공 서버(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 디지털 트윈 공간 제공 서버(100)에 포함된 각각의 구성 요소들은 버스(bus, 170)에 의해 연결되어 서로 통신을 수행할 수 있다.
디지털 트윈 공간 제공 서버(100)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 3차원 디지털 트윈 공간을 제공하기 위한 장치
101: 제1 심층신경망 기반 프레임 선택부
102: 객체영상 추출부
103: 특징점 매칭부
104: 카메라 정보 결정부
105: 3차원 좌표 결정부
106: 레퍼런스 이미지 프레임 검증부
107: 3차원 디지털 트윈 공간 생성부
108: 3차원 디지털 트윈 공간 관리부
109: 제2 심층신경망 기반 보간부
200: 사용자 단말

Claims (5)

  1. 심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치로서,
    미리 지도학습된 제1 심층 신경망을 이용하여, 사용자 단말로부터 획득된 동영상을 구성하는 복수의 이미지 프레임들 중에서 3차원 디지털 트윈 공간을 구성하는데 사용할 레퍼런스 이미지 프레임들을 선정하는 제1 심층 신경망 기반 프레임 선택부;
    선정된 적어도 둘의 레퍼런스 이미지 프레임들에서 객체영상을 검출하고, 해당 객체영상을 추출하는 객체영상 추출부;
    적어도 둘의 레퍼런스 이미지 프레임들 각각의 객체영상으로부터 특징점을 추출하고, 추출된 특징점들을 서로 매칭시키는 특징점 매칭부;
    매칭된 특징점들을 이용하여 특징점들 각각의 속성을 결정하고, 결정된 특징점들 각각의 속성에 기초하여 카메라 정보를 결정하는 카메라 정보 결정부;
    상기 카메라 정보에 포함된 각각의 레퍼런스 이미지 프레임와 대응하는 카메라들 사이의 상대적인 위치에 기초하여 상기 레퍼런스 이미지 프레임들을 검증하는 레퍼런스 이미지 프레임 검증부;
    검증된 레퍼런스 이미지 프레임들을 기반으로 3차원 복원(3D reconstruction)을 수행하여 3차원 디지털 트윈 공간을 생성하는 3차원 디지털 트윈 공간 생성부;
    생성된 3차원 디지털 트윈 공간에 대한 사용자 단말의 접근을 관리하는 3차원 디지털 트윈 공간 관리부; 및
    제2 심층 신경망을 이용하여, 상기 3차원 디지털 트윈 공간을 구성하는 포인트 클라우드에 대한 보간(interpolation)을 수행하는 제2 심층 신경망 기반 보간부를 포함하고,
    상기 프레임 선택부는,
    상기 동영상을 구성하고 연속한 시간으로 연결되는 상기 복수의 이미지 프레임들의 집합에서 일정한 제1 시간 간격과 대응하는 이미지 프레임들을 레퍼런스 이미지 프레임들로 선택하며,
    상기 레퍼런스 이미지 프레임 검증부는,
    복수의 레퍼런스 이미지들 중 객체와 가장 가까운 거리의 레퍼런스 이미지 프레임에 해당하는 카메라의 위치를 기준 위치로 정하고, 상기 기준 위치와 객체의 기준점을 이은 선분을 반지름으로 갖는 2차원 원을 상기 기준점을 중심으로 그리고, 나머지 레퍼런스 이미지들에 대응하는 카메라의 위치들을 상기 기준점을 원점으로 갖는 좌표계에 나타내고,
    상기 그려진 원을 균등하게 n(n은 4 이상의 자연수)등분하고, 각각의 상기 카메라의 위치와 상기 기준점을 이은 선분들과 상기 n등분된 원을 구성하는 n개의 호들 각각과의 교점의 개수를 비교하고,
    비교 결과에 기초하여 레퍼런스 이미지 프레임의 재선정 여부를 결정하는, 장치.
  2. 청구항 1에서,
    상기 객체영상 추출부는,
    적어도 둘의 레퍼런스 이미지 프레임 각각에서 색상의 차이를 이용하여 전경과 배경을 분리하여 상기 객체영상을 추출하는, 장치.
  3. 삭제
  4. 삭제
  5. 청구항 1에서,
    상기 레퍼런스 이미지 프레임 검증부는,
    상기 동영상에서 연속한 시간으로 연결되는 상기 복수의 이미지 프레임들의 집합에서 상기 제1 시간 간격보다 작은 제2 시간 간격마다 레퍼런스 이미지 프레임들을 재선정하는, 장치.
KR1020210147051A 2021-10-29 2021-10-29 심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법 KR102468718B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210147051A KR102468718B1 (ko) 2021-10-29 2021-10-29 심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법
KR1020220152625A KR102572415B1 (ko) 2021-10-29 2022-11-15 레퍼런스 이미지의 검증을 통해 자연스러운 3차원 디지털 트윈을 생성하기 위한 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210147051A KR102468718B1 (ko) 2021-10-29 2021-10-29 심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020220152625A Division KR102572415B1 (ko) 2021-10-29 2022-11-15 레퍼런스 이미지의 검증을 통해 자연스러운 3차원 디지털 트윈을 생성하기 위한 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102468718B1 true KR102468718B1 (ko) 2022-11-18

Family

ID=84234727

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020210147051A KR102468718B1 (ko) 2021-10-29 2021-10-29 심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법
KR1020220152625A KR102572415B1 (ko) 2021-10-29 2022-11-15 레퍼런스 이미지의 검증을 통해 자연스러운 3차원 디지털 트윈을 생성하기 위한 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020220152625A KR102572415B1 (ko) 2021-10-29 2022-11-15 레퍼런스 이미지의 검증을 통해 자연스러운 3차원 디지털 트윈을 생성하기 위한 방법 및 장치

Country Status (1)

Country Link
KR (2) KR102468718B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524030A (zh) * 2023-07-03 2023-08-01 新乡学院 一种用于数字孪生的起重机摇摆情形下的重建方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200032651A (ko) * 2018-09-18 2020-03-26 서울대학교산학협력단 3차원 영상 재구성 장치 및 그 방법
KR20200109799A (ko) * 2019-03-14 2020-09-23 주식회사 케이티 영상내 객체의 깊이정보를 추정하는 장치 및 방법
US20210295599A1 (en) * 2020-03-20 2021-09-23 Streem, Inc. 3d model reconstruction and scale estimation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200032651A (ko) * 2018-09-18 2020-03-26 서울대학교산학협력단 3차원 영상 재구성 장치 및 그 방법
KR20200109799A (ko) * 2019-03-14 2020-09-23 주식회사 케이티 영상내 객체의 깊이정보를 추정하는 장치 및 방법
US20210295599A1 (en) * 2020-03-20 2021-09-23 Streem, Inc. 3d model reconstruction and scale estimation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524030A (zh) * 2023-07-03 2023-08-01 新乡学院 一种用于数字孪生的起重机摇摆情形下的重建方法及系统
CN116524030B (zh) * 2023-07-03 2023-09-01 新乡学院 一种用于数字孪生的起重机摇摆情形下的重建方法及系统

Also Published As

Publication number Publication date
KR20230062462A (ko) 2023-05-09
KR102572415B1 (ko) 2023-09-01

Similar Documents

Publication Publication Date Title
US11468636B2 (en) 3D hand shape and pose estimation
US10679061B2 (en) Tagging virtualized content
US10803546B2 (en) Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
WO2020165557A1 (en) 3d face reconstruction system and method
CN114119839B (zh) 三维模型重建与图像生成方法、设备以及存储介质
US20210142478A1 (en) Multi-dimensional model merge for style transfer
US11704357B2 (en) Shape-based graphics search
JP2023501574A (ja) 仮想および拡張現実のためのシステムおよび方法
CN104394422A (zh) 一种视频分割点获取方法及装置
JP7451716B2 (ja) 予測される視覚的品質に基づくビデオプレーヤのための最適なフォーマット選択
EP3326156B1 (en) Consistent tessellation via topology-aware surface tracking
CN113902061A (zh) 一种点云补全方法和装置
US10217224B2 (en) Method and system for sharing-oriented personalized route planning via a customizable multimedia approach
WO2021222386A1 (en) Photometric-based 3d object modeling
KR102572415B1 (ko) 레퍼런스 이미지의 검증을 통해 자연스러운 3차원 디지털 트윈을 생성하기 위한 방법 및 장치
JP2019091436A (ja) 3d配置のタイプに応じた2d画像の分類
CN114792355B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
WO2021105871A1 (en) An automatic 3d image reconstruction process from real-world 2d images
JP2021039758A (ja) 画像間の類似度を利用した類似領域強調方法およびシステム
Zhao et al. Pui-net: A point cloud upsampling and inpainting network
TWI711004B (zh) 圖片處理方法和裝置
US20230145498A1 (en) Image reprojection and multi-image inpainting based on geometric depth parameters
CN111652831B (zh) 对象融合方法、装置、计算机可读存储介质及电子设备
Yadavannavar et al. Evidence Based Image Selection for 3D Reconstruction
US11823434B1 (en) Techniques for adaptive frame-based clip matching and fingerprinting

Legal Events

Date Code Title Description
A107 Divisional application of patent
GRNT Written decision to grant