KR102083293B1 - 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법 - Google Patents

모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법 Download PDF

Info

Publication number
KR102083293B1
KR102083293B1 KR1020170152558A KR20170152558A KR102083293B1 KR 102083293 B1 KR102083293 B1 KR 102083293B1 KR 1020170152558 A KR1020170152558 A KR 1020170152558A KR 20170152558 A KR20170152558 A KR 20170152558A KR 102083293 B1 KR102083293 B1 KR 102083293B1
Authority
KR
South Korea
Prior art keywords
depth image
image
fused
key volume
motion information
Prior art date
Application number
KR1020170152558A
Other languages
English (en)
Other versions
KR20190055632A (ko
Inventor
황영배
김정호
윤주홍
박민규
김병균
이주리
강주미
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020170152558A priority Critical patent/KR102083293B1/ko
Priority to PCT/KR2017/013061 priority patent/WO2019098421A1/ko
Publication of KR20190055632A publication Critical patent/KR20190055632A/ko
Application granted granted Critical
Publication of KR102083293B1 publication Critical patent/KR102083293B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • G06T5/001
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/285Analysis of motion using a sequence of stereo image pairs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

본 발명은 모션 정보를 이용한 객체 복원 장치는 객체에 대하여 다시점으로 촬영한 복수의 영상을 수신하여 상기 복수의 영상의 깊이영상을 추정하는 깊이영상 추정부; 상기 깊이영상을 융합하는 깊이영상 융합부; 및 상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 하여 상기 융합된 깊이영상에 대응되는 키볼륨을 업데이트하여 상기 객체를 복원하는 복원부를 포함할 수 있다.

Description

모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법{OBJECT RECONSTRUCTION APPARATUS USING MOTION INFORMATION AND OBJECT RECONSTRUCTION METHOD USING THEREOF}
본 발명은 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법에 관한 것이다.
객체의 모션(움직임) 정보를 획득하여 복원하는 일반적인 기술은 크게 2가지로 분류될 수 있다.
먼저, 마커(marker)를 사용하는 방법이 있다. 종래의 모션 복원 기법들은 모션 정보를 획득하고자 하는 개체의 외형에 마커를 부착하여 매 프레임 마커의 위치를 추적하여 모션 정보를 얻는 방법이 주로 이용되었다. 마커를 통해 얻어진 모션 정보는, 가려짐(occlusion)이나 센서 오차 등에 의해 잘못된 부분에 대한 수작업의 보완 과정을 거쳐서 최종 결과로 얻어지게 된다. 마커 기반의 방법은 비교적 높은 정확도를 얻을 수 있는 장점이 있으나, 개체의 외형에 수많은 마커를 부착하여야 하고 고가의 모션 캡처 장비가 있어야 하며 캡처된 마커의 후처리가 필요하다는 단점이 존재한다.
객체의 모션을 복원하는 또 다른 방법으로는 마커를 사용하지 않는 마커프리(marker-free) 방법이 있다. 이는 마커리스(markerless) 방법이라고도 한다. 마커를 사용하지 않는 방법은, 앞서 언급한 마커를 이용한 방법에 비해 마커를 부착할 필요가 없기 때문에 촬영이 간편하고, 대부분의 경우 고가의 장비 대신 영상 센서만을 이용하므로 가격 측면에서도 저렴한 장점이 존재한다. 하지만, 복잡한 모션의 경우 정확한 모션을 추출해내기 어려운 단점이 존재한다.
마커프리 모션 복원 알고리즘은 사전 휴먼 모델 정보의 사용 유무에 따라 크게 두 가지로 구분될 수 있다. 첫째는 모델을 사용하지 않는 모델프리(model free) 접근법이다. 이 방법의 경우는 대부분 영상을 기반으로 해서 3차원 포즈를 추출하게 된다. 그 방법으로는 몸의 팔다리를 먼저 찾아내고 확률적 조립(probabilistic assemblies)을 이용하여 모션을 추출하는 상향식 접근법과, 미리 저장되어있는 데이터베이스(database; DB)를 기반으로 하여 영상과 3차원 포즈 사이에 직접적인 매칭을 통해 포즈를 알아내는 예제기반 접근법(Examplebased methods)이 존재한다. 그러나 모델프리 방법의 경우는 복잡한 경우에는 정확도가 떨어지며, 예제기반 접근법의 경우에는 DB에 따라 추출할 수 있는 모션이 제한된다는 단점이 존재한다.
둘째로는, 미리 정의된 모델을 사용하는 접근법이 있다. 이 경우, 미리 정의된 모델의 운동학(kinematics) 정보뿐만 아니라, 외형 정보도 활용이 가능하며, 사전 모델과 영상 속의 개체 혹은 다시점 영상에서부터 복셀 복원(Voxel reconstruction) 등을 통해 얻은 3차원 볼륨 개체와의 비교를 통해 모션을 추출해 낼 수 있다.
이런 접근을 통해서 기존의 모델프리 방법에 비해 비교적 복잡한 모션까지도 추출해 내는 것이 가능하다. 하지만 이접근의 경우에도 여전히 모델과 3차원 개체 사이의 대응관계를 어떻게 유추하는지가 주요 이슈로 남아있다.
동적 객체의 모션 복원 기술, 특히 3D 복원 기술은 다수 또는 단일 카메라를 이용하여 캡쳐된 영상을 이용하여 3D의 형태로 복원을 수행할 수 있다. 복원된 3D 영상에서의 객체의 움직임 정보를 포함하는 4D 복원이 수행될 수 있다.
한국등록특허 10-1307341에는 가시광 영역의 영상센서를 동적 객체 모션 캡쳐 방법에 대해 개시하고 있다. 그러나, 깊이 정보가 없이 3D 외형 복원을 수행하기 때문에 정밀한 3D복원이 이루어지기 힘든 단점이 있다.
본 발명은 다수의 카메라를 이용하여 획득한 복수의 다시점 영상을 정합하여 동적 객체에 대한 완전한 3D영상 복원 또는 동적 객체에 대한 모션 정보를 포함하는 4D 영상 복원을 수행하는 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법을 제공한다.
본 발명의 일 실시 예에 따른 모션 정보를 이용한 객체 복원 장치는 객체에 대하여 다시점으로 촬영한 복수의 영상을 수신하여 상기 복수의 영상의 깊이영상을 추정하는 깊이영상 추정부; 상기 깊이영상을 융합하는 깊이영상 융합부; 및 상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 하여 상기 융합된 깊이영상에 대응되는 키볼륨을 업데이트하여 상기 객체를 복원하는 복원부를 포함할 수 있다.
실시 예에 있어서, 상기 객체의 영상을 촬영하는 하나 이상의 카메라 세트를 포함하고, 상기 하나 이상의 카메라 세트는, RGB 카메라 및 IR 카메라 중 적어도 하나 이상을 포함할 수 있다.
실시 예에 있어서, 상기 깊이영상 추정부는, 상기 깊이영상을 정합하는 스테레오 정합부; 및 상기 깊이영상에서 전경 영상 및 배경 영상을 분리하는 전배경 분리부를 포함할 수 있다.
실시 예에 있어서, 상기 복원부는, 대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하고, 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면 키 볼륨을 생성하는 키 볼륨 생성부; 및 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 융합된 깊이영상으로부터 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 키 볼륨 업데이트부를 포함할 수 있다.
본 발명의 일 실시 예에 따른 모션 정보를 이용한 객체 복원 방법은 하나 이상의 카메라 세트를 이용하여 객체의 영상을 획득하는 단계; 상기 카메라 세트에서 획득된 영상의 깊이영상을 추정하는 단계; 상기 카메라 세트에서 추정된 상기 깊이영상을 융합하는 단계; 상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하는 단계; 상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 단계; 및 상기 업데이트된 키 볼륨에 기초하여 상기 객체를 복원하는 단계를 포함할 수 있다.
실시 예에 있어서, 상기 깊이영상을 추정하는 단계는, 상기 깊이영상을 추정하도록, 상기 카메라 세트로부터 둘 이상의 영상 정보를 수신하여 스테레오 정합을 수행하는 단계; 및 상기 스테레오 정합된 영상에서 전경 영역 및 배경 영역을 분리하여 전배경 분할 마스크를 획득하는 단계를 포함할 수 있다.
실시 예에 있어서, 상기 둘 이상의 영상정보는, 하나 이상의 RGB 영상 또는 하나 이상의 IR 영상 중 적어도 하나 이상을 포함할 수 있다.
실시 예에 있어서, 상기 하나 이상의RGB 영상에 대한 컬러 보정을 수행하는 보정단계를 더 포함할 수 있다.
실시 예에 있어서, 상기 깊이영상을 융합하는 단계는, 상기 전배경 분할 마스크를 통해 결정된 상기 깊이영상의 상기 전경 영역의 각 픽셀에 대한 신뢰도를 추정하는 단계; 및 상기 추정된 신뢰도에 기초하여 상기 깊이영상을 융합하는 단계를 포함할 수 있다.
실시 예에 있어서, 상기 대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하는 단계; 및 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면, 키 볼륨을 생성하는 단계를 더 포함하고, 상기 키 볼륨을 업데이트하는 단계는, 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 추정된 모션정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트할 수 있다.
실시 예에 있어서, 상기 객체를 복원하는 단계는, 상기 업데이트된 키 볼륨을 와핑(warping)하여 메시 및 텍스처를 생성하는 단계를 포함할 수 있다.
본 발명에 따른 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법의 효과에 대해 설명하면 다음과 같다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 동적 객체의 영상정보를 스테레오 정합한 후, 깊이영상을 추정하고, 추정된 깊이영상을 이용하여 모션 정보를 포함하여 정밀도가 높은 완전한3D 복원 및 4D 복원을 수행할 수 있다.
또한, 본 발명의 실시 예들 중 적어도 하나에 의하면, 동적 객체의 깊이영상에 대한 신뢰도를 추정하고, 전배경 분할 마스크를 참고하여 깊이영상을 융합함으로써 정확도가 높은 4D 복원을 수행할 수 있다.
또한, 본 발명의 실시 예들 중 적어도 하나에 의하면, 동적 객체에 대한 완전한 3D 복원 및 모션 복원이 동시에 수행됨으로써 객체의 영상에서 가려져 비어있는 영역이 존재하지 않는다. 그러므로 객체의 모션이 연결되어 자연스러운 4D 복원이 가능할 수 있다. 또한, 본 발명은 이를 이용한 3D컨텐츠의 생성, 모션 인식을 이용한 객체의 의도, 감정, 동작 등을 인식하는데 활용될 수 있다.
도 1은 본 발명의 바람직한 객체 복원 장치의 구성을 간략하게 도시한 블럭도이다.
도 2는 본 발명의 일 실시 예에 따른 객체 복원 장치를 이용한 객체 복원 방법을 도시한 흐름도이다.
도 3은 본 발명의 일 실시 예에 따른 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이다.
도 4는 본 발명의 일 실시 예에 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.
도 5 는 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이다.
도 6은 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 도면들을 참조하여 본 발명의 실시 예에 대해 상세히 설명하기로 한다. 본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다.
도 1은 본 발명의 바람직한 객체 복원 장치의 구성을 간략하게 도시한 블럭도이다.
도 1을 참조하면, 객체 복원장치(100)는 영상정보 수신부(110), 깊이영상 추정부(120), 깊이영상 융합부(130), 복원부(140), 제어부(180) 및 영상 송신부(190)를 포함할 수 있다.
영상정보 수신부(110)는 객체 복원장치(100)의 외부에 구비된 하나 이상의 스테레오 카메라 세트(10, 20, 80)로부터 영상정보를 수신하는 구성이다. 스테레오 카메라 세트(10, 20, 80)는 다수 개의 스테레오 카메라를 포함하는 구성으로, N개의 스테레오 카메라 세트가 구비될 수 있다. 도 1에서는 N개의 스테레오 카메라 세트 중 세 개의 카메라 세트만 도시한 것으로, 카메라 세트의 수는 도면에 국한되지 않는다.
하나의 스테레오 카메라 세트(10, 20, 80)는 다수 개의 카메라를 포함할 수 있다. 다수 개의 카메라는 모두 RGB 카메라가 포함될 수도 있고, 모두 IR 카메라가 포함될 수도 있다. 또는 RGB 카메라 및 IR 카메라가 함께 포함될 수 있다. 또한 하나 이상의 스테레오 카메라 세트(10, 20, 80)에는 모두 동일한 종류의 스테레오 카메라가 포함될 수도 있고, 서로 다른 종류의 스테레오 카메라가 포함될 수도 있다. 일 실시 예로써, 스테레오 카메라 세트에 IR 카메라가 두 개 이상 포함된 경우에는 RGB 카메라 한 개가 포함될 수 있다.
본 발명에서는 N개의 스테레오 카메라 세트(10, 20, 80)에 두 개의 RGB 카메라(12, 22, 82) 및 두 개의 IR 카메라(14, 24, 84)가 포함되는 실시 예를 예시적으로 도시하고, 이를 상세하게 설명하였다.
다수 개의 스테레오 카메라 세트(10, 20, 80)는 RGB 카메라(12, 22, 82) 및 IR 카메라(14,24, 84)를 이용하여 동적 객체를 촬영할 수 있다. 이하에서는 동적 객체에 대하여 다시점에서 촬영한 영상을 정합한 영상을 완전한 3D 영상, 동적 객체에 대한 모션 정보를 포함하는 영상을 4D 영상으로 지칭하여 사용한다.
여기서, 본 발명의 객체 복원 장치는 몇 개 내지는 수십 개의 카메라로 구성되는 카메라 세트로부터 복수의 영상을 수신할 수 있으며, 카메라의 개수가 많아질수록 다양한 시점의 영상을 정합할 수 있어 더 많은 정보를 포함하는 완전한 3D 영상을 복원할 수 있다. 또한, 본 발명의 객체 복원 장치는 동적 객체와 그 객체의 모션 정보 사이의 대응 관계를 인식할 수 있어, 모션 정보를 활용하는 VR(가상현실)/AR(증강현실) 콘텐츠의 제작, 모션 정보를 인식하는 인터페이스 등 다양한 형태의 산업에 활용될 수 있다.
동적 객체를 촬영한 영상정보는 객체 복원장치(100)의 영상 정보 수신부(110)로 수신될 수 있다. 영상정보 수신부(110)는 동적 객체의 RGB 영상정보를 수신하는 RGB 영상정보 수신부(112) 및 동적 객체의 IR 영상 정보를 수신하는 IR 영상정보 수신부(114)를 포함할 수 있다.
깊이영상 추정부(120)는 영상정보 수신부(110)에서 촬영된 객체의 영상정보를 이용하여 깊이영상을 추정하는 구성이다. 깊이영상 추정부(120)는 스테레오 정합부(122) 및 전배경 분리부(124)를 포함할 수 있다. 스테레오 정합부(122)는 영상정보 수신부(110)에서 수신된 영상정보를 스테레오 정합하는 구성이다. 여기서, RGB 영상정보와 IR 영상정보는 분리되어 스테레오 정합될 수 있다. 전배경 분리부(124)는 스테레오 정합된 영상으로부터 전경 영역 영상의 정보 및 배경 영역 영상의 정보를 분리하고, 객체 정보만을 획득하는 구성이다.
깊이영상 융합부(130)는 깊이영상 추정부(120)에서 추정된 깊이영상을 융합하는 구성이다. 깊이영상 융합부(130)는 깊이영상 추정부(120)에서 추정된 깊이영상에 대한 신뢰도를 측정하는 신뢰도 추정부(132)를 포함할 수 있다.
복원부(140)는 융합된 깊이영상을 이용하여 동적 객체를 4D로 복원하는 구성이다. 복원부(140)는 키 볼륨을 생성하는 키 볼륨 생성부(142), 생성된 키 볼륨을 업데이트하는 키 볼륨 업데이트부(144) 및 업데이트된 키 볼륨을 현재 시점에서의 볼륨으로 와핑(warping)하고, 메시 및 텍스처를 생성하는 메시 및 텍스처 생성부(146)를 포함할 수 있다. 키 볼륨 생성부(142)는 대응점 비교를 통해 융합된 깊이영상에 대응되는 키 볼륨을 탐색하고, 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면, 키 볼륨을 생성할 수 있다. 키 볼륨 업데이트부(144)는 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 융합된 깊이영상으로부터 객체의 모션정보를 추정하고, 추정된 모션정보를 기초로 융합된 깊이영상에 대응되는 키 볼륨을 업데이트할 수 있다.
제어부(180)는 객체 복원장치(100) 내의 구성들을 제어하는 구성으로, 각 구성들의 구동을 제어하여 객체 복원을 수행할 수 있다. 제어부(180)는 융합된 깊이영상과 키 볼륨의 대응점을 비교하고, 키 볼륨의 생성여부를 판단할 수 있다.
영상 송신부(190)는 객체 복원장치(100)에서 생성된 객체의 복원 영상을 디스플레이부(200)로 전송할 수 있다. 디스플레이부(200)는 객체 복원장치(100)에 구비될 수도 있고, 외부에 별도의 장치로 구비될 수도 있다. 디스플레이부(200)는 컴퓨터 또는 모니터 등일 수 있다.
도 2는 본 발명의 일 실시예에 따른 객체 복원 장치를 이용한 객체 복원 방법을 도시한 흐름도이고, 도 3은 본 발명의 일 실시 예에 따른 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이고, 도 4는 본 발명의 일 실시에에 따른 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.
도 2를 참조하면, 동적 객체를 복원하는 방법의 일 실시 예는 다음과 같다.
객체 복원 장치는, 먼저 하나 이상의 스테레오 카메라 세트(10, 20, 80)를 이용하여 동적 객체를 촬영할 수 있다. 여기서, 스테레오 카메라 세트(10, 20, 80)는 동적 객체를 소정의 시간 단위(T)로 촬영할 수 있다. 소정의 시간 단위란 일정한 시간 간격이거나, 임의의 시간(예를 들어, 객체의 움직임이 감지되는 시간)일 수 있다. 촬영된 영상정보는 객체 복원장치(100)의 영상 정보 수신부(110)로 전달될 수 있다(S100).
그 다음, 객체 복원 장치는 획득된 영상을 이용하여 깊이영상을 추정할 수 있다(S200). 깊이영상은 각각의 스테레오 카메라 세트(10, 20, 80) 별로 수행될 수 있다.
도 3을 참조하여, 깊이영상을 추정하는 방법을 상세하게 설명하면, 먼저 스테레오 카메라 세트(10, 20, 80)의 둘 이상의RGB 카메라(12, 22, 82)로부터 촬영된 RGB 영상 정보 및 둘 이상의IR 카메라(14, 24, 84)로부터 촬영된 IR 영상 정보를 획득할 수 있다. 스테레오 정합을 위하여 영상정보는 둘 이상을 포함할 수 있다. 영상정보는 하나 이상의 RGB 영상 또는 하나 이상의 IR 영상 중 적어도 하나 이상을 포함할 수 있다. 스테레오 카메라 세트(10, 20, 80)는 동적 객체를 실시간으로 촬영하거나, 소정의 시간 간격으로 촬영할 수 있다(S210).
스테레오 정합부(122)에서는 수신된 하나 이상의 RGB 영상 정보를 이용하여 스테레오 정합을 수행할 수 있다(S211). 또한 스테레오 정합부(122)에서는 수신된 IR 영상 정보를 이용하여 스테레오 정합할 수 있다(S212).
특히, RGB 영상 정보는 컬러(RGB) 정보를 포함하고 있으므로, 색상 보정 과정을 통해 일관성 있는 색상 정보를 획득할 수 있다. 색상 보정을 위한 별도의 보정부(미도시)가 구비될 수 있다. 또한 IR 영상 정보는 DOE 프로젝터를 통해 임의 패턴이 투사된 상태에서 획득될 수 있다.
둘 이상의 RGB 영상 정보는 스테레오 정합되어 제1 깊이영상으로 추정될 수 있다(S214). 또한, 둘 이상의 IR 영상 정보는 스테레오 정합되어 제2 깊이영상으로 추정될 수 있다.(S215)
전배경 분리부(124)는 제1 깊이영상 및 제2 깊이영상을 이용하여 전경 영역 영상 및 배경 영역 영상을 분리하여 객체정보를 획득할 수 있다. 일 실시 예에 따르면, 전경 및 배경 분리는 현재 객체가 평면 위에 존재한다고 가정하고, 제2 깊이영상(IR 영상정보의 깊이영상) 또는 제1 깊이영상 (RGB 영상정보의 깊이영상)에서 공통적으로 나타나는 가장 큰 평면을 추정한 후, 평면 위에 있는 물체 중 특정 거리보다 작은 물체 정보만 남기고 제거하는 방식으로 수행될 수 있다(S216). 전배경 분리부(124)는 전경 영역 영상 및 배경 영역 영상 정보를 분리하여 전배경 분할 마스크를 획득할 수 있다(S217).
다시 도 2를 참조하면, 깊이영상을 추정하는 단계를 통하여 제1 깊이영상, 제2 깊이영상 및 전배경 분할 마스크를 획득할 수 있고, 이를 이용하여 깊이영상을 융합할 수 있다(S300).
도 4를 참조하여 깊이영상을 융합하는 방법을 상세하게 설명하면, 스테레오 카메라 세트(10, 20, 80) 별로 추정된 제1 깊이영상 및 제2 깊이영상은 깊이영상 융합부(130)의 신뢰도 추정부(132)로 전달되어 신뢰도를 추정할 수 있다(S310).
각각의 스테레오 카메라 세트(10, 20, 80)에서 깊이영상 추정 단계를 거쳐 전배경 분할 마스크를 통해 결정된 하나 이상의 깊이영상과 텍스처 매핑을 위한 컬러 영상은 깊이영상 융합부(130)로 수신될 수 있다. 다수 개(N개)의 깊이영상을 효과적으로 융합하기 위해 깊이영상 중 전경 영역의 각 픽셀에 대해 신뢰도를 추정하며, 추정된 신뢰도에 기초하여 신뢰도가 높은 픽셀의 깊이 정보를 우선적으로 융합할 수 있다(S310).
깊이영상 융합부(130)는 신뢰도를 추정한 후 제1 깊이영상 및 제2 깊이영상을 융합할 수 있다(S320). 또한, 융합된 깊이영상과 전배경 분할 마스크 정보를 이용하여, 스테레오 카메라 세트 별로 획득된 N 개의 깊이영상은 깊이영상 융합부(130)에서 융합될 수 있다(S330). 융합된 깊이영상은 입력 볼륨으로써 복원부(140)로 전달될 수 있다.
다시 도 2를 참조하면, 깊이영상 융합단계에서 융합된 깊이영상을 이용하여 키 볼륨을 생성할 수 있다(S400). 융합된 깊이영상은 소정의 시간 간격으로 매 프레임 수신될 수 있다. 융합된 깊이영상은 융합된 형태의 포인트 클라우드를 포함할 수 있다.
먼저, 제어부(180)를 이용하여, 융합된 깊이영상을 이용하여 키 볼륨(기준이 되는 볼륨)의 생성 여부를 판단하기 위한 키 볼륨 탐색 과정이 필요하다. 키 볼륨이 기존에 존재하지 않으면, 입력 볼륨을 키 볼륨으로 선택하여 생성할 수 있다.
융합된 깊이영상에 대응되는 키 볼륨이 기존에 존재하면, 입력 볼륨(다음시간에서 융합된 깊이영상)과 키 볼륨(기존에 생성된 키 볼륨)의 대응점에 기반하여 입력 볼륨과 기존에 생성된 키 볼륨을 비교하고 매칭함으로써 다시 키 볼륨을 생성할지 또는 키 볼륨을 업데이트 할지를 판단할 수 있다(S410).
입력 볼륨과 기존의 키 볼륨의 대응점을 비교하여 거의 매칭되는 경우에는, 객체의 토폴로지(topology) 변화가 적은 경우라고 판단할 수 있다. 여기서, 토폴로지란 객체의 외형 또는 형태 등을 의미할 수 있다.
이러한 경우, 객체의 모션 정보를 추정(S420)하고, 이를 기초로 융합된 깊이영상에 대응되는 키 볼륨을 업데이트 할 수 있다(S430).
객체가 사람인 경우를 예를 들어 설명하면, 스테레오 카메라 세트의 촬영 범위 내의 토폴로지 변화가 적으면, 객체의 영상정보는 거의 변화되지 않을 수 있다. 그러므로 새로운 키 볼륨을 생성하지 않고, 키 볼륨을 업데이트하게 된다.
입력 볼륨과 기존의 키 볼륨의 대응점을 비교하여 매칭이 되지 않고 차이가 난다면, 객체의 토폴로지 변화가 큰 경우라고 판단할 수 있다. 이러한 경우, 키 볼륨을 새롭게 생성해야 하므로 입력 볼륨을 키 볼륨으로 생성할 수 있다. 생성된 키 볼륨으로 키 볼륨을 업데이트 할 수 있다(S430).
객체가 사람인 경우를 예를 들어 설명하면, 스테레오 카메라 세트의 촬영 범위 내의 사람이 갑자기 옷을 갈아입거나 모자를 쓰는 등 객체의 토폴로지 변화가 큰 경우에는 기존의 키 볼륨과 대응점이 매칭되지 않으므로 새로운 키 볼륨을 생성할 수 있다. 업데이트된 키 볼륨은 현재 시점에서의 볼륨으로 와핑(warping) 작업이 수행될 수 있다(S510). 와핑 작업 후 마칭 큐브(Marching cube) 알고리즘을 이용하여 메시 및 텍스처 생성부(146)에서 메시와 텍스처 맵이 생성될 수 있다(S520). 생성된 메시 및 텍스처 맵은 시간적, 공간적 관계를 이용하여 압축될 수 있다(S530). 압축된 메시 및 텍스처 맵을 이용하여 동적 객체에 대한 완전한 3D모델 또는 모션 정보를 포함하는 4D 모델을 복원할 수 있다(S540).
동적 객체의 모션 정보를 이용하여 입력 볼륨과 키 볼륨의 대응점을 확인하여 키 볼륨을 업데이트함으로써, 키 볼륨에서의 깊이 정보에 대한 정확도를 높이고, 키 볼륨에서 가려짐에 의해 비어있는 부분의 영상을 채우는 과정이 수행될 수 있다.
도 5 는 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이다.
도 5를 참조하면, 스테레오 카메라 세트에 둘 이상의 RGB 카메라 또는 둘 이상의 IR 카메라를 포함하는 경우, 깊이영상을 추정하는 방법을 설명하면 다음과 같다.
스테레오 카메라 세트에 RGB 카메라가 포함된 경우, 다수의RGB 영상정보를 획득할 수 있다. 또는 스테레오 카메라 세트에 IR 카메라가 포함된 경우, 다수의 IR 영상정보를 획득할 수 있다(S610).
다수의 RGB 영상정보는 스테레오 정합될 수 있다. 또는 다수의 IR 영상정보는 스테레오 정합될 수 있다(S620).
스테레오 정합된 영상정보를 이용하여 깊이영상을 추정할 수 있다. 특히, RGB 영상정보는 컬러를 보정하는 단계를 더 포함할 수 있다(S630).
추정된 깊이영상으로부터 전배경을 분리하고(S640), 전배경 분할 마스크를 획득할 수 있다(S650).
도 6은 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.
도 6을 참조하면, 스테레오 카메라 세트에 둘 이상의 RGB 카메라 또는 둘 이상의 IR 카메라를 포함하는 경우, 깊이영상을 융합하는 방법을 설명하면 다음과 같다.
먼저, 깊이영상 추정 단계를 통해 추정된 RGB 또는 IR 깊이영상에 대한 신뢰도를 추정할 수 있다(S710)
스테레오 카메라 세트 별로 획득된 N개의 깊이영상은 전배경 마스크 및 추정된 신뢰도에 기반하여 융합될 수 있다(S720).
이상의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (11)

  1. 객체에 대하여 다시점으로 촬영한 복수의 영상을 수신하여 상기 복수의 영상의 깊이영상을 추정하는 깊이영상 추정부;
    상기 깊이영상을 융합하며, 상기 깊이영상 추정부에서 추정된 깊이영상에 대한 신뢰도를 측정하는 신뢰도 추정부를 포함하는 깊이영상 융합부; 및
    상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 하여 상기 융합된 깊이영상에 대응되는 키볼륨을 업데이트하여 상기 객체를 복원하는 복원부를 포함하며,
    상기 복수의 영상은 RGB 영상정보 및 IR 영상정보를 포함하고,
    상기 깊이영상 추정부는 상기 RGB 영상정보를 스테레오 정합하여 제1 깊이영상으로 추정하고, 상기 IR 영상정보를 스테레오 정합하여 제2 깊이영상으로 추정하는 스테레오 정합부 및
    상기 제1 깊이영상 및 제2 깊이영상을 이용하여 전경영역 영상 및 배경영역 영상을 분리하여 객체정보를 획득하는 전배경 분리부를 포함하고,
    상기 깊이영상 융합부는 깊이영상에 대해 신뢰도를 추정한 후 상기 제1 깊이영상 및 제2 깊이영상을 융합하는 것을 특징으로 하는 모션 정보를 이용한 객체 복원 장치.
  2. 제1항에 있어서,
    상기 객체의 영상을 촬영하는 하나 이상의 카메라 세트를 포함하고,
    상기 하나 이상의 카메라 세트는,
    RGB 카메라 및 IR 카메라 중 적어도 하나 이상을 포함하는 모션 정보를 이용한 객체 복원 장치.
  3. 제1항에 있어서,
    상기 깊이영상 추정부는,
    상기 깊이영상을 정합하는 스테레오 정합부; 및
    상기 깊이영상에서 전경 영역 영상 및 배경 영역 영상을 분리하는 전배경 분리부를 포함하는 모션 정보를 이용한 객체 복원 장치.
  4. 제1항에 있어서,
    상기 복원부는,
    대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하고, 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면 키 볼륨을 생성하는 키 볼륨 생성부; 및
    상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 융합된 깊이영상으로부터 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 키 볼륨 업데이트부를 포함하는 모션 정보를 이용한 객체 복원 장치.
  5. 하나 이상의 카메라 세트를 이용하여 객체의 영상을 획득하는 단계;
    상기 카메라 세트에서 획득된 영상의 깊이영상을 추정하는 단계;
    상기 카메라 세트에서 추정된 상기 깊이영상을 융합하는 단계;
    상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하는 단계;
    상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 단계; 및
    상기 업데이트된 키 볼륨에 기초하여 상기 객체를 복원하는 단계를 포함하며,
    상기 객체의 영상은 복수의 RGB 영상정보 및 IR 영상정보를 포함하고,
    상기 RGB 영상정보는 스테레오 정합되어 제1 깊이영상으로 추정되고, 상기 IR 영상정보는 스테레오 정합되어 제2 깊이영상으로 추정되며,
    상기 깊이영상을 융합하는 단계는 상기 제1 깊이영상 및 제2 깊이영상에 대해 신뢰도를 추정하는 단계 및 상기 제1 깊이영상 및 제2 깊이영상을 융합하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
  6. 제5항에 있어서,
    상기 깊이영상을 추정하는 단계는,
    상기 깊이영상을 추정하도록, 상기 카메라 세트로부터 둘 이상의 영상 정보를 수신하여 스테레오 정합을 수행하는 단계; 및
    상기 스테레오 정합된 영상에서 전경 영역 영상 및 배경 영역 영상을 분리하여 전배경 분할 마스크를 획득하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제5항에 있어서,
    대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하는 단계; 및
    상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면, 키 볼륨을 생성하는 단계를 더 포함하고,
    상기 키 볼륨을 업데이트하는 단계는,
    상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 추정된 모션정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 모션 정보를 이용한 객체 복원 방법.
  11. 제5항에 있어서,
    상기 객체를 복원하는 단계는,
    상기 업데이트된 키 볼륨을 와핑(warping)하여 메시 및 텍스처를 생성하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
KR1020170152558A 2017-11-15 2017-11-15 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법 KR102083293B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170152558A KR102083293B1 (ko) 2017-11-15 2017-11-15 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
PCT/KR2017/013061 WO2019098421A1 (ko) 2017-11-15 2017-11-17 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170152558A KR102083293B1 (ko) 2017-11-15 2017-11-15 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법

Publications (2)

Publication Number Publication Date
KR20190055632A KR20190055632A (ko) 2019-05-23
KR102083293B1 true KR102083293B1 (ko) 2020-04-23

Family

ID=66539611

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170152558A KR102083293B1 (ko) 2017-11-15 2017-11-15 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법

Country Status (2)

Country Link
KR (1) KR102083293B1 (ko)
WO (1) WO2019098421A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428462B (zh) * 2019-07-17 2022-04-08 清华大学 多相机立体匹配方法和装置
CN111523361B (zh) * 2019-12-26 2022-09-06 中国科学技术大学 一种人体行为识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101755023B1 (ko) 2015-12-31 2017-07-06 주식회사 에스원 3차원 동작 인식 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101626065B1 (ko) * 2009-10-13 2016-05-31 삼성전자주식회사 마커리스 모션 캡쳐링 장치 및 방법
KR101669820B1 (ko) * 2010-07-02 2016-10-27 삼성전자주식회사 볼륨 예측 기반 폐색 영역 양방향 복원 장치 및 방법
KR101635896B1 (ko) * 2014-10-15 2016-07-20 한국과학기술연구원 깊이 정보 기반 사람 추적 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101755023B1 (ko) 2015-12-31 2017-07-06 주식회사 에스원 3차원 동작 인식 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MINGSONG DOU, ET AL, 'Fusion4D: Real-time Performance Capture of Challenging Scenes', SIGGRAPH '16 Technical Paper, ANAHEIM, CALIFORNIA, 24-28, July 2016, pp.1-13.(2016.07.27.) 1부.*

Also Published As

Publication number Publication date
KR20190055632A (ko) 2019-05-23
WO2019098421A1 (ko) 2019-05-23

Similar Documents

Publication Publication Date Title
US9928656B2 (en) Markerless multi-user, multi-object augmented reality on mobile devices
KR101849373B1 (ko) 인체의 관절구조를 추정하기 위한 장치 및 방법
US10789765B2 (en) Three-dimensional reconstruction method
US8928736B2 (en) Three-dimensional modeling apparatus, three-dimensional modeling method and computer-readable recording medium storing three-dimensional modeling program
CN109472828B (zh) 一种定位方法、装置、电子设备及计算机可读存储介质
CN110544301A (zh) 一种三维人体动作重建系统、方法和动作训练系统
JP6985897B2 (ja) 情報処理装置およびその制御方法、プログラム
US10438412B2 (en) Techniques to facilitate accurate real and virtual object positioning in displayed scenes
KR20160098560A (ko) 동작 분석 장치 및 방법
WO2017022033A1 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN110941996A (zh) 一种基于生成对抗网络的目标及轨迹增强现实方法和系统
JP2021060868A (ja) 情報処理装置、情報処理方法、およびプログラム
KR102083293B1 (ko) 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
CN110717593B (zh) 神经网络训练、移动信息测量、关键帧检测的方法及装置
KR101746648B1 (ko) 3차원 객체 표현을 위한 마커리스 증강현실장치 및 방법
JP6950644B2 (ja) 注意対象推定装置及び注意対象推定方法
US20200211275A1 (en) Information processing device, information processing method, and recording medium
CN112200917A (zh) 一种高精度增强现实方法及系统
Tian et al. Wearable navigation system for the blind people in dynamic environments
JP2002032742A (ja) 3次元画像生成システムおよび3次元画像生成方法、並びにプログラム提供媒体
Song et al. ConcatNet: A deep architecture of concatenation-assisted network for dense facial landmark alignment
KR20230113371A (ko) 이미지 또는 비디오 내의 객체 3차원 위치 식별
CN112767452A (zh) 摄像机主动感知方法及系统
KR102542363B1 (ko) 3차원 공간에서 객체를 인식하는 방법
US12008772B2 (en) Method and system for matching 2D human poses from multiple views

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant