WO2019098421A1 - 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법 - Google Patents

모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법 Download PDF

Info

Publication number
WO2019098421A1
WO2019098421A1 PCT/KR2017/013061 KR2017013061W WO2019098421A1 WO 2019098421 A1 WO2019098421 A1 WO 2019098421A1 KR 2017013061 W KR2017013061 W KR 2017013061W WO 2019098421 A1 WO2019098421 A1 WO 2019098421A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth image
image
key volume
fused
motion information
Prior art date
Application number
PCT/KR2017/013061
Other languages
English (en)
French (fr)
Inventor
황영배
김정호
윤주홍
박민규
김병균
이주리
강주미
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Publication of WO2019098421A1 publication Critical patent/WO2019098421A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/285Analysis of motion using a sequence of stereo image pairs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Definitions

  • the present invention relates to an apparatus for restoring an object using motion information and a method for restoring an object using the apparatus.
  • Conventional motion restoration techniques are mainly used to obtain motion information by tracking the position of each frame marker by attaching a marker to an outline of an object to which motion information is to be acquired.
  • the motion information obtained through the marker is obtained as a final result through a manual supplementary process on the erroneous portion due to occlusion or sensor error.
  • the marker-based method has a merit that relatively high accuracy can be obtained, but there is a disadvantage that a large number of markers must be attached to the external shape of the object, expensive motion capture equipment is required, and post-processing of the captured marker is required.
  • Another way to restore the motion of an object is to use a marker-free method that does not use a marker.
  • This is also called the markerless method.
  • the method of not using a marker is advantageous in that it is easy to take a picture because it is unnecessary to attach a marker as compared with the method using the above-mentioned marker, and in most cases, only an image sensor is used instead of expensive equipment, .
  • the marker free motion restoration algorithm can be roughly classified into two types depending on whether the dictionary human model information is used or not.
  • the first is a model-free approach that does not use models.
  • the 3D pose is extracted based on the image.
  • the method consists of a bottom-up approach to extract the motion using probabilistic assemblies, first finding the limbs of the body, and then using a pre-stored database (DB)
  • DB pre-stored database
  • the motion restoration technique of the dynamic object can perform restoration in the form of 3D using captured images using a plurality of cameras or a single camera. 4D reconstruction including the motion information of the object in the reconstructed 3D image can be performed.
  • Korean Patent No. 10-1307341 discloses a dynamic object motion capturing method for an image sensor in a visible light region.
  • 3D exterior reconstruction is performed without depth information, there is a drawback that it is difficult to perform accurate 3D reconstruction.
  • the present invention relates to an object reconstruction apparatus using motion information for performing a complete 3D image reconstruction for a dynamic object or a 4D image reconstruction including motion information for a dynamic object by matching a plurality of multi-view images acquired using a plurality of cameras, And an object restoration method using the same.
  • An apparatus for reconstructing an object using motion information includes: a depth image estimating unit that receives a plurality of images photographed at multiple points on an object and estimates a depth image of the plurality of images; A depth image fusion unit for fusing the depth image; And a reconstruction unit for estimating motion information of the object using the fused depth image and updating the key volume corresponding to the fused depth image based on the estimated motion information, have.
  • the at least one camera set may include at least one of an RGB camera and an IR camera, the at least one camera set capturing an image of the object.
  • the depth image estimating unit may include: a stereo matching unit for matching the depth images; And a background separator for separating the foreground image and the background image from the depth image.
  • the decompression unit searches for a key volume corresponding to the fused depth image through comparison of corresponding points, and generates a key volume if a key volume corresponding to the fused depth image does not exist. ; And estimating motion information of the object from the fused depth image if a key volume corresponding to the fused depth image exists and updating the key volume corresponding to the fused depth image based on the estimated motion information And a key volume update unit.
  • a method for restoring an object using motion information comprising: acquiring an image of an object using at least one camera set; Estimating a depth image of an image obtained from the camera set; Fusing the estimated depth image in the camera set; Estimating motion information of the object using the fused depth image; Updating a key volume corresponding to the fused depth image based on the estimated motion information; And restoring the object based on the updated key volume.
  • estimating the depth image comprises: receiving two or more image information from the camera set to estimate the depth image and performing stereo matching; And separating the foreground region and the background region from the stereo-matched image to obtain a full background division mask.
  • the at least one image information may include at least one of one or more RGB images or one or more IR images.
  • the method may further include a correction step of performing color correction on the at least one RGB image.
  • the step of fusing the depth image comprises: estimating reliability for each pixel of the foreground region of the depth image determined through the foreground division mask; And fusing the depth image based on the estimated reliability.
  • restoring the object may include warping the updated key volume to generate a mesh and a texture.
  • An object reconstruction apparatus using motion information and an object reconstruction method using the motion information according to the present invention will be described as follows.
  • a depth image is estimated, and a 3D reconstruction and a 4D reconstruction with high precision including motion information are performed using the estimated depth image Can be performed.
  • 4D reconstruction with high accuracy can be performed by estimating the reliability of the depth image of the dynamic object and fusing the depth image with reference to the background split mask.
  • complete 3D reconstruction and motion reconstruction of the dynamic object are simultaneously performed, so that there is no empty region in the image of the object. Therefore, the motion of the object can be connected and a natural 4D reconstruction can be possible.
  • the present invention can be utilized for generating 3D contents using this, and for recognizing the intention, emotion, and operation of an object using motion recognition.
  • FIG. 1 is a block diagram briefly showing a configuration of a preferred object restoration apparatus according to the present invention.
  • FIG. 2 is a flowchart illustrating an object restoration method using an object restoration apparatus according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a method of estimating a depth image using an object reconstruction apparatus according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a method of fusing a depth image using an object restoration apparatus according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a method of estimating a depth image using an object reconstruction apparatus including an RGB or IR camera.
  • FIG. 6 is a flowchart illustrating a method of fusing depth images using an object reconstruction apparatus including an RGB camera or an IR camera.
  • FIG. 1 is a block diagram briefly showing a configuration of a preferred object restoration apparatus according to the present invention.
  • an object reconstruction apparatus 100 includes an image information receiving unit 110, a depth image estimating unit 120, a depth image fusion unit 130, a decompression unit 140, a control unit 180, 190).
  • the image information receiving unit 110 receives image information from one or more stereo camera sets 10, 20, and 80 provided outside the object restoration apparatus 100.
  • the stereo camera set 10, 20, 80 is configured to include a plurality of stereo cameras, and N stereo camera sets may be provided. In Fig. 1, only three camera sets are shown among the N stereo camera sets, and the number of camera sets is not limited to the drawings.
  • One stereo camera set 10, 20, 80 may include a plurality of cameras.
  • a plurality of cameras may all include an RGB camera, or both may include an IR camera. Or an RGB camera and an IR camera.
  • one or more sets of stereo cameras 10, 20, 80 may all include the same type of stereo camera, or may include different types of stereo cameras. In an embodiment, when the stereo camera set includes two or more IR cameras, one RGB camera may be included.
  • the present invention illustrates an embodiment in which two sets of RGB cameras 12, 22, 82 and two IR cameras 14, 24, 84 are included in a set of N stereo cameras 10, 20, 80 , which has been described in detail.
  • a plurality of stereo camera sets 10, 20 and 80 can take dynamic objects using RGB cameras 12, 22 and 82 and IR cameras 14, 24 and 84.
  • a 3D image obtained by matching an image photographed from a multi-viewpoint with respect to a dynamic object is referred to as a 3D image
  • an image including motion information about a dynamic object is referred to as a 4D image.
  • the object restoration apparatus of the present invention can receive a plurality of images from a camera set composed of several or several dozens of cameras. As the number of cameras increases, images at various viewpoints can be matched, You can restore complete 3D video including.
  • the object restoration apparatus of the present invention can recognize a correspondence relationship between a dynamic object and motion information of the object, and can produce a VR (Virtual Reality) / AR (augmented reality) content that utilizes motion information, It can be applied to various types of industries such as recognition interface.
  • VR Virtual Reality
  • AR augmented reality
  • the image information obtained by photographing the dynamic object may be received by the image information receiving unit 110 of the object reconstruction apparatus 100.
  • the image information receiving unit 110 may include an RGB image information receiving unit 112 for receiving the RGB image information of the dynamic object and an IR image information receiving unit 114 for receiving the IR image information of the dynamic object.
  • the depth image estimating unit 120 estimates the depth image using the image information of the object photographed by the image information receiving unit 110.
  • the depth image estimating unit 120 may include a stereo matching unit 122 and an entire background separating unit 124.
  • the stereo matching unit 122 is configured to stereo match the image information received by the image information receiving unit 110.
  • the RGB image information and the IR image information may be separated and stereo-matched.
  • the background separator 124 separates the information of the foreground region image and the information of the background region image from the stereo-matched image, and obtains only the object information.
  • the depth image fusion unit 130 fuses depth images estimated by the depth image estimation unit 120.
  • the depth image fusion unit 130 may include a reliability estimating unit 132 for measuring reliability of the depth image estimated by the depth image estimating unit 120.
  • the restoration unit 140 restores the dynamic object to the 4D using the fused depth image.
  • the restoring unit 140 includes a key volume generating unit 142 for generating a key volume, a key volume updating unit 144 for updating the generated key volume, and a controller for warping the updated key volume to a volume at the current point of time And a mesh and texture generator 146 for generating meshes and textures.
  • the key volume generation unit 142 searches the key volume corresponding to the fused depth image through the corresponding point comparison, and generates the key volume if the key volume corresponding to the fused depth image does not exist. If the key volume corresponding to the fused depth image exists, the key volume update unit 144 estimates the motion information of the object from the fused depth image, and generates a key volume corresponding to the fused depth image based on the estimated motion information Can be updated.
  • the control unit 180 controls the structures in the object restoration apparatus 100, and can perform object restoration by controlling the driving of the respective structures.
  • the controller 180 compares the corresponding points of the fused depth image and the key volume, and determines whether or not the key volume is generated.
  • the image transmitting unit 190 may transmit the restored image of the object generated by the object restoring apparatus 100 to the display unit 200.
  • the display unit 200 may be provided in the object restoration apparatus 100 or may be provided as an external device.
  • the display unit 200 may be a computer or a monitor.
  • FIG. 2 is a flowchart illustrating an object restoration method using an object restoration apparatus according to an embodiment of the present invention.
  • FIG. 3 illustrates a method of estimating a depth image using an object restoration apparatus according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a method of fusing depth images using an object restoration apparatus according to an embodiment of the present invention.
  • an embodiment of a method for restoring a dynamic object is as follows.
  • the object restoration device can first take a dynamic object using one or more stereo camera sets (10, 20, 80).
  • the stereo camera set 10, 20, 80 can take a dynamic object at a predetermined time unit T.
  • the predetermined time unit may be a constant time interval or an arbitrary time (for example, a time at which the movement of the object is detected).
  • the photographed image information may be transmitted to the image information receiving unit 110 of the object reconstruction apparatus 100 (S100).
  • the object restoration apparatus can estimate the depth image using the acquired image (S200).
  • the depth image may be performed for each stereo camera set 10, 20, 80.
  • RGB image information photographed from two or more RGB cameras 12, 22, 82 of the stereo camera set 10, 20, IR image information taken from the IR cameras 14, 24, and 84 can be acquired.
  • the image information may include more than one.
  • the image information may include at least one of one or more RGB images or one or more IR images.
  • the stereo camera sets 10, 20 and 80 may photograph the dynamic object in real time or at predetermined time intervals (S210).
  • the stereo matching unit 122 may perform stereo matching using the received one or more RGB image information (S211). In addition, the stereo matching unit 122 can perform stereo matching using the received IR image information (S212).
  • RGB image information includes color (RGB) information
  • consistent color information can be obtained through a color correction process.
  • a separate correction unit (not shown) for color correction may be provided.
  • the IR image information can be acquired in the state that an arbitrary pattern is projected through the DOE projector.
  • More than one RGB image information may be stereo-matched and estimated as a first depth image (S214).
  • the two or more IR image information may be stereo-matched and estimated as the second depth image (S215)
  • the background separator 124 may obtain the object information by separating the foreground region image and the background region image using the first depth image and the second depth image.
  • the foreground and background separation is performed on the assumption that the current object exists on a plane, and the foreground and background separations are the same as the first depth image (depth image of IR image information) or the first depth image (S216) after estimating the largest plane, and then removing only object information smaller than a specific distance from the objects on the plane.
  • the background separating unit 124 may separate the foreground region image and the background region image information to obtain the entire background division mask (S217).
  • the first depth image, the second depth image, and the entire background dividing mask can be obtained through the step of estimating the depth image, and the depth image can be fused using the depth depth image (S300).
  • the one or more depth images determined through the entire background division mask through the depth image estimation step in each stereo camera set 10, 20, 80 and the color image for texture mapping may be received by the depth image fusion unit 130 .
  • the depth image fusion unit 130 In order to effectively combine a plurality of depth images (N), reliability of each pixel in the foreground region in the depth image is estimated, and the depth information of the highly reliable pixel is preferentially fused based on the estimated reliability ( S310).
  • the depth image fusion unit 130 may fuse the first depth image and the second depth image after estimating the reliability (S320). Also, N depth images obtained for each stereo camera set may be fused in the depth image fusion unit 130 using the fused depth image and the background split mask information (S330). The fused depth image can be transmitted to the restoration unit 140 as an input volume.
  • the key volume may be generated using the depth image fused in the depth image fusion step (S400).
  • the fused depth image may be received every frame at a predetermined time interval.
  • the fused depth image may include a point cloud of fused shapes.
  • the input volume and the previously generated key are generated based on the correspondence between the input volume (the depth image fused at the next time) and the key volume (the previously generated key volume)
  • the volume may be compared and matched to determine whether to generate the key volume again or update the key volume (S410).
  • the topology may mean the external shape or the shape of the object.
  • the motion information of the object may be estimated (S420), and the key volume corresponding to the fused depth image may be updated based on the estimated motion information (S430).
  • the key volume is updated without creating a new key volume.
  • the input volume can be generated as the key volume.
  • the key volume can be updated with the generated key volume (S430).
  • a new key volume can be created.
  • the updated key volume can be warped to the volume at the current time point (S510).
  • a mesh and a texture map may be generated in the mesh and texture generator 146 using a Marching cube algorithm (S520).
  • the generated mesh and texture map may be compressed using the temporal and spatial relationships (S530).
  • the compressed mesh and texture map can be used to restore a 4D model that includes a complete 3D model or motion information for the dynamic object (S540).
  • the motion information of the dynamic object is used to check the correspondence point between the input volume and the key volume to update the key volume so as to increase the accuracy of the depth information in the key volume and fill the image of the blank portion by masking the key volume Process can be performed.
  • FIG. 5 is a flowchart illustrating a method of estimating a depth image using an object reconstruction apparatus including an RGB or IR camera.
  • a stereo camera set includes two or more RGB cameras or two or more IR cameras, a method of estimating a depth image will be described.
  • a plurality of RGB image information can be obtained.
  • the stereo camera set includes an IR camera, a plurality of IR image information may be obtained (S610).
  • a plurality of RGB image information can be stereo matched.
  • the plurality of IR image information may be stereo matched (S620).
  • the depth image can be estimated using the stereo-matched image information.
  • the RGB image information may further include a step of correcting the color (S630).
  • the entire background is separated from the estimated depth image (S640), and the background divided mask is obtained (S650).
  • FIG. 6 is a flowchart illustrating a method of fusing depth images using an object reconstruction apparatus including an RGB camera or an IR camera.
  • a stereo camera set includes two or more RGB cameras or two or more IR cameras, a method of fusing depth images will be described.
  • the reliability of the RGB or IR depth image estimated through the depth image estimating step can be estimated (S710)
  • the N depth images acquired per stereo camera set are based on the entire background mask and the estimated reliability (S720).

Abstract

본 발명은 모션 정보를 이용한 객체 복원 장치는 객체에 대하여 다시점으로 촬영한 복수의 영상을 수신하여 상기 복수의 영상의 깊이영상을 추정하는 깊이영상 추정부; 상기 깊이영상을 융합하는 깊이영상 융합부; 및 상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 하여 상기 융합된 깊이영상에 대응되는 키볼륨을 업데이트하여 상기 객체를 복원하는 복원부를 포함할 수 있다.

Description

모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
본 발명은 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법에 관한 것이다.
객체의 모션(움직임) 정보를 획득하여 복원하는 일반적인 기술은 크게 2가지로 분류될 수 있다.
먼저, 마커(marker)를 사용하는 방법이 있다. 종래의 모션 복원 기법들은 모션 정보를 획득하고자 하는 개체의 외형에 마커를 부착하여 매 프레임 마커의 위치를 추적하여 모션 정보를 얻는 방법이 주로 이용되었다. 마커를 통해 얻어진 모션 정보는, 가려짐(occlusion)이나 센서 오차 등에 의해 잘못된 부분에 대한 수작업의 보완 과정을 거쳐서 최종 결과로 얻어지게 된다. 마커 기반의 방법은 비교적 높은 정확도를 얻을 수 있는 장점이 있으나, 개체의 외형에 수많은 마커를 부착하여야 하고 고가의 모션 캡처 장비가 있어야 하며 캡처된 마커의 후처리가 필요하다는 단점이 존재한다.
객체의 모션을 복원하는 또 다른 방법으로는 마커를 사용하지 않는 마커프리(marker-free) 방법이 있다. 이는 마커리스(markerless) 방법이라고도 한다. 마커를 사용하지 않는 방법은, 앞서 언급한 마커를 이용한 방법에 비해 마커를 부착할 필요가 없기 때문에 촬영이 간편하고, 대부분의 경우 고가의 장비 대신 영상 센서만을 이용하므로 가격 측면에서도 저렴한 장점이 존재한다. 하지만, 복잡한 모션의 경우 정확한 모션을 추출해내기 어려운 단점이 존재한다.
마커프리 모션 복원 알고리즘은 사전 휴먼 모델 정보의 사용 유무에 따라 크게 두 가지로 구분될 수 있다. 첫째는 모델을 사용하지 않는 모델프리(model free) 접근법이다. 이 방법의 경우는 대부분 영상을 기반으로 해서 3차원 포즈를 추출하게 된다. 그 방법으로는 몸의 팔다리를 먼저 찾아내고 확률적 조립(probabilistic assemblies)을 이용하여 모션을 추출하는 상향식 접근법과, 미리 저장되어있는 데이터베이스(database; DB)를 기반으로 하여 영상과 3차원 포즈 사이에 직접적인 매칭을 통해 포즈를 알아내는 예제기반 접근법(Examplebased methods)이 존재한다. 그러나 모델프리 방법의 경우는 복잡한 경우에는 정확도가 떨어지며, 예제기반 접근법의 경우에는 DB에 따라 추출할 수 있는 모션이 제한된다는 단점이 존재한다.
둘째로는, 미리 정의된 모델을 사용하는 접근법이 있다. 이 경우, 미리 정의된 모델의 운동학(kinematics) 정보뿐만 아니라, 외형 정보도 활용이 가능하며, 사전 모델과 영상 속의 개체 혹은 다시점 영상에서부터 복셀 복원(Voxel reconstruction) 등을 통해 얻은 3차원 볼륨 개체와의 비교를 통해 모션을 추출해 낼 수 있다.
이런 접근을 통해서 기존의 모델프리 방법에 비해 비교적 복잡한 모션까지도 추출해 내는 것이 가능하다. 하지만 이접근의 경우에도 여전히 모델과 3차원 개체 사이의 대응관계를 어떻게 유추하는지가 주요 이슈로 남아있다.
동적 객체의 모션 복원 기술, 특히 3D 복원 기술은 다수 또는 단일 카메라를 이용하여 캡쳐된 영상을 이용하여 3D의 형태로 복원을 수행할 수 있다. 복원된 3D 영상에서의 객체의 움직임 정보를 포함하는 4D 복원이 수행될 수 있다.
한국등록특허 10-1307341에는 가시광 영역의 영상센서를 동적 객체 모션 캡쳐 방법에 대해 개시하고 있다. 그러나, 깊이 정보가 없이 3D 외형 복원을 수행하기 때문에 정밀한 3D복원이 이루어지기 힘든 단점이 있다.
본 발명은 다수의 카메라를 이용하여 획득한 복수의 다시점 영상을 정합하여 동적 객체에 대한 완전한 3D영상 복원 또는 동적 객체에 대한 모션 정보를 포함하는 4D 영상 복원을 수행하는 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법을 제공한다.
본 발명의 일 실시 예에 따른 모션 정보를 이용한 객체 복원 장치는 객체에 대하여 다시점으로 촬영한 복수의 영상을 수신하여 상기 복수의 영상의 깊이영상을 추정하는 깊이영상 추정부; 상기 깊이영상을 융합하는 깊이영상 융합부; 및 상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 하여 상기 융합된 깊이영상에 대응되는 키볼륨을 업데이트하여 상기 객체를 복원하는 복원부를 포함할 수 있다.
실시 예에 있어서, 상기 객체의 영상을 촬영하는 하나 이상의 카메라 세트를 포함하고, 상기 하나 이상의 카메라 세트는, RGB 카메라 및 IR 카메라 중 적어도 하나 이상을 포함할 수 있다.
실시 예에 있어서, 상기 깊이영상 추정부는, 상기 깊이영상을 정합하는 스테레오 정합부; 및 상기 깊이영상에서 전경 영상 및 배경 영상을 분리하는 전배경 분리부를 포함할 수 있다.
실시 예에 있어서, 상기 복원부는, 대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하고, 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면 키 볼륨을 생성하는 키 볼륨 생성부; 및 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 융합된 깊이영상으로부터 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 키 볼륨 업데이트부를 포함할 수 있다.
본 발명의 일 실시 예에 따른 모션 정보를 이용한 객체 복원 방법은 하나 이상의 카메라 세트를 이용하여 객체의 영상을 획득하는 단계; 상기 카메라 세트에서 획득된 영상의 깊이영상을 추정하는 단계; 상기 카메라 세트에서 추정된 상기 깊이영상을 융합하는 단계; 상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하는 단계; 상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 단계; 및 상기 업데이트된 키 볼륨에 기초하여 상기 객체를 복원하는 단계를 포함할 수 있다.
실시 예에 있어서, 상기 깊이영상을 추정하는 단계는, 상기 깊이영상을 추정하도록, 상기 카메라 세트로부터 둘 이상의 영상 정보를 수신하여 스테레오 정합을 수행하는 단계; 및 상기 스테레오 정합된 영상에서 전경 영역 및 배경 영역을 분리하여 전배경 분할 마스크를 획득하는 단계를 포함할 수 있다.
실시 예에 있어서, 상기 둘 이상의 영상정보는, 하나 이상의 RGB 영상 또는 하나 이상의 IR 영상 중 적어도 하나 이상을 포함할 수 있다.
실시 예에 있어서, 상기 하나 이상의RGB 영상에 대한 컬러 보정을 수행하는 보정단계를 더 포함할 수 있다.
실시 예에 있어서, 상기 깊이영상을 융합하는 단계는, 상기 전배경 분할 마스크를 통해 결정된 상기 깊이영상의 상기 전경 영역의 각 픽셀에 대한 신뢰도를 추정하는 단계; 및 상기 추정된 신뢰도에 기초하여 상기 깊이영상을 융합하는 단계를 포함할 수 있다.
실시 예에 있어서, 상기 대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하는 단계; 및 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면, 키 볼륨을 생성하는 단계를 더 포함하고, 상기 키 볼륨을 업데이트하는 단계는, 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 추정된 모션정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트할 수 있다.
실시 예에 있어서, 상기 객체를 복원하는 단계는, 상기 업데이트된 키 볼륨을 와핑(warping)하여 메시 및 텍스처를 생성하는 단계를 포함할 수 있다.
본 발명에 따른 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법의 효과에 대해 설명하면 다음과 같다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 동적 객체의 영상정보를 스테레오 정합한 후, 깊이영상을 추정하고, 추정된 깊이영상을 이용하여 모션 정보를 포함하여 정밀도가 높은 완전한3D 복원 및 4D 복원을 수행할 수 있다.
또한, 본 발명의 실시 예들 중 적어도 하나에 의하면, 동적 객체의 깊이영상에 대한 신뢰도를 추정하고, 전배경 분할 마스크를 참고하여 깊이영상을 융합함으로써 정확도가 높은 4D 복원을 수행할 수 있다.
또한, 본 발명의 실시 예들 중 적어도 하나에 의하면, 동적 객체에 대한 완전한 3D 복원 및 모션 복원이 동시에 수행됨으로써 객체의 영상에서 가려져 비어있는 영역이 존재하지 않는다. 그러므로 객체의 모션이 연결되어 자연스러운 4D 복원이 가능할 수 있다. 또한, 본 발명은 이를 이용한 3D컨텐츠의 생성, 모션 인식을 이용한 객체의 의도, 감정, 동작 등을 인식하는데 활용될 수 있다.
도 1은 본 발명의 바람직한 객체 복원 장치의 구성을 간략하게 도시한 블럭도이다.
도 2는 본 발명의 일 실시 예에 따른 객체 복원 장치를 이용한 객체 복원 방법을 도시한 흐름도이다.
도 3은 본 발명의 일 실시 예에 따른 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이다.
도 4는 본 발명의 일 실시 예에 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.
도 5 는 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이다.
도 6은 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 도면들을 참조하여 본 발명의 실시 예에 대해 상세히 설명하기로 한다. 본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다.
도 1은 본 발명의 바람직한 객체 복원 장치의 구성을 간략하게 도시한 블럭도이다.
도 1을 참조하면, 객체 복원장치(100)는 영상정보 수신부(110), 깊이영상 추정부(120), 깊이영상 융합부(130), 복원부(140), 제어부(180) 및 영상 송신부(190)를 포함할 수 있다.
영상정보 수신부(110)는 객체 복원장치(100)의 외부에 구비된 하나 이상의 스테레오 카메라 세트(10, 20, 80)로부터 영상정보를 수신하는 구성이다. 스테레오 카메라 세트(10, 20, 80)는 다수 개의 스테레오 카메라를 포함하는 구성으로, N개의 스테레오 카메라 세트가 구비될 수 있다. 도 1에서는 N개의 스테레오 카메라 세트 중 세 개의 카메라 세트만 도시한 것으로, 카메라 세트의 수는 도면에 국한되지 않는다.
하나의 스테레오 카메라 세트(10, 20, 80)는 다수 개의 카메라를 포함할 수 있다. 다수 개의 카메라는 모두 RGB 카메라가 포함될 수도 있고, 모두 IR 카메라가 포함될 수도 있다. 또는 RGB 카메라 및 IR 카메라가 함께 포함될 수 있다. 또한 하나 이상의 스테레오 카메라 세트(10, 20, 80)에는 모두 동일한 종류의 스테레오 카메라가 포함될 수도 있고, 서로 다른 종류의 스테레오 카메라가 포함될 수도 있다. 일 실시 예로써, 스테레오 카메라 세트에 IR 카메라가 두 개 이상 포함된 경우에는 RGB 카메라 한 개가 포함될 수 있다.
본 발명에서는 N개의 스테레오 카메라 세트(10, 20, 80)에 두 개의 RGB 카메라(12, 22, 82) 및 두 개의 IR 카메라(14, 24, 84)가 포함되는 실시 예를 예시적으로 도시하고, 이를 상세하게 설명하였다.
다수 개의 스테레오 카메라 세트(10, 20, 80)는 RGB 카메라(12, 22, 82) 및 IR 카메라(14,24, 84)를 이용하여 동적 객체를 촬영할 수 있다. 이하에서는 동적 객체에 대하여 다시점에서 촬영한 영상을 정합한 영상을 완전한 3D 영상, 동적 객체에 대한 모션 정보를 포함하는 영상을 4D 영상으로 지칭하여 사용한다.
여기서, 본 발명의 객체 복원 장치는 몇 개 내지는 수십 개의 카메라로 구성되는 카메라 세트로부터 복수의 영상을 수신할 수 있으며, 카메라의 개수가 많아질수록 다양한 시점의 영상을 정합할 수 있어 더 많은 정보를 포함하는 완전한 3D 영상을 복원할 수 있다. 또한, 본 발명의 객체 복원 장치는 동적 객체와 그 객체의 모션 정보 사이의 대응 관계를 인식할 수 있어, 모션 정보를 활용하는 VR(가상현실)/AR(증강현실) 콘텐츠의 제작, 모션 정보를 인식하는 인터페이스 등 다양한 형태의 산업에 활용될 수 있다.
동적 객체를 촬영한 영상정보는 객체 복원장치(100)의 영상 정보 수신부(110)로 수신될 수 있다. 영상정보 수신부(110)는 동적 객체의 RGB 영상정보를 수신하는 RGB 영상정보 수신부(112) 및 동적 객체의 IR 영상 정보를 수신하는 IR 영상정보 수신부(114)를 포함할 수 있다.
깊이영상 추정부(120)는 영상정보 수신부(110)에서 촬영된 객체의 영상정보를 이용하여 깊이영상을 추정하는 구성이다. 깊이영상 추정부(120)는 스테레오 정합부(122) 및 전배경 분리부(124)를 포함할 수 있다. 스테레오 정합부(122)는 영상정보 수신부(110)에서 수신된 영상정보를 스테레오 정합하는 구성이다. 여기서, RGB 영상정보와 IR 영상정보는 분리되어 스테레오 정합될 수 있다. 전배경 분리부(124)는 스테레오 정합된 영상으로부터 전경 영역 영상의 정보 및 배경 영역 영상의 정보를 분리하고, 객체 정보만을 획득하는 구성이다.
깊이영상 융합부(130)는 깊이영상 추정부(120)에서 추정된 깊이영상을 융합하는 구성이다. 깊이영상 융합부(130)는 깊이영상 추정부(120)에서 추정된 깊이영상에 대한 신뢰도를 측정하는 신뢰도 추정부(132)를 포함할 수 있다.
복원부(140)는 융합된 깊이영상을 이용하여 동적 객체를 4D로 복원하는 구성이다. 복원부(140)는 키 볼륨을 생성하는 키 볼륨 생성부(142), 생성된 키 볼륨을 업데이트하는 키 볼륨 업데이트부(144) 및 업데이트된 키 볼륨을 현재 시점에서의 볼륨으로 와핑(warping)하고, 메시 및 텍스처를 생성하는 메시 및 텍스처 생성부(146)를 포함할 수 있다. 키 볼륨 생성부(142)는 대응점 비교를 통해 융합된 깊이영상에 대응되는 키 볼륨을 탐색하고, 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면, 키 볼륨을 생성할 수 있다. 키 볼륨 업데이트부(144)는 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 융합된 깊이영상으로부터 객체의 모션정보를 추정하고, 추정된 모션정보를 기초로 융합된 깊이영상에 대응되는 키 볼륨을 업데이트할 수 있다.
제어부(180)는 객체 복원장치(100) 내의 구성들을 제어하는 구성으로, 각 구성들의 구동을 제어하여 객체 복원을 수행할 수 있다. 제어부(180)는 융합된 깊이영상과 키 볼륨의 대응점을 비교하고, 키 볼륨의 생성여부를 판단할 수 있다.
영상 송신부(190)는 객체 복원장치(100)에서 생성된 객체의 복원 영상을 디스플레이부(200)로 전송할 수 있다. 디스플레이부(200)는 객체 복원장치(100)에 구비될 수도 있고, 외부에 별도의 장치로 구비될 수도 있다. 디스플레이부(200)는 컴퓨터 또는 모니터 등일 수 있다.
도 2는 본 발명의 일 실시예에 따른 객체 복원 장치를 이용한 객체 복원 방법을 도시한 흐름도이고, 도 3은 본 발명의 일 실시 예에 따른 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이고, 도 4는 본 발명의 일 실시에에 따른 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.
도 2를 참조하면, 동적 객체를 복원하는 방법의 일 실시 예는 다음과 같다.
객체 복원 장치는, 먼저 하나 이상의 스테레오 카메라 세트(10, 20, 80)를 이용하여 동적 객체를 촬영할 수 있다. 여기서, 스테레오 카메라 세트(10, 20, 80)는 동적 객체를 소정의 시간 단위(T)로 촬영할 수 있다. 소정의 시간 단위란 일정한 시간 간격이거나, 임의의 시간(예를 들어, 객체의 움직임이 감지되는 시간)일 수 있다. 촬영된 영상정보는 객체 복원장치(100)의 영상 정보 수신부(110)로 전달될 수 있다(S100).
그 다음, 객체 복원 장치는 획득된 영상을 이용하여 깊이영상을 추정할 수 있다(S200). 깊이영상은 각각의 스테레오 카메라 세트(10, 20, 80) 별로 수행될 수 있다.
도 3을 참조하여, 깊이영상을 추정하는 방법을 상세하게 설명하면, 먼저 스테레오 카메라 세트(10, 20, 80)의 둘 이상의RGB 카메라(12, 22, 82)로부터 촬영된 RGB 영상 정보 및 둘 이상의IR 카메라(14, 24, 84)로부터 촬영된 IR 영상 정보를 획득할 수 있다. 스테레오 정합을 위하여 영상정보는 둘 이상을 포함할 수 있다. 영상정보는 하나 이상의 RGB 영상 또는 하나 이상의 IR 영상 중 적어도 하나 이상을 포함할 수 있다. 스테레오 카메라 세트(10, 20, 80)는 동적 객체를 실시간으로 촬영하거나, 소정의 시간 간격으로 촬영할 수 있다(S210).
스테레오 정합부(122)에서는 수신된 하나 이상의 RGB 영상 정보를 이용하여 스테레오 정합을 수행할 수 있다(S211). 또한 스테레오 정합부(122)에서는 수신된 IR 영상 정보를 이용하여 스테레오 정합할 수 있다(S212).
특히, RGB 영상 정보는 컬러(RGB) 정보를 포함하고 있으므로, 색상 보정 과정을 통해 일관성 있는 색상 정보를 획득할 수 있다. 색상 보정을 위한 별도의 보정부(미도시)가 구비될 수 있다. 또한 IR 영상 정보는 DOE 프로젝터를 통해 임의 패턴이 투사된 상태에서 획득될 수 있다.
둘 이상의 RGB 영상 정보는 스테레오 정합되어 제1 깊이영상으로 추정될 수 있다(S214). 또한, 둘 이상의 IR 영상 정보는 스테레오 정합되어 제2 깊이영상으로 추정될 수 있다.(S215)
전배경 분리부(124)는 제1 깊이영상 및 제2 깊이영상을 이용하여 전경 영역 영상 및 배경 영역 영상을 분리하여 객체정보를 획득할 수 있다. 일 실시 예에 따르면, 전경 및 배경 분리는 현재 객체가 평면 위에 존재한다고 가정하고, 제2 깊이영상(IR 영상정보의 깊이영상) 또는 제1 깊이영상 (RGB 영상정보의 깊이영상)에서 공통적으로 나타나는 가장 큰 평면을 추정한 후, 평면 위에 있는 물체 중 특정 거리보다 작은 물체 정보만 남기고 제거하는 방식으로 수행될 수 있다(S216). 전배경 분리부(124)는 전경 영역 영상 및 배경 영역 영상 정보를 분리하여 전배경 분할 마스크를 획득할 수 있다(S217).
다시 도 2를 참조하면, 깊이영상을 추정하는 단계를 통하여 제1 깊이영상, 제2 깊이영상 및 전배경 분할 마스크를 획득할 수 있고, 이를 이용하여 깊이영상을 융합할 수 있다(S300).
도 4를 참조하여 깊이영상을 융합하는 방법을 상세하게 설명하면, 스테레오 카메라 세트(10, 20, 80) 별로 추정된 제1 깊이영상 및 제2 깊이영상은 깊이영상 융합부(130)의 신뢰도 추정부(132)로 전달되어 신뢰도를 추정할 수 있다(S310).
각각의 스테레오 카메라 세트(10, 20, 80)에서 깊이영상 추정 단계를 거쳐 전배경 분할 마스크를 통해 결정된 하나 이상의 깊이영상과 텍스처 매핑을 위한 컬러 영상은 깊이영상 융합부(130)로 수신될 수 있다. 다수 개(N개)의 깊이영상을 효과적으로 융합하기 위해 깊이영상 중 전경 영역의 각 픽셀에 대해 신뢰도를 추정하며, 추정된 신뢰도에 기초하여 신뢰도가 높은 픽셀의 깊이 정보를 우선적으로 융합할 수 있다(S310).
깊이영상 융합부(130)는 신뢰도를 추정한 후 제1 깊이영상 및 제2 깊이영상을 융합할 수 있다(S320). 또한, 융합된 깊이영상과 전배경 분할 마스크 정보를 이용하여, 스테레오 카메라 세트 별로 획득된 N 개의 깊이영상은 깊이영상 융합부(130)에서 융합될 수 있다(S330). 융합된 깊이영상은 입력 볼륨으로써 복원부(140)로 전달될 수 있다.
다시 도 2를 참조하면, 깊이영상 융합단계에서 융합된 깊이영상을 이용하여 키 볼륨을 생성할 수 있다(S400). 융합된 깊이영상은 소정의 시간 간격으로 매 프레임 수신될 수 있다. 융합된 깊이영상은 융합된 형태의 포인트 클라우드를 포함할 수 있다.
먼저, 제어부(180)를 이용하여, 융합된 깊이영상을 이용하여 키 볼륨(기준이 되는 볼륨)의 생성 여부를 판단하기 위한 키 볼륨 탐색 과정이 필요하다. 키 볼륨이 기존에 존재하지 않으면, 입력 볼륨을 키 볼륨으로 선택하여 생성할 수 있다.
융합된 깊이영상에 대응되는 키 볼륨이 기존에 존재하면, 입력 볼륨(다음시간에서 융합된 깊이영상)과 키 볼륨(기존에 생성된 키 볼륨)의 대응점에 기반하여 입력 볼륨과 기존에 생성된 키 볼륨을 비교하고 매칭함으로써 다시 키 볼륨을 생성할지 또는 키 볼륨을 업데이트 할지를 판단할 수 있다(S410).
입력 볼륨과 기존의 키 볼륨의 대응점을 비교하여 거의 매칭되는 경우에는, 객체의 토폴로지(topology) 변화가 적은 경우라고 판단할 수 있다. 여기서, 토폴로지란 객체의 외형 또는 형태 등을 의미할 수 있다.
이러한 경우, 객체의 모션 정보를 추정(S420)하고, 이를 기초로 융합된 깊이영상에 대응되는 키 볼륨을 업데이트 할 수 있다(S430).
객체가 사람인 경우를 예를 들어 설명하면, 스테레오 카메라 세트의 촬영 범위 내의 토폴로지 변화가 적으면, 객체의 영상정보는 거의 변화되지 않을 수 있다. 그러므로 새로운 키 볼륨을 생성하지 않고, 키 볼륨을 업데이트하게 된다.
입력 볼륨과 기존의 키 볼륨의 대응점을 비교하여 매칭이 되지 않고 차이가 난다면, 객체의 토폴로지 변화가 큰 경우라고 판단할 수 있다. 이러한 경우, 키 볼륨을 새롭게 생성해야 하므로 입력 볼륨을 키 볼륨으로 생성할 수 있다. 생성된 키 볼륨으로 키 볼륨을 업데이트 할 수 있다(S430).
객체가 사람인 경우를 예를 들어 설명하면, 스테레오 카메라 세트의 촬영 범위 내의 사람이 갑자기 옷을 갈아입거나 모자를 쓰는 등 객체의 토폴로지 변화가 큰 경우에는 기존의 키 볼륨과 대응점이 매칭되지 않으므로 새로운 키 볼륨을 생성할 수 있다. 업데이트된 키 볼륨은 현재 시점에서의 볼륨으로 와핑(warping) 작업이 수행될 수 있다(S510). 와핑 작업 후 마칭 큐브(Marching cube) 알고리즘을 이용하여 메시 및 텍스처 생성부(146)에서 메시와 텍스처 맵이 생성될 수 있다(S520). 생성된 메시 및 텍스처 맵은 시간적, 공간적 관계를 이용하여 압축될 수 있다(S530). 압축된 메시 및 텍스처 맵을 이용하여 동적 객체에 대한 완전한 3D모델 또는 모션 정보를 포함하는 4D 모델을 복원할 수 있다(S540).
동적 객체의 모션 정보를 이용하여 입력 볼륨과 키 볼륨의 대응점을 확인하여 키 볼륨을 업데이트함으로써, 키 볼륨에서의 깊이 정보에 대한 정확도를 높이고, 키 볼륨에서 가려짐에 의해 비어있는 부분의 영상을 채우는 과정이 수행될 수 있다.
도 5 는 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이다.
도 5를 참조하면, 스테레오 카메라 세트에 둘 이상의 RGB 카메라 또는 둘 이상의 IR 카메라를 포함하는 경우, 깊이영상을 추정하는 방법을 설명하면 다음과 같다.
스테레오 카메라 세트에 RGB 카메라가 포함된 경우, 다수의RGB 영상정보를 획득할 수 있다. 또는 스테레오 카메라 세트에 IR 카메라가 포함된 경우, 다수의 IR 영상정보를 획득할 수 있다(S610).
다수의 RGB 영상정보는 스테레오 정합될 수 있다. 또는 다수의 IR 영상정보는 스테레오 정합될 수 있다(S620).
스테레오 정합된 영상정보를 이용하여 깊이영상을 추정할 수 있다. 특히, RGB 영상정보는 컬러를 보정하는 단계를 더 포함할 수 있다(S630).
추정된 깊이영상으로부터 전배경을 분리하고(S640), 전배경 분할 마스크를 획득할 수 있다(S650).
도 6은 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.
도 6을 참조하면, 스테레오 카메라 세트에 둘 이상의 RGB 카메라 또는 둘 이상의 IR 카메라를 포함하는 경우, 깊이영상을 융합하는 방법을 설명하면 다음과 같다.
먼저, 깊이영상 추정 단계를 통해 추정된 RGB 또는 IR 깊이영상에 대한 신뢰도를 추정할 수 있다(S710)
스테레오 카메라 세트 별로 획득된 N개의 깊이영상은 전배경 마스크 및 추정된 신뢰도에 기반하여 융합될 수 있다(S720).
이상의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (11)

  1. 객체에 대하여 다시점으로 촬영한 복수의 영상을 수신하여 상기 복수의 영상의 깊이영상을 추정하는 깊이영상 추정부;
    상기 깊이영상을 융합하는 깊이영상 융합부; 및
    상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 하여 상기 융합된 깊이영상에 대응되는 키볼륨을 업데이트하여 상기 객체를 복원하는 복원부를 포함하는 모션 정보를 이용한 객체 복원 장치.
  2. 제1항에 있어서,
    상기 객체의 영상을 촬영하는 하나 이상의 카메라 세트를 포함하고,
    상기 하나 이상의 카메라 세트는,
    RGB 카메라 및 IR 카메라 중 적어도 하나 이상을 포함하는 모션 정보를 이용한 객체 복원 장치.
  3. 제1항에 있어서,
    상기 깊이영상 추정부는,
    상기 깊이영상을 정합하는 스테레오 정합부; 및
    상기 깊이영상에서 전경 영역 영상 및 배경 영역 영상을 분리하는 전배경 분리부를 포함하는 모션 정보를 이용한 객체 복원 장치.
  4. 제1항에 있어서,
    상기 복원부는,
    대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하고, 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면 키 볼륨을 생성하는 키 볼륨 생성부; 및
    상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 융합된 깊이영상으로부터 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 키 볼륨 업데이트부를 포함하는 모션 정보를 이용한 객체 복원 장치.
  5. 하나 이상의 카메라 세트를 이용하여 객체의 영상을 획득하는 단계;
    상기 카메라 세트에서 획득된 영상의 깊이영상을 추정하는 단계;
    상기 카메라 세트에서 추정된 상기 깊이영상을 융합하는 단계;
    상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하는 단계;
    상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 단계; 및
    상기 업데이트된 키 볼륨에 기초하여 상기 객체를 복원하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
  6. 제5항에 있어서,
    상기 깊이영상을 추정하는 단계는,
    상기 깊이영상을 추정하도록, 상기 카메라 세트로부터 둘 이상의 영상 정보를 수신하여 스테레오 정합을 수행하는 단계; 및
    상기 스테레오 정합된 영상에서 전경 영역 영상 및 배경 영역 영상을 분리하여 전배경 분할 마스크를 획득하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
  7. 제6항에 있어서,
    상기 둘 이상의 영상정보는,
    하나 이상의 RGB 영상 또는 하나 이상의 IR 영상 중 적어도 하나 이상을 포함하는 모션 정보를 이용한 객체 복원 방법.
  8. 제7항에 있어서,
    상기 하나 이상의RGB 영상에 대한 컬러 보정을 수행하는 보정단계를 더 포함하는 모션 정보를 이용한 객체 복원 방법.
  9. 제6항에 있어서,
    상기 깊이영상을 융합하는 단계는,
    상기 전배경 분할 마스크를 통해 결정된 상기 깊이영상의 상기 전경 영역영상의 각 픽셀에 대한 신뢰도를 추정하는 단계; 및
    상기 추정된 신뢰도에 기초하여 상기 깊이영상을 융합하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
  10. 제5항에 있어서,
    상기 대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하는 단계; 및
    상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면, 키 볼륨을 생성하는 단계를 더 포함하고,
    상기 키 볼륨을 업데이트하는 단계는,
    상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 추정된 모션정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 모션 정보를 이용한 객체 복원 방법.
  11. 제5항에 있어서,
    상기 객체를 복원하는 단계는,
    상기 업데이트된 키 볼륨을 와핑(warping)하여 메시 및 텍스처를 생성하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
PCT/KR2017/013061 2017-11-15 2017-11-17 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법 WO2019098421A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0152558 2017-11-15
KR1020170152558A KR102083293B1 (ko) 2017-11-15 2017-11-15 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법

Publications (1)

Publication Number Publication Date
WO2019098421A1 true WO2019098421A1 (ko) 2019-05-23

Family

ID=66539611

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/013061 WO2019098421A1 (ko) 2017-11-15 2017-11-17 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법

Country Status (2)

Country Link
KR (1) KR102083293B1 (ko)
WO (1) WO2019098421A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428462A (zh) * 2019-07-17 2019-11-08 清华大学 多相机立体匹配方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523361B (zh) * 2019-12-26 2022-09-06 中国科学技术大学 一种人体行为识别方法
CN112102458A (zh) * 2020-08-31 2020-12-18 湖南盛鼎科技发展有限责任公司 基于激光雷达点云数据辅助的单镜头三维图像重构方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160044316A (ko) * 2014-10-15 2016-04-25 한국과학기술연구원 깊이 정보 기반 사람 추적 장치 및 그 방법
KR101626065B1 (ko) * 2009-10-13 2016-05-31 삼성전자주식회사 마커리스 모션 캡쳐링 장치 및 방법
KR101755023B1 (ko) * 2015-12-31 2017-07-06 주식회사 에스원 3차원 동작 인식 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101669820B1 (ko) * 2010-07-02 2016-10-27 삼성전자주식회사 볼륨 예측 기반 폐색 영역 양방향 복원 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101626065B1 (ko) * 2009-10-13 2016-05-31 삼성전자주식회사 마커리스 모션 캡쳐링 장치 및 방법
KR20160044316A (ko) * 2014-10-15 2016-04-25 한국과학기술연구원 깊이 정보 기반 사람 추적 장치 및 그 방법
KR101755023B1 (ko) * 2015-12-31 2017-07-06 주식회사 에스원 3차원 동작 인식 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DOU, MINGSONG ET AL.: "Fusion4D: Real-time Performance Capture of Challenging Scenes", SIGGRAPH'16 TECHNICAL PAPER, 27 July 2016 (2016-07-27), Anaheim, California, pages 1 - 13, XP055576527, DOI: doi:10.1145/2897824.2925969 *
SHIN, H.-K. ET AL.: "Volume Motion Template For View Independent Gesture Recognition", PROCEEDINGS OF THE KIISE CONFERENCE, vol. 32, no. 2, November 2015 (2015-11-01), pages 844 - 846 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428462A (zh) * 2019-07-17 2019-11-08 清华大学 多相机立体匹配方法和装置
CN110428462B (zh) * 2019-07-17 2022-04-08 清华大学 多相机立体匹配方法和装置

Also Published As

Publication number Publication date
KR102083293B1 (ko) 2020-04-23
KR20190055632A (ko) 2019-05-23

Similar Documents

Publication Publication Date Title
WO2017204596A1 (ko) 얼굴 윤곽 보정 방법 및 장치
RU2426172C1 (ru) Способ и система выделения данных об изображении объекта переднего плана на основе данных о цвете и глубине
WO2017164479A1 (en) A device and method for determining a pose of a camera
WO2017026839A1 (ko) 휴대용 카메라를 이용한 3차원 얼굴 모델 획득 방법 및 장치
CN100364319C (zh) 图像处理方法和图像处理装置
KR102009292B1 (ko) 다중 카메라 기반 삼차원 얼굴 복원 장치 및 방법
WO2019066563A1 (en) DETERMINATION AND FOLLOW-UP OF CAMERA INSTALLATION
WO2013015549A2 (ko) 평면 특성 기반 마커리스 증강 현실 시스템 및 그 동작 방법
WO2016122069A1 (ko) 타이어 마모도 측정 방법 및 그 장치
WO2020235804A1 (ko) 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치
WO2013151270A1 (en) Apparatus and method for reconstructing high density three-dimensional image
WO2019098421A1 (ko) 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
WO2014077466A1 (ko) 이미지 매칭을 이용한 부가 정보 제공 시스템 및 방법
JP2016218905A (ja) 情報処理装置、情報処理方法、及びプログラム
KR20150093972A (ko) 스테레오 카메라 기반의 3차원 얼굴 복원 방법 및 장치
WO2014035103A1 (ko) 촬영영상으로부터 객체를 감시하기 위한 장치 및 방법
WO2013025011A1 (ko) 공간 제스처 인식을 위한 신체 트래킹 방법 및 시스템
WO2014010820A1 (en) Method and apparatus for estimating image motion using disparity information of a multi-view image
WO2018169110A1 (ko) 3차원 객체 표현을 위한 마커리스 증강현실장치 및 방법
WO2018101746A2 (ko) 도로면 폐색 영역 복원 장치 및 방법
WO2011078430A1 (ko) 다수의 특징점 기반 마커를 인식하기 위한 순차 검색 방법 및 이를 이용한 증강현실 구현 방법
WO2023038369A1 (en) Semantic three-dimensional (3d) building augmentation
WO2021256640A1 (ko) 관절 간 상대 거리 정보를 이용한 다시점 영상 기반 사람 자세 및 형상 모델 복원 장치 및 방법
WO2016104842A1 (ko) 카메라의 왜곡을 고려한 물체 인식 시스템 및 방법
WO2017209468A1 (ko) 3차원 입체 효과를 제공하는 크로마키 합성 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17931891

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17931891

Country of ref document: EP

Kind code of ref document: A1