WO2020032113A1 - 画像処理装置、3dデータ生成装置、制御プログラム及び記録媒体 - Google Patents

画像処理装置、3dデータ生成装置、制御プログラム及び記録媒体 Download PDF

Info

Publication number
WO2020032113A1
WO2020032113A1 PCT/JP2019/031151 JP2019031151W WO2020032113A1 WO 2020032113 A1 WO2020032113 A1 WO 2020032113A1 JP 2019031151 W JP2019031151 W JP 2019031151W WO 2020032113 A1 WO2020032113 A1 WO 2020032113A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth
model
image
data
input
Prior art date
Application number
PCT/JP2019/031151
Other languages
English (en)
French (fr)
Inventor
山本 智幸
恭平 池田
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to US17/266,170 priority Critical patent/US20210304494A1/en
Priority to JP2020535842A priority patent/JPWO2020032113A1/ja
Priority to CN201980053488.5A priority patent/CN112567431A/zh
Publication of WO2020032113A1 publication Critical patent/WO2020032113A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images

Definitions

  • One embodiment of the present invention relates to an image processing device, a display device, an image processing method, a control program, and a recording medium that generate a 3D model based on depth data including different types of depth.
  • DynamicFusion In the field of CG, a method called DynamicFusion for constructing a 3D model (three-dimensional model) by integrating input depths is being studied.
  • the purpose of DynamicFusion is mainly to construct a 3D model in which noise is removed in real time from a captured input depth.
  • an input depth acquired from a sensor is integrated into a common reference 3D model after compensating for deformation of a three-dimensional shape. This enables generation of a precise 3D model from low resolution and high noise depth.
  • Patent Document 1 discloses a technique of outputting an image of an arbitrary viewpoint by inputting a multi-view color image and a corresponding multi-view depth image at a pixel level.
  • JP-A-2013-30898 Japanese Unexamined Patent Publication
  • the depth type cannot be easily determined on the playback device side, and it is difficult to use the depth type to improve the quality of the 3D model and apply it to a user's request.
  • the present invention has been made in view of the above problems, and has as its object to generate and reproduce a 3D model and an image using depth data including depths of different types.
  • an image processing apparatus obtains depth data including a plurality of input depths of different types, which are input depths indicating a three-dimensional shape of an imaging target. And a 3D model generation unit that generates a 3D model by referring to at least one of the plurality of different input depths included in the depth data acquired by the acquisition unit.
  • a 3D data generation device is a device that generates 3D data, and is input with an image acquisition unit that acquires a plurality of depth images from an imaging device.
  • a depth data configuration unit configured to configure depth data using at least one of the plurality of depth images acquired by the image acquisition unit with reference to a user request.
  • a 3D model and an image based on depth data including depths of different types are generated and reproduced.
  • FIG. 1 is a schematic diagram for explaining an outline of a first embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating a configuration of a display device according to a first embodiment of the present invention.
  • FIG. 1 is a schematic diagram for explaining an outline of a first embodiment of the present invention.
  • FIG. 3 is a diagram for explaining depth information according to the first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a configuration example of depth data processed by the image processing apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a configuration example of depth data processed by the image processing apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a configuration example of depth data processed by the image processing apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a configuration example of depth data processed by the image processing apparatus according to the first embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating a configuration of a
  • FIG. 3 is a block diagram illustrating a configuration of a 3D model generation unit according to the first embodiment of the present invention.
  • FIG. 7 is a diagram for describing derivation of a 3D point group corresponding to depth and integration of depth by the 3D model generation unit according to the first embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a configuration example of depth data referred to by a 3D model generation unit according to the first embodiment of the present invention. It is a block diagram showing the composition of the 3D model generation part concerning the modification of Embodiment 1 of the present invention.
  • FIG. 9 is a diagram illustrating a configuration example of depth data referred to by a 3D model generation unit according to a modification of the first embodiment of the present invention.
  • FIG. 7 is a diagram for describing derivation of a 3D point group corresponding to depth and integration of depth by the 3D model generation unit according to the first embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a configuration example of depth
  • FIG. 9 is a diagram illustrating a configuration example of depth data referred to by a 3D model generation unit according to a modification of the first embodiment of the present invention.
  • FIG. 9 is a diagram illustrating a configuration example of depth data referred to by a 3D model generation unit according to a modification of the first embodiment of the present invention.
  • FIG. 11 is a diagram for describing depth, which is referred to by a 3D model generation unit according to a modification of the first embodiment of the present invention.
  • FIG. 9 is a block diagram illustrating a configuration of a reproducing unit included in the image processing device according to the second embodiment of the present invention. It is a block diagram showing the composition of the 3D data generation device concerning Embodiment 3 of the present invention.
  • FIG. 1 is a schematic diagram for explaining the outline of the first embodiment of the present invention.
  • the following (1) to (3) are executed as main steps performed by the image processing apparatus in the first embodiment.
  • the image processing apparatus acquires depth data composed of depths of different types.
  • the image processing device refers to the acquired depth data and generates data for extracting a specific type of depth.
  • the image processing apparatus generates a 3D model by extracting and using the depth type from the data configured in (2).
  • FIG. 2 is a block diagram illustrating a configuration of the display device 1 according to the present embodiment.
  • the display device 1 includes an image processing device 2 and a display unit 3.
  • the image processing device 2 includes an image processing unit 4 and a storage unit 5, and the image processing unit 4 includes a reception unit 6, an acquisition unit 7, a reproduction unit 10, a viewpoint depth combination unit 12, and a reproduction viewpoint image combination unit 13. It has.
  • the accepting unit 6 accepts a reproduction viewpoint (information about the reproduction viewpoint) from outside the image processing apparatus 2.
  • the acquisition unit 7 acquires 3D data including a depth data, which indicates a three-dimensional shape.
  • the depth data includes a plurality of input depths of different types and input depth related information represented by camera parameters.
  • the 3D data may additionally include image data to be captured.
  • image data in the specification of the present application indicates an image obtained by photographing a target from a specific viewpoint. Further, the image in the present specification includes a still image and a moving image. The type of the input depth will be described later.
  • the reproducing unit 10 includes the depth extracting unit 8 and the 3D model generating unit 9.
  • the depth extraction unit 8 receives the 3D data from the acquisition unit 7, and extracts a plurality of input depths and camera parameters for each time from the 3D data. The extracted depth for each time and camera parameters are output to the 3D model generation unit 9.
  • the 3D model generation unit 9 generates a 3D model with reference to at least one of a plurality of input depths of different types received from the depth extraction unit 8 and a camera parameter.
  • the 3D model is a model representing a target 3D shape, and is a model of a mesh expression as one mode.
  • a 3D model that does not include color information is also referred to as a colorless model.
  • the viewpoint depth synthesizing unit 12 refers to the reproduction viewpoint received by the reception unit 6 and the 3D model generated by the 3D model generation unit 9 and calculates a reproduction viewpoint depth that is a depth from the reproduction viewpoint to each part of the shooting target. Combine.
  • the playback viewpoint image synthesizing unit 13 refers to the playback viewpoint received by the reception unit 6, the image data acquired by the acquisition unit 7, and the playback viewpoint depth synthesized by the viewpoint depth synthesis unit 12, and performs shooting from the playback viewpoint.
  • a playback viewpoint image indicating the target is synthesized.
  • the display unit 3 displays the playback viewpoint image synthesized by the playback viewpoint image synthesis unit 13.
  • the storage unit 5 stores the 3D model generated by the 3D model generation unit 9.
  • FIG. 3 shows a photographed image, depth data, depth, and depth camera information for each frame.
  • the star mark in the photographed image is the photographing target, and the triangular marks C1 to C4 indicate the photographing device (camera) for photographing the photographing target and the photographing range.
  • the image composed of the depth data D1 and the image composed of D2 to D4 are the depth images acquired by the cameras C1 to C4 in the captured images, respectively.
  • the depth data includes the following information.
  • Depth image an image in which a depth value is assigned to each pixel, each time 0 to Nd sheets
  • Depth information Depth image configuration and additional information for each time Also, the depth information includes the following information.
  • Depth image number Depth partial image information
  • Depth partial image information includes the following information.
  • Depth partial image area position in the depth image
  • Position and orientation of the camera spatial position and orientation of the camera corresponding to the depth partial image
  • Depth type information The orientation of the camera indicates the direction in which the camera is facing, , A vector representing a camera direction in a specific coordinate system, or an angle of the camera direction with respect to a reference direction.
  • the depth type information includes the following information. -Main screen flag-View point group identification information-Rendering method-Projection type-Sampling time
  • Depth type information contains at least one of the main screen flag, viewpoint group identification information, rendering method, projection type, and sampling time. I just need.
  • the depth information is not limited to each time in frame units, but may be stored in sequence units or predetermined time interval units, and may be transmitted from an encoder that encodes an image to a decoder that decodes the image. Further, a configuration may be employed in which depth information received in units of a sequence and a predetermined time section is specified for each frame.
  • DD1 to D4 of the depth are the depths extracted from the depth image of the depth data, respectively.
  • the depth camera information C1 to C4 in FIG. 3 are information on the spatial position and attitude of the camera extracted from the depth data, and C1 to C4 correspond to the depths D1 to D4, respectively.
  • the depth data is configured by a depth data forming unit 44 included in a 3D data generation device 41 described below, and transmitted by the 3D data generation device 41 as 3D data including depth data.
  • the transmitted 3D data is acquired by the acquisition unit 7 of the image processing device 1.
  • a configuration example of the depth data will be described.
  • the depth data acquired by the acquisition unit 7 may be different for each frame unit.
  • 4A shows a configuration example of depth data
  • -NumDepthImage 2 Indicates the number of depth images included in the depth data. Here, it refers to one depth image including the depth D1 and one depth image including the depths D21, D22, D23, and D24, that is, two images in total.
  • -NumDepthPortions: 1 Indicates the number of depths that are assigned to DepthImageInfo [0] and are included in the depth image. Since only the depth D1 is included in the depth image, it is “1”.
  • -DepthPortionInfo [0]: Represents depth information of the depth (depth D1 in this case) included in the depth image, -Size: ⁇ x: 0, y: 0, w: 640, h: 480 ⁇ Indicates that an area in the depth image corresponding to the depth D1 is an area of w ⁇ h pixels with the coordinates (x, y) at the upper left.
  • -Pose Pose (R1, t1) Indicates a camera position and a posture, and is represented by a displacement t1 from the reference position and a rotation R1 from the reference posture.
  • PinHole (520, 520, 320, 240) Indicates that the projection type is projection by a pinhole camera model, and the numbers indicate camera internal parameters.
  • -primary_depth True Is a main screen flag. When the main screen flag is True, the depth is reflected on the main screen. When the flag is False, the depth image is not reflected on the main screen.
  • the main screen is a screen used preferentially in the application, and corresponds to, for example, a screen displayed on the display unit 3 of the display device 1 when there is no explicit instruction of the reproduction viewpoint from the user. .
  • -DepthImageInfo [1] Refers to a depth image including depths D21, D22, D23 and D24
  • the subsequent depth information is the same as the information of the depth image including D1, and thus the description is omitted.
  • the depth data acquired by the acquisition unit 7 includes a plurality of input depths of different types in association with each of a plurality of regions on the depth image.
  • the type of the input depth is distinguished by four rectangular areas on the depth image, and the depth data is configured so that the depth of the same type fits in the rectangular area on the depth image.
  • the type of the input depth is classified depending on, for example, the viewpoint of the camera, the direction in which the camera is facing, whether it is for generating a base model, or for generating a detailed model.
  • the depth data having a configuration in which a plurality of input depths of different types are associated with each of a plurality of regions on the depth image a depth of a specific type can be easily extracted for each region according to the purpose. Therefore, there is no need to perform the process of extracting all the depth partial images, and the processing amount is reduced.
  • the setting of the size and number of the plurality of regions is not particularly limited, but is preferably set for each unit from which the depth can be extracted from the encoded data.
  • a plurality of regions be set as rectangular regions and each region be set as a tile.
  • a depth partial image group can be extracted.
  • the processing data amount and processing time are reduced as compared with the case of decoding.
  • a plurality of regions may be slices in video encoding.
  • the 3D model generation unit 9 may derive the type of each input depth included in the depth data.
  • the type of each input depth is, for example, a type classified according to the viewpoint of the camera, the direction in which the camera is facing, whether it is for generating a base model or for generating a detailed model.
  • the unit 9 derives which type of depth is included in the depth data.
  • the type of the input depth included in the depth data can be determined, and the specific type of input depth can be used for 3D model generation.
  • the 3D model generation unit 9 may derive correspondence information indicating the correspondence between the type of the input depth and the area on the depth image. For example, when the depth data is configured so that the input depth of the same type fits in a rectangular area on the depth image, the correspondence information indicates which type of depth fits in which rectangular area.
  • FIG. 5 shows an example in which depth data is formed by a space.
  • the star mark in FIG. 5 is a photographing target, and the figure shown by a triangle is a camera that photographs the photographing target.
  • FIG. 5A shows an example of the structure of depth data in a case where the space is divided into four equal parts and depths close to the viewpoint of the camera are treated as the same group. For example, since the cameras C2a and C2b have close spatial positions and the viewpoints of the cameras are close, the depths D2a and D2b corresponding to the cameras C2a and C2b, respectively, are configured as the same depth group.
  • the 3D model generation unit 9 derives that the type of the input depth of the present example is a group of depths with close camera viewpoints, and the cameras C2a and C2b with close camera viewpoints have the depths D2a and C2a in the depth data area. It is derived that it corresponds to the area of D2b.
  • FIG. 5B is an example of the configuration of depth data in the case where depths in which the camera is facing are close are treated as the same group.
  • the cameras C1a and C1b have different shooting targets but face the same direction, so that the depths D1a and D1b corresponding to the cameras C1a and C1b, respectively, are configured as the same depth group.
  • FIG. 5C is a configuration example of depth data in a case where the depth includes two types of depths, that is, a depth for generating a base model and a depth for generating a detailed model, and the depth for generating a detailed model is treated as the same group. .
  • the depths D4a, D4b, and D4c corresponding to C4a, C4b, and C4c are treated as the same depth group.
  • the depth for generating a base model is a depth for generating an outline model of an imaging target
  • the depth for generating a detailed model is a depth for generating details of an imaging target as a 3D model. Only the missing shape information is supplemented.
  • the depth data acquired by the acquisition unit 7 is configured such that a plurality of input depths of different types do not change the correspondence between the type of the input depth and the area on the depth image in a predetermined time interval.
  • the depth data is configured so that the spatial configuration of the type of the input depth does not change in a predetermined time section.
  • the module is, for example, a decoder that decodes encoded data.
  • a depth image is decoded using a decoder that decodes encoded data in which random access is set at fixed intervals
  • the spatial configuration of the depth type does not change, the depth of the random access section corresponding to the depth type is not changed. Data can be selected and decoded.
  • the 3D model generation unit 9 may derive the type of each input depth included in the depth data, as in the above (depth data configuration example: spatial alignment).
  • the type of each input depth is, for example, a type classified according to the viewpoint of the camera, the direction in which the camera is facing, whether it is for generating a base model or for generating a detailed model.
  • the unit 9 derives which type of depth is included in the depth data.
  • the type of the input depth included in the depth data can be determined, and the specific type of input depth can be used for 3D model generation.
  • the 3D model generation unit 9 may derive correspondence information indicating the correspondence between the type of the input depth and the area on the depth image.
  • the correspondence information indicates which area on the depth image the input depth type corresponds to in a predetermined time section unit.
  • FIG. 6 shows an example in which depth data is constituted by time intervals.
  • FIG. 6A shows a spatial configuration of a depth type
  • FIG. 6B shows a configuration of depth data in a random access GOP (Group @ of @ Pictures) section.
  • GOP Group @ of @ Pictures
  • I pictures that can be randomly accessed and P pictures that cannot be randomly accessed are periodically arranged in a fixed time section.
  • the spatial configuration of the depth type is not changed from the randomly accessible I picture to the section to the next I picture.
  • the depth data is a depth image composed of the depth D1 corresponding to the camera C1 in FIG.
  • the depth data is composed of a depth image composed of the depth D1 and a depth image composed of the depth D4, and the depth data is updated.
  • the 3D model generation unit 9 derives that the type of the input depth in this example is a depth group in which the viewpoint of the camera is close, and from the first I picture, one of the second I pictures It is derived that up to the previous picture, the cameras C2a and C2b whose camera viewpoints are close correspond to the areas of the depths D2a and D2b in the area of the depth data.
  • Example of depth data configuration arrangement of depth information according to type
  • depth information is arranged in different places such as a sequence unit, a GOP unit, and a frame unit according to the type of depth. That is, the unit to be transmitted differs depending on the type of depth.
  • the arrangement method as an example, the depth information of the depth of the basic type is set in a long time section (for example, a sequence unit), and the depth information of the other types of depth is set in a short time section (for example, a frame unit). Be placed.
  • FIG. 7 shows an example in which depth information is arranged according to the type of depth.
  • the upper 3D data shown in FIG. 7 is depth data acquired from the 3D data generation device 41.
  • depth data depth information, base depth data, and detailed depth data are stored in different locations for each type. I have.
  • the lower 3D data (for base reproduction) shown in FIG. 7 is depth data for generating a base model, and is depth data obtained by extracting depth information and depth information in sequence units from the upper 3D data.
  • the depth information is arranged in different places such as the sequence unit, the GOP unit, and the frame unit according to the type of the depth, so that the base model depth is synthesized based on the sequence unit depth information, and 3D
  • the model generation unit 9 can generate an outline of the 3D model with a small processing amount. Therefore, even a playback terminal having low processing performance can play back the 3D model, and can play back the 3D model at high speed.
  • depth information applied to a long section is included in a system layer such as a content MPD (Media Presentation Presentation) corresponding to MPEG-DASH, and depth information applied to a short section is included in, for example, SEI (Supplemental Enhancement Information).
  • SEI Supplemental Enhancement Information
  • Such a configuration may be included in the information of the coding layer.
  • FIG. 8 shows a block diagram of the 3D model generation unit 9.
  • the 3D model generation unit 9 includes a projection unit 20 and a depth integration unit 21.
  • the depth and the depth type information are input to the projection unit 20.
  • the projection unit 20 converts each input depth into a 3D point group with reference to the depth type information, and outputs the 3D point group and the depth type information to the depth integration unit 21.
  • the depth integration unit 21 generates and outputs a 3D model at each time by integrating a plurality of 3D point groups input from the projection unit 20 with reference to the depth type information.
  • the 3D model is a model including at least target shape information, and is a model of a mesh expression having no color information (colorless model) as one mode. Specific processing performed by the projection unit 20 and the depth integration unit 21 will be described below.
  • FIG. 9 is a diagram for describing derivation of a 3D point cloud corresponding to depth and integration of depth.
  • the projection unit 20 executes the following for each pixel constituting the depth corresponding to the depth. Convert the pixel position (u, v) of the target pixel and the depth value recorded in the pixel into three-dimensional spatial coordinates (x, y, z) to derive a 3D spatial position. Convert the 3D space position in the camera coordinate system to the 3D space position in the global coordinate system using the camera posture direction corresponding to the depth image.
  • the depth integration unit 21 integrates the 3D point cloud using the depth type information in the following procedure.
  • TSDF Truncated ⁇ Signature ⁇ Distance ⁇ Function indicates the distance from the surface of the object.
  • the TSDF and weight of the voxel including the target 3D point are updated.
  • -Weight_sum weight_sum + weight
  • the depth type included in the depth data will be described.
  • the depth data of this example includes a main viewpoint depth, which is a depth corresponding to an important viewpoint position (main viewpoint) during 3D model reproduction, and other sub-viewpoint depths.
  • the important viewpoint position is, for example, a specified viewpoint position during 3D model reproduction or an initial viewpoint position.
  • the depth integration unit 21 processes the primary viewpoint depth in preference to the secondary viewpoint depth.
  • the depth integration unit 21 preferentially processes the main viewpoint depth over the sub viewpoint depth, thereby generating a 3D model with high quality when viewed from the vicinity of the main viewpoint with low delay. be able to.
  • the processing procedure of this example is as follows.
  • the depth integration unit 21 generates and presents a 3D model using only the main viewpoint depth.
  • the depth integration unit 21 generates a 3D model using the main viewpoint depth and the sub viewpoint depth, and replaces the generated 3D model with the presented 3D model.
  • the main viewpoint is the initial viewpoint
  • the range in which the viewpoint can move is limited. Therefore, even if a 3D model is generated only with the main viewpoint depth that is closely related to the 3D model viewed from the main viewpoint, the deterioration of the quality does not occur. small.
  • the depth integration unit 21 generates a 3D model by giving priority to the main viewpoint depth over the sub viewpoint depth.
  • Weights based on the viewpoint depth or the sub viewpoint depth are added, and a larger weight is set for the main viewpoint depth.
  • the identification information of the main viewpoint / sub-view depth is not explicitly transmitted, and the depth of the area including the upper left pixel of the first depth in the decoding order is regarded as the main viewpoint depth, and the other depths are regarded as the sub-view depth. Is also good.
  • the depth can be generated in a shorter decoding order to generate the 3D model with a smaller delay. can do.
  • the depth data of the present example includes a depth for generating a base model and a depth for generating a detailed model.
  • the base model generation depth is also referred to as base depth
  • the detailed model generation depth is also referred to as detailed depth.
  • the base depth data corresponds to a depth image captured from a fixed or continuously changing viewpoint position.
  • the detailed depth data may take different viewpoints and projection parameters at each time.
  • the base depth can be reproduced as a grayscale video, and the photographing target can be confirmed without integrating the 3D model.
  • the base depth data can be easily used for other purposes such as color image segmentation.
  • the lack of shape information can be supplemented with only the base depth, and the quality of the 3D model can be improved.
  • FIG. 10 shows a captured image for each frame and depth data when the depth data includes a base depth and a detailed depth.
  • the camera C1 is at a fixed position even when the frame changes, and the base depth D1 corresponding to the camera C1 is also fixed.
  • the number and position of the cameras other than the camera C1 change for each frame, and the detailed depths D2 to D6 corresponding to the cameras C2 to C6 other than the camera C1 change with the frame.
  • FIG. 11 is a block diagram illustrating a configuration of the 3D model generation unit 9 according to the present modification.
  • the 3D model generation unit 9 includes a detailed depth projection unit 30, a detailed depth integration unit 31, a base depth projection unit 32, and a base depth integration unit 33.
  • the base depth projection unit 32 converts the input base depth into a 3D point cloud with reference to the depth type information, and outputs the 3D point group to the base depth integration unit 33.
  • the base depth integration unit 33 generates a base model by integrating the input plurality of 3D point groups and depth type information, and outputs the base model to the detailed depth integration unit 31.
  • the detailed depth projection unit 30 converts the input detailed depth into a 3D point group with reference to the depth type information, and outputs the converted 3D point group to the detailed depth integrating unit 31.
  • the detailed depth integration unit 31 generates a 3D model by integrating the 3D point group input from the detailed depth projection unit 30, the depth type information, and the 3D point group input from the base depth integration unit. Output.
  • FIG. 12 is a diagram for explaining depth data when images are taken by two cameras having different resolutions, that is, depth ranges.
  • D1 is a depth with a sampling interval of 1 mm
  • D2 is a depth with a sampling interval of 4 mm.
  • D1 and D2 overlaps, it is possible to acquire the depth of the detailed shape of the photographing target, which cannot be acquired only by the camera corresponding to D2.
  • the 3D model generating unit 9 creates shape information of a wide area of the imaging target as a depth image having a depth value of a wide range, and generates a depth image having a wide range of depth values. Shape information can be created as a depth image of a narrow range. As a result, a 3D model that reproduces the shape outline and the shape details of the specific area can be generated.
  • the method using the base depth and the detailed depth described with reference to FIG. 11 and the method using a different depth range can be used in combination.
  • the base depth using a fixed wide depth value range, by using a variable narrow depth value range in the detailed depth, obtain the information of the target shape outline in the base depth,
  • the information of the shape details of the target can be acquired by the detail depth. That is, the entire 3D model can be expressed only with the base depth, and scalability of reproducing the shape details can be realized by adding the detailed depth.
  • the depth data of this example includes a depth to which the same time as that of the frame is added, and a depth to which a reference time different from that of the frame is added.
  • the depth given the same time as that of the frame is used as a deformation compensation depth for deforming the 3D model.
  • a depth to which a reference time different from that of the frame is added is used for generating a 3D model as a depth for constructing a reference model.
  • a depth at a time at which a 3D model can be generated with high accuracy is selected and deformed using the deformation compensation depth to generate a 3D model with few holes caused by occlusion. it can.
  • FIG. 13 is a diagram for explaining depth data including depth to which the same time as a frame is added and depth to which a reference time different from that of a frame is added in this example.
  • the depth D1 is used for deforming the 3D model
  • the depths D2 to D5 are used for generating the 3D model.
  • the depth data includes depths at different sampling times.
  • depth type sampling time (part 1)
  • the depth data includes a depth provided with the same time as the frame and a depth provided with a reference time different from the frame. is there.
  • the difference is that, in this example, the depth given the same time as the frame is used as the depth for the main viewpoint detail, and the depth given the reference time different from the frame is used as the base depth.
  • the base depth is used for base model construction in a frame at a time that matches the given time.
  • FIG. 14 is a diagram for explaining depth data including depth provided with the same time as the frame and depth provided with a reference time different from that of the frame in this example.
  • the depth data includes a depth created from a different projection.
  • the projection determines the correspondence between points in space and pixel positions of the camera. Conversely, when the projections are different, the points of the space corresponding to the pixels are different even if the camera position and the pixel position are the same.
  • the projection is determined by a combination of a plurality of camera parameters, and includes, for example, a camera angle of view, a resolution, a projection method (for example, a pinhole model, a cylindrical projection, etc.), a projection parameter (focal length, a camera optical axis center corresponding point on an image, Position).
  • the projection it is possible to control the range of a target that can be photographed with an image even at the same resolution. Accordingly, since the depth data includes depths created by different projections, information of necessary shape data can be expressed by a small number of depths according to the arrangement of the shooting target, so that the data amount of the depth data can be reduced. .
  • FIG. 15 shows depths created by a plurality of different projections in this example.
  • a mark indicates an imaging target, and there are two imaging targets.
  • the depth data of FIG. 15 includes a depth D3 corresponding to an image captured by a wide-angle camera (image captured by wide-angle projection) that shows the entire two imaging objects, and an image captured by a narrow-angle camera (images obtained by narrow-angle projection) that shows the respective imaging objects. (Depths D1 and D2) corresponding to captured images.
  • the depth data includes the depth of the wide-angle projection that shows the entire shooting target and the depth of the narrow-angle projection that shows the individual shooting targets. The positional relationship and the detailed shape of each photographing target can be reproduced simultaneously.
  • FIG. 16 is a block diagram illustrating the configuration of the playback unit 10 according to the present embodiment.
  • the reproducing unit 10 according to the present embodiment includes a depth extracting unit 8 and a 3D model generating unit 9 as in the first embodiment, but the depth extracting unit 8 includes, in addition to the 3D data, Is also input, and the 3D model generation unit 9 generates a 3D model with further reference to the user request.
  • the user request is, for example, as follows.
  • the reproducing unit 10 constructs a 3D model using only the base depth (base model construction) in accordance with a user request (viewpoint position), and constructs a 3D model using both the base depth and the detailed depth (detailed model construction). ) And switch.
  • base model construction may be applied when the viewpoint position is far from the imaging target
  • detailed model construction may be applied when the viewpoint position is near the imaging target.
  • the depth extraction unit 8 switches between the base model construction and the detailed model construction according to the user's viewpoint position and applies the switching between the base model construction and the detailed model construction. Can be. Further, the quality of the base model is lower than that of the detailed model, but it is effective when the viewpoint position of the user is far, since the quality degradation when the viewpoint image is synthesized is low. Conversely, when the viewpoint positions are close, a high-quality model can be reproduced by applying the detailed model construction.
  • the specific procedure of this example is as follows. -Deriving the distance between the viewpoint position specified by the user request and the position of the shooting target-Example of the position of the shooting target: -Median value or average value of the position of points in 3D space corresponding to the depth value of the main depth-Comparison of the distance between the model representative position and viewpoint position received separately, the position of the shooting target, and a predetermined threshold value of the distance If it is less than the threshold, build a detailed model; if it is more than the threshold, build a base model.
  • the viewpoint position requested by the user is a viewpoint position requested by the user in reproduction, and does not necessarily need to be the user viewpoint position at each time.
  • the user can set a viewpoint position at a predetermined time interval and set another viewpoint position as a viewpoint to be generated at each time.
  • the user request is a viewpoint position and a device performance request
  • the reproducing unit 10 selects a base depth and a detailed depth according to the user request and synthesizes a 3D model.
  • the reproducing unit 10 gives the highest priority to using the number of depths that satisfies the device performance requirements, and then selects and uses the depth in the order of the base depth and the depth closer to the viewpoint.
  • a high-quality 3D model can be constructed from the user's point of view within a range that the device performance satisfies.
  • Depth extraction unit 8 determines the number of depths or the number of depth pixels that can be processed based on device performance requirements.
  • the 3D model generation unit 9 constructs the 3D model. Construction
  • the proximity between the depth and the viewpoint is a distance between a representative position (average, median value, corresponding point position of the central pixel, etc.) of a point in the 3D space corresponding to the depth pixel and the viewpoint.
  • the priority may be determined using the optical axis direction of the camera corresponding to each depth as the priority of selection of the base depth and the detailed depth. Specifically, a vector having a small angle between the vector from the user viewpoint to the depth representative point and the camera optical axis vector (vector from the camera position) may be preferentially selected.
  • FIG. 17 is a block diagram illustrating a configuration of the 3D data generation device according to the present embodiment.
  • the 3D data generation device 41 includes an image acquisition unit 42, a depth image group recording unit 43, a depth data configuration unit 44, a user request processing unit 45, and a 3D data integration unit 46.
  • the image acquisition unit 42 acquires a plurality of depth images input from an imaging device such as a camera that captures an imaging target.
  • the image acquisition unit 42 outputs the input depth image to the depth image group recording unit 43.
  • the depth image group recording unit 43 records the depth image input from the image acquisition unit 42.
  • the recorded depth image is appropriately output to the depth data forming unit 44 according to a signal from the user request processing unit 45.
  • the user request processing unit 45 starts processing according to a user request. For example, the following process is performed by the depth data forming unit 44 and the 3D data integrating unit 46 for each reproduction time.
  • the depth data configuration unit 44 configures depth data including a plurality of depths of different types using at least one of the depth images recorded in the depth image group recording unit 43 with reference to the user request.
  • the 3D data integration unit 46 integrates the depth data and outputs it as 3D data. Note that the image acquisition unit 42 does not necessarily acquire the depth image for each user request, but acquires the necessary depth image in advance and acquires the depth image. A configuration in which the information is recorded in the group recording unit 43 may be used.
  • the depth data forming unit 44 selects the depth included in the 3D data generated according to the viewpoint position of the user, and forms the depth data. Specifically, when the distance between the photographing target and the user is large, the depth data forming unit 44 includes a large number of depths facing the user among the depths of the photographing target, and includes depths in other directions. Composes relatively little depth data.
  • the depth data forming unit 44 selects the depth in which direction to use as the depth forming the depth image according to the user's viewpoint position. It is possible to generate a 3D model in which the quality of a portion observed from the position periphery is high.
  • a viewpoint depth image is recorded.
  • the depth data forming unit 44 selects a depth according to the following a to c methods according to the distance between the user's viewpoint and the shooting target.
  • the main viewpoint depth is a depth corresponding to an important viewpoint position (main viewpoint) at the time of reproducing the 3D model
  • the sub viewpoint depth is a depth corresponding to other than the main viewpoint.
  • the distance between the user's viewpoint and the shooting target is less than 1 Main viewpoint depth: distance 1, depth in the nearest direction Secondary viewpoint depth: distance 4 between the user viewpoint and the object to be photographed is less than 3 Main viewpoint depth: distance 3, distance in the nearest direction Depth Secondary viewpoint depth: Depth in the nearest direction at distance 1 + Depth in the proximal direction at distance 3 c) Distance between the user viewpoint and the shooting target is 3 or more Primary viewpoint depth: Distance 5, depth in the nearest direction Viewing depth: depth in the nearest direction at distances 1 and 3 + depth in the proximity direction at distance 3 (control of transmission area)
  • the user is a content provider
  • the depth data configuration unit 44 configures the depth data by selecting the depth to be included in the 3D data according to the request of the content provider.
  • the depth data forming unit 44 selects a depth including 3D data in response to a request from the content provider, thereby excluding a depth including a specific area in the 3D model to be restored from the 3D data.
  • a 3D model in which the region is not reproduced can be constructed.
  • the depth data forming unit 44 increases the depth of the shooting target to which the viewer who views the reproduced 3D model is to pay attention, and reduces the depth of the other shooting targets, thereby maintaining the data amount and maintaining the data amount.
  • the target 3D model can be restored with high accuracy.
  • Examples of the specific area include, but are not limited to, an area that the content creator does not want the viewer to see, an area where only specific users such as confidential information can be viewed, and a user such as sexual and violence should be viewed There is an area that is determined not to be.
  • control block (3D model generation unit 9) of the image processing device 2 and the control block (particularly, the depth data configuration unit 44) of the 3D data generation device 41 are logic circuits (hardware) formed on an integrated circuit (IC chip) or the like. ) Or by software.
  • the image processing device 2 and the 3D data generation device 41 include a computer that executes instructions of a program that is software for realizing each function.
  • This computer includes, for example, at least one processor (control device) and at least one computer-readable recording medium storing the program. Then, in the computer, the object of the present invention is achieved by the processor reading the program from the recording medium and executing the program.
  • the processor for example, a CPU (Central Processing Unit) can be used.
  • the recording medium include “temporary tangible media” such as ROM (Read Only Memory), tapes, disks, cards, semiconductor memories, and programmable logic circuits. Further, a RAM (Random Access Memory) for expanding the program may be further provided.
  • the program may be supplied to the computer via an arbitrary transmission medium (a communication network, a broadcast wave, or the like) capable of transmitting the program.
  • a transmission medium a communication network, a broadcast wave, or the like
  • one embodiment of the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the program is embodied by electronic transmission.
  • the image processing device is an acquisition unit that acquires depth data including a plurality of input depths of different types, which are input depths indicating a three-dimensional shape of an imaging target, and an acquisition unit that acquires the depth data.
  • a 3D model generation unit that generates a 3D model by referring to at least one of the plurality of different input depths included in the depth data.
  • a plurality of input depths of different types are associated with each of a plurality of regions on a depth image. May be included.
  • the image processing apparatus is the image processing apparatus according to aspect 2, wherein the depth data acquired by the acquisition unit includes a plurality of input depths of different types in a predetermined time interval. , May be included so that the correspondence with the area on the depth image does not change.
  • the 3D model generation unit derives association information indicating association between the type of the input depth and an area on the depth image. Is also good.
  • the 3D model generation unit may derive a type of each input depth included in the depth data.
  • the image processing apparatus in any one of the aspects 1 to 5, wherein the 3D model generation unit converts each input depth included in the depth data into a 3D point group, A depth integration unit that generates each time 3D model from the 3D point group with reference to the type of the input depth may be provided.
  • the 3D model generation unit may generate a 3D model by further referring to a user request.
  • the 3D data generation device is a device that generates 3D data, and refers to an image acquisition unit that acquires a plurality of depth images from an imaging device, A depth data forming unit configured to form depth data including a plurality of depths of different types using at least one of the plurality of depth images acquired by the image acquiring unit.
  • the image processing apparatus may be realized by a computer.
  • the computer is operated as each unit (software element) included in the image processing apparatus, so that the image processing apparatus is provided to the computer.
  • the present invention also includes a control program for an image processing apparatus to be realized by a computer, and a computer-readable recording medium on which the program is recorded.
  • Image processing device 7 Acquisition unit 9 3D model generation unit 20 Projection unit 21 Depth integration unit 41 3D data generation device 42 Image acquisition unit 44 Depth data configuration unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Generation (AREA)

Abstract

種別が異なるデプスを含むデプスデータによる3Dモデル及び画像を生成し、再生することを目的とする。画像処理装置(2)は、撮影対象の3次元形状を示す入力デプスであって、種別の異なる複数の入力デプスを含むデプスデータを取得する取得部(7)と、上記取得部が取得したデプスデータに含まれる上記種別の異なる複数の入力デプスのうち少なくとも何れかを参照して、3Dモデルを生成する3Dモデル生成部(9)とを備える。

Description

画像処理装置、3Dデータ生成装置、制御プログラム及び記録媒体
 本発明の一態様は、異なる種別のデプスを含むデプスデータによる3Dモデルを生成する画像処理装置、表示装置、画像処理方法、制御プログラム及び記録媒体に関する。
 CGの分野では、入力デプスを統合することで3Dモデル(3次元モデル)構築するDynamicFusionという手法が検討されている。DynamicFusionの目的は、主に、撮影した入力デプスからリアルタイムでノイズ除去した3Dモデルを構築することである。DynamicFusionでは、センサから取得される入力デプスを3次元形状の変形を補償した上で共通の参照3Dモデルに統合する。これにより、低解像度及び高ノイズのデプスから精密な3Dモデルの生成が可能となる。
 また、特許文献1には、多視点カラー画像と、画素レベルで対応する多視点デプス画像とを入力することで任意視点の画像を出力する技術が開示されている。
日本国公開特許公報「特開2013-30898号公報」
 しかしながら、上述のような従来技術は、デプスデータを受信して3Dモデルを構築するシステムにおいて、利用されるデプスデータの種別が限定されており、撮影対象及びユーザの要求に合致した種別のデプスを用いてデプスデータが構築できないという問題がある。
 また、デプスデータが複数のデプスを含む場合であっても、デプス種別が再生装置側で容易に判別できず、3Dモデルの品質向上及びユーザの要求への適用に利用することが困難である。
 本発明は、上記の問題点に鑑みてなされたものであり、種別が異なるデプスを含むデプスデータによる3Dモデル及び画像の生成と再生を目的とする。
 上記の課題を解決するために、本発明の一態様に係る画像処理装置は、撮影対象の3次元形状を示す入力デプスであって、種別の異なる複数の入力デプスを含むデプスデータを取得する取得部と、上記取得部が取得したデプスデータに含まれる上記種別の異なる複数の入力デプスの少なくとも何れかを参照して、3Dモデルを生成する3Dモデル生成部とを備えている。
 上記の課題を解決するために、本発明の一態様に係る3Dデータ生成装置は、3Dデータを生成する装置であって、撮像機器から複数のデプス画像を取得する画像取得部と、入力されるユーザ要求を参照した上で、上記画像取得部が取得した上記複数のデプス画像のうち少なくとも1つを用いてデプスデータを構成するデプスデータ構成部とを備えている。
 本発明の一態様によれば、種別が異なるデプスを含むデプスデータによる3Dモデル及び画像を生成し、再生する。
本発明の実施形態1の概要を説明するための概略図である。 本発明の実施形態1に係る表示装置の構成を示すブロック図である。 本発明の実施形態1の概要を説明するための概略図である。 本発明の実施形態1のデプス情報を説明するための図である。 本発明の実施形態1に係る画像処理装置が処理する、デプスデータの構成例の図である。 本発明の実施形態1に係る画像処理装置が処理する、デプスデータの構成例の図である。 本発明の実施形態1に係る画像処理装置が処理する、デプスデータの構成例の図である。 本発明の実施形態1に係る3Dモデル生成部の構成を示すブロック図である。 本発明の実施形態1に係る3Dモデル生成部による、デプスに対応する3D点群の導出及びデプスの統合を説明するための図である。 本発明の実施形態1に係る3Dモデル生成部が参照する、デプスデータの構成例の図である。 本発明の実施形態1の変形例に係る3Dモデル生成部の構成を示すブロック図である。 本発明の実施形態1の変形例に係る3Dモデル生成部が参照する、デプスデータの構成例の図である。 本発明の実施形態1の変形例に係る3Dモデル生成部が参照する、デプスデータの構成例の図である。 本発明の実施形態1の変形例に係る3Dモデル生成部が参照する、デプスデータの構成例の図である。 本発明の実施形態1の変形例に係る3Dモデル生成部が参照する、デプスを説明するための図である。 本発明の実施形態2に係る画像処理装置が備える再生部の構成を示すブロック図である。 本発明の実施形態3に係る3Dデータ生成装置の構成を示すブロック図である。
 以下、本発明の実施形態について、詳細に説明する。
 <実施形態1>
 まず、本発明の実施形態1の概要について図1を参照して説明する。図1は、本発明の実施形態1の概要を説明するための概略図である。実施形態1において画像処理装置が行う主な工程としては、以下の(1)~(3)が実行される。
 (1)画像処理装置は、種別が異なるデプスから構成されるデプスデータを取得する。
 (2)画像処理装置は、取得したデプスデータを参照し、特定種別のデプスの抽出をするためのデータを生成する。
 (3)画像処理装置は、(2)で構成したデータからデプス種別を抽出し、利用することにより、3Dモデルを生成する。
 〔画像処理装置〕
 本実施形態に係る画像処理装置2について、図2を参照して詳細に説明する。図2は、本実施形態に係る表示装置1の構成を示すブロック図である。図2に示すように、表示装置1は、画像処理装置2及び表示部3を備えている。画像処理装置2は、画像処理部4及び記憶部5を備えており、画像処理部4は、受付部6、取得部7、再生部10、視点デプス合成部12、及び再生視点画像合成部13を備えている。
 受付部6は、画像処理装置2の外部から再生視点(再生視点に関する情報)を受け付ける。
 取得部7は、3次元形状を示す、デプスデータを含む3Dデータを取得する。デプスデータは、種別の異なる複数の入力デプス、および、カメラパラメータに代表される入力デプスの関連情報を含む。3Dデータは、撮影対象の画像データを追加で含んでいてもよい。なお、本願明細書における用語「画像データ」とは、特定の視点から対象を撮影した画像を示す。また、本願明細書における画像は、静止画像及び動画像を含む。入力デプスの種別については、後述する。
 再生部10は、デプス抽出部8及び3Dモデル生成部9を備える。
 デプス抽出部8は、取得部7から3Dデータを受け取り、3Dデータから時刻毎の複数の入力デプスと、カメラパラメータとをそれぞれ抽出する。抽出した、時刻毎のデプスと、カメラパラメータとは、3Dモデル生成部9に出力される。
 3Dモデル生成部9は、デプス抽出部8から受け取った種別の異なる複数の入力デプスのうち少なくとも何れかと、カメラパラメータとを参照して3Dモデルを生成する。ここで、3Dモデルとは、対象の3D形状を表すモデルであり、一形態としてメッシュ表現のモデルである。特に、色情報を含まない3Dモデルを無色モデルとも呼称する。
 視点デプス合成部12は、受付部6が受け付けた再生視点と、3Dモデル生成部9が生成した3Dモデルとを参照して、再生視点から撮影対象の各部分までのデプスである再生視点デプスを合成する。
 再生視点画像合成部13は、受付部6が受け付けた再生視点と、取得部7が取得した画像データと、視点デプス合成部12が合成した再生視点デプスとを参照して、再生視点からの撮影対象を示す再生視点画像を合成する。
 表示部3は、再生視点画像合成部13が合成した再生視点画像を表示する。
 記憶部5は、3Dモデル生成部9が生成した3Dモデルを記憶する。
 (画像処理方法)
 本実施形態に係る画像処理装置2による画像処理方法について、図3を参照して説明する。図3は、フレーム毎の撮影イメージ、デプスデータ、デプス及びデプスカメラ情報を示す。
 撮影イメージの☆マークは撮影対象であり、C1~C4の三角形マークは撮影対象を撮影するための撮像機器(カメラ)と撮影範囲を示している。フレームt=3において、デプスデータのD1から構成される画像、D2~D4から構成される画像は、それぞれ、撮影イメージにおけるカメラC1~C4が取得したデプス画像である。デプスデータには、以下の情報が含まれる。
・デプス画像:各画素にデプス値が割り当てられた画像、各時刻0~Nd枚
・デプス情報:時刻毎のデプス画像の構成及び付加情報
また、デプス情報には、以下の情報が含まれる。
・デプス画像枚数
・デプス部分画像情報
デプス部分画像情報には、以下の情報が含まれる。
・デプス部分画像領域:デプス画像内の位置
・カメラの位置及び姿勢:デプス部分画像に対応するカメラの空間位置及び姿勢
・デプス種別情報
カメラの姿勢とは、カメラの向いている方向を表し、例えば、特定の座標系におけるカメラ方向を表すベクトルや、基準方向に対するカメラ方向の角度により表現される。
デプス種別情報には以下の情報が含まれる。
・主画面フラグ
・視点グループ識別情報
・レンダリング方法
・プロジェクション種別
・サンプリング時刻
デプス種別情報には、主画面フラグ、視点グループ識別情報、レンダリング方法、プロジェクション種別及びサンプリング時刻のうち少なくとも1つが含まれていればよい。
 デプス情報は、フレーム単位で時刻毎に限らず、シーケンス単位又は所定の時間区間の単位に納められ、画像を符号化するエンコーダから画像を復号するデコーダへ送信される構成でもよい。また、シーケンス及び所定の時間区間単位で受信したデプス情報を、フレーム毎に指定する構成でもよい。
 デプスのD1~D4は、それぞれデプスデータのデプス画像から抽出したデプスである。
 また、図3のデプスカメラ情報C1~C4は、デプスデータから抽出した、カメラの空間位置及び姿勢の情報であり、C1~C4それぞれが、デプスのD1~D4と対応する。
 デプスデータは、後述する3Dデータ生成装置41が備えるデプスデータ構成部44によって構成され、3Dデータ生成装置41によって、デプスデータを含む3Dデータとして送信される。送信された3Dデータは、画像処理装置1の取得部7が取得する。以下に、デプスデータの構成例について記載する。
 (デプスデータ構成例:フレーム単位)
 取得部7が取得するデプスデータは、フレーム単位毎に異なっていてもよい。図4(a)は、デプスデータの構成例、図4(b)は、フレームt=3におけるデプス情報、図4(c)は、フレームt=5におけるデプス情報を示す。
 本例のデプスデータ構成について、図4(a)に示すt=3のときのデプスデータと、図4(b)のデプス情報とを参照して説明する。
‐NumDepthImage:2
は、デプスデータに含まれるデプス画像の枚数を示す。ここでは、デプスD1を含むデプス画像1枚と、デプスD21、D22、D23及びD24を含むデプス画像1枚の計2枚を指す。
‐DepthImageInfo[0]:
は、デプスD1を含むデプス画像を指し、
‐NumDepthPortions:1
は、DepthImageInfo[0]が割り当てられデプス画像に含まれるデプスの数を示す。デプス画像に含まれるのは、デプスD1のみであるため、「1」である。
‐DepthPortionInfo[0]:
は、デプス画像に含まれるデプス(ここではデプスD1)のデプス情報を表し、
‐size:{x:0,y:0,w:640,h:480}
は、デプスD1に相当するデプス画像中の領域が座標(x,y)を左上とするw×h画素の領域であることを示す。
‐pose:Pose(R1,t1)
は、カメラ位置、姿勢を示し、基準位置から変位t1、基準姿勢からの回転R1で表される。
‐projection:PinHole(520,520,320,240)
は、プロジェクション種別がピンホールカメラモデルによる投影であることを示し、数字は、カメラ内部パラメータを示す。ここで、カメラ内部パラメータは、fx=fy=520、cx=320、cy=240である。
-primary_depth:True
は、主画面フラグであり、主画面フラグがTrueである場合は、デプスが主画面に映り、Falseである場合は、デプス画像が主画面に映らないことを示す。ここで、主画面とは、アプリケーションにおいて優先的に使用される画面であり、例えば、ユーザからの明示的な再生視点の指示がない場合に表示装置1の表示部3が表示する画面に対応する。
 また、同様に、
‐DepthImageInfo[1]:
は、デプスD21、D22、D23及びD24を含むデプス画像を指し、
‐NumDepthPortions:4
は、DepthImageInfo[1]が割り当てられたデプス画像に、D21、D22、D23及びD24の4つのデプスが含まれるため「4」である。以降のデプス情報は、D1を含むデプス画像の情報と同様であるため説明を省略する。
 (デプスデータ構成例:空間アラインメント)
 取得部7が取得するデプスデータには、種別の異なる複数の入力デプスがデプス画像上の複数の領域の各々に対応付けて含まれている。例えば、入力デプスの種別は、デプス画像上の4つの矩形領域によって区別されており、同一種別のデプスが、デプス画像上の矩形領域に収まるようにデプスデータが構成される。入力デプスの種別は、例えば、カメラの視点、カメラが向く方向、ベースモデル生成用であるか、詳細モデル生成用であるかによって種別がわけられる。
 このように種別の異なる複数の入力デプスがデプス画像上の複数の領域の各々に対応づけられた構成のデプスデータを使用することにより、目的に応じて特定種別のデプスを領域毎に容易に抽出して処理することができるため、全てのデプス部分画像を抽出する処理が不要となり、処理量が軽減するという効果を奏する。
 複数の領域の大きさ及び数等の設定については、特に限定されないが、符号化されたデータからデプスを抽出できる単位毎に設定されることが好ましい。例えば、複数の領域を矩形領域とし、それぞれの領域をタイルとして設定されることが好ましい。このように矩形領域を映像符号化(例えばHEVC: High Efficient Video Coding)におけるタイルと一致させることで、当該タイルのみを復号することで、デプス部分画像群を抽出することができるため、画像全体を復号する場合に比べて処理データ量及び処理時間が軽減する。また、例えば、複数の領域を映像符号化におけるスライスとしてもよい。
 3Dモデル生成部9は、デプスデータに含まれる各入力デプスの種別を導出してもよい。
 各入力デプスの種別とは、上述したように、例えば、カメラの視点、カメラが向く方向、ベースモデル生成用であるか、詳細モデル生成用であるかによってわけられた種別であり、3Dモデル生成部9は、デプスデータに、どの種別のデプスが含まれるかを導出する。
 このような構成により、デプスデータに含まれる入力デプスの種別を判定することができ、特定種別の入力デプスを3Dモデル生成に利用することができる。
 また、3Dモデル生成部9は、入力デプスの種別と、デプス画像上の領域との対応付けを示す対応情報を導出してもよい。例えば、入力された同一種別のデプスが、デプス画像上の矩形領域に収まるようにデプスデータが構成される場合、対応情報は、どの種別のデプスが、どの矩形領域に収まっているかを示す。
 このような構成により、入力デプスの種別が、どのデプス画像上の領域に対応するか判断することができる。
 デプス種別とデプスデータ構成例について以下に説明する。図5は、空間によってデプスデータが構成される例を示す。図5の★マークは撮影対象であり、三角形で示される図形は撮影対象を撮影するカメラである。図5(a)は、空間を4等分した上で、カメラの視点が近いデプスを同一のグループとして扱う場合のデプスデータの構成例である。例えば、カメラC2a及びC2bは、空間位置が近く、カメラの視点が近いため、カメラC2a及びC2bそれぞれに対応するデプスD2a及びD2bは、同一のデプスのグループとして構成されている。3Dモデル生成部9は、本例の入力デプスの種別が、カメラの視点が近いデプスのグループであることを導出し、カメラ視点が近いカメラC2a及びC2bが、デプスデータの領域中のデプスD2a及びD2bの領域に対応することを導出する。
 図5(b)は、カメラの向いている方向が近いデプスを同一のグループとして扱う場合のデプスデータの構成例である。例えば、カメラC1a及びC1bは、撮影対象は異なるが、同じ方向を向いているため、カメラC1a及びC1bそれぞれに対応するデプスD1a及びD1bは、同一のデプスのグループとして構成されている。
 図5(c)は、デプスにベースモデル生成用デプス及び詳細モデル生成用デプスの2種類のデプスが含まれ、詳細モデル生成用のデプスを同一のグループとして扱う場合のデプスデータの構成例である。例えば、カメラC4a、C4b、及び、C4cは、全て詳細モデル生成用のデプスであるため、C4a、C4b、及び、C4cに対応するデプスD4a、D4b、及び、D4cは、同一のデプスのグループとして扱う。ベースモデル生成用デプスは、撮影対象の概形モデルを生成するためのデプスであり、詳細モデル生成用デプスは、撮影対象の細部を3Dモデルとして生成するためのデプスであり、ベースモデル生成用デプスのみでは不足する形状情報を補う。
 (デプスデータ構成例:時間アラインメント)
 取得部7が取得するデプスデータは、種別の異なる複数の入力デプスが、所定の時間区間において、当該入力デプスの種別と、デプス画像上の領域との対応が変化しないように構成されている。例えば、所定の時間区間で、入力デプスの種別の空間構成が変化しないようにデプスデータが構成されている。
 このような構成のデプスデータを使用することにより、時間区間単位でデプスデータを処理するモジュールを利用する場合に、特定のデプス種別のみに対応するデプスデータを選択して入力することができるため、当該モジュールにおける処理量が低減する。モジュールとは、例えば、符号化データを復号するデコーダである。
 例えば、ランダムアクセスが一定間隔に設定された符号化データを復号するデコーダを用いてデプス画像を復号する場合、デプス種別の空間構成が変化しないのであれば、デプス種別に対応するランダムアクセス区間のデプスデータを選択して復号することができる。
 3Dモデル生成部9は、上述した(デプスデータ構成例:空間アラインメント)と同様に、デプスデータに含まれる各入力デプスの種別を導出してもよい。
 各入力デプスの種別とは、上述したように、例えば、カメラの視点、カメラが向く方向、ベースモデル生成用であるか、詳細モデル生成用であるかによってわけられた種別であり、3Dモデル生成部9は、デプスデータに、どの種別のデプスが含まれるかを導出する。
 このような構成により、デプスデータに含まれる入力デプスの種別を判定することができ、特定種別の入力デプスを3Dモデル生成に利用することができる。
 また、3Dモデル生成部9は、入力デプスの種別と、デプス画像上の領域との対応付けを示す対応情報を導出してもよい。ここで、対応情報は、入力されたデプスの種別が、所定の時間区画単位におけるデプス画像上のどの領域に対応するかを示す。
 このような構成により、入力デプスの種別が、どのデプス画像上の領域に対応するか判断することができる。
 図6は、時間区間によってデプスデータが構成される例を示す。図6(a)は、デプス種別の空間構成を示し、図6(b)は、ランダムアクセスGOP(Group of Pictures)区間における、デプスデータの構成を示す。通常、画像を符号化する場合、一定の時間区画でランダムアクセス可能なIピクチャと、ランダムアクセスできないPピクチャとが周期的に並ぶ。本例では、ランダムアクセス可能なIピクチャから、次のIピクチャまでの区間までは、デプス種別の空間構成は変化させない。図6(b)の1つ目のIピクチャから、2つ目のIピクチャの1つ前のピクチャまでは、デプスデータは、図6(a)のカメラC1に対応するデプスD1からなるデプス画像と、カメラC2a及びC2bに対応するデプスD2a及びD2bからなるデプス画像とから構成される。2つ目のIピクチャからは、デプスデータは、デプスD1からなるデプス画像と、デプスD4からなるデプス画像とから構成され、デプスデータが更新される。また、3Dモデル生成部9は、本例の入力デプスの種別が、カメラの視点が近いデプスのグループであることを導出し、1つ目のIピクチャから、2つ目のIピクチャの1つ前のピクチャまでは、カメラ視点が近いカメラC2a及びC2bが、デプスデータの領域中のデプスD2a及びD2bの領域に対応することを導出する。
 (デプスデータ構成例:種別に応じたデプス情報の配置)
 取得部7が取得するデプスデータは、デプスの種別に応じてシーケンス単位、GOP単位及びフレーム単位等の異なる場所にデプス情報が配置される。すなわち、デプスの種別に応じて送信される単位が異なる。配置の方法としては、一例として、基本的な種別のデプスのデプス情報は長い時間区間(例えば、シーケンス単位)に、それ以外の種別のデプスのデプス情報は短い時間区間(例えば、フレーム単位)に配置される。図7は、デプスの種別に応じてデプス情報が配置される例を示す。
 図7に示す上部の3Dデータは、3Dデータ生成装置41から取得したデプスデータであり、該デプスデータには、デプス情報、ベースデプスデータ、及び詳細デプスデータが種別毎に異なる場所に格納されている。
 図7に示すように、基本的な種別のデプスであるベースモデル生成用デプス数及びカメラ姿勢は、シーケンス単位の情報として固定して配置される。また、詳細モデル生成用デプスの数とカメラ姿勢はフレーム毎に変更して配置されてもよい。すなわち、図7に示すように、フレームt=0におけるデプス情報、ベースデプスデータ及び詳細デプスデータは、フレームt=1におけるデプス情報、ベースデプスデータ及び詳細デプスデータとは異なる情報が格納されてもよい。
 また、図7に示す下部の3Dデータ(ベース再生用)は、ベースモデルを生成するためのデプスデータであり、上部の3Dデータからシーケンス単位のデプス情報及びデプス情報を抽出したデプスデータである。
 このように、デプスの種別に応じてシーケンス単位、GOP単位及びフレーム単位等の異なる場所にデプス情報が配置されることにより、シーケンス単位のデプス情報に基づいて、ベースモデル用デプスが合成され、3Dモデル生成部9が少ない処理量で3Dモデルの概形を生成することができる。従って、処理性能が低い再生端末でも3Dモデルを再生することができ、高速に3Dモデルを再生することができる。
 また、長区間に適用するデプス情報を、例えばMPEG-DASHに対応するコンテンツMPD(Media Presentation Description)のようなシステム層に含め、短区間に適用するデプス情報を、例えばSEI(Supplemental Enhancement Information)のような符号化層の情報に含める構成にしてもよい。このようにデプスデータが構成されることによって、システムレベルでベースモデル再生に必要な情報を抽出することができる。
 〔3Dモデル生成部〕
 図8は、3Dモデル生成部9のブロック図を示す。3Dモデル生成部9は、図8に示すように、プロジェクション部20と、デプス統合部21とを備える。プロジェクション部20には、デプスと、デプス種別情報とが入力される。プロジェクション部20は、入力される各デプスを、デプス種別情報を参照して3D点群に変換し、3D点群と、デプス種別情報とを、デプス統合部21に出力する。デプス統合部21は、プロジェクション部20より入力された複数の3D点群を、デプス種別情報を参照して統合することで、各時刻の3Dモデルを生成して出力する。ここで、3Dモデルとは、少なくとも対象の形状情報を含むモデルであり、一形態として色情報を持たないメッシュ表現のモデル(無色モデル)である。プロジェクション部20と、デプス統合部21とが行う具体的な処理については以下に記載する。
 (3D点群の導出手順及びデプス統合手順(その1))
 図9は、デプスに対応する3D点群の導出及びデプスの統合を説明するための図である。まず、プロジェクション部20では、デプスに対応デプスを構成する画素毎に以下を実行する。
・対象画素の画素位置(u、v)と、画素に記録されたデプス値を、3次元空間座標(x、y、z)に変換し、3D空間位置を導出する。
・デプス画像に対応するカメラ姿勢方向を用いてカメラ座標系における3D空間位置をグローバル座標系における3D空間位置に変換する。
 また、デプス統合部21では、以下に示す手順で、3D点群を、デプス種別情報を利用して統合する。
 (S1)空間を立方体であるボクセル単位に区切り、ボクセル単位のTSDF/weight_sumをゼロクリアする。TSDF:Truncated Signes Distance Functionは、物体の表面からの距離を示す。
 (S2)複数のデプスのうち、各デプスに対応する3点群毎に(S3)を実行する。
 (S3)対象3D点群に含まれる点(x、y、z)毎に(S4)を実行する。
 (S4)対象3D点群を含むボクセルのTSDF、及び、ウェイトを更新する。
‐weight = 1.0 * α * β
 ‐α:カメラ光軸と法線の角度差
  0 <= α <= 1、角度差が大きいほど小さな値
 ‐β:3D点と、ボクセル中心の法線とに垂直な面上の距離
  0 <= β <= 1、距離が近いほど大きい値
‐TSDF =TSDF + trunc(n・(pd-pv))*weight
 ‐n:対象3D点の法線
 ‐pd:対象3D点の空間位置
 ‐pv:ボクセル中心の位置
 ‐trunc():規定の距離によるクリップ
‐つまり、法線に沿った対象3D点から、ボクセル中心の距離に相当する値をTSDFに加算する。
‐weight_sum = weight_sum + weight
 (S5)各ボクセルのTSDFをweight_sumで除算する。
 (3D点群の導出手順及びデプス統合手順(その2))
 デプス統合部21が行うデプス統合手順の別の例を挙げる。例えば、以下の手順でデプス統合を行う。
 (S1)ボクセル単位のTSDF/weightをゼロクリアする。
 (S2)複数のデプスのうち、各デプスに対応する3点群毎に(S3)を実行する。
 (S3)対象3D点群に含まれる点(x、y、z)毎に(S4)を実行する。
 (S4)対象3D点を含むボクセルのTSDF、及び、ウェイトを更新する。
‐weight = 1.0 * α * β
‐TSDF = (TSDF * weight_sum + trunc(n・(pd-pv))*weight) / (weight_sum + weight)
‐weight_sum = weight_sum + weight
 (デプス種別:主視点/副視点デプス)
 デプスデータに含まれるデプス種別について説明する。本例のデプスデータは、3Dモデル再生時に重要な視点位置(主視点)に対応したデプスである主視点デプスと、それ以外の副視点デプスとを含む。重要な視点位置とは、例えば、3Dモデル再生時の規定視点位置、又は初期視点位置とする。また、本例において、デプス統合部21は、3Dモデル生成時に、主視点デプスを副視点デプスより優先して処理する。
 このように、デプス統合部21が、3Dモデル生成時に、主視点デプスを副視点デプスより優先して処理することで、主視点近傍から見た場合の品質が高い3Dモデルを低遅延で生成することができる。
 (処理手順の一例(その1))
 本例の処理手順は以下の通りである。
・デプス統合部21は、主視点デプスのみを用いて3Dモデルを生成して提示する。
・次に、デプス統合部21は、主視点デプス及び副視点デプスを用いて3Dモデルを生成し、提示した3Dモデルと置き換える。
 主視点が初期視点である場合に、視点が移動できる範囲は限定されているため、該主視点から見た3Dモデルと関係が深い主視点デプスのみで3Dモデルを生成しても品質の劣化は小さい。
 (処理手順の一例(その2))
・デプス統合部21は、主視点デプスを副視点デプスより優先して3Dモデルを生成する。
‐例えば、(3D点群の導出手順、及び、デプス統合手順(その1))及び(3D点群の導出手順、及び、デプス統合手順(その2))で記載した統合処理におけるweightに、主視点デプスか、副視点デプスかによる重みを追加し、主視点デプスの場合により大きな重みとする。
 このように、主視点デプスを優先することにより、主視点から見た場合に品質の高い3Dモデルを生成することができる。
 主視点/副視点デプスの識別情報を明示的に送らず、復号順で1枚目のデプスの左上画素を含む領域のデプスを主視点デプスとみなし、それ以外のデプスを副視点デプスとみなしてもよい。
 このように、主視点デプス及び副視点デプスの領域を予め決めておくことで、付加情報の読み出しが不要であり、かつ、復号順が早いデプスを使うことで、より小さい遅延で3Dモデルを生成することができる。
 (デプス種別:ベース/詳細デプス)
 本例のデプスデータは、ベースモデル生成用デプスと、詳細モデル生成用デプスとを含む。以下、ベースモデル生成用デプスをベースデプス、詳細モデル生成用デプスを詳細デプスとも称する。ベースデプスデータは、固定、又は連続的に変化する視点位置から撮影されたデプス画像に相当する。詳細デプスデータは、各時刻で異なる視点及びプロジェクションパラメータを取り得る。
 このようにデプスデータに、ベースデプスと、詳細デプスとが含まれることにより、ベースデプスをグレースケールのビデオとして再生し、3Dモデル統合を行うことなく撮影対象を確認できる。ベースデプスデータをカラー画像のセグメンテーション等の別の用途に容易に利用することができる。また、詳細デプスにより、ベースデプスのみでは、不足する形状情報を補い、3Dモデルの品質を向上することができる。
 図10は、デプスデータが、ベースデプスと、詳細デプスとを含む場合の、フレーム毎の撮影イメージと、デプスデータとを示す。図10の撮影イメージに示すように、カメラC1は、フレームが変わっても固定位置にあり、カメラC1に対応するベースデプスD1も固定されている。それに対して、カメラC1以外のカメラは、フレーム毎に数及び位置が変わり、カメラC1以外のカメラC2~C6に対応する詳細デプスD2~D6は、フレームと共に変化する。
 〔変形例〕
 3Dモデル生成部9の変形例について説明する。図11は、本変形例に係る3Dモデル生成部9の構成を示すブロック図である。図11に示すように、3Dモデル生成部9は、詳細デプスプロジェクション部30、詳細デプス統合部31、ベースデプスプロジェクション部32及びベースデプス統合部33を備える。
 ベースデプスプロジェクション部32は、入力されるベースデプスを、デプス種別情報を参照して3D点群に変換し、ベースデプス統合部33に出力する。
 ベースデプス統合部33は、入力された複数の3D点群と、デプス種別情報とを統合することで、ベースモデルを生成し、詳細デプス統合部31に出力する。
 詳細デプスプロジェクション部30は、入力される詳細デプスを、デプス種別情報を参照して3D点群に変換し、詳細デプス統合部31に出力する。
 詳細デプス統合部31は、詳細デプスプロジェクション部30から入力される3D点群と、デプス種別情報と、ベースデプス統合部から入力される3D点群とを統合することで、3Dモデルを生成して出力する。
 (デプス種別:デプスレンジ)
 本例では、デプスデータが、異なるデプスレンジを有するデプスを含む例について説明する。
 図12は、解像度、すなわち、デプスレンジが異なる2台のカメラによって撮影した場合のデプスデータを説明するための図である。図12に示すように、D1は、サンプリング間隔が1mmのデプスであり、D2は、サンプリング間隔が4mmのデプスである。D1及びD2に対応する2つのカメラの画角が重複する領域は、D2に対応するカメラのみでは取得できない、撮影対象の詳細な形状のデプスを取得することができる。
 このように、デプスデータが、異なるデプスレンジを有するデプスを含むことで、3Dモデル生成部9は、撮影対象の広域の形状情報を広いレンジのデプス値を有するデプス画像として作成し、狭域の形状情報を狭いレンジのデプス画像として作成することができる。これにより、形状概形、及び、特定領域の形状詳細を再現する3Dモデルを生成することができる。
 また、図11を参照して説明したベースデプスと詳細デプスを用いる方法と、異なるデプスレンジを用いる方法を組み合わせて使用することもできる。具体的には、ベースデプスにおいて、固定の広いデプス値のレンジを使用し、詳細デプスにおいて可変の狭いデプス値のレンジを使用することで、ベースデプスで対象の形状概形の情報を取得し、詳細デプスで対象の形状詳細の情報を取得することができる。すなわち、ベースデプスのみでも3Dモデル全体が表現でき、詳細デプスを追加することで形状詳細を再現するスケーラビリティが実現できる。
 (デプス種別:サンプリング時刻(その1))
 本例では、デプスデータが、異なるサンプリング時刻のデプスを含む例について説明する。本例のデプスデータは、フレームと同一の時刻が付与されたデプスと、フレームと異なる参照時刻が付与されたデプスとを含む。フレームと同一の時刻が付与されたデプスは、変形補償用デプスとして3Dモデルの変形に利用される。また、フレームと異なる参照時刻が付与されたデプスは、参照モデル構築用デプスとして3Dモデル生成に利用される。
 このように、3Dモデル生成用には、高精度に3Dモデルが生成可能な時刻のデプスを選択し、変形補償用デプスを用いて変形することで、オクルージョンに起因するホールが少ない3Dモデルが生成できる。
 図13は、本例における、フレームと同一の時刻が付与されたデプスと、フレームと異なる参照時刻が付与されたデプスとが含まれるデプスデータを説明するための図である。図13に示すように、フレームt=3におけるデプスD1は、フレームと同一の時刻(t=3)が付与されている。それに対して、デプスD2~5は、フレームと異なる参照時刻(t=1)が付与されている。ここで、デプスD1は、3Dモデルの変形に利用され、デプスD2~5は、3Dモデル生成に利用される。
 (デプス種別:サンプリング時刻(その2))
 本例では、デプスデータが、異なるサンプリング時刻のデプスを含む例について説明する。上述の(デプス種別:サンプリング時刻(その1))とは、デプスデータは、フレームと同一の時刻が付与されたデプスと、フレームと異なる参照時刻が付与されたデプスとを含む点では、同じである。異なるのは、本例では、フレームと同一の時刻が付与されたデプスを主視点詳細用デプスとして利用し、フレームと異なる参照時刻が付与されたデプスをベース用デプスとして利用する点である。ベース用デプスは、付与された時刻と一致する時刻のフレームにおいてベースモデル構築に利用される。
 このような構成により、帯域が制限されている場合であっても、モデル構築に必要な情報を分散して伝送することができる。また、情報を分散して伝送する場合であっても、主要な視点から見た3Dモデルの形状は高品質に維持することができる。
 図14は、本例における、フレームと同一の時刻が付与されたデプスと、フレームと異なる参照時刻が付与されたデプスとが含まれるデプスデータを説明するための図である。図14に示すように、フレームt=3におけるデプスD1は、フレームと同一の時刻(t=3)が付与されており、デプスD2及びD3にも、フレームと同一の時刻(t=3)が付与されている。それに対し、フレームt=4におけるデプスD1は、フレームと同一の時刻(t=4)が付与され、デプスD4及びD5には、フレームと異なる参照時刻(t=5)が付与されている。
 (デプス種別:プロジェクション)
 本例では、デプスデータが、異なるプロジェクションより作成されたデプスを含む例について説明する。プロジェクションにより、空間の点とカメラの画素位置との対応関係が決まる。逆に言えば、プロジェクションが異なる場合、カメラ位置と画素位置が同じであっても、画素に対応する空間の点は異なる。プロジェクションは、複数のカメラパラメータの組み合わせにより決まり、例えば、カメラの画角、解像度、投影方式(例えばピンホールモデル、円筒投影等)、投影パラメータ(焦点距離、画像上のカメラ光軸中心対応点の位置)等である。
 プロジェクションを適切に選択することで、同一の解像度であっても画像で撮影可能な対象の範囲を制御できる。したがってデプスデータが、異なるプロジェクションにより作成されたデプスを含むことにより、撮影の対象の配置に応じて、少ない枚数のデプスによって必要な形状データの情報を表現できるため、デプスデータのデータ量が削減できる。
 図15は、本例における、複数の異なるプロジェクションで作成されたデプスを示す。図15に示すように、☆マークは、撮影対象を示し、撮影対象は2つ存在する。図15のデプスデータには、2つの撮影対象全体を映す広角カメラによる撮影画像(広角プロジェクションによる撮影画像)に対応するデプスD3、それぞれの撮影対象を映す狭角カメラによる撮影画像(狭角プロジェクションによる撮影画像)に対応するデプスD1及びD2を含む。
 複数の撮影対象が、デプスデータ内に存在する場合、複数の撮影対象全体を映す広角プロジェクションのデプスと、個々の撮影対象を映す狭角プロジェクションのデプスをデプスデータに含むことで、撮影対象同士の位置関係と、個々の撮影対象の詳細な形状とを同時に再生することができる。
 <実施形態2>
 本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
 図16は、本実施形態に係る再生部10の構成を示すブロック図である。図16に示すように、本実施形態に係る再生部10は、実施形態1と同じく、デプス抽出部8及び3Dモデル生成部9を備えるが、デプス抽出部8には3Dデータに加え、ユーザ要求も入力され、3Dモデル生成部9は、ユーザ要求をさらに参照して3Dモデルを生成する。ユーザ要求とは、例えば以下に挙げるものである。
・視点位置、視点方向、移動方向
・再生品質(空間解像度、ホールの量、モデル精度、ノイズ量)
・受信データ最大ビットレート、最小ビットレート、平均ビットレート
・視聴者属性(性別、年齢、身長、視力等)
・処理性能(デプス画像枚数、デプス画素数、モデルメッシュ数等)
・端末属性(パソコン/モバイル、OS、CPU種別、GPU種別等)
 このように、3Dデータに加えて、ユーザ要求を利用してデプスデータからデプスを抽出することで、ユーザ要求に合わせた3Dモデルを生成することができる。
 以下に、デプス種別と、ユーザ要求との併用の具体的な例について説明する。
 (デプス種別とユーザ要求との併用:視点位置)
 本例において、再生部10は、ユーザ要求(視点位置)に応じてベースデプスのみを利用した3Dモデル構築(ベースモデル構築)と、ベースデプスと詳細デプスとを併用した3Dモデル構築(詳細モデル構築)とを切り替える。一例として、視点位置が撮影対象から遠い場合にベースモデル構築、視点位置が撮影対象から近い場合に詳細モデル構築を適用してもよい。
 このように、デプス抽出部8が、ユーザの視点位置によって、ベースモデル構築と、詳細モデル構築とを切り替えて適用することで、視点位置が対象から遠い場合には、再生処理用を低減することができる。また、詳細モデルに比べて、ベースモデルの品質は低いが、ユーザの視点位置が遠い場合には、視点画像を合成した場合の品質低下は低いため有効である。逆に視点位置が近い場合は、詳細モデル構築を適用することで、高品質のモデルを再生することができる。
 本例の具体的な手順は以下の通りである。
・ユーザ要求の指定する視点位置と、撮影対象の位置との距離を導出
 ‐撮影対象の位置の例:
  ‐主要デプスのデプス値が対応する3D空間中の点の位置の中央値又は平均値
  ‐別途受信するモデル代表位置
・視点位置と、撮影対象の位置との距離と、距離の所定閾値とを比較し、閾値未満の場合は詳細モデル構築、閾値以上の場合はベースモデル構築
 ‐閾値の例:
  ‐視点画像の解像度と、ベースデプスの解像度とから算出
  ‐別途受信又は規定の閾値を利用
 (ユーザ要求の視点位置)
 ユーザ要求の視点位置は、ユーザが再生において要求する視点位置であって、必ずしも各時刻におけるユーザ視点位置である必要はない。例えば、ユーザは、所定の時間間隔で視点位置を設定し、各時刻で生成する視点としては別の視点位置を設定することもできる。
・60fpsのデプスデータで1秒毎にユーザ要求によりベースモデル構築及び詳細モデル構築を選択する例
 t=60k(kは整数):t=60kの視点位置でベースモデル構築又は詳細モデル構築を選択し、3Dモデルを合成して視点画像を生成
 t=60k+1~60k+59:t=60kで選択されたモードで3Dモデルを生成し、視点画像を生成
 ベースデプスの代わりにレンジが広いデプスを用い、詳細デプスの代わりにレンジが狭いデプスを用いてもよい。
 (デプス種別とユーザ要求との併用:デバイス性能)
 本例において、ユーザ要求は、視点位置とデバイス性能要求とであり、再生部10は、ユーザ要求に応じてベースデプスと詳細デプスとを選択して3Dモデルを合成する。一例として、再生部10は、デバイス性能要求が満たす枚数のデプスを使用することを最優先とし、次にベースデプス、視点に近いデプスの順でデプスを選択し使用する。
 このような構成により、デバイス性能が満たす範囲内で、ユーザ視点から見て品質の高い3Dモデルを構築することができる。
 本例において再生部10が行う具体的な手順を以下に示す。
・デプス抽出部8が、デバイス性能要求に基づいて、処理可能なデプス枚数又はデプス画素数を決定
・デプス選択
 ‐ベースデプスを視点に近い順に選択し、デプス枚数又はデプス画素数を越えた時点で選択を終了
 ‐詳細デプスを視点に近い順に選択、デプス枚数又はデプス画素数を超えた時点で選択を終了
・3Dモデル生成部9が、3Dモデル構築
 ‐選択されたデプスを統合して3Dモデルを構築
ここで、デプスと視点の近さとは、デプス画素に対応する3D空間の点の代表位置(平均、中央値、中央画素の対応点位置等)と視点との距離である。
 ベースデプス及び詳細デプスの選択の優先度として、各デプスに対応するカメラの光軸方向を利用して、優先度を決定してもよい。具体的には、ユーザ視点からデプス代表点へのベクトルと、カメラ光軸ベクトル(カメラ位置からのベクトル)の角度が小さいものを優先的に選択すればよい。
 <実施形態3>
 〔3Dデータ生成装置〕
 本実施形態に係る3Dデータ生成装置について説明する。図17は、本実施形態に係る3Dデータ生成装置の構成を示すブロック図である。図17に示すように、3Dデータ生成装置41は、画像取得部42、デプス画像群記録部43、デプスデータ構成部44、ユーザ要求処理部45及び3Dデータ統合部46を備える。
 画像取得部42は、撮影対象を撮影するカメラ等、撮像機器から入力される複数のデプス画像を取得する。画像取得部42は、入力されたデプス画像をデプス画像群記録部43に出力する。
 デプス画像群記録部43は、画像取得部42から入力されたデプス画像を記録する。記録されたデプス画像は、ユーザ要求処理部45からの信号に従い、適宜デプスデータ構成部44へ出力される。
 ユーザ要求処理部45は、ユーザの要求に従い処理を開始する。例えば、再生時刻毎に以下の処理をデプスデータ構成部44及び3Dデータ統合部46に実行させる。
・デプスデータ構成部44は、ユーザ要求を参照した上で、デプス画像群記録部43に記録されているデプス画像のうち少なくとも1つを用いて、種別の異なる複数のデプスを含むデプスデータを構成
・3Dデータ統合部46は、デプスデータを統合して3Dデータとして出力
 なお、画像取得部42は必ずしもユーザ要求毎にデプス画像を取得する必要はなく、事前に必要なデプス画像を取得しデプス画像群記録部43に記録しておく構成でもよい。
 (ユーザ要求に応じたデプスデータ生成:ユーザ視点)
 本例において、デプスデータ構成部44は、ユーザの視点位置に応じて生成する3Dデータに含まれるデプスを選択し、デプスデータを構成する。具体的には、デプスデータ構成部44は、撮影対象と、ユーザとの距離が離れている場合、撮影対象のデプスの内、ユーザの方向を向いたデプスを多く含み、それ以外の方向のデプスが相対的に少ないデプスデータを構成する。
 このように、デプスデータ構成部44が、ユーザ視点位置に応じて、どの方向のデプスを、デプス画像を構成するデプスとして用いるか選択することで、データ量の増加を抑制しつつ、ユーザの視点位置周辺から観察される部分の品質が高い3Dモデルを生成することができる。
 デプスデータ構成部44がデプスデータを構成する具体例について説明する。
・デプス画像群記録部43には、撮影対象を中心に、水平12方向(θ=30度×k)、各方向について撮影対象との距離において3段階(d=1、3、5)で多視点デプス画像が記録されている。
・デプスデータ構成部44は、ユーザ視点と、撮影対象との距離に応じて、以下のa~c方法でデプスを選択する。ここで、主視点デプスは、3Dモデル再生時に重要な視点位置(主視点)に対応したデプスであり、副視点デプスは、主視点以外に対応するデプスである。
a)ユーザ視点と、撮影対象との距離が1未満   
 主視点デプス:距離1、最近傍方向のデプス
 副視点デプス:距離1で近傍方向のデプス4枚
b)ユーザ視点と、撮影対象との距離が3未満
 主視点デプス:距離3、最近傍方向のデプス
 副視点デプス:距離1で最近傍方向のデプス+距離3で近傍方向のデプス3枚
c)ユーザ視点と、撮影対象との距離が3以上
 主視点デプス:距離5、最近傍方向のデプス
 副視点デプス:距離1、3で最近傍方向のデプス+距離3で近傍方向のデプス2枚
 (伝送する領域の制御)
 本例では、ユーザはコンテンツ提供者であり、デプスデータ構成部44は、コンテンツ提供者の要求に応じて3Dデータに含めるデプスを選択してデプスデータを構成する。
 このように、デプスデータ構成部44が、コンテンツ提供者の要求に応じて3Dデータを含むデプスを選択することで、復元する3Dモデル中の特定の領域が含まれるデプスを3Dデータから除外することで、該領域が再現されない3Dモデルを構築できる。
 デプスデータ構成部44は、再生される3Dモデルを視聴する視聴者が注目すべき撮影対象のデプスを増やし、それ以外の撮影対象のデプスを減らすことで、データ量を維持したまま、注目したい撮影対象の3Dモデルを高精度に復元することができる。
 特定領域の例としては、限定されないが、例えば、コンテンツ作成側が視聴者に見られたくない領域、機密情報等の特定ユーザのみ閲覧が許されている領域、セクシャル、バイオレンス等のユーザが閲覧すべきでないと判断される領域が挙げられる。
 〔ソフトウェアによる実現例〕
 画像処理装置2の制御ブロック(3Dモデル生成部9)及び3Dデータ生成装置41の制御ブロック(特に、デプスデータ構成部44)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、画像処理装置2及び3Dデータ生成装置41は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも1つのプロセッサ(制御装置)を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも1つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明の態様1に係る画像処理装置は、撮影対象の3次元形状を示す入力デプスであって、種別の異なる複数の入力デプスを含むデプスデータを取得する取得部と、上記取得部が取得したデプスデータに含まれる上記種別の異なる複数の入力デプスのうち少なくとも何れかを参照して、3Dモデルを生成する3Dモデル生成部とを備えている。
 本発明の態様2に係る画像処理装置は、上記態様1において、上記取得部が取得するデプスデータには、上記種別の異なる複数の入力デプスが、デプス画像上の複数の領域の各々に対応付けて含まれていてもよい。
 本発明の態様3に係る画像処理装置は、上記態様2において、上記取得部が取得するデプスデータには、上記種別の異なる複数の入力デプスが、所定の時間区間において、当該入力デプスの種別と、上記デプス画像上の領域との対応が変化しないように含まれていてもよい。
 本発明の態様4に係る画像処理装置は、上記態様2又は3において、3Dモデル生成部が、上記入力デプスの種別と、上記デプス画像上の領域との対応付けを示す対応情報を導出してもよい。
 本発明の態様5に係る画像処理装置は、上記態様1~4の何れかにおいて、3Dモデル生成部が、上記デプスデータに含まれる各入力デプスの種別を導出してもよい。
 本発明の態様6に係る画像処理装置は、上記態様1~5の何れかにおいて、上記3Dモデル生成部が、記デプスデータに含まれる各入力デプスを3D点群に変換するプロジェクション部と、上記入力デプスの種別を参照して、上記3D点群から各時刻3Dモデルを生成するデプス統合部とを備えていてもよい。
 本発明の態様7に係る画像処理装置は、上記態様1~6の何れかにおいて、上記3Dモデル生成部が、ユーザ要求をさらに参照して、3Dモデルを生成してもよい。
 本発明の態様8に係る3Dデータ生成装置は、3Dデータを生成する装置であって、撮像機器から複数のデプス画像を取得する画像取得部と、入力されるユーザ要求を参照した上で、上記画像取得部が取得した上記複数のデプス画像のうち少なくとも1つを用いて、種別の異なる複数のデプスを含むデプスデータを構成するデプスデータ構成部とを備える。
 本発明の各態様に係る画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記画像処理装置が備える各部(ソフトウェア要素)として動作させることにより上記画像処理装置をコンピュータにて実現させる画像処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
(関連出願の相互参照)
 本出願は、2018年8月10日に出願された日本国特許出願:特願2018-151847に対して優先権の利益を主張するものであり、それを参照することにより、その内容の全てが本書に含まれる。
 2  画像処理装置
 7  取得部
 9  3Dモデル生成部
 20 プロジェクション部
 21 デプス統合部
 41 3Dデータ生成装置
 42 画像取得部
 44 デプスデータ構成部

Claims (10)

  1.  撮影対象の3次元形状を示す入力デプスであって、種別の異なる複数の入力デプスを含むデプスデータを取得する取得部と、
     上記取得部が取得したデプスデータに含まれる上記種別の異なる複数の入力デプスのうち少なくとも何れかを参照して、3Dモデルを生成する3Dモデル生成部と
    を備えていることを特徴とする画像処理装置。
  2.  上記取得部が取得するデプスデータには、上記種別の異なる複数の入力デプスが、デプス画像上の複数の領域の各々に対応付けて含まれている
    ことを特徴とする請求項1に記載の画像処理装置。
  3.  上記取得部が取得するデプスデータには、上記種別の異なる複数の入力デプスが、所定の時間区間において、当該入力デプスの種別と、上記デプス画像上の領域との対応が変化しないように含まれている
    ことを特徴とする請求項2に記載の画像処理装置。
  4.  上記3Dモデル生成部は、
      上記入力デプスの種別と、上記デプス画像上の領域との対応付けを示す対応情報を導出する
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  5.  上記3Dモデル生成部は、
      上記デプスデータに含まれる各入力デプスの種別を導出することを特徴とする請求項1から4の何れか1項に記載の画像処理装置。
  6.  上記3Dモデル生成部は、
      上記デプスデータに含まれる各入力デプスを3D点群に変換するプロジェクション部と、
      上記入力デプスの種別を参照して、上記3D点群から各時刻の3Dモデルを生成するデプス統合部と
    を備えていることを特徴とする請求項1~5の何れか1項に記載の画像処理装置。
  7.  上記3Dモデル生成部は、
      ユーザ要求をさらに参照して、3Dモデルを生成することを特徴とする請求項1~6の何れか1項に記載の画像処理装置。
  8.  3Dデータを生成する装置であって、
     撮像機器から複数のデプス画像を取得する画像取得部と、
     入力されるユーザ要求を参照した上で、上記画像取得部が取得した上記複数のデプス画像のうち少なくとも1つを用いて、種別の異なる複数のデプスを含むデプスデータを構成するデプスデータ構成部と
    を備える3Dデータ生成装置。
  9.  請求項1に記載の画像処理装置としてコンピュータを機能させるための制御プログラムであって、上記3Dモデル生成部としてコンピュータを機能させるための制御プログラム。
  10.  請求項9に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2019/031151 2018-08-10 2019-08-07 画像処理装置、3dデータ生成装置、制御プログラム及び記録媒体 WO2020032113A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/266,170 US20210304494A1 (en) 2018-08-10 2019-08-07 Image processing apparatus, 3d data generation apparatus, control program, and recording medium
JP2020535842A JPWO2020032113A1 (ja) 2018-08-10 2019-08-07 画像処理装置、3dデータ生成装置、制御プログラム及び記録媒体
CN201980053488.5A CN112567431A (zh) 2018-08-10 2019-08-07 图像处理装置、3d数据生成装置、控制程序以及记录介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018151487 2018-08-10
JP2018-151487 2018-08-10

Publications (1)

Publication Number Publication Date
WO2020032113A1 true WO2020032113A1 (ja) 2020-02-13

Family

ID=69413550

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/031151 WO2020032113A1 (ja) 2018-08-10 2019-08-07 画像処理装置、3dデータ生成装置、制御プログラム及び記録媒体

Country Status (4)

Country Link
US (1) US20210304494A1 (ja)
JP (1) JPWO2020032113A1 (ja)
CN (1) CN112567431A (ja)
WO (1) WO2020032113A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11450018B1 (en) * 2019-12-24 2022-09-20 X Development Llc Fusing multiple depth sensing modalities
CN114648614B (zh) * 2022-05-24 2022-07-26 四川中绳矩阵技术发展有限公司 一种目标对象的三维重现方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018074252A1 (ja) * 2016-10-19 2018-04-26 ソニー株式会社 画像処理装置および画像処理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018074252A1 (ja) * 2016-10-19 2018-04-26 ソニー株式会社 画像処理装置および画像処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MOEZZI, SAIED ET AL., VIRTUAL VIEW GENERATION FOR 3D DIGITAL VIDEO, vol. 4, January 1997 (1997-01-01), pages 18 - 26, XP000685696, Retrieved from the Internet <URL:https://pdfssemanticscholar.org/cf04/ff2c85f0bafe0a75b60a6a7815b9c2fbff2d.pdf> [retrieved on 20191010] *
SAKURADA, KEN, DYNAMICFUSION: RECONSTRUCTION AND TRACKING OF NON-RIGID SCENES IN REAL-TIME, 23 June 2015 (2015-06-23), pages 1 - 62, XP032793463, Retrieved from the Internet <URL:https://www.slideshare.net/KenSakurada/dynamicfusion-reconstruction-and-tracking-of-nonrigid-scenes-in-realtime> [retrieved on 20191010] *

Also Published As

Publication number Publication date
US20210304494A1 (en) 2021-09-30
CN112567431A (zh) 2021-03-26
JPWO2020032113A1 (ja) 2021-08-12

Similar Documents

Publication Publication Date Title
JP6021541B2 (ja) 画像処理装置及び方法
KR101340911B1 (ko) 다중 뷰들의 효율적인 인코딩 방법
WO2020162542A1 (ja) 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、および、三次元データ復号装置
CN110100435B9 (zh) 生成装置、识别信息生成方法、再现装置和图像再现方法
JP2017532847A (ja) 立体録画及び再生
KR20170132098A (ko) 레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림
JP7218826B2 (ja) 再生装置および画像生成方法
JP7243631B2 (ja) 再生装置および方法、並びに、生成装置および方法
KR101933037B1 (ko) 360도 동영상에서의 가상현실 재생 장치
WO2019124248A1 (ja) 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法
KR102308604B1 (ko) 레거시 및 몰입형 렌더링 디바이스들에 대한 몰입형 비디오를 포맷하는 방법, 장치 및 스트림
KR20180047877A (ko) 영상 제공 서버, 영상 제공 방법 및 사용자 단말
WO2020032113A1 (ja) 画像処理装置、3dデータ生成装置、制御プログラム及び記録媒体
JP2013223008A (ja) 画像処理装置及び方法
WO2019008222A1 (en) METHOD AND APPARATUS FOR ENCODING MULTIMEDIA CONTENT
KR20070010306A (ko) 촬영장치 및 깊이정보를 포함하는 영상의 생성방법
JPWO2018186287A1 (ja) 映像データ生成装置、映像再生装置、映像データ生成方法、制御プログラム、及び記録媒体
JP4815004B2 (ja) 多視点画像符号化装置
Abbas et al. A novel projection for omni-directional video
WO2019026183A1 (ja) 画像生成装置および画像生成方法
JP7365185B2 (ja) 画像データ伝送方法、コンテンツ処理装置、ヘッドマウントディスプレイ、中継装置、および、コンテンツ処理システム
KR101883981B1 (ko) 가상 현실 동영상 제공 장치 및 제공 방법
WO2019008233A1 (en) METHOD AND APPARATUS FOR ENCODING MULTIMEDIA CONTENT
KR102658474B1 (ko) 가상 시점 합성을 위한 영상 부호화/복호화 방법 및 장치
WO2024053371A1 (ja) 情報処理システム、および情報処理システムの作動方法、並びにプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19848025

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020535842

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19848025

Country of ref document: EP

Kind code of ref document: A1