WO2020195767A1 - 3dモデル送信装置、及び、3dモデル受信装置 - Google Patents

3dモデル送信装置、及び、3dモデル受信装置 Download PDF

Info

Publication number
WO2020195767A1
WO2020195767A1 PCT/JP2020/010181 JP2020010181W WO2020195767A1 WO 2020195767 A1 WO2020195767 A1 WO 2020195767A1 JP 2020010181 W JP2020010181 W JP 2020010181W WO 2020195767 A1 WO2020195767 A1 WO 2020195767A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
model
viewpoint
rgbd
depth
Prior art date
Application number
PCT/JP2020/010181
Other languages
English (en)
French (fr)
Inventor
山本 智幸
恭平 池田
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Publication of WO2020195767A1 publication Critical patent/WO2020195767A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • One aspect of the present invention relates to a 3D model transmitter and a 3D model receiver.
  • the present application claims priority based on Japanese Patent Application No. 2019-57010 filed in Japan on March 25, 2019, the contents of which are incorporated herein by reference.
  • AR Augmented Reality
  • VR Virtual Reality
  • KinectFusion a technology based on a technology called KinectFusion that integrates depth images to build a 3D model is being studied.
  • KinectFusion you can build a precise 3D model from low-resolution depth images in real time.
  • the conventional technology has not realized 3D model transmission that satisfies the above-mentioned requirements.
  • One aspect of the present invention has been made in view of the above problems, and realizes a 3D model transmission system that satisfies the requirements for transmission and reproduction of a 3D model.
  • a virtual imaging device and a 3D model playback device for configuring such a 3D model transmission system will be realized.
  • the 3D model transmission device includes the following means.
  • a virtual shooting means for generating an RGBD image and metadata representing a source model, a video encoding means for encoding each image included in the RGBD image to generate an RGBD stream, and a video encoding means for accumulating the RGBD stream according to a request.
  • the RGBD image is a 3D model transmission means including a stream storage means for outputting the data, and is characterized in that the RGBD image includes a viewpoint-independent color image, a viewpoint-independent depth image, and a viewpoint-dependent color image. 3D model transmission means.
  • the 3D model receiving device is provided with the following means.
  • a stream receiving means that selectively receives an RGBD stream based on the user's viewpoint, a video decoding means that decodes the RGBD stream to derive an RGBD image, and a 3D model reproduction that generates and outputs a reproduction model based on the RGBD image.
  • a 3D model receiving means including means, wherein the RGBD image is composed of a viewpoint-independent color image, a viewpoint-independent depth image, and a viewpoint-dependent color image. ..
  • a high-quality 3D model while suppressing the amount of transmission data by selectively transmitting or receiving a viewpoint-independent color image, a viewpoint-independent depth image, and a viewpoint-dependent color image. Can be transmitted.
  • the 3D model transmission system is realized by the 3D model transmission device 100 and the 3D model reception device 200.
  • the 3D model transmitter 100 is placed on the server, and the 3D model receiver 200 is provided as a part of a client (for example, HMD: Head Mount Display) used by the user.
  • HMD Head Mount Display
  • the configuration of the 3D model transmission device 100 according to the present embodiment will be described with reference to FIG.
  • the 3D model transmitter 100 includes a virtual shooting unit 1, a video encoder 3, and an adaptive stream storage unit 4.
  • the 3D model transmitter 100 generates and stores an RGBD stream composed of an RGBD image (color image and depth image) from the input 3D model (source model).
  • the accumulated RGBD stream is selectively output in response to a request from the client 3D model receiver.
  • the virtual shooting unit 1 generates an RGBD image based on the input source model and outputs it.
  • the source model is data that expresses an object such as a person or an object in a three-dimensional space, and includes information on shape and color.
  • a target shape is a mesh
  • a color is a texture associated with a vertex, for example, a 3D model consisting of a vertex or a mesh.
  • the scope of the present invention is not limited to this, and a source model in another expression format may be input.
  • the detailed processing of the virtual shooting unit 1 will be described later.
  • the structure of the RGBD image is shown in FIG.
  • An RGBD image is composed of one or more color images and one or more depth images.
  • the RGBD image is composed of a viewpoint-independent RGBD image and a viewpoint-dependent RGB image.
  • the viewpoint-independent RGBD image is further composed of a viewpoint-independent color image and a viewpoint-independent depth image.
  • the viewpoint-dependent RGB image is composed of a viewpoint-dependent color image corresponding to each of the default K viewpoints.
  • the viewpoint-dependent color image corresponding to the viewpoint k is called a viewpoint-dependent color image k.
  • the video encoder 3 encodes and compresses each image included in the RGBD image.
  • HEVC High Efficiency Video Coding
  • a viewpoint-dependent RGBD stream is generated using the encoded image as a component.
  • the viewpoint-dependent RGBD stream is generated for each of the above-mentioned default viewpoints, and the stream corresponding to the viewpoint k is called a viewpoint-dependent RGBD stream k.
  • the stream storage unit 4 holds the viewpoint-dependent RGBD stream. It also outputs an appropriate viewpoint-dependent RGBD stream upon request.
  • a viewpoint-dependent RGBD stream composed of coded data of a viewpoint-independent RGBD image and a viewpoint-dependent RGB image is generated from an input source model, and a viewpoint-dependent RGBD stream is generated according to a user's request. Can be supplied.
  • viewpoint-dependent RGBD stream is composed of the viewpoint-independent RGBD image and the viewpoint-dependent RGB image, a constant image quality can be maintained by using the viewpoint-independent RGBD image even at the switching timing.
  • the configuration of the 3D model receiving device 200 according to the present embodiment will be described with reference to FIG.
  • the 3D model receiving device 200 includes a stream receiving unit 5, a video decoder 6, and a 3D model reproducing unit 2.
  • the 3D model receiver 200 selects and receives an appropriate RGBD stream based on the user's viewpoint input for each time. Furthermore, the received RGBD stream is reproduced to generate a 3D model at each time and output as a reproduction model.
  • the stream receiving unit 5 determines which RGBD stream is to be received based on the input user's viewpoint, and requests the 3D model transmitting device 100 to receive the RGBD stream.
  • the received RGBD stream is output to the video decoder 6.
  • the selection of the RGBD stream generally selects the RGBD stream corresponding to the default viewpoint close to the user viewpoint.
  • the video decoder 6 decodes the input RGBD stream and outputs the resulting RGBD image to the 3D model playback unit 2.
  • the video decoder 6 extracts the viewpoint-independent color image, the viewpoint-independent depth image, and the encoded data of the viewpoint-dependent color image k from the stream.
  • a viewpoint-independent color image, a viewpoint-independent depth image, and a viewpoint-dependent color are applied to each coded data by applying a decoding process corresponding to the method used for compression in the video encoder 3 in the 3D model transmitter 100 described above.
  • Image k is generated, and an RGBD image including those images is output.
  • the 3D model playback unit 2 generates and outputs a 3D model based on the input RGBD image. The detailed processing of the 3D model reproduction unit 2 will be described later.
  • a viewpoint-dependent RGBD stream composed of a viewpoint-independent RGBD image and a viewpoint-dependent RGB image encoded data is selected, received, and received according to the user's viewpoint. You can play RGBD streams to play 3D models.
  • the viewpoint-dependent RGB image can reproduce a high-quality 3D model when observed from the vicinity of the associated viewpoint.
  • the 3D model receiver 200 by selectively receiving an RGBD stream corresponding to a viewpoint close to the user's viewpoint and reproducing the 3D model, less data is received than when all information is sent as viewpoint-independent information. You can play back high quality 3D models. By reducing the amount of received and processed data, the processing speed of 3D model reproduction can be improved and the power consumption can be reduced.
  • the virtual shooting unit 1 generates and outputs an RGBD image based on the input source model.
  • the RGBD image is composed of a viewpoint-independent color image, a viewpoint-independent depth image, and a plurality of viewpoint-dependent color images created for each default viewpoint.
  • the virtual shooting unit 1 outputs metadata including image configuration information and camera information of the RGBD image.
  • FIG. 3 is a functional block diagram of the virtual photographing unit 1 according to the present embodiment.
  • the virtual photographing unit 1 includes an image capturing unit 11, a 3D model reproducing unit 12, an error area detecting unit 13, and a camera information setting unit 14.
  • the virtual shooting unit 1 sequentially sets a set of virtual cameras for shooting the source model, and feeds back and evaluates the 3D model reproduced from the RGBD data shot by the set virtual camera. Generate the final RGBD data by the procedure of deciding the virtual camera to be added next.
  • the set of default viewpoints used to determine the viewpoint-dependent color image can be specified arbitrarily, but at least one default viewpoint must be set.
  • FIG. 6 shows the relationship between the target and the default viewpoint when four default viewpoints are set around the target.
  • the four default viewpoints vp1, vp2, vp3, and vp4 are arranged at equal intervals on the circumference centered on the target (Target in the figure) and face the target.
  • the viewpoint is arranged in the three-dimensional space and has a value in the height direction (direction perpendicular to the illustrated plane). For example, a general eye height is set for the component in the height direction.
  • Area1 to area4 in the figure represent the cover space of the corresponding default viewpoint.
  • the cover space of the default viewpoint represents a space in which a nearby viewpoint is the default viewpoint.
  • the cover space area1 is defined for the default viewpoint vp1.
  • the viewpoint-independent color image and the viewpoint-independent depth image generated by the virtual photographing unit 1 of the present embodiment are composed of sub-images obtained by dividing each image.
  • Each sub-image roughly corresponds to an image obtained by taking a source model from a single camera located at a particular location. That is, the sub-image of the depth image (depth sub-image) is information in which the depth when observing the object represented by the source model from a single camera is recorded in an image format.
  • the information can be stored in a partial area of the image represented by the brightness value of the grayscale image.
  • a sub-image of a color image can be stored in a partial area of the color image.
  • a virtual camera is assumed as the camera in the present invention, at least a part of the sub image may be taken by an existing camera.
  • the viewpoint-dependent color image VPIC is composed of a total of 39 color sub-images of VPIC_A1 to A3, VPIC_B1 to 24, and VPIC_C1 to C12.
  • the color sub-images are classified into three groups, that is, "VPIC_A” including VPIC_A1 to A3, “VPIC_B” including VPIC_B1 to B24, and "VPIC_C” including VPIC_C1 to C12.
  • the color sub-images of the group “VPIC_A” provide basic color information that covers the entire object.
  • the color sub-image of the group “VPIC_B” provides the missing color information in the group "VPIC_A”.
  • the group “VPIC_C” provides insufficient color information in either of the groups "VPIC_A” and "VPIC_B”.
  • the resolution of the color sub-image belonging to the group "VPIC_A” is higher than the resolution of the color sub-image belonging to the other groups ("VPIC_B” and "VPIC_C”). ..
  • the quality of the reproduced 3D model is improved because more pixels can be used to allocate more information to the group that provides the basic color information.
  • the number of color sub-images belonging to the group “VPIC_B” is larger than the number of color sub-images belonging to the group “VPIC_C”.
  • the color information of the target that could not be supplemented by the group “VPIC_B” is added. Therefore, the expected value of the color information that can be supplemented by each color sub-image is larger in the group "VPIC_B” to be applied first than in "VPIC_C”. Therefore, by assigning more information to the group "VPIC_B", that is, by increasing the number of color sub-images, the quality of the reproduced 3D model is improved.
  • Figure 7 (b) shows an example of dividing a viewpoint-independent depth image.
  • the viewpoint-dependent depth image VPID is composed of a total of 39 color sub-images of VPID_A1 to A3, VPID_B1 to 24, and VPID_C1 to C12.
  • the depth sub-images are classified into three groups, that is, "VPID_A” including VPID_A1 to A3, “VPID_B” including VPID_B1 to B24, and "VPID_C” including VPID_C1 to C12.
  • the depth sub-images of the group “VPID_A” provide basic shape information that covers the entire object.
  • the depth sub-image of the group “VPID_B” provides the missing shape information in the group "VPID_A”.
  • the group “VPID_C” provides insufficient shape information in either of the groups "VPID_A” and "VPID_B”.
  • a group of sub-images included in the viewpoint-dependent image and a group of sub-images included in the viewpoint-independent image can be defined.
  • the division of the viewpoint-dependent color image and the viewpoint-dependent depth image into sub-images does not necessarily have to be as described above, but in order to express the target information in a viewpoint-independent manner, at least two or more sub-images are included. Need to be done.
  • the sub-images constituting the viewpoint-independent color image or the viewpoint-independent depth image are classified into two or more groups, one group including a higher resolution sub-image and another. At least one group of is preferably configured to include lower resolution sub-images.
  • one viewpoint-independent color image and one viewpoint-independent depth image are shown, but a plurality of images may be used.
  • Figure 7 (c) shows an example of dividing a viewpoint-dependent color image.
  • the viewpoint-dependent color image (VPDC in the figure) corresponding to the default viewpoint k is composed of a single color sub-image VPDC_Ak. It is preferable to set the resolution of the viewpoint-dependent color image to be higher than the resolution of any of the color sub-images constituting the viewpoint-independent color image.
  • the viewpoint-dependent color image has a role of supplementing the information of the object observed from the vicinity of the associated default viewpoint in addition to the information of the viewpoint-independent color image. Therefore, the quality of the reproduced 3D model is improved by sampling the target color information at a higher density than the viewpoint-independent color image to compose the image.
  • the number of color sub-images constituting the viewpoint-dependent color image is not necessarily one, and may be composed of two or more color sub-images. However, the number of color sub-images constituting the viewpoint-dependent color image is preferably smaller than the number of color sub-images constituting the viewpoint-independent color image.
  • viewpoint-independent information information obtained by observing an object from a plurality of viewpoints is more important, and therefore it is necessary to use a certain number or more of sub-images.
  • the viewpoint-dependent information it is sufficient to convey the information obtained by observing the object from the vicinity of the predetermined viewpoint, and the importance of observing the object from various directions decreases. Therefore, by relatively reducing the number of divisions into sub-images, the resolution of one sub-image can be increased, and the quality of the reproduced 3D model is improved.
  • the metadata includes image composition information.
  • the image composition information includes the number of sub-images included in each of the viewpoint-independent color image, the viewpoint-independent depth image, and the viewpoint-dependent color image, and the position / size information of each sub-image.
  • the position / size information of the sub image is composed of the coordinates representing the position of the sub image on the image and the height and width of the sub image.
  • the metadata includes camera information.
  • the camera information includes the camera parameters of the virtual camera associated with each sub-image contained in the viewpoint-independent color image and the viewpoint-independent depth image.
  • the camera parameters here include an external camera parameter that represents the position and direction of the camera in three-dimensional space, and an internal camera parameter that represents the correspondence between the position of a point in space and the coordinates on the image in the camera coordinate system. ..
  • the internal camera parameters are represented, for example, by a combination of the width and height of the captured image, the focal length, and the position of the optical axis on the captured image.
  • the metadata may include depth range conversion information.
  • the depth range conversion information is information indicating the relationship between the pixel value of the depth image and the actual depth value.
  • the depth offset of the depth sub-image can be used as the depth range conversion information given to each depth sub-image.
  • the image capturing unit 11 generates and outputs an RGBD image based on the input source model and camera information.
  • a viewpoint-independent depth image creates a viewpoint-independent depth image.
  • the details are the same as in the case of the viewpoint-independent color image, and are omitted.
  • a virtual camera set common to the viewpoint-independent color image and the viewpoint-independent depth image is used for shooting, it may be omitted to add one camera parameter and the recording position of the shooting result to the metadata.
  • the image capturing unit 11 generates and outputs an RGBD image composed of a viewpoint-independent color image, a viewpoint-independent depth image, and K viewpoint-dependent color images.
  • the camera parameters used for shooting each sub-image and the metadata including the position / size information on the image of the shooting result are generated and output.
  • the 3D model reproduction unit 12 generates a reproduction 3D model (reproduction model) based on the input RGBD image.
  • the reproduction model is a 3D model reproduced based on an RGBD image.
  • the reproduction model is, for example, a 3D model represented by vertices, meshes, and textures.
  • the 3D model playback unit 12 integrates the viewpoint-independent depth images included in the input RGBD image using the same input camera information to generate a mesh representing the shape of the 3D model. After adding color information to the mesh by texture mapping processing, a playback model is generated and output.
  • FIG. 4 shows the detailed configuration of the 3D model reproduction unit 12.
  • the 3D model reproduction unit 12 includes a depth integration unit 121, a mesh generation unit 122, and a texture setting unit 123.
  • the depth sub-image included in the viewpoint-independent depth image is also simply referred to as a depth image.
  • the depth integration unit 121 outputs the volume data generated by executing the depth image integration process (depth integration) based on the input RGBD image.
  • Volume data represents the entire data when the 3D space is divided into voxels and the data is stored for each voxel.
  • a voxel is a rectangular area obtained by dividing a 3D space into a grid.
  • a set of voxels existing in 3D space is called a voxel space.
  • voxel data for each voxel is calculated based on the depth image and camera parameters.
  • the voxel data includes TSDF (Truncated Signed Distance Function) values and weight values.
  • TSDF Trusted Signed Distance Function
  • both the TSDF value and the weight value of the voxel are set to 0.
  • the TSDF value represents the signed distance from the voxel to the face of the 3D model. The smaller the absolute value of the TSDF value, the closer it is to the surface.
  • a TSDF value for example, means that a positive TSDF value means that the voxel is located closer to the camera than the surface.
  • a negative TSDF value means that the voxels are located behind the surface.
  • the weight value is a numerical value indicating the reliability of the corresponding TSDF value, and the minimum value is 0.
  • the above-mentioned voxel TSDF value and weight value are calculated based on the depth image and the camera parameters corresponding to the depth image. Specifically, the TSDF value and the weight value are calculated for the cameras arranged in the position and orientation of the cameras included in the camera parameters and the voxels on the light rays passing through each pixel of the corresponding depth image. However, it is not necessary to calculate both values for all voxels on the ray, and they are flush with the voxels that exist between the planes of the 3D model (the depth values of the corresponding pixels) on the rays as seen from the camera. Both values can be calculated for any number of voxels in the back.
  • the voxel TSDF value is the distance from the voxel position to the surface of the 3D model (the depth value of the corresponding pixel) on the light beam.
  • the weight value is, for example, the normal of the pixels of the depth image on the light ray and the inner product of the light ray. Here, only 0 and positive weight values are considered. If the voxel holds a non-zero TSDF value and weight value, the weighted average with the corresponding weight as the weight is calculated for the existing TSDF value and the new TSDF value, and the average value is calculated. Overwrite the TSDF value of the voxel as a new TSDF value.
  • the weight value overwrites the weight value of the voxel with a numerical value obtained by summing the existing weight value and the new weight value as a new weight value.
  • the above calculation is performed in order for all pixels of all depth images. In the present invention, all pixels of all depth sub-images included in the viewpoint-independent RGBD image are calculated.
  • the TSDF value and the weight value are calculated for the voxels on the light beam of the camera, but the voxels for which each value is to be calculated may be selected by another method.
  • the voxels in the normal direction of the depth sample may be targeted.
  • the normal of the depth sample the direction perpendicular to the plane estimated from the depth sample of the neighboring pixels can be used as the normal for each pixel of the depth image.
  • the TSDF and weight values are calculated for voxels that are on the normal line of the depth sample and within a predetermined threshold from the pixel.
  • TSDF integration 2 (Another example of TSDF integration 2) It should be noted that the depth can be integrated by another method using the normal of the depth sample. The following processing is executed for the depth sample recorded in each pixel constituting the depth image.
  • the voxel group to be processed is determined for each depth sample.
  • the voxel group to be processed includes voxels within a predetermined range centering on the voxels containing the depth sample. For example, a voxel included in a cube of three voxels on each side centered on a voxel containing a depth sample is defined as a voxel group to be processed.
  • the new weight value is derived based on the normal weight and the distance weight. For example, the product of the normal weight and the distance weight normalized to the range of 0 to 1 is used as the new weight value.
  • the TSDF value in a wide spatial range can be updated from a smaller depth sample, and volume data with few holes can be generated.
  • the distance from the depth sample in the direction perpendicular to the camera optical axis decreases the reliability of the depth. According to the above procedure, the influence of the depth sample on the voxel at the unreliable position can be suppressed by using the distance weight, so that the quality of the reproduction model can be improved.
  • the TSDF value was calculated by the average value based on the weight for each integration of the depth pixels.
  • a buffer B1 that adds the TSDF value multiplied by the weight and a buffer B2 that adds the weight are provided, and the TSDF value is divided by the value of the buffer B2 after the processing of all depth pixels is completed. May be derived.
  • the final TSDF value can be calculated without depending on the processing order of the depth pixels, so that the TSDF value can be calculated at high speed in an environment where parallel calculation can be executed.
  • the range of buffer B1 may be a problem depending on the accuracy of TSDF and the accuracy of weights.
  • the buffer B1 can be configured to add the product of the quantized weight and the TSDF value to avoid overflow due to overflow.
  • the pixels near the outline of the object projected on the depth image may be excluded from the target of integration.
  • the outline of the above-mentioned object refers to, for example, a pixel at a boundary portion between a foreground portion and a background portion in a depth image.
  • a pixel in a depth image whose difference from the depth value of adjacent pixels is larger than an arbitrary value can be set as a boundary pixel.
  • Depth images are generally encoded and stored or transmitted. At that time, the depth value near the contour of the object is likely to be distorted due to coding. Therefore, integrating the depth near the contour may adversely affect the reproduction model. For example, the reproduction model is distorted and the quality is reduced. Therefore, it is preferable to exclude the depth near the contour from the integration at the time of integration.
  • the depth integrated calculation may be performed for voxels in a different range for each depth image. Specifically, after determining the priority of the depth image as described above, the TSDF value and the weight value are calculated for a wider range of voxels at the time of integrating the depth images having a higher priority. For example, for a high-priority depth image, the TSDF value and weight value of the voxels contained in the cube of three voxels on each side centered on the surface corresponding to the depth pixel are calculated, and for the low-priority depth image, the depth is calculated. The TSDF value and weight value are calculated only for voxels including the surface corresponding to the pixel of.
  • the mesh generation unit 122 the mesh of the 3D model is derived by applying the Marching Cubes method with reference to the TSDF value and the weight value included in the input volume data. In the mesh derivation process, it is preferable to skip the calculation of voxels having a recorded weight of 0. As a result, the processing time can be reduced.
  • TSDF filter A filter may be applied to the voxel space before the process of generating a 3D model by the Marching Cubes method.
  • a filter that interpolates TSDF values can be applied.
  • a non-zero negative TSDF value and weight value are applied to a voxel that is adjacent to a voxel that holds a negative TSDF value and a non-zero weight and has a holding TSDF value and a weight value of 0. It is a filter to give.
  • the TSDF value given to the voxel may be, for example, the average value of the TSDF values of adjacent, negative TSDF values and voxels holding non-zero weights.
  • the weight value is set to the lowest non-zero value. In other words, it is the weight that the calculation is not skipped in the Marching Cubes method, and is the lowest non-zero weight value that can be given.
  • the hole region generated in the reproduction model can be filled, and the effect of improving the accuracy of the reproduction model can be obtained.
  • a filter that is applied after applying the above filter, adjacent to a voxel given a TSDF value and weight by the above filter, and adjacent to a voxel holding a positive TSDF value and non-zero weight It is a filter that gives a positive non-zero TSDF value and weight value to a voxel whose TSDF value and weight value are 0.
  • the TSDF value given to the voxel may be, for example, the average value of the TSDF values of adjacent, positive TSDF values and voxels holding non-zero weights. Further, for example, the TSDF value and the TSDF value of the voxel to which the weight is given by the above-mentioned filter may be changed values. Also, the weight value is set to the lowest non-zero value.
  • the voxel space calculated by integrating the depth information can be interpolated.
  • a negative TSDF value can be given to a voxel corresponding to a hole region, adjacent to a voxel having a positive TSDF, and having a weight of 0. That is, the hole region generated in the reproduction model can be further filled, and the effect of improving the quality of the reproduction model can be obtained.
  • the above-mentioned two types of filters may be filters in which the signs of the TSDF values are exchanged.
  • a filter that replaces the TSDF value and the weight value with 0 may be used.
  • the texture setting unit 123 executes the texture mapping process.
  • the texture mapping process generally determines the pixel positions on the color image (viewpoint-independent color image or viewpoint-dependent color image) included in the corresponding RGBD image for each vertex of the triangle that is a component of the mesh structure. It is a process to decide. Such pixel positions are called texture information.
  • the color sub-image of the viewpoint-independent color image and the color sub-image of the viewpoint-dependent color image are collectively referred to simply as a color sub-image.
  • Each color sub-image contains the corresponding camera parameters in the metadata associated with the RGBD image.
  • the pixel positions (UV coordinates) on each color sub-image corresponding to each vertex are derived by projecting each vertex of the triangle onto each color sub-image.
  • the calculation may be omitted and the color sub-image may be excluded from the candidates. As a result, quality deterioration due to erroneous projection can be avoided and the amount of processing can be reduced.
  • the RGBD image is configured to include a viewpoint-independent color image and a viewpoint-dependent color image.
  • the viewpoint-dependent color image contains information on the object observed from the viewpoint position within a specific range at a higher resolution than the viewpoint-independent color image. Therefore, for the surface of the object observed from the viewpoint range covered by the viewpoint-dependent color image, the area on the viewpoint-dependent color image is selected and a high-resolution texture is assigned when the color sub-image is selected in the above procedure. Probability is high. Therefore, by using the viewpoint-independent color image and the viewpoint-dependent color image together and determining the UV coordinates of the texture by the above procedure, the effect of improving the quality of the reproduction model can be obtained.
  • the reproduction model generation process in the 3D model reproduction unit 12 is executed by the following procedure.
  • the depth integration unit 121 generates volume data based on the depth image included in the input RGBD image and outputs it to the mesh generation unit 122.
  • the mesh generation unit 122 generates a mesh based on the input volume data and outputs it to the texture setting unit.
  • the texture setting unit 123 determines the texture information based on the color image included in the input RGBD image and the input mesh, and outputs the mesh and the texture information together as a reproduction model.
  • the 3D model playback unit generates a playback 3D model from the depth image.
  • Depth image pre-filter Note that the depth image included in the RGBD image input to the 3D model reproduction unit 12 may not be used as it is, but a filtered depth image may be used. For example, a smoothing filter typified by a bilateral filter is applied. Further, only a part of the depth image may be used instead of the filtering process. For example, when the source model is composed of a foreground portion and a background portion, only the area of the depth image corresponding to the foreground portion may be used.
  • the depth integrated calculation may be performed by using the maximum value of the different weight values for each depth image included in the depth information.
  • the priority of the depth image may be determined, and a higher weight value may be given to the depth image having a higher priority.
  • the priority of the depth image can be set, for example, so that the earlier the setting order of the camera is, the higher the priority is given. That is, the depth images corresponding to the cameras with the slow setting order are integrated by using the weight values lower than the weight values used when integrating the depth images corresponding to the cameras with the earlier setting order. For example, the former depth image is given a 1x weight, and the latter depth image is given a 0.1x weight.
  • the latter depth image integration uses a non-zero minimum weight.
  • the depth image taken by the camera having a slow setting order has a weaker influence on the depth integration than the depth image taken by the camera having a fast setting order, so that the influence on the region other than the hall region is suppressed. This has the effect of preventing a decrease in the accuracy of the reproduction model.
  • a depth with a high resolution may be used as a depth with a higher priority. That is, the weight value of the depth image having a low resolution may be smaller than the weight value of the depth image having a high resolution. For example, a depth image having a resolution of 1280 ⁇ 960 is given a weight of 1 times, and a depth image having a resolution of 640 ⁇ 480 is given a weight of 0.25 times, and the depth integration is calculated. With the above configuration, in the depth integration, the influence of the high-resolution depth image whose depth accuracy can be trusted can be strengthened, so that the effect of improving the accuracy of the reproduction model can be obtained.
  • an RGBD image may be generated based on the priority. Specifically, a sub-image is generated and added to the RGBD image by shooting in order from the camera having the highest priority of the camera. Not all sub-images can be added to an RGBD image because the resolution of the image that stores the RGBD image is generally limited. Therefore, by adding the depth image to the depth information based on the priority of the camera, the important sub-image is added first. This can reduce the cases where important sub-images cannot be added due to resolution restrictions.
  • the error area detection unit 13 detects and outputs an error area by comparing the input source model with the reproduction model.
  • the error area includes, for example, a hole area in which a part of the reproduction model is missing as compared with the source model.
  • the error area is represented by vertices or meshes.
  • the above-mentioned hall area is, more specifically, a specific area in the 3D model.
  • the source model is a region in which holes do not exist in the region of the source model and holes exist in the region in the reproduction model corresponding to the region.
  • holes that should not exist in the source model are areas that have occurred in the corresponding parts of the playback model.
  • One of the objects of the present invention is to determine an RGBD image that suppresses the Hall region in the reproduction model described above. In the following description, it also refers to a process of suppressing or removing a hole area, and also indicates that the hole is filled or the hole is compensated.
  • the method of estimating the hall area does not matter. For example, the distance between a vertex in the source model and the vertex in the playback model that is closest to the vertex is calculated, and if the distance is greater than or equal to a certain value, the vertex of the source model is the vertex corresponding to the hall region. You may judge that. In this case, not only the region where the hole actually exists, but also the region where the shape difference between the reference model and the reproduction model is large is determined to be the hall region. With the above configuration, it is possible to obtain the effect of correcting a region having a large difference in shape as described above by adding a camera parameter.
  • the vertex of the reference model is It may be a method of determining that it corresponds to a hole area.
  • the number of meshes to which the vertices that are not adjacent to the hole area in the reproduction model belong is usually when the reproduction model is composed of triangular meshes. Fits in the range of 4-8.
  • the vertex in the reference model is determined to correspond to the hole region. Is also good.
  • the error area detection unit 13 may additionally derive the accuracy of the reproduction model.
  • the accuracy of the reproduction model is an index showing how close the reproduction model generated by the 3D model reproduction unit 12 is to the reference model.
  • the accuracy of the reproduction model is calculated, for example, by averaging the distances between the vertices of the reference model and the vertices of the reproduction model in the nearest vicinity. Further, for example, it is the RMSE (Root Mean Square Error) value of the reproduction model seen from the reference model.
  • the error between images such as PSNR is calculated from the depth image when the reference model is viewed with a camera having arbitrary camera parameters and the depth image when the playback model is viewed, and the accuracy is reproduced. It may be treated as the accuracy of the model.
  • the vertices or meshes of the reference model determined to be the hole area are extracted from the reference model and extracted as an error area.
  • the camera information setting unit 14 analyzes the input error area information, determines the camera parameters of the virtual camera to be added, generates the camera information, and outputs the camera information.
  • the initial camera setting method is used when the virtual camera is set for the first time for the source model at a specific time.
  • the additional camera setting method is used for the second and subsequent virtual camera settings.
  • the arrangement of the virtual camera for capturing the viewpoint-independent color image and the viewpoint-independent depth image is determined by using the arrangement of the source model in the 3D space. Specifically, a bounding box including the source model is arranged, a camera is arranged so as to surround the bounding box, and external camera parameters are determined. Set the internal camera parameters to values such that the entire source model is included in the sub-images taken by the virtual camera.
  • the virtual camera used for shooting viewpoint-dependent color images sets the default viewpoint as the virtual camera position, and sets internal camera parameters so that the entire source model is included in the shot image.
  • the virtual camera used for shooting the viewpoint-independent color image and the viewpoint-independent depth image is determined by referring to the error area information. Specifically, as a procedure for determining an additional virtual camera, first, the error area included in the input error area information is clustered and decomposed into a plurality of clusters. Hereinafter, the error area decomposed into clusters is referred to as a submodel. Next, for each submodel, the camera parameters suitable for shooting are determined and used as the camera parameters of those additional virtual cameras. Camera parameters suitable for shooting are, for example, camera parameters having the camera position, orientation, and focal length so that the inner product of the normals of the vertices included in the submodel and the declination created by the rays of the camera is large.
  • a camera parameter having a position and orientation such that the center of gravity of the submodel is captured by the optical axis of the camera.
  • a camera parameter having a position, orientation, and focal length such that the entire submodel is captured in the screen and the submodel is projected on the entire screen.
  • the resolution of the virtual camera is set to a common value.
  • the number of additional virtual cameras is larger than that of the initial virtual cameras because it is necessary to cover the error area without significantly overlapping with the existing cameras. Therefore, by sharing the camera parameters, it is not necessary to send different camera parameters for each camera, so that the amount of metadata can be reduced.
  • the common resolution is preferably 64 pixels in height and 64 pixels in width. In general video compression represented by HEVC, a square block with 64 pixels on each side is used as a processing unit. Since distortion is likely to occur at the block boundaries, the distortion of the sub-image is reduced by matching the resolution of the virtual camera with the block size in video compression. Therefore, the quality of the reproduction model is improved.
  • Example of clustering 1 For clustering to the submodel of the error region, for example, vertices that are close to the vertex and have a normal close to the normal of the vertex are distributed to the same cluster as the vertex based on an appropriate vertex. A clustering method can be applied. As a result, vertices having similar normal directions and gathering at close positions can be extracted as a submodel.
  • Example 2 of clustering Another method may be used for clustering. Specifically, clustering of error regions is performed in two stages: clustering by spatial distribution and clustering by face normal. First, the faces constituting the error region are classified into a plurality of spatial clusters based on the spatial distribution. Cluster classification is performed by collecting nearby faces in 3D space. For example, the space is divided into grid-shaped voxels, and the face group included in the voxel group obtained by combining adjacent voxels having faces inside is regarded as one space cluster.
  • the normal distribution of faces included in the same spatial cluster is examined, and a group of faces with similar normals near the center of the distribution is regarded as one normal cluster. Further, among the faces belonging to the spatial cluster, another normal cluster is extracted by repeating the same method for the faces not included in the normal cluster. Spatial clusters may contain faces in multiple directions, in which case an additional derived normal cluster is useful.
  • the normal clusters extracted by the above procedure include faces that are spatially close to each other and have normals in similar directions. Therefore, it is possible to shoot with one virtual camera.
  • the cluster may be excluded from the virtual camera settings.
  • the number of faces in the cluster is small, it means that the number of faces judged as an error is small. Therefore, even if such a cluster is photographed, the improvement width is often small, and there is a high probability that the amount of transmission data is not commensurate with the increase in the number of sub-images photographed. Therefore, the amount of transmitted data can be reduced by omitting the virtual camera setting for such a cluster.
  • the resolution of the virtual camera used for shooting when the additional camera is set is lower than the resolution of the virtual camera used when the initial camera is set.
  • the depth image taken by the virtual camera used as the initial camera needs sufficient resolution to preserve the details of the playback model.
  • the depth image taken by the virtual camera added by the additional camera setting process is intended to correct the error area, it is less necessary to retain detailed information. Therefore, even if the resolution is lower than that at the time of initial camera setting, the influence on the quality of the playback model is small.
  • the initial camera setting may be determined by referring to the camera information in the previously processed frame. Specifically, the camera information used in the previous frame may be set. With such a configuration, it is possible to suppress the time change of the virtual camera position that captures each sub-image that composes the RGBD image generated for each frame. Therefore, by using the time correlation, the compression rate of the image included in the RGBD image can be suppressed. Is improved. Therefore, the amount of transmitted data can be suppressed.
  • the camera information is initialized and the virtual camera does not depend on the camera information of the previous frame. May be set. By this processing, it is possible to suppress the addition of an extra virtual camera even when the reference model changes significantly due to the time change and the error area changes.
  • the structure may be such that an important area in the reference model is photographed by a large number of cameras or high-resolution cameras.
  • the important part mentioned above is, for example, the human head or face when the reference model includes a human. Further, for example, when the reference model contains a numerical value, it is the area where the numerical value is drawn. In either case, the method of detecting the important area does not matter.
  • the above-mentioned important parts may be arbitrarily set. With the above configuration, it is possible to obtain the effect that the important region can be accurately reproduced in the 3D model receiver 200.
  • FIG. 5 is a flowchart showing the flow of RGBD image generation processing.
  • the camera information setting unit 14 determines the initial camera set and outputs it to the image capturing unit 11 as camera setting information. Then run S101.
  • the image capturing unit 11 generates an RGBD image and accompanying metadata based on the input source model and camera setting information.
  • the RGBD image and metadata are output to the 3D model playback unit 12. Then run S102.
  • the 3D model reproduction unit 12 generates a reproduction model based on the input RGBD image and outputs it to the error area detection unit 13. Then execute S103.
  • the error area detection unit 13 detects the error area based on the input reference model and playback model, and outputs the error detection information to the camera information setting unit 14. Then run S104.
  • the camera information setting unit 14 generates camera information based on the input error detection information. Then run S105.
  • (S105) Determine whether or not the loop end condition is satisfied. If the loop end condition is satisfied, the process proceeds to S106. If the loop end condition is not satisfied, the camera information generated by the camera information setting unit 14 is input to the image capturing unit 11, and the process proceeds to S101.
  • a depth sub-image is added to the RGBD image each time the processes from S101 to S104 are repeated. Since the camera information generated by the processing of S103 and S104 is a camera parameter for observing the error area existing in the reproduction model generated by integrating the depth information, the additional depth image is the above-mentioned error area. It becomes a depth image containing useful information to improve. Therefore, by sequentially adding depth images by the above-mentioned processing procedure to generate an RGBD image, the 3D model reproduction unit 12 can obtain an effect of being able to generate a reproduction model in which the above-mentioned error region is improved. In other words, you can generate a playback model that is closer to the reference model.
  • the total area of the meshes included in the submodel is less than an arbitrary value.
  • the depth image is not added to fill the small hole area, the amount of data of the entire depth information can be reduced, and the amount of traffic to be transmitted can be suppressed.
  • camera priority information may be added to the camera parameters generated in S104.
  • the above-mentioned camera priority is information set for each subcluster, and is used by the image capturing unit 11 to indicate the order in which the depth image is added to the RGBD image.
  • the method of setting the priority of the camera may be, for example, a method of calculating the total value of the mesh area for each submodel and setting the priority in descending order of the total value.
  • the number of executions of S101 can be used. If the number of executions of S101 is equal to or greater than the specified number, it is determined that the loop end condition is satisfied.
  • FIG. 8 is a block diagram showing the configuration of the texture setting unit 123a.
  • the texture setting unit 123a includes an RGBD image separation unit 1231, a viewpoint-independent texture setting unit 1232, and a viewpoint-dependent texture setting unit 1233.
  • the input / output of the texture setting unit 123a is the same as the input / output of the texture setting unit 123. That is, the RGBD image and the mesh are input and the textured mesh is output.
  • the RGBD image separation unit 1231 separates the input RGBD image into a viewpoint-dependent color image, a viewpoint-independent color image, and a depth image and outputs them.
  • the viewpoint-independent texture setting unit 1232 performs texture mapping based on the input mesh and the viewpoint-independent color image, and outputs it as a textured mesh.
  • texture mapping the pixel positions on the viewpoint-independent color image corresponding to each vertex of the face constituting the mesh are set as UV coordinates.
  • the method described in the texture setting unit 123 can be applied.
  • the viewpoint-dependent texture setting unit 1233 performs texture mapping based on the input textured mesh and the viewpoint-dependent color image, and outputs the updated textured mesh.
  • the pixel positions on the viewpoint-dependent color image are set as UV coordinates for each vertex of the face constituting the textured mesh.
  • the corresponding pixel positions of the vertices can be calculated by projection based on the camera parameters associated with the viewpoint dependent color image. If the vertices cannot be projected in the viewpoint-dependent color image, the UV coordinate setting is skipped. That is, for the vertices projected in the viewpoint-dependent color image, the UV coordinates are overwritten by the pixel positions, and if not, the set UV coordinates are maintained.
  • the texture mapping process by the texture setting unit 123a is executed by the following procedure.
  • the RGBD image separation unit 1231 separates the input RGBD image and outputs the viewpoint-independent color image to the viewpoint-independent texture setting unit 1232 and the viewpoint-dependent color image to the viewpoint-dependent texture setting unit 1233.
  • the viewpoint-independent texture setting unit 1232 generates a textured mesh based on the input mesh and the viewpoint-independent color image, and outputs the textured mesh to the viewpoint-dependent texture setting unit 1233.
  • the viewpoint-dependent texture setting unit 1233 updates and outputs the textured mesh based on the input textured mesh and the viewpoint-dependent color image.
  • a viewpoint-dependent color image is preferentially selected over a viewpoint-independent color image. Since the viewpoint-dependent color contains the target color information having a higher resolution than the viewpoint-independent color, it is possible to generate and output a textured mesh in which a high-quality texture is set, so that the quality of the reproduction model is improved.
  • the viewpoint-dependent texture setting unit 1233 detects a face to which the viewpoint-dependent color image is applied as a texture and a face (boundary face) that is the boundary of the face to which the viewpoint-independent color image is applied as a texture, and detects the face (boundary face) of the boundary face.
  • the texture may be corrected and used so that the boundary becomes inconspicuous.
  • the boundary face the texture of the face projection area on the viewpoint-dependent color image and the texture of the face projection area on the viewpoint-independent color image set in the input textured mesh are blended. The method to do is applicable.
  • the boundary face can be detected as a face in which only a part of the vertices constituting the face is projected outside the screen. On the mesh, a face adjacent to the face may be included in the boundary face.
  • the viewpoint-dependent color image and the viewpoint-independent color image are generally compressed as different images, even on the surface of the same color, different colors may be obtained due to the difference in the bias of the average pixel value due to quantization.
  • the above-mentioned correction of the boundary face can alleviate the conspicuousness of the boundary face due to such a difference in color.
  • FIG. 9 is a block diagram showing the configuration of the texture setting unit 123b.
  • the texture setting unit 123b includes an RGBD image separation unit 1231, a color type determination unit 1234, a texture weight setting unit 1235, and a multi-texture setting unit 1236.
  • the input / output of the texture setting unit 123b is the same as the input / output of the texture setting unit 123. That is, the RGBD image and the mesh are input and the textured mesh is output.
  • the RGBD image separation unit 1231 is the same as the component of the same name in the texture setting unit 123a.
  • the output viewpoint-independent color image and the viewpoint-dependent color image are collectively referred to as a color image.
  • the color type determination unit 1234 determines whether the input color image is a viewpoint-independent color image or a viewpoint-dependent color image, and outputs the determination result to the color image.
  • the texture weight setting unit 1235 determines and outputs the texture weight based on the input mesh, color image, and color type determination result.
  • the texture weight is a value representing the ratio of the influence of each region when the texture of the face is generated by blending the regions on a plurality of color images. For example, by projecting a face onto a color image with three types of camera parameters, three corresponding regions R1, R2, and R3 can be obtained.
  • the blending weights corresponding to each region are set to w1, w2, and w3, the texture of the face is derived by (w1 ⁇ Tex_R1 + w3 ⁇ Tex_R2 + w3 ⁇ Tex_R3) ⁇ Rsum.
  • the texture weight setting unit 1235 refers to the input color type information so that when the color image is a viewpoint-dependent color image, a larger texture weight is assigned than when the color image is a viewpoint-independent color image.
  • Determine the texture weight For example, the texture weight for the viewpoint-dependent color image is set to be twice the texture weight for the viewpoint-independent color image.
  • the weight derived independently of the color type can be set to increase by a predetermined magnification only for the viewpoint-dependent color image.
  • the multi-texture setting unit 1236 generates and outputs a textured mesh based on the input mesh, color image, and texture weight.
  • the generated texture mesh is, for example, data in which a plurality of UV values and texture weights are set as attribute values for each vertex in addition to data of a plurality of color images and meshes.
  • the texture for each face is synthesized once based on the color image and texture weight, then generated as another texture image, and in addition to the texture image and mesh data, the correspondence on the texture image as the attribute value of the vertex.
  • the data in which the UV coordinates of the pixel positions are recorded may be used as a textured mesh.
  • the texture mapping process by the texture setting unit 123b is executed by the following procedure.
  • the RGBD image separation unit 1231 separates the input RGBD image and outputs the color image to the color type determination unit 1232, the texture weight determination unit 1235, and the multi-texture setting unit 1236.
  • the color type determination unit 1234 determines the color type indicating whether it is viewpoint-dependent or viewpoint-independent for each input color image, and outputs it to the texture weight setting unit 1235.
  • the texture weight setting unit 1235 determines the texture weight based on the input mesh, color image, and color type, and outputs the texture weight to the multi-texture setting unit 1236.
  • the multi-texture setting unit generates and outputs a textured mesh based on the input mesh, color image, and texture weight.
  • the texture weight can be set so as to give priority to the viewpoint-dependent color image, so that the information of the viewpoint-dependent color image is prioritized over the viewpoint-independent color image to set the texture. Since the viewpoint-dependent color contains the target color information having a higher resolution than the viewpoint-independent color, it is possible to generate and output a textured mesh in which a high-quality texture is set, so that the quality of the reproduction model is improved.
  • the viewpoint-dependent color image is dynamically switched according to the user's viewpoint. Therefore, there is a case where the corresponding viewpoint-dependent color image does not exist for a specific face at a specific time t, and the corresponding viewpoint-dependent color image exists at the next time t + 1.
  • the viewpoint-independent color image can always be referred to regardless of the user's viewpoint. Therefore, if the texture weight corresponding to the viewpoint-dependent color image is always set to a large value, the texture of the reproduction model suddenly changes in the above-mentioned switching situation, causing discomfort to the user. Therefore, it is preferable to set the texture weight so that the texture weight gradually increases over a predetermined time from the time when the viewpoint-dependent color image is switched. Thereby, the above-mentioned discomfort can be suppressed.
  • ⁇ Adjustment of TSDF integrated processing load using depth sub-image group> By selecting based on the group to which the depth sub-image to be the target of TSDF integrated processing belongs, the processing amount and the reproduction model quality can be adjusted at the time of reproduction.
  • a system for transmitting a 3D model using a viewpoint-independent depth image composed of sub-images grouped as shown in FIG. 7 (b) has been described.
  • this group of sub-images there is an effect that the processing amount of TSDF integrated processing in 3D model reproduction can be adjusted.
  • the sub-image group described with reference to FIG. 7 will be described as an example, but it can also be applied to other grouping.
  • a group defined by a position in the image can be used.
  • a group defined by the size and shape of the sub image can be used.
  • the sub-images of the viewpoint-dependent depth image shown in FIG. 7 (b) are classified into three sub-image groups of "VPID_A", "VPID_B", and "VPID_C". From the front, the groups are organized to include the most important information for 3D model reproduction.
  • volume data is usually constructed using sub-images of all groups.
  • the volume data can be configured using only the sub-images belonging to the "VPID_A” group, and in that case, the quality of the reproduction model deteriorates at the cost of enabling integration with a smaller amount of processing.
  • volume data is derived by updating the TSDF value with reference to the value of each depth sample.
  • One method is to describe information on which sub-image belongs to which group in metadata or the like.
  • Another method is to share the number of sub-images belonging to each group in advance and arrange the sub-images on the image in a predetermined order (for example, from the upper left to the raster scan order). According to this method, an increase in the amount of data due to metadata can be suppressed.
  • the viewpoint-dependent color image sub-images shown in Fig. 7 (a) are classified into three sub-image groups, "VPIC_A”, “VPIC_B”, and "VPIC_C”. From the front, the groups are organized to include the most important information for 3D model reproduction.
  • the texture is usually set using the sub-images of all groups.
  • Texture mapping includes the process of determining which sub-image should be used as the face texture.
  • the amount of processing can be reduced by reducing the number of target sub-images.
  • sub-images belonging to the two groups of "VPID_A” and “VPID_B” are used, the processing amount and the quality of the reproduction model are in between the above two cases. Since real-time playback is important for VR and AR applications, real-time playback is possible using the above-mentioned trade-off between processing amount and quality even in situations where real-time playback is not possible with normal processing amount. Therefore, the user's discomfort is reduced.
  • the processing amount and reproduction quality of TSDF integration processing and texture mapping processing can be adjusted according to the group of sub-images shown in FIG. It is also possible to realize a trade-off between 3D model reproduction processing amount and reproduction quality by using a sub-image group determined from another viewpoint. For example, the trade-off can be realized by adjusting the integrated resolution of TSDF based on a group of sub-images classified based on the user's viewpoint.
  • the sub-images are classified based on the proximity to the user's viewpoint. Since camera parameters are assigned to each sub-image, the proximity of the sub-image and the user's viewpoint is evaluated by comparing the position / direction of the user's viewpoint with the position / direction of the camera associated with the sub-image. Based on the evaluation result of this closeness, it is classified into a group of sub-images close to the user's viewpoint and a group of sub-images far from the user's viewpoint.
  • TSDF integration As the number of voxels that store TSDF values increases, the amount of integration processing increases, and the quality of the integrated playback model improves. Therefore, by preparing a large number of voxels (high resolution voxels) and a small number of voxels (low resolution voxels) and integrating them by the following method, a trade-off between playback processing amount and playback model quality is realized. it can.
  • A Small processing amount, low quality: Integrate both groups into low resolution voxel group
  • B Medium processing amount, medium quality: Integrate group close to user's viewpoint into high resolution voxel group, group far from user's viewpoint
  • C Large processing volume, high quality: Integrate both groups into the high resolution voxel group.
  • sub-image groups are defined by methods (viewpoint-independent group and viewpoint-dependent group, group defined by metadata, group that can be defined by position in the image, and size and shape of sub-image.
  • the group to be used and the group according to the proximity to the user's viewpoint position) are shown.
  • the processing amount of 3D model reproduction processing TSDF integration processing, texture mapping processing
  • reproduction model quality can be adjusted based on such a group of sub-images.
  • a 3D model is reproduced using a color image or a depth image composed of sub-images.
  • the processing amount of the 3D model reproduction processing and the reproduction model quality can be adjusted based on the group of sub-images.
  • the transmission of the 3D model is realized by the combination of the 3D model transmitting device 100 and the 3D model receiving device 200.
  • the 3D model may be transmitted by a combination of other devices including similar functional blocks.
  • the same function is realized by a combination of a virtual shooting device including a virtual shooting unit 1, a video encoding device including a video encoder 3, and a stream storage device including a stream storage unit 4. be able to.
  • a combination of a stream receiver including a stream receiver 5, a video decoder including a video decoder 6, and a 3D model player including a 3D model player 2 has equivalent functionality. Can be realized.
  • control blocks of the 3D model transmitting device 100 and the 3D model receiving device 200 may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or may be realized by software.
  • the 3D model transmitting device 100 and the 3D model receiving device 200 include a computer that executes a program instruction, which is software that realizes each function.
  • the computer includes, for example, at least one processor (control device) and at least one computer-readable recording medium that stores the program. Then, in the computer, the processor reads the program from the recording medium and executes it, thereby achieving the object of the present invention.
  • the processor for example, a CPU (Central Processing Unit) can be used.
  • the recording medium in addition to a “non-temporary tangible medium” such as ROM (Read Only Memory), a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • RAM RandomAccessMemory
  • the program may be supplied to the computer via an arbitrary transmission medium (communication network, broadcast wave, etc.) capable of transmitting the program.
  • arbitrary transmission medium communication network, broadcast wave, etc.
  • one aspect of the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the above program is embodied by electronic transmission.
  • the configuration of the 3D model transmission device includes a virtual photographing unit that generates an RGBD image representing a source model and metadata, and encodes each image included in the RGBD image to generate an RGBD stream.
  • a 3D model transmitter including a video encoder and a stream storage unit that stores the RGBD stream and outputs it as requested.
  • the RGBD image is a viewpoint-independent color image, a viewpoint-independent depth image, and a viewpoint. It is a configuration characterized in that it is configured to include a dependent color image.
  • the RGBD image is configured to include K viewpoint-dependent color images associated with K predetermined viewpoints, and the metadata. Is a configuration characterized in that it contains information on K default viewpoints.
  • the video encoder in the configuration of the 3D model transmission device according to the third aspect of the present invention, in the second aspect, the video encoder generates an RGBD stream corresponding to each predetermined viewpoint, and the RGBD stream for each predetermined viewpoint is viewpoint-independent.
  • the configuration is characterized in that it includes data obtained by encoding a color image, a viewpoint-independent depth image, and one viewpoint-dependent color image corresponding to a specific default viewpoint.
  • the viewpoint-independent color image is composed of a plurality of color sub-images
  • the viewpoint-independent depth image is a plurality of viewpoint-independent depth images in the configuration of the 3D model transmitter according to the fourth aspect of the present invention. It is a configuration characterized by being composed of a depth sub-image of.
  • the plurality of color sub-images of the viewpoint-independent color image and the plurality of depth sub-images of the viewpoint-independent depth image are the same number.
  • the configuration is characterized by having the same shape.
  • the color sub-images are classified into at least two or more groups, and the color sub-images included in each group.
  • the resolution is the same.
  • the depth sub-images are classified into at least two or more groups, and the resolution of the depth sub-images included in each group. Is a configuration characterized by being the same.
  • the color sub-images are classified into at least two or more groups, and the colors included in the first group.
  • the resolution of the sub-image is set higher than the resolution of the color sub-image included in another second group.
  • the color sub-images are classified into at least two or more groups, and the colors included in the first group.
  • the configuration is characterized in that the number of sub-images is larger than the number of color sub-images included in another second group.
  • the configuration of the 3D model transmission device is any of the fourth to nine aspects, wherein the resolution of the viewpoint-dependent color image is the resolution of any color sub-image constituting the viewpoint-independent color image.
  • the configuration is characterized by being higher than the resolution.
  • the number of color sub-images constituting the viewpoint-dependent color image constitutes the viewpoint-independent color image.
  • the configuration is characterized in that it is smaller than the number of color sub-images.
  • the configuration of the 3D model transmission device is that in any one of the 1st to 11th aspects, the virtual imaging unit captures the source model based on the camera information and generates an RGBD image.
  • a 3D model reproduction unit that generates a reproduction model based on an RGBD image, an error area detection unit that derives error area information based on the reproduction model and the source model, and a camera information setting unit that derives camera information based on the error area information.
  • the 3D model reproduction unit includes a depth integration unit that generates volume data from an RGBD image, a mesh generation unit that generates a mesh from volume data, and texture information based on the mesh and the RGBD image.
  • the configuration is characterized by including a texture setting unit for setting and generating a reproduction model.
  • the depth integration unit determines a voxel group to be processed for each depth sample, and the depth is set for each voxel included in the voxel group to be processed.
  • the configuration is characterized in that the depth is integrated by updating the TSDF value and the weight value based on the normal corresponding to the sample.
  • the depth integration unit adds a buffer for adding the product of the weight and the TSDF value, and the sum of the weights, in the configuration of the 3D model transmission device according to the 14th aspect of the present invention.
  • the configuration is characterized by including a buffer.
  • the texture setting unit projects each triangle constituting the mesh onto each color sub-image included in the RGBD image, and the projected triangles.
  • the color sub-image having the largest area on the color sub-image is selected, and the pixel position on the color sub-image is set to the UV coordinates of the texture.
  • the texture setting unit includes a viewpoint-independent texture setting unit and a viewpoint-dependent texture setting unit, and is generated by using a viewpoint-independent color image.
  • the configuration is characterized in that a textured mesh is generated by updating the textured mesh based on a viewpoint-dependent color image.
  • the texture setting unit includes a color type determination unit, a texture weight setting unit, and a multi-texture setting unit.
  • This configuration is characterized in that when the color image is a viewpoint-dependent color image, a larger texture weight is set as compared with the case where the color image is a viewpoint-independent color image.
  • the camera information setting unit in the 12th aspect, generates camera information by determining a virtual camera for each cluster derived by clustering error areas.
  • the clustering is characterized in that it is executed in two stages of clustering by spatial distribution and clustering by face normal.
  • the configuration of the 3D model receiving device includes stream reception for selectively receiving an RGBD stream based on a user's viewpoint, a video decorator for decoding the RGBD stream to derive an RGBD image, and the RGBD image.
  • a 3D model receiving device including 3D model reproduction that generates and outputs a reproduction model based on the above, and the RGBD image includes a viewpoint-independent color image, a viewpoint-independent depth image, and a viewpoint-dependent color image. It is a configuration characterized by being configured.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Generation (AREA)

Abstract

伝送データ量を低減し、再生する3Dモデルの品質を向上させる為のデータを生成し送信する3Dモデル送信装置を実現する。3Dモデル送信装置はソースモデルを表現するRGBD画像およびメタデータを生成する仮想撮影部と、前記RGBD画像に含まれる各画像を符号化してRGBDストリームを生成するビデオエンコーダと、前記RGBDストリームを蓄積して要求に応じて出力するストリーム蓄積部を備える3Dモデル送信装置であって、前記RGBD画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成される。

Description

3Dモデル送信装置、及び、3Dモデル受信装置
 本発明の一態様は、3Dモデル送信装置、及び、3Dモデル受信装置に関する。
 本願は、2019年3月25日に日本で出願された特願2019-57010号に基づき優先権を主張し、その内容をここに援用する。
 近年、AR (Augmented Reality) 及びVR (Virtual Reality) 技術が注目されている。また技術の発展に伴い、AR及びVRのコンテンツに係るリアルタイム配信の技術への関心も高まっている。
 従来技術であるHoloportationでは、形状モデルと多視点カラー画像(RGB画像) を配信し、受信側でそれらを統合することで、3Dモデルを伝送して遠隔地のAR空間上に再現する。
 また、KinectFusionと呼ばれる技術をベースとした、デプス画像を統合して3Dモデルを構築する技術が検討されている。KinectFusionを利用することで、リアルタイムに、低解像度のデプス画像から精密な3Dモデルを構築できる。これを利用すれば、デプス画像を伝送することでHoloportationと同様に3Dモデルの伝送と再生が実現できる。
 現実の環境において、3Dモデルの伝送と再生を広く利用するためには、以下の要求を満たす必要がある。すなわち、一般的なユーザが使用可能なネットワーク帯域の制約下で3Dモデルを伝送し、一般的なユーザが入手可能な再生デバイスの性能の制約化で実時間で高品質の3Dモデルを再生することが要求される。
R. A. Newcombe, A. J. Davison, S. Izadi, P. Kohli, O. Hilliges, J. Shotton, D. Molyneaux, S. Hodges, D. Kim, and A. Fitzgibbon, "KinectFusion: Real-time dense surface mapping and tracking," in Mixed and augmented reality (ISMAR), 2011 10th IEEE international symposium on, 2011, pp. 127-136.
 しかしながら、従来技術では、前述の要求を満たすような3Dモデル伝送は実現できていない。本発明の一態様は、上記の問題に鑑みてなされたものであり、3Dモデルの伝送と再生に必要な要求を満たす3Dモデル伝送システムを実現する。また、そのような3Dモデル伝送システムを構成するための仮想撮影装置、3Dモデル再生装置を実現する。
 上記の課題を解決するために、本発明の一態様に係る3Dモデル送信装置は以下の手段を備える。
 ソースモデルを表現するRGBD画像およびメタデータを生成する仮想撮影手段と、前記RGBD画像に含まれる各画像を符号化してRGBDストリームを生成するビデオエンコード手段と、前記RGBDストリームを蓄積して要求に応じて出力するストリーム蓄積手段を備える3Dモデル送信手段であって、前記RGBD画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする3Dモデル送信手段。
 また、上記の課題を解決するために、本発明の一態様に係る3Dモデル受信装置は以下の手段を備える。
 ユーザ視点に基づいてRGBDストリームを選択受信するストリーム受信手段と、前記RGBDストリームを復号してRGBD画像を導出するビデオデコード手段と、前記RGBD画像に基づいて再生モデルを生成して出力する3Dモデル再生手段を備えた3Dモデル受信手段であって、前記RGBD画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする3Dモデル受信手段。
 本発明の一態様によれば、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を選択的に送信または受信することで伝送データ量を抑制しつつ、高品質な3Dモデルを伝送できる。
実施形態1に係る3Dモデル送信装置および3Dモデル受信装置の機能ブロック図である。 実施形態1に係るRGBD画像の構成を例示する図である。 実施形態1に係る仮想撮影部の機能ブロック図である。 実施形態1に係る3Dモデル再生部の機能ブロック図である。 実施形態1に係る仮想撮影部の処理の流れを示すフローチャートである。 実施形態1に係る既定視点を例示する図である。 実施形態1に係る視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像の構成を例示する図である。 実施形態1の第一の変形例に係るテクスチャ設定部の機能ブロック図である。 実施形態1に第二の変形例に係るテクスチャ設定部の機能ブロック図である。
 〔実施形態1〕
 以下、本発明の一実施形態について、図1~図7に基づいて説明する。
 本実施形態において3Dモデル伝送システムは、3Dモデル送信装置100と3Dモデル受信装置200により実現される。一般のサービスでは、3Dモデル送信装置100はサーバに配置され、3Dモデル受信装置200はユーザが使用するクライアント(例えばHMD: Head Mount Display) の一部として提供される。以下では、そのような前提で、サーバ側から送信された3Dモデルを離れた地点のユーザが受信して3Dモデルを再生する例を説明する。しかしながら、両者を同一ハードウェアに実装する構成も可能である。
 <3Dモデル送信装置100の構成>
 図1に基づいて本実施形態に係る3Dモデル送信装置100の構成を説明する。3Dモデル送信装置100は、仮想撮影部1、ビデオエンコーダ3、適応ストリーム蓄積部4を備えている。
 3Dモデル送信装置100は、入力される3Dモデル(ソースモデル)からRGBD画像(カラー画像およびデプス画像)を含んで構成されるRGBDストリームを生成して蓄積する。蓄積されたRGBDストリームは、クライアントである3Dモデル受信装置からの要求に応じて選択的に出力される。
 仮想撮影部1は、入力のソースモデルに基づき、RGBD画像を生成して出力する。ソースモデルは、三次元空間中の人や物等の対象を表現するデータであり、形状と色の情報を含んでいる。以下の説明では、ソースモデルとして、対象の形状をメッシュ、色を頂点に関連付けられたテクスチャとして、例えば頂点若しくはメッシュからなる3Dモデルとする。しかしながら、本発明の範囲はそれに限られず、別の表現形式のソースモデルを入力してもよい。仮想撮影部1の詳細処理は後述する。RGBD画像の構成を図2に示す。RGBD画像は、1枚以上のカラー画像と、1枚以上のデプス画像から構成される。本発明の特徴的な要素として、RGBD画像は視点非依存RGBD画像と、視点依存RGB画像を含んで構成される。視点非依存RGBD画像は、さらに視点非依存カラー画像と、視点非依存デプス画像とから構成される。視点依存RGB画像は、既定のK個の視点それぞれに対応する視点依存カラー画像から構成される。視点kに対応する視点依存カラー画像を視点依存カラー画像kと呼称する。
 ビデオエンコーダ3は、RGBD画像に含まれる各画像を符号化して圧縮する。符号化には、例えばHEVC(High Efficiency Video Coding)方式を用いる。加えて、符号化された画像を構成要素として視点依存RGBDストリームを生成する。視点依存RGBDストリームは、前述の既定視点毎に生成され、視点kに対応するストリームを視点依存RGBDストリームkと呼称する。
 ストリーム蓄積部4は、視点依存RGBDストリームを保持する。また、要求に応じて、適切な視点依存RGBDストリームを出力する。
 以上説明した3Dモデル送信装置100によれば、入力ソースモデルから視点非依存RGBD画像と視点依存RGB画像の符号化データを含んで構成される視点依存RGBDストリームを生成し、ユーザの要求に応じて供給できる。
 ユーザが視点を選択可能な自由視点映像のアプリケーションでは対象が全周から観察されることが想定され、視聴方向によって観察される対象の部分領域は大きく異なる。そのため既定の複数の視点に対して視点依存RGB画像を準備することで、所望の視点およびその近傍視点における対象の情報に多くのデータを割り当てることができるため同一データ量での再生画像品質の改善が可能となる。一般に、ユーザ視点に応じて受信するストリームを切り替えて画像を選択する場合、ストリーム切り替えに要する遅延の影響により切り替え時の再生画質が低下する問題が生じる。本発明による方式では、視点非依存RGBD画像と視点依存RGB画像により視点依存RGBDストリームを構成しているため、切り替えのタイミングにおいても、視点非依存RGBD画像を用いることで一定の画質を維持できる。
 <3Dモデル受信装置200の構成>
 図1に基づいて本実施形態に係る3Dモデル受信装置200の構成を説明する。3Dモデル受信装置200は、ストリーム受信部5、ビデオデコーダ6、および、3Dモデル再生部2を含んで構成される。
 3Dモデル受信装置200は、時刻毎に入力されるユーザ視点に基づいて適切なRGBDストリームを選択して受信する。さらに、受信したRGBDストリームを再生して各時刻の3Dモデルを生成して再生モデルとして出力する。
 ストリーム受信部5は、入力されるユーザ視点に基づいて何れのRGBDストリームを受信するかを決定し、当該RGBDストリームを3Dモデル送信装置100に要求して受信する。受信したRGBDストリームはビデオデコーダ6に出力する。ここで、RGBDストリームの選択は、概略的には、ユーザ視点に近い既定視点に対応するRGBDストリームを選択する。
 ビデオデコーダ6は、入力されるRGBDストリームを復号して結果として得られるRGBD画像を3Dモデル再生部2に出力する。視点依存RGBDストリームkが入力された場合、ビデオデコーダ6はストリームから視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像kの符号化データを抽出する。各符号化データに、前述の3Dモデル送信装置100内のビデオエンコーダ3で圧縮に用いた方式に対応する復号処理を適用して視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像kを生成し、それらの画像を含んで構成されるRGBD画像を出力する。
 3Dモデル再生部2は、入力されるRGBD画像に基づいて3Dモデルを生成して出力する。3Dモデル再生部2の詳細処理は後述する。
 以上説明した3Dモデル受信装置200によれば、視点非依存RGBD画像と視点依存RGB画像の符号化データを含んで構成される視点依存RGBDストリームをユーザ視点に応じて選択して受信し、受信したRGBDストリームを再生して3Dモデルを再生できる。
 視点依存RGB画像には、関連付けられた視点近傍から観察した場合に品質の高い3Dモデルを再生できる。3Dモデル受信装置200によれば、ユーザ視点に近い視点に対応するRGBDストリームを選択的に受信して3Dモデルを再生することで、全て視点非依存の情報として送る場合に比べて少ないデータを受信して品質の高い3Dモデルを再生できる。受信および処理データ量が低減することで、3Dモデル再生の処理速度を向上し、かつ、消費電力を低減できる。
 <仮想撮影部1の詳細>
 仮想撮影部1は、入力のソースモデルに基づき、RGBD画像を生成して出力する。図2を参照して説明した通り、RGBD画像は視点非依存カラー画像、視点非依存デプス画像、および、既定視点毎に作成される複数枚の視点依存カラー画像から構成される。加えて、仮想撮影部1は、RGBD画像の画像構成情報とカメラ情報を含むメタデータを出力する。
 図3は、本実施形態に係る仮想撮影部1の機能ブロック図である。図3に示す通り、仮想撮影部1は、画像撮影部11、3Dモデル再生部12、エラー領域検出部13、および、カメラ情報設定部14を備えている。
 概略的に言えば、仮想撮影部1は、ソースモデルを撮影するための仮想カメラのセットを順次設定し、設定した仮想カメラで撮影したRGBDデータから再生される3Dモデルをフィードバックして評価することで次に追加する仮想カメラを決定する手順で最終的なRGBDデータを生成する。
 <既定視点の定義>
 視点依存カラー画像の決定に利用される既定視点のセットは任意に指定できるが、少なくとも1個以上の既定視点を設定する必要がある。例として対象の周囲に4個の既定視点を設置する場合の対象と既定視点の関係を図6に示す。4個の既定視点vp1、vp2、vp3、vp4は、対象(図中のTarget)を中心とする円周上に均等な間隔で配置され、対象の方を向いている。なお、図では表せていないが、視点は3次元空間中に配置されており、高さ方向(図示された平面と垂直な方向)の値も持つ。例えば高さ方向の成分には一般的な目の高さを設定する。図中のarea1~area4は、それぞれ対応する既定視点のカバー空間を表す。既定視点のカバー空間とは、近傍の視点が既定視点となる空間を表す。例えば、既定視点vp1に対してカバー空間area1が定義される。
 <RGBD画像の構成>
 本実施形態の仮想撮影部1で生成される視点非依存カラー画像および視点非依存デプス画像はそれぞれの画像を分割したサブ画像により構成される。各サブ画像は、概略的には、特定の位置に置かれた単一のカメラからソースモデルを撮影して得られる画像に相当する。すなわち、デプス画像のサブ画像(デプスサブ画像)は、単一のカメラからソースモデルが表現する対象を観察した際のデプスを画像形式で記録した情報である。例えば、当該情報をグレースケール画像の輝度値で表した画像の部分領域に格納できる。同様にカラー画像のサブ画像(カラーサブ画像)は、カラー画像の部分領域に格納できる。なお、本発明におけるカメラとして、仮想カメラを想定しているが、少なくともサブ画像の一部を実在するカメラで撮影しても構わない。
 各画像のサブ画像への分割について図7を参照して説明する。視点非依存カラー画像の分割例を図7(a)に示す。視点依存カラー画像VPICは、VPIC_A1~A3、VPIC_B1~24、VPIC_C1~C12の計39枚のカラーサブ画像から構成される。ここで、カラーサブ画像は3個のグループ、すなわちVPIC_A1~A3を含む「VPIC_A」、VPIC_B1~B24を含む「VPIC_B」VPIC_C1~C12を含む「VPIC_C」に分類されている。定性的には、グループ「VPIC_A」のカラーサブ画像は対象全体をカバーする基礎的なカラー情報を提供する。グループ「VPIC_B」のカラーサブ画像はグループ「VPIC_A」で不足したカラー情報を提供する。グループ「VPIC_C」はグループ「VPIC_A」と「VPIC_B」のいずれでも不十分なカラー情報を提供する。
 なお、図示したように、グループ「VPIC_A」に属するカラーサブ画像の解像度として、他のグループ(「VPIC_B」および「VPIC_C」)に属するカラーサブ画像の解像度に比べて高い解像度を設定することが好ましい。基礎的なカラー情報を提供するグループに対してより多くの画素を利用してより多くの情報を割り当てることができるため再生3Dモデルの品質が向上する。
 また、グループ「VPIC_B」に属するカラーサブ画像の個数は、グループ「VPIC_C」に属するカラーサブ画像の個数よりも多くすることが好ましい。グループ「VPIC_C」ではグループ「VPIC_B」で補いきれなかった対象のカラー情報を追加する。そのため、個々のカラーサブ画像が補えるカラー情報の期待値は先に適用されるグループ「VPIC_B」の方が「VPIC_C」に比べて多くなる。そのため、グループ「VPIC_B」に対してより多くの情報を割り当てる、すなわちカラーサブ画像の個数を多くすることで、再生3Dモデルの品質が向上する。
 視点非依存デプス画像の分割例を図7(b)に示す。視点依存デプス画像VPIDは、VPID_A1~A3、VPID_B1~24、VPID_C1~C12の計39枚のカラーサブ画像から構成される。ここで、デプスサブ画像は3個のグループ、すなわちVPID_A1~A3を含む「VPID_A」、VPID_B1~B24を含む「VPID_B」VPID_C1~C12を含む「VPID_C」に分類されている。定性的には、グループ「VPID_A」のデプスサブ画像は対象全体をカバーする基礎的な形状情報を提供する。グループ「VPID_B」のデプスサブ画像はグループ「VPID_A」で不足した形状情報を提供する。グループ「VPID_C」はグループ「VPID_A」と「VPID_B」のいずれでも不十分な形状情報を提供する。
 なお、視点非依存カラー画像と、視点非依存デプス画像とで共通の分割を用いることが好ましい。各画像におけるサブ画像の位置やサイズ、および、サブ画像に関連付けられたカメラパラメータを伝送する情報に含めることが必要であるが、共通の分割を用いることでそのような情報のデータ量を低減できる。
 上記で説明したグループとは異なるサブ画像グループの分類方法として、視点依存画像に含まれるサブ画像のグループと、視点非依存画像に含まれるサブ画像のグループが定義できる。
 視点依存カラー画像および視点依存デプス画像のサブ画像への分割は必ずしも上記の通りでなくてもよいが、視点非依存で対象の情報を表現するために、少なくとも2以上のサブ画像を含んで構成される必要がある。
 また、上記の例で説明したように、視点非依存カラー画像または視点非依存デプス画像を構成するサブ画像を2以上のグループに分類し、一つのグループはより高い解像度のサブ画像を含み、別の少なくとも一つのグループはより低い解像度のサブ画像を含むよう構成することが好ましい。
 なお、上記の例では視点非依存カラー画像と視点非依存デプス画像はそれぞれ1枚の例を示したが、複数枚の画像により構成してもよい。しかしながら、一般的なシステムにおいては、視点非依存カラー画像と視点非依存デプス画像をそれぞれ1枚ずつとする方が好ましい。一般的なビデオデコーダは同時に復号する画像の枚数が制限されているため、少数の画像として処理する方が再生時の負荷が低下する。
 視点依存カラー画像の分割例を図7(c)に示す。既定視点kに対応する視点依存カラー画像(図中のVPDC)は単一のカラーサブ画像VPDC_Akから構成される。視点依存カラー画像の解像度として、視点非依存カラー画像を構成するいずれのカラーサブ画像の解像度よりも高い解像度を設定することが好ましい。視点依存カラー画像は、関連付けられた既定視点付近から観察した対象の情報を、視点非依存カラー画像の情報に加えて補う役割がある。したがって、視点非依存カラー画像に比べて高い密度で対象のカラー情報をサンプリングして画像を構成することで再生3Dモデルの品質が向上する。
 なお、視点依存カラー画像を構成するカラーサブ画像の個数は必ずしも1個でなくてもよく、2個以上のカラーサブ画像から構成してもよい。しかしながら、視点依存カラー画像を構成するカラーサブ画像の枚数は、視点非依存カラー画像を構成するカラーサブ画像の枚数よりも少ないことが好ましい。視点非依存の情報に関しては、対象を複数の視点から観察した情報がより重要であり、したがって一定以上の個数のサブ画像を利用する必要がある。一方、視点依存の情報に関しては、対象を既定視点付近から観察した情報を伝えればよく、対象を多様な方向から観察する重要性が低下する。そのため、サブ画像への分割数を相対的に少なくすることで、一つのサブ画像辺りの解像度を高めることができ、再生3Dモデルの品質が向上する。
 <メタデータの構成>
 メタデータには画像構成情報が含まれる。画像構成情報は、視点非依存カラー画像、視点非依存デプス画像、視点依存カラー画像それぞれに含まれるサブ画像の個数と、各サブ画像の位置・サイズ情報を含む。例えば、サブ画像の位置・サイズ情報は、サブ画像の画像上の位置を表す座標とサブ画像の高さと幅により構成される。
 メタデータにはカメラ情報が含まれる。カメラ情報は、視点非依存カラー画像と視点非依存デプス画像に含まれる各サブ画像に関連付けられた仮想カメラのカメラパラメータを含む。ここでのカメラパラメータは、三次元空間におけるカメラの位置と方向を表す外部カメラパラメータと、カメラ座標系での空間上の点の位置と画像上の座標との対応関係を表す内部カメラパラメータを含む。内部カメラパラメータは、例えば、撮影画像の幅と高さ、焦点距離、および、撮影画像上の光軸位置との組み合わせにより表現される。
 加えて、メタデータにはデプスレンジ変換情報を含んでいてもよい。デプスレンジ変換情報は、デプス画像の画素値と、実際のデプス値との関係を示す情報である。例えばデプスサブ画像毎に付与されるデプスレンジ変換情報として、デプスサブ画像のデプスオフセットを利用できる。実際のデプス値からデプスオフセットを引いた値をデプスサブ画像の画素値に設定することで、限られた画素値の値域でもより広い範囲のデプスが表現できる。なお、デプスオフセットには、サブ画像の各画素に対応するデプスの最小値よりも小さい値を設定しておく必要がある。
 <画面撮影部11>
 画像撮影部11は、入力されるソースモデルおよびカメラ情報に基づき、RGBD画像を生成して出力する。
 まず、視点非依存カラー画像を作成する。カメラ情報から、視点非依存カラー画像撮影のための仮想カメラの個数および各仮想カメラのカメラパラメータを読みだす。仮想カメラ毎にカメラパラメータを用いた投影により対象を仮想的に撮影し、結果を視点非依存カラー画像上の空き領域に記録する。仮想カメラ毎のカメラパラメータおよび撮影結果の記録位置はメタデータに追加される。
 次に、視点非依存デプス画像を作成する。詳細については視点非依存カラー画像の場合と同様であるため省略する。なお、視点非依存カラー画像と視点非依存デプス画像で共通の仮想カメラセットを撮影に用いる場合、一方のカメラパラメータおよび撮影結果の記録位置のメタデータへの追加を省略してもよい。
 次に、視点依存カラー画像を作成する。カメラ情報から視点依存カラー画像用のカメラパラメータを読みだす。K個の既定視点に含まれる各既定視点について、読みだしたカメラパラメータでソースモデルを撮影して視点依存カラー画像とする。カメラパラメータをメタデータに追加する。
 以上の手順により、画像撮影部11は、視点非依存カラー画像、視点非依存デプス画像、および、K枚の視点依存カラー画像から構成されるRGBD画像を生成して出力する。合わせて、各サブ画像の撮影に用いたカメラパラメータと、撮影結果の画像上の位置・サイズ情報を含むメタデータを生成して出力する。
 <3Dモデル再生部12>
 3Dモデル再生部12は、入力されるRGBD画像に基づき再生3Dモデル(再生モデル)を生成する。ここで、再生モデルとは、RGBD画像に基づき再現される3Dモデルである。再生モデルは例えば頂点、メッシュ、テクスチャにより表現される3Dモデルである。
 3Dモデル再生部12は、入力されるRGBD画像に含まれる視点非依存デプス画像を、同じく入力されるカメラ情報を利用して統合して3Dモデルの形状を表すメッシュを生成する。メッシュにテクスチャマッピング処理によりカラー情報を付与した上で再生モデルを生成して出力する。
 3Dモデル再生部12の詳細な構成を図4に示す。3Dモデル再生部12は、デプス統合部121、メッシュ生成部122、および、テクスチャ設定部123を備える。以下の3Dモデル再生部12の説明では、視点非依存デプス画像に含まれるデプスサブ画像を単にデプス画像とも呼ぶ。
 <デプス統合部121>
 デプス統合部121では、入力されたRGBD画像に基づきデプス画像統合処理(デプス統合)を実行して生成されたボリュームデータを出力する。ボリュームデータとは、3D空間をボクセルに分割し、ボクセル毎にデータを格納する場合のデータ全体を表す。ボクセルは3D空間をグリッド状に分割して得られる矩形領域である。3D空間に存在するボクセルの集合をボクセル空間と呼称する。
 デプス統合処理では、デプス画像およびカメラパラメータに基づき、ボクセル毎のボクセルデータを計算する。ボクセルデータにはTSDF(Truncated Signed Distance Function)値およびウェイト値を含む。初期状態では、ボクセルの持つTSDF値及びウェイト値はいずれも0に設定する。TSDF値は、ボクセルから3Dモデルの面までの符号付き距離を表す。TSDF値の絶対値が小さい程、面に近いことを意味する。TSDF値は、例えば、正のTSDF値は面よりもカメラ側にボクセルが位置することを意味する。負のTSDF値は、面よりも奥にボクセルが位置することを意味する。また、ウェイト値は、対応するTSDF値の信頼度を表す数値であり、最小値は0である。
 上述したボクセルのTSDF値及びウェイト値を、デプス画像と、該デプス画像に対応したカメラパラメータに基づき、計算する。具体的には、カメラパラメータに含まれる、カメラの位置及び向きに配置されたカメラと、対応するデプス画像の、各画素を通る光線上にあるボクセルについて、TSDF値及びウェイト値を計算する。ただし、光線上の全てのボクセルについて両値を計算する必要は無く、カメラから見て、光線上にある3Dモデルの面(対応する画素のデプス値)までの間に存在するボクセルと、同面から奥にある任意の数のボクセルについて、両値を計算すれば良い。
 ボクセルのTSDF値は、ボクセルの位置から、光線上にある3Dモデルの面(対応する画素のデプス値)までの距離である。またウェイト値は、例えば、光線上にあるデプス画像の画素の法線と、該光線の内積である。ここでは、ウェイト値は0及び正の値のみを考える。なお、ボクセルが0でないTSDF値及びウェイト値を保持している場合は、既存のTSDF値と、新たなTSDF値について、対応するウェイトが重みである重み付き平均を計算し、該平均値を、新たなTSDF値として該ボクセルのTSDF値に上書きする。また、ウェイト値は、既存のウェイト値と新たなウェイト値を合計した数値を新たなウェイト値として、該ボクセルのウェイト値に上書きする。以上の計算を、全てのデプス画像の、全ての画素について順に行う。本発明においては、視点非依存RGBD画像に含まれる、全てのデプスサブ画像の、全ての画素について計算する。
  (TSDF統合の別の例1)
 なお、上記の説明では、カメラの光線上にあるボクセルを対象としてTSDF値及びウェイト値を計算すると説明しているが、各値を計算する対象とするボクセルを別の方法で選んでも良い。例えば、デプス画像の各画素に記録されたデプスサンプルについて、デプスサンプルの法線方向にあるボクセルを対象としてもよい。デプスサンプルの法線は、デプス画像の画素毎に近傍画素のデプスサンプルから推定される面に垂直な方向を法線として利用できる。統合では、デプスサンプルの法線上にあり、該画素から所定の閾値以内の距離にあるボクセルについて、TSDF値及びウェイト値を計算する。上述の構成により、少ない枚数のデプス画像を統合する場合であっても、再生モデルにおけるホール領域の発生を抑制する効果を得られる。
  (TSDF統合の別の例2)
 なお、デプスサンプルの法線を利用した別の方法によりデプス統合することもできる。デプス画像を構成する各画素に記録されたデプスサンプルに対して以下の処理を実行する。
 (1)まず、デプスサンプル毎に処理対象ボクセル群を決定する。処理対象ボクセル群は、デプスサンプルが含まれるボクセルを中心として所定の範囲内のボクセルを含んで構成する。例えば、デプスサンプルを含むボクセルを中心とする一辺3ボクセルの立方体に含まれるボクセルを処理対象ボクセル群とする。
 (2)処理対象ボクセル群に含まれる各ボクセルを対象ボクセルに設定し、対象ボクセル毎にTSDF値およびウェイト値を更新する。
 (3)対象ボクセルの中心とデプスサンプルの距離を更新TSDF値とする。デプスサンプルに対応するカメラ光線とデプスサンプル法線の角度に基づく法線ウェイトを計算する。法線ウェイトは光線と法線の角度が大きいほど小さい値を設定する。対象ボクセル中心とデプスサンプル上を通過する法線と平行な直線の距離に基づき距離ウェイトを設定する。前記距離が長いほど小さい値のウェイトを設定する。新ウェイト値を前記法線ウェイトと距離ウェイトに基づき導出する。例えば、0から1の範囲に正規化した法線ウェイトと距離ウェイトの積を新ウェイト値とする。
 (4)新TSDF値と新ウェイト値を用いて、対象ボクセルのTSDF値とウェイト値を更新する。更新には、前述のTSDF統合例で説明した方法が利用できる。
 上記の手順によれば、デプスサンプルが含まれるボクセルだけではなく近傍のボクセルのTSDF値も更新している。そのため、より少ないデプスサンプルから広い空間範囲のTSDF値を更新できるためホールの少ないボリュームデータが生成できる。一般にデプスサンプルからカメラ光軸と垂直な方向に離れるほどデプスの信頼性は低下する。上記手順によれば、距離ウェイトを用いることで信頼性の低い位置のボクセルに対するデプスサンプルの影響を抑制できるため再生モデルの品質を高めることができる。
  (TSDF統合の並列実行を可能とする例)
 なお、上述のデプス画像統合処理では、デプス画素の統合毎にTSDF値をウェイトに基づく平均値により計算していた。しかし、この計算手順によると、複数のデプス画素を用いて同一ボクセルのTSDFを更新する場合にデプスの統合順序によって結果が変化するという問題が生じる。そのため、ウェイトを乗じたTSDF値を加算するバッファB1と、ウェイトを加算するバッファB2を設け、全てのデプス画素の処理が完了した後にバッファB1の値をバッファB2の値で除算することでTSDF値を導出してもよい。このような手順で統合することで、最終的なTSDF値がデプス画素の処理順序に依存することなく計算できるため、並列計算が実行可能な環境下で高速にTSDF値が計算できる。なお、TSDFの精度とウェイトの精度によってはバッファB1の値域が問題となる場合がある。そのような場合には、バッファB1において、量子化したウェイトとTSDF値の積を加算するような構成にすることで桁あふれによるオーバフローを避けることができる。
 なお、上述のデプス画像統合処理では、デプス画像に含まれる全画素を対象として、TSDF値及びウェイト値を計算すると説明したが、デプス画像中の背景部に該当する画素を、計算から除外しても良い。そのような構成により、再生モデルの生成に寄与しない計算を省略できるため処理速度を向上する効果を得られる。
 また、デプス画像に映された物体の輪郭付近の画素を、統合の対象から除外しても良い。上述した物体の輪郭とは、例えば、デプス画像内の前景部と背景部の境界部分にある画素を指す。例えば、デプス画像中の画素であり、隣接する画素が持つデプス値との差が任意の値よりも大きい画素を境界画素に設定できる。デプス画像は一般的には符号化されて蓄積または伝送される。その際、物体輪郭近辺のデプス値は、符号化による歪が生じやすい。そのため、輪郭近辺のデプスを統合することで再生モデルに悪影響を及ぼす可能性がある。例えば、再生モデルが歪み、品質が低下する。そこで、統合の際に輪郭近辺のデプスを統合から除外することが好ましい。
 なお、デプス画像毎に、異なる範囲のボクセルについて、デプス統合計算を行っても構わない。具体的には、前述のようなデプス画像の優先度を判定した上で、優先度の高いデプス画像の統合時に、より広い範囲のボクセルについてTSDF値及びウェイト値を計算する。例えば、優先度の高いデプス画像については、デプスの画素に対応する面を中心とする一辺3ボクセルの立方体に含まれるボクセルのTSDF値及びウェイト値を計算し、優先度の低いデプス画像についてはデプスの画素に対応する面を含むボクセルのみTSDF値及びウェイト値を計算する。上述の構成により、後者のデプス画像をデプス統合する際に、該デプス画像が、ホール領域の周辺に及ぼす影響を抑えられるため、該デプス画像を統合することで再生モデルに発生するノイズを抑制する効果を得られる。
 <メッシュ生成部122>
 メッシュ生成部122では、入力されるボリュームデータに含まれるTSDF値とウェイト値を参照してMarching Cubes方を適用して3Dモデルのメッシュを導出する。メッシュ導出処理において、記録されたウェイトが0であるボクセルの計算をスキップすることが好ましい。それにより処理時間が低減できる。
  (TSDFフィルタ)
 なお、Marching Cubes法により3Dモデルを生成する処理の前に、ボクセル空間にフィルタを適用しても良い。例えば、TSDF値の補間を行うフィルタを適用できる。具体的には、負のTSDF値及び非0のウェイトを保持しているボクセルと隣接し、保持しているTSDF値及びウェイト値が0であるボクセルに、0でない負のTSDF値及びウェイト値を与えるフィルタである。該ボクセルに与えられるTSDF値は、例えば、隣接する、負のTSDF値及び0でないウェイトを保持しているボクセルのTSDF値の平均値であっても良い。また、ウェイト値は、0ではない最低の値に設定される。言い替えると、Marching Cubes法において計算がスキップされないウェイトであって、与えられうるウェイト値の0でない最低値である。上述の構成により、再生モデルに発生するホール領域を埋めることができ、再生モデルの精度を高める効果を得られる。
 また例えば、上述のフィルタをかけた後でかけられるフィルタであって、上述のフィルタによりTSDF値及びウェイトが与えられたボクセルと隣接し、正のTSDF値及び0でないウェイトを保持しているボクセルと隣接し、保持しているTSDF値及びウェイト値が0であるボクセルに、0でない正のTSDF値及びウェイト値を与えるフィルタである。該ボクセルに与えられるTSDF値は、例えば、隣接する、正のTSDF値及び0でないウェイトを保持しているボクセルのTSDF値の平均値であっても良い。また例えば、上述のフィルタによりTSDF値及びウェイトが与えられたボクセルのTSDF値の、符号を入れ変えた値であっても良い。また、ウェイト値は、0ではない最低の値に設定される。
 上述の構成により、デプス情報を統合することで計算されるボクセル空間を補間することができる。これにより、ホール領域に相当するボクセルであって、正のTSDFを持つボクセルと隣接しており、かつウェイトが0のボクセルに対し、負のTSDF値を与えることができる。即ち、再生モデルに発生するホール領域をさらに埋めることができ、再生モデルの品質を高める効果を得られる。
 上述の2種のフィルタは、TSDF値の符号を入れ変えたフィルタであっても構わない。
 また例えば、任意の値よりも小さいウェイト値を持つボクセルについて、TSDF値及びウェイト値を0に置き換えるフィルタを使用してもよい。上述の構成により、信頼度の低いTSDF値を取り除くことで、再生モデルに発生するノイズを抑制することができ、再生モデルの品質を高める効果を得られる。
 <テクスチャ設定部123>
 テクスチャ設定部123では、テクスチャマッピング処理を実行する。テクスチャマッピング処理は、概略的には、メッシュ構造の構成要素である三角形の各頂点に対して対応するRGBD画像に含まれるカラー画像(視点非依存カラー画像または視点依存カラー画像)上の画素位置を決定する処理である。そのような画素位置をテクスチャ情報と呼称する。以下では、視点非依存カラー画像のカラーサブ画像、および、視点依存カラー画像のカラーサブ画像を総称して単にカラーサブ画像と呼称する。各カラーサブ画像には対応するカメラパラメータがRGBD画像に伴うメタデータに含まれている。
 テクスチャマッピング処理では、三角形の各頂点を各カラーサブ画像に投影することで、各頂点に対応する各カラーサブ画像上の画素位置(UV座標)を導出する。
 次に、いずれのカラーサブ画像上のUV座標を利用するかを決定する。具体的には、メッシュ構造を構成する三角形が投影されたカラーサブ画像上の三角形の面積が最も広いカラーサブ画像を選択する。
 なお、オクルージョン判定を実行し、三角形が特定のカラーサブ画像に映されていないと判定された場合には計算を省略して当該カラーサブ画像を候補から除外してもよい。これにより誤投影による品質劣化を避け、かつ、処理量を削減できる。
 上記手順によりカラーサブ画像およびUV座標を決定することで、メッシュを構成する三角形に対し、当該三角形を最も多い画素数で撮影したカラーサブ画像の部分領域をマッピングできる。したがって、三角形に解像度の高い、すなわち、詳細なカラーを対応付けて再生できる。
 また、本発明においては、RGBD画像は視点非依存カラー画像と視点依存カラー画像を含んで構成されている。視点依存カラー画像は視点非依存カラー画像に較べて特定の範囲内の視点位置から観察した対象の情報を高解像度で含んでいる。そのため、視点依存カラー画像がカバーする視点範囲から観察される対象の表面については、上記の手順でカラーサブ画像を選択した場合に視点依存カラー画像上の領域が選択され高解像度のテクスチャが割り当てられる可能性が高い。したがって、視点非依存カラー画像と視点依存カラー画像を併用し、かつ、上記の手順によりテクスチャのUV座標を決定することで、再生モデルの品質を向上する効果が得られる。
 <再生モデル生成処理の手順>
 3Dモデル再生部12における再生モデル生成処理は以下の手順で実行される。まず、デプ統合部121は入力RGBD画像に含まれるデプス画像に基づきボリュームデータを生成してメッシュ生成部122に出力する。次に、メッシュ生成部122は、入力されたボリュームデータに基づいてメッシュを生成してテクスチャ設定部に出力する。最後に、テクスチャ設定部123は、入力RGBD画像に含まれるカラー画像と入力されたメッシュに基づいてテクスチャ情報を決定し、メッシュとテクスチャ情報を合わせて再生モデルとして出力する。
 以上の処理により、3Dモデル再生部はデプス画像から再生3Dモデルを生成する。
  (デプス画像プリフィルタ)
 なお、3Dモデル再生部12に入力されたRGBD画像に含まれるデプス画像をそのまま使用せず、フィルタを適用したデプス画像を使用してもよい。例えば、バイラテラルフィルタに代表される平滑化フィルタを適用する。また、フィルタ処理ではなくデプス画像の一部領域のみを利用してもよい。例えば、ソースモデルが前景部分と背景部分から構成される場合、前景部分に相当するデプス画像の領域のみを用いてもよい。
  (デプス画像毎の統合ウェイト)
 また、デプス情報に含まれるデプス画像毎に、異なるウェイト値の最大値を用いて、デプス統合計算を行っても構わない。具体的には、デプス画像の優先度を決定し、優先度の高いデプス画像により高いウェイト値を与えてもよい。デプス画像の優先度は、例えば、カメラの設定順が早いほど高い優先度を与えるよう設定できる。すなわち、設定順が早いカメラに対応するデプス画像を統合する際に用いたウェイト値よりも低いウェイト値を用いて、設定順が遅いカメラに対応するデプス画像を統合する。例えば、前者のデプス画像には1倍のウェイトを与え、後者のデプス画像には0.1倍のウェイトを使用する。また例えば、後者のデプス画像の統合には、0ではない最低値のウェイトを用いる。上述の構成により、設定順の早いカメラによるデプス画像に比べ、設定順の遅いカメラによるデプス画像は、デプス統合への影響が弱まるため、ホール領域以外の領域に与える影響が抑制される。これにより、再生モデルの精度の低下を防ぐ効果を得られる。
 また、同様に、解像度の高いデプスをより優先度の高いデプスとしてもよい。すなわち、解像度の高いデプス画像のウェイト値よりも、解像度の低いデプス画像のウェイト値を小さくしても良い。例えば、1280×960の解像度を持つデプス画像には1倍のウェイトを与え、640×480の解像度を持つデプス画像には0.25倍のウェイトを与え、デプス統合の計算を行う。上述の構成により、デプス統合において、デプスの精度を信頼できる高解像度のデプス画像の影響を強めることができるため、再生モデルの精度を向上させる効果を得られる。
 なお、カメラ情報に含まれるカメラパラメータに、カメラの優先度の情報が付随する場合、該優先度に基づいてRGBD画像を生成しても良い。具体的には、カメラの優先度の高いカメラから順に撮影することでサブ画像を生成してRGBD画像に追加する。RGBD画像を格納する画像の解像度には一般に制限が有るため、必ずしも全てのサブ画像をRGBD画像に追加できるわけではない。このため、カメラの優先度に基づいてデプス画像をデプス情報に追加することで、重要なサブ画像を先に追加する。これにより、重要なサブ画像が解像度の制約により追加できないケースを減らすることができる。
 <エラー領域検出部13>
 エラー領域検出部13は、入力されるソースモデルと再生モデルを比較することでエラー領域を検出して出力する。エラー領域には例えば再生モデルの一部がソースモデルに比べて欠損しているようなホール領域を含む。エラー領域は頂点もしくはメッシュにより表現される。
 前述のホール領域は、さらに詳しく言えば、3Dモデル中の特定の領域である。ソースモデルを例にとって説明すると、ソースモデルの該領域にホールが存在せず、該領域に対応する再生モデル中の領域にホールが存在する領域である。言い替えると、ソースモデルには存在しないはずのホールが、再生モデルの対応する箇所に発生してしまっている領域である。本発明の目的の一つは、上述した再生モデル中のホール領域を抑制するRGBD画像を決定することにある。以降の説明において、ホール領域を抑制もしくは取り除く処理を指して、ホールを埋める若しくはホールを補償する等とも示す。
 ホール領域を推定する方法は問わない。例えば、ソースモデル中のある頂点と、該頂点と最近傍である再生モデル中の頂点までの距離を計算し、距離が一定値以上であれば、ソースモデルの頂点はホール領域に相当する頂点だと判断しても良い。なお、この場合、実際にホールが存在している領域に限らず、参照モデルと再生モデルの間で形状の差が大きい領域もホール領域と判断される。上述の構成により、上述した形状の差が大きい領域に関しても、カメラパラメータの追加により修正する効果を得られる。
 また例えば、ソースモデル中のある頂点と、該頂点と最近傍である再生モデル中の頂点について、該再生モデル中の頂点が所属するメッシュの数が一定以下であれば、該参照モデルの頂点はホール領域に相当すると判断する方法であっても良い。TSDF値とウェイト値を用いて再生モデルのメッシュ構造を導出する際に、再生モデル内のホール領域と隣接しない頂点が所属するメッシュの数は、再生モデルが三角メッシュにより構成されている場合、通常は4から8の範囲に収まる。故に、例えば、再生モデル内のある頂点が所属するメッシュの数が3以下であれば、ホール領域に隣接した頂点だと判断できるため、該参照モデル中の頂点はホール領域に相当すると判断しても良い。上述の構成により、上述したような最近傍頂点同士の距離では検出できないようなホール領域であっても検出することができる効果を得られる。また、上記の方法によるホール検出は複雑な計算を要しないため、リアルタイムのホール検出が可能となる効果を得られる。
 また、エラー領域検出部13では、再生モデルの精度を追加で導出してもよい。再生モデルの精度とは、3Dモデル再生部12において生成される再生モデルが、参照モデルに対しどの程度近しいのかを表す指標である。再生モデルの精度は、例えば、参照モデルの頂点と再生モデルの頂点について、最近傍の頂点間の距離の平均で計算される。また例えば、参照モデルから見た再生モデルのRMSE(Root Mean Square Error)値である。また例えば、任意のカメラパラメータを持つカメラで参照モデルを見た時のデプス画像と、再生モデルを見た時のデプス画像とで、PSNR等の画像間の誤差を計算し、該精度を、再生モデルの精度として扱っても良い。
 以上の処理により、ホール領域と判断された参照モデルの頂点若しくはメッシュを、参照モデルから抜き出すことで、エラー領域として抽出する。
 <カメラ情報設定部14>
 カメラ情報設定部14は、入力されるエラー領域情報を分析することで、追加すべき仮想カメラのカメラパラメータを決定してカメラ情報を生成して出力する。
 カメラ情報の設定方法として、初期カメラ設定方法と、追加カメラ設定方法の2種類の方法を用いる。初期カメラ設定方法は、特定時刻のソースモデルに対して初回の仮想カメラ設定時に使用される。2回目以降の仮想カメラ設定には追加カメラ設定方法が使用される。
 初期カメラ設定の時点では、カメラ情報は空であり、再生モデルが存在しないため手がかりとしてエラー領域が与えられていない。そのため、初期カメラ設定では、視点非依存カラー画像および視点非依存デプス画像を撮影するための仮想カメラの配置を、3D空間におけるソースモデルの配置を利用して決定する。具体的には、ソースモデルを包含するバウンディングボックスを配置し、バウンディングボックスを囲むようにカメラを配置して外部カメラパラメータを決定する。内部カメラパラメータは、ソースモデルの全体が仮想カメラで撮影されるサブ画像に含まれるような値に設定する。
 視点依存カラー画像の撮影に用いる仮想カメラは既定視点を仮想カメラ位置とし、ソースモデル全体が撮影画像に含まれるような内部カメラパラメータを設定する。
 追加カメラ設定時には、エラー領域情報を参照して視点非依存カラー画像および視点非依存デプス画像の撮影に用いる仮想カメラを決定する。追加仮想カメラを決定する手順として、具体的には、まず入力されたエラー領域情報に含まれるエラー領域をクラスタリングし、複数のクラスタに分解する。以降は、クラスタに分解されたエラー領域をサブモデルと呼ぶ。次に、個々のサブモデルについて、撮影に適したカメラパラメータを決定し、それらの追加仮想カメラのカメラパラメータとする。撮影に適したカメラパラメータは、例えば、サブモデルに含まれる頂点の法線と、カメラの光線で作られる偏角の内積が大きくなるような、カメラの位置、向き及び焦点距離を持つカメラパラメータである。また例えば、サブモデルの重心をカメラの光軸に捉えるような位置及び向きを持つカメラパラメータである。また例えば、サブモデルの全体を画面内に収めつつ、画面全体にサブモデルを写すような位置、向き及び焦点距離を持つカメラパラメータである。
 なお、一度に追加される仮想カメラのカメラパラメータの一部を共通化することが好ましい。具体的には、仮想カメラの解像度を共通の値に設定する。追加仮想カメラの個数は、エラー領域を既存のカメラと大きく重複せずにカバーする必要があるため、初期仮想カメラに比べて個数が多い。そのため、カメラパラメータを共通化することで、カメラ毎に別のカメラパラメータを送る必要がなくなるため、メタデータのデータ量を削減できる。加えて、仮想カメラの撮影画像はサブ画像として利用されるため、共通の解像度とすることで隙間なく画像を利用できる効果もある。特に、共通化する解像度は高さ64画素、幅64画素であることが好ましい。HEVCに代表される一般的なビデオ圧縮においては一辺64画素の正方形のブロックが処理単位として使用される。ブロック境界には歪が生じやすいため、仮想カメラの解像度をビデオ圧縮におけるブロックサイズと一致させることでサブ画像の歪が軽減される。そのため、再生モデルの品質が向上する。
  (クラスタリングの例1)
 エラー領域のサブモデルへのクラスタリングには、例えば、適当な頂点を基準に、該頂点に近い頂点であり、かつ該頂点の法線と近い法線を持つ頂点を、該頂点と同じクラスタに振り分けるクラスタリング方法が適用できる。これにより、法線の向きが類似し、近い位置に集まっている頂点を、サブモデルとして抽出できる。
  (クラスタリングの例2)
 クラスタリングに別の方法を用いてもよい。具体的には、エラー領域のクラスタリングは空間分布によるクラスタリングとフェイス法線によるクラスタリングの2段階で行う。まず、エラー領域を構成するフェイスを空間分布に基づき複数の空間クラスタに分類する。クラスタの分類は3D空間内で近傍に位置するフェイスを集めることで実行される。例えば、空間をグリッド状のボクセルに分割し、内部にフェイスが存在する隣接ボクセルを結合して得られるボクセル群に含まれるフェイス群を一つの空間クラスタとする。
 フェイス法線に基づくクラスタリングでは、同一の空間クラスタに含まれるフェイスの法線分布を調べ、分布中央付近の類似法線を持つフェイス群を一つの法線クラスタとする。さらに、空間クラスタに属するフェイスのうち、前記法線クラスタに含まれないフェイスに対して同様の方法を繰り返して別の法線クラスタを抽出する。空間クラスタには複数の方向の面が含まれる場合があり、そのような場合に追加で導出した法線クラスタは有効である。以上の手順により抽出された法線クラスタは、空間的に近い位置にあり、かつ類似方向の法線を持つフェイスを含んでいる。そのため、一つの仮想カメラにより撮影できる。
 なお、クラスタリングにより得られたクラスタのフェイス数が少ない場合には、同クラスタを仮想カメラ設定の対象から除外しても構わない。クラスタのフェイス数が少ない場合には、エラーと判定されたフェイスが少ないことを意味する。したがって、そのようなクラスタを撮影しても改善幅が小さいことが多いため撮影されるサブ画像の増加に伴う伝送データ量に見合わない確率が高い。したがって、そのようなクラスタへの仮想カメラ設定を省略することで、伝送データ量を低減できる。
  (追加仮想カメラの解像度)
 なお、追加カメラ設定時に撮影に使われる仮想カメラの解像度は、初期カメラ設定時に使われる仮想カメラの解像度に比べ、低い解像度であることが好ましい。初期カメラとして使用される仮想カメラにより撮影されるデプス画像は、再生モデルの詳細を保つために十分な解像度が必要となる。一方、追加カメラ設定処理で追加される仮想カメラにより撮影されるデプス画像は、エラー領域を修正することを目的とするため、詳細の情報を保持する必要性が小さい。そのため、初期カメラ設定時に比較して低い解像度としても再生モデルの品質への影響が小さい。上述の構成により、追加カメラ設定処理で追加される仮想カメラの解像度を減らすことで、デプス情報全体のデータ量を減らすことができ、送信データ量を抑制できる。
  (直前フレームのカメラ情報を利用)
 なお、ソースモデルが時間的に連続した対象を表す時刻毎のフレーム毎に表現される場合、初期カメラ設定は前に処理したフレームにおけるカメラ情報を参照して決定しても良い。具体的には、前フレームにおいて使用されたカメラ情報を設定しても良い。そのような構成により、フレーム毎に生成されるRGBD画像を構成する各サブ画像を撮影する仮想カメラ位置の時間変化を抑制できるため、時間相関を利用することでRGBD画像に含まれる画像の圧縮率が向上する。したがって、伝送データ量を抑制できる。
 また、前フレームのカメラ情報を利用する際、3Dモデル再生部12において生成される再生モデルの精度が一定以下である場合、カメラ情報を初期化して前フレームのカメラ情報に依存しない方法で仮想カメラを設定してもよい。この処理により、時間変化により参照モデルが大きく変化し、エラー領域が変化するような場合であっても、余計な仮想カメラの追加を抑制できる。
  (重要領域に対する追加カメラの設定)
 なお、カメラパラメータを設定する際、参照モデル中の重要な領域を、多数のカメラ若しくは高い解像度のカメラで撮影するような構造であっても良い。上述した重要な部分とは、例えば、参照モデルに人間が含まれている場合、該人間の頭部若しくは顔である。また例えば、参照モデルに数値が含まれている場合、該数値が描かれた領域である。いずれの場合でも、重要な領域を検出する方法は問わない。この他、上記した重要な部分は、任意に設定されても良い。上述の構成により、3Dモデル受信装置200において、該重要な領域を精度良く再現できる効果を得られる。
 <RGBD画像生成処理>
 本実施形態に関わる仮想撮影部1におけるRGBD画像生成処理の手順を図5を参照して説明する。図5は、RGBD画像生成処理の流れを示すフローチャートである。
 (S100)カメラ情報設定部14は初期カメラセットを決定しカメラ設定情報として画像撮影部11に出力する。次にS101を実行する。
 (S101)画像撮影部11は、入力されたソースモデルとカメラ設定情報に基づき、RGBD画像および付随するメタデータを生成する。RGBD画像およびメタデータは3Dモデル再生部12に出力される。次にS102を実行する。
 (S102)3Dモデル再生部12は、入力されたRGBD画像に基づき、再生モデルを生成してエラー領域検出部13に出力する。次にS103を実行する。
 (S103)エラー領域検出部13は、入力された参照モデル及び再生モデルに基づき、エラー領域を検出してエラー検出情報としてカメラ情報設定部14に出力する。次にS104を実行する。
 (S104)カメラ情報設定部14は、入力されたエラー検出情報に基づき、カメラ情報を生成する。次にS105を実行する。
 (S105)ループ終了条件を満たすか否かを判定する。ループ終了条件を満たす場合、S106の処理に進む。ループ終了条件を満たさない場合、カメラ情報設定部14で生成されたカメラ情報が画像撮影部11に入力され、S101の処理に進む。
 (S106)S101で生成された最新のRGBDデータを外部に出力して処理を終了する。
 上述の、RGBD画像生成処理では、S101からS104の処理を繰り返す毎に、RGBD画像にデプスサブ画像が追加される。S103とS104の処理で生成されるカメラ情報は、デプス情報を統合することで生成される再生モデルに存在するエラー領域を観察するようなカメラパラメータであるため、追加デプス画像は、上述のエラー領域を改善するために有効な情報を含むデプス画像となる。従って、上述の処理手順によりデプス画像を順次追加してRGBD画像を生成することで、3Dモデル再生部12において、上述のエラー領域を改善した再生モデルを生成できる効果を得られる。言い替えると、より参照モデルに近い再生モデルを生成できる。
 なお、S104において、必ずしも全てのサブモデルについてカメラパラメータを生成する必要はなく、特定の条件を持つサブモデルについて、カメラパラメータを生成しなくとも良い。例えば、サブモデルに含まれるメッシュの面積の合計が、任意の値を下回ることである。言い替えると、対応するホール領域の面積が、任意の値を下回るサブモデルについては、カメラパラメータを生成しなくとも良い。上述の構成により、小さいホール領域を埋めるためにデプス画像が追加されることがなくなり、デプス情報全体のデータ量を減らすことができ、送信するトラフィック量を抑制することが可能となる。
 なお、S104において生成されるカメラパラメータには、カメラの優先度の情報が付与されても良い。上述のカメラの優先度とは、サブクラスタ毎に設定される情報であり、画像撮影部11において、デプス画像をRGBD画像に追加する順序を表すために用いられる。
 カメラの優先度を設定する方法とは、例えば、サブモデル毎にメッシュの面積の合計値を計算し、合計値の高い順に、優先度を設定する方法であっても良い。
 上記S105におけるループ終了条件とは、例えば、S101の実行回数が利用できる。S101の実行回数が既定の回数以上であればループ終了条件を満たしたと判定する。
 また例えば、S101において、デプスサブ画像がRGBD画像に追加出来なくなった場合、ループ終了条件を満たしたと判定しても良い。
 また例えば、S102において、生成された再生モデルの精度が任意の値を上回った場合、ループ終了条件を満たしたと判定しても良い。
 また例えば、S103において、検出されたホール領域の面積が任意の値を下回った場合、ループ終了条件を満たしたと判定しても良い。
 また例えば、S102において、生成された再生モデルの精度が、前のループで生成された再生モデルの精度を下回った場合、ループ終了条件を満たしたと判定しても良い。この場合、出力されるRGBD画像は、前のループで生成されたRGBD画像を用いることが好ましい。
 なお、S102からS104の処理において、途中でループ終了条件を満たした場合、S104が終了するまでの処理をスキップしても良い。
 <変形例:テクスチャ設定部123a>
 上記実施形態で説明したテクスチャ設定部123の代わりに異なる方法でテクスチャマッピング処理を実行するテクスチャ設定部123aを用いてもよい。図8は、テクスチャ設定部123aの構成を表すブロック図である。テクスチャ設定部123aは、RGBD画像分離部1231、視点非依存テクスチャ設定部1232、および、視点依存テクスチャ設定部1233を含んで構成される。テクスチャ設定部123aの入出力はテクスチャ設定部123の入出力と同様である。すなわち、RGBD画像とメッシュを入力としてテクスチャ付メッシュを出力する。
 RGBD画像分離部1231では、入力されるRGBD画像を視点依存カラー画像、視点非依存カラー画像、デプス画像に分離して出力する。
 視点非依存テクスチャ設定部1232では、入力されるメッシュと視点非依存カラー画像に基づいてテクスチャマッピングを行いテクスチャ付メッシュとして出力する。テクスチャマッピングでは、メッシュを構成するフェイスの頂点毎に対応する視点非依存カラー画像上の画素位置をUV座標として設定する。具体的な方法は、テクスチャ設定部123で説明した方法が適用できる。
 視点依存テクスチャ設定部1233では、入力されるテクスチャ付メッシュと視点依存カラー画像に基づいてテクスチャマッピングを行い、更新したテクスチャ付メッシュを出力する。具体的には、テクスチャ付メッシュを構成するフェイスの頂点毎に視点依存カラー画像上の画素位置をUV座標として設定する。頂点の対応する画素位置は、視点依存カラー画像に付随するカメラパラメータに基づく投影により計算できる。なお、頂点が視点依存カラー画像内に投影できない場合はUV座標の設定をスキップする。すなわち、視点依存カラー画像内に投影される頂点についてはその画素位置によりUV座標を上書きし、そうでない場合は、設定済のUV座標を維持する。
 テクスチャ設定部123aによるテクスチャマッピング処理は次の手順で実行される。まず、RGBD画像分離部1231は入力のRGBD画像を分離して視点非依存カラー画像を視点非依存テクスチャ設定部1232に、視点依存カラー画像を視点依存テクスチャ設定部1233にそれぞれ出力する。次に、視点非依存テクスチャ設定部1232は、入力のメッシュおよび視点非依存カラー画像に基づいてテクスチャ付メッシュを生成して視点依存テクスチャ設定部1233に出力する。最後に、視点依存テクスチャ設定部1233は、入力のテクスチャ付メッシュと視点依存カラー画像に基づいてテクスチャ付メッシュを更新して出力する。
 上記手順によると視点依存カラー画像を利用してテクスチャが設定できるフェイスについては、視点非依存カラー画像よりも視点依存カラー画像が優先して選択される。視点依存カラーは視点非依存カラーよりも高解像度の対象のカラー情報を含んでいるため、品質の高いテクスチャが設定されたテクスチャ付メッシュを生成して出力できるため、再生モデルの品質が向上する。
  (依存・非依存テクスチャの境界フィルタ)
 視点依存テクスチャ設定部1233において、視点依存カラー画像がテクスチャとして適用されるフェイスと、視点非依存カラー画像がテクスチャとして適用されるフェイスの境界となるフェイス(境界フェイス)を検出し、当該境界フェイスのテクスチャを境界が目立ちにくくなるよう補正して利用してもよい。具体的な補正の方法としては、境界フェイスについては視点依存カラー画像上のフェイス投影領域のテクスチャと、入力のテクスチャ付メッシュで設定されていた視点非依存カラー画像上のフェイス投影領域のテクスチャをブレンドする方法が適用できる。なお、境界フェイスは、フェイスを構成する頂点の一部のみが画面外に投影されるフェイスとして検出できる。メッシュ上で、前記フェイスに隣接するフェイスを境界フェイスに含めてもよい。
 視点依存カラー画像と、視点非依存カラー画像は一般的に異なる画像として圧縮されるため、本来同じ色の表面でも量子化に伴う平均画素値のバイアスの違いにより異なる色となる場合がある。上記の境界フェイスの補正により、そのような色の違いにより境界フェイスが目立つことを緩和できる。
 <変形例:テクスチャ設定部123b>
 上記実施形態で説明したテクスチャ設定部123の代わりに異なる方法でテクスチャマッピング処理を実行するテクスチャ設定部123bを用いてもよい。図9は、テクスチャ設定部123bの構成を表すブロック図である。テクスチャ設定部123bは、RGBD画像分離部1231、カラータイプ判定部1234、テクスチャウェイト設定部1235、およびマルチテクスチャ設定部1236を含んで構成される。テクスチャ設定部123bの入出力はテクスチャ設定部123の入出力と同様である。すなわち、RGBD画像とメッシュを入力としてテクスチャ付メッシュを出力する。
 RGBD画像分離部1231は、テクスチャ設定部123aの同名の構成要素と同一である。なお、以下では、出力される視点非依存カラー画像と視点依存カラー画像を総称してカラー画像と呼ぶ。
 カラータイプ判定部1234は、入力されるカラー画像が視点非依存カラー画像か視点依存カラー画像かを判定し、判定結果をカラー画像に付与して出力する。
 テクスチャウェイト設定部1235は、入力されるメッシュ、カラー画像、および、カラータイプ判定結果に基づいてテクスチャウェイトを決定して出力する。テクスチャウェイトは、フェイスのテクスチャを複数のカラー画像上の領域をブレンディングすることで生成する場合に各領域の影響の割合を表す値である。例えば、フェイスを3種類のカメラパラメータでカラー画像上に投影することで3個の対応領域R1、R2、R3が得られる。各領域に対応するブレンディングウェイトをw1、w2、w3に設定した場合、当該フェイスのテクスチャは(w1×Tex_R1+w3×Tex_R2+w3×Tex_R3)÷Rsumにより導出される。ここでTex_R1、Tex_R2、Tex_R3はそれぞれ領域R1、R2、R3のカラーを表しRsumはw1、w2、w3の和に等しい。テクスチャウェイト設定部1235では、入力されるカラータイプの情報を参照し、カラー画像が視点依存カラー画像である場合に、カラー画像が視点非依存カラー画像である場合よりも大きいテクスチャウェイトが割り当てられるようテクスチャウェイトを決定する。例えば、視点依存カラー画像に対するテクスチャウェイトが視点非依存カラー画像に対するテクスチャウェイトの2倍となるよう設定する。または、カラータイプに依存せずに導出したウェイトを、視点依存カラー画像のみ所定の倍率で増加するよう設定することもできる。
 マルチテクスチャ設定部1236は、入力されるメッシュ、カラー画像、および、テクスチャウェイトに基づいてテクスチャ付メッシュを生成して出力する。生成されるテクスチャメッシュは、例えば、複数のカラー画像とメッシュのデータに加え、各頂点に対して複数のUV値およびテクスチャウェイトが属性値として設定されたデータとなる。別の例として、カラー画像とテクスチャウェイトに基づいてフェイス毎のテクスチャを一度合成した上で別のテクスチャ画像として生成し、テクスチャ画像とメッシュのデータに加え、頂点の属性値としてテクスチャ画像上の対応画素位置のUV座標を記録したデータをテクスチャ付メッシュとしてもよい。
 テクスチャ設定部123bによるテクスチャマッピング処理は次の手順で実行される。まず、RGBD画像分離部1231は入力のRGBD画像を分離してカラー画像をカラータイプ判定部1232、テクスチャウェイト判定部1235、および、マルチテクスチャ設定部1236に出力する。次に、カラータイプ判定部1234は、入力のカラー画像毎に視点依存か視点非依存かを示すカラータイプを判定してテクスチャウェイト設定部1235に出力する。次に、テクスチャウェイト設定部1235は、入力のメッシュ、カラー画像、および、カラータイプに基づいてテクスチャウェイトを決定してマルチテクスチャ設定部1236に出力する。最後に、マルチテクスチャ設定部は、入力のメッシュ、カラー画像、および、テクスチャウェイトに基づいてテクスチャ付メッシュを生成して出力する。
 上記手順によると視点依存カラー画像を優先するようテクスチャウェイトを設定できるため、視点非依存カラー画像よりも視点依存カラー画像の情報を優先してテクスチャが設定される。視点依存カラーは視点非依存カラーよりも高解像度の対象のカラー情報を含んでいるため、品質の高いテクスチャが設定されたテクスチャ付メッシュを生成して出力できるため、再生モデルの品質が向上する。
  (視点切り替え時のテクスチャウェイトの調整)
 視点依存カラー画像はユーザ視点に応じて動的に切り替わる。したがって、特定のフェイスに対して特定の時刻tでは対応する視点依存カラー画像が存在せず、次の時刻t+1では対応視点依存カラー画像が存在するような場合がある。一方、視点非依存カラー画像はユーザ視点に依らず常に参照できる。そのため、常に視点依存カラー画像に対応するテクスチャウェイトを大きい値に設定すると、上記のような切り替えの状況において、再生モデルのテクスチャが急に切り替わりユーザに不快感を与える。そのため、視点依存カラー画像が切り替わった時刻から所定の時間をかけて徐々にテクスチャウェイトを大きくなるようにテクスチャウェイトを設定することが好ましい。それにより前述の不快感を抑制できる。
 <デプスのサブ画像グループを利用したTSDF統合処理負荷の調整>
 TSDF統合処理の対象とするデプスサブ画像が属するグループに基づいて選択することで、再生時に処理量と再生モデル品質が調整可能となる効果を奏する。
 上記実施形態では図7(b)に示したようなグループ分けされたサブ画像から構成される視点非依存デプス画像を用いて3Dモデルを伝送するシステムを説明した。このサブ画像のグループを利用することで、3Dモデル再生におけるTSDF統合処理の処理量を調整することが可能になるという効果がある。以下、図7で説明したサブ画像のグループを例に挙げて説明するが、それ以外のグループ分けにも適用できる。例えば、画像内の位置により規定されるグループを利用できる。また、サブ画像のサイズや形状により規定されるグループを利用できる。
 図7(b)に示した視点依存デプス画像のサブ画像は「VPID_A」「VPID_B」「VPID_C」の3つのサブ画像グループに分類されている。前から順に3Dモデル再現のための重要度の高い情報を含むようグループが構成されている。再生時のTSDF統合処理において、通常は全てのグループのサブ画像を用いてボリュームデータを構成する。一方、「VPID_A」のグループに属するサブ画像のみを用いてボリュームデータを構成することもでき、その場合にはより少ない処理量で統合が可能となるかわりに再生モデルの品質は低下する。TSDF統合処理では各デプスサンプルの値を参照してTSDF値を更新することでボリュームデータを導出する。そのため、処理対象となるサブ画像の数が減ると処理量も減少する。「VPID_A」と「VPID_B」の2グループに属するサブ画像を用いた場合、処理量と再生モデルの品質は前述の2ケースの中間となる。VRやARのアプリケーションでは実時間再生が重要であるため、通常の処理量では実時間再生ができないような状況でも、前記の処理量と品質のトレードオフを利用して実時間再生が可能となるためユーザの不快感が軽減する。
 なお、上記のような制御を行うためには、サブ画像のグループを再生時に識別する必要がある。一つの方法はメタデータ等でいずれのサブ画像がいずれのグループに属するかの情報を記述する方法が挙げられる。別の方法では、各グループに属するサブ画像の数をあらかじめ共有しておき、既定の順序(例えば左上からラスタスキャン順)にサブ画像を画像上に配置する方法がある。この方法によればメタデータによるデータ量の増加を抑制できる。
 <カラーのサブ画像グループを利用したテクスチャマッピング処理負荷の調整>
 テクスチャマッピング処理の対象とするカラーサブ画像が属するグループに基づいて選択することで、再生時に処理量と再生モデル品質の調整が可能となる効果を奏する。
 上記実施形態では図7(a)に示したようなグループ分けされたサブ画像から構成される視点非依存カラー画像を用いて3Dモデルを伝送するシステムを説明した。このサブ画像のグループを利用することで、3Dモデル再生におけるテクスチャマッピング処理の処理量を調整することが可能になるという効果がある。以下、図7で説明したサブ画像のグループを例に挙げて説明するが、それ以外のグループ分けにも適用できる。
 図7(a)に示した視点依存カラー画像のサブ画像は「VPIC_A」「VPIC_B」「VPIC_C」の3つのサブ画像グループに分類されている。前から順に3Dモデル再現のための重要度の高い情報を含むようグループが構成されている。再生時のテクスチャマッピング処理において、通常は全てのグループのサブ画像を用いてテクスチャを設定する。一方、「VPIC_A」のグループに属するサブ画像のみを用いてテクスチャを設定することもでき、その場合にはより少ない処理量でテクスチャが設定可能となるかわりに再生モデルの品質は低下する。テクスチャマッピングでは、フェイスのテクスチャとして使用するべきサブ画像を決定する処理が含まれている。そのため、対象となるサブ画像を減らすことで処理量が削減できる。「VPID_A」と「VPID_B」の2グループに属するサブ画像を用いた場合、処理量と再生モデルの品質は前述の2ケースの中間となる。VRやARのアプリケーションでは実時間再生が重要であるため、通常の処理量では実時間再生ができないような状況でも、前記の処理量と品質のトレードオフを利用して実時間再生が可能となるためユーザの不快感が軽減する。
 <再生時に決定するサブ画像グループに応じたTSDF統合処理負荷の調整>
 TSDF統合処理時のボクセル解像度をデプスサブ画像が属するグループに基づいて選択することで、再生時に処理量と再生モデル品質の調整が可能となる効果を奏する。
 上記の説明では図7に示したサブ画像のグループに応じてTSDF統合処理やテクスチャマッピング処理の処理量と再生品質を調整できることを説明した。別の観点で決定したサブ画像グループを用いて3Dモデル再生処理量と再生品質のトレードオフを実現することも可能である。例えば、ユーザ視点に基づき分類されたサブ画像のグループに基づいて、TSDFの統合解像度を調整することで前記トレードオフが実現できる。
 ユーザ視点に基づいた分類では、ユーザ視点への近さに基づきサブ画像を分類する。サブ画像毎にカメラパラメータが割り当てられているため、ユーザ視点の位置・方向とサブ画像に関連付けられたカメラの位置・方向を比較してサブ画像とユーザ視点の近さを評価する。この近さの評価結果に基づき、ユーザ視点に近いサブ画像のグループと、ユーザ視点から遠いサブ画像のグループとに分類する。
 TSDF統合においてはTSDF値を格納するボクセルの個数が増加するほど統合処理の処理量が増加し、統合される再生モデルの品質が向上する。したがって、個数が多いボクセル群(高解像度ボクセル群)と個数が少ないボクセル群(低解像度ボクセル群)を準備し、以下の方法で統合を行うことで再生処理量と再生モデル品質のトレードオフが実現できる。
 (A)処理量小、品質低:両方のグループを低解像度ボクセル群に統合する
 (B)処理量中、品質中:ユーザ視点に近いグループを高解像度ボクセル群に統合し、ユーザ視点から遠いグループを低解像度ボクセル群に統合する
 (C)処理量大、品質高:両方のグループを高解像度ボクセル群に統合する。
 VRやARのアプリケーションでは実時間再生が重要であるため、通常の処理量では実時間再生ができないような状況でも、前記の処理量と品質のトレードオフを利用して実時間再生が可能となるためユーザの不快感が軽減する。
 <サブ画像グループによる品質と再生処理量の調整>
 3Dモデル再生処理をサブ画像が属するグループに基づいて実行することで、再生時に処理量と再生モデル品質の調整が可能となる効果を奏する。
 以上の説明において、いくつかのサブ画像グループの定義方法(視点非依存グループと視点依存グループ、メタデータにより規定されるグループ、画像内の位置により規定されえるグループ、サブ画像のサイズや形状により規定されるグループ、ユーザ視点位置との近さに応じたグループ)を示した。また、そのようなサブ画像のグループに基づいて、3Dモデル再生処理(TSDF統合処理、テクスチャマッピング処理)の処理量と再生モデル品質の調整が行えることを示した。例示したサブ画像グループの定義や3Dモデル再生処理の具体例だけではなく、他の同様の組み合わせも可能である。まとめると、次のように表現できる。本発明において実現される3Dモデル受信装置および3Dモデル再生装置では、サブ画像から構成されるカラー画像またはデプス画像を使用して3Dモデルを再生する。その際、サブ画像のグループに基づいて3Dモデル再生処理の処理量と再生モデル品質を調整できる。
 〔付記事項〕
 以上説明した実施形態では3Dモデル送信装置100と3Dモデル受信装置200の組み合わせにより3Dモデルの伝送を実現している。しかしながら、同様の機能ブロックを含んで構成される別の装置の組み合わせにより3Dモデルを伝送しても構わない。
 例えば、3Dモデル送信装置100の代わりに、仮想撮影部1を含む仮想撮影装置、ビデオエンコーダ3を含むビデオエンコード装置、および、ストリーム蓄積部4を含むストリーム蓄積装置の組み合わせにより同等の機能を実現することができる。
 同様に、3Dモデル受信装置200の代わりに、ストリーム受信部5を含むストリーム受信装置、ビデオデコーダ6を含むビデオデコード装置、および、3Dモデル再生部2を含む3Dモデル再生装置の組み合わせにより同等の機能を実現することができる。
 〔ソフトウェアによる実現例〕
 3Dモデル送信装置100及び3Dモデル受信装置200の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、3Dモデル送信装置100及び3Dモデル受信装置200は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも1つのプロセッサ(制御装置)を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも1つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明の態様1に係る3Dモデル送信装置の構成は、ソースモデルを表現するRGBD画像およびメタデータを生成する仮想撮影部と、前記RGBD画像に含まれる各画像を符号化してRGBDストリームを生成するビデオエンコーダと、前記RGBDストリームを蓄積して要求に応じて出力するストリーム蓄積部を備える3Dモデル送信装置であって、前記RGBD画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする構成である。
 上記の構成によれば、伝送データ量を抑えると共に、3Dモデル受信装置において再生モデルの品質を向上させられるRGBDストリームを生成して送信する3Dモデル送信装置を実現できる。
 本発明の態様2に係る3Dモデル送信装置の構成は、上記態様1において、前記RGBD画像は、K個の既定視点に関連付けられたK枚の視点依存カラー画像を含んで構成され、前記メタデータは、K個の既定視点の情報を含むことを特徴とする構成である。
 本発明の態様3に係る3Dモデル送信装置の構成は、上記態様2において、前記ビデオエンコーダは、前記既定視点毎に対応するRGBDストリームを生成し、前記既定視点毎のRGBDストリームは、視点非依存カラー画像、視点非依存デプス画像、および、特定の既定視点に対応する1枚の視点依存カラー画像をそれぞれ符号化したデータを含んで構成されることを特徴とする構成である。
 本発明の態様4に係る3Dモデル送信装置の構成は、上記態様1から態様3の何れかにおいて、前記視点非依存カラー画像は複数のカラーサブ画像から構成され、前記視点非依存デプス画像は複数のデプスサブ画像から構成されることを特徴とする構成である。
 本発明の態様5に係る3Dモデル送信装置の構成は、上記態様4において、前記視点非依存カラー画像の複数のカラーサブ画像と、前記視点非依存デプス画像の複数のデプスサブ画像とは、同数かつ同一形状であることを特徴とする構成である。
 本発明の態様6に係る3Dモデル送信装置の構成は、上記態様4から態様5の何れかにおいて、前記カラーサブ画像は少なくとも2以上のグループに分類されており、各グループに含まれるカラーサブ画像の解像度は同一であることを特徴とする構成である。
 本発明の態様7に係る3Dモデル送信装置の構成は、上記態様4から態様6の何れかにおいて、前記デプスサブ画像は少なくとも2以上のグループに分類されており、各グループに含まれるデプスサブ画像の解像度は同一であることを特徴とする構成である。
 本発明の態様8に係る3Dモデル送信装置の構成は、上記態様4から態様7の何れかにおいて、前記カラーサブ画像は少なくとも2以上のグループに分類されており、第一のグループに含まれるカラーサブ画像の解像度は、別の第二のグループに含まれるカラーサブ画像の解像度よりも高く設定されていることを特徴とする構成である。
 本発明の態様9に係る3Dモデル送信装置の構成は、上記態様4から態様8の何れかにおいて、前記カラーサブ画像は少なくとも2以上のグループに分類されており、第一のグループに含まれるカラーサブ画像の個数を、別の第二のグループに含まれるカラーサブ画像の個数よりも多くすることを特徴とする構成である。
 本発明の態様10に係る3Dモデル送信装置の構成は、上記態様4から態様9の何れかにおいて、前記視点依存カラー画像の解像度は、前記視点非依存カラー画像を構成する何れのカラーサブ画像の解像度よりも高いことを特徴とする構成である。
 本発明の態様11に係る3Dモデル送信装置の構成は、上記態様4から態様10の何れかにおいて、前記視点依存カラー画像を構成するカラーサブ画像の個数は、前記視点非依存カラー画像を構成するカラーサブ画像の個数よりも少ないことを特徴とする構成である。
 本発明の態様12に係る3Dモデル送信装置の構成は、上記態様1から態様11の何れかにおいて、前記仮想撮影部はソースモデルをカメラ情報に基づき撮影してRGBD画像を生成する画像撮影部と、RGBD画像に基づき再生モデルを生成する3Dモデル再生部と、再生モデルとソースモデルに基づきエラー領域情報を導出するエラー領域検出部と、エラー領域情報に基づいてカメラ情報を導出するカメラ情報設定部を備え、前記3Dモデル再生部は、前記3Dモデル再生部はRGBD画像からボリュームデータを生成するデプス統合部と、ボリュームデータからメッシュを生成するメッシュ生成部と、メッシュとRGBD画像に基づきテクスチャ情報を設定して再生モデルを生成するテクスチャ設定部を備えることを特徴とする構成である。
 本発明の態様13に係る3Dモデル送信装置の構成は、上記態様12において、前記デプス統合部は、デプスサンプル毎に処理対象ボクセル群を決定し、当該処理対象ボクセル群に含まれるボクセル毎にデプスサンプルに対応する法線に基づいてTSDF値およびウェイト値を更新することでデプスを統合することを特徴とする構成である。
 本発明の態様14に係る3Dモデル送信装置の構成は、上記態様12から態様13の何れかにおいて、前記デプス統合部は、ウェイトとTSDF値の積を加算するバッファと、ウェイトの和を加算するバッファを備えることを特徴とする構成である。
 本発明の態様15に係る3Dモデル送信装置の構成は、上記態様12において、前記テクスチャ設定部は、メッシュを構成する各三角形をRGBD画像に含まれる各カラーサブ画像に投影し、投影された三角形のカラーサブ画像上での面積が最も広いカラーサブ画像を選択し、当該カラーサブ画像上の画素位置をテクスチャのUV座標に設定することを特徴とする構成である。
 本発明の態様15aに係る3Dモデル送信装置の構成は、上記態様12において、前記テクスチャ設定部は、視点非依存テクスチャ設定部と視点依存テクスチャ設定部を備え、視点非依存カラー画像を用いて生成したテクスチャ付メッシュを視点依存カラー画像に基づいて更新することでテクスチャ付メッシュを生成することを特徴とする構成である。
 本発明の態様15bに係る3Dモデル送信装置の構成は、上記態様12において、前記テクスチャ設定部は、カラータイプ判定部とテクスチャウェイト設定部とマルチテクスチャ設定部を備え、前記テクスチャウェイト設定部は、カラー画像が視点依存カラー画像である場合に、カラー画像が視点非依存カラー画像である場合に比べて大きいテクスチャウェイトを設定することを特徴とする構成である。
 本発明の態様16に係る3Dモデル送信装置の構成は、上記態様12において、前記カメラ情報設定部は、エラー領域をクラスタリングすることで導出したクラスタ毎に仮想カメラを決定することでカメラ情報を生成し、前記クラスタリングは、空間分布によるクラスタリングと、フェイス法線によるクラスタリングの2段階で実行されることを特徴とする構成である。
 本発明の態様17に係る3Dモデル受信装置の構成は、ユーザ視点に基づいてRGBDストリームを選択受信するストリーム受信と、前記RGBDストリームを復号してRGBD画像を導出するビデオデコーと、前記RGBD画像に基づいて再生モデルを生成して出力する3Dモデル再生を備えた3Dモデル受信装置であって、前記RGBD画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする構成である。
 上記の構成によれば、少ない伝送データ量で3Dモデル送信装置からRGBDストリームを受信し、品質の高い再生モデルを生成する3Dモデル受信装置を実現できる。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

 

Claims (10)

  1.  ソースモデルを表現するRGBD画像およびメタデータを生成する仮想撮影部と、
     前記RGBD画像に含まれる各画像を符号化してRGBDストリームを生成するビデオエンコーダと、
     前記RGBDストリームを蓄積して要求に応じて出力するストリーム蓄積部を備える3Dモデル送信装置であって、
     前記RGBD画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする3Dモデル送信装置。
  2.  前記RGBD画像は、1以上の整数Kに対して、K個の既定視点に関連付けられたK枚の視点依存カラー画像を含んで構成され、
     前記メタデータは、K個の既定視点の情報を含むことを特徴とする請求項1に記載の3Dモデル送信装置。
  3.  前記ビデオエンコーダは、前記既定視点毎に対応するRGBDストリームを生成し、
     前記既定視点毎のRGBDストリームは、視点非依存カラー画像、視点非依存デプス画像、および、特定の既定視点に対応する1枚の視点依存カラー画像をそれぞれ符号化したデータを含んで構成されることを特徴とする請求項2に記載の3Dモデル送信装置。
  4.  前記視点非依存カラー画像は複数のカラーサブ画像から構成され、
     前記視点非依存デプス画像は複数のデプスサブ画像から構成され、
     前記カラーサブ画像は少なくとも2以上のグループに分類されており、各グループに含まれるカラーサブ画像の解像度は同一であることを特徴とする請求項1から請求項3に記載の3Dモデル送信装置。
  5.  前記仮想撮影部はソースモデルをカメラ情報に基づき撮影してRGBD画像を生成する画像撮影部と、
     RGBD画像に基づき再生モデルを生成する3Dモデル再生部と、
     再生モデルとソースモデルに基づきエラー領域情報を導出するエラー領域検出部と、
     エラー領域情報に基づいてカメラ情報を導出するカメラ情報設定部を備え、
     前記3Dモデル再生部は、
     前記3Dモデル再生部はRGBD画像からボリュームデータを生成するデプス統合部と、
     ボリュームデータからメッシュを生成するメッシュ生成部と、
     メッシュとRGBD画像に基づきテクスチャ情報を設定して再生モデルを生成するテクスチャ設定部を備えることを特徴とする請求項1から請求項4に記載の3Dモデル送信装置。
  6.  前記デプス統合部は、デプスサンプル毎に処理対象ボクセル群を決定し、当該処理対象ボクセル群に含まれるボクセル毎にデプスサンプルに対応する法線に基づいてTSDF値およびウェイト値を更新することでデプスを統合することを特徴とする請求項5に記載の3Dモデル送信装置。
  7.  前記デプス統合部は、ウェイトとTSDF値の積を加算するバッファと、ウェイトの和を加算するバッファを備えることを特徴とする請求項5から請求項6に記載の3Dモデル送信装置。
  8.  前記テクスチャ設定部は、メッシュを構成する各三角形をRGBD画像に含まれる各カラーサブ画像に投影し、投影された三角形のカラーサブ画像上での面積が最も広いカラーサブ画像を選択し、当該カラーサブ画像上の画素位置をテクスチャのUV座標に設定することを特徴とする請求項5に記載の3Dモデル送信装置。
  9.  前記カメラ情報設定部は、エラー領域をクラスタリングすることで導出したクラスタ毎に仮想カメラを決定することでカメラ情報を生成し、
     前記クラスタリングは、空間分布によるクラスタリングと、フェイス法線によるクラスタリングの2段階で実行されることを特徴とする請求項5に記載の3Dモデル送信装置。
  10.  ユーザ視点に基づいてRGBDストリームを選択受信するストリーム受信部と、
     前記RGBDストリームを復号してRGBD画像を導出するビデオデコーダと、
     前記RGBD画像に基づいて再生モデルを生成して出力する3Dモデル再生部を備えた3Dモデル受信装置であって、
     前記RGBD画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする3Dモデル受信装置。
     
PCT/JP2020/010181 2019-03-25 2020-03-10 3dモデル送信装置、及び、3dモデル受信装置 WO2020195767A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019057010A JP2022074178A (ja) 2019-03-25 2019-03-25 3dモデル送信装置、及び、3dモデル受信装置
JP2019-057010 2019-03-25

Publications (1)

Publication Number Publication Date
WO2020195767A1 true WO2020195767A1 (ja) 2020-10-01

Family

ID=72610110

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/010181 WO2020195767A1 (ja) 2019-03-25 2020-03-10 3dモデル送信装置、及び、3dモデル受信装置

Country Status (2)

Country Link
JP (1) JP2022074178A (ja)
WO (1) WO2020195767A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149189A1 (ja) * 2021-01-05 2022-07-14 日本電信電話株式会社 配信制御装置、配信制御システム、配信制御方法、及びプログラム
WO2022230186A1 (ja) * 2021-04-30 2022-11-03 日本電信電話株式会社 配信制御システム、配信制御装置、配信制御方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110122225A1 (en) * 2009-11-23 2011-05-26 General Instrument Corporation Depth Coding as an Additional Channel to Video Sequence
WO2016203731A1 (en) * 2015-06-17 2016-12-22 Mitsubishi Electric Corporation Method for reconstructing 3d scene as 3d model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110122225A1 (en) * 2009-11-23 2011-05-26 General Instrument Corporation Depth Coding as an Additional Channel to Video Sequence
WO2016203731A1 (en) * 2015-06-17 2016-12-22 Mitsubishi Electric Corporation Method for reconstructing 3d scene as 3d model

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MKHITARYAN, A. ET AL.: "RGB-D sensor data correction and enhancement by introduction of an additional RGB view", 2013 IEEE /RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS, November 2013 (2013-11-01), pages 1077 - 1083, XP032537203, DOI: 10.1109/IROS.2013.6696484 *
NEWCOMBE, R. A. ET AL.: "Kinectfusion: real-time dense surface mapping and tracking", IEEE INTERNATIONAL SYMPOSIUM ON MIXED AND AUGMENTED REALITY 2011, October 2011 (2011-10-01), pages 127 - 136, XP032201443 *
ORTS-ESCOLANO, S. ET AL.: "Holoportation: virtual 3D teleportation in real-time", UIST 2016, October 2016 (2016-10-01), pages 741 - 754, XP55742979 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149189A1 (ja) * 2021-01-05 2022-07-14 日本電信電話株式会社 配信制御装置、配信制御システム、配信制御方法、及びプログラム
WO2022230186A1 (ja) * 2021-04-30 2022-11-03 日本電信電話株式会社 配信制御システム、配信制御装置、配信制御方法、及びプログラム

Also Published As

Publication number Publication date
JP2022074178A (ja) 2022-05-18

Similar Documents

Publication Publication Date Title
KR102431117B1 (ko) 포인트 클라우드 맵핑
JP7277372B2 (ja) 三次元モデル符号化装置、三次元モデル復号装置、三次元モデル符号化方法、および、三次元モデル復号方法
CN103828359B (zh) 用于产生场景的视图的方法、编码系统以及解码系统
US11902577B2 (en) Three-dimensional data encoding method, three-dimensional data decoding method, three-dimensional data encoding device, and three-dimensional data decoding device
Salahieh et al. Test model for immersive video
US10242462B2 (en) Rate control bit allocation for video streaming based on an attention area of a gamer
CN110999285B (zh) 基于纹理图与网格的3d图像信息的处理
US11432009B2 (en) Techniques for encoding and decoding immersive video
US20210383590A1 (en) Offset Texture Layers for Encoding and Signaling Reflection and Refraction for Immersive Video and Related Methods for Multi-Layer Volumetric Video
WO2020195767A1 (ja) 3dモデル送信装置、及び、3dモデル受信装置
US20210211703A1 (en) Geometry information signaling for occluded points in an occupancy map video
JP2024053014A (ja) ポイントクラウドデータ処理方法及び装置
US20230290006A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
JP7344988B2 (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
Salahieh et al. Test model 8 for MPEG immersive video
WO2019138163A1 (en) A method and technical equipment for encoding and decoding volumetric video
WO2022141222A1 (zh) 虚拟视点生成、渲染、解码方法及装置、设备、存储介质
WO2022120809A1 (zh) 虚拟视点绘制、渲染、解码方法及装置、设备、存储介质
EP4218232A1 (en) Techniques for processing multiplane images
WO2020158392A1 (ja) 画像生成装置、表示処理装置、画像生成方法、制御プログラム、及び記録媒体
JP2004048116A (ja) 画像データ符号化および復号のための方法および装置
US20240179347A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
WO2022141636A1 (en) Methods and systems for processing video streams with layer information
US20230306687A1 (en) Mesh zippering
US20240153147A1 (en) V3c syntax extension for mesh compression

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20780065

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20780065

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP