WO2020179473A1 - 画像処理装置、画像生成方法、および、画像処理方法 - Google Patents

画像処理装置、画像生成方法、および、画像処理方法 Download PDF

Info

Publication number
WO2020179473A1
WO2020179473A1 PCT/JP2020/006790 JP2020006790W WO2020179473A1 WO 2020179473 A1 WO2020179473 A1 WO 2020179473A1 JP 2020006790 W JP2020006790 W JP 2020006790W WO 2020179473 A1 WO2020179473 A1 WO 2020179473A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
packing
images
packed
virtual viewpoint
Prior art date
Application number
PCT/JP2020/006790
Other languages
English (en)
French (fr)
Inventor
祐一 荒木
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to KR1020217025785A priority Critical patent/KR20210133958A/ko
Priority to CN202080016742.7A priority patent/CN113475080A/zh
Priority to EP20765701.6A priority patent/EP3937499A4/en
Priority to US17/422,855 priority patent/US20220084282A1/en
Priority to JP2021503957A priority patent/JPWO2020179473A1/ja
Publication of WO2020179473A1 publication Critical patent/WO2020179473A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/189Recording image signals; Reproducing recorded image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays

Definitions

  • the present technology relates to an image processing device, an image generation method, and an image processing method, and in particular, an image processing device, an image generation method, and an image processing method that can be adapted to real-time processing while reducing the amount of data. Regarding.
  • Patent Document 1 it is necessary to select, pack, and transmit a moving image of a viewpoint to be transmitted to the reproduction side each time according to a viewing position at the time of reproduction, and real-time processing is required. It may be difficult to deal with.
  • the present technology has been made in view of such a situation, and it is possible to adapt to real-time processing while reducing the amount of data.
  • the image processing device is configured such that, among a plurality of images in which objects are photographed from different directions, the object is the first object image in which the object faces the first direction, and the object is the first direction.
  • a generation unit that generates a first packed image in which the first object image and the second object image are packed in one frame with a higher resolution than a second object image facing a second direction different from The generating unit may further include a third object image in which the object faces a third direction different from the first direction, out of a plurality of images in which the object is captured from different directions, and the object is the third object image.
  • the resolution is made higher than that of the fourth object image facing the fourth direction different from the three directions, and the second packing image in which the third object image and the fourth object image are packed in one frame is generated.
  • the image processing apparatus selects the first object image in which the object is facing the first direction among a plurality of images in which the object is photographed from different directions. Has a higher resolution than a second object image oriented in a second direction different from the first direction to generate a first packed image in which the first object image and the second object image are packed in one frame.
  • the object refers to a third object image in which the object faces a third direction different from the first direction, and the object refers to the third image.
  • the first object image in which the object is facing the first direction is different from the first object.
  • a first packing image is generated in which the first object image and the second object image are packed in one frame by making the resolution higher than that of the second object image facing the second direction, and further, the objects are in different directions.
  • the object faces a third direction different from the first direction, and the object faces a fourth direction different from the third direction.
  • a second packing image in which the third object image and the fourth object image are packed in one frame with a higher resolution than that of the fourth object image is generated.
  • the image processing device of the second aspect of the present technology includes a rendering unit that acquires a first packing image or a second packing image and generates a virtual viewpoint image of an object viewed from the viewer's viewpoint as a display image.
  • the first packing image is a first object image in which the object faces the first direction among a plurality of images in which the object is photographed from different directions, and the object is different from the first direction in the first direction. It is a packing image in which the resolution is higher than that of the second object image facing in two directions and the first object image and the second object image are packed in one frame, and the second packing image is different in the object.
  • a third object image in which the object faces a third direction different from the first direction, and the object faces a fourth direction different from the third direction It is a packing image obtained by packing the third object image and the fourth object image in one frame with a higher resolution than the fourth object image.
  • the image processing device acquires the first packing image or the second packing image and generates a virtual viewpoint image in which the object is viewed from the viewpoint of the viewer as a display image.
  • the first packing image is a first object image in which the object faces the first direction among a plurality of images in which the object is photographed from different directions, and the object is different from the first direction. It is a packing image in which the resolution is higher than that of the second object image facing the second direction, and the first object image and the second object image are packed in one frame.
  • a third object image in which the object faces a third direction different from the first direction, and the object faces a fourth direction different from the third direction. Is a packing image obtained by packing the third object image and the fourth object image in one frame with a higher resolution than the fourth object image.
  • the first packing image or the second packing image is acquired, and a virtual viewpoint image in which the object is viewed from the viewer's viewpoint is generated as a display image.
  • the first packing image is a first object image in which the object is oriented in the first direction among a plurality of images in which the object is photographed from different directions, and a second object in which the object is different from the first direction.
  • the third object image in which the object faces a third direction different from the first direction, and the object faces a fourth direction different from the third direction
  • the image processing devices can be realized by causing a computer to execute a program.
  • the program executed by the computer can be provided by being transmitted via a transmission medium or recorded in a recording medium.
  • the image processing device may be an independent device, or may be an internal block that constitutes one device.
  • FIG. 6 is a diagram illustrating an arrangement example of imaging devices and a generation example of a packed image. It is a figure explaining the selection process of the packing image by an image selection apparatus. It is a flowchart explaining the volumetric reproduction processing. 15 is a flowchart illustrating details of the packing image generation process in step S12 of FIG. 14. It is a figure explaining the switching of the stream in GOP unit. 16 is a flowchart illustrating details of a resolution calculation process in step S44 of FIG. 16 is a flowchart illustrating details of a mapping process in step S45 of FIG. It is a figure which shows the example of the meta information of an imaging device and the meta information of a bit stream.
  • FIG. 19 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • Fig. 1 shows a series of flow from generation of a captured image to viewing in an image processing system to which the present technology is applied.
  • An image processing system to which this technology is applied receives a distribution side that generates and distributes a 3D model of an object from captured images obtained by imaging with multiple imaging devices, and a distribution side that receives and distributes the 3D model transmitted from the distribution side. It consists of a playback side for playback display.
  • a plurality of captured images can be obtained by capturing an image of a predetermined capturing space from the outer periphery with a plurality of image capturing devices.
  • the captured image is, for example, a moving image.
  • three imaging devices CAM1 to CAM3 are arranged so as to surround the subject #Ob1, but the number of imaging devices CAM is not limited to three and is arbitrary.
  • Subject #Ob1 is assumed to be a person taking a predetermined action.
  • a 3D object MO1 that is a 3D model of the subject # Ob1 to be displayed in the shooting space is generated (3D modeling).
  • the 3D object MO1 is generated by using a method such as Visual Hull that cuts out the three-dimensional shape of the subject using images taken in different directions.
  • 3D model data Data of one or more 3D objects (hereinafter, also referred to as 3D model data) among one or more 3D objects existing in the shooting space are transmitted to the device on the reproducing side and reproduced. That is, in the device on the reproducing side, the 3D object is displayed on the viewing device of the viewer by rendering the 3D object based on the acquired data of the 3D object.
  • FIG. 1 shows an example in which the viewing device is the display D1 or the head mounted display (HMD) D2.
  • the playback side can request only the 3D object to be viewed from among one or more 3D objects existing in the shooting space and display it on the viewing device.
  • the playback side assumes a virtual camera in which the viewing range of the viewer is the shooting range, and requests only the 3D object captured by the virtual camera among a large number of 3D objects existing in the shooting space for viewing. Display on the device.
  • the viewpoint of the virtual camera (virtual viewpoint) can be set at an arbitrary position so that the viewer can view the subject from the arbitrary viewpoint in the real world.
  • a background image representing a predetermined space is appropriately combined with the 3D object.
  • FIG. 2 is a block diagram showing a configuration example of an image processing system to which the present technology is applied.
  • the image processing system 10 of FIG. 2 includes a 3D data generation device 21, an image generation device 22, an encoding device 23, an image selection device 24, and a transmission device 25 as the distribution side described in FIG.
  • the 3D data generation device 21, the image generation device 22, the coding device 23, the image selection device 24, and the transmission device 25 on the distribution side may be individually configured, or two or more devices may be integrated. It may be a configured configuration.
  • the 3D data generation device 21, the image generation device 22, the encoding device 23, the image selection device 24, and the transmission device 25 may configure one distribution device 41. ..
  • the 3D data generation device 21, the image generation device 22, the coding device 23, the image selection device 24, and the transmission device 25 are the 3D data generation unit, the image generation unit, and the coding unit of the distribution device 41, respectively.
  • An image selection unit and a transmission unit are configured.
  • the image processing system 10 includes a receiving device 31, a decoding device 32, a rendering device 33, a display device 34, and a viewing condition acquisition device 35 as the playback side described in FIG.
  • the receiving device 31, the decoding device 32, and the rendering device 33 on the reproducing side may each be configured individually, or may be a configuration in which two or more devices are integrated.
  • the receiving device 31, the decoding device 32, and the rendering device 33 may configure one reproducing device 42.
  • the receiving device 31, the decoding device 32, and the rendering device 33 configure the receiving unit, the decoding unit, and the rendering unit of the reproducing device 42, respectively.
  • the transmission device 25 on the distribution side and the reception device 31 on the reproduction side are connected via a predetermined network.
  • the network is, for example, the Internet, telephone line network, satellite communication network, various LAN (Local Area Network) including Ethernet (registered trademark), WAN (Wide Area Network), IP-VPN (Internet Protocol-Virtual Private Network), etc. It is composed of a dedicated network of.
  • a captured image is supplied to the 3D data generating device 21 of the image processing system 10 from each of a plurality of image capturing devices that have captured a subject.
  • the captured image is information that specifies the color of the subject, and will be referred to as a texture image below.
  • the texture image is composed of a moving image.
  • FIG. 3 is a diagram schematically showing a positional relationship between a plurality of imaging devices and a subject.
  • a subject 52 including a person and two balls exists in the center of a shooting space 51 such as a room.
  • nine imaging devices 53-1 to 53-9 are arranged so as to surround the subject 52. It should be noted that the image pickup devices 53-1 to 53-9 are illustrated in a simplified manner by circles with hatched patterns.
  • the image pickup device 53-1, the image pickup device 53-3, the image pickup device 53-5, and the image pickup device 53-7 are arranged so as to face the subject 52 from substantially the center of each wall of the photographing space 51.
  • the imaging device 53-1 and the imaging device 53-5, and the imaging device 53-3 and the imaging device 53-7 are opposed to each other.
  • the image pickup device 53-2, the image pickup device 53-4, the image pickup device 53-6, and the image pickup device 53-8 are arranged so as to face the subject 52 from the vicinity of each corner of the photographing space 51.
  • the image pickup device 53-2 and the image pickup device 53-6, and the image pickup device 53-4 and the image pickup device 53-8 face each other.
  • the image pickup device 53-9 is arranged so as to look down on the subject 52 from substantially the center of the ceiling of the photographing space 51.
  • the image pickup devices 53-1 to the image pickup devices 53-9 are arranged at different positions, the subject 52 is photographed from different viewpoints (real viewpoints), and the resulting texture image is obtained as a 3D data generation device.
  • Supply to 21 The position of each image pickup device 53 on the world coordinate system is known, and the camera parameters (external parameters and internal parameters) of each image pickup device 53 are also supplied to the 3D data generation device 21.
  • the imaging device 53 creates a background image of the imaging space 51 in the absence of the subject 52, as a preliminary preparation for creating the 3D model data.
  • the background image need not be a moving image but may be a still image.
  • the background image may be transmitted to the reproducing side, and the reproducing side can display the 3D object of the transmitted 3D model data in combination with the background image.
  • the 3D data generation device 21 uses one or more subjects existing in the photographing space 51 as one object by using the texture images of the subjects and the camera parameters supplied from each of the plurality of imaging devices 53. , Generates a 3D model for each object, and supplies the generated 3D model data of each object to the image generation device 22.
  • the 3D data generation device 21 generates a silhouette image in which the subject area is extracted by extracting the difference between the texture image including the subject supplied from the image pickup device 53 and the background image. Then, the 3D data generation device 21 generates a 3D model of the object by a method such as Visual Hull using a plurality of silhouette images in different directions and camera parameters, and generates 3D model data representing the generated 3D model. To do.
  • the format of 3D model data is assumed to be a format that supports ViewDependent rendering that colors the playback terminal according to the viewpoint (virtual viewpoint) at the time of viewing.
  • the format of the 3D model data is a format in which the texture images captured by the plurality of imaging devices 53 are transmitted as color information to the reproduction terminal side.
  • the geometry information of an object may be a depth image corresponding to a texture image captured by a plurality of imaging devices 53, a point cloud representing a three-dimensional position of the object as a set of points, or a vertex (Vertex) and a vertex. It may be a polygon mesh represented by the connection between them.
  • FIG. 4 shows an example of a depth image corresponding to the texture image obtained by the image pickup device 53-1 to the image pickup device 53-9 as the geometry information of the object.
  • Texture images TI1 to TI9 are examples of texture images captured by the image capturing devices 53-1 to 53-9.
  • Depth images DI1 to DI9 show examples of depth images corresponding to the texture images TI1 to TI9.
  • the texture image (at least a part) captured by each image pickup device 53 is transmitted for the color information of the object, but the depth image and the point cloud are used for the geometry information of the object. , Or a polygon mesh may be used.
  • the object data represented in a predetermined format as the geometry information of the object is also referred to as three-dimensional data of the object.
  • the 3D data generation device 21 supplies the generated 3D model data to the image generation device 22.
  • the image generation device 22 arranges the texture images of the objects captured by each image pickup device 53 included in the 3D model data supplied from the 3D data generation device 21 in a predetermined order, and packs (combines) them into one image. By doing so, a packing image of the object is generated.
  • an image obtained by cropping only an object area from a texture image is referred to as an object image, and an image in which a plurality of object images are packed into one image is a packing image.
  • the image generation device 22 sets a plurality of virtual viewpoints (assumed virtual viewpoints) assumed on the reproduction side, and generates a packed image for each assumed virtual viewpoint.
  • the image generation device 22 determines four directions of the subject 52 in the front direction, the right side direction, the back direction, and the left side direction as assumed virtual viewpoints, and four types of packing images. To generate.
  • the “direction” used in this specification, such as the front direction, the right side direction, the back direction, and the left side direction of the subject 52, is used as a concept having a certain angle.
  • the image generation device 22 When generating a packing image for each assumed virtual viewpoint, the image generation device 22 does not pack a plurality of object images under the same conditions, but sets a plurality of types of reduction ratios of the object images and reduces the reduction ratios at different reduction ratios. Object images are packed to generate a packed image. More specifically, the image generation device 22 generates a packing image in which a plurality of object images are packed in one frame by increasing the resolution of the object image in the direction close to the assumed virtual viewpoint and making the object image in the other directions higher resolution. To do.
  • the image generation device 22 uses the nine texture images TI1 to TI9 captured by the imaging devices 53-1 to 53-9, respectively, as shown in FIG. An example of generating four types of packed images corresponding to assumed virtual viewpoints in four directions will be described.
  • the image generation device 22 is supplied with nine texture images TI1 to TI9 taken by the image pickup device 53-1 to the image pickup device 53-9, respectively.
  • the image generation device 22 generates object images BI1 to BI9 by cutting out a foreground region from each of the nine texture images TI1 to TI9.
  • FIG. 6 shows an example of nine object images BI1 to BI9 generated from nine texture images TI1 to TI9.
  • the image generation device 22 generates a packing image by reducing the nine object images BI1 to BI9 at a predetermined reduction rate as necessary and packing (combining) them into one image.
  • FIG. 7 shows a mapping example of object images when nine object images are arranged in a predetermined order to generate one packing image.
  • an object image having a reduction rate of 1/4 of the original object image is mapped.
  • the directions of the image pickup device 53-1 to the image pickup device 53-9 with respect to the photographing space 51 are indicated by arrows, and the assumed virtual viewpoint is indicated by an illustration of the eyes.
  • the shooting direction closest to the assumed virtual viewpoint is the shooting direction of the imaging device 53-3.
  • the texture images TI1 and TI5 captured by the image capturing devices 53-1, 53-5, and 53-9 next closest to the assumed virtual viewpoint are obtained.
  • And TI9 are mapped to the object images BI1, BI5, and BI9.
  • the reduction ratio is smaller as the image in the shooting direction (viewpoint) farther from the assumed virtual viewpoint. That is, the object images whose image size is set small are packed.
  • the image generation device 22 packs the nine object images BI1 to BI9 into one image
  • the image in the shooting direction (viewpoint) closer to the assumed virtual viewpoint has the resolution (image size) of the original texture image. ) Is packed.
  • FIG. 9 shows an example of four (4 types) packing images generated using the nine object images BI1 to BI9 for the assumed virtual viewpoints in the four directions shown in FIG.
  • the first packed image 71A shows a packed image when the assumed virtual viewpoint is the front direction that is the same as the shooting direction of the imaging device 53-1.
  • the texture images TI1, TI2 and the texture images taken by the image pickup devices 53-1, 53-2, and 53-8 are Object images BI1, BI2, and BI8 generated from TI8 are mapped.
  • the second packed image 71B shows a packed image when the assumed virtual viewpoint is the right side direction which is the same as the shooting direction of the imaging device 53-3.
  • texture images TI2, TI3 captured by the image capturing devices 53-2, 53-3, and 53-4, and , Object images BI2, BI3, and BI4 generated from TI4 are mapped.
  • the third packing image 71C shows a packing image when the assumed virtual viewpoint is in the left side direction, which is the same as the shooting direction of the imaging device 53-7.
  • the fourth packed image 71D shows a packed image when the assumed virtual viewpoint is the back direction which is the same as the shooting direction of the imaging device 53-5.
  • the texture images TI4, TI5 are Object images BI4, BI5, and BI6 generated from TI6 are mapped.
  • mapping is performed according to the rule described in FIG. 8 based on the assumed virtual viewpoint.
  • the object image in the shooting direction closer to the assumed virtual viewpoint is provided to the playback side at a reduction ratio closer to the original resolution, so that a high-definition image can be obtained. Can be rendered using.
  • object images in the shooting direction far from the assumed virtual viewpoint such as the back side of the assumed virtual viewpoint
  • the playback side even though the reduction ratio is small. Therefore, for example, even if the virtual viewpoint suddenly changes due to a sudden change in the viewing direction of the user wearing the head mounted display, the image can be rendered without interruption.
  • the assumed viewpoint can view a high-quality object image and can be changed to a viewpoint other than the assumed viewpoint. Rendering can be performed without interruption even if the screen is switched abruptly. That is, while suppressing the amount of transmission transmitted from the distribution side to the reproduction side, it is possible to guarantee high quality from the assumed viewpoint and at least the minimum rendering in a part or all areas other than the assumed viewpoint.
  • bit streams of the four types of packed images are switched according to the viewpoint (virtual viewpoint) of the viewer.
  • bitstreams can only be switched in GOP (group of picture) units.
  • GOP group of picture
  • the rendering device 33 on the reproduction side reproduces and displays the bit stream of the second packing image 71B in the right side direction at time t11, and the viewpoint of the viewer is displayed at time t12.
  • the bit stream of the first packing image 71A in the front direction is switched to at time t21.
  • circles at times t11, t21, t31, and t41 represent the head of the GOP of the bitstream. Therefore, the bit stream of the second packed image 71B in the right side direction is used from time t12 to time t21.
  • the layout of the packing image 71 shown in FIGS. 7 to 9 is only an example, and the layout of the packing image 71 can be arbitrarily determined depending on the number and arrangement (shooting position) of the imaging devices 53. Of course, when the number of imaging devices 53 is 9, a layout different from the layout shown in FIG. 7 may be adopted.
  • FIG. 11 shows an example of a layout of packing images when the number of imaging devices 53 is 14.
  • the number of the image pickup devices 53 can be arbitrarily determined, and the arrangement of the image pickup devices 53 can also be arbitrarily determined.
  • the imaging device 53 is set to take an image so as to look up at the subject 52 from below, an arrangement to take an image from the horizontal direction, and an arrangement to take an image so as to look down from the top.
  • a configuration is also possible in which the height at which the device 53 photographs the subject 52 is changed in plural types.
  • the subject 52 is imaged by a total of 32 imaging devices 53, eight in the upper stage, 16 in the middle stage, and eight in the lower stage.
  • 32 object images are generated from the 32 texture images to be generated, and one packed image (bitstream of the packed image) is generated.
  • eight assumed virtual viewpoints are set and eight types of bitstreams of packed images are generated.
  • the image processing system 10 is based on the premise that all the object images of the plurality of image pickup devices 53 in which the subject 52 is photographed are packed to generate one packed image and transmit it. For example, it is shown in FIG. As described above, when the number of image pickup devices 53 is large, object images corresponding to a part of a plurality of captured image pickup devices 53 may be packed to generate one packing image.
  • the image processing system 10 can flexibly generate a packed image according to the arrangement of the imaging device 53.
  • the image generation device 22 supplies a plurality of types of packing images generated in the assumed virtual viewpoint unit to the encoding device 23.
  • the coding device 23 encodes the packing image for each assumed virtual viewpoint supplied from the image generation device 22 by a predetermined coding method such as an AVC method or a HEVC method.
  • the encoded stream of the packed image obtained by encoding is supplied to the image selection device 24.
  • the encoding device 23 also encodes the geometry information (three-dimensional data) of the object by a predetermined encoding method and supplies it to the image selection device 24.
  • this technique relates to a technique for transmitting a texture image as color information of an object, and the geometry information of an object may be transmitted by an arbitrary method. Therefore, the transmission of geometry information will be appropriately omitted below.
  • the image selection device 24 is supplied from the encoding device 23 with an encoded stream of packed images for each assumed virtual viewpoint. Further, the viewing condition acquisition device 35 supplies the image selection device 24 with virtual viewpoint information that is information about the virtual viewpoint.
  • the virtual viewpoint information is information that identifies the viewing range of the viewer on the reproduction side, and is configured by, for example, camera parameters (external parameters and internal parameters) of the virtual camera that make the viewing range of the viewer a shooting range. ..
  • the image selection device 24 selects one of the encoded streams of the plurality of packed images supplied from the encoding device 23, based on the virtual viewpoint information from the viewing condition acquisition device 35, and sends it to the transmission device 25. Supply.
  • a predetermined one is selected from the coded streams of the four types of packing images 71 in the front direction, the right side direction, the right side direction, and the back direction, and supplied to the transmission device 25. Will be done.
  • FIG. 13 is a diagram illustrating a selection process of the image selection device 24 for selecting a predetermined one from a plurality of coded streams of packing images.
  • C v be the 3D position of the viewer's virtual viewpoint based on the virtual viewpoint information from the viewing condition acquisition device 35.
  • the device 24 calculates the angle A (i) formed by the assumed virtual viewpoint obtained by the following equation (1) and the virtual viewpoint of the viewer.
  • the image selection device 24 selects the coded stream of the packing image of the assumed virtual viewpoint having the smallest angle A (i) as the coded stream to be transmitted to the reproduction side, and supplies the coded stream to the transmission device 25.
  • a (i) arccos (C i ⁇ C v ) ⁇ ⁇ ⁇ ⁇ (1)
  • the transmission device 25 transmits the coded stream of the packing image supplied from the image selection device 24 to the reception device 31 via the network.
  • the receiving device 31 receives (acquires) the encoded stream of the packed image transmitted from the transmitting device 25, and supplies it to the decoding device 32.
  • the decoding device 32 decodes the encoded stream of the packed image supplied from the reception device 31 by a method corresponding to the encoding method of the encoding device 23.
  • the decoding device 32 supplies the packing image of a predetermined assumed virtual viewpoint obtained by decoding to the rendering device 33.
  • the decoding device 32 also decodes the coded stream of the geometry information of the object transmitted from the distribution side together with the coded stream of the packing image by a method corresponding to the coding method in the coding device 23, and renders the rendering device. Supply to 33.
  • the rendering device 33 uses the packed image supplied from the decoding device 32 to generate a virtual viewpoint image in which the object is viewed from the virtual viewpoint, which is the viewpoint of the viewer, as a display image, and supplies it to the display device 34.
  • the virtual viewpoint is specified by the virtual viewpoint information supplied from the viewing condition acquisition device 35.
  • the rendering device 33 reconstructs the 3D shape of the object based on the geometry information of the object transmitted in a predetermined format such as a depth image, a point cloud, or a polygon mesh. Further, the rendering device 33 selects a plurality of object images from the object images of a plurality of viewpoints (shooting directions) included in the packing image based on the viewpoint (virtual viewpoint) of the viewer. Then, the rendering device 33 determines the color of the pixel corresponding to each vertex of the 3D shape of the reconstructed object by blending the color of the pixel corresponding to the vertex of the plurality of selected object images, and virtualizes it. Generate a viewpoint image.
  • the display device 34 is composed of, for example, a two-dimensional head mounted display (HMD) or a two-dimensional monitor.
  • the display device 34 two-dimensionally displays the display image supplied from the rendering device 33.
  • the display device 34 may be composed of a three-dimensional head mounted display, a three-dimensional monitor, or the like.
  • the rendering device 33 supplies, for example, an R image for the right eye and an L image for the left eye to the display device 34, and the display device 34 supplies the R image and the L image supplied from the rendering device 33. Based on this, the displayed image is displayed in three dimensions.
  • the viewing condition acquisition device 35 detects the viewing condition (viewing status) of the viewer, generates virtual viewpoint information regarding the virtual viewpoint, and supplies the virtual viewpoint information to the image selection device 24 and the rendering device 33.
  • the virtual viewpoint information is composed of, for example, camera parameters (external parameters and internal parameters) of the virtual camera such that the viewing range of the viewer is the shooting range.
  • the viewing condition acquisition device 35 captures a marker or the like attached to the head-mounted display D2 to obtain a position and orientation of the head-mounted display D2.
  • the viewing condition acquisition device 35 may be configured by various sensor groups such as a gyro sensor built in the head mounted display D2.
  • the viewing condition acquisition device 35 can be configured by a controller such as a joystick that indicates a virtual viewpoint and an input device such as a mouse.
  • the image processing system 10 is configured as described above.
  • the video information is described as the transmission data transmitted from the distribution side to the playback side, and the description of the audio information is omitted, but the audio information corresponding to the moving image may also be transmitted. it can.
  • the distribution device 41 determines the texture image (moving image) of the subject supplied from each of the plurality of imaging devices 53. Image) and a camera parameter, a coded stream of a packing image of each of a plurality of predetermined assumed virtual viewpoints is generated. Then, the distribution device 41 selects a predetermined coded stream of one packed image from the coded streams of the plurality of packed images based on the virtual viewpoint information from the viewing condition acquisition device 35, and the playback device 42. Send to.
  • the playback device 42 receives the encoded stream of the packing image transmitted from the distribution device 41 via the network, generates a virtual viewpoint image based on the virtual viewpoint information from the viewing condition acquisition device 35, and displays the virtual viewpoint image. 34 to display.
  • the most suitable coded stream of packed images is appropriately calculated according to Expression (1) according to the viewpoint (virtual viewpoint) of the viewer. It is selected and transmitted to the playback device 42.
  • the packed image sent to the playback side supplies an object image from a viewpoint close to the viewer's viewpoint (virtual viewpoint) to the playback side with high resolution, so that high quality rendering can be performed on the playback side.
  • the packed image transmitted to the reproduction side includes the object image in the shooting direction far from the assumed virtual viewpoint, such as the back side of the assumed virtual viewpoint, the image is interrupted even if the virtual viewpoint changes suddenly. Can be rendered without That is, high quality rendering can be realized while reducing the amount of data to be transmitted.
  • the image processing system 10 it is not necessary to perform processing of selecting, packing, and transmitting a moving image of a viewpoint to be transmitted to the reproduction side each time according to a viewing position at the time of reproduction, and it is possible to store one packed image. Since it only acquires the encoded stream, decodes and displays it, it is easy to deal with real-time processing.
  • the image processing system 10 it is possible to adapt to real-time processing while reducing the amount of data.
  • the distribution device 41 on the distribution side and the reproduction device 42 on the reproduction side may be configured by one device without going through a network.
  • the viewing condition acquisition device 35 may be configured as a rendering device 33 or a part of the display device 34.
  • FIG. 14 is a flowchart of the volumetric reproduction process of the entire image processing system 10. This process is started, for example, when a texture image (moving image) of the subject is supplied from each of the plurality of image pickup devices 53. It is assumed that the camera parameters of each of the plurality of image pickup devices 53 are supplied in advance.
  • the 3D data generation device 21 generates 3D model data of each object and supplies it to the image generation device 22. More specifically, the 3D data generation device 21 uses the texture image of the subject supplied from each of the plurality of imaging devices 53 and the camera parameters to identify one or more subjects existing in the shooting space as one object. Generate a 3D model for each object. Then, the 3D data generation device 21 supplies the 3D model data of each generated object to the image generation device 22.
  • step S12 the image generation device 22 sets a plurality of virtual viewpoints (assumed virtual viewpoints) assumed on the reproduction side, and generates a packed image for each assumed virtual viewpoint.
  • the generated plurality of packed images are supplied to the encoding device 23.
  • the packed image for each assumed virtual viewpoint generated here is a moving image.
  • step S13 the encoding device 23 encodes the packed image for each assumed virtual viewpoint, which is supplied from the image generation device 22, by a predetermined encoding method.
  • the bit rate for encoding is, for example, a preset predetermined bit rate (for example, 20 Mbps).
  • the coded stream of the packing image for each assumed virtual viewpoint obtained as a result of the coding is supplied from the coding device 23 to the image selection device 24.
  • step S14 the image selection device 24 stores in the internal memory the encoded stream of the packed image for each assumed virtual viewpoint, which is supplied from the encoding device 23.
  • step S15 the viewing condition acquisition device 35 detects the viewing status of the viewer, generates virtual viewpoint information about the virtual viewpoint, and supplies the virtual viewpoint information to the image selection device 24 and the rendering device 33.
  • step S16 the image selection device 24 acquires the virtual viewpoint information supplied from the viewing condition acquisition device 35.
  • step S17 the image selection device 24 performs one predetermined encoding from the encoded streams of the plurality of packed images stored in the internal memory, that is, the encoded streams of the packed images for each assumed virtual viewpoint. Select a stream. More specifically, the image selection device 24 creates a coded stream of the packing image of the assumed virtual viewpoint having the smallest angle A (i) formed with the viewer's virtual viewpoint based on the virtual viewpoint information from the viewing condition acquisition device 35. select. The selected encoded stream is supplied to the transmission device 25.
  • step S18 the transmission device 25 transmits the coded stream of the packing image supplied from the image selection device 24 to the reception device 31 via the network.
  • step S19 the reception device 31 receives (acquires) the encoded stream of the packed image transmitted from the transmission device 25 and supplies the encoded stream to the decoding device 32.
  • step S20 the decoding device 32 decodes the encoded stream of the packed image supplied from the reception device 31 by a method corresponding to the encoding method of the encoding device 23.
  • the decoding device 32 supplies the packing image of a predetermined assumed virtual viewpoint obtained by decoding to the rendering device 33.
  • step S21 the rendering device 33 uses the packing image supplied from the decoding device 32 to generate a virtual viewpoint image in which the object is viewed from the virtual viewpoint as a display image, and supplies the image to the display device 34 for display.
  • the virtual viewpoint is specified by the virtual viewpoint information supplied from the viewing condition acquisition device 35 in step S15.
  • the volumetric reproduction process of FIG. 14 is a flow of a series of processes from when the texture image of the subject 52 is supplied from the imaging device 53 to when the object image is displayed on the reproduction side display device 34.
  • the virtual viewpoint information acquired in step S16 is updated whenever the virtual viewpoint (viewing position) changes.
  • the encoded stream of the packed image is newly selected according to the virtual viewpoint information, and the selected encoded stream of the packed image is selected.
  • Steps S18 to S21 are executed. That is, the processes of steps S16 to S21 are sequentially updated according to the change of the viewpoint (viewing position).
  • step S12 that is, the packing image generation process performed by the image generation device 22 will be described.
  • FIG. 15 shows a detailed flowchart of the packing image generation processing in step S12 of FIG.
  • step S41 the image generation device 22 determines N assumed virtual viewpoints for generating the packing image.
  • N 4
  • the assumed virtual viewpoints are determined in four directions of the front direction, the right side direction, the back direction, and the left side direction.
  • step S42 the image generation device 22 determines the layout of the packed image and the imaging device 53 to be mapped to each layout position.
  • the layout of the packed image is, for example, the layout of FIG. 7 or the layout of FIG. 11, and can be determined according to the number and arrangement of the imaging devices 53.
  • the layout includes the position in the packed image and the reduction ratio.
  • Determining the image capturing device 53 to be mapped to each layout position means that the image generating device 22 determines the object image captured by which image capturing device 53 based on the assumed virtual viewpoint, as described with reference to FIG. It is to decide which layout position is to be mapped.
  • the image pickup device 53 maps and packs the object image obtained by actually photographing the subject 52.
  • the image pickup device 53 is not the object image photographed by the actual image pickup device 53, and the image pickup device 53 is a virtual image.
  • An object image captured by the virtual image pickup device 53 may be generated and mapped on the assumption that the object image is installed at the position of.
  • step S43 the image generator 22 determines the GOP length when encoding the packing image. More specifically, the image generation device 22 determines the GOP length based on the amount of movement of the object.
  • the image generation device 22 determines the GOP length to a predetermined value when the movement amount of the object is equal to or more than a predetermined threshold value. Accordingly, the resolution (pixel size) of the object image in GOP units can be suppressed within a predetermined range, and the resolution (pixel size) of the packed image obtained by packing the object images can also be suppressed.
  • the image generation device 22 may classify the movement amount of the object into a plurality of ranges and determine the GOP length stepwise according to the movement amount of the object.
  • the GOP length is not determined from the viewpoint of the movement amount of the object, and from other viewpoints such as bitstream compression rate, decoding load, image quality, etc.
  • the GOP length may be determined.
  • step S44 of FIG. 15 the image generation device 22 executes a resolution calculation process for calculating the resolution of the object image mapped to each layout position p of the packed image. This resolution calculation process is executed for all N assumed virtual viewpoints determined in step S41. Details of the resolution calculation processing in step S44 will be described later with reference to FIG.
  • step S45 the image generation device 22 executes a mapping process of mapping the object image to each layout position p of the packed image. This mapping process is executed for all N assumed virtual viewpoints determined in step S41. Details of the mapping process in step S45 will be described later with reference to FIG.
  • N packed images for each assumed virtual viewpoint are completed and supplied to the encoding device 23, and the packed image generation process is completed. ..
  • step S61 the image generator 22 substitutes 0 for the variable i that identifies N assumed virtual viewpoints.
  • the assumed virtual viewpoint is predetermined according to the value of the variable i.
  • step S62 the image generation device 22 substitutes 0 for the variable p that identifies the layout position of the packing image.
  • step S63 the image generation device 22 assigns 0 to the variable g that identifies the predetermined GOP among the plurality of GOPs constituting the coded stream of the packing image of the predetermined virtual viewpoint (variable i).
  • step S64 the image generation device 22 assigns 0 to the variable f that identifies the frame in the predetermined GOP (variable g) of the coded stream of the packing image of the predetermined virtual viewpoint (i).
  • step S65 the image generation device 22 includes the texture image (texture data) and the three-dimensional data of the f-th frame of the g-th GOP of the image pickup device 53 packed with respect to the layout position p of the i-th assumed virtual viewpoint. To get.
  • step S66 the image generation device 22 extracts an object as a foreground region from the texture image of the f-th frame of the g-th GOP of the image pickup device 53 to be packed with respect to the layout position p of the i-th assumed virtual viewpoint. Then, the image generation device 22 calculates the resolution R (i, p, g, f) of the object image after the object image of the extracted object is scaled at the reduction ratio of the layout position p.
  • step S67 the image generator 22 determines whether or not the number of frames having a length of 1 GOP has been processed.
  • step S67 If it is determined in step S67 that the number of frames having a length of 1 GOP has not been processed, the process proceeds to step S68, and the image generator 22 increments the variable f for identifying the frame by 1, and then performs the process. Return to step S65. As a result, the processes of steps S65 to S67 described above are repeated for the next frame in one GOP.
  • step S67 if it is determined in step S67 that the number of frames having a length of 1 GOP has been processed, the process proceeds to step S69, and the image generator 22 has a resolution R (i) of the object image among all the frames constituting 1 GOP. ,p,g,f) determines the maximum GOP maximum resolution MaxR(i,p,g).
  • step S70 the image generation device 22 determines whether or not the maximum GOP resolution MaxR(i, p, g) has been determined for all GOPs of the texture image of the ith assumed virtual viewpoint.
  • step S70 If it is determined in step S70 that the maximum resolution MaxR (i, p, g) in the GOP has not yet been determined in all the GOPs, the process proceeds to step S71, and the image generator 22 determines the variable that identifies the GOP. After incrementing g by 1, the process returns to step S64. As a result, the processes of steps S64 to S70 described above are repeated for the next GOP.
  • step S70 if it is determined in step S70 that the maximum resolution MaxR (i, p, g) has been determined for all GOPs, the process proceeds to step S72, and the image generator 22 relates to all GOPs with respect to the layout position p.
  • the maximum resolution MaxR (i, p) in the layout position where the maximum resolution MaxR (i, p, g) in the GOP is maximized is determined.
  • the three-dimensional position (x, y, z) on the world coordinate system of the i-th assumed virtual viewpoint can be calculated by the following equation (2).
  • step S76 the image generation device 22 determines whether the maximum layout position resolution MaxR (i, p) of each layout position p has been determined from all (N) assumed virtual viewpoints.
  • step S76 When it is determined in step S76 that the layout position maximum resolution MaxR(i,p) of each layout position p has not been determined for all the assumed virtual viewpoints, the process proceeds to step S77, and the image generating device 22 After incrementing the variable i for identifying the assumed virtual viewpoint by 1, the process returns to step S62. As a result, the processes of steps S62 to S76 described above are repeated for the next assumed virtual viewpoint.
  • step S76 if it is determined in step S76 that the maximum layout position resolution MaxR (i, p) of each layout position p has been determined for all assumed virtual viewpoints, the resolution calculation process ends.
  • mapping process Next, the details of the mapping process in step S45 of FIG. 15 will be described with reference to the flowchart of FIG.
  • step S81 the image generation device 22 substitutes 0 into a variable i for identifying N assumed virtual viewpoints.
  • step S82 the image generation device 22 substitutes 0 into the variable p for identifying the layout position of the packed image.
  • the variable p takes an integer value from 0 to (P-1).
  • step S83 the image generation device 22 acquires the maximum layout position resolution MaxR (i, p) of each layout position p of the i-th assumed virtual viewpoint, and secures the memory required for generating the packing image.
  • step S84 the image generation device 22 assigns 0 to the variable fs that identifies the frame constituting the packing image of the i-th assumed virtual viewpoint. While the variable f that identifies the frame in FIG. 17 is the variable that identifies the frame within the GOP unit, this variable fs is allocated in order from 0 to the frame of the bitstream of one packing image. Corresponds to the value.
  • step S85 the image generation device 22 acquires the texture image (texture data) and the three-dimensional data of the fsth frame of the image pickup device 53 to be packed with respect to the layout position p of the i-th assumed virtual viewpoint.
  • step S86 the image generation device 22 scales the texture image of the fs-th frame of the image pickup device 53 packed at the layout position p of the i-th assumed virtual viewpoint at the reduction ratio of the layout position p.
  • step S87 the image generation device 22 generates an object image from which the object is extracted by cutting out the foreground area of the texture image after the scale processing, and packs the object image at the layout position p of the packing image of the fsth frame.
  • step S88 the image generation device 22 determines whether or not all the frames constituting the bit stream of the packing image of the i-th assumed virtual viewpoint have been processed.
  • step S88 If it is determined in step S88 that all the frames forming the bitstream of the i-th assumed virtual viewpoint packed image have not been processed, the process proceeds to step S89, and the image generation device 22 identifies the frames. After incrementing the variable fs to be performed by 1, the process returns to step S85. As a result, the processes of steps S85 to S88 described above are repeated for the next frame.
  • step S93 the image generation device 22 determines whether or not the packing image has been generated from all the assumed virtual viewpoints.
  • step S93 If it is determined in step S93 that the packing images have not yet been generated in all the assumed virtual viewpoints, the process proceeds to step S94, and the image generator 22 sets 1 variable i for identifying N assumed virtual viewpoints. After incrementing only, the process returns to step S82. As a result, the processes of steps S82 to S93 described above are repeated for the next assumed virtual viewpoint.
  • step S95 the image generation device 22 generates the meta information of the bitstream of the generated packed image of each assumed virtual viewpoint.
  • a of FIG. 19 shows an example of the meta information of the imaging device 53 generated in step S92 of FIG.
  • the meta information of the imaging device 53 includes items such as packing ID, camera ID, offset_x, offset_y, and scale, and these items are generated for each assumed virtual viewpoint unit.
  • the camera ID is information that identifies the imaging device 53 that captured the object image packed in the packed image.
  • the x-coordinate and y-coordinate positions (dst_x, dst_y) of the object image packed in the packing image and the x-coordinate and y-coordinate positions (src_x, src_y) of the original texture image from which the object image was cut out will be determined. Is the upper left coordinate of the rectangle.
  • FIG. 19 shows an example of the meta information of the bit stream of the packing image of each assumed virtual viewpoint generated in step S95 of FIG.
  • the resolution indicates the resolution of the packed image, that is, the number of pixels in the horizontal direction (horizontal direction) and the vertical direction (vertical direction).
  • the three-dimensional position of the assumed virtual viewpoint represents the position on the world coordinate system of the virtual viewpoint assumed in the generation of the packed image.
  • the range of the estimated viewing distance represents the range of the viewing distance to the object assumed as the usage condition of the packing image.
  • the bit rate represents the bit rate at the time of encoding the bit stream of the packed image.
  • the maximum resolution of the original image represents the maximum value of the resolution of the original texture image before cutting out the object image packed in the packing image, that is, the texture image output by the imaging device 53.
  • the meta information of the imaging device 53 and the meta information of the bit stream of the packing image are stored and transmitted in the bit stream of the packing image, for example.
  • the first modification of the image processing system 10 is an example in which the mipmap method is applied to a plurality of types of packing images generated by the distribution side.
  • the distribution side (distribution device 41) generates a plurality of types (4 types) of packing images in which the viewing direction with respect to the subject 52 is different.
  • the assumed distance to the subject 52 was the same.
  • the distribution side in addition to a plurality of types of packed images having different viewing directions, the distribution side also generates a plurality of types of packed images having different viewing distances to the subject 52.
  • FIG. 20 shows an example of a plurality of types of packed images generated in the first modification of the image processing system 10.
  • the directions of the assumed virtual viewpoint are the four directions of the front direction, the right side direction, the back direction, and the left side direction, as in the basic embodiment described above.
  • the difference from the basic embodiment is that the viewing distance to the object (subject 52) is the first viewing distance 101 and the second viewing distance 102 that is farther than the first viewing distance 101.
  • One is set.
  • the playback side can switch the bitstream according to the difference in viewing distance by referring to the range of the assumed viewing distance of the meta information of the bitstream of the packing image shown in FIG. 19B.
  • the first packing image 71A-1 to the fourth packing image 71D-1 of the first viewing distance 101 and the first packing image 71A-2 to the fourth packing image 71D-2 of the second viewing distance 102 are packed.
  • the image resolution can be different. More specifically, the first packing image 71A-1 to the fourth packing image 71D-1 for short distance (first viewing distance 101) are set to high resolution and are used for long distance (second viewing distance 102).
  • the first packed image 71A-2 to the fourth packed image 71D-2 can have lower resolution than those for short distance.
  • the resolution of the packing image for a long distance can be set by a reduction ratio with respect to the resolution of the packing image for a short distance. For example, the resolution of the packing image for a long distance is 1/2 for a short distance. Is set to.
  • the example of FIG. 20 is an example of generating a plurality of types of packing images assuming two types of viewing distances, but of course, even if three or more types of viewing distances are assumed and packing images are generated. Good.
  • the packing image generation process of FIG. 21 corresponds to the packing image generation process of the basic embodiment shown in FIG. Since the processes of steps S101 to S105 of FIG. 21 are the same as the processes of steps S41 to S45 of FIG. 15, their description will be omitted.
  • the flowchart of FIG. 22 corresponds to steps S15 to S17 in the volumetric reproduction processing of the basic embodiment shown in FIG. In other words, in the first modification, steps S15 to S17 of the flowchart of FIG. 14 are replaced with steps S121 to S125 of the flowchart of FIG.
  • the viewing condition acquisition device 35 detects the viewing status of the viewer, generates virtual viewpoint information regarding the virtual viewpoint, and supplies it to the image selection device 24 and the rendering device 33.
  • the virtual viewpoint information includes the distance (viewing distance) from the virtual camera to the object in addition to the camera parameters of the virtual camera of the basic embodiment.
  • step S122 the image selection device 24 acquires the virtual viewpoint information supplied from the viewing condition acquisition device 35.
  • step S123 the image selection device 24 determines the assumed virtual viewpoint having the smallest angle A (i) formed with the viewer's virtual viewpoint from among the N assumed virtual viewpoints.
  • step S124 the image selection device 24 determines a packing image according to the viewing distance from the packing images of the M types of viewing distances of the determined assumed virtual viewpoint. As a result, the optimal packed image for the virtual viewpoint and viewing distance of the viewer is selected.
  • step S125 the image selection device 24 supplies the determined encoded stream of the packed image to the transmission device 25.
  • the coded streams corresponding to a plurality of assumed viewpoints are not only selected according to the position of the virtual viewpoint but also appropriately selected according to the viewing distance. , Can be transmitted to the playback side. As a result, when the viewing distance is long, a coded stream with a reduced resolution can be transmitted, so that the network band required for transmission can be reduced.
  • the layout of the object image packed in the packing image is the same for the long-distance use and the short-distance use, but the layout is different between the long-distance use and the short-distance use.
  • Good for example, some object images included in the short-distance packing image may not be included in the long-distance packing image.
  • the object image of the viewpoint behind the assumed virtual viewpoint may be omitted.
  • the assumed virtual viewpoints of the first packing image 71A-1 to the fourth packing image 71D-1 for the short distance and the first packing image 71A-2 to the fourth packing image 71D- for the long distance may be different.
  • bitstreams of a plurality of types of packing images having different bit rates (encoded bit rates) at the time of encoding are generated on the distribution side.
  • the reproducing side acquires a bit stream having an encoding bit rate according to the network band, and reproduces and displays it.
  • step S13 of the flowchart of the packing image generation process of the basic embodiment shown in FIG. 14 is changed from the basic embodiment.
  • step S13 is a process in which the encoding device 23 encodes the packed image for each assumed virtual viewpoint, which is supplied from the image generation device 22, by a predetermined encoding method.
  • the bit rate at the time of encoding was a preset predetermined bit rate such as 20 Mbps.
  • the coding device 23 encodes N packed images having different assumed virtual viewpoints at a plurality of different coding bit rates.
  • the coding device 23 performs coding at two types of coding bit rates, 20 Mbps and 5 Mbps.
  • the encoded stream of the packed image obtained as a result of the encoding is supplied from the encoding device 23 to the image selection device 24.
  • the flowchart of FIG. 23 corresponds to steps S15 to S17 in the volumetric reproduction processing of the basic embodiment shown in FIG. In other words, steps S15 to S17 of the flowchart of FIG. 14 are replaced with steps S141 to S145 of the flowchart of FIG. 23.
  • the viewing condition acquisition device 35 in the process of FIG. 23, in step S141, the viewing condition acquisition device 35 generates virtual viewpoint information and detects the network band. That is, the viewing condition acquisition device 35 detects the viewing status of the viewer and generates virtual viewpoint information regarding the virtual viewpoint. Further, the viewing condition acquisition device 35 detects the network band of the network to which the coded stream of the packing image is transmitted. The viewing condition acquisition device 35 supplies the virtual viewpoint information and the network band to the image selection device 24, and supplies the virtual viewpoint information to the rendering device 33.
  • step S 142 the image selection device 24 acquires the virtual viewpoint information and the network bandwidth supplied from the viewing condition acquisition device 35.
  • step S143 the image selection device 24 determines an assumed virtual viewpoint having the smallest angle A(i) formed by the viewer's virtual viewpoint from the N assumed virtual viewpoints.
  • the image selection device 24 determines a packing image according to the network band from a plurality of packing images of the determined assumed virtual viewpoint, that is, a plurality of types of packing images having different coding bit rates.
  • the optimal packed image for the virtual viewpoint of the viewer and the network band is selected. For example, when two types of coded bit rates of 20 Mbps and 5 Mbps are prepared, the coded bit rate is 20 Mbps when the network band supplied from the viewing condition acquisition device 35 is equal to or more than a predetermined value. When the packed image is selected and is smaller than the predetermined value, the packed image having the coding bit rate of 5 Mbps is selected. When three or more types of encoding bit rates are prepared, the packing image having the maximum bit rate that can be transmitted in the current network band is selected.
  • step S145 the image selection device 24 supplies the determined encoded stream of the packed image to the transmission device 25.
  • the coded streams corresponding to a plurality of assumed virtual viewpoints are selected according to the viewpoint (virtual viewpoint) of the viewer, but also according to the network bandwidth. It can be appropriately selected and transmitted to the playback side. As a result, an encoded stream according to the network band can be transmitted, so that the object image can be reproduced and displayed with high image quality within the range of the allowed network band.
  • the distribution side may prepare a plurality of types of bitstreams according to the viewing distance, and prepare a plurality of types of bitstreams for each network band for each viewing distance.
  • the subject 52 is photographed using a plurality of types of imaging devices 53 having different resolutions.
  • a subject is used by using an imaging device 53H called HD (High Definition) that captures images at a resolution of 1920x1080 and a 4K resolution imaging device 53K having a resolution four times that of HD. 52 is imaged.
  • FIG. 24 shows an example in which nine image pickup devices 53H photograph the subject 52 and eight image pickup devices 53K photograph the subject 52.
  • the resolutions of the texture images supplied from the plurality of imaging devices 53 have the same resolution or different resolutions as compared with the basic embodiment. Only the difference.
  • the 3D data generation device 21 of the third modification generates a 3D model of the object for each resolution at the time of shooting. Specifically, the 3D data generation device 21 generates a 3D model of the object by using the texture image supplied from the HD resolution image pickup device 53H and the camera parameters corresponding to them. Further, the 3D data generation device 21 generates a 3D model of the object by using the texture image supplied from the 4K resolution image pickup device 53K and the camera parameters corresponding to them. Then, the 3D data generation device 21 supplies the 3D model data representing the generated 3D model to the image generation device 22.
  • the image generation device 22 generates a packed image for each resolution at the time of shooting.
  • the packing image generation process of the basic embodiment shown in FIG. 15 uses a process of generating a packing image using a HD resolution texture image and a 4K resolution texture image. And a process of generating a packed image by using the above method.
  • the process of determining N assumed virtual viewpoints in step S41 can be performed once when the number N of assumed virtual viewpoints is the same in HD resolution and 4K resolution.
  • the number N of assumed virtual viewpoints is the same for HD resolution and 4K resolution.
  • step S42 the process of determining the layout of the packed image and the imaging device 53 to be mapped to each layout position in step S42 is performed once when the layout of the packed image and the arrangement of the imaging device 53 are common.
  • the process of determining the GOP length at the time of encoding in step S43 can be performed once when the HD resolution and the 4K resolution have the same GOP length.
  • the resolution calculation process in step S44 and the mapping process in step S45 need to be performed for HD resolution and 4K resolution, respectively.
  • the image generation device 22 of the third modification generates N packing images having different assumed virtual viewpoints by using the texture image of HD resolution, and uses the texture image of 4K resolution to generate the assumed virtual viewpoint. Generates N different packing images and supplies them to the coding apparatus 23.
  • FIG. 25 is a flowchart of the processing regarding the selection of the packed image in the third modified example.
  • the flowchart of FIG. 25 corresponds to steps S15 to S17 in the volumetric reproduction process of the basic embodiment shown in FIG. In other words, steps S15 to S17 of the flowchart of FIG. 14 are replaced with steps S161 to S165 of the flowchart of FIG. 25.
  • the viewing condition acquisition device 35 In the process of FIG. 25, in step S161, the viewing condition acquisition device 35 generates virtual viewpoint information and detects the network band. That is, the viewing condition acquisition device 35 detects the viewing status of the viewer and generates virtual viewpoint information regarding the virtual viewpoint. Further, the viewing condition acquisition device 35 detects the network band of the network to which the coded stream of the packing image is transmitted. The viewing condition acquisition device 35 supplies the virtual viewpoint information and the network band to the image selection device 24, and supplies the virtual viewpoint information to the rendering device 33.
  • step S162 the image selection device 24 acquires the virtual viewpoint information and the network bandwidth supplied from the viewing condition acquisition device 35.
  • step S163 the image selection device 24 determines an assumed virtual viewpoint having the smallest angle A(i) formed by the viewer's virtual viewpoint from the N assumed virtual viewpoints.
  • step S164 the image selection device 24 determines a packing image according to the network band from a plurality of packing images of the determined assumed virtual viewpoint, that is, a plurality of types of packing images having different resolutions at the time of shooting.
  • the optimal packed image for the virtual viewpoint of the viewer and the network band is selected. For example, when the network band supplied from the viewing condition acquisition device 35 is equal to or higher than a predetermined value, the packing image generated using the texture image of 4K resolution is selected, and when the network image is smaller than the predetermined value, The packing image generated using the HD resolution texture image is selected. When three or more resolutions are prepared, the packing image having the maximum resolution that can be transmitted in the current network band is selected.
  • step S165 the image selection device 24 supplies the determined encoded stream of the packed image to the transmission device 25.
  • the encoded streams corresponding to a plurality of assumed virtual viewpoints are selected according to the viewpoint (virtual viewpoint) of the viewer but also according to the network bandwidth.
  • the resolution of the packing image can be appropriately selected and transmitted to the playback side.
  • an encoded stream according to the network band can be transmitted, so that the object image can be reproduced and displayed with high image quality within the range of the allowed network band.
  • the first to third modified examples can also be applied to real-time processing while reducing the amount of data.
  • Example of computer configuration> The series of processes described above can be executed by hardware or by software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a microcomputer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 26 is a block diagram showing a hardware configuration example of a computer that executes the series of processes described above by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 305 is further connected to the bus 304.
  • An input unit 306, an output unit 307, a storage unit 308, a communication unit 309, and a drive 310 are connected to the input/output interface 305.
  • the input unit 306 includes a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 307 includes a display, a speaker, an output terminal, and the like.
  • the storage unit 308 includes a hard disk, a RAM disk, a non-volatile memory, and the like.
  • the communication unit 309 includes a network interface and the like.
  • the drive 310 drives a removable recording medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 301 loads the program stored in the storage unit 308 into the RAM 303 via the input/output interface 305 and the bus 304 and executes the program to execute the above-described series of operations. Is processed.
  • the RAM 303 also appropriately stores data and the like necessary for the CPU 301 to execute various processes.
  • the program executed by the computer (CPU 301) can be provided by being recorded in a removable recording medium 311 such as a package medium, for example. Further, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 308 via the input / output interface 305 by mounting the removable recording medium 311 in the drive 310. Further, the program can be received by the communication unit 309 via a wired or wireless transmission medium and installed in the storage unit 308. In addition, the program can be installed in advance in the ROM 302 or the storage unit 308.
  • the steps described in the flowcharts are not limited to being performed in time series according to the order described, but may be performed in parallel or even if the steps are not necessarily performed in time series. It may be executed at a necessary timing such as when.
  • the system means a set of a plurality of constituent elements (devices, modules (parts), etc.), and it does not matter whether or not all constituent elements are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. ..
  • the description of the geometry information of the object is omitted because it can be transmitted in any format such as depth image, point cloud, polygon mesh, or the like.
  • the geometry information is transmitted as a depth image
  • one packing image may be generated from a plurality of depth images supplied from the plurality of imaging devices 53 and transmitted to the reproduction side in the same manner as the texture image described above. That is, the above-described technique of generating object images from the texture images captured by each of the plurality of image capturing devices 53, packing them, and generating and transmitting the packed image can also be applied to the depth image.
  • the image generation device 22 (generation unit) generates a plurality of types of packing images in which a plurality of object images taken from different directions are packed into one sheet.
  • one packing image has a configuration in which the resolutions of a plurality of object images are different at least in part.
  • the image selection device 24 selects one of a plurality of types of packing images and outputs the image to the playback side.
  • the object image here is an image obtained by cropping only the object region from the texture image, or an image obtained by cropping only the object region from the depth image.
  • a form in which all or any part of the above-described embodiments are combined can be adopted.
  • a form in which the first modification example and the second modification example are combined, a form in which the second modification example and the third modification example are combined, and a form in which the first modification example and the third modification example are combined. Can be adopted.
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • the present technology can have the following configurations. (1) Of a plurality of images in which objects are photographed from different directions, a first object image in which the object faces the first direction and a second object in which the object faces a second direction different from the first direction A generation unit that generates a first packed image in which the first object image and the second object image are packed in one frame with a higher resolution than the image
  • the generating unit may further include a third object image in which the object faces a third direction different from the first direction, out of a plurality of images in which the object is captured from different directions, and the object is the third object image.
  • An image processing apparatus that generates a second packed image in which the third object image and the fourth object image are packed in one frame with a higher resolution than the fourth object image facing the fourth direction different from the three directions. .. (2)
  • the first direction is closer to an assumed virtual viewpoint that is a virtual viewpoint assumed on the reproduction side than the second direction
  • the image processing device according to any one of (1) to (6), wherein the generation unit generates a plurality of types of the first packed image and the second packed image having different bit rates during encoding.
  • the image processing device according to any one of (1) to (7), wherein the generation unit generates a plurality of types of the first packing image and the second packing image having different resolutions when captured by the imaging device.
  • the image processing device according to any one of (1) to (8), further including a selection unit that selects the first packed image or the second packed image according to viewing conditions.
  • the image processing apparatus according to (9) or (10), wherein the viewing condition is a viewing distance that is a distance of the viewer to the object.
  • the image processing device according to any one of (1) to (11), wherein the first object image of the first packed image and the third object image of the second packed image have the same resolution.
  • the image processing device according to any one of (1) to (12), wherein the resolutions of the first object image and the second object image forming the first packed image change in GOP units.
  • the first packing image is composed of a plurality of the first object images and a plurality of the second object images
  • the image processing device according to any one of (1) to (13), wherein the second packing image is composed of a plurality of the third object images and a plurality of the fourth object images.
  • the image processing device according to any one of (1) to (14), wherein the first packing image and the second packing image are generated in association with a viewing direction of a user.
  • the image processing device Of a plurality of images in which objects are photographed from different directions, a first object image in which the object faces the first direction and a second object in which the object faces a second direction different from the first direction A first generation step of generating a first packed image in which the resolution is higher than that of the image and the first object image and the second object image are packed in one frame; Of a plurality of images of the object taken from different directions, a third object image in which the object faces a third direction different from the first direction is a fourth object image different from the third direction. A plurality of packed images by a second generation step in which the third object image and the fourth object image are packed in one frame to have a higher resolution than the fourth object image facing the direction; Image generation method to generate.
  • a rendering unit that acquires the first packing image or the second packing image and generates a virtual viewpoint image of the object viewed from the viewpoint of the viewer as a display image;
  • the first packing image is a first object image in which the object is oriented in the first direction among a plurality of images in which the object is photographed from different directions, and a second image in which the object is different from the first direction.
  • the second packing image is a third object image in which the object is oriented in a third direction different from the first direction among a plurality of images taken by the object from different directions, and the object is the first image.
  • An image processing device that is a packing image in which the third object image and the fourth object image are packed in one frame with a higher resolution than the fourth object image facing a fourth direction different from the three directions.
  • the image processing device Acquiring the first packing image or the second packing image, generating a virtual viewpoint image of the object viewed from the viewer's viewpoint as a display image,
  • the first packing image is a first object image in which the object is oriented in the first direction among a plurality of images in which the object is photographed from different directions, and a second image in which the object is different from the first direction.
  • the second packing image is a third object image in which the object is oriented in a third direction different from the first direction among a plurality of images taken by the object from different directions, and the object is the first image.
  • An image processing method which is a packing image in which the third object image and the fourth object image are packed in one frame with a higher resolution than the fourth object image facing a fourth direction different from the three directions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)

Abstract

本技術は、データ量を削減しつつ、リアルタイム処理にも適応できるようにする画像処理装置、画像生成方法、および、画像処理方法に関する。 画像処理装置は、異なる方向からオブジェクトが撮影された複数の画像のうち、オブジェクトが第1方向を向いている第1オブジェクト画像を、オブジェクトが第2方向を向いている第2オブジェクト画像より解像度を高くして、第1オブジェクト画像と第2オブジェクト画像を1フレームにパッキングした第1パッキング画像を生成し、さらに、オブジェクトが第3方向を向いている第3オブジェクト画像を、オブジェクトが第4方向を向いている第4オブジェクト画像より解像度を高くして、第3オブジェクト画像と第4オブジェクト画像を1フレームにパッキングした第2パッキング画像を生成する。本技術は、例えば、複数枚のテクスチャ画像を用いたボリューメトリック再生処理を行う画像処理装置等に適用できる。

Description

画像処理装置、画像生成方法、および、画像処理方法
 本技術は、画像処理装置、画像生成方法、および、画像処理方法に関し、特に、データ量を削減しつつ、リアルタイム処理にも適応できるようにした画像処理装置、画像生成方法、および、画像処理方法に関する。
 多視点で撮影された動画像から被写体の3Dモデルを生成し、任意の視聴位置に応じた3Dモデルの仮想視点画像を生成することで自由な視点の画像を提供する技術がある。この技術は、ボリューメトリックキャプチャ技術などとも呼ばれている。
 撮影された全ての視点からの撮影画像を再生側に伝送すると、データの伝送量が膨大となるため、再生時の視聴位置に応じて一部の視点の動画像のみを選択してパッキングし、再生側へ送信するようにしたものがある(例えば、特許文献1参照)。
国際公開第2018/150933号
 しかしながら、例えば、特許文献1の技術では、再生時の視聴位置に応じて、その都度、再生側に伝送する視点の動画像の選択、パッキング、および、伝送の処理を行う必要があり、リアルタイム処理への対応が困難な場合がある。
 本技術は、このような状況に鑑みてなされたものであり、データ量を削減しつつ、リアルタイム処理にも適応できるようにするものである。
 本技術の第1の側面の画像処理装置は、異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングした第1パッキング画像を生成する生成部を備え、前記生成部は、さらに、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングした第2パッキング画像を生成する。
 本技術の第1の側面の画像生成方法は、画像処理装置が、異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングした第1パッキング画像を生成する第1生成ステップと、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングした第2パッキング画像を生成する第2生成ステップとにより複数のパッキング画像を生成する。
 本技術の第1の側面においては、異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングした第1パッキング画像が生成され、さらに、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングした第2パッキング画像が生成される。
 本技術の第2の側面の画像処理装置は、第1パッキング画像、または、第2パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成するレンダリング部を備え、前記第1パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングしたパッキング画像であり、前記第2パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングしたパッキング画像である。
 本技術の第2の側面の画像処理方法は、画像処理装置が、第1パッキング画像、または、第2パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成し、前記第1パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングしたパッキング画像であり、前記第2パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングしたパッキング画像である。
 本技術の第2の側面においては、第1パッキング画像、または、第2パッキング画像が取得され、視聴者の視点からオブジェクトを見た仮想視点画像が表示画像として生成される。前記第1パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングしたパッキング画像であり、前記第2パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングしたパッキング画像である。
 なお、本技術の第1および第2の側面の画像処理装置は、コンピュータにプログラムを実行させることにより実現することができる。コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
 画像処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
本技術を適用した画像処理システムの概要を説明する図である。 本技術を適用した画像処理システムの構成例を示すブロック図である。 複数の撮像装置と被写体との位置関係を模式的に示した図である。 テクスチャ画像とデプス画像の例を示す図である。 想定仮想視点を説明する図である。 9枚のオブジェクト画像の例を示す図である。 オブジェクト画像のマッピング例を示す図である。 各レイアウト位置にマッピングされるオブジェクト画像を説明する図である。 4方向の想定仮想視点について生成した4枚のパッキング画像の例を示す図である。 4枚のパッキング画像のビットストリームの切り替えを説明する図である。 パッキング画像のその他のレイアウト例を示す図である。 撮像装置の配置例とパッキング画像の生成例を説明する図である。 画像選択装置によるパッキング画像の選択処理を説明する図である。 ボリューメトリック再生処理を説明するフローチャートである。 図14のステップS12におけるパッキング画像生成処理の詳細を説明するフローチャートである。 GOP単位のストリームの切り替えを説明する図である。 図15のステップS44における解像度計算処理の詳細を説明するフローチャートである。 図15のステップS45におけるマッピング処理の詳細を説明するフローチャートである。 撮像装置のメタ情報とビットストリームのメタ情報の例を示す図である。 第1の変形例における複数種類のパッキング画像の例を示す図である。 第1の変形例におけるパッキング画像生成処理を説明するフローチャートである。 第1の変形例におけるパッキング画像の選択に関する処理を説明するフローチャートである。 第2の変形例におけるパッキング画像の選択に関する処理を説明するフローチャートである。 第3の変形例を説明する図である。 第3の変形例におけるパッキング画像の選択に関する処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を実施するための形態(以下、実施形態という)について説明する。なお、説明は以下の順序で行う。
1.画像処理システムの概要
2.画像処理システムの構成例
3.ボリューメトリック再生処理
4.パッキング画像の生成処理
5.解像度計算処理
6.マッピング処理
7.第1の変形例
8.第2の変形例
9.第3の変形例
10.コンピュータ構成例
<1.画像処理システムの概要>
 初めに、図1を参照して、本技術を適用した画像処理システムの概要について説明する。
 図1は、本技術を適用した画像処理システムにおける、撮影画像の生成から視聴までの一連の流れを示している。
 本技術を適用した画像処理システムは、複数の撮像装置で撮像して得られた撮影画像からオブジェクトの3Dモデルを生成して配信する配信側と、配信側から伝送されてくる3Dモデルを受け取り、再生表示する再生側とからなる。
 配信側においては、所定の撮影空間を、その外周から複数の撮像装置で撮像を行うことにより複数の撮影画像が得られる。撮影画像は、例えば、動画像で構成される。図1の例では、被写体#Ob1を取り囲むように3台の撮像装置CAM1乃至CAM3が配置されているが、撮像装置CAMの台数は3台に限らず、任意である。被写体#Ob1は、所定の動作をとっている人物とされている。
 異なる方向の複数の撮像装置CAMから得られた撮影画像を用いて、撮影空間において表示対象となる被写体#Ob1の3Dモデルである3DオブジェクトMO1が生成される(3Dモデリング)。例えば、異なる方向の撮影画像を用いて被写体の3次元形状の削り出しを行うVisual Hull等の手法を用いて、3DオブジェクトMO1が生成される。
 そして、撮影空間に存在する1以上の3Dオブジェクトのうち、1以上の3Dオブジェクトのデータ(以下、3Dモデルデータとも称する。)が、再生側の装置に伝送され、再生される。すなわち、再生側の装置において、取得した3Dオブジェクトのデータに基づいて、3Dオブジェクトのレンダリングを行うことにより、視聴者の視聴デバイスに3D形状映像が表示される。図1においては、視聴デバイスが、ディスプレイD1や、ヘッドマウントディスプレイ(HMD)D2である例を示している。
 再生側は、撮影空間に存在する1以上の3Dオブジェクトのうち、視聴対象の3Dオブジェクトだけを要求して、視聴デバイスに表示させることが可能である。例えば、再生側は、視聴者の視聴範囲が撮影範囲となるような仮想カメラを想定し、撮影空間に存在する多数の3Dオブジェクトのうち、仮想カメラで捉えられる3Dオブジェクトのみを要求して、視聴デバイスに表示させる。実世界において視聴者が任意の視点から被写体を見ることができるように、仮想カメラの視点(仮想視点)は任意の位置に設定することができる。3Dオブジェクトには、適宜、所定の空間を表す背景の映像が合成される。
<2.画像処理システムの構成例>
 図2は、本技術を適用した画像処理システムの構成例を示すブロック図である。
 図2の画像処理システム10は、図1で説明した配信側として、3Dデータ生成装置21、画像生成装置22、符号化装置23、画像選択装置24、および、送信装置25を備える。
 配信側の3Dデータ生成装置21、画像生成装置22、符号化装置23、画像選択装置24、および、送信装置25は、それぞれ、個別に構成されてもよいし、2つ以上の装置が一体化された構成でもよい。例えば、図1において破線で示されるように、3Dデータ生成装置21、画像生成装置22、符号化装置23、画像選択装置24、および、送信装置25が1つの配信装置41を構成してもよい。この場合、3Dデータ生成装置21、画像生成装置22、符号化装置23、画像選択装置24、および、送信装置25は、それぞれ、配信装置41の3Dデータ生成部、画像生成部、符号化部、画像選択部、および、送信部を構成する。
 また、画像処理システム10は、図1で説明した再生側として、受信装置31、復号装置32、レンダリング装置33、表示装置34、および、視聴条件取得装置35を備える。
 再生側の、受信装置31、復号装置32、および、レンダリング装置33は、それぞれ、個別に構成されてもよいし、2つ以上の装置が一体化された構成でもよい。例えば、図1において破線で示されるように、受信装置31、復号装置32、および、レンダリング装置33が1つの再生装置42を構成してもよい。この場合、受信装置31、復号装置32、および、レンダリング装置33は、それぞれ、再生装置42の受信部、復号部、および、レンダリング部を構成する。
 配信側の送信装置25と再生側の受信装置31は、所定のネットワークを介して接続される。ネットワークは、例えば、インターネット、電話回線網、衛星通信網、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網などで構成される。
 画像処理システム10の3Dデータ生成装置21には、被写体を撮影した複数の撮像装置それぞれから、撮影画像が供給される。撮影画像は、被写体の色を特定する情報であり、以下では、テクスチャ画像と称する。テクスチャ画像は、動画像で構成される。
 図3は、複数の撮像装置と被写体との位置関係を模式的に示した図である。
 図3の例では、部屋のような撮影空間51の中央部に、人及び2つのボールを含む被写体52が存在している。そして、被写体52を囲むように、9台の撮像装置53-1乃至53-9が配置されている。なお、撮像装置53-1乃至53-9は、斜線のパターンが付されたマルにより簡略化して図示されている。
 撮像装置53-1、撮像装置53-3、撮像装置53-5、及び、撮像装置53-7は、それぞれ撮影空間51の各壁のほぼ中央から、被写体52を向くように配置されている。撮像装置53-1と撮像装置53-5、及び、撮像装置53-3と撮像装置53-7は、それぞれ対向している。撮像装置53-2、撮像装置53-4、撮像装置53-6、及び、撮像装置53-8は、それぞれ撮影空間51の各コーナ付近から、被写体52を向くように配置されている。撮像装置53-2と撮像装置53-6、及び、撮像装置53-4と撮像装置53-8は、それぞれ対向している。撮像装置53-9は、撮影空間51の天井のほぼ中央から、被写体52を見下ろすように配置されている。
 このように、撮像装置53-1乃至撮像装置53-9それぞれは、異なる位置に配置され、被写体52を異なる視点(現実の視点)から撮影し、その結果得られるテクスチャ画像を、3Dデータ生成装置21に供給する。各撮像装置53のワールド座標系上の位置は既知であり、各撮像装置53のカメラパラメータ(外部パラメータおよび内部パラメータ)も、3Dデータ生成装置21に供給される。
 なお、撮像装置53は、3Dモデルデータを生成するための事前の準備として、被写体52が存在しない状態で撮影空間51を撮像した背景画像を生成する。背景画像は動画像である必要はなく、静止画像でよい。背景画像は、再生側に送信してもよく、再生側では、送信されてきた3Dモデルデータの3Dオブジェクトを背景画像に合成して表示させることができる。
 図2に戻り、3Dデータ生成装置21は、複数の撮像装置53それぞれから供給される被写体のテクスチャ画像とカメラパラメータとを用いて、撮影空間51内に存在する1以上の被写体を1つのオブジェクトとして、オブジェクトごとに3Dモデルを生成し、生成された各オブジェクトの3Dモデルデータを画像生成装置22に供給する。
 例えば、3Dデータ生成装置21は、撮像装置53から供給される被写体を含むテクスチャ画像と背景画像との差分を抽出することにより、被写体領域を抽出したシルエット画像を生成する。そして、3Dデータ生成装置21は、異なる方向の複数枚のシルエット画像とカメラパラメータを用いて、Visual Hull等の手法により、オブジェクトの3Dモデルを生成し、生成した3Dモデルを表す3Dモデルデータを生成する。
 3Dモデルデータの形式は、視聴時の視点(仮想視点)に応じて、再生端末側で色を付けるViewDependentレンダリングに対応した形式であるとする。換言すれば、3Dモデルデータの形式は、複数の撮像装置53で撮像されたテクスチャ画像を、色情報として再生端末側に送信する形式である。
 各撮像装置53で撮像されたテクスチャ画像を色情報として送信するViewDependentレンダリングに対応した形式において、オブジェクトの形状を規定するジオメトリ情報のデータ形式は問わない。例えば、オブジェクトのジオメトリ情報は、複数の撮像装置53で撮像されたテクスチャ画像に対応するデプス画像でもよいし、オブジェクトの3次元位置を点の集合で表したポイントクラウドや、頂点(Vertex)と頂点間のつながりで表したポリゴンメッシュでもよい。
 図4は、オブジェクトのジオメトリ情報として、撮像装置53-1乃至撮像装置53-9で得られたテクスチャ画像に対応するデプス画像の例を示している。
 テクスチャ画像TI1乃至テクスチャ画像TI9は、撮像装置53-1乃至撮像装置53-9により撮影されたテクスチャ画像の例を示している。
 デプス画像DI1乃至デプス画像DI9は、テクスチャ画像TI1乃至テクスチャ画像TI9に対応するデプス画像の例を示している。
 本実施の形態においては、オブジェクトの色情報については、各撮像装置53で撮像されたテクスチャ画像(の少なくとも一部)を送信することとするが、オブジェクトのジオメトリ情報については、デプス画像、ポイントクラウド、ポリゴンメッシュのいずれを採用してもよい。以下では、オブジェクトのジオメトリ情報として所定の形式で表されたオブジェクトのデータを、オブジェクトの3次元データとも称する。
 図2に戻り、3Dデータ生成装置21は、生成した3Dモデルデータを、画像生成装置22に供給する。
 画像生成装置22は、3Dデータ生成装置21から供給される3Dモデルデータに含まれる、各撮像装置53で撮像されたオブジェクトのテクスチャ画像を所定の順番に配列し、1つの画像にパッキング(結合)することにより、オブジェクトのパッキング画像を生成する。以下、簡単のため、テクスチャ画像からオブジェクトの領域だけをクロップした画像を、オブジェクト画像と称し、複数のオブジェクト画像を1枚の画像にパッキングした画像がパッキング画像となる。
 画像生成装置22は、再生側において想定される複数の仮想視点(想定仮想視点)を設定し、想定仮想視点ごとにパッキング画像を生成する。
 例えば、画像生成装置22は、図5に示されるように、被写体52の正面方向、右サイド方向、背面方向、および、左サイド方向の4方向を想定仮想視点として決定し、4種類のパッキング画像を生成する。尚、被写体52の正面方向、右サイド方向、背面方向、および、左サイド方向など、本明細書で使用している「方向」はある程度の角度を持った概念として用いられる。
 画像生成装置22は、想定仮想視点ごとのパッキング画像を生成する際、複数のオブジェクト画像を同一条件でパッキングするのではなく、オブジェクト画像の縮小率を複数種類設定し、異なる縮小率で縮小した複数のオブジェクト画像をパッキングして、パッキング画像を生成する。より具体的には、画像生成装置22は、想定仮想視点に近い方向のオブジェクト画像を、その他の方向のオブジェクト画像より解像度を高くして、複数のオブジェクト画像を1フレームにパッキングしたパッキング画像を生成する。
 図6乃至図10を参照して、画像生成装置22が、撮像装置53-1乃至撮像装置53-9でそれぞれ撮影された9枚のテクスチャ画像TI1乃至テクスチャ画像TI9を用いて、図5に示した4方向の想定仮想視点に対応する、4種類のパッキング画像を生成する例について説明する。
 画像生成装置22には、撮像装置53-1乃至撮像装置53-9でそれぞれ撮影された9枚のテクスチャ画像TI1乃至テクスチャ画像TI9が供給される。画像生成装置22は、9枚のテクスチャ画像TI1乃至テクスチャ画像TI9それぞれから前景領域を切り出すことにより、オブジェクト画像BI1乃至BI9を生成する。
 図6は、9枚のテクスチャ画像TI1乃至テクスチャ画像TI9から生成された9枚のオブジェクト画像BI1乃至BI9の例を示している。
 画像生成装置22は、この9枚のオブジェクト画像BI1乃至BI9を必要に応じて所定の縮小率で縮小し、1つの画像にパッキング(結合)することにより、パッキング画像を生成する。
 図7は、9枚のオブジェクト画像を所定の順番に配列し、1つのパッキング画像を生成する場合のオブジェクト画像のマッピング例を示している。
 p(p=0,2,3,・・・,8)は、1つのパッキング画像のレイアウト位置(マッピング場所)を識別するパラメータである。
 レイアウト位置p=0乃至2には、縮小率を元のオブジェクト画像の等倍としたオブジェクト画像がマッピングされる。レイアウト位置p=3乃至5には、縮小率を元のオブジェクト画像の1/2としたオブジェクト画像がマッピングされる。レイアウト位置p=6乃至8には、縮小率を元のオブジェクト画像の1/4としたオブジェクト画像がマッピングされる。
 9枚のオブジェクト画像BI1乃至BI9のうち、どのオブジェクト画像をレイアウト位置p=0乃至8にマッピングするかは、想定仮想視点を基準に決定される。
 図8は、想定仮想視点が右サイド方向である場合のレイアウト位置p=0乃至8にマッピングされるオブジェクト画像BI1乃至BI9を説明する図である。
 図8には、撮影空間51に対する撮像装置53-1乃至撮像装置53-9の方向が矢印で示されており、想定仮想視点が目のイラストで示されている。想定仮想視点を右サイド方向とした場合、想定仮想視点に最も近い撮影方向は、撮像装置53-3の撮影方向である。
 縮小率が等倍のレイアウト位置p=0乃至2には、想定仮想視点に近い撮像装置53-2乃至53-4で撮影されたテクスチャ画像TI2乃至テクスチャ画像TI4から生成されたオブジェクト画像BI2乃至BI4がマッピングされる。
 縮小率が1/2のパッキング画像のレイアウト位置p=3乃至5には、想定仮想視点に次に近い撮像装置53-1、53-5、および53-9で撮影されたテクスチャ画像TI1、TI5、およびTI9から生成されたオブジェクト画像BI1、BI5、およびBI9がマッピングされる。
 縮小率が1/4のパッキング画像のレイアウト位置p=6乃至8には、想定仮想視点から遠い撮像装置53-6乃至53-8で撮影されたテクスチャ画像TI6乃至TI8から生成されたオブジェクト画像BI6乃至BI8がマッピングされる。
 以上のように、画像生成装置22は、9枚のオブジェクト画像BI1乃至BI9を1つの画像にパッキング(結合)する際、想定仮想視点に遠い撮影方向(視点)の画像ほど、縮小率を小さく、すなわち画像サイズを小さく設定したオブジェクト画像をパッキングする。
 換言すれば、画像生成装置22は、9枚のオブジェクト画像BI1乃至BI9を1つの画像にパッキングする際、想定仮想視点に近い撮影方向(視点)の画像ほど、元のテクスチャ画像の解像度(画像サイズ)に近いオブジェクト画像をパッキングする。
 図9は、9枚のオブジェクト画像BI1乃至BI9を用いて、図5に示した4方向の想定仮想視点について生成した4枚(4種類)のパッキング画像の例を示している。
 第1パッキング画像71Aは、想定仮想視点を、撮像装置53-1の撮影方向と同一である正面方向とした場合のパッキング画像を示している。
 想定仮想視点を正面方向とする第1パッキング画像71Aのレイアウト位置p=0乃至2には、撮像装置53-1、53-2、および53-8で撮影されたテクスチャ画像TI1、TI2、および、TI8から生成したオブジェクト画像BI1、BI2、および、BI8がマッピングされている。
 第2パッキング画像71Bは、想定仮想視点を、撮像装置53-3の撮影方向と同一である右サイド方向とした場合のパッキング画像を示している。
 想定仮想視点を右サイド方向とする第2パッキング画像71Bのレイアウト位置p=0乃至2には、撮像装置53-2、53-3、および53-4で撮影されたテクスチャ画像TI2、TI3、および、TI4から生成したオブジェクト画像BI2、BI3、および、BI4がマッピングされている。
 第3パッキング画像71Cは、想定仮想視点を、撮像装置53-7の撮影方向と同一である左サイド方向とした場合のパッキング画像を示している。
 想定仮想視点を左サイド方向とする第3パッキング画像71Cのレイアウト位置p=0乃至2には、撮像装置53-6、53-7、および53-8で撮影されたテクスチャ画像TI6、TI7、および、TI8から生成したオブジェクト画像BI6、BI7、および、BI8がマッピングされている。
 第4パッキング画像71Dは、想定仮想視点を、撮像装置53-5の撮影方向と同一である背面方向とした場合のパッキング画像を示している。
 想定仮想視点を背面方向とする第4パッキング画像71Dのレイアウト位置p=0乃至2には、撮像装置53-4、53-5、および53-6で撮影されたテクスチャ画像TI4、TI5、および、TI6から生成したオブジェクト画像BI4、BI5、および、BI6がマッピングされている。
 第1パッキング画像71A乃至第4パッキング画像71Dの他のレイアウト位置p=3乃至8についての説明は省略するが、想定仮想視点を基準とする図8で説明した規則でマッピングされている。
 このように、想定視点に応じてパッキング画像を生成することで、想定仮想視点に近い撮影方向のオブジェクト画像ほど、元の解像度に近い縮小率で再生側に提供されるので、高精細な画像を用いてレンダリングすることができる。
 また、想定仮想視点の裏側など、想定仮想視点から遠い撮影方向のオブジェクト画像についても、縮小率は小さいながらも再生側に提供することができる。このため、例えば、ヘッドマウントディスプレイを装着したユーザの視聴方向が急激に変更するなどして仮想視点が急激に変化しても、画像が途切れることなく、レンダリングが可能である。
 以上より、画像生成装置22により生成された複数のパッキング画像のうち1つを配信側から再生側に伝送するだけで、想定視点は高品質のオブジェクト画像を視聴できると共に、想定視点以外の視点に急激に切替わっても画面が途切れることなくレンダリングが可能である。すなわち、配信側から再生側に伝送する伝送量を抑えつつ、想定視点では高品質、想定視点以外の一部又は全領域で少なくとも最低限のレンダリングを保証することができる。
 再生側では、4方向の想定仮想視点に対応する4種類のパッキング画像のビットストリームのうち、1つのパッキング画像のビットストリームのみが受信される。言い換えれば、4種類のパッキング画像のビットストリームが、視聴者の視点(仮想視点)に応じて切替えられる。
 ビットストリームの伝送においては、GOP(group of picture)単位でしかビットストリームを切り替えることができない。例えば、図10に示されるように、再生側のレンダリング装置33が、時刻t11において右サイド方向の第2パッキング画像71Bのビットストリームに基づいて再生表示しており、時刻t12において視聴者の視点が正面方向に急激に変化した場合であっても、正面方向の第1パッキング画像71Aのビットストリームに切り替えられるのは、時刻t21となる。図10において、時刻t11、t21、t31、t41の丸印は、ビットストリームのGOPの先頭を表す。そのため、時刻t12から時刻t21までの間は、右サイド方向の第2パッキング画像71Bのビットストリームが用いられる。1つのパッキング画像71のビットストリームに、全ての撮影方向のオブジェクト画像BI1乃至BI9をパッキングしておくことにより、ストリームが切り替わるまでは、切替え前のストリームにパッキングされたオブジェクト画像BIを用いて再生表示することができるので、画像が途切れることなく、レンダリングが可能である。
 なお、図7乃至図9で示したパッキング画像71のレイアウトは、あくまで一例であり、パッキング画像71のレイアウトは、撮像装置53の台数および配置(撮影位置)によって、任意に決定することができる。勿論、撮像装置53の台数が9台である場合に、図7に示したレイアウトとは異なるレイアウトを採用してもよい。
 図11は、撮像装置53の台数が14台である場合のパッキング画像のレイアウトの一例を示している。
 このパッキング画像では、レイアウト位置p=0乃至3にマッピングされるオブジェクト画像が、縮小率が等倍のオブジェクト画像とされる。
 画像処理システム10では、撮像装置53の台数を任意の台数に決定することができる他、撮像装置53の配置も任意に決定することができる。
 例えば、図12に示されるように、撮像装置53を、被写体52を下から見上げるように撮影する配置、水平方向から撮影する配置、上から見下ろすように撮影する配置のように設定して、撮像装置53が被写体52を撮影する高さを複数種類変える構成も可能である。
 図12の例では、被写体52が、上段に8台、中段に16台、下段に8台の計32台の撮像装置53で撮像される構成となっており、32台の撮像装置53により得られる32枚のテクスチャ画像から、32個のオブジェクト画像が生成され、1つのパッキング画像(のビットストリーム)が生成される。また、図12の例では、8個の想定仮想視点が設定され、8種類のパッキング画像のビットストリームが生成される。このように撮像装置53の台数が多い場合においても、配信側から再生側に送信されるビットストリームは1つであるので、伝送するデータ量を削減しつつ、高解像度で再生表示ができ、リアルタイム処理にも適応可能である。
 なお、画像処理システム10においては、被写体52を撮影した複数の撮像装置53全てのオブジェクト画像をパッキングして1つのパッキング画像を生成し、伝送することを前提とするが、例えば、図12に示されるように、撮像装置53の台数が多い場合などでは、撮影した複数の撮像装置53の一部に対応するオブジェクト画像をパッキングして1つのパッキング画像を生成してもよい。
 画像処理システム10では、撮像装置53の配置に応じて柔軟に、パッキング画像を生成することができる。
 図2に戻り、画像生成装置22は、想定仮想視点単位で生成した複数種類のパッキング画像を、符号化装置23に供給する。
 符号化装置23は、画像生成装置22から供給される、想定仮想視点ごとのパッキング画像を、例えば、AVC方式、HEVC方式等の所定の符号化方式で符号化する。符号化して得られたパッキング画像の符号化ストリームは、画像選択装置24へ供給される。
 また、符号化装置23は、オブジェクトのジオメトリ情報(3次元データ)も、所定の符号化方式で符号化し、画像選択装置24へ供給する。
 なお、本技術は、オブジェクトの色情報としてのテクスチャ画像を伝送する技術に関し、オブジェクトのジオメトリ情報については、任意の手法で伝送すればよいので、以下では、ジオメトリ情報の伝送に関しては適宜省略する。
 画像選択装置24には、符号化装置23から、想定仮想視点ごとのパッキング画像の符号化ストリームが供給される。また、画像選択装置24には、視聴条件取得装置35から、仮想視点に関する情報である仮想視点情報が供給される。仮想視点情報は、再生側における視聴者の視聴範囲を特定する情報であり、例えば、視聴者の視聴範囲が撮影範囲となるような仮想カメラのカメラパラメータ(外部パラメータおよび内部パラメータ)で構成される。
 画像選択装置24は、視聴条件取得装置35からの仮想視点情報に基づいて、符号化装置23から供給された、複数のパッキング画像の符号化ストリームのうちの一つを選択し、送信装置25に供給する。
 図9の例で言えば、正面方向、右サイド方向、右サイド方向、および、背面方向の4種類のパッキング画像71の符号化ストリームのなかから、所定の一つが選択され、送信装置25に供給される。
 図13は、複数のパッキング画像の符号化ストリームのなかから、所定の1つを選択する画像選択装置24の選択処理を説明する図である。
 パッキング画像の想定仮想視点の3次元位置をCi(i=1乃至4)、視聴条件取得装置35からの仮想視点情報に基づく視聴者の仮想視点の3次元位置をCvとすると、画像選択装置24は、次式(1)で得られる想定仮想視点と視聴者の仮想視点との成す角A(i)を算出する。そして、画像選択装置24は、成す角A(i)が最も小さい想定仮想視点のパッキング画像の符号化ストリームを、再生側に伝送する符号化ストリームとして選択し、送信装置25に供給する。
 A(i)=arccos(Ci・Cv)  ・・・・・(1)
 図2に戻り、送信装置25は、画像選択装置24から供給されたパッキング画像の符号化ストリームを、ネットワークを介して受信装置31へ送信する。
 受信装置31は、送信装置25から送信されてくるパッキング画像の符号化ストリームを受信(取得)し、復号装置32に供給する。
 復号装置32は、受信装置31から供給されるパッキング画像の符号化ストリームを、符号化装置23における符号化方式に対応する方式で復号する。復号装置32は、復号して得られる、所定の想定仮想視点のパッキング画像をレンダリング装置33に供給する。
 また、復号装置32は、パッキング画像の符号化ストリームとともに配信側から伝送されてくる、オブジェクトのジオメトリ情報の符号化ストリームも、符号化装置23における符号化方式に対応する方式で復号し、レンダリング装置33に供給する。
 レンダリング装置33は、復号装置32から供給されるパッキング画像を用いて、視聴者の視点である仮想視点からオブジェクトを見た仮想視点画像を表示画像として生成し、表示装置34に供給する。仮想視点は、視聴条件取得装置35から供給される仮想視点情報によって特定される。
 具体的には、レンダリング装置33は、デプス画像、ポイントクラウド、ポリゴンメッシュなどの所定の形式で伝送されてきたオブジェクトのジオメトリ情報に基づいてオブジェクトの3D形状を再構成する。また、レンダリング装置33は、パッキング画像に含まれる複数の視点(撮影方向)のオブジェクト画像のうち、視聴者の視点(仮想視点)を基準に、複数のオブジェクト画像を選択する。そして、レンダリング装置33は、選択された複数のオブジェクト画像の頂点に対応する画素の色をブレンドすることにより、再構成されたオブジェクトの3D形状の各頂点に対応する画素の色を決定し、仮想視点画像を生成する。
 表示装置34は、例えば、2次元ヘッドマウントディスプレイ(HMD)や2次元モニタなどにより構成される。表示装置34は、レンダリング装置33から供給される表示画像を2次元表示する。
 なお、表示装置34は、3次元ヘッドマウントディスプレイや3次元モニタなどにより構成されてもよい。この場合、レンダリング装置33は、例えば、右眼用のR画像と、左眼用のL画像を表示装置34に供給し、表示装置34は、レンダリング装置33から供給されるR画像とL画像に基づいて表示画像を3次元表示する。
 視聴条件取得装置35は、視聴者の視聴している条件(視聴状況)を検出して、仮想視点に関する仮想視点情報を生成して、画像選択装置24およびレンダリング装置33に供給する。仮想視点情報は、例えば、視聴者の視聴範囲が撮影範囲となるような仮想カメラのカメラパラメータ(外部パラメータおよび内部パラメータ)で構成される。
 例えば、表示装置34が、図1のヘッドマウントディスプレイD2である場合には、視聴条件取得装置35は、ヘッドマウントディスプレイD2に付されたマーカ等を撮像することでヘッドマウントディスプレイD2の位置および姿勢を検出する検出装置で構成することができる。あるいはまた、視聴条件取得装置35は、ヘッドマウントディスプレイD2に内蔵されたジャイロセンサ等の各種のセンサ群で構成されてもよい。
 例えば、表示装置34が、図1のディスプレイD1である場合には、視聴条件取得装置35は、仮想視点を指示するジョイスティック等のコントローラ、マウス等の入力装置で構成することができる。
 画像処理システム10は、以上のように構成される。
 なお、本明細書では、配信側から再生側に伝送される伝送データとして映像情報についてのみ説明し、音声情報についての説明は省略するが、動画像に対応する音声情報も合わせて伝送することができる。
 画像処理システム10の配信側において配信装置41が構成され、再生側において再生装置42が構成されているとすると、配信装置41は、複数の撮像装置53それぞれから供給される被写体のテクスチャ画像(動画像)、および、カメラパラメータを用いて、予め決定した複数の想定仮想視点それぞれのパッキング画像の符号化ストリームを生成する。そして、配信装置41は、視聴条件取得装置35からの仮想視点情報に基づいて、複数のパッキング画像の符号化ストリームのなかから、所定の1つのパッキング画像の符号化ストリームを選択し、再生装置42へ送信する。
 再生装置42は、配信装置41からネットワークを介して伝送されてきたパッキング画像の符号化ストリームを受信し、視聴条件取得装置35からの仮想視点情報に基づいて、仮想視点画像を生成し、表示装置34に表示させる。
 予め生成された、想定仮想視点が異なる複数のパッキング画像の符号化ストリームのなかから、視聴者の視点(仮想視点)に応じて、式(1)により最も適したパッキング画像の符号化ストリームが適宜選択され、再生装置42に送信される。
 画像処理システム10において、オブジェクト(被写体52)を撮影する撮像装置53の台数が多い場合であっても、再生側に送信するパッキング画像(の符号化ストリーム)は1つのみであるので、伝送するデータ量を削減することができる。
 さらに、再生側に送信するパッキング画像は、視聴者の視点(仮想視点)に近い視点のオブジェクト画像を高い解像度で再生側に供給するので、再生側において高画質でレンダリングが可能である。また、再生側に送信するパッキング画像には、想定仮想視点の裏側など、想定仮想視点から遠い撮影方向のオブジェクト画像も含まれているので、仮想視点の急激な変化があっても、画像が途切れることなく、レンダリングが可能である。すなわち、伝送するデータ量を削減しつつ、高画質なレンダリングが実現可能である。
 画像処理システム10によれば、再生時の視聴位置に応じて、その都度、再生側に伝送する視点の動画像の選択、パッキング、および、伝送の処理を行う必要がなく、1つのパッキング画像の符号化ストリームを取得して、復号および表示するのみであるので、リアルタイム処理への対応が容易である。
 したがって、画像処理システム10によれば、データ量を削減しつつ、リアルタイム処理にも適応することができる。
 なお、配信側の配信装置41と再生側の再生装置42とが、ネットワークを介さずに、1つの装置で構成されてもよい。この場合、視聴条件取得装置35は、レンダリング装置33、または、表示装置34の一部として構成される場合がある。
<3.ボリューメトリック再生処理>
 以下では、フローチャートを参照しながら、画像処理システム10の処理の詳細についてさらに説明する。
 図14は、画像処理システム10全体のボリューメトリック再生処理のフローチャートである。この処理は、例えば、複数の撮像装置53それぞれから、被写体のテクスチャ画像(動画像)が供給されたとき開始される。なお、複数の撮像装置53それぞれのカメラパラメータは、予め供給されていることとする。
 初めに、ステップS11において、3Dデータ生成装置21は、各オブジェクトの3Dモデルデータを生成し、画像生成装置22に供給する。より具体的には、3Dデータ生成装置21は、複数の撮像装置53それぞれから供給された被写体のテクスチャ画像、および、カメラパラメータを用いて、撮影空間内に存在する1以上の被写体を1つのオブジェクトとして、オブジェクトごとに3Dモデルを生成する。そして、3Dデータ生成装置21は、生成された各オブジェクトの3Dモデルデータを画像生成装置22に供給する。
 ステップS12において、画像生成装置22は、再生側において想定される、複数の仮想視点(想定仮想視点)を設定し、想定仮想視点ごとにパッキング画像を生成する。生成された複数のパッキング画像は、符号化装置23に供給される。なお、ここで生成される想定仮想視点ごとのパッキング画像は、動画像である。
 ステップS13において、符号化装置23は、画像生成装置22から供給された、想定仮想視点ごとのパッキング画像を、所定の符号化方式で符号化する。ここで、符号化する際のビットレートは、例えば、予め設定された所定のビットレート(例えば、20Mbps)であるとする。符号化の結果得られた、想定仮想視点ごとのパッキング画像の符号化ストリームは、符号化装置23から画像選択装置24に供給される。
 ステップS14において、画像選択装置24は、符号化装置23から供給された、想定仮想視点ごとのパッキング画像の符号化ストリームを内部メモリに記憶する。
 ステップS15において、視聴条件取得装置35が、視聴者の視聴状況を検出して、仮想視点に関する仮想視点情報を生成し、画像選択装置24およびレンダリング装置33に供給する。
 ステップS16において、画像選択装置24は、視聴条件取得装置35から供給された仮想視点情報を取得する。
 ステップS17において、画像選択装置24は、内部メモリに記憶してある、複数のパッキング画像の符号化ストリーム、すなわち、想定仮想視点ごとのパッキング画像の符号化ストリームのなかから、所定の1つの符号化ストリームを選択する。より具体的には、画像選択装置24は、視聴条件取得装置35からの仮想視点情報に基づく視聴者の仮想視点と成す角A(i)が最も小さい想定仮想視点のパッキング画像の符号化ストリームを選択する。選択された符号化ストリームは、送信装置25に供給される。
 ステップS18において、送信装置25は、画像選択装置24から供給されたパッキング画像の符号化ストリームを、ネットワークを介して受信装置31へ送信する。
 ステップS19において、受信装置31は、送信装置25から送信されてきたパッキング画像の符号化ストリームを受信(取得)し、復号装置32に供給する。
 ステップS20において、復号装置32は、受信装置31から供給されたパッキング画像の符号化ストリームを、符号化装置23における符号化方式に対応する方式で復号する。復号装置32は、復号して得られる、所定の想定仮想視点のパッキング画像をレンダリング装置33に供給する。
 ステップS21において、レンダリング装置33は、復号装置32から供給されたパッキング画像を用いて、仮想視点からオブジェクトを見た仮想視点画像を表示画像として生成し、表示装置34に供給して表示させる。仮想視点は、ステップS15において視聴条件取得装置35から供給された仮想視点情報によって特定される。
 以上で、ボリューメトリック再生処理が終了する。
 図14のボリューメトリック再生処理は、被写体52のテクスチャ画像が撮像装置53から供給されてから、再生側の表示装置34でオブジェクト画像が表示されるまでの一連の処理の流れである。
 ステップS16で取得される仮想視点情報は、仮想視点(視聴位置)が変更するごとに、随時更新される。ステップS16で取得される仮想視点情報が更新された場合、ステップS17において、パッキング画像の符号化ストリームが、仮想視点情報に応じて新たに選択され、選択されたパッキング画像の符号化ストリームに対して、ステップS18乃至S21が実行される。すなわち、ステップS16乃至S21の処理は、視点(視聴位置)の変更に応じて順次更新される。
<4.パッキング画像の生成処理>
 次に、図14で説明したボリューメトリック再生処理のうち、ステップS12の処理、すなわち、画像生成装置22が行うパッキング画像生成処理について説明する。
 図15は、図14のステップS12におけるパッキング画像生成処理の詳細なフローチャートを示している。
 この処理では、はじめに、ステップS41において、画像生成装置22は、パッキング画像を生成するN個の想定仮想視点を決定する。図5の例では、N=4とされ、想定仮想視点が、正面方向、右サイド方向、背面方向、および、左サイド方向の4方向に決定された。
 ステップS42において、画像生成装置22は、パッキング画像のレイアウトと、各レイアウト位置にマッピングする撮像装置53を決定する。
 パッキング画像のレイアウトとは、例えば、図7のレイアウトや、図11のレイアウトであり、撮像装置53の台数および配置に応じて決定することができる。レイアウトには、パッキング画像内の位置と縮小率とを含む。
 各レイアウト位置にマッピングする撮像装置53を決定するとは、図8を参照して説明したように、画像生成装置22が、想定仮想視点に基づいて、どの撮像装置53で撮影されたオブジェクト画像を、どのレイアウト位置にマッピングするかを決定することである。なお、図8の例では、撮像装置53が実際に被写体52を撮影して得られるオブジェクト画像をマッピングしてパッキングしたが、実際の撮像装置53で撮影したオブジェクト画像ではなく、撮像装置53が仮想の位置に設置されたと仮定して、仮想の撮像装置53で撮影したオブジェクト画像を生成してマッピングしてもよい。
 ステップS43において、画像生成装置22は、パッキング画像を符号化する際のGOP長を決定する。より具体的には、画像生成装置22は、オブジェクトの移動量に基づいて、GOP長を決定する。
 図16に示されるように、オブジェクトの移動量が大きい動画像では、GOP単位とした場合のオブジェクト画像の解像度(画素サイズ)が大きくなり、結果として、各オブジェクト画像をパッキングしたパッキング画像の解像度(画素サイズ)が大きくなる。
 そこで、画像生成装置22は、オブジェクトの移動量が所定の閾値以上である場合に、GOP長を所定の値に決定する。これにより、GOP単位のオブジェクト画像の解像度(画素サイズ)を所定の範囲内に抑えることができ、各オブジェクト画像をパッキングしたパッキング画像の解像度(画素サイズ)も抑えることができる。
 なお、画像生成装置22は、オブジェクトの移動量を複数の範囲に分類し、オブジェクトの移動量に応じて段階的にGOP長を決定してもよい。
 また、オブジェクトの移動量が所定値以下である場合には、オブジェクトの移動量の観点でGOP長を決定せず、その他の観点、例えば、ビットストリーム圧縮率、デコード負荷、画質等の観点で、GOP長を決定してもよい。GOP単位で、オブジェクト画像の解像度を可変に設定することにより、ビットストリームの符号化効率を向上させることができる。
 図15のステップS44において、画像生成装置22は、パッキング画像の各レイアウト位置pにマッピングされるオブジェクト画像の解像度を計算する解像度計算処理を実行する。この解像度計算処理は、ステップS41で決定されたN個の想定仮想視点全てについて実行される。ステップS44の解像度計算処理の詳細については、図17を参照して後述する。
 ステップS45において、画像生成装置22は、パッキング画像の各レイアウト位置pにオブジェクト画像をマッピングするマッピング処理を実行する。このマッピング処理は、ステップS41で決定されたN個の想定仮想視点全てについて実行される。ステップS45のマッピング処理の詳細については、図18を参照して後述する。
 ステップS45の処理により、N個の想定仮想視点全てについてマッピング処理が終了すると、想定仮想視点ごとのN個のパッキング画像が完成し、符号化装置23に供給されて、パッキング画像生成処理が終了する。
<5.解像度計算処理>
 次に、図17のフローチャートを参照して、図15のステップS44における解像度計算処理の詳細について説明する。
 初めに、ステップS61において、画像生成装置22は、N個の想定仮想視点を識別する変数iに0を代入する。変数iは、0から(N-1)までの整数値(i=0乃至(N-1))を取り、例えば、i=0が正面方向、i=1が右サイド方向、などのように、変数iの値に応じて想定仮想視点が予め決定されている。
 ステップS62において、画像生成装置22は、パッキング画像のレイアウト位置を識別する変数pに0を代入する。変数pは、0から(P-1)までの整数値(p=0乃至(P-1))を取り、図15のステップS42においてパッキング画像が決定されたことにより、マッピングされるオブジェクト画像の枚数Pが確定されている。
 ステップS63において、画像生成装置22は、所定の想定仮想視点(変数i)のパッキング画像の符号化ストリームを構成する複数のGOPのうちの所定のGOPを識別する変数gに0を代入する。変数gは、0から(G-1)までの整数値(g=0乃至(G-1))を取り、図15のステップS43においてGOP長が決定されたことにより、GOP数Gが確定されている。
 ステップS64において、画像生成装置22は、所定の想定仮想視点(i)のパッキング画像の符号化ストリームの所定のGOP(変数g)内のフレームを識別する変数fに0を代入する。変数fは、0から(F-1)までの整数値(f=0乃至(F-1))を取り、図15のステップS43においてGOP長が決定されたことにより、1GOPのフレーム数Fが確定されている。
 ステップS65において、画像生成装置22は、i番目の想定仮想視点のレイアウト位置pに対してパッキングする撮像装置53のg番目のGOPのf番目のフレームのテクスチャ画像(テクスチャデータ)と3次元データとを取得する。
 ステップS66において、画像生成装置22は、i番目の想定仮想視点のレイアウト位置pに対してパッキングする撮像装置53のg番目のGOPのf番目のフレームのテクスチャ画像から前景領域としてオブジェクトを抽出する。そして、画像生成装置22は、抽出したオブジェクトのオブジェクト画像をレイアウト位置pの縮小率でスケール処理した後のオブジェクト画像の解像度R(i,p,g,f)を計算する。解像度R(i,p,g,f)は、垂直方向と水平方向それぞれの画素数で構成される。また、図7のレイアウト位置p=0乃至2のように、縮小率が等倍(1)である場合には、スケール処理は不要である。
 ステップS67において、画像生成装置22は、1GOP長のフレーム数を処理したかを判定する。
 ステップS67で、まだ1GOP長のフレーム数を処理していないと判定された場合、処理はステップS68に進み、画像生成装置22は、フレームを識別する変数fを1だけインクリメントさせた後、処理をステップS65に戻す。これにより、1GOP内の次のフレームについて、上述したステップS65乃至S67の処理が繰り返される。
 一方、ステップS67で、1GOP長のフレーム数を処理したと判定された場合、処理はステップS69に進み、画像生成装置22は、1GOPを構成する全フレームのなかで、オブジェクト画像の解像度R(i,p,g,f)が最大となるGOP内最大解像度MaxR(i,p,g)を決定する。
 そして、ステップS70において、画像生成装置22は、i番目の想定仮想視点のテクスチャ画像の全てのGOPでGOP内最大解像度MaxR(i,p,g)を決定したかを判定する。
 ステップS70で、まだ全てのGOPでGOP内最大解像度MaxR(i,p,g)を決定していないと判定された場合、処理はステップS71に進み、画像生成装置22は、GOPを識別する変数gを1だけインクリメントさせた後、処理をステップS64に戻す。これにより、次のGOPについて、上述したステップS64乃至S70の処理が繰り返される。
 一方、ステップS70で、全てのGOPで最大解像度MaxR(i,p,g)を決定したと判定された場合、処理はステップS72に進み、画像生成装置22は、レイアウト位置pに関し、全てのGOPのなかでGOP内最大解像度MaxR(i,p,g)が最大となるレイアウト位置最大解像度MaxR(i,p)を決定する。
 そして、ステップS73において、画像生成装置22は、全てのレイアウト位置p=0乃至(P-1)でレイアウト位置最大解像度MaxR(i,p)を決定したかを判定する。
 ステップS73で、まだ全てのレイアウト位置p=0乃至(P-1)でレイアウト位置最大解像度MaxR(i,p)を決定していないと判定された場合、処理はステップS74に進み、画像生成装置22は、レイアウト位置を識別する変数pを1だけインクリメントさせた後、処理をステップS63に戻す。これにより、次のレイアウト位置pについて、上述したステップS63乃至S73の処理が繰り返される。
 一方、ステップS73で、全てのレイアウト位置p=0乃至(P-1)でレイアウト位置最大解像度MaxR(i,p)を決定したと判定された場合、処理はステップS75に進み、画像生成装置22は、i番目の想定仮想視点のワールド座標系上の3次元位置(x,y,z)を計算する。i番目の想定仮想視点のワールド座標系上の3次元位置(x,y,z)は、次式(2)で計算することができる。
Figure JPOXMLDOC01-appb-M000001
 ステップS75の処理後、ステップS76において、画像生成装置22は、全て(N個)の想定仮想視点で各レイアウト位置pのレイアウト位置最大解像度MaxR(i,p)を決定したかを判定する。
 ステップS76で、まだ全ての想定仮想視点で各レイアウト位置pのレイアウト位置最大解像度MaxR(i,p)を決定していないと判定された場合、処理はステップS77に進み、画像生成装置22は、想定仮想視点を識別する変数iを1だけインクリメントさせた後、処理をステップS62に戻す。これにより、次の想定仮想視点について、上述したステップS62乃至S76の処理が繰り返される。
 一方、ステップS76で、全ての想定仮想視点で各レイアウト位置pのレイアウト位置最大解像度MaxR(i,p)を決定したと判定された場合、解像度計算処理が終了する。
<6.マッピング処理>
 次に、図18のフローチャートを参照して、図15のステップS45におけるマッピング処理の詳細について説明する。
 初めに、ステップS81において、画像生成装置22は、N個の想定仮想視点を識別する変数iに0を代入する。変数iは、0から(N-1)までの整数値(i=0乃至(N-1))を取る。
 ステップS82において、画像生成装置22は、パッキング画像のレイアウト位置を識別する変数pに0を代入する。変数pは、0から(P-1)までの整数値を取る。
 ステップS83において、画像生成装置22は、i番目の想定仮想視点の各レイアウト位置pのレイアウト位置最大解像度MaxR(i,p)を取得し、パッキング画像の生成に必要となるメモリを確保する。
 ステップS84において、画像生成装置22は、i番目の想定仮想視点のパッキング画像を構成するフレームを識別する変数fsに0を代入する。図17のフレームを識別する変数fが、GOP単位内のフレームを識別する変数であるのに対して、この変数fsは、1つのパッキング画像のビットストリームのフレームに対して、0から順に割り振られる値に相当する。
 ステップS85において、画像生成装置22は、i番目の想定仮想視点のレイアウト位置pに対してパッキングする撮像装置53のfs番目のフレームのテクスチャ画像(テクスチャデータ)と3次元データとを取得する。
 ステップS86において、画像生成装置22は、i番目の想定仮想視点のレイアウト位置pに対してパッキングする撮像装置53のfs番目のフレームのテクスチャ画像を、レイアウト位置pの縮小率でスケール処理する。
 ステップS87において、画像生成装置22は、スケール処理後のテクスチャ画像の前景領域を切り出すことにより、オブジェクトを抽出したオブジェクト画像を生成し、fs番目のフレームのパッキング画像のレイアウト位置pにパッキングする。
 ステップS88において、画像生成装置22は、i番目の想定仮想視点のパッキング画像のビットストリームを構成する全てのフレームについて処理したかを判定する。
 ステップS88で、i番目の想定仮想視点のパッキング画像のビットストリームを構成する全てのフレームについてまだ処理していないと判定された場合、処理はステップS89に進み、画像生成装置22は、フレームを識別する変数fsを1だけインクリメントさせた後、処理をステップS85に戻す。これにより、次のフレームについて、上述したステップS85乃至S88の処理が繰り返される。
 一方、ステップS88で、i番目の想定仮想視点のパッキング画像のビットストリームを構成する全てのフレームについて処理したと判定された場合、処理はステップS90に進み、画像生成装置22は、i番目の想定仮想視点のパッキング画像の全てのレイアウト位置p=0乃至(P-1)についてオブジェクト画像をパッキングしたかを判定する。
 ステップS90で、まだ全てのレイアウト位置p=0乃至(P-1)についてオブジェクト画像をパッキングしていないと判定された場合、処理はステップS91に進み、画像生成装置22は、レイアウト位置を識別する変数pを1だけインクリメントさせた後、処理をステップS83に戻す。これにより、次のレイアウト位置pについて、上述したステップS83乃至S90の処理が繰り返される。
 一方、ステップS90で、全てのレイアウト位置p=0乃至(P-1)についてオブジェクト画像をパッキングしたと判定された場合、処理はステップS92に進み、画像生成装置22は、パッキングしたオブジェクト画像を撮影した撮像装置53のメタ情報を生成する。
 ステップS92の後、ステップS93において、画像生成装置22は、全ての想定仮想視点でパッキング画像を生成したかを判定する。
 ステップS93で、まだ全ての想定仮想視点でパッキング画像を生成していないと判定された場合、処理はステップS94に進み、画像生成装置22は、N個の想定仮想視点を識別する変数iを1だけインクリメントさせた後、処理をステップS82に戻す。これにより、次の想定仮想視点について、上述したステップS82乃至S93の処理が繰り返される。
 一方、全ての想定仮想視点でパッキング画像を生成したと判定された場合、処理はステップS95に進み、画像生成装置22は、生成した各想定仮想視点のパッキング画像のビットストリームのメタ情報を生成し、マッピング処理を終了する。
 図19のAは、図18のステップS92で生成される撮像装置53のメタ情報の例を示している。
 撮像装置53のメタ情報には、パッキングID、カメラID、offset_x、offset_y、および、scaleの各項目が含まれ、これらの項目が、想定仮想視点単位で生成される。
 パッキングIDは、パッキング画像のビットストリームを識別する情報である。したがって、パッキングIDは、想定仮想視点を識別する情報であるとも言える。パッキングIDは、想定仮想視点が4個(N=4)である場合、パッキングID=0乃至3のメタ情報が存在する。
 カメラIDは、パッキング画像内にパッキングしたオブジェクト画像を撮影した撮像装置53を識別する情報である。図7のパッキング画像の例では、カメラID=0乃至8のメタ情報が存在する。
 offset_xは、offset_x=(dst_x - src_x)で表され、パッキング画像内にパッキングしたオブジェクト画像のx座標(dst_x)と、オブジェクト画像を切り出した元のテクスチャ画像のx座標(src_x)とのずれ量を表す。
 offset_yは、offset_y=(dst_y - src_y)で表され、パッキング画像内にパッキングしたオブジェクト画像のy座標(dst_y)と、オブジェクト画像を切り出した元のテクスチャ画像のy座標(src_y)とのずれ量を表す。
 なお、パッキング画像内にパッキングしたオブジェクト画像のx座標およびy座標の位置(dst_x,dst_y)と、オブジェクト画像を切り出した元のテクスチャ画像のx座標およびy座標の位置(src_x, src_y)は、いずれも、矩形の左上の座標とする。
 scaleは、オブジェクト画像を切り出した元のテクスチャ画像の画素サイズと、パッキング画像内にパッキングしたオブジェクト画像の画素サイズの比(圧縮比)を表す。例えば、元のテクスチャ画像におけるオブジェクト画像の矩形の横幅(x方向の画素数)をsrc_width、パッキング画像内にパッキングしたオブジェクト画像の矩形の横幅(x方向の画素数)をdst_widthとすると、scaleは、scale=dst_width/src_widthで表される。
 図19のBは、図18のステップS95で生成される各想定仮想視点のパッキング画像のビットストリームのメタ情報の例を示している。
 パッキングIDは、パッキング画像のビットストリームを識別する情報である。したがって、パッキングIDは、想定仮想視点を識別する情報であるとも言える。パッキングIDは、想定仮想視点が4個(N=4)である場合、パッキングID=0乃至3のメタ情報が存在する。
 解像度は、パッキング画像の解像度、すなわち、水平方向(横)と垂直方向(縦)の画素数を表す。
 想定仮想視点の3次元位置は、パッキング画像の生成において想定した仮想視点のワールド座標系上の位置を表す。
 想定視聴距離の範囲は、パッキング画像の利用条件として想定したオブジェクトまでの視聴距離の範囲を表す。
 ビットレートは、パッキング画像のビットストリームの符号化時のビットレートを表す。
 元画像の最大解像度は、パッキング画像にパッキングしたオブジェクト画像を切り出す前の元のテクスチャ画像、すなわち、撮像装置53が出力するテクスチャ画像の解像度の最大値を表す。
 撮像装置53のメタ情報、および、パッキング画像のビットストリームのメタ情報は、例えば、パッキング画像のビットストリーム内に格納されて送信される。
<7.第1の変形例>
 次に、画像処理システム10の変形例について説明する。なお、上述した画像処理システム10の形態を、以下では、基本の実施形態と称する。
 初めに、画像処理システム10の第1の変形例について説明する。
 画像処理システム10の第1の変形例は、配信側が生成する複数種類のパッキング画像にミップマップ方式を適用した例である。
 上述した基本の実施形態では、配信側(配信装置41)は、被写体52に対して視聴する方向が異なる複数種類(4種類)のパッキング画像を生成したが、生成された複数種類のパッキング画像が想定する被写体52までの距離(視聴距離)は同一であった。
 第1の変形例では、配信側は、視聴方向が異なる複数種類のパッキング画像に加えて、被写体52までの視聴距離が異なる複数種類のパッキング画像も生成する。
 図20は、画像処理システム10の第1の変形例において生成される複数種類のパッキング画像の例を示している。
 図20の例において、想定仮想視点の方向は、上述した基本の実施形態と同様に、正面方向、右サイド方向、背面方向、および、左サイド方向の4方向である。しかしながら、基本の実施形態との違いとして、オブジェクト(被写体52)までの視聴距離として、第1の視聴距離101と、第1の視聴距離101よりも視聴距離が遠い第2の視聴距離102の2つが設定されている。
 第1の変形例では、第1の視聴距離101に関し、正面方向の第1パッキング画像71A-1、右サイド方向の第2パッキング画像71B-1、左サイド方向の第3パッキング画像71C-1、および、背面方向の第4パッキング画像71D-1が生成される。また、第2の視聴距離102に関し、正面方向の第1パッキング画像71A-2、右サイド方向の第2パッキング画像71B-2、左サイド方向の第3パッキング画像71C-2、および、背面方向の第4パッキング画像71D-2が生成される。
 再生側は、図19のBに示したパッキング画像のビットストリームのメタ情報の想定視聴距離の範囲を参照して、視聴距離の違いに応じてビットストリームを切り替えることができる。
 第1の視聴距離101の第1パッキング画像71A-1乃至第4パッキング画像71D-1と、第2の視聴距離102の第1パッキング画像71A-2乃至第4パッキング画像71D-2とは、パッキング画像の解像度を異ならせることができる。より具体的には、近距離用(第1の視聴距離101)の第1パッキング画像71A-1乃至第4パッキング画像71D-1を高解像度とし、遠距離用(第2の視聴距離102)の第1パッキング画像71A-2乃至第4パッキング画像71D-2を、近距離用よりも低解像度とすることができる。例えば、遠距離用のパッキング画像の解像度は、近距離用のパッキング画像の解像度に対する縮小率で設定することができ、例えば、遠距離用のパッキング画像の解像度が、近距離用の1/2などに設定される。
 なお、図20の例は、2種類の視聴距離を想定して、複数種類のパッキング画像を生成する例であるが、勿論、3種類以上の視聴距離を想定し、パッキング画像を生成してもよい。
 図21のフローチャートを参照して、第1の変形例における画像生成装置22のパッキング画像生成処理について説明する。
 図21のパッキング画像生成処理は、図15に示した基本の実施形態のパッキング画像生成処理に対応する。図21のステップS101乃至S105の処理は、図15のステップS41乃至S45の処理とそれぞれ同一であるので、それらの説明は省略する。
 ステップS105の後、ステップS106において、画像生成装置22は、想定するM種類(M>1)の視聴距離それぞれに対して縮小率を決定し、視聴距離ごとに、N個のパッキング画像を生成する。生成された視聴距離ごとのN個のパッキング画像が、符号化装置23に供給されて、パッキング画像生成処理が終了する。
 次に、図22のフローチャートを参照して、第1の変形例におけるパッキング画像の選択に関する処理について説明する。
 図22のフローチャートは、図14に示した基本の実施形態のボリューメトリック再生処理におけるステップS15乃至S17と対応する。換言すれば、第1の変形例では、図14のフローチャートのステップS15乃至S17が、図22のフローチャートのステップS121乃至S125に置き換えられる。
 図22の処理では、ステップS121において、視聴条件取得装置35が、視聴者の視聴状況を検出して、仮想視点に関する仮想視点情報を生成し、画像選択装置24およびレンダリング装置33に供給する。ここで、仮想視点情報には、基本の実施形態の仮想カメラのカメラパラメータに加えて、仮想カメラからオブジェクトまでの距離(視聴距離)が含まれる。
 ステップS122において、画像選択装置24は、視聴条件取得装置35から供給された仮想視点情報を取得する。
 ステップS123において、画像選択装置24は、N個の想定仮想視点のなかから、視聴者の仮想視点と成す角A(i)が最も小さい想定仮想視点を決定する。
 ステップS124において、画像選択装置24は、決定された想定仮想視点のM種類の視聴距離のパッキング画像のなかから、視聴距離に応じたパッキング画像を決定する。これにより、視聴者の仮想視点および視聴距離に最適なパッキング画像が選択される。
 ステップS125において、画像選択装置24は、決定したパッキング画像の符号化ストリームを、送信装置25に供給する。
 以上のように、第1の変形例によれば、複数の想定視点に対応する符号化ストリームを、仮想視点の位置に応じて選択するだけではなく、視聴距離にも応じて適切に選択して、再生側に伝送することができる。これにより、視聴距離が遠い場合には、解像度を小さくした符号化ストリームを伝送することができるので、伝送に必要なネットワーク帯域を削減することができる。
 なお、上述した例では、パッキング画像内にパッキングするオブジェクト画像のレイアウトが、遠距離用と近距離用とで同一である例であるが、レイアウトが遠距離用と近距離用とで異なる構成としてもよい。例えば、近距離用のパッキング画像に含まれている一部のオブジェクト画像が、遠距離用のパッキング画像には含まれていなくてもよい。具体的には、低解像度の遠距離用のパッキング画像では、想定仮想視点の裏側の視点のオブジェクト画像を省略してもよい。
 また、上述した例では、近距離用の第1パッキング画像71A-1乃至第4パッキング画像71D-1の想定仮想視点と、遠距離用の第1パッキング画像71A-2乃至第4パッキング画像71D-2の想定仮想視点が同一であるが、遠距離用と近距離用とで想定仮想視点が異なってもよい。
<8.第2の変形例>
 次に、画像処理システム10の第2の変形例について説明する。
 第2の変形例では、配信側において、符号化時のビットレート(符号化ビットレート)が異なる複数種類のパッキング画像のビットストリームが生成される。再生側は、ネットワーク帯域に応じた符号化ビットレートのビットストリームを取得して、再生表示する。
 より具体的には、図14に示した基本の実施形態のパッキング画像生成処理のフローチャートのステップS13の処理が、基本の実施形態から変更される。
 ステップS13の処理は、上述したように、符号化装置23が、画像生成装置22から供給された、想定仮想視点ごとのパッキング画像を、所定の符号化方式で符号化する処理である。基本の実施形態では、符号化する際のビットレートが、例えば、20Mbps等の予め設定された所定のビットレートであった。
 第2の変形例では、ステップS13において、符号化装置23は、想定仮想視点が異なるN個のパッキング画像に対して、複数種類の符号化ビットレートで符号化を行う。例えば、符号化装置23は、20Mbpsと5Mbpsの2種類の符号化ビットレートで、符号化を行う。符号化の結果得られた、パッキング画像の符号化ストリームは、符号化装置23から画像選択装置24に供給される。
 次に、図23のフローチャートを参照して、第2の変形例におけるパッキング画像の選択に関する処理について説明する。
 図23のフローチャートは、図14に示した基本の実施形態のボリューメトリック再生処理におけるステップS15乃至S17と対応する。換言すれば、図14のフローチャートのステップS15乃至S17が、図23のフローチャートのステップS141乃至S145に置き換えられる。
 図23の処理では、ステップS141において、視聴条件取得装置35が、仮想視点情報を生成するとともに、ネットワーク帯域を検出する。すなわち、視聴条件取得装置35が、視聴者の視聴状況を検出して、仮想視点に関する仮想視点情報を生成する。また、視聴条件取得装置35が、パッキング画像の符号化ストリームが伝送されてくるネットワークのネットワーク帯域を検出する。視聴条件取得装置35は、仮想視点情報とネットワーク帯域を画像選択装置24に供給するとともに、仮想視点情報をレンダリング装置33に供給する。
 ステップS142において、画像選択装置24は、視聴条件取得装置35から供給された仮想視点情報とネットワーク帯域を取得する。
 ステップS143において、画像選択装置24は、N個の想定仮想視点のなかから、視聴者の仮想視点と成す角A(i)が最も小さい想定仮想視点を決定する。
 ステップS144において、画像選択装置24は、決定された想定仮想視点の複数のパッキング画像、すなわち、符号化ビットレートが異なる複数種類のパッキング画像のなかから、ネットワーク帯域に応じたパッキング画像を決定する。これにより、視聴者の仮想視点およびネットワーク帯域に最適なパッキング画像が選択される。例えば、符号化ビットレートが20Mbpsと5Mbpsの2種類用意されている場合には、視聴条件取得装置35から供給されたネットワーク帯域が所定の値以上である場合には、符号化ビットレートが20Mbpsのパッキング画像が選択され、所定の値より小さい場合には、符号化ビットレートが5Mbpsのパッキング画像が選択される。符号化ビットレートが3種類以上用意されている場合には、現在のネットワーク帯域で伝送可能な最大ビットレートのパッキング画像が選択される。
 ステップS145において、画像選択装置24は、決定したパッキング画像の符号化ストリームを、送信装置25に供給する。
 以上のように、第2の変形例によれば、複数の想定仮想視点に対応する符号化ストリームを、視聴者の視点(仮想視点)に応じて選択するだけではなく、ネットワーク帯域にも応じて適切に選択して、再生側に伝送することができる。これにより、ネットワーク帯域に応じた符号化ストリームを伝送することができるので、許容されるネットワーク帯域の範囲内でオブジェクト画像を高画質に再生表示することができる。
 なお、第1の変形例と第2の変形例の組合せも可能である。すなわち、配信側において、視聴距離に応じて複数種類のビットストリームを用意しつつ、各視聴距離に対して、ネットワーク帯域ごとに複数種類のビットストリームを用意してもよい。
<9.第3の変形例>
 次に、画像処理システム10の第3の変形例について説明する。
 第3の変形例では、解像度が異なる複数種類の撮像装置53を用いて、被写体52が撮影される。例えば、図24に示されるように、HD(High Definition)と呼ばれる、1920x1080の解像度で撮像を行う撮像装置53Hと、HDの4倍の解像度を有する4K解像度の撮像装置53Kとを用いて、被写体52が撮像される。図24は、9台の撮像装置53Hが、被写体52を撮影し、8台の撮像装置53Kが、被写体52を撮影する例を示している。
 第3の変形例の3Dデータ生成装置21の処理は、基本の実施形態と比較して、複数の撮像装置53から供給されるテクスチャ画像の解像度が、同一の解像度であるか、異なる解像度が含まれるかのみが異なる。
 第3の変形例の3Dデータ生成装置21は、撮影時の解像度ごとに、オブジェクトの3Dモデルを生成する。具体的には、3Dデータ生成装置21は、HD解像度の撮像装置53Hから供給されたテクスチャ画像、および、それらに対応するカメラパラメータを用いて、オブジェクトの3Dモデルを生成する。また、3Dデータ生成装置21は、4K解像度の撮像装置53Kから供給されたテクスチャ画像、および、それらに対応するカメラパラメータを用いて、オブジェクトの3Dモデルを生成する。そして、3Dデータ生成装置21は、生成した3Dモデルを表す3Dモデルデータを、画像生成装置22に供給する。
 画像生成装置22は、撮影時の解像度ごとに、パッキング画像を生成する。換言すれば、第3の変形例では、図15に示した基本の実施形態のパッキング画像生成処理が、HD解像度のテクスチャ画像を用いてパッキング画像を生成する処理と、4K解像度のテクスチャ画像を用いてパッキング画像を生成する処理との2種類行われる。
 なお、図15のステップS41乃至S45の処理のうち、HD解像度および4K解像度の両方に適用できる処理については、1回の処理で済ませることができる。
 例えば、ステップS41のN個の想定仮想視点を決定する処理は、想定仮想視点の個数NをHD解像度と4K解像度とで同じとする場合には、1回の処理とすることができる。以下では、簡単のため、HD解像度と4K解像度とで想定仮想視点の個数Nが同一であるとする。
 例えば、ステップS42のパッキング画像のレイアウトと、各レイアウト位置にマッピングする撮像装置53を決定する処理は、パッキング画像のレイアウトと撮像装置53の配置が共通する場合には、1回の処理とすることができる。
 例えば、ステップS43の符号化時のGOP長を決定する処理は、HD解像度と4K解像度とで同じGOP長とする場合には、1回の処理とすることができる。
 ステップS44の解像度計算処理と、ステップS45のマッピング処理については、HD解像度と4K解像度とで、それぞれ行う必要がある。
 以上により、第3の変形例の画像生成装置22は、HD解像度のテクスチャ画像を用いて、想定仮想視点が異なるN個のパッキング画像を生成し、4K解像度のテクスチャ画像を用いて、想定仮想視点が異なるN個のパッキング画像を生成して、符号化装置23に供給する。
 図25は、第3の変形例におけるパッキング画像の選択に関する処理のフローチャートである。
 図25のフローチャートは、図14に示した基本の実施形態のボリューメトリック再生処理におけるステップS15乃至S17と対応する。換言すれば、図14のフローチャートのステップS15乃至S17が、図25のフローチャートのステップS161乃至S165に置き換えられる。
 図25の処理では、ステップS161において、視聴条件取得装置35が、仮想視点情報を生成するとともに、ネットワーク帯域を検出する。すなわち、視聴条件取得装置35が、視聴者の視聴状況を検出して、仮想視点に関する仮想視点情報を生成する。また、視聴条件取得装置35が、パッキング画像の符号化ストリームが伝送されてくるネットワークのネットワーク帯域を検出する。視聴条件取得装置35は、仮想視点情報とネットワーク帯域を画像選択装置24に供給するとともに、仮想視点情報をレンダリング装置33に供給する。
 ステップS162において、画像選択装置24は、視聴条件取得装置35から供給された仮想視点情報とネットワーク帯域を取得する。
 ステップS163において、画像選択装置24は、N個の想定仮想視点のなかから、視聴者の仮想視点と成す角A(i)が最も小さい想定仮想視点を決定する。
 ステップS164において、画像選択装置24は、決定された想定仮想視点の複数のパッキング画像、すなわち、撮影時の解像度が異なる複数種類のパッキング画像のなかから、ネットワーク帯域に応じたパッキング画像を決定する。これにより、視聴者の仮想視点およびネットワーク帯域に最適なパッキング画像が選択される。例えば、視聴条件取得装置35から供給されたネットワーク帯域が所定の値以上である場合には、4K解像度のテクスチャ画像を用いて生成されたパッキング画像が選択され、所定の値より小さい場合には、HD解像度のテクスチャ画像を用いて生成されたパッキング画像が選択される。解像度が3種類以上用意されている場合には、現在のネットワーク帯域で伝送可能な最大解像度のパッキング画像が選択される。
 ステップS165において、画像選択装置24は、決定したパッキング画像の符号化ストリームを、送信装置25に供給する。
 以上のように、第3の変形例によれば、複数の想定仮想視点に対応する符号化ストリームを、視聴者の視点(仮想視点)に応じて選択するだけではなく、ネットワーク帯域にも応じてパッキング画像の解像度を適切に選択して、再生側に伝送することができる。これにより、ネットワーク帯域に応じた符号化ストリームを伝送することができるので、許容されるネットワーク帯域の範囲内でオブジェクト画像を高画質に再生表示することができる。
 第1乃至第3の変形例においても、データ量を削減しつつ、リアルタイム処理にも適応できることは言うまでもない。
<10.コンピュータ構成例>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているマイクロコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図26は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
 入力部306は、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部307は、ディスプレイ、スピーカ、出力端子などよりなる。記憶部308は、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体311を駆動する。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。RAM303にはまた、CPU301が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
 なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる場合はもちろん、必ずしも時系列的に処理されなくとも、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで実行されてもよい。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、上述した実施の形態では、オブジェクトのジオメトリ情報の伝送に関しては、デプス画像、ポイントクラウド、ポリゴンメッシュなど、任意の形式で送信することができるので、説明を省略した。ジオメトリ情報をデプス画像で送信する場合、上述したテクスチャ画像と同様に、複数の撮像装置53から供給された複数のデプス画像から1つのパッキング画像を生成し、再生側に送信してもよい。すなわち、上述した複数の撮像装置53それぞれで撮像されたテクスチャ画像からオブジェクト画像を生成し、それらをパッキングしてパッキング画像を生成および伝送する技術は、デプス画像にも適用することができる。
 画像生成装置22(生成部)は、異なる方向から撮影された複数のオブジェクト画像を1枚にパッキングした複数種類のパッキング画像を生成する。ここで、1枚のパッキング画像は、複数のオブジェクト画像の解像度が、少なくとも一部で異なる構成とされている。画像選択装置24(選択部)は、複数種類のパッキング画像の1つを選択して再生側に出力する。ここでのオブジェクト画像は、テクスチャ画像からオブジェクトの領域だけをクロップした画像、または、デプス画像からオブジェクトの領域だけをクロップした画像である。
 例えば、上述した実施の形態の全てまたは任意の一部を組み合わせた形態を採用することができる。例えば、第1の変形例と第2の変形例を組合せた形態、第2の変形例と第3の変形例を組合せた形態、第1の変形例と第3の変形例を組合せた形態を採用することができる。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、本明細書に記載されたもの以外の効果があってもよい。
 なお、本技術は、以下の構成を取ることができる。
(1)
 異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングした第1パッキング画像を生成する生成部を備え、
 前記生成部は、さらに、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングした第2パッキング画像を生成する
 画像処理装置。
(2)
 前記第1方向は、前記第2方向よりも、再生側において想定される仮想視点である想定仮想視点に近い方向であり、
 前記第3方向は、前記第4方向よりも、前記想定仮想視点に近い方向である
 前記(1)に記載の画像処理装置。
(3)
 前記生成部は、再生側において想定される仮想視点から前記オブジェクトまでの距離が異なる複数種類の前記第1パッキング画像および前記第2パッキング画像を生成する
 前記(1)または(2)に記載の画像処理装置。
(4)
 前記距離として第1の距離と、前記第1の距離よりも遠い第2の距離とがあり、
 前記第1の距離の前記第1パッキング画像と、前記第2の距離の前記第1パッキング画像とで、タイル画像の解像度が異なる
 前記(3)に記載の画像処理装置。
(5)
 前記距離として第1の距離と、前記第1の距離よりも遠い第2の距離とがあり、
 前記第1の距離の前記第1パッキング画像と、前記第2の距離の前記第1パッキング画像とで、パッキング画像のレイアウトが異なる
 前記(3)または(4)に記載の画像処理装置。
(6)
 前記第2の距離の前記パッキング画像のオブジェクト画像の枚数は、前記第1の距離の前記パッキング画像のオブジェクト画像の枚数よりも少ない
 前記(5)に記載の画像処理装置。
(7)
 前記生成部は、符号化時のビットレートが異なる複数種類の前記第1パッキング画像および前記第2パッキング画像を生成する
 前記(1)乃至(6)のいずれかに記載の画像処理装置。
(8)
 前記生成部は、撮像装置が撮影したときの解像度が異なる複数種類の前記第1パッキング画像および前記第2パッキング画像を生成する
 前記(1)乃至(7)のいずれかに記載の画像処理装置。
(9)
 視聴条件に応じて、前記第1パッキング画像または前記第2パッキング画像を選択する選択部をさらに備える
 前記(1)乃至(8)のいずれかに記載の画像処理装置。
(10)
 前記視聴条件は、前記第1パッキング画像または前記第2パッキング画像それぞれが想定する仮想視点である想定仮想視点と、視聴者の実際の仮想視点との角度である
 前記(9)に記載の画像処理装置。
(11)
 前記視聴条件は、視聴者の前記オブジェクトまでの距離である視聴距離である
 前記(9)または(10)記載の画像処理装置。
(12)
 前記第1パッキング画像の前記第1オブジェクト画像と、前記第2パッキング画像の前記第3オブジェクト画像の解像度が同じである
 前記(1)乃至(11)のいずれかに記載の画像処理装置。
(13)
 前記第1パッキング画像を構成する前記第1オブジェクト画像および前記第2オブジェクト画像の解像度は、GOP単位で変化する
 前記(1)乃至(12)のいずれかに記載の画像処理装置。
(14)
 前記第1パッキング画像は、複数の前記第1オブジェクト画像と複数の前記第2オブジェクト画像から構成され、
 前記第2パッキング画像は、複数の前記第3オブジェクト画像と複数の前記第4オブジェクト画像から構成される
 前記(1)乃至(13)のいずれかに記載の画像処理装置。
(15)
 前記第1パッキング画像と前記第2パッキング画像は、ユーザの視聴方向に対応付けて生成されている
 前記(1)乃至(14)のいずれかに記載の画像処理装置。
(16)
 前記選択部で選択された前記第1パッキング画像または前記第2パッキング画像を、ネットワークを介して再生側に送信する送信部をさらに備える
 前記(9)乃至(15)のいずれかに記載の画像処理装置。
(17)
 画像処理装置が、
 異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングした第1パッキング画像を生成する第1生成ステップと、
 前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングした第2パッキング画像を生成する第2生成ステップと
 により複数のパッキング画像を生成する画像生成方法。
(18)
 第1パッキング画像、または、第2パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成するレンダリング部を備え、
 前記第1パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングしたパッキング画像であり、
 前記第2パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングしたパッキング画像である
 画像処理装置。
(19)
 画像処理装置が、
 第1パッキング画像、または、第2パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成し、
 前記第1パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングしたパッキング画像であり、
 前記第2パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングしたパッキング画像である
 画像処理方法。
 10 画像処理システム, 22 画像生成装置, 24 画像選択装置, 25 送信装置, 31 受信装置, 33 レンダリング装置, 34 表示装置, 35 視聴条件取得装置, 41 配信装置, 42 再生装置, 51 撮影空間, 52 被写体, 53 撮像装置, 71A乃至71D 第1乃至第4パッキング画像, 101 第1の視聴距離, 102 第2の視聴距離, 301 CPU, 302 ROM, 303 RAM, 306 入力部, 307 出力部, 308 記憶部, 309 通信部, 310 ドライブ

Claims (19)

  1.  異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングした第1パッキング画像を生成する生成部を備え、
     前記生成部は、さらに、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングした第2パッキング画像を生成する
     画像処理装置。
  2.  前記第1方向は、前記第2方向よりも、再生側において想定される仮想視点である想定仮想視点に近い方向であり、
     前記第3方向は、前記第4方向よりも、前記想定仮想視点に近い方向である
     請求項1に記載の画像処理装置。
  3.  前記生成部は、再生側において想定される仮想視点から前記オブジェクトまでの距離が異なる複数種類の前記第1パッキング画像および前記第2パッキング画像を生成する
     請求項1に記載の画像処理装置。
  4.  前記距離として第1の距離と、前記第1の距離よりも遠い第2の距離とがあり、
     前記第1の距離の前記第1パッキング画像と、前記第2の距離の前記第1パッキング画像とで、タイル画像の解像度が異なる
     請求項3に記載の画像処理装置。
  5.  前記距離として第1の距離と、前記第1の距離よりも遠い第2の距離とがあり、
     前記第1の距離の前記第1パッキング画像と、前記第2の距離の前記第1パッキング画像とで、パッキング画像のレイアウトが異なる
     請求項3に記載の画像処理装置。
  6.  前記第2の距離の前記パッキング画像のオブジェクト画像の枚数は、前記第1の距離の前記パッキング画像のオブジェクト画像の枚数よりも少ない
     請求項5に記載の画像処理装置。
  7.  前記生成部は、符号化時のビットレートが異なる複数種類の前記第1パッキング画像および前記第2パッキング画像を生成する
     請求項1に記載の画像処理装置。
  8.  前記生成部は、撮像装置が撮影したときの解像度が異なる複数種類の前記第1パッキング画像および前記第2パッキング画像を生成する
     請求項1に記載の画像処理装置。
  9.  視聴条件に応じて、前記第1パッキング画像または前記第2パッキング画像を選択する選択部をさらに備える
     請求項1に記載の画像処理装置。
  10.  前記視聴条件は、前記第1パッキング画像または前記第2パッキング画像それぞれが想定する仮想視点である想定仮想視点と、視聴者の実際の仮想視点との角度である
     請求項9に記載の画像処理装置。
  11.  前記視聴条件は、視聴者の前記オブジェクトまでの距離である視聴距離である
     請求項9に記載の画像処理装置。
  12.  前記第1パッキング画像の前記第1オブジェクト画像と、前記第2パッキング画像の前記第3オブジェクト画像の解像度が同じである
     請求項1に記載の画像処理装置。
  13.  前記第1パッキング画像を構成する前記第1オブジェクト画像および前記第2オブジェクト画像の解像度は、GOP単位で変化する
     請求項1に記載の画像処理装置。
  14.  前記第1パッキング画像は、複数の前記第1オブジェクト画像と複数の前記第2オブジェクト画像から構成され、
     前記第2パッキング画像は、複数の前記第3オブジェクト画像と複数の前記第4オブジェクト画像から構成される
     請求項1に記載の画像処理装置。
  15.  前記第1パッキング画像と前記第2パッキング画像は、ユーザの視聴方向に対応付けて生成されている
     請求項1に記載の画像処理装置。
  16.  前記選択部で選択された前記第1パッキング画像または前記第2パッキング画像を、ネットワークを介して再生側に送信する送信部をさらに備える
     請求項9に記載の画像処理装置。
  17.  画像処理装置が、
     異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングした第1パッキング画像を生成する第1生成ステップと、
     前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングした第2パッキング画像を生成する第2生成ステップと
     により複数のパッキング画像を生成する画像生成方法。
  18.  第1パッキング画像、または、第2パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成するレンダリング部を備え、
     前記第1パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングしたパッキング画像であり、
     前記第2パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングしたパッキング画像である
     画像処理装置。
  19.  画像処理装置が、
     第1パッキング画像、または、第2パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成し、
     前記第1パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第1方向を向いている第1オブジェクト画像を、前記オブジェクトが前記第1方向とは異なる第2方向を向いている第2オブジェクト画像より解像度を高くして、前記第1オブジェクト画像と前記第2オブジェクト画像を1フレームにパッキングしたパッキング画像であり、
     前記第2パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第1方向とは異なる第3方向を向いている第3オブジェクト画像を、前記オブジェクトが前記第3方向とは異なる第4方向を向いている第4オブジェクト画像より解像度を高くして、前記第3オブジェクト画像と前記第4オブジェクト画像を1フレームにパッキングしたパッキング画像である
     画像処理方法。
PCT/JP2020/006790 2019-03-05 2020-02-20 画像処理装置、画像生成方法、および、画像処理方法 WO2020179473A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020217025785A KR20210133958A (ko) 2019-03-05 2020-02-20 화상 처리 장치, 화상 생성 방법 및 화상 처리 방법
CN202080016742.7A CN113475080A (zh) 2019-03-05 2020-02-20 图像处理装置、图像生成方法和图像处理方法
EP20765701.6A EP3937499A4 (en) 2019-03-05 2020-02-20 IMAGE PROCESSING DEVICE, IMAGE GENERATING METHOD AND IMAGE PROCESSING METHOD
US17/422,855 US20220084282A1 (en) 2019-03-05 2020-02-20 Image processing device, image generation method, and image processing method
JP2021503957A JPWO2020179473A1 (ja) 2019-03-05 2020-02-20

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019039534 2019-03-05
JP2019-039534 2019-03-05

Publications (1)

Publication Number Publication Date
WO2020179473A1 true WO2020179473A1 (ja) 2020-09-10

Family

ID=72337907

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/006790 WO2020179473A1 (ja) 2019-03-05 2020-02-20 画像処理装置、画像生成方法、および、画像処理方法

Country Status (6)

Country Link
US (1) US20220084282A1 (ja)
EP (1) EP3937499A4 (ja)
JP (1) JPWO2020179473A1 (ja)
KR (1) KR20210133958A (ja)
CN (1) CN113475080A (ja)
WO (1) WO2020179473A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210098292A (ko) * 2020-01-31 2021-08-10 삼성전자주식회사 카메라를 포함하는 전자 장치 및 그 동작 방법
JP2024046244A (ja) * 2022-09-22 2024-04-03 キヤノン株式会社 画像処理システム、画像処理方法及びコンピュータプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016140060A1 (ja) * 2015-03-05 2016-09-09 ソニー株式会社 画像処理装置および画像処理方法
WO2017164986A1 (en) * 2016-03-23 2017-09-28 Qualcomm Incorporated Truncated square pyramid geometry and frame packing structure for representing virtual reality video content
WO2018123645A1 (ja) * 2016-12-28 2018-07-05 ソニー株式会社 生成装置、識別情報生成方法、再生装置および画像再生方法
WO2018150933A1 (ja) 2017-02-20 2018-08-23 ソニー株式会社 画像処理装置および画像処理方法
WO2019003953A1 (ja) * 2017-06-29 2019-01-03 ソニー株式会社 画像処理装置および画像処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016140060A1 (ja) * 2015-03-05 2016-09-09 ソニー株式会社 画像処理装置および画像処理方法
WO2017164986A1 (en) * 2016-03-23 2017-09-28 Qualcomm Incorporated Truncated square pyramid geometry and frame packing structure for representing virtual reality video content
WO2018123645A1 (ja) * 2016-12-28 2018-07-05 ソニー株式会社 生成装置、識別情報生成方法、再生装置および画像再生方法
WO2018150933A1 (ja) 2017-02-20 2018-08-23 ソニー株式会社 画像処理装置および画像処理方法
WO2019003953A1 (ja) * 2017-06-29 2019-01-03 ソニー株式会社 画像処理装置および画像処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3937499A4

Also Published As

Publication number Publication date
US20220084282A1 (en) 2022-03-17
JPWO2020179473A1 (ja) 2020-09-10
KR20210133958A (ko) 2021-11-08
EP3937499A4 (en) 2022-04-27
EP3937499A1 (en) 2022-01-12
CN113475080A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
EP3669333B1 (en) Sequential encoding and decoding of volymetric video
US11109066B2 (en) Encoding and decoding of volumetric video
US11599968B2 (en) Apparatus, a method and a computer program for volumetric video
CN109863754B (zh) 用于直播流化的虚拟现实360度视频相机系统
US11202086B2 (en) Apparatus, a method and a computer program for volumetric video
US11430156B2 (en) Apparatus, a method and a computer program for volumetric video
JP7151486B2 (ja) 生成装置、生成方法、再生装置および再生方法
WO2019229293A1 (en) An apparatus, a method and a computer program for volumetric video
WO2020179473A1 (ja) 画像処理装置、画像生成方法、および、画像処理方法
JP7344988B2 (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
KR20200064998A (ko) 재생 장치 및 방법, 그리고 생성 장치 및 방법
EP3729805A1 (en) Method for encoding and decoding volumetric video data
WO2018109265A1 (en) A method and technical equipment for encoding media content
EP3540696A1 (en) A method and an apparatus for volumetric video rendering
EP2822279B1 (en) Autostereo tapestry representation
JP2005229560A (ja) 立体画像表示方法
EP3698332A1 (en) An apparatus, a method and a computer program for volumetric video
JP6091850B2 (ja) テレコミュニケーション装置及びテレコミュニケーション方法
TWI817273B (zh) 即時多視像視訊轉換方法和系統
Kovács et al. Analysis and optimization of pixel usage of light-field conversion from multi-camera setups to 3D light-field displays
JP2006186511A (ja) 奥行き信号生成装置、奥行き信号生成プログラム、擬似立体画像生成装置、及び擬似立体画像生成プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20765701

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021503957

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020765701

Country of ref document: EP

Effective date: 20211005