WO2020166376A1 - 画像処理装置、画像処理方法、及び、プログラム - Google Patents

画像処理装置、画像処理方法、及び、プログラム Download PDF

Info

Publication number
WO2020166376A1
WO2020166376A1 PCT/JP2020/003607 JP2020003607W WO2020166376A1 WO 2020166376 A1 WO2020166376 A1 WO 2020166376A1 JP 2020003607 W JP2020003607 W JP 2020003607W WO 2020166376 A1 WO2020166376 A1 WO 2020166376A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
virtual camera
image
viewpoint
strobe
Prior art date
Application number
PCT/JP2020/003607
Other languages
English (en)
French (fr)
Inventor
長谷川 雄一
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2020166376A1 publication Critical patent/WO2020166376A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present technology relates to an image processing device, an image processing method, and a program, and in particular, for example, an image processing device and an image processing that enable a user who views a free viewpoint image to prevent a user from losing sight of a desired object.
  • a method and a program are examples of a program.
  • a method for generating a stroboscopic image showing an object (subject) photographed at a plurality of times for example, see Patent Document 1. Since the object at a plurality of times is reflected in the strobe image, it is possible to easily grasp the movement and trajectory of the object.
  • time seek operation time-seek operation
  • the present technology has been made in view of such a situation, and it is possible to prevent a user who views a free viewpoint image from losing sight of a desired object.
  • the image processing device or the program of the present technology in the three-dimensional space of the object shown in the viewpoint image, according to the designation of the reproduction position of the free viewpoint data generated from the plurality of viewpoint images captured from the plurality of viewpoints.
  • the image processing apparatus includes a trajectory information generation unit that generates trajectory information representing the trajectory of, or a program for causing a computer to function as such an image processing apparatus.
  • An image processing method represents a locus in a three-dimensional space of an object shown in a viewpoint image according to designation of a reproduction position of free viewpoint data generated from a plurality of viewpoint images captured from a plurality of viewpoints.
  • An image processing method including generating trajectory information.
  • an object reflected in the viewpoint image according to designation of a reproduction position of free viewpoint data generated from a plurality of viewpoint images captured from a plurality of viewpoints.
  • the trajectory information representing the trajectory in the three-dimensional space of is generated.
  • image processing device may be an independent device, or may be an internal block that constitutes one device.
  • the program can be distributed by transmitting it via a transmission medium or by recording it on a recording medium.
  • FIG. 11 is a block diagram showing a configuration example of a playback device 23.
  • 9 is a flowchart illustrating an example of processing performed by the content server 22.
  • 11 is a flowchart illustrating an example of a reproduction process of free viewpoint data performed by the reproduction device 23. It is a flow chart explaining details of processing of Step S35 which generates locus information when a strobe model is adopted as locus information.
  • FIG. 11 is a diagram showing an example of generation of a strobe model using frames at times t1 to t9 as strobe sections. It is a figure which shows the example of a display of the 3D strobe image produced
  • FIG. 11 is a diagram illustrating an example of a change in the state of the virtual camera when a strobe model is generated and a 3D strobe image is displayed when a time seek operation is performed. It is a figure explaining the example of generation of line data when time seek operation is performed when line data is adopted as locus information. It is a figure explaining the example of the effect process performed on the 3D model arrange
  • positioned at the strobe model as trajectory information. 14 is a flowchart illustrating another example of the reproduction processing of free viewpoint data performed by the reproduction device 23.
  • FIG. 19 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • FIG. 1 is a diagram explaining an example of reproduction of 2D image content.
  • FIG. 1 shows an example of a player that reproduces the content of a 2D (Dimensional) image.
  • the player has a display unit 11 for displaying a 2D image and a seek bar 12 as a GUI (Graphical User Interface) for performing a time seek.
  • Time seek is one of the methods of designating a reproduction position (time).
  • the seek bar 12 has a slider 13 that represents the playback position, and the position of the slider 13 on the seek bar 12 represents the playback position.
  • the left end represents the beginning of the content and the right end represents the end of the content. For example, when the content is normally reproduced, the slider 13 moves from left to right as the reproduction position of the normal reproduction moves.
  • the user can operate the seek bar 12 (slider 13 thereof) to specify the playback position. That is, when the user operates the seek bar 12 as a time seek operation and the position of the slider 13 is moved, the 2D image at the reproduction position (frame) corresponding to the position after the movement of the slider 13 is reproduced. (Displayed on the display unit 11).
  • the user operates the seek bar 12 as a time seek operation to see the 2D image of the playback position corresponding to the position of the slider 13 moved by the operation of the seek bar 12 (and while listening to the sound), The desired scene can be easily found.
  • Fig. 1 for the content of a 2D image showing a soccer match, while the user is operating the seek bar 12 as a time seek operation, an image of the time corresponding to the seek bar operation at that time is displayed. For example, if the camera is following a player, the user can, of course, continue to see the player in the image and never lose sight.
  • the time seek operation can be performed by the operation of the seek bar 12, the operation of instructing the fast-forward reproduction, the rewind reproduction (reverse reproduction), the operation of instructing the chapter jump, or the like.
  • FIG. 2 is a diagram illustrating an example of time seek of the content of the free viewpoint image.
  • the free viewpoint data is data expressing a three-dimensional structure of a three-dimensional space.
  • a predetermined viewpoint that is, a predetermined viewpoint.
  • This 2D image can be called a free viewpoint image because it can be generated by freely setting the viewpoint.
  • the viewpoint (including the line of sight (direction)) necessary for generating the free viewpoint image can be virtually set regardless of the actual viewpoint of the user, and thus such viewpoint is also referred to as a virtual viewpoint.
  • Free-viewpoint images can be displayed on a two-dimensional planar display such as a PC monitor or smartphone.
  • free-viewpoint images can be displayed on the head mounted display (HMD).
  • the head tracking technique can realize stereoscopic vision as if it were present in a three-dimensional space.
  • the free-viewpoint image can be displayed on a head-up display (HUD) that uses a transparent and transparent display such as AR (Augmented Reality) glasses.
  • HUD head-up display
  • AR Augmented Reality
  • an object such as a person or an object photographed in another three-dimensional space can be superimposed and displayed on the three-dimensional space in which the user actually exists.
  • the free viewpoint data has a degree of freedom in the time direction, and in addition to the virtual viewpoint, that is, the shooting position and the shooting posture of the virtual camera that shoots the free viewpoint data (3D space represented by). There is a degree of freedom in the shooting direction).
  • the shooting position of the virtual camera can be represented by, for example, the coordinates of the xyz coordinate system as the world coordinate system, and the shooting posture of the virtual camera can be represented by the rotation angle around each axis of the world coordinate system.
  • the virtual camera shooting position can be moved in the x-axis, y-axis, and z-axis directions, and the virtual camera shooting position can be rotated around the x-axis, y-axis, and z-axis.
  • the free viewpoint image generated by projecting the free viewpoint data (viewing volume in the three-dimensional space represented by) onto the projection surface for the virtual viewpoint is as if the virtual viewpoint is a virtual viewpoint.
  • the camera you can obtain a 2D image as if you were shooting free viewpoint data. Therefore, it can be said that projecting the free viewpoint data onto the projection surface for the virtual viewpoint is equivalent to capturing the free viewpoint data with the virtual camera from the virtual viewpoint. That is, generating free viewpoint images by projecting free viewpoint data onto a projection surface for a virtual viewpoint can be regarded as capturing free viewpoint data with a virtual camera arranged at the virtual viewpoint. .. Therefore, in the present embodiment, the generation of the free viewpoint image is regarded as the shooting of the free viewpoint data by the virtual camera, and the description will be made as appropriate.
  • a virtual camera that captures free viewpoint data is also referred to as a virtual camera.
  • the shooting position and shooting posture of the virtual camera can be set by the user operating the joystick and other controllers (devices) that control the position and posture.
  • the shooting position and shooting posture of the virtual camera should be set to correspond to the user's viewpoint and line of sight (direction) detected by the HMD or HUD. You can
  • the time seek operation is performed on the content of the free viewpoint data, the user is more likely to lose sight of the desired object than the case of the content of the 2D image.
  • a three-dimensional space represented by the free viewpoint data that is, a shooting space that is a three-dimensional space taken by a plurality of cameras to obtain the free viewpoint data is set.
  • a 2D image taken by a virtual camera is displayed as a free viewpoint image.
  • an object that is within the shooting range of the virtual camera at a certain shooting position and shooting posture at the current playback position (time) remains in the shooting range of the virtual camera at another playback position. It does not always come in.
  • a time seek operation is performed to perform a time seek to a playback position in the past from the current playback position. Further, in FIG. 2, an object within the shooting range of the virtual camera at the current playback position is out of the shooting range of the virtual camera at the current playback position at the past playback position.
  • the object appears in the 2D image obtained by shooting the shooting space with the virtual camera, but at the previous playback position (the playback position after the time seek operation), the shooting space was shot with the virtual camera. The object does not appear in the 2D image.
  • the user took a pass and shot the path where the soccer player who scored the goal came from and how.
  • the soccer player who scored the goal at the playback position after the time seek operation The user loses sight of the soccer player who has scored the goal unless he is within the shooting range of the virtual camera at the reproduction position where the scene that scored the goal is reflected.
  • locus information representing the locus of the object in the three-dimensional space is generated according to the designation of the reproduction position of the free viewpoint data by the time seek operation or the like.
  • FIG. 3 is a block diagram showing a configuration example of an embodiment of an image processing system to which the present technology is applied.
  • the image processing system in FIG. 3 includes a photographing device 21, a content server 22, and a reproducing device 23.
  • the image capturing device 21 is composed of at least a plurality of cameras, and captures an object from a plurality of viewpoints.
  • a plurality of cameras that configure the imaging device 21 are arranged so as to surround the object, and each camera shoots the object from the viewpoint as the position where the camera is arranged.
  • the photographing device 21 can be provided with a plurality of distance measuring devices in addition to a plurality of cameras.
  • the distance measuring device can be arranged at the same position (viewpoint) as the camera, or can be arranged at a position different from the camera.
  • the distance measuring device measures the distance from the position (viewpoint) where the distance measuring device is arranged to the object, and generates a depth image which is a 2D image having a depth which is information regarding the distance as a pixel value.
  • the depth image is supplied from the photographing device 21 to the content server 22.
  • the distance to the object is measured by the triangulation principle using the viewpoint images of two viewpoints out of the viewpoint images of the plurality of viewpoints. , Depth images can be generated.
  • the content server 22 is, for example, a web server or a server on the cloud.
  • the content server 22 uses, for example, viewpoint images of a plurality of viewpoints supplied from the imaging device 21 to generate content (moving image content) of free viewpoint data.
  • the content server 22 transmits the content of the free viewpoint data to the reproducing device 23 in response to the request from the reproducing device 23.
  • the playback device 23 is, for example, a client such as a PC (Personal Computer), a TV (television receiver), or a mobile terminal such as a smartphone.
  • the playback device 23 requests and acquires the content of the free viewpoint data from the content server 22.
  • the reproduction device 23 reproduces the content of the free viewpoint data acquired from the content server 22. That is, the playback device 23 generates and displays a 2D image as a free viewpoint image obtained by shooting free viewpoint data with a virtual camera.
  • the playback device 23 traces the locus in the shooting space (three-dimensional space) of the predetermined object shown in the viewpoint image in accordance with the designation of the playback position of the free viewpoint data by the user's time seek operation or the like (of the playback device 23).
  • the locus information to be represented is generated.
  • the reproducing device 23 generates and displays a 2D image (free viewpoint image) as a trajectory image obtained by capturing trajectory information with a virtual camera.
  • the strobe model is a model in which 3D models of the same object (subject) in a plurality of frames (time) of viewpoint images are arranged in (a 3D model of) a shooting space as a three-dimensional space shot by the shooting device 21. And can be generated using free viewpoint data.
  • the content server 22 and the playback device 23 can be configured as separate devices as shown in FIG. 3, or can be configured as one device (for example, a PC (Personal Computer) etc.) as a whole. You can also do it. Further, the content server 22 can be composed of a plurality of devices as a whole. The same applies to the playback device 23.
  • FIG. 4 is a block diagram showing a configuration example of the content server 22 of FIG.
  • the content server 22 has a free viewpoint data generation unit 31, a storage unit 32, and a communication unit 33.
  • the free viewpoint data generation unit 31 generates free viewpoint data contents by generating free viewpoint data in frame units from viewpoint images and depth images of a plurality of viewpoints from the photographing device 21.
  • the free viewpoint data means a wide range of 3D image data (3D data) that can generate a free viewpoint image.
  • 3D data for example, a set of viewpoint images and depth images from a plurality of viewpoints from the photographing device 21 can be directly adopted.
  • the free viewpoint data generation unit 31 When a set of viewpoint images and depth images from a plurality of viewpoints from the photographing device 21 is adopted as the free viewpoint data, the free viewpoint data generation unit 31 generates viewpoint images and depth images from a plurality of viewpoints from the photographing device 21. Is used as it is as free viewpoint data.
  • the free viewpoint data generation unit 31 uses the depth images of the plurality of viewpoints from the photographing device 21 to perform photographing. A depth image of the viewpoint of the viewpoint image from the device 21 can be generated.
  • the free viewpoint data generation unit 31 uses viewpoint images of a plurality of viewpoints from the image capturing device 21 to perform modeling by Visual Hull or the like. By doing so, a 3D shape model of the object shown in the viewpoint image is generated, and the viewpoint images of a plurality of viewpoints that are textures are used as free viewpoint data.
  • the free viewpoint data generation unit 31 may generate the 3D data including the 3D shape model and the color information as described above, for example.
  • a set of a 2D image and a depth image generated from the plurality of viewpoints (which may be the same viewpoint as the camera that configures the imaging device 21 or different viewpoints) is generated as free viewpoint data. To do.
  • the free viewpoint data generation unit 31 generates the content of the free viewpoint data as described above and supplies it to the storage unit 32.
  • the free viewpoint data can be reduced in data amount by adopting a set of 2D images and depth images of a plurality of viewpoints as compared with 3D data having a 3D shape model.
  • a technique for generating and transmitting a set of 2D images and depth images from a plurality of viewpoints as free viewpoint data is described in International Publication No. 2017/082076 previously proposed by the applicant.
  • a set of 2D images of multiple viewpoints and depth images as free viewpoint data is, for example, 2D images such as MVCD (Multiview and depth depth video coding), AVC (Advanced Video Coding), and HEVC (High Efficiency Video Coding). It can be encoded according to the target encoding method.
  • VD model View Independent
  • VI model View Independent
  • VD model View Dependent
  • a VD model is 3D data in which information about a three-dimensional shape such as a 3D shape model and information about an image serving as a texture are separate.
  • a 3D shape model is colored by mapping an image serving as a texture (texture mapping).
  • the VD model it is possible to represent the degree of reflection on the surface of the object that differs depending on the (virtual) viewpoint.
  • the VD model is called ViewDependent because its appearance depends on the viewpoint.
  • the VI model is, for example, 3D data in which polygons and points as constituent elements of information about a three-dimensional shape have color information.
  • the VI model includes, for example, a set of a colored point cloud, a 3D shape model, and a UV map as color information of the 3D shape model.
  • the colors of polygons and points can be observed from any (virtual) viewpoint.
  • the VI model is called View Independent because its appearance does not depend on the viewpoint.
  • the storage unit 32 stores the content of the free viewpoint data from the free viewpoint data generation unit 31.
  • the communication unit 33 communicates with the playback device 23. That is, the communication unit 33 transmits the content of the free viewpoint data stored in the storage unit 32 to the reproduction device 23, for example, in response to a request from the reproduction device 23.
  • the free viewpoint data generation unit 31 can be provided in the playback device 23.
  • FIG. 5 is a block diagram showing a configuration example of the playback device 23 of FIG.
  • the playback device 23 has a communication unit 41, a storage unit 42, a free viewpoint image generation unit 43, a display unit 44, a virtual camera setting unit 45, an operation unit 46, and a trajectory information generation unit 47.
  • the communication unit 41 communicates with the content server 22. That is, the communication unit 41 transmits a request for content of free viewpoint data in response to an operation of the operation unit 46, for example. In response to the request, the communication unit 41 receives the content of the free viewpoint data transmitted from the content server 22 and supplies it to the storage unit 42.
  • the storage unit 42 stores the content of the free viewpoint data from the communication unit 41.
  • the free viewpoint image generation unit 43 captures the free viewpoint data (three-dimensional space represented by) stored in the storage unit 42 with the virtual camera (in the state) represented by the camera information supplied from the virtual camera setting unit 45. 2D images (2D images obtained by shooting with a virtual camera) (including a set of 2D images for the left eye and 2D images for the right eye) are generated (rendering) as (data of) free viewpoint images, It is supplied to the display unit 44.
  • the free viewpoint image generation unit 43 is a 2D image obtained by capturing the free viewpoint data as the trajectory information supplied from the trajectory information generation unit 47 with the virtual camera represented by the camera information supplied from the virtual camera setting unit 45. A free viewpoint image as a trajectory image is generated and supplied to the display unit 44.
  • the display unit 44 displays the free viewpoint image and the like from the free viewpoint image generation unit 43.
  • the display unit 44 can be composed of, for example, a 2D HMD/HUD, a 2D monitor, a 3D HMD/HUD, a 3D monitor, or the like.
  • a 3D HMD/HUD or monitor is a display device that realizes stereoscopic viewing by displaying a 2D image for the left eye and a 2D image for the right eye, for example.
  • the state of the virtual camera when the virtual camera setting unit 45 captures free viewpoint data (free viewpoint data stored in the storage unit 42 and free viewpoint data as locus information generated by the locus information generation unit 47) Is set, and camera information representing the setting contents is supplied to the free viewpoint image generation unit 43.
  • the virtual camera setting unit 45 sets the virtual camera state such as the shooting position, shooting posture, angle of view (focal length), and zoom magnification of the virtual camera according to the user's operation.
  • the virtual camera setting unit 45 corresponds to the user's viewpoint and line of sight according to the user's viewpoint and line of sight detected by the HMD or HUD. As described above, the shooting position and shooting posture of the virtual camera can be set.
  • the shooting position and shooting attitude of the virtual camera are set so as to correspond to the position and attitude of the mobile terminal. Can be set.
  • the operation unit 46 is operated by the user and supplies operation information according to the user's operation to necessary blocks.
  • the operation unit 46 can be configured integrally with the display unit 44 by using, for example, a touch panel.
  • the operation unit 46 can also be configured as a mouse, controller, or the like, which is separate from the display unit 44.
  • As an operation of the operation unit 46 by the user for example, an operation of setting a virtual camera, a time seek operation, or the like can be performed.
  • the locus information generation unit 47 indicates the locus information indicating the locus of a predetermined object shown in the viewpoint image (and thus the free viewpoint image) in accordance with the designation of the reproduction position of the free viewpoint data by the user, that is, for example, the time seek operation by the user. To generate.
  • free viewpoint data hereinafter also referred to as line data
  • line data of a curve (including a straight line) representing the trajectory of the object, or a strobe model
  • the line data as the trajectory information includes, for example, a section including a reproduction position designated by a time seek operation by the user (hereinafter, also referred to as a designated reproduction position), for example, a predetermined first time based on the designated reproduction position. It is possible to employ free-viewpoint data of a curve representing the trajectory of a predetermined object (in the frame) in a section from a time t1 in the past by ⁇ t1 to a time t2 in the future for a predetermined second time ⁇ t2.
  • strobe model as the trajectory information, for example, a section including the designated reproduction position, for example, a 3D model of a predetermined object in the section from the time t1 to the time t2 as described above, which is based on the designated reproduction position, is arranged. Strobe model can be adopted.
  • the locus information generation unit 47 generates locus information as free viewpoint data according to the time seek operation by the user and supplies it to the free viewpoint image generation unit 43.
  • the free viewpoint image generation unit 43 photographs the line data and the strobe model as the locus information with the virtual camera represented by the camera information from the virtual camera setting unit 45. A trajectory image as a free viewpoint image is generated. Then, the free viewpoint image generation unit 43 supplies the locus image generated from the locus information to the display unit 44 instead of the free viewpoint image generated from the free viewpoint data stored in the storage unit 32, or The locus image generated from the locus information is superimposed on the free viewpoint image generated from the free viewpoint data stored in the storage unit 32, and is supplied to the display unit 44. As a result, the display unit 44 displays the trajectory image generated from the trajectory information while the user performs the time seek operation.
  • the free viewpoint image generation unit 43 uses the 2D image captured by the virtual camera represented by the camera information from the virtual camera setting unit 45 as the trajectory model as the trajectory information.
  • a certain 3D strobe image is generated as a trajectory image and supplied to the display unit 44.
  • the strobe image is an image showing one or more identical objects (images) taken at a plurality of times.
  • a strobe image showing an object in a 2D image is also called a 2D strobe image.
  • a 2D image showing a 3D model of an object that is, a 2D image of a strobe model seen from a virtual viewpoint (a 2D image taken by a virtual camera) is a 3D image.
  • a strobe image When a strobe model is used as the trajectory information, the free viewpoint image generation unit 43 generates a 3D strobe image.
  • the trajectory information generation unit 47 uses the free viewpoint data from the free viewpoint data generation unit 31 to create a shooting space (3D model) that is a three-dimensional space reflected in the viewpoint image.
  • a shooting space (3D model) that is a three-dimensional space reflected in the viewpoint image.
  • a strobe model in which a 3D model, which is free viewpoint data of the same object in a plurality of frames (different times) of a viewpoint image, is arranged is generated.
  • the trajectory information generation unit 47 sets a strobe section that is a section of a frame for which a strobe model is to be generated, and selects a frame (hereinafter, also referred to as a generation frame) used for generating a strobe model from the strobe section frame. select. Further, the trajectory information generation unit 47 sets one or more objects among the objects reflected in the generation frame as an object (hereinafter, also referred to as a target object) for which trajectory information is generated. Then, the trajectory information generation unit 47 generates a strobe model in which the 3D model of the target object shown in the generation frame is arranged.
  • trajectory information generation unit 47 for example, all moving objects shown in the generation frame can be set as target objects.
  • the locus information generation unit 47 can set, for example, an object designated by the user among the objects shown in the generation frame as the target object.
  • the user can specify the target object (object to be the target) by operating the operation unit 46 or the like, and can also specify the target object by the line of sight.
  • the playback device 23 may have at least a function of communicating with the outside, a function of displaying an image, and a function of receiving a user operation.
  • other functions for example, the functions realized by the free-viewpoint image generation unit 43, the virtual camera setting unit 45, and the trajectory information generation unit 47 are provided in the content server 22 and the cloud server, for example. Can be provided.
  • FIG. 6 is a flowchart illustrating an example of processing performed by the content server 22 of FIG.
  • step S11 the content server 22 obtains viewpoint images (and depth images) of a plurality of viewpoints photographed by the photographing device 21 in frame units.
  • the content server 22 supplies viewpoint images of a plurality of viewpoints to the free viewpoint data generation unit 31, and the processing proceeds from step S11 to step S12. It should be noted that viewpoint images of a plurality of viewpoints captured by the image capturing device 21 can be transmitted from the reproducing device 23 to the content server 22 via the reproducing device 23.
  • step S12 the free viewpoint data generation unit 31 generates free viewpoint data in frame units using viewpoint images of a plurality of viewpoints and supplies the free viewpoint data to the storage unit 32.
  • the storage unit 32 stores the content (content of the free viewpoint data) composed of the free viewpoint data in frame units from the free viewpoint data generation unit 31. Then, the process proceeds from step S12 to step S13.
  • step S13 the communication unit 33 transmits the content of the free viewpoint data stored in the storage unit 32 to the playback device 23, for example, in response to a request from the playback device 23, and the process ends.
  • FIG. 7 is a flowchart illustrating an example of the reproduction processing of free viewpoint data performed by the reproduction device 23 of FIG.
  • step S31 the communication unit 41 requests the content of the free viewpoint data from the content server 22 in response to the user's operation, for example, and the process proceeds to step S32.
  • step S32 the communication unit 41 waits for the content of the free viewpoint data to be transmitted from the content server 22, and then receives the content of the free viewpoint data.
  • the communication unit 41 supplies the content of the free viewpoint data from the content server 22 to the storage unit 42 to store the content, and the process proceeds from step S32 to step S33.
  • step S33 the reproduction device 23 reproduces the content of the free viewpoint data stored in the storage unit 42, and the process proceeds to step S34.
  • the virtual camera setting unit 45 sets the virtual camera (state thereof), and the free viewpoint image generation unit 43 photographs the free viewpoint data with the virtual camera set by the virtual camera setting unit 45. It is generated by rendering a free viewpoint image. Then, the free viewpoint image generation unit 43 supplies the free viewpoint image to the display unit 44 to display it.
  • step S34 the trajectory information generating unit 47 determines whether the time seek operation by the user has started.
  • step S34 If it is determined in step S34 that the time seek operation has not been started, the process returns to step S33, and the reproduction of the free viewpoint data content stored in the storage unit 42 is continued.
  • step S34 If it is determined in step S34 that the time seek operation has started, the process proceeds to step S35.
  • step S35 the locus information generation unit 47 generates locus information based on the designated reproduction position designated by the time seek operation, supplies the locus information to the free viewpoint image generation unit 43, and the process proceeds to step S36.
  • the locus information generation unit 47 uses the designated reproduction position as a reference to determine the predetermined object in the section from the time t1 in the past by the predetermined first time ⁇ t1 to the time t2 in the future by the predetermined second time ⁇ t2. Trajectory information (free viewpoint data) representing a trajectory is generated.
  • step S ⁇ b>36 the free viewpoint image generation unit 43 generates the trajectory image captured by the virtual camera set by the virtual camera setting unit 45 from the trajectory information from the trajectory information generation unit 47, and supplies the trajectory image to the display unit 44. After that, the process proceeds to step S37.
  • step S37 the trajectory information generating unit 47 determines whether the time seek operation by the user has been completed.
  • step S37 If it is determined in step S37 that the time seek operation has not been completed, the process returns to step S35, and the same process is repeated thereafter.
  • step S37 If it is determined in step S37 that the time seek operation has been completed, the process returns to step S33, and is stored in the storage unit 42 from the specified reproduction position specified when the time seek operation was completed. The content of the free viewpoint data is reproduced.
  • the content of the free viewpoint data stored in the storage unit 42 is specified by the time seek operation while the time seek operation is being performed, that is, while the processing of steps S35 to S37 is being performed. It is possible to reproduce the free viewpoint data at the designated reproduction position.
  • FIG. 8 is a flowchart illustrating the details of the process of step S35 of generating the trajectory information when the strobe model is adopted as the trajectory information.
  • step S51 the trajectory information generation unit 47 sets a strobe section that is a section of a frame for which a strobe model is to be generated, and the process proceeds to step S52.
  • the trajectory information generation unit 47 uses the designated reproduction position designated by the time seek operation as a reference from a time t1 in the past for a predetermined first time ⁇ t1 to a time t2 in the future for a predetermined second time ⁇ t2.
  • the section of is set to the strobe section.
  • the first time ⁇ t1 and the second time ⁇ t2 may be the same time or different times.
  • step S52 the trajectory information generation unit 47 sets the target object for arranging the 3D model in the strobe model from the objects shown in the viewpoint image, and the process proceeds to step S53.
  • all objects displayed in the frame of the strobe section, objects specified according to the user's operation and line of sight, etc. are set as the target objects.
  • step S53 the trajectory information generating unit 47 selects a generation frame used for generating a strobe model from the frames in the strobe section, and the process proceeds to step S54.
  • 3D models of the same object which are the same number as the number of frames in the strobe section, are arranged in the strobe model in an overlapping manner.
  • the strobe image may be difficult to see.
  • the trajectory information generation unit 47 can select some frames from the frames in the strobe section as generation frames and generate a strobe model using the generation frames (3D model of the object reflected in the generation frame).
  • the trajectory information generation unit 47 can select, as a generation frame, a frame in which the degree of interference of the 3D model is equal to or less than a threshold value from the frames in the strobe section, for example. That is, the trajectory information generation unit 47 calculates the degree of interference that represents the degree of overlap between the 3D models in a state where the 3D models of the target object reflected in the frame of the strobe section are arranged in the three-dimensional space. The degree of interference is calculated, for example, as 100% when the 3D models of arbitrary two frames completely overlap in the three-dimensional space and 0% when they do not overlap at all. Then, the trajectory information generation unit 47 selects a frame whose interference degree is equal to or less than a predetermined threshold value as a generation frame.
  • a frame in which the degree of interference of the 3D model is less than or equal to the threshold value is selected from the frames in the strobe section as the generation frame, and the strobe model in which the 3D model of the target object reflected in the generation frame is arranged is generated.
  • the strobe model in which the 3D model of the target object reflected in the generation frame is arranged is generated.
  • a frame in the strobe section can be simply selected as a generation frame for every predetermined number of frames.
  • all frames in the strobe section can be selected as generation frames.
  • step S54 the trajectory information generation unit 47 uses the free viewpoint data stored in the storage unit 42 to capture the 3D model of the target object reflected in the plurality of generation frames selected from the frames of the strobe section, by the target object. Generates a strobe model placed in the background (3D model) of the shooting space. Then, the process of generating the strobe model as the trajectory information ends.
  • FIG. 9 is a diagram showing an example of an unnatural 3D strobe image.
  • FIG. 9 shows a 3D strobe image generated from a strobe model generated by using five of the viewpoint image frames in which a ball as an object is rolling from the front side to the back side as a generation frame. An example is shown.
  • the 3D model of the ball reflected in the generated frame of 5 frames is arranged (rendered) so that the 3D model that is later in time has priority. Therefore, the 3D model (of the ball) that is later in time is located so as to hide the 3D model that is closer to the front in time, although it is located in the back. As a result, the 3D strobe image in FIG. 9 is an unnatural image.
  • FIG. 10 is a diagram showing an example of a natural 3D strobe image.
  • FIG. 10 shows a 3D strobe image generated from a strobe model generated by using five of the viewpoint image frames in which a ball as an object is rolling from the front side to the back side as a generation frame. An example is shown.
  • the 3D model of the ball reflected in the generated frame of 5 frames is arranged so that the 3D model on the front side has priority. Therefore, the 3D model on the front side is arranged to hide the 3D model on the back side, that is, the 3D model on the front side is preferentially displayed. As a result, the free viewpoint image is a natural image.
  • the free viewpoint image generation unit 43 generates a 3D strobe image in which the 3D model of the object on the front side is preferentially reflected as described above by using the depth (depth) of the 3D model of each object arranged in the strobe model. Yes (shoot with a virtual camera).
  • FIG. 11 is a diagram showing an example of a frame of a viewpoint image in a strobe section.
  • nine frames from time t1 to t9 are the viewpoint image frames in the strobe section.
  • the ball as an object is rolling from left to right.
  • a frame of a viewpoint image of a certain one viewpoint is shown in order to avoid complication of the drawing.
  • FIG. 12 is a diagram showing an example of generation of a strobe model using frames at times t1 to t9 as strobe sections.
  • the frames at times t1 to t9 as the strobe section are selected as the generation frames, and are set as generation frames for viewpoint images of a plurality of viewpoints.
  • a strobe model in which a 3D model of a ball as an object reflected in the frames at times t1, t3, t5, t7, and t9 is arranged is generated.
  • FIG. 13 is a diagram showing a display example of a 3D strobe image generated by photographing a strobe model with a virtual camera.
  • a 3D strobe image it is possible to generate and display a frame in which a 3D model of a ball as an object is reflected in the frames at times t1, t3, t5, t7, and t9. Further, as the 3D strobe image, from the strobe model of FIG. 12, a frame showing a 3D model of a ball as an object reflected in the frame at time t1 and a frame showing a 3D model of a ball reflected as an object in the frames at times t1 and t3.
  • a frame in which the 3D model of the ball as an object appears in the frames at times t1, t3, and t5 a frame in which the 3D model of the ball as an object appears in the frames at times t1, t3, t5, and t7
  • a frame in which a 3D model of a ball as an object is reflected in frames at times t1, t3, t5, t7, and t9 can be generated and sequentially displayed.
  • the shooting position of the virtual camera that shoots the strobe model is not changed, but the shooting position of the virtual camera can be changed.
  • a strobe model in which a 3D model of a ball as an object reflected in the frames at times t1, t3, t5, t7, and t9 is arranged can be photographed by the virtual camera while changing the photographing position.
  • the viewpoint for viewing the strobe model is changed, and a 3D strobe image with a different camera angle is displayed.
  • FIG. 14 is a diagram illustrating effect processing performed on the 3D model arranged in the strobe model.
  • the trajectory information generation unit 47 can perform effect processing on the 3D model placed on the strobe model.
  • the effect processing is the standard 3D model that is the standard for effect processing, such as the 3D model at the latest or oldest time among the 3D models arranged in the strobe model, or the 3D model specified according to the user's operation. Can be performed on the reference 3D model, or one or both of the past and future 3D models than the reference 3D model.
  • a strobe model is generated and then effect processing is performed on the 3D model placed in the strobe model.
  • the generation of the strobe model and the effect processing for the 3D model arranged in the strobe model can be performed in parallel or in an appropriate order. For example, after performing the effect processing on the 3D model, it is possible to generate the strobe model in which the 3D model after the effect processing is arranged.
  • FIG. 14 is a diagram illustrating a 3D model that is a target of effect processing in the strobe model.
  • the effect processing is based on the reference 3D model and/or one or both of the past and the future of the reference 3D model among the 3D models of the plurality of generated frames at a plurality of times selected from the frame of the strobe section in the strobe model. Can be done on a 3D model.
  • the target model which is the target 3D model for effect processing, is specified by the effect direction indicating the time direction (past direction and future direction) with respect to the reference 3D model and the effect distance indicating the distance from the reference 3D model.
  • the effect processing is performed from the reference 3D model to the past direction 3D model.
  • the effect processing is performed from the reference 3D model to the future 3D model.
  • past direction past and future direction future are set as the effect directions, effect processing is performed from the reference 3D model to the past direction 3D model and the future direction 3D model.
  • the effect distance can be specified by the number of models in the 3D model from the standard 3D model, number, distance, or time.
  • 3D models placed in the strobe model that is, the number of models that are number number or more apart from the reference 3D model of the (object) 3D models reflected in the generation frame used to generate the strobe model
  • Another 3D model can be designated as the target model.
  • the 3D model that is more than the distance distance from the reference 3D model can be designated as the target model.
  • a 3D model that is more than time time away from the reference 3D model can be designated as the target model.
  • the target model is a 3D model distant from the reference 3D model by the number of models number, distance distance, or time or more in the past direction, future direction, or both past and future directions. It can be carried out.
  • FIG. 15 is a diagram illustrating a specific example of effect processing.
  • effect processing there are effect processings represented by effect modes 0, 1, 2, 3, 3, 4, 5, 5, 6, 7, 8, 9, 10, 10, 11, 12, 13, 14.
  • effect modes 1 to 14 the effect direction and effect distance described in FIG. 14 can be set.
  • the effect processing can be performed assuming that the past direction past is set as the default effect direction.
  • Effect mode 0 indicates that effect processing is not performed.
  • Effect mode 1 represents the effect processing that makes the 3D model transparent.
  • all the target models can be made transparent with the same transparency, or gradually made transparent, that is, a 3D model (target) that is distant from the reference 3D model in time or distance.
  • the more transparent the model the more transparent it is.
  • How to make the 3D model transparent can be specified by, for example, defining a parameter associated with the effect mode 1, and specifying the parameter. Note that when the transparency is 100%, the target model is completely transparent, and in this case, the effect processing result of the effect mode 1 is substantially the same as that of the effect mode 4 described later.
  • Effect mode 2 represents the effect processing that gradually disappears the 3D model.
  • Effect mode 3 represents effect processing that reduces the number of textures in the 3D model (the number of 2D images used as textures).
  • the number of textures of the target model can be reduced to the same number, or it can be gradually reduced, that is, the texture that is more distant from the reference 3D model in time or distance. You can also reduce the number.
  • How to reduce the number of textures in the 3D model can be specified by, for example, defining a parameter associated with the effect mode 3 and specifying the parameter.
  • 3D model that texture mapping is performed that is, VD model is targeted, not VI model where texture mapping is not performed.
  • Effect mode 4 represents the effect processing that erases the 3D model.
  • Effect mode 5 represents effect processing that reduces at least one of the brightness and saturation of the 3D model.
  • the luminance and the saturation of the target model can be reduced by the same ratio, or gradually reduced, that is, the 3D that is distant from the reference 3D model in time or distance. It is possible to increase the ratio of decreasing the luminance and the saturation of the model. How to reduce the brightness and saturation of the 3D model, and which of the brightness and saturation is to be decreased can be specified by, for example, defining a parameter associated with the effect mode 5.
  • Effect mode 6 represents effect processing that limits the number of 3D models placed in the strobe model.
  • the 3D model placed in the strobe model is limited to only the 3D models other than the target model among the 3D models of the generated frame.
  • Effect mode 7 represents the effect processing that makes the 3D model low polygon, that is, the effect processing that reduces the number of meshes (the number of polygons) of the 3D model.
  • the number of meshes of the target model can be reduced to the same number, or it can be gradually reduced, that is, the 3D model that is distant from the reference 3D model in time or distance, the mesh You can also reduce the number.
  • How to reduce the number of meshes in the 3D model can be specified by, for example, defining a parameter associated with the effect mode 7 and specifying the parameter.
  • Effect modes 8 and 9 represent effect processing that changes the representation format of the 3D model.
  • the effect mode 8 represents an effect process for changing a 3D model composed of polygons into a wireframe.
  • Effect mode 9 represents an effect process that changes the representation format of the 3D model from View Dependent to View Independent, that is, an effect process that changes the VD model to a VI model (for example, point cloud).
  • Effect mode 10 represents an effect process that erases the 3D model and leaves a trace of the 3D model.
  • Effect mode 11 represents the effect processing that changes the texture (texture material) of the 3D model.
  • the texture to be changed to the texture of the 3D model can be specified by, for example, defining a parameter associated with the effect mode 11 and specifying the parameter.
  • Effect mode 12 represents the effect processing that blurs the (shape) of the 3D model.
  • the degree of blurring of the 3D model can be specified by, for example, defining a parameter associated with the effect mode 12 and specifying the parameter.
  • Effect mode 13 represents effect processing that changes the color of the 3D model.
  • the color of the 3D model to be changed can be specified by, for example, defining a parameter associated with the effect mode 13 and specifying the parameter.
  • Effect mode 14 represents effect processing that changes the size of the 3D model.
  • the extent to which the size of the 3D model is changed can be defined by, for example, defining a parameter associated with the effect mode 14.
  • effect modes 1 to 14 you can set the effect direction and effect distance, but you can define the default effect direction and effect distance if necessary.
  • past direction past can be defined as the default effect direction for effect modes 1 to 14.
  • the 3D model that is one model or more away from the reference 3D model in the past direction, that is, the 3D model before the next 3D model in the past direction of the reference 3D model.
  • the effect processing of effect mode 1 is performed with the model as the target model.
  • effect processing of effect mode 4 is performed on the 3D model that is 5 m or more away from the reference 3D model in the past direction.
  • effect processing of effect mode 5 will be performed on the 3D model that is 10 seconds or more away from the reference 3D model in the past direction.
  • the 3D model that is more than 3 models away from the reference 3D model in the past direction that is, the 3D model before the third 3D model in the past direction of the reference 3D model is used.
  • the effect processing of effect mode 7 is performed on the 3D model as the target model.
  • effect processing multiple effect modes can be set. For example, regarding the effect processing, when the effect modes 1 and 3 are set, the effect processing that makes the 3D model transparent and reduces the number of textures is performed.
  • FIG. 16 is a diagram illustrating an example of generating a strobe model when a time seek operation is performed when a strobe model is used as the trajectory information.
  • a strobe model in which the 3D model of the target object that appears in the section (frame of the designated reproduction position) is arranged is generated as locus information in accordance with the time seek operation.
  • the 3D model of the target object that appears at (the frame of) the specified playback position the 3D model of the target object that appears in one frame in the future from the specified playback position, and the target object that appears in the two frames past the specified playback position
  • a strobe model in which 3D models of target objects appearing at four times (frames) are arranged is generated.
  • the frame of the 3D model arranged in the strobe model is changed according to the change of the designated reproduction position designated by the time seek operation.
  • the section (strobe section) also changes.
  • FIG. 17 is a diagram illustrating an example of a change in the state of the virtual camera when a strobe model is generated and a 3D strobe image is displayed when a time seek operation is performed.
  • the playback device 23 displays a 3D strobe image of a strobe model in which a 3D model of the target object appears in a section (frame) with the designated playback position as a reference, taken by a virtual camera, in response to a time seek operation.
  • the user can easily guess the destination of the target object at the time from the specified playback position to the future direction or past direction. Therefore, the user can see the moving destination of the target object according to the estimation result of the moving destination of the target object, that is, the target object is within the shooting range of the virtual camera, and the state of the virtual camera as the virtual viewpoint. Can be changed. As a result, it is possible to prevent the target object from being lost during the time seek operation.
  • FIG. 18 is a diagram illustrating an example of generation of line data when a time seek operation is performed when line data is adopted as the trajectory information.
  • line data representing the trajectory of the target object in the section with the designated playback position as a reference is generated according to the time seek operation, and a line image obtained by shooting the line data with a virtual camera is displayed.
  • the user can easily guess the moving destination of the target object at the time from the designated reproduction position to the future direction or the past direction. Therefore, the user can see the moving destination of the target object according to the estimation result of the moving destination of the target object, that is, the target object is within the shooting range of the virtual camera, and the state of the virtual camera as the virtual viewpoint. Can be changed. As a result, it is possible to prevent the target object from being lost during the time seek operation.
  • trajectory information in addition to the strobe model and line data, any information that can easily display the trajectory of the movement of the target object can be adopted.
  • the reproducing device 23 generates the trajectory information according to the time seek operation and displays the trajectory image (3D strobe image or line image) corresponding to the trajectory information.
  • the setting of the virtual camera is performed regardless of the time seek operation.
  • the user estimates the moving destination of the target object by looking at the trajectory image, and according to the estimation result, the virtual camera setting unit 45 sets the virtual camera so that the target object falls within the shooting range of the virtual camera. Need to be done.
  • the generation of the trajectory information shown in FIGS. 17 and 18 and the display of the trajectory image corresponding to the trajectory information include detection of the user's viewpoint and line of sight (including movement of head and body, posture), AR that changes the appearance of the object displayed on the smartphone depending on the HMD/HUD that sets the shooting position and shooting posture of the virtual camera and the position and posture of the smartphone, etc. so as to correspond to the user's viewpoint and line of sight
  • an application such as an application, in which the shooting position and shooting posture of the virtual camera are set in association with the operation of changing the user's viewpoint and line of sight.
  • the user looks at the trajectory image, estimates the destination of the target object, and moves the line of sight to the destination to prevent the target object from being lost during the time seek operation. be able to.
  • FIG. 19 is a diagram illustrating an example of effect processing performed on a 3D model arranged in a strobe model as trajectory information.
  • Effect processing can be performed on the 3D model placed on the strobe model. For example, as shown in A of FIG. 19, it is possible to perform the effect processing in which the transparency of the most future 3D model in the strobe section is the lowest and the transparency of the past 3D model is higher.
  • the effect processing to be performed on the 3D model arranged in the strobe model can be performed depending on the direction of the time seek, that is, whether the time seek operation is a fast forward operation or a rewind operation.
  • the degree (the degree to which an effect is applied) can be controlled.
  • a weak effect process can be performed on a 3D model in the time seek direction, and a strong effect process can be performed on a 3D model in the reverse direction.
  • the direction of the time seek is the future direction (when the time seek operation is an operation such as fast-forwarding)
  • the direction toward the past is the direction opposite to the future direction, which is the direction of the time seek.
  • the time seek direction is the past direction (when the time seek operation is an operation such as rewinding)
  • the future in the direction opposite to the past direction that is the time seek direction is the time seek direction.
  • a higher degree of effect processing can be performed in the direction.
  • the effect process is a process for applying an effect that makes the 3D model transparent
  • a time seek operation in the future direction is performed, as shown in A of FIG.
  • the effect processing is performed such that the transparency of the 3D model is the lowest and the transparency of the 3D model in the past direction is higher.
  • a time seek operation is performed in the past direction, as shown in FIG. 19B, the effect of making the transparency of the earliest 3D model in the strobe section the lowest and increasing the transparency of the 3D model in the future direction Processing is performed.
  • the transparency of the 3D model at the designated playback position can be set to the lowest, and the effect processing can be performed to make the transparency higher for the 3D model that is reflected in the frame in the past direction and the future direction from the designated playback position.
  • effect processing performed on the 3D model placed in the strobe model as the trajectory information various effect processing described in FIG. 15 can be adopted in addition to the effect processing that makes the 3D model transparent.
  • the user can easily recognize the time direction (future direction, past direction) in the strobe model (3D strobe image) by performing the effect processing on the 3D model arranged in the strobe model as the trajectory information. be able to.
  • strobe model as the trajectory information, for example, a strobe model in which the 3D model of the target object becomes sparser as the distance from the designated reproduction position is increased can be generated. In this case, the user can recognize the distance from the designated reproduction position due to the density of the target objects displayed in the 3D strobe image.
  • FIG. 20 is a flowchart illustrating another example of the reproduction processing of the free viewpoint data performed by the reproduction device 23 of FIG.
  • steps S71 to S75 processes similar to those in steps S31 to S35 of FIG. 7 are performed.
  • step S75 as in step S35 of FIG. 7, the trajectory information generation unit 47 generates trajectory information based on the designated reproduction position designated by the time seek operation, and then the process proceeds to step S76. ..
  • step S76 the virtual camera setting unit 45 sets the virtual camera so that the 3D model of the target object shown in the frame of the designated playback position is included in the shooting range of the virtual camera, and the process proceeds to step S77.
  • step S77 as in step S36 of FIG. 7, the free-viewpoint image generation unit 43 generates the trajectory image obtained by capturing the trajectory information from the trajectory information generation unit 47 with the virtual camera set by the virtual camera setting unit 45. Then, it is supplied to the display unit 44 to be displayed, and the process proceeds to step S78.
  • step S78 the same processing as step S37 in FIG. 7 is performed.
  • step S76 the virtual camera is set such that the 3D model of the target object reflected in the frame at the designated playback position is included in the shooting range (angle of view) of the virtual camera. Therefore, the display content displayed on the display unit 44 in step S77 includes at least the position in the three-dimensional space of the 3D model of the target object at the designated reproduction position (time). As a result, it is possible to more firmly prevent the user from losing sight of the target object during the time seek operation.
  • the reproduction device 23 generates the trajectory information according to the time seek operation and displays the trajectory image corresponding to the trajectory information, but the virtual camera is set to the time seek operation. Regardless of the user's operation or the user's viewpoint.
  • the user estimates the moving destination of the target object by looking at the trajectory image, and according to the estimation result, the virtual camera setting unit 45 sets the virtual camera so that the target object falls within the shooting range of the virtual camera. It is necessary to perform operations and change the viewpoint etc. so that
  • the virtual camera may not be set such that the target object falls within the shooting range of the virtual camera, and the trajectory information may deviate from the shooting range of the virtual camera. ..
  • the trajectory image corresponding to the trajectory information is not displayed, and the user may lose sight of the target object.
  • the virtual camera is set so that the 3D model of the target object reflected in the frame at the specified reproduction position is included in the shooting range of the virtual camera. Therefore, at least a part of the trajectory information (the portion of the position in the three-dimensional space of the 3D model of the target object that appears in the frame of the specified playback position) is always within the shooting range of the virtual camera, and thus the trajectory corresponding to the trajectory information. At least a part of the image is always displayed on the display unit 44. As a result, it is possible to more firmly prevent the user from losing sight of the target object during the time seek operation, as compared with the case of FIG. 7.
  • FIG. 21 is a diagram illustrating a first setting example of the virtual camera when the virtual camera is set such that the 3D model of the target object reflected in the frame of the designated playback position is included in the shooting range of the virtual camera.
  • a strobe model is adopted as the trajectory information.
  • the shooting position of the virtual camera is fixed to the shooting position when the time seek operation is started, and only the shooting posture (shooting direction) of the virtual camera is reflected in the frame of the designated playback position.
  • the 3D model of the object is set to be included in the shooting range of the virtual camera.
  • FIG. 22 is a diagram illustrating a second setting example of the virtual camera when the virtual camera is set such that the 3D model of the target object reflected in the frame of the designated reproduction position is included in the shooting range of the virtual camera.
  • FIG. 22 line data is adopted as the trajectory information. Then, in FIG. 22, as in FIG. 21, the shooting position of the virtual camera is fixed to the shooting position when the time seek operation is started, and only the shooting posture of the virtual camera is reflected in the frame of the designated playback position. The 3D model of the object is set to be included in the shooting range of the virtual camera.
  • FIG. 23 is a diagram illustrating a third setting example of the virtual camera when the virtual camera is set such that the 3D model of the target object reflected in the frame of the designated reproduction position is included in the shooting range of the virtual camera.
  • a strobe model is adopted as the trajectory information.
  • the shooting posture of the virtual camera is fixed to the shooting posture when the time seek operation is started, and only the shooting position of the virtual camera is the 3D model of the target object reflected in the frame of the designated playback position. Is set to be included in the shooting range of the virtual camera. That is, in FIG. 23, the shooting posture of the virtual camera is fixed, and the shooting position of the virtual camera indicates the positional relationship with the 3D model of the target object reflected in the frame of the designated playback position, for example, when the time seek operation is started. It is set to maintain the positional relationship of.
  • FIG. 24 is a diagram illustrating a fourth setting example of the virtual camera when the virtual camera is set such that the 3D model of the target object shown in the frame of the designated reproduction position is included in the shooting range of the virtual camera.
  • a strobe model is adopted as the trajectory information.
  • the shooting posture of the virtual camera is fixed to the shooting posture when the time seek operation is started, and only the shooting position of the virtual camera is the 3D model of the target object reflected in the frame of the designated playback position.
  • the shooting range of the virtual camera Is set to be included in the shooting range of the virtual camera. That is, in FIG. 24, the shooting posture of the virtual camera is fixed, and the shooting position of the virtual camera is that the 3D model of the target object shown in the frame that has become the designated playback position after the start of the time seek operation is the virtual camera. It is set to be included in the shooting range. Therefore, in FIG. 24, the virtual camera moves so as to be pulled backward, that is, in the direction away from the 3D model of the target object.
  • FIG. 25 is a diagram illustrating a fifth setting example of the virtual camera when the virtual camera is set such that the 3D model of the target object reflected in the frame of the designated reproduction position is included in the shooting range of the virtual camera.
  • a strobe model is adopted as the trajectory information. Then, in FIG. 25, for example, the shooting position and shooting attitude of the virtual camera are fixed to the shooting attitude when the time seek operation is started, and only the angle of view (FOV (Field Of View)) of the virtual camera is specified.
  • the 3D model of the target object reflected in the frame at the playback position is set to be included in the shooting range of the virtual camera.
  • the angle of view of the virtual camera widens with the time seek operation.
  • the reproducing device 23 generates the trajectory information according to the time seek operation, displays the trajectory image corresponding to the trajectory information, and displays the trajectory image at the frame of the designated reproduction position.
  • the virtual camera is set so that the 3D model of the target object to be reflected is included in the shooting range of the virtual camera.
  • the user does not need to perform an operation or change the viewpoint so that the virtual camera is set such that the target object falls within the shooting range of the virtual camera.
  • the setting of the virtual camera shown in FIGS. 21 to 25 is performed according to the position and orientation of the PC monitor, the smartphone, or the like in which the virtual camera is not set according to the viewpoint of the user. Therefore, it is particularly suitable for applications in which the appearance of objects displayed on a smartphone does not change.
  • the virtual camera setting method when setting the virtual camera so that the 3D model of the target object appearing in the frame of the designated reproduction position is included in the shooting range of the virtual camera is the same as the method described in FIGS.
  • a method combining any two or more of the methods described in FIG. 21 (or FIG. 22), FIG. 23, FIG. 24, and FIG. 25 can be adopted.
  • FIG. 26 is a block diagram showing a configuration example of an embodiment of a computer in which a program for executing the series of processes described above is installed.
  • the program can be recorded in advance in a hard disk 905 or a ROM 903 as a recording medium built in the computer.
  • the program can be stored (recorded) in the removable recording medium 911 driven by the drive 909.
  • Such removable recording medium 911 can be provided as so-called package software.
  • examples of the removable recording medium 911 include a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disc, a DVD (Digital Versatile Disc), a magnetic disc, and a semiconductor memory.
  • the program can be installed in the computer from the removable recording medium 911 as described above, or downloaded to the computer via a communication network or a broadcasting network and installed in the built-in hard disk 905. That is, for example, the program is wirelessly transferred from a download site to a computer via an artificial satellite for digital satellite broadcasting, or wired to a computer via a network such as a LAN (Local Area Network) or the Internet. be able to.
  • a network such as a LAN (Local Area Network) or the Internet.
  • the computer has a built-in CPU (Central Processing Unit) 902, and an input/output interface 910 is connected to the CPU 902 via a bus 901.
  • CPU Central Processing Unit
  • the CPU 902 executes the program stored in the ROM (Read Only Memory) 903 according to the instruction input by the user operating the input unit 907 via the input/output interface 910. .. Alternatively, the CPU 902 loads a program stored in the hard disk 905 into a RAM (Random Access Memory) 904 and executes it.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 902 performs processing according to the above-described flowchart or processing performed by the configuration of the above-described block diagram. Then, the CPU 902 outputs the processing result, for example, from the output unit 906 via the input/output interface 910 or transmitted from the communication unit 908, and further recorded on the hard disk 905, as necessary.
  • the input unit 907 is composed of a keyboard, a mouse, a microphone, and the like.
  • the output unit 906 includes an LCD (Liquid Crystal Display), a speaker, and the like.
  • the processing performed by the computer according to the program does not necessarily have to be performed in time series in the order described as the flowchart. That is, the processing performed by the computer according to the program also includes processing that is executed in parallel or individually (for example, parallel processing or object processing).
  • the program may be processed by one computer (processor) or may be processed by a plurality of computers in a distributed manner. Further, the program may be transferred to a remote computer and executed.
  • the system means a set of a plurality of constituent elements (devices, modules (parts), etc.), and it does not matter whether or not all constituent elements are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. ..
  • the present technology can have a configuration of cloud computing in which one function is shared by a plurality of devices via a network and jointly processes.
  • each step described in the above-mentioned flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • Trajectory information generation that generates trajectory information that represents the trajectory in the three-dimensional space of the object shown in the viewpoint image according to the designation of the reproduction position of the free viewpoint data generated from the viewpoint images captured from the viewpoints Image processing apparatus including a unit.
  • the trajectory information generation unit generates trajectory information representing a trajectory of the object in a section including a designated reproduction position which is the designated reproduction position.
  • the section including the designated reproduction position is a section from a past time to a future time with reference to the designated reproduction position.
  • ⁇ 4> The image processing device according to ⁇ 2> or ⁇ 3>, wherein the trajectory information is a strobe model in which a 3D model of the object shown in a frame of a section including the designated reproduction position is arranged.
  • the trajectory information generation unit performs an effect process on the 3D model arranged in the strobe model.
  • the trajectory information is free-viewpoint data of a curve representing a trajectory of the object reflected in a frame of a section including the designated reproduction position.
  • ⁇ 7> The image processing apparatus according to any one of ⁇ 1> to ⁇ 6>, further including a free viewpoint image generation unit that generates a trajectory image that is a free viewpoint image obtained by capturing the trajectory information with a virtual camera.
  • a free viewpoint image generation unit that generates a trajectory image that is a free viewpoint image obtained by capturing the trajectory information with a virtual camera.
  • the image processing device according to ⁇ 7> further including a virtual camera setting unit that sets the virtual camera.
  • ⁇ 9> The image processing device according to ⁇ 8>, wherein the virtual camera setting unit sets the virtual camera according to a user operation.
  • ⁇ 10> The image processing device according to ⁇ 9>, wherein the virtual camera setting unit sets the position and orientation of the virtual camera according to a user operation.
  • the virtual camera setting unit sets the virtual camera so that the 3D model of the object shown in the frame of the specified reproduction position, which is the specified reproduction position, is included in the shooting range of the virtual camera.
  • ⁇ 12> The image processing device according to ⁇ 8>, wherein the virtual camera setting unit sets the virtual camera so that a position and a posture correspond to a user's viewpoint and line of sight.
  • ⁇ 13> Generating locus information representing a locus in a three-dimensional space of an object shown in the viewpoint image, according to designation of a reproduction position of free viewpoint data generated from a plurality of viewpoint images captured from a plurality of viewpoints. Image processing method.
  • Trajectory information generation for generating trajectory information representing a trajectory in a three-dimensional space of an object shown in the viewpoint image according to designation of a reproduction position of free viewpoint data generated from a plurality of viewpoint images captured from a plurality of viewpoints

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本技術は、自由視点画像を視聴するユーザが所望のオブジェクトを見失うことを抑制することができるようにする画像処理装置、画像処理方法、及び、プログラムに関する。 軌跡情報生成部は、複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報を生成する。本技術は、自由視点画像を視聴する場合に適用することができる。

Description

画像処理装置、画像処理方法、及び、プログラム
 本技術は、画像処理装置、画像処理方法、及び、プログラムに関し、特に、例えば、自由視点画像を視聴するユーザが所望のオブジェクトを見失うことを抑制することができるようにする画像処理装置、画像処理方法、及び、プログラムに関する。
 複数の時刻に撮影されたオブジェクト(被写体)が映るストロボ画像を生成する方法が提案されている(例えば、特許文献1を参照)。ストロボ画像には、複数の時刻のオブジェクトが映るので、オブジェクトの動きや軌跡を、容易に把握することができる。
特開2007-259477号公報
 ところで、近年、仮想視点から3次元空間を見たときの見え方が再現された自由視点画像が注目されている。
 自由視点画像のコンテンツについては、時間シークを行う操作(時間シーク操作)を行うと、自由視点画像を視聴するユーザが所望のオブジェクトを見失うことが予想される。
 本技術は、このような状況に鑑みてなされたものであり、自由視点画像を視聴するユーザが所望のオブジェクトを見失うことを抑制することができるようにするものである。
 本技術の画像処理装置、又は、プログラムは、複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、前記視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報を生成する軌跡情報生成部を備える画像処理装置、又は、そのような画像処理装置として、コンピュータを機能させるためのプログラムである。
 本技術の画像処理方法は、複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、前記視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報を生成することを含む画像処理方法である。
 本技術の画像処理装置、画像処理方法、及び、プログラムにおいては、複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、前記視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報が生成される。
 なお、画像処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
 また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、頒布することができる。
2D画像のコンテンツの再生の例を説明する図である。 自由視点画像のコンテンツの時間シークの例を説明する図である。 本技術を適用した画像処理システムの一実施の形態の構成例を示すブロック図である。 コンテンツサーバ22の構成例を示すブロック図である。 再生装置23の構成例を示すブロック図である。 コンテンツサーバ22が行う処理の例を説明するフローチャートである。 再生装置23が行う自由視点データの再生処理の例を説明するフローチャートである。 軌跡情報としてストロボモデルを採用する場合の、軌跡情報を生成するステップS35の処理の詳細を説明するフローチャートである。 不自然な3Dストロボ画像の例を示す図である。 自然な3Dストロボ画像の例を示す図である。 ストロボ区間の視点画像のフレームの例を示す図である。 ストロボ区間としての時刻t1ないしt9のフレームを用いたストロボモデルの生成の例を示す図である。 仮想カメラによるストロボモデルの撮影により生成される3Dストロボ画像の表示の例を示す図である。 ストロボモデルに配置される3Dモデルに対して行うエフェクト処理を説明する図である。 エフェクト処理の具体例を説明する図である。 軌跡情報として、ストロボモデルを採用する場合の、時間シーク操作が行われたときのストロボモデルの生成の例を説明する図である。 時間シーク操作が行われた場合に、ストロボモデルを生成して3Dストロボ画像を表示する場合の仮想カメラの状態の変化の例を説明する図である。 軌跡情報として、線データを採用する場合の、時間シーク操作が行われたときの線データの生成の例を説明する図である。 軌跡情報としてのストロボモデルに配置された3Dモデルに行うエフェクト処理の例を説明する図である。 再生装置23が行う自由視点データの再生処理の他の例を説明するフローチャートである。 指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第1の設定例を説明する図である。 指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第2の設定例を説明する図である。 指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第3の設定例を説明する図である。 指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第4の設定例を説明する図である。 指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第5の設定例を説明する図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 <2D画像のコンテンツの再生>
 図1は、2D画像のコンテンツの再生の例を説明する図である。
 すなわち、図1は、2D(Dimensional)画像のコンテンツを再生するプレーヤの例を示している。
 プレーヤは、2D画像を表示する表示部11と、時間シークを行うためのGUI(Graphical User Interface)としてのシークバー12とを有する。時間シークとは、再生位置(時刻)を指定する方法の1つである。
 シークバー12は、再生位置を表すスライダ13を有し、シークバー12におけるスライダ13の位置が、再生位置を表す。シークバー12において、左端は、コンテンツの先頭を表し、右端は、コンテンツの終わりを表す。例えば、コンテンツが通常再生されている場合、その通常再生の再生位置の移動に従って、スライダ13は、左から右に移動していく。
 ユーザは、時間シーク操作として、シークバー12(のスライダ13)の操作を行い、再生位置を指定することができる。すなわち、ユーザが、時間シーク操作としてのシークバー12の操作を行い、スライダ13の位置が移動されると、そのスライダ13の移動後の位置に対応する再生位置(フレーム)の2D画像が再生される(表示部11に表示される)。
 したがって、ユーザは、時間シーク操作としてのシークバー12の操作を行うことで、シークバー12の操作により移動するスライダ13の位置に対応する再生位置の2D画像を見ながら(かつ、音を聞きながら)、所望のシーンを、容易に探し出すことができる。
 図1では、サッカーの試合が映る2D画像のコンテンツについて、ユーザが時間シーク操作としてシークバー12を操作している間、その時のシークバー操作に対応する時刻の画像が表示されていく。例えばそのカメラがある選手を追い続けたものであるならば、ユーザは当然その選手を画像で見続けることができ見失うことはない。
 なお、時間シーク操作は、シークバー12の操作の他、早送り再生や巻き戻し再生(逆再生)を指示する操作、チャプタジャンプを指示する操作等によって行うことができる。
 <自由視点画像の時間シーク>
 図2は、自由視点画像のコンテンツの時間シークの例を説明する図である。
 ここで、近年、インターネットを介した画像(動画)の配信が一般的になり、画像を視聴する方法については、TV(Television)受像機や映画館でのスクリーンを用いた方法の他、PC(Personal Computer)のブラウザや、スマートフォン、タブレット等を用いた方法等のように、多様性を増してきている。
 また、コンテンツとしては、アスペクト比が16:9 や4:3の2D画像(動画)のコンテンツの他、自由視点データのコンテンツが登場している。
 自由視点データは、3次元空間の3次元構造を表現するデータであり、自由視点データによれば、所定の視点から3次元空間の被写体であるオブジェクトを見たときに見える画像、すなわち、所定の視点からオブジェクトを見たときの視線方向に垂直な投影面に、自由視点データにより表現される3次元空間内のビューイングボリューム(又はビューボリューム)を投影して得られる2D画像を生成することができる。この2D画像は、視点を自由に設定して生成することができるので、自由視点画像と呼ぶことができる。自由視点画像の生成にあたって必要となる視点(視線(方向)を含む)は、ユーザの実際の視点に関係なく仮想的に設定することができるので、かかる視点を、仮想視点ともいう。
 自由視点画像(動画)は、PCのモニタやスマートフォン等といった2次元平面形状のディスプレイで表示することができる。
 また、自由視点画像は、ヘッドマウントディスプレイ(HMD)で表示することができる。この場合、ヘッドトラッキング技術により、あたかも3次元空間の中に存在するかのような立体視を実現することができる。
 さらに、自由視点画像は、AR(Augmented Reality)グラス等の、透明で向こう側が透けて見えるディスプレイを使ったヘッドアップディスプレイ(HUD)で表示することができる。この場合、ユーザが実際に存在する3次元空間に、他の3次元空間で撮影された人物や物体等のオブジェクトを重畳して表示することができる。
 自由視点データは、2D画像と同様に、時間方向の自由度を有する他に、仮想視点、すなわち、自由視点データ(によって表現される3次元空間)を撮影する仮想カメラの撮影位置及び撮影姿勢(撮影方向)の自由度を有する。仮想カメラの撮影位置は、例えば、ワールド座標系としてのxyz座標系の座標等で表すことができ、仮想カメラの撮影姿勢は、ワールド座標系の各軸回りの回転角等で表すことができる。仮想カメラの撮影位置については、x軸、y軸、及び、z軸の方向への移動が可能であり、仮想カメラの撮影姿勢については、x軸、y軸、及び、z軸回りの回転が可能であるから、仮想カメラの撮影位置及び撮影姿勢には、6DoF(Degree of Freedom)の自由度がある。したがって、自由視点データについては、時間方向の1個の自由度と、仮想カメラの撮影位置及び撮影姿勢(仮想視点)の6個の自由度との、合計で7個の自由度がある。
 ここで、仮想視点に対する投影面に、自由視点データ(により表現される3次元空間内のビューイングボリューム)を投影することにより生成される自由視点画像としては、あたかも、仮想視点から、仮想的なカメラで、自由視点データの撮影を行ったかのような2D画像を得ることができる。したがって、仮想視点に対する投影面に、自由視点データを投影することは、仮想視点から、仮想的なカメラで、自由視点データを撮影することに相当する、ということができる。すなわち、仮想視点に対する投影面に、自由視点データを投影して、自由視点画像を生成することは、仮想視点に配置された仮想的なカメラで、自由視点データを撮影することと捉えることができる。そこで、本実施の形態では、自由視点画像の生成を、仮想的なカメラでの自由視点データの撮影と捉えて、適宜、説明を行う。また、自由視点データを撮影する仮想的なカメラを、仮想カメラともいう。
 仮想カメラの撮影位置及び撮影姿勢は、ユーザが、ジョイスティック、その他の位置及び姿勢をコントロールするコントローラ(デバイス)を操作することにより設定することができる。
 また、自由視点データの視聴に、HMDやHUDが用いられる場合、仮想カメラの撮影位置及び撮影姿勢は、HMDやHUDで検出されるユーザの視点及び視線(方向)に対応するように設定することができる。
 2D画像のコンテンツについては、時間方向の1個の自由度しかないが、自由視点データのコンテンツについては、時間方向の1個の自由度と、仮想カメラの撮影位置及び撮影姿勢(仮想視点)の6個の自由度との7個の自由度がある。
 したがって、自由視点データのコンテンツについて、時間シーク操作を行うと、ユーザは、2D画像のコンテンツの場合よりも、所望のオブジェクトを見失う可能性が高くなる。
 具体的には、自由視点データのコンテンツについては、自由視点データにより表現される3次元空間、すなわち、自由視点データを得るのに(複数の)カメラで撮影された3次元空間である撮影空間を仮想カメラで撮影した2D画像が、自由視点画像として表示される。
 そして、自由視点データのコンテンツについては、現在の再生位置(時刻)において、ある撮影位置及び撮影姿勢の仮想カメラの撮影範囲に入っているオブジェクトが、他の再生位置でも、仮想カメラの撮影範囲に入るとは限らない。
 図2では、現在の再生位置より過去の再生位置に時間シークを行う時間シーク操作が行われている。さらに、図2では、現在の再生位置において仮想カメラの撮影範囲に入っているオブジェクトが、過去の再生位置では、現在の再生位置における仮想カメラの撮影範囲からはずれている。
 この場合、現在の再生位置では、撮影空間を仮想カメラで撮影した2D画像には、オブジェクトが映るが、過去の再生位置(時間シーク操作後の再生位置)では、撮影空間を仮想カメラで撮影した2D画像には、オブジェクトが映らない。
 このため、ユーザは、過去の再生位置への時間シーク操作を行うと、オブジェクトを見失う。
 例えば、自由視点データのコンテンツが、サッカーの試合のコンテンツである場合において、図1で説明したように、ユーザが、ゴールを決めたサッカー選手がどこから走ってきてどのようにパスを受けシュートをしたのかを確認するために、ゴールを決めたシーンが映る再生位置から、過去方向に時間シークを行う時間シーク操作を行ったときには、時間シーク操作後の再生位置において、ゴールを決めたサッカー選手が、ゴールを決めたシーンが映る再生位置における仮想カメラの撮影範囲に入っていないと、ユーザは、ゴールを決めたサッカー選手を見失う。
 そこで、本技術では、時間シーク操作等による自由視点データの再生位置の指定に応じて、オブジェクトの3次元空間内の軌跡を表す軌跡情報を生成する。この軌跡情報を仮想カメラで撮影した自由視点画像である軌跡画像を表示することで、自由視点画像を視聴するユーザが所望のオブジェクトを見失うことを抑制することができる。
 <本技術を適用した画像処理システムの一実施の形態>
 図3は、本技術を適用した画像処理システムの一実施の形態の構成例を示すブロック図である。
 図3の画像処理システムは、撮影装置21、コンテンツサーバ22、及び、再生装置23を有する。
 撮影装置21は、少なくとも複数のカメラで構成され、複数の視点から、オブジェクトの撮影を行う。例えば、撮影装置21を構成する複数のカメラは、オブジェクトを囲むように配置され、各カメラは、そのカメラが配置された位置としての視点から、オブジェクトを撮影する。各カメラにより、そのカメラの位置から撮影された2D画像、すなわち、複数の視点から撮影された2D画像である複数の視点の視点画像(の動画)は、フレーム単位で、撮影装置21からコンテンツサーバ22に供給される。
 ここで、撮影装置21には、複数のカメラの他、複数の測距装置を設けることができる。測距装置は、カメラと同一の位置(視点)に配置することもできるし、カメラと異なる位置に配置することもできる。測距装置は、その測距装置が配置された位置(視点)から、オブジェクトまでの距離を測定し、その距離に関する情報であるデプスを画素値とする2D画像であるデプス画像を生成する。デプス画像は、撮影装置21からコンテンツサーバ22に供給される。
 なお、撮影装置21に、測距装置が設けられていない場合には、複数の視点の視点画像のうちの2視点の視点画像を用いて、三角測量の原理により、オブジェクトまでの距離を測定し、デプス画像を生成することができる。
 コンテンツサーバ22は、例えば、webサーバやクラウド上のサーバである。コンテンツサーバ22は、例えば、撮影装置21から供給される複数の視点の視点画像等を用いて、自由視点データのコンテンツ(動画コンテンツ)を生成する。コンテンツサーバ22は、再生装置23からの要求に応じて、自由視点データのコンテンツを、再生装置23に送信する。
 再生装置23は、例えば、PC(Personal Computer)や、TV(テレビジョン受像機)、スマートフォン等の携帯端末等のクライアントである。再生装置23は、コンテンツサーバ22に対して、自由視点データのコンテンツを要求して取得する。再生装置23は、コンテンツサーバ22から取得した自由視点データのコンテンツを再生する。すなわち、再生装置23は、仮想カメラで自由視点データを撮影した自由視点画像としての2D画像を生成して表示する。
 また、再生装置23は、(再生装置23の)ユーザの時間シーク操作等による自由視点データの再生位置の指定に応じて、視点画像に映る所定オブジェクトの撮影空間(3次元空間)内の軌跡を表す軌跡情報を生成する。さらに、再生装置23は、軌跡情報を仮想カメラで撮影した軌跡画像としての2D画像(自由視点画像)を生成して表示する。
 ここで、軌跡情報としては、例えば、ストロボモデルを採用することができる。ストロボモデルとは、撮影装置21で撮影された3次元空間としての撮影空間(の3Dモデル)に、視点画像の複数のフレーム(時刻)の同一のオブジェクト(被写体)の3Dモデルが配置されたモデルであり、自由視点データを用いて生成することができる。
 なお、コンテンツサーバ22及び再生装置23は、図3に示したように、それぞれを別個の装置として構成することもできるし、全体を1個の装置(例えば、PC(Personal Computer)等)として構成することもできる。さらに、コンテンツサーバ22は、全体を複数の装置で構成することができる。再生装置23も同様である。
<コンテンツサーバ22の構成例>
 図4は、図3のコンテンツサーバ22の構成例を示すブロック図である。
 コンテンツサーバ22は、自由視点データ生成部31、記憶部32、及び、通信部33を有する。
 自由視点データ生成部31は、撮影装置21からの複数の視点の視点画像とデプス画像とから、自由視点データを、フレーム単位で生成することにより、自由視点データのコンテンツを生成する。
 ここでは、自由視点データとは、広く、自由視点画像を生成することができる3D画像のデータ(3Dデータ)を意味する。自由視点データとしては、例えば、撮影装置21からの複数の視点の視点画像とデプス画像とのセットを、そのまま採用することができる。また、自由視点データとしては、その他、例えば、3次元の形状の情報である3D形状モデルと色の情報とを有する3Dデータや、複数の視点の2D画像とデプス画像とのセットを採用することができる。
 自由視点データとして、撮影装置21からの複数の視点の視点画像とデプス画像とのセットを採用する場合、自由視点データ生成部31は、撮影装置21からの複数の視点の視点画像とデプス画像とのセットを、そのまま、自由視点データとする。なお、撮影装置21からのデプス画像の視点が、撮影装置21からの視点画像の視点と異なる場合、自由視点データ生成部31は、撮影装置21からの複数の視点のデプス画像を用いて、撮影装置21からの視点画像の視点のデプス画像を生成することができる。
 自由視点データとして、3D形状モデルと色の情報とを有する3Dデータを採用する場合、自由視点データ生成部31は、撮影装置21からの複数の視点の視点画像を用いて、Visual Hull等によりモデリングを行って、視点画像に映るオブジェクトの3D形状モデル等を生成し、テクスチャとなる複数の視点の視点画像とともに、自由視点データとする。
 自由視点データとして、複数の視点の2D画像とデプス画像とのセットを採用する場合、自由視点データ生成部31は、例えば、上述したように、3D形状モデルと色の情報とを有する3Dデータを生成し、その3Dデータを、複数の視点(撮影装置21を構成するカメラと同一の視点でも良いし、異なる視点でも良い)から見た2D画像とデプス画像とのセットを、自由視点データとして生成する。
 自由視点データ生成部31は、以上のようにして、自由視点データのコンテンツを生成し、記憶部32に供給する。
 なお、自由視点データとしては、3D形状モデルを有する3Dデータよりも、複数の視点の2D画像とデプス画像とのセットを採用することにより、自由視点データのデータ量を少なくすることができる。自由視点データとして、複数の視点の2D画像とデプス画像とのセットを生成して伝送する技術については、本出願人が先に提案した国際公開2017/082076号に記載されている。自由視点データとしての複数の視点の2D画像とデプス画像とのセットは、例えば、MVCD(Multiview and depth video coding)や、AVC(Advanced Video Coding)、HEVC(High Efficiency Video Coding)等の2D画像を対象とする符号化方式により符号化することができる。
 ここで、自由視点データ(の表現形式)には、View Independentと呼ばれる3Dモデル(以下、VIモデルともいう)と、View Dependentと呼ばれる3Dモデル(以下、VDモデルともいう)とがある。
 VDモデルは、例えば、3D形状モデル等の3次元の形状に関する情報と、テクスチャとなる画像の情報とが別になっている3Dデータである。VDモデルでは、3D形状モデルに、テクスチャとなる画像がマッピング(テクスチャマッピング)されることにより、色が付される。VDモデルによれば、(仮想)視点によって異なるオブジェクトの表面の反射の具合等を表現することができる。VDモデルは、見えが視点に依存するので、View Dependentと呼ばれる。
 VIモデルは、例えば、3次元の形状に関する情報の構成要素としてのポリゴンや点が、色の情報を有している3Dデータ等である。VIモデルとしては、例えば、色付きのポイントクラウドや、3D形状モデルと、3D形状モデルの色の情報としてのUVマップとのセットがある。VIモデルによれば、どの(仮想)視点から見ても、ポリゴンや点が有する色が観測される。VIモデルは、見えが視点に依存しないので、View Independentと呼ばれる。
 記憶部32は、自由視点データ生成部31からの自由視点データのコンテンツを記憶する。
 通信部33は、再生装置23との間で通信を行う。すなわち、通信部33は、例えば、再生装置23からの要求に応じて、記憶部32に記憶された自由視点データのコンテンツを、再生装置23に送信する。
 なお、自由視点データ生成部31は、再生装置23に設けることができる。
 <再生装置23の構成例>
 図5は、図3の再生装置23の構成例を示すブロック図である。
 再生装置23は、通信部41、記憶部42、自由視点画像生成部43、表示部44、仮想カメラ設定部45、操作部46、及び、軌跡情報生成部47を有する。
 通信部41は、コンテンツサーバ22との間で通信を行う。すなわち、通信部41は、例えば、操作部46の操作に応じて、自由視点データのコンテンツの要求を送信する。また、通信部41は、その要求に応じて、コンテンツサーバ22から送信されてくる自由視点データのコンテンツを受信し、記憶部42に供給する。
 記憶部42は、通信部41からの自由視点データのコンテンツを記憶する。
 自由視点画像生成部43は、記憶部42に記憶された自由視点データ(によって表現される3次元空間)を、仮想カメラ設定部45から供給されるカメラ情報が表す(状態の)仮想カメラで撮影した2D画像(仮想カメラで撮影することにより得られる2D画像)(左目用の2D画像及び右目用の2D画像のセットを含む)等を、自由視点画像(のデータ)として生成(レンダリング)し、表示部44に供給する。
 また、自由視点画像生成部43は、軌跡情報生成部47から供給される軌跡情報としての自由視点データを、仮想カメラ設定部45から供給されるカメラ情報が表す仮想カメラで撮影した2D画像である軌跡画像としての自由視点画像を生成し、表示部44に供給する。
 表示部44は、自由視点画像生成部43からの自由視点画像等を表示する。
 表示部44は、例えば、2DのHMD/HUDや、2Dのモニタ、3DのHMD/HUD、3Dのモニタ等で構成することができる。3DのHMD/HUDやモニタは、例えば、左目用の2D画像及び右目用の2D画像を表示することにより立体視を実現する表示装置である。
 仮想カメラ設定部45は、自由視点データ(記憶部42に記憶された自由視点データ、及び、軌跡情報生成部47で生成された軌跡情報としての自由視点データ)を撮影するときの仮想カメラの状態を設定し、その設定内容を表すカメラ情報を、自由視点画像生成部43に供給する。
 例えば、仮想カメラ設定部45は、ユーザの操作に応じて、仮想カメラの撮影位置、撮影姿勢、画角(焦点距離)、ズーム倍率等の仮想カメラの状態を設定する。
 ここで、表示部44が、例えば、HMDやHUDである場合には、仮想カメラ設定部45は、HMDやHUDで検出されるユーザの視点及び視線に応じて、そのユーザの視点及び視線に対応するように、仮想カメラの撮影位置及び撮影姿勢を設定することができる。
 また、再生装置23が、例えば、スマートフォンやタブレット等の携帯端末である場合には、携帯端末の位置及び姿勢に応じて、その位置及び姿勢に対応するように、仮想カメラの撮影位置及び撮影姿勢を設定することができる。
 操作部46は、ユーザによって操作され、ユーザの操作に応じた操作情報を、必要なブロックに供給する。なお、操作部46は、例えば、タッチパネル等によって、表示部44と一体的に構成することができる。また、操作部46は、表示部44とは別個のマウスやコントローラ等として構成することもできる。ユーザの操作部46の操作としては、例えば、仮想カメラを設定する操作や、時間シーク操作等を行うことができる。
 軌跡情報生成部47は、ユーザによる自由視点データの再生位置の指定、すなわち、例えば、ユーザによる時間シーク操作に応じて、視点画像(ひいては自由視点画像)に映る所定のオブジェクトの軌跡を表す軌跡情報を生成する。軌跡情報としては、オブジェクトの軌跡を表す曲線(直線を含む)の自由視点データ(以下、線データともいう)や、ストロボモデルを採用することができる。
 軌跡情報としての線データとしては、例えば、ユーザによる時間シーク操作によって指定される再生位置(以下、指定再生位置ともいう)を含む区間、例えば、指定再生位置を基準として、所定の第1の時間Δt1だけ過去の時刻t1から、所定の第2の時間Δt2だけ未来の時刻t2までの区間の(フレームに映る)所定のオブジェクトの軌跡を表す曲線の自由視点データを採用することができる。
 軌跡情報としてのストロボモデルとしては、例えば、指定再生位置を含む区間、例えば、指定再生位置を基準とする、上述のような時刻t1から時刻t2までの区間の所定のオブジェクトの3Dモデルが配置されたストロボモデルを採用することができる。
 軌跡情報生成部47は、ユーザによる時間シーク操作に応じて、自由視点データとしての軌跡情報を生成し、自由視点画像生成部43に供給する。
 自由視点画像生成部43は、軌跡情報生成部47から軌跡情報が供給されると、その軌跡情報としての線データやストロボモデルを、仮想カメラ設定部45からのカメラ情報が表す仮想カメラで撮影した自由視点画像としての軌跡画像を生成する。そして、自由視点画像生成部43は、記憶部32に記憶された自由視点データから生成された自由視点画像に代えて、軌跡情報から生成された軌跡画像を、表示部44に供給するか、又は、記憶部32に記憶された自由視点データから生成された自由視点画像に、軌跡情報から生成された軌跡画像を重畳して、表示部44に供給する。これにより、表示部44では、ユーザにより時間シーク操作が行われている間、軌跡情報から生成された軌跡画像が表示される。
 なお、軌跡情報として、ストロボモデルを採用する場合には、自由視点画像生成部43では、軌跡情報としてのストロボモデルを、仮想カメラ設定部45からのカメラ情報が表す仮想カメラで撮影した2D画像である3Dストロボ画像を、軌跡画像として生成し、表示部44に供給する。
 ここで、ストロボ画像とは、複数の時刻に撮影された1つ以上の同一のオブジェクト(像)が映る画像である。2D画像に映るオブジェクトが映るストロボ画像を、2Dストロボ画像ともいい、オブジェクトの3Dモデルが映る2D画像、すなわち、ストロボモデルを仮想視点から見た2D画像(仮想カメラで撮影した2D画像)を、3Dストロボ画像ともいう。軌跡情報として、ストロボモデルを採用する場合、自由視点画像生成部43では、3Dストロボ画像が生成される。
 軌跡情報として、ストロボモデルを採用する場合、軌跡情報生成部47は、自由視点データ生成部31からの自由視点データを用い、視点画像に映る3次元空間である撮影空間(の3Dモデル)に、視点画像の複数のフレーム(異なる時刻)の同一のオブジェクトの自由視点データである3Dモデルが配置されたストロボモデルを生成する。
 すなわち、軌跡情報生成部47は、ストロボモデルを生成する対象のフレームの区間であるストロボ区間を設定し、そのストロボ区間のフレームから、ストロボモデルの生成に用いるフレーム(以下、生成フレームともいう)を選択する。また、軌跡情報生成部47は、生成フレームに映るオブジェクトのうちの1以上のオブジェクトを、軌跡情報を生成する対象のオブジェクト(以下、対象オブジェクトともいう)に設定する。そして、軌跡情報生成部47は、生成フレームに映る対象オブジェクトの3Dモデルが配置されたストロボモデルを生成する。
 なお、軌跡情報生成部47では、例えば、生成フレームに映る、動いているオブジェクトのすべてを、対象オブジェクトに設定することができる。
 また、軌跡情報生成部47では、例えば、生成フレームに映るオブジェクトのうちのユーザによって指定されたオブジェクトを、対象オブジェクトに設定することができる。ユーザは、操作部46の操作等によって、対象オブジェクト(となるオブジェクト)を指定する他、視線によって、対象オブジェクトを指定することができる。
 ここで、再生装置23は、外部との通信を行う機能、画像を表示する機能、及び、ユーザの操作を受け付ける機能を、少なくとも有していればよい。図5において、その他の機能、例えば、自由視点画像生成部43や、仮想カメラ設定部45、及び、軌跡情報生成部47によって実現される機能は、例えば、コンテンツサーバ22や、クラウド上のサーバに設けることができる。
 <コンテンツサーバ22の処理>
 図6は、図4のコンテンツサーバ22が行う処理の例を説明するフローチャートである。
 ステップS11において、コンテンツサーバ22は、撮影装置21で撮影された複数の視点の視点画像(及びデプス画像)をフレーム単位で得る。コンテンツサーバ22は、複数の視点の視点画像を、自由視点データ生成部31に供給し、処理は、ステップS11からステップS12に進む。なお、撮影装置21で撮影された複数の視点の視点画像は、再生装置23を経て、再生装置23からコンテンツサーバ22に送信することができる。
 ステップS12では、自由視点データ生成部31は、複数の視点の視点画像等を用いて、自由視点データを、フレーム単位で生成し、記憶部32に供給する。記憶部32は、自由視点データ生成部31からのフレーム単位の自由視点データで構成されるコンテンツ(自由視点データのコンテンツ)を記憶する。その後、処理は、ステップS12からステップS13に進む。
 ステップS13では、通信部33は、例えば、再生装置23からの要求に応じて、記憶部32に記憶された自由視点データのコンテンツを、再生装置23に送信し、処理は終了する。
 <再生装置23の処理>
 図7は、図5の再生装置23が行う自由視点データの再生処理の例を説明するフローチャートである。
 ステップS31において、通信部41は、例えば、ユーザの操作に応じて、自由視点データのコンテンツを、コンテンツサーバ22に要求し、処理は、ステップS32に進む。
 ステップS32では、通信部41は、コンテンツサーバ22から、自由視点データのコンテンツが送信されてくるのを待って、その自由視点データのコンテンツを受信する。通信部41は、コンテンツサーバ22からの自由視点データのコンテンツを、記憶部42に供給して記憶させ、処理は、ステップS32からステップS33に進む。
 ステップS33では、再生装置23は、記憶部42に記憶された自由視点データのコンテンツを再生し、処理は、ステップS34に進む。
 すなわち、再生装置23では、仮想カメラ設定部45が、仮想カメラ(の状態)を設定し、自由視点画像生成部43は、仮想カメラ設定部45で設定された仮想カメラで自由視点データを撮影した自由視点画像をレンダリングすることにより生成する。そして、自由視点画像生成部43は、自由視点画像を、表示部44に供給して表示させる。
 ステップS34では、軌跡情報生成部47は、ユーザによる時間シーク操作が開始されたかどうかを判定する。
 ステップS34において、時間シーク操作が開始されていないと判定された場合、処理は、ステップS33に戻り、記憶部42に記憶された自由視点データのコンテンツの再生が続行される。
 また、ステップS34において、時間シーク操作が開始されたと判定された場合、処理は、ステップS35に進む。
 ステップS35では、軌跡情報生成部47は、時間シーク操作により指定された指定再生位置を基準とする軌跡情報を生成し、自由視点画像生成部43に供給して、処理は、ステップS36に進む。
 すなわち、軌跡情報生成部47は、指定再生位置を基準として、所定の第1の時間Δt1だけ過去の時刻t1から、所定の第2の時間Δt2だけ未来の時刻t2までの区間の所定のオブジェクトの軌跡を表す軌跡情報(自由視点データ)を生成する。
 ステップS36では、自由視点画像生成部43は、軌跡情報生成部47からの軌跡情報を、仮想カメラ設定部45で設定された仮想カメラで撮影した軌跡画像を生成し、表示部44に供給して表示させ、処理は、ステップS37に進む。
 ステップS37では、軌跡情報生成部47は、ユーザによる時間シーク操作が終了されたかどうかを判定する。
 ステップS37において、時間シーク操作が終了されていないと判定された場合、処理は、ステップS35に戻り、以下、同様の処理が繰り返される。
 また、ステップS37において、時間シーク操作が終了されたと判定された場合、処理は、ステップS33に戻り、時間シーク操作が終了されたときに指定された指定再生位置から、記憶部42に記憶された自由視点データのコンテンツが再生される。
 なお、時間シーク操作が行われている間、すなわち、ステップS35ないしS37の処理が行われている間、記憶部42に記憶された自由視点データのコンテンツについては、時間シーク操作により指定されている指定再生位置の自由視点データを再生することができる。
 図8は、軌跡情報としてストロボモデルを採用する場合の、軌跡情報を生成するステップS35の処理の詳細を説明するフローチャートである。
 ステップS51において、軌跡情報生成部47は、ストロボモデルを生成する対象のフレームの区間であるストロボ区間を設定し、処理は、ステップS52に進む。
 例えば、軌跡情報生成部47は、時間シーク操作により指定された指定再生位置を基準として、所定の第1の時間Δt1だけ過去の時刻t1から、所定の第2の時間Δt2だけ未来の時刻t2までの区間を、ストロボ区間に設定する。第1の時間Δt1と第2の時間Δt2とは、同一の時間であってもよいし、異なる時間であってもよい。
 ステップS52では、軌跡情報生成部47は、視点画像に映るオブジェクトから、ストロボモデルに3Dモデルを配置する対象の対象オブジェクトを設定し、処理は、ステップS53に進む。
 例えば、ストロボ区間のフレームに映るオブジェクトのすべてや、ユーザの操作や視線に応じて指定されるオブジェクト等が、対象オブジェクトに設定される。
 ステップS53では、軌跡情報生成部47は、ストロボ区間のフレームから、ストロボモデルの生成に用いる生成フレームを選択し、処理は、ステップS54に進む。
 ここで、ストロボ区間の全フレームを生成フレームとして、ストロボモデルの生成に用いると、ストロボモデルには、ストロボ区間のフレーム数と同一の数の、同一のオブジェクトの3Dモデルが重なって配置され、3Dストロボ画像が見にくい画像となることがある。
 そこで、軌跡情報生成部47は、ストロボ区間のフレームから、幾つかのフレームを生成フレームとして選択し、その生成フレーム(に映るオブジェクトの3Dモデル)を用いて、ストロボモデルを生成することができる。
 軌跡情報生成部47は、例えば、ストロボ区間のフレームから、3Dモデルの干渉度が閾値以下となるフレームを、生成フレームとして選択することができる。すなわち、軌跡情報生成部47は、ストロボ区間のフレームに映る対象オブジェクトの3Dモデルを、3次元空間に配置した状態での、3Dモデルどうしの重なり具合を表す干渉度を算出する。干渉度は、例えば、3次元空間において、任意の2フレームの3Dモデルが完全に重なる場合を100%とするとともに、まったく重ならない場合を0%として算出される。そして、軌跡情報生成部47は、干渉度が所定の閾値以下のフレームを、生成フレームとして選択する。以上のように、ストロボ区間のフレームから、3Dモデルの干渉度が閾値以下となるフレームを、生成フレームとして選択し、その生成フレームに映る対象オブジェクトの3Dモデルが配置されたストロボモデルを生成することにより、ストロボモデルにおいて、3Dモデルが重なって配置され、3Dストロボ画像が見にくい画像となることを抑制することができる。
 なお、生成フレームの選択では、その他、例えば、単純に、ストロボ区間のフレームを、所定のフレーム数ごとに、生成フレームとして選択することができる。また、生成フレームの選択では、ストロボ区間のフレームすべてを、生成フレームとして選択することができる。
 ステップS54では、軌跡情報生成部47は、記憶部42に記憶された自由視点データを用い、ストロボ区間のフレームから選択された複数の生成フレームに映る対象オブジェクトの3Dモデルが、その対象オブジェクトが撮影されたときの撮影空間としての背景(の3Dモデル)に配置されたストロボモデルを生成する。そして、軌跡情報としてのストロボモデルの生成の処理は終了する。
 <3Dストロボ画像の生成>
 図9は、不自然な3Dストロボ画像の例を示す図である。
 図9は、手前側から奥側にオブジェクトとしてのボールが転がっている様子を撮影した視点画像のフレームのうちの5フレームを生成フレームとして用いて生成されたストロボモデルから生成された3Dストロボ画像の例を示している。
 図9では、5フレームの生成フレームに映るボールの3Dモデルが、時間的に後の3Dモデルを優先するように配置(レンダリング)されている。そのため、時間的に後の(ボールの)3Dモデルが、奥側に位置するのにもかかわらず、時間的に前の手前側の3Dモデルを隠すように配置されている。その結果、図9の3Dストロボ画像は、不自然な画像になっている。
 図10は、自然な3Dストロボ画像の例を示す図である。
 図10は、手前側から奥側にオブジェクトとしてのボールが転がっている様子を撮影した視点画像のフレームのうちの5フレームを生成フレームとして用いて生成されたストロボモデルから生成された3Dストロボ画像の例を示している。
 図10では、5フレームの生成フレームに映るボールの3Dモデルが、手前側の3Dモデルを優先するように配置されている。そのため、手前側の3Dモデルが奥側の3Dモデルを隠すように、すなわち、手前側の3Dモデルが優先的に映るように配置されている。その結果、自由視点画像は、自然な画像になっている。
 自由視点画像生成部43は、ストロボモデルに配置された各オブジェクトの3Dモデルのデプス(奥行)を用いて、以上のような、手前側のオブジェクトの3Dモデルが優先的に映る3Dストロボ画像を生成する(仮想カメラにより撮影する)。
 図11は、ストロボ区間の視点画像のフレームの例を示す図である。
 図11では、時刻t1ないしt9の9フレームが、ストロボ区間の視点画像のフレームになっている。時刻t1ないしt9のフレームには、オブジェクトとしてのボールが左から右に転がっていく様子が映っている。図11では、図が煩雑になるのを避けるため、ある1視点の視点画像のフレームを図示してある。
 図12は、ストロボ区間としての時刻t1ないしt9のフレームを用いたストロボモデルの生成の例を示す図である。
 図12では、ストロボ区間としての時刻t1ないしt9のフレームのうちの、時刻t1,t3,t5,t7、及び、t9のフレームが生成フレームに選択され、複数の視点の視点画像の生成フレームとしての時刻t1,t3,t5,t7、及び、t9のフレームに映るオブジェクトとしてのボールの3Dモデルが配置されたストロボモデルが生成される。
 図13は、仮想カメラによるストロボモデルの撮影により生成される3Dストロボ画像の表示の例を示す図である。
 3Dストロボ画像としては、時刻t1,t3,t5,t7、及び、t9のフレームに映るオブジェクトとしてのボールの3Dモデルが映るフレームを生成して表示することができる。また、3Dストロボ画像としては、図12のストロボモデルから、時刻t1のフレームに映るオブジェクトとしてのボールの3Dモデルが映るフレーム、時刻t1及びt3のフレームに映るオブジェクトとしてのボールの3Dモデルが映るフレーム、時刻t1,t3、及び、t5のフレームに映るオブジェクトとしてのボールの3Dモデルが映るフレーム、時刻t1,t3,t5、及び、t7のフレームに映るオブジェクトとしてのボールの3Dモデルが映るフレーム、並びに、時刻t1,t3,t5,t7、及び、t9のフレームに映るオブジェクトとしてのボールの3Dモデルが映るフレームを生成し、順次表示することができる。
 図13の3Dストロボ画像では、ストロボモデルを撮影する仮想カメラの撮影位置等が変更されていないが、仮想カメラの撮影位置等は、変更することができる。例えば、時刻t1,t3,t5,t7、及び、t9のフレームに映るオブジェクトとしてのボールの3Dモデルが配置されたストロボモデルを、撮影位置を変更しながら、仮想カメラで撮影することができる。撮影位置が変更される場合には、ストロボモデルを見る視点が変更され、カメラアングルが変化する3Dストロボ画像が表示される。
 <エフェクト処理>
 図14は、ストロボモデルに配置される3Dモデルに対して行うエフェクト処理を説明する図である。
 軌跡情報生成部47は、ストロボモデルに配置される3Dモデルにエフェクト処理を行うことができる。エフェクト処理は、ストロボモデルに配置される3Dモデルのうちの、最新又は最古の時刻の3Dモデルや、ユーザの操作に応じて指定された3Dモデル等を、エフェクト処理を行う基準の基準3Dモデルとして、基準3Dモデルや、基準3Dモデルより過去及び未来のうちの一方又は両方の3Dモデルに行うことができる。
 なお、ここでは、説明を分かりやすくするために、ストロボモデルを生成し、その後、ストロボモデルに配置された3Dモデルにエフェクト処理を行うことする。但し、ストロボモデルの生成と、そのストロボモデルに配置される3Dモデルに対するエフェクト処理とは、並列的に、又は、適宜順番を前後して行うことができる。例えば、3Dモデルに対するエフェクト処理を行った後に、そのエフェクト処理後の3Dモデルが配置されたストロボモデルを生成することができる。
 図14は、ストロボモデルにおいて、エフェクト処理の対象となる3Dモデルを説明する図である。
 エフェクト処理は、ストロボモデルにおいて、ストロボ区間のフレームから選択された複数の時刻としての複数の生成フレームの3Dモデルのうちの、基準3Dモデルや、基準3Dモデルより過去及び未来のうちの一方又は両方の3Dモデルに行うことができる。
 エフェクト処理を行う対象の3Dモデルである対象モデルは、基準3Dモデルに対する時間方向(過去方向及び未来方向)を表すエフェクト方向と、基準3Dモデルからの離れ具合を表すエフェクト距離とで特定される。
 エフェクト方向としては、過去方向past、未来方向future、又は、過去方向past及び未来方向futureの両方を設定することができる。
 エフェクト方向として、過去方向pastが設定された場合、基準3Dモデルから、過去方向の3Dモデルに、エフェクト処理が行われる。エフェクト方向として、未来方向futureが設定された場合、基準3Dモデルから、未来方向の3Dモデルに、エフェクト処理が行われる。エフェクト方向として、過去方向past及び未来方向futureが設定された場合、基準3Dモデルから、過去方向の3Dモデルと未来方向の3Dモデルとに、エフェクト処理が行われる。
 エフェクト距離は、基準3Dモデルからの3Dモデルのモデル数number、距離distance、又は、時間timeで指定することができる。
 モデル数numberによれば、ストロボモデルに配置された3Dモデル、すなわち、ストロボモデルの生成に用いられた生成フレームに映る(オブジェクトの)3Dモデルのうちの、基準3Dモデルから、モデル数number以上離れた3Dモデルを、対象モデルとして指定することができる。
 距離distanceによれば、ストロボモデルに配置された3Dモデルのうちの、基準3Dモデルから、距離distance以上離れた3Dモデルを、対象モデルとして指定することができる。
 時間timeによれば、ストロボモデルに配置された3Dモデルのうちの、基準3Dモデルから、時間time以上離れた3Dモデルを、対象モデルとして指定することができる。
 エフェクト処理は、ストロボモデルにおいて、基準3Dモデルから、モデル数number、距離distance、又は、時間time以上だけ、過去方向、未来方向、又は、過去と未来との両方向に離れた3Dモデルを対象モデルとして行うことができる。
 <エフェクト処理の具体例>
 図15は、エフェクト処理の具体例を説明する図である。
 図15では、エフェクト処理として、エフェクトモード0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14で表されるエフェクト処理がある。エフェクトモード1ないし14については、図14で説明したエフェクト方向及びエフェクト距離を設定することができる。
 なお、エフェクト方向が設定されていない場合、エフェクト方向としては、デフォルトで、例えば、過去方向pastが設定されることとして、エフェクト処理を行うことができる。
 エフェクト距離は、図14で説明したように、基準3Dモデルからの3Dモデルのモデル数number、距離distance、又は、時間timeで指定される。例えば、エフェクト方向が過去方向pastに設定され、エフェクト距離が、モデル数number=1に設定されている場合、基準3Dモデルから、モデル数number=1以上だけ、過去方向に離れた3Dモデルを対象モデルとして、エフェクトモードが表すエフェクト処理が行われる。
 エフェクトモード0は、エフェクト処理を行わないこと表す。
 エフェクトモード1は、3Dモデルを透明にするエフェクト処理を表す。エフェクトモード1のエフェクト処理では、対象モデルを、すべて同一の透明度の透明にすることもできるし、徐々に透明にすること、すなわち、基準3Dモデルから時間的又は距離的に離れた3Dモデル(対象モデル)ほど、透明度の高い透明にすることもできる。3Dモデルを、どのように透明にするかは、例えば、エフェクトモード1に付随するパラメータを定義し、そのパラメータによって指定することができる。なお、透明度を100%とする場合には、対象モデルは完全に透明になり、この場合、エフェクトモード1のエフェクト処理の結果は、実質的に、後述するエフェクトモード4と同様になる。
 エフェクトモード2は、3Dモデルを、徐々に消滅させるエフェクト処理を表す。
 エフェクトモード3は、3Dモデルのテクスチャ数(テクスチャとして使用する2D画像の数)を減らすエフェクト処理を表す。エフェクトモード3のエフェクト処理では、対象モデルのテクスチャ数を、すべて同一の数に減らすこともできるし、徐々に減らすこと、すなわち、基準3Dモデルから時間的又は距離的に離れた3Dモデルほど、テクスチャ数を減らすこともできる。3Dモデルのテクスチャ数をどのように減らすかは、例えば、エフェクトモード3に付随するパラメータを定義し、そのパラメータによって指定することができる。
 なお、エフェクトモード3のエフェクト処理については、テクスチャマッピングが行われる3Dモデル、すなわち、VDモデルが対象となり、テクスチャマッピングが行われないVIモデルは対象とならない。
 エフェクトモード4は、3Dモデルを消去するエフェクト処理を表す。
 エフェクトモード5は、3Dモデルの輝度及び彩度の少なくとも一方を小さくするエフェクト処理を表す。エフェクトモード5のエフェクト処理では、対象モデルの輝度及び彩度を、すべて同一の割合だけ小さくすることもできるし、徐々に小さくすること、すなわち、基準3Dモデルから時間的又は距離的に離れた3Dモデルほど、輝度及び彩度を小さくする割合をより大きくすることもできる。3Dモデルの輝度及び彩度をどのように小さくするかや、輝度及び彩度のいずれを小さくするかは、例えば、エフェクトモード5に付随するパラメータを定義し、そのパラメータによって指定することができる。
 エフェクトモード6は、ストロボモデルに配置される3Dモデルの数を制限するエフェクト処理を表す。エフェクトモード6のエフェクト処理では、ストロボモデルに配置する3Dモデルが、生成フレームの3Dモデルのうちの、対象モデル以外の3Dモデルだけに制限される。
 エフェクトモード7は、3Dモデルをローポリゴンにするエフェクト処理、すなわち、3Dモデルのメッシュ数(ポリゴン数)を減らすエフェクト処理を表す。エフェクトモード7のエフェクト処理では、対象モデルのメッシュ数を、すべて同一の数に減らすこともできるし、徐々に減らすこと、すなわち、基準3Dモデルから時間的又は距離的に離れた3Dモデルほど、メッシュ数を減らすこともできる。3Dモデルのメッシュ数をどのように減らすかは、例えば、エフェクトモード7に付随するパラメータを定義し、そのパラメータによって指定することができる。
 なお、エフェクトモード7のエフェクト処理については、ポリゴンで構成される3Dモデルが対象となり、ポリゴンで構成されない3Dモデル、すなわち、例えば、ワイヤーフレームは対象とならない。
 エフェクトモード8及び9は、3Dモデルの表現形式を変更するエフェクト処理を表す。
 すなわち、エフェクトモード8は、ポリゴンで構成される3Dモデルを、ワイヤーフレームに変更するエフェクト処理を表す。
 エフェクトモード9は、3Dモデルの表現形式をView DependentからView Independentに変更するエフェクト処理、すなわち、VDモデルをVIモデル(例えば、ポイントクラウド)に変更するエフェクト処理を表す。
 エフェクトモード10は、3Dモデルを消去し、3Dモデルがあった形跡を残すエフェクト処理を表す。
 エフェクトモード11は、3Dモデルのテクスチャ(テクスチャマテリアル)を変更するエフェクト処理を表す。3Dモデルのテクスチャを、どのようなテクスチャに変更するかは、例えば、エフェクトモード11に付随するパラメータを定義し、そのパラメータによって指定することができる。
 エフェクトモード12は、3Dモデルの(形状)をぼかすエフェクト処理を表す。3Dモデルぼかす程度は、例えば、エフェクトモード12に付随するパラメータを定義し、そのパラメータによって指定することができる。
 エフェクトモード13は、3Dモデルの色を変更するエフェクト処理を表す。3Dモデルの色を、どのような色に変更するかは、例えば、エフェクトモード13に付随するパラメータを定義し、そのパラメータによって指定することができる。
 エフェクトモード14は、3Dモデルのサイズを変更するエフェクト処理を表す。3Dモデルのサイズを変更する程度は、例えば、エフェクトモード14に付随するパラメータを定義し、そのパラメータによって指定することができる。
 エフェクトモード1ないし14については、エフェクト方向及びエフェクト距離を設定することができるが、必要に応じて、デフォルトのエフェクト方向及びエフェクト距離を定義しておくことができる。
 例えば、エフェクトモード1ないし14のデフォルトのエフェクト方向としては、過去方向pastを定義しておくことができる。
 また、例えば、エフェクトモード1のデフォルトのエフェクト距離としては、モデル数number=1を定義しておくことができる。
 この場合、エフェクトモード1のエフェクト方向及びエフェクト距離が設定されていなければ、基準3Dモデルから過去方向に1モデル以上離れた3Dモデル、すなわち、基準3Dモデルの過去方向の次の3Dモデル以前の3Dモデルを対象モデルとして、エフェクトモード1のエフェクト処理が行われる。
 さらに、例えば、エフェクトモード4のデフォルトのエフェクト距離としては、距離distance=5[m]を定義しておくことができる。
 この場合、エフェクトモード4のエフェクト方向及びエフェクト距離が設定されていなければ、基準3Dモデルから過去方向に5m以上離れた3Dモデルを対象モデルとして、エフェクトモード4のエフェクト処理が行われる。
 また、例えば、エフェクトモード5のデフォルトのエフェクト距離としては、時間time=10[sec]を定義しておくことができる。
 この場合、エフェクトモード5のエフェクト方向及びエフェクト距離が設定されていなければ、基準3Dモデルから過去方向に10秒以上離れた3Dモデルを対象モデルとして、エフェクトモード5のエフェクト処理が行われる。
 さらに、例えば、エフェクトモード7のデフォルトのエフェクト距離としては、モデル数number=3を定義しておくことができる。
 この場合、エフェクトモード7のエフェクト方向及びエフェクト距離が設定されていなければ、基準3Dモデルから過去方向に3モデル以上離れた3Dモデル、すなわち、基準3Dモデルの過去方向の3番目の3Dモデル以前の3Dモデルを対象モデルとして、エフェクトモード7のエフェクト処理が行われる。
 なお、エフェクト処理については、複数のエフェクトモードを設定することができる。例えば、エフェクト処理について、エフェクトモード1及び3が設定された場合、3Dモデルを透明にし、かつ、テクスチャ数を減らすエフェクト処理が行われる。
 <軌跡情報>
 図16は、軌跡情報として、ストロボモデルを採用する場合の、時間シーク操作が行われたときのストロボモデルの生成の例を説明する図である。
 軌跡情報生成部47では、時間シーク操作に応じ、指定再生位置を基準とする区間(のフレーム)に映る対象オブジェクトの3Dモデルが配置されたストロボモデルが、軌跡情報として生成される。
 図16では、指定再生位置(のフレーム)に映る対象オブジェクトの3Dモデル、指定再生位置より未来の1フレームに映る対象オブジェクトの3Dモデル、及び、指定再生位置より過去の2フレームに映る対象オブジェクトの3Dモデルの合計で、4個の時刻(フレーム)に映る対象オブジェクトの3Dモデルが配置されたストロボモデルが生成されている。
 ユーザが、例えば、操作部46により実現されるシークバー12を操作する時間シーク操作を行うと、その時間シーク操作によって指定される指定再生位置の変化に伴い、ストロボモデルに配置される3Dモデルのフレームの区間(ストロボ区間)も変化する。
 図17は、時間シーク操作が行われた場合に、ストロボモデルを生成して3Dストロボ画像を表示する場合の仮想カメラの状態の変化の例を説明する図である。
 再生装置23では、時間シーク操作に応じ、指定再生位置を基準とする区間(のフレーム)に映る対象オブジェクトの3Dモデルが配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像が表示される。
 ユーザは、3Dストロボ画像を見ることにより、指定再生位置から未来方向や過去方向への時刻での、対象オブジェクトの移動先を、容易に推測することができる。したがって、ユーザは、対象オブジェクトに移動先の推測結果に応じて、対象オブジェクトの移動先が見えるように、すなわち、対象オブジェクトが仮想カメラの撮影範囲に入るように、仮想視点としての仮想カメラの状態を変化させることができる。その結果、時間シーク操作中に、対象オブジェクトを見失うことを抑制することができる。
 図18は、軌跡情報として、線データを採用する場合の、時間シーク操作が行われたときの線データの生成の例を説明する図である。
 再生装置23では、時間シーク操作に応じ、指定再生位置を基準とする区間に映る対象オブジェクトの軌跡を表す線データが生成され、その線データを仮想カメラで撮影した線画像が表示される。ユーザは、線画像を見ることにより、指定再生位置から未来方向や過去方向への時刻での、対象オブジェクトの移動先を、容易に推測することができる。したがって、ユーザは、対象オブジェクトに移動先の推測結果に応じて、対象オブジェクトの移動先が見えるように、すなわち、対象オブジェクトが仮想カメラの撮影範囲に入るように、仮想視点としての仮想カメラの状態を変化させることができる。その結果、時間シーク操作中に、対象オブジェクトを見失うことを抑制することができる。
 軌跡情報としては、ストロボモデルや線データの他、対象オブジェクトの移動の軌跡を分かりやすく表示することが可能な任意の情報を採用することができる。
 図17及び図18に示した場合には、再生装置23は、時間シーク操作に応じて、軌跡情報を生成して、その軌跡情報に対応する軌跡画像(3Dストロボ画像や、線画像)を表示するが、仮想カメラの設定は、時間シーク操作とは関係なく行われる。
 したがって、ユーザは、軌跡画像を見て、対象オブジェクトの移動先を推測し、その推測結果に応じて、仮想カメラ設定部45において、対象オブジェクトが仮想カメラの撮影範囲に入るような仮想カメラの設定が行われるようにする必要がある。
 そのため、図17及び図18に示した軌跡情報の生成、及び、その軌跡情報に対応する軌跡画像の表示は、ユーザの視点及び視線(頭部や体の動き、姿勢を含む)を検出し、そのユーザの視点及び視線に対応するように、仮想カメラの撮影位置及び撮影姿勢を設定するHMD/HUDや、スマートフォン等の位置及び姿勢に応じて、スマートフォンに表示されるオブジェクトの見え方が変わるARアプリケーション等の、ユーザの視点や視線を変化させる動作に連動して、仮想カメラの撮影位置及び撮影姿勢が設定されるアプリケーションに、特に適している。かかるアプリケーションによれば、例えば、ユーザは、軌跡画像を見て、対象オブジェクトの移動先を推測し、その移動先に視線を動かすことで、時間シーク操作中に、対象オブジェクトを見失うことを抑制することができる。
 図19は、軌跡情報としてのストロボモデルに配置された3Dモデルに行うエフェクト処理の例を説明する図である。
 ストロボモデルに配置された3Dモデルには、エフェクト処理を行うことができる。例えば、図19のAに示すように、ストロボ区間の最も未来の3Dモデルの透明度を最も低くし、過去の3Dモデルほど、透明度を高くするエフェクト処理を行うことができる。
 また、時間シークの方向、すなわち、時間シーク操作が早送りを行うような操作であるか、又は、巻き戻しを行うような操作であるかによって、ストロボモデルに配置された3Dモデルに行うエフェクト処理の程度(エフェクトをかける程度)を制御することができる。
 例えば、時間シークの方向にある3Dモデルには、弱いエフェクト処理を行い、逆方向にある3Dモデルには、強いエフェクト処理を行うことができる。
 具体的には、例えば、時間シークの方向が未来方向である場合(時間シーク操作が早送りを行うような操作である場合)、時間シークの方向である未来方向の逆方向の過去方向に向かって、より程度の高いエフェクト処理を行い、時間シークの方向が過去方向である場合(時間シーク操作が巻き戻しを行うような操作である場合)、時間シークの方向である過去方向の逆方向の未来方向に向かって、より程度の高いエフェクト処理を行うことができる。
 この場合、例えば、エフェクト処理が、3Dモデルを透明にするエフェクトをかける処理であるときには、未来方向への時間シーク操作が行われると、図19のAに示すように、ストロボ区間の最も未来の3Dモデルの透明度を最も低くし、過去方向の3Dモデルほど、透明度を高くするエフェクト処理が行われる。一方、過去方向への時間シーク操作が行われると、図19のBに示すように、ストロボ区間の最も過去の3Dモデルの透明度を最も低くし、未来方向の3Dモデルほど、透明度を高くするエフェクト処理が行われる。
 その他、例えば、指定再生位置の3Dモデルの透明度を最も低くし、指定再生位置から、過去方向及び未来方向に離れたフレームに映る3Dモデルほど、透明度を高くするエフェクト処理を行うことができる。
 軌跡情報としてのストロボモデルに配置された3Dモデルに行うエフェクト処理としては、3Dモデルを透明にするエフェクト処理の他、図15で説明した様々なエフェクト処理を採用することができる。
 以上のように、軌跡情報としてのストロボモデルに配置された3Dモデルにエフェクト処理を行うことにより、ユーザは、ストロボモデル(3Dストロボ画像)における時間方向(未来方向、過去方向)を容易に認識することができる。
 なお、軌跡情報としてのストロボモデルとしては、例えば、指定再生位置から離れるほど、対象オブジェクトの3Dモデルが疎になっていくストロボモデルを生成することができる。この場合、ユーザは、3Dストロボ画像に映る対象オブジェクトの疎密により、指定再生位置から離れている程度を認識することができる。
 <再生装置23の処理>
 図20は、図5の再生装置23が行う自由視点データの再生処理の他の例を説明するフローチャートである。
 図20では、ステップS71ないしS75において、図7のステップS31ないしS35とそれぞれ同様の処理が行われる。
 そして、ステップS75において、図7のステップS35と同様に、軌跡情報生成部47が、時間シーク操作により指定された指定再生位置を基準とする軌跡情報を生成した後、処理は、ステップS76に進む。
 ステップS76では、仮想カメラ設定部45は、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように、仮想カメラを設定し、処理は、ステップS77に進む。
 ステップS77では、図7のステップS36と同様に、自由視点画像生成部43は、軌跡情報生成部47からの軌跡情報を、仮想カメラ設定部45で設定された仮想カメラで撮影した軌跡画像を生成し、表示部44に供給して表示させ、処理は、ステップS78に進む。
 ステップS78では、図7のステップS37と同様の処理が行われる。
 以上のように、図20では、ステップS76において、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲(画角)に含まれるように、仮想カメラが設定される。したがって、ステップS77で表示部44に表示される表示内容には、少なくとも、指定再生位置(時刻)における対象オブジェクトの3Dモデルの3次元空間内の位置が含まれる。その結果、ユーザが、時間シーク操作中に、対象オブジェクトを見失うことを、より強固に抑制することができる。
 すなわち、図7の再生処理では、再生装置23は、時間シーク操作に応じて、軌跡情報を生成して、その軌跡情報に対応する軌跡画像を表示するが、仮想カメラの設定は、時間シーク操作とは関係なく、ユーザの操作やユーザの視点等に応じて行われる。
 したがって、ユーザは、軌跡画像を見て、対象オブジェクトの移動先を推測し、その推測結果に応じて、仮想カメラ設定部45において、対象オブジェクトが仮想カメラの撮影範囲に入るような仮想カメラの設定が行われるように、操作を行うことや視点等を変化させる必要がある。
 そのため、ユーザの操作や視点等の変化のさせ方によっては、対象オブジェクトが仮想カメラの撮影範囲に入るような仮想カメラの設定が行われず、軌跡情報が仮想カメラの撮影範囲からはずれることが生じ得る。
 軌跡情報が仮想カメラの撮影範囲からはずれると、軌跡情報に対応する軌跡画像は表示されないため、ユーザは、対象オブジェクトを見失うことがある。
 これに対して、図20の再生処理では、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように、仮想カメラが設定される。したがって、軌跡情報の少なくとも一部(指定再生位置のフレームに映る対象オブジェクトの3Dモデルの3次元空間内の位置の部分)は、必ず、仮想カメラの撮影範囲に入るので、軌跡情報に対応する軌跡画像の少なくとも一部は、必ず、表示部44に表示される。その結果、ユーザが、時間シーク操作中に、対象オブジェクトを見失うことを、図7の場合よりも強固に抑制することができる。
 図21は、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第1の設定例を説明する図である。
 図21では、軌跡情報として、ストロボモデルが採用されている。そして、図21では、例えば、仮想カメラの撮影位置が、時間シーク操作が開始されたときの撮影位置に固定され、仮想カメラの撮影姿勢(撮影方向)だけが、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように設定されている。
 図22は、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第2の設定例を説明する図である。
 図22では、軌跡情報として、線データが採用されている。そして、図22では、図21と同様に、仮想カメラの撮影位置が、時間シーク操作が開始されたときの撮影位置に固定され、仮想カメラの撮影姿勢だけが、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように設定されている。
 図23は、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第3の設定例を説明する図である。
 図23では、軌跡情報として、ストロボモデルが採用されている。そして、図23では、例えば、仮想カメラの撮影姿勢が、時間シーク操作が開始されたときの撮影姿勢に固定され、仮想カメラの撮影位置だけが、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように設定されている。すなわち、図23では、仮想カメラの撮影姿勢は固定され、仮想カメラの撮影位置は、指定再生位置のフレームに映る対象オブジェクトの3Dモデルとの位置関係を、例えば、時間シーク操作が開始されたときの位置関係に維持するように設定されている。
 図24は、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第4の設定例を説明する図である。
 図24では、軌跡情報として、ストロボモデルが採用されている。そして、図24では、例えば、仮想カメラの撮影姿勢が、時間シーク操作が開始されたときの撮影姿勢に固定され、仮想カメラの撮影位置だけが、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように設定されている。すなわち、図24では、仮想カメラの撮影姿勢は固定され、仮想カメラの撮影位置は、時間シーク操作が開始されてから指定再生位置となったフレームに映る対象オブジェクトの3Dモデルが、すべて仮想カメラの撮影範囲に含まれるように設定されている。そのため、図24では、仮想カメラは、後ろに引くように、すなわち、対象オブジェクトの3Dモデルから遠ざかる方向に、移動している。
 図25は、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの第5の設定例を説明する図である。
 図25では、軌跡情報として、ストロボモデルが採用されている。そして、図25では、例えば、仮想カメラの撮影位置及び撮影姿勢が、時間シーク操作が開始されたときの撮影姿勢に固定され、仮想カメラの画角(FOV(Field Of View))だけが、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように設定されている。図25では、仮想カメラの画角は、時間シーク操作とともに広がっている。
 図21ないし図25に示した場合には、再生装置23は、時間シーク操作に応じて、軌跡情報を生成して、その軌跡情報に対応する軌跡画像を表示するとともに、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように、仮想カメラが設定される。
 したがって、ユーザは、対象オブジェクトが仮想カメラの撮影範囲に入るような仮想カメラの設定が行われるように、操作を行うことや視点等を変化させる必要がない。
 そのため、図21ないし図25に示した仮想カメラの設定を行うことは、ユーザの視点等に応じて、仮想カメラの設定が行われることがないPCのモニタや、スマートフォン等の位置及び姿勢に応じて、スマートフォンに表示されるオブジェクトの見え方が変化しないアプリケーションに、特に適している。
 なお、指定再生位置のフレームに映る対象オブジェクトの3Dモデルが仮想カメラの撮影範囲に含まれるように仮想カメラを設定する場合の仮想カメラの設定方法としては、図21ないし図25で説明した方法の他、図21(又は図22)、図23、図24、及び、図25で説明した方法の任意の2以上を組み合わせた方法を採用することができる。
 <本技術を適用したコンピュータの説明>
 次に、上述した一連の処理は、ハードウエアにより行うこともできるし、ソフトウエアにより行うこともできる。一連の処理をソフトウエアによって行う場合には、そのソフトウエアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 図26は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
 プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク905やROM903に予め記録しておくことができる。
 あるいはまた、プログラムは、ドライブ909によって駆動されるリムーバブル記録媒体911に格納(記録)しておくことができる。このようなリムーバブル記録媒体911は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体911としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブル記録媒体911からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク905にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)902を内蔵しており、CPU902には、バス901を介して、入出力インタフェース910が接続されている。
 CPU902は、入出力インタフェース910を介して、ユーザによって、入力部907が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)903に格納されているプログラムを実行する。あるいは、CPU902は、ハードディスク905に格納されたプログラムを、RAM(Random Access Memory)904にロードして実行する。
 これにより、CPU902は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU902は、その処理結果を、必要に応じて、例えば、入出力インタフェース910を介して、出力部906から出力、あるいは、通信部908から送信、さらには、ハードディスク905に記録等させる。
 なお、入力部907は、キーボードや、マウス、マイク等で構成される。また、出力部906は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 なお、本技術は、以下の構成をとることができる。
 <1>
 複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、前記視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報を生成する軌跡情報生成部を備える
 画像処理装置。
 <2>
 前記軌跡情報生成部は、指定された前記再生位置である指定再生位置を含む区間の前記オブジェクトの軌跡を表す軌跡情報を生成する
 <1>に記載の画像処理装置。
 <3>
 前記指定再生位置を含む区間は、前記指定再生位置を基準として、過去の時刻から未来の時刻までの区間である
 <2>に記載の画像処理装置。
 <4>
 前記軌跡情報は、前記指定再生位置を含む区間のフレームに映る前記オブジェクトの3Dモデルが配置されたストロボモデルである
 <2>又は<3>に記載の画像処理装置。
 <5>
 前記軌跡情報生成部は、前記ストロボモデルに配置された前記3Dモデルにエフェクト処理を行う
 <4>に記載の画像処理装置。
 <6>
 前記軌跡情報は、前記指定再生位置を含む区間のフレームに映る前記オブジェクトの軌跡を表す曲線の自由視点データである
 <2>又は<3>に記載の画像処理装置。
 <7>
 仮想カメラで前記軌跡情報を撮影した自由視点画像である軌跡画像を生成する自由視点画像生成部をさらに備える
 <1>ないし<6>のいずれかに記載の画像処理装置。
 <8>
 前記仮想カメラを設定する仮想カメラ設定部をさらに備える
 <7>に記載の画像処理装置。
 <9>
 前記仮想カメラ設定部は、ユーザの操作に応じて、前記仮想カメラを設定する
 <8>に記載の画像処理装置。
 <10>
 前記仮想カメラ設定部は、ユーザの操作に応じて、前記仮想カメラの位置及び姿勢を設定する
 <9>に記載の画像処理装置。
 <11>
 前記仮想カメラ設定部は、指定された前記再生位置である指定再生位置のフレームに映るオブジェクトの3Dモデルが、前記仮想カメラの撮影範囲に含まれるように、前記仮想カメラを設定する
 <8>に記載の画像処理装置。
 <12>
 前記仮想カメラ設定部は、ユーザの視点及び視線に、位置及び姿勢が対応するように、前記仮想カメラを設定する
 <8>に記載の画像処理装置。
 <13>
 複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、前記視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報を生成する
 ことを含む画像処理方法。
 <14>
 複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、前記視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報を生成する軌跡情報生成部
 として、コンピュータを機能させるためのプログラム。
 11 表示部, 12 シークバー, 13 スライダ, 21 撮影装置, 22 コンテンツサーバ, 23 再生装置, 31 自由視点データ生成部, 32 記憶部, 33,41 通信部, 42 記憶部, 43 自由視点画像生成部, 44 表示部, 45 仮想カメラ設定部, 46 操作部, 47 軌跡情報生成部, 901 バス, 902 CPU, 903 ROM, 904 RAM, 905 ハードディスク, 906 出力部, 907 入力部, 908 通信部, 909 ドライブ, 910 入出力インタフェース, 911 リムーバブル記録媒体

Claims (14)

  1.  複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、前記視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報を生成する軌跡情報生成部を備える
     画像処理装置。
  2.  前記軌跡情報生成部は、指定された前記再生位置である指定再生位置を含む区間の前記オブジェクトの軌跡を表す軌跡情報を生成する
     請求項1に記載の画像処理装置。
  3.  前記指定再生位置を含む区間は、前記指定再生位置を基準として、過去の時刻から未来の時刻までの区間である
     請求項2に記載の画像処理装置。
  4.  前記軌跡情報は、前記指定再生位置を含む区間のフレームに映る前記オブジェクトの3Dモデルが配置されたストロボモデルである
     請求項2に記載の画像処理装置。
  5.  前記軌跡情報生成部は、前記ストロボモデルに配置された前記3Dモデルにエフェクト処理を行う
     請求項4に記載の画像処理装置。
  6.  前記軌跡情報は、前記指定再生位置を含む区間のフレームに映る前記オブジェクトの軌跡を表す曲線の自由視点データである
     請求項2に記載の画像処理装置。
  7.  仮想カメラで前記軌跡情報を撮影した自由視点画像である軌跡画像を生成する自由視点画像生成部をさらに備える
     請求項1に記載の画像処理装置。
  8.  前記仮想カメラを設定する仮想カメラ設定部をさらに備える
     請求項7に記載の画像処理装置。
  9.  前記仮想カメラ設定部は、ユーザの操作に応じて、前記仮想カメラを設定する
     請求項8に記載の画像処理装置。
  10.  前記仮想カメラ設定部は、ユーザの操作に応じて、前記仮想カメラの位置及び姿勢を設定する
     請求項9に記載の画像処理装置。
  11.  前記仮想カメラ設定部は、指定された前記再生位置である指定再生位置のフレームに映るオブジェクトの3Dモデルが、前記仮想カメラの撮影範囲に含まれるように、前記仮想カメラを設定する
     請求項8に記載の画像処理装置。
  12.  前記仮想カメラ設定部は、ユーザの視点及び視線に、位置及び姿勢が対応するように、前記仮想カメラを設定する
     請求項8に記載の画像処理装置。
  13.  複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、前記視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報を生成する
     ことを含む画像処理方法。
  14.  複数の視点から撮影された複数の視点画像から生成される自由視点データの再生位置の指定に応じて、前記視点画像に映るオブジェクトの3次元空間内の軌跡を表す軌跡情報を生成する軌跡情報生成部
     として、コンピュータを機能させるためのプログラム。
PCT/JP2020/003607 2019-02-15 2020-01-31 画像処理装置、画像処理方法、及び、プログラム WO2020166376A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019025708A JP2022051978A (ja) 2019-02-15 2019-02-15 画像処理装置、画像処理方法、及び、プログラム
JP2019-025708 2019-02-15

Publications (1)

Publication Number Publication Date
WO2020166376A1 true WO2020166376A1 (ja) 2020-08-20

Family

ID=72044755

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003607 WO2020166376A1 (ja) 2019-02-15 2020-01-31 画像処理装置、画像処理方法、及び、プログラム

Country Status (2)

Country Link
JP (1) JP2022051978A (ja)
WO (1) WO2020166376A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071834A1 (zh) * 2021-10-28 2023-05-04 虹软科技股份有限公司 用于显示设备的对齐方法及对齐装置、车载显示系统
WO2023100704A1 (ja) * 2021-12-01 2023-06-08 ソニーグループ株式会社 画像制作システム、画像制作方法、プログラム
WO2023100703A1 (ja) * 2021-12-01 2023-06-08 ソニーグループ株式会社 画像制作システム、画像制作方法、プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07328228A (ja) * 1994-06-07 1995-12-19 Sega Enterp Ltd ゲーム装置
JP2017211827A (ja) * 2016-05-25 2017-11-30 キヤノン株式会社 情報処理装置、制御方法、及び、プログラム
JP2017215706A (ja) * 2016-05-31 2017-12-07 日本電信電話株式会社 映像合成方法、映像取得装置、映像合成装置、映像合成システム及びコンピュータプログラム。
JP2018046448A (ja) * 2016-09-15 2018-03-22 キヤノン株式会社 画像処理装置および画像処理方法
JP2018182566A (ja) * 2017-04-14 2018-11-15 富士通株式会社 視点選択支援プログラム、視点選択支援方法及び視点選択支援装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07328228A (ja) * 1994-06-07 1995-12-19 Sega Enterp Ltd ゲーム装置
JP2017211827A (ja) * 2016-05-25 2017-11-30 キヤノン株式会社 情報処理装置、制御方法、及び、プログラム
JP2017215706A (ja) * 2016-05-31 2017-12-07 日本電信電話株式会社 映像合成方法、映像取得装置、映像合成装置、映像合成システム及びコンピュータプログラム。
JP2018046448A (ja) * 2016-09-15 2018-03-22 キヤノン株式会社 画像処理装置および画像処理方法
JP2018182566A (ja) * 2017-04-14 2018-11-15 富士通株式会社 視点選択支援プログラム、視点選択支援方法及び視点選択支援装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071834A1 (zh) * 2021-10-28 2023-05-04 虹软科技股份有限公司 用于显示设备的对齐方法及对齐装置、车载显示系统
WO2023100704A1 (ja) * 2021-12-01 2023-06-08 ソニーグループ株式会社 画像制作システム、画像制作方法、プログラム
WO2023100703A1 (ja) * 2021-12-01 2023-06-08 ソニーグループ株式会社 画像制作システム、画像制作方法、プログラム

Also Published As

Publication number Publication date
JP2022051978A (ja) 2022-04-04

Similar Documents

Publication Publication Date Title
US11342000B2 (en) Immersive virtual reality production and playback for storytelling content
JP6643357B2 (ja) 全球状取込方法
EP3057066A1 (en) Generation of three-dimensional imagery from a two-dimensional image using a depth map
JP7459870B2 (ja) 画像処理装置、画像処理方法、及び、プログラム
US20130321586A1 (en) Cloud based free viewpoint video streaming
WO2020166376A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
US20050219239A1 (en) Method and apparatus for processing three-dimensional images
US10681276B2 (en) Virtual reality video processing to compensate for movement of a camera during capture
WO2020036644A2 (en) Deriving 3d volumetric level of interest data for 3d scenes from viewer consumption data
JP2012530326A (ja) ステレオスコープシネマ用のビューア中心ユーザインタフェース
US11557087B2 (en) Image processing apparatus and image processing method for generating a strobe image using a three-dimensional model of an object
US11187895B2 (en) Content generation apparatus and method
JP2018033107A (ja) 動画の配信装置及び配信方法
WO2020149146A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
JP6601392B2 (ja) 表示制御装置、表示制御方法、及び、プログラム
WO2017141139A1 (en) A method for image transformation
WO2021006047A1 (ja) 表示制御装置、表示制御方法、及び、プログラム
WO2022244131A1 (ja) 画像データ生成装置、表示装置、画像表示システム、画像データ生成方法、画像表示方法、および、画像データのデータ構造
WO2020121844A1 (en) Image processing device, image processing method, and program
JP2023540647A (ja) 映画産業向けプリビジュアライゼーション・デバイス及びシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20755790

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20755790

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP