WO2020213426A1 - 画像処理装置、画像処理方法、及び、プログラム - Google Patents

画像処理装置、画像処理方法、及び、プログラム Download PDF

Info

Publication number
WO2020213426A1
WO2020213426A1 PCT/JP2020/015259 JP2020015259W WO2020213426A1 WO 2020213426 A1 WO2020213426 A1 WO 2020213426A1 JP 2020015259 W JP2020015259 W JP 2020015259W WO 2020213426 A1 WO2020213426 A1 WO 2020213426A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
strobe
editing
virtual camera
model
Prior art date
Application number
PCT/JP2020/015259
Other languages
English (en)
French (fr)
Inventor
久之 館野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/602,526 priority Critical patent/US11995784B2/en
Priority to JP2021514878A priority patent/JP7459870B2/ja
Publication of WO2020213426A1 publication Critical patent/WO2020213426A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]

Definitions

  • the present technology relates to an image processing device, an image processing method, and a program, and more particularly to, for example, an image processing device, an image processing method, and a program that enable easy editing of a free-viewpoint image.
  • a method of generating a strobe image showing an object (subject) taken at a plurality of times has been proposed (see, for example, Patent Document 1). Since objects at multiple times are shown in the strobe image, the movement and trajectory of the objects can be easily grasped.
  • This technology was made in view of such a situation, and makes it possible to easily edit a free-viewpoint image.
  • the image processing device or program of this technology captures a strobe model in which 3D models of objects at multiple times generated from multiple viewpoint images taken from multiple viewpoints are arranged in a three-dimensional space with a virtual camera.
  • the 3D strobe image is displayed and the editing parameters to be edited in editing the free viewpoint image obtained by capturing the free viewpoint data generated from the plurality of viewpoint images linked with the 3D strobe image with the virtual camera.
  • An image processing device provided with a display control unit, or a program for operating a computer as such an image processing device.
  • the image processing method of this technology is a 3D strobe image of a strobe model in which 3D models of objects at multiple times generated from multiple viewpoint images taken from multiple viewpoints are arranged in a three-dimensional space with a virtual camera.
  • a 3D strobe image obtained by taking a strobe model in which 3D models of objects at a plurality of times generated from a plurality of viewpoint images taken from a plurality of viewpoints are arranged in a three-dimensional space with a virtual camera and the above
  • the editing parameters to be edited in the editing of the free viewpoint image captured by the virtual camera from the free viewpoint data generated from the plurality of viewpoint images linked with the 3D strobe image are displayed.
  • the image processing device may be an independent device or an internal block constituting one device.
  • the program can be provided by transmitting via a transmission medium or by recording on a recording medium.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of an image processing system to which the present technology is applied.
  • the image processing system of FIG. 1 includes a photographing device 21, a content server 22, and an editing device 23.
  • the photographing device 21 is composed of at least a plurality of cameras, and photographs an object from a plurality of viewpoints.
  • a plurality of cameras constituting the photographing device 21 are arranged so as to surround the object, and each camera photographs the object from the viewpoint as the position where the camera is arranged.
  • a 2D image taken from the position of the camera by each camera, that is, a viewpoint image (moving image) of a plurality of viewpoints which is a 2D image taken from a plurality of viewpoints is, in frame units, a content server from the shooting device 21. It is supplied to 22.
  • the photographing device 21 can be provided with a plurality of distance measuring devices in addition to the plurality of cameras.
  • the distance measuring device can be arranged at the same position (viewpoint) as the camera, or can be arranged at a different position from the camera.
  • the distance measuring device measures the distance from the position (viewpoint) where the distance measuring device is arranged to the object, and generates a depth image which is a 2D image whose pixel value is the depth which is information about the distance.
  • the depth image is supplied from the photographing device 21 to the content server 22.
  • the distance to the object is measured by the principle of triangulation using the viewpoint images of two viewpoints out of the viewpoint images of a plurality of viewpoints. , Depth images can be generated.
  • the content server 22 is, for example, a web server or a server on the cloud.
  • the content server 22 generates content (video content) of free viewpoint data by using, for example, viewpoint images of a plurality of viewpoints supplied from the photographing device 21.
  • the content server 22 transmits the content of the free viewpoint data to the editing device 23 in response to a request from the editing device 23.
  • the editing device 23 requests and acquires the content of the free viewpoint data from the content server 22.
  • the editing device 23 reproduces the content of the free viewpoint data acquired from the content server 22. That is, the editing device 23 generates and displays a 2D image as a free viewpoint image obtained by capturing the free viewpoint data with a virtual camera.
  • the editing device 23 generates and displays an editing screen used for editing a free viewpoint image.
  • the user can edit the free viewpoint image using the edit screen.
  • the free viewpoint data is data expressing the three-dimensional structure of the three-dimensional space, and according to the free viewpoint data, an image that can be seen when the object that is the subject of the three-dimensional space is viewed from a predetermined viewpoint, that is, a predetermined To generate a 2D image obtained by projecting a viewing volume (or view volume) in a three-dimensional space represented by free viewpoint data on a projection plane perpendicular to the line-of-sight direction when the object is viewed from the viewpoint of. Can be done. Since this 2D image can be generated by freely setting the viewpoint, it can be called a free viewpoint image. Since the viewpoint (including the line of sight (direction)) required for generating the free viewpoint image can be virtually set regardless of the actual viewpoint of the user, such a viewpoint is also referred to as a virtual viewpoint.
  • the free viewpoint image can be displayed on a two-dimensional plane-shaped display such as a PC monitor or a smartphone.
  • the free viewpoint image can be displayed on a head-mounted display (HMD).
  • HMD head-mounted display
  • the head tracking technology can realize stereoscopic vision as if it exists in a three-dimensional space.
  • free-viewpoint images can be displayed on a head-up display (HUD) that uses a transparent display such as AR (Augmented Reality) glasses that allows the other side to be seen through.
  • HUD head-up display
  • AR Augmented Reality
  • an object such as a person or an object photographed in another three-dimensional space can be superimposed and displayed on the three-dimensional space in which the user actually exists.
  • the free viewpoint data (the free viewpoint image represented by) has a degree of freedom in the time direction, and also captures a virtual viewpoint, that is, the free viewpoint data (the three-dimensional space represented by). It has a degree of freedom in the shooting position and shooting posture (shooting direction) of the virtual camera.
  • the shooting position of the virtual camera can be represented by, for example, the coordinates of the xyz coordinate system as the world coordinate system, and the shooting posture of the virtual camera can be represented by the rotation angle or the like around each axis of the world coordinate system.
  • the shooting position of the virtual camera can be moved in the x-axis, y-axis, and z-axis directions, and the shooting posture of the virtual camera can be rotated around the x-axis, y-axis, and z-axis. Since it is possible, there is a degree of freedom of 6DoF (Degree of Freedom) in the shooting position and shooting posture of the virtual camera. Therefore, with respect to the free viewpoint data, there are a total of seven degrees of freedom, one degree of freedom in the time direction and six degrees of freedom of the shooting position and shooting posture (virtual viewpoint) of the virtual camera.
  • 6DoF Degree of Freedom
  • the free viewpoint image generated by projecting the free viewpoint data (viewing volume in the three-dimensional space represented by) on the projection surface with respect to the virtual viewpoint is as if it were virtual from the virtual viewpoint.
  • the camera you can obtain a 2D image as if you were shooting free viewpoint data. Therefore, it can be said that projecting the free viewpoint data on the projection surface with respect to the virtual viewpoint is equivalent to shooting the free viewpoint data from the virtual viewpoint with a virtual camera. That is, projecting the free viewpoint data onto the projection surface with respect to the virtual viewpoint to generate the free viewpoint image can be regarded as taking the free viewpoint data with a virtual camera arranged in the virtual viewpoint. .. Therefore, in the present embodiment, the generation of the free-viewpoint image is regarded as the shooting of the free-viewpoint data with a virtual camera, and the description will be given as appropriate.
  • a virtual camera that captures free-viewpoint data is also called a virtual camera.
  • the shooting position and shooting posture of the virtual camera can be set by the user by operating the joystick or other controller (device) that controls the position and posture.
  • the shooting position and shooting posture of the virtual camera should be set so as to correspond to the user's viewpoint and line of sight (direction) detected by the HMD or HUD. Can be done.
  • the content server 22 and the editing device 23 can be configured as separate devices, or the entire content server 22 and the editing device 23 are configured as one device (for example, a PC (Personal Computer) or the like). You can also do it. Further, the content server 22 can be composed of a plurality of devices as a whole. The same applies to the editing device 23.
  • FIG. 2 is a block diagram showing a configuration example of the content server 22 of FIG.
  • the content server 22 has a free viewpoint data generation unit 31, a storage unit 32, and a communication unit 33.
  • the free viewpoint data generation unit 31 generates the content of the free viewpoint data by generating free viewpoint data in frame units from the viewpoint images and depth images of a plurality of viewpoints from the photographing device 21.
  • the free viewpoint data means a wide range of 3D image data (3D data) that can generate a free viewpoint image.
  • 3D data for example, a set of viewpoint images and depth images of a plurality of viewpoints from the photographing device 21 can be adopted as they are.
  • 3D data for example, 3D data having a 3D shape model which is information on a three-dimensional shape and color information, or a set of a 2D image and a depth image of a plurality of viewpoints should be adopted. Can be done.
  • the free viewpoint data generation unit 31 includes the viewpoint images and the depth images of the plurality of viewpoints from the photographing device 21.
  • the set of is used as it is as free viewpoint data.
  • the free viewpoint data generation unit 31 photographs using the depth images of a plurality of viewpoints from the photographing device 21. It is possible to generate a depth image of the viewpoint of the viewpoint image from the device 21.
  • the free viewpoint data generation unit 31 models by Visual Hull or the like using the viewpoint images of a plurality of viewpoints from the photographing device 21. To generate a 3D shape model of the object reflected in the viewpoint image, and use it as free viewpoint data together with the viewpoint images of a plurality of viewpoints as textures.
  • the free viewpoint data generation unit 31 uses, for example, 3D data having a 3D shape model and color information as described above.
  • a set of a 2D image and a depth image viewed from a plurality of viewpoints (the same viewpoint as the camera constituting the photographing device 21 or different viewpoints) is generated as free viewpoint data. To do.
  • the free viewpoint data generation unit 31 generates the content of the free viewpoint data as described above and supplies it to the storage unit 32.
  • the amount of free viewpoint data can be reduced by adopting a set of 2D images and depth images of a plurality of viewpoints as compared with 3D data having a 3D shape model.
  • a technique for generating and transmitting a set of 2D images and depth images of a plurality of viewpoints as free viewpoint data is described in International Publication No. 2017/082076 previously proposed by the applicant.
  • a set of 2D images of multiple viewpoints and depth images as free viewpoint data includes, for example, 2D images such as MVCD (Multiview and depth video coding), AVC (Advanced Video Coding), and HEVC (High Efficiency Video Coding). It can be encoded by the target coding method.
  • the free viewpoint data includes a 3D model called ViewIndependent (hereinafter, also referred to as VI model) and a 3D model called ViewDependent (hereinafter, also referred to as VD model).
  • VI model 3D model
  • VD model 3D model called ViewDependent
  • the VD model is 3D data in which information on a three-dimensional shape such as a 3D shape model and information on an image as a texture are separated.
  • the 3D shape model is colored by mapping an image to be a texture (texture mapping).
  • the VD model it is possible to express the degree of reflection on the surface of an object that differs depending on the (virtual) viewpoint.
  • the VD model is called View Dependent because its appearance depends on the viewpoint.
  • the VI model is, for example, 3D data in which polygons and points as components of information on a three-dimensional shape have color information.
  • a VI model for example, there is a set of a colored point cloud, a 3D shape model, and a UV map as color information of the 3D shape model.
  • the colors of polygons and points are observed from any (virtual) viewpoint.
  • the VI model is called View Independent because its appearance does not depend on the viewpoint.
  • the storage unit 32 stores the content of the free viewpoint data from the free viewpoint data generation unit 31.
  • the communication unit 33 communicates with the editing device 23. That is, for example, the communication unit 33 transmits the content of the free viewpoint data stored in the storage unit 32 to the editing device 23 in response to a request from the editing device 23.
  • the free viewpoint data generation unit 31 can be provided in the editing device 23. In this case, the content server 22 becomes unnecessary in the image processing system of FIG.
  • FIG. 3 is a block diagram showing a configuration example of the editing device 23 of FIG.
  • the editing device 23 includes a communication unit 41, a storage unit 42, a free viewpoint image generation unit 43, a display control unit 44, a display unit 45, an operation unit 46, a virtual camera setting unit 47, an editing parameter acquisition unit 48, and a strobe model generation. It has a part 49.
  • the communication unit 41 communicates with the content server 22. That is, the communication unit 41 transmits, for example, a request for the content of the free viewpoint data in response to the operation of the operation unit 46. Further, the communication unit 41 receives the content of the free viewpoint data transmitted from the content server 22 in response to the request and supplies the content to the storage unit 42.
  • the storage unit 42 stores the content of the free viewpoint data from the communication unit 41.
  • the free viewpoint image generation unit 43 captures the free viewpoint data (three-dimensional space represented by) stored in the storage unit 42 with the (state) virtual camera represented by the camera parameters supplied from the virtual camera setting unit 47. 2D images (2D images obtained by shooting with a virtual camera) (including a set of 2D images for the left eye and 2D images for the right eye), etc. are generated (rendered) as free viewpoint images (data). It is supplied to the display control unit 44.
  • the free viewpoint image generation unit 43 takes a strobe model (free viewpoint data) supplied from the strobe model generation unit 49 with a virtual camera having camera parameters supplied from the virtual camera setting unit 47, and has a free viewpoint of a 2D image.
  • a 3D strobe image which is an image, is generated and supplied to the display control unit 44.
  • the strobe model is a 3D model of the same object (subject) of a plurality of frames (time) of a viewpoint image arranged in a shooting space (3D model) as a three-dimensional space shot by the shooting device 21. It is a model created and can be generated using free viewpoint data.
  • the display control unit 44 performs display control for displaying an image on the display unit 45.
  • the display control unit 44 supplies the free viewpoint image supplied from the free viewpoint image generation unit 43 to the display unit 45 and displays it.
  • the display control unit 44 is a time change of the free viewpoint image as a 3D strobe image supplied from the free viewpoint image generation unit 43 and the editing parameters supplied from the editing parameter acquisition unit 48 and linked with the 3D strobe image.
  • An edit screen including an animation curve and (display) is generated, and is supplied to the display unit 45 for display.
  • the display unit 45 displays a free viewpoint image, an edit screen, and the like according to the display control of the display control unit 44.
  • the display unit 45 can be configured by, for example, a 2D HMD / HUD, a 2D monitor, a 3D HMD / HUD, a 3D monitor, or the like.
  • a 3D HMD / HUD or monitor is a display device that realizes stereoscopic vision by displaying, for example, a 2D image for the left eye and a 2D image for the right eye.
  • the operation unit 46 is operated by the user and supplies operation information according to the user's operation to the necessary blocks.
  • the operation unit 46 can be integrally configured with the display unit 45 by, for example, a touch panel or the like. Further, the operation unit 46 can be configured as a mouse, a controller, or the like separate from the display unit 45.
  • As the operation of the operation unit 46 of the user for example, an operation of setting a virtual camera (camera parameters), an operation of an edit screen, and the like can be performed.
  • the virtual camera setting unit 47 sets the free viewpoint data, that is, the free viewpoint data stored in the storage unit 42, and the camera parameters when the strobe model generated by the strobe model generation unit 49 is photographed by the virtual camera. , Supply to the free viewpoint image generation unit 43.
  • the virtual camera setting unit 47 sets the camera parameters of the virtual camera such as the shooting position, shooting posture, angle of view (focal length), and zoom magnification of the virtual camera according to the user's operation.
  • the virtual camera setting unit 47 corresponds to the user's viewpoint and line of sight according to the user's viewpoint and line of sight detected by the HMD or HUD. As such, the shooting position and shooting posture of the virtual camera can be set.
  • the shooting position and shooting posture of the virtual camera correspond to the position and posture of the mobile terminal. Can be set.
  • the editing parameter acquisition unit 48 is the target of editing in editing the free viewpoint image such as the position of the 3D model of the object from the free viewpoint data stored in the storage unit 42, the camera parameters set by the virtual camera setting unit 47, and the like. Information is acquired as an editing parameter and supplied to the display control unit 44.
  • the strobe model generation unit 49 uses the free viewpoint data stored in the storage unit 42 to freely display the same object in a plurality of frames (different times) of the viewpoint image in the three-dimensional space (3D model) reflected in the viewpoint image. Generate a strobe model in which a 3D model that is viewpoint data is placed.
  • the strobe model generation unit 49 selects a frame to be used for generating the strobe model (hereinafter, also referred to as a generation frame) from the frame of the strobe section which is the section of the target frame for generating the strobe model. Further, the strobe model generation unit 49 sets one or more of the objects displayed in the generation frame as the target object (hereinafter, also referred to as the target object) for arranging the 3D model in the strobe model. Then, the strobe model generation unit 49 generates a strobe model in which the 3D model of the target object reflected in the generation frame is arranged, and supplies the strobe model to the free viewpoint image generation unit 43.
  • a generation frame a frame to be used for generating the strobe model
  • the strobe model generation unit 49 sets one or more of the objects displayed in the generation frame as the target object (hereinafter, also referred to as the target object) for arranging the 3D model in the strobe model.
  • all the moving objects reflected in the generation frame can be set as the target objects. Further, in the strobe model generation unit 49, for example, among the objects displayed in the generation frame, the object specified by the user of the editing device 23 can be set as the target object.
  • the free viewpoint image generation unit 43 is a 3D strobe image which is a free viewpoint image taken by the virtual camera of the camera parameters from the virtual camera setting unit 47. Is generated and supplied to the display control unit 44.
  • the strobe image is an image in which one or more identical objects (images) taken at a plurality of times are reflected.
  • a strobe image that uses the object reflected in the 2D image as it is is called a 2D strobe image
  • the 3D strobe image is a strobe image obtained by shooting a 3D model of the object, that is, a strobe that is a strobe model viewed from a virtual viewpoint. It is an image and is different from a 2D strobe image.
  • the editing device 23 may at least have a function of communicating with the outside, a function of displaying an image, and a function of accepting a user's operation.
  • other functions for example, the functions realized by the free viewpoint image generation unit 43, the display control unit 44, the virtual camera setting unit 47, the editing parameter acquisition unit 48, and the strobe model generation unit 49, are examples.
  • the content server 22 or a server on the cloud can be provided.
  • FIG. 4 is a flowchart illustrating an example of a free viewpoint image editing process performed by the editing device 23 of FIG.
  • step S11 the communication unit 41 requests the content of the free viewpoint data from the content server 22 in response to the user's operation, for example, and the process proceeds to step S12.
  • step S12 the communication unit 41 waits for the content of the free viewpoint data to be transmitted from the content server 22, and then receives the content of the free viewpoint data.
  • the communication unit 41 supplies the content of the free viewpoint data from the content server 22 to the storage unit 42 and stores it, and the process proceeds from step S12 to step S13.
  • step S13 the editing device 23 reproduces the content of the free viewpoint data stored in the storage unit 42, and the process proceeds to step S14.
  • the virtual camera setting unit 47 sets the camera parameters of the virtual camera
  • the free viewpoint image generation unit 43 uses the virtual camera with the camera parameters set by the virtual camera setting unit 47 to input the free viewpoint data. It is generated by rendering the captured free-viewpoint image and supplied to the display control unit 44.
  • step S14 the display control unit 44 uses the editing parameters acquired by the editing parameter acquisition unit 48 to generate an animation curve that is a time change of the editing parameters to be edited in editing the free viewpoint image. Further, the display control unit 44 generates an edit screen including the free viewpoint image and the animation curve (display) from the free viewpoint image generation unit 43. Then, the display control unit 44 supplies the edit screen to the display unit 45 to display it, and the process proceeds from step S14 to step S15.
  • step S15 for example, the 3D strobe waits for the user to request the display of the 3D strobe image for the object (subject) reflected in the free viewpoint image constituting the editing screen displayed in step S14. An image is generated.
  • step S15 the strobe model generation unit 49 uses one of the objects reflected in the free viewpoint image constituting the editing screen as the target object, and the strobe in which the 3D model of the target object displayed in a plurality of frames of the viewpoint image is arranged.
  • a model is generated and supplied to the free viewpoint image generation unit 43.
  • the free viewpoint image generation unit 43 generates a 3D strobe image which is a free viewpoint image taken by a virtual camera from the strobe model from the strobe model generation unit 49. Then, the free viewpoint image generation unit 43 supplies the 3D strobe image to the display control unit 44, and the process proceeds from step S15 to step S16.
  • step S16 the display control unit 44 uses the edit parameters acquired by the edit parameter acquisition unit 48 to generate an animation curve which is a time change of the edit parameters linked with the 3D strobe image from the free viewpoint image generation unit 43. To do. Further, the display control unit 44 generates an edit screen including a 3D strobe image from the free viewpoint image generation unit 43 and an animation curve linked with the 3D strobe image (object reflected in the 3D strobe image). Then, the display control unit 44 supplies the edit screen to the display unit 45 to display it, and the process proceeds from step S16 to step S17.
  • step S17 the editing device 23 edits the free viewpoint image according to the user's operation on the editing screen.
  • FIG. 5 is a flowchart illustrating the details of the process of step S15 of FIG. 4 for generating a 3D strobe image.
  • step S51 the strobe model generation unit 49 sets the strobe section, which is the section of the target frame for generating the strobe model, and the process proceeds to step S52.
  • the strobe model generation unit 49 has a predetermined number of frames in the past based on the frame of the free viewpoint image constituting the edit screen when the user operates so as to request the display of the 3D strobe image.
  • the section from the frame of 1 to the future frame by a predetermined number of second frames is set as the strobe section.
  • the number of first and second frames can be set according to, for example, a user operation.
  • step S52 the strobe model generation unit 49 sets a target object for arranging the 3D model on the strobe model from the object reflected in the free viewpoint image constituting the editing screen, and the process proceeds to step S53.
  • an object specified according to the user's operation or line of sight is set as the target object.
  • step S53 the strobe model generation unit 49 selects a generation frame to be used for generating the strobe model from the frames in the strobe section, and the process proceeds to step S54.
  • the same number of 3D models of the same object as the number of frames in the strobe section are overlapped and arranged in the strobe model.
  • the strobe image may be difficult to see.
  • the strobe model generation unit 49 can select some frames from the frames of the strobe section as generation frames and generate a strobe model using the generation frames (3D model of the object reflected in).
  • the strobe model generation unit 49 can select, for example, a frame in which the interference degree of the 3D model is equal to or less than the threshold value from the frames in the strobe section as the generation frame. That is, the strobe model generation unit 49 calculates the degree of interference indicating the degree of overlap between the 3D models in a state where the 3D model of the target object reflected in the frame of the strobe section is arranged in the three-dimensional space.
  • the degree of interference is calculated, for example, in a three-dimensional space, where 100% is the case where 3D models of arbitrary two frames completely overlap, and 0% is the case where they do not overlap at all.
  • the strobe model generation unit 49 selects a frame whose interference degree is equal to or less than a predetermined threshold value as a generation frame.
  • a frame whose 3D model interference degree is equal to or less than the threshold is selected as a generation frame, and a strobe model in which the 3D model of the target object reflected in the generation frame is arranged is generated.
  • the 3D models are arranged so as to overlap each other, and it is possible to prevent the 3D strobe image from becoming an image that is difficult to see.
  • the frame of the strobe section can be simply selected as the generated frame for each predetermined number of frames.
  • a keyframe is a frame that is a key for editing, such as a frame that is an IN point or an OUT point for editing, or a frame that is a starting point for applying an effect.
  • step S54 the strobe model generation unit 49 uses the free viewpoint data stored in the storage unit 42, and the 3D model of the target object reflected in the plurality of generation frames selected from the frames of the strobe section is photographed by the target object. Generates a strobe model placed in the background (3D model) as the shooting space when it is shot. Then, the strobe model generation unit 49 supplies the strobe model to the free viewpoint image generation unit 43, and the process proceeds from step S54 to step S55.
  • step S55 the free viewpoint image generation unit 43 generates a 3D strobe image which is a free viewpoint image taken by the virtual camera of the camera parameters from the virtual camera setting unit 47 from the strobe model from the strobe model generation unit 49. The process ends.
  • FIG. 6 is a diagram showing an example of an unnatural 3D strobe image.
  • FIG. 6 shows a 3D strobe image generated from a strobe model generated by using 5 frames out of 5 frames of a viewpoint image of a ball as an object rolling from the front side to the back side as a generation frame. An example is shown.
  • the 3D model of the ball reflected in the generated frame of 5 frames is arranged (rendered) so as to give priority to the later 3D model in terms of time. Therefore, the 3D model (of the ball) behind in time is arranged so as to hide the 3D model in front of in time even though it is located in the back side. As a result, the 3D strobe image of FIG. 6 is an unnatural image.
  • FIG. 7 is a diagram showing an example of a natural 3D strobe image.
  • FIG. 7 shows a 3D strobe image generated from a strobe model generated by using 5 frames out of 5 frames of a viewpoint image of a ball as an object rolling from the front side to the back side as a generation frame. An example is shown.
  • the 3D model of the ball reflected in the generated frame of 5 frames is arranged so as to give priority to the 3D model on the front side. Therefore, the 3D model on the front side is arranged so as to hide the 3D model on the back side, that is, the 3D model on the front side is preferentially displayed. As a result, the free-viewpoint image is a natural image.
  • the free-viewpoint image generation unit 43 uses the depth (depth) of the 3D model of each object arranged in the strobe model to generate a 3D strobe image in which the 3D model of the object on the front side is preferentially reflected as described above. (Shoot with a virtual camera).
  • FIG. 8 is a diagram showing an example of a frame of a viewpoint image of a strobe section.
  • 9 frames at times t1 to t9 are frames for the viewpoint image of the strobe section.
  • the frame at times t1 to t9 shows the ball as an object rolling from left to right.
  • a frame of a viewpoint image of a certain viewpoint is illustrated in order to avoid complicating the figure.
  • FIG. 9 is a diagram showing an example of generating a strobe model using a frame at time t1 to t9 as a strobe section.
  • the frames at times t1 to t9 as the strobe section are selected as the generation frames. Further, in FIG. 9, a strobe model in which a 3D model of the ball as an object reflected in the time t1, t3, t5, t7, and t9 frames as the generation frames of the viewpoint images of a plurality of viewpoints is generated is generated. There is.
  • FIG. 10 is a diagram showing an example of displaying a 3D strobe image generated by shooting a strobe model with a virtual camera.
  • a 3D strobe image it is possible to generate and display a frame in which a 3D model of the ball as an object reflected in a frame at time t1, t3, t5, t7, and t9 is taken. Further, as the 3D strobe image, from the strobe model of FIG. 9, the frame in which the 3D model of the ball as an object reflected in the frame at time t1 is taken, and the 3D model of the ball as an object reflected in the frames at time t1 and t3 are taken.
  • the shooting position of the virtual camera that shoots the strobe model is not changed, but the shooting position of the virtual camera can be changed.
  • a strobe model in which a 3D model of a ball as an object reflected in a frame at time t1, t3, t5, t7, and t9 is arranged can be shot with a virtual camera while changing the shooting position.
  • the viewpoint for viewing the strobe model is changed, and a 3D strobe image with a changing camera angle is displayed.
  • FIG. 11 is a diagram showing an example of an edit screen.
  • keyframes are set while playing back the captured image based on the 2D image.
  • the user sets an appropriate keyframe timing while repeating continuous display of thumbnails and playback, rewind, fast forward, etc. on the player screen.
  • the editing target is a free viewpoint image
  • 3D 3D
  • the editing screen is composed of an image display unit 111 and a parameter display unit 112.
  • a free viewpoint image is displayed on the image display unit 111.
  • the editing parameters to be edited in editing the free viewpoint image which are linked with the free viewpoint image such as the 3D strobe image displayed on the image display unit 111, have the horizontal axis as time and the horizontal axis as time.
  • the vertical axis is displayed as the value of the edit parameter.
  • the curve that represents the time variation of editing parameters is called an animation curve. Therefore, the animation curve is displayed on the parameter display unit 112. Black circles on the animation curve represent key points.
  • Key points represent (time) keyframes.
  • a key frame is a frame that is a key for editing, such as a frame that is an IN point or an OUT point for editing, or a frame that is a starting point for applying an effect. Keyframes are set according to, for example, user operations.
  • FIG. 11 a free-viewpoint image of a basketball game is displayed.
  • Objects (players, balls, basketball goals, etc.) reflected in the free-viewpoint image have various parameters.
  • Parameters that the object has include, for example, object identification ID, object type (label), 3D data with time information, bounding box with time information, center of gravity position with time information, and other metadata.
  • the object identification ID is a unique ID attached to the object.
  • the object type (label) represents the type (type) of an object such as a ball or a player.
  • the 3D data with time information is 3D data such as a mesh that constitutes a 3D model of an object at each time and a point of Point Cloud.
  • the bounding box with time information is the data of the bounding box which is a rectangular parallelepiped that surrounds the 3D model of the object at each time.
  • the center of gravity position with time information is the center of gravity position of the 3D model of the object at each time.
  • Other metadata includes, for example, data representing the name of an object, the action being performed, the speed at which the object moves, the state of other objects, and the like.
  • the parameter display unit 112 for example, the position of the center of gravity with time information (each of the x, y, z coordinates as), the color and brightness of the object grasped from the 3D shape data with time information, etc. are used as editing parameters. It is possible to display an animation curve that is a time change of editing parameters. Further, the parameter display unit 112 can display, for example, an animation curve of camera parameters when the free viewpoint image displayed on the image display unit 111 is taken by a virtual camera.
  • the user pauses the reproduction of the free-viewpoint image displayed on the image display unit 111 of the edit screen, and clicks on any object displayed in the paused free-viewpoint image to edit (the object). Can be selected as.
  • FIG. 12 is a diagram showing an example of an editing screen after the object to be edited is selected.
  • Any object other than the object selected as the editing target may interfere with the editing work of the user, so it can be deleted from the free viewpoint image.
  • one of the players is selected as the editing target, and the other players are deleted.
  • the strobe model generation unit 49 sets the object to be edited as the target object for arranging the 3D model on the strobe model. Then, the strobe model generation unit 49 generates a strobe model in which the 3D model of the target object is arranged, with a predetermined section including the frame of the free viewpoint image displayed on the image display unit 111 as the strobe section, and the free viewpoint image. It is supplied to the generation unit 43.
  • the free viewpoint image generation unit 43 generates a free viewpoint image as a 3D strobe image from the strobe model from the strobe model generation unit 49, and supplies it to the display control unit 44.
  • the editing parameter acquisition unit 48 3D obtains information related to the target object displayed in the 3D strobe image, which is the target of editing in editing the free viewpoint image, from, for example, the free viewpoint data stored in the storage unit 42. It is acquired as an editing parameter linked with the strobe image and supplied to the display control unit 44.
  • the display control unit 44 displays the free viewpoint image as a 3D strobe image supplied from the free viewpoint image generation unit 43, the animation curve which is the time change of the editing parameter supplied from the editing parameter acquisition unit 48, and (display).
  • An edit screen including the edit screen is generated and supplied to the display unit 45 for display.
  • FIG. 13 is a diagram showing an example of an editing screen including a 3D strobe image and an animation curve linked with the 3D strobe image.
  • the (target) object having a triangle having the same pattern as the triangle attached to the key point is an object reflected in the key frame represented by the key point.
  • the strobe section and generated frame can be selected fixedly or adaptively.
  • a method of adaptively selecting the strobe section and the generated frame for example, there is a method of selecting the strobe section and the generated frame according to the movement amount and speed of the target object.
  • the selection method of the strobe section and the generated frame prepare multiple selection methods that are considered to be appropriate for the content, and adopt the selection method according to the user's instruction from the multiple selection methods. Can be done.
  • the selection of the generation frame for example, the 3D model of the target object reflected in a certain generation frame and the 3D model of the target object appearing in the generation frames before and after the generation frame are generated so as to be a constant distance. You can select the frame. Further, in the section where the speed of the target object is high, the generation frames can be selected at close intervals. Furthermore, for example, a frame in which a scene in which the target object jumps and reaches the highest point is displayed, a frame in which a shot scene is displayed, or a frame in which a specific scene is displayed is detected by an intelligent detection method and used as a generated frame. You can choose.
  • the key frame represented by the key point on the animation curve can be forcibly selected as the generated frame. In this case, it is possible to generate a 3D strobe image in which the target object displayed in the key frame is displayed.
  • a 3D strobe image showing the target objects of a plurality of generated frames is displayed on the image display unit 111, and an animation curve linked with the target object or the like displayed on the 3D strobe image, that is, for example, the time of the target object.
  • the animation curve such as the position of the center of gravity with information on the parameter display unit 112
  • the user can edit the animation curve (editing parameter) on the timeline while listing and grasping the changes of the target object. I'm ready.
  • FIG. 14 is a diagram showing an example of interlocking the 3D strobe image displayed on the image display unit 111 and the animation curve displayed on the parameter display unit 112.
  • the user can select the clicked target object as the object of interest by clicking the target object displayed in the 3D strobe image displayed on the image display unit 111.
  • the user clicks a key point on the animation curve (timeline) displayed on the parameter display unit 112, and selects the target object reflected in the key frame represented by the clicked key point as the object of interest. be able to.
  • the target object surrounded by the thick line is selected as the object of interest.
  • the user can move the object of interest displayed in the 3D strobe image displayed on the image display unit 111 by dragging (scrubbing) it.
  • the display control unit 44 changes the key point on the animation curve, which represents the key frame in which the attention object is reflected, into the animation curve in conjunction with the movement of the attention object. Move along.
  • the key frame is changed to the frame represented by the moved key point.
  • the user can intuitively perform an editing operation to change the key frame by operating the 3D strobe image having a good spatiotemporal listability, not on the timeline of the animation curve with a small amount of information.
  • the display control unit 44 can display a GUI such as an arrow indicating the movement of the center of gravity position of the object of interest when the object of interest is moved on the 3D strobe image displayed on the image display unit 111. This makes it easier for the user to recognize the position after moving the object of interest when it is moved.
  • the one-way arrow illustrated in the 3D strobe image represents the locus of movement of the target object.
  • the object of interest is moved along a one-way arrow.
  • the one-way arrow may or may not actually be displayed.
  • FIG. 15 is a diagram showing an example of a 3D strobe image obtained by changing the camera parameters of the virtual camera.
  • the angle and the like can be changed by changing the camera parameters such as the shooting position of the virtual camera. Can be changed.
  • the 3D models of the target objects placed on the strobe model are arranged in the depth direction when viewed from the virtual camera, and the target objects are densely overlapped with each other in the 3D strobe image.
  • the target object it becomes difficult for the user to select the object of interest (the target object).
  • the user can change the camera parameters such as the shooting position and zoom magnification of the virtual camera by operating the operation unit 46 or the like.
  • the 3D strobe image displayed on the image display unit 111 is changed to a 3D strobe image obtained by shooting the strobe model from the changed shooting position, as shown in FIG. To.
  • the user can display a 3D strobe image showing the target object in a state where it is easy to select the object of interest by changing the camera parameters of the virtual camera.
  • the operation of the user who changes the camera parameters of the virtual camera that generates the 3D strobe image displayed on the image display unit 111 is the user who performs the editing work.
  • This is an operation for displaying a 3D strobe image in which the target object is displayed on the image display unit 111 in a state suitable for the camera.
  • the parameter change operation can be performed as needed.
  • the camera parameters changed by the parameter change operation are not reflected in the editing of the free viewpoint image. Therefore, when the parameter change operation is performed, the free viewpoint image taken by the virtual camera of the camera parameters changed by the parameter change operation is not generated as the edited free viewpoint image.
  • the camera parameters changed by the parameter change operation can be reflected in the editing of the free viewpoint image.
  • FIG. 16 is a diagram showing an example of an edit screen when the user performs an operation to request a change in the camera parameters of the virtual camera.
  • the operation panels 131 and 132 and the commit button 133 are displayed on the edit screen.
  • the operation panel 131 is operated when setting the zoom magnification of the virtual camera.
  • the operation panel 132 is operated when setting the shooting position and shooting posture (orientation) of the virtual camera.
  • the virtual camera setting unit 47 changes the camera parameters of the virtual camera, that is, for example, the zoom magnification, the shooting position, or the shooting posture (setting) according to the operation of the operation panels 131 and 132, and generates a free viewpoint image. It is supplied to the unit 43. As a result, the free viewpoint image generation unit 43 generates a 3D strobe image obtained by shooting the strobe model with the virtual camera having the changed zoom magnification, shooting position, and shooting posture, and supplies the 3D strobe image to the display control unit 44.
  • the display control unit 44 causes the image display unit 111 to display the 3D strobe image obtained by shooting the strobe model with the virtual camera of the changed zoom magnification, shooting position, and shooting posture from the free viewpoint image generation unit 43.
  • the commit button 133 is operated when the camera parameters of the virtual camera that captured the 3D strobe image displayed on the image display unit 111 are reflected in the edited free viewpoint image.
  • the changed camera when the user specifies a predetermined position p1 (time) (frame) on the animation curve as a key point and operates the operation panels 131 and 132 to change the camera parameters of the virtual camera, the changed camera.
  • the 3D strobe image obtained by shooting the strobe model with the parameter virtual camera is displayed on the image display unit 111.
  • the display control unit 44 interlocks with the changed camera parameter, that is, the camera parameter of the virtual camera that captured the 3D strobe image displayed on the image display unit 111.
  • the animation curve displayed on the parameter display unit 112 is changed.
  • the display control unit 44 changes the animation curve. Change so that the camera parameters of are reflected.
  • FIG. 17 is a diagram showing an example of a correspondence display in which a key point is associated with a target object displayed in a key frame represented by the key point.
  • the same tag t # i (FIG. 17) is used for the key point and the target object on the 3D strobe image corresponding to the key point (the target object reflected in the key frame represented by the key point). Then, it is possible to adopt the tags t1, t2, t3, t4).
  • the correspondence display for example, it is adopted to color the key points and surround the target object on the 3D strobe image corresponding to the key points with the same color as the color attached to the key points. Can be done.
  • the user can visually and intuitively recognize the target object on the 3D strobe image corresponding to the key point on the animation curve.
  • FIG. 18 is a diagram showing an example of a 3D strobe image on which a passing space image representing the space through which the target object passes is superimposed.
  • the display control unit 44 can display the 3D strobe image on which the passing space image representing the space through which the target object passes is superimposed on the image display unit 111.
  • a translucent pipe-shaped image or the like can be adopted.
  • the target object reflected in the 3D strobe image is a target object with discrete times (frames)
  • simply displaying a 3D strobe image with one object objA and another object objB as the target objects is not enough. It can be difficult to see if object objA and object objB can collide.
  • FIG. 19 is a diagram showing another example of a 3D strobe image on which a passing space image representing the space through which the target object passes is superimposed.
  • the passing space image of FIG. 19 is an image showing the space through which the target object passes with the passage of time.
  • the passing space image of FIG. 19 becomes more transparent as the time when the target object passes earlier (past time), and the time when the target object passes later (future time). The more space it is, the darker it becomes.
  • the passage of time can be expressed by gradation.
  • the space portion where the target object passes the earliest time can be made blue, and the passing space image can be gradually changed to red with the passage of time.
  • the user can move the target object according to the passage of time in the arrangement of a plurality of target objects displayed in the 3D strobe image. You can easily recognize the direction of travel.
  • the editing device 23 displays an editing screen including the 3D strobe image and the animation curve linked with the 3D strobe image. Therefore, for example, since the animation curve changes according to the operation of the target object displayed in the 3D strobe image, the free viewpoint image can be easily edited. That is, the operability of editing a free-viewpoint image can be dramatically improved, and thus the efficiency of editing can be improved. In addition, the user can experience a new editing UI.
  • the user can list the temporal changes of the target object and intuitively recognize, for example, the changes (points) of the scene on the timeline. it can.
  • the user can easily find a frame in which a scene suitable as a key frame appears at a decisive moment and set it as a key frame.
  • the target object reflected in the key frame represented by multiple key points on the animation curve can be confirmed by the 3D strobe image.
  • the key frame (the key point representing the key point) can be intuitively changed by moving the target object displayed on the 3D strobe image displayed on the image display unit 111 by dragging or the like. it can.
  • a 3D strobe image whose angle and zoom magnification are changed is displayed according to the user's operation. Therefore, the user makes the 3D strobe image easy to see the target object and makes the 3D. From the strobe image, the object of interest to be used for operations such as changing keyframes can be easily selected.
  • the user can use the target on the 3D strobe image corresponding to the key point on the animation curve. Objects can be recognized intuitively.
  • the user can confirm whether the objects to be combined interfere with each other and the timing of combining the objects so as not to interfere with each other. Can be easily adjusted.
  • FIG. 20 is a block diagram showing a configuration example of an embodiment of a computer in which a program for executing the above-mentioned series of processes is installed.
  • the program can be recorded in advance on the hard disk 905 or ROM 903 as a recording medium built in the computer.
  • the program can be stored (recorded) in the removable recording medium 911 driven by the drive 909.
  • a removable recording medium 911 can be provided as so-called package software.
  • examples of the removable recording medium 911 include a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disk, a DVD (Digital Versatile Disc), a magnetic disk, and a semiconductor memory.
  • the program can be downloaded to the computer via a communication network or a broadcasting network and installed on the built-in hard disk 905. That is, for example, the program transfers wirelessly from a download site to a computer via an artificial satellite for digital satellite broadcasting, or transfers to a computer by wire via a network such as LAN (Local Area Network) or the Internet. be able to.
  • LAN Local Area Network
  • the computer has a built-in CPU (Central Processing Unit) 902, and the input / output interface 910 is connected to the CPU 902 via the bus 901.
  • CPU Central Processing Unit
  • the CPU 902 executes a program stored in the ROM (Read Only Memory) 903 accordingly. .. Alternatively, the CPU 902 loads the program stored in the hard disk 905 into the RAM (Random Access Memory) 904 and executes it.
  • ROM Read Only Memory
  • the CPU 902 performs processing according to the above-mentioned flowchart or processing performed according to the above-mentioned block diagram configuration. Then, the CPU 902 outputs the processing result from the output unit 906, transmits it from the communication unit 908, and further records it on the hard disk 905, if necessary, via the input / output interface 910.
  • the input unit 907 is composed of a keyboard, a mouse, a microphone, and the like. Further, the output unit 906 is composed of an LCD (Liquid Crystal Display), a speaker, or the like.
  • LCD Liquid Crystal Display
  • the processing performed by the computer according to the program does not necessarily have to be performed in chronological order in the order described as the flowchart. That is, the processing performed by the computer according to the program also includes processing executed in parallel or individually (for example, parallel processing or processing by an object).
  • the program may be processed by one computer (processor) or may be distributed by a plurality of computers. Further, the program may be transferred to a distant computer and executed.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • ⁇ 2> The image processing device according to ⁇ 1>, wherein the display control unit displays an animation curve which is a time change of the editing parameter.
  • the strobe model is generated by using at least a predetermined key frame among the frames of the viewpoint image.
  • the image processing device wherein the display control unit moves a key point representing the key frame on the animation curve in conjunction with the movement of an object reflected in the key frame of the 3D strobe image.
  • the image processing device according to ⁇ 2> or ⁇ 3>, further comprising a virtual camera setting unit for setting camera parameters of the virtual camera.
  • the display control unit causes the animation curve to reflect the changed camera parameter in response to the change of the camera parameter of the virtual camera.
  • the image processing device according to ⁇ 4> to be changed.
  • the image processing device according to ⁇ 4> or ⁇ 5>, wherein the camera parameter is a shooting position, a shooting posture, or a zoom magnification of the virtual camera.
  • the strobe model is generated by using at least a predetermined key frame among the frames of the viewpoint image.
  • the display control unit displays a correspondence display that associates a key point representing the key frame on the animation curve with an object reflected in the key frame represented by the key point among the objects displayed in the 3D strobe image.
  • the image processing apparatus according to any one of ⁇ 2> to ⁇ 6>.
  • ⁇ 8> The image processing device according to any one of ⁇ 1> to ⁇ 7>, wherein the display control unit displays the 3D strobe image on which the passing space image representing the space through which the object reflected in the 3D strobe image passes is superimposed.
  • the passing space image is an image showing the space through which the object passes with the passage of time.
  • An image processing method including displaying the editing parameters of the free viewpoint data generated from the plurality of viewpoint images, which are linked to the 3D strobe image, to be edited in editing the free viewpoint image taken by the virtual camera. ..
  • a computer as a display control unit that displays the free viewpoint data generated from the plurality of viewpoint images linked with the 3D strobe image and the editing parameters to be edited in the editing of the free viewpoint image taken by the virtual camera.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Architecture (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本技術は、自由視点画像の編集を容易に行うことができるようにする画像処理装置、画像処理方法、及び、プログラムに関する。 複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、3Dストロボ画像と連動する、複数の視点画像から生成される自由視点データを仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータとが表示される。本技術は、例えば、自由視点画像を編集する場合に適用することができる。

Description

画像処理装置、画像処理方法、及び、プログラム
 本技術は、画像処理装置、画像処理方法、及び、プログラムに関し、特に、例えば、自由視点画像の編集を容易に行うことができるようにする画像処理装置、画像処理方法、及び、プログラムに関する。
 複数の時刻に撮影されたオブジェクト(被写体)が映るストロボ画像を生成する方法が提案されている(例えば、特許文献1を参照)。ストロボ画像には、複数の時刻のオブジェクトが映るので、オブジェクトの動きや軌跡を、容易に把握することができる。
特開2007-259477号公報
 ところで、近年、仮想視点から3次元空間を見たときの見え方が再現された自由視点画像が注目されている。
 自由視点画像のコンテンツは、自由度が高いため、編集(作業)が困難になることが予想される。
 本技術は、このような状況に鑑みてなされたものであり、自由視点画像の編集を容易に行うことができるようにするものである。
 本技術の画像処理装置、又は、プログラムは、複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、前記3Dストロボ画像と連動する、前記複数の視点画像から生成される自由視点データを前記仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータとを表示させる表示制御部を備える画像処理装置、又は、そのような画像処理装置として、コンピュータを機能させるためのプログラムである。
 本技術の画像処理方法は、複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、前記3Dストロボ画像と連動する、前記複数の視点画像から生成される自由視点データを前記仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータとを表示させることを含む画像処理方法である。
 本技術においては、複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、前記3Dストロボ画像と連動する、前記複数の視点画像から生成される自由視点データを前記仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータとが表示される。
 なお、画像処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
 また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本技術を適用した画像処理システムの一実施の形態の構成例を示すブロック図である。 コンテンツサーバ22の構成例を示すブロック図である。 編集装置23の構成例を示すブロック図である。 編集装置23が行う編集処理の例を説明するフローチャートである。 3Dストロボ画像を生成するステップS15の処理の詳細を説明するフローチャートである。 不自然な3Dストロボ画像の例を示す図である。 自然な3Dストロボ画像の例を示す図である。 ストロボ区間の視点画像のフレームの例を示す図である。 ストロボ区間としての時刻t1ないしt9のフレームを用いたストロボモデルの生成の例を示す図である。 仮想カメラによるストロボモデルの撮影により生成される3Dストロボ画像の表示の例を示す図である。 編集画面の例を示す図である。 編集対象のオブジェクトが選択された後の編集画面の例を示す図である。 3Dストロボ画像と、その3Dストロボ画像と連動するアニメーションカーブとを含む編集画面の例を示す図である。 画像表示部111に表示される3Dストロボ画像と、パラメータ表示部112に表示されるアニメーションカーブとの連動の例を示す図である。 仮想カメラのカメラパラメータの変更により得られる3Dストロボ画像の例を示す図である。 ユーザが仮想カメラのカメラパラメータの変更を要求するように操作を行った場合の編集画面の例を示す図である。 キーポイントと、そのキーポイントが表すキーフレームに映る対象オブジェクトとを対応付ける対応付け表示の例を示す図である。 対象オブジェクトが通過する空間を表す通過空間画像が重畳された3Dストロボ画像の例を示す図である。 対象オブジェクトが通過する空間を表す通過空間画像が重畳された3Dストロボ画像の他の例を示す図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 <本技術を適用した画像処理システムの一実施の形態>
 図1は、本技術を適用した画像処理システムの一実施の形態の構成例を示すブロック図である。
 図1の画像処理システムは、撮影装置21、コンテンツサーバ22、及び、編集装置23を有する。
 撮影装置21は、少なくとも複数のカメラで構成され、複数の視点から、オブジェクトの撮影を行う。例えば、撮影装置21を構成する複数のカメラは、オブジェクトを囲むように配置され、各カメラは、そのカメラが配置された位置としての視点から、オブジェクトを撮影する。各カメラにより、そのカメラの位置から撮影された2D画像、すなわち、複数の視点から撮影された2D画像である複数の視点の視点画像(の動画)は、フレーム単位で、撮影装置21からコンテンツサーバ22に供給される。
 ここで、撮影装置21には、複数のカメラの他、複数の測距装置を設けることができる。測距装置は、カメラと同一の位置(視点)に配置することもできるし、カメラと異なる位置に配置することもできる。測距装置は、その測距装置が配置された位置(視点)から、オブジェクトまでの距離を測定し、その距離に関する情報であるデプスを画素値とする2D画像であるデプス画像を生成する。デプス画像は、撮影装置21からコンテンツサーバ22に供給される。
 なお、撮影装置21に、測距装置が設けられていない場合には、複数の視点の視点画像のうちの2視点の視点画像を用いて、三角測量の原理により、オブジェクトまでの距離を測定し、デプス画像を生成することができる。
 コンテンツサーバ22は、例えば、webサーバやクラウド上のサーバである。コンテンツサーバ22は、例えば、撮影装置21から供給される複数の視点の視点画像等を用いて、自由視点データのコンテンツ(動画コンテンツ)を生成する。コンテンツサーバ22は、編集装置23からの要求に応じて、自由視点データのコンテンツを、編集装置23に送信する。
 編集装置23は、コンテンツサーバ22に対して、自由視点データのコンテンツを要求して取得する。編集装置23は、コンテンツサーバ22から取得した自由視点データのコンテンツを再生する。すなわち、編集装置23は、仮想カメラで自由視点データを撮影した自由視点画像としての2D画像を生成して表示する。
 また、編集装置23は、自由視点画像の編集に用いられる編集画面を生成して表示する。ユーザは、編集画面を用いて、自由視点画像の編集を行うことができる。
 自由視点データとは、3次元空間の3次元構造を表現するデータであり、自由視点データによれば、所定の視点から3次元空間の被写体であるオブジェクトを見たときに見える画像、すなわち、所定の視点からオブジェクトを見たときの視線方向に垂直な投影面に、自由視点データにより表現される3次元空間内のビューイングボリューム(又はビューボリューム)を投影して得られる2D画像を生成することができる。この2D画像は、視点を自由に設定して生成することができるので、自由視点画像と呼ぶことができる。自由視点画像の生成にあたって必要となる視点(視線(方向)を含む)は、ユーザの実際の視点に関係なく仮想的に設定することができるので、かかる視点を、仮想視点ともいう。
 自由視点画像(動画)は、PCのモニタやスマートフォン等といった2次元平面形状のディスプレイで表示することができる。
 また、自由視点画像は、ヘッドマウントディスプレイ(HMD)で表示することができる。この場合、ヘッドトラッキング技術により、あたかも3次元空間の中に存在するかのような立体視を実現することができる。
 さらに、自由視点画像は、AR(Augmented Reality)グラス等の、透明で向こう側が透けて見えるディスプレイを使ったヘッドアップディスプレイ(HUD)で表示することができる。この場合、ユーザが実際に存在する3次元空間に、他の3次元空間で撮影された人物や物体等のオブジェクトを重畳して表示することができる。
 自由視点データ(によって表現される自由視点画像)は、2D画像と同様に、時間方向の自由度を有する他に、仮想視点、すなわち、自由視点データ(によって表現される3次元空間)を撮影する仮想カメラの撮影位置及び撮影姿勢(撮影方向)の自由度を有する。仮想カメラの撮影位置は、例えば、ワールド座標系としてのxyz座標系の座標等で表すことができ、仮想カメラの撮影姿勢は、ワールド座標系の各軸回りの回転角等で表すことができる。仮想カメラの撮影位置については、x軸、y軸、及び、z軸の方向への移動が可能であり、仮想カメラの撮影姿勢については、x軸、y軸、及び、z軸回りの回転が可能であるから、仮想カメラの撮影位置及び撮影姿勢には、6DoF(Degree of Freedom)の自由度がある。したがって、自由視点データについては、時間方向の1個の自由度と、仮想カメラの撮影位置及び撮影姿勢(仮想視点)の6個の自由度との、合計で7個の自由度がある。
 ここで、仮想視点に対する投影面に、自由視点データ(により表現される3次元空間内のビューイングボリューム)を投影することにより生成される自由視点画像としては、あたかも、仮想視点から、仮想的なカメラで、自由視点データの撮影を行ったかのような2D画像を得ることができる。したがって、仮想視点に対する投影面に、自由視点データを投影することは、仮想視点から、仮想的なカメラで、自由視点データを撮影することに相当する、ということができる。すなわち、仮想視点に対する投影面に、自由視点データを投影して、自由視点画像を生成することは、仮想視点に配置された仮想的なカメラで、自由視点データを撮影することと捉えることができる。そこで、本実施の形態では、自由視点画像の生成を、仮想的なカメラでの自由視点データの撮影と捉えて、適宜、説明を行う。また、自由視点データを撮影する仮想的なカメラを、仮想カメラともいう。
 仮想カメラの撮影位置及び撮影姿勢は、ユーザが、ジョイスティック、その他の位置及び姿勢をコントロールするコントローラ(デバイス)を操作することにより設定することができる。
 また、自由視点データの視聴に、HMDやHUDが用いられる場合、仮想カメラの撮影位置及び撮影姿勢は、HMDやHUDで検出されるユーザの視点及び視線(方向)に対応するように設定することができる。
 なお、コンテンツサーバ22及び編集装置23は、図1に示したように、それぞれを別個の装置として構成することもできるし、全体を1個の装置(例えば、PC(Personal Computer)等)として構成することもできる。さらに、コンテンツサーバ22は、全体を複数の装置で構成することができる。編集装置23も同様である。
<コンテンツサーバ22の構成例>
 図2は、図1のコンテンツサーバ22の構成例を示すブロック図である。
 コンテンツサーバ22は、自由視点データ生成部31、記憶部32、及び、通信部33を有する。
 自由視点データ生成部31は、撮影装置21からの複数の視点の視点画像とデプス画像とから、自由視点データを、フレーム単位で生成することにより、自由視点データのコンテンツを生成する。
 ここでは、自由視点データとは、広く、自由視点画像を生成することができる3D画像のデータ(3Dデータ)を意味する。自由視点データとしては、例えば、撮影装置21からの複数の視点の視点画像とデプス画像とのセットを、そのまま採用することができる。また、自由視点データとしては、その他、例えば、3次元の形状の情報である3D形状モデルと色の情報とを有する3Dデータや、複数の視点の2D画像とデプス画像とのセットを採用することができる。
 自由視点データとして、撮影装置21からの複数の視点の視点画像とデプス画像とのセットを採用する場合、自由視点データ生成部31は、撮影装置21からの複数の視点の視点画像とデプス画像とのセットを、そのまま、自由視点データとする。なお、撮影装置21からのデプス画像の視点が、撮影装置21からの視点画像の視点と異なる場合、自由視点データ生成部31は、撮影装置21からの複数の視点のデプス画像を用いて、撮影装置21からの視点画像の視点のデプス画像を生成することができる。
 自由視点データとして、3D形状モデルと色の情報とを有する3Dデータを採用する場合、自由視点データ生成部31は、撮影装置21からの複数の視点の視点画像を用いて、Visual Hull等によりモデリングを行って、視点画像に映るオブジェクトの3D形状モデル等を生成し、テクスチャとなる複数の視点の視点画像とともに、自由視点データとする。
 自由視点データとして、複数の視点の2D画像とデプス画像とのセットを採用する場合、自由視点データ生成部31は、例えば、上述したように、3D形状モデルと色の情報とを有する3Dデータを生成し、その3Dデータを、複数の視点(撮影装置21を構成するカメラと同一の視点でも良いし、異なる視点でも良い)から見た2D画像とデプス画像とのセットを、自由視点データとして生成する。
 自由視点データ生成部31は、以上のようにして、自由視点データのコンテンツを生成し、記憶部32に供給する。
 なお、自由視点データとしては、3D形状モデルを有する3Dデータよりも、複数の視点の2D画像とデプス画像とのセットを採用することにより、自由視点データのデータ量を少なくすることができる。自由視点データとして、複数の視点の2D画像とデプス画像とのセットを生成して伝送する技術については、本出願人が先に提案した国際公開2017/082076号に記載されている。自由視点データとしての複数の視点の2D画像とデプス画像とのセットは、例えば、MVCD(Multiview and depth video coding)や、AVC(Advanced Video Coding)、HEVC(High Efficiency Video Coding)等の2D画像を対象とする符号化方式により符号化することができる。
 また、自由視点データ(の表現形式)には、View Independentと呼ばれる3Dモデル(以下、VIモデルともいう)と、View Dependentと呼ばれる3Dモデル(以下、VDモデルともいう)とがある。
 VDモデルは、例えば、3D形状モデル等の3次元の形状に関する情報と、テクスチャとなる画像の情報とが別になっている3Dデータである。VDモデルでは、3D形状モデルに、テクスチャとなる画像がマッピング(テクスチャマッピング)されることにより、色が付される。VDモデルによれば、(仮想)視点によって異なるオブジェクトの表面の反射の具合等を表現することができる。VDモデルは、見えが視点に依存するので、View Dependentと呼ばれる。
 VIモデルは、例えば、3次元の形状に関する情報の構成要素としてのポリゴンや点が、色の情報を有している3Dデータ等である。VIモデルとしては、例えば、色付きのポイントクラウドや、3D形状モデルと、3D形状モデルの色の情報としてのUVマップとのセットがある。VIモデルによれば、どの(仮想)視点から見ても、ポリゴンや点が有する色が観測される。VIモデルは、見えが視点に依存しないので、View Independentと呼ばれる。
 記憶部32は、自由視点データ生成部31からの自由視点データのコンテンツを記憶する。
 通信部33は、編集装置23との間で通信を行う。すなわち、通信部33は、例えば、編集装置23からの要求に応じて、記憶部32に記憶された自由視点データのコンテンツを、編集装置23に送信する。
 なお、自由視点データ生成部31は、編集装置23に設けることができる。この場合、図1の画像処理システムにおいて、コンテンツサーバ22は不要になる。
 <編集装置23の構成例>
 図3は、図1の編集装置23の構成例を示すブロック図である。
 編集装置23は、通信部41、記憶部42、自由視点画像生成部43、表示制御部44、表示部45、操作部46、仮想カメラ設定部47、編集パラメータ取得部48、及び、ストロボモデル生成部49を有する。
 通信部41は、コンテンツサーバ22との間で通信を行う。すなわち、通信部41は、例えば、操作部46の操作に応じて、自由視点データのコンテンツの要求を送信する。また、通信部41は、その要求に応じて、コンテンツサーバ22から送信されてくる自由視点データのコンテンツを受信し、記憶部42に供給する。
 記憶部42は、通信部41からの自由視点データのコンテンツを記憶する。
 自由視点画像生成部43は、記憶部42に記憶された自由視点データ(によって表現される3次元空間)を、仮想カメラ設定部47から供給されるカメラパラメータが表す(状態の)仮想カメラで撮影した2D画像(仮想カメラで撮影することにより得られる2D画像)(左目用の2D画像及び右目用の2D画像のセットを含む)等を、自由視点画像(のデータ)として生成(レンダリング)し、表示制御部44に供給する。
 また、自由視点画像生成部43は、ストロボモデル生成部49から供給されるストロボモデル(自由視点データ)を、仮想カメラ設定部47から供給されるカメラパラメータの仮想カメラで撮影した2D画像の自由視点画像である3Dストロボ画像を生成し、表示制御部44に供給する。
 ここで、ストロボモデルとは、撮影装置21で撮影された3次元空間としての撮影空間(の3Dモデル)に、視点画像の複数のフレーム(時刻)の同一のオブジェクト(被写体)の3Dモデルが配置されたモデルであり、自由視点データを用いて生成することができる。
 表示制御部44は、表示部45に画像を表示させる表示制御を行う。例えば、表示制御部44は、自由視点画像生成部43から供給される自由視点画像を、表示部45に供給して表示させる。また、表示制御部44は、自由視点画像生成部43から供給される3Dストロボ画像としての自由視点画像と、編集パラメータ取得部48から供給され、3Dストロボ画像と連動する編集パラメータの時間変化であるアニメーションカーブと(の表示)を含む編集画面を生成し、表示部45に供給して表示させる。
 表示部45は、表示制御部44の表示制御に応じて、自由視点画像及び編集画面等を表示する。
 表示部45は、例えば、2DのHMD/HUDや、2Dのモニタ、3DのHMD/HUD、3Dのモニタ等で構成することができる。3DのHMD/HUDやモニタは、例えば、左目用の2D画像及び右目用の2D画像を表示することにより立体視を実現する表示装置である。
 操作部46は、ユーザによって操作され、ユーザの操作に応じた操作情報を、必要なブロックに供給する。なお、操作部46は、例えば、タッチパネル等によって、表示部45と一体的に構成することができる。また、操作部46は、表示部45とは別個のマウスやコントローラ等として構成することもできる。ユーザの操作部46の操作としては、例えば、仮想カメラ(のカメラパラメータ)を設定する操作や、編集画面に対する操作等を行うことができる。
 仮想カメラ設定部47は、自由視点データ、すなわち、記憶部42に記憶された自由視点データ、及び、ストロボモデル生成部49で生成されるストロボモデルを仮想カメラで撮影するときのカメラパラメータを設定し、自由視点画像生成部43に供給する。
 例えば、仮想カメラ設定部47は、ユーザの操作に応じて、仮想カメラの撮影位置、撮影姿勢、画角(焦点距離)、ズーム倍率等の仮想カメラのカメラパラメータを設定する。
 ここで、表示部45が、例えば、HMDやHUDである場合には、仮想カメラ設定部47は、HMDやHUDで検出されるユーザの視点及び視線に応じて、そのユーザの視点及び視線に対応するように、仮想カメラの撮影位置及び撮影姿勢を設定することができる。
 また、編集装置23が、例えば、スマートフォンやタブレット等の携帯端末である場合には、携帯端末の位置及び姿勢に応じて、その位置及び姿勢に対応するように、仮想カメラの撮影位置及び撮影姿勢を設定することができる。
 編集パラメータ取得部48は、記憶部42に記憶された自由視点データや仮想カメラ設定部47が設定するカメラパラメータ等から、オブジェクトの3Dモデルの位置その他の、自由視点画像の編集において編集の対象となる情報を、編集パラメータとして取得し、表示制御部44に供給する。
 ストロボモデル生成部49は、記憶部42に記憶された自由視点データを用い、視点画像に映る3次元空間(の3Dモデル)に、視点画像の複数のフレーム(異なる時刻)の同一のオブジェクトの自由視点データである3Dモデルが配置されたストロボモデルを生成する。
 すなわち、ストロボモデル生成部49は、ストロボモデルを生成する対象のフレームの区間であるストロボ区間のフレームから、ストロボモデルの生成に用いるフレーム(以下、生成フレームともいう)を選択する。さらに、ストロボモデル生成部49は、生成フレームに映るオブジェクトのうちの1以上のオブジェクトを、ストロボモデルに3Dモデルを配置する対象のオブジェクト(以下、対象オブジェクトともいう)に設定する。そして、ストロボモデル生成部49は、生成フレームに映る対象オブジェクトの3Dモデルが配置されたストロボモデルを生成し、自由視点画像生成部43に供給する。
 なお、ストロボモデル生成部49では、例えば、生成フレームに映る、動いているオブジェクトのすべてを、対象オブジェクトに設定することができる。また、ストロボモデル生成部49では、例えば、生成フレームに映るオブジェクトのうちの、編集装置23のユーザによって指定されたオブジェクトを、対象オブジェクトに設定することができる。
 自由視点画像生成部43は、ストロボモデル生成部49からストロボモデルが供給されると、そのストロボモデルを、仮想カメラ設定部47からのカメラパラメータの仮想カメラで撮影した自由視点画像である3Dストロボ画像を生成し、表示制御部44に供給する。
 ここで、ストロボ画像とは、複数の時刻に撮影された1つ以上の同一のオブジェクト(像)が映る画像である。2D画像に映るオブジェクトをそのまま用いたストロボ画像を、2Dストロボ画像ということとすると、3Dストロボ画像は、オブジェクトの3Dモデルを撮影して得られるストロボ画像、すなわち、ストロボモデルを仮想視点から見たストロボ画像であり、2Dストロボ画像とは異なる。
 また、編集装置23は、外部との通信を行う機能、画像を表示する機能、及び、ユーザの操作を受け付ける機能を、少なくとも有していればよい。図3において、その他の機能、例えば、自由視点画像生成部43や、表示制御部44、仮想カメラ設定部47、編集パラメータ取得部48、及び、ストロボモデル生成部49によって実現される機能は、例えば、コンテンツサーバ22や、クラウド上のサーバに設けることができる。
 <編集装置23の処理>
 図4は、図3の編集装置23が行う自由視点画像の編集処理の例を説明するフローチャートである。
 ステップS11において、通信部41は、例えば、ユーザの操作に応じて、自由視点データのコンテンツを、コンテンツサーバ22に要求し、処理は、ステップS12に進む。
 ステップS12では、通信部41は、コンテンツサーバ22から、自由視点データのコンテンツが送信されてくるのを待って、その自由視点データのコンテンツを受信する。通信部41は、コンテンツサーバ22からの自由視点データのコンテンツを、記憶部42に供給して記憶させ、処理は、ステップS12からステップS13に進む。
 ステップS13では、編集装置23は、記憶部42に記憶された自由視点データのコンテンツを再生し、処理は、ステップS14に進む。
 すなわち、編集装置23では、仮想カメラ設定部47が、仮想カメラのカメラパラメータを設定し、自由視点画像生成部43は、仮想カメラ設定部47で設定されたカメラパラメータの仮想カメラで自由視点データを撮影した自由視点画像をレンダリングすることにより生成し、表示制御部44に供給する。
 ステップS14では、表示制御部44は、編集パラメータ取得部48で取得された編集パラメータを用いて、自由視点画像の編集において編集の対象となる編集パラメータの時間変化であるアニメーションカーブを生成する。さらに、表示制御部44は、自由視点画像生成部43からの自由視点画像とアニメーションカーブ(の表示)とを含む編集画面を生成する。そして、表示制御部44は、編集画面を、表示部45に供給して表示させ、処理は、ステップS14からステップS15に進む。
 ステップS15では、例えば、ステップS14で表示された編集画面を構成する自由視点画像に映るオブジェクト(被写体)について、3Dストロボ画像の表示を要求するように、ユーザが操作するのを待って、3Dストロボ画像が生成される。
 すなわち、ステップS15では、ストロボモデル生成部49は、編集画面を構成する自由視点画像に映るオブジェクトのいずれかを対象オブジェクトとして、視点画像の複数のフレームに映る対象オブジェクトの3Dモデルが配置されたストロボモデルを生成し、自由視点画像生成部43に供給する。自由視点画像生成部43は、ストロボモデル生成部49からのストロボモデルを、仮想カメラで撮影した自由視点画像である3Dストロボ画像を生成する。そして、自由視点画像生成部43は、3Dストロボ画像を、表示制御部44に供給して、処理は、ステップS15からステップS16に進む。
 ステップS16では、表示制御部44は、編集パラメータ取得部48で取得された編集パラメータを用いて、自由視点画像生成部43からの3Dストロボ画像と連動する編集パラメータの時間変化であるアニメーションカーブを生成する。さらに、表示制御部44は、自由視点画像生成部43からの3Dストロボ画像と、その3Dストロボ画像(に映るオブジェクト)と連動するアニメーションカーブとを含む編集画面を生成する。そして、表示制御部44は、編集画面を、表示部45に供給して表示させ、処理は、ステップS16からステップS17に進む。
 ステップS17では、編集装置23は、編集画面に対するユーザの操作に応じて、自由視点画像を編集する。
 図5は、3Dストロボ画像を生成する図4のステップS15の処理の詳細を説明するフローチャートである。
 ステップS51において、ストロボモデル生成部49は、ストロボモデルを生成する対象のフレームの区間であるストロボ区間を設定し、処理は、ステップS52に進む。
 例えば、ストロボモデル生成部49は、3Dストロボ画像の表示を要求するように、ユーザが操作したときの、編集画面を構成する自由視点画像のフレームを基準として、所定の第1のフレーム数だけ過去のフレームから、所定の第2のフレーム数だけ未来のフレームまでの区間を、ストロボ区間に設定する。第1及び第2のフレーム数は、例えば、ユーザの操作等に応じて設定することができる。
 ステップS52では、ストロボモデル生成部49は、編集画面を構成する自由視点画像に映るオブジェクトから、ストロボモデルに3Dモデルを配置する対象の対象オブジェクトを設定し、処理は、ステップS53に進む。
 例えば、ユーザの操作や視線に応じて指定されるオブジェクト等が、対象オブジェクトに設定される。
 ステップS53では、ストロボモデル生成部49は、ストロボ区間のフレームから、ストロボモデルの生成に用いる生成フレームを選択し、処理は、ステップS54に進む。
 ここで、ストロボ区間の全フレームを生成フレームとして、ストロボモデルの生成に用いると、ストロボモデルには、ストロボ区間のフレーム数と同一の数の、同一のオブジェクトの3Dモデルが重なって配置され、3Dストロボ画像が見にくい画像となることがある。
 そこで、ストロボモデル生成部49は、ストロボ区間のフレームから、幾つかのフレームを生成フレームとして選択し、その生成フレーム(に映るオブジェクトの3Dモデル)を用いて、ストロボモデルを生成することができる。
 ストロボモデル生成部49は、例えば、ストロボ区間のフレームから、3Dモデルの干渉度が閾値以下となるフレームを、生成フレームとして選択することができる。すなわち、ストロボモデル生成部49は、ストロボ区間のフレームに映る対象オブジェクトの3Dモデルを、3次元空間に配置した状態での、3Dモデルどうしの重なり具合を表す干渉度を算出する。干渉度は、例えば、3次元空間において、任意の2フレームの3Dモデルが完全に重なる場合を100%とするとともに、まったく重ならない場合を0%として算出される。そして、ストロボモデル生成部49は、干渉度が所定の閾値以下のフレームを、生成フレームとして選択する。以上のように、ストロボ区間のフレームから、3Dモデルの干渉度が閾値以下となるフレームを、生成フレームとして選択し、その生成フレームに映る対象オブジェクトの3Dモデルが配置されたストロボモデルを生成することにより、ストロボモデルにおいて、3Dモデルが重なって配置され、3Dストロボ画像が見にくい画像となることを抑制することができる。
 なお、生成フレームの選択では、その他、例えば、単純に、ストロボ区間のフレームを、所定のフレーム数ごとに、生成フレームとして選択することができる。
 また、ストロボ区間内のフレームに、キーフレームが設定されている場合には、そのキーフレームを、生成フレームに含めることができる。キーフレームとは、例えば、編集のIN点やOUT点となるフレームや、エフェクトをかける開始点のフレーム等の、編集のキーとなるフレームである。
 ステップS54では、ストロボモデル生成部49は、記憶部42に記憶された自由視点データを用い、ストロボ区間のフレームから選択された複数の生成フレームに映る対象オブジェクトの3Dモデルが、その対象オブジェクトが撮影されたときの撮影空間としての背景(の3Dモデル)に配置されたストロボモデルを生成する。そして、ストロボモデル生成部49は、ストロボモデルを、自由視点画像生成部43に供給し、処理は、ステップS54からステップS55に進む。
 ステップS55では、自由視点画像生成部43は、ストロボモデル生成部49からのストロボモデルを、仮想カメラ設定部47からのカメラパラメータの仮想カメラで撮影した自由視点画像である3Dストロボ画像を生成し、処理は終了する。
 <3Dストロボ画像の生成>
 図6は、不自然な3Dストロボ画像の例を示す図である。
 図6は、手前側から奥側にオブジェクトとしてのボールが転がっている様子を撮影した視点画像のフレームのうちの5フレームを生成フレームとして用いて生成されたストロボモデルから生成された3Dストロボ画像の例を示している。
 図6では、5フレームの生成フレームに映るボールの3Dモデルが、時間的に後の3Dモデルを優先するように配置(レンダリング)されている。そのため、時間的に後の(ボールの)3Dモデルが、奥側に位置するのにもかかわらず、時間的に前の手前側の3Dモデルを隠すように配置されている。その結果、図6の3Dストロボ画像は、不自然な画像になっている。
 図7は、自然な3Dストロボ画像の例を示す図である。
 図7は、手前側から奥側にオブジェクトとしてのボールが転がっている様子を撮影した視点画像のフレームのうちの5フレームを生成フレームとして用いて生成されたストロボモデルから生成された3Dストロボ画像の例を示している。
 図7では、5フレームの生成フレームに映るボールの3Dモデルが、手前側の3Dモデルを優先するように配置されている。そのため、手前側の3Dモデルが奥側の3Dモデルを隠すように、すなわち、手前側の3Dモデルが優先的に映るように配置されている。その結果、自由視点画像は、自然な画像になっている。
 自由視点画像生成部43は、ストロボモデルに配置された各オブジェクトの3Dモデルのデプス(奥行)を用いて、以上のような、手前側のオブジェクトの3Dモデルが優先的に映る3Dストロボ画像を生成する(仮想カメラにより撮影する)。
 図8は、ストロボ区間の視点画像のフレームの例を示す図である。
 図8では、時刻t1ないしt9の9フレームが、ストロボ区間の視点画像のフレームになっている。時刻t1ないしt9のフレームには、オブジェクトとしてのボールが左から右に転がっていく様子が映っている。図8では、図が煩雑になるのを避けるため、ある1視点の視点画像のフレームを図示してある。
 図9は、ストロボ区間としての時刻t1ないしt9のフレームを用いたストロボモデルの生成の例を示す図である。
 図9では、ストロボ区間としての時刻t1ないしt9のフレームのうちの、時刻t1,t3,t5,t7、及び、t9のフレームが生成フレームに選択されている。さらに、図9では、複数の視点の視点画像の生成フレームとしての時刻t1,t3,t5,t7、及び、t9のフレームに映るオブジェクトとしてのボールの3Dモデルが配置されたストロボモデルが生成されている。
 図10は、仮想カメラによるストロボモデルの撮影により生成される3Dストロボ画像の表示の例を示す図である。
 3Dストロボ画像としては、時刻t1,t3,t5,t7、及び、t9のフレームに映るオブジェクトとしてのボールの3Dモデルが撮影されたフレームを生成して表示することができる。また、3Dストロボ画像としては、図9のストロボモデルから、時刻t1のフレームに映るオブジェクトとしてのボールの3Dモデルが撮影されたフレーム、時刻t1及びt3のフレームに映るオブジェクトとしてのボールの3Dモデルが撮影されたフレーム、時刻t1,t3、及び、t5のフレームに映るオブジェクトとしてのボールの3Dモデルが撮影されたフレーム、時刻t1,t3,t5、及び、t7のフレームに映るオブジェクトとしてのボールの3Dモデルが撮影されたフレーム、並びに、時刻t1,t3,t5,t7、及び、t9のフレームに映るオブジェクトとしてのボールの3Dモデルが撮影されたフレームを生成し、順次表示することができる。
 図10の3Dストロボ画像では、ストロボモデルを撮影する仮想カメラの撮影位置等が変更されていないが、仮想カメラの撮影位置等は、変更することができる。例えば、時刻t1,t3,t5,t7、及び、t9のフレームに映るオブジェクトとしてのボールの3Dモデルが配置されたストロボモデルを、撮影位置を変更しながら、仮想カメラで撮影することができる。撮影位置が変更される場合には、ストロボモデルを見る視点が変更され、カメラアングルが変化する3Dストロボ画像が表示される。
 <編集画面の例>
 図11は、編集画面の例を示す図である。
 ここで、既存のノンリニア編集ツールでは、エフェクト量を編集するアニメーションカーブを決定する際、2D画像ベースの撮影画像をプレイバックしながらキーフレームが設定される。
 例えば、既存のノンリニア編集ツールでは、ユーザは、サムネイルの連続表示や、プレイヤ画面で再生、巻き戻し、早送りなどを繰り返しながら、適切なキーフレームのタイミングを設定する。
 既存のノンリニア編集ツールでは、複数のキーフレームが設定され、操作する編集パラメータの数が増えると、複数のアニメーションカーブ上に、複数のキーフレームを表すキーポイントが表示され、どのタイミングでどの編集パラメータを変更すべきか、直感的な判断が難しくなることがある。
 また、編集対象が自由視点画像である場合、複数の自由視点画像の(3D)合成を行うときには、複数のオブジェクト(被写体)を、時空間上の適切な位置及びタイミングに配置することが重要になる。しかしながら、単純に、ある瞬間の3Dモデルを合成して2D画像にレンダリングするだけでは、オブジェクトどうしに不自然な重なりを生じさせないことや、オブジェクトどうしの動きのタイミングを合わせることが困難である。
 例えば、異なった時刻に別々に撮影した複数のダンサーのオブジェクトについて、いずれの時空間でも重なり合わないことを確認しつつ、ダンサーのジャンプ等の決定的瞬間のタイミングや、スピード、位置を合わせながら、タイムストレッチを行うには、タイムライン上を何度も移動しつつ、再生速度や、オブジェクトの位置、オブジェクトの動きのタイミング等を調整する必要があると予想される。
 複数の3Dモデルについて、動作や、位置、形状等を、製作者の意図や自動制御で変更することができるCG(Computer Graphics)ソフトウエアでのモデリングと異なり、撮影装置21で撮影された実写ベースの自由視点画像の編集には、オブジェクトどうしに不自然な重なりが生じないこと等の複雑な制約条件(拘束条件)が発生する。
 したがって、自由視点画像の編集を容易にするための編集UI(User Interface)のブレークスルーが求められる。
 本技術の編集画面によれば、自由視点画像の編集を容易に行うことができる。
 編集画面は、図11に示すように、画像表示部111とパラメータ表示部112とで構成される。
 画像表示部111には、自由視点画像が表示される。
 パラメータ表示部112には、画像表示部111に表示される3Dストロボ画像等の自由視点画像と連動する、自由視点画像の編集において編集の対象となる編集パラメータが、横軸を時間とするとともに、縦軸を編集パラメータの値として表示される。編集パラメータの時間変化を表すカーブは、アニメーションカーブと呼ばれる。したがって、パラメータ表示部112には、アニメーションカーブが表示される。アニメーションカーブ上の黒丸は、キーポイントを表す。キーポイントは、キーフレーム(の時刻)を表す。キーフレームとは、例えば、編集のIN点やOUT点となるフレームや、エフェクトをかける開始点のフレーム等の、編集のキーとなるフレームである。キーフレームは、例えば、ユーザの操作等に応じて設定される。
 図11では、バスケットの試合を撮影した自由視点画像が表示されている。
 自由視点画像に映るオブジェクト(プレーヤや、ボール、バスケットゴール等)は、各種のパラメータを有する。
 オブジェクトが有するパラメータとしては、例えば、オブジェクト識別ID、オブジェクトタイプ(ラベル)、時間情報付き3Dデータ、時間情報付きバウンディングボックス、時間情報付き重心位置、その他メタデータがある。
 オブジェクト識別IDとは、オブジェクトに付されたユニークなIDである。オブジェクトタイプ(ラベル)は、オブジェクトがボールであるとかプレーヤである等のオブジェクトのタイプ(種類)を表す。時間情報付き3Dデータとは、各時刻のオブジェクトの3Dモデルを構成するメッシュや、Point Cloud のポイント等の3Dデータである。時間情報付きバウンディングボックスとは、各時刻のオブジェクトの3Dモデルを囲む直方体であるバウンディングボックスのデータである。時間情報付き重心位置とは、各時刻のオブジェクトの3Dモデルの重心位置である。その他メタデータとしては、例えば、オブジェクトの名前や、行っているアクション、オブジェクトが動くスピード、その他のオブジェクトの状態等を表すデータがある。
 パラメータ表示部112では、例えば、時間情報付き重心位置(としてのx,y,z座標それぞれ)や、時間情報付き3D形状データ等から把握されるオブジェクトの色及び明るさ等を編集パラメータとして、その編集パラメータの時間変化であるアニメーションカーブを表示することができる。また、パラメータ表示部112では、例えば、画像表示部111に表示された自由視点画像を仮想カメラで撮影したときのカメラパラメータのアニメーションカーブを表示することができる。
 ユーザは、例えば、編集画面の画像表示部111に表示された自由視点画像の再生を一時停止し、一時停止状態の自由視点画像に映る任意のオブジェクトを、クリック等によって、編集対象(のオブジェクト)として選択することができる。
 図12は、編集対象のオブジェクトが選択された後の編集画面の例を示す図である。
 編集対象として選択されたオブジェクト以外の任意のオブジェクトは、ユーザの編集作業の邪魔になることがあるので、自由視点画像から消去することができる。
 図12では、プレーヤの一人が、編集対象として選択され、他のプレーヤが消去されている。
 ユーザが、編集対象としてのオブジェクトの選択を確定する操作を行うと、ストロボモデル生成部49は、編集対象としてのオブジェクトを、ストロボモデルに3Dモデルを配置する対象オブジェクトに設定する。そして、ストロボモデル生成部49は、画像表示部111に表示された自由視点画像のフレームを含む所定の区間をストロボ区間として、対象オブジェクトの3Dモデルが配置されたストロボモデルを生成し、自由視点画像生成部43に供給する。
 自由視点画像生成部43は、ストロボモデル生成部49からのストロボモデルから3Dストロボ画像としての自由視点画像を生成し、表示制御部44に供給する。
 また、編集パラメータ取得部48は、例えば、記憶部42に記憶された自由視点データ等から、自由視点画像の編集において編集の対象となる、3Dストロボ画像に映る対象オブジェクトに関係する情報を、3Dストロボ画像と連動する編集パラメータとして取得し、表示制御部44に供給する。
 表示制御部44は、自由視点画像生成部43から供給される3Dストロボ画像としての自由視点画像と、編集パラメータ取得部48から供給される編集パラメータの時間変化であるアニメーションカーブと(の表示)を含む編集画面を生成し、表示部45に供給して表示させる。
 図13は、3Dストロボ画像と、その3Dストロボ画像と連動するアニメーションカーブとを含む編集画面の例を示す図である。
 図13において、キーポイントに付してある三角形と同一模様の三角形を付してある(対象)オブジェクトは、キーポイントが表すキーフレームに映るオブジェクトである。
 対象オブジェクトが映る3Dストロボ画像の生成にあたり、ストロボ区間や生成フレームは、固定的又は適応的に選択することができる。
 ストロボ区間や生成フレームを適応的に選択する方法としては、例えば、対象オブジェクトの移動量やスピードに応じて、ストロボ区間や生成フレームを選択する方法等がある。また、ストロボ区間や生成フレームの選択方法については、コンテンツに適切と思われる複数の選択方法を用意しておき、その複数の選択方法の中から、ユーザの指示に応じた選択方法を採用することができる。
 その他、生成フレームの選択については、例えば、ある生成フレームに映る対象オブジェクトの3Dモデルと、その生成フレームの前後の生成フレームに映る対象オブジェクトの3Dモデルとの距離が一定距離になるように、生成フレームを選択することができる。また、対象オブジェクトのスピードが速い区間では、生成フレームを、密な間隔で選択することができる。さらに、例えば、対象オブジェクトがジャンプして最高到達点に達したシーンが映るフレームや、シュートしたシーンが映るフレーム、その他の特定のシーンが映るフレームを、インテリジェントな検出方法で検出し、生成フレームに選択することができる。
 なお、アニメーションカーブ上のキーポイントが表すキーフレームについては、強制的に生成フレームに選択することができる。この場合、キーフレームに映る対象オブジェクトが映る3Dストロボ画像を生成することができる。
 編集画面において、複数の生成フレームの対象オブジェクトが映る3Dストロボ画像が画像表示部111に表示されるとともに、その3Dストロボ画像に映る対象オブジェクト等と連動するアニメーションカーブ、すなわち、例えば、対象オブジェクトの時間情報付き重心位置等のアニメーションカーブがパラメータ表示部112に表示されることにより、ユーザが、対象オブジェクトの変化を一覧して把握しながら、アニメーションカーブ(編集パラメータ)をタイムラインで編集を行うための準備が整う。
 図14は、画像表示部111に表示される3Dストロボ画像と、パラメータ表示部112に表示されるアニメーションカーブとの連動の例を示す図である。
 ユーザは、画像表示部111に表示された3Dストロボ画像に映る対象オブジェクトをクリックすることで、そのクリックした対象オブジェクトを、注目する注目オブジェクトに選択することができる。また、ユーザは、パラメータ表示部112に表示されたアニメーションカーブ(のタイムライン)上のキーポイントをクリックすることで、そのクリックしたキーポイントが表すキーフレームに映る対象オブジェクトを、注目オブジェクトに選択することができる。図14では、太線で囲む対象オブジェクトが注目オブジェクトに選択されている。
 そして、ユーザは、画像表示部111に表示された3Dストロボ画像に映る注目オブジェクトをドラッグ(スクラビング)することで、移動させることができる。
 例えば、注目オブジェクトがキーフレームに映る対象オブジェクトである場合、表示制御部44は、注目オブジェクトの移動に連動して、注目オブジェクトが映るキーフレームを表す、アニメーションカーブ上のキーポイントを、アニメーションカーブに沿って移動させる。
 以上のように、キーポイントが移動されることにより、キーフレームが、移動後のキーポイントが表すフレームに変更される。
 したがって、ユーザは、情報量の乏しいアニメーションカーブのタイムライン上ではなく、時空間の一覧性の良い3Dストロボ画像に対する操作によって、直感的に、キーフレームを変更する編集操作を行うことができる。
 なお、表示制御部44は、画像表示部111に表示された3Dストロボ画像に、注目オブジェクトを移動させたときの、その注目オブジェクトの重心位置の移動表す矢印等のGUIを表示させることができる。これにより、ユーザは、注目オブジェクトを移動させたときの、移動後の位置を認識しやすくなる。
 ここで、図14において、3Dストロボ画像に図示してある片方向の矢印は、対象オブジェクトの移動の軌跡を表す。注目オブジェクトの移動は、片方向の矢印に沿って行われる。片方向の矢印は、実際に表示することもできるし、表示しないこともできる。
 図15は、仮想カメラのカメラパラメータの変更により得られる3Dストロボ画像の例を示す図である。
 編集画面の画像表示部111に表示される3Dストロボ画像は、ストロボモデルを仮想カメラで撮影して得られる画像であるため、仮想カメラの撮影位置等のカメラパラメータを変更することにより、アングル等を変更することができる。
 例えば、ある撮影位置からストロボモデルを撮影した場合に、仮想カメラから見て、ストロボモデルに配置された対象オブジェクトの3Dモデルが奥行方向に並び、3Dストロボ画像において、対象オブジェクトどうしが密集して重なることがある。この場合、ユーザは、注目オブジェクト(とする対象オブジェクト)を選択しにくくなる。
 そこで、ユーザは、操作部46の操作等により、仮想カメラの撮影位置やズーム倍率等のカメラパラメータを変更することができる。
 例えば、仮想カメラの撮影位置が変更されると、画像表示部111に表示される3Dストロボ画像は、図15に示すように、変更後の撮影位置からストロボモデルを撮影した3Dストロボ画像に変更される。
 以上のように、ユーザは、仮想カメラのカメラパラメータを変更することにより、注目オブジェクトを選択しやすい状態で対象オブジェクトが映る3Dストロボ画像を表示させることができる。
 なお、編集画面において、画像表示部111に表示される3Dストロボ画像を生成する撮影を行う仮想カメラのカメラパラメータを変更するユーザの操作(以下、パラメータ変更操作ともいう)は、編集作業を行うユーザにとって適した状態で対象オブジェクトが映る3Dストロボ画像を画像表示部111に表示させるための操作である。
 かかるパラメータ変更操作は、必要に応じて行うことができる。また、パラメータ変更操作での変更後のカメラパラメータは、自由視点画像の編集に反映されない。したがって、パラメータ変更操作が行われた場合に、パラメータ変更操作での変更後のカメラパラメータの仮想カメラで撮影された自由視点画像が、編集後の自由視点画像として生成されるわけではない。
 但し、編集装置23では、パラメータ変更操作での変更後のカメラパラメータを、自由視点画像の編集に反映させることもできる。
 図16は、ユーザが仮想カメラのカメラパラメータの変更を要求するように操作を行った場合の編集画面の例を示す図である。
 ユーザが仮想カメラのカメラパラメータの変更を要求するように操作を行うと、編集画面には、操作パネル131及び132、並びに、コミットボタン133が表示される。
 操作パネル131は、仮想カメラのズーム倍率を設定するときに操作される。操作パネル132は、仮想カメラの撮影位置及び撮影姿勢(向き)を設定する場合に操作される。
 仮想カメラ設定部47は、操作パネル131及び132の操作に応じて、仮想カメラのカメラパラメータ、すなわち、例えば、ズーム倍率、撮影位置、又は、撮影姿勢(の設定)を変更し、自由視点画像生成部43に供給する。これにより、自由視点画像生成部43は、変更後のズーム倍率、撮影位置、撮影姿勢の仮想カメラでストロボモデルを撮影した3Dストロボ画像を生成し、表示制御部44に供給する。
 表示制御部44は、自由視点画像生成部43からの、変更後のズーム倍率、撮影位置、撮影姿勢の仮想カメラでストロボモデルを撮影した3Dストロボ画像を、画像表示部111に表示させる。
 コミットボタン133は、画像表示部111に表示された3Dストロボ画像を撮影した仮想カメラのカメラパラメータを、編集後の自由視点画像に反映する場合に操作される。
 例えば、ユーザが、アニメーションカーブ上の所定の位置p1(時刻)(フレーム)を、キーポイントとして指定し、操作パネル131及び132を操作して、仮想カメラのカメラパラメータを変更すると、変更後のカメラパラメータの仮想カメラでストロボモデルを撮影した3Dストロボ画像が、画像表示部111に表示される。そして、ユーザが、コミットボタン133を操作すると、表示制御部44は、変更後のカメラパラメータ、すなわち、画像表示部111に表示された3Dストロボ画像を撮影した仮想カメラのカメラパラメータに連動して、パラメータ表示部112に表示されたアニメーションカーブを変更する。
 具体的には、表示制御部44は、仮想カメラのズーム倍率、撮影位置、撮影姿勢等のカメラパラメータのアニメーションカーブがパラメータ表示部112に表示されている場合には、そのアニメーションカーブを、変更後のカメラパラメータが反映されるように変更する。
 図17は、キーポイントと、そのキーポイントが表すキーフレームに映る対象オブジェクトとを対応付ける対応付け表示の例を示す図である。
 キーフレーム(キーポイント)の数が増加すると、パラメータ表示部112に表示されたアニメーションカーブ上のキーポイントと、画像表示部111に表示された、3Dストロボ画像上の、キーポイントが表すキーフレームに映る対象オブジェクトとの対応が分かりにくくなることがある。
 そこで、編集画面では、キーポイントと、そのキーポイントが表すキーフレームに映る対象オブジェクトとを対応付ける対応付け表示を行うことができる。
 対応付け表示としては、例えば、キーポイントと、そのキーポイントに対応する3Dストロボ画像上の対象オブジェクト(そのキーポイントが表すキーフレームに映る対象オブジェクト)とに、同一のタグt#i(図17では、タグt1,t2,t3,t4)を付すことを採用することができる。
 また、対応付け表示としては、例えば、キーポイントに色を付すとともに、そのキーポイントに対応する3Dストロボ画像上の対象オブジェクトを、キーポイントに付した色と同一の色で囲むことを採用することができる。
 以上のように、対応付け表示を行うことで、ユーザは、アニメーションカーブ上のキーポイントに対応する3Dストロボ画像上の対象オブジェクトを、視覚的に、直感的に認識することができる。
 図18は、対象オブジェクトが通過する空間を表す通過空間画像が重畳された3Dストロボ画像の例を示す図である。
 表示制御部44は、対象オブジェクトが通過する空間を表す通過空間画像が重畳された3Dストロボ画像を、画像表示部111に表示させることができる。
 通過空間画像としては、半透明のパイプ状の画像等を採用することができる。
 異なる複数のオブジェクトについて、通過空間画像を表示することにより、その複数のオブジェクトを合成するときに、オブジェクト(の3Dモデル)どうしが衝突(干渉)するかどうかを、容易に確認することができる。
 また、3Dストロボ画像に映る対象オブジェクトは、離散的な時刻(フレーム)の対象オブジェクトであるため、あるオブジェクトobjAと他のオブジェクトobjBとのそれぞれを対象オブジェクトとする3Dストロボ画像を表示するだけでは、オブジェクトobjAとオブジェクトobjBとが衝突し得るかどうかを確認することが難しいことがある。
 これに対して、オブジェクトobjAとオブジェクトobjBとのそれぞれについての通過空間画像を表示することにより、オブジェクトobjAとオブジェクトobjBとが衝突し得るかどうかを、容易に確認することができる。
 図19は、対象オブジェクトが通過する空間を表す通過空間画像が重畳された3Dストロボ画像の他の例を示す図である。
 図19の通過空間画像は、対象オブジェクトが通過する空間を、時刻の経過とともに表す画像になっている。
 すなわち、図19の通過空間画像は、対象オブジェクトが通過する時刻が早い時刻(過去の時刻)の空間であるほど透明になっており、対象オブジェクトが通過する時刻が遅い時刻(未来の時刻)の空間であるほど濃くなっている。
 その他、通過空間画像において、時刻の経過は、グラデーションによって表現することができる。例えば、通過空間画像において、対象オブジェクトが通過する時刻が最も早い空間部分を青色にし、時刻の経過に従って、徐々に、通過空間画像を赤色に変化させることができる。
 通過空間画像として、対象オブジェクトが通過する空間を、時刻の経過とともに表す画像を採用することにより、ユーザは、3Dストロボ画像に映る複数の対象オブジェクトの並びにおいて、対象オブジェクトが時刻の経過に従って移動していく方向を、容易に認識することができる。
 以上のように、編集装置23では、3Dストロボ画像と、その3Dストロボ画像と連動するアニメーションカーブとを含む編集画面が表示される。したがって、例えば、3Dストロボ画像に映る対象オブジェクトの操作に応じて、アニメーションカーブが変化するので、自由視点画像の編集を容易に行うことができる。すなわち、自由視点画像の編集の操作性を飛躍的に向上させ、これにより、編集の効率を向上させることができる。さらに、新たな編集UIを、ユーザに体験させることができる。
 また、編集画面に表示される3Dストロボ画像によれば、ユーザは、対象オブジェクトの時間的な変化を一覧し、例えば、タイムライン上のシーンの変化(点)を、直感的に認識することができる。その結果、ユーザは、決定的瞬間、その他、キーフレームとして適切なシーンが映るフレームを、容易に発見し、キーフレームに設定することができる。
 さらに、編集画面によれば、アニメーションカーブ上の複数のキーポイントが表すキーフレームに映る対象オブジェクトを、3Dストロボ画像によって確認することができる。
 また、編集画面によれば、画像表示部111に表示された3Dストロボ画像に映る対象オブジェクトを、ドラッグ等により移動することで、キーフレーム(を表すキーポイント)を、直感的に変更することができる。
 さらに、編集画面によれば、ユーザの操作に応じて、アングルやズーム倍率が変更された3Dストロボ画像が表示されるので、ユーザは、3Dストロボ画像を、対象オブジェクトが見やすい状態にして、その3Dストロボ画像から、キーフレームの変更等の操作に用いる注目オブジェクトを容易に選択することができる。
 また、編集画面において、キーポイントと、そのキーポイントが表すキーフレームに映る対象オブジェクトとを対応付ける対応付け表示を行うことで、ユーザは、アニメーションカーブ上のキーポイントに対応する3Dストロボ画像上の対象オブジェクトを、直感的に認識することができる。
 さらに、編集画面において、通過空間画像が重畳された3Dストロボ画像を表示することにより、ユーザは、合成しようとしているオブジェクトどうしが干渉するかどうかの確認や、オブジェクトどうしを干渉しないように合成するタイミングの調整を、容易に行うことができる。
 <本技術を適用したコンピュータの説明>
 次に、上述した一連の処理は、ハードウエアにより行うこともできるし、ソフトウエアにより行うこともできる。一連の処理をソフトウエアによって行う場合には、そのソフトウエアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 図20は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
 プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク905やROM903に予め記録しておくことができる。
 あるいはまた、プログラムは、ドライブ909によって駆動されるリムーバブル記録媒体911に格納(記録)しておくことができる。このようなリムーバブル記録媒体911は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体911としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブル記録媒体911からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク905にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)902を内蔵しており、CPU902には、バス901を介して、入出力インタフェース910が接続されている。
 CPU902は、入出力インタフェース910を介して、ユーザによって、入力部907が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)903に格納されているプログラムを実行する。あるいは、CPU902は、ハードディスク905に格納されたプログラムを、RAM(Random Access Memory)904にロードして実行する。
 これにより、CPU902は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU902は、その処理結果を、必要に応じて、例えば、入出力インタフェース910を介して、出力部906から出力、あるいは、通信部908から送信、さらには、ハードディスク905に記録等させる。
 なお、入力部907は、キーボードや、マウス、マイク等で構成される。また、出力部906は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 なお、本技術は、以下の構成をとることができる。
 <1>
 複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、
 前記3Dストロボ画像と連動する、前記複数の視点画像から生成される自由視点データを前記仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータと
 を表示させる表示制御部を備える
 画像処理装置。
 <2>
 前記表示制御部は、前記編集パラメータの時間変化であるアニメーションカーブを表示させる
 <1>に記載の画像処理装置。
 <3>
 前記ストロボモデルは、前記視点画像のフレームのうちの、少なくとも所定のキーフレームを用いて生成され、
 前記表示制御部は、前記3Dストロボ画像の、前記キーフレームに映るオブジェクトの移動に連動して、前記アニメーションカーブ上の前記キーフレームを表すキーポイントを移動させる
 <2>に記載の画像処理装置。
 <4>
 前記仮想カメラのカメラパラメータを設定する仮想カメラ設定部をさらに備える
 <2>又は<3>に記載の画像処理装置。
 <5>
 前記表示制御部は、前記仮想カメラのカメラパラメータのアニメーションカーブが表示されている場合、前記仮想カメラのカメラパラメータの変更に応じて、前記アニメーションカーブを、変更後のカメラパラメータが反映されるように変更する
 <4>に記載の画像処理装置。
 <6>
 前記カメラパラメータは、前記仮想カメラの撮影位置、撮影姿勢、又は、ズーム倍率である
 <4>又は<5>に記載の画像処理装置。
 <7>
 前記ストロボモデルは、前記視点画像のフレームのうちの、少なくとも所定のキーフレームを用いて生成され、
 前記表示制御部は、前記アニメーションカーブ上の前記キーフレームを表すキーポイントと、前記3Dストロボ画像に映るオブジェクトのうちの、前記キーポイントが表すキーフレームに映るオブジェクトとを対応付ける対応付け表示を表示させる
 <2>ないし<6>のいずれかに記載の画像処理装置。
 <8>
 前記表示制御部は、前記3Dストロボ画像に映るオブジェクトが通過する空間を表す通過空間画像を重畳した前記3Dストロボ画像を表示させる
 <1>ないし<7>のいずれかに記載の画像処理装置。
 <9>
 前記通過空間画像は、前記オブジェクトが通過する空間を、時刻の経過とともに表す画像である
 <8>に記載の画像処理装置。
 <10>
 複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、
 前記3Dストロボ画像と連動する、前記複数の視点画像から生成される自由視点データを前記仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータと
 を表示させることを含む
 画像処理方法。
 <11>
 複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、
 前記3Dストロボ画像と連動する、前記複数の視点画像から生成される自由視点データを前記仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータと
 を表示させる表示制御部
 として、コンピュータを機能させるためのプログラム。
 21 撮影装置, 22 コンテンツサーバ, 23 編集装置, 31 自由視点データ生成部, 32 記憶部, 33 通信部, 41 通信部, 42 記憶部, 43 自由視点画像生成部, 44 表示制御部, 45 表示部, 46 操作部, 47 仮想カメラ設定部, 48 編集パラメータ取得部, 49 ストロボモデル生成部, 111 画像表示部, 112 パラメータ表示部, 901 バス, 902 CPU, 903 ROM, 904 RAM, 905 ハードディスク, 906 出力部, 907 入力部, 908 通信部, 909 ドライブ, 910 入出力インタフェース, 911 リムーバブル記録媒体

Claims (11)

  1.  複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、
     前記3Dストロボ画像と連動する、前記複数の視点画像から生成される自由視点データを前記仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータと
     を表示させる表示制御部を備える
     画像処理装置。
  2.  前記表示制御部は、前記編集パラメータの時間変化であるアニメーションカーブを表示させる
     請求項1に記載の画像処理装置。
  3.  前記ストロボモデルは、前記視点画像のフレームのうちの、少なくとも所定のキーフレームを用いて生成され、
     前記表示制御部は、前記3Dストロボ画像の、前記キーフレームに映るオブジェクトの移動に連動して、前記アニメーションカーブ上の前記キーフレームを表すキーポイントを移動させる
     請求項2に記載の画像処理装置。
  4.  前記仮想カメラのカメラパラメータを設定する仮想カメラ設定部をさらに備える
     請求項2に記載の画像処理装置。
  5.  前記表示制御部は、前記仮想カメラのカメラパラメータのアニメーションカーブが表示されている場合、前記仮想カメラのカメラパラメータの変更に応じて、前記アニメーションカーブを、変更後のカメラパラメータが反映されるように変更する
     請求項4に記載の画像処理装置。
  6.  前記カメラパラメータは、前記仮想カメラの撮影位置、撮影姿勢、又は、ズーム倍率である
     請求項4に記載の画像処理装置。
  7.  前記ストロボモデルは、前記視点画像のフレームのうちの、少なくとも所定のキーフレームを用いて生成され、
     前記表示制御部は、前記アニメーションカーブ上の前記キーフレームを表すキーポイントと、前記3Dストロボ画像に映るオブジェクトのうちの、前記キーポイントが表すキーフレームに映るオブジェクトとを対応付ける対応付け表示を表示させる
     請求項2に記載の画像処理装置。
  8.  前記表示制御部は、前記3Dストロボ画像に映るオブジェクトが通過する空間を表す通過空間画像を重畳した前記3Dストロボ画像を表示させる
     請求項2に記載の画像処理装置。
  9.  前記通過空間画像は、前記オブジェクトが通過する空間を、時刻の経過とともに表す画像である
     請求項8に記載の画像処理装置。
  10.  複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、
     前記3Dストロボ画像と連動する、前記複数の視点画像から生成される自由視点データを前記仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータと
     を表示させることを含む
     画像処理方法。
  11.  複数の視点から撮影された複数の視点画像から生成される複数の時刻のオブジェクトの3Dモデルが3次元空間に配置されたストロボモデルを仮想カメラで撮影した3Dストロボ画像と、
     前記3Dストロボ画像と連動する、前記複数の視点画像から生成される自由視点データを前記仮想カメラで撮影した自由視点画像の編集において編集の対象となる編集パラメータと
     を表示させる表示制御部
     として、コンピュータを機能させるためのプログラム。
PCT/JP2020/015259 2019-04-18 2020-04-03 画像処理装置、画像処理方法、及び、プログラム WO2020213426A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/602,526 US11995784B2 (en) 2019-04-18 2020-04-03 Image processing device and image processing method
JP2021514878A JP7459870B2 (ja) 2019-04-18 2020-04-03 画像処理装置、画像処理方法、及び、プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019079283 2019-04-18
JP2019-079283 2019-04-18

Publications (1)

Publication Number Publication Date
WO2020213426A1 true WO2020213426A1 (ja) 2020-10-22

Family

ID=72837163

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/015259 WO2020213426A1 (ja) 2019-04-18 2020-04-03 画像処理装置、画像処理方法、及び、プログラム

Country Status (2)

Country Link
JP (1) JP7459870B2 (ja)
WO (1) WO2020213426A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230718A1 (ja) * 2021-04-27 2022-11-03 キヤノン株式会社 情報処理装置、情報処理方法、及び、プログラム
WO2022230715A1 (ja) * 2021-04-27 2022-11-03 キヤノン株式会社 情報処理装置、情報処理方法、及び、プログラム
WO2023100704A1 (ja) * 2021-12-01 2023-06-08 ソニーグループ株式会社 画像制作システム、画像制作方法、プログラム
WO2023100703A1 (ja) * 2021-12-01 2023-06-08 ソニーグループ株式会社 画像制作システム、画像制作方法、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10172009A (ja) * 1996-12-13 1998-06-26 Hitachi Ltd 3次元cgアニメーション作成装置及び作成方法
WO2018030206A1 (ja) * 2016-08-10 2018-02-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ カメラワーク生成方法及び映像処理装置
WO2018051688A1 (ja) * 2016-09-15 2018-03-22 キヤノン株式会社 仮想視点画像の生成に関する情報処理装置、方法及びプログラム
JP2019153863A (ja) * 2018-03-01 2019-09-12 ソニー株式会社 画像処理装置、符号化装置、復号化装置、画像処理方法、プログラム、符号化方法及び復号化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10172009A (ja) * 1996-12-13 1998-06-26 Hitachi Ltd 3次元cgアニメーション作成装置及び作成方法
WO2018030206A1 (ja) * 2016-08-10 2018-02-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ カメラワーク生成方法及び映像処理装置
WO2018051688A1 (ja) * 2016-09-15 2018-03-22 キヤノン株式会社 仮想視点画像の生成に関する情報処理装置、方法及びプログラム
JP2019153863A (ja) * 2018-03-01 2019-09-12 ソニー株式会社 画像処理装置、符号化装置、復号化装置、画像処理方法、プログラム、符号化方法及び復号化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230718A1 (ja) * 2021-04-27 2022-11-03 キヤノン株式会社 情報処理装置、情報処理方法、及び、プログラム
WO2022230715A1 (ja) * 2021-04-27 2022-11-03 キヤノン株式会社 情報処理装置、情報処理方法、及び、プログラム
WO2023100704A1 (ja) * 2021-12-01 2023-06-08 ソニーグループ株式会社 画像制作システム、画像制作方法、プログラム
WO2023100703A1 (ja) * 2021-12-01 2023-06-08 ソニーグループ株式会社 画像制作システム、画像制作方法、プログラム

Also Published As

Publication number Publication date
JPWO2020213426A1 (ja) 2020-10-22
US20220172447A1 (en) 2022-06-02
JP7459870B2 (ja) 2024-04-02

Similar Documents

Publication Publication Date Title
WO2020213426A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
US11257233B2 (en) Volumetric depth video recording and playback
US9367942B2 (en) Method, system and software program for shooting and editing a film comprising at least one image of a 3D computer-generated animation
US9299184B2 (en) Simulating performance of virtual camera
KR20140082610A (ko) 휴대용 단말을 이용한 증강현실 전시 콘텐츠 재생 방법 및 장치
WO2020036644A2 (en) Deriving 3d volumetric level of interest data for 3d scenes from viewer consumption data
KR101713875B1 (ko) 프로젝터 투사 환경하에서의 사용자 시점을 고려한 가상공간 구현 방법 및 시스템
WO2020166376A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
US20190155465A1 (en) Augmented media
US11847735B2 (en) Information processing apparatus, information processing method, and recording medium
US20220036644A1 (en) Image processing apparatus, image processing method, and program
JP4458886B2 (ja) 複合現実感画像の記録装置及び記録方法
GB2549723A (en) A system and method for video editing in a virtual reality enviroment
US10032447B1 (en) System and method for manipulating audio data in view of corresponding visual data
JP7459195B2 (ja) 生成装置、生成方法、及びプログラム
US11995784B2 (en) Image processing device and image processing method
WO2018234622A1 (en) METHOD OF DETECTING EVENTS OF INTEREST
WO2020149146A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
US11627297B1 (en) Method for image processing of image data for a two-dimensional display wall with three-dimensional objects
US20240078767A1 (en) Information processing apparatus and information processing method
US20220245887A1 (en) Image processing device and image processing method
Hamadouche Augmented reality X-ray vision on optical see-through head mounted displays
JP2020095465A (ja) 画像処理装置、画像処理方法、及び、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20790536

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021514878

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20790536

Country of ref document: EP

Kind code of ref document: A1