WO2020250726A1 - 画像処理装置および画像処理方法 - Google Patents

画像処理装置および画像処理方法 Download PDF

Info

Publication number
WO2020250726A1
WO2020250726A1 PCT/JP2020/021543 JP2020021543W WO2020250726A1 WO 2020250726 A1 WO2020250726 A1 WO 2020250726A1 JP 2020021543 W JP2020021543 W JP 2020021543W WO 2020250726 A1 WO2020250726 A1 WO 2020250726A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual
image
virtual viewpoint
image processing
viewpoint
Prior art date
Application number
PCT/JP2020/021543
Other languages
English (en)
French (fr)
Inventor
小川 浩司
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/596,143 priority Critical patent/US11816785B2/en
Publication of WO2020250726A1 publication Critical patent/WO2020250726A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user

Definitions

  • the present technology relates to an image processing device and an image processing method, and more particularly to an image processing device and an image processing method capable of easily generating an image of a plurality of viewpoints of a free viewpoint image.
  • the free viewpoint image is a moving image in which the user can freely change the viewpoint, and is expected to be applied to various moving image contents.
  • Patent Document 1 a user who is not proficient in viewing an image of a free viewpoint image can easily select a viewpoint of a user who is proficient in the viewing operation, so that the user is proficient in the operation of viewing a free viewpoint image.
  • a technique has been proposed that facilitates a user's viewpoint change operation.
  • the viewpoint of a free-viewpoint image can be changed freely, and even when shooting, for example, a plurality of performers do not all face the same direction, but face different directions. In many cases, the free viewpoint image cannot be sufficiently grasped from the image from one viewpoint alone.
  • This technology was made in view of such a situation, and makes it possible to easily generate images of multiple viewpoints of free viewpoint images.
  • the image processing device of one aspect of the present technology is viewed from the virtual viewpoint and a determination unit that determines a virtual viewpoint data group composed of data of a plurality of virtual viewpoints for a predetermined 3D object in response to a user operation. It includes a generation unit that generates a virtual viewpoint image, which is an image of the 3D object, for each of the plurality of virtual viewpoints.
  • the image processing device determines a virtual viewpoint data group composed of data of a plurality of virtual viewpoints for a predetermined 3D object in response to a user operation, and from the virtual viewpoint.
  • a virtual viewpoint image which is an image of the 3D object seen, is generated for each of the plurality of virtual viewpoints.
  • a virtual viewpoint data group composed of data of a plurality of virtual viewpoints for a predetermined 3D object is determined in response to a user operation, and an image of the 3D object viewed from the virtual viewpoint is used.
  • a virtual viewpoint image is generated for each of the plurality of virtual viewpoints.
  • the image processing device of one aspect of the present technology can be realized by causing a computer to execute a program.
  • the program to be executed by the computer can be provided by transmitting via a transmission medium or by recording on a recording medium.
  • the image processing device may be an independent device or an internal block constituting one device.
  • FIG. 1 It is a figure which shows the structural example of the image processing system which concerns on one Embodiment of this technique. It is a figure explaining the generation of the free viewpoint image data stored in a content server. It is a figure which shows the example of a 3D object. It is a figure which shows the display example of the 3D object reproduced by the reproduction apparatus. It is a figure which shows the example of the capture operation performed by the user in a capture mode. It is a figure which shows the example of the virtual camera path associated with a swipe operation. It is a figure which shows the example of the virtual viewpoint image. It is a figure which shows the example of the virtual camera path corresponding to the direction of a swipe operation.
  • FIG. 1 is a diagram showing a configuration example of an image processing system according to an embodiment of the present technology.
  • the image processing system of FIG. 1 is composed of a reproduction device 1 for reproducing a moving image and a content server 2.
  • the playback device 1 and the content server 2 are connected to each other via a predetermined network such as the Internet, various LANs (Local Area Network) including Ethernet (registered trademark), and WAN (Wide Area Network).
  • a predetermined network such as the Internet, various LANs (Local Area Network) including Ethernet (registered trademark), and WAN (Wide Area Network).
  • the playback device 1 acquires the free viewpoint image data from the content server 2 and reproduces it, and displays a 3D object, which is a 3D model of the object recorded as the free viewpoint image data, on a predetermined display.
  • a 3D object is displayed on its own display.
  • the playback device 1 can also display a 3D object on an external display. By operating the playback device 1, the user can view the 3D object displayed on the display from an arbitrary viewpoint.
  • the content server 2 is, for example, a server device installed on a network.
  • Free-viewpoint image data as content is stored in the content server 2.
  • the free viewpoint image data is data of a moving image of a 3D object whose viewpoint can be freely selected.
  • shooting metadata including the position information of the camera when the free viewpoint image data is shot may be stored together with the free viewpoint image data.
  • This shooting metadata may include information about the virtual camera path described below.
  • the shooting metadata does not necessarily have to be stored in the content server 2, and may be omitted.
  • the playback device 1 can be configured by a smartphone as described above, or may be a device (image processing device) such as a tablet terminal, a PC (Personal Computer), or a television receiver.
  • FIG. 2 is a diagram illustrating the generation of free viewpoint image data stored in the content server 2.
  • the free viewpoint image data is generated based on a photographed image obtained by photographing an object as a subject with a plurality of photographing devices.
  • the captured image is composed of, for example, a moving image.
  • the photographing devices CAM1 to CAM3 are arranged so as to surround the subject # Ob1, and three photographing devices CAM are used to shoot a person performing a predetermined operation as the subject # Ob1. It is done.
  • the number of imaging devices CAM is not limited to three, and is arbitrary. The number of subjects is also arbitrary.
  • 3D modeling is performed using captured images obtained from multiple imaging devices CAM arranged in different directions, and as shown in the center of FIG. 2, a 3D object MO1 of the subject # Ob1 to be displayed is generated. Will be done.
  • the 3D object MO1 can be generated by using, for example, a method such as Visual Hull that cuts out the three-dimensional shape of the subject using images taken in different directions.
  • the free viewpoint image data which is the data of the 3D object generated as described above, is read and reproduced by the reproduction device 1 which is the apparatus on the reproduction side.
  • the playback device 1 generates (renders) an image (moving image) of the 3D object viewed from a predetermined viewpoint based on the free viewpoint image data, and displays it on the viewing device.
  • the playback device 1 assumes a virtual camera whose viewing range matches the shooting range of the user, and among a large number of 3D objects existing in the shooting space, a free viewpoint of the 3D object captured by the virtual camera. Request image data, render it, and display it on the viewing device.
  • the viewpoint (virtual viewpoint) of the virtual camera can be set to any position in the same way that the viewer can see the subject from any viewpoint in the real world, and the image of the 3D object viewed from any viewpoint. Can be displayed.
  • the free viewpoint image data includes data of a plurality of 3D objects
  • a moving image representing a predetermined space can be appropriately combined with the background of the 3D object.
  • a display D1 and a head-mounted display (HMD) D2 are shown as viewing devices, but as described above, a smartphone or the like can also be used as a viewing device.
  • the display on which the reproduced 3D object is displayed may be a device integrated with the reproduction device 1 or a device having a separate housing.
  • the playback device 1 can read and play back the free-viewpoint image data stored in the content server 2 and display an image of the 3D object represented by the free-viewpoint image data viewed from a predetermined virtual viewpoint on the display. It has a function to easily generate an image (virtual viewpoint image) of a 3D object viewed from various virtual viewpoints.
  • FIG. 3 is a diagram showing an example of a 3D object displayed by the free viewpoint image data stored in the content server 2.
  • the free viewpoint image data stored in the content server 2 is the data of the cubic 3D object Ob11 as shown in FIG.
  • the 3D object displayed in the reproduction device 1 by reproducing the free viewpoint image data is the cubic 3D object Ob11 as shown in FIG.
  • the cubic 3D object Ob11 is composed of surfaces A to E as shown in FIG. As shown in the developed view, the 3D object Ob11 is a cube in which faces A and E, faces B and D, and faces C and F face each other.
  • the 3D object Ob11 is a virtual three-dimensional space object represented by a three-dimensional world coordinate system consisting of the x-axis, the y-axis, and the z-axis as shown in the upper right of FIG.
  • the 3D object Ob11 is set in a virtual three-dimensional space so that its center is the origin of the world coordinate system.
  • the playback device 1 When the free viewpoint image data of the cubic 3D object Ob11 stored in the content server 2 is read out by the playback device 1 and reproduced, the playback device 1 displays the 3D object Ob11 as shown in FIG. Image is displayed.
  • FIG. 4 shows a display example of a 3D object reproduced by the reproduction device 1.
  • the display 10 of the playback device 1 has an image (moving image) of the 3D object Ob11 viewed from a predetermined virtual viewpoint on a two-dimensional screen coordinate system including the X-axis and the Y-axis. Is displayed.
  • the virtual viewpoint to be displayed on the display 10 at the start of playback is preset as an initial value.
  • the image of the 3D object Ob11 is displayed from the virtual viewpoint in which the three surfaces of the 3D object Ob11, the surface A, the surface B, and the surface C, are displayed.
  • the operation mode of the reproduction device 1 is the reproduction mode.
  • the user changes the virtual viewpoint for the 3D object Ob11 by touching the surface of the display 10 on which the touch panels are stacked with a finger while viewing the moving image of the 3D object Ob11 displayed on the display 10.
  • the image of the 3D object Ob11 displayed on the display 10 is changed to the image from the virtual viewpoint specified by the user in response to the operation of changing the virtual viewpoint by the user.
  • the user changes the virtual viewpoint of the 3D object Ob11 as necessary, and determines the optimum virtual viewpoint when generating the virtual viewpoint image of the 3D object Ob11. Then, when the optimum virtual viewpoint is determined, the user changes the operation mode of the reproduction device 1 from the reproduction mode to the capture mode.
  • the capture mode is an operation mode in which a user's capture operation is detected and a virtual viewpoint image of the 3D object Ob11 viewed from a predetermined virtual viewpoint is generated according to the capture operation.
  • FIG. 5 is a diagram showing an example of a capture operation performed by the user in the capture mode.
  • the user performs a swipe operation as shown in FIG. 5 as a capture operation for instructing to generate a virtual viewpoint image.
  • the swipe operation is performed from the upper side to the lower side on the display 10.
  • the playback device 1 When the playback device 1 detects a user's swipe operation as a capture operation, it generates a virtual camera path corresponding to the detected swipe operation.
  • FIG. 6 is a diagram showing an example of a virtual camera path associated with the swipe operation of FIG.
  • the virtual camera path VP1 in the circular orbit shown in FIG. 6 is associated with the swipe operation in advance. Then, when a swipe operation from above to below parallel to the Y axis of the screen coordinate system of the display 10 is detected, the circular orbit p on the zy plane of the world coordinate system is set as the virtual camera path VP1.
  • the circular orbit p on the zy plane of the world coordinate system is expressed by the following equation (1).
  • R in the equation (1) represents the radius of the circular orbit
  • represents the angle formed by the Z axis of the world coordinate system and the point on the circular orbit (0 ⁇ ⁇ ⁇ 360).
  • the playback device 1 changes ⁇ with respect to the circular orbit p of the virtual camera path VP1 corresponding to the swipe operation according to the number of virtual viewpoint images generated N determined in advance by initial setting or the like, and virtualizes N points. Determine the viewpoint.
  • the positions of the four virtual viewpoints obtained by substituting 0 °, 90 °, 180 °, and 270 ° as ⁇ into the circular orbit p of equation (1) are such that the circular orbit p intersects the y-axis or z-axis. It becomes the intersection to do.
  • the order of the four virtual viewpoints is determined by the direction of the swipe operation (positions of the start point and end point).
  • the position P1, the position P2, the position P3, and the position P4 on the circular orbit p are virtual in that order in response to the swipe operation from the upper side to the lower side on the display 10.
  • the position P1, the position P2, the position P3, and the position P4 on the circular orbit p are virtual in that order in response to the swipe operation from the upper side to the lower side on the display 10.
  • the positions P1, position P2, position P3, and position P4 of the virtual viewpoint determined as described above are virtual camera paths corresponding to the swipe operation of the user. That is, the virtual camera path is a virtual viewpoint data group composed of data of a plurality of virtual viewpoints for the 3D object Ob11.
  • the position P1, the position P2, the position P3, and the position P4 are set as virtual viewpoints in that order in response to the swipe operation of the user, and the 3D object viewed from the virtual viewpoint is set according to the set order.
  • a virtual viewpoint image is generated.
  • FIG. 7 shows an example of a virtual viewpoint image in which the position P1, the position P2, the position P3, and the position P4 of the virtual camera path VP1 are virtual viewpoints.
  • virtual viewpoint images C1 to C4 which are virtual viewpoint images at positions P1 to P4 of the virtual camera path VP1 of FIG. 6, are generated.
  • the virtual viewpoint images C1 to C4 are images of the surface C, the surface A, the surface F, and the surface E of the 3D object Ob11 viewed from the front, respectively.
  • the surface A of the 3D object Ob11 can be seen in front.
  • an image of the surface A of the 3D object Ob11 viewed from the front is generated as the virtual viewpoint image C2.
  • images of the 3D object Ob11 viewed from the positions P3 and P4 are generated as virtual viewpoint images, respectively.
  • the virtual viewpoint image is generated in the order of the virtual viewpoint image C1, the virtual viewpoint image C2, the virtual viewpoint image C3, and the virtual viewpoint image C4 according to the order of the positions P1 to P4 which are the virtual viewpoints.
  • a virtual camera path corresponding to a swipe operation in various directions is set, and a virtual viewpoint image is generated based on the set virtual camera path.
  • FIG. 8 is a diagram showing an example of a virtual camera path corresponding to the direction of the swipe operation.
  • the playback device 1 is, for example, in the world coordinate system. , Set a virtual camera path whose rotation direction is different from that of the virtual camera path VP1 shown in FIG.
  • the playback device 1 sets a horizontal virtual camera path in the world coordinate system. To do.
  • the playback device 1 is a virtual camera tilted diagonally in the world coordinate system. Set the path.
  • FIG. 9 is a diagram showing an example of a virtual viewpoint image generated in response to the swipe operation of FIG.
  • a virtual viewpoint image in which the surfaces A to C of the 3D object Ob11 can be seen a virtual viewpoint image in which the surface A of the 3D object Ob11 is viewed from the front, and the surfaces A, D, and D of the 3D object Ob11.
  • a virtual viewpoint image in which the surface F can be seen and a virtual viewpoint image in which the surface E of the 3D object Ob11 is viewed from the front are generated.
  • the playback device 1 When the user performs an oblique swipe operation on the screen coordinate system of the display 10 as shown in C of FIG. 8, the playback device 1 starts from the swipe operation start position P11 to the end position as shown in FIG. The angle ⁇ between the direction vector A1 of the swipe operation toward P12 and the Y axis on the screen coordinate system is calculated. Then, by rotating the virtual camera path VP1 of the circular orbit of FIG. 6 from the zy plane of the world coordinate system using the angle ⁇ , a virtual camera path corresponding to the swipe operation in the oblique direction is generated.
  • FIG. 11A is a view of the virtual camera path VP1 of the circular orbit generated in response to the swipe operation in the diagonal direction from the viewpoint of the z-axis direction of the world coordinate system as the depth direction.
  • FIG. 11B is a view of the virtual camera path VP1 of the circular orbit generated in response to the swipe operation in the diagonal direction from the viewpoint of the depth direction in the x-axis direction of the world coordinate system.
  • the user views the 3D object from a plurality of virtual viewpoints by simply performing a simple capture operation by one action such as a swipe operation on the display 10 on which the 3D object is displayed.
  • Multiple virtual viewpoint images can be generated.
  • FIG. 12 is a block diagram showing a configuration example of the reproduction device 1.
  • the reproduction device 1 includes an operation unit 21, a data acquisition unit 22, a reproduction unit 23, a virtual camera path generation unit 24, an image generation unit 25, an image composition unit 26, a storage unit 27, and a display unit 28.
  • the operation unit 21 is composed of a touch panel monitor, a keyboard, a mouse, a controller, a remote control device, or the like.
  • the operation unit 21 detects the user operation and outputs information representing the content of the detected user operation.
  • the information representing the content of the user operation output from the operation unit 21 is appropriately supplied to the data acquisition unit 22, the reproduction unit 23, and the virtual camera path generation unit 24.
  • the operation unit 21 detects a swipe operation performed by the user on the display, and generates event information indicating the swipe operation in the virtual camera path generation unit 24. Output to.
  • the event information includes that the swipe operation is detected as an event and the start position of the swipe operation on the screen coordinate system of the display. And the coordinates of the end position are included.
  • the data acquisition unit 22 acquires the free viewpoint image data selected by the user from the content server 2 based on the acquisition instruction of the free viewpoint image data to be reproduced supplied from the operation unit 21, and stores it in the storage unit 27. To do.
  • the data acquisition unit 22 also acquires the shooting metadata corresponding to the free viewpoint image data, if necessary.
  • the reproduction unit 23 reads and reproduces the free viewpoint image data acquired from the content server 2 and stored in the storage unit 27 based on the reproduction instruction of the free viewpoint image data supplied from the operation unit 21. To do.
  • the reproduction unit 23 may reproduce the saved free viewpoint image data after all of one free viewpoint image data is stored in the storage unit 27 from the content server 2, or a part of the free viewpoint image data may be reproduced.
  • Free-viewpoint image data may be reproduced by so-called streaming reproduction, which is reproduced while being sequentially acquired.
  • the playback unit 23 is stored in the storage unit 27 in advance instead of the free viewpoint image data acquired from the content server 2. Free viewpoint image data can also be reproduced.
  • the reproduction unit 23 causes the display unit 28 to display a virtual viewpoint image of a 3D object as a free viewpoint image obtained by reproducing the free viewpoint image data.
  • the data of the virtual viewpoint image of the 3D object is supplied from the reproduction unit 23 to the display unit 28 via a path (not shown).
  • the playback unit 23 controls playback of free viewpoint image data based on user operations such as playback, stop, change of playback speed, and change of virtual viewpoint of a moving image of a 3D object detected by the operation unit 21. To do.
  • the virtual camera path generation unit 24 generates a virtual camera path based on the event information supplied from the operation unit 21.
  • the event information is composed of, for example, information indicating a swipe operation performed as a capture operation and information indicating the coordinates of the start position and the end position of the swipe operation.
  • the virtual camera path is associated with the event information in advance, and as shown in the example of FIG. 6, a circular orbit having a radius r is associated with the swipe operation.
  • the virtual camera path generation unit 24 determines a circular orbit having a radius r associated with the swipe operation, and generates a predetermined number of virtual viewpoint images in an order according to the start position and the end position of the swipe operation. A plurality of virtual viewpoints according to N are determined. A virtual viewpoint data group composed of a plurality of determined virtual viewpoint data is supplied to the image generation unit 25 as a virtual camera path.
  • the image generation unit 25 generates a virtual viewpoint image which is an image of the 3D object Ob11 viewed from the virtual viewpoint for each of the plurality of virtual viewpoints included in the virtual camera path supplied from the virtual camera path generation unit 24.
  • the image generation unit 25 generates virtual viewpoint images in order in the order of arrangement of data of a plurality of virtual viewpoints included in the virtual camera path.
  • the image generation unit 25 outputs the generated plurality of virtual viewpoint images to the storage unit 27 and saves them.
  • the image synthesizing unit 26 acquires the virtual viewpoint image stored in the storage unit 27 and synthesizes it by a predetermined method.
  • a virtual viewpoint image synthesized by a predetermined method is called an index image.
  • FIG. 13 is a diagram showing an example of an index image.
  • an image obtained by synthesizing four virtual viewpoint images into one still image is generated as an index image.
  • the virtual viewpoint images C1 to C4 described in FIG. 7 are arranged in a 2 ⁇ 2 (vertical ⁇ horizontal) tile shape and combined into one still image.
  • each virtual viewpoint image is arranged in the order in which the virtual viewpoint images are generated, and an image synthesized as a frame constituting the moving image is generated as an index image.
  • the virtual viewpoint images C1 to C4 are arranged in chronological order according to the order of generation and are combined as moving images.
  • the moving image as the index image is a moving image in which the viewpoint moves at the same playback time in the free viewpoint image.
  • the image synthesizing unit 26 synthesizes a plurality of virtual viewpoint images by a predetermined method and generates an index image.
  • the method of synthesizing the virtual viewpoint image may be determined by the instruction of the user. If it is not necessary to combine the virtual viewpoint images, the virtual viewpoint images are not combined.
  • the image synthesizing unit 26 stores the combined index image in the storage unit 27.
  • the file name of the free viewpoint image data used to generate the virtual viewpoint image may be stored in the storage unit 27 as metadata of the index image.
  • the index image may be supplied to the display unit 28 and displayed.
  • the storage unit 27 stores a table showing the correspondence between the capture operation performed by the user in the capture mode and the virtual path generated for the capture operation.
  • the storage unit 27 stores the free viewpoint image data acquired from the content server 2.
  • the shooting metadata is also stored in the storage unit 27.
  • the storage unit 27 stores the virtual viewpoint image generated by the image generation unit 25 and the index image generated by the image synthesis unit 26.
  • the display unit 28 is composed of a monitor, a television, a head-mounted display (HMD), and the like.
  • the display unit 28 displays a 3D object reproduced by the reproduction unit 23, a virtual viewpoint image generated by the image generation unit 25, an index image generated by the image composition unit 26, and the like.
  • the display unit 28 corresponds to the display 10 of FIGS. 4 and 5.
  • the reproduction device 1 acquires the free viewpoint image data to be reproduced from the content server 2 on the network and displays the 3D object, but the free viewpoint image data to be reproduced is stored in the storage unit 27. It may be saved.
  • This virtual viewpoint image generation process is started when the free viewpoint image data to be reproduced is selected by the user.
  • the operation mode of the reproduction device 1 at the start of processing is the reproduction mode.
  • step S1 the data acquisition unit 22 acquires the free viewpoint image data selected by the user from the content server 2 based on the acquisition instruction of the free viewpoint image data to be reproduced supplied from the operation unit 21. Then, it is stored in the storage unit 27.
  • step S2 the reproduction unit 23 acquires the free viewpoint image data from the storage unit 27 and reproduces it.
  • the moving image of the 3D object based on the reproduced free viewpoint image data is displayed on the display unit 28.
  • the playback unit 23 plays, stops, changes the playback speed, changes the virtual viewpoint, and other user operations of the moving image of the 3D object detected by the operation unit 21, and then plays, stops, and so on. Control and spatial control such as changing the virtual viewpoint.
  • step S3 the playback unit 23 determines whether or not a mode switching operation for switching the operation mode has been performed based on the information representing the content of the user operation supplied from the operation unit 21.
  • step S3 If it is determined in step S3 that the mode switching operation has not been performed, the process returns to step S1 and the subsequent processes are performed.
  • step S3 determines whether the mode switching operation has been performed. If it is determined in step S3 that the mode switching operation has been performed, the process proceeds to step S4, and the reproduction unit 23 switches the operation mode from the reproduction mode to the capture mode.
  • the operation mode is switched to the capture mode, the moving image of the 3D object stops at the playback time at the time of switching.
  • step S5 the operation unit 21 accepts the capture operation by the user and outputs the event information corresponding to the received capture operation to the virtual camera path generation unit 24.
  • the received capture operation is a swipe operation
  • the information indicating that the swipe operation has been detected and the coordinate information of the start position and the end position of the swipe operation on the screen coordinate system of the display 10 are output as event information. Will be done.
  • step S6 the virtual camera path generation unit 24 generates a virtual camera path based on the capture operation represented by the event information. Specifically, the virtual camera path generation unit 24 acquires the trajectory of the virtual camera path associated with the capture operation from the storage unit 27. Then, the virtual camera path generation unit 24 determines the start point and the end point with respect to the trajectory of the virtual camera path based on the direction vector of the capture operation, and adds a rotation operation. The virtual camera path generation unit 24 determines the virtual viewpoints of N points in order from the start point of the trajectory of the virtual camera path with the step value of the angle ⁇ corresponding to the number of generated virtual viewpoint images N determined in advance by the initial setting or the like. To do. The virtual viewpoint data group of the determined N points of the virtual viewpoint is supplied to the image generation unit 25 as a virtual camera path.
  • step S7 the image generation unit 25 generates a virtual viewpoint image of the 3D object viewed from each virtual viewpoint of the virtual camera path based on the virtual camera path, outputs it to the storage unit 27, and saves it.
  • step S8 the image synthesizing unit 26 acquires a plurality of virtual viewpoint images from the storage unit 27, and generates an index image by synthesizing the acquired plurality of virtual viewpoint images in a predetermined format.
  • step S8 is omitted. Whether or not the index image is generated can be set, for example, on the setting screen or the like.
  • the user can generate a plurality of virtual viewpoint images by viewing the 3D object of the free viewpoint image data being reproduced from a plurality of virtual viewpoints by a simple operation such as a swipe operation. Can be done. Further, it is possible to easily generate an index image in which a plurality of virtual viewpoint images are combined into one still image or a moving image.
  • Each of the multiple virtual camera paths included as part of the shooting metadata has a plurality of virtual viewpoints with the position of the shooting device (actual camera position) when the shot image used for generating the 3D object is shot. It is composed of viewpoint data (virtual viewpoint data group).
  • the virtual camera path generator 24 selects the virtual camera path closest to the capture operation from the plurality of virtual camera paths included in the shooting metadata based on the user's capture operation (swipe operation). It is supplied to the image generation unit 25.
  • the playback device 1 By generating a virtual viewpoint image based on the virtual camera path selected from the shooting metadata, the playback device 1 generates the same (almost the same) virtual viewpoint image as the shot image when the 3D object is shot. It becomes possible.
  • a virtual viewpoint image is a higher quality image than a virtual viewpoint image in which a position on the world coordinate system between the shooting position where the 3D object is shot and another shooting position is used as the virtual viewpoint.
  • a swipe operation is detected as a user's capture operation and used as event information
  • the user's capture operation may be an operation other than the swipe operation.
  • a user operation such as a double tap operation, a pinch-in operation, a pinch-out operation, or a knock operation on the touch panel may be detected as a capture operation to generate a virtual camera path.
  • a shake operation which is an operation of vibrating the playback device 1
  • a capture operation by an acceleration sensor or the like
  • a virtual camera path may be generated.
  • the operation unit 21 includes a keyboard, a mouse, or the like, for example, a user operation such as a drag operation with a mouse, a double-click operation with a mouse, a press of a specific button installed in an application, or a predetermined keyboard operation is detected as a capture operation. Then, a virtual camera path may be generated.
  • a user operation such as a drag operation with a mouse, a double-click operation with a mouse, a press of a specific button installed in an application, or a predetermined keyboard operation is detected as a capture operation. Then, a virtual camera path may be generated.
  • a microphone is provided as the operation unit 21 and voice input by the user's voice is possible, for example, by inputting voices such as "pass 1" and "pass 2" according to the type of the virtual camera path, the virtual camera You may want to generate a path.
  • the event information of the event detected as the capture operation as described above may be associated with one virtual camera path, or may be associated with different virtual camera paths according to the event information. ..
  • the event information and the virtual camera path can be associated with each other on a one-to-one basis, and the virtual camera path associated with the detected event information can be selected.
  • the virtual camera path of the circular orbit is generated in association with the capture operation, but the orbit of the virtual camera path is not limited to the circular orbit.
  • the orbit of the virtual camera path may be a spiral orbit, an elliptical orbit, a triangular orbit, a polygonal orbit, or the like.
  • the trajectory of the virtual camera path may be associated differently depending on the event detected as the capture operation.
  • the number of virtual viewpoints set on the circular orbit of the virtual camera path is determined in advance by initial setting or the like.
  • the number of virtual viewpoints may be controlled by the speed of the swipe operation performed by the user.
  • the step value of the angle ⁇ that determines the virtual viewpoint is set small.
  • the number of virtual viewpoints included in one virtual camera path increases, the number of virtual viewpoint images generated based on this virtual camera path increases. This results in a virtual viewpoint image with smooth movement.
  • the step value of the angle ⁇ that determines the virtual viewpoint is set large.
  • the number of virtual viewpoints included in one virtual camera path is reduced, the number of virtual viewpoints generated based on this virtual camera path is reduced. This results in a virtual viewpoint image with coarse movement.
  • the pressure of the user's finger in the swipe operation may be detected, and the radius r of the circular orbit may be controlled according to the strength of the pressure of the user's finger. For example, if the pressure of the user's finger is weaker than the predetermined pressure, the radius r is set to be larger than the predetermined value. That is, a virtual viewpoint image of a virtual viewpoint away from the origin of the world coordinate system is generated. On the other hand, when the pressure of the user's finger is stronger than the predetermined pressure, the radius r is set to be smaller than the predetermined value. That is, a virtual viewpoint image of a virtual viewpoint away from the origin of the world coordinate system is generated.
  • the playback device 1 generated a virtual viewpoint image of the 3D model at the time (time) when the user changed the operation mode to the capture mode and stopped the playback. Therefore, the plurality of virtual viewpoint images generated are images having the same playback time.
  • the image generation unit 25 may generate virtual viewpoint images of frames before and after that time in addition to the virtual viewpoint image at the time (time) when the reproduction is stopped.
  • FIG. 15 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 305 is further connected to the bus 304.
  • An input unit 306, an output unit 307, a storage unit 308, a communication unit 309, and a drive 310 are connected to the input / output interface 305.
  • the input unit 306 includes a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 307 includes a display, a speaker, an output terminal, and the like.
  • the storage unit 308 includes a hard disk, a RAM disk, a non-volatile memory, and the like.
  • the communication unit 309 includes a network interface and the like.
  • the drive 310 drives a removable recording medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 301 loads the program stored in the storage unit 308 into the RAM 303 via the input / output interface 305 and the bus 304 and executes the program, thereby executing the series of processes described above. Is done.
  • the RAM 303 also appropriately stores data and the like necessary for the CPU 301 to execute various processes.
  • the program executed by the computer (CPU301) can be recorded and provided on a removable recording medium 311 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the storage unit 308 via the input / output interface 305 by mounting the removable recording medium 311 in the drive 310. Further, the program can be received by the communication unit 309 and installed in the storage unit 308 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 302 or the storage unit 308.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • the present technology can also have the following configurations.
  • a decision unit that determines a virtual viewpoint data group composed of data of a plurality of virtual viewpoints for a predetermined 3D object in response to a user operation.
  • An image processing device including a generation unit that generates a virtual viewpoint image, which is an image of the 3D object viewed from the virtual viewpoint, for each of the plurality of virtual viewpoints.
  • the determination unit determines the virtual viewpoint data group of the 3D object on the 3D coordinate system in response to the user operation on the 2D coordinate system with respect to the 3D object displayed on the display (1).
  • the image processing apparatus further comprising a compositing unit that synthesizes a plurality of the virtual viewpoint images generated for each of the plurality of virtual viewpoints.
  • a compositing unit that synthesizes a plurality of the virtual viewpoint images generated for each of the plurality of virtual viewpoints.
  • the compositing unit synthesizes a plurality of the virtual viewpoint images into one still image.
  • the compositing unit synthesizes a plurality of the virtual viewpoint images into one moving image.
  • an acquisition unit for acquiring the data of the 3D object and the shooting metadata when the 3D object is shot.
  • the determination unit determines a predetermined virtual viewpoint data group from a plurality of virtual viewpoint data groups included in the shooting metadata in response to the user operation according to the above (1) to (9).
  • the image processing apparatus according to any one.
  • the image processing device A virtual viewpoint data group composed of data of a plurality of virtual viewpoints for a predetermined 3D object is determined according to a user operation.
  • An image processing method for generating a virtual viewpoint image which is an image of the 3D object viewed from the virtual viewpoint, for each of the plurality of virtual viewpoints.
  • 1 playback device 22 data acquisition unit, 24 virtual camera path generation unit, 25 image generation unit, 26 image composition unit

Abstract

本技術は、自由視点画像の複数の視点の画像を簡単に生成することができるようにする画像処理装置および画像処理方法に関する。 本技術の一側面の画像処理装置は、所定の3Dオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定し、前記仮想視点から見た前記3Dオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する。本技術は、例えば、3Dオブジェクトのデータから仮想視点画像を生成する画像処理装置などに適用することができる。

Description

画像処理装置および画像処理方法
 本技術は、画像処理装置および画像処理方法に関し、特に、自由視点画像の複数の視点の画像を簡単に生成することができるようにした画像処理装置および画像処理方法に関する。
 近年、自由視点画像が注目されている。自由視点画像は、視点をユーザが自由に変更することができる動画像であり、様々な動画像コンテンツへの応用が期待されている。
 自由視点画像の視聴時における操作性を向上させるための各種の技術が提案されている。例えば、特許文献1には、自由視点画像の視聴操作に習熟していないユーザが、視聴操作に習熟したユーザの視点を簡単に選択できるようにすることで、自由視点画像の視聴操作に習熟していないユーザの視点変更操作を容易にする技術が提案されている。
特開2018-182428号公報
 ところで、自由視点画像を視聴する前に、その自由視点画像がどのような動画像であるかを把握したり、自由視点画像を他人に紹介するために、自由視点画像の特定のシーンを保存しておく場合がある。
 しかしながら、自由視点画像は、視点を自由に変えることができ、また、撮影時も、例えば、複数の演者が全員同一方向を向くのではなく、異なる方向を向くなど、自由視点を生かした演出がなされる場合があり、1つの視点からの画像だけでは、自由視点画像を十分に把握できないことも多い。
 自由視点画像の複数の視点の画像を保存する際、1つ1つ手動で視点を変えて画像を生成する方法では、操作が煩わしい。
 本技術はこのような状況に鑑みてなされたものであり、自由視点画像の複数の視点の画像を簡単に生成することができるようにするものである。
 本技術の一側面の画像処理装置は、所定の3Dオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定する決定部と、前記仮想視点から見た前記3Dオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する生成部とを備える。
 本技術の一側面の画像処理方法は、画像処理装置が、所定の3Dオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定し、前記仮想視点から見た前記3Dオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する。
 本技術の一側面においては、所定の3Dオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群が、ユーザ操作に対応して決定され、前記仮想視点から見た前記3Dオブジェクトの画像である仮想視点画像が、複数の前記仮想視点それぞれについて生成される。
 なお、本技術の一側面の画像処理装置は、コンピュータにプログラムを実行させることにより実現することができる。コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、または、記録媒体に記録して、提供することができる。
 画像処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
本技術の一実施の形態に係る画像処理システムの構成例を示す図である。 コンテンツサーバに保存されている自由視点画像データの生成を説明する図である。 3Dオブジェクトの例を示す図である。 再生装置で再生された3Dオブジェクトの表示例を示す図である。 キャプチャモードでユーザが行うキャプチャ操作の例を示す図である。 スワイプ操作に対応付けられた仮想カメラパスの例を示す図である。 仮想視点画像の例を示す図である。 スワイプ操作の方向と対応する仮想カメラパスの例を示す図である。 スワイプ操作に応じて生成される仮想視点画像の例を示す図である。 斜め方向のスワイプ操作の例を示す図である。 斜め方向のスワイプ操作に対応する仮想カメラパスの例を示す図である。 再生装置の構成例を示すブロック図である。 インデックス画像の例を示す図である。 再生装置の仮想視点画像生成処理について説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.画像処理システムの概要
2.再生装置の構成例
3.再生装置の動作
4.変形例
5.コンピュータの構成例
<1.画像処理システムの概要>
 初めに、本技術を適用した画像処理システムの概要について説明する。
 図1は、本技術の一実施の形態に係る画像処理システムの構成例を示す図である。
 図1の画像処理システムは、動画像を再生する再生装置1と、コンテンツサーバ2とによって構成される。再生装置1とコンテンツサーバ2とは、例えば、インターネット、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などの所定のネットワークを介して接続されている。
 再生装置1は、自由視点画像データをコンテンツサーバ2から取得して再生し、自由視点画像データとして記録されたオブジェクトの3Dモデルである3Dオブジェクトを所定のディスプレイに表示する。再生装置1が、例えば、スマートフォンなどのようにディスプレイを備える装置である場合には、自身のディスプレイに3Dオブジェクトを表示する。再生装置1は、外部のディスプレイに3Dオブジェクトを表示することもできる。ユーザは、再生装置1を操作することにより、ディスプレイに表示された3Dオブジェクトを任意の視点から見ることができる。
 コンテンツサーバ2は、例えば、ネットワーク上に設置されたサーバ装置である。コンテンツサーバ2には、コンテンツとしての自由視点画像データが保存されている。自由視点画像データは、視点を自由に選択することができる3Dオブジェクトの動画像のデータである。コンテンツサーバ2には、自由視点画像データを撮影したときのカメラの位置情報などを含む撮影メタデータが、自由視点画像データとともに保存されている場合がある。この撮影メタデータには、後述する仮想カメラパスについての情報が含まれている場合がある。撮影メタデータは、コンテンツサーバ2に必ずしも保存されている必要はなく、省略されてもよい。
 再生装置1は、上述したようにスマートフォンで構成することができるほか、タブレット端末、PC(Personal Computer)、テレビジョン受信機などのデバイス(画像処理装置)でもよい。
 図2は、コンテンツサーバ2に保存されている自由視点画像データの生成を説明する図である。
 自由視点画像データは、図2の左側に示されるように、被写体となるオブジェクトを複数の撮影装置で撮影して得られた撮影画像に基づいて生成される。撮影画像は、例えば、動画像で構成される。
 図2の例においては、被写体#Ob1を取り囲むように撮影装置CAM1乃至CAM3が配置されており、3台の撮影装置CAMを用いて、所定の動作を行っている人物を被写体#Ob1として撮影が行われている。撮影装置CAMの台数は、3台に限らず、任意である。また、被写体の数も任意である。
 異なる方向に配置された複数の撮影装置CAMから得られた撮影画像を用いて、3Dモデリングが行われ、図2の中央に示されるように、表示対象となる被写体#Ob1の3DオブジェクトMO1が生成される。3DオブジェクトMO1は、例えば、異なる方向の撮影画像を用いて被写体の3次元形状の削り出しを行うVisual Hullなどの手法を用いて、生成することができる。
 以上のようにして生成された3Dオブジェクトのデータである自由視点画像データが、再生側の装置である再生装置1により読み出され、再生される。再生装置1は、自由視点画像データに基づいて、3Dオブジェクトを所定の視点から見た画像(動画像)を生成(レンダリング)し、視聴デバイスに表示させる。
 具体的には、再生装置1は、ユーザの視聴範囲が撮影範囲に一致するような仮想カメラを想定し、撮影空間に存在する多数の3Dオブジェクトのうち、仮想カメラで捉えられる3Dオブジェクトの自由視点画像データを要求して、レンダリングを行い、視聴デバイスに表示させる。実世界において視聴者が任意の視点から被写体を見ることができるのと同じように仮想カメラの視点(仮想視点)を任意の位置に設定することができ、3Dオブジェクトを任意の視点から見た画像を表示することができる。
 自由視点画像データに複数の3Dオブジェクトのデータが含まれている場合、再生側においては、視聴対象とする3Dオブジェクトだけを表示させることも可能である。また、3Dオブジェクトの背景には、適宜、所定の空間を表す動画像を合成することもできる。
 図2においては、視聴デバイスとして、ディスプレイD1とヘッドマウントディスプレイ(HMD)D2が示されているが、上述したように、スマートフォンなどを視聴デバイスとして用いることも可能である。再生された3Dオブジェクトが表示されるディスプレイは、再生装置1と一体の装置であってもよいし、別筐体の装置であってもよい。
 再生装置1は、コンテンツサーバ2に保存されている自由視点画像データを読み出して再生し、自由視点画像データが表す3Dオブジェクトを所定の仮想視点から見た画像をディスプレイ上に表示させることができる他、3Dオブジェクトを、様々な複数の仮想視点から見た画像(仮想視点画像)を、簡単に生成する機能を有している。
 そこで、図3乃至図9を参照して、再生装置1が有する、複数の仮想視点画像を簡単に生成する機能について説明する。
 図3は、コンテンツサーバ2に保存されている自由視点画像データによって表示される3Dオブジェクトの例を示す図である。
 コンテンツサーバ2に保存されている自由視点画像データは、図3に示されるような立方体の3DオブジェクトOb11のデータである。以下においては、説明の便宜上、自由視点画像データを再生することによって再生装置1において表示される3Dオブジェクトが、図3に示されるような立方体の3DオブジェクトOb11であるものとする。
 立方体の3DオブジェクトOb11は、図3に示されるように、面A乃至面Eにより構成される。展開図に示されるように、3DオブジェクトOb11は、面Aと面E、面Bと面D、面Cと面Fがそれぞれ対向する立方体である。
 3DオブジェクトOb11は、図3の右上に示されるようなx軸、y軸、およびz軸からなる3次元のワールド座標系で表される仮想的な3次元空間上のオブジェクトである。例えば、3DオブジェクトOb11は、その中心がワールド座標系の原点となるように仮想的な3次元空間上に設定される。
 コンテンツサーバ2に保存されている、立方体の3DオブジェクトOb11の自由視点画像データが、再生装置1によって読み出され、再生されると、再生装置1では、図4に示されるような、3DオブジェクトOb11の画像が表示される。
 図4は、再生装置1で再生された3Dオブジェクトの表示例を示している。
 再生装置1のディスプレイ10には、図4に示されるように、X軸およびY軸からなる2次元のスクリーン座標系上に、3DオブジェクトOb11を所定の仮想視点から見た画像(動画像)が表示される。再生開始時点においてディスプレイ10に表示する際の仮想視点は、初期値として予め設定されている。
 図4の例においては、3DオブジェクトOb11の面A、面B、および面Cの3つの面が表示される仮想視点からの、3DオブジェクトOb11の画像が表示されている。
 再生装置1が所定の3Dオブジェクトの自由視点画像データを再生した直後は、再生装置1の動作モードは再生モードとなっている。再生モードでは、ユーザは、ディスプレイ10に表示される3DオブジェクトOb11の動画像を視聴しながら、タッチパネルが積層されているディスプレイ10の表面を指で触れるなどして、3DオブジェクトOb11に対する仮想視点を変更する。ユーザによる仮想視点の変更操作に応じて、ディスプレイ10に表示される3DオブジェクトOb11の画像が、ユーザに指定された仮想視点からの画像に変更される。
 ユーザは、必要に応じて3DオブジェクトOb11の仮想視点を変更し、3DオブジェクトOb11の仮想視点画像を生成する際の、最適な仮想視点を決定する。そして、最適な仮想視点を決定すると、ユーザは、再生装置1の動作モードを、再生モードから、キャプチャモードに変更する。キャプチャモードは、ユーザのキャプチャ操作を検出し、キャプチャ操作に応じて、3DオブジェクトOb11を所定の仮想視点から見た仮想視点画像を生成する動作モードである。
 図5は、キャプチャモードでユーザが行うキャプチャ操作の例を示す図である。
 ユーザは、例えば、図5に示されるようなスワイプ操作を、仮想視点画像を生成することを指示するためのキャプチャ操作として行う。図5の例においては、ディスプレイ10上の上方から下方に向けてスワイプ操作が行われている。
 再生装置1は、キャプチャ操作としての、ユーザのスワイプ操作を検出すると、検出されたスワイプ操作に対応した仮想カメラパスを生成する。
 図6は、図5のスワイプ操作に対応付けられた仮想カメラパスの例を示す図である。
 例えば、スワイプ操作に対しては、図6に示される円軌道の仮想カメラパスVP1が、あらかじめ対応付けられている。そして、ディスプレイ10のスクリーン座標系のY軸に平行な上方から下方のスワイプ操作が検出されると、ワールド座標系のzy平面上の円軌道pが、仮想カメラパスVP1として設定される。
 ワールド座標系のzy平面上の円軌道pは、次式(1)で表される。
Figure JPOXMLDOC01-appb-M000001
 式(1)のrは、円軌道の半径を表し、θは、ワールド座標系のZ軸と円軌道上の点が成す角度を表す(0≦θ<360)。
 再生装置1は、スワイプ操作に対応した仮想カメラパスVP1の円軌道pに対して、初期設定等で予め決定された仮想視点画像の生成枚数Nに応じて、θを変化させ、N点の仮想視点を決定する。
 例えば、仮想視点画像の生成枚数Nが4(N=4)に設定されていたとすると、360度の円軌道pを4等分した各位置から仮想視点画像を生成するため、θを変化させる際の刻み値は、90°(=360/4)となるので、式(1)に代入されるθは、0°,90°,180°,270°の4個となる。式(1)の円軌道pに、θとして、0°,90°,180°,270°を代入して得られる4点の仮想視点の位置は、円軌道pがy軸またはz軸と交差する交点となる。
 また、4点の仮想視点の順番は、スワイプ操作の方向(始点および終点の位置)によって決定される。
 図5の例では、ディスプレイ10上の上方から下方のスワイプ操作に対応して、図6のように、円軌道p上の位置P1、位置P2、位置P3、および位置P4が、その順番で仮想視点として設定される。
 以上のようにして決定された、仮想視点の位置P1、位置P2、位置P3、および位置P4が、ユーザのスワイプ操作に対応した仮想カメラパスとなる。すなわち、仮想カメラパスは、3DオブジェクトOb11に対する複数の仮想視点のデータで構成される仮想視点データ群である。
 このように、ユーザのスワイプ操作に対応して、位置P1、位置P2、位置P3、および位置P4が、その順番で仮想視点として設定され、設定された順番に従って、仮想視点から見た3Dオブジェクトの仮想視点画像が生成される。
 図7は、仮想カメラパスVP1の位置P1、位置P2、位置P3、および位置P4を仮想視点とする仮想視点画像の例を示している。
 図7に示されるように、図6の仮想カメラパスVP1の位置P1乃至P4における仮想視点画像である仮想視点画像C1乃至C4が生成される。仮想視点画像C1乃至C4は、それぞれ、3DオブジェクトOb11の面C、面A、面F、面Eを正面から見た画像である。
 すなわち、ワールド座標系の原点が中心位置となるように設定された3DオブジェクトOb11を位置P1から見た場合、3DオブジェクトOb11の面Cが正面に見えることになる。この場合、図7の左端に示されるように、3DオブジェクトOb11の面Cを正面から見た画像が、仮想視点画像C1として生成される。
 また、3DオブジェクトOb11を位置P2から見た場合、3DオブジェクトOb11の面Aが正面に見えることになる。この場合、図7の仮想視点画像C1の右側に示されるように、3DオブジェクトOb11の面Aを正面から見た画像が、仮想視点画像C2として生成される。
 仮想視点画像C3,C4についても同様に、それぞれ、位置P3,P4からの3DオブジェクトOb11を見た画像が仮想視点画像として生成される。
 このように、仮想視点である位置P1乃至P4の順番に従って、仮想視点画像C1、仮想視点画像C2、仮想視点画像C3、および仮想視点画像C4の順番で、仮想視点画像が生成される。
 ユーザが上方から下方に向かってスワイプ操作を行う場合の例を説明したが、スワイプ操作の方向は任意である。各種の方向のスワイプ操作に対応した仮想カメラパスが設定され、設定された仮想カメラパスに基づいて仮想視点画像が生成される。
 図8は、スワイプ操作の方向と対応する仮想カメラパスの例を示す図である。
 例えば、図8のAの白抜き矢印で示されるように、ユーザがディスプレイ10のスクリーン座標系上で下方から上方に向かってスワイプ操作を行った場合、再生装置1は、例えば、ワールド座標系において、図6の仮想カメラパスVP1と回転方向が異なる仮想カメラパスを設定する。
 図8のBの白抜き矢印で示されるように、ユーザがディスプレイ10のスクリーン座標系上で水平方向のスワイプ操作を行った場合、再生装置1は、ワールド座標系において水平な仮想カメラパスを設定する。
 図8のCの白抜き矢印で示されるように、ユーザがディスプレイ10のスクリーン座標系上で斜め方向のスワイプ操作を行った場合、再生装置1は、ワールド座標系において斜め方向に傾いた仮想カメラパスを設定する。
 図9は、図8のスワイプ操作に応じて生成される仮想視点画像の例を示す図である。
 図8のAに示した下方から上方に向かうスワイプ操作に応じた仮想カメラパスが設定された場合、仮想カメラパス上の4つの仮想視点(例えば図6の位置P3,P2,P1,P4)からは、3DオブジェクトOb11の面F、面A、面C、および面Eが順に見える。この場合、図9のAの白抜き矢印の先に示されるように、3Dオブジェクトの面F、面A、面C、および面Eのそれぞれを正面から見た4枚の仮想視点画像が順に生成される。
 図8のBに示した水平方向のスワイプ操作に応じた仮想カメラパスが設定された場合、仮想カメラパス上の4つの仮想視点からは、3DオブジェクトOb11の面D、面A、面B、および面Eが順に見える。この場合、図9のBの白抜き矢印の先に示されるように、3Dオブジェクトの面D、面A、面B、および面Eのそれぞれを正面から見た4枚の仮想視点画像が順に生成される。
 図8のCに示した斜め方向のスワイプ操作に応じた仮想カメラパスが設定された場合も同様にして、仮想カメラパス上の4つの視点から3DオブジェクトOb11を見た、図9のCの白抜き矢印の先に示されるような4枚の仮想視点画像が順に生成される。
 図9のCの例においては、3DオブジェクトOb11の面A乃至面Cが見える仮想視点画像、3DオブジェクトOb11の面Aを正面から見た仮想視点画像、3DオブジェクトOb11の面A、面D、および面Fが見える仮想視点画像、および3DオブジェクトOb11の面Eを正面から見た仮想視点画像が生成されている。
 図8のCのように、ユーザがディスプレイ10のスクリーン座標系上で斜め方向のスワイプ操作を行った場合、再生装置1は、図10に示されるように、スワイプ操作の開始位置P11から終了位置P12に向かうスワイプ操作の方向ベクトルA1と、スクリーン座標系上のY軸との角度φを算出する。そして、角度φを用いて図6の円軌道の仮想カメラパスVP1を、ワールド座標系のzy平面上から回転させることによって、斜め方向のスワイプ操作に応じた仮想カメラパスが生成される。
 図11のAは、斜め方向のスワイプ操作に応じて生成された円軌道の仮想カメラパスVP1を、ワールド座標系のz軸方向を奥行き方向とする視点で見た図である。
 図11のBは、斜め方向のスワイプ操作に応じて生成された円軌道の仮想カメラパスVP1を、ワールド座標系のx軸方向を奥行き方向とする視点で見た図である。
 以上のように、再生装置1によれば、ユーザは3Dオブジェクトが表示されたディスプレイ10上においてスワイプ操作などのワンアクションによる簡単なキャプチャ操作を行うだけで、3Dオブジェクトを複数の仮想視点から見た複数の仮想視点画像を生成することができる。
<2.再生装置の構成例>
 図12は、再生装置1の構成例を示すブロック図である。
 再生装置1は、操作部21、データ取得部22、再生部23、仮想カメラパス生成部24、画像生成部25、画像合成部26、記憶部27、および表示部28を備える。
 操作部21は、タッチパネルモニタ、キーボード、マウス、コントローラ、または、遠隔操作機器などにより構成される。操作部21は、ユーザ操作を検出し、検出されたユーザ操作の内容を表す情報を出力する。操作部21から出力されたユーザ操作の内容を表す情報は、データ取得部22、再生部23、および仮想カメラパス生成部24に適宜供給される。
 例えば、再生装置1の動作モードとしてキャプチャモードが設定されている場合、操作部21は、ユーザがディスプレイ上で行ったスワイプ操作を検出し、そのスワイプ操作を表すイベント情報を仮想カメラパス生成部24に出力する。
 操作部21が、スワイプ操作を表すイベント情報を仮想カメラパス生成部24に出力する場合、イベント情報には、イベントとしてスワイプ操作を検出したことと、ディスプレイのスクリーン座標系上におけるスワイプ操作の開始位置と終了位置の座標とが含まれる。
 データ取得部22は、操作部21から供給される、再生対象の自由視点画像データの取得指示に基づいて、ユーザによって選択された自由視点画像データをコンテンツサーバ2から取得し、記憶部27に保存する。データ取得部22は、取得する自由視点画像データに対応する撮影メタデータもコンテンツサーバ2に保存されている場合には、必要に応じて、自由視点画像データに対応する撮影メタデータも取得する。
 再生部23は、再生モードにおいて、操作部21から供給される、自由視点画像データの再生指示に基づいて、コンテンツサーバ2から取得されて記憶部27に保存された自由視点画像データを読み出し、再生する。
 再生部23は、コンテンツサーバ2から1つの自由視点画像データの全てが記憶部27に保存されてから、保存された自由視点画像データを再生してもよいし、自由視点画像データの一部を順次取得しながら再生する、いわゆるストリーミング再生により、自由視点画像データを再生してもよい。
 なお、再生部23は、記憶部27に所定の自由視点画像データがあらかじめ保存されている場合には、コンテンツサーバ2から取得された自由視点画像データではなく、記憶部27にあらかじめ保存されている自由視点画像データを再生することもできる。
 再生部23は、自由視点画像データを再生して得られた自由視点画像としての3Dオブジェクトの仮想視点画像を表示部28に表示させる。3Dオブジェクトの仮想視点画像のデータは、図示せぬ経路を介して再生部23から表示部28に対して供給される。
 また、再生部23は、操作部21で検出される、3Dオブジェクトの動画像の再生、停止、再生速度の変更、仮想視点の変更などのユーザ操作に基づいて、自由視点画像データの再生を制御する。
 仮想カメラパス生成部24は、操作部21から供給されたイベント情報に基づいて、仮想カメラパスを生成する。イベント情報は、例えば、キャプチャ操作として行われたスワイプ操作を示す情報と、スワイプ操作の開始位置と終了位置の座標を表す情報とで構成される。仮想カメラパスは、イベント情報にあらかじめ対応付けられており、図6の例に示したように、スワイプ操作に対しては、半径rの円軌道が対応付けられている。
 仮想カメラパス生成部24は、スワイプ操作に対して対応付けられた半径rの円軌道を決定し、スワイプ操作の開始位置と終了位置に応じた順番で、予め決定された仮想視点画像の生成枚数Nに応じた複数の仮想視点を決定する。決定された複数の仮想視点のデータで構成される仮想視点データ群が、仮想カメラパスとして、画像生成部25に供給される。
 画像生成部25は、仮想カメラパス生成部24から供給された仮想カメラパスに含まれる複数の仮想視点それぞれについて、仮想視点から見た3DオブジェクトOb11の画像である仮想視点画像を生成する。画像生成部25は、仮想カメラパスに含まれる複数の仮想視点のデータの配列の順番で、仮想視点画像を順に生成する。
 画像生成部25は、生成した複数枚の仮想視点画像を記憶部27に出力し、保存する。
 画像合成部26は、記憶部27に保存された仮想視点画像を取得し、所定の方式で合成する。所定の方式で合成された仮想視点画像をインデックス画像と称する。
 図13は、インデックス画像の例を示す図である。
 図13のAに示されるように、例えば、4枚の仮想視点画像を1枚の静止画像に合成した画像がインデックス画像として生成される。図13のAの例においては、図7で説明した仮想視点画像C1乃至C4が2×2(縦×横)のタイル状に並べられ、1枚の静止画像に合成されている。
 また、図13のBに示されるように、4枚の仮想視点画像を、仮想視点画像の生成順に並べ、動画像を構成するフレームとして合成した画像がインデックス画像として生成される。図13のBの例においては、仮想視点画像C1乃至C4が、生成された順番に従って時系列に並べられ、動画像として合成されている。インデックス画像としての動画像は、自由視点画像内の同一の再生時刻において、視点が移動するような動画像となる。
 このように、画像合成部26は、所定の方式で複数の仮想視点画像を合成し、インデックス画像を生成する。仮想視点画像の合成の方式は、ユーザの指示によって決定されるようにしてもよい。なお、仮想視点画像の合成が不要である場合には、仮想視点画像の合成は行われない。
 図12の説明に戻り、画像合成部26は、合成したインデックス画像を記憶部27に保存する。
 インデックス画像とともに、仮想視点画像の生成に用いられた自由視点画像データのファイル名、仮想視点画像の生成が行われた自由視点画像の再生時刻、仮想視点画像の生成に用いられた仮想カメラパスの情報などが、インデックス画像のメタデータとして記憶部27に保存されるようにしてもよい。インデックス画像は、表示部28に供給され、表示されるようにしてもよい。
 記憶部27は、キャプチャモードにおいてユーザによって行われるキャプチャ操作と、そのキャプチャ操作に対して生成する仮想パスとの対応関係を示すテーブルを記憶する。また、記憶部27は、コンテンツサーバ2から取得された自由視点画像データを保存する。自由視点画像データに対応する撮影メタデータも取得された場合には、撮影メタデータも記憶部27に保存される。さらに、記憶部27は、画像生成部25が生成した仮想視点画像と、画像合成部26が生成したインデックス画像とを保存する。
 表示部28は、モニタ、テレビ、ヘッドマウントディスプレイ(HMD)などにより構成される。表示部28は、再生部23により再生された3Dオブジェクト、画像生成部25が生成した仮想視点画像、画像合成部26が生成したインデックス画像、などを表示する。表示部28は、図4および図5のディスプレイ10に相当する。
 本実施の形態では、再生装置1は、再生対象の自由視点画像データを、ネットワーク上のコンテンツサーバ2から取得して、3Dオブジェクトを表示するが、再生対象の自由視点画像データが記憶部27に保存されていてもよい。
<3.再生装置の動作>
 次に、図14のフローチャートを参照して、再生装置1が、ユーザのキャプチャ操作に基づき仮想視点画像を生成する仮想視点画像生成処理について説明する。
 この仮想視点画像生成処理は、再生対象の自由視点画像データがユーザによって選択されたとき、開始される。処理開始時の再生装置1の動作モードは、再生モードである。
 初めに、ステップS1において、データ取得部22は、操作部21から供給される、再生対象の自由視点画像データの取得指示に基づいて、ユーザによって選択された自由視点画像データをコンテンツサーバ2から取得し、記憶部27に保存する。
 ステップS2において、再生部23は、記憶部27から自由視点画像データを取得し、再生する。再生された自由視点画像データに基づく3Dオブジェクトの動画像は、表示部28に表示される。再生部23は、操作部21で検出された3Dオブジェクトの動画像の再生、停止、再生速度の変更、仮想視点の変更などのユーザ操作に基づいて、動画像の再生、停止、などの時系列制御と、仮想視点の変更などの空間制御を行う。
 ステップS3において、再生部23は、操作部21から供給されるユーザ操作の内容を表す情報に基づいて、動作モードを切り替えるモード切替操作が行われたか否かを判定する。
 ステップS3で、モード切替操作が行われていないと判定された場合、処理はステップS1に戻り、それ以降の処理が行われる。
 一方、ステップS3で、モード切替操作が行われたと判定された場合、処理はステップS4に進み、再生部23は、動作モードを再生モードからキャプチャモードに切り替える。動作モードがキャプチャモードに切り替わると、3Dオブジェクトの動画像が、切り替え時点の再生時刻で停止する。
 ステップS5において、操作部21は、ユーザによるキャプチャ操作を受け付け、受け付けたキャプチャ操作に対応するイベント情報を、仮想カメラパス生成部24に出力する。受け付けたキャプチャ操作がスワイプ操作である場合には、スワイプ操作を検出したことを示す情報と、ディスプレイ10のスクリーン座標系上におけるスワイプ操作の開始位置と終了位置の座標情報とが、イベント情報として出力される。
 ステップS6において、仮想カメラパス生成部24は、イベント情報で表されるキャプチャ操作に基づいて、仮想カメラパスを生成する。具体的には、仮想カメラパス生成部24は、キャプチャ操作に対応づけられた仮想カメラパスの軌道を記憶部27から取得する。そして、仮想カメラパス生成部24は、キャプチャ操作の方向ベクトルに基づいて、仮想カメラパスの軌道に対して始点と終点を決定し、回転操作を加える。仮想カメラパス生成部24は、初期設定等で予め決定された仮想視点画像の生成枚数Nに応じた角度θの刻み値で、仮想カメラパスの軌道の始点から順に、N点の仮想視点を決定する。決定されたN点の仮想視点の仮想視点データ群が、仮想カメラパスとして、画像生成部25に供給される。
 ステップS7において、画像生成部25は、仮想カメラパスに基づいて、3Dオブジェクトを仮想カメラパスの各仮想視点から見た仮想視点画像を生成し、記憶部27に出力して、保存する。
 ステップS8において、画像合成部26は、複数の仮想視点画像を記憶部27から取得し、取得した複数の仮想視点画像を所定の形式で合成することにより、インデックス画像を生成する。
 以上で、仮想視点画像生成処理が終了する。なお、複数の仮想視点画像を1枚の静止画像または動画像に合成したインデックス画像が不要である場合には、ステップS8の処理は省略される。インデックス画像の生成の要否は、例えば、設定画面等で設定することができる。
 以上の処理によれば、ユーザは、スワイプ操作などのワンアクションによる簡単な操作によって、再生している自由視点画像データの3Dオブジェクトを複数の仮想視点から見た複数の仮想視点画像を生成することができる。さらに、複数の仮想視点画像を1枚の静止画像または動画像に合成したインデックス画像も簡単に生成することができる。
<4.変形例>
・撮影メタデータを用いた例
 コンテンツサーバ2に、自由視点画像データに対応する撮影メタデータが保存されている場合、撮影メタデータの一部として、複数の仮想カメラパスの情報を含めることができる。
 撮影メタデータの一部として含まれる複数の仮想カメラパスのそれぞれは、3Dオブジェクトの生成に用いられた撮影画像を撮影したときの撮影装置の位置(実カメラ位置)を仮想視点とする複数の仮想視点のデータ(仮想視点データ群)で構成される。
 この場合、仮想カメラパス生成部24は、ユーザのキャプチャ操作(スワイプ操作)に基づいて、撮影メタデータに含まれる複数の仮想カメラパスのなかから、キャプチャ操作に最も近い仮想カメラパスを選択し、画像生成部25に供給する。
 撮影メタデータのなかから選択された仮想カメラパスに基づいて仮想視点画像を生成することによって、再生装置1は、3Dオブジェクトを撮影したときの撮影画像と同じ(ほぼ同じ)仮想視点画像を生成することが可能となる。このような仮想視点画像は、3Dオブジェクトを撮影した撮影位置と他の撮影位置の間にあるワールド座標系上の位置を仮想視点とした仮想視点画像と比べて高品質な画像となる。
・キャプチャ操作として検出されるイベント
 上述した例では、ユーザのキャプチャ操作としてスワイプ操作を検出して、イベント情報とする例について説明したが、ユーザのキャプチャ操作は、スワイプ操作以外の操作でもよい。例えば、タッチパネルに対する、ダブルタップ操作、ピンチイン操作、ピンチアウト操作、またはノック操作などのユーザ操作を、キャプチャ操作として検出し、仮想カメラパスを生成してもよい。
 また例えば、再生装置1を振動させる操作であるシェイク操作を加速度センサ等によりキャプチャ操作として検出し、仮想カメラパスを生成してもよい。
 操作部21がキーボードやマウスなどを含む場合、例えば、マウスによるドラッグ操作、マウスによるダブルクリック操作、アプリケーションに設置された特定ボタンの押下、または所定のキーボード操作などのユーザ操作を、キャプチャ操作として検出し、仮想カメラパスを生成してもよい。
 操作部21としてマイクを備え、ユーザの発声による音声入力が可能である場合、例えば、仮想カメラパスの種別に応じた「パス1」、「パス2」等の音声を入力することで、仮想カメラパスを生成させるようにしてもよい。
 以上のようなキャプチャ操作として検出されるイベントのイベント情報は、1つの仮想カメラパスに対応付けられるようにしてもよいし、イベント情報に応じて異なる仮想カメラパスに対応付けられるようにしてもよい。イベント情報と仮想カメラパスとを1対1に対応付けて、検出されたイベント情報に対応付けられた仮想カメラパスを選択することができる。
・仮想カメラパスの軌道
 上述した例では、キャプチャ操作に対して、円軌道の仮想カメラパスを対応付けて生成するようにしたが、仮想カメラパスの軌道は、円軌道に限られない。例えば、仮想カメラパスの軌道は、螺旋軌道、楕円軌道、三角形の軌道、多角形の軌道などでもよい。また、キャプチャ操作として検出されるイベントによって、仮想カメラパスの軌道が異なるように対応付けられていてもよい。
・スワイプ操作の速度による仮想視点画像の生成枚数Nの制御
 上述した例では、仮想カメラパスの円軌道上に設定される仮想視点の数が、初期設定等で予め決定されることとしたが、ユーザが行うスワイプ操作の速度によって、仮想視点の数が制御できるようにしてもよい。
 例えば、スワイプ操作の速度が所定の速度よりも遅い場合、仮想視点を決定する角度θの刻み値が小さく設定される。この場合、1つの仮想カメラパスに含まれる仮想視点の数が増加するため、この仮想カメラパスに基づいて生成された仮想視点画像の枚数が多くなる。これにより、滑らかな動きの仮想視点画像となる。
 一方、スワイプ操作の速度が所定の速度よりも速い場合、仮想視点を決定する角度θの刻み値が大きく設定される。この場合、1つの仮想カメラパスに含まれる仮想視点の数が減少するため、この仮想カメラパスに基づいて生成された仮想視点の枚数が少なくなる。これにより、粗い動きの仮想視点画像となる。
・スワイプ操作の押圧による半径rの制御
 例えば、スワイプ操作におけるユーザの指の圧力が検出され、ユーザの指の圧力の強さに応じて、円軌道の半径rを制御してもよい。例えば、ユーザの指の圧力が所定の圧力よりも弱い場合、半径rは所定の値よりも大きく設定される。つまり、ワールド座標系の原点から離れた仮想視点の仮想視点画像が生成される。一方、ユーザの指の圧力が所定の圧力よりも強い場合、半径rは所定の値よりも小さく設定される。つまり、ワールド座標系の原点から離れた仮想視点の仮想視点画像が生成される。
 上述した例では、再生装置1は、ユーザが動作モードをキャプチャモードに変更し、再生を停止した時点(時刻)における3Dモデルの仮想視点画像を生成した。したがって、生成される複数の仮想視点画像は、同一の再生時刻の画像である。しかしながら、画像生成部25は、再生を停止した時点(時刻)の仮想視点画像に加えて、その時点の前後のフレームの仮想視点画像も生成してもよい。
<5.コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 CPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、およびドライブ310が接続されている。
 入力部306は、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部307は、ディスプレイ、スピーカ、出力端子などよりなる。記憶部308は、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体311を駆動する。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを入出力インタフェース305およびバス304を介してRAM303にロードして実行することにより、上述した一連の処理が行われる。RAM303にはまた、CPU301が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
 なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる場合はもちろん、必ずしも時系列的に処理されなくとも、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで実行されてもよい。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 本技術は、以下のような構成をとることもできる。
(1)
 所定の3Dオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定する決定部と、
 前記仮想視点から見た前記3Dオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する生成部と
 を備える画像処理装置。
(2)
 前記決定部は、ディスプレイに表示された前記3Dオブジェクトに対する2次元座標系上の前記ユーザ操作に対応して、3次元座標系上の前記3Dオブジェクトの前記仮想視点データ群を決定する
 前記(1)に記載の画像処理装置。
(3)
 前記決定部は、前記ユーザ操作に対応する前記2次元座標系上の方向ベクトルを算出し、算出した前記方向ベクトルに基づいて、前記仮想視点データ群を決定する
 前記(2)に記載の画像処理装置。
(4)
 前記決定部は、算出した前記方向ベクトルに応じて、前記仮想視点データ群の前記複数の仮想視点のデータの配列を決定する
 前記(3)に記載の画像処理装置。
(5)
 前記ユーザ操作は、前記ディスプレイに対するスワイプ操作またはドラッグ操作である
 前記(3)または(4)に記載の画像処理装置。
(6)
 前記ユーザ操作と前記仮想視点データ群とが、1対1に対応付けられており、
 前記決定部は、前記ユーザ操作に対応付けられた前記仮想視点データ群を決定する
 前記(1)乃至(5)のいずれかに記載の画像処理装置。
(7)
 複数の前記仮想視点それぞれについて生成された、複数の前記仮想視点画像を合成する合成部をさらに備える
 前記(1)に記載の画像処理装置。
(8)
 前記合成部は、複数の前記仮想視点画像を1つの静止画像に合成する
 前記(7)に記載の画像処理装置。
(9)
 前記合成部は、複数の前記仮想視点画像を1つの動画像に合成する
 前記(7)に記載の画像処理装置。
(10)
 前記3Dオブジェクトのデータと、前記3Dオブジェクトを撮影したときの撮影メタデータを取得する取得部をさらに備え、
 前記決定部は、前記ユーザ操作に対応して、前記撮影メタデータに含まれる複数の前記仮想視点データ群のなかから、所定の前記仮想視点データ群を決定する
 前記(1)乃至(9)のいずれかに記載の画像処理装置。
(11)
 画像処理装置が、
 所定の3Dオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定し、
 前記仮想視点から見た前記3Dオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する
 画像処理方法。
 1 再生装置, 22 データ取得部, 24 仮想カメラパス生成部, 25 画像生成部, 26 画像合成部

Claims (11)

  1.  所定の3Dオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定する決定部と、
     前記仮想視点から見た前記3Dオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する生成部と
     を備える画像処理装置。
  2.  前記決定部は、ディスプレイに表示された前記3Dオブジェクトに対する2次元座標系上の前記ユーザ操作に対応して、3次元座標系上の前記3Dオブジェクトの前記仮想視点データ群を決定する
     請求項1に記載の画像処理装置。
  3.  前記決定部は、前記ユーザ操作に対応する前記2次元座標系上の方向ベクトルを算出し、算出した前記方向ベクトルに基づいて、前記仮想視点データ群を決定する
     請求項2に記載の画像処理装置。
  4.  前記決定部は、算出した前記方向ベクトルに応じて、前記仮想視点データ群の複数の前記仮想視点のデータの配列を決定する
     請求項3に記載の画像処理装置。
  5.  前記ユーザ操作は、前記ディスプレイに対するスワイプ操作またはドラッグ操作である
     請求項3に記載の画像処理装置。
  6.  前記ユーザ操作と前記仮想視点データ群とが、1対1に対応付けられており、
     前記決定部は、前記ユーザ操作に対応付けられた前記仮想視点データ群を決定する
     請求項1に記載の画像処理装置。
  7.  複数の前記仮想視点それぞれについて生成された、複数の前記仮想視点画像を合成する合成部をさらに備える
     請求項1に記載の画像処理装置。
  8.  前記合成部は、複数の前記仮想視点画像を1つの静止画像に合成する
     請求項7に記載の画像処理装置。
  9.  前記合成部は、複数の前記仮想視点画像を1つの動画像に合成する
     請求項7に記載の画像処理装置。
  10.  前記3Dオブジェクトのデータと、前記3Dオブジェクトを撮影したときの撮影メタデータを取得する取得部をさらに備え、
     前記決定部は、前記ユーザ操作に対応して、前記撮影メタデータに含まれる複数の前記仮想視点データ群の中から、所定の前記仮想視点データ群を決定する
     請求項1に記載の画像処理装置。
  11.  画像処理装置が、
     所定の3Dオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定し、
     前記仮想視点から見た前記3Dオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する
     画像処理方法。
PCT/JP2020/021543 2019-06-14 2020-06-01 画像処理装置および画像処理方法 WO2020250726A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/596,143 US11816785B2 (en) 2019-06-14 2020-06-01 Image processing device and image processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019110795 2019-06-14
JP2019-110795 2019-06-14

Publications (1)

Publication Number Publication Date
WO2020250726A1 true WO2020250726A1 (ja) 2020-12-17

Family

ID=73781980

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/021543 WO2020250726A1 (ja) 2019-06-14 2020-06-01 画像処理装置および画像処理方法

Country Status (2)

Country Link
US (1) US11816785B2 (ja)
WO (1) WO2020250726A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006174189A (ja) * 2004-12-17 2006-06-29 Casio Comput Co Ltd 画像処理装置及び画像処理方法、カメラ装置
JP2018112997A (ja) * 2017-01-13 2018-07-19 キヤノン株式会社 画像処理装置及びその方法、プログラム、画像処理システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL208910A0 (en) * 2010-10-24 2011-02-28 Rafael Advanced Defense Sys Tracking and identification of a moving object from a moving sensor using a 3d model
US20150169165A1 (en) * 2012-04-17 2015-06-18 Google Inc. System and Method for Processing Overlapping Input to Digital Map Functions
JP6934887B2 (ja) * 2015-12-31 2021-09-15 エムエル ネザーランズ セー.フェー. 単眼カメラを用いたリアルタイム3d捕捉およびライブフィードバックのための方法およびシステム
JP6360509B2 (ja) * 2016-02-25 2018-07-18 任天堂株式会社 情報処理プログラム、情報処理システム、情報処理方法、および情報処理装置
JP2018182428A (ja) 2017-04-06 2018-11-15 株式会社フューチャリズムワークス 映像配信装置、映像配信システム及び映像配信方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006174189A (ja) * 2004-12-17 2006-06-29 Casio Comput Co Ltd 画像処理装置及び画像処理方法、カメラ装置
JP2018112997A (ja) * 2017-01-13 2018-07-19 キヤノン株式会社 画像処理装置及びその方法、プログラム、画像処理システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"au5G活用プロ野球リアルタイム自由視点公開実験", YOUTUBE, 27 June 2018 (2018-06-27), XP054981370, Retrieved from the Internet <URL:https://www.youtube.com/watch?v=eeZ9NJEKFT8> [retrieved on 20200730] *
"Realization of ''Watching from Your Preferred Angle'! The World's First Attempt Using 5G", APPLICABLE TO SPORTS OTHER THAN BASEBALL EVENTS, CONCERTS'', NON-OFFICIAL TRANSLATION (WATCH LIVE PRO BASEBALL FROM YOUR PREFERRED ANGLE! DRAMATIC ADVANCES IN SPORTS SPECTATORSHIP WITH ''5G, 17 July 2018 (2018-07-17), Retrieved from the Internet <URL:https://time-space.kddi.com/au-kddi/20180717/2378> [retrieved on 20200730] *
KASHIWAKUMA, JUNYA ET AL.: "A 3D Free-Viewpoint Video Browsing Interface with Multi-Touch Manipulation", VRSJ: THE 16TH ANNUAL CONFERENCE, September 2011 (2011-09-01), XP009517083, Retrieved from the Internet <URL:http://www.kameda-lab.org/research/publication/2011/201109_VRSJ/201109VRSJ_KashiwakumaJ.pdf> [retrieved on 20200730] *

Also Published As

Publication number Publication date
US20220245887A1 (en) 2022-08-04
US11816785B2 (en) 2023-11-14

Similar Documents

Publication Publication Date Title
JP6309749B2 (ja) 画像データ再生装置および画像データ生成装置
TWI530157B (zh) 多視角影像之顯示系統、方法及其非揮發性電腦可讀取紀錄媒體
CN112235585B (zh) 一种虚拟场景的直播方法、装置及系统
JP2011090400A (ja) 画像表示装置および方法、並びにプログラム
WO2020213426A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
JP7378243B2 (ja) 画像生成装置、画像表示装置および画像処理方法
CN114327700A (zh) 一种虚拟现实设备及截屏图片播放方法
CN112740261A (zh) 全景光场捕获、处理和显示
WO2020166376A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
JP5477128B2 (ja) 信号処理装置、信号処理方法、表示装置及びプログラム
CN110730340B (zh) 基于镜头变换的虚拟观众席展示方法、系统及存储介质
US11847735B2 (en) Information processing apparatus, information processing method, and recording medium
US11086587B2 (en) Sound outputting apparatus and method for head-mounted display to enhance realistic feeling of augmented or mixed reality space
JP2016513991A (ja) ハプティックアクチュエータ制御パラメータを有するオーディオビジュアルコンテンツのアイテムを再生するための方法、および方法を実施するデバイス
JP2008187678A (ja) 映像生成装置及び映像生成プログラム
WO2020250726A1 (ja) 画像処理装置および画像処理方法
CN109872400B (zh) 一种全景虚拟现实场景的生成方法
WO2022151883A1 (zh) 虚拟现实设备
JP6991768B2 (ja) 表示制御装置および表示制御方法
JP6091850B2 (ja) テレコミュニケーション装置及びテレコミュニケーション方法
CN111512640A (zh) 多相机设备
US11187914B2 (en) Mirror-based scene cameras
JP2000030080A (ja) Vrシステム
JP2021015417A (ja) 画像処理装置、画像配信システム、および画像処理方法
CN111344744A (zh) 用于展示三维物体的方法以及相关计算机程序产品、数字存储介质和计算机系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20823365

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20823365

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP