WO2016088437A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2016088437A1
WO2016088437A1 PCT/JP2015/077216 JP2015077216W WO2016088437A1 WO 2016088437 A1 WO2016088437 A1 WO 2016088437A1 JP 2015077216 W JP2015077216 W JP 2015077216W WO 2016088437 A1 WO2016088437 A1 WO 2016088437A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
processing apparatus
space
target position
image data
Prior art date
Application number
PCT/JP2015/077216
Other languages
English (en)
French (fr)
Inventor
卓 青木
象 村越
亮 向山
吉洋 中西
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US15/520,073 priority Critical patent/US10190869B2/en
Priority to EP15865510.0A priority patent/EP3229459B1/en
Priority to JP2016562332A priority patent/JP6702196B2/ja
Publication of WO2016088437A1 publication Critical patent/WO2016088437A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/02Measuring arrangements characterised by the use of optical techniques for measuring length, width or thickness
    • G01B11/03Measuring arrangements characterised by the use of optical techniques for measuring length, width or thickness by measuring coordinates of points
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums

Definitions

  • This disclosure relates to an information processing apparatus, an information processing method, and a program.
  • Patent document 1 is an example of such a technique.
  • the present disclosure proposes a new and improved information processing apparatus, information processing method, and program that make it possible to appropriately determine a position in a space that is an object of image generation.
  • An information processing apparatus including a processor is provided.
  • the information indicating the viewing target position from a plurality of viewpoints existing in the space is collected, and the processor evaluates the position in the space according to the density of the viewing target position.
  • the function of collecting information indicating the positions of the visual target from a plurality of viewpoints existing in the space and the function of evaluating the position in the space according to the density of the visual target positions.
  • a program to be implemented by a processor is provided.
  • FIG. 5 is a schematic flowchart illustrating a process for estimating a spatial audience rating according to an embodiment of the present disclosure. It is a figure for demonstrating notionally spatial audience rating estimation in one Embodiment of this indication. It is a figure which shows the other example of the visual target position estimation in one Embodiment of this indication.
  • 3 is a diagram for conceptually explaining an example of image collection according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram for conceptually explaining another example of image collection according to an embodiment of the present disclosure.
  • FIG. FIG. 10 is a diagram for conceptually explaining still another example of image collection according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram for conceptually explaining still another example of image collection according to an embodiment of the present disclosure.
  • FIG. 10 is a flowchart illustrating an example of processing according to an embodiment of the present disclosure.
  • FIG. 3 is a block diagram illustrating a hardware configuration example of an information processing apparatus according to an embodiment of the present disclosure.
  • the spatial rating is estimated based on the density of visual target positions from a plurality of viewpoints existing in the space.
  • the spatial audience rating shows how much attention each position in the space is attracting.
  • the plurality of viewpoints may include, for example, viewpoints of spectators in the stadium.
  • the plurality of viewpoints may include, for example, viewpoints of cameras installed in a stadium.
  • the viewing target position from these viewpoints is, for example, a position on the line of sight. It is estimated that the position where the line of sight from the audience and the camera is concentrated, that is, the position where the spatial audience rating is high, is particularly attracting attention in the stadium.
  • three-dimensional point cloud (point cloud) data for providing a free viewpoint image is generated.
  • an image includes a moving image (video) and a still image.
  • FIG. 1 is a schematic flowchart illustrating a process for estimating a spatial audience rating according to an embodiment of the present disclosure.
  • the viewer position is estimated (S101).
  • the viewer means a subject having a viewpoint existing in the space, such as a spectator or a camera.
  • the viewer position is estimated by performing self-position estimation based on a viewpoint image provided from the viewer, for example.
  • a technique such as SLAM (Simultaneous Localization and Mapping) can be used for self-position estimation based on an image.
  • SLAM Simultaneous Localization and Mapping
  • information on landmarks in the space or information such as a three-dimensional model of the space may be used.
  • the viewer position may be estimated based on information provided from the viewer himself.
  • positioning using radio waves from a base station such as GNSS (Global Navigation Satellite Systems), Wi-Fi, or space-specific position expression (for example, the position of a spectator seat indicated by ticket information such as a stadium) ) can be used.
  • GNSS Global Navigation Satellite Systems
  • Wi-Fi Wireless Fidelity
  • space-specific position expression for example, the position of a spectator seat indicated by ticket information such as a stadium
  • the center direction of the viewpoint image provided from the viewer may be regarded as the line-of-sight direction.
  • the viewer is a spectator wearing a wearable camera
  • more detailed viewpoint estimation is possible.
  • an eye image captured by an inward camera which is provided together with a viewpoint image captured by a spectator with an outward camera, is used.
  • the line of sight can be estimated from the center position of the black eye, or the line of sight can be estimated from the posture of the eyeball model.
  • the viewer's visual target position is estimated based on the viewer position and line of sight estimated in S101 and S103 above (S105).
  • the visual target position is specified as a position on the line of sight emitted from the viewer position, for example.
  • a position where the line of sight intersects the ground or the floor may be estimated as a viewing target position using a three-dimensional model of space.
  • the focal length can be used with a camera or the like
  • the visual target position on the line of sight may be estimated based on the focal length.
  • the processing up to the estimation of the viewing target position in S105 may be executed by, for example, a client device corresponding to each viewer, or may be executed by a server that collects data such as images from the client device.
  • the spatial audience rating is estimated based on the viewing target position estimated in S105.
  • the spatial audience rating is estimated based on the density of the visual target position in the space.
  • information indicating the viewing target position of each viewer, that is, the viewing target position from a plurality of viewpoints existing in the space has been collected by the server that estimates the spatial audience rating.
  • the spatial audience rating may be calculated, for example, for each grid that divides the space into a predetermined size, or may be calculated for each cluster including viewing target positions that are close to each other.
  • the spatial audience rating estimated by the above processing is used to generate point cloud data for providing a free viewpoint image. More specifically, for example, point cloud data is generated for a position where the spatial audience rating (the density of the position to be viewed) exceeds a threshold value.
  • point cloud data is generated for a position where the spatial audience rating (the density of the position to be viewed) exceeds a threshold value.
  • there are many methods for providing a free viewpoint image Even if data for providing a free viewpoint image using such a method is generated based on the spatial data rate, Good.
  • a technique for providing a free viewpoint image is described in, for example, Japanese Patent Application Laid-Open No. 2007-133660.
  • Free viewpoint images allow you to observe any position in space from any angle.
  • a free viewpoint image is provided without limiting the position, for example, a user who views the captured image afterwards does not know which position to view, and therefore can always provide a better experience to the user. Is not limited.
  • the data becomes enormous. Therefore, in the present embodiment, by limiting the positions to which the free viewpoint image is provided based on the spatial audience rating, the free viewpoint image is provided in a form that is easy for the user to view, and the free viewpoint image is provided. Prevent data from becoming unnecessarily large.
  • FIG. 2 is a diagram for conceptually explaining spatial audience rating estimation according to an embodiment of the present disclosure.
  • the viewer position 110 existing in the space SP (the stadium in the illustrated example) is estimated.
  • the viewer position 110 may be a spectator providing a viewpoint image or a camera position.
  • the line of sight 115 is estimated.
  • the line of sight 115 may be regarded as, for example, along the center direction of the viewpoint image, or may be detected using a line-of-sight detection technique when the viewer is a spectator.
  • the visual target position 120 in the space SP is estimated.
  • the visual target position 120 may be estimated as a position where the line of sight 115 intersects the ground (or floor surface) as in the illustrated example.
  • the spatial audience rating is estimated according to the density of the viewing target position 120. In the illustrated example, a relatively high spatial audience rating is estimated at the position P1 and the position P2 where the visual target position 120 is concentrated.
  • FIG. 3 is a diagram illustrating another example of visual target position estimation according to an embodiment of the present disclosure.
  • the viewing target position is estimated based on the viewpoint image provided by the viewer.
  • the image 132 captured by the environment installation camera 130 is separated from the viewpoint image. Based on this, the viewer position 110 and the line of sight 115 are estimated.
  • the image 132 includes a viewer who is a spectator (VIEWER) as a subject.
  • VIEWER spectator
  • the viewer position, viewer face orientation, eye orientation, etc. in the image may be specified, and the line of sight 115 may be estimated based on these.
  • the result of machine learning regarding the image may be used for the detection of the viewer and the identification of the face orientation, the eye orientation, and the like.
  • FIG. 4 is a diagram for conceptually explaining an example of image collection according to an embodiment of the present disclosure.
  • images selected at each of the viewpoints 210 arranged in the space SP are selected based on the space audience rating.
  • An image including the position 220 is collected for generation of a free viewpoint image.
  • the viewpoint 210 is for a spectator (may be a professional cameraman) who wears a wearable camera or performs shooting with a mobile camera (such as a camera mounted on a normal digital camera or a smartphone). It can be a position.
  • the viewpoint 210 may include the position of a camera that is fixedly installed for relaying or the like.
  • an image photographed at the viewpoint 210 can be used for estimating the spatial audience rating.
  • This image may be used as it is as an image for generating a free viewpoint image.
  • images from a larger number of viewpoints 210 exist, so that it is easy to obtain a sufficient number of images for generating free viewpoint images.
  • all available images may be collected, and an image including the position 220 having a high space audience rate may be selected afterwards.
  • the spatial audience rating estimated based on the density of the viewing target position from the separately collected viewpoint images is obtained.
  • An image containing the high position 220 can be selected afterwards.
  • FIG. 5 is a diagram for conceptually explaining another example of image collection according to an embodiment of the present disclosure.
  • an image including a position 220 with a high spatial audience rating is collected by the environment setting camera 230.
  • the environment-installed camera 230 may be controlled in real time based on the estimation result of the spatial audience rating.
  • the environment-installed cameras 230 are arranged so that their directions can be changed within a predetermined range, and the areas in the space SP that can be photographed by the respective environment-installed cameras 230 partially overlap.
  • the region R1 where many viewing target positions 120 are concentrated and the spatial audience rating is estimated to be high is high-resolution (zoomed in) by a plurality of environment-installed cameras 230a and 230b. Shooting is in progress.
  • a region R2 in which several viewing target positions 120 are scattered and the spatial audience rating is estimated to be medium shooting is performed with high resolution (zoomed in) by a single environment-installed camera 230c. Yes.
  • shooting is performed at a low resolution (zoomed out) by the single environment-installed camera 230d.
  • an image for generating a free viewpoint image can be obtained stably and with a desired quality.
  • the relationship between the spatial audience rating and the operation of the environment-installed camera 230 is not limited to the above example. For example, even in an area where the spatial audience rating is estimated to be low, shooting may be executed by at least two environment-installed cameras 230 if there is a possibility that an event that should be noticed suddenly occurs. Further, when there is no possibility of such an event, it is not necessary to perform shooting for an area that is estimated to have a low spatial audience rating.
  • FIGS. 6 and 7 are diagrams for conceptually explaining still another example of image collection according to an embodiment of the present disclosure.
  • the same image collection as in the example shown in FIG. 5 is performed by a UAV (Unmanned aerial vehicle) for photographing.
  • the UAV 240 flies over the space SP (or inside the space SP) and captures an image in the space SP.
  • the region R1 is captured by the UAVs 240a and 240b
  • the region R2 is captured by the UAV 240c
  • the region R3 is captured by the UAV 240d.
  • the UAV 240 can change the shooting direction and zoom in / out in the same manner as the environment-installed camera 230 shown in FIG. 5, for example. Furthermore, the UAV 240 can freely move above or inside the space SP. Therefore, for example, for a position or region where the spatial audience rating is estimated to be high, it is possible to perform shooting while concentrating more UAVs 240. Further, as in the example shown in FIG. 7, for example, the position of the UAV 240 is changed according to the space audience rating, and the arrangement of the UAV 240 is adjusted so that the shooting range 242 of each UAV 240 covers the entire space SP. You can also
  • FIG. 8 is a diagram illustrating a configuration example of a system according to an embodiment of the present disclosure.
  • the system 10 includes a camera 300, a viewer terminal 400, a server 500, and a user terminal 600.
  • the viewer means a subject having a viewpoint existing in the space
  • the user is a free viewpoint provided based on the spatial audience rate estimated according to the density of the viewing target positions of the viewer. It means the subject who browses images.
  • the camera 300 is mounted on, for example, a terminal (which may be the viewer terminal 400) worn or carried by the viewer. Alternatively, the camera 300 may be a subject that automatically performs shooting, that is, a viewer itself as referred to in this specification.
  • the camera 300 includes an imaging unit including at least one imaging device, and acquires an outward camera image 310. Furthermore, when the camera 300 is mounted on a terminal worn by a viewer, the inward camera image 320 may be acquired by an imaging unit including another imaging device.
  • the viewer terminal 400 is a terminal device that is used by the viewer together with the camera 300 or is the viewer itself.
  • the viewer terminal 400 is realized by, for example, a hardware configuration of an information processing apparatus described later, and viewer position estimation realized by a processor such as a CPU (Central Processing unit) operating according to a program stored in a memory or storage. 410, a line-of-sight estimation unit 420, and a visual target position estimation unit 430.
  • the viewer terminal 400 can be realized as a smartphone, a digital camera, a tablet, a personal computer, or the like.
  • the viewer position estimation unit 410 estimates the viewer position using a technique such as SLAM based on the outward camera image 310 acquired by the camera 300, for example. At this time, the viewer position estimation unit 410 may use information such as the landmark 550 and the three-dimensional model 570 provided from the server 500. Alternatively, the viewer position estimation unit 410 may estimate the viewer position based on positioning information such as the GNSS data 560 or ticket information. In this case, the outward camera image 310 is not necessarily used for estimating the viewer position.
  • the gaze estimation unit 420 estimates the viewer's gaze based on, for example, the inward camera image 320 acquired by the camera 300.
  • the viewpoint image that is, the center direction of the outward camera image 310 can be regarded as the line-of-sight direction
  • the line-of-sight estimation unit 420 does not need to exist in such a case.
  • the line-of-sight estimation unit 420 estimates the line of sight from the center position of the black eye based on the eye image included in the inward-facing camera image 320, or the posture of the eyeball model It is possible to estimate the line of sight from
  • the visual target position estimation unit 430 estimates the viewer's visual target position based on the viewer position estimated by the viewer position estimation unit 410 and the visual line estimated by the visual line estimation unit 420.
  • the visual target position estimation unit 430 estimates the visual target position based on the three-dimensional model 570 of the space provided from the server 500, for example.
  • the visual target position estimation unit 430 uploads information indicating the estimated visual target position, for example, coordinates in the space defined in the three-dimensional model 570, to the server 500.
  • the server 500 includes one or a plurality of server devices connected to the camera 300 and / or the viewer terminal 400 via a network.
  • the server device is realized by, for example, a hardware configuration of an information processing device described later.
  • the server 500 can include a spatial audience rating estimation unit 520 and a point cloud generation unit 540 realized by a processor such as a CPU of the server device operating according to a program stored in a memory or storage.
  • a processor such as a CPU of the server device operating according to a program stored in a memory or storage.
  • data of the viewing target position data 510, the image data 530, the landmark 550, and the three-dimensional model 570 can be stored.
  • the server 500 collects information on the viewing target position provided from the viewer terminal 400 as viewing target position data 510.
  • the viewer position estimation, the gaze estimation, and / or the visual target position estimation may be performed by the server.
  • the server device processor The information indicating the viewing target position from a plurality of viewpoints existing in the group is collected. This information may be, for example, information indicating the estimated viewing target position itself as in the illustrated example, may be information indicating the estimated viewer position or line of sight, and may be the outward camera image 310. And / or inward camera image 320.
  • the spatial audience rating estimation unit 520 estimates the spatial audience rating based on the viewing target position data 510.
  • the spatial audience rating is an example of an index that is calculated according to the density of the visual target position and evaluates the position in the space. Therefore, it can be said that the space audience rating estimation unit 520 evaluates the position in the space according to the density of the viewing target position.
  • the server 500 acquires the outward camera image 310 uploaded from the camera 300 and stores it as image data 530.
  • the point cloud generation unit 540 generates point cloud data for providing a free viewpoint image from the image data 530 according to the spatial audience rating.
  • the point cloud data is distributed to the user terminal 600.
  • the point cloud generation unit 540 realized in the server 500 edits image data obtained by photographing the space based on the result of evaluating the position in the space according to the density of the viewing target position. It is an example of the function to perform.
  • the point cloud generation unit 540 selectively generates point cloud data for providing a free viewpoint image according to a spatial audience rating that is an index according to the density of the viewing target position. Selective generation may include, for example, generating point cloud data at a position or region with a high spatial audience rating and not generating point cloud data at a position or region with a low spatial audience rating.
  • the processor of the server device that implements the server 500 further captures the space based on the space audience rating. You may implement
  • the function of controlling image capturing by the environment-installed camera 230 and the UAV 240 can be realized by the processor of the server device.
  • control of the position in the space where the image is to be captured can be performed by changing the orientation of the environment-installed camera 230, moving the UAV 240, or the like.
  • the control of the range to be imaged may be performed by zooming in / out of a camera mounted on the environment-installed camera 230 or the UAV 240.
  • User terminal 600 is a terminal device used by a user who browses a free viewpoint image.
  • the user terminal 600 may be implemented by, for example, a hardware configuration of an information processing apparatus to be described later, and may include a free viewpoint image generation unit 610 that is implemented by a processor such as a CPU operating according to a program stored in a memory or storage.
  • the user terminal 600 can be realized as a television, a recorder, a personal computer, a tablet, a smartphone, or the like.
  • the free viewpoint image generation unit 610 generates a free viewpoint image based on the point cloud data provided from the server 500.
  • the free viewpoint image can be generated according to the viewpoint designation 620 by the user's operation input.
  • a user who views a free viewpoint image is not limited to the viewpoint designation 620, and may be able to designate zoom-in / out or the like by an operation input.
  • the generated free viewpoint image may be displayed on a display of the user terminal 600 or may be output to an externally connected display.
  • the configuration example of the system according to this embodiment has been described above.
  • the described configuration is an example, and various modifications are possible.
  • the functions described above as being included in the viewer terminal 400 and the user terminal 600 may be realized by the server 500.
  • the server 500 may realize the free viewpoint image generation unit 610 and distribute the free viewpoint image generated according to the viewpoint designation 620 or the like to a display device under the user.
  • FIG. 9 is a flowchart illustrating an example of processing according to an embodiment of the present disclosure.
  • FIG. 9 shows an example of processing executed in the system 10 described above with reference to FIG.
  • a landmark is detected from the outward camera image 310 acquired by the camera 300 (S201).
  • a landmark is, for example, an object that is installed in a space and can be a landmark in an image.
  • a landmark may not be installed for viewer position estimation, such as a line drawn on a stadium field, a pole for a competition, a theater stage, or a guidance display.
  • the landmark may be installed for viewer position estimation.
  • the landmarks can be arranged with a texture that allows each landmark to be uniquely identified at a position where the landmarks are easily transferred to images taken from various viewpoints.
  • a landmark is detected from the outward camera image 310 (S203).
  • viewer position estimation using the landmark is performed (S205).
  • the viewer position is estimated using SLAM technology with reference to the coordinates of landmarks set in advance in a three-dimensional model of space.
  • viewer position estimation using GNSS data is performed (S207). Note that the viewer position may be estimated based on other positioning information instead of the GNSS data.
  • the viewer position estimation based on the positioning information or the like may be preferentially performed.
  • line-of-sight estimation using the inward camera image 320 is performed (S209).
  • the center direction of the outward camera image 310 may be regarded as the line-of-sight direction.
  • the visual target position estimation based on the estimated viewer position and line of sight is performed (S211).
  • the information on the viewing target position estimated by the viewer terminal 400 and the outward camera image 310 acquired by the camera 300 are uploaded to the server 500 (S213).
  • the processing of S201 to S211 may be executed by the server 500.
  • the outward camera image 310 is uploaded from the camera 300 to the server 500. It may just be done.
  • the spatial audience rating estimation unit 520 calculates the density of the visual target position in the grid or cluster in the space based on the uploaded information (S215).
  • the density of the visual target position corresponds to the spatial audience rating of the grid or cluster.
  • the point cloud generation unit 540 determines whether or not the density exceeds the threshold value in the loop processing (S217) for each grid or cluster in which the density of the target position is calculated (S219), and the density If the value exceeds the threshold value, point cloud data for the grid or cluster is generated (S221).
  • the point cloud data generated by the above processing is distributed to the user (S223), and a free viewpoint image is generated according to the viewpoint selection (S225) by the user (S227).
  • FIG. 10 is a block diagram illustrating a hardware configuration example of the information processing apparatus according to the embodiment of the present disclosure.
  • the illustrated information processing apparatus 900 can realize, for example, a viewer terminal, a server apparatus, and / or a user terminal in the above-described embodiment.
  • the information processing apparatus 900 includes a CPU (Central Processing unit) 901, a ROM (Read Only Memory) 903, and a RAM (Random Access Memory) 905.
  • the information processing apparatus 900 may include a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925.
  • the information processing apparatus 900 may include an imaging device 933 and a sensor 935 as necessary.
  • the information processing apparatus 900 may include a processing circuit such as a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable Gate Array) instead of or in addition to the CPU 901.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • the CPU 901 functions as an arithmetic processing device and a control device, and controls all or a part of the operation in the information processing device 900 according to various programs recorded in the ROM 903, the RAM 905, the storage device 919, or the removable recording medium 927.
  • the ROM 903 stores programs and calculation parameters used by the CPU 901.
  • the RAM 905 primarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.
  • the CPU 901, the ROM 903, and the RAM 905 are connected to each other by a host bus 907 configured by an internal bus such as a CPU bus. Further, the host bus 907 is connected to an external bus 911 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 909.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 915 is a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915 may be, for example, a remote control device that uses infrared rays or other radio waves, or may be an external connection device 929 such as a mobile phone that supports the operation of the information processing device 900.
  • the input device 915 includes an input control circuit that generates an input signal based on information input by the user and outputs the input signal to the CPU 901. The user operates the input device 915 to input various data and instruct processing operations to the information processing device 900.
  • the output device 917 is configured by a device capable of notifying the acquired information to the user using a sense such as vision, hearing, or touch.
  • the output device 917 can be, for example, a display device such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) display, an audio output device such as a speaker or headphones, or a vibrator.
  • the output device 917 outputs the result obtained by the processing of the information processing device 900 as video such as text or image, sound such as sound or sound, or vibration.
  • the storage device 919 is a data storage device configured as an example of a storage unit of the information processing device 900.
  • the storage device 919 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919 stores, for example, programs executed by the CPU 901 and various data, and various data acquired from the outside.
  • the drive 921 is a reader / writer for a removable recording medium 927 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or externally attached to the information processing apparatus 900.
  • the drive 921 reads information recorded on the attached removable recording medium 927 and outputs the information to the RAM 905.
  • the drive 921 writes a record in the attached removable recording medium 927.
  • the connection port 923 is a port for connecting a device to the information processing apparatus 900.
  • the connection port 923 can be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 923 may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • the communication device 925 is a communication interface configured with, for example, a communication device for connecting to the communication network 931.
  • the communication device 925 can be, for example, a communication card for LAN (Local Area Network), Bluetooth (registered trademark), Wi-Fi, or WUSB (Wireless USB).
  • the communication device 925 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication device 925 transmits and receives signals and the like using a predetermined protocol such as TCP / IP with the Internet and other communication devices, for example.
  • the communication network 931 connected to the communication device 925 is a network connected by wire or wireless, and may include, for example, the Internet, a home LAN, infrared communication, radio wave communication, satellite communication, or the like.
  • the imaging device 933 uses various members such as an imaging element such as a CMOS (Complementary Metal Oxide Semiconductor) or a CCD (Charge Coupled Device), and a lens for controlling the formation of a subject image on the imaging element. It is an apparatus that images a real space and generates a captured image.
  • the imaging device 933 may capture a still image or may capture a moving image.
  • the sensor 935 is various sensors such as an acceleration sensor, an angular velocity sensor, a geomagnetic sensor, an illuminance sensor, a temperature sensor, an atmospheric pressure sensor, or a sound sensor (microphone).
  • the sensor 935 acquires information about the state of the information processing apparatus 900 itself, such as the posture of the information processing apparatus 900, and information about the surrounding environment of the information processing apparatus 900, such as brightness and noise around the information processing apparatus 900, for example. To do.
  • the sensor 935 may include a GNSS (Global Navigation Satellite Systems) receiver that receives a signal from an artificial satellite and measures the latitude, longitude, and altitude of the apparatus.
  • GNSS Global Navigation Satellite Systems
  • Each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Such a configuration can be appropriately changed according to the technical level at the time of implementation.
  • an information processing apparatus for example, an information processing apparatus, a system, an information processing method executed by the information processing apparatus or system, a program for causing the information processing apparatus to function, and a program are recorded. It may include tangible media that is not temporary.
  • the evaluation result (spatial audience rating) of the position in the space according to the density of the viewing target position is used for generating point cloud data for providing a free viewpoint image.
  • the embodiment of the present disclosure is not limited to such an example.
  • a position with a high spatial audience rating is estimated to be a position where a user who is viewing a captured image is highly interested, and therefore various processes for recording an image according to such a user's interest are performed. It may be carried out according to the spatial audience rating.
  • an image taken at a position with a high spatial audience rate is stored at a high image quality (large image size and / or high bit rate), and an image taken at a position other than that is low image quality (small).
  • a configuration may be employed in which resources for recording data are effectively used by recording at a small image size and / or low bit rate.
  • a sufficient image cannot be acquired to generate a free viewpoint image, or the user viewing the image is free because the spatial audience rating is low.
  • a position where data for generating a viewpoint image for example, point cloud data
  • a plurality of viewpoint images obtained by capturing the position are simply switched and viewed using available images. May be possible.
  • the following configurations also belong to the technical scope of the present disclosure.
  • An information processing apparatus comprising: a processor that realizes a function of evaluating a position in the space according to a density of the visual target position.
  • the processor A function of acquiring image data obtained by photographing the space;
  • the information processing apparatus according to (1) further realizing a function of executing editing of the image data based on a result of evaluating a position in the space.
  • the information processing apparatus according to (2), wherein the editing of the image data includes generation of data for providing a free viewpoint image.
  • the information processing apparatus includes generating data for selectively providing the free viewpoint image according to a density of the viewing target position.
  • the editing of the image data includes changing the quality of the image data recorded according to the density of the viewing target position, according to any one of (2) to (4).
  • Information processing device (6) The information processing according to any one of (2) to (5), wherein the editing of the image data includes selecting the image data to be recorded according to a density of the viewing target position. apparatus. (7) The information processing apparatus according to any one of (2) to (6), wherein the viewing target position is estimated based on the image data.
  • the processor A function of acquiring image data obtained by photographing the space; The information processing apparatus according to any one of (1) to (7), further realizing a function of executing control of acquisition of the image data based on a result of evaluating a position in the space. (9) The information processing apparatus according to (8), wherein the acquisition control of the image data includes control of a position to be imaged. (10) The information processing apparatus according to (8) or (9), wherein the acquisition control of the image data includes control of a range to be imaged. (11) The information processing apparatus according to (1), wherein the viewing target position is estimated based on image data obtained by photographing the space from the plurality of viewpoints.
  • the processor The information processing apparatus according to (11), further realizing a function of estimating the viewing target position based on information indicating the viewing target position.
  • the information indicating the viewing target position further includes information indicating a line of sight from the plurality of viewpoints.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】画像生成の対象になる空間内の位置を適切に決定する。 【解決手段】空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、上記視対象位置の密度に応じて上記空間内の位置を評価する機能とを実現するプロセッサを備える情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 カメラで画像を撮影するにあたり、例えば視点の異なる複数のカメラを撮影に用いるなどして、表現力の高い画像を得るための技術が種々提案されている。特許文献1は、そのような技術の一例である。
特開2003-179800号公報
 例えば特許文献1に記載された技術では、空間内のいずれかの位置を対象にして、複数のカメラで撮影された画像を組み合わせた表現力の高い画像が生成される。この場合、画像は適切に生成されても、対象になる位置の選定が適切でなければ、ユーザにとって魅力的な画像にはなりにくい。他の技術でも同様に、表現力が高く、かつユーザにとって魅力的な画像を得るためには、空間内で対象になる位置を適切に決定することが重要になる。しかしながら、そのような位置を適切に決定するための技術は、これまでに十分に提案されているとは必ずしもいえない。
 そこで、本開示では、画像生成の対象になる空間内の位置を適切に決定することを可能にする、新規かつ改良された情報処理装置、情報処理方法およびプログラムを提案する。
 本開示によれば、空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、上記視対象位置の密度に応じて上記空間内の位置を評価する機能とを実現するプロセッサを備える情報処理装置が提供される。
 また、本開示によれば、空間内に存在する複数の視点からの視対象位置を示す情報を収集することと、プロセッサが、上記視対象位置の密度に応じて上記空間内の位置を評価することとを含む情報処理方法が提供される。
 また、本開示によれば、空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、上記視対象位置の密度に応じて上記空間内の位置を評価する機能とをプロセッサに実現させるためのプログラムが提供される。
 以上説明したように本開示によれば、画像生成の対象になる空間内の位置を適切に決定することができる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態における空間視聴率推定のための処理を示す概略的なフローチャートである。 本開示の一実施形態における空間視聴率推定について概念的に説明するための図である。 本開示の一実施形態における視対象位置推定の他の例を示す図である。 本開示の一実施形態における画像の収集の例について概念的に説明するための図である。 本開示の一実施形態における画像の収集の別の例について概念的に説明するための図である。 本開示の一実施形態における画像の収集のさらに別の例について概念的に説明するための図である。 本開示の一実施形態における画像の収集のさらに別の例について概念的に説明するための図である。 本開示の一実施形態に係るシステムの構成例を示す図である。 本開示の一実施形態における処理の例を示すフローチャートである。 本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.空間視聴率の推定
 2.画像の収集および自由視点画像の生成
 3.システム構成例
 4.処理フローの例
 5.ハードウェア構成
 6.補足
 (1.空間視聴率の推定)
 本開示の一実施形態では、空間内に存在する複数の視点からの視対象位置(visual target position)の密度に基づいて空間視聴率(spatial rating)が推定される。空間視聴率は、空間内のそれぞれの位置がどの程度の注目を集めているかを示す。例えば競技場のような空間を想定する場合、複数の視点は、例えば競技場にいる観客の視点を含みうる。また、複数の視点は、例えば競技場に設置されたカメラの視点を含んでもよい。これらの視点からの視対象位置は、例えば視線上の位置である。観客やカメラからの視線が集中している位置、つまり空間視聴率が高い位置は、競技場の中で特に注目されていると推定される。本実施形態では、このような空間視聴率に基づいて、自由視点画像を提供するための3次元点群(ポイントクラウド)データを生成する。なお、本明細書において、画像は動画像(映像)および静止画像を含む。
 図1は、本開示の一実施形態における空間視聴率推定のための処理を示す概略的なフローチャートである。図1を参照すると、本実施形態では、まず、視聴者位置を推定する(S101)。ここで、視聴者は、空間内に存在する視点を有する主体、例えば観客やカメラを意味する。視聴者位置は、例えば視聴者から提供される視点画像に基づいて自己位置推定を実施することによって推定される。画像に基づく自己位置推定には、例えばSLAM(Simultaneous Localization and Mapping)などの技術を利用することができる。自己位置推定にあたっては、空間内にあるランドマークの情報や、空間の3次元モデルなどの情報が利用されてもよい。あるいは、視聴者位置は、視聴者自身から提供される情報に基づいて推定されてもよい。この場合、例えば、GNSS(Global Navigation Satellite Systems)、Wi-Fiなどの基地局からの電波を利用した測位、または空間特有の位置表現(例えば、競技場などのチケット情報によって示される観客席の位置)などが利用されうる。
 次に、視線を推定する(S103)。簡便な方法としては、視聴者から提供される視点画像の中心方向を視線方向とみなしてもよい。例えば視聴者がウェアラブルカメラを装用した観客であるような場合には、より詳細な視点の推定が可能である。この場合、例えば、観客が外向きのカメラで撮影した視点画像とともに提供する、内向きのカメラで撮影した眼の画像が利用される。より具体的には、黒眼の中心位置から視線を推定したり、眼球モデルの姿勢から視線を推定したりすることが可能である。
 次に、上記のS101およびS103で推定された視聴者位置および視線に基づいて、視聴者の視対象位置を推定する(S105)。視対象位置は、例えば視聴者位置から発した視線上の位置として特定される。例えば、空間の3次元モデルを利用して、視線が地面または床面に交わった位置を視対象位置として推定してもよい。あるいは、カメラなどで焦点距離が利用可能な場合には、焦点距離に基づいて視線上の視対象位置を推定してもよい。なお、S105における視対象位置の推定までの処理は、例えば各視聴者に対応するクライアント装置で実行されてもよいし、クライアント装置から画像などのデータを収集するサーバで実行されてもよい。
 次に、上記のS105で推定された視対象位置に基づいて、空間視聴率が推定される。上述の通り、空間視聴率は、空間内における視対象位置の密度に基づいて推定される。この時点までに、各視聴者の視対象位置、つまり空間内に存在する複数の視点からの視対象位置を示す情報は、空間視聴率を推定するサーバによって収集されている。空間視聴率は、例えば、空間内を所定のサイズに区分したグリッドごとに算出されてもよいし、互いに近接する視対象位置を含むクラスタごとに算出されてもよい。
 上述の通り、以上のような処理によって推定された空間視聴率は、自由視点画像を提供するためのポイントクラウドデータを生成するために利用される。より具体的には、例えば、空間視聴率(視対象位置の密度)が閾値を超えた位置について、ポイントクラウドデータが生成される。なお、ポイントクラウドデータを用いる方法以外にも自由視点画像を提供するための手法は多くあり、そのような手法で自由視点画像を提供するためのデータが、空間資料率に基づいて生成されてもよい。自由視点画像を提供するための技術については、例えば特開2007-133660号公報などに記載されている。
 自由視点画像は、空間内の任意の位置を、任意の角度から観察することを可能にする。しかしながら、位置を限定せずに自由視点画像が提供された場合、例えば撮影された画像を事後的に視聴するユーザは、どの位置を見ればよいかがわからないため、必ずしもユーザによりよい体験が提供できるとは限らない。また、利用可能な画像のすべてを利用して自由視点画像を提供しようとすると、データが膨大になる。そこで、本実施形態では、空間視聴率に基づいて自由視点画像を提供する対象になる位置を限定することで、ユーザにとって見やすい形で自由視点画像を提供するとともに、自由視点画像を提供するためのデータが不必要に膨大になるのを防ぐ。
 図2は、本開示の一実施形態における空間視聴率推定について概念的に説明するための図である。図2に示されるように、本実施形態では、まず、空間SP(図示された例では競技場)内に存在する視聴者位置110を推定する。上記の通り、視聴者位置110は、視点画像を提供する観客や、カメラの位置でありうる。次に、視線115が推定される。視線115は、例えば視点画像の中心方向に沿うとみなされてもよいし、視聴者が観客である場合には、視線検出の技術を利用して検出されてもよい。視線115の推定結果に基づいて、空間SP内の視対象位置120が推定される。視対象位置120は、図示された例のように、視線115が地面(または床面)に交わった位置として推定されてもよい。空間視聴率は、視対象位置120の密度に応じて推定される。図示された例では、視対象位置120が集中している位置P1や位置P2において、比較的高い空間視聴率が推定される。
 図3は、本開示の一実施形態における視対象位置推定の他の例を示す図である。上記の例では、視対象位置が視聴者から提供された視点画像に基づいて推定されたが、図3に示される例では、視点画像とは別に、環境設置カメラ130によって撮影された画像132に基づいて、視聴者位置110および視線115が推定される。画像132には、観客である視聴者(VIEWER)が被写体として含まれている。このような画像132を解析することによって、画像中の視聴者位置や視聴者の顔の向き、眼の向きなどを特定し、これらに基づいて視線115を推定してもよい。視聴者の検出や、顔の向き、眼の向きなどの特定には、画像に関する機械学習の結果が利用されてもよい。
 (2.画像の収集および自由視点画像の生成)
 図4は、本開示の一実施形態における画像の収集の例について概念的に説明するための図である。図4に示されるように、本実施形態では、空間SP(図示された例では競技場)内に配置された視点210のそれぞれにおいて撮影された画像のうち、空間視聴率に基づいて選定された位置220を含む画像が、自由視点画像の生成のために収集される。視点210は、例えばウェアラブルカメラを装用したり、モバイルカメラ(通常のデジタルカメラまたはスマートフォンなどに搭載されるカメラなど)で撮影を実行したりしている観客(プロフェッショナルのカメラマンであってもよい)の位置でありうる。また、視点210は、中継などのために固定設置されたカメラの位置を含んでもよい。
 例えば、上述のように、本実施形態では、空間視聴率の推定のために、視点210において撮影された画像が利用されうる。この画像を、そのまま自由視点画像の生成のための画像として利用してもよい。空間視聴率が高い位置220では、より多くの視点210からの画像が存在するため、自由視点画像の生成のために十分な数の画像が得られやすい。あるいは、空間視聴率の推定に用いられたか否かに関わらず、利用可能な画像がすべて収集され、空間視聴率が高い位置220を含む画像が事後的に選別されてもよい。例えば、図3に示したように視対象位置を視点画像とは別の画像によって推定するような場合、別途収集された視点画像から、視対象位置の密度に基づいて推定された空間視聴率が高い位置220を含む画像が事後的に選別されうる。
 図5は、本開示の一実施形態における画像の収集の別の例について概念的に説明するための図である。図5に示された例では、環境設置カメラ230によって、空間視聴率が高い位置220を含む画像が収集される。環境設置カメラ230は、空間視聴率の推定結果に基づいてリアルタイムで制御されてもよい。この場合、例えば、環境設置カメラ230は、所定の範囲の中で向きを変えられるように配置され、それぞれの環境設置カメラ230が撮影可能な空間SP内の領域は部分的に重複する。
 図示された例では、多くの視対象位置120が集中し、空間視聴率が高いと推定される領域R1については、複数の環境設置カメラ230a,230bによって、いずれも高解像度で(ズームインして)撮影が実行されている。また、いくつかの視対象位置120が散在し、空間視聴率が中程度と推定される領域R2については、単一の環境設置カメラ230cによって、高解像度で(ズームインして)撮影が実行されている。視対象位置120がなく、空間視聴率が低いと推定される領域R3については、単一の環境設置カメラ230dによって、低解像度で(ズームアウトして)撮影が実行されている。
 上記のような図5の例では、環境設置カメラ230を設置するコストはかかるものの、自由視点画像の生成のための画像を、安定して、かつ所望の品質で得ることができる。なお、空間視聴率と環境設置カメラ230の動作との関係は、上記の例には限られない。例えば、空間視聴率が低いと推定される領域についても、突発的に注目すべきイベントが生じる可能性がある場合には、少なくとも2つの環境設置カメラ230で撮影が実行されてもよい。また、そのようなイベントが生じる可能性がない場合には、空間視聴率が低いと推定される領域については撮影を実行しなくてもよい。
 図6および図7は、本開示の一実施形態における画像の収集のさらに別の例について概念的に説明するための図である。図6および図7に示された例では、撮影用のUAV(Unmanned aerial vehicle)によって、図5に示した例と同様の画像の収集が実施される。UAV240は、空間SPの上空(または空間SPの内部)を飛行し、空間SP内の画像を撮影する。図6に示された例では、UAV240a,240bによって領域R1が、UAV240cによって領域R2が、UAV240dによって領域R3が、それぞれ撮影されている。
 UAV240は、例えば図5に示された環境設置カメラ230と同様に、撮影の向きを変えたり、ズームイン/アウトしたりすることが可能である。さらに、UAV240は、空間SPの上空または内部を、自由に移動することができる。従って、例えば、空間視聴率が高いと推定される位置または領域については、より多くのUAV240を集中させて撮影を実行することが可能になる。また、例えば図7に示した例のように、空間視聴率に応じてUAV240の位置を変更しつつ、それぞれのUAV240の撮影範囲242が、空間SPの全体をカバーするようにUAV240の配置を調整することもできる。
 (3.システム構成例)
 図8は、本開示の一実施形態に係るシステムの構成例を示す図である。図8を参照すると、システム10は、カメラ300と、視聴者端末400と、サーバ500と、ユーザ端末600とを含む。なお、本明細書において、視聴者は空間内に存在する視点を有する主体を意味し、ユーザは視聴者の視対象位置の密度に応じて推定された空間視聴率に基づいて提供される自由視点画像を閲覧する主体を意味する。以下、それぞれの
 カメラ300は、例えば視聴者によって装着または携帯される端末(視聴者端末400であってもよい)に搭載される。あるいは、カメラ300は、自動的に撮影を実行する主体、すなわち本明細書でいう視聴者そのものであってもよい。カメラ300は、少なくとも1つの撮像素子を含む撮像部を備え、外向きカメラ画像310を取得する。さらに、カメラ300が視聴者によって装着される端末に搭載されるような場合、別の撮像素子を含む撮像部によって、内向きカメラ画像320が取得されてもよい。
 視聴者端末400は、カメラ300とともに視聴者によって使用される、または視聴者そのものである端末装置である。視聴者端末400は、例えば後述する情報処理装置のハードウェア構成によって実現され、CPU(Central Processing unit)などのプロセッサがメモリまたはストレージに格納されたプログラムに従って動作することによって実現される視聴者位置推定部410、視線推定部420、および視対象位置推定部430を含みうる。一例として、視聴者端末400は、スマートフォン、デジタルカメラ、タブレット、パーソナルコンピュータなどとして実現されうる。
 視聴者位置推定部410は、例えば、カメラ300によって取得された外向きカメラ画像310に基づいて、SLAMなどの技術を利用して視聴者位置を推定する。このとき、視聴者位置推定部410は、サーバ500から提供される、ランドマーク550や3次元モデル570などの情報を利用してもよい。あるいは、視聴者位置推定部410は、GNSSデータ560のような測位情報、またはチケット情報などに基づいて視聴者位置を推定してもよい。この場合、視聴者位置の推定には、必ずしも外向きカメラ画像310が用いられなくてもよい。
 視線推定部420は、例えば、カメラ300によって取得された内向きカメラ画像320に基づいて、視聴者の視線を推定する。上述のように、簡便な方法としては、視点画像、すなわち外向きカメラ画像310の中心方向を視線方向とみなすことができるため、そのような場合は視線推定部420は存在しなくてもよい。例えば内向きカメラ画像320が取得可能である場合、視線推定部420は、内向きカメラ画像320に含まれる眼の画像に基づいて、黒眼の中心位置から視線を推定したり、眼球モデルの姿勢から視線を推定したりすることが可能である。
 視対象位置推定部430は、視聴者位置推定部410によって推定された視聴者位置と、視線推定部420によって推定された視線とに基づいて、視聴者の視対象位置を推定する。視対象位置推定部430は、例えば、サーバ500から提供される空間の3次元モデル570に基づいて視対象位置を推定する。視対象位置推定部430は、推定された視対象位置を示す情報、例えば3次元モデル570において定義される空間内の座標を、サーバ500にアップロードする。
 サーバ500は、カメラ300および/または視聴者端末400とネットワークで接続された、1または複数のサーバ装置によって構成される。サーバ装置は、例えば後述する情報処理装置のハードウェア構成によって実現される。サーバ500は、サーバ装置のCPUなどのプロセッサがメモリまたはストレージに格納されたプログラムに従って動作することによって実現される空間視聴率推定部520およびポイントクラウド生成部540を含みうる。また、サーバ500を実現するサーバ装置のメモリまたはストレージには、視対象位置データ510、画像データ530、ランドマーク550、および3次元モデル570のデータが格納されうる。
 サーバ500は、視聴者端末400から提供される視対象位置の情報を、視対象位置データ510として収集する。なお、後述するように、視聴者位置の推定、視線の推定、および/または視対象位置の推定をサーバで実施することも可能であるが、いずれの場合も、サーバ装置のプロセッサは、空間内に存在する複数の視点からの視対象位置を示す情報を収集する。この情報は、例えば図示された例のように推定された視対象位置自体を示す情報であってもよく、推定された視聴者位置や視線を示す情報であってもよく、外向きカメラ画像310および/または内向きカメラ画像320であってもよい。
 空間視聴率推定部520は、視対象位置データ510に基づいて空間視聴率を推定する。空間視聴率は、視対象位置の密度に応じて算出され、空間内の位置を評価(rate)する指標の一例である。従って、空間視聴率推定部520は、視対象位置の密度に応じて空間内の位置を評価しているともいえる。ここで、サーバ500は、カメラ300からアップロードされた外向きカメラ画像310を取得し、画像データ530として蓄積している。ポイントクラウド生成部540は、空間視聴率に応じて、画像データ530から自由視点画像を提供するためのポイントクラウドデータを生成する。ポイントクラウドデータは、ユーザ端末600に配信される。
 ここで、サーバ500において実現されるポイントクラウド生成部540は、視対象位置の密度に応じて空間内の位置を評価した結果に基づいて、空間内を撮影することによって得られる画像データの編集を実行する機能の一例である。例えば、ポイントクラウド生成部540は、自由視点画像を提供するためのポイントクラウドデータを、視対象位置の密度に応じた指標である空間視聴率に応じて選択的に生成する。選択的に生成するとは、例えば、空間視聴率が高い位置または領域ではポイントクラウドデータを生成し、空間視聴率が低い位置または領域ではポイントクラウドデータを生成しないことを含みうる。
 なお、例えば、上記で図5~図7を参照して説明した例のような場合、サーバ500を実現するサーバ装置のプロセッサは、さらに、空間視聴率に基づいて、空間内を撮影することによって得られる画像データの取得の制御を実行する機能を実現してもよい。上記の例でいえば、環境設置カメラ230やUAV240による画像の撮影を制御する機能が、サーバ装置のプロセッサによって実現されうる。この場合、例えば、画像の撮影の対象になる空間内の位置の制御が、環境設置カメラ230の向きの変更や、UAV240の移動などによって実施されうる。また、画像の撮影の対象になる範囲の制御が、環境設置カメラ230やUAV240に搭載されたカメラのズームイン/ズームアウトなどによって実施されてもよい。
 ユーザ端末600は、自由視点画像を閲覧するユーザによって使用される端末装置である。ユーザ端末600は、例えば後述する情報処理装置のハードウェア構成によって実現され、CPUなどのプロセッサがメモリまたはストレージに格納されたプログラムに従って動作することによって実現される自由視点画像生成部610を含みうる。一例として、ユーザ端末600は、テレビ、レコーダ、パーソナルコンピュータ、タブレット、スマートフォンなどとして実現されうる。
 自由視点画像生成部610は、サーバ500から提供されるポイントクラウドデータに基づいて、自由視点画像を生成する。ここで、自由視点画像は、ユーザの操作入力による視点指定620に従って生成されうる。自由視点画像を閲覧するユーザは、視点指定620に限らず、ズームイン/アウトなどを操作入力によって指定することも可能でありうる。なお、生成された自由視点画像は、ユーザ端末600自身が有するディスプレイに表示されてもよいし、外部接続されるディスプレイに出力されてもよい。
 以上、本実施形態に係るシステムの構成例について説明した。なお、説明された構成は一例であり、様々な変形が可能である。例えば、上記で視聴者端末400およびユーザ端末600に含まれるものとして説明された機能は、サーバ500で実現されてもよい。例えば、カメラ300が外向きカメラ画像310および内向きカメラ画像320をサーバ500にアップロードし、視聴者位置推定部410、視線推定部420、および視対象位置推定部430がサーバ500で実現される場合、システム10は視聴者端末400を含まなくてもよい。また、サーバ500が自由視点画像生成部610を実現し、視点指定620などに従って生成された自由視点画像を、ユーザのもとにある表示装置に配信してもよい。
 (4.処理フローの例)
 図9は、本開示の一実施形態における処理の例を示すフローチャートである。図9では、上記で図8を参照して説明したシステム10において実行される処理の例が示されている。
 まず、視聴者端末400における視聴者位置推定の処理として、カメラ300において取得された外向きカメラ画像310から、ランドマークが検出される(S201)。ランドマークは、例えば、空間内に設置され、画像において目印になりうるオブジェクトである。例えば、ランドマークは、競技場のフィールドに引かれたラインや、競技のためのポール、劇場のステージや案内表示など、視聴者位置推定のために設置されたものでなくてもよい。あるいは、ランドマークは、視聴者位置推定のために設置されたものであってもよい。この場合、ランドマークは、例えば、さまざまな視点から撮影された画像に移りやすい位置に、それぞれが一意に識別できるようなテクスチャをもって配置されうる。
 外向きカメラ画像310からランドマークが検出されたか否かの判定(S203)において、ランドマークが検出された場合、ランドマークを使った視聴者位置推定が実施される(S205)。この場合、例えば、空間の3次元モデルにおいて予め設定されたランドマークの座標を基準にして、SLAMの技術を利用して視聴者位置が推定される。一方、ランドマークが検出されなかった場合、GNSSデータを使った視聴者位置推定が実施される(S207)。なお、GNSSデータに代えて、他の測位情報などに基づいて視聴者位置が推定されてもよい。また、測位情報などによって十分に高い精度の視聴者位置推定が可能である場合には、優先的に測位情報などによる視聴者位置推定が実施されてもよい。
 視聴者位置推定に続いて、内向きカメラ画像320を用いた視線推定が実施される(S209)。なお、上記のように、例えば内向きカメラ画像320が利用可能ではないような場合には、外向きカメラ画像310の中心方向を視線方向とみなしてもよい。さらに、推定された視聴者位置および視線に基づく視対象位置推定が実施される(S211)。図8に示した例におけるシステム10では、視聴者端末400において推定された視対象位置の情報と、カメラ300において取得された外向きカメラ画像310とが、サーバ500にアップロードされる(S213)。既に述べたように、S201~S211の処理はサーバ500で実行されてもよく、その場合は、カメラ300からサーバ500に、外向きカメラ画像310(付加的に、内向きカメラ画像320)がアップロードされるだけであってもよい。
 サーバ500では、空間視聴率推定部520が、アップロードされた情報に基づいて、空間内のグリッド、またはクラスタにおける視対象位置の密度を計算する(S215)。図示された例では、視対象位置の密度が、グリッドまたはクラスタの空間視聴率に相当する。さらに、サーバ500では、ポイントクラウド生成部540が、視対象位置の密度が算出されたグリッドまたはクラスタごとのループ処理(S217)において、密度が閾値を超えるか否かを判定し(S219)、密度が閾値を超える場合には当該グリッドまたはクラスタについてのポイントクラウドデータを生成する(S221)。以上のような処理によって生成されたポイントクラウドデータはユーザに配信され(S223)、ユーザによる視点の選択(S225)などに応じて、自由視点画像が生成される(S227)。
 (5.ハードウェア構成)
 次に、図10を参照して、本開示の実施形態に係る情報処理装置のハードウェア構成について説明する。図10は、本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。図示された情報処理装置900は、例えば、上記の実施形態における視聴者端末、サーバ装置、および/またはユーザ端末を実現しうる。
 情報処理装置900は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理装置900は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理装置900は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理装置900は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などの処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置900内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
 入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりする。
 出力装置917は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro-Luminescence)ディスプレイなどの表示装置、スピーカまたはヘッドフォンなどの音声出力装置、もしくはバイブレータなどでありうる。出力装置917は、情報処理装置900の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。
 ストレージ装置919は、情報処理装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置919は、例えばCPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
 接続ポート923は、機器を情報処理装置900に接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどでありうる。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置900と外部接続機器929との間で各種のデータが交換されうる。
 通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、LAN(Local Area Network)、Bluetooth(登録商標)、Wi-Fi、またはWUSB(Wireless USB)用の通信カードなどでありうる。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などを含みうる。
 撮像装置933は、例えば、CMOS(Complementary Metal Oxide Semiconductor)またはCCD(Charge Coupled Device)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935は、例えば、加速度センサ、角速度センサ、地磁気センサ、照度センサ、温度センサ、気圧センサ、または音センサ(マイクロフォン)などの各種のセンサである。センサ935は、例えば情報処理装置900の筐体の姿勢など、情報処理装置900自体の状態に関する情報や、情報処理装置900の周辺の明るさや騒音など、情報処理装置900の周辺環境に関する情報を取得する。また、センサ935は、人工衛星からの信号を受信して装置の緯度、経度および高度を測定するGNSS(Global Navigation Satellite Systems)受信機を含んでもよい。
 以上、情報処理装置900のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
 (6.補足)
 本開示の実施形態は、例えば、上記で説明したような情報処理装置、システム、情報処理装置またはシステムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記で説明された実施形態では、視対象位置の密度に応じた空間内の位置の評価結果(空間視聴率)が、自由視点画像の提供のためのポイントクラウドデータの生成のために利用されたが、本開示の実施形態はこのような例には限られない。例えば、空間視聴率が高い位置は、撮影された画像を閲覧されるユーザの興味が高い位置と推定されることから、そのようなユーザの興味に応じて画像を記録するためのさまざまな処理が、空間視聴率に応じて実施されてもよい。
 より具体的には、例えば、空間視聴率が高い位置を撮影した画像については高画質(大きな画像サイズおよび/または高いビットレート)で保存し、そうでない位置を撮影した画像については低画質(小さな画像サイズおよび/または低いビットレート)で記録することによって、データを記録するためのリソースを有効に活用する構成が採用されてもよい。
 また、例えば、空間視聴率が高い位置であっても、自由視点画像を生成するために十分な画像が取得できなかった場合、または、画像を閲覧するユーザが、空間視聴率が低いために自由視点画像を生成するためのデータ(例えばポイントクラウドデータ)が生成されなかった位置を指定した場合、利用可能な画像を用いて、当該位置を撮影した複数の視点画像を単純に切り替えて閲覧することが可能であってもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、
 前記視対象位置の密度に応じて前記空間内の位置を評価する機能と
 を実現するプロセッサを備える情報処理装置。
(2)前記プロセッサは、
 前記空間内を撮影することによって得られる画像データを取得する機能と、
 前記空間内の位置を評価した結果に基づいて、前記画像データの編集を実行する機能と
 をさらに実現する、前記(1)に記載の情報処理装置。
(3)前記画像データの編集は、自由視点画像を提供するためのデータの生成を含む、前記(2)に記載の情報処理装置。
(4)前記画像データの編集は、前記視対象位置の密度に応じて選択的に前記自由視点画像を提供するためのデータを生成することを含む、前記(3)に記載の情報処理装置。
(5)前記画像データの編集は、前記視対象位置の密度に応じて記録される前記画像データの品質を変化させることを含む、前記(2)~(4)のいずれか1項に記載の情報処理装置。
(6)前記画像データの編集は、前記視対象位置の密度に応じて記録される前記画像データを選別することを含む、前記(2)~(5)のいずれか1項に記載の情報処理装置。
(7)前記視対象位置は、前記画像データに基づいて推定される、前記(2)~(6)のいずれか1項に記載の情報処理装置。
(8)前記プロセッサは、
 前記空間内を撮影することによって得られる画像データを取得する機能と、
 前記空間内の位置を評価した結果に基づいて、前記画像データの取得の制御を実行する機能と
 をさらに実現する、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)前記画像データの取得の制御は、前記撮影の対象になる位置の制御を含む、前記(8)に記載の情報処理装置。
(10)前記画像データの取得の制御は、前記撮影の対象になる範囲の制御を含む、前記(8)または(9)に記載の情報処理装置。
(11)前記視対象位置は、前記空間内を前記複数の視点から撮影することによって得られる画像データに基づいて推定される、前記(1)に記載の情報処理装置。
(12)前記プロセッサは、
 前記視対象位置を示す情報に基づいて前記視対象位置を推定する機能
 をさらに実現する、前記(11)に記載の情報処理装置。
(13)前記視対象位置を示す情報は、前記画像データを含む、前記(12)に記載の情報処理装置。
(14)前記視対象位置を示す情報は、前記画像データに基づいて推定された前記複数の視点の位置を示す情報を含む、前記(12)に記載の情報処理装置。
(15)前記視対象位置を示す情報は、前記複数の視点からの視線を示す情報をさらに含む、前記(14)に記載の情報処理装置。
(16)前記視対象位置の密度は、前記空間内に設定されるグリッドごとに評価される、前記(1)~(15)のいずれか1項に記載の情報処理装置。
(17)前記視対象位置の密度は、互いに近接する前記視対象位置を含むクラスタごとに評価される、前記(1)~(15)のいずれか1項に記載の情報処理装置。
(18)空間内に存在する複数の視点からの視対象位置を示す情報を収集することと、
 プロセッサが、前記視対象位置の密度に応じて前記空間内の位置を評価することと
 を含む情報処理方法。
(19)空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、
 前記視対象位置の密度に応じて前記空間内の位置を評価する機能と
 をプロセッサに実現させるためのプログラム。
 10  システム
 300  カメラ
 400  視聴者端末
 500  サーバ
 510  視対象位置データ
 520  空間視聴率推定部
 530  画像データ
 540  ポイントクラウド生成部
 600  ユーザ端末
 610  自由視点画像生成部
 

Claims (19)

  1.  空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、
     前記視対象位置の密度に応じて前記空間内の位置を評価する機能と
     を実現するプロセッサを備える情報処理装置。
  2.  前記プロセッサは、
     前記空間内を撮影することによって得られる画像データを取得する機能と、
     前記空間内の位置を評価した結果に基づいて、前記画像データの編集を実行する機能と
     をさらに実現する、請求項1に記載の情報処理装置。
  3.  前記画像データの編集は、自由視点画像を提供するためのデータの生成を含む、請求項2に記載の情報処理装置。
  4.  前記画像データの編集は、前記視対象位置の密度に応じて選択的に前記自由視点画像を提供するためのデータを生成することを含む、請求項3に記載の情報処理装置。
  5.  前記画像データの編集は、前記視対象位置の密度に応じて記録される前記画像データの品質を変化させることを含む、請求項2に記載の情報処理装置。
  6.  前記画像データの編集は、前記視対象位置の密度に応じて記録される前記画像データを選別することを含む、請求項2に記載の情報処理装置。
  7.  前記視対象位置は、前記画像データに基づいて推定される、請求項2に記載の情報処理装置。
  8.  前記プロセッサは、
     前記空間内を撮影することによって得られる画像データを取得する機能と、
     前記空間内の位置を評価した結果に基づいて、前記画像データの取得の制御を実行する機能と
     をさらに実現する、請求項1に記載の情報処理装置。
  9.  前記画像データの取得の制御は、前記撮影の対象になる位置の制御を含む、請求項8に記載の情報処理装置。
  10.  前記画像データの取得の制御は、前記撮影の対象になる範囲の制御を含む、請求項8に記載の情報処理装置。
  11.  前記視対象位置は、前記空間内を前記複数の視点から撮影することによって得られる画像データに基づいて推定される、請求項1に記載の情報処理装置。
  12.  前記プロセッサは、
     前記視対象位置を示す情報に基づいて前記視対象位置を推定する機能
     をさらに実現する、請求項11に記載の情報処理装置。
  13.  前記視対象位置を示す情報は、前記画像データを含む、請求項12に記載の情報処理装置。
  14.  前記視対象位置を示す情報は、前記画像データに基づいて推定された前記複数の視点の位置を示す情報を含む、請求項12に記載の情報処理装置。
  15.  前記視対象位置を示す情報は、前記複数の視点からの視線を示す情報をさらに含む、請求項14に記載の情報処理装置。
  16.  前記視対象位置の密度は、前記空間内に設定されるグリッドごとに評価される、請求項1に記載の情報処理装置。
  17.  前記視対象位置の密度は、互いに近接する前記視対象位置を含むクラスタごとに評価される、請求項1に記載の情報処理装置。
  18.  空間内に存在する複数の視点からの視対象位置を示す情報を収集することと、
     プロセッサが、前記視対象位置の密度に応じて前記空間内の位置を評価することと
     を含む情報処理方法。
  19.  空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、
     前記視対象位置の密度に応じて前記空間内の位置を評価する機能と
     をプロセッサに実現させるためのプログラム。
PCT/JP2015/077216 2014-12-04 2015-09-25 情報処理装置、情報処理方法およびプログラム WO2016088437A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/520,073 US10190869B2 (en) 2014-12-04 2015-09-25 Information processing device and information processing method
EP15865510.0A EP3229459B1 (en) 2014-12-04 2015-09-25 Information processing device, information processing method and program
JP2016562332A JP6702196B2 (ja) 2014-12-04 2015-09-25 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-245901 2014-12-04
JP2014245901 2014-12-04

Publications (1)

Publication Number Publication Date
WO2016088437A1 true WO2016088437A1 (ja) 2016-06-09

Family

ID=56091394

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/077216 WO2016088437A1 (ja) 2014-12-04 2015-09-25 情報処理装置、情報処理方法およびプログラム

Country Status (4)

Country Link
US (1) US10190869B2 (ja)
EP (1) EP3229459B1 (ja)
JP (1) JP6702196B2 (ja)
WO (1) WO2016088437A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018088037A1 (ja) * 2016-11-14 2018-05-17 ソニー株式会社 可動型撮像装置の制御装置、可動型撮像装置の制御方法及びプログラム
JP6415675B1 (ja) * 2017-12-04 2018-10-31 キヤノン株式会社 生成装置、生成方法及びプログラム
WO2019078248A1 (ja) * 2017-10-17 2019-04-25 株式会社ニコン 制御装置、制御システム、および制御プログラム
WO2019092790A1 (ja) * 2017-11-07 2019-05-16 ヤマハ株式会社 撮像システム、制御装置、撮像装置、撮像装置の制御方法およびプログラム
JP2019075740A (ja) * 2017-10-18 2019-05-16 キヤノン株式会社 画像処理システム、画像処理装置、画像伝送方法、及び、プログラム
JP2019193209A (ja) * 2018-04-27 2019-10-31 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd 制御装置及び撮影方法
JP2019537135A (ja) * 2016-11-04 2019-12-19 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したシーンの理解および生成
WO2020256120A1 (ja) * 2019-06-21 2020-12-24 キヤノン株式会社 画像提供システム及びその制御方法
JP2021010088A (ja) * 2019-06-28 2021-01-28 キヤノン株式会社 画像提供システム、画像提供装置、その制御方法、及びプログラム
WO2021131991A1 (ja) 2019-12-23 2021-07-01 ソニーグループ株式会社 映像生成装置、映像生成方法および映像生成プログラム
WO2022018836A1 (ja) * 2020-07-21 2022-01-27 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106454069B (zh) * 2016-08-31 2019-11-08 歌尔股份有限公司 一种控制无人机拍摄的方法、装置和可穿戴设备
JP6434947B2 (ja) * 2016-09-30 2018-12-05 キヤノン株式会社 撮像システム、画像処理装置、画像処理方法、及びプログラム
WO2018152246A1 (en) * 2017-02-14 2018-08-23 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for transmitting and receiving data using machine learning classification
JP6433559B1 (ja) 2017-09-19 2018-12-05 キヤノン株式会社 提供装置および提供方法、プログラム
JP7193938B2 (ja) * 2018-07-04 2022-12-21 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
JP2020136776A (ja) * 2019-02-14 2020-08-31 キヤノン株式会社 画像生成システムおよび画像生成方法、制御装置および制御方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100367A (ja) * 2003-09-02 2005-04-14 Fuji Photo Film Co Ltd 画像生成装置、画像生成方法、及び画像生成プログラム
JP2005109757A (ja) * 2003-09-29 2005-04-21 Fuji Photo Film Co Ltd 画像撮像装置、画像処理装置、画像撮像方法、及びプログラム
JP2007235399A (ja) * 2006-02-28 2007-09-13 Matsushita Electric Ind Co Ltd 自動撮影装置
JP2010081260A (ja) * 2008-09-25 2010-04-08 Casio Computer Co Ltd 撮像装置及びそのプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003179800A (ja) 2001-12-13 2003-06-27 Sony Corp 多視点画像生成装置、画像処理装置、および方法、並びにコンピュータ・プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100367A (ja) * 2003-09-02 2005-04-14 Fuji Photo Film Co Ltd 画像生成装置、画像生成方法、及び画像生成プログラム
JP2005109757A (ja) * 2003-09-29 2005-04-21 Fuji Photo Film Co Ltd 画像撮像装置、画像処理装置、画像撮像方法、及びプログラム
JP2007235399A (ja) * 2006-02-28 2007-09-13 Matsushita Electric Ind Co Ltd 自動撮影装置
JP2010081260A (ja) * 2008-09-25 2010-04-08 Casio Computer Co Ltd 撮像装置及びそのプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3229459A4 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7295906B2 (ja) 2016-11-04 2023-06-21 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したシーンの理解および生成
JP7161992B2 (ja) 2016-11-04 2022-10-27 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したシーンの理解および生成
JP2019537135A (ja) * 2016-11-04 2019-12-19 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したシーンの理解および生成
US11587344B2 (en) 2016-11-04 2023-02-21 Deepmind Technologies Limited Scene understanding and generation using neural networks
JP2021152948A (ja) * 2016-11-04 2021-09-30 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したシーンの理解および生成
WO2018088037A1 (ja) * 2016-11-14 2018-05-17 ソニー株式会社 可動型撮像装置の制御装置、可動型撮像装置の制御方法及びプログラム
JPWO2018088037A1 (ja) * 2016-11-14 2019-09-26 ソニー株式会社 可動型撮像装置の制御装置、可動型撮像装置の制御方法及びプログラム
US10924691B2 (en) 2016-11-14 2021-02-16 Sony Corporation Control device of movable type imaging device and control method of movable type imaging device
JP7059937B2 (ja) 2016-11-14 2022-04-26 ソニーグループ株式会社 可動型撮像装置の制御装置、可動型撮像装置の制御方法及びプログラム
WO2019078248A1 (ja) * 2017-10-17 2019-04-25 株式会社ニコン 制御装置、制御システム、および制御プログラム
JPWO2019078248A1 (ja) * 2017-10-17 2020-11-19 株式会社ニコン 制御装置、制御システム、および制御プログラム
JP7375542B2 (ja) 2017-10-17 2023-11-08 株式会社ニコン 制御装置、制御システム、および制御プログラム
JP2019075740A (ja) * 2017-10-18 2019-05-16 キヤノン株式会社 画像処理システム、画像処理装置、画像伝送方法、及び、プログラム
JP7104504B2 (ja) 2017-10-18 2022-07-21 キヤノン株式会社 画像処理システム、画像処理装置、画像伝送方法、及び、プログラム
WO2019092790A1 (ja) * 2017-11-07 2019-05-16 ヤマハ株式会社 撮像システム、制御装置、撮像装置、撮像装置の制御方法およびプログラム
JP2019101795A (ja) * 2017-12-04 2019-06-24 キヤノン株式会社 生成装置、生成方法及びプログラム
US11012679B2 (en) 2017-12-04 2021-05-18 Canon Kabushiki Kaisha Generating apparatus, generating method, and storage medium
WO2019111817A1 (ja) * 2017-12-04 2019-06-13 キヤノン株式会社 生成装置、生成方法及びプログラム
JP6415675B1 (ja) * 2017-12-04 2018-10-31 キヤノン株式会社 生成装置、生成方法及びプログラム
JP2019193209A (ja) * 2018-04-27 2019-10-31 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd 制御装置及び撮影方法
WO2020256120A1 (ja) * 2019-06-21 2020-12-24 キヤノン株式会社 画像提供システム及びその制御方法
JP2021010088A (ja) * 2019-06-28 2021-01-28 キヤノン株式会社 画像提供システム、画像提供装置、その制御方法、及びプログラム
JP7305461B2 (ja) 2019-06-28 2023-07-10 キヤノン株式会社 画像提供システム、画像提供装置、その制御方法、及びプログラム
WO2021131991A1 (ja) 2019-12-23 2021-07-01 ソニーグループ株式会社 映像生成装置、映像生成方法および映像生成プログラム
WO2022018836A1 (ja) * 2020-07-21 2022-01-27 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP6702196B2 (ja) 2020-05-27
JPWO2016088437A1 (ja) 2017-09-14
US10190869B2 (en) 2019-01-29
EP3229459A1 (en) 2017-10-11
EP3229459A4 (en) 2018-08-15
US20170322017A1 (en) 2017-11-09
EP3229459B1 (en) 2022-08-24

Similar Documents

Publication Publication Date Title
JP6702196B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10679676B2 (en) Automatic generation of video and directional audio from spherical content
US9729788B2 (en) Image generation apparatus and image generation method
RU2683262C2 (ru) Устройство обработки информации, способ обработки информации и программа
JP6621063B2 (ja) カメラ選択方法及び映像配信システム
US9894272B2 (en) Image generation apparatus and image generation method
US10284776B2 (en) Image generation apparatus and image generation method
JP6897728B2 (ja) 画像処理装置、画像処理方法およびプログラム
EP2998935B1 (en) Image processing device, image processing method, and program
JP6332037B2 (ja) 画像処理装置および方法、並びにプログラム
Somasundaram et al. Project Aria: A new tool for egocentric multi-modal AI research
JP6359704B2 (ja) イベントに関連付けられる情報を人に供給するための方法
US11195295B2 (en) Control system, method of performing analysis and storage medium
JP7322191B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2021220892A1 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2015111371A (ja) 情報処理装置、情報処理方法およびプログラム
Matsumoto et al. Image processing device and method to obtain a 360 image without remapping
JP2015056727A (ja) 装置、方法、プログラム
Nishimura et al. Visualization of multiple people's lifelog: collecting" Ant's-eye view" to generate" Bird's-eye view"
CN109918466A (zh) 一种基于视频分析的实时地图信息全局呈现方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15865510

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016562332

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2015865510

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015865510

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15520073

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE