WO2015194082A1 - 画像処理方法および画像処理システム - Google Patents
画像処理方法および画像処理システム Download PDFInfo
- Publication number
- WO2015194082A1 WO2015194082A1 PCT/JP2015/002179 JP2015002179W WO2015194082A1 WO 2015194082 A1 WO2015194082 A1 WO 2015194082A1 JP 2015002179 W JP2015002179 W JP 2015002179W WO 2015194082 A1 WO2015194082 A1 WO 2015194082A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- imaging
- images
- time
- video
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Definitions
- the present invention relates to an image processing method and an image processing system, and more particularly to an image processing method and an image processing apparatus for restoring a three-dimensional model of a subject using a plurality of images obtained by imaging by a plurality of imaging apparatuses.
- 3D reconstruction technology in the field of computer vision, a plurality of 2D images are associated with each other, and a 3D model is restored, that is, a camera posture or a 3D position of a subject is estimated.
- Patent Document 1 feature points are extracted in an initial number of frames of an input moving image from a monocular camera, and feature point positions are associated by frame matching processing.
- feature point position information is acquired by time series feature point tracking using an extended Kalman filter.
- a three-dimensional model is restored by SfM (Structure from Motion) using the associated feature points.
- Patent Document 2 feature point matching is performed with key frames acquired at a predetermined cycle from two moving images that are synchronously captured by a stereo camera, and a three-dimensional model is reconstructed. In addition, it is possible to reconstruct a three-dimensional model between key frames using changes in the feature points in the time direction.
- each camera coordinate system is converted into a virtual camera coordinate system of an arbitrary viewpoint using the acquired camera parameters.
- association is performed by block matching between images after coordinate conversion, and distance information is estimated.
- An image of the virtual camera viewpoint is generated based on the estimated distance information.
- Patent Documents 1 to 3 have a problem that a highly accurate three-dimensional model cannot be easily restored.
- the present invention provides an image processing method and an image processing system for easily restoring a highly accurate three-dimensional model.
- An image processing method is an image processing method for performing processing on a plurality of images, acquires images obtained by imaging by the imaging device from each of the plurality of imaging devices, An image set consisting of a plurality of images selected by acquiring the respective imaging times of the plurality of acquired images and selecting a plurality of images whose imaging times substantially coincide with each other from the plurality of acquired images. Is generated.
- a recording medium such as a system, an apparatus, an integrated circuit, a computer program, or a computer-readable CD-ROM.
- the system, method, integrated circuit, computer program, and You may implement
- FIG. 1A is a diagram illustrating an example of synchronous imaging of a moving image.
- FIG. 1B is a diagram illustrating an example of asynchronous imaging of a moving image.
- FIG. 2 is a block diagram illustrating a configuration of the image processing apparatus according to the embodiment.
- FIG. 3 is a flowchart illustrating an example of an image processing method according to the embodiment.
- FIG. 4 is a diagram illustrating an example of a method for selecting a plurality of moving images obtained by synchronous imaging in the embodiment.
- FIG. 5A is a diagram illustrating an example of images included in a moving image and captured at an imaging time before and after a synchronous imaging time period in the embodiment.
- FIG. 5B is a diagram illustrating a region of a subject that is stationary between two frames in the embodiment.
- FIG. 6 is a diagram illustrating the time of an interpolation frame and the time of a frame used for interpolation in the embodiment.
- FIG. 7 is a diagram illustrating an example of each of an interpolated frame, frames before and after the frame, and a motion vector when frame interpolation based on a constant velocity motion model is performed in the embodiment.
- FIG. 8 is a diagram showing the time of an interpolation frame and the time of a frame used for interpolation in the present embodiment.
- FIG. 9 is a diagram illustrating an example of each of an interpolation frame, frames before and after the frame, and a motion vector when frame interpolation based on the uniform acceleration motion model is performed in the present embodiment.
- FIG. 10A is a flowchart illustrating an image processing method according to an aspect of the present invention.
- FIG. 10B is a block diagram illustrating an image processing system according to one embodiment of the present invention. It is a figure which shows the structure of a video information processing system. It is a figure which shows an example of the notification screen displayed at the time of camera starting.
- 1 is an overall configuration diagram of a content supply system that realizes a content distribution service.
- 1 is an overall configuration diagram of a digital broadcasting system. It is a figure which shows an example of a smart phone. It is a block diagram which shows the structural example of a smart phone.
- FIG. 1A and 1B are diagrams illustrating an example of an imaging cycle and an exposure time of the imaging apparatus.
- the exposure time When an image is acquired by imaging with an imaging device, the time during which the shutter is opened, that is, the time during which exposure is performed is referred to as the exposure time.
- imaging an image including a scene exposed to an imaging element through a lens during an exposure time is obtained.
- moving image capturing exposure is repeatedly performed at predetermined imaging cycles, and an image is obtained during the exposure time during which the exposure is performed.
- the exposure time overlaps in the imaging device 1 and the imaging device 2.
- each image acquired by imaging of two imaging devices includes a scene at the same time.
- FIG. 1A the exposure time overlaps in the imaging device 1 and the imaging device 2.
- the three-dimensional model can be restored by the same method as for a still image.
- Patent Document 3 since synchronous imaging is performed only at the time of calibration, high-precision three-dimensional position estimation for a moving subject is difficult as in Patent Document 1. Furthermore, in Patent Document 2, since a stereo camera in which the positional relationship between two cameras is fixed is used, the camera position is restricted.
- an image processing method is an image processing method for performing processing on a plurality of images, and acquires images obtained by imaging by the imaging device from each of the plurality of imaging devices. And acquiring the respective imaging times of the plurality of acquired images, and selecting the plurality of images whose imaging times substantially coincide with each other from the plurality of acquired images. Generate an image set.
- the image set includes a plurality of images whose imaging times substantially coincide with each other, a highly accurate three-dimensional model can be easily restored by using this image set.
- the imaging times substantially coincide with each other means that the imaging times substantially coincide with each other, and not only the imaging times exactly match but also the imaging times technically match. Including what is considered.
- the image processing method further includes a tertiary that three-dimensionally indicates a state of at least one of the imaging device and the subject corresponding to each of the plurality of images based on the plurality of images included in the image set.
- Original information may be calculated.
- the three-dimensional information indicates at least one of the position and orientation of the imaging device corresponding to each of a plurality of images included in the image set as the state.
- the three-dimensional information indicates at least one of a position and a shape of a subject corresponding to each of a plurality of images included in the image set as the state.
- a reference image that is one of the acquired plurality of images and an image obtained by imaging by exposure at a timing overlapping with exposure for imaging the reference image are used.
- a certain at least one exposure overlap image may be selected as the plurality of images whose imaging times substantially coincide with each other.
- the image set includes a reference image and at least one exposure overlap image whose exposure timing matches that of the reference image. That is, a plurality of images in which subjects at the same time are projected are included in the image set. Therefore, if this image set is used, a highly accurate three-dimensional model can be easily restored.
- the imaging time of each of the plurality of images indicated with higher time accuracy than any exposure time of the plurality of acquired images may be acquired.
- an image signal including the image obtained by imaging by the imaging device is acquired from each of the plurality of imaging devices, and in the generation of the image set, the acquired plurality of image signals
- the image set including the selected plurality of image signals may be generated by selecting a plurality of image signals each including the plurality of images whose imaging times substantially coincide with each other.
- the image signal is moving image data including a plurality of images and time information for acquiring the imaging times of the plurality of images, and in the acquisition of the imaging time, for each image signal, Based on the time information included in the image signal, the imaging time of each of the plurality of images included in the image signal is acquired.
- the imaging time of each of a plurality of images (for example, a plurality of pictures or frames) included in the moving image data can be easily obtained based on the time information included in the moving image data.
- the time information may indicate, for example, the imaging time and frame rate of the first image included in the moving image data, or may indicate the imaging times of a plurality of images included in the moving image data.
- the image signal is image data including an image and time information for acquiring the imaging time of the image, and the acquisition of the imaging time includes the image signal included in the image signal for each image signal. Based on the time information, the imaging time of the image included in the image signal may be acquired.
- the imaging time of a still image included in the image data can be easily acquired based on the time information included in the image data.
- the image set is further stopped at a time different from the imaging time of the original image from the original image that is an image acquired from the processing target device that is one of the plurality of imaging devices.
- An image of a region in which a subject estimated to be present is captured as a still image acquired from the processing target device with the time as the imaging time, and the plurality of imaging including the generated still image
- the plurality of images whose imaging times substantially coincide with each other may be selected from a plurality of images acquired from the apparatus.
- the processing unit is specified by determining whether the processing unit corresponds to the region, and the processing unit is a block, It is an object reflected in the original image or a sub-object indicated by dividing the object.
- the plurality of reference images which are a plurality of images acquired from a processing target device that is any one of the plurality of imaging devices, is further interpolated.
- An interpolation image having an imaging time different from the imaging time of each of the reference images is generated as an image acquired from the processing target device, and is acquired from the plurality of imaging devices including the generated interpolation image.
- the plurality of images whose imaging times substantially coincide with each other may be selected from the plurality of images.
- the interpolation image is generated based on a constant velocity motion model.
- interpolation is performed for each processing unit constituting each of the plurality of reference images, and the processing unit is a block, an object shown in each of the plurality of reference images, or the above It may be a sub-object indicated by dividing an object.
- FIG. 2 is a block diagram showing a configuration of the image processing apparatus 200 in the present embodiment.
- the image processing apparatus 200 is an apparatus or a system that acquires images from a plurality of imaging devices and creates an image set including a plurality of images in which subjects at the same time are projected. Each of the plurality of imaging devices transmits an image including an image signal that is image data. The image may be a moving image or a still image.
- Such an image processing apparatus 200 includes an image acquisition unit 201, a time information acquisition unit 202, an image set generation unit 203, and a three-dimensional information calculation unit 204, as shown in FIG.
- the image acquisition unit 201 acquires images from each of a plurality of imaging devices (imaging devices 1 to N). Each imaging device and the image acquisition unit 201 may be connected via a wired transmission path or may be connected via a wireless transmission path. Further, it may be connected via a base station. For example, the imaging device wirelessly transmits an image to the base station, and the base station wirelessly transmits the image to the image acquisition unit 201.
- the format of the image transmitted from the imaging apparatus may be a RAW image before development, an RGB uncompressed image such as a bitmap image obtained by developing the RAW image, or a YUV uncompressed image obtained by converting the RGB image format. It may be an image. Or the format is H.264.
- the image acquisition unit 201 may include an image development processing unit for developing a RAW image, an image conversion unit that converts an RGB image into a YUV format, or an image decoding unit that decodes an encoded stream. Further, the above-described image development processing unit, image conversion unit, or image decoding unit may be provided in the image processing apparatus 200 independently of the image acquisition unit 201.
- the image acquisition unit 201 outputs image data 201D including an image acquired from each of the plurality of imaging devices to the time information acquisition unit 202 and the image set generation unit 203.
- the time information acquisition unit 202 acquires time information 202 ⁇ / b> D indicating the time of image capture, that is, the image capture time, from the image data 201 ⁇ / b> D output from the image acquisition unit 201.
- the time information 202D indicates an imaging time with time accuracy (or higher time accuracy) that is finer than the exposure time, and is information set for each imaging device. For example, when obtaining a moving image with a frame rate of 30 fps (frame per second), the imaging device performs imaging with a period of about 33 milliseconds. In this imaging, the exposure time is 10 milliseconds.
- the time information 202D indicates the imaging time with 1 millisecond accuracy smaller than 10 milliseconds, such as 13:41:08 seconds, 243 milliseconds.
- the imaging time may be the end point of the exposure time, that is, the time when the shutter is closed, or the start point of the exposure time, that is, the time when the shutter is opened. In the following, for the sake of explanation, the imaging time is the end point of the exposure time.
- the imaging time (or time information 202D) is added to the image data 201D.
- the imaging time may be added to the header portion of the image file, or may be held at the beginning of each packet when the image data 201D is packetized and transmitted as a transport stream.
- the imaging time may be held in an RTP (Real-time Transport Protocol) packet.
- imaging time may be hold
- the time information acquisition unit 202 acquires the time information 202D from the header portion of the image file, the packet of the transport stream, or the decoded User data unregistered SEI, and outputs it to the image set generation unit 203.
- the imaging time may be information output from the imaging device, or the time when the time adjustment or adjustment is performed based on the time when the image processing device 200 receives the image. May be.
- the time information 202D acquired from the image data 201D may indicate only the imaging start time of the first frame included in the moving image data, or imaging for each frame. You may show time.
- the time information acquisition unit 202 further acquires the frame rate of the moving image and calculates the imaging time of each frame subsequent to the first frame.
- N is the frame number in the moving image
- T (1) is the imaging start time of the first frame
- T (N) is the imaging start time of the N frame
- F is the frame rate of the moving image
- Clip () is This is a function that clips the time with the required time accuracy.
- the image set generation unit 203 uses the acquired image data 201D and time information 202D to generate a set of a plurality of images synchronized in imaging time as one image set 203D and outputs it to the three-dimensional information calculation unit 204. To do. That is, the image set generation unit 203 generates an image set 203D including a plurality of selected images by selecting a plurality of images whose imaging times substantially match each other from the plurality of acquired images. In the plurality of images whose imaging times substantially coincide with each other, the exposure times for imaging each of the plurality of images partially or entirely overlap.
- the exposure time is, for example, 10 milliseconds.
- the three-dimensional information calculation unit 204 calculates and outputs three-dimensional information using the acquired image set 203D.
- the three-dimensional information calculation unit 204 simultaneously restores the posture of the imaging apparatus or the three-dimensional model of the subject using SfM or the like.
- SfM three-dimensional reconstruction is performed from a plurality of time-series images obtained by imaging a still scene such as a stationary object while changing the viewpoint of one imaging device.
- three-dimensional reproduction at a certain time (time range) is performed by using SfM or the like from a plurality of images obtained by capturing images of a plurality of imaging devices and synchronized with the imaging time of the subject. Configuration can be performed.
- FIG. 3 is a flowchart showing an example of the image processing method in the present embodiment.
- the image acquisition unit 201 acquires image data 201D from each of a plurality of external imaging devices, and outputs the acquired image data 201D to the time information acquisition unit 202 and the image set generation unit 203.
- the image data 201D includes a moving image.
- step S302 the time information acquisition unit 202 acquires time information 202D included in each of the plurality of image data 201D and outputs the time information 202D to the image set generation unit 203.
- step S303 the image set generation unit 203 uses the plurality of image data 201D and the plurality of time information 202D to generate an image set 203D including a plurality of images in which subjects at the same time are captured, and calculates three-dimensional information. Output to the unit 204.
- the same time means that, for example, the exposure time for obtaining each image partially or entirely overlaps within a predetermined time range.
- step S304 the three-dimensional information calculation unit 204 calculates and outputs the three-dimensional information of the subject using the image set 203D generated by the image set generation unit 203.
- step S303 The processing in step S303 will be described in detail below with reference to FIG.
- FIG. 4 is a diagram illustrating an example in which at least two or more moving images whose imaging times substantially match each other are selected from N moving images obtained by imaging of N imaging devices. That is, FIG. 4 shows an example of a method for selecting a plurality of moving images obtained by synchronous imaging.
- the maximum number of moving images to be selected may be N, may be the number requested by the three-dimensional information calculation unit 204, or may be an arbitrarily set number.
- the image set generation unit 203 performs exposure between time W hours X minutes Y seconds Z milliseconds and time W hours X minutes Y seconds (Z + T) milliseconds, where the exposure time of the imaging apparatus is T milliseconds.
- the two or more moving images are selected as at least two moving images whose imaging times substantially coincide with each other. That is, it is determined that these two or more moving images are synchronized, and are included in the image set 203D. Further, such a time zone from time W hour X minute Y second Z millisecond to time W hour X minute Y second (Z + T) millisecond is defined as a synchronous imaging time zone.
- the synchronous imaging time zone is, for example, the exposure time of the moving image 1 that is the exposure time of a certain reference imaging device selected from a plurality of imaging devices.
- the synchronous imaging time zone exists at a period corresponding to the frame rate of the reference imaging device.
- the image set generation unit 203 captures the moving image 1 and moving images 2, 3, 3 obtained by imaging the exposure time partially or wholly overlapped with the exposure time of the reference imaging device that outputs the moving image 1. 5 ... are selected.
- M images obtained by imaging in a certain synchronous imaging time zone are image groups in a certain time zone (synchronous imaging time zone) in the image set 203D. It is.
- the image set generation unit 203 generates an image set 203D composed of time-series data having an image group for each time zone (synchronous imaging time zone) by performing the selection as described above in each time zone.
- the three-dimensional information calculation unit 204 can perform three-dimensional reconstruction by using this image set 203D.
- the image set generation unit 203 may select an image quality such as resolution, motion blur, or coding distortion as an index, or randomly select an image quality. Also good.
- a fixed camera may be used as the reference imaging device.
- the synchronous imaging time zone may be an arbitrary time zone having an average time width of exposure times of a plurality of imaging devices. Taking FIG. 4 as an example, the average of the exposure time of the imaging device that outputs the moving image 4 whose exposure time starts at the earliest time and the exposure time of the imaging device that outputs the moving image 5 whose exposure time starts at the latest time. Time is set to the synchronous imaging time zone. In this case, since images from a larger number of imaging devices can be included in one image set, there is a high possibility that a more accurate three-dimensional model can be restored. Of course, when the imaging time in the imaging apparatus is too different, an inappropriate synchronous imaging time zone may be set. For this reason, the image set generation unit 203 may determine whether or not to use the synchronous imaging time zone setting method as described above, depending on the magnitude of the imaging time or exposure time difference.
- the time width of the synchronous imaging time period is not limited to the exposure time of the imaging device, but may be a time width necessary for maintaining the accuracy of calculation of three-dimensional information.
- the image set generation unit 203 generates the image set 203D using the exposure time of the reference imaging device as a synchronous imaging time zone. Then, when the 3D reconstruction is performed based on the generated image set 203D, the image set generation unit 203 determines whether the image is too small and the accuracy of the 3D model is equal to or less than a predetermined value. To do.
- the image set generation unit 203 uses the time zone increased by several milliseconds before and after the synchronous imaging time zone as a new synchronous imaging time zone, and generates the image set 203D again. May be. Conversely, if the image set generation unit 203 determines that the exposure time is too long and the correlation between the images included in the image set 203D is low, a new time zone is obtained by reducing the time before and after the synchronous imaging time zone by several milliseconds. You may set to a synchronous imaging time zone.
- moving image 1, moving image 2, moving image 3, moving image 5,... are included in the image set 203D. That is, the moving image 1, the moving image 2, the moving image 3, and the moving image 5 are determined to be synchronized, in other words, are determined to be images obtained by synchronous imaging, and the moving image 4 is not synchronized. (Asynchronous) is determined.
- the image set 203D has been described above as being configured with time-series data having an image group for each time zone (synchronous imaging time zone).
- the image set 203D may be a set of frames extracted from each moving image in a certain synchronous imaging time period.
- the image set 203D is limited to a certain time, it can be viewed as a collection of a plurality of images obtained by imaging at almost the same time.
- the image set 203D is regarded as data having a time width, it can be viewed as a set of moving images. That is, the set of moving images includes a plurality of images captured at substantially the same time at each time (synchronous imaging time period).
- the image set generation unit 203 When the image set 203D is a set of moving images, the image set generation unit 203 first generates image set candidates including a plurality of moving images based on the synchronous imaging time period. Next, the image set generation unit 203 selects, from the image set candidates, a plurality of moving images having the same GOP (Group Of Pictures) structure in the encoded stream, and selects the plurality of moving images from the selected moving images. An image set 203D may be generated. Further, the image set generation unit 203 may generate the image set 203D in the reverse order of the above-described procedure.
- GOP Group Of Pictures
- the image set generation unit 203 selects only a plurality of IPPP moving images from a moving image of each imaging apparatus, excluding a moving image having a GOP structure of IPBB, and sets an image set candidate including the plurality of moving images of the IPPP. Is generated.
- the image set generation unit 203 generates an image set 203D by selecting a moving image from image set candidates based on the synchronous imaging time period.
- the image set generation unit 203 When the image set 203D is a set of frames (still images), the image set generation unit 203 first generates image set candidates including a plurality of frames based on the synchronous imaging time period. Next, the image set generation unit 203 selects a plurality of frames having the same picture type in the encoded stream from the image set candidates, and generates an image set 203D including the selected plurality of frames. May be.
- the picture type is, for example, an I picture, a P picture, or a B picture.
- the image set generation unit 203 removes P and B pictures from the image set candidates, selects only a plurality of I pictures, and generates an image set 203D including the plurality of I pictures.
- the image set generation unit 203 may generate the image set 203D in the reverse order of the above-described procedure. Specifically, the image set generation unit 203 first generates an image set candidate including a plurality of frames having the same picture type. Next, the image set generation unit 203 selects a plurality of frames from the image set candidates based on the synchronous imaging time period, and generates an image set 203D including the selected plurality of frames.
- the image set generation unit 203 may select a moving image included in the image set 203D based on the time when the image processing device 200 acquires the moving image from the imaging device. Specifically, the image set generation unit 203 acquires the time when the image processing apparatus 200 acquires the moving image X from the imaging apparatus, that is, the time when the moving image X transmitted from the imaging apparatus arrives at the image processing apparatus 200, and the time The time indicated by the information 202D is compared. The image set generation unit 203 determines that the reliability of the time information 202D is low when the time difference between these times is equal to or greater than the arbitrarily set time difference, and selects the moving image X corresponding to the time information 202D as the image set. Exclude from selection of 203D.
- an image set composed of a plurality of moving images or frames having the same time when the subject is imaged is generated. Therefore, by calculating the three-dimensional information using this image set, it is possible to restore the attitude of the imaging device or the three-dimensional model of the subject with high accuracy.
- an image obtained by imaging by the imaging device is acquired from each of the plurality of imaging devices 1 to N, and the imaging times of the acquired plurality of images are acquired.
- an image set 203D composed of the selected plurality of images is generated by selecting a plurality of images whose imaging times substantially coincide with each other from the acquired images.
- the state of at least one of the imaging device and the subject corresponding to each of the plurality of images is three-dimensionally shown. Calculate three-dimensional information.
- the three-dimensional information indicates at least one of the position and orientation of the imaging device corresponding to each of the plurality of images included in the image set 203D.
- the three-dimensional information indicates at least one of the position and shape of the subject corresponding to each of the plurality of images included in the image set 203D.
- the image set 203D includes a plurality of images whose imaging times substantially coincide with each other, a highly accurate three-dimensional model can be easily restored by using the image set 203D.
- the image set generation unit 203 captures a reference image (moving image 1) that is one of a plurality of acquired images and a reference image.
- At least one exposure overlap image (moving images 2, 3 and 5) which is an image obtained by imaging with exposure at the same timing as that of the exposure is selected as a plurality of images whose imaging times substantially coincide with each other.
- the image set 203D includes the reference image and at least one exposure overlap image whose exposure timing matches that of the reference image. That is, the image set 203D includes a plurality of images in which subjects at the same time are projected. Therefore, if this image set 203D is used, a highly accurate three-dimensional model can be easily restored.
- the time information acquisition unit 202 acquires the imaging time of each image that is indicated with higher time accuracy than any of the exposure times of the acquired images. Thereby, a highly accurate three-dimensional model can be easily restored.
- the image acquisition unit 201 acquires an image signal (that is, image data 201D) including an image obtained by imaging by the imaging device from each of the plurality of imaging devices 1 to N. Then, the image set generation unit 203 selects a plurality of image signals including each of a plurality of images whose imaging times substantially coincide with each other from the acquired plurality of image signals, and thereby selects the plurality of image signals selected. An image set 203D is generated.
- the above-described image signal is moving image data including a plurality of images (for example, a plurality of pictures or frames) and time information 202D for acquiring respective imaging times of the plurality of images.
- the time information acquisition unit 202 acquires, for each image signal, that is, moving image data, the imaging time of each of a plurality of images included in the image signal based on the time information 202D included in the image signal.
- the imaging time of each of a plurality of images (for example, a plurality of pictures or frames) included in the moving image data can be easily obtained based on the time information included in the moving image data.
- the time information may indicate, for example, the imaging time and frame rate of the first image included in the moving image data, or may indicate the imaging times of a plurality of images included in the moving image data.
- the above-described image signal may be image data 201D including an image and time information for acquiring the imaging time of the image. That is, in this case, the image is a still image or a frame, and the image data 201D is still image data. Also in this case, the time information acquisition unit 202 acquires, for each image signal, the imaging time of the image included in the image signal based on the time information included in the image signal. Thereby, the imaging time of, for example, a still image included in the image data 201D can be easily acquired based on the time information included in the image data 201D.
- Modification 1 if only images (moving images or frames) obtained by synchronous imaging are selected, the number of images included in the image set 203D is reduced, and images required for calculation of three-dimensional information, that is, input data The amount may be insufficient.
- FIG. 5A is a diagram illustrating an example of images at imaging times before and after the synchronous imaging time period, which are included in the moving image 4 determined to be asynchronous in FIG.
- the imaging time of one of the two frames (images) is before the synchronous imaging time zone, and time W hour X minute Y second (Z- ⁇ ) milliseconds (Z- ⁇ ⁇ Z) It is.
- the imaging time of the remaining frames of the two frames is after the synchronous imaging time period and is time W hour X minute Y second (Z + T + ⁇ ) milliseconds (Z + T + ⁇ > Z + T). Therefore, in the selection based on the above-described synchronous imaging time period, these two frames are not included in the image set 203D. However, since the position, size, shape, and the like of the object A in these frames are the same, the object A is stationary during the imaging times of the two frames. In other words, if imaging is performed in the synchronous imaging time zone, the frame obtained by the imaging also has the same position, size and shape as the object A shown in the two frames. Can be estimated.
- FIG. 5B is a diagram showing a region of a subject that is stationary between two frames.
- the image set generation unit 203 sets an area in which a stationary subject is captured from one of the two frames in FIG. 5A (hereinafter referred to as a synchronous imaging area or a stationary area).
- the image of the region is identified and generated as a still image obtained by imaging in the above-described synchronous imaging time period.
- the image set generation unit 203 generates an image set 203D from the plurality of images acquired by the image acquisition unit 201 and the generated still images.
- the image set generation unit 203 specifies a still region (synchronous imaging region) from each of N moving images acquired from N imaging devices, and the subject in the still region is in a synchronous imaging time zone. However, it is determined whether or not it is stationary. Then, the image set generation unit 203 extracts an image (still image) of a still area determined to be still and includes it in the image set 203D.
- the image set generation unit 203 may specify a region where a completely stationary subject is captured as a stationary region, or a region where a subject moving with an amount of motion within an allowable range is captured. It may be specified as a region.
- the motion amount within the allowable range may be an arbitrarily designated motion amount or a motion amount designated by the three-dimensional information calculation unit 204.
- a motion vector acquired by the image acquisition unit 201 decoding the encoded stream may be used as the motion amount.
- the image set generation unit 203 selects K moving images captured in the synchronous imaging time period from N moving images acquired from the N imaging devices, and images Include in set 203D. Then, the image set generation unit 203 specifies a predetermined frame from a plurality of frames included in the moving image in each of the remaining (NK) moving images. This predetermined frame is a frame whose imaging time is a time close to the imaging cycle from the synchronous imaging time zone. Next, the image set generation unit 203 specifies a still area from the predetermined frame, and determines whether or not the subject in the still area is still in the synchronous imaging time zone. If the image set generation unit 203 determines that the subject in the still region is still in the synchronous imaging time zone, the image set generation unit 203 adds the image in the still region as a still image to the image set 203D.
- the image set generation unit 203 further differs from the original image capturing time from the original image that is an image acquired from the processing target device that is one of the plurality of imaging devices.
- An image of an area in which a subject that is estimated to be stationary at the time is shown is generated as a still image acquired from the processing target device and using the time as the imaging time.
- the image set generation unit 203 selects a plurality of images whose imaging times substantially match each other from a plurality of images acquired from a plurality of imaging devices including the generated still image.
- the image set generation unit 203 obtains at least one image obtained by imaging by the processing target device and at least one of the original image before and after the imaging time of the original image.
- the above-described region that is, the synchronous imaging region or the still region
- the image set generation unit 203 specifies the region for each processing unit constituting the original image by determining whether the processing unit corresponds to the region.
- the processing unit is a block, an object shown in the original image, or a sub-object indicated by dividing the object.
- a new image (interpolated frame) is generated by performing frame interpolation on each moving image, and the new image is included in the image set 203D.
- the image set generation unit 203 selects K moving images captured in the synchronous imaging time period from N moving images acquired from the N imaging devices, and images Include in set 203D. Then, the image set generation unit 203 generates a new frame in the synchronous imaging time period as an interpolation frame by performing frame interpolation on each of the remaining (NK) moving images, and adds it to the image set 203D. To do.
- the amount of motion may be linearly interpolated on the assumption that the subject is moving at a constant speed between frames before and after the synchronous imaging time period.
- FIG. 6 is a diagram showing the time of the interpolation frame in the moving image M and the time of the frame used for the interpolation.
- the time Tc of the interpolation frame is the center of the synchronous imaging time zone, but may be any time in the synchronous imaging time zone.
- the respective frames at the imaging times Ta and Tb before and after the synchronous imaging time zone are used for interpolation.
- FIG. 7 is a diagram showing each frame at time Ta, Tb, Tc and the motion vector of the moving object.
- the object A shown in each frame is a stationary object, and the object B is a moving object.
- the image set generation unit 203 calculates a motion vector MV (Tb) of the object B in the frame F (Tb) from the frame F (Ta) and the frame F (Tb) included in the moving image M.
- the frame F (Ta) is a frame having the imaging time as the time Ta
- the frame F (Tb) is a frame having the imaging time as the time Tb.
- the image set generation unit 203 may divide the frame F (Tb) into a plurality of blocks and calculate a motion vector for each block.
- the image set generation unit 203 may perform object extraction within the frame F (Tb) and calculate a motion vector for each extracted object.
- the image set generation unit 203 may divide the block into finer sub-blocks and calculate a motion vector for each sub-block.
- the image set generation unit 203 may divide the object into a plurality of sub objects and calculate a motion vector for each sub object.
- the motion vector is calculated only for the moving region such as the object B (that is, the region where the moving object is shown), but the motion vector is calculated for the entire frame regardless of the motion of the region. It may be calculated.
- the image set generation unit 203 may use the block-unit motion vector obtained at the time of decoding as the motion vector of the object B. Good.
- the image set generation unit 203 calculates the motion vector MV (Tc) of the object B in the frame F (Tc) based on (Equation 1) below.
- the frame F (Tc) is an interpolation frame that is assumed with the time Tc as the imaging time.
- the image set generation unit 203 generates a frame F (Tc) by performing motion compensation based on the motion vector and the frame F (Ta). Note that the image set generation unit 203 may perform motion compensation in units of blocks as described above or in units of objects.
- the amount of motion may be interpolated on the assumption that the subject is moving at a constant acceleration between frames before and after the synchronous imaging time period.
- FIG. 8 is a diagram showing the time of the interpolation frame in the moving image M and the time of the frame used for the interpolation.
- the time Tc of the interpolation frame is the center of the synchronous imaging time zone, but may be any time in the synchronous imaging time zone.
- the frames at the imaging times Ta, Tb, and Td that are before and after the synchronous imaging time zone are used for interpolation.
- the imaging time Td is an imaging time one frame before the imaging time Ta, but may be an imaging time one frame after the imaging time Tb. Alternatively, the imaging time Td may be an imaging time before a plurality of frames before the imaging time Ta or an imaging time after a plurality of frames after the imaging time Tb.
- FIG. 9 is a diagram showing each frame at time Ta, Tb, Tc, and Td and the motion vector of the moving object.
- the object A in each frame is a stationary object
- the object B is a moving object.
- the image set generation unit 203 calculates a motion vector MV (Ta) of the object B in the frame (Ta) from the frame F (Td) and the frame F (Ta) included in the moving image M.
- the frame F (Td) is a frame with the time Td as the imaging time.
- the image set generation unit 203 calculates a motion vector MV (Tb) of the object B in the frame F (Tb) from the frame F (Ta) and the frame F (Tb).
- the image set generation unit 203 may calculate a motion vector for each processing unit (for example, a block or the like) similar to the case of the above-described constant velocity motion.
- the image set generation unit 203 approximately obtains the acceleration of the object B between the frame (Ta) and the frame (Tb) by taking the difference between the two motion vectors MV (Ta) and MV (Tb).
- the image set generation unit 203 calculates the motion vector MV (Tc) of the object B in the frame F (Tc) based on (Equation 2) below.
- the image set generation unit 203 generates a frame F (Tc) as an interpolation frame by performing motion compensation based on the motion vector and the frame F (Ta). Note that the image set generation unit 203 may perform motion compensation in the same processing unit (block or the like) as in the case of the above-described constant velocity motion.
- the frame F (Td) may be used also for motion compensation on the basis of the frame F (Td).
- the image set generation unit 203 further includes a plurality of reference images (for example, a plurality of reference images (for example, a plurality of images acquired from a processing target device that is one of the plurality of imaging devices 1 to N)).
- a plurality of reference images for example, a plurality of reference images (for example, a plurality of images acquired from a processing target device that is one of the plurality of imaging devices 1 to N)
- an interpolated image for example, an interpolation frame
- time Tc for example, time Tc
- the image set generation unit 203 selects a plurality of images having substantially the same imaging time from a plurality of images acquired from the plurality of imaging devices 1 to N including the generated interpolation image.
- the image set generation unit 203 generates an interpolated image based on the constant velocity motion model or the constant acceleration motion model.
- the accuracy of 3D information such as the orientation of the imaging device or the 3D model of the subject is improved by calculating 3D information using an image set 203D that includes a sufficient number of images with the same time when the subject is imaged. can do.
- the image set generation unit 203 performs interpolation for each processing unit constituting each of the plurality of reference images.
- the processing unit is a block, an object shown in each of a plurality of reference images, or a sub-object indicated by dividing the object.
- FIG. 10A is a flowchart illustrating an image processing method according to an aspect of the present invention.
- This image processing method is an image processing method for performing processing on a plurality of images, and acquired from each of the plurality of imaging devices in step S11 for acquiring an image obtained by imaging by the imaging device.
- Step S12 for acquiring the imaging time of each of a plurality of images, and selecting a plurality of images whose imaging times substantially match each other from the acquired plurality of images, thereby obtaining an image set composed of the selected plurality of images.
- FIG. 10B is a block diagram illustrating a configuration of an image processing system according to one embodiment of the present invention.
- the image processing system 10 includes a processing circuit 11 and a storage device 12 connected to the processing circuit 11.
- the processing circuit 11 acquires an image obtained by imaging by the imaging device from each of the plurality of imaging devices, stores the acquired image in the storage device 12, acquires the imaging times of the acquired plurality of images, and stores them. From a plurality of images stored in the device 12, by selecting a plurality of images whose imaging times substantially coincide with each other, an image set composed of the selected plurality of images is generated.
- the same operational effects as those of the above-described embodiment and its modifications can be obtained. That is, since the image set includes a plurality of images whose imaging times substantially coincide with each other, a highly accurate three-dimensional model can be easily restored by using this image set. Further, the three-dimensional information calculation unit 204 shown in FIG. 2 is not an essential component in the present invention.
- each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
- Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
- the software that realizes the image processing apparatus or the image processing system according to the above-described embodiment and each modification is a program that causes a computer to execute each step in FIG. 10A.
- Each of the above devices is specifically a computer system including a microprocessor, a ROM, a RAM, a hard disk unit, a display unit, a keyboard, a mouse, and the like.
- a computer program is stored in the RAM or hard disk unit.
- Each device achieves its functions by the microprocessor operating according to the computer program.
- the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
- a part or all of the components constituting each of the above devices may be configured by one system LSI (Large Scale Integration).
- the system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, ROM, RAM, and the like. .
- a computer program is stored in the RAM.
- the system LSI achieves its functions by the microprocessor operating according to the computer program.
- a part or all of the constituent elements constituting each of the above devices may be constituted by an IC card or a single module that can be attached to and detached from each device.
- the IC card or the module is a computer system including a microprocessor, a ROM, a RAM, and the like.
- the IC card or the module may include the super multifunctional LSI described above.
- the IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
- the present invention may be the method described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.
- the present invention also provides a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray ( (Registered trademark) Disc), or recorded in a semiconductor memory or the like.
- the digital signal may be recorded on these recording media.
- the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like.
- the present invention may be a computer system including a microprocessor and a memory, the memory storing the computer program, and the microprocessor operating according to the computer program.
- the program or the digital signal is recorded on the recording medium and transferred, or the program or the digital signal is transferred via the network or the like, and executed by another independent computer system. It is good.
- the system can be applied to a video system in which intelligentization and widening of the target space are progressing.
- a surveillance system implemented in a security camera in a store or a factory, an in-vehicle camera in a police, or Traffic information system using own camera or each on-vehicle camera or camera provided on road, (3) Environmental survey or delivery system using remote control or automatic control device such as drone, and (4) Entertainment
- the present invention can be applied to a content transmission / reception system such as a video using an installation camera in a facility or a stadium, a mobile camera such as a drone, or a personally owned camera.
- FIG. 11 is a diagram showing a configuration of the video information processing system ex100 in the present embodiment. In this embodiment, an example of preventing the generation of blind spots and an example of prohibiting photographing in a specific area will be described.
- the video information processing system ex100 shown in FIG. 11 includes a video information processing device ex101, a plurality of cameras ex102, and a video receiving device ex103. Note that the video receiving device ex103 is not necessarily included in the video information processing system ex100.
- the video information processing apparatus ex101 includes a storage unit ex111 and an analysis unit ex112.
- Each of the N cameras ex102 has a function of capturing video and a function of transmitting captured video data to the video information processing apparatus ex101.
- the camera ex102 may have a function of displaying an image being shot.
- the camera ex102 converts the captured video signal into HEVC or H.264.
- the encoded information may be encoded using an encoding method such as H.264 and transmitted to the video information processing apparatus ex101, or unencoded video data may be transmitted to the video information processing apparatus ex101.
- each camera ex102 is a fixed camera such as a surveillance camera, a moving camera mounted on an unmanned flight type radio control or a car, or a user camera possessed by the user.
- the moving camera receives the instruction signal transmitted from the video information processing apparatus ex101, and changes the position or shooting direction of the moving camera itself according to the received instruction signal.
- the time of the plurality of cameras ex102 is calibrated using the time information of the server or the reference camera, etc. before the disclosure of photographing. Further, the spatial positions of the plurality of cameras ex102 are calibrated based on how the objects in the space to be imaged are captured or relative positions from the reference camera.
- the storage unit ex111 included in the information processing apparatus ex101 stores video data transmitted from the N cameras ex102.
- the analysis unit ex112 detects a blind spot from the video data stored in the storage unit ex111, and transmits an instruction signal indicating an instruction to the mobile camera for preventing the generation of the blind spot to the mobile camera.
- the moving camera moves in accordance with the instruction signal and continues shooting.
- the analysis unit ex112 performs blind spot detection using, for example, SfM (Structure from Motion).
- SfM is a technique for restoring the three-dimensional shape of a subject from a plurality of videos taken from different positions, and is widely known as a shape restoration technique for simultaneously estimating the subject shape and the camera position.
- the analysis unit ex112 restores the three-dimensional shape in the facility or the stadium from the video data saved in the saving unit ex111 using SfM, and detects an area that cannot be restored as a blind spot.
- the analysis unit ex112 may perform SfM using these known information. Further, when the position and shooting direction of the moving camera can be acquired by a GPS and an angle sensor provided in the moving camera, the moving camera transmits information on the position and shooting direction of the moving camera to the analysis unit ex112, and the analysis unit The ex 112 may perform SfM using the transmitted position and shooting direction information.
- the method of detecting the blind spot is not limited to the method using SfM described above.
- the analysis unit ex112 may grasp the spatial distance of the object to be imaged by using information of a depth sensor such as a laser range finder.
- the analysis unit ex112 detects information such as a camera position, a shooting direction, and a zoom magnification from an image that includes a preset marker or a specific object in the space, or the size of the marker or the like. Also good.
- the analysis unit ex112 performs blind spot detection using an arbitrary method capable of detecting the imaging region of each camera.
- the analysis unit ex112 acquires information such as a mutual positional relationship for a plurality of imaging targets from video data or a proximity distance sensor, and identifies an area where a blind spot is likely to occur based on the acquired positional relationship. May be.
- the blind spot includes not only a portion where an image does not exist in a region to be photographed, but also a portion having a poor image quality compared to other portions and a portion where a predetermined image quality is not obtained.
- This detection target portion may be set as appropriate according to the configuration or purpose of the system. For example, the required image quality may be set high for a specific subject in the space where the image is taken. Conversely, for a specific area in the shooting space, the required image quality may be set low, or it may be set not to be determined as a blind spot even if no video is shot.
- the above-mentioned image quality includes various information related to the video such as the area occupied by the subject to be photographed in the video (for example, the number of pixels) or whether the subject to be photographed is in focus. Whether or not it is a blind spot may be determined based on the information or the combination thereof.
- a region that needs to be detected in order to prevent the generation of a blind spot is not limited to a region that is actually a blind spot.
- the analysis unit ex112 detects movements of a plurality of shooting targets from, for example, shot video data and the like, and based on the detected movements of the plurality of shooting targets and position information of the camera ex102, a new blind spot and It is also possible to estimate a possible region.
- the video information processing apparatus ex101 may transmit an instruction signal to the moving camera so as to capture an area that may become a blind spot, and prevent the generation of a blind spot.
- the video information processing apparatus ex101 needs to select a moving camera that transmits an instruction signal in order to capture a blind spot or an area that may become a blind spot.
- the video information processing apparatus ex101 determines which dead spots or areas that may become blind spots for each of the plurality of moving cameras. It is necessary to decide whether to shoot. For example, the video information processing apparatus ex101 selects a moving camera that is closest to the blind spot or the area that is the blind spot based on the blind spot or the area that may be the blind spot and the position of the area that each moving camera is capturing. To do. Further, the video information processing apparatus ex101 determines, for each moving camera, whether or not a blind spot is newly generated when the moving camera cannot obtain the video data currently being shot. If it is not obtained, a moving camera determined not to generate a blind spot may be selected.
- the video information processing apparatus ex101 can prevent the generation of a blind spot by detecting a blind spot and transmitting an instruction signal to the moving camera so as to prevent the blind spot.
- the instruction signal may be a signal for instructing the user of the user camera to move.
- the user camera displays an instruction image that instructs the user to change the direction of the camera based on the instruction signal.
- the user camera may display an instruction image indicating a movement route on a map as an instruction to move the user.
- the user camera may display detailed shooting instructions such as shooting direction, angle, angle of view, image quality, and movement of the shooting area in order to improve the quality of the acquired image. If control is possible on the ex101 side, the video information processing apparatus ex101 may automatically control the feature amount of the camera ex102 regarding such shooting.
- the user camera is, for example, a smartphone, a tablet terminal, a wearable terminal, or an HMD (Head Mounted Display) held by a spectator in the stadium or a guard in the facility.
- HMD Head Mounted Display
- the display terminal that displays the instruction image need not be the same as the user camera that captures the video data.
- the user camera may transmit an instruction signal or an instruction image to a display terminal associated with the user camera in advance, and the display terminal may display the instruction image.
- information on the display terminal corresponding to the user camera may be registered in advance in the video information processing apparatus ex101.
- the video information processing apparatus ex101 may display the instruction image on the display terminal by directly transmitting the instruction signal to the display terminal corresponding to the user camera.
- the analysis unit ex112 may generate a free viewpoint video (three-dimensional reconstruction data) by restoring the three-dimensional shape in the facility or the stadium from the video data stored in the storage unit ex111 using, for example, SfM. Good.
- This free viewpoint video is stored in the storage unit ex111.
- the video information processing apparatus ex101 reads video data corresponding to the visual field information (and / or viewpoint information) transmitted from the video reception apparatus ex103 from the storage unit ex111 and transmits the video data to the video reception apparatus ex103.
- the video reception device ex103 may be one of the plurality of cameras 111.
- the video information processing apparatus ex101 may detect a shooting prohibited area.
- the analysis unit ex112 analyzes the photographed image, and transmits a photographing prohibition signal to the moving camera when the mobile camera is photographing the photographing prohibition region.
- the mobile camera stops shooting while receiving the shooting prohibition signal.
- the analysis unit ex112 matches the three-dimensional virtual space restored using SfM with the captured image, thereby determining whether the mobile camera set in advance in the space is capturing the prohibited image area. judge.
- the analysis unit ex112 determines whether the moving camera is shooting the shooting prohibited area using a marker or a characteristic object arranged in the space as a trigger.
- the photographing prohibited area is, for example, a toilet in a facility or a stadium.
- the user camera when the user camera is shooting a shooting prohibited area, the user camera displays a message on a display or the like connected wirelessly or by wire, or outputs a sound or sound from a speaker or an earphone.
- the user may be informed that the current location is a shooting prohibited location.
- the shooting prohibited area and the current shooting area are shown on the displayed map.
- the resumption of photographing is automatically performed when, for example, the photographing prohibition signal is not output.
- photographing may be resumed when the photographing prohibition signal is not output and the user performs an operation to resume photographing.
- calibration may be performed again.
- notification for confirming the current position or prompting the user to move may be performed.
- a passcode or fingerprint authentication that turns off such a function for recording may be used.
- image processing such as mosaicing may be automatically performed when a video in the photographing prohibited area is displayed or stored outside.
- the video information processing apparatus ex101 can determine that shooting is prohibited and notify the user to stop shooting, thereby setting a certain region to shooting prohibited.
- the video information processing system ex100 sets an incentive for the user who transferred the shot video.
- the video information processing apparatus ex101 delivers a video value to a user who has transferred video at a free or discounted rate, a monetary value that can be used in an online or offline store or game, a game, etc. Points that have non-monetary value such as social status in virtual space.
- the video information processing apparatus ex101 gives a particularly high point to a user who has transferred a captured video of a valuable field of view (and / or viewpoint) such as many requests.
- the video information processing apparatus ex101 may transmit additional information to the user camera based on the analysis result of the analysis unit ex112. In this case, the user camera superimposes additional information on the captured video and displays it on the screen.
- the additional information is, for example, information on players such as a player name or height when a game in a stadium is being shot, and the name or face photo of the player is associated with each player in the video. Is displayed.
- the video information processing apparatus ex101 may extract additional information by searching via the Internet based on part or all of the video data area.
- the camera ex102 receives such additional information by short-range wireless communication including Bluetooth (registered trademark) or visible light communication from lighting such as a stadium, and maps the received additional information to video data. Also good.
- the camera ex102 is a table in which this mapping is stored in a storage unit connected to the camera ex102 by wire or wirelessly, and shows a correspondence relationship between information obtained by visible light communication technology and additional information, etc. It may be performed based on a certain rule of the above, or may be performed using the most probable combination result by Internet search.
- the monitoring system for example, information of a caution person is superimposed on a user camera held by a guard in the facility, so that the monitoring system can be highly accurate.
- the analysis unit ex112 may determine which area in the facility or stadium the user camera is capturing by matching the free viewpoint image and the captured image of the user camera. Note that the imaging region determination method is not limited to this, and various imaging region determination methods or other imaging region determination methods described in the above-described embodiments may be used.
- the video information processing apparatus ex101 transmits the past video to the user camera based on the analysis result of the analysis unit ex112.
- the user camera displays the past video on the screen by superimposing the past video on the shot video or replacing the shot video with the past video.
- the highlight scene of the first half is displayed as a past video. Accordingly, the user can enjoy the highlight scene of the first half as a video in the direction in which he / she is viewing during the halftime.
- the past video is not limited to the highlight scene in the first half, but may be a highlight scene of a past game held at the stadium.
- the timing at which the video information processing apparatus ex101 delivers the past video is not limited to half time, and may be, for example, after the match or during the match. Particularly during a game, based on the analysis result of the analysis unit ex112, the video information processing apparatus ex101 may deliver a scene that is considered important and missed by the user.
- the video information processing apparatus ex101 may distribute the past video only when requested by the user, or may distribute a distribution permission message before the past video is distributed.
- the video information processing apparatus ex101 may transmit advertisement information to the user camera based on the analysis result of the analysis unit ex112.
- the user camera superimposes advertisement information on the captured video and displays it on the screen.
- the advertisement information may be distributed immediately before the past video distribution during the half time or after the match, as shown in, for example, Modification 5. Accordingly, the distributor can obtain an advertisement fee from the advertiser, and can provide a video distribution service to the user at a low cost or free of charge.
- the video information processing apparatus ex101 may distribute an advertisement distribution permission message immediately before distribution of the advertisement information, may provide a service for free only when the user views the advertisement, or views the advertisement. Service may be provided at a lower cost than when not.
- the system or the staff who knows the location of the user based on some location information or the automatic delivery system of the venue will bring the ordered drink to the seat Will deliver.
- the decision may be handed to the staff or may be made based on credit card information set in advance in the mobile terminal application or the like.
- the advertisement may include a link to an e-commerce site, and online shopping such as normal home delivery may be possible.
- the video receiving device ex103 may be one of the cameras ex102 (user camera).
- the analysis unit ex112 determines which area in the facility or stadium the user camera is shooting by matching the free viewpoint video and the video shot by the user camera. Note that the method for determining the imaging region is not limited to this.
- the user camera when the user performs a swipe operation in the direction of the arrow displayed on the screen, the user camera generates viewpoint information indicating that the viewpoint is moved in that direction.
- the video information processing apparatus ex101 reads the video data obtained by shooting the area moved by the viewpoint information from the shooting area of the user camera determined by the analysis unit ex112 from the storage unit ex111, and transmits the video data to the user camera. Start.
- the user camera displays the video distributed from the video information processing apparatus ex101 instead of the captured video.
- the users in the facility or the stadium can view the video from a favorite viewpoint with a simple operation like a screen swipe.
- a spectator watching on the third base side of a baseball field can view a video from the first base side viewpoint.
- the security guards in the facility can watch the video that should be watched as an interrupt from the viewpoint or the center that they want to confirm by a simple operation like a screen swipe while changing the viewpoint appropriately. Therefore, it is possible to increase the accuracy of the monitoring system.
- the user camera may switch and display the video of a part of the shooting area of the user camera including the obstacle from the shot video to the distribution video from the video information processing apparatus ex101.
- the entire screen may be switched from the captured video to the distributed video and displayed.
- the user camera may display an image in which the object to be viewed is seen through the obstacle by combining the captured image and the distribution image. According to this configuration, it is possible to view the video distributed from the video information processing apparatus ex101 even when the shooting target cannot be seen from the position of the user due to the influence of the obstacle, so that the influence of the obstacle can be reduced. it can.
- the distribution video is displayed as a video of an area that cannot be seen due to an obstacle
- display switching control different from the display switching control according to the input process by the user such as the screen swipe described above, may be performed.
- the display from the shot video to the distribution video is performed. Switching may be performed automatically.
- display switching from the shot video to the distribution video may be automatically performed.
- the display switching to the distribution video may be automatically performed.
- the display switching from the captured video to the distribution video and the display switching from the distribution video to the captured video may be performed in accordance with the user input processing.
- Modification 9 The speed at which the video data is transferred to the video information processing apparatus ex101 may be instructed based on the importance of the video data captured by each camera ex102.
- the analysis unit ex112 determines the importance of the video data stored in the storage unit ex111 or the camera ex102 that captured the video data.
- the determination of the importance is performed based on, for example, information such as the number of people or moving objects included in the video, the image quality of the video data, or a combination thereof.
- the determination of the importance of the video data may be based on the position of the camera ex102 where the video data is shot or the area where the video data is shot. For example, when there are a plurality of other cameras ex102 being shot near the target camera ex102, the importance of the video data shot by the target camera ex102 is reduced. In addition, even when the position of the target camera ex102 is far from the other camera ex102, when there are a plurality of other cameras ex102 shooting the same area, the importance of the video data shot by the target camera ex102 is set. make low.
- the determination of the importance of the video data may be performed based on the number of requests in the video distribution service.
- the importance determination method is not limited to the method described above or a combination thereof, and may be any method according to the configuration or purpose of the monitoring system or the video distribution system.
- the determination of the importance may not be based on the captured video data.
- the importance of the camera ex102 that transmits video data to a terminal other than the video information processing apparatus ex101 may be set high.
- the importance of the camera ex102 that transmits video data to a terminal other than the video information processing apparatus ex101 may be set low.
- the analysis unit ex112 may determine the importance of the video data using the free viewpoint video and the video shot by the camera ex102.
- the video information processing apparatus ex101 transmits a communication speed instruction signal to the camera ex102 based on the importance determination result performed by the analysis unit ex112. For example, the video information processing apparatus ex101 instructs a high communication speed to the camera ex102 that captures a video with high importance. Further, the video information processing apparatus ex101 may transmit not only the speed control but also a signal instructing a method in which important information is transmitted a plurality of times in order to reduce a disadvantage caused by the lack. Thereby, communication within the facility or the entire stadium can be performed efficiently. Communication between the camera ex102 and the video information processing apparatus ex101 may be wired communication or wireless communication. The video information processing apparatus ex101 may control only one of wired communication and wireless communication.
- the camera ex102 transmits the captured video data to the video information processing apparatus ex101 at a communication speed according to the communication speed instruction signal. Note that if the retransmission of the camera ex102 fails a predetermined number of times, the camera ex102 may stop the retransmission of the captured video data and start the transfer of the next captured video data. As a result, communication within the facility or the entire stadium can be efficiently performed, and high-speed processing in the analysis unit ex112 can be realized.
- the video data of the bit rate capable of transmitting the captured video data at the assigned communication speed may be transmitted, or the video data transfer may be stopped.
- the camera ex102 when video data is used to prevent the generation of blind spots, only a part of the shooting area included in the captured video data may be necessary to fill the blind spots. There is sex.
- the camera ex102 generates the extracted video data by extracting at least the area necessary for preventing the generation of the blind spot from the video data, and the generated extracted video data is used as the video information processing apparatus. You may transmit to ex101. According to this configuration, the occurrence of blind spots can be suppressed with a smaller communication band.
- the camera ex102 needs to transmit the position information of the camera ex102 and the shooting direction information to the video information processing apparatus ex101.
- the camera ex102 to which only a bandwidth that is not sufficient for transferring the video data may be transmitted, only the position information detected by the camera ex102 and the information on the shooting direction.
- the video information processing apparatus ex101 estimates position information and shooting direction information of the camera ex102
- the camera ex102 converts the shot video data to a resolution necessary for estimating the position information and shooting direction information.
- the converted video data may be transmitted to the video information processing apparatus ex101.
- the video information processing apparatus ex101 can acquire shooting area information from a larger number of cameras ex102, for example, when the shooting area information is used for the purpose of detecting a focused area, for example. It is valid.
- the switching of the video data transfer process according to the allocated communication band described above may be performed by the camera ex102 based on the notified communication band, or the video information processing apparatus ex101 performs the operation of each camera ex102.
- the control signal indicating the determined operation may be notified to each camera ex102.
- the processing can be appropriately shared according to the calculation amount necessary for determining the switching of the operation, the processing capability of the camera ex102, the necessary communication band, and the like.
- the analysis unit ex112 may determine the importance of the video data based on the visual field information (and / or viewpoint information) transmitted from the video reception device ex103. For example, the analysis unit ex112 sets the importance of captured video data including many areas indicated by the visual field information (and / or viewpoint information) to be high. The analysis unit ex112 may determine the importance of the video data in consideration of the number of people included in the video or the number of moving objects. Note that the importance determination method is not limited to this.
- the communication control method described in the present embodiment is not necessarily used in a system that reconstructs a three-dimensional shape from a plurality of video data.
- the communication control method described in the present embodiment is It is valid.
- the video information processing apparatus ex101 may transmit an overview video showing the entire shooting scene to the video receiving apparatus ex103.
- the video information processing apparatus ex101 when the video information processing apparatus ex101 receives the distribution request transmitted from the video receiving apparatus ex103, the video information processing apparatus ex101 reads an overview video of the entire facility or stadium from the storage unit ex111, and the external video is received by the video receiving apparatus. send to ex103.
- the overview video may have a long update interval (may be a low frame rate) or may have a low image quality.
- the viewer touches a portion to be seen in the overview video displayed on the screen of the video receiving device ex103. Accordingly, the video reception device ex103 transmits visual field information (and / or viewpoint information) corresponding to the touched portion to the video information processing device ex101.
- the video information processing apparatus ex101 reads video data corresponding to the visual field information (and / or viewpoint information) from the storage unit ex111, and transmits the video data to the video receiving apparatus ex103.
- the analysis unit ex112 generates a free viewpoint video by preferentially restoring the three-dimensional shape (three-dimensional reconstruction) on the region indicated by the visual field information (and / or viewpoint information).
- the analysis unit ex112 restores the three-dimensional shape of the entire facility or the stadium with an accuracy that shows an overview.
- the video information processing apparatus ex101 can efficiently restore the three-dimensional shape. As a result, it is possible to realize a high frame rate and high image quality of a free viewpoint video in an area desired by the viewer.
- the video information processing apparatus ex101 may store in advance, for example, three-dimensional shape restoration data of a facility or a stadium generated in advance from a design drawing or the like as a preliminary video.
- the prior image is not limited to this, and may be virtual space data obtained by mapping, for each object, the unevenness of the space obtained from the depth sensor and the picture derived from the image or the image data at the past or during calibration.
- the analysis unit ex112 when soccer is being performed in a stadium, the analysis unit ex112 performs reconstruction of a three-dimensional shape limited to only players and balls, and combines the obtained restoration data and a prior image to generate a free viewpoint video. May be generated.
- the analysis unit ex112 may preferentially restore the three-dimensional shape with respect to the player and the ball.
- the video information processing apparatus ex101 can efficiently restore the three-dimensional shape.
- the analysis unit ex112 may perform the reconstruction of the three-dimensional shape by limiting to only the person and the moving object or giving priority to them.
- the time of each device may be calibrated at the start of shooting based on the reference time of the server.
- the analysis unit ex112 uses a plurality of video data captured at a time that falls within a preset time range according to the accuracy of time setting among a plurality of captured video data captured by the plurality of cameras ex102. 3D shape restoration. For the detection of this time, for example, the time when the captured video data is stored in the storage unit ex111 is used. The time detection method is not limited to this. As a result, the video information processing apparatus ex101 can efficiently restore the three-dimensional shape, thereby realizing a high frame rate and high image quality of the free viewpoint video.
- the analysis unit ex112 may restore the three-dimensional shape using only the high-quality data or using the high-quality data preferentially among the plurality of video data stored in the storage unit ex111. .
- the analysis unit ex112 may restore the three-dimensional shape using the camera attribute information.
- the camera ex102 transmits the captured video data and camera attribute information to the video information processing apparatus ex101.
- the camera attribute information is, for example, a shooting position, a shooting angle, a shooting time, or a zoom magnification.
- the video information processing apparatus ex101 can efficiently restore the three-dimensional shape, it is possible to realize a high frame rate and high image quality of the free viewpoint video.
- the camera ex102 defines three-dimensional coordinates in the facility or in the stadium, and information about which coordinates the camera ex102 took from which angle, how much zoom, and at what time, along with the video. It transmits to the video information processing apparatus ex101 as camera attribute information. Further, when the camera ex102 is activated, the clock on the communication network in the facility or stadium is synchronized with the clock in the camera, and time information is generated.
- FIG. 12 is a diagram illustrating an example of a notification displayed on the screen of the camera ex102 when the camera ex102 is activated.
- the camera ex102 is moved from the camera ex102.
- the vector information up to the advertisement is acquired and the reference of the camera position and angle is specified.
- the camera coordinates and angle at that time are specified from the motion information of the camera ex102.
- the display is not limited to this, and a display that uses an arrow or the like to indicate coordinates, an angle, a moving speed of the imaging region, or the like during the imaging period may be used.
- the coordinates of the camera ex102 may be specified using GPS, WiFi (registered trademark), 3G, LTE (Long Term Evolution), and 5G (wireless LAN) radio waves, or a beacon (Bluetooth (registered trademark)). , Ultrasonic), or the like. Further, information on which base station in the facility or stadium the captured video data has reached may be used.
- the system may be provided as an application that operates on a mobile terminal such as a smartphone.
- An account such as various SNSs may be used to log in to the system.
- An application-dedicated account or a guest account with limited functions may be used.
- By using the account in this way it is possible to evaluate a favorite video or a favorite account.
- video data having a viewpoint similar to the viewpoint of the video data being shot or viewed the resolution of these video data Can be increased. Thereby, it is possible to restore the three-dimensional shape from these viewpoints with higher accuracy.
- the user can select a preferred image video in the application and follow the other party, so that the selected image can be viewed with priority over other users, or can be used for text chat, etc., subject to the other party's approval. You can have a connection. In this way, a new community can be generated.
- the user can edit an image or video taken by another person or create a new image or video by collaging the image of another person with his own image.
- This makes it possible to share a new video work, such as sharing a new image or video only with people in the community.
- a video work can be used for augmented reality games by inserting a CG character in this editing.
- 3D model data can be sequentially output, so that a 3D printer or the like of a facility can output a 3D object based on 3D model data in a characteristic scene such as a goal scene. .
- a 3D printer or the like of a facility can output a 3D object based on 3D model data in a characteristic scene such as a goal scene.
- an object based on the scene during the game can be sold as a souvenir such as a key holder, or distributed to participating users.
- the center identifies areas where there is a high possibility of crimes based on crime maps based on the results of analysis using past crime data, etc., or areas related to the crime occurrence probability identified in this way Holds data.
- the frequency of image transmission / reception may be increased, or the image may be changed to a moving image.
- a moving image or three-dimensional reconstruction data using SfM or the like may be used.
- the center or each terminal simultaneously corrects an image or virtual space using information from other sensors such as a depth sensor or a thermo sensor, so that the police officer can grasp the situation more accurately.
- the center can feed back the object information to a plurality of terminals by using the 3D reconstruction data. This allows individuals with each terminal to track the object.
- an in-vehicle camera that takes pictures outside the vehicle is obligatory in some countries. Even in such an in-vehicle camera, by using three-dimensional data modeled from a plurality of images, it is possible to more accurately grasp the weather in the direction of the destination, the state of the road surface, the degree of traffic congestion, and the like.
- the storage medium may be any medium that can record a program, such as a magnetic disk, an optical disk, a magneto-optical disk, an IC card, and a semiconductor memory.
- the system includes an apparatus using an image processing method.
- Other configurations in the system can be appropriately changed according to circumstances.
- FIG. 13 is a diagram showing an overall configuration of a content supply system ex200 that realizes a content distribution service.
- the communication service providing area is divided into desired sizes, and base stations ex206, ex207, ex208, ex209, and ex210, which are fixed wireless stations, are installed in each cell.
- This content supply system ex200 includes a computer ex211, a PDA (Personal Digital Assistant) ex212, a camera ex213, a smartphone ex214, a game machine ex215, etc. via the Internet ex201, the Internet service provider ex202, the communication network ex204, and the base stations ex206 to ex210. Are connected.
- a PDA Personal Digital Assistant
- each device may be directly connected to a communication network ex204 such as a telephone line, cable television, or optical communication without going through the base stations ex206 to ex210 which are fixed wireless stations.
- the devices may be directly connected to each other via short-range wireless or the like.
- the camera ex213 is a device that can shoot a moving image such as a digital video camera
- the camera ex216 is a device that can shoot a still image and a moving image such as a digital camera.
- the smartphone ex214 is a GSM (registered trademark) (Global System for Mobile Communications) method, a CDMA (Code Division Multiple Access) method, a W-CDMA (Wideband-Code Division MultipleL method, or a Multiple Acceleration method).
- GSM Global System for Mobile Communications
- CDMA Code Division Multiple Access
- W-CDMA Wideband-Code Division MultipleL method
- Multiple Acceleration method a Multiple Acceleration method
- HSPA High Speed Packet Access
- a smartphone corresponding to a communication method using a high frequency band or a PHS (Personal Handyphone System)
- PHS Personal Handyphone System
- the camera ex213 and the like are connected to the streaming server ex203 through the base station ex209 and the communication network ex204, thereby enabling live distribution and the like.
- live distribution content (for example, music live video) that the user captures using the camera ex213 is encoded and transmitted to the streaming server ex203.
- the streaming server ex203 streams the content data transmitted to the requested client.
- the client include a computer ex211, a PDA ex212, a camera ex213, a smartphone ex214, and a game machine ex215 that can decode the encoded data.
- Each device that receives the distributed data decodes the received data and reproduces it.
- the encoded processing of the captured data may be performed by the camera ex213, the streaming server ex203 that performs the data transmission processing, or may be performed in a shared manner.
- the decryption processing of the distributed data may be performed by the client, the streaming server ex203, or may be performed in common with each other.
- still images and / or moving image data captured by the camera ex216 may be transmitted to the streaming server ex203 via the computer ex211.
- the encoding process in this case may be performed by any of the camera ex216, the computer ex211, and the streaming server ex203, or may be performed in a shared manner.
- a plurality of devices connected to the system may be linked to display the same image, or the entire image is displayed on a device having a large display unit, and the smartphone ex214 or the like displays the image. A part of the area may be enlarged and displayed.
- these encoding / decoding processes are generally performed in the computer ex211 and the LSI ex500 included in each device.
- the LSI ex500 may be configured as a single chip or a plurality of chips.
- moving image encoding / decoding software is incorporated into some recording media (CD-ROM, flexible disk, hard disk, etc.) that can be read by the computer ex211 etc., and encoding / decoding processing is performed using the software. May be.
- moving image data acquired by the camera may be transmitted. The moving image data at this time is data encoded by the LSI ex500 included in the smartphone ex214.
- the streaming server ex203 may be a plurality of servers or a plurality of computers, and may process, record, and distribute data in a distributed manner.
- the client can receive and reproduce the encoded data.
- the information transmitted by the user can be received, decrypted and reproduced by the client in real time, and even a user who does not have special rights or facilities can realize personal broadcasting.
- multiplexed data obtained by multiplexing music data and the like on video data is transmitted to a communication or satellite ex302 via radio waves.
- This video data is data encoded by the moving image encoding method described in the above embodiments.
- the broadcasting satellite ex302 transmits a radio wave for broadcasting, and this radio wave is received by a home antenna ex304 capable of receiving satellite broadcasting.
- the received multiplexed data is decoded and reproduced by a device such as the television (receiver) ex400 or the set top box (STB) ex317.
- a recording medium ex315 such as DVD or BD, or a memory ex316 such as SD
- encodes a video signal in the recording medium ex315 or memory ex316 and in some cases, a music signal
- the moving picture decoding apparatus or moving picture encoding apparatus described in each of the above embodiments in the reader / recorder ex318 that writes in a multiplexed manner.
- the reproduced video signal is displayed on the monitor ex319, and the video signal can be reproduced in another device or system by the recording medium ex315 in which the multiplexed data is recorded or the memory ex316.
- a moving picture decoding apparatus may be mounted in a set-top box ex317 connected to a cable ex303 for cable television or an antenna ex304 for satellite / terrestrial broadcasting, and this may be displayed on a monitor ex319 of the television.
- the moving picture decoding apparatus may be incorporated in the television instead of the set top box.
- FIG. 15 is a diagram showing the smartphone ex214.
- FIG. 16 is a diagram illustrating a configuration example of the smartphone ex214.
- the smartphone ex214 includes an antenna ex450 for transmitting and receiving radio waves to and from the base station ex210, a camera unit ex465 that can take a video and a still image, a video captured by the camera unit ex465, a video received by the antenna ex450, and the like.
- a display unit ex458 such as a liquid crystal display for displaying the decrypted data is provided.
- the smartphone ex214 further includes an operation unit ex466 such as a touch panel, an audio output unit ex457 such as a speaker for outputting audio, an audio input unit ex456 such as a microphone for inputting audio, a captured video, a still image , A memory unit ex467 capable of storing encoded data or decoded data such as recorded audio, received video, still image, and mail, or memory ex316 illustrated in FIG. And a slot part ex464 which is an interface part with the SIMex 468 for authenticating access to various data including the network.
- an operation unit ex466 such as a touch panel
- an audio output unit ex457 such as a speaker for outputting audio
- an audio input unit ex456 such as a microphone for inputting audio
- a memory unit ex467 capable of storing encoded data or decoded data such as recorded audio, received video, still image, and mail, or memory ex316 illustrated in FIG.
- a slot part ex464 which is an interface part with the SIMex 468 for authenticating access to various data including
- the smartphone ex214 controls the power supply circuit ex461, the operation input control unit ex462, the video signal processing unit ex455, the camera interface unit ex463, the LCD (for the main control unit ex460 that comprehensively controls the display unit ex458, the operation unit ex466, and the like.
- a Liquid Crystal Display) control unit ex459, a modulation / demodulation unit ex452, a multiplexing / demultiplexing unit ex453, an audio signal processing unit ex454, a slot unit ex464, and a memory unit ex467 are connected to each other via a bus ex470.
- the power supply circuit unit ex461 starts up the smartphone ex214 in an operable state by supplying power from the battery pack to each unit.
- the smartphone ex214 converts the audio signal collected by the audio input unit ex456 in the audio call mode into a digital audio signal by the audio signal processing unit ex454 based on the control of the main control unit ex460 having a CPU, a ROM, a RAM, and the like. This is subjected to spectrum spread processing by the modulation / demodulation unit ex452, and is subjected to digital analog conversion processing and frequency conversion processing by the transmission / reception unit ex451, and then transmitted via the antenna ex450.
- the smartphone ex214 amplifies reception data received via the antenna ex450 in the voice call mode, performs frequency conversion processing and analog-digital conversion processing, performs spectrum despreading processing in the modulation / demodulation unit ex452, and performs voice signal processing unit ex454. After being converted into an analog audio signal, the audio output unit ex457 outputs it.
- the text data of the e-mail input by the operation of the operation unit ex466 of the main unit is sent to the main control unit ex460 via the operation input control unit ex462.
- the main control unit ex460 performs spread spectrum processing on the text data in the modulation / demodulation unit ex452, performs digital analog conversion processing and frequency conversion processing in the transmission / reception unit ex451, and then transmits the text data to the base station ex210 via the antenna ex450.
- almost the reverse process is performed on the received data and output to the display unit ex458.
- the video signal processing unit ex455 compresses the video signal supplied from the camera unit ex465 by the moving image encoding method described in each of the above embodiments.
- the encoded video data is sent to the multiplexing / demultiplexing unit ex453.
- the audio signal processing unit ex454 encodes the audio signal picked up by the audio input unit ex456 while the camera unit ex465 captures video, still images, and the like, and sends the encoded audio data to the multiplexing / separating unit ex453. To do.
- the multiplexing / demultiplexing unit ex453 multiplexes the encoded video data supplied from the video signal processing unit ex455 and the encoded audio data supplied from the audio signal processing unit ex454 by a predetermined method, and is obtained as a result.
- the multiplexed data is subjected to spread spectrum processing by a modulation / demodulation unit (modulation / demodulation circuit unit) ex452, and subjected to digital analog conversion processing and frequency conversion processing by a transmission / reception unit ex451, and then transmitted through an antenna ex450.
- the multiplexing / separating unit ex453 separates the multiplexed data into a video data bit stream and an audio data bit stream, and performs video signal processing on the video data encoded via the synchronization bus ex470.
- the encoded audio data is supplied to the audio signal processing unit ex454 while being supplied to the unit ex455.
- the video signal processing unit ex455 decodes the video signal by decoding using a video decoding method corresponding to the video encoding method shown in each of the above embodiments, and the display unit ex458 via the LCD control unit ex459. From, for example, video and still images included in a moving image file linked to a home page are displayed.
- the audio signal processing unit ex454 decodes the audio signal, and the audio is output from the audio output unit ex457.
- the terminal such as the smartphone ex214 is a transmission terminal having only an encoder and a receiving terminal having only a decoder, as well as the television ex400.
- a possible implementation format is possible.
- multiplexed data in which music data or the like is multiplexed with video data is received and transmitted.
- data in which character data related to video is multiplexed in addition to audio data It may be video data itself instead of multiplexed data.
- the present invention has an effect that a highly accurate three-dimensional model can be restored, and can be used for, for example, a system or an apparatus that performs three-dimensional reconstruction.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Studio Devices (AREA)
Abstract
画像処理方法は、複数の画像に対して処理を行う画像処理方法であって、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得するステップ(S11)と、取得された複数の画像のそれぞれの撮像時刻を取得するステップ(S12)と、取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セット(203D)を生成するステップ(S13)とを含む。
Description
本発明は、画像処理方法および画像処理システムに関し、特に、複数の撮像装置による撮像によって得られた複数の画像を用いて被写体の三次元モデルを復元するための画像処理方法および画像処理装置に関する。
コンピュータビジョンの分野における三次元再構成技術では、複数の2次元画像間で対応付けを行い、三次元モデルの復元、つまり、カメラ姿勢または被写体の3次元位置の推定を行う。
例えば、特許文献1では、単眼カメラからの入力動画像の初期数フレームにおいて、特徴点を抽出し、フレームマッチング処理により特徴点位置の対応付けを行う。後続のフレームでは、拡張カルマンフィルタを用いた時系列特徴点追跡により特徴点位置情報を取得する。対応付けられた特徴点を用いてSfM(Structure from Motion)により三次元モデルを復元している。
また、特許文献2では、ステレオカメラで同期撮像した2つの動画像から所定周期で取得したキーフレームで特徴点マッチングを行い、三次元モデルを再構成する。また、特徴点の時間方向の変化を用いて、キーフレーム間の三次元モデルの再構成が可能となる。
さらに、特許文献3では、3台以上の複数カメラ間でキャリブレーションを行い、取得したカメラパラメータにより各カメラ座標系を任意視点の仮想カメラ座標系へ変換する。その仮想カメラ座標系において、座標変換後の画像間のブロックマッチングによる対応付けを行い、距離情報を推定する。推定した距離情報を基に仮想カメラ視点の画像を生成する。
しかしながら、上記特許文献1~3の技術では、高精度の三次元モデルを容易に復元することができないという問題がある。
そこで、本発明は、高精度の三次元モデルを容易に復元するための画像処理方法および画像処理システムを提供する。
本発明の一態様に係る画像処理方法は、複数の画像に対して処理を行う画像処理方法であって、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、取得された複数の画像のそれぞれの撮像時刻を取得し、取得された前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する。
なお、この包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明の画像処理方法および画像処理システムを用いれば、高精度の三次元モデルを容易に復元することができる。
(本発明の基礎となった知見)
まず、本発明の一態様における同期撮像を定義する。
まず、本発明の一態様における同期撮像を定義する。
図1Aおよび図1Bは、撮像装置の撮像周期と露光時間の一例を示す図である。撮像装置の撮像により画像を取得する際、シャッタが開放されている時間、つまり露光が行われている時間を露光時間という。撮像では、露光時間中にレンズを通して撮像素子にさらされたシーンを含む画像が得られる。例えば、動画像の撮像では、予め定められた撮像周期ごとに露光が繰り返し行われ、その露光が行われる露光時間中に画像が得られる。ここで、図1Aに示すように、撮像装置1と撮像装置2では、露光時間が重複している。これにより2つの撮像装置の撮像により取得された各画像は、同一時刻のシーンを含んでいる。一方、図1Bでは、撮像装置1と撮像装置2では、露光時間の重複がないため、2つの撮像装置の撮像により取得された各画像には、同一時刻のシーンは含まれていない。図1Aのように、同一時刻のシーンを含んだ複数の画像を撮像によって得ることを同期撮像という。一方、図1Bのように、同一時刻のシーンを含んでいない複数の画像を撮像によって得ることを非同期撮像という。
同期撮像が可能であれば、被写体が動いていても、同一時刻の複数フレームを入力とすれば、静止画像と同様の方法により三次元モデルを復元できる。
しかし、複数の撮像装置で撮像する際、各撮像装置において、シャッタを開放するためのトリガ信号の受信に時間差が生じたる場合がある。また、トリガ信号を受信してから実際にシャッタを開放するまでに遅延が生じたり、露光時間に差があることにより、露光時間が重複しない場合がある。露光時間が重複しない場合、つまり撮像時刻にずれが発生する場合であっても、被写体が静止物体であれば三次元モデルの復元が可能である。しかし、露光時間が重複しない場合に、被写体が動物体であれば、各視点の画像内で被写体が時間方向と空間方向の両方にずれているため、画像間の対応付けが困難となり、高精度な三次元モデルの復元ができない。このように、従来の上記特許文献1~3の技術であっても、高精度の三次元モデルの復元を容易に行うことができないのである。
具体的には、三次元モデルの復元の対象となる被写体が動いている場合、特許文献1のような単眼カメラからの時系列画像では、フレームマッチングが困難となる。また、特許文献3では、キャリブレーション時のみ同期撮像を行うため、特許文献1と同様に、動いている被写体を対象とした高精度の三次元位置推定は困難である。さらに、特許文献2では、2台のカメラ位置関係が固定であるステレオカメラを使用するため、カメラ位置に制約が生じる。
そこで、本発明の一態様に係る画像処理方法は、複数の画像に対して処理を行う画像処理方法であって、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、取得された複数の画像のそれぞれの撮像時刻を取得し、取得された前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する。
これにより、画像セットには、撮像時刻が互いに略一致する複数の画像が含まれるため、この画像セットを用いれば、高精度の三次元モデルを容易に復元することができる。なお、撮像時刻が互いに略一致するとは、撮像時刻が実質的に一致していることを意味し、撮像時刻が厳密に一致することだけでなく、技術効果的に撮像時刻が一致しているとみなされることも含む。
また、前記画像処理方法は、さらに、前記画像セットに含まれる複数の画像に基づいて、当該複数の画像のそれぞれに対応する撮像装置および被写体のうちの少なくとも一方の状態を三次元的に示す三次元情報を算出してもよい。例えば、前記三次元情報は、前記画像セットに含まれる複数の画像のそれぞれに対応する撮像装置の位置および姿勢のうちの少なくとも一方を前記状態として示す。または、前記三次元情報は、前記画像セットに含まれる複数の画像のそれぞれに対応する被写体の位置および形状のうちの少なくとも一方を前記状態として示す。
これにより、撮像時刻が互いに略一致する複数の画像が三次元情報の算出に用いられるため、高精度の三次元情報を容易に算出することができる。つまり、高精度の三次元モデルを容易に復元することができる。
また、前記画像セットの生成では、取得された前記複数の画像のうちの1つである基準画像と、当該基準画像の撮像のための露光と重複したタイミングの露光による撮像によって得られた画像である少なくとも1つの露光重複画像とを、撮像時刻が互いに略一致する前記複数の画像として選択してもよい。
これにより、画像セットには、基準画像と、その基準画像と露光のタイミングが一致する少なくとも1つの露光重複画像とが含まれる。つまり、同一時刻の被写体が映し出された複数の画像が画像セットに含まれる。したがって、この画像セットを用いれば、より高精度の三次元モデルを容易に復元することができる。
また、前記撮像時刻の取得では、取得された前記複数の画像のうちの何れの露光時間よりも高い時間精度で示される、前記複数の画像のそれぞれの前記撮像時刻を取得してもよい。
これにより、より高精度の三次元モデルを容易に復元することができる。
また、前記画像の取得では、前記複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた前記画像を含む画像信号を取得し、前記画像セットの生成では、取得された複数の画像信号から、撮像時刻が互いに略一致する前記複数の画像のそれぞれを含む複数の画像信号を選択することにより、選択された前記複数の画像信号からなる前記画像セットを生成してもよい。例えば、前記画像信号は、複数の画像と、前記複数の画像のそれぞれの撮像時刻を取得するための時刻情報とを含む動画像データであって、前記撮像時刻の取得では、画像信号ごとに、当該画像信号に含まれる前記時刻情報に基づいて、当該画像信号に含まれる前記複数の画像のそれぞれの撮像時刻を取得する。
これにより、動画像データに含まれる複数の画像(例えば複数のピクチャまたはフレーム)のそれぞれの撮像時刻を、その動画像データに含まれる時刻情報に基づいて容易に取得することができる。なお、時刻情報は、例えば、動画像データに含まれる先頭の画像の撮像時刻およびフレームレートを示していてもよく、動画像データに含まれる複数の画像のそれぞれの撮像時刻を示していてもよい。
または、前記画像信号は、画像と、前記画像の撮像時刻を取得するための時刻情報とを含む画像データであって、前記撮像時刻の取得では、画像信号ごとに、当該画像信号に含まれる前記時刻情報に基づいて、当該画像信号に含まれる前記画像の撮像時刻を取得してもよい。
これにより、画像データに含まれる例えば静止画像の撮像時刻を、その画像データに含まれる時刻情報に基づいて容易に取得することができる。
また、前記画像セットの生成では、さらに、前記複数の撮像装置のうちの何れかである処理対象装置から取得された画像である元画像から、当該元画像の撮像時刻と異なる時刻において静止していると推定される被写体が写っている領域の画像を、前記処理対象装置から取得された、前記時刻を撮像時刻とする静止画像として生成し、生成された前記静止画像を含む、前記複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する前記複数の画像を選択してもよい。
これにより、撮像装置から実際に取得された画像だけでなく、生成された静止画像も選択することができ、その結果、画像セットに含まれる、撮像時刻が互いに略一致する画像の数を増やすことできる。したがって、複数の撮像装置のそれぞれから実際に取得された、撮像時刻が互いに略一致する画像の数が少なくても、この画像セットを用いれば、高精度の三次元モデルを容易に復元することができる。
また、前記静止画像の生成では、前記元画像の撮像時刻の前および後のうちの少なくとも一方において、前記処理対象装置による撮像によって得られた少なくとも1つの画像と、前記元画像とを比較することによって、前記元画像から前記領域を特定してもよい。例えば、前記領域の特定では、前記元画像を構成する処理単位ごとに、当該処理単位が前記領域に該当するか否かを判定することによって、前記領域を特定し、前記処理単位は、ブロック、前記元画像に写っているオブジェクト、または、前記オブジェクトが分割されることによって示されるサブオブジェクトである。
これにより、適切な静止画像を生成することができる。したがって、この静止画像を含む画像セットを用いれば、より高精度の三次元モデルを容易に復元することができる。
また、前記画像セットの生成では、さらに、前記複数の撮像装置のうちの何れかである処理対象装置から取得された複数の画像である複数の参照画像に対して補間を行うことより、前記複数の参照画像のそれぞれの撮像時刻と異なる時刻を撮像時刻とする補間画像を、前記処理対象装置から取得された画像として生成し、生成された前記補間画像を含む、前記複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する前記複数の画像を選択してもよい。例えば、前記補間画像の生成では、等速運動モデルに基づいて前記補間画像を生成する。
これにより、撮像装置から実際に取得された画像だけでなく、生成された補間画像も選択することができ、その結果、画像セットに含まれる、撮像時刻が互いに略一致する画像の数を増やすことできる。したがって、複数の撮像装置のそれぞれから実際に取得された、撮像時刻が互いに略一致する画像の数が少なくても、この画像セットを用いれば、高精度の三次元モデルを容易に復元することができる。
また、前記補間画像の生成では、前記複数の参照画像のそれぞれを構成する処理単位ごとに補間を行い、前記処理単位は、ブロック、前記複数の参照画像のそれぞれに写っているオブジェクト、または、前記オブジェクトが分割されることによって示されるサブオブジェクトであってもよい。
これにより、適切な補間画像を生成することができる。したがって、この補間画像を含む画像セットを用いれば、より高精度の三次元モデルを容易に復元することができる。
以下、実施の形態について、図面を用いて詳細に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
図2は、本実施の形態における画像処理装置200の構成を示すブロック図である。
図2は、本実施の形態における画像処理装置200の構成を示すブロック図である。
画像処理装置200は、複数の撮像装置より画像を取得し、同一時刻の被写体が写し出された複数の画像からなる画像セットを作成する装置またはシステムである。なお、複数の撮像装置はそれぞれ、画像を画像データである画像信号に含めて送信する。その画像は、動画像であっても静止画像であってもよい。このような画像処理装置200は、図2に示すように、画像取得部201、時刻情報取得部202、画像セット生成部203、および三次元情報算出部204を備える。
画像取得部201は、複数の撮像装置(撮像装置1~N)のそれぞれから画像を取得する。各撮像装置と画像取得部201とは、有線の伝送路で接続されていてもよいし、無線の伝送路で接続されていてもよい。また、基地局を経由して接続されていてもよい。例えば、撮像装置は基地局へ画像を無線伝送し、基地局は画像取得部201へ画像を無線伝送する。撮像装置から伝送される画像のフォーマットは、現像を行う前のRAW画像でもよいし、RAW画像を現像したビットマップ画像などのRGB非圧縮画像でもよいし、さらにRGB画像をフォーマット変換したYUV非圧縮画像でもよい。または、そのフォーマットは、H.265/HEVCまたはJPEGなどの画像符号化方式により非圧縮画像を符号化した符号化ストリームでもよい。これらの取得された画像は、三次元情報を計算するために任意に指定されたフォーマットへ変換されてもよい。そのため、画像取得部201は、RAW画像を現像するための画像現像処理部、RGB画像をYUVフォーマットに変換する画像変換部、あるいは符号化ストリームを復号する画像復号部を含んでもよい。また、上述の画像現像処理部、画像変換部、あるいは画像復号部は、画像取得部201と独立して画像処理装置200に備えられてもよい。画像取得部201は、複数の撮像装置のそれぞれから取得された、画像を含む画像データ201Dを、時刻情報取得部202および画像セット生成部203へ出力する。
時刻情報取得部202は、画像取得部201から出力された画像データ201Dから、撮像された時刻、つまり画像の撮像時刻を示す時刻情報202Dを取得する。時刻情報202Dは、露光時間よりも細かい時間精度(または、高い時間精度)の撮像時刻を示し、撮像装置のそれぞれ毎に設定された情報である。例えば、撮像装置は、フレームレート30fps(frame per second)の動画像を得るときには、約33ミリ秒の周期で撮像を行う。その撮像において露光時間を10ミリ秒とする。この場合、時刻情報202Dは、13時41分08秒243ミリ秒というように、10ミリ秒より小さい1ミリ秒精度で撮像時刻を示す。なお、撮像時刻は、露光時間の終点つまりシャッタが閉じた時点でもよいし、露光時間の始点つまりシャッタが開いた時点でもよい。以下では、説明のため、撮像時刻は露光時間の終点とする。
この撮像時刻(または時刻情報202D)は、画像データ201Dに付加されている。具体的には、撮像時刻は、画像ファイルのヘッダ部に付加されていてもよいし、画像データ201Dをトランスポートストリームとしてパケット化して伝送する際の各パケットの先頭に保持されていてもよい。あるいは、撮像時刻は、RTP(Real-time Transport Protocol)パケットに保持されていてもよい。または、撮像時刻は、符号化ストリームのUser data unregistered SEIなどに保持されていてもよい。時刻情報取得部202は、画像ファイルのヘッダ部、トランスポートストリームのパケット、あるいは、復号されたUser data unregistered SEIなどから、時刻情報202Dを取得し、画像セット生成部203へ出力する。なお、上記のように、撮像時刻は、撮像装置から出力された情報であってもよいし、画像処理装置200が画像を受信した時刻に基づいて、時刻合わせまたは調整が行われた時刻であっても良い。
なお、動画像の場合、動画像データである画像データ201Dより取得される時刻情報202Dは、その動画像データに含まれる1フレーム目の撮像開始時刻のみを示してもよいし、フレーム毎の撮像時刻を示してもよい。時刻情報202Dが1フレーム目の撮像開始時刻のみを示す場合、時刻情報取得部202は、さらに、動画像のフレームレートを取得し、1フレーム目に後続する各フレームの撮像時刻を算出する。具体的には、時刻情報取得部202は、T(N)=Clip(T(1)+(1/F)×(N-1))によって、フレームレートから算出された撮像周期の整数倍の時間を、1フレーム目の撮像開始時刻に加算する。
ここで、Nは動画像内のフレーム番号、T(1)は1フレーム目の撮像開始時刻、T(N)はNフレーム目の撮像開始時刻、Fは動画像のフレームレート、Clip()は、必要な時間精度で時刻をクリップ処理する関数である。
画像セット生成部203は、取得した画像データ201Dおよび時刻情報202Dを用いて、撮像時刻が同期した複数の画像からなる集合を、1つの画像セット203Dとして生成し、三次元情報算出部204へ出力する。つまり、画像セット生成部203は、取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セット203Dを生成する。撮像時刻が互いに略一致する複数の画像では、その複数の画像のそれぞれの撮像のための露光時間が部分的にまたは全体的に重複している。また、その露光時間は例えば10ミリ秒である。
三次元情報算出部204は、取得した画像セット203Dを用いて、三次元情報を算出し、出力する。三次元情報の算出方法の一例として、三次元情報算出部204は、SfMなどを用いて、撮像装置の姿勢または被写体の三次元モデルを同時に復元する。本来、SfMでは、ある静止したオブジェクトなどの静止シーンを1台の撮像装置の視点を変えながら撮像することによって得られた複数の時系列画像から、三次元再構成を行う。しかし、本実施の形態では、複数の撮像装置のそれぞれの撮像によって得られた、被写体の撮像時刻が同期した複数の画像から、SfMなどを用いることによって、ある時刻(時間範囲)における三次元再構成を行うことが可能になる。
図3は、本実施の形態における画像処理方法の一例を示すフローチャートである。
ステップS301では、画像取得部201は、外部の複数の撮像装置のそれぞれから画像データ201Dを取得し、時刻情報取得部202および画像セット生成部203へ出力する。例えば、画像データ201Dは動画像を含む。
ステップS302では、時刻情報取得部202は、複数の画像データ201Dのそれぞれに含まれる時刻情報202Dを取得し、画像セット生成部203へ出力する。
ステップS303では、画像セット生成部203は、複数の画像データ201Dおよび複数の時刻情報202Dを用いて、同時刻の被写体が写っている複数の画像からなる画像セット203Dを生成し、三次元情報算出部204へ出力する。同時刻とは、例えば、それぞれの画像を得るための露光時間が、所定の時間範囲において、部分的または全体的に重複していることである。
ステップS304では、三次元情報算出部204は、画像セット生成部203が生成した画像セット203Dを用いて被写体の三次元情報を計算し、出力する。
ステップS303の処理について以下、図4を用いて詳細に説明する。
図4は、N台の撮像装置の撮像によって得られたN本の動画像から、撮像時刻が互いに略一致する少なくとも2本以上の動画像を選択する例を示す図である。つまり、この図4は、同期撮像によって得られた複数の動画像を選択する方法の一例を示す。なお、選択される動画像の最大数は、N本でもよいし、三次元情報算出部204に要求された数でもよいし、任意に設定された数でもよい。
画像セット生成部203は、撮像装置の露光時間をTミリ秒として、時刻W時X分Y秒Zミリ秒から時刻W時X分Y秒(Z+T)ミリ秒までの間に、露光が行われた2以上の動画像を、撮像時刻が互いに略一致する少なくとも2本以上の動画像として選択する。つまり、これらの2以上の動画像は同期していると判定され、画像セット203Dに含められる。また、このような時刻W時X分Y秒Zミリ秒から時刻W時X分Y秒(Z+T)ミリ秒までの時間帯を同期撮像時間帯とする。
図4に示すように、同期撮像時間帯は、例えば、複数の撮像装置から選択されたある基準撮像装置の露光時間である動画像1の露光時間とする。なお、同期撮像時間帯は、基準撮像装置のフレームレートに応じた周期で存在する。この場合、画像セット生成部203は、動画像1と、動画像1を出力する基準撮像装置の露光時間と部分的または全体的に重複する露光時間の撮像によって得られた動画像2、3、5・・・とを、選択する。これらの動画像1、2、3、5・・・のうち、ある同期撮像時間帯の撮像により得られたM枚の画像は、画像セット203Dにおけるある時間帯(同期撮像時間帯)の画像群である。なお、M枚は、N枚の内、重複する露光時間の撮像によって得られる動画像の総数を示す。画像セット生成部203は、上述のような選択を各時間帯で行うことにより、時間帯(同期撮像時間帯)ごとに画像群を有する時系列データで構成される画像セット203Dを生成する。三次元情報算出部204は、この画像セット203Dを用いることで三次元再構成を行うことが可能になる。
ここで、画像セット生成部203は、基準撮像装置を選択する場合、解像度、動きボケの少なさ、または符号化歪みの少なさといった画質を指標として選択してもよいし、ランダムに選択してもよい。また、基準撮像装置として固定カメラを使用してもよい。
なお、同期撮像時間帯は、複数の撮像装置の露光時間の平均の時間幅を持つ任意の時間帯であってもよい。図4を例にすると、最も早い時刻に露光時間が始まる動画像4を出力する撮像装置の露光時間と、最も遅い時刻に露光時間が始まる動画像5を出力する撮像装置の露光時間との平均時間が同期撮像時間帯に設定される。この場合は、より多くの撮像装置からの画像が1つの画像セットに含められることが可能になるため、より精度の高い三次元モデルを復元することができる可能性が高い。もちろん、撮像装置における撮像時刻があまりにもバラバラの場合には、適切ではない同期撮像時間帯が設定される場合もある。このため、画像セット生成部203は、撮像時刻または露光時間の差分の大小などに応じて、上述のような同期撮像時間帯の設定方法を用いるか否かを判断してもよい。
なお、同期撮像時間帯の時間幅は、撮像装置の露光時間に限らず、三次元情報の算出の精度を保持するのに必要な時間幅であってもよい。例えば、画像セット生成部203は、基準撮像装置の露光時間を同期撮像時間帯として用いて画像セット203Dを生成する。そして、画像セット生成部203は、生成された画像セット203Dに基づいて三次元再構成が行われた際に、画像が少なすぎて三次元モデルの精度が所定値以下であるか否かを判定する。その精度が所定値以下であると判定すると、画像セット生成部203は、同期撮像時間帯の前後に数ミリ秒増やした時間帯を新たな同期撮像時間帯として用い、改めて画像セット203Dを生成してもよい。逆に、画像セット生成部203は、露光時間が長すぎて画像セット203D内に含まれる画像同士の相関が低くなると判断すると、同期撮像時間帯の前後を数ミリ秒減らした時間帯を、新たな同期撮像時間帯に設定してもよい。
図4の例では、動画像1、動画像2、動画像3、および動画像5・・・が画像セット203Dに含められる。つまり、動画像1、動画像2、動画像3、および動画像5は、同期していると判定され、言い換えれば、同期撮像によって得られた画像と判定され、動画像4は同期していない(非同期)と判定される。
なお、画像セット203Dは、上記で、時間帯(同期撮像時間帯)ごとに画像群を有する時系列データで構成されていると説明した。しかし、画像セット203Dは、ある同期撮像時間帯において、各動画像から抜き出されたフレームの集合であってもよい。つまり、画像セット203Dを、ある時刻に限定して捉えれば、このようにほぼ同時刻の撮像により得られた複数画像の集まりと見ることができる。一方、画像セット203Dを、時間幅を有するデータとして捉えれば、動画像の集合として見ることができる。つまり、その動画像の集合は、各時刻(同期撮像時間帯)において、ほぼ同時刻に撮像された複数画像を有する。
なお、画像セット203Dを動画像の集合とする場合、画像セット生成部203は、まず、同期撮像時間帯に基づいて、複数の動画像からなる画像セット候補を生成する。次に、画像セット生成部203は、画像セット候補の中から、符号化ストリームにおけるGOP(Group Of Pictures)構造が一致している複数の動画像を選択し、その選択された複数の動画像からなる画像セット203Dを生成してもよい。また、画像セット生成部203は、上述の手順とは逆に画像セット203Dを生成してもよい。例えば、画像セット生成部203は、各撮像装置の動画像から、GOP構造がIPBBの動画像を除き、IPPPの複数の動画像のみを選択し、そのIPPPの複数の動画像からなる画像セット候補を生成する。次に、画像セット生成部203は、画像セット候補の中から、同期撮像時間帯に基づいて動画像を選択することによって、画像セット203Dを生成する。
なお、画像セット203Dをフレーム(静止画)の集合とする場合、画像セット生成部203は、まず、同期撮像時間帯に基づいて、複数のフレームからなる画像セット候補を生成する。次に、画像セット生成部203は、画像セット候補の中から、符号化ストリームにおけるピクチャタイプが一致している複数のフレームを選択し、その選択された複数のフレームからなる画像セット203Dを生成してもよい。なお、ピクチャタイプは、例えば、Iピクチャ、PピクチャまたはBピクチャなどである。例えば、画像セット生成部203は、画像セット候補の中からPピクチャおよびBピクチャを除き、複数のIピクチャのみを選択し、その複数のIピクチャからなる画像セット203Dを生成する。また、画像セット生成部203は、上述の手順とは逆に画像セット203Dを生成してもよい。具体的には、画像セット生成部203は、まず、ピクチャタイプが一致する複数のフレームからなる画像セット候補を生成する。次に、画像セット生成部203は、画像セット候補の中から、同期撮像時間帯に基づいて、複数のフレームを選択し、その選択された複数のフレームからなる画像セット203Dを生成する。
なお、画像セット生成部203は、画像処理装置200が撮像装置から動画像を取得した時刻に基づいて、画像セット203Dに含まれる動画像を選択してもよい。具体的には、画像セット生成部203は、画像処理装置200が撮像装置から動画像Xを取得した時刻、つまり撮像装置より伝送された動画像Xが画像処理装置200に到着した時刻と、時刻情報202Dによって示される時刻とを比較する。画像セット生成部203は、それらの時刻の時間差が、任意に設定された時間差以上である場合は、時刻情報202Dの信頼性が低いと判断し、時刻情報202Dに対応する動画像Xを画像セット203Dの選択から除外する。
これにより、複数の撮像装置より取得した複数の動画像から、被写体を撮像した時刻が一致した複数の動画像あるいはフレームからなる画像セットが生成される。したがって、この画像セットを用いて三次元情報を算出することにより、撮像装置の姿勢または被写体の三次元モデルを高精度に復元することができる。
このように本実施の形態では、複数の撮像装置1~Nのそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、取得された複数の画像のそれぞれの撮像時刻を取得する。さらに、取得されたその複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セット203Dを生成する。また、本実施の形態では、さらに、その画像セット203Dに含まれる複数の画像に基づいて、その複数の画像のそれぞれに対応する撮像装置および被写体のうちの少なくとも一方の状態を三次元的に示す三次元情報を算出する。具体的には、この三次元情報は、画像セット203Dに含まれる複数の画像のそれぞれに対応する撮像装置の位置および姿勢のうちの少なくとも一方を示す。または、三次元情報は、画像セット203Dに含まれる複数の画像のそれぞれに対応する被写体の位置および形状のうちの少なくとも一方を示す。
これにより、画像セット203Dには、撮像時刻が互いに略一致する複数の画像が含まれるため、この画像セット203Dを用いれば、高精度の三次元モデルを容易に復元することができる。
また、本実施の形態では、画像セット生成部203は、図4に示すように、取得された複数の画像のうちの1つである基準画像(動画像1)と、基準画像の撮像のための露光と重複したタイミングの露光による撮像によって得られた画像である少なくとも1つの露光重複画像(動画像2、3および5)とを、撮像時刻が互いに略一致する複数の画像として選択する。
これにより、画像セット203Dには、基準画像と、その基準画像と露光のタイミングが一致する少なくとも1つの露光重複画像とが含まれる。つまり、同一時刻の被写体が映し出された複数の画像が画像セット203Dに含まれる。したがって、この画像セット203Dを用いれば、より高精度の三次元モデルを容易に復元することができる。
また、本実施の形態では、時刻情報取得部202は、取得された複数の画像のうちの何れの露光時間よりも高い時間精度で示される各画像の撮像時刻を取得する。これにより、より高精度の三次元モデルを容易に復元することができる。
また、本実施の形態では、画像取得部201は、複数の撮像装置1~Nのそれぞれから、当該撮像装置による撮像によって得られた画像を含む画像信号(つまり画像データ201D)を取得する。そして、画像セット生成部203は、取得された複数の画像信号から、撮像時刻が互いに略一致する複数の画像のそれぞれを含む複数の画像信号を選択することにより、選択された複数の画像信号からなる画像セット203Dを生成する。具体的には、上述の画像信号は、複数の画像(例えば複数のピクチャまたはフレーム)と、その複数の画像のそれぞれの撮像時刻を取得するための時刻情報202Dとを含む動画像データである。時刻情報取得部202は、画像信号、つまり動画像データごとに、当該画像信号に含まれる時刻情報202Dに基づいて、その画像信号に含まれる複数の画像のそれぞれの撮像時刻を取得する。
これにより、動画像データに含まれる複数の画像(例えば複数のピクチャまたはフレーム)のそれぞれの撮像時刻を、その動画像データに含まれる時刻情報に基づいて容易に取得することができる。なお、時刻情報は、例えば、動画像データに含まれる先頭の画像の撮像時刻およびフレームレートを示していてもよく、動画像データに含まれる複数の画像のそれぞれの撮像時刻を示していてもよい。
また、上述の画像信号は、画像と、その画像の撮像時刻を取得するための時刻情報とを含む画像データ201Dであってもよい。つまり、この場合には、画像は静止画像またはフレームであり、画像データ201Dは静止画像データである。この場合にも、時刻情報取得部202は、画像信号ごとに、その画像信号に含まれる時刻情報に基づいて、その画像信号に含まれる画像の撮像時刻を取得する。これにより、画像データ201Dに含まれる例えば静止画像の撮像時刻を、その画像データ201Dに含まれる時刻情報に基づいて容易に取得することができる。
(変形例1)
ここで、同期撮像により得られた画像(動画像あるいはフレーム)のみを選択すると、画像セット203D内に含まれる画像の数が少なくなり、三次元情報の算出に必要とされる画像、つまり入力データ量が不足する場合がある。
ここで、同期撮像により得られた画像(動画像あるいはフレーム)のみを選択すると、画像セット203D内に含まれる画像の数が少なくなり、三次元情報の算出に必要とされる画像、つまり入力データ量が不足する場合がある。
そこで、本変形例では、新たな画像を、同期撮像により得られた画像として生成する。
図5Aは、図4で非同期と判定された動画像4に含まれる、同期撮像時間帯の前後の撮像時刻の画像の一例を示す図である。
2枚のフレーム(画像)のうちの1枚のフレームの撮像時刻は、同期撮像時間帯の前であって、時刻W時X分Y秒(Z-α)ミリ秒(Z-α<Z)である。一方、2枚のフレームのうちの残りのフレームの撮像時刻は、同期撮像時間帯の後であって、時刻W時X分Y秒(Z+T+β)ミリ秒(Z+T+β>Z+T)である。したがって、上述の同期撮像時間帯に基づく選択では、これらの2枚のフレームは画像セット203Dには含まれない。ただし、それらのフレーム内における物体Aの位置、大きさおよび形状などは同一であるため、物体Aは、2枚のフレームのそれぞれの撮像時刻の間は静止している。つまり、仮に、同期撮像時間帯において撮像が行われた場合には、その撮像によって得られるフレームにも、上記2枚のフレームに写っている物体Aと同じ位置、大きさおよび形状で、物体Aが写っていると推定できる。
図5Bは、2枚のフレーム間において静止している被写体の領域を示す図である。
画像セット生成部203は、例えば図5Bに示すように、図5Aの2枚のフレームのうちの一方から、静止している被写体が写っている領域(以下、同期撮像領域または静止領域という)を特定し、その領域の画像を、上述の同期撮像時間帯における撮像によって得られた静止画像として生成する。そして、画像セット生成部203は、画像取得部201によって取得された複数の画像と、その生成された静止画像とから、画像セット203Dを生成する。
具体的には、画像セット生成部203は、N台の撮像装置から取得されたN本の動画像のそれぞれから静止領域(同期撮像領域)を特定し、その静止領域における被写体が同期撮像時間帯でも静止しているか否かを判定する。そして、画像セット生成部203は、静止していると判定された静止領域の画像(静止画像)を抽出して画像セット203Dに含める。
なお、画像セット生成部203は、完全に静止している被写体が写っている領域を静止領域として特定してもよいし、許容範囲内の動き量で動いている被写体が写っている領域を静止領域として特定してもよい。ここでの許容範囲内の動き量とは、任意に指定された動き量でもよいし、三次元情報算出部204が指定した動き量でもよい。さらに、動き量には、画像取得部201が符号化ストリームを復号して取得した動きベクトルを使用してもよい。
なお、同期撮像により得られた複数の画像のみからなる画像セット203Dに対し、非同期の動画像における静止画像を追加してもよい。
具体的な方法としては、画像セット生成部203は、N台の撮像装置から取得されたN本の動画像から、同期撮像時間帯に撮像が行われたK本の動画像を選択し、画像セット203Dに含める。そして、画像セット生成部203は、残りの(N-K)本の動画像のそれぞれにおいて、その動画像に含まれる複数のフレームから所定のフレームを特定する。この所定のフレームは、同期撮像時間帯から撮像周期以内の近い時刻を撮像時刻とするフレームである。次に、画像セット生成部203は、その所定のフレームから静止領域を特定し、その静止領域における被写体が同期撮像時間帯でも静止しているか否かを判定する。そして、画像セット生成部203は、その静止領域における被写体が同期撮像時間帯でも静止していると判定すると、その静止領域の画像を静止画像として画像セット203Dに追加する。
これにより、同期撮像により得られた画像が少なくても、非同期の動画像から、画質が視認されやすい静止領域あるいは動き量が少ない領域の画像を抽出し、三次元情報の算出に利用することができる。したがって、同期ずれを原因とする三次元情報算出での情報量の不足を改善することができる。
このように本変形例では、画像セット生成部203は、さらに、複数の撮像装置のうちの何れかである処理対象装置から取得された画像である元画像から、当該元画像の撮像時刻と異なる時刻において静止していると推定される被写体が写っている領域の画像を、処理対象装置から取得された、その時刻を撮像時刻とする静止画像として生成する。そして、画像セット生成部203は、生成された静止画像を含む、複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択する。
これにより、撮像装置から実際に取得された画像だけでなく、生成された静止画像も選択することができ、その結果、画像セット203Dに含まれる、撮像時刻が互いに略一致する画像の数を増やすことできる。したがって、複数の撮像装置のそれぞれから実際に取得された、撮像時刻が互いに略一致する画像の数が少なくても、この画像セット203Dを用いれば、高精度の三次元モデルを容易に復元することができる。
また、本変形例では、画像セット生成部203は、元画像の撮像時刻の前および後のうちの少なくとも一方において、処理対象装置による撮像によって得られた少なくとも1つの画像と、その元画像とを比較することによって、元画像から上述の領域(つまり同期撮像領域または静止領域)を特定する。このとき、画像セット生成部203は、元画像を構成する処理単位ごとに、当該処理単位がその領域に該当するか否かを判定することによって、その領域を特定する。ここで、その処理単位は、ブロック、元画像に写っているオブジェクト、または、そのオブジェクトが分割されることによって示されるサブオブジェクトである。
これにより、適切な静止画像を生成することができる。したがって、この静止画像を含む画像セット203Dを用いれば、より高精度の三次元モデルを容易に復元することができる。
(変形例2)
ここで、撮像装置の台数の問題などにより、動画像または画像の選択、あるいは静止画像の抽出では、三次元情報の算出において入力データ量が不足する場合がある。
ここで、撮像装置の台数の問題などにより、動画像または画像の選択、あるいは静止画像の抽出では、三次元情報の算出において入力データ量が不足する場合がある。
そこで、本変形例では、各動画像でフレーム補間を行うことによって、新たな画像(補間フレーム)を生成し、その新たな画像を画像セット203Dに含める。
具体的な方法としては、画像セット生成部203は、N台の撮像装置から取得されたN本の動画像から、同期撮像時間帯に撮像が行われたK本の動画像を選択し、画像セット203Dに含める。そして、画像セット生成部203は、残りの(N-K)本の動画像のそれぞれにおいてフレーム補間を行うことによって、同期撮像時間帯における新たなフレームを補間フレームとして生成し、画像セット203Dに追加する。
なお、フレーム補間を行う際には、同期撮像時間帯の前後のフレーム間では、被写体は等速運動を行っていると仮定して、動き量を線形補間してもよい。
具体的な方法について、図6および図7を用いて説明する。
図6は、動画像Mにおける補間フレームの時刻と、補間に使用されるフレームの時刻とを示す図である。説明のため、補間フレームの時刻Tcは、同期撮像時間帯の中心とされているが、同期撮像時間帯の任意の時刻でもよい。また、同期撮像時間帯の前後にある撮像時刻TaおよびTbのそれぞれのフレームが補間に使用される。
図7は、時刻Ta、Tb、Tcの各フレームおよび動物体の動きベクトルを示す図である。なお、図7では、各フレームに写っている物体Aを静止物体とし、物体Bを動物体とする。
まず、画像セット生成部203は、動画像Mに含まれるフレームF(Ta)とフレームF(Tb)より、フレームF(Tb)における物体Bの動きベクトルMV(Tb)を算出する。フレームF(Ta)は、時刻Taを撮像時刻とするフレームであり、フレームF(Tb)は、時刻Tbを撮像時刻とするフレームである。
なお、画像セット生成部203は、フレームF(Tb)を複数のブロックに分割し、ブロック毎に動きベクトルを算出してもよい。また、画像セット生成部203は、フレームF(Tb)内でオブジェクト抽出を行い、抽出されたオブジェクト毎に動きベクトルを算出してもよい。また、画像セット生成部203は、上記ブロックをさらに細かなサブブロックに分割し、サブブロックごとに動きベクトルを算出してもよい。また、画像セット生成部203は、上記オブジェクトをさらに細かな複数のサブオブジェクトに分割し、サブオブジェクトごとに動きベクトルを算出してもよい。
なお、ここでは、物体Bのような動領域(つまり、動いているオブジェクトが写っている領域)のみに対して動きベクトルを算出したが、領域の動きに関わらずフレーム全体に対して動きベクトルを算出してもよい。
なお、画像セット生成部203は、動画像Mが符号化ストリームとして画像処理装置200へ入力された場合には、復号時に得られるブロック単位の動きベクトルを、物体Bの動きベクトルとして使用してもよい。
次に、フレームF(Ta)とフレームF(Tb)との間において、動物体は等速運動していると仮定される。したがって、画像セット生成部203は、フレームF(Tc)における物体Bの動きベクトルMV(Tc)を、下記の(式1)に基づいて算出する。フレームF(Tc)は、時刻Tcを撮像時刻として想定される補間フレームである。
次に、画像セット生成部203は、この動きベクトルとフレームF(Ta)に基づき、動き補償を行うことによって、フレームF(Tc)を生成する。なお、画像セット生成部203は、動き補償を上述のブロック単位で行ってもよいし、オブジェクト単位で行ってもよい。
ここで、フレーム補間を行う際には、同期撮像時間帯の前後のフレーム間では、被写体は等加速度運動を行っていると仮定して、動き量を補間してもよい。
具体的な方法について、図8および図9を用いて説明する。
図8は、動画像Mにおける補間フレームの時刻と、補間に使用されるフレームの時刻とを示す図である。説明のため、補間フレームの時刻Tcは、同期撮像時間帯の中心とされているが、同期撮像時間帯の任意の時刻でもよい。また、同期撮像時間帯の前後にある撮像時刻Ta、Tb、およびTdのそれぞれのフレームが補間に使用される。
なお、撮像時刻Tdは、撮像時刻Taの1フレーム前の撮像時刻であるが、撮像時刻Tbの1フレーム後の撮像時刻でもよい。あるいは、撮像時刻Tdは、撮像時刻Taの複数フレーム前の撮像時刻、または撮像時刻Tbの複数フレーム後の撮像時刻でもよい。
図9は、時刻Ta、Tb、Tc、Tdの各フレームおよび動物体の動きベクトルを示す図である。なお、図9では、各フレームに写っている物体Aを静止物体とし、物体Bを動物体とする。
まず、画像セット生成部203は、動画像Mに含まれるフレームF(Td)とフレームF(Ta)より、フレーム(Ta)における物体Bの動きベクトルMV(Ta)を算出する。なお。フレームF(Td)は、時刻Tdを撮像時刻とするフレームである。さらに、画像セット生成部203は、フレームF(Ta)とフレームF(Tb)より、フレームF(Tb)における物体Bの動きベクトルMV(Tb)を算出する。なお、画像セット生成部203は、上述の等速運動の場合と同様の処理単位(例えばブロックなど)ごとに動きベクトルを算出してもよい。
画像セット生成部203は、この2つの動きベクトルMV(Ta)とMV(Tb)との差分をとることにより、フレーム(Ta)からフレーム(Tb)間の物体Bの加速度を近似的に求める。ここで、フレームF(Ta)とフレームF(Tb)との間において、動物体は等加速度運動していると仮定される。したがって、画像セット生成部203は、フレームF(Tc)における物体Bの動きベクトルMV(Tc)を、下記の(式2)に基づいて算出する。
次に、画像セット生成部203は、この動きベクトルとフレームF(Ta)に基づき、動き補償を行うことによって、フレームF(Tc)を補間フレームとして生成する。なお、画像セット生成部203は、動き補償を、上述の等速運動の場合と同様の処理単位(ブロックなど)で行ってもよい。
なお、ここでは、フレームF(Ta)を基準にした動きベクトルを算出する例を示したが、フレームF(Td)を基準とし、動き補償にもフレームF(Td)を使用してもよい。
このように本変形例では、画像セット生成部203は、さらに、複数の撮像装置1~Nのうちの何れかである処理対象装置から取得された複数の画像である複数の参照画像(例えば、フレームF(Ta)またはF(Tb))に対して補間を行うことより、その複数の参照画像のそれぞれの撮像時刻と異なる時刻(例えば時刻Tc)を撮像時刻とする補間画像(例えば、補間フレームF(Tc))を、その処理対象装置から取得された画像として生成する。そして、画像セット生成部203は、生成されたその補間画像を含む、複数の撮像装置1~Nから取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択する。ここで、画像セット生成部203は、等速運動モデルまたは等加速度運動モデルに基づいて補間画像を生成する。
これにより、撮像装置から実際に取得された画像だけでなく、生成された補間画像も選択することができ、その結果、画像セット203Dに含まれる、撮像時刻が互いに略一致する画像の数を増やすことできる。したがって、複数の撮像装置のそれぞれから実際に取得された、撮像時刻が互いに略一致する画像の数が少なくても、この画像セット203Dを用いれば、高精度の三次元モデルを容易に復元することができる。
つまり、被写体を撮像した時刻が一致した十分な数の画像を含む画像セット203Dを用いて三次元情報を算出することにより、撮像装置の姿勢または被写体の三次元モデルといった三次元情報の精度を向上することができる。
また、本変形例では、画像セット生成部203は、複数の参照画像のそれぞれを構成する処理単位ごとに補間を行う。その処理単位は、ブロック、複数の参照画像のそれぞれに写っているオブジェクト、または、そのオブジェクトが分割されることによって示されるサブオブジェクトである。
これにより、適切な補間画像を生成することができる。したがって、この補間画像を含む画像セットを用いれば、より高精度の三次元モデルを容易に復元することができる。
以上、本発明の一態様に係る画像処理方法について、上記実施の形態およびその変形例に基づいて説明したが、本発明は、この実施の形態およびその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態または変形例に施したものや、実施の形態および各変形例における構成要素を組み合わせて構築される形態も本発明に含まれてもよい。例えば、図10Aおよび図10Bに示す方法およびシステムも本発明に含まれる。
図10Aは、本発明の一態様に係る画像処理方法を示すフローチャートである。
この画像処理方法は、複数の画像に対して処理を行う画像処理方法であって、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得するステップS11と、取得された複数の画像のそれぞれの撮像時刻を取得するステップS12と、取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成するステップS13とを含む。
図10Bは、本発明の一態様に係る画像処理システムの構成を示すブロック図である。
この画像処理システム10は、処理回路11と、処理回路11に接続される記憶装置12とを備える。処理回路11は、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得して記憶装置12に格納し、取得された複数の画像のそれぞれの撮像時刻を取得し、記憶装置12に格納されている複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する。
このように、図10Aおよび図10Bに示す画像処理方法または画像処理システム10であっても、上記実施の形態およびその変形例と同様の作用効果を奏することができる。つまり、画像セットには、撮像時刻が互いに略一致する複数の画像が含まれるため、この画像セットを用いれば、高精度の三次元モデルを容易に復元することができる。また、図2に示す三次元情報算出部204は本発明において必須の構成要素ではない。
また、上記実施の形態または各変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態および各変形例の画像処理装置または画像処理システムなどを実現するソフトウェアは、図10Aの各ステップをコンピュータに実行させるプログラムである。
なお、以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
(実施の形態2)
上記各実施の形態で示した画像処理方法及び装置の構成の他の応用例とそれを用いたシステムを説明する。当該システムは、インテリジェント化と対象空間の広域化とが進む映像システムに適用でき、例えば、(1)店舗或いは工場のセキュリティカメラ、又は警察の車載カメラなどに実装される監視システム、(2)個人所有のカメラ或いは各車載カメラ、又は道路に備えられたカメラなどを用いた交通情報システム、(3)ドローンなど遠隔操作又は自動制御可能な装置を用いた環境調査又は配送システム、及び(4)エンターテイメント施設又はスタジアム等における設置カメラ、ドローン等の移動カメラ、又は個人所有のカメラなどを用いた映像などのコンテンツ送受信システムなどに適用できる。
上記各実施の形態で示した画像処理方法及び装置の構成の他の応用例とそれを用いたシステムを説明する。当該システムは、インテリジェント化と対象空間の広域化とが進む映像システムに適用でき、例えば、(1)店舗或いは工場のセキュリティカメラ、又は警察の車載カメラなどに実装される監視システム、(2)個人所有のカメラ或いは各車載カメラ、又は道路に備えられたカメラなどを用いた交通情報システム、(3)ドローンなど遠隔操作又は自動制御可能な装置を用いた環境調査又は配送システム、及び(4)エンターテイメント施設又はスタジアム等における設置カメラ、ドローン等の移動カメラ、又は個人所有のカメラなどを用いた映像などのコンテンツ送受信システムなどに適用できる。
図11は、本実施の形態における映像情報処理システムex100の構成を示す図である。本実施の形態においては、死角の発生を防止する例、及び特定の領域を撮影禁止にする例について説明する。
図11に示す映像情報処理システムex100は、映像情報処理装置ex101と、複数のカメラex102と、映像受信装置ex103とを含む。なお、映像受信装置ex103は、必ずしも映像情報処理システムex100に含まれる必要はない。
映像情報処理装置ex101は、保存部ex111と、解析部ex112とを備える。N個のカメラex102のそれぞれは、映像を撮影する機能と撮影した映像データを映像情報処理装置ex101に送信する機能とを有する。また、カメラex102は、撮影中の映像を表示する機能を有する場合もある。なお、カメラex102は、撮影された映像信号をHEVC又はH.264のような符号化方式を用いてエンコードしたうえで映像情報処理装置ex101に送信してよいし、エンコードされていない映像データを映像情報処理装置ex101に送信してもよい。
ここで、各カメラex102は、監視カメラ等の固定カメラ、無人飛行型ラジコンや車等に搭載された移動カメラ、又は、ユーザが所持するユーザカメラである。
移動カメラは、映像情報処理装置ex101から送信された指示信号を受信し、受信された指示信号に応じて、移動カメラ自体の位置又は撮影方向を変更する。
また、撮影開示前に複数のカメラex102の時刻が、サーバ又は基準カメラの時刻情報などを用いてキャリブレーションされる。また、複数のカメラex102の空間位置が、撮影対象となる空間のオブジェクトの写り方又は基準カメラからの相対位置に基づいてキャリブレーションされる。
情報処理装置ex101に含まれる保存部ex111は、N個のカメラex102から送信された映像データを保存する。
解析部ex112は、保存部ex111に保存された映像データから死角を検出し、死角の発生を防止するための移動カメラへの指示を示す指示信号を移動カメラへ送信する。移動カメラは指示信号に従って移動を行い、撮影を継続する。
解析部ex112は、例えば、SfM(Structure from Motion)を用いて死角検出を行う。SfMとは、異なる位置から撮影された複数の映像から被写体の三次元形状を復元する手法であり、被写体形状及びカメラ位置を同時に推定する形状復元技術として広く知られている。例えば、解析部ex112は、SfMを用いて、保存部ex111に保存された映像データから施設内又はスタジアム内の三次元形状を復元し、復元できない領域を死角として検出する。
なお、解析部ex112は、カメラex102の位置及び撮影方向が固定であり、位置及び撮影方向の情報が既知の場合は、これらの既知の情報を用いてSfMを行ってもよい。また、移動カメラの位置及び撮影方向が、移動カメラが備えるGPS及び角度センサ等により取得できる場合は、移動カメラは、当該移動カメラの位置及び撮影方向の情報を解析部ex112に送信し、解析部ex112は、送信された位置及び撮影方向の情報を用いてSfMを行ってもよい。
なお、死角検出の方法は上述したSfMを用いた方法に限られるものではない。例えば、解析部ex112は、レーザレンジファインダなどのデプスセンサの情報を用いることで、撮影対象であるオブジェクトの空間距離を把握してもよい。また、解析部ex112は、カメラ位置、撮影方向及びズーム倍率等の情報を、空間内の予め設定したマーカ又は特定のオブジェクトが画像に含まれるか、含まれる場合にはそのサイズ等から検出してもよい。このように、解析部ex112は、各カメラの撮影領域を検出できる任意の方法を用いて、死角の検出を行う。また、解析部ex112は、複数の撮影対象について互いの位置関係等の情報を映像データ又は近接距離センサ等から取得し、取得した位置関係に基づいて死角が発生する可能性の高い領域を特定してもよい。
ここで死角とは、撮影したい領域中で映像が存在しない部分だけでなく、他の部分と比較して画質の悪い部分、及び予め定められた画質を得られていない部分などを含む。この検出対象の部分は、当該システムの構成又は目的に応じて適宜設定されればよい。例えば、撮影される空間中の特定の被写体について、要求される画質が高く設定されてもよい。また、逆に撮影空間中の特定の領域について、要求される画質が低く設定されてもよいし、映像が撮影されていなくても死角と判定しないように設定されてもよい。
なお、上述した画質とは、映像中の撮影対象となる被写体が占める面積(例えばピクセル数)、又は撮影対象となる被写体にピントが合っているかといった映像に関する様々な情報を含むものであり、それらの情報又はその組み合わせを基準に死角であるか否かが判定されればよい。
なお、上記の説明では、実際に死角となっている領域の検出について説明したが、死角の発生を防止するために検出する必要のある領域は実際に死角となっている領域に限定されない。例えば、複数の撮影対象が存在し、少なくともその一部が移動している場合には、ある撮影対象とカメラとの間に別の撮影対象が入ることによって新たな死角が生じる可能性がある。これに対し、解析部ex112は、例えば撮影された映像データ等から複数の撮影対象の動きを検出し、検出された複数の撮影対象の動きとカメラex102の位置情報に基づいて、新たに死角となる可能性のある領域を推定してもよい。この場合、映像情報処理装置ex101は、死角となる可能性のある領域を撮影するように移動カメラに指示信号を送信し、死角の発生を防止してもよい。
なお、移動カメラが複数ある場合、映像情報処理装置ex101は、死角、又は死角となる可能性がある領域を撮影させるために指示信号を送信する移動カメラを選択する必要がある。また、移動カメラ及び死角、又は死角となる可能性がある領域がそれぞれ複数存在する場合、映像情報処理装置ex101は、複数の移動カメラのそれぞれについて、どの死角、又は死角となる可能性がある領域を撮影させるかを決定する必要がある。例えば、映像情報処理装置ex101は、死角、又は死角となる可能性のある領域と各移動カメラが撮影中の領域の位置とに基づいて、死角、又は死角となる領域に最も近い移動カメラを選択する。また、映像情報処理装置ex101は、各移動カメラについて、当該移動カメラが現在撮影中の映像データが得られない場合に新たに死角が発生するか否かを判定し、現在撮影中の映像データが得られなくても死角が発生しないと判断された移動カメラを選択してもよい。
以上の構成により、映像情報処理装置ex101は、死角を検出し、死角を防止するように移動カメラに対して指示信号を送信することにより、死角の発生を防止できる。
(変形例1)
なお、上記説明では、移動カメラに移動を指示する指示信号が送信される例を述べたが、指示信号は、ユーザカメラのユーザに移動を指示するための信号であってもよい。例えば、ユーザカメラは、指示信号に基づき、ユーザにカメラの方向を変更するように指示する指示画像を表示する。なお、ユーザカメラは、ユーザの移動の指示として、地図上に移動経路を示した指示画像を表示してもよい。また、ユーザカメラは、取得される画像の質を向上させるために撮影方向、角度、画角、画質、及び撮影領域の移動など詳細な撮影の指示を表示してもよく、さらに映像情報処理装置ex101側で制御可能であれば、映像情報処理装置ex101は、そのような撮影に関するカメラex102の特徴量を自動で制御してもよい。
なお、上記説明では、移動カメラに移動を指示する指示信号が送信される例を述べたが、指示信号は、ユーザカメラのユーザに移動を指示するための信号であってもよい。例えば、ユーザカメラは、指示信号に基づき、ユーザにカメラの方向を変更するように指示する指示画像を表示する。なお、ユーザカメラは、ユーザの移動の指示として、地図上に移動経路を示した指示画像を表示してもよい。また、ユーザカメラは、取得される画像の質を向上させるために撮影方向、角度、画角、画質、及び撮影領域の移動など詳細な撮影の指示を表示してもよく、さらに映像情報処理装置ex101側で制御可能であれば、映像情報処理装置ex101は、そのような撮影に関するカメラex102の特徴量を自動で制御してもよい。
ここで、ユーザカメラは、例えば、スタジアム内の観客又は施設内の警備員が持つスマートフォン、タブレット型端末、ウェアラブル端末、又はHMD(Head Mounted Display)である。
また、指示画像を表示する表示端末は、映像データを撮影するユーザカメラと同一である必要はない。例えば、ユーザカメラに予め対応付けられた表示端末に対して、ユーザカメラが指示信号又は指示画像を送信し、当該表示端末が指示画像を表示してもよい。また、ユーザカメラに対応する表示端末の情報が、予め映像情報処理装置ex101に登録されてもよい。この場合は、映像情報処理装置ex101は、ユーザカメラに対応する表示端末に対して指示信号を直接送信することで、表示端末に指示画像を表示させてもよい。
(変形例2)
解析部ex112は、例えばSfMを用いて、保存部ex111に保存された映像データから施設内又はスタジアム内の三次元形状を復元することで自由視点映像(三次元再構成データ)を生成してもよい。この自由視点映像は、保存部ex111に保存される。映像情報処理装置ex101は、映像受信装置ex103から送信される視野情報(及び/又は、視点情報)に応じた映像データを保存部ex111から読み出して、映像受信装置ex103に送信する。なお、映像受信装置ex103は、複数のカメラ111の一つであってもよい。
解析部ex112は、例えばSfMを用いて、保存部ex111に保存された映像データから施設内又はスタジアム内の三次元形状を復元することで自由視点映像(三次元再構成データ)を生成してもよい。この自由視点映像は、保存部ex111に保存される。映像情報処理装置ex101は、映像受信装置ex103から送信される視野情報(及び/又は、視点情報)に応じた映像データを保存部ex111から読み出して、映像受信装置ex103に送信する。なお、映像受信装置ex103は、複数のカメラ111の一つであってもよい。
(変形例3)
映像情報処理装置ex101は、撮影禁止領域を検出してもよい。この場合、解析部ex112は撮影画像を解析し、移動カメラが撮影禁止領域を撮影している場合には移動カメラに対して撮影禁止信号を送信する。移動カメラは撮影禁止信号を受信している間は撮影を停止する。
映像情報処理装置ex101は、撮影禁止領域を検出してもよい。この場合、解析部ex112は撮影画像を解析し、移動カメラが撮影禁止領域を撮影している場合には移動カメラに対して撮影禁止信号を送信する。移動カメラは撮影禁止信号を受信している間は撮影を停止する。
解析部ex112は、例えば、SfMを用いて復元された三次元の仮想空間と、撮影映像とのマッチングを取ることで、空間内で予め設定されている移動カメラが撮影禁止領域を撮影中かを判定する。または、解析部ex112は、空間内に配置されたマーカ又は特徴的なオブジェクトをトリガーとして移動カメラが撮影禁止領域を撮影中かを判定する。撮影禁止領域とは、例えば施設内又はスタジアム内のトイレなどである。
また、ユーザカメラが撮影禁止領域を撮影している場合には、ユーザカメラは、無線又は有線で接続されるディスプレイ等にメッセージを表示したり、スピーカ又はイヤホンから音又は音声を出力したりすることで、現在の場所が撮影禁止場所であることをユーザに知らせてもよい。
例えば、上記メッセージとして、現在カメラを向けている方向が撮影禁止である旨が表示される。または、表示される地図上に撮影禁止領域と現在の撮影領域とが示される。また、撮影の再開は、例えば、撮影禁止信号が出力されなくなれば自動的に行われる。または、撮影禁止信号が出力されておらず、かつ、ユーザが撮影再開を行う操作をした場合に、撮影が再開されてもよい。また、撮影の停止と再開とが短期間で複数回起こった場合には、再度キャリブレーションが行われてもよい。または、ユーザに現在位置を確認したり移動を促したりするための通知が行われてもよい。
また、警察など特別な業務の場合には、記録のためこのような機能をオフにするパスコード又は指紋認証などが用いられてもよい。さらに、そのような場合であっても撮影禁止領域の映像が外部に表示されたり保存される場合には自動でモザイクなど画像処理が行われてもよい。
以上の構成により、映像情報処理装置ex101は、撮影禁止の判定を行い、撮影を停止するようにユーザに通知することで、ある領域を撮影禁止に設定できる。
(変形例4)
映像から三次元の仮想空間を構築するためには、複数視点の映像を集める必要があるため、映像情報処理システムex100は、撮影映像を転送したユーザに対してインセンティブを設定する。例えば、映像情報処理装置ex101は、映像を転送したユーザに対し、無料又は割引料金で映像配信を行ったり、オンライン又はオフラインの店又はゲーム内で使用できるような金銭的な価値、又はゲームなどのバーチャル空間での社会的地位など非金銭的な価値のあるポイントを付与する。また、映像情報処理装置ex101は、リクエストが多いなど価値のある視野(及び/又は、視点)の撮影映像を転送したユーザに対しては特に高いポイントを付与する。
映像から三次元の仮想空間を構築するためには、複数視点の映像を集める必要があるため、映像情報処理システムex100は、撮影映像を転送したユーザに対してインセンティブを設定する。例えば、映像情報処理装置ex101は、映像を転送したユーザに対し、無料又は割引料金で映像配信を行ったり、オンライン又はオフラインの店又はゲーム内で使用できるような金銭的な価値、又はゲームなどのバーチャル空間での社会的地位など非金銭的な価値のあるポイントを付与する。また、映像情報処理装置ex101は、リクエストが多いなど価値のある視野(及び/又は、視点)の撮影映像を転送したユーザに対しては特に高いポイントを付与する。
(変形例5)
映像情報処理装置ex101は、解析部ex112の解析結果に基づき、ユーザカメラに対して付加情報を送信してもよい。この場合、ユーザカメラは撮影映像に付加情報を重畳して、画面に表示する。付加情報とは、例えば、スタジアムでの試合が撮影されている場合には、選手名又は身長などの選手の情報であり、映像内の各選手に対応付けて当該選手の名前又は顔写真などが表示される。なお、映像情報処理装置ex101は、映像データの一部又は全部の領域に基づきインターネット経由の検索により、付加情報を抽出してもよい。また、カメラex102は、Bluetooth(登録商標)をはじめとする近距離無線通信又は、スタジアム等の照明から可視光通信によりそのような付加情報を受け取り、受け取った付加情報を、映像データにマッピングしてもよい。また、カメラex102は、このマッピングを、カメラex102に有線又は無線により接続される記憶部に保持されるテーブルであって、可視光通信技術により得られる情報と付加情報との対応関係を示すテーブルなどの一定規則に基づいて行なってもよいし、インターネット検索により最も確からしい組み合わせの結果を用いて行なってもよい。
映像情報処理装置ex101は、解析部ex112の解析結果に基づき、ユーザカメラに対して付加情報を送信してもよい。この場合、ユーザカメラは撮影映像に付加情報を重畳して、画面に表示する。付加情報とは、例えば、スタジアムでの試合が撮影されている場合には、選手名又は身長などの選手の情報であり、映像内の各選手に対応付けて当該選手の名前又は顔写真などが表示される。なお、映像情報処理装置ex101は、映像データの一部又は全部の領域に基づきインターネット経由の検索により、付加情報を抽出してもよい。また、カメラex102は、Bluetooth(登録商標)をはじめとする近距離無線通信又は、スタジアム等の照明から可視光通信によりそのような付加情報を受け取り、受け取った付加情報を、映像データにマッピングしてもよい。また、カメラex102は、このマッピングを、カメラex102に有線又は無線により接続される記憶部に保持されるテーブルであって、可視光通信技術により得られる情報と付加情報との対応関係を示すテーブルなどの一定規則に基づいて行なってもよいし、インターネット検索により最も確からしい組み合わせの結果を用いて行なってもよい。
また、監視システムにおいては、施設内の警備員が持つユーザカメラに対して、例えば注意人物の情報が重畳されることで、監視システムの高精度化を図ることができる。
(変形例6)
解析部ex112は,自由視点映像とユーザカメラの撮影映像とのマッチングを取ることで、ユーザカメラが施設内又はスタジアム内のどの領域を撮影中かを判定してもよい。なお、撮影領域の判定方法はこれに限られず、上述した各実施の形態で説明した様々な撮影領域の判定方法又はその他の撮影領域の判定方法を用いられてもよい。
解析部ex112は,自由視点映像とユーザカメラの撮影映像とのマッチングを取ることで、ユーザカメラが施設内又はスタジアム内のどの領域を撮影中かを判定してもよい。なお、撮影領域の判定方法はこれに限られず、上述した各実施の形態で説明した様々な撮影領域の判定方法又はその他の撮影領域の判定方法を用いられてもよい。
映像情報処理装置ex101は、解析部ex112の解析結果に基づき、ユーザカメラに対して過去映像を送信する。ユーザカメラは撮影映像に過去映像を重畳して、又は撮影映像を過去映像に置換して、画面に表示する。
例えば、ハーフタイム中に、過去映像として前半のハイライトシーンが表示される。これにより、ユーザはハーフタイム中に、前半のハイライトシーンを自分が見ている方向の映像として楽しむことができる。なお過去映像は、前半のハイライトシーンに限らず、そのスタジアムで行われた過去の試合のハイライトシーンなどでもよい。また、映像情報処理装置ex101が過去映像を配信するタイミングはハーフタイム中に限らず、例えば試合終了後でも、試合中でもよい。特に試合中の場合には、解析部ex112の解析結果に基づき、映像情報処理装置ex101はユーザが見逃した重要と考えられるシーンを配信してもよい。また、映像情報処理装置ex101はユーザからリクエストがあった場合のみ過去映像を配信してもよく、又は過去映像の配信前に配信許可のメッセージを配信してもよい。
(変形例7)
映像情報処理装置ex101は、解析部ex112の解析結果に基づき、ユーザカメラに対して広告情報を送信してもよい。ユーザカメラは撮影映像に広告情報を重畳して、画面に表示する。
映像情報処理装置ex101は、解析部ex112の解析結果に基づき、ユーザカメラに対して広告情報を送信してもよい。ユーザカメラは撮影映像に広告情報を重畳して、画面に表示する。
広告情報は例えば変形例5で示した、ハーフタイム中又は試合終了後の過去映像配信直前に配信されてもよい。これにより、配信業者は広告主からの広告料を得ることができ、ユーザに安価又は無料で映像配信サービスを提供できる。また、映像情報処理装置ex101は、広告情報の配信直前に広告配信許可のメッセージを配信してもよいし、ユーザが広告を視聴した場合のみ無料でサービスを提供してもよいし、広告を視聴しない場合より安価にサービスを提供してもよい。
また、広告に従ってユーザが「今すぐ注文する」などをクリックすると、当該システム又は何らかの位置情報に基づいてユーザの位置を把握しているスタッフ又は会場の自動の配送システムが注文された飲み物を席まで届けてくれる。決裁はスタッフへの手渡しでもよいし、予めモバイル端末のアプリ等に設定されているクレジットカード情報に基づいて行われてもよい。また、広告にはeコマースサイトへのリンクが含まれ、通常の自宅配送等のオンラインショッピングが可能な状態になっていてもよい。
(変形例8)
映像受信装置ex103は、カメラex102(ユーザカメラ)の一つであってもよい。
映像受信装置ex103は、カメラex102(ユーザカメラ)の一つであってもよい。
この場合、解析部ex112は、自由視点映像とユーザカメラの撮影映像とのマッチングを取ることで、ユーザカメラが施設内又はスタジアム内のどの領域を撮影中かを判定する。なお、撮影領域の判定方法はこれに限らない。
例えば、ユーザが、画面に表示されている矢印の方向にスワイプ操作をすると、ユーザカメラはその方向へ視点を移動させることを示す視点情報を生成する。映像情報処理装置ex101は、解析部ex112が判定したユーザカメラの撮影領域から視点情報の分だけ移動させた領域を撮影した映像データを保存部ex111から読み出し、当該映像データのユーザカメラへの送信を開始する。そしてユーザカメラは撮影映像ではなく、映像情報処理装置ex101から配信された映像を表示する。
以上により、施設内又はスタジアム内のユーザは、画面スワイプのような簡易な動作で、好きな視点からの映像を視聴できる。例えば野球場の3塁側で観戦している観客が、1塁側の視点からの映像を視聴できる。また、監視システムにおいては、施設内の警備員が画面スワイプのような簡易な動作で、自身が確認したい視点又はセンターからの割り込みとして注視すべき映像などを、視点を適用的に変えながら視聴することができるので、監視システムの高精度化を図ることができる。
また、施設内又はスタジアム内のユーザへの映像の配信は、例えばユーザカメラと撮影対象との間に障害物が存在し、見えない領域がある場合等にも有効である。この場合、ユーザカメラは、ユーザカメラの撮影領域のうち障害物が含まれる一部の領域の映像を、撮影映像から、映像情報処理装置ex101からの配信映像に切り替えて表示してもよいし、画面全体を撮影映像から配信映像に切り替えて表示してもよい。また、ユーザカメラは、撮影映像と配信映像とを合成して障害物を透過して視聴対象が見えているような映像を表示してもよい。この構成によると、障害物の影響でユーザの位置から撮影対象が見えない場合にも、映像情報処理装置ex101から配信された映像を視聴することができるので、障害物の影響を軽減することができる。
また、障害物により見えない領域の映像として配信映像を表示する場合は、上述した画面スワイプのようなユーザによる入力処理に応じた表示の切り替え制御とは異なる表示の切り替え制御が行われてもよい。例えば、ユーザカメラの移動及び撮影方向の情報、並びに予め得られている障害物の位置情報に基づいて撮影領域に障害物が含まれると判定される場合に、撮影映像から配信映像への表示の切り替えが自動的に行われもよい。また、撮影映像データの解析により撮影対象ではない障害物が映っていると判定された場合に、撮影映像から配信映像への表示の切り替えが自動的に行われてもよい。また、撮影映像に含まれる障害物の面積(例えばピクセル数)が所定の閾値を超えた場合、又は撮影対象の面積に対する障害物の面積の比が所定の割合を超えた場合に、撮影映像から配信映像への表示の切り替えが自動的に行われてもよい。
なお、ユーザの入力処理に応じて撮影映像から配信映像への表示の切り替え及び配信映像から撮影映像への表示の切り替えが行われてもよい。
(変形例9)
各カメラex102で撮影された映像データの重要度に基づき映像データを映像情報処理装置ex101に転送する速度が指示されてもよい。
各カメラex102で撮影された映像データの重要度に基づき映像データを映像情報処理装置ex101に転送する速度が指示されてもよい。
この場合、解析部ex112は保存部ex111に保存された映像データ、又は当該映像データを撮影したカメラex102の重要度を判定する。ここでの重要度の判定は、例えば映像中に含まれる人の数或いは移動物体の数、映像データの画質などの情報、又はその組み合わせに基づいて行われる。
また、映像データの重要度の判定は、映像データが撮影されたカメラex102の位置又は映像データが撮影している領域に基づいてもよい。例えば、対象のカメラex102の近くに撮影中の他のカメラex102が複数存在する場合に、対象のカメラex102で撮影された映像データの重要度を低くする。また、対象のカメラex102の位置が他のカメラex102から離れていても同じ領域を撮影している他のカメラex102が複数存在する場合に、対象のカメラex102で撮影された映像データの重要度を低くする。また、映像データの重要度の判定は、映像配信サービスにおけるリクエストの多さに基づいて行われてもよい。なお、重要度の判定方法は、上述したものやその組み合わせに限られず、監視システム又は映像配信システムの構成又は目的に応じた方法であればよい。
また、重要度の判定は撮影された映像データに基づくものでなくてもよい。例えば、映像情報処理装置ex101以外の端末へ映像データを送信するカメラex102の重要度が高く設定されてもよい。逆に、映像情報処理装置ex101以外の端末へ映像データを送信するカメラex102の重要度が低く設定されてもよい。これにより、例えば、映像データの伝送を必要とする複数のサービスが通信帯域を共有している場合に、各サービスの目的又は特性に応じた通信帯域の制御の自由度が高くなる。これにより、必要な映像データが得られないことによる各サービスの品質の劣化を防止できる。
また、解析部ex112は、自由視点映像とカメラex102の撮影映像とを用いて、映像データの重要度を判定してもよい。
映像情報処理装置ex101は、解析部ex112で行われた重要度の判定結果に基づき、カメラex102に対して通信速度指示信号を送信する。映像情報処理装置ex101は、例えば、重要度が高い映像を撮影しているカメラex102に対して高い通信速度を指示する。また、映像情報処理装置ex101は、速度の制御だけではなく、重要な情報については、欠落によるデメリットを低減するために複数回送るような方式を指示する信号を送信してもよい。これにより、施設内又はスタジアム内全体の通信を効率的に行うことができる。なお、カメラex102と映像情報処理装置ex101との通信は、有線通信であっても無線通信であってもよい。また、映像情報処理装置ex101は、有線通信及び無線通信のいずれか一方のみを制御してもよい。
カメラex102は、通信速度指示信号に従った通信速度で、撮影映像データを映像情報処理装置ex101に送信する。なお、カメラex102は所定の回数再送が失敗した場合には、その撮影映像データの再送を停止し、次の撮影映像データの転送を開始してもよい。これにより、施設内又はスタジアム内全体の通信を効率的に行うことができ、解析部ex112における処理の高速化を実現できる。
また、カメラex102は、それぞれに割り当てられた通信速度が撮影した映像データを転送するために十分な帯域でない場合は、撮影した映像データを、割り当てられた通信速度で送信可能なビットレートの映像データに変換し、変換後の映像データを送信してもよし、映像データの転送を中止してもよい。
また、上述したように死角の発生を防止するために映像データが使用される場合、撮影された映像データに含まれる撮影領域のうちの一部の領域のみが死角を埋めるために必要である可能性がある。この場合、カメラex102は、少なくとも、映像データから、死角の発生を防止するために必要とされる領域のみを抽出することで抽出映像データを生成し、生成された抽出映像データを映像情報処理装置ex101に送信してもよい。この構成によると、死角の発生の抑制をより少ない通信帯域で実現できる。
また、例えば、付加情報の重畳表示又は映像配信が行われる場合には、カメラex102は、映像情報処理装置ex101にカメラex102の位置情報及び撮影方向の情報を送信する必要がある。この場合、映像データを転送するためには十分ではない帯域しか割り当てられなかったカメラex102は、カメラex102で検出された位置情報及び撮影方向の情報のみを送信してもよい。また、映像情報処理装置ex101においてカメラex102の位置情報及び撮影方向の情報を推定する場合は、カメラex102は、撮影した映像データを、位置情報及び撮影方向の情報の推定に必要な解像度に変換し、変換された映像データを映像情報処理装置ex101に送信してもよい。この構成によると、少ない通信帯域しか割り当てられなかったカメラex102に対しても、付加情報の重畳表示又は映像配信のサービスを提供できる。また、映像情報処理装置ex101は、より多くのカメラex102から撮影領域の情報を取得できるため、例えば注目されている領域を検出する等の目的で、撮影領域の情報を利用するような場合においても有効である。
なお、上述した割り当てられた通信帯域に応じた映像データの転送処理の切り替えは、通知された通信帯域に基づいてカメラex102が行ってもよいし、映像情報処理装置ex101が各カメラex102の動作を決定し、決定された動作を示す制御信号を各カメラex102に通知してもよい。これにより、動作の切り替えの判定に必要な計算量、カメラex102の処理能力、及び必要となる通信帯域等に応じて、適切に処理の分担を行える。
(変形例10)
解析部ex112は、映像受信装置ex103から送信された視野情報(及び/又は、視点情報)に基づき、映像データの重要度を判定してもよい。例えば、解析部ex112は、視野情報(及び/又は、視点情報)が示す領域を多く含む撮影映像データの重要度を高く設定する。また、解析部ex112は、映像中に含まれる人の数、又は移動物体の数を考慮して、映像データの重要度を判定してもよい。なお、重要度の判定方法はこれに限らない。
解析部ex112は、映像受信装置ex103から送信された視野情報(及び/又は、視点情報)に基づき、映像データの重要度を判定してもよい。例えば、解析部ex112は、視野情報(及び/又は、視点情報)が示す領域を多く含む撮影映像データの重要度を高く設定する。また、解析部ex112は、映像中に含まれる人の数、又は移動物体の数を考慮して、映像データの重要度を判定してもよい。なお、重要度の判定方法はこれに限らない。
なお、本実施の形態で説明した通信制御方法は、必ずしも複数の映像データから三次元形状の再構築を行うシステムにおいて用いられる必要はない。例えば複数のカメラex102が存在する環境において、映像データを選択的又は伝送速度に差をつけて有線通信及び/又は無線通信で送信する場合であれば、本実施の形態で説明した通信制御方法は有効である。
(変形例11)
映像配信システムにおいて、映像情報処理装置ex101は、撮影シーンの全体を示す概観映像を映像受信装置ex103に送信してもよい。
映像配信システムにおいて、映像情報処理装置ex101は、撮影シーンの全体を示す概観映像を映像受信装置ex103に送信してもよい。
具体的には、映像情報処理装置ex101は、映像受信装置ex103から送信された配信リクエストを受信した場合、保存部ex111から施設内又はスタジアム内全体の概観映像を読み出し、当該外観映像を映像受信装置ex103に送信する。この概観映像は更新間隔が長くてもよく(低フレームレートでもよく)、また画質が低くてもよい。視聴者は、映像受信装置ex103の画面上に表示された概観映像中で、見たい部分をタッチする。これにより、映像受信装置ex103は、タッチされた部分に対応する視野情報(及び/又は、視点情報)を映像情報処理装置ex101に送信する。
映像情報処理装置ex101は、視野情報(及び/又は、視点情報)に応じた映像データを保存部ex111から読み出し、当該映像データを映像受信装置ex103に送信する。
また、解析部ex112は、視野情報(及び/又は、視点情報)で示される領域に対して優先的に三次元形状の復元(三次元再構成)を行うことで自由視点映像を生成する。解析部ex112は、施設内又はスタジアム内全体の三次元形状を、概観を示す程度の精度で復元する。これにより、映像情報処理装置ex101は、三次元形状の復元を効率的に行うことができる。その結果、視聴者が見たい領域の自由視点映像の高フレームレート化、及び高画質を実現できる。
(変形例12)
なお、映像情報処理装置ex101は、例えば、設計図面などから事前に生成された施設又はスタジアムの三次元形状復元データを事前映像として、予め保存しておいてもよい。なお、事前映像はこれに限らず、デプスセンサから得られる空間の凹凸と、過去又はキャリブレーション時の画像又は映像データから導出されるピクチャとをオブジェクトごとにマッピングした仮想空間データであってもよい。
なお、映像情報処理装置ex101は、例えば、設計図面などから事前に生成された施設又はスタジアムの三次元形状復元データを事前映像として、予め保存しておいてもよい。なお、事前映像はこれに限らず、デプスセンサから得られる空間の凹凸と、過去又はキャリブレーション時の画像又は映像データから導出されるピクチャとをオブジェクトごとにマッピングした仮想空間データであってもよい。
例えば、スタジアムでサッカーが行われている場合、解析部ex112は、選手及びボールのみに限定して三次元形状の復元を行い、得られた復元データと事前映像とを合成することで自由視点映像を生成してもよい。あるいは、解析部ex112は、選手及びボールに対して優先して三次元形状の復元を行ってもよい。これにより、映像情報処理装置ex101は、三次元形状の復元を効率的に行うことができる。その結果、視聴者が注目する選手及びボールに関する自由視点映像の高フレームレート化及び高画質化を実現できる。また、監視システムにおいては、解析部ex112は、人物及び移動物体のみに限定して、又はそれらを優先して三次元形状の復元を行ってもよい。
(変形例13)
各装置の時刻は、サーバの基準時刻等に基づき、撮影開始時にキャリブレーションされてもよい。解析部ex112は、複数のカメラex102で撮影された複数の撮影映像データのうち、時刻設定の精度に応じて、予め設定された時間範囲内に属する時刻に撮影された複数の映像データを用いて、三次元形状の復元を行う。この時刻の検出には、例えば撮影映像データが保存部ex111に格納された時刻が用いられる。なお、時刻の検出方法はこれに限らない。これにより、映像情報処理装置ex101は、三次元形状の復元を効率的に行うことができるので、自由視点映像の高フレームレート化及び高画質化を実現できる。
各装置の時刻は、サーバの基準時刻等に基づき、撮影開始時にキャリブレーションされてもよい。解析部ex112は、複数のカメラex102で撮影された複数の撮影映像データのうち、時刻設定の精度に応じて、予め設定された時間範囲内に属する時刻に撮影された複数の映像データを用いて、三次元形状の復元を行う。この時刻の検出には、例えば撮影映像データが保存部ex111に格納された時刻が用いられる。なお、時刻の検出方法はこれに限らない。これにより、映像情報処理装置ex101は、三次元形状の復元を効率的に行うことができるので、自由視点映像の高フレームレート化及び高画質化を実現できる。
または、解析部ex112は、保存部ex111に保存された複数の映像データのうち、高画質データのみを用いて、又は高画質データを優先的に用いて、三次元形状の復元を行ってもよい。
(変形例14)
解析部ex112は,カメラ属性情報を用いて、三次元形状の復元を行ってもよい。この場合、カメラex102は、撮影映像データとカメラ属性情報とを映像情報処理装置ex101に送信する。カメラ属性情報は、例えば、撮影位置、撮影角度、撮影時刻、又はズーム倍率などである。
解析部ex112は,カメラ属性情報を用いて、三次元形状の復元を行ってもよい。この場合、カメラex102は、撮影映像データとカメラ属性情報とを映像情報処理装置ex101に送信する。カメラ属性情報は、例えば、撮影位置、撮影角度、撮影時刻、又はズーム倍率などである。
これにより、映像情報処理装置ex101は、三次元形状の復元を効率的に行うことができるので、自由視点映像の高フレームレート化及び高画質化を実現できる。
具体的には、カメラex102は、施設内又はスタジアム内に三次元座標を定義し、カメラex102がどのあたりの座標をどの角度から、どれ位のズームで、どの時間に撮ったかという情報を映像と共にカメラ属性情報として映像情報処理装置ex101に送信する。また、カメラex102の起動時に、施設内又はスタジアム内の通信ネットワーク上の時計とカメラ内の時計との同期がとられ、時間情報が生成される。
また、カメラex102の起動時又は任意のタイミングで施設内又はスタジアム内の特定のポイントにカメラex102を向けることにより、カメラex102の位置及び角度情報が取得される。図12は、カメラex102に起動時に、カメラex102の画面上に表示される通知の一例を示す図である。ユーザがこの通知に従い、スタジアム北側の広告中のサッカーボール中心にある「+」に、画面中央に表示された「+」を合わせて、カメラex102のディスプレイをタッチすると、カメラex102は、カメラex102から広告までのベクトル情報を取得しカメラ位置及び角度の基準を特定する。その後、カメラex102のモーション情報からその時々のカメラ座標及び角度が特定される。もちろん、この表示に限るものではなく、矢印等を用いて撮影期間中も座標、角度、又は撮影領域の移動速度等を指示するような表示が用いられてもよい。
カメラex102の座標の特定は、GPS、WiFi(登録商標)、3G、LTE(Long Term Evolution)、及び5G(無線LAN)の電波を用いて行われてもよいし、ビーコン(Bluetooth(登録商標)、超音波)など近距離無線を利用して行われてもよい。また、施設内又はスタジアム内のどの基地局に撮影映像データが届いたかという情報が用いられてもよい。
(変形例15)
当該システムはスマートフォン等のモバイル端末上で動作するアプリケーションとして提供されてもよい。
当該システムはスマートフォン等のモバイル端末上で動作するアプリケーションとして提供されてもよい。
上記システムへのログインには、各種SNS等のアカウントが用いられてもよい。なお、アプリ専用のアカウント、又は機能が制限されたゲストアカウントが用いられてもよい。このようにアカウントが用いられることで、好みの映像又は好みのアカウント等を評価することができる。また、撮影中又は視聴中の映像データに類似した映像データ、撮影中又は視聴中の映像データの視点に類似した視点の映像データなどに優先的に帯域を割り振ることで、これらの映像データの解像度を高めることができる。これにより、これらの視点からの三次元形状の復元をより精度よく行うことができる。
また、ユーザは、当該アプリケーションで、好みの画像映像を選択し、相手方をフォローすることで、選択した画像を他のユーザよりも優先して見たり、相手方の承認などを条件にテキストチャット等でつながりをもつことができる。このように、新たなコミュニティの生成が可能である。
このようにユーザ同士がコミュニティ内でつながることにより、撮影自体、また撮影した画像の共有などが活発化し、より精度の高い三次元形状の復元を促すことができる。
また、コミュニティ内のつながりの設定に応じて、ユーザは、他人が撮影した画像又は映像を編集したり、他人の画像と自分の画像とをコラージュして新たな画像又は映像を作成したりできる。これにより、新たな画像又は映像を当該コミュニティ内の人のみでシェアするなど、新たな映像作品のシェアが可能になる。また、この編集においてCGのキャラクタを挿入するなどにより、拡張現実(Augmented Reality)のゲーム等にも映像作品を利用できる。
また、当該システムによると三次元モデルデータが逐次出力可能になるため、ゴールシーンなどの特徴的なシーンでの三次元モデルデータに基づき、施設が有する3Dプリンタなどが立体オブジェクトを出力することができる。これにより、試合後に、その試合中のシーンに基づくオブジェクトをキーホルダーのようなお土産として売ったり、参加ユーザに配布することも可能である。もちろん通常の写真として、もっとも良い視点からの画像をプリントすることも可能である。
(変形例16)
上記システムを用いて、例えば、警察の車載カメラ、及び警察官のウェアラブルカメラの映像などから、地域全体の大雑把な状態を、当該システムに接続されたセンターで管理することができる。
上記システムを用いて、例えば、警察の車載カメラ、及び警察官のウェアラブルカメラの映像などから、地域全体の大雑把な状態を、当該システムに接続されたセンターで管理することができる。
一般のパトロールの時は、例えば数分おきで静止画の送受信が行なわれる。また、センターは、過去の犯罪データ等を用いて分析した結果に基づいた犯罪マップに基づいて犯罪発生の可能性が高い地域を特定する、もしくはこのように特定された犯罪発生確率に関連する地域データを保持している。特定された犯罪発生確率の高い地域では、画像の送受信の頻度を上げたり、画像を動画に変更したりしてもよい。また、事件発生時は、動画、又はSfM等を用いた三次元再構成データが用いられてもよい。また、センターもしくは各端末が、同時にデプスセンサ又はサーモセンサなど他のセンサの情報を用いて画像又は仮想空間を補正することで、警察官は、より正確に状況を把握できる。
また、センターは、三次元再構成データを用いることで、複数の端末にそのオブジェクトの情報をフィードバックできる。これにより、各端末を持つ個々人がオブジェクトをトラッキングできる。
また、最近では、建造物或いは環境の調査、又はスポーツなどの臨場感ある撮影等の目的で、クワッドコプター、ドローンなどの飛行可能な装置による空中からの撮影が行なわれる。このような自律移動装置による撮影は、画像がブレるということが問題になりやすいが、SfMは位置及び傾きによりそのブレを補正しながら三次元化を行なうことが可能である。これにより、画質の向上、及び空間の復元精度の向上を実現できる。
また、車外を撮影する車載カメラの設置が、国によっては義務付けられている。このような車載カメラにおいても、複数の画像からモデル化された三次元データを用いることで、行き先の方向の天気及び路面の状態、並びに渋滞度合い等をより精度よく把握できる。
(実施の形態3)
上記各実施の形態で示した画像処理方法の構成を実現するためのプログラムを記憶メディアに記録することにより、上記各実施の形態で示した処理を独立したコンピュータシステムにおいて簡単に実施することが可能となる。記憶メディアは、磁気ディスク、光ディスク、光磁気ディスク、ICカード、半導体メモリ等、プログラムを記録できるものであればよい。
上記各実施の形態で示した画像処理方法の構成を実現するためのプログラムを記憶メディアに記録することにより、上記各実施の形態で示した処理を独立したコンピュータシステムにおいて簡単に実施することが可能となる。記憶メディアは、磁気ディスク、光ディスク、光磁気ディスク、ICカード、半導体メモリ等、プログラムを記録できるものであればよい。
さらにここで、上記各実施の形態で示した画像処理方法の応用例とそれを用いたシステムを説明する。当該システムは、画像処理方法を用いた装置を有することを特徴とする。システムにおける他の構成について、場合に応じて適切に変更することができる。
図13は、コンテンツ配信サービスを実現するコンテンツ供給システムex200の全体構成を示す図である。通信サービスの提供エリアを所望の大きさに分割し、各セル内にそれぞれ固定無線局である基地局ex206、ex207、ex208、ex209、ex210が設置されている。
このコンテンツ供給システムex200は、インターネットex201にインターネットサービスプロバイダex202および通信網ex204、および基地局ex206からex210を介して、コンピュータex211、PDA(Personal Digital Assistant)ex212、カメラex213、スマートフォンex214、ゲーム機ex215などの各機器が接続される。
しかし、コンテンツ供給システムex200は図13のような構成に限定されず、いずれかの要素を組合せて接続するようにしてもよい。また、固定無線局である基地局ex206からex210を介さずに、各機器が電話線、ケーブルテレビ、又は光通信などの通信網ex204に直接接続されてもよい。また、各機器が近距離無線等を介して直接相互に接続されていてもよい。
カメラex213はデジタルビデオカメラ等の動画撮影が可能な機器であり、カメラex216はデジタルカメラ等の静止画撮影、動画撮影が可能な機器である。また、スマートフォンex214は、GSM(登録商標)(Global System for Mobile Communications)方式、CDMA(Code Division Multiple Access)方式、W-CDMA(Wideband-Code Division Multiple Access)方式、若しくはLTE(Long Term Evolution)方式、HSPA(High Speed Packet Access)、又は高周波帯域を利用した通信方式などに対応するスマートフォン機、またはPHS(Personal Handyphone System)等であり、いずれでも構わない。
コンテンツ供給システムex200では、カメラex213等が基地局ex209、通信網ex204を通じてストリーミングサーバex203に接続されることで、ライブ配信等が可能になる。ライブ配信では、ユーザがカメラex213を用いて撮影するコンテンツ(例えば、音楽ライブの映像等)に対して符号化処理を行い、ストリーミングサーバex203に送信する。一方、ストリーミングサーバex203は要求のあったクライアントに対して送信されたコンテンツデータをストリーム配信する。クライアントとしては、上記符号化処理されたデータを復号化することが可能な、コンピュータex211、PDAex212、カメラex213、スマートフォンex214、ゲーム機ex215等がある。配信されたデータを受信した各機器では、受信したデータを復号化処理して再生する。
なお、撮影したデータの符号化処理はカメラex213で行っても、データの送信処理をするストリーミングサーバex203で行ってもよいし、互いに分担して行ってもよい。同様に配信されたデータの復号化処理はクライアントで行っても、ストリーミングサーバex203で行ってもよいし、互いに分担して行ってもよい。また、カメラex213に限らず、カメラex216で撮影した静止画像および/または動画像データを、コンピュータex211を介してストリーミングサーバex203に送信してもよい。この場合の符号化処理はカメラex216、コンピュータex211、ストリーミングサーバex203のいずれで行ってもよいし、互いに分担して行ってもよい。さらに復号された画像の表示についても、システムにつながった複数の機器が連動して同じ画像を表示してもよいし、大きな表示部を有する装置で全体の画像を表示し、スマートフォンex214等では画像の一部の領域を拡大して表示してもよい。
また、これら符号化・復号化処理は、一般的にコンピュータex211や各機器が有するLSIex500において処理する。LSIex500は、ワンチップであっても複数チップからなる構成であってもよい。なお、動画像符号化・復号化用のソフトウェアをコンピュータex211等で読み取り可能な何らかの記録メディア(CD-ROM、フレキシブルディスク、ハードディスクなど)に組み込み、そのソフトウェアを用いて符号化・復号化処理を行ってもよい。さらに、スマートフォンex214がカメラ付きである場合には、そのカメラで取得した動画データを送信してもよい。このときの動画データはスマートフォンex214が有するLSIex500で符号化処理されたデータである。
また、ストリーミングサーバex203は複数のサーバや複数のコンピュータであって、データを分散して処理したり記録したり配信するものであってもよい。
以上のようにして、コンテンツ供給システムex200では、符号化されたデータをクライアントが受信して再生することができる。このようにコンテンツ供給システムex200では、ユーザが送信した情報をリアルタイムでクライアントが受信して復号化し、再生することができ、特別な権利や設備を有さないユーザでも個人放送を実現できる。
なお、コンテンツ供給システムex200の例に限らず、図14に示すように、デジタル放送用システムex300にも、上記各実施の形態を適用してもよい。具体的には、放送局ex301では映像データに音楽データなどが多重化された多重化データが電波を介して通信または衛星ex302に伝送される。この映像データは上記各実施の形態で説明した動画像符号化方法により符号化されたデータである。これを受けた放送衛星ex302は、放送用の電波を発信し、この電波を衛星放送の受信が可能な家庭のアンテナex304が受信する。受信した多重化データを、テレビ(受信機)ex400またはセットトップボックス(STB)ex317等の装置が復号化して再生する。
また、DVD、BD等の記録メディアex315、もしくはSDなどのメモリex316に記録した多重化データを読み取り復号化する、または記録メディアex315もしくはメモリex316に映像信号を符号化し、さらに場合によっては音楽信号と多重化して書き込むリーダ/レコーダex318にも上記各実施の形態で示した動画像復号化装置または動画像符号化装置を実装することが可能である。この場合、再生された映像信号はモニタex319に表示され、多重化データが記録された記録メディアex315、又はメモリex316により他の装置やシステムにおいて映像信号を再生することができる。また、ケーブルテレビ用のケーブルex303または衛星/地上波放送のアンテナex304に接続されたセットトップボックスex317内に動画像復号化装置を実装し、これをテレビのモニタex319で表示してもよい。このときセットトップボックスではなく、テレビ内に動画像復号化装置を組み込んでもよい。
図15は、スマートフォンex214を示す図である。また、図16は、スマートフォンex214の構成例を示す図である。スマートフォンex214は、基地局ex210との間で電波を送受信するためのアンテナex450、映像、静止画を撮ることが可能なカメラ部ex465、カメラ部ex465で撮像した映像、アンテナex450で受信した映像等が復号化されたデータを表示する液晶ディスプレイ等の表示部ex458を備える。スマートフォンex214は、さらに、タッチパネル等である操作部ex466、音声を出力するためのスピーカ等である音声出力部ex457、音声を入力するためのマイク等である音声入力部ex456、撮影した映像、静止画、録音した音声、または受信した映像、静止画、メール等の符号化されたデータもしくは復号化されたデータを保存可能なメモリ部ex467、又は図14に例示されたメモリex316、もしくはユーザを特定し、ネットワークをはじめ各種データへのアクセスの認証をするためのSIMex468とのインタフェース部であるスロット部ex464を備える。
スマートフォンex214は、表示部ex458及び操作部ex466等を統括的に制御する主制御部ex460に対して、電源回路部ex461、操作入力制御部ex462、映像信号処理部ex455、カメラインタフェース部ex463、LCD(Liquid Crystal Display)制御部ex459、変調/復調部ex452、多重/分離部ex453、音声信号処理部ex454、スロット部ex464、メモリ部ex467がバスex470を介して互いに接続されている。
電源回路部ex461は、ユーザの操作により終話及び電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することによりスマートフォンex214を動作可能な状態に起動する。
スマートフォンex214は、CPU、ROM、RAM等を有する主制御部ex460の制御に基づいて、音声通話モード時に音声入力部ex456で収音した音声信号を音声信号処理部ex454でデジタル音声信号に変換し、これを変調/復調部ex452でスペクトラム拡散処理し、送信/受信部ex451でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex450を介して送信する。またスマートフォンex214は、音声通話モード時にアンテナex450を介して受信した受信データを増幅して周波数変換処理およびアナログデジタル変換処理を施し、変調/復調部ex452でスペクトラム逆拡散処理し、音声信号処理部ex454でアナログ音声信号に変換した後、これを音声出力部ex457から出力する。
さらにデータ通信モード時に電子メールを送信する場合、本体部の操作部ex466等の操作によって入力された電子メールのテキストデータは操作入力制御部ex462を介して主制御部ex460に送出される。主制御部ex460は、テキストデータを変調/復調部ex452でスペクトラム拡散処理をし、送信/受信部ex451でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex450を介して基地局ex210へ送信する。電子メールを受信する場合は、受信したデータに対してこのほぼ逆の処理が行われ、表示部ex458に出力される。
データ通信モード時に映像、静止画、または映像と音声を送信する場合、映像信号処理部ex455は、カメラ部ex465から供給された映像信号を上記各実施の形態で示した動画像符号化方法によって圧縮符号化し、符号化された映像データを多重/分離部ex453に送出する。また、音声信号処理部ex454は、映像、静止画等をカメラ部ex465で撮像中に音声入力部ex456で収音した音声信号を符号化し、符号化された音声データを多重/分離部ex453に送出する。
多重/分離部ex453は、映像信号処理部ex455から供給された符号化された映像データと音声信号処理部ex454から供給された符号化された音声データを所定の方式で多重化し、その結果得られる多重化データを変調/復調部(変調/復調回路部)ex452でスペクトラム拡散処理をし、送信/受信部ex451でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナex450を介して送信する。
データ通信モード時にホームページ等にリンクされた動画像ファイルのデータを受信する場合、または映像およびもしくは音声が添付された電子メールを受信する場合、アンテナex450を介して受信された多重化データを復号化するために、多重/分離部ex453は、多重化データを分離することにより映像データのビットストリームと音声データのビットストリームとに分け、同期バスex470を介して符号化された映像データを映像信号処理部ex455に供給するとともに、符号化された音声データを音声信号処理部ex454に供給する。映像信号処理部ex455は、上記各実施の形態で示した動画像符号化方法に対応した動画像復号化方法によって復号化することにより映像信号を復号し、LCD制御部ex459を介して表示部ex458から、例えばホームページにリンクされた動画像ファイルに含まれる映像、静止画が表示される。また音声信号処理部ex454は、音声信号を復号し、音声出力部ex457から音声が出力される。
また、上記スマートフォンex214等の端末は、テレビex400と同様に、符号化器・復号化器を両方持つ送受信型端末の他に、符号化器のみの送信端末、復号化器のみの受信端末という3通りの実装形式が考えられる。さらに、デジタル放送用システムex300において、映像データに音楽データなどが多重化された多重化データを受信、送信するとして説明したが、音声データ以外に映像に関連する文字データなどが多重化されたデータであってもよいし、多重化データではなく映像データ自体であってもよい。
また、本発明はかかる上記実施の形態に限定されるものではなく、本発明の範囲を逸脱することなく種々の変形または修正が可能である。
本発明は、高精度な三次元モデルの復元を行うことができるという効果を奏し、例えば、三次元再構成を行うシステムまたは装置などに利用することができる。
10 画像処理システム
11 処理回路
12 記憶装置
200 画像処理装置
201 画像取得部
202 時刻情報取得部
203 画像セット生成部
204 三次元情報算出部
201D 画像データ
202D 時刻情報
203D 画像セット
11 処理回路
12 記憶装置
200 画像処理装置
201 画像取得部
202 時刻情報取得部
203 画像セット生成部
204 三次元情報算出部
201D 画像データ
202D 時刻情報
203D 画像セット
Claims (17)
- 複数の画像に対して処理を行う画像処理方法であって、
複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、
取得された複数の画像のそれぞれの撮像時刻を取得し、
取得された前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する
画像処理方法。 - 前記画像処理方法は、さらに、
前記画像セットに含まれる複数の画像に基づいて、当該複数の画像のそれぞれに対応する撮像装置および被写体のうちの少なくとも一方の状態を三次元的に示す三次元情報を算出する
請求項1に記載の画像処理方法。 - 前記三次元情報は、前記画像セットに含まれる複数の画像のそれぞれに対応する撮像装置の位置および姿勢のうちの少なくとも一方を前記状態として示す
請求項2記載の画像処理方法。 - 前記三次元情報は、前記画像セットに含まれる複数の画像のそれぞれに対応する被写体の位置および形状のうちの少なくとも一方を前記状態として示す
請求項2に記載の画像処理方法。 - 前記画像セットの生成では、
取得された前記複数の画像のうちの1つである基準画像と、当該基準画像の撮像のための露光と重複したタイミングの露光による撮像によって得られた画像である少なくとも1つの露光重複画像とを、撮像時刻が互いに略一致する前記複数の画像として選択する
請求項1~4の何れか1項に記載の画像処理方法。 - 前記撮像時刻の取得では、
取得された前記複数の画像のうちの何れの露光時間よりも高い時間精度で示される、前記複数の画像のそれぞれの前記撮像時刻を取得する
請求項5に記載の画像処理方法。 - 前記画像の取得では、
前記複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた前記画像を含む画像信号を取得し、
前記画像セットの生成では、
取得された複数の画像信号から、撮像時刻が互いに略一致する前記複数の画像のそれぞれを含む複数の画像信号を選択することにより、選択された前記複数の画像信号からなる前記画像セットを生成する
請求項1~6の何れか1項に記載の画像処理方法。 - 前記画像信号は、複数の画像と、前記複数の画像のそれぞれの撮像時刻を取得するための時刻情報とを含む動画像データであって、
前記撮像時刻の取得では、
画像信号ごとに、当該画像信号に含まれる前記時刻情報に基づいて、当該画像信号に含まれる前記複数の画像のそれぞれの撮像時刻を取得する
請求項7に記載の画像処理方法。 - 前記画像信号は、画像と、前記画像の撮像時刻を取得するための時刻情報とを含む画像データであって、
前記撮像時刻の取得では、
画像信号ごとに、当該画像信号に含まれる前記時刻情報に基づいて、当該画像信号に含まれる前記画像の撮像時刻を取得する
請求項7に記載の画像処理方法。 - 前記画像セットの生成では、
さらに、前記複数の撮像装置のうちの何れかである処理対象装置から取得された画像である元画像から、当該元画像の撮像時刻と異なる時刻において静止していると推定される被写体が写っている領域の画像を、前記処理対象装置から取得された、前記時刻を撮像時刻とする静止画像として生成し、
生成された前記静止画像を含む、前記複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する前記複数の画像を選択する
請求項1~4の何れか1項に記載の画像処理方法。 - 前記静止画像の生成では、
前記元画像の撮像時刻の前および後のうちの少なくとも一方において、前記処理対象装置による撮像によって得られた少なくとも1つの画像と、前記元画像とを比較することによって、前記元画像から前記領域を特定する
請求項10に記載の画像処理方法。 - 前記領域の特定では、
前記元画像を構成する処理単位ごとに、当該処理単位が前記領域に該当するか否かを判定することによって、前記領域を特定し、
前記処理単位は、ブロック、前記元画像に写っているオブジェクト、または、前記オブジェクトが分割されることによって示されるサブオブジェクトである
請求項11に記載の画像処理方法。 - 前記画像セットの生成では、
さらに、前記複数の撮像装置のうちの何れかである処理対象装置から取得された複数の画像である複数の参照画像に対して補間を行うことより、前記複数の参照画像のそれぞれの撮像時刻と異なる時刻を撮像時刻とする補間画像を、前記処理対象装置から取得された画像として生成し、
生成された前記補間画像を含む、前記複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する前記複数の画像を選択する
請求項1~4の何れか1項に記載の画像処理方法。 - 前記補間画像の生成では、
等速運動モデルに基づいて前記補間画像を生成する、
請求項13記載の画像処理方法。 - 前記補間画像の生成では、
前記複数の参照画像のそれぞれを構成する処理単位ごとに補間を行い、
前記処理単位は、ブロック、前記複数の参照画像のそれぞれに写っているオブジェクト、または、前記オブジェクトが分割されることによって示されるサブオブジェクトである
請求項13または14に記載の画像処理方法。 - 処理回路と、前記処理回路に接続される記憶装置とを備える画像処理システムであって、
前記処理回路は、
複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得して前記記憶装置に格納し、
取得された複数の画像のそれぞれの撮像時刻を取得し、
前記記憶装置に格納されている前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する
画像処理システム。 - 複数の画像に対して処理を行うためのプログラムであって、
複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、
取得された複数の画像のそれぞれの撮像時刻を取得し、
取得された前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する
ことをコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/358,297 US10277832B2 (en) | 2014-06-20 | 2016-11-22 | Image processing method and image processing system |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462014737P | 2014-06-20 | 2014-06-20 | |
US62/014,737 | 2014-06-20 | ||
JP2015023548A JP6562197B2 (ja) | 2014-06-20 | 2015-02-09 | 画像処理方法および画像処理システム |
JP2015-023548 | 2015-02-09 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/358,297 Continuation US10277832B2 (en) | 2014-06-20 | 2016-11-22 | Image processing method and image processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015194082A1 true WO2015194082A1 (ja) | 2015-12-23 |
Family
ID=54935100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/002179 WO2015194082A1 (ja) | 2014-06-20 | 2015-04-22 | 画像処理方法および画像処理システム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2015194082A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018128437A (ja) * | 2017-02-10 | 2018-08-16 | 株式会社トプコン | 測量装置、及び測量システム |
CN113302944A (zh) * | 2018-12-28 | 2021-08-24 | 索尼集团公司 | 信息处理装置和信息处理方法 |
CN115826021A (zh) * | 2023-02-14 | 2023-03-21 | 国网吉林省电力有限公司信息通信公司 | 一种采用卫星影像辅助和无线通信网络的定位方法 |
WO2024150697A1 (ja) * | 2023-01-12 | 2024-07-18 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006284372A (ja) * | 2005-03-31 | 2006-10-19 | Toshiba Corp | 画像処理装置及び画像処理方法 |
JP2008306708A (ja) * | 2007-05-09 | 2008-12-18 | Sony Corp | 画像記録装置、画像記録方法、画像処理装置、画像処理方法、音声記録装置および音声記録方法 |
JP2012216939A (ja) * | 2011-03-31 | 2012-11-08 | Fujifilm Corp | 画像処理装置、画像処理方法及びプログラム |
-
2015
- 2015-04-22 WO PCT/JP2015/002179 patent/WO2015194082A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006284372A (ja) * | 2005-03-31 | 2006-10-19 | Toshiba Corp | 画像処理装置及び画像処理方法 |
JP2008306708A (ja) * | 2007-05-09 | 2008-12-18 | Sony Corp | 画像記録装置、画像記録方法、画像処理装置、画像処理方法、音声記録装置および音声記録方法 |
JP2012216939A (ja) * | 2011-03-31 | 2012-11-08 | Fujifilm Corp | 画像処理装置、画像処理方法及びプログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018128437A (ja) * | 2017-02-10 | 2018-08-16 | 株式会社トプコン | 測量装置、及び測量システム |
JP7355470B2 (ja) | 2017-02-10 | 2023-10-03 | 株式会社トプコン | 測量装置、及び測量システム |
CN113302944A (zh) * | 2018-12-28 | 2021-08-24 | 索尼集团公司 | 信息处理装置和信息处理方法 |
CN113302944B (zh) * | 2018-12-28 | 2023-10-27 | 索尼集团公司 | 信息处理装置和信息处理方法 |
US11902555B2 (en) | 2018-12-28 | 2024-02-13 | Sony Group Corporation | Information processing device and information processing method |
WO2024150697A1 (ja) * | 2023-01-12 | 2024-07-18 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN115826021A (zh) * | 2023-02-14 | 2023-03-21 | 国网吉林省电力有限公司信息通信公司 | 一种采用卫星影像辅助和无线通信网络的定位方法 |
CN115826021B (zh) * | 2023-02-14 | 2023-04-25 | 国网吉林省电力有限公司信息通信公司 | 一种采用卫星影像辅助和无线通信网络的定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018030206A1 (ja) | カメラワーク生成方法及び映像処理装置 | |
JP6607433B2 (ja) | 映像配信方法及びサーバ | |
JP6820527B2 (ja) | 映像同期装置及び映像同期方法 | |
JP6460105B2 (ja) | 撮影方法、撮影システムおよび端末装置 | |
JP7113294B2 (ja) | 多視点撮像システム | |
JP6948624B2 (ja) | 映像配信方法及びサーバ | |
JP7223978B2 (ja) | 校正装置および校正方法 | |
US10277832B2 (en) | Image processing method and image processing system | |
US10271082B2 (en) | Video distribution method, video reception method, server, terminal apparatus, and video distribution system | |
WO2018181249A1 (ja) | 撮像システムおよび校正方法 | |
JP7122694B2 (ja) | 撮像システムおよび校正方法 | |
WO2017134706A1 (ja) | 映像表示方法及び映像表示装置 | |
WO2015159487A1 (ja) | 映像配信方法、映像受信方法、サーバ、端末装置及び映像配信システム | |
JP2017139725A (ja) | 映像表示方法及び映像表示装置 | |
WO2015194082A1 (ja) | 画像処理方法および画像処理システム | |
WO2015182034A1 (ja) | 画像撮影方法、画像撮影システム、サーバ、画像撮影装置及び画像撮影プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15809754 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 15809754 Country of ref document: EP Kind code of ref document: A1 |