WO2021149509A1 - 撮像装置、撮像方法、及び、プログラム - Google Patents

撮像装置、撮像方法、及び、プログラム Download PDF

Info

Publication number
WO2021149509A1
WO2021149509A1 PCT/JP2021/000445 JP2021000445W WO2021149509A1 WO 2021149509 A1 WO2021149509 A1 WO 2021149509A1 JP 2021000445 W JP2021000445 W JP 2021000445W WO 2021149509 A1 WO2021149509 A1 WO 2021149509A1
Authority
WO
WIPO (PCT)
Prior art keywords
imaging
virtual
subject
image
imaging position
Prior art date
Application number
PCT/JP2021/000445
Other languages
English (en)
French (fr)
Inventor
田中 寿郎
板倉 英三郎
伸一 岡
広之 清宮
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US17/782,851 priority Critical patent/US20230005213A1/en
Priority to EP21744897.6A priority patent/EP4075789A4/en
Priority to CN202180009485.9A priority patent/CN115004683A/zh
Priority to JP2021573062A priority patent/JPWO2021149509A1/ja
Publication of WO2021149509A1 publication Critical patent/WO2021149509A1/ja
Priority to JP2024092068A priority patent/JP2024114712A/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]

Definitions

  • the present technology relates to an image pickup device, an image pickup method, and a program, and more particularly to an image pickup device, an image pickup method, and a program that enable an image taken from a desired position to be easily obtained.
  • Patent Document 1 as a technique for obtaining a virtual image captured from a virtual virtual imaging position different from the actual imaging position, a subject is imaged from various imaging positions using a large number of imaging devices, and the subject is imaged. A technique for generating highly accurate three-dimensional data from an captured image obtained by imaging is described.
  • Patent Document 1 In the technique described in Patent Document 1, it is necessary to arrange a large number of imaging devices at various positions. Therefore, in many cases, it cannot be easily realized due to the cost of the imaging device and the labor required for installation.
  • This technology was made in view of such a situation, and makes it possible to easily obtain an image captured from a desired position.
  • the imaging device or program of the present technology uses the distance information from the imaging position to the subject and the model information to capture the subject from the imaging position, and from a virtual imaging position different from the imaging position.
  • An imaging device including a generation unit that generates a virtual image of a subject, or a program for operating a computer as such an imaging device.
  • the subject is imaged from a virtual imaging position different from the imaging position from the captured image obtained by capturing the subject from the imaging position using the distance information from the imaging position to the subject and the model information. It is an imaging method including generating a virtual image.
  • the captured image obtained by capturing the subject from the imaging position is a virtual image different from the imaging position.
  • a virtual image of the subject is generated from the imaging position.
  • the imaging device may be an independent device or an internal block constituting one device.
  • the program can be provided by transmitting via a transmission medium or by recording on a recording medium.
  • FIG. 1 is a diagram showing an example of an imaging situation by an imaging device.
  • FIG. 1 the imaging situation is shown by the third trigonometry.
  • FIG. 1 a person stands in front of the building when viewed from the image pickup device side, and the person and the building are imaged by the image pickup device from the front side of the person.
  • FIG. 2 is a diagram showing an example of an image pickup state by the image pickup device and an image captured image in the image pickup state.
  • a in FIG. 2 is a top view showing an imaging situation
  • B in FIG. 2 shows an captured image captured in the imaging situation of A in FIG.
  • the alternate long and short dash line represents the angle of view of the imaging device, and the space within the angle of view is imaged by the imaging device.
  • the broken line represents the angle of view occupied by a person who is the main subject (main subject).
  • the distance between the person and the building is relatively long compared to the distance between the imaging device and the person (imaging distance) when the imaging device performs imaging. ing. Therefore, in reality, the width of the building behind the person is wider than the width of the person, but in the captured image, the width of the building is narrower than the width of the person. This is because distant objects look small due to the so-called perspective method.
  • FIG. 3 is a diagram showing another example of the imaging situation by the imaging device and the captured image captured in the imaging situation.
  • a in FIG. 3 is a top view showing an imaging situation
  • B in FIG. 3 shows an captured image captured in the imaging situation of A in FIG.
  • the alternate long and short dash line represents the angle of view of the imaging device, and the broken line represents the angle of view occupied by the person.
  • a telephoto lens with a narrow angle of view (or a zoom lens with a long focal length) is used from an imaging position farther from the subject than in the case of A in FIG.
  • a person and a building are imaged as the same subject as the above.
  • the content (composition) of the captured image obtained differs depending on the imaging distance between the subject and the imaging device.
  • FIG. 4 is a diagram showing another example of the imaging situation by the imaging device.
  • FIG. 4 as in FIG. 1, the imaging situation is shown by the third trigonometry.
  • the optical axis direction of the imaging device substantially coincides with the direction from the person to the building.
  • the captured image captured by the imaging device is an image in which it is difficult to express the sense of distance between the person and the building, as shown in B of FIG. 2 and B of FIG.
  • FIG. 4 a person and a building are imaged from above in front of the person with the optical axis of the image pickup device directed toward the person.
  • the direction of the optical axis of the imaging device is different from the direction from the person to the building, and it is possible to obtain an captured image expressing a sense of distance between the person and the building.
  • FIG. 5 is a diagram showing an captured image obtained by imaging a person and a building from above in front of the person.
  • the bird's-eye view image obtained can be obtained as a captured image.
  • FIG. 6 is a top view showing an example of an imaging situation in which imaging cannot be performed from a position far from a person.
  • FIG. 6 there is a wall on the front side of the person. Therefore, when the person is imaged from the front, the image pickup device cannot be physically moved to the rear side of the wall surface on the front side of the person, so that the person cannot be imaged from a long distance.
  • a tripod or stepladder when a person and a building are imaged from above in front of the person, if a tripod or stepladder is used, the image can be taken from above to some extent. However, when using a tripod or stepladder, imaging from a few meters above is the limit. Furthermore, the use of a tripod or stepladder reduces maneuverability at the imaging site.
  • the operation of the drone is not always easy, and it is affected by the weather such as rain and wind outdoors.
  • drones cannot be used in places where drone flight is restricted or where drone flight is prohibited due to crowded people.
  • Patent Document 1 a subject is imaged from various imaging positions using a large number of imaging devices, and arbitrary virtual virtual imaging is performed from three-dimensional data generated using the captured images obtained by the imaging.
  • a technique for generating a virtual image (as if) of an image of a subject from a position is described.
  • Patent Document 1 it is necessary to arrange a large number of imaging devices at various positions, and the imaging situation as described in Patent Document 1 can be easily performed due to the cost of the imaging devices and the labor required for installation. Often cannot be realized.
  • a virtual image obtained by capturing the subject from a virtual imaging position different from the imaging position is generated from the captured image obtained by capturing the subject from the imaging position. This makes it possible to easily obtain a virtual image of a subject taken from a desired virtual imaging position without installing a large number of imaging devices in the present technology.
  • a method of generating a virtual image of a subject from a desired virtual imaging position from an image of a subject captured from a certain imaging position is, for example, a wide-angle lens (or focal distance) as in the imaging situation of FIG. 2A. From the image taken from the imaged position at a short distance from the subject using a zoom lens in a shortened state), from the imaged position at a long distance from the subject using a telephoto lens, as shown in the imaging situation of A in FIG. This is a method of generating an captured image as a virtual image.
  • FIG. 7 is a diagram illustrating a perspective projection conversion when an image is taken by an imaging device.
  • FIG. 7 shows the relationship between the actual subject on the object surface on which the subject exists and the image on the image pickup surface of the image pickup device that performs photoelectric conversion of the image pickup device.
  • FIG. 7 is a top view of a subject standing vertically on the ground surface as viewed from above, and the horizontal direction represents a horizontal position (horizontal direction) horizontal to the ground surface.
  • the distance from the object surface to the lens of the imaging device (imaging distance between the subject on the object surface and the imaging device) is called the object distance and is expressed by L obj.
  • the distance from the lens to the imaging surface is called the image distance and is represented by L img.
  • the position on the object surface, that is, the distance from the optical axis of the image pickup device on the object surface is represented by X obj.
  • the position on the imaging surface, that is, the distance from the optical axis of the imaging device on the imaging surface is represented by X img.
  • the position X img on the imaging surface corresponding to the position X obj of the subject on the object surface can be expressed by the equation (2).
  • Equation (2) represents a so-called perspective projection transformation.
  • the perspective projection conversion of the equation (2) is performed physically (optically) at the time of actual imaging of the subject by the imaging device.
  • the position X obj of the subject on the object surface corresponding to the position X img on the imaging surface can be expressed by the equation (3).
  • Equation (3) represents the inverse transformation of the perspective projection transformation (perspective projection inverse transformation).
  • the object distance L obj In order to perform the inverse transformation of the perspective projection of the equation (3), the object distance L obj , the image distance L img , and the position X img of the subject on the imaging surface are required.
  • the imaging device that captures the subject can recognize (acquire) the image distance L img and the position X img of the subject on the imaging surface.
  • an object distance L obj with a resolution of pixel unit or close to that is required.
  • any method can be adopted as a method for obtaining the object distance L obj.
  • a so-called stereo method can be adopted in which the distance to the subject is calculated from the parallax obtained by using a plurality of image pickup elements that perform photoelectric conversion.
  • a method of irradiating the subject with a determined optical pattern and calculating the distance to the subject from the shape of the optical pattern projected on the subject can be adopted.
  • a method called ToF (Time of Flight) can be adopted, which calculates the distance to the subject from the time when the reflected light from the subject returns after irradiating the laser beam.
  • a method of calculating the distance to the subject can be adopted by using the image plane phase difference method, which is one of the so-called autofocus methods.
  • the distance to the subject can be calculated by combining a plurality of the above methods.
  • the subject is moved from the virtual imaging position that is different from the actual object distance L obj from the subject by the perspective projection transformation and the perspective projection inverse transformation.
  • a method of generating an imaged (if any) virtual image is described.
  • FIG. 8 is a diagram showing an example of an imaging situation in which a subject existing on a single object surface is imaged.
  • FIG. 8 as in FIG. 1, the imaging situation is shown by the third trigonometry.
  • the subject exists on a single object surface, and the object surface is parallel to the imaging surface of the imaging device. Therefore, the object surface is orthogonal to the optical axis of the image pickup apparatus.
  • FIG. 9 is a top view showing a state of wide-angle imaging in which a subject is imaged from an imaging position close to the subject using a wide-angle lens in the imaging situation of FIG.
  • a subject whose position on the object surface is X obj is imaged from an imaging position separated by an object distance of L obj_W.
  • the image distance at the time of wide-angle imaging is L img_W
  • the position of the subject on the imaging surface is X img_W .
  • FIG. 10 is a top view showing a state of telephoto imaging in which a subject is imaged from an imaging position far from the subject using a telephoto lens in the imaging situation of FIG.
  • the position on the object surface is X obj
  • the same subject as in the case of the wide-angle imaging of FIG. 9 is imaged from the imaging position separated by the object distance L obj_T.
  • the image distance at the time of telephoto imaging is L img_T
  • the position of the subject on the imaging surface is X img_T .
  • the perspective projection inverse transformation equation (4) can be obtained.
  • the perspective projection conversion equation (5) By applying the perspective projection conversion equation (2) to the telephoto imaging of FIG. 10, the perspective projection conversion equation (5) can be obtained.
  • X img_T L img_T / L obj_T ⁇ X obj ... (5)
  • Equation (6) can be obtained by substituting X obj on the left side of equation (4) into X obj on the right side of equation (5).
  • X img_T (L img_T / L obj_T ) ⁇ (L obj_W / L img_W ) ⁇ X img_W ... (6)
  • the coefficient k is defined by the equation (7).
  • equation (6) can be a simple proportional equation of equation (8).
  • wide-angle imaging using a wide-angle lens here, telephoto using a telephoto lens from the position X img_W on the imaging surface in short-range imaging from a short distance.
  • Imaging here the position X img_T on the imaging surface in long-distance imaging from a long distance can be obtained.
  • the image is taken by long-distance imaging based on the information such as the captured image obtained by the actual imaging by short-distance imaging, the virtual image that will be obtained by the imaging by the long-distance imaging. Information can be obtained.
  • imaging from imaging positions with different distances from the subject has been described by taking short-range imaging using a wide-angle lens and long-distance imaging using a telephoto lens as examples. Can be applied when imaging at an arbitrary distance from the subject.
  • a lens having another focal length is used based on information such as an image obtained by imaging from a certain imaging position using a lens having a certain focal length. It is possible to obtain information on a captured image (virtual image) obtained when imaging is performed from another imaging position (virtual imaging position) used.
  • imaging from a certain imaging position using a lens with a certain focal length is an actual imaging, so it is also called an actual imaging.
  • imaging from another imaging position (virtual imaging position) using a lens with another focal length is also called virtual imaging because it is not an actual imaging.
  • FIG. 11 is a diagram illustrating an example of a process of obtaining a virtual image obtained by virtual imaging based on information obtained by actual imaging using equation (8).
  • the position of the subject on the imaging surface X img_W is the position of the point on the subject in the three-dimensional space that is perspectively projected onto the imaging surface of the imaging element which is a two-dimensional plane.
  • the position X obj of the point on the subject in the three-dimensional space (object surface) can be obtained by performing the perspective projection inverse transformation of Eq. (4) with respect to the position X img_W on the imaging surface of the subject.
  • equation (6) the position (variable) X obj of the point on the subject in the three-dimensional space is apparently erased, and the position X img_W on the image plane of the subject at the time of wide-angle imaging as a certain two-dimensional plane. Therefore , it is converted to the position X img_T on the imaging surface of the subject at the time of telescopic imaging as another two-dimensional plane.
  • the position X obj on the subject in the three-dimensional space is once determined.
  • the process of obtaining a virtual image obtained by virtual imaging based on the information obtained by actual imaging includes actual imaging, generation of a virtual subject (model), and virtual imaging. Consists of.
  • a subject in a physical space is subjected to fluoroscopic projection conversion on an imaging element by an optical system (physical lens optical system) such as a physical lens in an imaging device to obtain a two-dimensional image.
  • An captured image is generated.
  • the perspective projection conversion in actual imaging is performed optically with the physical imaging position (physical imaging position) of the imaging apparatus as a parameter.
  • the perspective projection inverse of the equation (4) is calculated by using the distance information from the imaging position to the subject separately obtained by measurement or the like with respect to the captured image obtained by the actual imaging.
  • the transformation is performed, and the subject (subject model) in the three-dimensional space is virtually reproduced (generated).
  • This virtually reproduced subject is also called a virtual subject (model).
  • the virtual subject is (virtually) imaged and a virtual image (virtual image) is generated by performing the perspective projection conversion of the formula (5) on the virtual subject by calculation.
  • a virtual imaging position when imaging a virtual subject is specified as a parameter, and the virtual subject is imaged from the virtual imaging position.
  • FIG. 12 is a diagram showing an example of an imaging situation when the subject exists on a plurality of object surfaces.
  • FIG. 12 as in FIG. 1, the imaging situation is shown by the third trigonometry.
  • FIG. 12 shows an imaging situation when the subject exists on a plurality of object surfaces as described above.
  • equations (6) and (8) are used to set the position X img_W of the subject on the imaging surface as an actual imaging, for example, in a short-distance imaging, as a virtual imaging. For example, it can be converted to the position X img_T of the subject on the imaging surface in long-distance imaging.
  • FIG. 13 is a top view showing a state of wide-angle imaging in which a subject is imaged from an imaging position close to the subject using a wide-angle lens in the imaging situation of FIG.
  • FIG. 14 is a top view showing a state of telephoto imaging in which a subject is imaged from an imaging position far from the subject using a telephoto lens in the imaging situation of FIG.
  • FIGS. 9 and 10 are views in which an object surface and an imaging surface are added to the second subject with respect to FIGS. 9 and 10.
  • the first object surface is the object surface of the first subject
  • the second object surface is the object surface of the second subject. Since the second subject is imaged at the same time as the first subject as the background of the first subject, the imaging surface is the same for the first subject and the second subject in FIGS. 13 and 14, respectively.
  • the second subject whose position on the second object surface is X obj2 is imaged from the imaging position separated by the object distance L obj_W2.
  • the image distance at the time of wide-angle imaging is L img_W
  • the second subject whose position on the second object surface is X obj2 is imaged from the imaging position separated by the object distance L obj_T2.
  • the image distance at the time of telephoto imaging is L img_T
  • the perspective projection inverse transformation equation (9) By applying the perspective projection inverse transformation equation (3) to the wide-angle imaging of FIG. 13, the perspective projection inverse transformation equation (9) can be obtained.
  • X obj2 L obj_W2 / L img_W ⁇ X img_W2 ... (9)
  • the perspective projection conversion equation (10) By applying the perspective projection conversion equation (2) to the telephoto imaging of FIG. 14, the perspective projection conversion equation (10) can be obtained.
  • X img_T2 L img_T / L obj_T2 ⁇ X obj2 ... (10)
  • Equation (11) can be obtained by substituting X obj2 on the left side of equation (9) into X obj2 on the right side of equation (10).
  • X img_T2 (L img_T / L obj_T2 ) ⁇ (L obj_W2 / L img_W ) ⁇ X img_W2 ... (11)
  • equation (11) can be a simple proportional equation of equation (13).
  • wide-angle imaging using a wide-angle lens here, telephoto using a telephoto lens from the position X img_W2 on the imaging surface in short-range imaging from a short distance.
  • Imaging here the position X img_T2 on the imaging plane in long-distance imaging from a long distance can be obtained.
  • the equation (8) is applied to the second object surface.
  • the pixels of the captured image obtained by short-distance imaging can be used as virtual imaging, for example, of the virtual image obtained by long-distance imaging. It can be mapped to pixels.
  • FIG. 15 is a diagram showing a state of short-distance imaging in the imaging situation of FIG. 12 and an captured image obtained by the short-distance imaging.
  • a of FIG. 15 is a top view showing a state of short-distance imaging in which a subject is imaged from an imaging position close to the subject using a wide-angle lens in the imaging situation of FIG.
  • FIG. 15B is a plan view showing an captured image obtained by the short-distance imaging of FIG. 15A, which is equivalent to a front view of the imaging surface viewed from the front.
  • FIG. 15A is a diagram in which a dotted line as an auxiliary line passing through the center of the lens from each end point of the first subject and the second subject is added to FIG.
  • FIG. 16 is a diagram showing a state of long-distance imaging in the imaging situation of FIG. 12 and an captured image obtained by the long-distance imaging.
  • a of FIG. 16 is a top view showing a state of long-distance imaging in which a subject is imaged from an imaging position far from the subject by using a telephoto lens in the imaging situation of FIG.
  • B of FIG. 16 is a plan view showing an captured image obtained by the long-distance imaging of A of FIG. 16, and is equivalent to a front view of the imaging surface viewed from the front as in the case of FIG.
  • FIG. 16A is a diagram in which a dotted line as an auxiliary line passing through the center of the lens from each end point of the first subject and the second subject is added to FIG.
  • the size of the second subject on the imaging surface is larger in the long-distance imaging of FIG. 16 than in the short-distance imaging of FIG.
  • the phenomenon that the size of the second subject on the imaging surface is larger in the long-distance imaging than in the short-distance imaging is due to the perspective method as described in FIGS. 2 and 3.
  • FIG. 17 is a top view showing a state of imaging in which a top view of A in FIG. 15 and a top view of A in FIG. 16 are superposed with a part omitted.
  • the portion M of the second subject is imaged in the long-distance imaging, but is not imaged in the shadow of the first subject in the short-distance imaging.
  • occlusion that is, a state in which the first subject as the subject on the front side hides the second subject as the subject on the back side and cannot be seen may occur.
  • Part M of the second subject is visible in long-distance imaging, but in short-distance imaging, it becomes an occlusion that is hidden behind the first subject and cannot be seen. It is also referred to as an occlusion part (missing part) of the part M of the second subject which is occlusion in this way.
  • the portion M of the second subject as the occlusion portion is not imaged. Therefore, when a virtual image obtained by a long-distance imaging as a virtual imaging is generated by using the equations (8) and (13) based on the captured image obtained by the short-distance imaging, the virtual image is used.
  • the portion M of the second subject as the occlusion portion is omitted because the pixel value cannot be obtained.
  • FIG. 18 is a diagram illustrating mapping of pixel values in the case of generating a virtual image obtained by long-distance imaging as virtual imaging based on an captured image obtained by short-distance imaging as actual imaging. ..
  • the portion M of the second subject is behind the first subject and is an occlusion portion.
  • the position of the second subject X The pixel value of the pixel of img_W2 is the position of the first subject X img_T and the position of the second subject of the virtual image (long-distance image) using the equations (8) and (13). Each is mapped as the pixel value of the pixel of X img_T2.
  • the pixel value of the pixel in which the portion M of the second subject appears should be mapped to the shaded portion.
  • the portion M of the second subject is not captured, and the pixel value of the portion M of the second subject cannot be obtained. Therefore, in the virtual image on the lower side of FIG. 18, the pixel value of the portion M of the second subject cannot be mapped to the shaded portion, and the pixel value is missing.
  • the pixel value is missing in the occlusion portion such as the portion M of the second subject.
  • FIG. 19 is another diagram illustrating mapping of pixel values in the case of generating a virtual image obtained by long-distance imaging as virtual imaging based on an captured image obtained by short-distance imaging as actual imaging. Is.
  • the image picW is an captured image obtained by short-range imaging as an actual imaging
  • the image picT is a virtual image obtained by long-distance imaging as a virtual imaging.
  • the horizontal axis of the two-dimensional coordinates represent the position X Img_W and X Img_W2 lateral captured image PicW
  • the vertical axis represents the position X Img_T and X Img_T2 lateral virtual image PICT.
  • the straight line L1 represents the equation (8)
  • the straight line L2 represents the equation (13).
  • Position X Img_W of pixels of the first subjects in the captured image PicW (pixel values), the position X Img_T pixels (pixels of the first object of the virtual image picT obtained by Equation (8) the position X Img_W as input Value).
  • Pixel position X Img_W2 the second object of the captured image picW is mapped to the pixel position X Img_T2 the second object of the virtual image picT obtained by the equation (13) the position X Img_W2 as input.
  • the shaded part is an occlusion part where the corresponding part is not shown in the captured image picW, and the pixel (pixel value) is missing.
  • FIG. 20 is a diagram illustrating an example of a method of complementing the occlusion portion that supplements the pixels of the occlusion portion.
  • a method of complementing the occlusion portion for example, there is a method of interpolating the pixel (pixel value) of the occlusion portion by using the pixels in the vicinity of the occlusion portion.
  • a method of interpolating pixels for example, an arbitrary method such as a nearest neighbor method, a bilinear method, or a bicubic method can be adopted.
  • the pixel values of nearby pixels are used as they are as the pixel values of the pixels in the occlusion portion.
  • the average value of the pixel values of the peripheral pixels around the pixel of the occlusion portion is used as the pixel value of the pixel of the occlusion portion.
  • the interpolation value obtained by performing three-dimensional interpolation using the pixel values of the peripheral pixels around the pixel of the occlusion portion is used as the pixel value of the pixel of the occlusion portion.
  • the occlusion part is, for example, a monotonous wall surface image
  • the occlusion part is complemented by interpolation using pixels in the vicinity of the occlusion part, so that the image is taken from the virtual image pickup position where the virtual image is taken. It is possible to generate a virtual image that is (almost) similar to the image obtained when this is done.
  • the virtual image is also referred to as a highly reproducible virtual image.
  • the periphery of the occlusion portion is used.
  • a method of interpolating the occlusion portion can be adopted by duplicating an area of a certain area.
  • the method of interpolating the pixels of the occlusion part using the pixels in the vicinity of the occlusion part presupposes that the assumption that the occlusion part will have the same image as the vicinity of the occlusion part is correct.
  • the occlusion part does not have the same image as the vicinity of the occlusion part (when the occlusion part is peculiar compared to the vicinity of the occlusion part), the pixels in the vicinity of the occlusion part are used to use the occlusion part. With the method of interpolating the pixels of, it may not be possible to obtain a virtual image with high reproducibility.
  • the graffiti part of the wall with some graffiti is the occlusion part
  • the graffiti cannot be reproduced by the method of interpolating the pixels of the occlusion part using the pixels in the vicinity of the occlusion part.
  • a virtual image with high reproducibility cannot be obtained.
  • the occlusion part does not have the same image as the vicinity of the occlusion part, in order to obtain a highly reproducible virtual image, as an actual imaging, in addition to the main imaging (original imaging), the occlusion that occurs in the main imaging
  • Auxiliary imaging can be performed from an imaging position different from the imaging position of the main imaging so that the portion is captured. Then, the captured image obtained by the auxiliary imaging can be used to complement the occlusion portion generated in the main imaging.
  • FIG. 20 is a top view illustrating a main imaging and an auxiliary imaging performed as actual imaging of the first subject and the second subject.
  • the actual imaging with the position p201 as the imaging position is performed as the main imaging, and the actual imaging with the positions p202 and p203 shifted to the left and right from the position p201 as the imaging position is performed as an auxiliary imaging, respectively. It is said.
  • the portion M of the second subject which is the occlusion portion
  • the portion M of the second subject which is the occlusion portion in the main imaging
  • a virtual image obtained by virtual imaging is generated based on the captured image obtained by the main imaging from the imaging position p201, and in the virtual image, the portion M (pixel value of) of the second subject serving as the occlusion portion is generated. ) Is complemented with the captured images obtained by the auxiliary imaging from the imaging positions p202 and p203, so that a virtual image with high reproducibility can be obtained.
  • the main imaging and the auxiliary imaging can be performed simultaneously or at different timings using a plurality of imaging devices.
  • the main imaging and the auxiliary imaging can be performed by using one imaging device such as a multi-camera having a plurality of imaging systems.
  • main imaging and the auxiliary imaging can be performed at different timings by using one imaging device having one imaging system.
  • auxiliary imaging can be performed before or after the main imaging.
  • Complementation of the occlusion part can be performed using only a part of information such as the color and texture of the captured image obtained by the auxiliary imaging. Furthermore, the complementation of the occlusion part can also be performed in combination with other methods.
  • the complementation of the occlusion portion is performed by using the captured image obtained by the auxiliary imaging, and the captured image obtained by another main imaging, for example, the captured image obtained by the main imaging performed in the past. Can be done using.
  • the second subject which is the background of the first subject
  • a famous building such as Tokyo Tower
  • the captured image may be stored in an image library such as a stock photo service.
  • the occlusion portion can be performed by using the captured image of the same prominent building, which has been captured in the past and stored in the image library.
  • the occlusion portion can be complemented by using an image published on a network such as the Internet, for example, a photograph published on a website that provides a map search service.
  • Complementation of the occlusion part can be performed using images as well as data (information) other than images.
  • the second subject which is the background of the first subject
  • information such as the shape of the building, the surface finishing method, the paint color, and the like can be obtained as architectural data related to the building of the building.
  • the occlusion part can be complemented by estimating the pixel value of the occlusion part using such building data.
  • the building that is, here, the second subject needs to be identified.
  • the second subject can be specified by image recognition of the captured image in which the second subject is captured, by specifying the position where the actual imaging of the captured image is performed, and the like.
  • the position where the actual image was taken can be specified by referring to the metadata of the captured image such as EXIF (Exchangeable image file format) information.
  • the actual imaging is performed in a situation where the subject is illuminated by a light source such as sunlight.
  • the occlusion part is complemented using the past captured image (captured image captured in the past) or architectural data, the light source (illumination by) at the time of actual imaging is not reflected in the occlusion part.
  • the color of the occlusion part (the part that was) is changed. , It can be an unnatural color compared to the color of other parts.
  • the intensity and color temperature of the light that illuminates the subject are affected by the weather. If meteorological data is available, the weather at the time of actual imaging is identified from the meteorological data, and the light that illuminates the subject at the time of actual imaging performed under sunlight from that weather. Illumination light information such as intensity and color temperature can be estimated.
  • the occlusion part is complemented by using the past captured images and architectural data, and the color of the occlusion part is the color when the subject is illuminated by the light represented by the illumination light information. Color tone correction can be performed.
  • the color of the occlusion part can be made a natural color compared with the color of other parts, and a virtual image with high reproducibility can be obtained.
  • complementation of the occlusion part can be performed using, for example, a learning model in which machine learning has been performed.
  • the captured images obtained by actually performing short-distance imaging and long-distance imaging can be used as training data, for example.
  • Learning the learning model so that the captured image obtained by the short-distance imaging performed as the actual imaging is input and the image of the occlusion part of the virtual image obtained by the long-distance imaging performed as the virtual imaging is output. It can be carried out.
  • the occlusion part can be complemented by the image.
  • the complementing method for complementing the occlusion part is not particularly limited. However, by adopting a complementary method that can be performed with one imaging device or even a small number of imaging devices, it is possible to suppress a decrease in mobility at the imaging site and to perform a desired position (virtual imaging position). ), The image (virtual image) captured from) can be easily obtained. In particular, by adopting a complementary method that can be performed by one imaging device, it is possible to maximize the mobility at the imaging site.
  • FIG. 21 is a diagram illustrating another example of the process of obtaining a virtual image obtained by virtual imaging based on the information obtained by actual imaging.
  • the process of obtaining a virtual image obtained by virtual imaging based on the information obtained by actual imaging is the same as in the case of FIG. 11, the actual imaging, the generation of the virtual subject (model), and the process of obtaining the virtual subject (model). , Consists of virtual imaging. However, in FIG. 21, in the case of FIG. 11, the complement of the occlusion portion is added.
  • an captured image (actual captured image), which is a two-dimensional image, is generated (captured) as in the case of FIG.
  • the virtual subject as a corrected model is reproduced (generated) from the captured image obtained by the actual imaging by using the distance information from the imaging position of the actual imaging to the subject and the coping model information. Will be done.
  • the coping model information is knowledge information for coping with occlusion, for example, a captured image captured in the past (past captured image), an captured image obtained by auxiliary imaging (auxiliary captured image), and architectural data. , And one or more such as meteorological data.
  • the virtual subject is generated by performing the perspective projection inverse transformation of the captured image obtained in the actual imaging using the distance information.
  • the virtual imaging position is given as a parameter, and in the virtual imaging performed later, the imaging portion of the virtual subject imaged from the virtual imaging position is specified.
  • the missing portion where the pixel (pixel value) of the captured image is missing that is, the occlusion portion that is occlusion when the virtual subject is viewed from the virtual imaging position.
  • a virtual image is generated by the perspective projection conversion as in the case of FIG.
  • the target of the perspective projection conversion is not the virtual subject itself generated by performing the perspective projection inverse conversion of the captured image obtained in the actual imaging, but the occlusion of the virtual subject. It is different from the case of FIG. 11 in that it is a virtual subject as a corrected model in which a part is complemented.
  • the corrected model is (virtually) imaged from the virtual imaging position by performing perspective projection conversion on the corrected model, and a virtual image (virtual image) is generated.
  • a virtual image virtual image
  • the range of complementation can be minimized by performing the complementation only for the occlusion part that is occlusion when the virtual subject is viewed from the virtual imaging position.
  • the auxiliary imaging can be performed in the minimum necessary range, and deterioration of mobility during imaging can be suppressed.
  • auxiliary imaging by imaging a range slightly wider than the minimum necessary, it is possible to finely correct the virtual imaging position after imaging.
  • FIG. 22 is a plan view showing an example of a captured image and a virtual image.
  • imaging is performed when one of the short-distance imaging and the long-distance imaging is actually captured and the other is imaged.
  • the generation method for generating the virtual image to be generated has been described. That is, a position that is moved along the optical axis of the imaging device at the time of imaging and differs only in the imaging distance from the imaging position where the captured image is actually captured is set as the virtual imaging position, and the virtual imaging position is based on the captured image.
  • the generation method for generating a virtual image captured from is described.
  • the above-mentioned method for generating a virtual image can also be applied when a position moved from the imaging position of the captured image in a direction not along the optical axis of the imaging device is set as the virtual imaging position. That is, the above-mentioned virtual image generation is performed along the optical axis of the imaging device, in addition to the case of generating a virtual image of the subject from the imaging position of the captured image and the position moved along the optical axis of the imaging device. It can also be applied when a virtual image (another virtual image) of an image of a subject is generated from a position moved in a non-direction.
  • the optical axis of the image pickup device When the optical axis of the image pickup device is directed toward the subject and the subject is imaged, the position moved along the optical axis of the image pickup device at the time of actual imaging from the image pickup position of the captured image is actually taken as the virtual image pickup position.
  • the optical axis of the image pickup apparatus coincides between the image pickup and the virtual image pickup.
  • the imaging device when the position moved from the imaging position of the captured image in a direction not along the optical axis of the imaging device at the time of actual imaging is set as the virtual imaging position, the imaging device is used in the actual imaging and the virtual imaging.
  • the optical axis of is different.
  • the virtual imaging position is a position moved from the imaging position of the captured image in a direction not along the optical axis of the imaging device, for example, actual imaging is performed in the imaging situation of FIG. 1, and virtual imaging is performed. Is applicable in the case of performing the above in the imaging situation shown in FIG.
  • a of FIG. 22 shows an captured image obtained by actual imaging in the imaging situation of FIG. 1.
  • FIG. 22 shows a bird's-eye view image as an captured image obtained by actual imaging in the imaging situation of FIG.
  • C in FIG. 22 performs virtual imaging on a virtual subject generated by using distance information based on the image captured in A in FIG. 22 with the imaging position in the imaging state of FIG. 4 as the virtual imaging position.
  • the virtual image obtained (generated) by the above is shown.
  • the occlusion part that is occlusion when the virtual subject is viewed from the virtual image pickup position is complemented by using the coping model information, and the corrected virtual subject after the complementation is complemented.
  • a method of complementing the occlusion part a method of interpolating the occlusion part using pixels in the vicinity of the occlusion part described above, a method of using an captured image obtained by auxiliary imaging, or a method of using an image captured in the past can be used. It is possible to adopt a method to be used, a method to use a learning model learned by machine learning, a method to use architectural data, and the like.
  • FIG. 23 is a diagram illustrating a method of expressing a virtual imaging position when performing virtual imaging.
  • the actual imaging position for imaging is determined by physically (actually) installing the imaging device.
  • a virtual imaging position is required in addition to the imaging position of the actual imaging, and it is necessary to specify the virtual imaging position.
  • a designation method for designating the virtual imaging position for example, a method of automatically designating a position moved by a predetermined distance in a predetermined direction with respect to the imaging position as a virtual imaging position can be adopted. Further, as a designation method for designating the virtual imaging position, for example, a method of having the user specify the position can be adopted.
  • the UI when the user specifies the virtual imaging position will be described below, but before that, the expression method of the virtual imaging position will be described.
  • the virtual imaging position is represented by a spherical coordinate system (coordinates) centered (origin) at the position of the subject (which intersects the optical axis of the imaging device). do.
  • the optical axis of the imaging device (physically existing physical imaging device), that is, the intersection of the optical axis of the imaging device (optical system) and the subject is defined as the center of the subject.
  • the optical axis of the image pickup device passes through the center of the image pickup device of the image pickup device and coincides with a straight line perpendicular to the image pickup device.
  • optical axis connecting the center of the image sensor of the image sensor and the center of the subject is called the physical optical axis
  • the optical axis connecting the virtual imaging position and the center of the subject is called the virtual optical axis. ..
  • the virtual imaging position is the amount of rotation in the azimuth direction (azimuth angle) ⁇ v and the amount of rotation in the elevation angle direction (elevation angle) with respect to the physical optical axis of the virtual optical axis. ) ⁇ v and the distance r v between the subject on the virtual optical axis and the virtual imaging position can be expressed.
  • the distance r r represents the distance between the subject on the physical optical axis and the imaging position.
  • the distance r v shown in the top view represents a distance along a virtual optical axis, not a distance component on a plane.
  • FIG. 24 is a plan view showing an example of a UI that is operated when the user specifies a virtual imaging position.
  • the UI has operation buttons such as a C button, a TOP button, a BTM button, a LEFT button, a RIGHT button, a SHORT button, a LONG button, a TELE button, and a WIDE button.
  • buttons such as a C button, a TOP button, a BTM button, a LEFT button, a RIGHT button, a SHORT button, a LONG button, a TELE button, and a WIDE button.
  • the UI can be configured by using a rotary dial, a joystick, a touch panel, and other operation units in addition to the operation buttons. Further, when the UI is configured by using the operation buttons, the arrangement of the operation buttons is not limited to the arrangement shown in FIG. 24.
  • An imaging device to which this technology is applied can generate a virtual image similar to the captured image obtained by imaging a subject from a virtual imaging position in real time and output it to a display unit such as a viewfinder in real time.
  • the display unit can display the virtual image as a so-called through image in real time.
  • the azimuth angle ⁇ v can be specified by operating the LEFT button or the RIGHT button.
  • the azimuth angle ⁇ v changes in the negative direction by a predetermined fixed amount.
  • the azimuth angle ⁇ v changes in the positive direction by a predetermined fixed amount.
  • the elevation angle ⁇ v can be specified by operating the TOP button or the BTM button.
  • the TOP button When the TOP button is pressed, the elevation angle ⁇ v changes in the positive direction by a predetermined fixed amount.
  • the BTM button When the BTM button is pressed, the elevation angle ⁇ v changes in the negative direction by a predetermined fixed amount.
  • the distance r v can be specified by operating the SHORT button or the LONG button.
  • the distance r v changes in the negative direction by a predetermined fixed amount or a fixed magnification.
  • the LONG button is pressed, the distance r v changes in the positive direction by a predetermined fixed amount or a fixed magnification.
  • the UI includes the C button, TOP button, BTM button, LEFT button, RIGHT button, SHORT button, LONG button, and other virtual imaging positions related to the designation of the virtual imaging position.
  • a TELE button and a WIDE button for designating the focal length of the virtual imaging device (hereinafter, also referred to as the virtual focal length) when performing the virtual imaging of the above are provided.
  • the virtual focal length changes in the direction of increasing by a predetermined fixed amount or a fixed magnification. Further, when the WIDE button is pressed, the virtual focal length changes in the direction of shortening by a predetermined fixed amount or a fixed magnification.
  • the image distances L img_W and L img_T of the equations (4) and (5) are determined according to the virtual focal length.
  • the method of changing the azimuth angle ⁇ v, etc. with respect to the operation of the operation buttons of the UI is not limited to the above.
  • the virtual imaging position and virtual focal length such as the azimuth angle ⁇ v are continuously changed, and the long press is continued. Convenience can be enhanced by changing the virtual imaging position such as the azimuth angle ⁇ v and the amount of change in the virtual focal length according to the time.
  • the method of specifying the virtual imaging position is not limited to the method of operating the UI.
  • the position of the gazing point is designated (set) as the virtual imaging position.
  • the imaging device when displaying a virtual image obtained by virtual imaging from a virtual imaging position specified by a UI operation or the like in real time, the occlusion portion is displayed so that the user can recognize it. can do.
  • the accuracy of the information of the complement portion complemented by the occlusion portion may be inferior to the image obtained by actually capturing the image from the virtual imaging position.
  • the virtual image is displayed so that the user can recognize the occlusion portion that becomes the occlusion in the virtual image obtained by the virtual imaging from the virtual imaging position. , Can be displayed on the display unit.
  • the user of the imaging device can recognize which part of the subject is the occlusion part by looking at the virtual image displayed on the display unit. Then, by recognizing which part of the subject becomes the occlusion part, the user of the imaging device can consider the actual imaging position of the image so that the important part of the subject does not become the occlusion part for the user. can. That is, the imaging position can be considered so that an important part of the subject is captured by the user in the captured image obtained by the actual imaging.
  • the part of the subject that becomes the occlusion part becomes.
  • Auxiliary imaging can be performed so that it can be captured.
  • the occlusion part in the virtual image is displayed in a specific color.
  • a method, a method of reversing the gradation of the occlusion portion at a predetermined cycle such as 1 second, or the like can be adopted.
  • FIG. 25 is a block diagram showing a configuration example of an embodiment of an imaging device such as a digital camera to which the present technology is applied.
  • the image pickup device 100 includes an image pickup optical system 2, an image pickup element 3, a distance sensor 5, an inverse conversion unit 7, a correction unit 9, a conversion unit 11, a display unit 13, UI 15, a storage unit 17, and recording units 21 to 23. And, it has an output unit 24.
  • the imaging device 100 can be applied to imaging both moving images and still images.
  • the image pickup optical system 2 collects the light from the subject on the image pickup element 3 to form an image. As a result, the subject in the three-dimensional space is transformed into a perspective projection on the image sensor 3.
  • the image sensor 3 receives the light from the image pickup optical system 2 and performs photoelectric conversion to generate an image pickup image 4 which is a two-dimensional image having a pixel value corresponding to the amount of light received, and the inverse conversion unit 7 Supply to.
  • the distance sensor 5 measures and outputs distance information 6 to each point of the subject.
  • the distance information 6 output by the distance sensor 5 is supplied to the inverse conversion unit 7.
  • the distance information 6 of the subject can be measured by an external device and supplied to the inverse transformation unit 7.
  • the image pickup apparatus 100 can be configured without providing the distance sensor 5.
  • the inverse transformation unit 7 performs perspective projection inverse transformation of the captured image 4 from the image sensor 3 using the distance information 6 from the distance sensor 5, and generates and outputs a virtual subject as three-dimensional data 8.
  • the correction unit 9 complements the occlusion portion of the virtual subject as the three-dimensional data 8 output by the inverse transformation unit 7, and outputs the complemented virtual subject as the corrected model 10.
  • the conversion unit 11 performs perspective projection conversion of the corrected model 10 output by the correction unit 9, and outputs a virtual image 12 which is a two-dimensional image obtained as a result.
  • the display unit 13 displays the virtual image 12 output by the conversion unit 11.
  • the display unit 13 can display the virtual image 12 in real time.
  • the UI 15 is configured as shown in FIG. 24, for example, and is operated by a user who is an imager, for example, an image pickup device 100. The user can operate the UI 15 for designating the virtual imaging position 16 while viewing the virtual image displayed on the display unit 13.
  • the UI 15 sets and outputs the virtual imaging position 16 according to the user's operation.
  • the correction unit 9 complements the occlusion portion that becomes an occlusion when the virtual subject is viewed from the virtual imaging position 16 output by the UI 15.
  • the correction unit 9 specifies an occlusion portion that becomes an occlusion when the virtual subject is viewed from the virtual imaging position 16. After that, the correction unit 9 complements the occlusion portion, and the complemented virtual subject is output as the corrected model 10.
  • the virtual image 12 which is a two-dimensional image obtained by imaging the corrected model 10 output by the correction unit 9 from the virtual imaging position 16 output by the UI 15 is subjected to the perspective projection conversion of the corrected model 10. Will be generated.
  • the display unit 13 displays the virtual image 12 obtained by imaging the corrected model 10 from the virtual imaging position 16 set according to the operation of the UI 15 by the user in real time.
  • the user can specify the virtual imaging position 16 from which the desired virtual image 12 can be obtained by operating the UI 15 while looking at the virtual image 12 displayed on the display unit 13.
  • the occlusion portion can be complemented by interpolating the occlusion portion using pixels in the vicinity of the occlusion portion. Further, the complementation of the occlusion portion can be performed by obtaining the past captured image 18, the building data 19, the weather data 20, etc. as the coping model information from the outside and using the coping model information.
  • the occlusion part can be complemented by using an captured image obtained by auxiliary imaging, a machine-learned learning model, or the like as other coping model information.
  • the inverse transformation unit 7 displays the three-dimensional data 8 generated from the captured image 4 obtained by the auxiliary imaging.
  • the virtual subject is stored in the storage unit 17.
  • the storage unit 17 stores the virtual subject as the three-dimensional data 8 generated from the captured image 4 obtained by the auxiliary imaging in the inverse transformation unit 7.
  • the virtual subject as the three-dimensional data 8 stored in the storage unit 17 and generated from the captured image 4 obtained by the auxiliary imaging is obtained by the main imaging performed after the auxiliary imaging in the correction unit 9. It can be used to complement the occlusion portion that is occlusion when the virtual subject as the three-dimensional data 8 generated from the captured image 4 is viewed from the virtual imaging position 16.
  • the inverse transformation unit 7 performs a virtual subject as three-dimensional data 8 generated from the captured image 4 obtained by the main imaging. Is recorded in the recording unit 23.
  • the recording unit 23 stores the virtual subject as the three-dimensional data 8 generated from the captured image 4 obtained by the main imaging in the inverse transformation unit 7.
  • Complementing the occlusion portion of the virtual subject as the three-dimensional data 8 generated from the captured image 4 obtained by the main imaging recorded in the recording unit 23 is supplemented in the correction unit 9 after the main imaging. This can be performed using a virtual subject as three-dimensional data 8 generated from the captured image 4 obtained by imaging.
  • the auxiliary imaging when the auxiliary imaging is performed after the main imaging, the captured image obtained by the main imaging is waited for the auxiliary imaging to be performed after the main imaging.
  • the occlusion part of the virtual subject as the three-dimensional data 8 generated from is complemented.
  • the occlusion portion When the occlusion portion is complemented, it is difficult to generate the virtual image 12 from the captured image 4 obtained by the main imaging in real time. Therefore, when the generation of a virtual image in real time is required, the auxiliary imaging needs to be performed prior to the main imaging, not after the main imaging.
  • the recording unit 21 records the virtual image 12 output by the conversion unit 11.
  • the virtual image 12 recorded in the recording unit 21 can be output to the display unit 13 and the output unit 24.
  • the recording unit 22 records the corrected model 10 output by the correction unit 9.
  • a wide range portion (virtual imaging position 16) that is somewhat wider than the occlusion portion, including an occlusion portion that is occlusion when the virtual subject is viewed from the virtual imaging position 16 from the UI 15. It changes slightly, and when the virtual subject is viewed from the virtual imaging position 16 after the change, the portion including the portion of the virtual subject that becomes a new occlusion portion) can be complemented.
  • the recording unit 22 can record the corrected model 10 in which such a wide range of complement is performed.
  • the corrected model 10 recorded in the recording unit 22 with the complement of a wide range portion is used as the target of the perspective projection conversion of the conversion unit 11, and the virtual imaging position 16 is finely modified (finely adjusted). 12 can be generated. Therefore, after capturing the captured image 4 that is the basis of the corrected model 10 in which the wide area is complemented, the corrected model 10 in which the wide area is complemented recorded in the recording unit 22 is used. It is possible to generate a virtual image 12 in which the virtual imaging position 16 is slightly modified.
  • the recording unit 23 records the virtual subject as the three-dimensional data 8 output by the inverse transformation unit 7, that is, the virtual subject before the occlusion portion is complemented by the correction unit 9.
  • the virtual subject recorded in the recording unit 23 is processed to confirm the authenticity of, for example, when the virtual image 12 is used in news or the like and the authenticity of a part of the virtual image 12 is questioned. No, so to speak, it can be referred to as true data.
  • the recording unit 23 contains the captured image that is the source of the generation of the virtual subject as the three-dimensional data 8 together with the virtual subject as the three-dimensional data 8 or instead of the virtual subject as the three-dimensional data 8. 4 can be recorded.
  • the output unit 24 is an I / F (interface) that outputs data to the outside of the image pickup apparatus 100, and outputs the virtual image 12 output by the conversion unit 11 to the outside in real time.
  • the output unit 24 delivers the virtual image 12 to the external device in real time. be able to.
  • the virtual image 12 is output from the output unit 24 to the external display unit.
  • the virtual image 12 is displayed in real time on the external display unit.
  • the inverse transformation unit 7 performs three-dimensional transformation of the captured image 4 from the image sensor 3 by using the distance information 6 from the distance sensor 5.
  • a virtual subject as data 8 is generated.
  • the correction unit 9 occludes when the virtual subject as the three-dimensional data 8 generated by the inverse transformation unit 7 is viewed from the virtual imaging position 16 from the UI 15 using the coping model information such as the past captured image 18.
  • the complemented virtual subject as the corrected model 10 in which the virtual subject is corrected is obtained.
  • the conversion unit 11 uses the corrected model 10 obtained by the correction unit 9 to generate a virtual image 12 obtained by capturing the corrected model 10 from the virtual imaging position 16 by perspective projection conversion.
  • the inverse transformation unit 7, the correction unit 9, and the conversion unit 11 use the distance information 6 from the imaging position to the subject and the coping model information to obtain the imaging position from the captured image 4 in which the subject is captured from the imaging position. It can be said that the generation unit that generates the virtual image 12 in which the subject is imaged from the virtual imaging position 16 different from the above is configured.
  • FIG. 26 is a flowchart illustrating an example of processing in the generation unit.
  • step S1 the generation unit uses the distance information 6 and the coping model information (knowledge information) to deal with the occlusion of the past captured image 18, etc., from the captured image 4 to a virtual imaging position different from the captured image 4.
  • a virtual image 12 captured from 16 is generated.
  • step S11 the inverse transformation unit 7 of the generation unit generates the virtual subject as the three-dimensional data 8 by performing the perspective projection inverse transformation of the captured image 4 using the distance information 6.
  • step S12 the inverse transformation unit 7 of the generation unit generates the virtual subject as the three-dimensional data 8 by performing the perspective projection inverse transformation of the captured image 4 using the distance information 6. The process proceeds to step S12.
  • step S12 when the correction unit 9 sees the virtual subject as the three-dimensional data 8 generated by the inverse transformation unit 7 from the virtual imaging position 16 using the coping model information such as the past captured image 18.
  • a corrected model 10 three-dimensional data 8 with the occlusion portion complemented
  • step S13 the conversion unit 11 uses the corrected model 10 generated by the correction unit 9 to generate a virtual image obtained by capturing the corrected model 10 from the virtual imaging position 16 by perspective projection conversion.
  • the imaging device 100 for example, even in a situation where it is difficult to image a subject from a desired imaging position (viewpoint), an image captured from a certain imaging position (viewpoint) that can be imaged and an image captured.
  • the distance information from the imaging position to the subject and the coping model information as auxiliary information other than the distance information obtained separately, from the virtual imaging position as a desired imaging position different from the actual imaging position. It is possible to generate a virtual image captured in a pseudo manner. Therefore, an image (virtual image) captured from a desired position can be easily obtained.
  • a virtual image as if the image was taken from a position behind the wall surface in front of the person is captured. Can be generated.
  • the image pickup device 100 in an image pickup situation in which the user of the image pickup device 100 cannot approach the subject, such as an image pickup situation in which the user of the image pickup device 100 takes an image of the outside through a window while riding in a room or a vehicle, the user It is possible to generate a virtual image as if it was taken close to the subject.
  • a virtual image such as the bird's-eye view image shown in FIG. 5 can be generated without using a stepladder, a drone, or the like.
  • the image pickup apparatus 100 for example, when the subject is a person and the line of sight of the person is not facing the image pickup device, the position at the tip of the line of sight is set as the virtual image pickup position, so that the virtual image of the camera's line of sight is virtual. Images can be generated.
  • the imaging device 100 by setting the virtual imaging position to the position of the eyeball of the head of the user who is the imager, it is possible to generate a virtual image in which the state seen from the user's viewpoint is captured. By displaying such a virtual image on a spectacle-type display, electronic spectacles without parallax can be constructed.
  • a series of processes of the inverse conversion unit 7, the correction unit 9, and the conversion unit 11 that constitute the above-mentioned generation unit can be performed by hardware or software.
  • the programs constituting the software are installed on a general-purpose computer or the like.
  • FIG. 27 is a block diagram showing a configuration example of an embodiment of a computer in which a program for executing the above-mentioned series of processes is installed.
  • the program can be recorded in advance on the hard disk 905 or ROM 903 as a recording medium built in the computer.
  • the program can be stored (recorded) in the removable recording medium 911 driven by the drive 909.
  • a removable recording medium 911 can be provided as so-called package software.
  • examples of the removable recording medium 911 include a flexible disc, a CD-ROM (Compact Disc Read Only Memory), a MO (Magneto Optical) disc, a DVD (Digital Versatile Disc), a magnetic disc, and a semiconductor memory.
  • the program can be installed on the computer from the removable recording medium 911 as described above, or can be downloaded to the computer via a communication network or a broadcasting network and installed on the built-in hard disk 905. That is, for example, the program transfers wirelessly from a download site to a computer via an artificial satellite for digital satellite broadcasting, or transfers to a computer by wire via a network such as LAN (Local Area Network) or the Internet. be able to.
  • LAN Local Area Network
  • the computer has a built-in CPU (Central Processing Unit) 902, and the input / output interface 910 is connected to the CPU 902 via the bus 901.
  • CPU Central Processing Unit
  • the CPU 902 executes a program stored in the ROM (Read Only Memory) 903 accordingly. .. Alternatively, the CPU 902 loads the program stored in the hard disk 905 into the RAM (Random Access Memory) 904 and executes it.
  • ROM Read Only Memory
  • the CPU 902 performs processing according to the above-mentioned flowchart or processing performed according to the above-mentioned block diagram configuration. Then, the CPU 902 outputs the processing result from the output unit 906, transmits it from the communication unit 908, and further records it on the hard disk 905, if necessary, via the input / output interface 910.
  • the input unit 907 is composed of a keyboard, a mouse, a microphone, and the like. Further, the output unit 906 is composed of an LCD (Liquid Crystal Display), a speaker, or the like.
  • LCD Liquid Crystal Display
  • the processing performed by the computer according to the program does not necessarily have to be performed in chronological order in the order described as the flowchart. That is, the processing performed by the computer according to the program also includes processing executed in parallel or individually (for example, parallel processing or processing by an object).
  • the program may be processed by one computer (processor) or may be distributed processed by a plurality of computers. Further, the program may be transferred to a distant computer and executed.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • a generation unit that uses distance information from the imaging position to the subject and model information to generate a virtual image of the subject from a virtual imaging position different from the imaging position from the captured image obtained by imaging the subject from the imaging position.
  • the generator A virtual subject is generated by performing a perspective projection inverse transformation of the captured image using the distance information.
  • a corrected model in which the virtual subject is corrected is generated.
  • ⁇ 7> The imaging device according to ⁇ 1>, further comprising a UI (User Interface) for designating the virtual imaging position.
  • UI User Interface
  • ⁇ 8> The imaging device according to any one of ⁇ 1> to ⁇ 7>, which outputs the virtual image to a display unit in real time.
  • the UI is A first operation unit operated when determining the center of the spherical coordinate system representing the virtual imaging position, and A second operation unit operated when changing the azimuth angle of the virtual imaging position in the spherical coordinate system, A third operation unit operated when changing the elevation angle of the virtual imaging position in the spherical coordinate system,
  • the imaging device according to ⁇ 7> which has a fourth operating unit that is operated when changing the distance between the center of the spherical coordinate system and the virtual imaging position.
  • the UI further includes a fifth operation unit that is operated when changing the focal length of the virtual imaging device when performing virtual imaging from the virtual imaging position. ..
  • ⁇ 11> The imaging device according to ⁇ 10>, wherein the UI continuously changes the virtual imaging position or the focal length while the operation of any of the first to fifth operation units is continued.
  • ⁇ 12> The imaging device according to ⁇ 10>, wherein the UI changes the amount of change in the virtual imaging position or the focal length according to the time during which the operation of any of the first to fifth operation units is continued. .. ⁇ 13>
  • the UI is an imaging device according to any one of ⁇ 1> to ⁇ 12>, which designates a gazing point at which a user is gazing at the virtual imaging position.
  • Imaging method including. ⁇ 15> A generation unit that uses distance information from the imaging position to the subject and model information to generate a virtual image of the subject from a virtual imaging position different from the imaging position from the captured image obtained by imaging the subject from the imaging position.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Processing (AREA)

Abstract

本技術は、所望の位置から撮像された画像を、容易に得ることができるようにする撮像装置、撮像方法、及び、プログラムに関する。 撮像位置から被写体までの距離情報とモデル情報とを用いて、撮像位置から被写体を撮像した撮像画像から、撮像位置と異なる仮想撮像位置から被写体を撮像した仮想画像が生成される。本技術は、例えば、被写体を撮像する撮像装置に適用することができる。

Description

撮像装置、撮像方法、及び、プログラム
 本技術は、撮像装置、撮像方法、及び、プログラムに関し、特に、例えば、所望の位置から撮像された画像を、容易に得ることができるようにする撮像装置、撮像方法、及び、プログラムに関する。
 例えば、特許文献1には、実際の撮像位置とは異なる仮想的な仮想撮像位置から撮像された仮想画像を得る技術として、多数の撮像装置を用いて被写体を様々な撮像位置から撮像し、その撮像により得られる撮像画像から、高精度な3次元データを生成する技術が記載されている。
特開2019-103126号公報
 特許文献1の記載の技術では、多数の撮像装置を様々な位置に配置する必要がある。したがって、撮像装置の費用や設置に要する手間等から、容易に実現できない場合も多い。
 また、多数の撮像装置を配置する場合には、ある撮像装置が他の撮像装置に写り込むことや、被写体が動体であるときに、被写体が撮像装置にぶつからないように配慮する必要があり、必ずしも任意の位置に撮像装置を設置できるわけではない。
 本技術は、このような状況に鑑みてなされたものであり、所望の位置から撮像された画像を、容易に得ることができるようにするものである。
 本技術の撮像装置、又は、プログラムは、撮像位置から被写体までの距離情報とモデル情報とを用いて、前記撮像位置から前記被写体を撮像した撮像画像から、前記撮像位置と異なる仮想撮像位置から前記被写体を撮像した仮想画像を生成する生成部を備える撮像装置、又は、そのような撮像装置としてコンピュータを機能させるためのプログラムである。
 本技術の撮像方法は、撮像位置から被写体までの距離情報とモデル情報とを用いて、前記撮像位置から前記被写体を撮像した撮像画像から、前記撮像位置と異なる仮想撮像位置から前記被写体を撮像した仮想画像を生成することを含む撮像方法である。
 本技術の撮像装置、撮像方法、及び、プログラムにおいては、撮像位置から被写体までの距離情報とモデル情報とを用いて、前記撮像位置から前記被写体を撮像した撮像画像から、前記撮像位置と異なる仮想撮像位置から前記被写体を撮像した仮想画像が生成される。
 なお、撮像装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
 また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
撮像状況の例を示す図である。 撮像状況と、その撮像状況で撮像される撮像画像との例を示す図である。 撮像状況と、その撮像状況で撮像される撮像画像との他の例を示す図である。 撮像状況の他の例を示す図である。 人物の手前の上方から、人物及び建物を撮像することにより得られる撮像画像を示す図である。 人物から遠距離の位置からの撮像を行うことができない撮像状況の例を示す上面図である。 撮像装置で撮像が行われるときの透視投影変換を説明する図である。 単一の物体面上に存在する被写体を撮像する撮像状況の例を示す図である。 広角レンズを用いて、被写体に近い撮像位置から被写体を撮像する広角撮像の様子を示す上面図である。 望遠レンズを用いて、被写体から遠い撮像位置から被写体を撮像する望遠撮像の様子を示す上面図である。 仮想画像を得る過程の例を説明する図である。 被写体が複数の物体面に存在する場合の撮像状況の例を示す図である。 広角レンズを用いて、被写体に近い撮像位置から被写体を撮像する広角撮像の様子を示す上面図である。 望遠レンズを用いて、被写体から遠い撮像位置から被写体を撮像する望遠撮像の様子を示す上面図である。 近距離撮像の様子と、その近距離撮像により得られる撮像画像とを示す図である。 遠距離撮像の様子と、その遠距離撮像により得られる撮像画像とを示す図である。 撮像の様子を示す上面図である。 実際の撮像としての近距離撮像により得られる撮像画像を元に、仮想的な撮像としての遠距離撮像により得られる仮想画像を生成する場合の画素値のマッピングを説明する図である。 実際の撮像としての近距離撮像により得られる撮像画像を元に、仮想的な撮像としての遠距離撮像により得られる仮想画像を生成する場合の画素値のマッピングを説明する他の図である。 オクルージョン部分の画素を補うオクルージョン部分の補完方法の例を説明する図である。 実際の撮像により得られる情報を元に、仮想的な撮像により得られる仮想画像を得る過程の他の例を説明する図である。 撮像画像及び仮想画像の例を示す平面図である。 仮想的な撮像を行う場合の仮想撮像位置の表現方法を説明する図である。 ユーザが仮想撮像位置を指定する場合に操作されるUIの例を示す平面図である。 本技術を適用した撮像装置の一実施の形態の構成例を示すブロック図である。 生成部の処理の例を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 <撮像距離と撮像画像との関係>
 図1は、撮像装置による撮像状況の例を示す図である。
 図1では、撮像状況が、第三角法で示されている。
 図1では、撮像装置側から見て、建物の手前に人物が立っており、人物の手前側から、撮像装置で、人物と建物とが撮像されている。
 以下、図1の撮像状況において、撮像装置で実際に撮像される画像(撮像画像)を説明する。
 図2は、撮像装置による撮像状況と、その撮像状況で撮像される撮像画像との例を示す図である。
 図2のAは、撮像状況を示す上面図であり、図2のBは、図2のAの撮像状況で撮像される撮像画像を示している。
 図2のAにおいて、二点鎖線は、撮像装置の画角を表し、画角内の空間が撮像装置で撮像される。図2のAにおいて、破線は、主要な被写体(主要被写体)である人物が占める画角を表す。
 図2のAの撮像状況では、撮像装置で撮像が行われるときの撮像装置と人物との間の距離(撮像距離)に対して、人物と建物との間の距離が比較的遠距離になっている。このため、実際には、人物の背後に存在する建物の幅は、人物の幅よりも広いが、撮像画像では、建物の幅は、人物の幅よりも狭く写る。いわゆる遠近法によって、遠くのものが小さく見えるからである。
 図3は、撮像装置による撮像状況と、その撮像状況で撮像される撮像画像との他の例を示す図である。
 図3のAは、撮像状況を示す上面図であり、図3のBは、図3のAの撮像状況で撮像される撮像画像を示している。
 図3のAでは、図2のAと同様に、二点鎖線は、撮像装置の画角を表し、破線は、人物が占める画角を表す。
 図3のAでは、図2のAの場合よりも、被写体から遠い撮像位置から、画角の狭い望遠レンズ(又は焦点距離を長くした状態のズームレンズ)を用いて、図2のAの場合と同一の被写体としての人物及び建物の撮像が行われている。
 図3のAの撮像状況では、図3のBに示すように、実際と同様に、建物の幅が人物の幅よりも広く写る撮像画像が撮像される。図3のAの撮像状況では、撮像装置と人物との間の撮像距離が、図2のAの場合よりも大きく、人物と建物との間の距離が相対的に小さくなって、遠近感が軽減されるからである。
 以上のように、同一の被写体(人物及び建物)の撮像であっても、被写体と撮像装置との間の撮像距離によって、得られる撮像画像の内容(構図)は異なる。
 撮像距離によって撮像画像(の内容)が異なることは、映像表現において重要な意味を持つ。端的な例で言えば、広大な山々といった風景を背景にした画像を得たい場合、より広角のレンズを用いて被写体に近づいて撮像する必要がある。逆に雑多な背景がなるべく写らない画像を得たい場合、より望遠のレンズを用いて被写体から遠ざかって撮像する必要がある。
 なお、原理的には、無限遠から撮像を行えば、撮像画像に写る人物と建物との大きさの比率は、実際の比率に等しくなる。したがって、建築用の用途や学術的用途等において、実際の大きさの比率を正しく反映させた撮像画像を得るには、より遠くから撮像を行う必要がある。
 図4は、撮像装置による撮像状況の他の例を示す図である。
 図4では、図1と同様に、撮像状況が、第三角法で示されている。
 図1の撮像状況では、撮像装置の光軸方向が、人物から建物への方向と略一致している。この場合、撮像装置で撮像される撮像画像は、図2のBや図3のBに示したように、人物と建物との間の距離感が表現されづらい画像となる。
 図4では、人物の手前の上方から、撮像装置の光軸を人物に向けて、人物及び建物が撮像されている。この場合、撮像装置の光軸方向が、人物から建物への方向と異なる方向となり、人物と建物との間の距離感が表現された撮像画像を得ることができる。
 図5は、人物の手前の上方から、人物及び建物を撮像することにより得られる撮像画像を示す図である。
 人物の手前の上方から、撮像装置の光軸を人物に向けて、人物及び建物を撮像することにより、上方から、人物及び建物を俯瞰したような、人物と建物との間の距離感が表現された俯瞰画像を、撮像画像として得ることができる。
 目的に沿った映像表現を行うためには、被写体に対して様々な位置から撮像を行うことが要求される。
 しかしながら、現実には、必ずしも自由な位置から撮像ができるわけではない。例えば、図3のAのように、人物から遠距離の位置から撮像を行いたい場合であっても、現実には、人物から遠距離の位置からの撮像を行うことができないことがある。
 図6は、人物から遠距離の位置からの撮像を行うことができない撮像状況の例を示す上面図である。
 図6では、人物の正面側に壁が存在している。したがって、人物を正面から撮像する場合に、撮像装置を、人物の正面側の壁面よりも後ろ側に移動することは物理的にできないため、人物を遠距離の位置から撮像することはできない。
 また、図4に示したように、人物の手前の上方から、人物及び建物を撮像する場合、三脚や脚立を用いれば、ある程度上方から撮像を行うことができる。しかしながら、三脚や脚立を用いる場合、たかだか数メートル程度上方からの撮像が限界である。さらに、三脚や脚立を用いることで、撮像現場における機動性が低下する。
 近年では、ドローンを用いて、被写体のほぼ真上から撮像を行うことができるが、ドローンに搭載されるバッテリの容量に応じて、ドローンの飛行時間、ひいては、撮像時間が制限される。
 また、ドローンの操作は必ずしも容易ではなく、屋外では、雨や風等の天候の影響を受ける。さらに、ドローンの飛行が制限された場所や、人が密集するためにドローンの飛行が禁止された場所では、ドローンを用いることができない。
 本技術では、自由な撮像位置をとることができない場合においても、所望の位置から被写体を撮像した画像を、容易に得ることができるようにする。本技術では、例えば、図2のAの撮像状況で撮像された図2のBの撮像画像から、例えば、図3のAや図5のような撮像状況の撮像位置から被写体を撮像した画像を生成することができる。
 なお、特許文献1には、多数の撮像装置を用いて被写体を様々な撮像位置から撮像し、その撮像により得られる撮像画像を用いて生成される3次元データから、任意の仮想的な仮想撮像位置から被写体を撮像した(かのような)仮想画像を生成する技術が記載されている。
 しかしながら、特許文献1の記載の技術では、多数の撮像装置を様々な位置に配置する必要があり、撮像装置の費用や設置に要する手間等から、特許文献1に記載のような撮像状況を容易に実現できないことが多い。
 さらに、多数の撮像装置を配置する場合には、ある撮像装置が他の撮像装置に写り込むことを防止する必要や、被写体が動体であるときに、被写体が撮像装置にぶつからないように配慮する必要が生じる。したがって、撮像装置を任意の位置に設置することが必ずしもできるわけではない。
 本技術では、撮像位置から被写体までの距離情報と対処モデル情報とを用いて、撮像位置から被写体を撮像した撮像画像から、撮像位置と異なる仮想撮像位置から被写体を撮像した仮想画像を生成する。これにより、本技術では、多数の撮像装置を設置しなくても、所望の仮想撮像位置から被写体を撮像した仮想画像を、容易に得ることができるようにする。
 以下、ある撮像位置から被写体を撮像した撮像画像から、所望の仮想撮像位置から被写体を撮像した仮想画像を生成する方法について説明する。ある撮像位置から被写体を撮像した撮像画像から、所望の仮想撮像位置から被写体を撮像した仮想画像を生成する方法とは、例えば、図2のAの撮像状況のように、広角レンズ(又は焦点距離を短くした状態のズームレンズ)を用いて被写体から近距離の撮像位置から撮像された撮像画像から、図3のAの撮像状況のように、望遠レンズを用いて被写体から遠距離の撮像位置から撮像された撮像画像を、仮想画像として生成する方法である。
 <透視投影変換>
 図7は、撮像装置で撮像が行われるときの透視投影変換を説明する図である。
 図7は、被写体が存在する物体面における実際の被写体と、撮像装置の光電変換を行う撮像素子の撮像面における像との関係を示している。
 なお、図7は、地表に垂直に起立する被写体を上面から見た上面図であり、横方向は、地表に水平な水平方向(横方向)の位置を表す。以下の説明は、地表に垂直に起立する被写体を側面から見た側面図で表される、地表に垂直な垂直方向(縦方向)についても、同様である。
 物体面から撮像装置のレンズまでの距離(物体面上の被写体と撮像装置との間の撮像距離)を物体距離といい、Lobjで表す。レンズから撮像面までの距離を像距離といい、Limgで表す。物体面上の位置、すなわち、物体面上の、撮像装置の光軸からの距離を、Xobjで表す。撮像面上の位置、すなわち、撮像面上の、撮像装置の光軸からの距離を、Ximgで表す。
 物体距離Lobj、像距離Limg、距離(位置)Xobj、及び、距離(位置)Ximgについては、式(1)が成り立つ。
 Ximg/Xobj=Limg/Lobj
                        ・・・(1)
 式(1)から、物体面上の被写体の位置Xobjに対応する撮像面上での位置Ximgは、式(2)で表すことができる。
 Ximg=Limg/Lobj×Xobj
                        ・・・(2)
 式(2)は、いわゆる透視投影(perspective projection)変換とよばれる変換を表す。
 式(2)の透視投影変換は、撮像装置での被写体の実際の撮像時に、いわば物理的(光学的)に行われる。
 また、式(1)から、撮像面上の位置Ximgに対応する物体面上の被写体の位置Xobjは、式(3)で表すことができる。
 Xobj=Lobj/Limg×Ximg
                        ・・・(3)
 式(3)は、透視投影変換の逆変換(透視投影逆変換)を表す。
 式(3)の透視投影逆変換を行うには、物体距離Lobj、像距離Limg、及び、撮像面上の被写体の位置Ximgが必要となる。
 被写体を撮像する撮像装置では、像距離Limg及び撮像面上の被写体の位置Ximgを認識(取得)することができる。
 したがって、式(3)の透視投影逆変換を行うには、物体距離Lobj(距離情報)を何らかの方法で認識する必要がある。
 撮像面の各画素に対する物体面上の被写体の位置Xobjを得るためには、画素単位、又は、それに近い分解能の物体距離Lobjが必要になる。
 物体距離Lobjを得る方法としては、任意の方法を採用することができる。例えば、光電変換を行う複数の撮像素子を用いて得られる視差から被写体までの距離を算出する、いわゆるステレオ法を採用することができる。また、例えば、決められた光学パターンを被写体に照射して、被写体に投影された光学パターンの形状から被写体までの距離を算出する方法を採用することができる。また、レーザ光を照射してから被写体からの反射光が戻る時間から被写体までの距離を算出するToF(Time of Flight)と呼ばれる方法を採用することができる。さらに、いわゆるオートフォーカスの方式の1つである像面位相差方式を利用して、被写体までの距離を算出する方法を採用することができる。その他、以上の方法の複数を組み合わせて、被写体までの距離を算出することができる。
 以下、物体距離Lobjが何らかの方法で認識することができることを前提として、透視投影変換及び透視投影逆変換により、被写体から実際の物体距離Lobjとは異なる距離だけ離れた仮想撮像位置から被写体を撮像した(としたならば撮像されるであろう)仮想画像を生成する方法について説明する。
 <仮想画像の生成方法>
 図8は、単一の物体面上に存在する被写体を撮像する撮像状況の例を示す図である。
 図8では、図1と同様に、撮像状況が、第三角法で示されている。
 図8の撮像状況では、被写体が単一の物体面上に存在し、その物体面は、撮像装置の撮像面と平行になっている。したがって、物体面は、撮像装置の光軸と直交している。
 図9は、図8の撮像状況において、広角レンズを用いて、被写体に近い撮像位置から被写体を撮像する広角撮像の様子を示す上面図である。
 図9の広角撮像では、物体面上の位置がXobjの被写体が、物体距離Lobj_Wだけ離れた撮像位置から撮像されている。広角撮像時の像距離は、Limg_Wになっており、撮像面上の被写体の位置は、Ximg_Wになっている。
 図10は、図8の撮像状況において、望遠レンズを用いて、被写体から遠い撮像位置から被写体を撮像する望遠撮像の様子を示す上面図である。
 図10の望遠撮像では、物体面上の位置がXobjで、図9の広角撮像の場合と同一の被写体が、物体距離Lobj_Tだけ離れた撮像位置から撮像されている。望遠撮像時の像距離は、Limg_Tになっており、撮像面上の被写体の位置は、Ximg_Tになっている。
 図9の広角撮像に、透視投影逆変換の式(3)を適用すると、透視投影逆変換の式(4)を得ることができる。
 Xobj=Lobj_W/Limg_W×Ximg_W
                        ・・・(4)
 図10の望遠撮像に、透視投影変換の式(2)を適用すると、透視投影変換の式(5)を得ることができる。
 Ximg_T=Limg_T/Lobj_T×Xobj
                        ・・・(5)
 式(4)左辺のXobjを、式(5)右辺のXobjに代入することにより、式(6)を得ることができる。
 Ximg_T=(Limg_T/Lobj_T)×(Lobj_W/Limg_W)×Ximg_W
                        ・・・(6)
 ここで、係数kを、式(7)で定義する。
 k=(Limg_T/Lobj_T)×(Lobj_W/Limg_W)
                        ・・・(7)
 式(7)を用いて、式(6)は、式(8)の単純な比例式にすることができる。
 Ximg_T=k×Ximg_W
                        ・・・(8)
 式(8)(式(6))を用いることで、広角レンズを用いた広角撮像、ここでは、近距離からの近距離撮像における撮像面上での位置Ximg_Wから、望遠レンズを用いた望遠撮像、ここでは、遠距離からの遠距離撮像における撮像面上での位置Ximg_Tを得ることができる。言い換えると、近距離撮像での実際の撮像により得られる撮像画像等の情報を元に、遠距離撮像で撮像したと仮定した場合に、その遠距離撮像での撮像により得られるであろう仮想画像の情報を得ることができる。
 以上、被写体からの距離が異なる撮像位置からの撮像について、広角レンズを用いる近距離撮像と、望遠レンズを用いる遠距離撮像とを例に説明したが、上記の説明は、任意の焦点距離のレンズを用いて、被写体から任意の距離の撮像を行う場合に適用することができる。
 すなわち、式(8)(式(6))によれば、ある焦点距離のレンズを用いた、ある撮像位置からの撮像により得られる撮像画像等の情報を元に、他の焦点距離のレンズを用いた、他の撮像位置(仮想撮像位置)からの撮像を行った場合に得られる撮像画像(仮想画像)の情報を得ることができる。
 ここで、ある焦点距離のレンズを用いた、ある撮像位置からの撮像は、実際に行われる撮像であるので、実際の撮像ともいう。一方、他の焦点距離のレンズを用いた、他の撮像位置(仮想撮像位置)からの撮像は、実際に行われる撮像ではないので、仮想的な撮像ともいう。
 図11は、式(8)を用いて、実際の撮像により得られる情報を元に、仮想的な撮像により得られる仮想画像を得る過程の例を説明する図である。
 ここで、式(4)及び式(5)から式(6)を得る概念的な意味は、以下の通りである。
 被写体の撮像面上での位置Ximg_Wは、3次元空間の被写体上の点を2次元平面である撮像素子の撮像面上に透視投影した点の位置である。被写体の撮像面上での位置Ximg_Wに対して、式(4)の透視投影逆変換を行うことで、3次元空間(物体面)の被写体上の点の位置Xobjを得ることができる。
 このようして得られた3次元空間の被写体上の位置Xobjに対して、式(5)の透視投影変換を行うことで、被写体から物体距離Lobj_Wだけ離れた撮像位置とは異なる仮想撮像位置、すなわち、被写体から物体距離Lobj_Tだけ離れた仮想撮像位置から撮像を行った場合に得られる仮想画像の情報を得ることができる。
 式(6)は、見かけ上、3次元空間の被写体上の点の位置(を示す変数)Xobjが消去され、ある2次元平面としての広角撮像時の被写体の撮像面上での位置Ximg_Wから、別の2次元平面としての望遠撮像時の被写体の撮像面上での位置Ximg_Tへの変換となっている。但し、式(4)及び式(5)から、式(6)を導出する過程において、3次元空間の被写体上の位置Xobjが、一度決定されている。
 実際の撮像により得られる情報を元に、仮想的な撮像により得られる仮想画像を得る過程は、図11に示すように、実際の撮像、仮想被写体(モデル)の生成、及び、仮想的な撮像からなる。
 実際の撮像では、物理空間(3次元空間)にある被写体が、撮像装置において、物理的なレンズ等の光学系(物理レンズ光学系)によって撮像素子上に透視投影変換され、2次元画像である撮像画像(実撮像画像)が生成される。実際の撮像での透視投影変換は、撮像装置の物理的な撮像位置(物理撮像位置)をパラメータとして、光学的に行われる。
 仮想被写体の生成では、実際の撮像で得られた撮像画像に対して、別途、計測等によって得られた、撮像位置から被写体までの距離情報を用いて、計算によって式(4)の透視投影逆変換が行われ、3次元空間の被写体(の被写体モデル)が仮想的に再現(生成)される。この仮想的に再現される被写体を、仮想被写体(モデル)ともいう。
 仮想的な撮像では、仮想被写体に対して、計算によって式(5)の透視投影変換を行うことで、仮想被写体が(仮想的に)撮像され、仮想画像(仮想撮像画像)が生成される。仮想的な撮像では、仮想被写体を撮像するときの仮想撮像位置がパラメータとして指定され、その仮想撮像位置から仮想被写体が撮像される。
 <被写体が複数の物体面に存在する場合の撮像面上の被写体の位置>
 図12は、被写体が複数の物体面に存在する場合の撮像状況の例を示す図である。
 図12では、図1と同様に、撮像状況が、第三角法で示されている。
 図8の撮像状況では、被写体の物体面が単一であることを前提としたが、実際の撮像では、被写体が複数の物体面に存在することが多い。図12は、そのように、被写体が複数の物体面に存在する場合の撮像状況を示している。
 図12の撮像状況では、撮像装置側から見て、図8の被写体に相当する第1被写体の背後にもう一つの被写体としての第2被写体が存在する。
 第1被写体については、式(6)(式(8))を用いて、実際の撮像としての、例えば、近距離撮像での撮像面上の被写体の位置Ximg_Wを、仮想的な撮像としての、例えば、遠距離撮像での撮像面上の被写体の位置Ximg_Tに変換することができる。
 第2被写体についても、同様の変換を行うことができる。
 図13は、図12の撮像状況において、広角レンズを用いて、被写体に近い撮像位置から被写体を撮像する広角撮像の様子を示す上面図である。
 図14は、図12の撮像状況において、望遠レンズを用いて、被写体から遠い撮像位置から被写体を撮像する望遠撮像の様子を示す上面図である。
 図13及び図14は、図9及び図10に対して、第2被写体について、物体面及び撮像面を追加した図になっている。
 図13及び図14において、第1物体面は、第1被写体の物体面であり、第2物体面は、第2被写体の物体面である。第2被写体は、第1被写体の背景として、第1被写体と同時に撮像されるので、図13及び図14のそれぞれにおいて、第1被写体及び第2被写体について、撮像面は、同一である。
 図13の広角撮像では、第2物体面上の位置がXobj2の第2被写体が、物体距離Lobj_W2だけ離れた撮像位置から撮像されている。広角撮像時の像距離は、Limg_Wになっており、撮像面上の第2被写体の位置は、Ximg_W2になっている。第1被写体及び第2被写体は同時に撮像されるので、広角撮像時の像距離は、図9の場合と同一のLimg_Wになる。なお、第1物体面と第2物体面との間の距離をdとすると、dは、式d=Lobj_W2-Lobj_Wで表される。
 図14の望遠撮像では、第2物体面上の位置がXobj2の第2被写体が、物体距離Lobj_T2だけ離れた撮像位置から撮像されている。望遠撮像時の像距離は、Limg_Tになっており、撮像面上の第2被写体の位置は、Ximg_T2になっている。第1被写体及び第2被写体は同時に撮像されるので、望遠撮像時の像距離は、図10の場合と同一のLimg_Tになる。なお、第1物体面と第2物体面との間の距離をdとすると、dは、式d=Lobj_T2-Lobj_Tで表される。
 図13の広角撮像に、透視投影逆変換の式(3)を適用すると、透視投影逆変換の式(9)を得ることができる。
 Xobj2=Lobj_W2/Limg_W×Ximg_W2
                        ・・・(9)
 図14の望遠撮像に、透視投影変換の式(2)を適用すると、透視投影変換の式(10)を得ることができる。
 Ximg_T2=Limg_T/Lobj_T2×Xobj2
                        ・・・(10)
 式(9)左辺のXobj2を、式(10)右辺のXobj2に代入することにより、式(11)を得ることができる。
 Ximg_T2=(Limg_T/Lobj_T2)×(Lobj_W2/Limg_W)×Ximg_W2
                        ・・・(11)
 ここで、係数k2を、式(12)で定義する。
 k2=(Limg_T/Lobj_T2)×(Lobj_W2/Limg_W)
                        ・・・(12)
 式(12)を用いて、式(11)は、式(13)の単純な比例式にすることができる。
 Ximg_T2=k2×Ximg_W2
                        ・・・(13)
 式(13)(式(11))を用いることで、広角レンズを用いた広角撮像、ここでは、近距離からの近距離撮像における撮像面上での位置Ximg_W2から、望遠レンズを用いた望遠撮像、ここでは、遠距離からの遠距離撮像における撮像面上での位置Ximg_T2を得ることができる。
 したがって、実際の撮像としての、例えば、近距離撮像により得られる撮像画像の画素のうちの、第1物体面の第1被写体が写る画素については、式(8)を適用し、第2物体面の第2被写体が写る画素については、式(13)を適用することで、近距離撮像により得られる撮像画像の画素を、仮想的な撮像としての、例えば、遠距離撮像により得られる仮想画像の画素にマッピングすることができる。
 <オクルージョン>
 図15は、図12の撮像状況での近距離撮像の様子と、その近距離撮像により得られる撮像画像とを示す図である。
 すなわち、図15のAは、図12の撮像状況において、広角レンズを用いて、被写体に近い撮像位置から被写体を撮像する近距離撮像の様子を示す上面図である。図15のBは、図15のAの近距離撮像により得られる撮像画像を示す平面図であり、撮像面を正面から見た正面図と等価である。
 図15のAは、図13に対して、第1被写体及び第2被写体のそれぞれ端点からからレンズ中心を通る補助線としての点線を加えた図になっている。
 図16は、図12の撮像状況での遠距離撮像の様子と、その遠距離撮像により得られる撮像画像とを示す図である。
 すなわち、図16のAは、図12の撮像状況において、望遠レンズを用いて、被写体から遠い撮像位置から被写体を撮像する遠距離撮像の様子を示す上面図である。図16のBは、図16のAの遠距離撮像により得られる撮像画像を示す平面図であり、図15の場合と同様に、撮像面を正面から見た正面図と等価である。
 図16のAは、図14に対して、第1被写体及び第2被写体のそれぞれ端点からからレンズ中心を通る補助線としての点線を加えた図になっている。
 いま、説明を簡単にするため、近距離撮像及び遠距離撮像において、撮像面(撮像画像)の第1被写体の大きさが同じになるように撮像が行われることとする。
 撮像面(撮像画像)の第2被写体の大きさは、図15の近距離撮像よりも、図16の遠距離撮像の方が大きくなる。このように、近距離撮像よりも遠距離撮像の方が撮像面の第2被写体の大きさが大きくなる現象は、図2及び図3で説明した場合と同様に、遠近法に起因する。
 図17は、図15のAの上面図と図16のAの上面図とを、一部を省略して重ね合わせた、撮像の様子を示す上面図である。
 図17において、第2被写体の部分Mは、遠距離撮像では撮像されるが、近距離撮像では、第1被写体の陰となって撮像されない。
 被写体が複数の物体面に存在する場合、オクルージョン、すなわち、手前側にある被写体としての第1被写体が奥側にある被写体としての第2被写体を隠して見えないようにする状態が発生することがある。
 第2被写体の部分Mは、遠距離撮像では見えるが、近距離撮像では、第1被写体に隠れて見えなくなるオクルージョンになる。このようにオクルージョンになっている第2被写体の部分Mのオクルージョン部分(欠落部位)ともいう。
 実際の撮像としての近距離撮像において、オクルージョン部分としての第2被写体の部分Mは撮像されない。そのため、近距離撮像により得られる撮像画像を元に、式(8)及び式(13)を用いて、仮想的な撮像としての遠距離撮像により得られる仮想画像を生成する場合、仮想画像において、オクルージョン部分としての第2被写体の部分Mについては、画素値が得られないので、欠落する。
 図18は、実際の撮像としての近距離撮像により得られる撮像画像を元に、仮想的な撮像としての遠距離撮像により得られる仮想画像を生成する場合の画素値のマッピングを説明する図である。
 図18上側の実際の撮像としての近距離撮像により得られる撮像画像(近距離撮像画像)では、第2被写体の部分Mは、第1被写体の陰となっていおり、オクルージョン部分になっている。
 図18上側の撮像画像を元に、図18下側の仮想的な撮像としての遠距離撮像により得られる仮想画像を生成する場合、撮像画像(近距離撮像画像)の第1被写体の位置Ximg_W及び第2被写体の位置Ximg_W2の画素の画素値が、式(8)及び式(13)を用いて、仮想画像(遠距離撮像画像)の第1被写体の位置Ximg_T及び第2被写体の位置Ximg_T2の画素の画素値としてそれぞれマッピングされる。
 図18下側の仮想画像において、斜線を付した部分には、第2被写体の部分Mが写る画素の画素値がマッピングされるべきである。しかしながら、図18上側の撮像画像において、第2被写体の部分Mは撮像されておらず、第2被写体の部分Mの画素値を得ることができない。そのため、図18下側の仮想画像において、斜線を付した部分には、第2被写体の部分Mの画素値をマッピングすることができず、画素値が欠落する。
 以上のように、被写体が複数の物体面に存在する場合、第2被写体の部分Mのようなオクルージョンになっているオクルージョン部分については、画素値の欠落が生じる。
 図19は、実際の撮像としての近距離撮像により得られる撮像画像を元に、仮想的な撮像としての遠距離撮像により得られる仮想画像を生成する場合の画素値のマッピングを説明する他の図である。
 図19において、画像picWは、実際の撮像としての近距離撮像により得られる撮像画像であり、画像picTは、仮想的な撮像としての遠距離撮像により得られる仮想画像である。
 また、図19において、2次元座標の横軸は、撮像画像picWの横方向の位置Ximg_W及びXimg_W2を表し、縦軸は、仮想画像picTの横方向の位置Ximg_T及びXimg_T2を表す。
 さらに、図19において、直線L1は、式(8)を表し、直線L2は、式(13)を表す。
 撮像画像picWの第1被写体の位置Ximg_Wの画素(の画素値)は、その位置Ximg_Wを入力として式(8)により求められる仮想画像picTの第1被写体の位置Ximg_Tの画素(の画素値)にマッピングされる。
 撮像画像picWの第2被写体の位置Ximg_W2の画素は、その位置Ximg_W2を入力として式(13)により求められる仮想画像picTの第2被写体の位置Ximg_T2の画素にマッピングされる。
 仮想画像picTにおいて、斜線を付した部分は、対応する部分が撮像画像picWに写っていないオクルージョン部分であり、画素(画素値)が欠落する。
 <オクルージョン部分の補完>
 図20は、オクルージョン部分の画素を補うオクルージョン部分の補完方法の例を説明する図である。
 オクルージョン部分の補完方法としては、様々な方法を採用することができる。
 オクルージョン部分の補完方法としては、例えば、オクルージョン部分の近傍の画素を用いて、オクルージョン部分の画素(の画素値)を補間する方法がある。画素を補間する方法としては、例えば、ニアレストネイバー法や、バイリニア法、バイキュービック法等の任意の方法を採用することができる。
 ニアレストネイバー法では、近傍の画素の画素値がそのままオクルージョン部分の画素の画素値として用いられる。バイリニア法では、オクルージョン部分の画素の周辺の周辺画素の画素値の平均値が、オクルージョン部分の画素の画素値として用いられる。バイキュービック法では、オクルージョン部分の画素の周辺の周辺画素の画素値を用いて3次元補間を行うことにより得られる補間値が、オクルージョン部分の画素の画素値として用いられる。
 オクルージョン部分が、例えば、単調な壁面の画像である場合には、オクルージョン部分の近傍の画素を用いた補間によって、オクルージョン部分の補完を行うことで、仮想画像が撮像される仮想撮像位置から撮像を行った場合に得られる画像と(ほぼ)同様の仮想画像を生成することができる。仮想撮像位置から撮像を行った場合に得られる画像と同様の仮想画像が生成される場合のその仮想画像を、再現性が高い仮想画像ともいう。
 なお、オクルージョン部分の近傍の画素を用いて、オクルージョン部分の画素を補間する方法としては、その他、例えば、オクルージョン部分が、ざらざらした壁面等のテクスチャを有する画像である場合に、オクルージョン部分の周辺の一定面積の領域の複製で、オクルージョン部分を補間する方法を採用することができる。
 オクルージョン部分の近傍の画素を用いて、オクルージョン部分の画素を補間する方法は、オクルージョン部分が、オクルージョン部分の近傍と同様の画像になっているであろうとの推測が正しいことを前提とする。
 したがって、オクルージョン部分が、オクルージョン部分の近傍と同様の画像になっていない場合(オクルージョン部分が、オクルージョン部分の近傍と比較して特異である場合)、オクルージョン部分の近傍の画素を用いて、オクルージョン部分の画素を補間する方法では、再現性が高い仮想画像を得ることができないことがある。
 例えば、一部に落書きがある壁の落書きの部分がオクルージョン部分になっている場合、オクルージョン部分の近傍の画素を用いて、オクルージョン部分の画素を補間する方法では、落書きを再現することができず、再現性が高い仮想画像を得ることができない。
 オクルージョン部分が、オクルージョン部分の近傍と同様の画像になっていない場合、再現性が高い仮想画像を得るために、実際の撮像として、主たる撮像(本来の撮像)の他に、主たる撮像で生じるオクルージョン部分が写るように、主たる撮像の撮像位置とは異なる撮像位置から補助的な撮像を行うことができる。そして、その補助的な撮像により得られる撮像画像を用いて、主たる撮像で生じるオクルージョン部分を補完することができる。
 図20は、第1被写体及び第2被写体の実際の撮像として行われる主たる撮像と補助的な撮像とを説明する上面図である。
 図20において、位置p201を撮像位置とする実際の撮像が、主たる撮像として行われ、位置p201から左右にずれた位置p202及びp203を撮像位置とする実際の撮像それぞれが、補助的な撮像として行われる。
 この場合、撮像位置p201からの主たる撮像では、オクルージョン部分となる第2被写体の部分Mを撮像することはできない。しかしながら、撮像位置p202及びp203からの補助的な撮像では、主たる撮像でオクルージョン部分となる第2被写体の部分Mを撮像することができる。
 そこで、撮像位置p201からの主たる撮像により得られる撮像画像を元に、仮想的な撮像により得られる仮想画像を生成し、その仮想画像において、オクルージョン部分となる第2被写体の部分M(の画素値)を、撮像位置p202及びp203からの補助的な撮像により得られる撮像画像を用いて補完することで、再現性が高い仮想画像を得ることができる。
 主たる撮像及び補助的な撮像は、複数の撮像装置を用いて同時に又は別のタイミングで行うことができる。
 また、主たる撮像及び補助的な撮像は、複数の撮像系を有するマルチカメラのような1つの撮像装置を用いて行うことができる。
 さらに、主たる撮像及び補助的な撮像は、1つの撮像系を有する1つの撮像装置を用いて、別のタイミングで行うことができる。例えば、動かない被写体については、主たる撮像の前又は後に補助的な撮像を行うことができる。
 オクルージョン部分の補完は、補助的な撮像により得られる撮像画像の色やテクスチャ等の一部の情報だけを用いて行うことができる。さらに、オクルージョン部分の補完は、他の方法と併用することでも行うことができる。
 以上のように、オクルージョン部分の補完は、補助的な撮像により得られる撮像画像を用いて行う他、他の主たる撮像により得られる撮像画像、例えば、過去に行われた主たる撮像により得られる撮像画像を用いて行うことができる。
 例えば、第1被写体の背景となる第2被写体が、東京タワー等の著名な建築物(建造物)である場合、そのような著名な建築物については、過去に様々な撮像位置から撮像された撮像画像が、ストックフォトサービス等の画像ライブラリに蓄積されていることがあり得る。
 実際の撮像による撮像画像(実際の撮像により得られる撮像画像)に、著名な(又は周知の)建築物が写っており、その著名な建築物が写る部分がオクルージョン部分になっている場合には、そのオクルージョン部分の補完は、過去に撮像され、画像ライブラリに蓄積されている、同一の著名な建築物が写る撮像画像を用いて行うことができる。その他、インターネット等のネットワーク上で公開されている画像、例えば、地図検索サービスを提供するwebサイトで公開されている写真等を用いて、オクルージョン部分の補完を行うことができる。
 オクルージョン部分の補完は、画像を用いて行う他、画像以外のデータ(情報)を用いて行うことができる。
 例えば、第1被写体の背景となる第2被写体が建築物である場合に、その建築物の建築に関する建築データとして、例えば、建築物の形状や、表面の仕上げ方法、塗装色等の情報が、webサーバ等で公開され、入手可能であるときには、そのような建築データを用いて、オクルージョン部分の画素値を推定することで、オクルージョン部分の補完を行うことができる。
 建築物が写る部分がオクルージョン部分になっている場合に、そのオクルージョン部分の補完を、過去に撮像され、画像ライブラリに蓄積されている撮像画像を用いて行うときや、建築データを用いて行うときには、建築物、すなわち、ここでは、第2被写体を特定する必要がある。第2被写体の特定は、第2被写体が写る撮像画像を対象とする画像認識や、撮像画像を撮像する実際の撮像が行われた位置を特定すること等によって行うことができる。実際の撮像が行われた位置の特定は、EXIF(Exchangeable image file format)情報等の撮像画像のメタデータを参照することにより行うことができる。
 なお、実際の撮像は、例えば、太陽光等の光源により、被写体が照明された状況で行われる。
 一方、オクルージョン部分の補完を、過去の撮像画像(過去に撮像された撮像画像)や建築データを用いて行う場合、オクルージョン部分には、実際の撮像時の光源(による照明)が反映されない。
 そのため、例えば、太陽光の元で行われた実際の撮像による撮像画像のオクルージョン部分の補完を、過去の撮像画像や建築データを用いて行った場合、オクルージョン部分(であった部分)の色が、他の部分の色と比較して不自然な色になることがあり得る。
 そこで、太陽光の元で行われた実際の撮像による撮像画像のオクルージョン部分の補完を、過去の撮像画像や建築データを用いて行う場合には、気象に関する気象データを入手することができるときには、オクルージョン部分の補完を、過去の撮像画像や建築データを用いて行った後、オクルージョン部分の色調の補正を、気象データを用いて行うことができる。
 太陽光の元で行われる実際の撮像において、被写体を照明する光の強さや色温度は、天候に影響される。気象データを入手することができる場合には、その気象データから、実際の撮像時の天候を特定し、その天候から、太陽光の元で行われた実際の撮像時の、被写体を照明する光の強さや色温度等の照明光情報を推定することができる。
 そして、オクルージョン部分の補完を、過去の撮像画像や建築データを用いて行い、オクルージョン部分の色が、照明光情報が表す光で被写体が照明されているときの色となるように、オクルージョン部分の色調の補正を行うことができる。
 以上のような色調の補正により、オクルージョン部分の色を、他の部分の色と比較して自然な色にすることができ、これにより、再現性が高い仮想画像を得ることができる。
 その他、オクルージョン部分の補完は、例えば、機械学習を行った学習モデルを用いて行うことができる。
 例えば、近距離撮像及び遠距離撮像の両方を、実際に行うことが可能な場合には、近距離撮像及び遠距離撮像をそれぞれ実際に行って得られる撮像画像を、学習データとして用いて、例えば、実際の撮像として行われる近距離撮像により得られる撮像画像を入力として、仮想的な撮像として行われる遠距離撮像により得られる仮想画像のオクルージョン部分の画像を出力するように、学習モデルの学習を行うことができる。
 この場合、学習後の学習モデルに対して、実際の撮像としての近距離撮像により得られる撮像画像を入力することにより、仮想的な撮像としての遠距離撮像により得られる仮想画像のオクルージョン部分の画像を得て、その画像により、オクルージョン部分の補完を行うことができる。
 オクルージョン部分を補完する補完方法は、特に限定されるものではない。但し、1つの撮像装置、又は、複数でも少ない数の撮像装置で行うことができる補完方法を採用することにより、撮像現場における機動性が低下することを抑制して、所望の位置(仮想撮像位置)から撮像された画像(仮想画像)を、容易に得ることができる。特に、1つの撮像装置で行うことができる補完方法を採用することにより、撮像現場における機動性を最大限に発揮することができる。
 図21は、実際の撮像により得られる情報を元に、仮想的な撮像により得られる仮想画像を得る過程の他の例を説明する図である。
 図21において、実際の撮像により得られる情報を元に、仮想的な撮像により得られる仮想画像を得る過程は、図11の場合と同様に、実際の撮像、仮想被写体(モデル)の生成、及び、仮想的な撮像からなる。但し、図21では、図11の場合に、オクルージョン部分の補完が追加されている。
 実際の撮像では、図11の場合と同様に、2次元画像である撮像画像(実撮像画像)が生成(撮像)される。
 仮想被写体の生成では、実際の撮像の撮像位置から被写体までの距離情報と対処モデル情報とを用いて、実際の撮像で得られた撮像画像から、補正済みモデルとしての仮想被写体が再現(生成)される。
 対処モデル情報とは、オクルージョンに対処するための知識情報であり、例えば、過去に撮像された撮像画像(過去の撮像画像)、補助的な撮像により得られる撮像画像(補助撮像画像)、建築データ、及び、気象データ等の1つ以上を含む。
 仮想被写体の生成では、まず、図11の場合と同様に、距離情報を用いて、実際の撮像で得られた撮像画像の透視投影逆変換を行うことにより、仮想被写体が生成される。
 さらに、仮想被写体の生成では、仮想撮像位置がパラメータとして与えられ、後に行われる仮想的な撮像において、仮想撮像位置から撮像される仮想被写体の撮像部分が特定される。
 そして、仮想被写体の撮像部分の中で、撮像画像の画素(の画素値)が欠落している欠落部位、すなわち、仮想撮像位置から仮想被写体を見たときにオクルージョンになっているオクルージョン部分を、対処モデル情報を用いて補完することで、その補完後の仮想被写体が、仮想被写体を補正した補正済みモデルとして生成される。
 仮想的な撮像では、図11の場合と同様に、透視投影変換により、仮想画像が生成される。
 但し、図21の仮想的な撮像では、透視投影変換の対象が、実際の撮像で得られた撮像画像の透視投影逆変換を行うことにより生成された仮想被写体そのものではなく、その仮想被写体のオクルージョン部分を補完した補正済みモデルとしての仮想被写体である点が、図11の場合と異なる。
 図21の仮想的な撮像では、補正済みモデルに対して透視投影変換を行うことで、仮想撮像位置から、補正済みモデルが(仮想的に)撮像され、仮想画像(仮想撮像画像)が生成される。
 オクルージョン部分の補完については、仮想撮像位置から仮想被写体を見たときにオクルージョンになっているオクルージョン部分だけを対象として、補完を行うことにより、補完の範囲を必要最小限に抑えることができる。これにより、主たる撮像の他に補助的な撮像を行う場合に、補助的な撮像を、必要最小限の範囲の撮像で済ますことができ、撮像時の機動性の低下を抑制することができる。
 なお、補助的な撮像において、必要最小限よりもやや広めの範囲を撮像しておくことで、撮像後に仮想撮像位置を微修正することが可能になる。
 <他の仮想画像の生成方法>
 図22は、撮像画像及び仮想画像の例を示す平面図である。
 上述の場合には、近距離撮像及び遠距離撮像を例として、近距離撮像及び遠距離撮像のうちの一方で実際に撮像された撮像画像を元に、他方で撮像が行われた場合に撮像される仮想画像を生成する生成方法を説明した。すなわち、撮像画像を実際に撮像した撮像位置から、その撮像時の撮像装置の光軸に沿って移動した、撮像距離だけが異なる位置を、仮想撮像位置として、撮像画像を元に、仮想撮像位置から撮像された仮想画像を生成する生成方法を説明した。
 上述の仮想画像の生成方法は、撮像画像の撮像位置から、撮像装置の光軸に沿わない方向に移動した位置を、仮想撮像位置とする場合にも適用することができる。すなわち、上述の仮想画像の生成は、撮像画像の撮像位置から、撮像装置の光軸に沿って移動した位置から、被写体を撮像した仮想画像を生成する場合の他、撮像装置の光軸に沿わない方向に移動した位置から、被写体を撮像した仮想画像(他の仮想画像)を生成する場合にも適用することができる。
 撮像装置の光軸を被写体に向けて、被写体を撮像する場合、撮像画像の撮像位置から、実際の撮像時の撮像装置の光軸に沿って移動した位置を、仮想撮像位置とするときには、実際の撮像と、仮想的な撮像とにおいて、撮像装置の光軸は一致する。
 一方、撮像画像の撮像位置から、実際の撮像時の撮像装置の光軸に沿わない方向に移動した位置を、仮想撮像位置とするときには、実際の撮像と、仮想的な撮像とにおいて、撮像装置の光軸は異なる。
 撮像画像の撮像位置から、撮像装置の光軸に沿わない方向に移動した位置を、仮想撮像位置とする場合とは、例えば、実際の撮像を、図1の撮像状況で行い、仮想的な撮像を、図4の撮像状況で行う場合が該当する。
 図22のAは、図1の撮像状況で、実際の撮像により得られる撮像画像を示している。
 図22のBは、図4の撮像状況で、実際の撮像により得られる撮像画像としての俯瞰画像を示している。
 図22のCは、図22のAの撮像画像を元に距離情報を用いて生成される仮想被写体を対象に、図4の撮像状況の撮像位置を仮想撮像位置として、仮想的な撮像を行うことにより得られる(生成される)仮想画像を示している。
 図22のAの撮像画像を元に距離情報を用いて生成される仮想被写体そのものを対象に、仮想的な撮像を行って得られる仮想画像では、図1の撮像状況では撮像画像に写らない人物及び建物の上部の部分が、図22のCに斜線を付して示すように、オクルージョン部分となる。
 オクルージョン部分については、補完を行うことで、図22のBの撮像画像に近い仮想画像を得ることができる。
 すなわち、仮想被写体の撮像部分の中で、仮想撮像位置から仮想被写体を見たときにオクルージョンになっているオクルージョン部分を、対処モデル情報を用いて補完し、その補完後の仮想被写体である補正済みモデルの透視投影変換を行うことで、図22のBの撮像画像に近い仮想画像を得ることができる。
 オクルージョン部分の補完を行う方法としては、上述したオクルージョン部分の近傍の画素を用いてオクルージョン部分を補間する方法や、補助的な撮像により得られる撮像画像を用いる方法、過去に撮像された撮像画像を用いる方法、機械学習により学習された学習モデルを用いる方法、建築データを用いる方法等を採用することができる。
 <仮想的な撮像用のUI>
 図23は、仮想的な撮像を行う場合の仮想撮像位置の表現方法を説明する図である。
 図23では、撮像状況が、第三角法で示されている。
 撮像装置については、撮像装置を物理的に(実際に)設置することにより、実際の撮像の撮像位置が決定される。本技術では、実際の撮像の撮像位置の他、仮想撮像位置が必要であり、仮想撮像位置を指定する必要がある。
 仮想撮像位置を指定する指定方法としては、例えば、撮像位置に対して、所定の方向に所定の距離だけ移動した位置を、仮想撮像位置として、自動的に指定する方法を採用することができる。また、仮想撮像位置を指定する指定方法としては、その他、例えば、ユーザに指定してもらう方法を採用することができる。
 以下、ユーザが仮想撮像位置を指定する場合のUIについて説明するが、その前に、仮想撮像位置の表現方法について説明する。
 本実施の形態では、仮想撮像位置を、図23に示すように、(撮像装置の光軸と交差する)被写体の位置を中心(原点)とする球面座標系(の座標)で表現することとする。
 ここで、撮像装置(物理的に実在する物理撮像装置)の光軸、すなわち、撮像装置(の光学系)の光軸と、被写体との交点を、被写体の中心ということとする。撮像装置の光軸は、撮像装置の撮像素子の中心を通り、撮像素子に垂直な直線に一致することとする。
 撮像装置の撮像素子の中心と被写体の中心とを結ぶ光軸(撮像装置の光軸)を物理光軸といい、仮想撮像位置と被写体の中心とを結ぶ光軸を仮想光軸ということとする。
 被写体の中心を球面座標系の中心とすると、球面座標系において、仮想撮像位置は、仮想光軸の物理光軸に対する方位角方向の回転量(方位角)φv、仰角方向の回転量(仰角)θv、及び、仮想光軸上の被写体と仮想撮像位置との間の距離rvで表現することができる。
 なお、図23において、距離rrは、物理光軸上の被写体と撮像位置との間の距離を表す。
 また、図23において、上面図に示してある距離rvは、平面上の距離成分ではなく、仮想光軸に沿った距離を表す。
 図24は、ユーザが仮想撮像位置を指定する場合に操作されるUIの例を示す平面図である。
 図24において、UIは、Cボタン、TOPボタン、BTMボタン、LEFTボタン、RIGHTボタン、SHORTボタン、LONGボタン、TELEボタン、及び、WIDEボタン等の操作ボタンを有する。
 なお、UIは、操作ボタンの他、回転式のダイヤルや、ジョイスティック、タッチパネル等の操作部を用いて構成することができる。また、UIを操作ボタンを用いて構成する場合に、操作ボタンの配置は、図24の配置に限定されるものではない。
 本技術を適用した撮像装置は、仮想撮像位置から被写体を撮像することにより得られる撮像画像と同様の仮想画像をリアルタイムで生成し、リアルタイムで、ビューファインダ等の表示部に出力することができる。この場合、表示部は、仮想画像を、いわゆるスルー画として、リアルタイムで表示することができる。撮像装置のユーザは、表示部にスルー画として表示された仮想画像を見ることにより、仮想撮像位置から被写体を撮像しているかのような感覚を享受することができる。
 球面座標系において、仮想撮像位置を表現するためには、球面座標系の中心を決定する必要がある。
 撮像装置では、例えば、UIのCボタンが操作されたときに、撮像装置の光軸と被写体とが交わる点の位置が、球面座標系の中心に決定される。そして、仮想撮像位置は、実際の撮像の撮像位置、すなわち、方位角φv=0、仰角θv=0、距離rv=rrに設定される。
 方位角φvは、LEFTボタン又はRIGHTボタンを操作することにより指定することができる。撮像装置では、LEFTボタンが押下されると、あらかじめ定められた一定量だけ方位角φvが負方向に変化する。また、RIGHTボタンが押下されると、あらかじめ定められた一定量だけ方位角φvが正方向に変化する。
 仰角θvは、TOPボタン又はBTMボタンを操作することにより指定することができる。TOPボタンが押下されると、あらかじめ定められた一定量だけ仰角θvが正方向に変化する。また、BTMボタンが押下されると、あらかじめ定められた一定量だけ仰角θvが負方向に変化する。
 距離rvは、SHORTボタン又はLONGボタンを操作することにより指定することができる。SHORTボタンが押下されると、あらかじめ定められた一定量だけ又は一定倍率だけ、距離rvが負方向に変化する。また、LONGボタンが押下されると、あらかじめ定められた一定量だけ又は一定倍率だけ、距離rvが正方向に変化する。
 図24において、UIには、上述のように、仮想撮像位置の指定に関係するCボタン、TOPボタン、BTMボタン、LEFTボタン、RIGHTボタン、SHORTボタン、及び、LONGボタンの他、仮想撮像位置からの仮想的な撮像を行うときの仮想的な撮像装置の焦点距離(以下、仮想焦点距離ともいう)を指定するためのTELEボタン、及び、WIDEボタンが設けられている。
 TELEボタンが押下されると、あらかじめ定められた一定量だけ又は一定倍率だけ、仮想焦点距離が長くなる方向に変化する。また、WIDEボタンが押下されると、あらかじめ定められた一定量だけ又は一定倍率だけ、仮想焦点距離が短くなる方向に変化する。
 仮想焦点距離に応じて、例えば、式(4)及び式(5)の像距離Limg_W及びLimg_Tが決定される。
 なお、UIの操作ボタンの操作に対する方位角φv等の変化のさせ方は、上述したものに限定されるものではない。例えば、操作ボタンが長押しされた場合には、その長押しが継続されている間、方位角φv等の仮想撮像位置及び仮想焦点距離を連続的に変化させることや、長押しが継続されている時間に応じて、方位角φv等の仮想撮像位置及び仮想焦点距離の変化量を増加させること等の変化をさせることにより、利便性を高めることができる。
 また、仮想撮像位置を指定する方法は、UIを操作する方法に限定されるものではない。例えば、ユーザの視線を検出し、その視線の検出結果から、ユーザが注視している注視点を検出して、仮想撮像位置を指定する方法等を採用することができる。この場合、注視点の位置が、仮想撮像位置に指定(設定)される。
 さらに、撮像装置では、UIの操作等により指定された仮想撮像位置からの仮想的な撮像により得られる仮想画像をリアルタイムで表示する場合には、オクルージョン部分をユーザが認識することができるように表示することができる。
 ここで、オクルージョン部分が補完されて生成された仮想画像では、オクルージョン部分が補完された補完部分の情報の確度が、仮想撮像位置から実際に撮像を行って得られる画像に対して劣る可能性がある。
 そこで、撮像装置では、仮想撮像位置が指定された後、その仮想撮像位置からの仮想的な撮像により得られる仮想画像においてオクルージョンとなるオクルージョン部分をユーザが認識することができるように、仮想画像を、表示部に表示することができる。
 この場合、撮像装置のユーザは、表示部に表示された仮想画像を見ることによって、被写体のどの部分がオクルージョン部分となるかを認識することができる。そして、撮像装置のユーザは、被写体のどの部分がオクルージョン部分となるかを認識することによって、ユーザにとって被写体の重要な部分がオクルージョン部分にならないように、実際の撮像の撮像位置に配慮することができる。すなわち、実際の撮像により得られる撮像画像に、ユーザにとって被写体の重要な部分が写るように、撮像位置を考慮することができる。
 さらに、撮像装置のユーザが、被写体のどの部分がオクルージョン部分となるかを認識することによって、図20で説明した主たる撮像と補助的な撮像とを行う場合に、オクルージョン部分となる被写体の部分が写るように、補助的な撮像を行うことができる。
 仮想画像においてオクルージョンとなるオクルージョン部分をユーザが認識することができるように、仮想画像を、表示部に表示する表示方法としては、例えば、仮想画像の中のオクルージョン部分を、特定の色で表示する方法や、オクルージョン部分の階調を1秒等の所定周期で反転する方法等を採用することができる。
 <本技術を適用した撮像装置の一実施の形態>
 図25は、本技術を適用したディジタルカメラ等の撮像装置の一実施の形態の構成例を示すブロック図である。
 図25において、撮像装置100は、撮像光学系2、撮像素子3、距離センサ5、逆変換部7、補正部9、変換部11、表示部13、UI15、記憶部17、記録部21ないし23、及び、出力部24を有する。撮像装置100は、動画及び静止画のいずれの撮像にも適用することができる。
 撮像光学系2は、被写体からの光を、撮像素子3上に集光して結像させる。これにより、3次元空間の被写体は、撮像素子3上に透視投影変換される。
 撮像素子3は、撮像光学系2からの光を受光して光電変換を行うことで、光の受光量に対応する画素値を有する2次元画像である撮像画像4を生成し、逆変換部7に供給する。
 距離センサ5は、被写体の各点までの距離情報6を計測して出力する。距離センサ5が出力する距離情報6は、逆変換部7に供給される。
 なお、被写体の距離情報6については、外部の装置で計測し、逆変換部7に供給することができる。この場合、距離センサ5を設けずに、撮像装置100を構成することができる。
 逆変換部7は、距離センサ5からの距離情報6を用いて、撮像素子3からの撮像画像4の透視投影逆変換を行い、3次元データ8としての仮想被写体を生成して出力する。
 補正部9は、逆変換部7が出力する3次元データ8としての仮想被写体のオクルージョン部分の補完を行い、その補完後の仮想被写体を、補正済みモデル10として出力する。
 変換部11は、補正部9が出力する補正済みモデル10の透視投影変換を行い、その結果得られる2次元画像である仮想画像12を出力する。
 表示部13は、変換部11が出力する仮想画像12を表示する。変換部11が仮想画像12をリアルタイムで出力する場合、表示部13は、仮想画像12をリアルタイムで表示することができる。
 UI15は、例えば、図24に示したように構成され、撮像者である、例えば、撮像装置100のユーザによって操作される。ユーザは、表示部13に表示された仮想画像を見ながら、仮想撮像位置16を指定するためのUI15に対する操作を行うことができる。
 UI15は、ユーザの操作に応じて、仮想撮像位置16を設定して出力する。
 補正部9では、UI15が出力する仮想撮像位置16から仮想被写体を見たときにオクルージョンとなるオクルージョン部分の補完が行われる。
 すなわち、補正部9では、仮想撮像位置16から仮想被写体を見たときにオクルージョンとなるオクルージョン部分が特定される。その後、補正部9では、オクルージョン部分の補完が行われ、補完後の仮想被写体が、補正済みモデル10として出力される。
 変換部11では、補正部9が出力する補正済みモデル10を、UI15が出力する仮想撮像位置16から撮像して得られる2次元画像である仮想画像12が、補正済みモデル10の透視投影変換により生成される。
 したがって、表示部13では、ユーザによるUI15の操作に応じて設定された仮想撮像位置16から補正済みモデル10を撮像して得られる仮想画像12がリアルタイムで表示される。これにより、ユーザは、表示部13に表示される仮想画像12を見ながら、UI15を操作することで、所望の仮想画像12が得られる仮想撮像位置16を指定することができる。
 なお、補正部9において、オクルージョン部分の補完は、オクルージョン部分の近傍の画素を用いてオクルージョン部分を補間することにより行うことができる。また、オクルージョン部分の補完は、対処モデル情報としての、例えば、過去の撮像画像18や、建築データ19、気象データ20等を外部から得て、その対処モデル情報を用いて行うことができる。
 さらに、オクルージョン部分の補完は、その他の対処モデル情報としての、補助的な撮像により得られる撮像画像や、機械学習済みの学習モデル等を用いて行うことができる。
 補助的な撮像が行われる場合において、補助的な撮像が、主たる撮像に先立って行われるときには、逆変換部7において、補助的な撮像により得られる撮像画像4から生成される3次元データ8としての仮想被写体は、記憶部17に記憶される。
 すなわち、記憶部17は、逆変換部7において、補助的な撮像により得られる撮像画像4から生成される3次元データ8としての仮想被写体を記憶する。
 記憶部17に記憶された、補助的な撮像により得られる撮像画像4から生成された3次元データ8としての仮想被写体は、補正部9において、補助的な撮像の後に行われる主たる撮像により得られる撮像画像4から生成される3次元データ8としての仮想被写体を仮想撮像位置16から見たときにオクルージョンになっているオクルージョン部分の補完に用いることができる。
 補助的な撮像が行われる場合において、補助的な撮像が、主たる撮像の後に行われるときには、逆変換部7において、主たる撮像により得られる撮像画像4から生成される3次元データ8としての仮想被写体は、記録部23に記録される。
 すなわち、記録部23は、逆変換部7において、主たる撮像により得られる撮像画像4から生成される3次元データ8としての仮想被写体を記憶する。
 記録部23に記録された、主たる撮像により得られる撮像画像4から生成された3次元データ8としての仮想被写体についてのオクルージョン部分の補完は、補正部9において、主たる撮像の後に行われる補助的な撮像により得られる撮像画像4から生成される3次元データ8としての仮想被写体を用いて行うことができる。
 したがって、補助的な撮像が行われる場合において、補助的な撮像が、主たる撮像の後に行われるときには、主たる撮像の後に、補助的な撮像が行われるのを待って、主たる撮像により得られる撮像画像から生成される3次元データ8としての仮想被写体についてのオクルージョン部分の補完が行われる。
 かかるオクルージョン部分の補完が行われる場合、主たる撮像により得られる撮像画像4からの仮想画像12のリアルタイムでの生成が困難である。したがって、リアルタイムでの仮想画像の生成が要求される場合には、補助的な撮像は、主たる撮像の後ではなく、主たる撮像に先立って行われる必要がある。
 図25において、記録部21は、変換部11が出力する仮想画像12を記録する。記録部21に記録された仮想画像12は、表示部13及び出力部24に出力することができる。
 記録部22は、補正部9が出力する補正済みモデル10を記録する。
 例えば、補正部9では、UI15からの仮想撮像位置16から仮想被写体を見たときにオクルージョンになっているオクルージョン部分を含む、そのオクルージョン部分よりも幾分か広範囲の広範囲部分(仮想撮像位置16が僅かに変化し、その変化後の仮想撮像位置16から仮想被写体を見たときに、新たなオクルージョン部分となる仮想被写体の部分を含む部分)の補完を行うことができる。記録部22では、このような広範囲部分の補完が行われた補正済みモデル10を記録することができる。
 この場合、記録部22に記録された、広範囲部分の補完が行われた補正済みモデル10を、変換部11の透視投影変換の対象として、仮想撮像位置16を微修正(微調整)した仮想画像12を生成することができる。したがって、広範囲部分の補完が行われた補正済みモデル10の元となった撮像画像4の撮像後に、記録部22に記録された、広範囲部分の補完が行われた補正済みモデル10を用いて、仮想撮像位置16を微修正した仮想画像12を生成することができる。
 記録部23は、逆変換部7が出力する3次元データ8としての仮想被写体、すなわち、補正部9でオクルージョン部分の補完がされる前の仮想被写体を記録する。記録部23に記録された仮想被写体は、例えば、仮想画像12がニュース等で使用され、その仮想画像12の一部分の真贋が問われた場合に、その真贋を確認するための、加工がされていない、いわば真のデータとして参照することができる。
 なお、記録部23には、3次元データ8としての仮想被写体とともに、又は、3次元データ8としての仮想被写体に代えて、その3次元データ8としての仮想被写体の生成の元となった撮像画像4を記録することができる。
 出力部24は、撮像装置100の外部にデータを出力するI/F(interface)であり、変換部11が出力する仮想画像12を、外部にリアルタイムで出力する。
 出力部24に、図示せぬ外部の装置が接続されている場合において、変換部11が仮想画像12をリアルタイムで出力するときには、出力部24から外部の装置に、仮想画像12のリアルタイム配信を行うことができる。
 例えば、出力部24に、図示せぬ外部の表示部が接続されている場合において、変換部11が仮想画像12をリアルタイムで出力するときには、その仮想画像12は、出力部24から外部の表示部にリアルタイムで出力され、外部の表示部では、仮想画像12がリアルタイムで表示される。
 以上のように構成される撮像装置100において、逆変換部7は、距離センサ5からの距離情報6を用いて、撮像素子3からの撮像画像4の透視投影逆変換を行うことにより、3次元データ8としての仮想被写体を生成する。
 補正部9は、過去の撮像画像18等の対処モデル情報を用いて、UI15からの仮想撮像位置16から、逆変換部7で生成された3次元データ8としての仮想被写体を見たときにオクルージョンになっているオクルージョン部分を補完することで、仮想被写体を補正した補正済みモデル10としての補完後の仮想被写体を得る。
 変換部11は、補正部9で得られた補正済みモデル10を用いて、透視投影変換により、補正済みモデル10を仮想撮像位置16から撮像した仮想画像12を生成する。
 したがって、逆変換部7、補正部9、及び、変換部11は、撮像位置から被写体までの距離情報6と対処モデル情報とを用いて、撮像位置から被写体を撮像した撮像画像4から、撮像位置と異なる仮想撮像位置16から被写体を撮像した仮想画像12を生成する生成部を構成しているということができる。
 図26は、生成部の処理の例を説明するフローチャートである。
 ステップS1において、生成部は、距離情報6と、過去の撮像画像18等のオクルージョンに対処するため対処モデル情報(知識情報)とを用いて、撮像画像4から、撮像画像4と異なる仮想撮像位置16から撮像した仮想画像12を生成する。
 具体的には、ステップS11において、生成部の逆変換部7は、距離情報6を用いて、撮像画像4の透視投影逆変換を行うことにより、3次元データ8としての仮想被写体を生成し、処理は、ステップS12に進む。
 ステップS12では、補正部9は、過去の撮像画像18等の対処モデル情報を用いて、仮想撮像位置16から、逆変換部7で生成された3次元データ8としての仮想被写体を見たときにオクルージョンになっているオクルージョン部分を補完することで、3次元データ8としての仮想被写体を補正した補正済みモデル10(オクルージョン部分が補完された3次元データ8)を生成して、処理は、ステップS13に進む。
 ステップS13では、変換部11は、補正部9で生成された補正済みモデル10を用いて、透視投影変換により、補正済みモデル10を仮想撮像位置16から撮像した仮想画像を生成する。
 撮像装置100によれば、例えば、所望の撮像位置(視点)から被写体を撮像することが困難な状況である場合であっても、撮像可能なある撮像位置(視点)から撮像した撮像画像と、その撮像位置から被写体までの距離情報、及び、別途入手した距離情報以外の補助的な情報としての対処モデル情報と用いることにより、実際の撮像位置とは異なる所望の撮像位置としての仮想撮像位置から擬似的に撮像した仮想画像を生成することができる。したがって、所望の位置から撮像された画像(仮想画像)を、容易に得ることができる。
 撮像装置100によれば、例えば、図6に示したように、人物の正面に壁が存在する撮像状況において、人物の正面の壁面よりも後ろ側の位置から撮像したかのような仮想画像を生成することができる。
 また、撮像装置100によれば、例えば、撮像装置100のユーザが、室内や乗り物に乗っていて窓越しに外部を撮像する撮像状況のような、ユーザが被写体に近づけない撮像状況において、ユーザが被写体に近づいて撮像したかのような仮想画像を生成することができる。
 さらに、撮像装置100によれば、例えば、脚立やドローン等を用いずに、図5に示した俯瞰画像のような仮想画像を生成することができる。
 また、撮像装置100によれば、例えば、被写体が人物であり、その人物の目線が撮像装置に向いていない場合に、目線の先の位置を仮想撮像位置とすることで、いわゆるカメラ目線の仮想画像を生成することができる。
 さらに、撮像装置100によれば、仮想撮像位置を、撮像者であるユーザの頭部の眼球の位置に設定することで、ユーザの視点から見た状態が写る仮想画像を生成することができる。かかる仮想画像を、眼鏡型ディスプレイに表示することで、視差がない電子的な眼鏡を構成することができる。
 <本技術を適用したコンピュータの説明>
 次に、上述した生成部を構成する逆変換部7や、補正部9、変換部11の一連の処理は、ハードウエアにより行うこともできるし、ソフトウエアにより行うこともできる。一連の処理をソフトウエアによって行う場合には、そのソフトウエアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 図27は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
 プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク905やROM903に予め記録しておくことができる。
 あるいはまた、プログラムは、ドライブ909によって駆動されるリムーバブル記録媒体911に格納(記録)しておくことができる。このようなリムーバブル記録媒体911は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体911としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブル記録媒体911からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク905にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)902を内蔵しており、CPU902には、バス901を介して、入出力インタフェース910が接続されている。
 CPU902は、入出力インタフェース910を介して、ユーザによって、入力部907が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)903に格納されているプログラムを実行する。あるいは、CPU902は、ハードディスク905に格納されたプログラムを、RAM(Random Access Memory)904にロードして実行する。
 これにより、CPU902は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU902は、その処理結果を、必要に応じて、例えば、入出力インタフェース910を介して、出力部906から出力、あるいは、通信部908から送信、さらには、ハードディスク905に記録等させる。
 なお、入力部907は、キーボードや、マウス、マイク等で構成される。また、出力部906は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 なお、本技術は、以下の構成をとることができる。
 <1>
 撮像位置から被写体までの距離情報とモデル情報とを用いて、前記撮像位置から前記被写体を撮像した撮像画像から、前記撮像位置と異なる仮想撮像位置から前記被写体を撮像した仮想画像を生成する生成部を備える
 撮像装置。
 <2>
 前記生成部は、前記距離情報と前記モデル情報とを用いて、前記撮像画像から補正済みモデルを生成し、前記補正済みモデルを用いて、前記仮想画像を生成する
 <1>に記載の撮像装置。
 <3>
 前記モデル情報は、オクルージョンに対処するための知識情報である
 <1>又は<2>に記載の撮像装置。
 <4>
 前記生成部は、
 前記距離情報を用いて、前記撮像画像の透視投影逆変換を行うことにより、仮想被写体を生成し、
 前記モデル情報を用いて、前記仮想撮像位置から前記仮想被写体を見たときにオクルージョンになっているオクルージョン部分を補完することで、前記仮想被写体を補正した補正済みモデルを生成し、
 前記補正済みモデルを用いて、透視投影変換により、前記補正済みモデルを前記仮想撮像位置から撮像した前記仮想画像を生成する
 <3>に記載の撮像装置。
 <5>
 前記仮想被写体又は前記補正済みモデルを記録する記録部をさらに備える
 <4>に記載の撮像装置。
 <6>
 前記モデル情報は、過去に撮像された前記撮像画像、建築に関する建築データ、及び、気象に関する気象データの1つ以上を含む
 <3>ないし<5>のいずれかに記載の撮像装置。
 <7>
 前記仮想撮像位置を指定するUI(User Interface)をさらに備える
 <1>に記載の撮像装置。
 <8>
 前記仮想画像を、表示部にリアルタイムで出力する
 <1>ないし<7>のいずれかに記載の撮像装置。
 <9>
 前記UIは、
 前記仮想撮像位置を表現する球面座標系の中心を決定するときに操作される第1の操作部と、
 前記球面座標系における前記仮想撮像位置の方位角を変化させるときに操作される第2の操作部と、
 前記球面座標系における前記仮想撮像位置の仰角を変化させるときに操作される第3の操作部と、
 前記球面座標系の中心と前記仮想撮像位置との間の距離を変化させるときに操作される第4の操作部と
 を有する
 <7>に記載の撮像装置。
 <10>
 前記UIは、前記仮想撮像位置からの仮想的な撮像を行うときの仮想的な撮像装置の焦点距離を変化させるときに操作される第5の操作部をさらに有する
 <9>に記載の撮像装置。
 <11>
 前記UIは、前記第1ないし第5の操作部のいずれかの操作が継続されている間、前記仮想撮像位置又は前記焦点距離を連続的に変化させる
 <10>に記載の撮像装置。
 <12>
 前記UIは、前記第1ないし第5の操作部のいずれかの操作が継続されている時間に応じて、前記仮想撮像位置又は前記焦点距離の変化量を変化させる
 <10>に記載の撮像装置。
 <13>
 前記UIは、ユーザが注視している注視点を、前記仮想撮像位置に指定する
 <1>ないし<12>のいずれかに記載の撮像装置。
 <14>
 撮像位置から被写体までの距離情報とモデル情報とを用いて、前記撮像位置から前記被写体を撮像した撮像画像から、前記撮像位置と異なる仮想撮像位置から前記被写体を撮像した仮想画像を生成する
 ことを含む撮像方法。
 <15>
 撮像位置から被写体までの距離情報とモデル情報とを用いて、前記撮像位置から前記被写体を撮像した撮像画像から、前記撮像位置と異なる仮想撮像位置から前記被写体を撮像した仮想画像を生成する生成部
 としてコンピュータを機能させるためのプログラム。
 2 撮像光学系, 3 撮像素子, 5 距離センサ, 7 逆変換部, 9 補正部, 11 変換部, 13 表示部, 15 UI, 17 記憶部, 21ないし23 記録部, 24 出力部, 901 バス, 902 CPU, 903 ROM, 904 RAM, 905 ハードディスク, 906 出力部, 907 入力部, 908 通信部, 909 ドライブ, 910 入出力インタフェース, 911 リムーバブル記録媒体

Claims (15)

  1.  撮像位置から被写体までの距離情報とモデル情報とを用いて、前記撮像位置から前記被写体を撮像した撮像画像から、前記撮像位置と異なる仮想撮像位置から前記被写体を撮像した仮想画像を生成する生成部を備える
     撮像装置。
  2.  前記生成部は、前記距離情報と前記モデル情報とを用いて、前記撮像画像から補正済みモデルを生成し、前記補正済みモデルを用いて、前記仮想画像を生成する
     請求項1に記載の撮像装置。
  3.  前記モデル情報は、オクルージョンに対処するための知識情報である
     請求項1に記載の撮像装置。
  4.  前記生成部は、
     前記距離情報を用いて、前記撮像画像の透視投影逆変換を行うことにより、仮想被写体を生成し、
     前記モデル情報を用いて、前記仮想撮像位置から前記仮想被写体を見たときにオクルージョンになっているオクルージョン部分を補完することで、前記仮想被写体を補正した補正済みモデルを生成し、
     前記補正済みモデルを用いて、透視投影変換により、前記補正済みモデルを前記仮想撮像位置から撮像した前記仮想画像を生成する
     請求項3に記載の撮像装置。
  5.  前記仮想被写体又は前記補正済みモデルを記録する記録部をさらに備える
     請求項4に記載の撮像装置。
  6.  前記モデル情報は、過去に撮像された前記撮像画像、建築に関する建築データ、及び、気象に関する気象データの1つ以上を含む
     請求項3に記載の撮像装置。
  7.  前記仮想撮像位置を指定するUI(User Interface)をさらに備える
     請求項1に記載の撮像装置。
  8.  前記仮想画像を、表示部にリアルタイムで出力する
     請求項1に記載の撮像装置。
  9.  前記UIは、
     前記仮想撮像位置を表現する球面座標系の中心を決定するときに操作される第1の操作部と、
     前記球面座標系における前記仮想撮像位置の方位角を変化させるときに操作される第2の操作部と、
     前記球面座標系における前記仮想撮像位置の仰角を変化させるときに操作される第3の操作部と、
     前記球面座標系の中心と前記仮想撮像位置との間の距離を変化させるときに操作される第4の操作部と
     を有する
     請求項7に記載の撮像装置。
  10.  前記UIは、前記仮想撮像位置からの仮想的な撮像を行うときの仮想的な撮像装置の焦点距離を変化させるときに操作される第5の操作部をさらに有する
     請求項9に記載の撮像装置。
  11.  前記UIは、前記第1ないし第5の操作部のいずれかの操作が継続されている間、前記仮想撮像位置又は前記焦点距離を連続的に変化させる
     請求項10に記載の撮像装置。
  12.  前記UIは、前記第1ないし第5の操作部のいずれかの操作が継続されている時間に応じて、前記仮想撮像位置又は前記焦点距離の変化量を変化させる
     請求項10に記載の撮像装置。
  13.  前記UIは、ユーザが注視している注視点を、前記仮想撮像位置に指定する
     請求項1に記載の撮像装置。
  14.  撮像位置から被写体までの距離情報とモデル情報とを用いて、前記撮像位置から前記被写体を撮像した撮像画像から、前記撮像位置と異なる仮想撮像位置から前記被写体を撮像した仮想画像を生成する
     ことを含む撮像方法。
  15.  撮像位置から被写体までの距離情報とモデル情報とを用いて、前記撮像位置から前記被写体を撮像した撮像画像から、前記撮像位置と異なる仮想撮像位置から前記被写体を撮像した仮想画像を生成する生成部
     としてコンピュータを機能させるためのプログラム。
PCT/JP2021/000445 2020-01-23 2021-01-08 撮像装置、撮像方法、及び、プログラム WO2021149509A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US17/782,851 US20230005213A1 (en) 2020-01-23 2021-01-08 Imaging apparatus, imaging method, and program
EP21744897.6A EP4075789A4 (en) 2020-01-23 2021-01-08 IMAGING DEVICE, IMAGING PROCEDURE AND PROGRAM
CN202180009485.9A CN115004683A (zh) 2020-01-23 2021-01-08 成像装置、成像方法和程序
JP2021573062A JPWO2021149509A1 (ja) 2020-01-23 2021-01-08
JP2024092068A JP2024114712A (ja) 2020-01-23 2024-06-06 撮像装置、撮像方法、及び、プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-008936 2020-01-23
JP2020008936 2020-01-23

Publications (1)

Publication Number Publication Date
WO2021149509A1 true WO2021149509A1 (ja) 2021-07-29

Family

ID=76992931

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/000445 WO2021149509A1 (ja) 2020-01-23 2021-01-08 撮像装置、撮像方法、及び、プログラム

Country Status (5)

Country Link
US (1) US20230005213A1 (ja)
EP (1) EP4075789A4 (ja)
JP (2) JPWO2021149509A1 (ja)
CN (1) CN115004683A (ja)
WO (1) WO2021149509A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114167891A (zh) * 2021-11-29 2022-03-11 湖南汽车工程职业学院 一种基于无人机的地面数据采集处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100367A (ja) * 2003-09-02 2005-04-14 Fuji Photo Film Co Ltd 画像生成装置、画像生成方法、及び画像生成プログラム
JP2010177921A (ja) * 2009-01-28 2010-08-12 Fujifilm Corp 立体撮像装置および立体撮像方法
WO2011096136A1 (ja) * 2010-02-02 2011-08-11 コニカミノルタホールディングス株式会社 疑似画像生成装置および疑似画像生成方法
JP2019103126A (ja) 2018-10-04 2019-06-24 キヤノン株式会社 カメラシステム、カメラ制御装置、カメラ制御方法及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004114224A1 (ja) * 2003-06-20 2004-12-29 Nippon Telegraph And Telephone Corporation 仮想視点画像生成方法及び3次元画像表示方法並びに装置
WO2011096252A1 (ja) * 2010-02-02 2011-08-11 コニカミノルタホールディングス株式会社 画像処理システム、画像処理方法、およびプログラム
US8675090B2 (en) * 2010-12-15 2014-03-18 Panasonic Corporation Image generating apparatus, image generating method, and recording medium
JP6112824B2 (ja) * 2012-02-28 2017-04-12 キヤノン株式会社 画像処理方法および装置、プログラム。
JP6029380B2 (ja) * 2012-08-14 2016-11-24 キヤノン株式会社 画像処理装置、画像処理装置を具備する撮像装置、画像処理方法、及びプログラム
JP6214236B2 (ja) * 2013-03-05 2017-10-18 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法、及びプログラム
JP6395423B2 (ja) * 2014-04-04 2018-09-26 キヤノン株式会社 画像処理装置、制御方法及びプログラム
JP6543062B2 (ja) * 2015-03-23 2019-07-10 キヤノン株式会社 画像処理装置、画像処理方法
US20170094227A1 (en) * 2015-09-25 2017-03-30 Northrop Grumman Systems Corporation Three-dimensional spatial-awareness vision system
US10970915B2 (en) * 2017-01-06 2021-04-06 Canon Kabushiki Kaisha Virtual viewpoint setting apparatus that sets a virtual viewpoint according to a determined common image capturing area of a plurality of image capturing apparatuses, and related setting method and storage medium
JP6415675B1 (ja) * 2017-12-04 2018-10-31 キヤノン株式会社 生成装置、生成方法及びプログラム
TWI657409B (zh) * 2017-12-27 2019-04-21 財團法人工業技術研究院 虛擬導引圖示與真實影像之疊合裝置及其相關疊合方法
KR102622714B1 (ko) * 2018-04-08 2024-01-08 디티에스, 인코포레이티드 앰비소닉 깊이 추출
EP3651119A1 (en) * 2018-11-06 2020-05-13 Koninklijke Philips N.V. Disparity estimation from a wide angle image
US10957027B2 (en) * 2019-03-26 2021-03-23 Intel Corporation Virtual view interpolation between camera views for immersive visual experience
US11644890B2 (en) * 2021-02-11 2023-05-09 Qualcomm Incorporated Image capturing in extended reality environments

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100367A (ja) * 2003-09-02 2005-04-14 Fuji Photo Film Co Ltd 画像生成装置、画像生成方法、及び画像生成プログラム
JP2010177921A (ja) * 2009-01-28 2010-08-12 Fujifilm Corp 立体撮像装置および立体撮像方法
WO2011096136A1 (ja) * 2010-02-02 2011-08-11 コニカミノルタホールディングス株式会社 疑似画像生成装置および疑似画像生成方法
JP2019103126A (ja) 2018-10-04 2019-06-24 キヤノン株式会社 カメラシステム、カメラ制御装置、カメラ制御方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4075789A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114167891A (zh) * 2021-11-29 2022-03-11 湖南汽车工程职业学院 一种基于无人机的地面数据采集处理系统
CN114167891B (zh) * 2021-11-29 2022-08-16 湖南汽车工程职业学院 一种基于无人机的地面数据采集处理系统

Also Published As

Publication number Publication date
JPWO2021149509A1 (ja) 2021-07-29
CN115004683A (zh) 2022-09-02
US20230005213A1 (en) 2023-01-05
JP2024114712A (ja) 2024-08-23
EP4075789A4 (en) 2023-05-03
EP4075789A1 (en) 2022-10-19

Similar Documents

Publication Publication Date Title
CN109887003B (zh) 一种用于进行三维跟踪初始化的方法与设备
EP2328125B1 (en) Image splicing method and device
US10547822B2 (en) Image processing apparatus and method to generate high-definition viewpoint interpolation image
US20130335535A1 (en) Digital 3d camera using periodic illumination
US20110025830A1 (en) Methods, systems, and computer-readable storage media for generating stereoscopic content via depth map creation
US9813693B1 (en) Accounting for perspective effects in images
US10545215B2 (en) 4D camera tracking and optical stabilization
JP2008140271A (ja) 対話装置及びその方法
JP2010109783A (ja) 電子カメラ
CN110751735B (zh) 一种基于增强现实的远程指导的方法与设备
CN111737518A (zh) 基于三维场景模型的图像展示方法、装置及电子设备
JP2024114712A (ja) 撮像装置、撮像方法、及び、プログラム
US20220329770A1 (en) Information processing apparatus, video generation method and program
WO2011014421A2 (en) Methods, systems, and computer-readable storage media for generating stereoscopic content via depth map creation
CN113643414A (zh) 一种三维图像生成方法、装置、电子设备及存储介质
CN113724303A (zh) 点云与图像匹配方法、装置、电子设备和存储介质
US20240087157A1 (en) Image processing method, recording medium, image processing apparatus, and image processing system
US10154241B2 (en) Depth map based perspective correction in digital photos
JP2023546739A (ja) シーンの3次元モデルを生成するための方法、装置、およびシステム
US20240348928A1 (en) Image display method, device and electronic device for panorama shooting to improve the user's visual experience
CN111402404A (zh) 全景图补全方法、装置、计算机可读存储介质及电子设备
CN109978945B (zh) 一种增强现实的信息处理方法和装置
CN110286906A (zh) 用户界面显示方法、装置、存储介质与移动终端
US20240054667A1 (en) High dynamic range viewpoint synthesis
CN116450002A (zh) Vr图像处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21744897

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021573062

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2021744897

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2021744897

Country of ref document: EP

Effective date: 20220714

NENP Non-entry into the national phase

Ref country code: DE