WO2014148031A1 - 画像生成装置、撮像装置および画像生成方法 - Google Patents

画像生成装置、撮像装置および画像生成方法 Download PDF

Info

Publication number
WO2014148031A1
WO2014148031A1 PCT/JP2014/001498 JP2014001498W WO2014148031A1 WO 2014148031 A1 WO2014148031 A1 WO 2014148031A1 JP 2014001498 W JP2014001498 W JP 2014001498W WO 2014148031 A1 WO2014148031 A1 WO 2014148031A1
Authority
WO
WIPO (PCT)
Prior art keywords
image signal
image
unit
imaging
parallax information
Prior art date
Application number
PCT/JP2014/001498
Other languages
English (en)
French (fr)
Inventor
窪田 憲一
森岡 芳宏
祐介 小野
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2015506604A priority Critical patent/JPWO2014148031A1/ja
Publication of WO2014148031A1 publication Critical patent/WO2014148031A1/ja
Priority to US14/810,317 priority patent/US20150334373A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/25Image signal generators using stereoscopic image cameras using two or more image sensors with different characteristics other than in their location or field of view, e.g. having different resolutions or colour pickup characteristics; using image signals from one sensor to control the characteristics of another sensor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • H04N13/211Image signal generators using stereoscopic image cameras using a single 2D image sensor using temporal multiplexing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/296Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0085Motion estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0096Synchronisation or controlling aspects

Definitions

  • the present disclosure relates to an imaging apparatus having a plurality of imaging units and capable of imaging a stereoscopic image.
  • Patent Document 1 discloses a digital camera that includes a main imaging unit and a secondary imaging unit and generates a 3D image. This digital camera extracts a parallax generated between a main image signal obtained from the main image pickup unit and a sub image signal obtained from the sub image pickup unit. Then, based on the extracted parallax, a new sub image signal is generated from the main image signal, and a 3D image is generated from the main image signal and the new sub image signal.
  • Patent Document 2 discloses a stereo camera that can perform stereo shooting with the right and left shooting magnifications different.
  • This stereo camera includes first imaging means for generating first image data, and second imaging means for generating second image data having a wider angle of view than the first image data. Then, a range corresponding to the first image data is cut out from the second image data as third image data, and stereo image data is generated from the first image data and the third image data.
  • the main imaging unit has an optical zoom function
  • the secondary imaging unit does not have an optical zoom function but has an electronic zoom function. Is disclosed.
  • the present disclosure relates to an image generation apparatus and an imaging device that are effective for obtaining a high-quality stereoscopic image or movie from a pair of images or movies captured by a pair of imaging units having different optical characteristics and imaging device specifications.
  • the imaging device of the present disclosure includes a first imaging unit, a second imaging unit, and an image signal processing unit.
  • the first imaging unit is configured to capture a first image and output a first image signal.
  • the second imaging unit is configured to capture a second image having an angle of view greater than or equal to the first image at a higher resolution than the first image and output a second image signal.
  • the image signal processing unit generates at least one part of the second image signal by cutting out at least a part of the second image signal based on the first image signal, and at least one of the first image signal and the second image signal has a specific pattern.
  • disparity information is calculated based on the first image signal and the cut-out image signal, and when it is determined that at least one image signal has a specific pattern, the disparity information is corrected, and the disparity information is calculated.
  • a new second image signal is generated based on the corrected parallax information and the first image signal.
  • the image signal processing unit may include a feature point extraction unit, an angle-of-view matching unit, an image pattern determination unit, a depth map generation unit, and an image generation unit.
  • the feature point extraction unit is configured to extract a feature point common to the first image signal and the second image signal from the first image signal and the second image signal.
  • the angle-of-view matching unit is configured to cut out at least part of the second image signal and generate a cut-out image signal based on the feature points and the first image signal.
  • the image pattern determination unit is configured to determine whether at least one of the first image signal and the second image signal has a specific pattern.
  • the depth map generation unit calculates disparity information based on the first image signal and the cut-out image signal to generate a depth map, and when the image pattern determination unit determines that at least one image signal has a specific pattern It is configured to correct parallax information.
  • the image generation unit is configured to generate a new second image signal based on the parallax information or the corrected parallax information and the first image signal.
  • FIG. 1 is an external view of an imaging apparatus according to Embodiment 1.
  • FIG. 2 is a diagram schematically illustrating a circuit configuration of the imaging apparatus according to the first embodiment.
  • FIG. 3 is a diagram illustrating the configuration of the imaging apparatus according to the first embodiment, divided into blocks for each function.
  • FIG. 4 is a flowchart for explaining the operation of the imaging apparatus according to Embodiment 1 when capturing a stereoscopic image.
  • FIG. 5 is a diagram schematically showing an example of the processing flow of the image signal of the imaging apparatus according to the first embodiment.
  • FIG. 6 is an external view of an imaging apparatus according to another embodiment.
  • FIG. 7 is a diagram schematically illustrating an example of a flow of processing of an image signal of an imaging device according to another embodiment.
  • FIG. 1 is an external view of an imaging apparatus 110 according to the first embodiment.
  • the imaging apparatus 110 includes a monitor 113, an imaging unit having a first lens unit 111 (hereinafter referred to as “first imaging unit”), and an imaging unit having a second lens unit 112 (hereinafter referred to as “second imaging unit”). And).
  • the imaging device 110 has a plurality of imaging units as described above, and can capture still images and moving images with each imaging unit.
  • the first lens unit 111 is provided in front of the main body of the imaging device 110 so that the imaging direction of the first imaging unit faces frontward.
  • the monitor 113 is provided in the main body of the imaging device 110 so as to be openable and closable, and has a display (not shown in FIG. 1) for displaying a captured image.
  • the display is provided on the side opposite to the imaging direction of the first imaging unit when the monitor 113 is opened, that is, on the side where a user (not shown) behind the imaging device 110 can observe.
  • the second lens unit 112 is arranged on the opposite side of the monitor 113 from the display installation side, and is configured to capture an image in the same direction as the first imaging unit when the monitor 113 is opened.
  • the first imaging unit is a main imaging unit
  • the second imaging unit is an imaging unit. Then, as shown in FIG. 1, by taking the monitor 113 in an open state, these two imaging units are used to capture a stereoscopic still image (hereinafter referred to as “stereoscopic image”) and stereoscopic viewing. Video (hereinafter referred to as “stereoscopic video”) can be taken.
  • the main first imaging unit has an optical zoom function, and the user can set a zoom function at an arbitrary zoom magnification to capture a still image or a moving image.
  • a right-eye viewpoint image is captured by a first imaging unit and a left-eye viewpoint image is captured by a second imaging unit. Therefore, as shown in FIG. 1, in the imaging device 110, the first lens unit 111 is arranged on the right side in the imaging direction, and the second lens unit 112 is arranged on the left side in the imaging direction.
  • the present embodiment is not limited to this configuration, and the first imaging unit captures a left eye viewpoint image, and the second imaging unit captures a right eye viewpoint image. Also good.
  • an image captured by the first imaging unit is referred to as a “first image”
  • an image captured by the second imaging unit is referred to as a “second image”.
  • the second lens unit 112 included in the second imaging unit is smaller in diameter than the first lens unit 111 and does not have an optical zoom function. Therefore, the volume required for installation of the second imaging unit is smaller than that of the first imaging unit, and can be mounted on the monitor 113.
  • the right-eye viewpoint image captured by the first imaging unit is used as the right-eye image that forms the stereoscopic image.
  • the left-eye viewpoint image captured by the second imaging unit It is not used as a left eye image constituting a stereoscopic image.
  • the parallax amount (deviation) is obtained by comparing the right-eye viewpoint image captured by the first imaging unit and the left-eye viewpoint image captured by the second imaging unit. Amount), and a left-eye image is generated from the first image based on the calculated amount of parallax to obtain a stereoscopic image.
  • This parallax amount is the magnitude of the deviation of the position of the subject that occurs when the first image and the second image are overlapped with the same angle of view. This shift is caused by a difference in position (parallax) between the first imaging unit and the second imaging unit.
  • the optical axis of the first imaging unit and the optical axis of the second imaging unit are horizontal to the ground in the same manner as the parallax direction of the person.
  • the distance is set to be approximately the same as the distance between the left and right eyes.
  • the optical center of each of the first lens unit 111 and the second lens unit 112 is maintained.
  • the respective arrangement positions are set so that the distance between the optical center of the first lens unit 111 and the optical center of the second lens unit 112 is not less than 30 mm and not more than 65 mm.
  • the first lens unit 111 and the second lens unit 112 have substantially equal distances from the respective arrangement positions to the subject. Therefore, in the imaging device 110, the first lens unit 111 and the second lens unit 112 are arranged so as to substantially satisfy epipolar constraints. That is, the first lens unit 111 and the second lens unit 112 are each a single plane whose optical center is substantially parallel to the imaging device of the first imaging unit or the imaging surface of the imaging device of the second imaging unit. Position it so that it is on top.
  • the image can be converted into an image satisfying these conditions by executing affine transformation in which enlargement / reduction, rotation, translation and the like of the image are calculated. Then, the parallax amount (deviation amount) may be calculated using an image subjected to affine transformation.
  • the first lens unit 111 and the second lens unit 112 are arranged so that the optical axis of the first imaging unit and the optical axis of the second imaging unit are parallel to each other (hereinafter referred to as “parallel method”). ").
  • the first lens unit 111 and the second lens unit 112 are arranged so that the optical axis of the first imaging unit and the optical axis of the second imaging unit intersect at a predetermined point (hereinafter referred to as “intersection method”). May be. It is also possible to convert an image captured by the parallel method into an image as if captured by the intersection method by affine transformation.
  • the position of the subject substantially satisfies the epipolar constraint condition.
  • the position of the subject is determined in one image (for example, the first image) in the stereoscopic image generation process described later, the position of the subject in the other image (for example, the second image) is relatively easy. Since it can be calculated, the amount of calculation in the process of generating a stereoscopic image can be reduced. Conversely, as the number of items that are not satisfied by these conditions increases, the amount of computation such as affine transformation increases, so the amount of computation in the process of generating a stereoscopic image increases.
  • FIG. 2 is a diagram schematically illustrating a circuit configuration of the imaging device 110 according to the first embodiment.
  • the imaging device 110 includes a first imaging unit 200 that is a first imaging unit, a second imaging unit 210 that is a second imaging unit, an LSI 230, a RAM 221, a ROM 222, an acceleration sensor 223, a display 225, a storage device 227, an input device 224, A network interface 243 and a battery 245;
  • the first imaging unit 200 includes a first lens group 201, a first CCD (Charge Coupled Device) 202, which is a first imaging element, a first A / D conversion IC 203, and a first actuator 204.
  • a first lens group 201 a first lens group 201, a first CCD (Charge Coupled Device) 202, which is a first imaging element, a first A / D conversion IC 203, and a first actuator 204.
  • a first CCD Charge Coupled Device
  • the first lens group 201 corresponds to the first lens unit 111 illustrated in FIG. 1 and is an optical system including a plurality of lenses including a zoom lens capable of optical zoom and a focus lens capable of focus adjustment. . Further, the first lens group 201 is provided with an optical diaphragm (not shown) for adjusting the amount (light quantity) of light received by the first CCD 202. The light taken in through the first lens group 201 is adjusted as an optical zoom, focus, and light amount by the first lens group 201 and then formed as a subject image on the imaging surface of the first CCD 202. This image is the first image.
  • the first CCD 202 is configured to convert the light received on the imaging surface into an electrical signal and output it.
  • This electric signal is an analog signal whose voltage value changes in accordance with the intensity (light quantity) of light.
  • the first A / D conversion IC 203 is configured to convert an analog electric signal output from the first CCD 202 into a digital electric signal. This digital signal is the first image signal.
  • the first actuator 204 has a motor configured to drive a zoom lens and a focus lens included in the first lens group 201. This motor is controlled by a control signal output from the CPU 220 of the LSI 230.
  • the first imaging unit 200 outputs the first image as an image signal having “horizontal pixel count 1,920, vertical pixel count 1,080”, and the following description will be given.
  • the first imaging unit 200 is configured not only to capture still images but also to record moving images, and can perform moving image shooting at a frame rate (for example, 60 Hz) similar to general moving images. . Therefore, the first imaging unit 200 can capture a high-quality and smooth moving image.
  • the frame rate is the number of images taken per unit time (for example, 1 second). When a frame rate is set to 60 Hz and moving images are taken, 60 images are taken continuously per second. .
  • the number of pixels of the first image and the frame rate at the time of moving image shooting are not limited to the above numerical values, and are desirably set appropriately according to the specifications of the imaging device 110 and the like.
  • the second imaging unit 210 includes a second lens group 211, a second CCD 212 as a second imaging element, and a second A / D conversion IC 213.
  • the second lens group 211 corresponds to the second lens unit 112 shown in FIG. 1 and is an optical system including one or more lenses including a pan focus (deep focus) lens that does not require focus adjustment. .
  • the light taken in through the second lens group 211 forms an image of the subject on the imaging surface of the second CCD 212. This image is the second image.
  • the second lens group 211 does not have an optical zoom function as described above. Therefore, it has a single focus lens instead of an optical zoom lens.
  • the second lens group 211 includes a lens group that is smaller than the first lens group 201, and the objective lens of the second lens group 211 has a smaller aperture than the objective lens of the first lens group 201. It is used. Accordingly, the second imaging unit 210 is made smaller than the first imaging unit 200, the entire imaging device 110 is miniaturized to improve usability (portability and operability), and freedom regarding the arrangement position of the second imaging unit 210 is achieved. Increasing degree. Thereby, as shown in FIG. 1, the second imaging unit 210 can be mounted on the monitor 113.
  • the second CCD 212 is configured to convert the light received on the imaging surface into an analog electric signal and output it.
  • the second CCD 212 in the present embodiment has a higher resolution than the first CCD 202. Therefore, the image signal of the second image has a higher resolution and a larger number of pixels than the image signal of the first image. This is because a part of the image signal of the second image is taken out and used, or the image is enlarged by electronic zoom. Details of these will be described later.
  • the second A / D conversion IC 213 is configured to convert an analog electrical signal output from the second CCD 212 into a digital electrical signal. This digital signal is the second image signal.
  • the second imaging unit 210 outputs the second image as an image signal of “the number of pixels in the horizontal direction of 7,680 and the number of pixels in the vertical direction of 4,320”. Do.
  • the second imaging unit 210 is configured not only to capture still images but also to capture moving images, as with the first imaging unit 200. However, since the second image signal has a higher resolution and a larger number of pixels than the first image signal, the frame rate for moving image shooting in the second imaging unit 210 is the same as that for moving image shooting in the first imaging unit 200. It is lower than the frame rate (for example, 30 Hz).
  • the number of pixels of the second image and the frame rate at the time of moving image shooting are not limited to the above numerical values, and are desirably set appropriately according to the specifications of the imaging device 110 and the like.
  • imaging a series of operations for converting a subject image formed on the imaging surface of the imaging device into an electrical signal and outputting the image signal from the A / D conversion IC is referred to as “imaging”.
  • the first imaging unit captures a first image and outputs a first image signal
  • the second imaging unit captures a second image and outputs a second image signal.
  • CMOS Complementary Metal Oxide Semiconductor
  • a ROM (Read Only Memory) 222 stores various data such as a program for operating the CPU 220 and parameters, and the CPU 220 can arbitrarily read the data.
  • the ROM 222 is composed of a nonvolatile semiconductor memory element, and the stored data is retained even when the power of the imaging device 110 is turned off.
  • the input device 224 is a general term for input devices configured to be able to accept user instructions.
  • the input device 224 includes, for example, various buttons such as a power button and a setting button operated by a user, a touch panel, a lever, and the like. In this embodiment, an example in which a touch panel is provided in the display 225 will be described. However, the input device 224 is not limited to these configurations.
  • the input device 224 may include a voice input device, or a configuration in which all input operations are performed using a touch panel. The input operation may be performed with a button, a lever, or the like.
  • the LSI 230 includes a CPU 220, an encoder 226, an IO controller 233, and a clock generator 234.
  • a CPU 220 operates based on programs and parameters read from the ROM 222, user instructions received by the input device 224, and the like, and performs overall control of the imaging device 110 and various arithmetic processes. It is configured.
  • the various arithmetic processes include image signal processing relating to the first image signal and the second image signal. Details of this image signal processing will be described later.
  • a microcomputer is used as the CPU 220.
  • an FPGA Field Programmable Gate Array
  • DSP Digital Signal Processor
  • GPU Graphics Processing Unit
  • the same operation may be performed.
  • some or all of the processing performed by the CPU 220 may be performed in a device outside the imaging device 110.
  • the encoder 226 is configured to encode (encode) an image signal based on an image captured by the imaging device 110 and information related to the captured image by a predetermined method. This is because the data amount is reduced and stored in the storage device 227.
  • This encoding method is a commonly used image compression method such as MPEG-2 or H.264. H.264 / MPEG-4 AVC, etc.
  • the IO controller (Input Output Controller) 233 performs input / output control of input signals and output signals of the LSI 230 (CPU 220).
  • the clock generator 234 generates a clock signal and supplies it to the LSI 230 (CPU 220) or a circuit block connected to the LSI 230.
  • This clock signal is used as a synchronization signal for synchronizing various operations and various arithmetic processes in the LSI 230 (CPU 220).
  • a RAM (Random Access Memory) 221 is composed of a volatile semiconductor memory element, and temporarily stores a part of a program for operating the CPU 220, parameters at the time of program execution, a user instruction, and the like based on an instruction from the CPU 220. It is comprised so that it may memorize
  • the acceleration sensor 223 is a commonly used acceleration detection sensor, and is configured to detect a change in the movement or posture of the imaging device 110.
  • the acceleration sensor 223 detects, for example, whether or not the imaging device 110 is kept parallel to the ground, and the detection result is displayed on the display 225. Therefore, the user looks at the display to determine whether or not the imaging device 110 is kept horizontal with respect to the ground, that is, whether or not the imaging device 110 is in a state (posture) suitable for capturing a stereoscopic image. Can be judged. As a result, the user can capture a stereoscopic image or a stereoscopic moving image while keeping the imaging device 110 in an appropriate posture.
  • the imaging apparatus 110 may be configured to perform optical system control such as camera shake correction based on the detection result of the acceleration sensor 223.
  • the acceleration sensor 223 may be a triaxial gyroscope (triaxial gyro sensor), or may be configured to use a plurality of sensors in combination.
  • the display 225 is composed of a generally used liquid crystal display panel, and is mounted on the monitor 113 shown in FIG.
  • the display 225 has the above-described touch panel attached to the surface thereof, and is configured to be able to simultaneously display an image and accept a user instruction.
  • the image displayed on the display 225 includes (1) an image being picked up by the image pickup device 110 (an image based on an image signal output from the first image pickup unit 200 or the second image pickup unit 210), and (2) a storage device 227. (3) an image based on an image signal processed by the CPU 220, (4) a menu display screen for displaying various setting items of the imaging device 110, and the like.
  • these images are selectively displayed or an image obtained by superimposing a plurality of images on each other is displayed.
  • the display 225 is not limited to the above-described configuration, and may be a thin and low power consumption image display device.
  • the display 225 may be configured by an EL (Electro Luminescence) panel or the like.
  • you may be comprised so that a stereo image may be displayed.
  • the storage device 227 includes a hard disk drive (HDD) that is a relatively large capacity storage device that can be rewritten arbitrarily, and is configured to store data encoded by the encoder 226 in a readable manner. . Further, the data stored in the storage device 227 includes an image signal of a stereoscopic image generated by the CPU 220, information necessary for displaying the stereoscopic image, and image information associated with the image signal. Note that the storage device 227 may be configured to store the image signal output from the first imaging unit 200 or the second imaging unit 210 as it is without performing the encoding process. In addition, the storage device 227 is not limited to an HDD, and may be configured to store in a removable storage medium such as a memory card or an optical disk with a built-in semiconductor storage element.
  • HDD hard disk drive
  • the above-described image information refers to information related to an image signal.
  • the image encoding method bit rate, image size, resolution, frame rate, and in-focus distance at the time of imaging (in focus). Distance to the subject), zoom magnification, whether or not the image is a stereoscopic image, and in the case of a stereoscopic image, identifiers of the left-eye image and the right-eye image, parallax information, and the like.
  • One or more of these pieces of information are stored in the storage device 227 as image information in association with the image signal.
  • the storage device 227 stores information (database) that is referred to in the image signal processing described later in advance.
  • This database includes information used when correcting parallax information (depth map) described later, information referred to by a scene determination unit described later, and the like. Associated with the scene). This database will be described later.
  • the database may be stored in a storage device provided separately from the storage device 227 for storing the above-described image signals and image information.
  • the network interface 243 is a general communication device, and exchanges data between the imaging device 110 and devices outside the imaging device 110.
  • the data includes data stored in the storage device 227, data processed by the CPU 220, data input from the external device to the imaging device 110, and the like.
  • the battery 245 is a power supply device configured by a commonly used secondary battery, and supplies power necessary for the operation of the imaging device 110.
  • FIG. 3 is a diagram illustrating the configuration of the imaging apparatus 110 according to the first embodiment, divided into blocks for each function.
  • the imaging device 110 When the configuration of the imaging device 110 is divided into main functions that operate when capturing a stereoscopic image, the imaging device 110 includes a first imaging unit 300, a second imaging unit, as shown in FIG. 310, an image signal processing unit 320, a display unit 330, a storage unit 340, an input unit 350, and a camera information unit 360.
  • the image signal processing unit 320 temporarily stores an image signal in a storage element such as a frame memory when processing the image signal, but such a storage element is omitted in FIG.
  • constituent elements such as the battery 245 that are not directly related to stereoscopic image capturing are omitted.
  • the first imaging unit 300 includes a first optical unit 301, a first imaging element 302, and a first optical control unit 303.
  • the first imaging unit 300 corresponds to the first imaging unit 200 shown in FIG.
  • the first optical unit 301 corresponds to the first lens group 201
  • the first imaging element 302 corresponds to the first CCD 202 and the first A / D conversion IC 203
  • the first optical control unit 303 corresponds to the first actuator 204. Since these are duplicates, their explanation is omitted.
  • the second imaging unit 310 includes a second optical unit 311 and a second imaging element 312.
  • the second imaging unit 310 corresponds to the second imaging unit 210 shown in FIG.
  • the second optical unit 311 corresponds to the second lens group 211
  • the second imaging element 312 corresponds to the second CCD 212 and the second A / D conversion IC 213, respectively. Since these are duplicates, their explanation is omitted.
  • the display unit 330 corresponds to the display 225 shown in FIG.
  • the input unit 350 corresponds to the input device 224 illustrated in FIG.
  • the touch panel included in the input unit 350 is attached to the surface of the display unit 330, and the display unit 330 can simultaneously display an image and accept a user instruction.
  • the camera information unit 360 corresponds to the acceleration sensor 223 shown in FIG.
  • the storage unit 340 corresponds to the storage device 227 illustrated in FIG. Since these are duplicates, their explanation is omitted.
  • the image signal processing unit 320 corresponds to the LSI 230 shown in FIG.
  • the operations performed by the image signal processing unit 320 shown in FIG. 3 are mainly performed by the CPU 220. Therefore, the operations of the CPU 220 will be mainly described below, and the operations of the encoder 226, the IO controller 233, and the clock generator 234 will be described. Description is omitted.
  • FIG. 3 illustrates arithmetic processing (image signal processing) and control performed by the CPU 220 when the imaging device 110 captures a stereoscopic image. Only main functions related to operations are shown in blocks, and other functions related to operations are omitted. This is for easy understanding of the operation when the imaging device 110 captures a stereoscopic image.
  • each functional block shown in FIG. 3 as the image signal processing unit 320 merely shows the main processing and control operations performed by the CPU 220 by function, and the inside of the CPU 220 is shown in FIG. It is not physically divided into functional blocks. However, the following description will be made assuming that the image signal processing unit 320 includes the units illustrated in FIG. 3 for convenience.
  • CPU 220 may be configured by an IC or FPGA including an electronic circuit corresponding to each functional block shown in FIG.
  • the image signal processing unit 320 includes a matching unit 370, a face recognition unit 327, a scene determination unit 328, a motion detection unit 329, an image generation unit 325, and an imaging control unit 326.
  • the matching unit 370 includes a feature point extraction unit 322, an angle-of-view matching unit 321, an image pattern determination unit 324, and a depth map generation unit 323.
  • the face recognition unit 327 detects from the first image signal whether or not a human face is included in the subject imaged as the first image.
  • Human face detection can be performed using commonly used techniques such as detection of eyes, nose, mouth, eyebrows, contours, hairstyle, and the like by template matching, and skin color detection. The detailed explanation is omitted.
  • the face recognition unit 327 detects a human face
  • the face recognition unit 327 detects the position, number, size, and the like of the human face and calculates reliability (probability of being a human face).
  • the detection result of the face recognition unit 327 is output to the scene determination unit 328 and the matching unit 370. Note that the detection result of the face recognition unit 327 may be used for an automatic focus adjustment function (autofocus) or the like.
  • the motion detection unit 329 performs motion detection regarding the first image signal.
  • the motion detection unit 329 performs pixel-by-pixel or block-by-block by one-pixel matching or block matching performed by a collection of a plurality of pixels based on two or more first images that are continuously captured in time. Judge whether it is stationary or moving. For a pixel or block determined to be moving, a motion vector is detected. Since the motion detection itself is a generally known method, detailed description thereof is omitted.
  • the detection result of the motion detection unit 329 is output to the scene determination unit 328 and the matching unit 370.
  • the detection result of the motion detection unit 329 may be used for an automatic focus adjustment function or the like.
  • the imaging device 110 is configured to automatically capture the second and subsequent first images that are temporally continuous when the first image is captured in order to obtain the plurality of first image signals. Also good.
  • the scene determination unit 328 determines what kind of scene the first image is captured based on the first image signal, the detection result in the face recognition unit 327, and the detection result in the motion detection unit 329.
  • the scene determination unit 328 classifies the first image into the following four. 1) An image showing a scene 2) An image showing a person 3) An image showing a scene with a lot of motion 4) A determination result in an image scene determination unit 328 not corresponding to these is output to the matching unit 370.
  • a histogram relating to the luminance signal of the first image signal in addition to the detection result in the face recognition unit 327 and the detection result in the motion detection unit 329, a histogram relating to the luminance signal of the first image signal, a histogram relating to the color signal (color difference signal) of the first image signal, From the signal obtained by extracting the contour portion of the image signal, the optical zoom magnification of the first optical unit 301 when the first image to be determined is captured, the distance to the subject in focus (focus distance), and the like The above determination is made. Information necessary for these determinations is included in the database described above, and the scene determination unit 328 makes these determinations with reference to the database.
  • the image classification in the scene determination unit 328 is not limited to the contents described above.
  • image classification may be performed based on the color and brightness of the captured image, such as an image with many red colors, a dark image, and an image with many green and blue colors.
  • the above four classifications may be further classified by adding an image showing a child, an image showing a still life such as a figurine, a night view, and the like. Or you may classify other than those.
  • the information used for classification determination is not limited to the information described above, and information other than the above may be used, or one or more of the above information may be selected and used.
  • the scene determination unit 328 may be configured to perform the above-described determination based on the second image or both the first image and the second image.
  • the imaging apparatus 110 can acquire a focusing distance, which is a distance from the imaging apparatus 110 to the focused subject, at the time of focus adjustment.
  • the distance (focusing distance) from the imaging device 110 to the subject that is in focus (focused) on the imaging surface of the first imaging element 302 changes according to the position of the focus lens. Therefore, if the imaging control unit 326 (or the first optical control unit 303) is previously provided with information that associates the position of the focus lens with the in-focus distance, the imaging control unit 326 sets the first optical control unit 303.
  • the image signal processing unit 320 can acquire the current focus distance from the current focus lens position.
  • the image signal processing unit 320 can acquire the optical zoom magnification and the focusing distance of the first optical unit 301 when the first image is captured as the incidental information of the first image.
  • the image generation unit 325 generates a new second image signal from the first image signal based on the parallax information (depth map) output from the depth map generation unit 323 of the matching unit 370.
  • a new second image signal generated from the first image signal is referred to as a “new second image signal”.
  • An image based on the new second image signal is referred to as a “new second image”. Therefore, the first image signal and the new second image signal are image signals having the same specifications (resolution, angle of view, etc., including the frame rate in the case of moving images).
  • the first image signal is a right-eye image signal
  • the stereoscopic image signal is a left-eye image signal that is a new second image signal generated by the image generation unit 325 based on parallax information (depth map). Is output from the image generation unit 325.
  • the stereoscopic image signal is stored in the storage unit 340, for example, and the stereoscopic image based on the stereoscopic image signal is displayed on the display unit 330.
  • the imaging device 110 generates a new second image signal (for example, a left-eye image signal) to be paired based on the parallax information (depth map) from the first image signal (for example, the right-eye image signal). Therefore, it is possible to adjust the stereoscopic effect (depth feeling) of the generated stereoscopic image by correcting the parallax information (depth map). Therefore, in the present embodiment, the matching unit 370 (depth map generation) is adjusted so that the parallax information (depth map) can be corrected to increase or suppress the stereoscopic effect (depth feeling) of the stereoscopic image. Part 323). Details of this will be described later.
  • the feature point extraction unit 322 of the matching unit 370 extracts a plurality of feature point candidates from each of the first image signal and the second image signal, and selects a plurality of feature point candidates from these feature point candidates as feature points. Thus, a plurality of feature points are set for each of the first image signal and the second image signal.
  • the feature point is a region used as a mark when the first image signal and the second image signal are compared with each other.
  • the feature points are also used when generating parallax information (depth map). Therefore, it is desirable that the region set as the feature point satisfies the following requirements.
  • the region set as the feature point is preferably a region that can be easily set as a reference and easily specified during comparison.
  • a region for example, a contour portion of a subject can be cited.
  • such a region can be easily extracted by, for example, calculating a differential value of a luminance signal or a differential value of a color signal (color difference signal) and comparing the calculation result with a predetermined threshold value. Can do.
  • Requirement 2 above is for the following reason.
  • the first image is captured by the first imaging unit 300 having an optical zoom function
  • the second image is captured by the second imaging unit 310 having a single focus lens. Therefore, it is considered that there are many areas in the second image that are greater than or equal to the range captured in the first image, and feature points are set in areas captured only in such a second image. However, it cannot be used for comparison. Therefore, it is desirable to set a region that exists in common in each of the first image and the second image as a feature point.
  • Requirement 3 above is for the following reason. If the feature points are concentrated in a specific area in the image, relatively high accuracy comparison can be performed for the area, but the comparison accuracy is relatively decreased for other areas. Therefore, it is desirable that the feature points be distributed as uniformly as possible in each image so that such a bias does not occur.
  • each image of the first image and the second image is divided into 9 regions by dividing each image in the horizontal direction and the vertical direction, and 2 or more and 5 or less feature points are set in each region. This prevents the occurrence of bias.
  • this embodiment is not limited to this configuration, and any setting may be used as long as it is possible to prevent the deviation of feature points.
  • Requirement 4 above is for the following reason. If feature points are set concentrated on a subject in the foreground or set focused on a subject in the foreground, the disparity information (depth map) generated by the depth map generator 323 is also biased. Therefore, it is difficult for the image generation unit 325 to generate a new second image signal (stereoscopic image signal) with high quality. In order to generate highly accurate parallax information (depth map), it is desirable that the feature points be distributed as uniformly as possible from the subject in the near view to the subject in the distant view. If requirement 3 is satisfied, it can be considered that requirement 4 is also substantially satisfied.
  • an area set as a feature point is difficult to use for comparison if it is too large, and is difficult to extract if it is too small.
  • the feature point extraction unit 322 extracts feature point candidates from each image signal in consideration of these requirements, and sets feature points. Then, information regarding the set feature points (feature point information) is output to the angle-of-view matching unit 321 and the image pattern determination unit 324.
  • the feature point extraction unit 322 may have a configuration in which priorities are set for the above-described four requirements, and feature point candidates are extracted so as to be satisfied in order from the higher priority requirements.
  • the priority is changed, or a requirement other than the above is added, or a feature point candidate The extraction method may be changed.
  • the feature point extraction unit 322 may be configured to extract all regions corresponding to the feature point candidates as feature point candidates in each image signal and set all of them as feature points. Alternatively, from a plurality of extracted feature point candidates, in accordance with the above requirements, in order from the area that satisfies more requirements, or from the area that satisfies the higher priority requirements, only a predetermined number is used. The configuration may be set as a feature point.
  • the angle-of-view matching unit 321 receives the first image signal output from the first imaging unit 300 and the second image signal output from the second imaging unit 310. Then, image signals that are determined to have the same imaging range are extracted from each input image signal.
  • the first image capturing unit 300 can perform image capturing using an optical zoom
  • the second image capturing unit 310 can perform image capturing using a single focus lens. Therefore, if each imaging unit is set so that the angle of view of the first image when the first optical unit 301 is at the wide-angle end is equal to or smaller than the angle of view of the second image, the range captured by the second image is within the range. Always includes the range captured in the first image. For example, the second image, which cannot be optically zoomed at the time of imaging, has a wider angle of view than the first image captured at a higher zoom magnification, and this second image has a wider range than the first image. An image is being taken.
  • the “angle of view” is a range captured as an image, and is generally expressed as an angle.
  • the angle-of-view matching unit 321 extracts a portion corresponding to the range (view angle) captured as the first image from the second image signal using a generally used comparison / collation method such as pattern matching.
  • a generally used comparison / collation method such as pattern matching.
  • the accuracy of comparison between the first image signal and the second image signal can be increased.
  • an image signal extracted from the second image signal is referred to as a “cutout image signal”, and an image based on the cutout image signal is referred to as a “cutout image”. Therefore, the cut-out image is an image in a range determined by the angle-of-view matching unit 321 to be equal to the imaging range of the first image.
  • the angle-of-view matching unit 321 performs a reduction process for thinning out the pixels of both the first image signal and the cut-out image signal to reduce the number of pixels (signal amount). This is to reduce the amount of calculation necessary for calculating disparity information in the depth map generation unit 323 in the subsequent stage.
  • the angle-of-view matching unit 321 performs each reduction process so that the number of pixels after the reduction process of both image signals is equal to each other. This is because the comparison processing of two image signals performed in the depth map generation unit 323 in the subsequent stage is performed with a reduced amount of computation and an increased accuracy.
  • the number of pixels of the cut-out image signal (for example, 3840 ⁇ 2160) is four times the number of pixels of the first image signal (for example, 1920 ⁇ 1080), and the number of pixels of the first image signal is 1 ⁇ 4 (for example, When the reduction process is performed so as to be 960 ⁇ 540), the reduction process is performed so that the number of pixels of the cut-out image signal is 1/16 (for example, 960 ⁇ 540).
  • the angle-of-view matching unit 321 outputs the cut-out image signal and the first image signal subjected to the reduction process to the depth map generation unit 323 at the subsequent stage.
  • the second image signal may be used as it is as a cut-out image signal.
  • the operation in the angle-of-view matching unit 321 is not limited to the above-described operation.
  • the region corresponding to the imaging range of the second image may be extracted from the first image signal and the cut image signal may be generated.
  • an operation is performed so that areas having the same imaging range are extracted from each of the first image signal and the second image signal and output to the subsequent stage. Also good.
  • the method used for comparing the first image signal and the second image signal in the angle-of-view matching unit 321 is not limited to pattern matching, and other comparison / collation methods are used.
  • a cut-out image signal may be generated.
  • angle-of-view matching unit 321 performs brightness (gamma characteristics, black luminance, white luminance, contrast, etc.), white balance, and hue (hue, color) for the first image signal and the second image signal.
  • Image signal processing may be performed such that the (darkness) and the like are aligned in both images.
  • the image pattern determination unit 324 determines whether the first image corresponds to the specific pattern or whether the first image includes an area corresponding to the specific pattern based on the first image signal.
  • the image or area corresponding to the specific pattern is an image or area that is likely to have a feature point that is likely to be erroneously set, and as a result, an error is likely to be included in the disparity information (depth map).
  • the image or area corresponding to this specific pattern is as follows.
  • An image having many other regions similar to the region set as the feature point examples include the following.
  • 1-1 An image in which the same shape and pattern are regularly arranged. For example, an image in which tiles are arranged, an image in which a wall with a lattice pattern is copied, and the like.
  • 1-2 An image that has many areas similar to the areas set as feature points and is difficult to search for feature points. For example, images of thin branches, images of overgrown leaves, etc.
  • 3-3 An image in which the subject is not clear and feature points are difficult to set because the subject is moving rapidly and greatly, or the luminance signal and the color signal (color difference signal) are gently changed. Examples of such images (or regions) include the following. 3-1: An image where the subject is moving quickly and greatly. For example, an image of a dog that moves around, an image of a person who plays sports, etc. 3-2: An image in which changes in luminance signal and color signal (color difference signal) are gentle. For example, an image of the sunset sky.
  • the image pattern determination unit 324 determines whether or not the first image corresponds to such a specific pattern, or whether or not an area corresponding to the specific pattern is included in the first image. The position and range are determined based on the first image signal. The image pattern determination unit 324, together with these determination results, displays information indicating that the feature point set by the feature point extraction unit 322 is low in reliability, or a feature point with low reliability. Information to be identified is output to the depth map generation unit 323. These pieces of information are referred to as “specific pattern determination information”.
  • the image pattern determination unit 324 may be configured to perform the above-described determination based on the second image signal or the cut-out image signal instead of the first image signal. Or the structure which performs the above-mentioned determination regarding both a 1st image signal and a 2nd image signal or a cut-out image signal may be sufficient. Further, the determination in the image pattern determination unit 324 is not limited to the above-described contents, and any determination is possible as long as the reliability of the feature points can be determined.
  • the depth map generation unit 323 generates parallax information based on the first image signal and the cut-out image signal that have been reduced by the angle-of-view matching unit 321.
  • the depth map generation unit 323 compares the reduced first image signal and the reduced cut-out image signal with each other, and determines how much the subject corresponding to each other is shifted between the two image signals in units of pixels. Alternatively, the calculation is performed in units of blocks including a plurality of pixels.
  • This “deviation amount (deviation amount)” is calculated in a parallax direction, for example, a direction that is horizontal to the ground when imaging is performed. This “deviation amount” is calculated over the entire area of one image (an image based on the reduced first image signal or an image based on the cut-out image signal subjected to the reduction process). What is associated with the block is parallax information (depth map).
  • the depth map generation unit 323 uses the feature points set by the feature point extraction unit 322 to compare the first image signal and the cut-out image signal, the depth map generation unit 323 generates parallax information (depth map). Has increased accuracy.
  • the depth map generation unit 323 corrects the once generated parallax information (depth map) based on the determination results in the image pattern determination unit 324 and the scene determination unit 328.
  • the disparity information is reduced so that the subject in the foreground reduces the stereoscopic effect (feels of depth), and the subject in the distant view has the stereoscopic effect ( The parallax information is increased so as to increase the sense of depth. Thereby, in the generated stereoscopic image, the stereoscopic effect (depth feeling) can be emphasized so that the distant view can be felt further.
  • the parallax information of the focused subject is set to a distance that allows a viewer of the stereoscopic image to easily focus on the subject. To correct. This distance is, for example, about 2 to 5 m.
  • the parallax information is corrected so that the sense of distance from the focused subject is reduced.
  • a person image tends to become an unnatural three-dimensional image if the three-dimensional effect (depth feeling) is excessively emphasized, but this suppresses the three-dimensional effect (depth feeling) of the three-dimensional image appropriately, and makes the viewer feel a natural three-dimensional image. It is possible to generate a stereoscopic image in which a person image can be appreciated with a feeling (depth feeling).
  • the parallax information is corrected so as to reduce the stereoscopic effect (feeling of depth).
  • the image pattern determination unit 324 determines that an area corresponding to the specific pattern is included, or the output from the image pattern determination unit 324 includes information specifying a feature point with low reliability.
  • the parallax information is corrected so as to reduce the stereoscopic effect (depth feeling) of these areas, and the parallax information of the areas around these areas is corrected so that unnaturalness does not occur in the stereoscopic image.
  • the depth map generation unit 323 may be configured to enhance or reduce the stereoscopic effect (depth feeling) by applying a predetermined correction or a correction instructed by the user.
  • the correction data for correcting the parallax information is included in the database in advance, and the depth map generation unit 323 corrects the correction data based on the determination result of the scene determination unit 328 and the determination result of the image pattern determination unit 324. From the database to correct the parallax information.
  • disparity information is generated in association with the reduced first image signal, but disparity information (depth map) is associated with the reduced cutout image signal.
  • generate may be sufficient.
  • the “deviation amount” cannot be calculated for a region that does not have a corresponding portion, so a symbol indicating indefiniteness is set in such a region or is determined in advance. You can set a specific value.
  • FIG. 4 is a flowchart for explaining the operation at the time of capturing a stereoscopic image of the imaging apparatus 110 according to the first embodiment.
  • FIG. 5 is a diagram schematically showing an example of the processing flow of the image signal of the imaging apparatus 110 according to the first embodiment.
  • the first imaging unit 300 outputs a first image signal having a number of pixels of 1920 ⁇ 1080
  • the second imaging unit 310 is a second image having a number of pixels of 7680 ⁇ 4320.
  • the following description will be given on the assumption that an image signal is output.
  • the overlapping description is abbreviate
  • the imaging device 110 When imaging a stereoscopic image, the imaging device 110 mainly performs the following operations.
  • the feature point extraction unit 322 sets feature points for each of the first image signal and the second image signal, and information (feature point information) about the set feature points is used as the angle-of-view matching unit 321 and the image pattern determination unit 324. (Step S400).
  • the image pattern determination unit 324 determines whether the first image corresponds to the specific pattern, whether the region corresponding to the specific pattern is included in the first image, and the reliability for the feature point set in step S400. A determination is made based on one image signal, and the determination result (specific pattern determination information) is output to the depth map generation unit 323 (step S401).
  • the scene determination unit 328 also determines what kind of scene the first image is in, and outputs the determination result to the matching unit 370.
  • the angle-of-view matching unit 321 extracts a portion corresponding to the range (view angle) captured as the first image from the second image signal, and generates a cut-out image signal (step S402).
  • the imaging control unit 326 of the image signal processing unit 320 controls the optical zoom of the first optical unit 301 via the first optical control unit 303. Therefore, the image signal processing unit 320 can acquire the zoom magnification of the first optical unit 301 when the first image is captured as supplementary information of the first image. On the other hand, since the second optical unit 311 cannot perform optical zoom, the zoom magnification when capturing the second image is fixed.
  • the angle-of-view matching unit 321 calculates the difference in angle of view between the first image and the second image based on these pieces of information, and the imaging range (view angle) of the first image from the second image signal based on the calculation result. The area corresponding to is identified and cut out.
  • the angle-of-view matching unit 321 first cuts out a slightly wider range (for example, a range wider by about 10%) than the area corresponding to the angle of view of the first image. This is because a slight shift may occur between the center of the first image and the center of the second image.
  • the angle-of-view matching unit 321 performs generally used pattern matching on the cut-out range, specifies an area corresponding to the imaging range of the first image, and cuts out again. At this time, by using the feature points set in step S400, a highly accurate comparison can be performed.
  • the angle-of-view matching unit 321 first compares both image signals in the vertical direction, and then compares both image signals in the horizontal direction. This order may be reversed. In this way, the angle-of-view matching unit 321 extracts an area substantially equal to the imaging range of the first image signal from the second image signal, and generates a cut-out image signal.
  • a cutout image signal may be generated only by pattern matching.
  • the angle-of-view matching unit 321 reduces the first image signal and the cut-out image signal so that each has a predetermined number of pixels.
  • FIG. 5 shows an example in which the predetermined number of pixels is 960 ⁇ 540.
  • the number of pixels of the first image signal is 1920 ⁇ 1080
  • the number of pixels of the first image signal after the reduction process is reduced to 960 by reducing the first image signal to 1 ⁇ 2 in both the horizontal direction and the vertical direction. It can be set to x540.
  • the number of pixels of the cutout image signal varies depending on the size of the optical zoom magnification of the first imaging unit 300, and the number of pixels of the cutout image signal decreases as the zoom magnification at the time of capturing the first image increases. For example, if the number of pixels of the cut-out image signal is 3840 ⁇ 2160, the cut-out image signal is reduced to 1 ⁇ 4 in both the horizontal direction and the vertical direction, so that the number of pixels of the cut-out image signal after the reduction process is 960 ⁇ 540.
  • the reduction process may be performed first, and the reduced image signals may be compared with each other to generate a cut-out image signal.
  • the reduction process may be performed after the vertical comparison, and then the horizontal comparison may be performed.
  • the depth map generation unit 323 generates parallax information (depth map) based on the first image signal and the cut-out image signal that have been reduced by the angle-of-view matching unit 321 (step S405).
  • the depth map generation unit 323 reads the correction value from the database stored in the storage unit 340 based on the determination result in step S401, and corrects the disparity information (depth map) generated in step S405 (step S406). .
  • the parallax information (depth map) is corrected so as to suppress the stereoscopic effect (depth feeling) for the image having the feature point determined to have low reliability in step S401.
  • the depth map generation unit 323 may not correct the parallax information (depth map) generated in step S405.
  • the depth map generation unit 323 expands the disparity information (depth map) in accordance with the number of pixels of the first image signal in preparation for subsequent processing.
  • this extended parallax information depth map
  • this extended parallax information depth map
  • the disparity information (depth map) is generated based on an image signal having a pixel number of 960 ⁇ 540 and the number of pixels of the first image signal is 1920 ⁇ 1080
  • the disparity information (depth map) is converted into the horizontal direction / vertical direction. Each is expanded twice to generate an extended depth map.
  • a new second image signal that is a pair of the first image signal in the stereoscopic image signal is generated in the image generation unit 325 based on the disparity information (extended depth map) generated in the depth map generation unit 323 in step S406.
  • One image signal is generated (step S407).
  • the image generation unit 325 generates a new second image signal having a pixel number of 1920 ⁇ 1080 from the first image signal having a pixel number of 1920 ⁇ 1080 based on the extended depth map.
  • the image generation unit 325 outputs a pair of the first image signal and the new second image signal as a stereoscopic image signal.
  • the number of pixels of each image signal and the number of pixels of the image signal after the reduction processing are not limited to the numerical values described above.
  • step S400 may perform the process of step S400 to step S406 using only the luminance signal of an image signal. This is because the processing load can be reduced and each process can be performed with higher accuracy than the process for each of the three primary color signals of RGB.
  • each process may be performed using the luminance signal and color signal (color difference signal) of the image signal, or each process may be performed for each of the three primary color signals of RGB.
  • the imaging apparatus 110 may be configured such that the disparity information (depth map) generated by the depth map generation unit 323 is displayed on the display unit 330 and the user can manually correct the disparity information (depth map).
  • a new second image signal is once generated based on disparity information (depth map) without correction, and a stereoscopic image based on the second image signal is displayed on the display unit 330, so that a portion where the stereoscopic effect (feeling of depth) is unnatural is displayed.
  • the imaging device 110 may be configured so that the user can manually correct it.
  • the configuration may be such that the new second image signal based on the parallax information (depth map) reflecting the manual correction is output from the image generation unit 325 as the final new second image signal.
  • the imaging device 110 may be configured such that the correction for the above-described parallax information (depth map) is performed only when the user permits it.
  • the zoom magnification of the first optical unit 301 and the resolution of the second image sensor 312 are such that the resolution of the cut-out image signal when the first optical unit 301 is at the telephoto end (tele end) is equal to or higher than the resolution of the first image signal. It is desirable to set so that This is to prevent the cut-out image signal from having a lower resolution than the first image signal when the first optical unit 301 is at the telephoto end.
  • the present embodiment is not limited to this configuration.
  • the second optical unit 311 is preferably configured to have a field angle substantially equal to or wider than the angle of view when the first optical unit 301 is at the wide angle end (wide end). This is to prevent the first image from having a wider angle of view than the second image when the first optical unit 301 is at the wide angle end.
  • the present embodiment is not limited to this configuration, and the angle of view of the first image when the first optical unit 301 is at the wide-angle end may be wider than that of the second image. .
  • the imaging device 110 has the first imaging unit 300 configured to capture the first image and output the first image signal, and the angle of view greater than the first image.
  • a second imaging unit 310 configured to capture a second image having a higher resolution than the first image and output a second image signal, and an image signal processing unit 320 are provided.
  • the image signal processing unit 320 cuts out at least part of the second image signal to generate a cut-out image signal, and at least one of the first image signal and the second image signal is specified. It is determined whether or not it has a pattern, and disparity information is calculated based on the first image signal and the cut-out image signal. When it is determined that at least one of the image signals has a specific pattern, the disparity information is corrected, and the disparity A new second image signal is generated based on the information or the corrected parallax information and the first image signal.
  • the imaging apparatus 110 can generate a stereoscopic image of good quality.
  • the angle of view (imaging range), resolution (number of pixels), zoom magnification It is desirable that the imaging conditions such as are aligned with each other so that they are as equal as possible.
  • the first imaging unit 300 has an optical zoom function
  • the second imaging unit 310 does not have an optical zoom function and has a single focus lens. is there.
  • the first imaging unit 300 and the second imaging unit 310 have different optical system specifications.
  • the specifications of the imaging elements of the first imaging unit 300 and the second imaging unit 310 are also different from each other.
  • the imaging apparatus 110 even if the first image captured by the first imaging unit 300 is used as the right-eye image as it is and the second image captured by the second imaging unit 310 is used as the left-eye image as it is, the image quality can be improved. It is difficult to obtain a stereoscopic image (stereoscopic moving image).
  • the imaging apparatus 110 is configured as described above, the first image signal captured by the first imaging unit 300 is used as the right-eye image signal, and parallax information (depth map) is used from the first image signal.
  • a stereoscopic image (stereoscopic moving image) is generated using the new second image signal generated in this way as an image signal for the left eye.
  • the right eye image and the left eye image that are substantially equal to the right eye image and the left eye image captured by the ideal pair of imaging units having the same imaging conditions such as the optical characteristics and the imaging element characteristics are mutually equivalent. It is possible to generate an image for the eye and an image for the left eye.
  • the imaging apparatus 110 is configured as described above, and the parallax information is corrected for an image signal that has been determined to have a high possibility that the parallax information is erroneously generated. It is also possible to add correction according to the captured scene to the parallax information. Thereby, since the quality of the parallax information produced
  • the first embodiment has been described as an example of the technique disclosed in the present application.
  • the technology in the present disclosure is not limited to this, and can also be applied to embodiments in which changes, replacements, additions, omissions, and the like are performed.
  • the first lens unit 111 is arranged on the right side in the imaging direction so that the first image is the right-eye viewpoint image, and the second lens is on the left side in the imaging direction.
  • the imaging device 110 is configured to arrange the lens unit 112 so that the second image is the left-eye viewpoint image
  • the present disclosure is not limited to this configuration.
  • the imaging device 110 may be configured such that the first image signal is the left-eye image signal and the new second image signal is the right-eye image signal.
  • FIG. 6 is an external view of the imaging device 120 according to another embodiment.
  • the first lens unit 111 is arranged on the left side in the imaging direction to make the first image the left eye viewpoint image
  • the second lens unit 114 is arranged on the right side in the imaging direction to make the second image right
  • the imaging device 120 may be configured to provide an eye viewpoint image.
  • the right described in the embodiment may be read as left and the left as right.
  • FIG. 7 is a diagram schematically illustrating an example of a flow of processing of an image signal of an imaging device according to another embodiment.
  • the angle-of-view matching unit 321 may generate the cut-out image signal so that the number of pixels is the same as the number of pixels of the first image signal (for example, 1920 ⁇ 1080) without performing the reduction process.
  • the depth map generation unit 323 since the depth map generation unit 323 generates disparity information (depth map) based on the number of pixels, there is no need to generate an extended depth map, and a more accurate new second image signal is generated. Can do.
  • the imaging apparatus is configured to capture the first image with the first imaging unit 300 and the second image with the second imaging unit 310 .
  • the first image input unit is provided instead of the unit 300
  • the second image input unit is provided instead of the second imaging unit 310
  • the first image is acquired through the first image input unit
  • the second is input through the second image input unit. You may comprise so that an image may be acquired.
  • Embodiment 1 can also be applied during moving image shooting.
  • the image angle matching unit 321 selects an image signal with a lower frame rate as an image with a higher frame rate. It is desirable to increase the frame rate according to the signal so that the frame rates are equal to each other. For example, if the frame rate of the first image signal is 60 Hz and the frame rate of the second image signal is 30 Hz, the second image signal or the cut-out image signal is increased to 60 Hz.
  • the frame rate conversion method used at this time may be a known one. As described above, it is assumed that the depth map generation is performed on the moving image signal in a state in which comparison is easy. Thereby, parallax information (depth map) can be generated with high accuracy even during moving image capturing.
  • the first optical unit 301 (first lens group 201) and the second optical unit 311 (second lens group 211) are not limited to the configuration shown in the first embodiment.
  • the first optical unit 301 (first lens group 201) may be configured to use a pan focus (deep focus) lens that does not require focus adjustment instead of a focus lens capable of focus adjustment.
  • the second optical unit 311 (second lens group 211) may use a focus lens capable of focus adjustment instead of a pan focus (deep focus) lens that does not require focus adjustment.
  • the second optical unit 311 may include an optical diaphragm that adjusts the amount of light received by the second image sensor 312 (second CCD 212).
  • the second optical unit 311 may include an optical zoom lens instead of the single focus lens. In that case, for example, when a stereoscopic image is captured by the imaging apparatus, the second optical unit 311 may be configured to automatically be at the wide-angle end.
  • the imaging device may be configured such that when the first optical unit 301 is at the telephoto end (tele end), the cut-out image signal has a lower resolution than the first image signal. In that case, for example, when the resolution of the cut-out image signal becomes equal to or lower than the resolution of the first image signal in the process of increasing the zoom magnification of the first optical unit 301, the imaging mode is automatically changed from a stereoscopic image to a normal image.
  • the imaging device may be configured as described above.
  • a switch that is turned on when the monitor 113 is opened to a position suitable for capturing a three-dimensional image and is turned off otherwise is provided in the imaging device, and only when the switch is turned on, the three-dimensional image is captured.
  • You may comprise an imaging device so that it can do.
  • the present disclosure can be applied to an imaging apparatus that includes a plurality of imaging units and can capture a stereoscopic image.
  • the present disclosure can be applied to a digital video camera, a digital still camera, a mobile phone with a camera function, a smartphone, or the like that can capture a stereoscopic image.
  • First imaging unit 201 First lens group 202 First CCD 203 1st A / D conversion IC 204 First actuator 210 Second imaging unit 211 Second lens group 212 Second CCD 213 2nd A / D conversion IC 220 CPU 221 RAM 222 ROM 223 Acceleration sensor 224 Input device 225 Display 226 Encoder 227 Storage device 230 LSI 233 IO controller 234 clock generator 243 network interface 245 battery 300 first imaging unit 301 first optical unit 302 first imaging device 303 first optical control unit 310 second imaging unit 311 second optical unit 312 second imaging device 320 image Signal processing unit 321 Angle-of-view matching unit 322 Feature point extraction unit 323 Depth map generation unit 324 Image pattern determination unit 325 Image generation unit 326 Imaging control unit 327 Face recognition unit 328 Scene determination unit 329 Motion detection unit 330 Display unit 340 Storage unit 350 Input unit 360 Camera information unit 370 Matching unit 370 Matching unit 370 Matching unit 370 Matching unit 370 Matching unit 370 Matching unit 370 Matching

Abstract

 品質の高い立体視用画像を生成する。そのために、撮像装置(110)は、第1撮像部(300)と、第2撮像部(310)と、画像信号処理部(320)とを備える。画像信号処理部は、第1画像信号に基づき、第2画像信号の少なくとも一部を切り出して切り出し画像信号を生成し、第1画像信号と第2画像信号との少なくとも一方の画像信号が特定パターンを有するか否かを判断し、第1画像信号と切り出し画像信号とに基づき視差情報を算出するとともに、少なくとも一方の画像信号は特定パターンを有すると判断されたときには視差情報を補正し、視差情報又は補正後の視差情報と第1画像信号とに基づいて新第2画像信号を生成するように構成されている。

Description

画像生成装置、撮像装置および画像生成方法
 本開示は、複数の撮像部を有し、立体視用の画像を撮像可能な撮像装置に関する。
 特許文献1は、主撮像部と従撮像部とを備え、3D画像を生成するデジタルカメラを開示する。このデジタルカメラは、主撮像部から得られる主画像信号と従撮像部から得られる従画像信号との間に生じる視差を抽出する。そして、抽出した視差に基づき、主画像信号から新たな従画像信号を生成し、主画像信号と新たな従画像信号とで3D画像を生成する。
 特許文献2は、左右の撮影倍率が異なった状態でステレオ撮影を行うことができるステレオカメラを開示する。このステレオカメラは、第1の画像データを生成する第1の撮像手段と、第1の画像データよりも画角が広い第2の画像データを生成する第2の撮像手段とを有する。そして、第2の画像データから、第1の画像データに対応する範囲を第3の画像データとして切り出し、第1の画像データと第3の画像データとでステレオ画像データを生成する。
 また、特許文献1、2は、主撮像部(第1の撮像手段)は光学ズーム機能を備え、従撮像部(第2の撮像手段)は光学ズーム機能を備えず電子ズーム機能を備えた構成を開示している。
特開2005-20606号公報 特開2005-210217号公報
 本開示は、光学的特性および撮像素子の仕様が異なる一対の撮像部で撮像される一対の画像または動画から、品質の良い立体視用の画像または動画を得るのに有効な画像生成装置および撮像装置を提供する。
 本開示の撮像装置は、第1撮像部と、第2撮像部と、画像信号処理部と、を備える。第1撮像部は、第1画像を撮像して第1画像信号を出力するように構成されている。第2撮像部は、第1画像以上の画角を有する第2画像を、第1画像よりも高解像度で撮像して第2画像信号を出力するように構成されている。画像信号処理部は、第1画像信号に基づき、第2画像信号の少なくとも一部を切り出して切り出し画像信号を生成し、第1画像信号と第2画像信号との少なくとも一方の画像信号が特定パターンを有するか否かを判断し、第1画像信号と切り出し画像信号とに基づき視差情報を算出するとともに、少なくとも一方の画像信号は特定パターンを有すると判断されたときには視差情報を補正し、視差情報又は補正後の視差情報と第1画像信号とに基づいて新第2画像信号を生成する、ように構成されている。
 また、画像信号処理部は、特徴点抽出部と、画角合わせ部と、画像パターン判定部と、デプスマップ生成部と、画像生成部と、を備えていてもよい。特徴点抽出部は、第1画像信号と第2画像信号とで互いに共通する特徴点を第1画像信号および第2画像信号から抽出するように構成されている。画角合わせ部は、特徴点および第1画像信号に基づき、第2画像信号の少なくとも一部を切り出して切り出し画像信号を生成するように構成されている。画像パターン判定部は、第1画像信号と第2画像信号との少なくとも一方の画像信号が特定パターンを有するか否かを判断するように構成されている。デプスマップ生成部は、第1画像信号と切り出し画像信号とに基づき視差情報を算出してデプスマップを生成するとともに、画像パターン判定部において少なくとも一方の画像信号は特定パターンを有すると判断されたときには視差情報を補正するように構成されている。画像生成部は、視差情報又は補正後の視差情報と第1画像信号とに基づいて新第2画像信号を生成するように構成されている。
図1は、実施の形態1における撮像装置の外観図である。 図2は、実施の形態1における撮像装置の回路構成を概略的に示す図である。 図3は、実施の形態1における撮像装置の構成を機能毎にブロック分けして示す図である。 図4は、実施の形態1における撮像装置の立体画像撮像時の動作を説明するフローチャートである。 図5は、実施の形態1における撮像装置の画像信号の処理の流れの一例を概略的に示す図である。 図6は、他の実施の形態における撮像装置の外観図である。 図7は、他の実施の形態における撮像装置の画像信号の処理の流れの一例を概略的に示す図である。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
 (実施の形態1)
 以下、図1~図5を用いて、実施の形態1を説明する。
 [1-1.構成]
 図1は、実施の形態1における撮像装置110の外観図である。
 撮像装置110は、モニター113と、第1レンズ部111を有する撮像部(以下、「第1撮像部」と記す)と、第2レンズ部112を有する撮像部(以下、「第2撮像部」と記す)と、を備えている。撮像装置110は、このように複数の撮像部を有し、それぞれの撮像部で静止画撮像および動画撮影が可能である。
 第1レンズ部111は、第1撮像部の撮像方向が前方を向くように、撮像装置110の本体前方に設けられている。
 モニター113は、開閉可能に撮像装置110本体に設けられ、撮像画像を表示するためのディスプレイ(図1には示さず)を有する。ディスプレイは、モニター113を開いたとき、第1撮像部の撮像方向とは反対側の面、すなわち撮像装置110の後方にいる使用者(図示せず)が観測できる側に、備えられている。
 第2レンズ部112は、モニター113の、ディスプレイの設置側と反対側に配置され、モニター113を開いたときに第1撮像部と同じ方向を撮像できるように構成されている。
 撮像装置110では、第1撮像部を主たる撮像部とし、第2撮像部を従たる撮像部とする。そして、図1に示すように、モニター113を開いた状態にすることで、これら2つの撮像部を用いて、立体視用の静止画(以下、「立体画像」と記す)の撮像および立体視用の動画(以下、「立体動画」と記す)の撮影が可能である。主たる第1撮像部は光学ズーム機能を有し、使用者は、このズーム機能を任意のズーム倍率に設定して静止画撮像または動画撮影が可能である。
 本実施の形態では、右眼視点の画像を第1撮像部で撮像し、左眼視点の画像を第2撮像部で撮像する例を説明する。したがって、図1に示すように、撮像装置110では、撮像方向に向かって右側に第1レンズ部111が配置され、撮像方向に向かって左側に第2レンズ部112が配置されている。しかし、本実施の形態は何らこの構成に限定されるものではなく、第1撮像部で左眼視点の画像を撮像し、第2撮像部で右眼視点の画像を撮像するように構成してもよい。以下、第1撮像部で撮像した画像を「第1画像」とし、第2撮像部で撮像した画像を「第2画像」とする。
 なお、従たる第2撮像部が有する第2レンズ部112は、第1レンズ部111と比較して口径が小さく、光学ズーム機能も備えていない。そのため、第2撮像部は、設置に必要な容積が第1撮像部と比較して小さく、モニター113に搭載することができる。
 本実施の形態では、第1撮像部で撮像される右眼視点の画像は、立体画像を構成する右眼用画像として用いるが、第2撮像部で撮像される左眼視点の画像に関しては、立体画像を構成する左眼用画像として用いることをしない。詳細は後述するが、本実施の形態では、第1撮像部で撮像される右眼視点の画像と、第2撮像部で撮像される左眼視点の画像とを比較することで視差量(ずれ量)を算出し、算出した視差量にもとづき第1画像から左眼用画像を生成して立体画像とする。
 この視差量(ずれ量)とは、第1画像と第2画像とを同一画角にして重ね合わせたときに生じる被写体の位置のずれの大きさのことである。このずれは、第1撮像部と第2撮像部との配置位置の違い(視差)により生じる。自然な立体感を有する立体画像を生成するためには、第1撮像部の光軸と第2撮像部の光軸とが、人の視差方向と同様に地面に対して水平になるように、かつ左右の眼の離間幅と同程度離間するように、設定されていることが望ましい。
 そのために、撮像装置110では、第1レンズ部111と第2レンズ部112とを、使用者が撮像装置110を正常に保持(立体画像を撮像する状態で保持)したときに、それぞれの光学中心が実質的に同一の水平面(地面に水平な面)上に位置するように、配置する。また、第1レンズ部111の光学中心と第2レンズ部112の光学中心との距離が、30mm以上65mm以下となるようにそれぞれの配置位置を設定する。
 また、自然な立体感を有する立体画像を生成するためには、第1レンズ部111および第2レンズ部112は、それぞれの配置位置から被写体までの距離が互いに実質的に等しいことが望ましい。そのために、撮像装置110では、第1レンズ部111および第2レンズ部112を、エピポーラ拘束(Epipolar Constraint)を実質的に満足するように配置する。すなわち、第1レンズ部111および第2レンズ部112を、それぞれの光学中心が、第1撮像部が有する撮像素子または第2撮像部が有する撮像素子の撮像面に実質的に平行な1つの平面上に位置するように、配置する。
 なお、これらの条件は、厳密に満たされなければならない、というわけではなく、実用上問題が生じない範囲での誤差は許容される。また、仮にこれらの条件が満足されなくとも、画像の拡大縮小、回転、平行移動等を計算で行うアフィン変換を実行することにより、これらの条件を満足する画像に変換することも可能である。そして、アフィン変換を施した画像を用いて視差量(ずれ量)を算出すればよい。
 また、撮像装置110では、第1撮像部の光軸と第2撮像部の光軸とが互いに平行になるように第1レンズ部111および第2レンズ部112を配置する(以下、「平行法」と記す)。しかし、第1撮像部の光軸と第2撮像部の光軸とが所定の一点で交差するように第1レンズ部111および第2レンズ部112を配置(以下、「交差法」と記す)してもよい。また、平行法で撮像された画像を、アフィン変換により、交差法で撮像されたかのような画像に変換することも可能である。
 なお、これらの条件が満たされた状態で撮像される第1画像および第2画像では、被写体の位置はエピポーラ拘束条件を実質的に満たす。この場合、後述する立体画像の生成過程において、一方の画像(例えば、第1画像)で被写体の位置が確定すると、他方の画像(例えば、第2画像)での被写体の位置は比較的容易に算出できるので、立体画像の生成過程における演算量を軽減できる。逆に、これらの条件で満たされない項目が増えるほど、アフィン変換等の演算量が増えるので、立体画像の生成過程における演算量は増大する。
 図2は、実施の形態1における撮像装置110の回路構成を概略的に示す図である。
 撮像装置110は、第1撮像部である第1撮像ユニット200、第2撮像部である第2撮像ユニット210、LSI230、RAM221、ROM222、加速度センサ223、ディスプレイ225、記憶装置227、入力装置224、ネットワークインターフェース243、バッテリー245、を有する。
 第1撮像ユニット200は、第1レンズ群201、第1撮像素子である第1CCD(Charge Coupled Device)202、第1A/D変換IC203、および第1アクチュエーター204を備える。
 第1レンズ群201は、図1に示した第1レンズ部111に相当し、光学ズームが可能なズームレンズおよびフォーカス調節が可能なフォーカスレンズ、を含む複数のレンズで構成される光学系である。さらに、第1レンズ群201には、第1CCD202で受光する光の量(光量)を調節する光学式の絞り(図示せず)が備えられている。第1レンズ群201を通して取り込まれた光は、第1レンズ群201で光学ズーム、フォーカスおよび光量の各調節がなされた後、第1CCD202の撮像面に被写体像として結像する。この画像が第1画像である。
 第1CCD202は、撮像面で受光した光を電気信号に変換して出力するように構成されている。この電気信号は、光の強さ(光量)に応じて電圧値が変化するアナログ信号である。
 第1A/D変換IC203は、第1CCD202から出力されるアナログの電気信号を、デジタルの電気信号に変換するように構成されている。このデジタル信号が第1画像信号である。
 第1アクチュエーター204は、第1レンズ群201に含まれるズームレンズおよびフォーカスレンズを駆動するように構成されたモータを有する。このモータは、LSI230のCPU220から出力される制御信号により制御される。
 本実施の形態では、第1撮像ユニット200は、第1画像を「水平方向の画素数1,920、垂直方向の画素数1,080」の画像信号にして出力するものとして、以下の説明を行う。また、第1撮像ユニット200は、静止画の撮像だけでなく、動画撮影も可能に構成されており、一般的な動画と同様のフレームレート(例えば、60Hz)での動画撮影を行うことができる。したがって、第1撮像ユニット200では、高品質で滑らかな動画を撮影することが可能である。なお、フレームレートとは、単位時間(例えば、1秒間)に撮像する画像の枚数のことであり、フレームレートを60Hzにして動画撮影すると、1秒間に60枚の画像が連続して撮像される。
 なお、第1画像の画素数および動画撮影時のフレームレートは何ら上述の数値に限定されるものではなく、撮像装置110の仕様等に応じて適切に設定することが望ましい。
 第2撮像ユニット210は、第2レンズ群211、第2撮像素子である第2CCD212、および第2A/D変換IC213を備える。
 第2レンズ群211は、図1に示した第2レンズ部112に相当し、フォーカス調節が不要なパンフォーカス(ディープフォーカス)のレンズを含む1枚または複数のレンズで構成される光学系である。第2レンズ群211を通して取り込まれた光は、第2CCD212の撮像面に被写体像として結像する。この画像が第2画像である。
 なお、第2レンズ群211は、上述したように光学ズーム機能を備えていない。そのため、光学ズームレンズではなく単焦点レンズを有する。また、第2レンズ群211は、第1レンズ群201よりも小型のレンズ群から構成され、第2レンズ群211の対物レンズには、第1レンズ群201の対物レンズよりも口径が小さいものが用いられている。これにより、第2撮像ユニット210を第1撮像ユニット200よりも小型化し、撮像装置110全体を小型化して使い勝手(携帯性、操作性)を向上するとともに、第2撮像ユニット210の配置位置に関する自由度を高めている。これにより、図1に示したように、第2撮像ユニット210をモニター113に搭載することができる。
 第2CCD212は、第1CCD202と同様に、撮像面で受光した光をアナログの電気信号に変換して出力するように構成されている。ただし、本実施の形態における第2CCD212は、第1CCD202よりも高い解像度を有する。したがって、第2画像の画像信号は、第1画像の画像信号よりも解像度が高く、画素数が多い。これは、第2画像の画像信号の一部を取り出して使用したり、電子ズームにより画像拡大をするためである。これらの詳細は後述する。
 第2A/D変換IC213は、第2CCD212から出力されるアナログの電気信号を、デジタルの電気信号に変換するように構成されている。このデジタル信号が第2画像信号である。
 本実施の形態では、第2撮像ユニット210は、第2画像を「水平方向の画素数7,680、垂直方向の画素数4,320」の画像信号にして出力するものとして、以下の説明を行う。また、第2撮像ユニット210は、第1撮像ユニット200と同様に、静止画の撮像だけでなく、動画撮影も可能に構成されている。ただし、第2画像信号は第1画像信号よりも解像度が高く、画素数が多いため、第2撮像ユニット210における動画撮影の際のフレームレートは、第1撮像ユニット200での動画撮影の際のフレームレートよりも低い(例えば、30Hz)。
 なお、第2画像の画素数および動画撮影時のフレームレートは何ら上述の数値に限定されるものではなく、撮像装置110の仕様等に応じて適切に設定することが望ましい。
 なお、本実施の形態では、撮像素子の撮像面に結像した被写体像を電気信号に変換し、A/D変換ICから画像信号として出力する一連の動作を「撮像」とする。第1撮像部では第1画像を撮像して第1画像信号を出力し、第2撮像部では第2画像を撮像して第2画像信号を出力する。
 なお、本実施の形態では、第1撮像素子および第2撮像素子にCCDを用いる例を説明したが、第1撮像素子および第2撮像素子は、受光した光を電気信号に変換する撮像素子であればよく、例えば、CMOS(Complementary Metal Oxide Semiconductor)等であってもよい。
 ROM(Read Only Memory)222は、CPU220を動作させるプログラムやパラメータ等の各種データが記憶されており、それらのデータをCPU220が任意に読み出すことができるように構成されている。ROM222は、不揮発性型の半導体記憶素子で構成され、撮像装置110の電源がオフになっても、記憶されたデータは保持される。
 入力装置224は、使用者の指示を受け付けることができるように構成された入力装置の総称である。入力装置224には、例えば、使用者が操作する電源ボタンや設定ボタン等の各種ボタン、タッチパネル、レバー等が含まれる。本実施の形態では、タッチパネルがディスプレイ225に設けられている例を説明する。しかし、入力装置224は、何らこれらの構成に限定されるものではなく、例えば音声入力装置を備えていてもよく、あるいは、全ての入力操作をタッチパネルで行う構成や、逆にタッチパネルを備えず全ての入力操作をボタンやレバー等で行う構成であってもよい。
 LSI230は、CPU220、エンコーダー226、IOコントローラ233、およびクロック発生器234、を有する。
 CPU(Central Processing Unit)220は、ROM222から読み出したプログラムやパラメータ、入力装置224で受け付けられた使用者の指示、等にもとづき動作し、撮像装置110全体の制御、および各種演算処理を行うように構成されている。この各種演算処理には、第1画像信号および第2画像信号に関する画像信号処理が含まれる。この画像信号処理の詳細は後述する。
 本実施の形態では、CPU220にマイクロコンピューターを用いているが、例えば、マイクロコンピューターに代えてFPGA(Field Programmable Gate Array)、またはDSP(Digital Signal Processor)、またはGPU(Graphics Processing Unit)等を用いて、同様の動作を行うように構成してもよい。あるいは、撮像装置110外部の装置において、CPU220で行う処理の一部または全てを行うように構成しても良い。
 エンコーダー226は、撮像装置110で撮像した画像にもとづく画像信号や撮像した画像に関連する情報を、所定の方式で符号化(エンコード)するように構成されている。これは、データ量を低減して記憶装置227に記憶するためである。この符号化の方式は、一般的に用いられている画像圧縮方式であり、例えば、MPEG-2や、H.264/MPEG-4 AVC、等である。
 IOコントローラ(Input Output Controler)233は、LSI230(CPU220)の入力信号や出力信号の入出力制御を行う。
 クロック発生器234は、クロック信号を発生し、LSI230(CPU220)やLSI230に接続された回路ブロックに供給する。このクロック信号は、LSI230(CPU220)で各種動作や各種演算処理の同期を取るための同期信号として使用される。
 RAM(Random Access Memory)221は、揮発性型の半導体記憶素子で構成され、CPU220からの指示にもとづき、CPU220を動作させるプログラムの一部、プログラム実行時のパラメータ、使用者の指示、等を一時的に記憶するように構成されている。RAM221に記憶されたデータは、CPU220が任意に読み出すことができ、CPU220の指示によって任意に書き換えが可能である。
 加速度センサ223は、一般的に用いられている加速度検出センサであり、撮像装置110の動きや姿勢の変化を検出するように構成されている。加速度センサ223では、例えば、撮像装置110が地面に対して平行に保たれているかどうか、が検出され、この検出結果はディスプレイ225に表示される。したがって、使用者はその表示を見ることで、撮像装置110が地面に対して水平に保たれているかどうか、すなわち、撮像装置110が立体画像の撮像に適した状態(姿勢)にあるかどうか、を判断することができる。これにより、使用者は、撮像装置110を適切な姿勢に保って立体画像の撮像や立体動画の撮影を行うことができる。
 なお、撮像装置110は、加速度センサ223での検出結果にもとづき手振れ補正等の光学系制御を行う構成であってもよい。また、加速度センサ223は、3軸方向のジャイロスコープ(3軸ジャイロセンサ)であってもよく、複数のセンサを組み合わせて用いる構成であってもよい。
 ディスプレイ225は、一般に用いられている液晶ディスプレイパネルで構成され、図1に示したモニター113に搭載されている。ディスプレイ225は、上述したタッチパネルが表面に取り付けられており、画像表示と使用者の指示受け付けを同時に行うことができるように構成されている。ディスプレイ225に表示される画像には、(1)撮像装置110で撮像中の画像(第1撮像ユニット200または第2撮像ユニット210から出力される画像信号にもとづく画像)、(2)記憶装置227に記憶されている画像信号にもとづく画像、(3)CPU220で信号処理された画像信号にもとづく画像、(4)撮像装置110の各種設定項目を表示するメニュー表示画面、等がある。ディスプレイ225には、これらの画像が選択的に、または複数の画像を互いに重畳した画像が、表示される。なお、ディスプレイ225は、何ら上述の構成に限定されるものではなく、薄型で低消費電力の画像表示装置であればよく、例えばEL(Electro Luminescence)パネル等で構成されていてもよい。また、立体画像を表示するように構成されていてもよい。
 記憶装置227は、任意に書き換えが可能な比較的大容量の記憶装置であるハードディスクドライブ(HDD)で構成され、エンコーダー226で符号化されたデータ等を読み出し可能に記憶するように構成されている。また、記憶装置227に記憶するデータには、CPU220で生成された立体画像の画像信号、立体画像の表示に必要な情報、画像信号に付随する画像情報が含まれる。なお、記憶装置227は、第1撮像ユニット200または第2撮像ユニット210から出力される画像信号を、符号化処理を施さずにそのまま記憶するように構成されていてもよい。また、記憶装置227は、何らHDDに限定されるものではなく、例えば、半導体記憶素子を内蔵したメモリーカードや光ディスク等の着脱可能な記憶媒体に記憶する構成であってもよい。
 なお、上述の画像情報とは、画像信号に関する情報のことであり、例えば、画像の符号化方式、ビットレート、画像のサイズ、解像度、フレームレート、撮像時の合焦距離(フォーカスが合っている被写体までの距離)、ズーム倍率、立体画像であるか否か、立体画像である場合には、左眼用画像と右眼用画像との識別子、視差情報、等が挙げられる。これらのうちの単数または複数の情報が、画像情報として画像信号に関連付けられて記憶装置227に記憶される。
 また、記憶装置227には、後述する画像信号処理の際に参照する情報(データベース)があらかじめ記憶されている。このデータベースには、後述する視差情報(デプスマップ)を補正する際に用いる情報や、後述するシーン判定部が参照する情報等が含まれており、後述する特徴点や撮像画像の図柄(撮像画像に写された光景)に関連付けられている。このデータベースについては後述する。
 なお、このデータベースは、上述の画像信号や画像情報を記憶するための記憶装置227とは別に設けた記憶装置に記憶する構成であってもよい。
 ネットワークインターフェース243は、一般的な通信装置であり、撮像装置110と撮像装置110外部の機器との間でのデータの受け渡しを行う。このデータには、記憶装置227に記憶されたデータやCPU220で処理されたデータ、外部機器から撮像装置110に入力されるデータ、等がある。
 バッテリー245は、一般的に用いられている2次電池で構成された電力供給装置であり、撮像装置110の動作に必要な電力を供給する。
 [1-2.動作]
 以上のように構成された撮像装置110について、その動作を説明する。
 以下では、撮像装置110で立体画像を撮像しているときに行われる主な動作を、機能毎にブロック分けして説明する。
 図3は、実施の形態1における撮像装置110の構成を機能毎にブロック分けして示す図である。
 撮像装置110の構成を、立体画像の撮像をしているときに動作する主な機能で分けて示すと、撮像装置110は、図3に示すように、第1撮像部300、第2撮像部310、画像信号処理部320、表示部330、記憶部340、入力部350、カメラ情報部360、の7つのブロックに大別することができる。
 なお、画像信号処理部320では、画像信号を処理する際に、フレームメモリ等の記憶素子に一時的に画像信号を記憶するが、図3では、そのような記憶素子は省略している。また、立体画像の撮像に直接的な関係が薄い構成要素(バッテリー245等)は省略している。
 第1撮像部300は、第1光学部301、第1撮像素子302、第1光学制御部303、を備える。第1撮像部300は、図2に示した第1撮像ユニット200に相当する。また、第1光学部301は第1レンズ群201に、第1撮像素子302は第1CCD202および第1A/D変換IC203に、第1光学制御部303は第1アクチュエーター204に、それぞれ相当する。重複するのでこれらの説明は省略する。
 第2撮像部310は、第2光学部311、第2撮像素子312、を備える。第2撮像部310は、図2に示した第2撮像ユニット210に相当する。また、第2光学部311は第2レンズ群211に、第2撮像素子312は第2CCD212および第2A/D変換IC213に、それぞれ相当する。重複するのでこれらの説明は省略する。
 表示部330は、図2に示したディスプレイ225に相当する。入力部350は、図2に示した入力装置224に相当する。入力部350に含まれるタッチパネルは、表示部330の表面に取り付けられており、表示部330では、画像の表示と使用者の指示受け付けを同時に行うことができる。カメラ情報部360は、図2に示した加速度センサ223に相当する。記憶部340は、図2に示した記憶装置227に相当する。重複するのでこれらの説明は省略する。
 画像信号処理部320は、図2に示したLSI230に相当する。図3に示す画像信号処理部320で行われる動作は、主にCPU220で行われるので、以下、CPU220での動作を主に説明し、エンコーダー226、IOコントローラ233、クロック発生器234の動作については説明を省略する。
 なお、CPU220では、撮像装置110全体の制御や各種演算処理が行われるが、図3には、撮像装置110で立体画像の撮像を行うときにCPU220で行われる演算処理(画像信号処理)および制御動作に関連する主な機能のみをブロック分けして示しており、他の動作に関する機能は省略している。これは、撮像装置110で立体画像を撮像するときの動作を分かりやすく示すためである。
 なお、画像信号処理部320として図3に示す各機能ブロックは、CPU220で行われる演算処理および制御動作の主なものを機能別に分けて示しているに過ぎず、CPU220の内部が図3に示す各機能ブロックに物理的に分けられているわけではない。しかし、以下では便宜的に画像信号処理部320が図3に示す各部を有するものとして説明を行う。
 なお、CPU220は、図3に示す各機能ブロックに相当する電子回路を備えたICまたはFPGAで構成してもよい。
 画像信号処理部320は、図3に示すように、マッチング部370、顔認識部327、シーン判定部328、動き検出部329、画像生成部325、撮像制御部326、を有する。
 マッチング部370は、特徴点抽出部322、画角合わせ部321、画像パターン判定部324、デプスマップ生成部323、を有する。
 顔認識部327は、第1画像として撮像されている被写体の中に人の顔が含まれているかどうかを、第1画像信号から検出する。人の顔の検出は、例えば、テンプレートマッチングによる眼、鼻、口、眉、輪郭、髪型等の検出や肌の色の検出等、一般に用いられている手法を用いて行うことができるので、詳細な説明は省略する。顔認識部327では、人の顔を検出した場合、人の顔の位置、数、大きさ等を検出し、あわせて信頼性(人の顔である確率)も算出する。顔認識部327での検出結果はシーン判定部328およびマッチング部370に出力される。なお、顔認識部327の検出結果は、自動焦点調節機能(オートフォーカス)等に用いてもよい。
 動き検出部329は、第1画像信号に関する動き検出を行う。動き検出部329は、時間的に連続して撮像される2枚以上の第1画像にもとづき、1画素マッチング、または複数の画素の集まりで行うブロックマッチング等により、画素毎、またはブロック毎に、静止しているか、動いているかの判定を行う。動いていると判定された画素またはブロックに関しては、動きベクトルの検出を行う。動き検出自体は一般に知られた手法であるので、詳細な説明は省略する。動き検出部329での検出結果はシーン判定部328およびマッチング部370に出力される。動き検出部329の検出結果は、自動焦点調節機能等に用いてもよい。
 なお、撮像装置110は、これら複数の第1画像信号を得るために、第1画像撮像時に、時間的に連続する2枚目以降の第1画像を自動的に撮像するように構成されていてもよい。
 シーン判定部328は、第1画像がどのような光景を写した画像であるのかを、第1画像信号、顔認識部327における検出結果、動き検出部329における検出結果、にもとづき判定する。
 シーン判定部328は、第1画像を以下の4つに分類する。
1)風景を写した画像
2)人物を写した画像
3)動きが多い光景を写した画像
4)これらに該当しない画像
シーン判定部328での判定結果は、マッチング部370に出力される。
 シーン判定部328では、顔認識部327における検出結果および動き検出部329における検出結果に加え、第1画像信号の輝度信号に関するヒストグラム、第1画像信号の色信号(色差信号)に関するヒストグラム、第1画像信号の輪郭部を抽出した信号、判定対象となる第1画像が撮像されたときの第1光学部301の光学ズーム倍率および焦点が合っている被写体までの距離(合焦距離)、等から上述の判定を行う。これらの判定に必要な情報は上述したデータベースに含まれており、シーン判定部328はデータベースを参照してこれらの判定を行う。
 なお、シーン判定部328における画像分類は何ら上述した内容に限定されるものではない。例えば、赤色が多い画像、暗い画像、緑色と青色が多い画像、等、撮像画像の色や明るさにもとづいて画像分類を行ってもよい。または、上記4分類を、子供を写した画像、置物等の静物を写した画像、夜景、等を加えてさらに細かく分類してもよい。あるいは、それら以外の分類を行ってもよい。また、分類の判定に用いる情報も何ら上述した情報に限定されるものではなく、上述以外の情報を用いてもよく、あるいは上述の情報の中から1つまたは複数を選択して用いてもよい。また、第2画像にもとづき、または第1画像と第2画像の両方にもとづき、上述の判定を行うようにシーン判定部328を構成してもよい。
 なお、撮像装置110では、撮像装置110から合焦した被写体までの距離である合焦距離をフォーカス調節の際に取得することができる。撮像装置110から、第1撮像素子302の撮像面においてフォーカスが合う(合焦する)被写体までの距離(合焦距離)は、フォーカスレンズの位置に応じて変化する。したがって、フォーカスレンズの位置と合焦距離とを対応付けた情報をあらかじめ撮像制御部326(または、第1光学制御部303)に備えておけば、撮像制御部326が第1光学制御部303を介して第1光学部301の光学ズームレンズおよびフォーカスレンズを制御する際に、画像信号処理部320は、現在のフォーカスレンズの位置から現在の合焦距離を取得することができる。
 このように、画像信号処理部320は、第1画像が撮像されたときの第1光学部301の光学ズーム倍率および合焦距離を、第1画像の付帯情報として取得することができる。
 画像生成部325は、マッチング部370のデプスマップ生成部323から出力される視差情報(デプスマップ)にもとづいて、第1画像信号から新たな第2画像信号を生成する。以下、第1画像信号から生成される新たな第2画像信号を「新第2画像信号」と記す。また、新第2画像信号による画像を「新第2画像」と記す。したがって、第1画像信号と新第2画像信号とは、仕様(解像度や画角等、動画の場合はフレームレートも含む)が互いに等しい画像信号となる。
 本実施の形態では、第1画像信号を右眼用画像信号とし、画像生成部325で視差情報(デプスマップ)にもとづき生成される新第2画像信号を左眼用画像信号とする立体画像信号を、画像生成部325から出力する。
 この立体画像信号は、例えば記憶部340に記憶され、また、この立体画像信号にもとづく立体画像は表示部330に表示される。
 撮像装置110では、第1画像信号(例えば、右眼用画像信号)から、視差情報(デプスマップ)にもとづき、対となる新第2画像信号(例えば、左眼用画像信号)を生成する。したがって、視差情報(デプスマップ)に補正を加えることで、生成される立体画像の立体感(奥行き感)を調整することが可能である。そこで、本実施の形態では、視差情報(デプスマップ)に補正を加え、立体画像の立体感(奥行き感)を増す、あるいは抑制する、等の調整ができるように、マッチング部370(デプスマップ生成部323)を構成する。この詳細は後述する。
 マッチング部370の特徴点抽出部322は、第1画像信号と第2画像信号とのそれぞれから複数の特徴点候補を抽出し、それら特徴点候補の中から複数を選択して特徴点とする。こうして第1画像信号と第2画像信号とのそれぞれに複数の特徴点を設定する。
 特徴点とは、第1画像信号と第2画像信号とを互いに比較するときに目印として用いる領域のことである。また、特徴点は、視差情報(デプスマップ)を生成する際にも用いられる。したがって、特徴点として設定する領域は、次の要件を満たしていることが望ましい。
 1)比較に用いる領域として明確な特徴があり、比較に使用しやすく、かつ抽出が容易である。
 2)第1画像および第2画像の各画像に共通して存在する。
 3)第1画像および第2画像の各画像において、できるだけ一様に分布している。
 4)撮像画像における近景の被写体から遠景の被写体までのそれぞれに、できるだけ一様に分布している。
 上述の要件1は、次の理由による。信号の変化がなだらかな領域は、抽出しにくいため、基準として設定しにくく、互いに比較すべき領域を両画像のそれぞれで特定することも困難である。特徴点として設定する領域は、基準として設定しやすく比較の際に特定しやすい領域であることが好ましい。そのような領域としては、例えば被写体の輪郭部を挙げることができる。また、そのような領域は、例えば、輝度信号の微分値、または色信号(色差信号)の微分値を算出し、その算出結果を所定のしきい値と比較することで、容易に抽出することができる。
 上述の要件2は、次の理由による。上述したように、第1画像は光学ズーム機能を備えた第1撮像部300で撮像され、第2画像は単焦点レンズを有する第2撮像部310で撮像される。したがって、第2画像には、第1画像に撮像された範囲以上の範囲が撮像されていることが多くあると考えられ、そのような第2画像だけに撮像された領域に特徴点を設定しても、比較に使用することはできない。したがって、第1画像および第2画像の各画像に共通して存在する領域を特徴点として設定することが望ましい。
 上述の要件3は、次の理由による。特徴点が画像内の特定の領域に集中していると、その領域に関しては相対的に高い精度の比較が行えるが、他の領域に関しては比較の精度が相対的に低下する。したがって、そのような偏りが生じないように、特徴点は、各画像において、できるだけ一様に分布していることが望ましい。本実施の形態では、第1画像および第2画像の各画像を、水平方向および垂直方向にそれぞれ3分割して9の領域に分割し、各領域で2個以上5個以下の特徴点を設定することで、偏りが生じることを防止している。しかし、本実施の形態は何らこの構成に限定されるものではなく、特徴点の偏りを防止できるのであればどのような設定であってもよい。
 上述の要件4は、次の理由による。特徴点が近景の被写体に集中して設定されていたり、あるいは、遠景の被写体に集中して設定されていたりすると、デプスマップ生成部323で生成される視差情報(デプスマップ)にも偏りが生じ、品質の良い新第2画像信号(立体画像信号)を画像生成部325で生成することが困難となる。精度の高い視差情報(デプスマップ)を生成するためには、近景の被写体から遠景の被写体までのそれぞれに、できるだけ一様に特徴点が分布していることが望ましい。なお、要件3が満たされていれば、要件4も実質的に満たされている、と見なすことができる。
 なお、特徴点として設定する領域は、大きすぎると比較に使用しにくく、小さすぎると抽出しにくいため、それらを考慮して適切な大きさで設定することが望ましい。
 特徴点抽出部322では、これらの要件を考慮して特徴点候補を各画像信号から抽出し、特徴点を設定する。そして、設定した特徴点に関する情報(特徴点情報)を、画角合わせ部321および画像パターン判定部324に出力する。
 なお、これらの要件は、全てが満たされることが望ましいが、必ずしも全てが満たされなければならないというわけではなく、実用上問題が生じない範囲で取捨選択が可能である。例えば、特徴点抽出部322は、上述の4つの要件に優先度を設定し、優先度の高い要件から順に満足していくように特徴点候補を抽出する構成であってもよい。あるいは、顔認識部327、シーン判定部328、および動き検出部329、のいずれか1つまたは複数の出力にもとづき、その優先度を変更する、または上述以外の要件を追加する、または特徴点候補の抽出方法を変更する、等してもかまわない。
 また、特徴点抽出部322は、各画像信号において、特徴点候補に該当する領域を全て特徴点候補として抽出し、それら全てを特徴点に設定する構成であってもよい。あるいは、抽出された複数の特徴点候補から、上記の要件に照らし合わせ、より多くの要件を満たす領域から順に、または、より優先度の高い要件を満たす領域から順に、あらかじめ定められた数だけを特徴点として設定する構成であってもよい。
 画角合わせ部321は、第1撮像部300から出力される第1画像信号および第2撮像部310から出力される第2画像信号が入力される。そして、撮像範囲が互いに等しいと判断される画像信号を各入力画像信号から取り出す。
 上述したように、第1撮像部300では光学ズームによる撮像が可能であり、第2撮像部310では単焦点レンズによる撮像が行われる。したがって、第1光学部301が広角端のときの第1画像の画角が第2画像の画角以下になるように各撮像部が設定されていれば、第2画像に撮像される範囲には、常に第1画像に撮像される範囲が含まれることになる。例えば、ズーム倍率を上げて撮像された第1画像よりも、撮像の際に光学ズームができない第2画像の方が、画角が広く、この第2画像には第1画像よりも広い範囲が撮像されている。
 なお、「画角(Angle of view)」とは、画像として撮像される範囲のことであり、一般的には角度で表現される。
 そこで、画角合わせ部321では、パターンマッチング等の一般に用いられている比較・照合手法を用いて、第1画像として撮像された範囲(画角)に相当する部分を第2画像信号から取り出す。このとき、特徴点抽出部322で設定された特徴点を用いることで、第1画像信号と第2画像信号との比較の精度を上げることができる。以下、第2画像信号から取り出された画像信号を「切り出し画像信号」と呼称し、切り出し画像信号による画像を「切り出し画像」と呼称する。したがって、切り出し画像は、画角合わせ部321において第1画像の撮像範囲に等しいと判断された範囲の画像になる。
 なお、第1光学部301と第2光学部311との配置位置の違い(視差)により、第1画像と第2画像とでは画像内における被写体の位置に差が生じる。そのため、第2画像における第1画像に対応する領域が、第1画像に完全に合致する可能性は低い。したがって、画角合わせ部321でパターンマッチングを行う際は、第1画像信号と類似度が最も大きくなる領域を第2画像信号において探索し、その領域を第2画像信号から取り出して切り出し画像信号とすることが望ましい。
 また、画角合わせ部321は、第1画像信号と切り出し画像信号の両画像信号を、画素を間引いて画素数(信号量)を削減する縮小処理を行う。これは、後段のデプスマップ生成部323における視差情報の算出に必要な演算量を低減するためである。
 また、画角合わせ部321は、両画像信号の縮小処理後の画素数が互いに等しくなるように、それぞれの縮小処理を行う。これは、後段のデプスマップ生成部323において行う2つの画像信号の比較処理を、演算量を低減するとともに精度を高めて行うためである。例えば、切り出し画像信号の画素数(例えば、3840×2160)が第1画像信号の画素数(例えば、1920×1080)の4倍であり、第1画像信号を画素数が1/4(例えば、960×540)になるように縮小処理する場合は、切り出し画像信号に関しては画素数が1/16(例えば、960×540)になるように縮小処理を行う。なお、縮小処理を行う際は、フィルタリング処理等を行い、できるだけ情報が損なわれないようにすることが望ましい。
 そして、画角合わせ部321は、縮小処理された切り出し画像信号と第1画像信号を後段のデプスマップ生成部323に出力する。なお、第1画像と第2画像の画角が互いに等しいときには、第2画像信号をそのまま切り出し画像信号として用いることもある。
 なお、画角合わせ部321における動作は、何ら上述した動作に限定されるものではない。例えば、第1画像の画角が第2画像の画角より広ければ、第1画像信号から第2画像の撮像範囲に相当する領域を取り出して切り出し画像信号を生成するように動作してもよい。また、第1画像と第2画像とで撮像範囲に差があるときには、撮像範囲が互いに等しい領域を第1画像信号と第2画像信号とのそれぞれから取り出して後段に出力するように動作してもよい。
 なお、本実施の形態は、画角合わせ部321において第1画像信号と第2画像信号との比較に用いる手法を、何らパターンマッチングに限定するものではなく、その他の比較・照合手法を用いて切り出し画像信号を生成してもよい。
 なお、画角合わせ部321では、第1画像信号と第2画像信号とに対して、明るさ(ガンマ特性、黒の輝度、白の輝度、コントラスト等)、ホワイトバランス、色相(色あい、色の濃さ)等を両画像で互いに揃えるような画像信号処理を行ってもよい。
 画像パターン判定部324は、第1画像が特定パターンに該当するかどうか、または、特定パターンに該当する領域が第1画像に含まれているかどうか、を、第1画像信号にもとづき判定する。
 この特定パターンに該当する画像または領域とは、特徴点が誤設定されやすく、その結果として視差情報(デプスマップ)に誤差が含まれやすい、と考えられる画像または領域のことである。
 この特定パターンに該当する画像または領域とは、以下のようなものである。
 1)特徴点として設定された領域と似た領域が他に多数ある画像。このような画像(または領域)の例として、以下を挙げることができる。
1-1:同じ形状や模様が規則正しく配列した画像。例えば、タイルを並べた画像、格子模様の壁を写した画像、等。
1-2:特徴点として設定された領域と似た領域が多くあり、特徴点を探索するのが難しい画像。例えば、細い枝の画像、木の葉が生い茂った画像、等。
 2)輝度信号または色信号(色差信号)の変化が小さく、特徴点そのものを設定しにくい画像。このような画像(または領域)の例として、以下を挙げることができる。
2-1:輝度信号の変化が少ない画像。例えば、白い壁を写した画像、等。
2-2:輝度信号および色信号(色差信号)の変化が共に少ない画像。例えば、雲のない青空を写した画像、等。
 3)被写体が素早く大きく動いている、または、輝度信号および色信号(色差信号)の変化がなだらか、等の理由で被写体の輪郭が明瞭でなく、特徴点が設定しにくい画像。このような画像(または領域)の例として、以下を挙げることができる。
3-1:被写体が素早く大きく動いている画像。例えば、動き回る犬の画像、スポーツする人物を写した画像、等。
3-2:輝度信号および色信号(色差信号)の変化がなだらかな画像。例えば、夕焼け空を写した画像、等。
 画像パターン判定部324は、第1画像がこのような特定パターンに該当するかどうか、または、特定パターンに該当する領域が第1画像に含まれているかどうか、含まれている場合はその領域の位置および範囲を、第1画像信号にもとづき判定する。画像パターン判定部324は、これらの判定結果とともに、これらに該当する場合は、特徴点抽出部322で設定された特徴点の信頼性が低いことを示す情報、あるいは、信頼性の低い特徴点を特定する情報、等をデプスマップ生成部323へ出力する。これらの情報を「特定パターン判定情報」とする。
 画像パターン判定部324では、顔認識部327における検出結果、動き検出部329における検出結果、シーン判定部328における判定結果、第1画像信号の輝度信号に関するヒストグラム、第1画像信号の色信号(色差信号)に関するヒストグラム、第1画像信号の輪郭部を抽出した信号、判定対象となる第1画像が撮像されたときの第1光学部301の光学ズーム倍率および焦点が合っている被写体までの距離(合焦距離)、の1つまたは複数を選択して、上述の判定を行う。これらの判定に必要な情報は上述したデータベースに含まれており、画像パターン判定部はデータベースを参照してこれらの判定を行う。
 なお、画像パターン判定部324は、第1画像信号に代えて第2画像信号または切り出し画像信号にもとづき、上述の判定を行う構成であってもよい。あるいは、第1画像信号と、第2画像信号または切り出し画像信号の両方に関して、上述の判定を行う構成であってもよい。また、画像パターン判定部324における判定は何ら上述した内容に限定されるものではなく、特徴点の信頼性が判断できるものであればよい。
 デプスマップ生成部323は、画角合わせ部321で縮小処理された第1画像信号および切り出し画像信号にもとづいて、視差情報を生成する。デプスマップ生成部323は、縮小処理された第1画像信号と縮小処理された切り出し画像信号とを互いに比較し、互いに対応する被写体が2つの画像信号間でどの程度ずれているかを、画素単位、または複数の画素からなるブロック単位で、算出する。この「ずれの量(ずれ量)」は、視差方向、例えば、撮像が行われたとき地面に対して水平となる方向、で算出する。この「ずれ量」を1枚の画像(縮小処理された第1画像信号にもとづく画像、または、縮小処理された切り出し画像信号にもとづく画像)の全域において算出し、算出対象となる画像の画素またはブロックに対応付けたものが、視差情報(デプスマップ)となる。
 なお、デプスマップ生成部323では、第1画像信号と切り出し画像信号とを比較するときに、特徴点抽出部322で設定された特徴点を用いることで、視差情報(デプスマップ)を生成する際の精度を高めている。
 そして、デプスマップ生成部323では、一旦生成した視差情報(デプスマップ)を、画像パターン判定部324およびシーン判定部328における判定結果にもとづいて、補正する。
 この補正例として、以下を挙げることができる。
 1)シーン判定部328で風景を写した画像と判定された画像に関しては、近景にある被写体は立体感(奥行き感)を低減するように視差情報を小さくし、遠景にある被写体は立体感(奥行き感)を増加するように視差情報を大きくする。これにより、生成する立体画像において、遠景がより遠く感じられるように立体感(奥行き感)を強調することができる。
 2)シーン判定部328で人物を写した画像と判定された画像に関しては、合焦した被写体(人物像)の視差情報を、立体画像の鑑賞者がその被写体に焦点を合わせやすい距離になるように補正する。この距離は、例えば、2~5m程度である。合焦した被写体(人物像)の背景に相当する被写体は、合焦した被写体との距離感が低減するように視差情報を補正する。人物像は過度に立体感(奥行き感)が強調されると不自然な立体画像になりやすいが、これにより、立体画像の立体感(奥行き感)が適正に抑えられ、鑑賞者が自然な立体感(奥行き感)で人物像を鑑賞することができる立体画像を生成することができる。
 3)シーン判定部328で動きが多い光景を写した画像と判定された画像、または、画像パターン判定部324で特定パターンに該当すると判定された画像に関しては、視差情報(デプスマップ)に誤差が含まれている可能性が高いため、立体感(奥行き感)を低減するように視差情報を補正する。また、画像パターン判定部324で特定パターンに該当する領域が含まれていると判定された画像、もしくは、画像パターン判定部324からの出力に信頼性が低い特徴点を特定する情報が含まれているときは、その領域またはその特徴点と、それらの周囲の領域とに関して、視差情報に誤差が含まれている可能性が高い。そのため、それらの領域の立体感(奥行き感)を低減するように視差情報を補正するとともに、立体画像に不自然さが生じないように、それらの領域の周辺の領域の視差情報を補正する。
 4)これらに該当しない画像に関しては、視差情報(デプスマップ)を補正しない。ただし、あらかじめ定められた補正または使用者が指示した補正を加え、立体感(奥行き感)を強調または低減するようにデプスマップ生成部323を構成してもよい。
 なお、視差情報を補正するための補正データは、データベースにあらかじめ含まれており、デプスマップ生成部323は、シーン判定部328の判定結果および画像パターン判定部324の判定結果にもとづき、その補正データをデータベースから取得して、視差情報を補正する。
 なお、本実施の形態では、縮小処理された第1画像信号に関連付けて視差情報(デプスマップ)を生成するものとするが、縮小処理された切り出し画像信号に関連付けて視差情報(デプスマップ)を生成する構成であってもよい。
 なお、2つの画像信号を比較する際に、互いに対応する部分がない領域については「ずれ量」を算出できないので、そのような領域には、不定を表す記号を設定するか、あるいはあらかじめ定められた数値を設定すればよい。
 なお、視差を有する2枚の画像から視差情報(ずれ量)を算出する手法、および視差情報にもとづき新たな画像信号を生成する手法は公知であり、例えば上述の特許文献1等に記載されているので、詳細な説明は省略する。
 次に、撮像装置110における立体画像の撮像動作について、図面を用いて説明する。また、各機能ブロックで画像信号がどのように処理されるのかを、一例を挙げて図面に示す。
 図4は、実施の形態1における撮像装置110の立体画像撮像時の動作を説明するフローチャートである。
 図5は、実施の形態1における撮像装置110の画像信号の処理の流れの一例を概略的に示す図である。
 ここでは、一例として図5に示すように、第1撮像部300は、画素数が1920×1080の第1画像信号を出力し、第2撮像部310は、画素数が7680×4320の第2画像信号を出力するものとして、以下の説明を行う。なお、重複する説明は省略する。
 なお、図5に示す数値は、単に一例を挙げたものに過ぎず、本実施の形態は何らこれらの数値に限定されるものではない。
 立体画像の撮像を行うとき、撮像装置110では主に以下の動作を行う。
 特徴点抽出部322は、第1画像信号と第2画像信号とのそれぞれに特徴点を設定し、設定した特徴点に関する情報(特徴点情報)を、画角合わせ部321および画像パターン判定部324に出力する(ステップS400)。
 画像パターン判定部324は、第1画像が特定パターンに該当するかどうか、特定パターンに該当する領域が第1画像に含まれているかどうか、ステップS400で設定された特徴点に対する信頼性、を第1画像信号にもとづき判定し、その判定結果(特定パターン判定情報)をデプスマップ生成部323に出力する(ステップS401)。
 図4、図5には示していないが、あわせて、シーン判定部328は、第1画像がどのような光景を写した画像であるのかを判定し、判定結果をマッチング部370に出力する。
 画角合わせ部321は、第1画像として撮像された範囲(画角)に相当する部分を第2画像信号から取り出して、切り出し画像信号を生成する(ステップS402)。
 画像信号処理部320の撮像制御部326は、第1光学制御部303を介して第1光学部301の光学ズームを制御する。したがって、画像信号処理部320は、第1画像が撮像されたときの第1光学部301のズーム倍率を、第1画像の付帯情報として取得することができる。一方、第2光学部311では光学ズームができないので、第2画像を撮像するときのズーム倍率は固定されている。画角合わせ部321は、これらの情報に基づいて第1画像と第2画像との画角の差を算出し、その算出結果にもとづき第2画像信号から第1画像の撮像範囲(画角)に相当する領域を特定して切り出す。
 このとき、画角合わせ部321は、第1画像の画角に相当する領域よりもやや広い範囲(例えば、10%程度広い範囲)をまず切り出す。これは、第1画像の中心と第2画像の中心との間に若干のずれが生じる可能性があるためである。
 次に、画角合わせ部321は、この切り出した範囲に対して、一般に用いられているパターンマッチングを行い、第1画像の撮像範囲に相当する領域を特定して再度切り出す。このとき、ステップS400で設定された特徴点を用いることで、精度の高い比較を行うことができる。
 画角合わせ部321は、まず、垂直方向に両画像信号の比較を行い、次に水平方向に両画像信号の比較を行う。この順番は逆でもよい。このようにして、画角合わせ部321は、第1画像信号の撮像範囲に実質的に等しい領域を第2画像信号から取り出し、切り出し画像信号を生成する。
 これにより、比較的負荷の軽い演算処理で高速に切り出し画像信号を生成することができる。なお、画角や解像度が互いに異なる2枚の画像を比較して撮像範囲が互いに共通する領域を特定するパターンマッチング等の手法は、一般に知られた手法であるので、説明を省略する。
 なお、本実施の形態は何らこの構成に限定されるものではなく、例えばパターンマッチングだけで切り出し画像信号を生成する等してもかまわない。
 次に、画角合わせ部321は、第1画像信号と切り出し画像信号を、それぞれが所定の画素数になるように、縮小処理する。図5には、所定の画素数を960×540とする例を示す。
 第1画像信号の画素数が1920×1080であれば、第1画像信号を水平方向・垂直方向それぞれに1/2に縮小処理することで、縮小処理後の第1画像信号の画素数を960×540にすることができる。
 切り出し画像信号の画素数は、第1撮像部300の光学ズーム倍率の大きさによって異なり、第1画像を撮像する際のズーム倍率が大きいほど、切り出し画像信号の画素数は小さくなる。例えば、切り出し画像信号の画素数が3840×2160であれば、切り出し画像信号を水平方向・垂直方向それぞれに1/4に縮小処理することで、縮小処理後の切り出し画像信号の画素数を960×540にすることができる。
 なお、これらの処理は順番が入れ替わってもかまわない。例えば、先に縮小処理をし、縮小された両画像信号を互いに比較して切り出し画像信号を生成してもよい。あるいは、垂直方向の比較を行った後で縮小処理を行い、その後水平方向の比較を行ってもよい。
 次に、デプスマップ生成部323において、画角合わせ部321で縮小処理された第1画像信号および切り出し画像信号にもとづいて、視差情報(デプスマップ)を生成する(ステップS405)。
 次に、デプスマップ生成部323は、ステップS401における判定結果にもとづき、記憶部340に記憶されたデータベースから補正値を読み出し、ステップS405で生成した視差情報(デプスマップ)を補正する(ステップS406)。
 また、ステップS401で信頼性が低いと判定された特徴点を有する画像に対しては、立体感(奥行き感)を抑制するように、視差情報(デプスマップ)を補正する。
 なお、ステップS401の判定結果によっては、デプスマップ生成部323は、ステップS405で生成した視差情報(デプスマップ)に補正を加えないこともある。
 デプスマップ生成部323は、後段の処理に備え、視差情報(デプスマップ)を、第1画像信号の画素数に合わせて拡張する。以下、この拡張された視差情報(デプスマップ)を「拡張デプスマップ」と呼称する。例えば、視差情報(デプスマップ)が画素数960×540の画像信号にもとづき生成され、第1画像信号の画素数が1920×1080であれば、視差情報(デプスマップ)を、水平方向・垂直方向それぞれに2倍に拡張して、拡張デプスマップを生成する。
 なお、この補正処理と拡張処理は順番が入れ替わってもかまわない。
 次に、立体画像信号において第1画像信号の対となる新第2画像信号を、ステップS406でデプスマップ生成部323において生成された視差情報(拡張デプスマップ)にもとづき、画像生成部325において第1画像信号から生成する(ステップS407)。画像生成部325は、例えば画素数1920×1080の第1画像信号から、拡張デプスマップにもとづき画素数1920×1080の新第2画像信号を生成する。
 そして、画像生成部325は、第1画像信号と新第2画像信号の対を立体画像信号として出力する。なお、各画像信号の画素数および縮小処理後の画像信号の画素数は、何ら上述した数値に限定されるものではない。
 なお、ステップS400からステップS406の処理は、画像信号の輝度信号だけを用いて行なってもよい。これは、RGBの3つの原色信号のそれぞれについて処理を行うよりも、演算処理の負荷を軽減でき、かつ高い精度で各処理を行うことができるからである。しかし、画像信号の輝度信号および色信号(色差信号)を用いて各処理を行ってもよく、あるいは、RGBの3つの原色信号のそれぞれについて各処理を行ってもよい。
 なお、デプスマップ生成部323が生成した視差情報(デプスマップ)を表示部330に表示し、使用者が手動で視差情報(デプスマップ)を補正できるように撮像装置110を構成してもよい。あるいは、補正を加えない視差情報(デプスマップ)にもとづいて新第2画像信号を一旦生成し、それにもとづく立体画像を表示部330に表示して、立体感(奥行き感)が不自然な箇所を使用者が手動で補正できるように撮像装置110を構成してもよい。さらには、その手動の補正が反映された視差情報(デプスマップ)にもとづく新第2画像信号が最終的な新第2画像信号として画像生成部325から出力される構成であってもよい。
 また、上述した視差情報(デプスマップ)に対する補正は、使用者が許可した場合のみ行われるように撮像装置110を構成してもよい。
 なお、第1光学部301のズーム倍率および第2撮像素子312の解像度は、第1光学部301を望遠端(テレ端)にしたときの切り出し画像信号の解像度が第1画像信号の解像度以上となるように、設定することが望ましい。これは、第1光学部301を望遠端にしたときに、切り出し画像信号が第1画像信号よりも低解像度になることを防止するためである。しかし、本実施の形態は何らこの構成に限定されるものではない。
 なお、第2光学部311は、第1光学部301を広角端(ワイド端)にしたときの画角に実質的に等しいか、さらに広い画角を有するように構成することが望ましい。これは、第1光学部301を広角端にしたときに、第1画像が第2画像よりも広い画角になることを防止するためである。しかし、本実施の形態は何らこの構成に限定されるものではなく、第1光学部301を広角端にしたときの第1画像の画角が第2画像よりも広い画角であってもよい。
 [1-3.効果等]
 以上のように、本実施の形態において、撮像装置110は、第1画像を撮像して第1画像信号を出力するように構成された第1撮像部300と、第1画像以上の画角を有する第2画像を、第1画像よりも高解像度で撮像して第2画像信号を出力するように構成された第2撮像部310と、画像信号処理部320と、を備える。画像信号処理部320は、第1画像信号に基づき、第2画像信号の少なくとも一部を切り出して切り出し画像信号を生成し、第1画像信号と第2画像信号との少なくとも一方の画像信号が特定パターンを有するか否かを判断し、第1画像信号と切り出し画像信号とに基づき視差情報を算出するとともに、少なくとも一方の画像信号は特定パターンを有すると判断されたときには視差情報を補正し、視差情報又は補正後の視差情報と第1画像信号とに基づいて新第2画像信号を生成する、ように構成されている。
 これにより、撮像装置110では、良好な品質の立体画像を生成することができる。
 良好な品質の立体画像を取得(生成)するためには、対となる右眼用画像と左眼用画像とを撮像する際に、画角(撮像範囲)、解像度(画素数)、ズーム倍率等の撮像条件を互いに揃え、できるだけ等しい状態にすることが望ましい。
 しかしながら、本実施の形態の撮像装置110は、第1撮像部300に光学ズーム機能を備えており、一方、第2撮像部310は光学ズーム機能を備えておらず、単焦点レンズを有する構成である。このように、第1撮像部300と第2撮像部310とで、光学系の仕様が互いに異なる。
 さらには、第1撮像部300と第2撮像部310とでは、撮像素子の仕様も互いに異なる。
 したがって、撮像装置110では、第1撮像部300で撮像した第1画像をそのまま右眼用画像とし、第2撮像部310で撮像した第2画像をそのまま左眼用画像としても、良好な品質の立体画像(立体動画)を得ることは困難である。
 そこで、本実施の形態では、撮像装置110を上述した構成とし、第1撮像部300で撮像した第1画像信号を右眼用画像信号とし、第1画像信号から視差情報(デプスマップ)を用いて生成した新第2画像信号を左眼用画像信号として、立体画像(立体動画)を生成する。
 これにより、光学的な特性や撮像素子の特性等の撮像条件が互いに等しい理想的な一対の撮像部で撮像(または動画撮影)された右眼用画像と左眼用画像に実質的に等しい右眼用画像と左眼用画像を生成することが可能になる。
 このとき、品質の良い新第2画像信号を生成するためには、精度の高い視差情報を生成する必要がある。しかしながら、撮像画像に写される光景によっては、精度の高い視差情報を生成することが困難なことがある。
 そこで、本実施の形態では、撮像装置110を上述した構成とし、視差情報が誤生成される可能性が高いと判定された画像信号に関しては、視差情報を補正する。また、写された光景に応じた補正を視差情報に加えることも可能である。これにより、生成される視差情報の品質を高めることができるので、良好な品質の立体画像を生成することができる。
 (他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態1を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態1で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
 そこで、以下、他の実施の形態を例示する。
 実施の形態1では、図1に示したように、撮像方向に向かって右側に第1レンズ部111を配置して第1画像を右眼視点の画像とし、撮像方向に向かって左側に第2レンズ部112を配置して第2画像を左眼視点の画像とするように撮像装置110を構成する例を説明したが、本開示は何らこの構成に限定されない。例えば、第1画像信号を左眼用画像信号とし、新第2画像信号を右眼用画像信号とするように撮像装置110を構成してもかまわない。
 図6は、他の実施の形態における撮像装置120の外観図である。例えば、撮像方向に向かって左側に第1レンズ部111を配置して第1画像を左眼視点の画像とし、撮像方向に向かって右側に第2レンズ部114を配置して第2画像を右眼視点の画像とするように撮像装置120を構成してもよい。この構成では、実施の形態で説明した右を左に、左を右にそれぞれ読み替えればよい。
 実施の形態1では、画角合わせ部321で画像信号を縮小処理する例を説明したが、本開示は何らこの構成に限定されない。図7は、他の実施の形態における撮像装置の画像信号の処理の流れの一例を概略的に示す図である。例えば、画角合わせ部321で、縮小処理を行わず、第1画像信号の画素数(例えば、1920×1080)と同じ画素数になるように切り出し画像信号を生成してもよい。この構成では、デプスマップ生成部323で、この画素数にもとづく視差情報(デプスマップ)を生成するので、拡張デプスマップを生成する必要が無く、より精度の高い新第2画像信号を生成することができる。
 本実施の形態では、撮像装置を、第1撮像部300で第1画像を撮像し、第2撮像部310で第2画像を撮像するように構成する例を説明したが、例えば、第1撮像部300に代えて第1画像入力部を備え、第2撮像部310に代えて第2画像入力部を備え、第1画像入力部を通して第1画像を取得し、第2画像入力部を通して第2画像を取得するように構成してもよい。
 実施の形態1に示した構成および動作は、動画撮影時にも適応可能である。ただし、第1画像信号および第2画像信号が動画であって、フレームレートが互いに異なるときは、画角合わせ部321において、いずれかフレームレートが低い方の画像信号をフレームレートが高い方の画像信号に合わせて高フレームレート化し、互いに等しいフレームレートにすることが望ましい。例えば、第1画像信号のフレームレートが60Hz、第2画像信号のフレームレートが30Hzであれば、第2画像信号または切り出し画像信号を60Hzに高フレームレート化する。なお、この際に用いるフレームレート変換手法は、公知のものでかまわない。このように、動画信号に対しては、比較を行いやすい状態にして、デプスマップ生成を行うものとする。これにより動画撮像時においても高い精度で視差情報(デプスマップ)を生成することができる。
 なお、第1光学部301(第1レンズ群201)および第2光学部311(第2レンズ群211)は、何ら実施の形態1に示した構成に限定されるものではない。例えば、第1光学部301(第1レンズ群201)に、フォーカス調節が可能なフォーカスレンズに代えて、フォーカス調節が不要なパンフォーカス(ディープフォーカス)のレンズを用いる構成でもよい。あるいは、第2光学部311(第2レンズ群211)に、フォーカス調節が不要なパンフォーカス(ディープフォーカス)のレンズに代えて、フォーカス調節が可能なフォーカスレンズを用いる構成でもよい。その場合には、そのフォーカスレンズを駆動するように構成されたモータを有する第2アクチュエーターを第2撮像ユニット210に設けることが望ましい。なお、そのモータは、CPU220から制御信号を出力して制御すればよい。また、第2光学部311に、第2撮像素子312(第2CCD212)で受光する光量を調節する光学式の絞りを備える構成としてもよい。
 また、第2光学部311に、単焦点レンズに代えて光学ズームレンズを備える構成としてもよい。その場合、例えば、撮像装置で立体画像の撮像を行うときには、自動的に第2光学部311が広角端になるように構成してもよい。
 また、第1光学部301を望遠端(テレ端)にしたときに、切り出し画像信号が第1画像信号よりも低解像度になるように、撮像装置を構成してもよい。その場合、例えば、第1光学部301のズーム倍率を上げていく過程で切り出し画像信号の解像度が第1画像信号の解像度以下となったときに、立体画像から通常画像に撮像モードが自動で変わるように撮像装置を構成してもよい。
 なお、モニター113が立体画像の撮像に適した位置まで開いたときにオン状態になり、それ以外ではオフになるスイッチを撮像装置に設け、そのスイッチがオンになったときのみ立体画像の撮像ができるように撮像装置を構成してもよい。
 なお、実施の形態に示した具体的な数値は、単に実施の形態における一例を示したものに過ぎず、本開示はこれらの数値に何ら限定されるものではない。各数値は画像表示装置の仕様等にあわせて最適な値に設定することが望ましい。
 本開示は、複数の撮像部を有し、立体視用の画像を撮像可能な撮像装置に適用可能である。具体的には、立体視用の画像を撮像可能な、デジタルビデオカメラ、デジタルスチルカメラ、カメラ機能付き携帯電話、スマートフォン等に本開示は適用可能である。
 110,120  撮像装置
 111  第1レンズ部
 112,114  第2レンズ部
 113  モニター
 200  第1撮像ユニット
 201  第1レンズ群
 202  第1CCD
 203  第1A/D変換IC
 204  第1アクチュエーター
 210  第2撮像ユニット
 211  第2レンズ群
 212  第2CCD
 213  第2A/D変換IC
 220  CPU
 221  RAM
 222  ROM
 223  加速度センサ
 224  入力装置
 225  ディスプレイ
 226  エンコーダー
 227  記憶装置
 230  LSI
 233  IOコントローラ
 234  クロック発生器
 243  ネットワークインターフェース
 245  バッテリー
 300  第1撮像部
 301  第1光学部
 302  第1撮像素子
 303  第1光学制御部
 310  第2撮像部
 311  第2光学部
 312  第2撮像素子
 320  画像信号処理部
 321  画角合わせ部
 322  特徴点抽出部
 323  デプスマップ生成部
 324  画像パターン判定部
 325  画像生成部
 326  撮像制御部
 327  顔認識部
 328  シーン判定部
 329  動き検出部
 330  表示部
 340  記憶部
 350  入力部
 360  カメラ情報部
 370  マッチング部

Claims (7)

  1. 第1画像信号と、前記第1画像信号よりも高解像度であって前記第1画像信号以上の画角を有する第2画像信号と、が入力され、前記第1画像信号に基づき、前記第2画像信号の少なくとも一部を切り出して切り出し画像信号を生成し、
    前記第1画像信号と前記第2画像信号との少なくとも一方の画像信号が特定パターンを有するか否かを判断し、
    前記第1画像信号と前記切り出し画像信号とに基づき視差情報を算出するとともに、前記少なくとも一方の画像信号は前記特定パターンを有すると判断されたときには前記視差情報を補正し、
    前記視差情報又は前記補正後の視差情報と前記第1画像信号とに基づいて新第2画像信号を生成する、ように構成された画像信号処理部
    を備える画像生成装置。
  2. 前記画像信号処理部は、
    前記第1画像信号と前記第2画像信号とで互いに共通する特徴点を前記第1画像信号および前記第2画像信号から抽出するように構成された特徴点抽出部と、
    前記特徴点および前記第1画像信号に基づき、前記第2画像信号の少なくとも一部を切り出して前記切り出し画像信号を生成するように構成された画角合わせ部と、
    前記第1画像信号と前記第2画像信号との少なくとも一方の画像信号が前記特定パターンを有するか否かを判断するように構成された画像パターン判定部と、
    前記第1画像信号と前記切り出し画像信号とに基づき前記視差情報を算出してデプスマップを生成するとともに、前記画像パターン判定部において前記少なくとも一方の画像信号は前記特定パターンを有すると判断されたときには前記視差情報を補正するように構成されたデプスマップ生成部と、
    前記視差情報又は前記補正後の視差情報と前記第1画像信号とに基づいて前記新第2画像信号を生成するように構成された画像生成部と、を備える
    請求項1に記載の画像生成装置。
  3. 第1画像を撮像して第1画像信号を出力するように構成された第1撮像部と、
    前記第1画像以上の画角を有する第2画像を、前記第1画像よりも高解像度で撮像して第2画像信号を出力するように構成された第2撮像部と、
    前記第1画像信号に基づき、前記第2画像信号の少なくとも一部を切り出して切り出し画像信号を生成し、前記第1画像信号と前記第2画像信号との少なくとも一方の画像信号が特定パターンを有するか否かを判断し、前記第1画像信号と前記切り出し画像信号とに基づき視差情報を算出するとともに、前記少なくとも一方の画像信号は前記特定パターンを有すると判断されたときには前記視差情報を補正し、前記視差情報又は前記補正後の視差情報と前記第1画像信号とに基づいて新第2画像信号を生成する、ように構成された画像信号処理部と、
    を備える撮像装置。
  4. 前記画像信号処理部は、
    前記第1画像信号と前記第2画像信号とで互いに共通する特徴点を前記第1画像信号および前記第2画像信号から抽出するように構成された特徴点抽出部と、
    前記特徴点および前記第1画像信号に基づき、前記第2画像信号の少なくとも一部を切り出して前記切り出し画像信号を生成するように構成された画角合わせ部と、
    前記第1画像信号と前記第2画像信号との少なくとも一方の画像信号が前記特定パターンを有するか否かを判断するように構成された画像パターン判定部と、
    前記第1画像信号と前記切り出し画像信号とに基づき前記視差情報を算出してデプスマップを生成するとともに、前記画像パターン判定部において前記少なくとも一方の画像信号は前記特定パターンを有すると判断されたときには前記視差情報を補正するように構成されたデプスマップ生成部と、
    前記視差情報又は前記補正後の視差情報と前記第1画像信号とに基づいて前記新第2画像信号を生成するように構成された画像生成部と、を備える
    請求項3に記載の撮像装置。
  5. 前記第1撮像部は、光学的なズーム機能を備えた第1光学部と、前記第1光学部を透過した光を電気信号に変換して前記第1画像信号を出力するように構成された第1撮像素子と、を備え、
    前記第2撮像部は、前記第1光学部以上の画角を有する第2光学部と、前記第2光学部を透過した光を前記第1撮像素子よりも高い解像度で電気信号に変換して前記第2画像信号を出力するように構成された第2撮像素子と、を備える
    請求項3に記載の撮像装置。
  6. 第1画像信号に基づき、前記第1画像信号よりも高解像度であって前記第1画像信号以上の画角を有する第2画像信号から、少なくとも一部を切り出して切り出し画像信号を生成し、
    前記第1画像信号と前記第2画像信号との少なくとも一方の画像信号が特定パターンを有するか否かを判断し、
    前記第1画像信号と前記切り出し画像信号とに基づき視差情報を算出するとともに、前記少なくとも一方の画像信号は前記特定パターンを有すると判断されたときには前記視差情報を補正し、
    前記視差情報又は前記補正後の視差情報と前記第1画像信号とに基づいて新第2画像信号を生成する、
    画像生成方法。
  7. 前記第1画像信号と前記第2画像信号とで互いに共通する特徴点を前記第1画像信号および前記第2画像信号から抽出し、
    前記特徴点および前記第1画像信号に基づき、前記第2画像信号の少なくとも一部を切り出して前記切り出し画像信号を生成する
    請求項6に記載の画像生成方法。
PCT/JP2014/001498 2013-03-19 2014-03-17 画像生成装置、撮像装置および画像生成方法 WO2014148031A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015506604A JPWO2014148031A1 (ja) 2013-03-19 2014-03-17 画像生成装置、撮像装置および画像生成方法
US14/810,317 US20150334373A1 (en) 2013-03-19 2015-07-27 Image generating apparatus, imaging apparatus, and image generating method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013056318 2013-03-19
JP2013-056318 2013-03-19

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/810,317 Continuation US20150334373A1 (en) 2013-03-19 2015-07-27 Image generating apparatus, imaging apparatus, and image generating method

Publications (1)

Publication Number Publication Date
WO2014148031A1 true WO2014148031A1 (ja) 2014-09-25

Family

ID=51579729

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/001498 WO2014148031A1 (ja) 2013-03-19 2014-03-17 画像生成装置、撮像装置および画像生成方法

Country Status (3)

Country Link
US (1) US20150334373A1 (ja)
JP (1) JPWO2014148031A1 (ja)
WO (1) WO2014148031A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016149073A (ja) * 2015-02-13 2016-08-18 キヤノン株式会社 画像処理装置および画像処理プログラム
EP3163506A1 (en) * 2015-10-27 2017-05-03 Dura Operating, LLC Method for stereo map generation with novel optical resolutions
EP3299240A4 (en) * 2015-05-19 2019-01-30 LG Electronics Inc. DEVICE FOR ASSISTING THE DRIVING OF A VEHICLE AND VEHICLE
JP7450668B2 (ja) 2022-06-30 2024-03-15 維沃移動通信有限公司 顔認識方法、装置、システム、電子機器および読み取り可能記憶媒体

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018170656A (ja) * 2017-03-30 2018-11-01 ソニーセミコンダクタソリューションズ株式会社 撮像装置、撮像モジュール、撮像システムおよび撮像装置の制御方法
US11137607B2 (en) * 2019-06-28 2021-10-05 Canon Kabushiki Kaisha Image capturing and display apparatus and wearable device
US11863881B2 (en) * 2021-07-06 2024-01-02 Qualcomm Incorporated Selectively increasing depth-of-field in scenes with multiple regions of interest

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175863A (ja) * 1999-12-21 2001-06-29 Nippon Hoso Kyokai <Nhk> 多視点画像内挿方法および装置
JP2005092772A (ja) * 2003-09-19 2005-04-07 Keiji Saneyoshi 画像処理装置および画像処理方法
WO2012029298A1 (ja) * 2010-08-31 2012-03-08 パナソニック株式会社 撮影装置および画像処理方法
JP2012253666A (ja) * 2011-06-06 2012-12-20 Sony Corp 画像理装置および方法、並びにプログラム
WO2013035442A1 (ja) * 2011-09-06 2013-03-14 シャープ株式会社 立体画像情報処理装置、立体画像情報処理方法、立体画像処理プログラムおよびプログラムを記録した記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009147730A (ja) * 2007-12-14 2009-07-02 Fujifilm Corp 動画生成装置、動画撮影装置、動画生成方法及びプログラム
EP2389004B1 (en) * 2010-05-20 2013-07-24 Sony Computer Entertainment Europe Ltd. 3D camera and imaging method
JP2012044383A (ja) * 2010-08-18 2012-03-01 Sony Corp 画像処理装置および方法、並びにプログラム
US8274552B2 (en) * 2010-12-27 2012-09-25 3Dmedia Corporation Primary and auxiliary image capture devices for image processing and related methods
JP6182866B2 (ja) * 2012-03-21 2017-08-23 株式会社リコー 校正装置、距離計測装置及び車両
US9275459B2 (en) * 2012-10-05 2016-03-01 Qualcomm Incorporated Method and apparatus for calibrating an imaging device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175863A (ja) * 1999-12-21 2001-06-29 Nippon Hoso Kyokai <Nhk> 多視点画像内挿方法および装置
JP2005092772A (ja) * 2003-09-19 2005-04-07 Keiji Saneyoshi 画像処理装置および画像処理方法
WO2012029298A1 (ja) * 2010-08-31 2012-03-08 パナソニック株式会社 撮影装置および画像処理方法
JP2012253666A (ja) * 2011-06-06 2012-12-20 Sony Corp 画像理装置および方法、並びにプログラム
WO2013035442A1 (ja) * 2011-09-06 2013-03-14 シャープ株式会社 立体画像情報処理装置、立体画像情報処理方法、立体画像処理プログラムおよびプログラムを記録した記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016149073A (ja) * 2015-02-13 2016-08-18 キヤノン株式会社 画像処理装置および画像処理プログラム
EP3299240A4 (en) * 2015-05-19 2019-01-30 LG Electronics Inc. DEVICE FOR ASSISTING THE DRIVING OF A VEHICLE AND VEHICLE
US10703374B2 (en) 2015-05-19 2020-07-07 Lg Electronics Inc. Vehicle driving assisting apparatus and vehicle comprising same
EP3163506A1 (en) * 2015-10-27 2017-05-03 Dura Operating, LLC Method for stereo map generation with novel optical resolutions
JP7450668B2 (ja) 2022-06-30 2024-03-15 維沃移動通信有限公司 顔認識方法、装置、システム、電子機器および読み取り可能記憶媒体

Also Published As

Publication number Publication date
US20150334373A1 (en) 2015-11-19
JPWO2014148031A1 (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
US10009540B2 (en) Image processing device, image capturing device, and image processing method for setting a combination parameter for combining a plurality of image data
WO2014148031A1 (ja) 画像生成装置、撮像装置および画像生成方法
JP5140210B2 (ja) 撮影装置および画像処理方法
JP5414947B2 (ja) ステレオ撮影装置
JP5204350B2 (ja) 撮影装置、再生装置、および画像処理方法
US9007442B2 (en) Stereo image display system, stereo imaging apparatus and stereo display apparatus
JP5204349B2 (ja) 撮影装置、再生装置、および画像処理方法
WO2013108339A1 (ja) ステレオ撮影装置
KR20120131365A (ko) 영상 촬영 장치 및 그 제어방법
CN107040718B (zh) 显示控制装置及其控制方法
WO2013047066A1 (ja) 追尾枠の初期位置設定装置およびその動作制御方法
WO2014141654A1 (ja) 測距装置、撮像装置および測距方法
US9609302B2 (en) Image processing device, imaging device, image processing method, and recording medium
JP6155471B2 (ja) 画像生成装置、撮像装置および画像生成方法
US20130222376A1 (en) Stereo image display device
US20130083169A1 (en) Image capturing apparatus, image processing apparatus, image processing method and program
CN103339948B (zh) 3d视频再现装置、3d成像装置和3d视频再现方法
CN103329549B (zh) 立体视频处理器、立体成像装置和立体视频处理方法
US9094671B2 (en) Image processing device, method, and recording medium therefor
US9124866B2 (en) Image output device, method, and recording medium therefor
JP6268550B2 (ja) 測距装置、撮像装置および測距方法
JP2005072674A (ja) 三次元画像生成装置および三次元画像生成システム
JP2021081589A (ja) 表示制御装置およびその制御方法およびそのプログラム
JP2015046820A (ja) 撮像装置および撮影システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14770830

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015506604

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14770830

Country of ref document: EP

Kind code of ref document: A1