WO2012165491A1 - ステレオカメラ装置、および、コンピュータ読み取り可能な記録媒体 - Google Patents

ステレオカメラ装置、および、コンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2012165491A1
WO2012165491A1 PCT/JP2012/063964 JP2012063964W WO2012165491A1 WO 2012165491 A1 WO2012165491 A1 WO 2012165491A1 JP 2012063964 W JP2012063964 W JP 2012063964W WO 2012165491 A1 WO2012165491 A1 WO 2012165491A1
Authority
WO
WIPO (PCT)
Prior art keywords
pixel
image
parallax
converted image
axis
Prior art date
Application number
PCT/JP2012/063964
Other languages
English (en)
French (fr)
Inventor
一馬 原口
伸裕 見市
智治 中原
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201280026027.7A priority Critical patent/CN103582802A/zh
Priority to EP12794055.9A priority patent/EP2717013A4/en
Priority to US14/113,975 priority patent/US20140043444A1/en
Publication of WO2012165491A1 publication Critical patent/WO2012165491A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C3/00Measuring distances in line of sight; Optical rangefinders
    • G01C3/02Details
    • G01C3/06Use of electric means to obtain final indication
    • G01C3/08Use of electric radiation detectors
    • G01C3/085Use of electric radiation detectors with electronic parallax measurement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/02Measuring arrangements characterised by the use of optical techniques for measuring length, width or thickness
    • G01B11/03Measuring arrangements characterised by the use of optical techniques for measuring length, width or thickness by measuring coordinates of points
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/12Panospheric to cylindrical image transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/296Synchronisation thereof; Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present invention relates to a stereo camera device and a computer-readable recording medium, and in particular, using a stereo camera device and a computer that acquire three-dimensional information of a space based on the principle of triangulation using images captured by a plurality of cameras.
  • the present invention relates to a computer-readable recording medium on which a program constituting a stereo camera device is recorded.
  • stereo vision is known as a technique for acquiring three-dimensional information of space.
  • Stereo vision is a technique for measuring the distance to a target site in a three-dimensional real space by applying the principle of triangulation to an image obtained by capturing the real space using a plurality of cameras. That is, in stereo vision, a three-dimensional real space is imaged using a plurality of cameras arranged so that at least a part of the field of view overlaps. Then, when an image of the site of interest in the real space is formed on the image sensor of each camera, a triangle is formed using the direction from the optical center in the real space to the site of interest and the relative position and orientation of the cameras. Based on the principle of surveying, the distance to the site of interest in the real space is measured.
  • captured images For images captured by two cameras (hereinafter referred to as “captured images”).
  • baseline length the length of a line segment connecting the optical centers of the two cameras
  • the distance of the image position deviation is a parallax when a target region in real space is viewed from two cameras, and a distance difference from a reference position defined for each of the two captured images is used.
  • the parallax from the captured image it is necessary to find the position of the image corresponding to the region of interest in the real space in the captured image. That is, it is necessary to identify corresponding points corresponding to the same part in two captured images captured by two cameras.
  • the process of searching for corresponding points from two captured images is called stereo matching.
  • the range of searching for corresponding points on the captured image in stereo matching is limited to the line on which the epipolar plane is projected onto the captured image, considering an epipolar plane that connects the optical center of the two cameras and the region of interest in real space. be able to.
  • stereovision in many cases, two cameras are parallel with their optical axes parallel and a straight line connecting the optical centers of both cameras (hereinafter referred to as the “baseline”) perpendicular to both optical axes.
  • Stereo method is adopted.
  • the parallel stereo method in which the direction of the baseline matches the horizontal direction of the captured image captured by each camera is simply referred to as a parallel stereo method.
  • the captured image is not distorted by an optical system (such as a lens) provided in the camera.
  • the lines obtained by projecting the epipolar plane 403 formed corresponding to the site of interest P1 in the real space onto the respective captured images (equivalent image planes) 401 and 402 are the captured images 401 and 402.
  • the horizontal direction is the x direction
  • the vertical direction is the y direction. That is, the x direction is parallel to the base line 404. Therefore, the straight line obtained by projecting the epipolar plane 403 onto the captured images 401 and 402 is parallel to the x direction, and the coordinate value in the y direction is constant.
  • the search range of the image D1 corresponding to the part P1 in the other captured image 402 has a coordinate value in the y direction. It is limited to a horizontal straight line that is the same as the image G1.
  • an image G1 corresponds to a straight line 405 passing through the optical center O1 of one camera and the image G1, and portions P1, P2, P3, etc. on the straight line 405 correspond to the image G1.
  • straight lines passing through the optical center O2 of the other camera and the parts P1, P2, and P3 correspond to the images D1, D2, and D3 in the captured image 402.
  • the image G1 and the images D1, D2, and D3 have the same coordinate value in the y direction.
  • the site of interest in the real space corresponds to the same position in the vertical direction in the captured image of each camera. That is, when two cameras are capturing the same part of the real space, the position of the pixel corresponding to the part in the captured image differs for each captured image in the horizontal direction, but both images are captured in the vertical direction. Match in the image.
  • the parallel stereo method has an advantage in that it is only necessary to search only in the horizontal direction of the captured image for points corresponding to the same part of the real space in the captured images obtained by both cameras, and the stereo matching processing efficiency is high. is doing.
  • the above-described parallel stereo technique sets the assumption that the camera optical system is not distorted. Therefore, as described above, high processing efficiency in stereo matching can be obtained even if the viewing angle is small enough to avoid the effects of distortion of the optical system of the camera or even if there is distortion in the optical system. This is limited to the case where the influence of distortion can be removed. In other words, if an optical system having a large distortion, such as a fisheye lens, is used for the camera in order to widen the viewing angle, there arises a problem that the processing load in stereo matching increases significantly.
  • an image captured using an optical system with a wide viewing angle such as a fisheye lens
  • a curvature distortion that increases in degree of curvature as it approaches the periphery of the image. It is necessary to search for corresponding points. That is, when searching for a corresponding point, the coordinate values in both the x direction and the y direction are changed, so that the processing efficiency when searching for the corresponding point is low and the possibility of erroneous matching is increased. As a result, the measurement of the distance is wrong, which causes a problem that the measurement performance is deteriorated.
  • an angle ⁇ around the axis in the direction of the baseline 404 (x direction) as shown in FIG. Is associated with the vertical axis of the converted image.
  • the part P1 in the three-dimensional real space is associated with the same angle ⁇ in the two captured images 401 and 402, so that it is easy to search for corresponding points as in the parallel stereo method.
  • the parallax can be estimated efficiently.
  • the hemisphere of FIG. 20 has shown the optical system.
  • the angle ⁇ in the epipolar plane 403 is used as shown in FIG.
  • This angle ⁇ is relative to a region P1 of interest and the optical center O of the camera with respect to a plane (yz plane) defined by the vertical direction (y direction) and the direction of the optical axis (z direction) on the light receiving surface of the camera. Is the angle between the straight lines connecting
  • the tangent tan ⁇ of the angle ⁇ around the axis in the vertical direction of the captured image (the direction orthogonal to the direction of the base line 404 and the direction of the optical axis) is used as the horizontal direction of the converted image. Used for the axis.
  • the movement of a person in the room is detected by using a technique for acquiring three-dimensional information in real space, it can be used for controlling a load device in the room.
  • a load device for example, in the case of an air conditioning load, by specifying a place where a person exists in the room, it becomes possible to concentrate cool air and warm air to the place where the person exists.
  • a load device that displays an image, it is possible to change the orientation or change the display size according to a place where a person exists.
  • FIG. 23A shows an example corresponding to Document 1.
  • the angle ⁇ is associated with the horizontal axis
  • the converted images described in Documents 2 and 3 are distorted.
  • the central part of the converted image has relatively good linearity, but the linearity is reduced in the peripheral part.
  • the efficiency of the process of searching for a corresponding point is reduced.
  • the converted images respectively obtained from the two captured images are converted into curves L21 and L22 having different shapes even if the same straight line L1 (see FIG. 23) is captured. It is not easy to find the corresponding points from the converted images. After all, even if any of the techniques of Document 1, Document 2, and Document 3 is adopted, the process of searching for corresponding points is not easy.
  • the stereo camera device includes a stereo camera unit and an arithmetic processing unit.
  • the stereo camera unit includes a pair of cameras that capture an image of a predetermined space, and is configured to output captured images captured by the pair of cameras to the arithmetic processing unit.
  • the arithmetic processing unit includes a first conversion unit, a second conversion unit, and a parallax estimation unit.
  • the first conversion unit is configured to convert a captured image captured by the camera into a first converted image for each of the pair of cameras.
  • the first converted image is an image in which a pixel position is represented by a two-dimensional orthogonal coordinate defined by a first angle around a first axis and a second angle around a second axis.
  • the second conversion unit is configured to convert a captured image captured by the camera into a second converted image for each of the pair of cameras.
  • the second converted image is an image in which the pixel position is represented by two-dimensional orthogonal coordinates defined by the first angle and a third angle around the third axis.
  • the first axis is defined by a straight line connecting the optical centers of the pair of cameras.
  • the second axis is defined by the optical axis of the camera.
  • the third axis is an axis orthogonal to the first axis and the second axis.
  • the parallax estimation unit obtains a parallax related to a point of interest in the space based on the first converted image obtained by the first converting unit and the second converted image obtained by the second converting unit. Configured as follows.
  • the parallax estimation unit determines the corresponding point of the point of interest from the two first converted images respectively corresponding to the pair of cameras.
  • the first parallax relating to the point of interest is calculated based on the corresponding points, and the first matching degree between the corresponding points of the two first converted images is evaluated.
  • the parallax estimation unit obtains corresponding points of the target point from the two second converted images respectively corresponding to the pair of cameras, calculates a second parallax related to the target point based on the corresponding points, and
  • the second matching degree between the corresponding points of the two second converted images is configured to be evaluated.
  • the parallax estimation unit compares the first degree of coincidence with the second degree of coincidence with respect to the same point of interest, and if the first degree of coincidence is higher than the second degree of coincidence, the first parallax as the parallax with respect to the point of interest When the first matching degree is lower than the second matching degree, the second parallax is adopted as the parallax regarding the point of interest.
  • the arithmetic processing unit further includes an area evaluation unit.
  • the region evaluation unit includes a first evaluation value relating to a change in luminance value for the first pixel of the first converted image, and a change in luminance value for the second pixel of the second converted image corresponding to the first pixel. And a second evaluation value for.
  • the region evaluation unit is configured to obtain a difference between the first evaluation value and the second evaluation value and compare it with a prescribed threshold value.
  • the region evaluation unit is configured to compare a change in luminance value of the first pixel and a change in luminance value of the second pixel if the difference exceeds the threshold value.
  • the region evaluation unit is configured to select a first condition for the first pixel and the second pixel if a change in luminance value of the first pixel is larger than a change in luminance value of the second pixel.
  • the region evaluation unit is configured to select a second condition for the first pixel and the second pixel if a change in luminance value of the first pixel is smaller than a change in luminance value of the second pixel.
  • the region evaluation unit is configured to select a third condition for the first pixel and the second pixel if the difference is equal to or less than the threshold value.
  • the parallax estimation unit is configured to obtain corresponding points using the first converted image for the first pixel and the second pixel when the first condition is selected for the first pixel and the second pixel. Is done.
  • the parallax estimation unit is configured to obtain corresponding points using the second converted image for the first pixel and the second pixel when the second condition is selected for the first pixel and the second pixel. Is done.
  • the parallax estimation unit responds to the first pixel and the second pixel using the first converted image and the second converted image. Configured to find points.
  • the first conversion unit is used for extracting corresponding points from the first converted image according to a predetermined first determination condition.
  • One extraction region is determined, pixel values are calculated for pixels included in the first extraction region, and pixel values are not calculated for pixels not included in the first extraction region.
  • the second conversion unit determines a second extraction region to be used for extracting corresponding points from the second conversion image according to a predetermined second determination condition, and sets pixel values for pixels included in the second extraction region. The pixel value is not calculated for pixels that are calculated and not included in the second extraction region.
  • a stereo camera device includes the plurality of stereo camera units in any one of the first to fourth aspects.
  • the plurality of stereo camera units are arranged such that the first axes intersect with each other and the second axes are parallel to each other.
  • the parallax estimation unit is configured to obtain parallax related to the point of interest for each of the plurality of stereo camera units.
  • the arithmetic processing unit includes a selection processing unit.
  • the selection processing unit is configured to obtain reliability for each parallax obtained by the parallax estimation unit, and to employ a parallax having the highest reliability among the parallaxes obtained by the parallax estimation unit.
  • one of the two cameras among the plurality of stereo camera sections is used as a camera of another stereo camera section.
  • the seventh embodiment of the computer-readable recording medium is a computer-readable recording medium in which a program used for a computer connected to the stereo camera unit is recorded.
  • the stereo camera unit includes a pair of cameras that capture an image of a predetermined space, and is configured to output captured images captured by the pair of cameras to the arithmetic processing unit.
  • the pair of cameras are arranged such that their optical axes are parallel to each other and their fields of view overlap each other.
  • the program is configured to function as a first conversion unit, a second conversion unit, and a parallax estimation unit.
  • the first conversion unit is configured to convert a captured image captured by the camera into a first converted image for each of the pair of cameras.
  • the first converted image is an image in which a pixel position is represented by a two-dimensional orthogonal coordinate defined by a first angle around a first axis and a second angle around a second axis.
  • the second conversion unit is configured to convert a captured image captured by the camera into a second converted image for each of the pair of cameras.
  • the second converted image is an image in which the pixel position is represented by two-dimensional orthogonal coordinates defined by the first angle and a third angle around the third axis.
  • the first axis is defined by a straight line connecting the optical centers of the pair of cameras.
  • the second axis is defined by the optical axis of the camera.
  • the third axis is an axis orthogonal to the first axis and the second axis.
  • the parallax estimation unit obtains a parallax related to a point of interest in the space based on the first converted image obtained by the first converting unit and the second converted image obtained by the second converting unit. Configured
  • FIG. 1 is a block diagram illustrating a stereo camera device according to a first embodiment. It is principle explanatory drawing same as the above. It is a figure which shows the relationship of the coordinate system used for the same as the above. It is a figure which shows the relationship of the coordinate system used for the same as the above. It is a figure which shows the relationship of the coordinate system used for the same as the above. It is a figure which shows the example of the captured image in the same as the above. It is a figure which shows the example of the 1st conversion image in the same as the above. It is a figure which shows the example of the 2nd conversion image in the same as the above. It is explanatory drawing of the block matching in the same as the above. It is explanatory drawing of the block matching in the same as the above.
  • FIG. 6 is a block diagram illustrating a stereo camera device according to a second embodiment. It is operation
  • FIG. 10 is an explanatory diagram illustrating a region in the stereo camera device according to the third embodiment. It is explanatory drawing which shows an area
  • FIG. 10 is a block diagram illustrating a stereo camera device according to a fourth embodiment.
  • FIG. 10 is a schematic configuration diagram illustrating a stereo camera device according to a fifth embodiment. It is a block diagram same as the above.
  • the stereo camera device of the present embodiment includes a stereo camera unit 13 having a pair of cameras (first camera and second camera) 1, 2, an arithmetic processing unit 10, and a storage device. 11 and 12.
  • the stereo camera device of the present embodiment will be described in detail.
  • the stereo camera device includes two cameras (first camera and second camera) 1 and 2 arranged so that the fields of view with respect to a three-dimensional real space substantially overlap. Is provided. Both cameras 1 and 2 are arranged with the optical axes parallel and the direction of the straight line (baseline direction) connecting the optical centers (photographing centers) and the optical axes perpendicular to each other.
  • the cameras 1 and 2 are arranged so that their optical axes are parallel to each other.
  • the cameras 1 and 2 are arranged so that a straight line (baseline) connecting the optical centers O1 and O2 of the cameras 1 and 2 is orthogonal to the optical axes of the cameras 1 and 2. Further, the cameras 1 and 2 are arranged so that their fields of view overlap each other.
  • Each camera 1 and 2 is provided with an optical system having a function corresponding to a fisheye lens or a fisheye lens having an angle of view close to 180 degrees.
  • the projection system of the optical system is not particularly limited, but will be described below using the equidistant projection method.
  • the two cameras 1 and 2 are arranged so that the baseline direction matches the horizontal direction on the light receiving surface (image surface). That is, parallel stereo is assumed.
  • the direction along the horizontal direction of the light receiving surface (that is, the baseline direction) is the x direction
  • the direction along the vertical direction of the light receiving surface is the y direction
  • the direction orthogonal to the light receiving surface Is the z direction.
  • the horizontal direction of the light receiving surface means the direction of the first axis of the two-dimensional orthogonal coordinate system that defines the light receiving surface, and does not mean the horizontal direction in real space.
  • the vertical direction of the light receiving surface means the direction of the second axis of the two-dimensional orthogonal coordinate system that defines the light receiving surface, and does not mean the vertical direction in real space.
  • the coordinate system is defined so that when the captured image of each camera is displayed on the monitor device, the rightward direction in the horizontal direction is a positive direction in the x direction and the downward direction in the vertical direction is a positive direction in the y direction.
  • the direction away from the light receiving surface of the camera is the positive direction. That is, the positive direction in the z direction is the front direction of the camera.
  • the positions of the pixels in the captured images captured by the cameras 1 and 2 are represented by, for example, a first coordinate system (image coordinate system) that is a two-dimensional orthogonal coordinate system with the upper left corner of the light receiving surface (imaging surface) as the origin.
  • the first coordinate system is set so that the horizontal direction of the image (captured image) is along the x direction, and the vertical direction of the image (captured image) is along the y direction. u, v).
  • the horizontal direction of the captured image means the direction of the first axis of the first coordinate system, and does not mean the horizontal direction in the real space.
  • the vertical direction of the captured image means the direction of the second axis of the first coordinate system, and does not mean the vertical direction in the real space.
  • the axes parallel to the above-described x, y, and z directions.
  • a third axis and a second axis are defined for each of the cameras 1 and 2
  • a second coordinate system camera coordinate system
  • the second coordinate system is defined for each of the cameras 1 and 2, and the z-direction axis (second axis) coincides with the optical axis.
  • the direction (viewing direction) in which the point (focused point) P1 is viewed from the origin (optical center) O1 and O2 of the second coordinate system defined for each camera 1 and 2 is a combination of angles around the three axes.
  • the angle around the axis in the x direction is ⁇
  • the angle around the axis in the y direction is ⁇
  • the angle around the axis in the z direction is Let ⁇ .
  • the axis in the x direction is an axis (first axis) defined by a straight line connecting the centers of the optical O1 and O2 of the pair of cameras 1 and 2.
  • the axis in the z direction is an axis defined by the optical axis of the camera 1 (second axis).
  • the axis in the z direction is an axis defined by the optical axis of the camera 2 (second axis).
  • the y-direction axis is an axis (third axis) orthogonal to the first axis (x-direction axis) and the second axis (z-direction axis).
  • Data of captured images captured by the cameras 1 and 2 are input to the arithmetic processing unit 10.
  • the arithmetic processing unit 10 includes a computer as a hardware resource, and executes a program for causing the computer to function as a device that performs processing described below.
  • the arithmetic processing unit 10 may be configured to include dedicated hardware.
  • a device having a function of executing a program such as a DSP (Digital Signal Processor) or an FPGA (Field-Programmable Gate Array) may be used.
  • the interface 3 is provided between the camera 1 and the arithmetic processing unit 10, and the interface 4 is provided between the camera 2 and the arithmetic processing unit 10.
  • Each interface 3, 4 converts the data of the captured image captured by the cameras 1, 2 into data for processing by the arithmetic processing unit 10.
  • the interfaces 3 and 4 have a function of converting an analog signal into a digital signal, for example.
  • a system program and an application program for operating the arithmetic processing unit 10 are stored in a storage device (first storage device) 11, and captured image data and arithmetic process data to be processed by the arithmetic processing unit 10 are stored in a data memory and It is stored in a storage device (second storage device) 12 that is a working memory.
  • the storage device 11 is a storage device that retains stored contents without power supply, such as a flash memory or a hard disk drive device.
  • the storage device 11 also includes a volatile memory as a main storage for storing system programs and application programs during execution of processing.
  • the storage device 12 is not particularly limited, but at least a volatile memory for use for work is used.
  • the arithmetic processing unit 10 since the three-dimensional information in the real space must be acquired based on the captured images captured by the two cameras 1 and 2, the arithmetic processing unit 10 includes the two cameras 1 and 2. A trigger signal is given to the interface 3 and the interface 4 so as to capture images at the same time, and a pair of captured images captured at the same time is stored in the storage device 12.
  • the position of the pixel on the light receiving surface of the cameras 1 and 2 is represented by the number of pixels in the horizontal direction and the vertical direction with the upper left corner as the origin.
  • the distance r between (uc, vc) and an arbitrary pixel (u, v) is expressed by the following equation (1).
  • the cameras 1 and 2 include a fisheye lens or an optical system having a function corresponding to a fisheye lens, one point in a three-dimensional real space is projected onto a spherical surface with a radius of 1 centered on the optical center of the cameras 1 and 2. Model can be used.
  • Point R indicates the position of the pixel obtained by projecting point Q onto image PL.
  • the position (X, Y, Z) of the point P1 is replaced with two of the three axes of the x axis, the y axis, and the z axis instead of the pixel position (u, v). It can be expressed as a combination of angles around an axis. As described above, the angle around the x-axis (angle in the yz plane) is ⁇ , the angle around the y-axis (angle in the yz plane) is ⁇ , and the angle around the z-axis (angle in the xy plane) Is ⁇ .
  • angles ⁇ and ⁇ are 0 degrees on the z-axis, and the angle ⁇ is 0 degrees on the y-axis and increase counterclockwise.
  • Two combinations of angles ( ⁇ , ⁇ ) and ( ⁇ , ⁇ ) are used as the angle combinations used in place of the pixel position (u, v).
  • the conversion formulas for the angles ⁇ , ⁇ , and ⁇ are expressed by the following formulas (6), (7), and (8), respectively, using the calculation results of the above formulas (3), (4), and (5).
  • the arithmetic processing unit 10 determines the position (u, v) of the pixel in the captured image captured by each of the two cameras 1 and 2 as a set of angles ( ⁇ , ⁇ ), ( A first conversion unit 101 and a second conversion unit 102 are provided to generate an image converted into ⁇ , ⁇ ).
  • the first converter 101 is an image whose position is represented by a set ( ⁇ , ⁇ ) of an angle (second angle) ⁇ around the z-axis (optical axis) and an angle (first angle) ⁇ around the x-axis. (Hereinafter referred to as “first converted image”).
  • the first conversion unit 101 is configured to convert a captured image captured by the camera into a first converted image for each of the pair of cameras 1 and 2. That is, the first conversion unit 101 converts a captured image captured by the first camera 1 into a first converted image, and converts a captured image captured by the second camera 2 into a first converted image. In the present embodiment, the first conversion unit 101 generates two first converted images.
  • the second conversion unit 102 is an image whose position is represented by a set ( ⁇ , ⁇ ) of an angle (third angle) ⁇ around the y-axis and an angle (first angle) ⁇ around the x-axis (hereinafter referred to as “below”). , “Second converted image”).
  • the second conversion unit 102 is configured to convert a captured image captured by the camera into a second converted image for each of the pair of cameras 1 and 2. That is, the second conversion unit 102 converts the captured image captured by the first camera 1 into a second converted image, and converts the captured image captured by the second camera 2 into a second converted image. In the present embodiment, the second conversion unit 102 generates two second converted images.
  • the angle ⁇ may be acquired from the unit 101.
  • the pixel value of the first conversion image and the pixel value of the second conversion image are determined on the light receiving surfaces of the cameras 1 and 2 by the position (coordinates) ( ⁇ , ⁇ ) obtained by the first conversion unit 101 and the second conversion unit 102.
  • the pixel value of the pixel located at the position corresponding to the position (coordinates) ( ⁇ , ⁇ ) obtained in step S is used.
  • the first conversion unit 101 obtains the pixel position (coordinates) (u, v) of the captured image from the pixel position (coordinates) ( ⁇ , ⁇ ) of the first converted image, and the position (u, v).
  • a first converted image in which the pixel value of the pixel of the captured image located at is associated with the position ( ⁇ , ⁇ ) is generated.
  • the second conversion unit 102 obtains the pixel position (coordinates) (u, v) of the captured image from the pixel position (coordinates) ( ⁇ , ⁇ ) of the second converted image, and the position (u, v).
  • a second converted image is generated in which the pixel value of the pixel of the imaging clergy located at is associated with the position ( ⁇ , ⁇ ).
  • FIG. 5 shows a captured image when the entire room is imaged by arranging the cameras 1 and 2 in the center of the ceiling surface in the room.
  • the first converted image is more distorted than the other regions with respect to the walls and pillars along the vertical direction at both ends in the vertical direction ( ⁇ direction) as shown in FIG. Less.
  • the second converted image is less distorted than the other regions on the floor surface along the horizontal plane, the upper surface of the desk, and the like at the center.
  • an interpolation operation is required to obtain the pixel values of the first converted image and the second converted image.
  • a general algorithm such as bilinear interpolation or nearest neighbor method is used.
  • the pixel value at the position (u, v) is a luminance value
  • the pixel values of the first converted image and the second converted image are also luminance values.
  • the first conversion image output from the first conversion unit 101 and the second conversion image output from the second conversion unit 102 are stored in the storage device 12.
  • the arithmetic processing unit 10 includes a parallax estimation unit 103 that estimates the parallax of the cameras 1 and 2 using the first converted image and the second converted image stored in the storage device 12.
  • the parallax estimation unit 103 estimates the parallax (first parallax) from the first converted image obtained from the captured images captured by the cameras 1 and 2, and estimates the parallax (second parallax) from the second converted image. . Furthermore, the parallax obtained by the two types of methods is combined to finally determine the parallax and used for calculation of the three-dimensional information in the real space.
  • the parallax estimation unit 103 estimates the parallax for each pixel from the two first converted images obtained by the two cameras 1 and 2, and one image having the estimated parallax value as a pixel value (hereinafter, “ A first parallax image ”). Further, the parallax estimation unit 103 estimates the degree of coincidence for each pixel, and generates one image (hereinafter, referred to as “first coincidence degree image”) having the estimated degree of coincidence as a pixel value.
  • the parallax estimation unit 103 estimates the parallax and the degree of matching for each pixel from the two second converted images, and one image having the estimated parallax value as a pixel value (hereinafter referred to as “second parallax image”). )) And one image having the estimated matching degree as a pixel value (hereinafter referred to as a “second matching degree image”).
  • the parallax estimation unit 103 uses the first parallax image and the second parallax image to determine the parallax.
  • the vertical axis of the image corresponds to an angle (first angle) ⁇ around the x axis
  • the horizontal axis of the image is an angle (second angle) ⁇ around the z axis (optical axis).
  • the parallax estimation unit 103 can narrow the search range in estimating the corresponding points by using the first converted image.
  • the parallax estimation unit 103 employs a block matching technique in order to evaluate whether or not it is a corresponding point. That is, as shown in FIG. 8 (a), a plurality of pixels are included around a portion where the corresponding point is to be evaluated in one of the first converted images (for example, the first converted image corresponding to the first camera 1). A window W1 is formed.
  • the window W1 is preferably set as a rectangular area around the pixel for which the corresponding point is to be evaluated.
  • a scanning region W2 having a size corresponding to the window W1 is formed in the other first converted image (for example, the first converted image corresponding to the second camera 2).
  • the scanning region W2 is scanned along the horizontal axis (axis of angle ⁇ ).
  • the corresponding point is searched by changing only the angle ⁇ .
  • the SAD value Vs changes as shown in FIG.
  • the SAD value Vs is minimal at a position where the degree of coincidence between the pixel value of the pixel included in the scanning region W2 and the pixel value of the pixel included in the window W1 is high.
  • the parallax estimation unit 103 determines the corresponding point when the SAD value Vs is equal to or less than the specified threshold value and is the minimum value in the search range. If the SAD value Vs is the minimum value but not below the threshold value, the corresponding point is treated as indefinite.
  • the SAD value Vs is equal to or less than a specified threshold value, and is within the search range. Is the minimum value.
  • the pixel ( ⁇ R1, ⁇ R1) of the first converted image corresponding to the second camera 2 is determined as the corresponding point of the pixel ( ⁇ L1, ⁇ L1) of the first converted image corresponding to the first camera 1. .
  • the pixel ( ⁇ L1, ⁇ L1) of the first converted image corresponding to the first camera 1 is determined as the corresponding point of the pixel ( ⁇ R1, ⁇ R1) of the first converted image corresponding to the second camera 2. Is done.
  • the parallax estimation unit 103 selects an arbitrary pixel of the first converted image corresponding to the first camera 1 as the corresponding point of the point of interest P1.
  • the parallax estimation unit 103 searches the corresponding point of the point of interest P1 corresponding to the selected pixel from the first converted image corresponding to the second camera 2.
  • the parallax estimation unit 103 determines the corresponding point of the point of interest P1 for each of the two first converted images.
  • the parallax estimating unit 103 uses the coordinate positions of the corresponding points in the two first converted images, thereby using the two cameras 1 for the point (point of interest) P1, 2 parallaxes (first parallax) are obtained.
  • the parallax estimation unit 103 When the parallax is obtained, the parallax estimation unit 103 generates a first parallax image having the parallax as a pixel value.
  • the parallax estimation unit 103 obtains a matching degree Ds expressed by the following equation (10) for each corresponding point obtained using the first converted image. That is, the parallax estimation unit 103 obtains a matching degree Ds between corresponding points of the two first converted images.
  • the degree of coincidence Ds is obtained for all pixels for which corresponding points are obtained in the first converted image, and a first coincidence degree image having the degree of coincidence Ds as a pixel value is generated.
  • the parallax estimation unit 103 obtains corresponding points from the second converted image using the SAD value Vs as well as the first converted image. Also for the second converted image, a parallax is obtained for each corresponding point to generate a second parallax image, a degree of matching Ds is obtained for each corresponding point, and a second degree of matching image having the degree of matching Ds as a pixel value is generated. .
  • the parallax estimation unit 103 determines the corresponding point of the point of interest for each of the two second converted images.
  • the parallax estimating unit 103 uses the coordinate position of the corresponding point in the two second converted images, thereby using two cameras 1 for the point (point of interest) P1, 2 parallaxes (second parallax) are obtained.
  • the parallax estimation unit 103 generates a first parallax image having the parallax as a pixel value.
  • the parallax estimation unit 103 obtains a matching degree Ds expressed by the above equation (10) for each corresponding point obtained using the second converted image. That is, the parallax estimation unit 103 obtains a matching degree Ds between corresponding points of two second converted images.
  • the first parallax image, the first coincidence degree image, the second parallax image, and the second coincidence degree image are stored in the storage device 12.
  • the parallax estimation unit 103 determines the parallax using the first parallax image and the second parallax image. To determine the parallax, first, the parallax estimation unit 103 extracts pixels of the second parallax image corresponding to each pixel of the first parallax image, and whether both pixels have pixel values (parallax) or not. Determine whether.
  • the parallax estimation unit 103 extracts the pixels of the second parallax image corresponding to the pixels of the first parallax image using the following relationship.
  • the pixel position in the first parallax image is ( ⁇ 1, ⁇ 1)
  • the corresponding pixel position ( ⁇ 2, ⁇ 2) is set in the second parallax image.
  • ⁇ 2 and ⁇ 2 are expressed by the following equations (11) and (12), respectively.
  • the parallax estimation unit 103 uses the first matching degree image and the second matching degree image for both pixel values. Thus, the reliability of the pixel value is evaluated.
  • the parallax estimation unit 103 uses the pixel value (matching degree) of the position ( ⁇ 1, ⁇ 1) on the first matching degree image and the pixel value (matching degree) of the position ( ⁇ 2, ⁇ 2) on the second matching degree image. ) And the degree of coincidence.
  • the parallax estimation unit 103 adopts the pixel value at the position ( ⁇ 1, ⁇ 1) in the first parallax image as the parallax,
  • the pixel value at the position ( ⁇ 2, ⁇ 2) in the two-parallax image is updated as an indefinite value.
  • the parallax estimation unit 103 uses the pixel value at the position ( ⁇ 2, ⁇ 2) in the second parallax image as the parallax.
  • the pixel value at the position ( ⁇ 1, ⁇ 1) in the first parallax image is updated as an indefinite value.
  • the parallax estimation unit 103 employs an average value or one of the pixel values of the position ( ⁇ 1, ⁇ 1) of the first parallax image and the position ( ⁇ 2, ⁇ 2) of the second parallax image as the parallax. .
  • the parallax estimation unit 103 when only one of the position ( ⁇ 1, ⁇ 1) of the first parallax image and the position ( ⁇ 2, ⁇ 2) of the second parallax image has a pixel value (parallax), The pixel value is adopted as the parallax.
  • the parallax estimation unit 103 determines that the parallax at the position is indefinite when there is no pixel value (parallax) in the corresponding pixels of the first parallax image and the second parallax image.
  • the pixel value (parallax) having the higher reliability is extracted for each pixel in the first parallax image and the second parallax image. If the three-dimensional position in the real space is obtained using, highly reliable three-dimensional information is obtained.
  • the outline of the operation of the stereo camera device of the present embodiment is summarized as shown in FIG. That is, from two captured images captured by the left and right cameras 1 and 2, two first converted images (images represented by ⁇ and ⁇ ) and two second converted images ( ⁇ and ⁇ and Are generated). Next, a parallax image (first parallax image) is obtained from the two first converted images, and a parallax image (second parallax image) is obtained from the two second converted images. By integrating the two parallax images obtained in this manner, one parallax image can be obtained.
  • the stereo camera device of the present embodiment described above has a plurality of cameras 1 and 2 that are arranged with the optical axes in parallel and at least a part of the field of view overlaps, and a plurality of captured images captured by the cameras 1 and 2, respectively.
  • an arithmetic processing unit 10 for obtaining the parallax with respect to the part (point of interest) P1 is provided.
  • a first coordinate system and a second coordinate system are used.
  • the first coordinate system is a coordinate system in which pixel positions in a captured image are represented by two-dimensional orthogonal coordinates defined on the light receiving surface for each of the cameras 1 and 2.
  • the second coordinate system is a direction in which a part (point of interest) P1 is viewed from the origin (optical center) O1 (O2) according to respective angles around the three axes of the first direction, the second direction, and the third direction (that is, the point of interest).
  • the viewing direction of the cameras 1 and 2 is a coordinate system defined for each camera 1 (2).
  • the first direction is a direction connecting optical centers O1 and O2 of two cameras 1 and 2 selected from a plurality of cameras 1 and 2.
  • the second direction is the direction of the optical axis for each camera 1 (2).
  • the third direction is a direction orthogonal to the first direction and the second direction.
  • the arithmetic processing unit 10 includes a first conversion unit 101, a second conversion unit 102, and a parallax estimation unit 103.
  • the first converter 101 converts the captured image into a first converted image represented by an angle ⁇ around the axis in the first direction as a vertical position and an angle ⁇ around the second direction as a horizontal position.
  • the second conversion unit 102 converts the captured image into a second converted image represented by an angle ⁇ around the axis in the first direction as a vertical position and an angle ⁇ around the third direction as a horizontal position. Configured as follows.
  • the parallax estimation unit 103 is configured to obtain the parallax for the part (point of interest) P1 by associating the part (point of interest) in the field of view of the two cameras 1 and 2 using the first converted image and the second converted image. Is done.
  • the stereo camera device of the present embodiment includes the stereo camera unit 13 and the arithmetic processing unit 10.
  • the stereo camera unit 13 includes a pair of cameras 1 and 2 that capture a predetermined space, and is configured to output captured images captured by the pair of cameras 1 and 2 to the arithmetic processing unit 10.
  • the arithmetic processing unit 10 includes a first conversion unit 101, a second conversion unit 102, and a parallax estimation unit 103.
  • the first conversion unit 101 is configured to convert a captured image captured by the camera 1 (2) into a first converted image for each of the pair of cameras 1 and 2.
  • the first converted image is an image in which the position of the pixel is represented by two-dimensional orthogonal coordinates defined by a first angle ⁇ around the first axis and a second angle ⁇ around the second axis.
  • the 2nd conversion part 102 is comprised so that the captured image imaged with the camera 1 (2) may be converted into a 2nd conversion image regarding each of a pair of cameras 1 and 2.
  • the second converted image is an image in which the position of the pixel is represented by two-dimensional orthogonal coordinates defined by a first angle ⁇ around the first axis and a third angle ⁇ around the third axis.
  • the first axis is defined by a straight line connecting the optical centers O1 and O2 of the pair of cameras 1 and 2.
  • the second axis is defined by the optical axis of the camera 1 (2).
  • the third axis is an axis orthogonal to the first axis and the second axis.
  • the parallax estimation unit 103 obtains the parallax regarding the point of interest P ⁇ b> 1 in the space based on the first conversion image obtained by the first conversion unit 101 and the second conversion image obtained by the second conversion unit 102. Composed.
  • a transformed image obtained by performing coordinate transformation on an image captured using the cameras 1 and 2 so that a straight line parallel to the optical axis is not distorted. Since the converted image and the second converted image are used, it is possible to easily associate the images captured by the two cameras 1 and 2.
  • the parallax estimation unit 103 extracts the corresponding points in the two first converted images respectively generated from the captured images captured by the two cameras 1 and 2.
  • the parallax for the part P1 is obtained, the degree of coincidence of the corresponding points is evaluated, and the corresponding points in the two second converted images respectively generated using the captured images taken for the cameras 1 and 2 are extracted. While obtaining the parallax for P1, the degree of coincidence of the corresponding points is evaluated, and among the parallax obtained for each pixel of the first converted image and the second converted image, the pixel having the same part P1 has the higher degree of coincidence Is used as the parallax of the part P1.
  • the parallax estimation unit 103 obtains corresponding points of the target point P1 from the two first converted images respectively corresponding to the pair of cameras 1 and 2, and based on the corresponding points, the parallax (first parallax regarding the target point P1) (Parallax) is calculated, and the degree of coincidence (first degree of coincidence) Ds between corresponding points of the two first converted images is evaluated.
  • the parallax estimation unit 103 obtains corresponding points of the point of interest P1 from the two second converted images respectively corresponding to the pair of cameras 1 and 2, and calculates the parallax (second parallax) related to the point of interest P1 based on the corresponding points.
  • the degree of coincidence (second degree of coincidence) Ds between corresponding points of the two second converted images is configured to be evaluated.
  • the parallax estimation unit 103 compares the first coincidence degree Ds with the second coincidence degree Ds with respect to the same point of interest P1, and if the first coincidence degree Ds is higher than the second coincidence degree Ds, the parallax regarding the point of interest P1 is the first parallax. If the first matching degree Ds is lower than the second matching degree Ds, the second parallax is adopted as the parallax regarding the point of interest.
  • the block matching technique is adopted, but the technique for obtaining the pixel values of the first parallax image and the second parallax image is not limited to the block matching technique and is used in stereo matching. Other techniques may be employed.
  • the stereo camera device of the present embodiment may further include a distance measuring unit (not shown).
  • the distance measuring unit is configured to obtain the distance to the point of interest P1 using the parallax obtained by the parallax estimating unit 103.
  • the distance measuring unit may be configured to create a distance image by obtaining distances to a plurality of points of interest P1.
  • the horizontal position of the first converted image is represented by the angle (second angle) ⁇ around the optical axis of each of the cameras 1 and 2.
  • a straight line parallel to the axis can be associated without distortion. Therefore, by using the first converted image, stereo matching with respect to a plane parallel to the optical axis can be easily performed.
  • the parallax can be performed with higher accuracy than before. Can be estimated.
  • a program for operating the above computer is based on a plurality of cameras 1 and 2 that are arranged with the optical axes in parallel and at least a part of the field of view overlaps, and a plurality of captured images captured by the cameras 1 and 2 respectively.
  • a first coordinate system and a second coordinate system are used.
  • the first coordinate system is a coordinate system in which pixel positions in a captured image are represented by two-dimensional orthogonal coordinates defined on the light receiving surface for each of the cameras 1 and 2.
  • the second coordinate system is a direction in which a part (point of interest) P1 is viewed from the origin (optical center) O1 (O2) according to respective angles around the three axes of the first direction, the second direction, and the third direction (that is, the point of interest).
  • the viewing direction of the cameras 1 and 2 is a coordinate system defined for each camera 1 (2).
  • the first direction is a direction connecting optical centers O1 and O2 of two cameras 1 and 2 selected from a plurality of cameras 1 and 2.
  • the second direction is the direction of the optical axis for each camera 1 (2).
  • the third direction is a direction orthogonal to the first direction and the second direction.
  • This program causes a computer to function as an arithmetic processing unit 10 including a first conversion unit 101, a second conversion unit 102, and a parallax estimation unit 103.
  • the first converter 101 converts the captured image into a first converted image represented by an angle ⁇ around the axis in the first direction as a vertical position and an angle ⁇ around the second direction as a horizontal position.
  • the second conversion unit 102 converts the captured image into a second converted image represented by an angle ⁇ around the axis in the first direction as a vertical position and an angle ⁇ around the third direction as a horizontal position. Configured as follows.
  • the parallax estimation unit 103 is configured to obtain the parallax for the part (point of interest) P1 by associating the part (point of interest) in the field of view of the two cameras 1 and 2 using the first converted image and the second converted image. Is done.
  • This program may be recorded on a computer-readable recording medium.
  • This computer-readable recording medium is a computer-readable recording medium in which a program used in a computer connected to the stereo camera unit is recorded.
  • the stereo camera unit 13 includes a pair of cameras 1 and 2 that capture a predetermined space, and is configured to output captured images captured by the pair of cameras 1 and 2 to the arithmetic processing unit 10.
  • the pair of cameras 1 and 2 are arranged such that their optical axes are parallel to each other and their fields of view overlap each other.
  • the program is configured to cause the computer to function as the first conversion unit 101, the second conversion unit 102, and the parallax estimation unit 103.
  • the first conversion unit 101 is configured to convert a captured image captured by the camera 1 (2) into a first converted image for each of the pair of cameras 1 and 2.
  • the first converted image is an image in which the position of the pixel is represented by two-dimensional orthogonal coordinates defined by a first angle ⁇ around the first axis and a second angle ⁇ around the second axis.
  • the 2nd conversion part 102 is comprised so that the captured image imaged with the camera 1 (2) may be converted into a 2nd conversion image regarding each of a pair of cameras 1 and 2.
  • the second converted image is an image in which the position of the pixel is represented by two-dimensional orthogonal coordinates defined by a first angle ⁇ around the first axis and a third angle ⁇ around the third axis.
  • the first axis is defined by a straight line connecting the optical centers O1 and O2 of the pair of cameras 1 and 2.
  • the second axis is defined by the optical axis of the camera 1 (2).
  • the third axis is an axis orthogonal to the first axis and the second axis.
  • the parallax estimation unit 103 obtains the parallax regarding the point of interest P ⁇ b> 1 in the space based on the first conversion image obtained by the first conversion unit 101 and the second conversion image obtained by the second conversion unit 102. Composed.
  • the parallax estimation unit 103 searches for corresponding points by using a block matching technique.
  • the corresponding points are searched for the first converted image and the second converted image, respectively.
  • converted images when the first converted image and the second converted image are not distinguished, they are simply referred to as converted images.
  • a window W1 is set for one converted image to be searched for corresponding points, and a scanning region W2 is set for the other converted image. Further, in the other converted image, the scanning area W2 is scanned along the horizontal axis, and the position of the scanning area W2 when the SAD value Vs defined by the above-described equation (9) becomes minimum is obtained as the corresponding point. It is done.
  • the first converted image has little distortion in the direction parallel to the optical axis of the camera at both ends in the vertical direction
  • the second converted image has a plane orthogonal to the optical axis of the camera at the center. The knowledge that there is little distortion is obtained.
  • the search for corresponding points is easier with less distortion and more reliable. Therefore, it can be said that there are cases where the pixel of the first converted image is suitable and the pixel of the second converted image is suitable for each pixel for which the corresponding point is searched.
  • the arithmetic processing unit 10 in order to evaluate which one of the first converted image and the second converted image is suitable for obtaining the corresponding point before searching for the corresponding point in the parallax estimation unit 103, as shown in FIG.
  • a region evaluation unit 104 is added. That is, in the present embodiment, the arithmetic processing unit 10 further includes an area evaluation unit 104.
  • the region evaluation unit 104 evaluates whether or not the change in the luminance value in the horizontal direction is a relatively large region for the first converted image and the second converted image.
  • the parallax estimation unit 103 uses at least one of the first converted image and the second converted image for searching for corresponding points using the evaluation result of the region evaluation unit 104.
  • the region evaluation unit 104 performs evaluation and narrows down the target for which the corresponding points are obtained, so that useless processing is reduced, the amount of calculation is reduced, and the reliability of stereo matching is reduced. Increases nature.
  • the region evaluation unit 104 evaluates the change in luminance value in the horizontal direction in the converted images (first converted image and second converted image) obtained from the same captured image, and the edge strength defined by the following equation (13) E1 is used as the evaluation value of the pixel ( ⁇ , ⁇ ) of the first converted image. Further, the edge strength E2 defined by the following equation (14) is used as the evaluation value of the pixel ( ⁇ , ⁇ ) of the second converted image. The edge strength E1 is obtained from the first converted image, and the edge strength E2 is obtained from the second converted image.
  • I1 ( ⁇ , ⁇ ) is a luminance value (pixel value) at the position ( ⁇ , ⁇ ) of the first converted image
  • I2 is a luminance value (pixel value) at the position ( ⁇ , ⁇ ) of the second converted image.
  • the area evaluation unit 104 includes the first evaluation value (edge intensity) E1 regarding the change in the luminance value for the pixel (first pixel) ( ⁇ , ⁇ ) of the first converted image, and the first pixel ( ⁇ , ⁇ ).
  • a second evaluation value (edge strength) E2 relating to a change in luminance value for the pixel (second pixel) ( ⁇ , ⁇ ) of the second converted image corresponding to.
  • the region evaluation unit 104 performs the following evaluation on all the pixels of the first converted image or the second converted image, so that the parallax estimation unit 103 performs the first converted image, the second converted image, and Which of these is used to search for corresponding points is determined for each pixel.
  • the region evaluation unit 104 obtains the edge strength E1 by paying attention to the pixel ( ⁇ , ⁇ ) of the first converted image, and the pixel of the second converted image corresponding to the pixel ( ⁇ , ⁇ ).
  • the edge strength E2 is obtained by paying attention to ( ⁇ , ⁇ ).
  • the pixel of the 2nd conversion image corresponding to the pixel of a 1st conversion image means the pixel of the 2nd conversion image derived from the pixel of the same captured image as the pixel of a 1st conversion image.
  • the pixel ( ⁇ 1, ⁇ 1) of the first converted image and the pixel ( ⁇ 2, ⁇ 2) of the second converted image are derived from the pixel (u0, v0) of the same captured image
  • the pixel ( ⁇ 1, ⁇ 1) and the pixel ( ⁇ 2, ⁇ 2) of the second converted image are pixels corresponding to each other. That is, the edge intensities E1 and E2 are obtained from the luminance values of the pixels arranged in the front and rear in the horizontal direction with respect to the pixel of interest in the first converted image and the second converted image.
  • the absolute value of the difference between the edge intensity E1 obtained from the first converted image and the edge intensity E2 obtained from the second converted image is compared with a prescribed threshold value T1 (S11). That is, the region evaluation unit 104 obtains a difference
  • the reliability is considered to be the same regardless of whether the parallax is obtained from either the first converted image or the second converted image.
  • the region evaluation unit 104 selects the third condition for the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ) if the difference
  • the parallax estimation unit 103 relates to the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ). Corresponding points are obtained using the first converted image and the second converted image.
  • the region evaluation unit 104 changes the luminance value of the first pixel ( ⁇ , ⁇ ) (edge intensity E1 in the present embodiment) and the second pixel ( A change in luminance value ( ⁇ , ⁇ ) (edge strength E2 in this embodiment) is compared.
  • the pixel of interest uses the first converted image.
  • the conditions are determined so that the corresponding points are searched (S14). That is, the region evaluation unit 104 determines that the first pixel ( ⁇ , ⁇ ) has a change in luminance value (edge intensity E1) greater than the change in luminance value (edge intensity E2) of the second pixel ( ⁇ , ⁇ ).
  • the first condition is selected for the pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ).
  • the parallax estimation unit 103 When the first condition is selected for the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ), the parallax estimation unit 103 relates to the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ). Corresponding points are obtained using the first converted image.
  • edge strength E1 is smaller than the edge strength E2 (S13: no)
  • a condition is set so that a corresponding point is searched for the pixel of interest using the second converted image (S15). That is, the region evaluation unit 104 determines that the first pixel ( ⁇ , ⁇ ) changes in luminance value (edge intensity E1) is smaller than the luminance value change (edge intensity E2) of the second pixel ( ⁇ , ⁇ ).
  • the second condition is selected for the pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ).
  • the parallax estimation unit 103 relates to the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ). Corresponding points are obtained using the second converted image.
  • the above-described processing is performed for all the pixels of the first converted image (S16). Further, the evaluation result in the region evaluation unit 104 is delivered to the parallax estimation unit 103 via the storage device 12 provided in the arithmetic processing unit 10.
  • the first converted image 21 is divided into the area 211 using only the first converted image 21 as shown in FIG.
  • the region 212 is divided into a region 212 that uses both of the second converted images 22 and a region 213 that is not used for searching for corresponding points.
  • the second converted image 22 corresponds to a region 221 that uses only the second converted image 22 and a region 222 that uses both the first converted image 21 and the second converted image 22.
  • the region 223 is not used for the point search.
  • the stereo camera device of the present embodiment described above includes an area evaluation unit 104.
  • the region evaluation unit 104 obtains an evaluation value related to a change in the surrounding luminance value for each pixel of interest for both the first converted image and the second converted image, and if the difference between the evaluation values exceeds a prescribed threshold value T1, The one having the larger change in luminance value between the first converted image and the second converted image is used for extracting the corresponding point of the pixel, and when the difference between the evaluation values is less than the threshold value T1, the first converted image and the second converted image Both are used for extracting the corresponding points of the pixel.
  • the parallax estimation unit 103 is configured to extract corresponding points for each pixel in accordance with the conditions determined by the region evaluation unit 104.
  • the arithmetic processing unit 10 further includes a region evaluation unit 104.
  • the region evaluation unit 104 corresponds to the first evaluation value (edge intensity) E1 regarding the change in the luminance value for the pixel (first pixel) ( ⁇ , ⁇ ) of the first converted image and the first pixel ( ⁇ , ⁇ ).
  • the second evaluation value (edge strength) E2 relating to the change in the luminance value for the pixel (second pixel) ( ⁇ , ⁇ ) of the second converted image is calculated.
  • the region evaluation unit 104 is configured to obtain a difference
  • the region evaluation unit 104 changes the luminance value of the first pixel ( ⁇ , ⁇ ) (edge intensity E1 in this embodiment) and the second pixel ( ⁇ , The brightness value change of ⁇ ) is compared with the edge intensity E2 in this embodiment.
  • the area evaluation unit 104 determines that the first pixel ( ⁇ , ⁇ ) changes in luminance value (edge intensity E1) greater than the luminance value change (edge intensity E2) of the second pixel ( ⁇ , ⁇ ).
  • a first condition is selected for ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ).
  • the region evaluation unit 104 A second condition is selected for ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ).
  • the region evaluation unit 104 is configured to select the third condition for the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ) if the difference
  • the parallax estimation unit 103 When the first condition is selected for the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ), the parallax estimation unit 103 relates to the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ). A corresponding point is obtained using the first converted image.
  • the parallax estimation unit 103 relates to the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ). It is comprised so that a corresponding point may be calculated
  • the parallax estimation unit 103 relates to the first pixel ( ⁇ , ⁇ ) and the second pixel ( ⁇ , ⁇ ). A corresponding point is obtained using the first converted image and the second converted image.
  • the region evaluation unit 104 uses the first converted image or the second converted image to determine the corresponding points.
  • the conditions are defined. Therefore, the area for which the parallax is calculated is narrowed down in the first converted image and the second converted image. That is, the amount of calculation is reduced as compared with the case where the corresponding points are obtained for all the regions of the first converted image and the second converted image.
  • the region evaluation unit 104 extracts pixels for searching for corresponding points from the first converted image and the second converted image so as to increase the reliability of the required parallax for each pixel as much as possible, Increased reliability.
  • the edge strengths E1 and E2 are obtained from pixels adjacent in the horizontal direction with respect to the pixel of interest.
  • the edge strength is obtained in the image processing technique or the gradient direction of the luminance value. Other techniques that are used to obtain the value may be employed. Other configurations and operations are the same as those in the first embodiment, and thus description thereof is omitted.
  • the first conversion unit 101 and the second conversion unit 102 convert captured images for all pixels captured by the cameras 1 and 2, so that the amount of calculation is relatively large. Yes.
  • a technique for reducing the amount of calculation by restricting in advance a region for converting a captured image in the first conversion unit 101 and the second conversion unit 102 will be described.
  • the first conversion unit 101 and the second conversion unit 102 each have a function of converting coordinates and a function of associating luminance values with the converted coordinates. Since the conversion of coordinates is performed using the above equations (1) to (8), some can be performed by a relatively simple process using a look-up table, but the luminance values are associated with the converted coordinates. Since processing involves inverse transformation, the amount of calculation increases.
  • the first conversion unit 101 determines a first extraction region (region 214) used for extracting corresponding points from the first converted image according to a predetermined first determination condition, and the first extraction region (region 214).
  • the pixel value is calculated for the pixels included in the pixel, and the pixel value is not calculated for the pixels not included in the first extraction region (region 214).
  • the process of associating the luminance value with each pixel of the first converted image is more than the process of converting the position (u, v) of the captured image into the position ( ⁇ , ⁇ ) of each pixel of the first converted image.
  • the calculation amount increases.
  • the calculation amount can be reduced by limiting the range in which the luminance value is associated.
  • the second conversion unit 102 determines a second extraction region (region 224) used for extracting corresponding points from the second converted image according to a predetermined second determination condition, and the second extraction region (region 224).
  • the pixel value is calculated for the pixels included in the pixel, and the pixel value is not calculated for the pixels not included in the second extraction region (region 224).
  • the calculation amount is reduced by limiting the range in which the luminance value is associated with the second converted image 22 as well.
  • the first converted image 21 and the second converted image 22 are the same as those in the first embodiment except that the first converted image 21 and the second converted image 22 are part of the region.
  • a process of obtaining a parallax image, a first coincidence degree image, a second parallax image, and a second coincidence degree image and determining the parallax is performed.
  • the first conversion unit 101 and the second conversion unit 102 perform the first conversion image and the second conversion image on the first conversion image and the second conversion image. At least the first region of the first region for extracting the corresponding points using one of the second region and the second region for extracting the corresponding points using both the first converted image and the second converted image. It has a function that is determined according to predetermined conditions.
  • the first conversion unit 101 uses the first extraction region (region 214) used for extracting corresponding points from the first converted image according to a predetermined first determination condition.
  • the pixel value is determined for the pixel included in the first extraction region (region 214), and the pixel value is not calculated for the pixel not included in the first extraction region (region 214).
  • the second conversion unit 102 determines a second extraction region (region 224) used for extracting corresponding points from the second converted image according to a predetermined second determination condition, and is included in the second extraction region (region 224).
  • the pixel value is calculated for the pixel to be detected, and the pixel value is not calculated for the pixel not included in the second extraction region (region 224).
  • the threshold values h1 and h2 shown in the present embodiment are examples, and the threshold values h1 and h2 can be set as appropriate. In particular, when it is not necessary to obtain the parallax of the entire captured image, the area associated with the luminance value in the first converted image and the second converted image may be further narrowed. Further, the threshold values h1 and h2 may be set so that areas where brightness values are associated with each other in the first converted image and the second converted image do not overlap. Other configurations and operations are the same as those of the first embodiment.
  • the configuration of the present embodiment is based on the following knowledge. That is, in the first converted image 21, since the plane parallel to the optical axis is reflected without distortion in the region 214 where the angle ⁇ is large, stereo matching is facilitated. That is, in the region 214, the probability that the pixel value (parallax) of the second parallax image obtained from the second converted image 22 is adopted is low, and the pixel value of the first parallax image obtained from the first converted image 21 is adopted. There is a high probability. Therefore, it is preferable to use the first converted image 21 in the region 214 where the angle ⁇ is large, rather than the second converted image. If the second converted image 22 is not used in the region 214, the amount of calculation can be reduced. .
  • the plane intersecting the optical axis is reflected without distortion in the region where the angle ⁇ is small, and the distortion of the plane parallel to the optical axis is also small. Therefore, in the region where the angle ⁇ is small, the probability that the pixel value of the second parallax image obtained from the second converted image 22 is adopted rather than the pixel value (parallax) of the first parallax image obtained from the first converted image 21. Becomes higher. Therefore, if the first converted image 21 is not used in the area other than the area 214, the amount of calculation can be reduced.
  • the calculation amount is reduced by adopting a technique in which luminance values are associated with only a part of regions in the first converted image and the second converted image.
  • the threshold value h1 used for the first converted image is different from the threshold value h2 used for the second converted image, but in the present embodiment, the first converted image and the second converted image are different. The difference is that the same threshold value h3 is used.
  • a luminance value is associated with a region that satisfies the condition that the angle ⁇ is greater than or equal to the threshold h3 for the first converted image, and the angle ⁇ is less than or equal to the threshold h3 for the second converted image.
  • a luminance value is associated with a region satisfying the condition that
  • the threshold value h3 is not particularly limited, but is preferably set to 45 degrees, for example, in order to prevent a decrease in the reliability of matching degree evaluation in stereo matching.
  • the operations of the first conversion unit 101 and the second conversion unit 102 of the present embodiment are the same as those of the second embodiment except that the threshold value h3 is different.
  • the present embodiment is similar to FIG.
  • An image composition unit 105 that synthesizes the first converted image generated by the first conversion unit 101 and the second converted image generated by the second conversion unit 102 is added. That is, in the present embodiment, the arithmetic processing unit 10 further includes an image composition unit 105.
  • the parallax estimation unit 103 generates one type of parallax image instead of the two types of parallax images of the first parallax image and the second parallax image, and the first matching degree image and the second matching degree image
  • One type of coincidence image is generated instead of two types of coincidence images.
  • the parallax estimation unit 103 obtains the parallax by the association process only once using the two types of images (converted images) after synthesis.
  • the reliability of the matching evaluation in stereo matching may be reduced when the images are discontinuous at the boundary. That is, when the image is discontinuous at the boundary, in stereo matching using the block matching technique, objects having different distances are included in the window W1 including the boundary and the scanning region W2, and as a result, the degree of coincidence is evaluated. This will reduce the reliability.
  • This problem is reduced if the number of pixels in the window W1 and the scanning region W2 is reduced. However, if the number of pixels in the window W1 and the scanning region W2 is reduced, the change in the SAD value is reduced, and the accuracy of extracting corresponding points is reduced. Will drop.
  • the threshold value h3 is preferably 45 degrees as described above. However, even if the threshold value h3 is other than 45 degrees, only the reliability near the boundary is lowered, and the reliability of the parallax is not lowered for other regions.
  • the first conversion unit 101 and the second conversion unit 102 perform the first conversion image and the second conversion image on the first conversion image and the second conversion image. At least the first region of the first region for extracting the corresponding points using one of the second region and the second region for extracting the corresponding points using both the first converted image and the second converted image. It has a function that is determined according to predetermined conditions.
  • the first conversion unit 101 uses the first extraction region (region 214) used for extracting corresponding points from the first converted image according to a predetermined first determination condition.
  • the pixel value is determined for the pixel included in the first extraction region (region 214), and the pixel value is not calculated for the pixel not included in the first extraction region (region 214).
  • the second conversion unit 102 determines a second extraction region (region 224) used for extracting corresponding points from the second converted image according to a predetermined second determination condition, and is included in the second extraction region (region 224).
  • the pixel value is calculated for the pixel to be detected, and the pixel value is not calculated for the pixel not included in the second extraction region (region 224).
  • the first determination condition is equal to the second determination condition.
  • the first converted image and the second converted image do not overlap, so that the amount of calculation in the parallax estimation unit 103 is the second embodiment. Is reduced. As a result, it becomes possible to obtain three-dimensional information in real space with a smaller amount of calculation than in the second embodiment. Further, since the pixel values match at the boundary between the first converted image and the second converted image, the reliability of the matching degree can be improved even when performing stereo matching using the block matching technique in the region including the boundary. That is, the reliability of stereo matching is improved by increasing the reliability of the matching degree.
  • the first converted image has little distortion in the direction parallel to the optical axis of the camera at both longitudinal ends, and the second converted image is in a plane orthogonal to the optical axis of the camera at the central portion. It has the characteristic that there is little distortion. Therefore, as in the third and fourth embodiments, if a region is appropriately extracted from the first converted image and the second converted image, corresponding points are used using regions with less distortion at both ends and the center in the vertical direction. Can be extracted. However, in both the first converted image and the second converted image, the distortion at both ends in the horizontal direction is relatively large, and this region can be determined by using either the first converted image or the second converted image. The reliability of parallax is lower than that of the above area.
  • the required parallax reliability is improved by increasing the number of cameras. Assume that the camera is placed at the center of the ceiling surface in the room. In this case, the first converted image is less distorted with respect to the wall and pillar images along the vertical direction at both ends in the vertical direction ( ⁇ direction), and the second converted image is a floor along the horizontal plane at the center. Distortion is reduced for the image on the surface of the surface or the desk. Therefore, if two sets of cameras for measuring three-dimensional information by stereo vision are provided and the longitudinal direction ( ⁇ direction) of the first converted image is orthogonal to each other, an image with less distortion can be obtained for all wall surfaces and pillars in the room. It becomes possible.
  • two sets of cameras that are a set of two cameras can be provided, and a total of four cameras can obtain images with less distortion for all areas in the room.
  • two cameras 111 and 112 for stereo vision are arranged in the center of the ceiling surface side by side on the left and right in the figure as shown in FIG.
  • the region corresponding to the wall surfaces 301 and 302 along the left-right direction is less distorted.
  • the cameras 113 and 114 for stereo vision are rotated 90 degrees with respect to the position shown in FIG. 17A along the ceiling surface as shown in FIG. Among these, the regions corresponding to the wall surfaces 303 and 304 orthogonal to the wall surfaces 301 and 302 are less distorted.
  • the same function as when using four cameras using three cameras is provided.
  • the case where the camera 111 and the camera 113 are shared is illustrated according to the example shown in FIG. Therefore, it is assumed that three cameras 111, 112, and 114 are used.
  • the three cameras 111, 112, and 114 are arranged so that the optical center is located at the vertex of a right-angled isosceles triangle. That is, the remaining cameras 112 and 114 are arranged at an equal distance from the shared camera 111.
  • the optical centers of the three cameras 111, 112, 114 can be arranged so as to form a regular triangle. is there.
  • the cameras 111, 112, and 114 are arranged at the vertices of a right-angled isosceles triangle will be described as an example.
  • three-dimensional information is measured by stereo vision
  • two of the three cameras 111, 112, and 114 are used in combination. That is, three-dimensional information measurement by stereo vision is performed using a set of two cameras 111 and 112 and a set of two cameras 111 and 114, respectively.
  • the measurement of the three-dimensional information for each group is performed in the same manner as in the first embodiment.
  • the horizontal direction of the camera 114 is parallel to or orthogonal to the baseline direction of the cameras 111 and 112.
  • the imaging is performed in front of the first converting unit 101 and the second converting unit 102 as shown in FIG.
  • a rotation processing unit 106 for rotating the image by 90 degrees is required. If the baseline direction does not match the horizontal direction of the image before conversion, the captured image is appropriately rotated using the rotation processing unit 106 to change the baseline direction to the horizontal direction of the image before conversion. Can match.
  • the rotation processing unit 106 changes the pixel reading direction as necessary. It only needs to have a function.
  • conversion equivalent to rotation may be performed by a mathematical expression for performing conversion to the first converted image and the second converted image.
  • the processing for each group is the same as in the first embodiment, and the parallax is obtained using the first converted image group and the second converted image group.
  • the parallax with higher reliability is selected using the selection processing unit 107.
  • the degree of coincidence Ds may be evaluated as in the first embodiment. In this operation, since the matching degree Ds is evaluated in the selection processing unit 107, the selection matching unit 107 is also provided with the first matching degree image and the second matching degree image.
  • the stereo camera device of this embodiment includes a plurality (two in FIG. 18) of stereo camera units 13 (131, 132) as shown in FIG.
  • the plurality of stereo camera units 131 and 132 are arranged such that the first axes intersect each other and the second axes are parallel to each other.
  • the parallax estimation unit 103 is configured to obtain parallax related to the point of interest for each of the plurality of stereo camera units 131 and 132.
  • the arithmetic processing unit 10 includes a selection processing unit 107.
  • the selection processing unit 107 obtains the reliability (matching degree Ds in this embodiment) for each parallax obtained by the parallax estimation unit 103, and adopts the parallax having the highest reliability among the parallaxes obtained by the parallax estimation unit 103. Configured to do.
  • one of the two cameras (the camera 111 in the present embodiment) of one of the plurality of stereo camera units 13 is connected to another stereo camera unit ( Used as a camera of the stereo camera unit 132).
  • the stereo camera device of this embodiment is a stereo camera system.
  • This stereo camera system includes two sets of stereo camera devices, and two cameras provided for each stereo camera device are arranged such that the first directions intersect with each other and the optical axes of the cameras are parallel to each other.
  • a selection processing unit 107 that selects a parallax with higher reliability among the parallaxes estimated by the parallax estimation unit 103 provided for each apparatus is provided.
  • one arithmetic processing unit 10 of two stereo camera devices is also used as the arithmetic processing unit 10 of the other stereo camera device. That is, the plurality of stereo camera devices share the arithmetic processing unit 10.
  • the selection processing unit 107 is included in the arithmetic processing unit 10, but is not necessarily included in the arithmetic processing unit 10.
  • one of each two cameras provided for each stereo camera device is shared.
  • the second converted image has less distortion of the floor surface and the upper surface of the desk along the horizontal plane in the central portion
  • the first converted image has a wall surface and a column along the vertical direction at both ends in the vertical direction. There is little distortion. Therefore, when selecting a region as in the third and fourth embodiments, if the regions at both ends in the vertical direction of the first converted image are selected for each group, it is easy to search for corresponding points in the entire room.
  • the first converted image and the second converted image are evaluated for each set, and the same evaluation is performed for different sets. Can be done.
  • the difference in edge strength may be compared, and a group having a large difference in edge strength may be preferentially adopted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Measurement Of Optical Distance (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

 ステレオカメラ装置は、一対のカメラと、カメラの撮像画像を第1変換画像に変換する第1変換部と、撮像画像を第2変換画像に変換する第2変換部と、視差推定部とを備える。第1変換画像は、カメラの光学中心同士を結ぶ直線で定義される第1軸の周りの第1角度とカメラの光軸で定義される第2軸の周りの第2角度とで画素の位置が定義される二次元直交座標で表される画像である。第2変換画像は、第1角度と第3軸の周りの第3角度とで画素の位置が定義される二次元直交座標で表される画像である。第3軸は、第1軸と第2軸にそれぞれ直交する。視差推定部は、第1変換画像と第2変換画像とに基づいて、空間内の着目点に関する視差を求める。

Description

ステレオカメラ装置、および、コンピュータ読み取り可能な記録媒体
 本発明は、ステレオカメラ装置およびコンピュータ読み取り可能な記録媒体に関し、特に、複数台のカメラで撮像した画像を用いて三角測量の原理により空間の3次元情報を取得するステレオカメラ装置およびコンピュータを用いてステレオカメラ装置を構成するプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
 従来から、空間の3次元情報を取得する技術としてステレオビジョンが知られている。ステレオビジョンは、複数台のカメラを用いて実空間を撮像した画像に、三角測量の原理を適用することにより、3次元の実空間における着目する部位までの距離を計測する技術である。すなわち、ステレオビジョンでは、視野の少なくとも一部が重複するように配置された複数台のカメラを用いて3次元の実空間が撮像される。そして、実空間において着目する部位の像が各カメラの撮像素子上に形成されている場合、実空間における光学中心から着目する部位への方向と、カメラ同士の相対位置、姿勢とを用いて三角測量の原理により、実空間において着目する部位までの距離が計測される。
 ここで、2台のカメラで撮像した画像(以下、「撮像画像」という)に注目する。2枚の撮像画像から着目する部位までの距離を計測するには、2台のカメラの光学中心を結ぶ線分の長さ(以下、「ベースライン長」という)と、2枚の撮像画像の中で、実空間において着目する部位に対応する像の位置のずれの距離との情報が必要である。像の位置のずれの距離は、実空間において着目する部位を2台のカメラから見込んだときの視差であって、2枚の撮像画像にそれぞれ規定した基準位置からの距離差を用いる。
 撮像画像から視差を求めるには、撮像画像の中で実空間において着目する部位に対応する像の位置を探し出す必要がある。すなわち、2台のカメラで撮像された2枚の撮像画像において同部位に対応する対応点を特定する必要がある。2枚の撮像画像から対応点を探索する処理をステレオマッチングと呼んでいる。ステレオマッチングにおいて撮像画像上で対応点を探索する範囲は、2台のカメラの光学中心と実空間において着目する部位とを結ぶエピポーラ平面を考えると、撮像画像にエピポーラ平面を投影した線上に限定することができる。
 ステレオビジョンでは、多くの場合、2台のカメラが、光軸を平行にし、かつ両カメラの光学中心を結ぶ直線(以下、「ベースライン」という)を両光軸に直交させて配置された平行ステレオ法が採用されている。以下では、ベースラインの方向を各カメラが撮像した撮像画像の水平方向に一致させた平行ステレオ法を、単に平行ステレオ法と呼ぶ。
 ここで、撮像画像にはカメラに設けた光学系(レンズなど)による歪みがないと仮定する。この場合、図19に示すように、実空間において着目する部位P1に対応して形成されるエピポーラ平面403を各撮像画像(等価画像面)401、402に投影した線は、撮像画像401、402の水平方向に平行な直線になる。以下では、撮像画像401、402について、水平方向をx方向、垂直方向をy方向とする。つまり、x方向はベースライン404と平行になる。したがって、エピポーラ平面403を撮像画像401、402に投影して得られる直線はx方向に平行であって、y方向の座標値は一定になる。
 つまり、一方の撮像画像401の中に実空間の部位P1に対応する像G1があるとき、他方の撮像画像402の中で部位P1に対応する像D1の探索範囲は、y方向の座標値が像G1と同じになる水平方向の直線上に限定される。たとえば、図19において、像G1は一方のカメラの光学中心O1と像G1とを通る直線405に対応するから、この直線405の上の部位P1、P2、P3などは像G1に対応する。これに対して、他方のカメラの光学中心O2と部位P1、P2、P3とを通る直線は、撮像画像402における像D1、D2、D3に対応する。ここに、像G1と像D1、D2、D3とはy方向の座標値が一致する。
 上述したように、平行ステレオ法でのステレオマッチングでは、実空間において着目する部位は、各カメラの撮像画像において、垂直方向の同じ位置に対応することになる。つまり、2台のカメラが実空間の同じ部位を撮像していると、撮像画像内で当該部位に対応する画素の位置は、水平方向については撮像画像ごとに異なるが、垂直方向については両撮像画像で一致する。つまり、平行ステレオ法では、両カメラで得られた撮像画像について実空間の同じ部位に対応する点を、撮像画像の水平方向についてのみ探索すればよく、ステレオマッチングの処理効率がよいという利点を有している。
 ところで、上述した平行ステレオ法の技術は、カメラの光学系に歪みがないという仮定を設定している。したがって、上述のようにステレオマッチングにおいて高い処理効率が得られるのは、カメラの光学系の歪みの影響を考慮しなくてもよい程度に視野角が小さいか、光学系に歪みがあっても補正すれば歪みの影響を除去できる場合に限られる。言い換えると、視野角を広げるために魚眼レンズのように歪みの大きい光学系をカメラに用いると、ステレオマッチングにおける処理負荷が大幅に増加するという問題が生じる。
 一般に魚眼レンズのように視野角の広い光学系を用いて撮像した画像は、画像の周辺に近付くほど湾曲の程度が大きくなる湾曲歪みが生じるから、ステレオマッチングの際には画像の湾曲歪みを考慮して対応点を探索することが必要になる。すなわち、対応点を探索する際に、x方向とy方向との両方の座標値を変化させるから、対応点を探索する際の処理効率が低い上に、対応付けを誤る可能性が高くなる。その結果、距離の計測を誤ることになり、計測性能の低下につながるという問題が生じる。
 そこで、上述した問題を解決するために、エピポーラ平面が画像内の一直線上に投影されるように撮像画像に対する座標変換を行った変換画像を生成し、変換画像を用いてステレオマッチングを行う技術が提案されている。変換画像は、エピポーラ平面が横軸に平行な直線になるように座標軸が選択される(たとえば、文献1:日本国公開特許公報2007-24647号、文献2:日本国公開特許公報2009-139246号、文献3:Fish-Eye-Stereo Calibration and Epipolar Rectification, Abraham, S. Forstner,W. International Journal of Photogrammetry and Remote Sensing, Vol.59,Issue5, August 2005参照)。
 これらの文献1-3に記載された技術では、視野角の広い画像から視差を効率よく推定するために、図20に示すように、ベースライン404の方向(x方向)の軸周りの角度βを変換画像の垂直方向の軸に対応付けている。このような変換画像を用いると、3次元の実空間における部位P1が2枚の撮像画像401、402において同じ角度βに対応付けられるので、平行ステレオ法と同様に、対応点の探索が容易になり、視差を効率よく推定することができる。なお、図20の半球は光学系を示している。
 一方、変換画像の水平方向の軸については、文献1、文献3では、図21に示すように、エピポーラ平面403内における角度γを用いている。この角度γは、カメラの受光面における垂直方向(y方向)と光軸の方向(z方向)とで規定される平面(yz平面)に対して、着目する部位P1とカメラの光学中心Oとを結ぶ直線の間の角度である。
 また、文献2では、図22に示すように、撮像画像の垂直方向(ベースライン404の方向と光軸の方向とに直交する方向)の軸周りの角度αの正接tanαを変換画像の水平方向の軸に用いている。
 ところで、実空間の3次元情報を取得する技術を用いることにより室内の人の動きを検出すると、室内の負荷機器の制御などに用いることができる。たとえば、空調負荷であれば、室内で人が存在する場所を特定することによって、冷気や暖気を人の存在する場所に集中的に流すことが可能になる。また、映像を表示する負荷機器であれば、人の存在する場所に応じて向きを変えたり、表示のサイズを変えたりすることが可能になる。
 負荷機器を制御する場合に限らず、室内の3次元情報を得ようとする場合には、全体を視野とし、しかも人や物体によって視野が妨げられないようにするために、たとえば、カメラの光軸を鉛直下向きにして天井の中央付近に設置することが望ましい。この配置を採用すると、撮像画像の中心部では、床面や床上に存在する物体のように水平方向の情報が多く得られ、撮像画像の周辺部では、壁面や柱のように鉛直方向の情報が多く得られることになる。
 一方、上述した文献1、文献2、文献3に記載された技術を採用すると、視野角の広い光学系を採用したことによる撮像画像の歪みの影響を軽減することが可能である。しかしながら、依然として撮像画像の歪みが十分に解消されることはない。
 たとえば、図23(a)のように光軸(z方向)に平行な直線L1を撮像すると、変換画像では図23(b)のように歪んだ曲線L2として撮像される。図23は文献1に対応する例であって、変換画像は、角度γが水平方向の軸に対応付け、角度βが垂直方向の軸に対応付けられている。したがって、文献1に記載された技術では、直線L1がβ=γの関係を満たす場合を除いて、変換画像では直線L1が曲線L2に変換されることになる。文献2、文献3に記載された変換画像についても同様であって、変換画像には歪みが生じる。
 ここに、図23(b)によれば、変換画像の中心部は直線性が比較的よいが、周辺部では直線性が低下しており、このことから変換画像の周辺部に存在する壁や柱のような鉛直方向の部材については、対応点を探索する処理の効率が低下することになる。
 しかも、図24に示すように、2枚の撮像画像からそれぞれ得られる変換画像は、同じ直線L1(図23参照)を撮像しても、異なる形状の曲線L21、L22に変換されるから、2枚の変換画像から対応点を探し出すのは容易ではない。結局、文献1、文献2、文献3の技術のいずれを採用したとしても、対応点を探索する処理は容易ではない。
 本発明は、複数台のカメラで撮像した撮像画像における対応点の探索を従来よりも容易にしたステレオカメラ装置、および、コンピュータ読み取り可能な記録媒体を提供することを目的とする。
 本発明に係る第1の形態のステレオカメラ装置は、ステレオカメラ部と、演算処理部と、を備える。前記ステレオカメラ部は、所定の空間を撮像する一対のカメラを有し、前記一対のカメラでそれぞれ撮像された撮像画像を前記演算処理部に出力するように構成される。前記演算処理部は、第1変換部と、第2変換部と、視差推定部と、を備える。前記第1変換部は、前記一対のカメラのそれぞれに関して、前記カメラで撮像された撮像画像を第1変換画像に変換するように構成される。前記第1変換画像は、画素の位置が、第1軸の周りの第1角度と第2軸の周りの第2角度とで定義される二次元直交座標で表される画像である。前記第2変換部は、前記一対のカメラのそれぞれに関して、前記カメラで撮像された撮像画像を第2変換画像に変換するように構成される。前記第2変換画像は、画素の位置が、前記第1角度と第3軸の周りの第3角度とで定義される二次元直交座標で表される画像である。前記第1軸は、前記一対のカメラの光学中心同士を結ぶ直線で定義される。前記第2軸は、前記カメラの光軸で定義される。前記第3軸は、前記第1軸と前記第2軸とにそれぞれ直交する軸である。前記視差推定部は、前記第1変換部で得られた前記第1変換画像と前記第2変換部で得られた前記第2変換画像とに基づいて、前記空間内の着目点に関する視差を求めるように構成される。
 本発明に係る第2の形態のステレオカメラ装置では、第1の形態において、前記視差推定部は、前記一対のカメラにそれぞれ対応する2つの前記第1変換画像から前記着目点の対応点をそれぞれ求め、前記対応点に基づいて前記着目点に関する第1視差を算出するとともに、2つの前記第1変換画像の前記対応点間の第1一致度を評価するように構成される。前記視差推定部は、前記一対のカメラにそれぞれ対応する2つの前記第2変換画像から前記着目点の対応点をそれぞれ求め、前記対応点に基づいて前記着目点に関する第2視差を算出するとともに、2つの前記第2変換画像の前記対応点間の第2一致度を評価するように構成される。前記視差推定部は、同一の着目点に関して前記第1一致度を前記第2一致度と比較し、前記第1一致度が前記第2一致度より高ければ前記着目点に関する視差として前記第1視差を採用し、前記第1一致度が前記第2一致度より低ければ前記着目点に関する視差として前記第2視差を採用するように構成される。
 本発明に係る第3の形態のステレオカメラ装置では、第2の形態において、前記演算処理部は、さらに、領域評価部を備える。前記領域評価部は、前記第1変換画像の第1画素についての輝度値の変化に関する第1評価値と、前記第1画素に対応する前記第2変換画像の第2画素についての輝度値の変化に関する第2評価値とを求めるように構成される。前記領域評価部は、前記第1評価値と前記第2評価値との差を求めて規定の閾値と比較するように構成される。前記領域評価部は、前記差が前記閾値を超えていれば、前記第1画素の輝度値の変化と前記第2画素の輝度値の変化とを比較するように構成される。前記領域評価部は、前記第1画素の輝度値の変化が前記第2画素の輝度値の変化より大きければ前記第1画素および前記第2画素に関して第1条件を選択するように構成される。前記領域評価部は、前記第1画素の輝度値の変化が前記第2画素の輝度値の変化より小さければ前記第1画素および前記第2画素に関して第2条件を選択するように構成される。前記領域評価部は、前記差が前記閾値以下であれば前記第1画素および前記第2画素に関して第3条件を選択するように構成される。前記視差推定部は、前記第1画素および前記第2画素に関して前記第1条件が選択されると前記第1画素および前記第2画素に関して前記第1変換画像を用いて対応点を求めるように構成される。前記視差推定部は、前記第1画素および前記第2画素に関して前記第2条件が選択されると前記第1画素および前記第2画素に関して前記第2変換画像を用いて対応点を求めるように構成される。前記視差推定部は、前記第1画素および前記第2画素に関して前記第3条件が選択されると前記第1画素および前記第2画素に関して前記第1変換画像および前記第2変換画像を用いて対応点を求めるように構成される。
 本発明に係る第4の形態のステレオカメラ装置は、第2の形態において、前記第1変換部は、予め定められた第1決定条件に従って前記第1変換画像から対応点の抽出に用いられる第1抽出領域を決定し、前記第1抽出領域に含まれる画素について画素値を算出し、前記第1抽出領域に含まれない画素については画素値を算出しないように構成される。前記第2変換部は、予め定められた第2決定条件に従って前記第2変換画像から対応点の抽出に用いられる第2抽出領域を決定し、前記第2抽出領域に含まれる画素について画素値を算出し、前記第2抽出領域に含まれない画素については画素値を算出しないように構成される。
 本発明に係る第5の形態のステレオカメラ装置は、第1~第4のうちいずれか1つの形態において、複数の前記ステレオカメラ部を備える。前記複数の前記ステレオカメラ部は、前記第1軸が互いに交差し、かつ、前記第2軸が互いに平行するように配置される。前記視差推定部は、前記複数の前記ステレオカメラ部毎に前記着目点に関する視差を求めるように構成される。前記演算処理部は、選択処理部を備える。前記選択処理部は、前記視差推定部で求められた視差毎に信頼度を求め、前記視差推定部で求められた視差のうち最も信頼度が高い視差を採用するように構成される。
 本発明に係る第6の形態のステレオカメラ装置では、第5の形態において、前記複数のステレオカメラ部のうちの1つの前記2つのカメラの一方は、他のステレオカメラ部のカメラとして用いられる。
 本発明に係る第7の形態のコンピュータ読み取り可能な記録媒体は、ステレオカメラ部に接続されるコンピュータに用いられるプログラムが記録されたコンピュータ読み取り可能な記録媒体である。前記ステレオカメラ部は、所定の空間を撮像する一対のカメラを有し、前記一対のカメラでそれぞれ撮像された撮像画像を前記演算処理部に出力するように構成される。前記一対のカメラは、互いの光軸が平行し、かつ、それぞれの視野が重複するように配置される。前記プログラムは、第1変換部と、第2変換部と、視差推定部として機能させるように構成される。前記第1変換部は、前記一対のカメラのそれぞれに関して、前記カメラで撮像された撮像画像を第1変換画像に変換するように構成される。前記第1変換画像は、画素の位置が、第1軸の周りの第1角度と第2軸の周りの第2角度とで定義される二次元直交座標で表される画像である。前記第2変換部は、前記一対のカメラのそれぞれに関して、前記カメラで撮像された撮像画像を第2変換画像に変換するように構成される。前記第2変換画像は、画素の位置が、前記第1角度と第3軸の周りの第3角度とで定義される二次元直交座標で表される画像である。前記第1軸は、前記一対のカメラの光学中心同士を結ぶ直線で定義される。前記第2軸は、前記カメラの光軸で定義される。前記第3軸は、前記第1軸と前記第2軸とにそれぞれ直交する軸である。前記視差推定部は、前記第1変換部で得られた前記第1変換画像と前記第2変換部で得られた前記第2変換画像とに基づいて、前記空間内の着目点に関する視差を求めるように構成される。
実施形態1のステレオカメラ装置を示すブロック図である。 同上の原理説明図である。 同上に用いる座標系の関係を示す図である。 同上に用いる座標系の関係を示す図である。 同上における撮像画像の例を示す図である。 同上における第1変換画像の例を示す図である。 同上における第2変換画像の例を示す図である。 同上におけるブロックマッチングの説明図である。 同上におけるブロックマッチングの説明図である。 同上の動作の概要を示す図である。 実施形態2のステレオカメラ装置を示すブロック図である。 同上の動作説明図である。 同上による領域の区分例を示す図である。 実施形態3のステレオカメラ装置における領域を示す説明図である。 同上の領域を示す説明図である。 実施形態4のステレオカメラ装置を示すブロック図である。 実施形態5のステレオカメラ装置を示す概略構成図である。 同上のブロック図である。 ステレオビジョンの概念を説明する図である。 従来の技術を説明する図である。 同上に用いる座標系を示す図である。 同上に用いる座標系を示す図である。 同上の動作を説明する図である。 同上の動作を説明する図である。
 (実施形態1)
 本実施形態のステレオカメラ装置は、図1に示されるように、一対のカメラ(第1のカメラおよび第2のカメラ)1,2を有するステレオカメラ部13と、演算処理部10と、記憶装置11,12とを備える。以下、本実施形態のステレオカメラ装置について詳細に説明する。
 本実施形態のステレオカメラ装置は、図1に示すように、3次元の実空間に対する視野がほぼ重複するように配置された2台のカメラ(第1のカメラおよび第2のカメラ)1、2を備える。両カメラ1、2は、光軸を平行、かつ光学中心(撮影中心)を結ぶ直線の方向(ベースライン方向)と光軸を垂直にして配置される。
 カメラ1,2は、互いの光軸が平行するように配置される。また、カメラ1,2は、カメラ1,2の光学中心O1,O2同士を結ぶ直線(ベースライン)がカメラ1,2それぞれの光軸と直交するように配置される。さらに、カメラ1,2は、それぞれの視野が重複するように配置される。
 各カメラ1、2は、画角が180度に近い魚眼レンズないし魚眼レンズに相当する機能を有した光学系を備える。光学系の射影方式はとくに問わないが、以下では等距離射影方式を用いて説明する。また、2台のカメラ1、2は、ベースライン方向と受光面(画像面)における水平方向とを一致させるように配置される。すなわち、平行ステレオを想定する。
 また、以下では、3次元の実空間において、受光面の水平方向に沿う方向(つまり、ベースライン方向)をx方向、受光面の垂直方向に沿う方向をy方向とし、受光面に直交する方向をz方向とする。なお、受光面の水平方向は受光面を定義する二次元直交座標系の第1の軸の方向を意味し、実空間における水平方向を意味するわけではない。受光面の垂直方向は受光面を定義する二次元直交座標系の第2の軸の方向を意味し、実空間における垂直方向を意味するわけではない。
 各カメラの撮像画像をモニタ装置に表示したときに、水平方向の右向きがx方向の正の向き、垂直方向の下向きがy方向の正の向きになるように座標系を定めている。z方向についてはカメラの受光面から遠ざかる向きを正の向きとする。すなわち、z方向における正の向きは、カメラの正面方向である。
 カメラ1、2が撮像した撮像画像における画素の位置は、たとえば、受光面(撮像面)の左上隅を原点とした2次元の直交座標系である第1座標系(画像座標系)で表される。第1座標系は、画像(撮像画像)の水平方向がx方向に沿っており、画像(撮像画像)の垂直方向がy方向に沿うように設定され、撮像画像の画素の位置は、座標(u,v)で表される。なお、撮像画像の水平方向は第1座標系の第1の軸の方向を意味し、実空間における水平方向を意味するわけではない。撮像画像の垂直方向は第1座標系の第2の軸の方向を意味し、実空間における垂直方向を意味するわけではない。
 また、実空間において着目する部位(たとえば、図2の点P1)を各カメラ1、2から見込む方向を規定するために、上述したx方向、y方向、z方向に平行な軸(第1軸、第3軸、第2軸)をカメラ1、2ごとに規定し、カメラ1、2ごとの光学中心を原点とする第2座標系(カメラ座標系)が規定される。
 第2座標系はカメラ1、2ごとに規定され、z方向の軸(第2軸)は光軸に一致する。
 各カメラ1、2に規定された第2座標系の原点(光学中心)O1、O2から点(着目点)P1を見込む方向(視方向)は、3本の各軸周りのそれぞれの角度の組み合わせによって表される。以下では、x方向の軸周りの角度(第1角度)はβ、y方向の軸周りの角度(第3角度)はα、z方向の軸(光軸)周りの角度(第2角度)はφとする。
 すなわち、x方向の軸は、一対のカメラ1,2の光学O1,O2中心同士を結ぶ直線で定義される軸(第1軸)である。カメラ1に関して、z方向の軸は、カメラ1の光軸で定義される軸(第2軸)である。カメラ2に関して、z方向の軸は、カメラ2の光軸で定義される軸(第2軸)である。y方向の軸は、第1軸(x方向の軸)と第2軸(z方向の軸)とにそれぞれ直交する軸(第3軸)である。
 各カメラ1、2が撮像した撮像画像のデータは、演算処理部10に入力される。
 本実施形態では、演算処理部10が濃淡画像を扱う例を説明するが、カラー画像を扱う場合も以下に説明する技術思想は適用可能である。
 演算処理部10は、ハードウェア資源としてのコンピュータを有し、コンピュータを以下に説明する処理を行う装置として機能させるためのプログラムを実行する。ただし、演算処理部10は専用のハードウェアを備える構成であってもよい。また、マイコンを備えるコンピュータのほか、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)のようにプログラムを実行する機能を備えるデバイスを用いて構成してもよい。
 カメラ1と演算処理部10との間にはインターフェース3が設けられ、カメラ2と演算処理部10との間にはインターフェース4が設けられる。
 各インターフェース3、4は、カメラ1、2が撮像した撮像画像のデータを、それぞれ演算処理部10で処理するためのデータに変換する。インターフェース3、4は、たとえば、アナログ信号をデジタル信号に変換する機能を備える。
 演算処理部10を動作させるためのシステムプログラムおよびアプリケーションプログラムは記憶装置(第1記憶装置)11に記憶され、演算処理部10の処理対象である撮像画像データや演算過程のデータは、データメモリおよび作業用メモリである記憶装置(第2記憶装置)12に記憶される。
 記憶装置11は、フラッシュメモリやハードディスクドライブ装置のように、無給電で記憶内容が保持される記憶装置が用いられる。また、記憶装置11は、処理の実行時にシステムプログラムやアプリケーションプログラムを置くための主記憶として揮発性メモリも備える。
 記憶装置12は、とくに制限はないが、少なくとも一部は作業用に用いるための揮発性メモリが用いられる。
 本実施形態では、2台のカメラ1、2がそれぞれ撮像した撮像画像に基づいて実空間の3次元の情報を取得しなければならないから、演算処理部10は、2台のカメラ1、2が同時刻に撮像するようにインターフェース3、インターフェース4に対してトリガ信号を与え、同時刻に撮像された対になる撮像画像を記憶装置12に保存する。
 ところで、カメラ1、2の受光面上での画素の位置は、左上隅を原点として水平方向と垂直方向との画素の個数で表される。画像上に投影された光軸上の点の座標を(uc,vc)とすると、(uc,vc)と任意の画素(u,v)との距離rは、次式(1)で表される。
Figure JPOXMLDOC01-appb-M000001
   
 また、カメラ1、2は魚眼レンズないし魚眼レンズに相当する機能を有する光学系を備えるから、3次元の実空間における1点がカメラ1、2の光学中心を中心とする半径1の球面上に射影されるモデルを用いることができる。
 カメラ1、2の光学系に歪みのない等距離射影方式の魚眼レンズを用いる場合を想定すると、図3のように実空間の点Pの球面SP上への射影である点Qと、カメラ1(2)の光学中心(第2座標系の原点)O1(O2)とを結ぶ直線が光学系の光軸(z方向の軸)となす角度θ[rad]は、距離rを用いて、次式(2)で表される。
Figure JPOXMLDOC01-appb-M000002
   
 ただし、上式(2)において、距離L0は、3次元空間におけるZ=0上の点の画像PLへ投影した結果の円の半径を示す。点Rは点Qを画像PLへ投影した画素の位置を示す。
 実空間における1点が撮像画像における位置(u,v)の画素に対応付けられるようにキャリブレーションが行われている場合を想定すると、モデルとして用いる球面上に実空間の1点を射影した点P1の位置は座標(X,Y,Z)で表される。X,Y,Zは、それぞれ次式(3),(4),(5)で表される。
Figure JPOXMLDOC01-appb-M000003
 ところで、図4に示しているように、点P1の位置(X,Y,Z)は、画素の位置(u,v)に代えてx軸、y軸、z軸の3軸のうちの2軸の周りの角度の組み合わせとして表すことが可能である。上述したように、x軸周りの角度(yz平面内での角度)をβ、y軸周りの角度(zx平面内での角度)をα、z軸周りの角度(xy平面内での角度)をφとする。角度α、βはz軸を0度とし、角度φはy軸を0度とし、左回りに大きくなる。画素の位置(u,v)に代えて用いる角度の組み合わせは、(φ,β)と(α,β)との2種類を用いる。角度α,β,φへの変換式は、上式(3),(4),(5)の計算結果を用いてそれぞれ次式(6),(7),(8)で表される。
Figure JPOXMLDOC01-appb-M000004
 演算処理部10は、2台のカメラ1、2がそれぞれ撮像した撮像画像内での画素の位置(u,v)を、上述した3次元の実空間における角度の組(φ,β)、(α,β)に変換した画像を生成するために第1変換部101および第2変換部102を備える。
 第1変換部101は、z軸(光軸)周りの角度(第2角度)φと、x軸周りの角度(第1角度)βとの組(φ,β)で位置が表される画像(以下、「第1変換画像」という)を出力する。第1変換部101は、一対のカメラ1,2のそれぞれに関して、カメラで撮像された撮像画像を第1変換画像に変換するように構成される。すなわち、第1変換部101は、第1のカメラ1で撮像された撮像画像を第1変換画像に変換するとともに、第2のカメラ2で撮像された撮像画像を第1変換画像に変換する。本実施形態では、第1変換部101は、2枚の第1変換画像を生成する。
 また、第2変換部102は、y軸周りの角度(第3角度)αと、x軸周りの角度(第1角度)βとの組(α,β)で位置が表される画像(以下、「第2変換画像」という)を出力する。第2変換部102は、一対のカメラ1,2のそれぞれに関して、カメラで撮像された撮像画像を第2変換画像に変換するように構成される。すなわち、第2変換部102は、第1のカメラ1で撮像された撮像画像を第2変換画像に変換するとともに、第2のカメラ2で撮像された撮像画像を第2変換画像に変換する。本実施形態では、第2変換部102は、2枚の第2変換画像を生成する。
 なお、第1変換部101において角度(第1角度)βを求めているから、第1変換部101による演算後に第2変換部102による演算を行う場合は、第2変換部102は第1変換部101から角度βを取得すればよい。
 第1変換画像の画素値および第2変換画像の画素値は、カメラ1、2の受光面上で、第1変換部101において求めた位置(座標)(φ,β)および第2変換部102において求めた位置(座標)(α,β)に対応する位置に位置する画素の画素値を用いる。
 すなわち、第1変換部101は、第1変換画像の画素の位置(座標)(φ,β)から撮像画像の画素の位置(座標)(u,v)を求め、当該位置(u,v)に位置する撮像画像の画素の画素値を位置(φ,β)に対応付けた第1変換画像を生成する。
 また、第2変換部102は、第2変換画像の画素の位置(座標)(α,β)から撮像画像の画素の位置(座標)(u,v)を求め、当該位置(u,v)に位置する撮像画僧の画素の画素値を位置(α,β)に対応付けた第2変換画像を生成する。
 第1変換画像および第2変換画像を求めるには、すべての位置(φ,β)、(α,β)について画素値を求める処理を行う。
 図5のような撮像画像が得られている場合、第1変換画像は図6のようになり、第2変換画像は図7のようになる。
 図5は室内において天井面の中央部にカメラ1、2を配置することによって、室内の全体を撮像した場合の撮像画像を示している。
 カメラ1、2をこのように設置した場合、第1変換画像は、図6のように、縦方向(β方向)の両端部において鉛直方向に沿った壁面や柱などについて他の領域よりも歪みが少なくなる。
 また、第2変換画像は、図7のように、中央部において水平面に沿った床面や机の上面などについて他の領域よりも歪みが少なくなる。
 ところで、第1変換部101および第2変換部102が求めた位置(φ,β)、(α,β)から画素の位置(u,v)を求めても、多くの場合、1つの画素には対応しない。
 そのため、第1変換画像および第2変換画像の画素値を求めるには補間演算が必要である。補間演算には、バイリニア補間や最近傍法などの一般的なアルゴリズムを用いる。
 ここに、記憶装置12には濃淡画像が保存されるから、位置(u,v)の画素値は輝度値であって、第1変換画像および第2変換画像の画素値も輝度値になる。
 第1変換部101から出力される第1変換画像および第2変換部102から出力される第2変換画像は、記憶装置12に保存される。
 演算処理部10は、記憶装置12に保存された第1変換画像および第2変換画像を用いて、カメラ1、2の視差を推定する視差推定部103を備える。
 視差推定部103は、各カメラ1、2で撮像した撮像画像から得られた第1変換画像から視差(第1視差)を推定し、また第2変換画像から視差(第2視差)を推定する。さらに、2種類の方法で求めた視差を総合して最終的に視差を決定し、実空間の3次元情報の算出に利用する。
 視差推定部103は、2台のカメラ1、2で得られた2枚の第1変換画像から画素ごとの視差を推定し、推定した視差値を画素値に持つ1枚の画像(以下、「第1視差画像」という)を生成する。また、視差推定部103は、画素ごとの一致度を推定し、推定した一致度を画素値に持つ1枚の画像(以下、「第1一致度画像」という)を生成する。
 同様にして、視差推定部103は、2枚の第2変換画像から画素ごとの視差および一致度を推定し、推定した視差値を画素値に持つ1枚の画像(以下、「第2視差画像」)および推定した一致度を画素値に持つ1枚の画像(以下、「第2一致度画像」という)を生成する。
 視差推定部103は、視差の決定には、第1視差画像と第2視差画像とを用いる。
 第1変換画像は、画像の垂直方向の軸がx軸周りの角度(第1角度)βに対応し、画像の水平方向の軸がz軸(光軸)周りの角度(第2角度)φに対応する。平行ステレオであるから、図2に示すように、実空間における同一の点(着目点)を2台のカメラ1、2で撮像したときに、第1変換画像における角度βの値は等しくなる。したがって、2枚の第1変換画像から対応点を推定するには、同じ角度βを有する範囲内のみを探索すればよい。
 このように、視差推定部103は、第1変換画像を用いることにより、対応点を推定するにあたって、探索範囲を狭めることができる。
 視差推定部103は、対応点か否かを評価するために、ブロックマッチングの技術を採用している。すなわち、図8(a)のように、一方の第1変換画像(たとえば、第1のカメラ1に対応する第1変換画像)において対応点の評価を行おうとする部位の周囲に複数画素を含むウインドウW1が形成される。ウインドウW1は、対応点の評価を行おうとする画素の周囲で矩形領域として設定するのが望ましい。
 また、図8(b)のように、他方の第1変換画像(たとえば、第2のカメラ2に対応する第1変換画像)には、ウインドウW1に対応する大きさの走査領域W2が形成され、走査領域W2が横軸(角度φの軸)に沿って走査される。
 上述したように、対応点の角度βは2枚の第1変換画像において等しいから、角度φのみを変化させて対応点が探索される。
 ここで、ウインドウW1の中心位置が(φL,βL)にあり、走査領域W2の中心位置が(φR,βR)にある場合に、ウインドウW1内の画素の相対位置(j,i)に対応する走査領域W2の画素の位置(j,i)について、画素値(輝度値)I1(φL+j,βL+i)、I2(φR+j,βR+i)の差分(絶対値)の総和であるSAD値Vsを求める。
 ただし、平行ステレオ法であるからβL=βRとなる。それぞれのウインドウ中心の相対位置を(0,0)とすると、SAD(Sum of Absolute Difference)値Vsは次式(9)で表される。ここで、ウインドウW1と走査領域W2との大きさは等しく(2m+1,2n+1)(m、nは0以上の任意の整数)となっているとする。
Figure JPOXMLDOC01-appb-M000005
 走査領域W2を第1変換画像の横軸に沿って変位させると、図9に示すように、SAD値Vsが変化する。そして、走査領域W2に含まれる画素の画素値とウインドウW1に含まれる画素の画素値との一致度が高い位置では、SAD値Vsは極小になる。
 そこで、視差推定部103は、SAD値Vsが規定した閾値以下であって、かつ探索範囲内において最小値であるときに、対応点として決定する。なお、SAD値Vsが最小値であるにもかかわらず、閾値以下ではない場合は、対応点を不定として扱う。
 たとえば、ウインドウW1の中心位置が(φL1,βL1)である場合に、走査領域W2の中心位置が(φR1,βR1)であるときにSAD値Vsが規定した閾値以下であって、かつ探索範囲内において最小値であったとする。
 この場合、第2のカメラ2に対応する第1変換画像の画素(φR1,βR1)が、第1のカメラ1に対応する第1変換画像の画素(φL1,βL1)の対応点として決定される。
 逆に言えば、第1のカメラ1に対応する第1変換画像の画素(φL1,βL1)が、第2のカメラ2に対応する第1変換画像の画素(φR1,βR1)の対応点として決定される。
 すなわち、本実施形態では、視差推定部103は、第1のカメラ1に対応する第1変換画像の任意の画素を着目点P1の対応点として選択する。視差推定部103は、選択された画素に対応する着目点P1の対応点を第2のカメラ2に対応する第1変換画像から探索する。
 このようにして、視差推定部103は、2つの第1変換画像のそれぞれについて、着目点P1の対応点を決定する。
 視差推定部103は、第1変換画像を用いて対応点が得られると、2枚の第1変換画像における対応点の座標位置を用いることにより点(着目点)P1に対する2台のカメラ1、2の視差(第1視差)を求める。
 視差が求められると、視差推定部103は、視差を画素値に持つ第1視差画像を生成する。
 さらに、視差推定部103は、第1変換画像を用いて得られた対応点ごとに次式(10)で表される一致度Dsを求める。すなわち、視差推定部103は、2つの第1変換画像の対応点同士の一致度Dsを求める。
 第1変換画像において対応点が得られたすべての画素に関して一致度Dsを求め、一致度Dsを画素値に持つ第1一致度画像を生成する。
Figure JPOXMLDOC01-appb-M000006
 視差推定部103は、第1変換画像と同様に、第2変換画像からもSAD値Vsを用いて対応点を求める。第2変換画像についても対応点ごとに視差を求めて第2視差画像を生成し、さらに、対応点ごとに一致度Dsを求め、一致度Dsを画素値に持つ第2一致度画像を生成する。
 すなわち、視差推定部103は、2つの第2変換画像のそれぞれについて、着目点の対応点を決定する。視差推定部103は、第2変換画像を用いて対応点が得られると、2枚の第2変換画像における対応点の座標位置を用いることにより点(着目点)P1に対する2台のカメラ1、2の視差(第2視差)を求める。視差が求められると、視差推定部103は、視差を画素値に持つ第1視差画像を生成する。
 さらに、視差推定部103は、第2変換画像を用いて得られた対応点ごとに上式(10)で表される一致度Dsを求める。すなわち、視差推定部103は、2つの第2変換画像の対応点同士の一致度Dsを求める。
 第1視差画像および第1一致度画像と第2視差画像および第2一致度画像は記憶装置12に保存される。
 次に、視差推定部103は、第1視差画像と第2視差画像とを用いて視差を決定する。視差を決定するには、まず、視差推定部103は、第1視差画像の各画素に対応する第2視差画像の画素を抽出し、両方の画素が画素値(視差)を有しているか否かを判断する。
 視差推定部103は、第1視差画像の画素に対応する第2視差画像の画素は、以下の関係を用いて抽出する。第1視差画像における画素の位置を(φ1,β1)とするとき、第2視差画像において対応する画素の位置(α2,β2)とする。このときα2,β2はそれぞれ次式(11),(12)で表される。
Figure JPOXMLDOC01-appb-M000007
 視差推定部103は、第1視差画像と第2視差画像とにおいて対応する画素がともに画素値を有している場合は、両方の画素値について第1一致度画像および第2一致度画像を用いることにより画素値の信頼度を評価する。
 いま、第1視差画像における位置(φ1,β1)と第2視差画像における位置(α2,β2)との両方に画素値(視差)が存在していると仮定する。この場合、視差推定部103は、第1一致度画像上の位置(φ1,β1)の画素値(一致度)と、第2一致度画像上の位置(α2,β2)の画素値(一致度)とのうち一致度を比較する。
 視差推定部103は、第1一致度画像の一致度が第2一致度画像の一致度よりも大きい場合は、第1視差画像における位置(φ1,β1)の画素値を視差として採用し、第2視差画像における位置(α2,β2)の画素値は不定値として更新する。
 同様にして、視差推定部103は、第2一致度画像の一致度が第1一致度画像の一致度よりも大きい場合は、第2視差画像における位置(α2,β2)の画素値を視差として採用し、第1視差画像における位置(φ1,β1)の画素値は不定値として更新する。
 視差推定部103は、一致度が等しい場合は、第1視差画像の位置(φ1,β1)と第2視差画像の位置(α2,β2)との画素値の平均値あるいは一方を視差として採用する。
 また、視差推定部103は、第1視差画像の位置(φ1,β1)と第2視差画像の位置(α2,β2)との一方のみが画素値(視差)を有している場合には、当該画素値を視差として採用する。
 視差推定部103は、第1視差画像と第2視差画像との対応する画素において画素値(視差)がともに存在しない場合は、当該位置の視差は不定とする。
 以上説明した処理を行うことによって、第1視差画像と第2視差画像とにおいて画素ごとに信頼性(すなわち一致度)が高いほうの画素値(視差)が抽出されるから、抽出された画素値を用いて実空間における3次元の位置を求めると、信頼性の高い3次元情報が得られる。
 本実施形態のステレオカメラ装置の動作の概要をまとめると図10のように表される。すなわち、左右のカメラ1、2により撮像した2枚の撮像画像から、2枚の第1変換画像(βとφとで表される画像)と、2枚の第2変換画像(βとαとで表される画像)とが生成される。次に、2枚の第1変換画像から視差画像(第1視差画像)が求められるとともに、2枚の第2変換画像から視差画像(第2視差画像)が求められる。このようにして求めた2枚の視差画像を統合することにより、1枚の視差画像が得られるのである。
 以上述べた本実施形態のステレオカメラ装置は、光軸を平行にして配置され視野の少なくとも一部が重複する複数台のカメラ1,2と、カメラ1,2がそれぞれ撮像した複数枚の撮像画像から視野内の各部位(着目点)P1の3次元情報を求めるために当該部位(着目点)P1に対する視差を求める演算処理部10とを備える。本実施形態のステレオカメラ装置では、第1座標系と、第2座標系とが用いられる。第1座標系は、撮像画像における画素の位置がカメラ1,2ごとに受光面に規定した2次元の直交座標で表される座標系である。第2座標系は、第1方向と第2方向と第3方向との3軸の回りのそれぞれの角度によって、原点(光学中心)O1(O2)から部位(着目点)P1を見込む方向(すなわち、カメラ1,2の視方向)が表されるようにカメラ1(2)ごとに規定された座標系である。第1方向は、複数台のカメラ1,2から選択される2台のカメラ1,2の光学中心O1,O2を結ぶ方向である。第2方向は、カメラ1(2)ごとの光軸の方向である。第3方向は、第1方向および第2方向に直交する方向である。演算処理部10は、第1変換部101と、第2変換部102と、視差推定部103と、を備える。第1変換部101は、撮像画像を第1方向の軸周りの角度βを垂直方向の位置とし第2方向の軸周りの角度φを水平方向の位置として表される第1変換画像に変換するように構成される。第2変換部102は、撮像画像を第1方向の軸周りの角度βを垂直方向の位置とし第3方向の軸周りの角度αを水平方向の位置として表される第2変換画像に変換するように構成される。視差推定部103は、第1変換画像および第2変換画像を用いて2台のカメラ1,2の視野における部位(着目点)を対応付けることにより部位(着目点)P1に対する視差を求めるように構成される。
 換言すれば、本実施形態のステレオカメラ装置は、ステレオカメラ部13と、演算処理部10と、を備える。ステレオカメラ部13は、所定の空間を撮像する一対のカメラ1,2を有し、一対のカメラ1,2でそれぞれ撮像された撮像画像を演算処理部10に出力するように構成される。演算処理部10は、第1変換部101と、第2変換部102と、視差推定部103と、を備える。第1変換部101は、一対のカメラ1,2のそれぞれに関して、カメラ1(2)で撮像された撮像画像を第1変換画像に変換するように構成される。第1変換画像は、画素の位置が、第1軸の周りの第1角度βと第2軸の周りの第2角度φとで定義される二次元直交座標で表される画像である。第2変換部102は、一対のカメラ1,2のそれぞれに関して、カメラ1(2)で撮像された撮像画像を第2変換画像に変換するように構成される。第2変換画像は、画素の位置が、第1軸の周りの第1角度βと第3軸の周りの第3角度αとで定義される二次元直交座標で表される画像である。第1軸は、一対のカメラ1,2の光学中心O1,O2同士を結ぶ直線で定義される。第2軸は、カメラ1(2)の光軸で定義される。第3軸は、第1軸と第2軸とにそれぞれ直交する軸である。視差推定部103は、第1変換部101で得られた第1変換画像と第2変換部102で得られた第2変換画像とに基づいて、空間内の着目点P1に関する視差を求めるように構成される。
 以上述べた本実施形態のステレオカメラ装置によれば、カメラ1,2を用いて撮像された画像について、光軸に平行な直線に歪みが生じないように座標変換を行った変換画像(第1変換画像および第2変換画像)を用いるので、2台のカメラ1,2で撮像した画像の対応付けが容易になるという効果がある。
 また、本実施形態のステレオカメラ装置では、視差推定部103は、2台のカメラ1,2ごとに撮像した撮像画像からそれぞれ生成される2枚の第1変換画像における対応点を抽出することにより部位P1に対する視差を求めるとともに当該対応点の一致度を評価し、カメラ1,2ごとに撮像した撮像画像を用いてそれぞれ生成される2枚の第2変換画像における対応点を抽出することにより部位P1に対する視差を求めるとともに当該対応点の一致度を評価し、第1変換画像と第2変換画像との画素ごとに求めた視差のうち部位P1が同じである画素については、一致度が高いほうの視差を部位P1の視差として採用する。
 換言すれば、視差推定部103は、一対のカメラ1,2にそれぞれ対応する2つの第1変換画像から着目点P1の対応点をそれぞれ求め、対応点に基づいて着目点P1に関する視差(第1視差)を算出するとともに、2つの第1変換画像の対応点間の一致度(第1一致度)Dsを評価するように構成される。視差推定部103は、一対のカメラ1,2にそれぞれ対応する2つの第2変換画像から着目点P1の対応点をそれぞれ求め、対応点に基づいて着目点P1に関する視差(第2視差)を算出するとともに、2つの第2変換画像の対応点間の一致度(第2一致度)Dsを評価するように構成される。視差推定部103は、同一の着目点P1に関して第1一致度Dsを第2一致度Dsと比較し、第1一致度Dsが第2一致度Dsより高ければ着目点P1に関する視差として第1視差を採用し、第1一致度Dsが第2一致度Dsより低ければ着目点に関する視差として第2視差を採用するように構成される。
 なお、本実施形態では、ブロックマッチングの技術を採用しているが、第1視差画像と第2視差画像との画素値を求める技術は、ブロックマッチングの技術に限定されず、ステレオマッチングにおいて用いられる他の技術を採用してもよい。
 また、本実施形態のステレオカメラ装置は、さらに、距離測定部(図示せず)を備えていてもよい。距離測定部は、視差推定部103で求められた視差を用いて着目点P1までの距離を求めるように構成される。距離測定部は、複数の着目点P1までの距離を求めることで、距離画像を作成するように構成されていてもよい。
 上述したように、本実施形態は、第1変換画像の水平方向の位置をカメラ1、2ごとの光軸周りの角度(第2角度)φで表しているので、第1変換画像では、光軸に平行な直線を歪みなく対応付けることができる。そのため、第1変換画像を用いることによって、光軸に平行な面に対するステレオマッチングを容易に行うことができる。さらに、第1変換画像に加えて第2変換画像からも視差を求め、一致度を用いて第1変換画像と第2変換画像の視差の精度を評価することで、従来よりも高い精度で視差を推定することが可能になる。
 上記のコンピュータを動作させるプログラムは、光軸を平行にして配置され視野の少なくとも一部が重複する複数台のカメラ1,2と、カメラ1,2がそれぞれ撮像した複数枚の撮像画像から視野内の各部位(着目点)P1の3次元情報を求めるために当該部位(着目点)P1に対する視差を求めるステレオカメラ装置に用いられる。このステレオカメラ装置では、第1座標系と、第2座標系とが用いられる。第1座標系は、撮像画像における画素の位置がカメラ1,2ごとに受光面に規定した2次元の直交座標で表される座標系である。第2座標系は、第1方向と第2方向と第3方向との3軸の回りのそれぞれの角度によって、原点(光学中心)O1(O2)から部位(着目点)P1を見込む方向(すなわち、カメラ1,2の視方向)が表されるようにカメラ1(2)ごとに規定された座標系である。第1方向は、複数台のカメラ1,2から選択される2台のカメラ1,2の光学中心O1,O2を結ぶ方向である。第2方向は、カメラ1(2)ごとの光軸の方向である。第3方向は、第1方向および第2方向に直交する方向である。このプログラムは、コンピュータを、第1変換部101と、第2変換部102と、視差推定部103と、を備える演算処理部10として機能させる。第1変換部101は、撮像画像を第1方向の軸周りの角度βを垂直方向の位置とし第2方向の軸周りの角度φを水平方向の位置として表される第1変換画像に変換するように構成される。第2変換部102は、撮像画像を第1方向の軸周りの角度βを垂直方向の位置とし第3方向の軸周りの角度αを水平方向の位置として表される第2変換画像に変換するように構成される。視差推定部103は、第1変換画像および第2変換画像を用いて2台のカメラ1,2の視野における部位(着目点)を対応付けることにより部位(着目点)P1に対する視差を求めるように構成される。
 なお、このプログラムは、コンピュータ読み取り可能な記録媒体に記録されていてもよい。このコンピュータ読み取り可能な記録媒体は、ステレオカメラ部に接続されるコンピュータに用いられるプログラムが記録されたコンピュータ読み取り可能な記録媒体である。ステレオカメラ部13は、所定の空間を撮像する一対のカメラ1,2を有し、一対のカメラ1,2でそれぞれ撮像された撮像画像を演算処理部10に出力するように構成される。一対のカメラ1,2は、互いの光軸が平行し、かつ、それぞれの視野が重複するように配置される。プログラムは、コンピュータを、第1変換部101と、第2変換部102と、視差推定部103として機能させるように構成される。第1変換部101は、一対のカメラ1,2のそれぞれに関して、カメラ1(2)で撮像された撮像画像を第1変換画像に変換するように構成される。第1変換画像は、画素の位置が、第1軸の周りの第1角度βと第2軸の周りの第2角度φとで定義される二次元直交座標で表される画像である。第2変換部102は、一対のカメラ1,2のそれぞれに関して、カメラ1(2)で撮像された撮像画像を第2変換画像に変換するように構成される。第2変換画像は、画素の位置が、第1軸の周りの第1角度βと第3軸の周りの第3角度αとで定義される二次元直交座標で表される画像である。第1軸は、一対のカメラ1,2の光学中心O1,O2同士を結ぶ直線で定義される。第2軸は、カメラ1(2)の光軸で定義される。第3軸は、第1軸と第2軸とにそれぞれ直交する軸である。視差推定部103は、第1変換部101で得られた第1変換画像と第2変換部102で得られた第2変換画像とに基づいて、空間内の着目点P1に関する視差を求めるように構成される。
 (実施形態2)
 実施形態1では、視差推定部103が、ブロックマッチングの技術を用いることにより対応点を探索している。また、対応点の探索を、第1変換画像と第2変換画像とについてそれぞれ行っている。以下では第1変換画像と第2変換画像とを区別しない場合は、単に変換画像という。
 ブロックマッチングでは、図8のように、対応点を探索しようとする一方の変換画像にウインドウW1が設定されるとともに、他方の変換画像に走査領域W2が設定される。さらに、前記他方の変換画像において走査領域W2が横軸に沿って走査され、上述した式(9)で定義されたSAD値Vsが極小になったときの走査領域W2の位置が対応点として求められる。
 ところで、ブロックマッチングを行う際に、変換画像において走査領域W2の位置が変化してもSAD値Vsに変化がほとんど生じなければ、対応点を求めることができない。このような事象は、変換画像の横方向において、輝度値の分布に変化が少ない場合に生じる。たとえば、変換画像において横方向に沿った帯状の領域が存在し、当該領域の輝度が横方向では変化しないような場合には対応点を求めることができない。
 実施形態1において説明したように、第1変換画像では縦方向の両端部においてカメラの光軸に平行な方向の歪みが少なく、第2変換画像では中央部においてカメラの光軸に直交する平面内の歪みが少ないという知見が得られている。
 対応点の探索は、歪みが少ないほうが容易であり、また信頼性も高いと考えられる。したがって、対応点を探索する画素ごとに、第1変換画像の画素が適している場合と第2変換画像の画素が適している場合とがあると言える。
 本実施形態では、視差推定部103において対応点を探索する前に、第1変換画像と第2変換画像とのどちらが対応点を求めるのに適しているかを評価するために、図11に示すように、領域評価部104を付加している。すなわち、本実施形態では、演算処理部10は、さらに、領域評価部104を備える。
 領域評価部104は、第1変換画像と第2変換画像とについて、横方向の輝度値の変化が比較的大きい領域か否かの評価を行う。
 視差推定部103は、領域評価部104の評価結果を用いて、第1変換画像と第2変換画像との少なくとも一方を対応点の探索に用いる。
 視差推定部103の前置処理として領域評価部104で評価を行い、対応点を求める対象を絞り込むから、無駄な処理が低減されることになり、演算量が低減されるとともに、ステレオマッチングの信頼性が高くなる。
 領域評価部104は、同じ撮像画像から得られる変換画像(第1変換画像および第2変換画像)における横方向の輝度値の変化を評価するために、次式(13)で定義されたエッジ強度E1を第1変換画像の画素(φ,β)の評価値として用いる。また、次式(14)で定義されたエッジ強度E2を第2変換画像の画素(α,β)の評価値として用いる。エッジ強度E1は第1変換画像から求められ、エッジ強度E2は第2変換画像から求められる。
Figure JPOXMLDOC01-appb-M000008
 なお、I1(φ,β)は第1変換画像の位置(φ,β)における輝度値(画素値)であり、I2は第2変換画像の位置(α,β)における輝度値(画素値)である。すなわち、領域評価部104は、第1変換画像の画素(第1画素)(φ,β)についての輝度値の変化に関する第1評価値(エッジ強度)E1と、第1画素(φ,β)に対応する第2変換画像の画素(第2画素)(α,β)についての輝度値の変化に関する第2評価値(エッジ強度)E2とを求める。
 領域評価部104は、図12に示すように、第1変換画像または第2変換画像の全画素について以下の評価を行うことにより、視差推定部103において、第1変換画像と第2変換画像とのどちらを用いて対応点を探索するかを画素ごとに決定する。
 図12に示す動作では、領域評価部104は、第1変換画像の画素(φ,β)に着目してエッジ強度E1を求め、当該画素(φ,β)に対応する第2変換画像の画素(α,β)に着目してエッジ強度E2を求めている。なお、第1変換画像の画素に対応する第2変換画像の画素とは、第1変換画像の画素と同じ撮像画像の画素に由来する第2変換画像の画素を意味する。たとえば、第1変換画像の画素(φ1,β1)と第2変換画像の画素(α2,β2)が同じ撮像画像の画素(u0,v0)に由来していれば、第1変換画像の画素(φ1,β1)と第2変換画像の画素(α2,β2)とは互いに対応する画素である。すなわち、第1変換画像と第2変換画像との着目する画素に対して、それぞれ横方向で前後に並ぶ画素の輝度値からエッジ強度E1、E2が求められる。
 次に、第1変換画像から求めたエッジ強度E1と第2変換画像から求めたエッジ強度E2との差の絶対値が規定の閾値T1と比較される(S11)。すなわち、領域評価部104は、第1評価値E1と第2評価値E2との差|E1-E2|を求め、差|E1-E2|を閾値T1と比較する。
 エッジ強度E1、E2の差の絶対値が閾値T1以下であるときには、第1変換画像と第2変換画像とのどちらから視差を求めても信頼性は同程度と考えられる。
 したがって、エッジ強度E1、E2の差の絶対値が閾値T1以下である場合は(S11:no)、着目する画素は、対応点を求める際に、第1変換画像と第2変換画像との両方を用いるように定められる(S12)。すなわち、領域評価部104は、差|E1-E2|が閾値T1以下であれば第1画素(φ,β)および第2画素(α,β)に関して第3条件を選択する。視差推定部103は、第1画素(φ,β)および第2画素(α,β)に関して第3条件が選択されると第1画素(φ,β)および第2画素(α,β)に関して第1変換画像および第2変換画像を用いて対応点を求める。
 一方、エッジ強度E1、E2の差の絶対値が閾値T1を超える場合は(S11:yes)、エッジ強度E1、E2の大小が比較される(S13)。すなわち、領域評価部104は、差|E1-E2|が閾値T1を超えていれば、第1画素(φ,β)の輝度値の変化(本実施形態ではエッジ強度E1)と第2画素(α,β)の輝度値の変化(本実施形態ではエッジ強度E2)とを比較する。
 エッジ強度E1、E2は大きいほうが対応点の探索が容易であると考えられるから、エッジ強度E1がエッジ強度E2よりも大きい場合は(S13:yes)、着目する画素は、第1変換画像を用いて対応点の探索が行われるように条件が定められる(S14)。すなわち、領域評価部104は、第1画素(φ,β)の輝度値の変化(エッジ強度E1)が第2画素(α,β)の輝度値の変化(エッジ強度E2)より大きければ第1画素(φ,β)および第2画素(α,β)に関して第1条件を選択する。視差推定部103は、第1画素(φ,β)および第2画素(α,β)に関して第1条件が選択されると第1画素(φ,β)および第2画素(α,β)に関して第1変換画像を用いて対応点を求める。
 また、エッジ強度E1がエッジ強度E2よりも小さい場合は(S13:no)、着目する画素について、第2変換画像を用いて対応点の探索が行われるように条件が定められる(S15)。すなわち、領域評価部104は、第1画素(φ,β)の輝度値の変化(エッジ強度E1)が第2画素(α,β)の輝度値の変化(エッジ強度E2)より小さければ第1画素(φ,β)および第2画素(α,β)に関して第2条件を選択する。視差推定部103は、第1画素(φ,β)および第2画素(α,β)に関して第2条件が選択されると第1画素(φ,β)および第2画素(α,β)に関して第2変換画像を用いて対応点を求める。
 上述した処理は、第1変換画像のすべての画素について行われる(S16)。また、領域評価部104での評価結果は、演算処理部10に設けた記憶装置12を介して視差推定部103に引き渡される。
 図12の手順で対応点の探索を行う領域を振り分けると、第1変換画像21は、図13(a)のように、第1変換画像21のみを用いる領域211と、第1変換画像21および第2変換画像22の両方を用いる領域212と、対応点の探索に用いない領域213とに分離される。また、第2変換画像22は、図13(b)のように、第2変換画像22のみを用いる領域221と、第1変換画像21および第2変換画像22の両方を用いる領域222と、対応点の探索に用いない領域223とに分離される。
 以上述べた本実施形態のステレオカメラ装置は、領域評価部104を備える。領域評価部104は、第1変換画像と第2変換画像との両方について着目する画素ごとに周囲の輝度値の変化に関する評価値を求め、評価値の差が規定の閾値T1を超える場合は第1変換画像と第2変換画像とのうち輝度値の変化が大きいほうを当該画素の対応点の抽出に用い、評価値の差が閾値T1未満の場合に第1変換画像と第2変換画像との両方を当該画素の対応点の抽出に用いるように条件を定めるように構成される。視差推定部103は、領域評価部104が定めた条件に従って画素ごとに対応点を抽出するように構成される。
 換言すれば、本実施形態のステレオカメラ装置では、演算処理部10は、さらに、領域評価部104を備える。領域評価部104は、第1変換画像の画素(第1画素)(φ,β)についての輝度値の変化に関する第1評価値(エッジ強度)E1と、第1画素(φ,β)に対応する第2変換画像の画素(第2画素)(α,β)についての輝度値の変化に関する第2評価値(エッジ強度)E2とを求めるように構成される。領域評価部104は、第1評価値E1と第2評価値E2との差|E1-E2|を求めて規定の閾値T1と比較するように構成される。領域評価部104は、差|E1-E2|が閾値T1を超えていれば、第1画素(φ,β)の輝度値の変化(本実施形態ではエッジ強度E1)と第2画素(α,β)の輝度値の変化(本実施形態ではエッジ強度E2)とを比較する。領域評価部104は、第1画素(φ,β)の輝度値の変化(エッジ強度E1)が第2画素(α,β)の輝度値の変化(エッジ強度E2)より大きければ第1画素(φ,β)および第2画素(α,β)に関して第1条件を選択するように構成される。領域評価部104は、第1画素(φ,β)の輝度値の変化(エッジ強度E1)が第2画素(α,β)の輝度値の変化(エッジ強度E2)より小さければ第1画素(φ,β)および第2画素(α,β)に関して第2条件を選択するように構成される。領域評価部104は、差|E1-E2|が閾値T1以下であれば第1画素(φ,β)および第2画素(α,β)に関して第3条件を選択するように構成される。視差推定部103は、第1画素(φ,β)および第2画素(α,β)に関して第1条件が選択されると第1画素(φ,β)および第2画素(α,β)に関して第1変換画像を用いて対応点を求めるように構成される。視差推定部103は、第1画素(φ,β)および第2画素(α,β)に関して第2条件が選択されると第1画素(φ,β)および第2画素(α,β)に関して第2変換画像を用いて対応点を求めるように構成される。視差推定部103は、第1画素(φ,β)および第2画素(α,β)に関して第3条件が選択されると第1画素(φ,β)および第2画素(α,β)に関して第1変換画像および第2変換画像を用いて対応点を求めるように構成される。
 本実施形態では、視差推定部103が対応点を探索して視差を求める処理を行う前に、領域評価部104が第1変換画像と第2変換画像とのどちらを用いて対応点を求めるかの条件を定めている。したがって、第1変換画像と第2変換画像とにおいて視差を求める領域が絞り込まれる。すなわち、第1変換画像と第2変換画像との全領域について対応点を求める場合に比較して演算量が低減される。しかも、領域評価部104は、画素ごとに求められる視差の信頼性をできるだけ高くするように、第1変換画像と第2変換画像とから対応点を探索する画素を抽出するから、求められる視差の信頼性が高くなる。
 上述した動作では、着目する画素に対して横方向に隣接する画素からエッジ強度E1、E2を求めているが、ソーベルオペレータのように、画像処理技術においてエッジ強度を求めたり輝度値の勾配方向を求めるために用いられている他の技術を採用してもよい。他の構成および動作は実施形態1と同様であるから説明を省略する。
 (実施形態3)
 実施形態1は、カメラ1、2で撮像したすべての画素を対象として、第1変換部101と第2変換部102とにおいて撮像画像の変換を行っているから、計算量が比較的多くなっている。本実施形態では、第1変換部101と第2変換部102とにおいて撮像画像を変換する領域をあらかじめ制限することにより計算量を低減する技術について説明する。
 第1変換部101と第2変換部102とは、それぞれ座標を変換する機能と、変換後の座標に輝度値を対応付ける機能とを備えている。座標の変換は、上式(1)~(8)を用いて行うから、一部はルックアップテーブルを用いて比較的簡単な処理で行うことができるが、変換後の座標に輝度値を対応付ける処理は、逆変換を伴うから計算量の増加につながる。
 そこで、第1変換部101は、座標の変換を行った後に、図14のように、第1変換画像21におけるβ=0の中心線210からみて角度βが規定の閾値h1(たとえば、h1=30度)以上になるという条件(第1決定条件)を満たす領域214のみで輝度値を対応付ける処理を行う。すなわち、第1変換部101は、第1変換画像21において|β|≧h1となる領域214にのみ画素値(輝度値)を与える処理を行う。
 つまり、第1変換部101は、予め定められた第1決定条件に従って第1変換画像から対応点の抽出に用いられる第1抽出領域(領域214)を決定し、第1抽出領域(領域214)に含まれる画素について画素値を算出し、第1抽出領域(領域214)に含まれない画素については画素値を算出しないように構成される。
 第1変換画像の各画素に輝度値を対応付けるには、第1変換画像の各画素の位置(φ,β)からカメラ1、2が撮像した画像の位置(u,v)を求める処理が必要である。さらに、求めた位置(u,v)の周辺の画素の輝度値を用いて補間演算により輝度値を決定する必要がある。したがって、第1変換画像の各画素に輝度値を対応付ける処理は、撮像された撮像画像の位置(u,v)を第1変換画像の各画素の位置(φ,β)に変換する処理よりも計算量が多くなる。これに対して、本実施形態では、輝度値を対応付ける範囲を制限したことによって、計算量の低減が可能になっている。
 同様にして、第2変換部102は、座標の変換を行った後に、図15のように、第2変換画像22のβ=0の中心線220からみて角度βが規定の閾値h2(たとえば、h2=60度)以下になるという条件(第2決定条件)を満たす領域224のみで輝度値を対応付ける処理を行う。すなわち、第2変換部102は、第2変換画像22において|β|≦h2となる領域224にのみ画素値(輝度値)を与える処理を行う。
 つまり、第2変換部102は、予め定められた第2決定条件に従って第2変換画像から対応点の抽出に用いられる第2抽出領域(領域224)を決定し、第2抽出領域(領域224)に含まれる画素について画素値を算出し、第2抽出領域(領域224)に含まれない画素については画素値を算出しないように構成される。
 このように、第2変換画像22についても輝度値を対応付ける範囲を制限することにより計算量が低減されることになる。
 第1変換画像21および第2変換画像22が一部領域になる点を除いて実施形態1と同様であって、第1変換画像21および第2変換画像22が得られた後は、第1視差画像および第1一致度画像と第2視差画像および第2一致度画像を求め、視差を決定する処理を行う。
 以上述べたように、本実施形態のステレオカメラ装置では、第1変換部101および第2変換部102は、第1変換画像と第2変換画像とについて、第1変換画像と第2変換画像との一方を用いて対応点を抽出する第1の領域と、第1変換画像と第2変換画像との両方を用いて対応点を抽出する第2の領域とのうち、少なくとも第1の領域をあらかじめ与えられた条件に従って定める機能を有する。
 換言すれば、本実施形態のステレオカメラ装置では、第1変換部101は、予め定められた第1決定条件に従って第1変換画像から対応点の抽出に用いられる第1抽出領域(領域214)を決定し、第1抽出領域(領域214)に含まれる画素について画素値を算出し、第1抽出領域(領域214)に含まれない画素については画素値を算出しないように構成される。第2変換部102は、予め定められた第2決定条件に従って第2変換画像から対応点の抽出に用いられる第2抽出領域(領域224)を決定し、第2抽出領域(領域224)に含まれる画素について画素値を算出し、第2抽出領域(領域224)に含まれない画素については画素値を算出しないように構成される。
 また、本実施形態において示した閾値h1,h2は一例であって、これらの閾値h1,h2は適宜に設定することが可能である。とくに、撮像画像全体の視差を求める必要がない場合には、第1変換画像および第2変換画像において輝度値を対応付ける領域をさらに狭めてもよい。また、第1変換画像と第2変換画像とにおいて輝度値を対応付ける領域が重複しないように閾値h1,h2を設定してもよい。他の構成および動作は実施形態1と同様である。
 ここに、本実施形態の構成は、以下の知見に基づいている。すなわち、第1変換画像21では、角度βが大きい領域214で光軸に平行な面が歪みなく反映されるので、ステレオマッチングが容易になる。すなわち、領域214では、第2変換画像22から求めた第2視差画像の画素値(視差)が採用される確率が低く、第1変換画像21から求めた第1視差画像の画素値が採用される確率が高い。そのため、角度βが大きい領域214では第2変換画像よりも第1変換画像21を用いることが好ましく、領域214では第2変換画像22を用いないようにすれば計算量の低減を図ることができる。
 一方、第2変換画像22では、角度βが小さい領域において光軸に対して交差する面が歪みなく反映され、光軸に平行な面の歪みも小さい。したがって、角度βが小さい領域においては、第1変換画像21から得られる第1視差画像の画素値(視差)よりも第2変換画像22から求められる第2視差画像の画素値が採用される確率が高くなる。そのため、領域214を除く領域では、第1変換画像21を用いないようにすれば計算量の低減を図ることができる。
 (実施形態4)
 本実施形態は、実施形態3と同様に第1変換画像および第2変換画像において一部の領域にのみ輝度値を対応付ける技術を採用することにより計算量を低減させている。実施形態3では、第1変換画像に対して用いる閾値h1と、第2変換画像に対して用いる閾値h2とを異ならせているが、本実施形態では第1変換画像と第2変換画像とに対して同じ閾値h3を用いている点が相違する。
 すなわち、本実施形態では、第1変換画像に対しては角度βが閾値h3以上になるという条件を満たす領域に輝度値を対応付け、第2変換画像に対しては角度βが閾値h3以下になるという条件を満たす領域に輝度値を対応付けている。
 したがって、視差を求める際に第1変換画像と第2変換画像とにおいて重複する領域がなく、それだけ計算量を低減させることができる。閾値h3は、とくに制限はないが、ステレオマッチングでの一致度評価の信頼性の低下を防止するには、たとえば、45度に設定することが好ましい。
 上述したように、本実施形態の第1変換部101および第2変換部102の動作は、閾値h3が異なる点を除いて実施形態2と同様である。ただし、第1変換部101で得られる第1変換画像と第2変換部で得られる第2変換画像とは角度βの重複する領域がないから、本実施形態は、図16のように、第1変換部101が生成した第1変換画像と第2変換部102が生成した第2変換画像とを合成する画像合成部105を付加している。すなわち、本実施形態において、演算処理部10は、さらに、画像合成部105を備える。
 したがって、カメラ1、2ごとに撮像した撮像画像から生成した第1変換画像と第2変換画像との4種類の画像を視差推定部103に引き渡すのではなく、画像合成部105が合成した後の2種類の画像を視差推定部103に引き渡すことになる。そのため、視差推定部103は、第1視差画像と第2視差画像との2種類の視差画像ではなく1種類の視差画像を生成し、また、第1一致度画像と第2一致度画像との2種類の一致度画像ではなく1種類の一致度画像を生成する。言い換えると、視差推定部103は、合成後の2種類の画像(変換画像)を用いて1回だけの対応付けの処理により視差を求める。
 ところで、第1変換画像と第2変換画像とを画像合成部105において合成すると、境界において画像が不連続になっている場合に、ステレオマッチングでの一致度評価の信頼性が低下する場合がある。すなわち、境界において画像が不連続である場合、ブロックマッチングの技術を用いたステレオマッチングにおいて、境界を含むウインドウW1と走査領域W2との中に距離の異なる物体が含まれ、結果的に一致度評価の信頼性が低下することになる。
 この問題は、ウインドウW1と走査領域W2との画素数を少なくすれば低減されるが、ウインドウW1と走査領域W2との画素数を少なくするとSAD値の変化が小さくなり、対応点を抽出する精度が低下することになる。
 一方、合成された変換画像の境界が不連続になるか否かは、閾値h3に依存しており、数4によれば、β=45度であれば、Y=Zであるから、α=φとなり、閾値h3が45度であれば、変換画像の境界が連続することになる。そのため、上述したように閾値h3は45度が望ましいと言える。ただし、閾値h3が45度以外であっても、境界付近の信頼性が低下するだけであって、他の領域については視差の信頼性は低下しない。
 以上述べたように、本実施形態のステレオカメラ装置では、第1変換部101および第2変換部102は、第1変換画像と第2変換画像とについて、第1変換画像と第2変換画像との一方を用いて対応点を抽出する第1の領域と、第1変換画像と第2変換画像との両方を用いて対応点を抽出する第2の領域とのうち、少なくとも第1の領域をあらかじめ与えられた条件に従って定める機能を有する。
 換言すれば、本実施形態のステレオカメラ装置では、第1変換部101は、予め定められた第1決定条件に従って第1変換画像から対応点の抽出に用いられる第1抽出領域(領域214)を決定し、第1抽出領域(領域214)に含まれる画素について画素値を算出し、第1抽出領域(領域214)に含まれない画素については画素値を算出しないように構成される。第2変換部102は、予め定められた第2決定条件に従って第2変換画像から対応点の抽出に用いられる第2抽出領域(領域224)を決定し、第2抽出領域(領域224)に含まれる画素について画素値を算出し、第2抽出領域(領域224)に含まれない画素については画素値を算出しないように構成される。
 特に、本実施形態のステレオカメラ装置では、第1決定条件は、第2決定条件と等しい。
 他の構成および動作は実施形態1、実施形態2と同様であって、本実施形態では第1変換画像と第2変換画像とが重複しないから、視差推定部103での計算量が実施形態2よりも低減される。その結果、実施形態2よりも少ない計算量で実空間の3次元情報を求めることが可能になる。また、第1変換画像と第2変換画像の境界において画素値が一致するから、境界を含む領域でブロックマッチングの技術を用いたステレオマッチングを行う場合でも、一致度の信頼性が高められる。すなわち、一致度の信頼性が高まることによりステレオマッチングの信頼性も向上する。
 (実施形態5)
 実施形態1において説明したように、第1変換画像は縦方向の両端部においてカメラの光軸に平行な方向の歪みが少なく、第2変換画像は中央部においてカメラの光軸に直交する平面内の歪みが少ないという特性を有している。このことから、実施形態3、4のように、第1変換画像と第2変換画像とから適宜に領域を抽出すれば、縦方向の両端部および中央部において歪みの少ない領域を用いて対応点を抽出することができる。ただし、第1変換画像と第2変換画像とのいずれについても、横方向の両端部における歪みは比較的大きく、この領域は、第1変換画像と第2変換画像とのどちらを用いても他の領域と比較すると視差の信頼性が低下する。
 そこで、本実施形態では、カメラの台数を増加させることにより、求められる視差の信頼性を向上させている。いま、室内における天井面の中央部にカメラを配置した場合を想定する。この場合、第1変換画像は、縦方向(β方向)の両端部において鉛直方向に沿った壁面や柱の画像について歪みが少なく、また、第2変換画像は、中央部において水平面に沿った床面や机の上面の画像について歪みが少なくなる。したがって、ステレオビジョンにより3次元情報を計測するカメラを2組設け、第1変換画像の縦方向(β方向)を互いに直交させておけば、室内のすべての壁面や柱について歪みの少ない画像を得ることが可能になる。
 上述した知見では、2台で一組になるカメラを2組設け、合計4台のカメラによって、室内のすべての領域について歪みの少ない画像を得ることが可能になることがわかる。たとえば、ステレオビジョンのための2台のカメラ111、112を、図17(a)に示すように、図の左右に並べて天井面の中央部に配置した場合、第1変換画像の中で室内の左右方向に沿った壁面301、302に相当する領域は歪みが少なくなる。一方、ステレオビジョンのためのカメラ113、114を、図17(b)に示すように、天井面に沿って図17(a)に示す位置に対して90度回転させた場合、第1変換画像の中で、上記壁面301、302に直交する壁面303、304に相当する領域は歪みが少なくなる。
 本実施形態では、4台のカメラ111、112、113、114のうちの1台を両方の組で共用することにより、3台のカメラを用いて4台のカメラを用いる場合と同様の機能を達成する例を示す。図17に示す例に従って、カメラ111とカメラ113とが共用されている場合を例示する。したがって、3台のカメラ111、112、114を用いているものとする。3台のカメラ111、112、114は、直角二等辺三角形の頂点の位置に光学中心を位置させるように配置される。すなわち、共用されるカメラ111に対して残りのカメラ112、114が等距離に配置される。ただし、光学中心の位置が直角二等辺三角形の頂点をなすことは必須ではなく、たとえば、3台のカメラ111、112、114の光学中心の位置が正三角形をなすように配置することも可能である。
 以下では、直角二等辺三角形の頂点の位置にカメラ111、112、114が配置されている場合を例として説明する。ステレオビジョンにより3次元情報を計測する際は、3台のカメラ111、112、114のうちの2台ずつを組み合わせて用いる。つまり、2台のカメラ111、112からなる組と、2台のカメラ111、114からなる組とをそれぞれ用いてステレオビジョンによる3次元情報の計測を行う。各組ごとの3次元情報の計測は、実施形態1と同様に行われる。
 ところで、4台のカメラを用いる場合は、2台ずつのカメラを撮像画像の水平方向(x方向)に並べて配置することができる。しかしながら、3台のカメラを用いる場合は、2台のカメラ(たとえば、カメラ111とカメラ112)を撮像画像の水平方向(x方向)に並べると、他の2台のカメラ(たとえば、カメラ111とカメラ114)は撮像画像の水平方向に並ばなくなる。この場合、カメラ114の水平方向は、カメラ111、112のベースラインの方向と平行させるか、直交させることになる。
 したがって、実施形態1と同じ数式を用いて第1変換画像および第2変換画像を生成するには、図18のように、第1変換部101および第2変換部102に前置して、撮像画像を90度回転させるための回転処理部106が必要になる。ベースラインの方向が変換前の画像の水平方向に一致していない場合には、回転処理部106を用いて撮像画像を適宜に回転させることによって、ベースラインの方向を変換前の画像の水平方向に一致させることができる。ここに、3台のカメラ111、112、114がそれぞれ撮像した3枚の撮像画像は、記憶装置12に記憶されているから、回転処理部106は、必要に応じて画素を読み出す方向を変更する機能があればよい。
 上述のように、回転処理部106が設けられていることにより、実施形態1と同じ数式(変換式)を用いて第1変換画像および第2変換画像を生成することが可能になる。ただし、回転処理部106によって撮像画像を回転させる代わりに、第1変換画像および第2変換画像への変換を行うための数式により回転と等価な変換を行ってもよい。
 上述した構成によって、第1変換画像および第2変換画像は2組ずつ生成される。各組ごとの処理は実施形態1と同様であって、第1変換画像の組と第2変換画像の組とを用いて視差が求められる。ここに、視差は組ごとに得られるから、選択処理部107を用いて信頼性の高いほうの視差を選択する。視差の信頼性の評価には、実施形態1と同様に、一致度Dsの評価を行えばよい。なお、この動作では選択処理部107において一致度Dsの評価を行うから、選択処理部107には、第1一致度画像および第2一致度画像も与えられる。
 本実施形態のステレオカメラ装置は、図18に示されるように、複数(図18では2つ)のステレオカメラ部13(131,132)を備える。複数のステレオカメラ部131,132は、第1軸が互いに交差し、かつ、第2軸が互いに平行するように配置される。視差推定部103は、複数のステレオカメラ部131,132毎に着目点に関する視差を求めるように構成される。演算処理部10は、選択処理部107を備える。選択処理部107は、視差推定部103で求められた視差毎に信頼度(本実施形態では一致度Ds)を求め、視差推定部103で求められた視差のうち最も信頼度が高い視差を採用するように構成される。
 また、本実施形態のステレオカメラ装置では、複数のステレオカメラ部13のうちの1つ(ステレオカメラ部131)の2つのカメラの一方(本実施形態ではカメラ111)は、他のステレオカメラ部(ステレオカメラ部132)のカメラとして用いられる。
 換言すれば、本実施形態のステレオカメラ装置は、ステレオカメラシステムであるともいえる。このステレオカメラシステムは、ステレオカメラ装置を2組備え、ステレオカメラ装置ごとに設けられた2台ずつのカメラが、第1方向を互いに交差させるとともにカメラの光軸を平行にして配置され、ステレオカメラ装置ごとに設けられた視差推定部103が推定した視差のうち信頼性の高いほうの視差を選択する選択処理部107を備える。
 特に、図18の例では、2つのステレオカメラ装置の一方の演算処理部10が他方のステレオカメラ装置の演算処理部10としても用いられている。すなわち、複数のステレオカメラ装置は、演算処理部10を共用している。
 また、図18の例では、選択処理部107は、演算処理部10に含まれているが、必ずしも演算処理部10に含まれている必要なない。
 また、本実施形態のステレオカメラシステムでは、ステレオカメラ装置ごとに設けられた2台ずつのカメラのうち各1台が共用されている。
 他の構成および動作は実施形態1と同様であるから説明を省略する。また、本実施形態は、実施形態2~4の構成および動作と組み合わせて用いることが可能である。ここに、上述したように、第2変換画像は中央部において水平面に沿った床面や机の上面の歪みが少なく、第1変換画像は縦方向の両端部において鉛直方向に沿った壁面や柱の歪みが少ない。したがって、実施形態3、4のように領域を選択する場合は、各組ごとに第1変換画像の縦方向における両端部の領域を選択すれば、室内全体において対応点の探索が容易になる。さらに、実施形態2のように、対応点の探索が容易になる領域を評価する場合、各組ごとに第1変換画像と第2変換画像との評価を行い、さらに、異なる組について同様の評価を行えばよい。異なる組について評価を行う場合、エッジ強度の差の大小を比較し、エッジ強度の差が大きい組を優先して採用すればよい。

Claims (7)

  1.  ステレオカメラ部と、
     演算処理部と、
     を備え、
     前記ステレオカメラ部は、所定の空間を撮像する一対のカメラを有し、前記一対のカメラでそれぞれ撮像された撮像画像を前記演算処理部に出力するように構成され、
     前記演算処理部は、第1変換部と、第2変換部と、視差推定部と、を備え、
     前記第1変換部は、前記一対のカメラのそれぞれに関して、前記カメラで撮像された撮像画像を第1変換画像に変換するように構成され、
     前記第1変換画像は、画素の位置が、第1軸の周りの第1角度と第2軸の周りの第2角度とで定義される二次元直交座標で表される画像であり、
     前記第2変換部は、前記一対のカメラのそれぞれに関して、前記カメラで撮像された撮像画像を第2変換画像に変換するように構成され、
     前記第2変換画像は、画素の位置が、前記第1角度と第3軸の周りの第3角度とで定義される二次元直交座標で表される画像であり、
     前記第1軸は、前記一対のカメラの光学中心同士を結ぶ直線で定義され、
     前記第2軸は、前記カメラの光軸で定義され、
     前記第3軸は、前記第1軸と前記第2軸とにそれぞれ直交する軸であり、
     前記視差推定部は、前記第1変換部で得られた前記第1変換画像と前記第2変換部で得られた前記第2変換画像とに基づいて、前記空間内の着目点に関する視差を求めるように構成される
     ことを特徴とするステレオカメラ装置。
  2.  前記視差推定部は、前記一対のカメラにそれぞれ対応する2つの前記第1変換画像から前記着目点の対応点をそれぞれ求め、前記対応点に基づいて前記着目点に関する第1視差を算出するとともに、2つの前記第1変換画像の前記対応点間の第1一致度を評価するように構成され、
     前記視差推定部は、前記一対のカメラにそれぞれ対応する2つの前記第2変換画像から前記着目点の対応点をそれぞれ求め、前記対応点に基づいて前記着目点に関する第2視差を算出するとともに、2つの前記第2変換画像の前記対応点間の第2一致度を評価するように構成され、
     前記視差推定部は、同一の着目点に関して前記第1一致度を前記第2一致度と比較し、前記第1一致度が前記第2一致度より高ければ前記着目点に関する視差として前記第1視差を採用し、前記第1一致度が前記第2一致度より低ければ前記着目点に関する視差として前記第2視差を採用するように構成される
     ことを特徴とする請求項1記載のステレオカメラ装置。
  3.  前記演算処理部は、さらに、領域評価部を備え、
     前記領域評価部は、前記第1変換画像の第1画素についての輝度値の変化に関する第1評価値と、前記第1画素に対応する前記第2変換画像の第2画素についての輝度値の変化に関する第2評価値とを求め、
     前記領域評価部は、前記第1評価値と前記第2評価値との差を求めて規定の閾値と比較するように構成され、
     前記領域評価部は、
      前記差が前記閾値を超えていれば、前記第1画素の輝度値の変化と前記第2画素の輝度値の変化とを比較し、
      前記第1画素の輝度値の変化が前記第2画素の輝度値の変化より大きければ前記第1画素および前記第2画素に関して第1条件を選択し、
      前記第1画素の輝度値の変化が前記第2画素の輝度値の変化より小さければ前記第1画素および前記第2画素に関して第2条件を選択するように構成され、
     前記領域評価部は、前記差が前記閾値以下であれば前記第1画素および前記第2画素に関して第3条件を選択するように構成され、
     前記視差推定部は、
      前記第1画素および前記第2画素に関して前記第1条件が選択されると前記第1画素および前記第2画素に関して前記第1変換画像を用いて対応点を求め、
      前記第1画素および前記第2画素に関して前記第2条件が選択されると前記第1画素および前記第2画素に関して前記第2変換画像を用いて対応点を求め、
      前記第1画素および前記第2画素に関して前記第3条件が選択されると前記第1画素および前記第2画素に関して前記第1変換画像および前記第2変換画像を用いて対応点を求めるように構成される
     ことを特徴とする請求項2記載のステレオカメラ装置。
  4.  前記第1変換部は、予め定められた第1決定条件に従って前記第1変換画像から対応点の抽出に用いられる第1抽出領域を決定し、前記第1抽出領域に含まれる画素について画素値を算出し、前記第1抽出領域に含まれない画素については画素値を算出しないように構成され、
     前記第2変換部は、予め定められた第2決定条件に従って前記第2変換画像から対応点の抽出に用いられる第2抽出領域を決定し、前記第2抽出領域に含まれる画素について画素値を算出し、前記第2抽出領域に含まれない画素については画素値を算出しないように構成される
     ことを特徴とする請求項2記載のステレオカメラ装置。
  5.  複数の前記ステレオカメラ部を備え、
     前記複数の前記ステレオカメラ部は、前記第1軸が互いに交差し、かつ、前記第2軸が互いに平行するように配置され、
     前記視差推定部は、前記複数の前記ステレオカメラ部毎に前記着目点に関する視差を求めるように構成され、
     前記演算処理部は、選択処理部を備え、
     前記選択処理部は、前記視差推定部で求められた視差毎に信頼度を求め、前記視差推定部で求められた視差のうち最も信頼度が高い視差を採用するように構成される
     ことを特徴とする請求項1~4のうちのいずれか1項記載のステレオカメラ装置。
  6.  前記複数のステレオカメラ部のうちの1つの前記2つのカメラの一方は、他のステレオカメラ部のカメラとして用いられる
     ことを特徴とする請求項5記載のステレオカメラ装置。
  7.  ステレオカメラ部に接続されるコンピュータに用いられるプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
     前記ステレオカメラ部は、所定の空間を撮像する一対のカメラを有し、前記一対のカメラでそれぞれ撮像された撮像画像を前記演算処理部に出力するように構成され、
     前記一対のカメラは、互いの光軸が平行し、かつ、それぞれの視野が重複するように配置され、
     前記プログラムは、第1変換部と、第2変換部と、視差推定部として機能させるように構成され、
     前記第1変換部は、前記一対のカメラのそれぞれに関して、前記カメラで撮像された撮像画像を第1変換画像に変換するように構成され、
     前記第1変換画像は、画素の位置が、第1軸の周りの第1角度と第2軸の周りの第2角度とで定義される二次元直交座標で表される画像であり、
     前記第2変換部は、前記一対のカメラのそれぞれに関して、前記カメラで撮像された撮像画像を第2変換画像に変換するように構成され、
     前記第2変換画像は、画素の位置が、前記第1角度と第3軸の周りの第3角度とで定義される二次元直交座標で表される画像であり、
     前記第1軸は、前記一対のカメラの光学中心同士を結ぶ直線で定義され、
     前記第2軸は、前記カメラの光軸で定義され、
     前記第3軸は、前記第1軸と前記第2軸とにそれぞれ直交する軸であり、
     前記視差推定部は、前記第1変換部で得られた前記第1変換画像と前記第2変換部で得られた前記第2変換画像とに基づいて、前記空間内の着目点に関する視差を求めるように構成される
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2012/063964 2011-05-30 2012-05-30 ステレオカメラ装置、および、コンピュータ読み取り可能な記録媒体 WO2012165491A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201280026027.7A CN103582802A (zh) 2011-05-30 2012-05-30 立体照相机装置和计算机可读记录介质
EP12794055.9A EP2717013A4 (en) 2011-05-30 2012-05-30 STEREO CAMERA DEVICE AND COMPUTER-READABLE RECORDING MEDIUM
US14/113,975 US20140043444A1 (en) 2011-05-30 2012-05-30 Stereo camera device and computer-readable recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011120757A JP2012247364A (ja) 2011-05-30 2011-05-30 ステレオカメラ装置、ステレオカメラシステム、プログラム
JP2011-120757 2011-05-30

Publications (1)

Publication Number Publication Date
WO2012165491A1 true WO2012165491A1 (ja) 2012-12-06

Family

ID=47259343

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/063964 WO2012165491A1 (ja) 2011-05-30 2012-05-30 ステレオカメラ装置、および、コンピュータ読み取り可能な記録媒体

Country Status (5)

Country Link
US (1) US20140043444A1 (ja)
EP (1) EP2717013A4 (ja)
JP (1) JP2012247364A (ja)
CN (1) CN103582802A (ja)
WO (1) WO2012165491A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016070774A (ja) * 2014-09-30 2016-05-09 株式会社リコー 視差値導出装置、移動体、ロボット、視差値生産方法、及びプログラム
WO2017065171A1 (ja) * 2015-10-14 2017-04-20 東芝ライフスタイル株式会社 電気掃除機
US20220007002A1 (en) * 2019-03-18 2022-01-06 Canon Kabushiki Kaisha Lens apparatus and image pickup apparatus
US11257248B2 (en) 2017-08-01 2022-02-22 Sony Corporation Information processing device, information processing method, recording medium, and image capturing apparatus for self-position-posture estimation

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103256896B (zh) * 2013-04-19 2015-06-24 大连理工大学 一种高速滚转体位姿测量方法
JP6342128B2 (ja) 2013-08-23 2018-06-13 キヤノンメディカルシステムズ株式会社 画像処理装置、方法、及びプログラム、並びに、立体画像表示装置
JP6500493B2 (ja) * 2015-02-25 2019-04-17 株式会社リコー 視差画像生成システム、ピッキングシステム、視差画像生成方法およびプログラム
CN108139202B (zh) * 2015-09-30 2021-06-11 索尼公司 图像处理装置、图像处理方法和程序
EP3193305B1 (en) * 2016-01-12 2018-09-12 Continental Automotive GmbH Method and device for displaying a front-view of a vehicle's surrounding and respective vehicle
US10582179B2 (en) 2016-02-01 2020-03-03 Samsung Electronics Co., Ltd. Method and apparatus for processing binocular disparity image
US10706569B2 (en) * 2016-06-08 2020-07-07 Amazon Technologies, Inc. Selectively paired imaging elements for stereo images
CN108074250B (zh) * 2016-11-10 2022-01-04 株式会社理光 匹配代价计算方法和装置
US20230107110A1 (en) * 2017-04-10 2023-04-06 Eys3D Microelectronics, Co. Depth processing system and operational method thereof
CN107087120B (zh) * 2017-06-22 2019-07-12 中国科学院计算技术研究所 一种用于同步多ccd摄像机的方法和系统
US10460512B2 (en) * 2017-11-07 2019-10-29 Microsoft Technology Licensing, Llc 3D skeletonization using truncated epipolar lines
DE102017128698A1 (de) * 2017-12-04 2019-06-06 Innogy Innovation Gmbh Verfahren und System zur Bestimmung einer Position eines Objektes
JP7253323B2 (ja) * 2018-02-14 2023-04-06 オムロン株式会社 3次元計測システム及び3次元計測方法
JP6857147B2 (ja) * 2018-03-15 2021-04-14 株式会社日立製作所 三次元画像処理装置、及び三次元画像処理方法
US11055866B2 (en) 2018-10-29 2021-07-06 Samsung Electronics Co., Ltd System and method for disparity estimation using cameras with different fields of view
CN115191113A (zh) * 2020-08-20 2022-10-14 阿尔戈斯视觉公司 宽视角立体摄像机装置及使用其的深度影像处理方法
US20240257389A1 (en) * 2023-01-26 2024-08-01 Ford Global Technologies, Llc Occupant head position in vehicle

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007024647A (ja) * 2005-07-14 2007-02-01 Iwate Univ 距離算出装置、距離算出方法、構造解析装置及び構造解析方法。
JP2008096162A (ja) * 2006-10-06 2008-04-24 Iwate Univ 3次元距離計測センサおよび3次元距離計測方法
JP2009139246A (ja) * 2007-12-07 2009-06-25 Honda Motor Co Ltd 画像処理装置、画像処理方法、画像処理プログラムおよび位置検出装置並びにそれを備えた移動体
JP2011064566A (ja) * 2009-09-17 2011-03-31 Fujitsu Ltd 距離推定装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10326357A (ja) * 1997-05-26 1998-12-08 Sony Corp 画像処理方法及び装置並びに画像処理用パネル並びに記録媒体
CN100349467C (zh) * 2004-05-13 2007-11-14 三洋电机株式会社 立体图像处理方法及立体图像处理装置
JP4424088B2 (ja) * 2004-06-25 2010-03-03 株式会社日立製作所 撮像装置
JP2009129001A (ja) * 2007-11-20 2009-06-11 Sanyo Electric Co Ltd 運転支援システム、車両、立体物領域推定方法
CN101680756B (zh) * 2008-02-12 2012-09-05 松下电器产业株式会社 复眼摄像装置、测距装置、视差算出方法以及测距方法
CN101592477B (zh) * 2009-06-30 2011-07-20 长春理工大学 直角反射式三维激光扫描仪及用其实现立体成像的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007024647A (ja) * 2005-07-14 2007-02-01 Iwate Univ 距離算出装置、距離算出方法、構造解析装置及び構造解析方法。
JP2008096162A (ja) * 2006-10-06 2008-04-24 Iwate Univ 3次元距離計測センサおよび3次元距離計測方法
JP2009139246A (ja) * 2007-12-07 2009-06-25 Honda Motor Co Ltd 画像処理装置、画像処理方法、画像処理プログラムおよび位置検出装置並びにそれを備えた移動体
JP2011064566A (ja) * 2009-09-17 2011-03-31 Fujitsu Ltd 距離推定装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2717013A4 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016070774A (ja) * 2014-09-30 2016-05-09 株式会社リコー 視差値導出装置、移動体、ロボット、視差値生産方法、及びプログラム
WO2017065171A1 (ja) * 2015-10-14 2017-04-20 東芝ライフスタイル株式会社 電気掃除機
JP2017074191A (ja) * 2015-10-14 2017-04-20 東芝ライフスタイル株式会社 電気掃除機
US10932635B2 (en) 2015-10-14 2021-03-02 Toshiba Lifestyle Products & Services Corporation Vacuum cleaner
US11257248B2 (en) 2017-08-01 2022-02-22 Sony Corporation Information processing device, information processing method, recording medium, and image capturing apparatus for self-position-posture estimation
US11842515B2 (en) 2017-08-01 2023-12-12 Sony Group Corporation Information processing device, information processing method, and image capturing apparatus for self-position-posture estimation
US20220007002A1 (en) * 2019-03-18 2022-01-06 Canon Kabushiki Kaisha Lens apparatus and image pickup apparatus
US11968350B2 (en) * 2019-03-18 2024-04-23 Canon Kabushiki Kaisha Lens apparatus and image pickup apparatus

Also Published As

Publication number Publication date
CN103582802A (zh) 2014-02-12
US20140043444A1 (en) 2014-02-13
EP2717013A1 (en) 2014-04-09
JP2012247364A (ja) 2012-12-13
EP2717013A4 (en) 2014-10-29

Similar Documents

Publication Publication Date Title
WO2012165491A1 (ja) ステレオカメラ装置、および、コンピュータ読み取り可能な記録媒体
US10825198B2 (en) 3 dimensional coordinates calculating apparatus, 3 dimensional coordinates calculating method, 3 dimensional distance measuring apparatus and 3 dimensional distance measuring method using images
JP5963353B2 (ja) 光学データ処理装置、光学データ処理システム、光学データ処理方法、および光学データ処理用プログラム
US8208029B2 (en) Method and system for calibrating camera with rectification homography of imaged parallelogram
US20140002597A1 (en) Tracking Poses of 3D Camera Using Points and Planes
US20110249117A1 (en) Imaging device, distance measuring method, and non-transitory computer-readable recording medium storing a program
US20120257016A1 (en) Three-dimensional modeling apparatus, three-dimensional modeling method and computer-readable recording medium storing three-dimensional modeling program
US20110235897A1 (en) Device and process for three-dimensional localization and pose estimation using stereo image, and computer-readable storage medium storing the program thereof
JP6392693B2 (ja) 車両周辺監視装置、車両周辺監視方法、及びプログラム
JP2009041972A (ja) 画像処理装置及びその方法
JP5388921B2 (ja) 3次元距離計測装置及びその方法
JP6580761B1 (ja) 偏光ステレオカメラによる深度取得装置及びその方法
JP2013178656A (ja) 画像処理装置、画像処理方法および画像処理用のプログラム
US10205928B2 (en) Image processing apparatus that estimates distance information, method of controlling the same, and storage medium
CN105005964A (zh) 基于视频序列影像的地理场景全景图快速生成方法
TWI599987B (zh) 點雲拼接系統及方法
CN109493378B (zh) 一种基于单目视觉与双目视觉相结合的垂直度检测方法
JP6228239B2 (ja) プリミティブの組を用いてデータをレジストレーションする方法
JP5727969B2 (ja) 位置推定装置、方法、及びプログラム
US11055865B2 (en) Image acquisition device and method of operating image acquisition device
WO2015159791A1 (ja) 測距装置および測距方法
JP2006317418A (ja) 画像計測装置、画像計測方法、計測処理プログラム及び記録媒体
JP2013069026A (ja) 被写体の3次元形状を復元する装置、方法およびプログラム
JP6843552B2 (ja) 画像処理装置、画像処理方法およびプログラム。
JP5409451B2 (ja) 3次元変化検出装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12794055

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14113975

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2012794055

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE