WO2012132168A1 - 情報処理装置、情報処理方法、および位置情報のデータ構造 - Google Patents

情報処理装置、情報処理方法、および位置情報のデータ構造 Download PDF

Info

Publication number
WO2012132168A1
WO2012132168A1 PCT/JP2012/000211 JP2012000211W WO2012132168A1 WO 2012132168 A1 WO2012132168 A1 WO 2012132168A1 JP 2012000211 W JP2012000211 W JP 2012000211W WO 2012132168 A1 WO2012132168 A1 WO 2012132168A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
position information
depth
resolution
information
Prior art date
Application number
PCT/JP2012/000211
Other languages
English (en)
French (fr)
Inventor
大場 章男
博之 勢川
Original Assignee
株式会社ソニー・コンピュータエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・コンピュータエンタテインメント filed Critical 株式会社ソニー・コンピュータエンタテインメント
Priority to CN201280014669.5A priority Critical patent/CN103460242B/zh
Priority to US14/005,039 priority patent/US9699432B2/en
Priority to EP12764539.8A priority patent/EP2693393B1/en
Publication of WO2012132168A1 publication Critical patent/WO2012132168A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present invention relates to an information processing apparatus, an information processing method, and a data structure of position information to be generated, which perform processing in accordance with the motion of an object that is shooting a moving image.
  • the present invention has been made in view of such problems, and an object thereof is to provide a technique capable of realizing information processing using a photographed image with high responsiveness.
  • An aspect of the present invention relates to an information processing apparatus.
  • This information processing apparatus is an information processing apparatus that outputs position information of an object at a predetermined rate by performing stereo matching using a stereo moving image obtained by simultaneously video-taking the object from different viewpoints, Stereo matching is performed using an image having a resolution selected based on information related to the size of the image of the object among a plurality of captured images each representing a pair of image frames included in the stereo moving image at a predetermined plurality of resolutions.
  • a position information acquisition unit that acquires position information of the object by performing, and a plurality of depth images that are stored in the memory and that represent the position of the object in the depth direction on the image plane as pixel values at the plurality of resolutions.
  • a depth image having the resolution of the image used for stereo matching by the position information acquisition unit is used as the acquired position information.
  • Hazuki update characterized by comprising a depth image data generating unit that outputs the position information of the object, the.
  • This information processing method is an information processing method for outputting position information of an object at a predetermined rate by performing stereo matching using a stereo moving image obtained by simultaneously capturing images of the object from different viewpoints, Stereo matching is performed using an image having a resolution selected based on information related to the size of the image of the object among a plurality of captured images each representing a pair of image frames included in the stereo moving image at a predetermined plurality of resolutions.
  • the information processing method characterized by comprising the steps of: outputting the position information of.
  • Still another aspect of the present invention relates to a data structure.
  • This data structure represents the position information of the object being filmed and is updated each time the position information is acquired, and the depth direction of the object in the image plane corresponding to the frame of the moving image
  • This is a depth image that represents the position of the position information, so that the resolution of the depth image that reflects the position information that is the acquisition result can be switched depending on the resolution of the frame used to acquire the position information. Therefore, a plurality of depth images having resolutions corresponding to the plurality of resolutions of the generated frames are associated with each other.
  • FIG. 1 shows a configuration example of an information processing system to which this embodiment can be applied.
  • the information processing system 10 includes an imaging device 12 equipped with two cameras that capture an object such as the user 1, an information processing device 14 that performs information processing according to a user's request based on the captured image, and the information processing device 14. Includes a display device 16 for outputting image data obtained as a result of processing.
  • the information processing apparatus 14 can be connected to a network 18 such as the Internet.
  • the information processing device 14, the imaging device 12, the display device 16, and the network 18 may be connected by a wired cable, or may be wirelessly connected by a wireless LAN (Local Area Network) or the like. Any two or all of the imaging device 12, the information processing device 14, and the display device 16 may be combined and integrally provided. Further, the imaging device 12 is not necessarily installed on the display device 16. Furthermore, the user 1 may not be a person, and the number is not limited.
  • the imaging device 12 has a configuration in which two digital video cameras each provided with an imaging element such as a CCD (Charge-Coupled Device) or a CMOS (Complementary-Metal-Oxide-Semiconductor) are arranged at a known interval. Each of the two digital video cameras captures an object existing in the same space at a predetermined frame rate from the left and right positions. Hereinafter, a pair of frames shot in this way is also referred to as a “stereo image”. The imaging device 12 further generates a plurality of image data with different resolutions from a pair of RAW images obtained as a result of shooting.
  • an imaging element such as a CCD (Charge-Coupled Device) or a CMOS (Complementary-Metal-Oxide-Semiconductor)
  • the information processing apparatus 14 specifies the position coordinates of the object in a three-dimensional space of vertical, horizontal, and depth with respect to the field of view of the camera at a predetermined rate. At this time, stereo matching is performed based on stereo image data acquired from the imaging device 12. The time change of the position coordinates obtained in this way is used for subsequent processing using the movement of the object as input information. For example, it can be used for a game in which a character reflecting the action of the user 1 as an object appears, information processing for converting the movement of the user 1 into a command input, etc., but the content is not limited.
  • the display device 16 displays the result of the processing performed by the information processing device 14 as an image as necessary.
  • the display device 16 may be a television having a display for outputting an image and a speaker for outputting sound, such as a liquid crystal television, a plasma television, a PC display, or the like.
  • the processing content finally executed by the information processing device 14 and the image to be displayed are not particularly limited depending on the purpose of use. Henceforth, the processing for specifying the position of the object performed by the information processing device 14 is performed. The main point is explained below.
  • FIG. 2 shows the configuration of the imaging device 12 and the information processing device 14.
  • Each of the functional blocks shown in FIGS. 2 to 5 can be realized in terms of hardware by a configuration such as a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), a drawing circuit, and the like. Is realized by a program that exhibits various functions such as a data input function, a data holding function, an image analysis function, and a drawing function. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.
  • a CPU Central Processing Unit
  • RAM Random Access Memory
  • ROM Read Only Memory
  • the imaging device 12 includes a first camera 22 and a second camera 24. Each camera captures an object at the same timing and the same frame rate from left and right positions separated by a known width. Then, each captured frame image is converted into image data having a plurality of predetermined resolutions. In the figure, the image generated in this way is schematically shown, and in the second camera, the resolution increases stepwise in the order of image 2, image 4, image 6, and image 8. In the figure, four levels of resolution are used, but the number is not limited. The same applies to the image generated by the first camera 22.
  • each image is generated at each shooting timing, an image sequence with respect to the time axis is generated at each resolution as a result.
  • the time axis is schematically shown in the depth direction. Images generated at the same time can be regarded as constituting a hierarchical structure having a hierarchy corresponding to each resolution. In the following description, these images will be referred to as the 0th layer image, the 1st layer image, the 2nd layer image,... In the example of FIG. 2, image 2 is the 0th layer, image 4 is the 1st layer, image 6 is the 2nd layer, and image 8 is the 3rd layer.
  • the information processing device 14 is necessary based on an input information acquisition unit 26 that acquires an instruction input from a user, a position information generation unit 28 that generates position information of an object such as the user 1 based on a captured image, and a position of the object.
  • An output information generation unit 32 that performs processing and generates output information, and a communication unit 30 that is an interface for requesting and acquiring image data from the imaging device 12 are included.
  • the input information acquisition unit 26 receives an instruction input from the user, and transmits a processing request signal corresponding to the input to the other functional blocks.
  • the input information acquisition unit 26 is realized by the cooperation of a general input device such as a button, a keyboard, a mouse, a trackball, and a touch panel, and a CPU that interprets the operation performed on the input device and generates a processing request signal. To do.
  • the position information generation unit 28 performs stereo matching using the data of the stereo images generated by the first camera 22 and the second camera 24, and specifies the three-dimensional position of the object. At this time, the image data to be processed is selected temporally and spatially to the minimum necessary, thereby reducing the influence on accuracy and reducing the processing load.
  • the target region or the region with movement is estimated as a target region in a low-resolution, wide-range image, and stereo matching is performed only on the region with a high-resolution image.
  • stereo matching a search for extracting corresponding points of two images is generally performed, but the efficiency of stereo matching is improved by narrowing the search range. Note that this embodiment will mainly describe a method of obtaining position information of a portion where there is “movement” of an object in order to realize information processing using a moving image as input information.
  • the process of estimating the region is performed separately from the timing of performing stereo matching.
  • these two are executed independently as separate threads. By doing so, it is possible to spend more time for stereo matching processing that requires accuracy. For example, while stereo matching processing is performed on all frames of a captured image, processing for estimating a region is performed every predetermined number of frames, and prediction is performed for each frame until processing for estimating a region is performed next.
  • the process of estimating the area includes selection of an appropriate hierarchy for stereo matching. Since the parallax is larger as the object is closer to the front, even if the image has a relatively small resolution, the shift width between the left and right images is large, and the accuracy of stereo matching is easily maintained. On the contrary, since the parallax becomes smaller as the object is closer to the eyelid, the left-right shift stays in the error range in an image with a small resolution, and it is difficult to maintain the accuracy of stereo matching.
  • an image hierarchy used for stereo matching is selected according to the size of a region having motion. Even if a high-resolution image is used, the region to be searched for obtaining corresponding points is local as described above. As a result, the image size of the processing target is the same regardless of the position of the target in the depth direction. The calculation amount does not change greatly. Therefore, it is easy to estimate the calculation time.
  • the position information generation unit 28 further generates a depth image in which the position coordinates in the depth direction of the target obtained by stereo matching are pixel values on the image plane composed of the vertical direction and the horizontal direction.
  • the depth image has a hierarchical structure represented by a plurality of resolutions that are the same as the hierarchical structure of the captured image generated by the camera.
  • the motion of an object has a spatial resolution necessary to recognize it as a motion depending on the position in the depth direction.
  • the accuracy may be improved by ignoring such movement. Therefore, the depth image is formed into a hierarchical structure, and the efficiency and accuracy of the processing are improved by switching the layer to be referenced according to the resolution required by the subsequent processing.
  • the output information generation unit 32 acquires the position information generated by the position information generation unit 28 and appropriately performs a process according to the purpose of use. Although the process performed here is not specifically limited as above-mentioned, you may switch suitably according to the instruction
  • the output information generation unit 32 may perform processing based on the position information generated by the position information generation unit 28 on the image captured by any camera of the imaging device 12 and cause the display device 16 to display the processed image.
  • the output information generation unit 32 may perform processing based on the position information generated by the position information generation unit 28 on the image captured by any camera of the imaging device 12 and cause the display device 16 to display the processed image.
  • the sword user You can express how you swing around with
  • one frame of the stereo image used for the stereo matching by the position information generation unit 28 may be simultaneously acquired, processed respectively, and output to the display device 16, or one camera may be independent of the stereo matching.
  • the image data of each frame taken by may be acquired and processed.
  • the rate at which stereo matching is performed, the rate at which target area estimation processing is performed, and the frame rate used to generate an output image may be determined independently.
  • the selection may be made according to the original performance of the information processing system 10 or the presence / absence of processing performed in parallel. It may be determined by preparing a table in which usable communication bandwidths and processing resources are associated with those rates, and referring to the table according to the actual processing environment.
  • the communication unit 30 includes, as input information acquisition unit 26 and position information generation unit 28, information on layers and areas necessary for processing in the information processing apparatus 14 among the hierarchical images generated by the first camera 22 and the second camera 24. And request to the imaging device 12. In response to this, the image data transmitted from the imaging device 12 is appropriately supplied to the position information generation unit 28 and the output information generation unit 32.
  • FIG. 3 shows the configuration of the first camera 22 in detail.
  • the second camera 24 has the same configuration.
  • the first camera 22 includes an image acquisition unit 102, a demosaic unit 104, an image transmission unit 150, a pyramid filter unit 170, and a communication unit 108.
  • the image acquisition unit 102 reads an image exposed by an image sensor such as a CCD or a CMOS at a predetermined timing (for example, 60 times / second). In the following description, this image is assumed to have a width of h pixels in the horizontal direction. This image is a so-called RAW image.
  • the image acquisition unit 102 sends this to the demosaic unit 104 and the image sending unit 150 every time exposure of one horizontal row of the RAW image is completed.
  • the demosaic unit 104 includes a FIFO (First In In First Out) buffer 105 having a capacity for h pixels and a simple demosaic processing unit 106.
  • the FIFO buffer 105 receives pixel information for one horizontal row of the RAW image, and holds it until the next horizontal row of pixels is input to the demosaic unit 104.
  • Simple demosaicing processing unit 106 receives the pixels of the horizontal two columns, with them, a demosaic (de-mosaic) processing to create a full color image by complementing the color information based on the surrounding pixel for each pixel Execute.
  • demosaic process As is well known to those skilled in the art, there are many methods for this demosaic process, but here, a simple demosaic process using only two horizontal rows of pixels is sufficient.
  • the pixel for which the corresponding YCbCr value is to be calculated has only the G value
  • the R value averages the R values adjacent to the left and right
  • the G value uses the G value as it is
  • the B value is the upper value.
  • the B value located below is used as an RGB value, and this is substituted into a predetermined conversion formula to calculate the YCbCr value. Since such demosaic processing is well known, further detailed description is omitted.
  • a method of constructing a YCbCr value of one pixel from four RGB pixels may be used.
  • the simple demosaic processing unit 106 converts, for example, four horizontal and horizontal two RGB pixels into a YCbCr color signal as illustrated.
  • the block composed of four pixels is sent to the image sending unit 150 as a 1/1 demosaic image and also sent to the pyramid filter unit 170.
  • the pyramid filter unit 170 has a function of layering and outputting a certain image into a plurality of resolutions.
  • the pyramid filter generally includes a number of 1/4 reduction filters corresponding to the required level of resolution.
  • the pyramid filter has four layers of filters of the first filter 110 to the fourth filter 140. Each filter performs a process of calculating an average pixel value of four pixels by bilinear interpolation of four pixels adjacent to each other. Therefore, the image size after processing is 1 ⁇ 4 of the image before processing.
  • one FIFO buffer 112 corresponding to h pixels is arranged corresponding to each signal of Y, Cb, and Cr.
  • These FIFO buffers 112 have a role of holding YCbCr pixels for one horizontal row until the pixels for the next horizontal row are output from the simple demosaic processing unit 106.
  • the pixel holding time is determined according to the line scan speed of the image sensor.
  • the first filter 110 averages the pixel values of Y, Cb, and Cr for four pixels of 2 ⁇ 2 horizontal.
  • the 1/1 demosaiced image becomes 1/2 in length and width, and is converted into a 1/4 size as a whole.
  • the converted 1/4 demosaiced image is sent to the image sending unit 150 and also passed to the second filter 120 at the next stage.
  • one FIFO buffer 122 corresponding to 2 / h pixels is arranged for each of the Y, Cb, and Cr signals.
  • These FIFO buffers 114 also have a role of holding YCbCr pixels for one horizontal row until the pixels for the next horizontal row are output from the first filter 110.
  • the second filter 120 averages the pixel values of Y, Cb, and Cr for four pixels of 2 ⁇ 2 horizontal.
  • the 1/4 demosaiced image becomes 1/2 in length and width, and is converted into a size of 1/16 as a whole.
  • the converted 1/16 demosaiced image is sent to the image sending unit 150 and also passed to the third filter 130 at the next stage.
  • the same processing as described above is repeated except that h / 4 FIFO buffers 132 or h / 8 FIFO buffers 142 are arranged in the preceding stage. Then, 1/64 and 1 / 256-sized demosaiced images are output to the image sending unit 150.
  • the pyramid filter as described above is well known as described in European Patent Application Publication No. 0999518 and the like, and therefore, detailed description thereof is omitted in this specification.
  • the image sending unit 150 includes a RAW image received from the image acquisition unit 102, a 1/1 demosaiced image received from the demosaic unit 104, and a 1/4 to 1/256 demosaiced image received from the pyramid filter unit 170.
  • necessary hierarchies and regions are selected according to an instruction received from the communication unit 30 of the information processing apparatus 14 via the communication unit 108. Then, a packet is composed of these images and sent to the communication unit 108.
  • the communication unit 108 transmits a packet to the information processing apparatus 14 according to a predetermined protocol such as USB 1.0 / 2.0.
  • Communication with the information processing apparatus 14 is not limited to wired communication, and may be, for example, wireless LAN communication such as IEEE802.11a / b / g or infrared communication such as IrDA.
  • FIG. 4 shows the configuration of the image sending unit 150.
  • the image sending unit 150 includes a block writing unit 152, a buffer 154, a block reading unit 156, an encoding unit 158, a packetizing unit 160, a packet buffer 162, and a control unit 164.
  • the control unit 164 instructs the block writing unit 152 and the block reading unit 156 as to which of various image data is to be transmitted as a packet.
  • the post-demosaic image having a size of 1/1 to 1/256 is input to the block writing unit 152 via the demosaic unit 104 and the pyramid filter unit 170. Further, depending on the processing content executed by the output information generation unit 32 of the information processing apparatus 14, a RAW image is input from the image acquisition unit 102. Based on an instruction from the control unit 164, the hierarchy selection unit 152A of the block writing unit 152 selects any one of the demosaiced images.
  • the cutout block selection unit 152B receives position information of an area necessary for processing sent from the information processing apparatus 14, and selects a block including an area wide by a predetermined number of pixels from the area as a specific block.
  • the size of one block is preferably an 8 ⁇ 8 pixel block in accordance with the subsequent JPEG encoding.
  • the block selection unit 152B cuts out only some blocks of the selected demosaiced image and writes them into the buffer 154.
  • the block reading unit 156 reads each image block and sends it to the encoding unit 158 in the order in which pixels for one block are prepared on the buffer 154.
  • the block writing unit 152 and the block reading unit 156 are adjusted by the control unit 164 to operate synchronously. That is, read and write by the block writing unit 152, the image acquisition unit 102, with respect to the demosaic unit 104 and the pyramid filter unit 170 from being performed for each of the pixel is output, read by the block reading unit 156, one in the buffer 154 This is performed every time the pixels for the block are accumulated. This synchronization timing is determined according to the exposure speed of the camera.
  • the buffer 154 rather than sending the information processing apparatus 14 from the aligned pixels of the entire content of the whole or a reduced image of the RAW image, since sent in blocks, the buffer 154, all of the RAW image and the contracted image at maximum It is sufficient that the image block can be stored. Depending on the purpose of use of the image, it is sufficient to store two to three image blocks. As described above, the buffered data is reduced, and packets are sequentially packetized and transferred every time a block is created, so that the latency associated with the processing in the imaging device 12 is reduced.
  • the pixel output from the image acquisition unit 102 and the pyramid filter unit 170 sequentially output pixels to the block writing unit 152 every time the exposure of the image sensor is completed, so that blocks of different frames are stored in the buffer 154. It is not possible to write or block blocks to be sent in different orders.
  • the encoding unit 158 performs well-known compression encoding such as JPEG on the image block of the image other than the RAW image, and sends it to the packetizing unit 160.
  • the packetizing unit 160 packetizes the image blocks of the encoded image in the order in which they arrived at the packetizing unit 160 and writes them into the packet buffer 162.
  • the communication unit 108 transfers the packet in the packet buffer 162 to the information processing apparatus 14 according to a predetermined communication protocol. Note that the blocks acquired by the packetizing unit 160 from the block reading unit 156 may be directly packetized without performing compression coding by the coding unit 158 for images other than RAW images.
  • encoding such as LLVC and AVC can also be used, but those that can be encoded in units of blocks are preferable.
  • size of the block read by the block reading unit 156 can be changed in accordance with the encoding. For example, reading and encoding may be performed in blocks of 256 ⁇ 256 units.
  • FIG. 5 shows the configuration of the position information generation unit 28 of the information processing apparatus 14 in detail.
  • the position information generation unit 28 includes a target region determination unit 40 that determines a target region and a hierarchy used for stereo matching, and a position information acquisition unit 42 that performs stereo matching and acquires position information of the target.
  • the target region determination unit 40 includes an entire image acquisition unit 44, a motion region detection unit 46, a region prediction unit 48, a region integration unit 50, and a hierarchy determination unit 52.
  • the entire image acquisition unit 44 acquires, at a predetermined rate, images of the entire area of the 0th hierarchy having the lowest resolution among the hierarchical data of the stereo images generated by the first camera 22 and the second camera 24 of the imaging device 12, respectively. To do.
  • the image acquired here may be only the Y image. However, the hierarchies and image types used according to the processing capability and communication speed may be selected as appropriate.
  • the motion region detection unit 46 detects a motion region for each of the stereo images acquired by the entire image acquisition unit 44. For example, when the target is a person, face detection is first performed, and an area where a human image is considered is estimated. Then, a difference image between the estimated region and the image used in the previous time step is acquired, and a region having a difference equal to or greater than a predetermined threshold or a region circumscribing the region is detected as a motion region.
  • the region prediction unit 48 predicts a target region to be searched for in the future stereo matching processing based on the motion region detected by the motion region detection unit 46 for each stereo image.
  • the region integration unit 50 integrates the target regions in the stereo image predicted by the region prediction unit 48 using a unified coordinate system, and determines one target region for each time. Based on the size of the target area, the hierarchy determining unit 52 selects a hierarchy that can perform stereo matching with high accuracy and does not use a high resolution unnecessarily.
  • the position information acquisition unit 42 includes a target area image acquisition unit 53, a position specification unit 54, an invalid data detection unit 56, and a data generation unit 58.
  • the target area image acquisition unit 53 specifies the target area and hierarchy determined by the target area determination unit 40 and acquires stereo image data from the imaging device 12.
  • the position specifying unit 54 performs stereo matching on the stereo image acquired by the target region image acquiring unit 53, and specifies three-dimensional position information including the position in the depth direction.
  • a correlation window is set for one of the left and right images, and the corresponding points are obtained by calculating the cross-correlation coefficient with the correlation window image while moving the search window of the other image, and the parallax of these corresponding points
  • the area correlation method for obtaining three-dimensional position information using the principle of triangulation based on the above can be used.
  • the invalid data detection unit 56 identifies data to be invalidated from the position information identified by the position identification unit 54.
  • the parallax becomes smaller as the target object is closer to the eyelid. Therefore, even if the position in the depth direction is calculated in an image with a small resolution, the error is large. That is, the range in the depth direction that can be calculated appropriately differs depending on the resolution of the image used for stereo matching, and the lower the resolution, the closer the limit is.
  • a limit in which data may be valid is set as a depth limit in the depth direction, and invalid data is specified by comparing with the position in the depth direction specified by the position specifying unit 54. In this way, it is possible to prevent the occurrence of a problem that the imaging apparatus 12 itself shakes or a large movement other than the object that should originally follow the movement is used as data for subsequent processing. .
  • the data generation unit 58 creates a depth image based on the position information remaining after the invalid data specified by the invalid data detection unit 56 is excluded.
  • the depth image has a hierarchical structure having resolutions corresponding to a plurality of resolutions generated by the imaging device 12.
  • initial values such as 0 are given to all the pixel values in advance and stored in the depth image data storage unit 60.
  • the depth image is updated by using the pixel at the corresponding position in the hierarchy corresponding to the hierarchy of the captured image used for stereo matching as the coordinate value in the depth direction. To do. As a result, the depth image data is updated at the same rate as the stereo matching processing rate.
  • the output information generation unit 32 of the information processing apparatus 14 reads out the position information by selecting a hierarchy from the depth image data according to the spatial resolution necessary for the process performed by the information processing apparatus 14 and appropriately uses it for the process.
  • FIG. 6 schematically shows a temporal relationship of processing performed by the imaging device 12, the position information acquisition unit 42, and the target region determination unit 40, and the horizontal direction in the figure represents the time axis.
  • the imaging device 12 captures an object at a predetermined frame rate at times t1, t2, t3,..., T18, and generates image data with a plurality of resolutions. Then, necessary data is sent to the information processing apparatus 14.
  • the image data generation processing performed by the imaging device 12 is represented by a continuous rectangle over the entire period, but actually, when the data generation and data transmission of the image captured at each imaging time are completed, the next imaging time is reached. You may wait.
  • the process performed by the position information acquisition unit 42 is the same.
  • the entire low-resolution image of the captured image at the first time t1 is supplied to the target area determination unit 40 of the information processing apparatus 14 (S1).
  • the entire image of a predetermined hierarchy is also supplied to the position information acquisition unit 42 (S2).
  • the hierarchy at this time assuming that the object is at a standard position, a hierarchy having a low resolution is set in advance within a range where sufficient accuracy of stereo matching is obtained. Since an image with a lower resolution is smaller in size, a corresponding point can be searched efficiently.
  • the position information acquisition unit 42 sequentially performs stereo matching, exclusion of invalid data, and depth image update using the stereo image supplied in S2. Thereby, the position information of the object corresponding to the time t1 is output in the form of a depth image having a hierarchical structure.
  • the target region determination unit 40 sequentially performs motion region detection, region prediction, region integration, and hierarchy determination processing using the stereo image supplied in S1. Then, the position information acquisition unit 42 is notified of the determined target area and hierarchy information (S3).
  • the information on the target area and the hierarchy determined at this time is for the images photographed at times t2, t3, t4, t5, t6, and t7. Therefore, the region prediction unit 48 of the target region determination unit 40 considers the time until each time, estimates the movable range of the target object from the current motion region, and sets the target region for each time so as to include the range. Predict. Position information acquisition unit 42, based on the notified information in S3, the time t2, t3, t4, t5, t6, every time the data of the captured image is generated in the t7, target region determined in correspondence with the time And the stereo image data of a hierarchy are acquired (S4, S5, S6, S7, S8, S9).
  • the entire image with the lowest resolution among the captured images at time t7 is supplied to the target area determination unit 40 (S10).
  • the target region determination unit 40 again performs the motion region detection, region prediction, region integration, and hierarchy determination processes in order, and notifies the position information acquisition unit 42 of the information on the target region and hierarchy determined as a result (S11).
  • the target area and hierarchy information determined at this time are for images taken at times t8, t9, t10, t11, t12, and t13.
  • the position information of the object in the image taken at each time is output as a depth image.
  • the position information is acquired for all the frames captured by the imaging device 12, but as described above, the time resolution required for the position information in the subsequent processing performed by the output information generation unit 32, and the information processing system
  • the processing time interval may be expanded.
  • the processing may be performed at the same rate as the processing in the target area determination unit 40.
  • FIG. 7 schematically illustrates a process performed by the motion region detection unit 46, the region prediction unit 48, and the region integration unit 50 of the information processing apparatus 14.
  • An image 61 is an image taken by the first camera 22, and an image 62 is an image taken by the second camera 24. Since each camera is shooting at a predetermined rate with respect to time t, an image sequence is generated for time t as shown in FIG. In this example, a person is shown in the image 61 and the image 62 at a certain time as shown by the solid line in FIG.
  • the target area determination unit 40 obtains the target area using the stereo images shot from the left and right viewpoints.
  • the motion region detection unit 46 determines a motion region independently for the images 61 and 62.
  • face detection processing is performed to detect a face area 64 a for the image 61 and a face area 64 b for the image 62.
  • face detection process any of various commonly used methods such as pattern matching may be applied.
  • the same processing can be performed if the shape is known and the template image can be prepared. For example, even a marker held by a user as a hand or a subject can be processed in the same manner by preparing a template image representing the shape in a memory or the like in advance.
  • regions that are likely to be motion regions are determined as the motion detection target regions 66a and 66b for the images 61 and 62, respectively.
  • the region that is highly likely to be a motion region is a range covered by a human body, and prediction is easy if the position of the face is known.
  • a reference image in which a reference face outline and a range of a motion detection target area to be set for the face are indicated by a rectangle is prepared, and faces in the face areas 64a and 64b obtained by the face detection process are prepared.
  • the reference image is enlarged or reduced so that the outline of the reference face substantially overlaps the outline of the reference face.
  • the rectangle of the reference image at that time becomes the motion detection target areas 66a and 66b.
  • difference images with corresponding areas in the entire image acquired during the previous target area determination process are acquired between the left image and the right image, respectively, and the difference is predetermined. Extract points that are larger than the threshold value.
  • the left hand that was captured in the previous whole image is indicated by dotted lines on the images 61 and 62. If there is no change in other parts, a large difference appears only in the left hand part. In this way, a portion where the difference is greater than or equal to the threshold value is extracted, and the rectangle circumscribing it is determined as the motion regions 68a and 68b.
  • the region predicting unit 48 performs region prediction on the basis of the motion regions 68a and 68b determined for each of the image 61 and the image 62, assuming the shooting time of the image to be subjected to stereo matching.
  • the motion areas 68a and 68b may be enlarged at the same ratio in the vertical and horizontal directions by an amount that is simply proportional to the passage of time, or a plurality of images acquired during the previous target area determination process.
  • the movement direction of the object may be predicted based on the autoregressive model or the like, and the motion regions 68a and 68b may be expanded only in the direction. Or they may be combined.
  • the prediction areas 70a and 70b are determined for the images 61 and 62, respectively. Although only one prediction region is shown for each image in the figure, as described above, a prediction region is determined for each time when a target image for stereo matching is captured.
  • the region integration unit 50 superimposes the prediction regions 70a and 70b determined for the left and right images on the normalized coordinate system that forms the image plane, and is a region that is the sum (included in at least one of the regions). Integration).
  • the prediction areas 70a and 70b are shifted in the x direction (lateral direction) in the coordinate system constituting the image plane as shown in FIG.
  • the target area is determined from the two images as described above for the following reason. That is, as the object is closer to the object, the image is apparently larger, so the range covered by the movement is widened, and the possibility of exceeding the prediction region determined as described above increases.
  • the parallax is used to adjust the size of the target area in accordance with the change in the magnitude of the apparent movement depending on the position of the target in the depth direction. If the parallax is large, the shift between the prediction areas 70a and 70b becomes large, so the area that is the sum is widened. If the parallax is small, the shift is small, and the area that is the sum is not so wide. In this way, by adjusting the width of the area in consideration of the position of the object in the depth direction, the extra area is not included while preventing the object from being detached from the object area.
  • the region integration unit 50 further determines a region obtained by expanding the summed region in both the vertical and horizontal directions at a predetermined expansion rate as the final target region 72. By doing in this way, possibility that an object will deviate from an object field can be made still lower.
  • FIG. 8 schematically shows how the hierarchy determining unit 52 selects a hierarchy to be used for stereo matching based on the size of the target area.
  • rectangles 80a, 80b, 80c, and 80d represent the image sizes of the third layer, the second layer, the first layer, and the zeroth layer among the layers of the captured image.
  • the target area 72 determined in the image normalization coordinate system has a size such as rectangles 72 a, 72 b, 72 c, and 72 d for each image size.
  • the reference size rectangle 82 defines an apparent size of an object necessary for obtaining a suitable accuracy at the time of stereo matching, and is set in advance by an experiment or the like.
  • the enclosed rectangle when the two rectangles have an inclusion relationship may be regarded as “small” or may be compared by area. Alternatively, the comparison may be made only with the length of either one of the vertical and horizontal sides.
  • any of the rectangles 72a, 72b, 72c, 72d corresponding to each hierarchy may be selected from the reference size rectangle 82 and the two rectangles before and after the size permutation. It does not have to be a close rectangle.
  • the reference size rectangle 82 has a size between the rectangle 72b and the rectangle 72c among the rectangles 72a, 72b, 72c, and 72d, and therefore corresponds to the second layer corresponding to the rectangle 72b or the rectangle 72c.
  • Select the first hierarchy For example, the rectangles 72a of the third layer, which is the maximum size, are compared in the order of size (S20, S22, S24, S26), and the layer corresponding to the rectangle contained in the reference size rectangle 82 is selected for the first time. Also good. In the example shown in the figure, the first hierarchy corresponding to the rectangle 72c is selected.
  • the resolution of the image used for stereo matching is selected according to the apparent size of the object as described above by selecting the hierarchy from which the target area close to the reference size rectangle 82 is obtained in this way. Can be adjusted. As a result, it is possible to maintain the accuracy while preventing unnecessary generation of image data more than necessary.
  • FIG. 9 shows the correspondence between the hierarchy of the captured image generated by the imaging device 12 and the hierarchy of the depth image generated by the data generation unit 58 of the position information acquisition unit 42.
  • the upper four sets of images 82a, 82b, 82c, and 82d are stereo images taken at a certain time
  • the lower four images 84a, 84b, 84c, and 84d are generated for the stereo images.
  • Depth images which are images of the 0th layer, the 1st layer, the 2nd layer, and the 3rd layer in order from the left.
  • one shot image such as images 82a, 82b, 82c, and 82d is generated for each of two viewpoints at a certain time.
  • the position information acquisition unit 42 acquires the left and right image data of the hierarchy and the area. Stereo matching.
  • the pixel value of the corresponding area in the corresponding hierarchy that is, the pixel value of the area 88 is updated in the hierarchical data of the depth image.
  • the update process is not performed. This is because, as described above, a case where a large movement at a position in the depth direction, which should not be accurately obtained as the position of the target object at the resolution, is generated as an error is excluded as an error.
  • the hierarchy and the depth limit are associated with each other in advance and stored in a memory or the like as a table.
  • the depth image has a hierarchical structure, and the data of the hierarchy corresponding to the hierarchy of the captured image used for stereo matching is updated at each time.
  • the resolution of the image corresponds to the range of the position in the depth direction of the object obtained from the image with high accuracy. Therefore, by layering the depth image for each resolution of the image used for stereo matching and reflecting the obtained position information only in the corresponding layer, the position of the object is divided by the range of the position in the depth direction. It will also be.
  • the output information generating unit 32 that performs processing using the depth image appropriately selects and refers to the hierarchy of the depth image according to the content of the processing to be performed, the accuracy to be obtained, etc. It is possible to prevent a reduction in processing accuracy or a reduction in processing speed by incorporating simple data into the processing.
  • the 0th layer to the 3rd layer may be referred to in order.
  • the depth image hierarchy to be referred to may be set for the processing content, the position and size of the assumed object, etc. by actually performing the processing and verifying.
  • two cameras are provided in the imaging apparatus, and moving images of the object are simultaneously shot from different viewpoints.
  • the captured image is converted into a plurality of hierarchical images having different resolutions by a pyramid filter.
  • a motion region is detected using an entire image with a low resolution, and a hierarchy corresponding to the size is selected, and only a target region predicted to have a motion of the target is acquired and stereo matching is performed.
  • the process of determining the target area and stereo matching are performed at independent timing.
  • processing resources, processing capability, required responsiveness, accuracy, and the like it is possible to freely determine how often these two processes are performed.
  • both stereo images taken by the two cameras are used, and the target area is determined based on the area that is the sum of the motion areas obtained in both.
  • the target area is determined based on the area that is the sum of the motion areas obtained in both.
  • the obtained position information has a hierarchical structure in which a depth image having pixel values at positions in the depth direction is represented by a plurality of resolutions. And the pixel value of the area
  • the hierarchy to be referenced can be switched depending on the accuracy, resolution, assumed range of position in the depth direction of the object, etc. required for the subsequent processing performed using the position information, and the reference process and the referenced information can be used. Various processes can be made more efficient.
  • the three-dimensional position information of the target object is acquired by performing stereo matching on the target area determined by the target area determination unit 40.
  • the technique for determining the target area is other than stereo matching. It can also be applied to the processing. For example, processing that does not require detailed position information in the depth direction, such as facial expression recognition processing, may be used.
  • the stereo image can be used to adjust the size of the target area according to the position in the depth direction of the face, and an image with the optimum resolution can be selected, so that the accuracy and efficiency of the subsequent processing can be made compatible. it can.
  • the motion region detection unit 46 of the information processing apparatus 14 performs the face detection process as an initial process for specifying a region having motion, that is, a target region.
  • this face detection function may be provided in each camera of the imaging device 12.
  • FIG. 10 shows the configuration of the first camera 22 in such a case.
  • the image acquisition unit 102, the demosaic unit 104, the image transmission unit 150, the pyramid filter unit 170, and the communication unit 108 included in the first camera 22 are the same as the functional blocks in FIG. 3, and in this modified example, further object detection is performed. Part 180.
  • the second camera 24 has the same configuration.
  • the object detection unit 180 acquires an image to be processed by the target region determination unit 40 in the information processing apparatus 14, for example, an image of the entire region of the 0th layer having the lowest resolution from the block reading unit 156 of the image transmission unit 150. Then, a face area is specified by performing face detection processing on it. Then, the information related to the position and size of the area is notified to the packetization unit 160 of the image transmission unit 150, packetized together with the image data body to be detected, and transmitted to the information processing apparatus 14. Alternatively, the information is transmitted from the communication unit 108 to the information processing apparatus 14 in association with the identification information of the detection target image.
  • the motion region detection unit 46 of the information processing device 14 obtains information on the face region in the image at each time from the imaging device 12 together with the image data, thereby obtaining the face regions 64a and 64b illustrated in FIG. It is not necessary to perform the detection process. At this time, the motion region detection unit 46 starts from the process of determining the motion detection target regions 66a and 66b. In this way, by changing the processing share depending on the processing capability of the imaging device 12, the target area can be efficiently identified, and as a result, position information can be generated with high responsiveness and accuracy.
  • the detection process performed by the object detection unit 180 prepares an appropriate template image by introducing an existing template matching technique as described above, so that the object is not limited to a human face, but a hand, a marker, a predetermined Any of these may be used.
  • the input information acquisition unit 26 identifies a target object corresponding to the game name specified by the user or the type of information processing, and notifies the imaging apparatus 12 of the identification information. .
  • Each camera of the imaging device 12 reads a template image corresponding to the notified object from a plurality of template images prepared in a memory (not shown), and detects the object by performing template matching.
  • the information processing device 14 may transmit the template image data itself to the imaging device 12. By doing in this way, a target object can be changed variously according to a user's instruction input.
  • 10 information processing system 12 imaging device, 14 information processing device, 16 display device, 22 1st camera, 24 2nd camera, 26 input information acquisition unit, 28 location information generation unit, 30 communication unit, 32 output information generation unit, 40 target region determination unit, 42 location information acquisition unit, 44 whole image acquisition unit, 46 motion region detection unit, 48 region prediction unit, 50 region integration unit, 52 hierarchy determination unit, 53 target region image acquisition unit, 54 location specification unit , 56 invalid data detection unit, 58 data generation unit, 60 a depth image data storage unit, 102 image obtaining unit, 104 demosaic unit, 108 communication unit, 150 image sending unit, 151 block selection unit, 164 control unit, 170 a pyramid filter unit , 180 Object detection unit.
  • the present invention can be used for information processing apparatuses such as computers, cameras, game apparatuses, and image display apparatuses.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)
  • Measurement Of Optical Distance (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)

Abstract

 撮像装置12は第1カメラ22、第2カメラ24を含む。各カメラはそれぞれ、既知の幅を隔てた左右の位置から同じタイミング、同じフレームレートで対象物を撮影する。そして撮影した各フレーム画像を所定の複数の解像度の画像データに変換する。情報処理装置14の入力情報取得部26は、ユーザからの指示入力を取得する。位置情報生成部28は、ステレオ画像のデータのうち低解像度、広範囲の画像で対象物の領域または動きのある領域を対象領域としておよそ見積もり、当該領域のみ高解像度の画像でステレオマッチングを行い、対象物の3次元の位置を特定する。出力情報生成部32は、対象物の位置に基づき必要な処理を行い出力情報を生成する。通信部30は、撮像装置12に対する画像データの要求および取得を行う。

Description

情報処理装置、情報処理方法、および位置情報のデータ構造
 本発明は、動画撮影している対象物の動きに合わせた処理を行う情報処理装置、情報処理方法、および生成される位置情報のデータ構造に関する。
 近年、パーソナルコンピュータやゲーム機などにカメラを搭載し、ユーザの姿を撮像して様々な形で利用することが一般的に行われるようになってきた。例えばテレビ電話、ビデオチャットなど、ユーザの画像を、ネットワークを介してそのまま相手に伝送するものや、画像解析によってユーザの動きを認識してゲームや情報処理の入力情報とするものなどが実用化されている(例えば特許文献1参照)。
WO 2007/050885 A2公報
 撮影画像を利用して様々な処理を応答性よく高精度に実現するためには、その処理内容に応じた画質が求められる。しかしながら製造コスト、画像の伝送帯域、撮影から出力までの応答性などの点から、単にカメラの性能や画質を上げることのみによって情報処理装置の機能を充実化させるのは困難な状況にある。たとえばカメラの撮像素子を高性能化するほど、カメラとホスト間の画像データ伝送の帯域を圧迫するうえ、画像解析に要する時間が増大する。
 本発明はこのような課題に鑑みてなされたものであり、その目的は、撮影画像を利用した情報処理を応答性よく実現することのできる技術を提供することにある。
 本発明のある態様は情報処理装置に関する。この情報処理装置は、対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置であって、ステレオ動画像に含まれる画像フレーム対をそれぞれ、所定の複数の解像度で表した複数の撮影画像のうち、対象物の像の大きさに係る情報に基づき選択した解像度の画像を用いてステレオマッチングを行うことにより対象物の位置情報を取得する位置情報取得部と、メモリに格納した、画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像を前記複数の解像度で表した複数の奥行き画像のうち、前記位置情報取得部がステレオマッチングに用いた画像の解像度を有する奥行き画像を、取得された位置情報に基づき更新することにより、対象物の位置情報を出力する奥行き画像データ生成部と、を備えたことを特徴とする。
 本発明のさらに別の態様は情報処理方法に関する。この情報処理方法は、対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理方法であって、ステレオ動画像に含まれる画像フレーム対をそれぞれ、所定の複数の解像度で表した複数の撮影画像のうち、対象物の像の大きさに係る情報に基づき選択した解像度の画像を用いてステレオマッチングを行うことにより対象物の位置情報を取得するステップと、メモリに格納した、画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像を複数の解像度で表した複数の奥行き画像のうち、ステレオマッチングに用いた画像の解像度を有する奥行き画像を、取得された位置情報に基づき更新することにより、対象物の位置情報を出力するステップと、を備えたことを特徴とする情報処理方法。
 本発明のさらに別の態様はデータ構造に関する。このデータ構造は、動画撮影している対象物の位置情報を表し位置情報を取得する都度更新される位置情報のデータ構造であって、動画像のフレームと対応する画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像であり、位置情報の取得に用いたフレームの解像度によって取得結果である位置情報を反映させる奥行き画像の解像度を切り替え可能とするように、位置情報の取得のために生成されるフレームの複数の解像度に対応する解像度を有する複数の奥行き画像を対応づけたことを特徴とする。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
 本発明によると、撮影画像を入力情報として利用する情報処理を応答性よく実現することができる。
本実施の形態を適用できる情報処理システムの構成例を示す図である。 本実施の形態における撮像装置と情報処理装置の構成を示す図である。 本実施の形態における第1カメラの構成を詳細に示す図である。 本実施の形態における画像送出部の構成を示す図である。 本実施の形態における情報処理装置の位置情報生成部の構成を詳細に示す図である。 本実施の形態における撮像装置、位置情報取得部、および対象領域決定部が行う処理の時間的関係を模式的に示す図である。 本実施の形態における情報処理装置の動き領域検出部、領域予測部、領域統合部が行う処理の様子を模式的に示す図である。 本実施の形態における階層決定部が、対象領域の大きさに基づきステレオマッチングに用いる階層を選択する様子を模式的に示す図である。 本実施の形態における撮像装置が生成する撮影画像の階層と、位置情報取得部のデータ生成部が生成する奥行き画像の階層の対応を示す図である。 本実施の形態の変形例における第1カメラの構成を詳細に示す図である。
 図1は本実施の形態を適用できる情報処理システムの構成例を示す。情報処理システム10は、ユーザ1などの対象物を撮影する2つのカメラを搭載した撮像装置12、撮影した画像に基づき、ユーザの要求に応じた情報処理を行う情報処理装置14、情報処理装置14が処理した結果得られた画像データを出力する表示装置16を含む。また情報処理装置14はインターネットなどのネットワーク18と接続可能とする。
 情報処理装置14と、撮像装置12、表示装置16、ネットワーク18とは、有線ケーブルで接続されてよく、また無線LAN(Local Area Network)などにより無線接続されてもよい。撮像装置12、情報処理装置14、表示装置16のうちいずれか2つ、または全てが組み合わされて一体的に装備されていてもよい。また、撮像装置12は必ずしも表示装置16の上に設置されていなくてもよい。さらにユーザ1は人でなくてもよく、その数も限定されない。
 撮像装置12は、それぞれがCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子を備えた2つのデジタルビデオカメラを既知の間隔で左右に配置した構成を有する。2つのデジタルビデオカメラはそれぞれ、同一空間に存在する対象物を左右の位置から所定のフレームレートで撮影する。以後、このように撮影されたフレームの対を「ステレオ画像」とも呼ぶ。撮像装置12はさらに、撮影した結果得られた一対のRAW画像から、異なる解像度の複数の画像データをそれぞれ生成する。
 情報処理装置14は、カメラの視野に対する縦、横、奥行き、の3次元空間における対象物の位置座標を所定のレートで特定する。このとき、撮像装置12から取得したステレオ画像のデータに基づきステレオマッチングを行う。このようにして得られた位置座標の時間変化は、対象物の動きを入力情報として用いる後段の処理に利用される。例えば、対象物であるユーザ1の動作を反映させたキャラクタが登場するゲームや、ユーザ1の動きをコマンド入力に変換する情報処理などに用いることができるが、その内容は限定されない。
 表示装置16は、情報処理装置14が行った処理の結果を、必要に応じて画像として表示する。表示装置16は、画像を出力するディスプレイおよび音声を出力するスピーカを有するテレビであってよく、例えば液晶テレビ、プラズマテレビ、PCディスプレイ等である。上述のとおり情報処理装置14が最終的に実行する処理内容や表示すべき画像はその使用目的によって特に限定されるものではないため、以後は情報処理装置14が行う、対象物の位置の特定処理に主眼を置き説明する。
 図2は撮像装置12と情報処理装置14の構成を示している。図2~図5に示す各機能ブロックは、ハードウェア的には、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、描画回路などの構成で実現でき、ソフトウェア的にはデータ入力機能、データ保持機能、画像解析機能、描画機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
 撮像装置12は第1カメラ22、第2カメラ24を含む。各カメラはそれぞれ、既知の幅を隔てた左右の位置から同じタイミング、同じフレームレートで対象物を撮影する。そして撮影した各フレーム画像を所定の複数の解像度の画像データに変換する。同図ではこのようにして生成した画像を模式的に示しており、第2カメラにおいて、画像2、画像4、画像6、画像8の順に、段階的に解像度が増加している。同図では4段階の解像度としているがその数は限定されない。第1カメラ22が生成する画像も同様である。
 各画像は撮影タイミングごとに生成されるため、結果として時間軸に対する画像列が各解像度で生成される。同図では当該時間軸を奥行き方向に模式的に示している。同一時刻に生成される画像は、各解像度に対応する階層を有する階層構造を構成すると捉えることができる。以後の説明ではこれらの画像を、最低解像度の画像から解像度順に第0階層の画像、第1階層の画像、第2階層の画像、・・・と呼ぶ。図2の例では画像2が第0階層、画像4が第1階層、画像6が第2階層、画像8が第3階層の画像となる。
 情報処理装置14は、ユーザからの指示入力を取得する入力情報取得部26、撮影画像に基づきユーザ1などの対象物の位置情報を生成する位置情報生成部28、対象物の位置に基づき必要な処理を行い出力情報を生成する出力情報生成部32、および撮像装置12に対する画像データの要求および取得を行うインターフェースである通信部30を含む。
 入力情報取得部26は、ユーザからの指示入力を受け付け、それに応じた処理要求信号をその他の機能ブロックに送信する。入力情報取得部26は、ボタン、キーボード、マウス、トラックボール、タッチパネルなど一般的な入力装置と、当該入力装置になされた操作内容を解釈して処理要求信号を生成するCPUなどの協働により実現する。
 位置情報生成部28は、第1カメラ22および第2カメラ24が生成したステレオ画像のデータを利用してステレオマッチングを行い、対象物の3次元の位置を特定する。このとき、処理対象となる画像データを時間的、空間的に取捨選択し必要最低限とすることにより、精度への影響を少なく、処理の負荷を軽減する。
 具体的には、低解像度、広範囲の画像で対象物の領域または動きのある領域を対象領域としておよそ見積もり、当該領域のみ高解像度の画像でステレオマッチングを行う。ステレオマッチングでは一般的に、2つの画像の対応点を抽出するための探索を行うが、この探索範囲を狭くすることでステレオマッチングの効率を向上させる。なお本実施の形態は動画像を入力情報として利用した情報処理を実現するため、主に対象物の「動き」のある部分の位置情報を得る手法について説明する。
 このとき、対象物の動きのある領域を所定時間後まで予測することにより、当該領域を見積もる処理をステレオマッチングを行うタイミングと切り離して行う。例えば情報処理装置14をマルチスレッド対応のコンピュータで実現する場合、これらの2つを別のスレッドとして独立に実行する。このようにすることで、精度の必要なステレオマッチング処理により多くの時間をかけることができる。例えばステレオマッチング処理は撮影画像の全フレームを処理対象とするのに対し、領域を見積もる処理は所定の数フレームおきに行い、次に領域を見積もる処理がなされるまでの各フレームについて予測を行う。
 また領域を見積もる処理には、ステレオマッチングを行うための適正な階層の選択も含まれる。対象物が手前にあるほど視差が大きいため、比較的解像度の小さい画像であっても左右の画像のずれ幅が大きく、ステレオマッチングの精度を維持しやすい。逆に対象物が奧にあるほど視差が小さくなるため、解像度の小さい画像では左右のずれが誤差範囲にとどまりステレオマッチングの精度を保ちにくい。
 そこで本実施の形態では、動きのある領域の大きさによってステレオマッチングに用いる画像の階層を選択する。解像度の大きい画像を用いても、対応点を得るために探索すべき領域は上述のとおり局所的であるため、結果として、対象物の奥行き方向の位置に関わらず処理対象の画像サイズは同等となり計算量は大きく変化しない。そのため計算時間の見積もりも容易である。
 位置情報生成部28はさらに、ステレオマッチングにより得られた対象物の奥行き方向の位置座標を、縦方向、横方向からなる画像平面上の画素値とした奥行き画像を生成する。この奥行き画像は、カメラが生成する撮影画像の階層構造と同じ複数の解像度で表した階層構造とする。上述のとおり対象物の動きは、奥行き方向の位置によって、それを動きと認めるのに必要な空間解像度が存在する。すなわち後段に出力情報生成部32が行う処理に求められる空間解像度によってはそのような動きを無視した方が却って精度が上がる場合がある。そこで奥行き画像を階層構造として、後段の処理が求める解像度によって参照する階層を切り替えることにより当該処理の効率および精度を向上させる。
 出力情報生成部32は、位置情報生成部28が生成した位置情報を取得し、その使用目的に応じた処理を適宜行う。上述のとおりここで行う処理は特に限定されないが、入力情報取得部26が受け付けたユーザからの指示に応じて適宜切り替えてよい。このとき上述のとおり、あらかじめ定められた解像度に対応する階層の奥行き画像を参照し、行う処理にとって意味のある動きのみを取得する。処理の結果得られたデータは、表示装置16に表示させたりネットワーク18を介して別の装置へ送信したりする。
 使用目的によっては出力情報生成部32は、撮像装置12のいずれかのカメラが撮影した画像に、位置情報生成部28が生成した位置情報に基づく加工を施して表示装置16に表示させてもよい。例えば撮影されたユーザ1の手や把持するコントローラなどの動きを位置情報生成部28から取得して、撮影画像の該当位置に剣の画像を重ね合わせる加工を全フレーム対し行うことにより、ユーザが剣を持って振り回す様子を表現できる。
 この場合、位置情報生成部28がステレオマッチングに用いるステレオ画像のうち片方のフレームを同時に取得してそれぞれに加工を施し表示装置16に出力してもよいし、ステレオマッチングとは独立に片方のカメラが撮影した各フレームの画像データを取得し加工してもよい。ステレオマッチングを行うレート、対象領域の見積もり処理を行うレート、出力画像の生成に用いるフレームレートはそれぞれ独立に決定してよい。
 各処理のレートが増加するほど時間解像度の観点で詳細な処理が可能になるが、通信帯域や処理の負荷が増加する。そのため情報処理システム10の本来の性能や、並行して行っている処理の有無などに応じて選択するようにしてもよい。使用可能な通信帯域や処理リソースと、それらのレートとを対応づけたテーブルを用意しておき、実際の処理環境に応じて当該テーブルを参照することにより決定してもよい。
 通信部30は、第1カメラ22、第2カメラ24が生成した階層構造の画像のうち、情報処理装置14における処理に必要な階層および領域の情報を入力情報取得部26、位置情報生成部28から取得して撮像装置12へ要求する。それに応じて撮像装置12から送信された画像データを、位置情報生成部28、出力情報生成部32へ適宜供給する。
 図3は第1カメラ22の構成を詳細に示している。なお第2カメラ24も同じ構成を有する。第1カメラ22は、画像取得部102、デモザイク部104、画像送出部150、ピラミッドフィルタ部170および通信部108を備える。画像取得部102は、CCDまたはCMOS等の撮像素子で露光された画像を所定のタイミング(例えば、60回/秒)で読み出す。以下の説明では、この画像は横方向に画素h個分の幅を有するものとする。この画像はいわゆるRAW画像である。画像取得部102は、RAW画像の横一列分の露光が完了する毎に、これをデモザイク部104および画像送出部150に送る。
 デモザイク部104は、画素h個分の容量を有するFIFO(First In First Out)バッファ105と簡易デモザイク処理部106とを有する。FIFOバッファ105には、RAW画像の横一列分の画素情報が入力され、次の横一列分の画素がデモザイク部104に入力されるまでそれを保持する。簡易デモザイク処理部106は、横二列分の画素を受け取ると、それらを用いて、各画素に対してその周辺画素に基づき色情報を補完してフルカラー画像を作り出すデモザイク(de-mosaic)処理を実行する。
 当業者には周知のように、このデモザイク処理には多数の手法が存在するが、ここでは横二列分の画素のみを利用する簡易なデモザイク処理で十分である。一例として、対応するYCbCr値を算出すべき画素がG値のみを有している場合は、R値は左右に隣接するR値を平均、G値は当該G値をそのまま使用、B値は上または下に位置するB値を使用してRGB値とし、これを所定の変換式に代入してYCbCr値を算出するなどである。このようなデモザイク処理は周知であるからこれ以上詳細な説明は省略する。
 簡易なデモザイク処理の変形例として、RGBの4画素から一画素のYCbCr値を構成する手法を用いてもよい。この場合は、RAW画像の1/4サイズのデモザイク後画像が得られるので、後述する第1フィルタ110は不要になる。簡易デモザイク処理部106は、例えば図示のように、横2×縦2のRGBの4画素をYCbCrカラー信号に変換する。そして、この4画素からなるブロックは、画像送出部150に1/1デモザイク画像として渡されるとともに、ピラミッドフィルタ部170に送られる。
 ピラミッドフィルタ部170は、ある画像を複数の解像度に階層化して出力する機能を有する。ピラミッドフィルタは、一般に必要とする解像度のレベルに応じた数の1/4縮小フィルタを備えるが、本実施形態では第1フィルタ110~第4フィルタ140の4階層のフィルタを有している。各フィルタは、相互に隣接する4個の画素をバイリニア補間して4画素の平均画素値を演算する処理を実行する。したがって、処理後の画像サイズは処理前の画像の1/4になる。
 第1フィルタ110の前段には、Y、Cb、Crのそれぞれの信号に対応して、画素h個分のFIFOバッファ112が一つずつ配置される。これらのFIFOバッファ112は、横一列分のYCbCr画素を、次の横一列分の画素が簡易デモザイク処理部106から出力されるまで保持する役割を有する。画素の保持時間は、撮像素子のラインスキャンの速度に応じて決まる。
 横二列分の画素が入力されると、第1フィルタ110は、横2×縦2の4画素分のY、Cb、Crの画素値を平均する。この処理を繰り返すことによって、1/1デモザイク後画像は縦横それぞれ1/2の長さとなり、全体として1/4のサイズに変換される。変換された1/4デモザイク後画像は、画像送出部150に送られるとともに、次段の第2フィルタ120に渡される。
 第2フィルタ120の前段階には、Y、Cb,Crのそれぞれの信号に対応して、画素2/h個分のFIFOバッファ122が一つずつ配置される。これらのFIFOバッファ114も、横一列分のYCbCr画素を、次の横一列分の画素が第1フィルタ110から出力されるまで保持する役割を有する。
 横二列分の画素が入力されると、第2フィルタ120は、横2×縦2の4画素分のY、Cb、Crの画素値を平均する。この処理を繰り返すことによって、1/4デモザイク後画像は縦横それぞれ1/2の長さとなり、全体として1/16のサイズに変換される。変換された1/16デモザイク後画像は、画像送出部150に送られるとともに、次段の第3フィルタ130に渡される。
 第3フィルタ130および第4フィルタ140についても、それぞれの前段にh/4個分のFIFOバッファ132またはh/8個分のFIFOバッファ142が配置される以外は、上記と同様の処理を繰り返す。そして、画像送出部150に、1/64および1/256サイズのデモザイク後画像を出力する。なお、上記のようなピラミッドフィルタは、欧州特許出願公開第0999518号明細書などに記載されているように周知であるから、本明細書ではこれ以上の詳細な説明を省略する。
 このように、ピラミッドフィルタ部170の各フィルタからは、1/4ずつ縮小された画像出力が画像送出部150に入力される。これから分かるように、ピラミッドフィルタ部170内のフィルタを通過するほど、各フィルタの前段に必要となるFIFOバッファの大きさは小さくて済むようになる。
 画像送出部150は、画像取得部102から受け取ったRAW画像、デモザイク部104から受け取った1/1デモザイク後画像、およびピラミッドフィルタ部170から受け取った1/4~1/256デモザイク後画像からなる階層画像のうち、情報処理装置14の通信部30から通信部108を介して受けた指示に応じて必要な階層および領域を選び出す。そして、これら画像でパケットを構成して通信部108に送る。
 通信部108は、例えばUSB1.0/2.0等の所定のプロトコルにしたがって、パケットを情報処理装置14に送出する。情報処理装置14との通信は有線に限らず、例えばIEEE802.11a/b/gなどの無線LAN通信、IrDAなどの赤外線通信であってもよい。
 図4は、画像送出部150の構成を示している。画像送出部150は、ブロック書込部152、バッファ154、ブロック読出部156、符号化部158、パケット化部160、パケットバッファ162および制御部164を有する。制御部164は、情報処理装置14からの指示に基づき、ブロック書込部152およびブロック読出部156に各種画像データのうちいずれをパケットとして送出するかを指示する。
 ブロック書込部152には、デモザイク部104およびピラミッドフィルタ部170を経由して1/1~1/256サイズのデモザイク後画像が入力される。また、情報処理装置14の出力情報生成部32が実行する処理内容によっては、画像取得部102からRAW画像が入力される。ブロック書込部152の階層選択部152Aは、制御部164からの指示に基づき、デモザイク後画像のいずれかの階層を選択する。
 切り出しブロック選択部152Bは、情報処理装置14から送られる、処理に必要な領域の位置情報を受け取り、その領域から所定の画素数だけ広い領域を内包するブロックを特定ブロックとして選択する。なお、一ブロックの大きさは、後段のJPEG符号化に合わせて8×8画素のブロックであることが好ましい。ブロック選択部152Bは選択されたデモザイク後画像の一部のブロックのみを切り出したうえ、バッファ154に書き込む。
 このとき、2×2の画素毎に画像を受け取り、順次バッファ154に書き込む。ブロック読出部156は、バッファ154上に一ブロック分の画素が準備できた順に、各画像ブロックを読み出して符号化部158に送る。ブロック書込部152およびブロック読出部156は、制御部164によって同期動作するように調整されている。つまり、ブロック書込部152による読み書きは、画像取得部102、デモザイク部104およびピラミッドフィルタ部170から画素が出力される毎に行われるのに対し、ブロック読出部156による読み出しは、バッファ154に一ブロック分の画素が蓄積される毎に行われる。この同期タイミングはカメラの露光速度に応じて決まる。
 本実施形態では、RAW画像の全体や縮小画像の全体分の画素が揃ってから情報処理装置14に送るのではなく、ブロック単位で送出するので、バッファ154は最大でもRAW画像および縮小画像の全ての画像ブロックを蓄積できる大きさで十分である。画像の使用目的によっては、2~3個の画像ブロックを蓄積できればよい。このように、バッファされるデータを少なくし、ブロックができる毎に順次パケット化して転送するので、撮像装置12内の処理に伴うレイテンシが削減される。
 また、画像取得部102からの画素の出力およびピラミッドフィルタ部170からは、撮像素子の露光が終わるたびに順次ブロック書込部152に画素が出力されてくるため、異なるフレームのブロックがバッファ154に書き込まれたり、ブロックが異なる順序でパケット化して送られるようなことは、構造上起こりえない。
 符号化部158は、RAW画像以外の画像の画像ブロックに対して、JPEG等の周知の圧縮符号化を実行し、パケット化部160に送る。パケット化部160は、符号化後の画像の画像ブロックを、パケット化部160に到来した順にパケット化してパケットバッファ162に書き込む。通信部108は、パケットバッファ162内のパケットを、所定の通信プロトコルにしたがって情報処理装置14に転送する。なおRAW画像以外の画像についても、符号化部158による圧縮符号化を行わず、パケット化部160がブロック読出部156から取得したブロックを直接パケット化してもよい。
 なお、LLVC、AVC等の他の周知の符号化も使用することができるが、ブロック単位で符号化できるものが好ましい。また、ブロック読出部156で読み出されるブロックの大きさも符号化に合わせて変更することができ、例えば256×256単位のブロックで読み出しと符号化が行われてもよい。
 図5は情報処理装置14の位置情報生成部28の構成を詳細に示している。位置情報生成部28は、ステレオマッチングに用いる対象領域および階層を決定する対象領域決定部40、および、ステレオマッチングを行い対象物の位置情報を取得する位置情報取得部42を含む。対象領域決定部40は全体画像取得部44、動き領域検出部46、領域予測部48、領域統合部50、および階層決定部52を含む。
 全体画像取得部44は、撮像装置12の第1カメラ22および第2カメラ24がそれぞれ生成したステレオ画像の階層データのうち、最も解像度の低い第0階層の全領域の画像を所定のレートで取得する。ここで取得する画像はY画像のみとしてもよい。ただし処理能力や通信速度などに応じて用いる階層、画像の種類は適宜選択してよい。
 動き領域検出部46は、全体画像取得部44が取得したステレオ画像のそれぞれについて動き領域を検出する。例えば対象物を人とした場合、まず顔検出を行い、人の像があると考えられる領域を見積もる。そして見積もった領域について1つ前の時間ステップで用いた画像との差分画像を取得し、所定のしきい値以上の差分を有する領域、またはそれに外接する領域などを動き領域として検出する。
 領域予測部48は、ステレオ画像のそれぞれについて、動き領域検出部46が検出した動き領域に基づき、将来のステレオマッチング処理で探索すべき対象領域を予測する。領域統合部50は、領域予測部48が予測した、ステレオ画像における対象領域を統一座標系で統合し、各時刻に対し1つの対象領域を決定する。階層決定部52は、当該対象領域の大きさに基づき、ステレオマッチングを精度よく行え、かつ無駄に解像度が高くない階層を選択する。
 位置情報取得部42は、対象領域画像取得部53、位置特定部54、無効データ検出部56、データ生成部58を含む。対象領域画像取得部53は、対象領域決定部40が決定した対象領域および階層を指定して撮像装置12からステレオ画像データを取得する。位置特定部54は対象領域画像取得部53が取得したステレオ画像に対しステレオマッチングを行い、奥行き方向の位置を含む3次元の位置情報を特定する。
 ここで実施するステレオマッチング処理は、これまでに提案されている様々な手法のいずれを用いてもよい。例えば左右の画像の一方に相関窓を設定し、他方の画像の探索窓を動かしながら相関窓の画像との相互相関係数を算出することにより対応点を取得したうえ、これらの対応点の視差に基づき三角測量の原理を用いて3次元の位置情報を求める面積相関法などを用いることができる。
 無効データ検出部56は、位置特定部54が特定した位置情報のうち、無効とすべきデータを特定する。上述のとおり対象物が奧にあるほどその視差は小さくなるため、解像度の小さい画像では奥行き方向の位置が算出されたとしてもその誤差は大きい。すなわちステレオマッチングに用いる画像の解像度によって、適正に算出できる奥行き方向の範囲が異なり、解像度が低いほどその限界が手前に位置することになる。
 そこで各階層に対して、データを有効としてよい限界を深度限界として奥行き方向に対して設定しておき、位置特定部54が特定した奥行き方向の位置と比較することにより無効なデータを特定する。このようにすることで、撮像装置12自体が揺れたり、本来動きを追うべき対象物以外の大きな動きが背後で発生したときにそれをデータとして後段の処理に用いてしまう不具合の発生を防止する。
 データ生成部58は、無効データ検出部56が特定した無効なデータを除外した結果残った位置情報に基づき奥行き画像を作成する。奥行き画像は上述のとおり、撮像装置12で生成する複数の解像度に対応する解像度を有する階層構造とする。奥行き画像の階層データは、あらかじめすべての画素値に0など初期値を与え、奥行き画像データ記憶部60に格納しておく。
 そして位置特定部54が対象物の位置を特定するたびに、ステレオマッチングに用いた撮影画像の階層に対応する階層の、対応する位置の画素を奥行き方向の座標値とすることで奥行き画像を更新する。結果として奥行き画像データは、ステレオマッチングの処理レートと同じレートで更新される。情報処理装置14の出力情報生成部32は、自らが行う処理に必要な空間解像度に応じて、奥行き画像データのうち階層を選択して位置情報を読み出し、適宜処理に利用する。
 図6は撮像装置12、位置情報取得部42、および対象領域決定部40が行う処理の時間的関係を模式的に示しており同図横方向が時間軸を表す。時刻0にすべての処理を開始すると、撮像装置12は時刻t1、t2、t3、・・・、t18、・・・に所定のフレームレートで対象物を撮影し、複数の解像度の画像データを生成して必要なデータを情報処理装置14に送出する。図6では撮像装置12が行う画像データ生成処理を全期間における連続した矩形で表しているが、実際には各撮影時刻に撮影された画像のデータ生成、データ送出が終了したら次の撮影時刻まで待機してよい。位置情報取得部42が行う処理も同様である。
 初回の時刻t1の撮影画像のうち低解像度の全体画像は、情報処理装置14の対象領域決定部40に供給される(S1)。このとき位置情報取得部42にも所定の階層の全体画像を供給する(S2)。このときの階層は、対象物が標準的な位置にいるときを想定してステレオマッチングの精度が十分得られる範囲で解像度の低い階層をあらかじめ設定しておく。解像度の低い画像ほどサイズが小さいため、対応点の探索が効率的に行える。
 位置情報取得部42では、S2で供給されたステレオ画像を用いてステレオマッチング、無効データの除外、奥行き画像更新の処理を順に行う。これにより時刻t1に対応する対象物の位置情報が、階層構造を有する奥行き画像の形式で出力される。一方、対象領域決定部40では、S1で供給されたステレオ画像を用いて動き領域検出、領域予測、領域統合、階層決定の処理を順に行う。そして決定した対象領域と階層の情報を位置情報取得部42に通知する(S3)。
 このとき決定する対象領域と階層の情報は、時刻t2、t3、t4、t5、t6、t7に撮影される画像に対するものである。そのため対象領域決定部40の領域予測部48は各時刻までの時間を考慮し、現在の動き領域からの対象物の可動範囲を推定し、当該範囲を含むように各時刻に対して対象領域を予測する。位置情報取得部42は、S3で通知された情報に基づき、時刻t2、t3、t4、t5、t6、t7における撮影画像のデータが生成される都度、各時刻に対応して決定された対象領域および階層のステレオ画像データを取得する(S4、S5、S6、S7、S8、S9)。
 S9と同じタイミングで、時刻t7の撮影画像のうち最低解像度の全体画像が対象領域決定部40に供給される(S10)。対象領域決定部40は再び、動き領域検出、領域予測、領域統合、階層決定の処理を順に行い、その結果決定した対象領域と階層の情報を位置情報取得部42に通知する(S11)。このとき決定する対象領域と階層の情報は、時刻t8、t9、t10、t11、t12、t13に撮影される画像に対するものである。
 以下、同様の処理を繰り返すことにより、各時刻に撮影された画像における対象物の位置情報が奥行き画像として出力される。なお同図では、撮像装置12が撮影したすべてのフレームに対し位置情報を取得したが、上述のとおり、出力情報生成部32が行う後段の処理において位置情報に求められる時間解像度や、情報処理システム10の処理能力に応じて、処理の時間間隔を広げてもよい。例えば対象領域決定部40における処理と同じレートで処理を行ってもよい。
 図7は情報処理装置14の動き領域検出部46、領域予測部48、領域統合部50が行う処理の様子を模式的に示している。画像61は第1カメラ22が撮影した画像、画像62は第2カメラ24が撮影した画像である。各カメラは時刻tに対して所定のレートで撮影しているため同図に示すように時間tに対して画像列が生成される。この例において、ある時刻の画像61と画像62には、同図の実線で示すように人が写っている。
 第1カメラ22と第2カメラ24は左右に並んだ別の視点から人を撮影しているため、画像61および画像62における人の像は左右に視差が生じている。対象領域決定部40は、このように左右の視点から撮影されたステレオ画像を利用して対象領域を求める。まず動き領域検出部46は、画像61および画像62に対し独立に動き領域の決定を行う。
 具体的には、まず対象物が人であれば顔検出処理を行うことで、画像61に対して顔領域64a、画像62に対し顔領域64bを検出する。顔検出処理はパターンマッチングなど一般的に行われている様々な手法のいずれを適用してもよい。対象物が人でなくても、形状が既知でありテンプレート画像が準備できれば同様の処理が行える。例えば手、被写体たるユーザが把持するマーカなどでも、その形状を表すテンプレート画像をあらかじめメモリなどに準備しておくことにより同様に処理が可能である。
 次に、顔領域64a、64bの大きさおよび位置に基づき、各画像61、62に対し、動き領域である可能性の高い領域を動き検出対象領域66a、66bとしてそれぞれ決定する。動き領域である可能性の高い領域とはつまり人の体が及ぶ範囲であり、顔の位置が既知であれば予測は容易である。例えば、基準の顔の輪郭線とその顔に対し設定すべき動き検出対象領域の範囲を矩形で示した基準画像を準備しておき、顔検出処理でえられた顔領域64a、64b内の顔の輪郭に、基準の顔の輪郭線がおよそ重なるように基準画像を拡大または縮小する。そのときの基準画像の矩形が動き検出対象領域66a、66bとなる。
 次に動き検出対象領域66a、66bについて、前回の対象領域決定処理時に取得した全体画像における対応する領域との差分画像を、左の画像間、右の画像間でそれぞれ取得したうえ、差分が所定のしきい値より大きい箇所を抽出する。同図では、前回に取得した全体画像において写っていた左手を、画像61、62上に点線で示している。その他の部分に変化がなかったとすると、左手部分にのみ差分が大きく表れる。このように差分がしきい値以上の箇所を抽出し、それに外接する矩形を動き領域68a、68bとして決定する。
 次に領域予測部48は、画像61および画像62のそれぞれに対し決定した動き領域68a、68bに基づき、ステレオマッチングの対象となる画像の撮影時刻を想定した領域予測を行う。この処理は、単に時間経過に比例する量で、動き領域68a、68bを縦方向、横方向に同じ比率で拡大していってもよいし、前回以前の対象領域決定処理時に取得した複数の画像から自己回帰モデルなどに基づき対象物の移動方向を予測したうえ、動き領域68a、68bを当該方向にのみ拡大していってもよい。あるいはそれらを組み合わせてもよい。
 このようにして、画像61、画像62のそれぞれに対し、予測領域70a、70bが決定される。なお同図では予測領域が各画像につき1つのみ示されているが、上述のとおり、ステレオマッチングの対象画像が撮影される各時刻に対して予測領域を決定する。次に領域統合部50は、左右の画像それぞれに対して決定した予測領域70a、70bを、画像平面を構成する正規化座標系で重ね合わせてその和となる領域(少なくともいずれかの領域に含まれる領域)を求めることにより統合する。
 左右の異なる視点から撮影した画像は横方向に視差が生じるため、予測領域70a、70bは同図に示すように画像平面を構成する座標系でx方向(横方向)にずれる。このように2つの画像から対象領域を決定するのは次の理由による。すなわち対象物が手前にいるほどその像は見かけ上大きくなるため、その動きが及ぶ範囲が広くなり、上記のように決定した予測領域を超えてしまう可能性が上がる。
 そこで対象物の奥行き方向の位置に依存したみかけ上の動きの大きさの変化に応じて、対象領域の広さを調整するために視差を利用する。視差が大きければ予測領域70a、70bのずれが大きくなるため、その和となる領域が広くなり、視差が小さければそのずれが小さくなるためその和となる領域はあまり広くならない。このようにして対象物の奥行き方向の位置を考慮して領域の広さを調整することにより、対象物が対象領域からはずれるのを防止しながらも余分な領域は含まれないようにする。
 なお領域統合部50はさらに、和となる領域を所定の拡大率で縦横双方向に拡大した領域を最終的な対象領域72として決定する。このようにすることで、対象物が対象領域からはずれる可能性をさらに低くできる。
 図8は階層決定部52が、対象領域の大きさに基づきステレオマッチングに用いる階層を選択する様子を模式的に示している。同図において矩形80a、80b、80c、80dは、撮影画像の階層のうち第3階層、第2階層、第1階層、第0階層の画像サイズを表している。図7において画像の正規化座標系で決定した対象領域72は、各画像サイズに対して矩形72a、72b、72c、72dのような大きさとなる。
 このように対象領域72を各階層の画像サイズに対応させて得た矩形72a、72b、72c、72dを、基準サイズ矩形82と比較し、対象領域のサイズが基準サイズ矩形82のサイズに近くなる階層を選択する。基準サイズ矩形82は、ステレオマッチング時に好適な精度を得るために必要な、対象物の見かけ上の大きさを規定したものであり、実験などによりあらかじめ設定しておく。
 サイズの大小は、2つの矩形が内包関係を有するときの内包される矩形を「小さい」と見なしてもよいし、面積で比較してもよい。あるいは縦、横、どちらか一方の辺の長さのみで比較してもよい。また階層の選択にあたっては、各階層に対応する矩形72a、72b、72c、72dのうち、サイズの順列で基準サイズ矩形82と前後する2つの矩形のいずれを選択してもよく、必ずしも最もサイズの近い矩形でなくてもよい。
 例えば図8の場合、基準サイズ矩形82は、矩形72a、72b、72c、72dのうち矩形72bと矩形72cの間のサイズを有するため、矩形72bに対応する第2階層、または矩形72cに対応する第1階層を選択する。例えば最大サイズである第3階層の矩形72aからサイズの大きい順に比較していき(S20、S22、S24、S26の順)、初めて基準サイズ矩形82に内包された矩形に対応する階層を選択してもよい。同図の例では、矩形72cに対応する第1階層を選択する。
 このような手順とすると、基準サイズ矩形に近い矩形が得られる階層のうち、解像度の低い方の階層を選択でき、計算量をより抑えることができる。いずれにしろ、基準サイズ矩形82に近いサイズの対象領域が得られる階層をこのように選択することにより、上述のとおり、対象物の見かけ上の大きさに合わせて、ステレオマッチングに用いる画像の解像度を調整することができる。結果として、必要以上に詳細な画像データを探索する無駄の発生を防止しつつ、その精度を保つことができる。
 図9は、撮像装置12が生成する撮影画像の階層と、位置情報取得部42のデータ生成部58が生成する奥行き画像の階層の対応を示している。同図において上側の4組の画像82a、82b、82c、82dが、ある時刻に撮影されたステレオ画像、下側の4つの画像84a、84b、84c、84dが、当該ステレオ画像に対し生成された奥行き画像であり、それぞれ左から順に第0階層、第1階層、第2階層、第3階層の画像である。
 例えば人が棒状の物を顔の前で振っている様子を撮影すると、ある時刻において画像82a、82b、82c、82dのような撮影画像が2つの視点に対して1枚ずつ生成される。このような撮影画像に対し対象領域決定部40が決定した階層が第2階層、対象領域が領域86であったとすると、位置情報取得部42は当該階層、当該領域の左右の画像データを取得してステレオマッチングを行う。
 そしてその領域における対象物の位置情報が得られたら、奥行き画像の階層データのうち、対応する階層における対応する領域、すなわち領域88の画素値を更新する。このとき領域86に対して得られた奥行き方向の位置座標のうち最も小さい値(手前の位置)が、第2階層に設定された深度限界より奥にあるときは更新処理を行わない。これは上述のとおり、本来当該解像度では対象物の位置としては正確に得られるはずのない奥行き方向の位置における大きな動きが何らかの要因で発生した場合をエラーとして除外するためである。階層と深度限界とはあらかじめ対応づけてテーブルとしてメモリなどに格納しておく。
 このように、奥行き画像を階層構造とし、ステレオマッチングに用いた撮影画像の階層に対応する階層のデータを各時刻において更新していく。画像の解像度は、当該画像から精度よく得られる対象物の奥行き方向の位置の範囲に対応する。そのため、ステレオマッチングに用いた画像の解像度ごとに奥行き画像を階層化し、得られた位置情報を対応する階層にのみ反映させることにより、対象物の位置を、奥行き方向の位置の範囲で区分していることにもなる。
 この奥行き画像を用いて処理を行う出力情報生成部32は、行う処理の内容や求める精度などによって奥行き画像の階層を適宜選択して参照することにより、必要な情報は確実に取得しつつ、余分なデータを処理に組み込んで処理精度が低下したり処理速度が落ちたりすることを防止できる。
 例えばカメラから遠い対象物の動きを無視したいときは第0階層、第1階層など低解像度の画像のみを参照する。逆に奥の対象物の動きのみに注目する場合は、第2階層、第3階層など高解像度の画像のみを参照する。手前から奥の方まで広い範囲における動きを全て取得したい場合は、第0階層から第3階層までを順に参照していってもよい。参照すべき奥行き画像の階層は、実際に処理を行って検証することにより、処理内容、想定される対象物の位置、大きさなどに対して設定しておいてもよい。
 以上述べた本実施の形態によれば、撮像装置にカメラを2つ設け、異なる視点から対象物の動画を同時に撮影する。撮影した画像はピラミッドフィルタにより解像度の異なる複数の階層画像へ変換する。そして、低い解像度の全体画像を用いて動き領域を検出し、その大きさに見合った階層を選択したうえ、対象物の動きがあると予測される対象領域のみを取得してステレオマッチングを行う。
 これにより、対象物が奥行き方向のどの位置にいても、ステレオマッチングの精度が維持できる範囲で無駄なデータ処理を省くことができ、精度と処理効率を両立させることができる。また対象物の位置が変化しても対象領域の画像サイズは大きく変化しないため、計算量が対象物の位置によらず、安定した位置情報出力が可能となる。
 また対象物の動きなどに基づき将来の対象領域を予測することにより、対象領域を決定する処理とステレオマッチングとを独立したタイミングで行う。これにより処理リソースや処理能力、求められる応答性、精度などに鑑み、これら2つの処理をどのような頻度で行うかを自由に決定することができる。
 また対象領域の決定には、2つのカメラによって撮影されたステレオ画像を2つとも用い、双方において得られた動き領域の和となる領域に基づき対象領域を決定する。これにより、動きの及ぶ範囲が大きい、手前の対象物については対象領域をより広げることができ、対象領域から対象物がはみ出る可能性が低くなる。一方ではみ出る可能性がもともと低い、奥の対象物は、対象領域の広がりが抑えられ、無駄な領域を対象領域に含めることが少なくなる。
 さらに、得られた位置情報は、奥行き方向の位置を画素値とする奥行き画像を複数の解像度で表した階層構造とする。そしてステレオマッチングで用いた画像に対応する階層の領域の画素値を各時刻で更新する。これにより、位置情報を用いて行う後段の処理に求められる精度、解像度、対象物の奥行き方向の位置の想定範囲、などによって参照する階層を切り替えることができ、参照処理、および参照した情報を用いた各種処理を効率化できる。
 以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 例えば本実施の形態では、対象領域決定部40が決定した対象領域に対しステレオマッチングを行うことにより、対象物の3次元の位置情報を取得したが、対象領域を決定する技術は、ステレオマッチング以外の処理にも適用することができる。例えば顔の表情認識処理など奥行き方向の詳細な位置情報を必要としない処理でもよい。この場合もステレオ画像を用いて、顔の奥行き方向の位置によって対象領域の広さを調整し、最適な解像度の画像を選択することができるため、その後の処理の精度および効率を両立させることができる。
 また本実施の形態では、動きのある領域、すなわち対象領域を特定するための初期処理として、情報処理装置14の動き領域検出部46が顔検出処理を行った。一方、この顔検出処理の機能を撮像装置12の各カメラに設けるようにしてもよい。図10はそのような場合の第1カメラ22の構成を示している。ここで第1カメラ22が備える画像取得部102、デモザイク部104、画像送出部150、ピラミッドフィルタ部170および通信部108は図3における各機能ブロックと同一であり、この変形例ではさらに対象物検出部180を備える。第2カメラ24も同じ構成を有する。
 対象物検出部180は、情報処理装置14において対象領域決定部40が処理対象とする画像、例えば最も解像度の低い第0階層の全領域の画像を画像送出部150のブロック読み出し部156から取得し、それに対して顔検出処理を行うことにより顔領域を特定する。そしてその領域の位置および大きさに係る情報を、画像送出部150のパケット化部160に通知し、検出対象の画像データ本体とともにパケット化して情報処理装置14へ送信する。あるいは検出対象の画像の識別情報などに対応づけて通信部108から情報処理装置14へ送信する。
 この場合、情報処理装置14の動き領域検出部46は、各時刻の画像における顔領域に係る情報を、画像データとともに撮像装置12から取得することで、図7に示した顔領域64a、64bを検出する処理を行わずにすむ。このとき動き領域検出部46は、動き検出対象領域66a、66bを決定する処理から開始する。このように撮像装置12の処理能力によって処理の分担を変化させることにより、効率のよい対象領域特定が行え、結果的に応答性および精度のよい位置情報生成が可能となる。
 ここで対象物検出部180が行う検出処理は、上述のとおり既存のテンプレートマッチング技術を導入して適当なテンプレート画像を準備することにより、その対象は人の顔にとどまらず、手、マーカ、所定の物などのいずれでもよい。例えば情報処理装置14において、ユーザが開始を指定したゲーム名や情報処理の種類などに応じて、入力情報取得部26が、それに対応する対象物を特定し、撮像装置12に識別情報を通知する。
 撮像装置12の各カメラは、図示しないメモリに準備した複数のテンプレート画像から、通知された対象物に対応するテンプレート画像を読み出し、テンプレートマッチングを行うことにより対象物を検出する。あるいは情報処理装置14がテンプレート画像のデータそのものを撮像装置12に送信するようにしてもよい。このようにすることで、ユーザの指示入力などに従って対象物を様々に変化させることができる。
 10 情報処理システム、 12 撮像装置、 14 情報処理装置、 16 表示装置、 22 第1カメラ、 24 第2カメラ、 26 入力情報取得部、 28 位置情報生成部、 30 通信部、 32 出力情報生成部、 40 対象領域決定部、 42 位置情報取得部、 44 全体画像取得部、 46 動き領域検出部、 48 領域予測部、 50 領域統合部、 52 階層決定部、 53 対象領域画像取得部、 54 位置特定部、 56 無効データ検出部、 58 データ生成部、 60 奥行き画像データ記憶部、 102 画像取得部、 104 デモザイク部、 108 通信部、 150 画像送出部、 151 ブロック選択部、 164 制御部、 170 ピラミッドフィルタ部、 180 対象物検出部。
 以上のように本発明はコンピュータ、カメラ、ゲーム装置、画像表示装置などの情報処理装置に利用可能である。

Claims (10)

  1.  対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置であって、
     前記ステレオ動画像に含まれる画像フレーム対をそれぞれ、所定の複数の解像度で表した複数の撮影画像のうち、対象物の像の大きさに係る情報に基づき選択した解像度の画像を用いてステレオマッチングを行うことにより対象物の位置情報を取得する位置情報取得部と、
     メモリに格納した、画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像を前記複数の解像度で表した複数の奥行き画像のうち、前記位置情報取得部がステレオマッチングに用いた画像の解像度を有する奥行き画像を、取得された位置情報に基づき更新することにより、対象物の位置情報を出力する奥行き画像データ生成部と、
     を備えたことを特徴とする情報処理装置。
  2.  前記奥行き画像データ生成部は、前記位置情報取得部が取得した位置情報のうち奥行き方向の位置が、ステレオマッチングに用いた画像の解像度に対して設定された、有効とすべき奥行き方向の位置の範囲外にあるときは、当該位置情報を無効とすることを特徴とする請求項1に記載の情報処理装置。
  3.  前記位置情報取得部は、前記撮影画像のいずれかを用いて動き差分を求めることにより特定した動き領域に基づき、ステレオマッチングの処理対象とすべき対象領域を決定したうえ、当該対象領域の大きさに応じてステレオマッチングに用いる解像度を選択することを特徴とする請求項1または2に記載の情報処理装置。
  4.  処理内容と参照先の奥行き画像の解像度とを対応づけた設定情報に基づき、参照先の奥行き画像を切り替えて対象物の位置情報を取得したうえ、それを用いて所定の処理を行うことにより、対象物の動きに応じた処理結果を出力する出力情報生成部をさらに備えたことを特徴とする請求項1から3のいずれかに記載の情報処理装置。
  5.  前記位置情報取得部は、前記画像フレーム対のそれぞれに対し特定した前記動き領域を統一座標系において重ね合わせ、その和となる領域を前記対象領域として決定することを特徴とする請求項3に記載の情報処理装置。
  6.  前記位置情報取得部は、前記対象領域を前記所定の複数の解像度で表したときの画像の大きさを表す複数の矩形と、あらかじめ定めた基準の大きさを有する矩形とからなる大きさの順列において、前記基準の大きさを有する矩形の次に小さい矩形に対応する解像度をステレオマッチングの対象として選択することを特徴とする請求項5に記載の情報処理装置。
  7.  対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理方法であって、
     前記ステレオ動画像に含まれる画像フレーム対をそれぞれ、所定の複数の解像度で表した複数の撮影画像のうち、対象物の像の大きさに係る情報に基づき選択した解像度の画像を用いてステレオマッチングを行うことにより対象物の位置情報を取得するステップと、
     メモリに格納した、画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像を前記複数の解像度で表した複数の奥行き画像のうち、ステレオマッチングに用いた画像の解像度を有する奥行き画像を、取得された位置情報に基づき更新することにより、対象物の位置情報を出力するステップと、
     を備えたことを特徴とする情報処理方法。
  8.  対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する機能をコンピュータに実現させるコンピュータプログラムであって、
     前記ステレオ動画像に含まれる画像フレーム対をそれぞれ、所定の複数の解像度で表した複数の撮影画像のうち、対象物の像の大きさに係る情報に基づき選択した解像度の画像を用いてステレオマッチングを行うことにより対象物の位置情報を取得する機能と、
     メモリに格納した、画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像を前記複数の解像度で表した複数の奥行き画像のうち、ステレオマッチングに用いた画像の解像度を有する奥行き画像を、取得された位置情報に基づき更新することにより、対象物の位置情報を出力する機能と、
     をコンピュータに実現させるコンピュータプログラム。
  9.  対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する機能をコンピュータに実現させるコンピュータプログラムを記録した記録媒体であって、
     前記ステレオ動画像に含まれる画像フレーム対をそれぞれ、所定の複数の解像度で表した複数の撮影画像のうち、対象物の像の大きさに係る情報に基づき選択した解像度の画像を用いてステレオマッチングを行うことにより対象物の位置情報を取得する機能と、
     メモリに格納した、画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像を前記複数の解像度で表した複数の奥行き画像のうち、ステレオマッチングに用いた画像の解像度を有する奥行き画像を、取得された位置情報に基づき更新することにより、対象物の位置情報を出力する機能と、
     をコンピュータに実現させるコンピュータプログラムを記録した記録媒体。
  10.  動画撮影している対象物の位置情報を表し位置情報を取得する都度更新される位置情報のデータ構造であって、
     動画像のフレームと対応する画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像であり、位置情報の取得に用いたフレームの解像度によって取得結果である位置情報を反映させる奥行き画像の解像度を切り替え可能とするように、位置情報の取得のために生成されるフレームの複数の解像度に対応する解像度を有する複数の奥行き画像を対応づけたことを特徴とする位置情報のデータ構造。
PCT/JP2012/000211 2011-03-31 2012-01-16 情報処理装置、情報処理方法、および位置情報のデータ構造 WO2012132168A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201280014669.5A CN103460242B (zh) 2011-03-31 2012-01-16 信息处理装置、信息处理方法、以及位置信息的数据结构
US14/005,039 US9699432B2 (en) 2011-03-31 2012-01-16 Information processing apparatus, information processing method, and data structure of position information
EP12764539.8A EP2693393B1 (en) 2011-03-31 2012-01-16 Information processing device, information processing method, and data structure of location information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-079991 2011-03-31
JP2011079991A JP5781353B2 (ja) 2011-03-31 2011-03-31 情報処理装置、情報処理方法、および位置情報のデータ構造

Publications (1)

Publication Number Publication Date
WO2012132168A1 true WO2012132168A1 (ja) 2012-10-04

Family

ID=46929965

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/000211 WO2012132168A1 (ja) 2011-03-31 2012-01-16 情報処理装置、情報処理方法、および位置情報のデータ構造

Country Status (6)

Country Link
US (1) US9699432B2 (ja)
EP (1) EP2693393B1 (ja)
JP (1) JP5781353B2 (ja)
CN (1) CN103460242B (ja)
TW (1) TWI479318B (ja)
WO (1) WO2012132168A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014064870A1 (ja) * 2012-10-22 2014-05-01 株式会社ソニー・コンピュータエンタテインメント 画像処理装置および画像処理方法
WO2014083721A1 (ja) * 2012-11-27 2014-06-05 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理方法
WO2018034304A1 (ja) * 2016-08-18 2018-02-22 マクセル株式会社 画像処理システム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514522B2 (en) * 2012-08-24 2016-12-06 Microsoft Technology Licensing, Llc Depth data processing and compression
JP5979023B2 (ja) * 2013-01-28 2016-08-24 マツダ株式会社 車両用撮像装置
JP6165650B2 (ja) * 2014-02-14 2017-07-19 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および情報処理方法
US10210629B2 (en) 2014-02-14 2019-02-19 Sony Interactive Entertainment Inc. Information processor and information processing method
JP6300560B2 (ja) * 2014-02-14 2018-03-28 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および情報処理方法
US9875322B2 (en) 2014-07-31 2018-01-23 Google Llc Saving and retrieving locations of objects
JP6456405B2 (ja) * 2015-01-16 2019-01-23 株式会社日立製作所 3次元情報算出装置、3次元情報算出方法、および自律移動装置
CN105335699B (zh) * 2015-09-30 2016-10-19 深圳大学 读写场景中读写元素三维坐标的智能认定方法及其应用
CN105354828B (zh) * 2015-09-30 2016-10-19 深圳大学 读写场景中读物三维坐标的智能认定方法及其应用
WO2017101108A1 (en) 2015-12-18 2017-06-22 Boe Technology Group Co., Ltd. Method, apparatus, and non-transitory computer readable medium for generating depth maps
US10218923B2 (en) * 2017-02-17 2019-02-26 Semiconductor Components Industries, Llc Methods and apparatus for pixel binning and readout
CN111868784B (zh) * 2018-03-22 2023-09-01 日立安斯泰莫株式会社 车载立体摄像机
CN112188183B (zh) * 2020-09-30 2023-01-17 绍兴埃瓦科技有限公司 双目立体匹配方法
JP2022136829A (ja) * 2021-03-08 2022-09-21 本田技研工業株式会社 処理装置、移動体、処理方法、およびプログラム
WO2023182290A1 (ja) * 2022-03-25 2023-09-28 パナソニックIpマネジメント株式会社 視差情報生成装置、視差情報生成方法、および、視差情報生成プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0999518A1 (en) 1998-05-19 2000-05-10 Sony Computer Entertainment Inc. Image processing apparatus and method, and providing medium
JP2001126065A (ja) * 1999-10-26 2001-05-11 Toyota Central Res & Dev Lab Inc 距離分布検知装置
JP2001266128A (ja) * 2000-03-21 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> 奥行き情報取得方法,装置および奥行き情報取得プログラムを記録した記録媒体
WO2007050885A2 (en) 2005-10-26 2007-05-03 Sony Computer Entertainment America Inc. System and method for interfacing with a computer program
JP2008298533A (ja) * 2007-05-30 2008-12-11 Konica Minolta Holdings Inc 障害物計測方法、障害物計測装置及び障害物計測システム
JP2009294733A (ja) * 2008-06-03 2009-12-17 Konica Minolta Holdings Inc 画像処理装置および画像処理方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11223516A (ja) * 1998-02-09 1999-08-17 Fuji Xerox Co Ltd 3次元画像撮像装置
JP2000020698A (ja) * 1998-07-06 2000-01-21 Fuji Photo Film Co Ltd 3次元画像ファイル作成方法および装置、画像生成方法および装置並びにこれらの方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体
JP2004260251A (ja) * 2003-02-24 2004-09-16 Victor Co Of Japan Ltd 動きベクトル検出装置及び動きベクトル検出プログラム
US7720282B2 (en) * 2005-08-02 2010-05-18 Microsoft Corporation Stereo image segmentation
JP2009068935A (ja) 2007-09-12 2009-04-02 Univ Chuo ステレオ計測装置、ステレオ計測方法、及び、ステレオ計測処理プログラム
JP2009070344A (ja) * 2007-09-18 2009-04-02 Fujitsu Ten Ltd 画像認識装置、画像認識方法および電子制御装置
CN101277454A (zh) 2008-04-28 2008-10-01 清华大学 一种基于双目摄像机的实时立体视频生成方法
TW201004361A (en) 2008-07-03 2010-01-16 Univ Nat Cheng Kung Encoding device and method thereof for stereoscopic video
JP2010079651A (ja) * 2008-09-26 2010-04-08 Toshiba Corp 動作認識装置、方法及びプログラム
JP5430138B2 (ja) * 2008-12-17 2014-02-26 株式会社トプコン 形状測定装置およびプログラム
TWM373507U (en) 2009-02-05 2010-02-01 Shen-Jwu Su Three-dimensional vision panoramic image splicing mosaics device
JP4775474B2 (ja) 2009-03-31 2011-09-21 カシオ計算機株式会社 撮像装置、撮像制御方法、及びプログラム
KR101259835B1 (ko) 2009-06-15 2013-05-02 한국전자통신연구원 깊이 정보를 생성하기 위한 장치 및 방법
JP2011030182A (ja) 2009-06-29 2011-02-10 Sony Corp 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
CN101720047B (zh) * 2009-11-03 2011-12-21 上海大学 基于颜色分割的多目摄像立体匹配获取深度图像的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0999518A1 (en) 1998-05-19 2000-05-10 Sony Computer Entertainment Inc. Image processing apparatus and method, and providing medium
JP2001126065A (ja) * 1999-10-26 2001-05-11 Toyota Central Res & Dev Lab Inc 距離分布検知装置
JP2001266128A (ja) * 2000-03-21 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> 奥行き情報取得方法,装置および奥行き情報取得プログラムを記録した記録媒体
WO2007050885A2 (en) 2005-10-26 2007-05-03 Sony Computer Entertainment America Inc. System and method for interfacing with a computer program
JP2008298533A (ja) * 2007-05-30 2008-12-11 Konica Minolta Holdings Inc 障害物計測方法、障害物計測装置及び障害物計測システム
JP2009294733A (ja) * 2008-06-03 2009-12-17 Konica Minolta Holdings Inc 画像処理装置および画像処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2693393A4

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014064870A1 (ja) * 2012-10-22 2014-05-01 株式会社ソニー・コンピュータエンタテインメント 画像処理装置および画像処理方法
US9542755B2 (en) 2012-10-22 2017-01-10 Sony Corporation Image processor and image processing method
WO2014083721A1 (ja) * 2012-11-27 2014-06-05 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理方法
US9460337B2 (en) 2012-11-27 2016-10-04 Sony Corporation Information processor and information processing method
WO2018034304A1 (ja) * 2016-08-18 2018-02-22 マクセル株式会社 画像処理システム
US10867400B2 (en) 2016-08-18 2020-12-15 Maxell, Ltd. System for processing an image obtained by using stereo photography

Also Published As

Publication number Publication date
CN103460242A (zh) 2013-12-18
EP2693393A4 (en) 2014-10-15
US9699432B2 (en) 2017-07-04
JP5781353B2 (ja) 2015-09-24
TW201243597A (en) 2012-11-01
EP2693393B1 (en) 2017-08-16
US20140002604A1 (en) 2014-01-02
EP2693393A1 (en) 2014-02-05
JP2012216946A (ja) 2012-11-08
TWI479318B (zh) 2015-04-01
CN103460242B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
JP5774889B2 (ja) 情報処理装置、情報処理システム、および情報処理方法
JP5781353B2 (ja) 情報処理装置、情報処理方法、および位置情報のデータ構造
JP5629642B2 (ja) 動画像撮影装置、情報処理システム、情報処理装置、および画像データ処理方法
JP5701707B2 (ja) 動画像撮影装置、情報処理システム、情報処理装置、および画像データ処理方法
KR101295441B1 (ko) 기록 매체, 동화상 처리 장치 및 방법, 촬상 장치, 호스트 단말기 및 촬상 시스템
JP6121787B2 (ja) 撮像装置、情報処理システム、および画像データ処理方法
JP2019114842A (ja) 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法
JP2013201688A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2009065323A (ja) 画像処理装置、画像処理方法、撮像装置および撮像方法
JP5987899B2 (ja) 生成装置、生成プログラムおよび生成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12764539

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14005039

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2012764539

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2012764539

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE