WO2018105530A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2018105530A1
WO2018105530A1 PCT/JP2017/043334 JP2017043334W WO2018105530A1 WO 2018105530 A1 WO2018105530 A1 WO 2018105530A1 JP 2017043334 W JP2017043334 W JP 2017043334W WO 2018105530 A1 WO2018105530 A1 WO 2018105530A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
pixel
information processing
contour
search
Prior art date
Application number
PCT/JP2017/043334
Other languages
English (en)
French (fr)
Inventor
真樹 内田
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to EP17879251.1A priority Critical patent/EP3553465B1/en
Priority to CN201780074482.7A priority patent/CN110036258B/zh
Priority to US16/344,155 priority patent/US11282224B2/en
Priority to KR1020197016547A priority patent/KR102196845B1/ko
Publication of WO2018105530A1 publication Critical patent/WO2018105530A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/02Measuring arrangements characterised by the use of optical techniques for measuring length, width or thickness
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C3/00Measuring distances in line of sight; Optical rangefinders
    • G01C3/02Details
    • G01C3/06Use of electric means to obtain final indication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images

Definitions

  • the present invention relates to an information processing apparatus that specifies a position of an object using a captured image, and an information processing method thereof.
  • the present invention has been made in view of such problems, and an object thereof is to provide a technique capable of detecting the position of an object with high accuracy in information processing using a captured image.
  • an aspect of the present invention relates to an information processing apparatus.
  • the information processing apparatus includes a captured image acquisition unit that acquires data of a captured image obtained by capturing an object, and a coordinate point that satisfies a predetermined change in luminance with respect to a position from within the region of the image of the object in the captured image. And a position information generation unit that generates and outputs position information of the object in real space based on the contour line. The coordinate point is searched for in the diagonal direction in the pixel array, starting from a pixel in the area.
  • Another aspect of the present invention relates to an information processing method.
  • a step of acquiring data of a photographed image obtained by photographing an object and storing it in a memory, and a change in luminance from the inside of a region of the object image in the photographed image read from the memory with respect to a position are predetermined.
  • a step of obtaining a contour line including a step of obtaining a contour line of the image by searching for a coordinate point that satisfies a condition, and a step of generating and outputting positional information of the object in real space based on the contour line.
  • the coordinate point is searched for in the diagonal direction in the pixel array, starting from a pixel in the image area.
  • the present invention it is possible to acquire the position information of the object with high accuracy using the photographed image.
  • FIG. 1 shows a configuration example of an information processing system in the present embodiment.
  • the information processing system 1 includes a light emitting device 18 held by a user 4, an imaging device 12 that captures a space including the light emitting device 18, an information processing device 10 that specifies a position of the light emitting device 18 and performs information processing based on the position, A display device 16 for outputting the data generated as a result is included.
  • the information processing apparatus 10, the imaging apparatus 12, and the display apparatus 16 may be connected by a wired cable or may be connected by a known wireless communication technology such as Bluetooth (registered trademark). Further, the external shapes of these devices are not limited to those shown in the drawings. Furthermore, it is good also as an apparatus which provided two or more apparatuses among these integrally.
  • the information processing device 10, the imaging device 12, and the display device 16 may be realized by a portable terminal equipped with them. Further, the imaging device 12 does not necessarily have to be mounted on the display device 16. There may be a plurality of users 4 depending on the contents processed by the information processing apparatus 10, and a plurality of light-emitting devices 18 may also be present.
  • the imaging device 12 generates output data of a captured image by performing a general process such as a demosaic process on a camera that captures a space including the light emitting device 18 at a predetermined frame rate, and the information processing apparatus 10 And a mechanism for delivering to the device.
  • the camera includes a general visible light sensor such as a CCD (Charge-Coupled Device) sensor or a CMOS (Complementary-Metal-Oxide-Semiconductor) sensor.
  • the position of the object such as the light emitting device 18 in the three-dimensional space including the distance from the imaging surface is specified by using such a camera as a stereo camera arranged on the left and right sides at a known interval.
  • the imaging device 12 may be a monocular camera.
  • the imaging device 12 may transmit a so-called RAW image composed of a Bayer array acquired by a visible light sensor as it is, and may perform necessary processing such as demosaic processing in the information processing device 10.
  • the information processing apparatus 10 specifies the position of the light emitting device 18 in the real space using the data transmitted from the imaging apparatus 12. Then, necessary information processing is performed based on the position information, and output data such as an image and a sound representing the result is generated.
  • the content of the processing performed by the information processing apparatus 10 using the position information of the light emitting device 18 is not particularly limited, and may be appropriately determined according to the function desired by the user, the content of the application, or the like.
  • the information processing apparatus 10 acquires the movement of the user 4 from the movement of the light emitting device 18, advances a game in which a character having a similar movement appears, converts the movement of the light emitting device 18 into a command input, and To realize the corresponding function.
  • the display device 16 may be a television having a display for outputting a display image and a speaker for outputting sound, such as a liquid crystal television, an organic EL television, a plasma television, and a PC display. Or the display and speaker of a tablet terminal or a portable terminal may be sufficient.
  • the display device 16 may be a flat display as shown in the figure, or may be a head-mounted display that displays an image in front of the user when the user wears it on the head. Or both may be sufficient.
  • the information processing system 1 further includes an input device that receives a request for starting and ending processing, selecting a function, and various command inputs, and supplying them to the information processing apparatus 10 as an electrical signal when operated by a user. Also good.
  • the input device may be a unique device such as a controller having a hardware key, a mouse, or a joystick, or may be a touch pad that covers the display of the display device 16.
  • FIG. 2 illustrates the external shape of the light emitting device 18.
  • the light emitting device 18 includes a light emitting unit 6 and a handle 8.
  • the light-emitting portion 6 is a sphere formed of a cover material such as a resin having light transparency and incorporating a general light source such as a light-emitting diode or a light bulb, and the entire spherical surface emits light when in a lighting state.
  • the light emitting colors are made different so that they can be distinguished and recognized.
  • the handle 8 is a part that is held by the user and is not shown, but may be provided with an input button such as an on / off button as necessary. Further, a communication unit that establishes communication with the information processing apparatus 10 by wire or wireless and transmits / receives necessary information may be provided. For example, the information processing apparatus 10 may determine the assignment of light emission colors to a plurality of light emitting devices and notify each light emitting device 18, or the information processing apparatus 10 may control a light emission mode such as lighting or blinking.
  • a motion sensor such as an acceleration sensor or a gyro sensor may be provided inside the handle 8, and the measured value may be transmitted from the light emitting device 18 to the information processing apparatus 10 at a predetermined rate.
  • the information processing apparatus 10 can sequentially specify the posture of the light emitting device 18.
  • the appearance of the light emitting device 18 is not limited to that shown in the figure.
  • it may have a mechanism that can be attached to the user's body, or may be realized integrally with the above-described head mounted display or input device.
  • a light emitting region having a predetermined shape may be provided on the surface of a head mounted display or an input device. At this time, the light emitting area may be one or plural.
  • an image of the light emitting unit 6 is extracted with high accuracy from an image of a space in which various objects are present, and the position of the light emitting device 18 is specified based on the position and size.
  • the image area of the light emitting unit 6 is extracted in a circular shape.
  • the light source may be an input device or a head mounted display.
  • the shape is not limited.
  • the light emission of the light emitting device 18 facilitates the distinction from other objects in the field of view of the imaging device 12, but the present embodiment is not limited thereto. That is, the object whose position is to be detected only needs to be known in color and shape and is not limited to a light emitter.
  • an object such as the light-emitting device 18 that acquires a position in real space based on an image in a captured image is collectively referred to as an “object”.
  • FIG. 3 shows an internal circuit configuration of the information processing apparatus 10.
  • the information processing apparatus 10 includes a CPU (Central Processing Unit) 22, a GPU (Graphics Processing Unit) 24, and a main memory 26. These units are connected to each other via a bus 30.
  • An input / output interface 28 is further connected to the bus 30.
  • the input / output interface 28 outputs data to a peripheral device interface such as USB or IEEE1394, a communication unit 32 including a wired or wireless LAN network interface, a storage unit 34 such as a hard disk drive or a nonvolatile memory, and the display device 16.
  • An output unit 36, an input unit 38 for inputting data from the imaging device 12 and the input device, and a recording medium driving unit 40 for driving a removable recording medium such as a magnetic disk, an optical disk or a semiconductor memory are connected.
  • the CPU 22 controls the entire information processing apparatus 10 by executing an operating system stored in the storage unit 34.
  • the CPU 22 also executes various programs read from the removable recording medium and loaded into the main memory 26 or downloaded via the communication unit 32.
  • the GPU 24 has a function of a geometry engine and a function of a rendering processor, performs drawing processing according to a drawing command from the CPU 22, and stores a display image in a frame buffer (not shown).
  • the display image stored in the frame buffer is converted into a video signal and output to the output unit 36.
  • the main memory 26 is composed of RAM (Random Access Memory) and stores programs and data necessary for processing.
  • FIG. 4 shows a functional block configuration of the information processing apparatus 10 in the present embodiment.
  • the information processing apparatus 10 detects a target image from a captured image, a captured image acquisition unit 60 that acquires captured image data from the imaging device 12, a data storage unit 62 that stores captured image data and position information data, and the like.
  • a position information acquisition unit 64 that acquires position information in the real space, an information processing unit 66 that performs predetermined information processing based on the position information, and an output data generation unit 68 that generates data to be output as a result of the information processing including.
  • each element described as a functional block for performing various processes can be constituted by the main circuits such as the CPU 22, the GPU 24, the main memory 26, etc. shown in FIG. Is realized by a recording medium driven by the recording medium driving unit 40 or a program loaded from the storage unit 34 to the main memory 26. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.
  • the captured image acquisition unit 60 sequentially acquires frame data of moving images captured by the imaging device 12 and stores them in the data storage unit 62. When the demosaic process and the shading correction are not performed on the frame image, the captured image acquisition unit 60 performs the process and correction and stores the processed image in the data storage unit 62.
  • the position information acquisition unit 64 extracts an image of the object from the captured image read from the data storage unit 62, and acquires position information of the object in real space based on the extracted image.
  • the position information acquisition unit 64 is a target detection unit 70 that detects an approximate position of an image of the target, a contour search unit 72 that searches for the contour of the target, and a position that generates position information of the target in a three-dimensional space.
  • An information generation unit 74 is included.
  • the object detection unit 70 detects an image of the object in the captured image based on the emission color and shape. For example, a template image having a shape and color that can be taken as an image of a light emitting marker is prepared, and an area on the image having a high degree of similarity is detected.
  • the detection process by the object detection unit 70 is not particularly limited as long as it can detect the approximate position of the image of the object.
  • the contour search unit 72 searches for the contour of the image of the target object based on the detection result of the target object detection unit 70, and obtains its position strictly. In the present embodiment, the position of the contour is accurately obtained at the sub-pixel level, thereby improving the accuracy of information acquisition using the position information and the position information of the object in the real space. Specific methods will be described later.
  • the position information generation unit 74 acquires the position coordinates and size of the center of gravity of the image of the target object based on the result of the contour search by the contour search unit 72, and specifies the position of the target object in real space using the acquired position coordinates.
  • the position information generation unit 74 obtains the position coordinates of the center of gravity of the image of the same object in each of the stereo images taken from the left and right viewpoints. If the difference in the horizontal direction is taken as the parallax, the distance from the imaging surface to the object can be acquired by the general triangulation principle.
  • the position information generation unit 74 creates a so-called depth map in which the distance in the depth direction from the imaging surface thus identified is expressed as a pixel value of the region of the image of the object in the frame image, for example. Is converted into data and stored in the data storage unit 62. If there are a plurality of objects, the position of the center of gravity is obtained for each object to generate position information.
  • the information processing unit 66 reads the position information of the object from the data storage unit 62 and performs information processing according to the information. As described above, the content of the information processing performed here is not particularly limited.
  • the output data generation unit 68 generates image data to be displayed and audio data to be output as a result of the information processing performed by the information processing unit 66 and sequentially outputs the data to the display device 16.
  • FIG. 5 is a diagram for explaining the relationship between the parallax and the distance of the object in a stereo image taken from the left and right viewpoints when a stereo camera is introduced as the imaging device 12.
  • a pair of a first camera 13a and a second camera 13b constitutes a stereo camera.
  • the first camera 13a and the second camera 13b are installed so as to have parallel optical axes separated by a distance L, or the captured image is corrected so as to have such an angle of view.
  • the object is located at the rightmost arrow separated by a distance Z in the depth direction.
  • the width ⁇ x in the real space represented by one pixel of the image captured by each camera is expressed in proportion to the distance Z as follows.
  • ⁇ x Z ⁇ w / W
  • W is the number of pixels in the lateral direction of the camera
  • w is the visual field range in the lateral direction of the real space when the distance Z is 1, and is determined by the viewing angle.
  • C is a value determined by the camera and its setting, and can be regarded as a constant during operation.
  • FIG. 6 illustrates a change in the parallax D with respect to the distance Z from the imaging device 12.
  • the parallax D is a curve 56 inversely proportional to the distance Z.
  • the distance Z in the depth direction of the object is obtained from the parallax D of the image of the object in the stereo image.
  • the distance of the object is expressed in units of ⁇ z expressed next Desired.
  • the resolution of the distance Z of the object decreases in proportion to the square of the distance Z.
  • the interval between the vertical dotted lines in the graph of FIG. 6 represents ⁇ z.
  • the distance Z is calculated as z1 or z2 including an error of about ⁇ z at the maximum. That is, the further the object is away from the imaging device 12, the more serious the influence on the distance calculation accuracy due to the acquisition error of the position of the image on the captured image.
  • the contour search unit 72 improves the accuracy of acquiring position information in the real space of the object by accurately obtaining the contour of the image at the subpixel level.
  • FIG. 7 is a diagram for explaining a method in which the contour search unit 72 specifies the contour of the image of the object in the present embodiment.
  • the object detection unit 70 extracts a region of the object image 82 in the captured image 80 by a general method such as template matching or foreground extraction. This extraction process gives priority to efficiency and may be in units of pixels or larger.
  • the contour search unit 72 determines the start point and direction of the search route based on the result, and searches for the contour position of the image. Qualitatively, a search is performed from the inside to the outside of the image of the object, and it is determined that there is a contour at a position where the luminance changes rapidly.
  • a coordinate point 88 on the contour line is obtained.
  • a plurality of coordinate points on the contour line can be obtained.
  • the coordinate points thus obtained are indicated by white circles, but they merely represent the position coordinates on the image plane and do not appear as a photographed image.
  • the contour search unit 72 approximates the plurality of coordinate points thus obtained by a general method such as a least square method, and acquires the contour line of the image of the object as a mathematical expression on the image plane.
  • the image is circular, so that the contour line 94 of the image is obtained as a circle by using a circle approximation calculation.
  • the coordinate points are corrected with a general correction filter or the like. Further, if there is a coordinate point having a large error from the approximate expression, the coordinate point is converged to the final approximate expression while eliminating it.
  • the coordinate point 92 detected at a position different from the contour of the original light emitting marker by removing a part of it by the handle of the light emitting device is removed.
  • the coordinate point may be generated due to a detection error of the coordinate point.
  • the center coordinates C (x c , y c ) of the circle of the outline 94 obtained in this way is the center of gravity of the image of the luminescent marker as the object, and the radius R represents the size of the image.
  • the position information generation unit 74 obtains the position of the target object in the real space using the data as described above. It should be understood by those skilled in the art that various methods are conceivable for approximating a coordinate point set to a line and acquiring the center of gravity and size based on a contour line, and thus the shape is not limited.
  • the shape of the image is limited, regardless of the shape of the object other than a sphere, by setting that information in advance, the shape that will yield the approximate line with the smallest error is finally obtained. Can be determined. If the shape can be determined, the calculation method of the center of gravity and the size can be uniquely determined. Further, the shape of the subsequent image may be estimated based on the shape of the image obtained up to the previous frame of the captured moving image, and approximated by the shape.
  • FIG. 8 is a diagram for explaining an example of a technique for detecting the position of the contour line with a higher resolution than the pixel based on a change in luminance in the search direction.
  • a pixel column 96 is obtained by extracting and arranging pixels existing in the path.
  • Each pixel of the pixel array 96 has a luminance value, and when this is expressed as a change with respect to a position on the search path, for example, a graph 98 is obtained.
  • the graph 98 is represented by x-2 ⁇ x, x ⁇ x, x, x + ⁇ x, x + 2 ⁇ x, x + 3 ⁇ x,.
  • the discrete luminance values obtained with respect to the position are connected.
  • Such brightness change is standardized, and the brightness change assumption curves prepared in advance are compared and translated as shown in the assumed curves 100a, 100b, and 100c.
  • a large state is identified from the sum of differences between the two.
  • a reference position such as the midpoint M of the assumed curve 100b at that time is set as the position of the contour line of the object. In the figure, this position is indicated by a white arrow.
  • the position of the contour line can also be specified in units smaller than the pixel width.
  • the distance calculated by stereo matching is shifted by about 3 cm only when the detection position of the center of gravity is shifted by 0.5 pixels. Thereby, the object which is not moving may be misrecognized as moving.
  • the present inventor has conceived that there are the following problems related to the contour search path in order to accurately detect the position at the sub-pixel level.
  • FIG. 9 shows an example of setting the search direction.
  • each rectangle divided by a grid represents one pixel
  • a broken-line arrow represents a search path and a direction.
  • 24 searches are performed radially from one of the pixel groups 102 estimated to be near the center of the image of the object approximately specified by the object detection unit 70. That is, as indicated by the arrow groups 104a and 104b, a total of six searches are performed from the pixel group 102, three in the right and left directions. Further, as indicated by the arrow groups 106a and 106b, a total of six searches are performed from the pixel group 102, three in the upward direction and three in the downward direction.
  • a total of 12 searches are performed from the pixel group 102, three in the upper right direction, the lower right direction, the lower left direction, and the upper left direction.
  • direction dependency occurs in the resolution and accuracy of coordinate point detection. That is, as shown in FIG. 8, when the assumed curve of the luminance change is moved in the search direction to detect a coordinate point consisting of two vertical and horizontal components of the image plane, the horizontal search indicated by the arrow groups 104a and 104b is horizontal. Is determined in sub-pixel units, while the vertical component is in pixel units.
  • the vertical component is determined in subpixel units, while the horizontal component is in pixel units. That is, in the horizontal search and the vertical search, an error of one pixel at the maximum occurs in the position coordinates in the vertical direction or the horizontal direction.
  • both vertical and horizontal components are in units of subpixels.
  • the captured image to be analyzed is an image obtained by interpolating a RAW image in which each pixel holds luminance data of one color by demosaic processing. Accordingly, each pixel of the captured image generated in this way includes an error due to interpolation processing, and how the error is included differs depending on the pixel depending on the color that the corresponding element is an observation target. .
  • FIG. 10 schematically shows the relationship between the color that the element corresponding to each pixel in the captured image is the observation target and the contour of the target object.
  • Each rectangle divided by the grid in the photographed image 112 represents one pixel, and the red, green, and blue colors that the corresponding elements are observed are denoted as “R”, “G”, and “B”, respectively. Yes.
  • the same notation is used in the following description.
  • the color arrangement shown in the figure is a general one called a Bayer arrangement. However, this is not intended to limit the present embodiment to this arrangement.
  • a Bayer arrangement When searching for a coordinate point on the contour line 114 of the image of the object as described above, what color the observation target of the pixel existing in the search path was originally from, and which color luminance change is used to determine the coordinate point Depending on the combination of elements such as the color of the object, the reliability of the detected coordinate point changes. For example, the pixels on the search path indicated by the arrow A are observed in the search path indicated by the arrow B while the observed colors are “R”, “B”, “R”, “B”,... All the colors are “G”.
  • the G information in the search path indicated by the arrow A includes an error due to interpolation. Increased reliability.
  • the arrow B is used as a search path, when coordinate points are detected based on changes in the brightness of R and B, the color information on the path includes an error, so that the coordinate points are detected based on the change in the brightness of G. Reliability is lowered.
  • FIG. 11 shows the number of search paths when search paths similar to those in FIG. 9 are classified according to the color pattern that is the observation target of the pixels located in the path.
  • the search path is set around the B pixel as shown in the lower diagram, two searches of the “BG array” in which the colors to be observed by the pixels on the path are B and G are repeated in the horizontal direction, Two in the vertical direction.
  • the search for “RG array”, which is a repetition of R and G, is four in the horizontal direction and four in the vertical direction.
  • the search for the “BR array” that repeats B and R is four in the diagonal direction, and the search for the “GG array” that is all G is eight in the diagonal direction.
  • the center of the search path is R
  • “BG sequence” and “RG sequence” appear in the vertical and horizontal searches
  • “BR sequence” and “GG sequence” are diagonal. Appears in the search.
  • the ratio of the appearance of the color arrangement varies depending on the search direction.
  • the appearance ratio of the combination of the color arrangement and the search direction changes depending on the color to be observed by the pixel at the search center.
  • the search center is G
  • the ratio varies depending on whether the search center is on the left or right side of B or above and below, and in the figure, the former is expressed as “G1” and the latter as “G2” as shown in the lower part.
  • the reliability of the data itself used varies depending on the searched route.
  • a calculation method that statistically handles a large number of data such as the least square method, basically assumes that the original data is characteristically homogeneous. Therefore, if the error characteristics of the detected coordinate points are different due to the search path in this way, there is a possibility that the accuracy of approximation of the contour line, and thus the accuracy of obtaining the center of gravity position and size cannot be sufficiently obtained.
  • the search center is determined for each frame based on the detection result by the object detection unit 70, the calculation result of the center of gravity position and the size also varies from frame to frame due to the change in the ratio depending on the search center as shown in FIG. It is possible to do. Based on such knowledge, in the present embodiment, the search path is set so that the error characteristic of the coordinate point does not change between the search paths and between the frames.
  • FIG. 12 schematically shows a search path for the contour line of the object in the present embodiment.
  • the search is limited to the diagonal direction of the pixel array, starting with a pixel whose observation target is G. That is, a search is performed so as to follow pixels that are observed from G at the upper right, the lower right, the lower left, and the upper left from the start point pixel.
  • six start points can be set as shown by circles in FIG.
  • overlapping or biasing of search paths can be avoided by selecting a pixel whose observation target is G in the same column in the vertical or horizontal direction of the image plane.
  • the position of the start point may be within the area of the image of the object approximately detected by the object detection unit 70, and preferably the center of the start point row is set near the center of gravity of the area.
  • the nearest G pixel in the vertical direction that is, every other pixel is the starting point.
  • the interval between the starting points is not limited to this, and may be adjusted according to the size of the image of the object. Good.
  • the number of searches may also be adjusted according to the required accuracy and the processing performance of the apparatus.
  • the center of gravity of the image can be specified with an error of about 0.016 pixels by searching the 24 paths shown in FIG. Even with the same number of searches, as shown in FIG. 9, when the search is performed in three directions of the vertical direction, the horizontal direction, and the diagonal direction, and the coordinate point is obtained based on the change in luminance of each RGB, Acquisition accuracy is improved by 3 times or more.
  • (1) and (2) can be solved simultaneously and optimally, but it is also possible to solve only (1) by limiting the search route to the diagonal direction. It is. Even if the search start point is limited to R or B, if the Bayer array is searched in a diagonal direction, the pixel array in the path is unified because the color array to be observed is detected. The error characteristics of coordinate points are approximately uniform. As a result, the approximation accuracy of the contour line is improved as compared with the case where the starting point pixel is not limited.
  • FIG. 13 is a flowchart illustrating a processing procedure when the position information acquisition unit 64 of the information processing apparatus 10 acquires position information of an object.
  • the object detection unit 70 detects a region of the object image from the captured image by template matching or the like (S10).
  • the captured image used here is an RGB image after demosaicing.
  • the contour searching unit 72 determines a pixel whose element is to be observed as G within the region as a search start point (S12).
  • a search start point S12
  • every other pixel in the vertical direction is the starting point.
  • the interval between pixels and the number of start points may be adjusted as appropriate.
  • Information that associates each pixel in the captured image with the color observed by the corresponding element is acquired in advance and stored in the contour search unit 72. This information is, for example, array information such as a Bayer array shown in the captured image 112 of FIG.
  • the correspondence between the color to be observed and the pixel is not obtained, it can be obtained by calibration using the small error of the detection result. For example, an object is placed at a predetermined distance from the imaging device 12 and shooting is performed. The search start point is moved one pixel up, down, left, and right, and a contour line is derived by searching in a diagonal direction. Then, the position of the object is calculated under each search condition, and it is determined that there is a G pixel as the observation target at the position of the starting point when the error is minimized. If at least one such pixel is found, it is possible to associate the color to be observed with the pixel in the entire captured image based on a repetitive pattern such as a Bayer array.
  • the contour search unit 72 performs a search in four diagonal directions from the pixel determined as the start point, and detects coordinate points on the contour line (S14 to S18). Specifically, the luminance values of the pixels on the search path are sampled and stored in the line buffer (S14). In the example of FIG. 12, a total of 24 columns are sampled by sampling in four directions from six starting points. First, coordinate point candidates on the contour line are detected based on the change in the luminance Y of each sampling row (S16). Specifically, as shown in FIG. 8, the position where the similarity with the change graph of luminance Y is the highest is found while shifting the position of the assumed curve, and the reference position at that time is taken as a coordinate point candidate.
  • the luminance Y is a luminance component when each pixel value is expressed in a YUV color space, and can be obtained from RGB data by a general conversion formula. This conversion may be performed after the RGB values are sampled in S14, or may be performed on the entire captured image when the captured image data is acquired or demosaiced, and the converted luminance image is a sampling target. It is good.
  • the luminance Y is the target of evaluation when detecting coordinate points because the contribution rate of G with the smallest error in the search path is the highest, and information on R and B of surrounding pixels is also included by interpolation. by. As a result, more information about a single color can be taken into consideration, and uniform and highly accurate evaluation can be realized.
  • the contour search unit 72 filters the coordinate point candidates detected in S16 based on the luminance change of the color component of the object, and removes the coordinate points with low reliability (S18). For example, when a marker that emits red light is used as an object, evaluation is performed using the luminance of R. When a marker that emits light from magenta is used as an object, evaluation is performed using the luminance of the magenta component. If only the change in the luminance Y is set as the evaluation target, the coordinate point may be erroneously detected due to the influence of the surrounding environment.
  • the light of the object when there is a light source such as a window or illumination near the contour of the object as viewed from the imaging device 12, the light of the object is different from the light of the object only from the change in luminance Y even if it is easily distinguishable by human eyes.
  • the boundaries may be unclear.
  • the coordinate point may be detected at a position different from the contour, and therefore the erroneously detected coordinate point is excluded based on the original color change of the object. For example, in a predetermined number of pixel rows positioned before and after the coordinate point candidate in the search direction, if the luminance change of the color component of the object is below a predetermined range, the coordinate point candidate is inside the object image and is It is judged that there is no and is excluded. Alternatively, if there is a difference in the luminance of the color component of the target object between the predetermined number of pixel rows located in front of the coordinate point candidate in the search direction and the pixel of the search start point, the coordinate point is the target object. It is determined that it is outside the image and is not a contour, and is excluded.
  • the coordinate point candidate detection process based on the luminance Y and the exclusion process based on the luminance of the color of the object may be performed as separate steps as shown in the figure, or may be performed simultaneously.
  • a highly reliable coordinate point is specified by matching an assumed curve to a data string obtained by calculating the luminance Y sampling string and the object color luminance sampling string in the search path at the same position. May be.
  • the contour search unit 72 specifies the contour of the image of the object by approximating the distribution to the line of the assumed shape by the least square method or the like (S20).
  • the position information generation unit 74 acquires the center of gravity and size of the image of the object based on the specified contour line (S22). As shown in FIG. 7, when the object is a sphere, the outline of the image is circular, and the center and radius are acquired. Then, the position information generation unit 74 acquires position information of the object in real space based on the center of gravity and size (S24). When the imaging device 12 is a stereo camera, the distance of the object can be acquired from the parallax of the center of gravity by performing the processing of S10 to S22 on each of the images taken from the left and right viewpoints.
  • the distance of the object can be acquired by comparing the actual size of the object with the size of the image.
  • the processing of S10 to S24 is performed for each object. Further, by repeating the processing of S10 to S24 for each frame of the moving image taken by the imaging device 12 at a predetermined rate, the time change of the position of the object can be obtained.
  • the information processing unit 66 can appropriately perform information processing by specifying the position and movement of the user based on the position information of the target object thus obtained.
  • the contour of the image of the object is detected by searching for luminance from the inside.
  • the pixel whose luminance is to be observed by the original element is G (green), and the pixel array is searched in four directions having a diagonal relationship.
  • the coordinate point on the outline detected by one search can make the vertical component and the horizontal component have the same resolution.
  • the intervals at which the luminance is obtained in all the search paths are the same, and the errors included in the luminance are the same, so the accuracy of the detected coordinate points is also the same.
  • the contour line of the object can be easily and accurately obtained by a statistical approximation method such as the least square method.
  • the outline of the image of the object can be obtained with high accuracy at the sub-pixel level using a general visible light camera that discretely detects luminance for each of RGB. Using the contour line thus obtained and the center of gravity and size of the object image identified therefrom, the position of the object in the real space can be obtained efficiently and with high accuracy.
  • 6 light emitting unit 1 information processing system, 10 information processing device, 12 imaging device, 16 display device, 18 light emitting device, 22 CPU, 24 GPU, 26 main memory, 60 captured image acquisition unit, 62 data storage unit, 64 location information Acquisition unit, 66 information processing unit, 68 output data generation unit, 70 object detection unit, 72 contour search unit, 74 position information generation unit.
  • the present invention can be used for information processing devices such as game devices, image processing devices, and personal computers, and information processing systems including the same.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)

Abstract

対象物検出部は、動画撮影されたフレーム画像から対象物の像の領域を検出する(S10)。輪郭探索部は、当該像の領域内部で、対応する素子の観測対象がG(緑)であった画素を始点とし、画素配列の4つの対角方向に画素値をサンプリングする(S12、S14)。そしてサンプリングした画素の輝度Yの変化に基づき対象物の輪郭線上の座標点候補を検出し、対象物の色成分の輝度変化に基づきフィルタリングしたうえ、その分布から輪郭線を近似する(S16、S18、S20)。位置情報生成部は輪郭線から得た対象物の像の重心やサイズを利用して対象物の実空間での位置情報を取得する(S22、S24)。

Description

情報処理装置および情報処理方法
 本発明は、撮影画像を用いて対象物の位置を特定する情報処理装置、およびその情報処理方法に関する。
 近年、パーソナルコンピュータやゲーム機などにカメラを搭載し、ユーザの姿を撮影して様々な形で利用することが一般的に行われるようになってきた。例えばテレビ電話、ビデオチャットなど、ユーザの画像を、ネットワークを介してそのまま相手に伝送するものや、画像解析によってユーザの動きを認識し、ゲームや情報処理の入力情報とするものなどが実用化されている(例えば特許文献1参照)。特に、奥行き方向を含む3次元空間における対象物の動きを精度よく検出することにより、臨場感のあるゲームや画像表現が可能となっている。
WO 2007/050885 A2公報
 多様な物が存在する空間を撮影し、その撮影画像を入力データとして情報処理を行う場合、入力装置のハードウェアキーやGUI(Graphical User Interface)を介した操作と比較し、画像解析の精度が情報処理の精度に大きく影響を与える。より高精度かつ複雑な情報処理を実現するためには、サブピクセル単位での詳細な画像解析が求められる。
 本発明はこのような課題に鑑みてなされたものであり、その目的は、撮影画像を用いた情報処理において、高精度に対象物の位置を検出できる技術を提供することにある。
 上記課題を解決するために、本発明のある態様は情報処理装置に関する。この情報処理装置は、対象物を撮影した撮影画像のデータを取得する撮影画像取得部と、撮影画像における対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求める輪郭探索部と、輪郭線に基づき対象物の実空間における位置情報を生成し出力する位置情報生成部と、を備え、輪郭探索部は、像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とする。
 本発明の別の態様は情報処理方法に関する。この情報処理方法は、対象物を撮影した撮影画像のデータを取得しメモリに格納するステップと、メモリから読み出した撮影画像における対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求めるステップと、輪郭線に基づき対象物の実空間における位置情報を生成し出力するステップと、を含み、輪郭線を求めるステップは、像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とする。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 本発明によると、撮影画像を利用して対象物の位置情報を高精度に取得できる。
本実施の形態における情報処理システムの構成例を示す図である。 本実施の形態における発光デバイスの外観形状を例示する図である。 本実施の形態における情報処理装置の内部回路構成を示す図である。 本実施の形態における情報処理装置の機能ブロックの構成を示す図である。 本実施の形態において、左右の視点から撮影したステレオ画像における視差と対象物の距離との関係を説明するための図である。 本実施の形態における撮像装置からの距離に対する視差の変化を表す図である。 本実施の形態において輪郭探索部が対象物の像の輪郭を特定する手法を説明するための図である。 本実施の形態において、探索方向の輝度の変化に基づき輪郭線の位置を画素より高い解像度で検出する手法の例を説明するための図である。 対象物の輪郭線の探索方向の設定例を示す図である。 撮影画像において各画素に対応する素子が観測対象とした色と、対象物の輪郭との関係を模式的に示す図である。 図9と同様の探索経路を、経路に位置する画素が観測対象としている色のパターンで類別した際の、探索経路の数を示す図である。 本実施の形態における対象物の輪郭線の探索経路を模式的に示す図である。 本実施の形態における情報処理装置のうち位置情報取得部が対象物の位置情報を取得する際の処理手順を示すフローチャートである。
 図1は本実施の形態における情報処理システムの構成例を示す。情報処理システム1は、ユーザ4が保持する発光デバイス18、発光デバイス18を含む空間を撮影する撮像装置12、発光デバイス18の位置を特定しそれに基づき情報処理を行う情報処理装置10、情報処理の結果として生成されたデータを出力する表示装置16を含む。
 情報処理装置10と、撮像装置12および表示装置16とは、有線ケーブルで接続されても、Bluetooth(登録商標)など既知の無線通信技術により接続されてもよい。またこれらの装置の外観形状は図示するものに限らない。さらにこれらのうち2つ以上の装置を一体的に備えた装置としてもよい。例えば情報処理装置10、撮像装置12、表示装置16を、それらを備えた携帯端末などで実現してもよい。また、撮像装置12は必ずしも表示装置16の上に搭載されていなくてもよい。ユーザ4は情報処理装置10で処理される内容によって複数でもよく、発光デバイス18もまた複数でよい。
 撮像装置12は、発光デバイス18を含む空間を所定のフレームレートで撮影するカメラと、その出力信号にデモザイク処理など一般的な処理を施すことにより撮影画像の出力データを生成し、情報処理装置10に送出する機構とを有する。カメラはCCD(Charge Coupled Device)センサやCMOS(Complementary Metal Oxide Semiconductor)センサなど、一般的な可視光センサを備える。
 図示するように、そのようなカメラを既知の間隔で左右に配置したステレオカメラとすることにより、発光デバイス18などの対象物の、撮像面からの距離を含む3次元空間での位置を特定することができる。ただし撮像装置12は単眼のカメラとしてもよい。また、撮像装置12は可視光センサが取得したベイヤ配列などで構成されるいわゆるRAW画像をそのまま送出し、情報処理装置10においてデモザイク処理等、必要な処理を施すようにしてもよい。
 情報処理装置10は、撮像装置12から送信されたデータを用いて発光デバイス18の実空間での位置を特定する。そして当該位置情報に基づき必要な情報処理を行い、その結果を表す画像や音声などの出力データを生成する。情報処理装置10が発光デバイス18の位置情報を利用して行う処理の内容は特に限定されず、ユーザが求める機能やアプリケーションの内容などによって適宜決定してよい。例えば情報処理装置10は、発光デバイス18の動きからユーザ4の動きを取得し、同様の動きをするキャラクタが登場するゲームを進捗させたり、発光デバイス18の動きをコマンド入力に変換して、それと対応する機能を実現させたりする。
 表示装置16は、表示画像を出力するディスプレイおよび音声を出力するスピーカーを有するテレビでよく、例えば液晶テレビ、有機ELテレビ、プラズマテレビ、PCディスプレイ等である。あるいはタブレット端末や携帯端末のディスプレイおよびスピーカーであってもよい。なお表示装置16は、図示するような平板型のディスプレイでもよいし、ユーザが頭に装着することによってその眼前に画像を表示させるヘッドマウントディスプレイであってもよい。あるいはその双方でもよい。
 情報処理システム1にはさらに、ユーザが操作することにより処理の開始、終了、機能の選択などの要求や各種コマンド入力を受け付け、電気信号として情報処理装置10に供給する入力装置が含まれていてもよい。当該入力装置は、例えばハードウェアキーを備えるコントローラ、マウス、ジョイスティックなど固有の装置でもよいし、表示装置16のディスプレイを覆うタッチパッドなどでもよい。
 図2は発光デバイス18の外観形状を例示している。発光デバイス18は、発光部6およびハンドル8を含む。発光部6は、光透過性を有する樹脂などのカバー材で形成され発光ダイオードや電球など一般的な光源を内蔵した球体であり、点灯状態にあるとき球面全体が発光する。複数のユーザが個々に発光デバイス18を用いる場合は、発光色を異ならせることによりそれらを区別して認識できるようにする。
 ハンドル8はユーザが手にする部分であり、図示はしないが、必要に応じてオン/オフボタンなどの入力ボタンを備えてもよい。また、有線あるいは無線で情報処理装置10と通信を確立し、必要な情報を送受する通信手段を備えてもよい。例えば複数の発光デバイスに対する発光色の割り当てを情報処理装置10が決定し、各発光デバイス18に通知したり、点灯や点滅などの発光態様を情報処理装置10が制御したりしてもよい。
 さらにハンドル8の内部に加速度センサやジャイロセンサなどのモーションセンサを設け、その計測値を発光デバイス18から情報処理装置10に所定のレートで送信するようにしてもよい。これにより情報処理装置10は、発光デバイス18の姿勢を逐次特定することができる。なお発光デバイス18の外観形状は図示するものに限らない。例えばユーザの体に装着可能な機構を有していてもよいし、上述のヘッドマウンドディスプレイや入力装置と一体的に実現してもよい。例えばヘッドマウントディスプレイや入力装置の表面に所定形状の発光領域を設けてもよい。このとき発光領域は1つであっても複数であってもよい。
 本実施の形態では、様々な物が存在する空間を撮影した画像から、発光部6の像を高精度に抽出し、その位置やサイズに基づき発光デバイス18の位置を特定する。図2に示したような発光デバイス18の場合、発光部6の像の領域がおよそ円形に抽出されるが、発光色が既知であれば光源が入力装置やヘッドマウントディスプレイであってもよく、その形状は限定されない。また発光デバイス18の発光は、撮像装置12の視野にある他の物との区別を容易にするが、本実施の形態をそれに限る主旨ではない。すなわち位置を検出する対象は色や形状が既知であればよく、発光体に限定されない。以後、撮影画像における像に基づき実空間での位置を取得する発光デバイス18のような対象を「対象物」と総称する。
 図3は情報処理装置10の内部回路構成を示している。情報処理装置10は、CPU(Central Processing Unit)22、GPU(Graphics Processing Unit)24、メインメモリ26を含む。これらの各部は、バス30を介して相互に接続されている。バス30にはさらに入出力インターフェース28が接続されている。入出力インターフェース28には、USBやIEEE1394などの周辺機器インターフェースや、有線又は無線LANのネットワークインターフェースからなる通信部32、ハードディスクドライブや不揮発性メモリなどの記憶部34、表示装置16へデータを出力する出力部36、撮像装置12や入力装置からデータを入力する入力部38、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部40が接続される。
 CPU22は、記憶部34に記憶されているオペレーティングシステムを実行することにより情報処理装置10の全体を制御する。CPU22はまた、リムーバブル記録媒体から読み出されてメインメモリ26にロードされた、あるいは通信部32を介してダウンロードされた各種プログラムを実行する。GPU24は、ジオメトリエンジンの機能とレンダリングプロセッサの機能とを有し、CPU22からの描画命令に従って描画処理を行い、表示画像を図示しないフレームバッファに格納する。そしてフレームバッファに格納された表示画像をビデオ信号に変換して出力部36に出力する。メインメモリ26はRAM(Random Access Memory)により構成され、処理に必要なプログラムやデータを記憶する。
 図4は、本実施形態における情報処理装置10の機能ブロックの構成を示す。情報処理装置10は、撮像装置12から撮影画像のデータを取得する撮影画像取得部60、撮影画像や位置情報のデータを格納するデータ記憶部62、撮影画像から対象物の像を検出することによりその実空間での位置情報を取得する位置情報取得部64、位置情報に基づき所定の情報処理を実施する情報処理部66、および、情報処理の結果として出力すべきデータを生成する出力データ生成部68を含む。
 同図においてさまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、図3で示したCPU22、GPU24、メインメモリ26等の各主回路で構成することができ、ソフトウェア的には、記録媒体駆動部40により駆動される記録媒体や記憶部34からメインメモリ26にロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
 撮影画像取得部60は、撮像装置12が撮影した動画像のフレームデータを順次取得し、データ記憶部62に格納する。フレーム画像にデモザイク処理やシェーディング補正がなされていない場合、撮影画像取得部60はそれらの処理や補正を実施したうえでデータ記憶部62に格納する。位置情報取得部64は、データ記憶部62から読み出した撮影画像から対象物の像を抽出し、それに基づき対象物の実空間での位置情報を取得する。位置情報取得部64は対象物の像のおよその位置を検出する対象物検出部70、対象物の輪郭を探索する輪郭探索部72、および対象物の3次元空間での位置情報を生成する位置情報生成部74を含む。
 対象物検出部70は、発光色や形状に基づき、撮影画像における対象物の像を検出する。例えば発光マーカーの像としてとり得る形状および色のテンプレート画像を準備しておき、それと類似度の高い画像上の領域を検出する。対象物検出部70による検出処理は対象物の像のおよその位置を検出できればよく、その手段は特に限定されない。輪郭探索部72は、対象物検出部70の検出結果に基づき、対象物の像の輪郭を探索し、その位置を厳密に求める。本実施の形態では輪郭の位置をサブピクセルレベルで精度よく求めることにより、対象物の実空間での位置取得、ひいては位置情報を用いた情報処理の精度を向上させる。具体的な手法は後に述べる。
 位置情報生成部74は、輪郭探索部72による輪郭探索の結果に基づき対象物の像の重心の位置座標やサイズを取得し、それを利用して対象物の実空間での位置を特定する。撮像装置12をステレオカメラとした場合、位置情報生成部74は左右の視点から撮影されたステレオ画像のそれぞれにおいて、同じ対象物の像の重心の位置座標を求める。それらの水平方向の差分を視差とすれば、一般的な三角測量の原理で撮像面から対象物までの距離を取得できる。
 図2で示した発光部6のように、角度によらず見かけ上のサイズが変化しないマーカーや、所定の間隔でデバイス表面に配置させた複数のマーカーを対象物とした場合、単眼のカメラであっても、像のサイズや間隔から距離を取得できる。位置情報生成部74は、そのようにして特定した撮像面からの奥行き方向の距離を、フレーム画像における対象物の像の領域の画素値として表した、いわゆるデプスマップを作成するなどして位置情報をデータ化し、データ記憶部62に格納する。なお複数の対象物が存在する場合は、対象物ごとに重心位置などを求め位置情報を生成する。
 情報処理部66は、データ記憶部62から対象物の位置情報を読み出し、それに応じた情報処理を実施する。上述のとおりここで実施する情報処理の内容は特に限定されない。出力データ生成部68は、情報処理部66が実施した情報処理の結果として表示すべき画像や出力すべき音声のデータを生成し順次、表示装置16へ出力する。
 図5は撮像装置12としてステレオカメラを導入した場合に、左右の視点から撮影したステレオ画像における視差と対象物の距離との関係を説明するための図である。同図において第1カメラ13a、第2カメラ13bは一対でステレオカメラを構成する。第1カメラ13a、第2カメラ13bは距離Lを隔てた平行な光軸を有するように設置されるか、そのような画角となるように撮影画像が補正される。ここで対象物は奥行き方向に距離Z離れた右端の矢印に位置するとする。
 各カメラが撮影した画像の1画素が表す実空間での幅Δxは、距離Zに比例して次のように表される。
 Δx=Z×w/W
ここでWはカメラの横方向の画素数、wは距離Zが1のときの実空間の横方向の視野範囲であり視角によって定まる。
 距離Lだけ離れたカメラで撮影された同一の対象物は、その画像上でおよそ下記のような画素数上の視差Dを有する。
 D=L/Δx=L×(W/w)×(1/Z)=C/Z
ここでCはカメラおよびそのセッティングにより定まる値であり、運用時は定数とみなせる。
 図6は撮像装置12からの距離Zに対する視差Dの変化を表している。上式に示すように視差Dは距離Zに反比例した曲線56となる。この関係を利用することにより、ステレオ画像における対象物の像の視差Dから、対象物の奥行き方向の距離Zが求められる。撮影画像は輝度を画素単位で表したデータであることを踏まえ、対象物の像の位置、ひいては視差Dも画素単位で取得する場合、対象物の距離は、次に表されるΔzの単位で求められる。
 Δz=Δx×Z/L=Z×(w/W)×(1/L)
 すなわち対象物の位置の取得単位を固定とした場合、対象物の距離Zの分解能は、距離Zの2乗に比例して低下する。図6のグラフにおける縦の点線の間隔はΔzを表している。例えば対象物が矢印58の位置にあっても、像の位置特定が画素単位であれば、その距離Zは最大でΔz程度の誤差を含むz1またはz2として算出されてしまう。つまり対象物が撮像装置12から離れるほど、撮影画像上での像の位置の取得誤差による距離算出精度への影響が深刻になる。
 撮像装置12として単眼カメラを用い、対象物の像のサイズに基づき距離を導出する場合であっても、対象物が撮像装置12から離れるほど、サイズの僅かなずれが、算出される距離に大きな誤差をもたらすのは同様である。距離に大きな誤差が含まれると、画像平面からの逆射影によって得られる、対象物の3次元空間での位置座標にも大きな誤差を生じさせ、後の情報処理の精度に看過できない影響を与えることが考えられる。そこで本実施の形態の輪郭探索部72は、サブピクセルレベルで像の輪郭線を正確に求めることにより、対象物の実空間での位置情報の取得精度を向上させる。
 図7は本実施の形態において輪郭探索部72が対象物の像の輪郭を特定する手法を説明するための図である。対象物検出部70はテンプレートマッチングや前景抽出など一般的な手法により、撮影画像80における対象物の像82の領域を抽出する。この抽出処理は、効率性を優先し画素単位またはそれより大きい単位でよい。輪郭探索部72はその結果に基づき探索経路の始点および方向を決定して、像の輪郭位置を探索する。定性的には対象物の像の内側から外側へ探索していき、輝度が急激に変化する位置に輪郭があると判定する。
 例えば始点84から矢印86の方向に画素値をサンプリングしていくと、輪郭線上の座標点88が得られる。このような探索を複数方向に行うことで、輪郭線上の座標点が複数個得られる。なお図ではそのようにして得られた座標点を白抜きの丸印で示しているが、それらは画像平面上の位置座標を表象しているに過ぎず、撮影画像として表れるものではない。輪郭探索部72は、そのようにして得られた複数の座標点を最小二乗法など一般的な手法により近似して、対象物の像の輪郭線を画像平面上での数式として取得する。
 対象物が球体の発光マーカーである場合、その像は円形となるため、円近似の計算を用いることで像の輪郭線94が円形として得られる。なお近似に際して楕円歪みなど位置座標の分布に全体的な歪みが検出される場合、一般的な補正フィルタなどにより座標点を補正しておく。また近似式からの誤差が大きい座標点があればそれを排除しながら最終的な近似式に収束させる。図示する例では、発光デバイスのハンドルによって一部が隠蔽されたことにより本来の発光マーカーの輪郭と異なる位置に検出された座標点92を除去している。
 除去すべき座標点はこのように他の物によって隠蔽されて生じる場合のほか、座標点の検出誤差によっても生じる可能性がある。このようにして得られた輪郭線94の円の中心座標C(x,y)が対象物たる発光マーカーの像の重心であり、半径Rが当該像のサイズを表す。位置情報生成部74はそれらのデータを用いて対象物の実空間での位置を上述のように求める。なお座標点集合から線への近似や、輪郭線に基づく重心やサイズの取得には様々な手法が考えられ、よって形状も限定されないことは当業者には理解されるところである。
 すなわち対象物が球体以外のいかなる形状であっても、像の形状が限定的であれば、その情報をあらかじめ設定しておくことにより、そのうち誤差の最も小さい近似線が得られる形状を最終的に決定できる。形状を決定できれば、重心やサイズの算出手法も一意に決定できる。また撮影された動画像の前のフレームまでに得られている像の形状に基づき以後の像の形状を推測し、当該形状で近似してもよい。
 輪郭探索部72が検出する輪郭線上の座標点すなわち位置座標や、それに基づく重心の位置座標は、画素より高い解像度で取得する。図8は、探索方向の輝度の変化に基づき輪郭線の位置を画素より高い解像度で検出する手法の例を説明するための図である。同図の右方向を探索方向としたとき、その経路に存在する画素を抽出して並べたものが画素列96である。画素列96の各画素はそれぞれ輝度値を有し、それを探索経路上の位置に対する変化として表すと、例えばグラフ98のようになる。
 輝度値は本来、画素単位で得られるため、探索方向の画素の幅をΔxとすると、グラフ98は、黒丸で示すx-2Δx、x-Δx、x、x+Δx、x+2Δx、x+3Δx、・・・の位置に対して得られた離散的な輝度値をつなげたものである。このような輝度の変化を規格化するなどし、あらかじめ準備しておいた輝度変化の想定曲線を、図示する想定曲線100a、100b、100cのように平行移動させながら比較して、最も類似度が大きい状態を両者の差分の総和などから特定する。そしてそのときの想定曲線100bの中点Mなどの基準位置を、対象物の輪郭線の位置とする。同図ではこの位置を白抜き矢印で示している。
 想定曲線を画素の幅Δxより細かい単位で移動させ、このような一種のマッチング処理を実施することにより、輪郭線の位置も画素の幅より小さい単位で特定できる。一方、このようにしてサブピクセル単位で輪郭線上の座標点を検出しても、それが大きな誤差を含めば、対象物が遠くにあるほど実空間での位置情報に大きな誤差を生じさせることは上述と同様である。例えば撮像装置12から2m離れた対象物では、重心の検出位置が0.5画素ずれたのみで、ステレオマッチングによって算出される距離が3cm程度ずれてしまう。これにより、動いていない対象物を動いているように誤認識してしまうこともあり得る。
 これを踏まえ、サブピクセルレベルでの位置検出を精度よく行うためには、輪郭線の探索経路に関し次のような課題があることに本発明者は想到した。
(1)探索方向によって座標点検出の分解能や精度が異なる
(2)探索経路にある画素で本来観測された色によって輝度データの信頼性が異なる
 まず上記(1)について説明する。図9は探索方向の設定例を示している。同図において格子で区切られた各矩形は1画素を表し、破線の矢印が探索経路および方向を表している。この例では、対象物検出部70がおよそ特定した対象物の像の中心近傍と推定される画素群102のいずれかから放射状に、24本の探索を行う。すなわち矢印群104a、104bに示すように、画素群102から右方向および左方向に3本ずつ、計6本の探索を行う。また矢印群106a、106bに示すように、画素群102から上方向および下方向に3本ずつ、計6本の探索を行う。
 さらに矢印群108a、108b、108c、108dに示すように、画素群102から右上方向、右下方向、左下方向、左上方向に3本ずつ、計12本の探索を行う。このような設定において上記(1)のように、座標点検出の分解能や精度に方向依存性が生じる。すなわち図8に示すように輝度変化の想定曲線を探索方向に移動させて、画像平面の縦横2成分からなる座標点を検出した場合、矢印群104a、104bに示す横方向の探索では、横方向の成分はサブピクセル単位で定まる一方、縦方向の成分は画素単位となってしまう。
 矢印群106a、106bに示す縦方向の探索では、縦方向の成分はサブピクセル単位で定まる一方、横方向の成分は画素単位となってしまう。つまり横方向の探索および縦方向の探索では、縦方向または横方向の位置座標に最大1画素分の誤差が生じる。一方、矢印群108a、108b、108c、108dで示す対角方向の探索では、縦横両成分がサブピクセル単位となる。しかしながら探索方向における画素の間隔、すなわち図8におけるΔxが、縦方向や横方向の探索と比べ1.4倍程度となるため、両方向の位置座標に最大1.4/2=0.7画素分程度の誤差が生じる。
 次に上記(2)について説明する。上述のとおり解析対象となる撮影画像は、各画素が1色の輝度データを保持するRAW画像を、デモザイク処理により補間したものである。したがってそのようにして生成された撮影画像の各画素は、補間処理による誤差を内包し、どのように誤差が含まれるかは、対応する素子が観測対象とした色に依存して画素ごとに異なる。図10は、撮影画像において各画素に対応する素子が観測対象とした色と、対象物の輪郭との関係を模式的に示している。撮影画像112のうち格子で区切られた各矩形が1画素を表し、対応する素子が観測対象とした赤、緑、青の色をそれぞれ「R」、「G」、「B」と表記している。以後の説明でも同様の表記とする。
 図示するような色の配列はベイヤ配列と呼ばれる一般的なものである。ただし本実施の形態をこの配列に限定する主旨ではない。対象物の像の輪郭線114上の座標点を上述のように探索する際、その探索経路に存在する画素の観測対象が元々何色であったか、座標点をどの色の輝度変化で判定するか、対象物は何色か、といった要素の組み合わせによって、検出される座標点の信頼性が変化する。例えば矢印Aの探索経路にある画素は観測される色が「R」、「B」、「R」、「B」、・・・のパターンであるのに対し、矢印Bの探索経路では観測される色が全て「G」である。
 ここで例えば、Gの輝度の変化で輪郭線114上の座標点を検出する場合、矢印Aの探索経路におけるGの情報は補間による誤差を含むため、矢印Bの探索経路による結果の方が、信頼性が高くなる。矢印Bを探索経路としても、RやBの輝度の変化で座標点を検出する場合、経路上でのそれらの色の情報は誤差を含むため、Gの輝度の変化で座標点を検出するより信頼性が低くなる。
 図11は、図9と同様の探索経路を、経路に位置する画素が観測対象としている色のパターンで類別した際の、探索経路の数を示している。下段の図に示すようにBの画素を中心として探索経路を設定した場合、経路の画素が観測対象とする色がBとGの繰り返しとなる「BG配列」の探索が横方向で2つ、縦方向で2つとなる。RとGの繰り返しとなる「RG配列」の探索は横方向で4つ、縦方向で4つとなる。BとRの繰り返しとなる「BR配列」の探索は対角方向で4つ、全てGとなる「GG配列」の探索は対角方向で8つとなる。
 同様に、探索経路の中心がRの場合、Gの場合でも、「BG配列」および「RG配列」は縦方向および横方向の探索で表れ、「BR配列」および「GG配列」は対角方向の探索で表れる。このように、色の配列が出現する割合は探索方向によって偏りがある。また探索中心の画素が観測対象とする色によって、色の配列と探索方向の組み合わせの出現割合が変化する。なお探索中心がGの場合、Bの左右にあるか上下にあるかによって当該割合が異なり、同図では下段に示すように前者を「G1」、後者を「G2」と表記している。
 このように図示するような経路設定では、用いるデータ自体の信頼性も探索経路ごとに異なってくる。最小二乗法のように多数のデータを統計的に扱う計算法は基本的に、当該元のデータが特性的に均質であることを前提としている。したがってこのように探索経路起因で、検出された座標点の誤差特性が異なると、輪郭線の近似の精度、ひいては重心位置やサイズの取得精度が十分に得られない可能性がある。また探索中心は、対象物検出部70による検出結果に基づきフレームごとに決定されるため、図11に示すような探索中心依存の割合の変化により、重心位置やサイズの算出結果もフレームごとに変動することが考えられる。このような知見を踏まえ、本実施の形態では探索経路間やフレーム間で、座標点の誤差特性が変化しないように探索経路を設定する。
 図12は、本実施の形態における対象物の輪郭線の探索経路を模式的に示している。図に破線の矢印で示すように、本実施の形態ではGを観測対象とする画素を始点とし、画素配列の対角方向に限定して探索を行う。すなわち始点の画素から、右上、右下、左下、左上にある、同じくGを観測対象とする画素を辿るように探索を行う。図9で示したのと同様に24の経路で探索する場合、図12に丸印で示したように、6つの始点を設定できる。
 このとき図示するように画像平面の縦方向、あるいは横方向で同じ列にある、観測対象がGの画素を始点として選択することにより、探索経路の重複や偏りを避けることができる。始点の位置は対象物検出部70がおよそ検出した対象物の像の領域内であればよく、好適には当該領域の重心近傍に始点の列の中心を設定する。また図示する例では縦方向で直近のGの画素、すなわち1つおきの画素を始点としているが、始点の間隔はこれに限らず、対象物の像の大きさなどに応じて調整してもよい。探索数も、求められる精度や装置の処理性能などに応じて調整してよい。
 このような探索経路を設定することにより、上記(1)、(2)の課題を解決できる。すなわち全ての探索経路が画素配列の対角方向であるため、検出された座標点の縦成分、横成分は双方、サブピクセルの単位で得られ、誤差特性も全ての探索経路で同等である。また探索経路にある画素は全て観測対象がGに統一されているため、誤差を含む色や度合いが均一である。結果として検出される座標点は常に均質であり、最小二乗法によって近似される輪郭線や、それに基づく重心の位置座標などが精度よくかつ安定的に得られる。
 球体の対象物を想定すると、図12で示した24経路の探索により、その像の重心が0.016画素程度の誤差で特定できる。同じ探索数でも、図9に示すように縦方向、横方向、対角方向の3方向で探索し、RGBそれぞれの輝度の変化に基づき座標点を求めた場合と比較すると、対象物の位置の取得精度が3倍以上に改善される。
 なお図12で示した探索経路によれば、上記(1)、(2)を同時かつ最適に解決できるが、探索経路を対角方向に限定することで(1)のみを解決することも可能である。また探索の始点をRに限定したりBに限定したりしても、ベイヤ配列を対角方向に探索すれば、経路にある画素が観測対象とする色の配列は統一されるため、検出される座標点の誤差特性はおよそ均一となる。結果として始点の画素を限定しない場合と比較し輪郭線の近似精度が向上する。
 次にこれまで述べた構成によって実施できる情報処理装置の動作について説明する。図13は情報処理装置10のうち位置情報取得部64が対象物の位置情報を取得する際の処理手順を示すフローチャートである。まず対象物検出部70は、撮影画像からテンプレートマッチングなどにより対象物の像の領域を検出する(S10)。ここで用いる撮影画像はデモザイク後のRGB画像などである。
 次に輪郭探索部72は、当該領域内で、素子の観測対象がGである画素を探索の始点として決定する(S12)。図12の例では、縦方向で1つおきに6つの画素が始点とされている。ただし画素の間隔や始点の数は適宜調整してよい。なお撮影画像における各画素と、対応する素子が観測する色とを対応づけた情報はあらかじめ取得しておき、輪郭探索部72内部で保持しておく。この情報は例えば図10の撮影画像112に示すベイヤ配列などの配列情報である。
 なお観測対象の色と画素の対応関係が得られていない場合、検出結果の誤差の小ささを利用してキャリブレーションにより取得することもできる。例えば撮像装置12から所定の距離に対象物を設置して撮影を実施し、探索の始点を上下左右に1画素ずつ移動させて、対角方向に探索することによりそれぞれ輪郭線を導出する。そして各探索条件で対象物の位置を算出し、誤差が最も小さくなるときの始点の位置に、観測対象がGの画素があると判断する。そのような画素が最低1つ判明すれば、ベイヤ配列などの繰り返しパターンに基づき、撮影画像全体で観測対象の色と画素の対応づけが可能である。
 次に輪郭探索部72は、始点として決定した画素から4つの対角方向に探索を行い、輪郭線上の座標点を検出する(S14~S18)。具体的には探索経路にある画素の輝度値をサンプリングしてラインバッファに格納する(S14)。図12の例では6つの始点からそれぞれ4方向にサンプリングすることで、合計24列のサンプリングがなされる。そしてまず、各サンプリング列の輝度Yの変化に基づき、輪郭線上の座標点候補を検出する(S16)。具体的には図8で示したように、想定曲線の位置をずらしながら輝度Yの変化グラフとの類似度が最も高くなる位置を見つけ、そのときの基準位置を座標点候補とする。
 ここで輝度Yは、各画素値をYUVの色空間で表したときの輝度の成分であり、RGBのデータから一般的な変換式により取得できる。この変換はS14でRGB値をサンプリングした後に行ってもよいし、撮影画像のデータを取得した時点やデモザイクを行った時点で撮影画像全体に対し行っておき、変換後の輝度画像をサンプリングの対象としてもよい。輝度Yを座標点検出時の評価の対象とするのは、探索経路において誤差が最も小さいGの寄与率が最も高いことと、補間によって周囲の画素のRやBの情報も含まれていることによる。これにより、単色を対象とするより多くの情報を考慮できるとともに、均一かつ高い精度での評価を実現できる。
 次に輪郭探索部72は、対象物の色成分の輝度変化によってS16で検出した座標点候補をフィルタリングし、信頼性の低い座標点を除く(S18)。例えば赤で発光するマーカーを対象物とする場合、Rの輝度で評価する。マゼンダで発光するマーカーを対象物とする場合、マゼンダの成分の輝度で評価する。輝度Yの変化のみを評価対象とすると、周囲の環境に影響されて座標点を誤検出することがあり得る。例えば撮像装置12から見て対象物の輪郭近傍に窓や照明などの光源がある場合、人の目では区別が容易であっても輝度Yの変化のみからは対象物の光と別の光との境界が不明確になる可能性がある。
 その結果、輪郭とは異なる位置で座標点を検出してしまう可能性があるため、対象物の本来の色の変化に基づき誤って検出した座標点を排除する。例えば探索方向で座標点候補の前後に位置する所定数の画素列において、対象物の色成分の輝度変化が所定範囲以下であったら、当該座標点候補は対象物の像の内側にあり輪郭ではないと判定し除外する。あるいは探索方向で座標点候補の前に位置する所定数の画素列と探索始点の画素で、対象物の色成分の輝度に所定のしきい値以上の差があったら、当該座標点は対象物の像の外側であり輪郭ではないと判定し除外する。
 輝度Yによる座標点候補の検出処理と対象物の色の輝度による除外処理は、図示するように別のステップとしてもよいし同時に行ってもよい。例えば、探索経路における輝度Yのサンプリング列と対象物の色の輝度のサンプリング列とを、同じ位置で演算してなるデータ列に対し、想定曲線をマッチングすることにより信頼度の高い座標点を特定してもよい。このようにして座標点群を確定させたら、輪郭探索部72は最小二乗法等によりその分布を想定形状の線に近似することにより、対象物の像の輪郭を特定する(S20)。
 このとき図7を参照して説明したように、画像上の歪みに基づき座標点の分布を補正したり、近似線からの差が大きい座標点をさらに除外したりしてもよい。位置情報生成部74は、特定された輪郭線に基づき対象物の像の重心やサイズを取得する(S22)。図7で示したように対象物が球体の場合、像の輪郭線は円形状となるため、その中心や半径を取得する。そして位置情報生成部74は、重心やサイズに基づき対象物の実空間での位置情報を取得する(S24)。撮像装置12をステレオカメラとした場合、左右の視点から撮影された画像のそれぞれに対しS10~S22の処理を行うことで、重心位置の視差から対象物の距離を取得できる。
 撮像装置12を単眼カメラとした場合、対象物の実際のサイズと像のサイズを比較することにより対象物の距離を取得できる。発光色を異ならせるなどして複数の対象物が撮像装置12の視野内にある場合、S10~S24の処理を対象物ごとに実施する。また撮像装置12が所定のレートで撮影した動画像の各フレームに対しS10~S24の処理を繰り返すことにより、対象物の位置の時間変化が得られる。情報処理部66は、そのようにして得られた対象物の位置情報に基づきユーザの位置や動きを特定するなどして、適宜情報処理を行うことができる。
 以上述べた本実施の形態によれば、撮影画像を利用した対象物の位置検出において、対象物の像の輪郭を、内側から輝度を探索することにより検出する。このとき、元の素子による輝度の観測対象がG(緑)である画素を始点とし、画素配列において対角関係にある4方向に探索する。これにより、1度の探索で検出される輪郭線上の座標点は縦成分、横成分を同じ分解能とすることができる。また全ての探索経路で輝度が得られている間隔が同じとなるうえ、当該輝度に含まれる誤差が同等となるため、検出される座標点の精度も同等となる。その結果、最小二乗法など統計的な近似手法で、対象物の輪郭線を容易かつ正確に求めることができる。
 またYUV色空間における輝度Yの変化に基づき座標点を検出することにより、輝度の誤差が小さいGの輝度に重心を置きつつ、R(赤)やB(青)の輝度も加味した評価が可能になる。さらに対象物の色の輝度の変化を用いてフィルタリングし、近似に用いる座標点の確度を高めることにより、周囲の明るさの変化に対する頑健性を保障する。これらの処理により、RGBそれぞれに対し離散的に輝度を検出する一般的な可視光のカメラを利用して、サブピクセルレベルで高精度に対象物の像の輪郭線を取得できる。このようにして得られた輪郭線や、それから特定される対象物の像の重心やサイズを利用して、対象物の実空間での位置を効率的かつ高精度に求められる。
 以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
6 発光部、 1 情報処理システム、 10 情報処理装置、 12 撮像装置、 16 表示装置、 18 発光デバイス、 22 CPU、 24 GPU、 26 メインメモリ、 60 撮影画像取得部、 62 データ記憶部、 64 位置情報取得部、 66 情報処理部、 68 出力データ生成部、 70 対象物検出部、 72 輪郭探索部、 74 位置情報生成部。
 以上のように本発明は、ゲーム装置、画像処理装置、パーソナルコンピュータなどの情報処理装置、およびそれを含む情報処理システムなどに利用可能である。

Claims (11)

  1.  対象物を撮影した撮影画像のデータを取得する撮影画像取得部と、
     前記撮影画像における前記対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求める輪郭探索部と、
     前記輪郭線に基づき前記対象物の実空間における位置情報を生成し出力する位置情報生成部と、
     を備え、
     前記輪郭探索部は、前記像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とする情報処理装置。
  2.  前記撮影画像取得部は、ベイヤ配列で取得された輝度データを画像平面上で色ごとに補間してなるカラー画像のデータを取得し、
     前記輪郭探索部は、元のベイヤ配列において同色である複数の画素を探索の始点とすることを特徴とする請求項1に記載の情報処理装置。
  3.  前記輪郭探索部は、元のベイヤ配列において緑色の画素を探索の始点とすることを特徴とする請求項2に記載の情報処理装置。
  4.  前記輪郭探索部は複数方向に探索を行い、検出した前記座標点の分布を最小二乗法により前記対象物の像として想定される形状に近似することにより、前記輪郭線を求めることを特徴とする請求項1から3のいずれかに記載の情報処理装置。
  5.  前記輪郭探索部は少なくとも、探索経路にある画素の色をYUV空間で表したときの輝度Yの、位置に対する変化に基づき、前記座標点を検出することを特徴とする請求項1から4のいずれかに記載の情報処理装置。
  6.  前記輪郭探索部はさらに、探索経路にある画素の色のうち前記対象物の色成分の輝度の、位置に対する変化に基づき、前記座標点をフィルタリングすることを特徴とする請求項5に記載の情報処理装置。
  7.  前記撮影画像取得部は、前記対象物を左右の視点から撮影したステレオ画像のデータを取得し、
     前記位置情報生成部は、前記輪郭線に基づき前記対象物の像の重心を前記ステレオ画像のそれぞれについて算出し、その視差に基づき前記位置情報を生成することを特徴とする請求項1から6のいずれかに記載の情報処理装置。
  8.  前記位置情報生成部は、前記輪郭線に基づき前記対象物の像のサイズを算出し、当該対象物の実物のサイズと比較することにより、前記位置情報を生成することを特徴とする請求項1から6のいずれかに記載の情報処理装置。
  9.  前記輪郭探索部は、撮像装置から既知の距離にある対象物を撮影した撮影画像において、始点とする画素をずらして探索することにより始点ごとに前記輪郭線を求め、その結果得られた前記位置情報の誤差に基づき、探索の始点とすべき画素を特定することを特徴とする請求項2または3に記載の情報処理装置。
  10.  対象物を撮影した撮影画像のデータを取得しメモリに格納するステップと、
     前記メモリから読み出した前記撮影画像における前記対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求めるステップと、
     前記輪郭線に基づき前記対象物の実空間における位置情報を生成し出力するステップと、
     を含み、
     前記輪郭線を求めるステップは、前記像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とする、情報処理装置による情報処理方法。
  11.  対象物を撮影した撮影画像のデータを取得する機能と、
     前記撮影画像における前記対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求める機能と、
     前記輪郭線に基づき前記対象物の実空間における位置情報を生成し出力する機能と、
     をコンピュータに実現させ、
     前記輪郭線を求める機能は、前記像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とするコンピュータプログラム。
PCT/JP2017/043334 2016-12-08 2017-12-01 情報処理装置および情報処理方法 WO2018105530A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP17879251.1A EP3553465B1 (en) 2016-12-08 2017-12-01 Information processing device and information processing method
CN201780074482.7A CN110036258B (zh) 2016-12-08 2017-12-01 信息处理装置和信息处理方法
US16/344,155 US11282224B2 (en) 2016-12-08 2017-12-01 Information processing apparatus and information processing method
KR1020197016547A KR102196845B1 (ko) 2016-12-08 2017-12-01 정보 처리 장치 및 정보 처리 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016238748A JP6602743B2 (ja) 2016-12-08 2016-12-08 情報処理装置および情報処理方法
JP2016-238748 2016-12-08

Publications (1)

Publication Number Publication Date
WO2018105530A1 true WO2018105530A1 (ja) 2018-06-14

Family

ID=62491006

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/043334 WO2018105530A1 (ja) 2016-12-08 2017-12-01 情報処理装置および情報処理方法

Country Status (6)

Country Link
US (1) US11282224B2 (ja)
EP (1) EP3553465B1 (ja)
JP (1) JP6602743B2 (ja)
KR (1) KR102196845B1 (ja)
CN (1) CN110036258B (ja)
WO (1) WO2018105530A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325220A (zh) * 2020-02-17 2020-06-23 腾讯科技(深圳)有限公司 图像生成方法、装置、设备及存储介质
CN112215893A (zh) * 2020-10-28 2021-01-12 安徽农业大学 目标二维中心坐标点确定方法、装置、设备及测距系统
CN115797876A (zh) * 2023-02-08 2023-03-14 华至云链科技(苏州)有限公司 设备监控处理方法及系统

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7111172B2 (ja) 2018-11-01 2022-08-02 日本電気株式会社 位置検出装置、位置検出システム、遠隔制御装置、遠隔制御システム、位置検出方法、及びプログラム
JP6694039B1 (ja) * 2018-11-22 2020-05-13 株式会社アイエンター 魚体サイズ算出装置
JP7280119B2 (ja) * 2019-06-03 2023-05-23 古河電気工業株式会社 支援情報作成装置、支援情報作成システム、支援情報作成方法、及び支援情報作成プログラム
CN110378339B (zh) * 2019-07-22 2021-08-17 海信视像科技股份有限公司 发光体的位置确定方法及装置
CN110782492B (zh) * 2019-10-08 2023-03-28 三星(中国)半导体有限公司 位姿跟踪方法及装置
US11610330B2 (en) 2019-10-08 2023-03-21 Samsung Electronics Co., Ltd. Method and apparatus with pose tracking
CN111981989A (zh) * 2020-01-08 2020-11-24 杨春燕 电力线路现场宽度检测平台
EP3872693A1 (en) * 2020-02-28 2021-09-01 Aptiv Technologies Limited Methods and systems for object detection
JP7392572B2 (ja) * 2020-05-21 2023-12-06 富士通株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
CN112668460A (zh) * 2020-12-25 2021-04-16 北京百度网讯科技有限公司 目标检测方法、电子设备、路侧设备和云控平台
CN113129280B (zh) * 2021-04-09 2022-08-09 中国人民解放军63660部队 一种基于建筑物轮廓特征的目标落点测量方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121710A (ja) * 1993-10-27 1995-05-12 Hitachi Ltd 画像セグメンテーション方法及び装置
JPH08105720A (ja) * 1994-10-04 1996-04-23 Meidensha Corp 部品の姿勢検出装置
JPH08178637A (ja) * 1994-12-27 1996-07-12 Mitsubishi Electric Corp 画像処理装置及び画像処理方法
JP2001014476A (ja) * 1999-06-28 2001-01-19 Pioneer Electronic Corp エッジ検出方法及びエッジ検出装置並びに画像符号化装置
JP2005027077A (ja) * 2003-07-03 2005-01-27 Nikon Corp 色不良領域補正方法、色不良領域補正処理プログラム、色領域特定方法、色領域特定処理プログラムおよび画像処理装置
WO2007050885A2 (en) 2005-10-26 2007-05-03 Sony Computer Entertainment America Inc. System and method for interfacing with a computer program
JP2009246963A (ja) * 2008-03-28 2009-10-22 Seiko Epson Corp 画像処理装置、画像処理方法、およびプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2391556T3 (es) * 2002-05-03 2012-11-27 Donnelly Corporation Sistema de detección de objetos para vehículo
KR20080032746A (ko) 2006-10-10 2008-04-16 엠텍비젼 주식회사 움직임 인식 방법 및 그 장치
US7929807B2 (en) 2007-02-27 2011-04-19 Phase One A/S Colour binning of a digital image to reduce the image resolution
JP4852591B2 (ja) * 2008-11-27 2012-01-11 富士フイルム株式会社 立体画像処理装置、方法及び記録媒体並びに立体撮像装置
TWI422020B (zh) 2008-12-08 2014-01-01 Sony Corp 固態成像裝置
JP5158006B2 (ja) * 2009-04-23 2013-03-06 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP5646263B2 (ja) * 2010-09-27 2014-12-24 任天堂株式会社 画像処理プログラム、画像処理装置、画像処理システム、および、画像処理方法
CN103035014A (zh) * 2011-09-29 2013-04-10 索尼公司 图像处理设备和方法,以及成像设备和方法
JP5953842B2 (ja) * 2012-03-14 2016-07-20 オムロン株式会社 画像検査方法および検査領域設定方法
CN103839250B (zh) * 2012-11-23 2017-03-01 诺基亚技术有限公司 用于面部图像处理的方法和设备
JP5413501B1 (ja) * 2012-12-07 2014-02-12 富士ゼロックス株式会社 画像処理装置、画像処理システム及びプログラム
WO2016074169A1 (zh) * 2014-11-12 2016-05-19 深圳市大疆创新科技有限公司 一种对目标物体的检测方法、检测装置以及机器人
KR101660447B1 (ko) 2015-03-26 2016-09-28 인천대학교 산학협력단 베이어 패턴 컬러 필터 어레이 디모자이킹을 위한 다 방향 가중 보간 방법
CN106067026B (zh) * 2016-05-30 2020-01-31 天水师范学院 一种中药材显微图像的特征提取与识别检索方法
CN106203398B (zh) 2016-07-26 2019-08-13 东软集团股份有限公司 一种检测车道边界的方法、装置和设备
KR101907451B1 (ko) 2017-05-19 2018-10-12 인천대학교 산학협력단 베이어 패턴 필터 기반 고해상도 컬러 영상 복원 및 화질 향상 장치 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121710A (ja) * 1993-10-27 1995-05-12 Hitachi Ltd 画像セグメンテーション方法及び装置
JPH08105720A (ja) * 1994-10-04 1996-04-23 Meidensha Corp 部品の姿勢検出装置
JPH08178637A (ja) * 1994-12-27 1996-07-12 Mitsubishi Electric Corp 画像処理装置及び画像処理方法
JP2001014476A (ja) * 1999-06-28 2001-01-19 Pioneer Electronic Corp エッジ検出方法及びエッジ検出装置並びに画像符号化装置
JP2005027077A (ja) * 2003-07-03 2005-01-27 Nikon Corp 色不良領域補正方法、色不良領域補正処理プログラム、色領域特定方法、色領域特定処理プログラムおよび画像処理装置
WO2007050885A2 (en) 2005-10-26 2007-05-03 Sony Computer Entertainment America Inc. System and method for interfacing with a computer program
JP2009246963A (ja) * 2008-03-28 2009-10-22 Seiko Epson Corp 画像処理装置、画像処理方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3553465A4

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325220A (zh) * 2020-02-17 2020-06-23 腾讯科技(深圳)有限公司 图像生成方法、装置、设备及存储介质
CN111325220B (zh) * 2020-02-17 2023-04-07 腾讯科技(深圳)有限公司 图像生成方法、装置、设备及存储介质
CN112215893A (zh) * 2020-10-28 2021-01-12 安徽农业大学 目标二维中心坐标点确定方法、装置、设备及测距系统
CN112215893B (zh) * 2020-10-28 2022-10-28 安徽农业大学 目标二维中心坐标点确定方法、装置、设备及测距系统
CN115797876A (zh) * 2023-02-08 2023-03-14 华至云链科技(苏州)有限公司 设备监控处理方法及系统
CN115797876B (zh) * 2023-02-08 2023-04-07 华至云链科技(苏州)有限公司 设备监控处理方法及系统

Also Published As

Publication number Publication date
EP3553465A1 (en) 2019-10-16
KR102196845B1 (ko) 2020-12-30
KR20190082880A (ko) 2019-07-10
US20200265601A1 (en) 2020-08-20
CN110036258B (zh) 2021-11-23
US11282224B2 (en) 2022-03-22
JP6602743B2 (ja) 2019-11-06
JP2018096716A (ja) 2018-06-21
EP3553465A4 (en) 2020-07-29
EP3553465B1 (en) 2022-06-22
CN110036258A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
JP6602743B2 (ja) 情報処理装置および情報処理方法
CN105283905B (zh) 使用点和线特征的稳健跟踪
US8941687B2 (en) System and method of user interaction for augmented reality
US20170068326A1 (en) Imaging surround system for touch-free display control
CN104615234B (zh) 信息处理设备以及信息处理方法
US9542755B2 (en) Image processor and image processing method
US20120262485A1 (en) System and method of input processing for augmented reality
US20070181684A1 (en) Object, image data, image data transmission method, card, game mat, card game system, image analysis device, and image analysis method
US9268408B2 (en) Operating area determination method and system
US10936900B2 (en) Color identification using infrared imaging
JP6629055B2 (ja) 情報処理装置および情報処理方法
JP2009205556A (ja) ユーザインタフェース装置
US10638120B2 (en) Information processing device and information processing method for stereoscopic image calibration
JP6799017B2 (ja) 端末装置、システム、プログラム及び方法
JPWO2019050038A1 (ja) 画像生成方法および画像生成装置
US20130040737A1 (en) Input device, system and method
US10750080B2 (en) Information processing device, information processing method, and program
JP6650739B2 (ja) 発光デバイス調整装置および駆動電流調整方法
JP6447521B2 (ja) 情報処理装置、情報処理方法、およびプログラム
TWI457857B (zh) 影像處理裝置,影像處理方法,及其電腦程式產品
US20200118258A1 (en) Information processing device, information processing system, and image processing method
CN108139203A (zh) 信息处理设备和位置信息获取方法
US20230306676A1 (en) Image generation device and image generation method
WO2023281593A1 (ja) 情報処理装置、制御方法及び記憶媒体
US11323682B2 (en) Electronic device, content processing device, content processing system, image data output method, and image processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17879251

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20197016547

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017879251

Country of ref document: EP

Effective date: 20190708