WO2011001761A1 - 情報処理装置、情報処理方法、プログラム及び電子装置 - Google Patents

情報処理装置、情報処理方法、プログラム及び電子装置 Download PDF

Info

Publication number
WO2011001761A1
WO2011001761A1 PCT/JP2010/058773 JP2010058773W WO2011001761A1 WO 2011001761 A1 WO2011001761 A1 WO 2011001761A1 JP 2010058773 W JP2010058773 W JP 2010058773W WO 2011001761 A1 WO2011001761 A1 WO 2011001761A1
Authority
WO
WIPO (PCT)
Prior art keywords
skin
user
area
light
image
Prior art date
Application number
PCT/JP2010/058773
Other languages
English (en)
French (fr)
Inventor
信広 西条
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US13/059,422 priority Critical patent/US8107706B2/en
Priority to EP10793932A priority patent/EP2378759A4/en
Priority to JP2011520477A priority patent/JP4831267B2/ja
Publication of WO2011001761A1 publication Critical patent/WO2011001761A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof

Definitions

  • the present invention relates to an information processing device, an information processing method, a program, and an electronic device.
  • the present invention relates to an information processing method, a program, and an electronic apparatus.
  • extraction techniques for extracting the shape of the user's hand there are a pattern matching method using image pattern matching, a skin region extraction method for extracting the user's skin region, and the like.
  • a plurality of shape images obtained by imaging hands of various shapes and sizes are learned in advance, and a shape image that is most similar to the captured image (for example, pixel values of corresponding pixels).
  • the shape of the hand displayed in the shape image that minimizes the sum of the differences is extracted as the shape of the user's hand.
  • the shape of the hand in the captured image is significantly different from the shape of the hand in the shape image, or the hand in the captured image is in a state of overlapping the face or the like.
  • a skin region representing the user's skin in the captured image is extracted using skin color information representing the color of human skin.
  • the shape of both the face and hand is defined as the skin area. It is difficult to extract only the shape of the hand as a skin region.
  • the present invention has been made in view of such a situation, and an accurate hand shape of a user is obtained from a captured image obtained by capturing the user while suppressing an increase in the amount of calculation required for a series of processes. It enables extraction at high speed.
  • the present invention is based on, for example, a change in the luminance value of a pixel constituting an area corresponding to the shape of the extracted user's hand or the like on the display image on which the user is displayed. The movement can be easily detected.
  • the first information processing apparatus includes an irradiation unit that irradiates the user with light having a first wavelength and light having a second wavelength different from the first wavelength, and the user.
  • the first image obtained by receiving the reflected light of the light of the first wavelength irradiated to the second and the second image obtained by receiving the reflected light of the light of the second wavelength irradiated to the user From the skin display area on the display image including the skin display area on which the user's skin is displayed based on the acquisition means for acquiring the image of the image and the first and second images, the body of the user Object area extraction means for extracting an object area where an object representing a predetermined skin region is displayed, and a luminance value of a pixel constituting the object area on the display image, or a value calculated based on the luminance value
  • an information processing apparatus including a distance change detecting means for detecting a relative change in a distance from said irradiation means to said object.
  • an area constituted by pixels included in the upper n percent having a large luminance value is detected as the partial display area where a part of the object is displayed.
  • a partial display area detecting means can be further provided.
  • the portion according to a change in one of a luminance value of a pixel constituting the partial display region of the object region on the display image or a value calculated based on the luminance value.
  • a change in relative distance to a part of the object displayed in the display area can be detected.
  • the object area extracting means detects a shape area representing the shape of the object on the skin display area based on a distribution of luminance values of pixels constituting the skin display area on the display image, and displays the skin display.
  • the object region corresponding to the shape region can be extracted from the region.
  • the distance change detecting means may detect a change in a relative distance from the irradiation means to the object in accordance with a change in an average value of luminance values of pixels constituting the object area on the display image. it can.
  • the first wavelength ⁇ 1 and the second wavelength ⁇ 2 satisfy the relationship of the following equation: ⁇ 1 ⁇ 2 630 nm ⁇ ⁇ 1 ⁇ 1000 nm 900 nm ⁇ ⁇ 2 ⁇ 1100 nm Can be.
  • a first information processing method is an information processing method of an information processing device that detects a change in distance to a user, and the information processing device includes an irradiation unit, an acquisition unit, An object region extracting unit; and a distance change detecting unit, wherein the irradiating unit irradiates the user with light having a first wavelength and light having a second wavelength different from the first wavelength.
  • the means receives the first image obtained by receiving the reflected light of the light of the first wavelength irradiated to the user and the reflected light of the light of the second wavelength irradiated to the user.
  • the object region extracting means obtains the skin on the display image including the skin display region where the user's skin is displayed based on the first and second images. From the display area, the predetermined skin of the user's body An object region in which an object representing the position is displayed, and the distance change detection means either one of a luminance value of a pixel constituting the object region on the display image or a value calculated based on the luminance value
  • the information processing method includes a step of detecting a change in a relative distance from the irradiating means to the object in accordance with a change in.
  • the first program according to the first aspect of the present invention is an information processing apparatus including an irradiation unit that irradiates the user with light having a first wavelength and light having a second wavelength different from the first wavelength.
  • a computer that controls the first image obtained by receiving the reflected light of the first wavelength light irradiated to the user, and the reflected light of the second wavelength light irradiated to the user.
  • the skin display area on a display image including an acquisition means for acquiring a second image obtained by receiving light and a skin display area on which the user's skin is displayed based on the first and second images
  • An object region extracting means for extracting an object region in which an object representing a predetermined skin part of the user's body is displayed, and a luminance value of a pixel constituting the object region on the display image, or the luminance value Depending on one of the change in value calculated on the basis of a program for functioning as a distance change detecting means for detecting a relative change in a distance from said irradiation means to said object.
  • the first electronic device includes: an irradiation unit configured to irradiate the user with light having a first wavelength and light having a second wavelength different from the first wavelength; A first image obtained by receiving the reflected light of the irradiated light of the first wavelength, and a second image obtained by receiving the reflected light of the second wavelength of light irradiated on the user Based on the acquisition means for acquiring an image and the skin display area on the display image including the skin display area on which the user's skin is displayed based on the first and second images, the predetermined body of the user An object region extracting means for extracting an object region in which an object representing a skin region is displayed, and a luminance value of a pixel constituting the object region on the display image, or a value calculated based on the luminance value Depending on one change, The distance change detecting means for detecting a change in the relative distance from the irradiation means to the object and a predetermined process corresponding to the detection of the change in the
  • the first image obtained by receiving the reflected light of the light having the first wavelength irradiated to the user, and the second wavelength irradiated to the user is obtained by receiving the reflected light of the light having the first wavelength irradiated to the user, and the second wavelength irradiated to the user.
  • An object region in which an object representing a predetermined skin part of the user's body is extracted from the skin display region on the upper side, and the luminance value of the pixels constituting the object region on the display image, or the A change in relative distance from the irradiating means to the object is detected according to one change in the value calculated based on the luminance value.
  • a second information processing apparatus is an information processing apparatus that extracts a shape of an object representing a predetermined skin part of a user's body from a captured image obtained by imaging the user. And an irradiation means for irradiating the user with light having a first wavelength and light having a second wavelength different from the first wavelength, and reflected light of the light having the first wavelength irradiated to the user.
  • a shape region extracting means for extracting a skin region representing the skin of the user based on whether or not, and a shape region extracting means for extracting a shape region representing the shape of the object on the skin region,
  • the extraction unit is configured to obtain a luminance value of a pixel constituting an area corresponding to the skin area on a display image on which the object and the user's part corresponding to an area other than the shape area on the skin area are displayed.
  • the information processing apparatus extracts the shape region based on a distribution.
  • the difference value calculation means can calculate the difference value obtained by normalizing a difference obtained by subtracting the luminance value of the second image from the luminance value of the first image.
  • the difference value calculation means can calculate a ratio between the luminance value of the first image and the luminance value of the second image as the difference value.
  • the information processing apparatus includes an irradiation unit, an acquisition unit, a difference value calculation unit, a skin region extraction unit, and a shape region extraction unit, and the irradiation unit has a first wavelength.
  • the user is irradiated with light and light having a second wavelength different from the first wavelength, and the obtaining means receives the reflected light of the light having the first wavelength irradiated to the user.
  • a second image obtained by receiving reflected light of the second wavelength light irradiated to the user, and the difference value calculating means is configured to acquire the first or second difference value.
  • the first wavelength light and the first wavelength A difference value representing a difference in reflectance from light of a wavelength of is calculated, and the difference value calculated by the skin region extraction unit for each pixel constituting the first or second image is equal to or greater than a predetermined threshold value.
  • the shape area extracting means extracts a shape area representing the shape of the object on the skin area, and extracts the shape area representing the shape of the object on the skin area.
  • the area extracting means includes a luminance value of a pixel constituting an area corresponding to the skin area on the display image on which the object and the user's part corresponding to an area other than the shape area on the skin area are displayed.
  • a second program is an information processing apparatus that extracts a shape of an object representing a predetermined skin part of a user's body from a captured image obtained by imaging the user,
  • a computer that controls an information processing apparatus including an irradiation unit that irradiates the user with light having a first wavelength and light having a second wavelength different from the first wavelength.
  • An acquisition means for acquiring a first image obtained by receiving reflected light of light having a wavelength of 2 and a second image obtained by receiving reflected light of light of the second wavelength irradiated to the user
  • difference value calculating means for calculating a difference value representing a difference in reflectance between the light of the first wavelength and the light of the second wavelength for each pixel constituting the first or second image.
  • a skin region extracting means for extracting a skin region representing the user's skin based on whether the difference value is equal to or greater than a predetermined threshold; and a shape region representing the shape of the object on the skin region.
  • the shape area extracting means functions as the shape area extracting means for extracting the skin on the display image on which the object and the part of the user corresponding to the area other than the shape area on the skin area are displayed. This is a program for extracting the shape region based on the distribution of luminance values of pixels constituting the region corresponding to the region.
  • a second electronic device is an electronic device that extracts a shape of an object representing a predetermined skin region of a user's body from a captured image obtained by imaging the user, An irradiation means for irradiating the user with light having a first wavelength and light having a second wavelength different from the first wavelength, and reflected light of the light having the first wavelength irradiated to the user.
  • a skin area extracting means for extracting a skin area representing the user's skin
  • a shape area extracting means for extracting a shape area representing the shape of the object on the skin area
  • the shape area extracting means includes the object and the user's part corresponding to an area other than the shape area on the skin area on the display image.
  • the electronic device extracts the shape region based on a distribution of luminance values of pixels constituting a region corresponding to the skin region.
  • the first image obtained by receiving the reflected light of the light having the first wavelength irradiated to the user, and the second wavelength irradiated to the user is acquired, and for each pixel constituting the acquired first or second image, the light of the first wavelength and the second wavelength
  • a difference value representing a difference in reflectance from light is calculated, and based on whether or not the difference value calculated for each pixel constituting the first or second image is equal to or greater than a predetermined threshold value,
  • a skin region representing the user's skin is extracted, and a shape region representing the shape of the object on the skin region is extracted.
  • the movement of the user's hand or the like can be easily detected.
  • the second aspect of the present invention it is possible to extract a user's accurate hand shape and the like at high speed while suppressing an increase in the amount of calculation required for a series of processes.
  • FIG. 1 shows a configuration example of an information processing system 1 according to the present embodiment.
  • the information processing system 1 executes a predetermined process according to a gesture (or posture) using a user's hand, and includes an information processing device 21, a camera 22, and a light emitting device 23.
  • the user changes the shape of his / her hand (in front of the lens surface of the camera 22) or moves his / her hand.
  • the information processing system 1 recognizes the shape and movement of the user's hand and executes a predetermined process corresponding to the recognition result.
  • the user moves his / her hand or changes the shape of the hand in front of the lens surface of the camera 22, and the user moves his / her hand over the lens of the camera 22 rather than the face or chest. It is assumed that a gesture (or posture) is performed at a position close to the surface.
  • the information processing device 21 controls the camera 22 and the light emitting device 23. Further, the information processing apparatus 21 recognizes the shape and movement of the user's hand based on the captured image obtained by the imaging of the camera 22, and executes predetermined processing corresponding to the recognition result.
  • the camera 22 has a lens used for imaging a subject such as a user, and the front surface of the lens is covered with a visible light cut filter 22a that blocks visible light.
  • the camera 22 receives only the reflected light of the invisible light irradiated to the subject by the light emitting device 23, and the captured image obtained as a result is processed into the information processing device. 21 will be supplied.
  • the camera 22 receives only reflected light of a first wavelength (for example, near-infrared light of 870 [nm]) that is invisible light emitted to the subject by the light emitting device 23, and is obtained as a result.
  • the first captured image is supplied to the information processing device 21.
  • the camera 22 is invisible light that is emitted to the subject by the light-emitting device 23 and only reflects reflected light having a second wavelength different from the first wavelength (for example, near infrared light of 950 [nm]).
  • the second captured image obtained as a result of receiving light is supplied to the information processing apparatus 21.
  • infrared components for example, near infrared at 870 [nm] and near infrared at 950 [nm]
  • external light such as sunlight or fluorescent lamps
  • the visible light region has higher light receiving sensitivity than the infrared region, the visible light influence can be reduced by providing the visible light cut filter 22a. For this reason, since the reflected light of the light irradiated to the subject can be received from the light emitting device 23 with almost no influence of visible light, the robustness of skin detection using the spectral reflectance characteristics can be improved. It becomes possible.
  • the front surface of the lens of the camera 22 is covered with the visible light cut filter 22a.
  • the lens of the camera 22 The front surface may be configured not to be covered with the visible light cut filter 22a.
  • the light emitting device 23 includes LEDs (light emitting diodes) 23a 1 and 23a 2 that emit light having a first wavelength, and LEDs 23b 1 and 23b 2 that emit light having a second wavelength.
  • LED23a 1 and 23a 2 when there is no need to distinguish LED23a 1 and 23a 2 is a LED23a 1 and 23a 2 simply referred LED23a.
  • LED23b 1 and 23b 2 When there is no need to distinguish LED23b 1 and 23b 2 is a LED23b 1 and 23b 2 simply referred LED23b.
  • the LED 23a and the LED 23b emit light alternately according to the control of the information processing device 21.
  • the output of the LED 23a and the LED 23b is such that the reflected light of the first wavelength and the reflected light of the second wavelength have the same intensity (light quantity) of the reflected light received by the camera 22. Has been adjusted.
  • the relative sensitivity characteristic of the camera 22 with respect to the light of the first wavelength and the relative sensitivity characteristic of the camera 22 with respect to the light of the second wavelength are the same, the reflectance in the light of each of the first and second wavelengths.
  • the brightness value obtained when irradiating light of the first wavelength to the same object (for example, mirror surface) is the same as the brightness value obtained when irradiating light of the second wavelength.
  • the intensity (light quantity) of reflected light received by the camera 22 is adjusted to be the same.
  • the relative sensitivity characteristic of the camera 22 usually tends to decrease in sensitivity as the distance from the visible light region increases. For example, compared with the sensitivity at 870 [nm]. , The sensitivity at 950 [nm] is 1/2 or less.
  • the luminance value obtained when the light having the first wavelength is irradiated to the object having the same reflectance in the light of each of the first and second wavelengths, and the second The outputs of the LEDs 23a and 23b are adjusted according to, for example, the relative sensitivity characteristics of the camera 22 so that the luminance values obtained when the light of the wavelength is irradiated are the same.
  • the LEDs 23a and the LEDs 23b are alternately arranged in a grid pattern, and a diffusion plate for uniformly diffusing the light emitted by the LEDs 23a and 23b is provided on the front surfaces of the LEDs 23a and 23b. 23c is provided. Thereby, the subject is irradiated with light of the first or second wavelength evenly.
  • the light emitting device 23 is disposed at a position where the light emitted from the LED 23a or the LED 23b is reliably irradiated to at least the user's hand.
  • the light emitting device 23 since the user changes the shape of the hand in front of the lens surface of the camera 22, the light emitting device 23 is disposed in a state of being close to the camera 22, for example.
  • the light emitting device 23 will be described as being disposed in the vicinity of the camera 22, but the positional relationship between the light emitting device 23 and the camera 22 is not limited thereto. That is, any positional relationship may be used as long as the user's hand located in front of the lens surface of the camera 22 can be irradiated and the reflected light obtained by the irradiation can be reliably received by the camera 22. .
  • the light emitting device 23 and the camera 22 that are close to each other are separated and the light emitting device 23 is disposed closer to the user's hand than the camera 22, the light emitting device 23 and the camera 22 are disposed. Compared with the case where it arrange
  • the distance between the light emitting device 23 and the user's hand is shorter than when the light emitting device 23 and the camera 22 are arranged close to each other, the power consumption of the light emitting device 23 can be reduced. It becomes.
  • FIG. 2 shows a configuration example of the information processing apparatus 21.
  • the information processing apparatus 21 includes a control unit 41, a binarization unit 42, a skin extraction unit 43, a threshold value determination unit 44, a mask image generation unit 45, and a shape extraction unit 46.
  • the control unit 41 controls the light emitting device 23 to cause the LEDs 23a and the LEDs 23b to emit light alternately.
  • the first captured image and the second captured image are supplied from the camera 22 to the binarization unit 42.
  • the binarization unit 42 Based on the first and second captured images supplied from the camera 22, the binarization unit 42 extracts a skin region representing the user's skin and a region other than the skin region from the first captured image ( To detect.
  • the binarization unit 42 employs the first captured image as the target for extracting the skin region and the region other than the skin region.
  • the target to be extracted As such, the second captured image or the like can be adopted.
  • the binarization unit 42 binarizes the pixel values of the pixels constituting the extracted skin area and the pixel values of the pixels constituting the area other than the skin area (for example, 0 and 1).
  • the binarized skin image thus generated is generated and supplied to the skin extraction unit 43 and the shape extraction unit 46.
  • the first captured image is supplied from the camera 22 to the skin extraction unit 43 and the mask image generation unit 45.
  • the skin extraction unit 43 Based on the binarized skin image supplied from the binarization unit 42, the skin extraction unit 43 extracts a region corresponding to the skin region in the binarized skin image from the first captured image from the camera 22 (user (The area where the skin part is displayed) is extracted.
  • the skin extraction unit 43 generates a skin image including the extracted region and supplies the skin image to the threshold value determination unit 44.
  • the skin extraction unit 43 may supply the extracted region to the threshold value determination unit 44 as a skin image.
  • the threshold value determination unit 44 creates a histogram of the skin image (the luminance value of the pixels constituting the skin image) based on the skin image from the skin extraction unit 43. Then, the threshold value determination unit 44 determines a mask threshold value used for generating a mask image to be described later based on the created histogram of the skin image, and supplies it to the mask image generation unit 45.
  • the threshold value determination unit 44 uses, for example, a histogram of the skin image as the distribution of the luminance values of the pixels constituting the skin image in order to determine the mask threshold value.
  • a histogram of the skin image as the distribution of the luminance values of the pixels constituting the skin image in order to determine the mask threshold value.
  • any information may be used as long as it represents the distribution of luminance values of pixels constituting the skin image, without being limited to the histogram of the skin image.
  • the threshold value determination unit 44 calculates the maximum value or the minimum value of the luminance values of the pixels constituting the skin image based on the skin image histogram, and determines the mask threshold value. However, it is not limited to this.
  • the threshold value determination unit 44 calculates an average value, a variance value, a minimum value, a maximum value, and the like for the luminance values of the pixels constituting the skin image based on the histogram of the skin image,
  • the mask threshold value may be determined using a variance value, a minimum value, a maximum value, or the like.
  • the mask image generation unit 45 generates a mask image from the first captured image supplied from the camera 22 based on the mask threshold value from the threshold value determination unit 44 and supplies the mask image to the shape extraction unit 46.
  • the mask image is a mask area composed of pixels having luminance values included in the luminance value range specified by the mask threshold, and other areas in the first captured image. An image binarized into a mask area.
  • the shape extraction unit 46 uses, for example, the user's hand as a region corresponding to the mask region in the mask image from the binarized skin image from the binarization unit 42. A shape region representing the shape is extracted.
  • the shape extraction unit 46 recognizes the shape of the hand based on the extracted shape region, performs processing according to the recognition result, and outputs the processing result to the subsequent stage.
  • the binarization unit 42 extracts the skin region and the region other than the skin region from the first captured image, but the skin region and the region other than the skin region are extracted from the second captured image. You may make it extract. In this case, the skin image extraction unit 43 and the mask image generation unit 45 are supplied with the second captured image from the camera 22 instead of the first captured image.
  • the skin extraction unit 43 generates a skin image from the second captured image
  • the mask image generation unit 45 generates a mask image from the second captured image
  • the skin extraction unit 43 creates new synthesized images (for example, the first and second captured images, respectively) obtained by synthesizing the first captured image and the second captured image at a predetermined ratio.
  • the skin area and the area other than the skin area are extracted for a synthesized image (a synthesized image synthesized at a ratio of 1: 1) having an average luminance value of corresponding pixels as a luminance value. May be.
  • the skin extraction unit 43 is a display area in which the same subject as the subject displayed on the first or second captured image is displayed at the same position. Can be adopted as an image to be extracted.
  • FIG. 5 illustrates a binarized skin image generated by the binarization unit 42 based on the first captured image and the second captured image.
  • FIG. 3 shows the reflection characteristics of human skin with respect to irradiation light having different wavelengths.
  • the horizontal axis indicates the wavelength of light applied to the human skin
  • the vertical axis indicates the reflectance of the light applied to the human skin.
  • the reflectance of reflected light obtained by irradiating human skin with light of 870 [nm] is about 63 [%], and 950 [
  • the reflectance of the reflected light obtained by irradiating [nm] light is about 50 [%].
  • the change in reflectance is moderate around 800 to 1000 [nm]. Many. Although illustration is omitted, in the example of hair, the reflectance gradually increases as the wavelength increases in the vicinity of 800 to 1000 [nm]. In the example of hair, the reflectance of the reflected light obtained by irradiating light of 870 [nm] is about 6 [%], and the reflectance of the reflected light obtained by irradiating light of 950 [nm] Is about 8%.
  • FIG. 4 shows a first captured image obtained by receiving reflected light of 870 [nm] light irradiated to the user, and obtained by receiving reflected light of 950 [nm] light irradiated to the user. An example of each second captured image is shown.
  • the user's face 61 and hand 62 are displayed as the user's skin area, and the shirt 63 and the background 64 worn by the user are displayed as areas other than the user's skin area.
  • a first captured image is shown.
  • the user's face 81 and hand 82 are displayed as the user's skin area, and the shirt 83 and the background 84 worn by the user are areas other than the user's skin area.
  • the displayed second captured image is shown.
  • the reflectance of light having a wavelength of 870 [nm] is greater than the reflectance of light having a wavelength of 950 [nm] in the reflection characteristics of the user's skin. .
  • the reflected light when 950 [nm] light is applied to the lens of the camera 22 as the reflected light of the light irradiated to the user's skin. Light that is brighter than the brightness is incident.
  • the luminance values of the pixels constituting the user's skin area (face 61 and hand 62) in the first captured image are the user's skin areas (face 81 and hand) in the second captured image, respectively. 82), which is larger than the luminance value of the pixels constituting the pixel 82).
  • the reflectance of light having a wavelength of 870 [nm] is the same as or smaller than the reflectance of light having a wavelength of 950 [nm]. Often has become.
  • the lens of the camera 22 is irradiated with light of 950 [nm] as reflected light of the light irradiated to the part other than the user's skin part.
  • the luminance values of the pixels constituting the region (the shirt 63 and the background 64) other than the user's skin region in the first captured image are respectively other than the user's skin region in the second captured image.
  • the value is the same as or smaller than the luminance value of the pixels constituting the region (the shirt 83 and the background 84).
  • each of the luminance values of the pixels constituting the corresponding user's skin part in the second captured image from the luminance values of the pixels constituting the part other than the user's skin part in the first captured image.
  • the difference obtained by subtracting is a value of 0 or less (non-positive value).
  • the binarization unit 42 calculates the difference between the luminance values of the corresponding pixels in the first captured image and the second captured image, and based on the calculated difference, An area other than the user's skin area is extracted. Then, the binarization unit 42 generates a binarized skin image with the extracted user's skin area as the value 1 and the area other than the extracted user's skin area as the value 0.
  • the binarization unit 42 calculates the calculated difference (difference obtained by subtracting the luminance value of the pixel constituting the corresponding second captured image from the luminance value of the pixel constituting the first captured image). Is positive, the corresponding pixel is extracted as a pixel constituting the user's skin area. If the calculated difference is not positive, the corresponding pixel is extracted as a pixel constituting an area other than the user's skin area.
  • the binarization unit 42 sets the pixel value of the pixel extracted as the pixel constituting the user's skin area to 1, and sets the pixel value of the pixel extracted as the pixel constituting the area other than the user's skin area to 0
  • a binarized skin image is generated and supplied to the skin extraction unit 43 and the shape extraction unit 46.
  • the difference calculated in the part other than the skin part may be a positive value although it is smaller than the difference calculated in the skin part. Therefore, even if the difference is positive, if the difference is less than the predetermined threshold, it is desirable that the pixel value 0 is set as a part other than the user's skin part.
  • the binarization unit 42 determines whether or not the calculated difference is equal to or greater than a predetermined threshold value. If the difference is equal to or greater than the predetermined threshold value, the corresponding pixel constitutes the user's skin area. When extracted as a pixel and not equal to or greater than a predetermined threshold, it is desirable to generate a binarized skin image by extracting the corresponding pixel as a pixel constituting an area other than the user's skin area.
  • the luminance values L1 and L2 in the skin region can change due to the distance from the light emitting device 23 to the subject, the imaging conditions of the camera 22, and the like, so the difference L1-L2 in the skin region is It may happen that the constant value C1 is not reached.
  • the binarizing unit 42 must use a different threshold value for each difference L1-L2, which is a very complicated process.
  • the binarization unit 42 normalizes the difference L1-L2, and uses the difference L1-L2 as the difference between the reflectance of the light of the first wavelength and the reflectance of the light of the second wavelength.
  • the binarization unit 42 uses the difference L1-L2 as the difference between the reflectance of the light of the first wavelength and the reflectance of the light of the second wavelength.
  • the binarization unit 42 normalizes (divides) the difference L1-L2 with one of the luminance values L1 or L2, the normalized difference (L1-L2) / L1 or (L1 Since the same threshold value prepared in advance can be used for -L2) / L2, it is not necessary to prepare a different threshold value for each difference L1-L2.
  • the difference may be normalized by the luminance value related value related to the luminance value L1 or L2, for example, (L1 + L2) / 2 Or you may normalize with (L1 + L2).
  • the capacity of the built-in memory (not shown) for the binarization unit 42 to hold the threshold value in advance can be reduced. Further, if the binarization unit 42 uses the same threshold value regardless of the difference L1-L2, it is possible to save time and effort for changing the threshold value for each difference L1-L2. It is possible to suppress a calculation amount for generating an image and generate a binarized skin image more quickly.
  • the binarization unit 42 uses the ratio L1 / L2 Is extracted as a skin region, and when the ratio L1 / L2 is less than the threshold, it is extracted as a non-skin region.
  • the binarization unit 42 calculates a difference absolute value between luminance values of corresponding pixels between the first captured image and the second captured image, and the calculated difference absolute value is equal to or greater than a predetermined threshold value. Based on whether or not, the user's skin part (skin area) and other parts (areas other than the skin area) may be extracted to generate a binarized skin image.
  • the same threshold value can be used for any difference absolute value by normalizing with the luminance value L1 or L2.
  • the luminance value is also taken into account. It is desirable to extract the skin area. That is, for example, only a portion having a high luminance value L1 (or luminance value L2) out of the skin regions extracted using the absolute difference value may be extracted as the final skin region.
  • FIG. 5 shows an example of a binarized skin image generated by the binarization unit 42.
  • a black portion indicates a skin region represented by a pixel value 1.
  • This skin area is composed of a face area 101 indicating the skin part of the user's face and a hand area 102 indicating the skin part of the user's hand.
  • the face area 101 shown in FIG. 5 includes not only the skin part of the face but also eyebrows, eyes, hair, and the like. Consists of only.
  • a white portion indicates an area other than the skin area represented by a pixel value of 0.
  • the binarization unit 42 supplies the generated binarized skin image to the skin extraction unit 43 and the shape extraction unit 46.
  • the skin extraction unit 43 Based on the binarized skin image from the binarization unit 42, the skin extraction unit 43 converts the first captured image supplied from the camera 22 into the face area 101 and the hand area 102 in the binarized skin image. A corresponding area (area where the face 61 and the hand 62 are displayed) is extracted. And the skin extraction part 43 produces
  • FIG. 6 shows an example of the skin image extracted by the skin extraction unit 43.
  • the user's face 61 and hand 62 are displayed in the skin image shown in FIG.
  • the skin image shown in FIG. 6 includes eyebrows, eyes, hair, and the like as the user's face 61 in addition to the skin portion of the face.
  • the face 61 represents only the skin portion of the face.
  • the skin extraction unit 43 multiplies the luminance values of corresponding pixels of the binarized skin image from the binarization unit 42 and the first captured image from the camera 22, respectively.
  • the skin extraction unit 43 extracts and extracts an area (area where the face 61 and the hand 62 are displayed) composed of pixels whose multiplication result is not 0 from the pixels constituting the first captured image. A skin image including the region is generated.
  • the face 61 included in the area corresponding to the face area 101 of the binarized skin image and the area corresponding to the hand area 102 of the binarized skin image are included.
  • the hand 62 is extracted as it is, and the brightness value of the area corresponding to the area other than the skin area of the binarized skin image (shown in white in FIG. 6) is set to the value 255, for example.
  • a skin image as shown in FIG. 6 is generated from the captured image.
  • the skin extraction unit 43 supplies the generated skin image to the threshold value determination unit 44.
  • the threshold determination unit 44 determines a mask threshold used for generating a mask image based on the skin image from the skin extraction unit 43.
  • FIG. 7 shows an example of the histogram of the skin image.
  • the horizontal axis indicates the luminance value of the pixels constituting the skin image.
  • the vertical axis indicates the number of pixels corresponding to the luminance value on the horizontal axis.
  • the number of pixels for the luminance value 255 of the pixels constituting the area represented by the white part is also displayed in the skin image of FIG. 6. The number is not shown because it is not used to determine the mask threshold.
  • the threshold value determination unit 44 creates a histogram as shown in FIG. 7 for the luminance values of the pixels constituting the skin image from the skin extraction unit 43.
  • the LED 23a and the LED 23b of the light emitting device 23 emit light in the state of being close to the camera 22, so that the luminance value of the user's part (in this case, a hand) existing closer to the camera 22 (light emitting device 23) is larger. Increases, and the luminance value decreases as the user part (in this case, a face or the like) exists farther from the camera 22.
  • the luminance value of the pixels constituting the skin portion of the hand existing at a position close to the camera 22 is larger than the luminance value of the pixels constituting the skin portion of the face existing at a position far from the camera 22.
  • the luminance values from the luminance value 0 to the luminance value 54 are the luminance values of the pixels constituting the face 61 (region), and the luminance values from the luminance value 55 to the luminance value 110 constitute the hand 62. This is the luminance value of the pixel.
  • the threshold value determination unit 44 determines the luminance value (luminance value 55 in this example) when the number of pixels is a minimum as the lower threshold value Th_L, and sets the maximum luminance value (luminance value 110 in this example) as the upper threshold value Th_H. decide.
  • the upper limit threshold Th_H is determined to be the maximum luminance value
  • the threshold value determination unit 44 can also determine the mask threshold value using an average value, a variance value, a minimum value, a maximum value, and the like regarding the luminance values of the pixels constituting the skin image.
  • the threshold value determination unit 44 may determine the average value for the luminance value of the pixels constituting the skin image as the lower limit threshold value Th_L, or the maximum value for the luminance value of the pixels constituting the skin image. One half of the value may be determined as the lower limit threshold Th_L. For example, the threshold determination unit 44 may determine the average of the minimum value and the maximum value of the luminance values of the pixels constituting the skin image as the lower limit threshold Th_L.
  • the threshold value determination unit 44 prepares a threshold value determination function for determining the lower limit threshold value Th_L for each variance value, for example, and the threshold value corresponding to the variance value for the luminance value of the pixels constituting the skin image.
  • the lower limit threshold Th_L may be determined by a determination function.
  • the threshold value determining function for example, a function having a minimum value, a maximum value, or the like for the luminance value of the pixels constituting the skin image as a variable can be adopted.
  • a function f (x) is generated, and a first derivative f ′ (x) is further generated from the generated function f (x), and a lower limit is set based on the first derivative f ′ (x). Since the value determined as the lower limit threshold Th_L can be easily calculated as compared with the case where the threshold Th_L is determined, the lower limit threshold Th_L can be determined more quickly.
  • the threshold value determination unit 44 determines, for example, the maximum value of the luminance value of the pixels constituting the skin image as the upper limit threshold value Th_H, but the skin image is determined in the same manner as in the case of the lower limit threshold value Th_L.
  • the upper threshold value Th_H can be determined using an average value, a variance value, a minimum value, a maximum value, and the like regarding the luminance values of the constituent pixels.
  • the upper threshold value Th_H can be determined in the same manner as the lower threshold value Th_L.
  • the threshold determination unit 44 supplies the determined lower limit threshold Th_L and upper limit threshold Th_H to the mask image generation unit 45 as mask thresholds.
  • the mask image generation unit 45 detects a mask region and a non-mask region from the first captured image from the camera 22 based on the mask threshold values (lower threshold value Th_L and upper threshold value Th_H) from the threshold value determination unit 44, A mask image in which the detected mask area and non-mask area are binarized to different values is generated.
  • the mask image generation unit 45 is present at a position close to the light emitting device 23, and therefore, as a region corresponding to a user part (in this case, a hand) whose luminance value is large, a lower threshold value Th_L or more.
  • a mask region constituted by pixels having a luminance value equal to or lower than the upper threshold value Th_H is detected.
  • the mask image generation unit 45 is located at a position far from the light emitting device 23, and therefore the lower threshold value Th_L is set as an area corresponding to a user part (in this case, a face) whose luminance value is small. A non-mask area composed of pixels having a luminance value not included in the range equal to or higher than the upper threshold value Th_H is detected.
  • the mask image generation unit 45 generates a mask image in which the detected mask area and non-mask area are binarized to different values.
  • FIG. 8 shows an example of a mask image.
  • a mask area 121 shown in black indicates an area in the corresponding first captured image whose luminance value is not less than the lower threshold Th_L and not more than the upper threshold Th_H. Yes.
  • the non-mask area shown in white is an area in the corresponding first captured image that is less than the lower threshold Th_L or greater than the upper threshold Th_H. Is shown.
  • the mask image generation unit 45 masks the pixel having the luminance value when the luminance value of the pixel constituting the first captured image from the camera 22 is equal to or higher than the lower limit threshold Th_L and equal to or lower than the upper limit threshold Th_H.
  • the pixel is detected as a pixel included in the region, and the luminance value is converted to a pixel value of 1.
  • the mask image generation unit 45 A pixel having a luminance value is detected as a pixel included in the non-mask area, and the luminance value is converted to a pixel value of zero.
  • the pixel value after conversion is a value different from the luminance value, and represents a value that is either 0 or 1.
  • the mask image generation unit 45 is configured by a mask region 121 (shown in black) configured by pixels having a value of 1 and a non-mask region (shown in white) configured by pixels having a value of 0.
  • a mask image is generated and supplied to the shape extraction unit 46.
  • the threshold value determination unit 44 determines the lower limit threshold value Th_L and the upper limit threshold value Th_H. However, for example, one of the lower limit threshold value Th_L and the upper limit threshold value Th_H may be determined as the mask threshold value.
  • the maximum luminance value of the pixels constituting the first captured image supplied from the camera 22 to the mask image generation unit 45 is a luminance value corresponding to human skin (for example, the luminance value 110 in FIG. 7).
  • the threshold value determination unit 44 may determine only the lower limit threshold value Th_L (for example, the luminance value 55) as the mask threshold value.
  • the mask image generation unit 45 when the luminance value of the pixel constituting the first captured image from the camera 22 is equal to or higher than the lower limit threshold Th_L, the mask image generation unit 45 includes the pixel having the luminance value in the mask area. And the luminance value is converted into a pixel value of 1. Further, when the luminance value of the pixel constituting the first captured image from the camera 22 is less than the lower limit threshold Th_L, the mask image generation unit 45 includes the pixel having the luminance value in the non-mask area. And the luminance value is converted to a pixel value of 0.
  • the threshold value determination unit 44 determines only the upper limit threshold value Th_H as the mask threshold value, for example, the shape of the face 61 may be extracted instead of the shape of the hand 62. At this time, for example, the threshold value determination unit 44 determines the luminance value 55 shown in FIG. 7 as the upper limit threshold value Th_H as the mask threshold value.
  • the shape extraction unit 46 changes the face region 101 and the hand region 102 in the binarized skin image from the binarization unit 42 to the mask region 121 in the mask image.
  • the corresponding region for example, a shape region representing the shape of the user's hand is extracted.
  • the shape extraction unit 46 is located closer to the light emitting device 23 on the basis of the mask region 121 and the non-mask region that form the mask image from the mask image generation unit 45, and thus the luminance value increases.
  • the user's part in this case, the hand 62
  • the part of the user corresponding to the mask area 121 and the part of the user whose luminance value is small present now
  • the difference in the relative distance from the light emitting device 23 to the face 61) (the part of the user corresponding to the non-mask area) is distinguished.
  • the shape extraction unit 46 is located at a position close to the light emitting device 23 due to the difference in relative distance from the distinguished light emitting device 23, for example.
  • the shape region (in this case, the region representing the shape of the hand) is extracted by distinguishing the hand 62).
  • FIG. 9 shows a display example of an extracted image including a shape region extracted by the shape extraction unit 46.
  • the shape region 141 represents the shape of the user's hand.
  • the shape extraction unit 46 multiplies the value of the pixel constituting the mask image from the mask image generation unit 45 and the value of the pixel constituting the binarized skin image from the corresponding binarization unit 42, respectively. .
  • the shape extraction unit 46 determines that the multiplication result is not 0 in the binarized skin image, that is, the face region 101 and the hand region 102 (FIG. 5) in the binarized skin image. A portion overlapping the mask region 121 (FIG. 8) is extracted as the shape region 141.
  • the shape extraction unit 46 recognizes the shape of the user's hand based on the extracted shape region 141, and performs processing according to the recognition result.
  • the mask region 121 in the mask image shown in FIG. 8 includes a shirt worn by the user in addition to the user's hand.
  • the shape extraction unit 46 does not extract an area representing the shape of the shirt, The shape region 141 representing only the hand shape can be accurately extracted.
  • FIG. 10 is a flowchart for explaining the shape extraction process. This shape extraction process is repeatedly executed from when the information processing system 1 is powered on.
  • step S1 the control unit 41 controls the LED 23a of the light emitting device 23 to start light emission of the first wavelength. In addition, when the LED 23b emits light, the control unit 41 stops light emission of the LED 23b and starts light emission of the LED 23a.
  • step S ⁇ b> 2 the camera 22 captures an image of a user irradiated with light having the first wavelength, and supplies a first captured image obtained as a result to the information processing apparatus 21.
  • step S3 the control unit 41 controls the LED 23a of the light emitting device 23, stops the light emission of the first wavelength light, controls the LED 23b of the light emitting device 23, and starts the light emission of the second wavelength. .
  • step S ⁇ b> 4 the camera 22 captures an image of a user irradiated with light of the second wavelength, and supplies a second captured image obtained as a result to the information processing apparatus 21.
  • step S5 the binarizing unit 42, as shown in FIG. 5, based on the difference between the luminance values of the corresponding pixels of the first captured image and the second captured image supplied from the camera 22.
  • a binarized skin image is generated and supplied to the skin extraction unit 43 and the shape extraction unit 46.
  • step S ⁇ b> 6 the skin extraction unit 43 corresponds to the skin region in the binarized skin image from the first captured image from the camera 22 based on the binarized skin image supplied from the binarization unit 42. To be extracted (region where the user's skin part is displayed).
  • the skin extraction unit 43 generates a skin image including the extracted region and supplies the skin image to the threshold value determination unit 44.
  • step S7 the threshold value determination unit 44 creates a skin image histogram as shown in FIG. 7 based on the luminance values of the pixels constituting the skin image from the skin extraction unit 43.
  • step S8 the threshold determination unit 44 determines the luminance value when the number of pixels is minimum based on the created skin image histogram as the lower limit threshold Th_L, and determines the maximum luminance value as the upper limit threshold Th_H. .
  • the threshold value determination unit 44 supplies the determined lower threshold value Th_L and upper limit threshold value Th_H to the mask image generation unit 45 as mask threshold values.
  • step S9 the mask image generation unit 45 binarizes the first captured image from the camera 22 based on the mask thresholds (the lower limit threshold Th_L and the upper limit threshold Th_H) from the threshold determination unit 44, and FIG. A mask image as shown is generated and supplied to the shape extraction unit 46.
  • step S10 the shape extraction unit 46, based on the mask image from the mask image generation unit 45, as a region corresponding to the mask region in the mask image from the binarized skin image from the binarization unit 42, for example, An extraction area representing the shape of the user's hand is extracted.
  • the shape extraction unit 46 recognizes the shape of the hand from the extracted extraction region, performs processing according to the recognition result, and outputs the processing result to the subsequent stage.
  • a mask image is generated from the first captured image captured by one camera 22 based on the mask threshold, and binarized skin is generated based on the generated mask image.
  • the shape of the user's hand was extracted from the image.
  • a distance image representing the distance between the camera and the user's hand or the like is generated, and the distance image is used as a mask image to generate a user's hand.
  • the amount of calculation required to generate the mask image can be reduced, and the shape of the user's hand and the like can be extracted with a smaller number of parts.
  • the skin part of the face is not included as the skin part, and only the skin part of the hand is included.
  • a mask image including the mask area 121 included and the non-mask area is generated.
  • the mask region 121 includes the skin portion as the skin portion. Since only the skin portion of the hand is included without including the skin portion of the face, only the hand region 102 can be extracted from the binarized skin image.
  • the light emitted from the LED 23a and the LED 23b is dazzling, so that the user does not feel unpleasant.
  • a diffusion plate 23c is provided in front of the LED 23a and the LED 23b.
  • the invisible light emitted by the LEDs 23a and 23b is uniformly diffused, the subject is irradiated with uniform light without unevenness due to the amount of light.
  • the reflected light of the invisible light irradiated to the subject is received by the camera 22 as uniform light without unevenness due to the amount of light, so that the camera 22 displays the first and second captured images without unevenness due to the amount of light. Obtainable.
  • the information processing system 1 uses the first and second captured images without unevenness due to the light amount in order to extract the hand shape and the like, for example, the first and second captured images with unevenness due to the light amount. Compared with the case of using, the shape of the hand and the like can be extracted more accurately.
  • the information processing system 1 for example, in about 80 [ms] from the start of the shape extraction process so that the user can recognize the changed hand shape every time the user changes the hand shape. It is desirable to configure so that the shape of the hand can be extracted.
  • the hand shape is desirable to configure to be extracted within 80 [ms] from the start of the shape extraction process. This is because it is known from experiments and the like conducted in advance that the user hardly feels stress when the processing time for extracting the hand shape is within 80 [ms].
  • the difference L1-L2 is calculated and normalized, and the shape of the hand is extracted by a very simple process of comparing with the threshold value. Even when using an inexpensive and low-speed CPU (Central Processing Unit), processing time within 80 [ms] can be easily realized.
  • CPU Central Processing Unit
  • the processing time within 80 [ms] can be easily realized, so that the manufacturing cost can be suppressed and the user can be stressed. It is possible to quickly perform a process of extracting the shape of the hand without causing the user to feel.
  • the shape of the hand 62 can be accurately extracted even when, for example, the face 61 and the hand 62 overlap as a skin region.
  • the user wears a short-sleeved shirt or the like, it is also conceivable that the user's face 61 and the hand 62 as well as the arm or the like overlap.
  • the skin extraction unit 43 extracts a skin image on which the arm 63 is displayed in addition to the face 61 and the hand 62 as shown in FIG. A histogram as shown in FIG.
  • FIG. 12 shows an example of a histogram generated based on the skin image as shown in FIG.
  • the distance from the light emitting device 23 to the hand 62 is the first closest (shorter), and the distance from the light emitting device 23 to the arm 63 is the same.
  • the distance is the second closest, and the distance from the light emitting device 23 to the face 61 is the third closest.
  • the histogram of the skin image shown in FIG. 11 is a pixel corresponding to the face 61 of the user from the brightness value 0 to the brightness value 75 as shown in the uppermost part of FIG. 12 (indicated by the solid line).
  • the pixels from the luminance value 76 to the luminance value 150 are pixels corresponding to the user's arm 63, and the pixels having the luminance value 151 to the luminance value 250 are pixels corresponding to the user's hand 62.
  • the histogram at the luminance values 76 to 150 corresponding to the arm 63 is flat. Therefore, unlike the histogram shown in FIG. 7, there is no clear minimum value (the luminance value 55 in FIG. 7) that distinguishes the face 61 from the hand 62. For this reason, the lower limit threshold Th_L cannot be determined in the same manner as described with reference to FIG.
  • the threshold value determination unit 44 determines the shape of the histogram based on the histogram to be generated, and refers to a different method (for example, the method described in FIG. 7 or FIG. 12 according to the determined shape of the histogram.
  • the lower limit threshold Th_L and the like are determined by the method described below.
  • the threshold value determination unit 44 determines, for example, the lower limit threshold value Th_L based on the histogram shown in FIG. 12 will be described.
  • a luminance value representing a boundary between the luminance value corresponding to the face 61 and the luminance value corresponding to the arm 63 (in this case, a luminance value near the value 75)
  • the luminance value representing the boundary between the luminance value corresponding to the arm 63 and the luminance value corresponding to the hand 62 (in this case, the luminance value near the value 150) is an inflection point of the function g (x), that is, the first order. It is known that the derivative g ′ (x) is x when the maximum value or the minimum value is reached.
  • the threshold value determination unit 44 differentiates the generated function g (x) once to generate a first derivative g ′ (x).
  • X x0 is calculated.
  • the closest value (for example, x0 when x2 ⁇ x0 is the smallest) (in this case, the luminance value 150) is determined as the lower limit threshold Th_L.
  • the threshold value determination unit 44 determines, for example, the upper limit threshold value Th_H as the maximum value of luminance values in the histogram shown in FIG. 12 (in this case, the luminance value 250).
  • the lower limit threshold Th_L and the upper limit threshold Th_H determined in this way are used to generate a mask image used when extracting the shape of the hand 62.
  • the closest value (for example, x0 when x0-x1 is the smallest) (in this case, the luminance value 75) is determined as the lower limit threshold Th_L, and the upper limit threshold Th_H is determined as the luminance value in the histogram shown in FIG.
  • the maximum value (in this case, the luminance value 250) may be determined.
  • the lower threshold value Th_L and the upper threshold value Th_H determined in this way are used to generate a mask image used when extracting the shape formed by the hand 62 and the arm 63.
  • the threshold determination unit 44 sets the lower limit threshold Th_L to the luminance value 75.
  • the upper threshold value Th_H is determined as the luminance value 150, respectively.
  • the lower limit threshold Th_L and the upper limit threshold Th_H are determined as described with reference to FIGS. 11 and 12, for example, even if a part of each of the face 61, the hand 62, and the arm 63 overlaps, For example, the shape and the like of the hand 62 can be accurately extracted.
  • the threshold value determination unit 44 differentiates the first derivative g ′ (x) to obtain 2
  • the shape extraction unit 46 corresponds to the shape region extracted from the skin image from the skin extraction unit 43.
  • the corresponding region is detected, and the luminance value distribution of the pixels constituting the detected corresponding region is represented by, for example, the light emitting device 23 among the ones displayed in the corresponding region based on the histogram of the corresponding region. Only regions corresponding to those present at close positions can be extracted.
  • the shape extraction unit 46 extracts only the region corresponding to the fingertip of the index finger from the region of the hand 62. be able to.
  • the fingertip of the index finger of the hand 62 exists at a position closest to the light emitting device 23.
  • FIG. 14 shows an example of the histogram of the corresponding region.
  • the histogram shown in the uppermost part of FIG. 14 shows a histogram for only the luminance values of the pixels constituting the corresponding area where the hand 62 is displayed, for example.
  • the histogram shown in the uppermost part of FIG. 14 shows a histogram for only the luminance values of the pixels constituting the corresponding area where the hand 62 is displayed, for example.
  • the histogram shown in the uppermost part of FIG. 14 shows a histogram for only the luminance values of the pixels constituting the corresponding area where the hand 62 is displayed, for example.
  • FIG. 14 shows a histogram for only the luminance values of the pixels constituting the corresponding area where the hand 62 is displayed, for example.
  • the skin extracting unit 43 For example, based on the binarized skin image from the binarizing unit 42 and the first captured image from the camera 22, the skin extracting unit 43 generates a skin image as shown in FIG.
  • the data is supplied to the shape extraction unit 46.
  • the shape extraction unit 46 detects the corresponding region corresponding to the extracted shape region from the skin image from the skin extraction unit 43, and based on the luminance value of the pixels constituting the detected corresponding region, the shape extraction unit 46 is shown in FIG. A histogram is generated.
  • the shape extraction unit 46 uses the range where the luminance value is high among the luminance values constituting the generated histogram as a tip region representing the fingertip of the index finger from the skin image (corresponding region) from the skin extraction unit 43. Can be extracted.
  • the distance between the light emitting device 23 and the fingertip of the index finger is the closest among the various parts of the user's skin. For this reason, in the histogram shown in FIG. 14, the luminance value corresponding to the fingertip of the index finger is the highest.
  • the area of the fingertip portion of the index finger is relatively small. Accordingly, the corresponding portion in the histogram of FIG. 14 is flat without having an extreme value, like the portion corresponding to the arm 63 of FIG.
  • n [%] is determined in accordance with the part to be extracted or the like by an experiment or the like performed in advance.
  • the shape extraction unit 46 performs a corresponding process according to the extracted tip region (the shape and the like).
  • the ratio d2 / d1 between the relative distance d1 from the light emitting device 23 to the fingertip of the user's index finger and the relative distance d2 from the light emitting device 23 to the base of the user's index finger is, for example, the light emitting device 23. And the distance from the user's hand increases.
  • the number of pixels at the fingertip portion of the index finger is small, but the luminance value of the pixel is the luminance value of the pixel at the base portion of the index finger. Since a histogram that is sufficiently large (for example, a luminance value that falls within the upper n [%]) is obtained, the fingertip portion of the user's index finger can be extracted relatively accurately.
  • the shape extraction unit 46 detects the corresponding region corresponding to the extracted shape region from the skin image from the skin extraction unit 43, but the target of the image for detecting the corresponding region is It is not limited to this.
  • the shape extraction unit 46 may be supplied with the first captured image from the camera 22, and the corresponding region may be detected for the first captured image.
  • the second captured image may be targeted.
  • the shape extraction unit 46 may target any image as long as it is a display image in which the same subject as that displayed on the first or second captured image is displayed at the same position. .
  • the skin extraction unit 43 supplies the extracted skin image to the shape extraction unit 46, but the shape extraction unit 46 supplies the extracted shape region to the skin extraction unit 43.
  • the skin extraction unit 43 detects the corresponding region corresponding to the shape region from the shape extraction unit 46 from the extracted skin image, and among the ones displayed in the corresponding region, the light emitting device 23 Only the region corresponding to the one existing at the closest position may be extracted.
  • the histogram generated based on the skin image from the skin extraction unit 43 shows clearly the luminance value corresponding to the fingertip of the index finger as shown in FIG. 14 (for example, As shown in FIG. 14, when the brightness value of the histogram corresponding to the fingertip of the index finger is flat), the area corresponding to the brightness value of the upper n [%] is used as the mask area.
  • a mask threshold can be determined.
  • the threshold determination unit 44 includes the upper n [%].
  • the minimum brightness value is determined as the lower limit threshold Th_L
  • the maximum value among the plurality of brightness values constituting the histogram is determined as the upper limit threshold Th_H.
  • the shape extraction unit 46 the shape of the fingertip portion of the index finger existing closest to the light emitting device 23 in the user's skin region is extracted from the binarized skin image from the binarization unit 42. It becomes.
  • the information processing system 1 uses, for example, the fact that the brightness value of the user's skin area increases as the distance from the light emitting device 23 increases, and the brightness value decreases as the distance from the light emitting device 23 increases.
  • the corresponding processing can be performed by recognizing the movement in the direction of the light emitting device.
  • the so-called mouse click operation or determination operation is performed in conjunction with the movement of the user's hand in the front-rear direction, that is, the direction of the light emitting device 23 (z direction).
  • the hand is moved in the z direction, it also moves in the xy direction, causing a problem that a desired content cannot be selected.
  • the following method can solve the problem.
  • the shape extraction unit 46 corresponds to a corresponding region (for example, a hand is displayed) corresponding to a shape region (for example, a region representing the shape of a hand) extracted from the first captured image obtained by the image capturing by the camera 22. Area) is extracted. Then, the shape extraction unit 46 detects the position of the hand based on the luminance values of the pixels constituting the extracted corresponding area.
  • the shape extraction unit 46 can employ the second captured image in addition to the first captured image as a target for extracting the corresponding region. That is, the shape extraction unit 46 displays a display image (including the first and second captured images) in which the same subject as the subject displayed on the first or second captured image is displayed at the same position. As a target, a corresponding area can be extracted.
  • step S21 the control unit 41 to the shape extraction unit 46, the camera 22, and the light emitting device 23 of the information processing device 21 perform the shape extraction process described with reference to FIG. As a result, the shape extraction unit 46 extracts a shape region from the binarized skin image from the binarization unit 42 based on the mask image from the mask image generation unit 45.
  • step S ⁇ b> 22 the shape extraction unit 46 detects coordinates (x, y) t based on the extracted shape region. Specifically, for example, the shape extraction unit 46 calculates the center of gravity (x, y) of the extracted shape region as coordinates (x, y) t .
  • step S23 the shape extraction unit 46 detects a corresponding region (for example, a region where a hand is displayed) corresponding to the extracted shape region among all the regions on the first captured image from the camera 22.
  • the shape extraction unit 46 is assumed to be supplied with the first captured image from the camera 22.
  • the shape extraction unit 46 calculates the average value (average luminance value) Y t of the luminance values of the pixels constituting the corresponding area based on the detected luminance values of the pixels constituting the corresponding area.
  • step S24 the shape extraction unit 46 stores the calculated coordinates (x, y) t and the average luminance value Y t in the built-in memory in association with the calculated t-th order.
  • step S25 the shape extraction unit 46 reads out the average luminance value Y t-1 stored in the previous step S24 among the average luminance values Y 1 to Y t-1 stored in the built-in memory.
  • the shape extraction unit 46 skips step S25 and proceeds to step S26.
  • step S25 the shape extraction unit 46, the magnitude of the calculated average luminance value Y t, i.e., for example, from the calculated average luminance value Y t, minus the average luminance value Y t-1 read out by the internal memory to obtain Whether or not the relative distance from the light emitting device 23 to the subject has largely changed is determined based on whether or not the absolute value of the difference Y t ⁇ Y t ⁇ 1 is less than a predetermined threshold value.
  • the shape extraction unit 46 changes or increases the relative distance from the light emitting device 23 to the subject based on whether or not the difference Y t ⁇ Y t ⁇ 1 is positive. It can also be determined whether or not it has changed.
  • step S25 when the shape extraction unit 46 determines that the relative distance from the light emitting device 23 to the subject has not changed significantly, the process proceeds to step S26.
  • step S26 the shape extraction unit 46 controls display on a display device (not shown) based on the calculated coordinates (x, y) t . Specifically, for example, the shape extraction unit 46 moves the pointer displayed on the screen of the display device to a position corresponding to the calculated coordinates (x, y) t .
  • step S26 After the process of step S26 is completed, the process returns to step S21, and thereafter the same process is performed.
  • step S25 If the shape extraction unit 46 determines in step S25 that the relative distance from the light emitting device 23 to the subject has changed significantly, the process proceeds to step S27.
  • step S27 the shape extraction unit 46 displays the coordinates (x, y) tk stored in the built-in memory, for example, on the screen of the display device (not shown) corresponding to the coordinates (x, y) t-5. Assuming that a so-called click operation has been performed at the position, processing based on the click operation is performed, the processing returns to step S21, and thereafter the same processing is performed.
  • the shape extraction unit 46 based on the average luminance value Y t, and from the light emitting device 23 so as to determine whether the relative distance to the object has changed significantly Therefore, it is possible to recognize a gesture such as a click operation by the user.
  • step S27 the shape extraction unit 46 displays a screen of a display device (not shown) corresponding to, for example, coordinates (x, y) t-5.
  • the processing based on the click operation is performed assuming that the click operation has been performed at the upper position.
  • the above-described processing may be performed by adopting a region representing a shape formed by the hand and the arm in addition to the region representing the shape of the hand as the shape region.
  • the shape extraction unit 46 extracts only the fingertip (tip) portion of the index finger from the hand shape extracted as the shape region as described with reference to FIGS. 13 and 14. Based on the average luminance value Y t of the luminance values of the pixels constituting the area where the extracted fingertip portion is displayed, it is determined whether or not the relative distance between the light emitting device 23 and the fingertip portion has changed significantly. You may do it.
  • the average luminance value Y t is used in the coordinate detection processing, how is the region corresponding to the shape region (for example, the region where the hand 62 is displayed) extracted by the shape extraction unit 46? Even if it changes, the average luminance value Y t can always be calculated.
  • step S23 the shape extraction unit 46, based on the luminance values of the pixels constituting the extracted corresponding region has been to calculate the average luminance value Y t of the luminance values of the pixels constituting the corresponding region.
  • the maximum value, the minimum value, the variance value, or the like of the luminance values of the pixels constituting the corresponding area may be used instead of the average luminance value Yt .
  • the shape extraction unit 46 determines the relative distance from the light emitting device 23 to the subject based on whether or not the absolute value of the difference Y t ⁇ Y t ⁇ 1 is less than a predetermined threshold.
  • a predetermined threshold for example, an average luminance value Y s obtained at a predetermined distance from the light emitting device 23 is prepared in advance, and the calculated average luminance value Y t and The relative distance from the light emitting device 23 is determined by comparing the average brightness value Y s prepared in advance with a position at a predetermined distance from the light emitting device 23 as a reference position, and depending on how far from the reference position. It is also possible to detect a change in.
  • the mask threshold value determined in the previous step S6 to step S8 may be used as it is.
  • steps S6 to S8 can be omitted, it is possible to quickly extract the shape of the hand by the shape extraction processing.
  • the process in steps S6 to S8 is performed in the shape extraction process. Processing can be omitted.
  • determining the mask threshold in advance for example, determining the mask threshold based on the average value of the luminance values of the pixels constituting a part of the user's hand region Is possible.
  • the threshold value determination unit 44 determines a mask threshold value based on the average value of the luminance values of the pixels constituting the user's hand region, and an FFT (fast fourier transform) threshold value. The determination process will be described.
  • FIG. 16 shows an example of a first captured image obtained by capturing an image of a user irradiated with light of 870 [nm].
  • the threshold determination unit 44 When performing the FFT threshold determination process, the threshold determination unit 44 is supplied with a plurality of first captured images obtained by imaging the user waving with the camera 22 from the camera 22.
  • the threshold value determination unit 44 performs FFT processing on the plurality of first captured images, and detects a part of the hand region in the first captured image that is moving at a constant frequency.
  • the threshold value determination unit 44 calculates the average value ave_L of the luminance values of the pixels constituting the rectangular area 161 that is a part of the detected hand area.
  • the threshold determination unit 44 determines a value ave_L-a obtained by subtracting the adjustment value a from the average value ave_L as the lower limit threshold Th_L, and a value ave_L + b obtained by adding the adjustment value b from the average value ave_L. Is determined as the upper threshold value Th_H.
  • the adjustment values a and b are values used to adjust the average value ave_L to determine the lower threshold value Th_L and the upper threshold value Th_H.
  • the adjustment values a and b depend on the intensity of light emitted from the LEDs 23a and 23b (the amount of light), the distance from the camera 22 to the user, and the sensitivity of the light from the CCD (charge coupled device image sensor) used in the camera 22. In practice, it is often calculated experimentally.
  • FIG. 17 is a flowchart for explaining the FFT threshold value determination process. This FFT threshold value determination process is started, for example, when the information processing system is turned on and before the shape extraction process is performed.
  • step S31 the control unit 41 controls the LED 23a of the light emitting device 23 to start light emission of the first wavelength.
  • step S32 the control unit 41 controls a display (not shown), a speaker, and the like provided in the information processing apparatus 21, and instructs the user to start an operation of waving.
  • step S ⁇ b> 33 the camera 22 captures an image of a user who is performing a waving operation, and supplies a plurality of first captured images obtained as a result to the threshold value determination unit 44 of the information processing apparatus 21.
  • step S34 the threshold value determination unit 44 performs FFT processing on the plurality of first captured images, and detects a hand region in the first captured image that is moving at a constant frequency.
  • step S35 the threshold value determination unit 44 calculates the average value ave_L of the luminance values of the pixels constituting the rectangular area 161 which is a part of the detected hand area.
  • Step S36 the threshold value determination unit 44 determines a value ave_L-a obtained by subtracting the adjustment value a from the average value ave_L as the lower limit threshold Th_L, and a value ave_L + obtained by adding the adjustment value b to the average value ave_L b is determined as the upper threshold value Th_H.
  • the FFT processing is performed on the plurality of first captured images to detect the hand area in the first captured image, and the luminance value constituting the pixels in the hand area.
  • the mask threshold values lower threshold value Th_L and upper threshold value Th_H are determined based on the average value, the present invention is not limited to this.
  • the hand threshold value may be detected, and the mask threshold value may be determined based on the average value of the luminance values constituting the pixels in the hand region.
  • the binarization unit 42 extracts a user's skin region and a region other than the user's skin region from the first captured image, and includes the extracted skin region and a region other than the skin region.
  • the binarized skin image is supplied to the skin extraction unit 43 and the shape extraction unit 46, the invention is not limited to this.
  • the binarization unit 42 extracts the user's skin area from the first captured image, and converts the binarized skin image including at least the extracted skin area into the skin extraction unit 43 and the shape extraction unit 46. You may make it supply to.
  • the skin extraction unit 43 extracts a region corresponding to the skin region included in the binarized skin image from the binarization unit 42 from the first captured image from the camera 22. Further, the shape extraction unit 46 extracts a shape region from the skin region included in the binarized skin image from the binarization unit 42.
  • the mask image generation unit 45 detects a mask area and a non-mask area, for example, from the first captured image, and generates a mask image composed of the detected mask area and non-mask area.
  • a mask area and a non-mask area for example, from the first captured image
  • generates a mask image composed of the detected mask area and non-mask area it is not limited to this.
  • the mask image generation unit 45 detects only a mask region as an extraction region for extracting a shape region from a binarized skin image, and generates a mask image including at least the detected mask region. It may be.
  • the shape extraction unit 46 extracts a region corresponding to the mask region in the mask image among the skin regions in the binarized skin image from the binarization unit 42 as the shape region.
  • the mask image generation unit 45 may detect only a non-mask area as an extraction area and generate a mask image including at least the detected non-mask area.
  • the shape extraction unit 46 the region corresponding to the region other than the non-mask region in the mask image among the skin regions in the binarized skin image from the binarization unit 42 is extracted as the shape region. .
  • the applicant used a video camera manufactured by Sony Corporation as the camera 22.
  • the camera 22 has a model number of XC-EI50 and uses a 1 / 2IT CCD as an image sensor.
  • the effective number of pixels is 768 x 494 pixels in the horizontal and vertical directions
  • the C mount is used as the lens mount
  • the scanning method is a method of scanning 525 lines by interlace.
  • the sensitivity is F11 (400 [lx]), and the minimum subject depth is 0.1 [lx].
  • the S / N (signal to noise) ratio of the captured image obtained by the imaging of the camera 22 is 60 [dB].
  • the shutter speed by a shutter button (normal shutter) provided in advance in the camera 22 is 1/100 to 1/10000 [sec], and a release switch (external trigger) connected to the outside of the camera 22.
  • the shutter speed by the shutter is 1/4 to 1/10000 [sec].
  • the outer dimensions of the camera 22 are 29 ⁇ 29 ⁇ 32 [mm] in width ⁇ height ⁇ depth, and the weight of the camera 22 is about 50 [g]. Furthermore, the vibration resistance of the camera 22 is 70 [G].
  • the camera 22 has a sensitivity within a band range from a visible light region of 400 [nm] to a near-infrared region of 1000 [nm].
  • FIG. 18 shows an example of the relative sensitivity characteristic of the camera 22.
  • the horizontal axis indicates the wavelength incident on the lens of the camera 22, and the vertical axis indicates the relative sensitivity corresponding to the wavelength.
  • the present applicant used a light emitting device 23 in which eight LEDs 23 a and eight LEDs 23 b are arranged in a grid pattern.
  • the LED 23a actually used by the present applicant was a light emitting light of 870 [nm], and the LED 23b was a light emitting light of 950 [nm].
  • LED 23a and LED 23b those having a DC forward current (absolute maximum rating) of 100 [mA] and a forward voltage of 1.6 [V] were used.
  • the present applicant actually performs shape extraction processing and FFT threshold determination processing using the camera 22 having the above-described performance and the LED 23a and LED 23b arranged as shown in FIG. I was able to confirm.
  • the mask image generation unit 45 generates a mask image from the first captured image from the camera 22 based on the mask threshold value from the threshold value determination unit 44.
  • the method is not limited to this.
  • the mask image generation unit 45 performs a stereo process for generating a distance image representing a distance from the camera to the user based on captured images obtained by a plurality of cameras that capture different directions, and obtains the result. It is possible to employ the obtained distance image as a mask image.
  • the shape extraction unit 46 includes a region representing the distance from the camera to the hand in the distance image supplied from the mask image generation unit 45 and a binarized skin image supplied from the binarization unit 42. A portion where the face region 101 and the hand region 102 overlap is extracted as a shape region 141 representing the shape of the user's hand.
  • a laser that calculates a distance to a user based on a time from when an infrared ray or the like is irradiated until it is reflected back to the user A range image of the user can be generated using a range finder or the like.
  • the first wavelength emitted by the LED 23a is 870 [nm] and the second wavelength emitted by the LED 23b is 950 [nm], but the combination of wavelengths is not limited to this. .
  • the absolute difference between the reflectance at the first wavelength and the reflectance at the second wavelength is compared with the absolute difference between the reflectances obtained for things other than the user's skin.
  • Any combination may be used as long as the combination is sufficiently large.
  • the combination of 800 [nm] and 950 [nm] in addition to the combination of 870 [nm] and 950 [nm], the combination of 800 [nm] and 950 [nm], 870 [nm] and 1000 [nm] nm], 800 [nm] and 1000 [nm], and the like are possible.
  • the combination of the first wavelength ⁇ 1 and the second wavelength ⁇ 2 is preferably a combination that satisfies the following relational expression, for example. ⁇ 1 ⁇ 2 630 [nm] ⁇ ⁇ 1 ⁇ 1000 [nm] 900 [nm] ⁇ ⁇ 2 ⁇ 1100 [nm]
  • a filter that allows only visible light emitted from the LED 23a to pass through and enter the lens of the camera 22 is used instead of the visible light cut filter 22a. It is done. The same can be said for the LED 23b.
  • the LED 23a and the LED 23b are caused to emit light individually, but the first captured image and the second captured image can be obtained by causing the LED 23a and the LED 23b to emit light simultaneously. Can be configured to obtain
  • two cameras having the same function as the camera 22 are provided close to each other, and the first of the two cameras has a first A filter that passes only light of a wavelength is provided, and a filter that passes only light of a second wavelength is provided on the front surface of the other camera.
  • the LED 23a and the LED 23b are caused to emit light at the same time, only one light of the first wavelength is incident on one camera, so that the first captured image can be obtained with one camera. Become.
  • the second camera can obtain a second captured image.
  • the number of LEDs 23a and the number of LEDs 23b have been described as two, but the number is not limited to this.
  • the number of LEDs 23a and the number of LEDs 23b are determined as appropriate so that light of power (intensity) necessary for skin detection can be uniformly irradiated to a subject such as a user.
  • the hand in order to cause the information processing apparatus 21 to execute a predetermined process, the hand (shape) is changed as an object representing a part of the user's body. For example, it is possible to employ a user's foot or the like.
  • the upper threshold value Th_H and the lower threshold value Th_L are determined based on the luminance value of the pixel, or a so-called click operation is detected.
  • RGB of the pixel Any one of R value, G value, and B value among (Red, Green, Blue) values may be used.
  • any value may be used instead of the luminance value as long as the value is proportional to the luminance value.
  • the present invention in addition to the information processing system 1, the present invention, as shown in FIG. 20, includes a camera unit 261 having the same function as the camera 22, an LED unit 262 having the same function as the LED 23a, and an LED having the same function as the LED 23b.
  • the present invention can be applied to a mobile device 241 (for example, a digital camera, a mobile phone, or the like) that includes the unit 263 and a display unit 264 that displays an image for determining a composition (so-called through image).
  • a posture or a gesture is performed in a state where the relative distance between the LED units 263 and 264 and the user's hand 62 is relatively short.
  • the change in the luminance value due to the distance becomes larger, so the mobile device 241 is used.
  • the fingertip portion of the user's index finger can be extracted relatively accurately.
  • the mobile device can be operated by the movement of the finger in the vicinity of the display unit. It won't get dirty.
  • the fingertip portion of the index finger is extracted.
  • both can be extracted at the same time and used for the operation.
  • the display unit is not hidden by the user's hand or finger, and operation becomes easy.
  • the display unit is small in a mobile device, when selecting one from a plurality of contents displayed on the display unit, if the finger is on the display unit, the desired content is hidden by the finger.
  • the display unit and the operated finger do not overlap each other when viewed from the user, so that the operability can be improved.
  • Such mobile devices often have a built-in normal camera.
  • a camera for skin detection may be provided separately from this camera, and the camera is shared with a normal camera so that the visible light cut filter is moved to an effective position only in the mode for skin detection. Also good.
  • the camera unit 261 of the mobile device 241 ′ captures the skin of a person 301 other than the user 281 in addition to the hand 62 of the user 281, but by using the above-described method, The hand 62 can be accurately extracted by distinguishing the skin portion of the person 301 from the hand 62 of the user 281.
  • the present invention can be applied to a television receiver 321 in which a recognition processing unit 341 having a function similar to that of the information processing system 1 is built above the display 321a. .
  • the user 281 changes the shape of the hand 62 or moves the hand 62 or the like in front of the display 321a of the television receiver 321 to move the channel or volume of the television receiver 321.
  • the television receiver 321 can execute a process of changing the above.
  • the hand 62 can also be operated using a mouse of a personal computer. That is, from among a plurality of content options displayed on the screen of the television receiver, select a specific item by moving the hand up / down / left / right to move the mouse, and then click the mouse. Is moved back and forth (in the direction of the television receiver as viewed from the user), the determination operation can be performed. These operations are easy to understand intuitively.
  • the back-and-forth movement of the hand at the time of determination can be detected based on a change in the luminance value of the hand, which is a part of the user's skin. That is, the first image obtained by receiving the reflected light when the user is irradiated with the light of the first wavelength and the reflected light when the light of the second wavelength different from the first wavelength is irradiated. Based on the second image obtained by receiving light, a skin area such as the user's face or hand is extracted, and the user's hand is extracted from the extracted skin area based on the luminance value distribution of the pixels constituting the skin area. To do.
  • a change in the relative distance from the irradiation means (light emitting device 23) to the hand is detected based on a change in luminance of the user's hand region, and the detected change in the relative distance, that is, movement in the front-rear direction of the hand. Based on the above, the determination operation is executed. It goes without saying that these operations can also be applied when a personal computer has the same function.
  • the above-described series of processing can be executed by dedicated hardware or can be executed by software.
  • a program constituting the software can execute various functions by installing a so-called embedded computer or various programs. For example, it is installed from a recording medium in a general-purpose personal computer or the like.
  • FIG. 24 shows a configuration example of a personal computer that executes the above-described series of processing by a program.
  • the CPU 361 executes various processes according to a program stored in a ROM (Read Only Memory) 362 or a storage unit 368.
  • a RAM (Random Access Memory) 363 appropriately stores programs executed by the CPU 361, data, and the like.
  • the CPU 361, the ROM 362, and the RAM 363 are connected to each other by a bus 364.
  • the CPU 361 is also connected with an input / output interface 365 via the bus 364. Connected to the input / output interface 365 are an input unit 366 composed of a keyboard, a mouse, a microphone, and the like, and an output unit 367 composed of a display, a speaker, and the like.
  • the CPU 361 executes various processes in response to commands input from the input unit 366. Then, the CPU 361 outputs the processing result to the output unit 367.
  • the storage unit 368 connected to the input / output interface 365 is composed of, for example, a hard disk, and stores programs executed by the CPU 361 and various data.
  • the communication unit 369 communicates with an external device via a network such as the Internet or a local area network.
  • program may be acquired via the communication unit 369 and stored in the storage unit 368.
  • a drive 370 connected to the input / output interface 365 drives a removable medium 371 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and drives programs and data recorded therein. Etc. The acquired program and data are transferred to and stored in the storage unit 368 as necessary.
  • a recording medium for recording (storing) a program installed in a computer and ready to be executed by the computer is a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc- Removable media 371, which is a package media made up of read only memory, DVD (digital versatile disc), magneto-optical disk (including MD (mini-disc)), or semiconductor memory, or the program is temporarily or It is composed of a ROM 362 that is permanently stored, a hard disk that constitutes the storage unit 368, and the like.
  • the recording of the program on the recording medium is performed using a wired or wireless communication medium such as a local area network, the Internet, or digital satellite broadcasting via a communication unit 369 that is an interface such as a router or a modem as necessary. Is called.
  • a wired or wireless communication medium such as a local area network, the Internet, or digital satellite broadcasting
  • a communication unit 369 that is an interface such as a router or a modem as necessary. Is called.
  • steps describing the series of processes described above are not limited to the processes performed in time series in the described order, but are not necessarily processed in time series, either in parallel or individually.
  • the process to be executed is also included.
  • system represents the entire apparatus composed of a plurality of apparatuses.

Abstract

 本発明は、ユーザの手の移動を容易に検出することができる情報処理装置、情報処理方法、プログラム及び電子装置に関する。 発光装置23は、第1の波長の光、及び第2の波長の光をユーザに照射し、2値化部42は、ユーザに照射された第1の波長の光の反射光を受光して得られる第1の画像、及びユーザに照射された第2の波長の光の反射光を受光して得られる第2の画像を取得し、2値化部42乃至形状抽出部46は、第1及び第2の画像に基づいて、ユーザの肌が表示されている肌表示領域を含む表示画像上の肌表示領域から、オブジェクトが表示されているオブジェクト領域を抽出し、形状抽出部46は、オブジェクト領域を構成する画素の輝度値の変化に応じて、照射手段からオブジェクトまでの相対的な距離の変化を検出する。本発明は、例えばユーザを撮像した撮像画像から、ユーザの身体の部位の形状を抽出するコンピュータに適用できる。

Description

情報処理装置、情報処理方法、プログラム及び電子装置
 本発明は、情報処理装置、情報処理方法、プログラム及び電子装置に関し、特に、例えば、ユーザを撮像して得られる撮像画像から、ユーザの手の形状等を抽出する場合に好適な情報処理装置、情報処理方法、プログラム及び電子装置に関する。
 近年、パーソナルコンピュータ等に対してデータを入力する入力デバイスとして、マウス、ペンタブレット、及びタッチパッドの他、ユーザのジェスチャ(動作)やポスチャ(姿勢)によりデータを入力するデータ入力技術が研究されている。
 このデータ入力技術では、例えば、ユーザの手によるジェスチャやポスチャによりデータの入力を行うために、ユーザを撮像して得られる撮像画像から、ユーザの手の形状や動きを正確に抽出する必要がある。
 ユーザの手の形状を抽出するための抽出技術としては、画像のパターンマッチングを用いるパターンマッチング方法、ユーザの肌領域を抽出する肌領域抽出方法等が存在する。
 パターンマッチング方法では、例えば、様々な形状やサイズの手を撮像して得られる複数の形状画像を予め学習しておき、撮像画像と最も類似する形状画像(例えば、対応する画素の画素値どうしの差の総和が最小となる形状画像)に表示された手の形状を、ユーザの手の形状として抽出する。
 しかしながら、このパターンマッチング方法では、形状画像の撮像時とは異なる条件(例えば、撮像方向、照明の度合い、背景、及び撮像時の被写体の大きさ等)により、撮像画像が撮像された場合、ユーザの手の形状を正確に抽出することができないことが生じ得る。
 特に、手の形状を抽出する場合において、撮像画像内の手の形状と、形状画像内の手の形状とが大きく異なるときや、撮像画像内の手が顔等と重なった状態となっているとき等には、例えば顔の形状を抽出する場合等と比較して、正確に抽出することが困難である。
 また、リアルタイムに、手の形状を抽出することが求められる場合には、パターンマッチングに必要な計算量が膨大となってしまうため、支障をきたすことが多い。
 次に、肌領域抽出方法では、人間の肌の色を表す肌色情報を用いて、撮像画像内の、ユーザの肌を表す肌領域が抽出される。
 しかしながら、肌色情報を用いる肌領域抽出方法では、肌の色とそれに近い色との分離が難しい。また、人種によって肌の色は異なるため、すべての人種に対して肌領域を適切に抽出することができない。
 そこで、昨今、波長に対する肌の反射率変化が、人種に拘らず、同様であることを用いて、撮像画像内の肌領域を抽出する分光反射率特性を使った抽出技術が提案されている(例えば、非特許文献1を参照)。
鈴木康弘等著,電学論C(近赤外マルチバンドによる肌検出手法の提案),日本,2007年,127巻4号
 しかしながら、上述した従来の分光反射率特性を使った抽出技術では、例えば、撮像画像内に、肌領域として、被写体の顔と手とが存在する場合、顔と手との両方の形状を肌領域として抽出してしまい、手の形状のみを肌領域として抽出することが困難である。
 本発明は、このような状況に鑑みてなされたものであり、一連の処理に要する演算量の増加を抑えつつ、ユーザを撮像して得られる撮像画像から、ユーザの正確な手の形状等を高速に抽出できるようにするものである。また、本発明は、例えば、ユーザが表示されている表示画像上の、抽出したユーザの手等の形状に対応する領域を構成する画素の輝度値等の変化に基づいて、ユーザの手等の移動を容易に検出できるようにするものである。
 本発明の第1の側面における第1の情報処理装置は、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段と、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、前記第1及び第2の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段とを含む情報処理装置である。
 前記表示画像上の前記オブジェクト領域を構成する画素のうち、輝度値が大きい上位nパーセントに含まれる画素により構成されている領域を、前記オブジェクトの一部分が表示されている前記部分表示領域として検出する部分表示領域検出手段をさらに設けるようにすることができる。
 前記距離変化検出手段では、前記表示画像上の前記オブジェクト領域のうちの前記部分表示領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記部分表示領域に表示されている、前記オブジェクトの一部分までの相対的な距離の変化を検出することができる。
 前記オブジェクト領域抽出手段では、前記表示画像上の前記肌表示領域を構成する画素の輝度値の分布に基づいて、前記肌表示領域上の前記オブジェクトの形状を表す形状領域を検出し、前記肌表示領域から、前記形状領域に対応する前記オブジェクト領域を抽出することができる。
 前記距離変化検出手段では、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値の平均値の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出することができる。
 前記第1の波長λ1、及び前記第2の波長λ2は次式の関係を満たす
 λ1<λ2
 630nm≦λ1≦1000nm
 900nm≦λ2≦1100nm
 ようにすることができる。
 本発明の第1の側面における第1の情報処理方法は、ユーザとの距離の変化を検出する情報処理装置の情報処理方法であって、前記情報処理装置は、照射手段と、取得手段と、オブジェクト領域抽出手段と、距離変化検出手段とを含み、前記照射手段が、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射し、前記取得手段が、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得し、前記オブジェクト領域抽出手段が、前記第1及び第2の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出し、前記距離変化検出手段が、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出するステップを含む情報処理方法である。
 本発明の第1の側面における第1のプログラムは、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段を含む情報処理装置を制御するコンピュータを、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、前記第1及び第2の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段として機能させるためのプログラムである。
 本発明の第1の側面における第1の電子装置は、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段と、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、前記第1及び第2の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段と前記照射手段から前記オブジェクトまでの相対的な距離の変化が検出されたことに対応して、所定の処理を実行する実行手段とを含む電子装置である。
 本発明の第1の側面によれば、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像が取得され、取得された前記第1及び第2の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域が抽出され、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化が検出される。
 本発明の第2の側面における第2の情報処理装置は、ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置であって、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段と、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、前記第1又は第2の画像を構成する画素毎に、前記第1の波長の光と前記第2の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、前記第1又は第2の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段とを含み、前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する情報処理装置である。
 前記差異値算出手段では、前記第1の画像の輝度値から、前記第2の画像の輝度値を差し引いて得られる差分を正規化して得られる前記差異値を算出することができる。
 前記差異値算出手段では、前記差異値として、前記第1の画像の輝度値と、前記第2の画像の輝度値との比を算出することができる。
 本発明の第2の側面における第2の情報処理方法は、ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置の情報処理方法であって、前記情報処理装置は、照射手段と、取得手段と、差異値算出手段と、肌領域抽出手段と、形状領域抽出手段とを含み、前記照射手段が、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射し、前記取得手段が、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得し、前記差異値算出手段が、前記第1又は第2の画像を構成する画素毎に、前記第1の波長の光と前記第2の波長の光との反射率の差異を表す差異値を算出し、前記肌領域抽出手段が、前記第1又は第2の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出し、前記形状領域抽出手段が、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出するステップを含み、前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する情報処理方法である。
 本発明の第2の側面における第2のプログラムは、ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置であって、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段を含む情報処理装置を制御するコンピュータを、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、前記第1又は第2の画像を構成する画素毎に、前記第1の波長の光と前記第2の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、前記第1又は第2の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段として機能させ、前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出するプログラムである。
 本発明の第2の側面における第2の電子装置は、ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する電子装置であって、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段と、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、前記第1又は第2の画像を構成する画素毎に、前記第1の波長の光と前記第2の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、前記第1又は第2の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段と、抽出された前記形状領域に応じた処理を実行する実行手段とを含み、前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する電子装置である。
 本発明の第2の側面によれば、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像が取得され、取得された前記第1又は第2の画像を構成する画素毎に、前記第1の波長の光と前記第2の波長の光との反射率の差異を表す差異値が算出され、前記第1又は第2の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域が抽出され、前記肌領域上の前記オブジェクトの形状を表す形状領域が抽出される。
 本発明の第1の側面によれば、ユーザの手等の移動を容易に検出できる。また、本発明の第2の側面によれば、一連の処理に要する演算量の増加を抑えつつ、ユーザの正確な手の形状等を高速に抽出できる。
情報処理システムの構成例を示すブロック図である。 情報処理装置の構成例を示すブロック図である。 人間の肌の反射特性の一例を示す図である。 第1及び第2の撮像画像の一例を示す図である。 2値化部で生成される2値化肌画像の一例を示す図である。 肌抽出部で抽出される肌画像の第1の例を示す図である。 肌画像のヒストグラムの第1の例を示す図である。 マスク画像生成部で生成されるマスク画像の一例を示す図である。 形状抽出部により生成される抽出画像の一例を示す図である。 形状抽出処理を説明するためのフローチャートである。 肌抽出部で抽出される肌画像の第2の例を示す図である。 肌画像のヒストグラムの第2の例を示す図である。 肌抽出部で抽出される肌画像の第3の例を示す図である。 肌画像のヒストグラムの第3の例を示す図である。 座標検出処理を説明するためのフローチャートである。 FFT閾値決定処理に用いる第1の撮像画像を示す図である。 FFT閾値決定処理を説明するためのフローチャートである。 カメラの相対感度特性を示す図である。 LEDの配置方法を示す図である。 本発明を適用したモバイル機器の一例を示す図である。 本発明を適用した他のモバイル機器の一例を示す図である。 本発明を適用した他のモバイル機器を使用した場合についての一例を示す図である。 本発明を適用したテレビジョン受像機の一例を示す図である。 コンピュータの構成例を示すブロック図である。
 以下、発明を実施するための形態(以下、本実施の形態という)について説明する。なお、説明は以下の順序で行う。
1. 本実施の形態(ユーザの手の形状を抽出する例)
2. 変形例
<1.本実施の形態>
[情報処理システム1の構成例]
 図1は、本実施の形態である情報処理システム1の構成例を示している。
 この情報処理システム1は、ユーザの手を用いたジェスチャ(又はポスチャ)に応じて所定の処理を実行するものであり、情報処理装置21、カメラ22、及び発光装置23により構成される。
 情報処理システム1に対して所定の処理を実行させるため、ユーザは、(カメラ22のレンズ面の前で)自身の手の形状を変化させたり、手を動かしたりする。
 このとき、情報処理システム1では、ユーザの手の形状や手の動きを認識し、その認識結果に対応して所定の処理を実行する。
 なお、本実施の形態では、ユーザは、カメラ22のレンズ面の前で手を動かしたり手の形状を変化させるものとし、ユーザは、自身の手を、顔や胸等よりもカメラ22のレンズ面に近い位置に出してジェスチャ(又はポスチャ)を行うものとする。
 情報処理装置21は、カメラ22及び発光装置23を制御する。また、情報処理装置21は、カメラ22の撮像により得られる撮像画像に基づいて、ユーザの手の形状や動きを認識し、その認識結果に対応して所定の処理を実行する。
 カメラ22は、ユーザ等の被写体の撮像に用いるレンズを有しており、そのレンズの前面は、可視光を遮断する可視光カットフィルタ22aにより覆われている。
 このため、日光、或いは蛍光灯の赤外成分を除けば、カメラ22は、発光装置23によって被写体に照射される不可視光の反射光のみを受光し、その結果得られる撮像画像を、情報処理装置21に供給することになる。
 すなわち、例えば、カメラ22は、発光装置23によって被写体に照射される不可視光である第1の波長の光(例えば、870[nm]の近赤外線)の反射光のみを受光し、その結果得られる第1の撮像画像を、情報処理装置21に供給する。
 また、カメラ22は、発光装置23によって被写体に照射される不可視光であって、第1の波長とは異なる第2の波長の光(例えば、950[nm]の近赤外線)の反射光のみを受光し、その結果得られる第2の撮像画像を、情報処理装置21に供給する。
 なお、本実施の形態では、日光、或いは蛍光灯等の外光による赤外成分(例えば、870[nm]の近赤外線や950[nm]の近赤外線)の影響は、実質的に無視できる条件でカメラ22による撮像が行なわれるものとする。
 一般的なカメラでは、可視光領域の方が赤外領域と比較して受光感度が高いため、可視光カットフィルタ22aを設けることにより、可視光の影響を低減することができる。このため、可視光の影響を殆ど受けることなく、発光装置23から被写体に照射した光の反射光を受光することができるので、分光反射率特性を利用した肌検出のロバスト性を向上させることが可能となる。
 また、以下において、カメラ22のレンズの前面は、可視光カットフィルタ22aにより覆われているものとして説明するが、例えば、可視光による影響が実質的に無視できる状況下では、カメラ22のレンズの前面を、可視光カットフィルタ22aにより覆わないように構成するようにしてもよい。
 発光装置23は、第1の波長の光を発光するLED(light emitting diode)23a1及び23a2、並びに、第2の波長の光を発光するLED23b1及び23b2により構成される。
 なお、以下において、LED23a1及び23a2を区別する必要がない場合には、LED23a1及び23a2を単にLED23aという。また、LED23b1及び23b2を区別する必要がない場合には、LED23b1及び23b2を単にLED23bという。
 LED23aとLED23bとは、情報処理装置21の制御にしたがって交互に発光する。
 また、第1の波長の光の反射光、及び第2の波長の光の反射光それぞれにおいて、カメラ22により受光される反射光の強度(光量)が同じになるように、LED23aとLED23bの出力は調整されている。
 すなわち、第1の波長の光に対するカメラ22の相対感度特性と、第2の波長の光に対するカメラ22の相対感度特性とが同一である場合、第1及び第2の波長それぞれの光における反射率が同一である物体(例えば、鏡面等)に対して、第1の波長の光を照射したときに得られる輝度値と、第2の波長の光を照射したときに得られる輝度値とを同じ値にするために、カメラ22により受光される反射光の強度(光量)が同じになるように調整される。
 ところで、図18を参照して後述するように、カメラ22の相対感度特性は、通常、可視光領域から離れる程に感度が小さくなる傾向があり、例えば、870[nm]における感度と比較して、950[nm]における感度が1/2以下となる。
 このため、一般的には、第1及び第2の波長それぞれの光における反射率が同一である物体に対して、第1の波長の光を照射した場合に得られる輝度値と、第2の波長の光を照射した場合に得られる輝度値とが同じになるように、LED23aとLED23bの出力は、例えば、カメラ22の相対感度特性等に応じて調整されることとなる。
 さらに、LED23aとLED23bとは、図1に示すように、交互に碁盤の目状に配置されており、LED23a及び23bの前面には、LED23a及び23bにより発光される光を均一に拡散させる拡散板23cが設けられている。これにより、被写体には、第1又は第2の波長の光がむらなく照射される。
 なお、LED23a及び23bのみにより、第1及び第2の波長の光がむらなく照射される場合には、LED23a及び23bの前面に、拡散板23cを設けないようにしてもよい。
 また、発光装置23は、LED23aやLED23bから発光される光が、少なくともユーザの手に確実に照射される位置に配置される。本実施の形態では、ユーザは、カメラ22のレンズ面の前で手の形状を変化させることから、発光装置23は、例えば、カメラ22と近接された状態で配置される。
 本実施の形態では、発光装置23は、カメラ22と近接された状態で配置されているものとして説明するが、発光装置23とカメラ22との位置関係はこれに限定されない。すなわち、カメラ22のレンズ面の前に位置するユーザの手を照射でき、その照射により得られる反射光をカメラ22により確実に受光できる位置関係であれば、どのような位置関係であってもよい。
 具体的には、例えば、近接された発光装置23とカメラ22とを分離し、発光装置23を、カメラ22よりもユーザの手に近い位置に配置するようにすれば、発光装置23とカメラ22とを近接した状態で配置する場合と比較して、発光装置23とユーザの手との距離を短くできる。
 この場合、発光装置23とカメラ22とを近接した状態で配置する場合と比較して、発光装置23とユーザの手との距離が短くなるため、発光装置23の消費電力を低減することが可能となる。
[情報処理装置21の構成例]
 図2は、情報処理装置21の構成例を示している。
 情報処理装置21は、制御部41、2値化部42、肌抽出部43、閾値決定部44、マスク画像生成部45、及び形状抽出部46により構成される。
 制御部41は、発光装置23を制御し、LED23aとLED23bとを交互に発光させる。
 2値化部42には、カメラ22から、第1の撮像画像及び第2の撮像画像が供給される。2値化部42は、カメラ22から供給される第1及び第2の撮像画像に基づいて、第1の撮像画像から、ユーザの肌を表す肌領域と、肌領域以外の領域とを抽出(検出)する。
 なお、2値化部42は、肌領域と、肌領域以外の領域とを抽出する対象として、第1の撮像画像を採用するようにしたが、その他、例えば、後述するように、抽出する対象として、第2の撮像画像等を採用できる。
 そして、2値化部42は、抽出した肌領域を構成する画素の画素値と、肌領域以外の領域を構成する画素の画素値とがそれぞれ異なる値(例えば、0と1)に2値化された2値化肌画像を生成し、肌抽出部43及び形状抽出部46に供給する。
 肌抽出部43及びマスク画像生成部45には、カメラ22から第1の撮像画像が供給される。
 肌抽出部43は、2値化部42から供給される2値化肌画像に基づいて、カメラ22からの第1の撮像画像から、2値化肌画像内の肌領域に対応する領域(ユーザの肌部分が表示された領域)を抽出する。
 そして、肌抽出部43は、抽出した領域を含む肌画像を生成し、閾値決定部44に供給する。なお、肌抽出部43は、抽出した領域を肌画像として、閾値決定部44に供給するようにしてもよい。
 閾値決定部44は、肌抽出部43からの肌画像に基づいて、肌画像(を構成する画素の輝度値)のヒストグラムを作成する。そして、閾値決定部44は、作成した肌画像のヒストグラムに基づいて、後述するマスク画像を生成するために用いられるマスク閾値を決定し、マスク画像生成部45に供給する。
 なお、本実施の形態において、閾値決定部44は、マスク閾値を決定するために、肌画像を構成する画素の輝度値の分布を表すものとして、例えば、肌画像のヒストグラムを用いるようにしているが、肌画像を構成する画素の輝度値の分布を表すものであれば、肌画像のヒストグラムに限定されず、どのような情報であってもよい。
 また、閾値決定部44は、図7を参照して後述するように、肌画像のヒストグラムに基づいて、肌画像を構成する画素の輝度値の最大値や極小値を算出し、マスク閾値に決定するようにしているが、これに限定されない。
 すなわち、例えば、閾値決定部44は、肌画像のヒストグラムに基づいて、肌画像を構成する画素の輝度値についての平均値、分散値、最小値、最大値等を算出し、算出した平均値、分散値、最小値、最大値等を用いて、マスク閾値を決定するようにしてもよい。
 マスク画像生成部45は、閾値決定部44からのマスク閾値に基づいて、カメラ22から供給される第1の撮像画像からマスク画像を生成し、形状抽出部46に供給する。
 なお、マスク画像とは、第1の撮像画像内の領域のうち、マスク閾値により特定される輝度値の範囲に含まれる輝度値の画素により構成されるマスク領域と、それ以外の領域である非マスク領域とに2値化された画像をいう。
 形状抽出部46は、マスク画像生成部45からのマスク画像に基づいて、2値化部42からの2値化肌画像から、マスク画像内のマスク領域に対応する領域として、例えばユーザの手の形状を表す形状領域を抽出する。
 そして、形状抽出部46は、抽出した形状領域に基づいて、手の形状を認識し、その認識結果に応じた処理を行い、その処理結果を後段に出力する。
 なお、2値化部42は、第1の撮像画像から、肌領域と、肌領域以外の領域を抽出するようにしたが、第2の撮像画像から、肌領域と、肌領域以外の領域を抽出するようにしてもよい。この場合、肌抽出部43及びマスク画像生成部45には、第1の撮像画像に代えて、カメラ22から、第2の撮像画像が供給される。
 そして、肌抽出部43は、第2の撮像画像から肌画像を生成し、マスク画像生成部45は、第2の撮像画像からマスク画像を生成することとなる。
 その他、例えば、肌抽出部43は、第1の撮像画像と、第2の撮像画像とを、所定の比率で合成して得られる新たな合成画像(例えば、第1及び第2の撮像画像それぞれの、対応する画素の輝度値の平均を、輝度値として有する合成画像(1対1の比率で合成した合成画像)等)を対象として、肌領域と、肌領域以外の領域を抽出するようにしてもよい。
 すなわち、肌抽出部43は、第1又は第2の撮像画像上に表示されている被写体と同一の被写体が同一の位置に表示された表示画像であれば、肌領域と、肌領域以外の領域を抽出する対象の画像として採用することができる。
[2値化肌画像の生成]
 次に、図3乃至図5を参照して、2値化部42が、2値化肌画像を生成する処理の詳細を説明する。
 なお、図3及び図4では、カメラ22の撮像により得られる第1の撮像画像、及び第2の撮像画像について説明する。また、図5では、第1の撮像画像、及び第2の撮像画像に基づいて、2値化部42により生成される2値化肌画像について説明する。
 図3は、波長の異なる照射光に対する人間の肌の反射特性を示している。
 なお、この反射特性は、人間の肌の色の違い(人種の違い)や状態(日焼け等)等に拘らず、一般性があるものである。
 図3において、横軸は、人間の肌に照射する光の波長を示しており、縦軸は、人間の肌に照射された光の反射率を示している。
 人間の肌に照射された光の反射率は、800[nm]付近をピークとして、900[nm]付近から急激に減少し、1000[nm]付近を極小値として再び上昇することが知られている。
 具体的には、例えば、図3に示されるように、人間の肌に対して、870[nm]の光を照射して得られる反射光の反射率は約63[%]であり、950[nm]の光を照射して得られる反射光の反射率は約50[%]である。
 これは、人間の肌について特有のものであり、人間の肌以外の物体(例えば、頭髪や衣服等)では、800乃至1000[nm]付近において、反射率の変化は緩やかとなっていることが多い。なお、図示は省略しているが、頭髪の例では、800乃至1000[nm]付近において、波長が長くなる程に反射率も緩やかに上昇する。そして、頭髪の例では、870[nm]の光を照射して得られる反射光の反射率は約6[%]であり、950[nm]の光を照射して得られる反射光の反射率は約8[%]である。
 次に、図4を参照して、カメラ22の撮像により得られる第1及び第2の撮像画像を説明する。
 図4は、ユーザに照射される870[nm]の光の反射光を受光して得られる第1の撮像画像、及びユーザに照射される950[nm]の光の反射光を受光して得られる第2の撮像画像それぞれの一例を示している。
 図4のAには、ユーザの肌領域として、ユーザの顔61及び手62が表示されており、ユーザの肌領域以外の領域として、ユーザが着用しているシャツ63、及び背景64が表示された第1の撮像画像が示されている。
 また、図4のBには、ユーザの肌領域として、ユーザの顔81及び手82が表示されており、ユーザの肌領域以外の領域として、ユーザが着用しているシャツ83、及び背景84が表示された第2の撮像画像が示されている。
 ここで、図3において上述したように、ユーザの肌部分における反射特性では、波長が870[nm]の光の反射率は、波長が950[nm]の光の反射率よりも大きくなっている。
 したがって、870[nm]の光をユーザに照射する場合、カメラ22のレンズには、ユーザの肌部分に照射された光の反射光として、950[nm]の光を照射する場合の反射光の明るさよりも明るい光が入射される。
 このため、第1の撮像画像内の、ユーザの肌領域(顔61及び手62)を構成する画素の輝度値は、それぞれ、第2の撮像画像内の、ユーザの肌領域(顔81及び手82)を構成する画素の輝度値よりも大きな値となる。
 したがって、第1の撮像画像内の、ユーザの肌領域を構成する画素の輝度値から、第2の撮像画像内の、対応するユーザの肌領域を構成する画素の輝度値それぞれを差し引いて得られる差分は、正の値となる。
 これに対して、ユーザの肌部分以外の部分における反射特性では、波長が870[nm]の光の反射率は、波長が950[nm]の光の反射率と変わらないか、それよりも小さくなっていることが多い。
 したがって、870[nm]の光をユーザに照射する場合、カメラ22のレンズには、ユーザの肌部分以外の部分に照射された光の反射光として、950[nm]の光を照射する場合の反射光の明るさと同じ明るさの光か、それよりも暗い光が入射される。
 このため、第1の撮像画像内の、ユーザの肌領域以外の領域(シャツ63及び背景64)を構成する画素の輝度値は、それぞれ、第2の撮像画像内の、ユーザの肌領域以外の領域(シャツ83及び背景84)を構成する画素の輝度値と同じ値か、その値よりも小さい値となる。
 したがって、第1の撮像画像内の、ユーザの肌部分以外の部分を構成する画素の輝度値から、第2の撮像画像内の、対応するユーザの肌部分の部分を構成する画素の輝度値それぞれを差し引いて得られる差分は、値0以下の値(正でない値)となる。
 このため、2値化部42は、第1の撮像画像と第2の撮像画像との、対応する画素の輝度値どうしの差分を算出し、算出した差分に基づいて、ユーザの肌領域と、ユーザの肌領域以外の領域とを抽出する。そして、2値化部42は、抽出したユーザの肌領域を値1とし、抽出したユーザの肌領域以外の領域を値0とした2値化肌画像を生成する。
 すなわち、例えば、2値化部42は、算出した差分(第1の撮像画像を構成する画素の輝度値から、対応する第2の撮像画像を構成する画素の輝度値を減じて得られる差分)が正である場合、対応する画素をユーザの肌領域を構成する画素として抽出し、算出した差分が正でない場合、対応する画素をユーザの肌領域以外の領域を構成する画素として抽出する。
 そして、2値化部42は、ユーザの肌領域を構成する画素として抽出した画素の画素値を1に設定し、ユーザの肌領域以外の領域を構成する画素として抽出した画素の画素値を0に設定することにより、2値化肌画像を生成し、肌抽出部43及び形状抽出部46に供給する。
 なお、ユーザの肌部分以外の部分における反射率によっては、肌部分以外の部分において算出された差分が、肌部分において算出された差分よりは小さいものの、正の値となることが生じ得る。したがって、差分が正であっても、所定の閾値未満である場合には、ユーザの肌部分以外の部分であるとして、画素値0を設定するように構成することが望ましい。
 すなわち、2値化部42は、算出した差分が、予め決められた所定の閾値以上であるか否かを判定し、所定の閾値以上である場合、対応する画素をユーザの肌領域を構成する画素として抽出し、所定の閾値以上ではない場合、対応する画素をユーザの肌領域以外の領域を構成する画素として抽出するようにして、2値化肌画像を生成することが望ましい。
 ここで、第1の撮像画像を構成する画素の輝度値L1と、その画素に対応する、第2の撮像画像を構成する画素の輝度値L2との差分L1-L2は、被写体における、第1の波長の光の反射率と第2の波長の光の反射率との差異に対応するものとなるので、肌領域における差分L1-L2は、理想的には、一定値C1(L1-L2=63[%]-50[%]=13)となる。
 しかしながら、実際には、肌領域における輝度値L1及びL2は、発光装置23から被写体までの距離、及びカメラ22の撮像条件等に起因して変化し得るので、肌領域における差分L1-L2は、一定値C1にはならないことが生じ得る。
 この場合、2値化部42は、差分L1-L2毎に異なる閾値を用いなければならず、非常に煩雑な処理となってしまう。
 そこで、2値化部42は、差分L1-L2を正規化するようにして、差分L1-L2を、第1の波長の光の反射率と第2の波長の光の反射率との差異に対応した一定値C2にすることにより、複数の差分L1-L2において同一の閾値を用いるようにすることができる。
 このように、例えば、2値化部42は、差分L1-L2を、輝度値L1又はL2の一方で正規化(除算)すれば、正規化後の差分(L1-L2)/L1又は(L1-L2)/L2に対して、予め用意されている同一の閾値を用いることができるので、差分L1-L2毎に異なる閾値を用意する必要がない。なお、ここでは輝度値L1又はL2の一方で正規化した例を示したが、差分を輝度値L1又はL2に関連した輝度値関連値で正規化すれば良く、例えば(L1+L2)/2や(L1+L2)で正規化しても良い。
 よって、2値化部42が、閾値を予め保持しておくために内蔵しているメモリ(図示せず)の容量を少なくすることができる。また、2値化部42は、差分L1-L2に拘わらず、同一の閾値を用いるようにすれば、差分L1-L2毎に、閾値を変更する手間を省くことができるので、2値化肌画像を生成するための演算量を抑制して、より迅速に2値化肌画像を生成することが可能となる。
 なお、別の方法として、2値化部42は、差分L1-L2ではなく、比L1/L2に基づいて、肌領域と非肌領域とを抽出するように構成することができる。これは、発光装置23から被写体までの距離、及びカメラ22の撮像条件等に起因して、肌領域における輝度値L1及びL2が変化したとしても、肌領域における比L1/L2(=63[%]/50[%])は一定値C3となることを利用したものである。
 なお、比L1/L2を用いる場合には、比L1/L2と比較される閾値として、例えば、一定値C3-α(α>0)が採用され、2値化部42は、比L1/L2が閾値以上である場合、肌領域として抽出し、比L1/L2が閾値未満である場合、非肌領域として抽出することとなる。
 また、2値化部42は、第1の撮像画像と第2の撮像画像との、対応する画素の輝度値どうしの差分絶対値を算出し、算出した差分絶対値が所定の閾値以上であるか否かに基づいて、ユーザの肌部分(肌領域)と、それ以外の部分(肌領域以外の領域)とを抽出して、2値化肌画像を生成するようにしてもよい。
 これは、反射特性により、ユーザの肌部分に対応する差分絶対値は比較的大きな値となり、ユーザの肌部分以外の部分に対応する差分絶対値は比較的小さな値となることを利用している。
 また、差分絶対値を用いる場合であっても、輝度値L1又はL2等により正規化することにより、いずれの差分絶対値においても、同一の閾値を用いることができるようになる。
 なお、差分絶対値を用いる方法では、肌と頭髪のように、第1及び第2の波長付近での反射率の増減が逆のものを誤検出するおそれがあるので、輝度値も加味して肌領域を抽出することが望ましい。すなわち、例えば、差分絶対値を用いて抽出された肌領域のうち、輝度値L1(又は輝度値L2)の高い部分のみを、最終的な肌領域として抽出するとよい。
 次に、図5は、2値化部42により生成される2値化肌画像の一例を示している。
 図5に示す2値化肌画像において、黒色で示す部分は、画素値1で表される肌領域を示している。この肌領域は、ユーザの顔の肌部分を示す顔領域101、及びユーザの手の肌部分を示す手領域102により構成されている。
 なお、図面の都合上、図5に示す顔領域101には、顔の肌部分の他、眉毛や目、髪の毛等も記載しているが、実際には、顔領域101は、顔の肌部分のみにより構成される。
 さらに、図5に示す2値化肌画像において、白色で示す部分は、画素値0で表される、肌領域以外の領域を示している。
 2値化部42は、生成した2値化肌画像を、肌抽出部43及び形状抽出部46に供給する。
 肌抽出部43は、2値化部42からの2値化肌画像に基づいて、カメラ22から供給される第1の撮像画像から、2値化肌画像内の顔領域101及び手領域102に対応する領域(顔61と手62とが表示された領域)を抽出する。そして、肌抽出部43は、抽出した領域を含む肌画像を生成する。
[肌画像の生成]
 次に、図6を参照して、肌抽出部43が、2値化部42からの2値化肌画像に基づいて、第1の撮像画像から肌画像を生成する処理を説明する。
 図6は、肌抽出部43により抽出される肌画像の一例を示している。図6に示す肌画像には、ユーザの顔61及び手62が表示されている。
 なお、図面の都合上、図6に示す肌画像には、ユーザの顔61として、顔の肌部分の他、眉毛や目、髪の毛等も記載しているが、実際には、図6に示す顔61は、顔の肌部分のみを表している。
 肌抽出部43は、2値化部42からの2値化肌画像と、カメラ22からの第1の撮像画像との対応する画素の輝度値どうしを、それぞれ乗算する。
 そして、肌抽出部43は、第1の撮像画像を構成する画素のうち、その乗算結果が0でない画素により構成される領域(顔61と手62とが表示された領域)を抽出し、抽出した領域を含む肌画像を生成する。
 これにより、第1の撮像画像内の領域のうち、2値化肌画像の顔領域101に対応する領域に含まれる顔61、及び2値化肌画像の手領域102に対応する領域に含まれる手62については、そのまま抽出され、2値化肌画像の肌領域以外の領域に対応する領域(図6において白色で示す)については、例えば、その輝度値が値255とされて、第1の撮像画像から、図6に示すような肌画像が生成される。
 肌抽出部43は、生成した肌画像を、閾値決定部44に供給する。
 閾値決定部44は、肌抽出部43からの肌画像に基づいて、マスク画像を生成するために用いられるマスク閾値を決定する。
[マスク閾値の決定]
 次に、図7を参照して、閾値決定部44がマスク閾値を決定する処理の詳細を説明する。
 図7は、肌画像のヒストグラムの一例を示している。
 図7において、横軸は、肌画像を構成する画素の輝度値を示している。また、縦軸は、横軸の輝度値に対応する画素の画素数を示している。
 なお、図7のヒストグラムにおいて、本来ならば、図6の肌画像において、白色部分で表された領域を構成する画素の輝度値255についての画素数も表示されるが、輝度値255についての画素数は、マスク閾値を決定するために用いられないため、図示を省略している。
 閾値決定部44は、肌抽出部43からの肌画像を構成する画素の輝度値について、図7に示されたようなヒストグラムを作成する。
 図7のヒストグラムでは、輝度値0から輝度値54までの間と、輝度値55から輝度値110までの間に、多くの画素数が偏って表示されている。
 ところで、上述したように、カメラ22から近い位置に手が存在し、カメラ22から遠い位置に顔や胸等が存在することを前提としている。
 また、例えば、発光装置23のLED23a及びLED23bは、カメラ22に近接した状態で発光するため、カメラ22(発光装置23)から近い位置に存在するユーザの部位(いまの場合、手)ほど輝度値が大きくなり、カメラ22から遠い位置に存在するユーザの部位(いまの場合、顔等)ほど輝度値が小さくなる。
 したがって、カメラ22から近い位置に存在する手の肌部分を構成する画素の輝度値は、カメラ22から遠い位置に存在する顔の肌部分を構成する画素の輝度値よりも大きな値となる。
 このため、輝度値0から輝度値54までの輝度値は、顔61(の領域)を構成する画素の輝度値であり、輝度値55から輝度値110までの輝度値は、手62を構成する画素の輝度値である。
 閾値決定部44は、画素数が極小となるときの輝度値(この例では輝度値55)を下限閾値Th_Lに決定するとともに、最大の輝度値(この例では輝度値110)を上限閾値Th_Hに決定する。
 なお、下限閾値Th_Lは、例えば、次のようにして求めても良い。すなわち、例えば、閾値決定部44は、図7に示されたようなヒストグラムを表わす関数y=f(x)(yは画素数を表し、xは輝度値を表す)を生成する。そして、閾値決定部44は、生成した関数f(x)を1回微分して1次導関数f'(x)を生成し、1次導関数f'(x)が負の値から正の値に変化するときであって、関数f'(x)=0となるときのx(例えば、x=55)、つまり、関数f(x)が極小となるときのxを、下限閾値Th_Lに決定する。
 さらに、上限閾値Th_Hを、最大の輝度値に決定したが、その他、例えば、1次導関数f'(x)が負の値から値0となるときのxの値(例えば、x=110)を、上限閾値Th_Hに決定するようにしてもよい。
 ところで、上述したように、閾値決定部44は、肌画像を構成する画素の輝度値についての平均値、分散値、最小値、最大値等を用いて、マスク閾値を決定することもできる。
 すなわち、例えば、閾値決定部44は、肌画像を構成する画素の輝度値についての平均値を、下限閾値Th_Lに決定するようにしてもよいし、肌画像を構成する画素の輝度値についての最大値の1/2を下限閾値Th_Lに決定するようにしてもよい。また、例えば、閾値決定部44は、肌画像を構成する画素の輝度値についての最小値と最大値との平均を、下限閾値Th_Lに決定するようにしてもよい。
 さらに、閾値決定部44は、例えば分散値毎に、下限閾値Th_Lを決定するための閾値決定用関数を予め用意しておき、肌画像を構成する画素の輝度値についての分散値に対応する閾値決定用関数により、下限閾値Th_Lを決定するようにしてもよい。なお、閾値決定用関数は、例えば、肌画像を構成する画素の輝度値についての最小値や最大値等を変数として有する関数等を採用することができる。
 この場合、関数f(x)を生成し、生成した関数f(x)から1次導関数f'(x)をさらに生成するようにし、その1次導関数f'(x)に基づいて下限閾値Th_Lを決定する場合と比較して、下限閾値Th_Lに決定される値を容易に算出することができるので、より迅速に下限閾値Th_Lを決定することが可能となる。
 なお、閾値決定部44は、例えば、肌画像を構成する画素の輝度値についての最大値を、上限閾値Th_Hに決定するようにしているが、下限閾値Th_Lの場合と同様にして、肌画像を構成する画素の輝度値についての平均値、分散値、最小値、最大値等を用いて、上限閾値Th_Hを決定することができる。
 すなわち、例えば、図6の肌画像において、顔61及び手62以外に他の肌部分が表示されているために、図7のヒストグラムにおいて、値110よりも大きな輝度値が存在することにより、輝度値55と同様に、輝度値110が極小となっている場合等には、上限閾値Th_Hを、下限閾値Th_Lと同様にして決定できる。
 閾値決定部44は、決定した下限閾値Th_L及び上限閾値Th_Hを、マスク閾値として、マスク画像生成部45に供給する。
 マスク画像生成部45は、閾値決定部44からのマスク閾値(下限閾値Th_L及び上限閾値Th_H)に基づいて、カメラ22からの第1の撮像画像から、マスク領域と非マスク領域とを検出し、検出したマスク領域と非マスク領域とが、それぞれ異なる値に2値化されたマスク画像を生成する。
 すなわち、例えば、マスク画像生成部45は、発光装置23から近い位置に存在するために、輝度値が大きくなっているユーザの部位(いまの場合、手)に対応する領域として、下限閾値Th_L以上であって上限閾値Th_H以下の輝度値を有する画素により構成されるマスク領域を検出する。
 また、例えば、マスク画像生成部45は、発光装置23から遠い位置に存在するために、輝度値が小さくなっているユーザの部位(いまの場合、顔等)に対応する領域として、下限閾値Th_L以上であって上限閾値Th_H以下の範囲に含まれない輝度値を有する画素により構成される非マスク領域を検出する。
 そして、マスク画像生成部45は、検出したマスク領域と非マスク領域とが、それぞれ異なる値に2値化されたマスク画像を生成する。
[マスク画像の生成]
 次に、図8を参照して、マスク画像生成部45が、閾値決定部44からのマスク閾値に基づいて、マスク画像を生成する処理の詳細を説明する。
 図8はマスク画像の一例を示している。図8に示すマスク画像において、黒色で示されるマスク領域121は、対応する第1の撮像画像内の領域において、輝度値が下限閾値Th_L以上であって、上限閾値Th_H以下である領域を示している。
 また、図8に示すマスク画像において、白色で示される非マスク領域は、対応する第1の撮像画像内の領域において、下限閾値Th_L未満であるか、又は、上限閾値Th_Hよりも大きいである領域を示している。
 マスク画像生成部45は、カメラ22からの第1の撮像画像を構成する画素の輝度値が、下限閾値Th_L以上であって、上限閾値Th_H以下である場合には、その輝度値の画素をマスク領域に含まれる画素として検出し、その輝度値を画素値1に変換する。
 また、マスク画像生成部45は、カメラ22からの第1の撮像画像を構成する画素の輝度値が、下限閾値Th_L未満であるか、又は、上限閾値Th_Hよりも大きいである場合には、その輝度値の画素を非マスク領域に含まれる画素として検出し、その輝度値を画素値0に変換する。
 なお、変換後の画素値は、輝度値とは異なる値であって、0又は1のいずれかとされる値を表す。
 これにより、マスク画像生成部45は、値1を有する画素により構成されるマスク領域121(黒色で示す)と、値0を有する画素により構成される非マスク領域(白色で示す)とにより構成されるマスク画像を生成し、形状抽出部46に供給する。
 ここで、閾値決定部44において、下限閾値Th_L及び上限閾値Th_Hを決定するようにしたが、例えば、マスク閾値として、下限閾値Th_L又は上限閾値Th_Hの一方を決定するようにしてもよい。
 すなわち、例えば、カメラ22からマスク画像生成部45に供給される第1の撮像画像を構成する画素の輝度値の最大値が、人間の肌に対応する輝度値(例えば、図7の輝度値110)である場合には、閾値決定部44は、マスク閾値として、下限閾値Th_L(例えば、輝度値55)のみを決定するようにしてもよい。
 この場合、マスク画像生成部45は、カメラ22からの第1の撮像画像を構成する画素の輝度値が、下限閾値Th_L以上である場合には、その輝度値の画素をマスク領域に含まれる画素として検出し、その輝度値を画素値1に変換するものとなる。また、マスク画像生成部45は、カメラ22からの第1の撮像画像を構成する画素の輝度値が、下限閾値Th_L未満である場合には、その輝度値の画素を非マスク領域に含まれる画素として検出し、その輝度値を画素値0に変換するものとなる。
 なお、閾値決定部44が、マスク閾値として、上限閾値Th_Hのみを決定する場合には、例えば、手62の形状に代えて、顔61の形状を抽出するとき等が考えられる。このとき、例えば、閾値決定部44は、図7に示される輝度値55を、マスク閾値としての上限閾値Th_Hに決定することとなる。
 形状抽出部46は、マスク画像生成部45からのマスク画像に基づいて、2値化部42からの2値化肌画像内の顔領域101及び手領域102から、マスク画像内のマスク領域121に対応する領域として、例えばユーザの手の形状を表す形状領域を抽出する。
 すなわち、例えば、形状抽出部46は、マスク画像生成部45からのマスク画像を構成するマスク領域121及び非マスク領域に基づいて、発光装置23から近い位置に存在するために、輝度値が大きくなっているユーザの部位(いまの場合、手62)(マスク領域121に対応するユーザの部位)と、発光装置23から遠い位置に存在するために、輝度値が小さくなっているユーザの部位(いまの場合、顔61)(非マスク領域に対応するユーザの部位)との、発光装置23からの相対的な距離の違いを区別する。
 そして、形状抽出部46は、区別した発光装置23からの相対的な距離の違いから、例えば、発光装置23から近い位置に存在するために、輝度値が大きくなっているユーザの部位(いまの場合、手62)を区別して、形状領域(いまの場合、手の形状を表す領域)を抽出する。
[手の形状の抽出]
 次に、図9を参照して、形状抽出部46が、2値化肌画像から、ユーザの手の形状等を抽出する処理の詳細を説明する。
 図9は、形状抽出部46により抽出される形状領域を含む抽出画像の表示例を示している。
 図9に示す抽出画像において、形状領域141は、ユーザの手の形状を表している。
 形状抽出部46は、マスク画像生成部45からのマスク画像を構成する画素の値と、対応する、2値化部42からの2値化肌画像を構成する画素の値とを、それぞれ乗算する。
 そして、形状抽出部46は、その乗算結果が0でない2値化肌画像内の領域、すなわち、2値化肌画像内の顔領域101及び手領域102(図5)のうち、マスク画像内のマスク領域121(図8)と重なる部分を、形状領域141として抽出する。
 また、形状抽出部46は、抽出した形状領域141に基づいて、ユーザの手の形状を認識し、その認識結果に応じた処理を行う。
 なお、図8に示されたマスク画像内のマスク領域121には、ユーザの手の他、ユーザが着用しているシャツが含まれている。
 しかしながら、2値化肌画像内の顔領域101及び手領域102には、ユーザが着用しているシャツは含まれないため、形状抽出部46では、シャツの形状を表す領域を抽出することなく、手の形状のみを表す形状領域141を正確に抽出することができる。
[形状抽出処理の動作説明]
 次に、情報処理システム1が、ユーザの手の形状等を抽出する形状抽出処理の詳細を説明する。
 図10は、形状抽出処理を説明するためのフローチャートである。なお、この形状抽出処理は、情報処理システム1の電源がオンされたときから繰り返し実行される。
 以下、ユーザが、カメラ22の前に存在するときに行われた形状抽出処理について説明する。
 ステップS1において、制御部41は、発光装置23のLED23aを制御し、第1の波長の光の発光を開始させる。なお、制御部41は、LED23bが発光している場合には、LED23bの発光を停止した上で、LED23aの発光を開始させる。
 ステップS2において、カメラ22は、第1の波長の光が照射されているユーザを撮像し、その結果得られる第1の撮像画像を、情報処理装置21に供給する。
 ステップS3において、制御部41は、発光装置23のLED23aを制御し、第1の波長の光の発光を停止させ、発光装置23のLED23bを制御し、第2の波長の光の発光を開始させる。
 ステップS4において、カメラ22は、第2の波長の光が照射されているユーザを撮像し、その結果得られる第2の撮像画像を、情報処理装置21に供給する。
 ステップS5において、2値化部42は、カメラ22から供給される第1の撮像画像と第2の撮像画像との対応する画素の輝度値どうしの差分に基づいて、図5に示したような2値化肌画像を生成し、肌抽出部43及び形状抽出部46に供給する。
 ステップS6において、肌抽出部43は、2値化部42から供給される2値化肌画像に基づいて、カメラ22からの第1の撮像画像から、2値化肌画像内の肌領域に対応する領域(ユーザの肌部分が表示された領域)を抽出する。
 そして、肌抽出部43は、抽出した領域を含む肌画像を生成し、閾値決定部44に供給する。
 ステップS7において、閾値決定部44は、肌抽出部43からの肌画像を構成する画素の輝度値に基づいて、図7に示したような肌画像のヒストグラムを作成する。
 ステップS8において、閾値決定部44は、作成した肌画像のヒストグラムに基づいて、画素数が極小となるときの輝度値を下限閾値Th_Lに決定するとともに、最大の輝度値を上限閾値Th_Hに決定する。
 そして、閾値決定部44は、決定した下限閾値Th_L及び上限閾値Th_Hを、マスク閾値として、マスク画像生成部45に供給する。
 ステップS9において、マスク画像生成部45は、閾値決定部44からのマスク閾値(下限閾値Th_L及び上限閾値Th_H)に基づいて、カメラ22からの第1の撮像画像を2値化して、図8に示したようなマスク画像を生成し、形状抽出部46に供給する。
 ステップS10において、形状抽出部46は、マスク画像生成部45からのマスク画像に基づいて、2値化部42からの2値化肌画像から、マスク画像内のマスク領域に対応する領域として、例えばユーザの手の形状を表す抽出領域を抽出する。
 そして、形状抽出部46は、抽出した抽出領域により手の形状を認識し、その認識結果に応じた処理を行い、その処理結果を後段に出力する。
 以上で形状抽出処理は終了される。
 以上説明したように、形状抽出処理では、マスク閾値に基づいて、1台のカメラ22により撮像された第1の撮像画像からマスク画像を生成し、生成したマスク画像に基づいて、2値化肌画像から、ユーザの手の形状を抽出するようにした。
 したがって、例えば、複数のカメラにより撮像された複数の撮像画像に基づいて、カメラとユーザの手等との距離を表す距離画像を生成し、その距離画像をマスク画像として用いて、ユーザの手の形状を抽出する場合と比較して、マスク画像を生成するために要する計算量を少なくすることができるとともに、より少ない部品数で、ユーザの手の形状等を抽出することが可能となる。
 また、形状抽出処理では、カメラ22からユーザの顔までの距離と、カメラ22から手までの距離の違いに基づいて、肌部分として、顔の肌部分が含まれずに、手の肌部分のみが含まれるマスク領域121と、非マスク領域からなるマスク画像を生成するようにした。
 このため、2値化肌画像において、抽出すべき手を含む手領域102と、手以外の肌部分である顔を含む顔領域101が重なっている場合でも、マスク領域121には、肌部分として、顔の肌部分は含まれずに手の肌部分のみが含まれるため、2値化肌画像から、手領域102のみを抽出することができる。
 よって、正確に、ユーザの手の形状を抽出することが可能となる。
 さらに、形状抽出処理では、LED23a及びLED23bから、人間には見ることができない不可視な近赤外線(の光)を発光させるようにした。
 したがって、ユーザは、LED23a及びLED23bから発光される光を視認することができないため、LED23a及びLED23bから発光される光が眩しいことにより、ユーザに不愉快な思いをさせることがない。
 また、情報処理システム1の発光装置23において、LED23a及びLED23bの前面に拡散板23cを設けるようにした。
 このため、LED23a及び23bにより発光される不可視光が均一に拡散されるため、光量によるむらのない均一な光が被写体に照射される。
 これにより、被写体に照射される不可視光の反射光が、光量によるむらのない均一な光としてカメラ22により受光されるため、カメラ22において、光量によるむらのない第1及び第2の撮像画像を得ることができる。
 したがって、情報処理システム1では、手の形状等を抽出するために、光量によるむらのない第1及び第2の撮像画像を用いるため、例えば、光量によるむらのある第1及び第2の撮像画像を用いる場合と比較して、より正確に手の形状等を抽出することが可能となる。
 なお、情報処理システム1では、ユーザが手の形状を変化させる毎に、変化後の手の形状を認識することができるように、例えば、形状抽出処理を開始したときから80[ms]程度で手の形状を抽出できるように構成することが望ましい。
 より好適には、例えば、形状抽出処理を開始したときから80[ms]以内に手の形状を抽出するように構成することが望ましい。これは、手の形状を抽出するための処理時間が80[ms]以内であれば、ユーザが操作をしたときにストレスを殆ど感じないことが、予め行なった実験等によりわかっていることによる。
 本願発明では、上述したように、例えば、差分L1-L2を算出して正規化したものを、閾値と比較するという非常に単純な処理で手の形状を抽出するようにしているため、比較的安価で低速なCPU(Central Processing Unit)を用いた場合でも、80[ms]以内の処理時間を容易に実現できる。
 これに対して、従来のパターンマッチング方法を用いて肌を検出する場合には、予め学習された複数の形状画像を、それぞれ、撮像画像上の複数の領域と比較するという非常に複雑な処理を行なう必要があるため、高価で高速なCPUを用いたとしても、処理時間を80[ms]以内に収めることは困難となっている。
 このように、本願発明によれば、比較的安価で低速なCPUを用いた場合でも、80[ms]以内の処理時間を容易に実現できるので、製造コストを抑えることができるとともに、ユーザにストレスを感じさせないで、手の形状を抽出する処理等を迅速に行なうことが可能となる。
 以上説明した本実施の形態では、例えば、肌領域として顔61と手62とが重なっている場合であっても、手62の形状を正確に抽出できることを説明した。しかし、例えば、ユーザが半袖のシャツ等を着用している場合、ユーザの顔61と手62の他、腕等が重なっている場合も考えられる。
 すなわち、例えば、肌抽出部43により、図11に示されるような、顔61及び手62の他、腕63が表示された肌画像が抽出された場合には、閾値決定部44は、図12に示されるようなヒストグラムを生成する。
 次に、図12は、図11に示されるような肌画像に基づいて生成されるヒストグラムの一例を示している。
 図11に示される肌画像に表示された顔61、手62及び腕63において、発光装置23から手62までの距離が1番目に近く(短く)なっており、発光装置23から腕63までの距離が2番目に近くなっており、発光装置23から顔61までの距離が3番目に近くなっている。
 したがって、図11に示される肌画像のヒストグラムは、図12の最も上側に示される(実線で示される)ように、輝度値0から輝度値75まで画素が、ユーザの顔61に対応する画素であり、輝度値76から輝度値150まで画素が、ユーザの腕63に対応する画素であり、輝度値151から輝度値250の画素が、ユーザの手62に対応する画素となっている。
 例えば、閾値決定部44は、図12に示されるヒストグラム(実線で示される)を表わす関数y=g(x)に基づいて、下限閾値Th_Lを決定する。
 ところで、図12に示されるヒストグラムでは、顔61と手62との間に腕63があるため、腕63に対応する輝度値76乃至150におけるヒストグラムが平坦となる。このため、図7に示されるヒストグラムのように、顔61と手62とを区別するような明確な極小値(図7でいう輝度値55)が存在しない。このため、図7を参照して説明した場合と同様にして、下限閾値Th_Lを決定することができない。
 そこで、閾値決定部44は、生成するヒストグラムに基づいて、そのヒストグラムの形状を判別し、判別したヒストグラムの形状に応じて、異なる方法(例えば、図7で説明した方法や、図12を参照して説明する方法等)で下限閾値Th_L等を決定するようにしている。
 以下、閾値決定部44が、図12に示されるヒストグラムに基づいて、例えば下限閾値Th_L等を決定する場合について説明する。
 ここで、本発明者が行なった実験によれば、顔61に対応する輝度値と、腕63に対応する輝度値との境界を表す輝度値(いまの場合、値75付近の輝度値)、及び腕63に対応する輝度値と、手62に対応する輝度値との境界を表す輝度値(いまの場合、値150付近の輝度値)は、関数g(x)の変極点、すなわち1次導関数g'(x)が極大値又は極小値となるときのxとなっていることがわかっている。
 したがって、例えば、閾値決定部44は、生成した関数g(x)を1回微分して1次導関数g'(x)を生成する。閾値決定部44は、1次導関数g'(x)が極大値又は極小値であるときのx=x0、すなわち、関数g'(x)が正から負、又は負から正に変化するときのx=x0を算出する。
 また、閾値決定部44は、例えば、関数g(x)が極大値となるときの2つのx1及びx2(x1<x2)を算出する(例えば、x1=53,x2=181)。そして、閾値決定部44は、1次導関数g'(x)が極大値又は極小値であるときのx=x0のうち、x=x2よりも小さなx=x0であって、x=x2に最も近い値(例えば、x2-x0が最も小さくなるときのx0)(いまの場合、輝度値150)を、下限閾値Th_Lに決定する。
 さらに、例えば、閾値決定部44は、例えば、上限閾値Th_Hを、図12に示されるヒストグラムにおける輝度値の最大値(いまの場合、輝度値250)に決定する。
 このように決定した下限閾値Th_L及び上限閾値Th_Hは、手62の形状を抽出する際に用いるマスク画像を生成するために用いられることとなる。
 なお、閾値決定部44は、1次導関数g'(x)が極大値又は極小値であるときのx=x0のうち、x=x1よりも大きなx=x0であって、x=x1に最も近い値(例えば、x0-x1が最も小さくなるときのx0)(いまの場合、輝度値75)を、下限閾値Th_Lに決定し、上限閾値Th_Hを、図12に示されるヒストグラムにおける輝度値の最大値(いまの場合、輝度値250)に決定するようにしてもよい。
 このように決定した下限閾値Th_L及び上限閾値Th_Hは、手62及び腕63により形成される形状を抽出する際に用いるマスク画像を生成するために用いられることとなる。
 なお、例えば、閾値決定部44は、腕63の形状を抽出する際に用いるマスク画像を生成するための下限閾値Th_L及び上限閾値Th_Hを決定する場合には、下限閾値Th_Lを輝度値75に、上限閾値Th_Hを輝度値150にそれぞれ決定することとなる。
 図11及び図12を参照して説明したようにして、下限閾値Th_L及び上限閾値Th_Hを決定するようにすれば、例えば、顔61、手62及び腕63それぞれの一部分が重なっていたとしても、例えば、手62の形状等を正確に抽出することができる。
 ところで、閾値決定部44は、1次導関数g'(x)が極大値又は極小値であるときのx=x0を算出する場合、1次導関数g'(x)を微分して、2次導関数g''(x)を算出し、2次導関数g''(x)=0となるときの点xを、x=x0として算出するようにできる。これは、2次導関数g''(x)=0となるときの点xは、1次導関数g'(x)が極大値又は極小値であるときのx=x0、すなわち関数g(x)の変極点と一致することによる。
 この場合、閾値決定部44は、2次導関数g''(x)=0となるときの変極点x=x0を算出するようにしたので、1次導関数g'(x)に基づいてx=x0を算出する場合と比較して、より容易にx=x0を算出できるようになる。
 また、例えば、肌抽出部43が、抽出した肌画像を、形状抽出部46に供給するようにすれば、形状抽出部46は、肌抽出部43からの肌画像から、抽出した形状領域に対応する対応領域を検出し、検出した対応領域を構成する画素の輝度値の分布を表すものとして、例えば、対応領域のヒストグラムに基づいて、対応領域に表示されているもののうち、発光装置23に最も近い位置に存在するものに対応する領域のみを抽出することができる。
 すなわち、例えば、肌抽出部43が、図13に示されるような肌画像を抽出した場合には、形状抽出部46は、手62の領域のうち、人差し指の指先に対応する領域のみを抽出することができる。なお、図13では、手62の人差し指の指先が、発光装置23に最も近い位置に存在している。
 次に、図14は、対応領域のヒストグラムの一例を示している。
 なお、図14の最も上側に示されるヒストグラム(実線で示す)では、例えば手62が表示されている対応領域を構成する画素の輝度値のみについてのヒストグラムを示している。それ以外は、図12と同様である。
 例えば、肌抽出部43は、2値化部42からの2値化肌画像、及びカメラ22からの第1の撮像画像に基づいて、図13に示されたような肌画像を生成し、閾値決定部44の他、形状抽出部46に供給する。そして、形状抽出部46は、肌抽出部43からの肌画像から、抽出した形状領域に対応する対応領域を検出し、検出した対応領域を構成する画素の輝度値に基づいて、図14に示されるようなヒストグラムを生成する。形状抽出部46は、生成したヒストグラムを構成する輝度値のうち、輝度値が高くなっている範囲を、人差し指の指先を表す先端領域として、肌抽出部43からの肌画像(の対応領域)から抽出することができる。
 いまの場合、ユーザの肌の各部位のうち、発光装置23と人指し指の指先との距離が最も近いものとなっている。このため、図14に示されるヒストグラムでは、人差し指の指先に対応する輝度値が最も高いものとなっている。
 なお、人指し指の指先部分の面積は、比較的小さいものとなっている。したがって、図14のヒストグラムにおいて対応する部分は、図12の腕63に対応する部分と同様に、極値を有さずに平坦なものとなっている。
 例えば、形状抽出部46は、ヒストグラムを構成する複数の輝度値のうち、輝度値が大きい上位n[%](例えば、n=10)の輝度値それぞれに対応する画素により構成される領域を、ユーザの人差し指の指先(先端)が表示されている先端領域として、肌抽出部43からの肌画像から抽出する。なお、n[%]は、予め行なわれる実験等により、抽出する部位等に応じて決定されているものとする。
 そして、形状抽出部46は、抽出した先端領域(の形状等)に応じて、対応する処理を行なう。
 ところで、発光装置23からユーザの人差し指の指先までの相対的な距離d1と、例えば、発光装置23からユーザの人差し指の付け根部分までの相対的な距離d2との比d2/d1は、発光装置23とユーザの手との距離が近い程に大きくなる。
 すなわち、発光装置23とユーザの手との距離が近い程、距離d1と距離d2との差は相対的に大きなものとなる。このため、発光装置23とユーザの手との距離が比較的近い場合には、発光装置23とユーザの手との距離が遠い場合と比較して、例えば、ユーザの人差し指の指先における輝度値と、ユーザの人差し指の付け根部分における輝度値とは大きく異なる、つまり、距離による輝度値の変化が大きいものとなる。
 このように、距離による輝度値の変化が大きくなる程に、図13に示されるように、人差し指の指先部分における画素は少ないものの、その画素の輝度値が、人差し指の付け根部分における画素の輝度値等と比較して十分に大きいものとなる(例えば、上位n[%]に入る輝度値となる)ヒストグラムが得られるので、比較的正確に、ユーザの人差し指の指先部分を抽出できる。
 なお、上述の説明では、形状抽出部46は、肌抽出部43からの肌画像から、抽出した形状領域に対応する対応領域を検出するようにしたが、対応領域を検出する画像の対象は、これに限定されない。
 すなわち、例えば、形状抽出部46には、カメラ22から第1の撮像画像が供給されるようにしておき、その第1の撮像画像を対象として、対応領域を検出するようにしてもよいし、その他、例えば、第2の撮像画像を対象とするようにしてよい。つまり、形状抽出部46は、第1又は第2の撮像画像上に表示されている被写体と同一の被写体が同一の位置に表示された表示画像であれば、どのような画像を対象としてもよい。
 また、上述の説明では、肌抽出部43が、抽出した肌画像を、形状抽出部46に供給するようにしたが、形状抽出部46が、抽出した形状領域を、肌抽出部43に供給するようにして、肌抽出部43が、抽出した肌画像から、形状抽出部46からの形状領域に対応する対応領域を検出するようにして、対応領域に表示されているもののうち、発光装置23に最も近い位置に存在するものに対応する領域のみを抽出するようにしてもよい。
 さらに、例えば、閾値決定部44において、肌抽出部43からの肌画像に基づいて生成したヒストグラムが、図14に示されるように、人差し指の指先に対応する輝度値が明確に現れている(例えば、図14に示されるように、人差し指の指先に対応するヒストグラムの輝度値が平坦となっている)場合には、上位n[%]の輝度値に対応する領域を、マスク領域とするためのマスク閾値を決定できる。
 具体的には、例えば、閾値決定部44は、生成したヒストグラムが、図14に示されるようなヒストグラム(特に、輝度値が高い部分)となっている場合には、上位n[%]に含まれる複数の輝度値のうち、最小の輝度値を、下限閾値Th_Lに決定し、ヒストグラムを構成する複数の輝度値のうちの最大値を、上限閾値Th_Hに決定する。この場合、形状抽出部46では、2値化部42からの2値化肌画像から、ユーザの肌領域のうち、発光装置23の最も近くに存在する人差し指の指先部分の形状が抽出されることとなる。
 次に、情報処理システム1は、例えば、発光装置23に近い程にユーザの肌領域の輝度値が大きくなり、発光装置23から遠い程に輝度値が小さくなることを利用して、ユーザの手の発光装置方向の動き等を認識するようにして、対応する処理を行なうことができる。
 例えばユーザの手の左右上下の動き(動きに応じて変化する手の位置(x,y))に連動させて、表示装置上のポインタをxy方向に移動させて、画面上の複数のコンテンツ等の中からポインタが移動された先の1つのコンテンツを選択した後、ユーザの手の前後方向すなわち発光装置23方向(z方向)の動きに連動させて、いわゆるマウスのクリック操作すなわち決定操作を行なうことができる。しかし手をz方向に動かした場合、xy方向にも動いてしまい、所望のコンテンツを選択できないという問題が生じるが、例えば以下の方法で解決が可能である。
 すなわち、例えば、形状抽出部46が、カメラ22の撮像により得られた第1の撮像画像から、抽出した形状領域(例えば、手の形状を表す領域)に対応する対応領域(例えば、手が表示されている領域)を抽出する。そして、形状抽出部46は、抽出した対応領域を構成する画素の輝度値に基づいて、手の位置を検出する。なお、形状抽出部46は、対応領域を抽出する対象として、第1の撮像画像の他、第2の撮像画像を採用できる。すなわち、形状抽出部46は、第1又は第2の撮像画像上に表示されている被写体と同一の被写体が同一の位置に表示された表示画像(第1及び第2の撮像画像を含む)を対象として、対応領域を抽出することができる。
 次に、図15を参照して、形状抽出部46が行なう座標検出処理について説明する。
 ステップS21において、情報処理装置21の制御部41乃至形状抽出部46、カメラ22、及び発光装置23は、図10を参照して説明した形状抽出処理を行う。これにより、形状抽出部46は、マスク画像生成部45からのマスク画像に基づいて、2値化部42からの2値化肌画像から、形状領域を抽出する。
 ステップS22において、形状抽出部46は、抽出した形状領域に基づいて、座標(x,y)tを検出する。具体的には、例えば、形状抽出部46は、抽出した形状領域の重心(x,y)を、座標(x,y)tとして算出する。
 ステップS23において、形状抽出部46は、カメラ22からの第1の撮像画像上の全領域のうち、抽出した形状領域に対応する対応領域(例えば、手が表示された領域)を検出する。なお、形状抽出部46には、カメラ22から、第1の撮像画像が供給されるものとする。
 形状抽出部46は、検出した対応領域を構成する画素の輝度値に基づいて、その対応領域を構成する画素の輝度値の平均値(平均輝度値)Ytを算出する。
 ステップS24において、形状抽出部46は、算出した座標(x,y)t及び平均輝度値Ytを、算出したt番目の順序に対応付けて、内蔵するメモリに記憶させる。
 ステップS25において、形状抽出部46は、内蔵するメモリに記憶されている平均輝度値Y1乃至Yt-1のうち、前回のステップS24で記憶した平均輝度値Yt-1を読み出す。なお、内蔵するメモリにまだ平均輝度値Yt-1、つまり、Y1が記憶されていない場合、形状抽出部46は、ステップS25をスキップして処理をステップS26に進める。
 ステップS25において、形状抽出部46は、算出した平均輝度値Ytの大小、すなわち、例えば、算出した平均輝度値Ytから、内蔵するメモリにより読み出した平均輝度値Yt-1を差し引いて得られる差分Yt-Yt-1の絶対値が所定の閾値未満であるか否かに基づいて、発光装置23から被写体までの相対的な距離が大きく変化したか否かを判定する。
 なお、形状抽出部46は、差分Yt-Yt-1が正であるか否かに基づいて、発光装置23から被写体までの相対的な距離が近くなるように変化したか、遠くなるように変化したかについて判定するようにすることもできる。
 ステップS25において、形状抽出部46は、発光装置23から被写体までの相対的な距離が大きく変化していないと判定した場合、処理をステップS26に進める。ステップS26では、形状抽出部46は、算出した座標(x,y)tに基づいて、図示せぬ表示装置の表示を制御する。具体的には、例えば、形状抽出部46は、表示装置の画面上に表示されたポインタを、算出した座標(x,y)tに対応する位置に移動させる。
 ステップS26の処理の終了後、処理はステップS21に戻り、それ以降同様の処理が行われる。
 また、ステップS25において、形状抽出部46は、発光装置23から被写体までの相対的な距離が大きく変化したと判定した場合、処理をステップS27に進める。
 ステップS27において、形状抽出部46は、内蔵するメモリに記憶されている座標(x,y)t-kとして、例えば、座標(x,y)t-5に対応する、図示せぬ表示装置の画面上の位置において、いわゆるクリック動作が行なわれたものとして、そのクリック動作に基づく処理を行ない、処理はステップS21に戻り、それ以降同様の処理が行なわれる。
 なお、この座標検出処理は、情報処理システム1の電源がオフされたとき等に終了される。
 以上説明したように、座標検出処理では、形状抽出部46が、平均輝度値Ytに基づいて、発光装置23から被写体までの相対的な距離が大きく変化したか否かを判定するようにしたので、ユーザによるクリック動作等のジェスチャについても認識することが可能となる。
 また、座標検出処理では、ユーザによるクリック動作が行われたと判定した場合、ステップS27において、形状抽出部46は、例えば座標(x,y)t-5に対応する、図示せぬ表示装置の画面上の位置において、クリック動作が行なわれたものとして、クリック動作に基づく処理を行なうようにした。
 したがって、例えば、カメラ22に対して、ユーザが、クリック動作により自身の手等を近づけた場合、座標(x,y)tのうち、x又はyの少なくとも一方が変化してしまったときであっても、変化前のx及びyに基づくクリック動作が行なわれたものとして扱われるため、形状抽出部46により算出された座標(x,y)tをそのまま用いる場合と比較して、ユーザによるクリック動作をより正確に認識することが可能となる。
 なお、座標検出処理では、形状領域として、手の形状を表す領域の他、手と腕とにより形成される形状を表す領域を採用するようにして、上述した処理を行なうようにしてもよい。
 また、座標検出処理では、形状抽出部46が、形状領域として抽出された手の形状のうち、人差し指の指先(先端)部分のみを、図13及び図14を参照して説明したように抽出し、抽出した指先部分が表示された領域を構成する画素の輝度値についての平均輝度値Ytに基づいて、発光装置23と指先部分との相対的な距離が大きく変化したか否かを判定するようにしてもよい。
 さらに、座標検出処理では、平均輝度値Ytを用いるようにしたので、形状抽出部46により抽出される、形状領域に対応する領域(例えば、手62が表示されている領域)がどのように変化しても、必ず平均輝度値Ytを算出することができる。
 このため、例えば、発光装置23が存在する方向に対する、例えば手62の動き(例えば、クリック動作等)を正確に抽出することが可能となる。
 なお、ステップS23では、形状抽出部46は、抽出した対応領域を構成する画素の輝度値に基づいて、その対応領域を構成する画素の輝度値の平均輝度値Ytを算出するようにしたが、その他、例えば、平均輝度値Ytに代えて、その対応領域を構成する画素の輝度値の最大値や最小値、分散値等を用いるように構成してもよい。
 また、例えば、ステップS25において、形状抽出部46は、差分Yt-Yt-1の絶対値が所定の閾値未満であるか否かに基づいて、発光装置23から被写体までの相対的な距離が大きく変化したか否かを判定するようにしたが、その他、例えば、発光装置23から所定の距離において得られる平均輝度値Ysを予め用意しておき、算出された平均輝度値Ytと、予め用意された平均輝度値Ysとを比較することにより、発光装置23から所定の距離の位置を基準位置として、その基準位置からどれだけ離れたかによって、発光装置23からの相対的な距離の変化を検出するようにしてもよい。
<2.変形例>
 上述した形状抽出処理では、形状抽出処理が行われる毎に、ステップS6乃至ステップS8の処理により、肌画像を抽出し、抽出した肌画像のヒストグラムに基づいて、マスク閾値(下限閾値Th_L及び上限閾値Th_H)を決定するようにしたが、これに限定されない。
 すなわち、例えば、形状抽出処理では、形状抽出処理が行われた場合に、以前のステップS6乃至ステップS8において決定したマスク閾値をそのまま用いるようにしてもよい。
 この場合、ステップS6乃至ステップS8による処理を省略することができるため、形状抽出処理による手の形状等の抽出を迅速に行うことが可能となる。
 また、形状抽出処理を行う前に、ステップS6乃至ステップS8による処理と同様の処理を行うことにより、予めマスク閾値を決定するようにしておいても、形状抽出処理において、ステップS6乃至ステップS8による処理を省略することが可能となる。
 なお、形状抽出処理を行う前に、予めマスク閾値を決定する処理として、その他、例えば、ユーザの手領域の一部を構成する画素の輝度値の平均値に基づいて、マスク閾値を決定することが可能である。
[マスク閾値の決定方法]
 次に、図16を参照して、閾値決定部44が、ユーザの手領域を構成する画素の輝度値の平均値に基づいて、マスク閾値を決定するFFT(fast fourier transform、高速フーリエ変換)閾値決定処理を説明する。
 図16は、870[nm]の光が照射されているユーザを撮像して得られる第1の撮像画像の一例を示している。
 なお、FFT閾値決定処理を行う場合、閾値決定部44には、手を振っているユーザをカメラ22により撮像して得られる、複数の第1の撮像画像が、カメラ22から供給される。
 閾値決定部44は、複数の第1の撮像画像に対して、FFT処理を行い、一定の周波数で動いている、第1の撮像画像内の手領域の一部を検出する。
 そして、閾値決定部44は、検出した手領域の一部である矩形領域161を構成する画素の輝度値の平均値ave_Lを算出する。
 また、閾値決定部44は、平均値ave_Lから調整値aを差し引いて得られる値ave_L-aを、下限閾値Th_Lに決定し、平均値ave_Lから調整値bを加算して得られる値ave_L+bを、上限閾値Th_Hに決定する。
 なお、調整値a及びbは、平均値ave_Lを調整して、下限閾値Th_L及び上限閾値Th_Hを決定するために用いられる値である。
 この調整値a及びbは、LED23aや23bから発光される光の強度(光量)、カメラ22からユーザまでの距離、及びカメラ22に用いられるCCD(charge coupled device image sensor)による光の感度に応じて算出される変数であるが、実際には、実験的に算出されることが多い。
[FFT閾値決定処理による動作説明]
 次に、閾値決定部44が、ユーザの手領域を構成する画素の輝度値の平均値に基づいて、マスク閾値を決定するFFT閾値決定処理を説明する。
 図17は、FFT閾値決定処理を説明するためのフローチャートである。このFFT閾値決定処理は、例えば、情報処理システムの電源をオンしたときであって、形状抽出処理が行われる前に開始される。
 ステップS31において、制御部41は、発光装置23のLED23aを制御し、第1の波長の光の発光を開始させる。
 ステップS32において、制御部41は、情報処理装置21に設けられた図示せぬディスプレイやスピーカ等を制御して、ユーザに手を振る動作の開始を指示する。
 ステップS33において、カメラ22は、手を振る動作を行っているユーザを撮像し、その結果得られる複数の第1の撮像画像を、情報処理装置21の閾値決定部44に供給する。
 ステップS34において、閾値決定部44は、複数の第1の撮像画像に対して、FFT処理を行い、一定の周波数で動いている、第1の撮像画像内の手領域を検出する。
 ステップS35において、閾値決定部44は、検出した手領域の一部である矩形領域161を構成する画素の輝度値の平均値ave_Lを算出する。
 ステップS36、閾値決定部44は、平均値ave_Lから調整値aを差し引いて得られる値ave_L-aを、下限閾値Th_Lに決定し、平均値ave_Lから調整値bを加算して得られる値ave_L+bを、上限閾値Th_Hに決定する。
 以上でFFT閾値決定処理は終了される。FFT閾値決定処理では、上述したように、形状抽出処理が行われる前に、マスク閾値を決定するようにしたので、形状抽出処理において、ステップS6乃至ステップS8の処理を省略でき、より迅速に手の形状等を抽出することが可能となる。
 なお、FFT閾値決定処理では、複数の第1の撮像画像に対して、FFT処理を行うことにより、第1の撮像画像内の手領域を検出し、その手領域内の画素を構成する輝度値の平均値に基づいてマスク閾値(下限閾値Th_L及び上限閾値Th_H)を決定するようにしたが、これに限定されない。
 すなわち、例えば、FFT閾値決定処理では、手を振っているユーザをカメラ22により撮像して得られる、複数の第2の撮像画像に対して、FFT処理を行うことにより、第2の撮像画像内の手領域を検出し、その手領域内の画素を構成する輝度値の平均値に基づいてマスク閾値を決定するようにしてもよい。
 本実施の形態において、2値化部42は、第1の撮像画像から、ユーザの肌領域、及びユーザの肌領域以外の領域を抽出し、抽出した肌領域、及び肌領域以外の領域により構成される2値化肌画像を、肌抽出部43及び形状抽出部46に供給するようにしたが、これに限定されない。
 すなわち、例えば、2値化部42は、第1の撮像画像から、ユーザの肌領域を抽出し、少なくとも、抽出した肌領域を含む2値化肌画像を、肌抽出部43及び形状抽出部46に供給するようにしてもよい。
 この場合、肌抽出部43は、カメラ22からの第1の撮像画像から、2値化部42からの2値化肌画像に含まれる肌領域に対応する領域を抽出する。また、形状抽出部46は、2値化部42からの2値化肌画像に含まれる肌領域から、形状領域を抽出する。
 本実施の形態において、マスク画像生成部45は、例えば第1の撮像画像から、マスク領域及び非マスク領域を検出し、検出したマスク領域及び非マスク領域により構成されるマスク画像を生成するようにしたが、これに限定されない。
 すなわち、例えば、マスク画像生成部45は、2値化肌画像から形状領域を抽出するための抽出用領域として、マスク領域のみを検出し、少なくとも、検出したマスク領域を含むマスク画像を生成するようにしてもよい。この場合、形状抽出部46では、2値化部42からの2値化肌画像内の肌領域のうち、マスク画像内のマスク領域に対応する領域が、形状領域として抽出される。
 また、例えば、マスク画像生成部45は、抽出用領域として、非マスク領域のみを検出し、少なくとも、検出した非マスク領域を含むマスク画像を生成するようにしてもよい。この場合、形状抽出部46では、2値化部42からの2値化肌画像内の肌領域のうち、マスク画像内の非マスク領域以外の領域に対応する領域が、形状領域として抽出される。
[カメラ22、LED23a、及びLED23bの性能]
 次に、図18及び図19を参照して、本出願人が、実際に形状抽出処理及びFFT閾値決定処理を行ったときの、情報処理システム1を構成するカメラ22や発光装置23の性能を説明する。
 本出願人は、カメラ22として、ソニー株式会社により製造されたビデオカメラを用いた。そのカメラ22は、型番がXC-EI50であり、撮像素子として、1/2IT方式のCCDを用いている。
 また、有効画素数は横×縦が768×494画素であり、レンズマウントとしてCマウント、走査方式として、525本のラインをインタレースにより走査する方式を採用している。
 さらに、感度はF11(400[lx])であり、最低被写体深度は0.1[lx]である。また、カメラ22の撮像により得られる撮像画像のS/N(signal to noise)比は60[dB]である。
 さらに、カメラ22において、カメラ22に予め設けられたシャッタボタン(ノーマルシャッタ)によるシャッタ速度は、1/100乃至1/10000[sec]であり、カメラ22の外部に接続されたレリーズスイッチ(外部トリガシャッタ)によるシャッタ速度は、1/4乃至1/10000[sec]である。
 また、カメラ22の外形寸法は、幅×高さ×奥行きが29×29×32[mm]であり、カメラ22の重量は約50[g]である。さらに、カメラ22の耐振動性は、70[G]である。
 また、カメラ22は、400[nm]の可視光領域から、1000[nm]の近赤外領域までの帯域の範囲内の感度を有する。
 図18は、カメラ22の相対感度特性の一例を示している。
 なお、図18において、横軸は、カメラ22のレンズに入射される波長を示しており、縦軸は、波長に対応する相対感度を示している。
 また、本出願人は、発光装置23として、図19に示されるように、8個のLED23a、及び8個のLED23bを、互いに碁盤の目状に配置したものを用いた。
 本出願人により実際に用いられたLED23aとしては、870[nm]の光を発光するものを用いるとともに、LED23bとしては、950[nm]の光を発光するものを用いた。
 さらに、LED23a及びLED23bとして、直流順電流(絶対最大定格)が100[mA]であって、順電圧が1.6[V]であるものを用いた。
 本出願人は、上述した性能のカメラ22や、図19に示されたように配置されたLED23a及びLED23bを用いて、形状抽出処理やFFT閾値決定処理を実際に行い、上述した顕著な作用効果を確認することができた。
 本実施の形態では、マスク画像生成部45は、閾値決定部44からのマスク閾値に基づいて、カメラ22からの第1の撮像画像から、マスク画像を生成するようにしたが、マスク画像の生成方法はこれに限定されない。
 すなわち、例えば、マスク画像生成部45は、それぞれ異なる方向を撮像する複数のカメラにより得られる撮像画像に基づいて、カメラからユーザまでの距離を表す距離画像を生成するステレオ処理を行い、その結果得られる距離画像をマスク画像として採用することが可能である。
 この場合、形状抽出部46は、マスク画像生成部45から供給される距離画像内の、カメラから手までの距離を表す領域と、2値化部42から供給される2値化肌画像内の顔領域101及び手領域102とが重なり合う部分を、ユーザの手の形状を表す形状領域141として抽出する。
 また、マスク画像として、距離画像を生成する方法としては、ステレオ処理の他、赤外線等を照射したときから、ユーザに反射して戻ってくるまでの時間に基づいてユーザまでの距離を算出するレーザレンジファインダ等を用いて、ユーザの距離画像を生成することが可能である。
 さらに、本実施の形態では、LED23aにより発光される第1の波長を870[nm]とし、LED23bにより発光される第2の波長を950[nm]としたが、波長の組合せはこれに限定されない。
 すなわち、波長の組合せとしては、第1の波長における反射率と、第2の波長における反射率との差分絶対値が、ユーザの肌以外のものについて得られる反射率の差分絶対値と比較して、充分に大きくなる組合せであれば、どのような組合せでもよい。具体的には、図3から明らかなように、例えば、870[nm]と950[nm]との組合せの他、800[nm]と950[nm]との組合せ、870[nm]と1000[nm]との組合せ、800[nm]と1000[nm]との組合せ等が可能である。
 なお、第1の波長λ1と第2の波長λ2との組合せは、例えば、以下に示す関係式を満たす組合せとすることが望ましい。
 λ1<λ2
 630[nm]≦λ1≦1000[nm]
 900[nm]≦λ2≦1100[nm]
 なお、LED23aから発光される光として、可視光を用いる場合には、可視光カットフィルタ22aに代えて、LED23aから発光される可視光のみを通過させて、カメラ22のレンズに入射させるフィルタが用いられる。これは、LED23bについても同様のことがいえる。
 また、本実施の形態において、形状抽出処理では、LED23a及びLED23bを、それぞれ個別に発光させるようにしたが、LED23a及びLED23bを同時に発光させることにより、第1の撮像画像、及び第2の撮像画像を取得するように構成することが可能である。
 すなわち、例えば、カメラ22に代えて、カメラ22と同様の機能を有する2台のカメラを近接させた状態で設けるようにし、2台のカメラのうち、一方のカメラの前面には、第1の波長の光のみを通過させるフィルタを設けるとともに、他方のカメラの前面には、第2の波長の光のみを通過させるフィルタを設けるように構成する。
 この場合、LED23a及びLED23bを同時に発光させたとしても、一方のカメラには、第1の波長の光のみが入射されることから、一方のカメラにおいて、第1の撮像画像を得ることが可能となる。また、他方のカメラには、第2の波長の光のみが入射されることから、他方のカメラにおいて、第2の撮像画像を得ることが可能となる。
 本実施の形態において、LED23aの個数及びLED23bの個数は、それぞれ、2個であるとして説明したが、それらの個数は、これに限定されない。
 すなわち、LED23aの個数及びLED23bの個数は、ユーザ等の被写体に対して、肌検出に必要なパワー(強度)の光を一様に照射できるように、適宜決定される。
 また、本実施の形態において、情報処理装置21に所定の処理を実行させるために、ユーザの身体の部位を表すオブジェクトとして、手(の形状)を変化させるようにしたが、オブジェクトは手の他、例えばユーザの足等を採用することが可能である。
 さらに、本実施の形態では、画素の輝度値に基づいて、上限閾値Th_H及び下限閾値Th_Lを決定したり、いわゆるクリック動作を検出するようにしたが、例えば、輝度値に代えて、画素のRGB(Red,Green,Blue)値のうちのR値、G値、又はB値のいずれか1つを用いるようにしてもよい。
 すなわち、輝度値に比例する値であれば、輝度値に代えて、どのような値を用いるようにしてもよい。
 本発明は、情報処理システム1の他、図20に示されるように、カメラ22と同様の機能を有するカメラ部261、LED23aと同様の機能を有するLED部262、LED23bと同様の機能を有するLED部263、及び構図決定用の画像(いわゆるスルー画)等を表示する表示部264により構成されているモバイル機器241(例えば、デジタルカメラや携帯電話機等)に適用することができる。
 モバイル機器241を用いる場合、LED部263及び264と、ユーザの手62との相対的な距離が比較的近い状態で、ポスチャやジェスチャが行われることとなる。図14を参照して上述したように、LED部263及び264と、ユーザの手62との相対的な距離が近い程、距離による輝度値の変化が大きいものとなるので、モバイル機器241を用いる場合には、例えば、ユーザの人差し指の指先部分を、比較的正確に抽出できる。
 このような構成とすることにより、所謂タッチパネルのようにユーザの指が表示部に接触する必要がなく、表示部の近傍での指の動きでモバイル機器を操作できるので、表示部に指紋等の汚れが付くこともない。
 またここでは人差し指の指先部分を抽出する例を挙げたが、人差し指と親指の先端がLED部263及び264に共に近い場合に両者を同時に抽出して、操作に用いることも可能である。
 また、図21に示されるように、表示部264が設けられた面とは反対の面に、カメラ部261、LED部262及び263が設けられているモバイル機器241'を用いる場合、ユーザは、図22に示されるようにして、ポスチャやジェスチャを行なうこととなる。
 モバイル機器をこのような構成にすることにより、表示部がユーザの手や指で隠れることがなくなり、操作しやすくなる。特にモバイル機器では表示部が小さいので、表示部に表示された複数のコンテンツ等から、1つを選択する場合、指が表示部上にあると選択したいコンテンツが指で隠れてしまう。これに対して、本願発明では、ユーザから見て表示部と操作する指が重ならないようにするので、操作性を向上することができる。またこのような構成とすることにより、日光等の外光の影響も軽減することもできる。
 またこのようなモバイル機器では、通常のカメラが内蔵される場合が多い。このカメラとは別に肌検出用のカメラを設けても良いし、カメラは通常のカメラと共通として、肌検出を行なうモードの場合のみ、可視光カットフィルタを有効となる位置に移動させるようにしても良い。
 図22に示される場合、モバイル機器241'のカメラ部261では、ユーザ281の手62の他、ユーザ281以外の人物301の肌も撮像されることとなるが、上述した方法を用いることにより、人物301の肌部分と、ユーザ281の手62とを区別して、手62を正確に抽出することができる。
 また、本発明は、図23に示されるように、ディスプレイ321aの上側に、情報処理システム1と同様の機能を有する認識処理部341が内蔵されているテレビジョン受像機321に適用することができる。
 この場合、ユーザ281は、テレビジョン受像機321のディスプレイ321aの前で、手62等の形状を変化させたり、手62等を移動させる動作を行なうことにより、テレビジョン受像機321のチャンネルや音量等を変更させる処理を、テレビジョン受像機321に実行させることができる。
 またこの場合、手62をパーソナルコンピュータのマウスのように用いて操作することもできる。すなわちテレビジョン受像機の画面に表示された複数のコンテンツ等の選択肢の中から、マウスを移動させるように手を上下左右に動かして特定のものを選択し、更にマウスをクリックするように、手を前後(ユーザから見てテレビジョン受像機の方向)に動かすことで、決定の操作をすることができる。これらの操作は直感的にも理解しやすいものである。
 決定する際の手の前後の動きは、ユーザの肌の部位である手の輝度値の変化に基づいて検出することができる。
 すなわち、ユーザに第1の波長の光を照射したときの反射光を受光して得られる第1の画像と、第1の波長とは異なる第2の波長の光を照射したときの反射光を受光して得られる第2の画像に基づいて、ユーザの顔や手等の肌領域を抽出し、抽出した肌領域から肌領域を構成する画素の輝度値の分布に基づいてユーザの手を抽出する。更にユーザの手の領域の輝度の変化に基づいて、照射手段(発光装置23)から手までの相対的な距離の変化を検出し、検出した相対的な距離の変化すなわち手の前後方向の動きに基づいて、決定の操作を実行する。
 これらの操作はパーソナルコンピュータに同様の機能を内蔵した場合にも適用できることは言うまでもない。
 ところで、上述した一連の処理は、専用のハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、いわゆる組み込み型のコンピュータ、又は、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、記録媒体からインストールされる。
[コンピュータの構成例]
 次に、図24は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成例を示している。
 CPU361は、ROM(Read Only Memory)362、又は記憶部368に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)363には、CPU361が実行するプログラムやデータ等が適宜記憶される。これらのCPU361、ROM362、及びRAM363は、バス364により相互に接続されている。
 CPU361にはまた、バス364を介して入出力インタフェース365が接続されている。入出力インタフェース365には、キーボード、マウス、マイクロホン等よりなる入力部366、ディスプレイ、スピーカ等よりなる出力部367が接続されている。CPU361は、入力部366から入力される指令に対応して各種の処理を実行する。そして、CPU361は、処理の結果を出力部367に出力する。
 入出力インタフェース365に接続されている記憶部368は、例えばハードディスクからなり、CPU361が実行するプログラムや各種のデータを記憶する。通信部369は、インターネットやローカルエリアネットワーク等のネットワークを介して外部の装置と通信する。
 また、通信部369を介してプログラムを取得し、記憶部368に記憶してもよい。
 入出力インタフェース365に接続されているドライブ370は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等のリムーバブルメディア371が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータ等を取得する。取得されたプログラムやデータは、必要に応じて記憶部368に転送され、記憶される。
 コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを記録(記憶)する記録媒体は、図24に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini-Disc)を含む)、もしくは半導体メモリ等よりなるパッケージメディアであるリムーバブルメディア371、又は、プログラムが一時的もしくは永続的に格納されるROM362や、記憶部368を構成するハードディスク等により構成される。記録媒体へのプログラムの記録は、必要に応じてルータ、モデム等のインタフェースである通信部369を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の通信媒体を利用して行われる。
 なお、本明細書において、上述した一連の処理を記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
 また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
 なお、本発明の実施の形態は、上述した本実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
 1 情報処理システム, 21 情報処理装置, 22 カメラ, 23 発光装置, 41 制御部, 42 2値化部, 43 肌抽出部, 44 閾値決定部, 45 マスク画像生成部, 46 形状抽出部

Claims (15)

  1.  第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段と、
     前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、
     前記第1及び第2の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、
     前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段と
     を含む情報処理装置。
  2.  前記表示画像上の前記オブジェクト領域を構成する画素のうち、輝度値が大きい上位nパーセントに含まれる画素により構成されている領域を、前記オブジェクトの一部分が表示されている前記部分表示領域として検出する部分表示領域検出手段を
     さらに含む請求項1に記載の情報処理装置。
  3.  前記距離変化検出手段は、前記表示画像上の前記オブジェクト領域のうちの前記部分表示領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記部分表示領域に表示されている、前記オブジェクトの一部分までの相対的な距離の変化を検出する
     請求項2に記載の情報処理装置。
  4.  前記オブジェクト領域抽出手段は、
      前記表示画像上の前記肌表示領域を構成する画素の輝度値の分布に基づいて、前記肌表示領域上の前記オブジェクトの形状を表す形状領域を検出し、
      前記肌表示領域から、前記形状領域に対応する前記オブジェクト領域を抽出する
     請求項1に記載の情報処理装置。
  5.  前記距離変化検出手段は、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値の平均値の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する
     請求項1に記載の情報処理装置。
  6.  前記第1の波長λ1、及び前記第2の波長λ2は次式の関係を満たす
     λ1<λ2
     630nm≦λ1≦1000nm
     900nm≦λ2≦1100nm
     請求項1に記載の情報処理装置。
  7.  ユーザとの距離の変化を検出する情報処理装置の情報処理方法において、
     前記情報処理装置は、
      照射手段と、
      取得手段と、
      オブジェクト領域抽出手段と、
      距離変化検出手段と
     を含み、
     前記照射手段が、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射し、
     前記取得手段が、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得し、
     前記オブジェクト領域抽出手段が、前記第1及び第2の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出し、
     前記距離変化検出手段が、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する
     ステップを含む情報処理方法。
  8.  第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段を含む情報処理装置を制御するコンピュータを、
     前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、
     前記第1及び第2の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、
     前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段と
     して機能させるためのプログラム。
  9.  第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段と、
     前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、
     前記第1及び第2の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、
     前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段と
     前記照射手段から前記オブジェクトまでの相対的な距離の変化が検出されたことに対応して、所定の処理を実行する実行手段と
     を含む電子装置。
  10.  ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置において、
     第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段と、
     前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、
     前記第1又は第2の画像を構成する画素毎に、前記第1の波長の光と前記第2の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、
     前記第1又は第2の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、
     前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段と
     を含み、
     前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する
     情報処理装置。
  11.  前記差異値算出手段は、前記第1の画像の輝度値から、前記第2の画像の輝度値を差し引いて得られる差分を正規化して得られる前記差異値を算出する
     請求項10に記載の情報処理装置。
  12.  前記差異値算出手段は、前記差異値として、前記第1の画像の輝度値と、前記第2の画像の輝度値との比を算出する
     請求項10に記載の情報処理装置。
  13.  ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置の情報処理方法において、
     前記情報処理装置は、
      照射手段と、
      取得手段と、
      差異値算出手段と、
      肌領域抽出手段と、
      形状領域抽出手段と
     を含み、
     前記照射手段が、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射し、
     前記取得手段が、前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得し、
     前記差異値算出手段が、前記第1又は第2の画像を構成する画素毎に、前記第1の波長の光と前記第2の波長の光との反射率の差異を表す差異値を算出し、
     前記肌領域抽出手段が、前記第1又は第2の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出し、
     前記形状領域抽出手段が、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する
     ステップを含み、
     前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する
     情報処理方法。
  14.  ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置であって、第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段を含む情報処理装置を制御するコンピュータを、
     前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、
     前記第1又は第2の画像を構成する画素毎に、前記第1の波長の光と前記第2の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、
     前記第1又は第2の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、
     前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段と
     して機能させ、
     前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する
     プログラム。
  15.  ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する電子装置において、
     第1の波長の光、及び前記第1の波長とは異なる第2の波長の光を前記ユーザに照射する照射手段と、
     前記ユーザに照射された前記第1の波長の光の反射光を受光して得られる第1の画像、及び前記ユーザに照射された前記第2の波長の光の反射光を受光して得られる第2の画像を取得する取得手段と、
     前記第1又は第2の画像を構成する画素毎に、前記第1の波長の光と前記第2の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、
     前記第1又は第2の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、
     前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段と、
     抽出された前記形状領域に応じた処理を実行する実行手段と
     を含み、
     前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する
     電子装置。
PCT/JP2010/058773 2009-06-30 2010-05-24 情報処理装置、情報処理方法、プログラム及び電子装置 WO2011001761A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/059,422 US8107706B2 (en) 2009-06-30 2010-05-24 Information processing apparatus, information processing method, program, and electronic apparatus
EP10793932A EP2378759A4 (en) 2009-06-30 2010-05-24 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING, PROGRAM AND ELECTRONIC DEVICE
JP2011520477A JP4831267B2 (ja) 2009-06-30 2010-05-24 情報処理装置、情報処理方法、プログラム及び電子装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-154921 2009-06-30
JP2009154921A JP4548542B1 (ja) 2009-06-30 2009-06-30 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2011001761A1 true WO2011001761A1 (ja) 2011-01-06

Family

ID=42457840

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2010/003427 WO2011001593A1 (en) 2009-06-30 2010-05-21 Skin detection using multi-band near-infrared illumination
PCT/JP2010/058773 WO2011001761A1 (ja) 2009-06-30 2010-05-24 情報処理装置、情報処理方法、プログラム及び電子装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/003427 WO2011001593A1 (en) 2009-06-30 2010-05-21 Skin detection using multi-band near-infrared illumination

Country Status (7)

Country Link
US (3) US20110142349A1 (ja)
EP (2) EP2384485A1 (ja)
JP (2) JP4548542B1 (ja)
KR (2) KR20120031309A (ja)
CN (1) CN102138148B (ja)
TW (1) TW201112168A (ja)
WO (2) WO2011001593A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013054664A1 (ja) * 2011-10-12 2013-04-18 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及び電子機器
US9286513B2 (en) 2012-12-18 2016-03-15 Fujitsu Limited Image processing apparatus, method, and storage medium
WO2016185916A1 (ja) * 2015-05-20 2016-11-24 コニカミノルタ株式会社 ウェアラブル電子機器、ウェアラブル電子機器のジェスチャー検知方法およびウェアラブル電子機器のジェスチャー検知プログラム
JP2017510912A (ja) * 2014-02-10 2017-04-13 アップル インコーポレイテッド 光学センサを使用して検出されるモーションジェスチャ入力
JP2018109899A (ja) * 2017-01-05 2018-07-12 キヤノン株式会社 情報処理装置、操作検出方法、及びコンピュータプログラム

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4910923B2 (ja) * 2007-07-20 2012-04-04 ソニー株式会社 撮像装置、撮像方法及び撮像プログラム
JP2011039812A (ja) * 2009-08-12 2011-02-24 Sony Corp 画像処理装置及び電子機器
US9754155B2 (en) * 2009-12-18 2017-09-05 Tandent Vision Science, Inc. Method and system for generating intrinsic images using a single reflectance technique
KR20160042461A (ko) * 2010-05-28 2016-04-19 퀄컴 인코포레이티드 동적으로 변화하는 부분들을 갖는 타겟들을 추적하기 위한 데이터셋트 형성
JP2012063824A (ja) * 2010-09-14 2012-03-29 Sony Corp 情報処理装置、情報処理方法、及びプログラム
EP2512121B1 (en) * 2011-04-13 2013-06-05 Axis AB Illumination device
JP2013164834A (ja) 2012-01-13 2013-08-22 Sony Corp 画像処理装置および方法、並びにプログラム
TWI479430B (zh) * 2012-10-08 2015-04-01 Pixart Imaging Inc 以自然影像進行的手勢辨識方法
CN103777741B (zh) * 2012-10-19 2017-08-01 原相科技股份有限公司 基于物件追踪的手势辨识方法及系统
CN108334204B (zh) * 2012-12-10 2021-07-30 因维萨热技术公司 成像装置
CN103268499B (zh) * 2013-01-23 2016-06-29 北京交通大学 基于多光谱成像的人体皮肤检测方法
US20140240477A1 (en) * 2013-02-26 2014-08-28 Qualcomm Incorporated Multi-spectral imaging system for shadow detection and attenuation
JP5782061B2 (ja) * 2013-03-11 2015-09-24 レノボ・シンガポール・プライベート・リミテッド 移動物体の動作を認識する方法および携帯式コンピュータ
WO2015188146A2 (en) 2014-06-05 2015-12-10 Edward Hartley Sargent Sensors and systems for the capture of scenes and events in space and time
US9692968B2 (en) 2014-07-31 2017-06-27 Invisage Technologies, Inc. Multi-mode power-efficient light and gesture sensing in image sensors
US10736517B2 (en) * 2014-10-09 2020-08-11 Panasonic Intellectual Property Management Co., Ltd. Non-contact blood-pressure measuring device and non-contact blood-pressure measuring method
US10354383B2 (en) * 2016-12-30 2019-07-16 Skinio, Llc Skin abnormality monitoring systems and methods
CN107506687B (zh) * 2017-07-17 2020-01-21 Oppo广东移动通信有限公司 活体检测方法及相关产品
JP2019032395A (ja) * 2017-08-07 2019-02-28 セイコーエプソン株式会社 表示装置、及び、表示装置の制御方法
CN108416333B (zh) * 2018-03-30 2020-01-17 百度在线网络技术(北京)有限公司 图像处理的方法和装置
CN109145803B (zh) * 2018-08-14 2022-07-22 京东方科技集团股份有限公司 手势识别方法及装置、电子设备、计算机可读存储介质
CN109124587A (zh) * 2018-08-14 2019-01-04 上海常仁信息科技有限公司 一种基于机器人的皮肤检测系统和方法
CN113614487A (zh) * 2019-03-26 2021-11-05 索尼集团公司 图像处理装置、图像处理方法和图像处理程序

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216955A (ja) * 2002-01-23 2003-07-31 Sharp Corp ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP2003248829A (ja) * 2002-02-26 2003-09-05 Univ Chuo 周期性を有する動きの検出方法および装置
JP2005250708A (ja) * 2004-03-03 2005-09-15 Nippon Telegr & Teleph Corp <Ntt> 道具動作認識装置および道具動作認識方法
JP2006242909A (ja) * 2005-03-07 2006-09-14 Toyota Central Res & Dev Lab Inc 対象物の部位判別装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5031049A (en) * 1984-05-25 1991-07-09 Canon Kabushiki Kaisha Automatic object image follow-up device
US5418574A (en) * 1992-10-12 1995-05-23 Matsushita Electric Industrial Co., Ltd. Video signal correction apparatus which detects leading and trailing edges to define boundaries between colors and corrects for bleeding
JPH06304142A (ja) * 1993-04-22 1994-11-01 Canon Inc 視線検出装置
EP0957750A1 (en) * 1995-10-23 1999-11-24 Cytometrics, Inc. Method and apparatus for reflected imaging analysis
US5771033A (en) * 1996-05-24 1998-06-23 Microsoft Corporation Method and system for dissolving an image displayed on a computer screen
JPH10150572A (ja) * 1996-09-18 1998-06-02 Fuji Xerox Co Ltd 画像処理装置、画像処理方法、画像処理プログラムを記録した媒体
US6292576B1 (en) * 2000-02-29 2001-09-18 Digital Persona, Inc. Method and apparatus for distinguishing a human finger from a reproduction of a fingerprint
KR101035667B1 (ko) * 2002-05-09 2011-05-19 소니 주식회사 생체 인식 패턴 검출 장치, 개인 인증 장치 및 방법
ATE476908T1 (de) * 2003-04-18 2010-08-15 Medispectra Inc System und diagnoseverfahren zur optischen detektion von verdächtigen stellen einer gewebeprobe
JP4479194B2 (ja) * 2003-08-29 2010-06-09 富士ゼロックス株式会社 動作識別装置、及び対象物の姿勢識別装置
US7379562B2 (en) * 2004-03-31 2008-05-27 Microsoft Corporation Determining connectedness and offset of 3D objects relative to an interactive surface
US7427981B2 (en) * 2004-04-15 2008-09-23 Avago Technologies General Ip (Singapore) Pte. Ltd. Optical device that measures distance between the device and a surface
JP4537143B2 (ja) * 2004-07-30 2010-09-01 キヤノン株式会社 画像処理装置及びその方法、撮像装置、プログラム
US7469060B2 (en) * 2004-11-12 2008-12-23 Honeywell International Inc. Infrared face detection and recognition system
US20070140553A1 (en) * 2005-12-19 2007-06-21 Olympus Corporation Dental colorimetry apparatus
US9696808B2 (en) * 2006-07-13 2017-07-04 Northrop Grumman Systems Corporation Hand-gesture recognition method
JP2008182360A (ja) * 2007-01-23 2008-08-07 Funai Electric Co Ltd 皮膚領域検出撮像装置
US20080304736A1 (en) * 2007-02-20 2008-12-11 Masahiro Nakagawa Method of estimating a visual evaluation value of skin beauty
JP4853414B2 (ja) * 2007-07-18 2012-01-11 ソニー株式会社 撮像装置、画像処理装置およびプログラム
JP5156365B2 (ja) 2007-12-27 2013-03-06 ライオン株式会社 プラスチックボトル
US8174611B2 (en) * 2009-03-26 2012-05-08 Texas Instruments Incorporated Digital image segmentation using flash

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216955A (ja) * 2002-01-23 2003-07-31 Sharp Corp ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP2003248829A (ja) * 2002-02-26 2003-09-05 Univ Chuo 周期性を有する動きの検出方法および装置
JP2005250708A (ja) * 2004-03-03 2005-09-15 Nippon Telegr & Teleph Corp <Ntt> 道具動作認識装置および道具動作認識方法
JP2006242909A (ja) * 2005-03-07 2006-09-14 Toyota Central Res & Dev Lab Inc 対象物の部位判別装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP2378759A4
YASUHIRO SUZUKI ET AL.: "Detection Method of Skin Region by Near-IR Spectrum Multi-Band", IEEJ TRANSACTIONS ON ELECTRONICS, INFORMATION AND SYSTEMS, vol. 127, no. 4, 2007

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013054664A1 (ja) * 2011-10-12 2013-04-18 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及び電子機器
US9286513B2 (en) 2012-12-18 2016-03-15 Fujitsu Limited Image processing apparatus, method, and storage medium
JP2017510912A (ja) * 2014-02-10 2017-04-13 アップル インコーポレイテッド 光学センサを使用して検出されるモーションジェスチャ入力
WO2016185916A1 (ja) * 2015-05-20 2016-11-24 コニカミノルタ株式会社 ウェアラブル電子機器、ウェアラブル電子機器のジェスチャー検知方法およびウェアラブル電子機器のジェスチャー検知プログラム
JPWO2016185916A1 (ja) * 2015-05-20 2018-03-15 コニカミノルタ株式会社 ウェアラブル電子機器、ウェアラブル電子機器のジェスチャー検知方法およびウェアラブル電子機器のジェスチャー検知プログラム
JP2018109899A (ja) * 2017-01-05 2018-07-12 キヤノン株式会社 情報処理装置、操作検出方法、及びコンピュータプログラム
US10379678B2 (en) 2017-01-05 2019-08-13 Canon Kabushiki Kaisha Information processing device, operation detection method, and storage medium that determine the position of an operation object in a three-dimensional space based on a histogram

Also Published As

Publication number Publication date
WO2011001593A1 (en) 2011-01-06
EP2384485A1 (en) 2011-11-09
US8107706B2 (en) 2012-01-31
KR20120031309A (ko) 2012-04-02
US20110194774A1 (en) 2011-08-11
EP2378759A1 (en) 2011-10-19
CN102138148B (zh) 2013-07-24
JP4548542B1 (ja) 2010-09-22
US20110216941A1 (en) 2011-09-08
EP2378759A4 (en) 2012-11-07
US20110142349A1 (en) 2011-06-16
JP2014064047A (ja) 2014-04-10
JPWO2011001761A1 (ja) 2012-12-13
KR20120039498A (ko) 2012-04-25
CN102138148A (zh) 2011-07-27
US8285054B2 (en) 2012-10-09
TW201112168A (en) 2011-04-01
JP4831267B2 (ja) 2011-12-07

Similar Documents

Publication Publication Date Title
JP4831267B2 (ja) 情報処理装置、情報処理方法、プログラム及び電子装置
JP6847124B2 (ja) ミラーコンポーネント用の適応照明システム、及び適応照明システムを制御する方法
TWI699707B (zh) 結構光投射器的控制方法、深度相機和電子裝置
JP4831259B1 (ja) 画像処理装置、画像処理方法、および制御プログラム
JP5800175B2 (ja) 画像処理装置、画像処理方法、プログラム、及び電子機器
US20110298909A1 (en) Image processing apparatus, image processing method, program and electronic apparatus
WO2011062102A1 (ja) 情報処理装置、情報処理方法、プログラム、及び電子機器
JP5879562B2 (ja) カメラ付きミラー装置、ミラー付き什器
JP6799155B2 (ja) 情報処理装置、情報処理システム、および被写体情報特定方法
US20190213436A1 (en) Color identification using infrared imaging
JP2012256130A (ja) 画像処理装置、画像処理方法、および制御プログラム
JP2016514305A (ja) 陰影検出および減衰のためのマルチスペクトル撮像システム
US8805006B2 (en) Information processing device configured to detect a subject from an image and extract a feature point from the subject, information processing method, program and electronic apparatus
JP5573209B2 (ja) 画像処理装置、画像処理方法、プログラム、及び電子機器
US9684828B2 (en) Electronic device and eye region detection method in electronic device
JP2011186816A (ja) 顔画像合成装置
JP5287792B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN114463793A (zh) 摄影装置、认证装置及生物体摄影方法
KR101146017B1 (ko) 정보 처리 장치 및 정보 처리 방법
JP2006127539A (ja) 画像抽出装置
JP2011118465A (ja) 位置検出装置、撮像装置、位置検出方法、位置検出プログラムおよび記録媒体
JP2011158447A (ja) 画像処理装置、画像処理方法、プログラム、及び電子機器

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2010793932

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10793932

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20117004443

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2011520477

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13059422

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE