WO2015104919A1 - ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法 - Google Patents

ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法 Download PDF

Info

Publication number
WO2015104919A1
WO2015104919A1 PCT/JP2014/081901 JP2014081901W WO2015104919A1 WO 2015104919 A1 WO2015104919 A1 WO 2015104919A1 JP 2014081901 W JP2014081901 W JP 2014081901W WO 2015104919 A1 WO2015104919 A1 WO 2015104919A1
Authority
WO
WIPO (PCT)
Prior art keywords
gesture
gesture recognition
user
external device
image
Prior art date
Application number
PCT/JP2014/081901
Other languages
English (en)
French (fr)
Inventor
片桐 哲也
義朗 平原
Original Assignee
コニカミノルタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタ株式会社 filed Critical コニカミノルタ株式会社
Publication of WO2015104919A1 publication Critical patent/WO2015104919A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye

Definitions

  • the present invention relates to an apparatus for recognizing a gesture from a moving image.
  • an image (image) that is detachably mounted on a user's head or face and obtained from an image display device such as a small liquid crystal display element is displayed in the user's field of view by an eyepiece optical system, whereby the image is displayed.
  • a so-called HMD (Head Mount Display) configured to be observable by the user is known.
  • a user who wears such an HMD changes the video being viewed by, for example, performing a predetermined movement with his / her hand. That is, the user erases or enlarges or reduces the video being viewed by performing a gesture (gesturing hand gesture).
  • the HMD is provided with a camera and a processor arranged so as to be a camera field of view of the user. That is, the movement of the user's hand taken by the camera is analyzed by the processor, the user's instruction is recognized, and the instruction is executed by the processor.
  • Patent Document 1 describes a technique for reducing erroneous determinations by determining a feeding operation of a finger as a pointer by determining an effective range for determining whether or not it is a feeding operation.
  • Patent Document 2 describes a gesture recognition device that is worn on a user's chest in order to send an instruction by electronic gesture to a placed electronic device.
  • the above-mentioned HMD is worn on the user's head and face, and considering the user's operability and portability, it is desirable to wear a battery as a power source.
  • the amount of power of the battery that can be worn is naturally limited. Therefore, the gesture recognition device installed in the HMD is desired to save power and can execute instructions by gestures for as long as possible. desirable.
  • the present invention has been made in view of the above-described circumstances, and an object of the present invention is to provide a gesture recognition device and a gesture recognition method capable of performing gesture recognition for a longer time with power saving, and the gesture recognition device.
  • An operation input device is provided.
  • a gesture recognition device is battery-powered and includes a plurality of gesture recognition processes that recognize gestures performed by a user from a moving image with different processing amounts, and includes a plurality of gesture recognition processes.
  • a gesture recognition process is selected according to the remaining amount of power of the battery, and the gesture performed by the user is recognized by the selected gesture recognition process.
  • the gesture recognition method according to the present invention is a method used in the gesture recognition device, and the operation input device according to the present invention includes the gesture recognition device. Therefore, the gesture recognition device, the method, and the operation input device according to the present invention can perform gesture recognition for a longer time.
  • FIG. 1 is a diagram illustrating an appearance of an HMD and an external device according to the embodiment.
  • the HMD 1 is a device that is worn on the user's head, and in the present embodiment, has a structure imitating glasses for correcting vision.
  • the HMD 1 includes, for example, a pair of left and right temples L1 and L2, a bridge B, and a pair of left and right transparent members G1 and G2.
  • the temples L1 and L2 are elongate rod-shaped members made of, for example, an elastic material, and have an ear hook portion that is hung on the user's ear at one end portion, and the other end portion is a transparent member. It is fixed and hooked on the user's ear or temporal region.
  • a control unit U is mounted in the vicinity of the ear hook portion that is hung on the user's left ear.
  • the bridge B is a short bar-like member for connecting the pair of left and right transparent members G1 and G2 to each other, and is fixed to the transparent member G at both ends thereof, and the pair of left and right transparent members G1 and G2 are spaced apart from each other. Held in relative positional relationship.
  • the transparent member G is made of a material that is transparent to visible light, such as a resin such as polycarbonate or polymethylmethacrylate, or glass, and has a rectangular shape with rounded corners, such as the outer shape of a spectacle lens for correcting vision. It is a plate-shaped member.
  • the display unit 12 is provided in the transparent member G1 corresponding to the user's right eye.
  • the display unit 12 is a device that displays a predetermined image (video), and displays an image transmitted from the controller 13 (see FIG. 2).
  • a camera 11 is provided on the upper part of the transparent member G1, and the camera 11 is fixed to the HMD 1 so that its optical axis substantially coincides with the wearer's line-of-sight direction when the user looks in the front substantially horizontal direction. Is held in. As a result, the camera 11 can take an image of the user's front visual field.
  • the camera 11 outputs a moving image captured at a predetermined frame rate to a control unit U connected by wire.
  • the control unit U performs a process of recognizing a gesture from the moving image transmitted from the camera 11, executing a command corresponding to the recognized gesture, and displaying the result on the display unit 12.
  • External device 2 is a device carried by the user.
  • the external device 2 is a device having a processor such as a so-called smartphone, a memory, and the like, and can communicate with the controller 13 by wire or wirelessly.
  • FIG. 2 is a block diagram showing an electrical configuration of the HMD and the external device shown in FIG.
  • the HMD 1 includes a camera 11, a display unit 12, a control unit 13, a communication unit 14, a posture detection unit 15, and a battery 16.
  • the HMD 1 is assumed to be in the form shown in FIG. 1, and the control unit U in FIG. 1 includes a control unit 13, a communication unit 14, an attitude detection unit 15, and a battery 16.
  • the camera 11 outputs a color moving image captured at a predetermined frame rate, in the embodiment, at a rate of 30 frames per second, to the control unit 13.
  • the display unit 12 displays an image transmitted from the control unit 13.
  • the display unit 12 includes a transmissive liquid crystal display device and a predetermined optical system, and displays an image based on the video signal transmitted by the control unit 13 on the transmissive liquid crystal display device.
  • the image displayed on the transmissive liquid crystal display device is directly projected onto the user's eyeball by a predetermined optical system. In this way, the user can view the video that is enlarged and projected in the air.
  • the control unit 13 includes a normal mode gesture recognition unit 131 (an example of a first gesture recognition unit), a power saving mode gesture recognition unit 132 (an example of a second gesture recognition unit), a command execution unit 133, a remaining power detection unit 134, An external device detection unit 135 is provided.
  • the control unit 13 controls other functional units such as the camera 11, performs processing according to the command indicated by the user's gesture based on the moving image captured by the camera 11, and displays the processing result on the display unit 12. It is what is displayed. For example, when the control unit 13 transmits one page such as an operation manual and displays it on the display unit 12, when the user performs a gesture indicating page turning, the control unit 13 For example, an image of the next page is transmitted to the display unit 12.
  • control unit 13 is configured by, for example, a microcomputer including a microprocessor, a memory, and peripheral circuits thereof.
  • the memory stores various data such as a correlation value calculation program for recognizing a gesture, various programs such as a control program for controlling the entire HMD 1, and data necessary for executing the program.
  • a microprocessor such as a so-called CPU (Central Processing Unit) executes a program stored in the memory, so that all or a part of each functional unit is functionally configured.
  • CPU Central Processing Unit
  • the normal mode gesture recognition unit 131 has a function of recognizing a gesture based on a moving image captured by the camera 11 and determining a command indicated by the gesture.
  • the power saving mode gesture recognition unit 132 has a function of recognizing a gesture and determining a command by processing smaller than the amount of processing performed by the normal mode gesture recognition unit 131. The processing of the normal mode gesture recognition unit 131 and the power saving mode gesture recognition unit 132 will be described in the section ⁇ Recognition of gestures>.
  • the command execution unit 133 executes the command determined by the normal mode gesture recognition unit 131 or the power saving mode gesture recognition unit 132 and transmits the execution result to the display unit 12 via the control unit 13.
  • the remaining power detection unit 134 detects the remaining power of the battery 16. In the embodiment, the remaining power detection unit 134 calculates a ratio (%) to the amount of power when the battery 16 is fully charged. The remaining power is detected based on, for example, the voltage between the terminals of the battery 16.
  • the external device detection unit 135 has a function of detecting the presence of the communicable external device 2. For example, when the external device detection unit 135 is connected to the external device 2 wirelessly, the search signal is sent to the external device 2 via the communication unit 14 when a predetermined switch (not shown) is operated by the user. And the presence of the external device 2 is detected when a response signal from the external device 2 is received. Further, for example, when the HMD 1 is operating, the external device detection unit 135 periodically transmits a search signal to the external device 2 and receives a response signal from the external device 2 to detect the presence of the external device 2. It may be configured to detect.
  • the external device 2 transmits a connection request signal to the external device 2 when the communication line is connected to the connection unit (not shown).
  • the response signal is received, the presence of the external device 2 may be detected.
  • the external device detection unit 135 turns on the external device presence flag in the internal memory, and then periodically communicates with the external device 2 to confirm the presence, thereby confirming the presence. If there is no more, turn off the external device presence flag in the internal memory.
  • the control unit 13 detects the presence or absence of the external device 2 with reference to the external device presence flag in the internal memory.
  • the communication unit 14 has a function of transmitting / receiving data to / from the communication unit 21 of the external device 2.
  • the communication unit 14 also has a function of transmitting a search signal in all directions toward the external device 2.
  • the posture detection unit 15 is a device that detects a change in the posture of the HMD 1, more specifically, a change in the orientation of the camera 11 (including a change due to rotation around the optical axis).
  • the attitude detection unit 15 includes a triaxial acceleration sensor, and detects the attitude from the acceleration of each axis detected as the axial component of each of the three axes (x, y, z) of the coordinate system in the acceleration sensor. How much the attitude of the HMD 1 on which the unit 15 is mounted has changed, that is, the amount of change in the orientation of the camera 11 is calculated. Then, the posture detection unit 15 calculates a displacement amount on the captured image, and outputs the calculated displacement amount to the control unit 13.
  • the HMD 1 recognizes a gesture, in detail, when the orientation of the camera 11 changes during the gesture, the coordinate position of the hand in the image using the displacement amount output from the posture detection unit 15 is used. Is corrected.
  • the orientation of the camera 11 changes by an angle ⁇ around the Y axis, that is, when the user turns the face sideways by the angle ⁇ .
  • A represents the angle of view of the camera 11
  • W represents the number of pixels of the width of the image output from the camera 11.
  • the displacement amount of the direction of the camera 11 may be obtained by determining a subject existing in the background in the image without using the three-axis sensor. For example, as shown in FIG. 12, consider a case where a specific part of a room (upper right corner of a window) is determined as a background subject. When the background subject is moving (see solid arrows), even if the user's hand is not actually moving, the coordinate position of the hand in the target image at time t20 and the target image at time t21 This is different from the coordinate position of the hand (refer to the hand represented by a solid line).
  • the difference between the coordinate position of the background subject in the target image at time t20 and the coordinate position of the background subject in the target image at time t21 corresponds to the amount of displacement of the camera direction (posture change amount). Therefore, the substantial displacement amount of the hand is obtained by subtracting the displacement amount of the camera from the displacement amount of the hand on the image.
  • the battery 16 is, for example, a so-called secondary battery that stores electricity to be supplied to each functional unit of the HMD 1.
  • the external device 2 includes a communication unit 21, a normal mode gesture recognition unit 22, and a battery 23.
  • functions inherently provided in the external device 2 for example, a call function in the case where the external device 2 is a smartphone, are omitted and not described.
  • the communication unit 21 has a function of transmitting / receiving data to / from the communication unit 14 of the HMD 1.
  • the communication unit 21 also has a function of receiving a search signal or a connection request signal from the HMD 1 and transmitting a response signal.
  • the normal mode gesture recognizing unit 22 has the same function as the normal mode gesture recognizing unit 131 of the HMD 1, that is, a function of analyzing a gesture based on a moving image photographed by the camera 11 and recognizing a command indicated by the gesture.
  • the battery 23 is, for example, a so-called secondary battery that stores electricity to be supplied to each functional unit of the external device 2.
  • FIG. 3 is a flowchart showing the point position detection process in the normal mode.
  • FIG. 4 is a diagram for explaining template matching.
  • FIG. 5 is a diagram illustrating an example of a template.
  • FIG. 6 is a diagram for explaining gesture recognition.
  • FIG. 7 is a diagram illustrating another example of the template.
  • FIG. 8 is a diagram for explaining an example of three-dimensional template matching.
  • FIG. 9 is a diagram for explaining another example of three-dimensional template matching.
  • the gesture is a movement of the user's hand, and the HMD 1 interprets that a predetermined command is instructed and executes the command when the user's hand makes a predetermined movement.
  • the command is expressed by the fine movement of the finger of the hand such as a so-called swipe command such as page feed and page return, which is represented by the movement of the entire hand, or a so-called pinch command which is performed by attaching the thumb and forefinger and then separating them.
  • a command includes a three-dimensional display in which a predetermined place such as a button displayed on the display unit 12, that is, a button or the like displayed in the video being viewed by the user is pressed down.
  • a predetermined place such as a button displayed on the display unit 12, that is, a button or the like displayed in the video being viewed by the user is pressed down.
  • commands represented by finger movements are represented by finger movements.
  • commands do not have the same processing amount for recognizing the gesture indicating the command, and there are gestures that can be recognized with a small processing amount, and there are gestures that require high-precision processing (large processing amount). Further, even with the same command, for example, the processing amount can be reduced by reducing the detection accuracy of the finger position and executing the command.
  • the HMD 1 of the embodiment realizes long-time use by causing the external device 2 to recognize a gesture when there is an external device 2 that can communicate (use).
  • the HMD 1 performs a gesture with a small amount of processing required for recognition when the remaining power of the built-in battery falls below a predetermined threshold (for example, 20% of full charge).
  • a predetermined threshold for example, 20% of full charge.
  • the normal mode gesture recognizing unit 131 and the power saving mode gesture recognizing unit 132 have different recognizable gesture patterns (commands). Examples are shown in Table 1 below.
  • the normal mode gesture recognition unit 131 can recognize the gestures indicated by “Pattern 01” to “Pattern 15” in the “Gesture” column corresponding to “1” to “15” in the “Number” column.
  • the power mode gesture recognition unit 132 can recognize the gestures indicated by “Pattern 11” to “Pattern 15” in the “Gesture” column corresponding to “11” to “15” in the “Number” column. That is, the normal mode gesture recognizing unit 131 determines which of “pattern 01” to “pattern 15” corresponds to the gesture performed by the user, and if there is a corresponding one, the “command” The command name in the “name” column, for example, “click” is output. Is output.
  • the power saving mode gesture recognition unit 132 determines which of “Pattern 11” to “Pattern 15” corresponds to the user's gesture, and if there is a corresponding one, the “command name corresponding to the pattern” "Command name", for example, "page feed” is output.
  • the normal mode gesture recognition unit 131 can detect a finger movement or the like with high accuracy.
  • the user's gesture is recognized as “pattern 02” (drag) as a gesture pattern for selecting and moving an object.
  • the power saving mode gesture recognition unit 132 recognizes “Pattern 11” (page feed) as a gesture pattern for moving a hand because it cannot perform high-precision recognition even if the user performs the above-described operation. Will do. That is, the power saving mode gesture recognition unit 132 has a pattern that cannot be recognized, such as “pattern 02”.
  • the command execution unit 133 is a program having a program name in the “program name” column corresponding to the command name output by the normal mode gesture recognition unit 131 or the power saving mode gesture recognition unit 132, and a name when the command name is “click”. Starts the program “PG01” and executes the command.
  • the gesture recognition process will be described taking the process of detecting the point position as an example.
  • the point position detection process with high accuracy (hereinafter referred to as “normal mode”) will be described with reference to FIGS. Will be described.
  • the processing in the normal mode is processing performed by the normal mode gesture recognition unit 131.
  • target image an edge in an image to be processed (hereinafter referred to as “target image”) is extracted (step S10).
  • the target image is an image of one frame among the moving images captured by the camera 11.
  • An edge is a point where the brightness (shading) or color in an image changes abruptly between pixels that are adjacent or separated by a predetermined distance.
  • the contour of an object in the image is different from the background. Generally, the shade changes rapidly. Therefore, the edge represents the contour of the hand.
  • a differentiation relating to lightness / darkness is obtained, a lightness / darkness change is detected, and an edge is extracted.
  • FIG. 4 shows an example of template matching.
  • a correlation between a template T, which is a contour image of a hand, and a rectangular partial image (hereinafter referred to as “window W”) having the same size (number of pixels) as the template T in the target image is obtained.
  • the correlation value is calculated by shifting the window W from the upper left of the target image toward the right direction (x direction) by a predetermined number of pixels, and further, the correlation value is calculated by shifting the predetermined number of pixels in the x direction.
  • the correlation value is obtained by shifting by a predetermined number of pixels in the downward direction (y direction) and by shifting the predetermined number of pixels from the left side to the right direction (x direction).
  • the correlation value is calculated up to the lower right window W of the target image (see the solid line arrow in FIG. 3).
  • NCC Normalized Cross Correlation
  • T (i, j) is the luminance value of the pixel of the template T
  • I (i, j) is the luminance value of the pixel of the window W of the target image.
  • Coordinates (i, j) are: (0,0) for the upper left coordinates of the template and (M-1, N-1) for the lower right corners when the width of the template T is M pixels and the height is N pixels. It is a coordinate when doing.
  • SAD is calculated using the following formula.
  • SAD is a total of absolute values of differences in luminance values of pixels at the same position when raster scanning a template. The smaller the value, the more similar the image of window W is to the image of template T.
  • SDD is calculated using the following formula.
  • the SSD is a raster scan of the template, and is the sum of the squares of the difference in luminance values of the pixels at the same position. The smaller the value, the more the image of the window W resembles the image of the template T.
  • the position of the finger in the window W having the highest correlation value is set as the point position (step S12).
  • the correlation value of the window W surrounding the edge image S of the user's hand is the highest, and the fingertip position P is the point position.
  • the normal mode gesture recognizing unit 131 Since the size of the hand on the image varies depending on the position of the user's hand (distance from the camera) and the size of the hand, the normal mode gesture recognizing unit 131 has a plurality of hands representing different sizes of hands. Each template T may be used to scan a plurality of times and obtain a window W having the highest correlation value.
  • FIG. 5A shows the template T of the hand with the index finger extended
  • FIG. 5B shows the template T of the hand with the index finger pushed down.
  • FIG. 6 sequentially shows target images that have passed in the direction of the white arrow.
  • the t1 in the parentheses indicates the shooting time of the target image, and the larger suffix indicates that the image was shot later.
  • template image a window W whose correlation value with the template T in FIG. 5A is equal to or larger than a predetermined threshold is detected (hereinafter referred to as “template image is detected”), and the target image at time t2.
  • template image a window W whose correlation value with the template T in FIG. 5A is equal to or larger than a predetermined threshold is detected (hereinafter referred to as “template image is detected”), and the target image at time t2.
  • template image the template image of FIG. 5B
  • the moved template image of FIG. 5B is detected in the target image at time t3 (point position P2), and the moved template image of FIG. 5B is detected in the target image at time t4 (point position P3).
  • FIG. 7A shows a template T of a hand with a thumb and index finger attached
  • FIG. 7B shows a template T with a thumb and index finger released.
  • the normal mode gesture recognition unit 131 may be configured to perform three-dimensional pattern matching using the distance from the camera to the hand.
  • the distance to the hand can be detected.
  • two cameras 1 and 2 having the same pixel size ⁇ of a captured image are used, and the optical axis of the camera 1 and the optical axis of the camera 2 are arranged in parallel by being separated from each other by the baseline length L.
  • TOF Time Of Flight
  • TOF is the time when the projected light hits the target and returns.
  • the HMD 1 includes an imaging device for capturing a distance image.
  • depth information may be obtained using pattern projection.
  • pattern light such as a stripe pattern is projected onto an object, the projected object is photographed, and three-dimensional coordinates of points on the pattern appearing in the image are obtained.
  • a distance image composed of distance components of points corresponding to the density of the pattern light is generated.
  • FIGS. 8 and 9 for convenience of explanation, an image captured by a normal camera is shown, but an image used for matching is a distance image.
  • FIG. 8 is an image obtained by photographing a gesture in which the user clicks an object such as a button in the video by bending the right index finger of the right hand.
  • Template matching is performed between the three-dimensional template of the right hand with the index finger extended and the target in the three-dimensional space indicated by the target image (distance image) at time t6.
  • Template matching is performed by calculating a correlation value between a three-dimensional space of a distance image divided into a grid of a predetermined size and a three-dimensional template divided into the same grid of a predetermined size while shifting the grid one by one.
  • the 3D template is the surface of the 3D polygon model defined in the (x, y, z) 3D space set for the 3D template, converted into point cloud data with the same density as the distance image. It is. Using the number of point cloud data in each grid as a feature amount, a correlation value is calculated by the following equation.
  • Tn (i, j, k) is a feature amount of the lattice of the three-dimensional template
  • I (i, j, k) is a feature amount of the lattice of the target image.
  • template matching the same processing is performed by changing the angle of the three-dimensional template.
  • the 3D pattern matching method disclosed in Japanese Patent Application Laid-Open No. 2012-203894 is a 3D pattern matching method for detecting a three-dimensional object by matching with a template prepared in advance, and the surface shape of the object is determined.
  • the three-dimensional coordinate value of the point position P4 of the fingertip is obtained from the result of the three-dimensional pattern matching. Similarly, three-dimensional pattern matching is performed between the three-dimensional template of the right hand with the index finger bent and the target image (distance image) at time t7, and the three-dimensional coordinate value of the point position P5 of the fingertip is obtained.
  • FIG. 9 is an image when the user performs the same gesture as the gesture shown in FIG. 8, but is an image (distance image) when the orientation of the hand is different.
  • the three-dimensional pattern matching is performed between the three-dimensional template of the right hand with the index finger extended and the target image (distance image) at time t8, and the point position P6 of the fingertip is A three-dimensional coordinate value is obtained.
  • Three-dimensional pattern matching is performed between the three-dimensional template of the right hand with the index finger bent and the target image (distance image) at time t9, and the three-dimensional coordinate value of the point position P7 of the fingertip is obtained.
  • various gestures can be recognized by detecting the detailed point position, detecting the shape of the hand, and further correcting the displacement using the displacement amount output from the posture detection unit 15. Therefore, by performing gesture recognition in the normal mode, the application can execute various commands indicated by the gesture.
  • the processing in the power saving mode is processing performed by the power saving mode gesture recognition unit 132.
  • FIG. 10 is a flowchart of the point position detection process in the power saving mode
  • FIG. 11 is a diagram for explaining the point detection process in the power saving mode.
  • gesture recognition is performed without performing template matching.
  • an RGB range region corresponding to the skin color of the target image is selected (step S20).
  • binarization processing is performed on the selected portion corresponding to the skin color (pixel) and the other portion (pixel) (step S21).
  • a hatched portion in the target image at time t10 in FIG. 11 indicates a portion corresponding to the skin color.
  • the center of gravity of the skin color equivalent portion is set as the point position P10 (step S22).
  • a point is obtained using a pixel estimated to be a user's hand in the target image.
  • This method lacks the accuracy of the point position as compared with the case where the fingertip is obtained as the point position in the normal mode, but the processing amount is remarkably small.
  • the point position P11 is obtained from the target image at time t11 in FIG. 11 and the point position P12 is obtained from the target image at time t12, the movement amount and direction of the hand and (point positions P10 to P12) can be obtained. Swipe commands such as page feed and page return can be accurately recognized.
  • the power saving mode gesture recognizing unit 132 interprets it as an enlarged command if the distance between these portions is increased, and the distance becomes closer. For example, it may be configured to be interpreted as a reduction command.
  • the color of the user's hand is estimated as the skin color, and pixels corresponding to the skin color of the color target image are extracted. However, if the user is wearing a glove, Pixels corresponding to colors are extracted.
  • the HMD 1 is provided with a function that allows the user to input the color of the user's hand (gloves) to the HMD 1.
  • the power saving mode gesture recognition unit 132 may be configured to extract the user's hand region according to the type of the target image. For example, when the target image is a monochrome image instead of a color image
  • pixels that are estimated to be the brightness of the user's hand are extracted. For example, when the target image is a distance image, pixels that are estimated to be the position of the user's hand are extracted.
  • FIG. 13 is a flowchart showing gesture recognition processing of the HMD and the external device shown in FIG.
  • broken arrows indicate the flow of data between the HMD 1 and the external device 2.
  • the user wears the HMD 1 and the external device 2, presses a button (not shown) for instructing the start of operation, and presses a button (not shown) for instructing the detection of the external device 2.
  • the control unit 13 of the HMD 1 that has detected that the operation start instruction has been input instructs the camera 11 to start imaging.
  • the camera 11 Upon receiving the instruction, the camera 11 starts imaging at a predetermined frame rate, and starts outputting the captured moving image to the control unit 13 (step S10).
  • the control unit 13 requests the external device detection unit 135 to detect the external device 2. Upon receiving the request, the external device detection unit 135 starts detecting the presence of the external device 2 that can communicate. When the external device 2 is detected, the external device presence flag on the internal memory is turned on, and the presence of the external device 2 is confirmed. Start periodic communication for. When the external device detection unit 135 no longer detects the presence of the external device 2, the external device detection unit 135 turns off the external device presence flag.
  • the control unit 13 that has requested the external device detection unit 135 to detect the external device 2 refers to the external device presence flag in the internal memory.
  • the control unit 13 inputs the moving image via the communication unit 14. Is transmitted to the external device 2 (step S14).
  • the control unit 13 does not output the moving image to the normal mode gesture recognition unit 131. In other words, it can be said that the processing of the normal mode gesture recognition unit 131 is suppressed.
  • the external device 2 When the external device 2 receives a moving image from the HMD 1 via the communication unit 21 (step S21), the external device 2 passes the received moving image to the normal mode gesture recognition unit 22 and requests gesture recognition.
  • the normal mode gesture recognition unit 22 recognizes the gesture in the normal mode, determines a command, and outputs the determined command (step S22).
  • the external device 2 sends the command output from the normal mode gesture recognition unit 22 via the communication unit 21.
  • HMD1 is transmitted (step S23).
  • the control unit 13 of the HMD 1 that has received the command transmitted from the external device 2 via the communication unit 14 passes the received command to the command execution unit 133 to request execution (step S15).
  • the command execution unit 133 Upon receiving the request, the command execution unit 133 activates a program for processing the command passed from the control unit 13 and executes the command. Then, the command execution unit 133 outputs the execution result to the display unit 12 via the control unit 13 and causes the display unit 12 to display the execution result.
  • the control unit 13 repeats the process from step S10.
  • step S11 when the external device presence flag on the internal memory is OFF in step S11, the control unit 13 performs the power saving process (step S12).
  • FIG. 14 is a flowchart showing the power saving process of the HMD 1.
  • step S11: No When the external device presence flag on the internal memory is off (step S11: No), the control unit 13 requests the remaining power detection unit 134 to detect the remaining power.
  • the remaining power detection unit 134 Upon receiving the request, the remaining power detection unit 134 passes the remaining power, for example, “30%” to the control unit 13.
  • the control unit 13 that has received the remaining power from the remaining power detection unit 134 compares the remaining power with a predetermined threshold, for example, “20%”, and the remaining power exceeds the threshold. In the case (step S31: Yes), the moving image input from the camera 11 is transferred to the normal mode gesture recognition unit 131 to request recognition of the gesture.
  • the normal mode gesture recognition unit 131 Upon receiving the request, the normal mode gesture recognition unit 131 recognizes the gesture in the normal mode, determines a command, and outputs the determined command (step S34).
  • step S31 determines whether the remaining power is equal to or less than the threshold value in step S31 (step S31: No). If the remaining power is equal to or less than the threshold value in step S31 (step S31: No), the moving image input from the camera 11 is passed to the power saving mode gesture recognition unit 132 to request gesture recognition.
  • the power saving mode gesture recognition unit 132 Upon receiving the request, the power saving mode gesture recognition unit 132 recognizes the gesture in the power saving mode, determines a command, and outputs the determined command (step S32).
  • the control unit 13 passes the command received from the normal mode gesture recognition unit 131 or the power saving mode gesture recognition unit 132 to the command execution unit 133 to request execution.
  • step S13 of FIG. 13 the command determined by the power saving process is passed from the control unit 13, and the command execution unit 133 that receives the execution request executes the command passed from the control unit 13, and executes the result. Is output to the display unit 12 via the control unit 13 and displayed on the display unit 12.
  • the control unit 13 repeats the process from step S10.
  • the external device 2 when the external device 2 is present, the external device 2 recognizes the gesture in the normal mode, and when there is no external device 2, the normal mode is set according to the remaining power of the battery 16. Since the gesture recognition is performed by separating the power saving mode, the HMD 1 can be used for a long time.
  • the normal mode gesture recognition unit 22 of the external device 2 recognizes the gesture.
  • the normal mode is determined according to the remaining power of the battery 16.
  • the HMD 1 is configured so that either the mode gesture recognizing unit 131 or the power saving mode gesture recognizing unit 132 recognizes a gesture. Regardless, the HMD 1 may be configured to cause the power saving mode gesture recognition unit 132 to perform gesture recognition.
  • the HMD 1 of the embodiment compares the remaining amount of power of the battery 16 with a threshold value, and if the remaining power amount of the battery 16 exceeds the threshold value, the normal mode gesture recognition unit 131 recognizes the gesture, and the battery 16
  • the power-saving mode gesture recognizing unit 132 is configured to recognize a gesture when the remaining power level of the battery is equal to or less than the threshold.
  • the HMD 1 may be configured so that the normal mode gesture recognizing unit 131 and the power saving mode gesture recognizing unit 132 perform gesture recognition by switching with a threshold value.
  • the HMD 1 recognizes the gesture by the normal mode gesture recognition unit 131 and
  • the remaining power level is equal to or lower than a second threshold (for example, 15% when the battery 16 is fully charged)
  • the gesture recognition unit 132 recognizes the gesture, and the remaining power level of the battery 16 is the first power level.
  • the threshold value is less than the threshold value and exceeds the second threshold value (in this example, when the battery 16 is less than 25% when fully charged and exceeds 15%)
  • the normal mode gesture recognition unit 131 and the power saving mode gesture recognition are performed.
  • Gesture recognition units 131, 1 that recognize the latest (current) gesture without switching to the unit 132. Carried out in two.
  • the normal mode gesture recognition unit 131 recognizes the gesture as it is without switching. If the gesture is recognized by the power saving mode gesture recognition unit 132, the gesture is recognized by the power saving mode gesture recognition unit 132 without switching.
  • the normal mode gesture recognition unit 22 of the external device 2 recognizes the gesture
  • the normal mode gesture recognition unit 131 and the power saving mode gesture recognition unit 132 of the HMD 1 The HMD 1 is configured not to operate, but the HMD 1 is configured such that the normal mode gesture recognition unit 131 of the HMD 1 causes the normal mode gesture recognition unit 22 of the external device 2 to perform some processing. It may be.
  • the HMD 1 is configured so that the target image is divided into two and the normal mode gesture recognition unit 22 performs matching processing using the half target image.
  • the HMD 1 is configured to perform gesture recognition without performing template matching in the power saving mode, but for example, three-dimensional matching is performed in the normal mode, and three-dimensional matching is performed in the power saving mode.
  • the HMD 1 may be configured so as not to perform correction, and the HMD 1 is configured to perform correction based on the posture change of the camera 11 in the normal mode and not to perform correction based on the posture change of the camera 11 in the power saving mode. May be. It is sufficient that the processing amount in the power saving mode is smaller than the processing amount in the normal mode.
  • the HMD 1 may be configured so that the application program itself using the command indicated by the gesture that cannot be recognized by the power saving mode gesture recognition unit 132 cannot be started.
  • the control unit 13 controls.
  • the control unit 13 may control the operation of some functions using click and drag.
  • the control unit 13 controls the editing application so that only browsing is possible.
  • the remaining power detection unit 134 detects the remaining power of the battery 16 of the HMD 1, but calculates the remaining power by taking into account the power of the battery of the external device 2. Also good. In this case, the HMD 1 receives power supply from the external device 2. When the external device 2 is a sub battery, the remaining power may be calculated in consideration of the power amount of the sub battery, and the HMD 1 is supplied with power from the sub battery.
  • the HMD 1 is configured to perform the recognition process in the power saving mode when the power remaining amount falls below the threshold when the external device 2 is not provided. Is a sub-battery, if there is no external device 2, the recognition process in the power saving mode is performed regardless of the remaining power, and the recognition process in the normal mode is performed if the external device 2 is present. As is done, the HMD 1 may be configured.
  • the external device performs the gesture recognition process in the normal mode.
  • the external device is configured to perform the recognition process in the power saving mode, and the remaining power of the battery included in the external device is reduced. In this case, it may be configured to switch to the recognition process in the power saving mode.
  • a gesture recognition device includes a battery that stores electricity, an imaging unit that captures a moving image related to an operation of a part of a user's body, a remaining power level of the battery, and the remaining power level is a predetermined threshold Is exceeded, the first gesture recognition process is performed to recognize the gesture performed by the user, and when the remaining power is equal to or less than the predetermined threshold, the processing amount is larger than the first gesture recognition process. And a control unit that recognizes a gesture made by the user by performing a small second gesture recognition process.
  • a gesture recognition method is a gesture recognition method used in a gesture recognition device including a battery, and includes an imaging step of capturing a moving image related to a part of a user's body, and the moving image, A first gesture recognition step for recognizing a gesture made by the user, and a first gesture recognition step for recognizing the gesture made by the user from the moving image by a smaller amount of processing than the processing performed by the first gesture recognition unit.
  • a power detection step for detecting the remaining power of the battery, and when the remaining power detected in the power detection step exceeds a predetermined threshold, Recognize the gesture made, and the remaining power level is If more than a predetermined threshold value, and a control step for recognizing gestures made by the user in the second gesture recognition step.
  • Such a gesture recognition apparatus and gesture recognition method recognizes a gesture by a processing unit with a small processing amount for recognizing a gesture when the remaining power is equal to or less than a predetermined threshold. Therefore, the gesture recognition apparatus and method can recognize a gesture for as long as possible. For example, when an HMD equipped with this gesture recognition device is used, gesture recognition with a small amount of processing is performed when the remaining power level is low. However, the process using the HMD can be performed for a long time.
  • the user's body part is the user's wrist-to-hand (one hand, both hands), the elbow-to-arm (one arm, both arms), the fingertip (one hand finger, both hands finger), etc. Further, it may be the user's foot, or any part where the user performs a gesture.
  • the first gesture recognition process performs a template matching process to recognize a gesture performed by the user
  • the second gesture recognition process includes a template matching process. The gesture performed by the user is recognized without performing.
  • the gesture recognition device described above further includes a distance image capturing unit that captures a distance image of a part of the user's body, and the first gesture recognition process includes a process using the distance image.
  • the gesture performed by the user is recognized, and the second gesture recognition process recognizes the gesture performed by the user without performing the process using the distance image.
  • the second gesture recognition process is performed by the user based on a pixel in the moving image that is estimated to be a part of the captured body of the user. Recognize gestures made.
  • the moving image is a color image
  • the second gesture recognition process is performed in the moving image having a color equivalent to a color of a part of the user's body.
  • the gesture performed by the user is recognized based on the pixels.
  • the gesture recognition apparatus described above further includes a posture detection unit that detects a change in the orientation of the imaging unit, and the first gesture recognition process is performed in the middle of a gesture performed by the user.
  • the detection unit detects a change in direction
  • the coordinate position of a part of the user's body in the moving image is corrected based on the change in the direction detected by the posture detection unit, and is performed by the user.
  • the second gesture recognition process recognizes the gesture performed by the user without performing the correction.
  • the coordinate position is not corrected according to the change in the camera direction, so that the recognition accuracy is reduced, but power saving can be achieved. As a result, it can be used for a long time.
  • the gesture recognition apparatus further includes an external device detection unit that detects a communicable external device, and the control unit detects the external device when the external device detection unit detects the external device.
  • the control unit detects the external device when the external device detection unit detects the external device.
  • the moving image is transmitted to the external device, and a command indicated by the gesture performed by the user from the external device is indicated.
  • the external device performs a third gesture recognition process having the same function as the function of the first gesture recognition process, and the command indicated by the gesture recognized from the moving image received from the gesture recognition device is An external device that transmits to the gesture recognition device.
  • the gesture recognition is performed by the external device, it is possible to perform highly accurate gesture recognition while suppressing the power consumption of the gesture recognition device itself.
  • the gesture recognition device further includes an external device detection unit that detects an external device capable of receiving power supply, and the control unit includes the external device detection unit.
  • the control unit includes the external device detection unit.
  • An operation input device includes any one of the gesture recognition devices described above.
  • the gesture performed by the user recognized in the second gesture recognition process is a gesture performed by the user recognized in the first gesture recognition process.
  • the control unit performs control so that an application using only a command indicated by a gesture recognizable in the second gesture recognition process is started. .
  • a gesture recognition device an operation input device, and a gesture recognition method can be provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 本発明のジャスチャー認識装置は、バッテリー駆動であって、動画像から、ユーザによって行われたジェスチャーを互いに異なる処理量で認識する複数のジェスチャー認識処理を備え、前記複数のジェスチャー認識処理の中から前記バッテリーの電力残量に応じてジェスチャー認識処理を選択してこの選択したジェスチャー認識処理で前記ユーザによって行われたジェスチャーを認識する。

Description

ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法
 本発明は、動画像からジェスチャーを認識する装置に関する。
 従来、ユーザの頭部や顔面に着脱自在に装着され、小型の液晶表示素子等の映像表示装置から得られる映像(画像)を接眼光学系によってユーザの視野内に表示させることで、前記映像をユーザに観察可能に構成したいわゆるHMD(Head Mount Display)が知られている。
 このようなHMDを装着したユーザは、例えば、自分の手で所定の動きをすることで、観ている映像を変化させる。つまり、前記ユーザは、ジェスチャー(身振り手振り)を行うことで、観ている映像を消したり、拡大縮小させたりする。
 これは、HMDに、ユーザ視点のカメラ視野となるように配置されたカメラとプロセッサとが備えられ、次の処理によって実現される。すなわち、カメラで撮影されたユーザの手の動きがプロセッサによって解析されてユーザの指示が認識され、その指示がプロセッサにより実行される。
 ここで、ユーザの手のジェスチャーを認識する技術が提案されている。例えば、特許文献1では、ポインタである指の送り動作の判定を、送り動作か否かの判定を行う有効範囲を決めることで行われ、誤判定を軽減する技術が記載されている。特許文献2では、載置された電子機器にジェスチャーで指示を送るために、ユーザの胸に装着されるジェスチャー認識装置が記載されている。
 上述のHMDは、ユーザの頭部や顔面に装着するものであり、ユーザの動作性や可搬性を考慮すると、動力源であるバッテリーは身に着けておくことが望まれる。しかし、身に着けておけるバッテリーの電力量は、当然に有限である、このため、HMDに搭載されているジェスチャー認識装置は、省電力化が望まれ、できるだけ長時間ジェスチャーによる指示を実行できることが望ましい。
特開2013-105305号公報 特開2012-194659号公報
 本発明は、上述の事情に鑑みて為された発明であり、その目的は、省電力化して、より長時間、ジェスチャー認識を実行できるジェスチャー認識装置およびジェスチャー認識方法、ならびに、前記ジェスチャー認識装置を備える操作入力装置を提供することである。
 本発明にかかるジャスチャー認識装置は、バッテリー駆動であって、動画像から、ユーザによって行われたジェスチャーを互いに異なる処理量で認識する複数のジェスチャー認識処理を備え、前記複数のジェスチャー認識処理の中から前記バッテリーの電力残量に応じてジェスチャー認識処理を選択してこの選択したジェスチャー認識処理で前記ユーザによって行われたジェスチャーを認識する。そして、本発明にかかるジャスチャー認識方法は、このジャスチャー認識装置で用いられる方法であり、本発明にかかる操作入力装置は、このジャスチャー認識装置を備える。このため、本発明にかかるジェスチャー認識装置および該方法ならびに操作入力装置は、より長時間、ジェスチャー認識を行うことができる。
 上記並びにその他の本発明の目的、特徴および利点は、以下の詳細な記載と添付図面から明らかになるであろう。
実施形態におけるHMDおよび外部装置の外観を示す図である。 図1に示すHMDおよび外部装置の構成を示すブロック図である。 通常モードでのポイント位置検出処理を示すフローチャートである。 テンプレートマッチングを説明するための図である。 テンプレートの例を示す図である。 ジェスチャーの認識を説明するための図である。 テンプレートの他の例を示す図である。 3次元テンプレートマッチングの一例を説明するための図である。 3次元テンプレートマッチングの他の一例を説明するための図である。 省電力モードでのポイント位置検出処理を示すフローチャートである。 省電力モードでのポイント位置検出処理を説明するための図である。 姿勢制御を説明するための図である。 図2に示すHMDおよび外部装置のジェスチャー認識処理を示すフローチャートである。 図2に示すHMDの省電力処理を示すフローチャートである。
 以下、本発明にかかる実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
<概要>
 図1は、実施形態におけるHMDおよび外部装置の外観を示す図である。
 HMD1は、ユーザの頭部に装着するための装置であり、本実施形態では、視力矯正用のメガネを模した構造で構成されている。HMD1は、例えば、左右一対のテンプルL1、L2と、ブリッジBと、左右一対の透明部材G1、G2とを備える。
 テンプルL1、L2は、例えば弾性素材等から構成される長尺棒状の部材であり、その一方端部にはユーザの耳に掛けられる耳掛け部分を有し、その他方端部は、透明部材に固定され、ユーザの耳や側頭部に掛け止められる。ユーザの左耳に掛けられる耳掛け部分付近には、制御ユニットUが装着されている。
 ブリッジBは、左右一対の透明部材G1、G2を互いに連結するための短尺棒状の部材であり、その両端で透明部材Gに固定され、左右一対の透明部材G1、G2は、一定の間隔を空けた相対位置関係で保持される。
 透明部材Gは、例えばポリカーボネートやポリメチルメタクリレート等の樹脂やガラス等の可視光線に対し透明な素材等から構成され、視力矯正用のメガネレンズの外形形状のような、角を丸く縁取りした長方形状の板状部材である。本実施形態では、ユーザの右眼に対応する透明部材G1に表示ユニット12が備えられている。
 表示ユニット12は、所定の画像(映像)を表示する装置であり、コントローラ13(図2参照)から送信されてきた画像を表示する。
 透明部材G1の上部にはカメラ11が備えられ、カメラ11は、ユーザが前方略水平方向を見た場合に、その光軸が装着者の視線方向に略一致するように、HMD1に対し固定的に保持されている。これによってカメラ11は、ユーザの前方視野内を撮影することが可能となる。カメラ11は、所定のフレームレートで撮影した動画像を、有線で接続された制御ユニットUに出力する。
 制御ユニットUは、カメラ11から送信されてきた動画像からジェスチャーを認識し、認識されたジェスチャーに応じたコマンドを実行し、その結果を表示ユニット12に表示する等の処理を行う。
 外部装置2は、ユーザが携帯している装置である。外部装置2は、いわゆるスマートフォン等のプロセッサやメモリ等を有する装置であり、コントローラ13と有線または無線で通信可能となっている。
 <構成>
 図2は、図1に示すHMDおよび外部装置の電気的な構成を示すブロック図である。
 HMD1は、カメラ11、表示ユニット12、制御部13、通信部14、姿勢検知部15、および、バッテリー16を備える。なお、HMD1は、図1に示す形態であるものとし、図1の制御ユニットUには、制御部13、通信部14、姿勢検知部15、および、バッテリー16が搭載されている。
 カメラ11は、所定のフレームレートで、実施形態では、1秒間に30フレームのレートで撮影したカラーの動画像を、制御部13に出力する。
 表示ユニット12は、制御部13から送信されてきた画像を表示する。例えば、表示ユニット12は、透過型液晶表示装置と所定の光学系を備え、制御部13によって送信された映像信号による映像を透過型液晶表示装置に表示する。これによって、前記透過型液晶表示装置に表示された映像が、所定の光学系によってユーザの眼球に直接投影される。このように、ユーザは、空中に拡大投影されている映像を観ることが可能となっている。
 制御部13は、通常モードジェスチャー認識部131(第1ジェスチャー認識部の一例)、省電力モードジェスチャー認識部132(第2ジェスチャー認識部の一例)、コマンド実行部133、電力残量検出部134、および、外部機器検出部135を備える。制御部13は、カメラ11等の他の機能部を制御し、カメラ11で撮影された動画像に基づいて、ユーザのジェスチャーが示すコマンドに応じた処理を行い、その処理結果を表示ユニット12に表示させるものである。例えば、制御部13が操作手引書等の1ページを送信して表示ユニット12に表示しているときに、ユーザが、ページ送りを示すジェスチャーを行った場合、制御部13は、操作手引書の次のページの画像を表示ユニット12に送信する等である。
 なお、制御部13は、例えば、マイクロプロセッサ、メモリおよびその周辺回路を備えるマイクロコンピュータによって構成されている。メモリには、ジェスチャーを認識するため相関値算出プログラムや、HMD1全体を制御するための制御プログラム等の各種のプログラム、プログラムの実行に必要なデータ等の各種のデータが記憶される。そして、いわゆるCPU(Central Processing Unit)等であるマイクロプロセッサが、メモリに記憶されているプログラムを実行することにより、各機能部の全部または一部が機能的に構成される。
 通常モードジェスチャー認識部131は、カメラ11が撮像した動画像に基づいてジェスチャーを認識し、ジェスチャーが示すコマンドを決定する機能を備える。省電力モードジェスチャー認識部132は、通常モードジェスチャー認識部131が行う処理の量よりも少ない処理によってジェスチャーを認識し、コマンドを決定する機能を備える。この通常モードジェスチャー認識部131および省電力モードジェスチャー認識部132の処理は、<ジェスチャーの認識>の項で説明する。
 コマンド実行部133は、通常モードジェスチャー認識部131または省電力モードジェスチャー認識部132が決定したコマンドを実行し、その実行結果を、制御部13を介して表示ユニット12に送信する。
 電力残量検出部134は、バッテリー16の電力残量を検出する。実施形態では、電力残量検出部134は、バッテリー16のフル充電時の電力量に対する割合(%)を算出する。電力残量は、例えば、バッテリー16の端子間電圧に基づいて検出される。
 外部機器検出部135は、通信可能な外部装置2の存在を検出する機能を備える。例えば、外部機器検出部135は、無線によって外部装置2と接続される場合、ユーザによって所定のスイッチ(不図示)が操作されたときに、通信部14を介して外部装置2に向けて探索信号を送信し、外部装置2からの応答信号を受信した場合に、外部装置2の存在を検出する。また例えば、外部機器検出部135は、HMD1が動作中には周期的に外部装置2に向けて探索信号を送信し、外部装置2からの応答信号を受信した場合に、外部装置2の存在を検出するように構成されてもよい。また例えば、外部機器検出部135は、有線で接続される場合には、接続部(不図示)に通信線が接続されたときに、外部装置2に接続要求信号を送信し、外部装置2からの応答信号を受信した場合に、外部装置2の存在を検出するように構成されてもよい。
 外部機器検出部135は、外部装置2を検出した場合に、内部メモリ内の外部機器有フラグをオンにし、その後、定期的に外部装置2と存在確認のための通信を行い、存在が確認できなくなった場合に、内部メモリ内の外部機器有フラグをオフにする。制御部13は、この内部メモリ内の外部機器有フラグを参照して、外部機器2の有無を検出する。
 通信部14は、外部装置2の通信部21とデータを送受信する機能を備える。通信部14は、外部装置2に向けて全方位に探索信号を送信する機能も備える。
 姿勢検知部15は、HMD1の姿勢の変化、より具体的には、カメラ11の向きの変化(光軸周りの回転による変化も含む)を検出する装置である。実施形態では、姿勢検知部15は、3軸加速度センサを備え、加速度センサ内の座標系の3軸(x、y、z)それぞれの軸方向成分として検出される各軸の加速度から、姿勢検知部15が搭載されているHMD1の姿勢がどのくらい変化したか、つまり、カメラ11の向きの変化量を算出する。そして、姿勢検知部15は、撮影した画像上での変位量を算出し、算出した変位量を制御部13に出力する。
 ユーザが顔の向きを変える等してカメラ11の姿勢が変化した場合、ユーザの手が動いていない場合であっても、カメラ11が出力した画像内における手の座標位置が変化するので、実際にユーザが行ったジェスチャーとは異なる動きとして認識され、誤ったコマンドが実行されてしまうことがあり得る。したがって、HMD1では、ジェスチャーを認識する際に、詳細には、ジェスチャーの途中でカメラ11の向きが変化した場合、姿勢検知部15から出力される変位量を用いて、画像内の手の座標位置が補正される。
 例えば、立ち姿勢のユーザにおいて頭から足に向かう軸をY軸としたときに、カメラ11の向きがY軸周りに角度θ変化した場合、つまり、ユーザが顔を角度θ横に回したときの変位量(単位:画素)dは、
d=tan(θ)÷(tan(A÷2)×2)×W
となる。この場合、Aは、カメラ11の画角を表し、Wは、カメラ11が出力する画像の幅の画素数を表す。
 また、3軸センサを用いずに、画像内の背景に存在する被写体を定めておくことで、カメラ11の向きの変位量が求められてもよい。例えば、図12に示すように、部屋の特定部分(窓の右上角)を背景の被写体として定めた場合を考える。背景の被写体が移動している場合は(実線矢印参照)、ユーザの手が実際には動いていない場合であっても、時刻t20の対象画像における手の座標位置と、時刻t21の対象画像における手の座標位置とは異なっていることになる(実線で表した手参照)。したがって、時刻t20の対象画像における背景の被写体の座標位置と、時刻t21の対象画像における背景の被写体の座標位置との差分が、カメラの向きの変位量(姿勢の変化量)に相当する。したがって、手の実質的な変位量は、画像上の手の変位量からカメラの変位量を引いたものになる。
 図2に戻って、バッテリー16は、HMD1の各機能部に供給するための電気を蓄える、例えばいわゆる二次電池である。
 外部装置2は、通信部21、通常モードジェスチャー認識部22、および、バッテリー23を備える。なお、図2では、外部装置2が固有に備える機能、例えば、外部装置2がスマートフォンである場合の通話機能等は、記載を省略し、記載していない。
 通信部21は、HMD1の通信部14とデータを送受信する機能を備える。通信部21は、HMD1からの探索信号または接続要求信号等を受信し、応答信号を送信する機能も備える。
 通常モードジェスチャー認識部22は、HMD1の通常モードジェスチャー認識部131と同様の機能、つまり、カメラ11が撮影した動画像に基づいてジェスチャーを解析し、ジェスチャーが示すコマンドを認識する機能を備える。
 バッテリー23は、外部装置2の各機能部に供給するための電気を蓄える、例えばいわゆる二次電池である。
 <ジェスチャーの認識>
 次に、図3ないし図9を用いて、ジェスチャーの認識について説明する。図3は、通常モードでのポイント位置検出処理を示すフローチャートである。図4は、テンプレートマッチングを説明するための図である。図5は、テンプレートの例を示す図である。図6は、ジェスチャーの認識を説明するための図である。図7は、テンプレートの他の例を示す図である。図8は、3次元テンプレートマッチングの一例を説明するための図である。図9は、3次元テンプレートマッチングの他の一例を説明するための図である。実施形態では、ジェスチャーは、ユーザの手の動きであるものとし、HMD1は、ユーザの手が所定の動きをしたときに、所定のコマンドが指示されたと解釈して、そのコマンドを実行する。
 コマンドには、例えば、ページ送り、ページ戻り等のいわゆるスワイプコマンドの、手全体の動きによって表すコマンドや、親指と人差し指をくっ付けてから離すいわゆるピンチコマンド等の、手の指の細かい動きによって表すコマンドがある。また、コマンドには、表示ユニット12に表示されたボタン等の所定の場所、つまり、ユーザが観ている映像中に映し出されているボタン等を、ピンポイントに押下するような、3次元的な指の動きによって表すコマンドがある。
 これらのコマンドは、コマンドを示すジェスチャーを認識するために処理量が、全て同等ではなく、少ない処理量によって認識できるジェスチャーもあれば、高精度な処理(大きい処理量)が必要なジェスチャーもある。また、同じコマンドでも、例えば指の位置の検出精度を落として、コマンドを実行することで処理量を減らすことも可能である。
 実施形態のHMD1は、通信可能(利用可能)な外部装置2が在る場合、外部装置2にジェスチャーの認識を行わせることで、長時間の使用を実現する。外部装置2が無い場合、HMD1は、内臓バッテリーの電力残量が予め定められた閾値(例えば、フル充電時の20%)以下となった場合に、認識に必要な処理量が少ない方法でジェスチャーを認識するように制御することで、省電力を図り、長時間の使用を実現する。言い換えれば、実施形態のHMD1は、使用電力量に応じて、ジェスチャーを認識するための方法を変えることにより、長時間の使用を可能としている。
 実施形態では、通常モードジェスチャー認識部131および省電力モードジェスチャー認識部132は、認識できるジェスチャーのパターン(コマンド)が異なる。その例が、以下の表1に示されている。
Figure JPOXMLDOC01-appb-T000001
 表1では、「番号」欄には、1から昇順の番号が記載され、「ジェスチャー」欄には、ジェスチャーを特定するための手の動きを示す情報(パターン情報)が記載されている。ここでは、「番号」1の「ジェスチャー」欄には、「パターン01」等と記載されている。「コマンド名」欄には、「ジェスチャー」欄に記載されたパターン情報に対応するコマンドの名称が記載され、「プログラム名」欄には、「コマンド名」欄に記載されたコマンドを実行するためのプログラムの名称が記載されている。
 通常モードジェスチャー認識部131は、「番号」欄の「1」~「15」に対応する「ジェスチャー」欄の「パターン01」~「パターン15」が示すジェスチャーを認識することが可能であり、省電力モードジェスチャー認識部132は、「番号」欄の「11」~「15」に対応する「ジェスチャー」欄の「パターン11」~「パターン15」が示すジェスチャーを認識することが可能である。つまり、通常モードジェスチャー認識部131は、ユーザが行ったジェスチャーが、「パターン01」~「パターン15」のいずれに該当するかを判断し、該当するものがあれば、そのパターンに対応する「コマンド名」欄のコマンド名、例えば「クリック」を出力する。を出力する。また、省電力モードジェスチャー認識部132は、ユーザのジェスチャーが、「パターン11」~「パターン15」のいずれに該当するかを判断し、該当するものがあれば、そのパターンに対応する「コマンド名」欄のコマンド名、例えば「ページ送り」を出力する。
 例えば、ユーザが、「映像中の物体を人差し指で押下し、押下したまま移動させる」ジェスチャーを行った場合、通常モードジェスチャー認識部131は、高精度な指の動き等の検出が可能であり、ユーザのジェスチャーを、物体を選択して移動するジェスチャーのパターンとして「パターン02」(ドラッグ)を認識することになる。一方、省電力モードジェスチャー認識部132は、ユーザが上述のような動作を行ったとしても、高精度な認識はできないので、手を移動するジェスチャーのパターンとして「パターン11」(ページ送り)を認識することになる。つまり、省電力モードジェスチャー認識部132は、「パターン02」のように認識できないパターンがあることになる。
 コマンド実行部133は、通常モードジェスチャー認識部131または省電力モードジェスチャー認識部132が出力したコマンド名に対応する「プログラム名」欄のプログラム名のプログラム、コマンド名が「クリック」である場合は名称が「PG01」のプログラムを起動して、コマンドを実行する。
 なお、ここでは、説明の便宜上、表形式としているが、通常モードジェスチャー認識部131等において、ジェスチャーとコマンドが対応付けられていればよく、コマンド実行部133において、コマンドとプログラムが対応付けられていればよい。
 以下、ポイント位置を検出する処理を例に、ジェスチャー認識処理について説明する。図3ないし図9を用いて、高精度(以下、「通常モード」という。)でのポイント位置検出処理を説明し、図10および図11を用いて、少ない処理(以下、「省電力モード」という。)でのポイント位置検出処理を説明する。
 <通常モードでの処理>
 通常モードでの処理は、通常モードジェスチャー認識部131が行う処理である。
 図3において、まず、処理対象の画像(以下、「対象画像」という。)内のエッジが抽出される(ステップS10)。対象画像は、カメラ11が撮影した動画像のうちの1フレームの画像である。
 エッジとは、画像中の明るさ(濃淡)あるいは色が、隣接または所定距離離れた画素間で急に変化している箇所のことであり、画像中の物体の輪郭では、背景との相違で一般に濃淡が急激に変化している。したがって、エッジが手の輪郭を現していることになる。画像中の明るさ(濃淡)の変化を検出するために、例えば、濃淡に関する微分が求められ、濃淡変化が検出され、エッジが抽出される。
 次に、テンプレートマッチングが行われる(ステップS11)。図4に、テンプレートマッチングの例が示されている。テンプレートマッチングでは、手の輪郭画像であるテンプレートTと、対象画像内のテンプレートTと同じ大きさ(画素数)の矩形の部分画像(以下、「ウィンドウW」という。)との相関が求められる。ウィンドウWを、対象画像の左上から右方向(x方向)に向かって所定画素数ずらして相関値が算出され、さらにx方向に前記所定画素数ずらして相関値が算出され、これが繰り返され、対象画像の右端まで繰り返されると、次に、下方向(y方向)に所定画素分ずらして、左側から右方向(x方向)に向かって所定画素数ずらして相関値が求められ、同様にこれが繰り返されて、対象画像の右下のウィンドウWまで相関値が算出される(図3のスキャン実線矢印参照)。
 相関値の算出には、例えば、NCC(正規化相互相関:Normalized Cross Correlation)が用いられる。NCCは、以下の式を用いて類似度RNCCを算出する。算出された類似度RNCCが1に近い程、ウィンドウWの画像がテンプレートTの画像に似ていることを示す。
Figure JPOXMLDOC01-appb-M000002
 T(i,j)は、テンプレートTの画素の輝度値であり、I(i,j)は、対象画像のウィンドウWの画素の輝度値である。座標(i,j)は、テンプレートTの幅をM画素、高さをN画素としたとき、テンプレートの左上の座標を(0,0)、右下を(M-1,N-1)とする場合の座標である。
 なお、NCCの他、SAD(Sum of Absolute Difference)やSSD(Sum of Squared Difference)等を用いて類似度が算出されてもよい。
 SADは、以下の式を用いて算出される。
Figure JPOXMLDOC01-appb-M000003
 SADは、テンプレートをラスタスキャンし、同じ位置の画素の輝度値の差の絶対値の合計であり、値が小さい程、ウィンドウWの画像がテンプレートTの画像に似ていることになる。
 SDDは、以下の式を用いて算出される。
Figure JPOXMLDOC01-appb-M000004
 SSDは、テンプレートをラスタスキャンし、同じ位置の画素の輝度値の差の2乗の合計であり、値が小さい程、ウィンドウWの画像がテンプレートTの画像に似ていることになる。
 次に、相関値の最も高いウィンドウW内の指の位置がポイント位置とされる(ステップS12)。図4では、ユーザの手のエッジ画像Sを囲むウィンドウWの相関値が最も高くなり、指先の位置Pがポイント位置となる。
 なお、ユーザの手の位置(カメラからの距離)や手の大きさによって、画像上の手の大きさが異なることから、通常モードジェスチャー認識部131は、異なる大きさの手を表した複数のテンプレートTそれぞれを用いて、複数回スキャンし、最も高い相関値のウィンドウWを求めるように構成されてもよい。
 また、手の形が異なる複数のテンプレートTを用いてスキャンすることにより、手の動きを検出することが可能となる。図5Aは、人差し指を伸ばした手のテンプレートTを示し、図5Bは、人差し指を倒した手のテンプレートTを示す。
 例えば、図6に示すように、時系列の対象画像のスキャンによって、手の動きが認識され、動きによるコマンドを判断することが可能となる。図6は、白抜き矢印の方向に、時間が経過した対象画像を順に示す。括弧内のt1等が対象画像の撮影時刻を示し、添え字が大きい方が、後に撮影された画像であることを示す。
 時刻t1の対象画像において、図5AのテンプレートTとの相関値が所定の閾値以上のウィンドウWが検出され(以下、「テンプレート画像が検出される」というものとする。)、時刻t2の対象画像において、図5Bのテンプレート画像が検出された場合、クリック動作をしたと判断でき、図5Bのテンプレート画像(図5BのテンプレートTとの相関値が所定の閾値以上のウィンドウWの画像)の指の位置が、ポイント位置P1となる。そして、時刻t3の対象画像において、移動した図5Bのテンプレート画像が検出され(ポイント位置P2)、さらに、時刻t4の対象画像において、移動した図5Bのテンプレート画像が検出される(ポイント位置P3)。そして、時刻t5の対象画像において、図5Aのテンプレート画像が検出された場合には、時刻t2の対象画像のポイント位置P1から、時刻t5の前の時刻t4の対象画像のポイント位置P3までのドラッグコマンドであると認識することができる。
 また、例えば、図7Aは、親指と人差し指をくっ付けた手のテンプレートTを示し、図7Bは、親指と人差し指を離したテンプレートTを示す。或る対象画像において、図7Aのテンプレート画像が検出された場合、その或る対象画像の後の時刻の対象画像で図7Bのテンプレート画像が検出された場合は、画像の拡大を指示するコマンドであると認識できる。逆に、或る対象画像において、図7Bのテンプレート画像が検出され、後の時刻の対象画像で図7Aのテンプレート画像が検出された場合は、画像の縮小を指示するコマンドであると認識できる。
 また、通常モードジェスチャー認識部131は、カメラからの手までの距離を用いて、3次元のパターンマッチングを行うように構成されてもよい。カメラがステレオカメラである場合には、手までの距離を検出することができる。例えば、撮像画像の1画素の大きさμが相互に等しい2台のカメラ1、2を用い、基線長Lだけ左右に離間させてカメラ1の光軸とカメラ2の光軸を平行に配置して対象物(ユーザの手)を撮影した場合、それぞれのカメラの撮像面上の視差(ずれ画素数)がdであるとすると、対象物までの距離Dは、以下の式で求められる。
D=(L×f)/(μ×d)
 したがって、カメラからの距離の変化の情報(奥行情報)を用いて、3次元のパターンマッチングを行うことが可能となる。したがって、より詳細な手の動きを検出することが可能となり、より細かな手の動きが示すコマンドを認識することが可能となる。
 なお、ステレオカメラ以外に、TOF(Time Of Flight)を用いて奥行情報が求められてもよい。TOFとは、投光した光がターゲットに当たって戻る時間である。例えば、近赤外線LEDの高速光源と、距離画像を生成するために特別に設計されたCMOSイメージセンサを用い、投光した光がターゲットに当たって戻る時間を画素ごとにリアルタイムで測定することにより、ターゲットまでの距離が取得され、各画素の距離成分で構成された距離画像が生成される。この場合、HMD1は、距離画像を撮像するための撮像装置を備える。
 また、パターン投影を用いて、奥行き情報が求められてもよい。パターン投影法とは、縞模様等のパターン光を対象物に投影し、投影した対象物を撮影し、その画像に写ったパターン上の点の三次元座標を求めるものである。この場合は、パターン光の密度に応じた点の距離成分で構成された距離画像が生成される。
 ここで、図8および図9を用いて、3次元パターンマッチングの1方法について説明する。なお、図8および9では、説明の便宜上、通常のカメラで撮像した画像を記載しているが、マッチングに用いる画像は、距離画像である。
 図8は、ユーザが伸ばした右手の人差し指を曲げて、映像内のボタン等の物体をクリックしたジェスチャーを撮影した画像である。
 人差し指を伸ばした右手の3次元テンプレートと、時刻t6の対象画像(距離画像)で示される3次元空間内の対象物との間でテンプレートマッチングが行われる。テンプレートマッチングは、所定サイズの格子に分割された距離画像の3次元空間と、同じ所定サイズの格子に分割された3次元テンプレートとの相関値を、格子を1つずつずらしながら算出することで行う。3次元テンプレートは、3次元テンプレート用に設定された(x,y,z)の3次元空間内で定義される3次元ポリゴンモデルの表面を、距離画像と同等の密度で点群データ化したものである。各格子内の点群データの個数を特徴量として、相関値が以下の式で算出される。
Figure JPOXMLDOC01-appb-M000005
 Tn(i,j,k)は、3次元テンプレートの格子の特徴量であり、I(i,j,k)は、対象画像の格子の特徴量である。テンプレートマッチングは、3次元テンプレートの角度を変えて、同様の処理を行う。
 そして、相関値が最も高くなる3次元空間内のテンプレートの位置に基づいて、IPC(Iterative Closest Point)マッチング処理、つまり、位置姿勢推定が行われ、より正確な3次元パターンマッチングの結果が得られる。この3次元パターンマッチング処理の詳細は、例えば、特開2012-203894号公報を参照できる。この特開2012-203894号公報に開示された3Dパターンマッチング方法は、予め用意されたテンプレートとの照合によって3次元の対象物を検出する3Dパターンマッチング方法であって、前記対象物の表面形状を計測した3次元の点群データを記憶する3次元点群データベースから前記点群データを読み込む工程と、前記対象物の3次元形状を、前記点群データと同等の密度の点群で表したテンプレートを記憶するテンプレートデータベースから前記テンプレートを読み込む工程と、前記点群データと、前記テンプレートとを照合して、両者が一致するか否かを判定するテンプレートマッチング工程とを備え、前記テンプレートマッチング工程は、3次元空間を所定サイズの格子に分割し、各格子内に存在する前記点群データおよびテンプレートのデータ点数を特徴量とし、該特徴量の比較によって前記判定を行う工程である。
 3次元パターンマッチングの結果から、指先のポイント位置P4の3次元座標値が求められる。同様に、人差し指を曲げた右手の3次元テンプレートと、時刻t7の対象画像(距離画像)との間で3次元パターンマッチングが行われ、指先のポイント位置P5の3次元座標値が求められる。
 このように、距離画像を用いることで、指先の距離の変化を検出することができる。したがって、クリック動作を検出することが可能となる。また、手までの距離が分かるので、ユーザが奥行方向に手を押し込むジェスチャーを行った場合、距離の変化を検出することができ、手を押し込むジェスチャーを認識することが可能となる。
 図9は、ユーザが図8に示すジェスチャーと同じジェスチャーを行った際の画像であるが、手の向きが異なっている場合の画像(距離画像)である。
 この場合、図8での説明と同様に、人差し指を伸ばした右手の3次元テンプレートと、時刻t8の対象画像(距離画像)との間で3次元パターンマッチングが行われ、指先のポイント位置P6の3次元座標値が求められる。人差し指を曲げた右手の3次元テンプレートと、時刻t9の対象画像(距離画像)との間で3次元パターンマッチングが行われ、指先のポイント位置P7の3次元座標値が求められる。
 つまり、3次元パターンマッチングの場合は、対象画像中の手の向きに関わらず、同じジェスチャーであれば、そのジャスチャーを認識することが可能となる。一方、2次元パターンマッチングを行う場合は、図8に示すような手の向きのテンプレートを用いればクリック動作を検出できるが、図9に示すような手の向きのテンプレートが無い場合には、ジェスチャーを認識することができないことになる。
 このように通常モードでは、詳細なポイント位置の検出や、手の形状を検出し、さらには、姿勢検知部15から出力される変位量を用いて補正することにより、様々なジェスチャーを認識できる。したがって、通常モードでのジェスチャー認識を行うことにより、アプリケーションでは、ジェスチャーが示す様々なコマンドを実行することが可能となる。
 <省電力モードでの処理>
 省電力モードでの処理は、省電力モードジェスチャー認識部132が行う処理である。
 図10は、省電力モードでのポイント位置検出処理のフローチャートであり、図11は、省電力モードでのポイント検出処理を説明するための図である。省電力モードでは、テンプレートマッチングを行わずに、ジェスチャーの認識が行われる。
 まず、対象画像の肌色に相当するRGB範囲の領域が選択される(ステップS20)。次に、この選択された肌色相当の部分(画素)と、それ以外の部分(画素)とで、2値化処理が行われる(ステップS21)。図11の時刻t10の対象画像中のハッチング部分が肌色相当の部分を示す。
 そして、肌色相当部分の重心が、ポイント位置P10とされる(ステップS22)。
 つまり、対象画像内のユーザの手であると推定される画素を用いて、ポイントが求められる。
 この方法は、通常モードにおいて指先をポイント位置として求める場合に比べて、ポイント位置の正確性には欠けるが、処理量が格段に少ない。
 ポイント位置が正確には求められない事から、ユーザが観ている映像中に映されている小さなボタン等をピンポイントで押下したことを検出することは難しいが、以下に示すような、コマンドは、認識が可能となる。
 図11の時刻t11の対象画像でポイント位置P11を求め、時刻t12の対象画像でポイント位置P12を求めることで、手の移動量と方向と(ポイント位置P10~P12)を求めることができるので、ページ送り、ページ戻し等のスワイプコマンドは、正確に認識することが可能となる。
 手の移動速度に応じて、ページ送りと、ページの移動(1ページ内の表示部分を変える)を切り分けて、認識することも可能である。省電力モードジェスチャー認識部132は、対象画面内に、2つの肌色相当の部分(手)が探索された場合、それらの部分の間の距離が離れれば、拡大コマンドと解釈し、距離が近くなれば、縮小コマンドと解釈するように構成されてもよい。
 このように、省電力モードでは、テンプレートマッチングは行わないため、指先の動きまでは検出することは難しく、ポイント位置は正確に求めることは難しい。しかし、画面全体に亘ってテンプレートとウィンドウとの相関値を算出するというテンプレートマッチングに必要な処理は行わないので、少ない処理で、手全体の動きは、正確に把握できる。したがって、省電力モードでは、手の動きによるコマンドを認識することとする。
 なお、上記説明では、ユーザの手の色を肌色と推定して、カラーの対象画像の肌色に相当する画素が抽出されているが、ユーザが手袋をはめている等の場合には、手袋の色に相当する画素が抽出される。この場合、ユーザの手(手袋)の色を、HMD1にユーザが入力できる機能がHMD1に設けられる。また、対象画像の種類に応じて、ユーザの手の領域を抽出するように、省電力モードジェスチャー認識部132は、構成されればよく、例えば、対象画像がカラー画像ではなくモノクロ画像である場合に、ユーザの手の輝度と推定される画素が抽出され、また例えば、対象画像が距離画像である場合は、ユーザの手の位置と推定される奥行きの画素が抽出される。
<動作>
 次に、実施形態のHMD1の動作について説明する。図13は、図2に示すHMDおよび外部装置のジェスチャー認識処理を示すフローチャートである。図13において、破線の矢印は、HMD1と外部装置2との間におけるデータの流れを示す。
 ユーザは、HMD1、および、外部装置2を装着し、動作の開始を指示するボタン(不図示)を押下し、外部装置2の検出を指示するボタン(不図示)を押下する。
 動作の開始指示が入力されたことを検出したHMD1の制御部13は、カメラ11に撮像の開始を指示する。指示を受けたカメラ11は、所定のフレームレートで撮像を開始し、撮影した動画像の制御部13への出力を開始する(ステップS10)。
 制御部13は、外部機器検出部135に外部機器2の検出を依頼する。依頼を受けた外部機器検出部135は、通信可能な外部装置2の存在の検出を開始し、外部装置2を検出すると、内部メモリ上の外部機器有フラグをオンにし、外部装置2の存在確認のための周期的な通信を開始する。外部機器検出部135は、外部装置2の存在を検出しなくなると、外部機器有フラグをオフにする。
 次に、外部機器検出部135に外部機器2の検出を依頼した制御部13は、内部メモリ上の外部機器有フラグを参照する。内部メモリ上の外部機器有フラグがオンである場合(ステップS11:Yes)、カメラ11から出力される動画像が入力されると、制御部13は、通信部14を介して、入力した動画像を外部装置2に送信する(ステップS14)。この際、制御部13は、動画像を通常モードジェスチャー認識部131には出力しない。言い換えれば、通常モードジェスチャー認識部131の処理が抑止されている、と言える。
 外部装置2は、通信部21を介して、HMD1から動画像を受信すると(ステップS21)、受信した動画像を通常モードジェスチャー認識部22に渡して、ジェスチャーの認識を依頼する。
 通常モードジェスチャー認識部22は、上述したように、通常モードでジェスチャーを認識し、コマンドを決定し、決定したコマンドを出力する(ステップS22)。外部装置2は、通常モードジェスチャー認識部22が出力したコマンドを、通信部21を介して、
HMD1の送信する(ステップS23)。
 外部装置2が送信したコマンドを、通信部14を介して受信したHMD1の制御部13は、受信したコマンドをコマンド実行部133に渡して実行を依頼する(ステップS15)。
 依頼を受けたコマンド実行部133は、制御部13から渡されたコマンドの処理を行うプログラムを起動し、コマンドを実行する。そして、コマンド実行部133は、実行結果を、制御部13を介して表示ユニット12に出力し、表示ユニット12に表示させる。制御部13は、ステップS10からの処理を繰り返す。
 一方、ステップS11において、制御部13は、内部メモリ上の外部機器有フラグがオフである場合(ステップS11:No)は、省電力処理(ステップS12)を行う。
 ここで、図14を用いて、省電力処理について説明する。図14は、HMD1の省電力処理を示すフローチャートである。
 制御部13は、内部メモリ上の外部機器有フラグがオフである場合(ステップS11:No)、電力残量検出部134に電力残量の検出を依頼する。
 依頼を受けた電力残量検出部134は、電力残量、例えば、「30%」と制御部13に渡す。電力残量検出部134から電力残量を受け取った制御部13は、電力残量と、予め定められている閾値、例えば、「20%」とを比較し、電力残量が閾値を越えている場合(ステップS31:Yes)、カメラ11から入力した動画像を通常モードジェスチャー認識部131に渡して、ジェスチャーの認識を依頼する。
 依頼を受けた通常モードジェスチャー認識部131は、上述したように、通常モードでジェスチャーを認識し、コマンドを決定し、決定したコマンドを出力する(ステップS34)。
 一方、ステップS31において、電力残量が閾値以下の場合(ステップS31:No)は、カメラ11から入力した動画像を省電力モードジェスチャー認識部132に渡して、ジェスチャーの認識を依頼する。
 依頼を受けた省電力モードジェスチャー認識部132は、上述したように、省電力モードでジェスチャーを認識し、コマンドを決定し、決定したコマンドを出力する(ステップS32)。
 制御部13は、通常モードジェスチャー認識部131または省電力モードジェスチャー認識部132から受け取ったコマンドを、コマンド実行部133に渡して実行を依頼する。
 図13のステップS13に戻り、省電力処理により決定されたコマンドを制御部13から渡され、実行の依頼を受けたコマンド実行部133は、制御部13から渡されたコマンドを実行し、実行結果を、制御部13を介して表示ユニット12に出力し、表示ユニット12に表示させる。制御部13は、ステップS10からの処理を繰り返す。
 このようにHMD1では、外部装置2が在る場合は、外部装置2に通常モードでジェスチャーの認識を行わせ、外部装置2が無い場合は、バッテリー16の電力残量に応じて、通常モードと省電力モードを切り分けてジェスチャーの認識を行わせるので、HMD1の長時間の使用が可能となる。
 なお、実施形態では、外部装置2が在る場合、外部装置2の通常モードジェスチャー認識部22にジェスチャーの認識を行わせ、外部装置2が無い場合、バッテリー16の電力残量に応じて、通常モードジェスチャー認識部131と省電力モードジェスチャー認識部132とのいずれかにジェスチャーの認識を行わせるように、HMD1は、構成されているが、外部装置2が無い場合、バッテリー16の電力残量に関わらず、省電力モードジェスチャー認識部132にジェスチャーの認識を行わせるように、HMD1は、構成されてもよい。
 また、実施形態のHMD1は、バッテリー16の電力残量と閾値とを比較し、バッテリー16の電力残量が閾値を超える場合には通常モードジェスチャー認識部131でジャスチャーの認識を行い、バッテリー16の電力残量が前記閾値以下の場合には省電力モードジェスチャー認識部132でジャスチャーの認識を行うように構成されているが、例えば使用環境や動作条件によってバッテリー電圧が変動するので、複数の閾値で切り換えて通常モードジェスチャー認識部131と省電力モードジェスチャー認識部132とのいずれかにジェスチャーの認識を行わせるように、HMD1は、構成されてもよい。例えば、HMD1は、バッテリー16の電力残量が第1閾値(例えばバッテリー16のフル充電時の25%等)を超える場合には通常モードジェスチャー認識部131でジャスチャーの認識を行い、バッテリー16の電力残量が第2閾値(例えばバッテリー16のフル充電時の15%等)以下の場合には省電力モードジェスチャー認識部132でジャスチャーの認識を行い、バッテリー16の電力残量が前記第1閾値以下であって前記第2閾値を超える場合(この例ではバッテリー16のフル充電時の25%以下であって15%を超える場合)には、通常モードジェスチャー認識部131と省電力モードジェスチャー認識部132との間の切り換えを行わずに、最新(現状)のジャスチャーの認識を行っているジャスチャー認識部131、132で行う。すなわち、HMD1は、最新(現状)で、通常モードジャスチャー認識部131でジャスチャーの認識を行っている場合には、切り替えを行わずにそのまま通常モードジャスチャー認識部131でジャスチャーの認識を行い、省電力モードジャスチャー認識部132でジャスチャーの認識を行っている場合には、切り替えを行わずにそのまま省電力モードジャスチャー認識部132でジャスチャーの認識を行う。
 また、実施形態では、外部装置2が在る場合は、外部装置2の通常モードジェスチャー認識部22にジェスチャーの認識を行わせ、HMD1の通常モードジェスチャー認識部131および省電力モードジェスチャー認識部132は動作させないように、HMD1は、構成されているが、HMD1の通常モードジェスチャー認識部131が、一部の処理を外部装置2の通常モードジェスチャー認識部22に行わせるように、HMD1は、構成されていてもよい。例えば、テンプレートマッチングを行う場合、対象画像を2分割し、2分の1の対象画像を用いたマッチング処理を通常モードジェスチャー認識部22に行わせるように、HMD1が構成される。
 また、実施形態では、省電力モードでは、テンプレートマッチングを行わないジェスチャー認識を行うように、HMD1は、構成されているが、例えば、通常モードでは3次元マッチングを行い、省電力モードでは3次元マッチングを行わないように、HMD1は、構成されてもよく、通常モードではカメラ11の姿勢変化による補正を行い、省電力モードではカメラ11の姿勢変化による補正を行わないように、HMD1は、構成されてもよい。省電力モードでの処理量が、通常モードでの処理量よりも少なくなればよい。
 また、実施形態では、表1を用いて説明したように、省電力モードでは、認識できるジェスチャーのパターン(コマンド)が少ない。したがって、省電力モードジェスチャー認識部132を用いる場合には、省電力モードジェスチャー認識部132が認識できないジェスチャーが示すコマンドを用いるアプリケーションプログラム自体を、起動できないように、HMD1は、構成されてもよい。例えば、省電力モードでは、クリックを指示するジェスチャーや、ドラッグを指示するジェスチャーは、正確には認識し難いので、クリックやドラッグを必要とするアプリケーションプログラム、例えば、編集アプリケーションは、起動できないように、制御部13が制御する。また、クリックやドラッグを用いる一部の機能の動作を制限するように、制御部13が制御してもよい。例えば、編集アプリケーションのうち、閲覧のみはできるように、制御部13が制御する等である。このように構成することで、ユーザが行ったジェスチャーが誤認識されることが無くなり、ユーザは快適にアプリケーションを使用することが可能となる。
 また、実施形態では、電力残量検出部134は、HMD1のバッテリー16の電力残量を検出しているが、外部装置2のバッテリーの電力量も考慮に入れて、電力残量を算出してもよい。この場合、HMD1は、外部装置2から電力の供給を受ける。また、外部装置2がサブバッテリーである場合も、このサブバッテリーの電力量も考慮に入れて、電力残量を算出してもよく、HMD1は、サブバッテリーから電力の供給を受ける。
 また、実施形態では、外部装置2が無い場合には、電力残量が閾値を下回ったときに、省電力モードでの認識処理を行うように、HMD1は、構成されているが、外部装置2がサブバッテリーである場合には、外部装置2が無い場合は、電力残量に関わらずに省電力モードでの認識処理を行い、外部装置2が在る場合は、通常モードでの認識処理を行うように、HMD1は、構成されてもよい。
 また、実施形態では、外部機器は、通常モードでのジェスチャー認識処理を行うこととしているが、省電力モードでの認識処理も行えるように構成され、外部機器が備えるバッテリーの電力残量が少なくなった場合に、省電力モードでの認識処理に切り替えるように構成されてもよい。
 本明細書は、上記のように様々な態様の技術を開示しているが、そのうち主な技術を以下に纏める。
 一態様にかかるジェスチャー認識装置は、蓄電するバッテリーと、ユーザの体の一部の動作に関する動画像を撮像する撮像部と、前記バッテリーの電力残量を検出し、該電力残量が所定の閾値を超える場合に、第1ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させ、前記電力残量が前記所定の閾値以下の場合に、前記第1ジャスチャー認識処理よりも処理量の少ない第2ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させる制御部とを備える。
 他の一態様にかかるジェスチャー認識方法は、バッテリーを備えるジェスチャー認識装置で用いられるジェスチャー認識方法であって、ユーザの体の一部の動作に関する動画像を撮像する撮像ステップと、前記動画像から、前記ユーザによって行われたジェスチャーを認識する第1ジェスチャー認識ステップと、前記動画像から、前記第1ジェスチャー認識部が行う処理よりも少ない量の処理によって、前記ユーザによって行われたジェスチャーを認識する第2ジェスチャー認識ステップと、前記バッテリーの電力残量を検出する電力検出ステップと、前記電力検出ステップで検出された電力残量が所定の閾値を超える場合に、前記第1ジェスチャー認識ステップで前記ユーザによって行われたジェスチャーを認識させ、前記電力残量が前記所定の閾値以下の場合に、前記第2ジェスチャー認識ステップで前記ユーザによって行われたジェスチャーを認識させる制御ステップとを備える。
 このようなジェスチャー認識装置およびジェスチャー認識方法は、電力残量が所定の閾値以下の場合に、ジェスチャーを認識するための処理量が少ない処理部によってジェスチャーを認識する。したがって、上記ジェスチャー認識装置および該方法は、できるだけ長時間、ジェスチャーの認識を行うことが可能となる。例えば、本ジェスチャー認識装置を搭載するHMDを用いた場合では、電力残量が少なくなってきた場合に、少ない処理量でのジェスチャー認識を行うので、細かな動きのジェスチャーは使用できない事が発生し得るが、HMDを用いた処理を長時間行うことが可能となる。なお、ユーザの体の一部とは、ユーザの手首から先の手(片手、両手)、肘から先の腕(片腕、両腕)、指先(片手の指、両手の指)等であり、さらに、ユーザの足先であってもよく、ユーザがジェスチャーを行う部位であればよい。
 他の一態様では、上述のジェスチャー認識装置において、前記第1ジェスチャー認識処理は、テンプレートマッチング処理を行って、前記ユーザによって行われたジェスチャーを認識し、前記第2ジェスチャー認識処理は、テンプレートマッチング処理を行わずに、前記ユーザによって行われたジェスチャーを認識する。
 他の一態様では、上述のジェスチャー認識装置において、前記ユーザの体の一部の距離画像を撮像する距離画像撮像部をさらに備え、前記第1ジェスチャー認識処理は、前記距離画像を用いた処理を行って、前記ユーザによって行われたジェスチャーを認識し、前記第2ジェスチャー認識処理は、前記距離画像を用いた処理を行わずに、前記ユーザによって行われたジェスチャーを認識する。
 他の一態様では、上述のジェスチャー認識装置において、前記第2ジェスチャー認識処理は、撮像された前記ユーザの体の一部であると推定される前記動画像内の画素に基づいて、前記ユーザによって行われたジェスチャーを認識する。
 他の一態様では、上述のジェスチャー認識装置において、前記動画像は、カラー画像であり、前記第2ジェスチャー認識処理は、前記ユーザの体の一部の色と同等の色である前記動画像内の画素に基づいて、前記ユーザによって行われたジェスチャーを認識する。
 これら構成によれば、電力残量が閾値以下の場合には、認識に必要な処理量が少ないジェスチャー認識を行うこととして省電力化を図ることが可能となり、結果として、長時間の使用が可能となる。
 他の一態様では、上述のジェスチャー認識装置において、前記撮像部の向きの変化を検知する姿勢検知部をさらに備え、前記第1ジェスチャー認識処理は、前記ユーザによって行われたジェスチャーの途中で前記姿勢検知部が向きの変化を検出した場合に、前記姿勢検知部が検知した向きの変化に基づいて、前記動画像内の前記ユーザの体の一部の座標位置を補正して、前記ユーザによって行われたジェスチャーを認識し、前記第2ジェスチャー認識処理は、前記補正を行わずに、前記ユーザによって行われたジェスチャーを認識する。
 この構成によれば、電力残量が閾値以下の場合には、カメラの向きの変化に応じた座標位置の補正を行わないので、認識の精度は低くなるが、省電力化を図ることが可能となり、結果として、長時間の使用が可能となる。
 他の一態様では、上述のジェスチャー認識装置において、通信可能な外部機器を検出する外部機器検出部をさらに備え、前記制御部は、前記外部機器検出部が前記外部機器を検出した場合に、前記第1および第2ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させずに、前記動画像を前記外部機器に送信し、前記外部機器から前記ユーザによって行われたジェスチャーが示すコマンドを受信し、前記外部機器は、前記第1ジェスチャー認識処理の機能と同一の機能を有する第3ジェスチャー認識処理を行って、前記ジェスチャー認識装置から受信した動画像から認識されたジェスチャーが示すコマンドを前記ジェスチャー認識装置に送信する外部機器である。
 この構成によれば、ジェスチャーの認識を外部装置に行わせるので、ジェスチャー認識装置自体の電力消費量を抑えながら、高精度のジェスチャー認識を行うことが可能となる。
 他の一態様では、上述のジェスチャー認識装置において、当該ジェスチャー認識装置が電力供給を受けることが可能な外部機器を検出する外部機器検出部をさらに備え、前記制御部は、前記外部機器検出部が前記外部機器を検出した場合に、前記電力検出部が検出した電力残量に関わらず、前記第1ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させる。
 この構成によれば、外部装置から電力の供給を受けることができるので、高精度のジェスチャー認識を、長時間行うことが可能となる。
 他の一態様にかかる操作入力装置は、上記いずれかのジェスチャー認識装置を備える。
 他の一態様では、上述の操作入力装置において、前記第2ジェスチャー認識処理で認識される前記ユーザによって行われたジャスチャーは、前記第1ジェスチャー認識処理で認識される前記ユーザによって行われたジェスチャーの一部であり、前記制御部は、前記電力残量が所定の閾値以下のときは、前記第2ジェスチャー認識処理で認識可能なジェスチャーが示すコマンドのみを用いるアプリケーションが起動されるように制御する。
 このような操作入力装置は、電力残量が閾値以下の場合に、認識に必要な処理量が少ないジェスチャー認識によって認識することができるジェスチャーが示すコマンドのみを用いるアプリケーションのみが起動される。したがって、ユーザが行ったジェスチャーが誤認識されることなく、ユーザはアプリケーションを快適に使用することが可能となる。また、認識に必要な処理量が少ないジェスチャー認識を行うので、省電力化を図ることが可能となり、結果として、長時間の使用が可能となる。
 この出願は、2014年1月10日に出願された日本国特許出願特願2014-3423を基礎とするものであり、その内容は、本願に含まれるものである。
 本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
 本発明によれば、ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法を提供できる。
 

Claims (11)

  1.  蓄電するバッテリーと、
     ユーザの体の一部の動作に関する動画像を撮像する撮像部と、
     前記バッテリーの電力残量を検出し、該電力残量が所定の閾値を超える場合に、第1ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させ、前記電力残量が前記所定の閾値以下の場合に、前記第1ジャスチャー認識処理よりも処理量の少ない第2ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させる制御部とを備える、
     ジェスチャー認識装置。
  2.  前記第1ジェスチャー認識処理は、テンプレートマッチング処理を行って、前記ユーザによって行われたジェスチャーを認識し、
     前記第2ジェスチャー認識処理は、テンプレートマッチング処理を行わずに、前記ユーザによって行われたジェスチャーを認識する、
     請求項1に記載のジェスチャー認識装置。
  3.  前記ユーザの体の一部の距離画像を撮像する距離画像撮像部をさらに備え、
     前記第1ジェスチャー認識処理は、前記距離画像を用いた処理を行って、前記ユーザによって行われたジェスチャーを認識し、
     前記第2ジェスチャー認識処理は、前記距離画像を用いた処理を行わずに、前記ユーザによって行われたジェスチャーを認識する、
     請求項1に記載のジェスチャー認識装置。
  4.  前記第2ジェスチャー認識処理は、撮像された前記ユーザの体の一部であると推定される前記動画像内の画素に基づいて、前記ユーザによって行われたジェスチャーを認識する、
     請求項1ないし請求項3のいずれか1項に記載のジェスチャー認識装置。
  5.  前記動画像は、カラー画像であり、
     前記第2ジェスチャー認識処理は、前記ユーザの体の一部の色と同等の色である前記動画像内の画素に基づいて、前記ユーザによって行われたジェスチャーを認識する、
     請求項4に記載のジェスチャー認識装置。
  6.  前記撮像部の向きの変化を検知する姿勢検知部をさらに備え、
     前記第1ジェスチャー認識処理は、前記ユーザによって行われたジェスチャーの途中で前記姿勢検知部が向きの変化を検出した場合に、前記姿勢検知部が検知した向きの変化に基づいて、前記動画像内の前記ユーザの体の一部の座標位置を補正して、前記ユーザによって行われたジェスチャーを認識し、
     前記第2ジェスチャー認識処理は、前記補正を行わずに、前記ユーザによって行われたジェスチャーを認識する、
     請求項1ないし請求項5のいずれか1項に記載のジェスチャー認識装置。
  7.  通信可能な外部機器を検出する外部機器検出部をさらに備え、
     前記制御部は、前記外部機器検出部が前記外部機器を検出した場合に、前記第1および第2ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させずに、前記動画像を前記外部機器に送信し、前記外部機器から前記ユーザによって行われたジェスチャーが示すコマンドを受信し、
     前記外部機器は、前記第1ジェスチャー認識処理の機能と同一の機能を有する第3ジェスチャー認識処理を行って、前記ジェスチャー認識装置から受信した動画像から認識されたジェスチャーが示すコマンドを前記ジェスチャー認識装置に送信する外部機器である、
     請求項1ないし請求項6のいずれか1項に記載のジェスチャー認識装置。
  8.  当該ジェスチャー認識装置が電力供給を受けることが可能な外部機器を検出する外部機器検出部をさらに備え、
     前記制御部は、前記外部機器検出部が前記外部機器を検出した場合に、前記電力検出部が検出した電力残量に関わらず、前記第1ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させる、
     請求項1ないし請求項6のいずれか1項に記載のジェスチャー認識装置。
  9.  前記請求項1ないし請求項8のいずれか1項のジェスチャー認識装置を備える操作入力装置。
  10.  前記第2ジェスチャー認識処理で認識される前記ユーザによって行われたジャスチャーは、前記第1ジェスチャー認識処理で認識される前記ユーザによって行われたジェスチャーの一部であり、
     前記制御部は、前記電力残量が所定の閾値以下のときは、前記第2ジェスチャー認識処理で認識可能なジェスチャーが示すコマンドのみを用いるアプリケーションが起動されるように制御する、
     請求項9に記載の操作入力装置。
  11.  バッテリーを備えるジェスチャー認識装置で用いられるジェスチャー認識方法であって、
     ユーザの体の一部の動作に関する動画像を撮像する撮像ステップと、
     前記動画像から、前記ユーザによって行われたジェスチャーを認識する第1ジェスチャー認識ステップと、
     前記動画像から、前記第1ジェスチャー認識部が行う処理よりも少ない量の処理によって、前記ユーザによって行われたジェスチャーを認識する第2ジェスチャー認識ステップと、
     前記バッテリーの電力残量を検出する電力検出ステップと、
     前記電力検出ステップで検出された電力残量が所定の閾値を超える場合に、前記第1ジェスチャー認識ステップで前記ユーザによって行われたジェスチャーを認識させ、前記電力残量が前記所定の閾値以下の場合に、前記第2ジェスチャー認識ステップで前記ユーザによって行われたジェスチャーを認識させる制御ステップとを備える、
     ジェスチャー認識方法。
     
PCT/JP2014/081901 2014-01-10 2014-12-02 ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法 WO2015104919A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014003423 2014-01-10
JP2014-003423 2014-01-10

Publications (1)

Publication Number Publication Date
WO2015104919A1 true WO2015104919A1 (ja) 2015-07-16

Family

ID=53525020

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/081901 WO2015104919A1 (ja) 2014-01-10 2014-12-02 ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法

Country Status (1)

Country Link
WO (1) WO2015104919A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857260A (zh) * 2019-02-27 2019-06-07 百度在线网络技术(北京)有限公司 三维互动影像的控制方法、装置和系统
CN110716648A (zh) * 2019-10-22 2020-01-21 上海商汤智能科技有限公司 手势控制方法和装置
CN113343927A (zh) * 2021-07-03 2021-09-03 郑州铁路职业技术学院 一种适用于面瘫患者的智能化人脸识别方法和系统
JP2022078706A (ja) * 2020-11-13 2022-05-25 ディープインサイト株式会社 ユーザインターフェイス装置、ユーザインターフェイスシステム及びユーザインターフェイス用プログラム
WO2023214451A1 (ja) * 2022-05-02 2023-11-09 ディープインサイト株式会社 ユーザインターフェイス装置、ユーザインターフェイスシステム及びユーザインターフェイス用プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008271413A (ja) * 2007-04-24 2008-11-06 Olympus Corp 画像表示装置、撮像装置、処理プログラム、画像表示装置の制御方法
JP2012003724A (ja) * 2010-06-21 2012-01-05 Nippon Telegr & Teleph Corp <Ntt> 三次元指先位置検出方法、三次元指先位置検出装置、及びプログラム
JP2012089112A (ja) * 2010-09-22 2012-05-10 Nikon Corp 画像表示装置
JP2013034168A (ja) * 2011-08-01 2013-02-14 Fuji Xerox Co Ltd 画像投影装置ならびに画像投影制御装置およびプログラム
JP2013115649A (ja) * 2011-11-29 2013-06-10 Toshiba Corp 制御装置、電力量制御方法
JP2014003496A (ja) * 2012-06-19 2014-01-09 Nikon Corp 画像処理装置、撮像装置およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008271413A (ja) * 2007-04-24 2008-11-06 Olympus Corp 画像表示装置、撮像装置、処理プログラム、画像表示装置の制御方法
JP2012003724A (ja) * 2010-06-21 2012-01-05 Nippon Telegr & Teleph Corp <Ntt> 三次元指先位置検出方法、三次元指先位置検出装置、及びプログラム
JP2012089112A (ja) * 2010-09-22 2012-05-10 Nikon Corp 画像表示装置
JP2013034168A (ja) * 2011-08-01 2013-02-14 Fuji Xerox Co Ltd 画像投影装置ならびに画像投影制御装置およびプログラム
JP2013115649A (ja) * 2011-11-29 2013-06-10 Toshiba Corp 制御装置、電力量制御方法
JP2014003496A (ja) * 2012-06-19 2014-01-09 Nikon Corp 画像処理装置、撮像装置およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857260A (zh) * 2019-02-27 2019-06-07 百度在线网络技术(北京)有限公司 三维互动影像的控制方法、装置和系统
CN110716648A (zh) * 2019-10-22 2020-01-21 上海商汤智能科技有限公司 手势控制方法和装置
CN110716648B (zh) * 2019-10-22 2021-08-24 上海商汤智能科技有限公司 手势控制方法和装置
JP2022078706A (ja) * 2020-11-13 2022-05-25 ディープインサイト株式会社 ユーザインターフェイス装置、ユーザインターフェイスシステム及びユーザインターフェイス用プログラム
JP7203436B2 (ja) 2020-11-13 2023-01-13 ディープインサイト株式会社 ユーザインターフェイス装置、ユーザインターフェイスシステム及びユーザインターフェイス用プログラム
CN113343927A (zh) * 2021-07-03 2021-09-03 郑州铁路职业技术学院 一种适用于面瘫患者的智能化人脸识别方法和系统
CN113343927B (zh) * 2021-07-03 2023-06-23 郑州铁路职业技术学院 一种适用于面瘫患者的智能化人脸识别方法和系统
WO2023214451A1 (ja) * 2022-05-02 2023-11-09 ディープインサイト株式会社 ユーザインターフェイス装置、ユーザインターフェイスシステム及びユーザインターフェイス用プログラム

Similar Documents

Publication Publication Date Title
CN110310288B (zh) 用于混合现实环境中的对象分割的方法和系统
US10152177B2 (en) Manipulation detection apparatus, manipulation detection method, and projector
US9734393B2 (en) Gesture-based control system
US10203594B2 (en) Projector
US8933886B2 (en) Instruction input device, instruction input method, program, recording medium, and integrated circuit
WO2015104919A1 (ja) ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法
US10234955B2 (en) Input recognition apparatus, input recognition method using maker location, and non-transitory computer-readable storage program
WO2021035646A1 (zh) 可穿戴设备及其控制方法、识别手势的方法和控制系统
KR20170031733A (ko) 디스플레이를 위한 캡처된 이미지의 시각을 조정하는 기술들
US20150009103A1 (en) Wearable Display, Computer-Readable Medium Storing Program and Method for Receiving Gesture Input
KR101343748B1 (ko) 포인터를 표시하지 않는 투명 디스플레이 가상 터치 장치
JP2015114818A (ja) 情報処理装置、情報処理方法及びプログラム
JP6341755B2 (ja) 情報処理装置、方法及びプログラム並びに記録媒体
JP6344530B2 (ja) 入力装置、入力方法、及びプログラム
CN108885496B (zh) 信息处理装置、信息处理方法和程序
US20220012922A1 (en) Information processing apparatus, information processing method, and computer readable medium
WO2015030482A1 (ko) 웨어러블 디스플레이용 입력장치
US10824237B2 (en) Screen display control method and screen display control system
CN106663412B (zh) 信息处理设备、信息处理方法及程序
JP6373546B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6789377B2 (ja) 画像表示システム
WO2018150757A1 (ja) 情報処理システム、情報処理方法、およびプログラム
CN104915014A (zh) 一种基于移动终端的非接触式交互方法
JP2024032409A (ja) 情報処理装置およびhmd
JP6335696B2 (ja) 入力装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14877854

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14877854

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP