WO2013137412A1 - 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体 - Google Patents
制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体 Download PDFInfo
- Publication number
- WO2013137412A1 WO2013137412A1 PCT/JP2013/057273 JP2013057273W WO2013137412A1 WO 2013137412 A1 WO2013137412 A1 WO 2013137412A1 JP 2013057273 W JP2013057273 W JP 2013057273W WO 2013137412 A1 WO2013137412 A1 WO 2013137412A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- indicator
- gesture
- unit
- amount
- execution amount
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/0485—Scrolling or panning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Definitions
- the present invention relates to a control device that generates an instruction for a processing execution subject, an electronic device including the control device, a control method, a control program, and a computer-readable recording medium storing the control program.
- the gesture recognition technology has been applied and developed in various fields such as intelligent robots, games, simulations, and production technologies as means for communication between humans and computers.
- the gesture recognition device performs image processing on a moving image obtained by imaging a motion of a subject that sends an instruction to the device by a video camera that is a typical example of an imaging unit, and performs a series of subjects. Recognize a specific movement (hereinafter also referred to as “gesture”).
- Various devices such as a computer can execute various processes according to the type of gesture of the subject recognized by the gesture recognition device. Specifically, the gesture recognition device compares a certain frame of a moving image with another frame to determine where the subject has moved from, that is, the amount of change between frames, and the movement of the subject (such as the moving direction). ) Can be recognized.
- Patent Document 1 discloses a gesture detection method and apparatus for detecting reciprocation of a specific part of a subject.
- Patent Document 2 discloses a device for recognizing a gesture from images of two subjects and a method for operating an image object displayed on a user interface by the gesture input. It is disclosed. Patent Document 2 discloses that a gesture is recognized from a movement related to the depth of a subject by using a camera capable of measuring a distance to the subject.
- Patent Document 3 when a user performs a predetermined motion while the camera unit of the mobile communication terminal is activated, the mobile communication terminal recognizes the user's motion.
- a configuration is disclosed in which the motion is patterned to perform a predetermined operation according to the motion pattern.
- Patent Documents 1 to 3 described above can only identify the type of instruction issued by the subject based on the motion of the subject such as an operator. Therefore, there is a demand for a configuration that can be adapted to an analog operation or generate an instruction with a higher degree of freedom.
- the control device generates an instruction for the process execution subject.
- the control device includes an obtaining unit that obtains sensing data obtained by sensing the indicator, and a recognition unit that obtains information on the form of the indicator and the movement trajectory of the form by processing the sensing data. And a command generation unit that determines a process to be executed by the process execution subject and a process execution amount of the process to be executed based on the form acquired by the recognition unit and the information on the movement trajectory of the form.
- the “processing execution subject” refers to a subject that executes an instructed process according to an instruction generated by a control device, a control method, a control program, or the like according to any embodiment of the present invention.
- the “process execution subject” is actually determined according to the process to be executed and the process execution amount of the process to be executed, which are determined based on the information about the form generated in the indicator and the movement trajectory of the form. Includes devices and systems that embody processing.
- the “processing execution subject” typically refers to a subject that executes processing corresponding to a gesture instructed by a user who is an indicator.
- the “indicator” means an instruction that explicitly or implicitly gives an instruction to the process execution subject, and includes not only living things including human beings but also arbitrary objects (inanimate objects). Typically, the “indicator” includes the hand, finger, arm, whole body, etc. of an animal (particularly a person). Alternatively, the “indicator” includes a device whose appearance and position change with time. “Explicitly giving an instruction” means a case in which a user or the like takes some action with the intention of giving an instruction to some target in advance. On the other hand, “implicitly giving instructions” means that it is deemed necessary to execute the corresponding processing in response to some behavior that occurs in the “indicator” regardless of whether or not there is an intention to give instructions. Means.
- the form of the indicator refers to a three-dimensional or planar appearance or shape generated in the indicator.
- the information on “form of indicator” is not limited to this, but is included in a moving image or a series of still images obtained by imaging the indicator by the imaging unit. That is, the “indicator form” information can be output as various types of information including moving images and a series of still image sequences.
- the (trajectory) movement trajectory refers to the movement of the position within a certain space-time range.
- the “information related to the trajectory of movement” typically includes the displacement amount (scalar amount and vector amount) of the indicator within a certain time when the indicator changes its position. ),
- the moving speed of the indicator including any of the instantaneous speed, maximum speed, average speed, and minimum speed
- the moving speed of the indicator including any of the instantaneous acceleration, maximum acceleration, average acceleration, and minimum acceleration
- the indicator Characteristic values corresponding to the movement of the indicator such as the moving jerk of the indicator (including any of the instantaneous jerk, maximum jerk, average jerk, and minimum jerk) and the displacement direction of the indicator.
- Process execution amount is information indicating how much of the process execution subject should be executed. For example, when the process to be executed is completed by one execution, the “process execution amount” includes the number of repeated executions and the number of continuous executions of the process to be executed. Alternatively, when there is a degree in the process itself to be executed, the “process execution amount” indicates the degree (for example, the time to be executed and the intensity at the time of execution). Furthermore, when a certain parameter is changed in the process to be executed, it indicates the degree of change of the parameter.
- the acquisition means acquires sensing data obtained by sensing the indicator.
- the recognition means processes sensing data to obtain information on the form of the indicator and the movement trajectory of the form
- the instruction generation means relates to the form obtained by the recognition means and the movement trajectory of the form. Based on the information, a process to be executed by the process execution subject and a process execution amount of the process to be executed are determined.
- an instruction including a specific process and a processing execution amount of the specific process according to a combination of the form and the movement trajectory of the form can be given to the process execution subject.
- an instruction including a specific process and a processing execution amount of the specific process according to a combination of the form and the movement trajectory of the form can be given to the process execution subject.
- the instruction generation unit determines a process to be executed by the process execution subject based on at least a part of information regarding the acquired form and the movement trajectory of the form, and acquires the acquired form and the form.
- a process execution amount of a process to be executed is determined based on information different from at least a part of the movement trajectory.
- the instruction generation unit recognizes a gesture based on a movement trajectory of the indicator imaged as sensing data, and identifies a process corresponding to the recognized gesture as a process to be executed by the process execution subject.
- the gesture recognition unit recognizes the gesture based on the information on the movement trajectory of the indicator imaged as the sensing data, and the process to be executed by the process execution subject performs the process corresponding to the recognized gesture. As specified. Subsequently, the execution amount determination means determines the processing execution amount based on the change in the form of the imaged indicator.
- control device can determine the amount of processing to be executed in addition to specifying the content of the processing to be executed by the processing execution subject by processing the moving image obtained by imaging the indicator. .
- the user simply moves the indicator and inputs a gesture, and by simply changing the shape of the indicator, the user can easily determine how much the process indicated by the gesture should be performed. Can be specified.
- the user instructs the process execution subject to repeat the same process by inputting a simple operation of changing the form of the indicator instead of repeatedly inputting the gesture. can do.
- the gesture recognition device disclosed in the above-described prior art document is not suitable as an input device for inputting an instruction to select a target object from among a large number of displayed option objects (image objects in the example of Patent Document 2). . More specifically, even on a general keyboard (for example, a cross key), the user repeatedly performs an operation (such as pressing the cross key) for moving the cursor until the target object is reached. Similarly, in the gesture recognition apparatus, the user has to repeatedly perform a gesture for moving the cursor until the cursor reaches the target object.
- a gesture corresponding to the process for example, an operation of moving the pointer to the left
- the user only has to perform one operation of “moving the indicator to the left” and one operation of changing the form of the indicator (here, For example, a change corresponding to the processing execution amount of “10 times” is added).
- control device further includes a monitoring unit that identifies a change amount of the form of the indicator from each frame of the moving image obtained by imaging the indicator, and the execution amount determination unit includes the form of the indicator It is preferable to determine the processing execution amount in proportion to the amount of change.
- the monitoring means monitors the indicator whose form has been changed and specifies the amount of change.
- the determination means can determine that the larger the change amount, the larger the process execution amount.
- the user can easily specify the repetition amount (processing execution amount) to the processing execution subject by adjusting the amount of change in the form of the indicator. For example, if the change amount of the indicator is 10 times the original, it is possible to instruct the process execution subject via the control device so that one process is repeated ten times.
- the monitoring unit compares a predetermined reference form of the indicator (for example, a reference line 49 in FIGS. 9 and 13) with the latest form of the picked-up indicator.
- a predetermined reference form of the indicator for example, a reference line 49 in FIGS. 9 and 13
- the monitoring unit compares the amount of change indicating how the form of the latest imaged indicator has changed with a predetermined absolute reference indicator form. Can be sought. Therefore, it is possible to simplify the process of specifying the change amount.
- the monitoring means may include the form of the indicator at the time when the gesture is recognized by the recognition means (for example, the start form s in FIGS. 14 and 15) and the latest form of the imaged indicator.
- the amount of change may be specified by comparison.
- the monitoring unit continuously monitors the operation of changing the form of the indicator so that the user can specify the processing execution amount.
- the monitoring means regards the form of the indicator as the first form (starting form) when the movement of the indicator is completed, and specifies how the indicator has changed since then as the amount of change.
- the amount of movement of the indicator to specify the processing execution amount is directly specified as a change amount by the monitoring unit, and directly by the determination unit. Is converted into a processing execution amount.
- the execution amount determination means is a maximum change amount (for example, a final form e in FIGS. 13 and 15) corresponding to the maximum value of the process execution amount of the process execution subject.
- the processing execution amount is set based on the ratio of the amount of change (for example, ⁇ t in FIGS. 13 and 15) in the latest form specified by the monitoring unit. You may decide.
- the maximum value of the process execution amount of the process execution subject is determined in advance, and the user grasps how much the process execution subject is allowed to execute the process by changing the form of the indicator. Yes. That is, the execution amount determining means grasps the final form of the reference.
- the execution amount determination means actually executes the processing execution subject depending on how much the change amount of the indicator form changed by the user reaches the maximum change amount of the reference final form.
- the processing execution amount to be determined is determined.
- the monitoring means may specify the angle at which the inclination of the indicator changes as the change amount.
- the monitoring means may specify the amount of change in the tilt of the finger as the indicator.
- the user can specify the processing execution amount for the electronic device (processing execution subject) by a simple operation of changing the tilt of the finger.
- the execution amount determining means is a process executed by the processing execution subject when the change amount of the latest form in the indicator specified by the monitoring means is less than the change amount of the immediately preceding form in the indicator. It may be decided to stop the execution.
- the fact that the amount of change in the latest form of the indicator is less than the amount of change in the previous form of the indicator means that the user returns the change in the form of the indicator that has been advanced so far, It means that it is close to the form (reference form or starting form).
- the operation of returning the advanced operation is likely to lead to the result of stopping the processing executed so far.
- the user interface for instructing the stop of the process execution can be made more intuitive for the user.
- the monitoring means specifies a change amount of the indicator shape that changes in a traveling direction opposite to the moving direction of the indicator by a negative number
- the execution amount determination means includes the monitoring means When the amount of change in the latest form in the indicator specified by is a negative number, the processing execution amount in the traveling direction opposite to the original traveling direction of the processing specified by the recognition means is You may decide.
- the change amount of the latest form in the indicator is a negative number, which means that the form of the indicator is changed in a direction opposite to the direction in which the user moves the indicator for gesture input.
- the operation of advancing the indicator in the direction opposite to the previous direction is likely to lead to the result of proceeding the process in the direction opposite to the previous direction of movement.
- the user interface for instructing to switch the processing direction to the opposite side can be made more intuitive to the user.
- the execution amount determination means may determine the number of executions of the process to be executed by the specified process execution subject as the process execution amount.
- the execution amount determination means is a process in which the process to be executed by the identified process execution subject is a process of shifting the focus applied to any of the plurality of arranged options to another option.
- the number of options indicating how many options the focus is shifted may be determined as the processing execution amount.
- the execution amount determination unit determines the processing execution amount in proportion to the amount of change in angle when the tilt of the finger as the captured indicator changes.
- the above-mentioned process execution amount is an option value when the process to be executed by the specified process execution subject is a process for shifting the focus applied to one of the plurality of arranged options to another option. You may make it include the number of the choices which show whether a focus is changed every other.
- the execution amount determining means preferably determines the processing execution amount based on a change in the form of the indicator that has started moving.
- the user can continue to use the indicator used for the movement of the gesture input for the operation for designating the processing execution amount as it is.
- the execution amount determination means may determine the processing execution amount based on a change in the form of the captured second indicator that is different from the indicator that has started moving.
- the expressive power of the operation for specifying the processing execution amount is increased, and it becomes possible to specify the processing execution amount in more detail or in multiple stages.
- the instruction generation means based on the combination of the two hand shapes of the operator, when it is recognized that the combination of the two hand shapes of the operator as the indicator is included in the sensing data.
- the process execution subject determines the process to be executed, and determines the process execution amount of the process to be executed based on the locus of the representative point of one of the two hands of the operator.
- the instruction generation means traces the representative point of one of the two hands of the operator Based on the above, it is preferable to determine the process to be executed by the process execution subject and to determine the process execution amount of the process to be executed based on the combination of the two hand shapes of the operator.
- control device an imaging unit that supplies a captured image obtained by capturing the indicator to the control device, and a process specified by the control device are executed according to a process execution amount determined by the control device.
- An electronic device including a processing execution subject is also included in the technical scope of the present invention.
- the processing execution amount determined by the control device is a process in which the process specified by the control device shifts the focus applied to one of the plurality of arranged options to another option. In some cases, it includes the number of options indicating how many options the focus is to be shifted, and the process execution subject changes the focus to each option according to the number of options determined by the control device. You may let them.
- the control method generates an instruction for the process execution subject.
- the control method includes an acquisition step of acquiring sensing data obtained by sensing the indicator, a recognition step of acquiring information related to the form of the indicator and the movement trajectory of the form by processing the sensing data, And a determination step of determining a process to be executed by the process execution subject and a process execution amount of the process to be executed based on the information regarding the form and the movement trajectory acquired in the recognition step.
- the control device may be realized by a computer.
- a control program for causing the control device to be realized by the computer by causing the computer to operate as the above-described means, and the computer storing the control program are stored.
- Computer-readable recording media are also included in the technical scope of the present invention.
- the control device generates an instruction for the process execution subject.
- the control device includes an obtaining unit that obtains sensing data obtained by sensing the indicator, and a recognition unit that obtains information on the form of the indicator and the movement trajectory of the form by processing the sensing data. And a command generation unit that determines a process to be executed by the process execution subject and a process execution amount of the process to be executed based on the form acquired by the recognition unit and the information on the movement trajectory of the form.
- the control method generates an instruction for the process execution subject.
- the control method includes an acquisition step of acquiring sensing data obtained by sensing the indicator, a recognition step of acquiring information related to the form of the indicator and the movement trajectory of the form by processing the sensing data, And a determination step of determining a process to be executed by the process execution subject and a process execution amount of the process to be executed based on the information regarding the form and the movement trajectory acquired in the recognition step.
- Embodiments of the present invention will be described below with reference to the drawings. ⁇ 1.
- Embodiment 1 describes an implementation example of a gesture recognition device as a control device according to an embodiment of the present invention.
- the gesture recognition device generates an instruction for the process execution subject.
- the gesture recognition device is applied to a display device as a process execution subject.
- the process execution subject includes a subject that executes a process corresponding to the gesture recognized by the gesture recognition device according to the embodiment of the present invention.
- Examples of the display device include, but are not limited to, a digital TV, a tablet PC (Personal Computer), a smartphone, a mobile phone, an electronic book reader, an electronic notebook, a PDA (Personal Digital Assistant), a personal computer, a notebook computer, a digital camera, and a digital camera. Video cameras, home game machines, portable game machines, digital photo frames, and the like.
- the gesture recognition device is a recording / playback device (BD (Blu-ray Disc) recorder, DVD (Digital Versatile Disc) recorder) or the like as a processing execution subject that is connected to these display devices. May be applied.
- BD Blu-ray Disc
- DVD Digital Versatile Disc
- FIG. 1 is a block diagram showing a main configuration of a gesture recognition device mounted on a digital television as a display device according to an embodiment of the present invention.
- the digital TV 100 includes at least a control unit 10, a storage unit 11, an imaging unit 12, and a display unit 13.
- the digital TV 100 has general functions of the digital TV, the description of the parts not directly related to the present invention is omitted.
- the image capturing unit 12 captures a moving image for capturing the periphery of the digital television 100 (particularly the front) and capturing the movement of the indicator.
- the imaging unit 12 is realized by, for example, a CCD (Charge Coupled Devices) camera or a CMOS (Complementary Metal-Oxide-Semiconductor) camera, but other imaging devices may be used as the imaging unit 12.
- the moving image obtained by imaging by the imaging unit 12 is supplied to the gesture recognition device 1 mounted on the digital television 100. For example, the user moves an indicator (finger, heel, whole body, tool, etc.) in front of the imaging unit 12. As a result, the user can input a gesture to the gesture recognition device 1.
- the gesture recognition device 1 has means for acquiring sensing data (moving image or a series of still image sequences) obtained by sensing an indicator that is a subject that explicitly or implicitly generates an instruction.
- sensing data moving image or a series of still image sequences
- an imaging unit built in the gesture recognition device 1 may be used.
- moving image data captured by a separate imaging unit may be taken into the gesture recognition device 1 via an arbitrary communication unit or recording medium.
- any known means can be employed as means for acquiring the sensing data.
- the display unit 13 displays information processed by the digital television 100 (the gesture recognition device 1 or the display device 2 that realizes a general function of the digital television in the digital television 100). For example, the display unit 13 displays an operation screen for the user to operate the digital television 100 as a GUI (Graphical User Interface) screen.
- the display unit 13 displays a list of images (moving images or still images) or icons that can be processed by the digital television 100. In addition to images or icons, the display unit 13 can display a list of various option objects (hereinafter also referred to as “objects”) that can be selected by the user.
- the display unit 13 is configured by a display device such as an LCD (liquid crystal display).
- the storage unit 11 includes (1) a control program executed by the control unit 10 of the digital television 100, (2) an OS program executed by the control unit 10, and (3) the control unit 10 is operated by the gesture recognition device 1 or the display device 2.
- An application program for executing various functions, and (4) various data to be read when the application program is executed are stored non-temporarily.
- the controller 10 temporarily stores data and calculation results used for calculations in the course of executing various functions.
- the above data (1) to (4) are stored in a non-volatile storage device such as a ROM (Read Only Memory), a flash memory, an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Programmable EPROM), an HDD (Hard Disk Drive), etc. Is remembered.
- the data (5) is stored in a volatile storage device such as a RAM (Random Access Memory). Which data is to be stored in which storage device is appropriately determined from the purpose of use, convenience, cost, physical restrictions, and the like of the digital television 100.
- a volatile storage device such as a RAM (Random Access Memory).
- moving image data obtained by being imaged by the imaging unit 12 is temporarily stored in the storage unit 11 realized by a volatile storage device so that the gesture recognition device 1 can process it.
- rules necessary for the gesture recognition device 1 to recognize a gesture are stored non-temporarily in the storage unit 11 realized by a nonvolatile storage device.
- the data of the object displayed on the display unit 13 by the display device 2 (digital television 100) is stored temporarily in the storage unit 11 realized by a nonvolatile storage device.
- the control unit 10 performs overall control of each unit included in the digital television 100.
- the control unit 10 includes at least a gesture recognition unit 22, a form monitoring unit 23, and an execution amount determination unit 24. Furthermore, the control part 10 may be provided with the start recognition part 20 and the indicator detection part 21 as a functional block for implement
- FIG. 1 A functional block for realizing the gesture recognition device 1
- the control unit 10 includes at least a gesture recognition unit 22, a form monitoring unit 23, and an execution amount determination unit 24. Furthermore, the control part 10 may be provided with the start recognition part 20 and the indicator detection part 21 as a functional block for implement
- the control unit 10 may include an object processing unit 25 as a functional block for realizing the display device 2 (digital television).
- Each functional block of the control unit 10 described above is stored in a nonvolatile storage device in which a CPU (Central Processing Unit) or the like is realized by a ROM (Read Only Memory), an NVRAM (Non-Volatile Random Access Memory), or the like. This can be realized by reading the program into a volatile storage device such as a RAM (Random Access Memory) and executing it.
- a CPU Central Processing Unit
- NVRAM Non-Volatile Random Access Memory
- control unit 10 may be realized by a dedicated hardware circuit (for example, ASIC (Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array)).
- ASIC Application Specific Integrated Circuit
- FPGA Field-Programmable Gate Array
- the start recognition unit 20, the indicator detection unit 21, and the form monitoring unit 23 process a moving image that is sensing data in cooperation with each other or independently.
- it functions as a recognition unit that acquires information on the form of the indicator and the movement trajectory of the form.
- the gesture recognition unit 22 and the execution amount determination unit 24 are based on the form acquired by the recognition unit (start recognition unit 20, indicator detection unit 21, or form monitoring unit 23) and the movement trajectory of the form.
- It functions as an instruction generation unit that determines a process to be executed by the process execution entity and a process execution amount of the process to be executed.
- start recognition unit 20 recognizes the start of gesture input.
- the imaging unit 12 While the digital TV 100 is turned on, the imaging unit 12 always continues to capture moving images. That is, even when the user is inputting a gesture (moving the indicator intentionally) or when the user is not inputting a gesture (not intentionally moving the indicator), the imaging unit is always used. A moving image is supplied from 12. Therefore, it is preferable to perform the gesture recognition process by processing the moving image only in the former case, distinguishing the former case from the latter. This is because it is possible to avoid performing gesture recognition processing with a high processing load on unnecessary moving image frames.
- the start recognizing unit 20 recognizes a special movement that is recognized by the gesture recognizing unit 22 and has a different type from the movement when a gesture is input to the digital television 100. Then, the start recognizing unit 20 recognizes this special movement as a cue that is input to the gesture recognition device 1 and notifies the start of gesture input.
- FIG. 2 is a diagram illustrating a specific example of one frame of a moving image supplied to the gesture recognition device 1, and is a diagram illustrating the operation of the start recognition unit 20.
- the start recognizing unit 20 recognizes the movement of the user shaking a finger or hand as a cue for the gesture input start.
- the start recognizing unit 20 sequentially processes each frame of the moving image sequentially supplied from the imaging unit 12 and sequentially obtains an inter-frame difference.
- the start recognizing unit 20 temporarily stores the obtained difference values between frames in the storage unit 11 and accumulates them. When the accumulated value of the difference values exceeds a predetermined value, the start recognition unit 20 recognizes that a gesture input start signal has been input.
- the start recognizing unit 20 compares the frames and recognizes a portion where the region 40 is rapidly changed. Thereby, the start recognition unit 20 can recognize that a gesture input start signal has been input.
- the start recognizing unit 20 further identifies the region 40 in which the accumulation of the difference value equal to or greater than a certain value is recognized as the indicator inclusion region 40 including the indicator.
- each functional unit in the downstream process first performs processing for specifying the indicator. It is clear that the processing efficiency of the indicator detection unit 21 is significantly improved if the area to be scanned for specifying the indicator is narrowed down to the indicator inclusion area 40 from the entire frame.
- the indicator detection unit 21 detects an indicator that performs gesture input.
- the gesture recognition device 1 is a device for recognizing an input gesture depending on what kind of movement the indicator performs, it is necessary to specify where the object whose movement is to be tracked is on the frame.
- the indicator detection unit 21 detects an indicator region to be tracked.
- 3A and 3B are diagrams illustrating a specific example of the pointer inclusion region 40 supplied to the pointer detection unit 21, and are diagrams for explaining the operation of the pointer detection unit 21.
- the indicator is a user's finger, and the user inputs a gesture by moving the finger in front of the imaging unit 12. Therefore, in this embodiment, the indicator detection unit 21 detects the area of the user's finger included in the indicator inclusion region 40 as the indicator region 41 as shown in (a) or (b) of FIG. .
- the method by which the indicator detection unit 21 detects the indicator region 41 is not limited to this, but includes the following method.
- the indicator detection unit 21 may detect the indicator region 41 by a contour extraction method such as the snake method (broken line frame region in FIG. 3A).
- the indicator detection unit 21 may detect a skin color region as the indicator region 41 using a skin color model in the HSV color space (a halftone dot region in FIG. 3B).
- each functional unit in particular, the gesture recognition unit 22 in the downstream process can clearly narrow down the pointer to be tracked for the gesture recognition to the pointer region 41.
- the indicator detection unit 21 detects one point included in the indicator region 41 as the indicator reference point 42.
- the indicator detection unit 21 detects the tip of the finger as the indicator reference point 42.
- the gesture recognizing unit 22 can clearly narrow down the indicator to be tracked for the gesture recognition as the indicator reference point 42 instead of the indicator region 41. It is clear that the processing efficiency of the gesture recognition unit 22 is remarkably improved if the target to be tracked by the pointer is narrowed down from the pointer region 41 to the pointer reference point 42.
- the gesture recognition unit 22 recognizes a gesture from the movement of the indicator and specifies the instruction content corresponding to the gesture.
- each gesture is associated with a process to be executed by the digital television 100. Therefore, the gesture recognition unit 22 specifies the content of the process executed by the digital television 100 corresponding to the recognized gesture.
- FIG. 4 to 6 are diagrams for explaining the operation of the gesture recognition unit 22.
- 4 and 5 are diagrams illustrating a specific example of the indicator reference point 42 on the frame tracked by the gesture recognition unit 22.
- FIG. 6 is a diagram illustrating a data structure and a specific example of the gesture rules stored in the gesture rule storage unit 30.
- the gesture recognizing unit 22 recognizes the up / down / left / right movement of the indicator as a gesture. That is, as shown in FIG. 4, the gesture recognition unit 22 recognizes four types of gestures: “move left”, “move right”, “move up”, and “move down”. To do.
- the gesture recognition unit 22 is not limited to the above four types, such as “draw a circle”, and may recognize another gesture.
- the gesture recognition unit 22 tracks the pointer reference point 42 detected by the pointer detection unit 21 and sequentially processes each frame of the moving image.
- the gesture recognition unit 22 sequentially obtains the moving direction and the moving distance of the indicator reference point 42.
- the movement distance can be obtained by obtaining an inter-frame difference for the position of the indicator reference point 42.
- the gesture recognition unit 22 temporarily stores the accumulated movement distance of the indicator reference point 42 in the storage unit 11 and accumulates it. When the accumulated value of the movement distance exceeds a predetermined value, the gesture recognition unit 22 recognizes that the indicator has been moved in the obtained movement direction.
- the gesture recognizing unit 22 determines that the indicator reference point 42 is “moved” because the indicator reference point 42 has moved from the original position (white circle) to the current position (black circle). ”And the movement direction 43 thereof.
- the gesture recognizing unit 22 recognizes that the “move to the left” gesture has been input when the movement direction 43 of the movement direction of the indicator (indicator reference point 42) is specified.
- the gesture recognizing unit 22 recognizes that the “move right” gesture has been input.
- the type of gesture may be identified by identification information, although not shown here.
- the gestures “move left”, “move right”, “move up”, and “move down” are “00”, “01”, “10”, and “11”, respectively. "Or the like may be assigned.
- the gesture recognition unit 22 recognizes that the “00” gesture has been input.
- the gesture recognition unit 22 specifies the instruction content corresponding to the recognized gesture, that is, the content of the process to be executed by the digital television 100.
- the gesture recognition unit 22 identifies a process corresponding to the input gesture according to the gesture rules (FIG. 6) stored in the gesture rule storage unit 30.
- the gesture rule storage unit 30 is associated with processing executed by the digital television 100 for each type of gesture recognized by the gesture recognition unit 22.
- the gesture rules are shown in a table format, but this is not intended to limit the data structure of the gesture rules stored in the gesture rule storage unit 30 to a table.
- the “move to the left for one object” process is associated with the “move left” gesture based on the movement direction 43. Therefore, when the indicator moves along the movement direction 43, the gesture recognition unit 22 recognizes the gesture “move left”, and the process to be executed by the digital television 100 is “focus on object 1”. It is specified that “transition to“ left ”for one minute”.
- the form monitoring unit 23 monitors changes in the form of the indicator and specifies the amount of change.
- the form monitoring unit 23 may start monitoring the form of the indicator after the gesture recognition unit 22 starts the gesture recognition process, or after the gesture recognition unit 22 recognizes the gesture, the form of the indicator Monitoring may be started.
- the form monitoring unit 23 may monitor the form change of the indicator (finger) that the user has moved to input a gesture, or another instruction in the same frame as the indicator. You may monitor the form change of a body (2nd indicator).
- the gesture recognizing unit 22 recognizes the gesture first, and then the form monitoring unit 23 is moved (moved) to input the gesture. Morphological changes shall be monitored. That is, the user moves the indicator in one of up, down, left, and right directions for gesture input, and thereafter changes the form of the indicator.
- the operation of changing the form of the indicator is a process execution amount designation operation for instructing how much the process corresponding to the previously input gesture is repeated.
- the user instead of repeatedly inputting the same gesture, the user can instruct the digital television 100 to perform the repetitive process only by performing one process execution amount designation operation.
- FIG. 7 to 9 are diagrams for explaining the operation of the form monitoring unit 23.
- FIG. FIG. 7 is a diagram illustrating a specific example of a frame input to the gesture recognition device 1 immediately after the gesture recognition unit 22 recognizes a gesture.
- FIG. 8 is a diagram showing a specific example of a method for specifying the principal axis of the finger for the form monitoring unit 23 to obtain the inclination of the finger as the form of the indicator.
- FIG. 9 is a diagram illustrating a specific example of a method by which the form monitoring unit 23 obtains a finger tilt.
- the form monitoring unit 23 monitors a change in the inclination of the indicator that has finished moving for gesture input, that is, the user's finger as a change in form.
- the form monitoring unit 23 specifies an indicator to be started from the frame immediately after the gesture recognition unit 22 recognizes the gesture.
- the form monitoring unit 23 acquires the indicator inclusion region 40 specified by the start recognition unit 20 and the indicator region 41 specified by the indicator detection unit 21.
- the indicator region 41 is the finger of the user who has performed the gesture input up to this point.
- the form monitoring unit 23 specifies a main axis serving as a reference for the finger to be monitored in order to obtain the tilt of the user's finger.
- the method by which the form monitoring unit 23 obtains the principal axis of the finger is not limited to this, but for example, the following method can be considered.
- the form monitoring unit 23 specifies a projection portion 41 ′ having a projection shape (finger shape) from the indicator region 41 in the indicator inclusion region 40, and circumscribes a rectangle of the projection portion. Is extracted as the attention area 45. Then, the form monitoring unit 23 obtains the center of gravity 46 of the protruding portion 41 ′ in the attention area 45.
- the form monitoring unit 23 defines a straight line 47 that passes through the center of gravity 46. Since there are an infinite number of straight lines 47 passing through the center of gravity 46, in the present embodiment, as an example, the form monitoring unit 23 sets the straight line 47 passing through the center of gravity 46 at intervals of 5 degrees with reference to the straight line 47 passing through the center of gravity 46 vertically. It may be defined.
- the form monitoring unit 23 identifies, as the principal axis of the finger, the straight line 47 having the longest line segment overlapping the protruding portion 41 ′ in the attention area 45 among the defined straight lines 47.
- the form monitoring unit 23 identifies a thick straight line 47 as the main axis 48 as a straight line having the longest line segment overlapping the protruding portion 41 ′.
- the form monitoring unit 23 obtains the angle between the principal axis 48 of the finger obtained as described above and a straight line having a reference angle, and thereby the inclination of the indicator (user's finger) to be monitored. Can be obtained. Then, by monitoring the change in the angle, it is possible to monitor the change in form, that is, the change in the tilt of the finger.
- the form monitoring unit 23 defines a line perpendicular to the frame as a reference line 49 as shown in FIG.
- the form monitoring unit 23 regards the inclination ⁇ s of the reference line 49 as 0 degree.
- the form monitoring unit 23 obtains the angle ⁇ t formed between the principal axis 48 of the finger obtained as described above and the reference line 49 in a frame at a certain time t.
- the form monitoring unit 23 obtains the obtained angle ⁇ t as the finger inclination at the time t.
- the user can gradually tilt his / her finger according to the amount of processing to be executed by the digital television 100.
- Each frame of the moving image showing the motion of tilting the finger is sequentially supplied from the imaging unit 12 to the gesture recognition device 1.
- the form monitoring unit 23 obtains the finger spindle 48 sequentially for each frame (t, t + 1, t + 2,...) And monitors the change in the finger tilt. The form monitoring unit 23 sequentially notifies the execution amount determination unit 24 of the obtained finger inclination ⁇ t.
- the form monitoring unit 23 is not limited to the above example, and for example, the tilt of the finger may be obtained by using an elliptic fitting method for the indicator region 41.
- the execution amount determination unit 24 determines the amount of processing (hereinafter also referred to as “processing execution amount”) to be executed by the digital television 100 in accordance with the form of the indicator obtained by the form monitoring unit 23. .
- the execution amount determination unit 24 may express the processing execution amount in any unit. For example, the execution amount determining unit 24 may determine the number of executions of processing as the processing execution amount, or may determine the number of objects to be processed as the processing execution amount.
- the process executed by the digital television 100 is a process of shifting the focus (cursor) by one object (option) in any direction. Therefore, in the present embodiment, the execution amount determination unit 24 performs the number of times of “continuously shifting the focus in a predetermined direction for one object” in accordance with the finger inclination obtained by the form monitoring unit 23. (Processing execution count) is determined as the processing execution amount.
- the execution amount determination unit 24 performs the “predetermined number of objects” when executing the “transition of focus in a predetermined direction by a predetermined number of objects” according to the inclination of the finger obtained by the form monitoring unit 23. May be determined as the processing execution amount.
- the digital television 100 continues the process of “changing the focus in a predetermined direction by one object” for the determined number of processing executions. And execute.
- the digital television 100 shifts the focus in the predetermined direction by the determined number of objects.
- a correlation between the change amount of the form, that is, the inclination of the finger (form change amount) and the process execution amount corresponding thereto is defined in advance. Need to be.
- the form correlation storage unit 31 stores a correlation between the change amount of the indicator form and the process execution amount.
- the correlation information stored in the form correlation storage unit 31 may be realized in the form of a correspondence table or in the form of a calculation formula.
- the execution amount determining unit 24 refers to the correlation information stored in the form correlation storage unit 31 and determines the process execution amount based on the obtained form change amount. Can do.
- the method by which the execution amount determination unit 24 determines the processing execution amount is not limited to this, but for example, the following method can be considered.
- a frame at the time t is obtained from the imaging unit 12.
- the form monitoring unit 23 obtains the finger inclination ⁇ t at the time t.
- the execution amount determination unit 24 determines the processing execution amount Mt at time t from the finger inclination ⁇ t according to the following predetermined calculation formula.
- ⁇ a predetermined coefficient.
- the calculation formula and the coefficient ⁇ are stored in the form correlation storage unit 31 and read out by the execution amount determination unit 24.
- the execution amount determination unit 24 can determine a larger amount of processing execution as the user tilts his / her finger.
- the coefficient ⁇ is set to “0.5 (times)” and the finger inclination ⁇ t at the time t obtained by the form monitoring unit 23 is 60 degrees.
- the gesture recognition unit 22 performs the process corresponding to the input gesture “change the focus to“ left ”by one object”. Suppose that it is identified.
- the object processing unit 25 processes each object stored in the object storage unit 32.
- the object processing unit 25 displays each object as an option on the display unit 13. Furthermore, the object processing unit 25 displays the selected (focused) object separately from other non-selected objects.
- the object processing unit 25 performs focus control on the object. Specifically, the object processing unit 25 focuses on a specific object and distinguishes the object from other non-selected objects. Further, the object processing unit 25 controls the cursor display position so that the object is visualized, and places the cursor on the focused object. When the object processing unit 25 changes the focus to another object, the object processing unit 25 moves the cursor to the other object. For example, when the object is a thumbnail image, the object processing unit 25 reads a plurality of thumbnail images from the object storage unit 32 and displays them as a list in a tile shape. Then, the cursor is placed on the focused thumbnail image and displayed.
- focus control is performed as follows. That is, the object processing unit 25 may display only the focused page on the display unit 13. When another page is selected, the focus is shifted to the other page, the page that has been displayed so far is not displayed, and the other page that is newly focused is displayed.
- the object processing unit 25 can operate according to instructions supplied from the gesture recognition device 1. More specifically, the object processing unit 25 executes processing corresponding to the gesture recognized by the gesture recognition unit 22 of the gesture recognition device 1 in accordance with an instruction from the gesture recognition unit 22. Further, the above processing is repeated so as to satisfy the processing execution amount determined by the execution amount determination unit 24.
- an instruction to repeat the process of “change focus to“ left ”by one object” 30 times is input from the gesture recognition device 1 to the display device 2 (that is, the digital television 100). Let's say. In this case, the object processing unit 25 shifts the focus from the currently focused object to the objects arranged 30 times to the left among the displayed objects. Then, the object processing unit 25 moves the cursor to the left by 30 objects. Alternatively, when the object is a book page, the object processing unit 25 shifts the focus to a page 30 pages ahead and repeats the page 30 times to display the page (the book is displayed with the right binding and left opening). If).
- FIGS. 10 and 11 are diagrams illustrating a specific example of a display screen obtained as a result of the processing performed by the object processing unit 25 in accordance with the gesture recognized by the gesture recognition device 1.
- the object processing unit 25 displays a list of still image thumbnail images stored in the object storage unit 32 on the upper stage of the display screen (13a, 13b) (thumbnail image 51). ' ⁇ 55'). Further, the object processing unit 25 displays a still image corresponding to the focused thumbnail image among the thumbnail images displayed as a list in the lower part of the display screen (13a, 13b). For example, since the thumbnail image 52 ′ is focused on the display screen 13a of FIG. 10, the still image 52 corresponding to the thumbnail image 52 ′ is displayed in the lower stage. Further, the object processing unit 25 displays the cursor 50 at the position of the focused thumbnail image in order to clearly indicate the focused thumbnail image.
- the gesture recognition unit 22 recognizes the gesture “move to the left” and instructs the object processing unit 25 to perform the corresponding process “change focus to“ left ”by one object”.
- the object processing unit 25 shifts the focus to the thumbnail image 52 ′ that is one left of the thumbnail image 51 ′ in accordance with the instruction from the gesture recognition unit 22 as shown in the display screen 13a.
- the object processing unit 25 further moves the cursor 50 to the left from the thumbnail image 51 ′ so as to hit the thumbnail image 52 ′. Further, the still image 52 corresponding to the thumbnail image 52 ′ is displayed in the lower part.
- the user continues to change the form of the finger after moving the finger. Specifically, the tilt of the finger is changed to the left by a predetermined angle (Sce2 in FIG. 10; scene 2).
- the form monitoring unit 23 monitors how the finger is tilted, and sequentially obtains the tilt of the finger. As an example, at the time of the scene 2, the form monitoring unit 23 specifies the angle ⁇ a formed by the reference line 49 and the principal axis 48 of the finger as the finger inclination (form change amount) at the time of the scene 2.
- the execution amount determination unit 24 determines the processing execution amount corresponding to the angle ⁇ a as “one sheet” in accordance with the correlation information stored in the form correlation storage unit 31 and the angle ⁇ a.
- both finger movement and shape change were executed in the left direction. Therefore, at the time of scene 2, the execution amount determination unit 24 instructs the object processing unit 25 to specify the processing execution amount “1 sheet” and the processing progress direction “left”.
- the object processing unit 25 repeats the process instructed by the previous gesture recognition unit 22 in accordance with the instruction from the execution amount determination unit 24 described above. In other words, the object processing unit 25 once again shifts the focus to “left” by one object. As a result, as shown in the display screen 13b, the object processing unit 25 shifts the focus from the thumbnail image 52 'to the thumbnail image 53', and moves the cursor 50 by one to the left.
- the execution amount determination unit 24 sequentially sets the processing execution amount “1 sheet” and the processing progress direction “left” to the object processing unit 25. Instruct.
- the object processing unit 25 continuously executes a process of shifting the focus from the thumbnail image 53 ′ to 54 ′, 55, ‘.
- the cursor 50 is also moved one by one from the thumbnail image 53 'to 54', 55, '....
- the execution amount determination unit 24 continues to instruct the object processing unit 25 of the processing execution amount “2” and the processing progress direction “left”.
- the object processing unit 25 changes the focus by feeding two images from the thumbnail image 52 'to the thumbnail image 54' while the instruction is supplied. Then, the object processing unit 25 continues this process while the instruction is supplied. That is, the object processing unit 25 continues to shift the focus by feeding two thumbnail images 56 ′, 58 ′, 60 ′,.
- the execution amount determination unit 24 sequentially determines the processing execution amount as “3 sheets”, “4 sheets”,.
- the object processing unit 25 can shift the focus at a higher speed, such as three-sheet feeding, four-sheet feeding,. .
- the above-mentioned single sheet feeding means that the focus is changed for each object.
- “Two-sheet feeding” means that one object is skipped and the focus is shifted every two objects.
- Three-sheet feeding (four-sheet feeding) means that two (three) objects are skipped and the focus is shifted every three objects (four).
- the object processing unit 25 is configured to be able to change focus for any number of objects. For example, when 1000 objects are displayed in a list, the object processing unit 25 can change the focus every 100 objects.
- the operation of moving the indicator to the left has to be performed ten times.
- the indicator is moved to the left. Only one operation to move the indicator and one operation to tilt the indicator.
- the user can specify the repetition amount for the digital television 100 by adjusting the amount of change in the form of the indicator. For example, if the amount of change in the shape of the indicator (finger tilt) is multiplied by 10, it is possible to instruct the digital television 100 to move the cursor that has been moved by 10 sheets by 100 sheets. is there.
- FIG. 12 is a flowchart showing a flow of gesture recognition processing executed by the gesture recognition device 1 and object processing executed by the display device 2 (digital television 100).
- the user In order to input a gesture, the user first sends a gesture input start signal by waving a finger in front of the imaging unit 12.
- a moving image (frame group) that captures this state is supplied to the gesture recognition device 1
- the start recognition unit 20 recognizes a gesture input start signal based on the amount of change between frames (step S101).
- the start recognizing unit 20 specifies, from the frame, an area (for example, the indicator inclusion area 40) including an indicator for inputting a gesture (step S102).
- the indicator detection unit 21 further detects the indicator region 41 from the indicator inclusion region 40 and further detects the indicator reference point 42 on the indicator region 41.
- the gesture recognition unit 22 then tracks the indicator and starts the gesture recognition process (step S103). For example, it is preferable to track the indicator reference point 42 detected by the indicator detector 21.
- the user moves the indicator (finger) in either the up / down / left / right direction.
- the gesture recognition unit 22 obtains the moving direction and moving distance of the indicator reference point 42 from the inter-frame difference. The moving distance is accumulated by sequentially supplying the frames. When the moving distance exceeds a certain value, the gesture recognition unit 22 recognizes that the indicator has “moved”.
- the gesture recognition unit 22 recognizes the movement of the indicator (YES in step S104)
- the gesture recognition unit 22 recognizes the gesture based on the movement direction of the indicator reference point 42 obtained as a result of tracking the indicator reference point 42 (step S104). S105).
- the gesture recognition unit 22 recognizes that the “move left” gesture shown in FIG. 6 has been input. . Subsequently, the gesture recognition unit 22 specifies a process to be executed by the display device 2 in accordance with the input gesture. For example, according to the gesture rule shown in FIG. 6, the “transition of focus to“ left ”by one object” associated with “move left” is specified as a process to be executed by the display device 2.
- the gesture recognition unit 22 outputs an instruction for causing the display device 2 to execute the specified process to the display device 2 (here, the object processing unit 25) (step S107).
- the object processing unit 25 of the display device 2 executes the instructed process in accordance with the above instruction (step S108).
- the object processing unit 25 shifts the focus to the object displayed on the left of the object that has been focused so far.
- the object processing unit 25 moves the cursor placed on the object that has been focused so far to the newly focused left object.
- the form monitoring unit 23 of the gesture recognition device 1 monitors the form of the indicator region 41 (finger) in the indicator inclusion region 40 specified by each upstream process.
- the form monitoring unit 23 further specifies an attention area 45 including only a protruding finger portion from the indicator area 41 and specifies a finger spindle 48 in the attention area 45. Then, the inclination of the principal axis 48 of the finger is tracked.
- the form monitoring unit 23 When the form monitoring unit 23 accumulates the inter-frame difference values and recognizes the movement of the indicator (that is, the change in form) (YES in step S110), the form monitoring unit 23 obtains the tilt of the finger in the attention area 45 in the latest frame. (Step S111). For example, the form monitoring unit 23 obtains the angle formed by the reference line 49 and the main axis 48 perpendicular to the frame as the finger inclination.
- the execution amount determination unit 24 determines the processing execution amount based on the finger inclination obtained by the form monitoring unit 23 according to the correlation information stored in the form correlation storage unit 31.
- the correlation information is information indicating the correlation between the form change amount and the processing execution amount, and the processing execution amount corresponding to the finger inclination obtained by the form monitoring unit 23 is obtained by this information.
- the execution amount determination unit 24 outputs the processing execution amount “30 times” determined in step S112 to the display device 2 (step S113).
- the object processing unit 25 of the display device 2 receives the processing execution amount from the gesture recognition device 1 (YES in step S114), the processing instructed in step S108 is designated by the processing execution amount. The number of times is executed (step S115).
- the object processing unit 25 executes the process of “changing the focus to“ left ”by one object” 30 times. Further, the object processing unit 25 may move the cursor to the left 30 objects.
- the object processing unit 25 may move the cursor while placing the cursor on each object one by one, but it is preferable to move (jump) the 30 objects to the left at a stretch.
- the user may increase the tilt of the finger to further increase the moving speed of the cursor described above. While the indicator is recognized within the frame (NO in step S116), the processes in steps S110 to S115 are repeatedly executed. That is, the object processing unit 25 repeats the process of jumping the cursor to the left for every 30 objects.
- the user can remove the indicator itself from the imaging range of the imaging unit 12 and complete the gesture input. If the indicator is no longer recognized in the frame supplied from the imaging unit 12 (YES in step S116), the form monitoring unit 23 ends the form monitoring and performs the form change performed on the execution amount determining unit 24. Stop supplying quantity (finger tilt). Accordingly, the execution amount determination unit 24 instructs the display device 2 to stop the supply of the processing execution amount that has been performed on the display device 2 and instead stops the execution of the processing (step). S117).
- the object processing unit 25 of the display device 2 receives a processing stop instruction from the gesture recognition device 1 (YES in step S118), the object processing unit 25 stops the processing instructed in step S108 (step S119). That is, the object processing unit 25 stops the movement of the cursor (focus transition).
- the user in addition to moving the indicator and inputting the gesture, the user simply inputs the gesture repeatedly many times simply by changing the shape of the indicator.
- An equivalent instruction can be input to the digital television 100.
- the operation of moving the indicator to the left has to be performed ten times.
- the indicator is moved to the left. Only one operation to move the indicator and one operation to tilt the indicator.
- the user can designate the repetition amount (processing execution amount) for the digital television 100 by adjusting the amount of change in the form of the indicator. For example, if the amount of change (inclination of the finger) of the indicator is 10 times, it is possible to instruct the digital television 100 to move the cursor that has been moved by 10 sheets by 100 sheets.
- the form monitoring unit 23 and the execution amount determination unit 24 may be configured as follows, and the processing execution amount may be determined by other methods.
- a processing execution amount determination method according to another embodiment of the present invention will be described with reference to FIGS.
- FIG. 13 is a diagram illustrating a process execution amount determination method according to another embodiment of the present invention.
- the maximum value of the processing execution amount in the display device 2 is determined in advance.
- the maximum value of the number of objects that cause the cursor to jump is determined to be “100”. That is, the object processing unit 25 is configured to be able to move the cursor (focus) up, down, left, and right by a maximum of 100.
- the form monitoring unit 23 defines the reference line 49, obtains the change amount ⁇ t at the current time t, and supplies it to the execution amount determination unit 24.
- the execution amount determination unit 24 further sets the reference form (final form e) corresponding to the predetermined maximum value (for example, 100) of the process execution amount as shown in FIG. Defined as a reference line 70.
- the execution amount determination unit 24 determines the processing execution amount Mt at the time t from the finger inclination ⁇ t according to the following predetermined calculation formula stored in the form correlation storage unit 31.
- Mt ( ⁇ t ⁇ ⁇ all) ⁇ ⁇
- ⁇ is a predetermined maximum processing execution amount.
- the execution amount determination unit 24 can determine the processing execution amount in proportion to the amount of change in the form of the indicator obtained by the form monitoring unit 23, and is the same as in the first embodiment. The effect of can be obtained.
- FIG. 14 is a diagram illustrating a process execution amount determination method according to another embodiment of the present invention.
- the modification shown in FIG. 14 is different from the processing execution amount determination method of the first embodiment shown in FIG. 9 as follows. That is, the form monitoring unit 23 is configured to define a vertical line in the frame as an absolute reference line. In this modification, the form monitoring unit 23 regards the form of the indicator at the time of starting monitoring of the change in form of the indicator as the reference form (start form s). Therefore, even if the user's finger is already tilted when the gesture input is completed, if the form monitoring unit 23 starts monitoring at that time, the main axis of the finger is defined as the reference line 49 ′. To do. The form monitoring unit 23 defines the inclination ⁇ s of the defined reference line 49 ′ as 0 degree.
- the shape monitoring unit 23 obtains the principal axis 48 of the finger at the current time t, and supplies the angle ⁇ t formed by the reference line 49 ′ and the main shaft 48 to the execution amount determination unit 24 as the amount of change in the shape of the indicator at the current time t. To do.
- the coefficient ⁇ may be the same as that in the first embodiment, or may be set to another value.
- the execution amount determination unit 24 can determine the processing execution amount in proportion to the amount of change in the form of the indicator obtained by the form monitoring unit 23, and is the same as in the first embodiment. The effect of can be obtained.
- FIG. 15 is a diagram illustrating a process execution amount determination method according to another embodiment of the present invention.
- the maximum value of the processing execution amount is determined in advance in the display device 2. For example, it is assumed that the maximum value of the number of objects that the object processing unit 25 can jump the cursor to is “100”.
- the form monitoring unit 23 defines a vertical reference line 49 in the frame, and defines the inclination ⁇ of the reference line 49 as 0 degrees, as in the first embodiment.
- the form monitoring unit 23 further regards the form of the indicator at the start of monitoring of the change in form of the indicator as the reference form (start form s).
- the form monitoring unit 23 defines the principal axis of the finger in the start form s as a reference line 49 '.
- the shape monitoring unit 23 obtains the principal axis 48 of the finger at the current time t, and supplies the angle ⁇ t formed by the reference line 49 ′ and the main shaft 48 to the execution amount determination unit 24 as the amount of change in the shape of the indicator at the current time t. To do.
- the execution amount determination unit 24 further sets the reference form (final form e) corresponding to the predetermined maximum value (for example, 100) of the process execution amount as shown in FIG. Defined as a reference line 70.
- the execution amount determination unit 24 regards the reference form corresponding to the minimum value (for example, 0) of the process execution amount as the reference line 49 ′ ( ⁇ s) corresponding to the start form s.
- ⁇ s is obtained by an angle formed by the vertical reference line 49 and the reference line 49 ′ of the starting form s.
- the execution amount determination unit 24 obtains the ratio of the current form change amount ( ⁇ t) to the maximum change amount ( ⁇ all). Then, the execution amount determination unit 24 determines the processing execution amount in proportion to the ratio.
- the execution amount determination unit 24 determines the processing execution amount Mt at the time t from the finger inclination ⁇ t according to the following predetermined calculation formula stored in the form correlation storage unit 31.
- Mt ( ⁇ t ⁇ ⁇ all) ⁇ ⁇
- ⁇ is a predetermined maximum processing execution amount.
- the execution amount determination unit 24 can determine the processing execution amount in proportion to the amount of change in the form of the indicator obtained by the form monitoring unit 23, and is the same as in the first embodiment. The effect of can be obtained.
- the user changes the form of the indicator in the direction of travel opposite to the direction of movement of the indicator (finger) when inputting a gesture.
- the execution amount determination unit 24 compares the change amount ⁇ t of the current time t supplied from the shape monitoring unit 23 with the change amount ⁇ t ⁇ 1 of the previous time point t ⁇ 1. Then, when it decreases, this may be recognized as a stop instruction from the user. Then, the execution amount determination unit 24 may output a process stop instruction for instructing stop of the process to the display device 2.
- FIG. 16 shows an example of a situation in which the form change amount ⁇ t at the current time t is lower than the change amount ⁇ t ⁇ 1 at the previous time point t ⁇ 1.
- the movement direction at the time of the gesture input is the movement direction 43 (move to the left), and the direction of change in the shape of the indicator when the processing execution amount is designated is also the left direction as in the movement direction 43. It is assumed that the traveling direction is 71. In this case, the inclination of the finger (morphological change amount) increases as the finger is inclined to the left of the reference line 49.
- the finger tilt (morphological change amount) is the previous change amount. It decreases from ⁇ t-1.
- the operation that has been continuously performed is stopped in accordance with the operation of returning the tilt of the finger in the opposite direction (right) to the previous traveling direction (left).
- the digital television 100 is configured.
- the user has performed an operation of moving the cursor (focus) in the same direction as the direction of finger movement.
- the operation of returning the tilt of the finger in the direction opposite to the traveling direction is easily associated with the image of braking the cursor movement for the user.
- the form monitoring unit 23 indicates the amount of change of the indicator. It may be represented by a negative number.
- the movement direction at the time of gesture input is the movement direction 43 (move to the left), and the progress direction of the indicator shape change when the processing execution amount is specified is opposite to the movement direction 43. It is assumed that the traveling direction 72 is rightward. In this case, the inclination of the finger (morphological change amount) becomes negative and decreases as the inclination to the right of the reference line 49 (absolute value increases).
- the execution amount determining unit 24 uses the same direction as the previous movement direction 43 in the progress direction of the process for causing the digital television 100 to execute the same direction. Determine that there is. That is, the execution amount determination unit 24 instructs the display device 2 to perform a process of “shifting focus to the left by Mt objects”.
- the execution amount determining unit 24 performs a process of causing the digital television 100 to execute a direction opposite to the previous movement direction 43. Determine the direction of travel. That is, the execution amount determination unit 24 instructs the display device 2 to perform a process of “shifting the focus to the right by Mt objects”.
- the processing execution amount Mt is determined by how much the finger spindle 48 at the current time t is tilted to the left (or right) from the reference line 49. The stronger the inclination, the greater the processing execution amount.
- the digital television 100 is configured to continue the process.
- the action of tilting the finger in the direction of travel opposite to the direction of travel is associated with the image that the direction of movement of the cursor changes (the cursor turns back) in the direction opposite to the direction of travel initially indicated by the gesture.
- the form monitoring unit 23 is configured to monitor the tilt of the finger as the indicator form.
- the configuration of the gesture recognition device 1 of the present invention is not limited to this.
- the form monitoring unit 23 may monitor the bending state of the finger in the indicator moved for gesture input.
- the form monitoring unit 23 acquires the principal axis of a part (medium section) whose angle changes when the finger is bent and monitors the inclination, and when the finger is bent. You may acquire the magnitude
- the form monitoring unit 23 monitors the Y coordinate in the frame of the fingertip (indicator reference point 42), and the Y coordinate of the indicator reference point 42 that changes when the finger is bent The movement distance d obtained by the coordinate difference may be acquired as the form change amount.
- the form monitoring unit 23 may acquire the angle ⁇ between two fingers in the indicator that has moved for gesture input as the form change amount.
- A) of FIG. 20 is a figure which shows the mode of the indicator at the time of completing gesture input.
- the two fingers are, for example, a thumb and an index finger.
- the form monitoring unit 23 acquires the principal axes of each finger and obtains the angle formed by these principal axes.
- the angle ⁇ (not shown in FIG. 20A) is small.
- (B) and (c) of FIG. 20 are diagrams showing the state of the indicator at a certain point in time when the processing execution amount designation operation is being performed.
- the angle ⁇ between the two fingers is larger than that in FIG.
- the execution amount determination unit 24 determines the processing execution amount according to the correlation information that the processing execution amount increases as the angle between the two fingers increases.
- the form monitoring unit 23 may monitor a morphological change amount of the second indicator by specifying a second indicator that is different from the indicator moved for the gesture input in the frame. . More specifically, as shown in FIG. 21, the form monitoring unit 23 may monitor the degree of necking of the user. The form monitoring unit 23 specifies the indicator inclusion region 73 including the user's habit. And the form monitoring part 23 may acquire the main axis
- the gesture recognition device 1 can be mounted on the electronic book reader 200.
- the object processing unit 25 of the electronic book reader 200 displays the focused page on the display unit 13 among the pages of the electronic book.
- the object processing unit 25 displays the electronic book with a right-binding left-open image.
- the gesture recognition device 1 is configured to recognize a gesture for turning this page.
- the user performs an operation to turn the currently displayed page from left to right in order to display the next page.
- the user moves the indicator from the left to the right in front of the imaging unit 12 (white arrow 76).
- the object processing unit 25 changes the focus to the next page (P.16) of the current page (P.15). 16 is displayed (white arrow 77).
- the object processing unit 25 executes the processing execution amount (number of pages) designated from the current page (P.16). Change focus to the page ahead and display the new page.
- the black arrow indicates the movement when the left and right are opposite to the above description.
- the user can easily repeat a number of pages at once without changing the form of the indicator without inputting the same gesture many times.
- the gesture recognition device 1 can be mounted on the smartphone 300.
- the user performs an operation to slide the currently displayed page from right to left in order to display the next page.
- the user moves the indicator from right to left in front of the imaging unit 12 (white arrow 79).
- the gesture recognition unit 22 recognizes the “move left” gesture
- the object processing unit 25 changes the focus to the next page (4/10) of the current page (3/10), and 4/10 Display the page.
- a 4/10 page is slid in (white arrow 80).
- the object processing unit 25 executes the processing execution amount (number of pages) designated from the current page (4/10). Change focus to the page ahead and display the new page.
- the black arrow indicates the movement when the left and right are opposite to the above description.
- the user can easily repeat a number of pages at once without changing the form of the indicator without inputting the same gesture many times.
- the gesture recognition device 1 can be mounted on the tablet PC 400.
- the object processing unit 25 of the tablet PC 400 displays icons (options) as objects separately for a main item and a sub item.
- the object processing unit 25 displays a list of main items (identified by alphabets in FIG. 24) in a horizontal row. Then, the sub-items (identified by numbers in FIG. 24) belonging to the focused main item are displayed in a list in a vertical row. Further, the object processing unit 25 displays a cursor 50 on the focused icon.
- the user performs an operation for moving the cursor 50 in order to select a desired main item.
- the user moves the indicator from left to right in front of the imaging unit 12 (white arrow 82).
- the gesture recognition unit 22 recognizes the “move right” gesture
- the object processing unit 25 changes the focus to the icon (large item E) adjacent to the right of the current icon (large item D), and the cursor 50 Is also moved to the right (white arrow 83).
- the object processing unit 25 executes the processing execution amount (number of icons) designated from the current icon (large item E).
- the focus is shifted to the icon arranged to the right, and the new icon is displayed by placing the cursor 50 on it.
- the black arrow indicates the movement when the left and right are opposite to the above description.
- the user can quickly select an icon arranged far from the current focus position by only one operation of changing the form of the indicator without inputting the same gesture many times. it can.
- Embodiment 2 an implementation example of the gesture recognition device 1 as a control device according to an embodiment of the present invention will be described.
- the gesture recognition device 1 is not limited to the digital television 100, and can be mounted on any device (such as the above-described electronic book reader 200 or smartphone 300).
- the gesture recognition device 1 itself may be configured as a single device.
- a configuration example when the gesture recognition device 1 according to the second embodiment is mounted on the digital television 100 as in the first embodiment will be described.
- Embodiment 2 illustrates a configuration in which an instruction is transmitted from the gesture recognition device 1 to an external device.
- examples other than those exemplified in the first embodiment are exemplified as “indicator forms”.
- FIG. 25 is a block diagram showing a main configuration of the gesture recognition device 1 mounted on a digital television as a display device according to an embodiment of the present invention.
- the gesture recognizing device 1 shown in FIG. 25 has an instruction transmission unit 26 added to the gesture recognizing device 1 shown in FIG.
- the instruction transmission unit 26 transmits the process to be executed and the execution amount determined by the gesture recognition unit 22 and the execution amount determination unit 24 to the target process execution subject. Since other functions have been described with reference to FIG. 1, detailed description will not be repeated. However, as will be described below, the processing is executed according to the recognized “form of the indicator”.
- FIG. 26 is a schematic diagram showing an application example of the digital television 100 in which the gesture recognition device according to the second embodiment of the present invention is mounted.
- the digital television 100 is disposed in a living room of a home, for example, and determines a process to be executed and a process execution amount of the process to be executed based on a gesture input by a user. Is sent to the target device.
- an air conditioner 500 and a ceiling light 550 are illustrated as an example of a process execution entity.
- the process to be executed by the process execution subject for the air conditioner 500 is not limited to this, but air conditioning operations such as “heating operation”, “cooling operation”, “dry operation”, “automatic operation”, etc. This includes starting / stopping and changing various settings.
- the process execution amount of the process to be executed is not limited to this, but includes “set temperature”, “air volume”, “wind direction”, “timer”, and the like. As a specific example of the instruction transmitted from the digital television 100, “cooling operation” is started (processing to be executed by the process execution subject), and the “set temperature” is set to “25 ° C.” (to be executed). Process execution amount).
- the process to be executed by the process execution subject for the ceiling light 550 is not limited to this, but includes adjustment operations such as “brightness adjustment (dimming)” and “color adjustment (toning)”. .
- the processing execution amount of the processing to be executed is not limited to this, but “brightness level (0 to 100%)”, “color rendering properties (warm color system to cold color system)”, “lighting time” Etc.
- “dimming” is performed, and the “dimming degree” is set to “10%” (processing execution amount of processing to be performed).
- FIG. 27 is a diagram showing an example of a gesture that can be recognized by the gesture recognition device 1 according to the second embodiment of the present invention.
- a gesture for example, the user shakes his / her finger or hand
- the first start recognition unit 20 (FIG. 25) recognizes that the gesture input start signal is input by comparing the frames of the input moving images as in the first embodiment. Thereafter, until it is recognized that the gesture input is completed, monitoring of the gesture input performed by the user's finger as the indicator is continued. More specifically, immediately after the start of gesture input, the indicator detection unit 21 continues to detect the indicator that performs gesture input.
- the gesture recognition unit 22 performs the gesture rule storage unit.
- a process corresponding to the input gesture indicator form: start form shown in FIG. 27A) is specified.
- the form monitoring unit 23 monitors the gesture (the form of the indicator) by the user, and executes the process specified earlier in response to the movement of the gesture (that is, the movement of the form of the indicator). Determine the amount. In this way, the form monitoring unit 23 determines the corresponding process execution amount based on the movement trajectory of the gesture (the form of the indicator).
- the processing execution amount is determined based on the movement trajectory of the indicator, it is necessary to recognize that the movement of the indicator is completed. Therefore, the user can instruct the completion of the movement of the indicator, that is, the end of the gesture input, by performing a gesture (for example, a movement in which the user shakes his finger or hand finely) as a cue to end the gesture input.
- a gesture for example, a movement in which the user shakes his finger or hand finely
- gesture input end can be implicitly instructed by performing a gesture different from the final form gesture (or moving the indicator outside the field of view of the imaging unit).
- the form monitoring unit 23 typically has a movement amount or movement speed between a start form gesture and a final form gesture as a movement trajectory of a gesture (indicator form). The corresponding process execution amount is determined accordingly.
- the start form gesture means a change in the set temperature for the air conditioner 500 that is in operation, and the end form gesture is upward with respect to the start form gesture. If it is, it means that the set temperature rises.
- the increase range of the set temperature can be determined in proportion to the movement amount from the start form to the end form. For example, when the user moves the hand slightly upward from the starting form, “+ 1 ° C.” is determined as the process execution amount with respect to the current set temperature. On the other hand, when the user moves the hand more upward from the starting form, “+ 3 ° C.” is determined as the processing execution amount with respect to the current set temperature.
- the gesture in the end form is in the downward direction with respect to the gesture in the start form, it may mean that the set temperature is lowered.
- the decrease range of the set temperature can be determined in proportion to the movement amount from the start form to the end form. For example, when the user moves his / her hand slightly from the starting form, “ ⁇ 1 ° C.” is determined as the process execution amount with respect to the current set temperature. On the other hand, when the user moves the hand more downward from the starting form, “ ⁇ 3 ° C.” is determined as the processing execution amount with respect to the current set temperature.
- the gesture recognizing unit for the destination (in this example, the air conditioner 500) to which the process to be executed by the process execution subject and the process execution amount of the process to be executed determined as described above are transmitted as instructions. 22 is determined. That is, the gesture rules stored in the gesture rule storage unit 30 specify the process execution amount corresponding to the trajectory of the indicator and the process execution subject that executes each process in addition to the process corresponding to each gesture. Information (metadata indicating the attribute of the apparatus that is the process execution subject). The metadata includes a device ID number, a code indicating the type of device, an installation position of the device, an IP (Internet Protocol) address for accessing the device, and the like.
- the gesture recognition unit 22 also specifies a transmission destination in accordance with the specification of the process.
- FIG. 28 is a diagram illustrating an example of the data structure of the gesture rule stored in the gesture rule storage unit 30.
- FIG. 28 shows a data table 30a expressing gesture rules.
- the processing execution amount is determined based on, for example, a movement amount based on the imaging range (frame). More specifically, the change amount of the set temperature is set to increase by “+ 1 ° C.” every time 5% moves within the imaging range.
- FIG. 29 is a diagram showing another example of gestures that can be recognized by the gesture recognition device 1 according to the second embodiment of the present invention.
- the start recognition unit 20 (FIG. 25) of the device 1 recognizes the input gesture by comparing the frames of the input moving image. Further, when the start recognizing unit 20 (FIG. 25) recognizes that the input gesture is defined in the gesture rule of the gesture rule storage unit 30 in cooperation with the gesture recognizing unit 22, a signal for starting the gesture input is obtained. Is determined to have been entered.
- the gesture recognition unit 22 specifies processing corresponding to the input gesture (indicator form: start form shown in FIG. 29) according to the gesture rules stored in the gesture rule storage unit 30.
- the form monitoring unit 23 monitors the gesture (the form of the indicator) by the user, and in response to the movement of the gesture (that is, the movement of the indicator), the form execution amount of the process specified earlier is determined. decide. That is, the form monitoring unit 23 determines the corresponding process execution amount based on the movement trajectory of the gesture (the form of the indicator).
- the user can instruct the completion of the movement of the indicator, that is, the end of the gesture input, by performing a gesture (for example, an OK sign in which the user makes a circle with the index finger and the thumb) as a signal to end the gesture input.
- a gesture for example, an OK sign in which the user makes a circle with the index finger and the thumb
- the gesture recognition device 1 performs a process to be executed and a process execution amount of the process to be executed on a gesture input by a user using both hands, based on the entire input gesture according to the same method as described above. May be determined.
- the processing in this case is substantially the same as that described above.
- the feature quantity used for determining the process to be executed and the process execution amount of the process to be executed may be different from each other. That is, based on the acquired form and at least a part of information on the movement trajectory of the form, the process execution subject determines the process to be executed, and the acquired form and the movement trajectory of the form
- the process execution amount of the process to be executed may be determined based on information different from at least a part. For example, the process to be executed is determined based on the entire gesture input by the user using both hands, and the process execution amount of the process to be executed is determined based on the movement trajectory of a part of the input gesture. You may decide.
- the instruction generating unit of the gesture recognition device 1 when it is recognized that the combination of the two hand shapes of the user (operator) as the indicator is included in the sensing data, Based on the combination of the two hands of the operator, the process execution subject should determine the process to be executed, and execute the process based on the trajectory of one representative point of the operator's two hands. The processing execution amount of the process is determined.
- FIG. 30 is a diagram showing another example of gestures that can be recognized by the gesture recognition device 1 according to the second embodiment of the present invention.
- the gesture recognition unit 22 when the user forms a predetermined indicator form (inputs a gesture) while the gesture recognition device 1 is active, the gesture recognition unit 22 includes the gesture rule storage unit 30.
- the process corresponding to the input gesture (the form of the indicator: the start form shown in FIG. 30A) is specified in accordance with the gesture rule stored in FIG. At this time, a corresponding process is specified based on the entire input gesture.
- the form monitoring unit 23 monitors the change in the form of the indicator and specifies the amount of change.
- the form monitoring unit 23 determines the movement of the fingertip (indicator reference point 68) on the left side of the paper as the target to be tracked, and monitors the movement locus of the indicator reference point 68. To do. It is assumed that the target to be tracked is defined in the gesture rule of the gesture rule storage unit 30.
- the execution amount determination unit 24 determines the processing execution amount of the process to be executed based on the movement trajectory of the indicator reference point 68. .
- the gesture in the start form in FIG. 30A means a change in the set temperature for the operating air conditioner 500, and the indicator reference point 68 moves downward from the start form to the end form. If it is moving, it means that the set temperature is lowered. At this time, the decrease range of the set temperature is determined in proportion to the amount of movement of the indicator reference point 68 from the start form to the end form.
- the indicator reference point 68 may mean that the set temperature is increased.
- the decreasing range of the set temperature is determined in proportion to the movement amount of the indicator reference point 68 from the start form to the end form.
- the user can input a gesture using both hands, thereby generating instructions with a higher degree of freedom.
- Example of input gesture (part 4)
- a process to be executed is determined based on a movement trajectory of a part of the gesture input by the user using both hands, and the process to be executed is determined based on the entire input gesture.
- the execution amount may be determined.
- the instruction generation unit of the gesture recognition apparatus 1 recognizes that the combination of the two hand shapes of the user (operator) as the indicator is included in the sensing data.
- the process execution subject determines the process to be executed, and based on the combination of the two hands of the operator.
- the process execution amount of the process to be executed may be determined.
- the gesture recognition unit 22 is stored in the gesture rule storage unit 30.
- a plurality of processing candidates that can correspond to the input gesture are extracted according to the existing gesture rule.
- the candidate is only extracted at this point.
- the execution amount determination unit 24 determines the distance (interval) between the fingertip (pointer reference point 68) of the left hand of the paper and the fingertip (pointer reference point 69) of the right hand of the paper. The process execution amount of the process to be executed is determined.
- the form monitoring unit 23 monitors the change in the form of the indicator and specifies the amount of change.
- the form monitoring unit 23 determines the movement of the fingertip (indicator reference point 68) on the left side of the paper as the target to be tracked, and monitors the movement locus of the indicator reference point 68. To do. And if the form monitoring part 23 recognizes that the gesture by a user is a final form, the gesture recognition part 22 will specify the corresponding process based on the movement locus
- the trajectory (gesture) of the movement from the start form to the end form in FIG. 30 means a decrease in the set temperature for the air conditioner 500 during operation
- the decreasing range of the set temperature is determined in proportion to the distance (interval) between the fingertip of the hand (indicator reference point 68) and the fingertip of the hand on the right side of the paper (indicator reference point 69).
- the movement trajectory (gesture) from the start form to the end form is obtained. It may also mean an increase in the set temperature for the air conditioner 500 during operation.
- the fingertip of the hand on the left side of the paper (indicator reference point 68) and the fingertip of the hand on the right side of the paper (instructions) The increase range of the set temperature is determined in proportion to the distance (interval) from the body reference point 69).
- the user can input a gesture using both hands, thereby generating instructions with a higher degree of freedom.
- FIG. 31 is a diagram showing another example of gestures that can be recognized by the gesture recognition device 1 according to the second embodiment of the present invention.
- the gesture recognition unit 22 when the user forms a predetermined indicator form (in the example of FIG. 31A, a sign that sticks out the index finger) in a state where the gesture recognition device 1 is active, the gesture recognition unit 22. Specifies a process corresponding to the input gesture in accordance with the gesture rule stored in the gesture rule storage unit 30.
- the form monitoring unit 23 monitors a gesture (indicator form) by the user, and the execution amount determination unit 24 determines the processing execution amount of the process specified earlier in response to the locus drawn by the user. decide. More specifically, when the execution amount determination unit 24 determines that the locus drawn by the user is similar to the number “3”, the execution amount determination unit 24 outputs “3” as the processing execution amount.
- the gesture in the start form in FIG. 31 means a change in the air volume with respect to the operating air conditioner 500
- a trajectory similar to the number “3” is obtained from the start form to the end form.
- the air volume is set to level “3”.
- process to be executed by the process execution subject may be specified based on the movement trajectory itself.
- the degree of freedom of gestures that can be input by the user is increased by determining the process to be executed by the process execution subject and / or the process execution amount of the process to be executed by using the trajectory itself drawn by the user.
- the digital television 100 When the user inputs a gesture as described above, it is assumed that the digital television 100 often plays a video or the like received by a normal television broadcast. That is, the digital television 100 waits for a gesture input from the user while displaying video from some source. In such a case, from the viewpoint of a user who has made some gesture input, there may be a need to know in real time how the input gesture is recognized by the gesture recognition device 1. Therefore, it is preferable to display the processing state in the gesture recognition device 1 in real time on a display unit such as the digital television 100.
- FIG. 32 is a diagram showing an example of a usage pattern of the gesture recognition device 1 according to the second embodiment of the present invention.
- the digital television 100 on which the gesture recognition device 1 is mounted uses the OSD (On-screen display) or the like to indicate the state of processing in the gesture recognition device 1 to the user (preferably in real time). Notice.
- OSD On-screen display
- the input gesture is a start form
- the gesture of the determined start form is a process to be executed by the air conditioner 500 (that is, An example of the OSD 110 that is displayed when the instruction transmission destination is specified as the air conditioner 500).
- OSD 110 a message “Recognizing air conditioner instruction ...” is displayed.
- the OSD 110 message displayed on the digital television 100 is switched to “transmitting set temperature change instruction” as shown in FIG.
- the user can easily determine whether the gesture input performed by the user is correctly recognized.
- a configuration has been described in which a message is displayed on the screen of the digital television 100 to notify the user of the processing status in the gesture recognition device 1, but the present invention is not limited to this.
- the user may be notified using a predetermined indicator.
- a predetermined mark or pattern may be displayed on the screen of the digital television 100 to notify the user.
- the gesture recognition device 1 itself may be implemented as an independent device, a tablet PC (Personal Computer), a smartphone, a mobile phone, an electronic book reader, an electronic notebook, a PDA (Personal Digital Assistant), a personal computer, a notebook personal computer, You may mount in a digital camera, a digital video camera, a home game machine, a portable game machine, a digital photo frame, etc.
- a tablet PC Personal Computer
- smartphone a mobile phone
- an electronic book reader an electronic notebook
- PDA Personal Digital Assistant
- a personal computer a notebook personal computer
- You may mount in a digital camera, a digital video camera, a home game machine, a portable game machine, a digital photo frame, etc.
- Embodiment 3 >> [3-1: Overview] Next, as Embodiment 3, an implementation example in the case where the process execution subject is a safety switch will be described.
- the safety switch is a device that restricts the range in which an operator can enter in order to prevent the operator from being injured by an automated robot or the like. Specifically, this is a safety mechanism for stopping the operation of a robot or the like when an operator enters a predetermined range.
- control device recognizes an operator who performs work at a position close to such a robot or the robot itself as an indicator.
- the control device acquires information related to the locus of movement of the indicator, and optimizes the operating range of the safety switch based on the information. As a result, it is possible to prevent work interruption due to the occurrence of an inappropriate warning, and to improve work efficiency while ensuring safety.
- FIG. 33 is a diagram showing a schematic configuration of a safety system 600 according to the third embodiment of the present invention.
- safety system 600 includes a control device 602 and a safety monitoring device 608 that are connected to each other via a network 604.
- the control device 602 performs a safe operation when an operator approaches the robot 610 by continuously monitoring a moving image or the like from the imaging unit 630 for imaging a range of a path for accessing the robot 610. . More specifically, when the control device 602 recognizes that the worker has entered the dangerous area, the control device 602 transmits an instruction for stopping the operation to the safety monitoring device 608. In response to an instruction for stopping the operation from the control device 602, the safety monitoring device 608 gives a stop command to the controller 612 of the robot 610 to stop the robot 610.
- control device 602 evaluates the relationship between the recognized worker and the set danger area / safety area, and if it detects that the worker is in or is about to enter the danger area, an alarm notification is given.
- An alarm output is provided to the device 640.
- the alarm notification device 640 notifies the worker of the danger with light or sound.
- an operator and / or a robot 610 is assumed as an indicator, and an intrusion monitoring unit that is a process execution entity is based on information on the form of these indicators and the movement trajectory of the form.
- the contents of the process to be executed for example, the type of output operation at the time of intrusion detection such as a forced stop of the robot 610 or an alarm operation by the alarm notification device 640
- the amount to be executed for example, a safety area
- the range work efficiency can be improved, ensuring safety.
- FIG. 34 and 35 are diagrams showing an example of the indicator in the safety system 600 according to the fourth embodiment of the present invention.
- FIG. 34 shows an example in which an operator is an indicator
- FIG. 35 shows an example in which a robot is an indicator.
- the range of movement and the speed of movement of the worker are recognized as the movement trajectory. For example, it is possible to estimate whether or not the user is familiar with the handling of the robot based on the worker's aspect (typically, wearing items, clothes, etc.). Decide whether to output or stop. More specifically, it is considered that there is little knowledge about the behavior of the robot for the workers who are operating the device, so stop the robot in response to detection of intrusion into the dangerous area. To ensure safety.
- the size of the safety area is determined as the processing execution amount from the movement trajectory of the form by the worker. For example, it is considered that an operator who is working in a sitting state as shown in FIG. 34 (a) has a small amount of movement and needs to expand the safety area. On the other hand, when the worker's movement is large or fast as shown in FIG. 34 (a), it is considered highly necessary to expand the safety area.
- the size of the safety area is determined based on the information on the worker's trajectory as the movement trajectory.
- the information on the trajectory of the worker includes the moving amount and moving speed of each worker.
- the robot when the robot is used as an indicator, the size and appearance of the apparatus are recognized as the mode. Then, the range and speed of movement of the robot are recognized as the movement trajectory. For example, based on the appearance of the robot and the like, it is possible to estimate the robot operation pattern, movable parts, and the like, thereby determining whether or not an alarm output or stop is necessary as a process to be executed by the process execution subject.
- the size of the safety area is determined as the processing execution amount from the movement trajectory of the form by the robot. For example, as shown in FIG. 35 (a), for a robot in which only a part is movable, the movable range is narrow and the need to expand the safety area is considered low. On the other hand, when the whole robot slides as shown in FIG. 35 (a), it is considered highly necessary to expand the safety area.
- the size of the safety area is determined based on the robot trajectory information as the movement trajectory.
- the robot trajectory information includes the movement amount and movement speed of each worker.
- FIG. 36 is a block diagram showing a functional configuration of the control device 602 of the safety system according to the fourth embodiment of the present invention.
- the control device 602 includes an image acquisition unit 650, an indicator detection unit 652, a trajectory monitoring unit 654, a safety area setting unit 656, a safety area DB 658, and an intrusion monitoring as main components. Part 660 and alarm part 662.
- the image acquisition unit 650 acquires a moving image from the imaging unit 630.
- the indicator detection unit 652 detects an indicator included in the moving image acquired by the image acquisition unit 650.
- a measurement area and an intrusion additional area are set for an area where an operator may enter. These areas may be dynamically changed in response to changes in the safety area and the danger area.
- the indicator detection unit 652 identifies an object that is an indicator among objects existing in the measurement area. Information on the specified indicator is output to the trajectory monitoring unit 654.
- the trajectory monitoring unit 654 continuously monitors the indicator in the measurement area based on the information from the indicator detection unit 652, and calculates the trajectory information.
- the area where the trajectory monitoring unit 654 calculates trajectory information includes an intrusion addition area in addition to the measurement area. That is, the trajectory monitoring unit 654 monitors the movement of the indicator in a wider area compared to the indicator detection unit 652 so that the trajectory can be monitored even when the indicator moves so as to approach the robot 610.
- the safe area setting unit 656 estimates the possibility of the indicator entering the intrusion additional area based on the information on the form of the indicator and the information on the locus of the indicator from the locus monitoring unit 654, and the intrusion monitoring unit 660 and The process to be executed by the alarm unit 662 and the process execution amount of the process to be executed are determined. That is, the safety area setting unit 656 outputs the determined process to be executed (for example, the type of output operation at the time of intrusion detection) to the intrusion monitoring unit 660 and / or the alarm unit 662, and the determined process execution amount ( For example, a safe area range) is output to the intrusion monitoring unit 660.
- the determined process to be executed for example, the type of output operation at the time of intrusion detection
- the determined process execution amount For example, a safe area range
- the safety area DB 658 stores information indicating the size of the safety area to be set in association with each combination of the form of the pointer detected by the pointer detection unit 652 and the trajectory information calculated by the trajectory monitoring unit 654. Is defined.
- the safety area setting unit 656 sets the size of the safety area with reference to the information defined in the safety area DB 658.
- the intrusion monitoring unit 660 performs a predesignated output operation when an indicator enters or is about to enter the danger area set by the safety area setting unit 656. In response to the output operation of the intrusion monitoring unit 660, the alarm unit 662 outputs a necessary alarm to the alarm notification device 640 and the like.
- the size of the safety area and the like can be dynamically optimized based on the mode of the indicator and the restriction on movement of the target. As a result, it is possible to prevent work interruption due to the occurrence of an inappropriate warning, and to improve work efficiency while ensuring safety.
- Each block of the gesture recognition device 1, in particular, the start recognition unit 20, the indicator detection unit 21, the gesture recognition unit 22, the form monitoring unit 23, and the execution amount determination unit 24 may be configured by hardware logic. Alternatively, it may be realized by software using a CPU as follows. The same applies to each block of the control device 602 described above.
- the gesture recognition apparatus 1 includes a CPU (Central Processing Unit) that executes instructions of a control program that realizes each function, a ROM (Read Only Memory) that stores the program, and a RAM (Random Access Memory) that expands the program. And a storage device (recording medium) such as a memory storing the program and various data. More specifically, the gesture recognition device 1 can also be realized by a computer as shown below.
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- the gesture recognition device 1 can also be realized by a computer as shown below.
- FIG. 37 is a block diagram showing a main configuration of a computer 400 for realizing the gesture recognition device 1 according to the embodiment of the present invention.
- a computer 400 includes a CPU 406 that executes various programs including a control program according to the present embodiment, a hard disk (HDD) 402 that stores a control program executed by the CPU 406 in a nonvolatile manner, and a CPU 406.
- a memory RAM 404 that provides a work area for storing data necessary for executing various programs in the optical disk drive, and an optical disk drive 408 for reading the stored control program from a CD-ROM 410 that is a typical example of a recording medium. Including.
- the computer 400 further includes an imaging unit interface 412 for acquiring a moving image and the like from the imaging unit 12, an input unit 414 such as a keyboard and a mouse, a display unit 416 for displaying various information, and an external device. And a network interface 418 for exchanging data.
- an imaging unit interface 412 for acquiring a moving image and the like from the imaging unit 12, an input unit 414 such as a keyboard and a mouse, a display unit 416 for displaying various information, and an external device.
- a network interface 418 for exchanging data.
- An object of the present invention is to provide a recording medium on which a program code (execution format program, intermediate code program, source program) of a control program of the gesture recognition device 1 which is software that realizes the above-described functions is recorded in a computer-readable manner. This can also be achieved by supplying the gesture recognition apparatus 1 and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU).
- a program code execution format program, intermediate code program, source program
- Examples of the recording medium include tape systems such as magnetic tapes and cassette tapes, disk systems including magnetic disks such as flexible disks / hard disks, and optical disks such as CD-ROM / MO / MD / DVD / CD-R, and IC cards.
- a card system such as an optical card (including a memory card) or a semiconductor memory system such as a mask ROM / EPROM / EEPROM / flash ROM can be used.
- the gesture recognition device 1 may be configured to be connectable to a communication network, and the program code may be supplied via the communication network.
- the communication network is not particularly limited.
- the Internet, intranet, extranet, LAN, ISDN, VAN, CATV communication network, virtual private network, telephone line network, mobile communication network, satellite communication A net or the like is available.
- the transmission medium constituting the communication network is not particularly limited.
- infrared rays such as IrDA and remote control, Bluetooth ( (Registered Trademark), 802.11 wireless, HDR (High Data Rate), mobile phone network, satellite line, terrestrial digital network, and the like can also be used.
- wired such as IEEE 1394, USB, power line carrier, cable TV line, telephone line, ADSL line, etc.
- infrared rays such as IrDA and remote control, Bluetooth (Registered Trademark), 802.11 wireless, HDR (High Data Rate), mobile phone network, satellite line, terrestrial digital network, and the like can also be used.
- the control device is suitably used for various electronic devices including an imaging unit for imaging a pointer, particularly a display device.
- the gesture recognition device of the present invention is not limited to this, but as a display device that is a processing execution subject, a digital television, a tablet PC (Personal Computer), a smartphone, a mobile phone, an electronic book reader, an electronic notebook, a PDA (Personal Digital Assistant). ), Personal computers, notebook computers, digital cameras, digital video cameras, home game machines, portable game machines, digital photo frames, etc.
- gesture recognition device 2 display device (processing execution subject), 3 object (option), 10 control unit, 11 storage unit, 12 imaging unit, 13 display unit, 13a display screen, 13b display screen, 20 start recognition unit (start Recognition unit), 21 indicator detection unit (indicator detection unit), 22 gesture recognition unit (recognition unit), 23 form monitoring unit (monitoring unit), 24 execution amount determination unit (determination unit), 25 object processing unit (processing) (Execution subject), 30 gesture rule storage unit, 31 form correlation storage unit, 32 object storage unit, 40 indicator inclusion region, 41 indicator region, 41 ′ protrusion, 42 indicator reference point, 43 movement direction, 44 movement direction 45, attention area, 46 center of gravity, 47 straight line, 48 main axis, 49 reference line, 49 'reference line, 50 cars 51, 55 'thumbnail image (object / option), 52-54 still image, 70 reference line, 71 traveling direction, 72 traveling direction, 73 indicator inclusion area, 74 indicator inclusion area, 100 digital television (electronic Device / display device), 200 e-54
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
制御装置は、処理実行主体に対する指示を生成する。制御装置は、指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、センシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、認識手段によって取得された形態および当該形態の移動の軌跡に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを含む。
Description
本発明は、処理実行主体に対する指示を生成する制御装置、その制御装置を含む電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体に関するものである。
近年、各種の認識技術などを用いてユーザが発した指示を認識し、各種装置への指示を生成するような構成が知られている。このような技術の代表例として、ジェスチャ認識技術は、人間とコンピュータとのコミュニケーション手段として、知能ロボット、ゲーム、シミュレーション、生産技術など、様々な分野で応用され、発展してきた。具体的には、ジェスチャ認識装置は、撮像部の典型例であるビデオカメラなどによって、装置に対して指示を送る被写体の動きを撮像して得られた動画を画像処理して、被写体の一連の特定の動き(以下、「ジェスチャ」とも称す。)を認識する。
コンピュータをはじめとする各種装置は、ジェスチャ認識装置によって認識された、被写体のジェスチャの種類に応じた様々な処理を実行することができる。具体的には、ジェスチャ認識装置は、動画のあるフレームと別のフレームとを比較して、被写体がどこからどこへ移動したのか、すなわち、フレーム間の変化量を求めて被写体の動き(移動方向など)を認識することにより、ジェスチャを認識することができる。
例えば、特開2005-352531号公報(特許文献1)には、被写体の特定部位の往復運動を検出するジェスチャ検出方法および装置が開示されている。
また、特表2011-517357号公報(特許文献2)には、2枚の被写体の画像からジェスチャを認識する装置、および、このジェスチャ入力によって、ユーザインターフェースで表示された画像オブジェクトを操作する方法が開示されている。また、特許文献2では、被写体までの距離を測定可能なカメラを用いることにより、被写体の奥行きに係る動きからジェスチャを認識することが開示されている。
特開2007-12055号公報(特許文献3)には、移動通信端末機のカメラ部をアクティブにした状態において、ユーザが所定のモーションを行うと、移動通信端末機は、ユーザのモーションを認識し、そのモーションをパターン化してモーションパターンに応じる所定の動作を行う構成が開示されている。
上述の特許文献1~3に開示された技術では、操作者などの被写体の動作に基づいて、被写体が発した指示の種類を特定することができるに過ぎない。そのため、アナログ的な操作に適合させたり、より高い自由度で指示を生成したりすることができる構成が要望されている。
本発明の一実施形態に従う制御装置は、処理実行主体に対する指示を生成する。制御装置は、指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、センシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを含む。
本明細書において、「処理実行主体」とは、本発明のいずれかの実施形態に従う制御装置、制御方法、制御プログラムなどによって生成された指示に従って、指示された処理を実行する主体を指す。すなわち、「処理実行主体」は、指示体に生じる形態およびその形態の移動の軌跡に関する情報に基づいて決定される、実行すべき処理、および、当該実行すべき処理の処理実行量に従って、現実に処理を具体化する装置やシステムなどを含む。後述するような、ジェスチャ認識装置において指示を生成する場合には、「処理実行主体」は、典型的には、指示体であるユーザによって指示されたジェスチャに対応する処理を実行する主体を指す。
本明細書において、「指示体」とは、処理実行主体に対して、明示的または暗示的に指示を生じるものを意味し、人間を含む生物だけでなく、任意の物体(無生物)を含む。典型的には、「指示体」は、動物(特に人)の手、指、腕、全身などを含む。あるいは、「指示体」は、外観や位置が時間的に変化するような装置などを含む。なお、「明示的に指示を生じる」とは、何らかの対象に対して指示を与えることを予め意図して、ユーザなどが何らかの動作を起こすような場合を意味する。一方、「暗示的に指示を生じる」とは、指示を行う意図の有無にかかわらず、「指示体」に生じる何らかの挙動に応答して、対応する処理の実行が必要であるとみなされる場合などを意味する。
「指示体の形態」とは、指示体に生じる立体的または平面的な外観や形状を指す。「指示体の形態」の情報は、これに限られることはないが、撮像部によって指示体を撮像することで得られる動画または一連の静止画列に含まれる。すなわち、「指示体の形態」の情報は、動画や一連の静止画列の形式をはじめとする、各種の形式の情報として出力され得る。
「(指示体の)移動の軌跡」とは、ある時空間範囲内における位置の移動を指す。そして、「移動の軌跡に関する情報」とは、典型的には、指示体がその存在位置を変化させるような場合に、ある時間内における指示体の変位量(スカラー量およびベクトル量のいずれも含む)、指示体の移動速度(瞬間速度、最高速度、平均速度、最低速度のいずれも含む)、指示体の移動加速度(瞬間加速度、最高加速度、平均加速度、最低加速度のいずれも含む)、指示体の移動加加速度(瞬間加加速度、最高加加速度、平均加加速度、最低加加速度のいずれも含む)、指示体の変位方向といった、指示体の移動に応じた特性値を含む。
「処理実行量」とは、処理実行主体が実行すべき処理についてどのくらいの量を実行すればよいのかを指す情報である。例えば、実行すべき処理が1回の実行によって完結するような場合には、「処理実行量」は、その実行すべき処理の繰り返し実行回数や連続実行回数などを含む。あるいは、実行すべき処理自体に度合いがあるような場合には、「処理実行量」は、その度合い(例えば、実行される時間や実行時の強度など)を指す。さらに、実行すべき処理において何らかのパラメータが変更されるような場合には、そのパラメータの変更度合いをも指す。
上記構成によれば、まず、取得手段が指示体をセンシングすることで得られたセンシングデータを取得する。続いて、認識手段がセンシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得し、指示生成手段が認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する。
このような構成を採用することで、形態と当該形態の移動の軌跡との組み合わせに応じた、特定の処理および当該特定の処理の処理実行量を含む指示を処理実行主体へ与えることができる。これによって、アナログ的な操作に適合させたり、より高い自由度で指示を発したりすることができる。
好ましくは、指示生成手段は、取得された形態および当該形態の移動の軌跡に関する少なくとも一部の情報に基づいて、処理実行主体が実行すべき処理を決定するとともに、取得された形態および当該形態の移動の軌跡に関する、当該少なくとも一部とは異なる情報に基づいて、実行すべき処理の処理実行量を決定する。
好ましくは、指示生成手段は、センシングデータとして撮像された指示体の移動の軌跡に基づいてジェスチャを認識し、認識したジェスチャに対応する処理を、処理実行主体が実行すべき処理として特定するジェスチャ認識手段と、撮像された指示体の形態の変化に基づいて処理実行量を決定する実行量決定手段とを含む。
上記構成によれば、ジェスチャ認識手段が、センシングデータとして撮像された指示体の移動の軌跡に関する情報に基づいてジェスチャを認識し、認識したジェスチャに対応する処理を、処理実行主体が実行すべき処理として特定する。続いて、実行量決定手段は、撮像された指示体の形態の変化に基づいて処理実行量を決定する。
つまり、制御装置は、指示体を撮像した動画を処理することによって、処理実行主体に実行させる処理の内容を特定することに加えて、その処理を実行すべき量を決定することが可能となる。
これにより、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、指示体の形態を変化させるだけで、簡単に、上記ジェスチャで指示した処理をどのくらい行えばよいのかを制御装置に対して指定することができる。つまり、ユーザは、上記ジェスチャを何度も繰り返し入力することに代わり、指示体の形態を変化させるという単純な動作を入力することによって、同じ処理を繰り返して行うことを処理実行主体に対して指示することができる。
上述の先行技術文献に開示されたジェスチャ認識装置は、多数表示された選択肢オブジェクト(特許文献2の例では画像オブジェクト)の中から目的のオブジェクトを選択するため指示を入力する入力デバイスとして不向きである。より具体的には、ユーザは、一般的なキーボード(例えば、十字キー)などにおいても、目的のオブジェクトにたどり着くまで、カーソルを移動させるための操作(十字キー押下など)を繰り返し行う。これと同様に、ジェスチャ認識装置においては、ユーザは、カーソルが目的のオブジェクトにたどり着くまで、カーソルを移動させるためのジェスチャを繰り返し行わなければならない。
従来、選択肢オブジェクトの一覧表示レイアウトによって、目的のオブジェクトに到達するまでの選択操作回数を減らす工夫が行われている。しかし、繰り返し操作を行うことを完全に回避することは不可能であり、依然、ジェスチャを入力する(指示体を動かす)という行為を繰り返し行うことは、ユーザにとって煩わしい操作である。
そのため、単純なジェスチャ入力に基づいて、繰り返し操作を認識することにより、ユーザの操作性を向上させる構成が要望されている。
例えば、従来、カーソルを左に10回移動させるという処理を処理実行主体にさせたい場合に、当該処理に対応するジェスチャ(例えば、指示体を左に動かす動作)を10回行わなければならなかった。これに対し、本実施形態に従う制御装置によれば、ユーザは、指示体を「左に動かす」動作1回と、指示体の形態に変化を付ける動作1回とを行うだけで済む(ここでは、例えば、「10回」という処理実行量に対応する変化を付けることになる)。
結果として、ユーザの操作性を向上させることが可能になるという効果を奏する。つまり、単純なジェスチャ入力に基づいて、繰り返し操作を認識することが可能となり、結果として、ユーザの操作性が向上するという効果を奏する。
さらに、上記制御装置は、指示体を撮像して得られた動画の各フレームから、該指示体の形態の変化量を特定する監視手段をさらに含み、上記実行量決定手段は、指示体の形態の変化量に比例して、上記処理実行量を決定することが好ましい。
上記構成によれば、監視手段は、形態を変化させている指示体を監視し、その変化量を特定する。決定手段は、変化量が大きければ大きいほど、処理実行量が多くなるように決定することが可能となる。
したがって、ユーザは、指示体の形態の変化量を調節することにより、その繰り返し量(処理実行量)を、処理実行主体に対して簡単に指定することが可能になる。例えば、指示体の変化量を元の10倍にすれば、1回の処理を、10回繰り返し処理させるように、制御装置を介して、処理実行主体に対して指示することが可能である。
結果として、ユーザの操作性を向上させることが可能になるという効果を奏する。
より詳細には、上記監視手段は、予め定められた上記指示体の基準の形態(例えば、図9および図13の基準線49)と、撮像された上記指示体の最新の形態とを比較することにより、上記変化量を特定してもよい。
より詳細には、上記監視手段は、予め定められた上記指示体の基準の形態(例えば、図9および図13の基準線49)と、撮像された上記指示体の最新の形態とを比較することにより、上記変化量を特定してもよい。
上記構成によれば、監視手段は、撮像された最新の指示体の形態がどのように変化したのかを示す変化量を、予め決まっている絶対的な基準の指示体の形態と比較することによって、求めることができる。よって、変化量を特定する処理を単純化することが可能である。
あるいは、上記監視手段は、上記認識手段によってジェスチャが認識された時点の上記指示体の形態(例えば、図14および図15の開始形態s)と、撮像された上記指示体の最新の形態とを比較することにより、上記変化量を特定してもよい。
上記構成によれば、監視手段は、ユーザがジェスチャ入力のために指示体を移動させる動作を終えた後、引き続きユーザが処理実行量を指定するために指示体の形態を変化させる動作を監視する。監視手段は、指示体の移動が終了したとき指示体の形態を最初の形態(開始形態)とみなし、それ以降に指示体がどのように変化したのかを変化量として特定する。
つまり、ユーザが、指示体を移動させる動作を終えた後から、処理実行量を指定するために指示体を動かした量が、監視手段によって直接的に変化量として特定され、決定手段によって直接的に処理実行量に変換される。
したがって、処理実行量を指定するための動作と、その結果、処理実行主体が処理を繰り返す量とがユーザの感覚により一層一致し、ユーザにとってより直感的なユーザインターフェースを実現できる。
さらに、上記実行量決定手段は、上記処理実行主体の処理実行量の最大値に対応する、予め定められた基準の最終形態(例えば、図13および図15の最終形態e)における最大変化量(例えば、図13および図15のθall)に対して、上記監視手段によって特定された最新の形態における変化量(例えば、図13および図15のθt)が占める割合に基づいて、上記処理実行量を決定してもよい。
上記構成では、処理実行主体の処理実行量の最大値が予め決められており、ユーザは、指示体の形態をどこまで変化させれば、最も多く処理実行主体に処理を実行させるのかを把握している。つまり、実行量決定手段は、基準の最終形態を把握している。
実行量決定手段は、ユーザが変化させた指示体の形態の変化量が、基準の最終形態の最大変化量に対して何%到達しているのかに応じて、実際に、処理実行主体に実行させる処理実行量を決定する。
このように、処理実行量の最大値に対する最大変化量が予め定められている構成では、ユーザは、指示体の形態をどの程度変化させれば、処理をどのくらいの量実行させることができるのかを予測することが可能となる。
なお、上記監視手段は、上記指示体の傾きが変化する角度を上記変化量として特定してもよい。なお、上記監視手段は、上記指示体としての指の傾きの変化量を特定してもよい。
上記構成によれば、ユーザは、指の傾きを変えるという簡単な動作によって、処理実行量を電子機器(処理実行主体)に対して指定することができる。
さらに、上記実行量決定手段は、上記監視手段によって特定された、上記指示体における最新の形態の変化量が、上記指示体における直前の形態の変化量を下回る場合に、上記処理実行主体による処理の実行の停止を決定してもよい。
指示体の最新の形態の変化量が、上記指示体における直前の形態の変化量を下回るということは、ユーザは、これまで進めてきた指示体の形態の変化を戻して、元の指示体の形態(基準の形態または開始形態)に近づけたということを意味する。
ユーザにとって、進めてきた動作を元に戻そうする動作からは、これまで実行されてきた処理を停止させるという結果に結びつきやすい。
このように、処理実行の停止を指示するためのユーザインターフェースをユーザにとってより直感的なものにすることができる。
あるいは、上記監視手段は、上記指示体の移動方向と反対の進行方向に向かって変化する、上記指示体の形態の変化量を負の数によって特定し、上記実行量決定手段は、上記監視手段によって特定された、上記指示体における最新の形態の変化量が、負の数である場合に、上記認識手段によって特定された上記処理の元の進行方向とは反対の進行方向における処理実行量を決定してもよい。
指示体における最新の形態の変化量が、負の数であるということは、ユーザがジェスチャ入力のために指示体を移動させた方向とは反対の方向に向かって、指示体の形態を変化させたということを意味する。
ユーザにとって、これまでと反対の方向に指示体を進めるという動作からは、これまでの進行方向とは反対の方向に処理を進行させるという結果に結びつきやすい。
このように、処理の進行方向を反対側に切り替えることを指示するためのユーザインターフェースをユーザにとってより直感的なものにすることができる。
さらに、上記実行量決定手段は、上記処理実行量として、特定された上記処理実行主体が実行すべき処理の実行回数を決定してもよい。
あるいは、上記実行量決定手段は、上記特定された上記処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を、上記処理実行量として決定してもよい。
上述のとおり本実施形態に従う制御認識装置において、上記実行量決定手段は、撮像された上記指示体としての指の傾きが変化するときの角度の変化量に比例して上記処理実行量を決定し、上記処理実行量は、上記特定された処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含むようにしてもよい。
なお、上記実行量決定手段は、移動を開始した上記指示体の形態の変化に基づいて、上記処理実行量を決定することが好ましい。
これにより、ユーザは、ジェスチャ入力の移動に用いた指示体を、引き続き、そのまま処理実行量を指定するための動作に用いることができる。
あるいは、上記実行量決定手段は、移動を開始した指示体とは異なる、撮像された第2の指示体の形態の変化に基づいて、上記処理実行量を決定してもよい。
複数の指示体を用いることにより、処理実行量を指定するための動作の表現力が増し、より詳細に、あるいは、より多段階的に、処理実行量を指定することが可能になる。
なお、上記指示生成手段は、上記指示体としての操作者の2つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の2つの手の形の組み合わせに基づいて、上記処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の一方の代表点の軌跡に基づいて、当該実行すべき処理の処理実行量を決定することが好ましい。
あるいは、上記指示生成手段は、上記指示体としての操作者の2つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の2つの手の一方の代表点の軌跡に基づいて、上記処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の形の組み合わせに基づいて、当該実行すべき処理の処理実行量を決定することが好ましい。
これにより、生成する実行すべき処理およびその処理実行量をより高い自由度で生成することができる。つまり、処理実行主体が受け付ける指示内容の種類が多岐にわたる場合であっても、各指示内容を的確に認識することができる。
なお、上述の制御装置と、上記指示体を撮像した撮像画像を上記制御装置に供給する撮像部と、上記制御装置によって特定された処理を、上記制御装置によって決定された処理実行量に従って実行する処理実行主体とを含んでいる電子機器も本発明の技術的範囲に包含される。
上記電子機器において、上記制御装置によって決定される処理実行量は、上記制御装置によって特定された処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含み、上記処理実行主体は、上記制御装置によって決定された選択肢の個数に従って、当該個数ごとの各選択肢にフォーカスを遷移させてもよい。
本発明の別の一実施形態に従う制御方法は、処理実行主体に対する指示を生成する。制御方法は、指示体をセンシングすることで得られたセンシングデータを取得する取得ステップと、センシングデータを処理することで、指示体の形態および形態の移動の軌跡に関する情報を取得する認識ステップと、認識ステップにおいて取得された形態および形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および実行すべき処理の処理実行量を決定する決定ステップとを含む。
なお、上記制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記制御装置をコンピュータにて実現させるための制御プログラム、および、それを格納したコンピュータ読取可能な記録媒体も、本発明の技術的範囲に包含される。
本発明の一実施形態に従う制御装置は、処理実行主体に対する指示を生成する。制御装置は、指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、センシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを含む。
本発明の別の一実施形態に従う制御方法は、処理実行主体に対する指示を生成する。制御方法は、指示体をセンシングすることで得られたセンシングデータを取得する取得ステップと、センシングデータを処理することで、指示体の形態および形態の移動の軌跡に関する情報を取得する認識ステップと、認識ステップにおいて取得された形態および形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および実行すべき処理の処理実行量を決定する決定ステップとを含む。
本発明の実施形態について、図面を参照しながら詳細に説明する。なお、以下の図面において同一または相当する部分には、同一の参照符号を付すものとし、それらの説明は重複して行わない。また、図面における長さ、大きさおよび幅などの寸法関係ならびに形状は、図面の明瞭化と簡略化のために適宜に変更されており、実際の寸法および形状を表してはいない。
本発明の実施形態について、図面に基づいて説明すると以下のとおりである。
《1.実施形態1》
以下で説明する実施形態1では、本発明の一実施形態に従う制御装置としてのジェスチャ認識装置の実装例について説明する。ジェスチャ認識装置は、処理実行主体に対する指示を生成する。より具体的な実装例として、ジェスチャ認識装置を処理実行主体としての表示装置に適用した場合について説明する。処理実行主体は、本発明の一実施形態に従うジェスチャ認識装置によって認識されたジェスチャに対応する処理を実行する主体を含む。表示装置は、例えば、これに限定されないが、デジタルテレビ、タブレットPC(Personal Computer)、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、PDA(Personal Digital Assistant)、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどである。なお、本発明の一実施形態に従うジェスチャ認識装置は、これらの表示装置と接続する、処理実行主体としての、録画再生装置(BD(Blu-ray Disc)レコーダ、DVD(Digital Versatile Disc)レコーダ)などに適用されてもよい。
《1.実施形態1》
以下で説明する実施形態1では、本発明の一実施形態に従う制御装置としてのジェスチャ認識装置の実装例について説明する。ジェスチャ認識装置は、処理実行主体に対する指示を生成する。より具体的な実装例として、ジェスチャ認識装置を処理実行主体としての表示装置に適用した場合について説明する。処理実行主体は、本発明の一実施形態に従うジェスチャ認識装置によって認識されたジェスチャに対応する処理を実行する主体を含む。表示装置は、例えば、これに限定されないが、デジタルテレビ、タブレットPC(Personal Computer)、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、PDA(Personal Digital Assistant)、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどである。なお、本発明の一実施形態に従うジェスチャ認識装置は、これらの表示装置と接続する、処理実行主体としての、録画再生装置(BD(Blu-ray Disc)レコーダ、DVD(Digital Versatile Disc)レコーダ)などに適用されてもよい。
以下の説明では、一例として、本発明の一実施形態に従うジェスチャ認識装置をデジタルテレビに適用した場合について説明する。
〔1-1:ジェスチャ認識装置の構成〕
図1は、表示装置としてのデジタルテレビに搭載された、本発明の一実施形態に従うジェスチャ認識装置の要部構成を示すブロック図である。
図1は、表示装置としてのデジタルテレビに搭載された、本発明の一実施形態に従うジェスチャ認識装置の要部構成を示すブロック図である。
まず、デジタルテレビのハードウェア構成について説明すると、図1に示すとおり、デジタルテレビ100は、少なくとも、制御部10、記憶部11、撮像部12および表示部13を備える構成となっている。その他にも、デジタルテレビ100は、デジタルテレビの一般的な機能を備えているが、このうち本発明に直接関係のない部分については記載を省略した。
撮像部12は、デジタルテレビ100の周辺(特に、前方)を撮像し、指示体の動きをとらえるための動画を得るものである。撮像部12は、例えば、CCD(Charge Coupled Devices)カメラまたはCMOS(Complementary Metal-Oxide-Semiconductor)カメラなどで実現されるが、その他の撮像装置を撮像部12として用いてもよい。撮像部12が撮像して得られた動画は、デジタルテレビ100に搭載されたジェスチャ認識装置1に供給される。例えば、ユーザは、撮像部12の前で、指示体(手指、顏、全身、あるいは、道具など)を動かす。これにより、ユーザは、ジェスチャ認識装置1に対してジェスチャを入力することができる。
言い換えれば、ジェスチャ認識装置1は、明示的または暗示的に指示を生じる被写体である指示体をセンシングすることで得られたセンシングデータ(動画や一連の静止画列)を取得する手段を有する。このセンシングデータを取得する手段としては、ジェスチャ認識装置1に接続される撮像部12の他に、ジェスチャ認識装置1に内蔵される撮像部であってもよい。さらに、別体の撮像部によって撮像された動画のデータなどを任意の通信手段または記録媒体を介してジェスチャ認識装置1に取り込むようにしてもよい。このように、センシングデータを取得する手段としては、公知の任意の手段を採用できる。
表示部13は、デジタルテレビ100(ジェスチャ認識装置1、または、デジタルテレビ100において、デジタルテレビの一般的な機能を実現する表示装置2)が処理した情報を表示するものである。例えば、表示部13は、ユーザがデジタルテレビ100を操作するための操作画面をGUI(Graphical User Interface)画面として表示する。表示部13は、デジタルテレビ100が処理可能な、画像(動画または静止画)またはアイコンを一覧表示する。表示部13は、画像またはアイコンの他にも、ユーザが選択可能な、種々の選択肢オブジェクト(以下、「オブジェクト」とも称する。)を一覧表示することができる。表示部13は、例えば、LCD(液晶ディスプレイ)などの表示装置で構成される。
記憶部11は、(1)デジタルテレビ100の制御部10が実行する制御プログラム、(2)制御部10が実行するOSプログラム、(3)制御部10が、ジェスチャ認識装置1または表示装置2が有する各種機能を実行するためのアプリケーションプログラム、および、(4)該アプリケーションプログラムを実行するときに読み出す各種データを、非一時的に記憶するものである。あるいは、(5)制御部10が各種機能を実行する過程で演算に使用するデータおよび演算結果等を一時的に記憶するものである。例えば、上記の(1)~(4)のデータは、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)、HDD(Hard Disk Drive)などの不揮発性記憶装置に記憶される。例えば、上記の(5)のデータは、RAM(Random Access Memory)などの揮発性記憶装置に記憶される。どのデータをどの記憶装置に記憶するのかについては、デジタルテレビ100の使用目的、利便性、コスト、物理的な制約などから適宜決定される。例えば、撮像部12によって撮像されて得られた動画データは、ジェスチャ認識装置1が処理できるように、揮発性記憶装置にて実現された記憶部11に一時的に保存される。一方、ジェスチャ認識装置1がジェスチャを認識するために必要な規則などは、不揮発性記憶装置にて実現された記憶部11に非一時的に保存される。また、例えば、表示装置2(デジタルテレビ100)が表示部13に表示するオブジェクトのデータは、不揮発性記憶装置にて実現された記憶部11に非一時的に保存される。
制御部10は、デジタルテレビ100が備える各部を統括制御するものである。ジェスチャ認識装置1を実現するための機能ブロックとして、制御部10は、少なくとも、ジェスチャ認識部22、形態監視部23および実行量決定部24を備えている。さらに、制御部10は、ジェスチャ認識装置1を実現するための機能ブロックとして、開始認識部20および指示体検出部21を備えていてもよい。
なお、制御部10は、表示装置2(デジタルテレビ)を実現するための機能ブロックとして、オブジェクト処理部25を備えていてもよい。
上述した制御部10の各機能ブロックは、CPU(Central Processing Unit)などが、ROM(Read Only Memory)、NVRAM(Non-Volatile Random Access Memory)等で実現された不揮発性記憶装置に記憶されているプログラムをRAM(Random Access Memory)等の揮発性記憶装置に読み出して実行することで実現できる。
あるいは、制御部10の機能ブロックの一部または全部を専用のハードウェア回路(例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)など)で実現してもよい。
デジタルテレビ100の制御部10が実現する機能のうち、開始認識部20、指示体検出部21、および形態監視部23は、互いに連携してまたは単独で、センシングデータである動画像を処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段として機能する。また、ジェスチャ認識部22および実行量決定部24は、認識手段(開始認識部20、指示体検出部21、または形態監視部23)によって取得された形態および当該形態の移動の軌跡に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段として機能する。これらのデジタルテレビ100の制御部10が実現する各種機能について、以下に詳述する。
〔1-2:開始認識部20の動作〕
開始認識部20は、ジェスチャ入力の開始を認識するものである。
開始認識部20は、ジェスチャ入力の開始を認識するものである。
デジタルテレビ100に電源が入っている間、撮像部12は、常に、動画の撮像を継続している。つまり、ユーザがジェスチャを入力している(意図的に指示体を動かしている)場合も、ユーザがジェスチャを入力していない(意図的に指示体を動かしていない)場合も、常に、撮像部12から動画が供給される。したがって、前者の場合を、後者と区別して、前者の場合のみ、動画を処理してジェスチャ認識処理を実行することが好ましい。これにより、処理負荷の高いジェスチャ認識処理が、不要な動画のフレームに対して無駄に実行されることを回避できるからである。
開始認識部20は、ジェスチャ認識部22によって認識される、デジタルテレビ100に対してジェスチャが入力されるときの動きとは種類が異なる特殊な動きを認識する。そして、開始認識部20は、この特殊な動きを、ジェスチャ認識装置1に対して入力された、ジェスチャ入力の開始を告げる合図として認識する。
図2は、ジェスチャ認識装置1に供給される動画の1フレームの一具体例を示す図であり、開始認識部20の動作を説明する図である。
本実施形態では、一例として、開始認識部20は、ユーザが指または手を細かく振る動きを、ジェスチャ入力開始の合図として認識する。
より具体的には、開始認識部20は、撮像部12から逐次供給されてくる動画の各フレームを順次処理して、フレーム間差分を順次求めていく。開始認識部20は、求めたフレーム間の差分値を記憶部11に一時的に格納して累積していく。この差分値の累積値が所定値を超えたとき、開始認識部20は、ジェスチャ入力開始の合図が入力されたと認識する。
例えば、図2に示すとおり、ユーザが撮像部12の前で、一定期間、指を左右に細かく振ったとする。開始認識部20は、フレーム間を比較して、領域40に変化が激しい部分を認める。これにより、開始認識部20は、ジェスチャ入力開始の合図が入力されたと認識することができる。
本実施形態では、さらに、開始認識部20は、この一定以上の差分値の累積が認められた領域40を、指示体が含まれている指示体包含領域40として特定することが好ましい。
これにより、下流の工程における各機能部(特に、指示体検出部21)の処理効率を向上させることが可能である。下流の工程における各機能部は、指示体の動きを認識するために、まず、指示体を特定する処理を行う。指示体を特定するために走査する領域が、フレーム全体から指示体包含領域40に絞られれば、指示体検出部21の処理効率が格段に向上することは明らかである。
〔1-3:指示体検出部21の動作〕
指示体検出部21は、ジェスチャ入力を行う指示体を検出するものである。
指示体検出部21は、ジェスチャ入力を行う指示体を検出するものである。
ジェスチャ認識装置1は、指示体がどのような動きを行うかによって入力されたジェスチャを認識する装置であるので、動きを追尾すべき対象がフレーム上のどこにあるのかを特定する必要がある。指示体検出部21は、追尾対象の指示体領域を検出する。
図3の(a)および(b)は、指示体検出部21に供給される指示体包含領域40の一具体例を示す図であり、指示体検出部21の動作を説明する図である。
本実施形態では、指示体は、ユーザの手指であり、ユーザは、手指を撮像部12の前で動かしてジェスチャを入力する。よって、本実施形態では、指示体検出部21は、図3の(a)または(b)に示すとおり、指示体包含領域40に含まれるユーザの手指の領域を、指示体領域41として検出する。
指示体検出部21が、指示体領域41を検出する方法としては、これには限定されないが、以下の方法が挙げられる。例えば、指示体検出部21は、snake法などの輪郭抽出手法によって指示体領域41を検出してもよい(図3の(a)の破線枠領域)。あるいは、指示体検出部21は、HSV色空間における肌色モデルを用いて、肌色の領域を指示体領域41として検出してもよい(図3の(b)の網点領域)。
これにより、下流の工程における各機能部(特に、ジェスチャ認識部22)は、ジェスチャ認識のために追尾すべき指示体を指示体領域41に明確に絞り込むことができる。
さらに、本実施形態では、指示体検出部21は、指示体領域41に含まれる1点を、指示体基準点42として検出することが好ましい。本実施形態では、一例として、指示体検出部21は、指の先端を指示体基準点42として検出する。
これにより、ジェスチャ認識部22は、ジェスチャ認識のために追尾すべき指示体を、指示体領域41ではなく、指示体基準点42として明確に絞り込むことができる。指示体を追尾する対象が、指示体領域41から指示体基準点42に絞られれば、ジェスチャ認識部22の処理効率が格段に向上することは明らかである。
ジェスチャ認識部22は、指示体の動きからジェスチャを認識し、ジェスチャに対応する指示内容を特定するものである。本実施形態では、各ジェスチャには、それぞれ、デジタルテレビ100が実行すべき処理が対応付けられている。よって、ジェスチャ認識部22は、認識したジェスチャに対応する、デジタルテレビ100が実行する処理の内容を特定する。
〔1-4:ジェスチャ認識部22の動作〕
図4~図6は、ジェスチャ認識部22の動作を説明する図である。図4および図5は、ジェスチャ認識部22が追尾するフレーム上の指示体基準点42の一具体例を示す図である。図6は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則のデータ構造および具体例を示す図である。
図4~図6は、ジェスチャ認識部22の動作を説明する図である。図4および図5は、ジェスチャ認識部22が追尾するフレーム上の指示体基準点42の一具体例を示す図である。図6は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則のデータ構造および具体例を示す図である。
本実施形態では、一例として、ジェスチャ認識部22は、指示体の上下左右の移動をジェスチャとして認識する。すなわち、ジェスチャ認識部22は、図4に示すとおり、指示体が、「左に移動」、「右に移動」、「上に移動」、および、「下に移動」の4種類のジェスチャを認識する。ジェスチャ認識部22は、「円を描く」など、上記4種類に限定されず、別のジェスチャを認識してもよい。
具体的には、ジェスチャ認識部22は、指示体検出部21によって検出された指示体基準点42を追尾し、動画の各フレームを順次処理する。そして、ジェスチャ認識部22は、指示体基準点42の移動方向と、移動距離とを順次求める。移動距離は、指示体基準点42の位置についてフレーム間差分を求めることで得られる。ジェスチャ認識部22は、求めた指示体基準点42の移動距離を記憶部11に一時的に格納して累積していく。この移動距離の累積値が所定値を超えたとき、ジェスチャ認識部22は、上記求めた移動方向への指示体の移動が行われたことを認識する。
例えば、図5に示す例では、ジェスチャ認識部22は、指示体基準点42が、元の位置(白丸)から、現在の位置(黒丸)に移動したことにより、指示体基準点42の「移動」と、その移動方向43とを認識する。
図4における右向きの矢印、すなわち、移動方向43は、このフレーム上では(撮像部12から見て)、指示体基準点42が右に移動していることを表している。一方、移動方向43は、指示体を動かしている当人のユーザによって、指示体を左に動かしていると認識される方向である。よって、ジェスチャ認識部22は、指示体(指示体基準点42)の移動方向を、移動方向43特定した場合には、「左に移動」のジェスチャが入力されたと認識する。反対方向、すなわち、移動方向44を、指示体基準点42の移動方向であると求めた場合には、ジェスチャ認識部22は、「右に移動」のジェスチャが入力されたと認識する。
なお、ジェスチャの種別は、ここでは、図示しないが、識別情報によって識別されてもよい。例えば、「左に移動」、「右に移動」、「上に移動」、および、「下に移動」のジェスチャには、それぞれ、「00」、「01」、「10」、および、「11」などの識別情報が割り当てられていてもよい。この場合、移動方向43(図4および図5)が特定されたら、ジェスチャ認識部22は、「00」のジェスチャが入力されたと認識する。
次に、ジェスチャ認識部22は、認識したジェスチャに対応する指示内容、すなわち、デジタルテレビ100が実行すべき処理の内容を特定する。本実施形態では、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則(図6)に従って、入力されたジェスチャに対応する処理を特定する。
図6に示すとおり、ジェスチャ規則記憶部30は、ジェスチャ認識部22が認識したジェスチャの種類ごとに、デジタルテレビ100によって実行される処理が対応付けられている。なお、図6では、ジェスチャ規則をテーブル形式にて示しているが、これは、ジェスチャ規則記憶部30に記憶されるジェスチャ規則のデータ構造をテーブルに限定することを意図していない。
図6に示す例では、移動方向43に基づく「左に移動」のジェスチャには、処理「フォーカスをオブジェクト1つ分『左』に遷移させる」が対応付けられている。したがって、指示体が、移動方向43に沿って移動した場合には、ジェスチャ認識部22は、「左に移動」のジェスチャを認識し、デジタルテレビ100が実行すべき処理は、「フォーカスをオブジェクト1つ分『左』に遷移させる」ことであると特定する。
形態監視部23は、指示体の形態の変化を監視、その変化量を特定するものである。形態監視部23は、ジェスチャ認識部22によるジェスチャ認識の処理が開始された後に、指示体の形態の監視を開始してもよいし、ジェスチャ認識部22がジェスチャを認識した後に、指示体の形態の監視を開始してもよい。また、形態監視部23は、ユーザが、ジェスチャを入力するために動かしていた上記指示体(手指)の形態変化を監視してもよいし、上記指示体と同フレームに写っている別の指示体(第2の指示体)の形態変化を監視してもよい。
本実施形態では、先にジェスチャ認識部22がジェスチャを認識し、その後に、今度は、形態監視部23が、当該ジェスチャを入力するために動かされていた(移動していた)同指示体の形態変化を監視するものとする。つまり、ユーザは、ジェスチャ入力のために、指示体を上下左右のいずれかの方向へ移動させたのち、今後は、同指示体の形態を変化させる。本発明において、指示体の形態を変化させる動作は、先に入力したジェスチャに対応する処理をどのくらいの量繰り返すのかを指示するための処理実行量指定動作である。本発明において、ユーザは、同じジェスチャを繰り返し入力することに代わって、上記処理実行量指定動作を1つ行うだけで、繰り返し処理をデジタルテレビ100に対して指示することができる。
〔1-5:形態監視部23の動作〕
図7~図9は、形態監視部23の動作を説明する図である。図7は、ジェスチャ認識部22がジェスチャを認識した直後、ジェスチャ認識装置1に入力されたフレームの一具体例を示す図である。図8は、形態監視部23が、指示体の形態としての指の傾きを求めるための、指の主軸を特定する方法の一具体例を示す図である。図9は、形態監視部23が、指の傾きを求める方法の一具体例を示す図である。
図7~図9は、形態監視部23の動作を説明する図である。図7は、ジェスチャ認識部22がジェスチャを認識した直後、ジェスチャ認識装置1に入力されたフレームの一具体例を示す図である。図8は、形態監視部23が、指示体の形態としての指の傾きを求めるための、指の主軸を特定する方法の一具体例を示す図である。図9は、形態監視部23が、指の傾きを求める方法の一具体例を示す図である。
本実施形態では、形態監視部23は、一例として、ジェスチャ入力のための移動を終えた指示体、すなわち、ユーザの指の傾きの変化を、形態の変化として監視する。
まず、形態監視部23は、図7に示すとおり、ジェスチャ認識部22がジェスチャを認識した直後のフレームから、開始対象となる指示体を特定する。ここでは、形態監視部23は、開始認識部20によって特定された指示体包含領域40と、指示体検出部21によって特定された指示体領域41とを取得する。指示体領域41は、ここでは、先ほどまでジェスチャ入力を行っていたユーザの手指である。
次に、本実施形態では、形態監視部23は、ユーザの指の傾きを求めるために、監視対象の指の基準となる主軸を特定する。形態監視部23が、指の主軸を求める方法はこれに限定されないが、例えば、以下の方法が考えられる。
図8に示すとおり、形態監視部23は、指示体包含領域40における指示体領域41のうち、突起物の形状(指の形状)を有する突起部分41’を特定し、この突起部分の外接矩形を注目領域45として切り出す。そして、形態監視部23は、注目領域45における突起部分41’の重心46を求める。形態監視部23は、重心46を通る直線47を定義する。重心46を通る直線47は無数にあるので、本実施形態では、一例として、形態監視部23は、重心46を通る直線47を、重心46を垂直に通る直線47を基準にして5度間隔で定義してもよい。続いて、形態監視部23は、定義した各直線47のうち、注目領域45において、突起部分41’と重なる線分の長さが最も長くなる直線47を、指の主軸として特定する。図8に示す例では、形態監視部23は、突起部分41’と重なる線分の長さが最も長くなる直線として、太い直線47を、主軸48と特定する。
最後に、形態監視部23は、以上のとおり求めた指の主軸48と、基準となる角度を持った直線とがなす角度を求めることにより、監視対象である指示体(ユーザの指)の傾きを得ることができる。そして、上記角度の変化を監視することにより、形態の変化、すなわち、指の傾きの変化を監視することができる。
本実施形態では、一例として、形態監視部23は、図9に示すとおり、フレームに対して垂直な線を、基準線49と定義する。ここでは、形態監視部23は、基準線49の傾きθsを0度とみなす。そして、形態監視部23は、ある時点tのフレームにおいて上記のようにして求めた指の主軸48と、基準線49とがなす角度θtを求める。形態監視部23は、求めた角度θtを、上記時点tの指の傾きとして得る。
ユーザは、デジタルテレビ100に実行させたい処理実行量に応じて、徐々に指を傾けることができる。指を傾ける動作を写した動画の各フレームは逐次撮像部12からジェスチャ認識装置1に供給される。
形態監視部23は、フレーム(t、t+1、t+2、・・・)ごとに順次指の主軸48を求めて、指の傾きの変化を監視する。形態監視部23は、求めた指の傾きθtを実行量決定部24に逐次通知する。
なお、形態監視部23は、上記の例に限定されず、例えば、指示体領域41に対して、楕円フィッティング法を用いることにより、指の傾きを求めてもよい。
〔1-6:実行量決定部24の動作〕
実行量決定部24は、形態監視部23によって求められた指示体の形態に応じて、デジタルテレビ100に実行させる処理の量(以下、「処理実行量」とも称する。)を決定するものである。実行量決定部24は、処理実行量を、どのような単位で表現してもよい。例えば、実行量決定部24は、処理の実行回数を処理実行量として決定してもよいし、処理対象となるオブジェクトの個数を処理実行量として決定してもよい。
実行量決定部24は、形態監視部23によって求められた指示体の形態に応じて、デジタルテレビ100に実行させる処理の量(以下、「処理実行量」とも称する。)を決定するものである。実行量決定部24は、処理実行量を、どのような単位で表現してもよい。例えば、実行量決定部24は、処理の実行回数を処理実行量として決定してもよいし、処理対象となるオブジェクトの個数を処理実行量として決定してもよい。
本実施形態では、図6に示すとおり、デジタルテレビ100に実行させる処理は、フォーカス(カーソル)をオブジェクト(選択肢)1つ分、いずれかの方向に遷移させる、という処理である。そこで、実行量決定部24は、本実施形態では、形態監視部23によって求められた指の傾きに応じて、「フォーカスをオブジェクト1個分所定方向に遷移させる」処理を連続して実行する回数(処理実行回数)を、処理実行量として決定する。なお、実行量決定部24は、形態監視部23によって求められた指の傾きに応じて、「フォーカスをオブジェクト所定個数分所定方向に遷移させる」処理を実行するときの、上記「オブジェクト所定個数」を処理実行量として決定してもよい。
実行量決定部24によって、上記処理実行回数が決定された場合には、デジタルテレビ100は、「フォーカスをオブジェクト1個分所定方向に遷移させる」処理を、決定された処理実行回数分だけ連続して実行する。
また、実行量決定部24によって、上記「オブジェクト所定個数」が決定された場合には、デジタルテレビ100は、決定されたオブジェクト個数分、上記所定方向にフォーカスを遷移させる。
なお、実行量決定部24が処理実行量を決定するためには、形態の変化量、すなわち、指の傾き(形態変化量)と、それに応じた処理実行量との相関関係が予め規定されている必要がある。
形態相関記憶部31には、指示体の形態の変化量と、処理実行量との相関関係が記憶されている。形態相関記憶部31が記憶する相関関係の情報は、対応テーブルの形で実現されてもよいし、計算式の形で実現されてもよい。いずれにしても、実行量決定部24は、形態相関記憶部31に記憶されている相関関係の情報を参照することにより、得られた形態の変化量に基づいて、処理実行量を決定することができる。
実行量決定部24が処理実行量を決定する方法は、これには限定されないが、例えば、以下の方法が考えられる。
ジェスチャ入力が終わり、引き続きユーザは、指示体である指を傾ける動作を行っているとする。このときのある時点tにおいて、当該時点tのフレームが撮像部12より得られる。
形態監視部23は、上記時点tの上記指の傾きθtを求める。
実行量決定部24は、下記の所定の計算式に従って、指の傾きθtから、時点tにおける処理実行量Mtを決定する。
実行量決定部24は、下記の所定の計算式に従って、指の傾きθtから、時点tにおける処理実行量Mtを決定する。
Mt=α×θt
ここで、αは、予め定められた係数である。上記計算式および係数αは、形態相関記憶部31に記憶されており、実行量決定部24によって読み出される。このように、上記計算式に従えば、実行量決定部24は、ユーザが指を傾けるほど、処理実行量を多く決定することができる。
ここで、αは、予め定められた係数である。上記計算式および係数αは、形態相関記憶部31に記憶されており、実行量決定部24によって読み出される。このように、上記計算式に従えば、実行量決定部24は、ユーザが指を傾けるほど、処理実行量を多く決定することができる。
例えば、係数αが、‘0.5(回)’と定められていて、形態監視部23によって求められた時点tの指の傾きθtが、60度であるとする。この場合、実行量決定部24は、時点tにおける、処理実行量Mtを、0.5×60=30回と決定する。なお、もし、ユーザが80度指を傾けた場合には、実行量決定部24は、処理実行量を40回と決定することになる。
ここで、形態監視部23および実行量決定部24の上流の工程で、ジェスチャ認識部22が、入力されたジェスチャに対応する処理が、「フォーカスをオブジェクト1つ分『左』に遷移させる」であると特定したとする。
この場合、「フォーカスをオブジェクト1つ分『左』に遷移させる」処理を30回繰り返す、という指示が、ジェスチャ認識装置1から表示装置2(すなわち、デジタルテレビ100)に対して入力されることになる。
〔1-7:表示装置2におけるオブジェクト処理機能〕
オブジェクト処理部25は、オブジェクト記憶部32に記憶されている各オブジェクトを処理するものである。本実施形態では、オブジェクト処理部25は、選択肢である各オブジェクトを、表示部13に表示する。さらに、オブジェクト処理部25は、選択されている(フォーカスされている)オブジェクトを、他の非選択のオブジェクトと区別して表示する。
オブジェクト処理部25は、オブジェクト記憶部32に記憶されている各オブジェクトを処理するものである。本実施形態では、オブジェクト処理部25は、選択肢である各オブジェクトを、表示部13に表示する。さらに、オブジェクト処理部25は、選択されている(フォーカスされている)オブジェクトを、他の非選択のオブジェクトと区別して表示する。
例えば、オブジェクト処理部25は、オブジェクトに対してフォーカス制御を行う。具体的には、オブジェクト処理部25は、特定のオブジェクトにフォーカスを当てて、そのオブジェクトを他の非選択のオブジェクトと区別する。さらに、そのことが可視化されるように、オブジェクト処理部25は、カーソル表示位置を制御して、フォーカスされたオブジェクトにカーソルを当てる。オブジェクト処理部25は、他のオブジェクトにフォーカスを遷した場合には、当該他のオブジェクトにカーソルを合わせる。例えば、オブジェクトがサムネイル画像である場合、オブジェクト処理部25は、複数のサムネイル画像をオブジェクト記憶部32から読み出して、タイル状に一覧表示する。そして、その中でフォーカスされたサムネイル画像にカーソルを当てて表示する。
あるいは、オブジェクトが電子書籍のページ(選択肢)である場合には、以下のようにフォーカス制御する。つまり、オブジェクト処理部25は、フォーカスされたページだけを表示部13に表示してもよい。そして、他のページが選択された場合には、フォーカスを、当該他のページに遷し、これまで表示されていたページを非表示にし、新たにフォーカスされた上記他のページを表示する。
オブジェクト処理部25は、ジェスチャ認識装置1から供給される指示に従って動作することができる。より詳細には、ジェスチャ認識装置1のジェスチャ認識部22によって認識されたジェスチャに対応する処理を、オブジェクト処理部25はジェスチャ認識部22からの指示に従って実行する。また、実行量決定部24によって決定された処理実行量を満たすように、上記処理を繰り返す。
上述の例のとおり、「フォーカスをオブジェクト1つ分『左』に遷移させる」処理を30回繰り返す、という指示が、ジェスチャ認識装置1から表示装置2(すなわち、デジタルテレビ100)に対して入力されるとする。この場合、オブジェクト処理部25は、一覧表示されているオブジェクトのうち、フォーカスを、現在のフォーカス中のオブジェクトから、30個分左に配置されているオブジェクトに遷移させる。そして、オブジェクト処理部25は、カーソルをオブジェクト30個分左に移動させる。あるいは、オブジェクトが書籍ページの場合には、オブジェクト処理部25は、30ページ先のページにフォーカスを遷移させて、30回ページを繰って、当該ページを表示させる(書籍が、右綴じ左開きの場合)。
図10および図11は、ジェスチャ認識装置1によって認識されたジェスチャに従ってオブジェクト処理部25が処理を実行した結果、得られる表示画面の一具体例を示す図である。
図10および図11に示す例では、一例として、オブジェクト処理部25は、オブジェクト記憶部32に記憶された静止画のサムネイル画像を表示画面(13a、13b)の上段に一覧表示する(サムネイル画像51’~55’)。さらに、オブジェクト処理部25は、一覧表示されたサムネイル画像のうち、フォーカスされているサムネイル画像に対応する静止画を、表示画面(13a、13b)の下段に表示する。例えば、図10の表示画面13aでは、サムネイル画像52'がフォーカスされているので、サムネイル画像52'に対応する静止画52が下段に表示される。さらに、オブジェクト処理部25は、フォーカスされているサムネイル画像を明示するために、カーソル50を、フォーカスされているサムネイル画像の位置に表示する。
例えば、表示部13の表示画面で、サムネイル画像51'がフォーカスされている状態のときに、ユーザが指を左に移動させてジェスチャ入力を行ったとする(図10のSce1;シーン1)。この場合、ジェスチャ認識部22は、ジェスチャ「左に移動」を認識し、対応する処理「フォーカスをオブジェクト1つ分『左』に遷移させる」を、オブジェクト処理部25に指示する。
オブジェクト処理部25は、上記のジェスチャ認識部22からの指示に従って、表示画面13aに示すとおり、サムネイル画像51'の1つ左のサムネイル画像52'にフォーカスを遷移させる。そして、本実施形態では、さらに、オブジェクト処理部25は、カーソル50をサムネイル画像51'から1つ左に動かしてサムネイル画像52'に当てる。さらに、サムネイル画像52'に対応する静止画52を下段に表示する。
ユーザは、指の移動を終えた後、引き続き、指の形態を変化させる。具体的には、指の傾きを左に所定角度だけ変化させる(図10のSce2;シーン2)。形態監視部23は、上記指が傾いていく様を監視しており、逐次、指の傾きを求める。一例として、上記シーン2の時点では、形態監視部23は、基準線49と、指の主軸48とがなす角度θaを、シーン2の時点の指の傾き(形態の変化量)として特定する。
実行量決定部24は、例えば、形態相関記憶部31に記憶されている相関関係の情報と、上記角度θaとに従って、角度θaに対応する処理実行量を「1枚」と決定したとする。ここでは、指の移動も、形態変化も左方向に実行された。そこで、実行量決定部24は、シーン2の時点で、処理実行量「1枚」および処理進行方向「左」を、オブジェクト処理部25に対して指示する。
オブジェクト処理部25は、上記の実行量決定部24からの指示に従って、先のジェスチャ認識部22によって指示された処理を繰り返す。すなわち、オブジェクト処理部25は、もう一度、フォーカスをオブジェクト1つ分「左」に遷移させる。結果として、表示画面13bに示すとおり、オブジェクト処理部25は、フォーカスを、サムネイル画像52’からサムネイル画像53’に遷移させて、カーソル50も左に1つ動かす。
ここで、ユーザが、θaの角度のまま指を傾ける動作を継続すると、逐次、実行量決定部24は、処理実行量「1枚」および処理進行方向「左」を、オブジェクト処理部25に対して指示する。
オブジェクト処理部25は、上記指示が供給される間、フォーカスを、サムネイル画像53’から、54’、55、’・・・と1枚送りで遷移させる処理を継続して実行する。ここでは、カーソル50も、サムネイル画像53’から、54’、55、’・・・と1枚ごとに移動させる。
一方、図11に示すとおり、図10と同じシーン1(図11のSce1)に引き続き、今度は、ユーザが、指を、θbの角度で傾けたとする(図11のSce2’)。シーン2’(Sce2’)におけるθbは、シーン2(図10のSce2)におけるθaよりも大きな角度である。これに伴い、実行量決定部24は、角度θbに対応する処理実行量を「2枚」と決定し、また、処理進行方向を「左」と決定したとする。
このシーン2’が継続すれば、実行量決定部24は、処理実行量「2枚」および処理進行方向「左」を、オブジェクト処理部25に対して指示し続ける。
この場合、オブジェクト処理部25は、表示画面13bに示すとおり、上記指示が供給される間、フォーカスを、サムネイル画像52’から、サムネイル画像54’へと2枚送りで遷移させる。そして、オブジェクト処理部25は、この処理を、上記指示が供給される間継続する。すなわち、オブジェクト処理部25は、フォーカスを、図示しない、サムネイル画像56’、58’、60’、・・・と2枚送りで遷移させ続ける。
なお、指の傾きが、θbからさらに大きくなっていく場合には、実行量決定部24は、処理実行量を、「3枚」、「4枚」、・・・と逐次決定する。オブジェクト処理部25は、新たな処理実行量が実行量決定部24から供給された場合には、それに従って、3枚送り、4枚送り、・・・とさらに高速にフォーカスを遷移させることができる。なお、上述の1枚送りとは、フォーカスを、オブジェクト1個ごとに遷移させていくことを指す。2枚送りとは、オブジェクトを1個飛ばして、オブジェクト2個ごとにフォーカスを遷移させていくことを指す。3枚送り(4枚送り)とは、それぞれ、オブジェクトを2個(3個)飛ばして、オブジェクト3個(4個)ごとにフォーカスを遷移させていくことを指す。オブジェクト処理部25は、オブジェクト何個ごとにでもフォーカスを遷移させることができる構成である。例えば、1000個のオブジェクトが一覧表示されている場合には、オブジェクト処理部25は、100個ごとにフォーカスを遷移させていくこともできる。
〔1-8:利点〕
以上の構成によれば、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、上記指示体の形態を変化させるだけで、簡単に、上記ジェスチャを何度も繰り返し入力するのと同等の指示をデジタルテレビ100に対して入力することができる。
以上の構成によれば、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、上記指示体の形態を変化させるだけで、簡単に、上記ジェスチャを何度も繰り返し入力するのと同等の指示をデジタルテレビ100に対して入力することができる。
例えば、従来、カーソルを左に10回動かしたい場合に、指示体を左に動かす動作を10回行わなければならないところ、本発明の一実施形態に従うジェスチャ認識装置1によれば、指示体を左に動かす動作1回と、指示体を傾ける動作1回とで済む。
さらに、ユーザは、指示体の形態の変化量を調節することにより、その繰り返し量をデジタルテレビ100に対して指定することが可能になる。例えば、指示体の形態の変化量(指の傾き)を10倍にすれば、10枚ずつ移動させていたカーソルを、100枚ずつ移動させるようにデジタルテレビ100に対して指示することが可能である。
〔1-9:処理フロー〕
図12は、ジェスチャ認識装置1が実行するジェスチャ認識処理および表示装置2(デジタルテレビ100)が実行するオブジェクト処理の流れを示すフローチャートである。
図12は、ジェスチャ認識装置1が実行するジェスチャ認識処理および表示装置2(デジタルテレビ100)が実行するオブジェクト処理の流れを示すフローチャートである。
ユーザは、ジェスチャを入力するためにまず、撮像部12の前で、指を振る動作をするなどして、ジェスチャ入力開始の合図を送る。この様子を撮像した動画(フレーム群)がジェスチャ認識装置1に供給されると、開始認識部20は、フレーム間の変化量に基づいて、ジェスチャ入力開始の合図を認識する(ステップS101)。続いて、開始認識部20は、ジェスチャを入力する指示体が含まれている領域(例えば、指示体包含領域40)をフレームから特定する(ステップS102)。
ここで、さらに続けて、指示体検出部21が、指示体包含領域40から指示体領域41を検出し、さらには、指示体領域41上に指示体基準点42を検出することが好ましい。
そして、ジェスチャ認識部22は、指示体を追尾してジェスチャ認識処理を開始する(ステップS103)。例えば、指示体検出部21によって検出された指示体基準点42を追尾することが好ましい。
本実施形態では、ユーザは、所望のジェスチャを入力するために、上下左右のいずれかの方向に指示体(指)を移動させる。この様子を撮像した動画(フレーム群)がジェスチャ認識装置1に供給されると、ジェスチャ認識部22は、フレーム間差分から、指示体基準点42の移動方向および移動距離を求める。移動距離は、フレームが順次供給されることで累積される。移動距離が一定以上になると、ジェスチャ認識部22は、指示体が「移動した」と認識する。ジェスチャ認識部22は、指示体の移動を認識すると(ステップS104においてYES)、指示体基準点42を追尾した結果得られた指示体基準点42の移動方向に基づいて、ジェスチャを認識する(ステップS105)。例えば、図5に示すとおり、指示体基準点42が、移動方向43に移動した場合には、ジェスチャ認識部22は、図6に示す「左に移動」のジェスチャが入力されたことを認識する。続いて、ジェスチャ認識部22は、入力されたジェスチャに応じて表示装置2が実行すべき処理を特定する。例えば、図6に示すジェスチャ規則に従って、「左に移動」に対応付けられた「フォーカスをオブジェクト1つ分『左』に遷移させる」処理を、表示装置2に実行させる処理として特定する。ジェスチャ認識部22は、特定した処理を表示装置2に実行させるための指示を表示装置2(ここでは、オブジェクト処理部25)に出力する(ステップS107)。
これに対し、表示装置2のオブジェクト処理部25は、上記指示に従って、指示された処理を実行する(ステップS108)。上述の例では、オブジェクト処理部25は、これまでフォーカスされていたオブジェクトの左に表示されているオブジェクトにフォーカスを遷移させる。また、オブジェクト処理部25は、これまでフォーカスされていたオブジェクトに当てられていたカーソルを、新しくフォーカスされた左のオブジェクトに移動させる。
一方、本実施形態では、ユーザは、ジェスチャの入力を終えると、当該ジェスチャによって装置に行われる処理を繰り返したい場合には、引き続き、連続して処理を実行させるための動作を、指示体(ここでは、例えば指)を使って行う。この様子を撮像した動画(フレーム群)がジェスチャ認識装置1に供給されると、ジェスチャ認識装置1の形態監視部23は、引き続き随時供給されるフレームを処理して撮像された指示体の形態を監視する(ステップS109)。形態監視部23は、上流の各工程によって特定された指示体包含領域40における指示体領域41(手指)の形態を監視する。ここでは、一例として、形態監視部23は、指示体領域41から、さらに、突起状の指の部分だけを含む注目領域45を特定し、注目領域45における指の主軸48を特定する。そして、この指の主軸48の傾きを追尾するものとする。
形態監視部23は、フレーム間差分値を累積して、指示体の動き(すなわち、形態の変化)を認識すると(ステップS110においてYES)、最新のフレームにおいて、注目領域45における指の傾きを求める(ステップS111)。例えば、形態監視部23は、フレームにおいて垂直な基準線49と主軸48とがなす角度を指の傾きとして求める。
続いて、実行量決定部24は、形態相関記憶部31に記憶された相関関係の情報に従って、形態監視部23によって求められた指の傾きに基づいて、処理実行量を決定する。相関関係の情報は、形態の変化量と、処理実行量との相関関係を示す情報であり、この情報によって、形態監視部23が求めた指の傾きに対応する処理実行量が得られる。
例えば、実行量決定部24は、「Mt=0.5(回)×θt」という計算式(相関関係の情報)に従って、形態の変化量θt=60度であること基づいて、処理実行量Mtを「30回」と求める。
続いて、実行量決定部24は、ステップS112にて決定した処理実行量「30回」を、表示装置2に対して出力する(ステップS113)。
これに対し、表示装置2のオブジェクト処理部25は、上記処理実行量をジェスチャ認識装置1から受信すると(ステップS114においてYES)、ステップS108において指示された処理を、上記処理実行量にて指定された回数実行する(ステップS115)。上述の例では、オブジェクト処理部25は、「フォーカスをオブジェクト1つ分『左』に遷移させる」処理を、30回実行する。さらに、オブジェクト処理部25は、カーソルを、30個左のオブジェクトに移動させてもよい。ここで、オブジェクト処理部25は、カーソルを、1個1個のオブジェクトに当てながら移動させてもよいが、30個左のオブジェクトに一気に移動(ジャンプ)させることが好ましい。
ユーザは、上述のカーソルの移動速度をさらに早めたいときは、指の傾きを大きくすればよい。指示体がフレーム内に認められる間は(ステップS116においてNO)、ステップS110~S115の処理が繰り返し実行される。すなわち、オブジェクト処理部25は、カーソルをオブジェクト30個ごとに左にジャンプさせる処理を繰り返す。
あるいは、ユーザは、カーソルの移動(繰り返し)を終わらせたいときは、指示体自体を撮像部12の撮像範囲からはずしてジェスチャ入力を完了させることができる。撮像部12から供給されるフレームにおいて、指示体が認識されなくなったら(ステップS116においてYES)、形態監視部23は、形態の監視を終了し、実行量決定部24に対して行っていた形態変化量(指の傾き)の供給を停止する。これに伴い、実行量決定部24は、表示装置2に対して行っていた処理実行量の供給を停止し、代わりに、処理の実行を停止するように表示装置2に対して指示する(ステップS117)。
これに対し、表示装置2のオブジェクト処理部25は、ジェスチャ認識装置1から処理停止指示を受信すると(ステップS118においてYES)、ステップS108において指示された処理を停止する(ステップS119)。すなわち、オブジェクト処理部25は、カーソルの移動(フォーカスの遷移)を停止する。
以上の方法によれば、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、上記指示体の形態を変化させるだけで、簡単に、上記ジェスチャを何度も繰り返し入力するのと同等の指示をデジタルテレビ100に対して入力することができる。
例えば、従来、カーソルを左に10回動かしたい場合に、指示体を左に動かす動作を10回行わなければならないところ、本発明の一実施形態に従うジェスチャ認識装置1によれば、指示体を左に動かす動作1回と、指示体を傾ける動作1回とで済む。
さらに、ユーザは、指示体の形態の変化量を調節することにより、その繰り返し量(処理実行量)をデジタルテレビ100に対して指定することが可能になる。例えば、指示体の変化量(指の傾き)を10倍にすれば、10枚ずつ移動させていたカーソルを、100枚ずつ移動させるようにデジタルテレビ100に対して指示することが可能である。
〔1-10:処理実行量決定方法についての変形例〕
上述の実施形態では、図9に示すとおり、形態監視部23は、絶対的な基準の形態(θs=0度の、垂直な基準線49)と、現時点tにおける形態(主軸48)との比較によって、指示体の現時点tにおける形態変化量(θt)を取得する構成であった。そして、実行量決定部24は、Mt=α×θt(αは定数)に従って、処理実行量を決定する構成であった。
上述の実施形態では、図9に示すとおり、形態監視部23は、絶対的な基準の形態(θs=0度の、垂直な基準線49)と、現時点tにおける形態(主軸48)との比較によって、指示体の現時点tにおける形態変化量(θt)を取得する構成であった。そして、実行量決定部24は、Mt=α×θt(αは定数)に従って、処理実行量を決定する構成であった。
しかし、形態監視部23および実行量決定部24を以下のように構成し、他の方法で処理実行量を決定してもよい。本発明の他の実施形態に従う処理実行量決定方法について、図13~図15を参照しながら説明する。
図13は、本発明の他の実施形態に従う処理実行量決定方法を説明する図である。
図13に示す変形例では、表示装置2において処理実行量の最大値が予め定まっている構成である。例えば、表示装置2のオブジェクト処理部25において、カーソルをジャンプさせるオブジェクト数の最大値が「100個」と定まっている。つまり、オブジェクト処理部25は、カーソル(フォーカス)を、最大で100ずつ上下左右に移動させることが可能な構成であるとする。
図13に示す変形例では、表示装置2において処理実行量の最大値が予め定まっている構成である。例えば、表示装置2のオブジェクト処理部25において、カーソルをジャンプさせるオブジェクト数の最大値が「100個」と定まっている。つまり、オブジェクト処理部25は、カーソル(フォーカス)を、最大で100ずつ上下左右に移動させることが可能な構成であるとする。
形態監視部23は、実施形態1と同様に、基準線49を定義し、現時点tにおける変化量θtを求め、実行量決定部24に供給する。
本変形例では、実行量決定部24は、さらに、図13に示すとおり、予め定まっている処理実行量の最大値(例えば、100個)に対応する基準の形態(最終形態e)を、水平な基準線70と定義する。実行量決定部24は、処理実行量の最小値(例えば、0個)に対応する基準の形態を、θs=0度(垂直な基準線49)とみなす。また、実行量決定部24は、処理実行量の最大値(例えば、100個)に対応する基準の形態(最終形態e)を、θe=90度(水平な基準線70)とみなす。そして、実行量決定部24は、垂直な基準線49におけるθs=0度と、水平な基準線70におけるθe=90度とに基づいて、最大変化量(θe-θs=θall=90度)を取得する。
そして、本変形例では、実行量決定部24は、上記最大変化量(θall=90度)に対して、現時点tの形態変化量(θt)の占める割合を求める。そして、実行量決定部24は、この割合の大きさに比例して、処理実行量を決定する。
例えば、実行量決定部24は、形態相関記憶部31に記憶されている下記の所定の計算式に従って、指の傾きθtから、時点tにおける処理実行量Mtを決定する。
Mt=(θt÷θall)×β
ここで、βは、予め定められた最大処理実行量である。上述の例では、β=100(個)である。したがって、より具体的には、形態監視部23によって求められた時点tの指の傾きθtが、45度であるとすると、実行量決定部24は、処理実行量Mtを、(45÷90)×100=50回と決定する。
Mt=(θt÷θall)×β
ここで、βは、予め定められた最大処理実行量である。上述の例では、β=100(個)である。したがって、より具体的には、形態監視部23によって求められた時点tの指の傾きθtが、45度であるとすると、実行量決定部24は、処理実行量Mtを、(45÷90)×100=50回と決定する。
以上の構成においても、実行量決定部24は、形態監視部23によって求められた、指示体の形態の変化量に比例して、処理実行量を決定することが可能となり、実施形態1と同様の効果を得ることができる。
図14は、本発明の他の実施形態に従う処理実行量決定方法を説明する図である。
図14に示す変形例において、図9に示す実施形態1の処理実行量決定方法と異なる点は、以下のとおりである。すなわち、形態監視部23は、フレームにおいて垂直な線を、絶対的な基準線として定義する構成であった。本変形例では、形態監視部23は、指示体の形態変化の監視を開始する時点の指示体の形態を、基準の形態(開始形態s)とみなす。したがって、ユーザの指が、ジェスチャ入力を完了した時点で、すでに傾いていたとしても、その時に形態監視部23が監視を開始すれば、その時点での指の主軸を、基準線49’として定義する。形態監視部23は、定義した基準線49’の傾きθsを0度と定義する。
図14に示す変形例において、図9に示す実施形態1の処理実行量決定方法と異なる点は、以下のとおりである。すなわち、形態監視部23は、フレームにおいて垂直な線を、絶対的な基準線として定義する構成であった。本変形例では、形態監視部23は、指示体の形態変化の監視を開始する時点の指示体の形態を、基準の形態(開始形態s)とみなす。したがって、ユーザの指が、ジェスチャ入力を完了した時点で、すでに傾いていたとしても、その時に形態監視部23が監視を開始すれば、その時点での指の主軸を、基準線49’として定義する。形態監視部23は、定義した基準線49’の傾きθsを0度と定義する。
形態監視部23は、現時点tにおける指の主軸48を求めて、基準線49’と主軸48とがなす角度θtを、現時点tにおける指示体の形態の変化量として、実行量決定部24に供給する。
実行量決定部24は、実施形態1と同様に、形態相関記憶部31に記憶されている相関関係の情報(Mt=α×θt)に従って、処理実行量を決定すればよい。係数αは、実施形態1と同様であっても構わないし、別の値を設定してもよい。
以上の構成においても、実行量決定部24は、形態監視部23によって求められた、指示体の形態の変化量に比例して、処理実行量を決定することが可能となり、実施形態1と同様の効果を得ることができる。
図15は、本発明の他の実施形態に従う処理実行量決定方法を説明する図である。
図15に示す変形例では、上述したとおり、表示装置2において処理実行量の最大値が予め定まっている構成である。例えば、オブジェクト処理部25がカーソルをジャンプさせることが可能なオブジェクト数の最大値が「100個」と定まっているとする。
図15に示す変形例では、上述したとおり、表示装置2において処理実行量の最大値が予め定まっている構成である。例えば、オブジェクト処理部25がカーソルをジャンプさせることが可能なオブジェクト数の最大値が「100個」と定まっているとする。
本変形例では、形態監視部23は、実施形態1と同様に、フレームにおいて垂直な基準線49を定義し、基準線49の傾きθを0度と定義する。しかし本変形例では、さらに、形態監視部23は、指示体の形態変化の監視を開始する時点の指示体の形態を、基準の形態(開始形態s)とみなす。形態監視部23は、開始形態sにおける指の主軸を、基準線49’と定義する。
形態監視部23は、現時点tにおける指の主軸48を求めて、基準線49’と主軸48とがなす角度θtを、現時点tにおける指示体の形態の変化量として、実行量決定部24に供給する。
本変形例では、実行量決定部24は、さらに、図15に示すとおり、予め定まっている処理実行量の最大値(例えば、100個)に対応する基準の形態(最終形態e)を、水平な基準線70と定義する。本変形例では、実行量決定部24は、処理実行量の最小値(例えば、0個)に対応する基準の形態を、開始形態sに対応する基準線49’(θs)とみなす。また、実行量決定部24は、処理実行量の最大値(例えば、100個)に対応する基準の形態(最終形態e)を、θe=90度(水平な基準線70)とみなす。そして、実行量決定部24は、基準線49’におけるθsと、水平な基準線70におけるθe=90度とに基づいて、最大変化量(θe-θs=θall)を取得する。なお、θsは、ここでは、垂直な基準線49と、開始形態sの基準線49’とがなす角度によって求められる。
そして、本変形例では、実行量決定部24は、上記最大変化量(θall)に対して、現時点tの形態変化量(θt)の占める割合を求める。そして、実行量決定部24は、この割合の大きさに比例して、処理実行量を決定する。
例えば、実行量決定部24は、形態相関記憶部31に記憶されている下記の所定の計算式に従って、指の傾きθtから、時点tにおける処理実行量Mtを決定する。
Mt=(θt÷θall)×β
ここで、βは、予め定められた最大処理実行量である。上述の例では、β=100(個)である。したがって、より具体的には、θsが30度、θallが60度、形態監視部23によって求められた時点tの指の傾きθtが、15度であるとすると、実行量決定部24は、処理実行量Mtを、(15÷60)×100=25回と決定する。
Mt=(θt÷θall)×β
ここで、βは、予め定められた最大処理実行量である。上述の例では、β=100(個)である。したがって、より具体的には、θsが30度、θallが60度、形態監視部23によって求められた時点tの指の傾きθtが、15度であるとすると、実行量決定部24は、処理実行量Mtを、(15÷60)×100=25回と決定する。
以上の構成においても、実行量決定部24は、形態監視部23によって求められた、指示体の形態の変化量に比例して、処理実行量を決定することが可能となり、実施形態1と同様の効果を得ることができる。
〔1-11:ジェスチャ入力時の移動方向に対する形態変化の進行方向を考慮した変形例〕
上述の実施形態では、ジェスチャ入力時の指示体(指)の移動方向と、処理実行量指定時の指示体の形態変化の進行方向とは、同一で、常に一方向である場合が想定されていた。例えば、ジェスチャ入力時に指が左に移動した場合には、その後、指は、左向きに傾き続けるという場合である。
上述の実施形態では、ジェスチャ入力時の指示体(指)の移動方向と、処理実行量指定時の指示体の形態変化の進行方向とは、同一で、常に一方向である場合が想定されていた。例えば、ジェスチャ入力時に指が左に移動した場合には、その後、指は、左向きに傾き続けるという場合である。
しかし、ユーザがジェスチャ入力時の指示体(指)の移動方向と反対の進行方向に、指示体の形態を変化させるという状況も想定される。
(ケース1)
このような状況に対応するための構成として、実行量決定部24は、形態監視部23から供給された現時点tの形態変化量θtが、直前の時点t-1の変化量θt-1と比較して、減少した場合に、これを、ユーザからの停止指示として認識してもよい。そして、実行量決定部24は、処理の実行停止を指示する処理停止指示を表示装置2に対して出力してもよい。
このような状況に対応するための構成として、実行量決定部24は、形態監視部23から供給された現時点tの形態変化量θtが、直前の時点t-1の変化量θt-1と比較して、減少した場合に、これを、ユーザからの停止指示として認識してもよい。そして、実行量決定部24は、処理の実行停止を指示する処理停止指示を表示装置2に対して出力してもよい。
現時点tの形態変化量θtが、直前の時点t-1の変化量θt-1と比較して、下回る状況の一例を、図16に示す。
図16に示すとおり、ジェスチャ入力時の移動方向が、移動方向43(左に移動)であって、処理実行量指定時の指示体の形態変化の進行方向も、移動方向43と同じく、左向きの進行方向71であるとする。この場合、指の傾き(形態変化量)は、基準線49よりも左に傾くほど増大する。
したがって、ユーザが、指の傾きを、進行方向71(移動方向43)と反対の進行方向72(右向き)に少しでも戻した場合には、指の傾き(形態変化量)は、直前の変化量θt-1よりも減少する。
このように、これまでの進行方向(左)と反対の方向(右)に指の傾きを戻す動作が行われたことに伴って、これまで継続して行われていた処理を停止するようにデジタルテレビ100を構成する。
これまで、ユーザは、指の進行方向と同じ方向にてカーソル(フォーカス)を移動させる操作を行っている。ここで、進行方向と反対の方向に指の傾きを戻す動作は、ユーザにとって、カーソルの移動にブレーキをかけるイメージが連想されやすい。
したがって、上記構成によれば、ユーザが直感的に操作を理解でき、デジタルテレビ100において操作性が向上するという効果を奏する。
(ケース2)
あるいは、上述のような状況において、指の傾き(形態変化量)が、基準線49よりも右(すなわち、移動方向43の反対方向)に傾くことも考えられる。
あるいは、上述のような状況において、指の傾き(形態変化量)が、基準線49よりも右(すなわち、移動方向43の反対方向)に傾くことも考えられる。
このような状況に対応するための構成として、形態監視部23は、基準線49から、移動方向と反対の方向に、指示体(指)が傾いた場合には、当該指示体の変化量を負の数によって表してもよい。
例えば、図17に示すとおり、ジェスチャ入力時の移動方向が、移動方向43(左に移動)であって、処理実行量指定時の指示体の形態変化の進行方向が、移動方向43と反対の、右向きの進行方向72であるとする。この場合、指の傾き(形態変化量)は、基準線49よりも右に傾くほどマイナスになり減少する(絶対値は大きくなる)。
実行量決定部24は、形態監視部23から供給された形態変化量が正の数であった場合には、先の移動方向43と同じ方向を、デジタルテレビ100に実行させる処理の進行方向であると決定する。つまり、実行量決定部24は、「フォーカスをオブジェクトMt個ずつ左に遷移させる」処理を表示装置2に対して指示する。
一方、実行量決定部24は、形態監視部23から供給された形態変化量が負の数であった場合には、先の移動方向43と反対の方向を、デジタルテレビ100に実行させる処理の進行方向であると決定する。つまり、実行量決定部24は、「フォーカスをオブジェクトMt個ずつ右に遷移させる」処理を表示装置2に対して指示する。
当然、処理実行量Mtは、現時点tの指の主軸48が、基準線49から左(または右)にどのくらい傾いているのかによって決定される。傾きが強いほど処理実行量が多くなる。
このように、これまでの進行方向(左)と反対の方向(右)に指を傾ける動作が行われたことに伴って、これまで行われていた処理の進行方向と反対の進行方向にて処理を継続するようにデジタルテレビ100を構成する。
ここで、進行方向と反対の進行方向に指を傾ける動作は、ユーザにとって、最初にジェスチャで指示した進行方向とは反対の方向に、カーソルの移動方向が変わる(カーソルが引き返す)イメージが連想されやすい。
したがって、上記構成によれば、ユーザが直感的に操作を理解でき、デジタルテレビ100において操作性が向上するという効果を奏する。
〔1-12:形態変化監視対象について〕
上述の実施形態では、形態監視部23は、指示体の形態として、指の傾きを監視対象とする構成であった。しかし、本発明のジェスチャ認識装置1の構成はこれに限定されない。
上述の実施形態では、形態監視部23は、指示体の形態として、指の傾きを監視対象とする構成であった。しかし、本発明のジェスチャ認識装置1の構成はこれに限定されない。
例えば、形態監視部23は、ジェスチャ入力のために移動した指示体における、指の曲がり具合を監視対象としてもよい。
より具体的には、図18に示すとおり、形態監視部23は、指が曲がったときに角度が変化する部位(中節)の主軸を取得して傾きを監視し、指が曲がったときに変化する中節の角度の大きさθを、形態変化量として取得してもよい。あるいは、図19に示すとおり、形態監視部23は、指先(指示体基準点42)のフレームにおけるY座標を監視し、指が曲がったときに変化する指示体基準点42のY座標について、Y座標差分により得られる移動距離dを、形態変化量として取得してもよい。
あるいは、例えば、形態監視部23は、ジェスチャ入力のために移動した指示体における、二指間の角度θを、形態変化量として取得してもよい。図20の(a)は、ジェスチャ入力を完了した時点の指示体の様子を示す図である。二指とは、ここでは、一例として親指と人差し指である。形態監視部23は、それぞれの指の主軸を取得し、これらの主軸がなす角度を求める。ジェスチャ入力を完了した時点では、角度θ(図20の(a)では不図示)は小さい。図20の(b)および(c)は、処理実行量指定動作が行われているある時点の指示体の様子を示す図である。二指間の角度θは、図20の(a)と比較して大きくなっている。実行量決定部24は、二指間の角度が大きいほど、処理実行量が大きくなるという相関関係の情報に従って処理実行量を決定する。
あるいは、形態監視部23は、フレーム内において、ジェスチャ入力のために移動した指示体とは別の第2の指示体を特定して、第2の指示体の形態変化量を監視してもよい。より具体的には、図21に示すとおり、形態監視部23は、ユーザの首のかしげ具合を監視対象としてもよい。形態監視部23は、ユーザの顏を含む指示体包含領域73を特定する。そして、形態監視部23は、鼻筋などに基づいて顏の主軸を取得し、顏の傾きの変化量θ1を形態変化量として取得してもよい。あるいは、形態監視部23は、ユーザの腕の曲げ具合を監視対象としてもよい。形態監視部23は、腕を含む指示体包含領域74を特定する。そして、形態監視部23は、ユーザの上腕部と前腕部との主軸を取得し、これらの主軸がなす角度θ2を、形態変化量として取得してもよい。
〔1-13:応用例〕
上述の実施形態では、図10および図11に示すとおり、処理実行主体である表示装置2としてのデジタルテレビ100に、本発明の一実施形態に従うジェスチャ認識装置1を搭載した例について説明した。本発明の一実施形態に従うジェスチャ認識装置1は、デジタルテレビ100に限らず、他のあらゆる表示装置に搭載することができる。
上述の実施形態では、図10および図11に示すとおり、処理実行主体である表示装置2としてのデジタルテレビ100に、本発明の一実施形態に従うジェスチャ認識装置1を搭載した例について説明した。本発明の一実施形態に従うジェスチャ認識装置1は、デジタルテレビ100に限らず、他のあらゆる表示装置に搭載することができる。
例えば、図22に示すとおり、本発明の一実施形態に従うジェスチャ認識装置1を、電子書籍リーダ200に搭載することができる。電子書籍リーダ200のオブジェクト処理部25は、電子書籍の各ページのうち、フォーカスされたページを表示部13に表示する。例えば、オブジェクト処理部25は、右綴じ左開きのイメージで電子書籍を表示する。電子書籍リーダ200において、ジェスチャ認識装置1は、このページをめくるためのジェスチャを認識する構成である。
ユーザは、次のページを表示するために、現在表示されているページを左から右へとめくるための動作を行う。実施形態1と同様に、ユーザは、撮像部12の前で、指示体を左から右へ動かす(白矢印76)。ジェスチャ認識部22によって「右へ移動」のジェスチャが認識されると、オブジェクト処理部25は、現在のページ(P.15)の次のページ(P.16)にフォーカスを遷してP.16を表示する(白矢印77)。さらに、形態監視部23によって右方向への指の傾きが認識されると(白矢印78)、オブジェクト処理部25は、現在のページ(P.16)から指定された処理実行量(ページ数)分先のページにフォーカスを遷して、その新しいページを表示する。黒矢印は、上述の説明と左右が反対の場合の動きを示している。
このように、ユーザは、何度も同じジェスチャを入力することなく、指示体の形態を変化させる1動作のみで簡単に、一気にたくさんのページを繰ることができる。
あるいは、図23に示すとおり、本発明の一実施形態に従うジェスチャ認識装置1を、スマートフォン300に搭載することができる。
ユーザは、次のページを表示するために、現在表示されているページを右から左へとスライドさせるための動作を行う。実施形態1と同様に、ユーザは、撮像部12の前で、指示体を右から左へ動かす(白矢印79)。ジェスチャ認識部22によって「左へ移動」のジェスチャが認識されると、オブジェクト処理部25は、現在のページ(3/10)の次のページ(4/10)にフォーカスを遷して4/10のページを表示する。例えば、4/10のページをスライドインさせる(白矢印80)。さらに、形態監視部23によって左方向への指の傾きが認識されると(白矢印81)、オブジェクト処理部25は、現在のページ(4/10)から指定された処理実行量(ページ数)分先のページにフォーカスを遷して、その新しいページを表示する。黒矢印は、上述の説明と左右が反対の場合の動きを示している。
このように、ユーザは、何度も同じジェスチャを入力することなく、指示体の形態を変化させる1動作のみで簡単に、一気にたくさんのページを繰ることができる。
あるいは、図24に示すとおり、本発明の一実施形態に従うジェスチャ認識装置1を、タブレットPC400に搭載することができる。
タブレットPC400のオブジェクト処理部25は、オブジェクトとしてアイコン(選択肢)を、メイン項目と、サブ項目とに分けて表示する。オブジェクト処理部25は、メイン項目(図24においてアルファベットで識別されている)を横一列に一覧表示する。そして、フォーカスされているメイン項目に属するサブ項目(図24において数字で識別されている)を縦一列に一覧表示する。さらに、オブジェクト処理部25は、フォーカスされているアイコンにカーソル50を表示する。
ユーザは、まず、所望のメイン項目を選択するために、カーソル50を移動させるための動作を行う。実施形態1と同様に、ユーザは、撮像部12の前で、指示体を左から右へ動かす(白矢印82)。ジェスチャ認識部22によって「右へ移動」のジェスチャが認識されると、オブジェクト処理部25は、現在のアイコン(大項目D)の右隣のアイコン(大項目E)にフォーカスを遷し、カーソル50も右へ移動させる(白矢印83)。さらに、形態監視部23によって右方向への指の傾きが認識されると(白矢印84)、オブジェクト処理部25は、現在のアイコン(大項目E)から指定された処理実行量(アイコン個数)分右に配置されているアイコンにフォーカスを遷して、その新しいアイコンにカーソル50を当てて表示する。黒矢印は、上述の説明と左右が反対の場合の動きを示している。
このように、ユーザは、何度も同じジェスチャを入力することなく、指示体の形態を変化させる1動作のみで簡単に、現在のフォーカス位置から遠くに配置されているアイコンをすばやく選択することができる。
《2.実施形態2》
〔2-1:概要〕
次に、実施形態2として、本発明の一実施形態に従う制御装置としてのジェスチャ認識装置1の実装例について説明する。ジェスチャ認識装置1については、デジタルテレビ100に限られず、任意のデバイス(上述の電子書籍リーダ200やスマートフォン300など)に実装可能である。もちろん、ジェスチャ認識装置1そのものを単一の装置として構成してもよい。但し、説明の便宜上、実施形態1と同様に、実施形態2に従うジェスチャ認識装置1をデジタルテレビ100に実装した場合の構成例について説明する。
〔2-1:概要〕
次に、実施形態2として、本発明の一実施形態に従う制御装置としてのジェスチャ認識装置1の実装例について説明する。ジェスチャ認識装置1については、デジタルテレビ100に限られず、任意のデバイス(上述の電子書籍リーダ200やスマートフォン300など)に実装可能である。もちろん、ジェスチャ認識装置1そのものを単一の装置として構成してもよい。但し、説明の便宜上、実施形態1と同様に、実施形態2に従うジェスチャ認識装置1をデジタルテレビ100に実装した場合の構成例について説明する。
実施形態2においては、ジェスチャ認識装置1から外部の装置へ指示を送出する構成について例示する。また、実施形態2においては、「指示体の形態」として、上述の実施形態1に例示したもの以外について例示する。
図25は、表示装置としてのデジタルテレビに搭載された、本発明の一実施形態に従うジェスチャ認識装置1の要部構成を示すブロック図である。図25に示すジェスチャ認識装置1は、図1に示すジェスチャ認識装置1に比較して、指示送信部26が追加されている。指示送信部26は、ジェスチャ認識部22および実行量決定部24において決定される、実行すべき処理およびその実行量を対象の処理実行主体へ送信する。その他の機能については、図1を参照して説明したので、詳細な説明は繰り返さない。但し、以下に説明するように、認識される「指示体の形態」に応じて処理が実行されることになる。
〔2-2:入力されるジェスチャの例(その1)〕
図26は、本発明の実施形態2に従うジェスチャ認識装置を実装したデジタルテレビ100の応用例を示す模式図である。図26を参照して、デジタルテレビ100は、例えば、家庭のリビングなどに配置され、ユーザが入力したジェスチャに基づいて、実行すべき処理および当該実行すべき処理の処理実行量を決定し、これらを含む指示を対象の装置へ送信する。図26には、処理実行主体の一例として、エアーコンディショナ500およびシーリングライト550が例示されている。
図26は、本発明の実施形態2に従うジェスチャ認識装置を実装したデジタルテレビ100の応用例を示す模式図である。図26を参照して、デジタルテレビ100は、例えば、家庭のリビングなどに配置され、ユーザが入力したジェスチャに基づいて、実行すべき処理および当該実行すべき処理の処理実行量を決定し、これらを含む指示を対象の装置へ送信する。図26には、処理実行主体の一例として、エアーコンディショナ500およびシーリングライト550が例示されている。
例えば、エアーコンディショナ500に対する処理実行主体が実行すべき処理としては、これに限られることはないが、「暖房運転」、「冷房運転」、「ドライ運転」、「自動運転」などの空調動作の開始/停止や、各種設定の変更などを含む。また、実行すべき処理の処理実行量としては、これに限られることはないが、「設定温度」、「風量」、「風向」、「タイマ」などを含む。デジタルテレビ100から送信される指示の具体的な一例としては、「冷房運転」を開始(処理実行主体が実行すべき処理)し、その「設定温度」は「25℃」とする(実行すべき処理の処理実行量)といったものが挙げられる。
また、シーリングライト550に対する処理実行主体が実行すべき処理としては、これに限られることはないが、「明るさ調整(調光)」や「色調整(調色)」などの調整動作を含む。また、実行すべき処理の処理実行量としては、これに限られることはないが、「明るさの度合い(0~100%)」、「演色性(暖色系~寒色系)」、「点灯時間」などを含む。デジタルテレビ100から送信される指示の具体的な一例としては、「減光」し、その「減光度合い」は「10%」とする(実行すべき処理の処理実行量)といったものが挙げられる。
図27は、本発明の実施形態2に従うジェスチャ認識装置1で認識可能なジェスチャの一例を示す図である。図27(a)を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザがジェスチャ入力開始の合図となるジェスチャ(例えば、ユーザが指または手を細かく振る動き)を行うと、ジェスチャ認識装置1の開始認識部20(図25)は、上述の実施形態1と同様に、入力される動画像のフレーム間を比較することで、このジェスチャ入力開始の合図が入力されたと認識する。それ以降、ジェスチャ入力終了と認識されるまで、その指示体であるユーザの手指によってなされるジェスチャ入力の監視が継続される。より具体的には、ジェスチャ入力開始の直後では、指示体検出部21がジェスチャ入力を行う指示体の検出を継続している。その状態において、例えば、ユーザが予め定められた指示体の形態(図27(a)の例では、人差し指および中指を立てる、いわゆるピースサイン)を形成すると、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャ(指示体の形態:図27(a)に示す開始形態)に対応する処理を特定する。
続いて、ユーザは、ジェスチャ入力を継続した状態で、その手を上に移動させたとする。形態監視部23は、このユーザによるジェスチャ(指示体の形態)を監視しており、このジェスチャの移動(すなわち、指示体の形態の移動)に応答して、先に特定された処理の処理実行量を決定する。このように、形態監視部23は、当該ジェスチャ(指示体の形態)の移動の軌跡に基づいて、対応する処理実行量を決定する。
なお、実施形態2においては、指示体の形態の移動の軌跡に基づいて処理実行量を決定するので、指示体の移動が完了したことを認識する必要がある。そのため、ユーザは、ジェスチャ入力終了の合図となるジェスチャ(例えば、ユーザが指または手を細かく振る動き)を行うことで、指示体の形態の移動の完了、つまりジェスチャの入力終了を指示できる。
但し、ジェスチャの入力終了の合図となるジェスチャについては、明示的に入力しなくともよい。例えば、最終形態のジェスチャとは異なるジェスチャを行う(あるいは、指示体を撮像部の視野外に移動させる)ことで、ジェスチャの入力終了を暗示的に指示できる。
図27(a)において、形態監視部23は、典型的には、ジェスチャ(指示体の形態)の移動の軌跡として、開始形態のジェスチャと最終形態のジェスチャとの間の移動量または移動速度などに応じて、対応する処理実行量を決定する。
例えば、図27(a)に示す例では、開始形態のジェスチャが運転中のエアーコンディショナ500に対する設定温度の変更を意味しており、開始形態のジェスチャに対して、終了形態のジェスチャが上方向にあれば、設定温度の上昇を意味しているとする。このとき、開始形態から終了形態までの移動量に比例して、設定温度の上昇幅を決定できる。例えば、ユーザがその手を開始形態から上側に少しだけ移動させた場合には、現在の設定温度に対して「+1℃」が処理実行量として決定される。一方、ユーザがその手を開始形態から上側により多く移動させた場合には、現在の設定温度に対して「+3℃」が処理実行量として決定される。
なお、図27(b)に示すように、開始形態のジェスチャに対して、終了形態のジェスチャが下方向にあれば、設定温度の下降を意味するとしてもよい。このときも同様に、開始形態から終了形態までの移動量に比例して、設定温度の下降幅を決定できる。例えば、ユーザがその手を開始形態から下側に少しだけ移動させた場合には、現在の設定温度に対して「-1℃」が処理実行量として決定される。一方、ユーザがその手を開始形態から下側により多く移動させた場合には、現在の設定温度に対して「-3℃」が処理実行量として決定される。
上述のような処理によって決定された、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量が指示として送信される先(この例では、エアーコンディショナ500)についてもジェスチャ認識部22によって決定される。すなわち、ジェスチャ規則記憶部30に記憶されているジェスチャ規則は、各ジェスチャに対応する処理に加えて、指示体の軌跡に対応する処理実行量と、各処理を実行する処理実行主体を特定するための情報(処理実行主体となる装置の属性を示すメタデータ)とを含む。メタデータは、装置ID番号、装置の種類を示す符号、装置の設置位置、装置にアクセスするためのIP(Internet Protocol)アドレスなどがある)などを含む。ジェスチャ認識部22は、処理の特定にあわせて、送信先も特定する。
図28は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則のデータ構造の一例を示す図である。図28には、ジェスチャ規則を表現するデータテーブル30aを示す。図28に示すデータテーブル30aにおいて、処理実行量は、例えば、撮像範囲(フレーム)を基準とした移動量に基づいて決定される。より具体的には、撮像範囲内で5%移動するごとに設定温度の変更量が「+1℃」ずつ増加するように設定されている。
このような、指示体の形態および当該形態の移動の軌跡に基づいて、ジェスチャ認識装置1の外部にある装置(処理実行主体)に対して、実行すべき処理および当該実行すべき処理の処理実行量を指示できるので、ユーザは、装置別に複数のリモコンなどを用いることなく、デジタルテレビ100に対してジェスチャ入力を行うことで、複数の装置をそれぞれ制御できる。
〔2-3:入力されるジェスチャの例(その2)〕
上述の図27では、ユーザがジェスチャ入力開始の合図を明示的に行うことで、ジェスチャ入力の認識が開始される例を示した。但し、ジェスチャ入力開始の合図を暗示的に行うような構成を採用してもよい。
上述の図27では、ユーザがジェスチャ入力開始の合図を明示的に行うことで、ジェスチャ入力の認識が開始される例を示した。但し、ジェスチャ入力開始の合図を暗示的に行うような構成を採用してもよい。
図29は、本発明の実施形態2に従うジェスチャ認識装置1で認識可能なジェスチャの別の一例を示す図である。図29を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザが予め定められた指示体の形態(図27(a)の例では、親指および人差し指を立てるサイン)を形成すると、ジェスチャ認識装置1の開始認識部20(図25)は、入力される動画像のフレーム間を比較することで、入力されたジェスチャを認識する。さらに、開始認識部20(図25)は、ジェスチャ認識部22と連係して、ジェスチャ規則記憶部30のジェスチャ規則において、入力されたジェスチャが定義されていることを認識すると、ジェスチャ入力開始の合図が入力されたと判断する。同時に、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャ(指示体の形態:図29に示す開始形態)に対応する処理を特定する。
続いて、ユーザは、ジェスチャ入力を継続した状態で、その手を上に移動させたとする。形態監視部23は、このユーザによるジェスチャ(指示体の形態)を監視しており、このジェスチャの移動(すなわち、指示体の移動)に応答して、先に特定された処理の処理実行量を決定する。すなわち、形態監視部23は、当該ジェスチャ(指示体の形態)の移動の軌跡に基づいて、対応する処理実行量を決定する。
その後、ユーザは、ジェスチャ入力終了の合図となるジェスチャ(例えば、ユーザが人差し指と親指とでマルをつくるOKサイン)を行うことで、指示体の移動の完了、つまりジェスチャの入力終了を指示できる。
図29に示すジェスチャに対して、決定される処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量については、図27と同様である。
図29に示すようなジェスチャ入力開始を暗示的に指示するような構成を採用することで、ユーザは、より簡素化された手順で、目的の指示を行うことができる。
〔2-4:入力されるジェスチャの例(その3)〕
上述の図27および図29においては、ユーザが片手でジェスチャを入力する例について例示した。これに代えて、ユーザが両手でジェスチャを入力するようにしてもよい。両手でジェスチャを入力することで、より自由度の高い指示を生成することができる。
上述の図27および図29においては、ユーザが片手でジェスチャを入力する例について例示した。これに代えて、ユーザが両手でジェスチャを入力するようにしてもよい。両手でジェスチャを入力することで、より自由度の高い指示を生成することができる。
ジェスチャ認識装置1は、ユーザが両手を用いて入力したジェスチャに対して、上述と同様の方法に従って、当該入力されたジェスチャ全体に基づいて、実行すべき処理および当該実行すべき処理の処理実行量を決定してもよい。この場合の処理は、上述したものと実質的に同様である。
これに加えて、実行すべき処理および当該実行すべき処理の処理実行量の決定に用いる特徴量を互いに異ならせてもよい。すなわち、取得された形態および当該形態の移動の軌跡に関する少なくとも一部の情報に基づいて、処理実行主体が実行すべき処理を決定するとともに、取得された形態および当該形態の移動の軌跡に関する、当該少なくとも一部とは異なる情報に基づいて、実行すべき処理の処理実行量を決定するようにしてもよい。例えば、ユーザが両手を用いて入力したジェスチャの全体に基づいて、実行すべき処理を決定するとともに、入力したジェスチャの一部の移動の軌跡に基づいて、当該実行すべき処理の処理実行量を決定してもよい。
より具体的には、実施形態2に従うジェスチャ認識装置1の指示生成手段は、指示体としてのユーザ(操作者)の2つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の2つの手の形の組み合わせに基づいて、処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の一方の代表点の軌跡に基づいて、当該実行すべき処理の処理実行量を決定する。
以下、具体的なジェスチャ入力の例とともに、これらの処理の詳細について説明する。
図30は、本発明の実施形態2に従うジェスチャ認識装置1で認識可能なジェスチャの別の一例を示す図である。
図30は、本発明の実施形態2に従うジェスチャ認識装置1で認識可能なジェスチャの別の一例を示す図である。
図30(a)を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザが予め定められた指示体の形態を形成(ジェスチャを入力)すると、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャ(指示体の形態:図30(a)に示す開始形態)に対応する処理を特定する。このとき、入力されたジェスチャの全体に基づいて、対応する処理が特定される。
その後、形態監視部23は、指示体の形態の変化を監視するとともに、その変化量を特定する。図30(a)の例では、形態監視部23は、紙面左側の手の指先(指示体基準点68)の動きを追尾すべき対象として決定し、指示体基準点68の移動の軌跡を監視する。なお、追尾すべき対象は、ジェスチャ規則記憶部30のジェスチャ規則において定義されているとする。そして、形態監視部23がユーザによるジェスチャが最終形態であると認識すると、実行量決定部24は、指示体基準点68の移動の軌跡に基づいて、実行すべき処理の処理実行量を決定する。
例えば、図30(a)の開始形態のジェスチャが運転中のエアーコンディショナ500に対する設定温度の変更を意味しており、開始形態から終了形態に至るまでに、指示体基準点68が下方向に移動していれば、設定温度の下降を意味しているとする。このとき、開始形態から終了形態までの指示体基準点68の移動量に比例して、設定温度の下降幅が決定される。
なお、図30(b)に示すように、開始形態から終了形態に至るまでに、指示体基準点68が上方向に移動していれば、設定温度の上昇を意味するとしてもよい。このときも同様に、開始形態から終了形態までの指示体基準点68の移動量に比例して、設定温度の下降幅が決定されるとする。
このように、ユーザは両手を用いてジェスチャを入力することができ、これによって、より自由度の高い指示を生成することができる。
〔2-5:入力されるジェスチャの例(その4)〕
代替の構成として、ユーザが両手を用いて入力したジェスチャの一部の移動の軌跡に基づいて、実行すべき処理を決定するとともに、入力したジェスチャの全体に基づいて、当該実行すべき処理の処理実行量を決定してもよい。
代替の構成として、ユーザが両手を用いて入力したジェスチャの一部の移動の軌跡に基づいて、実行すべき処理を決定するとともに、入力したジェスチャの全体に基づいて、当該実行すべき処理の処理実行量を決定してもよい。
より具体的には、実施形態2に従うジェスチャ認識装置1の指示生成手段は、指示生成手段は、指示体としてのユーザ(操作者)の2つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の2つの手の一方の代表点の軌跡に基づいて、処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の形の組み合わせに基づいて、当該実行すべき処理の処理実行量を決定してもよい。
再度図30を参照して、具体的なジェスチャ入力の例とともに、これらの処理の詳細について説明する。
図30(a)を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザが開始形態として示される指示体の形態を形成すると、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャに対応し得る複数の処理候補を抽出する。この例では、指示体の形態の移動の軌跡に基づいて、処理実行主体が実行すべき処理が特定されるので、この時点では、候補が抽出されるにとどまる。
この時点において、実行量決定部24は、紙面左側の手の指先(指示体基準点68)と紙面右側の手の指先(指示体基準点69)との間の距離(間隔)に基づいて、実行すべき処理の処理実行量を決定する。
その後、形態監視部23は、指示体の形態の変化を監視するとともに、その変化量を特定する。図30(a)の例では、形態監視部23は、紙面左側の手の指先(指示体基準点68)の動きを追尾すべき対象として決定し、指示体基準点68の移動の軌跡を監視する。そして、形態監視部23がユーザによるジェスチャが最終形態であると認識すると、ジェスチャ認識部22は、指示体基準点68の移動の軌跡に基づいて、対応する処理を特定する。
例えば、図30(a)の開始形態から終了形態までの移動の軌跡(ジェスチャ)が運転中のエアーコンディショナ500に対する設定温度の下降を意味している場合には、開始形態における、紙面左側の手の指先(指示体基準点68)と紙面右側の手の指先(指示体基準点69)との間の距離(間隔)に比例して、設定温度の下降幅が決定される。
なお、図30(b)に示すように、紙面左側の手の指先(指示体基準点68)が上方向に移動する場合には、その開始形態から終了形態までの移動の軌跡(ジェスチャ)が運転中のエアーコンディショナ500に対する設定温度の上昇を意味するとしてもよく、この場合には、開始形態における、紙面左側の手の指先(指示体基準点68)と紙面右側の手の指先(指示体基準点69)との間の距離(間隔)に比例して、設定温度の上昇幅が決定される。
このように、ユーザは両手を用いてジェスチャを入力することができ、これによって、より自由度の高い指示を生成することができる。
〔2-6:入力されるジェスチャの例(その5)〕
上述のジェスチャの例においては、指示体の移動の軌跡として、移動量や移動速度を典型例として説明したが、移動の軌跡そのものを入力としてもよい。
上述のジェスチャの例においては、指示体の移動の軌跡として、移動量や移動速度を典型例として説明したが、移動の軌跡そのものを入力としてもよい。
図31は、本発明の実施形態2に従うジェスチャ認識装置1で認識可能なジェスチャの別の一例を示す図である。図31を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザが予め定められた指示体の形態(図31(a)の例では、人差し指を突き出すサイン)を形成すると、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャに対応する処理を特定する。
続いて、ユーザは、ジェスチャ入力を継続した状態で、数字の「3」に相当する軌跡を描いたとする。形態監視部23は、このユーザによるジェスチャ(指示体の形態)を監視しており、実行量決定部24は、このユーザが描いた軌跡に応答して先に特定された処理の処理実行量を決定する。より具体的には、実行量決定部24は、ユーザが描いた軌跡が数字の「3」に類似していると判断すると、処理実行量として「3」を出力する。
例えば、図31の開始形態のジェスチャが運転中のエアーコンディショナ500に対する風量の変更を意味している場合には、開始形態から終了形態に至るまでに、数字の「3」に類似した軌跡をユーザが描くことで、風量がレベル「3」に設定される。
なお、移動の軌跡そのものに基づいて、処理実行主体が実行すべき処理を特定するようにしてもよい。
このように、ユーザが描く軌跡そのものに用いて、処理実行主体が実行すべき処理および/または当該実行すべき処理の処理実行量を決定することで、ユーザが入力できるジェスチャの自由度を高めることができるとともに、移動量などに基づく場合に比較して、ユーザの意図どおりの指示を発することもできる。
〔2-7:デジタルテレビにおけるモニタ機能〕
上述したようなユーザによるジェスチャの入力時において、デジタルテレビ100では、通常のテレビジョン放送で受信した映像などが流されている場合も多いと想定される。すなわち、デジタルテレビ100は、何らかのソースからの映像を表示しつつ、ユーザからのジェスチャ入力を待つ。このような場合において、何らかのジェスチャ入力を行ったユーザから見れば、入力したジェスチャがジェスチャ認識装置1においてどのように認識されているのかをリアルタイムで知りたいというニーズが生じ得る。そのため、ジェスチャ認識装置1における処理の状態をデジタルテレビ100などの表示部においてリアルタイムに表示することが好ましい。
上述したようなユーザによるジェスチャの入力時において、デジタルテレビ100では、通常のテレビジョン放送で受信した映像などが流されている場合も多いと想定される。すなわち、デジタルテレビ100は、何らかのソースからの映像を表示しつつ、ユーザからのジェスチャ入力を待つ。このような場合において、何らかのジェスチャ入力を行ったユーザから見れば、入力したジェスチャがジェスチャ認識装置1においてどのように認識されているのかをリアルタイムで知りたいというニーズが生じ得る。そのため、ジェスチャ認識装置1における処理の状態をデジタルテレビ100などの表示部においてリアルタイムに表示することが好ましい。
図32は、本発明の実施形態2に従うジェスチャ認識装置1の使用形態の一例を示す図である。図32に示すように、ジェスチャ認識装置1が実装されたデジタルテレビ100は、ジェスチャ認識装置1における処理の状態をOSD(On-screen display)などを用いて、ユーザへ(好ましくは、リアルタイムで)通知する。
より具体的には、図32(a)には、入力されたジェスチャが開始形態であると判定され、その判定された開始形態のジェスチャがエアーコンディショナ500にて実行すべき処理である(すなわち、指示の送信先がエアーコンディショナ500である)と特定された場合に表示されるOSD110の一例を示す。OSD110においては、「エアコン指示認識中・・・」というメッセージが表示されている。
その後、実行すべき処理の処理実行量が決定されると、デジタルテレビ100に表示されるOSD110のメッセージは、図32(b)に示すように「設定温度変更指示送信中」へ切り替わる。
OSD110などを用いてこのようなメッセージを表示することで、ユーザは、自身が行ったジェスチャ入力が正しく認識されているのかを容易に判断することができる。なお、上述の説明においては、デジタルテレビ100の画面にメッセージを表示することで、ジェスチャ認識装置1における処理の状態をユーザに対して通知する構成を例示したが、これに限られず、例えば、音声や予め定められたインジケータを用いて、ユーザに対して通知を行ってもよい。さらに、メッセージではなく、デジタルテレビ100の画面上に予め定められたマークや模様などを表示して、ユーザに対して通知を行ってもよい。
〔2-8:他の装置への適用〕
上述の実施形態2においては、ジェスチャ認識装置1がデジタルテレビ100に実装された構成例を説明したが、これに限らず、任意の装置として実現できる。すなわち、ジェスチャ認識装置1そのものを独立した装置として実装してもよいし、タブレットPC(Personal Computer)、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、PDA(Personal Digital Assistant)、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどに実装してもよい。
上述の実施形態2においては、ジェスチャ認識装置1がデジタルテレビ100に実装された構成例を説明したが、これに限らず、任意の装置として実現できる。すなわち、ジェスチャ認識装置1そのものを独立した装置として実装してもよいし、タブレットPC(Personal Computer)、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、PDA(Personal Digital Assistant)、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどに実装してもよい。
《3.実施形態3》
〔3-1:概要〕
次に、実施形態3として、処理実行主体が安全スイッチである場合の実装例について説明する。安全スイッチは、自動化されたロボットなどによる作業者のケガなどを防止するために、作業者が立ち入ることができる範囲などを制限する装置である。具体的には、予め定められた範囲に作業者が立ち入ったときに、ロボットなどの動作を停止させるための安全機構である。
〔3-1:概要〕
次に、実施形態3として、処理実行主体が安全スイッチである場合の実装例について説明する。安全スイッチは、自動化されたロボットなどによる作業者のケガなどを防止するために、作業者が立ち入ることができる範囲などを制限する装置である。具体的には、予め定められた範囲に作業者が立ち入ったときに、ロボットなどの動作を停止させるための安全機構である。
本発明の実施形態3に従う制御装置は、一例として、このようなロボットに近接した位置で作業を行う作業者やロボット自体を指示体として認識する。制御装置は、指示体の移動の軌跡に関する情報を取得し、それに基づいて、安全スイッチの動作範囲などを適正化する。これによって、不適切な警告の発生による作業中断などを防ぎ、安全を確保しつつ、作業効率を高めることができる。
〔3-2:システム構成〕
図33は、本発明の実施形態3に従う安全システム600の概略構成を示す図である。図33を参照して、安全システム600は、互いにネットワーク604を介して接続された、制御装置602と、安全監視装置608とを含む。制御装置602は、ロボット610にアクセスする経路の範囲を撮像するための撮像部630からの動画像などを連続的に監視することで、作業者がロボット610に接近した場合に、安全動作を行う。より具体的には、制御装置602は、作業者が危険エリアに侵入したと認識すると、安全監視装置608に対して動作を停止させるための指示を送信する。制御装置602からの動作を停止させるための指示に応答して、安全監視装置608は、ロボット610のコントローラ612に対して停止指令を与え、ロボット610を停止させる。
図33は、本発明の実施形態3に従う安全システム600の概略構成を示す図である。図33を参照して、安全システム600は、互いにネットワーク604を介して接続された、制御装置602と、安全監視装置608とを含む。制御装置602は、ロボット610にアクセスする経路の範囲を撮像するための撮像部630からの動画像などを連続的に監視することで、作業者がロボット610に接近した場合に、安全動作を行う。より具体的には、制御装置602は、作業者が危険エリアに侵入したと認識すると、安全監視装置608に対して動作を停止させるための指示を送信する。制御装置602からの動作を停止させるための指示に応答して、安全監視装置608は、ロボット610のコントローラ612に対して停止指令を与え、ロボット610を停止させる。
また、制御装置602は、認識された作業者と設定されている危険エリア/安全エリアとの関係を評価し、作業者が危険エリアに入っているまたは入りそうであることを検知すると、警報通知装置640に対して警報出力を与える。この警報出力に応答して、警報通知装置640は、光や音などで作業者に対して、危険を通知する。
実施形態3においては、指示体として作業者および/またはロボット610を想定しており、これらの指示体の形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体である侵入監視部に実行させる処理の内容(例えば、ロボット610の強制停止や警報通知装置640での警報動作といった侵入検出時の出力操作の種別など)を特定するとともに、その処理を実行すべき量(例えば、安全エリアの範囲など)を決定する。これにより、安全を確保しつつ、作業効率を高めることができる。
〔3-3:指示体〕
次に、実施形態3において対象となる指示体の一例について説明する。図34および図35は、本発明の実施形態4に従う安全システム600における指示体の一例を示す図である。図34には、作業者が指示体とされる例を示し、図35には、ロボットが指示体とされる例を示す。
次に、実施形態3において対象となる指示体の一例について説明する。図34および図35は、本発明の実施形態4に従う安全システム600における指示体の一例を示す図である。図34には、作業者が指示体とされる例を示し、図35には、ロボットが指示体とされる例を示す。
図34に示すように、作業者を指示体とする場合には、ヘルメットを装着しているか否かや、身に付けている道具や服装などをその態様として認識する。その上で、作業者が動く範囲や動く速度などを移動の軌跡として認識する。例えば、作業者の態様(典型的には、装着品や服装など)に基づいて、ロボットの扱いに慣れているか否かなどを推定でき、これによって、処理実行主体が実行すべき処理として、警報出力や停止の要否などを決定する。より具体的には、装置の操作をその業務としている作業者に対しては、ロボットの挙動についての知識が少ないと考えられるので、危険エリアへの侵入の検出に応答してロボットを停止することで安全を確保する。一方で、ロボットのメンテナンスをその業務としている作業者に対しては、ロボットの挙動などについてより多くの知識を持っていると考えられるので、必要最小限の警報出力に留めておき、メンテナンス作業をより効率的に行う。このような作業者の業務の違いについては、例えば、作業者が工具類を腰からぶら下げているか否かといった作業者の形態に基づいて判断することができる。
その上で、本実施形態においては、作業者による該形態の移動の軌跡から、処理実行量として、安全エリアの大きさを決定する。例えば、図34(a)に示すような座った状態で作業を行っている作業者は、移動量が少なく、安全エリアを拡大する必要性は低いと考えられる。これに対して、図34(a)に示すような、作業者の動きが大きい場合や速い場合には、安全エリアを拡大する必要性が高いと考えられる。
そこで、実施形態4においては、移動の軌跡として、作業者の軌跡の情報に基づいて、安全エリアの大きさを決定する。この作業者の軌跡の情報としては、各作業者の移動量や移動速度などを含む。
一方、図35に示すように、ロボットを指示体とする場合には、装置の大きさや外観などをその態様として認識する。その上で、ロボットが動く範囲や動く速度などを移動の軌跡として認識する。例えば、ロボットの外観などに基づいて、ロボットの動作パターンや可動部分などを推定でき、これによって、処理実行主体が実行すべき処理として、警報出力や停止の要否などを決定する。
その上で、本実施形態においては、ロボットによる該形態の移動の軌跡から、処理実行量として、安全エリアの大きさを決定する。例えば、図35(a)に示すような、一部の部分のみが可動するようなロボットについては、可動範囲が狭く、安全エリアを拡大する必要性は低いと考えられる。これに対して、図35(a)に示すような、ロボット全体がスライドするような場合には、安全エリアを拡大する必要性が高いと考えられる。
そこで、実施形態4においては、移動の軌跡として、ロボットの軌跡の情報に基づいて、安全エリアの大きさを決定する。このロボットの軌跡の情報としては、各作業者の移動量や移動速度などを含む。
〔3-4:機能構成〕
次に、実施形態3に従う制御装置602の機能構成について説明する。図36は、本発明の実施形態4に従う安全システムの制御装置602の機能構成を示すブロック図である。図36を参照して、制御装置602は、主たる構成要素として、画像取得部650と、指示体検出部652と、軌跡監視部654と、安全エリア設定部656と、安全エリアDB658と、侵入監視部660と、警報部662とを含む。
次に、実施形態3に従う制御装置602の機能構成について説明する。図36は、本発明の実施形態4に従う安全システムの制御装置602の機能構成を示すブロック図である。図36を参照して、制御装置602は、主たる構成要素として、画像取得部650と、指示体検出部652と、軌跡監視部654と、安全エリア設定部656と、安全エリアDB658と、侵入監視部660と、警報部662とを含む。
画像取得部650は、撮像部630から動画像などを取得する。
指示体検出部652は、画像取得部650によって取得された動画像に含まれる指示体を検出する。実施形態4においては、図33に示すように、作業者が立ち入る可能性のあるエリアに対して、測定エリアおよび侵入付加エリアが設定される。これらのエリアは、安全エリアおよび危険エリアの変更に応じて動的に変更されてもよい。指示体検出部652は、測定エリアに存在する物体のうち指示体となるものを特定する。この特定された指示体の情報は軌跡監視部654へ出力される。
指示体検出部652は、画像取得部650によって取得された動画像に含まれる指示体を検出する。実施形態4においては、図33に示すように、作業者が立ち入る可能性のあるエリアに対して、測定エリアおよび侵入付加エリアが設定される。これらのエリアは、安全エリアおよび危険エリアの変更に応じて動的に変更されてもよい。指示体検出部652は、測定エリアに存在する物体のうち指示体となるものを特定する。この特定された指示体の情報は軌跡監視部654へ出力される。
軌跡監視部654は、指示体検出部652からの情報に基づいて、測定エリア内の指示体を連続的に監視するとともに、その軌跡情報を算出する。軌跡監視部654が軌跡情報を算出するエリアは、測定エリアに加えて、侵入付加エリアも含む。すなわち、軌跡監視部654は、指示体がロボット610に近づくような動きをした場合もその軌跡を監視できるように、指示体検出部652に比較してより広いエリアにおける指示体の動きを監視する、
安全エリア設定部656は、指示体の形態の情報および軌跡監視部654からの指示体の軌跡の情報に基づいて、指示体が侵入付加エリアへ侵入する可能性を推定し、侵入監視部660および警報部662が実行すべき処理、ならびに、当該実行すべき処理の処理実行量を決定する。すなわち、安全エリア設定部656は、決定した実行すべき処理(例えば、侵入検出時の出力操作の種別など)を侵入監視部660および/または警報部662へ出力するとともに、決定した処理実行量(例えば、安全エリアの範囲)を侵入監視部660へ出力する。
安全エリア設定部656は、指示体の形態の情報および軌跡監視部654からの指示体の軌跡の情報に基づいて、指示体が侵入付加エリアへ侵入する可能性を推定し、侵入監視部660および警報部662が実行すべき処理、ならびに、当該実行すべき処理の処理実行量を決定する。すなわち、安全エリア設定部656は、決定した実行すべき処理(例えば、侵入検出時の出力操作の種別など)を侵入監視部660および/または警報部662へ出力するとともに、決定した処理実行量(例えば、安全エリアの範囲)を侵入監視部660へ出力する。
安全エリアDB658は、指示体検出部652によって検出される指示体の形態および軌跡監視部654によって算出される軌跡情報の組み合わせの各々に関連付けて、設定されるべき安全エリアの大きさを示す情報が定義されている。安全エリア設定部656は、この安全エリアDB658に定義された情報を参照して、安全エリアの大きさを設定する。
侵入監視部660は、安全エリア設定部656により設定された危険エリアに指示体が侵入した場合または侵入しようとした場合に、予め指定された出力動作を実行する。警報部662は、侵入監視部660の出力動作に応答して、警報通知装置640などに対して、必要な警報出力を行う。
〔3-5:利点〕
上述のような構成を採用することで、安全エリアの大きさなどを指示体の態様および当該対象の移動の規制に基づいて、動的に最適化することができる。これによって、不適切な警告の発生による作業中断などを防ぎ、安全を確保しつつ、作業効率を高めることができる。
上述のような構成を採用することで、安全エリアの大きさなどを指示体の態様および当該対象の移動の規制に基づいて、動的に最適化することができる。これによって、不適切な警告の発生による作業中断などを防ぎ、安全を確保しつつ、作業効率を高めることができる。
《4.その他の実施形態:ソフトウェアによる実現例》
ジェスチャ認識装置1の各ブロック、特に、開始認識部20、指示体検出部21、ジェスチャ認識部22、形態監視部23、および、実行量決定部24は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。上述の制御装置602の各ブロックについても同様である。
ジェスチャ認識装置1の各ブロック、特に、開始認識部20、指示体検出部21、ジェスチャ認識部22、形態監視部23、および、実行量決定部24は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。上述の制御装置602の各ブロックについても同様である。
すなわち、ジェスチャ認識装置1は、各機能を実現する制御プログラムの命令を実行するCPU(Central Processing Unit)、上記プログラムを格納したROM(Read Only Memory)、上記プログラムを展開するRAM(Random Access Memory)、上記プログラムおよび各種データを格納したメモリ等の記憶装置(記録媒体)などを備えている。より具体的には、ジェスチャ認識装置1は、以下に示すようなコンピュータによって実現することもできる。
図37は、本発明の実施形態に従うジェスチャ認識装置1を実現するためのコンピュータ400の要部構成を示すブロック図である。図37を参照して、コンピュータ400は、本実施形態に係る制御プログラムを含む各種プログラムを実行するCPU406と、CPU406で実行される制御プログラムなどを不揮発的に格納するハードディスク(HDD)402と、CPU406での各種プログラムの実行に必要なデータを格納するための作業領域を提供するメモリRAM404と、記録媒体の典型例であるCD-ROM410からその格納された制御プログラムなどを読み出すための光学ディスクドライブ408とを含む。コンピュータ400は、さらに、撮像部12から動画などを取得するための撮像部インターフェイス412と、キーボードやマウスなどの入力部414と、各種情報を表示するための表示部416と、外部装置との間でデータを遣り取りするためのネットワークインターフェイス418とを含む。
本発明の目的は、上述した機能を実現するソフトウェアであるジェスチャ認識装置1の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読取可能に記録した記録媒体を、上記ジェスチャ認識装置1に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フレキシブルディスク/ハードディスク等の磁気ディスクやCD-ROM/MO/MD/DVD/CD-R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、ジェスチャ認識装置1を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR(High Data Rate)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。
本発明は上述した各実施形態に限定されるものではなく、特許請求の範囲に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本実施形態に係る制御装置は、指示体を撮像するための撮像部を備えた各種電子機器、とりわけ、表示装置に好適に用いられる。本発明のジェスチャ認識装置は、これに限定されないが、処理実行主体である表示装置として、デジタルテレビ、タブレットPC(Personal Computer)、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、PDA(Personal Digital Assistant)、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどに搭載することができる。
1 ジェスチャ認識装置、2 表示装置(処理実行主体)、3 オブジェクト(選択肢)、10 制御部、11 記憶部、12 撮像部、13 表示部、13a 表示画面、13b 表示画面、20 開始認識部(開始認識手段)、21 指示体検出部(指示体検出手段)、22 ジェスチャ認識部(認識手段)、23 形態監視部(監視手段)、24 実行量決定部(決定手段)、25 オブジェクト処理部(処理実行主体)、30 ジェスチャ規則記憶部、31 形態相関記憶部、32 オブジェクト記憶部、40 指示体包含領域、41 指示体領域、41’ 突起部分、42 指示体基準点、43 移動方向、44 移動方向、45 注目領域、46 重心、47 直線、48 主軸、49 基準線、49’ 基準線、50 カーソル、51’~55’ サムネイル画像(オブジェクト/選択肢)、52~54 静止画、70 基準線、71 進行方向、72 進行方向、73 指示体包含領域、74 指示体包含領域、100 デジタルテレビ(電子機器/表示装置)、200 電子書籍リーダ(電子機器/表示装置)、300 スマートフォン(電子機器/表示装置)、400 コンピュータ、402 ハードディスク、404 RAM、406 CPU、408 光学ディスクドライブ、410 CD-ROM、412 撮像部インターフェイス、414 入力部、415 表示部、418 ネットワークインターフェイス、500 エアーコンディショナ、550 シーリングライト、600 安全システム、602 制御装置、604 ネットワーク、608 安全監視装置、610 ロボット、612 コントローラ630 撮像部、650 画像取得部、652 指示体検出部、654 軌跡監視部、656 安全エリア設定部、658 安全エリアDB、660 侵入監視部、662 警報部。
Claims (23)
- 処理実行主体に対する指示を生成する制御装置であって、
指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、
前記センシングデータを処理することで、前記指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、
前記認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、前記処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを備える、制御装置。 - 前記指示生成手段は、前記取得された形態および当該形態の移動の軌跡に関する少なくとも一部の情報に基づいて、前記処理実行主体が実行すべき処理を決定するとともに、前記取得された形態および当該形態の移動の軌跡に関する、当該少なくとも一部とは異なる情報に基づいて、前記実行すべき処理の処理実行量を決定する、請求項1に記載の制御装置。
- 前記指示生成手段は、
前記センシングデータとして撮像された前記指示体の移動の軌跡に基づいてジェスチャを認識し、認識したジェスチャに対応する処理を、前記処理実行主体が実行すべき処理として特定するジェスチャ認識手段と、
撮像された前記指示体の形態の変化に基づいて前記処理実行量を決定する実行量決定手段とを含む、請求項2に記載の制御装置。 - 前記指示生成手段は、前記指示体を撮像して得られた動画の各フレームから、前記指示体の形態の変化量を特定する監視手段をさらに含み、
前記実行量決定手段は、前記指示体の形態の変化量に比例して、前記処理実行量を決定する、請求項3に記載の制御装置。 - 前記監視手段は、予め定められた前記指示体の基準の形態と、撮像された前記指示体の最新の形態とを比較することにより、前記変化量を特定する、請求項4に記載の制御装置。
- 前記監視手段は、前記認識手段によってジェスチャが認識された時点の前記指示体の形態と、撮像された前記指示体の最新の形態とを比較することにより、前記変化量を特定する、請求項4に記載の制御装置。
- 前記実行量決定手段は、前記処理実行主体の処理実行量の最大値に対応する、予め定められた基準の最終形態における最大変化量に対して、前記監視手段によって特定された最新の形態における変化量が占める割合に基づいて、前記処理実行量を決定する、請求項5または6に記載の制御装置。
- 前記監視手段は、前記指示体の傾きが変化する角度を前記変化量として特定する、請求項4~7のいずれか1項に記載の制御装置。
- 前記監視手段は、前記指示体としての指の傾きの変化量を特定する、請求項8に記載の制御装置。
- 前記実行量決定手段は、前記監視手段によって特定された、前記指示体における最新の形態の変化量が、前記指示体における直前の形態の変化量を下回る場合に、前記処理実行主体による処理の実行の停止を決定する、請求項4~9のいずれか1項に記載の制御装置。
- 前記監視手段は、前記指示体の移動方向と反対の進行方向に向かって変化する、前記指示体の形態の変化量を負の数によって特定し、
前記実行量決定手段は、前記監視手段によって特定された、前記指示体における最新の形態の変化量が負の数である場合に、前記認識手段によって特定された前記処理の元の進行方向とは反対の進行方向における処理実行量を決定する、請求項4~9のいずれか1項に記載の制御装置。 - 前記実行量決定手段は、前記処理実行量として、特定された前記処理実行主体が実行すべき処理の実行回数を決定する、請求項3~11のいずれか1項に記載の制御装置。
- 前記実行量決定手段は、前記特定された前記処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を、前記処理実行量として決定する、請求項3~11のいずれか1項に記載の制御装置。
- 前記実行量決定手段は、撮像された前記指示体としての指の傾きが変化するときの角度の変化量に比例して前記処理実行量を決定し、
前記処理実行量は、前記特定された前記処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含む、請求項3に記載の制御装置。 - 前記実行量決定手段は、移動を開始した前記指示体の形態の変化に基づいて、前記処理実行量を決定する、請求項3~14のいずれか1項に記載の制御装置。
- 前記実行量決定手段は、移動を開始した指示体とは異なる、撮像された第2の指示体の形態の変化に基づいて、前記処理実行量を決定する、請求項3~14のいずれか1項に記載の制御装置。
- 前記指示生成手段は、前記指示体としての操作者の2つの手の形の組み合わせが前記センシングデータに含まれると認識された場合に、当該操作者の2つの手の形の組み合わせに基づいて、前記処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の一方の代表点の軌跡に基づいて、当該実行すべき処理の処理実行量を決定する、請求項2に記載の制御装置。
- 前記指示生成手段は、前記指示体としての操作者の2つの手の形の組み合わせが前記センシングデータに含まれると認識された場合に、当該操作者の2つの手の一方の代表点の軌跡に基づいて、前記処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の形の組み合わせに基づいて、当該実行すべき処理の処理実行量を決定する、請求項2に記載の制御装置。
- 請求項1~18のいずれか1項に記載の制御装置と、
前記指示体を撮像した撮像画像を前記制御装置に供給する撮像部と、
前記制御装置によって特定された処理を、前記制御装置によって決定された処理実行量に従って実行する処理実行主体とを備える、電子機器。 - 前記制御装置によって決定される処理実行量は、前記制御装置によって特定された処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含み、
前記処理実行主体は、前記制御装置によって決定された選択肢の個数に従って、前記個数ごとの各選択肢にフォーカスを遷移させる、請求項19に記載の電子機器。 - 処理実行主体に対する指示を生成する制御方法であって、
指示体をセンシングすることで得られたセンシングデータを取得する取得ステップと、
前記センシングデータを処理することで、前記指示体の形態および前記形態の移動の軌跡に関する情報を取得する認識ステップと、
前記認識ステップにおいて取得された形態および前記形態の移動の軌跡に基づいて、前記処理実行主体が実行すべき処理および前記実行すべき処理の処理実行量を決定する決定ステップとを含む、制御方法。 - コンピュータを、請求項1~18のいずれか1項に記載の制御装置の各手段として機能させるための制御プログラム。
- 請求項22に記載の制御プログラムを格納したコンピュータ読取可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-059139 | 2012-03-15 | ||
JP2012059139 | 2012-03-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013137412A1 true WO2013137412A1 (ja) | 2013-09-19 |
Family
ID=47747336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/057273 WO2013137412A1 (ja) | 2012-03-15 | 2013-03-14 | 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20130241819A1 (ja) |
EP (1) | EP2650754A3 (ja) |
JP (1) | JPWO2013137412A1 (ja) |
KR (1) | KR101437760B1 (ja) |
CN (1) | CN103309439B (ja) |
WO (1) | WO2013137412A1 (ja) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015165341A (ja) * | 2014-02-28 | 2015-09-17 | 富士通株式会社 | 電子機器、制御プログラム、制御方法、及び、集積回路 |
JP2015195020A (ja) * | 2014-03-20 | 2015-11-05 | 国立研究開発法人産業技術総合研究所 | ジェスチャ認識装置、システム及びそのプログラム |
JP2016038810A (ja) * | 2014-08-08 | 2016-03-22 | 株式会社東芝 | 仮想試着装置、仮想試着方法、およびプログラム |
JP2016224547A (ja) * | 2015-05-27 | 2016-12-28 | 株式会社リコー | 画像処理装置、画像処理システム及び画像処理方法 |
JP2017516242A (ja) * | 2015-02-26 | 2017-06-15 | シャオミ・インコーポレイテッド | スマート機器の操作制御方法、装置、プログラム及び記憶媒体 |
JP2018185873A (ja) * | 2014-08-07 | 2018-11-22 | グーグル エルエルシー | レーダベースのジェスチャ感知およびデータ伝送 |
JP2020508511A (ja) * | 2017-12-22 | 2020-03-19 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 動的ジェスチャ認識方法および装置、ジェスチャ対話制御方法および装置 |
JP2020149228A (ja) * | 2019-03-12 | 2020-09-17 | 株式会社デンソーテン | 制御装置および制御方法 |
US10823841B1 (en) | 2015-10-06 | 2020-11-03 | Google Llc | Radar imaging on a mobile computing device |
US10936081B2 (en) | 2014-08-22 | 2021-03-02 | Google Llc | Occluded gesture recognition |
KR20210030983A (ko) * | 2018-08-24 | 2021-03-18 | 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드 | 동적 동작 검출 방법, 동적 동작 제어 방법 및 장치 |
US11163371B2 (en) | 2014-10-02 | 2021-11-02 | Google Llc | Non-line-of-sight radar-based gesture recognition |
US11169988B2 (en) | 2014-08-22 | 2021-11-09 | Google Llc | Radar recognition-aided search |
JPWO2021246089A1 (ja) * | 2020-06-01 | 2021-12-09 | ||
US11219412B2 (en) | 2015-03-23 | 2022-01-11 | Google Llc | In-ear health monitoring |
US11709552B2 (en) | 2015-04-30 | 2023-07-25 | Google Llc | RF-based micro-motion tracking for gesture tracking and recognition |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8831794B2 (en) * | 2011-05-04 | 2014-09-09 | Qualcomm Incorporated | Gesture recognition via an ad-hoc proximity sensor mesh for remotely controlling objects |
JP5923395B2 (ja) * | 2012-06-26 | 2016-05-24 | 京セラ株式会社 | 電子機器 |
US9785228B2 (en) * | 2013-02-11 | 2017-10-10 | Microsoft Technology Licensing, Llc | Detecting natural user-input engagement |
US9477315B2 (en) * | 2013-03-13 | 2016-10-25 | Honda Motor Co., Ltd. | Information query by pointing |
US8977378B2 (en) * | 2013-03-15 | 2015-03-10 | Northeastern University | Systems and methods of using a hieroglyphic machine interface language for communication with auxiliary robotics in rapid fabrication environments |
JP5862587B2 (ja) * | 2013-03-25 | 2016-02-16 | コニカミノルタ株式会社 | ジェスチャ判別装置、ジェスチャ判別方法、およびコンピュータプログラム |
KR101374720B1 (ko) * | 2013-07-15 | 2014-03-17 | 전자부품연구원 | 손동작 기반 가상 마우스 제어장치 및 그 방법 |
CN103488296B (zh) * | 2013-09-25 | 2016-11-23 | 华为软件技术有限公司 | 体感交互手势控制方法及装置 |
CN103785180B (zh) * | 2014-01-22 | 2016-07-06 | 广东奥飞动漫文化股份有限公司 | 一种电动玩具的感应控制系统 |
KR102167289B1 (ko) * | 2014-06-03 | 2020-10-19 | 엘지전자 주식회사 | 영상 표시 기기 및 그의 동작 방법 |
US9888340B2 (en) | 2015-10-10 | 2018-02-06 | International Business Machines Corporation | Non-intrusive proximity based advertising and message delivery |
CN105791558A (zh) * | 2016-02-26 | 2016-07-20 | 努比亚技术有限公司 | 移动终端及其控制终端设备的方法 |
KR20170104819A (ko) * | 2016-03-08 | 2017-09-18 | 삼성전자주식회사 | 제스처를 가이드하는 전자 장치 및 그의 제스처 가이드 방법 |
US10102423B2 (en) * | 2016-06-30 | 2018-10-16 | Snap Inc. | Object modeling and replacement in a video stream |
JP6809022B2 (ja) * | 2016-07-29 | 2021-01-06 | 富士ゼロックス株式会社 | 画像表示装置、画像形成装置、および、プログラム |
JP2020136898A (ja) * | 2019-02-19 | 2020-08-31 | ソニーセミコンダクタソリューションズ株式会社 | 撮像装置、電子機器、および撮像方法 |
CN112487844A (zh) * | 2019-09-11 | 2021-03-12 | 华为技术有限公司 | 手势识别方法、电子设备、计算机可读存储介质和芯片 |
KR20210101858A (ko) * | 2020-02-11 | 2021-08-19 | 삼성전자주식회사 | 제스처 인식 기반의 기능 운용 방법 및 이를 지원하는 전자 장치 |
CN111443802B (zh) * | 2020-03-25 | 2023-01-17 | 维沃移动通信有限公司 | 测量方法及电子设备 |
KR20230026832A (ko) * | 2021-08-18 | 2023-02-27 | 삼성전자주식회사 | 동작 제스처를 감지하는 전자 장치 및 그 동작 방법 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04257014A (ja) * | 1991-02-12 | 1992-09-11 | Matsushita Electric Ind Co Ltd | 入力装置 |
JP2001216069A (ja) * | 2000-02-01 | 2001-08-10 | Toshiba Corp | 操作入力装置および方向検出方法 |
JP2003186596A (ja) * | 2001-12-13 | 2003-07-04 | Seiko Epson Corp | 表示装置及び表示装置の入力方法 |
JP2005063090A (ja) * | 2003-08-11 | 2005-03-10 | Keio Gijuku | ハンドパターンスイッチ装置 |
JP2008529135A (ja) * | 2005-01-21 | 2008-07-31 | ジェスチャー テック,インコーポレイテッド | 動作に基づくトラッキング |
JP2010259064A (ja) * | 2009-04-03 | 2010-11-11 | Olympus Imaging Corp | 表示装置及び撮像装置 |
US20100306714A1 (en) * | 2009-05-29 | 2010-12-02 | Microsoft Corporation | Gesture Shortcuts |
JP4897939B2 (ja) * | 2010-05-28 | 2012-03-14 | パナソニック株式会社 | ジェスチャ認識装置及びジェスチャ認識方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1408443B1 (en) * | 2002-10-07 | 2006-10-18 | Sony France S.A. | Method and apparatus for analysing gestures produced by a human, e.g. for commanding apparatus by gesture recognition |
JP4172793B2 (ja) | 2004-06-08 | 2008-10-29 | 株式会社東芝 | ジェスチャ検出方法、ジェスチャ検出プログラムおよびジェスチャ検出装置 |
KR100783552B1 (ko) * | 2006-10-11 | 2007-12-07 | 삼성전자주식회사 | 휴대 단말기의 입력 제어 방법 및 장치 |
JP2008146243A (ja) * | 2006-12-07 | 2008-06-26 | Toshiba Corp | 情報処理装置、情報処理方法、及びプログラム |
US9772689B2 (en) | 2008-03-04 | 2017-09-26 | Qualcomm Incorporated | Enhanced gesture-based image manipulation |
JP5182202B2 (ja) * | 2009-04-14 | 2013-04-17 | ソニー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
US9594431B2 (en) * | 2009-06-19 | 2017-03-14 | Hewlett-Packard Development Company, L.P. | Qualified command |
KR100941927B1 (ko) | 2009-08-21 | 2010-02-18 | 이성호 | 터치입력 인식방법 및 장치 |
KR101132598B1 (ko) * | 2009-09-10 | 2012-04-06 | 문준희 | 디스플레이 장치의 화면 크기 제어 방법 및 장치 |
US9008120B2 (en) * | 2010-02-19 | 2015-04-14 | Samsung Electronics Co., Ltd. | Method and apparatus for enabling communication between a mobile device and universal plug and play devices |
WO2011142317A1 (ja) * | 2010-05-11 | 2011-11-17 | 日本システムウエア株式会社 | ジェスチャー認識装置、方法、プログラム、および該プログラムを格納したコンピュータ可読媒体 |
KR101626301B1 (ko) * | 2010-05-28 | 2016-06-01 | 엘지전자 주식회사 | 휴대 단말기 및 그 동작 제어방법 |
KR101360149B1 (ko) * | 2010-11-02 | 2014-02-11 | 한국전자통신연구원 | 센서리스 기반 손가락 모션 트래킹 방법 및 그 장치 |
-
2013
- 2013-01-17 EP EP13151598.3A patent/EP2650754A3/en not_active Ceased
- 2013-01-22 US US13/746,701 patent/US20130241819A1/en not_active Abandoned
- 2013-01-25 KR KR1020130008540A patent/KR101437760B1/ko active IP Right Grant
- 2013-01-31 CN CN201310037502.7A patent/CN103309439B/zh active Active
- 2013-03-14 WO PCT/JP2013/057273 patent/WO2013137412A1/ja active Application Filing
- 2013-03-14 JP JP2014505008A patent/JPWO2013137412A1/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04257014A (ja) * | 1991-02-12 | 1992-09-11 | Matsushita Electric Ind Co Ltd | 入力装置 |
JP2001216069A (ja) * | 2000-02-01 | 2001-08-10 | Toshiba Corp | 操作入力装置および方向検出方法 |
JP2003186596A (ja) * | 2001-12-13 | 2003-07-04 | Seiko Epson Corp | 表示装置及び表示装置の入力方法 |
JP2005063090A (ja) * | 2003-08-11 | 2005-03-10 | Keio Gijuku | ハンドパターンスイッチ装置 |
JP2008529135A (ja) * | 2005-01-21 | 2008-07-31 | ジェスチャー テック,インコーポレイテッド | 動作に基づくトラッキング |
JP2010259064A (ja) * | 2009-04-03 | 2010-11-11 | Olympus Imaging Corp | 表示装置及び撮像装置 |
US20100306714A1 (en) * | 2009-05-29 | 2010-12-02 | Microsoft Corporation | Gesture Shortcuts |
JP4897939B2 (ja) * | 2010-05-28 | 2012-03-14 | パナソニック株式会社 | ジェスチャ認識装置及びジェスチャ認識方法 |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015165341A (ja) * | 2014-02-28 | 2015-09-17 | 富士通株式会社 | 電子機器、制御プログラム、制御方法、及び、集積回路 |
JP2015195020A (ja) * | 2014-03-20 | 2015-11-05 | 国立研究開発法人産業技術総合研究所 | ジェスチャ認識装置、システム及びそのプログラム |
JP2018185873A (ja) * | 2014-08-07 | 2018-11-22 | グーグル エルエルシー | レーダベースのジェスチャ感知およびデータ伝送 |
JP2016038810A (ja) * | 2014-08-08 | 2016-03-22 | 株式会社東芝 | 仮想試着装置、仮想試着方法、およびプログラム |
US11816101B2 (en) | 2014-08-22 | 2023-11-14 | Google Llc | Radar recognition-aided search |
US11169988B2 (en) | 2014-08-22 | 2021-11-09 | Google Llc | Radar recognition-aided search |
US10936081B2 (en) | 2014-08-22 | 2021-03-02 | Google Llc | Occluded gesture recognition |
US11221682B2 (en) | 2014-08-22 | 2022-01-11 | Google Llc | Occluded gesture recognition |
US11163371B2 (en) | 2014-10-02 | 2021-11-02 | Google Llc | Non-line-of-sight radar-based gesture recognition |
US10007354B2 (en) | 2015-02-26 | 2018-06-26 | Xiaomi Inc. | Method and apparatus for controlling smart device |
JP2017516242A (ja) * | 2015-02-26 | 2017-06-15 | シャオミ・インコーポレイテッド | スマート機器の操作制御方法、装置、プログラム及び記憶媒体 |
US11219412B2 (en) | 2015-03-23 | 2022-01-11 | Google Llc | In-ear health monitoring |
US11709552B2 (en) | 2015-04-30 | 2023-07-25 | Google Llc | RF-based micro-motion tracking for gesture tracking and recognition |
JP2016224547A (ja) * | 2015-05-27 | 2016-12-28 | 株式会社リコー | 画像処理装置、画像処理システム及び画像処理方法 |
US11481040B2 (en) | 2015-10-06 | 2022-10-25 | Google Llc | User-customizable machine-learning in radar-based gesture detection |
US11693092B2 (en) | 2015-10-06 | 2023-07-04 | Google Llc | Gesture recognition using multiple antenna |
US12117560B2 (en) | 2015-10-06 | 2024-10-15 | Google Llc | Radar-enabled sensor fusion |
US12085670B2 (en) | 2015-10-06 | 2024-09-10 | Google Llc | Advanced gaming and virtual reality control using radar |
US11698438B2 (en) | 2015-10-06 | 2023-07-11 | Google Llc | Gesture recognition using multiple antenna |
US11698439B2 (en) | 2015-10-06 | 2023-07-11 | Google Llc | Gesture recognition using multiple antenna |
US11175743B2 (en) | 2015-10-06 | 2021-11-16 | Google Llc | Gesture recognition using multiple antenna |
US10823841B1 (en) | 2015-10-06 | 2020-11-03 | Google Llc | Radar imaging on a mobile computing device |
US11592909B2 (en) | 2015-10-06 | 2023-02-28 | Google Llc | Fine-motion virtual-reality or augmented-reality control using radar |
US11656336B2 (en) | 2015-10-06 | 2023-05-23 | Google Llc | Advanced gaming and virtual reality control using radar |
US11221681B2 (en) | 2017-12-22 | 2022-01-11 | Beijing Sensetime Technology Development Co., Ltd | Methods and apparatuses for recognizing dynamic gesture, and control methods and apparatuses using gesture interaction |
JP2020508511A (ja) * | 2017-12-22 | 2020-03-19 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 動的ジェスチャ認識方法および装置、ジェスチャ対話制御方法および装置 |
KR20210030983A (ko) * | 2018-08-24 | 2021-03-18 | 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드 | 동적 동작 검출 방법, 동적 동작 제어 방법 및 장치 |
KR102321562B1 (ko) | 2018-08-24 | 2021-11-04 | 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드 | 동적 동작 검출 방법, 동적 동작 제어 방법 및 장치 |
JP2020149228A (ja) * | 2019-03-12 | 2020-09-17 | 株式会社デンソーテン | 制御装置および制御方法 |
US11893161B2 (en) | 2020-06-01 | 2024-02-06 | National Institute Of Advanced Industrial Science And Technology | Gesture recognition based on user proximity to a camera |
JP7489048B2 (ja) | 2020-06-01 | 2024-05-23 | 国立研究開発法人産業技術総合研究所 | ジェスチャ認識装置、システム及びそのプログラム |
WO2021246089A1 (ja) * | 2020-06-01 | 2021-12-09 | 国立研究開発法人産業技術総合研究所 | ジェスチャ認識装置、システム及びそのプログラム |
JPWO2021246089A1 (ja) * | 2020-06-01 | 2021-12-09 |
Also Published As
Publication number | Publication date |
---|---|
KR101437760B1 (ko) | 2014-09-03 |
CN103309439A (zh) | 2013-09-18 |
US20130241819A1 (en) | 2013-09-19 |
KR20130105321A (ko) | 2013-09-25 |
JPWO2013137412A1 (ja) | 2015-08-03 |
EP2650754A2 (en) | 2013-10-16 |
EP2650754A3 (en) | 2014-09-24 |
CN103309439B (zh) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2013137412A1 (ja) | 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体 | |
US10114463B2 (en) | Display apparatus and method for controlling the same according to an eye gaze and a gesture of a user | |
CN103869967B (zh) | 控制装置、车辆以及便携终端 | |
JP6011165B2 (ja) | ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム | |
JP5802667B2 (ja) | ジェスチャ入力装置およびジェスチャ入力方法 | |
JP4267648B2 (ja) | インターフェース装置及びその方法 | |
EP2924539B1 (en) | Display device and operating method thereof using gestures | |
JP6252409B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US9405373B2 (en) | Recognition apparatus | |
US20130204408A1 (en) | System for controlling home automation system using body movements | |
JP5264844B2 (ja) | ジェスチャ認識装置及び方法 | |
US20130077831A1 (en) | Motion recognition apparatus, motion recognition method, operation apparatus, electronic apparatus, and program | |
EP3080998B1 (en) | System and method for controlling the display of an image stream | |
WO2014027666A1 (ja) | 入力装置、入力方法、及び記憶媒体 | |
KR20130105725A (ko) | 콘텐츠의 양 손 제어에 기반한 컴퓨터 비전 | |
JP2012248067A (ja) | 情報入力装置、その制御方法、および制御プログラム | |
US20220382377A1 (en) | Systems and methods for controlling virtual widgets in a gesture-controlled device | |
KR101795204B1 (ko) | 정보 처리 장치 및 기록 매체 | |
JP2012027515A (ja) | 入力方法及び入力装置 | |
CN111656313A (zh) | 屏幕显示切换方法、显示设备、可移动平台 | |
KR101314641B1 (ko) | 사용자 제스처를 이용한 조작 방법 및 디지털 장치 | |
US20160147294A1 (en) | Apparatus and Method for Recognizing Motion in Spatial Interaction | |
JP6808408B2 (ja) | 表示制御装置およびその制御方法 | |
JP5558899B2 (ja) | 情報処理装置、その処理方法及びプログラム | |
JP6548068B2 (ja) | 電子機器、表示制御方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13761094 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2014505008 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13761094 Country of ref document: EP Kind code of ref document: A1 |