WO2021140543A1 - ジェスチャ検出装置およびジェスチャ検出方法 - Google Patents

ジェスチャ検出装置およびジェスチャ検出方法 Download PDF

Info

Publication number
WO2021140543A1
WO2021140543A1 PCT/JP2020/000070 JP2020000070W WO2021140543A1 WO 2021140543 A1 WO2021140543 A1 WO 2021140543A1 JP 2020000070 W JP2020000070 W JP 2020000070W WO 2021140543 A1 WO2021140543 A1 WO 2021140543A1
Authority
WO
WIPO (PCT)
Prior art keywords
gesture
unit
dimensional coordinates
occupant
gesture detection
Prior art date
Application number
PCT/JP2020/000070
Other languages
English (en)
French (fr)
Inventor
真之 大坪
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2020/000070 priority Critical patent/WO2021140543A1/ja
Priority to JP2021569612A priority patent/JP7072737B2/ja
Publication of WO2021140543A1 publication Critical patent/WO2021140543A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Definitions

  • the present invention relates to a gesture detection device and a gesture detection method for detecting a gesture for operating an in-vehicle device.
  • Patent Document 1 a motion detection system for detecting an occupant's motion performed on an operation screen for giving an instruction to an in-vehicle device has been disclosed (see, for example, Patent Document 1).
  • the driver or the assistant so as to block the gesture of the rear seat occupant while the rear seat occupant is manually gesturing to operate the in-vehicle device. If the seat occupants reach out, they may misidentify the gestures of the rear seat occupants.
  • the driver or the passenger seat occupant puts his / her hand so as to block the gesture of the rear seat occupant is on the straight line connecting the operation screen and the rear seat occupant's hand, and also includes the operation screen. It means that the driver or the passenger seat occupant puts his / her hand between the rear seat occupant's hand.
  • the motion detection system will use the backseat. There is a possibility that the occupant may mistakenly recognize that he is making a gesture to move his hand forward.
  • the present invention has been made to solve such a problem, and relates to a gesture detection device and a gesture detection method capable of reducing false recognition of gestures.
  • the gesture detection device gestures the movement of the occupant's hand based on the image acquisition unit that acquires the image of the occupant in the vehicle and the image acquired by the image acquisition unit.
  • the gesture detection unit that detects as the depth information acquisition unit that acquires the depth information of the occupant's hand when making a gesture, and the amount of change in the depth information acquired by the depth information acquisition unit are equal to or greater than a predetermined threshold value.
  • a determination unit for determining to reject the gesture detected by the gesture detection unit is provided.
  • the gesture detection device determines to reject the gesture detected by the gesture detection unit. It is possible to reduce false recognition.
  • FIG. 1 is a block diagram showing an example of the configuration of the gesture detection device 1 according to the first embodiment. Note that FIG. 1 shows the minimum necessary configuration for configuring the gesture detection device according to the first embodiment. Further, it is assumed that the gesture detection device 1 is mounted in the vehicle. The gesture described below means that the operation of the in-vehicle device is expressed by the movement of the occupant's hand without touching the in-vehicle device to be operated.
  • the gesture detection device 1 includes a video acquisition unit 2, a gesture detection unit 3, a depth information acquisition unit 4, and a determination unit 5.
  • the video acquisition unit 2 acquires a video of the occupant in the vehicle.
  • the gesture detection unit 3 detects the movement of the occupant's hand as a gesture based on the image acquired by the image acquisition unit 2.
  • the depth information acquisition unit 4 acquires depth information of the occupant's hand when making a gesture. When the amount of change in the depth information acquired by the depth information acquisition unit 4 is equal to or greater than a predetermined threshold value, the determination unit 5 determines to reject the gesture detected by the gesture detection unit 3.
  • FIG. 2 is a block diagram showing an example of the configuration of the gesture detection device 6 according to another configuration. It is assumed that the gesture detection device 6 is mounted in the vehicle.
  • the gesture detection device 6 includes a video acquisition unit 2, a gesture detection unit 3, a depth information acquisition unit 4, a determination unit 5, a position calculation unit 7, and a change amount calculation unit 8. It is provided with an output unit 9.
  • the image acquisition unit 2 is connected to the photographing device 10, the depth information acquisition unit 4 is connected to the depth sensor 11, and the output unit 9 is connected to the in-vehicle device 12.
  • the photographing device 10, the depth sensor 11, and the in-vehicle device 12 are mounted in the vehicle.
  • the image acquisition unit 2 acquires the image of the occupant in the vehicle photographed by the photographing device 10. Further, the image acquisition unit 2 outputs the acquired image to the gesture detection unit 3 and the position calculation unit 7.
  • the photographing device 10 is composed of a wide-angle camera capable of photographing an occupant seated in each of the driver's seat, the passenger seat, and the rear seat. The photographing device 10 outputs the photographed image of the occupant in the vehicle to the image acquisition unit 2.
  • the depth information acquisition unit 4 acquires depth information from the depth sensor 11. Further, the depth information acquisition unit 4 outputs the acquired depth information to the position calculation unit 7.
  • the depth sensor 11 measures the distance between the depth sensor 11 and the hand of the occupant performing the gesture, and outputs the measured distance as depth information to the depth information acquisition unit 4.
  • the position calculation unit 7 sets the position of the occupant's hand in the three-dimensional space in three-dimensional coordinates for each frame of the image based on the image acquired by the image acquisition unit 2 and the depth information acquired by the depth information acquisition unit 4. Calculate as.
  • the three-dimensional coordinate means, for example, one point in the coordinate system represented by the x-axis, the y-axis, and the z-axis.
  • the position calculation unit 7 associates the calculated three-dimensional coordinates of the occupant's hand with the frame of the image and outputs the calculated three-dimensional coordinates to the gesture detection unit 3 and the change amount calculation unit 8.
  • the position calculation unit 7 may calculate the three-dimensional coordinates of one predetermined point in the hands of the occupant, or may calculate the three-dimensional coordinates of a plurality of points.
  • the position calculation unit 7 corrects each position so that it is represented by the same reference.
  • the position calculation unit 7 may correct the position of the occupant's hand photographed by the photographing device 10 with reference to the position of the depth sensor 11.
  • the position calculation unit 7 calculates the position of the occupant's hand as three-dimensional coordinates based on the image acquired by the image acquisition unit 2 and the depth information acquired by the depth information acquisition unit 4.
  • the three-dimensional coordinates indicating the position of the occupant's hand may be calculated using a well-known technique.
  • the position calculation unit 7 may set an effective space, which is a three-dimensional space for detecting a gesture in the next frame of the video, based on the three-dimensional coordinates calculated for the current frame.
  • the next frame means a frame immediately after the current frame.
  • the determination unit 5 can make a determination such as rejecting the gesture.
  • the change amount calculation unit 8 uses the difference between the three-dimensional coordinates of the occupant's hand in the current frame calculated by the position calculation unit 7 and the three-dimensional coordinates of the occupant's hand in the previous frame as the amount of change in the position of the occupant's hand. calculate. Further, the change amount calculation unit 8 outputs the calculated change amount to the determination unit 5.
  • the previous frame means a frame immediately before the current frame.
  • the amount of change in the position of the occupant's hand is the amount of movement when the position of the occupant's hand changes in the front-rear direction and the left-right direction, and corresponds to the amount of change in the depth information described above.
  • the change amount calculation unit 8 holds the three-dimensional coordinates of the occupant's hand in the front frame. Then, after calculating the amount of change, the change amount calculation unit 8 updates the three-dimensional coordinates of the occupant's hand in the previous frame to the three-dimensional coordinates of the occupant's hand in the current frame. The three-dimensional coordinates of the occupant's hand in the updated current frame are used as the three-dimensional coordinates of the occupant's hand in the previous frame when the change amount calculation unit 8 calculates the change amount in the next frame.
  • the gesture detection unit 3 detects the movement of the occupant's hand as a gesture based on the image acquired by the image acquisition unit 2 and the three-dimensional coordinates of the occupant's hand calculated by the position calculation unit 7. Then, when the detected gesture matches the gesture registered in advance, the gesture detection unit 3 recognizes it as a gesture for the in-vehicle device 12.
  • the change in the position of the occupant's hand can be grasped from the change over time in the three-dimensional coordinates of the occupant's hand calculated by the position calculation unit 7. Further, the shape of the occupant's hand can be grasped from the image acquired by the image acquisition unit 2.
  • the gesture detection unit 3 can detect the gesture based on the change in the position of the occupant's hand and the shape of the occupant's hand.
  • the determination unit 5 determines to reject the gesture detected by the gesture detection unit 3 when the change amount calculated by the change amount calculation unit 8 is equal to or greater than a predetermined threshold value. Then, the determination unit 5 outputs the determination result to the output unit 9.
  • rejecting a gesture means not detecting a gesture thereafter.
  • the depth sensor 11 determines the distance from the hand 14.
  • the position calculation unit 7 calculates the three-dimensional position of the hand 14. Therefore, the gesture detection unit 3 erroneously detects that the hand 13 which is originally moving in the lateral direction has moved forward. Further, the amount of change calculated by the amount of change calculation unit 8 becomes large and exceeds a predetermined threshold value. In such a case, the determination unit 5 determines that the gesture detected by the gesture detection unit 3 is incorrect, and rejects the gesture.
  • the determination unit 5 determines that the gesture detection unit 3 has recognized the gesture. Then, the determination unit 5 outputs the determination result to the output unit 9.
  • the threshold value used in the determination of the rejection of the gesture by the determination unit 5 described above does not have to be a fixed value.
  • the differential value may be calculated from the amount of change in the three-dimensional coordinates of the occupant's hand, and the threshold value may be dynamically set from the amount of change in the differential value.
  • the output unit 9 outputs the result of the determination by the determination unit 5 to the in-vehicle device 12. For example, the output unit 9 outputs to the in-vehicle device 12 that the gesture has been rejected. In this case, the in-vehicle device 12 notifies the operator by display, voice, or both of the gesture being rejected.
  • the output unit 9 outputs the recognition of the gesture to the in-vehicle device 12.
  • the in-vehicle device 12 executes the function corresponding to the gesture.
  • the in-vehicle device 12 is a device that can be operated by an occupant in the own vehicle, and examples thereof include a navigation device, an air conditioner, and an audio device.
  • FIG. 5 is a flowchart showing an example of the operation of the gesture detection device 6. The processing of steps S101 to S106 and step S108 is performed for each frame of the video acquired by the video acquisition unit 2.
  • step S101 the image acquisition unit 2 acquires the image of the occupant in the vehicle photographed by the photographing device 10.
  • step S102 the depth information acquisition unit 4 acquires depth information from the depth sensor 11.
  • step S103 the position calculation unit 7 positions the occupant's hand in the three-dimensional space for each frame of the image based on the image acquired by the image acquisition unit 2 and the depth information acquired by the depth information acquisition unit 4. Is calculated as three-dimensional coordinates.
  • step S104 the gesture detection unit 3 detects the movement of the occupant's hand as a gesture based on the image acquired by the image acquisition unit 2 and the three-dimensional coordinates of the occupant's hand calculated by the position calculation unit 7.
  • step S105 the change amount calculation unit 8 sets the difference between the three-dimensional coordinates of the occupant's hand in the current frame calculated by the position calculation unit 7 and the three-dimensional coordinates of the occupant's hand in the previous frame as the position of the occupant's hand. Calculated as the amount of change in.
  • step S106 the determination unit 5 determines whether or not the amount of change calculated by the amount of change calculation unit 8 is equal to or greater than a predetermined threshold value ⁇ . If the amount of change calculated by the amount of change calculation unit 8 is equal to or greater than a predetermined threshold value ⁇ , the process proceeds to step S107. On the other hand, if the amount of change calculated by the amount of change calculation unit 8 is not equal to or greater than the predetermined threshold value ⁇ , the process proceeds to step S108.
  • step S107 the determination unit 5 determines to reject the gesture detected by the gesture detection unit 3.
  • step S108 the gesture detection unit 3 determines whether or not the gesture has been recognized. Specifically, for example, when the series of movements from the start to the end of the detected gesture is the same as the series of movements from the start to the end of the pre-registered gesture, the gesture detection unit 3 detects the gesture. It is judged that the gesture matches the pre-registered gesture. Alternatively, the gesture detection unit 3 determines that the detected gesture matches the pre-registered gesture when the movement from the start to the middle of the detected gesture is the same as the movement from the start to the middle of the pre-registered gesture. To do. Then, when the detected gesture matches the gesture registered in advance, the gesture detection unit 3 recognizes it as a gesture for the in-vehicle device 12. If the gesture is recognized, the process proceeds to step S109. On the other hand, if the gesture is not recognized, the process returns to step S101.
  • step S109 the determination unit 5 determines that the gesture detection unit 3 has recognized the gesture.
  • step S110 the output unit 9 outputs the result determined by the determination unit 5. Specifically, when the determination unit 5 determines in step S107 to discard the gesture, the output unit 9 outputs to the in-vehicle device 12 that the gesture has been rejected. Further, when the determination unit 5 determines that the gesture has been recognized in step S109, the output unit 9 outputs to the in-vehicle device 12 that the gesture has been recognized.
  • the change amount calculation unit 8 calculates the change amount of the position of the occupant's hand performing the gesture, and the determination unit 5 makes the gesture when the change amount is equal to or more than a predetermined threshold value. Judgment to reject. This makes it possible to reduce false recognition of gestures. For example, if a passenger in the passenger seat puts out a hand so as to block the hand of the occupant in the back seat while the occupant in the back seat is performing a gesture to move the hand sideways, the gesture is conventionally mistakenly recognized. However, according to the first embodiment, the gesture is rejected, so that it is possible to prevent erroneous recognition.
  • FIG. 6 is a block diagram showing an example of the configuration of the gesture detection device 15 according to the second embodiment.
  • the gesture detection device 15 is characterized by including a complement unit 16 and a gesture log storage unit 17. Since other configurations are the same as those of the gesture detection device 6 shown in FIG. 2 described in the first embodiment, detailed description thereof will be omitted here.
  • the gesture log storage unit 17 stores the three-dimensional coordinates of the occupant's hand calculated by the position calculation unit 7 as a gesture log in association with each frame of the video. Specifically, the gesture log storage unit 17 stores the three-dimensional coordinates of the occupant's hand calculated by the position calculation unit 7 in association with each frame of the video from the start to the end of the gesture.
  • the change amount calculation unit 8 sets the three-dimensional coordinates of the occupant's hand corresponding to the current frame and the three-dimensional coordinates of the occupant's hand corresponding to the previous frame. Is calculated as the amount of change in the position of the occupant's hand. Further, the change amount calculation unit 8 corresponds to the three-dimensional coordinates corresponding to the current frame and the front frame complemented by the complement unit 16 when the complement unit 16 described later complements the three-dimensional coordinates corresponding to the previous frame. The difference from the dimensional coordinates is calculated as the amount of change in the position of the occupant's hand.
  • the determination unit 5 deletes the three-dimensional coordinates corresponding to the current frame from the gesture log storage unit 17.
  • the complement unit 16 When the three-dimensional coordinates corresponding to the previous frame are deleted from the gesture log storage unit 17, the complement unit 16 has the three-dimensional coordinates corresponding to the current frame and the three-dimensional coordinates corresponding to the frame immediately before the previous frame. Complements the 3D coordinates corresponding to the previous frame based on.
  • FIGS. 7 to 10 show the case where the occupant in the back seat makes a gesture of moving his / her hand 18 in a "Z" manner. It is assumed that FIGS. 7 to 10 show four consecutive frames.
  • the gesture detection unit 3 erroneously detects that the hand 13 has moved forward.
  • the determination unit 5 deletes the three-dimensional coordinates of the hand 19 calculated by the position calculation unit 7 and stored in the gesture log storage unit 17 from the gesture log storage unit 17. Therefore, the gesture log storage unit 17 does not store the three-dimensional coordinates corresponding to the frame shown in FIG.
  • the complementary unit 16 has the three-dimensional coordinates corresponding to the current frame shown in FIG. 9 and the three-dimensional coordinates corresponding to the frame immediately before the previous frame (the frame shown in FIG. 7). Based on the above, the three-dimensional coordinates corresponding to the previous frame (frame shown in FIG. 8) are complemented.
  • the broken line arrow and the “x” mark shown in FIG. 9 indicate that the three-dimensional coordinates corresponding to the frame shown in FIG. 8 have been deleted from the gesture log storage unit 17.
  • the complementing unit 16 may complement linearly, or may calculate a vector of the locus of the three-dimensional coordinates corresponding to each frame and complement it from the interpolation of the calculated vector or the like.
  • the determination unit 5 may set the complementary effective space based on the three-dimensional coordinates corresponding to the frame shown in FIG.
  • the complementing unit 16 complements the three-dimensional coordinates corresponding to the frame shown in FIG. 8
  • the occupant's hand 19 shown in FIG. 8 complements the three-dimensional coordinates.
  • the gesture detection unit 3 may detect the movement of the occupant's hand 19 as a new gesture.
  • the complementary effective space may be the same space as the effective space described in the first embodiment.
  • the determination unit 5 may determine to reject the gesture detected by the gesture detection unit 3 when a plurality of three-dimensional coordinates corresponding to a predetermined number of frames are continuously deleted from the gesture log storage unit 17. ..
  • FIG. 11 is a flowchart showing an example of the operation of the gesture detection device 15. Since steps S201 to S204, step S212, and step S215 in FIG. 11 correspond to steps S101 to S104, step S108, and step S110 in FIG. 5, description thereof will be omitted here. Hereinafter, steps S205 to S211 and S213 and S214 will be described. The processing of steps S201 to S212 is performed for each frame of the video acquired by the video acquisition unit 2.
  • step S205 the determination unit 5 refers to the gesture log storage unit 17 and determines whether or not the three-dimensional coordinates corresponding to the previous frame have been deleted. If the three-dimensional coordinates corresponding to the previous frame have been deleted, the process proceeds to step S206. On the other hand, if the three-dimensional coordinates corresponding to the previous frame have not been deleted, the process proceeds to step S208.
  • step S206 whether the number of frames corresponding to the plurality of three-dimensional coordinates continuously deleted from the gesture log storage unit 17 is equal to or less than the threshold value and the position of the occupant's hand is within the complementary effective space. Judge whether or not. When the number of frames corresponding to the plurality of three-dimensional coordinates continuously deleted from the gesture log storage unit 17 is equal to or less than the threshold value and the position of the occupant's hand is within the complementary effective space, the process proceeds to step S207. If the number of frames corresponding to the plurality of three-dimensional coordinates continuously deleted from the gesture log storage unit 17 exceeds the threshold value, or if the position of the occupant's hand is outside the complementary effective space, the process proceeds to step S214.
  • step S207 the complementing unit 16 complements the three-dimensional coordinates corresponding to the previous frame based on the three-dimensional coordinates corresponding to the current frame and the three-dimensional coordinates corresponding to the frame immediately before the previous frame.
  • step S208 when the complement unit 16 complements, the change amount calculation unit 8 calculates the difference between the three-dimensional coordinates corresponding to the current frame and the three-dimensional coordinates corresponding to the previous frame complemented by the complement unit 16. Calculated as the amount of change in the position of the occupant's hand. Further, when the complement unit 16 does not complement, the change amount calculation unit 8 changes the position of the occupant's hand by the difference between the three-dimensional coordinates corresponding to the current frame and the three-dimensional coordinates corresponding to the previous frame. Calculate as a quantity.
  • step S209 the position calculation unit 7 stores the calculated three-dimensional coordinates corresponding to the current frame in the gesture log storage unit 17. Further, when the complementing unit 16 complements the three-dimensional coordinates corresponding to the previous frame, the complementing unit 16 stores the complemented three-dimensional coordinates in the gesture log storage unit 17.
  • step S210 the determination unit 5 determines whether or not the change amount calculated by the change amount calculation unit 8 is equal to or greater than a predetermined threshold value ⁇ . If the amount of change calculated by the amount of change calculation unit 8 is equal to or greater than a predetermined threshold value ⁇ , the process proceeds to step S211. On the other hand, if the amount of change calculated by the amount of change calculation unit 8 is not equal to or greater than the predetermined threshold value ⁇ , the process proceeds to step S212.
  • step S211 the determination unit 5 deletes the three-dimensional coordinates corresponding to the current frame from the gesture log storage unit 17.
  • step S213 the determination unit 5 determines that the gesture detection unit 3 has recognized the gesture.
  • step S214 the determination unit 5 determines to reject the gesture detected by the gesture detection unit 3.
  • the determination unit 5 deletes the three-dimensional coordinates corresponding to the frame when the change amount calculated by the change amount calculation unit 8 is equal to or more than a predetermined threshold value from the gesture log storage unit 17. To do. Then, the complementing unit 16 complements the three-dimensional coordinates corresponding to the deleted frame. As a result, it is possible to reduce the false recognition of the gesture and recognize the gesture intended by the user.
  • FIG. 12 is a block diagram showing an example of the configuration of the gesture detection device 20 according to the third embodiment.
  • the gesture detection device 20 is characterized by including a correction unit 21. Since other configurations are the same as those of the gesture detection device 6 shown in FIG. 2 described in the first embodiment, detailed description thereof will be omitted here.
  • the correction unit 21 is a change amount calculated by the change amount calculation unit 8 based on the image acquired by the image acquisition unit 2, the three-dimensional coordinates calculated by the position calculation unit, and the change amount calculated by the change amount calculation unit. Is made a predetermined correction.
  • the correction unit 21 corrects the change amount calculated by the change amount calculation unit 8. Specifically, the correction unit 21 makes a correction for suppressing blurring with respect to the change amount calculated by the change amount calculation unit 8.
  • the correction unit 21 has the three-dimensional coordinates of the occupant's hand in the rear seat based on the scale of the occupant's hand obtained from the image acquired by the image acquisition unit 2 and the three-dimensional coordinates calculated by the position calculation unit 7.
  • the weight that suppresses the amount of change in the three-dimensional coordinates of the driver's or passenger's hand is calculated, and the weight that suppresses the amount of change in the three-dimensional coordinates of the driver's or passenger's hand is calculated.
  • the correction unit 21 corrects the change amount calculated by the change amount calculation unit 8 by multiplying the calculated weight by the change amount calculated by the change amount calculation unit 8.
  • FIG. 13 is a flowchart showing an example of the operation of the gesture detection device 20. Note that steps S301 to S305 in FIG. 13 correspond to steps S101 to S105 in FIG. 5, and steps S307 to S311 in FIG. 13 correspond to steps S106 to S110 in FIG. Is omitted. Hereinafter, step S306 will be described. The processing of steps S301 to S307 and step S309 is performed for each frame of the video acquired by the video acquisition unit 2.
  • step S306 the correction unit 21 is calculated by the change amount calculation unit based on the image acquired by the image acquisition unit 2, the three-dimensional coordinates calculated by the position calculation unit, and the change amount calculated by the change amount calculation unit. A predetermined correction is performed on the changed amount.
  • the correction unit 21 corrects the change amount calculated by the change amount calculation unit 8 in consideration of the shaking of the vehicle body and the like.
  • the determination unit 5 determines whether or not to reject the gesture based on the amount of change corrected by the correction unit 21. This makes it possible to reduce false recognition of gestures.
  • the present invention is not limited to this.
  • the correction unit 21 is added to the gesture detection device 15 shown in FIG. 6 described in the second embodiment, the same effect as that of the third embodiment can be obtained.
  • Each function of the calculation unit 8, the output unit 9, the complement unit 16, and the correction unit 21 is realized by the processing circuit. That is, the gesture detection devices 1, 6, 15 and 20 acquire the image of the occupant in the vehicle, detect the movement of the occupant's hand as a gesture, acquire the depth information, and the calculated change amount is predetermined.
  • the processing circuit may be dedicated hardware, and is a processor (CPU (Central Processing Unit), a central processing unit, a processing unit, an arithmetic unit, a microprocessor, a microcomputer, a DSP) that executes a program stored in a memory. It may also be called a Digital Signal Processor).
  • the processing circuit 22 is, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, or an ASIC (Application Specific Integrated Circuit). , FPGA (Field Programmable Gate Array), or a combination of these.
  • the processing circuit 22 is the processor 23 shown in FIG. 15, the image acquisition unit 2, the gesture detection unit 3, the depth information acquisition unit 4, the determination unit 5, the position calculation unit 7, the change amount calculation unit 8, the output unit 9, and the complement
  • Each function of the unit 16 and the correction unit 21 is realized by software, firmware, or a combination of software and firmware.
  • the software or firmware is written as a program and stored in the memory 24.
  • the processor 23 realizes each function by reading and executing the program recorded in the memory 24. That is, the gesture detection devices 1, 6, 15 and 20 have a step of acquiring an image of the occupant in the vehicle, a step of detecting the movement of the occupant's hand as a gesture, a step of acquiring depth information, and a calculated change amount in advance.
  • a memory 24 for storing a program is provided.
  • these programs include a video acquisition unit 2, a gesture detection unit 3, a depth information acquisition unit 4, a determination unit 5, a position calculation unit 7, a change amount calculation unit 8, an output unit 9, a complement unit 16, and a correction unit 21.
  • the memory is, for example, non-volatile or volatile such as RAM (RandomAccessMemory), ROM (ReadOnlyMemory), flash memory, EPROM (ErasableProgrammableReadOnlyMemory) and EEPROM (Electrically ErasableProgrammableReadOnlyMemory). It may be a semiconductor memory, a magnetic disk, a flexible disk, an optical disk, a compact disk, a DVD (Digital Versatile Disc), or any other storage medium that will be used in the future.
  • the gesture detection unit 3 the depth information acquisition unit 4, the determination unit 5, the position calculation unit 7, the change amount calculation unit 8, the output unit 9, the complement unit 16, and the correction unit 21.
  • Some functions may be realized by dedicated hardware, and other functions may be realized by software or firmware.
  • the processing circuit can realize each of the above-mentioned functions by hardware, software, firmware, or a combination thereof.
  • the gesture detection device described above is a system in which not only an in-vehicle navigation device, that is, a car navigation device, but also a PND (Portable Navigation Device) that can be mounted on a vehicle, a server provided outside the vehicle, and the like are appropriately combined. It can also be applied to a navigation device constructed as a navigation device or a device other than the navigation device. In this case, each function or each component of the gesture detection device is distributed and arranged in each function for constructing the system.
  • the function of the gesture detection device can be placed on the server.
  • the vehicle includes a photographing device 10, a depth sensor 11, and an in-vehicle device 12.
  • the server 25 includes a video acquisition unit 2, a gesture detection unit 3, a depth information acquisition unit 4, a determination unit 5, a position calculation unit 7, a change amount calculation unit 8, and an output unit 9.
  • a gesture detection system can be constructed.
  • the gesture detection method realized by executing this software on the server is when the image of the occupant in the vehicle is acquired, the movement of the occupant's hand is detected as a gesture based on the acquired image, and the gesture is performed. This includes acquiring the depth information of the occupant's hand and making a determination to reject the detected gesture when the amount of change in the acquired depth information is equal to or greater than a predetermined threshold value.
  • each embodiment can be freely combined, and each embodiment can be appropriately modified or omitted within the scope of the invention.
  • 1 Gesture detection device 1 Gesture detection device, 2 Video acquisition unit, 3 Gesture detection unit, 4 Depth information acquisition unit, 5 Judgment unit, 6 Gesture detection device, 7 Position calculation unit, 8 Change amount calculation unit, 9 Output unit, 10 Imaging device, 11 Depth sensor, 12 in-vehicle device, 13, 14 hands, 15 gesture detection device, 16 complementary unit, 17 gesture log storage unit, 18, 19 hands, 20 gesture detection device, 21 correction unit, 22 processing circuit, 23 processor, 24 memory , 25 server.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、ジェスチャの誤認識を低減することが可能なジェスチャ検出装置およびジェスチャ検出方法に関する。本発明によるジェスチャ検出装置は、車両内の乗員を撮影した映像を取得する映像取得部と、映像取得部が取得した映像に基づいて乗員の手の動きをジェスチャとして検出するジェスチャ検出部と、ジェスチャをしたときの乗員の手の深度情報を取得する深度情報取得部と、深度情報取得部が取得した深度情報の変化量が予め定められた閾値以上であるとき、ジェスチャ検出部が検出したジェスチャを棄却する判定を行う判定部とを備える。

Description

ジェスチャ検出装置およびジェスチャ検出方法
 本発明は、車載装置を操作するジェスチャを検出するジェスチャ検出装置およびジェスチャ検出方法に関する。
 従来、車載装置に指示を与えるための操作画面に対してなされる乗員の動きを検出する動き検出システムが開示されている(例えば、特許文献1参照)。
特開2017-211884号公報
 特許文献1に開示されている動き検出システムでは、後部座席の乗員が車載装置を操作するために手でジェスチャを行っている最中に、後部座席の乗員のジェスチャを遮るように運転者または助手席の乗員が手を出すと、後部座席の乗員のジェスチャを誤認識する可能性がある。ここで、「後部座席の乗員のジェスチャを遮るように運転者または助手席の乗員が手を出す」とは、操作画面と後部座席の乗員の手とを結ぶ直線上であり、かつ操作画面と後部座席の乗員の手との間に運転者または助手席の乗員が手を出すことをいう。
 例えば、後部座席の乗員が手を横方向に動かすジェスチャを行っている最中に、後部座席の乗員の手を遮るように助手席の乗員が手を出した場合、動き検出システムは、後部座席の乗員が手を前方に動かすジェスチャを行っていると誤認識する可能性がある。
 このように、従来では、ジェスチャを誤認識する場合があり改善の余地があった。
 本発明は、このような問題を解決するためになされたものであり、ジェスチャの誤認識を低減することが可能なジェスチャ検出装置およびジェスチャ検出方法に関する。
 上記の課題を解決するために、本発明によるジェスチャ検出装置は、車両内の乗員を撮影した映像を取得する映像取得部と、映像取得部が取得した映像に基づいて乗員の手の動きをジェスチャとして検出するジェスチャ検出部と、ジェスチャをしたときの乗員の手の深度情報を取得する深度情報取得部と、深度情報取得部が取得した深度情報の変化量が予め定められた閾値以上であるとき、ジェスチャ検出部が検出したジェスチャを棄却する判定を行う判定部とを備える。
 本発明によると、ジェスチャ検出装置は、深度情報取得部が取得した深度情報の変化量が予め定められた閾値以上であるとき、ジェスチャ検出部が検出したジェスチャを棄却する判定を行うため、ジェスチャの誤認識を低減することが可能となる。
 本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
本発明の実施の形態1によるジェスチャ検出装置の構成の一例を示すブロック図である。 本発明の実施の形態1によるジェスチャ検出装置の構成の一例を示すブロック図である。 本発明の実施の形態1によるジェスチャ検出装置の動作を説明するための図である。 本発明の実施の形態1によるジェスチャ検出装置の動作を説明するための図である。 本発明の実施の形態1によるジェスチャ検出装置の動作の一例を示すフローチャートである。 本発明の実施の形態2によるジェスチャ検出装置の構成の一例を示すブロック図である。 本発明の実施の形態2によるジェスチャ検出装置の動作を説明するための図である。 本発明の実施の形態2によるジェスチャ検出装置の動作を説明するための図である。 本発明の実施の形態2によるジェスチャ検出装置の動作を説明するための図である。 本発明の実施の形態2によるジェスチャ検出装置の動作を説明するための図である。 本発明の実施の形態2によるジェスチャ検出装置の動作の一例を示すフローチャートである。 本発明の実施の形態3によるジェスチャ検出装置の構成の一例を示すブロック図である。 本発明の実施の形態3によるジェスチャ検出装置の動作の一例を示すフローチャートである。 本発明の実施の形態によるジェスチャ検出装置のハードウェア構成の一例を示すブロック図である。 本発明の実施の形態によるジェスチャ検出装置のハードウェア構成の一例を示すブロック図である。 本発明の実施の形態によるジェスチャ検出システムの構成の一例を示すブロック図である。
 本発明の実施の形態について、図面に基づいて以下に説明する。
 <実施の形態1>
 <構成>
 図1は、本実施の形態1によるジェスチャ検出装置1の構成の一例を示すブロック図である。なお、図1では、本実施の形態1によるジェスチャ検出装置を構成する必要最小限の構成を示している。また、ジェスチャ検出装置1は、車両内に搭載されているものとする。以下で説明するジェスチャとは、操作対象である車載装置に触れることなく、車載装置に対する操作を乗員の手の動きで表現することをいう。
 図1に示すように、ジェスチャ検出装置1は、映像取得部2と、ジェスチャ検出部3と、深度情報取得部4と、判定部5とを備えている。
 映像取得部2は、車両内の乗員を撮影した映像を取得する。ジェスチャ検出部3は、映像取得部2が取得した映像に基づいて乗員の手の動きをジェスチャとして検出する。深度情報取得部4は、ジェスチャをしたときの乗員の手の深度情報を取得する。判定部5は、深度情報取得部4が取得した深度情報の変化量が予め定められた閾値以上であるとき、ジェスチャ検出部3が検出したジェスチャを棄却する判定を行う。
 次に、図1に示すジェスチャ検出装置1を含むジェスチャ検出装置の他の構成について説明する。
 図2は、他の構成に係るジェスチャ検出装置6の構成の一例を示すブロック図である。なお、ジェスチャ検出装置6は、車両内に搭載されているものとする。
 図2に示すように、ジェスチャ検出装置6は、映像取得部2と、ジェスチャ検出部3と、深度情報取得部4と、判定部5と、位置算出部7と、変化量算出部8と、出力部9とを備えている。映像取得部2は撮影装置10に接続され、深度情報取得部4は深度センサ11に接続され、出力部9は車載装置12に接続されている。撮影装置10、深度センサ11、および車載装置12は、車両内に搭載されている。
 映像取得部2は、撮影装置10が撮影した車両内の乗員の映像を取得する。また、映像取得部2は、取得した映像をジェスチャ検出部3および位置算出部7に出力する。撮影装置10は、運転席、助手席、および後部座席のそれぞれに着座した乗員を撮影することが可能な広角カメラで構成されている。撮影装置10は、撮影した車両内の乗員の映像を映像取得部2に出力する。
 深度情報取得部4は、深度センサ11から深度情報を取得する。また、深度情報取得部4は、取得した深度情報を位置算出部7に出力する。深度センサ11は、当該深度センサ11と、ジェスチャを行っている乗員の手との距離を測定し、測定した距離を深度情報として深度情報取得部4に出力する。
 位置算出部7は、映像取得部2が取得した映像と、深度情報取得部4が取得した深度情報とに基づいて、映像のフレームごとに、3次元空間における乗員の手の位置を3次元座標として算出する。ここで、3次元座標とは、例えば、x軸、y軸、およびz軸で表される座標系における1点をいう。位置算出部7は、算出した乗員の手の3次元座標を映像のフレームに対応付けて、ジェスチャ検出部3および変化量算出部8に出力する。
 なお、位置算出部7は、乗員の手における予め定められた1点の3次元座標を算出してもよく、複数点の3次元座標を算出してもよい。
 撮影装置10が撮影した乗員の手の位置と、深度センサ11が測定した深度センサ11に対する手の位置とは、撮影装置10および深度センサ11の位置関係に応じた誤差が生じる。従って、位置算出部7は、各位置が同一の基準で表されるように補正する。例えば、位置算出部7は、深度センサ11の位置を基準として、撮影装置10が撮影した乗員の手の位置を補正してもよい。
 本実施の形態1では、位置算出部7が、映像取得部2が取得した映像と、深度情報取得部4が取得した深度情報とに基づいて乗員の手の位置を3次元座標として算出することについて説明したが、これに限るものではない。乗員の手の位置を示す3次元座標は、周知の技術を用いて算出してもよい。
 位置算出部7は、現フレームについて算出した3次元座標に基づいて、映像の次フレームでジェスチャを検出する3次元空間である有効空間を設定してもよい。ここで、次フレームとは、現フレームの1つ後のフレームのことをいう。この場合、次フレームにおいて位置算出部7が算出した3次元座標が有効空間外に存在するとき、判定部5はジェスチャを棄却するなどの判定をすることができる。
 変化量算出部8は、位置算出部7が算出した現フレームにおける乗員の手の3次元座標と、前フレームにおける乗員の手の3次元座標との差分を、乗員の手の位置の変化量として算出する。また、変化量算出部8は、算出した変化量を判定部5に出力する。ここで、前フレームとは、現フレームの1つ前のフレームのことをいう。また、乗員の手の位置の変化量は、乗員の手の位置が前後方向および左右方向に変化した時の移動量であり、上記で説明した深度情報の変化量に相当する。
 なお、変化量算出部8は、前フレームにおける乗員の手の3次元座標を保持しているものとする。そして、変化量算出部8は、変化量を算出した後、前フレームにおける乗員の手の3次元座標を現フレームにおける乗員の手の3次元座標に更新する。更新された現フレームにおける乗員の手の3次元座標は、次フレームで変化量算出部8が変化量を算出するときに前フレームにおける乗員の手の3次元座標として用いられる。
 ジェスチャ検出部3は、映像取得部2が取得した映像と、位置算出部7が算出した乗員の手の3次元座標とに基づいて、乗員の手の動きをジェスチャとして検出する。そして、ジェスチャ検出部3は、検出したジェスチャが予め登録したジェスチャと一致したとき、車載装置12に対するジェスチャとして認識する。
 なお、乗員の手の位置の変化は、位置算出部7が算出した乗員の手の3次元座標の経時変化から把握することができる。また、乗員の手の形状は、映像取得部2が取得した映像から把握することができる。ジェスチャ検出部3は、乗員の手の位置の変化、および乗員の手の形状に基づいてジェスチャを検出することができる。
 判定部5は、変化量算出部8が算出した変化量が予め定められた閾値以上であるとき、ジェスチャ検出部3が検出したジェスチャを棄却する判定を行う。そして、判定部5は、判定した結果を出力部9に出力する。ここで、ジェスチャを棄却するとは、以後のジェスチャの検出を行わないことをいう。
 例えば、図3に示すように、第nフレームのときに後部座席の乗員が自身の手13を横に動かすジェスチャを行っている場合を想定する。この場合、図4に示す第(n+1)フレームのときに、後部座席の乗員の手13を遮るように助手席の乗員の手14が出てくると、深度センサ11は手14との距離を測定し、位置算出部7は手14の3次元位置を算出する。従って、ジェスチャ検出部3は、本来は横方向に動いている手13が前方に動いたと誤って検出する。また、変化量算出部8が算出した変化量は大きくなって予め定められた閾値以上となる。このような場合、判定部5は、ジェスチャ検出部3が検出したジェスチャは誤っていると判定し、当該ジェスチャを棄却する。
 また、判定部5は、ジェスチャ検出部3が車載装置12に対するジェスチャとして認識したとき、ジェスチャ検出部3がジェスチャを認識したと判定する。そして、判定部5は、判定した結果を出力部9に出力する。
 上記で説明した判定部5によるジェスチャの棄却の判定で用いた閾値は、固定値でなくてもよい。例えば、乗員の手の3次元座標の変化量から微分値を算出し、当該微分値の変化量から動的に閾値を設定してもよい。
 出力部9は、判定部5が判定した結果を車載装置12に出力する。例えば、出力部9は、ジェスチャが棄却されたことを車載装置12に出力する。この場合、車載装置12は、ジェスチャが棄却されたことを表示、音声、またはそれらの両方で操作者に通知する。
 また、例えば、出力部9は、ジェスチャを認識したことを車載装置12に出力する。この場合、車載装置12は、ジェスチャに対応する機能を実行する。
 車載装置12は、自車両内の乗員が操作可能な装置であり、例えば、ナビゲーション装置、空調装置、またはオーディオ装置などが挙げられる。
 <動作>
 図5は、ジェスチャ検出装置6の動作の一例を示すフローチャートである。なお、ステップS101~ステップS106,ステップS108の処理は、映像取得部2が取得した映像の1フレームごとに行われる。
 ステップS101において、映像取得部2は、撮影装置10が撮影した車両内の乗員の映像を取得する。
 ステップS102において、深度情報取得部4は、深度センサ11から深度情報を取得する。
 ステップS103において、位置算出部7は、映像取得部2が取得した映像と、深度情報取得部4が取得した深度情報とに基づいて、映像のフレームごとに、3次元空間における乗員の手の位置を3次元座標として算出する。
 ステップS104において、ジェスチャ検出部3は、映像取得部2が取得した映像と、位置算出部7が算出した乗員の手の3次元座標とに基づいて、乗員の手の動きをジェスチャとして検出する。
 ステップS105において、変化量算出部8は、位置算出部7が算出した現フレームにおける乗員の手の3次元座標と、前フレームにおける乗員の手の3次元座標との差分を、乗員の手の位置の変化量として算出する。
 ステップS106において、判定部5は、変化量算出部8が算出した変化量が予め定められた閾値α以上であるか否かを判断する。変化量算出部8が算出した変化量が予め定められた閾値α以上である場合は、ステップS107に移行する。一方、変化量算出部8が算出した変化量が予め定められた閾値α以上でない場合は、ステップS108に移行する。
 ステップS107において、判定部5は、ジェスチャ検出部3が検出したジェスチャを棄却する判定を行う。
 ステップS108において、ジェスチャ検出部3は、ジェスチャを認識したか否かを判断する。具体的には、例えば、ジェスチャ検出部3は、検出したジェスチャの開始から終了までの一連の動きが、予め登録したジェスチャの開始から終了までの一連の動きと同じであるとき、検出したジェスチャが予め登録したジェスチャと一致したと判断する。または、ジェスチャ検出部3は、検出したジェスチャの開始から途中までの動きが、予め登録したジェスチャの開始から途中までの動きと同じであるとき、検出したジェスチャが予め登録したジェスチャと一致したと判断する。そして、ジェスチャ検出部3は、検出したジェスチャが予め登録したジェスチャと一致したとき、車載装置12に対するジェスチャとして認識する。ジェスチャを認識した場合は、ステップS109に移行する。一方、ジェスチャを認識していない場合は、ステップS101に戻る。
 ステップS109において、判定部5は、ジェスチャ検出部3がジェスチャを認識したと判定する。
 ステップS110において、出力部9は、判定部5が判定した結果を出力する。具体的には、ステップS107において判定部5がジェスチャを破棄する判定を行ったとき、出力部9は、ジェスチャが棄却されたことを車載装置12に出力する。また、ステップS109においてジェスチャを認識したと判定部5が判定したとき、出力部9は、ジェスチャが認識されたことを車載装置12に出力する。
 <効果>
 本実施の形態1によれば、変化量算出部8はジェスチャを行っている乗員の手の位置の変化量を算出し、判定部5は変化量が予め定められた閾値以上であるときにジェスチャを棄却する判定を行う。これにより、ジェスチャの誤認識を低減することが可能となる。例えば、後部座席の乗員が手を横方向に動かすジェスチャを行っている最中に、後部座席の乗員の手を遮るように助手席の乗員が手を出した場合、従来ではジェスチャを誤認識することがあったが、本実施の形態1によれば当該ジェスチャを棄却するため誤認識することを防ぐことができる。
 <実施の形態2>
 <構成>
 図6は、本実施の形態2によるジェスチャ検出装置15の構成の一例を示すブロック図である。
 図6に示すように、ジェスチャ検出装置15は、補完部16およびジェスチャログ記憶部17を備えることを特徴としている。その他の構成は、実施の形態1で説明した図2に示すジェスチャ検出装置6と同様であるため、ここでは詳細な説明を省略する。
 ジェスチャログ記憶部17は、位置算出部7が算出した乗員の手の3次元座標を、映像の各フレームに対応付けてジェスチャログとして記憶する。具体的には、ジェスチャログ記憶部17は、ジェスチャの開始から終了までの間、位置算出部7が算出した乗員の手の3次元座標を映像の各フレームに対応付けて記憶する。
 変化量算出部8は、ジェスチャログ記憶部17に記憶されているジェスチャログに基づいて、現フレームに対応する乗員の手の3次元座標と、前フレームに対応する乗員の手の3次元座標との差分を、乗員の手の位置の変化量として算出する。また、変化量算出部8は、後述する補完部16が前フレームに対応する3次元座標を補完したとき、現フレームに対応する3次元座標と、補完部16が補完した前フレームに対応する3次元座標との差分を、乗員の手の位置の変化量として算出する。
 判定部5は、変化量算出部8が算出した変化量が予め定められた閾値以上であるとき、現フレームに対応する3次元座標をジェスチャログ記憶部17から削除する。
 補完部16は、前フレームに対応する3次元座標がジェスチャログ記憶部17から削除されているとき、現フレームに対応する3次元座標と前フレームの1つ前のフレームに対応する3次元座標とに基づいて、前フレームに対応する3次元座標を補完する。
 ここで、補完部16が行う補完について図7~10を用いて説明する。
 図7~10は、後部座席の乗員が自身の手18を「Z」を描くように動かすジェスチャを行う場合を示している。なお、図7~10は、連続する4つのフレームを示しているものとする。
 例えば、図8に示すように、後部座席の乗員の手18を遮るように助手席の乗員の手19が出てくると、ジェスチャ検出部3は手13が前方に動いたと誤って検出する。このとき、判定部5は、位置算出部7が算出してジェスチャログ記憶部17に記憶された手19の3次元座標を、ジェスチャログ記憶部17から削除する。従って、ジェスチャログ記憶部17には、図8に示すフレームに対応する3次元座標が記憶されない。
 その後、図9に示すフレームのとき、補完部16は、図9に示す現フレームに対応する3次元座標と、前フレームの1つ前のフレーム(図7に示すフレーム)に対応する3次元座標とに基づいて、前フレーム(図8に示すフレーム)に対応する3次元座標を補完する。なお、図9に示す破線矢印および「×」印は、図8に示すフレームに対応する3次元座標がジェスチャログ記憶部17から削除されていることを示している。
 なお、補完部16は、線形的に補完してもよく、各フレームに対応する3次元座標の軌跡のベクトルを算出し、当該算出したベクトルの内挿などから補完してもよい。
 図7~10に示す例において、判定部5は、図7に示すフレームに対応する3次元座標に基づいて補完有効空間を設定してもよい。この場合、補完部16は、図8に示す乗員の手19が補完有効空間内に存在するときは図8に示すフレームに対応する3次元座標を補完し、図8に示す乗員の手19が補完有効空間内に存在しないときは図8に示すフレームに対応する3次元座標を補完しないようにしてもよい。また、図8に示す乗員の手19が補完有効空間内に存在しないとき、ジェスチャ検出部3は、当該乗員の手19の動きを新たなジェスチャとして検出してもよい。補完有効空間は、実施の形態1で説明した有効空間と同一の空間であってもよい。
 判定部5は、予め定められたフレーム数に対応する複数の3次元座標を連続してジェスチャログ記憶部17から削除したとき、ジェスチャ検出部3が検出したジェスチャを棄却する判定を行ってもよい。
 <動作>
 図11は、ジェスチャ検出装置15の動作の一例を示すフローチャートである。なお、図11のステップS201~ステップS204,ステップS212,ステップS215は、図5のステップS101~ステップS104,ステップS108,ステップS110に対応しているため、ここでは説明を省略する。以下では、ステップS205~ステップS211,ステップS213,ステップS214について説明する。ステップS201~ステップS212の処理は、映像取得部2が取得した映像の1フレームごとに行われる。
 ステップS205において、判定部5は、ジェスチャログ記憶部17を参照して、前フレームに対応する3次元座標が削除されているか否かを判断する。前フレームに対応する3次元座標が削除されている場合は、ステップS206に移行する。一方、前フレームに対応する3次元座標が削除されていない場合は、ステップS208に移行する。
 ステップS206において、判定部5は、ジェスチャログ記憶部17から連続して削除した複数の3次元座標に対応するフレーム数が閾値以下であり、かつ乗員の手の位置が補完有効空間内にあるか否かを判断する。ジェスチャログ記憶部17から連続して削除した複数の3次元座標に対応するフレーム数が閾値以下であり、かつ乗員の手の位置が補完有効空間内にある場合は、ステップS207に移行する。ジェスチャログ記憶部17から連続して削除した複数の3次元座標に対応するフレーム数が閾値を超える場合、または乗員の手の位置が補完有効空間外にある場合は、ステップS214に移行する。
 ステップS207において、補完部16は、現フレームに対応する3次元座標と前フレームの1つ前のフレームに対応する3次元座標とに基づいて、前フレームに対応する3次元座標を補完する。
 ステップS208において、変化量算出部8は、補完部16が補完を行った場合、現フレームに対応する3次元座標と、補完部16が補完した前フレームに対応する3次元座標との差分を、乗員の手の位置の変化量として算出する。また、変化量算出部8は、補完部16が補完を行っていない場合、現フレームに対応する3次元座標と、前フレームに対応する3次元座標との差分を、乗員の手の位置の変化量として算出する。
 ステップS209において、位置算出部7は、算出した現フレームに対応する3次元座標をジェスチャログ記憶部17に記憶する。また、補完部16は、前フレームに対応する3次元座標を補完したとき、当該補完した3次元座標をジェスチャログ記憶部17に記憶する。
 ステップS210において、判定部5は、変化量算出部8が算出した変化量が予め定められた閾値α以上であるか否かを判断する。変化量算出部8が算出した変化量が予め定められた閾値α以上である場合は、ステップS211に移行する。一方、変化量算出部8が算出した変化量が予め定められた閾値α以上でない場合は、ステップS212に移行する。
 ステップS211において、判定部5は、現フレームに対応する3次元座標をジェスチャログ記憶部17から削除する。
 ステップS213において、判定部5は、ジェスチャ検出部3がジェスチャを認識したと判定する。
 ステップS214において、判定部5は、ジェスチャ検出部3が検出したジェスチャを棄却する判定を行う。
 <効果>
 本実施の形態2によれば、判定部5は、変化量算出部8が算出した変化量が予め定められた閾値以上であるときのフレームに対応する3次元座標をジェスチャログ記憶部17から削除する。そして、補完部16は、削除したフレームに対応する3次元座標を補完する。これにより、ジェスチャの誤認識を低減し、ユーザが意図したジェスチャを認識することができる。
 <実施の形態3>
 <構成>
 図12は、本実施の形態3によるジェスチャ検出装置20の構成の一例を示すブロック図である。
 図12に示すように、ジェスチャ検出装置20は、補正部21を備えることを特徴としている。その他の構成は、実施の形態1で説明した図2に示すジェスチャ検出装置6と同様であるため、ここでは詳細な説明を省略する。
 補正部21は、映像取得部2が取得した映像と、位置算出部が算出した3次元座標と、変化量算出部が算出した変化量とに基づいて、変化量算出部8が算出した変化量に対して予め定められた補正を行う。
 例えば、車体の揺れなどによって乗員の手がぶれてしまい、変化量算出部8が乗員の手の変化量を正確に算出することができないことが考えられる。このような問題を解決するために、補正部21は、変化量算出部8が算出した変化量に対して補正を行う。具体的には、補正部21は、変化量算出部8が算出した変化量に対して、ぶれを抑制する補正を行う。
 運転者または助手席の乗員が行うジェスチャと、後部座席の乗員が行うジェスチャとでは、撮影装置10に映るジェスチャのスケールが異なるため、車体の揺れなどに起因する乗員の手のぶれは、後部座席の乗員よりも運転者または助手席の乗員の方が大きくなる。従って、補正部21は、映像取得部2が取得した映像から得られる乗員の手のスケールと、位置算出部7が算出した3次元座標とに基づいて、後部座席の乗員の手の3次元座標の変化量を抑制する抑制値が小さくなる重みを算出し、運転者または助手席の乗員の手の3次元座標の変化量を抑制する抑制値が大きくなる重みを算出する。そして、補正部21は、算出した重みを変化量算出部8が算出した変化量に乗算することによって、変化量算出部8が算出した変化量を補正する。
 <動作>
 図13は、ジェスチャ検出装置20の動作の一例を示すフローチャートである。なお、図13のステップS301~ステップS305は図5のステップS101~ステップS105に対応し、図13のステップS307~ステップS311は図5のステップS106~ステップS110に対応しているため、ここでは説明を省略する。以下では、ステップS306について説明する。ステップS301~ステップS307,ステップS309の処理は、映像取得部2が取得した映像の1フレームごとに行われる。
 ステップS306において、補正部21は、映像取得部2が取得した映像と、位置算出部が算出した3次元座標と、変化量算出部が算出した変化量とに基づいて、変化量算出部が算出した変化量に対して予め定められた補正を行う。
 <効果>
 本実施の形態3によれば、補正部21は、車体の揺れなどを考慮して変化量算出部8が算出した変化量を補正する。判定部5は、補正部21が補正した変化量に基づいてジェスチャを棄却するか否かを判定する。これにより、ジェスチャの誤認識を低減することができる。
 なお、本実施の形態3では、実施の形態1で説明した図2に示すジェスチャ検出装置6に補正部21を追加する場合について説明したが、これに限るものではない。例えば、実施の形態2で説明した図6に示すジェスチャ検出装置15に補正部21を追加した場合であっても、本実施の形態3と同様の効果が得られる。
 <ハードウェア構成>
 各実施の形態1,2,3で説明したジェスチャ検出装置1,6,15,20における映像取得部2、ジェスチャ検出部3、深度情報取得部4、判定部5、位置算出部7、変化量算出部8、出力部9、補完部16、および補正部21の各機能は、処理回路により実現される。すなわち、ジェスチャ検出装置1,6,15,20は、車両内の乗員の映像を取得し、乗員の手の動きをジェスチャとして検出し、深度情報を取得し、算出した変化量が予め定められた閾値以上であるとき検出したジェスチャを棄却する判定を行い、3次元空間における乗員の手の位置を3次元座標として算出し、乗員の手の位置の変化量を算出し、判定部5が判定した結果を出力し、削除された前フレームに対応する3次元座標を補完し、変化量に対して予め定められた補正を行うための処理回路を備える。処理回路は、専用のハードウェアであってもよく、メモリに格納されるプログラムを実行するプロセッサ(CPU(Central Processing Unit)、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)ともいう)であってもよい。
 処理回路が専用のハードウェアである場合、図14に示すように、処理回路22は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、またはこれらを組み合わせたものが該当する。映像取得部2、ジェスチャ検出部3、深度情報取得部4、判定部5、位置算出部7、変化量算出部8、出力部9、補完部16、および補正部21の各機能をそれぞれ処理回路22で実現してもよく、各機能をまとめて1つの処理回路22で表現してもよい。
 処理回路22が図15に示すプロセッサ23である場合、映像取得部2、ジェスチャ検出部3、深度情報取得部4、判定部5、位置算出部7、変化量算出部8、出力部9、補完部16、および補正部21の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ24に格納される。プロセッサ23は、メモリ24に記録されたプログラムを読み出して実行することにより、各機能を実現する。すなわち、ジェスチャ検出装置1,6,15,20は、車両内の乗員の映像を取得するステップ、乗員の手の動きをジェスチャとして検出するステップ、深度情報を取得するステップ、算出した変化量が予め定められた閾値以上であるとき検出したジェスチャを棄却する判定を行うステップ、3次元空間における乗員の手の位置を3次元座標として算出するステップ、乗員の手の位置の変化量を算出するステップ、判定部5が判定した結果を出力するステップ、削除された前フレームに対応する3次元座標を補完するステップ、変化量に対して予め定められた補正を行うステップが結果的に実行されることになるプログラムを格納するためのメモリ24を備える。また、これらのプログラムは、映像取得部2、ジェスチャ検出部3、深度情報取得部4、判定部5、位置算出部7、変化量算出部8、出力部9、補完部16、および補正部21の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリとは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)EEPROM(Electrically Erasable Programmable Read Only Memory)等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、DVD(Digital Versatile Disc)等、または、今後使用されるあらゆる記憶媒体であってもよい。
 なお、映像取得部2、ジェスチャ検出部3、深度情報取得部4、判定部5、位置算出部7、変化量算出部8、出力部9、補完部16、および補正部21の各機能について、一部の機能を専用のハードウェアで実現し、他の機能をソフトウェアまたはファームウェアで実現するようにしてもよい。
 このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現することができる。
 <システム構成>
 以上で説明したジェスチャ検出装置は、車載用ナビゲーション装置、すなわちカーナビゲーション装置だけでなく、車両に搭載可能なPND(Portable Navigation Device)、および車両の外部に設けられたサーバなどを適宜に組み合わせてシステムとして構築されるナビゲーション装置あるいはナビゲーション装置以外の装置にも適用することができる。この場合、ジェスチャ検出装置の各機能あるいは各構成要素は、上記システムを構築する各機能に分散して配置される。
 具体的には、一例として、ジェスチャ検出装置の機能をサーバに配置することができる。例えば、図16に示すように、車両には撮影装置10、深度センサ11、および車載装置12を備える。また、サーバ25には、映像取得部2、ジェスチャ検出部3、深度情報取得部4、判定部5、位置算出部7、変化量算出部8、および出力部9を備える。このような構成とすることによって、ジェスチャ検出システムを構築することができる。
 このように、ジェスチャ検出装置の各機能を、システムを構築する各機能に分散して配置した構成であっても、上記の実施の形態と同様の効果が得られる。
 また、上記の実施の形態における動作を実行するソフトウェアを、例えばサーバに組み込んでもよい。このソフトウェアをサーバが実行することにより実現されるジェスチャ検出方法は、車両内の乗員を撮影した映像を取得し、取得した映像に基づいて乗員の手の動きをジェスチャとして検出し、ジェスチャをしたときの乗員の手の深度情報を取得し、取得した深度情報の変化量が予め定められた閾値以上であるとき、検出したジェスチャを棄却する判定を行うことを含む。
 このように、上記の実施の形態における動作を実行するソフトウェアをサーバに組み込んで動作させることによって、上記の実施の形態と同様の効果が得られる。
 なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。
 本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
 1 ジェスチャ検出装置、2 映像取得部、3 ジェスチャ検出部、4 深度情報取得部、5 判定部、6 ジェスチャ検出装置、7 位置算出部、8 変化量算出部、9 出力部、10 撮影装置、11 深度センサ、12 車載装置、13,14 手、15 ジェスチャ検出装置、16 補完部、17 ジェスチャログ記憶部、18,19 手、20 ジェスチャ検出装置、21 補正部、22 処理回路、23 プロセッサ、24 メモリ、25 サーバ。

Claims (8)

  1.  車両内の乗員を撮影した映像を取得する映像取得部と、
     映像取得部が取得した前記映像に基づいて前記乗員の手の動きをジェスチャとして検出するジェスチャ検出部と、
     前記ジェスチャをしたときの前記乗員の手の深度情報を取得する深度情報取得部と、
     前記深度情報取得部が取得した前記深度情報の変化量が予め定められた閾値以上であるとき、前記ジェスチャ検出部が検出した前記ジェスチャを棄却する判定を行う判定部と、
    を備える、ジェスチャ検出装置。
  2.  前記映像取得部が取得した前記映像と、前記深度情報取得部が取得した前記深度情報とに基づいて、前記映像のフレームごとに、3次元空間における前記乗員の手の位置を3次元座標として算出する位置算出部と、
     前記位置算出部が算出した前記映像の現フレームにおける前記3次元座標と、前記現フレームの1つ前のフレームである前フレームにおける前記3次元座標との差分を前記変化量として算出する変化量算出部と、
    をさらに備える、請求項1に記載のジェスチャ検出装置。
  3.  前記位置算出部が算出した前記3次元座標を前記映像の各フレームに対応付けてジェスチャログとして記憶するジェスチャログ記憶部をさらに備え、
     前記判定部は、前記変化量が前記予め定められた閾値以上であるとき、前記現フレームに対応する前記3次元座標を前記ジェスチャログ記憶部から削除する、請求項2に記載のジェスチャ検出装置。
  4.  前記前フレームに対応する前記3次元座標が前記ジェスチャログ記憶部から削除されているとき、前記現フレームに対応する前記3次元座標と前記前フレームの1つ前のフレームに対応する前記3次元座標とに基づいて、前記前フレームに対応する前記3次元座標を補完する補完部をさらに備え、
     前記変化量算出部は、前記現フレームに対応する前記3次元座標と、前記補完部が補完した前記3次元座標との差分を前記変化量として算出する、請求項3に記載のジェスチャ検出装置。
  5.  前記ジェスチャログ記憶部は、前記補完部が補完した前記前フレームに対応する前記3次元座標を記憶する、請求項4に記載のジェスチャ検出装置。
  6.  前記映像取得部が取得した前記映像と、前記位置算出部が算出した前記3次元座標と、前記変化量算出部が算出した前記変化量とに基づいて、前記変化量に対して予め定められた補正を行う補正部をさらに備える、請求項2に記載のジェスチャ検出装置。
  7.  前記判定部が判定した結果を出力する出力部をさらに備える、請求項1に記載のジェスチャ検出装置。
  8.  車両内の乗員を撮影した映像を取得し、
     取得した前記映像に基づいて前記乗員の手の動きをジェスチャとして検出し、
     前記ジェスチャをしたときの前記乗員の手の深度情報を取得し、
     取得した前記深度情報の変化量が予め定められた閾値以上であるとき、検出した前記ジェスチャを棄却する判定を行う、ジェスチャ検出方法。
PCT/JP2020/000070 2020-01-06 2020-01-06 ジェスチャ検出装置およびジェスチャ検出方法 WO2021140543A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/000070 WO2021140543A1 (ja) 2020-01-06 2020-01-06 ジェスチャ検出装置およびジェスチャ検出方法
JP2021569612A JP7072737B2 (ja) 2020-01-06 2020-01-06 ジェスチャ検出装置およびジェスチャ検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/000070 WO2021140543A1 (ja) 2020-01-06 2020-01-06 ジェスチャ検出装置およびジェスチャ検出方法

Publications (1)

Publication Number Publication Date
WO2021140543A1 true WO2021140543A1 (ja) 2021-07-15

Family

ID=76787927

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/000070 WO2021140543A1 (ja) 2020-01-06 2020-01-06 ジェスチャ検出装置およびジェスチャ検出方法

Country Status (2)

Country Link
JP (1) JP7072737B2 (ja)
WO (1) WO2021140543A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043194A (ja) * 2010-08-19 2012-03-01 Sony Corp 情報処理装置、情報処理方法およびプログラム
JP2015007946A (ja) * 2013-06-26 2015-01-15 キヤノン株式会社 情報処理装置およびその制御方法、プログラム、記録媒体
WO2018193579A1 (ja) * 2017-04-20 2018-10-25 矢崎総業株式会社 画像認識装置
JP2018534699A (ja) * 2015-11-20 2018-11-22 クゥアルコム・インコーポレイテッドQualcomm Incorporated 誤りのある深度情報を補正するためのシステムおよび方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043194A (ja) * 2010-08-19 2012-03-01 Sony Corp 情報処理装置、情報処理方法およびプログラム
JP2015007946A (ja) * 2013-06-26 2015-01-15 キヤノン株式会社 情報処理装置およびその制御方法、プログラム、記録媒体
JP2018534699A (ja) * 2015-11-20 2018-11-22 クゥアルコム・インコーポレイテッドQualcomm Incorporated 誤りのある深度情報を補正するためのシステムおよび方法
WO2018193579A1 (ja) * 2017-04-20 2018-10-25 矢崎総業株式会社 画像認識装置

Also Published As

Publication number Publication date
JP7072737B2 (ja) 2022-05-20
JPWO2021140543A1 (ja) 2021-07-15

Similar Documents

Publication Publication Date Title
CN107016705B (zh) 计算机视觉系统中的地平面估计
JP4940168B2 (ja) 駐車スペース認識装置
JP4959606B2 (ja) 入力装置およびこれを備えた車載情報装置
CN110537207B (zh) 脸部朝向推定装置及脸部朝向推定方法
JP6479272B1 (ja) 視線方向較正装置、視線方向較正方法および視線方向較正プログラム
JP6657024B2 (ja) ジェスチャ判定装置
JP2016190575A (ja) 駐車支援装置、及び駐車支援システム
JP2021051347A (ja) 距離画像生成装置及び距離画像生成方法
WO2021140543A1 (ja) ジェスチャ検出装置およびジェスチャ検出方法
JP2007038782A (ja) 車両用診断装置
JP5471361B2 (ja) 画像判定装置、画像判定方法および画像判定プログラム
JP7003335B2 (ja) 操作者判定装置および操作者判定方法
US20220314796A1 (en) Vehicle display device
KR101976498B1 (ko) 차량용 제스처 인식 시스템 및 그 방법
JP7051014B2 (ja) 顔検出処理装置および顔検出処理方法
CN110895675B (zh) 用于确定3d空间中的对象的特征点的坐标的方法
JP2007038859A (ja) 表示機器制御装置
WO2021229741A1 (ja) ジェスチャ検出装置およびジェスチャ検出方法
JP7483060B2 (ja) 手検出装置、ジェスチャー認識装置および手検出方法
US20210061102A1 (en) Operation restriction control device and operation restriction control method
WO2023170777A1 (ja) 乗員監視装置、乗員監視方法、及び乗員監視プログラム
WO2021240668A1 (ja) ジェスチャ検出装置およびジェスチャ検出方法
JP2017224162A (ja) ジェスチャ判定装置
US20240070876A1 (en) Control apparatus, method, and non-transitory computer-readable storage medium
US20230154226A1 (en) Gesture detection apparatus and gesture detection method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20912005

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021569612

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20912005

Country of ref document: EP

Kind code of ref document: A1