WO2021157691A1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
WO2021157691A1
WO2021157691A1 PCT/JP2021/004301 JP2021004301W WO2021157691A1 WO 2021157691 A1 WO2021157691 A1 WO 2021157691A1 JP 2021004301 W JP2021004301 W JP 2021004301W WO 2021157691 A1 WO2021157691 A1 WO 2021157691A1
Authority
WO
WIPO (PCT)
Prior art keywords
fingers
information processing
information
processing device
finger
Prior art date
Application number
PCT/JP2021/004301
Other languages
English (en)
French (fr)
Inventor
勇人 西岡
貴紀 奥
晋一 古屋
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202180011412.3A priority Critical patent/CN115023732A/zh
Priority to JP2021575881A priority patent/JPWO2021157691A1/ja
Priority to EP21751322.5A priority patent/EP4102460A4/en
Priority to US17/792,327 priority patent/US20230054973A1/en
Publication of WO2021157691A1 publication Critical patent/WO2021157691A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • G10H2220/455Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data

Definitions

  • the present invention relates to an information processing device, an information processing method, and an information processing program.
  • the information processing apparatus of one form according to the present disclosure is based on the movement of the fingers with respect to the object including the contact movement of the fingers with respect to the object and the image information including the object.
  • An estimation unit that estimates time-series information regarding the posture of the fingers.
  • Configuration example of information processing system 3.2 Configuration example of sensor information processing device 3.3.
  • Configuration example of information processing device 3.4 Operation example of information processing system 3.5.
  • Outline of sensing by wearable camera 3.6 Structure of wearable camera 3.7.
  • Fourth Embodiment 4.1 Configuration example of information processing system 4.2.
  • the shooting range is narrowed down to the operating range of the hand, a plurality of high-speed cameras are installed on a flat surface in the environment, and the two feature points of the hand are taken from the image taken by the high-speed camera.
  • the dimensional position and the like are estimated, and the posture of the fingers is estimated based on the two-dimensional position and the like of the estimated feature points.
  • the information processing system can estimate the posture of the fingers without attaching a sensor or a marker to the joints of the fingers or the like. That is, the information processing system can estimate the posture of the fingers without interfering with the movement of the fingers by attaching sensors, markers, or the like. Therefore, the information processing system can appropriately estimate the posture of the fingers.
  • FIG. 1 is a diagram showing an example of information processing according to the first embodiment of the present disclosure.
  • each of the three high-speed cameras C1 to C3 is a piano from the position of each camera. Take a picture of the playing hand of the performer who plays the piano.
  • each of the three high-speed cameras C1 to C3 captures a keystroke operation of a finger with respect to the keyboard or a movement operation of moving the position of the finger with respect to the keyboard.
  • the sensor information processing device 10 acquires each of the three moving images taken from the positions of the three high-speed cameras C1 to C3. When the sensor information processing device 10 acquires three moving images, the sensor information processing device 10 transmits the acquired three moving images to the information processing device 100.
  • the information processing device 100 estimates time-series information regarding the posture of the fingers based on the image information including the movement of the fingers with respect to the object including the contact movement of the fingers with respect to the object and the object.
  • the object is a keyboard
  • the movement of the fingers with respect to the object is a keystroke movement of the fingers with respect to the keyboard or a movement movement of the fingers with respect to the keyboard.
  • the estimation unit 132 of the information processing device 100 indicates the joints, palms, backs, and wrists of the fingers included in the moving images of each camera for each moving image (hereinafter, also referred to as a sensor image) of each camera.
  • Estimate the two-dimensional position of the feature point of For example, the estimation unit 132 of the information processing apparatus 100 is machine-learned in advance to estimate the two-dimensional positions of the joints of the fingers, the palm, the back of the hand, and the feature points of the wrist included in the moving image from each moving image of each camera.
  • the model M1 the two-dimensional positions of the knuckles, palms, backs of hands, and wrists included in the moving images of each camera are estimated.
  • the estimation unit 132 of the information processing apparatus 100 determines the joints of the fingers, the palms, and the backs of the hands based on the two-dimensional positions of the joints of the fingers, the palms, the backs of the hands, and the feature points of the wrists included in the estimated moving images of each camera. , Estimate the three-dimensional position of the feature point of the wrist. Subsequently, the estimation unit 132 of the information processing device 100 estimates the time-series information of the posture of the fingers based on the three-dimensional positions of the joints of the fingers, the palm, the back of the hand, and the feature points of the wrist.
  • the estimation unit 132 of the information processing apparatus 100 determines the feature points of each joint or fingertip, palm, back or wrist of the finger included in the moving image of each camera as time-series information of the posture of the finger. Estimate time-series information of position, velocity, acceleration, or trajectory, or angle, angular velocity, or angular acceleration (hereinafter, also referred to as three-dimensional feature amount) of each joint of the finger.
  • the estimation unit 132 of the information processing device 100 stores the time-series information of the estimated three-dimensional feature amount of the finger in the three-dimensional feature amount database 123 of the storage unit 120. Further, the information processing apparatus 100 refers to the three-dimensional feature amount database 123 and transmits the time-series information of the three-dimensional feature amount to the application server 200.
  • the application server 200 acquires time-series information of three-dimensional features.
  • the application server 200 generates an image in which the time-series information of the three-dimensional feature amount is made visible based on the acquired time-series information of the three-dimensional feature amount.
  • the application server 200 may generate content that enables time-series information of three-dimensional features to be output together with sound.
  • the application server 200 distributes the generated content to the user's terminal device 300.
  • the terminal device 300 displays an image in which the time-series information of the three-dimensional feature amount is made visible. Further, the terminal device 300 may output time-series information of the three-dimensional feature amount together with the sound.
  • FIG. 2 is a diagram showing a configuration example of an information processing system according to the first embodiment of the present disclosure.
  • the information processing system 1 according to the first embodiment includes a sensor information processing device 10, an information processing device 100, an application server 200, and a terminal device 300.
  • the various devices shown in FIG. 2 are connected to each other via a network N (for example, the Internet) so as to be able to communicate by wire or wirelessly.
  • the information processing system 1 shown in FIG. 2 includes an arbitrary number of sensor information processing devices 10, an arbitrary number of information processing devices 100, an arbitrary number of application servers 200, and an arbitrary number of terminal devices 300. It may be included.
  • the sensor information processing device 10 acquires an image taken by a high-speed monochrome camera or a high-speed infrared camera from the high-speed monochrome camera or a high-speed infrared camera.
  • the sensor information processing device 10 acquires an image including the movement of the fingers and fingers with respect to the object including the touching movement of the fingers with respect to the object and the object. Further, when the sensor information processing device 10 acquires an image from the camera, the sensor information processing device 10 transmits the image information including the movement of the fingers to the object including the contact movement of the fingers to the object and the object to the information processing device 100.
  • the information processing device 100 acquires image information including the movement of the fingers and fingers with respect to the object including the contact movement of the fingers with respect to the object and the object from the sensor information processing device 10. Subsequently, the information processing apparatus 100 estimates time-series information regarding the posture of the fingers based on the image information including the movements of the fingers with respect to the object including the contact movements of the fingers with respect to the object and the object. In addition, the information processing device 100 transmits time-series information regarding the estimated posture of the fingers to the application server 200.
  • the sensor information processing device 10 and the information processing device 100 may be integrated devices.
  • the information processing apparatus 100 acquires an image taken by the high-speed monochrome camera or the high-speed infrared camera from the high-speed monochrome camera or the high-speed infrared camera.
  • the information processing device 100 acquires an image including a finger movement with respect to the object including a finger contact movement with the object and the object.
  • the application server 200 acquires time-series information regarding the posture of the fingers estimated by the information processing device 100 from the information processing device 100.
  • the application server 200 acquires the time-series information regarding the posture of the fingers, it generates contents (for example, moving images and sounds) for presenting the time-series information regarding the postures of the fingers to the user.
  • the application server 200 generates the content, the application server 200 distributes the generated content to the terminal device 300.
  • the terminal device 300 is an information processing device used by the user.
  • the terminal device 300 is realized by, for example, a smartphone, a tablet terminal, a notebook PC (Personal Computer), a mobile phone, a PDA (Personal Digital Assistant), or the like.
  • the terminal device 300 is a screen such as a liquid crystal display and has a screen having a touch panel function, and an image displayed on the screen by a user such as a tap operation, a slide operation, a scroll operation, etc. by a finger, a stylus, or the like. Accepts various operations for content such as.
  • the terminal device 300 includes a speaker and outputs sound.
  • the terminal device 300 receives the content from the application server 200.
  • the terminal device 300 displays the received content (for example, a moving image) on the screen. Further, the terminal device 300 displays a moving image on the screen and outputs a sound (for example, a piano sound) in accordance with the moving image.
  • FIG. 3 is a diagram showing a configuration example of the information processing device according to the first embodiment of the present disclosure.
  • the information processing device 100 according to the first embodiment includes a communication unit 110, a storage unit 120, and a control unit 130.
  • the communication unit 110 wirelessly communicates with an external information processing device such as the sensor information processing device 10, the application server 200, and the terminal device 300 via the network N.
  • the communication unit 110 is realized by, for example, a NIC (Network Interface Card), an antenna, or the like.
  • the network N may be a public communication network such as the Internet or a telephone line network, or may be a communication network provided in a limited area such as a LAN (Local Area Network) or a WAN (Wide Area Network). good.
  • the network N may be wired. In that case, the communication unit 110 performs wired communication with an external information processing device.
  • the storage unit 120 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • Various programs, setting data, and the like are stored in the storage unit 120.
  • the storage unit 120 has a sensor database 121, a model database 122, and a three-dimensional feature amount database 123.
  • the sensor database 121 stores image information acquired from the sensor information processing device 10. Specifically, the sensor database 121 stores information about an image including a finger movement with respect to an object and an image including a finger contact movement with the object.
  • Model database 122 The model database 122 stores information about the machine learning model. Specifically, the model database 122 has been learned to estimate time-series information (time-series information of three-dimensional feature quantities of fingers) regarding the posture of fingers based on image information including finger movements and objects. Stores information about the first machine learning model. For example, the model database 122 stores the model data MDT1 of the first machine learning model.
  • the model data MDT1 is an input layer into which image information including finger movements and an object is input, an output layer, and any layer from the input layer to the output layer, which belongs to a layer other than the output layer.
  • Image information input to the input layer including one element and a second element whose value is calculated based on the weights of the first element and the first element, according to the image information input to the input layer.
  • the information processing apparatus 100 may be made to function so as to output the time-series information of the three-dimensional feature amount of the fingers included in the output layer.
  • the first element included in the model data MDT1 corresponds to input data (xi) such as x1 and x2.
  • the weight of the first element corresponds to the coefficient ai corresponding to xi.
  • the regression model can be regarded as a simple perceptron having an input layer and an output layer. When each model is regarded as a simple perceptron, the first element corresponds to any node of the input layer, and the second element can be regarded as the node of the output layer.
  • the model data MDT1 is realized by a neural network having one or more intermediate layers such as DNN (Deep Neural Network).
  • DNN Deep Neural Network
  • the first element included in the model data MDT1 corresponds to either the node of the input layer or the intermediate layer.
  • the second element corresponds to a node in the next stage, which is a node to which a value is transmitted from a node corresponding to the first element.
  • the weight of the first element corresponds to a connection coefficient which is a weight considered for the value transmitted from the node corresponding to the first element to the node corresponding to the second element.
  • the information processing device 100 calculates time-series information of the three-dimensional feature amount of the fingers included in the image information by using a model having an arbitrary structure such as the regression model and the neural network described above.
  • the model data MDT1 has a coefficient so as to output time-series information of the three-dimensional feature amount of the finger included in the image information when the image information including the movement of the finger and the object is input. Set.
  • the information processing apparatus 100 uses such model data MDT1 to calculate time-series information of three-dimensional feature quantities of fingers.
  • the three-dimensional feature amount database 123 contains the position, speed, acceleration, or trajectory of each joint of the finger or each fingertip, palm, back or wrist feature point included in the moving image of each camera, or the angle of each joint of the finger. Stores time-series information of three-dimensional feature quantities, which are angular velocity or angular acceleration.
  • Control unit 130 In the control unit 130, various programs (corresponding to an example of an information processing program) stored in a storage device inside the information processing device 100 by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like have a RAM as a work area. It is realized by executing as. Further, the control unit 130 is realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • control unit 130 has an acquisition unit 131, an estimation unit 132, and a provision unit 133, and realizes or executes the information processing operation described below.
  • the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 3, and may be another configuration as long as it is a configuration for performing information processing described later.
  • the acquisition unit 131 acquires image information including the movement of the fingers and fingers with respect to the object including the touching movement of the fingers with respect to the object and the object. Specifically, the acquisition unit 131 acquires image information from the sensor information processing device 10. More specifically, the acquisition unit 131 acquires a plurality of image information acquired by each of the plurality of cameras installed so as to photograph the object from a plurality of different directions. For example, the acquisition unit 131 acquires a plurality of image information captured by each of three or more cameras installed on both sides of the object and above the object.
  • the estimation unit 132 estimates time-series information regarding the posture of the fingers based on the image information including the movement of the fingers with respect to the object including the contact movement of the fingers with respect to the object and the object. Specifically, the estimation unit 132 estimates the time-series information of the three-dimensional feature amount of the fingers as the time-series information regarding the posture of the fingers. For example, the estimation unit 132 provides time-series information regarding the posture of the fingers, such as the position, speed, acceleration, or trajectory of each joint of the finger or each fingertip, palm, back of the hand, or feature point of the wrist, or the angle of each joint of the finger. Estimate the time-series information of angular velocity or angular acceleration.
  • the estimation unit 132 estimates the two-dimensional positions of the knuckles, palms, backs of hands, and wrists included in the moving images of each camera for each moving image of each camera. For example, the estimation unit 132 uses a machine learning model learned in advance to estimate the two-dimensional positions of the knuckles, palms, backs of hands, and wrist feature points included in the moving images from the moving images of each camera. The two-dimensional positions of the knuckles, palms, backs of hands, and wrists included in the moving images of each camera are estimated.
  • the estimation unit 132 determines the feature points of the finger joints, palms, backs of hands, and wrists based on the two-dimensional positions of the feature points of the finger joints, palms, backs of hands, and wrists included in the estimated motion images of each camera. Estimate the three-dimensional position of. Subsequently, the estimation unit 132 estimates the time-series information of the posture of the fingers based on the three-dimensional positions of the feature points of the finger joints, palms, backs of hands, and wrists. More specifically, the estimation unit 132 provides time-series information on the posture of the fingers, such as the positions, speeds, and accelerations of the joints or fingertips of the fingers, palms, backs of hands, or wrists included in the moving images of each camera. Or, the time-series information of the orbit or the angle, angular velocity, or angular acceleration (hereinafter, also referred to as three-dimensional feature amount) of each joint of the finger is estimated.
  • the estimation unit 132 uses a first machine learning model learned to estimate the time series information regarding the posture of the fingers based on the image information including the movement of the fingers and the object, and the time series regarding the posture of the fingers. Information may be estimated. For example, the estimation unit 132 inputs image information including the movement of the fingers and the object into the first machine learning model, and uses each joint of the fingers included in the moving image of each camera as time-series information of the posture of the fingers. Alternatively, time-series information on the position, speed, acceleration, or trajectory of the feature points of each fingertip, palm, palm, or wrist, or the angle, angular velocity, or angular acceleration (hereinafter, also referred to as three-dimensional feature amount) of each joint of the finger. presume.
  • the providing unit 133 provides the user with time-series information regarding the posture of the fingers estimated by the estimating unit 132. Specifically, when the providing unit 133 refers to the three-dimensional feature amount database 123 and acquires the time-series information regarding the posture of the fingers, the content for presenting the time-series information regarding the posture of the fingers to the user. Generate (for example, moving image or sound). For example, the providing unit 133 generates an image in which the posture of the fingers, the position of the feature point, the speed, and the acceleration are represented by arrows or colors. In addition, the providing unit 133 generates content that presents the generated image and sound together. Subsequently, the providing unit 133 distributes the generated content to the terminal device 300.
  • the providing unit 133 may transmit the time-series information regarding the posture of the fingers to the application server 200, and provide the time-series information regarding the posture of the fingers to the user via the application server 200.
  • FIG. 4 is a diagram for explaining an operation example of the information processing system according to the first embodiment of the present disclosure.
  • the information processing apparatus 100 acquires sensor images 1, 2, 3, ... Taken by each of a plurality of high-speed cameras installed in the environment. Subsequently, the information processing device 100 inputs the acquired sensor images 1, 2, 3, ... To the machine learning model M1. The information processing device 100 estimates, as output information of the machine learning model M1, the two-dimensional positions of the finger joints, palms, backs of hands, and wrist feature points included in the sensor images 1, 2, 3, ....
  • the information processing apparatus 100 includes the joints of the fingers, the palm, the back of the hand, and the wrist based on the two-dimensional positions of the feature points of the finger joint, the palm, the back of the hand, and the wrist and the camera parameters included in each of the estimated sensor images. Estimate the three-dimensional position of the feature point of. Subsequently, the information processing device 100 estimates the time-series information of the three-dimensional feature amount of the finger based on the three-dimensional position of the feature points of the finger joint, the palm, the back of the hand, and the wrist. Subsequently, the information processing device 100 stores the time-series information of the three-dimensional feature amount of the fingers in the database.
  • FIG. 5 is a diagram showing an arrangement example of a camera and lighting according to the first embodiment of the present disclosure.
  • a plurality of cameras are installed so as to photograph a keyboard, which is an object, from a plurality of different directions.
  • three cameras C1 to C3 are installed on both sides of the keyboard and above the keyboard.
  • the image information is a plurality of image information acquired by each of a plurality of cameras installed so as to shoot an object from a plurality of different directions.
  • the image information is a plurality of image information taken by each of three or more cameras installed on both sides of the object and above the object.
  • the camera lighting is installed in a gate-shaped structure surrounding the piano keyboard.
  • the three cameras C1 to C3 were attached to a gate-shaped structure surrounding the piano keyboard, and the image information taken by each camera was installed in the vicinity of each of the three cameras C1 to C3 with fingers.
  • the picture is taken while illuminated by a light source.
  • the plurality of cameras are attached to a gate-shaped structure surrounding the object, and each of the plurality of image information images is taken with the fingers illuminated by a light source installed in the vicinity of each camera.
  • a ring light may be attached to each camera.
  • a canopy may be provided on the performer side so that the lighting cannot be seen.
  • cameras C1 to C3 which are high-speed monochrome cameras (for example, 90 fps or more), are attached to the environment.
  • the image information captured by the cameras C1 to C3 is image information captured by a high-speed monochrome camera or a high-speed infrared camera.
  • the black-and-white camera is more suitable for high-speed photography because it also captures infrared light (increasing the amount of light with visible light affects the operation of the person to be measured).
  • RGB camera (hereinafter referred to as a normal camera) It is also possible to use). Also, the camera is mounted so that it is on one plane in the frame or room. As a result, epipolar geometry can be used for calculation, and improvement in calculation accuracy can be expected.
  • the thumb and little finger are often hidden by the hand, so place the camera on the opposite side of the shooting direction. This can cover the thumb and little finger being hidden by the hand. Specifically, the camera on the opposite side is tilted in a range of about 45 degrees from parallel to the ground plane, and the camera is installed. As a result, as shown in FIG. 5, even if there are only three cameras, the thumb and little finger can be tracked by two or more cameras, and data loss when estimating the three-dimensional position of the fingers is reduced. ..
  • the imaging range of the camera should be limited to the range that can be taken by the hand. Since the resolution of the camera is finite, the resolution and accuracy of position estimation will be higher if the shooting range is narrowed down (for example, if a 1 m range is captured by a 2000 px sensor, the resolution will be 0.5 mm).
  • the shooting range of the cameras C1 to C3 is the range from the fingertips of the fingers of the performer's left hand H1 and right hand H2 to the wrist.
  • the image information is image information taken with the range from the fingertips of the fingers to the wrist as the shooting range.
  • FIG. 6 is a diagram showing an example of a set of a camera arrangement and a captured image according to the first embodiment of the present disclosure.
  • four cameras (1) to (4) are installed so as to shoot the target keyboard from a plurality of different directions. Specifically, four cameras (1) to (4) are installed on both sides of the keyboard and above the keyboard.
  • the image information is a plurality of image information acquired by each of a plurality of cameras installed so as to shoot an object from a plurality of different directions.
  • the image taken by the camera (1) is an image taken by the camera (1) installed on the left side of the keyboard.
  • the image taken by the camera (2) is an image taken by the camera (2) installed on the upper left side of the keyboard.
  • the image taken by the camera (3) is an image taken by the camera (3) installed on the upper right side of the keyboard.
  • the image taken by the camera (4) is an image taken by the camera (4) installed on the upper right side of the keyboard.
  • FIG. 7 is a diagram showing an example of two-dimensional positions of hand feature points included in the captured image according to the first embodiment of the present disclosure.
  • FIG. 7 shows an example of the two-dimensional positions of the feature points of the hand included in the image taken by the camera installed above the keyboard.
  • FIG. 8 is a diagram showing an example of two-dimensional positions of hand feature points included in the captured image according to the first embodiment of the present disclosure.
  • FIG. 8 shows an example of the two-dimensional positions of the feature points of the hand included in the image taken by the camera installed on the left side of the keyboard.
  • FIG. 9 is a diagram showing an example of two-dimensional positions of hand feature points included in the captured image according to the first embodiment of the present disclosure.
  • FIG. 9 shows an example of the two-dimensional positions of the feature points of the hand included in the image taken by the camera installed on the right side of the keyboard.
  • FIG. 10 is a diagram showing an example of presenting information regarding the posture of fingers according to the first embodiment of the present disclosure.
  • the providing unit 133 provides an image in which the loci of movements of the fingers are superimposed by lines.
  • the terminal device 300 displays an image in which the loci of movements of the fingers are superimposed by lines. Further, the terminal device 300 outputs the sound of the piano performance together with the movement of the fingers.
  • FIG. 11 is a diagram showing an example of presenting information regarding the posture of the fingers according to the first embodiment of the present disclosure.
  • the providing unit 133 provides the content in which the time change such as the speed and the angle of the finger is represented by a graph.
  • the terminal device 300 displays content that graphically represents changes over time such as the speed and angle of the fingers.
  • FIG. 12 is a diagram for explaining an operation example of the information processing system according to the modified example of the first embodiment of the present disclosure.
  • the movement of the fingers also appears on the back of the hand as the movement of the tendons. Therefore, in the example shown in FIG. 12, the estimation unit 132 estimates the time-series information regarding the posture of the fingers based on the image information of the back of the hand performing the movement of the fingers.
  • the estimation unit 132 uses a second machine learning model learned to estimate time-series information regarding the posture of the fingers based on the image information of the back of the hand performing the movement of the fingers. Estimate time-series information about the posture of. For example, the estimation unit 132 extracts the image information of the feature region of the back of the hand from the image information taken by the high-speed camera installed in the environment. For example, the estimation unit 132 extracts the image information of the tendon portion of the back of the hand as the image information of the characteristic region of the back of the hand.
  • the estimation unit 132 uses a second machine learning model learned to estimate time-series information regarding the joint angles of the fingers based on the image information of the characteristic region of the back of the hand, and when it relates to the angles of the joints of the fingers. Estimate series information.
  • the estimation unit 132 acquires image information taken by a high-speed camera installed in the environment from the sensor information processing device 10. Subsequently, the estimation unit 132 extracts the characteristic region of the back of the hand from the acquired image information. Subsequently, the estimation unit 132 inputs the extracted image information of the characteristic region of the back of the hand into the second machine learning model, and estimates the time series information regarding the angles of the finger joints included in the image taken by the high-speed camera. ..
  • FIG. 13 is a diagram for explaining a finger-passing playing method in piano performance.
  • the index finger straddles the thumb, which is called "finger-passing”
  • the thumb may be hidden.
  • the dotted line shown in FIG. 13 indicates the position of the thumb that is hidden behind the palm and disappears when the hand performing the finger-passing method in piano performance is viewed from directly above.
  • the information processing system 2 complements the posture estimation of the fingers, which is difficult to photograph by the camera installed in the environment, by the sensing data detected by the user's thumb and a plurality of IMU sensors installed on the back of the hand.
  • FIG. 14 is a diagram showing a configuration example of an information processing system according to a second embodiment of the present disclosure.
  • the information processing system 2 according to the second embodiment is different from the information processing system 1 according to the first embodiment in that it includes a sensor information processing device 20.
  • the information processing system 2 according to the second embodiment is different in that the information processing device 100A is provided instead of the information processing device 100 of the information processing system 1 according to the first embodiment. Therefore, in the following description, the sensor information processing device 20 will be mainly described, and detailed description of other configurations included in the information processing system 2 according to the second embodiment will be omitted.
  • the various devices shown in FIG. 14 are connected so as to be communicable by wire or wirelessly via a network N (for example, the Internet).
  • the information processing system 2 shown in FIG. 14 includes an arbitrary number of sensor information processing devices 10, an arbitrary number of sensor information processing devices 20, an arbitrary number of information processing devices 100A, and an arbitrary number of application servers 200. And any number of terminal devices 300 may be included.
  • the sensor information processing device 20 acquires sensing data detected by each of the plurality of IMU sensors installed on the thumb and back of the user from each of the plurality of IMU sensors. Further, the sensor information processing unit 20 estimates the relative posture between the plurality of IMU sensors based on the sensing data acquired from each of the plurality of IMU sensors. When the sensor information processing device 20 estimates the relative posture between the plurality of IMU sensors, the sensor information processing device 20 transmits information regarding the estimated relative posture between the plurality of IMU sensors to the information processing device 100A.
  • the information processing device 100A acquires the sensing data detected by each of the plurality of IMU sensors from the sensor information processing device 20.
  • the information processing device 100A estimates the posture of the fingers, which is difficult to photograph by a camera installed in the environment, based on the sensing data.
  • the sensor information processing device 20 and the information processing device 100A may be integrated devices. In that case, the information processing unit 100A acquires the sensing data detected by each of the plurality of IMU sensors installed on the thumb and the back of the hand of the user from each of the plurality of IMU sensors. Further, the information processing device 100A estimates the relative posture between the plurality of IMU sensors based on the sensing data acquired from each of the plurality of IMU sensors.
  • FIG. 15 is a diagram showing a configuration example of the sensor information processing device according to the second embodiment of the present disclosure.
  • the sensor information processing device 20 includes a posture estimation unit and a communication unit.
  • Each posture estimation unit acquires sensing data from each of the three IMU sensors 1 to 3.
  • the posture estimation unit estimates the relative posture between the three IMU sensors 1 to 3 based on the sensing data acquired from each of the three IMU sensors 1 to 3.
  • the posture estimation unit estimates the relative posture between the three IMU sensors 1 to 3, it outputs information on the estimated posture to the communication unit.
  • the communication unit communicates with the information processing device 100A via the network N.
  • the communication unit includes Wi-Fi (registered trademark), ZigBee (registered trademark), Bluetooth (registered trademark), Bluetooth Low Energy (registered trademark), ANT (registered trademark), ANT + (registered trademark), or EnOcean Alliance (registered trademark).
  • Wireless communication with the information processing device 100A may be performed by using communication by a registered trademark) or the like.
  • the communication unit acquires information on the relative attitude between the three IMU sensors 1 to 3 from the attitude estimation unit.
  • the communication unit acquires information on the relative posture between the three IMU sensors 1 to 3, it transmits the acquired information on the relative posture to the information processing device 100A.
  • FIG. 16 is a diagram showing a configuration example of the information processing device according to the second embodiment of the present disclosure.
  • the information processing apparatus 100A according to the second embodiment is compared with the information processing apparatus 100 according to the first embodiment, instead of the estimation unit 132 and the sensor database 121, the estimation unit 132A.
  • the difference is that the sensor database 121A is provided. Therefore, in the following description, the estimation unit 132A and the sensor database 121A will be mainly described, and detailed description of other configurations included in the information processing device 100A according to the second embodiment will be omitted.
  • the sensor database 121A is different from the sensor database 121 of the information processing device 100 according to the first embodiment in that it stores information on relative postures between a plurality of IMU sensors acquired from the sensor information processing device 20.
  • the sensor database 121A stores information regarding the relative posture between the plurality of IMU sensors installed on the thumb and the back of the hand of the user acquired by the acquisition unit 131.
  • the estimation unit 132A estimates time-series information regarding the posture of the user's fingers based on the sensing data detected by a plurality of IMU sensors installed on the user's thumb and back of the hand. Specifically, the estimation unit 132A refers to the sensor database 121A and acquires information on the relative posture between the plurality of IMU sensors installed on the thumb and back of the user. In addition, the estimation unit 132A acquires information on a finger model in which a plurality of IMU sensors are installed.
  • the estimation unit 132A includes information on the relative posture between the plurality of IMU sensors, information on the model of the fingers, and feature points of the joints, palms, backs of hands, and wrists of the fingers included in the estimated moving images of each camera. Based on the information about the dimensional position, the three-dimensional positions of the knuckles, palms, backs of hands, and wrists are estimated.
  • the estimation unit 132A determines the predetermined position based on the information on the relative posture between the plurality of IMU sensors and the information on the model of the finger. Estimate the three-dimensional position of the feature points of the fingers. Further, when the estimation unit 132A determines that the moving image of each camera includes the characteristic points of the fingers, but the accuracy is low, the estimation unit 132A provides information on the relative posture between the plurality of IMU sensors and information on the model of the fingers.
  • the estimation unit 132A estimates the time-series information of the posture of the predetermined finger based on the estimated three-dimensional position of the finger. More specifically, the estimation unit 132A estimates the time-series information of the three-dimensional feature amount of the predetermined finger as the time-series information of the posture of the predetermined finger.
  • the estimation unit 132A may increase the weight of the value estimated based on the information about the IMU sensor for the angle of the joint of the finger to which the IMU sensor is attached. Further, the estimation unit 132A may complement the position of the joint of the finger to which the IMU sensor is attached by using the information of the sensor image when the sensor image exists. As a result, not only the position of the hidden finger can be complemented, but also the accuracy of the angle estimation of the hidden finger joint can be expected to be improved.
  • FIG. 17 is a diagram for explaining an operation example of the information processing system according to the second embodiment of the present disclosure.
  • the information processing apparatus 100A acquires sensor images 1, 2, 3, ... Taken by each of the plurality of high-speed cameras installed in the environment. Subsequently, the information processing apparatus 100A inputs the acquired sensor images 1, 2, 3, ... To the machine learning model M1.
  • the information processing device 100A estimates the two-dimensional positions of the finger joints, palms, backs of hands, and wrist feature points included in the sensor images 1, 2, 3, ... As output information of the machine learning model M1. Further, the information processing device 100A acquires the camera parameters of each of the plurality of high-speed cameras.
  • the information processing device 100A acquires sensing data detected from a plurality of IMU sensors 1, 2, 3, ... Installed on the user's predetermined fingers and the back of the hand, respectively. do. Subsequently, the information processing device 100A estimates the relative posture between the plurality of IMU sensors based on the acquired sensing data. In addition, the information processing device 100A acquires information about a finger model in which a plurality of IMU sensors are installed.
  • the information processing apparatus 100A contains information on the relative posture between the plurality of IMU sensors, information on the model of the fingers, and feature points of the joints, palms, backs of hands, and wrists of the fingers included in the estimated motion images of each camera. Based on the information on the two-dimensional positions, the three-dimensional positions of the knuckles, palms, backs of hands, and wrists are estimated.
  • the finger joints based on the information on the two-dimensional positions of the finger joints, palms, backs of hands, and wrist feature points included in the estimated moving images of each camera. Estimate the three-dimensional positions of the feature points of the palm, back of the hand, and wrist. Further, when the information processing apparatus 100A determines that the moving image of each camera does not include the feature points of a predetermined finger (for example, a finger such as a thumb hidden by the finger-knotting method), the relative between the plurality of IMU sensors. The three-dimensional position of a predetermined finger feature point is estimated based on the information on the posture and the information on the finger model.
  • a predetermined finger for example, a finger such as a thumb hidden by the finger-knotting method
  • the information processing apparatus 100A includes predetermined finger feature points in the moving image of each camera, but when it is determined that the accuracy is low, information on the relative posture between the plurality of IMU sensors and information on the finger model.
  • the accuracy of the three-dimensional position of the characteristic point of the predetermined finger estimated based on the above and the accuracy of the three-dimensional position of the characteristic point of the predetermined finger estimated based on the moving image of each camera are weighted and averaged. Estimates the three-dimensional position of the feature points of a predetermined finger.
  • the information processing device 100A estimates the time-series information of the posture of the fingers based on the estimated three-dimensional positions of the fingers. More specifically, the information processing apparatus 100A estimates the time-series information of the three-dimensional feature amount of the fingers as the time-series information of the posture of the fingers. Subsequently, the information processing device 100 stores the time-series information of the three-dimensional feature amount of the fingers in the database.
  • FIGS. 18 to 19 show a wearing example in which the thumb sensing data is acquired by the IMU sensor according to the second embodiment.
  • the IMU sensor is attached to the two nodes of the thumb and at least one other place.
  • FIG. 18 is a diagram showing a mounting example of the IMU sensor according to the second embodiment of the present disclosure.
  • the first IMU sensor (IMU1) is attached in the range from the IP joint of the thumb to the distal phalanx.
  • the first IMU sensor (IMU1) has a thin and small shape and can be attached to a predetermined position of the thumb.
  • the second IMU sensor (IMU2) in the range from the MP joint of the thumb to the proximal phalanx.
  • the second IMU sensor (IMU2) has a ring shape and can be fitted to the thumb.
  • the attachment position of the third IMU sensor (IMU3) is not limited to the area around the lunate bone of the palm, and may be any position as long as it is anatomically difficult to move.
  • the third IMU sensor (IMU3) has a thin and small shape and can be attached to a predetermined position on the palm.
  • FIG. 19 is a diagram showing a mounting example of the IMU sensor according to the second embodiment of the present disclosure.
  • the first IMU sensor IMU1
  • the second IMU sensor IMU2
  • IMU1 is attached in the range from the IP joint of the thumb to the distal phalanx.
  • FIG. 19 differs from FIG. 18 in that a third IMU sensor (IMU3) is attached to the index finger instead of around the lunate bone of the palm.
  • the third IMU sensor (IMU3) has a ring shape and can be fitted to the index finger.
  • the middle finger or ring finger may be hidden by other fingers. Therefore, in the information processing system 3 according to the third embodiment, based on the image information taken by the wearable camera attached to the wrist of the user and the sensing data detected by the IMU sensor mounted on the wearable camera. An example of complementing the posture estimation of fingers, which is difficult to shoot with a camera installed in the environment, will be described.
  • FIG. 20 is a diagram showing a configuration example of an information processing system according to a third embodiment of the present disclosure.
  • the information processing system 3 according to the third embodiment is different from the information processing system 1 according to the first embodiment in that it includes a sensor information processing device 30.
  • the information processing system 3 according to the third embodiment is different in that the information processing device 100B is provided instead of the information processing device 100 of the information processing system 1 according to the first embodiment. Therefore, in the following description, the sensor information processing device 30 will be mainly described, and detailed description of other configurations included in the information processing system 3 according to the third embodiment will be omitted.
  • the various devices shown in FIG. 20 are connected so as to be able to communicate by wire or wirelessly via a network N (for example, the Internet).
  • the information processing system 3 shown in FIG. 20 includes an arbitrary number of sensor information processing devices 10, an arbitrary number of sensor information processing devices 30, an arbitrary number of information processing devices 100B, and an arbitrary number of application servers 200. And any number of terminal devices 300 may be included.
  • the sensor information processing device 30 acquires image information taken by the wearable camera attached to the user's wrist from the wearable camera.
  • the sensor information processing device 30 estimates the two-dimensional positions of the feature points of the fingers included in the image based on the image information acquired from the wearable camera. For example, the sensor information processing device 30 estimates the two-dimensional positions of the feature points of the fingers, which are the positions of the joints and fingertips of the fingers included in the image, based on the image information acquired from the wearable camera.
  • the sensor information processing device 30 transmits information regarding the two-dimensional position of the estimated feature point of the finger to the information processing device 100B.
  • the sensor information processing device 30 acquires the sensing data detected by the IMU sensor included in the wearable camera from the IMU sensor of the wearable camera.
  • the sensor information processing device 30 estimates the posture of the wearable camera based on the sensing data acquired from the IMU sensor. Subsequently, the sensor information processing device 30 estimates the camera parameters of the wearable camera based on the estimated posture of the wearable camera.
  • the sensor information processing device 30 transmits information regarding the estimated camera parameters of the wearable camera to the information processing device 100B.
  • the information processing device 100B acquires information on the two-dimensional positions of the feature points of the fingers included in the image taken by the wearable camera from the sensor information processing device 30. Further, the information processing device 100B acquires information regarding camera parameters of the wearable camera from the sensor information processing device 30.
  • the information processing device 100B is a finger that is difficult to shoot with a camera installed in the environment based on information on the two-dimensional position of the feature points of the fingers included in the image taken by the wearable camera and information on the camera parameters of the wearable camera. Estimate the posture of.
  • the sensor information processing device 30 and the information processing device 100B may be integrated devices. In that case, the information processing device 100B acquires the image information taken by the wearable camera attached to the wrist of the user from the wearable camera.
  • the information processing device 100B estimates the two-dimensional positions of the feature points of the fingers included in the image based on the image information acquired from the wearable camera. For example, the information processing apparatus 100B estimates the two-dimensional positions of the feature points of the fingers, which are the positions of the joints and fingertips of the fingers included in the image, based on the image information acquired from the wearable camera. Further, the information processing device 100B acquires the sensing data detected by the IMU sensor included in the wearable camera from the IMU sensor of the wearable camera. The information processing device 100B estimates the posture of the wearable camera based on the sensing data acquired from the IMU sensor. Subsequently, the information processing device 100B estimates the camera parameters of the wearable camera based on the estimated posture of the wearable camera.
  • FIG. 21 is a diagram showing a configuration example of the sensor information processing device according to the third embodiment of the present disclosure.
  • the sensor information processing device 30 includes a posture estimation unit, an image processing unit, and a communication unit.
  • the posture estimation unit acquires the sensing data detected by the IMU sensor of the wearable camera from the IMU sensor of the wearable camera.
  • the posture estimation unit estimates the posture of the wearable camera based on the sensing data acquired from the IMU sensor. Subsequently, the posture estimation unit estimates the camera parameters of the wearable camera based on the estimated posture of the wearable camera.
  • the posture estimation unit estimates the camera parameters of the wearable camera, it outputs information about the estimated camera parameters of the wearable camera to the communication unit.
  • the image processing unit acquires image information taken by the wearable camera attached to the user's wrist from the wearable camera.
  • the image processing unit may acquire image information captured by the depth sensor from a wearable camera.
  • the image processing unit estimates the two-dimensional positions of the feature points of the fingers included in the image based on the image information acquired from the wearable camera.
  • the image processing unit uses a machine learning model learned to estimate the two-dimensional position of the feature points of the fingers included in the image based on the image information acquired from the wearable camera, and the features of the fingers included in the image. Estimate the two-dimensional position of the point.
  • the image processing unit estimates the two-dimensional position of the feature point of the finger, it outputs the information regarding the two-dimensional position of the estimated feature point of the finger to the communication unit.
  • the communication unit communicates with the information processing device 100B via the network N.
  • the communication unit includes Wi-Fi (registered trademark), ZigBee (registered trademark), Bluetooth (registered trademark), Bluetooth Low Energy (registered trademark), ANT (registered trademark), ANT + (registered trademark), or EnOcean Alliance (registered trademark).
  • Wireless communication with the information processing device 100B may be performed by using communication by a registered trademark) or the like.
  • the communication unit acquires information on the camera parameters of the wearable camera from the attitude estimation unit. In addition, the communication unit acquires information on the two-dimensional positions of the feature points of the fingers included in the image taken by the wearable camera from the image processing unit. When the communication unit acquires the information regarding the camera parameters and the information regarding the two-dimensional positions of the feature points of the fingers, the communication unit transmits the acquired information regarding the camera parameters and the information regarding the two-dimensional positions of the feature points of the fingers to the information processing apparatus 100B.
  • FIG. 22 is a diagram showing a configuration example of the information processing device according to the third embodiment of the present disclosure.
  • the information processing apparatus 100B according to the third embodiment is compared with the information processing apparatus 100 according to the first embodiment, instead of the estimation unit 132 and the sensor database 121, the estimation unit 132B.
  • the difference is that the sensor database 121B is provided. Therefore, in the following description, the estimation unit 132B and the sensor database 121B will be mainly described, and detailed description of other configurations included in the information processing device 100B according to the third embodiment will be omitted.
  • the sensor database 121B is included in the information regarding the camera parameters of the wearable camera acquired from the sensor information processing device 30 and the image taken by the wearable camera as compared with the sensor database 121 of the information processing device 100 according to the first embodiment. The difference is that it stores information about the two-dimensional position of the feature points of the fingers.
  • the sensor database 121A stores information on the camera parameters acquired by the acquisition unit 131 and information on the two-dimensional positions of the feature points of the fingers.
  • the estimation unit 132B estimates time-series information regarding the posture of the user's fingers based on the image information taken by the wearable camera attached to the user's wrist. For example, the estimation unit 132B uses a machine learning model learned to estimate the two-dimensional positions of the feature points of the fingers included in the image taken by the wearable camera based on the image information taken by the wearable camera. Estimate information about the two-dimensional position of the feature points of the fingers included in the image taken by the wearable camera.
  • the wearable camera further includes an IMU sensor
  • the estimation unit 132B estimates time-series information regarding the posture of the fingers based on the sensing data detected by the IMU sensor.
  • the estimation unit 132B refers to the sensor database 121B to acquire information on the camera parameters of the wearable camera and information on the two-dimensional positions of the feature points of the fingers included in the image captured by the wearable camera.
  • the estimation unit 132B may acquire the sensing data detected by the IMU sensor of the wearable camera from the wearable camera and estimate the posture of the wearable camera based on the sensing data detected by the IMU sensor. Subsequently, the estimation unit 132B may estimate the camera parameters of the wearable camera based on the estimated posture of the wearable camera.
  • the estimation unit 132B includes information on the camera parameters of the wearable camera, information on the two-dimensional position of the feature points of the fingers included in the image taken by the wearable camera, and the joints and palms of the fingers included in the estimated moving image of each camera. , The three-dimensional positions of the knuckles, palms, back of hands, and wrists are estimated based on the information on the two-dimensional positions of the feature points of the wrists and the backs of the hands.
  • the estimation unit 132B is based on an image viewed in stereo by any two cameras of a plurality of high-speed cameras and wearable cameras installed in the environment, and has 3 feature points of the fingers in each combination of cameras. Calculate the dimensional position and its certainty. Subsequently, when the estimation unit 132B determines that the moving image of each camera does not include the predetermined finger feature points in each combination, the predetermined finger feature points (positions of finger joints and fingertips) in each combination. The three-dimensional position of a predetermined finger is estimated by weighting the three-dimensional position with the calculated certainty and taking the average.
  • the estimation unit 132B estimates the time-series information of the posture of the predetermined finger based on the estimated three-dimensional position of the finger. More specifically, the estimation unit 132B estimates the time-series information of the three-dimensional feature amount of the predetermined finger as the time-series information of the posture of the predetermined finger.
  • FIG. 23 is a diagram for explaining an operation example of the information processing system according to the third embodiment of the present disclosure.
  • the information processing apparatus 100B acquires sensor images 1, 2, 3, ... Taken by each of the plurality of high-speed cameras installed in the environment. Subsequently, the information processing device 100B inputs the acquired sensor images 1, 2, 3, ... To the machine learning model M1. The information processing device 100B estimates the two-dimensional positions of the finger joints, palms, backs of hands, and wrist feature points included in the sensor images 1, 2, 3, ... As output information of the machine learning model M1. Further, the information processing apparatus 100B acquires the camera parameters of each of the plurality of high-speed cameras.
  • the information processing device 100B acquires image information taken by a wearable camera attached to the user's wrist. Subsequently, the information processing apparatus 100B uses a machine learning model learned to estimate the two-dimensional positions of the feature points of the fingers included in the image taken by the wearable camera based on the image information taken by the wearable camera. Therefore, information on the two-dimensional position of the feature points of the fingers included in the image taken by the wearable camera is estimated.
  • the information processing device 100B acquires the sensing data detected by the IMU sensor of the wearable camera from the wearable camera. Subsequently, the information processing device 100B estimates the posture of the wearable camera (IMU sensor) based on the acquired sensing data. Subsequently, the information processing device 100B estimates the camera parameters of the wearable camera based on the estimated posture of the wearable camera (IMU sensor).
  • the information processing apparatus 100B includes information on the camera parameters of the wearable camera, information on the two-dimensional positions of the feature points of the fingers included in the image taken by the wearable camera, and the fingers included in the estimated moving image of each camera. Based on the information on the two-dimensional positions of the feature points of the joint, palm, back of hand, and wrist, the three-dimensional positions of the feature points of the finger joint, palm, back of hand, and wrist are estimated.
  • the finger joints based on the information on the two-dimensional positions of the finger joints, palms, backs of hands, and wrist feature points included in the estimated moving images of each camera. Estimate the three-dimensional positions of the feature points of the palm, back of the hand, and wrist. Further, the information processing device 100B is based on an image viewed in stereo by any two cameras of a plurality of high-speed cameras and wearable cameras installed in the environment, and features points of the fingers in each combination of cameras. Calculate the three-dimensional position and its certainty.
  • each combination is used.
  • the predetermined finger feature points for example, a finger such as a middle finger or a drug finger hidden in another finger.
  • the information processing device 100B estimates the time-series information of the posture of the fingers based on the estimated three-dimensional position of the fingers. More specifically, the information processing apparatus 100B estimates the time-series information of the three-dimensional feature amount of the fingers as the time-series information of the posture of the fingers. Subsequently, the information processing device 100B stores the time-series information of the three-dimensional feature amount of the fingers in the database.
  • FIG. 24 is a diagram for explaining an outline of sensing by a wearable camera according to a third embodiment of the present disclosure.
  • the wearable camera HC is attached to the user's wrist and photographs the palm side of the user.
  • the wearable camera HC captures the range of R1 shown on the left side of FIG. 24.
  • the range of R1 indicates a range extending in a conical shape from the camera position of the wearable camera HC toward the palm side of the user.
  • the image G1 As shown in the center of FIG. 24 is obtained.
  • the image G1 includes DIP joints and fingertips of fingers close to the fingertips of the user.
  • the sensor information processing device 30 extracts the positions of the joints and fingertips of the fingers included in the image as feature points of the fingers based on the image information acquired from the wearable camera HC.
  • the wearable camera HC photographs the palm side of the user with a normal camera or a depth sensor.
  • an infrared light source may be attached around the camera of the wearable camera HC.
  • the camera may be replaced with a TOF (Time-of-Flight) sensor.
  • TOF Time-of-Flight
  • the posture of the wearable camera HC itself is estimated from the sensing data of the IMU sensor attached to the same place as the camera.
  • the wearable camera HC can supplement the information of the fingers that could not be photographed by the camera attached to the environment by photographing the palm side. Further, by photographing the palm side with the wearable camera HC, it is possible to track the fingertip without hiding by other fingers.
  • FIG. 25 is a diagram for explaining the structure of the wearable camera according to the third embodiment of the present disclosure.
  • the wearable camera HC includes a normal camera or a camera C4 which is a depth sensor. Since the wearable camera HC is attached to the wrist to photograph the palm, the position of the camera C4 needs to protrude from the band.
  • the wearable camera HC is equipped with an IMU sensor (IMU4).
  • the IMU sensor (IMU4) is mounted inside the main body of the wearable camera HC.
  • the wearable camera HC is equipped with a band B1 for fixing to the wrist.
  • the wearable camera HC may be provided with a marker MR1 for tracking from an external sensor around the band.
  • FIG. 26 is a diagram for explaining an operation example of the information processing system according to the modified example of the third embodiment of the present disclosure.
  • the information processing system 3 provides time-series information regarding the posture of the fingers based on the image information of the wearable camera and the image information of the high-speed camera installed in the environment without using the sensing data by the IMU sensor of the wearable camera. An example of estimation will be described.
  • the information processing device 100B acquires sensor images 1, 2, 3, ... Taken by each of the plurality of high-speed cameras installed in the environment. Subsequently, the information processing device 100B inputs the acquired sensor images 1, 2, 3, ... To the machine learning model M1. The information processing device 100B estimates the two-dimensional positions of the finger joints, palms, backs of hands, and wrist feature points included in the sensor images 1, 2, 3, ... As output information of the machine learning model M1. Further, the information processing device 100B acquires the camera parameters of each of the plurality of high-speed cameras.
  • the information processing device 100B estimates the posture of the wearable camera based on the acquired sensor images 1, 2, 3, .... Subsequently, the information processing device 100B estimates the camera parameters of the wearable camera based on the estimated posture of the wearable camera.
  • the information processing apparatus 100B includes information on the camera parameters of the wearable camera, information on the two-dimensional positions of the feature points of the fingers included in the image taken by the wearable camera, and the fingers included in the estimated moving image of each camera. Based on the information on the two-dimensional positions of the feature points of the joint, palm, back of hand, and wrist, the three-dimensional positions of the feature points of the finger joint, palm, back of hand, and wrist are estimated.
  • a contact sensor for detecting contact with the object is mounted inside the object. Then, the information processing device 100C of the information processing system 4 according to the fourth embodiment estimates the time-series information of the posture of the fingers in contact with the object based on the sensing data regarding the contact of the fingers with the object.
  • FIG. 27 is a diagram showing a configuration example of an information processing system according to a fourth embodiment of the present disclosure.
  • the information processing system 4 according to the fourth embodiment is different from the information processing system 1 according to the first embodiment in that it includes the sensor information processing device 40.
  • the information processing system 4 according to the fourth embodiment is different in that the information processing device 100C is provided instead of the information processing device 100 of the information processing system 1 according to the first embodiment. Therefore, in the following description, the sensor information processing device 40 will be mainly described, and detailed description of other configurations included in the information processing system 4 according to the fourth embodiment will be omitted.
  • the sensor information processing device 40 acquires sensing data regarding the contact of a finger with the object from a contact sensor mounted inside the object. When the sensor information processing device 40 acquires the sensing data regarding the contact of the fingers with the object, the sensor information processing device 40 transmits the sensing data to the information processing device 100C.
  • the information processing device 100C acquires sensing data regarding the contact of a finger with an object from the sensor information processing device 40.
  • the information processing device 100C estimates the time-series information of the posture of the finger in contact with the object based on the sensing data.
  • the sensor information processing device 40 and the information processing device 100C may be integrated devices. In that case, the information processing apparatus 100C acquires sensing data regarding the contact of the finger with the object from the contact sensor mounted inside the object.
  • FIG. 28 is a diagram for explaining an operation example of the information processing system according to the fourth embodiment of the present disclosure.
  • the information processing device 100C similarly to the information processing devices according to the first to third embodiments, the information processing device 100C has the feature points of the knuckles, palms, backs of hands, and wrists included in the moving images of each camera. Based on the information about the two-dimensional position of, the three-dimensional position of the knuckles, palms, backs of hands, and wrists is estimated.
  • the information processing device 100C acquires the contact information of the fingers and fingers with the object from the sensor information processing device 40. Subsequently, the information processing apparatus 100C estimates the fingers in contact with the object based on the three-dimensional positions of the feature points of the finger joints, palms, backs of hands, and wrists and the contact information of the fingers with the object. In addition, the information processing device 100C acquires a model of a finger for identifying a finger in contact with an object. Subsequently, the information processing apparatus 100C estimates the posture of the finger in contact with the object based on the estimated model of the finger in contact with the object and the acquired model of the finger.
  • FIG. 29 is a diagram showing a configuration example of the information processing device according to the fourth embodiment of the present disclosure.
  • the information processing apparatus 100C according to the fourth embodiment is compared with the information processing apparatus 100 according to the first embodiment, instead of the estimation unit 132 and the sensor database 121, the estimation unit 132C.
  • the difference is that the sensor database 121C is provided. Therefore, in the following description, the estimation unit 132C and the sensor database 121C will be mainly described, and detailed description of other configurations included in the information processing device 100C according to the fourth embodiment will be omitted.
  • the sensor database 121C is different from the sensor database 121 of the information processing device 100 according to the first embodiment in that it stores sensing data regarding finger contact with an object acquired from the sensor information processing device 40.
  • the sensor database 121C stores the sensing data regarding the contact of the fingers with the object acquired by the acquisition unit 131.
  • the estimation unit 132C estimates time-series information regarding the posture of the finger in contact with the object based on the sensing data detected by the contact sensor that detects the contact motion of the finger with the object. Specifically, the estimation unit 132C acquires the contact information of the fingers and fingers with the object from the sensor information processing device 40. Subsequently, the estimation unit 132C estimates the fingers in contact with the object based on the three-dimensional positions of the feature points of the finger joints, palms, backs of hands, and wrists and the contact information of the fingers with the object. In addition, the estimation unit 132C acquires a model of the finger for identifying the finger in contact with the object.
  • the estimation unit 132C estimates information regarding the posture of the finger in contact with the object based on the estimated model of the finger in contact with the object and the acquired model of the finger. For example, the estimation unit 132C estimates the joint angle of the finger in contact with the object as information regarding the posture of the finger in contact with the object. The process of estimating the joint angle of the fingers by the estimation unit 132C will be described in detail with reference to FIG. 31 described later.
  • FIG. 30 is a diagram for explaining a finger contact operation with respect to an object according to a fourth embodiment of the present disclosure.
  • the object O2 is, for example, a piano keyboard.
  • a contact sensor FS for detecting contact with the object is mounted inside the object O2.
  • the contact sensor FS detects the contact of the index finger with the object O2.
  • the contact sensor FS transmits the contact information between the object O2 and the index finger to the sensor information processing device 40.
  • FIG. 31 is a diagram for explaining the process of estimating the joint angle of the fingers according to the fourth embodiment of the present disclosure.
  • the case where the user's finger presses the point P1 on the upper surface of the object O3 is shown.
  • the object O3 which is a keyboard
  • the end of the keyboard near the pressing position P1 is lowered, and the end of the keyboard far from the pressing position P1.
  • the position of the object O3 changes when the object is lifted upward.
  • the position of the object O3 before the finger contact operation with the object O3 is performed is shown by a dotted line.
  • the position of the object O3 in the state where the finger touching the object O3 is performed is shown by a solid line.
  • the estimation unit 132 determines the position information of the object before the finger contact operation with the object is performed, the amount of change in the position of the object before and after the finger contact operation with the object is performed, and the finger with respect to the object. Based on the contact position information, time-series information regarding the posture of the finger in contact with the object is estimated. In FIG. 31, the estimation unit 132 shows the position information (dotted line position information) of the object before the finger contact operation with the object O3 is performed, and the object before and after the finger contact operation with the object O3 is performed.
  • time-series information regarding the posture of the finger in contact with the object is estimated.
  • the estimation unit 132 provides time-series information regarding the posture of the finger in contact with the object, such as the distance between the MP joint and the PIP joint of the finger, and the distance between the PIP joint and the fingertip of the finger.
  • the angle of the PIP joint of the finger is estimated based on the position of the MP joint of the finger and the position of the fingertip of the finger.
  • the estimation unit 132 has a distance L1 between the position P3 of the MP joint of the finger and the position P2 of the PIP joint, a distance L2 between the position P2 of the PIP joint of the finger and the position P1 of the fingertip, and the finger.
  • the angle ⁇ of the PIP joint of the finger is estimated based on the position P3 of the MP joint and the position P1 of the fingertip of the finger.
  • the estimation unit 132 estimates the position P3 of the MP joint of the finger, the position P2 of the PIP joint, and the position P1 of the fingertip included in the image information based on the image information of the high-speed camera installed in the environment. Subsequently, the estimation unit 132 calculates the distance L1 between the position P3 of the MP joint of the finger and the position P2 of the PIP joint, and the distance L2 between the position P2 of the PIP joint of the finger and the position P1 of the fingertip, respectively. ..
  • the estimation unit 132 estimates the angle ⁇ of the PIP joint of the finger using the cosine theorem based on the calculated distances L1 and L2, the estimated position P3 of the MP joint, and the position P1 of the fingertip. Since the DIP joints of the fingers move in synchronization with the PIP joints of the fingers, they are omitted in the calculation.
  • the information processing apparatus 100 includes an estimation unit 132.
  • the estimation unit 132 estimates time-series information regarding the posture of the fingers based on the image information including the movement of the fingers with respect to the object including the contact movement of the fingers with respect to the object and the object. Further, the estimation unit 132 uses a first machine learning model learned to estimate the time series information regarding the posture of the fingers based on the image information including the movement of the fingers and the object, and the time series regarding the posture of the fingers. Estimate the information.
  • the information processing device 100 can estimate the posture of the fingers without attaching a sensor or a marker to the joints of the fingers or the like. That is, the information processing device 100 can estimate the posture of the fingers without interfering with the movement of the fingers by attaching a sensor, a marker, or the like. Therefore, the information processing device 100 can appropriately estimate the posture of the fingers during the movement of the fingers with respect to the object, including the contact movement of the fingers with respect to the object, for example, the fingers during the performance of the piano.
  • the estimation unit 132 provides time-series information regarding the posture of the fingers, such as the position, speed, acceleration, or trajectory of each joint of the finger or each fingertip, palm, back of the hand or wrist, or the angle of each joint of the finger. Estimate the time-series information of angular velocity or angular acceleration.
  • the information processing device 100 can appropriately estimate not only the three-dimensional position of the fingers but also the angles of the joints of the fingers, so that the posture of the fingers can be estimated more appropriately.
  • the image information is image information taken by a high-speed monochrome camera or a high-speed infrared camera.
  • the information processing device 100 captures the high-speed movement of the fingers, so that even when the shutter speed is increased, the information processing device 100 does not make the user who is moving the fingers feel dazzling, and a sufficient amount of light is used. Therefore, it is possible to appropriately estimate the posture of the fingers.
  • the image information is a plurality of image information acquired by each of a plurality of cameras installed so as to shoot an object from a plurality of different directions.
  • the information processing apparatus 100 shoots from one direction, the fingers hidden by other fingers or the like can be covered by shooting from the other direction, so that the posture of the fingers can be covered. Can be estimated more appropriately.
  • each of the plurality of image information is a plurality of images taken with the fingers illuminated by a light source installed in the vicinity of each camera. Information.
  • the information processing device 100 can secure a sufficient amount of light for shooting even when shooting high-speed movements of the fingers, so that the posture of the fingers can be estimated more appropriately.
  • the image information is a plurality of image information taken by each of three or more cameras installed on both sides of the object and above the object.
  • the information processing apparatus 100 shoots from one direction, the fingers hidden by other fingers or the like can be covered by shooting from the other direction, so that the posture of the fingers can be covered. Can be estimated more appropriately.
  • the image information is image information taken with the range from the fingertips of the fingers to the wrist as the shooting range.
  • the information processing apparatus 100 can improve the resolution and accuracy of the posture estimation of the fingers by narrowing the shooting range, so that the posture of the fingers can be estimated more appropriately.
  • the estimation unit 132 estimates the time series information regarding the posture of the fingers based on the image information of the back of the hand performing the movement of the fingers. Further, the estimation unit 132 relates to the posture of the fingers by using a second machine learning model learned to estimate the time series information regarding the posture of the fingers based on the image information of the back of the hand performing the movement of the fingers. Estimate time series information.
  • the information processing device 100 can more appropriately estimate the posture of the fingers based on the image of the back of the hand, which is easier to photograph than the fingers during high-speed operation.
  • the estimation unit 132 estimates time-series information regarding the posture of the user's fingers based on the sensing data detected by a plurality of IMU sensors installed on the user's thumb and back of the hand.
  • the information processing device 100 can complement the posture estimation of the fingers hidden by other fingers or the like.
  • the estimation unit 132 estimates time-series information regarding the posture of the user's fingers based on the image information taken by the wearable camera attached to the user's wrist.
  • the information processing device 100 can complement the posture estimation of the fingers hidden by other fingers or the like.
  • the wearable camera further includes an IMU sensor, and the estimation unit 132 estimates time-series information regarding the posture of the fingers based on the sensing data detected by the IMU sensor.
  • the information processing device 100 can more accurately complement the posture estimation of the fingers hidden by other fingers or the like.
  • the estimation unit 132 estimates time-series information regarding the posture of the finger in contact with the object based on the sensing data detected by the contact sensor that detects the contact motion of the finger with the object. Further, the estimation unit 132 indicates the position information of the object before the finger contact operation with the object is performed, the amount of change in the position of the object before and after the finger contact operation with the object is performed, and the object. Based on the contact position information of the fingers, time series information regarding the posture of the fingers in contact with the object is estimated.
  • the estimation unit 132 provides time-series information regarding the posture of the finger in contact with the object, such as the distance between the MP joint and the PIP joint of the finger, the distance between the PIP joint and the fingertip of the finger, and the MP joint of the finger.
  • the angle of the PIP joint of the finger is estimated based on the position of the finger and the position of the fingertip of the finger.
  • the information processing apparatus 100 can supplement the posture estimation of the fingers hidden by other fingers or the like.
  • the object is a keyboard
  • the movement of the fingers with respect to the object is the keystroke movement of the fingers with respect to the keyboard or the movement movement of the fingers with respect to the keyboard.
  • the information processing device 100 can appropriately estimate the posture of the fingers during the performance of the piano.
  • the information processing device 100 further includes a providing unit 133.
  • the providing unit 133 provides the user with time-series information regarding the posture of the fingers estimated by the estimating unit 132.
  • the information processing device 100 can transmit the delicate movements of the fingers to another person (disciple, etc.) and support the mastery of the other person.
  • FIG. 29 is a hardware configuration diagram showing an example of a computer 1000 that realizes the functions of an information processing device such as the information processing device 100.
  • the computer 1000 includes a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600. Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200 and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program that depends on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by the program.
  • the HDD 1400 is a recording medium for recording an information processing program according to an embodiment of the present disclosure, which is an example of program data 1350, or a modification thereof.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as an MO (Magneto-Optical disk)
  • a tape medium such as a magnetic tape
  • magnetic recording medium such as a magnetic tape
  • semiconductor memory for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • the CPU 1100 of the computer 1000 executes an information processing program loaded on the RAM 1200, so that the control unit 130 and the like can be used. Realize the function.
  • the HDD 1400 stores an information processing program according to an embodiment of the present disclosure or a modification thereof, and data in the storage unit 120.
  • the CPU 1100 reads the program data 1350 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the present technology can also have the following configurations.
  • An estimation unit that estimates time-series information regarding the posture of the fingers based on the image information including the movements of the fingers with respect to the object and the objects including the contact movements of the fingers with respect to the object.
  • Information processing device equipped with (2)
  • the estimation unit Estimate the time-series information about the posture of the fingers by using the first machine learning model learned to estimate the time-series information about the posture of the fingers based on the image information including the movement of the fingers and the object. do, The information processing device according to (1) above.
  • the estimation unit As time-series information regarding the posture of the fingers, the position, speed, acceleration, or trajectory of each joint or fingertip, palm, back or wrist feature point of the finger, or the angle, angular velocity, or angle of each joint of the finger.
  • the information processing apparatus according to (1) or (2) above, which estimates time-series information of acceleration.
  • the image information is image information taken by a high-speed monochrome camera or a high-speed infrared camera.
  • the information processing device according to any one of (1) to (3) above.
  • the image information is a plurality of image information acquired by each of a plurality of cameras installed so as to shoot the object from a plurality of different directions.
  • the information processing device according to any one of (1) to (4) above.
  • the plurality of cameras are attached to a gate-like structure surrounding the object.
  • Each of the plurality of image information is the plurality of image information taken in a state where the fingers are illuminated by a light source installed in the vicinity of each of the cameras.
  • the information processing device according to (5) above.
  • the image information is a plurality of image information taken by each of three or more cameras installed on both sides of the object and above the object.
  • the information processing device according to any one of (1) to (6) above.
  • the image information is image information taken with a range from the fingertips of the fingers to the wrist as a shooting range.
  • the information processing device according to any one of (1) to (7) above.
  • the estimation unit Based on the image information of the back of the hand performing the movement of the fingers, the time series information regarding the posture of the fingers is estimated.
  • the information processing device according to any one of (1) to (8).
  • the estimation unit Using the second machine learning model learned to estimate the time-series information regarding the posture of the fingers based on the image information of the back of the hand performing the movement of the fingers, the time-series information regarding the posture of the fingers is obtained.
  • the information processing device (11)
  • the estimation unit Based on the sensing data detected by a plurality of IMU sensors installed on the thumb and the back of the hand of the user, time-series information regarding the posture of the fingers of the user is estimated.
  • the information processing device according to any one of (1) to (10).
  • the estimation unit Based on the image information taken by the wearable camera attached to the wrist of the user, the time series information regarding the posture of the fingers of the user is estimated.
  • the information processing device according to any one of (1) to (11).
  • the wearable camera further comprises an IMU sensor.
  • the estimation unit Based on the sensing data detected by the IMU sensor, time-series information regarding the posture of the fingers is estimated.
  • the information processing device according to (12) above.
  • the estimation unit Based on the sensing data detected by the contact sensor that detects the contact motion of the fingers with respect to the object, time-series information regarding the posture of the fingers in contact with the object is estimated.
  • the information processing device according to any one of (1) to (13).
  • the estimation unit The position information of the object before the finger contact operation with the object is performed, the amount of change in the position of the object before and after the finger contact operation with the object is performed, and the object. Based on the contact position information of the fingers, time-series information regarding the posture of the fingers in contact with the object is estimated.
  • the information processing device according to (14) above.
  • the estimation unit As time-series information regarding the posture of the finger in contact with the object, the distance between the MP joint and the PIP joint of the finger, the distance between the PIP joint and the fingertip of the finger, and the position of the MP joint of the finger. , And the angle of the PIP joint of the finger is estimated based on the position of the fingertip of the finger.
  • the information processing apparatus according to (14) or (15).
  • the object is a keyboard,
  • the movement of the fingers with respect to the object is a keystroke movement of the fingers with respect to the keyboard or a movement movement of moving the position of the fingers with respect to the keyboard.
  • the information processing device according to any one of (1) to (16).
  • the information processing device according to any one of (1) to (17).
  • the computer Time-series information regarding the posture of the fingers is estimated based on the image information including the movements of the fingers with respect to the object and the objects including the contact movements of the fingers with respect to the object.
  • Information processing system 10 Sensor information processing device 100
  • Information processing device 110 Communication unit 120
  • Storage unit 121 Sensor database 122
  • Model database 123 Three-dimensional feature database 130
  • Control unit 131 Acquisition unit 132
  • Estimating unit 133 Providing unit 200
  • App server 300 Terminal device

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

情報処理装置(100)は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する推定部(132)と、を備える。推定部(132)は、手指の動作と対象物とを含む画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第1機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定する。

Description

情報処理装置、情報処理方法及び情報処理プログラム
 本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
 従来、楽器演奏者や伝統工芸職人、料理人などの卓越した手指の巧緻動作を他者(弟子など)に伝達し、他者の熟達を支援する目的で、手指の動作を記録および再生する技術が知られている。例えば、複数の投影方向に投影された手指の画像に基づいて、複数の投影方向における手指に関する注目点の存在確率を示す確率マップを特定し、特定した複数の確率マップに基づいて、手指に関する注目点の3次元位置を推定する技術が提案されている。
国際公開第2018/083910号
 しかしながら、上記の従来技術では、手指の姿勢を適切に推定することができるとは限らない。例えば、上記の従来技術では、手指の注目点の3次元位置が推定されるにすぎず、手指の姿勢が適切に推定されるとは限らない。
 そこで、本開示では、手指の姿勢を適切に推定することができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、を備える。
本開示の第1の実施形態に係る情報処理の一例を示す図である。 同実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理装置の構成例を示す図である。 同実施形態に係る情報処理システムの動作例について説明するための図である。 同実施形態に係るカメラ及び照明の配置例を示す図である。 同実施形態に係るカメラ配置と撮像画像の組の一例を示す図である。 同実施形態に係る撮像画像に含まれる手の特徴点の2次元位置の一例を示す図である。 同実施形態に係る撮像画像に含まれる手の特徴点の2次元位置の一例を示す図である。 同実施形態に係る撮像画像に含まれる手の特徴点の2次元位置の一例を示す図である。 同実施形態に係る手指の姿勢に関する情報の提示例を示す図である。 同実施形態に係る手指の姿勢に関する情報の提示例を示す図である。 同実施形態の変形例に係る情報処理システムの動作例について説明するための図である。 ピアノ演奏における指くぐり奏法について説明するための図である。 本開示の第2の実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係るセンサ情報処理装置の構成例を示す図である。 同実施形態に係る情報処理装置の構成例を示す図である。 同実施形態に係る情報処理システムの動作例について説明するための図である。 同実施形態に係るIMUセンサの装着例を示す図である。 同実施形態に係るIMUセンサの装着例を示す図である。 本開示の第3の実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係るセンサ情報処理装置の構成例を示す図である。 同実施形態に係る情報処理装置の構成例を示す図である。 同実施形態に係る情報処理システムの動作例について説明するための図である。 同実施形態に係るウェアラブルカメラによるセンシングの概要について説明するための図である。 同実施形態に係るウェアラブルカメラの構造について説明するための図である。 同実施形態の変形例に係る情報処理システムの動作例について説明するための図である。 本開示の第4の実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理装置の構成例を示す図である。 同実施形態に係る情報処理システムの動作例について説明するための図である。 同実施形態に係る対象物に対する手指の接触動作について説明するための図である。 同実施形態に係る手指の関節角度の推定処理について説明するための図である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
 0.はじめに
 1.第1の実施形態
  1.1.情報処理システムの概要
  1.2.情報処理システムの構成例
  1.3.情報処理装置の構成例
  1.4.情報処理システムの動作例
  1.5.カメラ及び照明の配置例
  1.6.カメラ配置と撮像画像の組の例
  1.7.手の特徴点の2次元位置
  1.8.手指の姿勢に関する情報の提示例
  1.9.変形例
 2.第2の実施形態
  2.1.ピアノ演奏の指くぐり奏法
  2.2.情報処理システムの構成例
  2.3.センサ情報処理装置の構成例
  2.4.情報処理装置の構成例
  2.5.情報処理システムの動作例
  2.6.IMUセンサの装着例
 3.第3の実施形態
  3.1.情報処理システムの構成例
  3.2.センサ情報処理装置の構成例
  3.3.情報処理装置の構成例
  3.4.情報処理システムの動作例
  3.5.ウェアラブルカメラによるセンシングの概要
  3.6.ウェアラブルカメラの構造
  3.7.変形例
 4.第4の実施形態
  4.1.情報処理システムの構成例
  4.2.情報処理システムの動作例
  4.3.情報処理装置の構成例
  4.4.対象物に対する手指の接触動作
  4.5.手指の関節角度の推定処理
 5.効果
 6.ハードウェア構成
 [0.はじめに]
 楽器演奏者や伝統工芸職人、料理人などの卓越した手指の巧緻動作の記録および再生は、熟練者の技能を他者(弟子など)に伝達する上で非常に重要である。また、技能の熟達支援においても、高速な手指の運動を記録し、利用者に提示することは,直感的な暗黙知の伝達に非常に有効である。
 しかしながら、高速で巧緻な手指の運動の記録には、高い空間分解能と高い時間分解能が要求される。従来は、ジェスチャー認識に重点を置いているものが多く、手指の動きを必ずしも高精度に認識可能とすることができるとは限らなかった。
 そこで、本開示の実施形態に係る情報処理システムは、撮影範囲を手の動作範囲に絞り、環境に高速カメラを平面上で複数台設置し、高速カメラによる撮影画像から手の各特徴点の2次元位置等の推定を行い、推定した特徴点の2次元位置等に基づいて手指の姿勢を推定する。これにより、情報処理システムは、手指の関節等にセンサやマーカーを装着することなく、手指の姿勢を推定することができる。すなわち、情報処理システムは、センサやマーカー等の装着により、手指の動作を妨げることなく、手指の姿勢を推定することができる。したがって、情報処理システムは、手指の姿勢を適切に推定することができる。
[1.第1の実施形態]
[1.1.情報処理システムの概要]
 ここから、図1を用いて、本開示の第1の実施形態に係る情報処理の概要について説明する。図1は、本開示の第1の実施形態に係る情報処理の一例を示す図である。
 図1に示す例では、ピアノの鍵盤の両脇および鍵盤の上方に3台の高速カメラC1~C3が設置されており、3台の高速カメラC1~C3それぞれは、それぞれのカメラの位置からピアノを演奏する演奏者の演奏中の手元を撮影する。例えば、3台の高速カメラC1~C3それぞれは、鍵盤に対する手指の打鍵動作または鍵盤に対して手指の位置を移動させる移動動作を撮影する。
 センサ情報処理装置10は、3台の高速カメラC1~C3それぞれの位置から撮影された3つの動画像それぞれを取得する。センサ情報処理装置10は、3つの動画像を取得すると、取得した3つの動画像を情報処理装置100に送信する。
 情報処理装置100は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。図1では、対象物は、鍵盤であり、対象物に対する手指の動作は、鍵盤に対する手指の打鍵動作または鍵盤に対して手指の位置を移動させる移動動作である。
 具体的には、情報処理装置100の推定部132は、各カメラの動画像(以下、センサ画像ともいう)それぞれに対して、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置を推定する。例えば、情報処理装置100の推定部132は、各カメラの動画像それぞれから動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置を推定するよう予め学習された機械学習モデルM1を用いて、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置を推定する。
 続いて、情報処理装置100の推定部132は、推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。続いて、情報処理装置100の推定部132は、手指の関節、手掌、手背、手首の特徴点の3次元位置に基づいて、手指の姿勢の時系列情報を推定する。より具体的には、情報処理装置100の推定部132は、手指の姿勢の時系列情報として、各カメラの動画像に含まれる手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度(以下、3次元特徴量ともいう)の時系列情報を推定する。
 続いて、情報処理装置100の推定部132は、推定した手指の3次元特徴量の時系列情報を記憶部120の3次元特徴量データベース123に格納する。また、情報処理装置100は、3次元特徴量データベース123を参照して、3次元特徴量の時系列情報をアプリサーバ200に送信する。
 アプリサーバ200は、3次元特徴量の時系列情報を取得する。アプリサーバ200は、取得した3次元特徴量の時系列情報に基づいて、3次元特徴量の時系列情報を視覚可能にした画像を生成する。なお、アプリサーバ200は、3次元特徴量の時系列情報を音とともに出力可能にしたコンテンツを生成してもよい。アプリサーバ200は、生成したコンテンツを利用者の端末装置300に配信する。
 端末装置300は、3次元特徴量の時系列情報を視覚可能にした画像を表示する。また、端末装置300は、3次元特徴量の時系列情報を音とともに出力してもよい。
[1.2.情報処理システムの構成例]
 次に、図2を用いて、本開示の第1の実施形態に係る情報処理システムの構成について説明する。図2は、本開示の第1の実施形態に係る情報処理システムの構成例を示す図である。図2に示すように、第1の実施形態に係る情報処理システム1には、センサ情報処理装置10と情報処理装置100とアプリサーバ200と端末装置300とが含まれる。
 図2に示した各種装置は、ネットワークN(例えば、インターネット)を介して、有線又は無線により通信可能に接続される。なお、図2に示した情報処理システム1には、任意の数のセンサ情報処理装置10と任意の数の情報処理装置100と任意の数のアプリサーバ200と任意の数の端末装置300とが含まれていてもよい。
 センサ情報処理装置10は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像を高速モノクロカメラまたは高速赤外線カメラから取得する。センサ情報処理装置10は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像を取得する。また、センサ情報処理装置10は、カメラから画像を取得すると、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報を情報処理装置100に送信する。
 情報処理装置100は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報をセンサ情報処理装置10から取得する。続いて、情報処理装置100は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。また、情報処理装置100は、推定した手指の姿勢に関する時系列情報をアプリサーバ200に送信する。なお、センサ情報処理装置10と情報処理装置100とは、一体の装置であってもよい。その場合、情報処理装置100は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像を高速モノクロカメラまたは高速赤外線カメラから取得する。情報処理装置100は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像を取得する。
 アプリサーバ200は、情報処理装置100によって推定された手指の姿勢に関する時系列情報を情報処理装置100から取得する。アプリサーバ200は、手指の姿勢に関する時系列情報を取得すると、手指の姿勢に関する時系列情報を利用者に対して提示するためのコンテンツ(例えば、動画像や音声)を生成する。アプリサーバ200は、コンテンツを生成すると、生成したコンテンツを端末装置300に配信する。
 端末装置300は、利用者によって利用される情報処理装置である。端末装置300は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。また、端末装置300は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、利用者から指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、画面に表示された画像等のコンテンツに対する各種の操作を受付ける。また、端末装置300は、スピーカーを備え、音声を出力する。
 端末装置300は、アプリサーバ200からコンテンツを受信する。端末装置300は、コンテンツを受信すると、受信したコンテンツ(例えば、動画像)を画面に表示する。また、端末装置300は、動画像を画面に表示するとともに、動画像に合わせて音(例えば、ピアノの音)を出力する。
[1.3.情報処理装置の構成例]
 次に、図3を用いて、本開示の第1の実施形態に係る情報処理装置の構成について説明する。図3は、本開示の第1の実施形態に係る情報処理装置の構成例を示す図である。図3に示すように、第1の実施形態に係る情報処理装置100は、通信部110と、記憶部120と、制御部130を備える。
(通信部110)
 通信部110は、ネットワークNを介して、センサ情報処理装置10やアプリサーバ200や端末装置300といった外部の情報処理装置と無線通信する。通信部110は、例えば、NIC(Network Interface Card)やアンテナ等によって実現される。ネットワークNは、インターネット又は電話回線網などの公衆通信網であってもよく、LAN(Local Area Network)又はWAN(Wide Area Network)などの限られた領域内に設けられた通信網であってもよい。なお、ネットワークNは、有線であってもよい。その場合、通信部110は、外部の情報処理装置と有線通信する。
(記憶部120)
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120には、各種プログラムや設定データ等が記憶される。また、記憶部120は、図3に示すように、センサデータベース121とモデルデータベース122と3次元特徴量データベース123を有する。
(センサデータベース121)
 センサデータベース121は、センサ情報処理装置10から取得された画像情報を格納する。具体的には、センサデータベース121は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像に関する情報を記憶する。
(モデルデータベース122)
 モデルデータベース122は、機械学習モデルに関する情報を格納する。具体的には、モデルデータベース122は、手指の動作と対象物とを含む画像情報に基づいて手指の姿勢に関する時系列情報(手指の3次元特徴量の時系列情報)を推定するよう学習された第1機械学習モデルに関する情報を格納する。例えば、モデルデータベース122は、第1機械学習モデルのモデルデータMDT1を格納する。
 モデルデータMDT1は、手指の動作と対象物とを含む画像情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された画像情報に応じて、入力層に入力された画像情報に含まれる手指の3次元特徴量の時系列情報を出力層から出力するよう、情報処理装置100を機能させてもよい。
 ここで、モデルデータMDT1が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。
 また、モデルデータMDT1がDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
 情報処理装置100は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルを用いて、画像情報に含まれる手指の3次元特徴量の時系列情報の算出を行う。具体的には、モデルデータMDT1は、手指の動作と対象物とを含む画像情報が入力された場合に、画像情報に含まれる手指の3次元特徴量の時系列情報を出力するように係数が設定される。情報処理装置100は、このようなモデルデータMDT1を用いて、手指の3次元特徴量の時系列情報を算出する。
(3次元特徴量データベース123)
 3次元特徴量データベース123は、各カメラの動画像に含まれる手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度である3次元特徴量の時系列情報を格納する。
(制御部130)
 制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
 図3に示すように制御部130は、取得部131と推定部132と提供部133を有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(取得部131)
 取得部131は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報を取得する。具体的には、取得部131は、センサ情報処理装置10から画像情報を取得する。より具体的には、取得部131は、対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報を取得する。例えば、取得部131は、対象物の両脇および対象物の上方に設置された3台以上のカメラそれぞれによって撮影された複数の画像情報を取得する。
(推定部132)
 推定部132は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。具体的には、推定部132は、手指の姿勢に関する時系列情報として、手指の3次元特徴量の時系列情報を推定する。例えば、推定部132は、手指の姿勢に関する時系列情報として、手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度の時系列情報を推定する。
 より具体的には、推定部132は、各カメラの動画像それぞれに対して、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置を推定する。例えば、推定部132は、各カメラの動画像それぞれから動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置を推定するよう予め学習された機械学習モデルを用いて、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置を推定する。
 続いて、推定部132は、推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。続いて、推定部132は、手指の関節、手掌、手背、手首の特徴点の3次元位置に基づいて、手指の姿勢の時系列情報を推定する。より具体的には、推定部132は、手指の姿勢の時系列情報として、各カメラの動画像に含まれる手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度(以下、3次元特徴量ともいう)の時系列情報を推定する。
 また、推定部132は、手指の動作と対象物とを含む画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第1機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定してもよい。例えば、推定部132は、手指の動作と対象物とを含む画像情報を第1機械学習モデルに入力して、手指の姿勢の時系列情報として、各カメラの動画像に含まれる手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度(以下、3次元特徴量ともいう)の時系列情報を推定する。
(提供部133)
 提供部133は、推定部132によって推定された手指の姿勢に関する時系列情報を利用者に対して提供する。具体的には、提供部133は、3次元特徴量データベース123を参照して、手指の姿勢に関する時系列情報を取得すると、手指の姿勢に関する時系列情報を利用者に対して提示するためのコンテンツ(例えば、動画像や音声)を生成する。例えば、提供部133は、手指の姿勢や特徴点の位置、速度、加速度を矢印や色で表した画像を生成する。また、提供部133は、生成した画像と音を一緒に提示するコンテンツを生成する。続いて、提供部133は、生成したコンテンツを端末装置300に配信する。
 なお、提供部133は、手指の姿勢に関する時系列情報をアプリサーバ200に送信し、アプリサーバ200を介して手指の姿勢に関する時系列情報を利用者に対して提供してもよい。
[1.4.情報処理システムの動作例]
 次に、図4を用いて、本開示の第1の実施形態に係る情報処理システムの動作について説明する。図4は、本開示の第1の実施形態に係る情報処理システムの動作例について説明するための図である。図4に示す例では、情報処理装置100は、環境に設置された複数の高速カメラそれぞれによって撮影されたセンサ画像1、2、3、…を取得する。続いて、情報処理装置100は、取得したセンサ画像1、2、3、…を機械学習モデルM1に入力する。情報処理装置100は、機械学習モデルM1の出力情報として、センサ画像1、2、3、…それぞれに含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置それぞれを推定する。
 続いて、情報処理装置100は、推定した各センサ画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置とカメラパラメータとに基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。続いて、情報処理装置100は、手指の関節、手掌、手背、手首の特徴点の3次元位置に基づいて、手指の3次元特徴量の時系列情報を推定する。続いて、情報処理装置100は、手指の3次元特徴量の時系列情報をデータベースに格納する。
[1.5.カメラ及び照明の配置例]
 次に、図5を用いて、本開示の第1の実施形態に係るカメラ及び照明の配置について説明する。図5は、本開示の第1の実施形態に係るカメラ及び照明の配置例を示す図である。図5では、複数のカメラが対象物である鍵盤を異なる複数の方向から撮影するように設置されている。具体的には、鍵盤の両脇および鍵盤の上方に3台のカメラC1~C3が設置されている。また、画像情報は、対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である。具体的には、画像情報は、対象物の両脇および対象物の上方に設置された3台以上のカメラそれぞれによって撮影された複数の画像情報である。
 高速カメラによって撮影する場合、一般環境では光量が足りないことが多いため、作業空間を囲むように赤外線や可視光の線や面の光源を設置する。図5に示す例では、カメラの照明は、ピアノの鍵盤を囲む門状の構造物に設置される。また、3つのカメラC1~C3は、ピアノの鍵盤を囲む門状の構造物に取り付けられ、各カメラによって撮影された画像情報それぞれは、手指が3つのカメラC1~C3それぞれの近傍に設置された光源によって照らされた状態で撮影される。このように、複数のカメラは、対象物を囲む門状の構造物に取り付けられ、複数の画像情報それぞれは、手指がカメラそれぞれの近傍に設置された光源によって照らされた状態で撮影された複数の画像情報である。これにより、手に横からも光があたるようになり、手指が手の影に隠れないようになる。なお、それぞれのカメラにリングライトを取り付けてもよい。また、演奏者側にはひさしを設け、照明が目に入らないようにしてもよい。
 また、ピアノの演奏のような高速動作を撮影する場合、シャッター速度を上げる必要があり、演奏者に影響がないように光量を確保するためには、モノクロカメラや赤外線カメラを用いることが望ましい。図5では、高速モノクロカメラ(例えば、90fps以上)であるカメラC1~C3が環境に取り付けられている。また、カメラC1~C3によって撮影された画像情報は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像情報である。なお、モノクロカメラの方が赤外光も取り込むことで、高速撮影には適している(可視光で光量を増やすと、被測定者の動作に影響する)なお、RGBカメラ(以下、通常のカメラともいう)を用いることも可能である。また、カメラはフレームや部屋の中で、1つの平面上にあるように取り付ける。これにより、エピポーラ幾何が計算に使え、計算精度の向上が見込める。
 また、ピアノの演奏中は、親指や小指が手によって隠されてしまうことが多いので、撮影方向と反対側にもカメラを配置する。これにより、親指や小指が手によって隠されてしまうことをカバーできる。具体的には、反対側のカメラを接地面に平行から45度くらいまでの範囲で傾けて、カメラを設置する。これにより、図5のように、カメラが3台しかなくても、親指や小指も2台以上のカメラで追うことができるようになり、手指の3次元位置推定の際のデータ欠落が少なくなる。
 また、カメラの撮像範囲は手が撮影できる範囲に絞る。カメラの解像度は有限なので、撮影範囲を絞ったほうが位置推定の分解能・精度が上がる(例えば、1mの範囲を2000pxのセンサで写した場合、分解能は0.5mmとなる)。図5に示す例では、カメラC1~C3の撮影範囲は、演奏者の左手H1および右手H2の手指の指先から手首までの範囲である。また、画像情報は、手指の指先から手首までの範囲を撮影範囲として撮影された画像情報である。
[1.6.カメラ配置と撮像画像の組の例]
 次に、図6を用いて、本開示の第1の実施形態に係るカメラ配置と撮像画像の組について説明する。図6は、本開示の第1の実施形態に係るカメラ配置と撮像画像の組の一例を示す図である。
 図6に示す例では、4台のカメラ(1)~(4)が対象物である鍵盤を異なる複数の方向から撮影するように設置されている。具体的には、鍵盤の両脇および鍵盤の上方に4台のカメラ(1)~(4)が設置されている。
 また、画像情報は、対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である。具体的には、カメラ(1)によって撮影された画像は、鍵盤の左脇に設置されたカメラ(1)によって撮影された画像である。また、カメラ(2)によって撮影された画像は、鍵盤の左上方に設置されたカメラ(2)によって撮影された画像である。また、カメラ(3)によって撮影された画像は、鍵盤の右上方に設置されたカメラ(3)によって撮影された画像である。また、カメラ(4)によって撮影された画像は、鍵盤の右上方に設置されたカメラ(4)によって撮影された画像である。
[1.7.手の特徴点の2次元位置]
 次に、図7~図9を用いて、本開示の第1の実施形態に係る各カメラによる撮像画像に含まれる手の特徴点の2次元位置について説明する。
 まず、図7を用いて、本開示の第1の実施形態に係る撮像画像に含まれる手の特徴点の2次元位置について説明する。図7は、本開示の第1の実施形態に係る撮像画像に含まれる手の特徴点の2次元位置の一例を示す図である。図7は、鍵盤の上方に設置されたカメラによって撮影された画像に含まれる手の特徴点の2次元位置の一例を示す。
 次に、図8を用いて、本開示の第1の実施形態に係る撮像画像に含まれる手の特徴点の2次元位置について説明する。図8は、本開示の第1の実施形態に係る撮像画像に含まれる手の特徴点の2次元位置の一例を示す図である。図8は、鍵盤の左脇に設置されたカメラによって撮影された画像に含まれる手の特徴点の2次元位置の一例を示す。
 次に、図9を用いて、本開示の第1の実施形態に係る撮像画像に含まれる手の特徴点の2次元位置について説明する。図9は、本開示の第1の実施形態に係る撮像画像に含まれる手の特徴点の2次元位置の一例を示す図である。図9は、鍵盤の右脇に設置されたカメラによって撮影された画像に含まれる手の特徴点の2次元位置の一例を示す。
[1.8.手指の姿勢に関する情報の提示例]
 次に、図10~図11を用いて、本開示の第1の実施形態に係る手指の姿勢に関する情報の提示について説明する。まず、図10を用いて、について説明する。図10は、本開示の第1の実施形態に係る手指の姿勢に関する情報の提示例を示す図である。図10に示す例では、提供部133は、手指の移動の軌跡を線で重ねて表現した画像を提供する。端末装置300は、手指の移動の軌跡を線で重ねて表現した画像を表示する。また、端末装置300は、手指の移動に合わせてピアノ演奏の音を一緒に出力する。
 次に、図11を用いて、本開示の第1の実施形態に係る手指の姿勢に関する情報の提示について説明する。図11は、本開示の第1の実施形態に係る手指の姿勢に関する情報の提示例を示す図である。図11に示す例では、提供部133は、手指の速度や角度などの時間変化をグラフで表現したコンテンツを提供する。端末装置300は、手指の速度や角度などの時間変化をグラフで表現したコンテンツを表示する。
[1.9.変形例]
 次に、図12を用いて、本開示の第1の実施形態の変形例に係る情報処理システムの動作について説明する。図12は、本開示の第1の実施形態の変形例に係る情報処理システムの動作例について説明するための図である。手指の動作は腱の動きとして手の甲にも表れる。そこで、図12に示す例では、推定部132は、手指の動作を行っている手の手背の画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。
 具体的には、推定部132は、手指の動作を行っている手の手背の画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第2機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定する。例えば、推定部132は、環境に設置された高速カメラによって撮影された画像情報から手背の特徴領域の画像情報を抽出する。例えば、推定部132は、手背の特徴領域の画像情報として、手の甲の腱の部分の画像情報を抽出する。続いて、推定部132は、手背の特徴領域の画像情報に基づいて手指の関節の角度に関する時系列情報を推定するよう学習された第2機械学習モデルを用いて、手指の関節の角度に関する時系列情報を推定する。
 例えば、推定部132は、環境に設置された高速カメラによって撮影された画像情報をセンサ情報処理装置10から取得する。続いて、推定部132は、取得した画像情報から手背の特徴領域を抽出する。続いて、推定部132は、抽出した手背の特徴領域の画像情報を第2機械学習モデルに入力して、高速カメラによって撮影された画像に含まれる手指の関節の角度に関する時系列情報を推定する。
[2.第2の実施形態]
[2.1.ピアノ演奏の指くぐり奏法]
 次に、図13を用いて、ピアノ演奏における指くぐり奏法について説明する。図13は、ピアノ演奏における指くぐり奏法について説明するための図である。ピアノの演奏には「指くぐり」と呼ばれる、人差し指が親指をまたいで演奏する奏法があり、親指が隠れてしまうことがある。図13に示す点線は、ピアノ演奏における指くぐり奏法を行っている手を真上から見たときに、手掌に隠れて見えなくなってしまった親指の位置を示す。
 図13に示す「指くぐり」により、親指が点線のような位置にあるときは、環境に取り付けたカメラではどの角度からも撮影が難しい。そこで、情報処理システム2では、利用者の親指および手背に設置された複数のIMUセンサによって検出されるセンシングデータにより、環境に設置したカメラによる撮影が困難な手指の姿勢推定を補完する。
[2.2.情報処理システムの構成例]
 次に、図14を用いて、本開示の第2の実施形態に係る情報処理システムの構成について説明する。図14は、本開示の第2の実施形態に係る情報処理システムの構成例を示す図である。図14に示すように、第2の実施形態に係る情報処理システム2は、第1の実施形態に係る情報処理システム1と比較して、センサ情報処理装置20を備える点が異なっている。また、第2の実施形態に係る情報処理システム2は、第1の実施形態に係る情報処理システム1の情報処理装置100の代わりに、情報処理装置100Aを備える点が異なっている。したがって、以下の説明では、センサ情報処理装置20について主に説明し、第2の実施形態に係る情報処理システム2が備える他の構成についての詳細な説明は省略する。
 図14に示した各種装置は、ネットワークN(例えば、インターネット)を介して、有線又は無線により通信可能に接続される。なお、図14に示した情報処理システム2には、任意の数のセンサ情報処理装置10と任意の数のセンサ情報処理装置20と任意の数の情報処理装置100Aと任意の数のアプリサーバ200と任意の数の端末装置300とが含まれていてもよい。
 センサ情報処理装置20は、利用者の親指および手背に設置された複数のIMUセンサそれぞれによって検出されたセンシングデータを複数のIMUセンサそれぞれから取得する。また、センサ情報処理装置20は、複数のIMUセンサそれぞれから取得したセンシングデータに基づいて、複数のIMUセンサ間の相対姿勢を推定する。センサ情報処理装置20は、複数のIMUセンサ間の相対姿勢を推定すると、推定した複数のIMUセンサ間の相対姿勢に関する情報を情報処理装置100Aに送信する。
 情報処理装置100Aは、複数のIMUセンサそれぞれによって検出されたセンシングデータをセンサ情報処理装置20から取得する。情報処理装置100Aは、センシングデータに基づいて、環境に設置したカメラによる撮影が困難な手指の姿勢を推定する。なお、センサ情報処理装置20と情報処理装置100Aとは、一体の装置であってもよい。その場合、情報処理装置100Aは、利用者の親指および手背に設置された複数のIMUセンサそれぞれによって検出されたセンシングデータを複数のIMUセンサそれぞれから取得する。また、情報処理装置100Aは、複数のIMUセンサそれぞれから取得したセンシングデータに基づいて、複数のIMUセンサ間の相対姿勢を推定する。
[2.3.センサ情報処理装置の構成例]
 次に、図15を用いて、本開示の第2の実施形態に係るセンサ情報処理装置の構成について説明する。図15は、本開示の第2の実施形態に係るセンサ情報処理装置の構成例を示す図である。図15に示す例では、センサ情報処理装置20は、姿勢推定部と通信部を備える。
 姿勢推定部それぞれは、3つのIMUセンサ1~3それぞれからセンシングデータを取得する。姿勢推定部は、3つのIMUセンサ1~3それぞれから取得したセンシングデータに基づいて、3つのIMUセンサ1~3間の相対姿勢を推定する。姿勢推定部は、3つのIMUセンサ1~3間の相対姿勢を推定すると、推定した姿勢に関する情報を通信部に出力する。
 通信部は、ネットワークNを介して、情報処理装置100Aと通信する。また、通信部は、Wi-Fi(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)、Bluetooth Low Energy(登録商標)、ANT(登録商標)、ANT+(登録商標)、又はEnOcean Alliance(登録商標)等による通信を用いて、情報処理装置100Aと無線通信してもよい。
 通信部は、3つのIMUセンサ1~3間の相対姿勢に関する情報を姿勢推定部から取得する。通信部は、3つのIMUセンサ1~3間の相対姿勢に関する情報を取得すると、取得した相対姿勢に関する情報を情報処理装置100Aに送信する。
[2.4.情報処理装置の構成例]
 次に、図16を用いて、本開示の第2の実施形態に係る情報処理装置の構成について説明する。図16は、本開示の第2の実施形態に係る情報処理装置の構成例を示す図である。図16に示すように、第2の実施形態に係る情報処理装置100Aは、第1の実施形態に係る情報処理装置100と比較して、推定部132、センサデータベース121の代わりに、推定部132A、センサデータベース121Aを備える点が異なっている。したがって、以下の説明では、推定部132A、センサデータベース121Aについて主に説明し、第2の実施形態に係る情報処理装置100Aが備える他の構成についての詳細な説明は省略する。
(センサデータベース121A)
 センサデータベース121Aは、第1の実施形態に係る情報処理装置100のセンサデータベース121と比較して、センサ情報処理装置20から取得した複数のIMUセンサ間の相対姿勢に関する情報を格納する点が異なる。センサデータベース121Aは、取得部131が取得した利用者の親指および手背に設置された複数のIMUセンサ間の相対姿勢に関する情報を格納する。
(推定部132A)
 推定部132Aは、利用者の親指および手背に設置された複数のIMUセンサによって検出されたセンシングデータに基づいて、利用者の手指の姿勢に関する時系列情報を推定する。具体的には、推定部132Aは、センサデータベース121Aを参照して、利用者の親指および手背に設置された複数のIMUセンサ間の相対姿勢に関する情報を取得する。また、推定部132Aは、複数のIMUセンサが設置された手指のモデルに関する情報を取得する。
 続いて、推定部132Aは、複数のIMUセンサ間の相対姿勢に関する情報、手指のモデルに関する情報、および推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。
 例えば、推定部132Aは、各カメラの動画像に所定の手指の特徴点が含まれないと判定した場合、複数のIMUセンサ間の相対姿勢に関する情報および手指のモデルに関する情報に基づいて、所定の手指の特徴点の3次元位置を推定する。また、推定部132Aは、各カメラの動画像に所定の手指の特徴点が含まれるが、その確度が低いと判定した場合、複数のIMUセンサ間の相対姿勢に関する情報および手指のモデルに関する情報に基づいて推定した所定の手指の特徴点の3次元位置の確度と、各カメラの動画像に基づいて推定した所定の手指の特徴点の3次元位置の確度とでそれぞれ重み付けて平均をとることにより、所定の手指の特徴点の3次元位置を推定する。
 続いて、推定部132Aは、推定した所定の手指の3次元位置に基づいて、所定の手指の姿勢の時系列情報を推定する。より具体的には、推定部132Aは、所定の手指の姿勢の時系列情報として、所定の手指の3次元特徴量の時系列情報を推定する。
 また、推定部132Aは、IMUセンサが取り付けられた手指の関節の角度は、IMUセンサに関する情報に基づいて推定した値の重みを大きくしてもよい。また、推定部132Aは、IMUセンサが取り付けられた手指の関節の位置についてセンサ画像が存在する場合、センサ画像の情報を用いて補完してもよい。これにより、隠れた手指の位置の補完のみでなく、隠れた手指の関節の角度推定の精度向上も見込むことができる。
[2.5.情報処理システムの動作例]
 次に、図17を用いて、本開示の第2の実施形態に係る情報処理システムの動作について説明する。図17は、本開示の第2の実施形態に係る情報処理システムの動作例について説明するための図である。図17に示す例では、図4と同様に、情報処理装置100Aは、環境に設置された複数の高速カメラそれぞれによって撮影されたセンサ画像1、2、3、…を取得する。続いて、情報処理装置100Aは、取得したセンサ画像1、2、3、…を機械学習モデルM1に入力する。情報処理装置100Aは、機械学習モデルM1の出力情報として、センサ画像1、2、3、…それぞれに含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置それぞれを推定する。また、情報処理装置100Aは、複数の高速カメラそれぞれのカメラパラメータを取得する。
 また、図17では、情報処理装置100Aは、情報処理装置100Aは、利用者の所定の手指および手背に設置された複数のIMUセンサ1、2、3、…からそれぞれ検出されたセンシングデータを取得する。続いて、情報処理装置100Aは、取得したセンシングデータに基づいて、複数のIMUセンサ間の相対姿勢を推定する。また、情報処理装置100Aは、複数のIMUセンサが設置された手指のモデルに関する情報を取得する。
 続いて、情報処理装置100Aは、複数のIMUセンサ間の相対姿勢に関する情報、手指のモデルに関する情報、および推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。
 例えば、情報処理装置100Aは、図4と同様に、推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。また、情報処理装置100Aは、各カメラの動画像に所定の手指(例えば、指くくり奏法により隠れた親指等の手指)の特徴点が含まれないと判定した場合、複数のIMUセンサ間の相対姿勢に関する情報および手指のモデルに関する情報に基づいて、所定の手指の特徴点の3次元位置を推定する。また、情報処理装置100Aは、各カメラの動画像に所定の手指の特徴点が含まれるが、その確度が低いと判定した場合、複数のIMUセンサ間の相対姿勢に関する情報および手指のモデルに関する情報に基づいて推定した所定の手指の特徴点の3次元位置の確度と、各カメラの動画像に基づいて推定した所定の手指の特徴点の3次元位置の確度とでそれぞれ重み付けて平均をとることにより、所定の手指の特徴点の3次元位置を推定する。
 続いて、情報処理装置100Aは、推定した手指の3次元位置に基づいて、手指の姿勢の時系列情報を推定する。より具体的には、情報処理装置100Aは、手指の姿勢の時系列情報として、手指の3次元特徴量の時系列情報を推定する。続いて、情報処理装置100は、手指の3次元特徴量の時系列情報をデータベースに格納する。
[2.6.IMUセンサの装着例]
 次に、図18~図19を用いて、本開示の第2の実施形態に係るIMUセンサの装着について説明する。図18~図19では、第2の実施形態に係るIMUセンサによって親指のセンシングデータを取得する場合の装着例について説明する。例えば、第2の実施形態に係るIMUセンサによって親指をセンシングする場合、親指の2つの節と、少なくとももう1か所にIMUセンサを取り付ける。
 まず、図18を用いて、について説明する。図18は、本開示の第2の実施形態に係るIMUセンサの装着例を示す図である。図18に示す例では、親指のIP関節から末節骨までの範囲に1つ目のIMUセンサ(IMU1)を取り付ける。例えば、1つ目のIMUセンサ(IMU1)は、薄くて小さい形状であり、親指の所定の位置に張り付け可能である。
 また、親指のMP関節から基節骨までの範囲に2つ目のIMUセンサ(IMU2)を取り付ける。例えば、2つ目のIMUセンサ(IMU2)は、リング状であり、親指にはめることができる。
 また、手掌の月状骨の辺りに3つ目のIMUセンサ(IMU3)を取り付ける。なお、3つ目のIMUセンサ(IMU3)の取り付け位置は、手掌の月状骨の辺りに限られず、解剖学的に動きづらい位置であればどこでもよい。例えば、3つ目のIMUセンサ(IMU3)は、薄くて小さい形状であり、手掌の所定の位置に張り付け可能である。
 次に、図19を用いて、本開示の第2の実施形態に係るIMUセンサの装着について説明する。図19は、本開示の第2の実施形態に係るIMUセンサの装着例を示す図である。図19に示す例では、図18と同様に、親指のIP関節から末節骨までの範囲に1つ目のIMUセンサ(IMU1)を取り付ける。また、親指のMP関節から基節骨までの範囲に2つ目のIMUセンサ(IMU2)を取り付ける。
 図19では、掌の月状骨の辺りでなく、人差し指に3つ目のIMUセンサ(IMU3)を取り付ける点が図18と異なる。図19では、3つ目のIMUセンサ(IMU3)は、リング状であり、人差し指にはめることができる。
[3.第3の実施形態]
 上述した第2の実施形態に係る情報処理システム2では、利用者の親指および手背に設置された複数のIMUセンサによって検出されるセンシングデータにより、環境に設置したカメラによる撮影が困難な手指の姿勢推定を補完する例について説明した。しかしながら、ピアノ演奏を撮影した場合には、指くくり等による親指以外の手指が隠れてしまう場合も多くある。
 例えば、ピアノの演奏を撮影した場合、演奏者が中指や薬指を動かした際に、中指や薬指が他の指に隠れてしまう場合がある。そこで、第3の実施形態に係る情報処理システム3では、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報およびウェアラブルカメラに搭載されたIMUセンサによって検出されたセンシングデータに基づいて、環境に設置したカメラによる撮影が困難な手指の姿勢推定を補完する例について説明する。
[3.1.情報処理システムの構成例]
 次に、図20を用いて、本開示の第3の実施形態に係る情報処理システムの構成について説明する。図20は、本開示の第3の実施形態に係る情報処理システムの構成例を示す図である。図20に示すように、第3の実施形態に係る情報処理システム3は、第1の実施形態に係る情報処理システム1と比較して、センサ情報処理装置30を備える点が異なっている。また、第3の実施形態に係る情報処理システム3は、第1の実施形態に係る情報処理システム1の情報処理装置100の代わりに、情報処理装置100Bを備える点が異なっている。したがって、以下の説明では、センサ情報処理装置30について主に説明し、第3の実施形態に係る情報処理システム3が備える他の構成についての詳細な説明は省略する。
 図20に示した各種装置は、ネットワークN(例えば、インターネット)を介して、有線又は無線により通信可能に接続される。なお、図20に示した情報処理システム3には、任意の数のセンサ情報処理装置10と任意の数のセンサ情報処理装置30と任意の数の情報処理装置100Bと任意の数のアプリサーバ200と任意の数の端末装置300とが含まれていてもよい。
 センサ情報処理装置30は、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報をウェアラブルカメラから取得する。センサ情報処理装置30は、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の特徴点の2次元位置を推定する。例えば、センサ情報処理装置30は、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の関節や指先の位置である手指の特徴点の2次元位置を推定する。センサ情報処理装置30は、手指の特徴点の2次元位置を推定すると、推定した手指の特徴点の2次元位置に関する情報を情報処理装置100Bに送信する。
 また、センサ情報処理装置30は、ウェアラブルカメラが備えるIMUセンサによって検出されたセンシングデータをウェアラブルカメラのIMUセンサから取得する。センサ情報処理装置30は、IMUセンサから取得したセンシングデータに基づいて、ウェアラブルカメラの姿勢を推定する。続いて、センサ情報処理装置30は、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。センサ情報処理装置30は、ウェアラブルカメラのカメラパラメータを推定すると、推定したウェアラブルカメラのカメラパラメータに関する情報を情報処理装置100Bに送信する。
 情報処理装置100Bは、ウェアラブルカメラで撮影された画像に含まれる手指の特徴点の2次元位置に関する情報をセンサ情報処理装置30から取得する。また、情報処理装置100Bは、ウェアラブルカメラのカメラパラメータに関する情報をセンサ情報処理装置30から取得する。情報処理装置100Bは、ウェアラブルカメラで撮影された画像に含まれる手指の特徴点の2次元位置に関する情報とウェアラブルカメラのカメラパラメータに関する情報とに基づいて、環境に設置したカメラによる撮影が困難な手指の姿勢を推定する。なお、センサ情報処理装置30と情報処理装置100Bとは、一体の装置であってもよい。その場合、情報処理装置100Bは、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報をウェアラブルカメラから取得する。情報処理装置100Bは、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の特徴点の2次元位置を推定する。例えば、情報処理装置100Bは、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の関節や指先の位置である手指の特徴点の2次元位置を推定する。また、情報処理装置100Bは、ウェアラブルカメラが備えるIMUセンサによって検出されたセンシングデータをウェアラブルカメラのIMUセンサから取得する。情報処理装置100Bは、IMUセンサから取得したセンシングデータに基づいて、ウェアラブルカメラの姿勢を推定する。続いて、情報処理装置100Bは、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。
[3.2.センサ情報処理装置の構成例]
 次に、図21を用いて、本開示の第3の実施形態に係るセンサ情報処理装置の構成について説明する。図21は、本開示の第3の実施形態に係るセンサ情報処理装置の構成例を示す図である。図21に示す例では、センサ情報処理装置30は、姿勢推定部と画像処理部と通信部を備える。
 姿勢推定部は、ウェアラブルカメラが備えるIMUセンサによって検出されたセンシングデータをウェアラブルカメラのIMUセンサから取得する。姿勢推定部は、IMUセンサから取得したセンシングデータに基づいて、ウェアラブルカメラの姿勢を推定する。続いて、姿勢推定部は、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。姿勢推定部は、ウェアラブルカメラのカメラパラメータを推定すると、推定したウェアラブルカメラのカメラパラメータに関する情報を通信部に出力する。
 画像処理部は、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報をウェアラブルカメラから取得する。例えば、画像処理部は、深度センサで撮影された画像情報をウェアラブルカメラから取得してもよい。画像処理部は、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の特徴点の2次元位置を推定する。例えば、画像処理部は、ウェアラブルカメラから取得した画像情報に基づいて画像に含まれる手指の特徴点の2次元位置を推定するよう学習された機械学習モデルを用いて、画像に含まれる手指の特徴点の2次元位置を推定する。画像処理部は、手指の特徴点の2次元位置を推定すると、推定した手指の特徴点の2次元位置に関する情報を通信部に出力する。
 通信部は、ネットワークNを介して、情報処理装置100Bと通信する。また、通信部は、Wi-Fi(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)、Bluetooth Low Energy(登録商標)、ANT(登録商標)、ANT+(登録商標)、又はEnOcean Alliance(登録商標)等による通信を用いて、情報処理装置100Bと無線通信してもよい。
 通信部は、ウェアラブルカメラのカメラパラメータに関する情報を姿勢推定部から取得する。また、通信部は、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の2次元位置に関する情報を画像処理部から取得する。通信部は、カメラパラメータに関する情報と手指の特徴点の2次元位置に関する情報とを取得すると、取得したカメラパラメータに関する情報と手指の特徴点の2次元位置に関する情報を情報処理装置100Bに送信する。
[3.3.情報処理装置の構成例]
 次に、図22を用いて、本開示の第3の実施形態に係る情報処理装置の構成について説明する。図22は、本開示の第3の実施形態に係る情報処理装置の構成例を示す図である。図22に示すように、第3の実施形態に係る情報処理装置100Bは、第1の実施形態に係る情報処理装置100と比較して、推定部132、センサデータベース121の代わりに、推定部132B、センサデータベース121Bを備える点が異なっている。したがって、以下の説明では、推定部132B、センサデータベース121Bについて主に説明し、第3の実施形態に係る情報処理装置100Bが備える他の構成についての詳細な説明は省略する。
(センサデータベース121B)
 センサデータベース121Bは、第1の実施形態に係る情報処理装置100のセンサデータベース121と比較して、センサ情報処理装置30から取得したウェアラブルカメラのカメラパラメータに関する情報およびウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の2次元位置に関する情報を格納する点が異なる。センサデータベース121Aは、取得部131が取得したカメラパラメータに関する情報と手指の特徴点の2次元位置に関する情報を格納する。
(推定部132B)
 推定部132Bは、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報に基づいて、利用者の手指の姿勢に関する時系列情報を推定する。例えば、推定部132Bは、ウェアラブルカメラで撮影された画像情報に基づいてウェアラブルカメラで撮影された画像に含まれる手指の特徴点の2次元位置を推定するよう学習された機械学習モデルを用いて、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の2次元位置に関する情報を推定する。
 また、ウェアラブルカメラは、IMUセンサをさらに備え、推定部132Bは、IMUセンサによって検出されたセンシングデータに基づいて、手指の姿勢に関する時系列情報を推定する。具体的には、推定部132Bは、センサデータベース121Bを参照して、ウェアラブルカメラのカメラパラメータに関する情報およびウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の2次元位置に関する情報を取得する。
 なお、推定部132Bは、ウェアラブルカメラのIMUセンサによって検出されたセンシングデータをウェアラブルカメラから取得して、IMUセンサによって検出されたセンシングデータに基づいて、ウェアラブルカメラの姿勢を推定してもよい。続いて、推定部132Bは、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定してもよい。
 推定部132Bは、ウェアラブルカメラのカメラパラメータに関する情報、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の2次元位置に関する情報、および推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。
 例えば、推定部132Bは、環境に設置された複数の高速カメラとウェアラブルカメラのうちの任意の2台のカメラでステレオ視した画像に基づいて、それぞれのカメラの組み合わせでの手指の特徴点の3次元位置とその確かさを算出する。続いて、推定部132Bは、各カメラの動画像に所定の手指の特徴点が含まれないと判定した場合、各組合せでの所定の手指の特徴点(手指の関節の位置や指先の位置)の3次元位置を、算出した確かさで重みづけして平均をとることで、所定の手指の特徴点(手指の関節の位置や指先の位置)の3次元位置を推定する。
 続いて、推定部132Bは、推定した所定の手指の3次元位置に基づいて、所定の手指の姿勢の時系列情報を推定する。より具体的には、推定部132Bは、所定の手指の姿勢の時系列情報として、所定の手指の3次元特徴量の時系列情報を推定する。
[3.4.情報処理システムの動作例]
 次に、図23を用いて、本開示の第3の実施形態に係る情報処理システムの動作について説明する。図23は、本開示の第3の実施形態に係る情報処理システムの動作例について説明するための図である。図23に示す例では、図4と同様に、情報処理装置100Bは、環境に設置された複数の高速カメラそれぞれによって撮影されたセンサ画像1、2、3、…を取得する。続いて、情報処理装置100Bは、取得したセンサ画像1、2、3、…を機械学習モデルM1に入力する。情報処理装置100Bは、機械学習モデルM1の出力情報として、センサ画像1、2、3、…それぞれに含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置それぞれを推定する。また、情報処理装置100Bは、複数の高速カメラそれぞれのカメラパラメータを取得する。
 また、図23では、情報処理装置100Bは、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報を取得する。続いて、情報処理装置100Bは、ウェアラブルカメラで撮影された画像情報に基づいてウェアラブルカメラで撮影された画像に含まれる手指の特徴点の2次元位置を推定するよう学習された機械学習モデルを用いて、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の2次元位置に関する情報を推定する。
 また、情報処理装置100Bは、ウェアラブルカメラのIMUセンサによって検出されたセンシングデータをウェアラブルカメラから取得する。続いて、情報処理装置100Bは、取得したセンシングデータに基づいて、ウェアラブルカメラ(のIMUセンサ)の姿勢を推定する。続いて、情報処理装置100Bは、推定したウェアラブルカメラ(のIMUセンサ)の姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。
 続いて、情報処理装置100Bは、ウェアラブルカメラのカメラパラメータに関する情報、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の2次元位置に関する情報、および推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。
 例えば、情報処理装置100Bは、図4と同様に、推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。また、情報処理装置100Bは、環境に設置された複数の高速カメラとウェアラブルカメラのうちの任意の2台のカメラでステレオ視した画像に基づいて、それぞれのカメラの組み合わせでの手指の特徴点の3次元位置とその確かさを算出する。続いて、情報処理装置100Bは、各カメラの動画像に所定の手指(例えば、他の指に隠れた中指や薬指等の手指)の特徴点が含まれないと判定した場合、各組合せでの所定の手指の特徴点(手指の関節の位置や指先の位置)の3次元位置を、算出した確かさで重みづけして平均をとることで、所定の手指の特徴点(手指の関節の位置や指先の位置)の3次元位置を推定する。
 続いて、情報処理装置100Bは、推定した手指の3次元位置に基づいて、手指の姿勢の時系列情報を推定する。より具体的には、情報処理装置100Bは、手指の姿勢の時系列情報として、手指の3次元特徴量の時系列情報を推定する。続いて、情報処理装置100Bは、手指の3次元特徴量の時系列情報をデータベースに格納する。
[3.5.ウェアラブルカメラによるセンシングの概要]
 次に、図24を用いて、本開示の第3の実施形態に係るウェアラブルカメラによるセンシングの概要について説明する。図24は、本開示の第3の実施形態に係るウェアラブルカメラによるセンシングの概要について説明するための図である。
 図24の左側に示すように、ウェアラブルカメラHCは、利用者の手首に取り付けられ、利用者の手掌側を撮影する。ウェアラブルカメラHCは、図24の左側に示すR1の範囲を撮影する。例えば、R1の範囲は、ウェアラブルカメラHCのカメラ位置から利用者の手掌側に向かって円錐状に広がる範囲を示す。
 ウェアラブルカメラHCでR1の範囲を撮影すると、図24の中央に示すような画像G1が得られる。例えば、画像G1には、利用者の指先に近い手指のDIP関節や指先が含まれる。センサ情報処理装置30は、ウェアラブルカメラHCから取得した画像情報に基づいて、画像に含まれる手指の関節や指先の位置を手指の特徴点として抽出する。
 また、ウェアラブルカメラHCは、通常のカメラまたは深度センサによって利用者の手掌側を撮影する。また、ウェアラブルカメラHCのカメラ周辺には赤外線の光源を取り付けてもよい。また、カメラはTOF(Time-of-Flight)センサで代替してもよい。また、ウェアラブルカメラHC自体の姿勢は、カメラと同じ場所に取り付けたIMUセンサのセンシングデータによって推定する。
 このように、ウェアラブルカメラHCは、手掌側を撮影することにより、環境に取り付けたカメラで撮影できなかった手指の情報の補完を行うことができる。また、ウェアラブルカメラHCにより手掌側を撮影することで、他の指に隠れることなく、指先のトラッキングが可能になる。
[3.6.ウェアラブルカメラの構造]
 次に、図25を用いて、本開示の第3の実施形態に係るウェアラブルカメラの構造について説明する。図25は、本開示の第3の実施形態に係るウェアラブルカメラの構造について説明するための図である。
 図25に示すように、ウェアラブルカメラHCは、通常のカメラまたは深度センサであるカメラC4を備える。なお、ウェアラブルカメラHCを手首に取り付けて手掌を撮影するため、カメラC4の位置はバンドから飛び出ている必要がある。
 また、ウェアラブルカメラHCは、IMUセンサ(IMU4)を備える。IMUセンサ(IMU4)は、ウェアラブルカメラHCの本体内部に取り付けられる。
 また、ウェアラブルカメラHCは、手首に固定するためのバンドB1を備える。
 また、ウェアラブルカメラHCは、バンドの周囲に外部センサからトラッキングするためのマーカーMR1を備えてもよい。
[3.7.変形例]
 次に、図26を用いて、本開示の第3の実施形態の変形例に係る情報処理システムの動作について説明する。図26は、本開示の第3の実施形態の変形例に係る情報処理システムの動作例について説明するための図である。図26では、情報処理システム3が、ウェアラブルカメラのIMUセンサによるセンシングデータを用いることなく、ウェアラブルカメラの画像情報と環境に設置された高速カメラの画像情報に基づいて手指の姿勢に関する時系列情報を推定する例について説明する。
 図26に示す例では、図23と同様に、情報処理装置100Bは、環境に設置された複数の高速カメラそれぞれによって撮影されたセンサ画像1、2、3、…を取得する。続いて、情報処理装置100Bは、取得したセンサ画像1、2、3、…を機械学習モデルM1に入力する。情報処理装置100Bは、機械学習モデルM1の出力情報として、センサ画像1、2、3、…それぞれに含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置それぞれを推定する。また、情報処理装置100Bは、複数の高速カメラそれぞれのカメラパラメータを取得する。
 また、情報処理装置100Bは、取得したセンサ画像1、2、3、…に基づいて、ウェアラブルカメラの姿勢を推定する。続いて、情報処理装置100Bは、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。
 続いて、情報処理装置100Bは、ウェアラブルカメラのカメラパラメータに関する情報、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の2次元位置に関する情報、および推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。
[4.第4の実施形態]
 第4の実施形態に係る情報処理システム4では、対象物への接触を検知する接触センサが対象物の内部に搭載されている。そして、第4の実施形態に係る情報処理システム4の情報処理装置100Cは、対象物に対する手指の接触に関するセンシングデータに基づいて、対象物に接触した手指の姿勢の時系列情報を推定する。
[4.1.情報処理システムの構成例]
 次に、図27を用いて、本開示の第4の実施形態に係る情報処理システムの構成について説明する。図27は、本開示の第4の実施形態に係る情報処理システムの構成例を示す図である。図27に示すように、第4の実施形態に係る情報処理システム4は、第1の実施形態に係る情報処理システム1と比較して、センサ情報処理装置40を備える点が異なっている。また、第4の実施形態に係る情報処理システム4は、第1の実施形態に係る情報処理システム1の情報処理装置100の代わりに、情報処理装置100Cを備える点が異なっている。したがって、以下の説明では、センサ情報処理装置40について主に説明し、第4の実施形態に係る情報処理システム4が備える他の構成についての詳細な説明は省略する。
 センサ情報処理装置40は、対象物に対する手指の接触に関するセンシングデータを対象物の内部に搭載された接触センサから取得する。センサ情報処理装置40は、対象物に対する手指の接触に関するセンシングデータを取得すると、センシングデータを情報処理装置100Cに送信する。
 情報処理装置100Cは、対象物に対する手指の接触に関するセンシングデータをセンサ情報処理装置40から取得する。情報処理装置100Cは、センシングデータに基づいて、対象物に接触した手指の姿勢の時系列情報を推定する。なお、センサ情報処理装置40と情報処理装置100Cとは、一体の装置であってもよい。その場合、情報処理装置100Cは、対象物に対する手指の接触に関するセンシングデータを対象物の内部に搭載された接触センサから取得する。
[4.2.情報処理システムの動作例]
 次に、図28を用いて、本開示の第4の実施形態に係る情報処理システムの動作について説明する。図28は、本開示の第4の実施形態に係る情報処理システムの動作例について説明するための図である。図28に示す例では、第1~第3の実施形態に係る情報処理装置と同様に、情報処理装置100Cは、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の2次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の3次元位置を推定する。
 また、情報処理装置100Cは、対象物への手指の接触情報をセンサ情報処理装置40から取得する。続いて、情報処理装置100Cは、手指の関節、手掌、手背、手首の特徴点の3次元位置と対象物への手指の接触情報とに基づいて、対象物に接触した手指を推定する。また、情報処理装置100Cは、対象物に接触した手指を特定するための手指のモデルを取得する。続いて、情報処理装置100Cは、推定した対象物に接触した手指と取得した手指のモデルとに基づいて、対象物に接触した手指の姿勢を推定する。
[4.3.情報処理装置の構成例]
 次に、図29を用いて、本開示の第4の実施形態に係る情報処理装置の構成について説明する。図29は、本開示の第4の実施形態に係る情報処理装置の構成例を示す図である。図29に示すように、第4の実施形態に係る情報処理装置100Cは、第1の実施形態に係る情報処理装置100と比較して、推定部132、センサデータベース121の代わりに、推定部132C、センサデータベース121Cを備える点が異なっている。したがって、以下の説明では、推定部132C、センサデータベース121Cについて主に説明し、第4の実施形態に係る情報処理装置100Cが備える他の構成についての詳細な説明は省略する。
(センサデータベース121C)
 センサデータベース121Cは、第1の実施形態に係る情報処理装置100のセンサデータベース121と比較して、センサ情報処理装置40から取得した対象物に対する手指の接触に関するセンシングデータを格納する点が異なる。センサデータベース121Cは、取得部131が取得した対象物に対する手指の接触に関するセンシングデータを格納する。
(推定部132C)
 推定部132Cは、対象物に対する手指の接触動作を検出する接触センサによって検出されたセンシングデータに基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。具体的には、推定部132Cは、対象物への手指の接触情報をセンサ情報処理装置40から取得する。続いて、推定部132Cは、手指の関節、手掌、手背、手首の特徴点の3次元位置と対象物への手指の接触情報とに基づいて、対象物に接触した手指を推定する。また、推定部132Cは、対象物に接触した手指を特定するための手指のモデルを取得する。続いて、推定部132Cは、推定した対象物に接触した手指と取得した手指のモデルとに基づいて、対象物に接触した手指の姿勢に関する情報を推定する。例えば、推定部132Cは、対象物に接触した手指の姿勢に関する情報として、対象物に接触した手指の関節角度を推定する。なお、推定部132Cによる手指の関節角度の推定処理については、後述する図31を用いて詳細に説明する。
[4.4.対象物に対する手指の接触動作]
 次に、図30を用いて、本開示の第4の実施形態に係る対象物に対する手指の接触動作について説明する。図30は、本開示の第4の実施形態に係る対象物に対する手指の接触動作について説明するための図である。図30に示す例では、対象物O2は、例えば、ピアノの鍵盤である。また、対象物O2の内部には、対象物への接触を検知する接触センサFSが搭載されている。図30では、演奏者の手H1の人差し指と対象物O2とが対象物O2の上面の点P1で接触すると、接触センサFSは対象物O2に対する人差し指の接触を検知する。接触センサFSは、対象物O2に対する人差し指の接触を検知すると、対象物O2と人差し指との接触情報をセンサ情報処理装置40に送信する。
[4.5.手指の関節角度の推定処理]
 次に、図31を用いて、本開示の第4の実施形態に係る手指の関節角度の推定処理について説明する。図31は、本開示の第4の実施形態に係る手指の関節角度の推定処理について説明するための図である。図31に示す例では、利用者の手指が対象物O3の上面の点P1を押下する場合を示す。例えば、鍵盤である対象物O3は、利用者の手指が鍵盤の一方の端に位置する点P1を押下すると、押下位置P1に近い鍵盤の端が下方に下がり、押下位置P1から遠い鍵盤の端が上方に持ち上がることにより、対象物O3の位置が変化する。図31では、対象物O3に対する手指の接触動作が行われる前の対象物O3の位置を点線で示す。また、対象物O3に対する手指の接触動作が行われた状態の対象物O3の位置を実線で示す。
 推定部132は、対象物に対する手指の接触動作が行われる前の対象物の位置情報、対象物に対する手指の接触動作が行われた前後における対象物の位置の変化量、および対象物に対する手指の接触位置情報に基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。図31では、推定部132は、対象物O3に対する手指の接触動作が行われる前の対象物の位置情報(点線の位置情報)、対象物O3に対する手指の接触動作が行われた前後における対象物の位置の変化量(点線と実線との位置の変化量)、および対象物O3に対する手指の接触位置P1の情報に基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。
 より具体的には、推定部132は、対象物と接触した手指の姿勢に関する時系列情報として、手指のMP関節とPIP関節との間の距離、手指のPIP関節と指先との間の距離、手指のMP関節の位置、および手指の指先の位置に基づいて、手指のPIP関節の角度を推定する。図31では、推定部132は、手指のMP関節の位置P3とPIP関節の位置P2との間の距離L1、手指のPIP関節の位置P2と指先の位置P1との間の距離L2、手指のMP関節の位置P3、および手指の指先の位置P1に基づいて、手指のPIP関節の角度θを推定する。例えば、推定部132は、環境に設置された高速カメラの画像情報に基づいて、画像情報に含まれる手指のMP関節の位置P3、とPIP関節の位置P2、指先の位置P1を推定する。続いて、推定部132は、手指のMP関節の位置P3とPIP関節の位置P2との間の距離L1、手指のPIP関節の位置P2と指先の位置P1との間の距離L2をそれぞれ算出する。続いて、推定部132は、算出した距離L1、L2、および推定したMP関節の位置P3、指先の位置P1に基づいて、余弦定理を用いて、手指のPIP関節の角度θを推定する。なお、手指のDIP関節は、手指のPIP関節と同期して動くため、計算上は省略する。
[5.効果]
 上述のように、本開示の実施形態又はその変形例に係る情報処理装置100は、推定部132を備える。推定部132は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。また、推定部132は、手指の動作と対象物とを含む画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第1機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定する。
 これにより、情報処理装置100は、手指の関節等にセンサやマーカーを装着することなく、手指の姿勢を推定することができる。すなわち、情報処理装置100は、センサやマーカー等の装着により、手指の動作を妨げることなく、手指の姿勢を推定することができる。したがって、情報処理装置100は、例えば、ピアノの演奏中の手指のように、対象物に対する手指の接触動作を含む対象物に対する手指の動作中の手指の姿勢を適切に推定することができる。
 また、推定部132は、手指の姿勢に関する時系列情報として、手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度の時系列情報を推定する。
 これにより、情報処理装置100は、手指の3次元位置のみならず、手指の関節の角度まで適切に推定することができるので、手指の姿勢をより適切に推定することができる。
 また、画像情報は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像情報である。
 これにより、情報処理装置100は、手指の高速動作を撮影するためシャッター速度を上げる場合であっても、手指の動作を行っている利用者に対して眩しさを感じさせることなく、十分な光量を確保することができるので、手指の姿勢を適切に推定可能とすることができる。
 また、画像情報は、対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である。
 これにより、情報処理装置100は、1つの方向から撮影した場合には、他の手指等により隠れてしまった手指についても、他の方向から撮影することでカバーすることができるので、手指の姿勢をより適切に推定することができる。
 また、複数のカメラは、対象物を囲む門状の構造物に取り付けられ、複数の画像情報それぞれは、手指がカメラそれぞれの近傍に設置された光源によって照らされた状態で撮影された複数の画像情報である。
 これにより、情報処理装置100は、手指の高速動作を撮影する場合であっても、十分な光量を確保して撮影することができるので、手指の姿勢をより適切に推定することができる。
 また、画像情報は、対象物の両脇および対象物の上方に設置された3台以上のカメラそれぞれによって撮影された複数の画像情報である。
 これにより、情報処理装置100は、1つの方向から撮影した場合には、他の手指等により隠れてしまった手指についても、他の方向から撮影することでカバーすることができるので、手指の姿勢をより適切に推定することができる。
 また、画像情報は、手指の指先から手首までの範囲を撮影範囲として撮影された画像情報である。
 これにより、情報処理装置100は、撮影範囲を絞ることにより、手指の姿勢推定の分解能および精度を向上させることができるので、手指の姿勢をより適切に推定することができる。
 また、推定部132は、手指の動作を行っている手の手背の画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。また、推定部132は、手指の動作を行っている手の手背の画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第2機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定する。
 これにより、情報処理装置100は、高速動作中の手指と比較すると、より撮影がしやすい手背の画像に基づいて、手指の姿勢をより適切に推定することができる。
 また、推定部132は、利用者の親指および手背に設置された複数のIMUセンサによって検出されたセンシングデータに基づいて、利用者の手指の姿勢に関する時系列情報を推定する。
 これにより、情報処理装置100は、他の手指等により隠れた手指の姿勢推定を補完することができる。
 また、推定部132は、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報に基づいて、利用者の手指の姿勢に関する時系列情報を推定する。
 これにより、情報処理装置100は、他の手指等により隠れた手指の姿勢推定を補完することができる。
 また、ウェアラブルカメラは、IMUセンサをさらに備え、推定部132は、IMUセンサによって検出されたセンシングデータに基づいて、手指の姿勢に関する時系列情報を推定する。
 これにより、情報処理装置100は、他の手指等により隠れた手指の姿勢推定をより精度よく補完することができる。
 また、推定部132は、対象物に対する手指の接触動作を検出する接触センサによって検出されたセンシングデータに基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。また、推定部132は、対象物に対する手指の接触動作が行われる前の対象物の位置情報、対象物に対する手指の接触動作が行われた前後における対象物の位置の変化量、および対象物に対する手指の接触位置情報に基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。また、推定部132は、対象物と接触した手指の姿勢に関する時系列情報として、手指のMP関節とPIP関節との間の距離、手指のPIP関節と指先との間の距離、手指のMP関節の位置、および手指の指先の位置に基づいて、手指のPIP関節の角度を推定する。
 これにより、情報処理装置100は、他の手指等により隠れた手指の姿勢推定を補完することができる。
 また、対象物は、鍵盤であり、対象物に対する手指の動作は、鍵盤に対する手指の打鍵動作または鍵盤に対して手指の位置を移動させる移動動作である。
 これにより、情報処理装置100は、ピアノの演奏中の手指の姿勢を適切に推定することができる。
 また、情報処理装置100は、提供部133をさらに備える。提供部133は、推定部132によって推定された手指の姿勢に関する時系列情報を利用者に対して提供する。
 これにより、情報処理装置100は、手指の巧緻動作を他者(弟子など)に伝達し、他者の熟達を支援することができる。
[6.ハードウェア構成]
 上述してきた実施形態や変形例に係る情報処理装置100等の情報機器は、例えば図29に示すような構成のコンピュータ1000によって実現される。図29は、情報処理装置100等の情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下、上述の実施形態又はその変形例に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1350の一例である本開示の一実施形態又はその変形例に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が上述の実施形態又はその変形例に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示の一実施形態又はその変形例に係る情報処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1350をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、
 を備える情報処理装置。
(2)
 前記推定部は、
 前記手指の動作と前記対象物とを含む画像情報に基づいて前記手指の姿勢に関する時系列情報を推定するよう学習された第1機械学習モデルを用いて、前記手指の姿勢に関する時系列情報を推定する、
 前記(1)に記載の情報処理装置。
(3)
 前記推定部は、
 前記手指の姿勢に関する時系列情報として、前記手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または前記手指の各関節の角度、角速度、もしくは角加速度の時系列情報を推定する
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記画像情報は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像情報である、
 前記(1)~(3)のいずれか1つに記載の情報処理装置。
(5)
 前記画像情報は、前記対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である、
 前記(1)~(4)のいずれか1つに記載の情報処理装置。
(6)
 前記複数のカメラは、前記対象物を囲む門状の構造物に取り付けられ、
 前記複数の画像情報それぞれは、前記手指が前記カメラそれぞれの近傍に設置された光源によって照らされた状態で撮影された前記複数の画像情報である、
 前記(5)に記載の情報処理装置。
(7)
 前記画像情報は、前記対象物の両脇および前記対象物の上方に設置された3台以上のカメラそれぞれによって撮影された複数の画像情報である、
 前記(1)~(6)のいずれか1つに記載の情報処理装置。
(8)
 前記画像情報は、前記手指の指先から手首までの範囲を撮影範囲として撮影された画像情報である、
 前記(1)~(7)のいずれか1つに記載の情報処理装置。
(9)
 前記推定部は、
 前記手指の動作を行っている手の手背の画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する、
 前記(1)~(8)のいずれか1つに記載の情報処理装置。
(10)
 前記推定部は、
 前記手指の動作を行っている手の手背の画像情報に基づいて前記手指の姿勢に関する時系列情報を推定するよう学習された第2機械学習モデルを用いて、前記手指の姿勢に関する時系列情報を推定する、
 前記(9)に記載の情報処理装置。
(11)
 前記推定部は、
 利用者の親指および手背に設置された複数のIMUセンサによって検出されたセンシングデータに基づいて、前記利用者の前記手指の姿勢に関する時系列情報を推定する、
 前記(1)~(10)のいずれか1つに記載の情報処理装置。
(12)
 前記推定部は、
 利用者の手首に取り付けられたウェアラブルカメラで撮影された前記画像情報に基づいて、前記利用者の前記手指の姿勢に関する時系列情報を推定する、
 前記(1)~(11)のいずれか1つに記載の情報処理装置。
(13)
 前記ウェアラブルカメラは、IMUセンサをさらに備え、
 前記推定部は、
 前記IMUセンサによって検出されたセンシングデータに基づいて、前記手指の姿勢に関する時系列情報を推定する、
 前記(12)に記載の情報処理装置。
(14)
 前記推定部は、
 前記対象物に対する前記手指の接触動作を検出する接触センサによって検出されたセンシングデータに基づいて、前記対象物と接触した前記手指の姿勢に関する時系列情報を推定する、
 前記(1)~(13)のいずれか1つに記載の情報処理装置。
(15)
 前記推定部は、
 前記対象物に対する前記手指の接触動作が行われる前の前記対象物の位置情報、前記対象物に対する前記手指の接触動作が行われた前後における前記対象物の位置の変化量、および前記対象物に対する前記手指の接触位置情報に基づいて、前記対象物と接触した前記手指の姿勢に関する時系列情報を推定する、
 前記(14)に記載の情報処理装置。
(16)
 前記推定部は、
 前記対象物と接触した前記手指の姿勢に関する時系列情報として、前記手指のMP関節とPIP関節との間の距離、前記手指のPIP関節と指先との間の距離、前記手指のMP関節の位置、および前記手指の指先の位置に基づいて、前記手指のPIP関節の角度を推定する、
 前記(14)または(15)に記載の情報処理装置。
(17)
 前記対象物は、鍵盤であり、
 前記対象物に対する前記手指の動作は、前記鍵盤に対する前記手指の打鍵動作または前記鍵盤に対して前記手指の位置を移動させる移動動作である、
 前記(1)~(16)のいずれか1つに記載の情報処理装置。
(18)
 前記推定部によって推定された前記手指の姿勢に関する時系列情報を利用者に対して提供する提供部をさらに備える、
 前記(1)~(17)のいずれか1つに記載の情報処理装置。
(19)
 コンピュータが、
 対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する、
 情報処理方法。
(20)
 コンピュータを、
 対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、
 として機能させるためのプログラム。
   1  情報処理システム
  10  センサ情報処理装置
 100  情報処理装置
 110  通信部
 120  記憶部
 121  センサデータベース
 122  モデルデータベース
 123  3次元特徴量データベース
 130  制御部
 131  取得部
 132  推定部
 133  提供部
 200  アプリサーバ
 300  端末装置

Claims (20)

  1.  対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、
     を備える情報処理装置。
  2.  前記推定部は、
     前記手指の動作と前記対象物とを含む画像情報に基づいて前記手指の姿勢に関する時系列情報を推定するよう学習された第1機械学習モデルを用いて、前記手指の姿勢に関する時系列情報を推定する、
     請求項1に記載の情報処理装置。
  3.  前記推定部は、
     前記手指の姿勢に関する時系列情報として、前記手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または前記手指の各関節の角度、角速度、もしくは角加速度の時系列情報を推定する
     請求項1に記載の情報処理装置。
  4.  前記画像情報は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像情報である、
     請求項1に記載の情報処理装置。
  5.  前記画像情報は、前記対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である、
     請求項1に記載の情報処理装置。
  6.  前記複数のカメラは、前記対象物を囲む門状の構造物に取り付けられ、
     前記複数の画像情報それぞれは、前記手指が前記カメラそれぞれの近傍に設置された光源によって照らされた状態で撮影された前記複数の画像情報である、
     請求項5に記載の情報処理装置。
  7.  前記画像情報は、前記対象物の両脇および前記対象物の上方に設置された3台以上のカメラそれぞれによって撮影された複数の画像情報である、
     請求項1に記載の情報処理装置。
  8.  前記画像情報は、前記手指の指先から手首までの範囲を撮影範囲として撮影された画像情報である、
     請求項1に記載の情報処理装置。
  9.  前記推定部は、
     前記手指の動作を行っている手の手背の画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する、
     請求項1に記載の情報処理装置。
  10.  前記推定部は、
     前記手指の動作を行っている手の手背の画像情報に基づいて前記手指の姿勢に関する時系列情報を推定するよう学習された第2機械学習モデルを用いて、前記手指の姿勢に関する時系列情報を推定する、
     請求項9に記載の情報処理装置。
  11.  前記推定部は、
     利用者の親指および手背に設置された複数のIMUセンサによって検出されたセンシングデータに基づいて、前記利用者の前記手指の姿勢に関する時系列情報を推定する、
     請求項1に記載の情報処理装置。
  12.  前記推定部は、
     利用者の手首に取り付けられたウェアラブルカメラで撮影された前記画像情報に基づいて、前記利用者の前記手指の姿勢に関する時系列情報を推定する、
     請求項1に記載の情報処理装置。
  13.  前記ウェアラブルカメラは、IMUセンサをさらに備え、
     前記推定部は、
     前記IMUセンサによって検出されたセンシングデータに基づいて、前記手指の姿勢に関する時系列情報を推定する、
     請求項12に記載の情報処理装置。
  14.  前記推定部は、
     前記対象物に対する前記手指の接触動作を検出する接触センサによって検出されたセンシングデータに基づいて、前記対象物と接触した前記手指の姿勢に関する時系列情報を推定する、
     請求項1に記載の情報処理装置。
  15.  前記推定部は、
     前記対象物に対する前記手指の接触動作が行われる前の前記対象物の位置情報、前記対象物に対する前記手指の接触動作が行われた前後における前記対象物の位置の変化量、および前記対象物に対する前記手指の接触位置情報に基づいて、前記対象物と接触した前記手指の姿勢に関する時系列情報を推定する、
     請求項14に記載の情報処理装置。
  16.  前記推定部は、
     前記対象物と接触した前記手指の姿勢に関する時系列情報として、前記手指のMP関節とPIP関節との間の距離、前記手指のPIP関節と指先との間の距離、前記手指のMP関節の位置、および前記手指の指先の位置に基づいて、前記手指のPIP関節の角度を推定する、
     請求項14に記載の情報処理装置。
  17.  前記対象物は、鍵盤であり、
     前記対象物に対する前記手指の動作は、前記鍵盤に対する前記手指の打鍵動作または前記鍵盤に対して前記手指の位置を移動させる移動動作である、
     請求項1に記載の情報処理装置。
  18.  前記推定部によって推定された前記手指の姿勢に関する時系列情報を利用者に対して提供する提供部をさらに備える、
     請求項1に記載の情報処理装置。
  19.  コンピュータが、
     対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する、
     情報処理方法。
  20.  コンピュータを、
     対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、
     として機能させるためのプログラム。
PCT/JP2021/004301 2020-02-06 2021-02-05 情報処理装置、情報処理方法及び情報処理プログラム WO2021157691A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202180011412.3A CN115023732A (zh) 2020-02-06 2021-02-05 信息处理装置、信息处理方法和信息处理程序
JP2021575881A JPWO2021157691A1 (ja) 2020-02-06 2021-02-05
EP21751322.5A EP4102460A4 (en) 2020-02-06 2021-02-05 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING PROGRAM
US17/792,327 US20230054973A1 (en) 2020-02-06 2021-02-05 Information processing apparatus, information processing method, and information processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020018743 2020-02-06
JP2020-018743 2020-02-06

Publications (1)

Publication Number Publication Date
WO2021157691A1 true WO2021157691A1 (ja) 2021-08-12

Family

ID=77199955

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/004301 WO2021157691A1 (ja) 2020-02-06 2021-02-05 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (5)

Country Link
US (1) US20230054973A1 (ja)
EP (1) EP4102460A4 (ja)
JP (1) JPWO2021157691A1 (ja)
CN (1) CN115023732A (ja)
WO (1) WO2021157691A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7243026B2 (ja) * 2018-03-23 2023-03-22 ヤマハ株式会社 演奏解析方法、演奏解析装置およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050060606A (ko) * 2003-12-17 2005-06-22 엘지전자 주식회사 휴먼 컴퓨터 인터렉션 장치 및 방법
JP2011525283A (ja) * 2008-06-18 2011-09-15 オブロング・インダストリーズ・インコーポレーテッド 車両インターフェース用ジェスチャ基準制御システム
JP2015519624A (ja) * 2012-02-24 2015-07-09 トーマス ジェイ モスカリッロMOSCARILLO, Thomas, J. ジェスチャー認識装置及び方法
WO2018083910A1 (ja) 2016-11-07 2018-05-11 ソニー株式会社 情報処理装置、情報処理方法、及び記録媒体
US20180342229A1 (en) * 2016-10-11 2018-11-29 Sunland Information Technology Co., Ltd. Smart detecting and feedback system for smart piano
CN109446952A (zh) * 2018-10-16 2019-03-08 赵笑婷 一种钢琴监督方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10408613B2 (en) * 2013-07-12 2019-09-10 Magic Leap, Inc. Method and system for rendering virtual content
US9649558B2 (en) * 2014-03-14 2017-05-16 Sony Interactive Entertainment Inc. Gaming device with rotatably placed cameras
JP6329469B2 (ja) * 2014-09-17 2018-05-23 株式会社東芝 認識装置、認識方法及び認識プログラム
US11106273B2 (en) * 2015-10-30 2021-08-31 Ostendo Technologies, Inc. System and methods for on-body gestural interfaces and projection displays

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050060606A (ko) * 2003-12-17 2005-06-22 엘지전자 주식회사 휴먼 컴퓨터 인터렉션 장치 및 방법
JP2011525283A (ja) * 2008-06-18 2011-09-15 オブロング・インダストリーズ・インコーポレーテッド 車両インターフェース用ジェスチャ基準制御システム
JP2015519624A (ja) * 2012-02-24 2015-07-09 トーマス ジェイ モスカリッロMOSCARILLO, Thomas, J. ジェスチャー認識装置及び方法
US20180342229A1 (en) * 2016-10-11 2018-11-29 Sunland Information Technology Co., Ltd. Smart detecting and feedback system for smart piano
WO2018083910A1 (ja) 2016-11-07 2018-05-11 ソニー株式会社 情報処理装置、情報処理方法、及び記録媒体
CN109446952A (zh) * 2018-10-16 2019-03-08 赵笑婷 一种钢琴监督方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4102460A4

Also Published As

Publication number Publication date
CN115023732A (zh) 2022-09-06
US20230054973A1 (en) 2023-02-23
EP4102460A1 (en) 2022-12-14
EP4102460A4 (en) 2023-08-02
JPWO2021157691A1 (ja) 2021-08-12

Similar Documents

Publication Publication Date Title
TWI722280B (zh) 用於多個自由度之控制器追蹤
US10702745B2 (en) Facilitating dynamic monitoring of body dimensions over periods of time based on three-dimensional depth and disparity
CN106255943B (zh) 身体锁定增强现实与世界锁定增强现实之间的转换
CN111738220B (zh) 三维人体姿态估计方法、装置、设备及介质
CN106462233B (zh) 用于显示设备观看者视线吸引的方法和设备
WO2019203189A1 (ja) プログラム、情報処理装置、及び情報処理方法
CN102622774B (zh) 起居室电影创建
US20140009384A1 (en) Methods and systems for determining location of handheld device within 3d environment
CN110457414A (zh) 离线地图处理、虚拟对象显示方法、装置、介质和设备
CN103608844A (zh) 全自动动态关节连接的模型校准
WO2017126172A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
TW201214266A (en) Three dimensional user interface effects on a display by using properties of motion
CN105378801A (zh) 全息图快照网格
TW201346640A (zh) 影像處理裝置及電腦程式產品
CN112449691B (zh) 通过物理接触细化虚拟网格模型
CN109844600A (zh) 信息处理设备、信息处理方法和程序
US20220277438A1 (en) Recommendation engine for comparing physical activity to ground truth
WO2020110659A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20210201502A1 (en) Method and system for motion prediction
JP2019136493A (ja) 運動の採点方法、システム及びプログラム
WO2021157691A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Grimm et al. VR/AR input devices and tracking
US11625101B2 (en) Methods and systems for identifying three-dimensional-human-gesture input
Cheok et al. Combined wireless hardware and real-time computer vision interface for tangible mixed reality
US20230226460A1 (en) Information processing device, information processing method, and recording medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21751322

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021575881

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021751322

Country of ref document: EP

Effective date: 20220906