WO2019142329A1 - 情報処理装置、情報処理システム、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2019142329A1
WO2019142329A1 PCT/JP2018/001636 JP2018001636W WO2019142329A1 WO 2019142329 A1 WO2019142329 A1 WO 2019142329A1 JP 2018001636 W JP2018001636 W JP 2018001636W WO 2019142329 A1 WO2019142329 A1 WO 2019142329A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
subject
hand
acquired
pose
Prior art date
Application number
PCT/JP2018/001636
Other languages
English (en)
French (fr)
Inventor
和之 有松
良徳 大橋
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to JP2019565662A priority Critical patent/JP6854928B2/ja
Priority to US16/957,853 priority patent/US11302029B2/en
Priority to PCT/JP2018/001636 priority patent/WO2019142329A1/ja
Publication of WO2019142329A1 publication Critical patent/WO2019142329A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Definitions

  • the present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program.
  • an information processing apparatus such as a home-use game machine which recognizes the position and pose of a player's hand and provides information on the position and pose of the recognized hand in processing such as a game.
  • a controller device held by the player's hand measures, for example, the distance from the controller device itself to each finger of the player, and the controller device thus measured.
  • the position and the pose of the player's hand are estimated using information on the distance to each finger and information such as the attitude of the controller device itself.
  • the information processing apparatus captures an image of the player's hand with a camera or the like, and estimates the position and the pose of the player's hand based on the captured image of the hand.
  • an estimation device such as the controller device or the camera
  • an estimation device for convenience
  • it is measured and acquired by a measurement device, and the information on the correct solution is used as a teacher signal, and the information acquired by the controller device is used as an input signal to learn a neural network, and the neural network is used.
  • the information acquired by the estimation device (camera
  • the target person moves the hand to the specified position and takes the specified pose
  • the information was acquired by the measurement device, and the information acquired by the estimation device at that time was correlated and recorded.
  • the machine learning process is performed by manually setting information (teacher signal) acquired by the measuring device and information (input signal) acquired by the estimating device, which are related to each other, to each position and pose individually.
  • the present invention has been made in view of the above-described circumstances, and an information processing apparatus, an information processing system, and the like, which can efficiently generate machine learning data for estimating information such as the position and pose of the hand of a subject.
  • Providing an information processing method and program is one of the purposes.
  • an information processing apparatus which is a first information acquisition apparatus for acquiring first information regarding at least one of a position and a pose of a subject's hand; Connected to a second information acquisition device for acquiring second information different from the first information acquired by the first information acquisition device regarding at least one of the position and the pose of the subject's hand; Receiving means for receiving the first information and the second information from the first and second information acquisition devices, and the first and second information acquisitions for the received first and second information, respectively
  • the first and second information acquired at the common timing among the held first and second information are extracted as pair information from the holding means held in association with the information on the timing acquired by the device and the held first and second information
  • the extracted pair information includes the first information included in the pair information as a teacher signal and the second information as an input signal for machine learning learning processing. .
  • machine learning data for estimating information such as the position and pose of the subject's hand can be efficiently generated.
  • the information processing system 1 includes a measurement device 10 as a first information acquisition device, an estimation device 20 as a second information acquisition device, and information processing And a device 30.
  • the information processing apparatus 30 includes a control unit 31, a storage unit 32, an operation unit 33, a display control unit 34, and an input / output unit 35.
  • the measurement device 10 includes, as illustrated in FIG. 2, a large number of cameras C arranged around the subject's hand to be measured, and the position of the subject's hand is Then, regardless of what kind of pose it takes, the plurality of cameras C1, C2... Further, the measurement device 10 includes an information processing device such as a personal computer (PC), and an image of the subject's hand is obtained from an image captured at a predetermined timing (for example, at a regular timing such as 1/60 seconds). The position in a three-dimensional space of a plurality of markers attached in advance to the main position (for example, each joint position of each finger) is recognized.
  • PC personal computer
  • the measurement device 10 outputs information (three-dimensional coordinate information) of the position of each of the recognized markers, together with time stamp information indicating the time of imaging.
  • a device can be realized, for example, using a system known as a motion capture system such as Spice Corporation's OptiTrack (registered trademark), so a detailed description is omitted here.
  • this measuring device is not limited to one using a camera, but may be a method using an electromyograph or ultrasonic waves as long as at least one of the position or the pose of the subject's hand can be obtained without fail. Absent.
  • the estimation device 20 is a controller device 200 held by the subject's hand, as illustrated in FIG. 3, for example.
  • the controller device 200 has an elongated columnar shape in the example of FIG. 3 and, for example, a capacitance sensor, an infrared distance sensor, and the like at positions where the fingers of the subject contact when grasped.
  • a sensor 201 for measuring the position up to the fingertip is provided.
  • the hand of the subject is indicated by a broken line for the purpose of explanation.
  • the controller device 200 repeats the information of the distance to the fingertip of the subject measured by each sensor 201 at predetermined timings (for example, at regular timings such as 100 milliseconds). get. Then, each time the controller device 200 acquires the information, the controller device 200 sends the information to the information processing device 30.
  • predetermined timings for example, at regular timings such as 100 milliseconds.
  • the control unit 31 of the information processing apparatus 30 is a program control device such as a CPU, and operates according to a program stored in the storage unit 32.
  • the control unit 31 uses three-dimensional coordinate information representing the position of a marker disposed on each part of the subject's hand from the measurement device 10 which is the first information acquisition device, and the marker.
  • the time stamp information indicating the time of imaging is accepted as the first information.
  • the control unit 31 also receives information acquired by the estimation device 20 from the estimation device 20 as the second information acquisition device. For example, when the estimation device 20 is the controller device 200, the control unit 31 causes the controller device 200 to set the controller device 200 to use the fingertip of the target person from the controller device 200 at every predetermined timing (for example, every periodic timing such as 100 milliseconds). Accept the distance information as the second information.
  • the control unit 31 receives each of the received first and second information at the timing when the measurement device 10 and the estimation device 20, which are the first and second information acquisition devices, acquire the first and second information, respectively. Relate to information and hold it. Further, the control unit 31 extracts, as pair information, the first and second information acquired at the common timing among the held first and second information. Then, the extracted pair information is subjected to machine learning learning processing in which the first information included in the pair information is a teacher signal and the second information is an input signal. The detailed operation of the control unit 31 will be described later.
  • the storage unit 32 is a memory device, a disk device, or the like, and holds a program executed by the control unit 31.
  • the program may be provided stored in a computer readable non-transitory recording medium and may be stored in the storage unit 32.
  • the storage unit 32 also operates as a work memory of the control unit 31.
  • the operation unit 33 is connected to devices such as a keyboard and a mouse, receives an input of a user's instruction operation from these, and outputs information representing the content of the instruction operation to the control unit 31.
  • the display control unit 34 is connected to a display or the like, and controls the display or the like to display and output information in accordance with an instruction input from the control unit 31.
  • the input / output unit 35 is connected to the measurement device 10 or the estimation device 20 by wired communication such as USB or wireless communication such as Bluetooth (registered trademark), receives information output from these devices, and outputs the information to the control unit 31. Further, the input / output unit 35 outputs information to the connected device in accordance with an instruction input from the control unit 31.
  • the control unit 31 functionally includes a receiving unit 41, a pre-processing unit 42, a holding processing unit 43, and an extraction processing unit 44, as illustrated in FIG. Ru.
  • the estimation device 20 connected to the information processing apparatus 30 is the controller device 200.
  • the receiving unit 41 receives the first information from the measurement device 10, which is a first information acquisition device, via the input / output unit 35.
  • the first information three-dimensional coordinate information (P1, P2%) Representing the position of a marker placed on each part of the object person's hand, which is recognized based on an image captured at each predetermined timing.
  • time stamp information (T) representing a point of time when the marker is imaged.
  • the receiving unit 41 receives the controller device 200 from the controller device 200 as the second information acquisition device via the input / output unit 35 at every predetermined timing (for example, every periodic timing such as 100 milliseconds). Information on the distance between the finger of the subject and each finger of the subject (FP1, FP2%) Is accepted as second information.
  • the preprocessing unit 42 executes preprocessing for holding the first and second information received by the receiving unit 41 by the holding processing unit 43.
  • the preprocessing unit 42 acquires information (time information) of the accepted timing.
  • This time information may be acquired from a time measuring circuit (real time clock (RTC) or the like) not shown, or may be acquired from a time information server via a network or the like.
  • RTC real time clock
  • the preprocessing unit 42 acquires the second information received at the i-th time using the time information t acquired when the second information is received for the first time after the start of the process as the reference time t0.
  • the holding processing unit 43 receives the first and second information (the information including the timing information for the second information) output from the preprocessing unit 42, and stores the information in the storage unit 32. Store.
  • each time the marker represented by the time stamp information (T1, T2%) Is imaged Three-dimensional coordinate information (P1, P2%) Representing the position of the marker obtained based on the marker imaged at that time is associated and stored.
  • the finger of each finger of each of the controller device 200 and the target person accepted at that point in time is represented by the information (t1, t2%) Of the timing obtained by the preprocessing unit 42
  • the information (FP 1, FP 2%) Of the distance with each other is associated, stored in the storage unit 32 and stored.
  • the extraction processing unit 44 compares the first information (the timing at which the recorded information is obtained is compared with the first information associated with the information T representing the timing closest to the time ti represented by the information of the timing selected here). Target information) is retrieved from the storage unit 32.
  • the information of the timing included in the first information is a time stamp
  • the information of the timing corresponding to the elapsed time from the start of the measurement is associated with the second information. Therefore, the extraction processing unit 44 according to this example of the present embodiment, among the time stamps included in the first information, the second time information of the time stamp T0 indicating the earliest time.
  • a value Tj ⁇ T0 (j) obtained by subtracting T0 from the time stamp Tj (j 1, 2...)
  • Included in the first information assuming that it is equal to the reference time t0 acquired by the preprocessing unit 42 when it is accepted.
  • a timestamp Tj closest to the time ti represented by the selected timing information is found among (1, 2 ).
  • the extraction processing unit 44 reads out from the storage unit 32 three-dimensional coordinate information (P1, P2%) Representing the position of the marker placed on each part of the subject's hand associated with the time stamp Tj found here.
  • the information (FP1, FP2%) Of the distance between the fingertip of each finger of the subject and the controller device 200, which is stored in the storage unit 32 in association with the time ti represented by the information of the selected timing, is read.
  • the extraction processing unit 44 takes the three-dimensional coordinate information (P1, P2%) Representing the position of the marker read out as a teacher signal representing the correct answer, and calculates the distance between the finger of each finger of the subject and the controller device 200 Information (FP1, FP2%) Is used as an input signal, and these are combined to be accumulated and stored in the storage unit 32 as learning information.
  • P1, P2 three-dimensional coordinate information
  • FP1, FP2 Information
  • the control unit 31 generates learning information as described above, and supplies the learning information accumulated and stored in the storage unit 32 to a machine learning process such as a neural network.
  • a machine learning process such as a neural network.
  • a widely known method can be adopted, and thus detailed description thereof will be omitted.
  • the information processing system 1 has the above configuration, and the information processing system 1 according to this example operates as follows.
  • the person to be measured attaches a marker to the main position of the hand (for example, each joint position of each finger, etc.), holds the controller device 200, and hand or finger as specified in advance or arbitrarily. Move and perform actions such as moving the position of the hand and changing the pose.
  • the measuring device 10 captures an image of the hand of the subject from a plurality of places at predetermined timings (for example, at regular timings such as 1/60 seconds), and from the captured image, Position in the three-dimensional space of a plurality of markers attached to the hand of the person are recognized respectively, and information (three-dimensional coordinate information) of the position of each marker is output together with time stamp information indicating the time of imaging Do. Note that the timing of this output may be collectively output after the subject has completed all the actions.
  • the controller device 200 held by the target person's hand measures the information of the distance to each finger tip of the target person measured by the sensors 201 arranged on the surface at predetermined timing (for example, 100 milliseconds etc.) The information is repeatedly acquired at regular timings, and the information is sent to the information processing apparatus 30 each time the information is acquired.
  • predetermined timing for example, 100 milliseconds etc.
  • the information processing device 30 performs second information processing. Accept as information.
  • the information processing apparatus 30 acquires information (time information) of the accepted timing, and time information t acquired when the second information is received for the first time.
  • Information i (i 1, 2,...,) Of the timing obtained by subtracting the reference time t 0 from the time information t acquired at that time, with the second information received at that time as the reference time t 0.
  • t1 0
  • the information processing apparatus 30 accumulates and stores the second information including the information of the timing in the storage unit 32.
  • the information processing apparatus 30 receives the information (three-dimensional coordinate information) of the position of each marker acquired at predetermined timings by the measurement device 10 during measurement together with the time stamp information Then, the corresponding time stamp information is associated with the information (P1, P2%) Of the position of each marker, and accumulated and stored in the storage unit 32.
  • the storage unit 32 has, regarding the first information, the markers imaged at the respective points in time when the markers represented by the time stamp information (T1, T2...) Are imaged.
  • the three-dimensional coordinate information (P1, P2%) Representing the position of the marker obtained on the basis of is stored in association with each other, and the second information is represented by timing information (t1, t2.
  • the information (FP1, FP2%) Of the distance between the controller device 200 and the fingertip of each finger of the target person accepted at that time is associated with each other and stored in the storage unit 32 become.
  • the information processing apparatus 30 accepts an instruction from the user to generate learning information for machine learning, and starts processing for generating learning information, and either of the first and second information
  • the information to be used as the reference may be information having a relatively long timing interval at which the recorded information is obtained (information having a smaller number of obtained data).
  • the second information is selected.
  • the information processing apparatus 30 acquires the time point T0 of the time stamp indicating the earliest time among the time stamps stored in the storage unit 32 for the first information, as illustrated in FIG. S1).
  • the information processing apparatus 30 successively selects the timing information (t1, t2%) Included in the selected second information, and repeatedly executes the next process (S2). That is, the information processing device 30 stores the first information (information having a relatively short timing interval at which the recorded information is obtained) associated with the information T indicating the timing closest to the selected timing information ti. Search from section 32.
  • the information processing device 30 reads three-dimensional coordinate information (P1, P2%) Representing the position of the marker associated with the time stamp Tj found in the processing S3 (S4).
  • the information processing apparatus 30 reads information (FP1, FP2%) Of the distance between the fingertip of each finger of the subject and the controller device 200, which is associated with the timing information ti selected in the process S2 (S5).
  • the information processing apparatus 30 takes the three-dimensional coordinate information (P1, P2%) Representing the position of the marker read out in step S4 as a teacher signal representing the correct answer, and the finger and controller device of each finger of the subject read out in step S5
  • the information (FP1, FP2%) Of the distance to 200 is stored as an input signal in the storage unit 32 as a learning information as a set (S6).
  • the information processing apparatus 30 repeatedly executes the above process from the process S2 until there is no selected timing information (t1, t2). As a result, the storage unit 32 holds a pair (pair information) of a teacher signal and an input signal for each piece of timing information (t1, t2%) Indicating the timing at which the second information is obtained. .
  • the second information in order to find the first and second information acquired at the common timing, the second information relates the information of the timing indicating the acquired time point. Then, on the assumption that the measurement start point is common to the measurement device 10 and the estimation device 20, a first one is associated with a time stamp representing a point closest to the point represented by the information of the associated timing. An example of searching for information has been described.
  • a user who generates learning information checks in advance the first information and the second information by visual observation, and each information represents the same position and pose of the hand. It is also possible to designate the information processing apparatus 30 as to the point in time when it is present.
  • T0 is the earliest time in time among the time stamps stored in the storage unit 32 for the first information as described above.
  • the time stamp Tj (j 1, 2...)
  • Stored in the storage unit 32 is obtained.
  • a value obtained by subtracting T0 from each value is obtained, and a value obtained by adding this correction information ⁇ to timing information ti, the time being a value Tj-T0 closest to ti + ⁇ Find the stamp Tj.
  • the information processing apparatus 30 mechanically May be performed without
  • an operation in which the target person initially holds a hand in a state in which the fingertip is in contact with the controller device 200
  • an operation in which the hand is opened in which the fingertip is separated as far as possible from the controller device 200
  • the information processing apparatus 30 displays information indicating that the hand is in an open state (for example, each marker pasted for each finger) when the information processing device 30 checks out in the ascending order of time stamps among the recorded first information.
  • Information in which the point of the three-dimensional coordinate of is substantially linear is the first information between the time point Tf at which the point is first recorded, and indicates that the hand is in a gripped state
  • the information Tmin of the time stamp associated with the information (for example, the first information when the volume of the smallest convex hull including the point of the three-dimensional coordinate of each marker becomes the smallest) is obtained.
  • the information processing apparatus 30 examines the second information being recorded in the recording order (in the order in which the time represented by the information of the associated timing is small), and information which is first found and indicates that the hand is held
  • the timing information tmin associated with (for example, the second information in which the distance to each fingertip is minimum) is obtained.
  • T0 is the earliest time in time among the time stamps stored in the storage unit 32 for the first information.
  • .DELTA. .
  • a value obtained by subtracting T0 from each value is obtained, and a value obtained by adding this correction information ⁇ to timing information ti, the time being a value Tj-T0 closest to ti + ⁇ Find the stamp Tj.
  • the first position and the second position of the subject represented by the held first and second information are obtained at the common timing as the timing common to the timing at which the position or the pose of the subject is substantially determined to be identical. 1. It becomes possible to extract the second information as paired information.
  • the marker detected by the measurement device 10 which is the first information acquisition device, is attached to each part of the subject's hand, but in the example of the present embodiment, the second The marker may be disposed also on the controller device 200 which is an information acquisition device of
  • the measurement device 10 acquires information such as the position and orientation of the controller device 200 as the estimation device 20, together with information on the position and the pose of the subject's hand.
  • the information processing apparatus 30 records the first information including the information on the position and posture of the controller device 200 together with the information on the position and pose of the hand of the object person, and takes out the teacher signal from the recording of the first information.
  • the second information (input signal) acquired by the controller device 200 is extracted at timing common to the timing at which the extracted teacher signal is obtained, and is output as paired information.
  • machine learning processing can be performed to estimate not only the position and pose of the player's hand holding the controller device 200, but also information on the position and orientation of the held controller device 200. It becomes.
  • the estimation device 20 may not necessarily be the controller device 200 held by the subject's hand.
  • the estimation device 20 may be a depth camera including a pair of cameras arranged in the direction of the target person at a predetermined one position with respect to the player (target person). Good.
  • the depth camera which is the estimation device 20
  • the measurement device 10 can acquire position information of all markers attached to joints of all fingers of the subject.
  • the second information is two image data captured by a pair of cameras included in the depth camera.
  • the preprocessing unit 42 acquires information (time information) of the accepted timing each time the accepting unit 41 accepts the second information. Also, the preprocessing unit 42 acquires the second information received at the i-th time using the time information t acquired when the second information is received for the first time after the start of the process as the reference time t0.
  • the preprocessing unit 42 may perform a process of removing an image of a marker to be recognized by the measurement device 10, which is included in the image data which is the second information. Specifically, since the marker is colored, for example, in a predetermined color, the preprocessing unit 42 extracts the portion of the color of the marker included in the image data which is the second information, and Perform the process of filling in the surrounding color. Since this processing can use processing widely known as image processing such as photo retouching, the detailed description here is omitted.
  • an image including no marker is provided in the input signal of the learning information.
  • the marker is not included in the image data taken by the depth camera, so the input signal which is the learning information is actually used. It can be expected that more accurate estimation will be performed by being close to the image data used for

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)

Abstract

対象者の手の位置またはポーズの少なくとも一方に関する第1の情報を取得する第1の情報取得装置と、対象者の手の位置またはポーズの少なくとも一方に関する、第1の情報取得装置が取得する第1の情報とは異なる第2の情報を取得する第2の情報取得装置とに接続され、第1、第2の情報取得装置からそれぞれ第1の情報及び第2の情報を受け入れ、当該受け入れた第1、第2の情報のそれぞれを取得したタイミングの情報に関連付けて保持し、共通したタイミングで取得された第1、第2の情報を対情報として抽出する情報処理装置である。

Description

情報処理装置、情報処理システム、情報処理方法、及びプログラム
 本発明は、情報処理装置、情報処理システム、情報処理方法、及びプログラムに関する。
 近年、プレイヤの手の位置やポーズを認識し、ゲーム等の処理に当該認識した手の位置やポーズの情報を供する家庭用ゲーム機等の情報処理装置が開発されている。
 このような情報処理装置では、プレイヤの手に把持されるデバイス(以下、コントローラデバイスと呼ぶ)に、例えばコントローラデバイス自身からプレイヤの各指までの距離等を計測させ、当該計測された、コントローラデバイスと、各指までの距離の情報、並びにコントローラデバイス自身の姿勢等の情報等を用いてプレイヤの手の位置やポーズを推定する。
 また別の例では、情報処理装置は、カメラ等によりプレイヤの手の画像を撮像し、当該撮像された手の画像に基づいてプレイヤの手の位置やポーズを推定する。
 この推定の処理については種々の方法があるが、例えば人工知能等の機械学習結果を用いた方法が一例として挙げられる。この機械学習の結果を用いる場合、例えば正解となるユーザの手の位置やポーズの情報を別途、上記コントローラデバイスや上記カメラ等のデバイス(以下、便宜的に推測デバイスと呼ぶ)以外のデバイス(以下便宜的に測定デバイスと呼ぶ)によって測定して取得し、当該正解の情報を教師信号とし、上記コントローラデバイスが取得した情報を入力信号として、ニューラルネットワークを学習させ、当該ニューラルネットワークを用いることとなる。
 しかしながら、上記教師信号となる正解の情報を取得したり、当該正解の情報と、対応するコントローラデバイスが取得した情報を見いだしたりすることは必ずしも容易ではない。
 例えば、上記測定デバイスを用いて、測定の対象者の手の位置やポーズの情報を、正解の情報として取得する場合、当該情報を取得した時点に対応して、推定デバイスが取得した情報(カメラの画像や、コントローラデバイスと、各指までの距離の情報等)を見いだす必要があるが、従来の方法では、対象者に、指定した位置に手を移動して、指定したポーズをとってもらい、測定デバイスにより情報を取得するとともに、その時点で推定デバイスによって取得した情報を対応付けて記録していた。そして、手作業で一つ一つの位置及びポーズに係る、互いに関連する、測定デバイスが取得する情報(教師信号)と、推定デバイスが取得した情報(入力信号)とを設定して、機械学習処理を行っていた。
 このため、機械学習用のデータ(教師信号と対応する入力信号とを関連付けた情報)を準備するための負担が大きかった。
 本発明は上記実情に鑑みて為されたもので、対象者の手の位置やポーズ等の情報を推定するための機械学習用のデータを、効率的に生成できる情報処理装置、情報処理システム、情報処理方法、及びプログラムを提供することを、その目的の一つとする。
 上記従来例の問題点を解決する本発明の一態様は、情報処理装置であって、対象者の手の位置またはポーズの少なくとも一方に関する第1の情報を取得する第1の情報取得装置と、前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第1の情報取得装置が取得する第1の情報とは異なる第2の情報を取得する第2の情報取得装置とに接続され、前記第1、第2の情報取得装置からそれぞれ前記第1の情報及び第2の情報を受け入れる受入手段と、前記受け入れた第1、第2の情報のそれぞれを、前記第1、第2の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する保持手段と、前記保持された第1、第2の情報のうち、共通したタイミングで取得された第1、第2の情報を対情報として抽出する抽出手段と、を含み、当該抽出した対情報が、当該対情報に含まれる第1の情報を教師信号、第2の情報を入力信号として機械学習の学習処理に供されることとしたものである。
 本発明によると、対象者の手の位置やポーズ等の情報を推定するための機械学習用のデータを、効率的に生成できる。
本発明の実施の形態に係る情報処理システムの構成例を表すブロック図である。 本発明の実施の形態に係る情報処理システムが用いる測定デバイスの一例を表す概要説明図である。 本発明の実施の形態に係る情報処理システムが用いる推定デバイスの一例を表す概要説明図である。 本発明の実施の形態に係る情報処理装置の例を表す機能ブロック図である。 本発明の実施の形態に係る情報処理装置が保持する情報の例を表す説明図である。 本発明の実施の形態に係る情報処理の動作例を表すフローチャート図である。
 本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報処理システム1は、図1に例示するように、第1の情報取得装置としての測定デバイス10と、第2の情報取得装置としての推定デバイス20と、情報処理装置30とを含んで構成される。
 ここで情報処理装置30は、図1に示すように、制御部31と、記憶部32と、操作部33と、表示制御部34と、入出力部35とを含んで構成される。
 また本実施の形態の一例の測定デバイス10は、図2に例示するように、測定の対象となる対象者の手の周囲に配された多数のカメラCを含み、対象者の手がどの位置で、どのようなポーズとなっていても、カメラCのうちの複数のカメラC1,C2…によって当該手を撮像可能となっているものである。またこの測定デバイス10は、パーソナルコンピュータ(PC)等の情報処理デバイスを含み、所定のタイミングごと(例えば1/60秒等の定期的なタイミングごと)に撮像された画像から、対象者の手の主要位置(例えば各指の各関節位置等)に予め貼り付けられた複数のマーカーの三次元空間内での位置をそれぞれ認識する。そして測定デバイス10は、当該認識した当該各マーカーの位置の情報(三次元の座標情報)を、撮像の時点を表すタイムスタンプ情報とともに出力する。このようなデバイスは、例えば、スパイス社のOptiTrack(登録商標)等のモーションキャプチャシステムとして知られているシステムを用いて実現できるので、ここでの詳しい説明を省略する。もっとも、この測定デバイスは、カメラを用いるものに限られず、対象者の手の位置またはポーズの少なくとも一方を必ず取得できるものであれば、筋電計や超音波などを用いる方法であっても構わない。
 また、本実施の形態の一例に係る推定デバイス20は、例えば図3に例示するように、対象者の手に把持されるコントローラデバイス200である。このコントローラデバイス200は、図3の例では、細長の柱状の形状をなし、把持されたときに対象者の各指が接触する位置には、それぞれ例えば静電容量センサや、赤外線距離センサ等、指先までの位置を測定するセンサ201が配されている。
 なお、図2,図3の例では説明のため対象者の手を破線で示している。
 本実施の形態の一例では、このコントローラデバイス200は、各センサ201が測定した対象者の指先までの距離の情報を、所定のタイミングごと(例えば100ミリ秒等の定期的なタイミングごと)に繰り返し取得する。そしてコントローラデバイス200は、当該情報を取得するごとに、当該情報を情報処理装置30に対して送出する。
 情報処理装置30の制御部31は、CPUなどのプログラム制御デバイスであり、記憶部32に格納されたプログラムに従って動作する。この制御部31は、本実施の形態においては、第1の情報取得装置である測定デバイス10から、対象者の手の各部に配したマーカーの位置を表す三次元の座標情報と、当該マーカーを撮像した時点を表すタイムスタンプ情報とを、第1の情報として受け入れる。またこの制御部31は、第2の情報取得装置としての推定デバイス20から、推定デバイス20が取得した情報を受け入れる。例えば推定デバイス20がコントローラデバイス200であれば、この制御部31は、コントローラデバイス200から、所定のタイミングごと(例えば100ミリ秒等の定期的なタイミングごと)に、コントローラデバイス200から対象者の指先までの距離の情報を第2の情報として受け入れる。
 制御部31は、受け入れた第1、第2の情報のそれぞれを、第1、第2の情報取得装置である測定デバイス10及び推定デバイス20がそれぞれ第1、第2の情報を取得したタイミングの情報に関連付けて保持する。また、制御部31は、当該保持した第1、第2の情報のうち、共通したタイミングで取得された第1、第2の情報を対情報として抽出する。そしてこの抽出した対情報が、当該対情報に含まれる第1の情報を教師信号、第2の情報を入力信号とした機械学習の学習処理に供される。この制御部31の詳しい動作については、後に述べる。
 記憶部32は、メモリデバイスやディスクデバイス等であり、制御部31によって実行されるプログラムを保持する。このプログラムは、コンピュータ可読、かつ非一時的な記録媒体に格納されて提供され、この記憶部32に格納されたものであってもよい。またこの記憶部32は、制御部31のワークメモリとしても動作する。
 操作部33は、キーボードやマウス等のデバイスに接続され、これらから利用者の指示操作の入力を受け入れて、当該指示操作の内容を表す情報を、制御部31に出力する。表示制御部34は、ディスプレイ等に接続され、制御部31から入力される指示に従って、情報を表示出力するよう、ディスプレイ等を制御する。
 入出力部35は、USB等の有線またはブルートゥース(登録商標)等の無線通信により、測定デバイス10や推定デバイス20に接続され、これらのデバイスが出力する情報を受け入れて制御部31に出力する。またこの入出力部35は、制御部31から入力される指示に従い、接続されたデバイスに対して情報を出力する。
 次に、制御部31の動作について説明する。本実施の形態の制御部31は、機能的には、図4に例示するように、受入部41と、前処理部42と、保持処理部43と、抽出処理部44とを含んで構成される。なお、以下の例では、情報処理装置30に接続されている推定デバイス20はコントローラデバイス200であるものとする。
 受入部41は、第1の情報取得装置である測定デバイス10から、入出力部35を介して第1の情報として受け入れる。ここで第1の情報には、所定のタイミングごとに撮像された画像に基づいて認識された、対象者の手の各部に配したマーカーの位置を表す三次元の座標情報(P1,P2…)と、当該マーカーを撮像した時点を表すタイムスタンプ情報(T)とを含む。
 またこの受入部41は、第2の情報取得装置としてのコントローラデバイス200から、入出力部35を介して、所定のタイミングごと(例えば100ミリ秒等の定期的なタイミングごと)に、コントローラデバイス200と対象者の各指の指先との距離の情報(FP1,FP2…)を第2の情報として受け入れる。
 前処理部42は、受入部41が受け入れた第1、第2の情報を保持処理部43により保持するための前処理を実行する。本実施の形態のある例では、この前処理部42は、コントローラデバイス200から第2の情報を受け入れるごとに、当該受け入れたタイミングの情報(時刻情報)を取得する。この時刻情報は、図示しない計時回路(リアルタイムクロック(RTC)等)から取得するか、またはネットワーク等を介して時刻情報サーバから取得すればよい。
 前処理部42は、処理を開始してから最初に第2の情報を受け入れたときに取得した時刻情報tを基準時刻t0として、i番目に受け入れた第2の情報を、そのときに取得した時刻情報tから基準時刻t0を差引きして得たタイミングの情報ti(i=1,2,…、従って最初の第2の情報についてはt1=0となる)を、対応する第2の情報に含めて、保持処理部43に対して出力する。またこの例では、前処理部42は、第1の情報についてはそのまま保持処理部43に出力する。
 保持処理部43は、前処理部42が出力する第1,第2の情報(第2の情報についてはタイミングの情報が含められたもの)を受け入れて、これらの情報を記憶部32に蓄積して格納する。
 この保持処理部43の動作により、記憶部32には、図5に例示するように、第1の情報については、タイムスタンプ情報(T1,T2…)で表されるマーカーを撮像した時点ごとに、当該時点で撮像されたマーカーに基づいて得られたマーカーの位置を表す三次元の座標情報(P1,P2…)が関連付けて記憶される。
 また第2の情報については、前処理部42で得られたタイミングの情報(t1,t2…)で表される時点ごとに、当該時点で受け入れた、コントローラデバイス200と対象者の各指の指先との距離の情報(FP1,FP2…)が関連付けられて、記憶部32に蓄積して格納された状態となる。
 抽出処理部44は、記憶部32に保持された第1、第2の情報のうち、共通したタイミングで取得された第1、第2の情報を対情報として抽出する。具体的に、この抽出処理部44は、例えば第1、第2の情報のうち、記録されている情報が得られたタイミングの間隔が比較的長い情報を選択する。例えば第1の情報がΔT=1/60秒(約17ミリ秒)ごとに取得されており、第2の情報がΔt=100ミリ秒ごとに取得されていれば、ΔT<Δtであるので、抽出処理部44は第2の情報を選択する。
 抽出処理部44は、選択した第2の情報のうち、一つのタイミング情報に関連付けられて保持されている情報を、記憶部32から読み出す。すなわち抽出処理部44は、タイミングの情報ti(i=1,2,…)のいずれかを選択し、当該選択したタイミングの情報tiに関連付けられた対象者の各指の指先との距離の情報(FP1,FP2…)を読み出す。
 抽出処理部44は、ここで選択されたタイミングの情報が表す時刻tiに最も近いタイミングを表す情報Tに関連付けられた、第1の情報(記録されている情報が得られたタイミングの間隔が比較的短い情報)を記憶部32から検索する。
 ここでの例では第1の情報に含まれるタイミングの情報はタイムスタンプであり、第2の情報については、測定開始からの経過時間に相当するタイミングの情報が関連付けられている。そこで、本実施の形態の、この例に係る抽出処理部44は、第1の情報に含まれるタイムスタンプのうち、最も時間的に早い時刻を表すタイムスタンプの時点T0が、第2の情報を受け入れた際に、前処理部42が取得した基準時刻t0と等しいものとして、第1の情報に含まれるタイムスタンプTj(j=1,2…)からT0を差引きした値Tj-T0(j=1,2…)のうち、選択されたタイミングの情報が表す時刻tiに最も近いタイムスタンプTjを見いだす。
 抽出処理部44は、ここで見いだしたタイムスタンプTjに関連付けられた対象者の手の各部に配したマーカーの位置を表す三次元の座標情報(P1,P2…)を記憶部32から読み出し、また、選択されたタイミングの情報が表す時刻tiに関連付けられて記憶部32に格納されている、対象者の各指の指先とコントローラデバイス200との距離の情報(FP1,FP2…)を読み出す。
 抽出処理部44は、ここで読み出したマーカーの位置を表す三次元の座標情報(P1,P2…)を、正解を表す教師信号とし、対象者の各指の指先とコントローラデバイス200との距離の情報(FP1,FP2…)を入力信号として、これらを組にして、学習用情報として記憶部32に蓄積して格納する。
 抽出処理部44は、第2の情報のタイミングの情報ti(i=1,2,…)ごとに、上記の処理を繰り返して、学習用情報を蓄積して記憶部32に格納する。
 本実施の形態の制御部31は、以上のようにして学習用情報を生成し、この、記憶部32に蓄積して記憶された学習用情報を、ニューラルネットワーク等の機械学習処理に供する。教師信号と入力信号との組に基づいて機械学習処理を行う方法については、広く知られた方法を採用できるので、ここでの詳しい説明は省略する。
[動作]
 本実施の形態の一例に係る情報処理システム1は以上の構成を備えており、この例に係る情報処理システム1は次のように動作する。測定対象者は、その手の主要位置(例えば各指の各関節位置等)にマーカーを貼り付け、コントローラデバイス200を把持した状態で、予め指定された通りに、あるいは任意に、手や指を動かして、手の位置を移動したり、ポーズを変更したりといった行動を行う。
 測定デバイス10は、所定のタイミングごと(例えば1/60秒等の定期的なタイミングごと)に、この対象者の手の画像を複数の場所から撮像しており、当該撮像された画像から、対象者の手に貼り付けられた複数のマーカーの三次元空間内での位置をそれぞれ認識し、当該各マーカーの位置の情報(三次元の座標情報)を、撮像の時点を表すタイムスタンプ情報とともに出力する。なお、この出力のタイミングは、対象者がすべての行動を終了した後にまとめて出力することとしてもよい。
 また、対象者の手に把持されるコントローラデバイス200は、その表面に配された各センサ201が測定した対象者の各指先までの距離の情報を、所定のタイミングごと(例えば100ミリ秒等の定期的なタイミングごと)に繰り返し取得し、当該情報を取得するごとに、当該情報を情報処理装置30に対して送出する。
 情報処理装置30は、コントローラデバイス200からは、コントローラデバイス200がコントローラデバイス200と対象者の各指の指先との距離の情報(FP1,FP2…)を取得するごとに、当該情報を第2の情報として受け入れる。
 そして情報処理装置30は、コントローラデバイス200から第2の情報を受け入れるごとに、当該受け入れたタイミングの情報(時刻情報)を取得し、最初に第2の情報を受け入れたときに取得した時刻情報tを基準時刻t0として、i番目に受け入れた第2の情報を、そのときに取得した時刻情報tから基準時刻t0を差引きして得たタイミングの情報ti(i=1,2,…、従って最初の第2の情報についてはt1=0となる)を、対応する第2の情報に含める。情報処理装置30は、このタイミングの情報が含められた第2の情報を、記憶部32に蓄積して格納する。
 一方、情報処理装置30は、例えば測定が終了したときに、測定中に測定デバイス10が所定のタイミングごとに取得した、各マーカーの位置の情報(三次元の座標情報)をタイムスタンプ情報とともに受け入れて、対応するタイムスタンプ情報と、各マーカーの位置の情報(P1,P2…)とを関連付けて、記憶部32に蓄積して格納する。
 こうして記憶部32には、図5に例示したように、第1の情報については、タイムスタンプ情報(T1,T2…)で表されるマーカーを撮像した時点ごとに、当該時点で撮像されたマーカーに基づいて得られたマーカーの位置を表す三次元の座標情報(P1,P2…)が関連付けて記憶された状態となり、第2の情報については、タイミングの情報(t1,t2…)で表される時点ごとに、当該時点で受け入れた、コントローラデバイス200と対象者の各指の指先との距離の情報(FP1,FP2…)が関連付けられて、記憶部32に蓄積して格納された状態となる。
 情報処理装置30は、例えば利用者から、機械学習用の学習用情報を生成すべき旨の指示を受け入れて、学習用情報を生成する処理を開始し、第1,第2の情報のいずれかを基準として、次の処理を行う。ここで基準とする情報は、記録されている情報が得られたタイミングの間隔が比較的長い情報(得られているデータの数が少ない方の情報)を選択すればよい。以下の説明では第2の情報が選択されたものとして説明する。
 情報処理装置30は、図6に例示するように、第1の情報について、記憶部32に格納されているタイムスタンプのうち、時間的に最も早い時刻を表すタイムスタンプの時点T0を取得する(S1)。
 また情報処理装置30は、選択した第2の情報に含まれるタイミング情報(t1,t2…)を順次選択して、次の処理を繰り返し実行する(S2)。すなわち、情報処理装置30は選択したタイミング情報tiに最も近いタイミングを表す情報Tに関連付けられた、第1の情報(記録されている情報が得られたタイミングの間隔が比較的短い情報)を記憶部32から検索する。
 具体的に情報処理装置30は、記憶部32に格納されたタイムスタンプTj(j=1,2…)のそれぞれからT0を差引きした値Tj-T0(j=1,2…)を得て、タイミング情報tiに最も近い値Tj-T0となっているタイムスタンプTjを見いだす(S3)。
 そして情報処理装置30は、処理S3で見いだしたタイムスタンプTjに関連付けられているマーカーの位置を表す三次元の座標情報(P1,P2…)を読み出す(S4)。
 また情報処理装置30は、処理S2で選択したタイミング情報tiに関連付けられている、対象者の各指の指先とコントローラデバイス200との距離の情報(FP1,FP2…)を読み出す(S5)。
 情報処理装置30は、処理S4で読み出したマーカーの位置を表す三次元の座標情報(P1,P2…)を正解を表す教師信号とし、処理S5で読み出した対象者の各指の指先とコントローラデバイス200との距離の情報(FP1,FP2…)を入力信号として、これらを組として学習用情報として記憶部32に蓄積して格納する(S6)。
 情報処理装置30は、以上の処理を、選択していないタイミング情報(t1,t2…)がなくなるまで、処理S2から繰り返して実行する。これにより、記憶部32には、第2の情報が得られたタイミングを表すタイミング情報(t1,t2…)ごとの、教師信号と入力信号との組(対情報)が保持された状態となる。
 このように本実施の形態によると、手作業による教師信号と入力信号との組み合わせが必要なくなり、対象者の手の位置やポーズ等の情報を推定するための機械学習用のデータを、効率的に生成できる。
[情報の内容を参照する例]
 また、ここまでの説明では、共通したタイミングで取得された第1、第2の情報を見いだすため、第2の情報については取得した時点を表すタイミングの情報を関連付けていた。そして、測定の開始時点が測定デバイス10と、推定デバイス20とで共通していることを前提に、この関連付けたタイミングの情報が表す時点に最も近い時点を表すタイムスタンプに関連付けられた第1の情報を検索する例について述べた。
 しかしながら、測定デバイス10の測定開始時点と、推定デバイス20が最初に情報を出力した時点にずれがある場合、学習用の情報に誤りが生じることとなる。そこで、本実施の形態の一例では、学習用情報を生成する利用者が、予め目視で第1の情報と第2の情報とを確認し、それぞれの情報が同じ手の位置やポーズを表している時点を情報処理装置30に指定することとしてもよい。
 例えば、第1の情報のタイムスタンプTkにおける情報と、第2の情報のうち、タイミングの情報tmにおける情報とが同じ手の位置やポーズを表している場合に、それらを指定する。すると、情報処理装置30は、ΔTk=Tk-T0(ここでT0は、既に述べたように、第1の情報について、記憶部32に格納されているタイムスタンプのうち、時間的に最も早い時刻を表すタイムスタンプの情報)と、tmとの差、Δ=ΔTk-tmを補正情報として取得し、上記処理S3では、記憶部32に格納されたタイムスタンプTj(j=1,2…)のそれぞれからT0を差引きした値Tj-T0(j=1,2…)を得て、タイミング情報tiに、この補正情報Δを加算した値、ti+Δに最も近い値Tj-T0となっているタイムスタンプTjを見いだす。
 さらに、ここでは利用者が目視で、第1,第2の情報が同じ手の位置やポーズを表している時点を探索することとしたが、この探索を情報処理装置30が機械的に(人為的処理なしに)行ってもよい。
 この場合は例えば、対象者に当初、手を握る(コントローラデバイス200に指先を接触させた状態とする)動作と、手を開く(コントローラデバイス200から指先をできるだけ離した状態とする)動作とを行ってもらう。そして、情報処理装置30は、記録している第1の情報のうち、タイムスタンプの小さい順に調べたときに、手を開いた状態であることを表す情報(例えば指ごとに貼られた各マーカーの三次元座標の点が実質的に直線状となっている情報)が最初に記録されている時点Tfまでの間にある第1の情報であって、手を握った状態であることを表す情報(例えば各マーカーの三次元座標の点を含む最小の凸包の体積が最も小さくなったときの第1の情報)に関連付けられたタイムスタンプの情報Tminを得る。
 また情報処理装置30は、記録している第2の情報を記録順に(関連付けられたタイミングの情報が表す時刻が小さい順に)調べ、最初に見いだされる、手を握った状態であることを表す情報(例えば各指先までの距離が最小となっている第2の情報)に関連付けられた、タイミングの情報tminを得る。
 そして、情報処理装置30は、ΔTk=Tmin-T0(ここでT0は、既に述べたように、第1の情報について、記憶部32に格納されているタイムスタンプのうち、時間的に最も早い時刻を表すタイムスタンプの情報)と、tminとの差、Δ=ΔTk-tminを補正情報として取得し、上記処理S3では、記憶部32に格納されたタイムスタンプTj(j=1,2…)のそれぞれからT0を差引きした値Tj-T0(j=1,2…)を得て、タイミング情報tiに、この補正情報Δを加算した値、ti+Δに最も近い値Tj-T0となっているタイムスタンプTjを見いだす。
 これにより、保持された第1、第2の情報がそれぞれ表す対象者の手の位置またはポーズが、実質的に同一と判断されるタイミングを共通したタイミングとして、当該共通したタイミングで取得された第1、第2の情報を対情報として抽出することが可能となる。
[推定デバイスにもマーカーを貼る例]
 また、ここまでの説明において、第1の情報取得装置である測定デバイス10が検出するマーカーは、対象者の手の各部に貼付されることとしていたが、本実施の形態の例では、第2の情報取得装置であるコントローラデバイス200にも、このマーカーを配してもよい。
 この場合、測定デバイス10は、推定デバイス20としてのコントローラデバイス200の位置や姿勢等の情報を、対象者の手の位置やポーズに関する情報とともに取得する。そして、情報処理装置30は、対象者の手の位置やポーズに関する情報とともにコントローラデバイス200の位置や姿勢の情報を含む第1の情報を記録し、この第1の情報の記録から教師信号を取り出すとともに、当該取り出した教師信号が得られたタイミングと共通するタイミングでコントローラデバイス200が取得した第2の情報(入力信号)を取り出して、対情報として出力する。
 本実施の形態のこの例では、コントローラデバイス200を把持するプレイヤの手の位置やポーズだけでなく、当該把持されているコントローラデバイス200の位置や姿勢の情報まで推定するための機械学習処理が可能となる。
[推定デバイスがカメラである例]
 また、本実施の形態では、推定デバイス20は、必ずしも対象者の手に把持されるコントローラデバイス200でなくてもよい。例えば本実施の形態のある例では、推定デバイス20は、プレイヤ(対象者)に対して所定の一ヶ所の位置に対象者の方向に向けて配した一対のカメラを含むデプスカメラであってもよい。
 この場合、推定デバイス20であるデプスカメラは、対象者の姿勢や手のポーズの状況によっては、対象者のすべての指が視認できるとは限らない(例えばデプスカメラから指までの間にプレイヤの手の甲が入ってしまう場合など)が、測定デバイス10は、対象者のすべての指の関節等に貼付されたすべてのマーカーの位置情報を取得できる。
 この例では、第2の情報は、デプスカメラに含まれる一対のカメラが撮像した2つの画像データである。
 またこの例では、前処理部42は、受入部41が第2の情報を受け入れるごとに、当該受け入れたタイミングの情報(時刻情報)を取得する。また前処理部42は、処理を開始してから最初に第2の情報を受け入れたときに取得した時刻情報tを基準時刻t0として、i番目に受け入れた第2の情報を、そのときに取得した時刻情報tから基準時刻t0を差引きして得たタイミングの情報ti(i=1,2,…、従って最初の第2の情報についてはt1=0となる)を、対応する第2の情報に含めて、保持処理部43に対して出力する。
 さらに本実施の形態のこの例では、前処理部42は、第2の情報である画像データに含まれる、測定デバイス10が認識するためのマーカーの画像を除去する処理を行ってもよい。具体的にマーカーは、例えば予め定められた色で着色されているので、前処理部42は、第2の情報である画像データに含まれる当該マーカーの色の部分を抽出し、当該部分をその周囲の色で塗りつぶす処理を行う。この処理はフォトレタッチ等の画像処理として広く知られた処理を用いることができるので、ここでの詳しい説明を省略する。
 このように前処理を行うと、学習用情報の入力信号にはマーカーが含まれない画像が提供される状態となる。通常、実際にこの学習用情報を用いて学習されたニューラルネットワーク等が利用される場面では、デプスカメラが撮像した画像データにはマーカーは含まれないので、学習用情報である入力信号が当該実際に利用される画像データに近いものとされていることで、より的確な推定が行われることが期待できる。
 1 情報処理システム、10 測定デバイス、20 推定デバイス、30 情報処理装置、31 制御部、32 記憶部、33 操作部、34 表示制御部、35 入出力部、41 受入部、42 前処理部、43 保持処理部、44 抽出処理部、200 コントローラデバイス、201 センサ。
 

Claims (7)

  1.  対象者の手の位置またはポーズの少なくとも一方に関する第1の情報を取得する第1の情報取得装置と、前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第1の情報取得装置が取得する第1の情報とは異なる第2の情報を取得する第2の情報取得装置とに接続され、
     前記第1、第2の情報取得装置からそれぞれ前記第1の情報及び第2の情報を受け入れる受入手段と、
     前記受け入れた第1、第2の情報のそれぞれを、前記第1、第2の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する保持手段と、
     前記保持された第1、第2の情報のうち、共通したタイミングで取得された第1、第2の情報を対情報として抽出する抽出手段と、を含み、
     当該抽出した対情報が、当該対情報に含まれる第1の情報を教師信号、第2の情報を入力信号として機械学習の学習処理に供される情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記抽出手段は、前記保持された第1、第2の情報の内容に基づいて、共通したタイミングで取得された第1、第2の情報を対情報として抽出する情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記抽出手段は、前記保持された第1、第2の情報がそれぞれ表す前記対象者の手の位置またはポーズが、実質的に同一と判断されるタイミングを共通したタイミングとして、当該共通したタイミングで取得された第1、第2の情報を対情報として抽出する情報処理装置。
  4.  対象者の手の位置またはポーズの少なくとも一方に関する第1の情報を取得する第1の情報取得装置と、
     前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第1の情報取得装置が取得する第1の情報とは異なる第2の情報を取得する第2の情報取得装置と、
     情報処理装置と、を含み、
     前記情報処理装置が、
     前記第1、第2の情報取得装置からそれぞれ前記第1の情報及び第2の情報を受け入れる受入手段と、
     前記受け入れた第1、第2の情報のそれぞれを、前記第1、第2の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する保持手段と、
     前記保持された第1、第2の情報のうち、共通したタイミングで取得された第1、第2の情報を対情報として抽出する抽出手段と、を有し、
     当該抽出した対情報が、当該対情報に含まれる第1の情報を教師信号、第2の情報を入力信号として機械学習の学習処理に供される情報処理システム。
  5.  請求項4に記載の情報処理システムであって、
     前記第1の情報取得装置は、対象者の手に配した複数のマーカーの位置を検出し、当該検出したマーカーの位置に基づいて対象者の手の位置またはポーズの少なくとも一方に関する第1の情報を取得しており、
     前記第2の情報取得装置は、対象者の手に把持されるデバイスを含み、当該デバイスが検出する情報に基づいて対象者の手の位置またはポーズの少なくとも一方に関する第2の情報を取得しており、
     前記第1の情報取得装置が検出するマーカーが、前記第2の情報取得装置の前記デバイスにも配されて、前記第1の情報取得装置は、対象者の手の位置またはポーズの少なくとも一方に関する第1の情報とともに、前記第2の情報取得装置の前記デバイスの位置または姿勢に関する情報を取得して、前記情報処理装置に出力する情報処理システム。
  6.  対象者の手の位置またはポーズの少なくとも一方に関する第1の情報を取得する第1の情報取得装置と、前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第1の情報取得装置が取得する第1の情報とは異なる第2の情報を取得する第2の情報取得装置とに接続される情報処理装置を用い、
     情報処理装置の受入手段が、前記第1、第2の情報取得装置からそれぞれ前記第1の情報及び第2の情報を受け入れる工程と、
     保持手段が前記受け入れた第1、第2の情報のそれぞれを、前記第1、第2の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する工程と、
     抽出手段が前記保持された第1、第2の情報のうち、共通したタイミングで取得された第1、第2の情報を対情報として抽出する工程と、を含み、
     当該抽出した対情報が、当該対情報に含まれる第1の情報を教師信号、第2の情報を入力信号として機械学習の学習処理に供される情報処理方法。
  7.  対象者の手の位置またはポーズの少なくとも一方に関する第1の情報を取得する第1の情報取得装置と、前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第1の情報取得装置が取得する第1の情報とは異なる第2の情報を取得する第2の情報取得装置とに接続される情報処理装置に、
     前記第1、第2の情報取得装置からそれぞれ前記第1の情報及び第2の情報を受け入れる受入工程と、
     前記受け入れた第1、第2の情報のそれぞれを、前記第1、第2の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する保持工程と、
     前記保持された第1、第2の情報のうち、共通したタイミングで取得された第1、第2の情報を対情報として抽出する抽出工程と、を実行させるためのプログラム。

     
PCT/JP2018/001636 2018-01-19 2018-01-19 情報処理装置、情報処理システム、情報処理方法、及びプログラム WO2019142329A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019565662A JP6854928B2 (ja) 2018-01-19 2018-01-19 情報処理装置、情報処理システム、情報処理方法、及びプログラム
US16/957,853 US11302029B2 (en) 2018-01-19 2018-01-19 Information processing apparatus, information processing system, information processing method, and program
PCT/JP2018/001636 WO2019142329A1 (ja) 2018-01-19 2018-01-19 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/001636 WO2019142329A1 (ja) 2018-01-19 2018-01-19 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2019142329A1 true WO2019142329A1 (ja) 2019-07-25

Family

ID=67301404

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/001636 WO2019142329A1 (ja) 2018-01-19 2018-01-19 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US11302029B2 (ja)
JP (1) JP6854928B2 (ja)
WO (1) WO2019142329A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210263592A1 (en) * 2020-02-26 2021-08-26 Magic Leap, Inc. Hand and totem input fusion for wearable systems
JP2021527896A (ja) * 2018-06-20 2021-10-14 バルブ コーポレーション 仮想現実の手のジェスチャ生成

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10307669B2 (en) 2016-10-11 2019-06-04 Valve Corporation Electronic controller with finger sensing and an adjustable hand retainer
US11185763B2 (en) 2016-10-11 2021-11-30 Valve Corporation Holding and releasing virtual objects
US10987573B2 (en) 2016-10-11 2021-04-27 Valve Corporation Virtual reality hand gesture generation
US11302029B2 (en) * 2018-01-19 2022-04-12 Sony Interactive Entertainment Inc. Information processing apparatus, information processing system, information processing method, and program
US11610326B2 (en) * 2020-12-14 2023-03-21 Tencent America LLC Synthesizing 3D hand pose based on multi-modal guided generative networks

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04156610A (ja) * 1990-10-19 1992-05-29 Fujitsu Ltd ニューラルネットワークを用いた人間の動作自動認識装置
JP2012155669A (ja) * 2011-01-28 2012-08-16 Nippon Telegr & Teleph Corp <Ntt> 磁気検出装置、行動機器識別装置、行動機器識別システム、行動機器識別方法、及びプログラム
WO2016157938A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10987573B2 (en) * 2016-10-11 2021-04-27 Valve Corporation Virtual reality hand gesture generation
US11302029B2 (en) * 2018-01-19 2022-04-12 Sony Interactive Entertainment Inc. Information processing apparatus, information processing system, information processing method, and program
JP6910485B2 (ja) * 2018-02-16 2021-07-28 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理システム、コントローラデバイス、情報処理方法、及びプログラム
US20210118038A1 (en) * 2019-10-22 2021-04-22 The Hillman Group, Inc. Self-service kiosk for determining glove size

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04156610A (ja) * 1990-10-19 1992-05-29 Fujitsu Ltd ニューラルネットワークを用いた人間の動作自動認識装置
JP2012155669A (ja) * 2011-01-28 2012-08-16 Nippon Telegr & Teleph Corp <Ntt> 磁気検出装置、行動機器識別装置、行動機器識別システム、行動機器識別方法、及びプログラム
WO2016157938A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021527896A (ja) * 2018-06-20 2021-10-14 バルブ コーポレーション 仮想現実の手のジェスチャ生成
JP7337857B2 (ja) 2018-06-20 2023-09-04 バルブ コーポレーション 仮想現実の手のジェスチャ生成
US20210263592A1 (en) * 2020-02-26 2021-08-26 Magic Leap, Inc. Hand and totem input fusion for wearable systems
US12061743B2 (en) * 2020-02-26 2024-08-13 Magic Leap, Inc. Hand and totem input fusion for wearable systems

Also Published As

Publication number Publication date
US20200327693A1 (en) 2020-10-15
JP6854928B2 (ja) 2021-04-07
JPWO2019142329A1 (ja) 2020-09-03
US11302029B2 (en) 2022-04-12

Similar Documents

Publication Publication Date Title
WO2019142329A1 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
US9330470B2 (en) Method and system for modeling subjects from a depth map
JP5159950B2 (ja) 画像処理装置、方法、プログラム
EP3635951A1 (en) Augmented reality learning system and method using motion captured virtual hands
WO2015133206A1 (ja) 画像処理装置、画像処理方法、および、画像処理プログラム
US20100208038A1 (en) Method and system for gesture recognition
JP5170094B2 (ja) なりすまし検知システム、なりすまし検知方法およびなりすまし検知用プログラム
JP2017097577A (ja) 姿勢推定方法及び姿勢推定装置
JP2009003813A (ja) 手指形状推定装置及び手指形状推定方法、並びにプログラム
CN110991292A (zh) 动作识别比对方法、系统、计算机存储介质和电子装置
JP2007304721A (ja) 画像処理装置及び画像処理方法
WO2022003963A1 (ja) データ生成方法、データ生成プログラムおよび情報処理装置
JP2006215743A (ja) 画像処理装置及び画像処理方法
CN116740618A (zh) 一种运动视频动作评估方法、系统、计算机设备及介质
JP2018180894A (ja) 情報処理装置、情報処理方法及びプログラム
US20230054973A1 (en) Information processing apparatus, information processing method, and information processing program
WO2021039642A1 (ja) 3次元再構成装置、方法及びプログラム
JP7339604B2 (ja) 動作認識装置、動作認識方法、動作認識プログラム及び動作認識システム
US10909718B2 (en) Method for estimating body orientation
JP2014117409A (ja) 身体関節位置の計測方法および装置
CN112790760A (zh) 一种三维运动姿态捕捉方法、装置、处理设备及系统
Bakchy et al. Limbs and muscle movement detection using gait analysis
JP2022092528A (ja) 三次元人物姿勢推定装置、方法およびプログラム
JP2022061910A (ja) 関節位置取得装置及び方法
JP6929043B2 (ja) 画像処理装置、画像処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18901289

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019565662

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18901289

Country of ref document: EP

Kind code of ref document: A1