WO2018207351A1 - 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム - Google Patents

距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム Download PDF

Info

Publication number
WO2018207351A1
WO2018207351A1 PCT/JP2017/018034 JP2017018034W WO2018207351A1 WO 2018207351 A1 WO2018207351 A1 WO 2018207351A1 JP 2017018034 W JP2017018034 W JP 2017018034W WO 2018207351 A1 WO2018207351 A1 WO 2018207351A1
Authority
WO
WIPO (PCT)
Prior art keywords
distance image
human body
distance
target person
learning
Prior art date
Application number
PCT/JP2017/018034
Other languages
English (en)
French (fr)
Inventor
桝井 昇一
藤本 博昭
和浩 吉村
佐藤 卓也
佐々木 和雄
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2019516851A priority Critical patent/JP6860066B2/ja
Priority to PCT/JP2017/018034 priority patent/WO2018207351A1/ja
Priority to EP17909348.9A priority patent/EP3624051A4/en
Priority to CN201780090521.2A priority patent/CN110622217B/zh
Publication of WO2018207351A1 publication Critical patent/WO2018207351A1/ja
Priority to US16/676,404 priority patent/US11087493B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present invention relates to a distance image processing apparatus and the like.
  • FIG. 14 is a diagram for explaining a conventional system that performs posture recognition.
  • the conventional system acquires a distance image 7 of the subject 5 a using the distance sensor 6.
  • the conventional system identifies the skeleton position 5b of the subject 5a by estimating the joint position based on the distance image 7, and estimates the posture of the subject 5a.
  • FIG. 15 is a diagram for explaining an application example of the conventional system.
  • the distance sensor 6 is used to acquire a distance image of the subject 5a, recognize the posture of the subject 5a, and the avatar 5c on the game takes the same posture as the subject 5a. It is
  • FIG. 16 is a diagram for explaining an example of a conventional technique for posture recognition.
  • the prior art acquires one or more distance images including a human body (step S10).
  • the distance image 1 includes a foreground pixel 1a related to the specified human body and other background pixels 1b.
  • the conventional technique separates the background pixel 1b from the distance image 1 to obtain the distance image 1c including only the foreground pixel (step S11).
  • the human body region of the distance image 1c is divided into a plurality of part labels bp1 to bp14 (step S12).
  • the conventional technique proposes a plurality of human skeleton models having a plurality of three-dimensional skeleton positions based on the respective body part labels bp1 to bp14 (step S13).
  • the conventional technique selects a skeleton model having the highest likelihood from a plurality of skeleton models, and recognizes the posture of the person based on the selected skeleton model (step S14).
  • FIG. 17 is a flowchart showing a processing procedure for learning a conventional classifier.
  • the conventional technique acquires motion capture data (step S20).
  • the prior art generates a plurality of human body models having various postures by performing human body model retargeting based on the motion capture data (step S21).
  • the conventional technology removes redundancy by removing similar human body model postures from each human body model and leaving only unique human body model postures (step S22).
  • the conventional technology generates a part label image and a distance image based on the assumed position of the distance sensor based on the unique human body model posture (step S23).
  • the conventional technology generates a discriminator by repeatedly learning the correspondence between the feature of each position of the distance image (and the feature of the peripheral position) and the part label based on the pair of the part label image and the distance image. (Step S24).
  • Occlusion by an object is a state in which a part of a human body to be recognized becomes invisible by another object.
  • FIG. 18 is a diagram illustrating an example of occlusion by an object.
  • a part of the body of the subject 8 a is hidden behind the Kurama 8 b.
  • a normal part label is not assigned and accurate posture recognition cannot be performed.
  • 19 and 20 are diagrams for explaining the problems of the prior art.
  • a distance image including the subject person 8a and the horse 8b is acquired, a background is removed from the distance image, and a part label is assigned, a part label recognition result 9A shown in FIG. 19 is obtained.
  • a region label is assigned with the region 8c including the subject 8a and the horse 8b as the region of the subject 8a and the horse 8b as a part of the human body.
  • a distance image of only the fixed horse 8b is taken in advance in the state where the subject 8a does not exist, and a distance image taken when the subject 8a is actually exercising on the horse 8b. Therefore, it is possible to remove the distance image of only the horse 8b. If the distance image of only the horse 8b is removed in this way, the distance image of the foot portion hidden behind the horse 8b cannot be detected, so that only the distance image divided by the horse 8b can be obtained.
  • a part label is assigned to a distance image obtained by removing the distance image of the horse 8b, a part label recognition result 9B shown in FIG. 20 is obtained.
  • each divided region B 1 , B 2 is recognized as one subject region, and a part label is assigned.
  • a foot part label may be assigned to the part b 1 and for the region B 2 , a part label other than a human foot (for example, a hand) may be assigned.
  • an object of the present invention is to provide a distance image processing device, a distance image processing system, a distance image processing method, and a distance image processing program that can appropriately determine a part of a human body.
  • the distance image processing apparatus includes a generation unit and a learning unit.
  • the generation unit is configured to generate a distance image indicating a distance from the reference position to each position of the human body or each position of the object based on a combined model obtained by combining the three-dimensional model of the human body and the three-dimensional model of the object, A plurality of learning images are generated in association with a part image for identifying a part or a part of an object.
  • the learning unit learns a discriminator in which a feature of the distance image is associated with a human body part or an object part based on a plurality of learning images.
  • the present invention can appropriately determine the part of the human body.
  • FIG. 1 is a diagram illustrating an example of a distance image processing system according to the present embodiment.
  • FIG. 2 is a diagram illustrating an example of the configuration of the learning device.
  • FIG. 3 is a diagram for explaining the capture camera.
  • FIG. 4 is a diagram illustrating an example of object model data.
  • FIG. 5 is a diagram illustrating an example of the data structure of the composite model table.
  • FIG. 6 is a diagram illustrating an example of the data structure of the learning image table.
  • FIG. 7 is a diagram for explaining the relationship between the part label image and the distance image.
  • FIG. 8 is a diagram illustrating an example of the data structure of the discriminator data.
  • FIG. 9 is a diagram illustrating an example of the configuration of the recognition apparatus.
  • FIG. 9 is a diagram illustrating an example of the configuration of the recognition apparatus.
  • FIG. 10 is a flowchart illustrating the processing procedure of the learning device according to the present embodiment.
  • FIG. 11 is a flowchart illustrating the processing procedure of the recognition apparatus according to the present embodiment.
  • FIG. 12 is a diagram illustrating an example of a hardware configuration of a computer that implements the same function as the learning device.
  • FIG. 13 is a diagram illustrating an example of a hardware configuration of a computer that implements the same function as the recognition device.
  • FIG. 14 is a diagram for explaining a conventional system that performs posture recognition.
  • FIG. 15 is a diagram for explaining an application example of the conventional system.
  • FIG. 16 is a diagram for explaining an example of a conventional technique for posture recognition.
  • FIG. 17 is a flowchart showing a processing procedure for learning a conventional classifier.
  • FIG. 18 is a diagram illustrating an example of occlusion by an object.
  • FIG. 19 is a diagram (1) for explaining the problems of the prior art.
  • FIG. 20 is a diagram (2) for
  • FIG. 1 is a diagram illustrating an example of a distance image processing system according to the present embodiment.
  • the distance image processing system includes a learning device 100 and a recognition device 200.
  • the learning device 100 is connected to the motion capture device 10.
  • the recognition device 200 is connected to the distance sensor 20. Further, the learning device 100 and the recognition device 200 are connected to each other.
  • the learning device 100 is a device that learns the discriminator data used when the recognition device 200 recognizes the posture of the target person.
  • the recognition device 200 is a device that recognizes the posture of the target person using the classifier data learned by the learning device 100.
  • the learning device 100 and the recognition device 200 are examples of a distance image processing device.
  • FIG. 2 is a diagram illustrating an example of the configuration of the learning device. As shown in FIG. 2, the learning device 100 is connected to the motion capture device 10.
  • the learning apparatus 100 includes an input unit 110, a display unit 120, a storage unit 130, and a control unit 140.
  • the motion capture device 10 is connected to a plurality of capture cameras 10a.
  • FIG. 3 is a diagram for explaining the capture camera. As shown in FIG. 3, the capture camera 10 a is arranged around the subject 11. A marker 12 is attached to each joint position of the subject 11.
  • the motion capture device 10 records the movement of the marker 12 of the subject 11 using each camera 10 a and obtains a three-dimensional joint position from each marker 12.
  • the motion capture device 10 generates motion capture data by sequentially recording the three-dimensional joint positions obtained from the position coordinates of each marker 12.
  • the motion capture device 10 outputs motion capture data to the learning device 100.
  • the input unit 110 is an input device for inputting various types of information to the learning device 100.
  • the input unit 110 corresponds to a keyboard, a mouse, a touch panel, and the like.
  • the display unit 120 is a display device that displays information output from the control unit 140.
  • the display unit 120 corresponds to a liquid crystal display, a touch panel, or the like.
  • the storage unit 130 includes motion capture data 130a, human body model data 130b, object model data 130c, a synthesized model table 130d, a learning image table 130e, and classifier data 130f.
  • the storage unit 130 corresponds to a semiconductor memory device such as a RAM (Random Access Memory), a ROM (Read Only Memory), and a flash memory (Flash Memory), and a storage device such as an HDD (Hard Disk Drive).
  • the motion capture data 130a is data that is generated by the motion capture device 10 and records the movement of the three-dimensional joint position of the person.
  • the motion capture data 130a has information on joint positions for each frame.
  • the human body model data 130b is data of a three-dimensional model of the human body.
  • the human body model data 130b is information generated by combining a three-dimensional human body model with a skeleton based on each joint position of a person in the motion capture 130a.
  • the object model data 130c is a three-dimensional model of an object different from a person.
  • FIG. 4 is a diagram illustrating an example of object model data.
  • the object is a horse, but in terms of gymnastics, a ring of a suspended ring, a steel bar, a parallel bar, a jumping horse, and the like are equivalent, and the invention is not limited to these.
  • the synthesized model table 130d is a table having a plurality of synthesized model data obtained by synthesizing the human body model data 130b and the object model data 130c.
  • FIG. 5 is a diagram illustrating an example of the data structure of the composite model table. As shown in FIG. 5, this synthetic model table 130d associates a synthetic model number with synthetic model data.
  • the composite model number is a number for identifying the composite model data.
  • the synthesized model data is data obtained as a result of synthesizing the human body model data 130b at a timing (frame) in a series of movements and the object model data 130c.
  • the learning image table 130e is a table having a plurality of learning image data for generating the discriminator data 130f.
  • FIG. 6 is a diagram illustrating an example of the data structure of the learning image table. As shown in FIG. 6, the learning image table 130e associates learning image numbers, part label image data, and distance image data.
  • the learning image number is a number that uniquely identifies a set of the part label image data that becomes the learning image and the distance image data.
  • the part label image data is information indicating each part and object of the combined model data (human body + object) with a unique part label.
  • the distance image data is a distance image generated from the combined model data (human body + object). Corresponding part label image data and distance image data are generated from the same combined model data.
  • FIG. 7 is a diagram for explaining the relationship between the part label image and the distance image.
  • FIG. 7 shows a set of part label image data 131A and distance image data 131B corresponding to a certain learning image number.
  • the distance image data 131B is distance image data indicating, for each pixel, a distance from a reference position such as a camera to each position of the synthesized model data.
  • the part label image data 131A is information indicating each part and object of the person included in the distance image 131B with a unique part label. For example, based on a predetermined division policy, a person's area is divided into a plurality of parts, and a unique part label is assigned to the area corresponding to each part. For the object, a part label different from the part of the person is assigned to a region corresponding to the object.
  • the discriminator data 130f constitutes a discriminator that associates each pixel of the distance image with a part label based on, for example, a feature amount around a position of the distance image data.
  • FIG. 8 is a diagram illustrating an example of the data structure of the discriminator data.
  • the identifier data 130f a plurality of branch nodes f 1-1, f 2-1 ⁇ f 2 -n, and f 3-1 ⁇ f 3-n, the leaf node R 1 ⁇ R n .
  • the branch nodes f 1-1 , f 2-1 to f 2-n , and f 3-1 to f 3-n are collectively referred to as a branch node f.
  • Leaf nodes R 1 to R n are collectively expressed as leaf node R.
  • the branch node f is a node that designates one of branch destinations among the branch nodes f under the control based on the feature amount around the position where the distance image data exists.
  • the branch node f is the branch nodes f 3-1 to f 3-n , among the subordinate leaf nodes R according to the feature amount at a certain position of the distance image data and the feature amount around the certain position. , Indicate one of the branch destinations.
  • the leaf node R is a node that stores data indicating a human body part or an object part.
  • the control unit 140 includes an acquisition unit 140a, a generation unit 140b, a learning unit 140c, and a notification unit 140d.
  • the control unit 140 can be realized by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like.
  • the control unit 140 can also be realized by hard wired logic such as ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).
  • the acquisition unit 140a is a processing unit that acquires the motion capture data 130a from the motion capture device 10.
  • the acquisition unit 140a stores the acquired motion capture data 130a in the storage unit 130.
  • the generation unit 140b is a processing unit that generates the learning image table 130e.
  • the generation unit 140b executes processing for generating the human body model data 130b, processing for generating the composite model table 130d, and processing for generating the learning image table 130e.
  • the generation unit 140b may newly generate the object model data 130c, or may use existing object model data as the object model data 130c.
  • the generation unit 140b acquires information on the joint position of the person from a series of movements of the joint position of the person included in the motion capture data 130a, and generates the skeleton information of the person by connecting the joint positions with a skeleton. .
  • the generation unit 140b generates a human body model corresponding to the skeleton information by combining parts of the human body model prepared in advance with the skeleton information. That is, the process performed by the generation unit 140b corresponds to the process of combining the motion capture data 130a and the human body model.
  • the generation unit 140b acquires a human body model from the human body model data 130b with respect to the series of motion capture data 130a, and combines the acquired human body model with the object model of the object model data 130c to obtain the combined model data. Generate.
  • the generation unit 140b generates a plurality of combined model data by repeating a process of combining a human body model corresponding to another frame and an object model.
  • the generation unit 140b registers the synthesized model data in the synthesized model table 130d in association with the synthesized model number.
  • the generation unit 140b may perform a process of removing redundancy when similar composite model data is included among a plurality of composite model data registered in the composite model table 130d. For example, the generation unit 140b determines that the combined model data in which the total value of the joint position differences in the combined model data is less than the threshold is similar combined model data. The generation unit 140b performs a process of leaving one composite model data out of similar composite model data and deleting other composite model data.
  • the generation unit 140b refers to the synthesis model table 130d and acquires the synthesis model data having a certain synthesis model number.
  • the generation unit 140b generates part label image data and distance image data based on the acquired combined model data.
  • the generation unit 140b registers the part label image data and the distance image data in the learning image table 130e in association with the learning image number.
  • the generation unit 140b previously arranges a part label for identifying a part of the human body in the synthesized model data.
  • the generation unit 140b sets a virtual reference position in three dimensions, and generates distance image data when the synthesized model data is viewed from this reference position.
  • the generation unit 140b generates part label image data by classifying the region of the composite model data when the composite model data is viewed from the reference position into a plurality of part labels.
  • the part label image data and the distance image data generated from a certain composite model data correspond to the part label image data 131A and the distance image data 131B described with reference to FIG.
  • the generating unit 140b generates the part label image data and the distance image data by repeatedly executing the above processing for the other combined model data stored in the combined model table 130d, and stores it in the learning image table 130e.
  • the learning unit 140c is a processing unit that repeatedly executes machine learning based on a set of a plurality of part label image data and distance image data included in the learning image table 130e to generate discriminator data 130f.
  • the learning unit 140c specifies a feature amount around a position (x1, y1) in the distance image data and a part label corresponding to the certain position (x1, y1).
  • the feature amount around a certain position (x1, y1) may be unevenness in the distance image data around the position (x1, y1) on the distance image data, or other feature amount. There may be.
  • a part label corresponding to a certain position (x1, y1) corresponds to a part label assigned to a certain position (x1, y1) in the part label image data.
  • the learning unit 140c specifies the pattern of the feature quantity around a certain position (xn, yn) of the distance image data and the part label corresponding to the certain position (xn, yn) for each different position.
  • the learning unit 140c generates machine classifier data 130f by repeatedly machine-learning patterns at different positions.
  • the notification unit 140d is a processing unit that transmits the discriminator data 130f generated by the learning unit 140c to the recognition device 200.
  • FIG. 9 is a diagram illustrating an example of the configuration of the recognition apparatus. As shown in FIG. 9, the recognition device 200 is connected to the distance sensor 20.
  • the recognition apparatus 200 includes an input unit 210, a display unit 220, a storage unit 230, and a control unit 240.
  • the distance sensor 20 measures a distance image of the target person and a predetermined object (such as a horse), and outputs the measured distance image data to the recognition device 200 during posture recognition processing.
  • a predetermined object such as a horse
  • the distance image data acquired from the distance sensor 20 is referred to as recognition distance image data 230a.
  • description will be made assuming that a predetermined object is a horse.
  • the input unit 210 is an input device for inputting various information to the recognition device 200.
  • the input unit 210 corresponds to a keyboard, a mouse, a touch panel, or the like.
  • the display unit 220 is a display device that displays information output from the control unit 240.
  • the display unit 220 corresponds to a liquid crystal display, a touch panel, or the like.
  • the storage unit 230 includes recognition distance image data 230a, background distance image data 230b, and classifier data 130f.
  • the storage unit 130 corresponds to a semiconductor memory element such as a RAM, a ROM, and a flash memory, and a storage device such as an HDD.
  • the recognition distance image data 230a is distance image data measured by the distance sensor 20 at the time of recognition.
  • the recognition distance image data 230a is data indicating the distance from the distance sensor 20 to the subject and the object for each position (pixel).
  • the background distance image data 230b is distance image data of only the background photographed by the distance sensor 20 in a state where the target person and the predetermined object do not exist.
  • the acquisition unit 240 a acquires the background distance image data 230 b from the distance sensor 20 and stores it in the storage unit 230 in advance.
  • the discriminator data 130f is discriminator data generated by the learning device 100.
  • the data structure of the discriminator data 130f corresponds to the data structure described with reference to FIG.
  • the control unit 240 includes an acquisition unit 240a, a removal unit 240b, a determination unit 240c, and a recognition unit 240d.
  • the control unit 240 can be realized by a CPU, MPU, or the like.
  • the control unit 240 can also be realized by a hard wired logic such as ASIC or FPGA.
  • the acquisition unit 240 a acquires the recognition distance image data 230 a from the distance sensor 20 and stores it in the storage unit 230.
  • the acquisition unit 240a acquires the discriminator data 130f from the learning device 100, and stores the acquired discriminator data 130f in the storage unit 230.
  • the removal unit 240b is a processing unit that removes background information from the recognition distance image data 230a by taking a difference between the recognition distance image data 230a and the background distance image data 230b.
  • the removal unit 240b outputs the distance image data from which the background information is removed from the recognition distance image data 230a to the determination unit 240c.
  • the distance image data obtained by removing background information from the recognized distance image data 230a is simply referred to as “distance image data”.
  • the determination unit 240c is a processing unit that determines a corresponding part label for each position (pixel) of the distance image data based on the distance image data acquired from the removal unit 240b and the discriminator data 130f. For example, the determination unit 240c compares the feature amount around the distance image data with each branch node f of the discriminator data 130f, traces each branch node f, and the part indicated by the leaf node R that is followed The label is used as a part label of the determination result. The determination part 240c determines the part label corresponding to all distance image data by repeatedly performing the said process also about another pixel.
  • the part label corresponding to each position includes a part label that uniquely identifies a part of the human body and a part label that indicates an object (horse).
  • the determination unit 240c outputs a determination result in which each position of the distance image data is associated with the part label to the recognition unit 240d.
  • the recognition unit 240d is a processing unit that recognizes the posture of the target person based on the determination result of the determination unit 240c. For example, the recognition unit 240d removes the part label of the object and proposes a plurality of human skeleton models having a plurality of three-dimensional positions based on the part label of the human body. The recognition unit 240d selects a skeleton model with the highest likelihood from a plurality of skeleton models, and recognizes the posture of the person based on the selected skeleton model.
  • FIG. 10 is a flowchart illustrating the processing procedure of the learning device according to the present embodiment.
  • the acquisition unit 140a of the learning device 100 acquires motion capture data 130a from the motion capture device 10 (step S101).
  • the generation unit 140b of the learning device 100 generates the human body model data 130b (step S102a).
  • the generation unit 140b generates object model data 130c (step S102b).
  • the generation unit 140b may use previously generated object model data as the object model data 130c.
  • the generation unit 140b generates composite model data obtained by combining a plurality of human body models and object models according to movement (step S103).
  • the generation unit 140b removes redundancy from the combined model table 130d (step S104).
  • the generation unit 140b registers the part label image data and the distance image data in the learning image table 130e based on the synthesized model data (step S105).
  • the learning unit 140c of the learning device 100 refers to the learning image table 130e, performs machine learning on the relationship between the feature of the distance image data and the part label, and generates discriminator data 130f (step S106).
  • the notification unit 140d of the learning device 100 notifies the recognition device 100 of the classifier data 130f (step S107).
  • FIG. 11 is a flowchart showing the processing procedure of the recognition apparatus according to the present embodiment. As illustrated in FIG. 11, the acquisition unit 240a of the recognition device 200 acquires recognition distance image data 230a from the distance sensor 20 (step S201).
  • the removal unit 240b of the recognition device 200 removes the background from the recognition distance image data 230a (step S202). Based on the identification data 130f and the distance image data, the determination unit 240c of the recognition device 200 determines each part label of the human body and the part label of the object included in the distance image data (step S203).
  • the recognition unit 240d of the recognition device 200 removes the part label of the object (step S204).
  • the recognition unit 240d recognizes the posture of the target person based on each part label of the human body (step S205).
  • the generation unit 140b of the learning device 100 generates a plurality of learning images in which the distance image data and the part label image are associated with each other based on the combined model data obtained by combining the human body model data 130b and the object model data 130c.
  • the learning device 100 machine-learns a plurality of learning images to generate discriminator data 130f in which the features of the distance image data are associated with the human body part label or the object part label.
  • the classifier data 130f is a classifier that associates the characteristics of the distance image data with the part label of the human body or the part label of the object, even when the human body and the object exist at the same time when the distance image is acquired, Can be classified into a human body part label and an object part label from the distance image data.
  • the recognizing device 200 uses the distance image data obtained by removing the background from the recognized distance image data 230 acquired from the distance sensor 20 and the discriminator data 130f to determine the part labels of the subject and the object. For this reason, even when the human body and the object are included in the distance image data, the distance image data can be classified into a human body part label and an object part label. That is, even if occlusion due to an object exists, correct site recognition can be performed.
  • the recognition apparatus 200 Since the recognition apparatus 200 identifies the posture of the target person after removing the part label of the object from the part label of the target person and the part label of the object, the recognition apparatus 200 can accurately recognize the posture of the target person.
  • the content of the above-described embodiment is an example, and the processing of the learning device 100 and the recognition device 200 is not limited to the above processing.
  • the other processes 1 to 3 will be described.
  • the learning device 130 uses the object model of the horse that exists at a fixed position as the object model data 130c, but is not limited thereto.
  • an object that moves with a specific relationship with a human part may be used as the object model.
  • the generation unit 140b generates a three-dimensional model of a suspension ring in the same manner as the horse.
  • the generation unit 140b moves the suspension ring to the hand part of the human body model in units of frames, and based on the direction of the hand (upward, downward, sideways, etc.) Place a hanging ring on the
  • the generation unit 140b repeatedly executes the above process for each frame, thereby generating a plurality of combined model data and storing it in the combined model table 130d.
  • Other processing is the same as the processing described in the embodiment.
  • the learning device 100 generates the discriminator data 130f
  • the recognition device 200 recognizes the posture of the subject using the discriminator data 130f.
  • the present invention is not limited to this.
  • the distance image processing device that performs the processing of the learning device 100 and the recognition device 200 may execute processing corresponding to the above-described embodiment.
  • the distance image processing apparatus generates the discriminator data 130f by executing the same processing as the control unit 140 of FIG. 2 in the “learning phase”.
  • the distance image processing apparatus executes processing similar to that of the control unit 240 shown in FIG. 9 using the discriminator data 130f learned in the learning phase, and recognizes the posture of the target person. To do.
  • FIG. 8 the method of part label recognition using a binary tree is described. However, there may be a plurality of binary trees, and an object is included from a distance image by deep learning without using a binary tree. Recognized site label may be performed.
  • FIG. 12 is a diagram illustrating an example of a hardware configuration of a computer that implements the same function as the learning device.
  • the computer 300 includes a CPU 301 that executes various arithmetic processes, an input device 302 that receives data input from a user, and a display 303.
  • the computer 300 also includes a reading device 304 that reads a program or the like from a storage medium, and an interface device 305 that exchanges data with another computer (such as the motion capture device 10) via a wired or wireless network.
  • the computer 300 also includes a RAM 306 that temporarily stores various types of information and a hard disk device 307.
  • the devices 301 to 307 are connected to the bus 308.
  • the hard disk device 307 has an acquisition program 307a, a generation program 307b, a learning program 307c, and a notification program 307d.
  • the CPU 301 reads the acquisition program 307 a, the generation program 307 b, the learning program 307 c, and the notification program 307 d and expands them in the RAM 306.
  • the acquisition program 307a functions as the acquisition process 306a.
  • the generation program 307b functions as a generation process 306b.
  • the learning program 307c functions as a learning process 306c.
  • the notification program 307d functions as a notification process 306d.
  • the processing of the acquisition process 306a corresponds to the processing of the acquisition unit 140a.
  • the process of the generation process 306b corresponds to the process of the generation unit 140b.
  • the process of the learning process 306c corresponds to the process of the learning unit 140c.
  • the process of the notification unit process 306d corresponds to the process of the notification unit 140d.
  • each program is stored in a “portable physical medium” such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, and an IC card inserted into the computer 300. Then, the computer 300 may read and execute each of the programs 307a to 307d.
  • a “portable physical medium” such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, and an IC card inserted into the computer 300.
  • the computer 300 may read and execute each of the programs 307a to 307d.
  • FIG. 13 is a diagram illustrating an example of a hardware configuration of a computer that realizes the same function as the recognition device.
  • the computer 400 includes a CPU 401 that executes various arithmetic processes, an input device 402 that receives input of data from a user, and a display 403.
  • the computer 400 also includes a reading device 404 that reads a program or the like from a storage medium, and an interface device 405 that exchanges data with another computer (such as the motion capture device 10) via a wired or wireless network.
  • the computer 400 also includes a RAM 406 that temporarily stores various types of information and a hard disk device 407.
  • the devices 401 to 407 are connected to the bus 408.
  • the hard disk device 407 has an acquisition program 407a, a removal program 407b, a determination program 407c, and a recognition program 407d.
  • the CPU 401 reads out the acquisition program 407 a, the removal program 407 b, the determination program 407 c, and the recognition program 407 d and develops them in the RAM 406.
  • the acquisition program 407a functions as the acquisition process 406a.
  • the removal program 407b functions as a removal process 406b.
  • the determination program 407c functions as a determination process 406c.
  • the recognition program 407d functions as a recognition process 406d.
  • the processing of the acquisition process 406a corresponds to the processing of the acquisition unit 240a.
  • the process of the removal process 406b corresponds to the process of the removal unit 240b.
  • the process of the determination process 406c corresponds to the process of the determination unit 240c.
  • the processing of the recognition unit process 406d corresponds to the processing of the recognition unit 240d.
  • each program is stored in a “portable physical medium” such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, or an IC card inserted into the computer 400. Then, the computer 400 may read and execute each of the programs 407a to 407d.
  • a “portable physical medium” such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, or an IC card inserted into the computer 400.
  • the computer 400 may read and execute each of the programs 407a to 407d.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

学習装置(100)は、人体の3次元モデルと物体の3次元モデルとを合成した合成モデルを基にして、基準位置から人体の各位置または物体の各位置までの距離を示す距離画像と、人体の各部位または物体の部位を識別する部位画像とを対応づけた学習画像を複数生成する。学習装置(100)は、複数の学習画像を基にして、距離画像の特徴と、人体の部位または物体の部位とを対応づけた識別器を学習する。

Description

距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
 本発明は、距離画像処理装置等に関する。
 図14は、姿勢認識を行う従来システムを説明するための図である。図14に示すように、従来システムは、距離センサ6を用いて、対象者5aの距離画像7を取得する。従来システムは、距離画像7を基にして、関節位置推定を行うことで、対象者5aの骨格位置5bを特定し、対象者5aの姿勢を推定する。
 図15は、従来システムの応用例を説明するための図である。図15に示す例では、距離センサ6を用いて、対象者5aの距離画像を取得して、対象者5aの姿勢を認識し、ゲーム上でのアバター5cに、対象者5aと同じ姿勢を取らせている。
 図16は、姿勢認識の従来技術の一例を説明するための図である。従来技術は、人体を含む1つ以上の距離画像を取得する(ステップS10)。たとえば、距離画像1には、特定する人体に関する前景ピクセル1aと、それ以外の背景ピクセル1bとが含まれる。
 従来技術は、距離画像1から背景ピクセル1bを分離することで、前景ピクセルのみを含む距離画像1cを得る(ステップS11)。従来技術は、人物の部位を識別する「識別器」に、距離画像1cを入力することで、距離画像1cの人体の領域を複数の部位ラベルbp1~bp14に分ける(ステップS12)。
 従来技術は、人体の各部位ラベルbp1~bp14に基づいて、3次元の骨格位置を複数持った人体の骨格モデルを複数提案する(ステップS13)。従来技術は、複数の骨格モデルの中から最も尤度の高い骨格モデルを選択し、選択した骨格モデルに基づき、人物の姿勢を認識する(ステップS14)。
 ここで、図16等の従来技術で用いられる識別器は、図17に示すような処理を実行することで学習される。図17は、従来の識別器を学習する処理手順を示すフローチャートである。図17に示すように、従来技術は、モーションキャプチャデータを取得する(ステップS20)。従来技術は、モーションキャプチャデータを基にして、人体モデルリターゲティングを行うことで、様々な姿勢の人体モデルを複数生成する(ステップS21)。
 従来技術は、各人体モデルから似通った人体モデル姿勢を除去し、ユニークな人体モデル姿勢のみを残すことで、冗長性を除去する(ステップS22)。従来技術は、ユニークな人体モデル姿勢を基にして、想定された距離センサの位置を基準とした部位ラベル画像および距離画像をそれぞれ生成する(ステップS23)。従来技術は、部位ラベル画像と距離画像との組を基にして、距離画像の各位置の特徴(および周辺位置の特徴)と部位ラベルとの対応関係を繰り返し学習することで、識別器を生成する(ステップS24)。
特開2016-212688号公報 特開2015-167008号公報 特開2012-120647号公報 特開2016-091108号公報 米国特許出願公開第2015/0036879号明細書 米国特許出願公開第2016/0125243号明細書
 しかしながら、上述した従来技術では、人体の部位を適切に判定することができないという問題がある。
 たとえば、図14で説明した従来システムで人体の姿勢認識を行う場合には、物体によるオクルージョンが発生する。物体によるオクルージョンは、認識対象となる人体の一部が、他の物体により見えなくなる状態のことである。
 図18は、物体によるオクルージョンの一例を示す図である。図18に示す例では、鞍馬演技において、鞍馬8bの後方に対象者8aの体の一部が隠れた状態で存在している。図18に示すような状態で、図16で説明した従来技術を適用し、対象者8aの姿勢認識を行うと、正常な部位ラベルが割り当てられず、正確な姿勢認識を行うことができない。
 図19および図20は、従来技術の問題点を説明するための図である。たとえば、従来技術は、対象者8aおよび鞍馬8bを含む距離画像を取得し、距離画像から背景を除去し、部位ラベルを割り当てると、図19に示す部位ラベル認識結果9Aとなる。従来技術では、対象者8aおよび鞍馬8bを含む領域8cを、対象者8aの領域とし、鞍馬8bを人体の一部として、部位ラベルを割り当ててしまう。
 一方、予め、対象者8aが存在しない状態で、固定された鞍馬8bのみの距離画像を撮影しておき、実際に対象者8aが鞍馬8b上で運動をしている際に撮影された距離画像から、鞍馬8bのみの距離画像を取り除くことは可能である。このように鞍馬8bのみの距離画像を取り除くと、鞍馬8bの裏側に隠れている足の部分の距離画像を検出することができないので、鞍馬8bによって分断された距離画像しか得ることができない。
 たとえば、鞍馬8bの距離画像を取り除いた距離画像について、部位ラベルを割り当てると、図20に示す部位ラベル認識結果9Bとなる。人体の領域が分断されると、分断された各領域B、Bがそれぞれ一つの対象者の領域として認識され、部位ラベルが割り当てられてしまう。たとえば、領域Bについて、部分bに足の部位ラベルが割り当てられ、領域Bについて、人体の足以外(たとえば、手)の部位ラベルが割り当てられる場合がある。
 上記のように、部位ラベルを適切に判定することができないと、部位ラベルの判定結果を基にした姿勢認識の精度が低下する。
 1つの側面では、本発明は、人体の部位を適切に判定することができる距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラムを提供することを目的とする。
 第1の案では、距離画像処理装置は、生成部と、学習部とを有する。生成部は、人体の3次元モデルと物体の3次元モデルとを合成した合成モデルを基にして、基準位置から人体の各位置または物体の各位置までの距離を示す距離画像と、人体の各部位または物体の部位を識別する部位画像とを対応づけた学習画像を複数生成する。学習部は、複数の学習画像を基にして、距離画像の特徴と、人体の部位または物体の部位とを対応づけた識別器を学習する。
 本発明は、人体の部位を適切に判定することができる。
図1は、本実施例に係る距離画像処理システムの一例を示す図である。 図2は、学習装置の構成の一例を示す図である。 図3は、キャプチャカメラを説明するための図である。 図4は、物体モデルデータの一例を示す図である。 図5は、合成モデルテーブルのデータ構造の一例を示す図である。 図6は、学習画像テーブルのデータ構造の一例を示す図である。 図7は、部位ラベル画像と距離画像との関係を説明するための図である。 図8は、識別器データのデータ構造の一例を示す図である。 図9は、認識装置の構成の一例を示す図である。 図10は、本実施例に係る学習装置の処理手順を示すフローチャートである。 図11は、本実施例に係る認識装置の処理手順を示すフローチャートである。 図12は、学習装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図13は、認識装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図14は、姿勢認識を行う従来システムを説明するための図である。 図15は、従来システムの応用例を説明するための図である。 図16は、姿勢認識の従来技術の一例を説明するための図である。 図17は、従来の識別器を学習する処理手順を示すフローチャートである。 図18は、物体によるオクルージョンの一例を示す図である。 図19は、従来技術の問題点を説明するための図(1)である。 図20は、従来技術の問題点を説明するための図(2)である。
 以下に、本発明にかかる距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
 図1は、本実施例に係る距離画像処理システムの一例を示す図である。図1に示すように、この距離画像処理システムは、学習装置100と、認識装置200とを含む。学習装置100は、モーションキャプチャ装置10に接続される。認識装置200は、距離センサ20に接続される。また、学習装置100と認識装置200は、相互に接続される。
 学習装置100は、認識装置200が対象者の姿勢を認識する場合に用いる識別器データを学習する装置である。認識装置200は、学習装置100が学習した識別器データを用いて、対象者の姿勢を認識する装置である。学習装置100および認識装置200は、距離画像処理装置の一例である。
 図2は、学習装置の構成の一例を示す図である。図2に示すように、この学習装置100は、モーションキャプチャ装置10に接続される。学習装置100は、入力部110と、表示部120と、記憶部130と、制御部140とを有する。
 モーションキャプチャ装置10は、複数のキャプチャカメラ10aに接続される。図3は、キャプチャカメラを説明するための図である。図3に示すように、キャプチャカメラ10aは、対象者11の周りに配置される。対象者11の各関節位置には、マーカ12がそれぞれ取り付けられている。
 たとえば、モーションキャプチャ装置10は、対象者11のマーカ12の動きを、各カメラ10aを用いて記録し、各マーカ12から3次元の関節位置を求める。モーションキャプチャ装置10は、各マーカ12の位置座標から求められる3次元の関節位置を順次記録していくことで、モーションキャプチャデータを生成する。モーションキャプチャ装置10は、モーションキャプチャデータを、学習装置100に出力する。
 図2の説明に戻る。入力部110は、学習装置100に各種の情報を入力するための入力装置である。たとえば、入力部110は、キーボードやマウス、タッチパネルなどに対応する。
 表示部120は、制御部140から出力される情報を表示する表示装置である。たとえば、表示部120は、液晶ディスプレイやタッチパネルなどに対応する。
 記憶部130は、モーションキャプチャデータ130a、人体モデルデータ130bと、物体モデルデータ130cと、合成モデルテーブル130dと、学習画像テーブル130eと、識別器データ130fとを有する。記憶部130は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
 モーションキャプチャデータ130aは、モーションキャプチャ装置10により生成される、人物の3次元の関節位置の動きを記録するデータである。たとえば、モーションキャプチャデータ130aは、フレーム毎の関節位置の情報を有する。
 人体モデルデータ130bは、人体の3次元モデルのデータである。人体モデルデータ130bは、モーションキャプチャ130aの人物の各関節位置に基づく骨格に、3次元の人体モデルを結合することで生成される情報である。
 物体モデルデータ130cは、人物とは異なる物体の3次元モデルである。図4は、物体モデルデータの一例を示す図である。ここでは一例として、物体を鞍馬としているが、体操で言えば、つり輪の輪や、鉄棒、平行棒、跳馬なども相当し、これらに限定されるものではない。
 合成モデルテーブル130dは、人体モデルデータ130bと、物体モデルデータ130cとを合成した合成モデルデータを複数有するテーブルである。図5は、合成モデルテーブルのデータ構造の一例を示す図である。図5に示すように、この合成モデルテーブル130dは、合成モデル番号と、合成モデルデータとを対応づける。合成モデル番号は、合成モデルデータを識別する番号である。合成モデルデータは、一連の動きの中であるタイミング(フレーム)の人体モデルデータ130bと、物体モデルデータ130cとを合成した結果得られるデータである。
 学習画像テーブル130eは、識別器データ130fを生成するための学習画像データを複数有するテーブルである。図6は、学習画像テーブルのデータ構造の一例を示す図である。図6に示すように、この学習画像テーブル130eは、学習画像番号と、部位ラベル画像データと、距離画像データとを対応づける。学習画像番号は、学習画像となる部位ラベル画像データと、距離画像データとの組を一意に識別する番号である。部位ラベル画像データは、合成モデルデータ(人体+物体)の各部位および物体をユニークな部位ラベルで示す情報である。距離画像データは、合成モデルデータ(人体+物体)から生成される距離画像である。対応する部位ラベル画像データと、距離画像データとは、同一の合成モデルデータから生成される。
 図7は、部位ラベル画像と距離画像との関係を説明するための図である。図7は、ある学習画像番号に対応する部位ラベル画像データ131Aと距離画像データ131Bとの組を示す。距離画像データ131Bとは、たとえば、カメラなどの基準位置から、合成モデルデータの各位置までの距離をピクセル毎に示す距離画像データである。部位ラベル画像データ131Aは、距離画像131Bに含まれる人物の各部位および物体をユニークな部位ラベルで示す情報である。たとえば、所定の分割ポリシーに基づいて、人物の領域は複数の部位に分割され、各部位に対応する領域に固有の部位ラベルを割り当てられる。また、物体については、物体に対応する領域に人物の部位とは異なる部位ラベルが割り当てられる。
 識別器データ130fは、たとえば、距離画像データのある位置の周辺の特徴量を元に、距離画像の各ピクセルを部位ラベルに対応づける識別器を構成する。距離画像データのある位置の部位ラベルを特定する場合には、距離画像データのある位置の周辺の特徴量を、識別器に入力することで、ある位置の部位ラベルが出力される。
 図8は、識別器データのデータ構造の一例を示す図である。図8に示すように、この識別器データ130fは、複数の分岐ノードf1-1、f2-1~f2-n、f3-1~f3-nと、リーフノードR~Rを有する。以下の説明では、分岐ノードf1-1、f2-1~f2-n、f3-1~f3-nをまとめて、分岐ノードfと表記する。リーフノードR~Rをまとめて、リーフノードRと表記する。
 分岐ノードfは、距離画像データのある位置の周辺の特徴量とにより、配下の分岐ノードfのうち、いずれかの分岐先を指示するノードである。分岐ノードfが、分岐ノードf3-1~f3-nである場合には、距離画像データのある位置の特徴量と、ある位置の周辺の特徴量とにより、配下のリーフノードRのうち、いずれかの分岐先を指示する。
 リーフノードRは、人体の部位または物体の部位を示すデータを格納するノードである。
 図2の説明に戻る。制御部140は、取得部140aと、生成部140bと、学習部140cと、通知部140dとを有する。制御部140は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部140は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
 取得部140aは、モーションキャプチャ装置10からモーションキャプチャデータ130aを取得する処理部である。取得部140aは、取得したモーションキャプチャデータ130aを、記憶部130に格納する。
 生成部140bは、学習画像テーブル130eを生成する処理部である。たとえば、生成部140bは、人体モデルデータ130bを生成する処理、合成モデルテーブル130dを生成する処理、学習画像テーブル130eを生成する処理を実行する。なお、生成部140bは、物体モデルデータ130cを新たに生成しても良いし、既存の物体モデルデータを、物体モデルデータ130cとして用いても良い。
 生成部140bが、人体モデルデータ130bを生成する処理について説明する。生成部140bは、モーションキャプチャデータ130aに含まれる人物の関節位置の一連の動きから、人物の関節位置の情報を取得し、各関節位置をスケルトンで接続することで、人物の骨格情報を生成する。生成部140bは、骨格情報に、予め準備した人体モデルの部品を組み合わせていくことで、骨格情報に対応する人体モデルを生成する。つまり、生成部140bが行う処理は、モーションキャプチャデータ130aと人体モデルとを結合する処理に対応する。
 生成部140bが、合成モデルテーブル130dを生成する処理について説明する。生成部140bは、一連のモーションキャプチャデータ130aに対し、人体モデルを、人体モデルデータ130bから取得し、取得した人体モデルと、物体モデルデータ130cの物体モデルとを合成することで、合成モデルデータを生成する。生成部140bは、他のフレームに対応する人体モデルと、物体モデルとを合成する処理を繰り返すことで、複数の合成モデルデータを生成する。生成部140bは、合成モデル番号を対応づけて、合成モデルデータを、合成モデルテーブル130dに登録する。
 なお、生成部140bは、合成モデルテーブル130dに登録された複数の合成モデルデータのうち、類似する合成モデルデータが含まれる場合には、冗長性を除去する処理を行っても良い。たとえば、生成部140bは、合成モデルデータの各関節位置の差の合計値が閾値未満である合成モデルデータを、類似する合成モデルデータであると判定する。生成部140bは、類似する合成モデルデータのうち、一つの合成モデルデータを残して、他の合成モデルデータを削除する処理を行う。
 生成部140bが、学習画像テーブル130eを生成する処理について説明する。生成部140bは、合成モデルテーブル130dを参照し、ある合成モデル番号の合成モデルデータを取得する。生成部140bは、取得した合成モデルデータに基づいて、部位ラベル画像データおよび距離画像データを生成する。生成部140bは、学習画像番号に対応づけて、部位ラベル画像データおよび距離画像データを、学習画像テーブル130eに登録する。
 たとえば、生成部140bは、予め、合成モデルデータに人体の部位を識別する部位ラベルを配置する。生成部140bは、3次元上に仮想の基準位置を設定し、この基準位置から合成モデルデータをみた場合における距離画像データを生成する。また、生成部140bは、基準位置から合成モデルデータをみた場合の合成モデルデータの領域を複数の部位ラベルに分類することで、部位ラベル画像データを生成する。たとえば、ある同一の合成モデルデータから生成される部位ラベル画像データおよび距離画像データは、図7で説明した部位ラベル画像データ131A、距離画像データ131Bに対応する。
 生成部140bは、合成モデルテーブル130dに格納された他の合成モデルデータについても、上記処理を繰り返し実行することで、部位ラベル画像データおよび距離画像データを生成し、学習画像テーブル130eに格納する。
 学習部140cは、学習画像テーブル130eに含まれる複数の部位ラベル画像データおよび距離画像データの組を基にして、繰り返し機械学習を実行し、識別器データ130fを生成する処理部である。学習部140cは、距離画像データのある位置(x1、y1)の周辺の特徴量と、ある位置(x1、y1)に対応する部位ラベルを特定する。たとえば、ある位置(x1、y1)周辺の特徴量は、距離画像データ上のある位置(x1、y1)を基準とした周辺の距離画像データの凹凸であっても良いし、その他の特徴量であっても良い。ある位置(x1、y1)に対応する部位ラベルは、部品ラベル画像データのある位置(x1、y1)に割り当てられた部位ラベルに対応する。
 同様に、学習部140cは、距離画像データのある位置(xn、yn)周辺の特徴量と、ある位置(xn、yn)に対応する部位ラベルとのパターンを、異なる位置毎に特定する。学習部140cは、異なる位置の各パターンを、繰り返し機械学習することで、識別器データ130fを生成する。
 通知部140dは、学習部140cにより生成された識別器データ130fを、認識装置200に送信する処理部である。
 続いて、認識装置200の説明に移行する。図9は、認識装置の構成の一例を示す図である。図9に示すように、この認識装置200は、距離センサ20に接続される。認識装置200は、入力部210と、表示部220と、記憶部230と、制御部240とを有する。
 距離センサ20は、姿勢の認識処理時に、対象者および所定の物体(鞍馬など、図示略)の距離画像を測定し、測定した距離画像のデータを、認識装置200に出力する。以下の説明では、距離センサ20から取得する距離画像のデータを、認識距離画像データ230aと表記する。本実施例では、所定の物体を鞍馬として説明を行う。
 入力部210は、認識装置200に各種の情報を入力するための入力装置である。たとえば、入力部210は、キーボードやマウス、タッチパネルなどに対応する。
 表示部220は、制御部240から出力される情報を表示する表示装置である。たとえば、表示部220は、液晶ディスプレイやタッチパネルなどに対応する。
 記憶部230は、認識距離画像データ230aと、背景距離画像データ230bと、識別器データ130fとを有する。記憶部130は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
 認識距離画像データ230aは、認識時において、距離センサ20により測定された距離画像データである。認識距離画像データ230aは、位置(ピクセル)毎に、距離センサ20から対象者および物体までの距離を示すデータである。
 背景距離画像データ230bは、対象者および所定の物体が存在しない状態で、距離センサ20により撮影された背景のみの距離画像データである。取得部240aは、予め、距離センサ20から、背景距離画像データ230bを取得し、記憶部230に格納しておく。
 識別器データ130fは、学習装置100により生成される識別器データである。識別器データ130fのデータ構造は、図8で説明したデータ構造に対応する。
 制御部240は、取得部240a、除去部240b、判定部240c、認識部240dを有する。制御部240は、CPUやMPUなどによって実現できる。また、制御部240は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
 取得部240aは、距離センサ20から、認識距離画像データ230aを取得し、記憶部230に格納する。取得部240aは、学習装置100から、識別器データ130fを取得し、取得した識別器データ130fを、記憶部230に格納する。
 除去部240bは、認識距離画像データ230aと背景距離画像データ230bとの差分を取ることで、認識距離画像データ230aから、背景の情報を除去する処理部である。除去部240bは、認識距離画像データ230aから、背景の情報を除去した距離画像データを、判定部240cに出力する。以下の説明では、認識距離画像データ230aから、背景の情報を除去した距離画像データを、単に「距離画像データ」と表記する。
 判定部240cは、除去部240bから取得した距離画像データと、識別器データ130fとを基にして、距離画像データの位置(ピクセル)毎に、対応する部位ラベルを判定する処理部である。たとえば、判定部240cは、距離画像データの周辺の特徴量と、識別器データ130fの各分岐ノードfとを比較して、各分岐ノードfを辿り、辿った先のリーフノードRに示される部位ラベルを、判定結果の部位ラベルとする。判定部240cは、他のピクセルについても、上記処理を繰り返し実行することで、全距離画像データに対応する部位ラベルを判定する。各位置に対応する部位ラベルには、人体の部位を一意に識別する部位ラベルと、物体(鞍馬)であることを示す部位ラベルとが含まれる。
 判定部240cは、距離画像データの各位置と、部位ラベルとを対応づけた判定結果を、認識部240dに出力する。
 認識部240dは、判定部240cの判定結果を基にして、対象者の姿勢を認識する処理部である。たとえば、認識部240dは、物体の部位ラベルを取り除き、人体の部位ラベルを基にして、3次元位置を複数持った人体の骨格モデルを複数提案する。認識部240dは、複数の骨格モデルの中から最も尤度の高い骨格モデルを選択し、選択した骨格モデルに基づき、人物の姿勢を認識する。
 次に、本実施例に係る学習装置の処理手順および認識装置200の処理手順について一例を示して、説明する。図10は、本実施例に係る学習装置の処理手順を示すフローチャートである。図10に示すように、学習装置100の取得部140aは、モーションキャプチャ装置10からモーションキャプチャデータ130aを取得する(ステップS101)。
 学習装置100の生成部140bは、人体モデルデータ130bを生成する(ステップS102a)。生成部140bは、物体モデルデータ130cを生成する(ステップS102b)。なお、生成部140bは、予め生成された物体モデルデータを、物体モデルデータ130cとして用いても良い。
 生成部140bは、動きに応じた複数の人体モデルと物体モデルとを合成した合成モデルデータを生成する(ステップS103)。生成部140bは、合成モデルテーブル130dから冗長性を除去する(ステップS104)。
 生成部140bは、合成モデルデータを基にして、学習画像テーブル130eに、部位ラベル画像データおよび距離画像データを登録する(ステップS105)。
 学習装置100の学習部140cは、学習画像テーブル130eを参照し、距離画像データの特徴と部位ラベルとの関係を機械学習し、識別器データ130fを生成する(ステップS106)。学習装置100の通知部140dは、識別器データ130fを、認識装置100に通知する(ステップS107)。
 図11は、本実施例に係る認識装置の処理手順を示すフローチャートである。図11に示すように、認識装置200の取得部240aは、距離センサ20から認識距離画像データ230aを取得する(ステップS201)。
 認識装置200の除去部240bは、認識距離画像データ230aから背景を除去する(ステップS202)。認識装置200の判定部240cは、識別データ130fと距離画像データとを基にして、距離画像データに含まれる人体の各部位ラベルおよび物体の部位ラベルを判定する(ステップS203)。
 認識装置200の認識部240dは、物体の部位ラベルを除去する(ステップS204)。認識部240dは、人体の各部位ラベルを基にして、対象者の姿勢を認識する(ステップS205)。
 次に、本実施例に係る学習装置100および認識装置200の効果について説明する。学習装置100の生成部140bは、人体モデルデータ130bと物体モデルデータ130cとを合成した合成モデルデータを基にして、距離画像データと部位ラベル画像とを対応づけた学習画像を複数生成する。学習装置100は、複数の学習画像を機械学習することにより、距離画像データの特徴と、人体の部位ラベルまたは物体の部位ラベルとを対応づけた識別器データ130fを生成する。この識別器データ130fは、距離画像データの特徴と、人体の部位ラベルまたは物体の部位ラベルとを対応づけた識別器であるため、距離画像取得時に人体と物体とが同時に存在する場合でも、それぞれを区別して、距離画像データから、人体の部位ラベルおよび物体の部位ラベルに分類することができる。
 認識装置200は、距離センサ20から取得する認識距離画像データ230から背景を取り除いた距離画像データおよび識別器データ130fを用いて、対象者と物体の部位ラベルを判定する。このため、距離画像データに人体と物体とが含まれる場合でも、それぞれを区別して、距離画像データを、人体の部位ラベルおよび物体の部位ラベルに分類することができる。すなわち、物体によるオクルージョンが存在しても、正しい部位認識を行うことができる。
 認識装置200は、対象者の部位ラベルと物体の部位ラベルのうち、物体の部位ラベルを取り除いた後に、対象者の姿勢を識別するため、対象者の姿勢を精度良く認識することができる。
 ところで、上述した実施例の内容は一例であり、学習装置100および認識装置200の処理は、上記の処理に限られるものではない。以下では、その他の処理1~3について説明する。
 その他の処理1について説明する。上記の処理では、学習装置130は、物体モデルデータ130cとして、固定された位置に存在する鞍馬の物体モデルを用いたがこれに限定されない。たとえば、物体モデルとして、人の部位と特定の関係を持って移動する物体を、物体モデルとして用いても良い。たとえば、生成部140bは、鞍馬と同様にして、吊り輪の3次元モデルを生成する。生成部140bは、合成モデルデータを生成する場合に、フレーム単位で、人体モデルの手の部位に吊り輪を移動し、手の向き(上向き、下向き、横向き等)に基づいて、正確な握り位置に吊り輪を配置する。生成部140bは、フレーム毎に上記処理を繰り返し実行することで、複数の合成モデルデータを生成し、合成モデルテーブル130dに格納する。その他の処理は、実施例で説明した処理と同様である。
 その他の処理2について説明する。上記の処理では、学習装置100が識別器データ130fを生成し、認識装置200が識別器データ130fを用いて対象者の姿勢を認識していたがこれに限定されるものではない。たとえば、学習装置100および認識装置200の処理を行う距離画像処理装置が、上記実施例に対応する処理を実行しても良い。たとえば、距離画像処理装置は、「学習フェーズ」において、図2の制御部140と同様の処理を実行することで、識別器データ130fを生成する。距離画像処理装置は、「認識フェーズ」において、学習フェーズで学習しておいた識別器データ130fを用いて、図9に示した制御部240と同様の処理を実行し、対象者の姿勢を認識する。
 その他の処理3について説明する。図8では、2分木による部位ラベル認識の手法を記載したが、2分木の数が複数あっても良いし、また、2分木を用いず、ディープラーニングにより、距離画像から物体を含めた部位ラベル認識を行っても良い。
 次に、上記実施例に示した学習装置100および認識装置200と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図12は、学習装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
 図12に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して他のコンピュータ(モーションキャプチャ装置10等)との間でデータの授受を行うインターフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
 ハードディスク装置307は、取得プログラム307a、生成プログラム307b、学習プログラム307c、通知プログラム307dを有する。CPU301は、取得プログラム307a、生成プログラム307b、学習プログラム307c、通知プログラム307dを読み出してRAM306に展開する。
 取得プログラム307aは、取得プロセス306aとして機能する。生成プログラム307bは、生成プロセス306bとして機能する。学習プログラム307cは、学習プロセス306cとして機能する。通知プログラム307dは、通知プロセス306dとして機能する。
 取得プロセス306aの処理は、取得部140aの処理に対応する。生成プロセス306bの処理は、生成部140bの処理に対応する。学習プロセス306cの処理は、学習部140cの処理に対応する。通知部プロセス306dの処理は、通知部140dの処理に対応する。
 なお、各プログラム307a~307dについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307dを読み出して実行するようにしても良い。
 図13は、認識装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
 図13に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータの入力を受け付ける入力装置402と、ディスプレイ403とを有する。また、コンピュータ400は、記憶媒体からプログラム等を読み取る読み取り装置404と、有線または無線ネットワークを介して他のコンピュータ(モーションキャプチャ装置10等)との間でデータの授受を行うインターフェース装置405とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM406と、ハードディスク装置407とを有する。そして、各装置401~407は、バス408に接続される。
 ハードディスク装置407は、取得プログラム407a、除去プログラム407b、判定プログラム407c、認識プログラム407dを有する。CPU401は、取得プログラム407a、除去プログラム407b、判定プログラム407c、認識プログラム407dを読み出してRAM406に展開する。
 取得プログラム407aは、取得プロセス406aとして機能する。除去プログラム407bは、除去プロセス406bとして機能する。判定プログラム407cは、判定プロセス406cとして機能する。認識プログラム407dは、認識プロセス406dとして機能する。
 取得プロセス406aの処理は、取得部240aの処理に対応する。除去プロセス406bの処理は、除去部240bの処理に対応する。判定プロセス406cの処理は、判定部240cの処理に対応する。認識部プロセス406dの処理は、認識部240dの処理に対応する。
 なお、各プログラム407a~407dについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ400に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ400が各プログラム407a~407dを読み出して実行するようにしても良い。
 10  モーションキャプチャ装置
 20  距離センサ
 100 学習装置
 200 認識装置

Claims (10)

  1.  人体の3次元モデルと物体の3次元モデルとを合成した合成モデルを基にして、基準位置から前記人体の各位置または前記物体の各位置までの距離を示す距離画像と、前記人体の各部位または前記物体の部位を識別する部位画像とを対応づけた学習画像を複数生成する生成部と、
     複数の学習画像を基にして、前記距離画像の特徴と、前記人体の部位または前記物体の部位とを対応づけた識別器を学習する学習部と
     を有することを特徴とする距離画像処理装置。
  2.  距離センサから対象者、物体および背景を含んだ距離画像を取得する取得部と、前記対象者、物体および背景を含んだ距離画像から背景を取り除くことで対象者距離画像を生成する除去部と、前記対象者距離画像と前記識別器とを基にして、前記対象者距離画像の位置と、前記人体の部位または前記物体の部位とを関係を判定する判定部とを更に有することを特徴とする請求項1に記載の距離画像処理装置。
  3.  前記判定部の判定結果を基にして前記対象者距離画像に含まれる前記人体の各部位を特定し、前記物体の部位を除く残りの各部位の関係から前記対象者の姿勢を認識する認識部を更に有することを特徴とする請求項2に記載の距離画像処理装置。
  4.  学習装置と認識装置とを有する距離画像処理システムであって、
     前記学習装置は、
     人体の3次元モデルと物体の3次元モデルとを合成した合成モデルを基にして、基準位置から前記人体の各位置または前記物体の各位置までの距離を示す距離画像と、前記人体の各部位または前記物体の部位を識別する部位画像とを対応づけた学習画像を複数生成する生成部と、
     複数の学習画像を基にして、前記距離画像の特徴と、前記人体の部位または前記物体の部位とを対応づけた識別器を学習する学習部とを有し、
     前記認識装置は、
     距離センサから対象者および背景を含んだ距離画像を取得する取得部と、
     前記対象者および背景を含んだ距離画像から背景を取り除くことで対象者距離画像を生成する除去部と、
     前記対象者距離画像と前記識別器とを基にして、前記対象者距離画像の位置と、前記人体の部位または前記物体の部位とを関係を判定する判定部とを有する
     ことを特徴とする距離画像処理システム。
  5.  コンピュータが実行する距離画像処理方法であって、
     人体の3次元モデルと物体の3次元モデルとを合成した合成モデルを基にして、基準位置から前記人体の各位置または前記物体の各位置までの距離を示す距離画像と、前記人体の各部位または前記物体の部位を識別する部位画像とを対応づけた学習画像を複数生成し、
     複数の学習画像を基にして、前記距離画像の特徴と、前記人体の部位または前記物体の部位とを対応づけた識別器を学習する
     処理を実行することを特徴とする距離画像処理方法。
  6.  距離センサから対象者、物体および背景を含んだ距離画像を取得し、前記対象者、物体および背景を含んだ距離画像から背景を取り除くことで対象者距離画像を生成し、前記対象者距離画像と前記識別器とを基にして、前記対象者距離画像の位置と、前記人体の部位または前記物体の部位とを関係を判定する処理を更に実行することを特徴とする請求項5に記載の距離画像処理方法。
  7.  前記判定する処理の判定結果を基にして前記対象者距離画像に含まれる前記人体の各部位を特定し、前記物体の部位を除く残りの各部位の関係から前記対象者の姿勢を認識する処理を更に実行することを特徴とする請求項6に記載の距離画像処理方法。
  8.  コンピュータに、
     人体の3次元モデルと物体の3次元モデルとを合成した合成モデルを基にして、基準位置から前記人体の各位置または前記物体の各位置までの距離を示す距離画像と、前記人体の各部位または前記物体の部位を識別する部位画像とを対応づけた学習画像を複数生成し、
     複数の学習画像を基にして、前記距離画像の特徴と、前記人体の部位または前記物体の部位とを対応づけた識別器を学習する
     処理を実行させることを特徴とする距離画像処理プログラム。
  9.  距離センサから対象者、物体および背景を含んだ距離画像を取得し、前記対象者、物体および背景を含んだ距離画像から背景を取り除くことで対象者距離画像を生成し、前記対象者距離画像と前記識別器とを基にして、前記対象者距離画像の位置と、前記人体の部位または前記物体の部位とを関係を判定する処理を更に実行することを特徴とする請求項8に記載の距離画像処理プログラム。
  10.  前記判定する処理の判定結果を基にして前記対象者距離画像に含まれる前記人体の各部位を特定し、前記物体の部位を除く残りの各部位の関係から前記対象者の姿勢を認識する処理を更に実行することを特徴とする請求項9に記載の距離画像処理プログラム。
PCT/JP2017/018034 2017-05-12 2017-05-12 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム WO2018207351A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019516851A JP6860066B2 (ja) 2017-05-12 2017-05-12 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
PCT/JP2017/018034 WO2018207351A1 (ja) 2017-05-12 2017-05-12 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
EP17909348.9A EP3624051A4 (en) 2017-05-12 2017-05-12 DISTANCE IMAGE PROCESSING DEVICE, DISTANCE IMAGE PROCESSING SYSTEM, DISTANCE IMAGE PROCESSING METHOD AND DISTANCE IMAGE PROCESSING PROGRAM
CN201780090521.2A CN110622217B (zh) 2017-05-12 2017-05-12 距离图像处理装置以及距离图像处理系统
US16/676,404 US11087493B2 (en) 2017-05-12 2019-11-06 Depth-image processing device, depth-image processing system, depth-image processing method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/018034 WO2018207351A1 (ja) 2017-05-12 2017-05-12 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/676,404 Continuation US11087493B2 (en) 2017-05-12 2019-11-06 Depth-image processing device, depth-image processing system, depth-image processing method, and recording medium

Publications (1)

Publication Number Publication Date
WO2018207351A1 true WO2018207351A1 (ja) 2018-11-15

Family

ID=64105072

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/018034 WO2018207351A1 (ja) 2017-05-12 2017-05-12 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム

Country Status (5)

Country Link
US (1) US11087493B2 (ja)
EP (1) EP3624051A4 (ja)
JP (1) JP6860066B2 (ja)
CN (1) CN110622217B (ja)
WO (1) WO2018207351A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020178957A1 (ja) * 2019-03-04 2020-09-10 日本電気株式会社 画像処理装置、画像処理方法及びプログラム記録媒体
CN111753632A (zh) * 2019-03-29 2020-10-09 本田技研工业株式会社 驾驶辅助装置
JP2021099666A (ja) * 2019-12-23 2021-07-01 住友ゴム工業株式会社 学習モデルの生成方法
CN113822182A (zh) * 2021-09-08 2021-12-21 河南理工大学 一种运动动作检测方法和系统
US20220334674A1 (en) * 2019-10-17 2022-10-20 Sony Group Corporation Information processing apparatus, information processing method, and program

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207365A1 (ja) 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
EP3579138B1 (en) * 2018-06-04 2020-11-11 CogVis Software und Consulting GmbH Method for determining a type and a state of an object of interest
US11120280B2 (en) * 2019-11-15 2021-09-14 Argo AI, LLC Geometry-aware instance segmentation in stereo image capture processes
CN113096337B (zh) * 2021-04-08 2022-11-11 中国人民解放军军事科学院国防工程研究院工程防护研究所 用于复杂背景的移动目标识别处理方法及智能安防系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012120647A (ja) 2010-12-07 2012-06-28 Alpha Co 姿勢検出装置
US20150036879A1 (en) 2013-07-30 2015-02-05 Canon Kabushiki Kaisha Posture estimating apparatus, posture estimating method and storing medium
WO2015186436A1 (ja) * 2014-06-06 2015-12-10 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
US20160125243A1 (en) 2014-10-30 2016-05-05 Panasonic Intellectual Property Management Co., Ltd. Human body part detection system and human body part detection method
JP2016212688A (ja) 2015-05-11 2016-12-15 日本電信電話株式会社 関節位置推定装置、方法、及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251078A (ja) * 1998-12-22 2000-09-14 Atr Media Integration & Communications Res Lab 人物の3次元姿勢推定方法および装置ならびに人物の肘の位置推定方法および装置
JP2004226197A (ja) 2003-01-22 2004-08-12 Seiko Epson Corp 物体識別方法および物体識別装置、並びに物体識別プログラム
JP2007310707A (ja) 2006-05-19 2007-11-29 Toshiba Corp 姿勢推定装置及びその方法
US20110227923A1 (en) * 2008-04-14 2011-09-22 Xid Technologies Pte Ltd Image synthesis method
US8638985B2 (en) 2009-05-01 2014-01-28 Microsoft Corporation Human body pose estimation
EP2430614B1 (de) * 2009-05-11 2013-09-18 Universität zu Lübeck Verfahren zur echtzeitfähigen, rechnergestützten analyse einer eine veränderliche pose enthaltenden bildsequenz
US8213680B2 (en) * 2010-03-19 2012-07-03 Microsoft Corporation Proxy training data for human body tracking
US8625897B2 (en) 2010-05-28 2014-01-07 Microsoft Corporation Foreground and background image segmentation
US8571263B2 (en) 2011-03-17 2013-10-29 Microsoft Corporation Predicting joint positions
KR101815975B1 (ko) * 2011-07-27 2018-01-09 삼성전자주식회사 객체 자세 검색 장치 및 방법
JP2013058174A (ja) * 2011-09-09 2013-03-28 Fujitsu Ltd 画像処理プログラム、画像処理方法および画像処理装置
KR101763778B1 (ko) * 2011-09-30 2017-08-01 인텔 코포레이션 깊이 영상들에서 사람의 머리 부위 검출
KR101283262B1 (ko) * 2011-10-21 2013-07-11 한양대학교 산학협력단 영상 처리 방법 및 장치
US8666149B2 (en) * 2012-08-01 2014-03-04 Chevron U.S.A. Inc. Method for editing a multi-point facies simulation
US10248993B2 (en) * 2015-03-25 2019-04-02 Optitex Ltd. Systems and methods for generating photo-realistic images of virtual garments overlaid on visual images of photographic subjects
US10659773B2 (en) * 2017-04-13 2020-05-19 Facebook, Inc. Panoramic camera systems
WO2018207365A1 (ja) 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012120647A (ja) 2010-12-07 2012-06-28 Alpha Co 姿勢検出装置
US20150036879A1 (en) 2013-07-30 2015-02-05 Canon Kabushiki Kaisha Posture estimating apparatus, posture estimating method and storing medium
JP2015167008A (ja) 2013-07-30 2015-09-24 キヤノン株式会社 姿勢推定装置、姿勢推定方法およびプログラム
WO2015186436A1 (ja) * 2014-06-06 2015-12-10 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
US20160125243A1 (en) 2014-10-30 2016-05-05 Panasonic Intellectual Property Management Co., Ltd. Human body part detection system and human body part detection method
JP2016091108A (ja) 2014-10-30 2016-05-23 パナソニックIpマネジメント株式会社 人体部位検出システムおよび人体部位検出方法
JP2016212688A (ja) 2015-05-11 2016-12-15 日本電信電話株式会社 関節位置推定装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3624051A4

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020178957A1 (ja) * 2019-03-04 2020-09-10 日本電気株式会社 画像処理装置、画像処理方法及びプログラム記録媒体
JPWO2020178957A1 (ja) * 2019-03-04 2021-10-21 日本電気株式会社 画像処理装置、画像処理方法及びプログラム
JP7294402B2 (ja) 2019-03-04 2023-06-20 日本電気株式会社 画像処理装置、画像処理方法及びプログラム
US11803615B2 (en) 2019-03-04 2023-10-31 Nec Corporation Generating 3D training data from 2D images
CN111753632A (zh) * 2019-03-29 2020-10-09 本田技研工业株式会社 驾驶辅助装置
US11380120B2 (en) 2019-03-29 2022-07-05 Honda Motor Co., Ltd. Driving assistance device
CN111753632B (zh) * 2019-03-29 2024-03-26 本田技研工业株式会社 驾驶辅助装置
US20220334674A1 (en) * 2019-10-17 2022-10-20 Sony Group Corporation Information processing apparatus, information processing method, and program
JP2021099666A (ja) * 2019-12-23 2021-07-01 住友ゴム工業株式会社 学習モデルの生成方法
JP7482471B2 (ja) 2019-12-23 2024-05-14 住友ゴム工業株式会社 学習モデルの生成方法
CN113822182A (zh) * 2021-09-08 2021-12-21 河南理工大学 一种运动动作检测方法和系统

Also Published As

Publication number Publication date
CN110622217A (zh) 2019-12-27
JPWO2018207351A1 (ja) 2020-03-12
EP3624051A1 (en) 2020-03-18
US20200074679A1 (en) 2020-03-05
US11087493B2 (en) 2021-08-10
CN110622217B (zh) 2023-04-18
EP3624051A4 (en) 2020-03-25
JP6860066B2 (ja) 2021-04-14

Similar Documents

Publication Publication Date Title
WO2018207351A1 (ja) 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
JP6809604B2 (ja) 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
US11232556B2 (en) Surgical simulator providing labeled data
US11281896B2 (en) Physical activity quantification and monitoring
JP5016602B2 (ja) モーションキャプチャに使用されるラベリング
CN102725038B (zh) 组合多传感输入以用于数字动画
CN103996184B (zh) 增强现实应用中的可变形表面跟踪
JP2009265732A (ja) 画像処理装置及びその方法
JP6760491B2 (ja) 認識装置、認識システム、認識方法および認識プログラム
JP2023109570A (ja) 情報処理装置、学習装置、画像認識装置、情報処理方法、学習方法、画像認識方法
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
JP6393495B2 (ja) 画像処理装置および物体認識方法
WO2022024294A1 (ja) 行動特定装置、行動特定方法及び行動特定プログラム
JP6892844B2 (ja) 情報処理装置、情報処理方法、透かし検出装置、透かし検出方法、及びプログラム
JP2021144359A (ja) 学習装置、推定装置、学習方法、及びプログラム
JPWO2020184006A1 (ja) 画像処理装置、画像処理方法及びプログラム
WO2022003981A1 (ja) 行動特定装置、行動特定方法及び行動特定プログラム
WO2023012915A1 (ja) 姿勢特定プログラム、姿勢特定方法および情報処理装置
WO2023062762A1 (ja) 推定プログラム、推定方法および情報処理装置
WO2023162223A1 (ja) 学習プログラム、生成プログラム、学習方法および生成方法
WO2023039527A1 (en) Body pose tracking of players from sports broadcast video feed
Mathur et al. Real Time Multi-Object Detection for Helmet Safety
Khan et al. Classification of markers in the ARTool kit library to reduce inter-marker confusion

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17909348

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019516851

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2017909348

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2017909348

Country of ref document: EP

Effective date: 20191212