WO2022030439A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2022030439A1
WO2022030439A1 PCT/JP2021/028599 JP2021028599W WO2022030439A1 WO 2022030439 A1 WO2022030439 A1 WO 2022030439A1 JP 2021028599 W JP2021028599 W JP 2021028599W WO 2022030439 A1 WO2022030439 A1 WO 2022030439A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
image
relationship
semantic
person
Prior art date
Application number
PCT/JP2021/028599
Other languages
English (en)
French (fr)
Inventor
靖 宮島
真吾 山下
一浩 五十嵐
Original Assignee
ハイパーダイン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハイパーダイン株式会社 filed Critical ハイパーダイン株式会社
Priority to EP21854527.5A priority Critical patent/EP4216150A1/en
Priority to US18/020,217 priority patent/US20230334693A1/en
Publication of WO2022030439A1 publication Critical patent/WO2022030439A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof

Definitions

  • the present invention relates to an information processing device, an information processing method and a program.
  • a trained model is generated based on training data in which an image and a relationship between a plurality of objects included in the image are associated with each other, and the trained model is included in the image.
  • Techniques for recognizing relationships between objects are described.
  • Patent Document 2 describes a technique of detecting a human region and an object region included in an image and discriminating human behavior according to the positional relationship between the posture of the person and an object existing around the person. Is described.
  • an object of the present invention is to provide an information processing device, an information processing method, and a program capable of estimating various relationships in more detail with respect to a plurality of image objects included in an image.
  • the information processing apparatus includes a storage unit that stores relationship information in which the spatial relationship of feature points included in each of the plurality of target objects and the semantic information between the plurality of target objects are associated with each other. It is provided with a semantic estimation unit that estimates a semantic relationship between a plurality of image objects based on the spatial relationship and relationship information of feature points extracted from each of the plurality of image objects included in the image.
  • the semantic relationship is estimated based on the relationship information specified in advance. Since the user can set various relationship information as desired, it is possible to estimate a wider variety of relationships for a plurality of image objects. Further, since the feature points of the image objects are used for estimating the relationship between the plurality of image objects, it is possible to estimate the relationship in more detail.
  • the semantic estimation unit may estimate the semantic relationship between a plurality of image objects based on the incidental information attached to the image object.
  • the information corresponding to the image object is used for the estimation of the semantic relation, so that the semantic relation can be estimated in more detail or accurately.
  • the plurality of image objects include a person's image object
  • the incidental information may include information on at least one of a person's age, gender, physique, muscle strength, athletic ability, equipment, or personal belongings.
  • the plurality of image objects include a person's image object
  • the incidental information includes information on at least one of a person's position, physique, posture, and orientation estimated based on the feature points of the person's image object. But it may be.
  • the plurality of image objects may include an image object of an object
  • the incidental information may include information regarding at least one of the weight, material, weight distribution, and center of gravity of the object.
  • the plurality of image objects include the image object of the object, and the incidental information includes information on at least one of the position, size, shape, and orientation of the object estimated based on the feature points of the image object of the object. It may be included.
  • the plurality of image objects include a person's image object and an object's image object, and the semantic relationship between the plurality of image objects is the movement of the person on the object, the purpose of the movement, or the influence of the object on the person. At least one of these may be included.
  • the feature points included in each of the plurality of objects are the feature point to which the first label information is given and the feature point to which the second label information having a specific relationship with the first label information is given.
  • the semantic estimation unit includes, and is related to the spatial relationship between the feature points to which the first label information is added extracted from the first image object and the feature points of the second image object to which the second label information is given. The semantic relationship between the first image object and the second image object may be estimated based on the information.
  • the semantic relationship is estimated based on the feature points having a specific relationship, it is possible to estimate the semantic relationship more accurately.
  • the plurality of image objects include a human image object and an object image object, and the semantic relationship between the human image object and the object image object estimated by the semantic estimation unit satisfies a specific semantic condition. If the state of the person estimated based on the feature points of the image object of the person satisfies a specific state condition, an information generation unit that generates information according to the state may be further provided.
  • the information related to the image object satisfying a specific condition is generated, the information desired by the user can be easily generated.
  • the state condition includes a condition relating to the posture of the person estimated based on the feature points of the image object of the person, and the information generation unit may generate information according to the posture of the person.
  • the user can acquire appropriate information according to the posture regarding the posture of the person included in the image.
  • the state condition includes a condition relating to a load applied to a person estimated based on ancillary information relating to a feature point of a person's image object and ancillary information relating to the weight of the image object of the object, and the information generation unit responds to the load.
  • Information may be generated.
  • the user when the load applied to a person satisfies a predetermined condition, the user can acquire appropriate information about the load.
  • the image includes a plurality of image objects
  • the semantic estimation unit estimates the semantic relationship for each of the plurality of image objects, and relates to the feature points of the image object corresponding to the semantic relationship that matches a specific condition.
  • a feature point information generation unit that generates information according to a specific condition may be further provided.
  • the information processing method is an information processing method using an information processing apparatus including a memory and a processor, wherein the memory has a plurality of spatial relationships of feature points included in each of the plurality of target objects. Based on the storage of relationship information associated with semantic information between target objects and the spatial relationship and relationship information of feature points extracted from each of the multiple image objects contained in the image by the processor. Includes estimating semantic relationships between multiple image objects.
  • the semantic relationship is estimated based on the relationship information specified in advance. Since the user can set various relationship information as desired, it is possible to estimate a wider variety of relationships for a plurality of image objects. Further, since the feature points of the image objects are used for estimating the relationship between the plurality of image objects, it is possible to estimate the relationship in more detail.
  • a program according to another aspect of the present invention is to store in a computer the relationship information in which the spatial relationship of the feature points included in each of the plurality of target objects and the semantic information between the plurality of target objects are associated with each other.
  • the semantic relationship is estimated based on the relationship information specified in advance. Since the user can set various relationship information as desired, it is possible to estimate a wider variety of relationships for a plurality of image objects. Further, since the feature points of the image objects are used for estimating the relationship between the plurality of image objects, it is possible to estimate the relationship in more detail.
  • an information processing device an information processing method and a program capable of estimating various relationships in more detail for a plurality of image objects included in an image.
  • the information processing system 1 according to the first embodiment mainly includes an input / output device 10 and an information processing device 20.
  • the input / output device 10 and the information processing device 20 are connected to each other so as to be able to communicate with each other via the communication network 15.
  • the information processing device 20 functions as a server on the cloud.
  • the communication network 15 can take various modes.
  • the communication network 15 may be, for example, a data transmission network (WAN) or a local area network (LAN) connected to each other through a dedicated line.
  • WAN data transmission network
  • LAN local area network
  • the communication network 15 will be described as being the Internet, which is a representative of a public network.
  • the input / output device 10 can input and output information, and can send and receive various information to and from the information processing device 20.
  • the function of the input / output device 10 is realized by the cooperation of the image pickup unit 100, the input unit 102, the output unit 104, the communication unit 106, the control unit 108, and the storage unit 110.
  • the image pickup unit 100 includes various image pickup devices such as an RGB camera, an infrared camera, a ToF (Time of Flat) camera, and a laser range finder.
  • the image pickup unit 100 captures an image such as a still image or a moving image.
  • the image captured by the image pickup unit 100 may be a two-dimensional or three-dimensional image, but in the present embodiment, the image to be captured is assumed to be a two-dimensional image.
  • the image pickup unit 100 captures an image of a golf course.
  • the image pickup unit 100 captures an image including one or a plurality of golf players.
  • the image pickup unit 100 may store the captured image in the storage unit 110, or may transmit the captured image to the control unit 108.
  • the input unit 102 generates various input information according to the user's operation, and transmits the generated input information to the control unit 108.
  • the output unit 104 can output various information.
  • the output unit 104 includes a display unit that can display various types of information and an audio output unit that can output various types of audio.
  • the display unit of the output unit 104 can display the image captured by the image pickup unit 100, the calculation result of the information processing apparatus 20, and the like.
  • the audio output unit of the output unit 104 can output audio according to the calculation result of the information processing apparatus 20 and the like.
  • the communication unit 106 can send and receive various information to and from other devices.
  • the communication unit 106 can send and receive various information to and from the information processing device 20 via the communication network 15.
  • the communication unit 106 can transmit the image captured by the image pickup unit 100 to the information processing device 20.
  • the communication unit 106 can receive various information processing results (for example, semantic relation estimation results and information generated based on the estimation results) from the information processing device 20.
  • the communication unit 106 transmits the received information to the control unit 108.
  • the control unit 108 controls various functions included in the input / output device 10. Specifically, the control unit 108 controls the output of the output unit 104 and the transmission / reception of the communication unit 106. For example, the control unit 108 can control the display of the screen and the output of audio by the output unit 104. Further, the control unit 108 can control various functions by using various information stored in the storage unit 110.
  • the storage unit 110 stores various types of information.
  • the storage unit 110 stores the image captured by the image pickup unit 100 and the processing result of the information processing apparatus 20.
  • Various information stored in the storage unit 110 is used by the control unit 108 as needed.
  • the information processing device 20 executes various types of information processing.
  • the information processing device 20 receives an image from the input / output device 10, estimates a semantic relationship between a plurality of image objects included in the image, and inputs information according to the estimation result to the input / output device 10. Can be sent to.
  • the function of the information processing apparatus 20 is realized by the cooperation of the communication unit 200, the storage unit 210, and the processing unit 220.
  • the communication unit 200 can send and receive various information to and from other devices.
  • the communication unit 200 can receive an image from the input / output device 10 via the communication network 15.
  • the communication unit 200 can transmit the result of information processing by the information processing device 20 to the input / output device 10 via the communication network 15.
  • the storage unit 210 stores various types of information.
  • the storage unit 210 stores information (images and the like) used for information processing by the processing unit 220 and the result of information processing by the processing unit 220.
  • Various information stored in the storage unit 210 is referred to by the processing unit 220 as necessary.
  • the storage unit 210 may store incidental information incidental to various target objects.
  • the target object is an object that can be included in an image, and is, for example, an object that indicates a person or various objects.
  • the incidental information is referred to by the processing unit 220 and may be used for various types of information processing.
  • the incidental information may include information on the age, gender, physique, muscular strength, athletic ability, equipment, personal belongings, etc. of the specific person.
  • the target object is an object of an object, it may include information on the weight, material, weight distribution, center of gravity, and the like of the object.
  • the incidental information may include information that cannot be accurately estimated based only on the image.
  • the storage unit 210 may store information for extracting feature points from an image object included in the image.
  • the feature point is information indicating a characteristic portion included in the image object.
  • the storage unit 210 may store a trained model constructed based on a predetermined machine learning algorithm using an image annotated with information about feature points of an image object included in the image as training data.
  • Information about a feature point may include, for example, the type of image object (eg, a person or object, etc.) or label information (human hand, shoulder, foot, etc.) that includes the feature point.
  • the storage unit 210 may store various trained models.
  • the trained model may be a trained model trained to estimate a person's posture based on the extracted feature points.
  • the storage unit 210 stores the relationship information in which the spatial relationship of the feature points included in each of the plurality of target objects and the semantic information between the plurality of target objects are associated with each other.
  • Spatial relationships may include, for example, positional relationships, distance relationships, directional relationships, density relationships, and the like.
  • the density relationship is information that defines the density of feature points in an image, and may be, for example, information that defines how many feature points exist in a predetermined range.
  • semantic information between a plurality of target objects is information that defines the meaning between a plurality of target objects.
  • semantic information between a plurality of target objects may include at least one of a person's action on the object (eg, how the object is used, etc.), the purpose of the action, or the effect of the object on the person.
  • semantic information can be information (the purpose of action) that indicates what a particular image object is doing to another image object.
  • the case where the number of target objects is three will be described as an example.
  • Each of the three target objects is referred to as a first object, a second object, and a third object.
  • the first object contains at least one first feature point
  • the second object contains at least one second feature point
  • the third object contains at least one third feature point.
  • the relationship information is the spatial relationship between these feature points (ie, the first feature point, the second feature point, and the third feature point) and the three target objects (ie, the first object, the second object, and the third feature point).
  • the number of target objects may be two or four or more. In the following description, an example in which the number of target objects is two will be mainly described.
  • FIG. 2 is a diagram showing an example of the relationship information list 212 stored in the storage unit 210 according to the present embodiment.
  • the relationship information list 212 shown in FIG. 2 includes four relationship definitions No. 1 to No. 4.
  • Each relationship definition includes the type of target object, the label of the feature point of the target object, the spatial relationship of the plurality of image objects, and the semantic information between the plurality of image objects.
  • each relationship definition is relationship information that associates spatial relationships with semantic information.
  • the relationship definitions of No1 to No4 are referred to as first to fourth relationship definitions.
  • the semantic relationship between a plurality of image objects is information that means the relationship between a plurality of image objects.
  • the semantic relationship is estimated based on the semantic information included in the relationship definition. The details of the estimation of the semantic relationship will be described later with reference to FIG.
  • the contents of the relational information list 212 will be described.
  • the first relationship definition is a relationship definition between a person's target object and a golf club's target object.
  • the first relationship definition is the spatial relationship between the feature points of the right and left hands of a person and the feature points of the grip of a golf club, and the semantic information between the target object of the person and the target object of the golf club. Is associated with.
  • the relationship definition according to the present embodiment defines the spatial relationship between the feature points to which certain label information is attached and the feature points to which other label information having a specific relationship with the label information is attached.
  • the spatial relationship of the first relationship definition defines the characteristic points of the grip of the golf club and the characteristic points of the right and left hands of the person related to the grip. Specifically, in the spatial relationship of the first relationship definition, all the feature points related to the first relationship definition (that is, the feature points of the right and left hands of a person and the feature points of the grip of a golf club) are close to each other. It stipulates that.
  • the fact that the three feature points are close to each other may mean that the distance between the three feature points is within a predetermined value (for example, 10 cm). That is, the spatial relationship of the first relationship definition may be that the distance of all three feature points related to the first relationship definition is within 10 cm.
  • the predetermined value is not limited to 10 cm or less, and an arbitrary distance may be set.
  • the semantic information of the first relationship definition is the information that "a person has a golf club”. Therefore, the first relation definition defines that the proximity of any feature point of the right hand, the left hand and the grip means that the person has a golf club.
  • the relationship definition may include a plurality of spatial relationships.
  • the second relation definition (a) the feature points of the right hand, the left hand, and the grip of the golf club are close to each other, and (b) the feature points of the head of the golf club are the head of the person. It contains two spatial relationships with being above the feature point of. When these two spatial relationships are satisfied by the spatial relationships of a plurality of image objects contained in the image, based on the semantic information "a person is wielding a golf club" included in the second relationship definition. The semantic relationship is estimated.
  • the third relationship definition is a relationship definition between the target object of a person and the target object of a part, and includes two spatial relationships.
  • the first to third relationship definitions are, but are not limited to, the relationship definition between the target object of a person and the target object of an object, and the relationship definition is, for example, the target object of an object and the target object of an object. It may be a relationship definition with, or it may be a relationship definition between a person's target object and a person's target object.
  • the fourth relationship definition is the relationship definition between the target object of the object and the target object of the object.
  • the fourth relationship definition is a relationship definition between a target object of an automobile and a target object of a bicycle.
  • the spatial relationship between the characteristic points of the roof of the automobile and the characteristic points of the front and rear wheels of the bicycle is associated with the semantic information between the automobile and the bicycle.
  • the spatial relationship of the fourth relationship definition is that the characteristic points of the front and rear wheels of the bicycle are close to the characteristic points of the roof of the automobile. Further, the semantic information of the fourth relation definition is that "the bicycle is mounted on the roof of the automobile.
  • semantic information that can be included in the related information list 212 is not limited to the example shown in FIG.
  • semantic information can be defined in association with spatial relationships.
  • the semantic information may be information such as "a person punches a ball at a golf club”.
  • the semantic information may be information that "a person is trying to approach".
  • the spatial relationship associated with this semantic information is, for example, that the feature points of the left and right hands of a person are close to the feature points of the grip of the golf club and the upper part of the shaft, and the golf club extends vertically (more).
  • the extending direction of the shaft of the golf club may be parallel to the direction in which a person is standing.
  • the semantic information may be information that "a person is taking back".
  • the spatial relationship associated with this semantic information is that the feature points of the left and right hands of a person are close to the feature points of the grip of the golf club and the feature points of the upper end of the shaft, and the feature points of the head of the golf club arc from the bottom. It may be moving upward while drawing.
  • the semantic information is information that "a person is downswing"
  • the characteristic points of the left and right hands of the person and the characteristic points of the upper end of the golf club are close to each other.
  • a spatial relationship indicating that the feature points of the golf club head are moving downward in an arc may be associated.
  • the processing unit 220 of the information processing apparatus 20 executes various types of information processing.
  • the processing unit 220 can execute various types of information processing using various types of information stored in the storage unit 210 (for example, images, incidental information, relational information lists, various learned models, and the like). Further, the processing unit 220 can transmit the result of the executed information processing (for example, the estimation result of the semantic relationship) to the communication unit 200.
  • FIG. 3 is a functional block diagram showing an example of the configuration of the processing unit 220 according to the present embodiment.
  • the processing unit 220 includes a meaning estimation unit 230 and a generation unit 240.
  • the meaning estimation unit 230 can recognize an image object included in an image and estimate the meaning of a plurality of image objects included in the image.
  • the process executed by the meaning estimation unit 230 is realized by the cooperation of the image acquisition unit 232, the recognition unit 234, the incidental information estimation unit 236, the posture estimation unit 237, and the meaning estimation unit 238.
  • the image acquisition unit 232 can acquire various images and transmit the acquired images to the recognition unit 234.
  • the image acquisition unit 232 may, for example, acquire an image captured by the image pickup unit 100, or may acquire an image stored in the storage unit 210 of the information processing apparatus 20. Further, when the image pickup unit 100 captures a moving image or the moving image is stored in the storage unit 210, the image acquisition unit 232 acquires a still image at a specific timing included in the moving image. good. In the present embodiment, the image acquisition unit 232 acquires a still image captured by the image pickup unit 100.
  • the image acquired by the image acquisition unit 232 includes an image object of two or more people and includes an image object of a person who has a golf club. ..
  • the recognition unit 234 extracts or recognizes various types of information based on the image, and can transmit the extracted or recognized result to the incidental information estimation unit 236, the posture estimation unit 237, and the meaning estimation unit 238.
  • the recognition unit 234 can extract feature points included in the image.
  • the recognition unit 234 can extract feature points from an image using a trained model stored in the storage unit 210 and constructed based on a predetermined machine learning algorithm.
  • the recognition unit 234 can add various information to the extracted feature points.
  • the recognition unit 234 can add a number, position information, label information, and the like.
  • the position information is information for specifying the position of a feature point in an image, and is expressed by two-dimensional coordinates in the present embodiment.
  • the position information may be represented by, for example, three-dimensional coordinates.
  • the label information is information that distinguishes it from other feature points included in the image object.
  • the label information may be information indicating a person's head, arms, shoulders, hips, legs, and the like.
  • the recognition unit 234 can extract a plurality of feature points from the image and add label information to the extracted feature points. Further, the recognition unit 234 can recognize the image object based on the set of the extracted feature points. Further, the recognition unit 234 can specify the type of the recognized image object (for example, a person or a golf club). For example, the recognition unit 234 can recognize that an image object including these feature points is a human image object based on a set of a plurality of feature points (human hands, head, shoulders, feet, etc.).
  • the method of recognizing the feature points and the image object by the recognition unit 234 is limited to the above method (bottom-up method) in which the feature points are extracted and then the image object is recognized based on the set of the extracted feature points. is not it.
  • the method of recognizing the feature points and the image object by the recognition unit 234 may be a method of recognizing the image object included in the image and then extracting the feature points included in the recognized image object (top-down method). good.
  • FIG. 4 is a diagram showing the recognition results of the image 120 and the recognition unit 234 captured by the image pickup unit 100 according to the present embodiment.
  • the image 120 includes a human image object (hereinafter, also referred to as “human object 130”), a golf club image object (hereinafter, also referred to as “club object 160”), and a golf ball image object (hereinafter, “”. Also referred to as "ball object 166").
  • human object 130 also referred to as “human object 130”
  • club object 160 also referred to as “club object 160”
  • ball object 166 also referred to as "ball object 166"
  • the image 120 includes image objects of a plurality of people, but it is assumed that they are omitted in FIG.
  • the recognition unit 234 can extract feature points for each of the human object 130, the club object 160, and the ball object 166, and can add label information to each of the extracted feature points.
  • the feature points extracted from each image object are indicated by circles. Specifically, for the human object 130, the facial feature point 132, the right shoulder feature point 134, the right elbow feature point 136, the right hand feature point 138, the left shoulder feature point 140, the left elbow feature point 142, and the left hand.
  • the feature points 144, the feature points 146 of the right hip, the feature points 148 of the right foot (tip), the feature points 150 of the left hip, and the feature points 152 of the left foot (tip) have been extracted. Further, for the club object 160, the feature points 162 of the grip and the feature points 164 of the head are extracted. Further, for the ball object 166, the central feature point 168 is extracted.
  • feature points that satisfy specific conditions are connected by a straight line.
  • feature points whose label information satisfies a predetermined condition are connected by a straight line.
  • the feature point 148 of the right foot and the feature point 146 of the right hip of the human object 130 are connected by a straight line.
  • the recognition unit 234 can specify the type of the image object based on the feature points extracted from the image object.
  • the recognition unit 234 may specify the type of image object by using a trained model trained to output the type of image object based on the spatial relationship of a plurality of feature points.
  • the recognition unit 234 can identify that the type of the human object 130 is a person based on the feature points extracted from the human object 130.
  • the recognition unit 234 can identify that the type of the club object 160 is a golf club based on the feature points extracted from the club object 160.
  • FIG. 5 shows an image object list 170 that lists information (hereinafter, referred to as “image object information”) regarding an image object recognized by the recognition unit 234 according to the present embodiment and extracted feature points. It is a figure.
  • the image object list 170 includes image object information to which each number is assigned.
  • the image object list 170 includes image object information of two people and image object information of one golf club. It is assumed that each of the image objects of the two persons is an image object of a person different from each other.
  • the first image object corresponds to the person object 130 shown in FIG. 4, and the second image object corresponds to the club object 160 shown in FIG. Further, it is assumed that the third image object is omitted in the image 120 shown in FIG. Further, the feature points shown in FIG. 5 include feature points omitted in the image 120 shown in FIG. 4 (for example, feature points of a shaft of a golf club).
  • the incidental information estimation unit 236 can estimate the incidental information incidental to the image object.
  • the incidental information estimation unit 236 can estimate the incidental information of the target object corresponding to the image object as the incidental information of the image object by referring to the information stored in the storage unit 210.
  • the storage unit 210 stores incidental information of the target object of the golf club.
  • the incidental information estimation unit 236 can estimate the incidental information as the incidental information of the club object 160.
  • the incidental information estimation unit 236 can estimate the incidental information of the image object based on the feature points extracted from the image object. For example, the incidental information estimation unit 236 can estimate the position, physique, orientation, etc. of a person based on the positional relationship of a plurality of feature points extracted from the image object of the person. Alternatively, the incidental information estimation unit 236 can estimate the position, size, shape, orientation, etc. of the object based on the positional relationship of a plurality of feature points extracted from the image object of the object.
  • FIG. 6 is a diagram showing an incidental information list 181 showing incidental information of the second image object shown in FIG.
  • the incidental information list 181 includes the weight (300 g), the length (1.2 m), and the position of the center of gravity (30 cm in the direction from the head to the shaft) of the golf club as the incidental information.
  • the incidental information list 181 may include incidental information estimated by the incidental information estimation unit 236.
  • the length of the golf club may be the estimated incidental information.
  • the weight and the position of the center of gravity of the golf club may be incidental information stored in advance in the storage unit 210.
  • the incidental information list 181 is referred to by the semantic estimation unit 238 as necessary.
  • the posture estimation unit 237 included in the processing unit 220 will be described.
  • the posture estimation unit 237 can estimate the posture of a person based on a plurality of feature points extracted from the image object of the person, and transmit the estimated result to the meaning estimation unit 238.
  • the posture estimation unit 237 may estimate the posture of a person by using a trained model constructed based on various machine learning algorithms.
  • the posture estimation unit 237 may estimate the posture of a person based on the spatial relationship (for example, the positional relationship) of a plurality of feature points extracted from the image object of the person. For example, the posture estimation unit 237 may estimate the posture of a person based on the positional relationship of the feature points of various joints. For example, the posture estimation unit 237 can estimate various postures such as a sitting posture, a standing posture, and an open leg posture. The posture estimation unit 237 transmits the estimated result to the semantic estimation unit 238.
  • the semantic estimation unit 238 estimates the semantic relationship between the plurality of image objects based on the spatial relationship of the feature points extracted from each of the plurality of image objects included in the image and the relationship information. As a result, the semantic estimation unit 238 extracts feature points of a plurality of image objects including a person or an object and estimates a semantic relationship on a rule basis. Therefore, when a plurality of people or a plurality of objects are present in the image. Even with a specific person's image object, based on the rules of spatial relationship between the feature points of the image object of a specific person among multiple people and the feature points of the image object of a specific object among multiple objects. The semantic relationship between a specific object and an image object can be estimated.
  • the semantic estimation unit 238 estimates the semantic relationship between a plurality of image objects by using the relationship information included in the relationship definition described with reference to FIG.
  • the meaning estimation by the meaning estimation unit 238 will be described by focusing on the image object of the person included in the image and the image object of the golf club owned by the person.
  • the meaning estimation unit 238 specifies the spatial relationship between the feature points of the human object 130 recognized by the recognition unit 234 and the feature points of the club object 160.
  • the semantic estimation unit 238 extracts the feature points included in each of the image object of the person and the image object of the object in real time, so that the case is not only when the person is moving but also when the object is moving.
  • the spatial relationship of the feature points of these image objects satisfies the spatial relationship of the first relationship definition shown in FIG. That is, it is assumed that the characteristic points of both hands (right hand and left hand) of a person and the characteristic points of the grip of a golf club are close to each other.
  • the semantic estimation unit 238 includes a feature point to which label information extracted from a certain image object is attached and a feature point of an image object to which label information having a specific relationship with the feature point is given. Estimate the semantic relationships between those image objects based on the spatial relationships. Here, it is assumed that the grip of a golf club and both hands of a person have a specific relationship. Therefore, the semantic estimation unit 238 can estimate the semantic relationship between the human object 130 and the club object 160 based on the feature points to which the label information is added. Specifically, the semantic estimation unit 238 can presume that "a person has a golf club" based on the first relation definition.
  • the semantic estimation unit 238 may estimate that "a person has a golf club" without using the feature points of the grip. For example, a golf club head feature point exists within a predetermined range based on an extension line from the feature point of the human elbow (right elbow or left elbow) to the feature point of the human hand (right hand or left hand). However, it is assumed that the shaft of the golf club extends from the characteristic point of the head toward a person (for example, a person's hand). In this case, the semantic estimation unit 238 can estimate the operation that "a person has a golf club” even if the feature points of the grip of the golf club are not extracted.
  • the semantic estimation unit 238 may estimate the semantic relationship by using the characteristic points of the image object of the golf ball in addition to the characteristic points of the human object 130 and the club object 160. For example, the semantic estimation unit 238 may estimate the semantic relationship that "a person is trying to hit a golf ball at a golf club". In this way, the meaning estimation unit 238 according to the present embodiment can estimate the purpose of the movement of the person using the object.
  • the semantic estimation unit 238 can estimate the semantic relationship between a plurality of image objects based on the incidental information attached to the image object.
  • the incidental information used by the meaning estimation unit 238 for the meaning estimation may be incidental information stored in advance in the storage unit 210, or may be incidental information estimated by the incidental information estimation unit 236.
  • the semantic estimation unit 238 can estimate the semantic information based on the semantic information included in the relationship definition for the incidental information. For example, the semantic estimation unit 238 may estimate the semantic information as a semantic relationship, or may estimate information obtained by adding various information (for example, incidental information) to the semantic information as a semantic relationship. For example, the meaning estimation unit 238 can estimate that "a person weighs 300 g and has a golf club with a length of 1.2 m". As a result, the semantic estimation unit 238 can estimate a more detailed semantic relationship.
  • the semantic relationship estimated by the semantic estimation unit 238 is transmitted to the generation unit 240.
  • FIG. 7 is a diagram showing a semantic relationship list 174 that lists the results of estimating the semantic relationship by the semantic estimation unit 238.
  • the semantic relationship is expressed using the image object number. It is assumed that the image object number shown in FIG. 7 corresponds to the number of the image object shown in FIG. That is, [1] means a person, and [2] means a golf club.
  • the first semantic relationship indicates that [1] has a weight of 300 g and a length of 1.2 m [2].
  • the semantic relationship of No. 2 indicates an operation in which [1] is sprinkling [2] having a weight of 300 g and a length of 1.2 m.
  • the generation unit 240 is configured for the purpose of an application for diagnosing the swing of a golf player (hereinafter, simply referred to as "player"). Specifically, the generation unit 240 generates various information according to the state of the player based on the result of the processing by the meaning estimation unit 230.
  • the function of the generation unit 240 is realized by the cooperation of the search unit 242, the index generation unit 244, and the feature point information generation unit 246.
  • Each functional unit included in the generation unit 240 acquires various information (for example, an estimated semantic relationship) from each functional unit of the semantic estimation unit 230, and various information (for example, an estimated semantic relationship) from the storage unit 210, as needed. For example, a related information list, etc.) can be obtained.
  • the search unit 242 searches for a semantic relationship that matches a specific condition from the semantic relationship estimated by the semantic estimation unit 238, and outputs the search result (for example, a semantic relationship that matches the specific condition) to the index generation unit 244. Can be transmitted.
  • the specific condition is that the semantic relationship includes the information that "a person has a golf club”.
  • the search unit 242 searches for a semantic relationship (that is, the first semantic relationship) including the information that "a person has a golf club" with reference to the semantic relationship list 174 shown in FIG. 7. Therefore, when the image 120 includes image objects of a plurality of people, the search unit 242 can search only the semantic information about the person who has the golf club.
  • the index generation unit 244 can generate information according to a specific condition regarding the feature points of the image object corresponding to the semantic relationship that matches the specific condition.
  • the index generation unit 244 can specify a player's situation (phase) based on a feature point or a semantic relationship, and can generate information as an index for diagnosing a swing according to the player's situation.
  • the points to be diagnosed differ depending on the situation. For example, in a situation where the player is swinging a golf club, the positions of the player's elbows and knees are important points. Further, in a situation where the player is holding a golf club (that is, at the time of addressing), it is preferable that the right shoulder is lower than the left shoulder when hitting right, and the positional relationship between the player's right shoulder and the left shoulder is important. Therefore, the index generation unit 244 can provide more appropriate information to a user such as a player by generating an index according to the situation of the player.
  • the index generation unit 244 can calculate and generate appropriate elbow and knee positions based on, for example, the result recognized by the recognition unit 234 about the player (for example, information such as elbow or knee feature points). The index generation unit 244 transmits the generated information to the feature point information generation unit 246.
  • the feature point information generation unit 246 can generate information according to a specific condition regarding the feature point of the image object corresponding to the semantic relationship that matches the specific condition.
  • the feature point information generation unit 246 generates information about the feature points of the corresponding person's image object according to the phase specified based on the estimated semantic relationship.
  • the feature point information generation unit 246 can generate information on points according to the player's situation (phase) based on the information (for example, the index) generated by the index generation unit 244.
  • the feature point information generation unit 246 is for displaying, for example, an auxiliary line indicating an ideal position with respect to feature points such as elbow feature points, knee feature points, and shoulder feature points, which are points. It can be generated by calculating the coordinates.
  • the feature point information generation unit 246 can generate superimposition information for superimposing the auxiliary line on the display unit based on the generated coordinates.
  • the feature point information generation unit 246 can generate superimposed information as feature point information for displaying the joint that is the point of the player or the feature point of the joint on the display unit in a conspicuous display mode (for example, a red mark). ..
  • the feature point information generation unit 246 transmits the generated information to the communication unit 200.
  • the information transmitted to the communication unit 200 is transmitted to the input / output device 10 via the communication network 15 and transmitted to the input / output device 10.
  • the display unit of the output unit 104 displays various screens.
  • the image pickup unit 100 of the input / output device 10 captures an image (step S101).
  • the communication unit 106 transmits the image captured by the image pickup unit 100 to the information processing apparatus 20 (step S103).
  • the communication unit 200 of the information processing apparatus 20 receives the image transmitted in step S103 (step S105).
  • the image acquisition unit 232 of the processing unit 220 acquires the image received in step S105 (step S107).
  • the recognition unit 234 extracts a plurality of feature points from the image (step S109). At this time, the recognition unit 234 may add label information to the extracted feature points.
  • the recognition unit 234 recognizes the image object based on the set of feature points extracted in step S109 (step S111). Specifically, the recognition unit 234 recognizes an image object corresponding to each set based on a plurality of sets. At this time, the recognition unit 234 may specify the type of the recognized image object. Next, the recognition unit 234 generates an image object list based on the recognition result in step S111 (step S113).
  • the incidental information estimation unit 236 estimates the incidental information of the image object recognized by the recognition unit 234 (step S115). Further, the posture estimation unit 237 estimates the posture of the person based on the feature points of the image object of the person recognized by the recognition unit 234 (step S117). When the recognition unit 234 does not recognize the image object of a person, the posture estimation unit 237 does not have to estimate the posture of the person.
  • the meaning estimation unit 238 performs the meaning estimation process (step S119). The details of the semantic estimation process will be described later with reference to FIG. When the meaning estimation unit 238 performs the meaning estimation process, the process shown in FIG. 8 ends.
  • FIG. 9 is a flowchart showing the details of the meaning estimation process of FIG.
  • the semantic estimation unit 238 extracts a relationship definition in which all types of target objects are included in the image object list from the relationship information list, and generates a relationship definition list in which the extracted relationship definitions are listed (step). S201). For example, suppose that the image object list contains the results recognized for a person's image object and a golf club's image object. In this case, the semantic estimation unit 238 extracts the relationship definition of the combination including both the person and the golf club in the combination of the types of the target objects from the relationship information list, and generates the relationship definition list. For example, the semantic estimation unit 238 extracts the first relationship definition and the second relationship definition including a person and a golf club in the combination of the target objects from the relationship information list 212 shown in FIG. 2, and generates a relationship definition list. ..
  • the semantic estimation unit 238 determines whether or not the unprocessed relationship definition is in the relationship definition list (step S203).
  • the unprocessed relationship definition is a relationship definition in which the processes of steps S207 and S209 described later are not performed. If it is determined that the unprocessed relationship definition is in the relationship definition list (step S203: YES), the process proceeds to step S205. On the other hand, if it is determined that the unprocessed relationship definition is not in the relationship definition list (step S203: NO), the process proceeds to step S221.
  • the process when it is determined to be YES in step S203 will be described, and then the process when it is determined to be NO in step S203 will be described.
  • the semantic estimation unit 238 acquires the unprocessed relationship definition from the relationship definition list (step S205). Next, the semantic estimation unit 238 extracts information of all kinds of image objects included in the relationship definition acquired in step S205 from the image object list (step S207). For example, when the acquired relationship definition includes image objects of a person and a golf club, the semantic estimation unit 238 extracts information of the image object of the person and the image object of the golf club from the image object list. do.
  • the semantic estimation unit 238 generates a combination list of all image object types that match the relationship definition acquired in step S205 (step S209). For example, when the relationship definition defines a combination of a person and a golf club, the semantic estimation unit 238 may use the image object of the person and the image object of the golf club based on the information of the image object extracted in step S207. Generate a combination list of.
  • step S207 information on two person image objects (hereinafter, referred to as "first person object” and “second person object” in the explanation of the flowchart shown in FIG. 9) and one golf club. It is assumed that the information of the image object is extracted.
  • the semantic estimation unit 238 can generate a combination list including two combinations composed of a combination of the first person object and the golf club and a combination of the second person object and the golf club.
  • the semantic estimation unit 238 determines whether or not the unprocessed combination is in the combination list (step S211).
  • the unprocessed combination is a combination that has not been processed in step S215, which will be described later. If it is determined that the unprocessed combination is in the combination list (step S211: YES), the process proceeds to step S213. On the other hand, if it is determined that the unprocessed combination is not in the combination list (step S211: NO), the process returns to step S203. If YES is determined in step S211th, the semantic estimation unit 238 acquires the unprocessed combinations from the combination list (step S213).
  • the semantic estimation unit 238 determines whether or not the spatial relationship of the feature points of the image objects included in the unprocessed combination acquired in step S213 satisfies the spatial relationship of the relationship definition (step S215). If it is determined that the spatial relationship of the feature points of the image objects included in the unprocessed combination satisfies the spatial relationship of the relationship definition (step S215: YES), the process proceeds to step S217. On the other hand, when it is determined that the spatial relationship of the feature points of the image objects included in the unprocessed combination does not satisfy the spatial relationship of the relationship definition (step S215: NO), the process returns to step S211.
  • the semantic estimation unit 238 determines YES in step S215, the semantic estimation unit 238 estimates the semantic relationship between the plurality of image objects based on the relationship information included in the relationship definition and the spatial relationship between the feature points of the plurality of image objects. Step S217). At this time, the semantic estimation unit 238 may further estimate the semantic relationship by using the incidental information. Next, the semantic estimation unit 238 registers the semantic relationship estimated in step S217 in the semantic relationship list (step S219). When the semantic estimation unit 238 registers the semantic relationship in the semantic relationship list, the process returns to step S211.
  • the semantic estimation unit 238 determines whether or not the spatial relationships of the plurality of image objects included in the image match for all the relationship definitions included in the relationship definition list generated in step S201. Further, the semantic estimation unit 238 registers the estimated semantic relationships for the plurality of image objects corresponding to the matched spatial relationships in the semantic relationship list. When the semantic estimation unit 238 determines whether or not the spatial relationships of a plurality of image objects match for all the relationship definitions included in the relationship definition list, and then registers the estimated semantic relationships in the semantic relationship list, a step is taken. It is determined as NO in S203, and the process proceeds to step S221.
  • the semantic estimation unit 238 transmits the semantic relation list to another functional unit (step S221). For example, the semantic estimation unit 238 outputs a semantic relation list to the generation unit 240. When the semantic estimation unit 238 outputs the semantic relation list to another functional unit, the semantic estimation process ends.
  • the processing until the information processing system 1 according to the first embodiment generates information according to the meaning estimation by the meaning estimation unit 230 and displays the generated information will be described.
  • various processes such as estimation of the semantic relationship of a plurality of image objects and estimation of the posture of a person described with reference to FIGS. 8 and 9 are being executed. And.
  • the search unit 242 included in the generation unit 240 of the information processing apparatus 20 acquires information such as the semantic relationship estimated from the semantic estimation unit 230 (step S301). At this time, the search unit 242 may acquire the estimated semantic relationship as a semantic relationship list. Further, the search unit 242 may acquire various information such as an estimated posture of a person in addition to the semantic relationship.
  • the search unit 242 determines whether or not there is a semantic relationship indicating that "a person has a golf club" (step S303).
  • the search unit 242 searches for a semantic relationship indicating that "a person has a golf club” based on the semantic relationship list acquired in step S301.
  • step S303: NO the process shown in FIG. 10 ends.
  • step S303: YES the process proceeds to step S305.
  • the index generation unit 244 identifies the phase of the golf shot based on the semantic relationship searched for in step S303 (step S305). Specifically, the index generation unit 244 identifies the phase of the golf shot based on the recognition results of the plurality of image objects included in the searched semantic relationship. For example, the index generation unit 244 identifies the phase of a golf shot based on the positional relationship of a plurality of feature points contained in a human image object (for example, the positional relationship between the shoulder feature points and the waist feature points). You can do it.
  • the identified phase may be, for example, an address, takeback or other phase.
  • the index generation unit 244 acquires the information of the feature points corresponding to the phase specified in step S305 from the image object list (step S307). Specifically, the index generation unit 244 can acquire information on feature points (position information represented by coordinates or the like, label information, etc.) according to the specified phase from the image object list.
  • the index generation unit 244 provides information on feature points that are important for addresses such as elbow feature points and knee feature points included in a human image object when the specified phase is an address. May be obtained. Further, when the specified phase is takeback, the index generation unit 244 is an important feature at the time of takeback such as the feature points of both shoulders and the feature points of the arms included in the human image object. You may get the information of the point. Further, when the specified phase is another phase, the index generation unit 244 may acquire information on the feature points that are important in the specified phase.
  • the index generation unit 244 generates an index according to the specified phase based on the information of the feature points acquired in step S309 (step S309). Specifically, the index generation unit 244 may calculate the ideal position of an important point according to the phase.
  • the index generation unit 244 may calculate the ideal elbow and knee positions as indexes based on the elbow feature points and the knee feature points.
  • the index generation unit 244 can generate ideal right shoulder and left shoulder positions as indexes.
  • the feature point information generation unit 246 generates feature point information and superimposed information (step S311).
  • the communication unit 200 of the information processing apparatus 20 transmits the superimposed information generated in step S311 to the input / output apparatus 10 (step S313).
  • the communication unit 106 of the input / output device 10 receives the superimposed information transmitted in step S313 (step S315). The received superimposed information is transmitted to the control unit 108.
  • control unit 108 causes the output unit 104 to display the superimposed information on the screen based on the superimposed information received in step S315 (step S317).
  • the display unit of the output unit 104 displays, for example, a screen in which the superimposed information is superimposed on the image captured by the image pickup unit 100. For example, a screen showing a specific joint in red is displayed on the display unit on a person's image object. This allows the user to recognize important points or appropriate forms in the golf swing.
  • the information processing apparatus 20 estimates the semantic relationship between the plurality of image objects based on the spatial relationship and the relationship information of the feature points extracted from each of the plurality of image objects included in the image. do.
  • the relationship information is information that can be set by the user in a desired relationship. Therefore, by setting the relationship information as appropriate by the user, it is possible to estimate a wider variety of semantic relationships for the plurality of image objects. Further, since the semantic relationship is estimated based on the feature points of the image object, it is possible to estimate the semantic relationship in detail and with high accuracy.
  • preconditions for estimating the semantic relationship between a person and an object.
  • a known precondition can be, for example, that if a person holds the golf club downward in front of the ball, the person is about to hit the ball with the golf club.
  • the precondition is that, when a specific assembly is performed at the factory, the weight of the object or the position where the person should hold the object is known, and the range in which the person moves is also determined.
  • the precondition can be used as, for example, relationship information, it is possible to estimate a more robust and practical semantic relationship.
  • the image includes image objects of a plurality of people.
  • analysis is performed on the assumption that the image includes one player or the player is standing in a specific place. Etc. were being done.
  • it is difficult to automatically identify a swinging player because a caddy, another player, a spectator, and the like are present in an image or the like during golf play. For this reason, the place where the player's form or the like can be recorded or diagnosed is limited.
  • the information processing apparatus 20 uses the estimated semantic relationship, and when a plurality of people and a plurality of objects exist in the image, the semantic relationship to be noted (for example, the person is an object). It is possible to identify a person and an object related to (semantic relationship indicating that a specific action is being performed on the object). Therefore, the information processing apparatus 20 according to the present embodiment automatically identifies a person who has a golf club when an image object of a large number of people is included in the image, and for example, for recording or analyzing a swing. You can generate the information you need without any restrictions on the location.
  • the information processing apparatus 20 uses spatial relationships and semantic relationships, so that even when a person or an object is hidden behind another object or the like, the space between the person and the object is spatial. It can be estimated that a person or an object exists behind another object or the like so that the relationship does not contradict each other. Therefore, the information processing apparatus 20 according to the present embodiment is robust against occlusion. That is, even when the image object is hidden behind another image object, the information processing apparatus 20 can appropriately recognize the image object hidden behind the other image object.
  • the semantic relationship is estimated based on the incidental information of the image object. Therefore, it is possible to estimate a more appropriate semantic relationship.
  • the semantic relationship between a plurality of image objects includes at least one of a person's movement on the object, the purpose of the movement, or the influence of the object on the person.
  • the action of a person on an object may be, for example, that the person holds the object or that the person throws the object.
  • the purpose of the operation may be, for example, a person moving an object.
  • the influence of the object on a person may be, for example, the object exerting a load on the person or the magnitude of the load.
  • the image includes an image object of a golf club and an image object of a person wearing the golf club.
  • the image according to the second embodiment is an image taken in a factory where a specific product is manufactured, and is an image object of an object (part of a product) and a person (worker) carrying the part. ) Is included.
  • FIG. 11 is a functional block diagram of the processing unit 260 included in the information processing apparatus according to the second embodiment.
  • the information processing apparatus includes the processing unit 260 shown in FIG. 11 instead of the processing unit 220 shown in FIGS. 1 and 3. That is, the processing unit 260 according to the second embodiment includes a meaning estimation unit 230 and a generation unit 270.
  • the function of the meaning estimation unit 230 according to the second embodiment is substantially the same as the function of the meaning estimation unit 230 described with reference to FIG. Therefore, a detailed description of the function of the meaning estimation unit 230 will be omitted.
  • an example of the result recognized or estimated by the semantic estimation unit 230 in the present embodiment will be described.
  • FIG. 12 is a diagram showing an image object list 180 showing the result of recognition of the image object included in the image according to the second embodiment by the recognition unit 234 of the meaning estimation unit 230.
  • the recognition unit 234 recognizes the image object of the person (worker) included in the image and the image object of the component. Further, the recognition unit 234 extracts a plurality of feature points from each image object and specifies the position of each of the extracted feature points by coordinates.
  • the recognition unit 234 can add label information to each of the extracted feature points. For example, label information such as a head, a right hand, a left hand, and a right elbow is attached to a feature point of a human image object. Further, the recognition unit 234 adds label information such as a handle and a lid to the feature points of the image object of the component.
  • label information such as a handle and a lid to the feature points of the image object of the component.
  • the type of label information given to the feature points by the recognition unit 234 is not limited to these pieces of information.
  • FIG. 13 is a diagram showing an incidental information list 182 showing incidental information of the second image object shown in FIG.
  • the incidental information of the image object includes the type of the image object, the weight, the size, and the center of gravity of the object indicated by the image object. These incidental information may be stored in the storage unit 210 in advance, or may be estimated based on the feature points included in the image object. For example, information of size (70 mm ⁇ 40 mm ⁇ 5 mm) can be estimated based on a plurality of feature points of an image object.
  • FIG. 14 is a diagram showing a semantic relationship list 184 according to the present embodiment.
  • the semantic relationship list 184 the semantic relationship that "[1] has a weight of 18 kg and a size of 70 mm ⁇ 40 mm ⁇ 5 mm [2]" is registered.
  • [X] indicates the number of the image object in the object recognition list shown in FIG. Therefore, [1] means a person and [2] means a part.
  • the estimated semantic relationship may include other incidental information, for example, information such as the material of the part (for example, metal) may be included.
  • the posture estimation result by the posture estimation unit 237 may be used for the estimation of the semantic relationship. For example, a semantic relationship may be estimated regarding a situation such as "the worker opens his legs and holds a heavy part" or "the worker holds a heavy object at the waist”.
  • the generation unit 270 generates various information according to the estimation result of the semantic estimation unit 230.
  • the function of the generation unit 270 is realized by the cooperation of the load estimation unit 272, the attitude class determination unit 273, the danger level determination unit 274, the information generation unit 276, and the time measurement unit 278.
  • the load estimation unit 272 can estimate the load applied to the person. Specifically, the load estimation unit 272 can estimate the load applied to a person based on the information of the image object, the incidental information, and the posture information related to the estimated semantic relationship.
  • the load estimation unit 272 can acquire the weight and the center of gravity of the object based on the information of the image object of the object and the incidental information.
  • the load estimation unit 272 can estimate the load applied to a person based on the acquired weight and center of gravity of the object, object information and incidental information of the image object of the person, and the like.
  • the load estimation unit 272 may estimate the load by using various known techniques.
  • the posture class determination unit 273 can determine the posture class of a person when the image includes an image object of the person. In the present embodiment, the posture class determination unit 273 can determine the posture class based on a plurality of feature points extracted from a human image object. For example, the posture class determination unit 273 may determine the posture class according to, for example, the bending angle of the waist. More specifically, the posture class determination unit 273 may determine that the larger the bending angle of the waist, the more dangerous the class.
  • the danger level determination unit 274 can determine the danger level of a person's posture based on the feature points extracted from the image object of the person. In the present embodiment, the danger level determination unit 274 can determine the danger level based on the information regarding the posture. For example, the danger level determination unit 274 may determine the danger level based on the posture class determined by the posture class determination unit 273. For example, the danger level determination unit 274 may determine that the danger level is high when the posture class belongs to a more dangerous class.
  • the danger level determination unit 274 may determine the danger level based on information (for example, weight, etc.) about an object (part, etc.) possessed by a person, or a load generated by the object on a person.
  • the danger level is expressed in 5 stages from 1 to 5 using a category called AC (Action Category) level.
  • AC Action Category
  • the higher the value of the danger level the higher the degree of danger.
  • the danger level determination unit 274 may determine the danger level using various known ergonomic warning criteria.
  • the information generation unit 276 can generate various types of information according to the result estimated or determined by the meaning estimation unit 230 or the generation unit 270.
  • the information generated by the information generation unit 276 is transmitted to the communication unit 200 and transmitted to the input / output device 10 via the communication network 15.
  • the semantic relationship between the human image object and the image object of the object estimated by the semantic estimation unit 238 satisfies a specific semantic condition, and is estimated based on the feature points of the human image object.
  • a person's state satisfies a specific state condition, information corresponding to that state may be generated.
  • the specific semantic condition is a condition in which the estimated semantic relationship includes "a person has an object". As described above, in the present embodiment, the presumed semantic relationship includes "the worker has the parts", so that a specific semantic condition is satisfied.
  • the specific state condition may be a condition related to the posture of the person estimated based on the feature points extracted from the image object of the person.
  • the specific state condition may be a condition relating to a person's posture estimated based on the feature points of the person's image object.
  • the specific state condition may be that the posture class determined by the posture class determination unit 273 belongs to the specific class.
  • the information generation unit 276 can generate information according to the posture of the person. Specifically, the information generation unit 276 can generate information (for example, a warning image or a warning voice) to indicate a warning to the user when the posture class belongs to a dangerous class.
  • the specific state condition may be a condition related to the load applied to the person estimated based on the incidental information related to the feature points of the image object of the person and the weight of the image object of the object.
  • the specific state condition may be a condition relating to the magnitude of the load estimated by the load estimation unit 272.
  • the information generation unit 276 can generate information according to the load.
  • the information generation unit 276 can generate information for indicating a warning to the user when the magnitude of the load exceeds a predetermined value.
  • the specific state condition will be described as assuming that the danger level determined by the danger level determination unit 274 is a predetermined level.
  • the information generation unit 276 generates information according to the danger level when the determined danger level exceeds a predetermined danger level. More specifically, the information generation unit 276 can generate information on the display screen indicating that the posture is dangerous, information for warning by voice, and the like. Based on the information generated by the information generation unit 276, the input / output device 10 displays a warning, outputs a warning voice, and the like.
  • the specific state condition may be a condition according to the load applied to a person.
  • a particular condition may be that the load on a person exceeds a predetermined value.
  • the specific state condition may be that the integrated value of the load applied to a person exceeds a predetermined value.
  • the information generation unit 276 may generate screen information for warning that the load is applied, information for warning by voice, and the like. Alternatively, the information generation unit 276 may generate superimposition information for displaying the loaded portion in red, and superimposing information for superimposing incidental information (for example, weight) of an object possessed by a person on the screen. .. In the display unit, the superimposed information generated by the information generation unit 276 is superimposed on the image captured by the image pickup unit 100.
  • the time measurement unit 278 can measure the time. Specifically, the time measuring unit 278 can measure the time by resetting the integration timer or adding the time to the integration timer. For example, the time measuring unit 278 can measure the time during which a predetermined danger level continues.
  • FIG. 15 is a flowchart showing the flow of processing by the information processing system according to the second embodiment.
  • the processing by the computer system according to the second embodiment will be described with reference to the flowchart shown in FIG. While the process shown in FIG. 15 is being executed, the image pickup unit 100 captures an image, and the semantic estimation unit 230 continues to perform recognition of image objects included in the image and estimation of semantic relationships. It is assumed that it is.
  • the time measurement unit 278 resets the integration timer to 0 (step S401).
  • the load estimation unit 272, the attitude class determination unit 273, and the danger level determination unit 274 acquire information such as semantic relations and feature points from the semantic estimation unit 230 (step S403).
  • the load estimation unit 272, the posture class determination unit 273, and the danger level determination unit 274 recognize the semantic relationship including the semantic information that "a person has an object" and the recognition result of an image object related to the semantic relationship. Acquire incidental information, etc.
  • the load estimation unit 272 estimates the load based on the information acquired in step S403 (step S405). Specifically, the load estimation unit 272 may estimate the load applied to the person according to the posture estimated by the posture estimation unit 237 and the incidental information (for example, weight) of the object possessed by the person. .. Next, the posture class determination unit 273 determines the posture class based on the plurality of feature points extracted from the human image object (step S407).
  • the danger level determination unit 274 determines the danger level (step S409). At this time, the danger level determination unit 274 may determine the danger level based on the load calculated in step S405 and the posture class determined in step S407.
  • the danger level determination unit 274 determines whether or not the determined danger level is 4 or higher (step S411). If it is determined that the danger level is less than 4 (step S411: NO), the process proceeds to step S419. On the other hand, if it is determined that the danger level is 4 or more (step S411: YES), the process proceeds to step S413.
  • step S411 YES
  • the information generation unit 276 If YES is determined in step S411, the information generation unit 276 generates emergency warning information (step S413).
  • the emergency warning information is information for displaying an emergency warning screen on the output unit or outputting an emergency warning by voice for a certain period of time.
  • the generated emergency warning information is transmitted to the communication unit 200 and transmitted to the input / output device 10 via the communication network 15.
  • the output unit 104 of the input / output device 10 outputs an emergency warning (step S415).
  • the output unit 104 may display an emergency warning or output an emergency warning by voice based on the emergency warning information generated in step S413.
  • the worker can notice the emergency warning and, for example, correct his / her posture.
  • the processing unit 260 of the information processing apparatus 20 determines whether or not to end the processing (step S417). Specifically, the processing unit 260 determines whether or not to end various processes by the meaning estimation unit 230 and the generation unit 270. For example, when the imaging by the imaging unit 100 is completed, the processing unit 260 may determine that the processing is completed. When it is determined to end the process (step S417: YES), the process shown in FIG. 15 ends. On the other hand, if it is determined that the process is not completed (step S417: NO), the process returns to step S403.
  • step S411 determines whether or not the danger level is 3 or higher (step S419). If it is determined that the danger level is less than 3 (step S419: NO), the process returns to step S401. On the other hand, if it is determined that the danger level is 3 or more (step S419: YES), the process proceeds to step S421.
  • the time measuring unit 278 adds the time in the state where the danger level is 3 to the integrated time (step S421). For example, the time measuring unit 278 may add the time from the previous determination that the danger level is 3 to the current determination that the danger level is 3 to the integrated time.
  • step S423 determines whether or not the state of the danger level 3 has continued for a predetermined time or longer based on the integration timer (step S423). If it is determined that the state of the danger level 3 has not continued for a predetermined time or more (step S423: NO), the process proceeds to step S417. On the other hand, if it is determined that the state of the danger level 3 has continued for a predetermined time or longer (step S423: YES), the process proceeds to step S425.
  • the information generation unit 276 If YES is determined in step S423, the information generation unit 276 generates warning information (step S425).
  • the warning information may be information for displaying the warning on the output unit or information for outputting the warning as voice.
  • the generated warning information is transmitted to the input / output device 10 via the communication network 15.
  • the output unit 104 of the input / output device 10 outputs a warning based on the warning information generated in step S425 (step S427). Specifically, the output unit 104 displays a warning or outputs a warning as voice. This allows the user to correct his or her posture.
  • a person whose semantic relationship between a person's image object and an object's image object estimated by the meaning estimation unit 238 satisfies a specific semantic condition and is estimated based on the feature points of the person's image object. If the state of is satisfied with a specific state condition, information according to the state is generated. Therefore, it is possible to generate a state of a person involved in a semantic relationship that satisfies a specific condition. This makes it possible, for example, to appropriately notify the user of the state of a person.
  • the posture of a person is determined by manually inputting the posture determination result into the device or by attaching a special device to the human body.
  • the main part of the process for determining the posture of a person is automated. Further, since the information processing system 1 can determine the posture using the image captured by the image pickup unit 100, the posture can be determined without contacting a person.
  • FIG. 16 is a diagram showing an example of the hardware configuration of the input / output device 10 and the information processing device 20 according to the embodiment of the present disclosure.
  • the input / output device 10 and the information processing device 20 are a processor 10a having a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit) corresponding to a calculation unit, and a RAM (Random Access Memory) 10b corresponding to the storage units 110 and 210. It has a ROM (Read only Memory) 10c corresponding to the storage units 110 and 210, a communication unit 10d, an input unit 10e, and an output unit 10f. Each of these configurations is connected to each other via a bus so that data can be transmitted and received.
  • ROM Read only Memory
  • the input / output device 10 and the information processing device 20 are configured by one computer
  • the input / output device 10 and the information processing device 20 are realized by combining a plurality of computers. May be good.
  • the configuration shown in FIG. 16 is an example, and the input / output device 10 and the information processing device 20 may have configurations other than these, or may not have a part of these configurations.
  • the calculation unit includes a control unit 108 and a processing unit 220.
  • the CPU 10a is a control unit that controls execution of a program stored in the RAM 10b or ROM 10c, calculates data, and processes data.
  • the CPU 10a is a calculation unit that recognizes an image object included in an image and executes a program (estimation program) for estimating a semantic relationship between a plurality of image objects.
  • the CPU 10a receives various data from the input unit 10e and the communication unit 10d, displays the calculation result of the data in the output unit 10f, and stores the data in the RAM 10b.
  • the RAM 10b is a storage unit in which data can be rewritten, and may be composed of, for example, a semiconductor storage element.
  • the RAM 10b may store data such as a program executed by the CPU 10a, an image, and an estimation result. It should be noted that these are examples, and data other than these may be stored in the RAM 10b, or a part of these may not be stored.
  • the ROM 10c is a storage unit capable of reading data, and may be composed of, for example, a semiconductor storage element.
  • the ROM 10c may store, for example, an estimation program or data that is not rewritten.
  • the communication unit 10d is an interface for connecting the input / output device 10 and the information processing device 20 to other devices.
  • the communication unit 10d may be connected to a communication network such as the Internet.
  • the input unit 10e receives data input from the user, and may include, for example, various buttons, a mouse, a keyboard, and a touch panel.
  • the output unit 10f functions as a display unit or an audio output unit.
  • the output unit 10f may be provided with various display devices such as an LCD (Liquid Crystal Display) and may display various information.
  • the output unit 10f may display, for example, an image, superimposed information, or the like.
  • the output unit 10f may be provided with various audio output devices such as a speaker, and may output various information as audio.
  • the output unit 10f may output a warning as voice, for example.
  • the estimation program may be stored in a storage medium readable by a computer such as RAM 10b or ROM 10c and provided, or may be provided via a communication network connected by the communication unit 10d.
  • a computer such as RAM 10b or ROM 10c and provided
  • various operations described with reference to FIG. 1 and the like are realized by the CPU 10a executing the estimation program.
  • these physical configurations are exemplary, and the input / output device 10 and the information processing device 20 do not necessarily have to be independent configurations.
  • the input / output device 10 and the information processing device 20 may include an LSI (Large-Scale Integration) in which the CPU 10a, the RAM 10b, and the ROM 10c are integrated.
  • LSI Large-Scale Integration
  • each step described with reference to FIGS. 8 to 10 and 15 may be executed in chronological order in the order described in the present specification, and the processing of each step may be performed as long as there is no contradiction. May be executed in a different order than the one described above. Further, the processing of each step may be executed in series as described in the present specification, or the processing of a plurality of steps may be executed in parallel.
  • the meaning estimation unit 230 of the information processing apparatus 20 performs meaning estimation, and the result of the meaning estimation is transmitted to a subsequent functional unit (for example, generation units 240 and 270).
  • the functional unit in the subsequent stage of the meaning estimation unit 230 may include the meaning estimation unit.
  • the semantic estimation unit 230 may partially estimate the semantic relationship, and the subsequent functional unit may additionally estimate the semantic relationship specific to the application.
  • the information processing apparatus 20 has been described as executing a process such as estimation of a semantic relationship based on one image.
  • the information processing apparatus 20 may execute various processes by using the relationship with a plurality of images.
  • the semantic estimation unit 238 may estimate the semantic relationship based on the positional relationship of a specific image object included in each of a plurality of images arranged in chronological order.
  • the semantic estimation unit 238 uses the feature points of a specific image object (for example, the feature points of a human hand or the features of a specific part of the object) included in a plurality of images arranged in a plurality of time series.
  • the semantic relationship can be estimated based on the positional relationship of the points). For example, the semantic estimation unit 238 can estimate the semantic relationship indicating whether the worker is lifting the object or the worker is lowering the object.
  • the information processing apparatus 20 has been described as functioning as a server on the cloud, but the present invention is not limited to this.
  • the information processing device 20 may be configured integrally with the input / output device 10.
  • 1 Information processing system, 10 ... Input / output device, 100 ... Imaging unit, 104 ... Output unit, 108 ... Control unit, 110 ... Storage unit, 120 ... Image, 130 ... Human object, 132, 134, 136, 138, 140 , 142, 144, 146, 148, 150, 152, 162, 164, 168 ... Feature points, 160 ... Club object, 166 ... Ball object, 170, 180 ... Image object list, 174, 184 ... Semantic relationship list, 182 ... Ancillary information list, 20 ... Information processing device, 210 ... Storage unit, 212 ... Related information list, 232 ... Image acquisition unit, 234 ... Recognition unit, 236 ...
  • Ancillary information estimation unit 237 ... Attitude estimation unit, 238 ... Semantic estimation unit , 244 ... Index generation unit, 246 ... Feature point information generation unit, 272 ... Load estimation unit, 273 ... Attitude class determination unit, 274 ... Danger level determination unit, 276 ... Information generation unit, 278 ... Time measurement unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部210と、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する意味推定部238と、 を備える、情報処理装置20。

Description

情報処理装置、情報処理方法及びプログラム 関連出願の相互参照
 本出願は、2020年8月7日に出願された日本特許出願番号2020-134847に基づくもので、ここにその記載内容を援用する。
 本発明は、情報処理装置、情報処理方法及びプログラムに関する。
 従来、画像に含まれる複数の画像オブジェクト(例えば、人又は物体の画像オブジェクト)の関係を推定する技術がある。
 例えば、特許文献1には、画像と、その画像に含まれる複数の物体間の関係とを対応付けた学習データに基づいて学習済みモデルを生成し、その学習済みモデルを用いて画像に含まれる物体間の関係を認識する技術が記載されている。
 また、特許文献2には、画像に含まれる人の領域及び物体の領域を検出し、人の姿勢とその人の周囲に存在する物体との位置関係に応じて、人の行動を判別する技術が記載されている。
特開2019-101907号公報 特開2018-206321号公報
 しかしながら、特許文献1に記載の技術では、様々な物体間の関係を学習済みモデルに推定させるためには、それぞれの物体間の関係をモデルに学習させる必要がある。このため、特許文献1に記載の技術では、複数の物体について、学習していない未知の関係を推定できない。また、特許文献2に記載の技術では、人の領域に基づき行動が判別されるため、人の行動を詳細に判別することができない。このため、画像に含まれる人と物体の関係をより詳細に推定できる技術が求められていると考えられる。
 そこで、本発明は、画像に含まれる複数の画像オブジェクトについて、多様な関係をより詳細に推定することを可能とする情報処理装置、情報処理方法及びプログラムを提供することを目的とする。
 本発明の一態様に係る情報処理装置は、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部と、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する意味推定部と、を備える。
 この態様によれば、予め指定された関係情報に基づいて、意味関係が推定される。ユーザは、所望に応じた様々な関係情報を設定できるため、複数の画像オブジェクトについて、より多様な関係の推定が可能となる。また、複数の画像オブジェクトの間の関係の推定には、画像オブジェクトの特徴点が用いられるため、より詳細な関係の推定が可能となる。
 上記態様において、意味推定部は、画像オブジェクトに付帯する付帯情報に基づいて、複数の画像オブジェクトの間の意味関係を推定してもよい。
 この態様によれば、関係情報に加えて、意味関係の推定に画像オブジェクトに応じた情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
 上記態様において、複数の画像オブジェクトは、人の画像オブジェクトを含み、付帯情報は、人の年齢、性別、体格、筋力、運動能力、装備品又は携行品の少なくともいずれかに関する情報を含んでもよい。
 この態様によれば、人の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
 上記態様において、複数の画像オブジェクトは、人の画像オブジェクトを含み、付帯情報は、人の画像オブジェクトの特徴点に基づき推定される人の位置、体格、姿勢及び向きの少なくともいずれかに関する情報を含んでもよい。
 この態様によれば、実際の人の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
 上記態様において、複数の画像オブジェクトは、物体の画像オブジェクトを含み、付帯情報は、物体の重さ、材質、重量分布及び重心の少なくともいずれかに関する情報を含んでもよい。
 この態様によれば、物体の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
 上記態様において、複数の画像オブジェクトは、物体の画像オブジェクトを含み、付帯情報は、物体の画像オブジェクトの特徴点に基づき推定される物体の位置、大きさ、形状及び向きの少なくともいずれかに関する情報を含んでもよい。
 この態様によれば、実際の物体の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
 上記態様において、複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、複数の画像オブジェクトの間の意味関係は、人による物体への動作、動作の目的又は物体が人に与える影響のうちの少なくともいずれかを含んでもよい。
 この態様によれば、より適切な意味関係を推定することが可能となる。
 上記態様において、複数のオブジェクトのそれぞれに含まれる特徴点は、第1ラベル情報が付与されている特徴点と、第1ラベル情報と特定の関係にある第2ラベル情報が付与された特徴点とを含み、意味推定部は、第1画像オブジェクトから抽出される第1ラベル情報が付与された特徴点と、第2ラベル情報が付与された第2画像オブジェクトの特徴点との空間的関係と関係情報とに基づいて、第1画像オブジェクトと第2画像オブジェクトの間の意味関係を推定してもよい。
 この態様によれば、特定の関係にある特徴点に基づいて意味関係が推定されるため、より正確に意味関係を推定することが可能となる。
 上記態様において、複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、意味推定部により推定された人の画像オブジェクト及び物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、人の画像オブジェクトの特徴点に基づき推定される人の状態が特定の状態条件を満たす場合には、状態に応じた情報を生成する情報生成部を、さらに備えてもよい。
 この態様によれば、特定の条件を満たす画像オブジェクトに係る情報が生成されるため、ユーザが所望する情報が生成され易くなる。
 上記態様において、状態条件は、人の画像オブジェクトの特徴点に基づき推定される人の姿勢に関する条件を含み、情報生成部は、人の姿勢に応じた情報を生成してもよい。
 この態様によれば、ユーザは、画像に含まれる人の姿勢に関して、姿勢に応じた適切な情報を取得することが可能となる。
 上記態様において、状態条件は、人の画像オブジェクトの特徴点及び物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される人にかかる負荷に関する条件を含み、情報生成部は、負荷に応じた情報を生成してもよい。
 この態様によれば、人にかかる負荷が所定の条件を満たす場合には、ユーザは、その負荷に関する適切な情報を取得することが可能となる。
 上記態様において、画像は、複数の画像オブジェクトを含み、意味推定部は、複数の画像オブジェクトのそれぞれについて意味関係を推定し、特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、特定の条件に応じた情報を生成する特徴点情報生成部を、さらに備えてもよい。
 この態様によれば、画像に多くの画像オブジェクトが含まれる場合であっても、特定の条件を満たす画像オブジェクトに着目した情報を取得できる。
 本発明の他の態様に係る情報処理方法は、メモリ及びプロセッサを備える情報処理装置による情報処理方法であって、メモリが、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、プロセッサが、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定することと、を含む。
 この態様によれば、予め指定された関係情報に基づいて、意味関係が推定される。ユーザは、所望に応じた様々な関係情報を設定できるため、複数の画像オブジェクトについて、より多様な関係の推定が可能となる。また、複数の画像オブジェクトの間の関係の推定には、画像オブジェクトの特徴点が用いられるため、より詳細な関係の推定が可能となる。
 本発明の他の態様に係るプログラムは、コンピュータに、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定することと、を実行させるためのプログラムである。
 この態様によれば、予め指定された関係情報に基づいて、意味関係が推定される。ユーザは、所望に応じた様々な関係情報を設定できるため、複数の画像オブジェクトについて、より多様な関係の推定が可能となる。また、複数の画像オブジェクトの間の関係の推定には、画像オブジェクトの特徴点が用いられるため、より詳細な関係の推定が可能となる。
 本発明によれば、画像に含まれる複数の画像オブジェクトについて、多様な関係をより詳細に推定することを可能とする情報処理装置、情報処理方法及びプログラムを提供することができる。
第1実施形態に係る情報処理システムの構成概略図である。 同実施形態に係る記憶部に記憶された関係情報リストの一例を示す図である。 同実施形態に係る処理部の構成の一例を示す機能ブロック図である。 同実施形態に係る撮像部が撮像する画像及び認識部の認識結果を示す図である。 同実施形態に係る認識部が画像に基づき認識した画像オブジェクト及び抽出した特徴点に関する情報をリスト化した画像オブジェクトリストを示す図である。 図5に示した2番の画像オブジェクトの付帯情報を表す付帯情報リストを示す図である。 意味推定部が意味関係を推定した結果をリストにした意味関係リストを示す図である。 本実施形態に係る情報処理装置が、画像に含まれる複数の画像オブジェクトの間の意味関係を推定する処理の流れを示すシーケンス図である。 図8の意味推定処理の詳細を示すフローチャートである。 第1実施形態に係る情報処理システムが意味推定ユニットによる意味推定に応じた情報を生成し、生成した情報を表示するまでの処理を示すフローチャートである。 第2実施形態に係る情報処理装置が備える処理部の機能ブロック図である。 同実施形態に係る意味推定ユニットの認識部が、第2実施形態に係る画像に含まれる画像オブジェクトを認識した結果を示す画像オブジェクトリストを示す図である。 図12に示した2番の画像オブジェクトの付帯情報を表す付帯情報リストを示す図である。 第2実施形態に係る意味関係リストを示す図である。 同実施形態に係る情報処理システムによる処理の流れを示すフローチャートである。 本開示の一実施形態に係る入出力装置及び情報処理装置のハードウェア構成の一例を示す図である。
 添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
 [第1実施形態]
 図1を参照して、第1実施形態に係る情報処理システム1について説明する。本実施形態に係る情報処理システム1は、主として、入出力装置10及び情報処理装置20を備える。入出力装置10及び情報処理装置20は、通信ネットワーク15を介して、互いに通信可能に接続されている。本実施形態では、情報処理装置20は、クラウド上のサーバとして機能するものとする。
 通信ネットワーク15は、各種の態様を取り得る。通信ネットワーク15は、例えば、専用回線を通して相互に接続するデータ伝送ネットワーク(WAN)又はローカル・エリア・ネットワーク(LAN)等であってよい。本実施形態では、通信ネットワーク15は、公共ネットワークの代表のインターネットであるものとして説明する。
 入出力装置10は、情報の入力及び出力等を行ったり、情報処理装置20と各種の情報の送受信を行ったりできる。入出力装置10が有する機能は、撮像部100、入力部102、出力部104、通信部106、制御部108及び記憶部110が協働することにより実現される。
 撮像部100は、RGBカメラ、赤外線カメラ、ToF(Time of Flight)カメラ又はレーザーレンジファインダ等の各種の撮像装置を含む。撮像部100は、静止画像または動画像などの画像を撮像する。撮像部100が撮像する画像は、2次元又は3次元の画像であって良いが、本実施形態では、撮像される画像は2次元の画像であるものとする。
 また、本実施形態では、撮像部100は、ゴルフ場の画像を撮像する。例えば、撮像部100は、1人又は複数のゴルフプレイヤ等を含む画像を撮像する。撮像部100は、撮像した画像を記憶部110に記憶させてもよいし、撮像した画像を制御部108に伝送してもよい。
 入力部102は、ユーザの操作に応じて各種の入力情報を生成し、生成した入力情報を制御部108に伝送する。
 出力部104は、各種の情報を出力できる。具体的には、出力部104は、各種の情報を表示できる表示部及び各種の音声を出力できる音声出力部を備える。例えば、出力部104の表示部は、撮像部100により撮像された画像及び情報処理装置20による演算結果等を表示できる。あるいは、出力部104の音声出力部は、情報処理装置20による演算結果等に応じて、音声を出力できる。
 通信部106は、各種の情報を他の装置と送受信できる。例えば、通信部106は、通信ネットワーク15を介して、情報処理装置20と各種の情報を送受信できる。例えば、通信部106は、撮像部100により撮像された画像を情報処理装置20に送信できる。あるいは、通信部106は、情報処理装置20から各種の情報処理の結果(例えば、意味関係の推定結果及び推定結果に基づき生成された情報等)を受信できる。通信部106は、受信した情報を制御部108に伝送する。
 制御部108は、入出力装置10が備える各種の機能を制御する。具体的には、制御部108は、出力部104の出力及び通信部106の送受信等を制御する。例えば、制御部108は、出力部104による画面の表示及び音声の出力等を制御できる。また、制御部108は、記憶部110に記憶されている各種の情報を用いて、各種の機能を制御できる。
 記憶部110は、各種の情報を記憶する。例えば、記憶部110は、撮像部100が撮像した画像及び情報処理装置20の処理結果等を記憶する。記憶部110が記憶している各種の情報は、必要に応じて制御部108により用いられる。
 情報処理装置20は、各種の情報処理を実行する。本実施形態では、情報処理装置20は、入出力装置10から画像を受信し、その画像に含まれる複数の画像オブジェクトの間の意味関係を推定し、推定結果に応じた情報を入出力装置10に送信できる。情報処理装置20が有する機能は、通信部200、記憶部210及び処理部220が協働することにより実現される。
 通信部200は、各種の情報を他の装置と送受信できる。例えば、通信部200は、通信ネットワーク15を介して、入出力装置10から画像を受信できる。あるいは、通信部200は、通信ネットワーク15を介して、情報処理装置20による情報処理の結果を入出力装置10に送信できる。
 記憶部210は、各種の情報を記憶する。例えば、記憶部210は、処理部220による情報処理に用いられる情報(画像等)及び処理部220による情報処理の結果等を記憶する。記憶部210が記憶している各種の情報は、必要に応じて処理部220により参照される。
 また、記憶部210は、各種の対象オブジェクトに付帯する付帯情報を記憶してよい。対象オブジェクトは、画像に含まれ得るオブジェクトであり、例えば人あるいは各種の物体等を示すオブジェクトである。付帯情報は、処理部220により参照され、各種の情報処理に用いられてよい。
 付帯情報は、例えば、対象オブジェクトが特定の人のオブジェクトである場合には、特定の人の年齢、性別、体格、筋力、運動能力、装備品又は携行品等に関する情報を含んでよい。また、対象オブジェクトが物体のオブジェクトである場合には、物体の重さ、材質、重量分布及び重心等に関する情報を含んでよい。このように、付帯情報は、画像のみに基づいて正確に推定できない情報を含み得る。
 また、記憶部210は、画像に含まれる画像オブジェクトから特徴点を抽出するための情報を記憶してよい。ここで、特徴点は、画像オブジェクトに含まれる特徴的な部分を示す情報である。例えば、記憶部210は、画像に含まれる画像オブジェクトの特徴点に関する情報がアノテーションされた画像を学習データとして、所定の機械学習アルゴリズムに基づき構築された学習済みモデルを記憶してよい。特徴点に関する情報は、例えば、その特徴点を含む画像オブジェクトの種類(例えば、人あるいは物体等)又はラベル情報(人の手、肩又は足等)を含んでよい。
 また、記憶部210は、各種の学習済みモデルを記憶してよい。例えば、学習済みモデルは、抽出された特徴点に基づいて、人の姿勢を推定するように学習された学習済みモデルであってもよい。
 また、記憶部210は、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する。空間的関係は、例えば、位置関係、距離関係、方向関係及び密度関係等を含んでよい。ここで、密度関係は、画像における特徴点の密度を規定する情報であり、例えば、所定の範囲にいくつの特徴点が存在するかを規定する情報であってよい。
 また、複数の対象オブジェクトの間の意味情報は、複数の対象オブジェクトの間の意味を定義した情報である。例えば、複数の対象オブジェクトの間の意味情報は、人による物体への動作(例えば、物体の使用方法等)、動作の目的又は物体が人に与える影響のうちの少なくともいずれかを含んでよい。例えば、意味情報は、特定の画像オブジェクトが他の画像オブジェクトに何を行っているのかを示す情報(動作の目的)であり得る。
 ここで、対象オブジェクトの数が3つである場合を例に説明する。3つの対象オブジェクトのそれぞれを第1オブジェクト、第2オブジェクト及び第3オブジェクトと称する。また、第1オブジェクトは少なくとも1つの第1特徴点を含み、第2オブジェクトは少なくとも1つの第2特徴点を含み、第3オブジェクトは少なくとも1つの第3特徴点を含むものとする。この場合、関係情報は、これらの特徴点(すなわち、第1特徴点、第2特徴点及び第3特徴点)の空間的関係と、3つの対象オブジェクト(すなわち、第1オブジェクト、第2オブジェクト及び第3オブジェクト)の間の意味情報を関連付けた情報を含む。なお、ここでは、対象オブジェクトの数が3つである例について説明したが、対象オブジェクトの数は2つであってもよいし、4つ以上であってもよい。以下の説明では、主に、対象オブジェクトの数が2つである例を説明する。
 図2を参照して、複数の対象オブジェクトの空間的関係及び意味情報の具体例と、それらの情報の関係について説明する。図2は、本実施形態に係る記憶部210に記憶された関係情報リスト212の一例を示す図である。図2に示す関係情報リスト212には、No1~No4の4つの関係定義が含まれている。それぞれの関係定義は、対象オブジェクトの種類、対象オブジェクトの特徴点のラベル、複数の画像オブジェクトの空間的関係及び複数の画像オブジェクトの間の意味情報を含んでいる。また、それぞれの関係定義は、空間的関係と意味情報とを関連付ける関係情報である。以下では、No1~No4の関係定義を、第1~第4関係定義と称する。
 これらの関係定義は、後述するように、画像に含まれる複数の画像オブジェクトの間の意味関係を推定するために用いられる。複数の画像オブジェクトの間の意味関係は、複数の画像オブジェクトの間の関係を意味づける情報である。本実施形態では、画像に含まれる複数の画像オブジェクトの空間的関係が、関係定義に含まれる空間的関係を満たす場合には、その関係定義に含まれる意味情報に基づき意味関係が推定される。意味関係の推定の詳細については、図3を参照して後述する。ここでは、関係情報リスト212の内容について説明する。
 例えば、第1関係定義は、人の対象オブジェクトとゴルフクラブの対象オブジェクトとの関係定義である。具体的には、第1関係定義は、人の右手及び左手の特徴点とゴルフクラブのグリップの特徴点との空間的関係と、人の対象オブジェクト及びゴルフクラブの対象オブジェクトの間の意味情報とを関連付けている。
 本実施形態に係る関係定義では、あるラベル情報が付与された特徴点と、そのラベル情報と特定の関係にある他のラベル情報が付与された特徴点の空間的関係が規定されている。第1関係定義の空間的関係では、ゴルフクラブのグリップの特徴点と、グリップに関係する人の右手及び左手の特徴点について規定されている。具体的には、第1関係定義の空間的関係は、第1関係定義に関わる全ての特徴点(すなわち、人の右手及び左手の特徴点と、ゴルフクラブのグリップの特徴点)が互いに近接していることを規定している。ここで、3つの特徴点が近接していることは、3つの特徴点の間の距離が所定値(例えば10cm)以内であることであってよい。すなわち、第1関係定義の空間的関係は、第1関係定義に関わる3つ全ての特徴点の距離が、10cm以内となっていることであってよい。なお、所定値は10cm以内に限定されるものではなく、任意の距離を設定してよい。
 また、第1関係定義の意味情報は、「人がゴルフクラブを持っている」という情報である。したがって、第1関係定義は、右手、左手及びグリップのいずれの特徴点も近接していることは、人がゴルフクラブを持っていることを意味することを定義している。
 また、関係定義には、複数の空間的関係が含まれてよい。例えば、第2関係定義には、(a)人の右手、左手及びゴルフクラブのグリップのそれぞれの特徴点が互いに近接していることと、(b)ゴルフクラブのヘッドの特徴点が人の頭の特徴点よりも上にあることとの2つの空間的関係が含まれている。これらの2つの空間的関係を、画像に含まれる複数の画像オブジェクトの空間的関係が満たす場合には、第2関係定義に含まれる意味情報「人がゴルフクラブを振りかぶっている」に基づいて、意味関係が推定される。
 また、第3関係定義は、人の対象オブジェクトと部品の対象オブジェクトとの関係定義であり、2つの空間的関係を含んでいる。第1~第3関係定義は、人の対象オブジェクトと物体の対象オブジェクトとの関係定義であるが、これに限定されるものではなく、関係定義は、例えば、物体の対象オブジェクトと物体の対象オブジェクトとの関係定義であってもよいし、人の対象オブジェクトと人の対象オブジェクトとの関係定義であってもよい。
 第4関係定義は、物体の対象オブジェクトと物体の対象オブジェクトとの関係定義である。具体的には、第4関係定義は、自動車の対象オブジェクトと自転車の対象オブジェクトとの関係定義である。具体的には、第4関係定義では、自動車の屋根の特徴点と、自転車の前輪及び後輪の特徴点との空間的関係と、自動車及び自転車の間の意味情報とが関連付けられている。
 第4関係定義の空間的関係は、自転車の前輪及び後輪の特徴点が、自動車の屋根の特徴点に近接していることである。また、第4関係定義の意味情報は、「自転車が自動車の屋根に搭載されている」ことである。
 なお、関係情報リスト212に含まれ得る意味情報は、図2に示す例に限定されるものではない。各種の意味情報が、空間的関係に関連付けられて定義され得る。例えば、意味情報は、「人がゴルフクラブでボールを打ち抜いた」等の情報であってよい。
 その他、対象オブジェクトの種類が人及びゴルフクラブである場合には、意味情報は、「人がアプローチしようとしている」という情報であってよい。この意味情報に関連付けられる空間的関係は、例えば、人の左右の手の特徴点とゴルフクラブのグリップ及びシャフト上部の特徴点とが近接しており、ゴルフクラブが垂直方向に伸びている(より具体的には、ゴルフクラブのシャフトの伸びる方向が、人が立っている方向と平行になっている。)ことであってよい。
 あるいは、意味情報は、「人がテイクバックしている」という情報であってよい。この意味情報に関連付けられる空間的関係は、人の左右の手の特徴点とゴルフクラブのグリップ及びシャフト上端の特徴点とが近接しており、ゴルフクラブのヘッドの特徴点が下方を起点に弧を描きつつ上方に移動していることであってよい。さらに、意味情報が「人がダウンスイングしている」という情報である場合には、その意味情報には、人の左右の手の特徴点とゴルフクラブの上端の特徴点とが近接しており、ゴルフクラブのヘッドの特徴点が弧を描きつつ下方に移動していることを示す空間的関係が関連付けられてよい。
 図1に戻って、情報処理装置20の処理部220について説明する。処理部220は、各種の情報処理を実行する。処理部220は、記憶部210に記憶されている各種の情報(例えば、画像、付帯情報、関係情報リスト及び各種の学習済みモデル等)を用いて、各種の情報処理を実行できる。また、処理部220は、実行した情報処理の結果(例えば、意味関係の推定結果等)を通信部200に伝送できる。
 図3は、本実施形態に係る処理部220の構成の一例を示す機能ブロック図である。処理部220は、図3に示すように、意味推定ユニット230及び生成ユニット240を備える。
 意味推定ユニット230は、画像に含まれる画像オブジェクトを認識したり、画像に含まれる複数の画像オブジェクトの意味推定を行ったりできる。意味推定ユニット230が実行する処理は、画像取得部232、認識部234、付帯情報推定部236、姿勢推定部237及び意味推定部238が協働することにより実現される。
 画像取得部232は、各種の画像を取得し、取得した画像を認識部234に伝送できる。画像取得部232は、例えば、撮像部100が撮像した画像を取得してもよいし、情報処理装置20の記憶部210に記憶されている画像を取得してもよい。また、撮像部100が動画像を撮像したり、記憶部210に動画像が記憶されていたりする場合には、画像取得部232は、動画像に含まれる特定のタイミングの静止画像を取得してよい。本実施形態では、画像取得部232は、撮像部100が撮像した静止画像を取得する。
 また、本実施形態では、画像取得部232が取得する画像には、2人以上の人の画像オブジェクトが含まれており、ゴルフクラブを持っている人の画像オブジェクトが含まれているものとする。
 認識部234は、画像に基づいて、各種の情報を抽出あるいは認識し、抽出あるいは認識した結果を付帯情報推定部236、姿勢推定部237及び意味推定部238に伝送できる。例えば、認識部234は、画像に含まれる特徴点を抽出できる。具体的には、認識部234は、記憶部210に記憶されている、所定の機械学習アルゴリズムに基づき構築された学習済みモデルを用いて、画像から特徴点を抽出できる。
 また、認識部234は、抽出した特徴点に各種の情報を付与できる。例えば、認識部234は、番号、位置情報及びラベル情報等を付与できる。位置情報は、画像における特徴点の位置を特定する情報であり、本実施形態では、二次元の座標で表現される。なお、画像が三次元画像である場合には、位置情報は例えば三次元の座標で表現されてよい。また、ラベル情報は、画像オブジェクトに含まれる他の特徴点と区別する情報である。例えば、画像オブジェクトが人の画像オブジェクトである場合には、ラベル情報は、人の頭、腕、肩、腰及び足等を示す情報であってよい。
 本実施形態では、認識部234は、画像から複数の特徴点を抽出し、抽出した特徴点にラベル情報を付与できる。また、認識部234は、抽出した特徴点の集合に基づいて、画像オブジェクトを認識できる。さらに、認識部234は、認識した画像オブジェクトの種類(例えば、人あるいはゴルフクラブ等)を特定できる。例えば、認識部234は、複数の特徴点(人の手、頭、肩及び足等)の集合に基づいて、それらの特徴点を含む画像オブジェクトが人の画像オブジェクトであることを認識できる。
 なお、認識部234が特徴点及び画像オブジェクトを認識する方法は、特徴点を抽出した後に、抽出した特徴点の集合に基づいて画像オブジェクトを認識する上記方法(ボトムアップ方式)に限定されるものではない。例えば、認識部234が特徴点及び画像オブジェクトを認識する方法は、画像に含まれる画像オブジェクトを認識した後に、認識した画像オブジェクトに含まれる特徴点を抽出する方法(トップダウン方式)であってもよい。
 図4を参照して、本実施形態に係る認識部234の認識結果について説明する。図4は、本実施形態に係る撮像部100が撮像する画像120及び認識部234の認識結果を示す図である。画像120は、人の画像オブジェクト(以下、「人オブジェクト130」とも称する。)と、ゴルフクラブの画像オブジェクト(以下、「クラブオブジェクト160」とも称する。)と、ゴルフボールの画像オブジェクト(以下、「ボールオブジェクト166」とも称する。)を含む。なお、画像120には、複数の人の画像オブジェクトが含まれているが、図4では省略されているものとする。
 認識部234は、人オブジェクト130、クラブオブジェクト160及びボールオブジェクト166のそれぞれについて特徴点を抽出し、抽出した特徴点のそれぞれにラベル情報を付与できる。図4には、それぞれの画像オブジェクトから抽出された特徴点が丸印で示されている。具体的には、人オブジェクト130について、顔の特徴点132、右肩の特徴点134、右肘の特徴点136、右手の特徴点138、左肩の特徴点140、左肘の特徴点142、左手の特徴点144、右腰の特徴点146、右足(の先)の特徴点148、左腰の特徴点150及び左足(の先)の特徴点152が抽出されている。また、クラブオブジェクト160について、グリップの特徴点162及びヘッドの特徴点164が抽出されている。さらに、ボールオブジェクト166について、中心の特徴点168が抽出されている。
 また、特定の条件を満たす特徴点同士は直線により接続されている。具体的には、ラベル情報が所定の条件を満たす特徴点同士が直線により接続されている。例えば、人オブジェクト130の右足の特徴点148及び右腰の特徴点146は、直線により接続されている。
 認識部234は、画像オブジェクトから抽出した特徴点に基づいて、画像オブジェクトの種類を特定できる。例えば、認識部234は、複数の特徴点の空間的関係に基づいて画像オブジェクトの種類を出力するように学習された学習済みモデルを用いて、画像オブジェクトの種類を特定してよい。例えば、認識部234は、人オブジェクト130から抽出された特徴点に基づいて、人オブジェクト130の種類が人であることを特定できる。また、認識部234は、クラブオブジェクト160から抽出された特徴点に基づいて、クラブオブジェクト160の種類がゴルフクラブであることを特定できる。
 図5は、本実施形態に係る認識部234が画像120に基づき認識した画像オブジェクト及び抽出した特徴点に関する情報(以下、「画像オブジェクト情報」と称する。)をリスト化した画像オブジェクトリスト170を示す図である。画像オブジェクトリスト170には、番号がそれぞれ付与された画像オブジェクト情報が含まれている。例えば、画像オブジェクトリスト170には、2つの人の画像オブジェクト情報及び1つのゴルフクラブの画像オブジェクト情報が含まれている。なお、2つの人の画像オブジェクトのそれぞれは、互いに異なる人の画像オブジェクトであるものとする。
 1番の画像オブジェクトは、図4に示す人オブジェクト130に対応し、2番の画像オブジェクトは、図4に示すクラブオブジェクト160に対応しているものとする。また、3番の画像オブジェクトは、図4に示す画像120において省略されているものとする。また、図5に示す特徴点は、図4に示す画像120において省略されている特徴点(例えば、ゴルフクラブのシャフトの特徴点)を含むものとする。
 図3に戻って、処理部220が備える付帯情報推定部236について説明する。付帯情報推定部236は、画像オブジェクトに付帯する付帯情報を推定できる。例えば、付帯情報推定部236は、記憶部210に記憶されている情報を参照して、画像オブジェクトに対応する対象オブジェクトの付帯情報を、画像オブジェクトの付帯情報として推定できる。例えば、記憶部210には、ゴルフクラブの対象オブジェクトの付帯情報が記憶されているとする。この場合、付帯情報推定部236は、その付帯情報をクラブオブジェクト160の付帯情報として推定できる。
 また、付帯情報推定部236は、画像オブジェクトから抽出される特徴点に基づいて、画像オブジェクトの付帯情報を推定できる。例えば、付帯情報推定部236は、人の画像オブジェクトから抽出される複数の特徴点の位置関係等に基づき、人の位置、体格及び向き等を推定できる。あるいは、付帯情報推定部236は、物体の画像オブジェクトから抽出される複数の特徴点の位置関係等に基づき、物体の位置、大きさ、形状及び向き等を推定できる。
 図6は、図5に示した2番の画像オブジェクトの付帯情報を表す付帯情報リスト181を示す図である。付帯情報リスト181には、付帯情報として、ゴルフクラブの重さ(300g)、長さ(1.2m)及び重心位置(ヘッドからシャフト方向に30cm)が含まれている。なお、付帯情報リスト181には、付帯情報推定部236により推定された付帯情報が含まれてよく、例えば、ゴルフクラブの長さは推定された付帯情報であってよい。一方、ゴルフクラブの重さ及び重心位置は、記憶部210に予め記憶されている付帯情報であってよい。付帯情報リスト181は、必要に応じて意味推定部238により参照される。
 図3に戻って、処理部220が備える姿勢推定部237について説明する。姿勢推定部237は、人の画像オブジェクトから抽出される複数の特徴点に基づき、人の姿勢を推定し、推定した結果を意味推定部238に伝送できる。例えば、姿勢推定部237は、各種の機械学習アルゴリズムに基づき構築された学習済みモデルを用いて、人の姿勢を推定してよい。
 あるいは、姿勢推定部237は、人の画像オブジェクトから抽出される複数の特徴点の空間的関係(例えば、位置関係等)に基づいて、人の姿勢を推定してよい。例えば、姿勢推定部237は、各種の関節の特徴点の位置関係に基づいて、人の姿勢を推定してよい。例えば、姿勢推定部237は、座っている姿勢、立っている姿勢又は足を開いている姿勢等の各種の姿勢を推定できる。姿勢推定部237は、推定した結果を意味推定部238に伝送する。
 意味推定部238は、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と、関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する。これにより、意味推定部238は、人や物体を含む複数の画像オブジェクトの特徴点を抽出し、ルールベースで意味関係を推定するため、画像に複数の人や複数の物体が存在する場合であっても、複数の人のうち特定の人の画像オブジェクトの特徴点と複数の物体のうち特定の物体の画像オブジェクトの特徴点との空間的関係のルールに基づいて、特定の人の画像オブジェクトと特定の物体の画像オブジェクトとの間の意味関係を推定できる。本実施形態では、意味推定部238は、図2を参照して説明した関係定義に含まれる関係情報を用いて、複数の画像オブジェクトの間の意味関係を推定する。ここでは、画像に含まれる人の画像オブジェクトと、その人が持っているゴルフクラブの画像オブジェクトに着目して、意味推定部238による意味推定を説明する。
 まず、意味推定部238は、認識部234により認識された人オブジェクト130の特徴点と、クラブオブジェクト160の特徴点との空間的関係を特定する。これにより、意味推定部238は、人の画像オブジェクトおよび物体の画像オブジェクトそれぞれに含まれる特徴点をリアルタイムで抽出することで、人が動いている場合のみならず、物体が動いている場合であっても、位置が変化する人と物体との空間的関係を特定することができる。ここでは、これらの画像オブジェクトの特徴点の空間的関係が、図2に示した第1関係定義の空間的関係を満たしているものとする。すなわち、人の両手(右手及び左手)の特徴点とゴルフクラブのグリップの特徴点とが近接しているものとする。
 本実施形態では、意味推定部238は、ある画像オブジェクトから抽出されるラベル情報が付与された特徴点と、その特徴点と特定の関係にあるラベル情報が付与された画像オブジェクトの特徴点との空間的関係に基づいて、それらの画像オブジェクトの間の意味関係を推定する。ここでは、ゴルフクラブのグリップと人の両手とが、特定の関係にあるものとする。このため、意味推定部238は、これらのラベル情報が付与された特徴点に基づいて、人オブジェクト130及びクラブオブジェクト160の間の意味関係を推定できる。具体的には、意味推定部238は、第1関係定義に基づいて、「人がゴルフクラブを持っている」と推定できる。
 なお、人がゴルフクラブを持っている場合に、人の手がゴルフクラブのグリップを覆っており、画像からゴルフクラブのグリップの特徴点が抽出されない場合が考えられる。この場合には、意味推定部238は、グリップの特徴点を用いずに、「人がゴルフクラブを持っている」ことを推定してもよい。例えば、人の肘(右肘又は左肘)の特徴点から人の手(右手又は左手)の特徴点に向かう延長線を基準とした、所定の範囲内にゴルフクラブのヘッドの特徴点が存在し、ヘッドの特徴点から人(例えば、人の手等)に向かってゴルフクラブのシャフトが伸びているとする。この場合には、意味推定部238は、ゴルフクラブのグリップの特徴点が抽出されなくても、「人がゴルフクラブを持っている」という動作を推定できる。
 あるいは、意味推定部238は、人オブジェクト130、クラブオブジェクト160の特徴点に加えて、ゴルフボールの画像オブジェクトの特徴点を用いて、意味関係を推定してもよい。例えば、意味推定部238は、「人がゴルフクラブでゴルフボールを打とうとしている」という意味関係を推定してよい。このように、本実施形態に係る意味推定部238は、物体を用いた人の動作の目的を推定できる。
 また、意味推定部238は、画像オブジェクトに付帯する付帯情報に基づいて、複数の画像オブジェクトの間の意味関係を推定できる。意味推定部238が意味推定に用いる付帯情報は、記憶部210に予め記憶されている付帯情報であってもよいし、付帯情報推定部236により推定された付帯情報であってもよい。
 例えば、ゴルフクラブの画像オブジェクトには、重さ300g及び大きさ1.2m等の付帯情報が付与されているとする。意味推定部238は、その付帯情報を関係定義に含まれる意味情報に基づいて、意味情報を推定できる。例えば、意味推定部238は、意味情報を意味関係として推定してもよいし、意味情報に各種の情報(例えば付帯情報)を付加した情報を意味関係として推定してよい。例えば、意味推定部238は、「人が重さ300gであり長さ1.2mのゴルフクラブを持っている」こと等を推定できる。これにより、意味推定部238は、より詳細な意味関係を推定できる。意味推定部238が推定した意味関係は、生成ユニット240に伝送される。
 図7は、意味推定部238が意味関係を推定した結果をリストにした意味関係リスト174を示す図である。意味関係リスト174では、意味関係が画像オブジェクト番号を用いて表現されている。なお、図7に示す画像オブジェクト番号は、図5に示した画像オブジェクトの番号に対応しているものとする。すなわち、[1]は人を意味しており、[2]はゴルフクラブを意味している。
 例えば、1番の意味関係は、[1]が重さ300g、長さ1.2mの[2]を持っていることを示している。また、2番の意味関係は、[1]が重さ300g、長さ1.2mの[2]を振りかぶっている動作を示している。このように、意味関係に含まれる画像オブジェクトの種類の組み合わせ(人とゴルフクラブ)が同一であっても、画像オブジェクトの特徴点の空間的関係が複数の関係定義の空間的関係を満たす場合には、複数の意味関係が推定され得る。
 図3に戻って、処理部220の生成ユニット240の機能について説明する。本実施形態に係る生成ユニット240は、ゴルフプレイヤ(以下、単に「プレイヤ」と称する。)のスイングを診断するためのアプリケーションを意図して構成されている。具体的には、生成ユニット240は、意味推定ユニット230による処理の結果に基づいて、プレイヤの状態に応じた各種の情報を生成する。生成ユニット240が有する機能は、検索部242、指標生成部244及び特徴点情報生成部246が協働することにより実現される。生成ユニット240が備える各機能部は、必要に応じて、意味推定ユニット230の各機能部から各種の情報(例えば、推定された意味関係等)を取得したり、記憶部210から各種の情報(例えば、関係情報リスト等)を取得したりできる。
 検索部242は、意味推定部238により推定された意味関係から、特定の条件に合致する意味関係を検索し、検索結果(例えば、特定の条件に合致する意味関係等)を指標生成部244に伝送できる。本実施形態では、特定の条件は、意味関係に「人がゴルフクラブを持っている」という情報が含まれることであるものとする。検索部242は、図7に示した意味関係リスト174を参照して、「人がゴルフクラブを持っている」という情報を含む意味関係(すなわち、1番の意味関係)を検索する。したがって、検索部242は、画像120に複数の人の画像オブジェクトが含まれる場合には、ゴルフクラブを持っている人に関する意味情報のみを検索できる。
 指標生成部244は、特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、特定の条件に応じた情報を生成できる。本実施形態では、指標生成部244は、特徴点あるいは意味関係に基づきプレイヤの状況(フェーズ)を特定し、プレイヤの状況に応じたスイングを診断するための指標となる情報を生成できる。
 プレイヤのスイングを診断するにあたって、状況によって診断すべきポイントが異なる。例えば、プレイヤがゴルフクラブを振りかぶっている状況では、プレイヤの肘及び膝の位置が重要なポイントとなる。また、プレイヤがゴルフクラブを構えている状況(すなわち、アドレス時)では、右打ちにおいては右肩が左肩より下がっているとよく、プレイヤの右肩と左肩との位置関係が重要となる。このため、指標生成部244は、プレイヤの状況に応じた指標を生成することで、より適切な情報をプレイヤ等のユーザに提供できる。
 ここでは、人オブジェクト130及びクラブオブジェクト160の間には、「人がゴルフクラブを振りかぶっている」という動作の意味関係が推定されているものとする。この場合、プレイヤの肘及び膝の位置が重要なポイントとなる。指標生成部244は、例えば、プレイヤについて認識部234が認識した結果(例えば、肘あるいは膝の特徴点等の情報)に基づいて、適切な肘及び膝の位置を算出して生成できる。指標生成部244は、生成した情報を特徴点情報生成部246に伝送する。
 特徴点情報生成部246は、特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、特定の条件に応じた情報を生成できる。本実施形態では、特徴点情報生成部246は、推定された意味関係に基づき特定されたフェーズに応じて、対応する人の画像オブジェクトの特徴点に関する情報を生成する。
 例えば、特徴点情報生成部246は、指標生成部244により生成された情報(例えば指標)に基づいて、プレイヤの状況(フェーズ)に応じたポイントに関する情報を生成できる。具体的には、特徴点情報生成部246は、ポイントとなる肘の特徴点、膝の特徴点及び肩の特徴点等の特徴点に関して、例えば理想的な位置を示す補助線を表示するための座標を計算して生成できる。さらに、特徴点情報生成部246は、生成した座標に基づいて、表示部に補助線を重畳させるための重畳情報を生成できる。
 あるいは、特徴点情報生成部246は、プレイヤのポイントとなる関節又はその関節の特徴点が目立つ表示態様(例えば、赤いマーク)で表示部に表示させるための重畳情報を、特徴点情報として生成できる。
 特徴点情報生成部246は、生成した情報を通信部200に伝送する。通信部200に伝送された情報は、通信ネットワーク15を介して入出力装置10に送信され、入出力装置10に伝送される。特徴点情報生成部246により生成された情報に基づいて、出力部104の表示部は各種の画面を表示する。
 以上、本実施形態に係る情報処理システム1の機能について説明した。次に、図8を参照して、本実施形態に係る情報処理装置20が、画像に含まれる複数の画像オブジェクトの間の意味関係を推定する処理について説明する。以下、図8に示すシーケンス図に沿って、本実施形態に係る情報処理システム1の処理について説明する。
 まず、入出力装置10の撮像部100は、画像を撮像する(ステップS101)。次いで、通信部106は、撮像部100により撮像された画像を情報処理装置20に送信する(ステップS103)。次いで、情報処理装置20の通信部200は、ステップS103において送信された画像を受信する(ステップS105)。
 次いで、処理部220の画像取得部232は、ステップS105において受信された画像を取得する(ステップS107)。次いで、認識部234は、画像から複数の特徴点を抽出する(ステップS109)。このとき、認識部234は、抽出した特徴点にラベル情報を付与してよい。
 次いで、認識部234は、ステップS109において抽出された特徴点の集合に基づいて、画像オブジェクトを認識する(ステップS111)。具体的には、認識部234は、複数の集合に基づいて、それぞれの集合に応じた画像オブジェクトを認識する。このとき、認識部234は、認識した画像オブジェクトの種類を特定してよい。次いで、認識部234は、ステップS111における認識結果に基づいて、画像オブジェクトリストを生成する(ステップS113)。
 次いで、付帯情報推定部236は、認識部234により認識された画像オブジェクトの付帯情報を推定する(ステップS115)。また、姿勢推定部237は、認識部234により認識された人の画像オブジェクトの特徴点に基づいて、人の姿勢を推定する(ステップS117)。なお、認識部234が人の画像オブジェクトを認識していない場合には、姿勢推定部237は、人の姿勢を推定しなくてよい。
 次いで、意味推定部238は、意味推定処理を行う(ステップS119)。意味推定処理の詳細は、図9を参照して後述する。意味推定部238が意味推定処理を行うと、図8に示す処理は終了する。
 図9は、図8の意味推定処理の詳細を示すフローチャートである。まず、意味推定部238は、関係情報リストから、対象オブジェクトの種類の全てが画像オブジェクトリストに含まれている関係定義を抽出し、抽出した関係定義をリストにした関係定義リストを生成する(ステップS201)。例えば、人の画像オブジェクト及びゴルフクラブの画像オブジェクトについて認識された結果が画像オブジェクトリストに含まれているとする。この場合には、意味推定部238は、関係情報リストから、対象オブジェクトの種類の組み合わせに、人及びゴルフクラブの両方を含む組み合わせの関係定義を抽出して、関係定義リストを生成する。例えば、意味推定部238は、図2に示した関係情報リスト212から、対象オブジェクトの組み合わせに人及びゴルフクラブを含む第1関係定義及び第2関係定義を抽出して、関係定義リストを生成する。
 次いで、意味推定部238は、未処理の関係定義が関係定義リストにあるか否かを判定する(ステップS203)。ここで、未処理の関係定義は、後述するステップS207及びS209の処理が行われていない関係定義である。未処理の関係定義が関係定義リストにあると判定された場合(ステップS203:YES)、ステップS205に進む。一方、未処理の関係定義が関係定義リストにないと判定された場合(ステップS203:NO)、ステップS221に進む。以下、ステップS203においてYESと判定された場合の処理を説明した後に、ステップS203においてNOと判定された場合の処理を説明する。
 ステップS203においてYESと判定されると、意味推定部238は、未処理の関係定義を関係定義リストから取得する(ステップS205)。次いで、意味推定部238は、ステップS205において取得した関係定義に含まれる全ての種類の画像オブジェクトの情報を、画像オブジェクトリストから抽出する(ステップS207)。例えば、意味推定部238は、取得した関係定義に人及びゴルフクラブの画像オブジェクトが含まれる場合には、画像オブジェクトリストから人の画像オブジェクト及びゴルフクラブの画像オブジェクトの情報を、画像オブジェクトリストから抽出する。
 次いで、意味推定部238は、ステップS205において取得した関係定義に合致する全ての画像オブジェクトの種類の組み合わせリストを生成する(ステップS209)。例えば、関係定義に人及びゴルフクラブの組み合わせが規定されている場合には、意味推定部238は、ステップS207において抽出された画像オブジェクトの情報に基づいて、人の画像オブジェクト及びゴルフクラブの画像オブジェクトの組み合わせリストを生成する。
 例えば、ステップS207において、2つの人の画像オブジェクト(以下、図9に示すフローチャートの説明では、「第1人オブジェクト」と「第2人オブジェクト」と称する。)の情報と、1つのゴルフクラブの画像オブジェクトの情報が抽出されているとする。この場合、意味推定部238は、第1人オブジェクト及びゴルフクラブの組み合わせと、第2人オブジェクト及びゴルフクラブの組み合わせとで構成された、2つの組み合わせを含む組み合わせリストを生成できる。
 次いで、意味推定部238は、未処理の組み合わせが組み合わせリストにあるか否かを判定する(ステップS211)。ここで、未処理の組み合わせは、後述するステップS215の処理が行われていない組み合わせである。未処理の組み合わせが組み合わせリストにあると判定された場合(ステップS211:YES)、ステップS213に進む。一方、未処理の組み合わせが組み合わせリストにないと判定された場合(ステップS211:NO)、ステップS203に戻る。ステップS211においてYESと判定されると、意味推定部238は、未処理の組み合わせを組み合わせリストから取得する(ステップS213)。
 次いで、意味推定部238は、ステップS213において取得した未処理の組み合わせに含まれる画像オブジェクトの特徴点の空間的関係が、関係定義の空間的関係を満たすか否かを判定する(ステップS215)。未処理の組み合わせに含まれる画像オブジェクトの特徴点の空間的関係が、関係定義の空間的関係を満たすと判定された場合(ステップS215:YES)、ステップS217に進む。一方、未処理の組み合わせに含まれる画像オブジェクトの特徴点の空間的関係が、関係定義の空間的関係を満たさないと判定された場合(ステップS215:NO)、ステップS211に戻る。
 意味推定部238は、ステップS215においてYESと判定すると、関係定義に含まれる関係情報及び複数の画像オブジェクトの特徴点の空間的関係に基づいて、複数の画像オブジェクトの間の意味関係を推定する(ステップS217)。このとき、意味推定部238は、さらに付帯情報を用いて意味関係を推定してもよい。次いで、意味推定部238は、ステップS217において推定した意味関係を意味関係リストに登録する(ステップS219)。意味推定部238が意味関係を意味関係リストに登録すると、ステップS211に戻る。
 このようにして、意味推定部238は、ステップS201において生成した関係定義リストに含まれる全ての関係定義について、画像に含まれる複数の画像オブジェクトの空間的関係が合致するか否かを判定する。さらに、意味推定部238は、合致した空間的関係に対応する複数の画像オブジェクトについて推定した意味関係を意味関係リストに登録する。意味推定部238が関係定義リストに含まれる全ての関係定義について、複数の画像オブジェクトの空間的関係が合致するか否かを判定したうえで、推定した意味関係を意味関係リストに登録すると、ステップS203においてNOと判定され、ステップS221に進む。
 意味推定部238は、意味関係リストを他の機能部に伝送する(ステップS221)。例えば、意味推定部238は、生成ユニット240に意味関係リストを出力する。意味推定部238が意味関係リストを他の機能部に出力すると、意味推定処理は終了する。
 図10を参照して、第1実施形態に係る情報処理システム1が意味推定ユニット230による意味推定に応じた情報を生成し、生成した情報を表示するまでの処理を説明する。図10に示す処理が開始される時点では、図8及び図9を参照して説明した、複数の画像オブジェクトの意味関係の推定及び人の姿勢の推定等の各種の処理が実行されているものとする。
 まず、情報処理装置20の生成ユニット240が備える検索部242は、意味推定ユニット230から推定された意味関係等の情報を取得する(ステップS301)。このとき、検索部242は、推定された意味関係を意味関係リストとして取得してよい。また、検索部242は、意味関係に加えて、推定された人の姿勢等の各種の情報を取得してよい。
 次いで、検索部242は、「人がゴルフクラブを持っている」ことを示す意味関係があるか否かを判定する(ステップS303)。本実施形態では、検索部242は、ステップS301において取得した意味関係リストに基づいて、「人がゴルフクラブを持っている」ことを示す意味関係を検索する。「人がゴルフクラブを持っている」ことを示す意味関係がないと判定されると(ステップS303:NO)、図10に示す処理は終了する。一方、「人がゴルフクラブを持っている」ことを示す意味関係があると判定されると(ステップS303:YES)、ステップS305に進む。
 次いで、指標生成部244は、ステップS303において検索された意味関係に基づいて、ゴルフのショットのフェーズを特定する(ステップS305)。具体的には、指標生成部244は、検索された意味関係に含まれる複数の画像オブジェクトの認識結果に基づいて、ゴルフのショットのフェーズを特定する。例えば、指標生成部244は、人の画像オブジェクトに含まれる複数の特徴点の位置関係(例えば、肩の特徴点と腰の特徴点の位置関係)に基づいて、ゴルフのショットのフェーズを特定してよい。特定されるフェーズは、例えば、アドレス、テイクバック又は他のフェーズであってよい。
 次いで、指標生成部244は、ステップS305において特定されたフェーズに応じた特徴点の情報を、画像オブジェクトリストより取得する(ステップS307)。具体的には、指標生成部244は、画像オブジェクトリストから、特定されたフェーズに応じた特徴点の情報(座標等により表された位置情報又はラベル情報等)を取得できる。
 例えば、指標生成部244は、特定されたフェーズがアドレスである場合には、人の画像オブジェクトに含まれる、肘の特徴点及び膝の特徴点等のアドレスの際に重要となる特徴点の情報を取得してよい。また、指標生成部244は、特定されたフェーズがテイクバックである場合には、人の画像オブジェクトに含まれる、両肩の特徴点及び腕の特徴点等のテイクバックの際に重要となる特徴点の情報を取得してよい。さらに、特定されたフェーズが他のフェーズである場合には、指標生成部244は、特定されたフェーズの際に重要となる特徴点の情報を取得してよい。
 次いで、指標生成部244は、ステップS309において取得した特徴点の情報に基づいて、特定されたフェーズに応じた指標を生成する(ステップS309)。具体的には、指標生成部244は、フェーズに応じた重要なポイントの理想的な位置を算出してよい。
 例えば、図4に示した画像120では、ゴルフクラブのヘッドの特徴点164が、人の頭の特徴点132よりも高い位置で保持されている。このため、「人がゴルフクラブを振りかぶっている」という動作の意味関係が推定されており、フェーズはバックスイングに特定されているものとする。このフェーズでは、人の肘及び膝の位置が重要となる。このため、指標生成部244は、肘の特徴点及び膝の特徴点に基づき、理想的な肘及び膝の位置を指標として算出してよい。
 また、フェーズがアドレスである場合には、右打ちにおいては右肩が左肩より下がっていることが好ましく、右肩及び左肩の位置が重要となる。このため、指標生成部244は、理想的な右肩及び左肩の位置を、指標として生成し得る。
 次いで、特徴点情報生成部246は、特徴点情報及び重畳情報を生成する(ステップS311)。次いで、情報処理装置20の通信部200は、ステップS311において生成された重畳情報を入出力装置10に送信する(ステップS313)。次いで、入出力装置10の通信部106は、ステップS313において送信された重畳情報を受信する(ステップS315)。受信された重畳情報は、制御部108に伝送される。
 次いで、制御部108は、ステップS315において受信された重畳情報に基づいて、重畳情報を出力部104に画面を表示させる(ステップS317)。これにより、出力部104の表示部により、例えば、撮像部100が撮像した画像の上に重畳情報が重ねられた画面が表示される。例えば、人の画像オブジェクトの上に、特定の関節を赤く示す画面が表示部に表示される。これにより、ユーザは、ゴルフのスイングにおける重要なポイントあるいは適切なフォーム等を認識できる。
 本実施形態に係る情報処理装置20は、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する。関係情報は、ユーザが所望の関係に設定することができる情報である。このため、ユーザが適宜関係情報を設定することにより、複数の画像オブジェクトについて、より多様な意味関係を推定することが可能となる。また、画像オブジェクトの特徴点に基づき意味関係が推定されるため、詳細かつ精度よく意味関係を推定することが可能となる。
 特に、ゴルフ場におけるゴルフスイング(あるいは工場における作業)等、特定の場面が想定される場合には、人と物体との間の意味関係の推定には、既知の前提条件が存在し得る。既知の前提条件は、例えば、人がボールの前でゴルフクラブを下方向に向けて持っている場合には、人がこれからゴルフクラブでボールを打つところである、という条件であり得る。あるいは、前提条件は、工場で特定の組み立てが行われている場合には、物体の重さあるいは人が物体を持つべき位置が分かっており、人が動く範囲も決まっていること等である。本実施形態に係る情報処理システム1では、このような前提条件を例えば関係情報として使用できるため、より堅牢で実用的な意味関係の推定が可能となる。
 また、本実施形態では、画像に複数の人の画像オブジェクトが含まれている。このような画像に基づいて、プレイヤのフォームの分析あるいは採点等を行うアプリケーションでは、従来、画像内に一人のプレイヤが含まれるか、プレイヤが特定の場所に立った状態であることを前提として分析等が行われていた。しかしながら、実際のゴルフ場では、ゴルフのプレー中の画像等には、キャディー、他のプレイヤ及び観客等が存在するため、スイングするプレイヤを自動的に特定することが難しい。このため、プレイヤのフォーム等を記録あるいは診断できる場所が制限されていた。
 本実施形態に係る情報処理装置20は、推定された意味関係を用いることにより、画像内に複数の人と複数の物体とが存在する場合には、着目すべき意味関係(例えば、人が物体に対して特定の動作を行っていることを示す意味関係)に関わる人及び物体を特定することが可能となる。したがって、本実施形態に係る情報処理装置20は、画像の中に多数の人の画像オブジェクトが含まれる場合に、自動的にゴルフクラブを持っている人を特定し、例えばスイングの記録あるいは解析に必要な情報を、場所の制限を受けることなく生成できる。
 また、本実施形態に係る情報処理装置20は、空間的関係及び意味関係を用いることにより、人又は物体が他の物体等の背後に隠れている場合であっても、人及び物体の空間的関係が矛盾しないように、他の物体等の背後に人又は物体等が存在することを推定できる。このため、本実施形態に係る情報処理装置20は、オクルージョンに対して堅牢である。すなわち、情報処理装置20は、画像オブジェクトが他の画像オブジェクトの裏側に隠れている場合にも、裏側に隠れている画像オブジェクトを適切に認識できる。
 また、本実施形態では、画像オブジェクトの付帯情報に基づいて意味関係が推定される。このため、より適切な意味関係を推定することが可能となる。
 また、複数の画像オブジェクトの間の意味関係は、人による物体への動作、動作の目的又は物体が人に与える影響のうちの少なくともいずれかを含む。人による物体への動作は、例えば、人が物体を持つこと又は人が物体を投げること等であってよい。また、動作の目的は、例えば、人が物体を移動させること等であってよい。さらに、物体が人に与える影響は、例えば、物体が人に負荷を与えること又はその負荷の大きさ等であってよい。
 [第2実施形態]
 第2実施形態では、主に第1実施形態と異なる点について説明し、第1実施形態と実質的に同一の内容を適宜省略して説明する。なお、第2実施形態では、第1実施形態で説明した各種の構成が適用され得る。
 第1実施形態では、画像にはゴルフクラブの画像オブジェクトと、そのゴルフクラブを振りかぶっている人の画像オブジェクトが含まれているものとして説明した。これに対し、第2実施形態に係る画像は、特定の製品が製造される工場において撮像された画像であり、物体(製品の部品)の画像オブジェクトと、その部品を持ち運んでいる人(作業者)の画像オブジェクトが含まれているものとして説明する。
 図11は、第2実施形態に係る情報処理装置が備える処理部260の機能ブロック図である。第2実施形態では、情報処理装置は、図1及び図3に示した処理部220に代えて、図11に示す処理部260を備える。すなわち、第2実施形態に係る処理部260は、意味推定ユニット230及び生成ユニット270を備える。なお、第2実施形態に係る意味推定ユニット230が有する機能は、図3を参照して説明した意味推定ユニット230が有する機能と実質的に同一である。このため、意味推定ユニット230の機能の詳細な説明を省略する。ここでは、意味推定ユニット230が本実施形態において認識又は推定する結果の一例について説明する。
 図12は、意味推定ユニット230の認識部234が、第2実施形態に係る画像に含まれる画像オブジェクトを認識した結果を示す画像オブジェクトリスト180を示す図である。第2実施形態では、認識部234は、画像に含まれる人(作業者)の画像オブジェクト及び部品の画像オブジェクトを認識する。また、認識部234は、それぞれの画像オブジェクトから複数の特徴点を抽出し、抽出したそれぞれの特徴点の位置を座標により特定している。
 また、認識部234は、抽出した特徴点のそれぞれにラベル情報を付与できる。例えば、人の画像オブジェクトの特徴点には、頭、右手、左手及び右肘等のラベル情報を付与している。また、認識部234は、部品の画像オブジェクトの特徴点には、取っ手及び蓋等のラベル情報を付与している。なお、認識部234が特徴点に付与するラベル情報の種類は、これらの情報に限定されるものではない。
 図13は、図12に示した2番の画像オブジェクトの付帯情報を表す付帯情報リスト182を示す図である。画像オブジェクトの付帯情報は、画像オブジェクトの種類、画像オブジェクトが示す物体の重さ、大きさ及び重心を含む。これらの付帯情報は、予め記憶部210に記憶されていてもよいし、画像オブジェクトに含まれる特徴点に基づいて推定されてもよい。例えば、大きさ(70mm×40mm×5mm)の情報は、画像オブジェクトの複数の特徴点に基づいて推定され得る。
 図14は、本実施形態に係る意味関係リスト184を示す図である。意味関係リスト184には、「[1]が重さ18kg、大きさ70mm×40mm×5mmの[2]を持っている」という意味関係が登録されている。ここで、[X]は、図12に示したオブジェクト認識リストの画像オブジェクトの番号を示している。したがって、[1]は人を意味しており、[2]は部品を意味している。
 なお、推定される意味関係には、他の付帯情報が含まれてもよく、例えば、部品の材質(例えば、金属)等の情報が含まれてよい。また、意味関係の推定には、姿勢推定部237による姿勢の推定結果が用いられてよい。例えば、「作業者が足を開いて重い部品を持っている」あるいは「作業者が中腰で重い物体を持っている」等の状況に関する意味関係の推定が行われてもよい。
 生成ユニット270は、意味推定ユニット230の推定結果に応じて、各種の情報を生成する。生成ユニット270が備える機能は、負荷推定部272、姿勢クラス判定部273、危険レベル判定部274、情報生成部276及び時間計測部278が協働することにより実現される。
 負荷推定部272は、画像に人の画像オブジェクトが含まれる場合には、その人にかかる負荷を推定できる。具体的には、負荷推定部272は、推定された意味関係に関わる画像オブジェクトの情報、付帯情報及び姿勢情報に基づいて、人にかかる負荷を推定できる。
 例えば、負荷推定部272は、物体の画像オブジェクトの情報及び付帯情報に基づいて、物体の重さ及び重心を取得できる。負荷推定部272は、取得した物体の重さ及び重心と、人の画像オブジェクトのオブジェクト情報及び付帯情報等に基づいて、人にかかる負荷を推定できる。ここで、負荷推定部272は、各種の公知の技術を用いて、負荷を推定してよい。
 姿勢クラス判定部273は、画像に人の画像オブジェクトが含まれる場合に、その人の姿勢のクラスを判定できる。本実施形態では、姿勢クラス判定部273は、人の画像オブジェクトから抽出される複数の特徴点に基づいて、姿勢のクラスを判定できる。例えば、姿勢クラス判定部273は、例えば、腰の曲がる角度に応じて、姿勢のクラスを判定してよい。より具体的には、姿勢クラス判定部273は、腰の曲がる角度が大きいほど、危険なクラスであることを判定してよい。
 危険レベル判定部274は、人の画像オブジェクトから抽出される特徴点に基づいて、人の姿勢の危険レベルを判定できる。本実施形態では、危険レベル判定部274は、姿勢に関する情報に基づいて、危険レベルを判定できる。例えば、危険レベル判定部274は、姿勢クラス判定部273により判定された姿勢クラスに基づいて、危険レベルを判定してよい。例えば、危険レベル判定部274は、姿勢クラスがより危険なクラスに属する場合には、危険レベル判定部274は、危険レベルが高いことを判定してよい。
 また、危険レベル判定部274は、人が持っている物体(部品等)に関する情報(例えば、重量等)、あるいはその物体により人に生じる負荷等に基づいて危険レベルを判定してもよい。本実施形態では、危険レベルは、AC(Action Category)レベルと呼ばれるカテゴリを用いて、1~5の5段階で表現されるものとする。また、危険レベルの値が高いほど、危険度が高いものとする。なお、危険レベル判定部274は、各種の公知の人間工学的な警告の基準を用いて、危険レベルを判定してよい。
 情報生成部276は、意味推定ユニット230又は生成ユニット270により推定又は判定された結果に応じて、各種の情報を生成できる。情報生成部276が生成した情報は、通信部200に伝送され、通信ネットワーク15を介して、入出力装置10に送信される。
 情報生成部276は、例えば、意味推定部238により推定された人の画像オブジェクト及び物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、人の画像オブジェクトの特徴点に基づき推定される人の状態が特定の状態条件を満たす場合には、その状態に応じた情報を生成してよい。
 本実施形態では、特定の意味条件は、推定された意味関係が、「人が物体を持っていること」を含む条件であるものとする。上述のように、本実施形態では、推定される意味関係は、「作業者が部品を持っていること」を含むため、特定の意味条件を満たす。
 また、特定の状態条件は、人の画像オブジェクトから抽出される特徴点に基づき推定される人の姿勢に関する条件であってよい。例えば、特定の状態条件は、人の画像オブジェクトの特徴点に基づき推定される人の姿勢に関する条件であってよい。例えば、特定の状態条件は、姿勢クラス判定部273により判定された姿勢クラスが、特定のクラスに属することであってよい。このとき、情報生成部276は、人の姿勢に応じた情報を生成できる。具体的には、情報生成部276は、姿勢クラスが危険なクラスに属する場合には、ユーザに警告を示すための情報(例えば、警告画像あるいは警告の音声)を生成できる。
 また、特定の状態条件は、人の画像オブジェクトの特徴点及び物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される人にかかる負荷に関する条件であってよい。例えば、特定の状態条件は、負荷推定部272により推定された負荷の大きさに関する条件であってよい。このとき、情報生成部276は、負荷に応じた情報を生成できる。例えば、情報生成部276は、負荷の大きさが所定値を超える場合には、ユーザに警告を示すための情報を生成できる。
 本実施形態では、特定の状態条件は、危険レベル判定部274により判定された危険レベルが所定のレベルであるものとして説明する。この場合、情報生成部276は、判定された危険レベルが所定の危険レベルを超える場合に、危険レベルに応じた情報を生成する。より具体的には、情報生成部276は、姿勢が危険であることを示す表示画面の情報、あるいは音声で警告するための情報等を生成できる。情報生成部276により生成された情報に基づいて、入出力装置10において警告の表示あるいは警告の音声出力等が行われる。
 また、特定の状態条件は、人にかかる負荷に応じた条件であってよい。例えば、特定の状態条件は、人にかかる負荷が所定値を超えることであってよい。あるいは、特定の状態条件は、人にかかる負荷の積算値が所定値を超えることであってよい。
 情報生成部276は、負荷に関する特定の条件が満たされた場合には、負荷がかかっていることを警告する画面情報又は音声により警告するための情報等を生成してよい。あるいは、情報生成部276は、負荷がかかっている部分を赤く表示するための重畳情報、人が持っている物体の付帯情報(例えば重量)を画面に重畳させるための重畳情報を生成してよい。表示部では、撮像部100により撮像された画像の上に、情報生成部276により生成された重畳情報が重畳される。
 時間計測部278は、時間を計測できる。具体的には、時間計測部278は、積算タイマをリセットあるいは積算タイマに時間を加算することにより、時間を計測できる。例えば、時間計測部278は、所定の危険レベルが継続した時間を計測できる。
 図15は、第2実施形態に係る情報処理システムによる処理の流れを示すフローチャートである。以下、図15に示すフローチャートに沿って、第2実施形態に係るコンピュータシステムによる処理を説明する。なお、図15に示す処理が実行されている間には、撮像部100により画像の撮像が行われ、意味推定ユニット230によりその画像に含まれる画像オブジェクトの認識及び意味関係の推定が実行され続けているものとする。
 まず、時間計測部278は、積算タイマを0にリセットする(ステップS401)。
 次いで、負荷推定部272、姿勢クラス判定部273及び危険レベル判定部274は、意味推定ユニット230から、意味関係及び特徴点等の情報を取得する(ステップS403)。ここでは、負荷推定部272、姿勢クラス判定部273及び危険レベル判定部274は、「人が物体を持っている」という意味情報を含む意味関係及びその意味関係に関連する画像オブジェクトの認識結果あるいは付帯情報等を取得する。
 次いで、負荷推定部272は、ステップS403において取得した情報に基づいて、負荷を推定する(ステップS405)。具体的には、負荷推定部272は、姿勢推定部237により推定された姿勢及び人が持っている物体の付帯情報(例えば、重さ等)に応じて、人にかかる負荷を推定してよい。次いで、姿勢クラス判定部273は、人の画像オブジェクトから抽出される複数の特徴点に基づいて、姿勢のクラスを判定する(ステップS407)。
 次いで、危険レベル判定部274は、危険レベルを判定する(ステップS409)。このとき、危険レベル判定部274は、ステップS405において算出された負荷及びステップS407において判定された姿勢クラスに基づいて危険レベルを判定してよい。
 次いで、危険レベル判定部274は、判定した危険レベルが4以上であるか否かを判定する(ステップS411)。危険レベルが4未満であると判定されると(ステップS411:NO)、ステップS419に進む。一方、危険レベルが4以上であると判定されると(ステップS411:YES)、ステップS413に進む。以下では、ステップS411においてYESと判定された場合の処理を説明した後に、ステップS411においてNOと判定された場合の処理を説明する。
 ステップS411においてYESと判定されると、情報生成部276は、緊急警告情報を生成する(ステップS413)。緊急警告情報は、一定時間、出力部に緊急警告画面を表示させたり、緊急警告を音声で出力させたりするための情報である。生成された緊急警告情報は、通信部200に伝送され、通信ネットワーク15を介して入出力装置10に送信される。
 次いで、入出力装置10の出力部104は、緊急警告を出力する(ステップS415)。具体的には、出力部104は、ステップS413において生成された緊急警告情報に基づいて、緊急警告を表示したり、音声により緊急警告を出力したりしてよい。これにより、作業者は、緊急警告に気づき、例えば姿勢を直すことができる。
 緊急警告が出力されると、情報処理装置20の処理部260は、処理を終了するか否かを判定する(ステップS417)。具体的には、処理部260は、意味推定ユニット230及び生成ユニット270による各種の処理を終了するか否かを判定する。例えば、撮像部100による撮像が終了している場合には、処理部260は、処理を終了することを判定してよい。処理を終了することが判定された場合(ステップS417:YES)、図15に示す処理は終了する。一方、処理を終了しないことが判定された場合(ステップS417:NO)、ステップS403に戻る。
 ステップS411においてNOと判定されると、危険レベル判定部274は、危険レベルが3以上であるか否かを判定する(ステップS419)。危険レベルが3未満であると判定されると(ステップS419:NO)、ステップS401に戻る。一方、危険レベルが3以上であると判定されると(ステップS419:YES)、ステップS421に進む。
 次いで、時間計測部278は、危険レベルが3の状態の時間を積算タイムに加算する(ステップS421)。例えば、時間計測部278は、危険レベルが3であると前回判定されてから、危険レベルが3であると今回判定されるまでの時間を積算タイムに加算してよい。
 次いで、時間計測部278は、積算タイマに基づいて、危険レベルが3の状態が所定時間以上続いたか否かを判定する(ステップS423)。危険レベルが3の状態が所定時間以上続いていないと判定されると(ステップS423:NO)、ステップS417に進む。一方、危険レベルが3の状態が所定時間以上続いたと判定されると(ステップS423:YES)、ステップS425に進む。
 ステップS423においてYESと判定されると、情報生成部276は、警告情報を生成する(ステップS425)。警告情報は、出力部に警告を表示させるための情報又は警告を音声として出力させるための情報であって良い。生成された警告情報は、通信ネットワーク15を介して、入出力装置10に送信される。
 次いで、入出力装置10の出力部104は、ステップS425において生成された警告情報に基づいて、警告を出力する(ステップS427)。具体的には、出力部104は、警告を表示したり、音声として警告を出力したりする。これにより、ユーザは、姿勢を正したりすることができる。
 本実施形態によれば、意味推定部238により推定された人の画像オブジェクト及び物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、人の画像オブジェクトの特徴点に基づき推定される人の状態が特定の状態条件を満たす場合には、状態に応じた情報が生成される。このため、特定の条件を満たす意味関係に関わる人の状態を生成することが可能になる。これにより、例えば、人の状態を適切にユーザに通知することが可能となる。
 従来の技術では、人手によって姿勢の判定結果を装置に入力したり、人の身体に特殊な装置をつけさせたりすることにより、人の姿勢が判定される。本実施形態に係る情報処理システム1では、人の姿勢を判定するための処理の主要部分が自動化される。さらに、情報処理システム1は、撮像部100が撮像した画像を用いて姿勢を判定できるため、人に非接触で姿勢を判定できる。
 図16は、本開示の一実施形態に係る入出力装置10及び情報処理装置20のハードウェア構成の一例を示す図である。入出力装置10及び情報処理装置20は、演算部に相当するCPU(Central Processing Unit)又はGPU(Graphics Processing Unit)を有するプロセッサ10aと、記憶部110、210に相当するRAM(Random Access Memory)10bと、記憶部110、210に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、出力部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では入出力装置10及び情報処理装置20が一台のコンピュータで構成される場合について説明するが、入出力装置10及び情報処理装置20は、複数のコンピュータが組み合わされて実現されてもよい。また、図16で示す構成は一例であり、入出力装置10及び情報処理装置20はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。ここで、演算部は、制御部108及び処理部220を含む。
 CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、画像に含まれる画像オブジェクトを認識して、複数の間の画像オブジェクトの意味関係を推定するプログラム(推定プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を出力部10fに表示したり、RAM10bに格納したりする。
 RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、画像及び推定結果といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
 ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば推定プログラムや、書き換えが行われないデータを記憶してよい。
 通信部10dは、入出力装置10及び情報処理装置20を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
 入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、各種のボタン、マウス、キーボード及びタッチパネルを含んでよい。
 出力部10fは、表示部あるいは音声出力部として機能するものである。出力部10fは、例えば、LCD(Liquid Crystal Display)等の各種の表示装置を備え、各種の情報を表示してよい。出力部10fは、例えば、画像及び重畳情報等を表示してよい。また、出力部10fは、例えば、スピーカ等の各種の音声出力装置を備え、各種の情報を音声として出力してよい。出力部10fは、例えば、警告を音声として出力してよい。
 推定プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。入出力装置10及び情報処理装置20では、CPU10aが推定プログラムを実行することにより、図1等を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、入出力装置10及び情報処理装置20は、必ずしも独立した構成でなくてもよい。例えば、入出力装置10及び情報処理装置20は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
 以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素及びその配置、材料、条件、形状、サイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
 図8~図10及び図15を参照して説明した各ステップの処理は、本明細書で説明する順序に沿って時系列に実行されてもよいし、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。また、各ステップの処理は本明細書で説明したように直列で実施されてもよいし、複数のステップの処理が並列に実行されてもよい。
 上記実施形態では、情報処理装置20の意味推定ユニット230が意味推定を行い、意味推定の結果を後段の機能部(例えば、生成ユニット240及び270等)に伝送するものとして説明した。これに限らず、意味推定ユニット230の後段の機能部が意味推定部を備えてもよい。あるいは、意味推定ユニット230が部分的に意味関係を推定し、後段の機能部がアプリケーションに固有の意味関係を追加で推定してもよい。
 上記実施形態では、情報処理装置20は、1つの画像に基づいて意味関係の推定等の処理を実行するものとして説明した。これに限らず、情報処理装置20は、複数の画像との関係を用いて、各種の処理を実行してよい。例えば、意味推定部238は、時系列で並べられた複数の画像のそれぞれに含まれる特定の画像オブジェクトの位置関係に基づいて、意味関係を推定してもよい。
 例えば、人が右手を上げて、その手にボールを持っているオブジェクト画像を含む画像があるとする。この画像のみでは、人がボールを投げるところなのか、ボールをキャッチするのかを判別することは難しい。しかしながら、過去の画像と現在の画像との関係を見ることにより、ボールが近づいてきているのか、遠ざかっているのかを識別できる。したがって、過去の画像と現在の画像との関係を見ることにより、人がボールを投げるところなのか、ボールをキャッチするところなのかを判別することが可能となる。
 また、画像に物体を手で持っている作業者の画像オブジェクトが含まれているとする。この場合には、意味推定部238は、複数の時系列で並べられた複数の画像に含まれる、特定の画像オブジェクトの特徴点(例えば、人の手の特徴点、あるいは物体の特定部分の特徴点)の位置関係に基づいて、意味関係を推定できる。例えば、意味推定部238は、作業者が物体を持ち上げているのか、又は作業者が物体を下ろしているのかを示す意味関係を推定できる。
 上記実施形態では、情報処理装置20は、クラウド上のサーバとして機能するものとして説明したが、これに限定されるものではない。例えば、情報処理装置20は、入出力装置10と一体となって構成されてもよい。
 1…情報処理システム、10…入出力装置、100…撮像部、104…出力部、108…制御部、110…記憶部、120…画像、130…人オブジェクト、132,134,136,138,140,142,144,146,148,150,152,162,164,168…特徴点、160…クラブオブジェクト、166…ボールオブジェクト、170,180…画像オブジェクトリスト、174,184…意味関係リスト、182…付帯情報リスト、20…情報処理装置、210…記憶部、212…関係情報リスト、232…画像取得部、234…認識部、236…付帯情報推定部、237…姿勢推定部、238…意味推定部、244…指標生成部、246…特徴点情報生成部、272…負荷推定部、273…姿勢クラス判定部、274…危険レベル判定部、276…情報生成部、278…時間計測部

Claims (15)

  1.  複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部と、
     画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定する意味推定部と、
    を備える、情報処理装置。
  2.  前記意味推定部は、前記画像オブジェクトに付帯する付帯情報に基づいて、前記複数の画像オブジェクトの間の意味関係を推定する、
    請求項1に記載の情報処理装置。
  3.  前記複数の画像オブジェクトは、人の画像オブジェクトを含み、
     前記付帯情報は、前記人の年齢、性別、体格、筋力、運動能力、装備品又は携行品の少なくともいずれかに関する情報を含む、
    請求項2に記載の情報処理装置。
  4.  前記複数の画像オブジェクトは、人の画像オブジェクトを含み、
     前記付帯情報は、前記人の画像オブジェクトの特徴点に基づき推定される前記人の位置、体格、姿勢及び向きの少なくともいずれかに関する情報を含む、
    請求項2又は3に記載の情報処理装置。
  5.  前記複数の画像オブジェクトは、物体の画像オブジェクトを含み、
     前記付帯情報は、前記物体の重さ、材質、重量分布及び重心の少なくともいずれかに関する情報を含む、
    請求項2から4のいずれか一項に記載の情報処理装置。
  6.  前記複数の画像オブジェクトは、物体の画像オブジェクトを含み、
     前記付帯情報は、前記物体の画像オブジェクトの特徴点に基づき推定される前記物体の位置、大きさ、形状及び向きの少なくともいずれかに関する情報を含む、
    請求項2から5のいずれか一項に記載の情報処理装置。
  7.  前記複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、
     前記複数の画像オブジェクトの間の意味関係は、前記人による前記物体への動作、前記動作の目的又は前記物体が前記人に与える影響のうちの少なくともいずれかを含む、
    請求項1から6のいずれか一項に記載の情報処理装置。
  8.  前記複数のオブジェクトのそれぞれに含まれる特徴点は、第1ラベル情報が付与されている特徴点と、前記第1ラベル情報と特定の関係にある第2ラベル情報が付与された特徴点とを含み、
     前記意味推定部は、第1画像オブジェクトから抽出される第1ラベル情報が付与された特徴点と、前記第2ラベル情報が付与された第2画像オブジェクトの特徴点との空間的関係と前記関係情報とに基づいて、前記第1画像オブジェクトと前記第2画像オブジェクトの間の意味関係を推定する、
    請求項1から7のいずれか一項に記載の情報処理装置。
  9.  前記複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、
     前記意味推定部により推定された前記人の画像オブジェクト及び前記物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、前記人の画像オブジェクトの特徴点に基づき推定される前記人の状態が特定の状態条件を満たす場合には、前記状態に応じた情報を生成する情報生成部を、さらに備える、
    請求項1から8のいずれか一項に記載の情報処理装置。
  10.  前記状態条件は、前記人の画像オブジェクトの特徴点に基づき推定される前記人の姿勢に関する条件を含み、
     前記情報生成部は、前記人の姿勢に応じた情報を生成する、
     請求項9に記載の情報処理装置。
  11.  前記状態条件は、前記人の画像オブジェクトの特徴点及び前記物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される前記人にかかる負荷に関する条件を含み、
     前記情報生成部は、前記負荷に応じた情報を生成する、
     請求項10に記載の情報処理装置。
  12.  前記画像は、複数の画像オブジェクトを含み、
     前記意味推定部は、前記複数の画像オブジェクトのそれぞれについて意味関係を推定し、
     特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、前記特定の条件に応じた情報を生成する特徴点情報生成部を、さらに備える、
    請求項1から11のいずれか一項に記載の情報処理装置。
  13.  メモリ及びプロセッサを備える情報処理装置による情報処理方法であって、
     前記メモリが、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、
     前記プロセッサが、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定することと、
    を含む、情報処理方法。
  14.  コンピュータに、
     複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、
     画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定することと、
    を実行させるためのプログラム。
  15.  複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部と、
     動画像に含まれる複数の画像オブジェクトのそれぞれから特徴点を抽出する認識部であって、前記複数の画像オブジェクトは人の画像オブジェクト及び物体の画像オブジェクトを含む、認識部と、
     前記複数の画像オブジェクトに含まれる特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定する意味推定部と、
    を備える、情報処理装置。
     
PCT/JP2021/028599 2020-08-07 2021-08-02 情報処理装置、情報処理方法及びプログラム WO2022030439A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21854527.5A EP4216150A1 (en) 2020-08-07 2021-08-02 Information processing device, information processing method, and program
US18/020,217 US20230334693A1 (en) 2020-08-07 2021-08-02 Information processing apparatus, information processing method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020134847A JP6908312B1 (ja) 2020-08-07 2020-08-07 情報処理装置、情報処理方法及びプログラム
JP2020-134847 2020-08-07

Publications (1)

Publication Number Publication Date
WO2022030439A1 true WO2022030439A1 (ja) 2022-02-10

Family

ID=76918341

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/028599 WO2022030439A1 (ja) 2020-08-07 2021-08-02 情報処理装置、情報処理方法及びプログラム

Country Status (4)

Country Link
US (1) US20230334693A1 (ja)
EP (1) EP4216150A1 (ja)
JP (1) JP6908312B1 (ja)
WO (1) WO2022030439A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010110382A (ja) * 2008-11-04 2010-05-20 Doshisha ゴルフクラブの振りやすさの評価方法
JP2017023639A (ja) * 2015-07-28 2017-02-02 セイコーエプソン株式会社 スイング診断装置、スイング診断システム、スイング診断方法、スイング診断プログラム及び記録媒体
WO2018069981A1 (ja) * 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
JP2018206321A (ja) 2017-06-09 2018-12-27 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
WO2019111521A1 (ja) * 2017-12-06 2019-06-13 株式会社 資生堂 情報処理装置、プログラム
JP2019101907A (ja) 2017-12-06 2019-06-24 国立大学法人 東京大学 物体間関係認識装置、学習済みモデル、認識方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010110382A (ja) * 2008-11-04 2010-05-20 Doshisha ゴルフクラブの振りやすさの評価方法
JP2017023639A (ja) * 2015-07-28 2017-02-02 セイコーエプソン株式会社 スイング診断装置、スイング診断システム、スイング診断方法、スイング診断プログラム及び記録媒体
WO2018069981A1 (ja) * 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
JP2018206321A (ja) 2017-06-09 2018-12-27 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
WO2019111521A1 (ja) * 2017-12-06 2019-06-13 株式会社 資生堂 情報処理装置、プログラム
JP2019101907A (ja) 2017-12-06 2019-06-24 国立大学法人 東京大学 物体間関係認識装置、学習済みモデル、認識方法及びプログラム

Also Published As

Publication number Publication date
JP6908312B1 (ja) 2021-07-21
US20230334693A1 (en) 2023-10-19
JP2022030683A (ja) 2022-02-18
EP4216150A1 (en) 2023-07-26

Similar Documents

Publication Publication Date Title
JP6733738B2 (ja) 運動認識装置、運動認識プログラムおよび運動認識方法
Islam et al. Yoga posture recognition by detecting human joint points in real time using microsoft kinect
JP6384549B2 (ja) スキル判定プログラム、スキル判定方法およびスキル判定装置
CN109074641B (zh) 骨骼估计装置、骨骼估计方法以及骨骼估计程序
JP6923789B2 (ja) 情報処理プログラム、情報処理装置、情報処理方法、及び情報処理システム
KR102481501B1 (ko) 스마트 골프 운동 장치, 시스템 및 제어방법
JP2017006192A (ja) アドバイス生成方法、アドバイス生成プログラムおよびアドバイス生成システム
Jin et al. Virtual personal trainer via the kinect sensor
JP2020174910A (ja) 運動支援システム
JP2020141806A (ja) 運動評価システム
JP4256289B2 (ja) ゴルフスウィング診断システム
CN107077208A (zh) 基于图像的地面重量分布确定
JP4256290B2 (ja) ゴルフスウィング診断システム
WO2022030439A1 (ja) 情報処理装置、情報処理方法及びプログラム
Uttarwar et al. Development of a kinect-based physical rehabilitation system
WO2021261529A1 (ja) 身体運動支援システム
JP7482471B2 (ja) 学習モデルの生成方法
Kishore et al. Smart yoga instructor for guiding and correcting yoga postures in real time
US20230405433A1 (en) Element recognition method, element recognition device, and gymnastics scoring support system
JP2021068069A (ja) 無人トレーニングの提供方法
JP2024027637A (ja) 情報処理装置、情報処理方法、及びプログラム
US20240058685A1 (en) Information processing device, information processing method, and non-transitory computer-readable storage medium storing program
JP2024032585A (ja) 運動指導システム、運動指導方法、およびプログラム
WO2023127870A1 (ja) 介護支援装置、介護支援プログラム、介護支援方法
JP2019097818A (ja) スイング解析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21854527

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021854527

Country of ref document: EP

Effective date: 20230307