WO2019146422A1 - Information processing device, information processing method, program, and robot - Google Patents

Information processing device, information processing method, program, and robot Download PDF

Info

Publication number
WO2019146422A1
WO2019146422A1 PCT/JP2019/000607 JP2019000607W WO2019146422A1 WO 2019146422 A1 WO2019146422 A1 WO 2019146422A1 JP 2019000607 W JP2019000607 W JP 2019000607W WO 2019146422 A1 WO2019146422 A1 WO 2019146422A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
score
data
detected
information processing
Prior art date
Application number
PCT/JP2019/000607
Other languages
French (fr)
Japanese (ja)
Inventor
井手 直紀
アンドリュー シン
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2019146422A1 publication Critical patent/WO2019146422A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators

Definitions

  • the present technology relates to an information processing apparatus, an information processing method, a program, and a robot, and more particularly to an information processing apparatus suitable for being applied to a robot aiming at interaction with people.
  • Robots that aim to interact with people are expected to behave like people.
  • an action based on the person's impression or the like of who this person is can be considered.
  • Patent Document 1 describes a robot that determines an action using a positivity index.
  • a user registration operation for the robot is required by the user, a natural response is exhibited for the person who has registered the user, but a natural response is not shown for the person who has not registered the user.
  • the operation of user registration is not human.
  • the purpose of the present technology is to better simulate human behavior without performing user registration.
  • an information processing apparatus includes a processing unit that obtains a score for action generation for each person based on data of a person detected from input data of an image or a sound.
  • the processing unit obtains a score for action generation for each person based on the data of the person detected from the input data of the image or the sound.
  • the score may be made to include an impression score obtained by evaluating the quality of the person's behavior.
  • the score may be made to include a relationship score obtained by evaluating a person relationship.
  • the processing unit collates the data of the detected person with the data of the predetermined number of stored persons, and when there is nothing that matches, the data of the detected person and the data of the person are compared.
  • the obtained score is stored as data of a new person, and when there is a match, the stored score of the corresponding person is updated using the score obtained based on the data of the detected person May be done.
  • the processing unit performs identification by learning using a network configuration of metric learning (Metric Learnings) for realizing semi-supervised learnings and fe-shot learnings. It may be done using a module.
  • the identification module converts the data of the detected person into the feature amount, calculates the component of the feature amount of the data of the predetermined number of persons stored for the converted feature amount, and performs this calculation
  • the score of the data of a predetermined number of stored persons with respect to the data of the detected persons is detected based on the detected components, and based on the detected scores, information of a matching person or any person is detected. It may be made to output information that they do not match.
  • the component of the feature value converts the feature value of the stored person data into a unit vector, and takes the inner product of the detected feature data of the person data and the converted unit vector. It may be calculated as
  • the processing unit may be configured to further generate an action corresponding to each person using a score for each person.
  • the score includes an impression score obtained by evaluating a person's behavior and a relationship score obtained by evaluating a person relationship, and the processing unit uses the impression score and the relationship score.
  • An action may be generated based on the integrated score calculated based on the calculated score.
  • a score for action generation for each person is obtained based on data of a person detected from input data of images or sounds. Therefore, it is possible to better simulate human behavior without performing user registration.
  • an action that is naturally associated with a positive impression evaluation Interaction is performed based on Also, for example, for a person who is not fit for the first time, a person who is not fit well, an impression is performed based on the action involved in the evaluation.
  • the present technology it is possible to better simulate human behavior without performing user registration.
  • the effect described here is not necessarily limited, and may be any effect described in the present disclosure.
  • FIG. 2 illustrates an embedded network. It is a figure which shows the network of metric learning which implement
  • FIG. 5 illustrates a network with normalized support features.
  • FIG. 1 shows a configuration example of an information processing apparatus 100 as an embodiment.
  • the information processing apparatus 100 is possessed by a robot (agent) intended to interact with people.
  • the information processing apparatus 100 includes an input unit 101, a person area / section detection module 102, a person identification module 103, an impression score calculation module 104, a relationship score calculation module 105, and a score per person update module 106.
  • a person-by-person score table 107, an action generation module 108, and an output unit 109 are included.
  • the input unit 101 includes an image sensor and a microphone, obtains image data with the image sensor, and obtains audio data with the microphone.
  • the image sensor functions as the eye of the robot (agent)
  • the microphone functions as the ear of the robot (agent).
  • the image sensor and the microphone are not limited to one each, and only one of the image sensor and the microphone may be provided.
  • the human area / section detection module 102 detects an area where a person exists from the image data obtained by the input unit 101 using, for example, an image recognition technology, and identifies the image data of that area as detected human data.
  • the module 103 is supplied.
  • the human area / section detection module 102 detects a voice section of a person from the voice data obtained by the input unit 101 using, for example, voice recognition technology, and uses the voice data of the section as detected person data. It is sent to the identification module 103, the impression score calculation module 104, and the relationship score calculation module 105.
  • the person identification module 103 collates the detected person data with a predetermined number of stored person data (identification data) stored in the person-by-person score table 107, and matches the information of the stored person or any stored person. Output information that they do not match.
  • the person identification module 103 is an identification module which has learned the collation using a prototype network configuration of fusion learning. Details of this identification module will be described later.
  • the impression score calculation module 104 generates a score for evaluating the goodness or badness of the detected person data by the learning device learned using the data set labeled with the goodness and badness behavior, and uses this score as an impression score. Output.
  • Good feeling (good) ⁇ Seen from the robot (agent), often seen, especially with a smile, approaching the agent ⁇ being at the same time as a person with high familiarity with the robot (agent) ⁇ with a person with high familiarity smiling, conversation is ambulatory You ⁇ You will get rid of it (tactile sensor) Disgust (Evil) : -Approaches robots (agents) with hostile expressions-People with high intimacy have a disgusted expression, are deceiving-Betrayed
  • Good feeling (good) ⁇ Complain in the conversation, ask good questions, talk infrequently (Evil) : ⁇ A strange question is asked by human beings (sexual harassment, power harassment)
  • the relationship score calculation module 105 is configured to determine the relationship between the plurality of persons with respect to the detected person data by the learning device learned using the data set labeled with the relationship between the plurality of persons. Generate a score to evaluate gender, and output this score as a relevance score.
  • information on good and bad relationships from images includes: Good relationship : ⁇ Several people are talking with smiles ⁇ Positive relationship where several people are walking holding hands ⁇ Several people are ashamed ⁇ Several people are walking away
  • Good relationship
  • a bad relationship in which two or more people are laughing and having a conversation
  • the person identification module 103 When data of a plurality of persons exist as detected person data detected by the person area / section detection module 102, the person identification module 103 performs person identification on data of each person, and an impression score is obtained.
  • the calculation module 104 performs an impression score calculation process on data of each person. Further, only in this case, the relationship score calculation module 105 performs a relationship score calculation process.
  • the per-person score update module 106 updates the per-person score table 107 based on the output information of the per-person identification module 103.
  • identification data, an impression score, and a relationship score are stored for each person, identified by the person ID.
  • FIG. 2 shows an example of storage of the per-person score table 107.
  • the terms of three persons identified by the person IDs A, B, and C exist, and identification data, an impression score, and a relationship score are stored in each term.
  • the individual score updating module 106 sets the new individual item in the individual score table 107 so as to be identifiable by the person ID. Then, identification data, an impression score, and a relationship score are stored in the new person's section.
  • detected person data relating to the above-described collation is stored as identification data.
  • the impression score the impression score obtained by the impression score calculation module 104 based on the detected person data related to the above-mentioned matching is stored.
  • the relationship score the relationship score obtained by the relationship score calculation module 105 based on the detected person data related to the above-mentioned matching is stored.
  • the individual score update module 106 gives an impression of the impression score and the relationship score in the item of the corresponding person in the individual score table 107, respectively.
  • the impression score obtained by the score calculation module 104 and the relationship score obtained by the relationship score calculation module 105 are updated. This updating can be performed, for example, by adding a new score to an already existing score with appropriate weighting.
  • the action generation module 108 uses the action for the person identified by the person identification module 103 using the score related to the person stored in the individual score table 107, and in this embodiment, the impression score and the relationship score. The action for the person is determined, and the action information is sent to the output unit 109.
  • step ST1 person identification information is received from the person identification module 103.
  • step ST2 the impression score is referred to from the person score table 107 through the person score update module 106.
  • the impression score is referred to from the person score table 107 through the person score update module 106.
  • the impression score is referred to as an impression score.
  • step ST3 the relevance score is referred to from the per-person score table 107 through the per-person score update module 106.
  • the per-person score table 107 For example, in the example of the table in FIG. 2, in the case of a person indicated by the person ID of A, “relv_AB” and “relv_AC” are referred to as the relationship score.
  • a correction score "comp_X” is calculated from the relationship score impression score and the following equation (1).
  • "X” indicates a person indicated by the person identification information received in step ST1
  • "S” indicates a person of the other party of the relationship.
  • step ST5 an integrated score "comp_X” is calculated from the impression score and the correction score as shown in the following equation (2).
  • the action score "vX” is calculated based on the following equation (3) using the contents of the integrated score.
  • Equation (3) a and b are constants or coefficients that can be learned.
  • step ST7 the action score is used to determine an action as shown in the following equation (4), and in step ST8, information on the determined action is sent to the output unit 109. if (vA_min ⁇ vX ⁇ vA_max) select action_A (4)
  • vA_min and vA_max indicate threshold values for determining the action A (action_A).
  • a plurality of such threshold ranges are prepared, and one action is determined from the plurality of action candidates depending on which threshold range the action score falls within.
  • the output unit 109 executes an action based on the action information sent from the action generation module 108.
  • the output unit 109 includes, for example, an actuator, a display, a speaker, and the like.
  • FIG. 4 shows a schematic operation flow of the information processing apparatus 100 shown in FIG. 1 described above.
  • the information processing apparatus 100 receives image and sound data from the input unit 101 by the human area / section detection module 102.
  • the information processing apparatus 100 causes the person area / section detection module 102 to detect an area where a person exists from the received image data, and uses the image data of the area as detected person data.
  • a voice section of a person is detected from the voice data, and voice data of the section is detected person data.
  • step ST23 the information processing apparatus 100 causes the person identification module 103 to identify a person based on the detected person data. Further, in step ST24, the information processing apparatus 100 causes the impression score calculation module 104 to calculate an impression score based on the detected person data. Further, in step ST25, the information processing apparatus 100 causes the relationship score calculation module 105 to calculate a relationship score based on the detected person data.
  • the processes from step ST23 to step ST25 do not have to be sequentially performed, but may be performed in parallel.
  • step ST26 the information processing apparatus 100 causes the per-person score update module 106 to update the per-person score table 107 based on the processing results of steps ST23 to ST25.
  • a new person item is provided in the person score table 107 so that it can be identified by the person ID, and the new person item is identified Data, impression score, and relationship score are stored.
  • detected person data is used as the identification data
  • the impression score obtained by the impression score calculation module 104 is used as the impression score
  • the relationship obtained by the relationship score calculation module 105 is used as the relationship score. Sex score is used.
  • the impression score and the relationship score in the item of the corresponding person in the individual score table 107 are the impressions obtained by the impression score calculation module 104, respectively.
  • the score is updated using the relationship score obtained by the relationship score calculation module 105.
  • step ST27 the information processing apparatus 100 causes the action generation module 108 to determine an action for the person identified by the person identification module 103.
  • the action is determined (selected) based on the score (impression score, relevance score) related to the person stored in the per-person score table 107.
  • step ST28 the information processing apparatus 100 sends the information of the determined action from the action generation module 108 to the output unit 109.
  • the output unit 109 executes an action based on the action information.
  • the probability of a predetermined action changes based on the following input.
  • the score is calculated for each user based on the following conditions. a. Impression score is calculated by an impression score evaluation module prepared in advance b. The relationship score is calculated by the relationship score evaluation module prepared in advance. (4) Based on input, action execution probability is learned to maximize feedback from the user
  • the child 2 appears in the image at the same time ⁇ Because it is within the predetermined period (the same day), it memorizes the child 2 as the child 1 (4)
  • the children 1, 2 have a high probability of interaction action Select by
  • Friend 1 of child 1 comes (friendship) a. Enter the data that child 1 and friend 1 are together (for example, an image holding hands) b. The module identifies A (child 1) and E (friend 1) as persons (E may be a first encounter from the robot) c. At the same time, calculate the relationship score of this image (Because we are holding hands, so intimacy) d. Update the relationship score of A and E in the table (in this case, update in the positive direction)
  • Child 2's friend 2 comes (dislikes) a. Enter data co-occurring with child 1 and friend 2 (for example, an image grabbing a chest) b.
  • the module identifies A (child 1) and F (friend 2) as persons (F may be a first encounter from the robot) c.
  • calculate the relationship score of this image due to grasping the chest, it's a pity) d. Update the relationship score between A and F in the table (in this case, update in the negative direction)
  • the person identification module 103 is a module for identifying a category of input data from very few data registered by category (here, person).
  • This module uses a neural network identification module learned using deep learning.
  • Several methods are known as a method of learning the module which identifies a category only from very few registration data using deep learning, for example, the method of following (1), (2).
  • (1) Method using shamises network (2) Method using triplet network
  • These methods can be classified as techniques for learning distance measures in feature space called metric learning or metric embedding learnings There are many.
  • a function (identification module) necessary for identification of a category is acquired by a learning device from a large amount of labeled data in advance, and this function is used at runtime. Determine the category of input data. These can realize high discrimination performance in face identification, speaker identification and the like. If the module generated by these methods is used for person identification, the person identification module in the present technology can be realized.
  • One-shot learning and fu-shot learning are used in the following sense.
  • One-shot learning How to learn when there is only one data for each category, and how to use the learning module-Fushot learning How to learn when the data for each category is small and how to use the learning module
  • Shamies net, triplet net and prototype net are all configured to learn feature space for mapping multiple data to feature space which keeps given distance information (Metric Learnings) ing.
  • Each network consists of the following two parts. (1) Mapping data to feature space suitable for identification (2) Designing network configuration and objective function with mathematical structure suitable for identification
  • FIG. 7 shows an embedded network
  • FIG. 8 shows a prototype network.
  • the parameters of neural nets have a common "plurality" embedding function. Different data are input to the embed function to generate feature vectors resulting from them. Then, the “multiple” feature vectors are combined to form a loss, that is, an objective function.
  • xa anchor data
  • xp positive data
  • xp negative data
  • input data is input by combining more data.
  • These input data can be divided into the following two types: xs and Xq.
  • Xs Support data (data representative of each category)
  • -Xq Query data (data in one of the support data categories)
  • triplet loss (see Equation (5)) and the loss function of a one-shot learning prototype net (see Equation (6)) are shown below.
  • Triplet loss function Variable definition x_a Input data (a is an abbreviation of anchor)
  • x_p Registration data (p stands for positive: registration data in the same category as the input data)
  • x_n Registered data (n is an abbreviation for negative: registered data in a category different from input data)
  • margin parameter
  • generic name of neural net parameters
  • f_ ⁇ function represented by neural net
  • l objective function (“l” is an abbreviation for loss, which is an objective function for one of input data, optimization is a large number of input data
  • l objective function (“l” is an abbreviation for loss, which is an objective function for one of input data, optimization is a large number of input data
  • loss of prototype net is similar to triplet loss.
  • the loss function of the prototype net is expressed by the following equation (7).
  • the query data of the prototype net is regarded as the anchor of the triplet net, and one of the support data of the prototype net is regarded as the positive of the triplet, and the rest is regarded as the negative.
  • the prototype net can be understood as extending the concept of anchor net, positive and negative of triplet net to the concept of query and support.
  • the distance function that constitutes the loss function of the prototype net is changed to normalize the support feature as shown in the following equation (8) to improve the identification performance.
  • FIG. 9 shows the network with the support feature normalized.
  • FIGS. 10 and 11 show comparison results of data sets called “Omnigglot” and “miniImagenet” known as benchmarks for fu shot learning. From this result, it can be seen that the configuration that normalizes the support feature has better discrimination performance.
  • This change is a change of the original distance function Euclidean distance to a function similar to a cosine (Cosine) similarity.
  • the Euclidean distance is expressed by the following expression (9)
  • the cosine similarity is expressed by the following expression (10)
  • the support feature normalization is expressed by the following expression (11).
  • the support normalization concept is similar to "Weight Normalization”.
  • Weight Normalization is a method of normalizing the weighting factor to the same unit.
  • the support feature vector f_ ⁇ (x_s) is regarded as the weight of the neural network.
  • the normalized weight is as shown in Equation (12) below.
  • the loss function is equivalent to the case of adding the “Weight Normalization” unbiased linear layer as shown in the following Equation (13).
  • the reason why there is no bias is that in the fu shot learning, a term that depends only on the class at the time of learning is unnecessary at the time of the test.
  • features representative of categories are not collected at one point of the feature space like Euclidean prototype but are collected on a straight line passing through the origin as a representative axis. Therefore, the degree of freedom for the parameter to be learned is increased by one, and high performance can be realized more easily than the Euclidean distance method.
  • evaluation of similarity is not one-dimensional as in Euclidean prototypes, and calculation errors are less likely to occur. Also, higher discrimination performance can be realized than proto-type and type by cosine distance.
  • the present method can also be regarded as represented by a single point constrained on the same hypersphere.
  • the loss function can be expressed as shown in the following Equation (14) using the similarity (or distance function) included in the loss function of the prototype network.
  • Sq is represented by the following equation (15) if it is a prototype network, and it is represented by the following equation (16) if it is a support feature standardization method.
  • FIG. 12 shows a network to which known / unknown determination is added.
  • the multiclass classification is extended to automatically estimate the unknown class.
  • the actual known unknown evaluation evaluates the value of the similarity, and determines that the largest is known if the similarity of the existing category is the other, otherwise unknown.
  • the score for action generation for each person is obtained based on the data of the person detected from the input data of the image and / or the sound. Therefore, it is possible to better simulate human behavior without performing user registration.
  • the network configuration of FIG. 9 may be used for supervised learning and semi-supervised learning.
  • labeled data of learning data is used as support data in both supervised learning and semi-supervised learning. This is because supervised learning and semi-supervised learning are different from fu shot learning, and do not consider new categories when performing inference in a learned network.
  • the loss function at the time of learning uses the following equation (21) when the input data is labeled data.
  • y is a label converted to a one-hot vector expression, and is a different expression of the equation equivalent to equation (14).
  • equation (22) is used so that calculation can be performed without a label.
  • semi-supervised learning may be used in the meta-learning process in fu shot learning.
  • Use equation (22) above for unlabeled data since the unlabeled data does not know whether it is a known category or an unknown category, it combines the unknown category correspondence of Equation (18), (19) or Equation (20).
  • the present technology can also be configured as follows.
  • a processing unit that obtains a score for generating an action for each person based on data of a person detected from input data of an image or a voice.
  • the score includes an impression score obtained by evaluating the quality of the person's behavior.
  • the score includes a relationship score obtained by evaluating a personal relationship.
  • the processing unit Collating the data of the detected person with the data of a predetermined number of stored persons; If there is no match, the data of the detected person and the score obtained based on the data of the person are stored as data of a new person, If a match is found, the stored score of the corresponding person is updated using the score obtained based on the data of the detected person described in any one of (1) to (3) above.
  • Information processing equipment (5) The processing unit uses the identification module learned by using the neural network that realizes the above matching by calculating the similarity between representative features of the labeled teacher data and the features of the input data.
  • the information processing apparatus according to any one of (1) to (4).
  • the identification module Convert the detected input data into a feature amount; Calculating a component of the feature amount of the predetermined number of stored label data with respect to the converted feature amount; Based on the calculated component, the score of the predetermined number of stored classes for the detected input data is detected, and based on the detected score, the information of the matching class or any of the classes is matched.
  • the information processing apparatus which outputs information indicating that the information processing is not performed.
  • the components of the above feature amount are It is calculated by converting the feature quantities of the stored labeled data into unit vectors, and taking the inner product of the feature quantities of the detected class data and the converted unit vectors. Information processing equipment.
  • the processing unit The information processing apparatus according to any one of (1) to (7), further generating an action corresponding to each person using the score for each person.
  • the score includes an impression score obtained by evaluating the person's behavior and a relationship score obtained by evaluating the person relationship, The information processing apparatus according to (8), wherein the processing unit generates the action based on an integrated score calculated based on the impression score and the relationship score.
  • An information processing method comprising: a processing step of obtaining a score for action generation for each person based on data of a person detected from input data of an image or a sound.
  • computer A program that functions as processing means for obtaining a score for action generation for each person based on data of a person detected from input data of an image or a sound.
  • a robot comprising: a processing unit that obtains a score for generating an action for each person based on data of a person detected from input data of an image or a sound.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

The present invention enables a person's behavior to be satisfactorily imitated without making user registration. The present invention is provided with a processing unit for obtaining a score for action generation by person on the basis of the data of a person detected from image or voice input data. A score includes, for example, an impression score obtained by evaluating whether a person's behavior is good or bad, or a relationship score obtained by evaluating a person's relationship. The processing unit, for example, generates an action that corresponds to each person using the by-person score.

Description

情報処理装置、情報処理方法、プログラムおよびロボットINFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND ROBOT
 本技術は、情報処理装置、情報処理方法、プログラムおよびロボットに関し、特に、人との交流を目的としたロボットに適用して好適な情報処理装置等に関する。 The present technology relates to an information processing apparatus, an information processing method, a program, and a robot, and more particularly to an information processing apparatus suitable for being applied to a robot aiming at interaction with people.
 人との交流を目的としたロボットでは、人に似た振る舞いが期待される。人の振る舞いを模す例として、この人はどういう人かという、その人の印象などに基づいた行動などが考えられる。 Robots that aim to interact with people are expected to behave like people. As an example of imitating a person's behavior, an action based on the person's impression or the like of who this person is can be considered.
 例えば、特許文献1には、好感度の指標を用いて行動を決めるロボットが記載されている。この場合、ユーザによるロボットに対するユーザ登録の操作が必要であることから、ユーザ登録した人物に対しては自然な反応を示すが、ユーザ登録していない人物に対しては自然な反応を示さない。例えば、家族で購入した場合に、家族の中の登録し忘れた人物に対しては、自然な反応をしないことを意味する。また、このロボットにおいては、ユーザ登録の操作が人らしくない。 For example, Patent Document 1 describes a robot that determines an action using a positivity index. In this case, since a user registration operation for the robot is required by the user, a natural response is exhibited for the person who has registered the user, but a natural response is not shown for the person who has not registered the user. For example, when purchased by a family, it means that there is no natural reaction to a person who forgot to register in the family. In addition, in this robot, the operation of user registration is not human.
特開2009-266200号公報JP, 2009-266200, A
 本技術の目的は、ユーザ登録を行うことなく人の振る舞いを良好に模するようにすることにある。 The purpose of the present technology is to better simulate human behavior without performing user registration.
 本技術の概念は、
 画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得る処理部を備える
 情報処理装置にある。
The concept of this technology is
According to another aspect of the present invention, an information processing apparatus includes a processing unit that obtains a score for action generation for each person based on data of a person detected from input data of an image or a sound.
 本技術において、処理部により、画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアが得られる。例えば、スコアは、人物の行動の良し悪しを評価して得られた印象スコアを含む、ようにされてもよい。また、例えば、スコアは、人物関係を評価して得られた関係性スコアを含む、ようにされてもよい。 In the present technology, the processing unit obtains a score for action generation for each person based on the data of the person detected from the input data of the image or the sound. For example, the score may be made to include an impression score obtained by evaluating the quality of the person's behavior. Also, for example, the score may be made to include a relationship score obtained by evaluating a person relationship.
 また、例えば、処理部は、検出された人物のデータを記憶されている所定数の人物のデータと照合し、合致するものがないときは、検出された人物のデータとこの人物のデータに基づいて得られたスコアを新たな人物のデータとして記憶し、合致したものがあったときは、検出された人物のデータに基づいて得られたスコアにより、対応する人物の記憶されているスコアを更新する、ようにされてもよい。 Further, for example, the processing unit collates the data of the detected person with the data of the predetermined number of stored persons, and when there is nothing that matches, the data of the detected person and the data of the person are compared. The obtained score is stored as data of a new person, and when there is a match, the stored score of the corresponding person is updated using the score obtained based on the data of the detected person May be done.
 また、例えば、処理部は、照合を、半教師学習(Semi-supervised Learnings)やフューショット学習(Few-shot Learnings)を実現するためのメトリック学習(Metric Learnings)のネットワーク構成を用いて学習した識別モジュールを用いて行う、ようにされてもよい。この場合、例えば、識別モジュールは、検出された人物のデータを特徴量に変換し、この変換された特徴量に対する記憶されている所定数の人物のデータの特徴量の成分を算出し、この算出された成分に基づいて検出された人物のデータに対する記憶されている所定数の人物のデータのスコアを検出し、この検出されたスコアに基づいて、合致する人物の情報、あるいはいずれの人物にも合致しないという情報を出力する、ようにされてもよい。そして、この場合、例えば、特徴量の成分は、記憶されている人物のデータの特徴量を単位ベクトルに変換し、検出された人物のデータの特徴量と変換された単位ベクトルの内積をとることで算出される、ようにされてもよい。 Also, for example, the processing unit performs identification by learning using a network configuration of metric learning (Metric Learnings) for realizing semi-supervised learnings and fe-shot learnings. It may be done using a module. In this case, for example, the identification module converts the data of the detected person into the feature amount, calculates the component of the feature amount of the data of the predetermined number of persons stored for the converted feature amount, and performs this calculation The score of the data of a predetermined number of stored persons with respect to the data of the detected persons is detected based on the detected components, and based on the detected scores, information of a matching person or any person is detected. It may be made to output information that they do not match. Then, in this case, for example, the component of the feature value converts the feature value of the stored person data into a unit vector, and takes the inner product of the detected feature data of the person data and the converted unit vector. It may be calculated as
 また、例えば、処理部は、人物別のスコアを用いて、それぞれの人物に対応したアクションをさらに生成する、ようにされてもよい。この場合、例えば、スコアは、人物の行動の良し悪しを評価して得られた印象スコアと人物関係を評価して得られた関係性スコアを含み、処理部は、印象スコアと関係性スコアに基づいて算出された統合スコアに基づいてアクションを生成する、ようにされてもよい。 Also, for example, the processing unit may be configured to further generate an action corresponding to each person using a score for each person. In this case, for example, the score includes an impression score obtained by evaluating a person's behavior and a relationship score obtained by evaluating a person relationship, and the processing unit uses the impression score and the relationship score. An action may be generated based on the integrated score calculated based on the calculated score.
 このように本技術においては、画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得るものである。そのため、ユーザ登録を行うことなく人の振る舞いを良好に模することが可能となる。この場合、例えば、頻繁に遭遇する人物や、好印象の行動を多くしている人物や、他者との関係性が良好な人物に対しては、自然と、好印象な評価に紐付いたアクションに基づいてインタラクションが行われる。また、例えば、初めて合う、あまり合わない、悪印象な人物に対しては、その評価に伴うアクションに基づいてインタラクションが行われる。 As described above, in the present technology, a score for action generation for each person is obtained based on data of a person detected from input data of images or sounds. Therefore, it is possible to better simulate human behavior without performing user registration. In this case, for example, for a person who frequently encounters, a person who makes a lot of positive impressions, or a person who has a good relationship with others, an action that is naturally associated with a positive impression evaluation Interaction is performed based on Also, for example, for a person who is not fit for the first time, a person who is not fit well, an impression is performed based on the action involved in the evaluation.
 本技術によれば、ユーザ登録を行うことなく人の振る舞いを良好に模するようにできる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。 According to the present technology, it is possible to better simulate human behavior without performing user registration. In addition, the effect described here is not necessarily limited, and may be any effect described in the present disclosure.
実施の形態としての情報処理装置の構成例を示すブロック図である。It is a block diagram showing an example of composition of an information processor as an embodiment. 人物別スコアテーブルの記憶例を示す図である。It is a figure which shows the example of a memory of a score table classified by person. アクション生成モジュールにおける処理手順を示すフローチャートである。It is a flowchart which shows the process sequence in an action production | generation module. 情報処理装置の概略的な動作フローを示す図である。It is a figure which shows the schematic operation | movement flow of an information processing apparatus. 人物識別モジュールを説明するための図である。It is a figure for demonstrating a person identification module. 人物識別モジュールの学習を説明するための図である。It is a figure for demonstrating learning of a person identification module. エンベッド(Embed)ネットワークを示す図である。FIG. 2 illustrates an embedded network. 半教師学習やフューショット学習を実現するメトリック学習のネットワークを示す図である。It is a figure which shows the network of metric learning which implement | achieves half teacher training and fu shot learning. サポート特徴を正規化した場合のネットワークを示す図である。FIG. 5 illustrates a network with normalized support features. フューショット学習の性能評価ベンチマークとして知られる“Omniglot” と呼ばれるデータセットでの比較結果を示す図である。It is a figure which shows the comparison result in the data set called "Omni glot" known as performance evaluation benchmark of fu shot learning. フューショット学習の性能評価ベンチマークとして知られる“miniImagenet” と呼ばれるデータセットでの比較結果を示す図である。It is a figure which shows the comparison result in the data set called "miniImagenet" known as performance evaluation benchmark of fu shot learning. 既知未知判定を追加したネットワークを示す図である。It is a figure which shows the network which added known unknown determination.
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
Hereinafter, modes for carrying out the invention (hereinafter referred to as “embodiments”) will be described. The description will be made in the following order.
1. Embodiment 2. Modified example
 <1.第1の実施の形態>
 [情報処理装置]
 図1は、実施の形態としての情報処理装置100の構成例を示している。この情報処理装置100は、人との交流を目的としたロボット(エージェント)が持つものである。この情報処理装置100は、入力部101と、人領域/区間検出モジュール102と、人物識別モジュール103と、印象スコア算出モジュール104と、関係性スコア算出モジュール105と、人物別スコア更新モジュール106と、人物別スコアテーブル107と、アクション生成モジュール108と、出力部109を有している。
<1. First embodiment>
[Information processing device]
FIG. 1 shows a configuration example of an information processing apparatus 100 as an embodiment. The information processing apparatus 100 is possessed by a robot (agent) intended to interact with people. The information processing apparatus 100 includes an input unit 101, a person area / section detection module 102, a person identification module 103, an impression score calculation module 104, a relationship score calculation module 105, and a score per person update module 106. A person-by-person score table 107, an action generation module 108, and an output unit 109 are included.
 入力部101は、イメージセンサやマイクロホンを備えており、イメージセンサで画像データを得、マイクロホンで音声データを得る。この場合、イメージセンサは、ロボット(エージェント)の目として機能し、マイクロホンはロボット(エージェント)の耳として機能する。ここで、イメージセンサやマイクロホンはそれぞれ一つに限定されず、また、イメージセンサおよびマイクロホンのいずれか一方のみを備えていてもよい。 The input unit 101 includes an image sensor and a microphone, obtains image data with the image sensor, and obtains audio data with the microphone. In this case, the image sensor functions as the eye of the robot (agent), and the microphone functions as the ear of the robot (agent). Here, the image sensor and the microphone are not limited to one each, and only one of the image sensor and the microphone may be provided.
 人領域/区間検出モジュール102は、入力部101で得られた画像データから、人物が存在する領域を例えば画像認識技術を用いて検出し、その領域の画像データを、検出人物データとして、人物識別モジュール103に供給する。また、人領域/区間検出モジュール102は、入力部101で得られた音声データから、人物の音声区間を例えば音声認識技術を用いて検出し、その区間の音声データを、検出人物データとして、人物識別モジュール103、印象スコア算出モジュール104および関係性スコア算出モジュール105に送る。 The human area / section detection module 102 detects an area where a person exists from the image data obtained by the input unit 101 using, for example, an image recognition technology, and identifies the image data of that area as detected human data. The module 103 is supplied. Also, the human area / section detection module 102 detects a voice section of a person from the voice data obtained by the input unit 101 using, for example, voice recognition technology, and uses the voice data of the section as detected person data. It is sent to the identification module 103, the impression score calculation module 104, and the relationship score calculation module 105.
 人物識別モジュール103は、検出人物データを、人物別スコアテーブル107に記憶されている所定数の記憶人物データ(識別用データ)と照合し、合致する記憶人物の情報、あるいはいずれの記憶人物にも合致しないという情報を出力する。この実施の形態において、人物識別モジュール103は、照合を、フュ―ショット学習のプロトタイプネットワーク構成を用いて学習した識別モジュールである。この識別モジュールの詳細については後述する。 The person identification module 103 collates the detected person data with a predetermined number of stored person data (identification data) stored in the person-by-person score table 107, and matches the information of the stored person or any stored person. Output information that they do not match. In this embodiment, the person identification module 103 is an identification module which has learned the collation using a prototype network configuration of fusion learning. Details of this identification module will be described later.
 印象スコア算出モジュール104は、善悪の行動がラベル付けされたデータセットを用いて学習された学習器により、検出人物データに対して行動の善悪を評価するスコアを生成し、このスコアを印象スコアとして出力する。 The impression score calculation module 104 generates a score for evaluating the goodness or badness of the detected person data by the learning device learned using the data set labeled with the goodness and badness behavior, and uses this score as an impression score. Output.
 例えば、画像からの好感(善)および嫌悪(悪)の情報として、以下がある。
 好感(善)
 ・ロボット(エージェント)からみて、よく見かける、特に笑顔でエージェントに近づいている
 ・ロボット(エージェント)にとっての親密度が高い人物と同時にいる
 ・親密度の高い人が笑顔になっている、会話が弾んでいる。
 ・なでてくれる(触覚センサ)
 嫌悪(悪)
 ・ロボット(エージェント)に敵対的な表情で近づいてくる
 ・親密度の高い人が嫌悪の表情をしている、喧嘩している
 ・なぐられる
For example, there are the following as information on good feeling (good) and aversion (evil) from images.
Good feeling (good) :
· Seen from the robot (agent), often seen, especially with a smile, approaching the agent · being at the same time as a person with high familiarity with the robot (agent) · with a person with high familiarity smiling, conversation is ambulatory You
・ You will get rid of it (tactile sensor)
Disgust (Evil) :
-Approaches robots (agents) with hostile expressions-People with high intimacy have a disgusted expression, are deceiving-Betrayed
 また、例えば、音声からの好感(善)および嫌悪(悪)の情報として、以下がある。
 好感(善)
 ・会話でほめてくれる、良い質問をしてくれる、頻繁に話しかけてくれる
 嫌悪(悪)
 ・人間が聞いても変な質問をする(セクハラ、パワハラ)
Also, for example, there are the following as information of good feeling (good) and aversion (evil) from speech.
Good feeling (good) :
· Complain in the conversation, ask good questions, talk infrequently (Evil) :
・ A strange question is asked by human beings (sexual harassment, power harassment)
 関係性スコア算出モジュール105は、複数の人物間の良し悪しの関係性がラベル付けされたデータセットを用いて学習された学習器により、検出人物データに対して複数の人物間の良し悪しの関係性を評価するスコアを生成し、このスコアを関係性スコアとして出力する。 The relationship score calculation module 105 is configured to determine the relationship between the plurality of persons with respect to the detected person data by the learning device learned using the data set labeled with the relationship between the plurality of persons. Generate a score to evaluate gender, and output this score as a relevance score.
 例えば、画像からの良い関係および悪い関係の情報として、以下がある。
 良い関係
 ・複数の人物が笑顔で会話をしている
 ・複数の人物が手をつないで歩いている
 悪い関係
 ・複数の人物が喧嘩をしている
 ・複数の人物が離れて歩いている
For example, information on good and bad relationships from images includes:
Good relationship :
・ Several people are talking with smiles ・Positive relationship where several people are walking holding hands
・ Several people are jealous ・ Several people are walking away
 また、例えば、音声からの良い関係および悪い関係の情報として、以下がある。
 良い関係
 ・複数の人物が笑って会話をしている
 悪い関係
 ・複数の人物が大きな声でどなりあっている
Also, for example, information on good and bad relations from speech is as follows.
Good relationship :
・ A bad relationship in which two or more people are laughing and having a conversation:
・ Several people are loud and loud
 なお、人領域/区間検出モジュール102で検出される検出人物データとして、複数の人物のデータが存在する場合、人物識別モジュール103ではそれぞれの人物のデータに対して、人物識別が行われ、印象スコア算出モジュール104ではそれぞれの人物のデータに対して印象スコア算出処理が行われる。また、この場合のみ、関係性スコア算出モジュール105では関係性スコア算出処理が行われる。 When data of a plurality of persons exist as detected person data detected by the person area / section detection module 102, the person identification module 103 performs person identification on data of each person, and an impression score is obtained. The calculation module 104 performs an impression score calculation process on data of each person. Further, only in this case, the relationship score calculation module 105 performs a relationship score calculation process.
 人物別スコア更新モジュール106は、人物識別モジュール103の出力情報に基づいて、人物別スコアテーブル107におけるスコアを更新する。なお、人物別スコアテーブル107には、人物IDで識別されて、人物別に、識別用データ、印象スコア、関係性スコアが記憶される。図2は、人物別スコアテーブル107の記憶例を示している。図示の例では、A,B,Cの人物IDで識別される3人の人物の項が存在し、それぞれの項に、識別用データ、印象スコア、関係性スコアが記憶されている。 The per-person score update module 106 updates the per-person score table 107 based on the output information of the per-person identification module 103. In the per-person score table 107, identification data, an impression score, and a relationship score are stored for each person, identified by the person ID. FIG. 2 shows an example of storage of the per-person score table 107. In the illustrated example, the terms of three persons identified by the person IDs A, B, and C exist, and identification data, an impression score, and a relationship score are stored in each term.
 人物識別モジュール103がいずれの記憶人物にも合致しないという情報を出力するとき、人物別スコア更新モジュール106は、人物別スコアテーブル107に新たな人物の項を人物IDで識別可能に設ける。そして、この新たな人物の項に、識別用データ、印象スコア、関係性スコアを記憶する。 When the person identification module 103 outputs information that it does not match any of the stored persons, the individual score updating module 106 sets the new individual item in the individual score table 107 so as to be identifiable by the person ID. Then, identification data, an impression score, and a relationship score are stored in the new person's section.
 この場合、識別用データとしては、上述の照合に係る検出人物データが記憶される。印象スコアとしては、上述の照合に係る検出人物データに基づいて印象スコア算出モジュール104で得られた印象スコアが記憶される。また、関係性スコアとしては、上述の照合に係る検出人物データに基づいて関係性スコア算出モジュール105で得られた関係性スコアが記憶される。 In this case, detected person data relating to the above-described collation is stored as identification data. As the impression score, the impression score obtained by the impression score calculation module 104 based on the detected person data related to the above-mentioned matching is stored. In addition, as the relationship score, the relationship score obtained by the relationship score calculation module 105 based on the detected person data related to the above-mentioned matching is stored.
 また、人物識別モジュール103が、合致する記憶人物の情報を出力するとき、人物別スコア更新モジュール106は、人物別スコアテーブル107の該当する人物の項における印象スコア、関係性スコアを、それぞれ、印象スコア算出モジュール104で得られた印象スコア、関係性スコア算出モジュール105で得られた関係性スコアを用いて、更新する。この更新は、例えば、既にあるスコアに新たなスコアを適当な重み付けを行って加算することで行うことができる。 In addition, when the person identification module 103 outputs the information of the stored stored person, the individual score update module 106 gives an impression of the impression score and the relationship score in the item of the corresponding person in the individual score table 107, respectively. The impression score obtained by the score calculation module 104 and the relationship score obtained by the relationship score calculation module 105 are updated. This updating can be performed, for example, by adding a new score to an already existing score with appropriate weighting.
 アクション生成モジュール108は、人物識別モジュール103で識別された人物に対するアクションを、人物別スコアテーブル107に格納されている当該人物に係るスコア、この実施の形態では印象スコア、関係性スコアを用いて、当該人物に対するアクションを決定して、出力部109にアクション情報を送る。 The action generation module 108 uses the action for the person identified by the person identification module 103 using the score related to the person stored in the individual score table 107, and in this embodiment, the impression score and the relationship score. The action for the person is determined, and the action information is sent to the output unit 109.
 図3のフローチャートは、アクション生成モジュール108における処理手順を示している。まず、ステップST1において、人物識別モジュール103から、人物識別情報を受け取る。次に、ステップST2において、人物別スコアテーブル107から人物別スコア更新モジュール106を通じて、印象スコアを参照する。例えば、図2のテーブル例で、Aの人物IDで示される人物の場合、印象スコアとして“impr_A”が参照される。 The flowchart of FIG. 3 shows the processing procedure in the action generation module 108. First, in step ST1, person identification information is received from the person identification module 103. Next, in step ST2, the impression score is referred to from the person score table 107 through the person score update module 106. For example, in the example of the table in FIG. 2, in the case of a person indicated by the person ID of A, “impr_A” is referred to as an impression score.
 次に、ステップST3において、人物別スコアテーブル107から人物別スコア更新モジュール106を通じて、関係性スコアを参照する。例えば、図2のテーブル例で、Aの人物IDで示される人物の場合、関係性スコアとして“relv_AB”と“relv_AC”が参照される。 Next, in step ST3, the relevance score is referred to from the per-person score table 107 through the per-person score update module 106. For example, in the example of the table in FIG. 2, in the case of a person indicated by the person ID of A, “relv_AB” and “relv_AC” are referred to as the relationship score.
 次に、ステップST4において、関係性スコア印象スコアとから、以下の数式(1)に基づいて、補正スコア“comp_X”を算出する。なお、この数式において、“X”はステップST1で受け取った人物識別情報で示される人物を示し、“S”は関係性の相手の人物を示す。
  comp_X = ΣSrelv_XS * impr_S   ・・・(1)
Next, in step ST4, a correction score "comp_X" is calculated from the relationship score impression score and the following equation (1). In this equation, "X" indicates a person indicated by the person identification information received in step ST1, and "S" indicates a person of the other party of the relationship.
comp_X = S S relv_XS * impr_S (1)
 次に、ステップST5において、印象スコアと補正スコアから、以下の数式(2)に示すように、統合スコア“comp_X”を算出する。次に、ステップST6において、統合スコアの中身を使って、以下の数式(3)に基づいて、アクションスコア“vX”を算出する。なお、数式(3)において、a,bは、定数あるいは学習可能な係数である。
  comb_X = {impr_X, comp_X}   ・・・(2)
  vX = a * impr_X + b * comp_X   ・・・(3)
Next, in step ST5, an integrated score "comp_X" is calculated from the impression score and the correction score as shown in the following equation (2). Next, in step ST6, the action score "vX" is calculated based on the following equation (3) using the contents of the integrated score. In Equation (3), a and b are constants or coefficients that can be learned.
comb_X = {impr_X, comp_X} (2)
vX = a * impr_X + b * comp_X (3)
 次に、ステップST7において、アクションスコアを用いて、以下の数式(4)に示すように、アクションを決定し、ステップST8において、決定されたアクションの情報を、出力部109に送る。
  if (vA_min < vX < vA_max)
      select action_A   ・・・(4)
Next, in step ST7, the action score is used to determine an action as shown in the following equation (4), and in step ST8, information on the determined action is sent to the output unit 109.
if (vA_min <vX <vA_max)
select action_A (4)
 なお、この数式(4)において、“vA_min”,“vA_max”は、アクションA(action_A)に決定するための閾値を示している。このような閾値範囲が複数用意されており、アクションスコアがどの閾値範囲に入るかによって、複数のアクション候補から一つのアクションが決定される。 In the formula (4), “vA_min” and “vA_max” indicate threshold values for determining the action A (action_A). A plurality of such threshold ranges are prepared, and one action is determined from the plurality of action candidates depending on which threshold range the action score falls within.
 図1に戻って、出力部109は、アクション生成モジュール108から送られてくるアクション情報に基づいて、アクションを実行する。この出力部109は、例えば、アクチュエータ、ディスプレイ、スピーカ等で構成される。 Referring back to FIG. 1, the output unit 109 executes an action based on the action information sent from the action generation module 108. The output unit 109 includes, for example, an actuator, a display, a speaker, and the like.
 アクションの具体例について説明する。
 ロボット犬の場合
  親密: とびつく、しっぽをふる、振り向く、どこかが点滅する
  嫌悪: 遠ざかる、あとずさりする、威嚇する、吠える
 対話エージェントの場合
  親密: 抑揚が大きい、口調がしたしみ、名前で呼びかける、話を続けようとする
  嫌悪: 抑揚がない、必要以上に尊敬献上語、紋切り口調
 その他
  親密度が中程度のときに、あえて、ユーザの気を引くため、無視する
  ランダムに親密度と嫌悪を繰り返す
A specific example of the action will be described.
In the case of a robot dog : Intimacy: Toss, sip a tail, turn around, blink somewhere Aversion: In the case of a dialogue agent who moves away, backslides, threatens, threatens, barks Intimacy: Large intonation, toned, to call by name, talk Try to continue Disgust: If there is no intonation, over-respected words, clamshell tone or other medium intimacy, dare to ignore the user's attention, randomly repeat intimacy and disgust
 図4は、上述した図1に示す情報処理装置100の概略的な動作フローを示している。まず、情報処理装置100は、ステップST21において、人領域/区間検出モジュール102により、入力部101から画像や音声のデータを受け取る。次に、ステップST22において、情報処理装置100は、人領域/区間検出モジュール102により、受け取った画像データから人物が存在する領域を検出してその領域の画像データを検出人物データとし、また、受け取った音声データから人物の音声区間を検出してその区間の音声データを検出人物データする。 FIG. 4 shows a schematic operation flow of the information processing apparatus 100 shown in FIG. 1 described above. First, in step ST21, the information processing apparatus 100 receives image and sound data from the input unit 101 by the human area / section detection module 102. Next, in step ST22, the information processing apparatus 100 causes the person area / section detection module 102 to detect an area where a person exists from the received image data, and uses the image data of the area as detected person data. A voice section of a person is detected from the voice data, and voice data of the section is detected person data.
 次に、情報処理装置100は、ステップST23において、人物識別モジュール103により、検出人物データに基づいて、人物を識別する。また、情報処理装置100は、ステップST24において、印象スコア算出モジュール104により、検出人物データに基づいて、印象スコアを算出する。また、情報処理装置100は、ステップST25において、関係性スコア算出モジュール105により、検出人物データに基づいて、関係性スコアを算出する。なお、ステップST23からステップST25の処理が順次行われる必要はなく、並行して行われてもよい。 Next, in step ST23, the information processing apparatus 100 causes the person identification module 103 to identify a person based on the detected person data. Further, in step ST24, the information processing apparatus 100 causes the impression score calculation module 104 to calculate an impression score based on the detected person data. Further, in step ST25, the information processing apparatus 100 causes the relationship score calculation module 105 to calculate a relationship score based on the detected person data. The processes from step ST23 to step ST25 do not have to be sequentially performed, but may be performed in parallel.
 次に、情報処理装置100は、ステップST26において、人物別スコア更新モジュール106により、ステップST23からステップST25の処理結果に基づいて、人物別スコアテーブル107を更新する。 Next, in step ST26, the information processing apparatus 100 causes the per-person score update module 106 to update the per-person score table 107 based on the processing results of steps ST23 to ST25.
 人物識別モジュール103がいいずれの記憶人物にも合致しないという情報を出力するとき、人物別スコアテーブル107に新たな人物の項が人物IDで識別可能に設けられ、この新たな人物の項に、識別用データ、印象スコア、関係性スコアが格納される。この場合、識別用データとしては検出人物データが用いられ、印象スコアとしては印象スコア算出モジュール104で得られた印象スコアが用いられ、関係性スコアとしては関係性スコア算出モジュール105で得られた関係性スコアが用いられる。 When the person identification module 103 outputs information that it does not match any stored person, a new person item is provided in the person score table 107 so that it can be identified by the person ID, and the new person item is identified Data, impression score, and relationship score are stored. In this case, detected person data is used as the identification data, the impression score obtained by the impression score calculation module 104 is used as the impression score, and the relationship obtained by the relationship score calculation module 105 is used as the relationship score. Sex score is used.
 一方、人物識別モジュール103が合致する記憶人物の情報を出力するとき、人物別スコアテーブル107の該当する人物の項における印象スコア、関係性スコアが、それぞれ、印象スコア算出モジュール104で得られた印象スコア、関係性スコア算出モジュール105で得られた関係性スコアを用いて、更新される。 On the other hand, when outputting the information of the stored person who matches the person identification module 103, the impression score and the relationship score in the item of the corresponding person in the individual score table 107 are the impressions obtained by the impression score calculation module 104, respectively. The score is updated using the relationship score obtained by the relationship score calculation module 105.
 次に、情報処理装置100は、ステップST27において、アクション生成モジュール108により、人物識別モジュール103で識別された人物に対するアクションを決定する。この場合、人物別スコアテーブル107に格納されている当該人物に係るスコア(印象スコア、関係性スコア)に基づいて、アクションが決定(選択)される。 Next, in step ST27, the information processing apparatus 100 causes the action generation module 108 to determine an action for the person identified by the person identification module 103. In this case, the action is determined (selected) based on the score (impression score, relevance score) related to the person stored in the per-person score table 107.
 次に、ステップST28において、情報処理装置100は、アクション生成モジュール108から出力部109に、決定したアクションの情報を送る。これにより、出力部109では、アクション情報に基づいた、アクションが実行される。 Next, in step ST28, the information processing apparatus 100 sends the information of the determined action from the action generation module 108 to the output unit 109. Thus, the output unit 109 executes an action based on the action information.
 上述した図1に示す情報処理装置100においては、以下の(1)~(4)のような基本動作が行われる。
 (1)以下にあてはまるユーザ(人物)に対して、所定のアクションを高確率で実行する。
   a.最初に電源を入れた後、所定期間内に、画像、音声データから「人物」として識別されたユーザ
   b.入力される画像データ、音声データを、過去データと「照合」して、過去、識別したことがあると判定されたユーザ
In the information processing apparatus 100 shown in FIG. 1 described above, the following basic operations (1) to (4) are performed.
(1) Execute predetermined actions with high probability for a user (person) that applies to the following.
a. A user who is identified as a "person" from an image and sound data within a predetermined period after the power is first turned on b. A user who has been determined to have identified in the past by "matching" input image data and voice data with past data
 (2)以下の入力に基づいて、所定のアクションの確率が変化する。
   a.最初に、電源を入れてからそのユーザを検出されるまでの時間
   b.メモリに既に記憶されている人物の数
   c.入力されたデータが、最初に登録されたデータと同一と判定された回数
   d.ユーザごとに記憶しているスコア(印象スコア、関係性スコアなど)
(2) The probability of a predetermined action changes based on the following input.
a. First, the time between power on and detection of the user b. Number of persons already stored in memory c. Number of times the input data is judged to be identical to the data registered first d. Scores stored for each user (impression score, relationship score, etc.)
 (3)以下の条件に基づいて、ユーザ別にスコアが計算される。
   a.事前に用意した印象スコア評価モジュールで印象スコアが算出される
   b.事前に用意した関係性スコア評価モジュールで関係性スコアが算出される。
 (4)入力に基づく、アクションの実行確率がユーザからのフィードバックを最大化するように学習されている
(3) The score is calculated for each user based on the following conditions.
a. Impression score is calculated by an impression score evaluation module prepared in advance b. The relationship score is calculated by the relationship score evaluation module prepared in advance.
(4) Based on input, action execution probability is learned to maximize feedback from the user
 なお、上述した図1に示す情報処理装置100においては、以下の(1)、(2)のような動作も考えられる。
 (1)あまり会っていない人物のスコアを減少する
In the information processing apparatus 100 shown in FIG. 1 described above, the following operations (1) and (2) can be considered.
(1) Decrease the score of people who have not met very often
 (2)登録してからの日数を記憶しておき、日数に応じたルールに応じて、アクションを制御する
 a.第1の日数以内の場合: 好印象
 b.第2の日数以上の場合: 忘却
 c.第1の日数から第2の日数までの間、気を引くアクションを行う、例えば、確率的にわざと無視をする、あるいは、他の人物に必要以上に馴染む
(2) Store the number of days since registration, and control the action according to the rule according to the number of days a. Within the first number of days: Good impression b. In the case of the second or more days: forgetting c. Take a distracting action from the first day to the second day, for example, probabilistically ignore intentionally, or become more familiar with other people
 次に、図1に示す情報処理装置100のユースケースについて説明する。最初に「ユーザ家族へのインタラクション」のユースケースを箇条書きで説明する。
 (1)父がロボット犬を購入
 (2)子供が電源を入れる
   a.カメラを起動して、画像から、人(子供1)を検出
   b.マイクを起動して、音声から、人(子供1)を検出
   c.人(子供1)の画像、音声データを記憶する
Next, a use case of the information processing apparatus 100 shown in FIG. 1 will be described. First, the use case of “Interaction with User Family” will be described in a bullet.
(1) Father buys robot dog (2) Child turns on a. Start the camera and detect a person (child 1) from the image b. Activate the microphone and detect the person (child 1) from the voice c. Store the image and sound data of a person (child 1)
 (3)子供2が同時に画像に映る
   ・所定期間内(同日)なので子供2を子供1と同様に記憶
 (4)子供1,2には決められたインタラクション行動(とびつき・・とか)を高確率で選択
(3) The child 2 appears in the image at the same time ・ Because it is within the predetermined period (the same day), it memorizes the child 2 as the child 1 (4) The children 1, 2 have a high probability of interaction action Select by
 (5)次の日、母が映る
   a.最初は、画像、音声をデータベースに記憶だけする
      ・ただし、行動を決める印象スコアは0とする
   b.次に、何回か会うたびにスコアがあがる
      ・「家事」などの善行をしていて「印象スコア」が向上
   c.ある程度を超えると所定のインタラクション(とびつきとか)がでる
(5) The next day, the mother appears a. At first, only images and sounds are stored in the database. However, the impression score that determines the action is 0. b. Next, the score goes up every time I meet a couple of times ・ I do good work such as "house chores" and improve the "impression score" c. If it exceeds a certain level, predetermined interactions (such as jumps) appear
 (6)父が酔っ払って帰る
   a.最初に見た時点では印象スコア0
   b.次に会うとスコアが変わる
      ・「暴れる」などの悪行により「印象スコア」が低下
   c.ある程度を超えると所定のインタラクション(嫌悪とか)がでる
(6) Father gets drunk and returns a. Impression score 0 at first look
b. The score changes when you meet next ・ "Impression score" decreases due to bad behavior such as "run up" c. If it exceeds a certain level, predetermined interaction (such as hatred) will occur
 次に、「ユーザ友達へのインタラクション」のユースケースを箇条書きで説明する。
 (1)子供1の友達1がくる(仲良し)
   a.子供1と友達1が一緒にいるデータを入力(たとえば、手を繋いでいる画像)
   b.モジュールが、人物としてA(子供1)とE(友達1)がいると識別する(Eはロボットからみて初対面でもよい)
   c.同時に、この画像の関係性スコアを算出する(手を繋いでいるので親密)
   d.テーブルの中のAとEの関係性スコアを更新する(この場合は正の方向に更新)
Next, the use case of “Interaction with User Friends” will be described in a bullet.
(1) Friend 1 of child 1 comes (friendship)
a. Enter the data that child 1 and friend 1 are together (for example, an image holding hands)
b. The module identifies A (child 1) and E (friend 1) as persons (E may be a first encounter from the robot)
c. At the same time, calculate the relationship score of this image (Because we are holding hands, so intimacy)
d. Update the relationship score of A and E in the table (in this case, update in the positive direction)
 (2)子供1の友達2がくる(嫌い)
   a.子供1と友達2が共起しているデータを入力(たとえば、胸ぐらをつかんでいる画像)
   b.モジュールが、人物としてA(子供1)とF(友達2)がいると識別する(Fはロボットからみて初対面でもよい)
   c.同時に、この画像の関係スコアを算出する(胸倉を掴んでいるので険悪)
   d.テーブルの中のAとFの関係性スコアを更新する(この場合は負の方向に更新)
(2) Child 2's friend 2 comes (dislikes)
a. Enter data co-occurring with child 1 and friend 2 (for example, an image grabbing a chest)
b. The module identifies A (child 1) and F (friend 2) as persons (F may be a first encounter from the robot)
c. At the same time, calculate the relationship score of this image (due to grasping the chest, it's a pity)
d. Update the relationship score between A and F in the table (in this case, update in the negative direction)
 (3)関係スコアから行動を決定する
   a.友達1を発見したときの行動を決定する
   b.まず、友達1が持つ関係スコアと関係する人物の印象スコアの積を算出する
   c.続いて、その総和を算出し、友達1の印象スコアを加算してアクションスコア(行動基準スコア)を算出する
   d.得られたアクションスコアに基づいて、行動を決定する
(3) Determine the action from the relationship score a. Determine the action when finding the friend 1 b. First, the product of the impression score of the person related to the relationship score possessed by friend 1 is calculated c. Subsequently, the sum is calculated, and the impression score of Friend 1 is added to calculate an action score (action reference score) d. Determine the action based on the obtained action score
 次に、図1の情報処理装置100における人物識別モジュール103について説明する。人物識別モジュール103は、図5に示すように、カテゴリ(ここでは、人物)別に登録したごく少数のデータから、入力されたデータのカテゴリを識別するモジュールである。このモジュールには、ディープラーニングを用いて学習したニューラルネットによる識別モジュールを用いる。
 ごく少数の登録データだけからカテゴリを識別するモジュールを、ディープラーニングを用いて学習する方法として、例えば、以下の(1)、(2)の方法など、幾つかの手法が知られる。
 (1)シャミーズネットワークを使う方法
 (2)トリプレットネットワークを使う方法
 これらの手法はメトリック学習あるいはメトリック埋め込み学習(Metric Embedding Learnings)と呼ばれる特徴空間での距離尺度を学習する技術として分類されることが多い。
Next, the person identification module 103 in the information processing apparatus 100 of FIG. 1 will be described. As shown in FIG. 5, the person identification module 103 is a module for identifying a category of input data from very few data registered by category (here, person). This module uses a neural network identification module learned using deep learning.
Several methods are known as a method of learning the module which identifies a category only from very few registration data using deep learning, for example, the method of following (1), (2).
(1) Method using shamises network (2) Method using triplet network These methods can be classified as techniques for learning distance measures in feature space called metric learning or metric embedding learnings There are many.
 いずれも、学習において、図6に示すように、事前に大量のラベル付きデータから、学習器により、カテゴリの識別に必要な関数(識別モジュール)を獲得し、実行時、この関数を用いて、入力データのカテゴリを判別する。これらは、顔識別、話者識別などで高い識別性能を実現できる。これらの方法で生成したモジュールを人物識別に用いれば、本技術における人物識別モジュールを実現できる。 In either case, as shown in FIG. 6, in learning, a function (identification module) necessary for identification of a category is acquired by a learning device from a large amount of labeled data in advance, and this function is used at runtime. Determine the category of input data. These can realize high discrimination performance in face identification, speaker identification and the like. If the module generated by these methods is used for person identification, the person identification module in the present technology can be realized.
 一方、近年、少数のデータだけから高性能な学習を実現する技術として、ワンショット学習、フューショット学習が注目されている。 On the other hand, in recent years, one-shot learning and fu-shot learning have attracted attention as techniques for realizing high-performance learning from only a small number of data.
 以下ではワンショット学習、フューショット学習を以下のような意味で用いる。
 ・ワンショット学習:
   カテゴリごとのデータが1つしかない場合の学習方法と、学習モジュールの使用方法
 ・フューショット学習
   カテゴリごとのデータが少数の場合の学習方法と、学習モジュールの使用方法
In the following, one-shot learning and fu-shot learning are used in the following sense.
・ One-shot learning:
How to learn when there is only one data for each category, and how to use the learning module-Fushot learning How to learn when the data for each category is small and how to use the learning module
 フューショット学習の目的を「識別」というタスクに限定すると、シャミーズネットやトリプレットネットが解こうとしている課題と非常によく似ている。すなわち、カテゴリごとに登録された少数データを用いて、入力データのカテゴリを推定する課題である。フューショット学習は様々な手法が提案されているが、プロトタイプネットは、典型的な一例である。 When the purpose of the fu shot learning is limited to the task of “identification”, it is very similar to the task that the Shammys net and the triplet net are trying to solve. That is, the task is to estimate the category of the input data using the minority data registered for each category. Although various methods have been proposed for fu shot learning, a prototype net is a typical example.
 シャミーズネットや、トリプレットネット、プロトタイプネットは、いずれも、複数のデータを、与えられた距離情報を保つような特徴空間にマッピングするための特徴空間を学習する(Metric Learnings)ための構成をしている。いずれのネットワークも、以下の2つのパートで構成されている。
 (1)データを識別に適した特徴空間にマッピングするパート
 (2)ネットワークの構成や目的関数を識別に適した数学構造で設計するパート
Shamies net, triplet net and prototype net are all configured to learn feature space for mapping multiple data to feature space which keeps given distance information (Metric Learnings) ing. Each network consists of the following two parts.
(1) Mapping data to feature space suitable for identification (2) Designing network configuration and objective function with mathematical structure suitable for identification
 データを特徴空間にマッピングするニューラルネットをエンベッド(Embed)関数と呼ぶこととする。図7は、エンベッド(Embed)ネットワークを示し、図8は、プロトタイプ(prototype)ネットワークを示している。 A neural network that maps data to feature space is called an embed function. FIG. 7 shows an embedded network, and FIG. 8 shows a prototype network.
 トリプレットネット、プロトタイプネットでは、いずれもニューラルネットのパラメータが共通の「複数」のエンベッド関数を持っている。このエンベッド関数には、それぞれ異なるデータが入力されて、これらの結果となる特徴ベクトルが生成される。そして、この「複数」の特徴ベクトルを組み合わせてロス、すなわち、目的関数を構成する。 In triplet nets and prototype nets, the parameters of neural nets have a common "plurality" embedding function. Different data are input to the embed function to generate feature vectors resulting from them. Then, the “multiple” feature vectors are combined to form a loss, that is, an objective function.
 トリプレットネットの場合は、入力データとして3つのデータを組み合わせて入力する。3つのデータとは、以下のxa,xp,xqである。
 ・xa: アンカーデータ、他のデータを釣り上げる
 ・xp: ポジティブデータ、アンカーと同じカテゴリのデータ
 ・xn: ネガティブデータ、アンカーと異なるカテゴリのデータ
In the case of a triplet net, three data are combined and input as input data. The three data are xa, xp and xq below.
Xa: anchor data, pick up other data xp: positive data, data of the same category as the anchor x n: negative data, data of the category different from the anchor
 また、プロトタイプネットの場合は、入力データは更に多くのデータを組み合わせて入力する。これらの入力データは、以下のxs,Xqの二種類に分けることができる。
 ・xs: サポートデータ(各カテゴリを代表するデータ)
 ・xq: クエリデータ(サポートデータのカテゴリのどれかのカテゴリのデータ)
Also, in the case of prototype net, input data is input by combining more data. These input data can be divided into the following two types: xs and Xq.
Xs: Support data (data representative of each category)
-Xq: Query data (data in one of the support data categories)
 トリプレットロスの関数(数式(5)参照)と、ワンショット学習のプロトタイプネットのロス関数(数式(6)参照)を以下に示す。
 (1)トリプレットロスの関数
Figure JPOXMLDOC01-appb-M000001
 変数の定義
  x_a:入力データ(aは、anchorの略)
  x_p:登録データ(pは、positiveの略:入力データと同じカテゴリの登録データ)
  x_n:登録データ(nは、negativeの略:入力データと違うカテゴリの登録データ)
  α:マージンパラメータ
  θ:ニューラルネットパラメータの総称
  f_θ:ニューラルネットが表す関数
  l:目的関数(“l”はlossの略、入力データの一つに対する目的関数であり、最適化は、多数の入力データの目的関数を組み合わせた目的関数を使う)
The function of triplet loss (see Equation (5)) and the loss function of a one-shot learning prototype net (see Equation (6)) are shown below.
(1) Triplet loss function
Figure JPOXMLDOC01-appb-M000001
Variable definition x_a: Input data (a is an abbreviation of anchor)
x_p: Registration data (p stands for positive: registration data in the same category as the input data)
x_n: Registered data (n is an abbreviation for negative: registered data in a category different from input data)
α: margin parameter θ: generic name of neural net parameters f_θ: function represented by neural net l: objective function (“l” is an abbreviation for loss, which is an objective function for one of input data, optimization is a large number of input data Use an objective function that combines the objective functions of
 (2)プロトタイプネットのロス関数
Figure JPOXMLDOC01-appb-M000002

 変数の定義
  x_q:入力データ(qは、queryの略)
  y_q:入力データのカテゴリ
  x_s:カテゴリsの登録データ(sは、supportの略)
(2) Loss function of prototype net
Figure JPOXMLDOC01-appb-M000002

Variable definition x_q: input data (q stands for query)
y_q: Category of input data x_s: Registered data of category s (s stands for support)
 ワンショット、すなわち、1カテゴリあたり1データに限定すれば、プロトタイプネットのロスは、トリプレットロスとよく似ている。例えば、プロトタイプネットのサポートデータを2カテゴリだけにすると、プロトタイプネットのロス関数は、以下の数式(7)で表される。
Figure JPOXMLDOC01-appb-M000003
If it is limited to one shot, that is, one data per category, loss of prototype net is similar to triplet loss. For example, when the support data of the prototype net is only two categories, the loss function of the prototype net is expressed by the following equation (7).
Figure JPOXMLDOC01-appb-M000003
 プロトタイプネットのクエリデータを、トリプレットネットのアンカーとみなし、プロトタイプネットのサポートデータの一つをトリプレットのポジティブ、残りをネガティブとみなすと、よく似ていることがわかる。プロトタイプネットは、トリプレットネットのアンカー、ポジティブ、ネガティブの考え方を、クエリ、サポートの考え方に拡張したと捉えることができる。 The query data of the prototype net is regarded as the anchor of the triplet net, and one of the support data of the prototype net is regarded as the positive of the triplet, and the rest is regarded as the negative. The prototype net can be understood as extending the concept of anchor net, positive and negative of triplet net to the concept of query and support.
 さらに、本技術では、プロトタイプネットのロス関数を構成する距離関数を変更して、以下の数式(8)に示すように、サポート特徴を正規化する構成にして、識別性能を上げる。図9は、サポート特徴を正規化した場合のネットワークを示している。
Figure JPOXMLDOC01-appb-M000004
Furthermore, in the present technology, the distance function that constitutes the loss function of the prototype net is changed to normalize the support feature as shown in the following equation (8) to improve the identification performance. FIG. 9 shows the network with the support feature normalized.
Figure JPOXMLDOC01-appb-M000004
 図10、図11は、フューショット学習のベンチマークとして知られる“Omniglot”、“miniImagenet”と呼ばれるデータセットでの比較結果である。この結果を見ると、サポート特徴を正規化する構成がより識別性能が優れていることがわかる。 FIGS. 10 and 11 show comparison results of data sets called “Omnigglot” and “miniImagenet” known as benchmarks for fu shot learning. From this result, it can be seen that the configuration that normalizes the support feature has better discrimination performance.
 この変更は、元の距離関数であるユークリッド(Euclid)距離を、コサイン(Cosine)類似度に類似した関数に変更したものである。ここで、ユークリッド距離は以下の数式(9)で表され、コサイン類似度は以下の数式(10)で表され、さらにサポート特徴正規化は以下の数式(11)で表される。サポート正規化考え方としては、“WeightNormalization”に類似している。 This change is a change of the original distance function Euclidean distance to a function similar to a cosine (Cosine) similarity. Here, the Euclidean distance is expressed by the following expression (9), the cosine similarity is expressed by the following expression (10), and the support feature normalization is expressed by the following expression (11). The support normalization concept is similar to "Weight Normalization".
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000005
 “WeightNormalization”は、同じユニットへの重み係数を規格化する方法である。ここで、クエリとサポートの特徴ベクトルから作るロス関数において、サポートの特徴ベクトルf_θ (x_s )を、ニューラルネットの重みと捉える。この重みを“WeightNormalization”に従って規格化すると、規格化された重みは、以下の数式(12)に示すようになる。
Figure JPOXMLDOC01-appb-M000006
"Weight Normalization" is a method of normalizing the weighting factor to the same unit. Here, in the loss function created from the query and support feature vectors, the support feature vector f_θ (x_s) is regarded as the weight of the neural network. When this weight is normalized according to "Weight Normalization", the normalized weight is as shown in Equation (12) below.
Figure JPOXMLDOC01-appb-M000006
 そして、ロス関数は、以下の数式(13)に示すように、“WeightNormalization”されたバイアスなしの線形層を加えた場合と等価である。バイアスがない理由は、フューショット学習で、学習時のクラスだけに依存する項はテスト時には不要であるからである。
Figure JPOXMLDOC01-appb-M000007
Then, the loss function is equivalent to the case of adding the “Weight Normalization” unbiased linear layer as shown in the following Equation (13). The reason why there is no bias is that in the fu shot learning, a term that depends only on the class at the time of learning is unnecessary at the time of the test.
Figure JPOXMLDOC01-appb-M000007
 サポート正規化を用いる手法は、ユークリッド距離によるプロトタイプのようにカテゴリを代表する特徴を特徴空間の一点に集めるのではなく、代表軸として原点を通る直線上に集める。このため学習したいパラメータに対する自由度が一つ増えて、ユークリッド距離による方法よりも簡単に高性能を実現できる。また、ユークリッド距離によるプロトタイプのように類似度の評価が一次元的ではなく、計算誤差も生じにくい。また、コサイン距離によるプロトとタイプよりも、高い識別性能を実現できる。なお、本手法は、カテゴリを代表する特徴を代表軸で表した、という見方の他に、同一超球面上に制約した一点で表したとみなすこともできる。 In the method using support normalization, features representative of categories are not collected at one point of the feature space like Euclidean prototype but are collected on a straight line passing through the origin as a representative axis. Therefore, the degree of freedom for the parameter to be learned is increased by one, and high performance can be realized more easily than the Euclidean distance method. In addition, evaluation of similarity is not one-dimensional as in Euclidean prototypes, and calculation errors are less likely to occur. Also, higher discrimination performance can be realized than proto-type and type by cosine distance. In addition to the view that the feature representing the category is represented by the representative axis, the present method can also be regarded as represented by a single point constrained on the same hypersphere.
 ワンショット学習、フューショット学習による学習では、入力データは登録データのいずれかのカテゴリであることを事前知識として使うことで性能が高くなっている側面がある。しかし、顔識別、話者識別では、実際のタスクでは、入力データの登録データのいずれのカテゴリにも属さない場合が存在する。そして、現在知られているフューショット学習では、そのような場合は扱っていない。そこで、以下では、フューショット学習の場合に、登録データのいずれにも属さない場合を判定する方法を説明する。 In one-shot learning and learning by fu-shot learning, there is an aspect in which the performance is improved by using, as prior knowledge, that the input data is any category of registered data. However, in face identification and speaker identification, there is a case where the actual task does not belong to any category of the registration data of the input data. And, in the currently known fu shot learning, such a case is not dealt with. Therefore, in the following, a method of determining the case where it does not belong to any of the registered data in the case of the fu shot learning will be described.
 フューショット学習の知られている手法において、入力データが登録データのカテゴリに属さない場合を含むように拡張する方法を考える。登録データのカテゴリのいずれかに属すか属さないかの判定を既知未知判定と呼ぶことにする。ここでは、以下のような2つの例を考える。
 (1)プロトタイプネットワークのロス関数に、トリプレットロスに倣ってマージンを追加する。
 (2)プロトタイプネットワークのロス関数に、既知未知判定のしきい値を追加する。
In a known method of fu shot learning, consider a method of extending to include cases where input data does not belong to the category of registration data. Determination of belonging to or not belonging to any of the categories of registered data is called known unknown determination. Here, consider the following two examples.
(1) Add margins to the loss function of the prototype network following the triplet loss.
(2) Add a known / unknown threshold to the loss function of the prototype network.
 本技術では、プロトタイプネットワークのロス関数に含まれる類似度(あるいは、距離関数)を用いて、ロス関数が、以下の数式(14)に示すように表すことができることを出発点とする。
Figure JPOXMLDOC01-appb-M000008
In the present technology, it is a starting point that the loss function can be expressed as shown in the following Equation (14) using the similarity (or distance function) included in the loss function of the prototype network.
Figure JPOXMLDOC01-appb-M000008
 この数式において、Sqは、プロトタイプネットワークであれば、以下の数式(15)で表され、サポート特徴規格化手法であれば、以下の数式(16)で表される。
Figure JPOXMLDOC01-appb-M000009
In this equation, Sq is represented by the following equation (15) if it is a prototype network, and it is represented by the following equation (16) if it is a support feature standardization method.
Figure JPOXMLDOC01-appb-M000009
 まず、ロス関数にマージンを追加する方法について考える。上述のように、トリプレットネットワークと、プロトタイプネットワークはよく似ている。ここで、プロトタイプネットワークにおいて、類似度に対して、マージンβを、以下の数式(17)に示すように導入する。
Figure JPOXMLDOC01-appb-M000010
First, consider how to add a margin to the loss function. As mentioned above, triplet networks and prototype networks are very similar. Here, in the prototype network, a margin β is introduced with respect to the similarity as shown in the following equation (17).
Figure JPOXMLDOC01-appb-M000010
 このとき、上述のように、プロトタイプネットのサポートデータを2カテゴリだけにすると、ロス関数は、以下の数式(18)となり、そして、この関数を、s_sの正負の無限遠における漸近関数で近似すると、ロス関数は、以下の数式(19)となり、類似度がユークリッド距離の符号反転である場合には、トリプレットロスと等価の結果が得られる。実際の既知未知判定は、マージンを含まずに判定した類似度が閾値以上か以下かに基づいて行う。閾値は、学習に用いたデータを使って決定する。
Figure JPOXMLDOC01-appb-M000011
At this time, as described above, when the support data prototype net only 2 categories, loss function, the following equations (18) and then, the function, approximated by asymptotic function in infinity positive and negative s_ s Then, the loss function is expressed by the following equation (19), and when the similarity is the sign inversion of Euclidean distance, a result equivalent to the triplet loss is obtained. The actual known unknown determination is performed based on whether the degree of similarity determined without including the margin is equal to or greater than a threshold. The threshold is determined using data used for learning.
Figure JPOXMLDOC01-appb-M000011
 別の方法としては、既存クラス以外に、未知クラスというカテゴリが存在するとしてロス関数を書く。この場合は、以下の数式(20)に示すように、ロス関数が表される。未知クラス判別パラメータuは、学習によって得られるようにしても良い。図12は、既知未知判定を追加したネットワークを示している。
Figure JPOXMLDOC01-appb-M000012
Another way is to write the loss function assuming that there is a category called unknown class in addition to existing classes. In this case, a loss function is represented as shown in the following equation (20). The unknown class discrimination parameter u may be obtained by learning. FIG. 12 shows a network to which known / unknown determination is added.
Figure JPOXMLDOC01-appb-M000012
 この場合、多クラス分類が拡張されて自動的に未知クラスが推定できるようになる。実際の既知未知判定は、類似度の値を評価して、最も大きいものが既存カテゴリの類似度ならば既知であり、そうでなければ未知と判断する。 In this case, the multiclass classification is extended to automatically estimate the unknown class. The actual known unknown evaluation evaluates the value of the similarity, and determines that the largest is known if the similarity of the existing category is the other, otherwise unknown.
 以下、本技術における人物識別モジュール103の特徴をまとめる。
 (1)フューショット学習のプロトタイプネットワークの構成を用いて学習した識別モジュールを用いる。
 (2)ロス関数を計算する際の類似度は、プロトタイプネットワークのユークリッド距離とは異なり、規格化したサポート特徴に射影した成分を用いる。
 (3)既知未知を判定するためプロトタイプネットを拡張して、マージン、あるいは未知クラス判別パラメータを追加する。
Hereinafter, features of the person identification module 103 according to the present technology will be summarized.
(1) Using an identification module learned using the configuration of a prototype network of fu shot learning.
(2) The similarity in calculating the loss function is different from the Euclidean distance of the prototype network, and uses a component projected on a normalized support feature.
(3) Expand the prototype net to determine known or unknown, and add a margin or unknown class discrimination parameter.
 以上説明したように、図1に示す情報処理装置100においては、画像および/または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得るものである。そのため、ユーザ登録を行うことなく人の振る舞いを良好に模することが可能となる。 As described above, in the information processing apparatus 100 shown in FIG. 1, the score for action generation for each person is obtained based on the data of the person detected from the input data of the image and / or the sound. Therefore, it is possible to better simulate human behavior without performing user registration.
なお、図9のネットワーク構成を、教師あり学習や半教師学習に用いてもよい。この場合、教師あり学習、半教師学習ともに、サポートデータとして学習データのラベルありデータを用いる。これは、教師あり学習、半教師学習は、フューショット学習と異なり、学習済みネットワークでの推論実行時に、新たなカテゴリを考えないからである。
学習時のロス関数は、入力データがラベルありデータの場合は、以下の数式(21)を用いる。
Figure JPOXMLDOC01-appb-M000013
The network configuration of FIG. 9 may be used for supervised learning and semi-supervised learning. In this case, labeled data of learning data is used as support data in both supervised learning and semi-supervised learning. This is because supervised learning and semi-supervised learning are different from fu shot learning, and do not consider new categories when performing inference in a learned network.
The loss function at the time of learning uses the following equation (21) when the input data is labeled data.
Figure JPOXMLDOC01-appb-M000013
 ここで、yはワンホットベクトルの表現に変換されたラベルであり、数式(14)と等価の式を別の表記をしたものである。入力データがラベルなしデータの場合は、ラベルがなくても計算できるように、以下の数式(22)を用いる。
Figure JPOXMLDOC01-appb-M000014
Here, y is a label converted to a one-hot vector expression, and is a different expression of the equation equivalent to equation (14). When input data is unlabeled data, the following equation (22) is used so that calculation can be performed without a label.
Figure JPOXMLDOC01-appb-M000014
 さらに、フューショット学習におけるメタ学習プロセスにおいて、半教師学習をもちいてもよい。ラベルなしデータについて前述の数式(22)を用いる。さらに、ラベルなしデータは、既知カテゴリなのか未知カテゴリなのかわからないので、数式(18),(19)、もしくは、数式(20)の未知カテゴリ対応を組み合わせる。 Furthermore, semi-supervised learning may be used in the meta-learning process in fu shot learning. Use equation (22) above for unlabeled data. Furthermore, since the unlabeled data does not know whether it is a known category or an unknown category, it combines the unknown category correspondence of Equation (18), (19) or Equation (20).
 <2.変形例>
 なお、上述実施の形態においては、印象スコアおよび関係性スコアを用いる例を示したが、これらのスコアに限定されるものではなく、その他のスコアを利用することも考えられる。例えば、ユーザ(人物)と出会った頻度(遭遇回数)や2人が一緒にいる回数をスコアとして算出できる。
<2. Modified example>
In the above-mentioned embodiment, although the example which uses an impression score and a relation score was shown, it is not limited to these scores, It is also considered to use other scores. For example, it is possible to calculate the frequency of encountering the user (person) (number of encounters) and the number of times the two persons are together as a score.
 また、本技術は、以下のような構成を取ることもできる。
 (1)画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得る処理部を備える
 情報処理装置。
 (2) 上記スコアは、人物の行動の良し悪しを評価して得られた印象スコアを含む
 前記(1)に記載の情報処理装置。
 (3)上記スコアは、人物関係を評価して得られた関係性スコアを含む
 前記(1)または(2)に記載の情報処理装置。
 (4)上記処理部は、
 上記検出された人物のデータを記憶されている所定数の人物のデータと照合し、
 合致するものがないときは、上記検出された人物のデータと該人物のデータに基づいて得られたスコアを新たな人物のデータとして記憶し、
 合致したものがあったときは、上記検出された人物のデータに基づいて得られたスコアにより、対応する人物の記憶されているスコアを更新する
 前記(1)から(3)のいずれかに記載の情報処理装置。
 (5)上記処理部は、上記照合を、ラベルあり教師データの代表的な特徴と、入力データの特徴の間の類似度を算出することで実現するニューラルネットワークを用いて学習した識別モジュールを用いて行う
 前記(1)から(4)のいずれかに記載の情報処理装置。
 (6)上記識別モジュールは、
 上記検出された入力データを特徴量に変換し、
 上記変換された特徴量に対する上記記憶されている所定数のラベルありデータの特徴量の成分を算出し、
 上記算出された成分に基づいて上記検出された入力データに対する上記記憶されている所定数クラスのスコアを検出し
 上記検出されたスコアに基づいて、合致するクラスの情報、あるいはいずれのクラスにも合致しないという情報を出力する
 前記(5)に記載の情報処理装置。
 (7)上記特徴量の成分は、
 上記記憶されているラベルありデータの特徴量を単位ベクトルに変換し、上記検出されたクラスのデータの特徴量と上記変換された単位ベクトルの内積をとることで算出される
 前記(6)に記載の情報処理装置。
 (8)上記処理部は、
 上記人物別のスコアを用いて、それぞれの人物に対応したアクションをさらに生成する
 前記(1)から(7)のいずれかに記載の情報処理装置。
 (9)上記スコアは、人物の行動の良し悪しを評価して得られた印象スコアと人物関係を評価して得られた関係性スコアを含み、
 上記処理部は、上記印象スコアと上記関係性スコアに基づいて算出された統合スコアに基づいて上記アクションを生成する
 前記(8)に記載の情報処理装置。
 (10)処理部が、画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得る処理ステップを有する
 情報処理方法。
 (11)コンピュータを、
 画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得る処理手段として機能させる
 プログラム。
 (12)画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得る処理部を備える
 ロボット。
Furthermore, the present technology can also be configured as follows.
(1) A processing unit that obtains a score for generating an action for each person based on data of a person detected from input data of an image or a voice.
(2) The information processing apparatus according to (1), wherein the score includes an impression score obtained by evaluating the quality of the person's behavior.
(3) The information processing apparatus according to (1) or (2), wherein the score includes a relationship score obtained by evaluating a personal relationship.
(4) The processing unit
Collating the data of the detected person with the data of a predetermined number of stored persons;
If there is no match, the data of the detected person and the score obtained based on the data of the person are stored as data of a new person,
If a match is found, the stored score of the corresponding person is updated using the score obtained based on the data of the detected person described in any one of (1) to (3) above. Information processing equipment.
(5) The processing unit uses the identification module learned by using the neural network that realizes the above matching by calculating the similarity between representative features of the labeled teacher data and the features of the input data. The information processing apparatus according to any one of (1) to (4).
(6) The identification module
Convert the detected input data into a feature amount;
Calculating a component of the feature amount of the predetermined number of stored label data with respect to the converted feature amount;
Based on the calculated component, the score of the predetermined number of stored classes for the detected input data is detected, and based on the detected score, the information of the matching class or any of the classes is matched. The information processing apparatus according to (5), which outputs information indicating that the information processing is not performed.
(7) The components of the above feature amount are
It is calculated by converting the feature quantities of the stored labeled data into unit vectors, and taking the inner product of the feature quantities of the detected class data and the converted unit vectors. Information processing equipment.
(8) The processing unit
The information processing apparatus according to any one of (1) to (7), further generating an action corresponding to each person using the score for each person.
(9) The score includes an impression score obtained by evaluating the person's behavior and a relationship score obtained by evaluating the person relationship,
The information processing apparatus according to (8), wherein the processing unit generates the action based on an integrated score calculated based on the impression score and the relationship score.
(10) An information processing method, comprising: a processing step of obtaining a score for action generation for each person based on data of a person detected from input data of an image or a sound.
(11) computer,
A program that functions as processing means for obtaining a score for action generation for each person based on data of a person detected from input data of an image or a sound.
(12) A robot comprising: a processing unit that obtains a score for generating an action for each person based on data of a person detected from input data of an image or a sound.
 100・・・情報処理装置
 101・・・入力部
 102・・・人領域/区間検出モジュール
 103・・・人物識別モジュール
 104・・・印象スコア算出モジュール
 105・・・関係性スコア算出モジュール
 106・・・人物別スコア更新モジュール
 107・・・人物別スコアテーブル
 108・・・アクション生成モジュール
 109・・・出力部
100 ... information processing apparatus 101 ... input unit 102 ... human area / section detection module 103 ... person identification module 104 ... impression score calculation module 105 ... relationship score calculation module 106 · · · -Person score update module 107 ... Person score table 108 ... Action generation module 109 ... Output part

Claims (12)

  1.  画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得る処理部を備える
     情報処理装置。
    An information processing apparatus comprising: a processing unit that obtains a score for action generation for each person based on data of a person detected from input data of an image or a sound.
  2.  上記スコアは、人物の行動の良し悪しを評価して得られた印象スコアを含む
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the score includes an impression score obtained by evaluating a person's behavior.
  3.  上記スコアは、人物関係を評価して得られた関係性スコアを含む
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the score includes a relationship score obtained by evaluating a personal relationship.
  4.  上記処理部は、
     上記検出された人物のデータを記憶されている所定数の人物のデータと照合し、
     合致するものがないときは、上記検出された人物のデータと該人物のデータに基づいて得られたスコアを新たな人物のデータとして記憶し、
     合致したものがあったときは、上記検出された人物のデータに基づいて得られたスコアにより、対応する人物の記憶されているスコアを更新する
     請求項1に記載の情報処理装置。
    The above processing unit
    Collating the data of the detected person with the data of a predetermined number of stored persons;
    If there is no match, the data of the detected person and the score obtained based on the data of the person are stored as data of a new person,
    The information processing apparatus according to claim 1, wherein when there is a match, the stored score of the corresponding person is updated based on the score obtained based on the data of the detected person.
  5.  上記処理部は、上記照合を、ラベルあり教師データの代表的な特徴と、入力データの特徴の間の類似度を算出することで実現するニューラルネットワークを用いて学習した識別モジュールを用いて行う
     請求項4に記載の情報処理装置。
    The processing unit performs the matching using an identification module learned using a neural network, which is realized by calculating a similarity between representative features of labeled teacher data and features of input data. The information processing apparatus according to Item 4.
  6.  上記識別モジュールは、
     上記検出された入力データを特徴量に変換し、
     上記変換された特徴量に対する上記記憶されている所定数のラベルありデータの特徴量の成分を算出し、
     上記算出された成分に基づいて上記検出された入力データに対する上記記憶されている所定クラスのデータのスコアを検出し
     上記検出されたスコアに基づいて、合致するクラスの情報、あるいはいずれのクラスにも合致しないという情報を出力する
     請求項5に記載の情報処理装置。
    The above identification module
    Convert the detected input data into a feature amount;
    Calculating a component of the feature amount of the predetermined number of stored label data with respect to the converted feature amount;
    Based on the calculated component, the score of the stored predetermined class data with respect to the detected input data is detected, and based on the detected score, information of a matching class or any class The information processing apparatus according to claim 5, which outputs information indicating that they do not match.
  7.  上記特徴量の成分は、
     上記記憶されているラベルありデータの特徴量を単位ベクトルに変換し、上記検出されたクラスのデータの特徴量と上記変換された単位ベクトルの内積をとることで算出される
     請求項6に記載の情報処理装置。
    The components of the above feature amount are
    The feature quantity of the stored labeled data is converted into a unit vector, and calculated by taking the inner product of the feature quantity of the detected class data and the converted unit vector. Information processing device.
  8.  上記処理部は、
     上記人物別のスコアを用いて、それぞれの人物に対応したアクションをさらに生成する
     請求項1に記載の情報処理装置。
    The above processing unit
    The information processing apparatus according to claim 1, further generating an action corresponding to each person using the score for each person.
  9.  上記スコアは、人物の行動の良し悪しを評価して得られた印象スコアと人物関係を評価して得られた関係性スコアを含み、
     上記処理部は、上記印象スコアと上記関係性スコアに基づいて算出された統合スコアに基づいて上記アクションを生成する
     請求項8に記載の情報処理装置。
    The above-mentioned score includes an impression score obtained by evaluating the quality of the person's behavior and a relationship score obtained by evaluating the person relationship,
    The information processing apparatus according to claim 8, wherein the processing unit generates the action based on an integrated score calculated based on the impression score and the relationship score.
  10.  処理部が、画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得る処理ステップを有する
     情報処理方法。
    An information processing method comprising: a processing step of obtaining a score for action generation for each person based on data of a person detected from input data of an image or a sound.
  11.  コンピュータを、
     画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得る処理手段として機能させる
     プログラム。
    Computer,
    A program that functions as processing means for obtaining a score for action generation for each person based on data of a person detected from input data of an image or a sound.
  12.  画像または音声の入力データから検出された人物のデータに基づいて、人物別のアクション生成用のスコアを得る処理部を備える
     ロボット。
    A robot comprising: a processing unit that obtains a score for action generation for each person based on data of a person detected from input data of an image or a sound.
PCT/JP2019/000607 2018-01-25 2019-01-10 Information processing device, information processing method, program, and robot WO2019146422A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-010411 2018-01-25
JP2018010411 2018-01-25

Publications (1)

Publication Number Publication Date
WO2019146422A1 true WO2019146422A1 (en) 2019-08-01

Family

ID=67395303

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/000607 WO2019146422A1 (en) 2018-01-25 2019-01-10 Information processing device, information processing method, program, and robot

Country Status (1)

Country Link
WO (1) WO2019146422A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555475A (en) * 2019-08-29 2019-12-10 华南理工大学 few-sample target detection method based on semantic information fusion
CN111008550A (en) * 2019-09-06 2020-04-14 上海芯灵科技有限公司 Identification method for finger vein authentication identity based on Multiple loss function

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058833A (en) * 2015-09-15 2017-03-23 キヤノン株式会社 Object identification device, object identification method, and program
WO2018008323A1 (en) * 2016-07-08 2018-01-11 Groove X株式会社 Autonomous robot that wears clothes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058833A (en) * 2015-09-15 2017-03-23 キヤノン株式会社 Object identification device, object identification method, and program
WO2018008323A1 (en) * 2016-07-08 2018-01-11 Groove X株式会社 Autonomous robot that wears clothes

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555475A (en) * 2019-08-29 2019-12-10 华南理工大学 few-sample target detection method based on semantic information fusion
CN111008550A (en) * 2019-09-06 2020-04-14 上海芯灵科技有限公司 Identification method for finger vein authentication identity based on Multiple loss function

Similar Documents

Publication Publication Date Title
Hoffman et al. Algorithms and theory for multiple-source adaptation
Meng et al. Time-delay neural network for continuous emotional dimension prediction from facial expression sequences
Scherer et al. A generic framework for the inference of user states in human computer interaction: How patterns of low level behavioral cues support complex user states in HCI
Yampolskiy et al. Artimetrics: biometrics for artificial entities
Yorita et al. Cognitive development in partner robots for information support to elderly people
Churamani et al. Teaching emotion expressions to a human companion robot using deep neural architectures
Nakamura et al. Bag of multimodal LDA models for concept formation
JP6397250B2 (en) Concentration estimation apparatus, method and program
US20200257963A1 (en) Recursive learning for artificial intelligent agents
WO2019146422A1 (en) Information processing device, information processing method, program, and robot
CN114995657B (en) Multimode fusion natural interaction method, system and medium for intelligent robot
Woo et al. Conversation system based on computational intelligence for robot partner using smart phone
Jansson Single-word speech recognition with convolutional neural networks on raw waveforms
Bhattacharya Machine learning for bioclimatic modelling
Wang et al. Model distillation with knowledge transfer from face classification to alignment and verification
Wan et al. Midoriko chatbot: LSTM-based emotional 3D avatar
Hagiwara et al. Multiagent multimodal categorization for symbol emergence: emergent communication via interpersonal cross-modal inference
Abdullahi et al. IDF-Sign: addressing inconsistent depth features for dynamic sign word recognition
Schwenker et al. Multiple classifier systems for the recogonition of human emotions
Wang et al. Robust maximum mixture correntropy criterion based one-class classification algorithm
Matsufuji et al. Adaptive personalized multiple machine learning architecture for estimating human emotional states
Tripathi et al. Facial expression recognition using data mining algorithm
Tamer Ghareeb et al. FER_ML: Facial Emotion Recognition using Machine Learning
Tanaka et al. Nonverbal Communication Based on Instructed Learning for Socially Embedded Robot Partners
Ren et al. Acoustics, content and geo-information based sentiment prediction from large-scale networked voice data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19744418

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19744418

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP