WO2021130916A1 - 意図特徴量抽出装置、学習装置、方法およびプログラム - Google Patents

意図特徴量抽出装置、学習装置、方法およびプログラム Download PDF

Info

Publication number
WO2021130916A1
WO2021130916A1 PCT/JP2019/050882 JP2019050882W WO2021130916A1 WO 2021130916 A1 WO2021130916 A1 WO 2021130916A1 JP 2019050882 W JP2019050882 W JP 2019050882W WO 2021130916 A1 WO2021130916 A1 WO 2021130916A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
objective function
unit
feature amount
learned
Prior art date
Application number
PCT/JP2019/050882
Other languages
English (en)
French (fr)
Inventor
江藤 力
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/638,367 priority Critical patent/US20220318917A1/en
Priority to EP19957132.4A priority patent/EP4083872A4/en
Priority to JP2021566648A priority patent/JP7279821B2/ja
Priority to PCT/JP2019/050882 priority patent/WO2021130916A1/ja
Publication of WO2021130916A1 publication Critical patent/WO2021130916A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Definitions

  • the present invention relates to an intentional feature amount extraction device that extracts a feature amount representing the intention of a subject, an intentional feature amount extraction method and an intentional feature amount extraction program, and a model learning system that performs learning using the extracted feature amount. Regarding learning devices, learning methods and learning programs.
  • Inverse reinforcement learning is known as one of the methods for formulating mathematical optimization problems. Inverse reinforcement learning is a method of learning an objective function (reward function) that evaluates behavior for each state based on the history of decision making made by an expert. In inverse reinforcement learning, the objective function of an expert is estimated by updating the objective function so that the decision-making history is closer to that of the expert.
  • objective function forward function
  • Non-Patent Document 1 describes a compartmentalized sparse linear regression model in which a prediction model can be selected depending on the case.
  • the compartmentalized sparse linear regression model described in Non-Patent Document 1 is a kind of hierarchical mixed expert model (HME: Hierarchical Mixtures of Experts), and has components (objective function, prediction model) in leaf nodes and other nodes. It is represented by a tree structure to which nodes called gate functions are assigned.
  • HME Hierarchical Mixed expert model
  • the decision-making history acquired under various circumstances can be said to be data including various intentions of experts.
  • the driving data of the driver includes the driving data of the driver having different characteristics and the driving data in different situations of the driving scene.
  • the decision-making history is not data that represents the intention of the expert itself, but data that represents the result of an action performed based on the intention of the expert. Therefore, it is difficult to grasp the intention of an expert even by referring to the decision-making history itself.
  • Non-Patent Document 1 It is possible to learn a highly interpretable prediction model by the method described in Non-Patent Document 1. However, although it is possible to determine the factors that affect the prediction result from the prediction model learned by the method described in Non-Patent Document 1, it is difficult to interpret the subject's intention itself.
  • the present invention presents an intention feature amount extraction device capable of extracting the intention of the subject as an interpretable feature amount, an intention feature amount extraction method and an intention feature amount extraction program, and a model learning system and learning using the feature amount. It is an object of the present invention to provide a device, a learning method and a learning program.
  • the intention feature amount extraction device learns an input unit that accepts input of the decision-making history of the target person, and an objective function that uses the factor of the behavior intended by the target person as an explanatory variable based on the decision-making history. It is characterized by including a learning unit and a feature quantity extraction unit that extracts the weight of the explanatory variable of the learned objective function as a feature quantity representing the intention of the subject.
  • the learning device inputs as learning data a feature amount that is learned based on the decision history of the subject and is extracted based on an objective function using the factor of the behavior intended by the subject as an explanatory variable. It is characterized by including an input unit for learning, a model learning unit for learning a prediction model by machine learning using the input learning data, and an output unit for outputting the learned prediction model.
  • the model learning system includes a learning unit that learns an objective function that uses a factor of behavior intended by the subject as an explanatory variable based on the decision history of the subject, and an explanatory variable of the learned objective function.
  • a feature quantity extraction unit that extracts weights as feature quantities that represent the intention of the target person, a model learning unit that learns a prediction model by machine learning using the extracted feature quantities as training data, and a learned prediction model are output. It is characterized by having an output unit.
  • the intention feature amount extraction method receives input of the decision-making history of the subject, and learns and learns an objective function using the factor of the behavior intended by the subject as an explanatory variable based on the decision-making history.
  • the feature is that the weight of the explanatory variable of the objective function is extracted as a feature quantity representing the intention of the subject.
  • feature quantities extracted based on an objective function that uses the factors of the behavior intended by the subject as explanatory variables, which are learned based on the decision history of the subject are input as learning data. Then, the prediction model is learned by machine learning using the input training data, and the learned prediction model is output.
  • the intention feature amount extraction program provides a computer with an input process that accepts input of a subject's decision-making history, and an objective function that uses the factors of the behavior intended by the subject as explanatory variables based on the decision-making history. It is characterized in that a learning process for learning and a feature amount extraction process for extracting the weight of the explanatory variable of the learned objective function as a feature amount representing the intention of the subject are executed.
  • the learning program learns a feature amount extracted from a computer based on an objective function whose explanatory variable is a factor of behavior intended by the subject, which is learned based on the decision history of the subject. It is characterized by executing an input process for inputting data, a model learning process for learning a prediction model by machine learning using the input learning data, and an output process for outputting the learned prediction model.
  • the intention of the subject can be extracted as an interpretable feature amount.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of the intended feature amount extraction device according to the present invention.
  • the intention feature amount extraction device 100 of the present embodiment includes a storage unit 10, an input unit 20, a learning unit 30, an extraction unit 40, and an output unit 50.
  • the intention feature amount extraction device 100 learns an objective function indicating the target person's intention from the decision-making history of the target person, and extracts the target person's intention that can be interpreted from the objective function as the target person's feature amount. It is a device to do. Further, as illustrated in FIG. 1, the intention feature amount extraction device 100 may be connected to the learning device 200.
  • the storage unit 10 stores information necessary for the intention feature amount extraction device 100 to perform various processes.
  • the storage unit 10 may store various parameters used for processing by the learning unit 30, which will be described later. Further, the storage unit 10 may store the decision-making history of the target person received by the input unit 20 described later.
  • the storage unit 10 is realized by, for example, a magnetic disk or the like.
  • the input unit 20 accepts the input of the decision-making history (trajectory) of the target person. For example, when learning for the purpose of automatic driving, the input unit 20 may accept input of a large amount of driving history data based on a complicated intention of the driver as a decision-making history.
  • the learning unit 30 learns an objective function using the factor of the behavior intended by the target person as an explanatory variable based on the decision-making history of the target person. Specifically, the learning unit 30 learns the objective function represented by the linear regression equation by inverse reinforcement learning that estimates the reward (function) from the behavior of the target person.
  • the learning unit 30 estimates one objective function based on the decision-making history of the expert, and the objective function so as to reduce the difference between the decision-making history based on this objective function and the decision-making history of the expert.
  • the learning unit 30 performs a decision-making simulation using this objective function. Specifically, the learning unit 30 performs an optimization calculation for determining a policy using a state transition model and an objective function in a decision-making simulation, and evaluates the behavior output as a result of the optimization calculation with a simulator. Then, the decision-making history is decided. Then, the learning unit 30 further utilizes the determined decision-making history for updating the objective function, and repeats the above processing so as to eliminate the difference between the objective function and the expert's decision-making. Estimate the function.
  • the learning unit 30 may perform model-free inverse reinforcement learning that can estimate the objective function without using the state transition model.
  • model-free reverse reinforcement learning it is not necessary to know the environmental dynamics, which is the mathematical model of the controlled object, in advance. Therefore, the influence of the error due to the modeling can be eliminated, and the decision-making simulation at the time of learning described above becomes unnecessary, so that the calculation cost can be reduced.
  • the learning unit 30 may use a learning method that combines the above-mentioned model-free inverse reinforcement learning and hierarchical mixed expert model learning. Specifically, the learning unit 30 may learn the hierarchical mixed expert model by relative entropy inverse reinforcement learning using priority sampling based on a random policy.
  • Relative entropy inverse reinforcement learning is a method of learning a reward function without using a state transition model (that is, model-free) by using sampling from a decision-making history by a random policy.
  • the learning unit 30 divides the decision-making history of the expert into cases, and alternately repeats the learning of the objective function and the branching rule in each case until the decision-making history of the expert can be accurately reproduced. , Branch conditions and the objective function in each case.
  • FIG. 2 is an explanatory diagram for explaining the outline of the hierarchical mixed expert model.
  • the hierarchical mixed expert model illustrated in FIG. 2 is a model in which one objective function is selected according to the state / observation information. In the example shown in FIG. 2, it is shown that the input state / observation information satisfies the condition 1 and the sparse linear objective function 2 is selected without satisfying the condition 2.
  • FIG. 3 is an explanatory diagram showing an example of the objective function.
  • the example shown in FIG. 3 is an explanatory diagram showing an example of an objective function in model prediction control learned by using the driver's driving history data as a decision-making history.
  • the weighting coefficient of each explanatory variable represents "what is emphasized and how much" during operation.
  • ⁇ 1 is a coefficient representing the degree to which the difference in distance between the current location and the destination is emphasized.
  • ⁇ 2 is a coefficient representing the degree to which the difference between the current speed and the target speed is emphasized.
  • ⁇ 3 is a steering angle
  • ⁇ 4 is an acceleration
  • ⁇ 5 is a danger avoidance
  • ⁇ 6 is a coefficient representing the degree to which fuel efficiency is emphasized. It can be said that the objective function learned in this way represents the intention of the subject.
  • the learning unit 30 may use heterogeneous mixed learning as hierarchical mixed expert model learning.
  • heterogeneous mixed learning the objective function assigned to each leaf node is represented by a linear regression equation, so it is easy to interpret the degree of influence of the explanatory variable on the objective variable.
  • the range of the decision-making history to be used by the learning unit 30 for learning is arbitrary.
  • the learning unit 30 may divide the decision-making history according to, for example, time, situation, place, etc., and learn the objective function for each divided decision-making history.
  • the extraction unit 40 extracts the weight of the explanatory variable of the learned objective function as a feature quantity representing the intention of the target person. For example, when the decision-making history received by the input unit 20 is the driving history of the target person, the extracting unit 40 may extract the weight of the objective variable as a feature amount indicating the driving intention of the target person. Further, for example, when the decision-making history received by the input unit 20 is the order history of the target person, the extraction unit 40 may extract the weight of the objective variable as a feature quantity indicating the intention of the target person to place an order. Good. In addition, when the decision-making history received by the input unit 20 is the guidance history of the target person, the extraction unit 40 extracts the weight of the objective variable as a feature quantity indicating the guidance intention of the target person. You may.
  • the output unit 50 outputs the extracted feature amount.
  • the output unit 50 may output the extracted feature amount in association with the teacher label.
  • the output unit 50 may associate information that can be identified from the decision-making history used at the time of learning as a teacher label.
  • the output unit 50 may associate the presence or absence of an accident with the teacher label.
  • the output unit 50 may associate the sales quantity and the profit as a teacher label.
  • the output unit 50 may associate the number of retirees as a teacher label.
  • the data in which the feature amount and the teacher label are associated with each other can be used as learning data when the learning device 200, which will be described later, performs learning. Therefore, the intention feature amount extraction device 100 that outputs such data can be called a learning data generation device. Further, a system including such an intention feature amount extraction device 100 and a learning device 200 can also be referred to as a model learning system.
  • the input unit 20, the learning unit 30, the extraction unit 40, and the output unit 50 are a computer processor (for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit)) that operates according to a program (intentional feature amount extraction program). )).
  • a computer processor for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit) that operates according to a program (intentional feature amount extraction program).
  • the program is stored in the storage unit 10 included in the intention feature amount extraction device 100, and the processor reads the program and operates as an input unit 20, a learning unit 30, an extraction unit 40, and an output unit 50 according to the program. May be good.
  • the function of the intention feature amount extraction device 100 may be provided in the SaaS (Software as a Service) format.
  • the input unit 20, the learning unit 30, the extraction unit 40, and the output unit 50 may each be realized by dedicated hardware. Further, a part or all of each component of each device may be realized by a general-purpose or dedicated circuit (circuitry), a processor, or a combination thereof. These may be composed of a single chip or may be composed of a plurality of chips connected via a bus. A part or all of each component of each device may be realized by a combination of the above-mentioned circuit or the like and a program.
  • each component of the intention feature amount extraction device 100 when a part or all of each component of the intention feature amount extraction device 100 is realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be centrally arranged. However, it may be distributed.
  • the information processing device, the circuit, and the like may be realized as a form in which each of the client-server system, the cloud computing system, and the like is connected via a communication network.
  • the learning device 200 includes an input unit 210, a model learning unit 220, and an output unit 230.
  • the input unit 210 accepts the input of learning data.
  • the input unit 210 may accept, for example, the information generated by the intention feature amount extraction device 100 as learning data.
  • the model learning unit 220 learns the prediction model by machine learning using the input learning data.
  • the method in which the model learning unit 220 performs machine learning is arbitrary.
  • the model learning unit 220 may learn a model according to the content and use of the input learning data.
  • the model learning unit 220 may learn a prediction model using the presence or absence of an accident and the automobile insurance premium as objective variables.
  • the model learning unit 220 may learn a prediction model using the rate of return, the number of wastes, and the like as objective variables.
  • the model learning unit 220 may learn a prediction model in which the number of retirees and the degree of evaluation are objective variables.
  • the output unit 230 outputs the generated model.
  • the input unit 210, the model learning unit 220, and the output unit 230 are realized by a computer processor that operates according to a program (learning program).
  • FIG. 4 is an explanatory diagram showing an operation example of the intention feature amount extraction device 100 of the present embodiment.
  • the input unit 20 accepts the input of the decision-making history of the target person (step S11). Based on the input decision-making history, the learning unit 30 learns an objective function using the factor of the behavior intended by the target person as an explanatory variable (step S12). Then, the extraction unit 40 extracts the weight of the explanatory variable of the learned objective function as a feature quantity representing the intention of the target person (step S13).
  • FIG. 5 is an explanatory diagram showing an operation example of the learning device 200 of the present embodiment.
  • the input unit 210 inputs the feature amount extracted based on the objective function learned based on the decision-making history of the target person as learning data (step S21).
  • the model learning unit 220 learns the prediction model by machine learning using the input learning data (step S22).
  • the output unit 230 outputs the learned prediction model (step S23).
  • the input unit 20 accepts the input of the decision-making history of the target person, and the learning unit 30 determines the factors of the behavior intended by the target person based on the decision-making history as explanatory variables. Learn the objective function. Then, the extraction unit 40 extracts the weight of the explanatory variable of the learned objective function as a feature quantity representing the intention of the subject. Therefore, the intention of the subject can be extracted as an interpretable feature amount.
  • the input unit 210 inputs the feature amount extracted by the intention feature amount extraction device 100 described above as learning data, and the model learning unit 220 performs machine learning using the input learning data.
  • the prediction model is learned, and the output unit 230 outputs the learned prediction model. Therefore, it is possible to learn a prediction model that considers the intention of the target person from the decision-making history of the target person.
  • FIG. 6 is a block diagram showing an outline of the intended feature amount extraction device according to the present invention.
  • the intention feature amount extraction device 80 (for example, the intention feature amount extraction device 100) according to the present invention is based on the input unit 81 (for example, the input unit 20) that accepts the input of the decision-making history of the target person and the decision-making history.
  • a learning unit 82 (for example, learning unit 30) that learns an objective function whose explanatory variable is a factor of behavior intended by the target person, and a feature amount that expresses the intention of the target person by weighting the explanatory variable of the learned objective function.
  • It is provided with a feature amount extraction unit 83 (for example, an extraction unit 40) to be extracted as.
  • the intention of the subject can be extracted as an interpretable feature quantity.
  • the learning unit 82 may learn the objective function represented by the linear regression equation by inverse reinforcement learning.
  • each coefficient of the explanatory variable included in each linear regression equation can be extracted as a feature quantity.
  • the learning unit 82 may learn the objective function by a learning method that combines model-free inverse reinforcement learning and hierarchical mixed expert model learning. With such a configuration, it becomes possible to learn an objective function in consideration of each case.
  • the input unit 81 may accept the driving history of the target person as the decision-making history. Then, the feature amount extraction unit 83 may extract the weight of the learned explanatory variable as a feature amount indicating the driving intention of the subject. With such a configuration, it becomes possible to extract a feature amount indicating the driver's intention as a driving feature.
  • the learning unit 82 may learn the objective function by a learning method that combines model-free inverse reinforcement learning and heterogeneous mixed learning.
  • the objective function in each case can be learned by a linear regression equation.
  • FIG. 7 is a block diagram showing an outline of the learning device according to the present invention.
  • the learning device 90 (for example, the learning device 200) according to the present invention is extracted based on an objective function whose explanatory variable is a factor of behavior intended by the target person, which is learned based on the decision history of the target person.
  • An input unit 91 for example, an input unit 210) for inputting a feature amount as learning data
  • a model learning unit 92 for example, a model learning unit 220
  • an output unit 93 for example, an output unit 230
  • the input unit 91 uses a feature amount extracted based on an objective function learned based on the driving history of the target person as an explanatory variable, and whether or not an accident has occurred based on the driving history or an automobile insurance premium. You may input the training data whose objective variable is. Then, the model learning unit 92 may learn a prediction model for predicting automobile insurance premiums by machine learning using the learning data.
  • FIG. 8 is a block diagram showing an outline of the model learning system according to the present invention.
  • the model learning system 70 according to the present invention (for example, a combination of the intention feature amount extraction device 100 illustrated in FIG. 1 and the learning device 200) is a factor of the behavior intended by the target person based on the decision history of the target person.
  • a learning unit 71 (for example, learning unit 30) that learns an objective function using the above as an explanatory variable
  • a feature quantity extracting unit 72 for example, a learning unit 72 that extracts the weight of the learned objective function explanatory variable as a feature quantity that represents the intention of the subject.
  • an extraction unit 40 For example, an extraction unit 40), a model learning unit 73 (for example, a model learning unit 220) that learns a prediction model by machine learning using the extracted feature amount as training data, and an output unit that outputs the learned prediction model. 74 (for example, output unit 230) is provided.
  • a model learning unit 73 for example, a model learning unit 220
  • an output unit that outputs the learned prediction model.
  • FIG. 9 is a schematic block diagram showing a configuration of a computer according to at least one embodiment.
  • the computer 1000 includes a processor 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the above-mentioned intention feature amount extraction device 80 and learning device 90 are mounted on the computer 1000.
  • the operation of each processing unit described above is stored in the auxiliary storage device 1003 in the form of a program (intentional feature amount extraction program, learning program).
  • the processor 1001 reads a program from the auxiliary storage device 1003, deploys it to the main storage device 1002, and executes the above processing according to the program.
  • the auxiliary storage device 1003 is an example of a non-temporary tangible medium.
  • non-temporary tangible media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disc Read-only memory), DVD-ROMs (Read-only memory), which are connected via interface 1004. Examples include semiconductor memory.
  • the program may be for realizing a part of the above-mentioned functions. Further, the program may be a so-called difference file (difference program) that realizes the above-mentioned function in combination with another program already stored in the auxiliary storage device 1003.
  • difference file difference program
  • An input unit that accepts input of the decision-making history of the target person, and a learning unit that learns an objective function that uses the factor of the behavior intended by the target person as an explanatory variable based on the decision-making history.
  • An intention feature amount extraction device including a feature amount extraction unit that extracts the weight of an explanatory variable of the learned objective function as a feature amount representing the intention of the subject.
  • the learning unit is an intentional feature extraction device according to Appendix 1, which learns an objective function represented by a linear regression equation by inverse reinforcement learning.
  • the learning unit is an intentional feature extraction device according to Appendix 1 or Appendix 2 that learns an objective function by a learning method that combines model-free inverse reinforcement learning and hierarchical mixed expert model learning.
  • the input unit accepts the operation history of the target person as a decision-making history, and the feature amount extraction unit extracts the weight of the learned explanatory variable as a feature amount indicating the driving intention of the target person.
  • the intention feature amount extraction device according to any one of Supplementary note 3 to.
  • the learning unit learns the objective function by a learning method that combines model-free inverse reinforcement learning and heterogeneous mixed learning. Extracting the intended feature amount according to any one of Appendix 1 to Appendix 4. apparatus.
  • the learning unit that learns the objective function that uses the factor of the behavior intended by the target person as the explanatory variable, and the weight of the explanatory variable of the learned objective function are the targets.
  • a feature amount extraction unit that extracts a feature amount that expresses a person's intention, a model learning unit that learns a prediction model by machine learning using the extracted feature amount as learning data, and an output unit that outputs the learned prediction model.
  • a learning device including a model learning unit that learns a prediction model by machine learning using input learning data, and an output unit that outputs the learned prediction model.
  • the input unit uses the feature amount extracted based on the objective function learned based on the driving history of the target person as an explanatory variable, and aims at the presence or absence of an accident based on the driving history or the automobile insurance premium.
  • the learning device according to Appendix 7, wherein the learning data as a variable is input, and the model learning unit learns a prediction model for predicting automobile insurance premiums by machine learning using the learning data.
  • a method for extracting an intentional feature amount which comprises extracting the weight of a variable as a feature amount representing the intention of the target person.
  • Appendix 10 The intended feature extraction method according to Appendix 9, which learns an objective function represented by a linear regression equation by inverse reinforcement learning.
  • Appendix 12 Learning using the feature amount extracted based on the objective function learned based on the driving history of the target person as the explanatory variable and the presence or absence of an accident based on the driving history or the automobile insurance premium as the objective variable.
  • the learning method according to Appendix 11 in which data is input and a prediction model for predicting automobile insurance premiums is learned by machine learning using the learning data.
  • Appendix 14 The intention feature extraction program according to Appendix 13, which causes a computer to learn an objective function represented by a linear regression equation by inverse reinforcement learning in a learning process.
  • Appendix 16 Using the feature quantity extracted based on the objective function learned based on the driving history of the target person in the input process on the computer as an explanatory variable, whether or not an accident has occurred based on the driving history or automobile insurance
  • the learning program according to Appendix 15 in which learning data with a fee as an objective variable is input, and a prediction model for predicting automobile insurance premiums is learned by machine learning using the learning data in a learning process.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

意図特徴量抽出装置80は、入力部81と、学習部82と、特徴量抽出部83とを備えている。入力部81は、対象者の意思決定履歴の入力を受け付ける。学習部82は、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する。特徴量抽出部83は、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する。

Description

意図特徴量抽出装置、学習装置、方法およびプログラム
 本発明は、対象者の意図を表わす特徴量を抽出する意図特徴量抽出装置、意図特徴量抽出方法および意図特徴量抽出プログラム、並びに、抽出された特徴量を用いて学習を行うモデル学習システム、学習装置、学習方法および学習プログラムに関する。
 近年、様々な業務における最適な意思決定を自動で定式化し、機械化する技術がより重要視されている。一般に、最適な意思決定を行うためには、最適化対象を数理最適化問題として定式化し、その問題を解くことで、最適な行動を決定する。その際、数理最適化問題の定式化がポイントになるが、人手でこの定式化を行うことは難しい。そこで、この定式化を簡素にすることで、技術をさらに発展させる試みが行われている。
 数理最適化問題を定式化する方法の一つとして、逆強化学習が知られている。逆強化学習は、熟練者が行った意思決定の履歴に基づいて、状態ごとに行動を評価する目的関数(報酬関数)を学習する方法である。逆強化学習では、意思決定の履歴を熟練者のものへ近づけるように目的関数を更新していくことで、熟練者の目的関数を推定する。
 なお、熟練者が想定する意図は複雑であり、状況に応じて様々に変化する。そのため、複数の意図を単純にモデル化した場合、目的関数も複雑化するため、推定された目的関数から熟練者の意図を判断することは難しい。そこで、複雑な意図を複数のシンプルな意図の組合せという、人間にとって解釈可能な形で表現された目的関数として学習する方法が求められている。
 解釈可能な形で表現された目的関数として学習する方法に関し、非特許文献1には、場合に応じた予測モデルを選択可能な区分疎線形回帰モデルについて記載されている。非特許文献1に記載された区分疎線形回帰モデルは、階層型混合エキスパートモデル(HME:Hierarchical Mixtures of Experts)の一種であり、葉ノードにコンポーネント(目的関数、予測モデル)、それ以外のノードに門関数と呼ばれるノードを割り当てた木構造で表される。
Riki Eto, Ryohei Fujimakiy, Satoshi Morinaga, Hiroshi Tamano, "Fully-Automatic Bayesian Piecewise Sparse Linear Models", AISTATS, pp.238-246, 2014.
 様々な状況下で取得される意思決定履歴は、熟練者の様々な意図を含むデータと言える。例えば、ドライバの走行データの中には、特徴の異なるドライバの走行データや、運転シーンの異なる状況での走行データが含まれる。しかし、意思決定履歴は、熟練者の意図そのものを表わすデータではなく、熟練者の意図に基づいて行われた行動の結果を表わすデータである。そのため、意思決定履歴そのものを参照しても、熟練者の意図を把握することは難しい。
 非特許文献1に記載された方法により、解釈性の高い予測モデルを学習することは可能である。しかし、非特許文献1に記載された方法により学習される予測モデルから予測結果に影響する要因を判断することは可能であるが、対象者の意図そのものを解釈することは難しい。
 一方、逆強化学習により得られる目的関数を用いることで、熟練者の行動を模倣することは可能である。しかし、行動そのものが熟練者の意図を反映したものであったとしても、その行動そのものを参照しても、熟練者の意図を客観的に判断することは困難である。そこで、対象者の意図を解釈可能な態様で把握できることが好ましい。
 そこで、本発明は、解釈可能な特徴量として対象者の意図を抽出できる意図特徴量抽出装置、意図特徴量抽出方法および意図特徴量抽出プログラム、並びに、その特徴量を用いたモデル学習システム、学習装置、学習方法および学習プログラムを提供することを目的とする。
 本発明による意図特徴量抽出装置は、対象者の意思決定履歴の入力を受け付ける入力部と、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部とを備えたことを特徴とすることを特徴とする。
 本発明による学習装置は、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部と、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とする。
 本発明によるモデル学習システムは、対象者の意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部と、抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とする
 本発明による意図特徴量抽出方法は、対象者の意思決定履歴の入力を受け付け、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習し、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出することを特徴とする。
 本発明による学習方法は、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力し、入力された学習データを用いた機械学習により予測モデルを学習し、学習した予測モデルを出力することを特徴とする。
 本発明による意図特徴量抽出プログラムは、コンピュータに、対象者の意思決定履歴の入力を受け付ける入力処理、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習処理、および、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出処理を実行させることを特徴とする。
 本発明による学習プログラムは、コンピュータに、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力処理、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習処理、および、学習した予測モデルを出力する出力処理を実行させることを特徴とする。
 本発明によれば、解釈可能な特徴量として対象者の意図を抽出できる。
本発明による意図特徴量抽出装置の一実施形態の構成例を示すブロック図である。 階層型混合エキスパートモデルの概要を説明する説明図である。 目的関数の例を示す説明図である。 意図特徴量抽出装置の動作例を示す説明図である。 学習装置の動作例を示す説明図である。 本発明による意図特徴量抽出装置の概要を示すブロック図である。 本発明による学習装置の概要を示すブロック図である。 本発明によるモデル学習システムの概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
 図1は、本発明による意図特徴量抽出装置の一実施形態の構成例を示すブロック図である。本実施形態の意図特徴量抽出装置100は、記憶部10と、入力部20と、学習部30と、抽出部40と、出力部50とを備えている。
 意図特徴量抽出装置100は、対象者の意思決定履歴から、その対象者の意図を示す目的関数を学習し、その目的関数から解釈可能な対象者の意図を、その対象者の特徴量として抽出する装置である。また、図1に例示するように、意図特徴量抽出装置100が、学習装置200に接続されていてもよい。
 記憶部10は、意図特徴量抽出装置100が各種処理を行うために必要な情報を記憶する。記憶部10は、後述する学習部30が処理に用いる各種パラメータを記憶してもよい。また、記憶部10は、後述する入力部20が受け付けた対象者の意思決定履歴を記憶してもよい。記憶部10は、例えば、磁気ディスク等により実現される。
 入力部20は、対象者の意思決定履歴(トラジェクトリ)の入力を受け付ける。例えば、自動運転を目的とした学習を行う場合、入力部20は、ドライバの複雑な意図に基づく大量の運転履歴データの入力を意思決定履歴として受け付けてもよい。具体的には、意思決定履歴は、時刻tでの状態sと、時刻tでの行動aとの組み合わせの時系列データ{s,at=1 として表される。
 学習部30は、対象者の意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する。具体的には、学習部30は、対象者の行動から報酬(関数)を推定する逆強化学習により、線形回帰式で表される目的関数を学習する。
 逆強化学習では、通常、熟練者の意思決定履歴、実際に動作させた場合の状態を表わすシミュレータもしくは実機、および、状態に応じて予測される遷移先を表わす状態遷移(予測)モデルを用いて学習が行われる。
 そこで、学習部30は、熟練者の意思決定履歴に基づいて一の目的関数を推定し、この目的関数に基づく意思決定履歴と、熟練者の意思決定履歴との差を小さくするように目的関数を更新する。目的関数が更新されると、学習部30は、この目的関数を用いて意思決定シミュレーションを行う。具体的には、学習部30は、意思決定シミュレーションにおいて、状態遷移モデルと目的関数とを用いて方策を決定する最適化計算を行い、最適化計算の結果出力される行動をシミュレータで評価することで、意思決定履歴を決定する。そして、学習部30は、この決定された意思決定履歴を目的関数の更新にさらに利用し、上記処理を繰り返すことにより、目的関数と熟練者の意思決定との差をなくすように熟練者の目的関数を推定する。
 なお、状態遷移モデルの精緻化は困難であることが多い。そこで、学習部30は、状態遷移モデルを用いずに目的関数を推定可能なモデルフリー逆強化学習を行ってもよい。モデルフリー逆強化学習では、制御対象の数学的モデルである環境ダイナミクスを事前に知る必要はない。そのため、モデル化に伴う誤差の影響をなくすことができ、さらに、上述する学習時の意思決定シミュレーションが不要になるため、計算コストを削減することも可能になる。
 さらに、各場合に応じた目的関数を学習するため、学習部30は、上述するモデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法を用いてもよい。具体的には、学習部30は、ランダム方策に基づく重点サンプリングを用いた相対エントロピー逆強化学習により階層型混合エキスパートモデルを学習してもよい。
 相対エントロピー逆強化学習は、ランダム方策による意思決定履歴からのサンプリングを用いて、状態遷移モデルを用いずに(すなわち、モデルフリーで)報酬関数を学習する方法である。この学習方法では、学習部30は、熟練者の意思決定履歴を場合分けし、各場合の目的関数および分岐ルールの学習を、熟練者の意思決定履歴を精度よく再現できるまで交互に繰り返すことで、分岐条件および各場合における目的関数を推定する。
 図2は、階層型混合エキスパートモデルの概要を説明する説明図である。図2に例示する階層型混合エキスパートモデルは、状態・観測情報に応じて目的関数を1つ選択するモデルである。図2に示す例では、入力される状態・観測情報が条件1を満たし、条件2を満たさずに、スパースな線形目的関数2が選択されたことを示す。
 図3は、目的関数の例を示す説明図である。図3に示す例では、ドライバの運転履歴データを意思決定履歴として用いて学習されたモデル予測制御における目的関数の例を示す説明図である。図3に例示する目的関数において、各説明変数の重み係数は、運転時に「何をどれくらい重視するのか」を表わす。
 例えば、図3に例示する目的関数において、λは、現在地と目的地との距離の差を重視する程度を表わす係数である。同様に、λは、現在の速度と目的とする速度との差を重視する程度を表わす係数である。また、λは、ステアリングの角度、λは、加速度、λは、危険回避、λは、燃費を、それぞれ重視する程度を表わす係数である。このように学習された目的関数は、対象者の意図を表わしていると言える。
 また、解釈可能な目的関数を学習するため、学習部30は、階層型混合エキスパートモデル学習として、異種混合学習を利用してもよい。異種混合学習では、各葉ノードに配される目的関数が線形回帰式で表されるため、目的変数に対する説明変数の影響度合いを解釈することが容易になる。
 なお、学習部30が、学習に用いる対象とする意思決定履歴の範囲は任意である。学習部30は、例えば、時間や状況、場所等に応じて、意思決定履歴を分割し、分割された意思決定履歴ごとに目的関数を学習してもよい。
 抽出部40は、学習された目的関数の説明変数の重みを、対象者の意図を表わす特徴量として抽出する。例えば、入力部20が受け付けた意思決定履歴が、対象者の運転履歴であった場合、抽出部40は、対象者の運転の意図を示す特徴量として目的変数の重みを抽出してもよい。また、例えば、入力部20が受け付けた意思決定履歴が、対象者の発注履歴であった場合、抽出部40は、対象者の発注の意図を示す特徴量として目的変数の重みを抽出してもよい。また、他にも、入力部20が受け付けた意思決定履歴が、対象者の指導履歴であった場合、抽出部40は、対象者の指導の意図を示す特徴量として目的変数の重みを抽出してもよい。
 出力部50は、抽出された特徴量を出力する。その際、出力部50は、抽出された特徴量に教師ラベルを対応付けて出力してもよい。出力部50は、例えば、学習時に用いられた意思決定履歴から特定可能な情報を教師ラベルとして対応付けてもよい。例えば、意思決定履歴が運転履歴の場合、出力部50は、事故発生の有無を教師ラベルとして対応付けてもよい。また、例えば、意思決定履歴が発注履歴の場合、出力部50は、売上数量や利益を教師ラベルとして対応付けてもよい。また、例えば、意思決定履歴が指導履歴の場合、出力部50は、退職者数を教師ラベルとして対応付けてもよい。
 なお、特徴量と教師ラベルとが対応付けられたデータは、後述する学習装置200が学習を行う際の学習データとして用いることが可能である。そのため、このようなデータを出力する意図特徴量抽出装置100のことを、学習データ生成装置ということができる。また、このような意図特徴量抽出装置100と、学習装置200とを含むシステムを、モデル学習システムということもできる。
 入力部20と、学習部30と、抽出部40と、出力部50とは、プログラム(意図特徴量抽出プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
 例えば、プログラムは、意図特徴量抽出装置100が備える記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部20、学習部30、抽出部40および出力部50として動作してもよい。また、意図特徴量抽出装置100の機能がSaaS(Software as a Service )形式で提供されてもよい。
 入力部20と、学習部30と、抽出部40と、出力部50とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 また、意図特徴量抽出装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 学習装置200は、入力部210と、モデル学習部220と、出力部230とを備えている。
 入力部210は、学習データの入力を受け付ける。入力部210は、例えば、意図特徴量抽出装置100が生成した情報を、学習データとして受け付けてもよい。
 モデル学習部220は、入力された学習データを用いた機械学習により予測モデルを学習する。なお、モデル学習部220が機械学習を行う方法は任意である。また、モデル学習部220は、入力された学習データの内容および用途に応じたモデルを学習すればよい。
 例えば、学習データが運転履歴の場合、その学習データが示す特徴は、対象者の運転特徴と言える。そこで、モデル学習部220は、事故発生の有無や自動車保険料を目的変数とする予測モデルを学習してもよい。また、例えば、学習データが発注履歴の場合、その学習データが示す特徴は、対象者の発注特徴と言える。そこで、モデル学習部220は、利益率や廃棄数などを目的変数とする予測モデルを学習してもよい。また、他にも、学習データが指導履歴の場合、その学習データが示す特徴は、対象者の指導特徴と言える。そこで、モデル学習部220は、退職者数や評価度合いを目的変数とする予測モデルを学習してもよい。
 出力部230は、生成されたモデルを出力する。
 入力部210と、モデル学習部220と、出力部230とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサによって実現される。
 次に、本実施形態の意図特徴量抽出装置100の動作を説明する。図4は、本実施形態の意図特徴量抽出装置100の動作例を示す説明図である。入力部20は、対象者の意思決定履歴の入力を受け付ける(ステップS11)。学習部30は、入力された意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する(ステップS12)。そして、抽出部40は、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する(ステップS13)。
 次に、本実施形態の学習装置200の動作を説明する。図5は、本実施形態の学習装置200の動作例を示す説明図である。入力部210は、対象者の意思決定履歴に基づいて学習された目的関数をもとに抽出される特徴量を学習データとして入力する(ステップS21)。モデル学習部220は、入力された学習データを用いた機械学習により予測モデルを学習する(ステップS22)。そして、出力部230は、学習した予測モデルを出力する(ステップS23)。
 以上のように、本実施形態では、入力部20が、対象者の意思決定履歴の入力を受け付け、学習部30が、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する。そして、抽出部40が、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する。よって、対象者の意図を解釈可能な特徴量として抽出できる。
 また、本実施形態では、入力部210が、上述する意図特徴量抽出装置100により抽出される特徴量を学習データとして入力し、モデル学習部220が、入力された学習データを用いた機械学習により予測モデルを学習し、出力部230が、学習された予測モデルを出力する。そのため、対象者の意思決定履歴から、その対象者の意図を考慮した予測モデルを学習することが可能になる。
 次に、本発明の概要を説明する。図6は、本発明による意図特徴量抽出装置の概要を示すブロック図である。本発明による意図特徴量抽出装置80(例えば、意図特徴量抽出装置100)は、対象者の意思決定履歴の入力を受け付ける入力部81(例えば、入力部20)と、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部82(例えば、学習部30)と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部83(例えば、抽出部40)とを備えている。
 そのような構成により、解釈可能な特徴量として対象者の意図を抽出できる。
 また、学習部82は、逆強化学習により線形回帰式で表される目的関数を学習してもよい。この場合、各線形回帰式に含まれる説明変数の各係数を特徴量として抽出できる。
 また、学習部82は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習してもよい。このような構成により、各場合を考慮した目的関数を学習することが可能になる。
 具体的には、入力部81は、対象者の運転履歴を意思決定履歴として受け付けてもよい。そして、特徴量抽出部83は、学習された説明変数の重みを、対象者の運転の意図を示す特徴量として抽出してもよい。そのような構成により、運転手の意図を示す特徴量を運転特徴として抽出することが可能になる。
 また、学習部82は、モデルフリー逆強化学習と、異種混合学習とを組み合わせた学習方法により、目的関数を学習してもよい。この場合、各場合の目的関数を、線形回帰式で学習することが可能になる。
 図7は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置90(例えば、学習装置200)は、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部91(例えば、入力部210)と、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部92(例えば、モデル学習部220)と、学習した予測モデルを出力する出力部93(例えば、出力部230)とを備えている。
 そのような構成により、対象者の意思決定履歴から、その対象者の意図を考慮した予測モデルを学習することが可能になる。
 具体的には、入力部91は、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、その運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力してもよい。そして、モデル学習部92は、その学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習してもよい。
 なお、図8は、本発明によるモデル学習システムの概要を示すブロック図である。本発明によるモデル学習システム70(例えば、図1に例示する意図特徴量抽出装置100と学習装置200との組み合わせ)は、対象者の意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部71(例えば、学習部30)と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部72(例えば、抽出部40)と、抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部73(例えば、モデル学習部220)と、学習した予測モデルを出力する出力部74(例えば、出力部230)とを備えている。
 このような構成によっても、対象者の意思決定履歴から、その対象者の意図を考慮した予測モデルを学習することが可能になる。
 図9は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
 上述の意図特徴量抽出装置80および学習装置90は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(意図特徴量抽出プログラム、学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
 また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)対象者の意思決定履歴の入力を受け付ける入力部と、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、
 学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部とを備えたことを特徴とする意図特徴量抽出装置。
(付記2)学習部は、逆強化学習により線形回帰式で表される目的関数を学習する付記1記載の意図特徴量抽出装置。
(付記3)学習部は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習する付記1または付記2記載の意図特徴量抽出装置。
(付記4)入力部は、対象者の運転履歴を意思決定履歴として受け付け、特徴量抽出部は、学習された説明変数の重みを、対象者の運転の意図を示す特徴量として抽出する付記1から付記3のうちのいずれか1つに記載の意図特徴量抽出装置。
(付記5)学習部は、モデルフリー逆強化学習と、異種混合学習とを組み合わせた学習方法により、目的関数を学習する付記1から付記4のうちのいずれか1つに記載の意図特徴量抽出装置。
(付記6)対象者の意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部と、抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とするモデル学習システム。
(付記7)対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部と、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とする学習装置。
(付記8)入力部は、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、モデル学習部は、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する付記7記載の学習装置。
(付記9)対象者の意思決定履歴の入力を受け付け、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習し、学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出することを特徴とする意図特徴量抽出方法。
(付記10)逆強化学習により線形回帰式で表される目的関数を学習する付記9記載の意図特徴量抽出方法。
(付記11)対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力し、入力された学習データを用いた機械学習により予測モデルを学習し、学習した予測モデルを出力することを特徴とする学習方法。
(付記12)対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する付記11記載の学習方法。
(付記13)コンピュータに、対象者の意思決定履歴の入力を受け付ける入力処理、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習処理、および、学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出処理を実行させるための意図特徴量抽出プログラム。
(付記14)コンピュータに、学習処理で、逆強化学習により線形回帰式で表される目的関数を学習させる付記13記載の意図特徴量抽出プログラム。
(付記15)コンピュータに、対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力処理、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習処理、および、学習した予測モデルを出力する出力処理を実行させるための学習プログラム。
(付記16)コンピュータに、入力処理で、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力させ、学習処理で、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習させる付記15記載の学習プログラム。
 10 記憶部
 20 入力部
 30 学習部
 40 抽出部
 50 出力部
 100 意図特徴量抽出装置
 200 学習装置
 210 入力部
 220 モデル学習部
 230 出力部

Claims (16)

  1.  対象者の意思決定履歴の入力を受け付ける入力部と、
     前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、
     学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部とを備えた
     ことを特徴とする意図特徴量抽出装置。
  2.  学習部は、逆強化学習により線形回帰式で表される目的関数を学習する
     請求項1記載の意図特徴量抽出装置。
  3.  学習部は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習する
     請求項1または請求項2記載の意図特徴量抽出装置。
  4.  入力部は、対象者の運転履歴を意思決定履歴として受け付け、
     特徴量抽出部は、学習された説明変数の重みを、対象者の運転の意図を示す特徴量として抽出する
     請求項1から請求項3のうちのいずれか1項に記載の意図特徴量抽出装置。
  5.  学習部は、モデルフリー逆強化学習と、異種混合学習とを組み合わせた学習方法により、目的関数を学習する
     請求項1から請求項4のうちのいずれか1項に記載の意図特徴量抽出装置。
  6.  対象者の意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、
     学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部と、
     抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部と、
     学習した予測モデルを出力する出力部とを備えた
     ことを特徴とするモデル学習システム。
  7.  対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部と、
     入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部と、
     学習した予測モデルを出力する出力部とを備えた
     ことを特徴とする学習装置。
  8.  入力部は、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、
     モデル学習部は、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する
     請求項7記載の学習装置。
  9.  対象者の意思決定履歴の入力を受け付け、
     前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習し、
     学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する
     ことを特徴とする意図特徴量抽出方法。
  10.  学習部は、逆強化学習により線形回帰式で表される目的関数を学習する
     請求項9記載の意図特徴量抽出方法。
  11.  対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力し、
     入力された学習データを用いた機械学習により予測モデルを学習し、
     学習した予測モデルを出力する
     ことを特徴とする学習方法。
  12.  対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、
     前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する
     請求項11記載の学習方法。
  13.  コンピュータに、
     対象者の意思決定履歴の入力を受け付ける入力処理、
     前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習処理、および、
     学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出処理
     を実行させるための意図特徴量抽出プログラム。
  14.  コンピュータに、
     学習処理で、逆強化学習により線形回帰式で表される目的関数を学習させる
     請求項13記載の意図特徴量抽出プログラム。
  15.  コンピュータに、
     対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力処理、
     入力された学習データを用いた機械学習により予測モデルを学習するモデル学習処理、および、
     学習した予測モデルを出力する出力処理
     を実行させるための学習プログラム。
  16.  コンピュータに、
     入力処理で、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力させ、
     学習処理で、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習させる
     請求項15記載の学習プログラム。
PCT/JP2019/050882 2019-12-25 2019-12-25 意図特徴量抽出装置、学習装置、方法およびプログラム WO2021130916A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/638,367 US20220318917A1 (en) 2019-12-25 2019-12-25 Intention feature value extraction device, learning device, method, and program
EP19957132.4A EP4083872A4 (en) 2019-12-25 2019-12-25 INTENT FEATURE VALUE EXTRACTION DEVICE, LEARNING DEVICE, METHOD AND PROGRAM
JP2021566648A JP7279821B2 (ja) 2019-12-25 2019-12-25 意図特徴量抽出装置、学習装置、方法およびプログラム
PCT/JP2019/050882 WO2021130916A1 (ja) 2019-12-25 2019-12-25 意図特徴量抽出装置、学習装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/050882 WO2021130916A1 (ja) 2019-12-25 2019-12-25 意図特徴量抽出装置、学習装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2021130916A1 true WO2021130916A1 (ja) 2021-07-01

Family

ID=76573773

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/050882 WO2021130916A1 (ja) 2019-12-25 2019-12-25 意図特徴量抽出装置、学習装置、方法およびプログラム

Country Status (4)

Country Link
US (1) US20220318917A1 (ja)
EP (1) EP4083872A4 (ja)
JP (1) JP7279821B2 (ja)
WO (1) WO2021130916A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062665A1 (ja) * 2021-10-11 2023-04-20 日本電気株式会社 支援システム、支援方法および支援プログラム
WO2023170918A1 (ja) * 2022-03-11 2023-09-14 日本電気株式会社 可視化方法、可視化装置、および記録媒体
WO2023170919A1 (ja) * 2022-03-11 2023-09-14 日本電気株式会社 可視化方法、可視化装置、および記録媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016009599A1 (ja) * 2014-07-14 2016-01-21 日本電気株式会社 Cm計画支援システムおよび売上予測支援システム
WO2017163277A1 (ja) * 2016-03-25 2017-09-28 日本電気株式会社 情報処理システム、情報処理方法および情報処理プログラム
WO2018207259A1 (ja) * 2017-05-09 2018-11-15 日本電気株式会社 情報処理システム、情報処理装置、予測モデル抽出方法および予測モデル抽出プログラム
WO2019044642A1 (ja) * 2017-08-30 2019-03-07 日本電気株式会社 医療情報処理装置、医療情報処理方法および記憶媒体
JP2019093896A (ja) * 2017-11-22 2019-06-20 日本電気株式会社 情報処理装置、分類方法およびコンピュータ・プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003005934A2 (en) * 2001-07-10 2003-01-23 California Institute Of Technology Cognitive state machine for prosthetic systems
US7209938B2 (en) * 2001-12-17 2007-04-24 Lockheed Martin Corporation Kalman filter with adaptive measurement variance estimator
US20110105897A1 (en) * 2008-04-15 2011-05-05 Giora Kornblau Hybrid medical device localization system
JP6981539B2 (ja) * 2018-03-30 2021-12-15 日本電気株式会社 モデル推定システム、モデル推定方法およびモデル推定プログラム
CN109063304B (zh) * 2018-07-25 2020-04-28 中南大学 一种用于高速列车吸能结构设计的多目标优化决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016009599A1 (ja) * 2014-07-14 2016-01-21 日本電気株式会社 Cm計画支援システムおよび売上予測支援システム
WO2017163277A1 (ja) * 2016-03-25 2017-09-28 日本電気株式会社 情報処理システム、情報処理方法および情報処理プログラム
WO2018207259A1 (ja) * 2017-05-09 2018-11-15 日本電気株式会社 情報処理システム、情報処理装置、予測モデル抽出方法および予測モデル抽出プログラム
WO2019044642A1 (ja) * 2017-08-30 2019-03-07 日本電気株式会社 医療情報処理装置、医療情報処理方法および記憶媒体
JP2019093896A (ja) * 2017-11-22 2019-06-20 日本電気株式会社 情報処理装置、分類方法およびコンピュータ・プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RIKI ETORYOHEI FUJIMAKIYSATOSHI MORINAGAHIROSHI TAMANO: "Fully-Automatic Bayesian Piecewise Sparse Linear Models", AISTATS, 2014, pages 238 - 246, XP055671032
See also references of EP4083872A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062665A1 (ja) * 2021-10-11 2023-04-20 日本電気株式会社 支援システム、支援方法および支援プログラム
WO2023170918A1 (ja) * 2022-03-11 2023-09-14 日本電気株式会社 可視化方法、可視化装置、および記録媒体
WO2023170919A1 (ja) * 2022-03-11 2023-09-14 日本電気株式会社 可視化方法、可視化装置、および記録媒体

Also Published As

Publication number Publication date
US20220318917A1 (en) 2022-10-06
JPWO2021130916A1 (ja) 2021-07-01
EP4083872A1 (en) 2022-11-02
JP7279821B2 (ja) 2023-05-23
EP4083872A4 (en) 2023-01-04

Similar Documents

Publication Publication Date Title
WO2021130916A1 (ja) 意図特徴量抽出装置、学習装置、方法およびプログラム
US20180349757A1 (en) Learning service providing apparatus
Cardamone et al. Learning drivers for TORCS through imitation using supervised methods
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
WO2020065808A1 (ja) 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体
US20210150388A1 (en) Model estimation system, model estimation method, and model estimation program
WO2019225011A1 (ja) 学習装置、情報処理システム、学習方法、および学習プログラム
CN111652453A (zh) 用于零件设计、仿真和制造的智能工作流程顾问
US11435705B2 (en) Control objective integration system, control objective integration method and control objective integration program
CN113614743A (zh) 用于操控机器人的方法和设备
CN114565255A (zh) 一种企业集群协同的供应链管理方法及系统
Dadios et al. Genetic algorithm on line controller for the flexible inverted pendulum problem
WO2020115903A1 (ja) 学習装置、学習方法、および学習プログラム
CN115598979A (zh) 一种液压系统的模型参数辨识方法、装置及液压工程机械
US20230394970A1 (en) Evaluation system, evaluation method, and evaluation program
KR20230038136A (ko) 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템
US20230040914A1 (en) Learning device, learning method, and learning program
WO2020115904A1 (ja) 学習装置、学習方法、および学習プログラム
CN116954156B (zh) 数控加工的工艺路线规划方法、装置、设备及介质
US20240199079A1 (en) Predicting the further development of a scenario with aggregation of latent representations
US20240248824A1 (en) Tools for performance testing autonomous vehicle planners
WO2022044314A1 (ja) 学習装置、学習方法および学習プログラム
JP7529145B2 (ja) 学習装置、学習方法および学習プログラム
US20240256419A1 (en) Tools for performance testing autonomous vehicle planners
US20210117831A1 (en) Computer System

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19957132

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021566648

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019957132

Country of ref document: EP

Effective date: 20220725