WO2019216427A1 - リスク指標評価装置、リスク指標評価方法及びプログラム - Google Patents

リスク指標評価装置、リスク指標評価方法及びプログラム Download PDF

Info

Publication number
WO2019216427A1
WO2019216427A1 PCT/JP2019/018806 JP2019018806W WO2019216427A1 WO 2019216427 A1 WO2019216427 A1 WO 2019216427A1 JP 2019018806 W JP2019018806 W JP 2019018806W WO 2019216427 A1 WO2019216427 A1 WO 2019216427A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
risk
function
data
unit
Prior art date
Application number
PCT/JP2019/018806
Other languages
English (en)
French (fr)
Inventor
新一 前田
Original Assignee
株式会社 Preferred Networks
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 Preferred Networks filed Critical 株式会社 Preferred Networks
Publication of WO2019216427A1 publication Critical patent/WO2019216427A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/06Safety devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/095Predicting travel path or likelihood of collision
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/406Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by monitoring or safety
    • G05B19/4061Avoiding collision or forbidden zones
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Definitions

  • the present invention relates to a risk index evaluation device, a risk index evaluation method, and a program.
  • Desired results while performing risk control to guarantee safety and quality when automatically controlling wheeled mobile robots UAV (Unmanned ⁇ Aerial Vehicle), AUV (Autonomous Underwater Vehicle) and other robots, plants and cars It is often necessary to achieve If it is automatic control of a wheeled mobile robot for indoor use, in order to control the mobile robot safely, the robot itself and surrounding objects (for example, the situation of walls and floors, furniture, people, other mobile robots) Control that achieves the objectives efficiently while avoiding collisions by predicting state changes in the direction and distance, and in the case of moving objects such as people and other mobile robots, their posture, moving speed, appearance from blind spots, etc.) Need to do.
  • the collision can be avoided by planning so that it does not pass through it, but in the case of a moving object such as a person or a mobile robot, it is appropriate considering the future movement It is necessary to evaluate the collision risk.
  • a moving object such as a person or a mobile robot
  • the future movement of the moving object is not necessarily deterministic and has uncertainty. In each of the various states, it is difficult to manually design how the risk should be evaluated, which may cause a state that cannot be handled.
  • the present invention provides a risk index evaluation apparatus that can evaluate a highly reliable risk index.
  • a risk evaluation apparatus calculates a state risk value that is a risk index corresponding to the state data from the sampled state data, and a data sampling unit that samples the input state data
  • a state risk function that is a function that approximates the state risk value for a new state based on the portion, the sampled state data, and the state risk value calculated from the sampled state data
  • a state risk function approximating unit that generates, and an output unit that outputs a state risk value for the new state as a risk index based on the generated state risk function.
  • the risk index evaluation apparatus evaluates a collision risk such as a collision of a self robot with a human or another robot, assuming motion planning in the case of performing automatic control of a mobile robot, for example.
  • a collision risk such as a collision of a self robot with a human or another robot, assuming motion planning in the case of performing automatic control of a mobile robot, for example.
  • this risk index evaluation device it is possible to determine whether a given control strategy can avoid a certain level of risk, so that the given task is achieved under conditions that avoid a certain level of risk.
  • it can be used to acquire measures for economical and efficient control.
  • the risk index evaluation device evaluates risks (such as collision accidents).
  • the desired state for achieving the task and the degree of economic control are expressed as rewards, and are distinguished from risks that must be kept below a certain level.
  • the risk of an accident such as a collision is assumed to be dt as a risk.
  • the degree of risk dt is a value of 0 or less, and the magnitude of the risk to be avoided is expressed by the magnitude.
  • the reward is a positive value, and the magnitude represents the desired state to be achieved and the degree of economic control.
  • s t, a t) by using a control input a t to the self robot at time t p (e t + 1
  • POMDP Partially Observable MDP
  • (State evaluation function) Is regarded as a risk d t a negative reward, reward r t and the distribution of the sum of the series of the sum from the time t of the total value, which took up to T p (s t: T, a t: T, d t: T , R t: T ), when the control is performed so that the expected value is maximized, the possibility of including a control that causes a high degree of risk dt cannot be excluded. If the absolute value of the state transition probability of the environment e without taking the expected value always is a risk of d t is assuming a worst case to be the maximum, will perform the over-conservative control, reward r t is possible to be low There is sex. Therefore, a plurality of state evaluation functions are used so as to achieve both tasks such as quick movement to the destination while avoiding the risk of collision accidents.
  • the accident risk R ⁇ ⁇ in this case is expressed as R ⁇ ⁇ (s t , a t ) ⁇ P ⁇ (min k ⁇ t d k ⁇
  • s t , a t ] represents an expected value when the action a t is selected in the state s t and the control according to the policy ⁇ is performed thereafter.
  • s t] and is defined, V ⁇ (s t) E ⁇ [Q ⁇ (s t, a t )
  • the state st is, for example, a position in a two-dimensional space or a three-dimensional space, and is not limited to this, and is a multi-dimensional indicating a state (physical quantity) of an object such as speed, acceleration, torque, weight, etc. Is the amount.
  • a state physical quantity
  • the state that can be expressed and the output risk can be expanded as various variations. For example, it is possible to describe not only a risk indicating collision between objects but also a phenomenon that can be a risk target, such as radio waves, sound, and light.
  • is a constant called a discount rate and satisfies 0 ⁇ ⁇ ⁇ 1.
  • s t , a t ), Q * (s t , a t ) max ⁇ Q ⁇ (s t , a t ).
  • the following action selection is performed using these two types of state evaluation functions, state risk and state value.
  • ⁇ First method> In the first method, the risk and reward are taken into consideration and a two-step selection is performed. For example, different selections are made for safe and unsafe cases.
  • be an empty set.
  • argmin and argmax shall consider min and max for a t.
  • a t argmax [Q * (s t , a t )] (where a t ⁇ ⁇ at t ′
  • ⁇ Second method> the risk and reward are taken into consideration and a three-step selection is performed. For example, different choices are made for cases that are very safe, cases that are not very safe, and cases that are not safe.
  • a t argmax [Q * (s t , a t )] (where a t ⁇ ⁇ at t ′
  • a t argmin [wR ⁇ * (s t , a t ) ⁇ (1 ⁇ w) Q * (s t , a t )] (where a t ⁇ ⁇ a t ′
  • a recursive equation holds for both state risk (risk) and state value (cumulative reward sum).
  • the state value function can be represented by the Bellman equation. That is, the cumulative reward sum Q * (s t , a t ) is expressed as follows.
  • the restoration from the state risk function to the behavior risk function is performed by the following formula.
  • the state risk is calculated by the Monte Carlo method
  • the risk in each state is sampled stochastically, and the state risk value is calculated by the average value of the probabilistic sampled risks.
  • the teacher data may be configured using the probabilistic sampled risk as a teacher label.
  • the small state space refers to a state space that assumes a case where only one moving object (or a stationary obstacle) is included in the environment e without considering a multi-body state.
  • the risk function of the many-body state is expressed as the sum of the risk functions constructed in the small state space.
  • Moving object N bodies or static obstacles
  • the N moving objects undergo state transition independently. In this case, the following equation holds.
  • the equation shown in [Expression 4] is an equation similar to the Bellman equation, and the right side can be defined as an operator in the same procedure as defining the Bellman operator from the Bellman equation. Since this operator is generally a reduced map with respect to the L p (1 ⁇ p ⁇ ) norm, in the case of a table-represented function, it is not necessary to analyze all the events that occur probabilistically as in dynamic programming. By updating the function from the sample obtained probabilistically, it is possible to approach the function satisfying [Equation 6] in the sense of L p (1 ⁇ p ⁇ ) norm. The method of updating from such a sample can be used when an accurate state transition probability cannot be obtained or when the number of states is large.
  • FIG. 1 is a block diagram schematically showing an example of the function of the risk index evaluation apparatus 1 according to the present embodiment.
  • the risk index evaluation apparatus 1 includes an input unit 10, a data sampling unit 12, a risk calculation unit 14, a data set storage unit 16, a state risk function approximation unit 18, and an approximate performance evaluation unit 20.
  • a risk event will be described as a collision between objects. When there is a risk other than the collision, the following explanation may be read after changing to the event having the risk.
  • the input unit 10 receives input from the outside.
  • the data input from the input unit 10 is transmitted to a location that requires data as appropriate.
  • the input data is, for example, data indicating the state of the own robot, the own robot, and other moving objects.
  • moving object and “obstacle” are collectively referred to as other objects.
  • the input data is data necessary for learning in the learning phase, and is data relating to a state for which risk is to be calculated, for example, in the risk calculation phase.
  • the data sampling unit 12 samples data indicating the state input to the input unit 10. For example, when continuous state data is inputted, discrete state data is generated by sampling the continuous state data. As another example, the sampling rate of input data may be converted.
  • the risk calculation unit 14 assumes that a collision occurs when the degree of risk d t ⁇ at each time t with respect to the predetermined value ⁇ at which the collision occurs, based on the mathematical expressions described in [Expression 3] to [Expression 7].
  • the risk calculation unit 14 calculates a state risk value as a risk index corresponding to a certain state. That is, the risk calculation unit 14 mainly operates in a phase for generating a model. In the risk calculation phase, it is also possible to update the model in parallel for the state in which the risk is to be calculated. In such a case, the risk calculation unit 14 may operate in the risk calculation phase.
  • this model uses a predetermined threshold (event occurrence value) determined in advance to calculate a risk value by comparing the calculated risk with the threshold. Also good.
  • the data set storage unit 16 stores the state generated by the data sampling unit 12 and the state risk value calculated by the risk calculation unit 14 in association with each other.
  • the risk calculation unit 14 calculates a state risk value from the discretized state input from the data sampling unit 12 based on the learned model, and stores the state and the state risk value in association with each other.
  • the state risk function approximating unit 18 generates a function approximator that approximates the state risk value based on the state data stored in the data set storage unit 16. In other words, the state risk function approximating unit 18 generates a function (function approximator) that can approximately calculate the state risk value.
  • This function approximator outputs the state risk value to the approximate performance evaluation unit 20 and improves the accuracy of the state risk function based on the evaluation value fed back from the approximate performance evaluation unit 20.
  • the term including R ⁇ ⁇ in [Equation 6] is based on the state risk value calculated by dynamic programming in each of the plurality of states generated by the data sampling unit 12.
  • the parameters of the function approximator are automatically determined so that the data in the data set storage unit 16 storing the pairs can be approximated well.
  • the approximate performance evaluation unit 20 calculates an evaluation value and evaluates the performance of the function approximator in the state risk function approximation unit 18.
  • the state risk function approximation unit 18 and the approximate performance evaluation unit 20 input and output risks approximated to each other and an environment evaluation, and execute optimization of the state risk function.
  • the output unit 22 outputs the approximated state risk function generated by the state risk function approximation unit 18 to the outside.
  • the output may be output so that a human can see the result, or may be output to a control unit that automatically generates a signal for controlling the movement of the robot. .
  • the input unit 10 may also receive the state s from the control unit.
  • FIG. 2 is a flowchart showing the flow of processing in this embodiment. The process of the data set generation phase will be described with reference to FIG.
  • the data sampling unit 12 acquires information on various states through the input unit 10 and performs sampling with an appropriate granularity (step S10).
  • the data sampling unit 12 may acquire and sample a state of a situation that is likely to have a high degree of risk.
  • the state space between two bodies is defined as follows as an example.
  • the environment e is considered to be a state of another object.
  • the state s (t) is described by the following differential equation.
  • s (t) shows a state in the continuous time t
  • u (t) ( a i, a i e) are collectively control a i of the self-object, and a control a i e the second body Indicates
  • This F (s (t), u (t)) defines the dynamics.
  • the above equation can be said to be a kind of stochastic differential equation, but the random variable follows the probability distribution at discrete time rather than following a stochastic process. Assuming that this is the case, approximations can be made using ordinary numerical methods.
  • the probability distribution may be simply abbreviated as a probability in a place where confusion does not occur.
  • the degree of risk dt is calculated from an event (collision) that occurs when a state transition occurs according to the dynamics represented by [Equation 10] in this unit section (for example, 0.6 seconds).
  • an event collision
  • [Equation 10] dynamics represented by [Equation 10] in this unit section (for example, 0.6 seconds).
  • the actions that the robot can take in this example are two types: forward / stop control and direction change control.
  • Each of these two types of actions is discretized.
  • the discretization may be performed with different granularity in learning of a risk index (state risk value) and learning of reward.
  • state risk value state risk value
  • the forward / stop control and the direction change control are acquired as discrete values of [ ⁇ 4, ⁇ 2, 0, +2, +4].
  • the same state is discretized as [ ⁇ 4, ⁇ 3, ⁇ 2, ⁇ 1, 0, +1, +2, +3, +4] for learning the cumulative reward function.
  • FIG. 3 is a diagram illustrating an example of a control schedule for one episode when learning the state risk function. A constant control is performed in each unit section, and when the unit section is switched, five types of forward / stop control and direction change control can be selected unless the limit value is reached. As shown in FIG. 3, for example, the unit time for forward / stop control may be different from the unit time for direction change control.
  • the action a t e at time t of the other object to determine stochastically as follows.
  • the state branch that must be considered in 4.2 seconds becomes large, but for example, it is determined probabilistically as in [Equation 11]. Then, the action selected by the other object is the same action as immediately before with a probability of 0.84, and in most cases, the action is the same as that immediately before.
  • the state risk function calculated by DP is expressed as follows.
  • the state risk function R ⁇ * (s t + 1 ) is a numerical value between 0 and 1 according to the definition, the transition to the state becomes approximately 0 as the probability of being multiplied by this numerical value decreases. Is possible.
  • the state transition can be deterministically expressed as follows if the action is determined.
  • the state to be learned is generated probabilistically. In this probabilistic generation, even if a state that does not collide is generated, it cannot be used for risk learning. Therefore, a state with a high degree of danger, for example, even once optimally, once every four times. It is desirable to generate a dangerous state in which a collision occurs and use it for learning.
  • Risk calculation unit 14 based on the optimized conditions risk function R (s t) shown in [Expression 12] to [Expression 14], from the sampled state s t, and calculate the R (s t), These two values are linked and stored in the data set storage unit 16 (step S14).
  • FIG. 4 is a flowchart showing a flow of processing for automatically determining parameters after the associated data is stored in the data set storage unit 16.
  • the state risk function R ⁇ * (s t ) is expressed by a function approximator having an adjustable parameter, and optimization is performed so that the data obtained from the parameter can be best reproduced.
  • An example of a function approximator that expresses the state risk function R ⁇ * (s t ) is a neural network.
  • the input state is composed of the following six continuous elements. 1. The speed (size) of your robot 2. X coordinates of other objects in the robot's center coordinates (coordinates with the robot's traveling direction as an axis) 3. Y coordinate of other object in own robot center coordinates (coordinate with direction intersecting with own robot traveling direction) 4). 4. Direction change angle of other objects based on the direction change angle of own robot Speed (size) of other objects 6). Acceleration (size) of other objects
  • Intersecting in principle means orthogonal, but is not limited to this, it is parallel to the road etc., and represents a different direction with respect to the traveling direction of its own robot, Any axis in a coordinate system that can uniquely represent another object using the X coordinate and the Y coordinate may be used. Further, instead of an XY (or XYZ) orthogonal coordinate system, an r- ⁇ polar coordinate system (in the case of three dimensions, for example, a cylindrical coordinate system or a spherical coordinate system) may be used. As described above, any coordinate system may be used as long as it appropriately represents the positional relationship between the robot and another object, and can be changed depending on the ease of calculation.
  • the behavior is discretized, for example, a. Forward acceleration ⁇ 3, 1, 0, -1, -3 ⁇ [m / s 2 ] b. Turn angle ⁇ 30 °, 10 °, 0 °, -10 °, -30 ° ⁇ It shall be chosen from.
  • the function approximator uses a neural network, and its configuration is, for example, as shown in FIG. That is, as an input, the 6 units that receive the above-described state and the intermediate layer are one layer composed of 256 units, and each unit of the intermediate layer is connected to the output, and a risk index is acquired.
  • the configuration of the neural network to be used is not limited to this, and the number of units and the number of intermediate layers can be changed by design.
  • a set of state s t and state risk R (s t ) is acquired from the data set (step S20).
  • the state risk function approximating unit 18 acquires the state s t
  • the approximate performance evaluation unit 20 acquires the corresponding state risk R (s t ).
  • step S22 the state risk function is optimized as described below (step S22). This optimization is continued until, for example, a predetermined number of data sets along the time series stored in the data set storage unit 16 are input (step S24: No). After acquiring and optimizing a predetermined number of data sets, learning about modeling of automatic parameter determination ends (step S24: Yes). As another example, learning may be terminated at a timing when sufficient learning is possible for a possible collision or the like instead of a predetermined number of data.
  • the risk is calculated by the following calculation formula, for example.
  • represents an activation function
  • W represents a weighting matrix.
  • the input state s is weighted by the weighting matrix W (1), and the activation function ⁇ is applied to the weighted result for each element and output to the intermediate layer.
  • the output of the intermediate layer is weighted by the weighting matrix W (2) , and the activation function ⁇ y is applied and output as the risk R ⁇ .
  • the reward calculation unit optimizes the reward. This optimization is executed by optimizing the cumulative reward function based on the state risk function calculated in step S12.
  • a t is the middle of the action which has not been included in the time of learning of the state risk function.
  • the learning phase includes a two-stage learning that first learns a risk index, learns a reward based on the optimized risk index model, and optimizes the reward model.
  • the risk index is calculated based on the state input to the input unit 10 by using a model according to the parameters determined as described above. That is, when the state s t is input, the state risk function approximating unit 18 calculates an estimated risk index R ⁇ (s t ), and the output unit 22 outputs the calculated risk index (state risk value). Output.
  • the risk index evaluation apparatus 1 acquires a request to generate a control signal and the current situation via the input unit 10.
  • the current state is, for example, information on the state of the robot such as the speed and acceleration of the robot (including the state of forward / stop, direction change, etc.), and environment information, for example, the self of other objects This is information such as the position and speed relative to the robot, and information such as the position of an obstacle.
  • the states of the robot and other objects (obstacles) after the unit time has elapsed from the current time are estimated.
  • This state is estimated between two bodies.
  • the worst state is estimated from the estimation between the two bodies based on [Equation 9].
  • the state estimation is performed based on the state risk function model and the reward model learned in the learning phase. For example, action a t e at time t of the second body, for example, determined stochastically as [number 11].
  • a signal for controlling the robot of its own is generated based on the selection of the behavior of another object stochastically determined by [Equation 11], the state risk function model, and the reward model.
  • the generation of the control signal is performed based on the ⁇ first method> and the ⁇ second method>.
  • the generated control signal is output to the outside.
  • the risk index evaluation apparatus 1 outputs a control signal for its own robot based on the current state.
  • the generation of the above control signal may be performed by a control signal generation unit (not shown). Based on the risk index output from the risk index evaluation apparatus 1, the control signal may be generated in this way and output to the automobile.
  • the present embodiment by using two kinds of state evaluation values of the collision risk and the cumulative reward sum, the safety of pursuing the ride comfort and the good fuel efficiency while providing the risk guarantee, It becomes possible to carry out risk control that balances comfort. Furthermore, by optimizing the risk index using reinforcement learning, dynamic programming, etc., it is possible to calculate the risk in the two-dimensional plane as well as the one-dimensional for the movements of the robot and other objects. It becomes possible to improve the property. Moreover, it becomes possible to express the risk between many bodies using the risk parameter
  • FIG. 6 is a block diagram schematically showing the function of the risk index evaluation apparatus 1 when modeling by POMDP.
  • POMDP it is conceivable that other objects cannot be seen or are difficult to see due to obstacles or the like.
  • the risk index evaluation device 1 further includes a state sampling unit 24 and an expected state risk calculation unit 26 in addition to the configuration of the risk index evaluation device 1 according to the above-described embodiment. Is.
  • Status sampling section 24 from the input unit 10 receives the observed state o t, the conditional probability p of this observation state o state from t s t and state s t
  • the expected state risk calculation unit 26 is based on the conditional probability p (s t
  • follow the same flowchart as in Fig. 2 for generating the data set that is an index of risk.
  • the data acquired in step S10 is not only sampled in a state with a high risk level but also sampled in a hidden state with a high level of risk state.
  • the risk calculation unit 14 calculates the risk of the hidden state based on the state of high risk. This risk calculation is performed probabilistically as in the embodiment described above.
  • FIG. 7 is a flowchart showing the flow of processing in this modification.
  • POMDP When POMDP is used, first, a state that is likely to be high in the hidden state is sampled (step S30). At this time, not only the hidden state but also the non-hidden state may be sampled together as in the above-described embodiment. Next, according to the following example, risk is calculated (step S32), and the obtained data set of s t and R ⁇ * (s t ) is stored in the data set storage unit 16.
  • Hidden state h t it is assumed that the uniquely determined to indeterminate without stochastic from the observation o t. For example, when a path beyond a corner is not visible at a corner, it is considered that an event of whether another object is heading from the end of the corner occurs stochastically.
  • o t ] that takes an expected value of the state risk function with respect to the conditional probability p (h t
  • conditional probability is generated in the hidden state h t p
  • the importance sampling can be calculated as follows using q (h t
  • a numerical integration method can be used to obtain the expected state risk function.
  • the expected state risk function By using the expected state risk function, the expected state risk for the future state can be evaluated.
  • the hidden state h t represents the future state s t + k .
  • State risk assessment can be performed after sampling from hidden state to storage of data set. After the above process, the expected state risk is evaluated (step S36), and for example, the output value of the automatic control of the automobile that also predicted the hidden state is output.
  • the worst evaluation of the state risk function between two bodies can be performed from the state risk function between two bodies, but in the case of a problem in which the risk is defined between two bodies, the worst evaluation is not performed. It is also possible to approximately obtain higher-order multi-body state risk functions such as state risk functions between three bodies from state risk functions between bodies, and state risk functions between three bodies from state risk functions between three bodies. Is possible. For example, the risk of collision is defined between two bodies. Therefore, when considering the state risk function between three bodies, it is only necessary to finally consider the degree of danger with any one object.
  • the state risk function between two bodies can express the state risk function with sufficient accuracy in the future that has been prefetched to some extent, the state transition considering the interaction between the three bodies only in the immediate future is considered.
  • the state risk function between the three bodies can be obtained by using the genetic programming method.
  • a predetermined time T may be defined to suppress the probability that a risk level less than ⁇ occurs during t ⁇ k ⁇ t + T.
  • the risk function can be rewritten as R ⁇ ⁇ (s t , a t ) ⁇ P ⁇ (min t ⁇ k ⁇ t + T d k ⁇
  • is a constant of 0 ⁇ ⁇ ⁇ 1.
  • constraints such as P ⁇ (min k ⁇ t d k ⁇
  • h is a vector representing the state and behavior, past a series of risk
  • D (h) max t ⁇ k ⁇ t + T d k ′.
  • the set of safe policies at time t can be ⁇ t
  • s t )) A ⁇ , t (s t ) ⁇ .
  • a ⁇ , t (s t )
  • the policy ⁇ used for calculating R ⁇ , t (s t , a t ) may be different from the policy ⁇ .
  • any action a included in A ⁇ , t (s t ) may be selected.
  • a set of safe policies at time t is represented as ⁇ t
  • s t )) A ⁇ , t (s t ) and Dist ( ⁇ t (a t
  • a ⁇ , t (s t ) ⁇ a t
  • R ⁇ , t (s t, a t) ⁇ x t ⁇ is, Dist ( ⁇ t (a t
  • the policy ⁇ used for the calculation of R ⁇ , t (s t , a t ) may be different from the policy ⁇ , but the policy ⁇ is requested to be within a predetermined distance from the policy ⁇ .
  • can be used.
  • s t ] ⁇ R ⁇ ( Policy ⁇ that satisfies s t ) may be a set of safe policies.
  • the policy between many bodies was estimated by extending the event between two bodies between many bodies.
  • a policy between multiple bodies (between N bodies) can be defined using different examples as follows.
  • s t (1) , s t (2) ,..., S t (N) mean the states of the first to Nth objects in the environment, respectively, and s t (o) Indicates a state that includes other states.
  • the probability that any one of the dangerous events S 1 to S N occurs can be suppressed as follows by the probability that each dangerous event occurs. From this relationship, the state transition probability is p (s t + 1
  • s t , a t ) p (s t + 1 (o)
  • s t (o) , a t ) ⁇ n 1 N p (s t + 1 (n)
  • R t ⁇ , n (s t (o), s t (n)) is state s t (o) and s t (n) consists only of the state transition probability p (s t + 1 (n )
  • the system risk R t ⁇ , n (s t (o) , s t (n) the upper limit of the risk that a dangerous event may occur with any of the N objects is determined. It becomes possible to evaluate. This can reduce the labor for obtaining the risk function.
  • the thresholds such as the risk or reward such as ⁇ and ⁇ are predetermined values set in advance at the timing when the sample is acquired or when learning is performed. For example, as these values, the optimum values found during experiments or simulations are used.
  • risk control is performed on a two-dimensional plane, but it can also be applied to dimensions beyond this.
  • two-dimensional optimization based on risks and rewards such as movement control of robots with arms that operate in three-dimensional space, automatic control of automobiles, control of various factories and plants that require multi-dimensional variables, or investment control It is possible to apply to a system that needs to be realized.
  • the risk index evaluation apparatus 1 may be configured by hardware, or may be configured by software, and the CPU or the like may be implemented by software information processing.
  • the risk index evaluation apparatus 1 and a program that realizes at least a part of its functions are stored in a storage medium such as a flexible disk or a CD-ROM, and read and executed by a computer. May be.
  • the storage medium is not limited to a removable medium such as a magnetic disk or an optical disk, but may be a fixed storage medium such as a hard disk device or a memory. That is, information processing by software may be specifically implemented using hardware resources.
  • processing by software may be implemented in a circuit such as an FPGA (Field-Programmable Gate Array) and executed by hardware.
  • the generation of the learning model and the processing after inputting the learning model may be performed using an accelerator such as a GPU, for example.
  • the learning model according to the present embodiment can be used as a program module that is a part of the artificial intelligence software. That is, a computer CPU (Central Processing Unit) operates based on a model stored in the storage unit and outputs a result.
  • a computer CPU Central Processing Unit
  • the generation of the data set and the automatic parameter determination are included in the same apparatus, but the present invention is not limited to this, and the apparatus related to the generation of the data set and the automatic parameter determination are included. And the apparatus related to the above may be separated. In this case, if the data set storage unit 16 is shared, the above-described operations and effects can be achieved. Further, it is sufficient to share the data stored in the data set storage unit 16 instead of sharing the data set storage unit 16.
  • a state sampling unit 24 and an expected state risk calculation unit 26 are added, but this is for helping understanding in the description.
  • the state risk function approximation unit 18 We seek seek
  • Risk index evaluation apparatus 10 input unit 12: data sampling unit 14: risk calculation unit 16: data set storage unit 18: state risk function approximation unit 20: approximate performance evaluation unit 22: output unit 24: state sampling unit 26: Expected state risk calculator

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Mechanical Engineering (AREA)
  • Medical Informatics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Manufacturing & Machinery (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Robotics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Feedback Control In General (AREA)

Abstract

パラメータを自動的に設定するとともに信頼性の高いリスク指標を評価できるリスク指標評価装置を提供する。リスク指標評価装置は、入力された状態データをサンプリングする、データサンプリング部と、サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算する、リスク計算部と、サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成する、状態リスク関数近似部と、生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力する、出力部と、を備える。

Description

リスク指標評価装置、リスク指標評価方法及びプログラム
 本発明は、リスク指標評価装置、リスク指標評価方法及びプログラムに関する。
 車輪型移動ロボット、UAV(Unmanned Aerial Vehicle)やAUV(Autonomous Underwater Vehicle)などのロボット、プラント、自動車などを自動制御する際、安全性や品質を保証するためのリスクコントロールを行いつつ、所望の成果を達成することがしばしば必要になる。屋内用の車輪型移動ロボットの自動制御であれば、移動ロボットを安全に制御するために、自己のロボットと周囲の物体(たとえば、壁や床の状況、家具、人、他の移動ロボットまでの方向や距離、さらに人、他の移動ロボットなどの移動物体の場合、それらの姿勢、移動速度、死角からの出現など)の状態変化を予測して衝突を避けながら、効率良く目的を達成する制御を行う必要がある。
 周囲の物体が、動かない静止物体の場合、そこを通らないようなプランニングを行うことで衝突を避けることができるが、人や移動ロボットなどの移動物体の場合、将来の動きを考慮して適切に衝突リスクを評価する必要がある。しかしながら、移動物体と自己のそれぞれの姿勢や向き、位置、速度の組み合わせは多様であり、さらに将来の移動物体の動きは必ずしも決定論的には決まらず不確実性を持つ。多様な状態のそれぞれで、どうリスクを評価すべきかを人手で設計するのは困難であり、対応できない状態を生じさせてしまう恐れがある。
 この問題に関連する既存のアプローチには、様々な手法があるが、それぞれに課題を抱えている。移動物体の動きうる範囲をオフラインで計算しておき、それをプランニングに活用するアプローチをとっている。確率勾配法によって方策を直接、最適化している。しかし、2次元もしくは3次元空間上に位置する複数の物体がそれぞれ状態遷移する場合、考慮すべき状態が膨大になり、オフラインでの計算を行うことが不可能になったり、計算コストがかかりすぎたりしてしまう。また、確率勾配法による最適化も同様に、複数の物体の状態遷移を想定する場合、学習に必要になるサンプルが膨大になるため、学習にかかる計算コストが大きくなりすぎて収束しなかったりする。
 移動物体の運動を等速直線運動や等加速運動などの決定論的な運動に限定する場合は、それ以外の動きに対するリスクを適切に評価できない。また、移動物体の周囲にマージンをもうける場合は、どのようなマージンをもうけるかのパラメータ設計を行う必要がある。パラメータを人間が設定する方法では、パラメータの設定が難しく、さらには良いパラメータが得られる保証がない。サンプリングによるシミュレーションを行ってパラメータを決定する手法では、計算時間がかかりオンラインでリスク評価をおこなうことができなくなる問題が生じうる。
 そこで、本発明は、信頼性の高いリスク指標を評価できるリスク指標評価装置を提供する。
 一実施形態に係るリスク評価装置は、入力された状態データをサンプリングする、データサンプリング部と、サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算する、リスク計算部と、サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成する、状態リスク関数近似部と、生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力する、出力部と、を備える。
一実施形態に係るリスク指標評価装置の機能を示すブロック図。 一実施形態に係るリスク指標評価装置のデータセットを生成する処理の流れを示すフローチャート。 一実施形態に係る学習を行う1エピソードを示す図。 一実施形態に係るパラメータ自動決定の処理の流れを示すフローチャート。 一実施形態に係るリスク指標評価装置の機能の別の例を示すブロック図。 一実施形態に係るパラメータ自動決定の別の例の処理の流れを示すフローチャート。 一実施形態に係る処理の流れを示すフローチャート。
 以下、図面を参照して本発明の実施形態についてより詳しく説明する。本実施形態は、本発明を限定するものではない。なお、各図において同等の機能を有する構成要素には同一の符号を付し、同一の構成要素の詳しい説明は繰り返さない。
 本実施形態に係るリスク指標評価装置は、例えば、移動ロボットの自動制御を行う場合等におけるモーションプランニングを想定し、自己のロボットが人間や他のロボット等との衝突等の衝突リスクを評価する。このリスク指標評価装置を用いることで、与えられた制御方策が一定以上のリスクを避けることができるかどうかを判断できるため、一定以上のリスクを避ける条件のもとで与えられたタスクを達成するのに経済的かつ効率的な制御を行う方策の獲得に役立たせることができる。
 (問題設定)
 まず、評価の対象となる値について説明する。リスク指標評価装置は、リスク(衝突事故等)を評価する。一方で、タスク達成のための望ましい状態や経済的な制御の度合いを報酬として表現し、必ず一定以下に抑えることが必要となるリスクと区別して表現する。以下の説明においては、各時刻tにおいて、リスクとして衝突等の事故の危険度をdとする。危険度dは、0以下の値とし、その大きさで避けるべきリスクの重大さを表現する。例えば、速い速度での正面衝突<遅い速度での正面衝突<軽微な衝突(かすり傷)<衝突ギリギリの接近<0とする。報酬は、正の値とし、その大きさにより、達成するべき望ましい状態や経済的な制御の度合いを表現する。
 mをコントロール可能な自己のロボットの状態、eをコントロール可能ではない環境の状態を示すものとする。状態遷移確率p(st+1|s,a)は時刻tにおける自己のロボットに対する制御入力aを用いて、p(st+1|s,a)=p(et+1|e,m)p(mt+1|m,a)のように表すことができる。時刻tからTまでの状態の系列をst:T、制御の系列をat:T、危険度の系列をdt:T、報酬の系列をrt:Tとそれぞれ表すとして、これらの系列の同時分布p(st:T,at:T,dt:T,rt:T)が、p(st:T,at:T,dt:T,rt:T)=p(s){Πt-1 T-1p(d,r|s,a,st+1)p(st+1|s,a)p(a|s)}p(a,s)のように表すことができる場合、環境eが自己のロボットの制御ではコントロール可能ではなくとも、観測可能であり、かつ、p(st+1|s,a)が時刻tによらない定常な分布であれば、定常なマルコフ決定過程(MDP:Markov Decision Process)であると言える。mやeに死角や遮蔽によって観測できない部分がある場合、部分観測マルコフ決定過程(POMDP:Partially Observable MDP)である。以下、状態が観測される過程としてMDPの環境下におけるものとして説明し、POMDP環境下での計算については後述する。
 (状態評価関数)
 危険度dを負の報酬とみなして、報酬rと和をとった合計値の時刻tからTまでの系列の和の分布p(st:T,at:T,dt:T,rt:T)に関する期待値が最大になるよう制御を行った場合、高い危険度dを生じさせてしまう制御が含まれてしまう可能性を排除できない。期待値をとらずに環境eの状態遷移確率が常に危険度dの絶対値が最大となる最悪ケースを想定した場合、過剰に保守的な制御を行ってしまい、報酬rが低くなる可能性がある。そこで、衝突事故リスクを回避しつつ、目的地への素早い移動などのタスク達成を両立させるように、複数の状態評価関数を使用する。
 d<δの事象を避けるべき事故とし、時刻tで状態sについて行動aをとり、その後に方策πにしたがった場合について考える。この場合の事故リスクRδ πを、Rδ π(s,a)≡Pπ(mink≧t<δ|s,a)と表す。一方、累積報酬和Qπを、Qπ(s,a)≡Eπ[Σk=1 γk-t|s,a]と表す。ここで、Eπ[・|s,a]は、状態sにおいて、行動aを選択し、それ以降は方策πにしたがった制御を行った場合の期待値を表す。強化学習においては、Vπ(s)≡Eπ[Σk=1 γk-t|s]と定義され、Vπ(s)=Eπ[Qπ(s,a)|s]という関係になる。状態sは、例えば、2次元空間、又は、3次元空間の位置を示し、さらにはこれには限定されず、速度、加速度、トルク、重量、等、物体の状態(物理量)を示す多次元の量である。状態sの内容により、表現できる状態及び出力されるリスクを様々なバリエーションとして拡張することが可能である。例えば、物体同士の衝突等を示すリスクのみならず、電波、音、光等、リスクの対象となり得る現象についても記述することが可能である。
 γは、割引率と呼ばれる定数であり、0≦γ<1を満たす。γ<1とすることにより、次の制御によって、同じ衝突を起こすとしても、例えば、3分後に起こす衝突の影響を、1時間後に起こす衝突の影響よりも重視することができる。
 最適な方策にしたがった場合の衝突リスク及び累積報酬和をそれぞれ、Rδ (s,a)=minπδ π(s,a)=P(mink≧t<δ|s,a)、Q(s,a)=maxππ(s,a)と定義する。これらの状態リスク、状態価値という2種類の状態評価関数を用いて以下のような行動選択を行う。
 <第1手法>
 第1手法では、リスクと報酬とを考慮し、2段階の選択を行う。例えば、安全である場合と、安全ではない場合について別の選択を行う。以下、φを空集合とする。また、argmin及びargmaxは、aについてのmin及びmaxを考慮するものとする。
 安全である場合、すなわち、リスクRδ (s,a)をε以下に抑えられる制御入力が存在する({a|Rδ (s,a)<ε}≠φ)場合、平均報酬が最も高くなる制御を行う。例えば、a=argmax[Q(s,a)](ただし、a∈{a’|Rδ (s,a’)<ε})を選択する。
 安全ではない場合、すなわち、リスクRδ (s,a)をε以下に抑えられる制御入力が存在しない({a|Rδ (s,a)<ε}=φ)場合、リスクが最も低くなるように制御を行う。例えば、a=argmin[Rδ (s,a)]を選択する。
 <第2手法>
 第2手法では、リスクと報酬とを考慮し、3段階の選択を行う。例えば、とても安全である場合と、とても安全であるとは言えない場合と、安全ではない場合について別の選択を行う。
 とても安全である場合、すなわち、リスクRδ (s,a)をε以下に抑えられる制御入力が存在する({a|Rδ (s,a)<ε}≠φ)場合、平均報酬が最も高くなる制御を行う。例えば、a=argmax[Q(s,a)](ただし、a∈{a’|Rδ (s,a’)<ε})を選択する。
 とても安全であるとは言えない場合、すなわち、リスクRδ (s,a)をε以下に抑えられる制御入力は存在しないが、リスクRδ (s,a)をε以下に抑えられる制御入力は存在する場合、適度にリスク回避をする制御を行う。例えば、a=argmin[wRδ (s,a)-(1-w)Q(s,a)](ただし、a∈{a’|Rδ (s,a’)<ε}、0<w<1)を選択する。
 安全ではない場合、すなわち、リスクRδ (s,a)をε以下に抑えられる制御入力が存在しない({a|Rδ (s,a)<ε}=φ)場合、リスクが最も低くなるように制御を行う。例えば、a=argmin[Rδ (s,a)]を選択する。
 第1手法、第2手法いずれにおいても、上記のような制御を行うためには、リスクRδ (s,a)と累積報酬和Q(s,a)の計算が必要となる。以下、その計算方法について説明する。
 状態リスク(リスク)、状態価値(累積報酬和)はともに再帰的な方程式が成り立つ。状態価値関数は、Bellman方程式により表すことができる。すなわち、累積報酬和Q(s,a)は、以下のように表される。
Figure JPOXMLDOC01-appb-M000001
 本実施形態に係る問題設定の場合、取り得る行動に制約がかかるので、下記のように修正される。
Figure JPOXMLDOC01-appb-M000002
 衝突リスクRδ (s,a)に対しても、以下の再帰的な方程式が成り立つ。
Figure JPOXMLDOC01-appb-M000003
 同様に、方策πのもとでの衝突リスクRδ (s,a)については、以下の再帰方程式が成り立つ。ただし、1 δは、d<δというイベント(衝突)が起きた場合に1、それ以外の場合に0となる確率変数を表す。
Figure JPOXMLDOC01-appb-M000004
 この再帰方程式を繰り返し適用することにより、以下の式を得る。
Figure JPOXMLDOC01-appb-M000005
 制御を行う観点からは、行動aの関数であるとどう制御すべきか明確であるため、上述の式で考えることとなるが、関数による近似を行って学習を行う観点からは、入力変数の次元は小さい方が便利であるので、この数式の両辺において、aについての最小値をとり、状態リスク関数Rδ (s)を以下のように定義する。
Figure JPOXMLDOC01-appb-M000006
 この状態リスク関数から行動リスク関数への復元は、以下の式により行う。
Figure JPOXMLDOC01-appb-M000007
 上記のように表すことが可能であるため、強化学習を用いることでリスク関数を計算することが可能となる。あるいは、十分大きな時刻TにおいてはRδ π(sT+1,aT+1)をゼロと近似すれば、通常の動的計画法(DP:Dynamic Programming)やモンテカルロ法を用いることで状態リスク値を計算することが可能となる。すなわち、報酬としてd<δの場合は1、それ以外の場合は0となる二値の確率変数を考えた場合の平均評価とほぼ同等なものとなる。通常の平均評価と異なるのは、割引率γの代わりに、P(d≧δ|s,a)が使用される点である。このように示された確率も、0から1の間の値となる。割引率と異なり、任意の状態sで1未満であることは保証できないため、一様ノルムのもとで縮小写像とはいえないが、L(1≦p<∞)ノルムに関しては縮小写像となる。
 動的計画法やモンテカルロ法で正確に状態リスク値を計算するには、計算時間がかかる。とくに、将来の時刻Tが大きい場合は計算量が大きくなる。そのため、リアルタイムでリスクを評価する必要がある場合など、限られた計算資源では計算が困難になる場合がある。その場合は、事前に多数の状態における状態リスク値を動的計画法やモンテカルロ法で求めて保存しておき、それを教師データとして、教師あり学習を行うことで、状態を入力として与えたときに出力として状態リスク値を出力する関数近似器を学習する。
モンテカルロ法で状態リスクを計算する場合、各状態でのリスクを確率的にサンプルし、それらの確率的にサンプルされたリスクの平均値で状態リスク値を算出する。教師あり学習で状態リスク関数を生成する場合、この確率的にサンプルされたリスクを教師ラベルとして教師データを構成してもよい。
 一度d<δとなるイベントが発生すると、それ以降の状態に依らず状態リスク関数Rδ (s)は1に確定する。したがって、d<δとなる危険度が発生した状態が終端状態となる。ただし、複数の物体を想定した多体の状態との衝突を考慮する場合には、状態数が膨大となり、動的計画法の適用は困難となる。
 動的計画法の計算量を減らすために、小さい状態空間で学習させた低次元の関数近似器の構築を行う。ここでの小さい状態空間とは、多体の状態を考えず、環境eにたかだか1台の移動物体(あるいは静止障害物)しか含まれない場合を想定した状態空間のことを言う。ここで、多体の状態のリスク関数は、当該小さい状態空間で構築されたリスク関数の和として表す。N体の移動物体(あるいは、静止障害物等)が存在するとし、n(1≦n≦N)番目の移動物体と衝突する2体間の危険度をdとする。また、N体の移動物体同士は独立に状態遷移するものとする。この場合、以下の式が成り立つ。この式は、1以下であるP(min{d,・・・,d}=d|d<δ)を1と仮定して上から抑えることにより、多体間の状態リスク関数の値が、それぞれの2体との状態リスク関数の和より小さくなることを保証する。すなわち、2体間の状態リスク関数の値の和から多体間の状態リスク関数の最悪評価ができることを意味する。
Figure JPOXMLDOC01-appb-M000008
 2体間の状態空間の場合、多体間の状態空間に比べて状態空間が小さくなるため、計算量を減らすことができ、動的計画法を用いることが可能となる。動的計画法であれば、数値的に正確な解(数値解)が求められる。ただし、全ての取り得る状態における数値解を求めることは困難であるので、複数のサンプリングした状態で数値解を求め、その数値解に平均的に近づくような関数近似器を学習により取得する。
 状態数が多すぎる場合は、強化学習と同様のアプローチをとる。前述の通り、[数4]で示した式は、Bellman方程式と類似の方程式であり、Bellman方程式からBellmanオペレータを定義するのと同様の手順で右辺をオペレータとして定義することが可能である。このオペレータは、一般にL(1≦p<∞)ノルムについて縮小写像となるので、テーブル表現された関数の場合、動的計画法のように、確率的に生じるすべてのイベントを解析しなくとも、確率的に得られるサンプルから関数を更新していくことにより、[数6]を満たす関数へとL(1≦p<∞)ノルムの意味で近づけることが可能である。このようなサンプルから更新する手法は、正確な状態遷移の確率を取得できない場合や、状態数が多い場合に使用することが可能である。
 (構成)
 リスク指標評価装置の構成について説明する。図1は、本実施形態に係るリスク指標評価装置1の機能の一例について概略的に示すブロック図である。リスク指標評価装置1は、入力部10と、データサンプリング部12と、リスク計算部14と、データセット格納部16と、状態リスク関数近似部18と、近似性能評価部20と、を備える。以下、リスクとなるイベントを物体同士の衝突として説明する。衝突以外の危険性がある場合には、当該危険性のあるイベントに変更して以下の説明を読み替えてもよい。
 入力部10は、外部からの入力を受け付ける。入力部10から入力されたデータは、適宜データを必要とする箇所へと送信される。入力されるデータは、例えば、自己のロボット自己ロボット及び他の移動物体等の状態を示すデータである。以下、上述した、「移動物体」、「障害物等」を併せて、他物体等と記載する。入力されるデータとは、学習フェーズにおいては、学習に必要となるデータであり、リスクの算出フェーズにおいては、例えば、リスクを算出したい状態に関するデータである。
 データサンプリング部12は、入力部10に入力された状態を示すデータ等をサンプリングする。例えば、連続的な状態データが入力された場合に、この連続的な状態データをサンプリングすることにより、離散化された状態データを生成する。別の例としては、入力されたデータのサンプリングレートを変換するようにしてもよい。
 リスク計算部14は、衝突が起きる所定値δに対して、各時刻tにおける危険度d<δとなる場合に衝突が起きるとして、[数3]乃至[数7]の記載の数式に基づいて状態リスク関数及び行動リスク関数を計算するモデルとして算出する。具体的には、リスク計算部14は、ある状態に対応するリスク指標として状態リスク値を計算する。すなわち、このリスク計算部14は、主にモデルを生成するフェーズにおいて動作する。なお、リスク算出フェーズにおいても、リスクを算出したい状態について並行してモデルを更新することも可能であり、このような場合には、リスク計算部14は、リスク算出フェーズにおいて動作してもよい。また、このモデルは、あらかじめ定められた所定のしきい値(イベント発生値)を用いることにより、計算された危険度と、当該しきい値とを比較してリスク値を計算するものであってもよい。
 データセット格納部16は、データサンプリング部12により生成された状態と、リスク計算部14により計算された状態リスク値とを紐付けて格納する。リスク計算部14は、学習したモデルに基づいて、データサンプリング部12から入力された離散化された状態から状態リスク値を算出し、状態と状態リスク値とを紐付けて格納する。
 状態リスク関数近似部18は、データセット格納部16に格納されている状態データに基づいて状態リスク値を近似する関数近似器を生成する。言い換えると、状態リスク関数近似部18は、近似的に状態リスク値を算出することが可能な関数(関数近似器)を生成する。この関数近似器は、近似性能評価部20へと状態リスク値を出力し、近似性能評価部20からフィードバックされた評価値に基づき、状態リスク関数の精度を向上させる。例えば、[数6]におけるRδ πの含まれる項は、データサンプリング部12によって生成された複数の状態のそれぞれにおいて動的計画法により計算した状態リスク値をもとに、状態と状態リスク値のペアを格納したデータセット格納部16のデータを良く近似できるように関数近似器のパラメータが自動決定される。
 近似性能評価部20は、評価値を算出し、状態リスク関数近似部18内の関数近似器の性能を評価する。時刻t-1におけるサンプリングされた状態データを用いて状態リスク関数近似部18により近似されたリスクRハット(R^)と、データセット格納部16に格納されている時刻t-1におけるリスクRとを比較し、時刻tにおける環境eを算出し、近似性能を評価する。状態リスク関数近似部18と、近似性能評価部20とは、互いに近似されたリスクと、環境の評価とを入出力し、状態リスク関数の最適化を実行する。
 出力部22は、状態リスク関数近似部18が生成した近似された状態リスク関数を外部へと出力する。出力は、例えば、人間が結果を見られるように出力するものであってもよいし、自動的に自己のロボットの動きを制御する信号を生成する制御部へと出力するものであってもよい。同様に、現在及び過去の状態sからパラメータを自動決定する場合には、入力部10も制御部から状態sを入力されるものであってもよい。
 (動作)
 図2は、本実施形態における処理の流れを示すフローチャートである。データセットの生成フェーズの処理について、この図2を参照して説明する。
 まず、入力部10を介してデータサンプリング部12は、様々な状態に関する情報を取得し、適切な粒度でサンプリングを行う(ステップS10)。データサンプリング部12は、特に、危険度の高そうな状況の状態を取得し、サンプリングするようにしてもよい。
 2体間の状態空間は、一例として、以下のように定義する。環境eは、他物体の状態であると考える。この場合、状態s(t)は、以下のような微分方程式で記述される。
Figure JPOXMLDOC01-appb-M000009
 ここで、s(t)は、連続時間tにおける状態を示し、u(t)=(a,a )は、自己物体の制御aと、他物体の制御a とをまとめたものを示す。このF(s(t),u(t))がダイナミクスを規定する。なお、他物体の制御が確率的であるとの仮定の下に、上記の式は、確率微分方程式の一種と言えるが、確率変数は確率過程にしたがうというよりは、離散時刻での確率分布にしたがうと仮定することにより、通常の数値計算法で近似可能となる。以下、簡単のため、特に混乱が起こらない箇所においては、確率分布のことを、単純に確率と省略することがある。
 具体的には、離散時刻t=iでの自己のロボットの行動aを選択肢、他の移動物体の行動a は、自己のロボットの行動と無関係に確率的に選択される。自己のロボットと他の移動物体の行動は、次の離散時刻t=i+1まで同じ行動を選択し続けるものとする。この場合、単位区間i≦t<i+1におけるダイナミクスは、以下のように示される。
Figure JPOXMLDOC01-appb-M000010
 危険度dは、この単位区間(例えば、0.6秒)に[数10]で表されるダイナミクスにしたがって状態遷移した場合に生じるイベント(衝突)から算出される。以下に、各離散時刻内で取り得る行動を自己のロボット、他物体に分けて説明する。
 各離散時刻において、この例で考える自己のロボットの取り得る行動は、前進・停止制御と、方向転換制御の2種類である。この2種類のそれぞれの行動を離散化する。離散化は、リスク指標(状態リスク値)の学習と、報酬の学習とにおいて異なる粒度にしてもよい。例えば、状態リスク関数の学習用には、前進・停止制御と、方向転換制御とを[-4,-2,0,+2,+4]と離散化した値として取得する。一方で、同じ状態を、累積報酬関数の学習用には、[-4,-3,-2,-1,0,+1,+2,+3,+4]と離散化する。
 次に、リスク計算部14は、リスク指標の学習を行うことにより最適化し、状態リスク関数のモデル化を行ってリスク指標の計算を行う(ステップS12)。図3は、状態リスク関数学習時の1エピソードの制御スケジュールの一例を示す図である。各単位区間内は一定の制御を行い、単位区間の切り替わりにおいて、制限値に達していない限り、前進・停止制御と、方向転換制御のそれぞれが5通りの制御が選択可能である。この図3に示すように、例えば、前進・停止制御の単位時間と、方向転換制御の単位時間とを異なるものにしてもよい。
 他物体の時刻tにおける行動a を以下のように確率的に決定する。
Figure JPOXMLDOC01-appb-M000011
 他物体の行動と自己のロボットの行動の組み合わせを考える場合、4.2秒後までで考えなければいけない状態分岐は大きくなるが、例えば、[数11]のように確率的に決定されるようにすると、他物体の選択する行動は、0.84の確率で直前と同じ行動であるため、ほとんどの場合において、直前と同じ行動となる。DPで算出する状態リスク関数は、以下のように表される。
Figure JPOXMLDOC01-appb-M000012
 状態リスク関数Rδ (st+1)は、定義より、0から1までの間の数値となるため、この数値に掛けられる確率が小さくなるほど、その状態への遷移を近似的に0とすることが可能となる。ここで、状態遷移は行動が決まれば決定論的に以下のように表すことができる。
Figure JPOXMLDOC01-appb-M000013
 このことから、状態遷移は、以下のように表すことが可能となる。
Figure JPOXMLDOC01-appb-M000014
 上記の[数14]においては、a =at-1 の場合に決定論的に遷移する状態を、st+1=st+1 とし、それ以外の状態を順次st+1=st+1 (k=2,3,4,5)とした。このように、a =at-1 の場合以外(以下、マイナー状態と呼ぶ)、の状態遷移確率は小さく、マイナー状態遷移へは二回続けて遷移する確率は、メジャーな状態遷移確率に比べて十分小さい値となる。そのため、一度マイナーな状態遷移を行った場合、それ以降は、メジャーな状態遷移しか行わないと仮定しても、数値計算上は大きな問題はおこらない。学習すべき状態は、確率的に生成する。この確率的な生成においては、衝突しないような状態を生成してもリスクの学習に役立てられないため、ある程度、危険性の高い状態、例えば、最適に行動しても4回に1度程度は衝突が発生するような危険な状態を生成して学習に用いるのが望ましい。
 以上のように学習を行うことにより、(1)最大加速度・最大減速度、最大方向転換角度の制約、(2)衝突しないことが保証できている場合における制約、(3)衝突した場合における制約、の3つの制約を課すことにより、考慮すべき状態数を削減することが可能となる。(2)については、例えば、最大加速度のもと、4.2秒間で衝突しない位置及び速度である状態の学習を省略可能である。(3)については、衝突が起こったというイベントにおいて終端状態となるので、実質的に状態数を削減することができる。このようにすることにより、状態数を削減することが可能となり、学習の時間的及び演算能力的なコストを削減することが可能となる。
 リスク計算部14は、[数12]乃至[数14]に示す最適化された状態リスク関数R(s)に基づいて、サンプリングされた状態sから、R(s)を計算し、これら2つの値を紐付けてデータセット格納部16へと格納する(ステップS14)。
 図4は、データセット格納部16に、上記の紐付けられたデータが格納された後のパラメータを自動決定する処理の流れを示すフローチャートである。この処理においては、状態リスク関数Rδ (s)を調整可能なパラメータをもつ関数近似器で表現し、そのパラメータを得られたデータがもっともよく再現できるように最適化を行う。
 状態リスク関数Rδ (s)を表現する関数近似器としては、例えば、ニューラルネットワークがある。
 入力となる状態は、以下の6つの連続値をとる要素からなる。
1.自己のロボットの速度(大きさ)
2.自己のロボット中心座標における他物体のX座標(自己のロボットの進行方向を軸とした座標)
3.自己のロボット中心座標における他物体のY座標(自己のロボットの進行方向と交わる方向を軸とした座標)
4.自己のロボットの方向転換角度を基準とした他物体の方向転換角度
5.他物体の速度(大きさ)
6.他物体の加速度(大きさ)
 なお、3.において「交わる」とは原則的には直交することを意味するが、これには限られず、道路等と平行であり、かつ、自己のロボットの進行方向に対して異なる向きであることを表し、X座標及びY座標を用いて他物体を一意的に表現できる座標系における軸であれば構わない。さらに、XY(あるいはXYZ)の直交座標系ではなく、r-θの極座標系(3次元の場合は、例えば、円柱座標系や球面座標系)であっても構わない。このように、自己のロボットと他物体の位置関係等を適切に表すものであれば、どのような座標系でもよく、計算のしやすさ等により変更できるものとする。
 行動は離散化されており、例えば、0.7秒間隔で
a.前進加速度{3,1,0,-1,-3}[m/s
b.方向転換角度{30°,10°,0°,-10°,-30°}
から選ばれるものとする。
 関数近似器はニューラルネットワークを用いており、その構成は、例えば、図5のとおりである。すなわち、入力として、上述した状態を受け付ける6ユニット、中間層は、256ユニットで構成される1層とし、中間層のそれぞれのユニットから出力へと接続され、リスク指標が取得される。使用するニューラルネットワークの構成は、これには限られず、ユニット数及び中間層の層数は、設計により変更できるものとする。
 まず、データセットから、状態sと状態リスクR(s)のセットを取得する(ステップS20)。状態リスク関数近似部18は、状態sを取得し、近似性能評価部20は、対応する状態リスクR(s)を取得する。
 次に、下記のように、状態リスク関数の最適化を行う(ステップS22)。この最適化は、例えば、データセット格納部16に格納されている時系列に沿った所定数のデータセットについて入力が終わるまで続けられる(ステップS24:No)。所定数のデータセットを取得し、最適化した後、自動パラメータ決定のモデル化についての学習は終了する(ステップS24:Yes)。別の例としては、所定数のデータではなく、考え得る衝突等について、十分な学習ができたタイミングで学習を終了するようにしてもよい。
 対称性のため、他物体の相対Y座標が負の場合は、それに-1をかけて,他物体の相対方向転換角度も-1をかけて、片方の座標のみから最適化を行う。この場合、リスクは、例えば、下記のような計算式で計算される。
Figure JPOXMLDOC01-appb-M000015
ここで、σは、活性化関数を表し、Wは、重み付け行列を示す。[数15]の例では、入力の状態sは重み付け行列W(1)により重み付けされ、重み付けされた結果に対して要素毎に活性化関数σを適用して中間層へと出力される。そして、中間層の出力は、重み付け行列W(2)により重み付けされ、活性化関数σが適用されてリスクR^として出力される。
 次に、報酬算出部は、報酬の最適化を行う。この最適化は、ステップS12において算出された状態リスク関数に基づいて、累積報酬関数を最適化することにより実行される。
 累積報酬関数を学習する場合には、リスクが一定値を下回らないような許容される行動のみから学習する必要があるが、この許容される行動として、以下のような基準でリスク関数の学習時にはなかった行動も含められるようにする。
Figure JPOXMLDOC01-appb-M000016
 ここで、aは、状態リスク関数の学習時には含められなかった中間の行動である。例えば、a=+1という中間状態のリスク関数の値を、以下のように設定するものとする。
Figure JPOXMLDOC01-appb-M000017
 Q関数を求める際は、二体間の状態だけでなく、多体間の状態遷移を考慮する必要があり、状態空間が大きくなる。このため、考慮するべき状態数は少ないほうがよい。このように、計算量を減らすための離散化する粒度を減らす一方で、安全性の保証をとるために[数17]のように安全側に評価を行う。また、衝突を避けるための最適行動はしばしば急減速又は急な方向転換など極端な行動をとることによって達成されることが多く、粒度は細かくなくとも範囲が同じであれば十分な精度で状態リスクを推定することができる。
 このように、学習フェーズは、まず、リスク指標の学習を行い、最適化されたリスク指標のモデルに基づいて、報酬の学習を行い、報酬のモデルを最適化する二段階の学習を備える。リスク指標は、入力部10に入力された状態に基づき、上記により決定されたパラメータにしたがったモデルを用いることにより算出される。すなわち、状態リスク関数近似部18は、状態sが入力されると、推定されるリスク指標R^(s)を算出し、出力部22は、算出されたリスク指標(状態リスク値)を出力する。
 次に、算出されたリスク指標に基づいて、制御信号を生成するフェーズの処理について説明する。まず、入力部10を介しリスク指標評価装置1は、制御信号を生成する旨の要求及び、現在の状況を取得する。現在の状態とは、例えば、自己のロボットの速度、加速度(前進・停止、方向転換等の状態を含む)等の自己のロボットに関する状態の情報と、環境の情報、例えば、他物体の自己のロボットに対する相対的な位置、速度等の情報や、障害物の位置等の情報である。
 次に、取得した現在の状態に基づいて、現在時刻から単位時間以上の時間が過ぎた後の自己のロボット及び他物体(障害物)の状態を推定する。この状態の推定は、2体間の推定を行う。他物体や障害物が複数存在する場合は、[数9]に基づき、2体間の推定から、最悪となる状態を推定する。状態の推定は、学習フェーズにおいて学習された状態リスク関数のモデル及び報酬のモデルに基づいて行われる。例えば、他物体の時刻tにおける行動a は、例えば、[数11]のように確率的に決定する。
 次に、例えば[数11]により確率的に決定された他物体の行動の選択並びに状態リスク関数のモデル及び報酬のモデルに基づいて自己のロボットを制御するための信号を生成する。この制御信号の生成は、上述したように、<第1手法>や<第2手法>に基づいて実行される。
 次に、生成された制御信号を外部へと出力する。このように、リスク指標評価装置1は、現在の状態に基づいて自己のロボットの制御信号を出力する。以上の制御信号の生成は、図示しない制御信号生成部により行われてもよい。リスク指標評価装置1の出力したリスク指標に基づいて、このように制御信号が生成され、自動車へと出力されてもよい。
 以上のように、本実施形態によれば、衝突リスクと累積報酬和という2種類の状態評価値を利用することにより、リスク保証を与えつつ、乗り心地や燃費の良さを追求するという安全性と快適性の両立をしたリスクコントロールを行うことが可能となる。さらに、リスク指標を強化学習、動的計画法等を用いて最適化をすることにより、自己のロボット及び他物体の動きについて1次元のみならず、2次元平面におけるリスクが計算可能となり、より安全性を向上することが可能となる。また、多体間のリスクを2体間におけるリスク指標を用いて表すことが可能となる。
 (変形例)
 次に、POMDPによるモデル化について説明する。図6は、POMDPによるモデル化を行う場合のリスク指標評価装置1の機能を概略的に示すブロック図である。POMDPを利用する一例として、障害物等で他の物体が見えない、又は、見えづらい場合が考えられる。
 図6に示すように、本変形例に係るリスク指標評価装置1は、前述した実施形態に係るリスク指標評価装置1の構成にさらに、状態サンプリング部24と、期待状態リスク計算部26とを備えるものである。
 状態サンプリング部24は、入力部10から、観測された状態oを受信し、この観測された状態oから状態s及び状態sの条件付確率p(s|o)を算出し、サンプリングする。状態リスク関数近似部18は、状態サンプリング部24がサンプリングした状態sを用いることにより、前述の実施形態と同様に、リスク関数の近似を行う。
 期待状態リスク計算部26は、状態サンプリング部24が算出した条件付確率p(s|o)と、状態リスク関数近似部18が算出した近似されたリスクR^(s)に基づいて、隠れた状態を推定した状態リスクの期待値E[R^(s)|o]を計算する。
 リスクの指標となるデータセットの生成については、図2と同様のフローチャートにしたがう。ただし、ステップS10において取得するデータは、危険度の高そうな状況の状態をサンプリングすることに加え、隠れた状態のうち危険度の高そうな状況の状態のサンプリングも併せて行う。リスク計算部14は、隠れた状態についても、危険度の高そうな状態に基づいて、リスクの計算を行う。このリスクの計算は、前述した実施形態と同様に確率的に行う。
 図7は、本変形例における処理の流れを示すフローチャートである。POMDPを用いる場合には、まず、隠れた状態のうち、危険度の高そうな状態をサンプリングする(ステップS30)。この際、隠れた状態のみならず、前述した実施形態と同様に、隠れていない状態についてもサンプリングを併せて行ってもよい。次に、以下の例にしたがい、リスクの計算を行い(ステップS32)、得られたs及びRδ (s)のデータセットをデータセット格納部16へと格納する。
 MDPを構成する状態sのうちの一部しか観測できていない場合は、自動パラメータ決定法による状態リスク値Rδ (s)を直接評価できない。その場合は、観測した状態から状態sを推定することで期待される状態リスク値を求める。いま、観測された状態をoとし、観測できていない隠れた状態をhとする。ここで、s=(o )なる関係が成り立つ。隠れた状態hは、観測oからは一意に定まらず確率的に決まるものとする。たとえば、曲がり角において、曲がり角の先の通路が見えない場合、その曲がり角の先から他物体が向かってきているかどうかのイベントは確率的に生じると考える。このとき、この隠れ状態hの生成される条件付き確率p(h|o)に関して状態リスク関数の期待値をとった期待状態リスク関数E[Rδ (s)|o]を求めることで、観測された状態のみから状態リスクを評価することができる。
Figure JPOXMLDOC01-appb-M000018
 期待状態リスク関数の計算は、隠れ状態hの生成される条件付き確率p(h|o)から隠れ状態hを複数サンプルし、そのサンプル平均を求めることで求めることができる。
Figure JPOXMLDOC01-appb-M000019
Figure JPOXMLDOC01-appb-M000020
ただし、一般に危険な状態を含む隠れ状態hの生成確率は小さくなるため、少ない回数のサンプリングでより正確な期待状態リスク関数を評価するために重点サンプリングを用いることが望ましい。重点サンプリングはp(h|o)とは別の条件付き確率分布となるq(h|o)をサンプラーとして用いて次式のように計算することができる。
Figure JPOXMLDOC01-appb-M000021
 重点サンプリングは、不偏性は失うものの分散を低減するために以下のような形式で計算することもできる。
Figure JPOXMLDOC01-appb-M000022
 そのほか、期待状態リスク関数を求めるために数値的な積分計算の手法を用いることができる。
 期待状態リスク関数を用いることで、将来の状態についての期待状態リスクを評価することができる。k時刻先の将来の期待状態リスクを評価する場合、隠れた状態hは将来の状態st+kを表わす。この将来の状態を複数、評価することで状態の系列からなる軌跡の期待状態リスクを評価できる。
 隠れた状態のサンプリングからデータセットの格納まで終了した後に、状態リスク評価を行うことが可能となる。上述の処理の後、期待状態リスクの評価を行い(ステップS36)、例えば、隠れた状態をも予測した自動車の自動制御の出力値を出力する。
 上記では、二体間の状態リスク関数から多体間の状態リスク関数の最悪評価ができることを述べたが、危険度が二体間で定義される問題の場合、最悪評価を行うことなく、二体間の状態リスク関数から三体間の状態リスク関数、また三体間の状態リスク関数から四体間の状態リスク関数といった、より高次の多体間状態リスク関数を近似的に求めることも可能である。たとえば、衝突という危険度に関しては、二体間で定義される。したがって三体間の状態リスク関数を考える際も、最終的にはいずれか一つの物体との危険度を考えれば良い。そのため、ある程度、先読みをした将来では二体間状態リスク関数で十分、精度良く状態リスク関数を表現できると考えるなら直近の将来に関してのみ三体間の相互作用を考えた状態遷移を考慮し、動的計画法を用いることで三体間の状態リスク関数を求めることができる。
 (リスクの変形例)
 前述の実施形態では、危険度d<δとなるような状態を評価していた。この場合、k≧tとなる全ての時間においてδよりも小さい危険度(絶対値がδよりも大きい危険度)が生じる確率を抑えるような評価をしていたが、これには限られない。
 例えば、所定の時間Tを定義し、t≦k≦t+Tの間においてδより小さい危険度が生じる確率を抑えてもよい。この場合、リスク関数は、Rδ π(s,a)≡Pπ(mint≦k≦t+T<δ|s,a)と書き換えることができる。このように危険度の範囲を設定することにより、安全と評価できなくなる状態を抑制し、又は、評価時間を削減することが可能となる。
 別の例として、Eπ[Σk=t t+Tβ]≧cとなる制約を満たしつつEπ[Σk=t t+Tγ]を最大化する目的関数のもとで最適な方策πを求めてもよい。ここで、βは、0≦β≦1の定数である。この場合、時刻kは時刻t以降の無限時間先までを考える、すなわち、Tが無限大の場合を含むことができるが、その場合はEπ[Σk=t t+Tβ]が発散しないよう、0≦β<1とする必要がある。
 さらに別の例として、危険な事故が起きたd≦δ’という状態をd’=1、危険な事故が起きていないd>δ’という状態をd’=0という2値で表して以下のようにリスクを評価してもよい。この場合、E[d’]=P(d’=1)×1+P(d’=0)×0=P(d’=1)と書き換えることができる。これに基づいて、Eπ[maxt≦k≦t+T’]≦cを、P(maxt≦k≦t+T’=1)≦cとすることができる。
 このような書き換えは、Pπ(mink≧t<δ|s,a)≦cやPπ(mink≧t<δ)≦cのような制約が、それぞれEπ[D(h)|s,a]≦cやEπ[D(h)]≦cの形式で記述できることを意味する。ここで、hは状態や行動、危険度の過去の系列を表すベクトルであり、D(h)は、d<δ’においてd’=1、d≧δ’においてd’=0となるd’を用いてD(h)=maxt≦k≦t+T’である。
 (安全な集合の変形例)
 Rπ,t(s,a)=Eπ,t[D(h)|s,a]とおく。これは、時刻tで状態sにおいて行動aを取った後、方策πで行動する時のDの期待値を表す。変形例においては、Rη,t(s,a)<εで行動している場合に、Eπ,t[D(h)]がどうなるかを考慮して、安全である行動の集合を定義してもよい。以下において、πのサポートは、supp(π(a|s))={a|π(a|s)>0}と表記する。方策πがどの時刻での方策であるかを明示する必要がある場合は、πやπ(a|s)のように表記する。
 例えば、時刻tにおける安全な方策の集合を{π|supp(π(a|s))=Aη,t(s)}とすることができる。ただし、Aη,t(s)={a|Rη,t(s,a)≦x}である。Rη,t(s,a)の計算に用いられる方策ηは方策πとは異なる方策でよい。方策πとして、Aη,t(s)に含まれる任意の行動aを選択してもよい。
 別の例として、時刻tにおける安全な方策の集合を{π|supp(π(a|s))=Aη,t(s)かつDist(π(a|s),η(a|s))≦y}とすることができる。ただし、Aη,t(s)={a|Rη,t(s,a)≦x}であり、Dist(π(a|s),η(a|s))は方策π(a|s)と方策η(a|s)の距離を測る関数、yは1より小さい定数である。Rη,t(s,a)の計算に用いられる方策ηは方策πとは異なる方策でよいが、方策ηから所定の距離内にある方策であることを要請している。Dist(π(a|s),η(a|s))には、たとえば、Σa∈Aη,t(st)|π(a|s)-η(a|s)|を用いることができる。方策πは、Dist(π(a|s),η(a|s))≦yを満たしている限り、Aη,t(s)に含まれる任意の行動aを選択してもよい。
 さらに別の例として、0≦t≦Tである任意のtに対して、Eπ[|d|+E[Rη(st+1)|s,a]|s]≦Rη(s)を満たす方策πを安全な方策の集合としてもよい。
 このように安全な方策の集合を前述の実施形態と比較して広い範囲で定義することにより、より広い範囲の方策から報酬を探すことで、安全性を保ったまま報酬の最大化に、より適した方策を探すことを可能にできる。
 (多体間における方策について)
 前述の実施形態においては、2体間におけるイベントを多体間に拡張することにより、多体間における方策を推定した。多体間(N体間)における方策は、以下のように異なる例を用いて定義することも可能である。
 例えば、状態がs=(s (1),s (2),・・・,s (N),s (o))と表すことができるとする。ここで、s (1),s (2),・・・,s (N)は、それぞれ環境中の1番目からN番目のオブジェクトの状態を意味し、s (o)は、それ以外の自分の状態を含んだ状態を示す。危険度がd=Σn=1 (n)(s (o),s (n),a,st+1 (o),st+1 (n))のように自分を含んだ状態s (o),st+1 (o)と各オブジェクトの状態s (n),st+1 (n) (ただし、n∈{1,・・・,N})と行動aで決まる関数d (n)(s (o),s (n),a,st+1 (o),st+1 (n))の和で表現されるとし、各関数d (n)(s (o),s (n),a,st+1 (o),st+1 (n))が一定の危険度以上となる危険な事象をSのように表すものとする。このとき、SからSのいずれかの危険な事象が生じる確率は、個々の危険な事象が起きる確率で以下のように抑えることができる。
Figure JPOXMLDOC01-appb-M000023
この関係から、状態遷移確率がp(st+1|s,a)=p(st+1 (o)|s (o),a)Πn=1 p(st+1 (n)|s (n),s (o),a)、方策がπ(a|s (o))と書ける場合、
Figure JPOXMLDOC01-appb-M000024
であることがいえる。ここで、R π,n(s (o),s (n))は状態がs (o)とs (n)のみからなり、状態遷移確率がp(st+1 (n)|s (n),s (o),a)、危険度がd (n)(s (o),s (n),a,st+1 (o),st+1 (n))とかけるシステムにおける状態リスク関数である。
 この結果、状態(st+1 (o),s (n))、危険度d (n)(s (o),s (n),a,st+1 (o),st+1 (n))、状態遷移確率p(st+1 (o)|s (o),a)p(st+1 (n)|s (n),s (o),a)からなるサブシステムのリスクR π,n(s (o),s (n))を求めておくことで、N体のオブジェクトのいずれかのオブジェクトとの間で危険な事象が生じるリスクの上限を評価することが可能となる。これによって、リスク関数を求める労力を減らすことができる。
 上述した説明において、δ、ε等のリスク又は報酬等のしきい値は、サンプルを取得したタイミング又は学習をするタイミング等において、あらかじめ設定された所定の値である。例えば、これらの値は、実験又はシミュレーションを行う中で見つけられた最適な値を用いる。
 上述した実施形態においては、移動ロボットの自動運転について説明したが、本発明の応用範囲は、これには限られない。上述の例においては、2次元平面上におけるリスクコントロールを行ったが、これ以上の次元に適用することもできる。例えば、3次元空間で操作を行うアーム付きロボットの移動制御、自動車の自動制御、多次元の変数が必要となる各種工場やプラントの制御又は投資の制御等、リスクと報酬により2面的に最適化が必要となるシステムに適用することが可能である。
 上記の全ての記載において、リスク指標評価装置1の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりCPU等が実施をしてもよい。ソフトウェアで構成される場合には、リスク指標評価装置1及びその少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD-ROM等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、FPGA(Field-Programmable Gate Array)等の回路に実装され、ハードウェアが実行するものであってもよい。学習モデルの生成や、学習モデルに入力をした後の処理は、例えば、GPU等のアクセラレータを使用して行ってもよい。
 また、本実施形態に係る学習モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとして利用することが可能である。すなわち、コンピュータのCPU(Central Processing Unit)が格納部に格納されているモデルに基づいて、演算を行い、結果を出力するように動作する。
 上記の全ての記載に基づいて、本発明の追加、効果又は種々の変形を当業者であれば想到できるかもしれないが、本発明の態様は、上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更及び部分的削除が可能である。
 例えば、図1及び図6においては、データセットの生成と、パラメータ自動決定とについて、同じ装置内に含まれることとしているが、これには限られず、データセットの生成に関する装置と、パラメータ自動決定とに関する装置とを別々にしても構わない。この場合、データセット格納部16を共有する様にすれば、前述した作用・効果を奏することが可能である。また、データセット格納部16を共有するのではなく、データセット格納部16に格納されているデータを共有すれば足りる。
 さらに、図6においては、状態サンプリング部24と、期待状態リスク計算部26とを追加しているが、説明において理解を助けるためのものであり、実際には、状態リスク関数近似部18が、入力部10から観測された状態oを受信しそこで状態sと、条件付確率p(s|o)を求め、さらに状態sから近似されたリスクR^(s)を求めるような構成としてもよい。すなわち、図1に記載のリスク指標評価装置1と、図6に記載のリスク指標評価装置1は、実質的に同じものであってもよい。
1:リスク指標評価装置
10:入力部
12:データサンプリング部
14:リスク計算部
16:データセット格納部
18:状態リスク関数近似部
20:近似性能評価部
22:出力部
24:状態サンプリング部
26:期待状態リスク計算部

Claims (10)

  1.  入力された状態データをサンプリングする、データサンプリング部と、
     サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算する、リスク計算部と、
     サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成する、状態リスク関数近似部と、
     生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力する、出力部と、
     を備えるリスク指標評価装置。
  2.  前記状態リスク関数の近似性能を評価する、近似性能評価部をさらに備え、
     前記状態リスク関数近似部は、前記近似性能評価部が評価した前記状態リスク関数の近似性能に基づいて、当該状態リスク関数を更新する、請求項1に記載のリスク指標評価装置。
  3.  前記近似性能評価部は、前記状態リスク関数近似部が生成した前記状態リスク関数に基づいて近似された前記状態リスク値と、前記リスク計算部が計算した前記状態リスク値とを比較し、前記状態リスク関数近似部の近似性能を評価する、請求項2に記載のリスク指標評価装置。
  4.  前記リスク計算部は、自己又は他物体が取り得る行動と、サンプリングされた前記状態データとに基づいて、危険度を算出し、当該危険度と、イベントが発生するとされる所定のイベント発生値とを比較することにより、サンプリングされた前記状態データにおける前記リスク指標を計算する、請求項1乃至請求項3のいずれかに記載のリスク指標評価装置。
  5.  前記状態リスク関数近似部は、強化学習又は動的計画法により前記状態リスク関数を生成する、請求項1乃至請求項4のいずれかに記載のリスク指標評価装置。
  6.  前記状態リスク値は、確率分布として定義され、多体間における状態リスク値を2体間における状態リスク値を用いて評価する、請求項1乃至請求項5のいずれかに記載のリスク指標評価装置。
  7.  前記状態データは、前記リスク指標を出力する対象の状態を、多次元の量として表したデータである、請求項1乃至請求項6のいずれかに記載のリスク指標評価装置。
  8.  請求項1から7のいずれかに記載のリスク指標評価装置によって算出された前記状態リスク値に基づいて、安全な方策の集合を決定し、前記安全な方策の集合に属する方策又は状態に基づいて、報酬を最大化する学習をする、学習装置。
  9.  データサンプリング部が、入力された状態データをサンプリングするステップと、
     リスク計算部が、サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算するステップと、
     状態リスク関数近似部が、サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成するステップと、
     出力部が、生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力するステップと、
     を備えるリスク指標評価方法。
  10.  コンピュータに、
     入力された状態データをサンプリングする、データサンプリング手段、
     サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算する、リスク計算手段、
     サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成する、状態リスク関数近似手段、
     生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力する、出力手段
     として機能させるプログラム。
PCT/JP2019/018806 2018-05-11 2019-05-10 リスク指標評価装置、リスク指標評価方法及びプログラム WO2019216427A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2018092422 2018-05-11
JP2018-092422 2018-05-11
JP2018200594 2018-10-25
JP2018-200594 2018-10-25

Publications (1)

Publication Number Publication Date
WO2019216427A1 true WO2019216427A1 (ja) 2019-11-14

Family

ID=68467500

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/018806 WO2019216427A1 (ja) 2018-05-11 2019-05-10 リスク指標評価装置、リスク指標評価方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2019216427A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408855A (zh) * 2021-05-21 2021-09-17 中国电建集团华东勘测设计研究院有限公司 一种以风险辨识库将风险分级管控和隐患排查治理建立关联关系的方法
CN113793076A (zh) * 2021-05-14 2021-12-14 西安交通大学 一种风险池动态监测方法、系统、设备和可读存储介质
CN116631221A (zh) * 2023-05-05 2023-08-22 同济大学 一种基于蒙特卡洛模拟的在途车辆运行风险量化计算方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133477A (ja) * 2005-11-08 2007-05-31 Internatl Business Mach Corp <Ibm> 利用者の行動を支援するシステム
JP2009288930A (ja) * 2008-05-28 2009-12-10 Murata Mach Ltd 自律移動体及びその移動制御方法
JP2009295103A (ja) * 2008-06-09 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
JP2012041004A (ja) * 2010-08-23 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作制御装置、自律移動ロボットの動作計画プログラム、自律移動ロボットの制御プログラム
JP2018043338A (ja) * 2016-09-16 2018-03-22 ファナック株式会社 ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133477A (ja) * 2005-11-08 2007-05-31 Internatl Business Mach Corp <Ibm> 利用者の行動を支援するシステム
JP2009288930A (ja) * 2008-05-28 2009-12-10 Murata Mach Ltd 自律移動体及びその移動制御方法
JP2009295103A (ja) * 2008-06-09 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
JP2012041004A (ja) * 2010-08-23 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作制御装置、自律移動ロボットの動作計画プログラム、自律移動ロボットの制御プログラム
JP2018043338A (ja) * 2016-09-16 2018-03-22 ファナック株式会社 ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHOW, Y. ET AL.: "Risk-constrained reinforcement learning with percentile risk criteria", ARXIV.ORG, 6 April 2017 (2017-04-06), XP055651716, Retrieved from the Internet <URL:https://arxiv.org/pdf/1512.01629> [retrieved on 20190711] *
HERBERT, S. L. ET AL.: "FaSTrack: a modular framework for fast and guaranteed safe motion planning", ARXIV. ORG, 21 March 2017 (2017-03-21), XP080758733, Retrieved from the Internet <URL:https://arxiv.org/pdf/1703.07373.pdf> [retrieved on 20190711] *
WEISKIRCHER, T. ET AL.: "Predictive guidance and control framework for (semi-) autonomous vehicles in public traffic", IEEE TRANSACTIONS ON CONTROL SYSTEMS TECHNOLOGY, vol. 25, no. 6, 2017, pages 2034 - 2046, XP055651720, ISSN: 1063-6536 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793076A (zh) * 2021-05-14 2021-12-14 西安交通大学 一种风险池动态监测方法、系统、设备和可读存储介质
CN113793076B (zh) * 2021-05-14 2022-08-30 西安交通大学 一种风险池动态监测方法、系统、设备和可读存储介质
CN113408855A (zh) * 2021-05-21 2021-09-17 中国电建集团华东勘测设计研究院有限公司 一种以风险辨识库将风险分级管控和隐患排查治理建立关联关系的方法
CN113408855B (zh) * 2021-05-21 2023-09-19 中国电建集团华东勘测设计研究院有限公司 以风险辨识库将风险管控和隐患排查治理建立关联的方法
CN116631221A (zh) * 2023-05-05 2023-08-22 同济大学 一种基于蒙特卡洛模拟的在途车辆运行风险量化计算方法
CN116631221B (zh) * 2023-05-05 2024-01-23 同济大学 一种基于蒙特卡洛模拟的在途车辆运行风险量化计算方法

Similar Documents

Publication Publication Date Title
CN109655066B (zh) 一种基于Q(λ)算法的无人机路径规划方法
US11842261B2 (en) Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks
US11702105B2 (en) Technology to generalize safe driving experiences for automated vehicle behavior prediction
Jesus et al. Deep deterministic policy gradient for navigation of mobile robots in simulated environments
US10860927B2 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
Li et al. Safe reinforcement learning: Learning with supervision using a constraint-admissible set
CN109434831B (zh) 机器人运行方法、装置、机器人、电子设备及可读介质
US20170168485A1 (en) System and Method for Controlling Autonomous Vehicles
WO2019216427A1 (ja) リスク指標評価装置、リスク指標評価方法及びプログラム
JP2023504223A (ja) 自動または半自動運転車両の適応制御
JP2020511721A (ja) マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置
Herman et al. Inverse reinforcement learning of behavioral models for online-adapting navigation strategies
CN113110478A (zh) 一种多机器人运动规划的方法、系统及存储介质
CN114020013B (zh) 一种基于深度强化学习的无人机编队避撞方法
CN114261400A (zh) 一种自动驾驶决策方法、装置、设备和存储介质
Rottmann et al. Adaptive autonomous control using online value iteration with gaussian processes
JP7468619B2 (ja) 学習装置、学習方法、及び、記録媒体
Mohamed et al. Towards efficient MPPI trajectory generation with unscented guidance: U-MPPI control strategy
Jacinto et al. Navigation of autonomous vehicles using reinforcement learning with generalized advantage estimation
CN116300977A (zh) 一种依托强化学习的铰接车轨迹跟踪控制方法及装置
US20240202393A1 (en) Motion planning
Papadimitriou et al. Multi-stage NMPC for a MAV based collision free navigation under varying communication delays
Quinones-Ramirez et al. Robot path planning using deep reinforcement learning
Hao et al. A Review of Intelligence-Based Vehicles Path Planning
Cruz et al. Reinforcement learning in navigation and cooperative mapping

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19800292

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19800292

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP